特開2023-100532 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 独立行政法人情報通信研究機構の特許一覧

特開2023-100532情報処理システム、情報処理方法および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023100532

(43)【公開日】2023-07-19

(54)【発明の名称】情報処理システム、情報処理方法および情報処理プログラム

(51)【国際特許分類】

G06T 19/20 20110101AFI20230711BHJP

G06T 15/04 20110101ALI20230711BHJP

【ＦＩ】

G06T19/20

G06T15/04

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022001280

(22)【出願日】2022-01-06

(71)【出願人】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】ヨアヒムチャクミハウ

(72)【発明者】

【氏名】リュウジュエン

(72)【発明者】

【氏名】安藤広志

(72)【発明者】

【氏名】内元清貴

【テーマコード（参考）】

5B050

5B080

【Ｆターム（参考）】

5B050BA12

5B050CA08

5B050DA04

5B050EA28

5B050FA02

5B080GA22

(57)【要約】

【課題】より簡素化された構成で人物の３Ｄモデルを再現できる構成を提供する。
【解決手段】情報処理システムは、カメラで撮像された人物の２Ｄ映像から顔のテクスチャを再構築する顔テクスチャ再構築部と、人物の２Ｄ映像から顔の３Ｄ形状を再構築する顔形状再構築部と、人物の２Ｄ映像から当該人物のポーズを推定するポーズ推定部と、３Ｄ形状データに基づいて推定されたポーズに対応する身体の３Ｄ形状を再構築するとともに、再構築された身体の３Ｄ形状と再構築された顔の３Ｄ形状とを統合して、人物の３Ｄ形状を再構築する形状統合部と、テクスチャデータに含まれるテクスチャ画像に再構築された顔のテクスチャ画像をブレンディングして、人物のテクスチャ画像を再構築するテクスチャ再構築部と、カメラで撮像された人物の３Ｄ形状およびカメラで撮像された人物のテクスチャ画像に基づいて、人物の３Ｄモデルを生成するモデル生成部とを含む。
【選択図】図８

【特許請求の範囲】

【請求項1】

カメラと、
予め作成された、身体の３Ｄ形状を示す３Ｄ形状データと、当該身体のテクスチャを示すテクスチャデータとを格納する記憶部と、
前記カメラで撮像された人物の２Ｄ映像から顔のテクスチャを再構築する顔テクスチャ再構築部と、
前記カメラで撮像された人物の２Ｄ映像から顔の３Ｄ形状を再構築する顔形状再構築部と、
前記カメラで撮像された人物の２Ｄ映像から当該人物のポーズを推定するポーズ推定部と、
前記３Ｄ形状データに基づいて前記推定されたポーズに対応する身体の３Ｄ形状を再構築するとともに、前記再構築された身体の３Ｄ形状と前記再構築された顔の３Ｄ形状とを統合して、前記カメラで撮像された人物の３Ｄ形状を再構築する形状統合部と、
前記テクスチャデータに含まれるテクスチャ画像に前記再構築された顔のテクスチャ画像をブレンディングして、前記カメラで撮像された人物のテクスチャ画像を再構築するテクスチャ再構築部と、
前記カメラで撮像された人物の３Ｄ形状および前記カメラで撮像された人物のテクスチャ画像に基づいて、前記カメラで撮像された人物の３Ｄモデルを生成するモデル生成部とを備える、情報処理システム。

【請求項2】

前記テクスチャデータは、
前記再構築される身体の３Ｄ形状に対応するテクスチャ画像、および、前記再構築される顔の３Ｄ形状に対応するテクスチャ画像と、
前記再構築される身体の３Ｄ形状に対応するテクスチャマップ、および、前記再構築される顔の３Ｄ形状に対応するテクスチャマップとを含み、
前記カメラで撮像された人物の複数の２Ｄ映像から身体の３Ｄ形状を再構築する身体形状再構築部と、
前記カメラで撮像された人物の複数の２Ｄ映像から身体のテクスチャを再構築する身体テクスチャ再構築部と、
前記カメラで撮像された人物の複数の２Ｄ映像から頭部の３Ｄ形状を再構築する頭部形状再構築部と、
前記再構築された身体の３Ｄ形状と前記再構築された頭部の３Ｄ形状との対応関係を決定し、当該決定された３Ｄ形状の対応関係に基づいて、身体の３Ｄ形状に対応するテクスチャマップと頭部の３Ｄ形状に対応するテクスチャマップとの対応関係を決定し、当該決定されたテクスチャマップの対応関係に基づいて、身体の３Ｄ形状に対応するテクスチャ画像から頭部の３Ｄ形状に対応するテクスチャ画像を生成するテクスチャ統合部とをさらに備える、請求項１に記載の情報処理システム。

【請求項3】

前記形状統合部は、前記テクスチャデータに含まれるテクスチャマップに基づいて、前記再構築された身体の３Ｄ形状と前記再構築された顔の３Ｄ形状とを統合する、請求項２に記載の情報処理システム。

【請求項4】

前記モデル生成部は、前記テクスチャデータに含まれるテクスチャマップに基づいて、前記人物の３Ｄ形状と前記人物のテクスチャ画像とを統合する、請求項２または３に記載の情報処理システム。

【請求項5】

前記テクスチャ再構築部は、前記カメラで撮像された人物のテクスチャ画像のうちマスクを透過した結果を前記テクスチャデータに含まれるテクスチャ画像に重畳する、請求項１～４のいずれか１項に記載の情報処理システム。

【請求項6】

前記カメラで撮像された人物の２Ｄ映像に設定されたウィンドウに対応する部分映像が前記顔テクスチャ再構築部および前記顔形状再構築部に入力され、
前記２Ｄ映像における人物の位置を時間的に平滑化して前記ウィンドウを設定する安定化部をさらに備える、請求項１～５のいずれか１項に記載の情報処理システム。

【請求項7】

カメラで撮像された人物の２Ｄ映像から顔のテクスチャを再構築するステップと、
前記カメラで撮像された人物の２Ｄ映像から顔の３Ｄ形状を再構築するステップと、
前記カメラで撮像された人物の２Ｄ映像から当該人物のポーズを推定するステップと、
予め作成された身体の３Ｄ形状を示す３Ｄ形状データに基づいて前記推定されたポーズに対応する身体の３Ｄ形状を再構築するステップと、
前記再構築された身体の３Ｄ形状と前記再構築された顔の３Ｄ形状とを統合して、前記カメラで撮像された人物の３Ｄ形状を再構築するステップと、
予め作成された身体のテクスチャを示すテクスチャデータに含まれるテクスチャ画像に前記再構築された顔のテクスチャ画像をブレンディングして、前記カメラで撮像された人物のテクスチャ画像を再構築するステップと、
前記カメラで撮像された人物の３Ｄ形状および前記カメラで撮像された人物のテクスチャ画像に基づいて、前記カメラで撮像された人物の３Ｄモデルを生成するステップとを備える、情報処理方法。

【請求項8】

コンピュータに請求項７に記載の方法を実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、３Ｄモデルを再現するための情報処理システム、情報処理方法および情報処理プログラムに関する。

【背景技術】

【0002】

人物をより現実に近い形で表現する３Ｄモデルを再構築し、再構築した３Ｄモデルを遠隔地に伝送するとともに、ＸＲ（ＶＲ／ＡＲ／ＭＲ）の技術を用いて３Ｄ空間を共有する、遠隔のコミュニケーションを提供する技術が提案されている。

【0003】

例えば、非特許文献１は、デプスセンサを用いて人物の３Ｄ形状とテクスチャとを取得し、取得した３Ｄ形状およびテクスチャを遠隔地に伝送し、ＭＲ（複合現実）ヘッドセットを用いて当該人物の３Ｄモデルを実空間に重畳した状態でコミュニケーションできるシステムを開示する。また、人物の３Ｄ形状は、複数のカメラを用いて取得されることもある。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】M. Joachimczak, J. Liu, H. Ando. 2017. Real Time Mixed Reality Telepresence via 3D Reconstruction with HoloLens and Commodity Depth Sensors. In Proceedings of 19th ACM International Conference on Multimodal Interaction (ICMI' 17). ACM, New York, NY, USA, 2 pages. https://doi.org/10. 1145/3136755.3143031

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述の先行技術においては、デプスセンサまたは複数のカメラが必要であり、装置構成が複雑化し得る。そのため、１つのカメラで撮像した人物の２Ｄ映像から、当該人物の３Ｄ形状とテクスチャとを取得して、当該人物の３Ｄモデルを遠隔地に伝送して再現できる手法が要望されている。

【0006】

本発明の一つ目的は、より簡素化された構成で人物の３Ｄモデルを再現できる構成を提供することである。

【課題を解決するための手段】

【0007】

ある実施の形態に従う情報処理システムは、カメラと、予め作成された、身体の３Ｄ形状を示す３Ｄ形状データと、当該身体のテクスチャを示すテクスチャデータとを格納する記憶部と、カメラで撮像された人物の２Ｄ映像から顔のテクスチャを再構築する顔テクスチャ再構築部と、カメラで撮像された人物の２Ｄ映像から顔の３Ｄ形状を再構築する顔形状再構築部と、カメラで撮像された人物の２Ｄ映像から当該人物のポーズを推定するポーズ推定部と、３Ｄ形状データに基づいて推定されたポーズに対応する身体の３Ｄ形状を再構築するとともに、再構築された身体の３Ｄ形状と再構築された顔の３Ｄ形状とを統合して、カメラで撮像された人物の３Ｄ形状を再構築する形状統合部と、テクスチャデータに含まれるテクスチャ画像に再構築された顔のテクスチャ画像をブレンディングして、カメラで撮像された人物のテクスチャ画像を再構築するテクスチャ再構築部と、カメラで撮像された人物の３Ｄ形状およびカメラで撮像された人物のテクスチャ画像に基づいて、カメラで撮像された人物の３Ｄモデルを生成するモデル生成部とを含む。

【0008】

テクスチャデータは、再構築される身体の３Ｄ形状に対応するテクスチャ画像、および、再構築される顔の３Ｄ形状に対応するテクスチャ画像と、再構築される身体の３Ｄ形状に対応するテクスチャマップ、および、再構築される顔の３Ｄ形状に対応するテクスチャマップとを含んでいてもよい。

【0009】

情報処理システムは、カメラで撮像された人物の複数の２Ｄ映像から身体の３Ｄ形状を再構築する身体形状再構築部と、カメラで撮像された人物の複数の２Ｄ映像から頭部の３Ｄ形状を再構築する頭部形状再構築部と、再構築された身体の３Ｄ形状と再構築された頭部の３Ｄ形状との対応関係を決定し、当該決定された３Ｄ形状の対応関係に基づいて、身体の３Ｄ形状に対応するテクスチャマップと頭部の３Ｄ形状に対応するテクスチャマップとの対応関係を決定し、当該決定されたテクスチャマップの対応関係に基づいて、身体の３Ｄ形状に対応するテクスチャ画像から頭部の３Ｄ形状に対応するテクスチャ画像を生成するテクスチャ統合部とをさらに含んでいてもよい。

【0010】

形状統合部は、テクスチャデータに含まれるテクスチャマップに基づいて、再構築された身体の３Ｄ形状と再構築された顔の３Ｄ形状とを統合するようにしてもよい。

【0011】

モデル生成部は、テクスチャデータに含まれるテクスチャマップに基づいて、人物の３Ｄ形状と人物のテクスチャ画像とを統合するようにしてもよい。

【0012】

テクスチャ再構築部は、カメラで撮像された人物のテクスチャ画像のうちマスクを透過した結果をテクスチャデータに含まれるテクスチャ画像に重畳するようにしてもよい。

【0013】

マスクは、透過度が連続的に変化するように構成されていてもよい。

【0014】

カメラで撮像された人物の２Ｄ映像に設定されたウィンドウに対応する部分映像が顔テクスチャ再構築部および顔形状再構築部に入力されてもよい。情報処理システムは、２Ｄ映像における人物の位置を時間的に平滑化してウィンドウを設定する安定化部をさらに含んでいてもよい。

【0015】

テクスチャ統合部は、身体の３Ｄ形状に対応するテクスチャ画像と頭部の３Ｄ形状に対応するテクスチャ画像とを統合するとともに、身体の３Ｄ形状に対応するテクスチャマップと頭部の３Ｄ形状に対応するテクスチャマップとを統合することで、テクスチャデータを生成するようにしてもよい。

【0016】

別の実施の形態に従う情報処理方法は、カメラで撮像された人物の２Ｄ映像から顔のテクスチャを再構築するステップと、カメラで撮像された人物の２Ｄ映像から顔の３Ｄ形状を再構築するステップと、カメラで撮像された人物の２Ｄ映像から当該人物のポーズを推定するステップと、予め作成された身体の３Ｄ形状を示す３Ｄ形状データに基づいて推定されたポーズに対応する身体の３Ｄ形状を再構築するステップと、再構築された身体の３Ｄ形状と再構築された顔の３Ｄ形状とを統合して、カメラで撮像された人物の３Ｄ形状を再構築するステップと、予め作成された身体のテクスチャを示すテクスチャデータに含まれるテクスチャ画像に再構築された顔のテクスチャ画像をブレンディングして、カメラで撮像された人物のテクスチャ画像を再構築するステップと、カメラで撮像された人物の３Ｄ形状およびカメラで撮像された人物のテクスチャ画像に基づいて、カメラで撮像された人物の３Ｄモデルを生成するステップとを含む。

【0017】

さらに別の実施の形態に従えば、コンピュータに上記の方法を実行させるための情報処理プログラムが提供される。

【発明の効果】

【0018】

本発明によれば、より簡素化された構成で人物の３Ｄモデルを再現できる。

【図面の簡単な説明】

【0019】

【図1】本実施の形態に従う情報処理システムのシステム構成の一例を示す模式図である。

【図2】本実施の形態に従う情報処理システムを構成する情報処理装置のハードウェア構成の一例を示す模式図である。

【図3】本実施の形態に従う情報処理システムの初期モデル構築段階における処理手順を示すフローチャートである。

【図4】本実施の形態に従う情報処理システムの３Ｄモデル再現段階における処理手順を示すフローチャートである。

【図5】本実施の形態に従う情報処理システムの初期モデル構築段階を実現するための機能構成例を示す模式図である。

【図6】本実施の形態に従う情報処理システムの初期モデル構築段階において生成されるデータの一例を示す図である。

【図7】本実施の形態に従う情報処理システムの初期モデル構築段階におけるテクスチャ統合の処理を説明するための模式図である。

【図8】本実施の形態に従う情報処理システムの３Ｄモデル再現段階を実現するための機能構成例を示す模式図である。

【図9】本実施の形態に従う情報処理システムの３Ｄモデル再現段階において生成されるデータの一例を示す図である。

【図10】本実施の形態に従う情報処理システムにおけるブレンディング処理を説明するための模式図である。

【図11】本実施の形態に従う情報処理システムのシステム構成の別の一例を示す模式図である。

【発明を実施するための形態】

【0020】

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

【0021】

本明細書においては、３次元あるいは立体を「３Ｄ」と略称し、２次元あるいは平面を「２Ｄ」と略称する。

【0022】

［Ａ．システム構成］
図１は、本実施の形態に従う情報処理システム１のシステム構成の一例を示す模式図である。図１には、例えば、情報処理装置１００－１，１００－２（以下、「情報処理装置１００」と総称することもある。）および情報処理装置２００がネットワーク２を介して接続されている構成例を示す。情報処理装置１００－１にはカメラ１４０－１が接続されており、情報処理装置１００－２にはカメラ１４０－２が接続されている。

【0023】

情報処理装置１００は、人物１０の初期モデルを予め取得している。情報処理装置１００は、カメラ１４０で人物１０を連続的に撮像することで、人物１０の３Ｄモデルを再現する。なお、再現される３Ｄモデルは、撮像される人物１０の動きや表情を反映してリアルタイムに変化する。再現される人物１０の３Ｄモデルは、３Ｄアバター、あるいは、単にアバターとも称される。

【0024】

図１に示す例では、カメラ１４０－１の視野範囲内には人物１０－１が存在しており、カメラ１４０－２の視野範囲内には人物１０－２が存在している。情報処理装置１００－１は、人物１０－１を撮像することで情報処理装置２００の画面上などに、人物１０－１の３Ｄモデル２０－１を再現する。同様に、情報処理装置１００－２は、人物１０－２を撮像することで情報処理装置２００の画面上などに、人物１０－２の３Ｄモデル２０－２を再現する。情報処理装置２００の画面上に再現される３Ｄモデル２０－１，２０－２は、任意の３Ｄ空間に存在させることができる。

【0025】

［Ｂ．ハードウェア構成例］
図２は、本実施の形態に従う情報処理システム１を構成する情報処理装置１００のハードウェア構成の一例を示す模式図である。典型的には、情報処理装置１００は、汎用コンピュータを用いて実現できる。

【0026】

図２を参照して、情報処理装置１００は、主要なハードウェアコンポーネントとして、ＣＰＵ１０２と、ＧＰＵ１０４と、主メモリ１０６と、ディスプレイ１０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）１１０と、入力デバイス１１２と、光学ドライブ１１４と、カメラインターフェイス（Ｉ／Ｆ）１１８と、ストレージ１２０とを含む。

【0027】

ＣＰＵ１０２および／またはＧＰＵ１０４は、本実施の形態に従う情報処理方法を実行するプロセッサである。ＣＰＵ１０２およびＧＰＵ１０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

【0028】

主メモリ１０６は、プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）などの揮発性記憶装置で構成される。

【0029】

ディスプレイ１０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid crystal display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

【0030】

ネットワークインターフェイス１１０は、ネットワーク２に接続された任意の情報処理装置などとの間でデータをやり取りする。

【0031】

入力デバイス１１２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。

【0032】

光学ドライブ１１４は、ＣＤ－ＲＯＭ（compact disc read only memory）、ＤＶＤ（digital versatile disc）などの光学ディスク１１６に格納されている情報を読出して、他のコンポーネントへ出力する。光学ディスク１１６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ１１４が光学ディスク１１６からプログラムを読み出して、ストレージ１２０などにインストールすることで、コンピュータが情報処理装置１００として機能するようになる。したがって、本発明の主題は、ストレージ１２０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク１１６などの記録媒体でもあり得る。

【0033】

図２には、非一過的な記録媒体の一例として、光学ディスク１１６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical disk）などの光磁気記録媒体を用いてもよい。

【0034】

カメラインターフェイス１１８は、カメラ１４０が撮像した映像を取得するとともに、カメラ１４０に対して撮像に関する指令などを与える。

【0035】

ストレージ１２０は、コンピュータを情報処理装置１００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（solid state drive）などの不揮発性記憶装置で構成される。

【0036】

より具体的には、ストレージ１２０は、図示しないＯＳ（operating system）の他、初期モデル構築の処理（初期モデル構築段階）を実現する初期モデル構築プログラム１２２と、３Ｄモデルを生成する処理（３Ｄモデル再現段階）を実現する３Ｄモデル再現プログラム１２４とを格納している。これらの情報処理プログラムは、コンピュータの一例である情報処理装置１００に本実施の形態に従う各種処理を実行させる。

【0037】

また、初期モデル構築段階において生成される初期３Ｄ形状データ１６２および初期テクスチャデータ１６８がストレージ１２０に格納されていてもよい。すなわち、ストレージ１２０は、予め作成された、身体の３Ｄ形状を示す３Ｄ形状データ１２６と、身体のテクスチャを示す初期テクスチャデータ１６８（テクスチャデータ）とを格納する記憶部に相当する。

【0038】

図２には、単一のコンピュータを用いて情報処理装置１００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、本実施の形態に従う情報処理方法を実現するようにしてもよい。

【0039】

プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（application specific integrated circuit）やＦＰＧＡ（field-programmable gate array）などを用いて実現してもよい。

【0040】

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置１００を実現できるであろう。

【0041】

また、情報処理システム１を構成する情報処理装置２００のハードウェア構成についても、図２と同様であるので、詳細な説明は繰り返さない。

【0042】

［Ｃ．３Ｄモデル再現に係る処理手順］
３Ｄモデルを再現するためには、典型的には、初期モデル構築の処理（初期モデル構築段階）および３Ｄモデルを生成する処理（３Ｄモデル再現段階）が実行される。

【0043】

本明細書において、「テクスチャデータ」は、テクスチャ画像およびテクスチャマップを総称する用語である。

【0044】

（ｃ１：初期モデル構築段階）
図３は、本実施の形態に従う情報処理システム１の初期モデル構築段階における処理手順を示すフローチャートである。図３に示す各処理は、典型的には、情報処理装置１００のプロセッサがプログラム（図２に示す初期モデル構築プログラム１２２）を実行することで実現される。

【0045】

図３を参照して、情報処理装置１００は、カメラ１４０が撮像した２Ｄ映像（１フレーム分）を取得する（ステップＳ１００）。情報処理装置１００は、所定フレーム数の２Ｄ映像を取得したか否かを判断する（ステップＳ１０２）。所定フレーム数の２Ｄ映像が取得されていなければ（ステップＳ１０２においてＮＯ）、ステップＳ１００以下の処理が繰り返される。

【0046】

なお、情報処理装置１００は、ユーザから明示的に指示を受けてカメラ１４０により撮像を開始してもよいし、予め定められた周期で撮像を繰り返してもよい。

【0047】

続いて、情報処理装置１００は、取得した複数の２Ｄ映像（複数視点映像１４４）に基づいて、撮像された身体の３Ｄ形状を示す身体３Ｄ形状データ１６０を再構築する（ステップＳ１０４）。そして、情報処理装置１００は、身体３Ｄ形状データ１６０に含まれるディスプレイスメントマップ内の顔領域に対応する領域を平坦化する（ステップＳ１０６）。最終的に、形状パラメータおよび平坦化後のディスプレイスメントマップを初期３Ｄ形状データ１６２として出力する（ステップＳ１０８）。

【0048】

また、情報処理装置１００は、取得した複数の２Ｄ映像（複数視点映像１４４）に基づいて、身体のテクスチャを示す身体テクスチャデータ（身体テクスチャ画像１６４２および身体テクスチャマップ１６４４）を再構築する（ステップＳ１１０）。

【0049】

また、情報処理装置１００は、取得した複数の２Ｄ映像（複数視点映像１４４）に基づいて、撮像された頭部の３Ｄ形状を示す頭部３Ｄ形状データ１６７を再構築する（ステップＳ１１２）。

【0050】

情報処理装置１００は、テクスチャ統合部１５８は、身体テクスチャデータ１６４および顔テクスチャデータ１６６を統合して、初期テクスチャデータ１６８（初期テクスチャ画像１６８２および初期テクスチャマップ１６８４）を再構築する（ステップＳ１１４）。

【0051】

なお、ステップＳ１０４～Ｓ１０８の処理と、ステップＳ１１０～Ｓ１１４の処理との実行順序は問わない。あるいは、これらの処理を並列的に実行してもよい。

【0052】

最終的に、情報処理装置１００は、人物の初期３Ｄ形状データ１６２および初期テクスチャデータ１６８を初期モデルとして格納する（ステップＳ１１６）。

【0053】

（ｃ２：３Ｄモデル再現段階）
図４は、本実施の形態に従う情報処理システム１の３Ｄモデル再現段階における処理手順を示すフローチャートである。図４に示す各処理は、典型的には、情報処理装置１００のプロセッサがプログラム（図２に示す３Ｄモデル再現プログラム１２４）を実行することで実現される。

【0054】

図４を参照して、情報処理装置１００は、カメラ１４０が撮像した２Ｄ映像（１フレーム分）を取得する（ステップＳ２００）。

【0055】

情報処理装置１００は、取得した２Ｄ映像（１フレーム分）に含まれる顔領域を検出し（ステップＳ２０２）、過去の顔領域の検出結果に基づいて、今回のウィンドウの位置およびサイズを決定する（ステップＳ２０４）。

【0056】

情報処理装置１００は、決定されたウィンドウに対応する部分の２Ｄ映像に基づいて、撮像された顔の画像を示す顔テクスチャ画像１６６６を再構築する（ステップＳ２０６）。すなわち、情報処理装置１００は、カメラ１４０で撮像された人物の２Ｄ映像から顔のテクスチャを再構築する。

【0057】

続いて、情報処理装置１００は、初期モデル構築段階において再構築された初期テクスチャ画像１６８２（初期顔テクスチャ画像１６８６）に顔テクスチャ画像１６６６をブレンディングして、ブレンディッド顔テクスチャ画像１８２４を再構築する（ステップＳ２０８）。すなわち、情報処理装置１００は、予め作成された身体のテクスチャを示すテクスチャデータに含まれるテクスチャ画像（初期顔テクスチャ画像１６８６）に再構築された顔のテクスチャ画像（顔テクスチャ画像１６６６）をブレンディングして、カメラ１４０で撮像された人物のテクスチャ画像（ブレンディッド顔テクスチャ画像１８２４）を再構築する。

【0058】

また、情報処理装置１００は、決定されたウィンドウに対応する部分の２Ｄ映像に基づいて、顔の表情、動き、３Ｄ形状の各々を示すパラメータ（顔表情パラメータ１８４）を再構築する（ステップＳ２１０）。すなわち、情報処理装置１００は、カメラ１４０で撮像された人物の２Ｄ映像から顔の３Ｄ形状を再構築する。

【0059】

また、情報処理装置１００は、２Ｄ映像（１フレーム分）からフレーム毎の身体のポーズ（姿勢）を推定する（ステップＳ２１２）。すなわち、情報処理装置１００は、カメラ１４０で撮像された人物の２Ｄ映像から当該人物のポーズを推定する。推定されたポーズは、身体ポーズデータ１８６としてフレーム毎に出力される。

【0060】

ステップＳ２１０の処理と、ステップＳ２１２の処理とは、並行して実行されてもよいし、直列的に実行されてもよい。処理の実行順序はいずれであってもよい。

【0061】

情報処理装置１００は、初期モデル構築段階において再構築された初期３Ｄ形状データ１６２に、身体ポーズデータ１８６および顔表情パラメータ１８４を入力することで、身体の３Ｄ形状および顔の３Ｄ形状を統合した３Ｄ形状を示す統合３Ｄ形状データ１８８を再構築する（ステップＳ２１４）。より具体的には、情報処理装置１００は、予め作成された身体の３Ｄ形状を示す３Ｄ形状データ（初期３Ｄ形状データ１６２）に基づいて推定されたポーズに対応する身体の３Ｄ形状（統合３Ｄ形状データ１８８）を再構築する。また、情報処理装置１００は、再構築された身体の３Ｄ形状と再構築された顔の３Ｄ形状とを統合して、カメラ１４０で撮像された人物の３Ｄ形状（統合３Ｄ形状データ１８８）を再構築する。

【0062】

なお、ステップＳ２０２～Ｓ２０８の処理と、ステップＳ２１０～Ｓ２１４の処理とは、並行して実行されてもよいし、直列的に実行されてもよい。処理の実行順序はいずれであってもよい。

【0063】

情報処理装置１００は、統合３Ｄ形状データ１８８とブレンディッド顔テクスチャ画像１８２４とを統合し（ステップＳ２１６）、指定された１つの視点から見た３Ｄモデルを出力する（ステップＳ２１８）。すなわち、情報処理装置１００は、カメラ１４０で撮像された人物の３Ｄ形状およびカメラ１４０で撮像された人物のテクスチャ画像に基づいて、カメラ１４０で撮像された人物の３Ｄモデル１９０を生成する。

【0064】

ステップＳ２００～Ｓ２１８の処理は、フレーム毎に繰り返される。

【0065】

［Ｄ．初期モデル構築段階における処理の詳細］
本実施の形態に従う情報処理システム１の初期モデル構築段階においては、人物を撮像することで、３Ｄモデルを再現するための初期モデルを構築する。構築される初期モデルは、人物の身体および顔の情報をそれぞれ反映したものである。

【0066】

図５は、本実施の形態に従う情報処理システム１の初期モデル構築段階を実現するための機能構成例を示す模式図である。図６は、本実施の形態に従う情報処理システム１の初期モデル構築段階において生成されるデータの一例を示す図である。

【0067】

図５に示す各機能は、典型的には、情報処理装置１００のプロセッサがプログラム（図２に示す初期モデル構築プログラム１２２）を実行することで実現される。図５を参照して、情報処理装置１００は、映像取得部１４２と、身体３Ｄ形状再構築部１５０と、３Ｄ形状修正部１５２と、身体テクスチャ再構築部１５４と、顔テクスチャ再構築部１５６と、頭部３Ｄ形状再構築部１５７と、テクスチャ統合部１５８とを含む。

【0068】

（ｄ１：映像取得部１４２）
映像取得部１４２は、カメラ１４０が撮像した２Ｄ映像を取得する。このとき、映像取得部１４２は、３Ｄモデルを再現する対象となる人物を複数視点で撮像した複数の２Ｄ映像（複数視点映像１４４）を取得する。人物に対してカメラ１４０の位置を異ならせて複数視点で撮像するようにしてもよいし、カメラ１４０を固定した状態で人物が身体を回転させて複数視点での撮像を実現してもよい。また、カメラ１４０を複数用意して、それぞれのカメラ１４０で人物を撮像することで複数の２Ｄ映像を取得してもよい。図６（Ａ）には、８つの視点で人物を撮像した複数視点映像１４４の例を示す。

【0069】

なお、初期モデルの再構築に用いる複数視点映像１４４は、５～１０フレーム分の２Ｄ映像が好ましい。

【0070】

（ｄ２：身体３Ｄ形状再構築部１５０）
身体３Ｄ形状再構築部１５０は、複数視点映像１４４に基づいて、身体の３Ｄ形状を再構築する。すなわち、身体３Ｄ形状再構築部１５０は、カメラ１４０で撮像された人物の複数の２Ｄ映像から身体の３Ｄ形状を再構築して、撮像された身体の３Ｄ形状を示す身体３Ｄ形状データ１６０を出力する。図６（Ｂ）には、再構築された身体３Ｄ形状データ１６０を視覚的に表現した例を示す。

【0071】

より具体的には、身体３Ｄ形状再構築部１５０は、２Ｄ映像から人物の身体の３Ｄ形状を示すモデルを再構築する。このような３Ｄ形状を示すデータの再構築には、「Tex2Shape」（Alldieck, T.; Pons-Moll, G.; Theobalt, C.; Magnor, M. Tex2Shape: Detailed Full Human Body Geometry From a Single Image. In 2019 IEEE/CVF International Conference on Computer Vision (ICCV); 2019; pp 2293-2303. https://doi.org/10.1109/ICCV.2019.00238.）といった公知のアルゴリズムを用いることができる。

【0072】

「Tex2Shape」は、形状パラメータ（形状を示す主成分特徴β）およびディスプレイスメントマップを出力する。なお、「Tex2Shape」がSMPLフォーマットのモデルを出力する場合には、SMPLフォーマットに比較して４倍の解像度を有するSMPL-Xフォーマットにさらに変換するようにしてもよい。

【0073】

身体３Ｄ形状再構築部１５０は、人物の身体の３Ｄ形状を示す情報として身体３Ｄ形状データ１６０を出力する。身体３Ｄ形状データ１６０は、典型的には、メッシュ形式のデータからなる。

【0074】

（ｄ３：３Ｄ形状修正部１５２）
３Ｄ形状修正部１５２は、身体３Ｄ形状再構築部１５０が再構築した身体３Ｄ形状データ１６０のうち、顔領域を平坦化する。３Ｄモデル再現段階において、人物の顔の再現には別のモデルが用いられるので、再構築される３Ｄ形状の顔領域については変異させないことが好ましい。

【0075】

そのため、３Ｄ形状修正部１５２は、推定された顔領域に対応するディスプレイスメントマップ内の領域を平坦領域に補正する。すなわち、３Ｄ形状修正部１５２は、顔領域については起伏を生じない平坦な領域に修正する。このような平坦化によって、３Ｄモデル再現段階における人物の頭部を再現する処理をより効率的に行うことができる。

【0076】

より具体的には、３Ｄ形状修正部１５２は、身体３Ｄ形状データ１６０の再構築に用いられた２Ｄ映像に含まれる人物を抽出するとともに、抽出された人物の人体領域（ボディパーツ）を推定する。例えば、人物の顔、手、足などに対応する領域が推定される。このような人体領域に推定には、「DensePose」（Gueler, R. A.; Neverova, N.; Kokkinos, I. DensePose: Dense Human Pose Estimation in the Wild. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition; 2018; pp 7297-7306. https://doi.org/10.1109/CVPR.2018.00762.）といった公知のアルゴリズムを利用することができる。

【0077】

そして、３Ｄ形状修正部１５２は、推定された顔領域に対応するディスプレイスメントマップ内の領域の値を、平坦領域を示す値に更新する。

【0078】

また、人物の指などについても変異領域としてモデル化されやすいので、平坦領域に補正することが好ましい。

【0079】

最終的に、３Ｄ形状修正部１５２は、顔領域を平坦化した３Ｄ形状を示す初期３Ｄ形状データ１６２を出力する。図６（Ｃ）には、初期３Ｄ形状データ１６２を視覚的に表現した例を示す。

【0080】

（ｄ４：身体テクスチャ再構築部１５４）
身体テクスチャ再構築部１５４は、カメラ１４０で撮像された人物の複数の２Ｄ映像（複数視点映像１４４）から身体のテクスチャを再構築する。より具体的には、身体テクスチャ再構築部１５４は、身体テクスチャ画像１６４２および身体テクスチャマップ１６４４を再構築する。身体テクスチャ画像１６４２および身体テクスチャマップ１６４４をまとめて「身体テクスチャデータ１６４」と称することもある。

【0081】

図６（Ｄ）には、身体テクスチャ画像１６４２および身体テクスチャマップ１６４４（身体テクスチャデータ１６４）の一例を示す。

【0082】

身体テクスチャ再構築部１５４は、以下のような処理に従って、身体テクスチャデータ１６４を再構築する。

【0083】

まず、身体テクスチャ再構築部１５４は、複数視点映像１４４に含まれる２Ｄ映像から人物のキーポイントを検出する。このようなキーポイントの検出には、「OpenPose」（Cao, Z.; Hidalgo, G.; Simon, T.; Wei, S.-E.; Sheikh, Y. OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields. IEEE Transactions on Pattern Analysis and Machine Intelligence 2021, 43 (1), 172-186. https://doi.org/10.1109/TPAMI.2019.2929257.）といった公知のアルゴリズムを用いることができる。

【0084】

次に、身体テクスチャ再構築部１５４は、検出したキーポイントを利用して、２Ｄ映像に対してセマンティックセグメンテーションを行って、人物の人体領域（ボディパーツ）を推定する。このようなセマンティックセグメンテーションには、「PGN」（Gong, K.; Liang, X.; Li, Y.; Chen, Y.; Yang, M.; Lin, L. Instance-Level Human Parsing via Part Grouping Network. In Computer Vision - ECCV 2018; Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y., Eds.; Lecture Notes in Computer Science; Springer International Publishing: Cham, 2018; pp 805-822. https://doi.org/10.1007/978-3-030-01225-0_47.）といった公知のアルゴリズムを用いることができる。

【0085】

最終的に、身体テクスチャ再構築部１５４は、推定された人体領域を利用して、複数の２Ｄ映像（複数視点映像１４４）からテクスチャデータ（身体テクスチャ画像１６４２および身体テクスチャマップ１６４４）を再構築する。このようなテクスチャデータの再構築には、「Semantic Human Texture Stitching」（Alldieck, T.; Magnor, M.; Xu, W.; Theobalt, C.; Pons-Moll, G. Detailed Human Avatars from Monocular Video. In 2018 International Conference on 3D Vision (3DV); 2018; pp 98-109. https://doi.org/10.1109/3DV.2018.00022.）といった公知のアルゴリズムを用いることができる。

【0086】

「Semantic Human Texture Stitching」は、SMPLフォーマットおよびSMPL-Xフォーマットのいずれでもテクスチャデータを出力可能である。上述したように、SMPL-Xフォーマットに従う身体３Ｄ形状データ１６０が用いられる場合には、同じくSMPL-Xフォーマットに従うテクスチャデータが用いられる。

【0087】

ここで、SMPLフォーマット／SMPL-Xフォーマットは、テクスチャデータに含まれるテクスチャマップ（ＵＶマッピング）と同じフォーマットを採用している。

【0088】

（ｄ５：顔テクスチャ再構築部１５６）
顔テクスチャ再構築部１５６は、カメラ１４０で撮像された人物の２Ｄ映像から顔のテクスチャを再構築する。初期モデル構築段階においては、顔テクスチャ再構築部１５６は、複数視点映像１４４に含まれる２Ｄ映像に基づいて、顔のテクスチャを再構築する。より具体的には、顔テクスチャ再構築部１５６は、顔テクスチャ画像１６６２および顔テクスチャマップ１６６４を再構築する。顔テクスチャ画像１６６２および顔テクスチャマップ１６６４をまとめて「顔テクスチャデータ１６６」と称することもある。後述するように、顔テクスチャ画像は、テクスチャ統合部１５８により再構築されるので、顔テクスチャ再構築部１５６が再構築する顔テクスチャ画像１６６２は破棄してもよい。

【0089】

顔テクスチャ再構築部１５６は、以下のような処理に従って、顔テクスチャデータ１６６を再構築する。すなわち、「DECA」（Feng, Y.; Feng, H.; Black, M. J.; Bolkart, T. Learning an Animatable Detailed 3D Face Model from In-the-Wild Images. ACM Trans. Graph. 2021, 40 (4), 88:1-88:13. https://doi.org/10.1145/3450626.3459936.）といった公知のアルゴリズムを用いることができる。

【0090】

「DECA」は、人物の顔を再現するためのFLAMEモデルパラメータ（顔の形状および表情を示す）およびFLAMEフォーマットに従うテクスチャデータを出力する。このように、カメラで撮像した人物の２Ｄ映像からFLAMEフォーマットに従う顔テクスチャデータ１６６が出力される。後述するように、テクスチャ統合部１５８は、FLAMEフォーマットに従う顔テクスチャデータ１６６を身体テクスチャデータ１６４に適用することで、両者を統合する。

【0091】

なお、顔テクスチャ再構築部１５６は、３Ｄモデル再現段階においても顔テクスチャデータ１６６をフレーム毎に再構築する。

【0092】

（ｄ６：頭部３Ｄ形状再構築部１５７）
頭部３Ｄ形状再構築部１５７は、カメラ１４０で撮像された人物の複数の２Ｄ映像（複数視点映像１４４）から頭部の３Ｄ形状を再構築する。すなわち、頭部３Ｄ形状再構築部１５７は、撮像された頭部の３Ｄ形状を示す頭部３Ｄ形状データ１６７を再構築する。

【0093】

頭部３Ｄ形状再構築部１５７は、身体３Ｄ形状再構築部１５０と同様のアルゴリズムを用いて、２Ｄ映像から人物の頭部の３Ｄ形状を示すモデルを再構築する。頭部３Ｄ形状再構築部１５７は、頭部の３Ｄ形状を示す情報として頭部３Ｄ形状データ１６７を出力する。頭部３Ｄ形状データ１６７は、典型的には、メッシュ形式のデータからなる。

【0094】

（ｄ７：テクスチャ統合部１５８）
テクスチャ統合部１５８は、身体テクスチャデータ１６４および顔テクスチャデータ１６６を統合して、初期テクスチャデータ１６８（初期テクスチャ画像１６８２および初期テクスチャマップ１６８４）を再構築する。テクスチャ統合部１５８は、身体３Ｄ形状データ１６０と頭部３Ｄ形状データ１６７との対応関係に基づいて、身体テクスチャデータ１６４と顔テクスチャデータ１６６とを統合する。

【0095】

図６（Ｅ）に示すように、初期テクスチャ画像１６８２および初期テクスチャマップ１６８４の各々は、顔を含む頭部についての部分と、頭部以外の身体の部分とから構成される。

【0096】

より具体的には、初期テクスチャ画像１６８２は、後述するような処理によって再構築される初期顔テクスチャ画像１６８６と、身体テクスチャ画像１６４２から頭部に対応する頭部部分画像１６４２Ｈを無効化した修正身体テクスチャ画像１６４２Ａとからなる。

【0097】

初期テクスチャマップ１６８４は、顔テクスチャマップ１６６４と、身体テクスチャマップ１６４４から頭部に対応する頭部部分マップ１６４４Ｈを無効化した修正身体テクスチャマップ１６４４Ａとからなる。

【0098】

図６（Ｅ）に示すように、初期テクスチャデータ１６８（テクスチャデータ）は、再構築される身体の３Ｄ形状に対応するテクスチャ画像（修正身体テクスチャ画像１６４２Ａ）、および、再構築される顔の３Ｄ形状に対応するテクスチャ画像（初期顔テクスチャ画像１６８６）と、再構築される身体の３Ｄ形状に対応するテクスチャマップ（修正身体テクスチャマップ１６４４Ａ）、および、再構築される顔の３Ｄ形状に対応するテクスチャマップ（顔テクスチャマップ１６６４）とを含む。

【0099】

なお、図６（Ｅ）には、頭部部分画像１６４２Ｈおよび頭部部分マップ１６４４Ｈの無効化の一例として、削除されている状態を示すが、必ずしも削除されている必要はなく、処理に使用しないように設定すればよい。

【0100】

図７は、本実施の形態に従う情報処理システム１の初期モデル構築段階におけるテクスチャ統合の処理を説明するための模式図である。テクスチャ統合部１５８は、以下のような５つの処理を実行する。

【0101】

（１）身体３Ｄ形状データ１６０と頭部３Ｄ形状データ１６７とのアライメント
テクスチャ統合部１５８は、身体３Ｄ形状データ１６０および頭部３Ｄ形状データ１６７を共通の３Ｄ空間に写像することで、２つの形状データをアライメントする。ここで、身体３Ｄ形状データ１６０および頭部３Ｄ形状データ１６７は、同一の人物から再構築された３Ｄ形状を示すので、実質的に同一のトポロジーを有していると考えられる。

【0102】

テクスチャ統合部１５８は、共通の顔の特徴的な部分（目や鼻など）に注目して、注目した部分が同一の座標となるように、それぞれの形状データを共通の３Ｄ空間に写像する。このようなアライメントを実現するための処理には、平行移動（transition）、回転（rotation）、縮小・拡大（scale）などの演算を含む座標変換行列が用いられる。

【0103】

（２）メッシュ間の対応関係の決定
次に、テクスチャ統合部１５８は、アライメントされた２つの形状データの間で、メッシュ間の対応関係を決定する。すなわち、テクスチャ統合部１５８は、身体３Ｄ形状データ１６０に含まれるメッシュ（例えば、３つの頂点により定義される三角形の集合）と、頭部３Ｄ形状データ１６７に含まれるメッシュとの対応関係を決定する。

【0104】

より具体的には、テクスチャ統合部１５８は、アライメント後の身体３Ｄ形状データ１６０に含まれる各メッシュについて、アライメント後の頭部３Ｄ形状データ１６７に含まれるメッシュのうち最も近接したメッシュを探索する。最終的に、テクスチャ統合部１５８は、メッシュ間の対応関係（例えば、身体３Ｄ形状データ１６０に含まれる各メッシュを示すインデックスと、頭部３Ｄ形状データ１６７に含まれる各メッシュを示すインデックスとの対応関係を示す配列）を決定する。

【0105】

このように、テクスチャ統合部１５８は、再構築された身体の３Ｄ形状（身体３Ｄ形状データ１６０）と再構築された頭部の３Ｄ形状（頭部３Ｄ形状データ１６７）との対応関係を決定する。

【0106】

（３）テクスチャマップ間の対応関係の決定
次に、テクスチャ統合部１５８は、身体テクスチャマップ１６４４および顔テクスチャマップ１６６４の間で対応関係を決定する。

【0107】

身体３Ｄ形状データ１６０と身体テクスチャマップ１６４４との間の対応関係（一対一）は既知であり、同様に、頭部３Ｄ形状データ１６７と顔テクスチャマップ１６６４との間の対応関係（一対一）も既知である。上述の処理によって、身体３Ｄ形状データ１６０と頭部３Ｄ形状データ１６７との対応関係（一対一）が決定されるので、この形状データの対応関係を利用して、テクスチャ統合部１５８は、テクスチャマップ間の対応関係を決定する。

【0108】

このように、テクスチャ統合部１５８は、決定された３Ｄ形状の対応関係に基づいて、身体の３Ｄ形状（身体３Ｄ形状データ１６０）に対応するテクスチャマップ（身体テクスチャマップ１６４４）と頭部の３Ｄ形状（頭部３Ｄ形状データ１６７）に対応するテクスチャマップ（顔テクスチャマップ１６６４）との対応関係を決定する。

【0109】

（４）初期顔テクスチャ画像の生成
次に、テクスチャ統合部１５８は、身体テクスチャマップ１６４４と顔テクスチャマップ１６６４との間の対応関係に基づいて、初期顔テクスチャ画像１６８６を生成する。

【0110】

より具体的には、テクスチャ統合部１５８は、顔テクスチャマップ１６６４の各座標に対応する身体テクスチャマップ１６４４の座標を決定し、当該決定した身体テクスチャマップ１６４４の座標における身体テクスチャ画像１６４２の画素値を顔テクスチャ画像の新たな画素値として適用する。すなわち、身体テクスチャマップ１６４４と顔テクスチャマップ１６６４との間の対応関係に基づいて、身体テクスチャ画像１６４２がマッピングされることで、新たな顔テクスチャ画像である初期顔テクスチャ画像１６８６が生成される。

【0111】

このように、テクスチャ統合部１５８は、決定されたテクスチャマップの対応関係に基づいて、身体の３Ｄ形状（身体３Ｄ形状データ１６０）に対応するテクスチャ画像（身体テクスチャ画像１６４２）から頭部の３Ｄ形状（頭部３Ｄ形状データ１６７）に対応するテクスチャ画像（初期顔テクスチャ画像１６８６）を生成する。

【0112】

（５）データ結合
最終的に、テクスチャ統合部１５８は、初期テクスチャデータ１６８（初期テクスチャ画像１６８２および初期テクスチャマップ１６８４）を再構築する。

【0113】

より具体的には、テクスチャ統合部１５８は、身体テクスチャ画像１６４２のうち、頭部に対応する頭部部分画像１６４２Ｈを無効化した上で、生成された初期顔テクスチャ画像１６８６と結合する。初期テクスチャ画像１６８２は、修正身体テクスチャマップ１６４４Ａと初期顔テクスチャ画像１６８６とを同じスケールに調整した上で、隣接配置したものに相当する。

【0114】

また、テクスチャ統合部１５８は、身体テクスチャマップ１６４４のうち、頭部に対応する頭部部分マップ１６４４Ｈを無効化した上で、顔テクスチャマップ１６６４と結合する。初期テクスチャマップ１６８４は、修正身体テクスチャ画像１６４２Ａと顔テクスチャマップ１６６４とを同じスケールに調整した上で、隣接配置したものに相当する。

【0115】

なお、SMPL-Xフォーマットに従うテクスチャデータの場合には、所定のスケーリングにより、FLAMEフォーマットにリフォーマットできる。すなわち、SMPL-Xフォーマットに従うテクスチャマップと、FLAMEフォーマットに従うテクスチャマップとの間の対応関係は一対一であるので、テクスチャ画像を伸張する場合の倍率などは、フォーマット間の対応関係に基づいて一意に決定できる。

【0116】

このように、テクスチャ統合部１５８は、身体の３Ｄ形状（身体３Ｄ形状データ１６０）に対応するテクスチャ画像（身体テクスチャ画像１６４２）と頭部の３Ｄ形状（頭部３Ｄ形状データ１６７）に対応するテクスチャ画像（初期顔テクスチャ画像１６８６）とを統合するとともに、身体の３Ｄ形状に対応するテクスチャマップ（修正身体テクスチャマップ１６４４Ａ）と頭部の３Ｄ形状に対応するテクスチャマップ（顔テクスチャマップ１６６４）とを統合することで、初期テクスチャデータ１６８を生成する。

【0117】

初期テクスチャデータ１６８（初期テクスチャ画像１６８２および初期テクスチャマップ１６８４）は、顔を含む頭部についての部分と、頭部以外の身体の部分とから構成される。顔を含む頭部についてテクスチャをより多く用意しておくことで、１台のカメラを用いた撮像であっても、顔の表情や動き（ジェスチャ）の再現性を高めることができる。

【0118】

以上のような処理により、初期モデル構築の処理が完了する。

【0119】

［Ｅ．３Ｄモデル再現段階における処理の詳細］
本実施の形態に従う情報処理システム１の３Ｄモデル再現段階においては、１つのカメラ１４０で撮像した人物の２Ｄ映像（１フレーム分）から３Ｄモデルを再現する。３Ｄモデルを２Ｄ映像のフレーム毎に更新することで、人物の動きや表情の変化を動画として再現できる。

【0120】

図８は、本実施の形態に従う情報処理システム１の３Ｄモデル再現段階を実現するための機能構成例を示す模式図である。図９は、本実施の形態に従う情報処理システム１の３Ｄモデル再現段階において生成されるデータの一例を示す図である。

【0121】

図８に示す各機能は、典型的には、情報処理装置１００のプロセッサがプログラム（図２に示す３Ｄモデル再現プログラム１２４）を実行することで実現される。なお、一部の処理は、情報処理装置２００が担当してもよい。

【0122】

図８を参照して、情報処理装置１００は、安定化部１７０と、顔テクスチャ再構築部１５６と、テクスチャ画像ブレンディング部１７２と、顔形状再構築部１７４と、ポーズ推定部１７６と、形状統合部１７８と、３Ｄモデル生成部１８０とを含む。

【0123】

（ｅ１：安定化部１７０）
安定化部１７０は、カメラ１４０が撮像した２Ｄ映像に含まれる顔領域を検出し、検出した顔領域を時間的に安定化する。安定化部１７０は、時間的に安定化された顔領域に対応する部分映像を顔テクスチャ再構築部１５６および顔形状再構築部１７４へ出力する。すなわち、カメラ１４０で撮像された人物の２Ｄ映像に設定されたウィンドウに対応する部分映像が顔テクスチャ再構築部１５６および顔形状再構築部１７４に入力される。

【0124】

安定化部１７０は、２Ｄ映像１４６から抽出される顔領域１６３（ウィンドウ）の位置およびサイズを時間的に平滑化する。図９（Ａ）には、２Ｄ映像１４６から顔領域１６３Ａ，１６３Ｂを抽出する処理の一例を示す。顔領域１６３Ａ，１６３Ｂの範囲は、公知の画像認識処理により決定することができる。

【0125】

フレーム毎に人物の顔を再現するために、上述したような「DECA」といった公知のアルゴリズムを用いる場合を想定する。「DECA」は、１フレーム毎に顔を再現することが可能であるが、顔領域１６３の大きさおよび位置をフレーム毎に都度決定すると、フレーム間で見ると、再現される顔に揺らぎや不連続性が生じ得る。

【0126】

一般的に、２Ｄ映像（１フレーム分）から検出される顔のキーポイント（例えば、目）の位置はフレーム毎に変化し得るので、検出されるキーポイントに基づいて決定されるウィンドウの位置およびサイズもフレーム毎に変化し得る。

【0127】

そこで、安定化部１７０は、ウィンドウの位置およびサイズを時間的に平滑化することで、再現される顔を安定化する。すなわち、安定化部１７０は、２Ｄ映像における人物の位置を時間的に平滑化してウィンドウを設定する。

【0128】

より具体的には、安定化部１７０は、人物の顔全体を覆うことができる一定のサイズをもつウィンドウを採用するとともに、特定のキーポイントを基準にした位置にウィンドウを設定する。例えば、鼻の先端を中心としてウィンドウを設定することができる。

【0129】

例えば、次のフレームにおいて、人物が先行のフレームにおいて設定されていたウィンドウ内で移動する場合には、安定化部１７０は、過去ｎフレームからそれぞれ検出された特定のキーポイントの平均位置を基準として、当該次のフレームにおけるウィンドウの位置を設定する。また、次のフレームにおいて、人物がカメラ１４０に近付いた、あるいは、遠ざかった場合には、安定化部１７０は、過去ｎフレームにおけるウィンドウのサイズの移動平均に基づいて、ウィンドウのサイズを追従して変化させる。

【0130】

このような処理によって、２Ｄ映像１４６における人物の移動にウィンドウを追従させる際に、フレーム間で不連続性が生じる度合いを低減できる。

【0131】

なお、人物の動きが早すぎて、ウィンドウの外部に移動してしまった場合には、ウィンドウのサイズおよび位置はリセットされて、再度設定される。この場合には、再現される顔に不連続性が生じ得るので、違和感を低減するための付加的な処理を行ってもよい。

【0132】

上述したような処理を採用することで、順次抽出される顔領域１６３（ウィンドウ）の位置およびサイズはフレーム間で大きく変化することはないので、再構築される顔の形状に生じる不連続性を低減できる。

【0133】

（ｅ２：顔テクスチャ再構築部１５６）
顔テクスチャ再構築部１５６は、２Ｄ映像１４６から抽出された顔領域１６３の映像に基づいて、顔のテクスチャを再構築する。より具体的には、顔テクスチャ再構築部１５６は、顔テクスチャ画像１６６６を再構築する。顔テクスチャ再構築部１５６は、図５に示す顔テクスチャ再構築部１５６と実質的に同一であるので、詳細な説明は繰り返さない。図９（Ｂ）には、再構築された顔テクスチャ画像１６６６の一例を示す。

【0134】

なお、顔テクスチャ再構築部１５６は、顔テクスチャマップも再構築するが、テクスチャ画像ブレンディング部１７２において必ずしも必要ではないので、破棄されてもよい。

【0135】

（ｅ３：テクスチャ画像ブレンディング部１７２）
テクスチャ画像ブレンディング部１７２は、初期モデル構築段階において再構築された初期テクスチャ画像１６８２と、顔テクスチャ再構築部１５６により再構築された顔テクスチャ画像１６６６とをブレンディングして、ブレンディッド顔テクスチャ画像１８２４を再構築する。すなわち、テクスチャ画像ブレンディング部１７２は、テクスチャデータ（初期テクスチャデータ１６８）に含まれるテクスチャ画像（初期テクスチャ画像１６８２）に再構築された顔のテクスチャ画像（初期テクスチャ画像１６８２）をブレンディングして、カメラ１４０で撮像された人物のテクスチャ画像（ブレンディッド顔テクスチャ画像１８２４）を再構築する。

【0136】

図９（Ｃ）には、再構築されたブレンディッド顔テクスチャ画像１８２４の一例を示す。

【0137】

図１０は、本実施の形態に従う情報処理システム１におけるブレンディング処理を説明するための模式図である。図１０を参照して、テクスチャ画像ブレンディング部１７２は、初期テクスチャ画像１６８２（初期顔テクスチャ画像１６８６および修正身体テクスチャ画像１６４２Ａ）のうち初期顔テクスチャ画像１６８６に、マスク１８２６を用いて顔テクスチャ画像１６６６をブレンディングすることで、修正顔テクスチャ画像１６８６Ａを生成する。

【0138】

すなわち、初期テクスチャ画像１６８２の初期顔テクスチャ画像１６８６に対するブレンディング処理が行われることで、ブレンディッド顔テクスチャ画像１８２４が生成される。このとき、テクスチャ画像ブレンディング部１７２は、初期顔テクスチャ画像１６８６に、顔テクスチャ画像１６６６のうちマスク１８２６を透過した結果を重畳する。このように、テクスチャ画像ブレンディング部１７２は、カメラ１４０で撮像された人物のテクスチャ画像（ブレンディッド顔テクスチャ画像１８２４）のうちマスクを透過した結果を初期テクスチャデータ１６８に含まれる初期顔テクスチャ画像１６８６に重畳する。

【0139】

マスク１８２６は、例えば、顔テクスチャ再構築部１５６が再構築した顔テクスチャデータ１６６の各画素の信頼度を強度（透過度）として割り当てることで生成してもよい。

【0140】

あるいは、顔テクスチャ画像１６６６に基づいてマスク１８２６を生成してもよい。より具体的には、顔テクスチャ画像１６６６に含まれる画素のうち、画素値が予め定められたしきい値を超える画素に「１」（透過）を割り当て、それ以外の画素に「０」（遮断）を割り当てる。続いて、正方ウィンドウを用いて最小化フィルタを適用し、さらにエッジにぼかしフィルタ（例えば、ガウシアンフィルタやボックスフィルタなど）を適用する。

【0141】

このようなマスク１８２６を用いることで、初期顔テクスチャ画像１６８６に重ね合わされる顔テクスチャ画像１６６６の周囲を徐々に変化させたブレンディングを実現できる。すなわち、マスク１８２６は、透過度が連続的に変化するように構成されることになる。

【0142】

このようなブレンディングによって、今回のフレームの映像を反映した顔の表情をリアルタイムに再現できる一方で、髪型などについては、初期テクスチャ画像１６８２を用いて安定的に再現することができる。

【0143】

すなわち、３Ｄモデル再現段階においては、各フレームの映像から再構築された顔の表情などの情報を用いて３Ｄモデルにリアルタイムに反映する一方で、当該フレームの映像から再構築されるとは限らない、頭部の顔領域以外の領域のテクスチャについては、初期顔テクスチャ画像１６８６の情報を３Ｄモデルに反映する。

【0144】

（ｅ４：顔形状再構築部１７４）
顔形状再構築部１７４は、２Ｄ映像１４６から抽出された顔領域１６３の映像に基づいて、顔の表情、動き、３Ｄ形状の各々を示すパラメータ（顔表情パラメータ１８４）を再構築する。すなわち、顔形状再構築部１７４は、カメラ１４０で撮像された人物の２Ｄ映像から顔の３Ｄ形状を再構築する顔形状再構築部に相当する。顔形状再構築部１７４には、上述したような「DECA」といった公知のアルゴリズムを採用してもよい。

【0145】

図９（Ｄ）には、再構築された顔の表情、動き、３Ｄ形状の各々を示すパラメータ（顔表情パラメータ１８４）を視覚的に表現した例を示す。

【0146】

（ｅ５：ポーズ推定部１７６）
ポーズ推定部１７６は、２Ｄ映像１４６からフレーム毎の身体のポーズ（姿勢）を推定する。すなわち、ポーズ推定部１７６は、カメラ１４０で撮像された人物の２Ｄ映像から当該人物のポーズを推定する。ポーズ推定部１７６からは、身体ポーズデータ１８６がフレーム毎に出力される。典型的には、身体ポーズデータ１８６は、各関節の角度などの情報を含む。なお、ポーズ推定部１７６には、公知のポーズ推定アルゴリズムを採用できる。

【0147】

図９（Ｅ）には、ポーズの推定処理および推定された身体ポーズデータ１８６を視覚的に表現した例を示す。

【0148】

（ｅ６：形状統合部１７８）
形状統合部１７８は、初期モデル構築段階において再構築された初期３Ｄ形状データ１６２に、身体ポーズデータ１８６および顔表情パラメータ１８４を入力することで、撮像された２Ｄ映像１４６に対応する身体の３Ｄ形状を再構築する。

【0149】

より具体的には、形状統合部１７８は、初期３Ｄ形状データ１６２に基づいて、身体ポーズデータ１８６により指定されたポーズ、および、顔表情パラメータ１８４により定義される表情に対応する身体の３Ｄ形状を再構築する。これによって、身体の３Ｄ形状および顔の３Ｄ形状を統合した３Ｄ形状を示す統合３Ｄ形状データ１８８が再構築される。

【0150】

また、形状統合部１７８は、初期３Ｄ形状データ１６２のみではなく、初期３Ｄ形状データ１６２に頭部３Ｄ形状データ１６７を組み込んだ３Ｄ形状データを用いて、統合３Ｄ形状データ１８８を再構築するようにしてもよい。

【0151】

さらに、形状統合部１７８は、初期テクスチャマップ１６８４（修正身体テクスチャマップ１６４４Ａおよび顔テクスチャマップ１６６４）に基づいて対応関係を決定した上で、身体の３Ｄ形状と顔の３Ｄ形状とを統合するようにしてもよい。

【0152】

このように、形状統合部１７８は、初期３Ｄ形状データ１６２（３Ｄ形状データ）に基づいて推定されたポーズに対応する身体の３Ｄ形状を再構築するとともに、再構築された身体の３Ｄ形状と、顔表情パラメータ１８４に基づいて再構築される顔の３Ｄ形状とを統合して、カメラ１４０で撮像された人物の３Ｄ形状（統合３Ｄ形状データ１８８）を再構築する。さらに、形状統合部１７８は、初期テクスチャデータ１６８に含まれるテクスチャマップ（初期テクスチャマップ１６８４）に基づいて、再構築された身体の３Ｄ形状と再構築された顔の３Ｄ形状とを統合することで、再現精度を高めることができる。

【0153】

図９（Ｆ）には、再構築された統合３Ｄ形状データ１８８を視覚的に表現した例を示す。

【0154】

（ｅ７：３Ｄモデル生成部１８０）
３Ｄモデル生成部１８０は、統合３Ｄ形状データ１８８に基づく３Ｄ形状と、ブレンディッド顔テクスチャ画像１８２４とを統合する。また、３Ｄモデル生成部１８０は、指定された視点から見た３Ｄモデル１９０を出力する。

【0155】

このように、３Ｄモデル生成部１８０は、カメラ１４０で撮像された人物の３Ｄ形状（統合３Ｄ形状データ１８８）およびカメラ１４０で撮像された人物のテクスチャ画像（ブレンディッド顔テクスチャ画像１８２４）に基づいて、カメラ１４０で撮像された人物の３Ｄモデル１９０を生成する。

【0156】

なお、統合３Ｄ形状データ１８８とブレンディッド顔テクスチャ画像１８２４との結合（テクスチャ画像のマッピング）には、初期テクスチャマップ１６８４が参照されてもよい。すなわち、３Ｄモデル生成部１８０は、初期テクスチャデータ１６８（テクスチャデータ）に含まれる初期テクスチャマップ１６８４に基づいて、人物の３Ｄ形状（統合３Ｄ形状データ１８８）と人物のテクスチャ画像（ブレンディッド顔テクスチャ画像１８２４）とを統合するようにしてもよい。

【0157】

図９（Ｆ）には、複数の視点から３Ｄモデル１９０を見た状態を視覚的に表現した例を示す。なお、３Ｄモデル生成部１８０は、図９（Ｆ）に示すように複数の視点から見た３Ｄモデルを同時に表示しなくてもよく、指定された１つの視点から見た３Ｄモデルを出力する。

【0158】

［Ｆ．変形例］
初期モデル構築の処理（初期モデル構築段階）および３Ｄモデルを生成する処理（３Ｄモデル再現段階）を同一の情報処理装置１００が実行する構成を例示したが、一部の処理を別の情報処理装置が実行してもよい。

【0159】

また、初期モデル（初期３Ｄ形状データ１６２および初期テクスチャデータ１６８）については、予め構築しておき、３Ｄモデルの再現が必要な段階で、適宜利用するようにしてもよい。

【0160】

図１１は、本実施の形態に従う情報処理システム１のシステム構成の別の一例を示す模式図である。図１１を参照して、例えば、サーバ装置３００は、ユーザ毎に、初期３Ｄ形状データ１６２および初期テクスチャデータ１６８を予め保持している。

【0161】

サーバ装置３００は、情報処理装置１００－３，１００－４からの要求に応答して、指定された初期３Ｄ形状データ１６２および初期テクスチャデータ１６８を提供する。情報処理装置１００－３，１００－４の各々は、サーバ装置３００から提供された初期３Ｄ形状データ１６２および初期テクスチャデータ１６８を用いて、３Ｄモデルを生成する処理（３Ｄモデル再現段階）を実行する。

【0162】

なお、初期３Ｄ形状データ１６２および初期テクスチャデータ１６８は、必ずしも、情報処理装置１００を利用するユーザを撮像した２Ｄ映像に基づいて作成されなくてもよい。上述したように、３Ｄモデル再現段階においては、人物を撮像して再構築されるテクスチャ画像がブレンディングされるので、別の人物から生成された初期３Ｄ形状データ１６２および初期テクスチャデータ１６８を用いても、当該人物の３Ｄモデルを再現できる。

【0163】

また、図１に示す情報処理装置１００－１，１００－２と、情報処理装置２００とが連係して、初期モデル構築の処理（初期モデル構築段階）および３Ｄモデルを生成する処理（３Ｄモデル再現段階）を実行するようにしてもよい。情報処理装置の各々が担当する処理は任意に設計できる。

【0164】

［Ｇ．まとめ］
本実施の形態に従う情報処理システム１は、３Ｄモデルの再現時には、複数のカメラからそれぞれ撮像した複数の２Ｄ映像ではなく、１フレーム分の２Ｄ映像から人物の３Ｄモデルを生成できる。身体および顔についてそれぞれ形状およびテクスチャを再構築することで、顔の表情やジェスチャをより高精度に再現できる。

【0165】

また、３Ｄモデルの再現時には、１フレーム分のカメラで撮像した２Ｄ映像から３Ｄモデルを生成できるので、複数のカメラで撮像した複数の２Ｄ映像を用いる場合に比較して、処理負荷を低減でき、それによって３Ｄモデルをリアルタイムに再現できる。

【0166】

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0167】

１情報処理システム、２ネットワーク、１０人物、２０，１９０３Ｄモデル、１００，２００情報処理装置、１０２ＣＰＵ、１０４ＧＰＵ、１０６主メモリ、１０８ディスプレイ、１１０ネットワークインターフェイス、１１２入力デバイス、１１４光学ドライブ、１１６光学ディスク、１１８カメラインターフェイス、１２０ストレージ、１２２初期モデル構築プログラム、１２４再現プログラム、１２６，１６２３Ｄ形状データ、１４０カメラ、１４２映像取得部、１４４複数視点映像、１４６２Ｄ映像、１５０身体３Ｄ形状再構築部、１５２３Ｄ形状修正部、１５４身体テクスチャ再構築部、１５６顔テクスチャ再構築部、１５７頭部３Ｄ形状再構築部、１５８テクスチャ統合部、１６０身体３Ｄ形状データ、１６３，１６３Ａ，１６３Ｂ顔領域、１６４身体テクスチャデータ、１６６顔テクスチャデータ、１６７頭部３Ｄ形状データ、１６８初期テクスチャデータ、１７０安定化部、１７２テクスチャ画像ブレンディング部、１７４顔形状再構築部、１７６ポーズ推定部、１７８形状統合部、１８０３Ｄモデル生成部、１８４顔表情パラメータ、１８６身体ポーズデータ、１８８統合３Ｄ形状データ、３００サーバ装置、１６４２身体テクスチャ画像、１６４２Ａ修正身体テクスチャ画像、１６４２Ｈ頭部部分画像、１６４４身体テクスチャマップ、１６４４Ａ修正身体テクスチャマップ、１６４４Ｈ頭部部分マップ、１６６２，１６６６顔テクスチャ画像、１６６４顔テクスチャマップ、１６８２初期テクスチャ画像、１６８４初期テクスチャマップ、１６８６初期顔テクスチャ画像、１６８６Ａ修正顔テクスチャ画像、１８２４ブレンディッド顔テクスチャ画像、１８２６マスク。

【図1】