特許第5773323号(P5773323)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

<>
  • 5773323-画像に基づくマルチビュー3D顔生成 図000015
  • 5773323-画像に基づくマルチビュー3D顔生成 図000016
  • 5773323-画像に基づくマルチビュー3D顔生成 図000017
  • 5773323-画像に基づくマルチビュー3D顔生成 図000018
  • 5773323-画像に基づくマルチビュー3D顔生成 図000019
  • 5773323-画像に基づくマルチビュー3D顔生成 図000020
  • 5773323-画像に基づくマルチビュー3D顔生成 図000021
  • 5773323-画像に基づくマルチビュー3D顔生成 図000022
  • 5773323-画像に基づくマルチビュー3D顔生成 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5773323
(24)【登録日】2015年7月10日
(45)【発行日】2015年9月2日
(54)【発明の名称】画像に基づくマルチビュー3D顔生成
(51)【国際特許分類】
   G06T 17/00 20060101AFI20150813BHJP
   G06T 15/04 20110101ALI20150813BHJP
   G06T 13/40 20110101ALI20150813BHJP
【FI】
   G06T17/00
   G06T15/04
   G06T13/40
【請求項の数】14
【全頁数】19
(21)【出願番号】特願2014-524234(P2014-524234)
(86)(22)【出願日】2011年8月9日
(65)【公表番号】特表2014-525108(P2014-525108A)
(43)【公表日】2014年9月25日
(86)【国際出願番号】CN2011001306
(87)【国際公開番号】WO2013020248
(87)【国際公開日】20130214
【審査請求日】2014年3月20日
(73)【特許権者】
【識別番号】591003943
【氏名又は名称】インテル・コーポレーション
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】トーン、シァオフェン
(72)【発明者】
【氏名】リ、ジャングオ
(72)【発明者】
【氏名】フー、ウェイ
(72)【発明者】
【氏名】ドゥ、ヤンチョウ
(72)【発明者】
【氏名】ジャン、イミン
【審査官】 千葉 久博
(56)【参考文献】
【文献】 特開2011−039869(JP,A)
【文献】 特表2009−525543(JP,A)
【文献】 特表2009−523288(JP,A)
【文献】 原朋也, 外3名,”複数顔向き画像に基づく3次元顔モデル生成”,SSII2010 第16回 画像センシングシンポジウム講演論文集 [CD−ROM],日本,画像センシング技術研究会,2010年 6月 9日,p.(IS3-20-1)-(IS3-20-8)
【文献】 倉立尚明,”顔形状データベースを用いた写真からの三次元表情推定と顔アニメーションへの応用”,画像電子学会誌,日本,画像電子学会,2005年 7月25日,第34巻, 第4号,p.344-355
【文献】 町野太一, 外1名,”ビデオ映像による人物間対話解析のための顔領域抽出と顔方向の推定”,情報処理学会研究報告,日本,社団法人情報処理学会,2003年 5月30日,第2003巻, 第59号,p.57-64
(58)【調査した分野】(Int.Cl.,DB名)
G06T 15/00−15/87,17/00
G06T 1/00,13/00−13/80,19/00−19/20
G06F 3/01,3/048−3/0489
G06T 7/00,7/20−7/60
(57)【特許請求の範囲】
【請求項1】
3D顔モデル化の方法であって、
複数の2D顔画像を受信する段階と、
前記複数の2D顔画像からカメラパラメータおよび疎な重要点を復元する段階と、
前記カメラパラメータおよび前記疎な重要点に応じて、高密度アバターメッシュを生成する段階と、
記高密度アバターメッシュを3Dモーフィング可能顔モデルにフィッティングして再構成された3Dモーフィング可能顔メッシュを生成する段階と、
前記高密度アバターメッシュを前記再構成された3Dモーフィング可能顔メッシュにアラインメントして3D顔モデルを構成する段階と
を備え
前記高密度アバターメッシュを前記3Dモーフィング可能顔モデルにフィッティングして前記再構成された3Dモーフィング可能顔メッシュを生成する段階は、
前記3Dモーフィング可能顔モデルのためのモーフィング可能モデルの複数の頂点であって、それぞれが再構成されたメトリック係数を含むモーフィング可能モデルの複数の頂点を定義する段階と、
前記3Dモーフィング可能顔モデルのための前記モーフィング可能モデルの複数の頂点と、事前確率およびフィッティング品質との間でのトレードオフの関係にあるパラメータとを使用するコスト関数を最小化するべく、再構成されたメトリック係数を繰り返し生成する段階と
を有し、
前記高密度アバターメッシュを前記再構成された3Dモーフィング可能顔メッシュにアラインメントして前記3D顔モデルを構成する段階は、
エラーが収束して、顔のポージングおよび前記再構成されたメトリック係数が安定化するまで、前記ポージングを一定として前記高密度アバターメッシュをフィッティングする処理を繰り返すことにより前記メトリック係数を決定すること及び前記メトリック係数を固定することによって前記ポージングを決定することを繰り返す反復アプローチを実行する段階
を有する、
方法。
【請求項2】
前記複数の2D顔画像のそれぞれに対して顔検出を実行する段階をさらに備える請求項1に記載の方法。
【請求項3】
前記複数の2D顔画像のそれぞれに対して顔検出を実行する段階は、前記複数の2D顔画像のそれぞれについて、顔バウンディングボックスを自動的に生成し、顔特徴を自動的に特定する段階を有する請求項2に記載の方法。
【請求項4】
記3D顔モデルをスムージングする段階をさらに備える請求項1から3の何れか1項に記載の方法。
【請求項5】
前記3D顔モデルに対応付けられるテクスチャ画像を生成する段階と、
最終3D顔モデルを生成するべく、前記スムージングされた3D顔モデルと前記テクスチャ画像とを組み合わせる段階をさらに備える請求項に記載の方法。
【請求項6】
前記カメラパラメータの復元は、前記複数の2D顔画像のそれぞれに対応付けられているカメラ位置の復元を含み、それぞれの前記カメラ位置は主軸を含み
記高密度アバターメッシュ内の点について、前記複数の2D顔画像のそれぞれにおいて投影点を生成する段階と、
前記高密度アバターメッシュ内の前記点の法線と、それぞれの前記カメラ位置の前記主軸との間の角度のコサイン値を決定する段階と、
前記高密度アバターメッシュ内の前記点について、対応する前記コサイン値で重み付けされた前記投影点のテクスチャ値の関数として、テクスチャ値を生成する段階と
さらに備える、請求項1からの何れか1項に記載の方法。
【請求項7】
プロセッサと、
前記プロセッサに結合されているメモリと
を備え、
前記メモリ内の命令は、
複数の2D顔画像を受信し、
前記複数の2D顔画像からカメラパラメータおよび疎な重要点を復元し、
前記カメラパラメータおよび前記疎な重要点に応じて、高密度アバターメッシュを生成し
記高密度アバターメッシュを3Dモーフィング可能顔モデルにフィッティングして再構成された3Dモーフィング可能顔メッシュを生成し
前記高密度アバターメッシュを前記再構成されたモーフィング可能顔メッシュにアラインメントして3D顔モデルを構成するように
前記プロセッサを設定し、
前記高密度アバターメッシュを前記3Dモーフィング可能顔モデルにフィッティングして前記再構成された3Dモーフィング可能顔メッシュを生成することは、
前記3Dモーフィング可能顔モデルのためのモーフィング可能モデルの複数の頂点であって、それぞれが再構成されたメトリック係数を含むモーフィング可能モデルの複数の頂点を定義することと、
前記モーフィング可能モデルの複数の頂点と、事前確率およびフィッティング品質との間でのトレードオフの関係にあるパラメータとを使用するコスト関数を最小化するべく、再構成されたメトリック係数を繰り返し生成することと
を有し、
前記高密度アバターメッシュを前記再構成された3Dモーフィング可能顔メッシュにアラインメントして前記3D顔モデルを構成することは、
エラーが収束して、顔のポージングおよび前記再構成されたメトリック係数が安定化するまで、前記ポージングを一定として前記高密度アバターメッシュをフィッティングする処理を繰り返すことにより前記メトリック係数を決定すること及び前記メトリック係数を固定することによって前記ポージングを決定することを繰り返す反復アプローチを実行することと
を有する、
システム。
【請求項8】
前記メモリ内の命令はさらに、前記複数の2D顔画像のそれぞれに対して顔検出を実行するように前記プロセッサを設定する請求項に記載のシステム。
【請求項9】
前記複数の2D顔画像のそれぞれに対して顔検出を実行することは、前記複数の2D顔画像のそれぞれについて、顔バウンディングボックスを自動的に生成し、顔特徴を自動的に特定することを有する
請求項に記載のシステム。
【請求項10】
前記カメラパラメータの復元は、前記複数の2D顔画像のそれぞれに対応付けられているカメラ位置の復元を含み、それぞれの前記カメラ位置は主軸を含み、前記メモリ内の命令は、
前記高密度アバターメッシュ内の点について、前記複数の2D顔画像のそれぞれにおいて投影点を生成
前記高密度アバターメッシュ内の前記点の法線と、それぞれの前記カメラ位置の前記主軸との間の角度のコサイン値を決定
前記高密度アバターメッシュ内の前記点について、対応する前記コサイン値で重み付けされた前記投影点のテクスチャ値の関数として、テクスチャ値を生成するように
前記プロセッサ設定する、請求項からの何れか1項に記載のシステム。
【請求項11】
複数の2D顔画像を受信し、
前記複数の2D顔画像からカメラパラメータおよび疎な重要点を復元し、
前記カメラパラメータおよび前記疎な重要点に応じて、高密度アバターメッシュを生成し
記高密度アバターメッシュを3Dモーフィング可能顔モデルにフィッティングして再構成された3Dモーフィング可能顔メッシュを生成し
前記高密度アバターメッシュを前記再構成されたモーフィング可能顔メッシュにアラインメントして3D顔モデルを構成する
処理手段を備え
前記高密度アバターメッシュを前記3Dモーフィング可能顔モデルにフィッティングして前記再構成された3Dモーフィング可能顔メッシュを生成することは、
前記3Dモーフィング可能顔モデルのためのモーフィング可能モデルの複数の頂点であって、それぞれが再構成されたメトリック係数を含むモーフィング可能モデルの複数の頂点を定義することと、
前記モーフィング可能モデルの複数の頂点と、事前確率およびフィッティング品質との間でのトレードオフの関係にあるパラメータとを使用するコスト関数を最小化するべく、再構成されたメトリック係数を繰り返し生成することと
を有し、
前記高密度アバターメッシュを前記再構成されたモーフィング可能顔メッシュにアラインメントして前記3D顔モデルを構成することは、
エラーが収束して、顔のポージングおよび前記再構成されたメトリック係数が安定化するまで、前記ポージングを一定として前記高密度アバターメッシュをフィッティングする処理を繰り返すことにより前記メトリック係数を決定すること及び前記メトリック係数を固定することによって前記ポージングを決定することを繰り返す反復アプローチを実行することと
を有する、
デバイス。
【請求項12】
前記処理手段は、前記複数の2D顔画像のそれぞれに対して顔検出を実行する請求項11に記載のデバイス。
【請求項13】
前記複数の2D顔画像のそれぞれに対して顔検出を実行することを目的として、前記複数の2D顔画像のそれぞれについて、前記処理手段は、顔バウンディングボックスを自動的に生成し、顔特徴を自動的に特定する請求項12に記載のデバイス。
【請求項14】
前記カメラパラメータの復元は、前記複数の2D顔画像のそれぞれに対応付けられているカメラ位置の復元を含み、それぞれの前記カメラ位置は主軸を含み
記処理手段は、
前記高密度アバターメッシュ内の点について、前記複数の2D顔画像のそれぞれにおいて投影点を生成し、
前記高密度アバターメッシュ内の前記点の法線と、それぞれの前記カメラ位置の前記主軸との間の角度のコサイン値を決定し、
前記高密度アバターメッシュ内の前記点について、対応する前記コサイン値で重み付けされた前記投影点のテクスチャ値の関数として、テクスチャ値を生成する
請求項11から13の何れか1項に記載のデバイス。
【発明の詳細な説明】
【背景技術】
【0001】
人間の顔の特徴を3Dモデル化することは、3Dで写実的に人々を表現するために広く用いられている。例えば、アバター等の人間の仮想表現は大抵、このような3Dモデルを利用している。3Dで顔を生成するための従来の用途では、特徴点を手作業で分類する必要がある。このような技術はモーフィング可能モデルフィッティングを利用するが、自動顔特徴検出が可能になること、および、マルチビューステレオ(MVS)技術を利用することが望ましい。
【図面の簡単な説明】
【0002】
本明細書で説明する内容は、添付図面において一例として挙げているものであり、限定を目的としたものではない。図示を簡潔かつ明瞭にするべく、図面に図示する構成要素は必ずしも実寸に即したものではない。例えば、一部の構成要素の寸法は、他の構成要素に比べて、分かり易いように、強調されていることもある。さらに、適切と見なされる場合には、参照符号は複数の図面にわたって繰り返し用いて、対応する構成要素または同様の構成要素を示す。図面は以下の通りである。
図1】システムの一例を示す図である。
図2】3D顔モデル生成プロセスの一例を示す図である。
図3】バウンディングボックスおよび特定された顔特徴の一例を示す図である。
図4】複数の復元されたカメラおよび対応する高密度アバターメッシュの一例を示す図である。
図5】再構成されたモーフィング可能顔メッシュを高密度アバターメッシュに融合させる例を示す図である。
図6】モーフィング可能顔メッシュの三角形の一例を示す図である。
図7】角度重み付けされたテクスチャ合成方法の一例を示す図である。
図8】テクスチャ画像と、対応するスムージングされた3D顔モデルとを組み合わせて、最終3D顔モデルを生成する例を示す図である。
図9】本開示の少なくとも一部の実施形態に応じて全ての構成要素が配置されているシステムの一例を示す図である。
【発明を実施するための形態】
【0003】
添付した図面を参照しつつ1以上の実施形態または実施例を以下で説明する。具体的な構成および配置を説明したが、これは例示を目的としたものに過ぎないと理解されたい。当業者であれば、以下の説明の意図および範囲から逸脱することなく、他の構成および配置を利用し得ると認めるであろう。当業者には、本明細書で説明する技術および/または構成はさらに、本明細書で説明する以外の多岐にわたる他のシステムおよび用途でも採用し得ることが明らかである。
【0004】
以下に記載する説明は、例えばシステムオンチップ(SoC)アーキテクチャ等のアーキテクチャで見られるさまざまな実施形態についてであるが、本明細書で説明する技術および/または構成の実施形態は特定のアーキテクチャおよび/またはコンピューティングシステムに限定されず、同様の目的を実現するべく任意のアーキテクチャおよび/またはコンピューティングシステムによって実現され得る。例えば、複数の集積回路(IC)チップおよび/またはパッケージ、および/または、さまざまなコンピューティングデバイスおよび/または、セットトップボックス、スマートフォン等の消費者向け電子(CE)機器を利用するさまざまなアーキテクチャが、本明細書で説明する技術および/または構成を実現するとしてよい。さらに、以下の説明は、論理実装、システムコンポーネントの種類および相関関係、論理上のパーティション化/統合の選択肢等、具体的且つ詳細な内容を数多く記載しているが、請求の対象となる主題はこのような具体的且つ詳細な内容を利用することなく実施するとしてもよい。また、例えば、制御構造および完全ソフトウェア命令シーケンス等の一部の開示内容は、本明細書の開示内容をあいまいにしないよう、詳細な説明を省略するとしてよい。
【0005】
本明細書の開示内容は、ハードウェア、ファームウェア、ソフトウェアまたはこれらの任意の組み合わせで実現されるとしてよい。本明細書の開示内容はさらに、1以上のプロセッサによって読み出して実行される、機械可読媒体に格納される命令として実現するとしてもよい。機械可読媒体は、機械(例えば、コンピューティングデバイス)が読出可能な形式で情報を格納または送信する任意の媒体および/またはメカニズムを含むとしてよい。例えば、機械可読媒体は、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク格納媒体、光格納媒体、フラッシュメモリデバイス、電流、光、音波またはその他の形態の伝搬信号(例えば、搬送波、赤外信号、デジタル信号等)等を含むとしてよい。
【0006】
本明細書において「一実施形態」、「実施形態」、「実施形態例」等の表現は、当該実施形態が特定の特徴、構造または特性を含み得るが、全ての実施形態が必ずしもその特定の特徴、構造または特性を含むものではないことを意味する。さらに、このようなフレーズは必ずしも同じ実施形態を意味するものではない。さらに、ある実施形態に関連付けて特定の特徴、構造または特性を説明する場合、本明細書で明示的に説明しているか否かに関わらず、当該特徴、構造または特性を他の実施形態と組み合わせて実施することは当業者の想到の範囲内であると考えられる。
【0007】
図1は、本開示に係るシステム100の一例を示す図である。さまざまな実施形態によると、システム100は、撮像モジュール102、および、本明細書で説明するように顔テクスチャを含む3D顔モデルを生成することができる3D顔シミュレーションモジュール110を備えるとしてよい。さまざまな実施形態によると、システム100は、キャラクターのモデル化および作成、コンピュータグラフィクス、ビデオカンファレンス、オンラインゲーム、バーチャルリアリティ用途等に利用し得る。さらに、システム100は、知覚コンピューティング、デジタルホームエンターテインメント、消費者向け電子機器等の用途に適切であるとしてよい。
【0008】
撮像モジュール102は、1以上の撮像デバイス104、例えば、スチールカメラまたはビデオカメラを有する。一部の実施形態によると、一のカメラ104を、被写体の顔108を中心として、円弧またはトラック106に沿って移動させて、顔108の一連の画像を生成するとしてよい。以下でより詳細に説明するが、顔108に対する各画像の視点は異なる。他の実施形態によると、複数の撮像デバイス104を利用して、顔108に対してさまざまな角度に配置するとしてよい。一般的に、撮像モジュール102には、画像シーケンスを生成するべく任意の数の公知の撮像システムおよび/または撮像技術を用いてもよい(例えば、「Seitz et al.,"A Comparison and Evaluation of Multi−View Stereo Reconstruction Algorithms," In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2006」(以下では「Seitz et al.」と引用する)を参照のこと)。
【0009】
撮像モジュール102は、シミュレーションモジュール110に画像シーケンスを供給するとしてよい。シミュレーションモジュール110は、少なくとも、顔検出モジュール112、マルチビューステレオ(MVS)モジュール114、3Dモーフィング可能顔モジュール116、アラインメントモジュール118、および、テクスチャモジュール120を有する。これらの構成要素の機能はより詳細に後述する。一般的に、より詳細に後述するが、シミュレーションモジュール110は、撮像モジュール102が供給する画像から画像を選択して、選択された画像に対して顔検出を実行して顔バウンディングボックスおよび顔特徴を取得して、カメラパラメータを復元し、疎な重要点を取得し、マルチビューステレオ技術を実行して高密度アバターメッシュを生成し、当該メッシュをモーフィング可能3D顔モデルにフィッティングさせ、アラインメントおよびスムージングによって3D顔モデルを改善し、当該顔モデル用のテクスチャ画像を合成するべく用いられるとしてよい。
【0010】
さまざまな実施形態によると、撮像モジュール102およびシミュレーションモジュール110は、互いに隣接しているか、または、互いに近接しているとしてよい。例えば、撮像モジュール102は、撮像デバイス104としてビデオカメラを利用するとしてよく、シミュレーションモジュール110は、直接デバイス104から画像シーケンスを受信して、画像を処理して3D顔モデルおよびテクスチャ画像を生成するコンピューティングシステムによって実現されるとしてよい。他の実施形態によると、撮像モジュール102およびシミュレーションモジュール110は、互いから離れているとしてもよい。例えば、撮像モジュール102から離れた位置にある1以上のサーバーコンピュータがシミュレーションモジュール110を実現し、シミュレーションモジュール110は、例えば、インターネットを介して、モジュール102から画像シーケンスを受信するとしてよい。さらに、さまざまな実施形態によると、シミュレーションモジュール110は、複数の異なるコンピューティングシステムに分散して設けられているか、または、分散させていないソフトウェア、ファームウェアおよび/またはハードウェアを任意に組み合わせることで提供されるとしてよい。
【0011】
図2は、本開示のさまざまな実施形態に応じた、3D顔モデルを生成するためのプロセス200の例を説明するためのフローチャートである。プロセス200は、図2のブロック202、204、206、208、210、212、214および216のうち1以上で説明する1以上の処理、機能または動作を含むとしてよい。プロセス200は、これらに限定されることなく一例として挙げるが、図1のシステムの例に基づいて本明細書で説明する。プロセス200は、ブロック202で開始されるとしてよい。
【0012】
ブロック202において、顔の複数の2D画像を撮像するとしてよく、これらの画像のうちさまざまな画像をさらなる処理のために選択するとしてよい。さまざまな実施形態によると、ブロック202は、複数の異なる視点から人間の顔のビデオ画像を録画するべく、一般的な商業用カメラを利用することを含むとしてよい。例えば、ビデオは、約10秒間にわたって人間の頭部の前面を中心として約180度にわたる複数の異なる向きで、顔は静止させたまま、淡々とした表情を維持しながら、録画されるとしてよい。この結果、約300枚もの2D画像が撮像されるとしてよい(標準的なビデオフレームレートである毎秒当たり30フレームを仮定する)。結果として得られるビデオはこの後、デコードされて、約30枚程度の顔画像を含むサブ群を、手作業で、または、自動選択方法(例えば、「R.Hartley and A.Zisserman,"Multiple View Geometry in Computer Vision,"Chapter 12,Cambridge Press,Second Version(2003)」を参照のこと)を用いて選択するとしてよい。一部の実施形態によると、選択された画像のうち隣接する画像同士の間の角度(撮像されている被写体に対して測定される)は、10度以下であるとしてよい。
【0013】
この後、ブロック204において、選択された画像に対して顔検出および顔特徴特定を実行して、対応する顔バウンディングボックスおよび当該顔バウンディングボックス内の特定された特徴を生成するとしてよい。さまざまな実施形態によると、ブロック204は、公知の自動マルチビュー顔検出技術(例えば、Kim et al.,"Face Tracking and Recognition with Visual Constraints in Real− World Videos",In IEEE Conf.Computer Vision and Pattern Recognition (2008)を参照のこと)を適用して、特徴を特定する領域を限定するべく、そして、外部のバックグラウンド画像コンテンツを削除するべく、顔バウンディングボックスを利用して、各画像における顔輪郭および顔特徴を概略的に示すことを含むとしてよい。例えば、図3は、人間の顔308の2D画像306に対するバウンディングボックス302および特定された顔特徴304の例を示す図であるが、これに限定されない。
【0014】
ブロック206において、カメラパラメータを画像毎に決定するとしてよい。さまざまな実施形態によると、ブロック206は、画像毎に、安定した重要点を抽出して、公知の自動カメラパラメータ復元技術、例えば、Seitz et al.に記載されている技術を利用して、カメラ射影マトリクスを含むカメラパラメータおよび特徴点の疎な集合を取得することを含むとしてよい。一部の例によると、システム100の顔検出モジュール112は、ブロック204および/またはブロック206を実行するとしてよい。
【0015】
ブロック208において、マルチビューステレオ(MVS)技術を適用して、特徴点の疎な集合およびカメラパラメータから高密度アバターメッシュを生成するとしてよい。さまざまな実施形態によると、ブロック208は、顔画像の複数の対について、公知のステレオホモグラフィーおよびマルチビューアラインメントおよびインテグレーション技術を実行することを含むとしてよい。例えば、国際公開公報第2010133007号(Techniques for Rapid Stereo Reconstruction from Images)に記載されているように、一対の画像について、ホモグラフィーフィッティングによって取得された画像点の対は、最適化された後、既知のカメラパラメータで三角法を用いて、高密度アバターメッシュにおける3次元点を生成するとしてよい。例えば、図4は、これに限定するものではないが、ブロック206で取得する複数の復元されたカメラ402(例えば、復元したカメラパラメータが特定するもの)、および、ブロック208で取得する、対応する高密度アバターメッシュ404の例を示す図である。一部の例では、システム100のMVSモジュール114がブロック208を実行するとしてよい。
【0016】
図2の説明に戻ると、ブロック208で取得する高密度アバターメッシュは、ブロック210において3Dモーフィング可能モデルにフィッティングさせて、再構成された3Dモーフィング可能顔メッシュを生成するとしてよい。高密度アバターメッシュはこの後、ブロック212において再構成されたモーフィング可能顔メッシュにアラインメントされて改善され、スムージングされた3D顔モデルを生成する。一部の例では、システム100の3Dモーフィング可能モデルモジュール116およびアラインメントモジュール118はそれぞれ、ブロック210および212を実行するとしてよい。
【0017】
さまざまな実施形態によると、ブロック210は、モーフィング可能顔モデルを顔データセットから学習することを含むとしてよい。例えば、顔データセットは、形状データ(例えば、デカルト座標系における(x、y、z)メッシュ座標)、および、高密度アバターメッシュにおける各点または頂点を特定するテクスチャデータ(赤色、緑色および青色の強度値)を含むとしてよい。形状およびテクスチャは、対応する列ベクトルで表すとしてよい。(x,y,z,x,y,z,・・・,x,y,z)および(R,G,B,R,G,B,・・・R,G,Z(尚、nは、顔における特徴点または頂点の数)を示す。
【0018】
一般的な顔は、以下の式を用いて3Dモーフィング可能顔モデルとして表されるとしてよい。
【数1】
式中、Xは平均列ベクトルであり、λはi番目の固有値であり、Uはi番目の固有ベクトルであり、αは、i番目の固有値の、再構成されたメトリック係数である。数1で表されるモデルは、係数群{α}を調整することでさまざまな形状にモーフィングされるとしてよい。
【0019】
高密度アバターメッシュを数1の3Dモーフィング可能顔モデルにフィッティングすることは、モーフィング可能モデルの頂点Smodを数2として解析的に定義することを含むとしてよい。
【数2】
式中、
【数3】
は、モーフィング可能モデルの頂点の全てを含む一群Kから、特徴点に対応するn個の頂点を選択する射影である。数2において、n個の特徴点を用いて再構成されたエラーを測定する。
【0020】
フィッティングにおいて、事前モデルを適用すると、以下のコスト関数が得られるとしてよい。
【数4】
数4は、適切な形状を表す確率は、ノルムに直接的に左右されると仮定する。αの値が大きくなると、再構成された顔と平均的な顔との差分が大きくなることを意味する。パラメータ「η」は、数4の事前確率およびフィッティング品質との間でトレードオフの関係にあり、以下のコスト関数を最小限に抑えることによって繰り返し決定するとしてよい。
【数5】
式中、
【数6】
が成り立つ。特異値分解をAに適用すると、以下のようになる
【数7】
式中、wはAの特異値である。
【0021】
数5は、以下の条件が満たされる場合に最小化されるとしてよい。
【数8】
数8を利用して、αはα=α+δαとして繰り返し更新されるとしてよい。また、一部の実施形態によると、ηは繰り返し調整するとしてよい。尚、ηは最初、
【数9】
(例えば、最大特異値)に設定されるとしてよく、より小さい特異値の二乗値へと低減するとしてよい。
【0022】
さまざまな実施形態によると、ブロック210において再構成されたモーフィング可能顔メッシュとして提供される再構成された3D点を考えると、ブロック212におけるアラインメントは、顔のポージング、および、再構成された3D点からモーフィング可能顔メッシュまでの距離を最小にするために必要なメトリック係数の両方を検索することを含むとしてよい。顔のポージングは、中立顔モデルの座標フレームから高密度アバターメッシュの座標フレームへの変換Tによって提供されるとしてよい。尚、Rは3×3の回転行列であり、tは並進であり、sはグローバルスケールである。変換Tは以下の数10で表される。
【数10】
どの3Dベクトルpについても、T(p)=sRp+tを利用するとしてよい。
【0023】
カメラフレーム内の顔メッシュの頂点座標は、メトリック係数および顔のポージングの両方の関数である。メトリック係数{α,α,・・・,α}およびポージングTの場合、カメラフレーム内の顔形状は以下の数11で表されるとしてよい。
【数11】
【0024】
顔メッシュが三角メッシュである例では、三角形上の任意の点は、重心座標で測定される3個の三角形の頂点の一次結合として表現されるとしてよい。このように、三角形上の任意の点は、Tおよびメトリック係数の関数として表現されるとしてよい。さらに、Tが一定の場合、本明細書で説明するメトリック係数の一次関数として表現されるとしてよい。
【0025】
この後、ポージングTおよびメトリック係数{α,α,・・・,α}は、以下の数12を最小化することによって得られるとしてよい。
【数12】
式中、(p,p,・・・,p)は、再構成された顔メッシュの点を表しており、d(p,S)は、点pから顔メッシュSまでの距離を表す。数12は、イテレーションクローズドポイント(ICP)方式を利用して解を求めるとしてよい。例えば、イテレーションの度に、Tは一定であるとしてよく、点p毎に、現在の顔メッシュS上の最も近い点gを特定するとしてよい。エラーEは最小化されるとしてよく(数12)、再構成されたメトリック係数は、数1、数2、数4、数5および数8を用いて得られる。そして、顔のポージングTは、メトリック係数{α,α,・・・,α}を固定することによって、得られるとしてよい。さまざまな実施形態によると、これは、高密度アバターメッシュの点についてkd木を構築すること、高密度点におけるクローズド点においてモーフィング可能顔モデルを検索すること、および、最小二乗法を用いてポージング変換Tを得ることを含むとしてよい。ICPは継続して行われ、エラーEが収束して、再構成されたメトリック係数およびポージングTが安定化するまで、さらにイテレーションが行われるとしてよい。
【0026】
高密度アバターメッシュ(ブロック208におけるMVS処理で得られたもの)と再構成されたモーフィング可能顔メッシュ(ブロック210で得られたもの)とをアラインメントさせ、高密度アバターメッシュを再構成されたモーフィング可能顔メッシュに融合することによって結果を改善またはスムージングするとしてよい。例えば、図5は、再構成されたモーフィング可能顔メッシュ502を高密度アバターメッシュ504に融合してスムージングされた3D顔モデル506を得る例を、これに限定しないが、説明する図である。
【0027】
さまざまな実施形態によると、3D顔モデルをスムージングすることは、顔メッシュの周囲に円筒平面を作成すること、および、モーフィング可能顔モデルおよび高密度アバターメッシュの両方を当該平面にアンラップすることを含むとしてよい。高密度アバターメッシュの頂点毎に、当該頂点を含む、モーフィング可能顔メッシュの三角形を特定するとしてよい。そして、当該三角形内の当該頂点の重心座標を求めるとしてよい。そして、高密度点と、モーフィング可能顔メッシュ内の対応する点とを重み付け結合した結果として、改善された点を生成するとしてよい。高密度アバターメッシュ内の点pの改善は、以下の数13によって行われるとしてよい。
【数13】
式中、αおよびβは重みであり、(q,q,q)は、点pを含むモーフィング可能顔メッシュの三角形の3つの頂点であり、(c,c,c)は、図6に図示されているように3個のサブ三角形の面積を正規化したものである。さまざまな実施形態によると、ブロック212の少なくとも一部分は、システム100のアラインメントモジュール118によって実行されるとしてよい。
【0028】
ブロック212においてスムージングされた3D顔メッシュを生成した後、ブロック214において、カメラ射影マトリクスを用いて、マルチビューテクスチャ合成を適用することによって対応する顔テクスチャを合成するとしてよい。さまざまな実施形態によると、ブロック214は、角度重み付けテクスチャ合成方法を利用して最終顔テクスチャ(例えば、テクスチャ画像)を決定することを含むとしてよい。ブロック214では、高密度アバターメッシュにおける各点または各三角形について、対応する射影マトリクスを用いてさまざまな2D顔画像における投影点または投影三角形を取得するとしてよい。
【0029】
図7は、本開示に応じた、ブロック214で適用され得る角度重み付けテクスチャ合成方法700の一例を示す図である。さまざまな実施形態によると、ブロック214は、高密度アバターメッシュの各三角形について、一連の顔画像から得られた投影三角形の全てのテクスチャデータの重み付け結合を求めることを含むとしてよい。図7の例に示すように、3D点Pは、高密度アバターメッシュ702内の三角形に対応付けられており、点Pにおいてメッシュ702に正接している平面704の表面に対して定義される法線Nを持つ。当該3D点Pが、一例である2つのカメラCおよびC(カメラ中心OおよびO)に向かって投影されると、カメラCおよびCが撮像する顔画像706および708において2D投影点PおよびPが得られるとしてよい。
【0030】
そして、点PおよびPのテクスチャ値は、法線Nと、各カメラの主軸との間の角度のコサイン値によって重み付けするとしてよい。例えば、点Pのテクスチャ値は、法線NとカメラCの主軸Zとの間に形成されている角度710のコサイン値で重み付けするとしてよい。同様に、図7には分かり易いように図示していないが、点Pのテクスチャ値は、法線NとカメラCの主軸Zとの間に形成されている角度のコサイン値で重み付けするとしてよい。画像シーケンス中の全てのカメラについて同様の処理を行って、重み付けされたテクスチャ値の結合結果を用いて点Pおよび対応する三角形のテクスチャ値を生成するとしてよい。ブロック214は、高密度アバターメッシュ内の全ての点について同様の処理を実行して、ブロック212で生成されたスムージングされた3D顔モデルに対応するテクスチャ画像を生成することを含むとしてよい。さまざまな実施形態によると、ブロック214はシステム100のテクスチャモジュール120によって実行されるとしてよい。
【0031】
プロセス200は、スムージングされた3D顔モデルおよび対応するテクスチャ画像を公知の技術を利用して結合して最終3D顔モデルを生成するブロック216において終了するとしてよい。例えば、図8は、テクスチャ画像802と、対応するスムージングされた3D顔モデル804とを結合させて、最終3D顔モデル806を生成する例を示す図である。さまざまな実施形態によると、最終顔モデルは任意の標準的な3Dデータ形式(例えば、.ply、.obj等)で提供されるとしてよい。
【0032】
図2に図示している一例であるプロセス200の実施形態は図示した順序で図示した全てのブロックを実行することを含むが、本開示はこれに限定されず、さまざまな例によると、プロセス200の実施形態は、図示した全ブロックのうち一部のみを実行すること、および/または、図示した以外の順序で実行することを含むとしてよい。また、図2に図示したブロックのうち1以上は、1以上のコンピュータプログラム製品によって提供される命令に応じて実行するとしてよい。このようなプログラム製品は、例えば、1以上のプロセッサコアによって実行されると本明細書で説明している機能を実現する命令を提供する信号保持媒体を含むとしてよい。コンピュータプログラム製品は、任意の形式のコンピュータ可読媒体で提供するとしてよい。このように、例えば、1以上のプロセッサコアを含むプロセッサは、コンピュータ可読媒体によってプロセッサに提供される命令に応じて、図2に示すブロックのうち1以上を実行するか、または、実行するように構成されているとしてよい。
【0033】
図9は、本開示に応じたシステム900の例を示す図である。システム900は、本明細書で説明するさまざまな機能のうち一部または全てを実行するべく利用されるとしてよく、本開示のさまざまな実施形態に応じた画像に基づくマルチビュー3D顔生成を実行可能な任意のデバイスまたはデバイス群を含むとしてよい。例えば、システム900は、本開示はこれに限定されないが、デスクトップコンピュータ、モバイルコンピュータまたはタブレットコンピュータ等のコンピューティングプラットフォームまたはコンピューティングデバイス、スマートフォン、セットトップボックス等のうち選択されたコンポーネントを備えるとしてよい。一部の実施形態によると、システム900は、CEデバイス用のIntel(登録商標)アーキテクチャ(IA)に基づくコンピューティングプラットフォームまたはSoCであってよい。当業者であれば、本明細書で説明する実施形態は、本開示の範囲から逸脱することなく、他の処理システムでも利用し得ることに容易に想到するであろう。
【0034】
システム900は、1以上のプロセッサコア904を含むプロセッサ902を備える。プロセッサコア904は、少なくとも一部分が、ソフトウェアを実行し、および/または、データ信号を処理することが可能な任意の種類のプロセッサロジックであってよい。さまざまな例によると、プロセッサコア904は、CISCプロセッサコア、RISCマイクロプロセッサコア、VLIWマイクロプロセッサコア、および/または、命令セットを任意に組み合わせて実装している任意の数のプロセッサコア、または、デジタルシグナルプロセッサまたはマイクロコントローラ等の任意のその他のプロセッサデバイスを含むとしてよい。
【0035】
プロセッサ902はさらに、例えば、表示プロセッサ908および/またはグラフィクスプロセッサ910が受信した命令を、制御信号および/またはマイクロコードエントリポイントにデコードするために用いられるデコーダ906を備える。システム900ではコア904とは別個のコンポーネントとして図示されているが、当業者であれば、コア904のうち1以上がデコーダ906、表示プロセッサ908、および/または、グラフィクスプロセッサ910を実現し得るものと認めるであろう。一部の実施形態によると、プロセッサ902は、図2を参照しつつ説明したプロセスの例を含む、本明細書で説明したプロセスのいずれかを実行するように構成されているとしてよい。さらに、制御信号および/またはマイクロコードエントリポイントに応じて、デコーダ906、表示プロセッサ908、および/または、グラフィクスプロセッサ910は、対応する処理を実行するとしてよい。
【0036】
プロセッサコア904、デコーダ906、表示プロセッサ908および/またはグラフィクスプロセッサ910は、システムインターコネクト916を介して、互いに、および/または、さまざまな他のシステムデバイスと通信可能および/または動作可能に結合されているとしてよい。さまざまな他のシステムデバイスは、これらに限定されないが、例えば、メモリコントローラ914、オーディオコントローラ918および/または周辺機器920を含むとしてよい。周辺機器920は、例えば、ユニファイドシリアルバス(USB)ホストポート、ペリフェラルコンポーネントインターコネクト(PCI)エクスプレスポート、シリアルペリフェラルインターフェース(SPI)インターフェース、拡張バス、および/または、その他の周辺機器を含むとしてよい。図9ではインターコネクト916によってデコーダ906およびプロセッサ908および910に結合されているものとしてメモリコントローラ914を図示しているが、さまざまな実施形態によると、メモリコントローラ914は、デコーダ906、表示プロセッサ908、および/または、グラフィクスプロセッサ910に直接結合されているとしてよい。
【0037】
一部の実施形態によると、システム900は、図9に図示していないさまざまなI/Oデバイスとの間でI/Oバス(これも不図示)を介して通信を行うとしてよい。このようなI/Oデバイスは、これらに限定されないが、例えば、ユニバーサルアシンクロナス受信機/送信機(UART)デバイス、USBデバイス、I/O拡張インターフェースまたはその他のI/Oデバイスを含むとしてよい。さまざまな実施形態によると、システム900は、モバイル通信、ネットワーク通信および/または無線通信を実行するシステムの少なくとも一部分を表しているとしてよい。
【0038】
システム900はさらに、メモリ912を備えるとしてよい。メモリ912は、ダイナミックランダムアクセスメモリ(DRAM)デバイス、スタティックランダムアクセスメモリ(SRAM)デバイス、フラッシュメモリデバイスまたはその他のメモリデバイス等の1以上の個別のメモリコンポーネントであってよい。図9はメモリ912がプロセッサ902の外部にあるものとして図示しているが、さまざまな実施形態によると、メモリ912はプロセッサ902の内部にあるとしてもよい。メモリ912は、図2を参照しつつ説明したプロセスの一例を含む本明細書に記載のプロセスのいずれかを実行する際にプロセッサ902が実行するデータ信号によって表現される命令および/またはデータを格納するとしてよい。例えば、メモリ912は、本明細書で説明したカメラパラメータ、2D顔画像、高密度アバターメッシュ、3D顔モデル等を表すデータを格納するとしてよい。一部の実施形態によると、メモリ912は、システムメモリ部分およびディスプレイメモリ部分を含むとしてよい。
【0039】
本明細書で説明するデバイスおよび/またはシステム、例えば、一例として挙げたシステム100は、本開示に応じた多くの可能なデバイス構成、アーキテクチャまたはシステムのうちいくつかを表している。一例として挙げたシステム100の変形例等、システムの数多くの変形例を本開示に応じて実現することが可能である。
【0040】
上述したシステム、および、本明細書で説明したように上記のシステムが実行する処理は、ハードウェア、ファームウェアもしくはソフトウェア、または、これらの任意の組み合わせで実現されるとしてよい。また、本明細書で開示した任意の1以上の特徴は、ハードウェア、ソフトウェア、ファームウェアおよびこれらの組み合わせ、例えば、個別および集積化した回路ロジック、特定用途向け集積回路(ASIC)ロジックおよびマイクロコントローラで実現するとしてよく、ドメイン固有集積回路パッケージの一部として、または、集積化回路パッケージの組み合わせとして実現されるとしてよい。本明細書で用いる場合、「ソフトウェア」という用語は、本明細書に開示した1以上の特徴および/または特徴の組み合わせをコンピュータシステムに実行させるためのコンピュータプログラムロジックを格納しているコンピュータ可読媒体を含むコンピュータプログラム製品を意味する。
【0041】
さまざまな実施形態に基づき特定の特徴を本明細書で記載しているが、本明細書は限定的に解釈されるべきものではない。このため、本明細書に説明する実施形態のさまざまな変形例、ならびに、他の実施形態は、本開示内容が関する技術分野の当業者には明らかであり、本開示の意図および範囲内にあるとする。
[項目1]
3D顔モデル化の方法であって、
複数の2D顔画像を受信する段階と、
前記複数の2D顔画像からカメラパラメータおよび疎な重要点を復元する段階と、
前記カメラパラメータおよび前記疎な重要点に応じて、高密度アバターメッシュを生成するべく、マルチビューステレオプロセスを適用する段階と、
3D顔モデルを生成するべく前記高密度アバターメッシュをフィッティングする段階と、
前記3D顔モデルに対応付けられるテクスチャ画像を生成するべく、マルチビューテクスチャ合成を適用する段階と
を備える方法。
[項目2]
前記複数の2D顔画像のそれぞれに対して顔検出を実行する段階をさらに備える項目1に記載の方法。
[項目3]
前記複数の2D顔画像のそれぞれに対して顔検出を実行する段階は、前記複数の2D顔画像のそれぞれについて、顔バウンディングボックスを自動的に生成し、顔特徴を自動的に特定する段階を有する項目2に記載の方法。
[項目4]
前記3D顔モデルを生成するべく前記高密度アバターメッシュをフィッティングする段階は、
再構成されたモーフィング可能顔メッシュを生成するべく前記高密度アバターメッシュをフィッティングする段階と、
前記3D顔モデルを生成するべく、前記高密度アバターメッシュを前記再構成されたモーフィング可能顔メッシュにアラインメントする段階と
を有する項目1から3の何れか1項に記載の方法。
[項目5]
前記再構成されたモーフィング可能顔メッシュを生成するべく前記高密度アバターメッシュをフィッティングする段階は、イテレーションクローズドポイント技術を適用する段階を含む項目4に記載の方法。
[項目6]
スムージングされた3D顔モデルを生成するべく、前記3D顔モデルを改善する段階をさらに備える項目4または5に記載の方法。
[項目7]
最終3D顔モデルを生成するべく、前記スムージングされた3D顔モデルと前記テクスチャ画像とを組み合わせる段階をさらに備える項目6に記載の方法。
[項目8]
前記カメラパラメータの復元は、前記複数の2D顔画像のそれぞれに対応付けられているカメラ位置の復元を含み、それぞれの前記カメラ位置は主軸を含み、前記マルチビューテクスチャ合成を適用する段階は、
前記高密度アバターメッシュ内の点について、前記複数の2D顔画像のそれぞれにおいて投影点を生成する段階と、
前記高密度アバターメッシュ内の前記点の法線と、それぞれの前記カメラ位置の前記主軸との間の角度のコサイン値を決定する段階と、
前記高密度アバターメッシュ内の前記点について、対応する前記コサイン値で重み付けされた前記投影点のテクスチャ値の関数として、テクスチャ値を生成する段階と
を有する項目1から7の何れか1項に記載の方法。
[項目9]
プロセッサと、
前記プロセッサに結合されているメモリと
を備え、
前記メモリ内の命令は、
複数の2D顔画像を受信し、
前記複数の2D顔画像からカメラパラメータおよび疎な重要点を復元し、
前記カメラパラメータおよび前記疎な重要点に応じて、高密度アバターメッシュを生成するべく、マルチビューステレオプロセスを適用し、
3D顔モデルを生成するべく前記高密度アバターメッシュをフィッティングし、
前記3D顔モデルに対応付けられるテクスチャ画像を生成するべく、マルチビューテクスチャ合成を適用するように
前記プロセッサを設定するシステム。
[項目10]
前記メモリ内の命令はさらに、前記複数の2D顔画像のそれぞれに対して顔検出を実行するように前記プロセッサを設定する項目9に記載のシステム。
[項目11]
前記複数の2D顔画像のそれぞれに対して顔検出を実行することは、前記複数の2D顔画像のそれぞれについて、顔バウンディングボックスを自動的に生成し、顔特徴を自動的に特定することを有する
項目10に記載のシステム。
[項目12]
前記3D顔モデルを生成するべく前記高密度アバターメッシュをフィッティングすることは、
再構成されたモーフィング可能顔メッシュを生成するべく前記高密度アバターメッシュをフィッティングすることと、
前記3D顔モデルを生成するべく、前記高密度アバターメッシュを前記再構成されたモーフィング可能顔メッシュにアラインメントすることと
を有する項目9から11の何れか1項に記載のシステム。
[項目13]
前記再構成されたモーフィング可能顔メッシュを生成するべく前記高密度アバターメッシュをフィッティングすることは、イテレーションクローズドポイント技術を適用することを含む項目12に記載のシステム。
[項目14]
前記カメラパラメータの復元は、前記複数の2D顔画像のそれぞれに対応付けられているカメラ位置の復元を含み、それぞれの前記カメラ位置は主軸を含み、前記マルチビューテクスチャ合成を適用することは、
前記高密度アバターメッシュ内の点について、前記複数の2D顔画像のそれぞれにおいて投影点を生成することと、
前記高密度アバターメッシュ内の前記点の法線と、それぞれの前記カメラ位置の前記主軸との間の角度のコサイン値を決定することと、
前記高密度アバターメッシュ内の前記点について、対応する前記コサイン値で重み付けされた前記投影点のテクスチャ値の関数として、テクスチャ値を生成することと
を有する項目9から13の何れか1項に記載のシステム。
[項目15]
複数の2D顔画像を受信し、
前記複数の2D顔画像からカメラパラメータおよび疎な重要点を復元し、
前記カメラパラメータおよび前記疎な重要点に応じて、高密度アバターメッシュを生成するべく、マルチビューステレオプロセスを適用し、
3D顔モデルを生成するべく前記高密度アバターメッシュをフィッティングし、
前記3D顔モデルに対応付けられるテクスチャ画像を生成するべく、マルチビューテクスチャ合成を適用する
処理手段を備えるデバイス。
[項目16]
前記処理手段は、前記複数の2D顔画像のそれぞれに対して顔検出を実行する項目15に記載のデバイス。
[項目17]
前記複数の2D顔画像のそれぞれに対して顔検出を実行することを目的として、前記複数の2D顔画像のそれぞれについて、前記処理手段は、顔バウンディングボックスを自動的に生成し、顔特徴を自動的に特定する項目16に記載のデバイス。
[項目18]
前記3D顔モデルを生成するべく前記高密度アバターメッシュをフィッティングすることを目的として、前記処理手段は、
再構成されたモーフィング可能顔メッシュを生成するべく前記高密度アバターメッシュをフィッティングし、
前記3D顔モデルを生成するべく、前記高密度アバターメッシュを前記再構成されたモーフィング可能顔メッシュにアラインメントする項目15から17の何れか1項に記載のデバイス。
[項目19]
前記再構成されたモーフィング可能顔メッシュを生成するべく前記高密度アバターメッシュをフィッティングすることを目的として、前記処理手段は、イテレーションクローズドポイント技術を適用する項目18に記載のデバイス。
[項目20]
前記カメラパラメータの復元は、前記複数の2D顔画像のそれぞれに対応付けられているカメラ位置の復元を含み、それぞれの前記カメラ位置は主軸を含み、前記マルチビューテクスチャ合成を適用することを目的として、前記処理手段は、
前記高密度アバターメッシュ内の点について、前記複数の2D顔画像のそれぞれにおいて投影点を生成し、
前記高密度アバターメッシュ内の前記点の法線と、それぞれの前記カメラ位置の前記主軸との間の角度のコサイン値を決定し、
前記高密度アバターメッシュ内の前記点について、対応する前記コサイン値で重み付けされた前記投影点のテクスチャ値の関数として、テクスチャ値を生成する
項目15から19の何れか1項に記載のデバイス。
図1
図2
図3
図4
図5
図6
図7
図8
図9