(58)【調査した分野】(Int.Cl.,DB名)
前記第1画像撮影装置は、一対の赤外線カメラを備え、前記第2画像撮影装置は、深度カメラ、カラーカメラ、赤外線カメラ、又は2つの立体カメラ、のうちの1つを備える請求項1に記載の方法。
前記抽出された表情パラメータを前記ユーザのデジタル表現に適用することにより、前記ユーザのグラフィック表現を生成することをさらに備える請求項1に記載の方法。
前記第1画像撮影装置は、一対の赤外線カメラを備え、前記第2画像撮影装置は、深度カメラ、カラーカメラ、赤外線カメラ、又は2つの立体カメラのうちの1つを備える請求項8に記載のヘッドマウントディスプレイユニット。
前記表示装置は、第1ディスプレイ及び第2ディスプレイを備え、前記第1ディスプレイは、左側画像を前記ユーザの左目の方に表示するように構成され、前記第2ディスプレイは、右側画像を前記ユーザの右目の方に表示するように構成される請求項8に記載のヘッドマウントディスプレイユニット。
【発明を実施するための形態】
【0024】
図面及び以下の説明は、単なる例示としての好適な実施形態に関連する。以下を検討することにより、本明細書に開示した構造及び方法の代替実施形態は、クレームの主旨から逸脱することなく採用されてもよい実行可能な代替として容易に認識されることに留意しなければならない。
以降、添付の図面に例示したいくつかの実施形態について詳細に説明する。可及的に、図中では同様の参照符号が使用され、同様の機能を示すことがあることに留意しなければならない。図面は、例示のみを目的として開示のシステム(又は方法)の実施形態を示している。以下の説明において、本明細書に記載の主旨から逸脱しない限り、本明細書に示される構造及び方法の代替実施形態が採用されてもよい。
【0025】
実施形態は、目領域を含むユーザの顔の上部を撮影する画像撮影装置(例えば、赤外線カメラ)と、鼻、唇、顎先、及び頬のうちの少なくとも1つを含むユーザの顔の下部特徴を撮影するもうひとつの画像撮影装置(例えば、深度カメラ)とを含むヘッドマウントディスプレイユニットを使用して、リアルタイムでユーザの表情を検出することに関連する。第1画像撮影装置及び第2画像撮影装置によって撮影された画像が処理され、表情に関連付けられたパラメータを抽出する。このパラメータは、表情を含むユーザのデジタル表現が生成可能となるように、送信又は処理可能である。
【0026】
本明細書に記載の目領域とは、目と目の上方の眉をカバーする顔領域をいう。
表情検出システムの例としてのアーキテクチャ
【0027】
図1は、一実施形態に係る、ユーザの表情を撮影及び処理するシステム100を示すブロック図である。システム100は、数ある構成要素の中でも特に、ヘッドマウントディスプレイ(HMD)102と、HMD102と通信する演算装置108とを備えてもよい。HMD102は、演算装置108と連携して使用され、ユーザの姿勢を検出し、ユーザの表情を検出し、ユーザに画像を表示する。
【0028】
演算装置108は、有線通信又は無線通信を介してHMD102と通信してもよい。HMD102にて再生するための画像及び音声のデータ120は、演算装置108から送信可能である。HMD102はまた、ユーザの頭部の姿勢を示し、表情に関連付けられた撮影画像を含む情報110を演算装置108に送信する。
【0029】
HMD102は、
図2Cを参照して以下に詳細に示す通り、ユーザの頭部に装着される。HMD102は、数ある構成要素の中でも特に、1つ以上の2Dカメラ104と、1つ以上の深度カメラ105と、1つ以上のディスプレイ106とを備えてもよい。ディスプレイ106とそのオペレーティングモジュールの詳細については、説明を簡潔にするために、本明細書中では省略する。各2Dカメラ104は、ユーザの顔の目領域を撮影し、赤外線カメラ又はRGBカメラ(照明ランプを備えるか、備えないかを問わず)として実現されてもよい。各目領域は、目と眉とを含む。一方、深度カメラ105は、鼻、唇、頬、及び顎先のうちの少なくとも1つを含むユーザの顔の下部特徴について深度画像を生成する。
【0030】
演算装置108は、以降、
図7を参照して詳細に説明する通り、赤外線カメラ104及び深度カメラ105によって生成された画像を処理することにより、ユーザの表情を判定する。深度カメラ105を使用する代わりに、2D RGBカメラ又は2D赤外線(IR)カメラも使用することができる。
【0031】
演算装置108は、HMD102とは別個のものとして
図1に示されているが、この演算装置108は、HMD102の一部であってもよい。
ヘッドマウントディスプレイの例
【0032】
図2Aは、一実施形態に係るHMD102の概略図である。HMD102は、主要本体202と、主要本体202から下の方へ伸びる垂直伸張部材204とを備える。主要本体202は、2Dカメラ104と、ディスプレイ106と、その他のセンサ(例えば、ジャイロスコープ)とを備えて設置される。
【0033】
HMD102及び垂直伸張部材204は、深度カメラ105によって撮影されるユーザの顔の領域の調整を可能にする機構を介して連結されてもよい。垂直伸張部材の代わりに、水平に伸びるか、又は傾斜配向で伸びる部材も深度カメラ105を搭載するために使用されてよい。深度カメラ105は、(i)3D深度マップと、(ii)撮影領域の2Dカラー画像又は赤外線画像とを提供する。ユーザの顔の下部特徴を撮影するために深度カメラ105を使用することは、数ある理由の中でも特に、顔の下部特徴についての3Dジオメトリ情報を高精度に得ることができるという理由により、有利である。深度カメラ105を使用する代わりに、2Dカラーカメラもユーザの顔の下部特徴を撮影するために使用可能である。2Dカラーカメラで撮影されたカラー画像を演算装置108で処理することにより、顔の下部特徴について3Dジオメトリ情報を生成してもよい。
【0034】
HMD102はまた、ユーザがHMD102をユーザの頭部に固定できるように、ストラップ212に取り付けられてもよい。
【0035】
図2Aに示される通り、一対の2Dカメラ104が、主要本体202の正面壁部の上方隅部に配置されて、ユーザの顔のそれぞれの領域(すなわち、左目及び右目の領域)を撮影する。代替実施形態においては、一対の2DカメラをHMD102の側壁203に配置することができる。2Dカメラ104は、ディスプレイ106のすぐ隣に配置することもできる。
【0036】
ディスプレイ106は2つの別個の表示モジュールを備えてもよく、そのうちのひとつは左側画像をユーザの左目の方に表示するもの、もう一つは右側画像をユーザの右目の方に表示するものである。2つのディスプレイ106は、物理的に離間してもよい。或いは、単一の表示モジュールが、左側画像及び右側画像を別々に表示するための2つの別個の表示領域に分けられてもよい。
【0037】
図2Bは、一実施形態に係る、目と眉を含むユーザの顔220の目領域を表す画像を撮影する2Dカメラ104を示す概略図である。2Dカメラ104は、ユーザが装着しているときにユーザの顔に対向するHMD102の本体202に設置される。具体的には、2Dカメラ104は、ユーザの顔の片目又は両目の領域を撮影する。
【0038】
赤外線カメラが、2Dカメラ104として使用されてもよい。目及び眉の周辺領域の画像を撮影するために赤外線カメラを使用することは、数ある理由の中でも特に、(i)赤外線カメラはユーザの肌に接触することなく顔の特徴を十分に撮影することができるという理由と、(ii)赤外線カメラは、HMD102がユーザによって装着されているときに外部の光が遮られることから生じ得る低照明条件の下で動作するという理由により、有利である。
【0039】
一実施形態において、2Dカメラ104は、広角を撮影するために魚眼レンズを備えてもよい。2Dカメラからユーザの目及び眉までの距離が短い(通常、5センチメートル以内)ため、魚眼レンズを使用して目領域全体を撮影する。深度カメラ105も、広角を撮影するために魚眼レンズを備える。
【0040】
図2Cは、一実施形態に係る、ユーザの顔220に対するHMD102の構成要素の配置を示す概略図である。
図2CのHMD102は、左目領域を撮影するものと、右目領域を撮影するものとの一対の2Dカメラ104を有する。2Dカメラの中心軸244は、垂直面254に対して角度αを成す。角度αは、目領域を撮影するために30°〜45°の範囲内であってもよい。
【0041】
図2Dは、他の実施形態に係るHMD102Bの概略図である。HMD102Bは、
図2AのHMD102と同様であるが、ユーザの顔の下部の画像を撮影するためにカメラ105Bが取り付けられるマウント204Bを有する。マウント204Bは、
図2Aの垂直伸張部材よりも短い。カメラ105Bは、深度カメラであってもよく、又は、RGB/グレースケールカメラであってもよい。カメラ105Bがユーザの顔の下部の画像をよりよく撮影できるように、1つ以上の赤外線又は可視光源(図示せず)もマウント204Bに取り付けられてもよい。代替実施形態では、HMD102は別個のマウント又は垂直伸張部材を備えないが、主要本体202に直接搭載されたカメラ105Bを有する。
【0042】
図2Eは、他の実施形態に係るHMD102Cの概略図である。HMD102Cは、
図2DのHMD102Bと同様であるが、マウント204Cに設置される立体カメラ105Bを有する。両方の立体カメラ105Bがユーザの顔の下部の画像を撮影する。撮影された画像は、演算装置108によって処理され、ユーザの表情を判定する。
【0043】
図2Fは、一実施形態に係るHMD102Dの概略図である。HMD102Dは、
図2EのHMD102Cと同様であるが、主要本体202に対して摺動可能なマウント222A及び222Bを有する。マウント222A及び222Bにはカメラ105Dが搭載され、それらはIRカメラ又はグレースケールカメラであってもよい。マウント222A及び222Bが主要本体202に対して摺動できるようにすることにより、マウント222A及び222Bの位置が、ユーザの顔の下部をよりよく撮影できるように調整されてもよい。いくつかの実施形態において、マウント222A及び222Bは、ユーザによって手動で移動される。他の実施形態においては、マウント222A及び222Bは、アクチュエータ(例えば、図示しないモータである)によって自動調整される。
【0044】
図2Gは、一実施形態に係るHMD102Eの概略図である。HMD102Dは、単一の2Dカメラ104が主要本体202の中心に配置されることを除いて、
図2AのHMD102と同様である。単一の2Dカメラ104は、
図2Iを参照して以下に説明する通り、ユーザの顔の左目領域および右目領域を撮影する。
【0045】
図2Hは、一実施形態に係るHMD102Fの概略図である。HMD102Fは、主要本体202が上の方へ突出した縁部233を有することを除いて、
図2GのHMD102Eと同様である。上の方へ突出した縁部233は、ユーザの顔の目領域が、主要本体202の下に完全に包まれるのを可能とする。
【0046】
図2Iは、
図2GのHMD102E又は
図2HのHMD102Fにおける単一の2Dカメラ104を使用して両側の目領域を撮影することを示す概略図である。2Dカメラ104で撮影される顔の領域を広げるために、2Dカメラ104において魚眼レンズが使用されてもよい。
【0047】
図2Jは、一実施形態に係る、2つの別個の2Dカメラ104Jを使用して両側の目領域を撮影することを示す概略図である。
図2Cの2Dカメラ104と異なり、2Dカメラ104Jは、ディスプレイ106の間に配置される。2Dカメラ104Jの中心軸247は、両方の2Dカメラ104Jが顔の目領域に対向するように、垂直面254に対して角度βをなす。2Dカメラ104Jをディスプレイ106の間に配置する多くの利点のうちの1つとして、HMDの寸法(特に、幅W)を小さくできることがあげられる。
【0048】
図2Aから
図2Jを参照して上述したHMDは、画像をそれぞれの目の方に表示する専用ディスプレイ106を使用するものとして説明したが、他の実施形態では、ディスプレイは、別のモバイルデバイス(例えば、スマートフォン)の表示装置として実現されてもよい。例えば、
図2Kは、モバイルデバイス261を受容するスロット263を有するHMD102Gの概略図である。モバイルデバイス261が主要本体202のスロット263に挿入されて、モバイルデバイスの表示装置がHMD102Gのディスプレイとして機能してもよい。
図2Kに示されるようなスロット263は、単なる例示であり、異なる構成のスロットも採用可能である。
図2Kの実施形態において、ディスプレイ106は、演算装置108と同じように、モバイルデバイス261で実現される。
表情を判定する一例としての演算装置
【0049】
図3は、一実施形態に係る、表情を判定するためにHMD102と接続された演算装置108を示すブロック図である。演算装置108は、数ある構成要素の中でも特に、メモリ302と、プロセッサ304と、HMDインタフェース306と、ディスプレイ308と、ユーザインタフェース310と、これらの構成要素を接続するバス301とを備えてもよい。演算装置108は、他の演算装置(図示せず)と通信するために、ネットワークインタフェース等の他の構成要素を含んでもよい。
【0050】
メモリ302は、
図4を参照して以下に詳細に説明する通り、ソフトウェアモジュールを記憶する非一時的コンピュータ可読記憶媒体である。メモリ302に記憶された命令は、プロセッサ304によって実行されることにより、表情検出に関連付けられたオペレーションと、検出された表情を組み込んだユーザのデジタル表現の生成とを実施する。
【0051】
プロセッサ304は、メモリ302に記憶された種々の命令を実行し、演算装置108における他の構成要素のオペレーションを制御する。演算装置108は、1つを上回る数のプロセッサを備えてもよい。
【0052】
HMDインタフェース306は、HMD102と通信するためのハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせである。HMDインタフェース306は、演算装置108がHMD102において再生するための画像及び音声のデータ120を送信できるようにし、また、ユーザの頭部の姿勢に関連付けられた情報110と、表情に関連付けられた撮影画像とをHMD102から受信することができる。HMDインタフェース306は、1つ以上の通信プロトコルに対応するものであってもよい。
【0053】
ディスプレイ308は、画像をレンダリングしてユーザに提示するために使用される。これらの画像には、HMD102のオペレーションに関連付けられた情報が含まれてもよい。
【0054】
ユーザインタフェース310は、ユーザが演算装置108と情報をやりとりできるようにするためのハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせである。ユーザインタフェース310は、ポインティングデバイス(例えば、マウス)及びキーボードを備えてもよい。
【0055】
図4は、一実施形態に係る、演算装置108におけるソフトウェアモジュールのブロック図である。メモリ302は、数あるソフトウェア構成要素の中でも特に、オペレーティングシステム406と、表情検出モジュール410と、アプリケーションモジュール440とを記憶する。メモリ302はまた、
図4には図示されない他の種々のソフトウェアモジュールも備えてもよい。
【0056】
オペレーティングシステム406は、演算装置108において利用可能なリソースの管理を担うソフトウェアモジュールである。利用可能なオペレーティングシステムには、例えば、IOS、WINDOWS
(登録商標)、LINUX、ANDROID
(登録商標)、及びMAC OSが含まれてもよい。
【0057】
表情検出モジュール410は、2Dカメラ104から受信した2D画像(例えば、赤外線画像)402と、深度カメラ105から受信した画像404とに基づいて、ユーザの表情を検出するソフトウェアモジュールである。画像404には、深度カメラ105によって生成された深度画像とカラー画像又はグレースケール画像との双方が含まれてもよい。表情検出モジュール410は、赤外線画像402と画像404とを処理することにより、ユーザの表情を示す表情(FE)パラメータ424を生成する。
【0058】
表情検出モジュール410には、目及び眉追跡モジュール414と、顔下部追跡モジュール418と、FEパラメータ生成器422とを含むがこれに限定されないサブモジュールが含まれてもよい。目及び眉追跡モジュール414は、ランドマーク位置に基づき、2D画像402における瞳の中心と、目の輪郭と、眉の輪郭とを判定する。目及び眉追跡モジュール414は、瞳、目の輪郭、眉の輪郭のランドマークのアノテーションのついたトレーニング画像サンプルを用いて事前トレーニングされている。このようなアノテーションは、手動で実施されてもよい。
図5A及び
図5B中、例としてのランドマークが「X」点として示されている。
【0059】
目及び眉追跡モジュール414は、追跡アルゴリズムを採用してもよい。追跡アルゴリズムは、当分野で周知である、例えば、(i)教師あり降下法(SDM)、(ii)変形可能モデルフィッティング、(iii)アクティブアピアランスモデリング、(iii)ディープラーニング技術を使用してもよい。目及び眉追跡モジュール414は、ユーザの目と眉とを追跡した結果として、目及び眉の位置及び形状を示すランドマーク位置415を生成する。魚眼レンズを使用して2D画像を撮影するとき、目及び眉追跡モジュール414は、追跡アルゴリズムの実行前に、画像を平坦化して、魚眼レンズの使用によって生じた2D画像中の歪みを除去してもよい。
【0060】
同様に、顔下部追跡モジュール418は、画像404に基づき、ユーザの鼻、唇、顎先、頬、及び顎先と頬の周囲の顔のシルエットのうちの少なくとも1つの姿勢を追跡する。下部追跡モジュール418は、ユーザの顔の下部のランドマークを追跡するために、当分野において周知である、例えば、(i)教師あり降下法(SDM)、(ii)変形可能モデルフィッティング、(iii)アクティブアピアランスモデリング、(iv)ディープマシンラーニングのうちの1つを使用して、追跡アルゴリズムも使用してもよい。ユーザの顔の下部におけるランドマークは、例えば、
図5Cに示されている。顔下部追跡モジュール418は、ユーザの顔の下部におけるランドマークを追跡することにより、鼻、唇、顎先、及び頬のうちの少なくとも1つを含む顔の下部特徴のランドマーク位置419を生成する。顎先及び頬の周囲のシルエットを検出することの多くの利点のうちの1つとして、顎及び頬の動きを明確に撮影できることがあげられる。それはまた、カメラに対する頭部位置のロバストな追跡にも役立ち、これは唇追跡では容易なことではない。
【0061】
FEパラメータ生成器422は、ランドマーク位置415及び419と、深度カメラからの3D深度マップとを受信する。FEパラメータ生成器422は、
図6を参照して以下に詳細に説明する通り、キャリブレーションプロセス中に得られる個人化3D表情モデルのモデルを記憶する。FEパラメータ生成器422はまた、
図7を参照して以下に詳細に説明する通り、ランドマーク位置415及び419と3D深度マップを3D表情モデルのモデルにフィッティングすることにより、HMD102を装着するユーザの表情を総合的に示す表情(FE)パラメータ424を抽出する。
【0062】
アプリケーションモジュール440は、FEパラメータ424の形式での検出表情に基づき、種々のオペレーションを実施する。アプリケーションモジュール440には、数ある要素の中でも特に、マッピングモジュール442と、グラフィック表現ストレージ446と、仮想現実(VR)/拡張現実(AR)モジュール448とが含まれてもよい。グラフィック表現ストレージ446は、ユーザの1つ以上のデジタル表現を記憶する。マッピングモジュール442は、グラフィック表現ストレージ446からユーザのデジタル表現を検索し、受信されたユーザのデジタル表現にFEパラメータ424(例えば、ブレンドシェイプウェイト値)をリアルタイムで転写することにより、VR/ARモジュール448において使用するデータを生成する。
【0063】
VR/ARモジュール448は、FEパラメータ424(例えば、ブレンドシェイプ)に従って、又は、転写されたブレンドシェイプウェイトとユーザのデジタル表現の表現パラメータ空間との間のセマンティック・マッピング関数に基づき、ユーザの3Dグラフィック表現を生成してもよい。VR/ARモジュール448は、表情に基づく、例えば、ソーシャルネットワーキングサービス、ゲーム、オンラインショッピング、ビデオ通話、及びヒューマン・マシン・インターフェースなどの種々のサービスを実施するソフトウェアモジュールの一部であってもよく、又はこれらと連携して動作してもよい。
【0064】
表情検出モジュール410及びアプリケーションモジュール440がソフトウェアモジュールとして実現されるものとして
図4に示されているが、これらのモジュールは、集積回路(IC)構成要素として実現されてもよい。
表情検出プロセス
【0065】
図6は、一実施形態に係る、ユーザのデジタル表現における表情を使用するプロセス全体を示すフローチャートである。まず、ユーザがHMD102を装着した後、キャリブレーションが実施される(606)。一実施形態において、オンラインキャリブレーションプロセスを使用して、HMD102のユーザのための個人化追跡モデルを構築する。キャリブレーション中、2Dカメラ104及び/又は深度カメラ105が複数の深度画像及び2Dカラー画像又は赤外線画像を撮影している間の所定時間(例えば、数秒間)、ユーザは無表情の顔ポーズを保つ。
【0066】
表情検出モジュール410は、キャリブレーションプロセスの一部として、これらの画像を受信し、3D体積測定モデル作成プロセスを適用することにより、関連付けられた顔色情報を備えた、顔の下半分についての平滑化3D体積測定顔メッシュを作成する。平滑化3D体積測定顔メッシュを作成するプロセスは、当分野において周知である(例えば、Richard A. Newcombeらによる「KinectFusion:Real−time Dense Surface Mapping and Tracking」Mixed and augmented reality(ISMAR)、2011年第10回IEEE国際シンポジウム、2011年を参照のこと。その内容全体を参照としてここに援用する)。表情検出モジュール410はまた、目領域画像と顔下部画像とに2Dランドマーク検出を実施することにより、目、目のライン、眉のライン、唇のライン、鼻のライン、及び顔のシルエット(例えば、顎先及び頬のライン)の中心及び周囲を探し出す。表情検出モジュール410は、複数の撮影画像に亘って2Dランドマークを平均化することにより、2Dランドマーク検出においてノイズとなるアーティファクトを低減する。FEパラメータ生成器422は、3D体積測定顔メッシュと2D画像における2D顔ランドマーク位置とを使用して、(i)テンプレート無表情モデルの剛性ポーズを推定した後、(ii)無表情の線形主成分分析(PCA)モデルを歪ませて、体積測定メッシュと2Dランドマークとをフィットさせることにより、個人化無表情モデルを構築する。
【0067】
具体的には、FEパラメータ生成器422は、個人化無表情モデルMの線形PCAモーフィングバージョンを利用し、以下の式を使用して、ワールド座標における顔メッシュWを表す。
【0069】
式中、wはモーフィングモデルに対する線形重みづけベクトルを表し、Rは回転行列であり、tは変換ベクトルである。FEパラメータ生成器422は、以下のエネルギー項を最小化することにより、反復的にw及び(R、t)を求める。
【0071】
式中、α、β、γは、フィッティング項についての重みづけを表す。C
plは、式(4)に規定される通り、体積測定メッシュVと顔メッシュWとの間の点−面誤差を最小化するためのフィッティング項である。C
mは、式(5)に規定される通り、口、鼻、及びシルエットの2D顔特徴ランドマークと顔メッシュWにおいて対応する頂点との間の点−点誤差を最小化するフィッティング項である。C
rは、式(6)に規定の通り、右目領域の2D顔特徴ランドマークと顔メッシュWにおいて対応する頂点との間の点−点誤差を最小化するフィッティング項である。C
lは、式(7)に規定される通り、左目領域の2D顔特徴ランドマークと顔メッシュWにおいて対応する頂点との間の点−点誤差を最小化するフィッティング項である。C
plは、以下の通り、規定される。
【0073】
式中、ν
iは顔メッシュWのi番目の頂点であり、は、体積測定メッシュV上のν
iの最も近い点であり、n
iは、体積測定メッシュV上のν
iにおける面法線である。C
mは、以下の通り、規定される。
【0075】
式中、u
jは、追跡された2D顔特徴の位置であり、π
m(ν
j)は、ユーザの口、鼻、及びシルエットの周辺のカメラ空間への対応メッシュ頂点ν
jの投影である。C
rは、以下の通り、規定される。
【0077】
式中、u
jは、追跡された2D顔特徴の位置であり、π
r(ν
j)は、対応するメッシュ頂点ν
jの右目領域のカメラ空間への投影である。C
lは、以下の通り、規定される。
【0079】
式中、u
jは、追跡された2D顔特徴の位置であり、π
l(ν
j)は、対応するメッシュ頂点ν
jの左目領域のカメラ空間への投影である。
【0080】
個人化無表情メッシュが構築された後、当分野で周知の通り、テンプレートフェイスの表現ブレンドシェイプからの変形を、変形転写を用いて転写することにより、個人化表情モデル(ブレンドシェイプモデル)が得られる。変形転写を用いて表現ブレンドシェイプからの変形を転写する一例としての方法については、例えば、Robert W.Sumnerらによる「Deformation transfer for triangle meshes」ACM Transactions on Graphics(TOG)23.3(2004年)399〜405頁に記載されている。或いは、顔のジオメトリの広がり、同一性、及び表情をマルチランクデータテンソルに符号化する双線形顔モデルを適用することにより、個人化表情モデルを得ることができる。双線形顔モデルを適用して個人化表情モデルを構築する一例としての方法は、例えば、Chen Caoらによる「Displaced dynamic expression regression for real−time facial tracking and animation」ACM Transactions on Graphics(TOG)33.4(2014年)に記載されている。この内容全体を参照としてここに援用する。
【0081】
右目及び左目両方にひとつのカメラだけを使用すれば、C
r及びC
lは、1つの式に組み合わせられる。
【0082】
キャリブレーションを実施した後、
図7を参照して以下に詳細に説明する通り、ユーザの顔の特徴の2D画像及び深度画像を追跡及び処理することにより、ユーザの表情を検出する(610)。
【0083】
その後、ユーザのグラフィック表現に組み込むために、検出された表情をユーザのデジタル表現に適用する(616)。生成されたグラフィック表現は、演算装置108又はネットワーク(例えば、インターネット)を通じて演算装置108と通信する遠隔演算装置により、仮想現実又は拡張現実に表示されてもよい。
【0084】
図7は、一実施形態に係る、表情検出プロセスを示すフローチャートである。まず、
図4を参照して以上に詳細に説明した通り、目領域に関連付けられたランドマーク位置422を2D画像から判定する(710)。
図4を参照して以上に詳細に説明した通り、IR画像又はRGB画像及び/又は3Dカメラの深度画像を処理することにより、ユーザの顔の下部特徴に関連付けられたランドマーク位置を生成する(720)。
【0085】
ランドマーク位置(及び任意で3D深度マップデータ)を使用することにより、ユーザの顔全体に対するFEパラメータ424を生成する(730)。一実施形態において、FEパラメータ生成器422は、ランドマーク位置415に基づき、顎の開放、笑み、及び息を吹く様子等の表現を示すように、FEパラメータ424の一部としてブレンドシェイプパラメータを生成する一方で、ランドマーク位置419に基づき、目の開閉及び眉の上下を示すように、FEパラメータ424の一部としてブレンドシェイプパラメータを生成する。
【0086】
FEパラメータ424を演算するために、追跡されたランドマーク位置415が入力制約として組み合わせられ、この入力制約に基づき、FE表現パラメータにフィッティングが実施される。フィッティングオペレーションは、2つの部分からなってもよい。すなわち、(i)剛性安定化と、(ii)表現パラメータ追跡とである。最適化オペレーションは、剛性ポーズ値とパラメータ値との双方が収束するまで、剛性安定化と表現パラメータ追跡の間で選択的に実施されてもよい。
【0087】
剛性安定化については、顔の剛性ポーズをカメラに対して動かすことができる。ユーザが表情を作るとき、
頬の筋肉がヘッドセットを前方且つ上方に押し上げ、カメラに対する相対的な顔の剛性ポーズを経時的に変化させる。ポーズがロックされたとき、剛性的な動きにより、表現パラメータ追跡にアーティファクトを生じるため、無関係な剛性的動きの因子により、不正確なパラメータ値が得られることがある。さらに、ユーザが素早く頭部を動かすとき、ヘッドセットが顔にしっかり装着されていたとしても、顔に対して滑り落ちてしまうことがある。このような状況により、頭部ポーズが固定されているという前提が無効になり、表現追跡にアーティファクトを生じる。ヘッドセットに対する頭部の位置のずれを調整するために、剛性安定化が実施され、ヘッドセット上に剛性固定されたカメラに対する頭部の相対的ポーズを演算する。
【0088】
一実施形態において、頭部の初期剛性ポーズを判定するために、キャリブレーション段階において剛性反復最近接点(ICP)アルゴリズムが使用される。しかしながら、追跡モードへの切り替え後、初期剛性ポーズは、ヘッドセットに対する頭部の相対的な動きを調整するように限定的範囲での摂動を許容されたアンカーとして使用される。剛性ICPはまた、特に、ユーザがHMDを外し、それを再び装着した後に、HMDからの頭部ポーズのオフセットを考慮して頭部の初期剛性ポーズを判定するために、追跡モードの開始時にいくつかの画像フレームに対して実施されてもよい。その後、剛性ICPを再び実施することにより、剛性ポーズが再初期化される。初期剛性ポーズが判定された後、追跡されたランドマーク位置と入力された深度マップとを入力制約として使用しつつ、回転のヨー、ロール、ピッチと変換x、y、zの値が初期剛性ポーズの所与の限度を超えて外れることがないように、制約を追加して剛性ICPが実施されてもよい。
【0089】
FEパラメータ424を得るために、ランドマーク位置415及び419(及び3Dカメラが使用される場合には深度マップ)に基づき、個人化追跡モデルにフィッティングが実施される。キャリブレーションプロセスのように、撮影カメラは、ヘッドセットに剛性的に固定されると想定され、それらの相対的ポーズ(すなわち、回転及び変換)におけるパラメータが既知であると想定される。FEパラメータ生成器422は、ランドマーク位置415及び419(及び3Dカメラが使用される場合には深度マップ)に基づき、FE表現パラメータを取得するために、フィッティングオペレーションを実施してもよい。
【0090】
個人化線形モデルは、個人化無表情モデルMから導き出された一組の表情形状(例えば、笑顔と顎の開放)である。一実施形態において、FEパラメータ生成器422は、フィッティング最適化を実施するためのワールド座標における式(8)に示される通り、個人化線形表現モデル(すなわち、ブレンドシェイプモデル)Bを利用して顔メッシュWを表す。
【0092】
式中、eはブレンドシェイプモデルのための線形重みづけベクトルであり、Rは回転行列であり、tは剛性安定化ステップから演算された変換ベクトルである。FEパラメータ生成器422における追跡プロセスでは、以下のエネルギー項を最小化することにより、最適なeを反復的にみつける。
【0094】
式中、α、β、γはフィッティング項についての重みづけを表し、C
*plは、式(10)で規定される通り、深度マップと顔メッシュWとの間の点−面誤差を最小化するフィッティング項である。C
*mは、式(11)で規定される通り、口、鼻、シルエットの2D顔特徴ランドマークと顔のメッシュWの対応頂点との間の点−点誤差を最小化するフィッティング項である。C
*rは、式(12)で規定される通り、右目領域の2D顔特徴ランドマークと顔メッシュWの対応頂点との間の点−点誤差を最小化するフィッティング項である。C
*lは、式(13)で規定される通り、左目領域の2D顔特徴ランドマークと顔メッシュWの対応頂点との間の点−点誤差を最小化するフィッティング項である。C
*plは、以下の通り、規定される。
【0096】
式中、ν
iは顔メッシュWのi番目の頂点であり、p
iはν
iと同一のカメラ空間座標である深度マップ上の点であり、n
iはp
iにおける面法線である。C
*mは、以下の通り、規定される。
【0098】
式中、u
jは追跡された2D顔特徴の位置であり、π
m(ν
j)は対応メッシュ頂点ν
jの口カメラ空間への投影である。C
*rは、以下の通り、規定される。
【0100】
式中、u
jは追跡された2D顔特徴の位置であり、π
r(ν
j)は対応メッシュ頂点ν
jの右目領域のカメラ空間への投影である。C
*lは、以下の通り、規定される。
【0102】
式中、u
jは追跡された2D顔特徴の位置であり、π
l(ν
j)は対応メッシュ頂点ν
jの左目領域のカメラ空間への投影である。右目及び左目の双方に対して1つのみのカメラが使用される場合、C
r及びC
lは、1つの式に組み合わせられる。
【0103】
一実施形態において、FEパラメータ生成器422は、検出されたユーザの表情を総合的に示すFEパラメータを追跡プロセスの結果として生成しながら、式(8)中、eで表されるブレンドシェイプウェイト値を出力する。
【0104】
1つ以上の実施形態において、
図7のステップは、リアルタイムで実施され、カメラから受信した画像402及び404の各セットを処理してもよい。さらに、
図7に示されるステップ及びステップのシーケンスは、単なる例示である。例えば、ランドマーク位置を判定するステップ710と、3D深度マップデータを判定するステップ720とは、逆の順序で実施することもでき、また並列に実施することもできる。
【0105】
本明細書中、本発明の特定の実施形態及び適用について図示及び説明したが、本発明は、本明細書に開示の精密な構成及び構成要素に限定されるものでなく、本発明の方法及び装置の配置、オペレーション、及び詳細において、添付のクレームによって規定される本発明の主旨及び範囲から逸脱することなく、種々の修正、変更、及び変化が加えられてもよいことが理解されなければならない。