(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-25
(54)【発明の名称】ビデオストリームにおいて、眼鏡を装着している個人の顔を検出および追跡するための方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240118BHJP
G06T 7/70 20170101ALI20240118BHJP
【FI】
G06T7/00 660A
G06T7/70 Z
G06T7/00 350C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023565647
(86)(22)【出願日】2022-01-13
(85)【翻訳文提出日】2023-08-01
(86)【国際出願番号】 FR2022050067
(87)【国際公開番号】W WO2022153009
(87)【国際公開日】2022-07-21
(32)【優先日】2021-01-13
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523264633
【氏名又は名称】フィッティングボックス
(74)【代理人】
【識別番号】100098394
【氏名又は名称】山川 茂樹
(72)【発明者】
【氏名】シュクルン,アリエル
(72)【発明者】
【氏名】ゲナール,ジェローム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096CA05
5L096FA06
5L096FA09
5L096FA64
5L096FA66
5L096FA67
5L096FA69
5L096HA05
5L096HA11
5L096KA04
(57)【要約】
本発明は、画像取得デバイス(130)によって取得されたビデオストリームにおいて個人(120)の顔(125)を追跡するための方法に関し、その顔は、眼鏡(110)を装着している。
追跡方法は、眼鏡のモデルおよび顔のモデルを含む顔の表現のパラメータを評価し、顔の前記表現が、ビデオストリームにおいて顔の画像に重ねられるようにするステップを含み、前記パラメータは、第1の画像と呼ばれるビデオストリームの画像において以前に検出された、顔の前記表現の複数の特徴点に関して評価され、表現のパラメータのすべてまたは一部は、顔のモデルの少なくとも1つの点と、眼鏡のモデルの少なくとも1つの点との間の、少なくとも1つの近接制約を考慮することによって評価される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像取得デバイス(130)によって取得されたビデオストリームにおいて個人(120)の顔(125)を追跡するための方法(200)であって、前記顔は、眼鏡(110)を装着しており、前記ビデオストリームは、複数の連続して取得された画像を含んでおり、前記追跡方法は、前記眼鏡のモデルおよび前記顔のモデルを含む前記顔の表現のパラメータを評価し、前記顔の前記表現が、前記ビデオストリームにおける前記顔の前記画像に重ねられるようにするステップ(220,235)を含んでおり、前記表現の前記パラメータのすべてまたは一部は、前記顔の前記モデルの少なくとも1つの点と、前記眼鏡の前記モデルの少なくとも1つの点との間の、少なくとも1つの近接制約を考慮することによって評価されることを特徴とする、追跡方法(200)。
【請求項2】
前記表現の前記パラメータは、前記顔の前記表現の外部値と、前記顔の前記表現の内部値とを含み、前記外部値は、前記画像取得デバイスに対する前記顔の前記表現の3次元位置および3次元方位を含み、前記内部値は、前記顔の前記モデルに対する前記眼鏡の前記モデルの3次元位置および3次元方位を含み、前記パラメータは、第1の画像と呼ばれる前記ビデオストリームの画像において、または、複数の画像取得デバイスによって同時に取得され、前記第1の画像を含む画像のセットにおいて、以前に検出された、前記顔の前記表現の複数の特徴点に関して評価される、請求項1に記載の追跡方法。
【請求項3】
前記表現の前記パラメータのすべてまたは一部は、前記ビデオストリームの第2の画像において、または、複数の前記画像取得デバイスによって同時に取得された第2の一連の画像において追跡または検出された特徴点のすべてまたは一部の位置に関して更新され、前記第2の画像のセットは、前記第2の画像を含む、請求項1または請求項2に記載の追跡方法。
【請求項4】
前記表現の前記パラメータのすべてまたは一部を評価する際に、前記顔の前記表現に含まれる前記モデルのうちの1つのモデルの3次元点と、前記ビデオストリームの少なくとも1つの画像に含まれる少なくとも1つの点、または水平線との間の少なくとも1つの近接制約も考慮される、請求項1から請求項3のいずれか一項に記載の追跡方法。
【請求項5】
前記表現の前記パラメータのすべてまたは一部を評価する際に、前記顔の前記表現に含まれる前記モデルのうちの1つのモデルの少なくとも1つの寸法制約も考慮される、請求項1から請求項4のいずれか一項に記載の追跡方法。
【請求項6】
前記顔の前記表現に含まれる2つの前記モデルのうちの1つのモデルに属するか、または、前記顔の前記表現に含まれる前記モデルとは別個のモデルにそれぞれ属する、2つの別個の点をペアリングするステップを含む、請求項1から請求項5のいずれか一項に記載の追跡方法。
【請求項7】
前記顔の前記表現に含まれる2つの前記モデルのうちの1つモデルの点を、画像取得デバイスによって取得された画像の少なくとも1つの点とペアリングする事前ステップを含む、請求項1から請求項6のいずれか一項に記載の追跡方法。
【請求項8】
前記表現の前記パラメータの前記評価中に、前記ビデオストリームにおける前記眼鏡の画像との、前記眼鏡の前記モデルの位置合わせが、前記ビデオストリームにおける前記顔の画像との、前記顔の前記モデルの位置合わせと連続して実施される、請求項1から請求項7のいずれか一項に記載の追跡方法。
【請求項9】
前記顔の前記モデルの前記位置合わせは、前記顔の前記画像内で検出された前記顔の特徴点と、前記画像内に投影された前記顔の前記モデルの特徴点との間の距離を最小化することによって実施される、請求項8に記載の追跡方法。
【請求項10】
前記眼鏡の前記モデルの前記位置合わせは、前記画像内の前記眼鏡の輪郭の少なくとも一部と、前記画像内に投影された前記眼鏡の前記モデルの同様の輪郭部分との間の距離を最小化することによって実施される、請求項8または請求項9に記載の追跡方法。
【請求項11】
前記表現の前記パラメータは、以下のリスト、すなわち、
・ 前記顔の前記表現の3次元位置、
・ 前記顔の前記表現の3次元方位、
・ 前記眼鏡の前記モデルのサイズ、
・ 前記顔の前記モデルのサイズ、
・ 前記眼鏡の前記モデルと前記顔の前記モデルとの間の相対的な3次元位置、
・ 前記眼鏡の前記モデルと前記顔の前記モデルとの間の相対的な3次元方位、
・ 前記眼鏡の前記モデルの構成の1つまたは複数のパラメータ、
・ 前記顔の前記モデルの前記構成の1つまたは複数のパラメータ、
・ カメラの1つまたは複数のパラメータ、のうちのすべてまたは一部を含む、請求項1から請求項10のいずれか一項に記載の追跡方法。
【請求項12】
・ 前記ビデオストリームの第1の画像における前記顔の複数の点の検出ステップと、
・ 第1の初期画像における前記顔の前記画像に関する前記顔のモデルのパラメータのセットの初期化ステップと、
・ 第2の初期画像と呼ばれる、前記ビデオストリームの第2の画像において前記個人の顔に装着されている眼鏡の複数の点の検出ステップであって、前記第2の初期画像は、前記ビデオストリームにおける前記第1の初期画像の後または前にある、または前記ビデオストリームにおける前記第1の画像と同一である、検出ステップと、
・ 前記第2の初期画像における前記眼鏡の前記画像に対する、前記眼鏡のモデルのパラメータのセットの初期化ステップとを含む、請求項11に記載の追跡方法。
【請求項13】
前記顔の前記モデルの前記パラメータの前記初期化は、前記顔の前記検出された点のすべてまたは一部を分析する深層学習方法によって実施される、請求項12に記載の追跡方法。
【請求項14】
前記深層学習方法は、3次元基準フレームにおける前記顔の前記モデルの初期位置も判定する、請求項13に記載の追跡方法。
【請求項15】
前記個人の前記顔に装着されている前記眼鏡の前記画像のスケールを、前記眼鏡の知られているサイズの要素の前記画像における寸法によって判定するステップを含む、請求項1から請求項14のいずれか一項に記載の追跡方法。
【請求項16】
前記スケールは、前記個人の前記顔に装着されている前記眼鏡を事前に認識することによって判定される、請求項15に記載の追跡方法。
【請求項17】
第2の画像取得デバイスによって取得された前記画像は、前記表現の前記パラメータを評価するために使用される、請求項1から請求項16のいずれか一項に記載の追跡方法。
【請求項18】
前記表現の前記眼鏡の前記モデルは、前記眼鏡の事前モデリングに対応し、変形のみが異なる、請求項1から請求項17のいずれか一項に記載の追跡方法。
【請求項19】
・ 少なくとも1つの画像取得デバイスによって、顔に眼鏡を装着している個人の画像の少なくとも1つのストリームを取得するステップと、
・ 請求項1から請求項18のいずれか一項に記載の追跡方法によって前記個人の前記顔を追跡し、前記顔の表現の位置および方位を追跡するステップと、
・ 前記画像取得デバイスによって、または、メイン画像取得デバイスと呼ばれる前記画像取得デバイスのうちの1つの画像取得デバイスによって取得された、メインビデオストリームと呼ばれる、前記画像ストリームまたは前記画像ストリームのうちの1つの画像ストリームの前記画像のすべてまたは一部を、前記メインビデオストリームにおいて、前記個人の前記顔に、リアルタイムで重ねられた前記顔の前記表現によって変更するステップと、
・ 以前に変更された前記メインビデオストリームを画面に表示するステップとを含む、拡張現実方法。
【請求項20】
請求項1から請求項19のいずれか一項による方法の命令を格納しているコンピュータメモリを含む、電子デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、画像分析の分野である。
【0002】
より正確には、本発明は、ビデオストリームにおいて、眼鏡を装着している個人の顔を検出および追跡するための方法に関する。
【0003】
本発明は、特に、眼鏡の仮想的な装着のための応用を見い出した。本発明はまた、特に、個人によって装着されている眼鏡の画像において不明瞭になる、眼鏡を装着している顔に対して、レンズ、宝飾品、および/または構造からなる付加物と組み合わされた拡張現実、または組み合わされていない縮小現実における応用も見い出した。本発明はまた、個人によって実際に、または仮想的に装着されている眼鏡の眼科測定(PD、monoPD、高さなど)を行うための応用も見い出した。
【背景技術】
【0004】
ビデオストリームにおける個人の顔を検出し、追跡することを可能にする技法は、従来技術から知られている。
【0005】
これら技法は一般に、目の端、鼻、または口の端など、顔の特徴的な点の検出および追跡に基づいている。顔の検出の品質は、一般に、使用される特徴点の数および位置に依存する。
【0006】
これら技法は一般に、ビデオストリームにおいて、アクセサリを装着していない個人の顔を検出および追跡する場合、信頼性が高い。
【0007】
そのような技法は、特に、本特許出願会社の仏国特許出願公開第2955409号で公開された仏国特許と、国際公開第2016/135078号で公開された国際特許出願とに記載されている。
【0008】
しかしながら、個人が、矯正レンズを備えた眼鏡を装着している場合、顔の検出の品質は低下する傾向にあるが、これは、検出中に使用されるいくつかの特徴点、一般に目の端が、一般に、フレームに組み込まれたレンズによって変形されるか、レンズが着色されている場合には、マスクされることさえあるからである。さらに、レンズが着色されていない場合でも、フレームが、検出に使用される特徴点の一部をマスクしてしまう場合がある。特徴点の一部が見えなくなったり、画像内での位置が変形する場合、モデルによって表現され、検出された顔は、一般に、実際の顔に対して位置および/または方位がずれていたり、スケールが誤っていることがある。
【0009】
現在のシステムのどれも、すべての要件に同時に対応することはできず、つまり、改善された拡張現実表現を提供するために、個人の動きに対してより正確でよりロバストな、実際の眼鏡を装着した顔を追跡するための技法を提案しているものはない。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】仏国特許出願公開第2955409号公報
【特許文献2】国際公開第2016/135078号公報
【特許文献3】国際公開第2013/139814号公報
【特許文献4】国際公開第2018/002533号公報
【特許文献5】国際公開第2019/020521号公報
【発明の概要】
【0011】
本発明は、従来技術の上述した欠点のすべてまたは一部を改善することを目的とする。
【0012】
この目的のために、本発明は、画像取得デバイスによって取得されたビデオストリームにおいて、個人の顔を追跡するための方法に関し、その顔は、眼鏡を装着しており、ビデオストリームは、複数の連続して取得された画像を含む。
【0013】
追跡方法は、眼鏡のモデルおよび顔のモデルを含む顔の表現のパラメータを評価し、顔の該表現が、ビデオストリームにおいて顔の画像に重ねられるようにするステップを含む。
【0014】
本発明によれば、表現のパラメータのすべてまたは一部を評価する際に、顔のモデルの少なくとも1つの点と、眼鏡のモデルの少なくとも1つの点との間の、少なくとも1つの近接制約が考慮される。
【0015】
例として、近接制約は、たとえば、眼鏡のアームが、耳介と頭蓋との間の接合部の上面、すなわち耳輪に置かれると定義し得る。
【0016】
言い換えれば、近接制約は、顔のモデルのゾーンと、眼鏡のモデルのゾーンとの間で定義され、ゾーンは、表面または尾根などの点、または点のセットとすることができる。
【0017】
近接とは、ゼロまたは所定のしきい値未満、たとえば数ミリメートル程度の距離を意味する。
【0018】
したがって、顔の表現のパラメータの評価中に近接制約を使用すると、限られた数の計算で、カメラに対する顔の表現のより忠実な姿勢を取得することが可能になる。したがって、画像取得デバイスに対する個人の予期せぬ動きに関して、個人のリアルタイム追跡をよりロバストに実施することができる。
【0019】
さらに、眼鏡のモデルと顔のモデルとを併用することにより、特に眼鏡を装着していない顔の追跡と比較して、顔の位置を改善することができる。後者の場合、一般に、こめかみの特徴点の位置が不正確であるためである。眼鏡のアームが、個人のこめかみに重ねられることで、個人のこめかみを含む画像のゾーン内で検出された特徴点に関するより正確な情報を取得することが可能になるので、眼鏡を追跡することによって、顔の表現の姿勢をより正確に推定できるようになる。
【0020】
優先的に、表現のパラメータは、顔の表現に対する外部値と、顔の表現に対する内部値とを含み、外部値は、画像取得デバイスに対する顔の表現の3次元位置および3次元方位を含み、内部値は、顔のモデルに対する眼鏡のモデルの3次元位置および3次元方位を含み、該パラメータは、第1の画像と呼ばれるビデオストリームの画像において、または複数の画像取得デバイスによって同時に取得され、該第1の画像を含む画像のセットにおいて、以前に検出された、顔の該表現の複数の特徴点に関して評価される。
【0021】
言い換えれば、アバターと呼ばれる顔の表現は、3次元環境における外部位置パラメータおよび外部方位パラメータと、顔のモデルと眼鏡のモデルとの間の相対的な内部位置パラメータおよび内部方位パラメータとを含む。フレームの種類、フレームのサイズ、素材などの、眼鏡の構成パラメータのような、他の内部パラメータを追加することもできる。構成パラメータはまた、眼鏡が個人の顔に装着されたときの眼鏡のフレーム、特にアームの変形に関連するパラメータを含んでもよい。そのような構成パラメータは、たとえば、眼鏡の顔の主平面または接平面などの基準平面に対するアームの開閉角度であってもよい。
【0022】
顔の表現は、顔および眼鏡の3次元モデルを含む。
【0023】
本発明の特定の実施形態では、表現のパラメータのすべてまたは一部は、ビデオストリームの第2の画像において、または複数の画像取得デバイスによって同時に取得された一連の第2の画像において、追跡または検出された特徴点のすべてまたは一部の位置に関して更新され、第2の画像のセットは、該第2の画像を含む。
【0024】
したがって、表現のパラメータ、特に、眼鏡のモデルと顔のモデルとの間の相対的な位置および方位の値、さらには構成パラメータの更新により、よりロバストで、より正確な、個人の顔の追跡の取得が可能になる。
【0025】
有利には、第2の画像または第2の画像のセットは、第1の画像または第1の画像のセットとは異なる角度で、個人の顔のビューを提示する。
【0026】
本発明の特定の実施形態では、表現のパラメータのすべてまたは一部を評価する際に、顔の表現に含まれるモデルのうちの1つのモデルの3次元点と、ビデオストリームの少なくとも1つの画像に含まれる少なくとも1つの点、または水平線との間の少なくとも1つの近接制約も考慮される。
【0027】
本発明の特定の実施形態では、表現のパラメータのすべてまたは一部を評価する際に、顔の表現に含まれるモデルのうちの1つのモデルの少なくとも1つの寸法制約も考慮される。
【0028】
本発明の特定の実施形態では、この方法は、顔の表現に含まれる2つのモデルのうちの1つのモデルに属するか、または、顔の表現に含まれるモデルとは別個のモデルにそれぞれ属する、2つの別個の点をペアリングするステップを含む。
【0029】
2点のペアリングにより、特に、これら2点間の近接性や既知の寸法など、これら2点間の距離関係を制約することが可能になる。既知の寸法とは、たとえば、顔の瞳孔間距離、フレームの幅、虹彩の特徴または平均サイズ、または、これら値のうちの1つ値の、知られている平均値を中心とした、1つまたは複数の分布則に従う、これら値の任意の組合せである。
【0030】
本発明の特定の実施形態では、この方法は、顔の表現に含まれる2つのモデルのうちの1つモデルの点を、画像取得デバイスによって取得された画像の少なくとも1つの点とペアリングする事前ステップを含む。
【0031】
モデルの点の、画像の点、または輪郭線などの点のセットとのペアリングは、一般に、自動的に実施される。
【0032】
本発明の特定の実施形態では、表現のパラメータの評価中に、ビデオストリームにおける眼鏡の画像との、眼鏡のモデルの位置合わせが、ビデオストリームにおける顔の画像との、顔のモデルの位置合わせと連続して実施される。
【0033】
本発明の特定の実施形態では、顔のモデルの位置合わせは、顔の画像内で検出された顔の特徴点と、該画像内に投影された顔のモデルの特徴点との間の距離を最小化することによって実施される。
【0034】
本発明の特定の実施形態では、眼鏡のモデルの位置合わせは、画像内の眼鏡の輪郭の少なくとも一部と、該画像内に投影された眼鏡のモデルの同様の輪郭部分との間の距離を最小化することによって実施される。
【0035】
実際、眼鏡のモデルは、3Dモデルであることが強調される。したがって、画像内で検出された眼鏡の輪郭との距離の最小化の計算に使用される同様の輪郭を決定するために、この3Dモデルの投影が画像において実施される。
【0036】
本発明の特定の実施形態では、表現のパラメータは、顔のモデルの構成パラメータのセット、および/または、眼鏡のモデルの構成パラメータのセットも含む。
【0037】
顔のモデルまたは眼鏡のモデルの構成パラメータは、たとえば、顔のモデルまたは眼鏡のモデルの形状およびサイズをそれぞれ特徴付ける形態学的パラメータとなることができる。構成パラメータは、アームの変形や、眼鏡の面の変形、さらには眼鏡の前面に対する各アームの開閉の変形さえも考慮するために、特に眼鏡のコンテキストにおける、モデルの変形特徴を含むこともできる。
【0038】
顔モデルの文脈では、構成パラメータは、まぶたまたは口の開閉のパラメータ、または、表情による顔の表面の変形に関連するパラメータを含むこともできる。
【0039】
本発明の特定の実施形態では、表現のパラメータは、以下のリスト、すなわち、
- 顔の表現の3次元位置、
- 顔の表現の3次元方位、
- 眼鏡のモデルのサイズ、
- 顔のモデルのサイズ、
- 眼鏡のモデルと顔のモデルとの間の相対的な3次元位置、
- 眼鏡のモデルと顔のモデルとの間の相対的な3次元方位、
- 眼鏡のモデルの構成の1つまたは複数のパラメータ、
- 顔のモデルの構成の1つまたは複数のパラメータ、
- カメラの1つまたは複数のパラメータ、のうちのすべてまたは一部を含む。
【0040】
本発明の特定の実施形態では、追跡方法は
- ビデオストリームの第1の画像における顔の複数の点の検出ステップと、
- 該第1の初期画像における顔の画像に関する顔のモデルのパラメータのセットの初期化ステップと、
- 第2の初期画像と呼ばれる、ビデオストリームの第2の画像において個人の顔に装着されている眼鏡の複数の点の検出ステップであって、第2の初期画像は、ビデオストリームにおける第1の初期画像の後または前にある、またはビデオストリームにおける第1の画像と同一である、検出ステップと、
- 該第2の初期画像における眼鏡の画像に対する、眼鏡のモデルのパラメータのセットの初期化ステップとを含む。
【0041】
本発明の特定の実施形態では、顔のモデルのパラメータの初期化は、顔の検出された点のすべてまたは一部を分析する深層学習方法によって実施される。
【0042】
本発明の特定の実施形態では、深層学習方法は、3次元基準フレームにおける顔のモデルの初期位置も判定する。
【0043】
本発明の特定の実施形態では、追跡方法はまた、個人の顔に装着されている眼鏡の画像のスケールを、眼鏡の知られているサイズの要素の画像における寸法によって判定するステップを含む。
【0044】
本発明の特定の実施形態では、スケールは、個人の顔に装着されている眼鏡を事前に認識することによって判定される。
【0045】
本発明の特定の実施形態では、第2の画像取得デバイスによって取得された画像は、表現のパラメータを評価するために使用される。
【0046】
本発明の特定の実施形態では、表現の眼鏡のモデルは、該眼鏡の事前モデリングに対応し、変形のみが異なる。
【0047】
眼鏡のモデルの形状およびサイズは、不変のままであるため、より短い計算時間で、より良い解を得ることが可能になる。
【0048】
本発明はまた、
- 少なくとも1つの画像取得デバイスによって、顔に眼鏡を装着している個人の画像の少なくとも1つのストリームを取得するステップと、
- 前述の実施形態のうちのいずれか1つの実施形態による追跡方法によって個人の顔を追跡し、顔の表現の位置および方位を追跡するステップと、
- 画像取得デバイスによって、または、メイン画像取得デバイスと呼ばれる画像取得デバイスのうちの1つの画像取得デバイスによって取得された、メインビデオストリームと呼ばれる、該画像ストリームまたは該画像ストリームのうちの1つの画像ストリームの画像のすべてまたは一部を、メインビデオストリーム上において、個人の顔に、リアルタイムで重ねられた顔の表現によって変更するステップと、
- 以前に変更されたメインビデオストリームを画面に表示するステップとを含む、拡張現実方法にも関する。
【0049】
拡張現実方法のステップは、リアルタイムで有利に実施されることが強調される。
【0050】
本発明はまた、前述の実施形態のうちのいずれか1つの実施形態による追跡または拡張現実方法の命令を格納するコンピュータメモリを含む電子デバイスにも関する。
【0051】
有利には、電子デバイスは、該方法の命令を処理できるプロセッサを備える。
【0052】
本発明の他の利点、目的、および特定の特徴は、添付の図面を参照しながら、本発明の目的であるデバイスおよび方法の少なくとも1つの特定の実施形態に関する以下の非限定的な説明から明らかになるであろう。
【図面の簡単な説明】
【0053】
【
図1】
図1は、本発明による検出および追跡方法の実施形態を実施する拡張現実デバイスの概略図である。
【
図2】
図2は、
図1の拡張現実デバイスによって実施される検出および追跡方法のブロック図である。
【
図3】
図3は、眼鏡のマスク(部分図a)、およびカテゴリに従ったマスクの輪郭の点の分布(部分図bおよび部分図c)を示す図である。
【
図4】
図4は、外部包絡線がある場合とない場合(それぞれ部分図bおよび部分図a)の眼鏡モデルの顔の斜視図である。
【
図5】
図5は、眼鏡のモデルが重ねられた
図1のデバイスの画像取得デバイスによって取得された画像の抽出による
図2の方法の回帰ステップを示す図である。
【
図6】
図6は、眼鏡のモデルと顔のモデルとの間の配置制約を示す図である。
【
図7】
図7は、眼鏡のパラメトリックモデル(3DMM)の斜視図である。
【
図8】
図8は、
図7のパラメトリックモデルの面の簡略図である。
【発明を実施するための形態】
【0054】
この説明は非限定的に与えられており、実施形態の各特徴は、他の任意の実施形態の他の任意の特徴と、有利に組み合わせることができる。
【0055】
現時点では、図面は正確に縮尺されていないことに留意されたい。
【0056】
特定の実施形態の例
図1は、顔125に眼鏡110を装着している個人120によって使用される拡張現実デバイス100を示す。眼鏡110は、通常、前面112と、個人120の顔の両側に延びる2つのアーム113とを含むフレーム111を備える。さらに、前面112は、特に、前面112内に構成された2つのリム115の内側に配置されたレンズ114を保持することを可能にする。2つのパッド(
図1には示されていない)はそれぞれ、個人120の鼻121の上に載せることができるように、別個のリム115の端に突き出て固定されている。眼鏡110が個人120の顔に装着されると、2つのリム115を接続するブリッジ117が鼻121をまたぐ。
【0057】
デバイス100は、デバイス100の画面150上にリアルタイムで表示されるビデオストリームを形成する複数の連続画像を取得するメイン画像取得デバイス、この場合はカメラ130、を備える。デバイス100に含まれるデータプロセッサ140は、本発明に従って後続する方法の命令に従って、カメラ130によって取得された画像をリアルタイムで処理し、画像は、デバイス100のコンピュータメモリ141に格納される。
【0058】
任意選択的に、デバイス100は、少なくとも1つの二次画像取得デバイス、この場合は、少なくとも1つの二次カメラ160を備えることもでき、これはカメラ130に対して同様にまたは異なる方位に向けることができ、個人120の顔125の画像の、第2のストリームを取得することを可能にする。この場合、カメラ130に対する二次カメラ160または各二次カメラの位置および相対的な方位が、一般に、有利に知られていると強調される。
【0059】
図2は、カメラ130によって取得されたビデオストリームにおいて、個人120の顔を追跡するための方法200をブロック図の形式で示している。
【0060】
まず第1に、追跡方法200は、一般に、ビデオストリームの、一般に連続している、画像上のループで実施されることが強調される。各画像について、特に、使用されるアルゴリズムを収束させるために、各ステップの数回の反復を実施できる。
【0061】
方法200は、初期画像と呼ばれる、ビデオストリームの画像において、眼鏡110を装着している個人120の顔の存在を検出する第1のステップ210を含む。
【0062】
この検出は、眼鏡を装着している顔の画像を含むデータベースにおいて以前にトレーニングされた、英語の用語「ディープラーニング」としても知られる深層学習アルゴリズムを使用した眼鏡を装着している顔の学習ベースからであったり、あるいは、カメラ130に対する3次元モデルの方位および寸法における姿勢を判定することによって、初期画像における顔の画像に対応させることが求められる、眼鏡を装着している顔の3次元モデルを使用することによってであったりのいずれかである、いくつかの手法で実施できる。顔のモデルと、初期画像における顔の画像との間の照合は、特に、眼鏡を装着している顔のモデルの初期画像への投影によって行うことができる。この照合は、たとえば、顔がカメラに対して向いている場合や、眼鏡または髪などの要素が、顔に重ねられた場合、または髪などの要素が、眼鏡に重ねられた場合のように、顔の一部、または眼鏡の一部が、画像に隠れている場合であっても行うことができることが強調される。
【0063】
あるいは、初期画像において、眼鏡110を装着している個人120の顔を検出するステップ210は、最初に、2つの要素のうちの1つの要素、たとえば顔を検出し、次に他の要素、すなわち、ここでは眼鏡を検出することによって実施できる。顔は、たとえば、画像内の顔の特徴点の検出によって検出される。そのような顔を検出するための方法は、当業者に周知である。眼鏡は、たとえば、優先的に顔に装着される眼鏡の画像のデータベースで以前にトレーニングされた、英語の用語「ディープラーニング」によっても知られている深層学習アルゴリズムによって検出することができる。
【0064】
検出ステップ210は、ビデオストリームの複数の画像に対して一度だけ実施できることが強調される。
【0065】
図3に示されるように、学習アルゴリズムは、特に、取得された画像のそれぞれについて眼鏡のバイナリマスク350を計算することを可能にする。
【0066】
p2Dで示されるマスクの輪郭点は、それぞれ、
- マスクの外側輪郭360、
- 一般に、レンズの輪郭に対応するマスクの内部輪郭370、
- マスク上部の輪郭380、
- マスクの底部の輪郭390、のような少なくとも1つのカテゴリに関連付けられる。
【0067】
あるいは、マスクの輪郭点p2Dは、画像内で検出された眼鏡の特徴点と、マスクの輪郭点との間のロバストな距離、つまり、連続する2回の反復の間にほとんど変化しない距離を使用して計算される。
【0068】
眼鏡110を装着している個人120の顔を検出した後、方法200は、以下「アバター」と呼ばれる個人の顔の表現を、初期画像における個人120の顔の画像と位置合わせする第2のステップ220を含む。ここで、アバターは、1つのパラメトリックモデルが、眼鏡をかけていない顔のモデルに対応し、もう1つのパラメトリックモデルが、眼鏡のモデルに対応する、2つのパラメトリックモデルを含むことが有利である。パラメトリックモデルは一般に、基準フレームの原点がカメラ130に対応する仮想空間に配置されることが強調される。したがって、カメラの基準フレームについて説明する。
【0069】
これら2つのパラメトリックモデルの併用は、回帰のパフォーマンスを向上させ、カメラに対する個人の顔のモデルの位置を、より正確に推定することを可能にする。
【0070】
さらに、アバターの2つのパラメトリックモデルは、相対的な方位パラメータおよび位置パラメータによって、ともに有利にリンクされる。最初に、相対的な方位パラメータおよび位置パラメータは、たとえば、顔のパラメトリックモデルに対する眼鏡のパラメトリックモデルの標準的な姿勢に対応しており、つまり、フレームが個人の目に面して鼻の上に置かれ、アームが、個人のこめかみに沿って伸び、個人の耳に置かれるようになる。この標準的な姿勢は、たとえば、個人の顔に自然に配置された眼鏡の平均的な位置によって計算される。個人によって多かれ少なかれ、眼鏡が鼻の上に来る可能性があることが強調される。
【0071】
本発明の非限定的な例では、眼鏡のパラメトリックモデルは、その包絡線が少なくとも断面においてゼロではない厚さを含む3次元フレームを含むモデルである。有利には、フレームの断面の各部の厚さはゼロではない。
【0072】
図4は、眼鏡のパラメトリックモデルの面300を2つのビューで示している。4aで示される第1のビューは、外部包絡線のない面300の骨格のビューに対応する。4bで示される第2のビューは、同じビューに対応するが、外部包絡線320を有する。図示されるように、眼鏡のパラメトリックモデルは、眼鏡のフレームのコア340に垂直な断面をそれぞれ有する一連の輪郭330によって表現することができる。したがって、輪郭330は、外部包絡線320の骨格を形成する。このパラメトリックモデルは、厚みのある3Dタイプからなる。
【0073】
眼鏡のパラメトリックモデルは、フレームの周囲の区画の位置が、眼鏡の2つの異なるモデルで同一となるように、所定数の番号付きの区画を有利に備えることができることが強調される。したがって、リムの下点、リムの上点、リムとブリッジとの間の接合点、または、リムと、アームを用いてヒンジを保持するほぞとの間の接合点など、フレームの点に対応する区画は、2つの異なるモデルで同じ番号を有する。したがって、眼鏡のモデルを、フレームの寸法の表示に適合させることがより容易になる。これら表示は、通常、英語の用語「フレームマーキング」と呼ばれ、レンズの幅、ブリッジの幅、またはアームの長さを定義する。この情報は、たとえばフレーム上の位置に従って選択された2つの区画の中心または端に対応する2点間の制約を定義する際に役立つ。このようにして、寸法制約を遵守しながら眼鏡のモデルを修正することができる。
【0074】
本方法によって使用される眼鏡のパラメトリックモデルの例は、以下の「眼鏡のパラメトリックモデルの例」と題されたセクションで、より詳細に示される。
【0075】
本発明の代替実施形態では、眼鏡のパラメトリックモデルは、厚さゼロの3次元フレームを含む。これは、厚みのない3Dタイプのモデルである。
【0076】
眼鏡の形態およびサイズを定義するためのすべてのパラメータは、構成パラメータと呼ばれる。
【0077】
パラメトリックモデルのフレームの初期フォルムは、たとえば、仏国特許出願公開第2955409号で公開された仏国特許に、または国際公開第2013/139814号で公開された国際特許出願に記載されているような方法によって、以前にモデル化された眼鏡のフレームのフォルムに有利に対応できることが強調される。
【0078】
眼鏡のパラメトリックモデルはまた、一般に弾性変形可能な材料から形成されている、たとえばアームまたは前面において、有利に変形することができる。変形パラメータは、眼鏡のモデルの構成パラメータに含まれる。たとえば、眼鏡110の事前モデリングによって、眼鏡のモデルが既知の場合、眼鏡のモデルは、分解中にサイズおよびフォルムが、不変のままであることが有利である。次に、眼鏡のモデルの変形のみが計算される。計算すべきパラメータの数が減り、計算時間が短縮され、良好な結果が得られる。
【0079】
眼鏡の画像に対する顔の表現と、初期画像における顔との、2つのパラメトリックモデルを位置合わせするために、第2のステップ220中に、パラメトリックモデルの点の回帰が実行され、パラメトリックモデルは、フォルム、サイズ、位置、方位において、個人120に装着されている眼鏡110と、個人120の顔とにそれぞれ対応するようになる。
【0080】
したがって、回帰によって処理されるアバターのパラメータは、本発明を限定しない本例では、
- アバターの、すなわちセット{眼鏡のモデル、顔のモデル}の、3次元位置、
- アバターの3次元方位、
- 眼鏡のモデルのサイズ、
- 顔のモデルのサイズ、
- 眼鏡のモデルと顔のモデルとの間の相対的な3次元位置、
- 眼鏡のモデルと顔のモデルとの間の相対的な3次元方位、
- 任意選択的に、眼鏡のモデルの構成パラメータ、
- 任意選択的に、特に鼻、口、目、こめかみ、頬など、顔を構成する様々な要素のフォルム、サイズ、および位置を定義するための形態学的パラメータなどの顔のモデルの構成パラメータであって、まぶたまたは口の開閉のパラメータ、および/または、表情による顔の表面の変形に関連するパラメータをも含む、構成パラメータ、
- 任意選択的に、焦点距離や判定基準較正パラメータなどのカメラのパラメータである。
【0081】
あるいは、上記のアバターのパラメータの一部のみが、回帰によって処理される。
【0082】
カメラのパラメータは、眼鏡のモデルの3D形状が既知の場合、たとえば、個人120によって装着されている眼鏡110が認識されている場合に、有利に計算することができる。カメラのパラメータを調整することは、アバターのパラメータの、より正確な推定を助け、その結果、画像内の顔を、より良好に追跡する。
【0083】
ここでは、回帰は、2段階で有利に実施される。まず、初期画像上で検出された特徴点を用いて顔のモデルの特徴点の最小化を実施して、カメラの基準フレームにおけるアバターの推定位置を取得する。
【0084】
第2に、ビデオストリームの第1の画像に見られる眼鏡に対する眼鏡のモデルの輪郭の点の回帰を実行することによって、アバターのパラメータが微調整される。回帰中に考慮される眼鏡のモデルの輪郭の点は、一般に、眼鏡のフレームから得られる。
【0085】
この目的のために、
図5に示すように、眼鏡のモデル420の輪郭について考慮される点410は、その法線430が、対応する点410とカメラとの間の軸に垂直である点である。初期画像上の眼鏡の輪郭の点は、眼鏡のモデルの輪郭について考慮される各点410に関連付けられ、たとえば、グレーレベルなどの所与のカラースペクトルにおいて、最も高い勾配を有する法線430に沿った点440を探索する。眼鏡の輪郭は、優先的に顔に装着される、セグメント化された眼鏡の画像に対して以前にトレーニングされた、英語の用語「ディープラーニング」によっても知られる深層学習方法によって判定できる。初期画像上のモデルの輪郭の点と、眼鏡の点との間の位置を最小化することにより、カメラの基準フレームにおけるアバターのパラメータを微調整することが可能になる。
【0086】
明確化のために、
図5には5つの点410しか示されていないことが強調される。回帰によって使用される点の数は、一般にかなり多い。点410は、
図4において円で表現され、点440は、法線430に沿ってスライドする三角形の頂点に対応する。
【0087】
画像における眼鏡のモデルの輪郭の点と、眼鏡110の輪郭の点との関連付けは、眼鏡のモデルの3D点と、画像の2D点とのペアリングに対応する。画像における対応する点が、ある画像から他の画像にずれている可能性があるため、このペアリングは、反復ごとに、さらには画像ごとに優先的に評価されることが強調される。
【0088】
さらに、画像における輪郭の点の1つまたは複数のカテゴリが既知であれば、この点と、眼鏡のモデルの3D点とのペアリングは、同じカテゴリを有する点をペアリングすることによって、より効果的に実施することができる。実際、眼鏡のモデルの点も、画像における眼鏡のマスクの輪郭の点と同じカテゴリに従って分類できることが強調される。
【0089】
眼鏡のモデルの位置に関する回帰を改善するために、区画の輪郭は、眼鏡のモデルの輪郭について考慮される点の大部分と有利に関連付けられる。点に関連付けられた区画は、一般に、この点を含むフレームの端に対応する。各区画は、所定の数の尾根からなる多角形によって定義される。したがって、回帰中、法線の計算が、より正確になることによって改善され、画像に対する眼鏡のモデルの姿勢をより正確に推定できるようになる。この改善は、厚みのある3D眼鏡のパラメトリックモデルを使用する場合に特に当てはまる。
【0090】
また、回帰中に、姿勢の品質を向上させながら計算時間を短縮するために、顔のモデルと眼鏡のモデルとの間の位置制約が有利に考慮されることも強調される。これら制約は、たとえば、顔のモデルの一部と、眼鏡のモデルの一部との間の点の接触を示す。これら制約は、たとえば、パッドを介する否かに関わらず、眼鏡のリムが鼻の上に置かれ、アームが耳に置かれるという事実を表現している。一般に、顔のモデルと眼鏡のモデルとの間の位置制約により、たとえば、個人の鼻の上の眼鏡の位置など、顔上の眼鏡の位置を、1つのパラメータでパラメータ化することが可能となる。鼻における2つの位置の間で、眼鏡は、鼻の尾根に対応する3D曲線上で並進移動するか、さらには、この対称中心面に垂直な軸上で回転する。2つの近い点の間で局所的に、3D曲線上の眼鏡の並進移動は、鼻の局所的な対称面に従うと考えることができる。
【0091】
言い換えれば、制約は、顔のモデルの点と、眼鏡のモデルの点とのペアリングによって表現される。2つのモデルのうちの1つのモデルを、他の2つの軸に沿って互いに自由に並進移動させるために、2つの点の間のペアリングは、部分的なタイプからなり得る、つまり、たとえばX軸のみである、1つのタイプの座標のみに関連し得ることが強調される。
【0092】
さらに、アバターに含まれる2つのパラメトリックモデル、すなわち、顔のモデルと眼鏡のモデルとのそれぞれは、有利なことに、顔に関して以前に測定された瞳孔間距離や、以前に認識されたフレームの特徴的な寸法などの、既知の寸法に対する制約とすることができる。したがって、同じモデルの2点間のペアリングを実施して、既知の寸法のこれら2点間の距離を制約することができる。
【0093】
アルゴリズムの数式的詳細については、以下の「実施された方法の詳細」というタイトルのセクションにおける記載を参照されたい。
【0094】
少なくとも1つの二次カメラが利用できる場合、眼鏡を装着している個人の顔のいくつかのビューが利用可能になり、これが、アバターのパラメータの回帰計算の改善を可能にすることが強調される。これは、様々なビューが、明確な角度で取得されるので、メインのカメラによって取得された画像上に隠れている部分を表示することによって、個人の顔の認識を向上させることが可能となる。
【0095】
図6は、部分図aの斜視図で見ることができる、アバターの顔のパラメトリックモデル620上の眼鏡のパラメトリックモデル610の位置を示している。使用される基準フレームは、
図6の部分図eに示される。眼鏡のパラメトリックモデル610の動きは、ここでは、Z軸に沿った並進移動に対応する、耳640上のアーム630の動きに従ってパラメータ化される(
図6の部分図c)。対応するY軸に沿った並進移動は、
図6の部分図bに見ることができる。X軸を中心とした回転が、
図6の部分図dに示される。
【0096】
たとえば、個人の目の中のアームなど、顔のモデル上の眼鏡のモデルの誤った配置を回避するために、顔のモデルの特定の部分と、眼鏡のモデルの特定の部分との間の非接触の制約を追加することもできる。
【0097】
本発明によって克服される1つの困難は、初期画像における眼鏡の隠れた部分の管理であり、これは、特に、個人120に実際に装着されている眼鏡110に対するパラメトリックモデルの位置および方位に関して、眼鏡のパラメトリックモデルの回帰に誤差を引き起こす可能性がある。これら隠れた部分は一般に、たとえば、顔の側面を確認するためにカメラに対して顔を向けた場合など、個人の顔によって、または、たとえば着色レンズによるなど、眼鏡によって直接的にマスクされる、フレームの部分に対応する。また、各耳に置かれたアームの部分は、個人120の顔の方位に関わらず、一般に、個人120の耳および/または髪に隠れることが強調される。
【0098】
これら隠れた部分は、たとえば、フレームのセグメンテーションモデル、および/または、これら隠れた部分の輪郭の点を考慮することによって、検出中に推定することができる。眼鏡の隠れた部分は、個人120の顔の推定位置に対する眼鏡のパラメトリックモデルの姿勢を計算することによっても推定することができる。ここで使用されるパラメトリックモデルは、アバターに使用されるものと同じとすることができる。
【0099】
眼鏡のパラメトリックモデルの位置合わせにより、個人120に実際に装着されている眼鏡110のモデルを認識することも可能になる。これは、点の回帰により、眼鏡110の少なくとも一部の近似的な3D輪郭を得ることが可能になるからである。次に、このおおよその輪郭が、データベースに記録され、以前にモデル化された眼鏡の輪郭と比較される。輪郭に含まれる画像は、個人120に装着されている眼鏡110のモデルのより良好な認識のために、データベースに記録された眼鏡の外観と比較することもできる。実際、データベースに格納された眼鏡のモデルは、一般に、テクスチャおよび素材でモデル化されていることが強調される。
【0100】
眼鏡のパラメトリックモデルは、個人120に装着されている眼鏡110に最も良好に対応するように、変形および/または関節運動することができる。一般に、眼鏡のモデルのアームは、最初は、それらの間に5°程度の角度を形成する。この角度は、フレームのフォルムと、アームのために使用される素材、または、アームの素材とは異なり得る眼鏡のフレームの前面のために使用される素材の剛性とに従って、眼鏡の変形をモデル化することによって調整できる。パラメトリックアプローチは、眼鏡のパラメトリックモデルの変形をモデル化するために使用することができる。
【0101】
該初期画像に続く画像上でのビデオストリームにおける顔および/または眼鏡のリアルタイム追跡は、
図2に示される方法200の第3のステップ230中に実施される。
【0102】
リアルタイム追跡は、たとえば、光学フロー方法を使用した、ビデオストリームの連続画像内の特徴点の追跡に基づくことができる。
【0103】
ビデオストリームの画像のパラメータの更新は、一般に、以前の画像で計算された位置合わせパラメータに関して実施されるため、この追跡は、特にリアルタイムで実施することができる。
【0104】
追跡のロバスト性を向上させるために、個人の顔に対するアバターの姿勢が、満足できるものであると考えられる、通常は英語の用語「キーフレーム」と呼ばれるキー画像を使用して、キー画像における顔と同様の向きの顔のビューを表す画像に制約を与える。言い換えれば、基準画像とも呼ばれるビデオストリームの画像の選択のキー画像は、一般に、選択の画像のうちの1つの画像に対応しており、ここでは、個人の画像に関して、アバターの姿勢に関連付けられているスコアが最も高い。そのような追跡は、たとえば、国際公開第2016/135078号の国際特許出願に詳細に記載されている。
【0105】
キー画像の選択は動的に行うことができ、画像の選択はビデオストリームの連続シーケンスに対応できることが強調される。
【0106】
さらに、追跡は、それぞれが個人の顔の異なる方位に対応する、複数のキー画像を有利に使用することができる。
【0107】
また、顔と眼鏡との併用追跡は、より多くの特徴点に基づいているため、より良好で、よりロバストな結果を得ることが可能になることも強調される。さらに、顔と眼鏡とのパラメトリックモデルの相対位置制約は、一般に、追跡中に使用され、これにより、リアルタイムで個人の頭部、従って、より良好なアバターの姿勢の、より正確な追跡が可能となる。
【0108】
さらに、眼鏡は、アームの尾根、顔の尾根、またはフレーム前面のリムなど、画像内で明確に識別できるランドマークを含んでいるので、製造物である眼鏡の追跡は、一般に、顔だけを追跡するよりも、より正確である。
【0109】
眼鏡のパラメトリックモデルを使用しない眼鏡の追跡は、ロバスト性が低く、画像ごとに大量の計算が必要になることが強調される。したがって、現在利用可能な計算能力を考慮すると、そのような追跡をリアルタイムで実施することはより困難である。しかしながら、プロセッサの能力は定期的に増加しているため、プロセッサの能力がそのようなアプリケーションに十分であれば、眼鏡のパラメトリックモデルを使用しない追跡も考えられる。
【0110】
眼鏡のパラメトリックモデルのみに基づいて個人の追跡を実施することが可能であることも強調される。カメラに対する眼鏡のモデルの姿勢の最適化、すなわち画像に対する眼鏡のモデルの位置合わせは、画像ごとに実施される。
【0111】
次に、ステップ235中に、追跡ステップ230と同時に、顔および眼鏡のパラメトリックモデルと、画像との位置合わせパラメータの更新が、カメラ130によって取得されたビデオストリームの新しい画像ごとに実施される。
【0112】
あるいは、顔および眼鏡のパラメトリックモデルの位置合わせパラメータの更新が、各キー画像で実施される。
【0113】
この位置合わせパラメータの更新は、カメラに対する個人の顔の位置の推定を向上するために、顔のパラメトリックモデル上の眼鏡のパラメトリックモデルの姿勢のパラメータを含むこともできる。この更新は、特に、個人の顔がカメラに対して異なる方位を向いている場合に実施できるので、顔のビューの別の角度を提供する。
【0114】
パラメトリックモデルの微調整は、方法200の第4のステップ240中に、追跡中に使用される基準キー画像を分析することによって実施することができる。この微調整により、たとえば、以前には捕捉されていなかった眼鏡110の詳細を用いて眼鏡のパラメトリックモデルを完成させることが可能になる。これら詳細は、たとえば、眼鏡に特有のレリーフ、絞り、シルクスクリーン印刷などである。
【0115】
キー画像の分析は、英語の用語「バンドルアジャストメント」としても知られるクラスター調整方法によって行われ、これにより、眼鏡または顔のような、シーンのオブジェクトを記述する幾何学モデルの3D座標を微調整することが可能となる。「バンドル調整」方法は、観察された点とモデルの点との間の、再投影誤差の最小化に基づく。
【0116】
したがって、眼鏡を装着している個人の顔に、より良く適合したパラメトリックモデルを取得することが可能である。
【0117】
ここでの「バンドル調整」方法による分析は、キー画像内でより高精度に識別可能な顔の特徴点や眼鏡の点を利用する。これら点は、顔の輪郭の点、または眼鏡の点とすることができる。
【0118】
一般的な用語での「バンドル調整」方法は、2つの画像間を移動できる一連の3D点によって定義されるシーンを処理することが強調される。「バンドル調整」方法によって、所与の基準フレーム(たとえば、シーンの基準フレーム)内のシーンの各3D点の3次元位置と、カメラに対するシーンの相対的な動きのパラメータと、画像を取得した1つまたは複数のカメラの光学パラメータとを同時に解くことが可能となる。
【0119】
光学フロー方法によって計算された、たとえば、顔や眼鏡の輪郭の点に関連するスライディング点は、「バンドル調整」方法でも使用できる。しかしながら、光学フローは、一般に、ビデオストリーム内で連続する2つの異なる画像間、または2つのキー画像間で計算されるため、光学フローからの点の「バンドル調整」方法中に取得される行列は、一般に中空である。この情報の欠如を補うために、眼鏡の輪郭の点を、「バンドル調整」方法によって有利に使用することができる。
【0120】
顔のパラメトリックモデル、または眼鏡のパラメトリックモデルを改善することを可能にする新しい情報を、新しいキー画像のために取得できることが強調される。さらに、「バンドル調整」方法によって使用される点を補足または置換するために、ステップ210に記載されたように、眼鏡を装着している顔の新しい検出を、この新しいキー画像において実施することができる。パラメトリックモデルの微調整を、ビデオストリームの現在の画像に確実に近づけるために、より高い重みを有する解制約を、検出された新しい点に関連付けることができる。
【0121】
法線が90度において存在する眼鏡のモデルのすべての点に対応する、眼鏡の輪郭のスライド点が、眼鏡の輪郭の水平線上で、眼鏡の3Dモデルとペアリングできる。
【0122】
本発明の実施形態の例では、キー画像は、眼鏡110を装着している個人120の顔が正面を向いているときの画像、および/または、個人120の顔が、矢状面に対して約15度の角度だけ、頭の自然な位置に対して左または右を向いている画像に対応する。これらキー画像では、顔125および眼鏡110の新しい部分が見える。したがって、顔のモデルおよび眼鏡のモデルのパラメータを、より正確に判定することができる。キー画像の数は、対応するモデルを構築するための顔125および眼鏡110の学習において、満足できる結果を取得するために、3画像から5画像の間の数に、任意に固定することができる。
【0123】
個人120に装着されている眼鏡110のサイズは、特にシーンの判定基準を取得し、特に、たとえば、瞳孔間距離や虹彩のサイズなど、平均サイズとして定義できる個人の顔の光学測定を判定するためのスケールを定義するために、ステップ250において方法200中に導入することもできる。
【0124】
眼鏡110のサイズは、以前に定義された眼鏡のリストに関して統計的に定義することができるか、または眼鏡110の実際のサイズに対応することができる。
【0125】
眼鏡110に示される「フレームマーキング」がどれであるかを方法200に示すためのインターフェースを提供することができる。あるいは、画像における自動読取が、「フレームマーキング」の文字を認識し、関連付けられた値を自動的に取得するための方法200によって実行することができる。
【0126】
「フレームマーキング」が分かると、特に、眼鏡110が以前にモデル化されている場合には、眼鏡110のパラメトリックモデルを有利に知ることができることが強調される。
【0127】
眼鏡のサイズ情報を利用できない場合、たとえば「フレームマーキング」が分からない場合、最初に使用される眼鏡のパラメトリックモデルは、通常、個人によって使用される眼鏡の統計的平均値を含む標準的なパラメトリックモデルである。この統計的枠組みにより、個人120に実際に装着されている眼鏡110のモデルに近い、満足できる結果を得ることが可能になり、新しい画像のそれぞれが、眼鏡のモデルのパラメータを改善する。
【0128】
顔のフォルムおよび位置を微調整するために、方法200中に深度カメラを使用することもできる。
【0129】
深度カメラは、深度センサの一種であり、通常は英語の用語「デプスセンサ」で知られていると強調される。さらに、深度センサは、一般に、赤外光の放射を使用して動作するが、特に、レンズ、および/または、眼鏡の前面の素材によってもたらされる屈折、透過、および/または反射の問題により、個人120に装着されている眼鏡110の輪郭を取得するための十分な精度は得られない。場合によっては、カメラのフィールドに強い光源が存在するなどの光条件は、信頼性の高い測定を妨げる高いノイズを導入することによって、赤外線深度カメラの正しい動作を妨げる。しかしながら、顔の目に見える表面での深度測定、顔のモデルまたは眼鏡のモデルでさえも、サイズおよびフォルムの測定基準およびより正確な推定を保証するために、顔の目に見える部分において、深度測定を使用することもできる。
【0130】
個人120の、または少なくとも眼鏡110のみの顔が、前述した方法200によって追跡されると仮定すると、ビデオストリームにおいて個人120に装着されている眼鏡110の削除は、特に、国際公開第2018/002533号で公開された国際特許出願に記載されている技法を参照することによって実施することができる。さらに、新しい眼鏡の仮想的な装着を実施することもできる。
【0131】
追跡方法200はより効果的であり、本追跡方法によって、カメラに対する眼鏡の位置が、より正確に判定されるため、装着されている眼鏡を隠すことによる画像内の眼鏡の削除が、より現実的に行われることが強調される。
【0132】
本明細書で記載されている追跡方法によって、たとえば、レンズの色や色合いを変更したり、シルクスクリーン印刷などの要素を追加したりすることによって、個人に装着されている眼鏡のすべてまたは一部を変更することも可能である。
【0133】
したがって、追跡方法200を、拡張現実方法に含めることができる。
【0134】
追跡方法200は、国際公開第2019/020521号で公開された国際特許出願に記載されているような光学パラメータを測定するための方法にも使用できることが強調される。追跡方法200を使用することによって、眼鏡および顔のパラメトリックモデルが、同じ基準フレーム内で併用的に解かれるため、光学パラメータの測定は、より正確になり得るが、これは各モデルが、眼鏡のモデルと、顔のモデルとの相対的な位置制約を考慮せずに、独立して最適化される従来技術の場合には当てはまらない。
使用される方法の詳細
【0135】
本セクションで提示されるアルゴリズムは、以前に詳細に説明した例の目的である追跡方法の一部の一般的な実施に対応する。この部分は、特に、少なくとも1つの画像ストリームにおいて検出された点に関する顔のモデルおよび眼鏡のモデルのパラメータ、特に姿勢および構成/形態の分解(上記ステップ220)、およびその更新(上記ステップ235)のパラメータを解くことに対応する。これら2つのステップは一般に、制約下で解かれた同じ方程式に基づいていることが強調される。顔のモデルおよび眼鏡のモデルの形態学的モードもこの部分で解くことができる。
【0136】
顔のモデルと眼鏡のモデルとを同時に解く利点は、顔のモデルと眼鏡のモデルとの間に、新しい接触または近接制約を提供することである。これは、それぞれ別個のモデルに対応する2つのメッシュが相互に侵入していないことがまず保証されるだけでなく、特に個人の耳と鼻において、2つのメッシュ間に接触または近接している点が少なくとも存在することが保証されるためである。顔のモデルの姿勢を解く際の主要な問題のうちの1つの問題は、こめかみの点の位置に対応することであり、通常使用される点検出器によってその位置が正確に判定されることはほとんどないことが強調される。多くの場合、画像内でよりよく見え、物理的にこめかみに当たっている眼鏡のアームを使用することは、有利である。
【0137】
使用される2つのモデルはパラメトリックモデルであり、したがって変形可能であるため、最小化内で接触アルゴリズムを確立するのは困難であることが強調される。2つのモデルは各反復で変形するため、接触点は反復間で互いに区別できる。
【0138】
本発明の非限定的な例では、それぞれがp個のビュー、すなわちp個の画像を取得するn個の較正されたカメラが考慮される。各カメラの固有のパラメータ、およびその相対位置は既知であることが強調される。それにも関わらず、顔の位置と向きは、ビューごとに判定される。Mfで示される、使用される顔の3Dパラメトリックモデルは、αk,k=1..vで示されるv個のパラメータによって線形的に変形可能な3D点p3Dで構成されるメッシュである。したがって、このメッシュの各3D点は、線形結合の形式で記述される。
【0139】
【0140】
【0141】
【0142】
ここで、βk,k=1..μは、眼鏡Mgのパラメトリックモデルのμ個のパラメータに対応する。
【0143】
3D顔は、最初に、p回の取得ごとに、ワールド基準フレームと呼ばれる3次元基準フレームに置換される。ワールド基準フレームは、たとえば、カメラの基準フレーム、または2つのモデルのうちの1つの基準フレームに対応できる。顔のモデルの位置および方位は、最初は不明であるため、画像内で検出された特徴点を用いた顔のモデルの点の回帰フェーズに対応する最小化中に求められる。
【0144】
この回帰を実施する前に、眼鏡のモデルMgが、顔のモデルMf上に配置される。この目的のために、眼鏡のモデルの点p3D_gを、3D回転行列R_gおよび並進ベクトルT_gを考慮しながら、顔の基準フレームに書き込むことができる。
【0145】
【0146】
次に、回帰により、ここではワールド基準フレームに対応するカメラのうちの1つのカメラのビューlの基準フレームにおける基準フレームにおける顔のモデルの方位および並進移動における姿勢が得られる。
【0147】
【0148】
ここで、Rは、3D回転行列、Tは並進ベクトル、lはカメラのビューを表現する。
【0149】
この方法中で使用される画像i内のモデルp3Dの投影関数は、次のように示される。
【0150】
【0151】
ここで、Kiは、画像iの較正行列に対応する。RiおよびTiはそれぞれ、ワールド基準フレームと、画像iを取得したカメラの基準フレームとの間の回転行列および並進ベクトルに対応する。その部分のシンボル~は、スケール係数内に対する等価性を示す。この等価性は、特に、投影の最後の成分が1に等しいという事実によって表現することができる。
【0152】
顔の表現のモデルの姿勢が解かれると、以下の5種類の制約、すなわち、
- 2D顔制約、
- 2D眼鏡制約、
- 3D顔-眼鏡制約、
- たとえば瞳孔間距離PD、こめかみ間の距離、平均虹彩サイズ、またはいくつかのサイズ制約の分布の混合に対応する3D顔制約であって、分布の混合は、虹彩のサイズおよび瞳孔間距離に関する2つのガウス分布の混合に対応し得、これら制約を組み合わせると、g-hフィルタタイプの定式化を必要とし得る、
- たとえば、通常、英語の用語「フレームマーキング」と呼ばれる、フレーム上のマーキングから生じる、既知の寸法に対応する眼鏡の3D制約、が存在する。
【0153】
顔の2D制約は、3Dモデルの点と、少なくとも1つのビューアおよび少なくとも1台のカメラの顔の画像内の2D点とのペアリングに基づく。優先的に、このペアリングは、ビューごと、カメラごとに行われる。画像内の顔の輪郭に含まれていない顔の点に対してペアリングを固定したり、顔の輪郭の点の水平線に沿ってスライドさせたりできることが強調される。顔の輪郭の点と、画像の点とのペアリングにおけるこの自由度により、特に画像に対する顔の3Dモデルの姿勢の安定性を改善することが可能となり、したがって、2つの連続する画像間の顔の3Dモデルの姿勢のより良好な連続性を提供する。
【0154】
顔の3Dモデルの点と、画像の2D点とのペアリングは、以下の方程式で数式的に表現することができる。
【0155】
【0156】
ここで、φj,i,lと、σj,i,lとはそれぞれ、顔のパラメトリックモデルMfの3D点のインデクスと、ビューiおよびカメラlの画像における顔の2D点のインデクスとを表現している。
【0157】
眼鏡の2D制約は、特に画像におけるマスクの輪郭を使用した画像における、眼鏡のモデルの3D点と、眼鏡の2D点とのペアリングに基づく。
【0158】
【0159】
ここで、φj,i,lと、ωj,i,lとはそれぞれ、眼鏡のパラメトリックモデルMgの3D点のインデクスと、ビューiおよびカメラlの画像における眼鏡の2D点のインデクスとを表現している。
【0160】
3D顔-眼鏡の制約は、顔のモデルの3D点と、眼鏡のモデルの3D点とのペアリングに基づいており、その距離は、接触(ゼロ距離)でさえもある近接制約によって定義される。影響関数を適用して、たとえば、顔のモデルの外側に向けられた顔のモデルの表面への法線に対する負の距離に対して、より大きな重み付けを用いて接触距離を計算することができる。いくつかの点については、たとえば、顔のこめかみと、眼鏡のアームとの間の関係の軸など、一部の座標のみに制約が課せられ得ることが強調される。
【0161】
顔のモデルの3D点と、眼鏡のモデルの3D点とのペアリングは、以下の方程式で数式的に表現することができる。
【0162】
【0163】
ここで、ρjと、τjとはそれぞれ、顔のパラメトリックモデルMfの3D点のインデクスと、眼鏡のパラメトリックモデルMgの3D点のインデクスとを表現している。
【0164】
顔の3D制約は、たとえば(各瞳孔の中心間の距離であり、各目の回転中心間の距離にも対応する)瞳孔間距離など、以前に測定された、顔の既知の距離に基づく。したがって、測定基準距離を、一対の点とペアリングすることができる。
【0165】
【0166】
ここで、tjおよびujはそれぞれ、顔のパラメトリックモデルMfの個別の3D点のインデクスを表現している。
【0167】
眼鏡の3D制約は、(たとえば、BOXING規格またはDATUM規格に従う)レンズのサイズ、ブリッジのサイズ、またはアームのサイズなど、個人に装着されている眼鏡のモデルの、既知の距離に基づく。この距離は、特に、通常は「フレームマーキング」と呼ばれる、一般にアームの内側に位置するフレームのマーキングによって表現することができる。次いで、測定基準距離を、眼鏡のモデルの一対の点とペアリングすることができる。
【0168】
【0169】
ここで、vjおよびwjはそれぞれ、眼鏡のパラメトリックモデルMgの個別の3D点のインデクスを表現している。
【0170】
したがって、アルゴリズムの入力データは、
- 眼鏡を装着している人のn台のカメラからのp個の画像、
- 画像内で検出された顔の特徴的な2D点、
- 任意選択的に、(たとえば、水平線に沿った)いわゆるスライディング点の場合、反復ごとに評価される、一部の点の2Dまたは3Dペアリング、
- 少なくとも1つの画像におけるの眼鏡のマスク、
- 較正行列および各カメラの姿勢である。
【0171】
このアルゴリズムにより、以下の出力データ、すなわち、
- アバターのp個の姿勢:Rfl、Tfl、
- 顔のパラメトリックモデルのv個のモード:α1、α2、...,αv、
- 顔のモデルに対する眼鏡のモデルの姿勢:Rg、Tg、
- 眼鏡のパラメトリックモデルのμ個のモード:β1、β2、...,βμ、を計算できるようになる。
【0172】
この目的のために、アルゴリズムは、以下の手順、すなわち、
【0173】
【0174】
ここで、γ1,γ2,γ3,γ4,γ5は、各制約ブロック間の重みであり、visiは、点p2Dが画像において見えるか否か、つまり、顔のモデルMfによって、または眼鏡のモデルMgによって隠されていないか否かを示す関数であり、#(visi==1)は、目に見える点の数に対応する。
【0175】
本発明のこの特定の実施形態の変形例では、カメラの焦点距離が、最適化されるパラメータの一部を形成する。これは、画像の取得が、知られていないカメラによって行われた場合、取得された一部の画像が、以前にリフレームまたはリサイズされているためである。この場合、最小化中に、カメラの焦点距離を、自由度として残すことが好ましい。
【0176】
本発明のこの特定の実施形態の変形例では、顔のモデルと眼鏡のモデルとの間の接触制約の方程式のパラメータの軸および不確実性/信頼値を表現している分散行列および共分散行列が、解く際に考慮される。
【0177】
本発明のこの特定の実施形態の変形例では、顔のモデルに対する眼鏡のモデルの姿勢のいくつかのパラメータが固定される。これは、眼鏡のモデルと顔のモデルとの間の位置合わせの仮説を表現し得る。この場合、X軸、つまり矢状面に垂直な軸上の回転と、yおよびzに沿った、つまり矢状面内の並進移動のみが計算される。[数式11]で表現されるコスト関数は、単純化できるため、結果に向かってより容易に収束することが可能になる。このようにして、たとえば顔の片側がわずかに傾いているなど、眼鏡が、対称な顔と比べて異なって位置している、非対称性の高い顔でも、非常に満足できる結果を得ることが可能である。
【0178】
眼鏡のパラメトリックモデルの例
各眼鏡は、レンズ、ブリッジ、およびアームなどの共通の要素を含んでいる。したがって、
図7に示すように、眼鏡のパラメトリックモデル(3DMM)700は、以前に定義された三角形の面715によって互いに接続された区画710のセットとして定義することができる。
【0179】
三角形の面715は、凸状の包絡線720を形成するが、その一部は
図7には示されていない。
【0180】
同じ数の点によって定義される区画710のそれぞれは、眼鏡のすべてのモデル上の同じ場所に有利に配置される。
【0181】
さらに、各区画710は、骨格730に垂直な平面上でペアと交差する。
【0182】
したがって、次の3つのタイプの区画、すなわち、
- n度ごとに1つの区画を有するように、たとえばリムの骨格に垂直な基準面に対する角度によってパラメータ化された、レンズの周囲の区画710A、
- 基準面に平行なブリッジの区画710B、
- アームの骨格730Bに沿った、アームの区画730Cを定義できる。
【0183】
レンズの周囲にリムがないペアの場合、通常は英語の用語「リムレス」と呼ばれるか、または、ペアの場合、リムがレンズの一部しか囲んでいない「セミリムレス」と呼ばれ、レンズの周囲の区画710Aのすべてまたは一部は、1つおよび同一の区画710Aのすべての点の組合せに対応する単一の点しか有していないことが強調される。
【0184】
さらに、眼鏡のモデル700と、画像内の眼鏡の表現との位置合わせに使用される主成分分析(PCA)は、多くの共通点を必要とする。この目的のために、位置合わせされた眼鏡に属するすべてのピクセルが、画像内で確実に見つかるように、眼鏡のモデルの凸状の包絡線720上に位置する点が選択される。
【0185】
たとえば、二重ブリッジを有する眼鏡の場合など、眼鏡の開口部を見つけることを可能にするために、たとえば、二重ブリッジを有する眼鏡のモデルのテンプレートを、眼鏡にできるだけ適合するように事前に選択できる。
【0186】
所与のインデクスで参照されるパラメトリックモデルの点は、眼鏡のモデル上の同じ相対点に連続的に配置されるため、2点間の既知の距離の定義が容易になる。既知のこの距離は、眼鏡に刻まれた「フレームマーキング」によって取得でき、このマーキングは、レンズの幅、ブリッジの幅、アームの長さ全体を定義する。
【0187】
この情報は、
図8に示すように、対応する点を選択することによって眼鏡モデル700の解に影響を与えることができる。
図8では、眼鏡の前面の区画710の輪郭を特徴付ける点810のみが示されており、dは、特に「フレームマーキング」によって定義されるレンズの幅に対応する。顔と眼鏡の位置合わせの変形では、顔と眼鏡との2つのそれぞれのパラメトリックモデルから、多数の顔、および多数の眼鏡が生成される。次に、自動配置アルゴリズムを使用して、各顔モデル上に眼鏡の各モデルを配置する。有利には、ノイズの生成および異なる配置統計、すなわち、鼻の端における眼鏡、パッドの凹み、こめかみの緩い配置などが、顔上で眼鏡を自動的に配置するために使用される。次に、眼鏡と顔との新しいパラメトリックモデルが、顔と眼鏡とのモデルのすべての点から計算される。この新しいパラメトリックモデルは、顔上での眼鏡の接触と完璧な配置とを保証し、解を簡素化する。これは、12個ではなく6個のパラメータの計算に対応する1つの変換が求められ、接触方程式が取り消されるためである。しかしながら、これら制約をエンコードするのはモードであるため、一般にこの場合は、より多くのモードが推定される。
【国際調査報告】