IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アイウェア・テク・ソシエテ・アノニムの特許一覧

特表2022-527818ユーザの眼に関連する幾何学的変数を推定する方法及びシステム
<>
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図1
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図2
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図3
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図4
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図5
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図6
  • 特表-ユーザの眼に関連する幾何学的変数を推定する方法及びシステム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-06
(54)【発明の名称】ユーザの眼に関連する幾何学的変数を推定する方法及びシステム
(51)【国際特許分類】
   G06T 7/70 20170101AFI20220530BHJP
   G06T 7/00 20170101ALI20220530BHJP
【FI】
G06T7/70 B
G06T7/00 350C
G06T7/00 660A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021558986
(86)(22)【出願日】2020-04-06
(85)【翻訳文提出日】2021-10-01
(86)【国際出願番号】 IB2020053252
(87)【国際公開番号】W WO2020208494
(87)【国際公開日】2020-10-15
(31)【優先権主張番号】00487/19
(32)【優先日】2019-04-10
(33)【優先権主張国・地域又は機関】CH
(81)【指定国・地域】
(71)【出願人】
【識別番号】521074944
【氏名又は名称】アイウェア・テク・ソシエテ・アノニム
(74)【代理人】
【識別番号】100069556
【弁理士】
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【弁理士】
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【弁理士】
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100221981
【弁理士】
【氏名又は名称】石田 大成
(74)【代理人】
【識別番号】100208258
【弁理士】
【氏名又は名称】鈴木 友子
(72)【発明者】
【氏名】フネス・モラ・ケネス・アルベルト
(72)【発明者】
【氏名】オドベス・ジャン-マルク
(72)【発明者】
【氏名】リウ・ガン
(72)【発明者】
【氏名】ユ・ユ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096BA06
5L096BA08
5L096BA18
5L096CA04
5L096CA05
5L096DA02
5L096EA05
5L096EA35
5L096FA15
5L096FA67
5L096HA11
(57)【要約】
【課題】より正確に視線方向を推定する方法及びシステムを提供する。
【解決手段】本発明は、ユーザの眼に関連する幾何学的変数を推定する方法であって、以下のステップを備える。
a 特徴的な眼の領域を含むユーザの眼の画像に相当する少なくとも1つの入力画像観察を検索する。
b 複数の特徴的な眼領域の少なくとも1つにおける入力画像観察の各画素を分類するために、1つ又は複数の画像区分けマップを計算する学習装置を使用する。
c 一連の幾何学的変数を介して、ユーザの眼の画像幾何学的モデルを生成する。
d 画像の幾何学的モデルを少なくとも1つの画像区分けマップと比較する。
e この比較に基づいて、前記少なくとも1つの入力画像観察がユーザの眼の幾何学的モデルに相当するかどうかを示すモデル相当値を計算する。
f ステップcからステップeまでを繰り返すステップfであって、ステップeで計算された値が最適値を下回っている場合は、モデル相当値が最適値に達するまで、ステップcからステップeまでの各反復で新しい画像幾何学的モデルを生成すべく、幾何学的変数のセットの少なくとも1つの変数がステップcで変更される。
g 生成されたユーザの眼の最新の画像幾何学的モデルから、眼関連の幾何学的変数を取得する。
【特許請求の範囲】
【請求項1】
ユーザの眼に関連する幾何学的変数(θ)を推定する方法であって、
a 特徴的な目の領域を含むユーザの目の画像に対応する少なくとも1つの入力画像観察(10)を取得するステップaと、
b 学習機械を使用して、1つ又は複数の画像区分けマップ(NS、NS、NS)を計算し、前記入力画像観察の各画素を、複数の特徴的な眼の領域のうちの少なくとも1つに分類するステップbと、
c 一連の幾何学的変数を介して、ユーザの眼の画像幾何学的モデルを生成するステップcと、
d 画像の幾何学的モデルを少なくとも1つの画像区分けマップと比較するステップdと、
e 前記比較に基づいて、少なくとも1つの入力画像観察(10)がユーザの目の幾何学的モデルに相当するかどうかを示すモデル相当値を計算するステップeと、
f ステップcからステップeまでを繰り返すステップfであって、ステップeで計算された値が最適値を下回っている場合は、モデル対応値が最適値に達するまで、ステップcからステップeまでの各反復で新しい画像幾何学的モデルを生成すべく、幾何学的変数(θ)のセットの少なくとも1つの変数がステップcで変更される、ステップcからステップeまでを繰り返すステップfと、
g 生成されたユーザの目の最新の画像幾何学的モデルから眼に関連する幾何学的変数(θ)を取得するステップgと
を備える、ユーザの眼に関連する幾何学的変数(θ)を推定する方法。
【請求項2】
前記少なくとも1つの入力画像観察(10)は、教師あり、半教師あり、又は教師なしの較正手順から取得したデータを提供することによって拡張される、請求項1に記載の方法。
【請求項3】
前記眼に関連する幾何学的変数(θ)は、ユーザの視線方向に相当していて、
ステップcでのユーザの目の画像幾何学的モデルは、ある特定の方向を見つめるユーザの視線に相当していて、
幾何学的変数(θ)のセットの前記少なくとも1つの変数は、前記モデル対応値が前記最適値に達するまでステップcからステップeの各反復で、別の方向を見つめているユーザの眼の新しい画像幾何学的モデルを生成すべく、ステップcの下で変更され、
視線方向が、最新の画像幾何学モデルからステップgで取得される、請求項1又は2に記載の方法。
【請求項4】
少なくとも1つのパラメトリック区分けマップ(PS)は、ユーザの眼の前記画像幾何学的モデルから計算され、前記パラメトリック区分けマップの各画素は、複数の特徴的な眼の領域(20a、20b、20c)のうちの少なくとも1つに分類される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
パラメトリック区分けマップ(PS)の各画素は、この画素が少なくとも1つの特徴的な眼の領域(20a、20b、20c)に属する少なくとも1つの確率、対数確率、又はスコアを示す、請求項4に記載の方法。
【請求項6】
複数のパラメトリック区分けマップ(PS、PS、PS)が前記画像幾何学的モデルから計算され、各前記パラメトリック区分けマップは、前記画像幾何学的モデルの投影の各画素がどの特徴的な眼領域(20a、20b、20c)に属するか、又は確率、対数確率、又はこの画素が1つの特徴的な眼領域に属する前記画像幾何学的モデルの投影の各画素に関連するスコアを示す、請求項5に記載の方法。
【請求項7】
ステップdは、少なくとも1つの画像区分けマップ(NS、NS、NS)の各画素に割り当てられた確率、対数確率、又はスコアを、同じ座標を有する少なくとも1つのパラメトリック区分けマップ(PS)の画素の値と比較することを備える、請求項5又は6に記載の方法。
【請求項8】
少なくとも1つのパラメトリック区分けマップ(PS)から、画像の幾何学的モデルに従って各画素が属すると推測される特徴的な領域(20a、20b、20c)を決定することと、
ステップdの一部として、少なくとも1つの画像区分けマップ(NS、NS、NS)から、その特徴的な領域に相当する画素相当値であり、この画素がその特徴的な領域に属する確率、対数確率又はスコアを示す画素相当値を決定することと、
ステップeの一部として、前記画素相当値を一緒に加算して、前記モデル相当値を提供することとを備える、請求項5から7のいずれか一項に記載の方法。
【請求項9】
画像幾何学的モデルの少なくとも1つのソフトパラメトリック区分けマップは、ユーザの眼の前記画像幾何学的モデルから計算され、少なくとも2つの値、好ましくは少なくとも3つの値が、前記ソフトパラメトリック区分けマップの各画素に割り当てられ、前記値は各画素が前記画像幾何学的モデルの前記特徴的な眼の領域のそれぞれに相当する確率、対数確率又はスコアを表す、請求項1から8のいずれか一項に記載の方法。
【請求項10】
少なくとも2つの値、好ましくは少なくとも3つの値が、前記画像区分けマップの各画素に割り当てられ、前記少なくとも3つの値は、各画素が少なくとも1つの入力画像観察(10)の前記特徴的な眼領域のそれぞれに相当する、確率、対数確率又はスコアを表す、請求項9に記載の方法。
【請求項11】
前記ソフトパラメトリックマップと前記画像区分けマップは、モデル相当値を提供すべく、パラメトリック区分けマップの各画素に割り当てられた少なくとも3つの値のそれぞれに、同じ座標を持つ画像区分けマップの各画素に割り当てられた対応する少なくとも3つの値のそれぞれを乗算することによって、そして前記区分けマップの各画素の乗算された値を加算することによって、合わせられる、請求項10に記載の方法。
【請求項12】
各画素について、各画像区分けマップの確率又は対数確率又はスコアの加重和を、画像区分けマップの相当する画素相当値に関連付けられた確率で計算するステップを備える、請求項11に記載の方法。
【請求項13】
前記特徴的な眼の領域は、好ましくは、角膜と、瞳孔と、虹彩と、強膜と、まぶたとを含む群から選択される3つの特徴的な眼の領域である、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記画像区分けマップは、画素が1つの特徴的な眼の領域に属する各画素に関連する確率又は対数確率を示す画像確率マップである、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記画像区分けマップが、この画素が1つの特徴的な目の領域に属する各画素に関連付けられたスコアを示す画像スコアマップである、請求項1から13のいずれか一項に記載の方法。
【請求項16】
学習機械は、少なくとも1つの入力画像観察(10)に基づいて前記画像区分けマップ(NS、NS、NS)を生成するように構成された区分けニューラルネットワーク(12)を備える、請求項1から15のいずれか一項に記載の方法。
【請求項17】
区分けニューラルネットワークは、入力用の画像区分けマップを生成するように構成された複数の層を備える、請求項16に記載の方法。
【請求項18】
区分けニューラルネットワークは、画像区分けマップが前記入力と同じ解像度であるように、あるいは少なくとも画像区分けマップ及び前記入力間の画素の相当関係を確立可能に、入力の変換を達成するように構成されたエンコーディング-デコーディング又は砂時計層の1つ又は一連を備える、請求項17に記載の方法。
【請求項19】
幾何学的変数の前記セットが、少なくとも、眼球回転中心と、視軸線ずれと、眼球半径、角膜半径と、輪部半径と、瞳孔半径と、まぶたの開口部又は形状と、左及び/又は右眼角との中から、複数の変数を備える、請求項1から18のいずれか一項に記載の方法。
【請求項20】
前記ステップaは、画像フレームからの画像を前処理することを備え、前記前処理が、明るさ調整と、コントラスト調整と、ホワイトバランス調整と、ノイズ除去と、スケーリングと、トリミングとの少なくともいずれか1つを備える、請求項1から19のいずれか一項に記載の方法。
【請求項21】
前記ステップaは、画像フレームからの画像を前処理することを備え、前記前処理が、頭の姿勢の調整を備える、請求項1から20のいずれか一項に記載の方法。
【請求項22】
ユーザの顔を捉えるカメラ(32)と、
ユーザ固有の眼及び顔の幾何学的変数を格納するデータベース(34)と、
請求項1から21のいずれか一項に記載の方法を実施するコンピュータプログラムを格納するメモリ(36)を備える、計算システム(30)と
を備える、眼に関連する幾何学的変数(θ)を推定する装置。
【請求項23】
請求項1から21のいずれか一項に記載の方法を実施すべく構成されているアルゴリズムの任意のセットを備えるコンピュータプログラムを格納する、コンピュータに可読な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの眼に関連する幾何学的変数を推定する方法及びシステム、特に、視線の推定、すなわち視線の方向の推定に関する。具体的には、人間と機械との間の入出力部(インタフェース)用、仮想現実用、ヘルスケア用の視線の推定に関し、移動性適用(モバイルアプリケーション)向きの視線の推定に関する。
【背景技術】
【0002】
ユーザの視線の方向のような眼に関連する幾何学的変数は、人間の行動の重要な手がかりを提供する。人間の行動の視線の方向と動きは、視覚的注意の指標であるだけでなく、そこにある人々の思考と精神状態の指標でもある。
【0003】
したがって、視線推定は、人間とロボットの相互作用(HRI)、仮想現実(VR)、社会的相互作用の分析、ヘルスケアなどの事業領域を支援する。携帯電話での検知機能の開発があることで、視線推定はさらに、移動性シナリオでの幅広い適用に支援を提供できる。
【0004】
視線推定は、2つの主要なクラス、すなわち幾何学的方法と外観に基づく方法に分類できる。幾何学的方法は、眼の幾何学的モデルに依存していて、このモデルの変数は、眼の画像から抽出された瞳孔中心及び角膜反射又はPCCR法と呼ばれる一般的な方法によって、通常は幾何学的特徴から変数が推定される。これらのモデルは非常に正確であるが、ロバストな特徴抽出に依存するため、眼の高解像度画像が必要になることが多く、ユーザの移動は限定されそのような方法の適用が限られる。
【0005】
GuestrinとEizenmanの研究(非特許文献1)(EEE Transactions on biomedical Engineering 53(6)、1124-1133、2006年6月)には、瞳孔の中心と角膜反射のストラテジーに基づいて眼の幾何学的変数を推定する理論について詳しく記載されている。著者らは、較正ストラテジーの必要性の観点で、頭の動きの不変性やより良い特性につながる可能性がある複数の光源と複数のカメラのさまざまな構成について言及している。
【0006】
外観に基づく方法は、その一方で、眼の画像を視線方向に直接マッピングする。そして近年、大規模なデータセットのデータ収集と深層学習が大きな進歩を遂げている。このことにかかわらず、これらの方法は低解像度の画像をより適切に処理可能であるのであるが、明示的な眼球モデルなしには、特定のユーザにモデルを適合させるのが困難になって非常に正確な結果は得られない場合もある。
【0007】
K.A.Funes MoraとJ.-M Odobezによる非特許文献2「リモートrgb-dカメラの幾何学的な生成的視線推定(g3e)」(CVPR、pp 1773-1780、2014年)は、これら2つの(前述のクラスの方法での)取り組みのセットを調整しようとした。それは、眼球変数の所与の幾何学的構成から色付きの眼の画像を生成可能な幾何学的生成モデルに依存していた。そのようなモデルの推論プロセスは、既知の観点で拡張され得る眼の画像サンプルの観察に基づいて幾何学的変数を検索可能である。推論プロセスは、各画素について、虹彩、強膜、又はまぶたの皮膚領域のいずれかに属する可能性を含む可能性マップに依存する。尤度マップは、画素の色に適用され、手動で初期化されたガウス混合モデルから取得された。尤度マップは、眼の画像の色駆動区分け(セグメンテーション)としても理解できる。しかし、そのような色モデルは、低い画像解像度及び複雑な影のパターンを生成する眼領域が本来くぼんでいるために、眼の画像の動画への適用は困難である。この研究はまた、特許文献1(WO2015/192879)に開示された本発明の一実施形態である。
【0008】
Proenca Hugoらの非特許文献3「テクスチャ/形状情報と幾何学的制約によって供給される階層的グラフィカルモデルを使用した眼周囲領域の区分け」(International Conference on Biometrics、IEEE、2014、1頁から7頁、XP032714791)は、次の2段階1)と2)で構成されているモデルに従って7つの構成要素(虹彩、強膜、まつげ、眉毛、髪、肌、メガネ)を区別する眼周囲領域の画像ラベリングアルゴリズムを開示している。
1)いくつかのニューラルネットワークを使用して、トレーニングセットから各画像の位置と関心のあるクラスの事後確率を推測する。各ニューラルネットワークは、1つの構成要素を検出し、入力データからローカル統計(テクスチャ及び形状記述子)を受信するように構成されている。
2)データの局所的な外観に基づく事後確率は、幾何学的制約及び構成要素の隣接事前確率と組み合わされて、画素と構成要素層で構成される階層的なマルコフランダムファイル(MRF)に供給する。
【0009】
特に高解像度と低画像の両方の解像度に適合した、ユーザの眼に関連する幾何学的変数のより正確な取得には、改善の余地がある。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】国際出願第2015/192879号
【非特許文献】
【0011】
【非特許文献1】Guestrin、Eizenman、EEE Transactions on biomedical Engineering 53(6)、1124-1133、2006年6月
【非特許文献2】K.A.Funes Mora、J.-M Odobez、「リモートrgb-dカメラの幾何学的な生成的視線推定(g3e)」、CVPR、pp 1773-1780、2014年
【非特許文献3】Proenca Hugoら、「テクスチャ/形状情報と幾何学的制約によって供給される階層的グラフィカルモデルを使用した眼周囲領域の区分け」、International Conference on Biometrics、IEEE、2014、1頁から7頁、XP032714791
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明の課題は、したがって、ユーザの眼に関連する幾何学的変数、例えば、より正確に視線方向を推定する方法及びシステムを提供することである。
【0013】
本発明の別の課題は、ユーザの眼に関連する幾何学的変数、例えば、ユーザの眼の画質が悪い場合でも視線方向をロバストに推定する方法及びシステムを提供することである。
【0014】
本発明のさらなる課題は、画像の分類及び区分け(セグメンテーション)において改善された性能を備えた方法及びシステムを提供することである。
【課題を解決するための手段】
【0015】
本発明によれば、これらの課題は、以下のステップaからステップgを備える、ユーザの眼に関連する幾何学的変数を推定する方法によって達成される。
a 特徴的な眼の領域を含むユーザの眼の画像に相当する少なくとも1つの入力画像観察を検索する。
b 複数の特徴的な眼領域の少なくとも1つにおける前記入力画像観察の各画素を分類するために、1つ又は複数の画像区分けマップを計算する学習装置を使用する。
c 一連の幾何学的変数を介して、ユーザの眼の画像幾何学的モデルを生成する。
d 画像の幾何学的モデルを少なくとも1つの画像区分けマップと比較する。
e この比較に基づいて、前記少なくとも1つの入力画像観察がユーザの眼の幾何学的モデルに相当するかどうかを示すモデル相当値を計算する。
f ステップcからステップeまでを繰り返すステップfであって、ステップeで計算された値が最適値を下回っている場合は、モデル相当値が最適値に達するまで、ステップcからステップeまでの各反復で新しい画像幾何学的モデルを生成すべく、幾何学的変数のセットの少なくとも1つの変数がステップcで変更される。
g 生成されたユーザの眼の最新の画像幾何学的モデルから、眼関連の幾何学的変数を取得する。
【0016】
一実施形態では、少なくとも1つの入力画像観察は、教師あり、半教師あり、又は教師なしの較正手順から得られたデータを提供することによって拡張される。
【0017】
有利な実施形態では、前記眼に関連する幾何学的変数は、ユーザの視線方向に相当し、ここでは
・ステップcでのユーザの目の画像幾何学的モデルは、ある特定の方向を見つめるユーザの視線に相当していて、
・幾何学的変数のセットの少なくとも1つの変数は、モデル対応値が前記最適値に達するまでステップcからステップeの各反復で、別の方向を見つめているユーザの眼の新しい画像幾何学的モデルを生成すべく、ステップcの下で変更され、
・視線方向が、最新の画像幾何学モデルからステップgの下で取得される。
【0018】
一実施形態では、少なくとも1つのパラメトリック区分けマップが、ユーザの眼の前記画像幾何学的モデルから計算される。パラメトリック区分けマップの各画素は、複数の特徴的な眼領域のうちの少なくとも1つに分類される。
【0019】
パラメトリック区分けマップの各画素は、例えば、この画素が少なくとも1つの特徴的な眼の領域に属するという少なくとも1つの確率、対数確率、又はスコアを示すことがある。
【0020】
複数のパラメトリック区分けマップは、画像の幾何学的モデルから計算してもよい。各パラメトリック区分けマップは、例えば、画像幾何学モデルの投影の各画素がどの特徴的な眼領域に属するか、あるいは画素が1つの特徴的な眼の領域に属している画像幾何学モデルの投影の各画素に関連する確率、対数確率又はスコアを示すことがある。
【0021】
一実施形態では、ステップdは、少なくとも1つの画像区分けマップの各画素に割り当てられた確率、対数確率、又はスコアを、同じ座標を有する少なくとも1つのパラメトリック区分けマップの画素の値と比較することを備える。
【0022】
一実施形態では、ユーザの眼に関連する幾何学的変数を推定する方法は、以下を備えてよい。
・少なくとも1つのパラメトリック区分けマップから、画像の幾何学的モデルに従って各画素が属すると思われる特徴的な領域を決定すること。
・ステップdの一部として、少なくとも1つの画像区分けマップから、前記特徴的な領域に相当する画素相当値であり、この画素がその特徴的な領域に属する確率、対数確率又はスコアを示す画素相当値を決定すること。
・ステップeの一部として、前記画素相当値を加算して、前記モデル相当値を提供すること。
【0023】
一実施形態では、画像幾何学的モデルの少なくとも1つのソフトパラメトリック区分けマップが、ユーザの眼の画像幾何学的モデルから計算される。ソフトパラメトリック区分けマップの各画素には、少なくとも2つの値、好ましくは少なくとも3つの値が割り当てられる。これらの値は、各画素が画像の幾何学的モデルの特徴的な眼の領域のそれぞれに相当する確率、対数確率、又はスコアを表す。
【0024】
画像区分けマップの各画素に、少なくとも2つの値、好ましくは少なくとも3つの値を割り当て可能である。少なくとも3つの値は、各画素が少なくとも1つの入力画像観察の特徴的な眼領域のそれぞれに相当する確率、対数確率、又はスコアを表す。
【0025】
一実施形態では、ソフトパラメトリックマップ及び画像区分けマップは、パラメトリック区分けマップの各画素に割り当てられた少なくとも3つの値のそれぞれを、同じ座標の画像区分けマップの各画素に割り当てられた相当する少なくとも3つの値のそれぞれで乗算することによって、いっしょに合わせられる。乗算された値は、モデル相当値を提供すべく、区分けマップの各画素に追加される。
【0026】
確率、対数確率、又はスコアの加重和は、画像区分けマップの相当する画素相当値に関連する確率で、各画像区分けマップの各画素に対して計算されることがある。
【0027】
一実施形態では、特徴的な眼の領域は、好ましくは、角膜、瞳孔、虹彩、強膜、及びまぶたを含む群から選択される3つの特徴的な眼の領域である。
【0028】
一実施形態では、画像区分けマップは、画素が1つの特徴的な眼領域に属する各画素に関連する確率又は対数確率を示す画像確率マップである。
【0029】
一実施形態では、画像区分けマップは、この画素が1つの特徴的な眼の領域に属する各画素に関連するスコアを示す画像スコアマップである。
【0030】
一実施形態では、学習機械は、少なくとも1つの入力画像観測に基づいて画像区分けマップを生成するように構成された区分けニューラルネットワークを備える。
【0031】
区分けニューラルネットワークは、例えば、入力用の画像区分けマップを生成するように構成された複数の層を備えることがある。
【0032】
区分けニューラルネットワークは、例えば、画像区分けが入力と同じ解像度であるように、又は少なくとも画像区分けマップと入力の間の画素の相当関係を確立できるように、入力の変換を達成するように構成されたエンコーディング-デコーディング又は砂時計層の1つの層又は一連の層を備えてよい。
【0033】
一実施形態では、幾何学的変数のセットは、少なくとも、眼球回転中心、視軸オフセット、眼球半径、角膜半径、輪部半径、瞳孔半径、まぶたの開口又は形状、左眼及び/又は右眼端の中から、複数の変数を備える。
【0034】
一実施形態では、特徴的な眼領域を有するユーザの眼の画像に相当する少なくとも1つの入力画像観察を検索するステップは、画像フレームから画像を前処理することを備える。画像の前処理は、明るさ調整、コントラスト調整、ホワイトバランス調整、頭の姿勢の調整、ノイズ除去、スケーリング、及び/又はトリミングの間の1つ又は複数の画像調整又は補正を備えてよい。
【0035】
本発明の別の態様は、眼に関連する幾何学的変数を推定する装置に関し、この装置は以下を備える。
・ユーザの顔をとらえるカメラ。
・ユーザ固有の眼と顔の幾何学的変数を格納するデータベース。
・上記の方法を実行するように構成されたコンピュータプログラムを格納するメモリを備える、計算システム。
【0036】
本発明のさらなる態様は、コンピュータプログラムを格納するコンピュータ可読記憶媒体に関する。コンピュータプログラムは、上記の方法を実行するように構成されたアルゴリズムのセットを含む。
【0037】
本発明は、例として与えられ、図によって示されるいくつかの実施形態の説明の助けを借りて、よりよく理解されるであろう。
【図面の簡単な説明】
【0038】
図1図1は、本発明の実施形態による、ユーザの視線方向を追跡する方法のフローチャートを示す。
図2図2は、本発明の実施形態による方法の詳細なフローチャートを示している。
図3図3は、ユーザの眼の幾何学的モデルのパラメトリック区分けプロセスを概略的に示す。
図4図4は、区分けニューラルネットワークを使用したユーザの眼の画像の区分けプロセスを概略的に示す。
図5図5は、ユーザの視線方向の評価プロセスを概略的に示す。
図6図6は、眼の形状を概略的に示す。
図7図7は、本発明の一実施形態による、ユーザの視線方向を推定する装置を概略的に示す。
【発明を実施するための形態】
【0039】
図1は、ユーザの眼に関連する幾何学的変数θを推定する方法の一般的な概念のフローチャートを示す。ユーザの眼に関連する幾何学的変数は、図示されている方法の主なステップaからステップgを通じて推定される。本発明による方法は、ユーザの視線方向の推定に特に適合されているが、しかしながら、まぶたの開放度などの、眼に関連する他の幾何学的変数の推定に使用され得る。
【0040】
ステップaの下で、ユーザの眼の画像又は一連のユーザの眼の画像がまず初めに捉えられる。眼の画像は、例えば、色画像、赤外線画像、振幅画像、画像データの前処理されたバージョンのグレースケール画像、及び/又はこれらの画像の任意の組み合わせであり得る。眼の画像は、画像のトリミング、スケーリング、色、コントラスト、ホワイトバランス、及び/又は明るさの調整、ノイズの除去、シャープネスの向上などの前処理ステップを使用して前処理されてよい。一実施形態では、前処理は、頭の回転角及び位置と、カメラの視点又は眼のスケールを修正する頭の姿勢の修正とを含む。前処理は、ステレオカメラ、構造化光カメラ、飛行時間型カメラ、又はその他の深度検知装置からの深度測定によっても支援されることがある。一実施形態では、頭位補正は、顔領域の三次元(3D)モデルと、顔領域周辺の深さ測定との少なくとも一方に基づいて推定される。捉えられて、場合によって前処理された画像を、ここ以降では、入力画像観察10という。
【0041】
捉えられたユーザの眼の画像又はユーザの眼の一連の画像は、眼球の半径、頭の位置など(図6と組み合わせて図3及び図5を参照。)の基礎となるユーザ固有の幾何形状を取得することによって、視点などのグラウンドトゥルースデータ(入力データと出力データ)を提供することによって拡張可能である。この情報は、入力された眼の画像のサブセットに対してのみ利用可能なことがあり、明示的又は暗黙的な較正手順から取得されることがある。例えば、ユーザは空間の特定点を注視するように指示される。代替的に、おおよその視点の取得、又は観察された内容などの文脈情報の取得をできるように、所与の行動が観察されるか誘発される。注目点は、その場合、単一の点ではなく確率分布として表されることがある。
【0042】
一実施形態では、入力画像観察は、眼の領域を超えて捕捉されることがあり、全身、顔全体、又は両方の眼を同時に含む領域を含み得る。
【0043】
入力画像観察10の各画素は、次に、有限数の特徴的な眼領域、例えば、まぶた、角膜、又は強膜などの2つ又は3つの特徴的な眼領域のうちの1つに分類される。角膜領域は、瞳孔、虹彩、輪部をいっしょに備える領域として理解可能である。適用によっては、より特徴的な眼の領域が必要になる場合がある。例えば、入力画像観察10の各画素は、第4の特徴的な領域のうちの1つ、すなわち、瞳孔測定用途のための瞳孔のみのための上記の3つの特徴的な眼領域及び追加の特徴的な領域に分類され得る。分類は、好ましくは、ニューラルネットワーク12などの学習機械を使用して実行され、図2及び図4に示されているステップbの一部として、複数の画像区分けマップNS、NS、NSをもたらす。各画像区分けマップは、1つの特徴的な眼領域に関連付けられ、例えば、入力画像観察10の各画素が相当する特徴的な眼の領域に属する確率、対数確率、又はスコアを示す確率マップからなるものとしてよい。
【0044】
ステップcの下で、画像幾何学的モデルは、図1に示される特定の幾何学的構成、例えば、図2に示される1つの特定の方向を見つめるユーザの眼の変数のセットに基づいて、独立して生成される。図6を参照すると、これらの変数は、例えば、眼球半径Re、角膜半径Rc、左及び/又は右眼角などの眼の変数、及び視線方向に関連する他の変数、あるいは例えば眼球回転pc、視軸線ずれ量k、節点Pcからの距離(d)などの他の変数を含むか、あるいは左記変数の任意の組み合わせであり得る。さらに、最適化プロセス中に、変数のセットを固定しておいて、他の変数はそれらの最適値を発見すべく改変されることがある。所与の母集団の眼球サイズの標準偏差などの統計又は情報も、特許文献1と同様の方法で、事前項又は正則化項として、モデル相当値計算の一部として使用できる。
【0045】
画像の幾何学的モデルは、サイズ、位置、視軸線、及びその他の幾何学的値に関する特定の幾何学的構成、そして1つの特定の方向への視線、並びに、まぶたの形状と開口部の二次元(2D)又は三次元(3D)表現を備えた、眼の3D又は数学モデルである場合がある。これは、そのモデルを投影面、例えばカメラの指向方向又は頭部座標系に対して予め定めた位置から指向している平面に垂直な面に投影することにより、2D画像として表される。
【0046】
一実施形態では、画像幾何学的モデルは、例えば較正セッション中に、既知の方向を見つめているユーザの眼の画像のセットから計算されて、視線方向から独立しているユーザの眼の変数を決定可能である。較正は、教師あり、教師なし、又は部分的に教師ありの場合がある。ユーザの眼の幾何学的モデルの変数のサブセットは、ユーザの眼の画像なしで取得可能である。例えば、ユーザに依存しないモデル、例えば、異なるユーザからの複数の眼の画像から生成されたモデルを最初に使用してよい。一実施形態では、幾何学的モデルは、性別、民族性、年齢などのいくつかの共通の特徴をユーザと共有する異なるユーザからのモデルを補間することによって生成される。一実施形態では、幾何学的モデルの固定変数は、ユーザに依存せず、幾何学的統計のセットによって定義可能であり、これは、先行の研究から、又はユーザのセットのトレーニングデータから取得可能である。
【0047】
次に、最初に想定された幾何学的構成の下でのユーザの画像幾何学的モデルが、学習機によって提供された区分けマップNS、NS、NSと比較される(ステップd)。発見すべき幾何学的構成が視線方向である場合、この方法が一連のフレームにおける眼の方向を追跡するために使用される場合、第1視線方向は、例えば、以前に決定された視線方向であり得る。視線方向は、幾何学的モデルの可変な変数の最初のセット(眼球回転pc、視軸線ずれ量k、節点Pcからの距離Pc(d))を決定する。
【0048】
第1の幾何学的構成変数はまた、特定の人口統計学的グループにわたって計算された眼球幾何学の統計などの事前知識情報から取得され得る。
【0049】
この比較は、入力画像観察10が、選択された特定の方向を注視するユーザの眼の幾何学的モデルに相当するか否かを示すモデル相当値をもたらす。
【0050】
ステップcからステップeが繰り返され、ステップcからステップeの各反復でユーザの眼の新しい画像幾何学的モデルを生成すべく幾何学的変数のセットがステップcの下で変更される。これは、モデル相当値を最適値に達するまで増加させる目的を伴う。ほとんどの最適化アルゴリズムと同様に、最適値に近づくために、1つ又はそれより多い幾何学的変数に小さな変更が繰り返し適用される。例えば、前記1つ又はそれより多い変数の値は、最適値に到達するために増加されたり又は減少されたりする。
【0051】
最適値に到達するために、幾何学的変数のセット内の可変な変数は、画像観察モデルによる幾何学的変数のセットの事後分布を考慮して変更され得る。事後分布の分析的な導出は困難であるため、変分ベイズ定式化を近似推論手法として使用して、適切な光学幾何学的構成を発見してよい。
【0052】
グリッド検索ストラテジー、マルコフ連鎖モンテカルロ(MCMC)のようなサンプリングアプローチ、ニュートン法、勾配降下法、確率的勾配降下法、又は最適な幾何学的構成を迅速に見つけるのに役立つその他のストラテジーなど、代替の最適化ストラテジーを使用してよい。
【0053】
画像観察モデルが画像幾何学的モデルにどの程度相当するかを示すモデル相当値が最適値に達すると、ステップgの下で、ユーザの眼の視線方向又は任意の着目する他の眼の幾何学的変数が、生成された最新の画像幾何学モデルから取得される。
【0054】
以下で詳細に説明するように、入力画像観察10が画像幾何学的モデルにどの程度相当するかを決定する様々な方法論が存在する。
【0055】
有利な実施形態では、図2図4、及び図5を参照して、入力画像観察10の特徴的な眼領域を区別すべく、入力画像観察10は、区分けニューラルネットワーク12を通過する。本発明の内容において、入力画像観察10の区分けは、角膜/虹彩領域、強膜領域、瞳孔領域、及びまぶた領域を含む領域のグループの間で複数の意味領域の区別を可能にする。意味領域を使用すると、注視プロセスとユーザの眼の形状を周囲条件又は検知条件から切り離せる。
【0056】
区分けの結果、複数の画像区分けマップNS、NS、NSが得られる。各画像区分けマップは、1つの入力画像観測の画素が1つの意味領域、つまり、例えば虹彩、強膜、瞳孔又はまぶたのような異なる眼領域に属する画素の確率を示す。
【0057】
一実施形態では、区分けマップは確率的解釈を持たない場合があるが、それでも、画素が別個の領域のいずれかに属する確率がどの程度であるかを表す値を提供する。このような非確率的測定値を、ここではスコアということとする。
【0058】
好ましい実施形態では、各画像区分けマップNS、NS、NSは、この画素が相当する特有の眼の領域に属する各画素での確率を示す確率マップである。例えば、図4に示されるように、第1画像区分けマップNSがまぶたに対して確立されることがあり、入力画像観察10の各画素がまぶたに属する確率、対数確率又はスコアを示す。第2区分けマップNSが瞳孔/角膜に対して確立されることがあり、入力画像観察10の各画素が瞳孔/角膜に属する確率を示す。第3区分けマップNSが強膜に対して確立されることがあり、入力画像観察10の各画素が強膜などに属する確率を示す。
【0059】
区分けニューラルネットワーク12を介した入力画像観察10の区分けプロセスとは独立して、画像幾何学的モデルの特徴的な眼領域を区別すべく、画像幾何学的モデルの母数による(パラメトリック)区分けPSが変数θのセットから計算されて、1つ又は複数のパラメトリック区分けマップが得られる。
【0060】
より具体的には、パラメトリック区分けPSは、他の2つのパラメトリック区分けマップに属する単一の特徴的な眼領域とは異なる、幾何学的モデルのそれぞれの単一の特徴的な眼領域を含むパラメトリック区分けマップのセットの結果となる。例えば、図3に示されるように、どの画素がこれらの眼の領域のそれぞれに属するかを決定するため、第1パラメトリック区分けマップPS、第2パラメトリック区分けマップPS、第3パラメトリック区分けマップPSは、まぶた領域20a、虹彩/角膜領域20b、及び強膜領域20cにそれぞれ相当する幾何学的モデルの各部分を含む。
【0061】
例えば、第1パラメトリック区分けマップPSの画素1がまぶた領域20aに属している場合、この画素は、第2区分けマップPS及び第3区分けマップPSが何を含むのかに関係なく、まぶた領域に割り当てられる。画素が、画素2、画素3のようにまぶた領域20aにない場合、またその画素が虹彩/角膜領域内にあるならば、その画素は虹彩/角膜領域20bに割り当てられる。それ以外の場合は、強膜領域20cに割り当てられる。したがって、各パラメトリック区分けマップPS、PS、PSの各画素は、幾何学的変数θのセットの直接かつ決定的関数を通じて、同じ座標を有する画像幾何学的モデル10の相当する特徴的な眼領域に割り当てられる。
【0062】
区分けニューラルネットワーク12は、3つの画像区分けマップNS、NS、NSを生成する。各画像区分けマップNS、NS、NSは、確率、対数確率、又はスコア離散値を各画素に割り当てて、入力画像観測の特徴的な眼の領域に属す10。換言すると、各画像区分けマップは、その画素のそれぞれ及び同じ座標を有する入力画像観察10の相当する画素が同じ特有の眼の領域に属する可能性についての推定を提供する確率モデルとして見てよい。第1画像区分けマップNS、第2画像区分けマップNS、及び第3画像区分けマップNSは、例えば、入力画像観察10の角膜領域、強膜領域、及びまぶた領域について、それぞれ上で説明したように確率モデルである。各画像区分けマップNS、NS、NSの各画素には、同じ座標を持つ入力画像観測の画素と同じ特徴的な眼の領域に属する確率又は対数確率離散値が割り当てられる。入力画像観察の各画素の分類(確率割り当て)は、学習機械によって、例えばニューラルネットワークによって実行され、そして例えば、その色、明るさ、空間コンテキスト、領域間の関係、及び位置に依存する場合がある。
【0063】
図5に示すように、ユーザの視線方向の評価過程において、相当するパラメトリック区分けマップPS、PS、PSのまぶた領域20a、虹彩/角膜領域20b及び強膜領域20cの各画素は、同じ座標を持ち相当する画像区分けマップNS、NS、NSの画素と比較して、入力画像観察10が画像幾何学的モデルに相当する確率を決定する。より具体的には、各画像区分けマップNS、NS、NSの各画素の確率又は対数確率離散値は、前記それぞれの推定された特徴的な眼領域(すなわち、角膜/虹彩領域、強膜領域及びまぶた領域)の場合にのみ選択される。画素は、相当するパラメトリック区分けマップPS、PS、PSと同じ座標を持つ、相当する画素に割り当てられた特徴的な眼の領域(すなわち、角膜/虹彩領域、強膜領域、まぶた領域)に相当する。
【0064】
選択された確率又は対数確率の離散値が加算されて、入力画像観察が特定の方向を注視しているユーザの眼の幾何学的モデルに相当する確率を示す値が、提供される。その値が最適値を下回っている場合、適切な光学的幾何学的構成を見つけるべくその値が最適値に達するまで、選択した最適化ステップを使用して1つ又はそれより多い新しい画像幾何学モデルが生成される。
【0065】
別の有利な実施形態では、画像幾何学的モデルの特徴的な眼領域ごとのハードパラメトリック区分けマップの生成に替えて、画像幾何学的モデルの単一のソフトパラメトリック区分けマップが計算される。
【0066】
ソフトパラメトリック区分けマップの各画素には、3つの離散値が割り当てられる。これらの離散値は、ソフトパラメトリック区分けマップの各画素が画像幾何学的モデルの3つの特徴的な眼の領域の1つに相当する確率又は対数確率をそれぞれ表す。3つの特徴的な眼の領域は、好ましくは、角膜/虹彩領域と、強膜領域と、まぶた領域である。
【0067】
並行して、区分けニューラルネットワーク12は、入力画像観察10の単一のソフト画像区分けマップを生成する。ソフト画像区分けマップの各画素には、少なくとも3つの離散値が割り当てられる。これらの離散値は、ソフト画像区分けマップの各画素が、入力画像観察10の少なくとも3つの相当する特徴的な眼領域のうちの1つに相当する確率又は対数確率をそれぞれ表す。3つの特徴的な眼の領域は、好ましくは、角膜/虹彩領域と、強膜領域と、まぶた領域である。
【0068】
次に、ソフトパラメトリックマップと画像区分けマップは、パラメトリック区分けマップの各画素に割り当てられた上記の3つの個別の値のそれぞれに、同じ座標を持つソフト画像区分けマップの各画素に割り当てられている相当する3つの値のそれぞれを乗算することによって合わされる。区分けマップの各画素の乗算された値の合計は、モデル相当値が画像の幾何学的モデルに相当する確率がどの程度かを示す。画素ごとに、これはソフト画像区分けマップによって与えられた確率の加重和として見られる。ここで、重みはソフトパラメトリック区分けマップによって与えられる。
【0069】
画素単位の乗算ステップの前に、ソフトイメージ区分けマップと、パラメトリック区分けマップとの少なくとも一方は、対数、ロバスト推定量などの関数を介して変換してよい。さらに、変換は、乗算がもはや必要ではなく、その代わりに加算又は減算が実行されるようなものであり得る。
【0070】
この実施形態によるユーザの視線方向及び他の眼に関連する幾何学的変数の推定は、ソフトパラメトリック及び画像区分けマップを使用することにより、特徴的な眼領域の隣り合う境界部に位置する画素をよりよく識別できるので、より良い結果精度を達成できる。
【0071】
一実施形態では、この方法は、期待される幾何学に関する事前の知識のみに基づいて、画像データとは無関係に、所与の幾何学的構成(θ)の類似性がどの程度なのかを計算するステップを含む。期待される幾何形状に関する事前の知識は、特許文献1で説明されていて、その内容は参照により本明細書に組み込まれ、画像区分けマップ及びパラメトリック区分けマップによって与えられる推定値とさらに加算的又は乗算的に組み合わせられる。
【0072】
区分けニューラルネットワーク12は、入力用の画像区分けマップを生成するように構成された複数の層を含む。ニューラルネットワークは、画像の区分けが入力と同じ解像度になるように、あるいは少なくとも画像区分けマップと入力の間の画素の相当関係を確立可能であるように、入力の変換を実現する1つ又は一連のエンコード/デコード又は砂時計層で構成できる。
【0073】
ニューラルネットワークは、例えば、最小限の前処理で画素画像から視覚パターンを直接認識するように設計された標準の畳み込みニューラルネットワーク(CNN)で使用される畳み込み層を含む場合がある。(ニューラル)ネットワークは、画像区分けプロセスのパフォーマンスを向上させるべく勾配消失なくネットワークをより深められる残余ニューラルネットワーク(ResNET)アーキテクチャで、有利に強化されよう。
【0074】
CNNは、例えば、エンコーダ、ResNET構築ブロック、及びデコーダの3つの部分で構成される。エンコーダは、コンテキスト情報を抽出して機能マップに圧縮するように構成されていて、3つの畳み込み層を備える。各畳み込み層では、画像を拡大するために反射パディングが実行されるため、畳み込み演算子の下でサイズは同じままである。ストライドは、画像を縮小するために第2畳み込み層と第3畳み込み層で使用される。
【0075】
区分けニューラルネットワーク12は、例えば、6つのResNET構築ブロックを備えることがある。各構築ブロックには2つの畳み込み層があり、各畳み込み層の後にバッチ正規化と正規化線形ユニット(ReLU)が続く。最終ReLUの出力は、構築ブロックの入力特徴マップに加えられる。6つのRestNET構築ブロックが1つずつ連結されている。ブロック内ではプーリングやストライドが行われないため、特徴マップのサイズは同じままである。
【0076】
ResNET構築ブロックに従うデコーダは、機能マップを拡張し、画素カテゴリを推測するように適合されている。これは、ストライドのある2つの畳み込み層を持つ。両方のデコンボリューション層の後に、バッチ正規化ユニットとReLUユニットが続く。デコーダは、客観的な情報を推測して回復するように構成されている。ResNET構築ブロックは、機能マップを改良すべくエンコーダを拡張する。
【0077】
区分けニューラルネットワークは、以前にUnityEYEでトレーニングされていた場合がある。UnityEYEは、さまざまな肌、さまざまな眼の形、さまざまな虹彩の位置でさまざまな年齢の画像を合成できるツールである。一部のデータはトレーニングに使用できるが、他のデータは検証又はテストに使用できる。合成データ生成のための他のツールを使用できる。
【0078】
区分けニューラルネットワークトレーニングは、RGB、赤外線、SWIR、又はその他の変形などの複数のモダリティからのトレーニングデータを使用して拡張可能でもある。ただし、サンプルで画素クラスの注釈を使用できる場合に限る。
【0079】
区分けニューラルネットワークも、まず複雑なアーキテクチャでトレーニング可能であるが、その知識は抽出ストラテジーを通じてよりコンパクトなネットワークに転送される。
【0080】
図7は、ユーザの視線方向を推定する装置を概略的に示す。装置は、例えば、パーソナルコンピュータ、サーバ、スマートフォン、ウェアラブルコンピュータ、又はグーグルグラス(登録商標)などの光学ヘッドマウントディスプレイなどの計算システム30を備えてよい。カメラのような画像捕捉要素32は、ユーザの顔の画像を検索するために、計算システム30に接続又は統合されている。データベース34は、ユーザ固有の変数を格納する計算システム30の一部として使用される。計算システム30は、区分けニューラルネットワークのアルゴリズムのセットを備えるコンピュータプログラムを格納する、コンピュータ可読記憶媒体36をさらに備える。
【0081】
実施形態に応じて、本発明による方法の特定のステップは、異なる順序で実行されてもよいか、あるいは連続的ではなく同時に実行されてもよいことに留意されたい。
【0082】
本発明の記載された実施形態に対する様々な修正及び変形は、添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、当業者には明らかであろう。例えば、入力画像観察10が画像幾何学的モデルに相当する確率を決定する他の方法論を実装してよい。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】