特許7673091 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イリスボンドクラウドボンディング，エス．エレ．の特許一覧

特許7673091視線追跡のための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
3c
4a
4b
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-25

(45)【発行日】2025-05-08

(54)【発明の名称】視線追跡のための方法

(51)【国際特許分類】

G06F 3/038 20130101AFI20250428BHJP

G06F 3/01 20060101ALI20250428BHJP

【ＦＩ】

G06F3/038 310A

G06F3/01 510

【請求項の数】 15

(21)【出願番号】P 2022559517

(86)(22)【出願日】2021-02-17

(65)【公表番号】

(43)【公表日】2023-05-25

(86)【国際出願番号】 EP2021053919

(87)【国際公開番号】W WO2021204449

(87)【国際公開日】2021-10-14

【審査請求日】2023-12-28

(31)【優先権主張番号】20169015.3

(32)【優先日】2020-04-09

(33)【優先権主張国・地域又は機関】EP

(73)【特許権者】

【識別番号】522382989

【氏名又は名称】イリスボンドクラウドボンディング，エス．エレ．

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】マルティネス，アルベルトカロ

【審査官】井上香緒梨

(56)【参考文献】

【文献】国際公開第２００５／００６２５１（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１９／０２１２８１５（ＵＳ，Ａ１）

【文献】韓国公開特許第１０－２０１９－００８５４６６（ＫＲ，Ａ）

【文献】LEARNING TO FIND EYE REGION LANDMARKS FOR REMOTE GAZE ESTIMATION IN UNCONSTRAINED SETTINGS，EYE TRACKING RESEARCH & APPLICATIONS，2018年06月14日

【文献】MPIIGAZE: REAL-WORLD DATASET AND DEEP APPEARANCE-BASED GAZE ESTIMATION，IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE，2017年11月24日

【文献】視線変化の観測に基づく監視者の意図推定 Estimation of Human Observer's Intention Based on Gaze Detection，第１７回日本ロボット学会学術講演会予稿集第１分冊１９９９年 Proceedings of the 17th Annual Conference of the Robotics Society of Japan Volume1，1999年09月09日，p.409～410

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０３３－３／０３９

Ｇ０６Ｆ３／０４８－３／０４８９５

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｔ１／００

(57)【特許請求の範囲】

【請求項1】

コンピュータデバイスによりスクリーン（１５１）の上の第１の視点の位置を特定するための方法であって、前記方法は、
●少なくとも第１の画像（３００）の取得（２１０）を開始することと、
●前記第１の画像（３００）中の第１の顔ランドマークの第１の顔ランドマークロケーション（３０１）の位置特定（２２０）を開始することと、
●前記第１の画像（３００）中の第２の顔ランドマークの第２の顔ランドマークロケーション（３０２）の位置特定（２３０）を開始することと、
●前記第１の画像（３００）中の第１の関心領域（３１０）の選択（２４０）を開始することであって、前記第１の関心領域（３１０）の前記選択が、少なくとも前記第１の顔ランドマークロケーション（３０１）および前記第２の顔ランドマークロケーション（３０２）を使用することによって実施される、第１の関心領域（３１０）の選択（２４０）を開始することと、
●第１の視線ベクトルの構築（２５０）を開始することであって、前記第１の視線ベクトルの前記構築が、少なくとも人工ニューラルネットワークを用いて実施され、前記人工ニューラルネットワークが、入力として少なくとも前記第１の関心領域（３１０）を使用する、第１の視線ベクトルの構築（２５０）を開始することと、
●前記スクリーン（１５１）の上の前記第１の視点の位置特定（２５０）を開始することであって、前記第１の視点の前記位置特定が、少なくとも前記第１の視線ベクトルを用いて実施され、前記スクリーン（１５１）の上の前記第１の視点の前記位置特定が、カルマンフィルタを用いて実施される、前記第１の視点の位置特定（２５０）を開始することと
を行うステップを少なくとも含む、方法。

【請求項2】

前記人工ニューラルネットワークが、前記第１の関心領域（３１０）において、少なくとも第１の眼ランドマークの第１の眼ランドマークロケーション（４０３）および第２の眼ランドマークの第２の眼ランドマークロケーション（４０４）を検出する、請求項１に記載の方法。

【請求項3】

前記視線ベクトルの前記構築が、サポートベクトル回帰アルゴリズムを用いて実施され、前記サポートベクトル回帰アルゴリズムが、入力として少なくとも前記第１の眼ランドマークロケーション（４０３）および前記第２の眼ランドマークロケーション（４０４）を使用する、請求項２に記載の方法。

【請求項4】

前記人工ニューラルネットワークが、砂時計ニューラルネットワークである、請求項１から３のいずれか一項に記載の方法。

【請求項5】

●頭姿勢推定ベクトルの構築を開始することであって、前記頭姿勢推定ベクトルの前記構築が、少なくとも前記第１の顔ランドマークロケーション（３０１）および前記第２の顔ランドマークロケーション（３０２）を使用することによって実施される、頭姿勢推定ベクトルの構築を開始すること
を行うステップをさらに含み、
前記スクリーン（１５１）の上の前記第１の視点の前記位置特定が、前記頭姿勢推定ベクトルに基づく、
請求項１から４のいずれか一項に記載の方法。

【請求項6】

前記頭姿勢推定ベクトルの前記構築が、少なくとも３次元顔モデルを用いて実施され、前記３次元顔モデルが、入力として少なくとも前記第１の顔ランドマークロケーション（３０１）および前記第２の顔ランドマークロケーション（３０２）を使用する、請求項５に記載の方法。

【請求項7】

●少なくとも第２の画像の取得を開始することと、
●前記第２の画像中の前記第１の顔ランドマークの第３の顔ランドマークロケーションの位置特定を開始することと、
●前記第１の画像（３００）中の前記第１の顔ランドマークの第４の顔ランドマークロケーションの推定を開始することであって、前記第４の顔ランドマークロケーションの前記推定が、オプティカルフロー式、および前記第３の顔ランドマークロケーションを用いて実施される、第４の顔ランドマークロケーションの推定を開始することと、
●前記第１の画像（３００）中の前記第１の顔ランドマークの第５の顔ランドマークロケーションの検出を開始することと
を行うステップをさらに含み、
前記第１の画像（３００）中の前記第１の顔ランドマークロケーション（３０１）の前記位置特定が、前記第４の顔ランドマークロケーション、および前記第５の顔ランドマークロケーションに基づく、
請求項１から６のいずれか一項に記載の方法。

【請求項8】

前記第１の画像（３００）中の前記第１の顔ランドマークロケーション（３０１）の前記位置特定が、ランドマーク距離に基づき、前記ランドマーク距離が、前記第３の顔ランドマークロケーションと前記第４の顔ランドマークロケーションとの間の距離である、請求項７に記載の方法。

【請求項9】

前記第１の顔ランドマークロケーション（３０１）が、前記第４の顔ランドマークロケーションと前記第５の顔ランドマークロケーションとの間の重み付き平均に等しい、請求項７または８に記載の方法。

【請求項10】

●前記スクリーン（１５１）の上の第２の視点の位置特定を開始することであって、前記第２の視点の前記位置特定が、少なくとも前記第１の視線ベクトルを用いて実施される、第２の視点の位置特定を開始すること
を行うステップをさらに含み、
前記スクリーン（１５１）の上の前記第１の視点の前記位置特定が、前記第２の視点を用いて実施される、
請求項１から９のいずれか一項に記載の方法。

【請求項11】

前記スクリーン（１５１）の上の前記第２の視点の前記位置特定が、較正関数を用いて実施され、前記較正関数が、少なくとも較正視点のロケーション、および前記較正視点の前記ロケーションの推定値に依存する、請求項１０に記載の方法。

【請求項12】

前記スクリーン（１５１）の上の前記第１の視点の前記位置特定が、第３の視点およびプロセスノイズの共分散行列を用いて実施され、前記プロセスノイズの前記共分散行列が、複数のエントリを備え、前記エントリが、前記第１の視点と前記第３の視点との間の距離の単調増加関数である、請求項１０に記載の方法。

【請求項13】

請求項１から１２のいずれか一項に記載の方法を実施するように構成されたプロセッサ（１１０）を少なくとも備える、データ処理システム（１００）。

【請求項14】

コンピュータデバイスによって実行されたとき、前記コンピュータデバイスに請求項１から１２のいずれか一項に記載の方法を実行させる命令を備える、コンピュータプログラム。

【請求項15】

コンピュータデバイスによって実行されたとき、前記コンピュータデバイスに請求項１から１２のいずれか一項に記載の方法を実行させる命令を備える、コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、スクリーンの上の、たとえば、コンピューティングデバイスのディスプレイユニットの上の視点の位置を特定するための視線追跡方法および視線追跡デバイスの分野に言及する。本発明によれば、コンピューティングデバイスは、たとえば、パーソナルコンピュータ、タブレット、ラップトップ、スマートフォン、ビデオゲームコンソール、カメラ、ヘッドマウントディスプレイ（ＨＭＤ）、スマートテレビなどであり得る。

【背景技術】

【0002】

視線追跡方法は、人間コンピュータ対話において広く使用されている。上記方法を実装するコンピュータプログラムは、ユーザの視点を追跡することが可能であり、したがって、コンピューティングデバイスのディスプレイユニットの上の特定のロケーションを単に見ることによって、従来の入力デバイス（キーボード、マウスデバイス、タッチパッドなど）を使用することなしにコンピューティングデバイスに入力を提供することが可能になる。たとえば、ユーザは、手を使用する必要なしにコンピュータのグラフィカルユーザインターフェース（ＧＵＩ）に入力を提供し得、それにより、たとえば、運動障害をもつユーザがコンピュータとうまく対話することができるようにする。

【0003】

視線追跡のための方法はまた、複雑なシステムの組立または保守において使用される。そのような組立または保守タスクを実施するオペレータは、しばしば、ＨＭＤ、特に、コンピュータグラフィックス技術を用いてオペレータの自然視を拡張する拡張現実ＨＭＤを使用する。視線追跡方法を実装するＨＭＤは、オペレータによってハンズフリー制御され得、したがって、両手をタスクのために利用可能にする。

【0004】

視線追跡方法は、自動車産業においても重要である。たとえば、これらの方法は、運転支援システムにおいて実装され得、これにより、ドライバが道路に注意を支払っているかどうか、たとえば、彼／彼女が車のフロントガラスを通して見ているかどうかを確かめるために、彼／彼女の視線を追跡することが可能になる。たとえば、視線追跡方法を実装する運転支援システムは、ドライバが車両リアビューカメラのスクリーンを見ているかどうかを検出し、必要とされるときのみ、換言すれば、ドライバがスクリーンを見ているときのみ、上記カメラをアクティベートすることが可能である。

【0005】

視線追跡のための方法はまた、ドライバと車両のソフトウェアとの間のハンズフリー対話を可能にし得、そのため、ドライバは、ハンドルから彼女／彼の手を離すことなしに車両のソフトウェアに命令を与え得る。ドライバは、これにより、単に特定の方向を見ることによって、ソフトウェアに、車両ライトの強さを調節すること、ドアをロック／アンロックすること、車両速度を制御することなど、特定のアクティビティを実施するように命令し得る。

【0006】

スクリーンの上の視点の位置を特定するための視線追跡方法が、当技術分野で知られている。知られている視線追跡方法は、視線追跡方法が、赤外線（ＩＲ）カメラ、着用可能なハードウェア構成要素および眼追跡眼鏡など、専用のハードウェア構成要素に、またはユーザに依存する較正手順に依拠する場合のみ、相対的に高い精度を達成し得る。たとえば、ＩＲカメラを使用する方法は、０．５°程度の精度に達し得る。しかしながら、そのような専用のハードウェア構成要素は、比較的高価であり、ラップトップおよびスマートフォンなど、主流のコンピューティングデバイスには存在しない。その上、着用可能なハードウェア構成要素は、使用するのが不快で、ユーザの易動度を妨げ得る。代わりに、較正手順は、時間がかかり、視線追跡のための知られている方法を実装するデバイスの有用性、ひいては、デバイスの実用性を制限する。

【0007】

一般に、知られている視線追跡方法は、実世界動作条件下での、たとえば、専用のハードウェア構成要素の不在下での、および／または眼外観、照明、頭姿勢、カメラの技術仕様、画像品質などの相対的に広い変動性によって特徴づけられる状況下での限られた精度という欠点がある。

【発明の概要】

【0008】

これらの問題は、本出願の本発明によって少なくとも部分的に解決され、本出願の本発明は、請求項１に記載のコンピュータ実装方法に、請求項１４に記載のデバイスに、請求項１５に記載のコンピュータプログラム製品に、および請求項１６に記載のコンピュータ可読記憶媒体に関する。本発明の実施形態は、従属請求項の主題である。

【0009】

本発明は、スクリーンの上の第１の視点の位置を特定するためのコンピュータ実装方法であって、方法は、
●少なくとも第１の画像の取得を開始することと、
●第１の画像中の第１の顔ランドマークの第１の顔ランドマークロケーションの位置特定を開始することと、
●第１の画像中の第２の顔ランドマークの第２の顔ランドマークロケーションの位置特定を開始することと、
●第１の画像中の第１の関心領域の選択を開始することであって、第１の関心領域の選択が、少なくとも第１の顔ランドマークロケーションおよび第２の顔ランドマークロケーションを使用することによって実施される、第１の関心領域の選択を開始することと、
●第１の視線ベクトルの構築を開始することであって、第１の視線ベクトルの構築が、少なくとも人工ニューラルネットワークを用いて実施され、人工ニューラルネットワークが、入力として少なくとも第１の関心領域を使用する、第１の視線ベクトルの構築を開始することと、
●スクリーンの上の第１の視点の位置を特定することを開始することであって、第１の視点の位置特定が、少なくとも第１の視線ベクトルを用いて実施される、第１の視点の位置を特定することを開始することと
を行うステップを少なくともふくむ、コンピュータ実装方法に関係する。

【0010】

スクリーンは、凹表面または凸表面であり得る。特に、スクリーンは、実質的に平坦な表面、たとえば、キャンバス、ガラスパネルおよび／または車両のフロントガラスなど、パネルであり得る。スクリーンは、コンピューティングデバイスのディスプレイユニットであり得る。たとえば、スクリーンは、コンピューティングデバイスのモニタまたはスクリーン、たとえば、ＧＵＩおよび／またはデータ、特に、画像の形態のデータがその上に表示される、コンピューティングデバイスの実質的に平坦なエリアであり得る。スクリーン上の点は、スクリーンの上に定義された２次元参照フレーム中の２次元スクリーン座標によって表現され得る。スクリーン座標は、特に、デカルト座標または極座標であり得る。たとえば、スクリーンの点のスクリーンロケーションは、スクリーン上の点を、たとえば、スクリーンの左上隅を中心とするスクリーン参照フレームに関する２次元スクリーン座標（ａ，ｂ）によって表される。

【0011】

本発明によれば、画像は、ベクトル画像またはピクセルの２次元格子、たとえば、ピクセルの矩形格子であり得る。特に、画像中のピクセルのロケーションは、画像中のロケーションの２次元画像座標によって一義的に決定され得、上記座標は、ピクセルの２次元格子中の上記ピクセルのロケーションを表す。２次元画像座標は、画像の面中の、たとえば、ピクセルの格子を備える面中の２次元参照フレームに関するデカルト座標または極座標であり得る。たとえば、ピクセルの２次元画像座標は、第１の画像の画像面参照フレーム中のピクセルの座標である。

【0012】

特に、第１の画像は、ピクセルの第１の２次元格子、たとえば、ピクセルの第１の矩形格子である。第１の２次元格子のエントリは、列および行中に配列され得、各列および各行がそれぞれ列番号および行番号に関連付けられるというやり方で、昇順で列挙され得る。特に、第１の画像中の各ピクセルのロケーションは、ピクセルが属する行の行番号

に、およびピクセルが属する列の列番号

によって一義的に決定され得る。これにより、第１の画像中の上記ピクセルの２次元画像座標は、２次元ベクトル

であり得る。たとえば、第１の画像のピクセルの２次元画像座標は、第１の画像の画像面参照フレーム中のピクセルの座標である。

【0013】

画像、たとえば、第１の画像は、少なくともビットマップによって符号化され得る。画像または画像の一部分を符号化するビットマップは、上記画像または上記画像の部分の各ピクセルの色を指定するビットのアレイを備える、たとえば、ビットのアレイからなり得る。ビットマップは、アレイのエントリがカラーテーブル上にインデックス付けされるように、パレットインデックス付けされ得る。アレイのエントリは、ピクセルの色を符号化するビットを記憶し得る。特に、ビットマップは、ピクセルの２次元格子を表すドットマトリックスデータ構造を備える、たとえば、ドットマトリックスデータ構造からなり得る。ビットマップは、ピクセル当たりのビットの数、ピクセルの２次元格子の行当たりのピクセルの数および／または上記矩形格子の列当たりのピクセルの数に関係する情報をさらに備え得る。画像ビューアは、コンピューティングデバイスの、たとえば、本発明の方法を行うコンピューティングデバイスのスクリーン上に画像または画像の部分をレンダリングするために、ビットマップで符号化された情報を使用し得る。

【0014】

画像、たとえば、第１の画像は、コンピューティングデバイスの、たとえば、本発明の方法を行うコンピューティングデバイスの１次メモリにおよび／または２次メモリに記憶され、特に、一時的に記憶され得る。本発明によれば、画像は、上記画像が記憶されたメモリにアクセスすることによって取得され得る。代替的に、または上記と併せて、画像の取得は、記録デバイス、たとえば、フォトまたはビデオカメラなど、フォトおよび／またはビデオ記録デバイスを用いて上記画像をキャプチャすることによって実施され得る。フォト記録デバイスおよび／またはビデオ記録デバイスは、コンピューティングデバイスに、特に、本発明の方法を行うコンピューティングデバイスに統合され得る。次いで、キャプチャされた画像は、コンピューティングデバイスの１次メモリおよび／または２次メモリに記憶され得、顔ランドマークの位置を特定するために、および／または関心領域を選択するためにアクセスされ得る。

【0015】

顔ランドマークは、特に、一般的に人間の顔の形状の特徴的な解剖学的領域をマーキングする人間の顔の形状中の点である。たとえば、顔ランドマークは、鼻の先端、口の右端または口の左端であり得る。類似的に、顔ランドマークは、他のランドマークとともにそれぞれ眉および口唇をマーキングする、上記眉のまたは上記口唇の点であり得る。

【0016】

顔ランドマークは、たとえば、眼ランドマークであり得る。眼ランドマークは、特に、他の眼ランドマークとともに眼の形状をマーキングする、上記眼の点である。たとえば、眼ランドマークは、眼の左端または右端、眼瞼の点あるいは眼球の中心であり得る。眼ランドマークは、虹彩ランドマークであり得る。特に、虹彩ランドマークは、他の虹彩ランドマークとともに虹彩の形状をマーキングする、上記虹彩の点である。たとえば、虹彩ランドマークは、虹彩の中心である。

【0017】

顔ランドマークの画像中のロケーション、たとえば、第１の顔ランドマークロケーションおよび／または第２の顔ランドマークロケーションは、特に、画像中の上記ランドマークの表現の画像中のロケーションである。たとえば、画像中で、顔ランドマークがピクセルのセットによって表される場合、顔ランドマークロケーションは、ピクセルの上記セットの参照ピクセルの、画像中のロケーションであり得る。このようにして、顔ランドマークロケーションは、この参照ピクセルの、たとえば、参照ピクセルの２次元画像座標のロケーションによって一義的に表現される。

【0018】

第１の画像中の第１の顔ランドマークのおよび／または第２の顔ランドマークの位置特定は、以下で「第１のロケーションアルゴリズム」と呼ばれる、Ｖ．Ｋａｚｅｍｉｅｔａｌを著者とする論文「ＯｎｅＭｉｌｌｉｓｅｃｏｎｄＦａｃｅＡｌｉｇｎｍｅｎｔｗｉｔｈａｎＥｎｓｅｍｂｌｅｏｆＲｅｇｒｅｓｓｉｏｎＴｒｅｅｓ」、ＤＯＩ：１０．１１０９／ｃｖｐｒ．２０１４．２４１に開示されているアルゴリズムを用いて実施され得る。上記アルゴリズムは、回帰ツリーの集合を備える。

【0019】

特に、第１のロケーションアルゴリズムは、ｎ_０個の顔ランドマークのセットの位置を特定することを可能にし、上記セットは、第１のランドマークおよび第２のランドマークを少なくとも備える。たとえば、ｎ_０は、２から１９４の間に、特に、３０から１３０の間にある。その上、ｎ_０は、５０から１００の間にあり得、より詳細には、６または６８のいずれかに等しい。

【0020】

顔ランドマークの、たとえば、眼球中心または虹彩中心の３次元ロケーションは、３次元空間中の上記ランドマークの位置である。たとえば、顔ランドマークの３次元ロケーションは、カメラ参照フレーム中のこのランドマークの３次元座標を表す３次元ベクトルによって表される。特に、上記３次元座標は、第１の画像を取得するカメラに関連するカメラマトリックスの逆数を介して、第１の画像の画像面参照フレーム中のランドマークの２次元画像座標から得られ得る。

【0021】

第１の関心領域（ＲＯＩ）は、第１の眼または第１の眼の一部分を少なくとも備え得る。第１のＲＯＩは、第１の画像のピクセルのセットによって表される。特に、第１のＲＯＩは、第１の画像のピクセルの２次元格子、より詳細には、第１の画像のピクセルの矩形格子である。第１のＲＯＩは、少なくとも第１のビットマップによって符号化され得る。

【0022】

たとえば、第１の顔ランドマークが鼻の先端であり、第２のランドマークが左眉の点である場合、第１のＲＯＩは、第２のランドマークの行から第１のランドマークの行の間にある行のピクセルからなり得る。その上、第１の顔ランドマークおよび第２の顔ランドマークが、それぞれ、左眼の左端および右端である場合、第１のＲＯＩは、整数Ｃ_１＝Ｃ_ＦＬ１－Ｅから整数Ｃ_２＝Ｃ_ＦＬ２＋Ｅの間の範囲にある列番号をもつピクセルからなり得、Ｃ_ＦＬ１およびＣ_ＦＬ２は、それぞれ、第１の顔ランドマークの列番号および第２の顔ランドマークの列番号である。たとえば、Ｅは、５から１５の間の範囲に、特に、８から１２の間の範囲にある数である。より詳細には、整数Ｅは、１０に等しいことがある。

【0023】

第１のＲＯＩ中のピクセルのロケーションは、第１のＲＯＩを表すピクセルの２次元格子中の上記ピクセルのロケーションを表す２次元座標によって一義的に決定され得る。その上、第１の２次元格子中のピクセルのロケーションは、第１の画像の面中の２次元参照フレームに関するデカルト座標または極座標によって表現され得る。

【0024】

第１のＲＯＩの選択は、第１のＲＯＩについての情報を記憶することを備え得る。第１のＲＯＩについての情報は、第１のＲＯＩのピクセルの色および第１のＲＯＩ中の上記ピクセルのロケーションについての情報を備え得る。第１のＲＯＩについての情報は、特に、第１のビットマップ中にある。第１のＲＯＩの選択は、第１のＲＯＩについての情報を記憶するビットのメモリアドレスを備えるデータを記憶することをふくみ得る。たとえば、上記ビットは、第１の画像を符号化するビットマップ中に配列され得る。上記データおよび／または第１のＲＯＩについての情報は、コンピューティングデバイスの、たとえば、本発明の方法を行うコンピューティングデバイスの１次メモリおよび／または２次メモリに記憶され、たとえば、一時的に記憶され得る。

【0025】

第１のＲＯＩについての情報が、検索され、正しく解釈され得る限り、任意の構造フォーマットが、上記情報を符号化するために使用され得る。たとえば、第１のＲＯＩのピクセルのロケーションについての情報は、上記情報が、第１のＲＯＩのピクセルの各々のロケーションを正しく得るのに十分である限り、第１のＲＯＩ中にあるピクセルのうちのいくつかのロケーションを指定し得る。たとえば、第１のＲＯＩが、第１の画像の矩形格子である場合、上記格子の頂点のロケーションについての情報は、第１のＲＯＩのピクセルの各々のロケーションを得るのに十分である。

【0026】

特に、第１の視線ベクトルは、第１のＲＯＩ中に含まれている眼が見ている３次元方向を推定する。第１の視線ベクトルは、デカルト座標、球面座標または円筒形座標で表現され得る３次元単位ベクトルであり得る。たとえば、第１の視線ベクトルは、第１のＲＯＩ中に含まれている眼の眼球中心のまたは虹彩中心の３次元ロケーションに関する球面座標で表現され得る。この場合、第１の視線ベクトルは、極角および方位角によって表現され得る。

【0027】

特に、人工ニューラルネットワーク（ＡＮＮ）は、ＡＮＮ入力をＡＮＮ出力にマッピングする、および各ノードが入力を出力にマッピングする複数の相互接続されたノードを備える、計算モデルである。特に、ＡＮＮのノードは、各ノードについて、上記各ノードの入力が別のノードの出力を備え、および／または上記各ノードの出力が別のノードの入力の一部であるように、互いに相互接続される。たとえば、ＡＮＮの汎用ノードの出力は、ＡＮＮ出力の、および／または別のノードの入力の一部である。特に、ＡＮＮの汎用ノードのノード入力は、１つまたは複数のデータ項目を備え、各データ項目は、別のノードの出力またはＡＮＮ入力のデータ項目のいずれかである。

【0028】

たとえば、ＡＮＮの各ノードは、ノードに依存し得るアクティブ化関数を用いてノードの入力をノードの出力にマッピングし得る。一般的には、ノードのアクティブ化関数は、上記ノードの入力のデータ項目を重み付けする１つまたは複数の重みに依存し得る。

【0029】

特に、ＡＮＮのノードの出力は、しきい値に依存し得る。たとえば、ノードの出力は、上記ノードの入力において評価されたアクティブ化関数の値が、しきい値よりも大きいのか、しきい値に等しいのか、しきい値未満であるのかに依存する。

【0030】

たとえば、ＡＮＮは、ＶＧＧ－１６ニューラルネットワークまたはＭｎｉｓｔＮｅｔニューラルネットワークであり得る。ＡＮＮは、ＡｌｅｘＮｅｔなど、畳み込みニューラルネットワークであり得る。たとえば、ＡＮＮは、敵対的生成ネットワークの一部であり得る。

【0031】

ＡＮＮの重みの値は、少なくとも訓練データセットを用いてＡＮＮを訓練することによって得られ得る。訓練中、重みの値は、一般的に、ＡＮＮ、ＡＮＮ入力、ＡＮＮ出力、および／またはバイアスの重みに依存するコスト関数の値を最小にするように、反復的に調整される。たとえば、訓練データセットは、ＳｙｎｔｈｅｓＥｙｅｓデータセットまたはＵｎｉｔｙＥｙｅｓデータセットなど、ＭＰＩＩＧａｚｅまたは視線キャプチャデータセットまたは合成データセットであり得る。

【0032】

ＡＮＮの性能は、訓練中にデータ拡張を使用することによって改善され得る。たとえば、訓練データセットは、訓練データセットのデータの少なくとも一部を拡張することによって拡大され得る。データ拡張は、訓練データセット中にある画像のうちの少なくともいくつかを平行移動および／または回転させることによって実施され得る。訓練データセットの画像のうちの少なくともいくつかは、画像の強さを変化させることによって、および／または画像に線または障害物を追加することによって拡張され得る。

【0033】

ＡＮＮ入力は、入力画像または入力画像の一部分の複数のピクセルについての情報を含み得る。たとえば、ＡＮＮ入力は、上記ピクセルの位置および色についての情報を含む。特に、ピクセルの位置についての情報は、入力画像の面中の２次元参照フレームに関するピクセルの２次元座標で符号化され得る。

【0034】

第１の視線ベクトルの構築時、ＡＮＮは、入力として第１のＲＯＩを使用する。この場合、特に、ＡＮＮ入力は、第１のＲＯＩのピクセルの位置および色についての情報を備え、より詳細には、ＡＮＮ入力は、第１のビットマップを備えるか、または第１のビットマップからなり得る。ＡＮＮ出力は、第１の視線ベクトルを特徴づける情報、たとえば、第１の視線ベクトルの球面座標、円筒座標またはデカルト座標を備え得る。この場合、ＡＮＮは、第１の視線ベクトルを構築する。

【0035】

第１の視点の３次元ロケーションは、特に、スクリーンと第１の視線ラインとの間の交点である。第１の視線ラインは、特に、第１のＲＯＩ中に含まれている眼の眼球中心のまたは虹彩中心の３次元ロケーションと交差する、および第１の視線ベクトルに平行であるラインである。スクリーンの上の第１の視点の位置特定は、（以下で「スクリーン面」とも呼ばれる）面に関してスクリーンをモデル化することによって、および上記面と第１の視線ラインとの間の交点として第１の視点を構築することによって得られ得る。たとえば、所与の参照フレーム（たとえば、カメラ参照フレーム）中の第１の視点のロケーションの３次元座標

は、

によって与えられ、

は第１の視線ベクトルであり、

は、第１のＲＯＩ中に含まれている眼の眼球中心のまたは虹彩中心の３次元ロケーションの３次元座標である。単位ベクトル

は、スクリーン面に直交し、

は、スクリーン面の基準点の３次元ロケーションの３次元座標である。たとえば、この基準点は、スクリーンの左上隅であり得る。

【0036】

スクリーン面の基準点を中心とする３次元参照フレームに関する第１の視点の３次元座標

は、

によって与えられる。スクリーンの基準点に関するスクリーン座標は、さらなる３次元参照フレームを得るために、基準点を中心として参照フレームを適切に回転させることによって得られ得る。さらなる３次元参照フレームでは、第１の視点の３次元座標は、

によって与えられ、ここで、

は、スクリーンの基準点を中心とするスクリーン参照フレームに関する第１の視点の２次元スクリーン座標である。

【0037】

スクリーン座標は、一般的に、センチメートルなど、長さの単位で表現され、以下のようにピクセルの単位にコンバートされてもよい。

【0038】

第１のＲＯＩの選択は、ＡＮＮのための入力の選択を改善し、それにより、より正確な視線ベクトル構築をもたらし、ＡＮＮの処理負荷を低減する。第１のＲＯＩの選択、およびＡＮＮを用いた第１の視線ベクトルの構築は、実世界動作条件下で、特に、専用のハードウェア構成要素の不在下で方法の精度を改善するために、互いと相乗的に対話する。本発明の方法は、動作条件の広い範囲下で１°を下回る精度を実現し得る。

【0039】

本発明の方法の実施形態によれば、人工ニューラルネットワークは、第１のＲＯＩ中で、少なくとも第１の眼ランドマークの第１の眼ランドマークロケーションおよび第２の眼ランドマークの第２の眼ランドマークロケーションを検出する。特に、第１の視線ベクトルを構築するステップにおいてＡＮＮによって検出された眼ランドマークは、第１のＲＯＩ中に描かれた眼を再構築することを可能にする。

【0040】

特に、第１の眼ランドマークおよび第２の眼ランドマークは、それぞれ、第１のＲＯＩ中に含まれている眼の眼球中心および虹彩中心である。（以下で「眼球座標」とも呼ばれる）カメラ参照フレーム中の眼球中心の３次元座標は、第１の画像を取得するカメラのカメラマトリックスを用いて第１のＲＯＩ中の第１の眼ランドマークロケーションの２次元画像座標から構築され得る。類似的に、（以下で「虹彩座標」とも呼ばれる）カメラ参照フレーム中の虹彩中心の３次元座標は、上述のカメラマトリックスを用いて第１のＲＯＩ中の第２の眼ランドマークロケーションの２次元画像座標から構築され得る。特に、第１の視線ベクトルは、虹彩座標と眼球座標との間の差異として構築され得る。

【0041】

この場合、第１の視線ベクトルは、２つのランドマークロケーションを操作する基本代数的演算を使用することによって構築され得る。このようにして、ＡＮＮの複雑さは低減され得、方法の計算負荷は減少される。

【0042】

たとえば、この実施形態では、ＡＮＮ出力は、第１の画像中のおよび／または第１のＲＯＩ中の第１の眼ランドマークおよび第２の眼ランドマークについての情報を備える。特に、ＡＮＮ出力は、第１の画像および／または第１のＲＯＩ中の第１の眼ランドマークのおよび第２の眼ランドマークの２次元画像座標を備える。

【0043】

ＡＮＮ出力は、眼ランドマークに関連するヒートマップを少なくとも備え得る。特に、眼ランドマークに関連するヒートマップは、眼ランドマークのピクセルの色を使用することによって上記ランドマークのロケーションのピクセルごとの信頼度を表す画像である。特に、ヒートマップのピクセルは、第１のＲＯＩおよび／または第１の画像のピクセルと対応している。たとえば、この対応は、ヒートマップの各ピクセルを第１のＲＯＩおよび／または第１の画像のピクセルの上にマッピングするマッピング関数、たとえば、同形写像を使用することによって実装され得る。

【0044】

ヒートマップのピクセルの色は、ヒートマップに関連する眼ランドマークが、ヒートマップの上記ピクセルに対応する第１のＲＯＩのピクセルに位置する確率についての情報を符号化する。

【0045】

特に、眼ランドマークに関連するヒートマップのピクセルは、上記ランドマークが、ヒートマップの上記ピクセルに関連する第１のＲＯＩのピクセルに位置する、ピクセルごとの信頼度、たとえば、尤度または確率を符号化する。たとえば、ヒートマップのピクセルがより暗いほど、眼ランドマークが、ヒートマップの上記ピクセルに対応する第１のＲＯＩのピクセルに位置する可能性が高い。

【0046】

たとえば、眼ランドマークの第１のＲＯＩ中のロケーションは、眼ランドマークに関連するヒートマップの第１の領域中のピクセルに対応する、第１のＲＯＩのピクセルのロケーションであり得る。特に、第１の領域は、眼ランドマークがその中に位置する可能性が最も高い、たとえば、ピクセルごとの信頼度がその中で最も大きい値をとる、ヒートマップの領域である。この場合、特に、上記眼ランドマークの第１のＲＯＩ中のロケーションは、ランドマークに関連するヒートマップの第１の領域中のピクセル、および上記で説明されたマッピング関数を使用することによって検出される。

【0047】

本発明の一実施形態では、ＡＮＮは、第１のＲＯＩ中で、第１の眼境界ランドマークロケーションから第８の眼境界ランドマークロケーションに及ぶ少なくとも８つの眼境界ランドマークロケーションをさらに検出する。特に、眼境界ランドマークは、眼の、たとえば、眼瞼のまたは眼の端の外部境界の点である。

【0048】

本発明の方法のさらなる実施形態では、ＡＮＮは、第１のＲＯＩ中で、第１の虹彩境界ランドマークロケーションから第８の虹彩境界ランドマークロケーションに及ぶ少なくとも８つの虹彩境界ランドマークロケーションを検出する。たとえば、虹彩境界ランドマークは、眼の角膜縁の、換言すれば、虹彩強膜境界の点である。

【0049】

たとえば、ＡＮＮ出力は、第１のヒートマップ、第２のヒートマップ、および第３から第１８に及ぶ１６個のさらなるヒートマップを備える。特に、第３のヒートマップから第１０のヒートマップの各々は、異なる眼境界ランドマークが、異なるヒートマップに関連するというやり方で、第１の眼境界ランドマークから第８の眼境界ランドマークのうちの１つのロケーションのピクセルごとの信頼度を符号化する。その上、第１１のヒートマップから第１８のヒートマップの各々は、異なる虹彩境界ランドマークが、異なるヒートマップに関連するというやり方で、第１の虹彩境界ランドマークから第８の虹彩境界ランドマークのうちの１つのロケーションのピクセルごとの信頼度を符号化し得る。

【0050】

虹彩中心の、眼球中心の、８つの眼境界ランドマークの、および８つの虹彩境界ランドマークの、第１のＲＯＩ中のロケーションは、ｓｏｆｔ－ａｒｇｍａｘ層を用いて上述の１８個のヒートマップを処理することによって得られ得る。

【0051】

たとえば、ＡＮＮは、以下のコスト関数、すなわち、

を使用することによって訓練され得、Ｍ_ｊ（ｓ）は、入力として訓練データセットの訓練ＡＮＮ入力ＩＮを使用することによってＡＮＮによって計算された、第ｊのヒートマップのピクセルｓにおける値である。

は、訓練ＡＮＮ入力ＩＮに関連するグランドトゥルースの第ｊのヒートマップの値である。スケールファクタλは、０．１から１０の間に、特に０．５から５の間にある。より詳細には、ファクタλは、１に等しい。たとえば、Ｎ_ｈは、１から２０の間にあり得、より詳細には、２または１８に等しいことがある。

【0052】

本発明の別の実施形態によれば、視線ベクトルの構築は、サポートベクトル回帰（ＳＶＲ）アルゴリズムを用いて実施され、ＳＶＲアルゴリズムは、入力として少なくとも第１の眼ランドマークロケーションおよび第２の眼ランドマークロケーションを使用する。これは、特に、眼の眼球のモデルに依拠する必要なしに、視点ロケーションの精度を改善することを可能にする。

【0053】

ＳＶＲアルゴリズムは、眼球ピッチおよびヨーならびに／または第１の視線ベクトルの球面座標の極角および方位角を推定することによって第１の視線ベクトルを構成することを可能にし得る。特に、ＳＶＲアルゴリズムは、入力として、第１の眼ランドマークロケーションおよび第２の眼ランドマークロケーションを備える特徴ベクトルを使用する。特徴ベクトルは、８つの虹彩境界ランドマークロケーションおよび８つの眼境界ランドマークロケーションをさらに備え得る。

【0054】

特徴ベクトルは、第１の画像または第１のＲＯＩ中の眼球中心ロケーションを第１の画像または第１のＲＯＩ中の虹彩中心ロケーションに接続するベクトルであり得、後者のロケーションのほうへ向けられた、前の２次元視線ベクトルをも備え得る。前の視線ベクトルの存在は、特に、上記アルゴリズムが、相対的に少数の訓練サンプル、たとえば、約２０個の訓練サンプルを使用することによって訓練される場合、ＳＶＲアルゴリズムの精度を著しく増加する。

【0055】

視線推定の精度を改善するために、特徴ベクトルの少なくとも一成分、たとえば、特徴ベクトルの成分の各々が、眼の幅に、換言すれば、第１の画像または第１のＲＯＩ中に含まれている眼の左端ロケーションと右端ロケーションとの間の距離に正規化され得る。その上、特徴ベクトル中にある顔ランドマークロケーションおよび、存在する場合、前の２次元視線ベクトルは、第１の画像の面中の２次元参照フレームに関してデカルト座標または極座標で表現され得、上記参照フレームの原点は、眼球中心ロケーションである。

【0056】

ＳＶＲアルゴリズムは、異なる人物を含んでいる画像から得られた訓練特徴ベクトルの相対的に大きいセットを使用することによって、ユーザに依存しないやり方で訓練され得る。ＳＶＲアルゴリズムは、特定のユーザを含んでいる訓練画像から得られた訓練特徴ベクトルの相対的に小さいセットを使用することによって、ユーザに依存するやり方で訓練されてもよい。たとえば、訓練画像および対応する訓練特徴ベクトルは、ユーザにスクリーン上の所定のロケーションを見るように求めることによって、およびユーザがこれらのロケーションを見ている間に、ユーザの顔を描く画像を取得する（たとえば、キャプチャする）ことによって得られ得る。

【0057】

本発明による方法の一実施形態では、人工ニューラルネットワークは、砂時計ニューラルネットワーク（ＨＡＮＮ）である。

【0058】

ＨＡＮＮは、入力画像のまたは入力画像の部分の異なるスケールにわたって情報を集めることを可能にする。特に、ＨＡＮＮは、入力特徴を出力特徴にマッピングする１つまたは複数の砂時計モジュールを備える。特に、砂時計モジュールは、砂時計モジュールの出力特徴が、別の砂時計モジュールの入力特徴をなすように、直列に積み重ねられる。砂時計モジュールのノードは、層中に配列され、畳み込み層および最大プーリング層が、解像度を減少させることによって入力特徴を変更するというやり方で構成される。各最大プーリングステップにおいて、モジュールは、分岐し、元の予めプールされた解像度においてさらなる畳み込みを適用する。最小解像度に達した後、砂時計モジュールは、アップサンプリングによっておよびスケールにわたる特徴を組み合わせることによって解像度を増加させる。

【0059】

一般的に人間姿勢推定のために確保される、視線ベクトル構築における砂時計人工ニューラルネットワークの使用は、スクリーンの上の第１の視点のロケーションの精度の驚くべき改善をもたらす。

【0060】

本発明のさらなる実施形態によれば、第１の顔ランドマークは第３の眼ランドマークであり、および／または第２の顔ランドマークは第４の眼ランドマークである。この場合、第１の顔ランドマークロケーションおよび第２の顔ランドマークロケーションは、それぞれ、第３の眼ランドマークロケーションおよび第４の眼ランドマークロケーションである。

【0061】

２つの眼ランドマークの検出は、第１のＲＯＩの選択の精度を改善することを可能にし、それにより、ＡＮＮの入力に供給される入力の品質、および最終的に、第１の視線ベクトルの構築の精度を改善する。

【0062】

本発明の方法のさらなる実施形態は、第１の画像中での、第５の眼ランドマークの第５の眼ランドマークロケーションの、第６の眼ランドマークの第６の眼ランドマークロケーションの、第７の眼ランドマークの第７の眼ランドマークロケーションの、および第８の眼ランドマークの第８の眼ランドマークロケーションの位置特定を開始するステップをふくむ。この実施形態では、第１のＲＯＩの選択は、第３の眼ランドマークロケーション、第４の眼ランドマークロケーション、第５の眼ランドマークロケーション、第６の眼ランドマークロケーション、第７の眼ランドマークロケーション、および第８の眼ランドマークロケーションを使用することによって実施される。

【0063】

この場合、たとえば、第１のＲＯＩは、整数Ｃ_３からＣ_４の間にある列番号をもち、整数Ｒ_３からＲ_４の間にある行番号をもつピクセルからなり得、Ｃ_３、Ｃ_４、Ｒ_３およびＲ_４は、以下の関係、すなわち、
Ｃ_３＝ｍｉｎ（Ｓ_ｅ，ｘ）－Ｅ、Ｃ_４＝ｍａｘ（Ｓ_ｅ，ｘ）＋Ｅ、Ｒ_３＝ｍｉｎ（Ｓ_ｅ，ｙ）－Ｅ、Ｒ_４＝ｍａｘ（Ｓ_ｅ，ｙ）＋Ｅ（４）
を満たし、Ｓ_ｅ，ｘ＝｛ｘ_ｅ，３，ｘ_ｅ，４，ｘ_ｅ，５，ｘ_ｅ，６，ｘ_ｅ，７，ｘ_ｅ，８｝およびＳ_ｅ，ｙ＝｛ｙ_ｅ，３，ｙ_ｅ，４，ｙ_ｅ，５，ｙ_ｅ，６，ｙ_ｅ，７，ｙ_ｅ，８｝である。座標（ｘ_ｅ，３，ｙ_ｅ，３）、（ｘ_ｅ，４，ｙ_ｅ，４）、（ｘ_ｅ，５，ｙ_ｅ，５）、（ｘ_ｅ，６，ｙ_ｅ，６）、（ｘ_ｅ，７，ｙ_ｅ，７）、および（ｘ_ｅ，８，ｙ_ｅ，８）は、第１のＲＯＩを選択するために使用される６つの眼ランドマークロケーションの２次元画像座標を意味する。表現式ｍｉｎ（Ｓ）およびｍａｘ（Ｓ）は、それぞれ、汎用セットＳの最小値および最大値を意味する。

【0064】

驚くべきことに、６つの眼ランドマークロケーションを用いた第１のＲＯＩの選択は、ＡＮＮを用いた第１の視線ベクトルの構築の精度の改善をもたらす。

【0065】

本発明の方法の一実施形態は、
●頭姿勢推定ベクトルの構築を開始することであって、頭姿勢推定ベクトルの構築が、少なくとも第１の顔ランドマークロケーションおよび第２の顔ランドマークロケーションを使用することによって実施される、頭姿勢推定ベクトルの構築を開始すること
を行うステップをさらにふくみ、
スクリーンの上の第１の視点の位置特定が、頭姿勢推定ベクトルに基づく。

【0066】

頭姿勢推定ベクトルは、特に、基準顔位置に関して第１の画像中に含まれている顔のヨー、ピッチおよびロールを計算するために必要とされる情報を少なくとも備えるベクトルである。

【0067】

第１のＲＯＩ中に含まれている眼の眼球中心のまたは虹彩中心の３次元ロケーション

は、頭姿勢推定ベクトル

に等しいことがある。特に、頭姿勢推定ベクトルは、以下、すなわち、

のように書かれ、ここで、

および

は、それぞれ、３次元世界参照フレーム中の３次元座標を３次元カメラ参照フレーム中の３次元座標に変換する、３×３回転行列および平行移動ベクトルである。たとえば、第１の画像中の第１の眼の眼中心のまたは虹彩中心のロケーションが、２次元画像座標（ｘ_０，ｙ_０）によって表される場合、３次元ベクトル

は、カメラマトリックスＣの逆数に関して、以下、すなわち、

のように書かれる。ｆ_ｘおよびｆ_ｙは、それぞれ、ｘ方向およびｙ方向における焦点距離であり、（ｃ_ｘ，ｃ_ｙ）は光心である。定数ｓは、全体的なスケールである。回転行列

平行移動ベクトル

および／または全体的なスケールｓは、特に、パースペクティブｎポイント（ＰｎＰ）問題を解くことによって計算され得る。ＰｎＰ問題は、世界参照フレーム中の３次元座標、および上記顔のｎ_１個の顔ランドマークのセットの各顔ランドマークの２次元画像座標を仮定すれば、第１の画像中に含まれている顔の姿勢を推定する問題として公式化され得る。

【0068】

ｎ_１個の顔ランドマークのセットは、第１の顔ランドマークおよび第２の顔ランドマークを備える。たとえば、ｎ_１は、２から８０の間に、特に、３から７５の間にある。その上、ｎ_１は、４から７０の間にあり得、より詳細には、６または６８のいずれかに等しい。たとえば、ｎ_１個の顔ランドマークのセットは、ｎ_０個の顔ランドマークのセットのサブセットであり、特に、ｎ_０個の顔ランドマークのセットは、ｎ_１個の顔ランドマークのセットと一致する。

【0069】

ＰｎＰ問題の解は、Ｐ３Ｐ法、ｅｆｆｉｃｉｅｎｔＰｎＰ（ＥＰｎＰ）法、直接最小二乗（ＤＬＳ）法を使用することによって得られ得る。これらの方法、特にＰ３Ｐ法は、外れ値を含んでいるデータのセットからのパラメータ推定を改善するための反復法であるランダムサンプルコンセンサス（ＲＡＮＳＡＣ）アルゴリズムによって補完され得る。

【0070】

特に、回転行列

平行移動ベクトル

および／または全体スケールｓは、直接線形変換および／またはＬｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ最適化を使用することによって計算され得る。

【0071】

頭姿勢推定ベクトルの構築は、たとえば、ユーザにスクリーンおよび／または記録デバイスに関して所与の所定の位置をとることを強いることなしに、実世界の制約がない動作条件下で第１の視点のロケーションの精度を改善することを可能にする。

【0072】

本発明による方法の別の実施形態では、頭姿勢推定ベクトルの構築は、少なくとも３次元顔モデルを用いて実施される。３次元顔モデルは、入力として少なくとも第１の顔ランドマークロケーションおよび第２の顔ランドマークロケーションを使用する。

【0073】

特に、３次元顔モデルは、入力としてｎ_２個の顔ランドマークのセットの各顔ランドマークの、第１の画像中のロケーションを使用し得、ｎ_２個の顔ランドマークのセットは、第１の顔ランドマークおよび第２の顔ランドマークを備える。たとえば、ｎ_２は、２から８０の間に、特に３から７５の間にある。その上、ｎ_２は、４から７０の間にあり得、より詳細には、６または６８のいずれかに等しい。たとえば、ｎ_２個の顔ランドマークのセットは、ｎ_１個の顔ランドマークのセットのサブセットであり、特に、ｎ_１個の顔ランドマークのセットは、ｎ_２個の顔ランドマークのセットと一致する。

【0074】

３次元モデルは、特に、入力として少なくともｎ_２個の顔ランドマークのセットの要素の顔ランドマークロケーション、特に２次元画像座標を使用することによってｎ_２個の顔ランドマークのセットの各要素の３次元座標を計算することを可能にするアルゴリズムである。３次元顔ランドマークモデルは、特に、Ｓｕｒｒｅｙ顔モデルまたはＣａｎｄｉｄｅ顔モデルであり得る。

【0075】

特に、３次元顔モデルは、回転行列

および平行移動ベクトル

を推定することを可能にし、最終的に、たとえば、式（５）および（６）を使用することによって頭姿勢推定ベクトルを計算することを可能にする。

【0076】

たとえば、ｎ_２個の顔ランドマークのセットの汎用的な第ｊの要素の、第１の画像中のロケーションが、座標（ｘ_ｆ，ｊ，ｙ_ｆ，ｊ）によって表される場合、３次元モデルは、３次元世界参照フレーム中の上記汎用要素の３次元ロケーション

を推定することを可能にする。この場合、特に、回転行列

平行移動ベクトル

および／または全体的なスケールｓは、方程式、すなわち、

を解くことによって計算される。

【0077】

３次元モデルの使用は、相対的に少ない量のランドマークロケーションからの頭姿勢推定ベクトルの信頼できる構築を可能にし、それにより、本発明の方法の処理負荷を低減する。

【0078】

本発明による方法の実施形態は、
●少なくとも第２画像の取得を開始することと、
●第２の画像中の第１の顔ランドマークの第３の顔ランドマークロケーションの位置特定を開始することと、
●第１の画像中の第１の顔ランドマークの第４の顔ランドマークロケーションの推定を開始することであって、第４の顔ランドマークロケーションの推定が、オプティカルフロー式、および第３の顔ランドマークロケーションを用いて実施される、第４の顔ランドマークロケーションの推定を開始することと、
●第１の画像中の第１の顔ランドマークの第５の顔ランドマークロケーションの検出を開始することと
を行うステップをふくむ。

【0079】

第１の画像中の第１の顔ランドマークロケーションの位置特定は、第４の顔ランドマークロケーションに、および第５の顔ランドマークロケーションに基づく。

【0080】

第１の画像中の第１の顔ランドマークロケーションの位置特定は、第４の顔ランドマークロケーションと第５の顔ランドマークロケーションとを接続するセグメントの中間点を計算することをふくみ得る。特に、第１の顔ランドマークロケーションは、第４の顔ランドマークロケーションと第５の顔ランドマークロケーションとを接続するセグメントの中間点に実質的に対応する。

【0081】

たとえば、第２の画像は、ベクトル画像またはピクセルの第２の２次元格子、たとえば、ピクセルの矩形格子である。その上、第２の画像は、少なくともビットマップによって符号化され得る。

【0082】

第２の２次元格子のエントリは、列および行中に配列され得、各列および各行がそれぞれ列番号および行番号に関連付けられるというやり方で、昇順で列挙され得る。特に、第２の画像のピクセルのロケーションは、ピクセルが属する行の行番号

に、およびピクセルが属する列の列番号

によって一義的に決定され得る。これにより、第２の画像中の上記ピクセルの２次元画像座標は、２次元ベクトル

であり得る。たとえば、第２の画像のピクセルの２次元画像座標は、第２の画像の画像面参照フレーム中のピクセルの座標である。

【0083】

第１の画像および第２の画像は、特に、異なる時刻においてキャプチャされた同じ顔を備える画像である。特に、第１の画像および第２の画像は、たとえば、記録デバイスによって取得されたビデオの２つのフレームであり得る。

【0084】

特に、第１の画像がキャプチャされた時刻ｔ_１、および第２の画像がキャプチャされた時刻ｔ_２、は、式（ｔ_１－ｔ_２）＝Δ_ｔを満たす。たとえば、Δ_ｔは、０．０２秒から０．０７秒の間の範囲にあり、特に、０．０２５秒から０．０６秒の間の範囲に、より詳細には、０．０３秒から０．０５秒の間の範囲にある。たとえば、Δ_ｔは、０．０４秒に等しいことがある。

【0085】

その上、記録デバイスが、周波数υで画像をキャプチャするために動作させられる場合、Δ_ｔは、式Δ_ｔ＝Ｎ_ｔ／υを満たす。整数Ｎ_ｔは、１から５の間の範囲に、特に、１から３の間の範囲にあり得る。より詳細には、整数Ｎ_ｔは、１に等しいことがあり、換言すれば、第１の画像は、第２の画像に直ちに連続する。周波数υは、１５Ｈｚから４０Ｈｚの間の範囲に、特に、２０Ｈｚから３５Ｈｚの間の範囲に、より詳細には、２５Ｈｚから３０Ｈｚの間の範囲にあり得る。たとえば、周波数υは、２７Ｈｚに等しいことがある。

【0086】

第２の画像の面中の２次元参照フレームおよび第１の画像の平面における２次元参照フレームは、第１の画像および第２の画像が、ボクセル、たとえば、第１の層および第２の層を備えるピクセルの３次元格子を形成するというやり方で定義され得る。この場合、ピクセルの第１の層および第２の層は、それぞれ、第１の矩形格子および第２の矩形格子である。

【0087】

ボクセル中のピクセルのロケーションは、３次元ボクセル座標（ｘ，ｙ，ｔ）によって表現され得、座標（ｘ，ｙ）は、ピクセルが属する層の２次元参照フレーム中のピクセルの２次元座標である。時間座標ｔは、ピクセルが属する層を指定する。特に、ｔ＝ｔ_１またはｔ＝ｔ_２である場合、ピクセルは、それぞれ、第１の層または第２の層に属する。

【0088】

第１の画像中のおよび／または第２の画像中の顔ランドマークのロケーションは、ボクセル中の対応する参照ピクセルのロケーションによって表現され得る。特に、上記顔ランドマークのロケーションは、参照ピクセルの３次元ボクセル座標（ｘ，ｙ，ｔ）によって表現され得る。特に、第１の画像中の顔ランドマークロケーションの時間座標はｔ_１であり、第２の画像中の顔ランドマークロケーションの時間座標はｔ_２である。

【0089】

たとえば、スクリーンの上に視点を構築するための方法は、本発明の方法を実装するデバイスの動作時間間隔中に数回実施される。特に、動作時間間隔は、視点の構築が、たとえば、ハンズフリー人間機械対話を可能にするためにその間重要と考えられる間隔である。この場合、特に、第２の画像は、時刻ｔ_２において取得され、本発明の方法を用いて、第３の顔ランドマークロケーションの位置を特定し、最終的に、スクリーンの上の視点を計算するために使用される。次いで、第３の顔ランドマークロケーションの情報は、オプティカルフロー式を用いて第１の画像中の第１のランドマークロケーションを得るために使用され得る。

【0090】

特に、第１の画像中の第４の顔ランドマークロケーションのボクセル座標（ｘ_４，ｙ_４，ｔ_１）は、以下の式、すなわち、

を満たし、（ｘ_３，ｙ_３，ｔ_２）は、第２の画像中の第３の顔ランドマークのロケーションのボクセル座標である。速度ベクトル（ｖ_ｘ，３，ｖ_ｙ，３）は、第２の画像中の第３の顔ランドマークロケーションの速度を表す。速度ベクトルは、オプティカルフロー式を使用することによって得られ得、オプティカルフロー式に従って、ボクセルロケーション（ｘ，ｙ，ｔ）にあり、速度（ｖ_ｘ，ｖ_ｙ）で移動するピクセルは、以下の制約、すなわち、
Ｉ_ｘ（ｘ，ｙ，ｔ）ｖ_ｘ＋Ｉ_ｙ（ｘ，ｙ，ｔ）ｖ_ｙ＝－Ｉ_ｔ（ｘ，ｙ，ｔ）（９）
を満たす。

【0091】

Ｉ（ｘ，ｙ，ｔ）は、ボクセル位置（ｘ，ｙ，ｔ）における強さである。Ｉ_ｘ、Ｉ_ｙおよびＩ_ｔは、それぞれ、ｘ、ｙおよびｔに関する強さの微分である。上記微分は、特に、ボクセルロケーション（ｘ，ｙ，ｔ）において評価される。特に、第２の画像中の第３の顔ランドマークのロケーションにおけるオプティカルフロー式は、以下、すなわち、
Ｉ_ｘ（ｘ_３，ｙ_３，ｔ_１）ｖ_ｘ，３＋Ｉ_ｙ（ｘ_３，ｙ_３，ｔ_１）ｖ_ｙ，３＝－Ｉ_ｔ（ｘ_３，ｙ_３，ｔ_１）（１０）
のように書かれる。

【0092】

特に、オプティカルフロー式は、時刻ｔ_２から時刻ｔ_１までの時間間隔中のシーン中の第１の顔ランドマークのロケーションの変化を予測することを可能にする。これにより、第４の顔ランドマークロケーションは、第２の画像中の第１の顔ランドマークのロケーションに基づく、第１の画像中の第１の顔ランドマークのロケーションの推定値である。

【0093】

式（９）および式（１０）は、Ｌｕｃａｓ－Ｋａｎａｄｅ法を使用することによって速度ベクトル（ｖ_ｘ，３，ｖ_ｙ，３）を計算するために使用され得る。特に、本発明による方法は、第２の画像中の複数のピクセルロケーションの位置特定を開始するステップをふくみ得る。特に、第２の画像中の複数のピクセルロケーションの各々と第３の顔ランドマークのロケーションとの間の距離、たとえば、ユークリッド距離は、上限距離（ｄ_Ｕ）よりも小さいかまたは上限距離（ｄ_Ｕ）に等しい。方法が、ボクセル座標（ｘ_ｐ，１，ｙ_ｐ，１，ｔ_１）、（ｘ_ｐ，２，ｙ_ｐ，２，ｔ_１）、．．．、（ｘ_ｐ，Ｐ），ｙ_ｐ，Ｐ），ｔ_１）を用いてＰ個のピクセルロケーションの位置を特定する場合、速度ベクトル（ｖ_ｘ，３，ｖ_ｙ，３）は、以下の方程式、すなわち、

を解くことによって計算され得る。

【0094】

連立方程式（１１）は、最小二乗手法を使用することによって解かれ得る。その上、以下の関係、すなわち、

が、満たされ得る。

【0095】

上限距離は、ピクセルの単位で表現され得、１ピクセルから１０ピクセルの間の範囲に、特に、２ピクセルから８ピクセルの間の範囲にあり得る。たとえば、上限距離は、３ピクセルから６ピクセルの間の範囲にあり得、特に、３ピクセルまたは４ピクセルに等しいことがある。

【0096】

本発明は、第２の画像中の第１のピクセルロケーションの位置特定を開始するステップをふくみ得る。特に、第２の画像中の第１のピクセルロケーションと第３の顔ランドマークロケーションとの間の距離、たとえば、ユークリッド距離は、上限距離よりも小さいかまたは上限距離に等しい。Ｌｕｃａｓ－Ｋａｎａｄｅ法に従って、速度ベクトル（ｖ_ｘ，３，ｖ_ｙ，３）は、Ｐ＝１として式（１１）を使用することによって計算され得、（ｘ_ｐ，１，ｙ_ｐ，１，ｔ_１）は、第１のピクセルロケーションのボクセル座標である。

【0097】

たとえば、第２の画像中の第３の顔ランドマークロケーションの位置特定は、第１のロケーションアルゴリズムを用いて得られ得る。その上、第１の画像中の第１の顔ランドマークの第５の顔ランドマークロケーションの検出は、たとえば、第１のロケーションアルゴリズムを用いて第１の画像中の上記ランドマークロケーションの位置を特定することによって実施され得る。

【0098】

この実施形態では、第１の画像中の第１の顔ランドマークのロケーションは、第１の顔ランドマークの以前のロケーションについての、換言すれば、第２の画像中の上記ランドマークのロケーションについての情報を一貫して含めることによって改善される。このようにして、デバイスの動作時間間隔中に集められた情報の使用は、少なくとも部分的に最適化される。

【0099】

本発明の別の実施形態では、第１の顔ランドマークロケーションは、第４の顔ランドマークロケーションと第５の顔ランドマークロケーションとの間の重み付き平均に等しい。

【0100】

特に、重み付き平均は、第１の重みｗ_１および第２の重みｗ_２を備え、第１の重みおよび第２の重みは、それぞれ、第４の顔ランドマークロケーションおよび第５の顔ランドマークロケーションを乗算する。重み付き平均は、以下、すなわち、

のようにボクセル座標によって表現され得、（ｘ_１，ｙ_１，ｔ_１）および（ｘ_５，ｙ_５，ｔ_１）は、それぞれ、第１の画像中の第１の顔ランドマークロケーションおよび第５の顔ランドマークロケーションのボクセル座標である。特に、第１の顔ランドマークロケーションは、第４の顔ランドマークロケーションと第５の顔ランドマークロケーションとの間の中間点であり、これにより、第１の顔ランドマークロケーションの座標は、ｗ_１＝ｗ_２＝１／２として式（１３）を使用することによって得られ得る。

【0101】

特に、この実施形態では、第１の画像中の第１の顔ランドマークロケーションの位置特定の精度は、重みｗ_１およびｗ_２の値が、第３の顔ランドマークロケーションおよび第５の顔ランドマークロケーションの位置特定の精度に基づく場合、改善され得る。たとえば、第２の画像中の第３の顔ランドマークロケーションの位置特定が、第１の画像中の第５の顔ランドマークロケーションの位置特定よりも正確である場合、第１の重みは、第２の重みよりも大きいことがある。代わりに、第２の画像中の第３の顔ランドマークロケーションの位置特定が、第１の画像中の第５の顔ランドマークロケーションの位置特定よりも正確でない場合、第１の重みは、第２の重みよりも小さいことがある。画像中の顔ランドマークロケーションの位置特定の精度は、特に、画像中に描かれた顔のピッチ、ヨーおよびロールに依存し得る。

【0102】

本発明の実施形態によれば、第１の画像中の第１の顔ランドマークロケーションの位置特定は、ランドマーク距離に基づき、ランドマーク距離は、第３の顔ランドマークロケーションと第４の顔ランドマークロケーションとの間の距離である。

【0103】

特に、ランドマーク距離ｄ_Ｌは、第３の顔ランドマークロケーションと第４の顔ランドマークロケーションとの間のユークリッド距離である。ランドマーク距離は、ピクセルの単位で表現され得、および／または以下、すなわち、

のように書かれ得る。

【0104】

本発明のさらなる実施形態では、第１の重みは、ランドマーク距離の単調減少関数であり、第２の重みは、ランドマーク距離の単調増加関数である。

【0105】

この実施形態によれば、重み付き和に対する第４の顔ランドマークロケーションの寄与は、ランドマーク距離が増加するにつれてよりマージナルになる。このようにして、第１の画像中の第１の顔ランドマークロケーションの位置特定の精度は、ランドマーク距離が減少するにつれて、第３の顔ランドマークロケーションを使用することによって得られた第１の顔ランドマークのロケーションの推定値である第４の顔ランドマークのロケーションの精度が減少するので、改善される。

【0106】

本発明によれば、距離の、たとえば、ランドマーク距離の単調増加関数は、特に、上記距離が増加するにつれて減少しない関数である。代わりに、距離の、たとえば、ランドマーク距離の単調減少関数は、特に、距離が減少するにつれて増加しない関数である。

【0107】

たとえば、第１の重みおよび第２の重みは、以下、すなわち、

のように書かれ、ｍｉｎ（ｄ_Ｌ，０，ｄ_Ｌ）は、ｄ_Ｌ，０とｄ_Ｌとの間の最小値を意味する。ｄ_Ｌ，０は、ピクセルの単位で表現され得、および／または１ピクセルから１０ピクセルの間の範囲にあり得る。特に、ｄ_Ｌ，０は、３ピクセルから７ピクセルの間の範囲にあり、より詳細には、ｄ_Ｌ，０は、５ピクセルに等しい。

【0108】

本発明の方法の実施形態は、
●スクリーンの上の第２の視点の位置特定を開始することであって、第２の視点の位置特定が、少なくとも第１の視線ベクトルを用いて実施される、第２の視点の位置特定を開始すること
を行うステップをふくむ。

【0109】

この実施形態では、スクリーンの上の第１の視点の位置特定は、第２の視点を用いて実施される。

【0110】

第２の視点は、特に、スクリーンと第１の視線ラインとの間の交点である。スクリーンの上の第２の視点の位置特定は、面に関してスクリーンをモデル化することによって、および上記面と第１の視線ラインとの間の交点として第２の視点を構築することによって得られ得る。

【0111】

この場合、特に、スクリーンの上の第１の視点のロケーションは、第１の視線ベクトルのみに間接的に依存し得、第１の視線ベクトルに対する第２の視点のロケーションの依存性のみによる。

【0112】

本発明の実施形態では、スクリーンの上の第２の視点の位置特定は、較正関数を用いて実施される。較正関数は、少なくとも第１の較正視点のロケーション、および第１の較正視点のロケーションの推定値に依存する。

【0113】

特に、較正関数φは、以下のように、スクリーンの上の第２の視点の２次元スクリーン座標

からスクリーンの上の第１の視点の２次元スクリーン座標

を計算することを可能にする。

【0114】

たとえば、本発明の方法は、
●少なくとも第１の較正画像の取得を開始することと、
●第１の較正画像中の顔ランドマークの顔ランドマークロケーションの位置特定を開始することと、
●第１の較正画像中のさらなる顔ランドマークのさらなる顔ランドマークロケーションの位置特定を開始することと、
●第１の較正画像中の第１のＲＯＩの選択を開始することであって、第１の較正画像中の第１のＲＯＩの選択が、少なくとも第１の較正画像中の顔ランドマークロケーションおよび第１の較正画像中のさらなる顔ランドマークロケーションを使用することによって実施される、第１のＲＯＩの選択を開始することと、
●第１の較正視線ベクトルの構築を開始することであって、第１の較正視線ベクトルの構築が、少なくともＡＮＮを用いて実施され、ＡＮＮが、入力として少なくとも第１の較正画像の第１のＲＯＩを使用する、第１の較正視線ベクトルの構築を開始することと、
●スクリーンの上の第１の較正視点のロケーションの推定値の構築を開始することであって、上記構築が、少なくとも第１の較正視線ベクトルを用いて実施される、第１の較正視点のロケーションの推定値の構築を開始することと
を行うステップを少なくともふくみ得る。

【0115】

第１の較正点のロケーションの推定値は、特に、スクリーンと較正ラインとの間の交点である。較正ラインは、特に、第１の較正画像の第１のＲＯＩ中に含まれている眼の眼球中心または虹彩中心と交差し、第１の較正視線ベクトルに平行であるラインである。スクリーンの上の第１の較正点のロケーションの推定値の構築は、面に関してスクリーンをモデル化することによって、および上記面と較正ラインとの間の交点として上記推定値を構築することによって得られ得る。

【0116】

本発明の方法は、ユーザにスクリーンの較正点を見るように促すことを開始するステップをさらにふくみ得る。特に、上記促すことは、第１の較正画像の取得の前に実施され得る。その上、方法は、第１の較正頭姿勢推定ベクトルの構築を開始するステップであって、上記ベクトルの構築が、少なくとも第１の較正画像中の顔ランドマークロケーションおよびさらなる顔ランドマークロケーションを使用することによって実施され得る、第１の較正頭姿勢推定ベクトルの構築を開始するステップをもふくみ得る。この場合、スクリーンの上の第１の較正視点の位置特定の推定値は、第１の較正頭姿勢推定ベクトルに基づき得る。較正関数はまた、第１の較正視線ベクトルに、および／または第１の較正頭姿勢推定ベクトルに依存し得る。

【0117】

特に、較正関数は、ｎ_３個の較正視点のセットの各要素のロケーションに、およびｎ_３個の較正視点のセットの各要素の上記ロケーションの推定値に依存する。たとえば、ｎ_３は、２から２０の間に、特に、３から１５の間にある。その上、ｎ_３は、４から１０の間にあり得、より詳細には、５に等しい。

【0118】

たとえば、ｎ_３個の較正視点のセットの各要素のロケーションの推定値は、第１の較正視点のロケーションの推定値の構築をもたらすステップを使用することによって得られ得る。特に、ｎ_３個の較正視点のセットの各要素のロケーションの推定値は、対応する較正視線ベクトルを、および随意に、対応する較正頭姿勢推定ベクトルを用いて構築される。たとえば、較正関数は、複数の較正視線ベクトルに、および／または複数の較正頭姿勢推定ベクトルに依存し得る。

【0119】

較正は、ユーザがスクリーンを見ている実際の状況を考慮に入れることによって第１の視点を構築することを可能にし、それにより、現実のセットアップ状況下での第１の視点のロケーションの精度を改善する。実際の状況は、たとえば、スクリーンに対するスクリーンの位置、ユーザが眼鏡を装着しているという、またはユーザが斜視の影響を受けているという事実をふくみ得る。

【0120】

たとえば、較正関数は、放射基底関数を備えるか、または放射基底関数からなり得る。特に、放射基底関数は、線形関数、または１に等しい指数をもつ多重調和スプラインであり得る。放射基底関数は、較正が相対的に低い量の較正点に基づくときでも、第１の視点のロケーションの精度の改善を可能にする。第１の入力データは、スクリーンの上の第２の視点の位置を特定するための情報を備え得る。特に、上記情報は、第２の視点の２次元スクリーン座標を備えるか、または第２の視点の２次元スクリーン座標からなり得る。代替的に、または上記と併せて、第１の入力データは、第１の視線ベクトルおよび／または頭姿勢推定ベクトルを特徴づけるための情報を備え得る。３次元ベクトル、たとえば、第１の視線ベクトルおよび頭姿勢推定ベクトルを特徴づけるための情報は、上記ベクトルの３次元座標を備えるか、または上記ベクトルの３次元座標からなり得る。

【0121】

本発明の実施形態によれば、較正関数は、少なくとも第１の較正視点のロケーションと第１の較正視点のロケーションの推定値との間の距離、たとえば、ユークリッド距離に依存する。

【0122】

第１の較正視点のロケーションと第１の較正視点のロケーションの推定値との間の距離に対する依存性は、較正が、相対的に低い量の較正点に、たとえば、１０よりも少ない、特に、６よりも少ない較正点に基づくときでも、第１の視点のロケーションの精度の改善を可能にする。

【0123】

たとえば、ｎ_３個の較正点のセットの汎用的な第ｊの要素の、スクリーンの上のロケーションが、２次元スクリーン座標（ａ_ｃ，ｊ，ｂ_ｃ，ｊ）によって表され、上記汎用要素のロケーションの推定値が、２次元スクリーン座標（ａ_ｅ，ｊ，ｂ_ｅ，ｊ）によって表される場合、較正関数は、以下、すなわち、

のように書かれ得、

は、

と

との間の距離である。特に、

である。

【0124】

ｎ_３次元マトリックス

は、マトリックス

の逆数である。特に、後者のマトリックスの汎用エントリ

は、

によって与えられる。

【0125】

式（１５）において定義されている較正関数は、驚くべき正確な較正をもたらす。

【0126】

本発明のさらなる実施形態によれば、スクリーンの上の第１の視点の位置特定は、カルマンフィルタを用いて実施される。

【0127】

特に、カルマンフィルタは、第１の視点の位置特定の精度を改善するためにスクリーン上の視点の一連の推定を使用するアルゴリズムである。たとえば、上記フィルタの第ｋの反復は、以下のように、第（ｋ－１）の推定視点の２次元スクリーン座標（ａ_ｋ－１，ｂ_ｋ－１）および速度（ｖ_{ａ，ｋ－１}，ｖ_{ｂ，ｋ－１}）によって、および第ｋの中間視点の２次元スクリーン座標

によって第ｋの推定視点の２次元スクリーン座標（ａ_ｋ，ｂ_ｋ）および速度（ｖ_ａ，ｋ，ｖ_ｂ，ｋ）を計算することを可能にする。

【0128】

マトリックスＫ_ｋは、
以下のマトリックス
Ｓ_ｋ＝Ｒ_ｋ＋Ｈ_ｋ［Ｆ_ｋＰ_{ｋ－１｜ｋ－１}（Ｆ_ｋ）^Ｔ＋Ｑ_ｋ］（Ｈ_ｋ）^Ｔ（１８）
に関して、以下、すなわち、
Ｋ_ｋ＝［Ｆ_ｋＰ_{ｋ－１｜ｋ－１}（Ｆ_ｋ）^Ｔ＋Ｑ_ｋ］（Ｈ_ｋ）^Ｔ（Ｓ_ｋ）^－１（１７）
のように表現され得る。

【0129】

特に、ｋの各値について、マトリックスＰ_ｋ｜ｋは、以下、すなわち、
Ｐ_ｋ｜ｋ＝［（１_４－Ｋ_ｋＨ_ｋ）［Ｆ_ｋＰ_{ｋ－１｜ｋ－１}（Ｆ_ｋ）^Ｔ＋Ｑ_ｋ］（１_４－Ｋ_ｋＨ_ｋ）^Ｔ＋Ｋ_ｋＲ_ｋ（Ｋ_ｋ）^Ｔ］（１９）
のように書かれ、１_４は、４×４単位行列である。マトリックスＲ_ｋおよびＱ_ｋは、それぞれ、第ｋの反復における観測ノイズの共分散、および第ｋの反復におけるプロセスノイズの共分散である。マトリックスＦ_ｋおよびＨ_ｋは、それぞれ、第ｋの反復における状態遷移モデルマトリックス、および第ｋの反復における観測モデルマトリックスである。特に、以下の関係、すなわち、

のうちの少なくとも１つが成り立つ。

【0130】

特に、δ_ｔは、上記で説明された周波数υに関してδ_ｔ＝1υと記述され得る。マトリックスＲ_ｋ、Ｑ_ｋ、Ｆ_ｋおよび／またはＨ_ｋは、反復に依存しないことがある。以下の関係、すなわち、

のうちの少なくとも１つが成り立ち得、０は、ヌルマトリックスである。たとえば、第１の視点および第２の視点は、１回の反復をもつカルマンフィルタを使用することによって、たとえば、置換ｋ→１をして式（１６）～（２１）を使用することによって計算され得る。この場合、第１の視点および第２の視点は、それぞれ、第１の推定視点および第１の中間視点である。この場合、特に、第０の推定視点は、式（２１）において指定されているように、２次元スクリーン座標（ａ_０，ｂ_ｏ）をもち、速度（ｖ_ａ，０，ｖ_ｂ，ｏ）をもつスクリーンの点であり得る。

【0131】

第１の視点は、Ｐ_０｜０およびＶ_０から始めてＭ回の反復をもってカルマンフィルタを使用することによって反復的に計算され得る。この場合、特に、第１の視点および第２の視点は、それぞれ、第Ｍの推定視点および第Ｍの中間視点である。たとえば、Ｍは、所与の整数である。代替的に、Ｍは、停止条件を満たすために必要とされる反復の最も少ない回数であり得る。たとえば、停止条件は、第Ｍの推定視点と第Ｍの中間視点との間の距離が、第１のしきい値未満であるという要件、および／または第Ｍの推定視点と第（Ｍ－１）の推定視点との間の距離が、第２のしきい値未満であるという要件を備え得る。特に、第１のしきい値は、第２のしきい値に等しいことがある。

【0132】

本発明の方法の実施形態によれば、スクリーンの上の第１の視点の位置特定は、第３の視点およびプロセスノイズの共分散行列を用いて実施され、プロセスノイズの共分散行列が、複数のエントリを備え、上記エントリが、第２の視点と第３の視点との間の距離の単調増加関数である。特に、上記共分散行列のエントリの各々は、第２の視点と第３の視点との間の距離の単調増加関数であり得る。

【0133】

たとえば、第１の視点と第３の視点との間の距離は、ピクセルの単位で表現され得る。特に、第２の視点と第３の視点との間の距離は、上記視点の間のユークリッド距離である。特に、第１の視点が、第Ｍの中間視点である場合、第３の視点は、第（Ｍ－１）の推定視点であり得、第１の視点と第３の視点との間の距離ｄ_{Ｍ，Ｍ－１}は、以下のように書かれる。

【0134】

プロセスノイズの共分散行列は、第ｋの反復におけるプロセスノイズの共分散行列Ｑ_ｋであり得、以下の関係、すなわち、

のうちの少なくとも１つが成り立ち得る。

【0135】

たとえば、ｑは、距離ｄ_{ｋ，ｋ－１}の関数であり、以下、すなわち、

のように書かれ得、ｄ_{ｋ，ｋ－１}は、置換Ｍ→ｋをして式（２３）を使用することによって得られ得る。特に、ｑ_０は、１０^－３５から１０^－２５の間の範囲に、より詳細には、１０^－３２から１０^－２８の間の範囲にあり得る。その上、ｑ_１は、１０^－２５から１０^－１５の間の範囲に、特に、１０^－２２から１０^－１８の間の範囲にあり得る。たとえば、ｑ_２は、１０^－１５から１０^－５の間の範囲に、より詳細には、１０^－１２から１０^－８の間の範囲にある。たとえば、ｑ_３は、１０^－５から１０^－１の間の範囲に、特に、１０^－３から０．５の間の範囲にある。その上、ｑ_０、ｑ_１、ｑ_２、および／またはｑ_３は、それぞれ、１０^－３０、１０^－２０、１０^－１０、および１０^－２に等しいことがある。さらに、ｄ_０は、５０ピクセルから２２０ピクセルの間の範囲に、より詳細には、１００ピクセルから２００ピクセルの間の範囲にあり得る。特に、ｄ_１は、２００ピクセルから４００ピクセルの間の範囲に、より詳細には、２２０ピクセルから３００ピクセルの間の範囲にある。さらに、ｄ_２は、３００ピクセルから６００ピクセルの間の範囲に、より詳細には、４００ピクセルから５５０ピクセルの間の範囲にある。その上、ｄ_０、ｄ_１および／またはｄ_２は、それぞれ、１２８ピクセル、２５６ピクセルおよび５１２ピクセルに等しいことがある。

【0136】

この実施形態では、プロセスノイズの共分散行列の数値重要性は、第ｋの反復の中間視点と第（ｋ－１）の反復の推定視点との間の距離が減少するとき、低減される。このようにして、Ｌｕｋａｓ－Ｋａｎａｄｅフィルタは、相対的に少ない回数の反復を使用することによって第１の視点の位置特定の相対的に高い精度を達成することを可能にする。

【0137】

本発明の方法のさらなる実施形態では、スクリーンの上の第１の視点の位置特定は、第３の視点および観測ノイズの共分散行列を用いて実施される。観測ノイズの共分散行列は、複数のエントリを備え、上記エントリは、第２の視点と第３の視点との間の距離の単調増加関数である。たとえば、上記共分散行列のエントリの各々は、第２の視点と第３の視点との間の距離の単調増加関数であり得る。

【0138】

観測ノイズの共分散行列は、第ｋの反復における観測ノイズの共分散Ｒ_ｋであり得、以下の関係、すなわち、

のうちの少なくとも１つが成り立ち得る。

【0139】

たとえば、ｒは、距離ｄ_{ｋ，ｋ－１}の関数であり、以下、すなわち、

のように書かれ得る。

【0140】

特に、ｒ_０は、１０^－３５から１０^－２５の間の範囲に、より詳細には、１０^－３２から１０^－２８の間の範囲にあり得る。その上、ｒ_１は、１０^－５から１０^－１の間の範囲に、特に、１０^－３から０．５の間の範囲にあり得る。その上、ｒ_０および／またはｒ_１は、それぞれ、１０^－３０および１０^－２に等しいことがある。さらに、ｄ_３は、５０ピクセルから２２０ピクセルの間の範囲に、より詳細には、１００ピクセルから２００ピクセルの間の範囲にあり得る。特に、ｄ_３は、１２８ピクセルに等しい。

【0141】

方法の実施形態は、
●第１の画像中の第６の顔ランドマークの第６の顔ランドマークロケーションの位置特定を開始することと、
●第１の画像中の第７の顔ランドマークの第７の顔ランドマークロケーションの位置特定を開始することと、
●第１の画像中の第２の関心領域の選択を開始することであって、第２の関心領域の選択が、少なくとも第６の顔ランドマークロケーションおよび第７の顔ランドマークロケーションを使用することによって実施される、第２の関心領域の選択を開始することと、
●少なくとも人工ニューラルネットワークを用いて第２の視線ベクトルの構築を開始することであって、人工ニューラルネットワークが、入力として少なくとも第２の関心領域を使用する、第２の視線ベクトルの構築を開始することと
を行うステップをふくむ。

【0142】

特に、この実施形態によれば、スクリーンの上の第１の視点の位置を特定することは、第１の視線ベクトルを、および第２の視線ベクトルを用いて実施される。たとえば、第２のＲＯＩは、第２の眼または第２の眼の一部分を少なくとも備える。特に、第２の眼は、第１の眼とは異なる。第２のＲＯＩは、第２のビットマップによって符号化され得る。この実施形態では、第１の視点のロケーションは、両方の眼の視線ベクトルについての情報を使用することによって得られる。上記ロケーションの精度は、それにより改善される。

【0143】

第２の視線ベクトルを構築するとき、ＡＮＮは、入力として第２のＲＯＩを使用する。この場合、特に、ＡＮＮ入力は、第２のＲＯＩのピクセルの位置および色についての情報を備え、より詳細には、ＡＮＮ入力は、第２のビットマップを備えるか、または第２のビットマップからなり得る。

【0144】

本発明による方法は、第４の視点および第５の視点の位置特定を開始するステップであって、第４の視点および第５の視点の位置特定が、それぞれ、第１の視線ベクトルおよび第２の視線ベクトルを用いて実施される、第４の視点および第５の視点の位置特定を開始するステップをふくみ得る。特に、第１の視点または第２の視点のスクリーン座標

は、以下のように、第４の視点のスクリーン座標

の、および第５の視点のスクリーン座標

の重み付き和によって得られ得る。

【0145】

たとえば、第１の視点または第２の視点は、第４の視点のロケーションと第５の視点のロケーションとの間の中間点と実質的に一致し得、すなわち、

は、ｕ_１＝ｕ_２＝１／２を設定することによって上記の式から得られ得る。重みｕ_１およびｕ_２は、頭姿勢推定ベクトルに依存し得る。特に、これらの重みの依存性は、以下のような、すなわち、
－ユーザの頭姿勢により、第４の視点の構築が、第５の視点の構築よりも正確でない場合、ｕ_１がｕ_２未満であり、
－ユーザの頭姿勢により、第４の視点の再構築が、第５の視点の構築よりも正確である場合、ｕ_１がｕ_２よりも大きい、
ようなものである。

【0146】

たとえば、第４の視点の構築は、それぞれ、第１の眼の再構築が、第２の眼の再構築よりも正確である場合、第５の視点の構築よりも正確であり、第１の眼の再構築が、第２の眼の再構築よりも正確でない場合、第５の視点の構築よりも正確でない。たとえば、ユーザの顔の一方の眼の再構築は、他方の眼の再構築よりも正確であり得、これは、第１の画像中で、後者の眼が、たとえば、ユーザの鼻によって少なくとも部分的にじゃまされるというやり方で、ユーザの頭が回転している場合である。

【0147】

本発明の方法は、スクリーンの上の第１の視点のロケーションを受け取るステップ、および／またはスクリーンの上の第１の視点のロケーションの表示を開始するステップをさらにふくみ得る。

【0148】

本発明によれば、画像の取得、ランドマークまたは視点の位置特定、関心領域の選択、ベクトルの構築、および／または顔ランドマークの推定など、アクションを開始するステップは、特に、上記アクションを実施することによって実施され得る。たとえば、画像の、たとえば、第１の画像または第２の画像の取得を開始するステップは、上記画像を取得することによって実施され得る。類似的に、画像中の顔ランドマークロケーションの位置特定を開始するステップは、上記画像中の上記顔ランドマークロケーションの位置を特定することによって実施され得る。たとえば、第１の視線ベクトルまたは頭姿勢推定ベクトルなど、ベクトルの構築を開始するステップは、上記ベクトルを構築することによって実施され得る。

【0149】

画像の取得、ランドマークまたは視点の位置特定、ＲＯＩの選択、ベクトルの構築、および／または顔ランドマークの推定など、アクションを開始するステップは、特に、専用のデバイスに上記アクションを実施するように命令することによって実施され得る。たとえば、画像の、たとえば、第１の画像または第２の画像の取得を開始するステップは、記録デバイスに上記画像を取得するように命令することによって実施され得る。類似的に、画像中の顔ランドマークロケーションの位置特定を開始するステップは、専用のコンピューティングデバイスに上記画像中の上記顔ランドマークロケーションの位置を特定するように命令することによって実施され得る。

【0150】

本発明によれば、第１のアクションを開始するステップは、１つまたは複数の他のアクションを開始するステップとともに実施され得る。たとえば、第１のランドマークの位置特定を開始するステップ、および第２のランドマークの位置特定を開始するステップは、複数の顔ランドマークの位置特定を開始することによって一緒に実施され得、上記複数は、第１のランドマークおよび第２のランドマークを含む。

【0151】

その上、第１のＲＯＩの選択を開始するステップは、第１の顔ランドマークおよび第２の顔ランドマークの位置特定を開始するステップとともに実施され得る。たとえば、本発明を行うコンピューティングデバイスは、別のコンピューティングデバイスに第１の顔ランドマークおよび第２の顔ランドマークの位置を特定するように命令し得る。後者のデバイスは、後者のデバイスがこの位置特定を実施した後、後者のデバイスが第１のＲＯＩの選択を実施するというやり方で構成され得る。この場合、本発明によれば、第１の顔ランドマークおよび第２の顔ランドマークの位置特定を開始するステップは、第１のＲＯＩの選択をも開始する。

【0152】

一実施形態では、本発明による方法のすべてのステップは、一緒に実施され得る。たとえば、本発明を行うコンピューティングデバイスは、別のコンピューティングデバイスに第１の画像を取得するように命令し得る。後者のデバイスが、上記画像を取得した後、後者のデバイスは、第１のランドマークおよび第２のランドマークの位置を特定し、第１のＲＯＩを選択し、第１の視線ベクトルを構築し、次いで、スクリーンの上の第１の視点の位置を特定する。この場合、本発明によれば、第１の画像の取得を開始するステップは、第１の顔ランドマークロケーションおよび第２の顔ランドマークロケーションの位置特定、第１のＲＯＩの選択、第１の視線ベクトルの構築、およびスクリーンの上の第１の視点の位置特定をも開始する。

【0153】

本明細書を通して、本発明の方法のステップは、所与の順序に従って開示される。しかしながら、この所与の順序は、本発明のステップがそれに従って実施される発生順を必ずしも反映するとは限らない。

【0154】

本発明は、本発明による方法を実施するように構成されたプロセッサを少なくとも備えるデータ処理システムにも言及する。

【0155】

その上、本発明は、コンピュータプログラム製品であって、コンピュータプログラム製品がコンピューティングデバイスによって実行されたとき、コンピューティングデバイスが本発明による方法を行うことを引き起こす命令を備える、コンピュータプログラム製品に言及する。

【0156】

本発明は、コンピュータデバイスによって実行されたとき、コンピュータデバイスが本発明による方法を行うことを引き起こす命令を備える、コンピュータ可読記憶媒体にも関係する。コンピュータ可読媒体は、特に、非一時的である。

【0157】

本発明の例示的な実施形態が、添付図に関して以下で説明される。図および対応する発明を実施するための形態は、本発明のより良い理解を提供するように働くにすぎず、特許請求の範囲において定義されている本発明の範囲のいかなる限定をもなさない。

【図面の簡単な説明】

【0158】

【図1】本発明による、データ処理システムの第１の実施形態の概略図である。

【図2】本発明による方法の第１の実施形態の動作のフロー図である。

【図3a】本発明による方法の第１の実施形態を実施することによって取得された第１の画像の概略表現である。

【図3b】本発明による方法の第１の実施形態を実施することによって位置を特定された顔ランドマークの概略表現である。

【図3c】本発明による方法の第１の実施形態を実施することによって選択された第１のＲＯＩの概略表現である。

【図4a】本発明による方法の第１の実施形態を実施することによって得られたヒートマップの概略表現である。

【図4b】本発明による方法の第１の実施形態を実施することによって得られたヒートマップの概略表現である。

【図5】本発明による方法の第２の実施形態の動作のフロー図である。

【発明を実施するための形態】

【0159】

図１は、本発明による、データ処理システム１００の第１の実施形態の概略図である。上記データ処理システム１００は、コンピューティングデバイスまたはコンピューティングデバイスのクラスタであり得る。データ処理システム１００は、互いとデータ通信している、処理要素１１０および記憶手段１２０を備える。

【0160】

処理要素１１０は、ＣＰＵおよび／またはＧＰＵからなるか、あるいはＣＰＵおよび／またはＧＰＵを備え得る。その上、処理要素１１０は、本発明による方法のステップを実施するように構成された数個のモジュール１１１～１１６を備える。第１の開始モジュール１１１は、少なくとも第１の画像を取得することを開始するように構成される。たとえば、第１の開始モジュール１１１は、第１の画像を取得、たとえば、キャプチャするように構成された取得モジュールであり得る。

【0161】

第２の開始モジュール１１２は、第１の画像中の第１の顔ランドマークの第１の顔ランドマークロケーションの位置特定を開始するように構成される。第２の開始モジュール１１２は、第１の画像中で第１の顔ランドマークの第１の顔ランドマークロケーションの位置を特定するように構成された第１の位置特定モジュールであり得る。第３の開始モジュール１１３は、第１の画像中の第２の顔ランドマークの第２の顔ランドマークロケーションの位置特定を開始するように構成される。特に、第２の開始モジュール１１２は、第２の顔ランドマークの第２のランドマークロケーションの位置を特定するように構成された第２の位置特定モジュールであり得る。

【0162】

第３の開始モジュール１１３および第２の開始モジュール１１２は、同じ開始モジュールであり得、たとえば、第１の画像中での複数の顔ランドマークロケーションの位置特定を開始するように構成され得、上記複数は、第１の顔ランドマークの第１の顔ランドマークロケーションおよび第２の顔ランドマークの第２の顔ランドマークロケーションを含む。

【0163】

第４の開始モジュール１１４は、第１のＲＯＩの選択を開始するように構成され、特に、少なくとも第１の顔ランドマークロケーションおよび第２の顔ランドマークロケーションを使用することによって第１のＲＯＩを選択するように構成された選択モジュールである。第５の開始モジュール１１５は、第１の視線ベクトルの構築を開始するように構成される。たとえば、第５の開始モジュール１１５は、ＡＮＮを用いて上記視線ベクトルを構築するように構成された構築モジュールである。

【0164】

第６の開始モジュール１１６は、代わりに、スクリーンの上の第１の視点の位置特定を開始するように構成される。たとえば、第６の開始モジュール１１６は、少なくとも第１の視線ベクトルを用いてスクリーンの上の第１の視点の位置を特定するように構成された第３の位置特定モジュールである。

【0165】

記憶手段１２０は、揮発性１次メモリ１２１および／または不揮発性１次メモリ１２２を備え得る。記憶手段１２０は、オペレーティングシステムおよび／またはＡＮＮを記憶し得る２次メモリ１２３をさらに備え得る。その上、２次メモリ１２３は、コンピュータプログラム製品であって、コンピュータプログラム製品が処理要素１１０によって実行されたとき、データ処理システム１００が本発明による方法を行うことを引き起こす命令を備える、コンピュータプログラム製品を記憶し得る。２次メモリ１２３は、第１の画像および／または第１のＲＯＩについての情報を記憶し得る。

【0166】

２次メモリ１２３、１次メモリ１２１、１２２、および処理要素１１０は、同じハウジング内に物理的に収容される必要はなく、代わりに、互いから空間的に分離され得る。特に、２次メモリ１２３、１次メモリ１２１、１２２、および処理要素１１０は、互いから空間的に分離され得、ワイヤードおよび／またはワイヤレス媒体（図示せず）を介して互いにデータを交換し得る。

【0167】

データ処理システム１００は、上記システム１００が入力／出力デバイス（たとえば、ディスプレイ、キーボード、タッチスクリーン、プリンタ、マウスなど）と通信することを可能にする入力／出力（Ｉ／Ｏ）インターフェース１４０をさらに備え得る。

【0168】

データ処理システム１００は、システム１００を好適なネットワーク（図示せず）と接続するように構成されたネットワークインターフェースコントローラ（ＮＩＣ）１３０をさらに備え得る。本発明によれば、好適なネットワークは、たとえばイントラネット、インターネットまたはセルラーネットワークであり得る。たとえば、ＮＩＣ１３０は、データ処理システム１００が、たとえば、顔ランドマークの位置特定、第１のＲＯＩの選択、第１の視線ベクトルの構築、および／または第１の視点の位置特定を実施する別のコンピューティングデバイス（図示せず）とデータを交換することを可能にし得る。

【0169】

特に、データ処理システム１００は、少なくとも第１の画像をキャプチャするように構成された記録デバイス１６０を備える。たとえば、記録デバイスは、フォトカメラおよび／またはビデオカメラであり得る。図１中に示されているように、記録デバイス１６０は、Ｉ／Ｏインターフェース１４０を介して処理要素１１０に接続され得る。たとえば、記録デバイス１６０は、ＮＩＣ１３０を介してＩ／Ｏインターフェースにワイヤレスに接続され得る。データ処理システム１００は、スクリーン１５１を備え、Ｉ／Ｏインターフェース１４０を介して処理要素１１０に接続された、ディスプレイユニット１５０を備え得る。特に、上記ユニット１４０は、ＮＩＣ１３０を介してＩ／Ｏインターフェースにワイヤレスに接続され得る。記録デバイス１６０および／またはディスプレイユニット１５０は、Ｉ／Ｏインターフェース１４０または周辺デバイスとともに使用するための、関連する命令およびデータを記憶するためのそれら自体のメモリをもつインテリジェントデバイスであり得る。

【0170】

図２は、本発明による方法の第１の実施形態の動作のフロー図２００である。特に、本発明による方法の第１の実施形態は、たとえば、上記で説明され、図１中に概略的に描かれているデータ処理システム１００であり得る、第１のコンピューティングデバイス（図示せず）によって実施され得る。ステップ２１０において、第１のコンピューティングデバイスは、図３ａ中に概略的に表されている、第１の画像３００の取得を開始する。特に、第１の画像３００は、記録デバイス１６０を使用することによって取得される。

【0171】

ステップ２２０および２３０において、第１のコンピューティングデバイスは、第１の画像３００中の第１の顔ランドマークの第１の顔ランドマークロケーション３０１の位置特定、および第１の画像３００中の第２の顔ランドマークの第２の顔ランドマークロケーション３０２の位置特定を開始する。特に、上記ステップは、それらのロケーションが交差ドットによって図３ｂ中に表されている６８個の顔ランドマークの、第１の画像中での位置特定を開始することによって一緒に実施され得る。たとえば、上記顔ランドマークの位置特定は、第１のロケーションアルゴリズムを用いて実施される。特に、第１の顔ランドマークおよび第２の顔ランドマークは、それぞれ、第３の眼ランドマーク３０１および第４の眼ランドマーク３０２である。その上、６８個の顔ランドマークのセットは、第５の眼ランドマーク３０３、第６の眼ランドマーク３０４、第７の眼ランドマーク３０５、および第８の眼ランドマーク３０６を備える。

【0172】

ステップ２４０において、第１のコンピューティングデバイスは、図３ｃ中に概略的に表されている第１のＲＯＩ３１０の選択を開始する。第１のＲＯＩ３１０の選択は、上述の６つの眼ランドマーク３０１～３０６を使用することによって実施される。特に、第１のＲＯＩ３１０は、整数Ｃ_３からＣ_４の間にある列番号をもち、整数Ｒ_３からＲ_４の間にある行番号をもつピクセルからなり、Ｃ_３、Ｃ_４、Ｒ_３およびＲ_４は、式（４）を満たす。

【0173】

ステップ２５０において、第１のコンピューティングデバイスは、第１の視線ベクトルの構築を開始する。この視線ベクトルの構築は、ＡＮＮによって実施される。特に、ＡＮＮ出力は、第１から第１８に及ぶ、１８個のヒートマップ４０１～４１８を備える。これらのヒートマップは、図４ａおよび図４ｂ中に概略的に描かれている。より具体的には、ヒートマップ４０１および４０２は、それぞれ、虹彩中心および眼球中心のピクセルごとの信頼度を符号化する。ヒートマップ４０３～４１０の各々は、異なる眼境界ランドマークが、異なるヒートマップに関連するというやり方で、第１の眼境界ランドマークから第８の眼境界ランドマークのうちの１つのロケーションのピクセルごとの信頼度を符号化する。その上、ヒートマップ４１１～４１８の各々は、異なる虹彩境界ランドマークが、異なるヒートマップに関連するというやり方で、第１の虹彩境界ランドマークから第８の虹彩境界ランドマークのうちの１つのロケーションのピクセルごとの信頼度を符号化する。

【0174】

図４ａおよび図４ｂ中に概略的に描かれているヒートマップ４０１～４１８において、ピクセルごとの信頼度が最も大きい値をとる領域は、シェーディングされているか、または黒でハイライトされている。その上、ピクセルごとの信頼度の値は、シェーディングされている領域中よりも暗色領域中で大きい。ヒートマップ４０１～４１８の各々に関連する眼ランドマークのロケーションは、ヒートマップ４０１～４１８の上記各々の暗色領域中の点のロケーションと一致し得る。特に、虹彩中心の、眼球中心の、８つの眼境界ランドマークの、および８つの虹彩境界ランドマークのロケーションは、ｓｏｆｔ－ａｒｇｍａｘ層を用いて上述の１８個のヒートマップ４０１～４１８を処理することによって得られる。

【0175】

視線ベクトルの構築は、ＳＶＲアルゴリズムを用いて実施される。特に、ＳＶＲアルゴリズムは、入力として、１８個のヒートマップ４０１～４１８を使用することによって得られた、眼球中心ロケーション、虹彩中心ロケーション、８つの虹彩境界ランドマークロケーションおよび８つの眼境界ランドマークロケーションを使用する。

【0176】

ステップ２６０において、第１のコンピューティングデバイスは、スクリーンの上の第１の視点の位置特定を開始する。第１の視点は、特に、スクリーン１５１と第１の視線ラインとの間の交点である。たとえば、スクリーン１５１の上の第１の視点の位置特定は、面に関してスクリーンをモデル化することによって、および上記面と第１の視線ラインとの間の交点として第１の視点を構築することによって得られ得る。

【0177】

図５は、本発明による方法の第２の実施形態の動作のフロー図５００である。特に、上記実施形態は、たとえば、上記で説明され、図１中に概略的に描かれているデータ処理システム１００であり得る、第２のコンピューティングデバイス（図示せず）によって実施され得る。この実施形態によれば、第１の視点は、式（２１）において定義されているＰ_０｜０およびＶ_０から始めてカルマンフィルタを使用することによって反復的に計算される。

【0178】

カルマンフィルタの汎用反復は、ステップ５０５において値０に初期化されるカウンタｍによって表される。ｍ番目の反復中に、第２のコンピューティングデバイスは、特に、記録デバイス１６０を使用することによって取得され得るｍ番目の中間画像の取得を開始する（ステップ５１５）。特に、第１の画像およびｍ番目の中間画像は、同じ対象を備え、異なる時刻においてキャプチャされる。たとえば、第１の画像およびｍ番目の中間画像は、たとえば、本発明のコンピューティングデバイスの記録デバイス１６０によってキャプチャされたビデオの２つのフレームである。

【0179】

ｍ番目の反復のステップ５２０および５２５において、第２のコンピューティングデバイスは、顔ランドマークの顔ランドマークロケーションの、およびさらなる顔ランドマークのさらなる顔ランドマークロケーションの、ｍ番目の中間画像中での位置特定を開始する。上記ステップは、第１のロケーションアルゴリズムを用いて６８個の顔ランドマークの位置特定を開始することによって一緒に実施され得る。

【0180】

特に、ｍ番目の中間画像中の６８個の顔ランドマークの分布は、図３ａ中に概略的に描かれている、６８個の顔ランドマークの分布に類似している。特に、ｍ番目の中間画像中に位置する６８個の顔ランドマークのセットは、左眼について６つの眼ランドマークを、および右眼について６つの眼ランドマークを備える。

【0181】

ｍ番目の反復のステップ５３０において、第２のコンピューティングデバイスは、ｍ番目の中間ＲＯＩの選択を開始する。特に、ｍ番目の中間ＲＯＩは、眼、たとえば、左眼を備え、左眼の６つの眼ランドマークを使用することによって選択される。特に、ｍ番目の中間ＲＯＩは、整数Ｃ_３からＣ_４の間にある列番号をもち、整数Ｒ_３からＲ_４の間にある行番号をもつピクセルからなる。整数Ｃ_３、Ｃ_４、Ｒ_３およびＲ_４は、式（４）および左眼の６つの眼ランドマークの、ｍ番目の中間画像中の座標を使用することによって計算され得る。ｍ番目の中間画像中のｍ番目の中間ＲＯＩの位置は、図３ｂ中に概略的に描かれている第１のＲＯＩの位置に類似する。

【0182】

ステップ５３５において、第２のコンピューティングデバイスは、ＡＮＮを使用することによってｍ番目の中間視線ベクトルの構築を開始する。第２の実施形態のＡＮＮは、本発明による方法の第１の実施形態によって使用されたＡＮＮと同等である。特に、ＡＮＮは、入力としてｍ番目の中間ＲＯＩのピクセルを使用し、出力として１８個のヒートマップを提供する。上記ヒートマップは、図４ａおよび図４ｂ中に概略的に描かれているヒートマップに類似し、左眼の虹彩中心の、左眼の眼球中心の、左眼の８つの眼境界ランドマークの、および左眼の８つの虹彩境界ランドマークの、ｍ番目の中間画像中のロケーションを見つけるために使用される。たとえば、上記ランドマークは、ｓｏｆｔ－ａｒｇｍａｘ層を用いて１８個のヒートマップを処理することによって得られ得る。

【0183】

次いで、左眼の虹彩中心の、左眼の眼球中心の、左眼の８つの眼境界ランドマークの、および左眼の８つの虹彩境界ランドマークのロケーションは、ｍ番目の中間視線ベクトルを構築するＳＶＲアルゴリズムの入力として使用される。

【0184】

ｍ番目の反復のステップ５４０において、第２のコンピューティングデバイスは、スクリーンの上のｍ番目の中間視点の位置特定を開始する。上記視点は、特に、スクリーンとｍ番目の中間視線ラインとの間の交点である。たとえば、スクリーンの上の第１の視点の位置特定は、面に関してスクリーンをモデル化することによって、および上記面とｍ番目の中間視線ラインとの間の交点として第１の視点を構築することによって得られ得る。特に、ｍ番目の中間視線ラインは、ｍ番目の中間ＲＯＩ中に含まれている眼の眼球中心と交差する、およびｍ番目の中間視線ベクトルに平行であるラインである。

【0185】

ｍ番目の反復のステップ５４５において、第２のコンピューティングデバイスは、スクリーンの上のｍ番目の推定視点の計算を開始する。この視点の計算は、特に、ｍ番目の中間視点、第（ｍ－１）の反復中に計算された第（ｍ－１）の推定視点、および置換ｋ→ｍをして式（１６）～（２６）を使用することによって実施される。

【0186】

ｍ番目の反復のステップ５５０において、第２のコンピューティングデバイスは、ｍ番目の推定視点が停止条件を満たすかどうかをチェックする。特に、停止条件は、ｍ番目の推定視点とｍ番目の中間視点との間のユークリッド距離が、第１のしきい値未満であるという要件、および／またはｍ番目の推定視点と第（ｍ－１）の推定視点との間の距離が、第２のしきい値未満であるという要件を備える。

【0187】

停止条件が満たされない場合、第２のコンピューティングデバイスは、１だけカウンタの値を増分し（ステップ５１０を参照）、第（ｍ＋１）の反復を実施する。停止条件が満たされた場合、ステップ５５５において、第２のコンピューティングデバイスは、第１の視点の位置特定を開始し、上記位置特定は、ｍ番目の反復において構築されたｍ番目の推定視点に等しくなるように上記視点を設定することによって実施される。

【図1】