(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2021-536609(P2021-536609A)
(43)【公表日】2021年12月27日
(54)【発明の名称】注視点推定方法及びシステム
(51)【国際特許分類】
G06T 7/70 20170101AFI20211129BHJP
G06T 7/00 20170101ALI20211129BHJP
【FI】
G06T7/70 B
G06T7/00 350C
G06T7/00 660A
【審査請求】未請求
【予備審査請求】未請求
【全頁数】22
(21)【出願番号】特願2021-510379(P2021-510379)
(86)(22)【出願日】2019年8月22日
(85)【翻訳文提出日】2021年2月19日
(86)【国際出願番号】IB2019057068
(87)【国際公開番号】WO2020044180
(87)【国際公開日】20200305
(31)【優先権主張番号】01046/2018
(32)【優先日】2018年8月31日
(33)【優先権主張国】CH
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】521074944
【氏名又は名称】アイウェア・テク・ソシエテ・アノニム
(74)【代理人】
【識別番号】100069556
【弁理士】
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【弁理士】
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【弁理士】
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100208258
【弁理士】
【氏名又は名称】鈴木 友子
(74)【代理人】
【識別番号】100221981
【弁理士】
【氏名又は名称】石田 大成
(72)【発明者】
【氏名】オドベス・ジャン−マルク
(72)【発明者】
【氏名】リウ・ガン
(72)【発明者】
【氏名】フネス・モラ・ケネス・アルベルト
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA01
5L096AA06
5L096EA39
5L096FA67
5L096GA08
5L096GA55
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
本発明は、ユーザーが見ている注視点を推定する方法に関する。本方法は、ユーザー及び/又は個人の眼の入力画像と基準画像を読み込む工程を有する。本方法は、次に、入力画像と基準画像を処理して、入力画像における眼の注視点と基準画像における眼の注視点の間の注視点差分を推定する工程を有する。ユーザーの注視点は、推定された注視点差分と基準画像の既知の注視点を使用して読み込まれる。また、本発明は、本方法を実施するシステムに関する。
【特許請求の範囲】
【請求項1】
ユーザーの注視点を推定する方法であって、
ユーザーの眼(11)の入力画像(10)を読み込む工程と、
第一の基準注視点(22)を有する個人の眼(21)の第一の基準画像(20)を読み込む工程と、
入力画像(10)と前記の第一の基準画像(20)を処理して、入力画像における眼の注視点(12)と前記の第一の基準画像における眼の注視点(22)の間の第一の注視点差分(30)を推定する工程と、
前記の注視点差分(30)と前記の第一の基準注視点(22)を使用して、ユーザーの注視点(12)を読み込む工程とを有する方法。
【請求項2】
請求項1に記載の方法において、
前記の第一の基準画像を読み込む工程が、既知の基準注視点を有する個人の眼の異なる基準画像の集合(25)を読み込む工程を有する工程と、
前記の注視点差分を推定する工程が、入力画像(10)と前記の基準画像の集合を処理して、入力画像の注視点(12)と前記の集合の基準画像の注視点の間の共通の注視点差分及び/又は注視点差分の集合を推定する工程を有する工程と、
前記のユーザーの注視点(12)を読み込む工程が、前記の共通の注視点差分及び/又は注視点差分の集合と前記の基準画像とを使用する工程を有する工程とを更に有する方法。
【請求項3】
請求項2に記載の方法において、
前記の基準画像の集合(25)が、第一の基準画像と第二の基準注視点を有する第二の基準画像とを有し、
前記のユーザーの注視点(12)を読み込む工程が、
第一の注視点差分と第一の基準注視点に基づく第一の注視点結果と、
第二の注視点差分が入力画像(10)と第二の基準画像を別個に処理することによって提供されるとして、この第二の注視点差分と前記の第二の基準注視点に基づく第二の注視点結果とを重み付けする工程を有する方法。
【請求項4】
請求項2又は3に記載の方法において、
前記の集合(25)の各基準画像が同じユーザーの異なる注視点の異なる同じ眼を表示する方法。
【請求項5】
請求項1〜4のいずれか1項に記載の方法において、
前記の第一の注視点差分(30)、前記の第二の注視点差分、前記の共通の注視点差分及び前記の注視点差分の集合の中の一つ以上が差分機械(32)を用いて推定される方法。
【請求項6】
請求項5に記載の方法において、
前記の差分機械(32)が、各画像(34,35)から特徴マップを別個に読み込む畳込層を有するニューラルネットワーク(34,35)、好ましくは、ディープニューラルネットワークを備えている方法。
【請求項7】
請求項6に記載の方法において、
前記の差分機械(32)が、画像の結合特徴マップを処理して、前記の画像の注視点差分を読み込むニューラル層(37,38,39)、好ましくは、全結合層を有するニューラルネットワーク(35)を備えている方法。
【請求項8】
請求項5から7までのいずれか一つに記載の方法において、
前記の差分機械(32)が、測定された注視点差分(54)から成る入力集合としてのユーザー及び/又は個人の同じ眼の第一と第二の訓練用画像(50,51)のペアリングにより作成された訓練用データベースセット(55)を用いて訓練される方法。
【請求項9】
請求項2を引用する請求項8に記載の方法において、
前記の基準画像(20a−e)の集合の中の少なくとも一つの基準画像が、前記の第一及び第二の訓練用画像(50,51)の中の一つ以上として使用される方法。
【請求項10】
注視点を推定するシステム(60)であって、
ユーザーの眼(11)の入力画像(10)を読み込むように構成された入力画像読込モジュール(62)と、
個人の眼(21)の既知の第一の基準注視点(22)を有する第一の基準画像(20)を読み込むように構成された基準画像読込モジュール(61)と、
入力画像(10)と基準画像(20)を処理して、入力画像の注視点(12)と前記の第一の基準画像の注視点(22)の間の第一の注視点差分(30)を推定し、
前記の第一の注視点差分(30)と第一の基準画像の前記の第一の基準注視点(22)に基づき、ユーザーの注視点(12)を読み込む、
ように構成された処理モジュール(63)とを備えたシステム。
【請求項11】
請求項10に記載のシステムにおいて、
基準画像読込モジュール(61)が、既知の基準注視点を有する、個人の眼の異なる基準画像の集合(25)を読み込むように構成され、
前記の処理モジュール(63)が、
入力画像(10)と前記の基準画像(20)の集合を処理して、入力画像の注視点(12)と前記の集合の第一の基準画像の注視点の間の共通の注視点差分及び/又は注視点差分の集合を推定し、
前記の共通の注視点差分及び/又は注視点差分の集合と、前記の基準注視点とを使用して、ユーザーの注視点(12)を読み込むようにも構成されているシステム。
【請求項12】
請求項11に記載のシステムにおいて、
前記の基準画像の集合(25)が、第一の基準画像と、第二の基準注視点を有する第二の基準画像とを有し、
処理モジュール(63)が、入力画像(10)と第二の基準画像を処理して、入力画像の注視点(12)と第二の基準画像の注視点の間の第二の注視点差分を推定するように構成され、
処理モジュール(63)が、
第一の注視点差分と前記の第一の基準注視点に基づく第一の注視点結果と、
第二の注視点差分と前記の第二の基準注視点に基づく第二の注視点結果と、
を重み付けすることによって、ユーザーの注視点(12)を読み込むように構成されているシステム。
【請求項13】
請求項10〜12のいずれか1項に記載のシステムにおいて、
処理モジュール(623)が、前記の第一の注視点差分(30)、前記の第二の注視点差分、前記の共通の注視点差分及び前記の注視点差分の集合の中の一つ以上を読み込むように構成された差分機械(32)を備えているシステム。
【請求項14】
請求項13に記載のシステムにおいて、
前記の差分機械(32)が、好ましくは、三つの畳込ニューラル層(37,38,39)を有するディープニューラルネットワーク(34,35)を備えているシステム。
【請求項15】
請求項10〜14のいずれか1項に記載のシステムにおいて、
入力画像読込モジュール(62)が、前記の入力画像(10)を提供する画像取得機器(65)、好ましくは、カメラを備えているシステム。
【請求項16】
請求項10〜15のいずれか1項に記載のシステムにおいて、
このシステムが携帯機器(60)であるシステム。
【請求項17】
ユーザーの注視点を解析する方法であって、
少なくとも二つの画像から成る画像の集合を読み込む工程であって、この集合の各画像がユーザーの少なくとも一つの眼の見え方を含む工程と、
前記の画像の集合を使用するように構成された差分機械を、特に、回帰モデルを読み込む工程と、
前記の差分機械を使用して、前記の画像の集合を処理して、この集合の少なくとも二つの画像の間の注視点差分を推定する工程とを有する方法。
【請求項18】
請求項17に記載の方法において、
前記の集合の中の少なくとも一つの画像が基準注視点を有する方法。
【請求項19】
少なくとも二つの画像から成る画像の集合を読み込む入力画像読込モジュール(61,62)であって、この集合の各画像が個人の少なくとも一つの眼の見え方を含む、好ましくは、この集合の少なくとも一つの画像が基準注視点を有する入力画像読込モジュールと、
前記の画像の集合を使用して、前記の画像の集合の中の少なくとも二つの画像の間の注視点差分を推定するように構成された差分機械、特に、回帰モデルとを備えたシステム。
【請求項20】
コンピュータプログラムが記録されたコンピュータ読み取り可能な記憶媒体であって、
このプログラムがプロセッサ上で実行された時に、このコンピュータプログラムが、請求項1から8と請求項17及び18のいずれか1項に記載の方法の工程を実施するように構成されている記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に、人間機械インタフェース系、バーチャルリアリティ、保健医療及び移動体用途のために、ユーザーの注視点を推定する方法及びシステムに関する。
【0002】
本発明は、更に、ユーザーの注視点の動きを推定する方法及びシステムに関する。
【背景技術】
【0003】
注視点、即ち、ユーザーが見ている点及び/又はユーザーの眼に関する視線は人間の行動の重要な手掛かりである。注視点及びその動きは、視覚的な注意、思考及び人々の精神状態の指標である。
【0004】
従って、注視点推定は、人間・ロボットインタラクション(HRI)、バーチャルリアリティ(VR)、社会的インタラクション解析や保健医療のような分野に対する支援手段を提供する。携帯電話のセンサー機能の開発に関して、注視点推定は、更に、移動体シナリオにおいて、より広い用途集合に対する支援手段を提供する。
【0005】
注視点は、使用状況及び/又は用途分野に応じて複数の手法でモデル化することができる。コンピュータ、タブレットや移動体機器と協働する場合、注視点は、注目点、即ち、二次元の平坦なスクリーン内において人が見ている点をメートル値又はピクセル座標で表す。三次元物体に対する注視状況をモデル化する場合、注視点は、三次元環境との視線の交差によって得られる三次元の注目点であるとすることができる。それに代わって、注視点は、視線自体としてモデル化することができ、それは、三次元の放射線、三次元のベクトルとして表される、或いは単純に好ましい座標系に関して定義された角度表現を有する眼の視軸又は光軸である。
【0006】
視覚に基づく非侵襲的注視点推定は、画像内における人間の眼の幾何学的なモデルと見え方に基づく取り組みである。
【0007】
幾何学的なアプローチは、眼の幾何学的なモデルを学習した後、それらの特徴とモデルを用いて注視点を推測する(赤外線システムと協力して動作するグリント、眼の縁や虹彩の中心の特定のような)眼の特徴抽出に頼っている。しかし、それらは、頑強で正確な特徴抽出のためには、眼の高解像度の画像を必要とし、雑音や照明に弱く、頭部姿勢の変動と中型から大型の頭部の姿勢を上手く取り扱っていない。
【0008】
別の方法は、画像内の眼の見え方に頼っている、即ち、画像の見え方を注視点パラメータにマッピングする、機械学習に基づく回帰アルゴリズムを用いて、入力画像から直に注視点自体を直接予測している。そのような回帰アルゴリズムは、真値の注視点を付箋された、眼、顔及び/又は身体の画像サンプルから成る訓練データに基づくモデルパラメータを採用している。訓練データに基づくモデルパラメータを採用することによって、そのモデルは、見ていない画像(テストデータ)の注視点を予測できるようになる。それらのアプローチは、低解像度から中解像度の画像を扱う場合に頑強な推定を提供する可能性をもたらして、良好な普遍化実現形態を獲得する。しかし、見え方に基づく方法の精度は、一般的に5〜6度に限定される一方、対象物の間の高い分散と偏りを呈している。更に、それらの方法の頑強性は、一般的に頭部姿勢、眼の形状及び訓練集合の多様性に依存する。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の課題は、公知の注視点推定方法及びシステムの欠点を取り除いた、或いは少なくとも緩和した、ユーザーの注視点及び/又はユーザーの注視点の動きを推定する方法及びシステムを提供することである。
【0010】
本発明の別の課題は、注視点を解析する、例えば、注視点に関連する用途及び/又はユーザーに関連する用途を支援及び/又は実現する方法及びシステムを提供することである。
【課題を解決するための手段】
【0011】
本発明では、これらの課題は、請求項1〜17に記載の方法、請求項10〜18に記載のシステム及び請求項20のコンピュータ読取可能な記憶媒体によって達成される。
【0012】
ここで提案する解決策は、注視点の差分の推定に頼ることによって、公知の方法及びシステムと比べて、ユーザーの注視点及びユーザーの注視点の相対的又は絶対的な動きのより精確な推定を提供する。特に、ここで提案する解決策は、低解像度の画像内において検出されるユーザーの注視点の頑強な推定を提供する。
【0013】
実際に、個人の眼(好ましくは、同じユーザーの同じ眼)を撮影した複数の、少なくとも二つの画像の間の比較は、眼の整列状況、瞼の閉鎖や照明の摂動などの、単一画像による予測方法を通常苦しめる迷惑要因の防止を可能にする。
【0014】
一つの実施形態では、ここで提案する解決策は、一つの集合の少なくとも二つの画像の間の注視点の差分を推定するように訓練された、特に、ディープニューラルネットワークの形の回帰モデルに基づく機械学習に頼っている。好ましい実施形態では、この回帰モデルに基づく機械学習は、二つの画像の間だけの注視点の差分を推定するように訓練される。別の実施形態では、この回帰モデルに基づく機械学習は、一つの集合の画像の間の注視点の共通の差分及び/又は差分の集合を推定するように訓練される。
【0015】
好ましい実施形態では、ディープニューラルネットワークは、二次元畳込フィルター、最大プーリング、バッチ正規化、矯正、全結合層、活性化関数及びそれ以外の同様の構成から成る一連の層を有する。
【0016】
好ましい実施形態では、一連の層は、先ずは、独立して、即ち、同じモデルパラメータを用いるとともに、それ以外のサンプル画像を考慮せずに、各サンプル画像の中間表現である特徴マップ又は特徴ベクトルを抽出するために訓練される。その後の段階に置かれた別の一連の層は、注視点の差分の推定を目的にサンプルを比較するために使用できる結合特徴マップとして(例えば、単純な特徴ベクトル結合のように)結合された、全ての画像、好ましくは、二つの画像の特徴マップを入力として受信することによって、サンプル画像の間の注視点の差分を抽出するために訓練される。
【0017】
この特別な解決策は、公知の解決策よりも頑強な推定を提供する一方、注視点の差分の頑強な推定を提供する(即ち、特別なユーザーの眼の見え方、位置等をシステムに適合させる)ために、ユーザーの眼のより少ないサンプルしか必要としない。
【0018】
本発明は、例として挙げた、図面により図示された実施形態の記述を用いて、より良く理解される。
【図面の簡単な説明】
【0019】
【
図1】本発明によるユーザーの注視点を推定する方法を記述するフローチャート図
【
図2】基準注視点及び入力画像と基準画像の間で推定された注視点差分に基づくユーザーの注視点の決定に関する詳細図
【
図3】特に、(回帰モデルベースの)差分機械に基づく、動作モードにおける本発明の特別な実施形態の模式図
【
図4a】
図3の差分機械に対して使用可能な訓練プロセスの模式図
【
図4b】
図3の差分機械に対して使用可能な訓練プロセスの模式図
【
図6】本発明によるユーザーの注視点方向を推定するように構成された携帯機器のブロック構成図
【発明を実施するための形態】
【0020】
本発明は、ユーザーの注視点を推定する方法とシステム及び/又はサンプル画像(これらの画像の中の少なくとも一つは、例えば、眼の領域、顔、上半身又はユーザーの身体さえも撮影することによって、ユーザーの眼を撮影したものである)の間の注視点の差分に基づくユーザーの注視点の(相対的又は絶対的な)動きを推定すする方法とシステムに関する。
【0021】
そして、基準画像の(所与又は既知の)注視点に頼ることによって、注視点の差分を使用して、ユーザーの注視点を推定することができる。従って、本方法及び本システムは、ユーザーの眼の画像から直に注視点を推定する代わりに、複数の画像において検出された注視点の差分を推定することに頼っている。
【0022】
既知の注視点とペアリングされた基準画像と注視点が既知でない入力画像との間の注視点の差分は、特に、注視点差分推定部により提供される、基準画像の既知の注視点と推定された注視点差分を合成するによって、この入力画像の注視点を計算するために使用される。
【0023】
本発明では、注視点は、ユーザーの眼に関する、ユーザーが見ている点及び/又は視線の(数値)表現である。従って、注視点は、用途に応じて複数の手法で表現することができる。コンピュータ、タブレット又は携帯機器と協動する場合、注視点は、そのようなシナリオにおいてスクリーンに固定された立体的な基準フレームに関するメートル値又はピクセル座標によって、二次元の注目点、即ち、二次元の平坦な領域内において人が見ている点として表現することができる。三次元環境における、並びにそのような環境を向いた注目状況をモデル化する場合、注視点は、三次元空間内において人が見ている点を表す三次元の注目点として表現することができる。それに代わって、或いはそれを補完して、注視点は、眼球の中心、中心窩、視軸と光軸の間の交点又は頭部内の固定点を起点として、三次元の注目点に向かって進む三次元の放射線として表現することができる。注視点は、単独で、即ち、起点が必要でない形態で、三次元のベクトルとして表現することができる。注視点は、三次元のベクトル又は基準ベクトルの順次回転を表す角度の集合として表現することができる。そのような三次元の表現は、更に、(事前の工程としての頭部トラッキングに頼るシステムの場合に有利であるので)頭部自体などの好ましい空間基準、カメラに連結された基準フレーム又は固定された世界的な基準フレームに関して定義することができる。
【0024】
図1は、そのような差分アプローチに基づく所与のユーザーの注視点を推定する方法を記述するフローチャートを図示している。
【0025】
この方法は、ユーザーの眼11を表示する入力画像10を読み込む工程(S10)を有する。この画像は、ユーザーの身体全体、顔全体又は眼の領域だけから構成することができる。
【0026】
技術常識によると、画像は、特別に検知された物理現象の二次元の(好ましくは、数値)表現、例えば、二次元(2D)のカラー画像、二次元のモノクロ画像、二次元のバイナリー画像、二次元の多重スペクトル画像、二次元の深度マップ、二次元の視差、二次元の振幅又は位相シフト又はこれらの組合せである。
【0027】
また、この方法は、入力画像の中の一つとして、同じユーザーの基準画像20を読み込む工程(S21)を有し、この基準画像は、所与又は既知の注視点(基準注視点)22を有する個人の眼を表示する。この基準画像は、個人の身体全体、顔全体又は眼の領域だけから構成することができる。好ましくは、個人は、同じユーザーであり、最も好ましくは、基準画像の眼は、入力画像と同じ眼である。
【0028】
この基準注視点は、例えば、個人の場合に要求される二次元又は三次元の表現に基づく基準注視点の数値表現を基準画像にタグ付、ペアリング及び/又は連携させることによって提供することができる。
【0029】
この方法は、次に、入力画像10と基準画像20を処理して、入力画像における眼の注視点12と基準画像における眼の注視点22の間の注視点の差分30を推定する工程を有する(
図2を参照)。
【0030】
使用される注視点の表現に応じて、注視点の差分は、ユーザーである人が見ている点の(例えば、画素又はメートル単位での)位置に関する(相対的又は絶対的な)差分であるとすることができる。角度による注視点の差分は、ベクトルの差分又は三次元の回転であるとすることができる。一つの実施形態では、注視点の差分は、座標系に基づく角度値及び/又は二次元又は三次元のベクトルであるとすることができる。
【0031】
それに代わって、注視点の差分は、基準画像の中の一つに関する上、下、右及び/又は左に有る点の方向を向いたユーザーの注視点を表すような、基準画像によって提供される基準注視点に関する、場合によっては、座標系に関する相対的な表示であるとすることができる。
【0032】
この方法は、次に、基準画像20の基準注視点22と推定された注視点差分30に基づきユーザーの注視点21を推定する工程を有する。注視点が眼の位置に関して相対的に記述される場合、注視点差分は、
図2に図示されている通り、二つの注視点の間の角度による差分30であるとすることができる。
【0033】
入力画像10及び/又は基準画像20は、カメラ、即ち、特別に検知された物理現象、例えば、特に、人間の可視周波数帯域及び/又は近赤外線帯域内の電磁放射線の画像(即ち、二次元の表現)を提供する光学機器によって提供することができる。このカメラは、カラー又はモノクロ(例えば、バイナリー)カメラ、二次元のスペクトルカメラ、二次元の深度マップカメラ、二次元の視差カメラ、二次元の振幅又は位相シフトカメラであるとすることができる。
【0034】
図3と4に図示されている通り、入力画像10及び基準画像20からの注視点差分30の推定は、差分機械32を用いて実施することができる。
【0035】
この差分機械32は、画像の見え方を注視点差分パラメータにマッピングする回帰アルゴリズムに基づく機械学習を実装するように構成することができる。そのようなアルゴリズムは、サポートベクトル回帰アプローチ、ニューラルネットワーク、カプセルネットワーク、ガウス過程回帰法、k近傍アプローチ、決定木、ランダムフォレスト回帰法、制限ボルツマン機械又はこれらに代わる、或いはこれらを補完する回帰方式であり、これは、画像自体、予め処理されたバージョンの画像又は勾配方向ヒストグラム、ローカルバイナリーパターン、デンス又はローカルSIFT又はSURF特徴などのコンピュータビジョンに基づく表現から構成される特徴ベクトルを更に入力として受け取る。
【0036】
それに代わって、又はそれを補完して、差分機械32は、サポートベクトル機械、最近傍法及びランダムフォレスト法の中の一つ以上に頼ることができる。
【0037】
この差分機械32は、三つ以上の画像から成る画像の集合から注視点の差分を計算するように構成することができる。この集合は、二つ以上の画像及び/又は二つ以上の基準画像から構成することができる。特に、この差分機械32は、共通の注視点差分(例えば、それぞれが一組の画像の間の注視点差分である注視点差分の数学的又は論理的な組合せ)及び/又は注視点差分の集合(この集合の各注視点差分が一組の画像に関連する)を計算するように構成することができる。
【0038】
この差分機械32は、上述したアルゴリズムを実行及び/又は実現するように構成されたシステム(例えば、専用の電子回路、ハードウェア・ソフトウェアモジュール又はそれらの組合せ)であるとすることができる。この差分機械32の内部パラメータは、専用の較正及び/又は訓練プロセス中に推測することができる。この差分機械32は、有利には、入力画像10と(例えば、基準画像
a−eの集合及び/又はデータベース25から選定された)基準画像20とを同時に処理して、(動作モードにおいて)所望の結果、即ち、画像の注視点の間の差分30の推定を実現するように構成されている。
【0039】
この差分機械32は、(訓練モードにおいて)一つの集合の訓練用画像のペアリングによって作成された訓練用データセット55を用いて訓練することができ、この集合は、少なくとも第一と第二の訓練用画像50,51から構成され、この集合の各訓練用画像は個人の眼を表示する。
【0040】
一つの実施形態では、この集合の訓練用画像、例えば、第一と第二の画像50,51は、同じユーザー及び/又は個人に、より好ましくは、同じ所与の眼に関連する。別の実施形態では、この訓練用データセットは、複数の個人(ユーザー)の訓練用画像(例えば、一組の画像)を含む。好ましくは、この訓練用集合が複数の個人(ユーザー)の訓練用画像を含む場合、第一と第二の訓練用画像50,51の各対は、同じユーザーに、より好ましくは、同じ所与の眼に関連する。
【0041】
好ましくは、第一と第二の訓練用画像において検出された眼の注視点52,53は、差分機械32の管理された訓練を提供するために既知である(例えば、画像の取得時間を付与されているか、画像の取得後に決定、測定又は推測されているか、或いはその両方である)。そのような場合に、訓練用データセット55は、差分機械の内部パラメータを(自動的に)推測するために、
図4aに図示されている通り、第一と第二の訓練用画像の注視点52,53から測定、計算及び/又は決定された注視点差分54をも有する。
【0042】
図4bでは、差分機械32が、訓練用画像及び推定された注視点差分30と測定された注視点差分54の間の誤差40(例えば、差分)を提供されることによって訓練される。
【0043】
そのようなアルゴリズムは、サポートベクトル回帰アプローチ、ニューラルネットワーク、カプセルネットワーク、ガウス過程回帰法、k近傍アプローチ、決定木、ランダムフォレスト回帰法、制限ボルツマン機械又はそれに代わる、或いはそれを補完する回帰方式であり、これらは、更に、入力として、画像自体、予め処理されたバージョンの画像又は勾配方向ヒストグラム、ローカルバイナリーパターン、デンス又はローカルSIFT又はSURF特徴などのコンピュータビジョンに基づく表現から構成される特徴ベクトルを更に受け取ることができる。
【0044】
図5に図示された実施形態の差分機械32は、ニューラルネットワーク34,35、特に、畳込ニューラルネットワーク34,35と画像次元の減少に頼って、二つの画像の間の注視点差分を予測するように設計、訓練される。
【0045】
図示された差分機械32は、特に、一対の異なる画像10,20(例えば、入力画像と基準画像)を(ネットワーク毎に一つの画像を)入力として使用する、共有重み36を有する二つの並列ネットワーク34,35に頼り、各並列ネットワークは(畳込)ニューラルネットワークに頼っており、各画像の中間表現である特徴マップを出力として生成する。差分機械32は、二つの並列ネットワーク34,35の後に、各画像の特徴マップを受け取って、それらを一つの結合特徴マップに結合し、その結合特徴マップは、次に、画像の中間表現を比較するように訓練された一連の全結合層において、注視点差分30を計算するために使用される。
【0046】
特徴マップを読み込むニューラルネットワーク34,35は、それぞれ三つの(畳込)ニューラル層37,38,39を有し(或いはそれらの層から構成され)、これらの全ての層には、バッチ正規化(BN)及び/又は矯正線形ユニット(ReLU)が先行する。更に、第一及び第二のニューラル層37,38の入力データは、画像の次元を減少させる最大プーリングユニット(即ち、一つの層でのニューロンクラスターの出力を単一のニューロンに結合するユニット)を用いて、それぞれ入力データと第一のニューラル層37の出力を処理することによって提供される。第三の層の後で、二つの入力画像の特徴マップが、特に、平坦になって、新しいテンソルに結合される。次に、二つの全結合層が、二つの入力画像の間の注視点差分を予測するために、このテンソルに適用される。
【0047】
この構造は、同じクラスのサンプルが接近している一方、異なるクラスのサンプルが遠く離れている新しい特徴空間に画像空間をマッピングすることを可能にする。訓練モードでは、予測された注視点差分30を測定された(即ち、真値の)注視点差分54と比較することによって、損失関数を定義することができる。
【0048】
有利には、
図3に模式的に図示されている通り、入力画像10において検出された注視点の推定は、複数の異なる基準画像20
a−eに関する注視点差分(例えば、角度差分)の集合の推定に頼ることができ、各基準画像は、この集合の別の画像と異なるとともに、好ましくは、この集合の別の画像の基準注視点と異なる基準注視点を表示する。
【0049】
最も簡単な実施形態では、複数の異なる基準画像は、上述した基準画像(第一の基準画像)と追加の基準画像(第二の基準画像)を有することができる。そのような場合、こ方法は、入力画像と前記の第二の基準画像を処理して、入力画像における眼の注視点と第二の基準画像における眼の注視点の間の第二の注視点差分を推定する追加の工程を有する。従って、ユーザー、即ち、入力基準であるユーザーの注視点は、第一及び/又は第二の注視点差分と、第一及び/又は第二の基準注視点とを用いて、読み込むことができる。
【0050】
従って、基準画像20
a−eの集合25は、角度による差分30の複数の異なる推定を可能にするために提供することができ、各推定は、入力画像とこの集合25の基準画像の中の一つに関連する。この集合の各基準画像は、(既知/所与の)異なる向き22を有するユーザーの眼(好ましくは、同じ眼)に関連する。
【0051】
この集合25の基準画像の異なる向き22は、選定された二次元/三次元座標系に基づく所与の角度範囲内に含める、特に、規則的に分散させることができる。
【0052】
これらの推定は、同じ差分機械32を用いて、入力画像とこの集合25の基準画像の中の一つを順番に処理することによって実現することができる。それに代わって、並列に動作する複数の同じ差分機械32を用いて、複数の推定を同時に実行することができる。
【0053】
従って、この方法は、
各基準画像20が、好ましくは、異なる基準注視点に関連するとして、個人(好ましくは、同じユーザー、最も好ましくは、入力画像と同じ眼)の複数(例えば、一つの集合25)の異なる基準画像20を読み込む工程と、
入力画像10と読み込んだ基準画像を処理して、共通の注視点差分及び/又は複数(例えば、一の集合)の注視点差分(例えば、角度による差分30)を推定する工程と、
前記の推定された共通の注視点差分及び/又は注視点差分と基準注視点を組み合わせて、入力画像(即ち、ユーザー)の注視点21を読み込む工程と、
を有する。
【0054】
注視点差分の推定数は、この集合25の基準画像の数に一致することができる(即ち、各基準画像が複数の角度による差分の中の一つを推定するために使用される)。それに代わって、例えば、入力画像において検出された眼又は類似度判定基準に基づき、複数の角度による差分を提供するために、及び/又は信頼区間内での(例えば、所与の信頼レベルを下回る)注視点推定を徐々に実現するために、基準画像の部分集合を選定することができる。
【0055】
従って、ユーザーの注視点21は、共通の注視点差分及び/又は推定された注視点差分の集合と読み込まれた基準画像の基準注視点とを考慮して、推定器33によって決定することができる。この操作は、平均化、フィルター処理及び/又は外れ値の除去の工程から構成することができる。
【0056】
特に、入力画像10の注視点21は、例えば、以下の式に基づき、各組の画像によって提供される注視点の単独の推定をそれぞれ重み付けすることによって推測することができる。
【数1】
ここで、
Iは、入力画像であり、
g
sm(I)は、入力画像の注視点であり、
Fは、基準画像であり、
D
cは、基準画像の集合であり、
d
p(I,F)は、入力画像と基準画像Fの間の注視点の差分であり、
g
gt(F)は、基準画像Fの注視点であり、
w(・)は、重み係数である。
【0057】
この重み係数w(I,F)は、入力画像Iと基準画像Fに基づく各注視点推定の重要性を表す、即ち、頑強性又は所与の基準画像を近似度に基づき使用するのが如何に好都合であるのかとの指標である。
【0058】
有利には、この重み係数は、入力画像と基準画像の間の類似度の関数として定義することができる。特に、推定された注視点差分は、類似度の指標、即ち、w(d
p(I,F))として使用することができる。そのような場合、ゼロ平均ガウス分布N(0,σ)を重み関数として使用することができる。従って、ユーザーの注視点21は、以下の通り定式化することができる。
【数2】
【0059】
それに追加して、或いはそれを補完して、重み係数は、注視点の差分を推定するために使用する方法及び/又はその使用する方法を訓練及び/又は設定するために使用するプロセス及び/又はそれらのパラメータの関数であるとすることができる。
【0060】
この方法は、特に、集合及び/又はデータベースから、同じ眼に関する基準画像を読み込むことができるように、ユーザーの眼(即ち、ユーザーの右眼又は左眼)を選定、認識及び/又は識別する工程を有することができる。それに代わって、又はそれを補完して、この方法は、特に、集合及び/又はデータベースから、(同じ)ユーザーの眼に関する基準画像を読み込むことができるように、ユーザーを選定、認識及び/又は識別する工程を有することができる。
【0061】
この工程は、特に、登録されたユーザーのリストにおいて、眼及び/又はユーザーの識別及び/又は認識を実現するために、(顔、指紋、血管パターン又は虹彩などの)ユーザーの身体の数値識別子(ID)及び/又は画像を取得する工程を有することができる。それに代わって、又はそれを補完して、眼及び/又はユーザーの識別及び/又は認識は、同じ入力画像に頼ることができる。
【0062】
それに代わって、又はそれを補完して、この工程は、リストから眼及び/又はユーザーを選定する工程を有することができる。
【0063】
そして、ユーザー及び/又は眼は、識別子23によって表すことができ、その場合、(選定、認識及び/又は識別された)眼及び/又はユーザーに関する基準画像20を選択的に読み込むものと規定される。
【0064】
本方法は、
図6に図示された通りのシステム60によって実施することができる。
【0065】
ユーザーの注視点12を推定するシステム60は、
上述した入力画像10を読み込む工程を実行するように構成された入力画像読込モジュール62と、
上述した(第一の)基準画像20、第二の基準画像又は複数(一つの集合)の基準画像を読み込む工程を実行するように構成された基準画像読込モジュール61と、
入力画像10と、(第一の)基準画像、第二の基準画像及び/又は複数(一つの集合)の基準画像とを処理して、(第一の)注視点差分、第二の注視点差分、共通の注視点差分及び/又は複数(一つの集合)の注視点差分を推定する工程、及び
(第一の)注視点差分30、第二の注視点差分及び/又は複数(一つの集合)の注視点差分、並びに(第一の)注視点基準22、第二の注視点基準及び/又は複数(一つの集合)の注視点基準に基づき、ユーザーの注視点12を読み込む工程、
の上述した工程を実行するように構成された処理モジュール63と、
を備えている。
【0066】
注視点12は、このシステムのスクリーン66に表示することができる。それに代わって、又はそれを補完して、注視点12は、データリンクを介して、このシステム60の別のモジュール及び/又はリモートサーバー又は更に処理するためのシステムに、及び/又は、特に、ロボットインタラクション(HRI)、バーチャルリアリティ(VR)、社会的インタラクション解析及び/又は保健医療に関する、所与の用途の入力として伝送することができる。
【0067】
好ましくは、このシステム60は、好ましくは、無線により、注視点12を一つの装置又はシステムに伝送する通信モジュール68を備えることができる。
【0068】
上述した通り、注視点の差分は、動作モードにおいて、差分機械32を用いて推定することができる。
【0069】
本発明では、動作モードにおける差分機械32(
図3を参照)と学習モードにおける差分機械32(
図4を参照)は、学習モード及び動作モードで動作することが可能な異なる機械又は同じ機械であるとすることができる。
【0070】
後者の場合、差分機械は、動作に関して、処理モジュール63に配置される。従って、このシステム60は、例えば、(タッチ式)スクリーン66及び/又は(物理的又は仮想的な)ボタン67などの入出力インタフェースを用いて、動作モードと学習モードの間での差分機械の切り替えをユーザー又はオペレーターに提供するように構成することができる。有利には、このシステムは、上述した較正(訓練)プロセスを実施するように構成される。
【0071】
異なる機械の場合、処理モジュール63の差分機械32は、上述した較正(訓練)プロセスにより、本システム60の別のモジュール及び/又は第三者のシステムで訓練された第二の(同様の、或いは同じ)差分機械によって提供されるパラメータを使用するように構成することができる。
【0072】
第一及び/又は第二の基準画像及び/又は基準画像の集合をデータベース64に保存することができ、特に、このシステム60の専用のメモリ又は共有メモリに保存される。
【0073】
図6に図示されている通り、入力画像読込モジュール62は、好ましくは、上述したカメラの形で、入力画像を提供するように構成された画像取得機器65を備えることができる。第一の基準画像、第二の基準画像及び/又は基準画像の集合は、同じ画像取得機器65(例えば、カメラ)又はこのシステム60又は第三者のシステムの一部である別の画像取得機器によって提供することができる。この画像取得機器65は、入力画像の眼及び/又はユーザーの認識及び/又は識別を実現するための画像を提供することもできる。
【0074】
このシステムは、一つ又は複数のデータリンクによって接続された複数のユニットから成る分散システムであるとすることができる。各ユニットは、上述したモジュールの中の一つ又は複数を備えることができる。それに代わって、又はそれを補完して、上述したモジュールの中の一つを複数のユニットに分散させることができる。
【0075】
それに代わって、このシステム60は、パーソナルコンピュータ、ラップトップ、運搬可能又は携帯可能な装置の形のスタンドアロン装置であるとすることができる。
図6には、タブレットやスマートフォンなどの手持ち式装置60である、このシステムの実施例が図示されている。このシステムは、ロボット、車両に組み込むことも、スマートホームに統合することもできる。
【0076】
上述した各モジュールは、電子回路内に、及び/又はモジュールの特定の機能を実行するために一時的に割り振ることができる、このシステムのモジュール専用プロセッサ又は汎用プロセッサ上で実行可能なソフトウェア命令のリストによって構成又は構築することができる。
【0077】
上述したデータベース64は、全体的又は部分的に、このシステムのローカルメモリ、(リモート配置サーバーの)リモートアクセス可能なメモリ及び/又はクラウド記憶システム上に配置及び/又は共有することができる。
【0078】
本発明の一つの観点では、上述した差分方法及び差分機械32は、注視点推定のためだけでなく、それ以外の注視点及び/又はユーザーに関連する用途(例えば、システム、装置及び/又は方法)のためにも使用することができる。
【0079】
この差分方法及び差分機械は、二つ又はそれ以上の画像サンプルの間の注視点の差分又の差分の集合を読み込む(推定する)差分操作に関係し、各画像は、注視点基準(例えば、所与の注視点及び/又は測定された注視点)と共に、或いは注視点基準無しに提供される。注視点が、スクリーン上において人が見ている二次元の点のピクセル座標で記述される場合、注視点の差分は、見ている点が二つの画像の間で如何に変化しているのかを記述する、ピクセル座標による二次元のベクトルであるとすることができる。注視点が三次元の注視点ベクトルの角度によって記述される場合、注視点の差分は、二つの異なる画像の三次元の注視点ベクトルの間の角度変化(角度の差分)であるとすることができる。
【0080】
注視点及び/又はユーザーに関連する用途は、有利には、所与のユーザーの注視点の解析に頼っている。注視点の解析は、人が何処を見ているのか、或いは人が時系列的に如何に見ているのかに繋がる個人の状態の数値的又は意味的な表象を抽出するプロセスと称することができる。一つの状態は、注視点自体であるとすることができ、従って、ここでは、差分注視点推定に基づき注視点推定のタスクを実行する。個人の一つの追加の状態は、その時々に現れる眼の動きであるとすることができる、即ち、人が断続的な眼の動きをしているのか、或いは個人が単一の点を凝視しているのかである。
【0081】
注視点推定の一つの用途において、差分方法及び差分機械32は、入力画像と一つ又は複数の基準画像の間の注視点差分を推定するために使用することができ、各基準画像は基準注視点(注視点の真値)を有する。ユーザーの注視点は、推定された注視点差分と基準注視点とに基づき推定することができる。
【0082】
この差分方法及び差分機械32は、注視点(又は眼)を追尾するために使用することができる。一連の注視点推定は、新しい入力画像と一つ又は複数の基準画像に対する差分操作を反復することによって実現することができる。それに代わって、第一の注視点推定は、第一の入力画像と一つ又は複数の基準画像に対する差分操作によって実現される一方、それに続く注視点推定は、この第一の注視点推定に関する注視点差分を決定することによる(例えば、新しい入力画像とそれ以前の入力画像に対する差分操作による)推定である。それに代わって、第一の注視点推定は、絶対的な注視点推定システムによって実現され、従って、前記の第一の画像は、基準画像の集合に追加される。
【0083】
この差分方法及び差分機械32は、(眼/注視点)のエンドポイント予測のために、例えば、眼(注視点)のその時々の位置に関する眼の位置(又は注視点)を予測するために使用することができる。この差分操作が高精度で高いフレームレートを有すると仮定すると、眼が動き始めた後、眼が動きを止める将来時点が何時であるのかを予測することが可能である。
【0084】
従って、ユーザーの注視点を解析する(特に、注視点の差分/変化を推定する)方法は、
ユーザーの眼11の入力画像10を読み込む工程と、
個人の眼21の所与の画像20を読み込む工程と、
入力画像10と前記の第一の基準画像20を処理して、入力画像における眼の注視点12と前記の第一の基準画像における眼の注視点22の間の第一の注視点差分30を推定する工程と、
を有することができる。
【0085】
幾つかの実施形態では、所与の画像は、基準注視点(例えば、基準画像)と関連する。
【0086】
この差分方法及び差分機械32は、眼の動きの形式(例えば、凝視、サッケードなど)の分類のために使用することができる。この差分操作は、時系列の注視点差分推定を提供することができ、これらの推定は、一連の動きのクラス(例えば、眼が断続的な動き、凝視、マイクロサッケードなどを呈するのか)を予測するために、システム(例えば、別のニューラルネットワークなどの分類アルゴリズムに頼るシステム及び/又はそれを有するシステム)への入力として提供することができる。
【0087】
この差分方法及び差分機械32は、ユーザーの精神的な状態を推定するために使用することができる。この差分操作は、ユーザーの眼の動き、例えば、マイクロサッケードの測度及び/又はクラスを提供すること、或いはユーザーの特別な精神的な状況及び/又は状態の推定及び/又は決定を可能にする時系列の差分注視点推定を実現することができる。
【0088】
例えば、この差分方法及び差分機械32は、疲労及び/又は眠気を検出するために使用することができる。時系列の注視点差分に基づき、眼の不安定又は緩慢な動きにより、個人が如何に疲れているのかを推測することが可能である。この差分操作は、ユーザーの眼/注視点の相対的な動きの存在又は欠如、その頻度及び/又は速度、特に、眼の普通でない動きを規定すること、そのため、疲労及び/又は眠気を検出することができる。
【0089】
従って、ユーザーの注視点を解析する(特に、エンドポイントまでの時間又は疲労/眠気を予測する)方法は、
ユーザーの眼の画像(画像サンプル)の時系列を読み込む工程と、
時系列の注視点差分を使用して、連続する画像サンプルの間の注視点差分を読み込んで、ユーザーの眼の動きの状態の予測及び/又は眼/注視点の動き(例えば、凝視状態又はサッケード状態)の分類を行う工程と、
を有することができる。
【0090】
従って、それに代わって、ユーザーの注視点を解析する(特に、エンドポイントまでの時間又は疲労/眠気を予測する)方法は、
ユーザーの眼の画像(画像サンプル)の時系列を読み込む工程と、
連続する画像サンプルの間の注視点差分を読み込む工程と、
眼の動きのモデルを読み込む工程と、
時系列の注視点差分と眼の動きのモデルを使用して、眼が動きを止める将来時点及び/又は眼の動き又はユーザーの状態の予測及び/又は眼/注視点の動きの分類を行う工程と、
を有することができる。
【0091】
上述した使用場面及び用途に基づき、ユーザーの注視点を解析する方法は、
少なくとも二つの画像を含む画像の集合を読み込む工程であって、この集合の各画像が、個人の少なくとも一つの眼の見え方を含む工程と、
前記の画像の集合を使用するように構成された差分機械(例えば、回帰モデル)32を読み込む工程と、
前記の差分機械を使用して、前記の画像の集合を処理して、この集合の少なくとも二つの画像の間の注視点の差分を推定する工程と、
を有することができる。
【0092】
幾つかの実施形態では、前記の集合の中の少なくとも一つ画像が基準注視点と共に提供される。
【0093】
上述した使用場面及び用途に基づき、ユーザーの注視点を解析するシステム(又は装置)は、
少なくとも二つの画像を含む画像の集合を読み込む画像読込モジュール61,62であって、この集合の各画像が、個人の少なくとも一つの眼の見え方を含む、好ましくは、この集合の少なくとも一つの画像が基準注視点と共に提供される画像読込モジュールと、
前記の画像の集合を使用して、この画像の集合の中の少なくとも二つの画像の間の注視点の差分を推定するように構成された差分機械(例えば、回帰モデル)32と、
を備えることができる。
【0094】
一つの実施形態では、画像は、眼の見え方を正規化して、頭部の姿勢、カメラの位置、照明、センサー雑音、数値のばらつきなどの要因によって引き起こされる変動を除去するために処理される。
【0095】
好ましい実施形態では、画像は、恰も頭部の姿勢が静止又は既知であるかのように見える、或いはそれに代わって、恰もカメラが頭の所与の視点に配置されているかのように見える眼の画像を取得するために、及び/又は特定の画像処理を施すために、二次元/三次元の頭部姿勢測定と、例えば、飛行時間型カメラ、ステレオカメラ、構造光カメラ、或いは単眼式三次元頭部追尾等により与えられる三次元の顔モデル又深度測定とに基づき矯正される。
【符号の説明】
【0096】
10 入力画像
11 ユーザーの眼
12 注視点
20,20
a−e 基準画像
21 眼
22 基準注視点
23 ユーザー/眼の識別子
25 データベース
30 注視点差分
32 差分機械
33 注視点推定器
34,35 ニューラルネットワーク
40 測定された注視点差分と推定された注視点差分の間の誤差
50,51 テスト画像/訓練画像
52,53 基準注視点
54 測定された注視点差分
55 訓練用データベース
60 移動体機器
61 基準画像読込モジュール
62 入力画像読込モジュール
63 処理モジュール
64 データベース
65 カメラ
66 スクリーン
67 ボタン
68 通信モジュール
【国際調査報告】