(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体
(51)【国際特許分類】
G06F 3/01 20060101AFI20240711BHJP
G06F 3/0346 20130101ALI20240711BHJP
G06T 7/00 20170101ALI20240711BHJP
G06T 7/70 20170101ALI20240711BHJP
A61B 3/113 20060101ALI20240711BHJP
【FI】
G06F3/01 570
G06F3/0346 426
G06T7/00 350C
G06T7/70 Z
A61B3/113
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023578762
(86)(22)【出願日】2022-06-27
(85)【翻訳文提出日】2024-02-14
(86)【国際出願番号】 EP2022067614
(87)【国際公開番号】W WO2023274981
(87)【国際公開日】2023-01-05
(32)【優先日】2021-07-02
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】520417403
【氏名又は名称】イニベーション・アー・ゲー
(74)【代理人】
【識別番号】110001173
【氏名又は名称】弁理士法人川口國際特許事務所
(72)【発明者】
【氏名】デブルナー,トーマス
(72)【発明者】
【氏名】ジロー,ピエール
【テーマコード(参考)】
4C316
5B087
5E555
5L096
【Fターム(参考)】
4C316AA21
4C316FA18
4C316FA19
4C316FB11
4C316FB26
4C316FC04
4C316FC28
4C316FY02
4C316FY04
4C316FY09
4C316FZ01
5B087AA07
5B087AB05
5B087AE09
5B087BC05
5B087BC32
5B087DD03
5E555AA64
5E555AA71
5E555BA38
5E555BB38
5E555BC01
5E555BE17
5E555CA42
5E555CB65
5E555DA01
5E555EA22
5E555EA27
5E555FA00
5L096BA18
5L096CA17
5L096FA06
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
本発明は、視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体に関する。1.視線追跡デバイスは:ユーザの目(2)から反射した放射を受け取り、イベント(31)の信号ストリーム(3)を作り出すように構成されるイベントベースの光センサ(1)であって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、イベントベースの光センサ(1);‐ 放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、前記目(2)に前記放射を送るように構成された1つ以上の閃光源(11、12);‐ 前記光センサ(1)に接続され、前記光センサ(1)からイベント(31)の信号ストリーム(3)を受け取り、イベント(31)の前記信号ストリーム(3)に基づいて:第1の瞬間での、前記目(2)の凝視情報(P)と;前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と;‐ 第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(Mt)とを生成するように構成されたコントローラ(4)を備え、前記コントローラ(4)は、前記第2の閃光情報(Mt)に基づいて、前記第2の瞬間での前記目(2)の予測凝視情報(Pt)を生成するように構成される。
【特許請求の範囲】
【請求項1】
ユーザの目(2)から反射した放射を受け取り、イベント(31)の信号ストリーム(3)を作り出すように構成されるイベントベースの光センサ(1)であって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、イベントベースの光センサ(1)、
放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、前記目(2)に前記放射を送るように構成された1つ以上の閃光源(11、12)、
コントローラ(4)であって、前記光センサ(1)に接続され、前記光センサ(1)からイベント(31)の信号ストリーム(3)を受け取り、イベント(31)の前記信号ストリーム(3)に基づいて、
第1の瞬間での、前記目(2)の凝視情報(P)と、
前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と、
第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(M
t)と
を生成するように構成されたコントローラ(4)
を備える視線追跡デバイスであって、
前記コントローラ(4)が、前記第2の閃光情報(M
t)に基づいて、前記第2の瞬間での前記目(2)の予測凝視情報(P
t)を生成するように構成される、視線追跡デバイス。
【請求項2】
前記コントローラ(4)が、前記第2の閃光情報(M
t)、前記凝視情報(P)、および前記第1の閃光情報(M)に基づいて、前記予測凝視情報(P
t)を生成するように構成されることを特徴とする、請求項1に記載の視線追跡デバイス。
【請求項3】
前記コントローラ(4)が、前記凝視情報(P)および前記第1の閃光情報(M)に基づいて、モデルパラメータ(β)を決定し、前記第2の閃光情報(M
t)および前記モデルパラメータ(β)に基づいて、前記予測凝視情報(P
t)を生成するように構成されることを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項4】
前記コントローラ(4)が、凝視情報(P)および対応する第1の閃光情報(M)を反復的に生成し、複数の以前に生成した凝視情報(P)および対応する第1の閃光情報(M)に基づいて、前記モデルパラメータ(β)を更新するように構成されることを特徴とする、請求項3に記載の視線追跡デバイス。
【請求項5】
前記コントローラ(4)が、凝視情報(P)を反復的に生成し、予測凝視情報(P
t)を反復的に生成するように構成され、前記予測凝視情報(P
t)が、前記凝視情報(P)が生成される速度の少なくとも2倍、3倍、5倍、または8倍の速度で生成されることを特徴とする、請求項1から4のいずれか一項に記載の視線追跡デバイス。
【請求項6】
前記1つまたは複数の閃光源が、時間的に変調された放射を目(2)に送るように構成されることを特徴とする、請求項1から5のいずれか一項に記載の視線追跡デバイス。
【請求項7】
前記目(2)に時間的に変調された放射を送るように構成される少なくとも2つの閃光源(11、12)であって、前記閃光源(11、12)のうちの1つからの放射が、前記閃光源の他のものからの放射とは異なる周波数を有する、少なくとも2つの閃光源(11、12)を特徴とする、請求項6に記載の視線追跡デバイス。
【請求項8】
前記コントローラ(4)が、人工ニューラルネットワーク(5)、具体的には再帰型ニューラルネットワーク、好ましくは少なくとも1つの記憶化層を有する再帰型ニューラルネットワークを利用して前記凝視情報を生成するように構成されることを特徴とする、請求項1から7のいずれか一項に記載の視線追跡デバイス。
【請求項9】
前記コントローラ(4)が、周波数ベースのアルゴリズムの助けによって、前記第1の閃光情報(M)および/または前記第2の閃光情報(M
t)を生成するように構成されることを特徴とする、請求項1から8のいずれか一項に記載の視線追跡デバイス。
【請求項10】
前記凝視情報が、前記ユーザの凝視方向、前記ユーザの前記目のひとみ中心位置、前記ユーザの前記目のひとみ輪郭、および/または前記ユーザの前記目の眼瞼位置を含むことを特徴とする、請求項1から9のいずれか一項に記載の視線追跡デバイス。
【請求項11】
放射がユーザの目(2)から反射し前記イベントベースの光センサ(1)によって受け取られるように、ユーザの前記目(2)に放射を送るように構成された放射源(10)であって、目(2)に送られる放射が実質的に連続波であるように、および/または目(2)に送られる放射が実質的に前記目(2)の角膜全体または露出面全体を照射するように構成される放射源(10)を特徴とする、請求項1から10のいずれか一項に記載の視線追跡デバイス。
【請求項12】
放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、1つ以上の閃光源(11、12)によって前記目(2)に前記放射を送るステップと、
ユーザの目(2)から反射した放射がイベントベースの光センサ(1)によって受け取られることに起因して前記イベントベースの光センサ(1)によって作り出された、イベント(31)の信号ストリーム(3)を受け取るステップであって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、ステップと、
イベント(31)の前記信号ストリーム(3)に基づいて、
第1の瞬間での、前記目(2)の凝視情報(P)と、
前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と、
第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(M
t)と
を生成するステップと
を含む視線追跡方法であって、
前記目(2)の前記予測凝視情報(P
t)が、前記第2の閃光情報(M
t)に基づいて前記第2の瞬間に生成される、視線追跡方法。
【請求項13】
コンピュータまたはマイクロコントローラによって実行されるとき、
放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、1つ以上の閃光源(11、12)によって前記目(2)に前記放射を送るステップと、
ユーザの目(2)から反射した放射がイベントベースの光センサ(1)によって受け取られることに起因して前記イベントベースの光センサ(1)によって作り出された、イベント(31)の信号ストリーム(3)を受け取るステップであって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、ステップと、
イベント(31)の前記信号ストリーム(3)に基づいて、
第1の瞬間での、前記目(2)の凝視情報(P)と、
前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と、
第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(M
t)と
を生成するステップと
をコンピュータまたはマイクロコントローラに遂行させる命令を含むコンピュータ可読媒体であって、
前記目(2)の前記予測凝視情報(P
t)が、前記第2の閃光情報(M
t)に基づいて前記第2の瞬間に生成される、コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視線追跡デバイス、視線追跡方法、およびコンピュータ可読媒体に関する。
【背景技術】
【0002】
視線追跡とは一般に、ユーザと呼ばれる人間の目または凝視の運動の監視を指す。しかしながら、ユーザはもちろん、眼窩内で視線方向を変更することのできる目を有する任意の他の生物でもよい。
【0003】
ユーザの凝視を追跡する1つの可能な方法は、間隔を置いて目のイメージの全フレーム、すなわち従来型フレームを取得する従来型ビデオまたはフォトカメラによるものである。次いで、カメラに接続されたコントローラが、こうしたイメージフレームのそれぞれを解析して、フレームが取り込まれたときのひとみの位置を決定し、したがってユーザが見ている方向を推論することを可能にする。この方法は、コントローラが解析するための目のイメージを取得する、ビデオカメラやフォトカメラなどのフレームベースのカメラの使用を必要とする。そのような従来型カメラ、すなわちフレームベースのカメラは、多くの場合低速である。それはまた、カメラとコントローラとの間で転送する必要のある大量のデータを作り出す。
【0004】
視線追跡プロセスは、ダイナミックビジョンセンサ(DVS)とも呼ばれる、イベントベースのカメラまたはイベントベースのセンサを利用することによって加速され得る。EP3598274A1は、複数のカメラを備え、カメラのうちの1つがイベントベースのカメラすなわちDVSであるシステムを説明している。US10466779A1は、DVSデータを使用する視線追跡システムを説明しており、受け取ったDVSデータを従来型フレームに類似した強度イメージに変換するための方法を略述している。
【0005】
純粋にイベントベースのセンサ出力の獲得を、視線追跡のための畳込みニューラルネットワークを使用する機械学習手法と組み合わせる方法が、WO2019147677A1で説明されている。その中では、イベントカメラからのイベントを蓄積して、強度イメージ、頻度イメージ、またはタイムスタンプイメージを作り出し、その後でそれらがニューラルネットワークアルゴリズム内に供給されて、様々な凝視パラメータが予測されるシステムが説明されている。説明されたシステムは、イベントデータから強度イメージの近似を作るための一般的でよく知られている技法である、手作りの静的蓄積レジームを使用する。純粋にイベントベースのセンサ出力の獲得を、視線追跡のための畳込みニューラルネットワークを使用する機械学習手法と組み合わせる改善された方法が、欧州特許出願EP20184020.4で説明されている。この改善された方法は、ユーザの目から反射しイベントベースの光センサによって受け取られた放射に起因してイベントベースの光センサによって生成された、イベントの信号ストリームを受け取ることと、第1の人工ニューラルネットワークによって、機械学習モジュールへの入力として利用される推論フレームを生成することと、機械学習モジュールを動作させて出力データを取得することと、出力データから、前記ユーザの目に関する、求められている情報を抽出することとを含む。この方法では、具体的には、ひとみの位置または凝視方向が抽出され得、これが以下では「ひとみ抽出」と呼ばれることがある。この方法により、目の動きの追跡の信頼性が高まるが、抽出プロセスには時間がかかり、比較的レイテンシが長くなる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】欧州特許出願公開第3598274号明細書
【特許文献2】米国特許第10466779号明細書
【特許文献3】国際公開第2019/147677号
【発明の概要】
【発明が解決しようとする課題】
【0007】
したがって、本発明の目的は、ユーザの目の運動をより迅速に追跡するためのデバイスおよび方法を提案することである。
【課題を解決するための手段】
【0008】
本発明によれば、この目的は、請求項1の特徴を有する視線追跡デバイスと、請求項12の特徴を有する視線追跡方法と、請求項13の特徴を有するコンピュータ可読媒体とを提供することによって満たされる。本発明のさらに有利な実施形態が、従属請求項の主題である。
【0009】
本発明によれば、イベントベースの光センサと、センサに接続されたコントローラ。ユーザの目から反射した放射が、イベントベースの光センサによって受け取られ、イベントベースの光センサは、放射に応答してイベントの信号ストリームを作り出すように構成される。この信号ストリームがコントローラに送られ、コントローラは、視線追跡プロセスの結果を取得するために、信号ストリームに関する様々なプロセスを行う。したがって、コントローラは、以下で説明される解析を行うための少なくとも処理ユニットおよびメモリを備え得る。以下では、イベントベースの光センサは単にイベントセンサと呼ばれる。
【0010】
センサ、具体的にはダイナミックビジョンセンサは、配列に配置されたいくつかの個々のピクセルを備え、各ピクセルは、感光セルまたは感光エリアを有する。その感光セルに作用する入射光の時間的変化の検出時に、本明細書では単に「イベント」と呼ばれるイベント信号が生成される。したがって、センサによって作り出されたイベントの信号ストリーム中の各イベントは、前記光センサの1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する。各イベントは、具体的には、配列内の対応するピクセルの位置と、時間的変化の極性、および任意選択で大きさをも示すインディケーションと、変化が生じた時刻とを含む。イベントまたはイベントデータは、さらなる処理のために信号ストリームの部分としてコントローラに送られる。
【0011】
視線追跡デバイスは1つ以上の閃光源をさらに備える。閃光源は、放射がユーザの目の角膜から反射し1つ以上の個々の閃光の形で前記イベントセンサによって受け取られるように、前記目に前記放射を送るように構成される放射源である。通常、8から15個の間の閃光源があり、任意の所与の時刻に、目、好ましくは目の角膜に対する4から8個の閃光をもたらす。
【0012】
閃光源からの反射光と、目の表面から反射する他の放射が共にイベントセンサに当たるので、コントローラによって受け取られる信号ストリームは、全体としての目に関する情報、ならびに目の表面またはセンサ平面上の閃光の位置に関する情報を取得するために利用され得る。コントローラは、この凝視情報およびこの閃光情報を抽出するように構成される。本発明は、閃光情報を利用して、新しく抽出された凝視情報が利用不能であるときにはいつでも凝視情報を予測するという概念に基づく。言い換えれば、閃光情報は、実際の凝視情報がコントローラによって抽出されるインスタンスの間の、凝視に関する情報を予測するために利用される。イベントの信号ストリームから閃光情報を抽出し、閃光情報から凝視情報を予測することにかかる時間は、イベントの信号ストリームから凝視情報を抽出することよりも短いので、予測凝視情報の助けによって、より高い頻度で凝視情報を更新し、したがってレイテンシを低減することが可能である。
【0013】
したがって、コントローラは、凝視情報および第1の閃光情報を生成するように構成される。生成された凝視情報および前記1つまたは複数の閃光の第1の閃光情報は、第1の瞬間からのものである。したがって、それらは同期的または実質的に同期的である。そのことは、それらが第1の瞬間での、凝視のステータスおよび閃光のステータス、具体的には閃光の位置を記述することを意味する。第1の瞬間は、具体的には、目から来る、凝視および閃光情報を含む放射がイベントセンサに到達する瞬間であり得る。コントローラは、第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報を生成するようにさらに構成される。第2の閃光情報を利用して、コントローラは目の予測凝視情報を生成する。ここでは、予測凝視情報は、第1の瞬間での凝視情報のように、受け取った信号ストリームから直接的に抽出されない情報である。混乱を避けるために、後者はある時点では「抽出」凝視情報と呼ばれることがある。
【0014】
有利な実施形態によれば、コントローラは、前記第2の閃光情報、前記凝視情報、および前記第1の閃光情報に基づいて、前記予測凝視情報を生成するように構成される。凝視情報および第1の閃光情報は、閃光情報と凝視情報との間の関係を見つけるために利用され得、それによって、連続的に決定された第2の閃光情報が第2の瞬間での凝視情報を予測するために利用され得る。
【0015】
好ましくは、コントローラは、前記凝視情報および前記第1の閃光情報に基づいて、モデルパラメータを決定し、前記第2の閃光情報および前記モデルパラメータに基づいて、前記予測凝視情報を生成するように構成される。具体的には、ベクトルおよび/または行列操作技法によってモデルパラメータが取得され得、凝視情報が凝視行列内に配置され、第1の閃光情報が閃光情報行列内に配置され、モデルパラメータがベクトルで決定される。次いで、第2の閃光情報行列内に配置された第2の閃光情報と、モデルパラメータとを使用して、予測凝視情報行列が計算され得る。さらなるステップでは、予測凝視情報が予測凝視情報行列から取られ得る。
【0016】
好ましい実施形態によれば、コントローラは、凝視情報および対応する第1の閃光情報を反復的に生成し、複数の以前に生成した凝視情報および対応する第1の閃光情報に基づいて、前記モデルパラメータを更新するように構成される。以前にはとは、この場合は、具体的には、モデルパラメータが基づく凝視情報および対応する第1の閃光情報が、モデルパラメータを更新するときより前からのものであることを意味する。言い換えれば、前述のように、コントローラは、第1の瞬間に凝視情報および第1の閃光情報を生成する。次いで、コントローラは、第1の瞬間より後の第2の瞬間に、さらなる凝視情報およびさらなる第1の閃光情報を生成する。第1の瞬間と同じく、さらなる凝視情報およびさらなる第1の閃光情報が第2の瞬間からのものであるということは、具体的には、目から来る、さらなる凝視情報および閃光情報を含む放射が第2の瞬間にイベントセンサに到達することを意味し得る。一方で凝視情報および第1の閃光情報を生成することと、他方でさらなる凝視情報および第1の閃光情報を生成することの間で、コントローラは、少なくとも1つの、しかしながら好ましくは2つまたは複数の予測凝視情報を生成する。
【0017】
説明として、第1の閃光情報は、具体的には凝視情報と同時に抽出される閃光情報を指す。以下でさらに説明されるように、抽出された凝視情報と、抽出された第1の閃光情報は共に、モデルをトレーニングするための入力データの部分を形成する。これは、任意のさらなる第1の閃光情報にも当てはまり、これも、対応する凝視情報と対にされ、モデルをトレーニングまたは更新するためのトレーニングデータに加えられる。一方、第2の閃光情報は、具体的には、モデルをトレーニングまたは更新するためにトレーニングデータに加えられず、トレーニングデータとして使用されない閃光情報である。これは、たとえば、第2の閃光情報について(時間的に)対応する凝視情報がないからであり得る。有利には、第2の閃光情報は、モデルの助けによって凝視情報を予測するためだけに使用される。
【0018】
有利には、コントローラは、凝視情報を反復的に生成し、予測凝視情報を反復的に生成するように構成され、前記予測凝視情報は、前記凝視情報が生成される速度の少なくとも2倍、3倍、5倍、または8倍の速度で生成される。たとえば、凝視情報は2ミリ秒(ms)ごとに生成され得、予測凝視情報は0.5msごとに生成され得る。これは、2つの凝視情報の生成の間に3つの凝視情報の予測が行われることを意味することになる。したがって、この場合は、抽出された凝視情報の生成の速度の3倍の速度で予測凝視情報が生成される。
【0019】
複数の閃光源が利用される場合、有利には、異なる位置で、具体的には目の表面上の異なる位置で、および/または光センサのセンサ平面内の異なる位置で複数の閃光を生成するように閃光源が配置され得る。有利には、5から20個までの間の数の閃光源、好ましくは8から18個までの間の閃光源、より有利には10から15個までの間の閃光源が使用される。任意の所与の時刻に光センサによって可視である閃光の数は通常、利用される閃光源の数よりずっと少ない。一例として、視線追跡デバイスが12個の閃光源を備えるとき、通常は約6個の閃光が任意の所与の時刻にデバイスによって検出可能となる。
【0020】
好ましくは、前記1つまたは複数の閃光源が、時間的に変調された放射を目に送るように構成される。利用される、放射が変調される変調周波数にロックオンすることにより、コントローラは、閃光源からの放射と、目から反射するあるいは光センサに到達する他の放射との間をより良好に区別し得、したがって閃光抽出を改善することができる。有利には、変調周波数は0.2kHzから5kHzの間、より有利には0.5kHzから2kHzの間であり得る。
【0021】
好ましくは、視線追跡デバイスは少なくとも2つの閃光源を備え、それらは、前記目に時間的に変調された放射を送るように構成され、前記閃光源のうちの1つからの放射は、前記閃光源の他のものからの放射とは異なる変調周波数を有する。3つ以上の閃光源を利用するとき、閃光源の変調周波数は互いに異なり得る。代替として、互いに異なる変調周波数を有する閃光源内で、1つ以上のグループ閃光源があり得、グループ内の閃光源は本質的に同一の変調周波数を有する。前述の変調周波数または変調周波数のうちのいずれか1つは、コントローラにとって既知であり、または未知であり得る。
【0022】
好ましくは、コントローラは、従来のフレームベースのカメラによって収集されたイメージフレームにアクセスする必要なしに、もっぱらイベントの信号ストリームに基づいて前記凝視情報を生成するように構成される。有利には、前記コントローラは、機械学習モジュールを利用して前記凝視情報を生成するように構成される。具体的には、コントローラは、人工ニューラルネットワーク、たとえば再帰型ニューラルネットワーク、好ましくは少なくとも1つの記憶化層(memoized layer)を有する再帰型ニューラルネットワークを利用して、前記凝視情報を生成するように構成される。コントローラは、推論フレームを生成し、次いで生成した推論フレームを機械学習モジュールに渡すために人工ニューラルネットワークを利用し得る。この実施形態では、イベントのストリームを推論フレームに変換するために人工ニューラルネットワークが使用され、次いで推論フレームが機械学習モジュールによって処理され得る。代替として、コントローラは、手作りの静的蓄積レジームを使用して、イベントデータから推論フレームを作り、機械学習モジュール内に入力するように構成され得る。そのような人工ニューラルネットワークの使用が、引用によりその全体が本明細書に組み込まれるEP20184020.4に詳細に説明されている。
【0023】
再帰型ニューラルネットワーク、略してRNNは、具体的には、RNNからの最後の出力がRNNへと何らかの方法で、たとえば最後の層で、最初の層で、および/またはそれらの間の何らかの層で、フィードバックされ、または供給されることを意味する。有利には、RNNの出力がRNNの入力にフィードバックされる。具体的には、RNNアルゴリズムの連続する実行中に、RNNアルゴリズムの一回の実行の後のRNNの出力が、RNNに対する複数の入力のうちの1つとして利用され得る。
【0024】
人工ニューラルネットワークは複数の層を備え得、そのうちの1つ、2つ、またはそれより多くは畳込み層であり得る。したがって、人工ニューラルネットワークがRNNである場合は、畳込み再帰型ニューラルネットワークとも呼ばれることがある。人工ニューラルネットワークはまた、実行後の出力と、ニューラルネットワークアルゴリズムの連続する実行のための新しい入力とを結合するまたは連結するために、連結層を具体的には最初の層として備える。さらに、ニューラルネットワークは、1つ、2つ、もしくはそれより多くの非線形活性化関数、具体的には整流器(rectifier)、および/または正規化層を備え得る。
【0025】
好ましくは、人工ニューラルネットワークの層のうちの1つ、2つ、またはそれより多くは記憶化層である。記憶化層は、最後のパスの間に、すなわちニューラルネットワークアルゴリズムの最後の実行の間に、その層の結果を記憶する。記憶化層は実装を可能にし、あらゆるパスの間に、入力スパーステンソル内のゼロでないテンソル要素に依存する、記憶化層の記憶された値のみが更新される。この技法は、ニューラルネットワーク推論スピードを著しく加速し、いくつかの実施形態では、連続する機械学習モジュールについてのより良好な品質の推論フレームが得られ得る。
【0026】
1つまたは複数の記憶化層を利用することの背後にある概念は、前の層の変化が非常にわずかであるとき、影響を受けるニューラルネットワークの内部値/状態を更新することだけで十分であるということである。これは、ニューラルネットワーク内の状態を更新することに関する処理能力を節約し得る。畳込み層に加えて、非線形活性化関数および/または正規化層も記憶化され得る。有利には、あらゆる畳込み層および/またはあらゆる非線形活性化関数が、記憶化される種類のものであり得る。この場合は、あらゆる層で、入力の変化によって直接的に影響を受ける値だけが更新される。
【0027】
好ましい実施形態によれば、機械学習モジュールはさらなる人工ニューラルネットワークを備える。
【0028】
有利な実施形態によれば、前記コントローラは、周波数ベースのアルゴリズムの助けによって、前記第1の閃光情報および/または前記第2の閃光情報を生成するように構成される。具体的には、そのような周波数ベースのアルゴリズムは、離散フーリエ変換(DFT)を使用して入力をフィルタリングすることによって実装され得る。
【0029】
本明細書で説明される凝視情報は、前記ユーザの凝視方向、前記ユーザの前記目のひとみ中心位置、前記ユーザの前記目のひとみ輪郭、および/または前記ユーザの前記目の眼瞼位置を含み得る。これらは、視線追跡デバイスが獲得することが関心となり得る重要な属性である。したがって、有利には、コントローラが、イベントの前記信号ストリームに基づいてこれらの属性のうちの1つまたは複数を生成するように構成される。
【0030】
視線追跡デバイスのイベントセンサは、赤外線(IR)放射などの特定の波長範囲からの放射のみを検出するために、光学フィルタ、具体的には赤外線帯域フィルタを備え得る。目から反射する放射が周辺光であることは可能であるが、そのような手法は、場合によっては低い放射レベルまたは光擾乱のために寄生信号を作り出し得るという欠点を有する。したがって、有利には、ユーザの目に放射を送るように構成される放射源が設けられ、放射がその目から反射しイベントベースの光センサによって受け取られる。放射源がユーザの気を散らさないようにするために、放射源が作り出す放射は、可視レジームの十分に外側であるべきである。好ましくは、放射源は赤外線(IR)放射器である。
【0031】
前記放射源は、目に送られる放射が実質的に連続波であるように、および/または目に送られる放射が実質的に前記目の角膜全体または露出面全体を照射するようにさらに構成される。これらの追加の特徴は、放射源から来る放射を、閃光源から来る放射から区別するためにコントローラによって使用され得る。
【0032】
好ましくは、放射源および/または閃光源は、ソリッドステート構成要素、具体的には発光ダイオード(LED)から作成され、および/または有機発光ダイオード(OLED)などの有機材料を含み得る。
【0033】
有利には、視線追跡デバイスは、前記ユーザの身体、具体的には彼または彼女の頭部に視線追跡デバイスを取り付けるためのボディマウント可能装置、具体的にはヘッドマウント可能装置を含む。そのようなデバイスについての用途分野には、バーチャルリアリティまたは拡張現実が含まれ得、バーチャルリアリティまたは拡張現実はフォービエイティッドレンダリングの実装をサポートし得る。
【0034】
好ましくは、コントローラによって生成された凝視情報および/または予測凝視情報がコンピューティングデバイスに送られる。コンピューティングデバイスは、コンピューティングデバイス上で実行されるプログラム、アルゴリズム、および/またはプロセスを制御または操作するための入力または複数の入力のうちの1つとして、受け取った情報を利用し得る。情報は、コンピューティングデバイスに送られる前に、コントローラによって記憶および/または処理され得る。一例として、コンピューティングデバイスは、ユーザのヘッドセット内の画面を制御するバーチャルリアリティプログラムを実行中であり得る。その場合、画面内に示されるイメージおよびビデオは、コントローラによって提供される凝視情報および予測凝視情報に依存し得る。
【0035】
本発明のさらなる態様によれば、視線追跡方法およびコンピュータ可読媒体が提供される。視線追跡デバイスに関連して上記で説明された任意の特徴はまた、視線追跡方法またはコンピュータ可読媒体で、単独で、または適切な組合せで使用され得る。
【0036】
本発明の実施形態のいくつかの例が、添付の概略図面を参照しながら以下の説明でより詳細に説明される。
【図面の簡単な説明】
【0037】
【
図1】好ましい一実施形態による視線追跡デバイスのセットアップの概略図である。
【
図2】凝視情報を予測するプロセスの粗い構造を視覚化する流れ図である。
【
図3】好ましい実施形態による視線追跡デバイスによって行われる異なる処理ステップの流れ図である。
【
図4】好ましい実施形態による視線追跡デバイスによるプロセスでのステップを視覚化する概略図である。
【発明を実施するための形態】
【0038】
図1は、好ましい実施形態による視線追跡デバイスのセットアップを概略図で示す。放射源10は、放射(破線で表される)を送り出し、放射はユーザの目2から反射し、これが追跡される。反射した放射(破線で表される)は、イベントベースの光センサ1、または略してイベントセンサ1に入射する。放射源10、イベントセンサ1、および放射を集束させるための光学レンズ(図示せず)が、眼鏡、バーチャルリアリティ(VR)、または拡張現実(AR)デバイスなどのヘッドマウント可能デバイス(図示せず)上に取り付けられる。イベントセンサ1は赤外線帯域フィルタを装備する。目の動きが、ユーザの目2から反射する放射12の光強度の変化を引き起こす。こうした光強度の変化または変動が、イベントセンサ1によってピックアップされる。それに応答して、イベントセンサ1は、光変化イベントのストリーム3を生成し、ストリーム3が処理のためにコントローラ4に送信される。
【0039】
この処理は、再帰型ニューラルネットワーク(RNN)についての適切な入力を取得するためのイベントのストリーム3の前処理と、推論フレームを取得するために、前処理したデータに対してRNNを行うことと、所望の属性を推定するための畳込みニューラルネットワーク(CNN)を行うこととを含み得る。しかしながら、コントローラが凝視情報を取得するためにさらなる追加および/または代替の処理ステップが使用され得る。目から反射してイベントセンサ1によって検出される放射として、放射源10の代わりに周辺光が利用され得ることにも留意されたい。
【0040】
図1には2つの閃光源11、12も示されている。通常は10、12、14個の閃光源などのより多数の閃光源が有利であり得るので、これは単に明快のためであり得る。各閃光源11、12は、目2に向けて放射を送り出し、これらは
図1では、閃光源11、12から目2へつながる矢印の形で示されている。目から離れる矢印として示される反射光が、イベントセンサ1に作用する。閃光源11、12からの放射が、イベントベースの光センサによって閃光の形で受け取られる。実際に2つの閃光源11、12だけが利用される場合、目2の角膜21から来る、イベントセンサ1平面上で可視である閃光の数は、目2、閃光源11、12、およびイベントセンサ1の互いに対する向きに応じて、任意の所与の瞬間で0、1、または2個であり得る。
【0041】
放射源10から生じる放射と、閃光源11、12から生じる放射は共にイベントセンサに作用するので、イベントセンサ1によって生成されるイベントのストリーム3も両者に依存する。イベントセンサ1から受け取ったイベントのストリーム3から凝視情報と凝視情報を共に抽出するのはコントローラ4の責任である。
【0042】
図2の流れ図は、好ましい実施形態による凝視情報を予測するプロセスの粗い構造を視覚化する。第1のステップ101では、コントローラが、イベントセンサ1によって生成されたイベントデータをイベントの信号ストリーム3の形で受け取る。コントローラ4は、イベントデータからひとみ位置などの凝視情報を抽出する(ステップ103)。前述のように、凝視情報の抽出は、機械学習モジュールおよび/または人工ニューラルネットワークを備える抽出モジュールを利用して行われ得る。コントローラ4は、イベントデータから閃光情報、具体的には目2の角膜21上の1つまたは複数の閃光の位置をさらに抽出する(ステップ102)。続くステップ104では、抽出された凝視情報および閃光情報が、モデルパラメータを計算するために利用される。次いで、これらモデルパラメータは、抽出された凝視情報が利用可能ではない時間インスタンスについて凝視情報を予測する(105)ために、すなわち予測凝視情報を生成するために利用され得る。
【0043】
本明細書で説明される視線追跡デバイスに関連して利用され得る1つの可能なモデルが以下で論じられる。このモデルは、閃光位置に基づいてひとみ情報を予測するために設計される。その概念はライブトレーニング(live training)に基づく。モデルについての「トレーニング」データは、N個の対{Pt,{G1,G2,...,Gn}t}のセットである。各対は、タイムスタンプtでのひとみデータPtと、タイムスタンプtでのn個の閃光に関する閃光データG1,G2,...,Gnとを含む。ひとみデータは、具体的にはひとみの位置および/または向きを記述し得、閃光データは閃光の位置を記述し得、Gnはn番目の閃光についての閃光データである。
【0044】
各対の閃光データおよびひとみデータが時間的に整列されている、適切な数の閃光データ/ひとみデータの対の蓄積後、取り出された対の数に応じて、モデルが特定のパラメータ(たとえば、閃光の数および/またはパワー(power))で初期化され得る。モデルは、検出された閃光の数および組合せに連続的に適合するように設計される。言い換えれば、モデルが更新され、任意の遭遇する閃光組合せに関して予測し得る。
【0045】
水平x座標および垂直y座標を使用することによるn個の閃光のセットG={G1,G2,...,Gn}が与えられたとすると、値1、ならびにあらゆるタイムスタンプtごとの各閃光の交互のxおよびy座標から構成されるデータ行列Vが定義され得る。したがって、Vの1つの行は以下のように定義され得る:[1,xG1,yG1,xG2,yG2,...,xGn,yGn]。同様に、所与のタイムスタンプtでのひとみ中心座標xおよびyの各行で構成される、既知の、すなわち抽出されたひとみデータについてデータ行列Pが構築され得る。
【0046】
閃光データ行列Vから、モデル行列Mが構築され得、ここで各行は、指定されたタイムスタンプtでのVの行に基づいて定義される。モデル行列Mの各行は、たとえば、Vのこの行のp個の要素のすべての積の組合せの列挙として定義され得る(pは、先に定義されたモデルでのパワーである)。次に、モデル行列Mの行の一例が、n=2個の閃光、パワーp=2では次のように与えられる:
[1 xG1 xG1・xG1 xG1・yG1 xG1・xG2 xG1・yG2 yG1 yG1・yG1 yG1・xG2 yG1・yG2 xG2 xG2・xG2 xG2・yG2 yG2 yG2・yG2]
【0047】
モデルは、最終的に行列方程式P=M*βを使用し、これが解かれて、ベクトルであるモデルパラメータβが作り出され、これは、抽出された閃光情報のみに基づいて凝視情報を予測するために後で使用される。
【0048】
前述のモデルパラメータβの最初の計算は、モデルの初期化ステップと見なされ得る。初期化された後、ひとみデータおよび閃光データのすべての新しい対{Pt’,Gt’}を既存の「トレーニング」データに加えることによってモデルが更新され得る。更新されたモードでは、次いで、モデルパラメータβが、新しいデータのセットに基づいてここで作られるデータ行列Pおよびモデル行列Mの助けによって再定義される。
【0049】
モデルパラメータβを取得することによってモデルが定義される、すなわち開始されるとすぐに、ならびにあらゆる更新後に、モデルが、所与のタイムスタンプtでの閃光データの任意のセットに関して使用されて、対応するひとみデータPtが予測され得る。予測ステージにわたって、閃光データ行列Vtを準備し、最後の、または最も新しい閃光のセットからモデル行列Mtを構築する上記のステップを使用して、Mtが定義され得る。同様に、βは、取得された最後のモデルパラメータである。これらから、予測されたひとみデータが、式Pt=Mt*βで計算され得る。
【0050】
上記の段落ではひとみデータについて述べたが、Ptは、実際には、凝視方向、ひとみ中心位置、ひとみ輪郭、眼瞼位置などの任意の有用な凝視情報のパラメータリゼーションを指すことがある。同様に、Gnは、ひとみまたは角膜上の閃光の位置などの、ある閃光についての閃光情報のパラメータリゼーションを指す。所与の時刻t、すなわち所与のタイムスタンプtでのすべての抽出された閃光の閃光情報のコレクションがGtと定義される。
【0051】
前述のモデルまたは類似のモデルを実装するために視線追跡デバイスによって実施されるステップが、
図3に視覚化されている。初期化ステップ201では、具体的には、モデルの様々なパラメータおよび変数のためのパラメータメモリを割り振ることによってモデルが初期化される。モデルの初期化はまた、デフォルトひとみ位置などのデフォルト凝視情報を予測するエンプティモデル(empty model)の生成をも含み得る。続くステップ202では、モデルについての入力データが、イベントの信号ストリーム3から凝視情報および/または閃光情報を抽出することによって、そのような閃光が検出され得る場合に、獲得される。次いで、少なくとも1つの閃光が抽出され得るかどうかが決定される(203)。そうでない場合、プロセスは、入力データを獲得するステップ202に戻る。少なくとも1つの閃光が抽出され得る場合は、さらなるステップ204で、抽出された閃光の数および「トレーニング」データのサイズが、モデル次数pを取得するための基礎として使用される。信号ストリーム3はコントローラ4によって連続的に監視されるので、新しい凝視情報および/または閃光情報が連続的に抽出され得る。任意のそのような新しいデータが利用可能となる場合(205)、この新しいデータが、モデルをトレーニングおよび更新する(207)ためのトレーニングデータとして記憶される(206)。
【0052】
最後に、プロセスによって取得された凝視情報が、現在または最後の凝視情報として出力され得る(209)。この出力された凝視情報は、信号ストリーム3から直接的に取得された、抽出された凝視情報であり得、または視線追跡方法で使用されるモデルによって予測される予測凝視情報であり得る。
【0053】
前述のプロセスが、
図4により直感的に視覚化されている。目2の内部で、1つの可能な凝視情報であるひとみ中心位置23が、目2の角膜21上のひとみの周りに分散する閃光22と共に示されている。「a」とラベルが付けられた目の概略図では、ひとみ中心位置23は、イベントセンサ1によって提供される信号ストリーム3から直接抽出された、抽出された凝視情報に対応する、ひとみ中心の実際の位置である。さらに、信号ストリーム3から抽出された閃光情報を示す5つの閃光22が、「a」とラベルが付けられた概略図に示されている。凝視情報および閃光情報の抽出は同時に行われるので、ひとみ中心位置23(「+」で示される)に対応する凝視情報および閃光情報と、5つの閃光22(ドットで示される)が、モデルを初期化するために使用される、または既存のデータに追加され、モデル403を更新する(401)ために使用される1対のデータを形成する。
【0054】
「b」とラベルが付けられた目の概略図によって視覚化される後のステップでは、閃光情報のみが信号ストリーム3から抽出される。この特定の例では、閃光情報は、角膜上の4つの閃光22に対応する。このステップでは、「+」が欠落していることによって視覚化されているように、凝視情報は抽出されない。(細い実線の矢印で示されるように)開始または更新されたモデル403を利用して、抽出された閃光情報が、「c」とラベルが付けられた概略図で視覚化されているように、予測ひとみ中心位置25(「x」で示される)の形で予測凝視情報を計算または予測する(402)ために使用される。
【0055】
参照符号:
1 イベントベースの光センサ、イベントセンサ、DVSセンサ
10 放射源、IR放射器
11、12 閃光源
2 ユーザの目
21 角膜
22 閃光
23 凝視情報、ひとみ中心位置
25 予測凝視情報、予測ひとみ中心位置
3 イベントの信号ストリーム
4 コントローラ
P 抽出された凝視情報
M 第1の閃光情報
Pt 予測凝視情報
Mt 第2の閃光情報
【手続補正書】
【提出日】2024-02-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ユーザの目(2)から反射した放射を受け取り、イベント(31)の信号ストリーム(3)を作り出すように構成されるイベントベースの光センサ(1)であって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、イベントベースの光センサ(1)、
放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、前記目(2)に前記放射を送るように構成された1つ以上の閃光源(11、12)、
コントローラ(4)であって、前記光センサ(1)に接続され、前記光センサ(1)からイベント(31)の信号ストリーム(3)を受け取り、イベント(31)の前記信号ストリーム(3)に基づいて、
第1の瞬間での、前記目(2)の凝視情報(P)と、
前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と、
第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(M
t)と
を生成するように構成されたコントローラ(4)
を備える視線追跡デバイスであって、
前記コントローラ(4)が、前記第2の閃光情報(M
t)に基づいて、前記第2の瞬間での前記目(2)の予測凝視情報(P
t)を生成するように構成される、視線追跡デバイス。
【請求項2】
前記コントローラ(4)が、前記第2の閃光情報(M
t)、前記凝視情報(P)、および前記第1の閃光情報(M)に基づいて、前記予測凝視情報(P
t)を生成するように構成されることを特徴とする、請求項1に記載の視線追跡デバイス。
【請求項3】
前記コントローラ(4)が、前記凝視情報(P)および前記第1の閃光情報(M)に基づいて、モデルパラメータ(β)を決定し、前記第2の閃光情報(M
t)および前記モデルパラメータ(β)に基づいて、前記予測凝視情報(P
t)を生成するように構成されることを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項4】
前記コントローラ(4)が、凝視情報(P)および対応する第1の閃光情報(M)を反復的に生成し、複数の以前に生成した凝視情報(P)および対応する第1の閃光情報(M)に基づいて、前記モデルパラメータ(β)を更新するように構成されることを特徴とする、請求項3に記載の視線追跡デバイス。
【請求項5】
前記コントローラ(4)が、凝視情報(P)を反復的に生成し、予測凝視情報(P
t)を反復的に生成するように構成され、前記予測凝視情報(P
t)が、前記凝視情報(P)が生成される速度の少なくとも2倍、3倍、5倍、または8倍の速度で生成されることを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項6】
前記1つまたは複数の閃光源が、時間的に変調された放射を目(2)に送るように構成されることを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項7】
前記目(2)に時間的に変調された放射を送るように構成される少なくとも2つの閃光源(11、12)であって、前記閃光源(11、12)のうちの1つからの放射が、前記閃光源の他のものからの放射とは異なる周波数を有する、少なくとも2つの閃光源(11、12)を特徴とする、請求項6に記載の視線追跡デバイス。
【請求項8】
前記コントローラ(4)が、人工ニューラルネットワーク(5)、具体的には再帰型ニューラルネットワーク、好ましくは少なくとも1つの記憶化層を有する再帰型ニューラルネットワークを利用して前記凝視情報を生成するように構成されることを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項9】
前記コントローラ(4)が、周波数ベースのアルゴリズムの助けによって、前記第1の閃光情報(M)および/または前記第2の閃光情報(M
t)を生成するように構成されることを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項10】
前記凝視情報が、前記ユーザの凝視方向、前記ユーザの前記目のひとみ中心位置、前記ユーザの前記目のひとみ輪郭、および/または前記ユーザの前記目の眼瞼位置を含むことを特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項11】
放射がユーザの目(2)から反射し前記イベントベースの光センサ(1)によって受け取られるように、ユーザの前記目(2)に放射を送るように構成された放射源(10)であって、目(2)に送られる放射が実質的に連続波であるように、および/または目(2)に送られる放射が実質的に前記目(2)の角膜全体または露出面全体を照射するように構成される放射源(10)を特徴とする、請求項1または2に記載の視線追跡デバイス。
【請求項12】
放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、1つ以上の閃光源(11、12)によって前記目(2)に前記放射を送るステップと、
ユーザの目(2)から反射した放射がイベントベースの光センサ(1)によって受け取られることに起因して前記イベントベースの光センサ(1)によって作り出された、イベント(31)の信号ストリーム(3)を受け取るステップであって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、ステップと、
イベント(31)の前記信号ストリーム(3)に基づいて、
第1の瞬間での、前記目(2)の凝視情報(P)と、
前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と、
第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(M
t)と
を生成するステップと
を含む視線追跡方法であって、
前記目(2)の前記予測凝視情報(P
t)が、前記第2の閃光情報(M
t)に基づいて前記第2の瞬間に生成される、視線追跡方法。
【請求項13】
コンピュータまたはマイクロコントローラによって実行されるとき、
放射がユーザの目(2)の角膜から反射し1つ以上の個々の閃光の形で前記イベントベースの光センサ(1)によって受け取られるように、1つ以上の閃光源(11、12)によって前記目(2)に前記放射を送るステップと、
ユーザの目(2)から反射した放射がイベントベースの光センサ(1)によって受け取られることに起因して前記イベントベースの光センサ(1)によって作り出された、イベント(31)の信号ストリーム(3)を受け取るステップであって、各イベント(31)が、前記光センサ(1)の1つ以上のピクセルにおいて受け取った放射の時間的変化の検出に対応する、ステップと、
イベント(31)の前記信号ストリーム(3)に基づいて、
第1の瞬間での、前記目(2)の凝視情報(P)と、
前記第1の瞬間での、前記1つまたは複数の閃光の第1の閃光情報(M)と、
第1の瞬間より後の第2の瞬間での、前記1つまたは複数の閃光の第2の閃光情報(M
t)と
を生成するステップと
をコンピュータまたはマイクロコントローラに遂行させる命令を含むコンピュータ可読媒体であって、
前記目(2)の前記予測凝視情報(P
t)が、前記第2の閃光情報(M
t)に基づいて前記第2の瞬間に生成される、コンピュータ可読媒体。
【国際調査報告】