(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-25
(54)【発明の名称】機械学習ベースの視線追跡装置および方法
(51)【国際特許分類】
A61B 3/113 20060101AFI20240315BHJP
A61B 5/107 20060101ALI20240315BHJP
G06T 7/00 20170101ALI20240315BHJP
G06T 7/70 20170101ALI20240315BHJP
【FI】
A61B3/113
A61B5/107 300
G06T7/00 660A
G06T7/70 B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023561911
(86)(22)【出願日】2022-04-04
(85)【翻訳文提出日】2023-10-19
(86)【国際出願番号】 KR2022004627
(87)【国際公開番号】W WO2022215952
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】10-2021-0045737
(32)【優先日】2021-04-08
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】521502757
【氏名又は名称】イモコグ インク.
【氏名又は名称原語表記】Emocog Inc.
【住所又は居所原語表記】(Bongcheon-dong,Character Greenville) 411-ho 7 Boramae-ro 5ga-gil Gwanak-gu, Seoul 08708 (KR)
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】ノ、ユフン
【テーマコード(参考)】
4C038
4C316
5L096
【Fターム(参考)】
4C038VA04
4C038VB02
4C038VB04
4C038VC05
4C316AA21
4C316FA19
4C316FB21
4C316FB26
5L096FA09
5L096FA62
5L096FA67
5L096FA69
5L096HA05
5L096JA09
5L096JA11
5L096KA04
(57)【要約】
本発明は、機械学習ベースの視線追跡装置および方法に関する。本発明の一実施形態によれば、機械学習ベースの視線追跡装置は、背景と文字の区別があいまいな多種紙幣のシリアル番号を容易に認識することができる。
【特許請求の範囲】
【請求項1】
機械学習ベースの視線追跡装置において、
顔を含む画像を入力する入力部と、
前記顔を含む画像内の第1特徴点を検出する特徴点検出部と、
前記検出された第1特徴点に基づいて顔の方向を検出する顔方向検出部と、
前記検出された第1特徴点で眼球の特徴である眼球の方向を検出する眼球方向検出部と、
前記検出された特徴点および方向を入力として視線追跡モデルを学習するモデル学習部と、
前記学習された視線追跡モデルを用いて視線追跡を行う視線追跡部と、
を含む、機械学習ベースの視線追跡装置。
【請求項2】
前記顔方向検出部は、
前記第1特徴点で表情変化や動きなどによって位置が変化しない両目尻および鼻溝開始点を第2特徴点として抽出し、前記第2特徴点に基づいて顔の方向を検出する、
請求項1に記載の機械学習ベースの視線追跡装置。
【請求項3】
前記眼球方向検出部は、
前記特徴点検出部から検出された第1特徴点から眼球の特徴点である第3特徴点を抽出し、前記第3特徴点を用いて眼球の回転中心を算出する回転中心算出部と、
顔画像の目領域で虹彩中心を算出する虹彩中心算出部と、
前記眼球の回転中心と虹彩中心とを連結して眼球の方向に対する3次元ベクトルを検出する中心連結部と、
を含む、請求項1に記載の機械学習ベースの視線追跡装置。
【請求項4】
前記虹彩中心算出部は、
前記目領域における傾きに基づいて虹彩中心点および虹彩中心座標を検出する、
請求項3に記載の機械学習ベースの視線追跡装置。
【請求項5】
機械学習ベースの視線追跡方法において、
顔を含む画像を入力するステップと、
前記顔を含む画像内の第1特徴点を検出するステップと、
前記検出された第1特徴点に基づいて顔の方向を検出するステップと、
前記検出された第1特徴点で眼球の特徴である眼球の方向を検出するステップと、
前記検出された特徴点、顔方向および眼球方向の特徴値を学習された視線追跡回帰モデルに入力として視線追跡を行うステップと、
を含む、機械学習ベースの視線追跡方法。
【請求項6】
前記検出された第1特徴点に基づいて顔の方向を検出するステップは、
前記第1特徴点で表情変化や動きなどによって位置が変化しない両目尻および鼻溝開始点を第2特徴点として抽出し、前記第2特徴点に基づいて顔の方向を検出する、
請求項5に記載の機械学習ベースの視線追跡方法。
【請求項7】
前記検出された第1特徴点で眼球の特徴である眼球の方向を検出するステップは、
前記特徴点検出部から検出された第1特徴点から眼球の特徴点である第3特徴点を抽出し、前記第3特徴点を用いて眼球の回転中心を算出するステップと、
顔画像の目領域における虹彩中心を算出するステップと、
前記眼球の回転中心と虹彩中心とを連結することにより、眼球の方向に対する3次元ベクトルを検出するステップと、
を含む、請求項5に記載の機械学習ベースの視線追跡方法。
【請求項8】
前記顔画像の目領域における虹彩中心を算出するステップは、
前記目領域における傾きに基づいて虹彩中心点および虹彩中心座標を検出する、
請求項7に記載の機械学習ベースの視線追跡方法。
【請求項9】
請求項5~請求項8のいずれか一項に記載の機械学習ベースの視線追跡方法を行い、コンピュータで読み取り可能な記録媒体に記録されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視線追跡技術に関し、より詳細には、機械学習に基づいて視線を追跡する装置および方法に関する。
【背景技術】
【0002】
視線追跡技術は、眼球の動きを測定してユーザが見つめている位置を把握する技術で、ユーザとコンピュータ間のインタフェースでキーボードやマウスに代わるポインティングデバイスに主に適用されており、視線追跡装置を通じて出力される結果は、ユーザの集中度を分析するか、病気の兆候、発達パターンなどを分析するデータとしても活用されている。
【0003】
一般に、視線追跡装置は、赤外線カメラ、高倍率ズームレンズ、ウェブカメラなどの追加装置を用いてユーザの眼の画像で瞳孔中心点を取得し、それに基づいて変換関数を適用して視線位置追跡を行う。
【0004】
しかし、視線位置追跡時に別途の測定装置を顔に着用しなければならないため、装置の使用に不便が伴うことがあり、赤外線照明器など高価な装置を用いるため、視線追跡に多くの費用がかかるという問題点がある。
【0005】
また、視線追跡算出の複雑さによって処理速度および視線追跡性能が低下するという問題がある。
【0006】
本発明の背景技術は、大韓民国登録特許第10‐1094766号に掲示されている。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、別の照明装置なしでカメラモジュールを使用して視線を追跡する機械学習ベースの視線追跡装置を提供することである。
【0008】
本発明は、回帰モデルに基づいて視線座標を推定して、ユーザの視線とディスプレイが交差する位置を追跡する機械学習ベースの視線追跡装置を提供することである。
【0009】
本発明が解決しようとする技術的課題は、上記の技術的課題に限定されるものではなく、言及されていない他の技術的課題は、以下の記載から本発明が属する技術分野において通常の知識を有する者に明確に理解され得るであろう。
【課題を解決するための手段】
【0010】
本発明の一態様によれば、機械学習ベースの視線追跡装置が提供される。
【0011】
本発明の一実施形態に係る機械学習ベースの視線追跡装置は、顔を含む画像を入力する入力部、顔を含む画像から第1特徴点を検出する特徴点検出部、検出された第1特徴点に基づいて顔の方向を検出する顔方向検出部、検出された第1特徴点で眼球の特徴である眼球の方向を検出する眼球方向検出部および検出した特徴点、顔の方向および眼球の方向の特徴値を学習された視線追跡回帰モデルに入力として視線追跡を行う視線追跡部を含むことができる。
【0012】
本発明の別の一態様によれば、機械学習ベースの視線追跡方法が提供される。
【0013】
本発明の一実施形態による機械学習ベースの視線追跡方法は、顔を含む画像を入力するステップと、顔を含む画像内の第1特徴点を検出するステップと、検出された第1特徴点に基づいて顔の方向を検出するステップと、検出された第1特徴点で眼球の特徴である眼球の方向を検出するステップおよび検出した特徴点と、顔の方向および眼球の方向の特徴値を学習された視線追跡回帰モデルに入力として視線追跡を行うステップとを含むことができる。
【発明の効果】
【0014】
本発明の実施形態によれば、機械学習ベースの視線追跡装置は、別の照明装置なしでカメラモジュールを使用して視線を追跡することができる。
【0015】
本発明の実施形態によれば、機械学習ベースの視線追跡装置は、回帰モデルに基づいて視線座標を推定して、ユーザの視線とディスプレイが交差する位置を追跡することができる。
【0016】
本発明の効果は上記の効果に限定されるものではなく、本発明の説明または特許請求の範囲に記載された発明の構成から推論可能な全ての効果を含むものと理解されるべきである。
【図面の簡単な説明】
【0017】
【
図1】
図1は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図2】
図2は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図3】
図3は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図4】
図4は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図5】
図5は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図6】
図6は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図7】
図7は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図8】
図8は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図9】
図9は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【
図10】
図10は、本発明の一実施形態による機械学習ベースの視線追跡方法を説明するための図である。
【発明を実施するための形態】
【0018】
以下では、添付の図面を参照して本発明を説明する。しかしながら、本発明は様々異なる形態で実施することができ、したがって、本明細書に記載の実施形態に限定されない。なお、図面において本発明を明確に説明するために説明と関係のない部分は省略しており、明細書全体を通じて類似した部分には類似した符号を付した。
【0019】
本明細書全体において、ある部分が他の部分と「連結(接続、接触、結合)」されていると言うとき、これは「直接的に連結」されている場合だけでなく、その中間に他の部材を挟んで「間接的に連結」されている場合も含む。さらに、ある部分がある構成要素を「含む」と言う場合、これは、特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに備えることができることを意味する。
【0020】
本明細書で使用される用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定することを意図していない。単数の表現は、文脈上明らかに他に意味がない限り、複数の表現を含む。本明細書において、「含む」または「有する」などの用語は、本明細書に記載の特徴、数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものが存在することを指定しようとするものであり、1つまたは複数の他の特徴、数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものの存在または追加の可能性を予め排除しないことと理解されたい。
【0021】
図1~
図9は、本発明の一実施形態による機械学習ベースの視線追跡装置を説明するための図である。
【0022】
図1を参照すると、機械学習ベースの視線追跡装置100は、入力部110、特徴点検出部120、顔方向検出部130、眼球方向検出部140、モデル学習部150および視線追跡部160を含む。
【0023】
入力部110は、顔を含む画像を入力する。例えば、入力部110は、ウェブカメラまたはRGBカメラを介して取得した顔を含む画像を入力する。
【0024】
特徴点検出部120は、顔を含む画像内の第1特徴点を検出する。ここで、第1特徴点は、3DFFAモデルを用いて3次元空間上の座標で検出されることができる。
【0025】
顔方向検出部130は、検出された特徴点に基づいて顔の方向を検出する。具体的には、顔方向検出部130は、特徴点検出部120から検出された第1特徴点から表情変化や動きなどによって位置が変化しない第2特徴点を抽出する。
【0026】
例えば、顔方向検出部130は、
図2に示すように、顔画像で検出された第1特徴点から両目尻および鼻溝開始点を第2特徴点として抽出することができる。
【0027】
顔方向検出部130は、抽出された第2特徴点に基づいて顔の位置と方向に対する平面を検出する。ここで、顔方向検出部130は、検出した顔の位置と方向に対する平面と垂直な法線ベクトルを算出することができる。
【0028】
顔方向検出部130は、算出された法線ベクトルに基づいて顔の方向に対する3次元ベクトルを検出する。
【0029】
眼球方向検出部140は、特徴点検出部120から検出された第1特徴点から眼球の特徴点である第3特徴点を抽出して眼球の方向を検出する。眼球方向検出部140は、回転中心算出部141、虹彩中心算出部143および中心連結部145を含む。
【0030】
図3を参照すると、回転中心算出部141は、特徴点検出部120から検出された第1特徴点から眼球の特徴点である第3特徴点を抽出し、第3特徴点を用いて眼球の回転中心を算出する。例えば、回転中心算出部141は、
図4のように抽出された4つの第3特徴点(Inner、Mid、Top、Outer)を用いて眼球の回転中心を算出する。
【0031】
虹彩中心算出部143は、顔画像の目領域における傾きに基づいて虹彩中心を算出する。例えば、虹彩中心算出部143は、顔画像の目領域における傾きに基づいて虹彩中心点および虹彩中心座標を検出する。具体的には、虹彩中心算出部143は、目領域のうち、虹彩境界における画素勾配を介して虹彩中心点を検出するためにテンプレートマッチング(template matching)を用いることができる。テンプレートマッチングとは、探索する領域の平均的なテンプレート(template)を構築し、テンプレートと入力画像との相関関係(correlation)を用いてマッチングされる位置を求めることで、本発明ではテンプレートフィルタと目領域での画素勾配の相関関係(correlation)を通じて、目領域で最も高い値を有する画素位置を虹彩中心点として検出し、座標で表すことができる。
【0032】
図5を参照すると、虹彩中心算出部143は、テンプレートフィルタと目領域における画素勾配との相関関係(correlation)を通じて目領域で最も高い値を有する画素位置を抽出することができる(a)。ここで、虹彩中心算出部143は、まぶたの曲線によって高い値を有する虹彩の下の領域をフィルタリングするために画素値を反転した画像を用いてフィルタリングを行うことができる(b)。虹彩中心算出部は、フィルタリング結果を反映して、最も高い画素値を有する位置を虹彩中心点として検出することができる(c、d)。
【0033】
図6を参照すると、虹彩中心算出部143は、RGB顔画像から虹彩中心点を検出することができ(610)、顔画像から目領域を抽出した後、傾きベースの虹彩中心点検出を行い、中心点を検出することができる(620)。
【0034】
改めて
図3を参照すると、中心連結部145は、眼球の回転中心座標と虹彩中心座標とを連結して、眼球の方向に対する3次元ベクトルを検出する。
【0035】
図7を参照すると、モデル学習部150は、先に検出した視線特徴値を入力として視線追跡モデルを学習する。モデル学習部150は、顔方向検出部130から検出した鼻溝開始点および顔方向ベクトル、虹彩中心算出部143から検出した虹彩中心点、および中心連結部145から検出した眼球方向ベクトルを入力として視線追跡モデルを学習する(e)。具体的には、モデル学習部150は、眼球方向ベクトル(x1、y1、z1)、顔方向ベクトル(x2、y2、z2)、鼻溝開始点(x3、y3、z3)、および虹彩中心点(x4、y4、z4)を入力として視線追跡モデルを学習する(f)。
【0036】
モデル学習部150は、
図8のように視線追跡モデルでサポートベクトル回帰(SVR、Support Vector Regression)を学習することができる。視線追跡回帰モデルであるサポートベクトル回帰(SVR、Support Vector Regression)は、回帰(Regression)分析に使用できるようにサポートベクトルマシン(SVM、Support Vector Machine)で拡張された機械学習ベースのモデルで、回帰関数を使用して視線追跡を行う。モデル学習部150は、第1サポートベクトル回帰(SVR#1)および第2サポートベクトル回帰(SVR#2)を学習することができる。
【0037】
ここで、モデル学習部150は、キャリブレーション過程を通じて検出された視線特徴値を入力としてサポートベクトル回帰を学習する。すなわち、モデル学習部150は、
図9に示すように、9つのキャリブレーションポイントに視線が向けられたときに検出される鼻溝開始点、顔方向ベクトル、虹彩中心点、および眼球方向ベクトルを用いてディスプレイ上に現れる視線の位置であるx座標およびy座標を学習できる。
【0038】
モデル学習部150は、下記の数1を用いて視線の位置であるx座標およびy座標を学習することができる。
【0039】
【0040】
ここで、xは入力される鼻溝開始点、顔方向ベクトル、虹彩中心点、および眼球方向ベクトルのx、y、z座標の合計12個の特徴値の行列を表し、yは入力に応じたディスプレイ上の座標を表す。WTは、入力値を視線座標に変換する回帰モデルパラメータを意味し、損失を最小限に抑える回帰モデルパラメータを求めるには、次の数2を使用する。
【0041】
【0042】
視線追跡部160は、モデル学習部150から学習されたモデルを用いて視線追跡を行う。視線追跡部160は、学習された回帰モデルを介して、3次元空間でのユーザの顔および目の動きを利用して、2次元空間でのモニタ平面で視線座標を算出する投影変換過程で発生し得る自由度問題を解決することで、半永久的な視線追跡を行うことができる。
【0043】
図10は、本発明の一実施形態による機械学習ベースの視線追跡方法を説明するための図である。
【0044】
図10を参照すると、ステップS1001において、機械学習ベースの視線追跡装置100は、顔を含む画像を入力する。例えば、機械学習ベースの視線追跡装置100は、ウェブカメラまたはRGBカメラを介して取得した顔を含む画像を入力する。
【0045】
ステップS1003において、機械学習ベースの視線追跡装置100は、顔を含む画像内の第1特徴点を検出する。ここで、第1特徴点は、3DFFAモデルを用いて3次元空間上の座標で検出することができる。
【0046】
ステップS1005において、機械学習ベースの視線追跡装置100は、特徴点検出部120から検出された第1特徴点から表情変化や動きなどによって位置が変化しない第2特徴点を抽出する。例えば、機械学習ベースの視線追跡装置100は、顔画像で検出された第1特徴点から両目尻および鼻溝開始点を第2特徴点として抽出することができる。
【0047】
ステップS1007において、機械学習ベースの視線追跡装置100は、抽出された第2特徴点に基づいて顔の位置と方向に対する平面を検出する。ここで、機械学習ベースの視線追跡装置100は、検出した顔の位置と方向に対する平面に垂直な法線ベクトルを算出することができる。
【0048】
ステップS1009において、機械学習ベースの視線追跡装置100は、算出された法線ベクトルに基づいて顔の方向に対する3次元ベクトルを検出する。
【0049】
ステップS1011において、機械学習ベースの視線追跡装置100は、特徴点検出部120から検出された第1特徴点から眼球の特徴点である第3特徴点を抽出し、第3特徴点を用いて眼球の回転中心を算出する。例えば、機械学習ベースの視線追跡装置100は、上述した
図4のように抽出された4つの第3特徴点(Inner、Mid、Top、Outer)を用いて眼球の回転中心を算出する。
【0050】
ステップS1013において、機械学習ベースの視線追跡装置100は、顔画像の目領域の傾きに基づいて虹彩中心を算出する。具体的には、機械学習ベースの視線追跡装置100は、テンプレートフィルタと目領域における画素勾配との相関関係(correlation)を通じて、目領域で最も高い値を有する画素位置を抽出することができる。ここで、機械学習ベースの視線追跡装置100は、まぶたの曲線によって高い値を有する虹彩の下の領域をフィルタリングするために画素値を反転した画像を用いてフィルタリングを行うことができる。機械学習ベースの視線追跡装置100は、フィルタリング結果を反映して、最も高い画素値を有する位置を虹彩中心点として検出することができる。
【0051】
ステップS1015において、機械学習ベースの視線追跡装置100は、眼球の回転中心座標と虹彩中心座標とを連結して眼球の方向に対する3次元ベクトルを検出する。
【0052】
ステップS1017において、機械学習ベースの視線追跡装置100は、先に検出した視線特徴値を入力として視線追跡モデルを学習する。具体的には、モデル学習部150は、眼球方向ベクトル(x1、y1、z1)、顔方向ベクトル(x2、y2、z2)、鼻溝開始点(x3、y3、z3)、および虹彩中心点(x4、y4、z4)を入力として視線追跡モデルを学習する(f)。
【0053】
機械学習ベースの視線追跡装置100は、視線追跡モデルとしてサポートベクトル回帰(SVR、Support Vector Regression)を学習することができる。視線追跡回帰モデルであるサポートベクトル回帰(SVR、Support Vector Regression)は、回帰(Regression)分析に使用できるようにサポートベクトルマシン(SVM、Support Vector Machine)で拡張された機械学習ベースのモデルで、回帰関数を使用して視線追跡を行う。機械学習ベースの視線追跡装置100は、第1サポートベクトル回帰(SVR#1)および第2サポートベクトル回帰(SVR#2)を学習することができる。
【0054】
ここで、機械学習ベースの視線追跡装置100は、キャリブレーション過程を通じて検出された視線特徴値を入力としてサポートベクトル回帰を学習する。すなわち、機械学習ベースの視線追跡装置100は、前述の
図9のように、9つのキャリブレーションポイントに視線が向けられたときに検出される鼻溝開始点、顔方向ベクトル、虹彩中心点、および眼球方向ベクトルを用いてディスプレイ上に現れる視線の位置であるx座標およびy座標を学習することができる。
【0055】
ステップS1019において、機械学習ベースの視線追跡装置100は、モデル学習部150から学習されたモデルを用いて視線追跡を行う。機械学習ベースの視線追跡装置100は、学習された回帰モデルを介して、3次元空間でのユーザの顔および目の動きを利用して、2次元空間でのモニタ平面で視線座標を算出する投影変換過程で発生し得る自由度問題を解決することで、半永久的な視線追跡を行うことができる。
【0056】
上述した本発明の説明は例示のためのものであり、本発明が属する技術分野の通常の知識を有する者は、本発明の技術的思想や必須の特徴を変更することなく、他の具体的な形態に容易に変形が可能であることと理解できるであろう。したがって、上記で説明した実施形態はあらゆる面で例示的なものであり、限定的なものではないと理解すべきである。例えば、単一の形態で説明されている各構成要素は分散して実施することができ、同様に分散していると説明されている構成要素も組み合わせた形で実施することができる。
【0057】
本発明の範囲は後述する特許請求の範囲によって示され、特許請求の範囲の意味および範囲、そしてその均等概念から導出されるすべての変更または変形形態が本発明の範囲に含まれると解釈されるべきである。
【国際調査報告】