IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

<>
  • 特許-目復元に基づく目追跡方法及び装置 図1
  • 特許-目復元に基づく目追跡方法及び装置 図2
  • 特許-目復元に基づく目追跡方法及び装置 図3
  • 特許-目復元に基づく目追跡方法及び装置 図4
  • 特許-目復元に基づく目追跡方法及び装置 図5
  • 特許-目復元に基づく目追跡方法及び装置 図6
  • 特許-目復元に基づく目追跡方法及び装置 図7
  • 特許-目復元に基づく目追跡方法及び装置 図8
  • 特許-目復元に基づく目追跡方法及び装置 図9
  • 特許-目復元に基づく目追跡方法及び装置 図10
  • 特許-目復元に基づく目追跡方法及び装置 図11
  • 特許-目復元に基づく目追跡方法及び装置 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】目復元に基づく目追跡方法及び装置
(51)【国際特許分類】
   G06T 7/20 20170101AFI20241119BHJP
【FI】
G06T7/20 300B
【請求項の数】 13
(21)【出願番号】P 2020142548
(22)【出願日】2020-08-26
(65)【公開番号】P2021093125
(43)【公開日】2021-06-17
【審査請求日】2023-06-29
(31)【優先権主張番号】10-2019-0163642
(32)【優先日】2019-12-10
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】許 珍 九
(72)【発明者】
【氏名】姜 東 佑
(72)【発明者】
【氏名】南 東▲きょん▼
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】韓国公開特許第10-2019-0047442(KR,A)
【文献】特開2013-088895(JP,A)
【文献】Jeong-Seon Park, et al.,Glasses Removal form Facial Image Using Recursive Error Compensation,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2005年,VOL.27, NO.5
【文献】Wen-Chang Cheng, et al.,A Fatigue Detection System with Eyeglasses Removal,ICACT2013,2013年
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
プロセッサが実行する目追跡方法であって、
入力映像に関する目復元を行って復元映像を生成するステップと、
前記入力映像と前記復元映像との間の差を決定するステップと、
データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を代替映像として選択するステップであり、前記サンプル映像は、過去に目追跡に成功した映像に該当する、ステップと、
前記決定された差に基づいて前記入力映像、前記復元映像、及び前記代替映像のいずれか1つを対象映像として決定するステップと、
前記対象映像に基づいて目追跡を行うステップと、
を含み、
前記復元映像を生成するステップは、前記入力映像に対応する主成分ベクトルのうち、高い順位を有する一部を用いて前記復元映像を生成することを含み、前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいた所定の固有の顔に対応し、
前記対象映像を選定するステップは、前記決定された差が第1閾値よりも小さい場合に、前記入力映像を前記対象映像として選定し、前記決定された差が前記第1閾値よりも大きく、第2閾値よりも小さい場合に、前記復元映像を前記対象映像として選定し、前記決定された差が前記第2閾値よりも大きい場合に、前記代替映像を前記対象映像として選定する、ことを含み、前記第2閾値は前記第1閾値よりも大きい、
目追跡方法。
【請求項2】
前記目復元は、前記入力映像でノイズ成分を低減する、請求項1に記載の目追跡方法。
【請求項3】
前記代替映像は、前記入力映像及び前記復元映像とは別個のものである、請求項1に記載の目追跡方法。
【請求項4】
前記類似度は、前記入力映像の特徴点と前記サンプル映像の各サンプル映像の特徴点との間の比較に基づいて決定される、請求項に記載の目追跡方法。
【請求項5】
前記入力映像の前記特徴点及び前記各サンプル映像の前記特徴点は、それぞれ目を除いた領域から抽出されたものである、請求項に記載の目追跡方法。
【請求項6】
前記入力映像又は前記復元映像に基づいて前記目追跡に成功した場合、前記入力映像をデータベースにサンプル映像として格納するステップをさらに含む、請求項1に記載の目追跡方法。
【請求項7】
前記復元映像を生成するステップは、前記入力映像に関する目検出が成功した場合に行われる、請求項1に記載の目追跡方法。
【請求項8】
前記代替映像が前記対象映像として選定された場合、前記目追跡を行うステップは、前記代替映像にマッピングされた目位置情報を用いて前記目追跡を行うことを含む、請求項1に記載の目追跡方法。
【請求項9】
請求項1乃至のいずれか一項に記載の方法を実行する命令語を含む1つ以上のプログラムを格納したコンピュータ読み出し可能記憶媒体。
【請求項10】
プロセッサと、
前記プロセッサで実行可能な命令語を含むメモリと、
ユーザを撮影して入力映像を生成するカメラと、
を含み、
前記命令語が前記プロセッサで実行されるときに、前記プロセッサは、
前記入力映像に関する目復元を行って復元映像を生成し、
前記入力映像と前記復元映像との間の差を決定し、
データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を代替映像として選択し、前記サンプル映像は、過去に目追跡に成功した映像に該当し、
前記決定された差に基づいて前記入力映像、前記復元映像、及び前記代替映像のいずれか1つを対象映像として決定し、
前記対象映像に基づいて目追跡を行
前記復元映像を生成することは、前記入力映像に対応する主成分ベクトルのうち、高い順位を有する一部を用いて前記復元映像を生成することを含み、前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいた所定の固有の顔に対応し、
前記対象映像を決定することは、前記決定された差が第1閾値よりも小さい場合に、前記入力映像を前記対象映像として選定し、前記決定された差が前記第1閾値よりも大きく、第2閾値よりも小さい場合に、前記復元映像を前記対象映像として選定し、前記決定された差が前記第2閾値よりも大きい場合に、前記代替映像を前記対象映像として選定する、ことを含み、前記第2閾値は前記第1閾値よりも大きい、
電子装置。
【請求項11】
プロセッサと、
前記プロセッサで実行可能な命令語を含むメモリと、
を含み、
前記命令語が前記プロセッサで実行されるときに、前記プロセッサは、
入力映像に関する目復元を行って復元映像を生成し、
前記入力映像と前記復元映像との間の差を決定し、
データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を代替映像として選択し、前記サンプル映像は、過去に目追跡に成功した映像に該当し、
前記決定された差に基づいて前記入力映像、前記復元映像、及び前記代替映像のいずれか1つを対象映像として決定し、
前記対象映像に基づいて目追跡を行
前記復元映像を生成することは、前記入力映像に対応する主成分ベクトルのうち、高い順位を有する一部を用いて前記復元映像を生成することを含み、前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいた所定の固有の顔に対応し、
前記対象映像を決定することは、前記決定された差が第1閾値よりも小さい場合に、前記入力映像を前記対象映像として選定し、前記決定された差が前記第1閾値よりも大きく、第2閾値よりも小さい場合に、前記復元映像を前記対象映像として選定し、前記決定された差が前記第2閾値よりも大きい場合に、前記代替映像を前記対象映像として選定する、ことを含み、前記第2閾値は前記第1閾値よりも大きい、
目追跡装置。
【請求項12】
前記類似度は、前記入力映像の特徴点と前記サンプル映像の各サンプル映像の特徴点との間の比較に基づいて決定され、
前記入力映像の前記特徴点及び前記各サンプル映像の前記特徴点は、それぞれ目を除いた領域から抽出されたものである、請求項11に記載の目追跡装置。
【請求項13】
前記代替映像が前記対象映像として選定された場合、
前記目追跡を行うステップは、前記代替映像にマッピングされた目位置情報を用いて前記目追跡を行うことを含む、請求項11に記載の目追跡装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態は、目復元に基づく目追跡方法及び装置に関する。
【背景技術】
【0002】
ヘッドアップディスプレイ(head up display;HUD)装置は、運転者の前方に虚像(virtual image)を表示し、運行に役立つ様々な運行情報を運転者に提供する。最近、3次元HUD装置が開発されているが、例えば、3次元HUD装置は、拡張現実(augmented reality;AR)方式を使用することができる。この場合、運行情報は、実際の事物に重なるように表現され、運転者は運行情報をより直観的に認知することができる。現在、様々な3次元表示方式が存在するが、そのうち、相対的に高い解像度と自由度を有する視点追跡型3次元表示方式が3次元HUD装置に適用されることができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下の実施形態の目的は、目復元に基づく目追跡方法及び装置を提供することにある。
【課題を解決するための手段】
【0004】
一実施形態によれば、目追跡方法は、入力映像に関する目復元を行って復元映像を生成するステップと、前記入力映像と前記復元映像との間の差を決定するステップと、前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか1つを対象映像として決定するステップと、前記対象映像に基づいて目追跡を行うステップとを含む。
【0005】
前記目復元は、前記入力映像でノイズ成分を低減させることを含むことができる。前記復元映像を生成するステップは、前記入力映像に対応する主成分ベクトルのうち、高い順位を有する一部を用いて前記復元映像を生成することを含み、前記主成分ベクトルは、それぞれ様々な顔映像に関する主成分分析に基づいて所定の固有の顔に対応し得る。
【0006】
前記対象映像を選定するステップは、前記決定された差が第1閾値よりも小さい場合、前記入力映像を前記対象映像として選定し、前記決定された差が第1閾値よりも大きく、第2閾値よりも小さい場合、前記復元映像を前記対象映像として選定するし、前記決定された差が前記第2閾値よりも大きい場合、前記代替映像を前記対象映像として選定することを含み、前記第2閾値は、前記第1閾値よりも大きいとすることができる。
【0007】
前記代替映像は、前記入力映像及び前記復元映像とは別個のものであることができる。前記目追跡方法は、データベースに格納されたサンプル映像のうち、前記入力映像と類似度の最も高いサンプル映像を前記代替映像として選択するステップをさらに含むことができる。前記類似度は、前記入力映像の特徴点と前記サンプル映像の各サンプル映像の特徴点との間の比較に基づいて決定されることができる。前記入力映像の前記特徴点及び前記各サンプル映像の前記特徴点は、それぞれ目を除いた領域から抽出されたものであってもよい。前記サンプル映像は、過去に目追跡に成功した映像に該当することができる。前記目追跡方法は、前記入力映像又は前記復元映像に基づいて前記目追跡に成功した場合、前記入力映像をデータベースにサンプル映像として格納するステップをさらに含むことができる。
【0008】
前記復元映像を生成するステップは、前記入力映像に関する目検出が成功した場合に行われることができる。前記代替映像が前記対象映像として選定された場合、前記目追跡を行うステップは、前記代替映像にマッピングされた目位置情報を用いて前記目追跡を行うことを含むことができる。
【0009】
一実施形態によると、目追跡装置は、プロセッサと、前記プロセッサで実行可能な命令語を含むメモリとを含み、前記命令語が前記プロセッサで実行されるときに、前記プロセッサは、入力映像に関する目復元を行って復元映像を生成し、前記入力映像と前記復元映像との間の差を決定し、前記決定された差に基づいて前記入力映像、前記復元映像、及び代替映像のいずれか1つを対象映像として決定し、前記対象映像に基づいて目追跡を行う。
【発明の効果】
【0010】
本発明によると、目復元に基づく目追跡方法及び装置を提供することができる。
【図面の簡単な説明】
【0011】
図1】一実施形態に係る入力映像、復元映像、及び代替映像を用いた目追跡装置の動作を示す図である。
図2】一実施形態に係る目検出過程及び目の追跡過程を示したフローチャートである。
図3】一実施形態に係る対象映像の決定及び目の追跡過程を示したフローチャートである。
図4】一実施形態に係る増強された外見空間を示す図である。
図5】一実施形態に係る目の復元過程を示す図である。
図6】一実施形態に係る差値が第2閾値よりも小さい場合の対象映像選定動作を示す図である。
図7】一実施形態に係る差値が第2閾値よりも大きい場合の対象映像選定動作を示す図である。
図8】一実施形態に係る入力映像とサンプル映像との間の特徴マッチング動作を示す図である。
図9】一実施形態に係るデータベースに格納されたサンプル映像を示す図である。
図10】一実施形態に係る目復元に基づく目追跡方法を示したフローチャートである。
図11】一実施形態に係る目復元に基づく目追跡装置を示すブロック図である。
図12】一実施形態に係る目追跡装置を含む電子装置を示す図である。
【発明を実施するための形態】
【0012】
本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。
【0013】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
【0014】
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0015】
異なるように定義されない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0016】
以下、実施形態を添付する図面を参照しながら詳細に説明する。添付の図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付し、これに対する重複する説明は省略することにする。
【0017】
図1は、一実施形態に係る入力映像、復元映像、及び代替映像を用いた目追跡装置の動作を示す図である。図1を参照すると、目追跡装置100は、入力映像110に関する目追跡を行い、その結果として目位置情報を出力する。入力映像110は、ユーザ(例:視聴者、運転者)の顔を含み得る。目位置情報は、裸眼3次元ディスプレイ、運転者状態の監視などのような様々なアプリケーションに用いられる。裸眼3次元ディスプレイは、3次元HUD(head up display)、3DTV、3次元モバイルデバイスなどの様々なタイプのディスプレイを含んでもよい。
【0018】
裸眼3次元ディスプレイは、ユーザの両目に互いに異なる映像を見せる方式であるが、これを実現するために、ユーザの両目位置の情報が求められる。例えば、3次元映像を提供するために、左目のための左側映像及び右目のための右側映像が提供される。この場合、3次元ディスプレイ装置は、目位置情報を介してユーザの両目の位置を把握し、左目の位置に左側映像を提供し、右目の位置に右側映像を提供することができる。このような方式により、ユーザは3次元映像を視聴することが可能になる。
【0019】
適切な光が存在してユーザの目が全てあらわれた状態でユーザを撮影し、入力映像110が生成された場合、ユーザの目は比較的容易に追跡されることができる。一方、光が十分に存在していないか、サングラスなどでユーザの目が隠されており、ユーザの目の周辺に光反射成分が存在する状態で、ユーザを撮影して入力映像110が生成された場合、ユーザの目を追跡することが困難になる。目追跡装置100は、状況に合うように入力映像110、復元映像121、及び代替映像131を任意に用いて、このような劣悪な環境でも目追跡を成功的に行うことができる。
【0020】
入力映像110は、複数のフレームを含むビデオであってもよい。入力映像111は、入力映像110の1つのフレームに該当する。以下で説明される目の追跡過程は、入力映像110の各フレームについて順次に行われる。
【0021】
入力映像111が受信されると、目追跡装置100は、入力映像111に関する目復元(eye reconstruction)を行って復元映像121を生成する。目復元は、入力映像111でノイズ成分を低減させる様々な方式を含んでもよい。例えば、ノイズ成分は、高周波成分(例えば、メガネに反射された光、後光など)及び遮断成分(例えば、サングラス、厚いメガネ、髪の毛など)などを含み得る。目復元のために、主成分分析(principal component analysis:PCA)を通した次元削減が用いられてもよい。目復元の具体的な例示については後で詳細に説明する。
【0022】
復元映像121が生成されると、目追跡装置100は、入力映像111と復元映像121とを比較して、入力映像111と復元映像121との間の差を決定する。以下、その決定された差は差値として称する。例えば、目追跡装置100は、入力映像111と復元映像121の対応ピクセルを互いに比較し、入力映像111と復元映像121との間の差を決定する。対応ピクセルとは、各映像で同じ位置に存在するピクセルを意味する。
【0023】
目追跡装置100は、差値に基づいて入力映像111、復元映像121、及び代替映像131のいずれか1つを選定して対象映像を決定する。対象映像は、目追跡の対象となる映像を意味し、入力映像111、復元映像121、及び代替映像131のいずれか1つに該当する。例えば、差値が第1閾値よりも小さい場合、入力映像111が対象映像に選定されてもよく、差値が第1閾値よりも大きく、第2閾値よりも小さい場合、復元映像121が対象映像に選定されてもよく、差値が第2閾値よりも大きい場合、代替映像131が対象映像に選定されてもよい。第2閾値は、第1閾値よりも大きいものと仮定する。
【0024】
代替映像131は、入力映像111と復元映像121とは別個のものであって、サンプル映像130から選択されたものとし得る。サンプル映像130は、目追跡に適切な状態の様々な映像を含んでもよく、サンプル映像130のうち、入力映像111と類似度の最も高いものが代替映像131として選択されることができる。例えば、入力映像111の特徴点とサンプル映像130の各サンプル映像の特徴点との間の比較に基づいて、入力映像111と各サンプル映像との間の類似度が決定されてもよい。
【0025】
目追跡装置100は、類似度と閾値を比較して入力映像111、復元映像121及び、代替映像131のうち目追跡に最も適切ないずれか1つを選定することができる。例えば、入力映像111が目追跡に適切な状態に該当する場合、入力映像111と復元映像121との間に小さい差(例えば、第1閾値よりも小さい差)しか存在しないため、入力映像111が対象映像として選定され得る。
【0026】
又は、入力映像111に光反射のようなノイズ成分が存在する場合、入力映像111よりも復元映像121が目追跡にもっと適合している。この場合、目復元を介して該当ノイズ成分が除去され、ノイズ成分の有無に応じて、入力映像111と復元映像121との間に差(例えば、第1閾値よりも大きく第2閾値よりも小さい差)が発生する可能性がある。そのため、復元映像121が対象映像として選定され得る。
【0027】
又は、ユーザがサングラスをしている場合のように、入力映像111に多くのノイズ成分が存在する場合、入力映像111及び復元映像121よりも代替映像131が目追跡にさらに適合している。この場合、目の復元過程において、入力映像111と復元映像121との間に大きい差(例えば、第2閾値よりも大きい差)が発生する可能性があり、そのため、代替映像131が対象映像として選定され得る。
【0028】
入力映像111を構成している成分のうち、目追跡に妨害となる成分は、目の復元過程から取り除かれる。例えば、目の復元過程において、一般的な顔に対応する成分は保持され、一般的な顔に該当しない成分は取り除かれる。入力映像111において、目の復元過程で除去された成分の比率に応じて、入力映像111、復元映像121、及び代替映像131のいずれか1つが選択される。例えば、高周波成分の場合、除去された成分の比率が小さくなり得るため、復元映像121が対象映像として選択され、遮断成分の場合、除去された成分の比率が大きくなり得るため、代替映像131が対象映像として選択され得る。
【0029】
対象映像が選択されると、目追跡装置100は、対象映像について目追跡を行って目位置情報を生成する。目追跡装置100は、複数のフレームを順次に受信し、各フレームから目を追跡する。目位置情報は、各フレームに存在する目の位置を含んでもよい。例えば、目の位置は、映像内の目の座標のように表現される。
【0030】
図2は、一実施形態に係る目検出過程及び目の追跡過程を示したフローチャートである。図2を参照すると、入力映像の第1フレームが受信されると、目追跡装置は、ステップS210において、入力映像の第1フレームに関する目検出を行う。目追跡装置は、目検出過程を介してユーザの目を含んでいる目検出領域を決定する。ステップS220において、目追跡装置は、目検出に成功したか否かを決定する。目検出に失敗した場合、入力映像の第2フレームについてステップS210が行われ、目検出に成功した場合、ステップS230が行われる。言い換えれば、目検出に成功するまで、各フレームに関しステップS210、S220が繰り返される。
【0031】
ステップS230において、目追跡装置は、入力映像の第1フレームについて目復元を行う。目復元の後に入力映像の第1フレームに対応する復元映像及び代替映像が生成され、入力映像の第1フレーム、復元映像、及び代替映像のいずれか1つが対象映像として選択される。ステップS240において、目追跡装置は、対象映像に関する目追跡を行う。目追跡装置は、目検出領域に基づいて目追跡のための目追跡領域を決定する。目追跡装置は、目追跡領域内で特徴点を抽出し、抽出された特徴点を整列(align)して目追跡を行うことができる。
【0032】
ステップS250において、目追跡装置は、目追跡に成功したか否かを決定する。目追跡領域内にユーザの目が存在する場合、目追跡に成功したものと決定し、目追跡領域内にユーザの目が存在しない場合、目追跡に失敗したものと決定する。目追跡に成功した場合、目追跡装置は、目追跡領域をアップデートして、入力映像の第2領域についてステップS230を行う。例えば、目追跡装置は、目の位置に合わせて目追跡領域の位置を調整することができる。一例として、目追跡装置は、2つの目の中心が目追跡領域の中間に位置するように目追跡領域の位置を調整する。目追跡装置は、入力映像の第2フレームに対応する対象映像を決定し、対象映像及びアップデートされた目追跡領域を用いて目追跡を継続することができる。
【0033】
図3は、一実施形態に係る対象映像の決定及び目の追跡過程を示したフローチャートである。図3に示すステップS310~S390は、図2に示す点線ボックスのように表示されたステップS230、S240に対応し、図2に示すステップS220で目検出に成功したものと決定されることにより、ステップS310が行われる。
【0034】
図3を参照すると、ステップS310において、目追跡装置は、目復元を行って復元映像を生成する。目復元は、入力映像でノイズ成分を低減する様々な方式が含まれている。例えば、目復元のために、PCAを通した次元削減が適用される。これは図4及び図5を参照してより詳細に説明する。
【0035】
図4は、一実施形態に係る増強された外見空間を示す図である。様々な参照の顔映像についてPCAを行って主成分ベクトルが取得される。主成分ベクトルの次元数は、各映像のデータ(例えば、ピクセル)の次元数と同一であってもよい。この場合、支配的な顔成分から例外的な顔成分に達する主成分ベクトルが取得され得る。参照の顔映像から、支配的な顔の形を含んでいる映像の比率が高くてもよい。この場合、支配的な顔成分は標準的な顔に該当し、例外的な顔成分はノイズに該当する。主成分ベクトルはそれぞれ互いに直交するため、全ての入力映像内の顔映像は、主成分ベクトルを介して表現されることができる。
【0036】
主成分ベクトルは再び顔映像として解釈され、解釈された顔映像は、固有の顔(eigenface)と称される。言い換えれば、様々な顔映像に関するPCAに基づいて固有の顔が決定されることができ、主成分ベクトルはそれぞれ固有の顔に対応する。入力映像内の顔映像は、固有の顔を用いて増強された外見空間(augmented appearance space)のように表現される。
【0037】
図4を参照すると、顔映像Aはλの合計のように表現される。Aは主成分ベクトルを示し、λは主成分ベクトルの係数を意味する。λは外見パラメータと称されてもよい。λは顔映像AでAが占めている比率を意味する。各λの値により、図4に示すような顔映像が表現される。インデックスiは1~nの値を有する。Aの値が小さいほど、標準に近い成分であることを意味し、iの値が大きいほどノイズに近い成分であることを意味する。
【0038】
図5は、一実施形態に係る目の復元過程を示す図である。図5を参照すると、入力映像Iはλ~λの合計のように表現され、復元映像I‘はλ~λの合計に表現される。nはmよりも大きいとすることができ、目復元により次元が減少したものと見ることができる。また、入力映像Iにおいて、インデックスの値が大きい成分(ノイズに近い成分)が除去されるため、入力映像Iから高周波成分や遮断成分のようなノイズ成分が取り除かれる。入力映像Iにおいて、λm+1m+1~λは、除去された成分又はノイズ成分と称される。インデックス値が小さいほど、主成分ベクトルの優先順位が高いものと表現される。この場合、目追跡装置は、入力映像に対応する主成分ベクトルA~Aのうち、高い順位を有する一部A~Aを用いて復元映像を生成することができる。
【0039】
再び図3を参照すると、ステップS320において、目追跡装置は、入力映像と復元映像と間の差を決定する。例えば、目追跡装置は、入力映像と復元映像の対応ピクセルを互いに比較して差値を決定する。目の復元過程で除去された各ノイズ成分の係数が大きいほど、入力映像にノイズが多いと解釈され、また、入力映像と復元映像との間の差が大きく決定される。従って、復元映像や代替映像が対象映像として活用される可能性が高くなる。
【0040】
一実施形態によれば、差値は、目領域を基準にして決定されてもよい。言い換えれば、目追跡装置は、入力映像の目領域及び復元映像の目領域の対応ピクセルを互いに比較して差値を決定する。目復元により、映像全体に発生する変化を比較することよりも、目領域に発生する変化を比較することが復元映像や代替映像の活用に効果的であるためである。
【0041】
例えば、ユーザがマスクをした場合、目追跡が可能であるが、ユーザがサングラスをした場合、目追跡が困難になる。従って、マスクをした場合でないサングラスをした場合を検出し、この場合に復元映像や代替映像を使用する必要性が高い。この場合、目領域は目検出領域又は目追跡領域に基づいて決定される。
【0042】
ステップS330において、目追跡装置は、差値と第1閾値を比較する。差値が第1閾値よりも小さい場合、目追跡装置は、ステップS340において、入力映像を対象映像として決定する。差値が第1閾値よりも大きい場合、目追跡装置は、ステップS350において、差値と第2閾値とを比較する。差値が第2閾値よりも小さい場合、目追跡装置は、ステップS360において、復元映像を対象映像として決定する。差値が第2閾値よりも大きい場合、目追跡装置は、ステップS370において、サンプル映像のうち代替映像を選択し、ステップS380において、代替映像を対象映像として決定する。ステップS390において、目追跡装置は、対象映像から目追跡を行う。
【0043】
図6は、一実施形態に係る差値が第2閾値よりも小さい場合の対象映像選定動作を示す図である。図6を参照すると、入力映像610に関する目復元により復元映像620が生成される。目復元により入力映像610でメガネの光反射を含んでいる高周波成分が除去され、復元映像620は、入力映像610に比べてスムーズ(smooth)に表現される。
【0044】
目復元の後、入力映像610と復元映像620との間の差値が決定される。差値が第1閾値よりも小さい場合に入力映像610が対象映像として決定され、差値が第1閾値よりも大きくて第2閾値よりも小さい場合、復元映像620が対象映像として決定される。例えば、入力映像610に含まれている高周波成分が除去されたため、復元映像620が対象映像として決定される。
【0045】
図7は、一実施形態に係る差値が第2閾値よりも大きい場合の対象映像選定動作を示す図である。図7を参照すると、入力映像710に関する目復元により復元映像720が生成される。目復元により、入力映像710からサングラスの光反射を含んでいる高周波成分及びサングラスを含む遮断成分が除去され、復元映像720は、入力映像710に比べてスムーズに表現される。
【0046】
目復元の後に入力映像710と復元映像720との間の差値が決定される。差値が第1閾値よりも小さい場合、入力映像710が対象映像として決定され、差値が第1閾値よりも大きくて第2閾値よりも小さい場合、復元映像720が対象映像として決定され、差値が第2閾値よりも大きい場合、代替映像740が生成される。例えば、入力映像710に含まれている遮断成分及び高周波成分が除去されたため、差値が第2閾値よりも大きく決定される。
【0047】
この場合、入力映像710とサンプル映像730の各サンプル映像との間の特徴マッチングが行われ、サンプル映像730のうち、入力映像710に最も類似のサンプル映像が代替映像740として選択される。その後、代替映像740が対象映像として決定されて目追跡に使用され得る。サンプル映像730は、目追跡に容易な様々な顔映像を含んでもよい。例えば、サンプル映像730は、メガネが存在しない顔映像、メガネが存在するもののメガネ内の光反射がない映像などを含んでもよい。図7に示す実施形態において、メガネが存在するサンプル映像が、サングラスが存在する入力映像710に最も類似するものと決定され、そのため、該当サンプル映像が代替映像740として選択される。
【0048】
図8は、一実施形態に係る入力映像とサンプル映像との間の特徴マッチング動作を示す図である。図8を参照すると、入力映像810の特徴点及びサンプル映像820の特徴点が比較され、そのため、入力映像810とサンプル映像820の類似度が決定される。入力映像の特徴点及びサンプル映像820の特徴点は、それぞれ目を除いた領域から抽出されてもよい。例えば、特徴点は、鼻、口、顔の輪郭などにより抽出されてもよい。代替映像は、目の位置にサングラスや他の遮断がある場合に使用される可能性が高い。従って、目を除いた領域から特徴点を抽出することが入力映像に類似の代替映像を取得し、代替映像から適切な視点を取得するために有利である。
【0049】
図9は、一実施形態に係るデータベースに格納されたサンプル映像を示す図である。図9を参照すると、データベース910はサンプル映像921~923を含む。データベース910は目追跡装置に存在してもよいし、目追跡装置とは別個の他の装置に存在してもよい。データベース910が他の装置に存在する場合、目追跡装置は、ネットワークを介してデータベース910にアクセスしてサンプル映像921~923を用いることができる。サンプル映像921~923は、それぞれ目追跡に適切な状態を有する。目追跡に適切な状態は、高周波成分や遮断成分が存在しない状態を含み得る。
【0050】
サンプル映像921~923は、過去に目追跡に成功した映像に該当する。ここで、過去は、現在のフレームに関する目追跡が行われる以前を意味する。例えば、目追跡装置の製造過程で目追跡に成功した映像のうち、代替映像に適切な映像がサンプル映像921~923として選別されてもよい。又は、サンプル映像921~923は、以前の入力映像の各フレームに関する目追跡が行われる過程、又は現在入力映像の以前フレームに関する目追跡が行われる過程で格納されたものであってもよい。一例として、現在のフレーム又は現在のフレームに対応する復元映像に基づいて目追跡に成功した場合、現在のフレームは、未来の代替映像として活用されるためにデータベース910へ格納される。
【0051】
サンプル映像921~923に目位置情報931~933にマッピングされる。サンプル映像921~923は、過去に目追跡に成功したものであるため、過去に目追跡に成功したときに、サンプル映像921~923について目位置情報931~933が確保される。従って、サンプル映像921~923が代替映像として活用されるとき、サンプル映像921~923で別途に目を追跡する代わり、あらかじめ確保されている目位置情報931~933を使用することができる。例えば、入力映像の代替映像にサンプル映像921が選択されたと仮定すると、目追跡装置は、サンプル映像921から目を追跡して目位置情報を生成する代わりに、サンプル映像921にマッピングされた目位置情報931を直ちに出力することができる。
【0052】
図10は、一実施形態に係る目復元に基づく目追跡方法を示したフローチャートである。図10を参照すると、目追跡装置は、ステップS1010において、入力映像に関する目復元を行って復元映像を生成し、ステップS1020において、入力映像と復元映像との間の差を決定し、ステップS1030において、決定された差に基づいて入力映像、復元映像、及び代替映像のいずれか1つを選定して対象映像を決定し、ステップS1040において、対象映像に基づいて目追跡を行う。その他に、図1図9を参照して説明された事項が図10に示す目追跡方法に適用されてもよい。
【0053】
図11は、一実施形態に係る目復元に基づく目追跡装置を示すブロック図である。図11を参照すると、目追跡装置1100は、目追跡に関連して本明細書に説明されたり、又は示された1つ以上の動作を行うことができ、目位置情報を目追跡結果としてユーザに提供することができる。
【0054】
目追跡装置1100は、1つ以上のプロセッサ1110及びメモリ1120を含む。メモリ1120は、プロセッサ1110に接続され、プロセッサ1110によって実行可能な命令語、プロセッサ1110が演算するデータ又はプロセッサ1110によって処理されたデータを格納する。メモリ1120は、非一時的なコンピュータ読み出し可能記録媒体、例えば、高速ランダムアクセスメモリ及び/又は不揮発性コンピュータ読み出し可能記憶媒体(例えば、1つ以上のディスク記憶装置、フラッシュメモリ装置、又は、その他の不揮発性ソリッドステートメモリ装置)を含んでもよい。
【0055】
プロセッサ1110は、図1図10を参照して説明された1つ以上の動作を実行するための命令語を実行する。一実施形態によれば、メモリ1120に格納された命令語がプロセッサ1110で実行されるとき、プロセッサ1110は、入力映像に関する目復元を行って復元映像を生成し、入力映像と復元映像との間の差を決定し、決定された差に基づいて入力映像、復元映像、及び代替映像のいずれか1つを選定して対象映像を決定し、対象映像に基づいて目追跡を行うことができる。
【0056】
図12は、一実施形態に係る目追跡装置を含む電子装置を示す図である。図12を参照すると、電子装置1200は、図1図11を参照して説明された目追跡装置を含むことができ、あるいは、図1図12を参照して説明された目追跡装置の機能を行うことができる。
【0057】
電子装置1200は、プロセッサ1210、メモリ1220、カメラ1230、ストレージ装置1240、入力装置1250、出力装置1260、及びネットワークインターフェース1270を含んでいる。プロセッサ1210、メモリ1220、カメラ1230、ストレージ装置1240、入力装置1250、出力装置1260、及びネットワークインターフェース1270は、通信バス1280を介して通信する。例えば、電子装置1200は、スマートフォン、タブレットPC、ノート型パソコン、デスクトップPC、ウェアラブルデバイス、スマート家電機器、スマートスピーカ、スマートカーなどを含んでもよい。一例として、電子装置1200は、車両に搭載されて3次元HUDのための機能を提供することができる。
【0058】
プロセッサ1210は、電子装置1200内で実行するための機能及び命令語を実行する。例えば、プロセッサ1210は、メモリ1220又はストレージ装置1240に格納された命令語を処理する。プロセッサ1210は、図1図11を参照して説明された1つ以上の動作を行うことができる。
【0059】
メモリ1220は、ニューラルネットワークの動作を処理するための情報を格納する。メモリ1220は、コンピュータ読み出し可能記憶媒体又はコンピュータ読み出し可能記憶装置を含んでもよい。メモリ1220は、プロセッサ1210によって実行するための命令語を格納し、電子装置1200によってソフトウェア又はアプリケーションが行われる間に関連情報を格納する。
【0060】
カメラ1230は、静止画、ビデオ映像、又は、これら両方を撮影する。カメラ1230は、目追跡のためにユーザの顔を撮影し、入力映像を生成する。カメラ1230は、オブジェクトに関する深度情報を含む3次元映像を提供することもできる。
【0061】
ストレージ装置1240は、コンピュータ読み出し可能記憶媒体又はコンピュータで読み出し可能記憶装置を含む。一実施形態によれば、ストレージ装置1240は、メモリ1220よりもさらに多くの量の情報を格納し、情報を長期間保存することができる。例えば、ストレージ装置1240は、磁気ハードディスク、光ディスク、フラッシュメモリ、フロッピー(登録商標)ディスク又はこの技術分野で知られた他の形態の不揮発性メモリを含んでもよい。ストレージ装置1240は、図9に示すデータベース910を含んでもよい。
【0062】
入力装置1250は、キーボード及びマウスを通した伝統的な入力方式、及びタッチ入力、音声入力、及びイメージ入力のような新しい入力方式を介してユーザから入力を受信する。例えば、入力装置1250は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を電子装置1200に伝達できる任意の他の装置を含んでもよい。入力装置1250を介してユーザの指紋、紅彩、発話、音声、及びオーディオなどのデータが入力される。
【0063】
出力装置1260は、視覚的、聴覚的又は触覚的なチャネルを介してユーザにユーザデバイス1200の出力を提供する。出力装置1260は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含んでもよい。一例として、出力装置1260は、3次元HUDの実現のためのディスプレイパネル、3次元光学レイヤ(パララックスバリア、レンチキュラレンズ、方向性バックライトなど)、光学システム(鏡、レンズなど)などを含んでもよい。ネットワークインターフェース1270は、有線又は無線ネットワークを介して外部装置と通信する。
【0064】
以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0065】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0066】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0067】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【符号の説明】
【0068】
100、1100 目追跡装置
111、610、710、810 入力映像
121、620、720 復元映像
130、730、820 サンプル映像
131、740 代替映像
910 データベース
921-923 サンプル映像
931-933 目位置情報
1110、1210 プロセッサ
1120、1220 メモリ
1200 電子装置
1230 カメラ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12