IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-注視点検出装置及び注視点検出方法 図1
  • 特許-注視点検出装置及び注視点検出方法 図2
  • 特許-注視点検出装置及び注視点検出方法 図3
  • 特許-注視点検出装置及び注視点検出方法 図4
  • 特許-注視点検出装置及び注視点検出方法 図5
  • 特許-注視点検出装置及び注視点検出方法 図6
  • 特許-注視点検出装置及び注視点検出方法 図7
  • 特許-注視点検出装置及び注視点検出方法 図8
  • 特許-注視点検出装置及び注視点検出方法 図9
  • 特許-注視点検出装置及び注視点検出方法 図10
  • 特許-注視点検出装置及び注視点検出方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-24
(45)【発行日】2022-11-01
(54)【発明の名称】注視点検出装置及び注視点検出方法
(51)【国際特許分類】
   G06F 3/0346 20130101AFI20221025BHJP
   G06T 7/00 20170101ALI20221025BHJP
   G06T 7/20 20170101ALI20221025BHJP
【FI】
G06F3/0346 423
G06T7/00 660A
G06T7/20 300Z
【請求項の数】 10
(21)【出願番号】P 2021530421
(86)(22)【出願日】2019-07-10
(86)【国際出願番号】 JP2019027305
(87)【国際公開番号】W WO2021005742
(87)【国際公開日】2021-01-14
【審査請求日】2021-12-07
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【弁理士】
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【弁理士】
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】高本 亮
【審査官】岩橋 龍太郎
(56)【参考文献】
【文献】特表2017-538990(JP,A)
【文献】特開2015-032237(JP,A)
【文献】米国特許出願公開第2013/0188054(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/0346
G06T 7/00
G06T 7/20
H04N 5/232
(57)【特許請求の範囲】
【請求項1】
少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報とを入力し、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出する顔検出手段と、
前記顔検出手段によって検出された顔部分を使用して前記対象人物の視線方向を推定する視線方向推定手段と、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定する位置情報推定手段と、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する注視点特定手段とを備える
注視点検出装置。
【請求項2】
前記注視点特定手段は、前記第2の撮影部が撮影した画像に前記対象人物の注視点を表示する
請求項1記載の注視点検出装置。
【請求項3】
前記顔検出手段は、前記第1の画像として前記対象人物の正面を含む画像を取得し、
前記位置情報推定手段は、前記第1の画像として前記対象人物の正面を含む画像を取得するとともに前記第2の画像として前記対象人物の背面を含む画像を取得する
請求項1又は請求項2記載の注視点検出装置。
【請求項4】
前記位置情報推定手段は、前記第2の画像における前記第1の撮影部の位置と前記第1の画像における前記第2の撮影部の位置とを関係づける回転行列を算出する
請求項1から請求項3のうちのいずれか1項に記載の注視点検出装置。
【請求項5】
前記位置情報推定手段は、少なくとも前記第1の撮影部及び前記第2の撮影部が含まれる範囲の画像を撮影可能に設置された第3の撮影部が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを補正する
請求項1から請求項4のうちのいずれか1項に記載の注視点検出装置。
【請求項6】
少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報とを入力し、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出し、
検出された顔部分を使用して前記対象人物の視線方向を推定し、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定し、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する
注視点検出方法。
【請求項7】
前記第2の撮影部が撮影した画像に前記対象人物の注視点を表示する
請求項6記載の注視点検出方法。
【請求項8】
前記第2の画像における前記第1の撮影部の位置と前記第1の画像における前記第2の撮影部の位置とを関係づける回転行列を算出する
請求項6又は請求項7記載の注視点検出方法。
【請求項9】
少なくとも前記第1の撮影部及び前記第2の撮影部が含まれる範囲の画像を撮影可能に設置された第3の撮影部が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを補正する
請求項6から請求項8のうちのいずれか1項に記載の注視点検出方法。
【請求項10】
コンピュータに、
少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報とを入力する処理と、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出する処理と、
検出された顔部分を使用して前記対象人物の視線方向を推定する処理と、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定する処理と、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する処理と
を実行させるための注視点検出プログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物が注視している対象を検出する注視点検出装置及び注視点検出方法に関する。
【背景技術】
【0002】
視線情報を用いて顧客の興味を持つ商品を推定する注視点検出技術が注目されている。注視点検出技術に基づく注視点検出装置は、注視点検出の対象人物の位置及び視線方向を推定する1台又は複数台のカメラを備える。対象人物の位置は、カメラで撮影されて記録された画像から幾何学的手法を使用して推定される。または、対象人物の位置は、位置推定検出器を用いて推定される。視線方向は、視線検出器を用いて推定される。そして、視線方向の先にあるものを検出することによって対象人物の着目点が推定される。
【0003】
例えば、特許文献1に、注視点検出を行う装置が記載されている。特許文献1に記載された装置は、対象人物を撮影する1台のカメラと視線方向検出手段と用いて、注視点を検出する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2011-217202号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1に記載された装置は、視線の原点である対象人物の瞳の空間位置や大きさ、及び、画像の奥行きを厳密には測定できない。よって、特許文献1に記載された装置は、対象人物の視線角度を取得できるが、注視点を精度よく検出することはできない。
【0006】
本発明は、注視点を精度よく検出できる注視点検出システムを提供するを目的とする。
【課題を解決するための手段】
【0007】
本発明による注視点検出装置は、少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、第1の撮影部と対向するように位置し、少なくとも第1の撮影部が含まれる範囲の画像と深度情報とを取得する第2の撮影部が取得した第2の画像及び第2の深度情報とを入力し、第1の画像及び第1の深度情報から対象人物の顔部分を検出する顔検出手段と、顔検出手段によって検出された顔部分を使用して対象人物の視線方向を推定する視線方向推定手段と、第1の画像及び第1の深度情報と第2の画像及び第2の深度情報とに基づいて、対象人物の瞳の3次元空間位置と第1の撮影部及び第2の撮影部の3次元空間位置とを推定する位置情報推定手段と、対象人物の瞳の3次元空間位置と視線方向とに基づいて対象人物の注視点を特定する注視点特定手段とを含む。
【0008】
本発明による注視点検出方法は、少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、第1の撮影部と対向するように位置し、少なくとも第1の撮影部が含まれる範囲の画像と深度情報とを取得する第2の撮影部が取得した第2の画像及び第2の深度情報とを入力し、第1の画像及び第1の深度情報から対象人物の顔部分を検出し、検出された顔部分を使用して対象人物の視線方向を推定し、第1の画像及び第1の深度情報と第2の画像及び第2の深度情報とに基づいて、対象人物の瞳の3次元空間位置と第1の撮影部及び第2の撮影部の3次元空間位置とを推定し、対象人物の瞳の3次元空間位置と視線方向とに基づいて対象人物の注視点を特定する。
【0009】
本発明による注視点検出プログラムは、コンピュータに、少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、第1の撮影部と対向するように位置し、少なくとも第1の撮影部が含まれる範囲の画像と深度情報とを取得する第2の撮影部が取得した第2の画像及び第2の深度情報とを入力する処理と、第1の画像及び第1の深度情報から対象人物の顔部分を検出する処理と、検出された顔部分を使用して対象人物の視線方向を推定する処理と、第1の画像及び第1の深度情報と第2の画像及び第2の深度情報とに基づいて、対象人物の瞳の3次元空間位置と第1の撮影部及び第2の撮影部の3次元空間位置とを推定する処理と、対象人物の瞳の3次元空間位置と視線方向とに基づいて対象人物の注視点を特定する処理とを実行させる。
【発明の効果】
【0010】
本発明によれば、対象人物の空間位置情報の精度が向上し、注視点を精度よく検出できる。
【図面の簡単な説明】
【0011】
図1】第1の実施形態の注視点検出装置の構成例を示すブロック図である。
図2】第1の撮影部及び第2の撮影部の配置例を示す説明図である。
図3】第1の撮影部及び第2の撮影部で撮影された画像の例を示す説明図である。
図4】第2の撮影部で過去に撮影された画像を利用して遮蔽部分が復元される様子を示す説明図である。
図5】第1の実施形態の注視点検出装置の動作を示すフローチャートである。
図6】第2の実施形態の注視点検出装置の構成例を示すブロック図である。
図7】第1の撮影部、第2の撮影部及び第3の撮影部の配置例を示す説明図である。
図8】第2の実施形態の注視点検出装置の動作を示すフローチャートである。
図9】第1の撮影部、第2の撮影部及び第3の撮影部で撮影された画像の例を示す説明図である。
図10】CPUを有するコンピュータの一例を示すブロック図である。
図11】注視点検出装置の主要部を示すブロック図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態を図面を参照して説明する。
【0013】
実施形態1.
図1は、第1の実施形態の注視点検出装置10を、第1の撮影部101及び第2の撮影部102ととともに示すブロック図である。注視点検出装置10は、画像記憶部104と、顔検出部105と、視線方向推定部106と、位置情報推定部107と、注視対象推定部108とを含む。
【0014】
第1の撮影部101及び第2の撮影部102として、それぞれ、深度カメラが用いられる。本明細書において、深度カメラは、RGB画像(2次元画像)とともに距離情報(深度情報)も取得できる撮影手段を意味する。以下、そのような深度カメラを、RGB-Dカメラという。第1の撮影部101及び第2の撮影部102として、例えば、インテルリアルセンス(登録商標)を使用可能である。
【0015】
また、深度カメラとして、RGB画像を取得するカメラとToF(Time of Flight)カメラとの組合せが用いられてもよい。
【0016】
第1の撮影部101は、対象人物がある対象を注視するときに対象人物の正面側を撮影できるような位置に設置される。第1の撮影部101は、人物の顔が画像内に入るための十分な高さまたは角度に調整される。同様に、第2の撮影部102は、第1の撮影部101の背後の、検出したい注視部分を画像内に入れるように設置される。さらに、第1の撮影部101及び第2の撮影部102は、恒常的な遮蔽物などが撮影画像内に入らないように設置される。
【0017】
図2には、第1の撮影部101及び第2の撮影部102の配置例が示されている。また、第1の撮影部101は、対象人物1及び第2の撮影部102が、第1の撮影部101が得る画像内に入るように設置される。第2の撮影部102は、対象人物1及び第1の撮影部101が、第2の撮影部102が得る画像内に入るように設置される。一般には、第1の撮影部101と第2の撮影部102とは、対向するように配置される。
【0018】
注視点検出装置10において、第1の撮影部101によって撮影された対象人物1の正面が写っている画像から、対象人物1の視線方向が推定される。また、第2の撮影部102によって撮影された対象人物1の背面及び対象人物1が注視する対象の候補が写っている画像から、対象人物1が注視する対象が特定される。
【0019】
第1の撮影部101と第2の撮影部102とが共働して、すなわち、第1の撮影部101によって撮影された画像と第2の撮影部102によって撮影された画像との双方に基づいて、対象人物1が注視する対象を特定するので、第1の撮影部101によって撮影された画像における座標と第2の撮影部102によって撮影された画像における座標とは、一致することが要請される。
【0020】
第1の撮影部101は、少なくとも対象人物の顔の部分と第2の撮影部102とが写った画像(2次元画像)と、深度情報とを取得する。第2の撮影部102は、対象人物と、第1の撮影部101と、対象人物の注視対象との画像及び深度情報を取得する。画像記憶部104は、第2の撮影部102で撮影された画像情報と深度情報とを記録(記憶)する。
【0021】
顔検出部105は、第1の撮影部101で撮影された画像から対象人物の顔を検出する。視線方向推定部106は、顔検出部105で検出された顔画像から視線方向を推定する。
【0022】
位置情報推定部107は、第1の撮影部101及び第2の撮影部102が撮影した画像と深度情報とから、対象人物、第1の撮影部101、第2の撮影部102の空間位置(3次元空間位置)を推定する。
【0023】
注視対象推定部108は、視線方向推定部106が得た視線情報及び位置情報推定部107が得た空間位置を用いて注視対象を推定する。注視対象推定部108は、画像記憶部104に記録されている過去画像を用いて遮蔽部分を取り除いた第2の撮影部102の画像内に、注視対象を追加する。過去画像及び遮蔽部分の詳細については後述される。
【0024】
図3は、第1の撮影部101及び第2の撮影部102で撮影された画像の例を示す説明図である。図3(A)には、第2の撮影部102で撮影された画像302の一例が示されている。図3(B)には、第1の撮影部101で撮影された画像301の一例が示されている。図3に示す例では、画像301は、対象人物1の正面側及び第2の撮影部102が撮影されている画像である。また、画像302は、対象人物1の背面側、第1の撮影部101及び注視対象2が撮影されている画像である。
【0025】
図4は、第2の撮影部102で過去に撮影された画像を利用して遮蔽部分が復元される様子を示す説明図である。図4(A)には、第2の撮影部102で撮影された画像402の一例が示されている。図4(B)には、注視対象2の像を含む画像412の一例が示されている。なお、図4(A)では、第1の撮影部101の像は記載省略されている。
【0026】
注視点検出装置10の小売り店舗への応用を想定すると、第1の撮影部101は、例えば、商品陳列棚における顧客通路側に設置される。第2の撮影部102は、例えば、第1の撮影部101が設置された商品陳列棚に対して顧客通路を挟んで向かい側に設置される。そのような設置状況において、対象人物1(この例では、顧客)が注視対象2を遮蔽して、第2の撮影部102で得られる画像に現れない場合があることが考えられる(図4(A)参照)。
【0027】
本実施の形態では、注視点検出装置10は、そのような場合でも、画像412に注視対象2の像が現れるような制御も行う。
【0028】
次に、注視点検出装置10の動作を説明する。図5は、注視点検出装置10の動作を示すフローチャートである。
【0029】
注視点検出装置10における第1の撮影部101と第2の撮影部102とが、向かい合うように配置される(ステップS100)。
【0030】
その状態で、第1の撮影部101が、対象人物の顔部分を含む画像を撮影する。位置情報推定部107は、まず、第1の撮影部101と第2の撮影部102との位置関係を算出する(ステップS101)。ステップS101の処理は、例えば、以下のように実行される。
【0031】
位置情報推定部107は、第1の撮影部101が撮影した画像及び深度情報から第2の撮影部102の位置(3次元空間位置)を求める。また、注視対象推定部108は、第2の撮影部102が撮影した画像及び深度情報から第1の撮影部101の位置を求める。位置情報推定部107は、第1の撮影部101が撮影した画像及び深度情報に基づく第2の撮影部102の位置を原点とする第1の撮影部101の位置ベクトルを求める。また、位置情報推定部107は、第2の撮影部102が撮影した画像及び深度情報に基づく第1の撮影部101の位置を原点とする第2の撮影部102の位置ベクトルを求める。
【0032】
理想的には、2つの位置ベクトルの大きさすなわち距離は一致する。一致しない場合には、2つの位置ベクトルの大きさの平均で、2つの位置ベクトルを規格化する。
【0033】
注視対象推定部108は、下記の(1)式に基づいて回転行列R を算出する。
【0034】
r14 = R*r41 …(1)
【0035】
r14 は、第1の撮影部101の位置を原点とした場合の、第1の撮影部101が撮影した画像及び深度情報に基づく第2の撮影部102の位置を示す。r41 は、第2の撮影部102の位置を原点とした場合の、第2の撮影部102が撮影した画像及び深度情報に基づく第1の撮影部101の位置を示す。回転行列R のパラメータは3つであり、オイラー行列などを仮定すれば、非線形連立方程式を解くことによって、回転行列R が厳密に求まる。非線形連立方程式の数値解の精度は、パラメータの数を減らすほど上がる。よって、あらかじめ地面と水平なライン及び垂直なライン、第1の撮影部101及び第2の撮影部102の3次元空間位置などを同定(例えば、注視点検出装置10の店舗への応用を想定すると、商品陳列棚の段を地面と水平なように配置したり商品陳列棚の外観を直方体にするなど)することによって別の方法で回転角の一部を求めておけば、数値解の精度が向上する。
【0036】
注視対象推定部108は、瞳の3次元空間位置から伸びる視線方向と、第1の撮影部101のレンズ平面(z(光軸方向)=0の平面:第1の撮影部101がカメラであることを想定した場合)の交点を求める。また、注視対象推定部108は、第1の撮影部101のレンズ平面に回転行列R を適用することによって、第1の撮影部101の座標系を第2の撮影部102の座標系に変換することができる。
【0037】
なお、ステップS101の処理は、対象人物1が注視する対象を検出する処理が実行される度に実行されてもよいが、定期的(例えば、1日に1回)に実行されたり、第1の撮影部101と第2の撮影部102との設置時に実行されたりしてもよい。
【0038】
顔検出部105は、第1の撮影部101が撮影した画像から対象人物の顔部分を検出する(ステップS102)。顔検出部105は、顔部分を検出するときに、例えば、OpenCVの顔検出機能を用いることができる。
【0039】
視線方向推定部106は、顔検出部105で検出された顔画像に基づいて、視線方向を推定する(ステップS103)。視線方向推定部106は、視線方向を推定するときに、例えば、角膜反射法を用いることができる。なお、角膜反射法を用いる場合には、赤外線光源又は近赤外線光源が併用される。
【0040】
位置情報推定部107は、第1の撮影部101及び第2の撮影部102が撮影した画像と深度情報とから、対象人物1の瞳、第1の撮影部101及び第2の撮影部102の3次元空間位置を推定する(ステップS104)。位置情報推定部107は、瞳の位置を推定するときに、例えば、OpenCVのFacemark APIを用いて画像内の瞳の位置を検出し、第1の撮影部101における深度カメラの内部キャリブレーションを行うことによって幾何学的に瞳の位置情報を得ることができる。
【0041】
画像記憶部104には、対象人物1が存在しない状況で第2の撮影部102で撮影された画像(過去画像)が記録されている。
【0042】
位置情報推定部107は、第2の撮影部102で撮影された現在画像(すなわち、対象人物1が写っている画像)において注視対象2を遮蔽する物体の部分を、過去画像における対応部分で置き換える(ステップS105)。なお、注視対象2を遮蔽する物体は、主として対象人物1である。過去画像における対応部分で置き換えられた画像(第2の撮影部102で撮影された現在画像において対応部分が置き換えられた画像)を、以下、置換画像という。過去画像は、対象人物1などの遮蔽物が存在しない状態で、第2の撮影部102で撮影された画像である。
【0043】
注視対象推定部108は、視線方向推定部106が推定した視線方向及び位置情報推定部107が推定した空間位置の情報を用いて注視対象を検出する。注視対象推定部108は、例えば、瞳の3次元空間位置から視線方向に直線を伸ばす(ステップS106)。注視対象推定部108は、置換画像において直線が何らかの物体と交差すると、その物体を注視対象であると判定する(ステップS107)。
【0044】
注視対象推定部108が、過去画像を使用することによって、第2の撮影部102で撮影された現在画像(すなわち、対象人物1が写っている画像)において注視対象2が対象人物1に遮蔽されている場合でも、対象人物1に注視対象2が隠されることなく、注視対象2を特定することが可能になる。
【0045】
そして、注視対象推定部108は、置換画像内に、注視対象を追加する(ステップS108:図4(B)参照))。
【0046】
なお、注視対象推定部108は、第2の撮影部102の座標系での座標値を、第2の撮影部102が撮影した画像にプロットする。
【0047】
また、注視点検出装置10に表示装置が接続されている場合には、注視対象推定部108は、対象人物の注視対象が表示されている画像を表示装置に表示するようにしてもよい。
【0048】
本実施形態では、第1の撮影部101と第2の撮影部102とが深度情報を取得しているので、1つの画像から深度情報を推定する場合に比べて、注視対象2の位置を高精度に推定可能になる。また、複数の撮影部(第1の撮影部101及び第2の撮影部102)が取得した深度情報を組み合わせることによって、深度情報のノイズを打ち消すことができる(例えば、第1の撮影部101と第2の撮影部102との間の2つの位置ベクトルの大きさの平均を取るような場合)。
【0049】
また、本実施形態では、対象人物1を挟む2つの撮影部が活用されるので、単一のカメラを使用する場合には検出できないような注視対象2の位置を検出することができる。さらに、置換画像が使用されるので、注視対象2が遮蔽されるような場合でも、注視対象2の位置を推定することができる。
【0050】
実施形態2.
図6は、第2の実施形態の注視点検出装置20の構成例を、第1の撮影部101、第2の撮影部102及び第3の撮影部103ととともに示すブロック図である。注視点検出装置20は、基本的に第1の実施形態の注視点検出装置10と同様に構成されるが、本実施形態では、位置情報推定部107は、第3の撮影部103が撮影した画像も使用する。なお、第3の撮影部103として、深度情報を取得しない2次元カメラを使用してもよい。
【0051】
図7は、第1の撮影部101、第2の撮影部102及び第3の撮影部103の配置例を示す説明図である。
【0052】
第1の実施形態と同様に、第1の撮影部101は、対象人物がある対象を注視するときに対象人物の正面側を撮影できるような位置に設置される。第1の撮影部101は、人物の顔が画像内に入るための十分な高さまたは角度に調整される。同様に、第2の撮影部102は、第1の撮影部101の背後の、検出したい注視部分を画像内に入れるように設置される。さらに、第1の撮影部101及び第2の撮影部102は、恒常的な遮蔽物などが撮影画像内に入らないように設置される。
【0053】
また、第1の撮影部101は、第2の撮影部102が、第1の撮影部101が得る画像内に入るように設置される。第2の撮影部102は、第1の撮影部101が、第2の撮影部102が得る画像内に入るように設置される。
【0054】
第1の撮影部101は、少なくとも対象人物の顔の部分と第2の撮影部102とが写った画像(2次元画像)と、深度情報とを取得する。第2の撮影部102は、対象人物と、第1の撮影部101と、対象人物の注視対象との画像及び深度情報を取得する。画像記憶部104は、第2の撮影部102で撮影された画像情報と深度情報とを記録(記憶)する。
【0055】
本実施形態では、第3の撮影部103が、第1の撮影部101、第2の撮影部102、及び対象人物1を撮影可能な位置に設置される。第3の撮影部103は、第1の撮影部101、第2の撮影部102及び対象人物1が写った画像を撮影するが、それらの深度情報を取得してもよい。
【0056】
図8は、第2の実施形態の注視点検出装置20の動作を示すフローチャートである。図8に示すフローチャートでは、図5に示されたフローチャートに、ステップS201,S202の処理が追加されている。
【0057】
第1の実施形態の場合と同様に、注視点検出装置10における第1の撮影部101と第2の撮影部102とが、向かい合うように配置される(ステップS100)。また、第3の撮影部103が、第1の撮影部101、第2の撮影部102及び対象人物1を撮影可能な位置に設置される(ステップS201)。ステップS101~S103の処理は、第1の実施形態における処理と同じである。
【0058】
位置情報推定部107は、第1の実施形態の場合と同様に、第1の撮影部101及び第2の撮影部102が撮影した画像及び深度情報から、対象人物1の瞳、第1の撮影部101及び第2の撮影部102の3次元空間位置を推定した後(ステップS104)、空間位置を補正する(ステップS202)。
【0059】
位置情報推定部107は、ステップS202の処理で、第3の撮影部103から得られた画像を用いて、第1の撮影部101及び第2の撮影部102が撮影した画像及び深度情報から推定した位置情報を補正する。
【0060】
図9は、第1の撮影部101、第2の撮影部102及び第3の撮影部103で撮影された画像の例を示す説明図である。図9(A)には、対象人物1、注視対象2及び第1の撮影部101が写った第2の撮影部102で撮影された画像302の一例が示されている。図9(B)には、対象人物1及び第2の撮影部102が写った第1の撮影部101で撮影された画像301の一例が示されている。図9(C)には、対象人物1、第1の撮影部101及び第2の撮影部102が写った第3の撮影部103で撮影された画像303の一例が示されている。
【0061】
位置情報推定部107は、画像303(xy平面の二次元画面)における対象人物1、第1の撮影部101及び第2の撮影部102のx座標値及びy座標値を取得できる。y座標値は、画像301,画像302での奥行き方向(z方向)に相当する。すなわち、第1の撮影部101が取得した深度情報及び第2の撮影部102が取得した深度情報に相当する。
【0062】
また、画像303におけるx座標値及びy座標値は、直接に撮影された画像に基づく座標値であるから、第1の撮影部101が取得した深度情報及び第2の撮影部102が取得した深度情報よりも、信頼度が高いと考えられる。そこで、位置情報推定部107は、ステップS202の処理で、ステップS104の処理で推定された対象人物1の瞳、第1の撮影部101及び第2の撮影部102の3次元空間位置を示す値のうちz座標値を、画像303における値で置き換える。
【0063】
その後、第1の実施形態の場合と同様に、ステップS105~S108の処理が実行される。
【0064】
本実施形態では、注視点検出装置20は、第1の撮影部101と第2の撮影部102とに加えて、第1の撮影部101及び第2の撮影部102と対象人物1とが写った画像を提供する第3の撮影部103を備えている。位置情報推定部107は、第3の撮影部103が直接的に取得した第1の撮影部101、第2の撮影部102及び対象人物1から、それらの空間位置の情報(特に、z方向の情報)を得ることができる。そして、位置情報推定部107が、第3の撮影部103による画像から取得される情報を用いて、第1の撮影部101と第2の撮影部102とが取得した深度情報及び画像から求められた3次元空間位置の補正を行う。その結果、注視点検出装置20は、さらに高精度な3次元空間位置の推定値を取得できる。よって、注視点検出装置20は、より高精度に注視対象2を特定できる。
【0065】
上記の実施形態の注視点検出装置10,20は、商業施設などで注視点から顧客がどの商品に興味を持っているか否か判定するといった用途に適用可能である。また、不審人物が不審行動を行ったときに何に興味を示したかを判定するといった用途にも適用可能である。
【実施例
【0066】
次に、具体的な実施例を説明する。
【0067】
本実施例では、注視点検出装置10,20の小売り店舗への応用を想定する。第1の撮影部101として、RGB-Dカメラ(第1のRGB-Dカメラ)を使用し、第2の撮影部102として、RGB-Dカメラ(第2のRGB-Dカメラ)を使用する。第1のRGB-Dカメラは、例えば、商品陳列棚における顧客通路側に設置される。第2のRGB-Dカメラは、例えば、第1の撮影部101が設置された商品陳列棚に対して顧客通路を挟んで向かい側に設置される。商品陳列棚として、規格が揃った同一品が用いられ、第1のRGB-Dカメラ及び第2のRGB-Dカメラを、それぞれ、商品陳列棚におけるほぼ同じ位置に設置する。
【0068】
第1のRGB-Dカメラ及び第2のRGB-Dカメラの内部パラメータを、適切なキャリブレーション操作によって求めておく(例えば、OpenCVなどを用いる。)。各商品陳列棚は、可能な限り平行に並べられる。商品陳列棚の間の距離は、第1のRGB-Dカメラ及び第2のRGB-Dカメラの深度測定の誤差が大きくなりすぎない距離以下に設定される。実用的には、商品陳列棚の間の距離が3mを越えないように設置されることが望ましい。実際の設置状況が、これらの距離に関する条件に近づくほど、カメラ画像の情報からカメラの位置と姿勢を導出する際の誤差が小さくなる。
【0069】
そして、第1のRGB-Dカメラ及び第2のRGB-Dカメラで撮影された画像から、お互いのカメラの位置を求める。そして、例えば、上述した回転行列R を導出する。
【0070】
次に、第1のRGB-Dカメラが取得した情報から、顔検出部105としての顔検出器例えばOpenCVの顔検出機能を用いて、対象人物1の瞳の3次元空間位置を推定する。さらに、視線方向推定部106としての視線検出器(例えば、角膜反射法が使用される。)を用いて、対象人物1の視線方向を取得する。瞳の位置から視線方向に直線を伸ばし、第1のRGB-Dカメラのレンズ平面(例えばz=0平面)との交点を求める。
【0071】
この平面を回転行列R と組み合わせることによって、第1のRGB-Dカメラのレンズ平面を第2のRGB-Dカメラの座標で表すことができる。求められた第2のRGB-Dカメラにおける座標値を、第2のRGB-Dカメラで取得された画像にプロットする。なお、該当部分(注視対象2)が対象人物1などで遮蔽されている場合には、注視対象推定部108は、画像記憶部104に保存されている第2のRGB-Dカメラによる過去画像や、遮蔽部分が過去画像における対応部分で置き換えられた差分画像を用いて、遮蔽を除去した画像において注視点を検出する。
【0072】
上記の各実施形態における各機能(各処理)を、CPU(Central Processing Unit )等のプロセッサやメモリ等を有するコンピュータで実現可能である。例えば、記憶装置(記憶媒体)に上記の実施形態における方法(処理)を実施するためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをCPUで実行することによって実現してもよい。
【0073】
図10は、CPUを有するコンピュータの一例を示すブロック図である。コンピュータは、注視点検出装置に実装される。CPU1000は、記憶装置1001に格納されたプログラムに従って処理を実行することによって、上記の各実施形態における各機能を実現する。すなわち、図1図6に示された10,20における、顔検出部105、視線方向推定部106、位置情報推定部107、及び注視対象推定部108の機能を実現する。
【0074】
記憶装置1001は、例えば、非一時的なコンピュータ可読媒体(non-transitory computer readable medium )である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium )を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Compact Disc-Read Only Memory )、CD-R(Compact Disc-Recordable )、CD-R/W(Compact Disc-ReWritable )、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM )、フラッシュROM)がある。
【0075】
また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium )に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
【0076】
メモリ1002は、例えばRAM(Random Access Memory)で実現され、CPU1000が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ1002に、記憶装置1001または一時的なコンピュータ可読媒体が保持するプログラムが転送され、CPU1000がメモリ1002内のプログラムに基づいて処理を実行するような形態も想定しうる。
【0077】
図1図6に示された画像記憶部104は、記憶装置1001又はメモリ1002で実現される。
【0078】
図11は、本発明による注視点検出装置の主要部を示すブロック図である。図11に示す注視点検出装置30は、少なくとも第2の撮影部102が含まれる範囲の画像と深度情報とを取得する第1の撮影部101が取得した第1の画像及び第1の深度情報と、第1の撮影部101と対向するように位置し、少なくとも第1の撮影部101が含まれる範囲の画像と深度情報とを取得する第2の撮影部102が取得した第2の画像及び第2の深度情報とを入力する装置であって、第1の画像及び第1の深度情報から対象人物の顔部分を検出する顔検出手段31(実施形態では、顔検出部105で実現される。)と、顔検出手段31によって検出された顔部分を使用して対象人物の視線方向を推定する視線方向推定手段32(実施形態では、視線方向推定部106で実現される。)と、第1の画像及び第1の深度情報と第2の画像及び第2の深度情報とに基づいて、対象人物の瞳の3次元空間位置と第1の撮影部及び第2の撮影部の3次元空間位置とを推定する位置情報推定手段33(実施形態では、位置情報推定部108で実現される。)と、対象人物の瞳の3次元空間位置と視線方向とに基づいて対象人物の注視点(例えば、注視対象2)を特定する注視点特定手段34(実施形態では、注視対象推定部108で実現される。)とを備えている。
【0079】
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
【0080】
(付記1)少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報とを入力し、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出する顔検出手段と、
前記顔検出手段によって検出された顔部分を使用して前記対象人物の視線方向を推定する視線方向推定手段と、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定する位置情報推定手段と、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する注視点特定手段とを備える
注視点検出装置。
【0081】
(付記2)前記注視点特定手段は、前記第2の撮影部が撮影した画像に前記対象人物の注視点を表示する
付記1の注視点検出装置。
【0082】
(付記3)前記顔検出手段は、前記第1の画像として前記対象人物の正面を含む画像を取得し、前記位置情報推定手段は、前記第1の画像として前記対象人物の正面を含む画像を取得するとともに前記第2の画像として前記対象人物の背面を含む画像を取得する
付記1又は付記2の注視点検出装置。
【0083】
(付記4)前記位置情報推定手段は、前記第2の画像における前記第1の撮影部の位置と前記第1の画像における前記第2の撮影部の位置とを関係づける回転行列を算出する
付記1から付記3のうちのいずれかの注視点検出装置。
【0084】
(付記5)前記位置情報推定手段は、少なくとも前記第1の撮影部及び前記第2の撮影部が含まれる範囲の画像を撮影可能に設置された第3の撮影部が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを補正する
付記1から付記4のうちのいずれかの注視点検出装置。
【0085】
(付記6)少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報と入力し、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出し、
検出された顔部分を使用して前記対象人物の視線方向を推定し、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定し、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する
注視点検出方法。
【0086】
(付記7)前記第2の撮影部が撮影した画像に前記対象人物の注視点を表示する
付記6の注視点検出方法。
【0087】
(付記8)前記第2の画像における前記第1の撮影部の位置と前記第1の画像における前記第2の撮影部の位置とを関係づける回転行列を算出する
付記6又は付記7の注視点検出方法。
【0088】
(付記9)少なくとも前記第1の撮影部及び前記第2の撮影部が含まれる範囲の画像を撮影可能に設置された第3の撮影部が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを補正する
付記6から付記8のうちのいずれかの注視点検出方法。
【0089】
(付記10)注視点検出プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
前記注視点検出プログラムは、プロセッサによって実行されるときに、
少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報とを入力する処理と、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出する処理と、
検出された顔部分を使用して前記対象人物の視線方向を推定する処理と、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定する処理と、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する処理とをプロセッサに実行させる記録媒体。
【0090】
(付記11)注視点検出プログラムは、プロセッサによって実行されるときに、
前記第2の撮影部が撮影した画像に前記対象人物の注視点を表示する処理をプロセッサに実行させる付記10の記録媒体。
【0091】
(付記12)注視点検出プログラムは、プロセッサによって実行されるときに、
前記第2の画像における前記第1の撮影部の位置と前記第1の画像における前記第2の撮影部の位置とを関係づける回転行列を算出する処理をプロセッサに実行させる付記10又は付記11の記録媒体。
【0092】
(付記13)注視点検出プログラムは、プロセッサによって実行されるときに、
少なくとも前記第1の撮影部及び前記第2の撮影部が含まれる範囲の画像を撮影可能に設置された第3の撮影部が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを補正する処理をプロセッサに実行させる付記10から付記12のうちのいずれかの記録媒体。
【0093】
(付記14)コンピュータに、
少なくとも第2の撮影部が含まれる範囲の画像と深度情報とを取得する第1の撮影部が取得した第1の画像及び第1の深度情報と、前記第1の撮影部と対向するように位置し、少なくとも前記第1の撮影部が含まれる範囲の画像と深度情報とを取得する前記第2の撮影部が取得した第2の画像及び第2の深度情報と入力する処理と、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出する処理と、
検出された顔部分を使用して前記対象人物の視線方向を推定する処理と、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを推定する処理と、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する処理と
を実行させるための注視点検出プログラム。
【0094】
(付記15)コンピュータに、
前記第2の撮影部が撮影した画像に前記対象人物の注視点を表示する処理
を実行させる付記14の注視点検出プログラム。
【0095】
(付記16)コンピュータに、
前記第2の画像における前記第1の撮影部の位置と前記第1の画像における前記第2の撮影部の位置とを関係づける回転行列を算出する処理
を実行させる付記14又は付記15の注視点検出プログラム。
【0096】
(付記17)コンピュータに、
少なくとも前記第1の撮影部及び前記第2の撮影部が含まれる範囲の画像を撮影可能に設置された第3の撮影部が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影部及び前記第2の撮影部の3次元空間位置とを補正する処理
を実行させる付記14から付記16のうちのいずれかの注視点検出プログラム。
【0097】
(付記18)第1の撮影手段と、第2の撮影手段とを備え、
前記第1の撮影手段は、少なくとも前記第2の撮影手段が含まれる範囲の第1の画像と第1の深度情報とを取得し、
前記第2の撮影手段は、前記第1の撮影手段と対向するように位置し、少なくとも前記第1の撮影手段が含まれる範囲の第2の画像と第2の深度情報とを取得し、
前記第1の画像及び前記第1の深度情報から対象人物の顔部分を検出する顔検出手段と、
前記顔検出手段によって検出された顔部分を使用して前記対象人物の視線方向を推定する視線方向推定手段と、
前記第1の画像及び前記第1の深度情報と前記第2の画像及び前記第2の深度情報とに基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影手段及び前記第2の撮影手段の3次元空間位置とを推定する位置情報推定手段と、
前記対象人物の瞳の3次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する注視点特定手段とをさらに備える
注視点検出システム。
【0098】
(付記19)前記注視点特定手段は、前記第2の撮影手段が撮影した画像に前記対象人物の注視点を表示する
付記18の注視点検出システム。
【0099】
(付記20)前記顔検出手段は、前記第1の画像として前記対象人物の正面を含む画像を取得し、前記位置情報推定手段は、前記第1の画像として前記対象人物の正面を含む画像を取得するとともに前記第2の画像として前記対象人物の背面を含む画像を取得する
付記18又は付記19の注視点検出システム。
【0100】
(付記21)前記位置情報推定手段は、前記第2の画像における前記第1の撮影手段の位置と前記第1の画像における前記第2の撮影手段の位置とを関係づける回転行列を算出する
付記18から付記20のうちのいずれかの注視点検出システム。
【0101】
(付記22)少なくとも前記第1の撮影手段及び前記第2の撮影手段が含まれる範囲の画像を撮影可能に設置された第3の撮影手段をさらに備え、
前記位置情報推定手段は、前記第3の撮影手段が取得した第3の画像に基づいて、前記対象人物の瞳の3次元空間位置と前記第1の撮影手段及び前記第2の撮影手段の3次元空間位置とを補正する
付記18から付記21のうちのいずれかの注視点検出システム。
【0102】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0103】
1 対象人物
2 注視対象
10,20,30 注視点検出装置
31 顔検出手段
32 視線方向推定手段
33 位置情報推定手段
34 注視点特定手段
101 第1の撮影部
102 第2の撮影部
103 第3の撮影部
104 画像記憶部
105 顔検出部
106 視線方向推定部
107 位置情報推定部
108 注視対象推定部
1000 CPU
1001 記憶装置
1002 メモリ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11