特許7164047 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7164047注視点検出装置及び注視点検出方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-24

(45)【発行日】2022-11-01

(54)【発明の名称】注視点検出装置及び注視点検出方法

(51)【国際特許分類】

G06F 3/0346 20130101AFI20221025BHJP

G06T 7/00 20170101ALI20221025BHJP

G06T 7/20 20170101ALI20221025BHJP

【ＦＩ】

G06F3/0346 423

G06T7/00 660A

G06T7/20 300Z

【請求項の数】 10

(21)【出願番号】P 2021530421

(86)(22)【出願日】2019-07-10

(86)【国際出願番号】 JP2019027305

(87)【国際公開番号】W WO2021005742

(87)【国際公開日】2021-01-14

【審査請求日】2021-12-07

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103090

【弁理士】

【氏名又は名称】岩壁冬樹

(74)【代理人】

【識別番号】100124501

【弁理士】

【氏名又は名称】塩川誠人

(72)【発明者】

【氏名】高本亮

【審査官】岩橋龍太郎

(56)【参考文献】

【文献】特表２０１７－５３８９９０（ＪＰ，Ａ）

【文献】特開２０１５－０３２２３７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１３／０１８８０５４（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０３４６

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／２０

Ｈ０４Ｎ５／２３２

(57)【特許請求の範囲】

【請求項1】

少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報とを入力し、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出する顔検出手段と、
前記顔検出手段によって検出された顔部分を使用して前記対象人物の視線方向を推定する視線方向推定手段と、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定する位置情報推定手段と、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する注視点特定手段とを備える
注視点検出装置。

【請求項2】

前記注視点特定手段は、前記第２の撮影部が撮影した画像に前記対象人物の注視点を表示する
請求項１記載の注視点検出装置。

【請求項3】

前記顔検出手段は、前記第１の画像として前記対象人物の正面を含む画像を取得し、
前記位置情報推定手段は、前記第１の画像として前記対象人物の正面を含む画像を取得するとともに前記第２の画像として前記対象人物の背面を含む画像を取得する
請求項１又は請求項２記載の注視点検出装置。

【請求項4】

前記位置情報推定手段は、前記第２の画像における前記第１の撮影部の位置と前記第１の画像における前記第２の撮影部の位置とを関係づける回転行列を算出する
請求項１から請求項３のうちのいずれか１項に記載の注視点検出装置。

【請求項5】

前記位置情報推定手段は、少なくとも前記第１の撮影部及び前記第２の撮影部が含まれる範囲の画像を撮影可能に設置された第３の撮影部が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを補正する
請求項１から請求項４のうちのいずれか１項に記載の注視点検出装置。

【請求項6】

少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報とを入力し、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出し、
検出された顔部分を使用して前記対象人物の視線方向を推定し、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定し、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する
注視点検出方法。

【請求項7】

前記第２の撮影部が撮影した画像に前記対象人物の注視点を表示する
請求項６記載の注視点検出方法。

【請求項8】

前記第２の画像における前記第１の撮影部の位置と前記第１の画像における前記第２の撮影部の位置とを関係づける回転行列を算出する
請求項６又は請求項７記載の注視点検出方法。

【請求項9】

少なくとも前記第１の撮影部及び前記第２の撮影部が含まれる範囲の画像を撮影可能に設置された第３の撮影部が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを補正する
請求項６から請求項８のうちのいずれか１項に記載の注視点検出方法。

【請求項10】

コンピュータに、
少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報とを入力する処理と、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出する処理と、
検出された顔部分を使用して前記対象人物の視線方向を推定する処理と、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定する処理と、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する処理と
を実行させるための注視点検出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人物が注視している対象を検出する注視点検出装置及び注視点検出方法に関する。

【背景技術】

【0002】

視線情報を用いて顧客の興味を持つ商品を推定する注視点検出技術が注目されている。注視点検出技術に基づく注視点検出装置は、注視点検出の対象人物の位置及び視線方向を推定する１台又は複数台のカメラを備える。対象人物の位置は、カメラで撮影されて記録された画像から幾何学的手法を使用して推定される。または、対象人物の位置は、位置推定検出器を用いて推定される。視線方向は、視線検出器を用いて推定される。そして、視線方向の先にあるものを検出することによって対象人物の着目点が推定される。

【0003】

例えば、特許文献１に、注視点検出を行う装置が記載されている。特許文献１に記載された装置は、対象人物を撮影する１台のカメラと視線方向検出手段と用いて、注視点を検出する。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１１－２１７２０２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、特許文献１に記載された装置は、視線の原点である対象人物の瞳の空間位置や大きさ、及び、画像の奥行きを厳密には測定できない。よって、特許文献１に記載された装置は、対象人物の視線角度を取得できるが、注視点を精度よく検出することはできない。

【0006】

本発明は、注視点を精度よく検出できる注視点検出システムを提供するを目的とする。

【課題を解決するための手段】

【0007】

本発明による注視点検出装置は、少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、第１の撮影部と対向するように位置し、少なくとも第１の撮影部が含まれる範囲の画像と深度情報とを取得する第２の撮影部が取得した第２の画像及び第２の深度情報とを入力し、第１の画像及び第１の深度情報から対象人物の顔部分を検出する顔検出手段と、顔検出手段によって検出された顔部分を使用して対象人物の視線方向を推定する視線方向推定手段と、第１の画像及び第１の深度情報と第２の画像及び第２の深度情報とに基づいて、対象人物の瞳の３次元空間位置と第１の撮影部及び第２の撮影部の３次元空間位置とを推定する位置情報推定手段と、対象人物の瞳の３次元空間位置と視線方向とに基づいて対象人物の注視点を特定する注視点特定手段とを含む。

【0008】

本発明による注視点検出方法は、少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、第１の撮影部と対向するように位置し、少なくとも第１の撮影部が含まれる範囲の画像と深度情報とを取得する第２の撮影部が取得した第２の画像及び第２の深度情報とを入力し、第１の画像及び第１の深度情報から対象人物の顔部分を検出し、検出された顔部分を使用して対象人物の視線方向を推定し、第１の画像及び第１の深度情報と第２の画像及び第２の深度情報とに基づいて、対象人物の瞳の３次元空間位置と第１の撮影部及び第２の撮影部の３次元空間位置とを推定し、対象人物の瞳の３次元空間位置と視線方向とに基づいて対象人物の注視点を特定する。

【0009】

本発明による注視点検出プログラムは、コンピュータに、少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、第１の撮影部と対向するように位置し、少なくとも第１の撮影部が含まれる範囲の画像と深度情報とを取得する第２の撮影部が取得した第２の画像及び第２の深度情報とを入力する処理と、第１の画像及び第１の深度情報から対象人物の顔部分を検出する処理と、検出された顔部分を使用して対象人物の視線方向を推定する処理と、第１の画像及び第１の深度情報と第２の画像及び第２の深度情報とに基づいて、対象人物の瞳の３次元空間位置と第１の撮影部及び第２の撮影部の３次元空間位置とを推定する処理と、対象人物の瞳の３次元空間位置と視線方向とに基づいて対象人物の注視点を特定する処理とを実行させる。

【発明の効果】

【0010】

本発明によれば、対象人物の空間位置情報の精度が向上し、注視点を精度よく検出できる。

【図面の簡単な説明】

【0011】

【図1】第１の実施形態の注視点検出装置の構成例を示すブロック図である。

【図2】第１の撮影部及び第２の撮影部の配置例を示す説明図である。

【図3】第１の撮影部及び第２の撮影部で撮影された画像の例を示す説明図である。

【図4】第２の撮影部で過去に撮影された画像を利用して遮蔽部分が復元される様子を示す説明図である。

【図5】第１の実施形態の注視点検出装置の動作を示すフローチャートである。

【図6】第２の実施形態の注視点検出装置の構成例を示すブロック図である。

【図7】第１の撮影部、第２の撮影部及び第３の撮影部の配置例を示す説明図である。

【図8】第２の実施形態の注視点検出装置の動作を示すフローチャートである。

【図9】第１の撮影部、第２の撮影部及び第３の撮影部で撮影された画像の例を示す説明図である。

【図10】ＣＰＵを有するコンピュータの一例を示すブロック図である。

【図11】注視点検出装置の主要部を示すブロック図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施形態を図面を参照して説明する。

【0013】

実施形態１．
図１は、第１の実施形態の注視点検出装置１０を、第１の撮影部１０１及び第２の撮影部１０２ととともに示すブロック図である。注視点検出装置１０は、画像記憶部１０４と、顔検出部１０５と、視線方向推定部１０６と、位置情報推定部１０７と、注視対象推定部１０８とを含む。

【0014】

第１の撮影部１０１及び第２の撮影部１０２として、それぞれ、深度カメラが用いられる。本明細書において、深度カメラは、ＲＧＢ画像（２次元画像）とともに距離情報（深度情報）も取得できる撮影手段を意味する。以下、そのような深度カメラを、ＲＧＢ－Ｄカメラという。第１の撮影部１０１及び第２の撮影部１０２として、例えば、インテルリアルセンス（登録商標）を使用可能である。

【0015】

また、深度カメラとして、ＲＧＢ画像を取得するカメラとＴｏＦ（Time of Flight）カメラとの組合せが用いられてもよい。

【0016】

第１の撮影部１０１は、対象人物がある対象を注視するときに対象人物の正面側を撮影できるような位置に設置される。第１の撮影部１０１は、人物の顔が画像内に入るための十分な高さまたは角度に調整される。同様に、第２の撮影部１０２は、第１の撮影部１０１の背後の、検出したい注視部分を画像内に入れるように設置される。さらに、第１の撮影部１０１及び第２の撮影部１０２は、恒常的な遮蔽物などが撮影画像内に入らないように設置される。

【0017】

図２には、第１の撮影部１０１及び第２の撮影部１０２の配置例が示されている。また、第１の撮影部１０１は、対象人物１及び第２の撮影部１０２が、第１の撮影部１０１が得る画像内に入るように設置される。第２の撮影部１０２は、対象人物１及び第１の撮影部１０１が、第２の撮影部１０２が得る画像内に入るように設置される。一般には、第１の撮影部１０１と第２の撮影部１０２とは、対向するように配置される。

【0018】

注視点検出装置１０において、第１の撮影部１０１によって撮影された対象人物１の正面が写っている画像から、対象人物１の視線方向が推定される。また、第２の撮影部１０２によって撮影された対象人物１の背面及び対象人物１が注視する対象の候補が写っている画像から、対象人物１が注視する対象が特定される。

【0019】

第１の撮影部１０１と第２の撮影部１０２とが共働して、すなわち、第１の撮影部１０１によって撮影された画像と第２の撮影部１０２によって撮影された画像との双方に基づいて、対象人物１が注視する対象を特定するので、第１の撮影部１０１によって撮影された画像における座標と第２の撮影部１０２によって撮影された画像における座標とは、一致することが要請される。

【0020】

第１の撮影部１０１は、少なくとも対象人物の顔の部分と第２の撮影部１０２とが写った画像（２次元画像）と、深度情報とを取得する。第２の撮影部１０２は、対象人物と、第１の撮影部１０１と、対象人物の注視対象との画像及び深度情報を取得する。画像記憶部１０４は、第２の撮影部１０２で撮影された画像情報と深度情報とを記録（記憶）する。

【0021】

顔検出部１０５は、第１の撮影部１０１で撮影された画像から対象人物の顔を検出する。視線方向推定部１０６は、顔検出部１０５で検出された顔画像から視線方向を推定する。

【0022】

位置情報推定部１０７は、第１の撮影部１０１及び第２の撮影部１０２が撮影した画像と深度情報とから、対象人物、第１の撮影部１０１、第２の撮影部１０２の空間位置（３次元空間位置）を推定する。

【0023】

注視対象推定部１０８は、視線方向推定部１０６が得た視線情報及び位置情報推定部１０７が得た空間位置を用いて注視対象を推定する。注視対象推定部１０８は、画像記憶部１０４に記録されている過去画像を用いて遮蔽部分を取り除いた第２の撮影部１０２の画像内に、注視対象を追加する。過去画像及び遮蔽部分の詳細については後述される。

【0024】

図３は、第１の撮影部１０１及び第２の撮影部１０２で撮影された画像の例を示す説明図である。図３（Ａ）には、第２の撮影部１０２で撮影された画像３０２の一例が示されている。図３（Ｂ）には、第１の撮影部１０１で撮影された画像３０１の一例が示されている。図３に示す例では、画像３０１は、対象人物１の正面側及び第２の撮影部１０２が撮影されている画像である。また、画像３０２は、対象人物１の背面側、第１の撮影部１０１及び注視対象２が撮影されている画像である。

【0025】

図４は、第２の撮影部１０２で過去に撮影された画像を利用して遮蔽部分が復元される様子を示す説明図である。図４（Ａ）には、第２の撮影部１０２で撮影された画像４０２の一例が示されている。図４（Ｂ）には、注視対象２の像を含む画像４１２の一例が示されている。なお、図４（Ａ）では、第１の撮影部１０１の像は記載省略されている。

【0026】

注視点検出装置１０の小売り店舗への応用を想定すると、第１の撮影部１０１は、例えば、商品陳列棚における顧客通路側に設置される。第２の撮影部１０２は、例えば、第１の撮影部１０１が設置された商品陳列棚に対して顧客通路を挟んで向かい側に設置される。そのような設置状況において、対象人物１（この例では、顧客）が注視対象２を遮蔽して、第２の撮影部１０２で得られる画像に現れない場合があることが考えられる（図４（Ａ）参照）。

【0027】

本実施の形態では、注視点検出装置１０は、そのような場合でも、画像４１２に注視対象２の像が現れるような制御も行う。

【0028】

次に、注視点検出装置１０の動作を説明する。図５は、注視点検出装置１０の動作を示すフローチャートである。

【0029】

注視点検出装置１０における第１の撮影部１０１と第２の撮影部１０２とが、向かい合うように配置される（ステップＳ１００）。

【0030】

その状態で、第１の撮影部１０１が、対象人物の顔部分を含む画像を撮影する。位置情報推定部１０７は、まず、第１の撮影部１０１と第２の撮影部１０２との位置関係を算出する（ステップＳ１０１）。ステップＳ１０１の処理は、例えば、以下のように実行される。

【0031】

位置情報推定部１０７は、第１の撮影部１０１が撮影した画像及び深度情報から第２の撮影部１０２の位置（３次元空間位置）を求める。また、注視対象推定部１０８は、第２の撮影部１０２が撮影した画像及び深度情報から第１の撮影部１０１の位置を求める。位置情報推定部１０７は、第１の撮影部１０１が撮影した画像及び深度情報に基づく第２の撮影部１０２の位置を原点とする第１の撮影部１０１の位置ベクトルを求める。また、位置情報推定部１０７は、第２の撮影部１０２が撮影した画像及び深度情報に基づく第１の撮影部１０１の位置を原点とする第２の撮影部１０２の位置ベクトルを求める。

【0032】

理想的には、２つの位置ベクトルの大きさすなわち距離は一致する。一致しない場合には、２つの位置ベクトルの大きさの平均で、２つの位置ベクトルを規格化する。

【0033】

注視対象推定部１０８は、下記の（１）式に基づいて回転行列R を算出する。

【0034】

r₁₄ = R*r₄₁ …（１）

【0035】

r₁₄ は、第１の撮影部１０１の位置を原点とした場合の、第１の撮影部１０１が撮影した画像及び深度情報に基づく第２の撮影部１０２の位置を示す。r₄₁ は、第２の撮影部１０２の位置を原点とした場合の、第２の撮影部１０２が撮影した画像及び深度情報に基づく第１の撮影部１０１の位置を示す。回転行列R のパラメータは３つであり、オイラー行列などを仮定すれば、非線形連立方程式を解くことによって、回転行列R が厳密に求まる。非線形連立方程式の数値解の精度は、パラメータの数を減らすほど上がる。よって、あらかじめ地面と水平なライン及び垂直なライン、第１の撮影部１０１及び第２の撮影部１０２の３次元空間位置などを同定（例えば、注視点検出装置１０の店舗への応用を想定すると、商品陳列棚の段を地面と水平なように配置したり商品陳列棚の外観を直方体にするなど）することによって別の方法で回転角の一部を求めておけば、数値解の精度が向上する。

【0036】

注視対象推定部１０８は、瞳の３次元空間位置から伸びる視線方向と、第１の撮影部１０１のレンズ平面（ｚ（光軸方向）＝０の平面：第１の撮影部１０１がカメラであることを想定した場合）の交点を求める。また、注視対象推定部１０８は、第１の撮影部１０１のレンズ平面に回転行列R を適用することによって、第１の撮影部１０１の座標系を第２の撮影部１０２の座標系に変換することができる。

【0037】

なお、ステップＳ１０１の処理は、対象人物１が注視する対象を検出する処理が実行される度に実行されてもよいが、定期的（例えば、１日に１回）に実行されたり、第１の撮影部１０１と第２の撮影部１０２との設置時に実行されたりしてもよい。

【0038】

顔検出部１０５は、第１の撮影部１０１が撮影した画像から対象人物の顔部分を検出する（ステップＳ１０２）。顔検出部１０５は、顔部分を検出するときに、例えば、OpenCVの顔検出機能を用いることができる。

【0039】

視線方向推定部１０６は、顔検出部１０５で検出された顔画像に基づいて、視線方向を推定する（ステップＳ１０３）。視線方向推定部１０６は、視線方向を推定するときに、例えば、角膜反射法を用いることができる。なお、角膜反射法を用いる場合には、赤外線光源又は近赤外線光源が併用される。

【0040】

位置情報推定部１０７は、第１の撮影部１０１及び第２の撮影部１０２が撮影した画像と深度情報とから、対象人物１の瞳、第１の撮影部１０１及び第２の撮影部１０２の３次元空間位置を推定する（ステップＳ１０４）。位置情報推定部１０７は、瞳の位置を推定するときに、例えば、OpenCVのFacemark APIを用いて画像内の瞳の位置を検出し、第１の撮影部１０１における深度カメラの内部キャリブレーションを行うことによって幾何学的に瞳の位置情報を得ることができる。

【0041】

画像記憶部１０４には、対象人物１が存在しない状況で第２の撮影部１０２で撮影された画像（過去画像）が記録されている。

【0042】

位置情報推定部１０７は、第２の撮影部１０２で撮影された現在画像（すなわち、対象人物１が写っている画像）において注視対象２を遮蔽する物体の部分を、過去画像における対応部分で置き換える（ステップＳ１０５）。なお、注視対象２を遮蔽する物体は、主として対象人物１である。過去画像における対応部分で置き換えられた画像（第２の撮影部１０２で撮影された現在画像において対応部分が置き換えられた画像）を、以下、置換画像という。過去画像は、対象人物１などの遮蔽物が存在しない状態で、第２の撮影部１０２で撮影された画像である。

【0043】

注視対象推定部１０８は、視線方向推定部１０６が推定した視線方向及び位置情報推定部１０７が推定した空間位置の情報を用いて注視対象を検出する。注視対象推定部１０８は、例えば、瞳の３次元空間位置から視線方向に直線を伸ばす（ステップＳ１０６）。注視対象推定部１０８は、置換画像において直線が何らかの物体と交差すると、その物体を注視対象であると判定する（ステップＳ１０７）。

【0044】

注視対象推定部１０８が、過去画像を使用することによって、第２の撮影部１０２で撮影された現在画像（すなわち、対象人物１が写っている画像）において注視対象２が対象人物１に遮蔽されている場合でも、対象人物１に注視対象２が隠されることなく、注視対象２を特定することが可能になる。

【0045】

そして、注視対象推定部１０８は、置換画像内に、注視対象を追加する（ステップＳ１０８：図４（Ｂ）参照））。

【0046】

なお、注視対象推定部１０８は、第２の撮影部１０２の座標系での座標値を、第２の撮影部１０２が撮影した画像にプロットする。

【0047】

また、注視点検出装置１０に表示装置が接続されている場合には、注視対象推定部１０８は、対象人物の注視対象が表示されている画像を表示装置に表示するようにしてもよい。

【0048】

本実施形態では、第１の撮影部１０１と第２の撮影部１０２とが深度情報を取得しているので、１つの画像から深度情報を推定する場合に比べて、注視対象２の位置を高精度に推定可能になる。また、複数の撮影部（第１の撮影部１０１及び第２の撮影部１０２）が取得した深度情報を組み合わせることによって、深度情報のノイズを打ち消すことができる（例えば、第１の撮影部１０１と第２の撮影部１０２との間の２つの位置ベクトルの大きさの平均を取るような場合）。

【0049】

また、本実施形態では、対象人物１を挟む２つの撮影部が活用されるので、単一のカメラを使用する場合には検出できないような注視対象２の位置を検出することができる。さらに、置換画像が使用されるので、注視対象２が遮蔽されるような場合でも、注視対象２の位置を推定することができる。

【0050】

実施形態２．
図６は、第２の実施形態の注視点検出装置２０の構成例を、第１の撮影部１０１、第２の撮影部１０２及び第３の撮影部１０３ととともに示すブロック図である。注視点検出装置２０は、基本的に第１の実施形態の注視点検出装置１０と同様に構成されるが、本実施形態では、位置情報推定部１０７は、第３の撮影部１０３が撮影した画像も使用する。なお、第３の撮影部１０３として、深度情報を取得しない２次元カメラを使用してもよい。

【0051】

図７は、第１の撮影部１０１、第２の撮影部１０２及び第３の撮影部１０３の配置例を示す説明図である。

【0052】

第１の実施形態と同様に、第１の撮影部１０１は、対象人物がある対象を注視するときに対象人物の正面側を撮影できるような位置に設置される。第１の撮影部１０１は、人物の顔が画像内に入るための十分な高さまたは角度に調整される。同様に、第２の撮影部１０２は、第１の撮影部１０１の背後の、検出したい注視部分を画像内に入れるように設置される。さらに、第１の撮影部１０１及び第２の撮影部１０２は、恒常的な遮蔽物などが撮影画像内に入らないように設置される。

【0053】

また、第１の撮影部１０１は、第２の撮影部１０２が、第１の撮影部１０１が得る画像内に入るように設置される。第２の撮影部１０２は、第１の撮影部１０１が、第２の撮影部１０２が得る画像内に入るように設置される。

【0054】

【0055】

本実施形態では、第３の撮影部１０３が、第１の撮影部１０１、第２の撮影部１０２、及び対象人物１を撮影可能な位置に設置される。第３の撮影部１０３は、第１の撮影部１０１、第２の撮影部１０２及び対象人物１が写った画像を撮影するが、それらの深度情報を取得してもよい。

【0056】

図８は、第２の実施形態の注視点検出装置２０の動作を示すフローチャートである。図８に示すフローチャートでは、図５に示されたフローチャートに、ステップＳ２０１，Ｓ２０２の処理が追加されている。

【0057】

第１の実施形態の場合と同様に、注視点検出装置１０における第１の撮影部１０１と第２の撮影部１０２とが、向かい合うように配置される（ステップＳ１００）。また、第３の撮影部１０３が、第１の撮影部１０１、第２の撮影部１０２及び対象人物１を撮影可能な位置に設置される（ステップＳ２０１）。ステップＳ１０１～Ｓ１０３の処理は、第１の実施形態における処理と同じである。

【0058】

位置情報推定部１０７は、第１の実施形態の場合と同様に、第１の撮影部１０１及び第２の撮影部１０２が撮影した画像及び深度情報から、対象人物１の瞳、第１の撮影部１０１及び第２の撮影部１０２の３次元空間位置を推定した後（ステップＳ１０４）、空間位置を補正する（ステップＳ２０２）。

【0059】

位置情報推定部１０７は、ステップＳ２０２の処理で、第３の撮影部１０３から得られた画像を用いて、第１の撮影部１０１及び第２の撮影部１０２が撮影した画像及び深度情報から推定した位置情報を補正する。

【0060】

図９は、第１の撮影部１０１、第２の撮影部１０２及び第３の撮影部１０３で撮影された画像の例を示す説明図である。図９（Ａ）には、対象人物１、注視対象２及び第１の撮影部１０１が写った第２の撮影部１０２で撮影された画像３０２の一例が示されている。図９（Ｂ）には、対象人物１及び第２の撮影部１０２が写った第１の撮影部１０１で撮影された画像３０１の一例が示されている。図９（Ｃ）には、対象人物１、第１の撮影部１０１及び第２の撮影部１０２が写った第３の撮影部１０３で撮影された画像３０３の一例が示されている。

【0061】

位置情報推定部１０７は、画像３０３（ｘｙ平面の二次元画面）における対象人物１、第１の撮影部１０１及び第２の撮影部１０２のｘ座標値及びｙ座標値を取得できる。ｙ座標値は、画像３０１，画像３０２での奥行き方向（ｚ方向）に相当する。すなわち、第１の撮影部１０１が取得した深度情報及び第２の撮影部１０２が取得した深度情報に相当する。

【0062】

また、画像３０３におけるｘ座標値及びｙ座標値は、直接に撮影された画像に基づく座標値であるから、第１の撮影部１０１が取得した深度情報及び第２の撮影部１０２が取得した深度情報よりも、信頼度が高いと考えられる。そこで、位置情報推定部１０７は、ステップＳ２０２の処理で、ステップＳ１０４の処理で推定された対象人物１の瞳、第１の撮影部１０１及び第２の撮影部１０２の３次元空間位置を示す値のうちｚ座標値を、画像３０３における値で置き換える。

【0063】

その後、第１の実施形態の場合と同様に、ステップＳ１０５～Ｓ１０８の処理が実行される。

【0064】

本実施形態では、注視点検出装置２０は、第１の撮影部１０１と第２の撮影部１０２とに加えて、第１の撮影部１０１及び第２の撮影部１０２と対象人物１とが写った画像を提供する第３の撮影部１０３を備えている。位置情報推定部１０７は、第３の撮影部１０３が直接的に取得した第１の撮影部１０１、第２の撮影部１０２及び対象人物１から、それらの空間位置の情報（特に、ｚ方向の情報）を得ることができる。そして、位置情報推定部１０７が、第３の撮影部１０３による画像から取得される情報を用いて、第１の撮影部１０１と第２の撮影部１０２とが取得した深度情報及び画像から求められた３次元空間位置の補正を行う。その結果、注視点検出装置２０は、さらに高精度な３次元空間位置の推定値を取得できる。よって、注視点検出装置２０は、より高精度に注視対象２を特定できる。

【0065】

上記の実施形態の注視点検出装置１０，２０は、商業施設などで注視点から顧客がどの商品に興味を持っているか否か判定するといった用途に適用可能である。また、不審人物が不審行動を行ったときに何に興味を示したかを判定するといった用途にも適用可能である。

【実施例】

【0066】

次に、具体的な実施例を説明する。

【0067】

本実施例では、注視点検出装置１０，２０の小売り店舗への応用を想定する。第１の撮影部１０１として、ＲＧＢ－Ｄカメラ（第１のＲＧＢ－Ｄカメラ）を使用し、第２の撮影部１０２として、ＲＧＢ－Ｄカメラ（第２のＲＧＢ－Ｄカメラ）を使用する。第１のＲＧＢ－Ｄカメラは、例えば、商品陳列棚における顧客通路側に設置される。第２のＲＧＢ－Ｄカメラは、例えば、第１の撮影部１０１が設置された商品陳列棚に対して顧客通路を挟んで向かい側に設置される。商品陳列棚として、規格が揃った同一品が用いられ、第１のＲＧＢ－Ｄカメラ及び第２のＲＧＢ－Ｄカメラを、それぞれ、商品陳列棚におけるほぼ同じ位置に設置する。

【0068】

第１のＲＧＢ－Ｄカメラ及び第２のＲＧＢ－Ｄカメラの内部パラメータを、適切なキャリブレーション操作によって求めておく（例えば、OpenCVなどを用いる。）。各商品陳列棚は、可能な限り平行に並べられる。商品陳列棚の間の距離は、第１のＲＧＢ－Ｄカメラ及び第２のＲＧＢ－Ｄカメラの深度測定の誤差が大きくなりすぎない距離以下に設定される。実用的には、商品陳列棚の間の距離が３ｍを越えないように設置されることが望ましい。実際の設置状況が、これらの距離に関する条件に近づくほど、カメラ画像の情報からカメラの位置と姿勢を導出する際の誤差が小さくなる。

【0069】

そして、第１のＲＧＢ－Ｄカメラ及び第２のＲＧＢ－Ｄカメラで撮影された画像から、お互いのカメラの位置を求める。そして、例えば、上述した回転行列R を導出する。

【0070】

次に、第１のＲＧＢ－Ｄカメラが取得した情報から、顔検出部１０５としての顔検出器例えばOpenCVの顔検出機能を用いて、対象人物１の瞳の３次元空間位置を推定する。さらに、視線方向推定部１０６としての視線検出器（例えば、角膜反射法が使用される。）を用いて、対象人物１の視線方向を取得する。瞳の位置から視線方向に直線を伸ばし、第１のＲＧＢ－Ｄカメラのレンズ平面（例えばｚ＝０平面）との交点を求める。

【0071】

この平面を回転行列R と組み合わせることによって、第１のＲＧＢ－Ｄカメラのレンズ平面を第２のＲＧＢ－Ｄカメラの座標で表すことができる。求められた第２のＲＧＢ－Ｄカメラにおける座標値を、第２のＲＧＢ－Ｄカメラで取得された画像にプロットする。なお、該当部分（注視対象２）が対象人物１などで遮蔽されている場合には、注視対象推定部１０８は、画像記憶部１０４に保存されている第２のＲＧＢ－Ｄカメラによる過去画像や、遮蔽部分が過去画像における対応部分で置き換えられた差分画像を用いて、遮蔽を除去した画像において注視点を検出する。

【0072】

上記の各実施形態における各機能（各処理）を、ＣＰＵ（Central Processing Unit ）等のプロセッサやメモリ等を有するコンピュータで実現可能である。例えば、記憶装置（記憶媒体）に上記の実施形態における方法（処理）を実施するためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをＣＰＵで実行することによって実現してもよい。

【0073】

図１０は、ＣＰＵを有するコンピュータの一例を示すブロック図である。コンピュータは、注視点検出装置に実装される。ＣＰＵ１０００は、記憶装置１００１に格納されたプログラムに従って処理を実行することによって、上記の各実施形態における各機能を実現する。すなわち、図１，図６に示された１０，２０における、顔検出部１０５、視線方向推定部１０６、位置情報推定部１０７、及び注視対象推定部１０８の機能を実現する。

【0074】

記憶装置１００１は、例えば、非一時的なコンピュータ可読媒体（non-transitory computer readable medium ）である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium ）を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory ）、ＣＤ－Ｒ（Compact Disc-Recordable ）、ＣＤ－Ｒ／Ｗ（Compact Disc-ReWritable ）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM ）、フラッシュＲＯＭ）がある。

【0075】

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium ）に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。

【0076】

メモリ１００２は、例えばＲＡＭ（Random Access Memory）で実現され、ＣＰＵ１０００が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ１００２に、記憶装置１００１または一時的なコンピュータ可読媒体が保持するプログラムが転送され、ＣＰＵ１０００がメモリ１００２内のプログラムに基づいて処理を実行するような形態も想定しうる。

【0077】

図１，図６に示された画像記憶部１０４は、記憶装置１００１又はメモリ１００２で実現される。

【0078】

図１１は、本発明による注視点検出装置の主要部を示すブロック図である。図１１に示す注視点検出装置３０は、少なくとも第２の撮影部１０２が含まれる範囲の画像と深度情報とを取得する第１の撮影部１０１が取得した第１の画像及び第１の深度情報と、第１の撮影部１０１と対向するように位置し、少なくとも第１の撮影部１０１が含まれる範囲の画像と深度情報とを取得する第２の撮影部１０２が取得した第２の画像及び第２の深度情報とを入力する装置であって、第１の画像及び第１の深度情報から対象人物の顔部分を検出する顔検出手段３１（実施形態では、顔検出部１０５で実現される。）と、顔検出手段３１によって検出された顔部分を使用して対象人物の視線方向を推定する視線方向推定手段３２（実施形態では、視線方向推定部１０６で実現される。）と、第１の画像及び第１の深度情報と第２の画像及び第２の深度情報とに基づいて、対象人物の瞳の３次元空間位置と第１の撮影部及び第２の撮影部の３次元空間位置とを推定する位置情報推定手段３３（実施形態では、位置情報推定部１０８で実現される。）と、対象人物の瞳の３次元空間位置と視線方向とに基づいて対象人物の注視点（例えば、注視対象２）を特定する注視点特定手段３４（実施形態では、注視対象推定部１０８で実現される。）とを備えている。

【0079】

上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

【0080】

（付記１）少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報とを入力し、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出する顔検出手段と、
前記顔検出手段によって検出された顔部分を使用して前記対象人物の視線方向を推定する視線方向推定手段と、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定する位置情報推定手段と、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する注視点特定手段とを備える
注視点検出装置。

【0081】

（付記２）前記注視点特定手段は、前記第２の撮影部が撮影した画像に前記対象人物の注視点を表示する
付記１の注視点検出装置。

【0082】

（付記３）前記顔検出手段は、前記第１の画像として前記対象人物の正面を含む画像を取得し、前記位置情報推定手段は、前記第１の画像として前記対象人物の正面を含む画像を取得するとともに前記第２の画像として前記対象人物の背面を含む画像を取得する
付記１又は付記２の注視点検出装置。

【0083】

（付記４）前記位置情報推定手段は、前記第２の画像における前記第１の撮影部の位置と前記第１の画像における前記第２の撮影部の位置とを関係づける回転行列を算出する
付記１から付記３のうちのいずれかの注視点検出装置。

【0084】

（付記５）前記位置情報推定手段は、少なくとも前記第１の撮影部及び前記第２の撮影部が含まれる範囲の画像を撮影可能に設置された第３の撮影部が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを補正する
付記１から付記４のうちのいずれかの注視点検出装置。

【0085】

（付記６）少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報と入力し、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出し、
検出された顔部分を使用して前記対象人物の視線方向を推定し、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定し、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する
注視点検出方法。

【0086】

（付記７）前記第２の撮影部が撮影した画像に前記対象人物の注視点を表示する
付記６の注視点検出方法。

【0087】

（付記８）前記第２の画像における前記第１の撮影部の位置と前記第１の画像における前記第２の撮影部の位置とを関係づける回転行列を算出する
付記６又は付記７の注視点検出方法。

【0088】

（付記９）少なくとも前記第１の撮影部及び前記第２の撮影部が含まれる範囲の画像を撮影可能に設置された第３の撮影部が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを補正する
付記６から付記８のうちのいずれかの注視点検出方法。

【0089】

（付記１０）注視点検出プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
前記注視点検出プログラムは、プロセッサによって実行されるときに、
少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報とを入力する処理と、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出する処理と、
検出された顔部分を使用して前記対象人物の視線方向を推定する処理と、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定する処理と、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する処理とをプロセッサに実行させる記録媒体。

【0090】

（付記１１）注視点検出プログラムは、プロセッサによって実行されるときに、
前記第２の撮影部が撮影した画像に前記対象人物の注視点を表示する処理をプロセッサに実行させる付記１０の記録媒体。

【0091】

（付記１２）注視点検出プログラムは、プロセッサによって実行されるときに、
前記第２の画像における前記第１の撮影部の位置と前記第１の画像における前記第２の撮影部の位置とを関係づける回転行列を算出する処理をプロセッサに実行させる付記１０又は付記１１の記録媒体。

【0092】

（付記１３）注視点検出プログラムは、プロセッサによって実行されるときに、
少なくとも前記第１の撮影部及び前記第２の撮影部が含まれる範囲の画像を撮影可能に設置された第３の撮影部が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを補正する処理をプロセッサに実行させる付記１０から付記１２のうちのいずれかの記録媒体。

【0093】

（付記１４）コンピュータに、
少なくとも第２の撮影部が含まれる範囲の画像と深度情報とを取得する第１の撮影部が取得した第１の画像及び第１の深度情報と、前記第１の撮影部と対向するように位置し、少なくとも前記第１の撮影部が含まれる範囲の画像と深度情報とを取得する前記第２の撮影部が取得した第２の画像及び第２の深度情報と入力する処理と、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出する処理と、
検出された顔部分を使用して前記対象人物の視線方向を推定する処理と、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを推定する処理と、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する処理と
を実行させるための注視点検出プログラム。

【0094】

（付記１５）コンピュータに、
前記第２の撮影部が撮影した画像に前記対象人物の注視点を表示する処理
を実行させる付記１４の注視点検出プログラム。

【0095】

（付記１６）コンピュータに、
前記第２の画像における前記第１の撮影部の位置と前記第１の画像における前記第２の撮影部の位置とを関係づける回転行列を算出する処理
を実行させる付記１４又は付記１５の注視点検出プログラム。

【0096】

（付記１７）コンピュータに、
少なくとも前記第１の撮影部及び前記第２の撮影部が含まれる範囲の画像を撮影可能に設置された第３の撮影部が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影部及び前記第２の撮影部の３次元空間位置とを補正する処理
を実行させる付記１４から付記１６のうちのいずれかの注視点検出プログラム。

【0097】

（付記１８）第１の撮影手段と、第２の撮影手段とを備え、
前記第１の撮影手段は、少なくとも前記第２の撮影手段が含まれる範囲の第１の画像と第１の深度情報とを取得し、
前記第２の撮影手段は、前記第１の撮影手段と対向するように位置し、少なくとも前記第１の撮影手段が含まれる範囲の第２の画像と第２の深度情報とを取得し、
前記第１の画像及び前記第１の深度情報から対象人物の顔部分を検出する顔検出手段と、
前記顔検出手段によって検出された顔部分を使用して前記対象人物の視線方向を推定する視線方向推定手段と、
前記第１の画像及び前記第１の深度情報と前記第２の画像及び前記第２の深度情報とに基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影手段及び前記第２の撮影手段の３次元空間位置とを推定する位置情報推定手段と、
前記対象人物の瞳の３次元空間位置と前記視線方向とに基づいて前記対象人物の注視点を特定する注視点特定手段とをさらに備える
注視点検出システム。

【0098】

（付記１９）前記注視点特定手段は、前記第２の撮影手段が撮影した画像に前記対象人物の注視点を表示する
付記１８の注視点検出システム。

【0099】

（付記２０）前記顔検出手段は、前記第１の画像として前記対象人物の正面を含む画像を取得し、前記位置情報推定手段は、前記第１の画像として前記対象人物の正面を含む画像を取得するとともに前記第２の画像として前記対象人物の背面を含む画像を取得する
付記１８又は付記１９の注視点検出システム。

【0100】

（付記２１）前記位置情報推定手段は、前記第２の画像における前記第１の撮影手段の位置と前記第１の画像における前記第２の撮影手段の位置とを関係づける回転行列を算出する
付記１８から付記２０のうちのいずれかの注視点検出システム。

【0101】

（付記２２）少なくとも前記第１の撮影手段及び前記第２の撮影手段が含まれる範囲の画像を撮影可能に設置された第３の撮影手段をさらに備え、
前記位置情報推定手段は、前記第３の撮影手段が取得した第３の画像に基づいて、前記対象人物の瞳の３次元空間位置と前記第１の撮影手段及び前記第２の撮影手段の３次元空間位置とを補正する
付記１８から付記２１のうちのいずれかの注視点検出システム。

【0102】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0103】

１対象人物
２注視対象
１０，２０，３０注視点検出装置
３１顔検出手段
３２視線方向推定手段
３３位置情報推定手段
３４注視点特定手段
１０１第１の撮影部
１０２第２の撮影部
１０３第３の撮影部
１０４画像記憶部
１０５顔検出部
１０６視線方向推定部
１０７位置情報推定部
１０８注視対象推定部
１０００ＣＰＵ
１００１記憶装置
１００２メモリ

【図1】