特許6118976 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社国際電気通信基礎技術研究所の特許一覧

特許6118976頭部姿勢の推定装置、頭部姿勢の推定方法およびコンピュータに頭部姿勢の推定方法を実行させるためのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6118976

(24)【登録日】2017年4月7日

(45)【発行日】2017年4月26日

(54)【発明の名称】頭部姿勢の推定装置、頭部姿勢の推定方法およびコンピュータに頭部姿勢の推定方法を実行させるためのプログラム

(51)【国際特許分類】

G06T 7/60 20170101AFI20170417BHJP

【ＦＩ】

G06T7/60 150P

【請求項の数】6

【全頁数】23

(21)【出願番号】特願2012-244127(P2012-244127)

(22)【出願日】2012年11月6日

(65)【公開番号】特開2014-93006(P2014-93006A)

(43)【公開日】2014年5月19日

【審査請求日】2015年10月16日

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２４年４月１日付け、支出負担行為担当官総務省大臣官房会計課企画官、研究テーマ「認知状態共有による交通事故低減技術の研究開発」に関する委託研究、産業技術力強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】393031586

【氏名又は名称】株式会社国際電気通信基礎技術研究所

(74)【代理人】

【識別番号】100109162

【弁理士】

【氏名又は名称】酒井將行

(72)【発明者】

【氏名】内海章

(72)【発明者】

【氏名】乗冨修蔵

【審査官】佐田宏史

(56)【参考文献】

【文献】特開２０１１−２１５８４３（ＪＰ，Ａ）

【文献】特開２００９−１２９２３７（ＪＰ，Ａ）

【文献】 Gabriel Fanelli et al.，"Real Time Head Pose Estimation with Random Regression Forests"，IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011，米国，IEEE，２０１１年６月２０日，pp.617-624

【文献】宋海俊、外３名，“ＳｈａｐｅＣｏｎｔｅｘｔを用いた顔形状記述による頭部方向の推定”，電子情報通信学会技術研究報告，日本，社団法人電子情報通信学会，２０１０年３月８日，Vol.109, No.470，pp.121-126

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ１／００，７／００−７／９０

(57)【特許請求の範囲】

【請求項1】

観測領域内において、人間の頭部領域を含む入力画像を取得するための撮影手段と、
所定の複数種類の特徴点の各々について、前記特徴点から頭部基準位置座標へ向かう相対位置ベクトルと前記頭部姿勢とを予め関連づけて格納するための記憶手段と、
前記画像内において、顔位置を特定し、前記特徴点抽出モデルに基づき、顔内の複数種類の特徴点群を抽出するための特徴点抽出手段と、
前記特徴点抽出手段により抽出された前記特徴点群から、各特徴点と関連付けられた前記相対位置ベクトルの向かう位置について投票処理を行うための投票処理手段と、
前記投票処理手段による投票結果の頻度に基づいて、前記入力画像内の顔について、頭部基準位置および頭部姿勢を推定するための頭部姿勢推定手段とを備え、
前記記憶手段は、前記相対位置ベクトルを探索鍵として近傍探索が可能なデータ構造により、前記相対位置ベクトルと前記頭部姿勢とを要素とするオフセットベクトルを前記特徴点抽出モデルごとに格納し、
前記投票処理手段は、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する前記相対位置ベクトルの範囲で、前記投票処理を行う、頭部姿勢推定装置。

【請求項2】

前記撮像手段は、複数のカメラを含み、
前記投票処理手段は、前記複数のカメラにより撮像された撮影方向の異なる複数の入力画像について、統合して、前記相対位置ベクトルの向かう３次元の位置について投票処理を行う、請求項１記載の頭部姿勢推定装置。

【請求項3】

前記相対位置ベクトルと前記頭部姿勢とを、前記複数種類の特徴点の各々について、予め規定される特徴点抽出モデルに基づき、頭部姿勢のそれぞれ異なる複数のサンプル画像から抽出された前記特徴点に対して、前記抽出された特徴点から頭部基準位置座標へ向かう相対位置ベクトルと前記頭部姿勢とを関連付けて、前記記憶手段に格納するオフセット情報抽出手段をさらに備える、請求項１または２記載の頭部姿勢推定装置。

【請求項4】

前記投票処理手段は、所定の範囲で、前記相対位置ベクトルをスケール変換して、投票処理を実行する、請求項１〜３のいずれか１項に記載の頭部姿勢推定装置。

【請求項5】

撮像装置により撮影された画像中に存在する顔に対する頭部姿勢の推定方法であって、
所定の複数種類の特徴点の各々について、前記特徴点から頭部基準位置座標へ向かう相対位置ベクトルと前記頭部姿勢とを予め関連づけて記憶装置に格納するステップを備え、
前記記憶装置は、前記相対位置ベクトルを探索鍵として近傍探索が可能なデータ構造により、前記相対位置ベクトルと前記頭部姿勢とを要素とするオフセットベクトルを特徴点抽出モデルごとに格納しており、
前記撮像装置により、観測領域内において、人間の頭部領域を含む入力画像を取得するステップと、
前記画像内において、顔位置を特定し、前記特徴点抽出モデルに基づき、顔内の複数種類の特徴点群を抽出するステップと、
前記抽出された前記特徴点群から、各特徴点と関連付けられた前記相対位置ベクトルの向かう３次元の位置について投票処理を行うステップとをさらに備え、
前記投票処理においては、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する前記相対位置ベクトルの範囲で、前記投票処理を行い、
前記投票結果の頻度に基づいて、前記入力画像内の顔について、頭部基準位置および頭部姿勢を推定するステップをさらに備える、頭部姿勢推定方法。

【請求項6】

演算装置と記憶装置とを備えるコンピュータに頭部姿勢の推定を実行させるためのプログラムであって、前記プログラムは、
前記演算装置が、所定の複数種類の特徴点の各々について、前記特徴点から頭部基準位置座標へ向かう相対位置ベクトルと前記頭部姿勢とを予め関連づけて記憶装置に格納するステップを備え、
前記記憶装置は、前記相対位置ベクトルを探索鍵として近傍探索が可能なデータ構造により、前記相対位置ベクトルと前記頭部姿勢とを要素とするオフセットベクトルを特徴点抽出モデルごとに格納しており、
前記演算装置が、観測領域内において、人間の頭部領域を含む入力画像を取得するステップと、
前記演算装置が、前記画像内において、顔位置を特定し、前記特徴点抽出モデルに基づき、顔内の複数種類の特徴点群を抽出するステップと、
前記演算装置が、前記抽出された前記特徴点群から、各特徴点と関連付けられた前記相対位置ベクトルの向かう３次元の位置について投票処理を行うステップとをさらに備え、
前記投票処理においては、前記演算装置は、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する前記相対位置ベクトルの範囲で、前記投票処理を行い、
前記演算装置が、前記投票結果の頻度に基づいて、前記入力画像内の顔について、頭部基準位置および頭部姿勢を推定するステップとをさらに備える処理を、コンピュータに実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明はカメラ等からの画像を処理する画像処理に関し、特に、画像中の人物の頭部姿勢を推定するための画像認識の分野に関する。

【背景技術】

【0002】

人の頭部運動には、視線と同様にユーザの意図や興味対象などの情報が含まれており、人の内的状態を直接反映されているため、顔位置・姿勢を計測する技術には幅広い応用が考えられる。例えば、マーケティングや広告などの分野では、顧客の興味対象を推定する手法として顔向き情報が用いられている（たとえば、特許文献１を参照）。また、人同士または人と機械のコミュニケーションの解析や支援などにおいても顔位置・姿勢は重要なモダリティとして利用されている（非特許文献１）。頭部運動を利用した自動車運転の挙動解析などはその一例である（たとえば、特許文献２を参照）。

【0003】

さらに、顔位置・姿勢推定は、視線推定・表情推定などにより高次の顔画像処理の前処理としても重要な意味を持つ。例えば、非特許文献２においては、顔（頭部）の位置・姿勢に基づいて各時刻の眼球位置を推定し虹彩位置の抽出結果と合わせて視線方向を算出する手法が提案されている。また、非特許文献３では、顔位置・姿勢と表情を同時に推定することでより広い姿勢範囲での表情推定が可能となることが示されている。このように顔位置・姿勢推定の推定精度・計測範囲の改善は視線・表情推定の性能改善につながることが期待される。

【0004】

頭部運動を計測する手法として、これまでジャイロセンサ等を頭部に装着する方法、距離画像センサを利用する方法、カメラから得られる画像情報を利用する方法などが提案されてきた。

【0005】

それぞれの手法には得失があるが、非装着計測が可能であること、低コストであることから画像処理ベースの手法に対する期待は高い。しかし従来提案されてきた画像による顔位置・姿勢計測には、計測範囲や処理速度の面で課題がある。

【0006】

例えば、代表的な顔位置姿勢推定手法である３次元顔モデルと画像特徴の照合に基づく手法では、モデルと画像特徴の照合処理のコストが高いためそのままでは十分な処理速度が得られない。そのためフレーム間の頭部運動が小さいことを仮定して探索範囲を限定することで実時間処理を実現している。

【0007】

従来の頭部姿勢推定の研究は、オプティカルフローなど画像内の顔領域から直接得られる対応点の移動量から頭部姿勢の相対変化量を推定する手法と、３次元顔形状モデルと画像の照合に基づく手法の２つに大きく分けられる。

【0008】

対応点の移動量から頭部姿勢の相対変化量を推定する手法は、特定の顔モデルに依らず低次の特徴量を利用するため比較的安定に動作し計算コストが低いという利点があるが、絶対的な姿勢が得られないため長時間の追跡ではドリフトが生じる（非特許文献４）。この問題を解消するために一部形状モデルによる照合と組み合わせた手法も提案されている。

【0009】

３次元顔形状モデルと画像の照合に基づく手法は、３次元の顔形状モデルの各部位に関する画像特徴を入力画像と照合し、入力画像上の対応点から顔位置・姿勢を推定する（非特許文献５）。この手法ではモデルとの照合により絶対的な姿勢角が得られるという利点がある一方で、照合処理の計算コストが高い。計算コストを引き下げるため隣接するフレーム間での運動が小さいことを仮定して探索領域を限定することも多いが、それにより追跡に失敗する頻度が大きくなるという問題を抱えている。

【0010】

これに対して、近年、画像内における対象物体の局所的な見え（Appearance）と対象物体の位置等の推定対象の関係を大量のデータによってあらかじめ学習し、学習結果に基づく投票によって推定処理を行う手法が注目されている。顔画像処理においては特定の部位の照合に依存しないため安定性に優れる。

【0011】

非特許文献６においては、投票処理によって目尻・目頭等の顔部品位置を推定する手法が提案されている。顔画像内の小領域の画像特徴と検出対象である顔部品との位置関係を、画像特徴を検索キーとしたRegression Forestsに格納し、未知画像上の顔画像領域内で得られる各顔部品位置を投票に基づいて高速かつ安定に推定できることが示されている。

【0012】

また、非特許文献７においては、Random Regression Forestsを利用してDepth Dataに対してオフセットモデルを構築し、頭部姿勢を推定するシステムが開示されている。

【先行技術文献】

【特許文献】

【0013】

【特許文献1】特開２０１２−２２５８９号公報明細書

【特許文献2】特開２０１２−２０１２３２号公報明細書

【非特許文献】

【0014】

【非特許文献1】米澤朋子，山添大丈，内海章，"視線検出環境による擬人的媒体の階層的視線コミュニケーション"，映像情報メディア学会技術報告，ME2007-83， AOT2007-64，pp.1-4， 2007

【非特許文献2】山添大丈，内海章，米澤朋子，"単眼カメラを用いた視線推定のための三次元眼球モデルの自動キャリブレーション"，子情報通信学会論文誌 D， Vol. J94-D， No。 6，pp.998-1006， 2011

【非特許文献3】熊野史朗，大塚和弘，大和淳司，前田英作，佐藤洋一， "変動輝度テンプレートによる頭部姿勢と表情の同時推定"，情報処理学会論文誌コンピュータビジョンとイメージメディア，Vol.1， No.2， pp.50-62， 2008

【非特許文献4】V． Belle， T．Deselaers，and S． Schiffer， "Randomized trees for real-time one-step face detection and recognition"， 2008

【非特許文献5】S． Lefvre， J．M Odobez， "View-based appearance model online learning for 3d deformable face tracking"， In Int Conf， Coputer Vision Theory and Applications， 2010

【非特許文献6】Matthias Dantone， Juergen Gall， Gabriele Fanelli and Luc Van Gool， "Real-time Facial Feature Detection using Conditional Regression Forests"， CVPR， 2012

【非特許文献7】Gabriele Fanelli， Juergen Gall，Luc Van Gool， "Real Time Head Pose Estimation with Random Regression Forests"， CVPR 2011 ，pp．617-624， 2011

【発明の概要】

【発明が解決しようとする課題】

【0015】

しかしながら、以上説明したようないずれの頭部姿勢の推定方法においても、頭部姿勢変化が短時間に生じた場合に、頭部姿勢が比較的大きく変化するようなときに追従可能な頭部姿勢の推定は、実用化のレベルにいたっているとはいえない状態である。

【0016】

本発明は、このような問題点を解決するためになされたものであって、その目的は、頭部姿勢変化が短時間に生じた場合に、頭部姿勢の変化に追従して、頭部姿勢の推定を行う頭部姿勢の推定装置、頭部姿勢の推定方法およびコンピュータに頭部姿勢の推定方法を実行させるためのプログラムを提供することである。

【課題を解決するための手段】

【0017】

本発明では、学習データに基づく投票処理に基づき、２次元画像上で得られる顔画像内の局所的な特徴と顔の位置・姿勢の関係から３次元空間中の顔の位置および姿勢を推定する。

【0018】

この発明の１つの局面に従うと、頭部姿勢推定装置であって、観測領域内において、人間の頭部領域を含む入力画像を取得するための撮影手段と、所定の複数種類の特徴点の各々について、特徴点から頭部基準位置座標へ向かう相対位置ベクトルと頭部姿勢とを予め関連づけて格納するための記憶手段と、画像内において、顔位置を特定し、特徴点抽出モデルに基づき、顔内の複数種類の特徴点群を抽出するための特徴点抽出手段と、特徴点抽出手段により抽出された特徴点群から、各特徴点と関連付けられた相対位置ベクトルの向かう位置について投票処理を行うための投票処理手段と、投票処理手段による投票結果の頻度に基づいて、入力画像内の顔について、頭部基準位置および頭部姿勢を推定するための頭部姿勢推定手段とを備え、記憶手段は、相対位置ベクトルを探索鍵として近傍探索が可能なデータ構造により、相対位置ベクトルと頭部姿勢とを要素とするオフセットベクトルを特徴点抽出モデルごとに格納し、投票処理手段は、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する相対位置ベクトルの範囲で、投票処理を行う。

【0019】

好ましくは、撮像手段は、複数のカメラを含み、投票処理手段は、複数のカメラにより撮像された撮影方向の異なる複数の入力画像について、統合して、相対位置ベクトルの向かう３次元の位置について投票処理を行う。

【0020】

好ましくは、相対位置ベクトルと頭部姿勢とを、複数種類の特徴点の各々について、予め規定される特徴点抽出モデルに基づき、頭部姿勢のそれぞれ異なる複数のサンプル画像から抽出された特徴点に対して、抽出された特徴点から頭部基準位置座標へ向かう相対位置ベクトルと頭部姿勢とを関連付けて、記憶手段に格納するオフセット情報抽出手段をさらに備える。

【0022】

好ましくは、投票処理手段は、所定の範囲で、相対位置ベクトルをスケール変換して、投票処理を実行する。

【0023】

この発明の他の局面に従うと、撮像装置により撮影された画像中に存在する顔に対する頭部姿勢の推定方法であって、所定の複数種類の特徴点の各々について、特徴点から頭部基準位置座標へ向かう相対位置ベクトルと頭部姿勢とを予め関連づけて記憶装置に格納するステップを備え、記憶装置は、相対位置ベクトルを探索鍵として近傍探索が可能なデータ構造により、相対位置ベクトルと頭部姿勢とを要素とするオフセットベクトルを特徴点抽出モデルごとに格納しており、撮像装置により、観測領域内において、人間の頭部領域を含む入力画像を取得するステップと、画像内において、顔位置を特定し、特徴点抽出モデルに基づき、顔内の複数種類の特徴点群を抽出するステップと、抽出された特徴点群から、各特徴点と関連付けられた相対位置ベクトルの向かう３次元の位置について投票処理を行うステップとをさらに備え、投票処理においては、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する相対位置ベクトルの範囲で、投票処理を行い、投票結果の頻度に基づいて、入力画像内の顔について、頭部基準位置および頭部姿勢を推定するステップをさらに備える。

【0024】

この発明のさらに他の局面に従うと、演算装置と記憶装置とを備えるコンピュータに頭部姿勢の推定を実行させるためのプログラムであって、プログラムは、演算装置が、所定の複数種類の特徴点の各々について、特徴点から頭部基準位置座標へ向かう相対位置ベクトルと頭部姿勢とを予め関連づけて記憶装置に格納するステップを備え、記憶装置は、相対位置ベクトルを探索鍵として近傍探索が可能なデータ構造により、相対位置ベクトルと頭部姿勢とを要素とするオフセットベクトルを特徴点抽出モデルごとに格納しており、演算装置が、観測領域内において、人間の頭部領域を含む入力画像を取得するステップと、演算装置が、画像内において、顔位置を特定し、特徴点抽出モデルに基づき、顔内の複数種類の特徴点群を抽出するステップと、演算装置が、抽出された特徴点群から、各特徴点と関連付けられた相対位置ベクトルの向かう３次元の位置について投票処理を行うステップとをさらに備え、投票処理においては、演算装置は、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する相対位置ベクトルの範囲で、投票処理を行い、演算装置が、投票結果の頻度に基づいて、入力画像内の顔について、頭部基準位置および頭部姿勢を推定するステップとをさらに備える処理を、コンピュータに実行させる。

【発明の効果】

【0025】

本発明の頭部姿勢の推定装置、頭部姿勢の推定方法では、頭部姿勢変化が短時間に生じた場合に、頭部姿勢の変化に追従して、頭部姿勢の推定を行うことが可能である。

【0026】

また、頭部姿勢の推定装置、頭部姿勢の推定方法では、大きな頭部姿勢変化に対応するために、撮像装置の台数を増加させることで計測範囲の拡大が容易である。撮像装置の追加によってスケーラブルに計測範囲を広げることが可能となる。

【図面の簡単な説明】

【0027】

【図1】頭部姿勢の推定装置の外観を示す図である。

【図2】コンピュータシステム２０のハードウェアブロック図である。

【図3】ＣＰＵ２０４０がソフトウェアを実行することにより実現する機能を示す機能ブロック図である。

【図4】サンプル画像の例を示す図である。

【図5】頭部姿勢を表すそれぞれの回転角を示す図である。

【図6】頭部姿勢の異なるサンプル画像において、特徴点を抽出した後に、特徴点をサンプル画像に重畳して示す図である。

【図7】オフセットベクトルの集合の各要素を説明するための概念図である。

【図8】サンプル画像から特徴点を抽出した場合の具体例を示す図である。

【図9】顔位置および頭部姿勢の推定処理を説明するためのフローチャートである。

【図10】投票処理を説明するための概念図である。

【図11】投票処理の高速化の概念を説明するための図である。

【図12】投票処理の結果の頻度分布を説明するための図である。

【図13】複数カメラの場合の推定処理を説明するための概念図である。

【図14】アジマス角α、エベレーション角β、ロール角γについての追跡結果を示す図である。

【図15】３名の被験者について本実施の形態の頭部姿勢の推定方法による推定結果を示す図である。

【図16】カメラ２台で推定処理を行った例を示す図である。

【発明を実施するための形態】

【0028】

以下、本発明の実施の形態の頭部姿勢の推定装置の構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。

【0029】

［実施の形態１］
［ハードウェア構成］
以下、本発明の実施の形態にかかる「頭部姿勢の推定装置」について説明する。この頭部姿勢の推定装置は、パーソナルコンピュータまたは専用コンピュータ等、演算装置上で実行されるソフトウェアにより実現されるものであって、対象画像から人物の顔を抽出し、さらに人物の顔の映像に基づいて、頭部姿勢を推定・検出するためのものである。

【0030】

ただし、以下に説明する「頭部姿勢の推定装置」の各機能の一部または全部は、ハードウェアにより実現されてもよい。

【0031】

なお、「頭部姿勢」とは、３次元空間内で対象となる人間の顔の向きを意味するものとする。

【0032】

図１は、この頭部姿勢の推定装置の外観を示す図である。

【0033】

図１を参照して、この頭部姿勢の推定装置を構成するシステム２０は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）またはＤＶＤ−ＲＯＭ（Digital Versatile Disc Read-Only Memory）ドライブ（以下、「光学ディスクドライブ」と呼ぶ）２０３０のような記録媒体からデータを読み取るためのドライブ装置を備えたコンピュータ本体２０１０と、コンピュータ本体２０１０に接続された表示装置としてのディスプレイ２１２０と、同じくコンピュータ本体２０１０に接続された入力装置としてのキーボード２１００およびマウス２１１０と、コンピュータ本体２０１０に接続された、画像を取込むための複数のカメラ３０．１〜３０．ｎとを含む。

【0034】

記録媒体としては、光学ディスクに限定されず、たとえば、メモリカードのような不揮発性半導体メモリを用いたものであってもよく、その場合は、メモリドライブ２０２０（図示せず）が設けられる。

【0035】

また、この実施の形態の装置では、各カメラ３０．ｉ（１≦ｉ≦ｎ）としては、ＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサのような固体撮像素子を含む単眼カメラを用いることができる。カメラの台数としては、１台でもよいし、複数台でもよい。ただし、複数台を使用する場合は、後に説明するように、各カメラ３０．ｉの観測範囲から得られる画像データを統合して使用することにより、観測領域内の人物の顔の位置および頭部姿勢を推定・検出する処理を行なう。

【0036】

（ハードウェアの構成）
図２は、コンピュータシステム２０のハードウェアブロック図である。

【0037】

図２において、コンピュータ本体２０１０は、メモリドライブ２０２０、ディスクドライブ２０３０に加えて、ＣＰＵ２０４０と、ディスクドライブ２０３０及びメモリドライブ２０２０に接続されたバス２０５０と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ２０６０とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ２０７０と、アプリケーションプログラム、システムプログラム、及びデータを記憶するための不揮発性記憶装置（たとえば、ハードディスク（ＨＤＤ））２０８０と、ネットワーク等を介して外部機器、たとえば、サーバ等と通信するための通信インタフェース２０９０と、カメラ３０．１〜３０．ｎからの画像信号を受信するための画像入力インタフェース２０９２とを含む。

【0038】

コンピュータシステム２０に、本実施の形態の頭部姿勢の推定装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ２２００、またはメモリ媒体２２１０に記憶されて、ディスクドライブ２０３０またはメモリドライブ２０２０に挿入され、さらにハードディスク２０８０に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ本体２０１０に送信され、ハードディスク２０８０に記憶されても良い。プログラムは実行の際にＲＡＭ２０７０にロードされる。

【0039】

コンピュータシステム２０は、さらに、入力装置としてのキーボード２１００およびマウス２１１０と、出力装置としてのディスプレイ２１２０とを備える。

【0040】

上述したようなコンピュータシステム２０として機能するためのプログラムは、コンピュータ本体２０１０に、情報処理装置等の機能を実行させるオペレーティングシステム（ＯＳ）は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム２０がどのように動作するかは周知であり、詳細な説明は省略する。

【0041】

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

【0042】

さらに、ＣＰＵ２０４０も、１つのプロセッサであっても、あるいは複数のプロセッサであってもよい。すなわち、シングルコアのプロセッサであっても、マルチコアのプロセッサであってもよい。

【0043】

［システムの機能ブロック］
以下に説明するとおり、本実施の形態の頭部姿勢の推定装置において推定のために使用するデータを作成するために、予め複数の第１のサンプル画像（特徴点抽出モデル作成用の学習画像）を準備しておく。この第１のサンプル画像においては、顔の特徴点（目尻、目頭、唇の端部など）の位置が予めハンドラベリングされているものとする。

【0044】

このような第１のサンプル画像を用いて、まず、それぞれの顔の特徴点についての特徴抽出モデルを作成する。このような「特徴抽出モデル」の作成の詳細については後述する。

【0045】

複数の第１のサンプル画像のうちの、たとえば、サンプル画像１について、「左目尻についての特徴抽出モデル１」、「右目尻の特徴抽出モデル１」、「左目頭についての特徴抽出モデル１」，…が作成される。このようにして作成された複数のサンプル画像についての複数の特徴抽出モデルのすべてを特徴点の抽出のための特徴抽出モデルとして使用してもよいし、後に説明するように、それらの中から選択した一部を使用してもよい。

【0046】

特徴抽出モデルが作成されたら、続いて、顔の中心の位置がそれぞれ予めハンドラベリングされている第２のサンプル画像を準備する。また、各第２のサンプル画像については、頭部姿勢についての情報も予め特定されているものとする。

【0047】

その上で、第２のサンプル画像の各々について、複数の特徴抽出モデルにより、複数種類の顔特徴点を検出する。特徴抽出モデルごとに、第２のサンプル画像において検出された特徴点から顔中心位置へ向かう「相対位置ベクトル」と呼ばれるベクトルとサンプル画像の頭部姿勢の情報とを関連付けて、オフセット集合としてテーブル化し記録しておく。

【0048】

なお、オフセット集合を作成するときのスケールとしては、画像スケールで作成しておき、後に説明する投票処理の後に、実空間スケールの顔中心の位置・頭部姿勢に変換する構成とすることも可能である。あるいは、顔中心位置、オフセットベクトルなど自体が、実空間スケールの３次元座標により定義されていてもよい。以下では、顔中心位置やオフセットベクトルのようにオフセット集合の要素は、実空間スケールで定義されているものとして説明する。

【0049】

また、上記の説明では、第１のサンプル画像と第２のサンプル画像とは、異なる画像として説明したが、サンプル画像として、各々において、顔の特徴点位置、顔中心の位置、頭部姿勢が予め特定されているものを準備しておき、これを第１のサンプル画像および第２のサンプル画像に共通に利用してもよい。以下では、第１のサンプル画像と第２のサンプル画像とは共通なものとして説明する。

【0050】

次に、カメラなどの撮像装置により撮影された観測画像（たとえば、静止画であってもよく、動画像であれば、フレーム画像）において、複数の特徴抽出モデルにより、複数種類の顔特徴点を検出し、上記テーブルにおいて対応付けられているオフセットベクトルにより、顔中心位置についての投票処理を実行する。投票結果において最頻値となる位置座標を、顔中心位置の推定値とし、頭部姿勢についても最頻値となる頭部姿勢を頭部姿勢の推定値とする。

【0051】

以下、さらに詳しく説明する。

【0052】

図３は、本実施の形態の頭部姿勢の推定装置において、上述したＣＰＵ２０４０がソフトウェアを実行することにより実現する機能を示す機能ブロック図である。

【0053】

なお、図３に示した機能ブロックのうちのＣＰＵ２０４０が実現する機能ブロックとしては、ソフトウェアでの処理に限定されるものではなく、その一部または全部がハードウェアにより実現されてもよい。

【0054】

図３を参照して、少なくとも１台のカメラ３０．１（〜３０．ｎ）により撮像された動画に対応する映像信号は、フレームごとに画像キャプチャ処理部５６０２により制御されてデジタルデータとしてキャプチャされ、画像データ記録処理部５６０４により、ハードディスクのような不揮発性記憶装置５４に格納される。

【0055】

顔検出部５６０６は、キャプチャされたフレーム画像列に対して、周知の顔検出アルゴリズムにより、顔候補探索を行う。なお、このような周知な顔検出アルゴリズムとしては、特に限定されないが、たとえば、特開２００８−１０２９０２号公報明細書に記載されるようなアルゴリズムや、後に説明するようなHaar-like特徴量を用いた顔検出アルゴリズムを使用することが可能である。

【0056】

続いて、特徴点抽出部５６０８は、検出された顔領域またはその近傍において、複数の特徴点抽出モデルにより特徴点の抽出を行う。

【0057】

ここで、「特徴点抽出モデル」としては、後に説明するような、予め学習用のサンプル画像においてハンドラベリングした所定の顔特徴点を含む顔部品について算出したガボールウェーブレットの応答ベクトルを利用するものとする。なお、「特徴点抽出モデル」としては、任意の顔画像から特徴点検出が可能な特徴モデルであれば、このような「ガボールウェーブレットの応答ベクトル」に限定されるものではない。

【0058】

不揮発性記憶装置２０８０には、後に詳述するように、特徴抽出モデルごとに、サンプル画像（学習画像）において検出された特徴点から顔中心位置へ向かう「相対位置ベクトル」と呼ばれるベクトルとサンプル画像の頭部姿勢の情報とを関連付けた「オフセットベクトル」についての「オフセット集合」のテーブルが記録されている。

【0059】

投票処理部５６１０は、複数の特徴点抽出モデルにより、入力画像（観測画像）において抽出された複数の特徴点について、特徴点抽出モデルと関連付けられたオフセットベクトルにより、顔中心位置および頭部姿勢に対する投票処理を実施する。なお、後に説明するように、オフセット集合を予め近傍探索に適したデータ構造にしておき、投票処理を行うオフセットベクトルについて枝刈り処理をして、実際に投票処理を行うオフセットベクトルを、一定の範囲内となるものに限定することで、処理負荷の低減することも可能である。なお、ここで、「一定範囲内」とは、特に限定されないが、たとえば、動画像であれば、前回の画像フレームにおいて推定された顔中心位置と現在の画像フレームにおいて抽出された特徴点の位置との差分ベクトルの所定の距離の近傍に存在する相対位置ベクトルの範囲のことをいう。

【0060】

最頻値探索部５６１２は、投票された顔中心位置および頭部姿勢のうちから、最も頻度の高い顔中心位置および頭部姿勢を特定する。なお、ここで、顔中心位置および頭部姿勢については、所定の大きさの範囲に入る投票を同一値に対する投票とみなす処理を行っている。

【0061】

顔位置姿勢推定部５６１４は、最頻値探索部５６１２により特定された最頻値に基づき、顔中心位置座標および頭部姿勢の推定値を出力する。ここで、顔中心位置については、同一値に対する投票とみなされる所定範囲の領域について、予め定められた値が、顔中心位置座標として特定される。頭部姿勢についても同様である。

【0062】

推定された顔位置座標および頭部姿勢は、推定した画像フレームと関連づけて、ハードディスク２０８０に格納される。

【0063】

また、表示制御部５６１６は、以上のようにして推定された頭部姿勢の方向を、表示装置２１２０において、取得された画像フレーム上に表示するための処理を行なう。

【0064】

図４は、サンプル画像の例を示す図である。

【0065】

図４に示すように、以下の説明では、たとえば、学習データとしてのサンプル画像として、カメラから一定距離で頭部姿勢を変化させながら撮影した１８９枚の顔画像を用いる。

【0066】

学習データは１００×１００[pixel]の画像とし、眼間距離が正面顔で４０[pixel]になるようにスケールを調整する。学習データに含まれる姿勢はアジマス角αについて±９０度、エベレーション角βとロール角γについては±２０度の範囲で姿勢を変化させたものとする。

【0067】

図５は、頭部姿勢を表すそれぞれの回転角を示す図である。

【0068】

正面顔を基準として、正面に向かう方向をＺ軸とするとき、アジマス角αは、顔の水平方向の回転角（Ｙ軸回りの回転角）であり、エレベーション角βは、顔の上下方向の傾きを表す仰角（Ｘ軸回りの回転角）であり、ロール角は、顔の左右への傾きを表す角（Ｚ軸回りの回転角）である。

【0069】

学習データとしては、各画像上で顔中心位置（図５中×印で示す）および、目口の両端点６点の座標をハンドラベリングし、姿勢角α、β、γと共に保存したものを準備する。

【0070】

（特徴抽出モデル）
特徴点抽出部５６０８が行う特徴点抽出について説明する。

【0071】

本実施の形態の頭部姿勢の推定装置は、顔画像中の特徴点を手掛かりとして顔位置姿勢推定を行うため、任意の顔画像から特徴点検出が可能な特徴モデルを作成する必要がある。

【0072】

本実施の形態では、特に限定されないが、前述の学習データ上でハンドラベリングした顔部品座標（たとえば、目口の両端点６点）について算出したガボールウェーブレット（GaborWavelet）の応答ベクトルを利用する(カーネルサイズ１１×１１、６４次元)。

【0073】

ここで、「ガボールウェーブレットの応答ベクトル」とは、顔画像領域内の各部分領域をガボール基底ベクトルとの積和演算により低次元ベクトル表現に変換したものである。ＣＰＵ２０４０の特徴点抽出部５６０８は、カメラからの画像フレームを、たとえば、所定の大きさの部分画像に分割し、この「ガボールウェーブレットの応答ベクトル」を用いた特徴点抽出モデルを顔部品テンプレートとして、カメラからの画像フレームの各部分画像と比較し、類似度の高いものを特徴点として抽出する。

【0074】

このような特徴点の抽出処理については、たとえば、以下の公知文献１に記載されている。

【0075】

公知文献１：画像処理による顔検出と顔認識(サーベイ(2))情報処理学会研究報告. 2005-CVIM-149(37), [コンピュータビジョンとイメージメディア] , P.343-368, 2005-05-13.
なお、本実施の形態では、学習データから作られた約５００個のモデルからランダムに１００個を選択し、「特徴抽出モデル」として利用する。このような特徴抽出モデルを、特徴抽出モデルｖ_i（ｉ＝１，…，Ｎ）で表す。

【0076】

（オフセット集合）
特徴抽出モデルｖ_i（ｉ＝１，…，Ｎ）によってサンプル画像Ｉ_j（ｊ＝１，…，Ｍ）からＬ_ij個の特徴点が抽出されたとする。

【0077】

図６は、特徴抽出モデルｖ_i（ｉ＝１，２）で、頭部姿勢の異なるサンプル画像において、特徴点を抽出した後に、特徴点をサンプル画像に重畳して示す図である。

【0078】

サンプル画像Ｉ_jにおけるｋ番目の特徴点の座標を以下のように表す。

【0079】

【数1】

サンプル画像Ｉ_jにおけるスケーリングファクタ（実空間における距離と画像上の距離の関係）をｓ_j［pixel/mm］とすると、上記ｋ番目の特徴点の座標は、以下のような実空間スケールの座標に変換される。(画像座標系の原点は光軸中心とする)。

【0080】

【数2】

一方、光軸方向に関するカメラと頭部の距離Ｚ_jは次式で表される。

【0081】

【数3】

ここで、fはレンズ焦点距離を表す。

【0082】

さらに、サンプル画像Ｉ_jにおける頭部基準座標（ここでは、顔中心位置座標）を以下の式で表す。

【0083】

【数4】

すると、実空間スケールにおいて特徴点座標から見た頭部基準位置座標の相対位置ベクトルは、以下の式で表される。

【0084】

【数5】

これにサンプル画像Ｉ_jにおける頭部姿勢パラメータα_j,β_j,γ_jを加えた以下のような６次元ベクトルをオフセットベクトルと呼ぶ。

【0085】

【数6】

全てのサンプル画像に特徴点抽出モデルｖ_iを適用して得られた、以下のようなオフセットベクトルの集合Ｓ_iを特徴抽出モデルｖ_iに関するオフセット集合とよぶ。

【0086】

【数7】

図７は、このようなオフセットベクトルの集合の各要素を説明するための概念図である。

【0087】

図７では、エレベーション角βおよびロール角γについては、０であるものとして、アジマス角α＝０°の場合と、α＝−３０°の場合について示す。

【0088】

図７（ａ）に示すように、α＝０°のサンプル画像と、α＝−３０°のサンプル画像について、顔中心位置が×印により示され、特徴抽出モデルｖ_iにより抽出された特徴点が白丸で示されている。

【0089】

図７（ｂ）で示すように、各特徴点から顔中心位置に向かうベクトル群が得られ、これを図７（ｃ）で示すように、特徴抽出モデルｖ_iにより抽出された特徴点に対応する相対位置ベクトルと定義する。したがって、一般には、特徴抽出モデルｖ_iにより抽出された１つの特徴点に複数の相対位置ベクトルが対応することになる。このような顔中心位置に対する相対位置ベクトルに頭部姿勢を表す頭部姿勢パラメータ（α β γ）とを組み合わせることで、オフセットベクトルが得られる。

【0090】

図８は、サンプル画像から特徴点を抽出した場合の具体例を示す図である。

【0091】

図８においては、３つの異なる姿勢の画像について、同一の特徴抽出モデルｖ_iにより抽出された特徴点を、元の画像に重畳して示す。

【0092】

図９は、顔位置および頭部姿勢の推定処理を説明するためのフローチャートである。

【0093】

以下では、動画像を撮影し、所定の時間間隔で、画像フレームについて、顔位置および頭部姿勢の推定処理を行うものとして説明を行う。所定の時間間隔とは、たとえば、フレーム毎を意味していてもよい。また、以下では、まず、カメラは１台であるものとする。

【0094】

図９を参照して、画像フレームを特定する変数を初期化（ｊ＝１）して（Ｓ１００）、画像キャプチャ処理部５６０２がカメラ３０．１から入力画像Ｐ_jを取得し、不揮発性記憶装置２０８０に格納する（Ｓ１０２）。

【0095】

続いて、顔検出部５６０６が、入力画像Ｐ_jに対する顔検出処理を行い、顔領域が一定サイズになるようにスケーリングする（Ｓ１０４）。顔領域の大きさからスケーリングファクタsが得られる。スケーリングでは、得られた顔領域が学習データと同じサイズ(今回の実装では、１００×１００[pixel])になるように拡大縮小処理を適用する。特に限定されないが、顔検出処理には、Haar-like特徴量を用いた顔検出アルゴリズムを利用することが可能である。たとえば、Haar-like特徴量を用いたカスケード型ＡｄａＢｏｏｓｔ検出器が以下の文献に開示されている。

【0096】

公知文献２：P. Viola and M. Jones: Rapid object detection using a boosted cascade of simple features, In Proc. IEEE Conf. Computer Vision and Pattern Recognition, pages 511--518, 2001
特徴抽出モデルを識別するための変数ｉを初期化（ｉ＝１）した後（Ｓ１０６）、特徴点抽出部５６０８が、変数ｉに対応する特徴抽出モデルｖ_iを選択して（Ｓ１０８）、スケーリングされた領域に対して、特徴抽出処理を適用し、顔特徴点を抽出する。このとき、抽出される特徴点座標は２次元座標なので３次元座標へ変換処理を行う（Ｓ１１０）。このステップＳ１１０での処理は、オフセット集合を作成したときの処理と同様である。

【0097】

特徴抽出モデルｖ_iにより、入力画像Ｐ_jについて、抽出されたｋ番目の特徴点の座標を［ｘ_k ｙ_k］^T（ｋ＝１，…，Ｌ_ij：Ｌ_ijは検出された特徴点の個数)とすると、実空間スケールにおける特徴点の座標は次式で表される。

【0098】

【数8】

次に、投票処理の回数をカウントするための変数を初期化（ｋ＝１）する（Ｓ１１２）。そして、オフセット集合Ｓ_iの要素数をｎ_iとし、ｍ番目の要素が以下のように表されるとする。

【0099】

【数9】

θ_i^m（ベクトル）は学習データにおいて特徴点モデルｖ_iをによって得られたものである。したがって、入力画像Ｐ_jから得られた画像特徴が顔面上の学習時と同じ部位に対応し、かつ両者の頭部姿勢が一致していれば、以下の式で表されるベクトルは、顔基準位置となる顔中心位置を与える。

【0100】

【数10】

投票処理部５６１０は、オフセット集合Ｓ_iの各要素θ_i^m（ベクトル）（ｍ＝１，…，ｎ_i）を不揮発性記憶装置２０８０から読み出して（Ｓ１１４）、スケールの変動を考慮し、以下のような数値の組をパラメータとする投票処理を行う（Ｓ１１８）。

【0101】

【数11】

ここで、特に限定されないが、スケール変動率gを０．９５から１．０５まで０．０１刻みに変化させて、繰り返し投票が行われる。変動率ｇを、たとえば、１．０に固定して投票を行ってもよいが、変動率を上記のように変化させることで、カメラと頭部の距離の変化によるスケールの変動に追従することができる。

【0102】

このような投票処理を、特徴抽出モデルｖ_iについて抽出されたすべての特徴点（個数はＬ_ij個）について繰り返す（Ｓ１１２からＳ１２２の処理）。

【0103】

さらに、変数ｉの値を１だけインクリメントし（Ｓ１２６）、特徴点抽出モデルを次のモデルに置き換えて、ステップＳ１０８からステップＳ１２６までの処理を、すべての特徴点抽出モデル（個数はＮ個）について繰り返す。

【0104】

以上のようにして、すべての抽出された特徴点についての投票処理が終了した後に、最頻値探索部５６１２は、顔中心位置および頭部姿勢についての最頻値の探索を実行する（Ｓ１２８）
最頻値が収束していれば処理は、次のステップに移行し、収束しない場合は、処理はステップＳ１０６に復帰する（Ｓ１３０）。ここで、「収束の判定」は、特に限定されないが、たとえば、mean-shift法による繰り返し推定を利用し、変位が一定値以下となれば、処理が収束したものと判断するように構成することができる。ただし、最頻値探索に適用するアルゴリズムとしては、他のアルゴリズム、たとえば、最急勾配法などでもよい。もっとも、mean-shift法による最頻値探索を用いることで、振動や発散のない繰り返し収束が保証されるなどの利点がある。

【0105】

ここで、特に限定されないが、ｉ）収束を判定する繰り返し計算ごとに、使用する特徴抽出モデルの組みを組み替えてもよいし、ｉｉ）最初は少数の特徴抽出モデルでラフな投票を行っておいて、収束が近づくに連れて特徴抽出モデル数を増やして精度を高めるなど、収束の判定を行う繰り返しごとに、特徴抽出モデルについての条件を変更させることが可能である。

【0106】

最頻値が収束した場合、ｂ（Ｘ，α，β，γ）（Ｘはベクトル）をパラメータ（Ｘ，α，β，γ）に対する投票数とすると、推定結果を最頻値として次式で得られたものになる。

【0107】

【数12】

顔位置姿勢推定部５６１４は、上記最頻値から、顔中心位置座標および頭部姿勢の推定値を取得し不揮発性記憶装置２０８０に入力画像Ｐ_jに関連づけて記録するとともに、表示のためのデータに変換して、表示制御部５６１６に与える（Ｓ１３２）。

【0108】

その後は、次の入力画像Ｐ_j+1に対して、同様の処理が繰り返される。

【0109】

図１０は、以上のような投票処理を説明するための概念図である。

【0110】

図１０に示すように、２次元の撮像面内の画像を実空間スケールへ変換し、カメラ座標系の３次元の座標に変換した上で、投票処理を行い、投票が集中するエリアに顔中心位置座標が存在するものとして推定される。なお、図１０においては、説明の簡単のために、顔中心位置のみを概念的に示しているが、実際には、上述のとおり、頭部姿勢についての投票も行われる。

【0111】

（高速化）
ここまで、図９および図１０を用いて、オフセット集合に基づいた顔位置・姿勢推定の原理について説明した。ただし、オフセット集合の大きさ(要素数)によっては処理コストが高くなるという問題がある。

【0112】

たとえば、以上のような説明の場合、オフセット集合の要素数はスケール変動分を含めると１特徴あたり１万以上であり、全要素数について投票を行うことは、ハードウェアの性能によっては処理負荷が大きい。

【0113】

したがって、以下のようにして、処理の負荷を削減することも可能である。

【0114】

すなわち、たとえば、k-d木による近傍探索とmean-shift法による繰り返し推定の組み合わせによって計算量を削減することができる。

【0115】

図１１は、投票処理の高速化の概念を説明するための図である。

【0116】

ここで、k-d木は二分探索木を多次元に拡張したものであり、多次元ベクトルに対する近傍探索を高速に行うことができる。そこで、オフセット集合Ｓ_iの各要素を、相対位置ベクトルＸ_iをインデックスとしてk-d木に格納する。

【0117】

投票時には顔位置に関する前回の推定結果Ｘと特徴点の座標Ｘ_kから得られる差分ベクトル（Ｘ−Ｘ_k）を検索キーとしてk-d木上で近傍探索を行い、距離が一定値未満となるオフセットのみを使って、位置・姿勢ベクトルを計算する。なお、前回が初回の場合は、前回の推定結果としては、初期値を使用する。

【0118】

したがって、図１１（ｂ）に示すように、１つの特徴点について、オフセットベクトルが６つ対応しているような場合でも、図１１（ａ）に示すように、点線で示されるオフセットベクトルは除外して、実線で示されるオフセットベクトルについての投票のみが行われることになる。

【0119】

このようにして、特徴点あたりの投票に使われるオフセットベクトル数を削減して、全ての顔特徴点について計算した位置・姿勢ベクトル群から位置・姿勢の推定値を得る。位置・姿勢の推定の収束判定には、たとえば、mean-shift法による繰り返し推定を利用し、変位が一定値以下となれば処理を終了する構成とすることが可能である。

【0120】

なお、１つの特徴点に対応するオフセットベクトルの組において、枝刈りされるものと、投票に使用されるものとは、図１１（ｂ）に示されるように、大きく方向が異なるため、このような枝刈りを行ったとしても、近傍探索の範囲を適切に設定することで、頭部姿勢の変化に追従することが可能である。

【0121】

また、近傍探索を行うためのデータ構造としては、k-d木に限定されず、「多次元探索鍵を使った探索（近傍探索）に使われるデータ構造」であれば、他のデータ構造であってもよい。

【0122】

図１２は、このような投票処理の結果の頻度分布を説明するための図である。

【0123】

図１２に示すように、位置と姿勢について、投票処理による最頻値により、同時に推定結果が得られる。
（複数カメラの場合）
以上の説明では、カメラ座標系を基準とした投票であるが、複数のカメラで得られる情報を統合するには、さらに各カメラの位置・姿勢を考慮する必要がある。

【0124】

図１３は、複数カメラの場合の推定処理を説明するための概念図である。

【0125】

図１３に説明するように、３次元の世界座標におけるカメラ３０．pの位置および姿勢をそれぞれＴ_cp，Ｒ_cpとすると（ｐ＝１，…，Ｎc: Ｎcは、カメラ台数）、世界座標における顔位置・姿勢Ｘ，Ｒは、カメラ３０．pの座標系で、それぞれ、以下のように表される。

【0126】

【数13】

カメラpの座標系における頭部姿勢Ｒ_cp^-1Ｒに対するアジマス角、エベレーション角、ロール角をそれぞれ以下のように表す。

【0127】

【数14】

このとき、Ｎc台のカメラの観測によるＸ，Ｒの推定値は次式により得られる。

【0128】

【数15】

このように複数台のカメラを用いる構成であれば、冗長な観測による精度・安定度の向上と、異なる方向から観測することによる追跡範囲の拡大が可能である。

【0129】

このように複数台のカメラの画像の情報を統合して投票処理を行った場合でも、近傍探索処理については、カメラ１台の場合と同様に処理を行うことが可能である。

【0130】

なお、投票処理を実空間スケールの３次元位置とすることで、複数のカメラの画像についての統合処理が容易となる。
（実験結果）
以上説明した顔位置・姿勢の推定方法の有効性を確認するため以下の実験を行った。

【0131】

まず実装したシステムにより頭部姿勢の追跡を行った。

【0132】

図１４は、アジマス角α、エベレーション角β、ロール角γについての追跡結果を示す図である。

【0133】

ここでは被験者１名がカメラから約１．５ｍ離れた位置に立ち、アジマス角±４０度、エレベーション角±２０度、ロール角±２０度の範囲で頭部を運動させた。図中、破線は正解値を実線は本実施の形態の頭部姿勢の推定方法による姿勢推定結果をそれぞれ示す。

【0134】

図１４にみられるように、連続的に頭部姿勢の追跡が可能であることを確認した。なお、図１４の実装においてシステムの動作速度は約１０フレーム／秒であった。

【0135】

図１５は、３名の被験者について本実施の形態の頭部姿勢の推定方法による推定結果を示す図である。

【0136】

本実施の形態の頭部姿勢の推定方法が眼鏡装着など異なる条件下でも動作可能であることがわかる。

【0137】

図１６は、カメラ２台で推定処理を行った例を示す図である。

【0138】

ここでは、被験者から約１．５ｍ離れた場所に約４０度離して２台のカメラを設置し、被験者の頭部を２方向から観測した。ここにみられるように、本実施の形態の頭部姿勢の推定方法によって２台のカメラの観測結果を統合し顔位置・姿勢推定を行うことができる。

【0139】

なお、以上の説明では、頭部基準位置としては、ハンドラベリングした顔中心位置を使用したが、頭部基準位置としては、このような位置に限定されるものではない。たとえば、頭部姿勢変化で大きく位置が変わらない点である頭部の回転中心（首の付け根のあたり）を頭部基準位置としてもよい。

【0140】

以上説明したように、本実施の形態の頭部姿勢の推定装置、頭部姿勢の推定方法によれば、顔画像上で検出される局所的な画像特徴と頭部位置・姿勢の関係に基づく投票処理によって入力画像中の顔の位置および姿勢を高速に推定することが可能となる。また、ひとつの特徴モデルによってサンプル画像から検出される複数の特徴点の座標と頭部位置・姿勢の関係をオフセット集合とし、入力画像において抽出される特徴点に対応して投票処理を行うので、頭部姿勢変化が短時間に生じた場合に、頭部姿勢の変化に追従して、頭部姿勢の推定を行うことができる。

【0141】

さらに、本実施の形態の頭部姿勢の推定装置、頭部姿勢の推定方法において、以下の構成とすれば、一層の高速化が可能である。すなわち、オフセット集合として特徴モデル毎にk-d木のような「多次元探索鍵を使った探索（近傍探索）に使われるデータ構造」に格納し、入力画像上での特徴抽出結果に関する投票処理によって顔の位置・姿勢を求める。この場合、上記のようなデータ構造を利用して中間解に対する近傍探索によって推定処理における不要な投票を抑制し高速化を図ることができる。

【0142】

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0143】

２０頭部姿勢の推定装置、３０．１〜３０．ｎカメラ、２０１０コンピュータ本体、２０２０光学ディスクドライブ、２０３０光学ディスクドライブ、２０４０ＣＰＵ、２０５０バス、２０６０ＲＯＭ、２０７０ＲＡＭ、２０８０ハードディスク、２１００キーボード、２１１０マウス、２１２０ディスプレイ、２２１０メモリカード、５６０２画像キャプチャ処理部、５６０４画像データ記録処理部、５６０６顔検出部、５６０８特徴点抽出部、５６１０投票処理部、５６１２最頻値探索部、５６１４顔位置姿勢推定部、５６１６表示制御部。

【図1】