特許第6097943号(P6097943)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人岩手大学の特許一覧

<>
  • 特許6097943-物体検出装置及び物体検出プログラム 図000012
  • 特許6097943-物体検出装置及び物体検出プログラム 図000013
  • 特許6097943-物体検出装置及び物体検出プログラム 図000014
  • 特許6097943-物体検出装置及び物体検出プログラム 図000015
  • 特許6097943-物体検出装置及び物体検出プログラム 図000016
  • 特許6097943-物体検出装置及び物体検出プログラム 図000017
  • 特許6097943-物体検出装置及び物体検出プログラム 図000018
  • 特許6097943-物体検出装置及び物体検出プログラム 図000019
  • 特許6097943-物体検出装置及び物体検出プログラム 図000020
  • 特許6097943-物体検出装置及び物体検出プログラム 図000021
  • 特許6097943-物体検出装置及び物体検出プログラム 図000022
  • 特許6097943-物体検出装置及び物体検出プログラム 図000023
  • 特許6097943-物体検出装置及び物体検出プログラム 図000024
  • 特許6097943-物体検出装置及び物体検出プログラム 図000025
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6097943
(24)【登録日】2017年3月3日
(45)【発行日】2017年3月22日
(54)【発明の名称】物体検出装置及び物体検出プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20170313BHJP
【FI】
   G06T7/00 350D
【請求項の数】5
【全頁数】19
(21)【出願番号】特願2016-43956(P2016-43956)
(22)【出願日】2016年3月7日
(62)【分割の表示】特願2011-134662(P2011-134662)の分割
【原出願日】2011年6月16日
(65)【公開番号】特開2016-105333(P2016-105333A)
(43)【公開日】2016年6月9日
【審査請求日】2016年3月14日
【新規性喪失の例外の表示】特許法第30条第1項適用 平成22年12月18日 「平成22年度 第3回情報処理学会東北支部研究会」において文書をもって発表
【早期審査対象出願】
(73)【特許権者】
【識別番号】504165591
【氏名又は名称】国立大学法人岩手大学
(74)【代理人】
【識別番号】100082876
【弁理士】
【氏名又は名称】平山 一幸
(72)【発明者】
【氏名】明石 卓也
(72)【発明者】
【氏名】星 大二郎
【審査官】 ▲広▼島 明芳
(56)【参考文献】
【文献】 特開2008−090792(JP,A)
【文献】 特開平11−053525(JP,A)
【文献】 特開2008−021266(JP,A)
【文献】 原 章,GAを用いた画像中の任意方向の顔領域の抽出,映像情報メディア学会技術報告 Vol.21 No.48,日本,社団法人映像情報メディア学会,1997年 9月18日,第21巻,p.37-44
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
物体を検出する物体検出プログラムであって、
コンピュータを、
画像取得部で撮影された物体の静止画像から対象の物体を検出し、当該静止画像から抽出した領域について色成分に関するヒストグラムをテンプレートとして作成する参照情報作成部、
画像取得部で撮影された動画像を構成する複数のフレーム画像のうち探索対象のフレーム画像と上記参照情報作成部で作成されたテンプレートとに基づいて、探索対象のフレーム画像から物体領域を検出する検出処理部、
として機能させ、
上記検出処理部は遺伝的アルゴリズムに基づいて以下の処理(α1)〜(α4)を行って物体の姿勢が変化しても物体領域を検索することを特徴とする、物体検出プログラム。
(α1)探索対象の画像の中で物体領域を特定するパラメータを含む個体をN個生成する。
(α2)各個体の染色体のパラメータで特定される物体領域に含まれる画素によって特定される一又は複数の色成分に関するヒストグラムをそれぞれ作成し、これらのヒストグラムと参照情報作成部で作成されたテンプレートとの一致度を適応度関数によって評価する。ここで、上記適応度関数における適応度は、表色系の各成分におけるヒストグラムの類似度の二乗した値を加算して平方根を求めることにより求まり、その類似度は上記テンプレートのヒストグラムと探索対象のフレーム画像上での上記物体領域のヒストグラムとを掛けて平方根を求めて、ヒストグラムのビンの数分、足し合わせて求める。
(α3)N個の個体に対する選択,交叉,突然変異に基づいた遺伝的操作によって新たな個体をN個生成する。
(α4)世代交代限度まで、上記(α2)と(α3)とを繰り返し、最終世代の個体の内、適応度が最も高い個体のパラメータを解とし、当該解によって特定される領域を物体領域と判断する。
【請求項2】
前記検出処理部は、次のフレーム画像について前記遺伝的アルゴリズムの処理を開始する際、前のフレーム画像についての前記遺伝的アルゴリズムの処理で得られたN個の個体の染色体を利用することを特徴とする、請求項1に記載の物体検出プログラム。
【請求項3】
前記コンピュータを、さらに
前記テンプレートを別のテンプレートに更新する参照情報更新部として機能させ、
前記参照情報更新部は複数のフレーム画像に亘って物体領域のヒストグラムが同じか又はその差が小さいときに、当該ヒストグラムを前記テンプレートに設定することを特徴とする、請求項1又は2に記載の物体検出プログラム。
【請求項4】
検出対象の物体が顔であり、
前記ヒストグラムが、Cr成分のみ、Cb成分のみ、Cr成分及びCb成分、又はこれらの何れかとY成分の組み合わせで構成される、請求項1乃至3の何れかに記載の物体検出プログラム。
【請求項5】
請求項1乃至4の何れかに記載の顔追跡プログラムをコンピュータにインストールして構成した、顔検出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画像から顔や標識などの物体を検出する装置に係り、特に物体の姿勢が変化した場合でも当該物体を検出し得る物体検出装置及び物体検出プログラムに関する。
【背景技術】
【0002】
近年、多くの民生用のディジタルカメラに顔検出機能が搭載されている。従来の顔検出の手法として非特許文献1にはHaar−like特徴を用いてAdaBoostに基づいた手法が開示されている。この手法はカスケード型に構成した識別器を使用する。具体的には、任意の弱識別器を組み合わせてより性能の高い強識別器を構築するAdaBoost法(非特許文献2)を基調とし、複数の識別器を直列的に接続して構築されている。
【0003】
また、特許文献1には、顔の特定領域を抽出する画像内特定領域抽出方法が開示されている。この抽出方法は、遺伝的アルゴリズムを用いて特定のテンプレートとのマッチングを利用した技術で、動画を対象として探索画像から特定の領域を抽出する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−12093号公報
【非特許文献】
【0005】
【非特許文献1】P. Viola, and M. Jones: “Rapid Object Detection using a Boosted Cascade of Simple Features”, Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp.511-518 (2001).
【非特許文献2】Y. Freund, and R. E. Schapire, “A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting”, Journal of Computer and System Sciences, Vol.55, pp.119-139 (1997).
【発明の概要】
【発明が解決しようとする課題】
【0006】
AdaBoost法は複雑な背景下でも高精度な検出が可能であるが、一般的に、学習した対象物の特定の姿勢に限定されてしまう。この問題に対して対象の複数の姿勢を学習し、その結果である識別器を複数使用する手法が提案されている。しかし、すべての姿勢を学習することは困難である。また、識別器を増やすことで全方向の顔検出に対応することができる反面、学習に時間が必要であるという点や、計算コストが高いという問題点がある。
【0007】
また、特許文献1の手法では、テンプレートとして特定領域内に含まれる複数の画素を、探索対象の画像中の同じサイズの領域内の複数の画素とそれぞれ一対一で比較して適合性を評価するため、観察対象の被験者が横を向いた場合には顔領域のサイズが変わって当該顔領域を構成する画素数が変わるため、横向きの場合の顔領域を抽出することができなかった。
【0008】
さらに近年では、多くの民生用のディジタルカメラに顔検出機能が搭載されているが、本発明者等の知る限り、顔の向き、つまりカメラの光軸からずれた方向へ顔を向けた姿勢にロバストに対応できている製品はない。また、エンタテイメント分野やセキュリティ分野においても、顔検出技術は重要な要素技術である。実用的な顔検出を実現するためには、顔の向きにロバストな顔探索が必要である。
【0009】
このような問題を解決するために、本発明は、物体の姿勢に拘わらず物体領域を検出する物体検出装置及び物体検出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明は、
物体を検出する物体検出プログラムであって、
コンピュータを、
画像取得部で撮影された物体の静止画像から対象の物体を検出し、当該静止画像から抽出した領域について色成分に関するヒストグラムをテンプレートとして作成する参照情報作成部、
画像取得部で撮影された動画像を構成する複数のフレーム画像のうち探索対象のフレーム画像と上記参照情報作成部で作成されたテンプレートとに基づいて、探索対象のフレーム画像から物体領域を検出する検出処理部、
として機能させ、
上記検出処理部は遺伝的アルゴリズムに基づいて以下の処理(α1)〜(α4)を行って物体の姿勢が変化しても物体領域を検索することを特徴とする。
(α1)探索対象の画像の中で物体領域を特定するパラメータを含む個体をN個生成する。
(α2)各個体の染色体のパラメータで特定される物体領域に含まれる画素によって特定される一又は複数の色成分に関するヒストグラムをそれぞれ作成し、これらのヒストグラムと参照情報作成部で作成されたテンプレートとの一致度を適応度関数によって評価する。ここで、上記適応度関数における適応度は、表色系の各成分におけるヒストグラムの類似度の二乗した値を加算して平方根を求めることにより求まり、その類似度は上記テンプレートのヒストグラムと探索対象のフレーム画像上での上記物体領域のヒストグラムとを掛けて平方根を求めて、ヒストグラムのビンの数分、足し合わせて求める。
(α3)N個の個体に対する選択,交叉,突然変異に基づいた遺伝的操作によって新たな個体をN個生成する。
(α4)世代交代限度まで、上記(α2)と(α3)とを繰り返し、最終世代の個体の内、適応度が最も高い個体のパラメータを解とし、当該解によって特定される領域を物体領域と判断する。
【0011】
ここで、物体とは、人の顔、体の一部に限らず、動物、昆虫、魚類などの生物の他、土地に定着した看板や標識などの不動産、その物自体可搬自在な車やテレビなどの動産を含む。
【0012】
本発明の物体検出プログラムにおいて、前記検出処理部は、次のフレーム画像について前記遺伝的アルゴリズムの処理を開始する際、前のフレーム画像についての前記遺伝的アルゴリズムの処理で得られたN個の個体の染色体を利用する。
【0013】
本発明の物体検出プログラムは、前記コンピュータを、好ましくは、さらに、前記テンプレートを別のテンプレートに更新する参照情報更新部として機能させ、前記参照情報更新部は例えば複数のフレーム画像に亘って物体領域のヒストグラムが同じか又はその差が小さいときに、当該ヒストグラムを前記テンプレートに設定する。本発明の物体検出プログラムにおいて、好ましくは、検出対象の物体が顔であり、前記ヒストグラムが、Cr成分のみ、Cb成分のみ、Cr成分及びCb成分、又はこれらの何れかとY成分の組み合わせで構成される。
【0014】
上記目的を達成するために、本発明は、前述の顔追跡プログラムをコンピュータにインストールして構成した、顔検出装置であることを特徴とする。
【発明の効果】
【0015】
本発明によれば、ヒストグラムテンプレートを用いたマッチングによって顔を追跡することができる。
【0016】
特に、顔の姿勢によらず、顔のヒストグラムが一定であることから、実時間処理で顔領域の追跡を行うことが可能である。
【図面の簡単な説明】
【0017】
図1】本発明の第1実施形態に係る顔検出装置のブロック図である。
図2】(A)は本発明の第1実施形態に係る参照情報作成部が特定する顔領域、(B)〜(D)はヒストグラムテンプレートである。
図3】本発明の第1実施形態に係る画像取得部が生成する動画像情報を示す図である。
図4】本発明の第1実施形態に係る個体の染色体の構造を示す図である。
図5】本発明の第1実施形態に係る検出処理部を示すブロック図である。
図6】本発明の第1実施形態に係る顔検出装置の動作について説明する図である。
図7】本発明の第1実施形態に係る顔検出装置の動作について説明する図である。
図8】(A)〜(D)は本発明の第1実施形態に係るテンプレート画像取得部と参照情報作成部との動作を説明するための図である。
図9】本発明の第1実施形態に係る顔検出装置の動作について説明する図である。
図10】本発明の第1実施形態に係る顔検出装置によって特定した顔領域の、枠で表示したディスプレイの画面例を示す図である。
図11】(A)はテンプレートの画像、(B)〜(K)は各個体で特定される領域とその領域のヒスグラムを示す図である。
図12】(A)はテンプレートの画像、(B)は(A)の矩形領域のヒストグラム、(C)は検出処理で特定された矩形領域、(D)は(C)の矩形領域のヒストグラムを示す図である。
図13】(a)〜(i)はCr成分を使用した画像追跡結果を示す図である。
図14】本発明の第2実施形態に係る顔検出装置を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施形態を説明する。
[A.第1実施形態]
図1は本発明の第1実施形態に係る顔検出装置1のブロック図である。顔検出装置1は
、第1画像取得部2と、記憶部3と、参照情報作成部4と、第2画像取得部5と、検出処理部6と、を備えている。
【0019】
第1画像取得部2は、顔追跡に必要な画像情報を取得する。具体的には、テンプレート画像取得部2は、CCDカメラやCMOSイメージセンサなどの撮像装置として構成されており、追跡対象の顔の静止画像を、例えば1枚取得する。第1画像取得部2で撮影された画像は、後述するヒストグラムテンプレートTPを作成するための参照用画像として記憶部3に保存される。
【0020】
参照情報作成部4は、記憶部3から参照用画像を読み出し、この参照用画像を処理して正面顔を検出する。この場合の顔検出の手法では、Haar−like特徴を用いたAdaBoost法に基づくカスケード型識別器を利用する。正面顔として画像から矩形の領域を抽出した後、さらにそれより狭い図2(A)に示す矩形の顔領域(以下、矩形領域と呼ぶ場合がある。
)ARを抽出する。
【0021】
参照情報作成部4は、このように得られた顔領域ARからヒストグラムを取得する。本実施形態では、使用する画像データはRGB表色系ではなく、YCrCb表色系を利用する。ここで、Yは輝度、Crは赤色の色差、Cbは青色の色差を表している。YCrCb表色系はRGB表色系と異なり、輝度と色が分離している。従って、輝度の変化に対応することができることからYCrCb表色系を利用する。
【0022】
図2(B)は顔領域ARに関するY成分のヒストグラム、図2(C)は顔領域ARに関するCb成分のヒストグラム、図2(D)は顔領域ARに関するCr成分のヒストグラムを表している。これらのヒストグラムを、以下、ヒストグラムテンプレートTPと呼ぶ。
【0023】
第2画像取得部5は追跡対象の画像をリアルタイムに撮像する。具体的には、第2画像取得部5は、CCDカメラやCMOSイメージセンサなどの撮像装置として構成されており、追跡対象の顔の動画像、即ち複数のフレーム画像を取得する。図3に示すように、複数のフレーム画像Fからなる動画像情報を以下、ビデオシーケンスVSと呼ぶ。なお、本実施形態は、一つの撮像装置が第2画像取得部5と第1画像取得部2とを兼ねて利用に供されるように構成されてもよい。
【0024】
検出処理部6は、第2画像取得部5で作成されたビデオシーケンスVSを構成する各フレーム画像F、つまり撮像対象が静止した状態のターゲット画像の中で、追跡対象の顔の位置を特定する。具体的には、ターゲット画像の中の顔領域(図10のAR′参照)の位置を特定する。なお、ターゲット画像の中の顔領域(以下、矩形領域と呼ぶ場合がある。
)については、ヒストグラムテンプレートTPの作成時に利用する矩形領域AR(図2(A)参照)と区別するため、異なる符合AR′を付して、以下説明する。
【0025】
検出処理部6は、第2画像取得部5で作成されたフレーム画像Fと記憶部3に保存されているヒストグラムテンプレートTPとに基づいて、顔の検出処理を行う。詳細は後述するが、検出処理部6は遺伝的アルゴリズム(以下、GAと呼ぶ場合がある。)に基づいて検出処理を行う。
【0026】
本実施形態の検出処理では、ターゲット画像上の顔の領域、つまり画像中の追跡すべき顔領域AR′をパラメータで表し、このパラメータで特定される顔領域AR′とのテンプレートマッチングを最適化問題として解決する。具体的には、パラメータで特定される顔領域AR′のヒストグラムとヒストグラムテンプレートTPとのマッチングを評価する。
【0027】
パラメータとして、探索目標である矩形領域AR′の中心を表す座標、大きさ、回転角度を利用する。検出処理では、当初の矩形領域ARを、或いはこれに基づいた矩形領域AR′を、パラメータを用いてターゲット画像上で幾何学変換し、新たに矩形領域AR′を特定する。そして、変換結果の矩形領域AR′上の画素のヒストグラムと、ヒストグラムテンプレートTPとのマッチングの最適化の解決手法として、本実施形態では遺伝的アルゴリズムを利用する。
【0028】
遺伝的アルゴリズムにおける各個体の染色体構造として、本実施形態の染色体CHは、図4に示すように、当初の矩形領域ARの或いは変換前の矩形領域AR′の中心座標(cx,cy)と、矩形を画する枠のx軸とy軸方向の拡大縮小倍率m,mと、矩形を画する枠の回転角度angleの情報を持つとする。これらは最終的に求める解であり、探索対象のターゲット画像上で、顔領域として特定する矩形領域AR′の位置、サイズ、回転角度を表すパラメータである。これらのパラメータの起こり得る範囲は、本実施形態では以下の(1)〜(3)ように選定されている。
【数1】

拡大縮小倍率はテンプレートの大きさから考慮して決定し、回転角度については日常生活で顔の曲がり得る角度を考慮して決定した。本実施形態で各パラメータc,c,m,m,angleをそれぞれ8bitで表し、一つの個体の染色体CHは合計の40bitで表される。
【0029】
検出処理部6は、これらのパラメータc,c,m,m,angleをそれぞれ遺伝情報(以下、遺伝子と呼ぶ場合がある。)として取り扱う。特に最適化問題を解くために、検出処理部6はこれらのパラメータを遺伝情報として引き継いだ次世代の個体を遺伝的アルゴリズムによって適宜生成する。そして、検出処理部6は、生成された次世代の個体で特定される、つまり個体の染色体CHを構成する各遺伝子(パラメータ)c,c,m,m,angleで特定される矩形領域AR′のヒストグラムを、ヒストグラムテンプレートTPと比較して、解としての各パラメータc,c,m,m,angleの適性を評価する。
【0030】
このため図5に示すように、検出処理部6は、前処理部61と、遺伝操作部62と、座標変換部63と、適応度計算部64と、判断部65と、を備えている。
【0031】
前処理部61は、N個の個体、つまりN個の染色体CH(図4参照)を生成する。ここで、各染色体CHを構成する各パラメータc,c,m,m,angleの数値は、上記(1)〜(3)の範囲内でランダムに選定される。本実施形態では、個体数Nを10に設定するが、その数に限定されるものではない。
【0032】
遺伝操作部62は、N個の個体の内、1個を選択した後に操作して、あるいは選択した2個の個体を操作して、新たな個体をN個生成する。具体的には、遺伝操作部62は、個体に対する遺伝的操作として、選択(淘汰、再生)、交叉、突然変異の3つの操作を行う。
【0033】
ここで、交叉とは、個体の染色体(図4参照)を構成する各遺伝情報、つまりパラメータc,c,m,m,angleを入れ替える操作であり、具体的には選択された2つの親個体の遺伝情報を相互に入れ替える操作である。ある。突然変異とは、染色体を構成する遺伝情報の一部、つまりパラメータc,c,m,m,angleの一部を変える操作であり、具体的には別の数値に変える操作である。突然変異によってパラメータを特定する数値はランダムに選定される。
【0034】
本実施形態では、交叉率は0.7、突然変異率は0.05に選定されているが、それらの数値に限定されるものではない。また、交叉方法は一様交叉とし、選択方法はルーレット選択とし、エリート保存戦略を基調として、遺伝的アルゴリズムを設定しているが、交叉方法や選択方法等はこれに限定されるものではい。なお、本実施形態では、エリート保存戦略として、後述する適応度が最も高い一つの個体(以下、エリート個体と呼ぶ。)を次世代に残すこととする。
【0035】
遺伝情報の操作は、第2画像取得部5で撮像されたターゲット画像、つまり一つのフレーム画像F当たり40回を限度とするが、世代交代数Gは40回に限定されるものではない。
【0036】
ここで、遺伝操作部62によって生成された個体、つまり当該個体の染色体CHを構成するパラメータc,c,m,m,angleに基づいて特定される矩形領域AR′の座標は、以下の座標変換として表される。ここで、全ての幾何学変換を変換行列の複雑化を軽減するため、同次座標を用いる。点Pを変換前の画像上の顔領域の座標、点Pを生成された個体によって特定される変換後の点Pの座標とすると、これらの点を同次座標で表すと、以下の式(4)、(5)で表される。
【数2】
【数3】
【0037】
さらに、点Pは以下の式(6)よって表される。
【数4】
【0038】
座標変換部63は、変換前の座標点Pを式(6)に基づいて変換して、ターゲット画像中で探索目標の矩形領域AR′の位置を特定する。なお、点Pは、初めの1フレーム目の場合には図1の第1画像取得部2で取得した参照用画像から抽出した矩形領域AR(図2の(A)参照)の座標であり、次フレーム目からは前のフレーム画像で特定される矩形領域AR′の座標である。
【0039】
適応度計算部64は、座標変換部63によって場所を移動させられた矩形領域AR′内にある画素によって特定されるヒストグラムと、ヒストグラムテンプレートTPと、のマ
ッチング処理を行う。具体的には、ターゲット画像上の矩形領域AR′のヒストグラムを算出して、矩形領域AR′のヒストグラムとテンプレートTPのヒストグラムとの適応度
、つまり両者の類似の度合いを判断する。なお、画像の倍率を変えた場合に矩形領域AR
′がヒストグラムテンプレートTPの作成の基になった顔領域ARのサイズと異なることになるが、矩形領域AR′のヒストグラムを作成する際に利用する矩形領域AR′の画素数は、ヒストグラムテンプレートTPの作成の基になった顔領域ARに含まれる画素の数に合わせる。例えば、顔領域ARが10×10pixelであり、矩形領域AR′が20×2
0pixelである場合、矩形領域AR′のヒストグラムは、400個の画素を全て利用するのではなく、例えば1個置きに配置される画素を利用して顔領域ARの画素数と同じ10
0個の画素を利用して作成される。
矩形領域AR′のヒストグラムとテンプレートTPのヒストグラムとの適応度fitness
は次に示す適応度関数(7)、(8)を用いて表される。
【数5】
【数6】
【0040】
ρは表色系の各成分(i=1がY成分、i=2がCb成分、i=3がCr成分を表す。)におけるヒストグラムの類似度、mはヒストグラムのビンの数、pはヒストグラムテンプレートTPのヒストグラム、qはターゲット画像(観察対象のフレーム画像)上で矩形領域AR′のヒストグラム、NはヒストグラムテンプレートTP作成の元になった矩形領域ARの画素数を表している。適応度が大きい程、テンプレートTPのヒストグラムに類似しているということとなる。なお、(7)式のヒストグラムの類似度の計算ではBhattacharyya係数を用いている。
【0041】
判断部65は、N個の個体のそれぞれについて適応度計算部64で算出された結果から
、どの個体が最も追跡対象の顔領域を特定しているか判断する。具体的には、判断部65は、適応度が最も大きい個体がどれかを判断する。エリート保存戦略に基づいて適応度が最も大きい個体は次世代にそのままの遺伝情報で継承される。また、世代交代数Gが最大限、例えば本実施形態の40回目の場合、適応度が最も大きい個体が追跡対象の顔領域を特定していると判断する。このように最終的に選ばれた個体の染色体CHを構成するパラメータc,c,m,m,angleに基づいて、目標の顔領域AR′を特定する。
【0042】
以上の顔検出装置1は例えばコンピュータから構成される。このコンピュータは、前もってインストールされたソフトウェアとしての顔追跡プログラムを実行することで、上記の手法、即ち顔の検出処理を実現する。具体的には、コンピュータが検出処理プログラムを実行することで、コンピュータが前述の参照情報作成部4、検出処理部6、特に前処理部61、遺伝操作部62、座標変換部63、適応度計算部64、判断部65として機能する。
【0043】
なお、複数のコンピュータをLANやインターネット、公衆網等を介して相互に接続して、参照情報作成部4、検出処理部6、特に前処理部61、遺伝操作部62、座標変換部63、適応度計算部64、判断部65との動作を複数のパーソナルコンピュータによって分散処理させてもよい。コンピュータは、従来公知の構成のものを使用することができ、RAM,ROM,ハードディスクなどの記憶装置と、キーボード,ポインティング・デバイスなどの操作装置と、操作装置等からの指示により記憶装置に格納されたデータやソフトウェアを処理する中央処理装置(CPU)と、処理結果等を表示するディスプレイなどを備えている。このコンピュータは汎用の装置でも、専用の装置として構成されたものであってもよい。
【0044】
次に、本実施形態に係る顔検出装置1の動作について説明する。
顔検出装置1が検出処理を行うための事前処理として、図6に示すステップS1で参照情報としてのヒストグラムテンプレートTPを取得する。この処理は、具体的には図7に示すように、ステップS11で第1画像取得部2が顔追跡に必要な入力画像F1(図8
A)参照)を取得する。ステップS12では、参照情報作成部4がこの入力画像F1、つまり参照用画像を処理して、つまりHaar−like特徴を用いたAdaBoost法に基づいて正面顔R(図8(B)参照)を検出する。さらに、参照情報作成部4は、ステップS13で正面顔Rとしての矩形の領域より狭い矩形の顔領域AR(図8(C)参照)をAdaBoost法によ
って抽出し、当該顔領域ARのヒストグラム(図8(D)参照)を計算して、ヒストグラムテンプレートTPを作成する(ステップS14)。
【0045】
上記の事前処理が終了した後、顔検出装置1は検出処理を実行する。先ず、図6に示すように、ステップS2で前処理部61が遺伝的アルゴリズムの初期化を行う。この初期化設定は、顔検出装置1が検出処理を開始する際にだけ行われる。この初期化設定では、矩形領域AR′を特定する各パラメータc,c,m,m,angleを遺伝情報とするN個(例えばN=10である。)の個体を生成する。各個体の染色体を構成するそれぞれのパラメータは上記の(1)〜(3)の範囲内でランダムに数値が選択される。
【0046】
次に、ステップ3で第2画像取得部5が探索対象の画像情報F(図3参照)を取得して
、ステップS4で検出処理部6がGAによるヒストグラムテンプレートTPのマッチングを行う。
【0047】
GAによるヒストグラムテンプレートTPのマッチングでは、先ず図9に示すように、ステップS41で、前処理部61が生成したN個の各個体を評価する。具体的には、前処理部61が生成した個体の染色体CHの各遺伝情報、つまり各パラメータc,c,m,m,angleで特定される矩形領域AR′内のヒストグラムを算出し、このヒストグラムとヒストグラムテンプレートTPとのマッチング度合いを算出する。このとき、式(
7)及び(8)に示す適応度関数に基づいて、適応度を算出する。
【0048】
次に、ステップS42で、検出処理部6の判断部65が、各個体が終了条件を満たしているか、判断する。具体的には、個体に対する遺伝的操作、つまり世代交代の回数が最大の回数Gに至っているか判断する。最大の世代交代数Gに至っている場合、最終世代のN個の個体の内で、最も適応度が大きい個体を選択し、その個体の遺伝情報、つまりパラメータc,c,m,m,angleを求める解として取り扱う。
【0049】
このような終了条件を満たさない場合、ステップS43で遺伝操作部62が各個体に基づいて遺伝的操作、言い換えればパラメータの交換を行う。遺伝操作部62は、N個の個体に対して、選択(淘汰、再生)、交差、突然変異をある確率で生じさせて新たな個体をN個生成する。また、エリート保存戦略に基づいて、エリート個体は次世代にそのまま残す。
【0050】
このようにして、遺伝操作部62が新たにN個の個体を生成する。そして、新たに生成した個体が終了条件を満たすか判断する(ステップS43からステップS42へ)。その際、新たな個体に関しても、矩形領域AR′内のヒストグラムを算出し、このヒストグラムとヒストグラムテンプレートTPとのマッチング度合いを、式(7)及び(8)に示す適応度関数に基づいて算出する。
【0051】
ステップS42で終了条件が満たされるまで、ステップS43の遺伝的操作と適応度の評価とを繰り返す。なお、本実施形態では、画像情報としての1フレームあたりの世代交代数Gを40回に設定している。
【0052】
このように遺伝的操作を行った世代交代を繰り返して終了条件を満たした場合、最終世代の個体群の内で、適応度が最も大きい個体のパラメータc,c,m,m,angleを求める解として取り扱い、当該パラメータで特定される矩形領域AR′をディスプレイ上に、例えば図10に示すように表示する。
【0053】
なお、最終世代のN個の個体の各情報は、次のフレーム画像Fの処理開始時にそのまま利用されるよう、記憶部3に保存される。
【0054】
このように、1フレームの画像情報について顔追跡の処理が完了、つまり顔領域と推定する領域を矩形枠で囲うことができたら、動画像として記憶部3に格納されているビデオシーケンスから次のフレーム画像F(図3参照)を画像情報として読み出し、この次フレ
ーム画像Fについて検出処理を行う(図6のステップS4からステップS3へ)。次フレ
ーム画像Fについて検出処理を開始する際、個体の初期化を行わず、つまりN個の個体を改めて作り直すことを行わずに、前フレーム画像の検出処理で最終世代として作成したN個の個体を、次フレーム画像における第1世代の個体群として利用する。
【0055】
このように本実施形態に係る顔検出装置1によれば、ヒストグラムテンプレートTPを用いたマッチングによって顔を追跡することができる。特に、顔検出装置1では、顔の姿勢によらず、顔のヒストグラムが一定であることから、実時間処理で顔領域AR′の追跡を行うことが可能である。さらに、個体の初期化は初期フレームの1度のみ実施すると共に、前フレームにおいて進化した個体、適応度を確定する遺伝情報である各パラメータを次フレームへ継承することによって、個体数および世代交代数を減らすことができ、計算コスト削減と精度向上が可能となる。
【0056】
[B.実験例]
本発明の実施形態について、ヒストグラムと各表色系の有効性について以下説明する。
【0057】
B1:実験1.ヒストグラムの有効性
[B1−1.実験内容]
顔検出処理が抽出したターゲット画像の矩形領域AR′のヒストグラムと、ヒストグラムテンプレートTPとの類似性を確認し、その類似度合いと顔追跡との関係を調査する。
【0058】
[B1−2.システムの設定]
実験で使用するGAのパラメータを以下のように設定した。個体数は10個体,交叉率は0.7で、交叉方法は一様交叉、突然変異率は0.05、選択方法はルーレット選択とし、エリート保存戦略を用いた。また、1フレーム画像における世代交代回数を40回とした。実験には3.2GHzのCPUを搭載した計算機を使用した。
【0059】
[B1−3.評価方法]
本システムの顔検出装置1が取得した1フレームの矩形領域AR′に関して、当該矩形領域AR′のヒストグラムとテンプレートヒストグラムTPとの類似性を確認し、ヒストグラムのパターンが似通っているか評価する。また、ヒストグラムのマッチング度合いとシステムが特定した顔領域の位置とヒストグラムとの関係を、システムが作成した画像から評価する。
【0060】
[B1−4.実験結果]
図11(A)はヒストグラムテンプレートTPを示す。図11(B)〜(K)はシステムがフレームを処理した結果、つまりフレーム画像に関する検出処理で最終世代として残った10個体(第1の個体〜第10の個体)を示す結果であり、図の右側領域がシステムで特定された矩形領域AR′を示し、左側がその矩形領域AR′のヒストグラムを示す。
【0061】
図11(A)のヒストグラムテンプレートTPと図11(C)のヒストグラムとを比較すると、ほぼヒストグラムのパターンが類似していることが確認できる。図11(C)の右側領域に示されるように、ほぼ正確に被験者の顔の領域に矩形領域AR′が選択されている。
一方、図11(B)の第1の個体のヒストグラムを図11(A)のヒストグラムテンプレートTPと比較すると、両者のヒストグラムのパターンの形状は異なり、類似した形状部位が見当たらない。このように形状が相違する場合、図11(B)の右側領域に示すように、被験者の顔の領域と矩形領域AR′とがずれている。さらに、テンプレートTPのパターンと大きく形状が異なるヒストグラムを有する第8の個体では、図11(G)に示すように、システムが設定した矩形領域AR′は被験者の顔から大きくずれた位置にある

ここで、下記の表1は、システムが取得した各個体CHのヒストグラムとヒストグラムテンプレートTPとの類似度合を評価する距離を表している。
【表1】

この距離は、二つのヒストグラムの類似性を距離dとして表す以下の式(9)から算出した。距離が短いほど類似し、距離が長いほど非類似であることを表す。
【数7】


ここで、Hは個体のヒストグラム、HはテンプレートTPのヒストグラム、Iはビン数である。
表1から、ヒストグラムのパターンが殆ど似ていない個体番号6の個体(図11(G)参照)については、距離dが一番長いことが確認できた。一方、ヒストグラムのパターンがほぼ似通っている個体番号2の個体(図11(C)参照)については、距離が一番短いことが確認できた。
以上のことから、ヒストグラムテンプレートTPのマッチングによる顔認識が有効であること、つまりヒストグラムテンプレートTPが有効であることが確認できた。
【0062】
B2: 各表色系の有効性
[B2−1.実験内容]
ターゲット画像は、Webカメラを使用して被験者が当該Webカメラに対して顔を上下左右に振ることで得られた動画像シーケンスとする。ターゲット画像のサイズは320×240pixelであり、総フレーム数は180である。また、ヒストグラムテンプレートTPの取得に使用した正面顔は同一被験者の画像として、16×21pixelの画像を利用した。
【0063】
本実施形態では、ヒストグラムを使用するため、表色系成分の組み合わせによって結果が大きく左右されることが考えられる。したがってYCbCr,YCr,YCb,CbCr,Y,Cr,Cb,HSV,HS,HV,SV,H,S,Vの表色系成分の組み合わせ14パターンの実験によって各表色系成分に関する検出の有効性を確認する。
【0064】
評価基準は、あらかじめ目視によって、ターゲット画像上で顔の中心座標を正解座標として決定する。実験結果である検出された矩形領域AR′の中心座標と正解座標の距離を用いて正誤判定を行う。
【0065】
[B2−2.システムの設定]
実験で使用するGAのパラメータを以下のように設定した。個体数は10個体,交叉率は0.7で、交叉方法は一様交叉、突然変異率は0.05、選択方法はルーレット選択とし、エリート保存戦略を用いた。また、1フレーム画像における世代交代回数を40回とした。実験には3.2GHzのCPUを搭載した計算機を使用した。
【0066】
[B2−3.評価方法]
事前にターゲット画像に対して顔の中心と判断できる座標、つまり正解座標を目視で決定する。そして、実験結果で検出された矩形領域AR′の中心座標、つまり結果座標を正解座標と比較して正誤判定を行う。
【0067】
正解座標と結果座標の距離は,顔の大きさに影響されるため,単純な距離ではなくヒストグラムテンプレートTP作成の元になった顔領域ARの画像のサイズに応じて正規化を行った。計算式は以下の式(10)を利用する。
【数8】
【0068】
ここで、Aは正解座標、Rは結果座標、width,heightはヒストグラムテンプレートTP作成の元になった顔領域ARの画像の幅,高さを表している。実験ではターゲット画像の顔領域の高さ(あごから眉毛までの距離)がおよそ50pixelであったことに加えて、肌色である首元まで検出した場合に検出失敗とするために結果座標と正解座標との距離が10pixel以内であれば正解という判定基準を定めた。
【0069】
[B2−4.実験結果]
図12(A)のテンプレートの画像である矩形領域ARのヒストグラム(図12(B)
)と図12(C)の顔検出処理で特定された矩形領域AR′のヒストグラム(図12(D
))とを比較すると、図12に示すように、3つの成分、つまりY成分、Cr成分、Cb成分のヒストグラム形状が類似していることがわかる。このことからも本実施形態で提案するGAがヒストグラムを評価してマッチングを行えることが判明した。
【0070】
また、同じ乱数種を使用して、14パターンすべてを用いて実験を実施した。その結果、70%以上の精度が得られた上位6パターンに対して、乱数種をさらに4種類追加して実験を実施した。その結果を下記の表2に示す。
【表2】
【0071】
上位の4パターンはCr,YCr,CrCb,YCrCbの成分、或いは組み合わせであり、これらは14パターンの中でCr成分が含まれているパターンである。このことから、Cr成分が重要であることがわかる。もっとも精度が高いのは、Cr成分のみを使用した結果であった。
Cr成分を使用した結果画像を図13(a)〜(i)に示す。真横に向いた場合など大きな顔向きの変化にロバストであることが確認できた。
【0072】
[C.第2実施形態]
図14は本発明の第2実施形態に係る顔検出装置1Aを示すブロック図である。顔検出装置1Aは、前述の第1実施形態に係る顔検出装置1の構成に加えて、図14に示すように、参照情報更新部7を備えている。前述の第1実施形態の構成と同じ構成には同じ符号を付してその詳細な説明を省略する。
【0073】
本実施形態では、最初のフレーム画像から最終フレーム画像までの追跡の処理で同じヒストグラムテンプレートTPを使用するのではなく、場合により、ヒストグラムテンプレートTPを途中で別のヒストグラムテンプレートTPに更新、つまり換えることを特徴としている。
【0074】
このため、本実施形態では、参照情報更新部7を備えている。
参照情報更新部7は、撮像対象である被験者が数フレーム画像に亘って同じ姿勢であることを確認できた場合に、その姿勢で抽出できるヒストグラムを以後の追跡の際に利用するヒストグラムテンプレートTPに設定する。
参照情報更新部7は、10フレームに亘ってヒストグラムが同じである場合に、ヒストグラムテンプレートTPを交換する。ヒストグラムが同じとは、一致する場合のほか後述するようにその差が小さい場合が該当する。
【0075】
参照情報更新部7は、前述の式(9)の距離dに基づいて、前後のフレーム画像のヒストグラムの類似性を評価する。具体的には、前後のフレーム画像のヒストグラム同士の距離dを算出し、さらに次のフレーム画像とその次のフレーム画像との距離dが前のフレーム画像同士の距離dと同じであるか判断する。この同一性の判断は、本実施形態では、例えば誤差±0.05の範囲を同じと評価する。誤差の範囲はこの数値に限定されるものではなく、例えば有効数字を設定して数値の完全一致を同じと評価してもよい。参照情報更新部7が、10フレームに亘ってヒストグラムが同じであると判断した場合、10フレーム前のフレーム画像に関するGA処理の最終世代で選ばれた個体によって特定される矩形領域AR′のヒストグラムをヒストグラムテンプレートTPとして以後取り扱う。
【0076】
参照情報更新部7がヒストグラムテンプレートTPを交換した後、検出処理部6は新たに設定されたヒストグラムテンプレートTPに基づいてヒストグラムのマッチング処理を行う。
【0077】
以上の顔検出装置1Aは例えばコンピュータから構成される。このコンピュータは、前もってインストールされたソフトウェアとしての顔追跡プログラムを実行することで、上記の手法、即ち顔検出処理を実現する。具体的には、コンピュータが顔検出処理プログラムを実行することで、コンピュータが前述の参照情報作成部4、検出処理部6、特に前処理部61、遺伝操作部62、座標変換部63、適応度計算部64、判断部65、参照情報更新部7として機能する。
【0078】
このように本発明の第2実施形態に係る顔検出処理装置1Aによれば、参照情報更新部7によってヒストグラムテンプレート7を使用環境に応じたテンプレートに交換することができる。例えば、撮像対象の被験者のまわりが暗く或いは明るくなった場合、その明暗度に応じて被験者の顔領域のヒストグラムが変わるので、参照情報としてのヒストグラムパターンTPを使用環境に応じたものに調整することができる。これにより、顔の追跡精度を向上することができる。
【0079】
[D.その他の実施形態]
以上詳述したが、本発明は発明の趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
上記実施形態では、参照情報更新部がHaar−like特徴を用いたAdaBoost法に基づくカスケード型識別器を利用して、自動で顔領域ARのヒストグラムを作成し、このヒストグラムをテンプレートTPとして利用しているが、テンプレートのヒストグラムは必ずしも、被験者の正面顔に限定されるものではない。例えば、初期設定時のテンプレートTPを横顔
、上向きの顔、下向きの顔などから自動で作成してもよいことは勿論である。この場合、それらの顔の向き、つまり被験者の姿勢に応じて、ヒストグラムを作成するよう、参照情報更新部を構成するカスケード型識別器を構築する。
染色体を構成する上記パラメータの範囲(1)〜(3)を規定する数値は例示である。
上記説明では、検出処理装置が計算結果として顔領域を枠でディスプレイ上に表示するが、このようなディスプレイ上の表示を省略してもよい。
また、染色体を構成する遺伝情報としてのパラメータは上記に限定されるものではなく
、それらの一部を省略し、さらに、三次元的な回転と言った情報を遺伝情報として活用してもよい。
また遺伝的操作において、選択はルーレット選択に限らず、ランキング選択、トーナメント選択を利用し、交叉方法は一様交叉に限らず、一点交叉、二点交叉、多点交叉を利用してもよい。
染色体を表すビット数は40ビットに限定されるものではない。
上記実施形態では、ヒストグラムとして3要素、つまりY成分、Cr成分、Cb成分を活用したが、Cr成分だけのヒストグラムを利用して、顔追跡におけるヒストグラムのマッチングを行ってもよい。
第2実施形態の参照情報更新部でのヒスグラムの同一性の判断において、ヒストグラムテンプレートTPの交換条件として、同じヒストグラムが連続するフレーム数は10フレームに限定されるものではない。また、同一性の判断は、時間で処理してもよい。例えば数秒間ヒストグラムが同じ場合に交換してもよい。
前述の第1実施形態及び第2実施形態では、追跡対象を撮像対象である被験者の顔と特定したが、撮像対象は人だけでなく、動物などの生物の他、土地に定着した看板や標識などの不動産、その物自体可搬自在な車やテレビなどの動産であってもよく、何れも物としての正面や側面が存在する物を対象とすることができる。このように観察対象が変われば、画像特徴量としての色成分が変わるため、物の正面の色に応じて表色系を変える。
前述の実施形態では、終了条件を満たすまで遺伝的操作を繰り返し行う構成を説明したが、終了条件として、ある個体の適応度が所定の値を超えた場合を条件としてもよい。例えば、最大世代交代数Gに至る前の第5世代で、個体群の中に適応度がある閾値を超える個体がある場合、世代交代、つまり以後の遺伝的操作を行わず、第5世代の個体の内、適応度が最も高い個体の遺伝情報を解として取り扱い、第5世代のN個の個体を次フレーム画像の第1世代の個体として取り扱う。
本発明は動画像から顔などの物体の正面領域を抽出する処理を行うが、動画像を構成するフレームを順次、処理する場合に限らず、例えば数フレーム置きに検出処理を行うように構成してもよい。
【符号の説明】
【0080】
1,1A 顔検出装置
2 第1画像取得部
3 記憶部
4 参照情報作成部
5 第2画像取得部
6 検出処理部
7 参照情報更新部
61 前処理部
62 遺伝操作部
63 座標変換部
64 適応度計算部
65 判断部
AR,AR′ 顔領域
CH 染色体
cx 中心座標のX成分
cy 中心座標のY税分
x軸方向の枠の拡大縮小倍率
y軸方向の枠の拡大縮小倍率
Angle 矩形を画する枠の回転角度
F フレーム
P 変換前の座標
P 変換後の座標
TP ヒストグラムテンプレート
VS ビデオシーケンス
図1
図4
図5
図6
図7
図9
図14
図2
図3
図8
図10
図11
図12
図13