【文献】
原 章,GAを用いた画像中の任意方向の顔領域の抽出,映像情報メディア学会技術報告 Vol.21 No.48,日本,社団法人映像情報メディア学会,1997年 9月18日,第21巻,p.37-44
(58)【調査した分野】(Int.Cl.,DB名)
前記検出処理部は、次のフレーム画像について前記遺伝的アルゴリズムの処理を開始する際、前のフレーム画像についての前記遺伝的アルゴリズムの処理で得られたN個の個体の染色体を利用することを特徴とする、請求項1に記載の物体検出プログラム。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施形態を説明する。
[A.第1実施形態]
図1は本発明の第1実施形態に係る顔検出装置1のブロック図である。顔検出装置1は
、第1画像取得部2と、記憶部3と、参照情報作成部4と、第2画像取得部5と、検出処理部6と、を備えている。
【0019】
第1画像取得部2は、顔追跡に必要な画像情報を取得する。具体的には、テンプレート画像取得部2は、CCDカメラやCMOSイメージセンサなどの撮像装置として構成されており、追跡対象の顔の静止画像を、例えば1枚取得する。第1画像取得部2で撮影された画像は、後述するヒストグラムテンプレートTPを作成するための参照用画像として記憶部3に保存される。
【0020】
参照情報作成部4は、記憶部3から参照用画像を読み出し、この参照用画像を処理して正面顔を検出する。この場合の顔検出の手法では、Haar−like特徴を用いたAdaBoost法に基づくカスケード型識別器を利用する。正面顔として画像から矩形の領域を抽出した後、さらにそれより狭い
図2(A)に示す矩形の顔領域(以下、矩形領域と呼ぶ場合がある。
)ARを抽出する。
【0021】
参照情報作成部4は、このように得られた顔領域ARからヒストグラムを取得する。本実施形態では、使用する画像データはRGB表色系ではなく、YCrCb表色系を利用する。ここで、Yは輝度、Crは赤色の色差、Cbは青色の色差を表している。YCrCb表色系はRGB表色系と異なり、輝度と色が分離している。従って、輝度の変化に対応することができることからYCrCb表色系を利用する。
【0022】
図2(B)は顔領域ARに関するY成分のヒストグラム、
図2(C)は顔領域ARに関するCb成分のヒストグラム、
図2(D)は顔領域ARに関するCr成分のヒストグラムを表している。これらのヒストグラムを、以下、ヒストグラムテンプレートTPと呼ぶ。
【0023】
第2画像取得部5は追跡対象の画像をリアルタイムに撮像する。具体的には、第2画像取得部5は、CCDカメラやCMOSイメージセンサなどの撮像装置として構成されており、追跡対象の顔の動画像、即ち複数のフレーム画像を取得する。
図3に示すように、複数のフレーム画像Fからなる動画像情報を以下、ビデオシーケンスVSと呼ぶ。なお、本実施形態は、一つの撮像装置が第2画像取得部5と第1画像取得部2とを兼ねて利用に供されるように構成されてもよい。
【0024】
検出処理部6は、第2画像取得部5で作成されたビデオシーケンスVSを構成する各フレーム画像F、つまり撮像対象が静止した状態のターゲット画像の中で、追跡対象の顔の位置を特定する。具体的には、ターゲット画像の中の顔領域(
図10のAR′参照)の位置を特定する。なお、ターゲット画像の中の顔領域(以下、矩形領域と呼ぶ場合がある。
)については、ヒストグラムテンプレートTPの作成時に利用する矩形領域AR(
図2(A)参照)と区別するため、異なる符合AR′を付して、以下説明する。
【0025】
検出処理部6は、第2画像取得部5で作成されたフレーム画像Fと記憶部3に保存されているヒストグラムテンプレートTPとに基づいて、顔の検出処理を行う。詳細は後述するが、検出処理部6は遺伝的アルゴリズム(以下、GAと呼ぶ場合がある。)に基づいて検出処理を行う。
【0026】
本実施形態の検出処理では、ターゲット画像上の顔の領域、つまり画像中の追跡すべき顔領域AR′をパラメータで表し、このパラメータで特定される顔領域AR′とのテンプレートマッチングを最適化問題として解決する。具体的には、パラメータで特定される顔領域AR′のヒストグラムとヒストグラムテンプレートTPとのマッチングを評価する。
【0027】
パラメータとして、探索目標である矩形領域AR′の中心を表す座標、大きさ、回転角度を利用する。検出処理では、当初の矩形領域ARを、或いはこれに基づいた矩形領域AR′を、パラメータを用いてターゲット画像上で幾何学変換し、新たに矩形領域AR′を特定する。そして、変換結果の矩形領域AR′上の画素のヒストグラムと、ヒストグラムテンプレートTPとのマッチングの最適化の解決手法として、本実施形態では遺伝的アルゴリズムを利用する。
【0028】
遺伝的アルゴリズムにおける各個体の染色体構造として、本実施形態の染色体CHは、
図4に示すように、当初の矩形領域ARの或いは変換前の矩形領域AR′の中心座標(c
x,c
y)と、矩形を画する枠のx軸とy軸方向の拡大縮小倍率m
x,m
yと、矩形を画する枠の回転角度angleの情報を持つとする。これらは最終的に求める解であり、探索対象のターゲット画像上で、顔領域として特定する矩形領域AR′の位置、サイズ、回転角度を表すパラメータである。これらのパラメータの起こり得る範囲は、本実施形態では以下の(1)〜(3)ように選定されている。
【数1】
拡大縮小倍率はテンプレートの大きさから考慮して決定し、回転角度については日常生活で顔の曲がり得る角度を考慮して決定した。本実施形態で各パラメータc
x,c
y,m
x,m
y,angleをそれぞれ8bitで表し、一つの個体の染色体CHは合計の40bitで表される。
【0029】
検出処理部6は、これらのパラメータc
x,c
y,m
x,m
y,angleをそれぞれ遺伝情報(以下、遺伝子と呼ぶ場合がある。)として取り扱う。特に最適化問題を解くために、検出処理部6はこれらのパラメータを遺伝情報として引き継いだ次世代の個体を遺伝的アルゴリズムによって適宜生成する。そして、検出処理部6は、生成された次世代の個体で特定される、つまり個体の染色体CHを構成する各遺伝子(パラメータ)c
x,c
y,m
x,m
y,angleで特定される矩形領域AR′のヒストグラムを、ヒストグラムテンプレートTPと比較して、解としての各パラメータc
x,c
y,m
x,m
y,angleの適性を評価する。
【0030】
このため
図5に示すように、検出処理部6は、前処理部61と、遺伝操作部62と、座標変換部63と、適応度計算部64と、判断部65と、を備えている。
【0031】
前処理部61は、N個の個体、つまりN個の染色体CH(
図4参照)を生成する。ここで、各染色体CHを構成する各パラメータc
x,c
y,m
x,m
y,angleの数値は、上記(1)〜(3)の範囲内でランダムに選定される。本実施形態では、個体数Nを10に設定するが、その数に限定されるものではない。
【0032】
遺伝操作部62は、N個の個体の内、1個を選択した後に操作して、あるいは選択した2個の個体を操作して、新たな個体をN個生成する。具体的には、遺伝操作部62は、個体に対する遺伝的操作として、選択(淘汰、再生)、交叉、突然変異の3つの操作を行う。
【0033】
ここで、交叉とは、個体の染色体(
図4参照)を構成する各遺伝情報、つまりパラメータc
x,c
y,m
x,m
y,angleを入れ替える操作であり、具体的には選択された2つの親個体の遺伝情報を相互に入れ替える操作である。ある。突然変異とは、染色体を構成する遺伝情報の一部、つまりパラメータc
x,c
y,m
x,m
y,angleの一部を変える操作であり、具体的には別の数値に変える操作である。突然変異によってパラメータを特定する数値はランダムに選定される。
【0034】
本実施形態では、交叉率は0.7、突然変異率は0.05に選定されているが、それらの数値に限定されるものではない。また、交叉方法は一様交叉とし、選択方法はルーレット選択とし、エリート保存戦略を基調として、遺伝的アルゴリズムを設定しているが、交叉方法や選択方法等はこれに限定されるものではい。なお、本実施形態では、エリート保存戦略として、後述する適応度が最も高い一つの個体(以下、エリート個体と呼ぶ。)を次世代に残すこととする。
【0035】
遺伝情報の操作は、第2画像取得部5で撮像されたターゲット画像、つまり一つのフレーム画像F当たり40回を限度とするが、世代交代数Gは40回に限定されるものではない。
【0036】
ここで、遺伝操作部62によって生成された個体、つまり当該個体の染色体CHを構成するパラメータc
x,c
y,m
x,m
y,angleに基づいて特定される矩形領域AR′の座標は、以下の座標変換として表される。ここで、全ての幾何学変換を変換行列の複雑化を軽減するため、同次座標を用いる。点Pを変換前の画像上の顔領域の座標、点P
*を生成された個体によって特定される変換後の点Pの座標とすると、これらの点を同次座標で表すと、以下の式(4)、(5)で表される。
【数2】
【数3】
【0037】
さらに、点P
*は以下の式(6)よって表される。
【数4】
【0038】
座標変換部63は、変換前の座標点Pを式(6)に基づいて変換して、ターゲット画像中で探索目標の矩形領域AR′の位置を特定する。なお、点Pは、初めの1フレーム目の場合には
図1の第1画像取得部2で取得した参照用画像から抽出した矩形領域AR(
図2の(A)参照)の座標であり、次フレーム目からは前のフレーム画像で特定される矩形領域AR′の座標である。
【0039】
適応度計算部64は、座標変換部63によって場所を移動させられた矩形領域AR′内にある画素によって特定されるヒストグラムと、ヒストグラムテンプレートTPと、のマ
ッチング処理を行う。具体的には、ターゲット画像上の矩形領域AR′のヒストグラムを算出して、矩形領域AR′のヒストグラムとテンプレートTPのヒストグラムとの適応度
、つまり両者の類似の度合いを判断する。なお、画像の倍率を変えた場合に矩形領域AR
′がヒストグラムテンプレートTPの作成の基になった顔領域ARのサイズと異なることになるが、矩形領域AR′のヒストグラムを作成する際に利用する矩形領域AR′の画素数は、ヒストグラムテンプレートTPの作成の基になった顔領域ARに含まれる画素の数に合わせる。例えば、顔領域ARが10×10pixelであり、矩形領域AR′が20×2
0pixelである場合、矩形領域AR′のヒストグラムは、400個の画素を全て利用するのではなく、例えば1個置きに配置される画素を利用して顔領域ARの画素数と同じ10
0個の画素を利用して作成される。
矩形領域AR′のヒストグラムとテンプレートTPのヒストグラムとの適応度fitness
は次に示す適応度関数(7)、(8)を用いて表される。
【数5】
【数6】
【0040】
ρ
iは表色系の各成分(i=1がY成分、i=2がCb成分、i=3がCr成分を表す。)におけるヒストグラムの類似度、mはヒストグラムのビンの数、pはヒストグラムテンプレートTPのヒストグラム、qはターゲット画像(観察対象のフレーム画像)上で矩形領域AR′のヒストグラム、NはヒストグラムテンプレートTP作成の元になった矩形領域ARの画素数を表している。適応度が大きい程、テンプレートTPのヒストグラムに類似しているということとなる。なお、(7)式のヒストグラムの類似度の計算ではBhattacharyya係数を用いている。
【0041】
判断部65は、N個の個体のそれぞれについて適応度計算部64で算出された結果から
、どの個体が最も追跡対象の顔領域を特定しているか判断する。具体的には、判断部65は、適応度が最も大きい個体がどれかを判断する。エリート保存戦略に基づいて適応度が最も大きい個体は次世代にそのままの遺伝情報で継承される。また、世代交代数Gが最大限、例えば本実施形態の40回目の場合、適応度が最も大きい個体が追跡対象の顔領域を特定していると判断する。このように最終的に選ばれた個体の染色体CHを構成するパラメータc
x,c
y,m
x,m
y,angleに基づいて、目標の顔領域AR′を特定する。
【0042】
以上の顔検出装置1は例えばコンピュータから構成される。このコンピュータは、前もってインストールされたソフトウェアとしての顔追跡プログラムを実行することで、上記の手法、即ち顔の検出処理を実現する。具体的には、コンピュータが検出処理プログラムを実行することで、コンピュータが前述の参照情報作成部4、検出処理部6、特に前処理部61、遺伝操作部62、座標変換部63、適応度計算部64、判断部65として機能する。
【0043】
なお、複数のコンピュータをLANやインターネット、公衆網等を介して相互に接続して、参照情報作成部4、検出処理部6、特に前処理部61、遺伝操作部62、座標変換部63、適応度計算部64、判断部65との動作を複数のパーソナルコンピュータによって分散処理させてもよい。コンピュータは、従来公知の構成のものを使用することができ、RAM,ROM,ハードディスクなどの記憶装置と、キーボード,ポインティング・デバイスなどの操作装置と、操作装置等からの指示により記憶装置に格納されたデータやソフトウェアを処理する中央処理装置(CPU)と、処理結果等を表示するディスプレイなどを備えている。このコンピュータは汎用の装置でも、専用の装置として構成されたものであってもよい。
【0044】
次に、本実施形態に係る顔検出装置1の動作について説明する。
顔検出装置1が検出処理を行うための事前処理として、
図6に示すステップS1で参照情報としてのヒストグラムテンプレートTPを取得する。この処理は、具体的には
図7に示すように、ステップS11で第1画像取得部2が顔追跡に必要な入力画像F1(
図8(
A)参照)を取得する。ステップS12では、参照情報作成部4がこの入力画像F1、つまり参照用画像を処理して、つまりHaar−like特徴を用いたAdaBoost法に基づいて正面顔R(
図8(B)参照)を検出する。さらに、参照情報作成部4は、ステップS13で正面顔Rとしての矩形の領域より狭い矩形の顔領域AR(
図8(C)参照)をAdaBoost法によ
って抽出し、当該顔領域ARのヒストグラム(
図8(D)参照)を計算して、ヒストグラムテンプレートTPを作成する(ステップS14)。
【0045】
上記の事前処理が終了した後、顔検出装置1は検出処理を実行する。先ず、
図6に示すように、ステップS2で前処理部61が遺伝的アルゴリズムの初期化を行う。この初期化設定は、顔検出装置1が検出処理を開始する際にだけ行われる。この初期化設定では、矩形領域AR′を特定する各パラメータc
x,c
y,m
x,m
y,angleを遺伝情報とするN個(例えばN=10である。)の個体を生成する。各個体の染色体を構成するそれぞれのパラメータは上記の(1)〜(3)の範囲内でランダムに数値が選択される。
【0046】
次に、ステップ3で第2画像取得部5が探索対象の画像情報F(
図3参照)を取得して
、ステップS4で検出処理部6がGAによるヒストグラムテンプレートTPのマッチングを行う。
【0047】
GAによるヒストグラムテンプレートTPのマッチングでは、先ず
図9に示すように、ステップS41で、前処理部61が生成したN個の各個体を評価する。具体的には、前処理部61が生成した個体の染色体CHの各遺伝情報、つまり各パラメータc
x,c
y,m
x,m
y,angleで特定される矩形領域AR′内のヒストグラムを算出し、このヒストグラムとヒストグラムテンプレートTPとのマッチング度合いを算出する。このとき、式(
7)及び(8)に示す適応度関数に基づいて、適応度を算出する。
【0048】
次に、ステップS42で、検出処理部6の判断部65が、各個体が終了条件を満たしているか、判断する。具体的には、個体に対する遺伝的操作、つまり世代交代の回数が最大の回数Gに至っているか判断する。最大の世代交代数Gに至っている場合、最終世代のN個の個体の内で、最も適応度が大きい個体を選択し、その個体の遺伝情報、つまりパラメータc
x,c
y,m
x,m
y,angleを求める解として取り扱う。
【0049】
このような終了条件を満たさない場合、ステップS43で遺伝操作部62が各個体に基づいて遺伝的操作、言い換えればパラメータの交換を行う。遺伝操作部62は、N個の個体に対して、選択(淘汰、再生)、交差、突然変異をある確率で生じさせて新たな個体をN個生成する。また、エリート保存戦略に基づいて、エリート個体は次世代にそのまま残す。
【0050】
このようにして、遺伝操作部62が新たにN個の個体を生成する。そして、新たに生成した個体が終了条件を満たすか判断する(ステップS43からステップS42へ)。その際、新たな個体に関しても、矩形領域AR′内のヒストグラムを算出し、このヒストグラムとヒストグラムテンプレートTPとのマッチング度合いを、式(7)及び(8)に示す適応度関数に基づいて算出する。
【0051】
ステップS42で終了条件が満たされるまで、ステップS43の遺伝的操作と適応度の評価とを繰り返す。なお、本実施形態では、画像情報としての1フレームあたりの世代交代数Gを40回に設定している。
【0052】
このように遺伝的操作を行った世代交代を繰り返して終了条件を満たした場合、最終世代の個体群の内で、適応度が最も大きい個体のパラメータc
x,c
y,m
x,m
y,angleを求める解として取り扱い、当該パラメータで特定される矩形領域AR′をディスプレイ上に、例えば
図10に示すように表示する。
【0053】
なお、最終世代のN個の個体の各情報は、次のフレーム画像Fの処理開始時にそのまま利用されるよう、記憶部3に保存される。
【0054】
このように、1フレームの画像情報について顔追跡の処理が完了、つまり顔領域と推定する領域を矩形枠で囲うことができたら、動画像として記憶部3に格納されているビデオシーケンスから次のフレーム画像F(
図3参照)を画像情報として読み出し、この次フレ
ーム画像Fについて検出処理を行う(
図6のステップS4からステップS3へ)。次フレ
ーム画像Fについて検出処理を開始する際、個体の初期化を行わず、つまりN個の個体を改めて作り直すことを行わずに、前フレーム画像の検出処理で最終世代として作成したN個の個体を、次フレーム画像における第1世代の個体群として利用する。
【0055】
このように本実施形態に係る顔検出装置1によれば、ヒストグラムテンプレートTPを用いたマッチングによって顔を追跡することができる。特に、顔検出装置1では、顔の姿勢によらず、顔のヒストグラムが一定であることから、実時間処理で顔領域AR′の追跡を行うことが可能である。さらに、個体の初期化は初期フレームの1度のみ実施すると共に、前フレームにおいて進化した個体、適応度を確定する遺伝情報である各パラメータを次フレームへ継承することによって、個体数および世代交代数を減らすことができ、計算コスト削減と精度向上が可能となる。
【0056】
[B.実験例]
本発明の実施形態について、ヒストグラムと各表色系の有効性について以下説明する。
【0057】
B1:実験1.ヒストグラムの有効性
[B1−1.実験内容]
顔検出処理が抽出したターゲット画像の矩形領域AR′のヒストグラムと、ヒストグラムテンプレートTPとの類似性を確認し、その類似度合いと顔追跡との関係を調査する。
【0058】
[B1−2.システムの設定]
実験で使用するGAのパラメータを以下のように設定した。個体数は10個体,交叉率は0.7で、交叉方法は一様交叉、突然変異率は0.05、選択方法はルーレット選択とし、エリート保存戦略を用いた。また、1フレーム画像における世代交代回数を40回とした。実験には3.2GHzのCPUを搭載した計算機を使用した。
【0059】
[B1−3.評価方法]
本システムの顔検出装置1が取得した1フレームの矩形領域AR′に関して、当該矩形領域AR′のヒストグラムとテンプレートヒストグラムTPとの類似性を確認し、ヒストグラムのパターンが似通っているか評価する。また、ヒストグラムのマッチング度合いとシステムが特定した顔領域の位置とヒストグラムとの関係を、システムが作成した画像から評価する。
【0060】
[B1−4.実験結果]
図11(A)はヒストグラムテンプレートTPを示す。
図11(B)〜(K)はシステムがフレームを処理した結果、つまりフレーム画像に関する検出処理で最終世代として残った10個体(第1の個体〜第10の個体)を示す結果であり、図の右側領域がシステムで特定された矩形領域AR′を示し、左側がその矩形領域AR′のヒストグラムを示す。
【0061】
図11(A)のヒストグラムテンプレートTPと
図11(C)のヒストグラムとを比較すると、ほぼヒストグラムのパターンが類似していることが確認できる。
図11(C)の右側領域に示されるように、ほぼ正確に被験者の顔の領域に矩形領域AR′が選択されている。
一方、
図11(B)の第1の個体のヒストグラムを
図11(A)のヒストグラムテンプレートTPと比較すると、両者のヒストグラムのパターンの形状は異なり、類似した形状部位が見当たらない。このように形状が相違する場合、
図11(B)の右側領域に示すように、被験者の顔の領域と矩形領域AR′とがずれている。さらに、テンプレートTPのパターンと大きく形状が異なるヒストグラムを有する第8の個体では、
図11(G)に示すように、システムが設定した矩形領域AR′は被験者の顔から大きくずれた位置にある
。
ここで、下記の表1は、システムが取得した各個体CHのヒストグラムとヒストグラムテンプレートTPとの類似度合を評価する距離を表している。
【表1】
この距離は、二つのヒストグラムの類似性を距離dとして表す以下の式(9)から算出した。距離が短いほど類似し、距離が長いほど非類似であることを表す。
【数7】
ここで、H
1は個体のヒストグラム、H
2はテンプレートTPのヒストグラム、Iはビン数である。
表1から、ヒストグラムのパターンが殆ど似ていない個体番号6の個体(
図11(G)参照)については、距離dが一番長いことが確認できた。一方、ヒストグラムのパターンがほぼ似通っている個体番号2の個体(
図11(C)参照)については、距離が一番短いことが確認できた。
以上のことから、ヒストグラムテンプレートTPのマッチングによる顔認識が有効であること、つまりヒストグラムテンプレートTPが有効であることが確認できた。
【0062】
B2: 各表色系の有効性
[B2−1.実験内容]
ターゲット画像は、Webカメラを使用して被験者が当該Webカメラに対して顔を上下左右に振ることで得られた動画像シーケンスとする。ターゲット画像のサイズは320×240pixelであり、総フレーム数は180である。また、ヒストグラムテンプレートTPの取得に使用した正面顔は同一被験者の画像として、16×21pixelの画像を利用した。
【0063】
本実施形態では、ヒストグラムを使用するため、表色系成分の組み合わせによって結果が大きく左右されることが考えられる。したがってYCbCr,YCr,YCb,CbCr,Y,Cr,Cb,HSV,HS,HV,SV,H,S,Vの表色系成分の組み合わせ14パターンの実験によって各表色系成分に関する検出の有効性を確認する。
【0064】
評価基準は、あらかじめ目視によって、ターゲット画像上で顔の中心座標を正解座標として決定する。実験結果である検出された矩形領域AR′の中心座標と正解座標の距離を用いて正誤判定を行う。
【0065】
[B2−2.システムの設定]
実験で使用するGAのパラメータを以下のように設定した。個体数は10個体,交叉率は0.7で、交叉方法は一様交叉、突然変異率は0.05、選択方法はルーレット選択とし、エリート保存戦略を用いた。また、1フレーム画像における世代交代回数を40回とした。実験には3.2GHzのCPUを搭載した計算機を使用した。
【0066】
[B2−3.評価方法]
事前にターゲット画像に対して顔の中心と判断できる座標、つまり正解座標を目視で決定する。そして、実験結果で検出された矩形領域AR′の中心座標、つまり結果座標を正解座標と比較して正誤判定を行う。
【0067】
正解座標と結果座標の距離は,顔の大きさに影響されるため,単純な距離ではなくヒストグラムテンプレートTP作成の元になった顔領域ARの画像のサイズに応じて正規化を行った。計算式は以下の式(10)を利用する。
【数8】
【0068】
ここで、Aは正解座標、Rは結果座標、width,heightはヒストグラムテンプレートTP作成の元になった顔領域ARの画像の幅,高さを表している。実験ではターゲット画像の顔領域の高さ(あごから眉毛までの距離)がおよそ50pixelであったことに加えて、肌色である首元まで検出した場合に検出失敗とするために結果座標と正解座標との距離が10pixel以内であれば正解という判定基準を定めた。
【0069】
[B2−4.実験結果]
図12(A)のテンプレートの画像である矩形領域ARのヒストグラム(
図12(B)
)と
図12(C)の顔検出処理で特定された矩形領域AR′のヒストグラム(
図12(D
))とを比較すると、
図12に示すように、3つの成分、つまりY成分、Cr成分、Cb成分のヒストグラム形状が類似していることがわかる。このことからも本実施形態で提案するGAがヒストグラムを評価してマッチングを行えることが判明した。
【0070】
また、同じ乱数種を使用して、14パターンすべてを用いて実験を実施した。その結果、70%以上の精度が得られた上位6パターンに対して、乱数種をさらに4種類追加して実験を実施した。その結果を下記の表2に示す。
【表2】
【0071】
上位の4パターンはCr,YCr,CrCb,YCrCbの成分、或いは組み合わせであり、これらは14パターンの中でCr成分が含まれているパターンである。このことから、Cr成分が重要であることがわかる。もっとも精度が高いのは、Cr成分のみを使用した結果であった。
Cr成分を使用した結果画像を
図13(a)〜(i)に示す。真横に向いた場合など大きな顔向きの変化にロバストであることが確認できた。
【0072】
[C.第2実施形態]
図14は本発明の第2実施形態に係る顔検出装置1Aを示すブロック図である。顔検出装置1Aは、前述の第1実施形態に係る顔検出装置1の構成に加えて、
図14に示すように、参照情報更新部7を備えている。前述の第1実施形態の構成と同じ構成には同じ符号を付してその詳細な説明を省略する。
【0073】
本実施形態では、最初のフレーム画像から最終フレーム画像までの追跡の処理で同じヒストグラムテンプレートTPを使用するのではなく、場合により、ヒストグラムテンプレートTPを途中で別のヒストグラムテンプレートTPに更新、つまり換えることを特徴としている。
【0074】
このため、本実施形態では、参照情報更新部7を備えている。
参照情報更新部7は、撮像対象である被験者が数フレーム画像に亘って同じ姿勢であることを確認できた場合に、その姿勢で抽出できるヒストグラムを以後の追跡の際に利用するヒストグラムテンプレートTPに設定する。
参照情報更新部7は、10フレームに亘ってヒストグラムが同じである場合に、ヒストグラムテンプレートTPを交換する。ヒストグラムが同じとは、一致する場合のほか後述するようにその差が小さい場合が該当する。
【0075】
参照情報更新部7は、前述の式(9)の距離dに基づいて、前後のフレーム画像のヒストグラムの類似性を評価する。具体的には、前後のフレーム画像のヒストグラム同士の距離dを算出し、さらに次のフレーム画像とその次のフレーム画像との距離dが前のフレーム画像同士の距離dと同じであるか判断する。この同一性の判断は、本実施形態では、例えば誤差±0.05の範囲を同じと評価する。誤差の範囲はこの数値に限定されるものではなく、例えば有効数字を設定して数値の完全一致を同じと評価してもよい。参照情報更新部7が、10フレームに亘ってヒストグラムが同じであると判断した場合、10フレーム前のフレーム画像に関するGA処理の最終世代で選ばれた個体によって特定される矩形領域AR′のヒストグラムをヒストグラムテンプレートTPとして以後取り扱う。
【0076】
参照情報更新部7がヒストグラムテンプレートTPを交換した後、検出処理部6は新たに設定されたヒストグラムテンプレートTPに基づいてヒストグラムのマッチング処理を行う。
【0077】
以上の顔検出装置1Aは例えばコンピュータから構成される。このコンピュータは、前もってインストールされたソフトウェアとしての顔追跡プログラムを実行することで、上記の手法、即ち顔検出処理を実現する。具体的には、コンピュータが顔検出処理プログラムを実行することで、コンピュータが前述の参照情報作成部4、検出処理部6、特に前処理部61、遺伝操作部62、座標変換部63、適応度計算部64、判断部65、参照情報更新部7として機能する。
【0078】
このように本発明の第2実施形態に係る顔検出処理装置1Aによれば、参照情報更新部7によってヒストグラムテンプレート7を使用環境に応じたテンプレートに交換することができる。例えば、撮像対象の被験者のまわりが暗く或いは明るくなった場合、その明暗度に応じて被験者の顔領域のヒストグラムが変わるので、参照情報としてのヒストグラムパターンTPを使用環境に応じたものに調整することができる。これにより、顔の追跡精度を向上することができる。
【0079】
[D.その他の実施形態]
以上詳述したが、本発明は発明の趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
上記実施形態では、参照情報更新部がHaar−like特徴を用いたAdaBoost法に基づくカスケード型識別器を利用して、自動で顔領域ARのヒストグラムを作成し、このヒストグラムをテンプレートTPとして利用しているが、テンプレートのヒストグラムは必ずしも、被験者の正面顔に限定されるものではない。例えば、初期設定時のテンプレートTPを横顔
、上向きの顔、下向きの顔などから自動で作成してもよいことは勿論である。この場合、それらの顔の向き、つまり被験者の姿勢に応じて、ヒストグラムを作成するよう、参照情報更新部を構成するカスケード型識別器を構築する。
染色体を構成する上記パラメータの範囲(1)〜(3)を規定する数値は例示である。
上記説明では、検出処理装置が計算結果として顔領域を枠でディスプレイ上に表示するが、このようなディスプレイ上の表示を省略してもよい。
また、染色体を構成する遺伝情報としてのパラメータは上記に限定されるものではなく
、それらの一部を省略し、さらに、三次元的な回転と言った情報を遺伝情報として活用してもよい。
また遺伝的操作において、選択はルーレット選択に限らず、ランキング選択、トーナメント選択を利用し、交叉方法は一様交叉に限らず、一点交叉、二点交叉、多点交叉を利用してもよい。
染色体を表すビット数は40ビットに限定されるものではない。
上記実施形態では、ヒストグラムとして3要素、つまりY成分、Cr成分、Cb成分を活用したが、Cr成分だけのヒストグラムを利用して、顔追跡におけるヒストグラムのマッチングを行ってもよい。
第2実施形態の参照情報更新部でのヒスグラムの同一性の判断において、ヒストグラムテンプレートTPの交換条件として、同じヒストグラムが連続するフレーム数は10フレームに限定されるものではない。また、同一性の判断は、時間で処理してもよい。例えば数秒間ヒストグラムが同じ場合に交換してもよい。
前述の第1実施形態及び第2実施形態では、追跡対象を撮像対象である被験者の顔と特定したが、撮像対象は人だけでなく、動物などの生物の他、土地に定着した看板や標識などの不動産、その物自体可搬自在な車やテレビなどの動産であってもよく、何れも物としての正面や側面が存在する物を対象とすることができる。このように観察対象が変われば、画像特徴量としての色成分が変わるため、物の正面の色に応じて表色系を変える。
前述の実施形態では、終了条件を満たすまで遺伝的操作を繰り返し行う構成を説明したが、終了条件として、ある個体の適応度が所定の値を超えた場合を条件としてもよい。例えば、最大世代交代数Gに至る前の第5世代で、個体群の中に適応度がある閾値を超える個体がある場合、世代交代、つまり以後の遺伝的操作を行わず、第5世代の個体の内、適応度が最も高い個体の遺伝情報を解として取り扱い、第5世代のN個の個体を次フレーム画像の第1世代の個体として取り扱う。
本発明は動画像から顔などの物体の正面領域を抽出する処理を行うが、動画像を構成するフレームを順次、処理する場合に限らず、例えば数フレーム置きに検出処理を行うように構成してもよい。