(58)【調査した分野】(Int.Cl.,DB名)
前記カメラパラメータは、屋内空間のコーナーを原点とした3次元世界座標系と2次元画像座標系の座標位置変換用の3次元変換行列であることを特徴とする請求項1に記載の人物領域検出装置。
前記頭検出手段は、前記第1の人物領域検出手段が検出した人物領域から、まず、上半身領域を抽出し、次に、抽出された上半身領域から頭を抽出することを特徴とする請求項1または2に記載の人物領域検出装置。
前記足位置推定手段は、前記カメラパラメータを用いて、前記頭検出手段が検出した画像上での頭の位置から3次元世界座標系での頭の位置を推定し、3次元世界座標系での頭の位置および空間における頭と足の位置関係から3次元世界座標系での足の位置を推定し、さらに、3次元世界座標系での足の位置から画像上での足の位置を推定することを特徴とする請求項1ないし3のいずれか1つに記載の人物領域検出装置。
前記第2の人物領域検出手段は、バウンディングボックスの傾きを所定単位で変え、また、バウンディングボックスと画像のサイズを相対的に変えつつ、当該バウンディングボックスが人物の外形および傾きに適合するかの評価値を算出し、該評価値を最高とする、原画像に対するバウンディングボックスを求めることを特徴とする請求項1ないし4のいずれか1つに記載の人物領域検出装置。
前記第2の人物領域検出手段は、人物の外形および傾きに適合した、原画像に対するバウンディングボックスの高さと幅と傾き、原画像上での頭の位置を、人物領域を表す情報として送出することを特徴とする請求項1ないし5のいずれか1つに記載の人物領域検出装置。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," in CVPR, vol. 1, 2005, pp. 886-893.
【非特許文献2】Dollar P, Tu Z, Perona P, et al. "Integral Channel Features" in BMVC. 2009, 2(3): 5.
【非特許文献3】T. Ojala, M. Pietikainen, and D. Harwood (1996), "A Comparative Study of Texture Measures with Classification Based on Feature Distributions", Pattern Recognition, vol. 29, pp. 51-59.
【非特許文献4】Wu J, Geyer C, Rehg J M. "Real-time human detection using contour cues", 2011 IEEE International Conference on Robotics and Automation (ICRA), 2011, pp. 860-867.
【非特許文献5】M. Drozdzal, A. Hernandez, S. Segui, etc. "Combining detectors for human layout analysis", Barcelona Perceptual Computing Lab, Universitat de Barcelona, Catalonia, Spain, 2010.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1−4に記載されている技術では、画像における人物領域をバウンディングボックスで検出するが、そのバディングボックスは、画像の水平・垂直方向を辺とした長方形であり、画像上の人物の傾きを考慮していない。そのディングボックスで検出される人物領域は、画像上での人物の傾きに対応していないので、人物領域が高精度に検出されないという課題がある。また、そのバウンディングボックスが、頭から足までの人物の全身像をカバーせず、人物の全身像が人物領域として検出されないことも多々ある。
【0006】
画像における人物領域を検出して人物を追跡したり、人物間での接近や接触があったか否かなどを判断したりする場合、人物領域を高精度に検出することが要求される。しかし、従来技術は、その要求に十分に応えるものでない。
【0007】
本発明の目的は、屋内ビデオ画像における人物の全身像を、画像上での人物の傾きも考慮して高精度で検出する人物領域検出装置、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明は、屋内ビデオ画像から人物領域を検出する人物領域検出装置であって、カメラにより取得された屋内ビデオ画像における人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する第1の人物領域検出手段と、前記第1の人物領域検出手段が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する頭検出手段と、前記頭検出手段が検出した頭の位置と、3次元世界座標系と2次元画像座標系の座標位置変換用のカメラパラメータとを用いて、画像上での当該人物の足の位置を推定する足位置推定手段と、前記頭検出手段が検出した頭の位置および前記足位置推定手段が推定した足の位置を元に、前記第1の人物領域検出手段が人物領域を検出したときのバウンディングボックスのサイズおよび傾きを設定し、さらに該サイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する第2の人物領域検出手段を備えたことを基本的特徴としている。
【0009】
ここで、前記カメラパラメータが、屋内空間のコーナーを原点とした3次元世界座標系と2次元画像座標系の座標位置変換用の3次元変換行列であることが好ましい。
【0010】
また、前記頭検出手段が、前記第1の人物領域検出手段が検出した人物領域から、まず、上半身領域を抽出し、次に、抽出された上半身領域から頭を抽出することも好ましい。
【0011】
また、前記足位置推定手段が、前記カメラパラメータを用いて、前記頭検出手段が検出した画像上での頭の位置から3次元世界座標系での頭の位置を推定し、3次元世界座標系での頭の位置および空間における頭と足の位置関係から3次元世界座標系での足の位置を推定し、さらに、3次元世界座標系での足の位置から画像上での足の位置を推定することも好ましい。
【0012】
また、前記第2の人物領域検出手段が、バウンディングボックスの傾きを所定単位で変え、また、バウンディングボックスと画像のサイズを相対的に変えつつ、当該バウンディングボックスが人物の外形および傾きに適合するかの評価値を算出し、該評価値を最高とする、原画像に対するバウンディングボックスを求めることも好ましい。
【0013】
さらに、前記第2の人物領域検出手段が、人物の外形および傾きに適合した、原画像に対するバウンディングボックスの高さと幅と傾き、原画像上での頭の位置を、人物領域を表す情報として送出することも好ましい。
【0014】
なお、本発明は、装置としてだけでなく、各手段での処理をステップとした方法としても実現でき、また、コンピュータを各手段として機能させるプログラムとしても実現できる。
【発明の効果】
【0015】
本発明によれば、従来技術と同様のバウンディングボックスで屋内ビデオ画像から人物領域を検出し、この人物領域から頭の位置を検出し、さらに、三次元変換技術を用いて画像上での足の位置を推定し、頭および足の位置を元に、画像上の人物の傾きを算出し、これにより算出された人物の傾きを考慮し、また、人物の全身像をカバーするバウンディングボックスで人物領域を検出するので、人物領域を高精度に検出できる。これにより、人物を追跡したり、人物間の接近や接触があったか否かを判断したりする場合などで要求される性能を満たすことができる。
【発明を実施するための形態】
【0017】
以下、図面を参照して本発明を説明する。
【0018】
図1は、本発明に係る人物領域検出装置の基本的構成を示す機能ブロック図である。
【0019】
本発明に係る人物領域検出装置は、基本的構成として、人物領域検出手段(1)11、頭検出手段12、足位置推定手段13および人物領域検出手段(2)14を備える。なお、各手段は、ハードウエアで構成されたものであっても、1つあるいは複数のプロセッサ内にソフトウエアで構成されたものであってもよい。
【0020】
人物領域検出手段(1)11は、カメラにより取得された屋内ビデオ画像における人物領域を検出する。ここでは、人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する。
【0021】
頭検出手段12は、人物領域抽出手段(1)11が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する。画像上での頭の位置は、画像の水平・垂直方向の2次元画像座標系の位置で表される。
【0022】
足位置推定手段13は、頭検出手段12が検出した頭の位置と、3次元世界座標系と2次元画像座標系の座標位置変換用のカメラパラメータを用いて、画像上での当該人物の足の位置を推定する。すなわち、足位置推定手段13は、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスをベースとし、頭検出技術と3次元変換技術を併用して、2次元画像座標系での当該人物の足の位置を推定する。なお、カメラパラメータは、例えば、屋内空間のコーナーを原点とした3次元世界座標系と2次元画像座標系の座標位置変換用の3次元変換行列であり、予めオフラインで推定しておく。
【0023】
人物領域検出手段(2)14は、頭検出手段12が検出した頭の位置および足位置推定手段13が推定した足の位置を元に、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスの高さおよび傾きを設定し、さらに該バウンディングボックスのサイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する。
【0024】
以下、各手段について具体的に説明する。
【0025】
足位置推定手段13での人物の足の位置の推定に用いられるカメラパラメータは、予めオフラインで推定しておくので、まず、カメラパラメータの推定について説明する。
【0026】
図2は、カメラパラメータを推定するためのカメラキャリブレーションの説明図である。ここでは、カメラパラメータとして、3次元世界座標系と2次元画像座標系の座標位置変換用の3次元変換行列を推定する。
【0027】
図2に示すように、2次元画像座標系をu,v(ピクセル単位)とし、屋内(部屋)のコーナーを原点とし、床面をX−Y平面とした3次元世界座標系をX,Y,Z(メートル単位)とすると、2次元画像座標(u,v)と3次元世界座標(X,Y,Z)と3次元変換行列[T]の関係は、下記式で表される。ここで、2次元画像座標(u,v)と3次元世界座標(X,Y,Z)を与えれば、3次元変換行列[T]を算出できる。
【0029】
具体的には、まず、カメラで屋内を撮影して屋内画像を取得し、その屋内画像の適宜の位置のピクセルを20〜30個程度選択し、それらのピクセルの2次元画像座標(u,v)を求める。また、それらのピクセルに対応する3次元世界座標系の位置(X,Y,Z)を測定する。
図2では、カメラにより取得された屋内画像で選択したピクセルとそれらのピクセルに対応する3次元世界座標系の位置を黒丸で示している。
【0030】
次に、屋内画像から選択した20〜30個程度のピクセルの2次元画像座標(u,v)とそれらのピクセルに対応する3次元世界座標系の位置(X,Y,Z)を用いて、3次元変換行列[T]を推定する。この推定は、例えば、「Shapiro, R. (1978) Direct linear transformation method for three-dimensional cinematography. Res. Quart. 49, 197-205」に記載されている3D direct linear transformation法で行うことができる。
【0031】
以上のようにして、カメラパラメータを予めオフラインで推定してから、
図1の各手段により人物領域検出を行う。
【0032】
以下、本発明を構成する各手段について説明する。なお、以下に説明する具体的構成は、実施形態としてのものであり、各手段は、それに限定されるものではない。
【0033】
人物領域抽出手段11では、カメラにより取得された屋内ビデオ画像における人物領域を検出する。ここでは、人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する。したがって、画像上の人物が傾いている場合、人物領域として検出される画像領域は、人物外形によく適合したものとはならない。
【0034】
図3は、人物領域検出手段(1)11での処理の説明図である。この処理は、非特許文献4に記載されたものと同じであるので、以下ではその概要を説明する。
【0035】
ここでは、まず、カメラにより取得された原画像から、そのエッジ部分のソーベル画像(1)を生成する。エッジ部分は、どのような手法で抽出してもよい。なお、ここでは、分かり易くするために、人物領域近辺の画像だけを図示している。
【0036】
次に、ソーベル画像(1)をCensus変換(CT)してCT画像を生成する。
【0037】
図4は、Census変換(CT)の説明図であり、画像上のピクセル(中心ピクセル)の濃淡値とそれに隣接する8個のピクセル(周辺ピクセル)の濃淡値を比較し、周辺ピクセルの濃淡値が中心ピクセルの濃淡値より低い、あるいは同じであれば、当該周辺ピクセルの位置に「1」を設定し、そうでなければ、「0」を設定する。そして、設定された数字「1」または「0」を左から右に、上から下に順番に並べて8ビットの2進数を生成し、該2進数を10進数に変換して[0,255]範囲内の値とする。この値が中心ピクセルに対するCT値となる((2)CT値の計算)。
図4の例の場合、濃淡値「56」の中心ピクセルに対するCT値は、「107」となる。
【0038】
以上の処理を、各ピクセルを中心ピクセルとして順次実行することにより、ソーベル画像(1)をCT画像に変換し、CT値のヒストグラム(CENTRIST記述子)(3)を生成する。このヒストグラムでは、横軸をCT値(−1〜+1に正規化)とし、縦軸をその頻度とする。
【0039】
一方、「人物有り」の画像と「人物無し」の画像を格納しているデータベースからそれらの画像を学習データとして取得し、線形SVM分類器に与えて分類器1(「人物有り」に対するCENTRIST記述子)と分類器2(「人物無し」に対するCENTRIST記述子)を形成する。分類器1(「人物有り」に対するCENTRIST記述子)を用いれば、「人物有り」の領域を判定でき、分類器2(「人物無し」に対するCENTRIST記述子)を用いれば、「人物無し」の領域を判定できる。
【0040】
そして、CT値のヒストグラム(CENTRIST記述子)(3)と、分類器1または分類器2、あるいはその両者を用いて、類似性判定(スコア算出)(4)を行う。
【0041】
この類似性判定(スコア算出)は、例えば、「M.J.Swan and D.H.Ballard, "Color indexing" IJCV, vol. no.1, pp.11-32, 1991」に記載されているthe Histogram Intersection Kernelという手法で行うことができる。
【0042】
図5は、類似性判定(スコア算出)を具体的に示す説明図である。
【0043】
図5に示すように、類似性判定(スコア算出)では、例えば、画像1枚のサイズが640x480(ピクセル)の場合、108x36(ピクセル)のサイズの窓で、画像の左から右に、そして上から下に、2ピクセル単位で移動させて画像全体をスキャンし、各位置で、窓内の領域についてのCENTRIST記述子を計算する。そして、窓内の領域についてのCENTRIST記述子と分類器1(「人物有り」に対するCENTRIST記述子)を比較して、the Histogram Intersection Kernelという手法で類似性スコアを算出し、その類似性スコアが閾値以上の場合、当該窓内の領域に「人物有り」と判定する。
【0044】
なお、画像上での人物領域の大きさには、Brute-force search(力まかせ探索)という手法で対処でき、また、画像上に複数の異なる大きさの人物領域がある場合でも、この手法で対処できる。この手法では、原画像を順次0.8倍にダウンサンプリングし、各画像で人物領域を検出する。例えば、原画像、原画像×0.8、原画像×(0.8)
2、原画像×(0.8)
3、・・・、原画像×(0.8)
nまで順次ダウンサンプリングし、各画像で人物領域を検出する。人物領域の検出手法および分類器は、共通でよい。なお、ダウンサンプリングによる最小の画像(原画像×(0.8)
n)の高さおよび幅は、窓(108x36(ピクセル))のサイズより大きくする。原画像上での人物領域は、ダウンサンプリングされた画像上での人物領域に対応する原画像領域として求めることができる。
図3では、以上により検出された1つの人物領域だけを示している。
【0045】
以上により、
図3に示すように、幾つかの窓で「人物有り」が検出されるので、後処理を行って最適な窓(人物領域)を選択する。この後処理は、non-maximum suppression(非極大値抑制方法)として知られているものであり、上記のようにして検出された幾つかの人物領域から、極大値以外のものを抑制して最適な人物領域を選択する。そして、ここで選択した人物領域に対する窓をバウンディングボックスとする。
【0046】
人物領域検出手段(1)11での人物領域検出では、人物領域をバウンディングボックスで検出するが、該バウンディングボックスでは、画像上の人物の傾きが考慮されておらず、また、頭から足までの人物の全身像をカバーするように考慮されていない。したがって、ここで人物領域を検出したときのバウンディングボックスは、おおよその人物領域を表す。
【0047】
図6は、人物領域検出手段(1)11が検出した人物領域とバウンディングボックスの例を示している。この例では、バウンディングボックス(1),(3) は、人物の全身像をカバーせず、バウンディングボックス(2),(3)は、画像上の人物の傾きに対応して傾いていないので、人物領域を高精度に表さない。
【0048】
そこで、以下に説明するように、頭検出手段12、足位置推定手段13および人物領域検出手段14(2)により、人物領域を高精度に検出する。
【0049】
図7は、頭検出手段12での処理の説明図である。
図7に示すように、頭検出手段12では、人物領域検出手段(1)11が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する。
【0050】
そのために、まず、人物領域検出手段(1)11が検出した人物領域における人物の上半身領域(図示点線内)を抽出し、次に、上半身領域から頭(図示太実線内)を抽出する。そして、頭の最上部の真中の位置P
hを画像上での頭の位置とする。頭の抽出は、例えば、「P. Felzenszwalb, R. Girshick, D. McAllester, D. Ramanan. Object Detection with Discriminatively Trained Part Based Models. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, 2010.」に記載されている技術で行うことができる。
【0051】
足位置推定手段13では、頭検出手段12が検出した頭の位置と3次元変換技術を用いて、画像上での当該人物の足の位置を推定する。
【0052】
図8は、足位置推定手段13での処理の説明図である。ここでは、まず、頭検出手段12が検出した画像上での頭の位置P
h(u
h,v
h)を、3次元変換行列(カメラパラメータ)[T]を用いて、3次元世界座標系での位置V
h(x
h,y
h,z
h)に変換し、その位置V
h(x
h,y
h,z
h)を3次元世界座標系での頭の位置と推定する。ここで、z
hは、当該人物の身長V
hに略等しい。
【0053】
次に、推定された3次元世界座標系での頭の位置V
h(x
h,y
h,z
h)から3次元世界座標系での足の位置を求める。3次元世界座標系での足の位置V
f(x
f,y
f,z
f)は、空間における頭と足の位置関係から求めることができる。例えば、人物が床面に直立しているとして、x
f=x
h、y
f,= y
h、z
f=0で求めることができる。
【0054】
次に、3次元世界座標系での足の位置V
f(x
f,y
f,z
f)を、3次元変換行列[T]を用いて2次元画像座標系の位置P
f(u
f,v
f)に変換し、その位置P
f(u
f,v
f)を画像上での当該人物の足の位置と推定する。
【0055】
なお、人物の重要な部分として足を検出することは、非特許文献5にその平均的検出率:1.2%と記載されているように、従来、難しかったが、上記のように、頭検出および三次元変換技術を併用することにより、足の位置を容易に検出できる。
【0056】
足位置推定手段13で推定された足の位置には、誤差が含まれている可能性がある。また、以上では、人物の幅を考慮していない。そこで、人物領域検出手段(2)14では、以下のようにして、人物領域を高精度に検出する。
【0057】
人物領域検出手段(2)14では、まず、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスのサイズを設定する。バウンディングボックスの高さdは、画像上での頭の位置P
h(u
h,v
h)と足の位置P
f(u
f,v
f)間の距離(P
h,P
f)に設定すればよい。この距離(P
h,P
f)は、画像上での人物の身長hに相当する。バウンディングボックスの幅wは、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスの幅のままでよい。
【0058】
そして、このバウンディングボックスを、頭検出手段12が検出した頭の位置P
h(u
h,v
h)を中心として、所定角度θだけ回転させる。ここで、所定角度θは、θ=arctan{(u
f-u
h)/(v
f-v
h)}とし、該角度θだけ右回りに回転させる。
【0059】
図9は、人物領域抽出手段11が人物領域を検出したときのバウンディングボックスを元にして、画像上での人物の傾きに応じて回転させる様子を示す。このバウンディングボックスは、頭の位置P
h(u
h,v
h)と足の位置P
f(u
f,v
f)を結ぶ線分が軸となるように回転されるので、画像上の人物の傾きに対応している。
【0060】
図10は、人物領域検出手段(2)が人物領域を高精度に検出する処理の説明図である。なお、ここでは、人物領域の画像の方を回転させて図示しているが、実際上では、人物領域の画像に対してバウンディングボックスの方を回転させる。
【0061】
まず、上記のようにして回転させたバウンディングボックスのサイズを、例えば、1.2倍に拡大する。これは、バウンディングボックスが、頭から足までの人物の全身像を確実にカバーするようにするためである。その上で、拡大されたバウンディングボックスを、例えば、±20°の範囲内で1°単位で回転させ、各回転位置で、各バウンディングボックスに対する評価値(スコア)を算出する。そして、その評価値を最大とする回転角度およびサイズのバウンディングボックスで検出される人物領域を高精度の人物領域として検出する。上記評価値は、人物領域抽出手段11での処理と同様に、CT値のヒストグラム(CENTRIST記述子)に基づいて、the Histogram Intersection Kernelという手法により計算できる。
【0062】
図10の例では、頭の位置P
h(u
h,v
h)と足の位置P
f(u
f,v
f)に従って回転角度θだけ回転させたバウンディングボックスを、さらに+5°だけ回転させたとき、評価値が最高(=1.02)になる。このときのバウンディングボックスは、画像上の人物の傾きに対応して傾いており、人物外形に最も適合する。
【0063】
人物領域は、画像上のバウンディングボックスの幅wと回転角度φ、画像上の頭の位置P
h(u
h,v
h)および身長hで表すことができるので、人物領域検出手段(2)は、それらの情報を高精度の人物領域として検出し、出力すればよい。
【0064】
図11は、人物領域検出手段(2)14が検出した人物領域とバウンディングボックスの例を示す。このバウンディングボックスは、人物領域検出手段(1)11が人物領域を検出したときバウンディングボックス(
図6)と比較すると、画像上の人物の傾きに対応して傾いており、人物の全身像をカバーしているので、人物領域を高精度に示していることが分かる。
【0065】
以上、実施形態について説明したが、本発明は、上記実施形態に限定されるものでなく、その技術的思想の範囲内において種々に変形したものを含む。例えば、屋内ビデオ画像が複数の人物像を含んでいる場合でも、人物ごとに上記処理を行えば、
図11のように、各人物の領域を高精度に検出できる。その場合、人物領域の各々に符号などを付して識別可能にしておくこともできる。
【0066】
また、本発明は、人物領域検出装置としてだけでなく、各手段での処理をステップとした人物領域検出方法としても実現でき、また、コンピュータを各手段として機能させる人物領域検出用のプログラムとしても実現できる。人物領域検出方法は、各手段での処理を順次実行するステップを含めばよく、人物領域検出用のプログラムは、コンンピュータを各手段として機能させるものであればよい。