特許6397354 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許6397354人物領域検出装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6397354

(24)【登録日】2018年9月7日

(45)【発行日】2018年9月26日

(54)【発明の名称】人物領域検出装置、方法およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20180913BHJP

【ＦＩ】

G06T7/00 660B

【請求項の数】8

【全頁数】14

(21)【出願番号】特願2015-34316(P2015-34316)

(22)【出願日】2015年2月24日

(65)【公開番号】特開2016-157258(P2016-157258A)

(43)【公開日】2016年9月1日

【審査請求日】2017年9月6日

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100092772

【弁理士】

【氏名又は名称】阪本清孝

(74)【代理人】

【識別番号】100119688

【弁理士】

【氏名又は名称】田邉壽二

(72)【発明者】

【氏名】徐栄

(72)【発明者】

【氏名】上野智史

(72)【発明者】

【氏名】小林達也

(72)【発明者】

【氏名】巻渕有哉

【審査官】村松貴士

(56)【参考文献】

【文献】特開２０１２−２２１４３７（ＪＰ，Ａ）

【文献】特開２０１４−２２９０６８（ＪＰ，Ａ）

【文献】特開２００５−２７５９１２（ＪＰ，Ａ）

【文献】特開２０００−２５１０７８（ＪＰ，Ａ）

【文献】特開２０１４−１８６５２５（ＪＰ，Ａ）

【文献】特開２０１１−１９８２６１（ＪＰ，Ａ）

【文献】特開２０１１−０４５０１４（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１４／００４９６００（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ１／００ − ７／９０

(57)【特許請求の範囲】

【請求項1】

屋内ビデオ画像における人物領域を検出する人物領域検出装置であって、
カメラにより取得された屋内ビデオ画像における人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する第１の人物領域検出手段と、
前記第１の人物領域検出手段が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する頭検出手段と、
前記頭検出手段が検出した頭の位置と、３次元世界座標系と２次元画像座標系の座標位置変換用のカメラパラメータとを用いて、画像上での当該人物の足の位置を推定する足位置推定手段と、
前記頭検出手段が検出した頭の位置および前記足位置推定手段が推定した足の位置を元に、前記第１の人物領域検出手段が人物領域を検出したときのバウンディングボックスのサイズおよび傾きを設定し、さらに該サイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する第２の人物領域検出手段を備えたことを特徴とする人物領域検出装置。

【請求項2】

前記カメラパラメータは、屋内空間のコーナーを原点とした３次元世界座標系と２次元画像座標系の座標位置変換用の３次元変換行列であることを特徴とする請求項１に記載の人物領域検出装置。

【請求項3】

前記頭検出手段は、前記第１の人物領域検出手段が検出した人物領域から、まず、上半身領域を抽出し、次に、抽出された上半身領域から頭を抽出することを特徴とする請求項１または２に記載の人物領域検出装置。

【請求項4】

前記足位置推定手段は、前記カメラパラメータを用いて、前記頭検出手段が検出した画像上での頭の位置から３次元世界座標系での頭の位置を推定し、３次元世界座標系での頭の位置および空間における頭と足の位置関係から３次元世界座標系での足の位置を推定し、さらに、３次元世界座標系での足の位置から画像上での足の位置を推定することを特徴とする請求項１ないし３のいずれか１つに記載の人物領域検出装置。

【請求項5】

前記第２の人物領域検出手段は、バウンディングボックスの傾きを所定単位で変え、また、バウンディングボックスと画像のサイズを相対的に変えつつ、当該バウンディングボックスが人物の外形および傾きに適合するかの評価値を算出し、該評価値を最高とする、原画像に対するバウンディングボックスを求めることを特徴とする請求項１ないし４のいずれか１つに記載の人物領域検出装置。

【請求項6】

前記第２の人物領域検出手段は、人物の外形および傾きに適合した、原画像に対するバウンディングボックスの高さと幅と傾き、原画像上での頭の位置を、人物領域を表す情報として送出することを特徴とする請求項１ないし５のいずれか１つに記載の人物領域検出装置。

【請求項7】

屋内ビデオ画像における人物領域を検出する人物領域検出方法であって、
カメラにより取得された屋内ビデオ画像における人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する第１の人物領域検出ステップと、
前記第１の人物領域検出ステップで検出した人物領域から頭を抽出し、画像上での頭の位置を検出する頭検出ステップと、
前記頭検出ステップで検出した頭の位置と、３次元世界座標系と２次元画像座標系の座標位置変換用のカメラパラメータとを用いて、画像上での当該人物の足の位置を推定する足位置推定ステップと、
前記頭検出ステップで検出した頭の位置および前記足位置推定ステップえ推定した足の位置を元に、前記第１の人物領域検出ステップで人物領域を検出したときのバウンディングボックスのサイズおよび傾きを設定し、さらに該サイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する第２の人物領域検出ステップを有することを特徴とする人物領域検出方法。

【請求項8】

屋内ビデオ画像における人物領域を検出する人物領域検出装置としてコンピュータを機能させるプログラムであって、コンピュータを、
カメラにより取得された屋内ビデオ画像における人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する第１の人物領域検出手段と、
前記第１の人物領域検出手段が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する頭検出手段と、
前記頭検出手段が検出した頭の位置と、３次元世界座標系と２次元画像座標系の座標位置変換用のカメラパラメータとを用いて、画像上での当該人物の足の位置を推定する足位置推定手段と、
前記頭検出手段が検出した頭の位置および前記足位置推定手段が推定した足の位置を元に、前記第１の人物領域検出手段が人物領域を検出したときのバウンディングボックスのサイズおよび傾きを設定し、さらに該サイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する第２の人物領域検出手段として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人物領域検出装置、方法およびプログラムに関し、特に、屋内ビデオ画像における人物の全身像を、画像上での人物の傾きも考慮して高精度で検出する人物領域検出装置、方法およびプログラムに関する。

【背景技術】

【0002】

画像における人物領域を検出することは、種々の技術分野で利用されている。例えば、コンピュータビジョン技術分野の人物追跡技術(Tracking by Detection)では、ビデオ画像における人物領域を検出し、人物追跡のために利用する。また、ビデオ画像における人物領域を検出し、人物の移動軌跡や他人との接点を求めることにより、人物の動きや人間関係を知ることができる。そのような技術の性能は、画像からの人物領域の検出精度に左右される。

【0003】

非特許文献１−４には、画像における人物領域を検出する技術に関し、画像における人物領域をバウンディングボックスで検出することが記載されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," in CVPR, vol. 1, 2005, pp. 886-893.

【非特許文献2】Dollar P, Tu Z, Perona P, et al. "Integral Channel Features" in BMVC. 2009, 2(3): 5.

【非特許文献3】T. Ojala, M. Pietikainen, and D. Harwood (1996), "A Comparative Study of Texture Measures with Classification Based on Feature Distributions", Pattern Recognition, vol. 29, pp. 51-59.

【非特許文献4】Wu J, Geyer C, Rehg J M. "Real-time human detection using contour cues", 2011 IEEE International Conference on Robotics and Automation (ICRA), 2011, pp. 860-867.

【非特許文献5】M. Drozdzal, A. Hernandez, S. Segui, etc. "Combining detectors for human layout analysis", Barcelona Perceptual Computing Lab, Universitat de Barcelona, Catalonia, Spain, 2010.

【発明の概要】

【発明が解決しようとする課題】

【0005】

非特許文献１−４に記載されている技術では、画像における人物領域をバウンディングボックスで検出するが、そのバディングボックスは、画像の水平・垂直方向を辺とした長方形であり、画像上の人物の傾きを考慮していない。そのディングボックスで検出される人物領域は、画像上での人物の傾きに対応していないので、人物領域が高精度に検出されないという課題がある。また、そのバウンディングボックスが、頭から足までの人物の全身像をカバーせず、人物の全身像が人物領域として検出されないことも多々ある。

【0006】

画像における人物領域を検出して人物を追跡したり、人物間での接近や接触があったか否かなどを判断したりする場合、人物領域を高精度に検出することが要求される。しかし、従来技術は、その要求に十分に応えるものでない。

【0007】

本発明の目的は、屋内ビデオ画像における人物の全身像を、画像上での人物の傾きも考慮して高精度で検出する人物領域検出装置、方法およびプログラムを提供することにある。

【課題を解決するための手段】

【0008】

上記課題を解決するため、本発明は、屋内ビデオ画像から人物領域を検出する人物領域検出装置であって、カメラにより取得された屋内ビデオ画像における人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する第１の人物領域検出手段と、前記第１の人物領域検出手段が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する頭検出手段と、前記頭検出手段が検出した頭の位置と、３次元世界座標系と２次元画像座標系の座標位置変換用のカメラパラメータとを用いて、画像上での当該人物の足の位置を推定する足位置推定手段と、前記頭検出手段が検出した頭の位置および前記足位置推定手段が推定した足の位置を元に、前記第１の人物領域検出手段が人物領域を検出したときのバウンディングボックスのサイズおよび傾きを設定し、さらに該サイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する第２の人物領域検出手段を備えたことを基本的特徴としている。

【0009】

ここで、前記カメラパラメータが、屋内空間のコーナーを原点とした３次元世界座標系と２次元画像座標系の座標位置変換用の３次元変換行列であることが好ましい。

【0010】

また、前記頭検出手段が、前記第１の人物領域検出手段が検出した人物領域から、まず、上半身領域を抽出し、次に、抽出された上半身領域から頭を抽出することも好ましい。

【0011】

また、前記足位置推定手段が、前記カメラパラメータを用いて、前記頭検出手段が検出した画像上での頭の位置から３次元世界座標系での頭の位置を推定し、３次元世界座標系での頭の位置および空間における頭と足の位置関係から３次元世界座標系での足の位置を推定し、さらに、３次元世界座標系での足の位置から画像上での足の位置を推定することも好ましい。

【0012】

また、前記第２の人物領域検出手段が、バウンディングボックスの傾きを所定単位で変え、また、バウンディングボックスと画像のサイズを相対的に変えつつ、当該バウンディングボックスが人物の外形および傾きに適合するかの評価値を算出し、該評価値を最高とする、原画像に対するバウンディングボックスを求めることも好ましい。

【0013】

さらに、前記第２の人物領域検出手段が、人物の外形および傾きに適合した、原画像に対するバウンディングボックスの高さと幅と傾き、原画像上での頭の位置を、人物領域を表す情報として送出することも好ましい。

【0014】

なお、本発明は、装置としてだけでなく、各手段での処理をステップとした方法としても実現でき、また、コンピュータを各手段として機能させるプログラムとしても実現できる。

【発明の効果】

【0015】

本発明によれば、従来技術と同様のバウンディングボックスで屋内ビデオ画像から人物領域を検出し、この人物領域から頭の位置を検出し、さらに、三次元変換技術を用いて画像上での足の位置を推定し、頭および足の位置を元に、画像上の人物の傾きを算出し、これにより算出された人物の傾きを考慮し、また、人物の全身像をカバーするバウンディングボックスで人物領域を検出するので、人物領域を高精度に検出できる。これにより、人物を追跡したり、人物間の接近や接触があったか否かを判断したりする場合などで要求される性能を満たすことができる。

【図面の簡単な説明】

【0016】

【図1】本発明に係る人物領域検出装置の基本的構成を示す機能ブロック図である。

【図2】カメラパラメータを推定するためのカメラキャリブレーションの説明図である。

【図3】人物領域検出手段(1)での処理の説明図である。

【図4】Ｃｅｎｓｕｓ変換(CT)の説明図である。

【図5】ＣＴ値のヒストグラム(CENTRIST記述子)と分類器との類似性判定(スコア)の説明図である。

【図6】人物領域検出手段(1)が検出した人物領域とバウンディングボックスの例を示す図である。

【図7】頭検出手段での処理の説明図である。

【図8】足位置推定手段での処理の説明図である。

【図9】画像上での人物の傾きに応じてバウンディングボックスを回転させる様子を示す説明図である。

【図10】人物領域検出手段(2)が人物領域を高精度に検出する処理の説明図である。

【図11】人物領域検出手段(2)が検出した人物領域とバウンディングボックスの例を示す図である。

【発明を実施するための形態】

【0017】

以下、図面を参照して本発明を説明する。

【0018】

図１は、本発明に係る人物領域検出装置の基本的構成を示す機能ブロック図である。

【0019】

本発明に係る人物領域検出装置は、基本的構成として、人物領域検出手段(1)11、頭検出手段12、足位置推定手段13および人物領域検出手段(2)14を備える。なお、各手段は、ハードウエアで構成されたものであっても、１つあるいは複数のプロセッサ内にソフトウエアで構成されたものであってもよい。

【0020】

人物領域検出手段(1)11は、カメラにより取得された屋内ビデオ画像における人物領域を検出する。ここでは、人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する。

【0021】

頭検出手段12は、人物領域抽出手段(1)11が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する。画像上での頭の位置は、画像の水平・垂直方向の２次元画像座標系の位置で表される。

【0022】

足位置推定手段13は、頭検出手段12が検出した頭の位置と、３次元世界座標系と２次元画像座標系の座標位置変換用のカメラパラメータを用いて、画像上での当該人物の足の位置を推定する。すなわち、足位置推定手段13は、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスをベースとし、頭検出技術と３次元変換技術を併用して、２次元画像座標系での当該人物の足の位置を推定する。なお、カメラパラメータは、例えば、屋内空間のコーナーを原点とした３次元世界座標系と２次元画像座標系の座標位置変換用の３次元変換行列であり、予めオフラインで推定しておく。

【0023】

人物領域検出手段(2)14は、頭検出手段12が検出した頭の位置および足位置推定手段13が推定した足の位置を元に、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスの高さおよび傾きを設定し、さらに該バウンディングボックスのサイズおよび傾きを画像上での人物の外形および傾きに適合させ、該バウンディングボックスで人物領域を検出する。

【0024】

以下、各手段について具体的に説明する。

【0025】

足位置推定手段13での人物の足の位置の推定に用いられるカメラパラメータは、予めオフラインで推定しておくので、まず、カメラパラメータの推定について説明する。

【0026】

図２は、カメラパラメータを推定するためのカメラキャリブレーションの説明図である。ここでは、カメラパラメータとして、３次元世界座標系と２次元画像座標系の座標位置変換用の３次元変換行列を推定する。

【0027】

図２に示すように、２次元画像座標系をｕ，ｖ(ピクセル単位)とし、屋内(部屋)のコーナーを原点とし、床面をＸ−Ｙ平面とした３次元世界座標系をＸ，Ｙ，Ｚ(メートル単位)とすると、２次元画像座標(ｕ，ｖ)と３次元世界座標(Ｘ，Ｙ，Ｚ)と３次元変換行列[Ｔ]の関係は、下記式で表される。ここで、２次元画像座標(ｕ，ｖ)と３次元世界座標(Ｘ，Ｙ，Ｚ)を与えれば、３次元変換行列[Ｔ]を算出できる。

【0028】

【数1】

【0029】

具体的には、まず、カメラで屋内を撮影して屋内画像を取得し、その屋内画像の適宜の位置のピクセルを２０〜３０個程度選択し、それらのピクセルの２次元画像座標(ｕ，ｖ)を求める。また、それらのピクセルに対応する３次元世界座標系の位置(Ｘ，Ｙ，Ｚ)を測定する。図２では、カメラにより取得された屋内画像で選択したピクセルとそれらのピクセルに対応する３次元世界座標系の位置を黒丸で示している。

【0030】

次に、屋内画像から選択した２０〜３０個程度のピクセルの２次元画像座標(ｕ，ｖ)とそれらのピクセルに対応する３次元世界座標系の位置(Ｘ，Ｙ，Ｚ)を用いて、３次元変換行列[Ｔ]を推定する。この推定は、例えば、「Shapiro, R. (1978) Direct linear transformation method for three-dimensional cinematography. Res. Quart. 49, 197-205」に記載されている3D direct linear transformation法で行うことができる。

【0031】

以上のようにして、カメラパラメータを予めオフラインで推定してから、図１の各手段により人物領域検出を行う。

【0032】

以下、本発明を構成する各手段について説明する。なお、以下に説明する具体的構成は、実施形態としてのものであり、各手段は、それに限定されるものではない。

【0033】

人物領域抽出手段11では、カメラにより取得された屋内ビデオ画像における人物領域を検出する。ここでは、人物領域を、画像の水平・垂直方向を辺とした長方形のバウンディングボックスで検出する。したがって、画像上の人物が傾いている場合、人物領域として検出される画像領域は、人物外形によく適合したものとはならない。

【0034】

図３は、人物領域検出手段(1)11での処理の説明図である。この処理は、非特許文献４に記載されたものと同じであるので、以下ではその概要を説明する。

【0035】

ここでは、まず、カメラにより取得された原画像から、そのエッジ部分のソーベル画像(１)を生成する。エッジ部分は、どのような手法で抽出してもよい。なお、ここでは、分かり易くするために、人物領域近辺の画像だけを図示している。

【0036】

次に、ソーベル画像(１)をＣｅｎｓｕｓ変換(CT)してＣＴ画像を生成する。

【0037】

図４は、Ｃｅｎｓｕｓ変換(CT)の説明図であり、画像上のピクセル(中心ピクセル)の濃淡値とそれに隣接する８個のピクセル(周辺ピクセル)の濃淡値を比較し、周辺ピクセルの濃淡値が中心ピクセルの濃淡値より低い、あるいは同じであれば、当該周辺ピクセルの位置に「１」を設定し、そうでなければ、「０」を設定する。そして、設定された数字「１」または「０」を左から右に、上から下に順番に並べて８ビットの２進数を生成し、該２進数を１０進数に変換して[０，２５５]範囲内の値とする。この値が中心ピクセルに対するＣＴ値となる((２)CT値の計算)。図４の例の場合、濃淡値「５６」の中心ピクセルに対するＣＴ値は、「１０７」となる。

【0038】

以上の処理を、各ピクセルを中心ピクセルとして順次実行することにより、ソーベル画像(１)をＣＴ画像に変換し、ＣＴ値のヒストグラム(CENTRIST記述子)(３)を生成する。このヒストグラムでは、横軸をＣＴ値(−１〜＋１に正規化)とし、縦軸をその頻度とする。

【0039】

一方、「人物有り」の画像と「人物無し」の画像を格納しているデータベースからそれらの画像を学習データとして取得し、線形ＳＶＭ分類器に与えて分類器１(「人物有り」に対するCENTRIST記述子)と分類器２(「人物無し」に対するCENTRIST記述子)を形成する。分類器１(「人物有り」に対するCENTRIST記述子)を用いれば、「人物有り」の領域を判定でき、分類器２(「人物無し」に対するCENTRIST記述子)を用いれば、「人物無し」の領域を判定できる。

【0040】

そして、ＣＴ値のヒストグラム(CENTRIST記述子)(３)と、分類器１または分類器２、あるいはその両者を用いて、類似性判定(スコア算出)(４)を行う。

【0041】

この類似性判定(スコア算出)は、例えば、「M.J.Swan and D.H.Ballard, "Color indexing" IJCV, vol. no.1, pp.11-32, 1991」に記載されているthe Histogram Intersection Kernelという手法で行うことができる。

【0042】

図５は、類似性判定(スコア算出)を具体的に示す説明図である。

【0043】

図５に示すように、類似性判定(スコア算出)では、例えば、画像１枚のサイズが６４０ｘ４８０(ピクセル)の場合、１０８ｘ３６(ピクセル)のサイズの窓で、画像の左から右に、そして上から下に、２ピクセル単位で移動させて画像全体をスキャンし、各位置で、窓内の領域についてのCENTRIST記述子を計算する。そして、窓内の領域についてのCENTRIST記述子と分類器１(「人物有り」に対するCENTRIST記述子)を比較して、the Histogram Intersection Kernelという手法で類似性スコアを算出し、その類似性スコアが閾値以上の場合、当該窓内の領域に「人物有り」と判定する。

【0044】

なお、画像上での人物領域の大きさには、Brute-force search(力まかせ探索)という手法で対処でき、また、画像上に複数の異なる大きさの人物領域がある場合でも、この手法で対処できる。この手法では、原画像を順次0.8倍にダウンサンプリングし、各画像で人物領域を検出する。例えば、原画像、原画像×0.8、原画像×(0.8)²、原画像×(0.8)³、・・・、原画像×(0.8)ⁿまで順次ダウンサンプリングし、各画像で人物領域を検出する。人物領域の検出手法および分類器は、共通でよい。なお、ダウンサンプリングによる最小の画像(原画像×(0.8)ⁿ)の高さおよび幅は、窓(１０８ｘ３６(ピクセル))のサイズより大きくする。原画像上での人物領域は、ダウンサンプリングされた画像上での人物領域に対応する原画像領域として求めることができる。図３では、以上により検出された１つの人物領域だけを示している。

【0045】

以上により、図３に示すように、幾つかの窓で「人物有り」が検出されるので、後処理を行って最適な窓(人物領域)を選択する。この後処理は、non-maximum suppression(非極大値抑制方法)として知られているものであり、上記のようにして検出された幾つかの人物領域から、極大値以外のものを抑制して最適な人物領域を選択する。そして、ここで選択した人物領域に対する窓をバウンディングボックスとする。

【0046】

人物領域検出手段(1)11での人物領域検出では、人物領域をバウンディングボックスで検出するが、該バウンディングボックスでは、画像上の人物の傾きが考慮されておらず、また、頭から足までの人物の全身像をカバーするように考慮されていない。したがって、ここで人物領域を検出したときのバウンディングボックスは、おおよその人物領域を表す。

【0047】

図６は、人物領域検出手段(1)11が検出した人物領域とバウンディングボックスの例を示している。この例では、バウンディングボックス(1),(3) は、人物の全身像をカバーせず、バウンディングボックス(2),(3)は、画像上の人物の傾きに対応して傾いていないので、人物領域を高精度に表さない。

【0048】

そこで、以下に説明するように、頭検出手段12、足位置推定手段13および人物領域検出手段14(2)により、人物領域を高精度に検出する。

【0049】

図７は、頭検出手段12での処理の説明図である。図７に示すように、頭検出手段12では、人物領域検出手段(1)11が検出した人物領域から頭を抽出し、画像上での頭の位置を検出する。

【0050】

そのために、まず、人物領域検出手段(1)11が検出した人物領域における人物の上半身領域(図示点線内)を抽出し、次に、上半身領域から頭(図示太実線内)を抽出する。そして、頭の最上部の真中の位置Ｐ_ｈを画像上での頭の位置とする。頭の抽出は、例えば、「P. Felzenszwalb, R. Girshick, D. McAllester, D. Ramanan. Object Detection with Discriminatively Trained Part Based Models. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, 2010.」に記載されている技術で行うことができる。

【0051】

足位置推定手段13では、頭検出手段12が検出した頭の位置と３次元変換技術を用いて、画像上での当該人物の足の位置を推定する。

【0052】

図８は、足位置推定手段13での処理の説明図である。ここでは、まず、頭検出手段12が検出した画像上での頭の位置Ｐ_ｈ(ｕ_ｈ,ｖ_ｈ)を、３次元変換行列(カメラパラメータ)[Ｔ]を用いて、３次元世界座標系での位置Ｖ_ｈ(ｘ_ｈ,ｙ_ｈ,ｚ_ｈ)に変換し、その位置Ｖ_ｈ(ｘ_ｈ,ｙ_ｈ,ｚ_ｈ)を３次元世界座標系での頭の位置と推定する。ここで、ｚ_ｈは、当該人物の身長Ｖ_ｈに略等しい。

【0053】

次に、推定された３次元世界座標系での頭の位置Ｖ_ｈ(ｘ_ｈ,ｙ_ｈ,ｚ_ｈ)から３次元世界座標系での足の位置を求める。３次元世界座標系での足の位置Ｖ_ｆ(ｘ_ｆ,ｙ_ｆ,ｚ_ｆ)は、空間における頭と足の位置関係から求めることができる。例えば、人物が床面に直立しているとして、ｘ_ｆ=ｘ_ｈ、ｙ_ｆ,= ｙ_ｈ、ｚ_ｆ=０で求めることができる。

【0054】

次に、３次元世界座標系での足の位置Ｖ_ｆ(ｘ_ｆ,ｙ_ｆ,ｚ_ｆ)を、３次元変換行列[Ｔ]を用いて２次元画像座標系の位置Ｐ_ｆ(ｕ_ｆ,ｖ_ｆ)に変換し、その位置Ｐ_ｆ(ｕ_ｆ,ｖ_ｆ)を画像上での当該人物の足の位置と推定する。

【0055】

なお、人物の重要な部分として足を検出することは、非特許文献５にその平均的検出率：1.2%と記載されているように、従来、難しかったが、上記のように、頭検出および三次元変換技術を併用することにより、足の位置を容易に検出できる。

【0056】

足位置推定手段13で推定された足の位置には、誤差が含まれている可能性がある。また、以上では、人物の幅を考慮していない。そこで、人物領域検出手段(2)14では、以下のようにして、人物領域を高精度に検出する。

【0057】

人物領域検出手段(2)14では、まず、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスのサイズを設定する。バウンディングボックスの高さｄは、画像上での頭の位置Ｐ_ｈ(ｕ_ｈ,ｖ_ｈ)と足の位置Ｐ_ｆ(ｕ_ｆ,ｖ_ｆ)間の距離(Ｐ_ｈ,Ｐ_ｆ)に設定すればよい。この距離(Ｐ_ｈ,Ｐ_ｆ)は、画像上での人物の身長ｈに相当する。バウンディングボックスの幅ｗは、人物領域検出手段(1)11が人物領域を検出したときのバウンディングボックスの幅のままでよい。

【0058】

そして、このバウンディングボックスを、頭検出手段12が検出した頭の位置Ｐ_ｈ(ｕ_ｈ,ｖ_ｈ)を中心として、所定角度θだけ回転させる。ここで、所定角度θは、θ＝arctan{(ｕ_ｆ-ｕ_ｈ)/(ｖ_ｆ-ｖ_ｈ)}とし、該角度θだけ右回りに回転させる。

【0059】

図９は、人物領域抽出手段11が人物領域を検出したときのバウンディングボックスを元にして、画像上での人物の傾きに応じて回転させる様子を示す。このバウンディングボックスは、頭の位置Ｐ_ｈ(ｕ_ｈ,ｖ_ｈ)と足の位置Ｐ_ｆ(ｕ_ｆ,ｖ_ｆ)を結ぶ線分が軸となるように回転されるので、画像上の人物の傾きに対応している。

【0060】

図１０は、人物領域検出手段(2)が人物領域を高精度に検出する処理の説明図である。なお、ここでは、人物領域の画像の方を回転させて図示しているが、実際上では、人物領域の画像に対してバウンディングボックスの方を回転させる。

【0061】

まず、上記のようにして回転させたバウンディングボックスのサイズを、例えば、1.2倍に拡大する。これは、バウンディングボックスが、頭から足までの人物の全身像を確実にカバーするようにするためである。その上で、拡大されたバウンディングボックスを、例えば、±２０°の範囲内で１°単位で回転させ、各回転位置で、各バウンディングボックスに対する評価値(スコア)を算出する。そして、その評価値を最大とする回転角度およびサイズのバウンディングボックスで検出される人物領域を高精度の人物領域として検出する。上記評価値は、人物領域抽出手段11での処理と同様に、ＣＴ値のヒストグラム(CENTRIST記述子)に基づいて、the Histogram Intersection Kernelという手法により計算できる。

【0062】

図１０の例では、頭の位置Ｐ_ｈ(ｕ_ｈ,ｖ_ｈ)と足の位置Ｐ_ｆ(ｕ_ｆ,ｖ_ｆ)に従って回転角度θだけ回転させたバウンディングボックスを、さらに＋５°だけ回転させたとき、評価値が最高(=1.02)になる。このときのバウンディングボックスは、画像上の人物の傾きに対応して傾いており、人物外形に最も適合する。

【0063】

人物領域は、画像上のバウンディングボックスの幅ｗと回転角度φ、画像上の頭の位置Ｐ_ｈ(ｕ_ｈ,ｖ_ｈ)および身長ｈで表すことができるので、人物領域検出手段(2)は、それらの情報を高精度の人物領域として検出し、出力すればよい。

【0064】

図１１は、人物領域検出手段(2)14が検出した人物領域とバウンディングボックスの例を示す。このバウンディングボックスは、人物領域検出手段(1)11が人物領域を検出したときバウンディングボックス(図６)と比較すると、画像上の人物の傾きに対応して傾いており、人物の全身像をカバーしているので、人物領域を高精度に示していることが分かる。

【0065】

以上、実施形態について説明したが、本発明は、上記実施形態に限定されるものでなく、その技術的思想の範囲内において種々に変形したものを含む。例えば、屋内ビデオ画像が複数の人物像を含んでいる場合でも、人物ごとに上記処理を行えば、図１１のように、各人物の領域を高精度に検出できる。その場合、人物領域の各々に符号などを付して識別可能にしておくこともできる。

【0066】

また、本発明は、人物領域検出装置としてだけでなく、各手段での処理をステップとした人物領域検出方法としても実現でき、また、コンピュータを各手段として機能させる人物領域検出用のプログラムとしても実現できる。人物領域検出方法は、各手段での処理を順次実行するステップを含めばよく、人物領域検出用のプログラムは、コンンピュータを各手段として機能させるものであればよい。

【符号の説明】

【0067】

11・・・人物領域抽出手段、12・・・頭検出手段、13・・・足位置推定手段、14・・・人物領域検出手段

【図1】