【国等の委託研究の成果に係る記載事項】(出願人による申告)平成25年度、総務省、「生活空間における人の注視に着目した映像コンテンツ評価手法に関する研究開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来から存在する技術では、日常生活空間における人物の多種多様な姿勢及び振る舞いに対し、人物を検出することができない。
【0005】
本発明は、人物の姿勢等にかかわらず、人物を検出することができる人物検出装置を提供することを目的とする。
また、本発明は、人物検出装置において実行されるプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、動画に基づいて人物の存在を検出する人物検出装置であって、動画を取得する撮像部と、前記撮像部によって取得された動画の各フレームから特徴点を検出する特徴点検出部と、前記特徴点検出部によって検出された特徴点の軌跡に関する特徴量を取得し、特徴量を固定次元で記述する記述部と、前記記述部によって固定次元で記述された特徴量と、予め人物の有無が学習された特徴量とに基づいて、人物の存在を検出する人物検出部と、を備える人物検出装置に関する。
【0007】
前記記述部は、特徴点の軌跡から、軌跡の動きベクトルの方向と長さとに基づく動き特徴と、軌跡を構成する各特徴点の周辺の輝度又は色ヒストグラムに基づく見え特徴と、軌跡の総移動量、軌跡の発生点から消滅点までの距離、全ての特徴点を包含する矩形の面積及びアスペクト、並びに、軌跡の発生から消滅までの時間のいずれかに基づく形状特徴と、を抽出することに基づいて、前記動き特徴と、前記見え特徴と、前記形状特徴とのそれぞれの特徴量を取得することが好ましい。
【0008】
前記特徴点検出部は、1つのフレームから複数の特徴点を検出することが好ましい。この場合、前記人物検出部は、機械学習の枠組みに基づいて人物の存在を検出する。
【0009】
人物検出装置は、前記人物検出部によって人物の存在が検出された場合、所定の表示を行う表示部を備えることが好ましい。
【0010】
また、本発明は、動画に基づいて人物の存在を検出する人物検出装置おいて実行されるプログラムであって、動画の各フレームから特徴点を検出する第1ステップと、前記第1ステップにおいて検出された特徴点の軌跡に関する特徴量を取得し、特徴量を固定次元で記述する第2ステップと、前記第2ステップにおいて固定次元で記述された特徴量と、予め人物の有無が学習された特徴量とに基づいて、人物の存在を検出する第3ステップと、を実行するプログラムに関する。
【発明の効果】
【0011】
本発明によれば、人物の姿勢等にかかわらず、人物を検出することができる人物検出装置を提供することができる。本発明によれば、上記の人物検出装置において実行されるプログラムを提供することができる。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態について説明する。
図1は、一実施形態に係る人物検出装置1の構成を示すブロック図である。
図2は、特徴点の軌跡の一例を示す図である。
【0014】
人物検出装置1は、動画に基づいて人物の存在を検出する。すなわち、人物検出装置1は、映像から人物を検出する。
図1に示すように、人物検出装置1は、撮像部11と、制御部12と、記憶部13と、表示部14と、を備える。
撮像部11は、動画を取得する。撮像部11は、動画を取得することが可能なカメラである。
【0015】
制御部12は、人物検出装置1を制御する。制御部12は、CPU(Central Processing Unit)であってよい。制御部12は、特徴点検出部121と、記述部122と、人物検出部123と、を備える。
【0016】
特徴点検出部121は、撮像部11によって取得された動画の各フレームから特徴点を検出する。特徴点検出部121は、1つのフレームから複数の特徴点を検出する。特徴点は、例えば、フレームに記録された被写体のエッジ等である。特徴点検出部121は、既存の画像解析手法により特徴点を検出する。特徴点検出部121は、一例として、Harrisオペレータ等を用いて、フレーム内の特徴点を高速に検出する。一例として、特徴点検出部121は、1フレームあたり約200点の特徴点を検出することが可能である。なお、特徴点の検出方法は、上記の方法に限定されることはない。
【0017】
記述部122は、特徴点検出部121によって検出された特徴点の軌跡に関する特徴量を取得し、特徴量を固定次元で記述する。すなわち、記述部122は、特徴点検出部121によって検出された特徴点それぞれを、複数のフレームにわたって追跡する。記述部122は、一例として、Lucas−Kanade法に代表されるオプティカルフロー算出法を用いて、隣接フレームでの特徴点のマッチングを行い、特徴点の発生から消滅まで特徴点を追跡する。この方法はKanade−Lucas−Tomasi(KLT)トラッカとして一般的に用いられている。これにより、複数のフレームにわたって特徴点21が移動する場合には、記述部122は、特徴点の軌跡22を得る(
図2参照)。特徴点検出部121において特徴点を検出するためのパラメータ変化に応じて、記述部122が得る特徴点の軌跡の数も変化する。なお、特徴点の軌跡の取得方法は、上記の方法に限定されることはない。
【0018】
記述部122は、特徴点の軌跡から、動き特徴と、見え特徴と、形状特徴と、を抽出する。記述部122は、動き特徴と、見え特徴と、形状特徴と、を抽出することに基づいて、動き特徴と、見え特徴と、形状特徴とのそれぞれの特徴量を取得する。
【0019】
動き特徴は、軌跡の動きベクトルの方向と長さとに基づく特徴である。
図3は、動き特徴を得る場合の例について説明するための図である。記述部122は、
図3(A)に示す特徴点の軌跡を、フレーム単位の動きベクトルに分割する(
図3(B)参照)。そして、記述部122は、分割した動きベクトルそれぞれについて、方向及び長さに応じたラベル付けを行う(
図3(C)参照)。
図3(C)に例示する場合では、方向は8通りであり、長さは4通り(長さ0を含む)である。
図3(C)に例示する場合では、動きベクトルは、25通り(「方向8通り」×「長さ3通り」+「長さ0の1通り」)のラベル付けがなされる。記述部122は、ラベル付けに基づいて、頻度ヒストグラムを作成する(
図3(D)参照)。
図3に示す場合、ヒストグラムは、25次元となっている。記述部122は、各ラベルのヒストグラムを、特徴点の軌跡の動きに関する特徴量とする。動き特徴に関しては、bin数固定のヒストグラムへと変換される。
【0020】
記述部122は、1フレームのサイズ(撮像部11の撮像サイズ)によって動きベクトルの長さが変化するのを避けるために、各軌跡内の動きベクトルの平均長及び分散を指標として分割数を設定することが可能である。記述部122は、動きベクトルの方向及び長さの分割数に応じて、次元数を任意に設定することができる。
図4は、変形例に係るラベル付けについて説明するための図である。例えば、動きベクトルの方向(D)を4通り、動きベクトルの長さ(L)を3通り(長さ0を含む)としてラベル付けを行うことが可能である(
図4(A)参照)。
図4(A)に示す場合、9次元のヒストグラムが得られる。また、例えば、動きベクトルの方向(D)を16通り、動きベクトルの長さ(L)を5通り(長さ0を含む)としてラベル付けを行うことが可能である(
図4(B)参照)。
図4(B)に示す場合、65次元のヒストグラムが得られる。さらに、記述部122は、異なる分割領域から作成したヒストグラムを複数まとめて特徴量化することで、特徴点の大局的な動きと微小動作の双方を考慮した特徴量とすることが可能である。
【0021】
見え特徴は、軌跡を構成する各特徴点の周辺の輝度又は色ヒストグラムに基づく特徴である。記述部122は、各特長点の周辺、例えば、16×16画素領域に対し、各画素の輝度又は色に関するヒストグラムを作成する。輝度又は色空間の分割方法は任意である。
図5は、見え特徴を得る場合の例について説明するための図である。
図5に例示すように、記述部122は、特徴点の周囲(正方形の領域)の色を、RGB色空間で27分割したいずれかの領域に当てはめる。27分割は、Rが3通り、Gが3通り、Bが3通りである。記述部122は、当てはめた結果に基づいて、頻度ヒストグラムを作成する。
図5に例示する場合、ヒストグラムは27次元となっている。記述部122は、ヒストグラムを、特徴点の軌跡の見えに関する特徴量とする。見え特徴に関しては、bin数固定のヒストグラムへと変換される。
【0022】
また、記述部122は、色情報のヒストグラムの代わりに、輝度の勾配情報に着目し、例えばLocal Binary Pattern等の輝度勾配特徴ヒストグラムを作成してもよい。見えに関するヒストグラムは、特徴点の軌跡フレーム数分作成されるが、ヒストグラムを軌跡単位で平均化することにより、特定フレームでのノイズの影響を抑えた特徴量となる。また、記述部122は、軌跡上の数点のみのヒストグラムで平均化し、計算量を節約してもよい。
【0023】
形状特徴は、軌跡の総移動量、軌跡の発生点から消滅点までの距離、全ての特徴点を包含する矩形の面積及びアスペクト、並びに、軌跡の発生から消滅までの時間のいずれかに基づく特徴である。軌跡の総移動量は、各軌跡の動きベクトル長の総和に基づいて得られる。発生点から消滅点までの距離は、特徴点についての初回検出位置から特徴点についての最終検出位置までの距離に基づいて得られる。
【0024】
上記の総移動量及び距離は、1フレームのサイズ(撮像部11の撮像サイズ)の影響を受ける。このため、下記の式(1)に示すように、フレームのサイズ(カメラ映像の画像幅)で正規化する。
Li=li/W …(1)
ここで、liはLi正規化前・後の移動量であり、Wはカメラ映像の画像幅である。記述部122は、正規化することにより、撮像部11を利用する上においては、撮像サイズの影響を受けずに形状特徴を算出することができる。
【0025】
図6は、固定次元を得る方法について説明するための図である。記述部122は、上述したように各特長量(軌跡特徴)を取得すると、一定時間内の各特長量を特徴空間に投射する。特徴空間では、分布作成に有効なコードワード中心が任意数定められている。記述部122は、特徴空間に投射された特徴量を最も近いコードワードに帰属させ、コードワード毎の特徴量の数をカウントして、頻度ヒストグラムを作成する。その頻度ヒストグラムは、特徴表現となり、固定次元の特徴量となる。なお、各特徴点の軌跡の時間長は不定である。後述する人物検出部123で用いられるBag−of−featuresの枠組みでは、各特徴量を固定次元に揃える必要がある。
【0026】
図7は、人物の存在を検出することについて説明するための図である。人物検出部123は、記述部122によって固定次元で記述された特徴量と、予め人物の有無が学習された特徴量とに基づいて、人物の存在を検出する。人物検出部123は、機械学習の枠組みに基づいて人物の存在を検出する。人物検出部123では、例えば、Support vector machine(SVM)又はAdaBoost等の教師付き機械学習の枠組みで識別器が作成されている。学習フェーズにおいては、特徴表現に「存在」又は「不存在」の正解データを与えて学習させている。人物検出部123において検出の判断基準となる特徴量は、記憶部13に記憶されている。運用フェーズでは、人物検出部123は、入力された固定次元の特徴量と、学習フェーズにおける学習とに基づいて、人物の存在又は人物の不存在を判断する。
【0027】
表示部14は、人物検出部123によって人物の存在が検出された場合、所定の表示を行うことが好ましい。一例として、表示部14は、人物が存在していることを示す文字又は画像を表示する。
【0028】
[比較例]
次に、比較例について説明する。第1比較例は、カメラ及び深度センサを用いた検出装置(第1検出装置)である。第1検出装置は、被写体及び深度センサにより被写体の顔を検出することに基づいて、人物を検出する。第2比較例は、カメラを用いた検出装置である(第2検出装置)。第2検出装置は、カメラにより被写体の顔を検出することに基づいて、人物を検出する。第2検出装置は、一般的な顔検出方法を利用する。表1は、第1比較例、第2比較例、及び本実施形態の人物検出装置1で人物を検出した場合についての比較である。
【0030】
第1比較例及び第2比較例では、適合率が100%である。このため、第1比較例及び第2比較例では、顔を検出した場合には、正確に人物が存在していると判定している。しかしながら、第1比較例及び第2比較例の再現性は、本実施形態の再現性よりも低く、検出漏れが多く生じている。第1比較例及び第2比較例では、顔検出に基づいて人物を検出しているため、人物が横や後ろを向いた場合には見逃すことが多く、様々な角度で人物が行動する環境においては、高い再現性が得られなかった。一方、本実施形態では、再現性及び適合率ともに高い値が得られている。さらに、本実施形態では、適合率と再現性の調和平均であるF値が、第1比較例及び第2比較例よりも高い値となった。本実施形態は、第1比較例及び第2比較例と異なり顔検出が不要なため、被写体のどのような向きでも人物を検出することができる。また、本実施形態は、特徴点が移動する軌跡の単位で学習しているため、様々な見え方に対応することができる。また、本実施形態は、特徴点の微細な動きが人物の検出に寄与しているため、高い精度で人物を検出することができる。
【0031】
上述した人物検出装置1は、動画を取得する撮像部11と、撮像部11によって取得された動画の各フレームから特徴点を検出する特徴点検出部121と、特徴点検出部121によって検出された特徴点の軌跡に関する特徴量を取得し、特徴量を固定次元で記述する記述部122と、記述部122によって固定次元で記述された特徴量と、予め人物の有無が学習された特徴量とに基づいて、人物の存在を検出する人物検出部123と、を備える。このように、人物検出装置1は、特徴点の軌跡に基づいて人物の存在又は人物の不存在を判断するので、人物の姿勢等にかかわらず、人物を検出することができる。すなわち、人物検出装置1は、人物が撮像部11に対して任意の角度に位置しても、人物を検出することができる。また、人物検出装置1は、特徴点を利用するので、人物が僅かに動く場合であっても、高い精度で人物を検出することができる。また、人物検出装置1は、一般に広く利用可能な安価なカメラデバイスを用いて、人物を検出することができる。
【0032】
このような人物検出装置1は、例えば、次のような用途で利用できる。すなわち、人物検出装置1は、監視カメラで撮影された画像からの人物検出、職場でのVisual Display Terminals(VDT)作業、家庭におけるテレビジョンの視聴状況を解析する際の人物検出等に利用できる。
また、人物検出装置1は、人物を検出するばかりでなく、学習を行うことにより、人物の動作を検出することもできる。例えば、人物検出装置1は、人物が食事をしている又は新聞を読んでいる等を検出することもできる。また、人物検出装置1は、例えば、人物が野球をしている(投球をしている)又はバスケットボールをしている(シュートをしている)等を検出することもできる。
また、人物検出装置1は、人物を検出するばかりでなく、学習を行うことにより、動物を検出することもできる。
【0033】
なお、本発明は、プログラムとして構成されてもよい。プログラムは、上述した人物検出装置1、すなわち、コンピュータにおいて実行される。プログラムは、第1ステップと、第2ステップと、第3ステップと、を順に実行する。第1ステップは、動画の各フレームから特徴点を検出する。第2ステップは、第1ステップにおいて検出された特徴点の軌跡に関する特徴量を取得し、特徴量を固定次元で記述する。第3ステップは、第2ステップにおいて固定次元で記述された特徴量と、予め人物の有無が学習された特徴量とに基づいて、人物の存在を検出する。プログラムは、人物検出装置1、すなわち、コンピュータで読み取り可能な記録媒体に記録されていてもよい。記録媒体とは、例えば、フレキシブルディスク、光ディスク、メモリ、又はハードディスク等のことである。