【文献】
椎名雄飛,池永剛,特徴領域に基づくパーティクルフィルタを用いた複雑環境下における物体追跡,SSII2012 第18回画像センシングシンポジウム 講演論文集 [CD−ROM],日本,画像センシング技術研究会,2012年 6月,IS2-15-1〜IS2-15-8
(58)【調査した分野】(Int.Cl.,DB名)
前記尤度取得手段は、前記領域相関係数が所定の閾値を下回る場合は、当該領域相関係数を除外して前記尤度を取得することを特徴とする請求項3に記載の画像認識装置。
前記重みの総和が小さい前記全体観測領域と前記部分観測領域の組ほど前記尤度を小さく補正する尤度補正手段を具備したことを特徴とする請求項3、又は請求項4に記載の画像認識装置。
前記割合設定手段が設定する割合が一方に偏るほど前記尤度が小さくなるように補正を行う偏り補正手段を具備したことを特徴とする請求項3、請求項4、又は請求項5に記載の画像認識装置。
前記割合設定手段と前記重み設定手段は、前記追跡対象の検出に失敗した場合に、それぞれ前記割合と前記重みを一時刻前の画像とは無関係な任意の値に設定することを特徴とする請求項3から請求項6までのうちの何れか1の請求項に記載の画像認識装置。
前記領域相関係数取得手段は、前記設定した割合による線形和によって、前記取得した特徴相関係数を組合せることを特徴とする請求項1から請求項9までのうちの何れか1の請求項に記載の画像認識装置。
【発明を実施するための形態】
【0010】
(1)実施形態の概要
図1(b)に示したように、画像認識装置2は、対象者3の全身を囲む全体観測領域5と、対象者3の特徴的な部分を囲む部分観測領域6a〜6gを、画像4で対象者3が写っていると推測される箇所に設定する。
画像認識装置2は、全体観測領域5と部分観測領域6a〜6gの画像を切り取り、これらと予め学習した画像との類似度をHOG特徴量と色分布特徴量の2つの画像特徴量を組合せて計算する。これら2つの画像特徴量は、得意・不得意とするシーンが異なるが、これを組合せることにより両者を相補的に作用させることができる。
【0011】
また、画像認識装置2は、HOG特徴量と色分布特徴量を組合せる最適な割合(比率)を全体観測領域5と部分観測領域6a〜6gについて個別に計算する。
この割合の決定は、HOG特徴量と色分布特徴量を組合せる重みを設定する重みパラメータαiを状態ベクトルに含めてパーティクルフィルタ(粒子フィルタ)による全数探索の対象とすることにより行う。
このように、画像認識装置2は、2つの画像特徴量をシーンに適した重み付けで組合せることにより、例えば、明暗の変化や対象者3の周囲の歩行者密度の変化などの撮影環境の変化に対して頑健性を有する画像認識、及び追跡を行うことができる。
【0012】
(2)実施形態の詳細
(第1実施形態)
図1(a)は、本実施の形態に係る画像認識装置2の使用形態を説明するための図である。
カメラ1は、例えば、ハンディカムなどで構成された携帯可能な動画撮影カメラである。ユーザは、カメラ1を把持し、追跡対象である対象者3の後について移動しながら、カメラ1で対象者3を動画撮影する。
【0013】
後述するように、画像認識装置2は、例えば、対象者3の人混みとの錯綜や明暗の変化などの状態変化に対して頑健であるため、自らも移動しながらこれらの変化を受けつつ、対象者3を追跡することができる。
そのため、画像認識装置2は、車両やロボットなどの移動体に搭載するのに適している。
【0014】
画像認識装置2は、カメラ1の内部に内蔵されており、撮影された映像の各フレームの画像において対象者3を連続的に検出することにより対象者3を画像上で追跡する。
なお、画像認識装置2をカメラ1の外部に設置し、カメラ1から画像認識装置2に動画を転送してもよい。
以下では、一例として、追跡対象を人物とするが、これは追跡対象を限定するものではなく、任意の移動体を追跡対象とすることができる。
【0015】
図1(b)は、画像4で対象者3を認識する方法を説明するための図である。
画像4は、カメラ1が撮影して画像認識装置2に出力した動画のあるフレームを構成する画像を示している。
このように、画像認識装置2は、画像4を取得する画像取得手段を備えている。
画像認識装置2は、前時刻の画像4(一時刻前の画像、ここでは、1つ前のフレームの画像)で検出された対象者3に基づいて、現時刻の画像4で対象者3が写っていると推測される領域に対象者3の全身を囲む矩形の全体観測領域5と、対象者3の特徴的な部分を囲む矩形の部分観測領域6a〜6gを設定する。
【0016】
図の例では、対象者3の頭部、左側上肢部、腰部、左側下肢部、下肢部の下側、右側下肢部、右側上肢部に部分観測領域6a〜6gが設定されている。
以下では、部分観測領域6a〜6gを特に区別しない場合は、単に部分観測領域6と記し、全体観測領域5と部分観測領域6を特に区別しない場合は、単に観測領域と呼ぶことにする。
【0017】
画像認識装置2は、前時刻の画像4で対象者3を検出した全体観測領域5と部分観測領域6に基づいて、その付近に位置や大きさの異なる全体観測領域5と部分観測領域6をパーティクルフィルタ手法を用いて多数発生させるのであるが、図に示したのは、そのうちの1つの組合せである。
全体観測領域5はルートフィルタ、部分観測領域6はパートフィルタと呼ばれている。
【0018】
このように、画像認識装置2は、取得した画像4において追跡対象を観測する観測領域を、一時刻前の画像で追跡対象の検出に用いた観測領域に基づいて設定する観測領域設定手段を備えている。
そして、当該観測領域設定手段は、観測領域として、追跡対象の全体を観測する全体観測領域5と、追跡対象の部分を観測する複数の部分観測領域6の組を設定している。
【0019】
画像認識装置2は、画像4から、これらの領域で囲まれた部分を切り取り(抽出し)、切り取られた個々の画像が、予め学習した画像とどの程度類似しているかの類似度を表す相関係数(特徴相関係数)を後述の画像特徴量空間における内積によって計算する。
そして、画像認識装置2は、全体観測領域5と部分観測領域6について計算された相関係数を所定の演算により合成(統合)して全体観測領域5、部分観測領域6の組による相関係数(領域相関係数)を計算し、全体観測領域5、部分観測領域6の組による相関係数を用いて尤度を計算する。
尤度は、全体観測領域5と部分観測領域6の組によって観測している対象が、どの程度対象者3であるか、という程度を示す量である。
【0020】
画像認識装置2は、パーティクルフィルタ手法を用いて、大きさや位置などのパラメータが少しずつ異なる全体観測領域5と部分観測領域6a〜6gを多数発生させ、色々な組合せに対して尤度を計算する。これにより尤度分布が得られる。
画像認識装置2は、最大尤度となる全体観測領域5と部分観測領域6a〜6gの組によって観測している対象を対象者3とすることにより、画像4から対象者3を検出する。
なお、尤度に閾値を設け、尤度が当該閾値を超えた場合に、そのときの全体観測領域5と部分観測領域6a〜6gの組によって観測している対象を対象者3とするなど、他の基準を用いてもよい。
【0021】
次に、パーティクルフィルタ手法の概要について説明する。
前時刻の画像4で、全体観測領域5と部分観測領域6a〜6gが定まっており、これを初期状態とする。
この状態を、一例として、状態ベクトルX=(全体観測領域5の位置、全体観測領域5の大きさ、各部分観測領域6の位置、・・・)で表す。
【0022】
現時刻の画像4での全体観測領域5、部分観測領域6は、前時刻のものとさほど異なっていないと考えられるため、状態ベクトルXの各状態変数(状態ベクトルの成分)について、前時刻での値の付近にホワイトノイズを発生させ(前時刻での値を平均値とする正規性白色雑音を発生させる)、これを前時刻での値に重畳することにより現時刻の値であると推測する。ホワイトノイズを重畳した各値がパーティクルに相当する。
【0023】
このように画像認識装置2は、対象者3の状態の遷移を、前時刻の値から決まり、それ以前の履歴を引きずらないマルコフ過程と仮定し、上記の状態遷移モデルにより、前時刻の状態ベクトルを遷移させて現時刻の状態ベクトルを推定する。
【0024】
画像認識装置2は、ホワイトノイズによってパーティクルを無数に発生させることにより、前時刻の観測領域とは少しずつ異なる全体観測領域5と部分観測領域6を無数に生成する。
これによって、画像認識装置2は、この中で尤度が最大となる全体観測領域5と部分観測領域6の組合せを手当たり次第に探索(探査)し、探索された全体観測領域5と部分観測領域6の組によって対象者3を検出する。これは、マルコフ性を用いた逐次的なベイズ推定問題となっている。
【0025】
次に、画像認識装置2は、探索した全体観測領域5と部分観測領域6を初期状態としてパーティクルを発生させて、次の画像4で同様の処理を行う。これを逐次的に繰り返すことにより、画像認識装置2は、動画の連続する各画像4において対象者3を認識・追跡する。
このように、画像認識装置2の用いるパーティクルフィルタ手法では、状態遷移(観測領域を多数発生させる)→観測(最大尤度の組合せを探索)→複製(探索された組合せを初期値にする)のサイクルを繰り返しながら対象を追跡する。
【0026】
基本的には、学習画像と類似する画像を画像4の全体から総当たりで探索するのであるが、対象者3が写っている場所の当たりをつけて、その近辺で探索することにより、画像認識処理を効率化することができる。
【0027】
次に、画像認識装置2が画像認識に用いる画像特徴量について説明する。
画像認識装置2は、HOG(Histogram of Oriented Gradients)特徴量と色分布特徴量の組合せを用いる。
これは、HOG特徴量は、明暗の変化に対して頑健であるが、周囲の人物との区別が困難であるのに対して、色分布特徴量は、明暗の変化に対して弱いが、周囲の人物との区別が容易であるなど、得意とするシーンが異なるため、これらを組合せることにより相補的な効果が期待できるからである。
このように、画像認識装置2は、画像の輝度勾配分布特徴量と、色分布特徴量から成る複数種類の画像特徴量を用いる。
【0028】
図2は、HOG特徴量の概念を説明するための図である。
HOG特徴量は、輝度勾配分布を用いた画像特徴量であって、対象のエッジを検出する技術である。例えて言えば、対象をエッジによるシルエットで認識するものである。
【0029】
HOG特徴量は、次の手順により画像から抽出される。
図2(a)左図に示した画像101を全体観測領域5や部分観測領域6などの注目画像領域とする。
まず、画像101を矩形のセル102a、102b、・・・に分割する。
次に、
図2(a)右図に示したように、セル102ごとに各画素(ピクセル)の輝度勾配方向(低輝度から高輝度に向かう方向)を例えば8方向に量子化する。
【0030】
次に、
図2(b)に示したように、量子化した輝度勾配の方向を階級とし、出現回数を度数とするヒストグラムを生成することにより、セル102に含まれる輝度勾配のヒストグラム106をセル102ごとに作成する。
そして、セル102をいくつか集めたブロック単位でヒストグラム106の合計度数が1となるように正規化する。
【0031】
図2(a)左図の例では、セル102a、102b、102c、102dから1ブロックが形成されている。
このようにして正規化したヒストグラム106a、106b、・・・を
図2(c)のように一列に並べたヒストグラム107が画像101のHOG特徴量である。
【0032】
HOG特徴量を用いた画像の類否程度の判断は、次のようにして行う。
まず、HOG特徴量の度数(M個あるとする)を成分とするベクトルφ(x)を考える。ここで、xは、画像101を表すベクトルであり、x=(第1番目の画素の輝度、第2番目の画素の輝度、・・・)である。
なお、ベクトルは太字などで表すが、文字化け防止のため、以下では、通常の文字で表す。
【0033】
図2(d)は、HOG特徴量空間を表しており、画像101のHOG特徴量は、M次元空間のベクトルφ(x)に写像される。
なお、図では簡単化のためHOG特徴量空間を2次元空間で表してある。
一方、Fは、人物画像の学習によって得た重みベクトルであり、多数の人物画像のHOG特徴量を平均化したベクトルである。
【0034】
画像101が学習した画像に類似する場合、φ(x)は、ベクトル109のようにFの周辺に分布し、類似しない場合は、ベクトル110、111のようにFとは異なる方向に分布する。
Fとφ(x)は、規格化されており、Fとφ(x)の内積で定義される相関係数は、画像101が学習画像に類似するほど1に近づき、類似程度が低いほど−1に近づく。
このように、類似判断の対象となる画像をHOG特徴量空間に写像することにより、学習画像に類似している画像と類似していない画像を輝度勾配分布により分離することができる。
【0035】
輝度勾配分布を用いた特徴量抽出技術には、HOGのほかに、HOGを改良したCoHOG(Co−occurrence HOG)や、これを更に強化したMRCoHOG(Multi Resolution CoHOG)などがあり、何れを用いてもよい。
【0036】
図3は、色分布特徴量の概念を説明するための図である。
図3(a)に示した注目領域の画像101は、色々な色成分(色1、色2、・・・)を有する画素から構成されている。
これら色成分の出現頻度からヒストグラム121を作成すると、その度数を成分とするベクトルqが得られる。
一方、
図3(b)に示したように、追跡対象モデルについても同様のヒストグラム122を作成し、その度数を成分とするベクトルpを作成する。
【0037】
これら色成分がN個あるとすると、画像101と追跡対象モデルの色分布は、
図3(c)に示したように、N次元の色分布特徴量空間ベクトルp、qに写像される。
画像101の画像が追跡対象モデルに類似する場合、qは、ベクトル123のようにpの周辺に分布し、類似しない場合は、ベクトル124、125のようにpとは異なる方向に分布する。
【0038】
qとpは、規格化されており、qとpの内積で定義される相関係数は、画像101が追跡対象モデルに類似するほど1に近づき、類似程度が低いほど−1に近づく。
このように、類似判断の対象となる画像を色分布特徴量空間に写像することにより、追跡対象モデルに類似している画像と類似していない画像を色分布特徴量により分離することができる。
【0039】
次に、これらの要素技術を用いた尤度計算方法について説明する。
図10は、実施形態で使用する各計算式を表したものである。
画像認識装置2は、HOG特徴量を用いた観測と色分布特徴量を用いた観測を観測領域ごとに行い、HOG特徴量の相関係数と色分布特徴量の相関係数を動的に組合せて尤度を計算する。具体的には、尤度L(x)の計算式を
図10の式(1)で定義する。
【0040】
式(1)の右辺第1項目は、i=0からnまでR(xi)の総和を取る。
なお、nは、部分観測領域6の個数であり、i=0、1、2、・・・は、全体観測領域5、部分観測領域6a、6b、・・・に対応する。
また、文字化け防止のため、下付小文字を全角文字で記すことにする。
【0041】
R(xi)は、
図10の式(2)で示したように、i番目の観測領域におけるHOG特徴量の相関係数(項2a)と色分布特徴量の相関係数(項2b)の線形和となっている。
αiは、当該線形和における重みパラメータであり、0から1までの値を取ることができるが、画像認識装置2では、0.25から0.75までの値とし、必ず両者がR(xi)に寄与するように設定している。
【0042】
ここで、項(2a)、(2b)のφ(xi)と、qiは、i番目の観測領域のHOG特徴量と色分布特徴量であるため、画像認識装置2は、設定した観測領域から複数種類の画像特徴量を取得する画像特徴量取得手段を備えており、当該画像特徴量取得手段は、全体観測領域5、及び部分観測領域6ごとに複数種類の画像特徴量を取得している。
また、項(2a)、(2b)のFi、piは、基準特徴量として機能している。そして、項(2a)、(2b)は、それぞれ、i番目の観測領域におけるHOG特徴量と色分布特徴量の相関係数(類似度)を表しており、特徴相関係数として機能している。
そのため、画像認識装置2は、取得した画像特徴量ごとに基準特徴量との特徴相関係数を取得する特徴相関係数取得手段を備え、当該特徴相関係数取得手段は、全体観測領域5、及び部分観測領域6ごとに画像特徴量ごとの特徴相関係数を取得している。
【0043】
図10の式(2)によると、αiが大きいほどR(xi)に対するHOG特徴量の寄与が大きくなり、αiが小さくなるほど色分布特徴量の寄与が大きくなる。
そのため、αiを適当に選択することにより、シーンに適した値を得ることができ、頑健性が向上する。
αiの値は、基本的には0.25から0.75まで全数探索するが、隣接するフレームでHOG特徴量と色分布特徴量が極端に急変することは考えにくいため、前時刻での値付近を重点的に探索することにより効率化を図る。
より具体的には、後述するように、画像認識装置2は、αiも状態ベクトルに含め、パーティクルフィルタ手法により動的に推定する。
【0044】
ここで、αiは、取得した画像特徴量ごとの特徴相関係数を組合せる割合として機能しており、画像認識装置2は、これを前時刻で値に基づいて設定するため、これを一時刻前の画像4で追跡対象の検出に用いた割合に基づいて設定する割合設定手段を備えている。そして、当該割合設定手段は、全体観測領域5、及び部分観測領域6ごとに当該割合を設定している。
【0045】
また、R(xi)は、割合設定手段で設定した割合で特徴相関係数を組合せることによりi番目の観測領域に対して設定された領域相関係数として機能しており、画像認識装置2は、当該領域相関係数を取得する領域相関係数取得手段を備えている。
そして、当該領域相関係数取得手段は、一例として、設定した割合による線形和によって、特徴相関係数を組合せている。
更に、当該領域相関係数取得手段は、i番目のR(xi)を計算することにより、全体観測領域5、及び部分観測領域6ごとに領域相関係数を取得している。
【0046】
図10の式(1)の第2項目は、ペナルティと呼ばれ、項(1b)をj=1からnまで、即ち、全ての部分観測領域6に対して加算する。このように、ペナルティには、全体観測領域5は、含まれていない。
ペナルティは、例えば、歩行している対象者3の頭部が突然腹部の辺りに現れるなど、全体観測領域5に対して部分観測領域6が不自然な態様を取った場合に、そのような全体観測領域5と部分観測領域6の組合せを除去するための量である。ペナルティが大きいほど不自然で排除すべき対象となる。
本実施の形態では、従来技術で利用されているペナルティを用いた。
【0047】
図10の式(1)に示した項(1b)におけるベクトルdjは、変形コストと呼ばれ、式(3)で表される。この量は、部分観測領域6の不自然な態様を学習させたものである。
項(1b)のベクトルφdは、部分観測領域6の遷移状態を表しており、式(4)で表される。このベクトルφdの成分(dx、dy)は、部分観測領域6の位置に対応し、(dxの自乗、dyの自乗)は、部分観測領域6の移動距離に対応している。即ち、φdは、部分観測領域6の位置と移動距離を合わせた量である。
このφdとdjとの内積を取ることにより不自然度が計算され、部分観測領域6の位置や移動距離が不自然なほど、尤度L(x)から大きなペナルティが減算されることになる。
【0048】
次に、本実施の形態で用いた状態ベクトルについて説明する。
画像認識装置2は、全体観測領域5と部分観測領域6の組を多数発生させて、尤度を最大化するものを探索するが、s番目の組の状態ベクトルXsは、例えば、Xs=((x、y)、大きさ、(dxj、dyj)、αi)によって表される。
【0049】
j=1、2、・・・、n、i=0、1、・・・、nとし、nは部分観測領域6の個数である。
(x、y)は、全体観測領域5の中心座標、大きさは全体観測領域5の大きさ、(dxj、dyj)は、部分観測領域6の配置、αiは、式(2)で用いられる重みパラメータである。
【0050】
画像認識装置2では、前時刻のこれらの値に対して、例えば、正規性白色雑音(ガウスノイズ;正規分布乱数)を重畳したパーティクルを次々に発生させることにより前時刻での値近辺で観測領域の複数の組を次々に作成して状態を遷移させる。
なお、正規性白色雑音は、正規分布(ガウス分布)に従って発生する白色雑音(ホワイトノイズ)である。
【0051】
例えば、i番目の領域の時刻tにおけるαをα(i、t)と表すと、α(i、t)=N(α(i、(t−1))、σαの自乗)と表される。即ち、遷移後のαの分布は、前時刻のαを平均とし、分散がσαの自乗である正規分布となる。
このように、画像認識装置2は、各状態変数を、前時刻の値を平均とし、状態変数ごとの分散で遷移させる状態遷移モデルを用いている。
【0052】
そして、画像認識装置2は、重みパラメータαiを状態ベクトルに含め、パーティクルフィルタ手法によりこれも動的に推定する。
即ち、パーティクルフィルタ手法の逐次推定のアルゴリズムの中にαiを含めてαiも逐次ベイズ推定で有効な値を推定させるのである。
そして、画像認識装置2は、尤度L(x)を最大とする全体観測領域5と部分観測領域6の組を特定することにより、即ち、尤度L(x)を最大にする状態ベクトルを特定することにより対象者3を検出する。
【0053】
このように、画像認識装置2は、観測領域設定手段が設定する観測領域と、割合設定手段が設定する割合を変化させながら、領域相関係数取得手段が取得する領域相関係数を用いて観測領域で観測している対象の尤度を繰り返し取得する尤度取得手段を備えている。
そして、当該尤度取得手段は、全体観測領域5、及び部分観測領域6ごとの領域相関係数を用いて尤度L(x)を取得している。
更に、画像認識装置2は、最大尤度を与える全体観測領域5と部分観測領域6の組によって対象者3を検出するため、当該尤度取得手段で得られた複数の尤度のうち、所定の条件を満たす尤度の取得元となった観測領域で追跡対象を検出する検出手段を備えており、当該所定の条件は、尤度の最大値となっている。
【0054】
画像認識装置2は、一例として、パーティクルの数に上限を設け、全てのパーティクルについて尤度L(x)を求めて最大値を探索することにより対象者3を探索するが、他の条件を用いることも可能である。
例えば、尤度L(x)に所定の閾値を設定し、これを満たした時点で探索を終了したり、あるいは、尤度L(x)の分布を取得する過程で、極大点が現れてきたら、極大を与える尤度L(x)を採用して探索を終了する、といったことも可能である。
【0055】
図4(a)は、対象者3を追跡する実験でのαの併用状況を記録したグラフを表している。
縦軸は、全体観測領域5の重みパラメータα0を表している。この重みパラメータα0は、色分布特徴量とHOG特徴量による認識の割合が規定され、両者の認識割合の合計は1である。例えば、重みパラメータα0が0.4である場合、色分布特徴量による認識の割合が0.4、HOG特徴量による認識の割合が0.6となる。
このため、重みパラメータα0の値は0から1の範囲とすることが可能であるが、本実施形態では、0.2から0.75の範囲となっている。
なお、重みパラメータαiの取り得る範囲は、追跡対象の種類や大きさ特徴的な形状などによって変更するようにしてもよい。
【0056】
横軸は、追跡対象を撮影した動画のフレーム番号を表しており、時間の推移を示している。
実験では、大型建築物の構内で対象者3を歩行させ、その後を追いながら対象者3をカメラ1で撮影した。
対象者3は、周囲から目立つ赤い服を着ており、
図4(b)に示した照明の明るい地点31から、
図4(c)に示した影の多い薄暗い地点32に向けて進んだ。
【0057】
地点31では、環境が明るく色がよく観察できるため、色分布特徴量による認識が優位と考えられる。
一方、地点32では、環境が暗く、色による識別が困難なため、明暗の変化に対して強いHOG特徴量が優位になると考えられる。
【0058】
実験結果は、グラフに示したように、地点31では、α0が0.4程度で色分布特徴量による認識が優位となっているが、対象者3が暗がりに向かって進むにつれてα0の値が徐々に上昇してHOG特徴量による認識の割合が増えていき、地点32では、α0が0.7程度になった。
この実験により、環境に応じたHOG特徴量と色分布特徴量のシーンに応じた役割分担がねらい通りに機能していることが確認できた。
部分観測領域6a、6b、・・・におけるパラメータα1、α2、・・・も同様である。
【0059】
以上に説明した第1実施の形態により、次のような効果を得ることができる。
(1)HOG特徴量と色分布特徴量を組合せ、状況に応じてこれらの重み付けを変化させることにより、状況変化に対して頑健(ロバスト)な画像認識を行うことができる。
(2)重みパラメータαiを状態ベクトルに含めることにより、パーティクルフィルタ手法を用いて最適な値を動的に推定することができる。
(3)状況の変化に対して頑健性を有するため、画像認識装置2をロボットや車両などの移動体に搭載し、移動体周辺の追跡対象を移動しながら追跡したり、あるいは、移動体に接近する対象を避けたりすることが可能となる。
【0060】
(第2実施形態)
本実施の形態では、対象者3の部分隠れに対する頑健性を向上させる。
対象者3の追跡中に、他の歩行者や障害物などの遮蔽物が観測領域に侵入し、これによって尤度が低下して追跡が破綻する場合がある。
そこで、第2実施形態では、
図10の式(5)に示したように、各観測領域の相関係数R(xi)を重みパラメータWiで重み付けし、隠れが生じている観測領域の寄与度を低く調節する。
【0061】
図10の式(5)のWiは、i番目の観測領域に対する重みパラメータであり、0から1までの値をとる。
具体的には、W0は、全体観測領域5の重みパラメータである。また、W1、W2、・・・は、部分観測領域6a、6b、・・・の重みパラメータである。
重みパラメータWiの値は、基本的に全数探索で決定するが、対象者3の一部分が隠れる場合、時系列的に徐々に隠れていく。
これにより、重みパラメータWiの値は、前時刻の値とそれほど差がないと考えられるので、その付近を中心に探索する。
そこで、重みパラメータWiを状態ベクトルにXsに含めて、Xs=((x、y)、大きさ、(dxj、dyj)、αi、Wi)とし、パーティクルフィルタ手法により探索する。
【0062】
このように、画像認識装置2は、全体観測領域5、及び部分観測領域6ごとの領域相関係数R(xi)に、一時刻前の画像で追跡対象の検出に用いた重みに基づいて重みを設定する重み設定手段を備えており、尤度取得手段は、当該重みも変化させながら、尤度を繰り返し取得する。
【0063】
重みパラメータWiの推定方法の基本は、上記の通りであるが、更なる性能の向上を図るため、画像認識装置2は、R(xi)の値が所定の閾値より小さい場合は、その観測領域で隠れが生じていると判断して重みパラメータWi=0とする。
これは、R(xi)は、−1から1までの値を取るが、隠れが生じた場合、R(xi)は、−1に近い値となるため、尤度L(x)から大きく減算されて検出が不安定になるのを抑制するためである。
【0064】
そこで、画像認識装置2は、R(xi)が所定の閾値を下回った場合は重みパラメータWiを0とする補正を行うことにした。閾値は、実験によって求めればよいが、ここでは、一例として、R(xi)が負の場合に重みパラメータWi=0とする。
これにより、隠れが生じている観測領域を尤度計算から切り離し、対象者3を認識している観測領域によって対象者3を認識することができる。
このように、尤度取得手段は、領域相関係数R(xi)が所定の閾値を下回る場合は、当該領域相関係数を除外して尤度を取得する。
【0065】
図5(a)は、隠れが生じていない場合の重みパラメータWiを示した例である。
対象者3は、歩行者200と共に歩行しているが、両者は、カメラ1の視界で重なっていない。
この場合、全体観測領域5と部分観測領域6には隠れが生じていないため、W0〜W6は、何れも1.0となる。
【0066】
図5(b)は、隠れが生じている場合の重みパラメータWiを示した例である。
対象者3の一部が歩行者200と重なり、隠れが生じている。
部分観測領域6b、6cは、隠れが殆どないため、W2、W3=1.0となっている。
部分観測領域6a、6dは、隠れが軽微なため、W4=0.8、W4=0.9となっている。
【0067】
全体観測領域5と、部分観測領域6eは、半分ほど隠れているため、W0=0.7、W5=0.6となっている。
部分観測領域6fは、殆ど隠れてしまってR(x6)が負となるため、W6=0.0とし、尤度L(x)の計算から部分観測領域6fを分離する。
【0068】
以上に説明した第2実施形態により、次のような効果を得ることができる。
(1)観測領域の組合せにおいて、尤度計算に寄与する最適な値に重み付けを各観測領域に対して設定することができる。
(2)重みパラメータWiを状態ベクトルに含めることにより、パーティクルフィルタ手法を用いて最適な値を動的に推定することができる。
(3)隠れを含むような尤度の低下に繋がる観測領域の重みパラメータWiが小さくなり、隠れによるノイズを低減した尤度計算が可能になる。
(4)隠れが大きい観測領域に関しては、これを尤度の計算から切り離すことができ、対象者3を観測している観測領域によって適切な尤度を得ることができる。
(5)対象者3に部分的な隠れが発生しても追跡を継続することができるため、人の往来や交通の激しい場所でも対象者3を追跡することができる。
【0069】
(第3実施形態)
本実施の形態では、重みパラメータWiに基づいて尤度の信頼性を評価し、これを尤度に反映させる。
例えば、重みパラメータ(W0、W1、W2、W3、W4、W5、W6)が(1.0、1.0、1.0、1.0、1.0、1.0、1.0)の場合の尤度と、(0.4,1.0、0.3、0.2、0.1、0.0、0.0)の場合の尤度が同じだったとする。
【0070】
この場合、重みパラメータWiの値が全体的に大きい前者の方が対象者3を全体的に観察しているため、信頼性が高いと考えられる。
即ち、一部の局所領域に偏った観測では、部分的に類似した特徴を持つ物体を誤って追跡する可能性が高くなるため、より多くの観測結果を反映した尤度の方が信頼できると考えられる。
【0071】
そこで、本実施の形態では、重みパラメータWiの総和によって信頼性(信頼度)を評価する信頼性因子を
図10の式(6)の項(6a)で定義し、これを尤度L(x)に乗じることにより、信頼性が低い場合は、尤度が小さく補正されるようにした。
【0072】
項(6a)は、重みパラメータWiの和をn+1で除して正規化されており、信頼性が低いほど0に近い値をとり、信頼性が高いほど1に近い値をとる。
γ乗するのは、所謂ガンマ補正であり、総和が尤度計算に与える影響力の特性を調節するパラメータである。
【0073】
例えば、γが2の平方根(ルート2)の場合は、0付近での立ち上がりが大きく、1に近づくにつれて緩やかに変化し、γが2の場合は、0付近での立ち上がりが小さく1に近づくにつれて急激に変化する。最適なγは、実験により決定される。
【0074】
図10の式(6)により、信頼性が低いほど(重みパラメータWiの総和が小さいほど)尤度L(x)は、小さく補正される。
これにより、極端に信頼性の低い観測領域の組を探索対象から除外することができる。
このように、画像認識装置2は、重みパラメータWiの総和が小さい全体観測領域5と部分観測領域6の組ほど尤度を小さく補正する尤度補正手段を備えている。
【0075】
第3実施の形態によって、次のような効果を得ることができる。
(1)重みパラメータWiの総和に基づいた重みによる信頼性因子によって、尤度の信頼性を尤度計算に反映させることができる。
(2)尤度分布を得る際に、信頼性の低い観測領域の組を淘汰し、信頼性の高い観測領域の組を生き残らせることができる。
(3)観測する領域が一部分に極端に偏った観測領域の組を選択的に無視し、全体的にバランスよく観測している組を優遇することにより、できるだけ多くの全体観測領域5と部分観測領域6による観測結果を尤度計算に反映させることができる。
(4)γ補正によって感度を調節することができる。
【0076】
(第4実施形態)
本実施の形態では、HOG特徴量と色分布特徴量の何れかに偏った尤度計算に対して負荷を与え、両者をバランスよく用いたものの尤度を大きくする。
HOG特徴量、あるいは色分布特徴量の一方に極端に偏った尤度も信頼性が低いと言えるが、これを是正するために、本実施の形態では、
図10の式(6)に式(7)を乗じる。
先に説明した項(6a)は、重みパラメータWiの極端な偏りに起因する信頼性の低下を評価する信頼性因子であったが、式(7)は、αiの極端な偏りに起因する信頼性の低下を評価する信頼性因子である。
【0077】
maxは、αiの取りうる最大値であって、ここでは、0.75に設定されている。u乗、v乗するのは、ガンマ補正であり、αiの偏りが尤度計算に与える影響力の特性を調節するパラメータである。
図10の式(7)は、本願発明者によって経験的に得られたものであり、各観測領域のαiが0.5に近いほど1に近くなり、0.5から離れるほど小さくなる。
【0078】
即ち、HOG特徴量と色分布特徴量のバランスが等しいときに1となり、バランスが崩れるほど0に近づく。
そのため、HOG特徴量と色分布特徴量のバランスが悪いものほど尤度が低く補正される。
図10の式(7)は、式(1)や式(5)に乗じることもできる。
このように、画像認識装置2は、割合設定手段が設定する割合αiが一方に偏るほど尤度が小さくなるように補正を行う偏り補正手段を備えている。
【0079】
第4実施形態により、次のような効果を得ることができる。
(1)HOG特徴量と色分布特徴量を同じ程度バランスよく用いている傾向のある観測領域の組ほど組合せの試行で生き残り易い。
(2)何れかの画像特徴量に偏りすぎて誤認識する可能性を低減することができる。
(3)αiは、前時刻でのαiの付近で探索するため、αiの極端な偏りが一度発生すると、それが後続のαiに影響するが、後続のαiが不適切なαiに引きずられるのを抑制することができる。
【0080】
(第5実施形態)
本実施の形態では、追跡が破綻した場合に、状態遷移モデルを切り替えることにより追跡対象を発見して追跡を再開する。
図6(a)は、画像認識装置2が対象者3を認識し、全体観測領域5と図示しない部分観測領域6によって対象者3を追跡しているところを示している。
図6(b)は、追跡中に対象者3が歩行者200の前に回り込んでカメラ1の視界から消えたところを示している。
対象者3がカメラ1の画像から消えると、各観測領域の相関係数が次々に低下し、追跡が破綻する。
【0081】
画像認識装置2は、各観測領域の相関係数R(xi)や重みパラメータWiの変化から追跡破綻を検出する。
例えば、画像認識装置2は、尤度L(x)が所定の閾値Th1を下回った場合、あるいは、重みパラメータWiの合計が所定の閾値Th2を下回った場合に、追跡が破綻したと判断する。
前者の条件では、相関係数R(xi)が著しく高い観測領域がある場合には、これによって追跡が可能となる。
後者の条件では、大半の観測領域が隠れた場合はノイズが多いため追跡を中断する。
このように追跡が破綻した判断すると、画像認識装置2は、状態遷移モデルを次のように切り替えて探索範囲を広げ、対象者3の発見に努める。
まず、観測領域の座標と観測領域の大きさなどについては、正規性白色雑音の分散値を追跡時よりも大きく設定する。これにより、追跡が破綻している間に状態が大きく変化する対象者3を観測しやすくなる。
なお、分散値を時間の関数とし、対象者3を見失っている時間が長いほど探索範囲を広げるように時間と共に広げてもよい。
【0082】
重みパラメータαiと重みパラメータWiについては、追跡時は、それぞれ、前時刻の値を中心とするガウス分布にて遷移後の値を推測していたが、破綻後は、これらの値がどのような値になるか不明であるため、これらを乱数(ランダム)として前時刻の状態を考慮しない遷移を行う。
対象者3の全体が隠れた状態が解消するときには、どの観測領域から観測可能になるか分からないため、乱数による予測であらゆる状態を考慮するものである。
【0083】
また、追跡時は、状態遷移→観測→複製、のサイクルを繰り返していたが、破綻時は、状態遷移→観測、のサイクルを繰り返す。
画像認識装置2は、
図6(c)に示したように、対象者3を発見すると、再び全体観測領域5と図示しない部分観測領域6を設定して追跡を再開する。
このように、割合設定手段と重み設定手段は、追跡対象の検出に失敗した場合に、それぞれ割合と重みを一時刻前の画像とは無関係な任意の値に設定している。
【0084】
第5実施形態により、次のような効果を得ることができる。
(1)対象者3の全身、あるいは大部分が隠れることによって追跡が破綻した場合でも、対象者3が現れ始めた際に、速やかに復帰することができる。
(2)追跡時の状態遷移モデルと、追跡破綻時の状態遷移モデルを用意し、追跡状況に応じて、使用する状態遷移モデルを切り替えることができる。
(3)追跡破綻時の状態遷移モデルでは、位置などに関しては破綻時の位置を基準に探索範囲を広げ、重みパラメータαi、重みパラメータWiに関してはランダムに変化させるなど、対象者3の発見に適した値を設定することができる。
(4)追跡が破綻した場合でも復帰するためのモードが用意されているため、人や車両の往来が激しい場所でも使用に耐えることができる。
【0085】
図7は、画像認識装置2のハードウェア構成を説明するための図である。この構成は、第1実施形態〜第5実施形態に対して共通である。
画像認識装置2は、CPU(Central Processing Unit)21、ROM(Read Only Memory)22、RAM(Random Access Memory)23、撮影装置24、記憶装置25、入力装置26、出力装置27、インターフェース28などバスラインで接続されて構成されている。
【0086】
CPU21は、記憶装置25に記憶された画像認識プログラムに従って画像認識処理を行うほか、画像認識装置2の各部の制御などを行う。
より詳細には、CPU21は、撮影装置24から入力される画像4に対して観測領域を設定して対象者3を認識し、追跡する。
【0087】
ROM22は、CPU21が画像認識装置2を動作させるための基本的なプログラムやパラメータなどを記憶した読み取り専用のメモリである。
RAM23は、CPU21が上記処理を行うためのワーキングメモリを提供する読み書きが可能なメモリである。
撮影装置24から入力された画像4は、RAM23に展開されてCPU21により利用される。
【0088】
撮影装置24は、被写体を投影する光学系と、投影された投影像を電気信号に変換する撮像面を用いて構成されており、画像4をフレームとする動画データを生成して出力する。
また、撮影装置24は、マイクロフォンも備えており、これで音声を検出して、音声の含まれた動画データを生成する。
【0089】
記憶装置25は、例えば、ハードディスクや半導体メモリなどの記憶媒体を用いた記憶装置であり、CPU21に上記の画像認識処理を行わせるための画像認識プログラムなどを記憶している。
また、記憶装置25は、撮影した動画データを記憶するデータ記憶部も備えている。
【0090】
入力装置26は、画像認識装置2に各種の情報を入力する装置であり、ユーザが画像認識装置2を操作するための操作ボタンなどの入力デバイスで構成されている。
出力装置27は、画像認識装置2が各種の情報を出力する装置であり、例えば、操作画面や、撮影中・撮影済みの動画を表示する液晶ディスプレイなどの出力デバイスで構成されている。
インターフェース28は、画像認識装置2を外部機器に接続するインターフェースであって、例えば、インターフェース28を介して画像認識装置2をロボットや車両、あるいは、パーソナルコンピュータに接続し、動画データや追跡データを転送するのに用いられる。
【0091】
図8は、第5実施形態の画像認識装置2が画像認識処理を行う手順を説明するためのフローチャートである。
以下の処理は、記憶装置25に記憶した画像認識プログラムに従ってCPU21が行うものである。
まず、画像認識装置2は、撮影装置24から画像4を取得してRAM23に記憶する(ステップ5)。
【0092】
次に、画像認識装置2は、状態ベクトルを構成する各状態変数(全体観測領域5の位置、全体観測領域5の大きさ、各部分観測領域6の位置、各αi、各重みパラメータWiなど)の前時刻の値に正規性白色雑音を重畳するなどして状態を遷移させる(ステップ10)。
次に、画像認識装置2は、遷移した状態で定まる観測領域の組に対して尤度計算処理を行う(ステップ15)。
【0093】
次に、画像認識装置2は、対象者3の探索が終了したか否かを判断する(ステップ20)。
この判断は、例えば、パーティクルの上限であるN個の場合について全て探索したか否かにより判断する。
【0094】
探索が終了していない場合(ステップ20;N)、画像認識装置2は、ステップ10に戻って、更に状態ベクトルを遷移させて尤度計算を続行する。
一方、探索が終了した場合(ステップ20;Y)、画像認識装置2は、探索した尤度のうち、最大尤度を与える観測領域の組から対象者3を検出する(ステップ25)。
【0095】
次に、画像認識装置2は、追跡を続行するか否かを判断する(ステップ30)。
この判断は、例えば、ユーザが追跡終了ボタンを押すなど、所定の追跡終了操作がなされたか否かにより判断する。
【0096】
追跡を続行する場合(ステップ30;Y)、画像認識装置2は、ステップ5に戻り、動画フレームを構成する次の画像に対して同様の処理を行って対象者3を検出する。
一方、追跡を終了する場合(ステップ30;N)、画像認識装置2は、処理を終了する。
以上のようにして、画像認識装置2は、連続する動画のフレーム画像で対象者3を連続的に検出することにより、対象者3を追跡する。
【0097】
図9は、ステップ15の尤度計算処理を説明するための図である。
画像認識装置2は、観測領域を識別するパラメータiを0に初期化する(ステップ105)。
ここでは、部分観測領域6が6個あるものとする。そのため、i=0は、全体観測領域5に対応し、i=1〜6は、部分観測領域6a〜6fに対応する。
【0098】
次に、画像認識装置2は、i番目の観測領域の画像を取得する(ステップ110)。例えば、i=0の場合は、全体観測領域5の画像を取得する。
そして、画像認識装置2は、i番目の観測領域の画像からHOG特徴量φ(xi)を取得し(ステップ115)、
図10の式(2)の項(2a)によりHOG特徴量の相関係数を計算する(ステップ120)。
【0099】
次に、画像認識装置2は、i番目の観測領域の画像から色分布特徴量qiを取得し(ステップ125)、式(2)の項(2b)により色分布特徴量の相関係数を計算する(ステップ130)。
次に、画像認識装置2は、両相関係数を重みパラメータαiに基づく割合で加算し、式(2)のR(xi)を計算する(ステップ135)。
【0100】
次に、画像認識装置2は、R(xi)に重みパラメータWiを乗じてR(xi)の重みを補正する(ステップ140)。
次に、画像認識装置2は、iを1だけインクリメントし(ステップ145)、iが6より大きいか否かを判断する(ステップ150)。
iが6以下の場合は(ステップ150;N)、まだ未処理の部分観測領域6があるため、ステップ110に戻って、次の部分観測領域6について処理する。
【0101】
一方、iが6より大きい場合は(ステップ150;Y)、全体観測領域5と全ての部分観測領域6について相関係数を計算したので、
図10の式(1)の項(1b)によって各部分観測領域6についてのペナルティを計算し、その合計をR(x)から減算する(ステップ155)。
次に、画像認識装置2は、
図10の式(6)の項(6a)によって、重みパラメータWiの信頼性に基づいて尤度L(x)を補正する(ステップ160)。
【0102】
更に、画像認識装置2は、
図10の式(7)によってαiの偏りによる補正項を計算し、これをステップ160で計算した式(6)の値に乗じて尤度L(x)を補正する(ステップ165)。
次に、画像認識装置2は、各種の補正を施した尤度L(x)を出力する(ステップ170)。
【0103】
(第6実施形態)
本実施の形態では、画像認識装置2を備えたカメラ1を移動体に搭載する。
カメラ1は、環境変化に対して頑健に対象を追跡できるため、移動体に搭載して様々な環境の中を移動しながら対象を追跡することができる。
例えば、移動体が車両の場合は、カメラ1を車両前方に設置し、車両の前景を撮影する。
これにより、車両は、カメラ1の映像から前方を走行する他車両を追跡することにより、当該他車両に追随して所謂コンボイ走行を行ったり、前方を移動する車両や歩行者の追跡軌跡から衝突の危険を判断した場合には、ブレーキを作動させたり、走行方向を変えて回避動作を行ったりなどする。このように、画像認識装置2は、自動運転技術やその他の技術に応用することができる。
【0104】
また、移動体がロボットの場合は、ロボットの目として利用し、例えば、家庭でサービスを提供したり(例えば、荷物を持って主人の後を追跡する)、動いている対象を追跡しながらロボットアームでこれを把持したり、家畜を追跡しながら誘導したりなど、民生分野、工業分野、農業分野など、産業の各分野で用いることができる。
このように、本実施の形態では、画像認識装置2を用いて対象を検出する検出手段と、検出した対象に対して所定の位置に移動する移動手段と、を備えた移動体装置を提供することができる。
【0105】
以上に説明した実施の形態は、一例であって、各種の変形が可能である。
(1)画像認識装置2は、一例として2つの画像特徴要素(HOG特徴量と色分布特徴量)の組合せを用いて画像認識するが、これに限定するものではなく、他の画像特徴要素を用いてもよく、また、3個以上の画像特徴要素を組合せてもよい。
例えば、3種類組合せる場合は、第1の特徴量、第2の特徴量、第3の特徴量をαi、βi、1−αi−βiの割合で加算する。ただし、0<αi、βi<1、及びαi+βi<1である。全特徴要素を最低でもある割合で必ず含めるために、更にαi、βiの値を制限してもよい。
HOG特徴要素、色分布特徴要素の他の画像特徴要素を使用できる。
【0106】
(2)画像認識装置2は、一例として、HOG特徴量の相関係数と色分布特徴量の割合αiによる線形和で相関係数R(xi)を計算したが、これは、R(xi)の計算方法を限定するものではなく、HOG特徴量、色分布特徴量、αiの組合せから任意の計算方法によって算出するものとしてよい。
【0107】
(3)画像認識装置2は、全体観測領域5と複数の部分観測領域6の組合せによって対象者3を検出するが、本実施の形態の特徴である複数種類の画像特徴データを組合せて対象を認識する技術は、単一の検出窓にて対象を認識するシステムに適用することもできる。