【文献】
秦 高志、堀田 政二,“実環境画像からの撮影位置の特定”,映像情報メディア学会技術報告,日本,(社)映像情報メディア学会,2010年 8月30日,Vol.34, No.34,pp.71-72
【文献】
河合 吉彦、外3名,“テクスチャ特徴に基づくテレビ番組映像からの高次特徴抽出”,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2008年10月16日,Vol.108, No.263,pp.7-12
(58)【調査した分野】(Int.Cl.,DB名)
学習用データとして入力された前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部をさらに具備し、
前記識別部は、前記識別器学習部によって求められた前記パラメーターを前記予め学習済みのパラメーターとして用いることによって、未知の前記入力画像が正例であるか負例かを識別する、
ことを特徴とする請求項2に記載の識別装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献2に記載の技術では、フレーム画像を分割する際に、たとえば縦横2×2分割あるいは縦横1×3分割といったように、固定サイズ、固定位置での分割を行なってしまっている。このように分割のサイズや方法を固定してしまうと、被写体のサイズ変動に対する頑健性が不足してしまうという問題が生じる。たとえば同じ自動車であっても、フレーム画像全体にアップで被写体として映る場合もあれば、フレーム画像の隅のほうに小さく映る場合もある。分割された領域の画像サイズを固定することによって、そのサイズから外れるような自動車を検出できなくなるおそれもある。
【0007】
また、別の問題として、フレーム画像を分割した際に、目的とする被写体が領域の境界をまたぐ場合もあり得る。被写体が領域の境界をまたいだ場合は、分割された画像から得られる特徴ベクトルに、被写体全体の情報が正確に反映されなくなってしまう。
【0008】
これらの問題は、フレーム画像から特定の被写体を検出する際の精度の低下につながる。本発明は、このような事情を考慮して為されたものであり、高精度な被写体検出を行なうための画像特徴量算出装置、学習装置、識別装置、およびそのプログラムを提供するものである。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様による画像特徴量算出装置は、入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部と、前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部とを具備する。
【0010】
ここで「領域画像」とは、入力画像の一部分の領域の画像である。なお、入力画像と全く同一の領域の画像もまた領域画像である。領域画像が複数のサイズであるということは、縦および横のサイズ(画素数等の単位)が様々な領域画像を用いることを表わす。複数のサイズは、所定の差で段階的に変化する画素数である場合(つまり、矩形画像の縦または横の辺の長さが等差数列を為すように段階的な領域画像を用いる場合)もあり得る。また、所定の比で段階的に変化する画素数である場合(つまり、矩形画像の縦または横の辺の長さが等比数列を為すように段階的な領域画像を用いる場合)もあり得る。また、領域画像のサイズが、より不規則に段階的になるような場合もあり得る。
また「領域画像の各々の特徴量」とは、上記の領域画像の一つから得られる画像の特徴量(スカラーまたはベクトル)である。
また「複数の領域画像から算出された特徴量を連結する」とは、例えば、各々の領域画像から得られた上記の特徴量を単純に要素として並べる(連結する)ことによって特徴ベクトルを得る操作である。
【0011】
「複数のサイズの領域画像の範囲を指定する」ことと「指定された領域画像の各々の特徴量を算出するとともに、複数の領域画像から算出された特徴量を連結することによって入力画像の特徴量を生成する」こととの組合せは、本実施形態の技術的特徴を有する構成の一つである。領域画像が複数のサイズを有することにより、入力画像に含まれる被写体が、ある領域画像からはみ出す場合や、ある領域画像の中に相対的に小さく含まれる場合や、その中間である領域画像に程よく収まる場合などが生じる。被写体が領域画像からはみ出す場合には、画像におけるその被写体の特徴をその領域画像から良好に抽出することができないことがある。被写体が領域画像の中に小さく写りこむ場合には、その領域画像のから抽出した特徴量においてその被写体の特徴の情報が不十分であることがある。被写体が領域画像内に程よく収まる場合には、その領域画像から抽出した特徴量が、情報として、被写体の特徴を良好に表わす。そして、複数の領域画像の各々から算出された特徴量を連結することによって、ある被写体の画像としての特徴が、連結された特徴量のいずれかの場所に良好に含まれている可能性が相対的に高くなる。したがって、このような技術構成により、被写体が写りこむ大きさがたとえ変化しても、その被写体の特徴を良好に捉えた特徴量を抽出することができる。
【0012】
[2]また、本発明の一態様による学習装置は、[1]に記載の画像特徴量算出装置と、前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部とを具備する。
ここで、識別器のパラメーターを求める処理は、学習用データに基づいた機械学習処理である。識別器は、所定のモデルにより、未知の入力画像から抽出された特徴量を入力とし、この特徴量とパラメーターとを用いた計算の結果として、その入力画像が正例であるか負例であるかを表わす情報を出力する。パラメーターは通常は複数の変数であり、識別器学習部の処理を行なうことより、最適なパラメーター値の集合が得られる。「正例であるか負例であるか」とは、入力画像が、所定のクラスターに属するか否かということを表わす。具体例としては、入力画像に所定の被写体(人、車、山、犬、猫など)が写っているか否かを表わす。これにより、良好な特徴量を用いた学習が可能になる。
【0013】
[3]また、本発明の一態様は、上記の学習装置において、前記領域画像抽出部は、同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、前記領域画像の範囲を指定することを特徴とする。
これは、実施形態に記載する設定値αまたはβの値を1未満(0<α<1または0<β<1)とすることにより実現される。これにより、特徴量抽出部は、被写体の特徴を良好に表わす特徴量を抽出できる可能性が高くなる。
さらに、0<α≦0.5としたとき、または0<α≦0.5としたときには、元のキーフレーム画像の中の任意の画素が、同一サイズの少なくとも2個の領域画像の範囲に含まれることとなる。つまりこの場合は、被写体を適切なサイズの領域画像内に捉えることのできる可能性がよりいっそう高まる。つまり、より良好な特徴量を抽出できるようになる。
【0014】
[4]また、本発明の一態様による識別装置は、[1]に記載の画像特徴量算出装置と、予め学習済みのパラメーターと、前記特徴量算出部が生成した前記入力画像の特徴量とに基づいて、前記入力画像が正例であるか負例かを識別する識別部とを具備する。
これにより、画像特徴量算出装置で得られた画像特徴量と、学習済みのパラメーターとに基づき、入力画像が正例であるか負例であるかを識別できる。
【0015】
[5]また、本発明の一態様は、上記の識別装置において、学習用データとして入力された前記入力画像が正例または負例のいずれであるかを示す情報と、前記特徴量算出部によって生成された前記入力画像の特徴量の組合せとに基づいて、未知の入力画像が正例であるか負例であるかのいずれかを識別するための識別器のパラメーターを求める識別器学習部をさらに具備し、前記識別部は、前記識別器学習部によって求められた前記パラメーターを前記予め学習済みのパラメーターとして用いることによって、未知の前記入力画像が正例であるか負例かを識別することを特徴とする。
これにより、この識別装置は、学習処理と識別処理とを行なう。
【0016】
[6]また、本発明の一態様は、上記の識別装置において、前記領域画像抽出部は、同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うように、前記領域画像の範囲を指定することを特徴とする。
同一サイズの複数の前記領域画像の少なくとも一部が互いに重なり合うことにより、被写体の特徴を良好に表わす特徴量を算出することができる可能性が高まる。
【0017】
[7]また、本発明の一態様は、コンピューターを、入力画像に含まれる複数のサイズの領域画像の範囲を指定する領域画像抽出部、前記入力画像に基づき、前記領域画像抽出部によって指定された前記領域画像の各々の特徴量を算出するとともに、複数の前記領域画像から算出された特徴量を連結することによって前記入力画像の特徴量を生成する特徴量算出部、として機能させるためのプログラムである。
【発明の効果】
【0018】
本発明によれば、画像内における被写体の位置やサイズの変化の影響を受けることなく、高精度に被写体の出現を判別することが可能となる。
特に、複数のサイズの領域画像の各々から得られる特徴を情報として維持する特徴量を算出することにより、被写体のサイズ変化に対して頑健な特徴量を得て使用することができる。
また特に、同一サイズの領域画像が少なくとも一部において互いに重なり合うようにして、それらの領域画像を用いることにより、被写体の位置変化に対して頑健な特徴量を得て使用することができる。つまり、グリッド境界に存在する被写体に対しても良好な結果を得ることができる。
【発明を実施するための形態】
【0020】
次に、本発明の実施形態について、図面を参照しながら説明する。
[第1の実施形態]
図1は、第1の実施形態による識別装置2の概略機能構成を示すブロック図である。図示するように、識別装置2は、内部に学習装置1を備えている。学習装置1は、学習用映像入力部11と、キーフレーム画像抽出部13と、領域画像抽出部15と、特徴量算出部17と、識別器学習部19とを含んで構成される。また、識別装置2は、さらに、映像入力部12と、キーフレーム画像抽出部14と、領域画像抽出部16と、特徴量算出部18と、識別部20とを含んで構成される。なお、図示していないが、領域画像抽出部15と特徴量算出部17との組合せは画像特徴量算出装置として機能する。同様に、領域画像抽出部16と特徴量算出部18との組合せは画像特徴量算出装置として機能する。
【0021】
学習装置1は、読み込んだ学習データに基づいて、識別部20の機械学習を行なう。
識別装置2は、学習装置1によって学習済みの識別部により、入力映像に特定の被写体が出現するか否かを判定する。
【0022】
学習用映像入力部11は、学習用の映像データを外部から取得する。
キーフレーム画像抽出部13は、学習用映像入力部11で取得された学習用映像から、キーフレーム画像を抽出する。具体的方法としては、キーフレーム画像抽出部13は、映像からショット境界を検出して、映像をショットに分割した後、各ショットの冒頭あるいは中間位置からフレーム画像を取得する。なお、ショット境界の検出は、例えば画素値の時間方向の微分値の総和が所定の閾値を超えてピークを示す箇所を検出することにより行なう。また、ショット境界が存在しない映像、あるいはひとつのショットの時間長が非常に長い映像においては、キーフレーム画像抽出部13は、所定の時間間隔でキーフレーム画像を抽出したり、フレーム間の動きベクトルの大きさが閾値以上となったタイミングでキーフレーム画像を抽出したりするようにする。
【0023】
領域画像抽出部15は、キーフレーム画像抽出部13によって抽出されたキーフレーム画像に含まれる、複数のサイズの領域画像を抽出し、それら領域画像の範囲を指定する。キーフレーム画像抽出部13は、抽出された領域画像の範囲に関する情報を出力する。
特徴量算出部17は、キーフレーム画像抽出部13で抽出されたフレーム画像から、特徴ベクトルを算出する。特徴ベクトルの算出方法については後で詳述する。
識別器学習部19は、正例あるいは負例のラベルが付与された学習データから、被写体が映っているかどうかを判定するための識別器の学習を行なう。識別器学習部19への入力データは、キーフレーム画像を基に特徴量算出部17によって算出された特徴量(特徴ベクトル)であり、各々の入力画像に対応して、「正例」または「負例」のいずれであるかを示すラベルが付随している。識別器学習部19は、このラベルを正解として使用し、機械学習処理を行なう。識別器学習部19による学習手法としては、サポートベクターマシン、ニューラルネットワーク、ベイジアンネットワークなどの一般的な機械学習手法を利用できる。なお、学習用データの構成例については、後で
図6を参照しながら詳述する。
【0024】
映像入力部12は、映像データを外部から取得する。この映像データは、特定の被写体が映っているか否かを判定する対象となる映像のデータである。
キーフレーム画像抽出部14は、キーフレーム画像抽出部13と同様の方法によりキーフレーム画像を抽出する。但し、キーフレーム画像抽出部14が対象とするのは、学習用の映像データではなく、映像入力部12によって取得された映像データである。
領域画像抽出部16は、キーフレーム画像抽出部14によって抽出されたキーフレーム画像について、領域画像抽出部15と同様の方法により、領域画像の抽出を行なう。
特徴量算出部18は、特徴量算出部17と同様の方法により、キーフレーム画像の特徴量を抽出する。
識別部20は、特徴量算出部18が算出した特徴量に基づいて、入力画像(未知の画像)が正例であるか負例かを識別する。なお、識別部20は、識別器学習部19によって予め学習済みである。言い換えれば、識別部20が識別のために用いるパラメーターは、識別器学習部19による学習処理によって、予め最適化されている。
【0025】
これにより識別装置2は、入力される映像に特定の被写体が映っているか否かを判別する処理を行い、判別結果を出力する。
【0026】
なお既に述べたように、キーフレーム画像抽出部13と14は、同一の機能を有する。また、領域画像抽出部15と16は、同一の機能を有する。また、特徴量算出部17と18は、同一の機能を有する。したがって、これらの同一機能を有する機能ブロックについては、これら各部を共用として装置を構成するようにしても良い。
【0027】
図2は、特徴量算出部17の詳細な機能構成を示すブロック図である。図示するように、特徴量算出部17は、特徴点検出部171と、局所特徴量子化部174と、局所特徴ベクトル生成部177と、色統計特徴算出部172と、色特徴ベクトル生成部178と、テクスチャ特徴算出部173と、テクスチャ特徴ベクトル生成部179と、特徴ベクトル生成部170とを含んで構成される。
【0028】
また、
図2に示すように、フレーム画像データが、領域画像抽出部15と特徴量算出部17とに入力される。領域画像抽出部15は、入力されたフレーム画像から、その部分を切り取って得られるグリッド領域の画像(これを「領域画像」と呼ぶ)を順次抽出する。そして、領域画像抽出部15は、各々の領域画像の範囲を示す情報を局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179とに供給する。領域画像の形状は典型的には矩形であり、その場合、領域画像の範囲を示す情報とは、領域画像の左上隅および右下隅それぞれの画素の座標値や、領域画像の左上隅の画素の座標値および縦と横のサイズである。
【0029】
特徴点検出部171は、特徴点検出手法を用いて、入力されるフレーム画像全体から特徴点を抽出する。
局所特徴量子化部174は、特徴点検出部171によって検出された特徴点の周囲の局所領域の特徴を量子化する。
局所特徴ベクトル生成部177は、領域画像ごとの局所特徴量を連結することにより局所特徴ベクトルを生成する。
色統計特徴算出部172は、入力されるフレーム画像データを基に、色空間の変換を行い、変換後の色空間における特徴量を算出する。
色特徴ベクトル生成部178は、領域画像ごとの色特徴量を連結することにより色特徴ベクトルを生成する。
テクスチャ特徴算出部173は、ウェーブレット変換等の処理を行なうことにより、入力されるフレーム画像データのテクスチャ特徴を算出する。
テクスチャ特徴ベクトル生成部179は、ウェーブレット変換の結果の画素値の、領域画像ごとの統計的特徴値を基に、テクスチャ特徴ベクトルを算出する。
特徴ベクトル生成部170は、局所特徴ベクトルと色特徴ベクトルとテクスチャ特徴ベクトルとを連結したベクトルを生成する。
これら各部の処理の詳細については後述する。
【0030】
なお、特徴量算出部18もまた、特徴量算出部17と同様の構成を有する。そして、領域画像抽出部15が抽出した領域画像に関する情報を特徴量算出部17に供給するのと同様に、領域画像抽出部16は抽出した領域画像に関する情報を特徴量算出部18に供給する。
【0031】
次に、各々の特徴量抽出の詳細について説明する。
(A)局所特徴ベクトルの抽出
局所特徴ベクトルの抽出のためには、前記のバッグ・オブ・ビジュアル・ワーズ法を用いる。
特徴点検出部171は、SIFT(Scale-invariant feature transform)やSURF(Supeeded-Up. Robust Features)などの特徴点検出手法を用いて、入力されるフレーム画像全体から特徴点を抽出する。SIFTおよびSURFは、画像内における局所的特徴を検出する手法であり、それぞれ、参考文献[David G. Lowe, ``Object recognition from local scale-invariant features,'' In Proc. IEEE International Conference on Computer Vision, vol. 2, pp. 1150-1157, 1999.]および[Herbert Bay, Tinne Tuytelaars, and L Van Gool, ``SURF: Speeded Up Robust Features,'' In Proc. 9th European Conference on Computer Vision, vol. 3951, pp. 404--417, 2006.]にもその詳細が記載されている。
【0032】
そして、局所特徴量子化部174は、特徴点検出部171によって検出された特徴点の周囲の局所領域の特徴を量子化する。具体的には、局所特徴量子化部174は、特徴点の周囲の局所領域から算出される勾配特徴量をクラスタリングすることにより量子化する。そのために、局所特徴量子化部174は、あらかじめ学習データから求めた勾配特徴量をたとえばk−meansなどによってクラスタリングしてクラスターごとの代表値を求めておく。そして、局所特徴量子化部174は、入力データから算出された特徴量を、最も近い代表値に対応するクラスターに割り当てる。
【0033】
そして、局所特徴ベクトル生成部177は、領域画像抽出部15から各々の領域画像の範囲に関する情報を得て、ある1つの領域画像に含まれる特徴点に関して、量子化された勾配特徴量の出現頻度ヒストグラムを求め、そのヒストグラムを構成する頻度値の列を求める。局所特徴ベクトル生成部177は、すべての領域画像について、上記の処理を行なう。そして、局所特徴ベクトル生成部177は、各領域画像から得られた頻度値の列を、すべての領域画像に関して連結することにより、局所特徴ベクトルを生成する。この局所特徴ベクトルをV
lとする。なお、「すべての領域画像に関して連結」については、後で
図5を参照しながら詳述する。
【0034】
(B)色特徴ベクトルの抽出
色統計特徴算出部172は、入力されるフレーム画像データを、HSV色空間およびLab色空間に変換する。HSV色空間は、色相(Hue)、彩度(Saturation)、明度(Value)の三成分からなる色空間である。Lab色空間は、明度(L)、補色次元(aおよびb)の成分からなる色空間である。例えばRGBの画素値から、HSV色空間およびLab色空間への変換は、既存の技術を使って行なわれる。色空間の変換の結果、色統計特徴算出部172は、フレーム画像に含まれる各画素について、各コンポーネントcの画素値を出力する。なお、c∈{h,s,v,l,a,b}であり、これらh,s,v,l,a,bのそれぞれは、HSV色空間およびLab色空間の成分である。
【0035】
色特徴ベクトル生成部178は、領域画像抽出部15から各々の領域画像の範囲に関する情報を得て、領域画像ごとに、各コンポーネントcに対して、画素値の平均μ
c、標準偏差σ
c、歪度の立方根ω
cを算出する。具体的には、色特徴ベクトル生成部178は、下の式(1)、式(2)、式(3)により、これらの値を算出する。
【0039】
なお、式(1)〜(3)において、xは横座標値、yは縦座標値であり、f
c(x,y)は座標(x,y)におけるコンポーネントcの画素値である。また、xおよびyそれぞれにおいて、記号Σによって総和を算出する範囲は、当該領域画像の範囲である。またH
SおよびW
Sは、それぞれ、当該領域画像の縦サイズ(高さ)および横サイズ(幅)である。H
SおよびW
Sの単位は、画素[pixels]である。H
SおよびW
Sについては、後でもさらに述べる。
【0040】
色特徴ベクトル生成部178は、すべての領域画像について、上記の処理を行なう。そして、色特徴ベクトル生成部178は、各領域画像から算出された値の列(μ
h,σ
h,ω
h,μ
s,σ
s,ω
s,μ
v,σ
v,ω
v,μ
l,σ
l,ω
l,μ
a,σ
a,ω
a,μ
b,σ
b,ω
b)を、すべての領域画像に関して連結することにより、色特徴ベクトルを生成する。この色特徴ベクトルをV
cとする。なお、「すべての領域画像に関して連結」については、後で
図5を参照しながら詳述する。
【0041】
(C)テクスチャ特徴ベクトルの抽出
ここでは、Haarウェーブレットに基づいて画像のテクスチャを反映した特徴量を算出する。まず、テクスチャ特徴算出部173は、入力されるフレーム画像データを基に、Haarウェーブレット変換を3段階適用する。次に、テクスチャ特徴ベクトル生成部179は、領域画像抽出部15から各々の領域画像の範囲に関する情報を得て、領域画像ごとに、それぞれのサブバンド領域の画素値の分散を算出し、それらの分散値の列を当該領域画像における特徴量とする。そして、すべての領域画像に関してこれらの数値列を連結することにより、テクスチャ特徴ベクトルを生成する。このテクスチャ特徴ベクトルをV
tとする。なお、「すべての領域画像に関して連結」については、後で
図5を参照しながら詳述する。
【0042】
以上述べたように、局所特徴ベクトル生成部177が局所特徴ベクトルV
lを生成し、色特徴ベクトル生成部178が色特徴ベクトルV
cを生成し、テクスチャ特徴ベクトル生成部179がテクスチャ特徴ベクトルV
tを生成する。そして、特徴ベクトル生成部170は、これらの3つのベクトルを連結して特徴ベクトルVを求める。このVについては、下の式(4)に表わす通りである。特徴ベクトル生成部170によって連結されたベクトルVが、特徴量算出部17からの出力される特徴量である。
【0044】
以上、述べたように、特徴量算出部17は、入力画像に基づき、領域画像抽出部15によって指定された領域画像の各々の特徴量を算出するとともに、複数の領域画像から算出された特徴量を連結することによって入力画像の特徴量(特徴ベクトルV
l,V
c,V
t,V)を生成する。特徴量算出部17によって算出された特徴量は、複数の領域画像の各々の特徴を情報として保持している。
【0045】
図3は、領域画像抽出部15および16によって抽出されるグリッド領域の領域画像の範囲を示す概略図である。以下では、代表として領域画像抽出部15による処理を説明するが、領域画像抽出部16による処理も同様のものである。
領域画像抽出部15は、領域画像のサイズを段階的に変化させる。同図に示す例においては、(a)、(b)、(c)の順に、徐々に抽出する領域画像のサイズを小さくしている。入力される元のフレーム画像のサイズを縦(高さ)H、横(幅)Wとしたとき、第S番目(S=1,2,3,・・・)のスケールにおける領域画像のサイズは、縦H
S、横W
Sであり、これらは、下の式(5)で表わされる。
【0047】
ここで、δは、スケールの変化の度合いを表す定数であり0<δ<1である。この不等式の範囲内でδの値については適宜設定可能とする。一例として、同図に示す場合、δ=0.5としている。そして、同図(a)の場合に、S=1、H
1=H、W
1=Wである。また同図(b)の場合に、S=2、H
2=δH、W
2=δWである。また同図(c)の場合に、S=3、H
3=δ
2H、W
3=δ
2Wである。また、同図にも示すように、領域画像抽出部15は、縦方向H
S×α、横方向W
S×βの刻みで順次移動させながら、領域画像の範囲を抽出していく。ここで、αおよびβは、適宜設定可能な定数であり、0<α≦1、0<β≦1である。一例として、同図に示す場合、α=β=0.5としている。
【0048】
同図(a)〜(c)のそれぞれにおいて、領域画像の枠の左上隅の部分のみを、黒丸と、縦・横の太線で示している。なお、フレーム画像全体の左上角の画素の座標を(x,y)=(0,0)とする。同図(a)においては、S=1であり、フレーム画像全体が領域画像に相当する。つまり、S=1の場合における領域画像の数N
1は1である。また同図(b)においては、S=2であり、各々の領域画像の左上角の画素における、x座標(横座標)の値は0,βδW,2βδWであり、y座標(縦座標)の値は0,αδH,2αδHである。同図(b)に一例として示している破線の枠は、左上角の画素の座標位置が(x,y)=(βδW,αδH)である領域画像を示す。S=2の場合における領域画像の数N
2は9である。また同図(c)においては、S=3であり、各々の領域画像の左上角の画素における、x座標(横座標)の値は0,βδ
2W,2βδ
2W,3βδ
2W,4βδ
2W,5βδ
2W,6βδ
2Wである。また、y座標(縦座標)の値は0,αδ
2H,2αδ
2H,3αδ
2H,4αδ
2H,5αδ
2H,6αδ
2Hである。同図(c)に一例として示している破線の枠は、左上角の画素の座標位置が(x,y)=(5βδ
2W,4αδ
2H)である領域画像を示す。S=3の場合における領域画像の数N
3は49である。
【0049】
つまり、領域画像抽出部15は、上記のように、同一サイズの複数の領域画像の少なくとも一部が互いに重なり合うように、領域画像の範囲を指定する。同一サイズの複数の領域画像の一部が互いに重なり合うのは、縦方向に関してはα<1である場合である。また、横方向に関してはβ<1である場合である。これにより、被写体が領域画像の枠(境界線)をまたぐような位置に存在するとき(つまりその1つの領域画像の中に収まらないとき)にも、その被写体は同じサイズの他の領域画像に収まりきる可能性がある。これにより、その被写体の画像特徴を表わす特徴量を、より適切に抽出することが可能となる。
特に、0<α≦0.5としたとき、または0<β≦0.5としたときには、元のキーフレーム画像の中の任意の画素が、同一サイズの少なくとも2個の領域画像の範囲に含まれることとなる。つまりこの場合は、被写体を適切なサイズの領域画像内に捉えることのできる可能性がよりいっそう高まる。つまり、より良好な特徴量を抽出できるようになる。
【0050】
図4は、領域画像抽出部15による、領域画像抽出の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、領域画像抽出部16による処理もこれと同様である。
まずステップS1において、領域画像抽出部15は、変数Sの値を1に初期化する。このSは、前述の通り、領域画像のスケールを指標するための値である。
次にステップS2において、領域画像抽出部15は、変数Sの値が、予め設定された上限(設定スケール)未満であるか否かを判定する。上限未満である場合(ステップS2:YES)には、次のステップS3に進む。その他の場合(ステップS2:NO)には、このフローチャート全体の処理を終了する。
次にステップS3において、領域画像抽出部15は、変数yの値を0に初期化する。このyは、縦座標の値を表わすものである。このステップの処理により、領域画像の縦座標を初期化する。
【0051】
次にステップS4において、領域画像抽出部15は、変数yに関して、y+H
S<Hの不等式で表わされる条件を満たすか否かを判定する。この条件を満たす場合(ステップS4:YES,つまり縦方向にまだ領域画像を取れる場合)には次のステップS5に進み、満たさない場合(ステップS4:NO,つまりフレーム画像の下端に達してしまい縦方向にもう領域画像を取れない場合)にはステップS10の処理に分岐する。
次にステップS5に進んだ場合、領域画像抽出部15は、変数xの値を0に初期化する。このxは、横座標の値を表わすものである。このステップの処理により、領域画像の横座標を初期化する。
【0052】
次にステップS6において、領域画像抽出部15は、変数xに関して、x+W
S<Wの不等式で表わされる条件を満たすか否かを判定する。この条件を満たす場合(ステップS6:YES,つまり横方向にまだ領域画像を取れる場合)には次のステップS7に進み、満たさない場合(ステップS6:NO,つまりフレーム画像の右端に達してしまい横方向にもう領域画像を取れない場合)にはステップS9の処理に分岐する。
次にステップS7に進んだ場合、領域画像抽出部15は、その時の変数xおよびyの値に応じて、座標(x,y)を基点(左上角の画素)とする、高さH
S、幅W
Sのグリッドによる領域画像を抽出する。そして、領域画像抽出部15は、抽出した領域画像の範囲を示す情報を、局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179とに渡す。これに応じて、局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179の各々は、当該領域画像に関する特徴量を前述の方法により算出する。
【0053】
次にステップS8において、領域画像抽出部15は、変数xの値をβ・W
Sの増分で増加させる。これは、領域画像の横座標の値を、次の領域画像の座標に進めるための処理である。このステップの処理のあとは、ステップS6の処理に戻る。
ステップS6からステップS9に進んだ場合には、領域画像抽出部15は、変数yの値をα・H
Sの増分で増加させる。これは、領域画像の縦座標の値を、次の領域画像の座標に進めるための処理である。このステップの処理のあとは、ステップS4の処理に戻る。
ステップS4からステップS10に進んだ場合には、領域画像抽出部15は、変数Sの値を次の値に更新する。つまり、(S+1)の値を変数Sの記憶領域に格納する。これは、領域画像のスケールを次の段階に進めるための処理である。そして、このステップの処理のあとは、ステップS2の処理に戻る。
【0054】
上述した一連の処理により、領域画像抽出部15は、
図3に例示したような領域画像をすべて抽出し、各領域画像の範囲を示す情報を特徴量算出部17に渡す。領域画像抽出部15がすべての領域画像の抽出を終えた後は、局所特徴ベクトル生成部177と色特徴ベクトル生成部178とテクスチャ特徴ベクトル生成部179の各々が、前述の通り、各領域画像に対応した特徴量の列をすべて並べた特徴ベクトルを出力する。そして、特徴ベクトル生成部170が、それらの特徴ベクトルを連結して得られる特徴ベクトルを出力する。領域画像抽出部16と特徴量算出部18との関係も、これと同様である。
【0055】
このように、領域画像のサイズを段階的に変化させて、各々の領域画像から特徴量を抽出し、それら領域画像ごとの特徴量を情報として含んだ特徴量(特徴ベクトル)を用いることにより、映像に含まれる被写体の大きさの変動に対して頑健性を得ることができる。
【0056】
図5は、上述した方法によって抽出された複数の領域画像と、特徴ベクトルとの関係を示す概略図である。同図において、(a)〜(d)は、領域画像のスケールの段階に対応しており、それぞれの場合において順に、S=1,2,3,4である。前述の通り、フレーム画像全体のサイズは、縦(高さ)H、横(幅)Wである。領域画像のサイズは、Sの値に応じて、縦(高さ)δ
S−1・H、横(幅)δ
S−1・Wである。(a)〜(d)のそれぞれにおいて、領域画像のうちの1つを、破線で示している。図中において、連結された特徴ベクトルを、2次元のグラフの形式で示している。このグラフにおいて、横軸は特徴量(スカラー)の並び順であり、縦軸は各特徴量に共通する値の大きさを表わす。「a1」で示す範囲に含まれる特徴量の列は、同図(a)に含まれる領域画像から得られる特徴量である。「b1」、「b2」、「b3」、・・・のそれぞれに示す範囲に含まれる特徴量の列は、同図(b)に含まれる複数の領域画像から得られる特徴量である。同図においては「b4」までだけを示してそれより後を省略しているが、実際には、領域画像の数の分だけ特徴量の列が後続する。同図(c)や(d)についても同様であり、領域画像ごとの特徴量の列が後続する。本実施形態では、このようにして、特徴量の列をすべての領域画像について連結することにより、特徴ベクトルを生成する。つまり、局所特徴と、色特徴と、テクスチャ特徴のそれぞれに関して、領域画像ごとの特徴量の値(または値の列)を、
図5で説明したようにすべての領域画像に関して連結したものが、局所特徴ベクトルと、色特徴ベクトルと、テクスチャ特徴ベクトルである。
【0057】
次に、学習用データの構成方法の一例について説明する。
図6は、学習用データの構成例を示す概略図である。学習用データは、学習装置1の内部の記憶装置に格納される。既に述べたように、学習用データには、正例あるいは負例のラベルが付与されている。学習用データは、例えば、オブジェクト指向データベースを用いて構成され、図示するような表構造を有している。同データは、映像番号、映像データロケーション、フレーム識別情報、被写体種類(1から40まで)のデータ項目を有している。このデータは、複数の映像データについての情報を格納するものである。また、1つの映像データに対して、1つまたは複数のキーフレームを対応させている。映像番号は、映像データを識別するために付与された番号である。映像データロケーションは、映像データの実体の所在を表わす情報であり、例えば、ファイルシステムにおけるパス名の情報が用いられる。フレーム識別情報は、1つの映像データ内に含まれる、複数のキーフレームのそれぞれを識別する情報である。フレーム識別情報としては、単なるキーフレームの連番を用いても良いし、「hh:mm:ss.nnn」(時:分:秒.フレーム番号)の形式等で映像内のフレーム位置を特定する情報を用いても良い。各々の被写体種類に対応する欄には、「正」または「負」のラベル(入力画像が正例または負例のいずれであるかを示す情報)を格納する。これらのラベルは、キーフレーム画像抽出部13によって抽出される各々のキーフレームに、被写体種類(1〜40)のそれぞれが被写体として含まれているか否かの正解を表わすラベル情報である。なお、被写体種類の第6番目から第39番目のデータは図中において記載を省略している。「正」のラベルは、その被写体がそのキーフレーム画像に含まれていることを表わす。「負」のラベルは、その被写体がそのキーフレーム画像に含まれていないことを表わす。このラベルの値が、学習時の教師データとして用いられる。なお、被写体の種類数は40に限らず、これより多くても少なくても良い。
【0058】
なお、「正」または「負」のラベルの値は、例えば、キーフレーム画像抽出部13がキーフレーム画像を抽出した後に、人手によって与え、学習用データに書き込むようにする。
【0059】
以上、述べたように、本実施形態では、正例(ある物体・事象が写っている)および負例(映っていない)のラベルが付与された学習データを用いた機械学習によって、映像に特定の被写体が出現しているかどうかを判定する。そのため、フレーム画像内における被写体の出現位置やサイズなどが変動した場合においても、特定の被写体を頑健に判定することができる画像特徴量を算出する。具体的には、映像フレーム画像を、様々なサイズのグリッド領域(領域画像)に区切り、グリッド領域ごとに特徴量を算出し、それらを連結することによってサイズ変動に対する頑健性を確保する。グリッド領域のサイズは、段階的に変化させる。また、グリッド領域同士が重なりを持つようにすることによって、グリッド領域の境界に存在する物体にも対応する。
【0060】
[評価実験]
本実施形態について、実際の映像データを使用して行なった評価実験の結果は、以下の通りである。本実験では、約600時間の映像を対象として、40種類の被写体を検出し、その検出精度を評価した。検出精度の算出については、テスト映像における全フレーム画像に対して判定処理を適用し、スコアが高いものから順に並び替え、その上位2000件に対する推定平均適合率を算出することで求めた。なお、設定値としては、δ=0.5,α=0.5,β=0.5とした。領域画像のスケールの範囲は、1≦S≦4とした。
【0061】
なお、評価のための比較対象(従来技術による手法)としては、フレーム画像を固定的なグリッドサイズに分割する方式を用いた。具体的には、フレーム画像を縦横2×2分割とする分割方法と、縦横3×1分割とする分割方法を用いて、分割された各領域における特徴量を求めた。
【0062】
その結果、従来手法と比べて、検出精度が向上することを確認できた。被写体の種類別に精度を比較したところ、最大で4%の精度向上が認められたものもあった。本実施形態による手法と、従来手法との、検出精度の比較結果を表1に示す。ここに示すように、本実施形態による手法では、推定平均適合率(40種類の被写体の平均)において、従来手法よりも良い結果が得られた。
【0064】
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。第1の実施形態が、学習処理と識別処理の両方を行なうものであったのに対して、第2の実施形態は、学習処理のみを行なう。本実施形態の機能構成は、
図1の機能ブロック図に含まれる機能のうち、学習装置1と識別部20の機能のみを有するものである。学習装置1が、学習用映像入力部11とキーフレーム画像抽出部13と領域画像抽出部15と特徴量算出部17と識別器学習部19とを含んで構成される点は、第1の実施形態と同様である。また、ここに列挙した各部の処理機能およびその作用、効果も、第1の実施形態において述べたそれらと同様であるので説明を省略する。この構成により、本実施形態の学習装置は、良好な特徴量を用いて機械学習を行い、識別部20を生成する(学習によりパラメーターの値を最適化する)ことができる。
【0065】
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。第1の実施形態が、学習処理と識別処理の両方を行なうものであったのに対して、第3の実施形態は、識別処理のみを行なう。本実施形態の機能構成は、
図1の機能ブロック図に含まれる機能のうち、映像入力部12とキーフレーム画像抽出部14と領域画像抽出部16と特徴量算出部18と識別部20のみを含んで構成され、学習装置1を含まない。そして、ここに列挙した各部の処理機能およびその作用、効果も、第1の実施形態において述べたそれらと同様であるので説明を省略する。また、識別部20は、予め学習済である。この構成により、本実施形態の識別装置は、良好な特徴量を用いて識別処理を行うことができる。
【0066】
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。第4の実施形態は、第1の実施形態の中で説明した画像特徴量算出装置の機能のみを単独の装置として実施する形態である。既に述べたように、画像特徴量算出装置は、領域画像抽出部15と特徴量算出部17とを組合せた装置として実現される。この画像特徴量算出装置における領域画像抽出部15と特徴量算出部17の機能、作用、効果は、既に説明したとおりであるため、ここでは説明を省略する。本実施形態の構成により、画像特徴量算出装置は、入力画像を基に、良好な、つまり、被写体のサイズの変化に対して頑健な画像特徴量を算出することができる。
【0067】
[第5の実施形態]
第1〜第4の実施形態では、領域画像を抽出する際に、範囲を等間隔に移動させていた。本実施形態における領域画像抽出部15および16は、第1〜第4の実施形態とは異なる方法で、領域画像の抽出を行なう。なお、以下に述べる領域画像の抽出のしかたは、第1〜第4の実施形態に適用可能である。そのとき、領域画像の抽出のしかた以外の技術事項に関しては、各実施形態において既に述べたとおりであるので、ここでは説明を省略する。本実施形態における領域画像抽出部15および16は、次のいずれかの方法で領域画像の抽出を行なう。
【0068】
第1の方法では、入力画像内の位置に応じて、領域画像を抽出する密度を変化させる。具体的には、
図4で説明したフローチャートにおいて、設定値αおよびβの値を常に一定にするのではなく、例えば、フレーム画像の中央に近い領域ではαおよびβの値を小さくし、フレーム画像の周辺に近い領域ではαおよびβの値を相対的に大きくする。これは、フレーム画像の中央に近い領域に被写体が存在する場合に検出精度をより高めることにつながる。なお、逆に、フレーム画像の周辺部において被写体の検出精度を相対的に高めたい場合には、逆に、周辺部においてαおよびβの値を相対的に高くする。なお、この場合も、0<α≦1、且つ0<β≦1である。このように、領域画像を抽出する密度に差をつけることにより、特徴量を算出したり被写体を識別したりするための総合的な計算量を抑制しながら、画像内の重点的な領域のみによりきめ細かな計算を行なうことができる。
【0069】
第2の方法では、目的とする被写体が存在する可能性が高い領域において、領域画像を抽出する密度を相対的に高める。画像内の場所に応じた、被写体が存在する可能性(確率値)を表わすデータを、外部から供給するようにする。これにより、第1の方法と類似の効果が得られる。即ち、特徴量を算出したり被写体を識別したりするための総合的な計算量を抑制しながら、画像内の重点的な領域のみによりきめ細かな計算を行なうことができる。
【0070】
第3の方法では、フレーム画像内のランダムな場所において同一サイズで複数の領域画像を抽出するようにする。
【0071】
[第1〜第5の実施形態のコンピュータープログラムによる実施]
なお、上述した各実施形態における各処理部の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0072】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
(変形例1)前述の実施形態では、一例としてα=0.5,β=0.5とした。また、α≦0.5またはβ≦0.5とすることにより領域画像の抽出密度を高める例を記載した。しかしながら、α>0.5またはβ>0.5としても良い。
(変形例2)前述の実施形態では、画像の特徴量として、局所特徴ベクトルや色特徴ベクトルやテクスチャ特徴ベクトルを用いた。変形例では、その他の特徴量を用いるようにしても良い。
(変形例3)前述の実施形態では、学習装置1内において、キーフレーム画像抽出部13が抽出したキーフレームについて、「正例」または「負例」のラベル値を与えるようにした。変形例では、その代わりに、映像に対応したキーフレーム画像を予め抽出しておき、抽出済みのキーフレーム画像とラベル値のデータとをセットにして学習装置1が外部から取り込むようにする。そして、学習装置1は、特に映像データそのものを用いず、キーフレーム画像とラベル値とに基づいた学習処理を行なう。
(変形例4)
図4のフローチャートの処理によって領域画像抽出部が領域画像を抽出する際に、元のフレーム画像の下端部または右端部に余剰が生じた場合には、領域画像の下端または右端がちょうどフレーム画像の下端または右端に合うように、領域画像の座標の増分を調整する。あるいは、フレーム画像の下端または右端をはみ出して、領域画像の座標を決定しても良い。領域画像の一部がフレーム画像の外側にはみ出す場合は、はみ出した部分については一様な画素値が存在するものとして(つまり、その部分には画像情報がないものとして)、以後の特徴量算出等の処理を行なうようにする。
【0073】
以上、この発明の実施形態およびその変形例について詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。