(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-22
(45)【発行日】2024-05-01
(54)【発明の名称】対象追跡方法、対象追跡システムおよび対象追跡プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240423BHJP
G06T 7/246 20170101ALI20240423BHJP
【FI】
G06T7/00 350B
G06T7/00 300D
G06T7/00 300B
G06T7/246
(21)【出願番号】P 2020553348
(86)(22)【出願日】2019-10-18
(86)【国際出願番号】 JP2019041143
(87)【国際公開番号】W WO2020080535
(87)【国際公開日】2020-04-23
【審査請求日】2022-09-15
(31)【優先権主張番号】P 2018196575
(32)【優先日】2018-10-18
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】503360115
【氏名又は名称】国立研究開発法人科学技術振興機構
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】石井 抱
(72)【発明者】
【氏名】岸 則政
(72)【発明者】
【氏名】姜 明俊
【審査官】久保 光宏
(56)【参考文献】
【文献】姜 明俊(外2名),「ディープラーニングを用いた高速対象追跡」,ロボティクス・メカトロニクス講演会2018講演論文集,Article number: 2A1-K17,日本,[DVD-ROM], 一般社団法人 日本機械学会,2018年06月01日,全4頁.
【文献】Mingjun Jiang, et al.,"High-frame-rate Target Tracking with CNN-based Object Recognition",Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),2018年10月05日,Pages 599-606,ISBN: 978-1-5386-8094-0, <DOI: 10.1109/IROS.2018.8594300>.
(58)【調査した分野】(Int.Cl.,DB名)
G06T7/00-7/90
G06N3/02-3/10
G06N20/00-20/20
G06V10/00-20/90
H04N7/18
CSDB(日本国特許庁)
学術文献等データベース(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する
認識ステップと、
前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡する
追跡ステップと、
前記
動画像の実画像をバッファに記憶する
記憶ステップと、
前記学習的認識手法による対象の認識が開始されたフレームで認識されたROI
と、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正ステップであって、前記学習的認識手法による対象の認識が開始されたフレームのROIに基づき、前記バッファに記憶された実画像にテンプレートマッチングを継続した結果現在に至ったフレームのROIでカレントフレームのROIを置き換える補正ステップと、
前記置き換えられたROIに基づいて、前記カレントフレームのROI位置を初期化する
初期化ステップと、を備える、
対象追跡方法。
【請求項2】
前記置き換えるステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像を再生するステップを備える、
請求項1に記載の対象追跡方法。
【請求項3】
前記実画像を再生するステップは、前記対象の認識が開始されたフレームから前記カレントフレームまでの実画像の一部を抽出したものを再生する、
請求項2に記載の対象追跡方法。
【請求項4】
前記カレントフレームのROI位置は、前記第1のフレームレートで初期化されることを特徴とする、
請求項1乃至3のいずれか一項に記載の対象追跡方法。
【請求項5】
前記学習的認識手法により認識された対象に基づいて、前記第1のフレームレートで、前記テンプレートを初期化するステップをさらに備える、
請求項1乃至4のいずれか一項に記載の対象追跡方法。
【請求項6】
対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
前記比較するステップでの比較結果が所定の値以下のときは、前記ROI位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
前記比較するステップでの比較結果が所定の値より大きいときは、前記ROI位置は、 前記置き換えられたROIに基づいて初期化されることを特徴とする、
請求項1乃至3のいずれか1項に記載の対象追跡方法。
【請求項7】
対象の認識が開始されたフレームにおいて、前記学習的認識手法により認識された対象と、前記テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、
前記比較するステップでの比較結果が所定の値以下のときは、前記テンプレート及びROI位置は、前記テンプレートマッチングにより追跡された対象に基づいて初期化され、
前記比較するステップでの比較結果が所定の値より大きいときは、前記テンプレート及びROI位置は、前記学習的認識手法により認識された対象に基づいて初期化されることを特徴とする、
請求項1乃至3のいずれか一項に記載の対象追跡方法。
【請求項8】
前記学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、
前記置き換えるステップは、前記学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて、前記記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われることを特徴とする、
請求項1に記載の対象追跡方法。
【請求項9】
前記学習的認識手法は、ディープラーニングを含むことを特徴とする、
請求項
1乃至8のいずれか一項に記載の対象追跡方法。
【請求項10】
前記動画像は、高速カメラにより撮影された動画像であることを特徴とする、
請求項
1乃至9のいずれか一項に記載の対象追跡方法。
【請求項11】
前記第2のフレームレートは、前記第1のフレームレートの8倍以上であることを特徴とする、
請求項
1乃至10のいずれか一項に記載の対象追跡方法。
【請求項12】
第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する対象認識部と、
前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡し、前記
動画像の実画像をバッファに記憶する対象追跡部と、
前記学習的認識手法による対象の認識が開始されたフレームで認識されたROI
と、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正部であって、前記学習的認識手法による対象の認識が開始されたフレームのROIに基づき、前記バッファに記憶された実画像にテンプレートマッチングを継続した結果現在に至ったフレームのROIでカレントフレームのROIを置き換える補正部と、
前記置き換えられたROIに基づいて、前記カレントフレームのROI位置を初期化するROI位置初期化部と、を備える、
対象追跡システム。
【請求項13】
第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する
認識ステップと、
前記第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、前記動画像内の対象を追跡する
追跡ステップと、
前記
動画像の実画像をバッファに記憶する
記憶ステップと、
前記学習的認識手法による対象の認識が開始されたフレームで認識されたROI
と、前記第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正ステップであって、前記学習的認識手法による対象の認識が開始されたフレームのROIに基づき、前記バッファに記憶された実画像にテンプレートマッチングを継続した結果現在に至ったフレームのROIでカレントフレームのROIを置き換える補正ステップと、
前記置き換えられたROIに基づいて、前記カレントフレームのROI位置を初期化する
初期化ステップと、をコンピュータに実行させる
対象追跡プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。
【背景技術】
【0002】
対象追跡技術は、カメラで撮影した動画像中の特定の対象を認識し、追跡する技術である。近年の代表的な対象追跡技術には、テンプレートマッチングを用いて対象を局所的に追跡する手法(以下、局所的対象追跡手法」という)や、ディープラーニングなどの学習理論に基づく処理により対象を認識する手法(以下、「学習的認識手法」という)などがある(例えば非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【文献】姜明俊、高木健、石井抱 「ディープラーニングを用いた高速対象追跡」 日本機械学会ロボティクス・メカトロニクス講演会2018 講演論文集 2A1-K17(2018)
【発明の概要】
【発明が解決しようとする課題】
【0004】
局所的対象追跡手法は、対象近傍のみで局所探索を行うため、実行速度を高速化できるというメリットがある反面、追跡開始時に初期テンプレートの人為的指定が必要である。このため、背景画面の複雑さや、対象のオクルージョン・姿勢変化等に起因して追跡の失敗が多発すると、追跡が困難になるという問題がある。
【0005】
一方、畳み込みニューラルネットワーク(CNN)をベースとする学習的認識手法では、近年ディープラーニングの性能が著しく向上している。高性能GPUへの並列実装と相まって、学習的認識手法は、数十fps(frame per second)といったフレームレートでのリアルタイム対象認識を実現している。
【0006】
学習的認識手法は、フレームごとに独立した形で対象認識を行うため、一度対象を見失っても瞬時に対象を再認識できるというメリットがある。しかしながら、必ずしもすべてのフレームで認識が安定するとは限らないため、認識結果が間欠的になるという問題がある。またアクティブビジョン等の機械的なフィードバックでは、数百fpsといった高速リアルタイム対象検出が要求される。しかしながら、これは現状のコンピュータ技術では困難である。このように学習的認識手法には、実行速度上の限界があるという問題がある。
【0007】
これに対し、近年、局所的対象追跡手法と学習的認識手法の双方のメリット活かしたハイブリッド対象追跡手法が提案されている(例えば非特許文献1)。非特許文献1に記載の技術では、あるフレームレートで実行される学習的認識手法による対象認識と、これより高いフレームレートで実行される局所的対象追跡手法による対象追跡とが並列動作している。
【0008】
この技術では、追跡が正常に機能している限り、相関フィルタによってROI(Region Of Interest)の位置とテンプレートとが更新され、追跡が継続される。一方、追跡が外れて対象が見失われた場合は、学習的認識手法で認識された対象を基にROI位置とテンプレートとが初期化され、これらを基に新たな追跡が行われる。これにより、オクルージョンなど、対象のアピアランス変化に対しても、ロバストな対象追跡が実現される。
【0009】
しかし実際には、学習的認識手法による対象認識は、一定の計算時間を必要とする。このため、あるフレームを基に対象認識処理を開始してから、この処理が完了して対象が認識されるまでの間に、上記の計算時間が経過する。ROI位置やテンプレート初期化の対象となるフレームは、テンプレートマッチングを継続した結果現在に至ったフレーム(以下、「カレントフレーム」という)である。従って、対象認識処理を開始したフレームは、カレントフレームに対して遅延している。例えば、動画像のサンプリングレートが500fpsで、対象認識処理を開始をしたフレームがカレントフレームに対して30フレーム前のフレームだった場合、この遅延は60msとなる。
【0010】
この遅延の間にフレーム内で対象が動くと、対象認識処理を開始したフレームと、カレントフレームとの間で、ROI位置のずれが生じる。特に、高速カメラで撮影された動画像や、フレーム内の対象の動きが大きい動画像の場合、撮影中にカメラを左右にパンしたりすることにより発生するこのずれは大きいものとなる。このような場合、ハイブリッド対象追跡手法であっても、連続的で安定した追跡が困難となってしまう。
【0011】
本発明はこうした状況に鑑みてなされたものであり、その目的は、高速な動画像に対しても、連続的で安定した対象追跡を実現する技術を提供することにある。
【課題を解決するための手段】
【0012】
上記課題を解決するために、本発明のある態様の対象追跡方法は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える。
【0013】
差異を補正するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像を再生するステップを備えてよい。
【0014】
実画像を再生するステップは、対象の認識が開始されたフレームからカレントフレームまでの実画像の一部を抽出したものを再生してもよい。
【0015】
カレントフレームのROI位置は、第1のフレームレートで初期化されてよい。
【0016】
実施形態は、学習的認識手法により認識された対象に基づいて、第1のフレームレートで、テンプレートを初期化するステップをさらに備えてよい。
【0017】
実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、ROI位置は、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、ROI位置は、補正されたROIに基づいて初期化されてよい。
【0018】
実施形態は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較するステップをさらに備え、比較するステップでの比較結果が所定の値以下のときは、テンプレートは、テンプレートマッチングにより追跡された対象に基づいて初期化され、比較するステップでの比較結果が所定の値より大きいときは、テンプレートは、学習的認識手法により認識された対象に基づいて初期化されてよい。
【0019】
実施形態は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップをさらに備え、差異を補正するステップは、学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて、記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって行われてよい。
【0020】
本発明の別の対象追跡方法は、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームの画像から、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームの画像を予測するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、予測されたカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、を備える。
【0021】
学習的認識手法は、ディープラーニングを含んでよい。
【0022】
動画像は、高速カメラにより撮影された動画像であってよい。
【0023】
第2のフレームレートは、第1のフレームレートの8倍以上であってよい。
【0024】
本発明の別の態様は、対象追跡システムである。この対象追跡システムは、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識する対象認識部と、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の少なくとも1つの対象を追跡する対象追跡部と、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する補正部と、補正されたROIに基づいて、カレントフレームのROI位置を初期化するROI位置初期化部と、を備える。
【0025】
本発明のさらに別の態様は、対象追跡プログラムである。この対象追跡プログラムは、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識するステップと、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップと、学習的認識手法による対象の認識が開始されたフレームのROIと、第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正するステップと、補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップと、をコンピュータに実行させる。
【0026】
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0027】
本発明によれば、高速な動画像に対しても、連続的で安定した対象追跡を実現することができる。
【図面の簡単な説明】
【0028】
【
図1】実施形態に係る動画像のフレームを示す図である。
【
図2】第1実施形態に係る対象追跡方法のフロー図である。
【
図3】第2実施形態に係る対象追跡方法のフロー図である。
【
図4】第3実施形態に係る対象追跡方法のフロー図である。
【
図5】第4実施形態に係る対象追跡方法のフロー図である。
【
図6】第5実施形態に係る対象追跡方法のフロー図である。
【
図7】第6実施形態に係る対象追跡方法のフロー図である。
【
図8】第7実施形態に係る対象追跡方法のフロー図である。
【
図9】第8実施形態に係る対象追跡システムのブロック図である。
【
図10】第9実施形態に係る対象追跡システムのブロック図である。
【
図11】比較例に係る方法による対象追跡実験の結果を示す図である。
図11(a)、
図11(b)は、それぞれ追跡された対象のx座標、y座標を示す。
【
図12】第6実施形態による対象追跡実験の結果を示す図である。
図11(a)、
図11(b)は、それぞれ追跡された対象のx座標、y座標を示す。
【
図13】第9実施形態による対象追跡実験の結果を示す図である。
【発明を実施するための形態】
【0029】
実施形態を具体的に説明する前に、概要を説明する。
図1は、本発明の実施形態に係る動画像のフレームを示す。フレームF
0、F
1、F
2、F
3、…、F
N-1は、追跡の対象となる動画像のフレームである。フレームf
1b、f
1a、f
2b、f
2aは、ディープラーニングなどの学習的認識手法により、対象認識が実行されるフレームである。フレームfI
1b、fI
1a、fI
2b、fI
2aは、バッファ等に記憶された実画像である。
【0030】
図1の例では、第1の周期t1で、学習的認識手法により、動画像内の対象が周期的に認識される。以下、第1の周期t1の逆数を第1のフレームレートと呼ぶ。学習的認識手法により対象が認識されると、この認識された対象に基づいて、ROI位置が初期化される。この初期化されたROI位置に基づいて、第2の周期t2で、テンプレートを用いたテンプレートマッチングにより、動画像内の対象が追跡される。以下、第2の周期t2の逆数を第2のフレームレートと呼ぶ。また、学習的手法による対象認識に要する計算時間をt3とする。なお動画像内の追跡対象は1つだけとは限らず、複数あってもよい。
【0031】
第1の周期t1は、第2の周期t2より長い。ここでは、t1=N・t2であるとする。t1はt2の8倍以上であること、すなわちN≧8であることが望ましい。換言すれば、第1のフレームレートは第2のフレームレートの8分の1以下であることが望ましい。
【0032】
f1bは、ある時点で、学習的認識手法により対象の認識が開始されるフレームを示す。このときの時刻tを-t3とする。前述の通り対象認識に要する計算時間がt3であるので、t=0でこの計算が完了し、フレームf1aで対象が認識される。
【0033】
f1bの時点からt1の時間が経過してt=t1-t3になると、フレームf2bに対して、次の周期の対象認識が開始される。そして、t=t1でこの対象認識が完了する。以下同様である。
【0034】
t=-t3で対象の認識が開始されてから、t=0で対象の認識が完了するまでの実画像は、バッファ等に記憶される。本例では、t=-t3における実画像fI1bからt=0における実画像fI1aが、バッファB1に記憶される。
【0035】
次の対象認識の周期では、t=t1-t3における実画像fI2bからt=t1における実画像fI2aが、バッファB2に記憶される。以下同様である。
【0036】
F0、F1、F2、F3、…は、それぞれt=0、t2、2・t2…で順次対象が追跡されたフレームを示す。前述の通りt=0で学習的認識手法により対象が認識されるので、この時点のフレームF0のROI位置が更新される。このフレームF0をカレントフレームCF(Current Frame)と呼ぶ。
【0037】
時刻t=t1=N・t2で、次の周期の学習的認識手法による対象認識に基づいて、フレームFN-1のROI位置が新たな位置に初期化される。従って、もしF1~FN-2のいずれかのフレームで追跡が外れて対象が見失われた場合であっても、フレームFN-1における対象認識により、FN以降のフレームで追跡を再開することができる。
【0038】
図1の下段に示されるように、学習的認識手法による対象認識が開始されたフレームf
1bは、カレントフレームCFに対し、時間にしてt3だけ遅延している。もしこのt3の間に動画内で対象が大きく動くと、フレームf
1b内の対象位置(ROI位置)と、カレントフレームCF内の対象位置との間に大きな差異が生じる。
【0039】
実施形態は、この差異を補正する。実施形態は、バッファB1内に記憶したフレームfI1bからfI1aまでの実映像を再生して対象を追跡し、ROI位置を補正する。この実映像の再生は、記憶したすべてのフレームを用いた高速再生であってもよく、記憶したフレームから抽出したフレームのサブセットのコマ送り的な再生であってもよい。
【0040】
図1の中段に示されるように、t=-t3ではフレームfI
1bの下左隅にあったROII
1bは、t=0ではフレームfI
1aの下右隅のI
1aに移動している。一方、
図1の下段に示されるように、t=0で対象認識されたフレームf
1aのROI
1は、t=-t3におけるフレームf
1bに基づいて計算されているので、フレームf
1aの下左隅にある。このROI
1は、実画像にI
1aよって補正される。そしてこの補正されたROIに基づいて、カレントフレームCFのROI位置が更新される。
【0041】
このようにして、更新されるROI位置は、カレントフレームCF内の対象位置から遅延したものではなく、常にカレントフレームCFに追随したものとなる。従って、滑らかで途切れのない対象追跡を実現することができる。
【0042】
以下、
図2~
図8を参照して、本発明の種々の実施形態を説明する。実施形態および変形例では、同一または同等の構成要素には同一の符号を付すものとし、適宜重複した説明は省略する。
図2~
図8のフロー図は、第1のフレームレートで、学習的手法により対象が認識される周期、すなわち第1の周期についての1周期分のフローを示すものである。
【0043】
(第1実施形態)
図2は、第1実施形態に係る対象追跡方法のフロー図である。
「開始」で、ある第1の周期についての学習的手法による対象の追跡が開始される。
【0044】
ステップS1で本方法は、第1のフレームレートで、学習的認識手法により、動画像内の少なくとも1つの対象を認識する。学習的認識手法には、例えばCNNをベースとするディープラーニングが使われてよい。対象の認識は例えば、(1)認識候補の検出、(2)ターゲットの決定、の2段階で行われてよい。これによりターゲットROIの画像、位置、サイズなどが認識される。
【0045】
ステップS2で本法は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。動画像内の対象の追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、(1)相関フィルタに用いるROI画像選択、(2)周波数空間での相関計算、(3)相関ピーク検出に基づく追跡ROI領域更新、などの処理を含んでよい。
【0046】
ステップS3で本方法は、ステップS1で学習的認識手法による対象の認識が開始されたフレームのROIと、ステップS2で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して対象を追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。
【0047】
ステップS4で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームのROI位置を初期化する。
【0048】
「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第1の周期についての学習的手法による対象の追跡が開始される。以下、第1の周期ごとに同様のフローが繰り返される。
【0049】
本実施例によれば、ROI位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなる。これにより、滑らかで途切れのない対象追跡を実現することができる。
【0050】
(第2実施形態)
図3は、第2実施形態に係る対象追跡方法のフロー図である。
第2実施形態は、第1実施形態のステップS4に代えて、ステップS41を備える。その他の処理は、第1実施形態と共通である。
【0051】
ステップS41で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームのROI位置を、第1のフレームレートで初期化する。すなわち本実施形態では、第1のフレームレートで学習的認識手法により対象が認識されると、それに応じて、ROI位置は毎回初期化される。
【0052】
本実施形態によれば、学習的認識手法で得た認識結果を、ROI位置の更新に最大限利用することができる。
【0053】
(第3実施形態)
図4は、第3実施形態に係る対象追跡方法のフロー図である。
第3実施形態は、第1実施形態の各処理に加えて、ステップS5をさらに備える。その他の処理は、第1実施形態と共通である。
【0054】
ステップS5で本方法は、ステップS1で学習的認識手法により認識された対象に基づいて、第1のフレームレートでテンプレート及びROI位置を初期化する。すなわち本実施形態では、第2のフレームレートで行われる対象追跡に用いられるテンプレート及びROI位置が、第1のフレームレートで学習的認識手法によって対象が認識される度に、毎回初期化される。
【0055】
本実施形態によれば、学習的認識手法で得た認識結果を、テンプレート及びROI位置の更新に最大限利用することができる。
【0056】
(第4実施形態)
図5は、第4実施形態に係る対象追跡方法のフロー図である。
第4実施形態は、第1実施形態の各処理に加えて、ステップS42およびステップS6をさらに備える。その他の処理は、第1実施形態と共通である。
【0057】
ステップS6で本方法は、対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のROIの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップS6での比較結果が所定の値以下のときは、ステップS42で、テンプレートマッチングにより追跡された対象に基づいてROI位置を初期化する。一方、ステップS6での比較結果が所定の値より大きいときは、ステップS4で、補正されたROIに基づいてカレントフレームのROI位置を初期化する。すなわち本実施形態では、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、ROI位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡が外れて対象が見失われた場合に限り、ROI位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。
【0058】
本実施形態によれば、追跡軌跡が連続するように、ROI位置を更新することができる。
【0059】
(第5実施形態)
図6は、第5実施形態に係る対象追跡方法のフロー図である。
第5実施形態は、第3実施形態の各処理に加えてステップS52およびステップS6をさらに備え、ステップS5に代えてステップS51を備える。その他の処理は、第3実施形態と共通である。
【0060】
ステップS6で本方法は、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象とを比較する。この比較は、対象のROIの位置ずれや、テンプレートの形状のパターンの相違などを含んでよい。ステップS6での比較結果が所定の値以下のときは、ステップS52で、テンプレートマッチングにより追跡された対象に基づいてテンプレート及びROI位置を初期化する。一方、ステップS6での比較結果が所定の値より大きいときは、ステップS51で、学習的認識手法により認識された対象に基づいてテンプレート及びROI位置を初期化する。すなわち本実施形態では、対象の認識が開始されたフレームにおいて、追跡が正常に機能していて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との間に所定の差異がない限り、テンプレート及びROI位置の初期化は、テンプレートマッチングにより追跡された対象に基づいて行われる。追跡ROIが認識結果から逸脱した場合に限り、テンプレート及びROI位置の初期化は、学習的認識手法により認識された対象に基づいて行われる。
【0061】
本実施形態によれば、必要な場合にのみ、学習的認識手法で得た認識結果を、テンプレートの更新に利用することができる。
【0062】
(第6実施形態)
図7は、第6実施形態に係る対象追跡方法のフロー図である。
第6実施形態は、第1実施形態の各処理に加えてステップS7をさらに備え、ステップS3に代えてステップS31を備える。その他の処理は、第1実施形態と共通である。
【0063】
ステップS7で本方法は、学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶する。
【0064】
ステップS31で本方法は、学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正する。このときのテンプレートマッチングは、例えば、第2のフレームレートにおける1フレーム分に相当する時間で実行される。
【0065】
本実施形態によれば、学習的認識手法により対象の認識が開始されたフレームからカレントフレームまでのテンプレートマッチングによる追跡を実行することより、ROI位置を補正することができる。
【0066】
(第7実施形態)
図8は、第7実施形態に係る対象追跡方法のフロー図である。
第7実施形態は、第1実施形態の各処理に加えてステップS8をさらに備え、ステップS3に代えてステップS32を備える。その他の処理は、第1実施形態と共通である。
【0067】
ステップS8で本方法は、S1で学習的認識手法により対象の認識が開始されたフレームから、カレントフレームの画像を予測する。この予測には、線形予測などの既知の手法が用いられてよい。
【0068】
ステップS42で本方法は、ステップS1で学習的認識手法により対象の認識が開始されたフレームのROIと、ステップS8で予測されたカレントフレームのROIとの間の差異を補正する。
【0069】
本実施形態によれば、実映像のカレントフレームを用いる代わりに、カレントフレームを予測することにより、テンプレートマッチングの処理量を大きく削減することができる。
【0070】
(第8実施形態)
図9は、第8実施形態に係る対象追跡システムのブロック図である。
対象追跡システム1は、対象認識部10と、対象追跡部11と、補正部12と、初期化部13と、を備える。
【0071】
対象認識部10は、第1のフレームレートで、学習的認識手法により、動画像内の対象を認識する。対象追跡部11は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡する。補正部12は、対象認識部10で学習的認識手法による対象の認識が開始されたフレームのROIと、対象追跡部11で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。初期化部13は、補正部12で補正されたROIに基づいて、カレントフレームのテンプレート及びROI位置を初期化する。
【0072】
図10は、第9実施形態に係る対象追跡システム2のブロック図である。
本実施形態に係る対象追跡システムは、対象認識部10と、対象追跡部11と、補正部12と、初期化部13と、を備える対象追跡装置3と、その他の周辺装置を含む。対象追跡装置3の構成および動作は、第8実施例に係る対象追跡システム1の構成及び動作と共通であるため、説明を省略する。
【0073】
対象追跡システム2は、高速カメラ14を備えてよい。高速カメラ14は、例えば毎秒500フレーム以上のフレームレートで動画像を撮影し、撮影した動画像データを対象追跡装置3に送信する。
【0074】
対象追跡システム2は、操作用PC15を備えてよい。操作用PC15は操作者によって操作され、操作者が設定した設定データや各種のコマンドを対象追跡装置3に送信する。
【0075】
対象追跡装置3は、表示装置16、スマートフォン17またはサーバ18を備えてよい。対象追跡装置3で追跡された追跡対象データは、表示装置16やスマートフォン17に送信され、これらの装置で動画像として表示される。あるいは対象追跡装置3で追跡された追跡対象データは、サーバ18に送信され、動画像データとして蓄積される。
【0076】
本実施例によれば、ROI位置がカレントフレーム内の対象位置から遅延することなく、常にカレントフレームに追随したものとなるので、滑らかで途切れのない対象追跡を実現することができる。
【0077】
(第9実施形態)
追跡の対象は複数あってもよい。特にこれらの対象は、異なる速度で運動していてもよい。以下、
図2を参照して、第9実施形態に係る対象追跡方法のフローを説明する。「開始」で、ある第1の周期についての学習的手法による対象の追跡が開始される。
【0078】
ステップS1で本方法は、第1のフレームレートで、学習的認識手法により、動画像内の複数の対象を認識する。複数の対象は、例えば単一のカメラで撮影された動画像内で運動する複数の対象物であってよい。特にこれらの対象物の運動速度は異なっていてもよい。以下、例示として、第1の対象として「人」、第2の対象として「自動車」を認識するものとする。なおこの場合の学習的認識手法も、単一の対象を追跡する場合と同様、例えばCNNをベースとするディープラーニングが使われてよい。
【0079】
ステップS2で本法は、第1のフレームレートより高い第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の人と自動車をそれぞれ追跡する。追跡には、相関フィルタによる局所領域追跡が使われてよい。相関フィルタによる局所領域追跡は、(1)相関フィルタに用いるROI画像選択、(2)周波数空間での相関計算、(3)相関ピーク検出に基づく追跡ROI領域更新、などの処理を含んでよい。
【0080】
ステップS3で本方法は、人および自動車に関し、ステップS1で学習的認識手法による認識が開始されたフレームの人および自動車のROIと、ステップS2で第2のフレームレートでテンプレートマッチングを継続した結果現在に至ったカレントフレームのROIとの間の差異を補正する。前述のようにこの補正は、例えば、学習的認識手法により人および自動車の認識が開始されたフレームからカレントフレームまでのビデオ映像をバッファに記憶しておき、このバッファ内の実映像を再生して追跡することにより行われてよい。この実映像の再生は、バッファに記憶したすべてのフレームを用いた高速再生であってもよく、バッファ内から抽出したフレームのサブセットのコマ送り的な再生であってもよい。
【0081】
ステップS4で本方法は、ステップS3で補正されたROIに基づいて、カレントフレームの人および自動車のそれぞれのROI位置を初期化する。
【0082】
「終了」で、この周期についての学習的手法によるフロー内の処理が終了する。続けてフローは次の周期に遷移し、次の第1の周期についての学習的手法による人および自動車の追跡が開始される。以下、第1の周期ごとに同様のフローが繰り返される。
【0083】
従来の対象追跡技術では、運動速度の異なる複数の対象物を追跡しようとした場合、対象により追跡のしやすさが異なる。すなわち、一般に高速で運動する対象は、低速で運動する対象より追跡が困難である。これは、追跡中に互いに対象物を取り違えてしまったりすることや、画面上で2つの画像が交錯することにより発生するオクルージョンに起因して対象の追跡が失敗したりすることの原因となる。本実施形態によれば、複数の対象のそれぞれのROI位置がカレントフレームに遅延することなく、常にカレントフレームに追従したものとなるため、滑らかで途切れのない追跡が実現され、継続した追跡が可能となる。
【0084】
以上の実施形態は、任意の動画像に適用することができる。特に実施形態は、近年性能の向上が著しく、産業上広く用いられている高速カメラにより撮影された動画像に適用してよい。画像取り込みのサンプリングレートが高い高速カメラの場合、対象追跡技術における前述の課題は特に深刻となる。従って、本発明の実施形態は、高速カメラにより撮影された動画像に対して特に効果的である。
【0085】
第2のフレームレートの方が第1のフレームレートより高い限り、これらのフレームレートは任意の値であってよい。一例として、第1のフレームレートは毎秒100フレーム以下であってよく、第2のフレームレートは毎秒500フレーム以上であってよい。ディープラーニング等の学習的手法は、毎秒100フレームを超えると、計算機コストや計算時間上のデメリットが大きい。一方、現在および将来の高速カメラの性能や仕様における要求条件に照らせば、テンプレートマッチングによる追跡は、毎秒500フレーム以上で行われることが望ましい。
【0086】
(検証実験)
本発明者らは、本発明の効果を確認するために、実施形態による対象追跡実験を行った。
【0087】
図11は、比較例に係る方法による対象追跡実験の結果を示す図である。
ここでは比較例として、非特許文献1に記載の技術を用いた。実験は、サンプリングレート500fpsで取得した動画像に対し、これと同じフレームレート500fpsで相関フィルタを用いた追跡を行うとともに、フレームレート50fpsでディープラーニングによる対象認識を行うことにより行った。追跡が正常に機能している限り、ROI位置とテンプレートは相関フィルタによって更新され、追跡が継続される。追跡が外れて対象が見失われた場合は、ディープラーニングで認識された対象を基にテンプレートROIが更新され、これらを基に追跡が再開される。
【0088】
図11(a)、
図11(b)は、それぞれ追跡された対象の、画面上におけるx座標、y座標を示す。ここでx座標は画像の水平方向を、y座標は画像の垂直方向をそれぞれ意味する(以下同様)。図示されるように、グラフは複数の時点で途切れており、追跡が失敗している。また追跡が成功しているところであっても、グラフは滑らかな曲線を描いていない。これらは、ディープラーニングによる対象認識時点のフレームがカレントフレームに対して遅延していることに起因して、正しい追跡が行われていないことを表すと考えられる。
【0089】
図12は、本発明に係る第6実施形態による対象追跡実験の結果を示す図である。
本実施形態と比較例との違いは、本実施形態が、ディープラーニングによる対象認識時点のフレームとカレントフレームとの間のROIの差異を補正するステップを備える点である。その他の実験条件は、比較例と共通である。
【0090】
図12(a)、
図12(b)は、それぞれ追跡された対象の、画面上におけるx座標、y座標を示す。
図11と異なり、測定時間の5秒間全体にわたって、グラフには途切れがない。またグラフ全体は、概ね滑らかな曲線を描いている。これは正しい対象追跡が実現されていることを表すと考えられ、本発明の有効性が確認された。
【0091】
図13は、本発明の第9実施形態による対象追跡実験の結果を示す図である。
図13は、対象すなわち「人」と「自動車の」画面上におけるx座標を示す。追跡された自動車は、測定時間の5秒間全体にわたって、グラフにはほぼ途切れがない。一方、追跡された人は、時刻3秒から3.7秒の間にカメラの前を自動車が通過したためオクルージョンが発生し、この間グラフが途切れている。しかしながら自動車が通過した後に即座に認識がされ、その後の継続した追跡に成功している。このように、運動速度の異なる複数の対象に対して、途中にオクルージョンが発生した場合であっても、本発明の有効性が確認された。ただし移動体は反転や方向転換時などでは停止期間もあるため、速度の概念は速度=0を含むものとする。
【0092】
以上、本発明を実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0093】
例えば第2のフレームレートは、動画像を取り込むときのフレームレートと一致していてよい。あるいは第2のフレームレートは、取り込んだ動画像のフレームの一部のフレームに関するものであってもよい。すなわち、テンプレートマッチングによる対象の追跡は、フレームバイフレームで行ってもよいし、フレームのサブセットで行ってもよい。
【0094】
高速カメラは、肉眼で認識できる画像を撮影するための可視光撮影カメラに代えて、赤外線等の非可視光を可視化するための非可視光撮影カメラであってもよい。
【0095】
本発明による手法は、監視カメラ等の固定カメラに限らず、車載用カメラやドローン用カメラなどの移動体用カメラ、パンなどの大きな動きを伴うカメラで撮影された画像など、広い分野での動画像に適用が可能であり、産業上の利用性が高いものである。
【産業上の利用可能性】
【0096】
本発明は、対象追跡方法、対象追跡システムおよび対象追跡プログラムに関する。
【符号の説明】
【0097】
S1・・・第1のフレームレートで、学習的認識手法により、動画像内の対象を認識するステップ
S2・・・第2のフレームレートで、テンプレートを用いたテンプレートマッチングにより、動画像内の対象を追跡するステップ
S3・・・対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正するステップ
S31・・・学習的認識手法による対象の認識が開始されたフレームのROI位置とテンプレートとを用いて記憶したフレームに対して、テンプレートマッチングによる追跡を実行することによって、対象の認識が開始されたフレームのROIと、カレントフレームのROIとの間の差異を補正するステップ
S32・・・学習的認識手法による対象の認識が開始されたフレームのROIと、予測されたカレントフレームのROIとの間の差異を補正するステップ
S4・・・補正されたROIに基づいて、カレントフレームのROI位置を初期化するステップ
S41・・・補正されたROIに基づいて、第1のフレームレートで、カレントフレームのROI位置を初期化するステップ
S42・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのROI位置を初期化
S5・・・学習的認識手法により認識された対象に基づいて、第1のフレームレートで、テンプレート及びROI位置を初期化するステップ
S51・・・学習的認識手法により認識された対象に基づいて、カレントフレームのテンプレート及びROI位置を初期化するステップ
S52・・・テンプレートマッチングにより追跡された対象に基づいて、カレントフレームのテンプレート及びROI位置を初期化するステップ
S6・・・対象の認識が開始されたフレームにおいて、学習的認識手法により認識された対象と、テンプレートマッチングにより追跡された対象との差を比較するステップ
S7・・・学習的認識手法による対象の認識が開始されたフレームからカレントフレームまでのフレームを記憶するステップ
S8・・・学習的認識手法による対象の認識が開始されたフレームの画像から、
カレントフレームの画像を予測するステップ
1・・・対象追跡システム
10・・・対象認識部
11・・・対象追跡部
12・・・補正部
13・・・初期化部