IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7065557人物を追跡する映像解析装置、プログラム及び方法
<>
  • 特許-人物を追跡する映像解析装置、プログラム及び方法 図1
  • 特許-人物を追跡する映像解析装置、プログラム及び方法 図2
  • 特許-人物を追跡する映像解析装置、プログラム及び方法 図3
  • 特許-人物を追跡する映像解析装置、プログラム及び方法 図4
  • 特許-人物を追跡する映像解析装置、プログラム及び方法 図5
  • 特許-人物を追跡する映像解析装置、プログラム及び方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-28
(45)【発行日】2022-05-12
(54)【発明の名称】人物を追跡する映像解析装置、プログラム及び方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20220502BHJP
【FI】
G06T7/20 300Z
【請求項の数】 22
(21)【出願番号】P 2018228581
(22)【出願日】2018-12-05
(65)【公開番号】P2020091664
(43)【公開日】2020-06-11
【審査請求日】2020-11-18
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】西村 仁志
(72)【発明者】
【氏名】田坂 和之
【審査官】新井 則和
(56)【参考文献】
【文献】国際公開第2016/139906(WO,A1)
【文献】追跡軌跡の再同定を用いたオンライン複数物体追跡,画像電子学会誌 Vol.47 No.4,2018年10月30日,391~400
【文献】行動特徴に基づく人物追跡,情報処理学会研究報告 コンピュータビジョンとイメージメディア(CVIM) No.172 No.36,Vol.2010,2010年06月15日
【文献】Mengmeng Wang;Xiaofeng Li;Peixin Liu;Kai Xu;Zhizhong Fu,Multiple object tracking by multi-feature combination based on min-cost network flow,2016 IEEE 13th International Conference on Signal Processing (ICSP),IEEE,2016年11月06日,714-718,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7877925
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力する第1の人物検出手段と、
2つの画像フレームの組毎に、前記人物領域の変化に対する人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力する第2の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第1の人物認識のコストを出力し、当該人物領域に人物ID(IDentifier)を付与する第1の人物認識手段と、
前記画像フレームの組毎に、前記人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第2の人物認識のコストを出力する第2の人物認識手段と、
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線IDを付与すると共に、前記人物IDを対応付ける人物追跡手段と
を有することを特徴とする映像解析装置。
【請求項2】
第1の人物検出手段は、深層学習エンジンであり、
第1の人物認識手段は、人物認識学習エンジンであ
とを特徴とする請求項1に記載の映像解析装置。
【請求項3】
前記人物追跡手段は、第1の人物検出のコスト、第2の人物検出のコスト、第1の人物認識のコスト及び第2の人物認識のコストの和が最小となるように、動線ID及び人物IDを対応付ける
ことを特徴とする請求項1又は2に記載の映像解析装置。
【請求項4】
前記人物追跡手段は、連続する画像フレーム(N=1)毎に、オンライン処理として動線ID及び人物IDを対応付ける
ことを特徴とする請求項3に記載の映像解析装置。
【請求項5】
前記人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ID及び人物IDを対応付ける
ことを特徴とする請求項4に記載の映像解析装置。
【請求項6】
前記人物追跡手段は、所定数の画像フレーム(N>1)の内で2つの画像フレームの組毎に、オフライン処理として動線ID及び人物IDを対応付ける
ことを特徴とする請求項3に記載の映像解析装置。
【請求項7】
前記人物追跡手段は、前記画像フレームの組について、第1の動線ID及び第1の人物IDが対応付けられた人物領域が発生した後、新たな第2の動線IDと第1の人物IDが対応付けられた人物領域が発生した際に、新たな第2の動線IDを第1の動線IDに置き換える
ことを特徴とする請求項6に記載の映像解析装置。
【請求項8】
第1の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和が、第2の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和よりも小さい場合にのみ、前記新たな第2の動線IDを前記第1の動線IDに置き換える
ことを特徴とする請求項7に記載の映像解析装置。
【請求項9】
前記人物追跡手段は、前記画像フレームの組について、第1の動線ID及び第1の人物IDが対応付けられた人物領域が発生した後、第1の動線IDと新たな第2の人物IDが対応付けられた人物領域が発生した際に、新たな第2の人物IDを第1の人物IDに置き換える
ことを特徴とする請求項4又は6に記載の映像解析装置。
【請求項10】
第1の人物IDにおける第1の人物認識のコスト及び第2の人物認識のコストの和が、第2の人物IDにおける第1の人物認識のコスト及び第2の人物認識のコストの和よりも小さい場合にのみ、新たな第2の人物IDを第1の人物IDに置き換える
ことを特徴とする請求項9に記載の映像解析装置。
【請求項11】
カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、第1の人物検出のスコアを出力する第1の人物検出手段と、
2つの画像フレームの組毎に、前記人物領域の変化に対する第2の人物検出のスコアを出力する第2の人物検出手段と、
画像フレーム毎に、各人物領域に対して人物行動を検出し、第1の行動認識のスコアを出力し、当該人物領域に行動IDを付与する第1の行動認識手段と、
前記画像フレームの組毎に、前記人物領域の人物行動の変化に対する第2の行動認識のスコアを出力する第2の行動認識手段と
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのスコアとを用いて、動線IDを付与すると共に、前記行動IDを対応付ける人物追跡手段と
を有することを特徴とする映像解析装置。
【請求項12】
第1の行動認識手段は、畳み込みニューラルネットワークであり、
第1の行動認識手段は、第1の行動認識のスコアを距離関数として負値化した第1の行動認識のコストを出力し、
第2の行動認識手段は、第2の人物検出のスコアを距離関数として負値化した第2の行動認識のコストを出力する
ことを特徴とする請求項11に記載の映像解析装置。
【請求項13】
第1の人物検出手段は、第1の人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力し、
第2の人物検出手段は、第2の人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力し、
前記人物追跡手段は、第1の人物検出のコスト、第2の人物検出のコスト、第1の人物認識のコスト、第2の人物認識のコスト、第1の行動認識のコスト、第2の行動認識のコストの和が最小となるように、動線ID及び行動IDを対応付ける
ことを特徴とする請求項12に記載の映像解析装置。
【請求項14】
前記人物追跡手段は、連続する画像フレーム(N=1)毎に、オンライン処理として動線ID及び行動IDを対応付ける
ことを特徴とする請求項13に記載の映像解析装置。
【請求項15】
前記人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ID及び行動IDを対応付ける
ことを特徴とする請求項14に記載の映像解析装置。
【請求項16】
前記人物追跡手段は、所定数の画像フレーム(N>1)の内で2つの画像フレームの組毎に、オフライン処理として動線ID及び行動IDを対応付ける
ことを特徴とする請求項13に記載の映像解析装置。
【請求項17】
前記人物追跡手段は、前記画像フレームの組について、第1の動線ID及び第1の行動IDが対応付けられた人物領域が発生した後、新たな第2の動線IDと第1の行動IDが対応付けられた人物領域が発生した際に、新たな第2の動線IDを第1の動線IDに置き換える
ことを特徴とする請求項16に記載の映像解析装置。
【請求項18】
第1の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和が、第2の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和よりも小さい場合にのみ、新たな第2の動線IDを第1の動線IDに置き換える
ことを特徴とする請求項17に記載の映像解析装置。
【請求項19】
前記人物追跡手段は、前記画像フレームの組について、第1の動線ID及び第1の行動IDが対応付けられた人物領域が発生した後、第1の動線IDと新たな第2の行動IDが対応付けられた人物領域が発生した際に、新たな第2の行動IDを第1の行動IDに置き換える
ことを特徴とする請求項14又は16に記載の映像解析装置。
【請求項20】
第1の行動IDにおける第1の行動認識のコスト及び第2の行動認識のコストの和が、第2の行動IDにおける第1の行動認識のコスト及び第2の行動認識のコストの和よりも小さい場合にのみ、新たな第2の行動IDを第1の行動IDに置き換える
ことを特徴とする請求項19に記載の映像解析装置。
【請求項21】
カメラによる連続的な画像フレームの中から人物を追跡する装置に搭載されたプログラムを機能させる映像解析プログラムにおいて、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力する第1の人物検出手段と、
2つの画像フレームの組毎に、前記人物領域の変化に対する人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力する第2の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第1の人物認識のコストを出力し、当該人物領域に人物ID(IDentifier)を付与する第1の人物認識手段と、
前記画像フレームの組毎に、前記人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第2の人物認識のコストを出力する第2の人物認識手段と、
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線IDを付与すると共に、前記人物IDを対応付ける人物追跡手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項22】
カメラによる連続的な画像フレームの中から人物を追跡する装置の映像解析方法において、
前記装置は、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力する第1のステップと、
2つの画像フレームの組毎に、前記人物領域の変化に対する人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力する第2のステップと、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第1の人物認識のコストを出力し、当該人物領域に人物ID(IDentifier)を付与する第3のステップと、
前記画像フレームの組毎に、前記人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第2の人物認識のコストを出力する第4のステップと、
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線IDを付与すると共に、前記人物IDを対応付ける第5のステップと
を実行することを特徴とする映像解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、時系列の画像フレームから、人物を追跡する映像解析の技術に関する。
【背景技術】
【0002】
従来、映像の画像フレーム毎に人物領域を検出し、先の人物領域の位置や特徴量のマッチ率を用いて人物を追跡する技術がある(例えば非特許文献1参照)。この技術によれば、前フレームの人物領域と後フレームの人物領域とに対して、動線ID(IDentifier)を対応付けることによって人物を追跡する。
また、人物領域の動線を見失った場合であっても、前後の人物領域に映る行動クラスから、動線を補完する技術もある(例えば特許文献1参照)。この技術によれば、例えば、最後に推定された行動クラス「商品を手に取る」の追跡結果と、最初の行動クラス「商品を棚に戻す」の追跡結果とを結合する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2017-83980号公報
【非特許文献】
【0004】
【文献】Nicolai Wojke, Alex Bewley, and Dietrich Paulus, “Simple Online and Realtime Tracking with a Deep Association Metric,” In International Conference on Image Processing (ICIP), IEEE, pp. 3645-3649, 2017.
【文献】Florian Schroff, Dmitry Kalenichenko, and James Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering,” In Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 815-823, 2015.
【文献】Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg, “SSD: Single Shot Multibox Detector,” In European Conference on Computer Vision (ECCV), Springer, pp. 21-37, 2016.
【文献】T. M. COVER, and P. E. HART, “Nearest Neighbor Pattern Classification,” Transactions on Information Theory, IEEE, vol. 13 no. 1, pp. 21-27, 1967.
【文献】Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool, “Temporal Segment Networks: Towards Good Practices for Deep Action Recognition,” In European Conference on Computer Vision (ECCV), IEEE, pp. 20-36, 2016.
【文献】Sergey Zagoruyko, Nikos Komodakis, “Wide Residual Networks,” British Machine Vision Conference (BMVC), British Machine Vision Association, pp. 1-12, 2016.
【文献】Li Zhang, Yuan Li, and Ramakant Nevatia, “Global Data Association for Multi-Object Tracking Using Network Flows,” In Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 1-8, 2008.
【文献】Wenhan Luo, Junliang Xing, Xiaoqin Zhang, Xiaowei Zhao, and Tae-Kyun Kim1, “Multiple Object Tracking: A Literature Review,” arXiv:1409.7618, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、映像の画像フレーム内で、人物同士が重畳する人物間オクルージョンが発生した場合、追跡中の人物の動線が、途切れたり又は入れ替わりが生じ、人物の追跡精度が低下する。
【0006】
非特許文献1に記載の技術によれば、追跡情報として人物領域の位置や特徴量しか用いておらず、追跡精度が必ずしも高いとはいえない。
また、特許文献1に記載の技術によれば、人物間オクルージョンや人物検出の失敗等による追跡情報の欠損を補完するための他の追跡情報は正確であることを前提としている。即ち、追跡情報自体が誤った場合、それを補正する機能はなく、誤った追跡結果同士を結合する恐れもある。
即ち、人物間オクルージョンが発生した場合や人物検出に失敗した場合に、頑健(ロバスト)に人物を追跡することは難しい。
【0007】
そこで、本発明によれば、カメラによって撮影された映像の中で、人物間オクルージョンが発生したり人物検出に失敗したりしても、追跡情報を補完することによって、ロバストに人物追跡を継続することができる映像解析装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力する第1の人物検出手段と、
2つの画像フレームの組毎に、人物領域の変化に対する人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力する第2の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第1の人物認識のコストを出力し、当該人物領域に人物ID(IDentifier)を付与する第1の人物認識手段と、
画像フレームの組毎に、人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第2の人物認識のコストを出力する第2の人物認識手段と、
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線IDを付与すると共に、人物IDを対応付ける人物追跡手段と
を有することを特徴とする。
【0009】
本発明の映像解析装置における他の実施形態によれば、
第1の人物検出手段は、深層学習エンジンであり、
第1の人物認識手段は、人物認識学習エンジンであ
ことも好ましい。
【0010】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、第1の人物検出のコスト、第2の人物検出のコスト、第1の人物認識のコスト及び第2の人物認識のコストの和が最小となるように、動線ID及び人物IDを対応付けることも好ましい。
【0011】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、連続する画像フレーム(N=1)毎に、オンライン処理として動線ID及び人物IDを対応付けることも好ましい。
【0012】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ID及び人物IDを対応付けることも好ましい。
【0013】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、所定数の画像フレーム(N>1)の内で2つの画像フレームの組毎に、オフライン処理として動線ID及び人物IDを対応付けることも好ましい。
【0014】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第1の動線ID及び第1の人物IDが対応付けられた人物領域が発生した後、新たな第2の動線IDと第1の人物IDが対応付けられた人物領域が発生した際に、新たな第2の動線IDを第1の動線IDに置き換えることも好ましい。
【0015】
本発明の映像解析装置における他の実施形態によれば、
第1の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和が、第2の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和よりも小さい場合にのみ、新たな第2の動線IDを第1の動線IDに置き換えることも好ましい。
【0016】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第1の動線ID及び第1の人物IDが対応付けられた人物領域が発生した後、第1の動線IDと新たな第2の人物IDが対応付けられた人物領域が発生した際に、新たな第2の人物IDを第1の人物IDに置き換えることも好ましい。
【0017】
本発明の映像解析装置における他の実施形態によれば、
第1の人物IDにおける第1の人物認識のコスト及び第2の人物認識のコストの和が、第2の人物IDにおける第1の人物認識のコスト及び第2の人物認識のコストの和よりも小さい場合にのみ、新たな第2の人物IDを第1の人物IDに置き換えることも好ましい。
【0018】
本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、第1の人物検出のスコアを出力する第1の人物検出手段と、
2つの画像フレームの組毎に、人物領域の変化に対する第2の人物検出のスコアを出力する第2の人物検出手段と、
画像フレーム毎に、各人物領域に対して人物行動を検出し、第1の行動認識のスコアを出力し、当該人物領域に行動IDを付与する第1の行動認識手段と、
画像フレームの組毎に、人物領域の人物行動の変化に対する第2の行動認識のスコアを出力する第2の行動認識手段と
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのスコアとを用いて、動線IDを付与すると共に、行動IDを対応付ける人物追跡手段と
を有することを特徴とする。
【0019】
本発明の映像解析装置における他の実施形態によれば、
第1の行動認識手段は、畳み込みニューラルネットワークであり、
第1の行動認識手段は、第1の行動認識のスコアを距離関数として負値化した第1の行動認識のコストを出力し、
第2の行動認識手段は、第2の人物検出のスコアを距離関数として負値化した第2の行動認識のコストを出力することも好ましい。
【0020】
本発明の映像解析装置における他の実施形態によれば、
第1の人物検出手段は、第1の人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力し、
第2の人物検出手段は、第2の人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力し、
人物追跡手段は、第1の人物検出のコスト、第2の人物検出のコスト、第1の人物認識のコスト、第2の人物認識のコスト、第1の行動認識のコスト、第2の行動認識のコストの和が最小となるように、動線ID及び行動IDを対応付ける
ことも好ましい。
【0021】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、連続する画像フレーム(N=1)毎に、オンライン処理として動線ID及び行動IDを対応付けることも好ましい。
【0022】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ID及び行動IDを対応付けることも好ましい。
【0023】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、所定数の画像フレーム(N>1)の内で2つの画像フレームの組毎に、オフライン処理として動線ID及び行動IDを対応付けることも好ましい。
【0024】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第1の動線ID及び第1の行動IDが対応付けられた人物領域が発生した後、新たな第2の動線IDと第1の行動IDが対応付けられた人物領域が発生した際に、新たな第2の動線IDを第1の動線IDに置き換えることも好ましい。
【0025】
本発明の映像解析装置における他の実施形態によれば、
第1の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和が、第2の動線IDにおける第1の人物検出のコスト及び第2の人物検出のコストの和よりも小さい場合にのみ、新たな第2の動線IDを第1の動線IDに置き換える
ことも好ましい。
【0026】
本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第1の動線ID及び第1の行動IDが対応付けられた人物領域が発生した後、第1の動線IDと新たな第2の行動IDが対応付けられた人物領域が発生した際に、新たな第2の行動IDを第1の行動IDに置き換えることも好ましい。
【0027】
本発明の映像解析装置における他の実施形態によれば、
第1の行動IDにおける第1の行動認識のコスト及び第2の行動認識のコストの和が、第2の行動IDにおける第1の行動認識のコスト及び第2の行動認識のコストの和よりも小さい場合にのみ、新たな第2の行動IDを第1の行動IDに置き換えることも好ましい。
【0028】
本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する装置に搭載されたプログラムを機能させる映像解析プログラムにおいて、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力する第1の人物検出手段と、
2つの画像フレームの組毎に、人物領域の変化に対する人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力する第2の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第1の人物認識のコストを出力し、当該人物領域に人物ID(IDentifier)を付与する第1の人物認識手段と、
画像フレームの組毎に、人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第2の人物認識のコストを出力する第2の人物認識手段と、
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線IDを付与すると共に、人物IDを対応付ける人物追跡手段と
してコンピュータを機能させることを特徴とする。
【0029】
本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する装置の映像解析方法において、
装置は、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第1の人物検出のコストを出力する第1のステップと、
2つの画像フレームの組毎に、人物領域の変化に対する人物検出のスコアを距離関数として負値化した第2の人物検出のコストを出力する第2のステップと、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第1の人物認識のコストを出力し、当該人物領域に人物ID(IDentifier)を付与する第3のステップと、
画像フレームの組毎に、人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第2の人物認識のコストを出力する第4のステップと、
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線IDを付与すると共に、人物IDを対応付ける第5のステップと
を実行することを特徴とする。
【発明の効果】
【0030】
本発明の映像解析装置、プログラム及び方法によれば、カメラによって撮影された映像の中で、人物間オクルージョンが発生したり人物検出に失敗したりしても、追跡情報を補完することによって、ロバストに人物追跡を継続することができる。
【図面の簡単な説明】
【0031】
図1】検出された人物領域における動線、人物及び行動を表す説明図である。
図2】本発明における映像解析装置の機能構成図である。
図3】オンライン処理形態であって、人物IDを修正する説明図である。
図4】オンライン処理形態であって、ハンガリアンアルゴリズムを適用した説明図である。
図5】オフライン処理形態であって、動線IDを修正する説明図である。
図6】オフライン処理形態であって、人物IDを修正する説明図である。
【発明を実施するための形態】
【0032】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0033】
図1は、検出された人物領域における動線、人物及び行動を表す説明図である。
【0034】
図1によれば、映像における時系列の画像フレーム毎に人物領域を検出し、例えば以下のような追跡情報を推定していく。
f=(tf 1,t ,・・・):あるフレームfにおける追跡情報の集合
t=(box,lid,gid,act):追跡情報
box=(x,y,w,h):人物領域の左上点の(x,y)座標、幅w、高さh
lid:動線ID(人物領域に対して仮に付与された形式的なID)
gid:人物ID(実人物と対応したID)
act:行動ID(人物領域に映る人物から推定された行動フラグ)
動線IDを結ぶことによって、前後のフレーム間で、各人物領域を対応付けて追跡することができる。
【0035】
図1(a)によれば、時系列の各フレームに、3人の人物が映り込んでいるとする。フレームfの時点では、以下のように検出されている。
動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである
動線ID:2の人物は、人物ID:107であり、行動ID:Readingである
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである
【0036】
図1(b)によれば、時系列のフレーム毎に、Tf=(tf 1,t ,・・・)を検出及び推定していく。
このとき、時系列に結ばれた同一の動線IDについて、人物IDは同一であって、行動IDは変移すると考えるべきである。また、同一の画像フレーム内に同じ動線IDは存在せず、同じ人物IDも存在しない。
【0037】
図2は、本発明における映像解析装置の機能構成図である。
【0038】
図2によれば、映像解析装置1は、カメラによって撮影された時系列の画像フレームを入力し、人物を追跡するものである。勿論、画像フレームは、予め録画されたものであってもよいし、インタフェースを介して外部からリアルタイムに入力されるもの(例えばライブ映像)であってもよい。インタフェースは、ネットワークに接続する通信インタフェースであってもよいし、カメラからの入力インタフェースであってもよい。
【0039】
映像解析装置1は、第1の人物検出部11と、第2の人物検出部112と、第1の人物認識部121と、第2の人物認識部122と、第1の行動認識部131と、第2の行動認識部132と、人物追跡部14とを有する。
ここで、第1の人物認識部121及び第2の人物認識部122と、第1の行動認識部131及び第2の行動認識部132とは、いずれか一方のみ有するものであってもよいし、両方とも有するものであってもよい。
これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。尚、これら機能構成部の処理の流れは、人物追跡する映像解析方法としても理解できる。
【0040】
[第1の人物検出部11]
第1の人物検出部11は、画像フレーム毎に、人物領域BOXf=(boxf 1,boxf 2,・・・)を検出すると共に、「第1の人物検出のスコア」を出力する。ここで、boxf 1とは、ある画像フレームfにおける1番目の人物領域を意味する。人物領域とは、画像フレームの中で、当該人物が占める輪郭を表すバウンダリボックスである。
【0041】
人物検出には、例えばSSD(Single Shot MultiBox Detector)に基づく深層学習エンジンを用いて、事前に学習させたものであってもよい(例えば非特許文献3参照)。
SSDによれば、画像フレームをグリッドで分割し、各グリッドに対するバウンディングボックスの当てはまり具合から、人物領域が検出される。SSDでは、畳み込み層を用いて、特徴マップの分割領域数をスケールダウンさせ、分割領域それぞれに対し、いくつかのデフォルトボックスを当てはめて、解に近い人物領域を選択している。
【0042】
また、第1の人物検出部11は、第1の人物検出のスコアを距離関数として負値化した「第1の人物検出のコスト」を出力するものであってもよい。「負値化」とは、例えばスコアに「-(マイナス)」を付与しただけのものである。第1の人物検出のスコア又はコストは、画像フレームにおける人物領域毎に出力される。尚、距離関数を予め定義しておく必要がある。
【0043】
[第2の人物検出部112]
第2の人物検出部112は、連続する画像フレームの中から選択された2つの画像フレームの組毎に、人物領域の変化(人物領域のペア毎)に対する「第2の人物検出のスコア」を出力する。
【0044】
第2の人物検出部112は、人物領域box間のIoU(Intersection over Union)を用いたものであってもよい(例えば非特許文献1参照)。IoUとは、2つの人物領域(矩形)間の重複率を意味し、積領域/和領域で算出される。
重複率は、例えば以下のように算出される。
12=(A1∩A2)/(A1∪A2
12:人物領域A1とA2との一致度(重複率)
1∩A2:人物領域A1とA2との重複領域の面積
1∪A2:人物領域A1とA2との包含領域の面積
【0045】
他の実施形態として、第2の人物検出部112は、第2の人物検出のスコアを距離関数として負値化した「第2の人物検出のコスト」を出力するものであってもよい。第2の人物検出のスコア又はコストは、画像フレームにおける人物領域間毎に出力される。尚、距離関数を予め定義しておく必要がある。
【0046】
また、第2の人物検出部112は、人物領域毎に特徴量を算出し、その特徴量間のユークリッド距離をコストとしてもよい。特徴量は、例えば深層ネットワークによって算出したものであってもよい(例えば非特許文献6参照)。
【0047】
[第1の人物認識部121]
第1の人物認識部121は、画像フレーム毎に、各人物領域から実人物を認識し、「第1の人物認識のスコア」を出力し、当該人物領域に人物IDを付与するものである。
第1の人物認識部121は、画像フレームfの人物領域(boxf 1,boxf 2,・・・)毎に、人物ID(gidf 1,gidf 2,・・・)を推定する。
第1の人物認識部121は、人物認識学習エンジンであって、予め学習モデルを構築したものであってもよい(例えば非特許文献1参照)。例えば人物認識として顔認識を用いる場合は、SSD(例えば非特許文献3参照)に基づくバウンダリボックスから、顔を検出する。顔自体を検出できなかった際に、その人物領域に対して、例えば人物ID「Noface」が付与される。
【0048】
勿論、フレーム中の全範囲内を対象として、顔検出を実行し、検出された顔に対応する人物領域を対応付けるものであってもよい。その場合、対応付けには、例えばハンガリアンアルゴリズムを用いることができる。
【0049】
人物領域から顔が検出された場合、その顔領域から特徴量を算出し、予め収集しておいた各人物の顔に関する特徴量と照合する。その照合結果を人物IDとする。照合には、例えばk近傍法を用いることもできる(例えば非特許文献4参照)。
【0050】
このように、人物認識処理については、特定人物の顔画像を教師データとして学習しておくことを前提としており、常に全ての人物の顔について学習しておけるわけではない。例えば、宅内を想定すると、来客の顔画像は学習されていない。
そのために、第1の人物認識部121は、その顔画像が学習されているか否かを判定することも好ましい。具体的には、例えば、第1の人物認識のスコアが所定閾値よりも低い場合は、その人物IDの人物認識モデルは学習されていないと判定し、人物ID「Unknown」を付与する。
【0051】
尚、第1の人物認識部121は、顔認識に限られず、歩容認識のような他の人物認識方式であってもよい。
【0052】
[第2の人物認識部122]
第2の人物認識部122は、画像フレームの組毎に、人物領域の人物認識の変化に対する「第2の人物認識のスコア」を出力する。
例えば、2つの人物領域について、同一人物と認識するほど高いスコアを出力し、異なる人物であると認識するほど低いスコアを出力する。
【0053】
他の実施形態として、第2の人物認識部122は、第2の人物認識のスコアを距離関数として負値化した「第2の人物認識のコスト」を出力するものであってもよい。第2の人物認識のスコア又はコストは、画像フレームにおける人物領域間毎に出力される。尚、距離関数を予め定義しておく必要がある。
【0054】
第2の人物認識部122は、例えば10人分の顔画像を予め学習しているとすると、「Unknown」「Noface」も追加して、12x12の行列で表現することもできる。この行列は単位行列としてもよい。また、認識された2つの人物間で、予め類似度を算出しておくことによって、それを負値化したものを距離関数として用いてもよい。
【0055】
[第1の行動認識部131]
第1の行動認識部131は、画像フレーム毎に、各人物領域に対して人物行動を検出し、「第1の人物検出のスコア」を出力し、当該人物領域に行動IDを付与する。
第1の行動認識部131は、画像フレームfの人物領域(boxf 1,boxf 2,・・・)毎に、行動ID:ACT f=(actf 1,actf 2,・・・)を推定する。
第1の行動認識部131は、例えばTSN(Temporal Segment Network)に基づく畳み込みニューラルネットワークであってもよい(例えば非特許文献5参照)。行動認識におけるスコアが、所定閾値以下となる場合、例えば行動ID「Unknown」が付与される。
【0056】
[第2の行動認識部132]
第2の行動認識部132は、画像フレームの組毎に、人物領域の人物行動の変化に対する「第2の行動認識のスコア」を出力する。画像フレームから認識される2つの人物行動が強く関連するほど(例えば類似するほど、又は、続けて生起するほど)、高いスコアを出力する。
【0057】
他の実施形態として、第2の行動認識部132は、第2の行動認識のスコアを距離関数として負値化した「第2の行動認識のコスト」を出力するものであってもよい。第2の人物認識のスコア又はコストは、画像フレームにおける人物領域間毎に出力される。尚、距離関数を予め定義しておく必要がある。
【0058】
[人物追跡部14]
人物追跡部は、当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線IDと当該画像フレーム毎及び当該画像フレームの組における全てのスコアとを用いて、動線IDを付与すると共に、人物IDを対応付ける。
「全てのスコア」としては、第1の人物検出のスコア及び第2の人物検出のスコアと、第1の人物認識のスコア及び第2の人物認識のスコアと、第1の行動認識のスコア及び第2の行動認識のスコアとなる。尚、第1の人物認識のスコア及び第2の人物認識のスコアと、第1の行動認識のスコア及び第2の行動認識のスコアとは、両方を用いるものであってもよいし、いずれか一方を用いるものであってもよい。
人物追跡部14は、時系列の画像フレーム毎に検出された人物領域毎に、人物IDを、アプリケーションへ出力する。その際に、行動IDも一緒に出力するものであってもよい。
【0059】
また、人物追跡部14は、スコアではなく、「コスト」を用いてもよい。例えば以下のように表される。
c(boxf):第1の人物検出のコスト
c(boxf-1,boxf):第2の人物検出のコスト
c(gidf):第1の人物認識のコスト
c(gidf-1,gidf):第2の人物認識のコスト
c(actf):第1の行動認識のコスト
c(actf-1,actf):第2の行動認識のコスト
f-1,f:全てのコストの和
f-1,f=c(boxf)+c(boxf-1,boxf)+c(gidf)+c(gidf-1,gidf)
+c(actf)+c(actf-1,actf)
このとき、人物追跡部14は、全てのコストの和cf-1,fが最小となるように、動線ID、人物ID及び行動IDを対応付ける。
【0060】
人物追跡部14は、以下のように2つの処理形態を有する。
<オンライン処理形態>としては、連続する画像フレーム(N=1)毎に、リアルタイム処理的に動線ID及び人物IDを対応付ける。その都度、前の画像フレームの人物領域と後の画像フレームの人物領域とを対応付けていく。
<オフライン処理形態>としては、所定数の画像フレーム(N>1)の内で2つの画像フレームの組毎に、バッチ処理的に動線ID及び人物IDを対応付ける。所定数のフレームを蓄積した後、前の1つ以上の画像フレームの蓄積結果と、後の1つ以上の画像フレームの蓄積結果とを対応付けていく。
N=1とするリアルタイム処理と、N>1とするバッチ処理とは、リアルタイム性や対応付け精度との間で、トレードオフの関係となる。
【0061】
オンライン処理形態の場合、人物が画像フレーム枠外に一時的に移動し、その後に画像フレーム内に戻ったとしても、同じ動線IDとはならず、新たな人物として認識される。
これに対し、後述するオフライン処理形態の場合、バッファすべきNの画像フレーム数範囲内であれば、人物が一時的に画像フレーム枠外に移動したとしても、同じ動線IDを付与することができる。
【0062】
<オンライン処理形態:人物IDの補完>
図3は、オンライン処理形態であって、人物IDを修正する説明図である。
【0063】
図3(a)によれば、画像フレームf-1~fには、以下の人物領域が検出されている。
(f-1)動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:2の人物は、人物ID:107であり、行動ID:Readingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
(f) 動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
動線ID:2の人物は、人物ID:Nofaceであり、行動ID:Unknownである。
【0064】
図3(a)によれば、f-1の画像フレームにおける動線ID:2の人物領域について、fの画像フレームでは、人物ID及び行動IDにおける認識に失敗している。
【0065】
図3(b)によれば、時系列のフレーム毎に、動線ID(第1の人物検出のコスト)と、人物ID(第1の人物認識のコスト)と、行動ID(第1の行動認識のコスト)とが表されている。
人物追跡部14は、画像フレームの組について、動線ID:2(第1の動線ID)及び人物ID:107(第1の人物ID)が対応付けられた人物領域が発生した後、動線ID:2(第1の動線ID)と新たな人物ID:Noface(第2の人物ID)が対応付けられた人物領域が発生した際に、新たな人物ID:Noface(第2の人物ID)を人物ID:107(第1の人物ID)に置き換える。
人物追跡部14は、人物ID:107(第1の人物ID)における第1の人物認識のコスト(-0.8)と第2の人物認識のコスト(0、図3不示、人物ID:107とNoFaceとの類似度に対するコスト)との和(-0.8)が、新たな人物ID:Noface(第2の人物ID)における第1の人物認識のコスト(0、Nofaceのコストを0とした)及び第2の人物認識のコスト(0、前述のとおり)の和(0)よりも小さい場合にのみ、新たな人物ID:Noface(第2の人物ID)を人物ID:107(第1の人物ID)に置き換える。
【0066】
行動IDの補完についても、同様に行える。人物追跡部14は、画像フレームの組について、動線ID:2(第1の動線ID)及び行動ID:Reading(第1の行動ID)が対応付けられた人物領域が発生した後、動線ID:2(第1の動線ID)と新たな行動ID:Unknown(第2の人物ID)が対応付けられた人物領域が発生した際に、新たな行動ID:Unknown(第2の人物ID)を行動ID:Reading(第1の行動ID)に置き換える。
人物追跡部14は、動線ID:2(第1の動線ID)における第1の行動認識のコスト(-0.8)と第2の行動認識のコスト(0、図3不示、動線ID:2とUnknownとの連続生起確率に対するコスト)との和(-0.8)が、新たな行動ID:Unknown(第2の人物ID)における第1の人物検出のコスト(0、Unknownのコストを0とした)及び第2の人物検出のコスト(0、前述のとおり)の和(0)よりも小さい場合にのみ、新たな行動ID:Unknown(第2の人物ID)を行動ID:Reading(第1の行動ID)に置き換える。
【0067】
<オンライン処理形態:ハンガリアンアルゴリズムを用いた動線ID及び人物IDの補完>
図4は、オンライン処理形態であって、ハンガリアンアルゴリズムを適用した説明図である。
【0068】
図4によれば、人物追跡部14は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ID及び行動IDを対応付ける。演算量は高くなるが、追跡精度は向上する。
また、図4によれば、ハンガリアンアルゴリズムを適用した後、カルマンフィルタによって、人物領域を平滑化している。
ここで、「ハンガリアンアルゴリズム」とは、割当問題について、最もコストが低くなるように割り当てるアルゴリズムをいう。例えば図4の(a)のように、第1の人物検出のコスト、第2の人物検出のコスト、第1の人物認識のコスト、第2の人物認識のコスト、第1の行動検出のコスト及び第2の行動検出のコストを行列として表す。そして、図4(b)のように、各動線には1つの動線IDしか割り当てられないとしたとき、最もコストが低くなる動線IDを選択することができる。
【0069】
尚、オンライン処理形態では、分枝限定法(branch and bound)という分枝操作と限定操作とから構成され、各種最適化問題の最適解を求める汎用アルゴリズムを用いることもできる。これも各画像フレームについて、同じ動線IDは存在しないという、人物追跡の前提条件に基づくものである。
【0070】
<オフライン処理形態:動線IDの補完>
図5は、オフライン処理形態であって、動線IDを修正する説明図である。
【0071】
図5(a)によれば、画像フレームf-2~fには、以下の人物領域が検出されている。
(f-2)動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:2の人物は、人物ID:107であり、行動ID:Readingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
(f-1)動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
(f) 動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
動線ID:5の人物は、人物ID:107であり、行動ID:Readingである。
【0072】
図5(a)によれば、f-1の画像フレームでは、動線ID:2の人物領域を完全に見失ってしまっている。そのために、次のfの画像フレームでは、新たな動線ID:5が付与されている。このとき、動線IDのみに注目すると、人物ID:107の人物領域は、人物間オクルージョンによって誤ったのか、映像枠外へ一度移動した後に戻ってきたのか、全く不明である。
【0073】
図5(b)によれば、時系列のフレーム毎に、動線ID(第1の人物検出のコスト+第2の人物検出のコスト)と、人物ID(第1の人物認識のコスト+第2の人物認識のコスト)と、行動ID(第1の行動認識のコスト+第2の行動認識のコスト)とが表されている。
人物追跡部14は、画像フレームの組について、動線ID:2(第1の動線ID)及び行動ID:Reading(第1の行動ID)が対応付けられた人物領域が発生した後、新たな動線ID:5(第2の動線ID)と行動ID:Reading(第1の行動ID)が対応付けられた人物領域が発生した際に、新たな動線ID:5(第2の動線ID)を動線ID:2(第1の動線ID)に置き換える。
このとき、人物追跡部14は、動線ID:2(第1の動線ID)における第1の人物検出のコスト及び第2の人物検出のコストの和(=-0.8)が、新たな動線ID:5(第2の動線ID)における第1の人物検出のコスト及び第2の人物検出のコストの和(=-0.2)よりも小さい場合にのみ、新たな動線ID:5(第2の動線ID)を動線ID:2(第1の動線ID)に置き換える。
【0074】
<オフライン処理形態:人物IDの補完>
図6は、オフライン処理形態であって、人物IDを修正する説明図である。
【0075】
図6(a)によれば、画像フレームf-2~fには、以下の人物領域が検出されている。
(f-2)動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:2の人物は、人物ID:107であり、行動ID:Readingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
(f-1)動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
(f) 動線ID:3の人物は、人物ID:105であり、行動ID:Eatingである。
動線ID:4の人物は、人物ID:103であり、行動ID:Walkingである。
動線ID:2の人物は、人物ID:Nofaceであり、行動ID:Readingである。
【0076】
図6(a)によれば、動線ID:2の人物領域について、fの画像フレームでは人物IDの認識に失敗している。
【0077】
図6(b)によれば、人物追跡部14は、画像フレームの組について、動線ID:2(第1の動線ID)及び人物ID:107(第1の人物ID)が対応付けられた人物領域が発生した後、動線ID:2(第1の動線ID)と新たな人物ID:Noface(第2の人物ID)が対応付けられた人物領域が発生した際に、新たな人物ID:Noface(第2の人物ID)を人物ID:107(第1の人物ID)に置き換える。
このとき、人物追跡部14は、人物ID:107(第1の人物ID)における第1の人物認識のコスト及び第2の人物認識のコストの和が、新たな人物ID:Noface(第2の人物ID)における第1の人物認識のコスト及び第2の人物認識のコストの和よりも小さい場合にのみ、新たな人物ID:Noface(第2の人物ID)を人物ID:107(第1の人物ID)に置き換える。
図6(b)によれば、新たな人物IDがNofaceとなっているが、例えばフレームf-2の先の人物ID=107に基づく人物認識のコスト和=-0.8が、フレームfの新たな人物ID=109に基づく人物認識のコスト和=0りも小さい場合、新たな人物ID=109を、先の人物ID=107に置き換える。
【0078】
オフライン処理形態について、他の実施形態によれば、例えば最小重み最大マッチング問題とみなして、例えばPush-Relabelアルゴリズムを用いたものであってもよいし(例えば非特許文献7参照)、他の解法を用いたものであってもよい(例えば非特許文献8参照)。
【0079】
尚、オフライン処理形態でも、分枝限定法を用いることもできる。
【0080】
以上、詳細に説明したように、本発明の映像解析装置、プログラム及び方法によれば、カメラによって撮影された映像の中で、人物間オクルージョンが発生したり人物検出に失敗したりしても、人物追跡に用いる要素情報を補完することによって、ロバストに人物追跡を継続することができる。
【0081】
本発明によれば、人物間オクルージョンが発生したり人物検出に失敗したりしても、同一の人物領域であっても、動線IDを見失ったり、異なる人物IDを付与することがない。特に、人物ID及び行動IDを用いることによって動線IDを補完すると共に、人物ID及び行動IDを用いることによって動線IDを補完することもできる。
【0082】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0083】
1 映像解析装置
11 第1の人物検出部
112 第2の人物検出部
121 第1の人物認識部
122 第2の人物認識部
131 第1の行動認識部
132 第2の行動認識部
14 人物追跡部
図1
図2
図3
図4
図5
図6