(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023176903
(43)【公開日】2023-12-13
(54)【発明の名称】映像監視システムおよびサーバ
(51)【国際特許分類】
G06T 7/00 20170101AFI20231206BHJP
H04N 7/18 20060101ALI20231206BHJP
【FI】
G06T7/00 300A
H04N7/18 D
H04N7/18 K
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022089476
(22)【出願日】2022-06-01
(71)【出願人】
【識別番号】000001122
【氏名又は名称】株式会社日立国際電気
(74)【代理人】
【識別番号】100116687
【弁理士】
【氏名又は名称】田村 爾
(74)【代理人】
【識別番号】100098383
【弁理士】
【氏名又は名称】杉村 純子
(74)【代理人】
【識別番号】100155860
【弁理士】
【氏名又は名称】藤松 正雄
(72)【発明者】
【氏名】冨田 健斗
【テーマコード(参考)】
5C054
5L096
【Fターム(参考)】
5C054CA04
5C054CC02
5C054FC12
5C054FD07
5C054HA19
5L096BA02
5L096DA01
5L096EA03
5L096EA35
5L096GA19
5L096HA05
5L096HA08
(57)【要約】
【課題】物体検知に係る処理負担を抑制しつつ、高精度に物体を検知できるようにする。
【解決手段】サーバ20は、映像データに含まれる各フレーム画像を元フレーム画像として、元フレーム画像からフレーム毎に設定された切り出し領域の部分を切り出して切り出し後フレーム画像を生成する特定領域切り出しステップ(S2)と、少なくとも元フレーム画像を低解像度化により縮小することで、縮小後の元フレーム画像および切り出し後フレーム画像の合計画素数を縮小前の元フレーム画像の画素数より低下させた後に、これら画像を解析して物体を検知する物体検知処理ステップ(S3)とを行う。
【選択図】
図2
【特許請求の範囲】
【請求項1】
監視領域を撮影した映像データを処理するサーバと、前記サーバによる処理結果を表示するモニタとを備えた映像監視システムにおいて、
前記サーバは、前記映像データに含まれる各フレーム画像に対して、
前記フレーム画像からフレーム毎に設定された切り出し領域の部分を切り出して部分フレーム画像を生成する特定領域切り出し処理と、
少なくとも前記フレーム画像を低解像度化により縮小することで、縮小後のフレーム画像および前記部分フレーム画像の合計画素数を縮小前のフレーム画像の画素数より低下させた後に、これら画像を解析して物体を検知する物体検知処理とを行うことを特徴とする映像監視システム。
【請求項2】
請求項1に記載の映像監視システムにおいて、
前記サーバは、前記物体検知処理において、前記フレーム画像と前記部分フレーム画像の両方を低解像度化により縮小し、縮小後の各画像を解析して物体を検知することを特徴とする映像監視システム。
【請求項3】
請求項1又は請求項2に記載の映像監視システムにおいて、
内部状態として、前記物体検知処理によって物体が検知されていない状態であるスキャン状態と、前記物体検知処理によって物体が検知された状態である追尾状態とを有し、
前記サーバは、前記スキャン状態では、各フレームに対する前記切り出し領域として、画像領域全体を所定数に分割する複数の分割領域の各々を循環的に設定し、前記追尾状態では、次のフレームに対する前記切り出し領域として、現在のフレームにおける検知物の位置を含む検知物領域を設定することを特徴とする映像監視システム。
【請求項4】
請求項3に記載の映像監視システムにおいて、
前記サーバは、前記スキャン状態において、前記複数の分割領域のうちの所定位置の分割領域を前記切り出し領域の設定対象から除外することを特徴とする映像監視システム。
【請求項5】
請求項3に記載の映像監視システムにおいて、
前記サーバは、画像領域全体を第1の分割数で分割する第1の分割パターンと、画像領域全体を第1の分割数とは異なる第2の分割数で分割する第2の分割パターンとを有し、前記スキャン状態での前記特定領域切り出し処理において、前記第1の分割パターンに従って切り出された第1の部分フレーム画像と、前記第2の分割パターンに従って切り出された第2の部分フレーム画像とを生成して前記物体検知処理へ供することを特徴とする映像監視システム。
【請求項6】
請求項3に記載の映像監視システムにおいて、
前記サーバは、前記スキャン状態において、前記複数の分割領域の各々を前記切り出し領域に循環的に設定して前記特定領域切り出し処理および前記物体検知処理を行う動作が一巡する毎に、その過程で前記物体検知処理によって物体が検知されたか否かを判定し、前記物体検知処理によって物体が検知されていたことを条件に前記追尾状態へ遷移することを特徴とする映像監視システム。
【請求項7】
請求項3に記載の映像監視システムにおいて、
前記モニタは、前記スキャン状態では前記フレーム画像を表示し、前記追尾状態では前記部分フレーム画像を表示することを特徴とする映像監視システム。
【請求項8】
監視領域を撮影した映像データを処理するサーバにおいて、
前記映像データに含まれる各フレーム画像に対して、
前記フレーム画像からフレーム毎に設定された切り出し領域の部分を切り出して部分フレーム画像を生成する特定領域切り出し処理と、
少なくとも前記フレーム画像を低解像度化により縮小することで、縮小後のフレーム画像および前記部分フレーム画像の合計画素数を縮小前のフレーム画像の画素数より低下させた後に、これら画像を解析して物体を検知する物体検知処理とを行うことを特徴とするサーバ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視領域の撮影映像から物体を検知する映像監視システムに関する。
【背景技術】
【0002】
動画やライブ映像などの時間的に連続した画像データ(以下、単に「映像」という)を入力とした物体検知タスクに対して、機械学習に基づくAI(Artificial Intelligence;人工知能)の適用が進んでいる(例えば、非特許文献1、2参照)。製品やシステムにAIを組み込むことで、従来は人手で行なっていた作業を代替し、人件費の削減や商品の価値向上を図ることができる。このことは製品やシステムの販売促進に寄与するため、多くの企業がAIに対して高い関心を抱いている。
【0003】
ライブ映像に対してAIを適用する場合、映像を撮影する現場でAIによる解析処理を完結させるエッジAIコンピューティングや、ネットワークを経由して外部のクラウドサーバに映像を送信して解析処理を実施させるクラウドAIコンピューティングなどの方法が採られる。エッジAIコンピューティングの利点としては、映像の伝送遅延が少ないので即時解析できる点、外部ネットワークへの伝送を考慮する必要がないので映像圧縮せずに高画質のままで映像解析できる点などが挙げられる。クラウドAIコンピューティングの利点としては、映像を撮影する現場の制約を受けずに大規模なAIサーバを使用できる点、クラウドベンダの提供するパブリッククラウドサービスを利用できる点などが挙げられる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” June 8, 2015, [online], https://arxiv.org/abs/1506.02640.
【非特許文献2】Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, “SSD: Single Shot MultiBox Detector”, December 8, 2015, [online], https://arxiv.org/abs/1512.02325.
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に、AIサーバを用いて物体検知を行う場合には、処理速度(秒間の処理フレーム数)と検知精度はトレードオフである。映像監視用途においてエッジAIコンピューティングを採用する場合、AIサーバの演算性能に制限があることが多く、リアルタイムでの物体検知処理を実現するために、しばしば、映像の解像度を小さくすることで計算量を削減する手法が採用される。しかしながら、映像の解像度を小さくすると、映像の細部の画素表現が潰れてしまい、映像中に小さく映っている被写体をAIで検知できなくなる問題が生じ得る。また、別の問題として、AIによる物体検知結果をリアルタイムで表示する際、仮に映像中に小さく映っている被写体を検知したとしても、その映像を人間の目で見たときに判別しづらい点がある。
【0006】
本発明は、上記のような従来の事情に鑑みて為されたものであり、物体検知に係る処理負担を抑制しつつ、高精度に物体を検知できるようにすることを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するために、本発明の一態様に係る映像監視システムは、以下のように構成される。
すなわち、本発明に係る映像監視システムは、監視領域を撮影した映像データを処理するサーバと、前記サーバによる処理結果を表示するモニタとを備えた映像監視システムにおいて、前記サーバは、前記映像データに含まれる各フレーム画像に対して、前記フレーム画像からフレーム毎に設定された切り出し領域の部分を切り出して部分フレーム画像を生成する特定領域切り出し処理と、少なくとも前記フレーム画像を低解像度化により縮小することで、縮小後のフレーム画像および前記部分フレーム画像の合計画素数を縮小前のフレーム画像の画素数より低下させた後に、これら画像を解析して物体を検知する物体検知処理とを行う。
【0008】
ここで、前記サーバは、前記物体検知処理において、前記フレーム画像と前記部分フレーム画像の両方を低解像度化により縮小し、縮小後の各画像を解析して物体を検知してもよい。
【0009】
また、前記縮小後のフレーム画像および前記部分フレーム画像は、それぞれ、前記縮小前のフレーム画像の25%以下の画素数であってもよい。
【0010】
また、前記システムは、内部状態として、前記物体検知処理によって物体が検知されていない状態であるスキャン状態と、前記物体検知処理によって物体が検知された状態である追尾状態とを有し、前記サーバは、前記スキャン状態では、各フレームに対する前記切り出し領域として、画像領域全体を所定数に分割する複数の分割領域の各々を循環的に設定し、前記追尾状態では、次のフレームに対する前記切り出し領域として、現在のフレームにおける検知物の位置を含む検知物領域を設定してもよい。
【0011】
また、前記サーバは、前記スキャン状態において、前記複数の分割領域のうちの所定位置の分割領域を前記切り出し領域の設定対象から除外してもよい。
【0012】
また、前記サーバは、画像領域全体を第1の分割数で分割する第1の分割パターンと、画像領域全体を第1の分割数とは異なる第2の分割数で分割する第2の分割パターンとを有し、前記スキャン状態での前記特定領域切り出し処理において、前記第1の分割パターンに従って切り出された第1の部分フレーム画像と、前記第2の分割パターンに従って切り出された第2の部分フレーム画像とを生成して前記物体検知処理へ供してもよい。
【0013】
また、前記サーバは、前記スキャン状態において、前記複数の分割領域の各々を前記切り出し領域に循環的に設定して前記特定領域切り出し処理および前記物体検知処理を行う動作が一巡する毎に、その過程で前記物体検知処理によって物体が検知されたか否かを判定し、前記物体検知処理によって物体が検知されていたことを条件に前記追尾状態へ遷移してもよい。
【0014】
また、前記モニタは、前記スキャン状態では前記フレーム画像を表示し、前記追尾状態では前記部分フレーム画像を表示してもよい。
【0015】
また、前記モニタは、前記追尾状態において、前記フレーム画像を縮小した画像を、前記部分フレーム画像に重畳して表示してもよい。
【0016】
また、前記モニタは、前記追尾状態において、検知物の位置を示す検知枠を、前記部分フレーム画像と前記フレーム画像を縮小した画像とにそれぞれ重畳して表示してもよい。
【0017】
また、前記モニタは、前記追尾状態において、前記フレーム画像における前記部分フレーム画像の範囲を示す切り出し枠を、前記フレーム画像を縮小した画像に重畳して表示してもよい。
【0018】
また、前記モニタは、前記追尾状態において、前記物体検知処理によって複数の物体が検知された場合には、その中から選択された検知物を含む部分フレーム画像を表示してもよい。
【0019】
また、前記サーバは、前記追尾状態において、フレーム間における前記切り出し領域の移動に制限を設けることで、前記モニタに表示される前記部分フレーム画像の変動を抑制してもよい。
【0020】
本発明の別の態様に係るサーバは、以下のように構成される。
すなわち、監視領域を撮影した映像データを処理するサーバにおいて、前記映像データに含まれる各フレーム画像に対して、前記フレーム画像からフレーム毎に設定された切り出し領域の部分を切り出して部分フレーム画像を生成する特定領域切り出し処理と、少なくとも前記フレーム画像を低解像度化により縮小することで、縮小後のフレーム画像および前記部分フレーム画像の合計画素数を縮小前のフレーム画像の画素数より低下させた後に、これら画像を解析して物体を検知する物体検知処理とを行う。
【発明の効果】
【0021】
本発明によれば、物体検知に係る処理負担を抑制しつつ、高精度に物体を検知できるようになる。
【図面の簡単な説明】
【0022】
【
図1】本発明の一実施形態に係る映像監視システムの構成例を示す図である。
【
図2】映像監視システムの処理ステップの概要を示す図である。
【
図3】映像監視システムの内部状態の遷移を示す図である。
【
図4】スキャン状態における切り出し領域の決定方法を説明する図である。
【
図5】追尾状態における切り出し領域の決定方法を説明する図である。
【
図6A】スキャン状態における物体検知処理結果の表示方法を説明する図である。
【
図6B】追尾状態における物体検知処理結果の表示方法を説明する図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態について図面を用いて説明する。下記の説明は一例であり、実施形態はこれに限定されない。
図1には、本発明の一実施形態に係る映像監視システムの構成例を示してある。本例の映像監視システムは、監視領域を撮影するカメラ10と、カメラ10による撮影映像を処理して物体検知を行うサーバ20と、カメラ10による撮影映像およびサーバ20による物体検知の結果を表示するモニタ30とを備える。
【0024】
図2には、
図1に示す映像監視システムにおける処理ステップの概要を示してある。本例の映像監視システムは、
図2に示す通り、映像入力ステップ(S1)と、特定領域切り出しステップ(S2)と、物体検知処理ステップ(S3)と、次フレーム切り出し領域決定ステップ(S4)と、物体検知処理結果表示ステップ(S5)と、状態遷移処理ステップ(S6)とを有する。
【0025】
映像入力ステップ(S1)において、サーバ20は、監視領域を撮影した映像データをカメラ10から取得する。あるいは、サーバ20は、カメラ10からの映像データに代えて、ストリーミング配信された映像データなどを取得してもよい。取得する映像データは、リアルタイムで撮影または配信される映像以外にも、動画ファイルとして記録された映像や、時間的に連続した静止画像の組などでもよい。本ステップで取得した映像データは、フレーム単位に分割した上で、後続の特定領域切り出しステップ(S2)および物体検知処理ステップ(S3)へと出力される。
【0026】
特定領域切り出しステップ(S2)において、サーバ20は、映像入力ステップ(S1)から入力されたフレーム画像中の特定の領域を切り出して、後続のステップ物体検知処理ステップ(S3)へと出力する。本ステップで切り出す領域は、後述する通り、本システムの内部状態、および前フレームにおける切り出し領域決定ステップ(S4)での処理結果に依存する。
【0027】
物体検知処理ステップ(S3)において、サーバ20は、映像入力ステップ(S1)から入力されたフレーム画像(以下、「元フレーム画像」と呼ぶ)と、特定領域切り出しステップ(S2)から入力されたフレーム画像(以下、「切り出し後フレーム画像」と呼ぶ)とに対して、それぞれの画素数が目標の画素数となるようダウンサンプリング(縮小処理)を施した上で、各画像を物体検知AIにより解析して物体検知を行う。
【0028】
目標の画素数としては、例えば、縮小前の元フレーム画像の画素数の50%未満であって、切り出し後フレーム画像の画素数と同じ又はそれより小さい画素数が設定される。切り出し後フレーム画像の画素数が目標の画素数と一致する場合には、元フレーム画像のみを低解像度化により縮小すればよい。一方、切り出し後フレーム画像の画素数が目標の画素数より大きい場合には、元フレーム画像と切り出し後フレーム画像の両方を低解像度化により縮小する。
【0029】
つまり、物体検知処理ステップ(S3)では、目標の画素数となるように元フレーム画像(及び切り出し後フレーム画像)を縮小することで、縮小後の元フレーム画像および部分フレーム画像の合計画素数を、縮小前の元フレーム画像の画素数より低下させた後に、これら画像から物体検知を行う。好ましくは、元フレーム画像の25%以下の画素数を目標の画素数とすることで、縮小後の元フレーム画像および切り出し後フレーム画像の合計画素数を、縮小前の元フレーム画像の画素数の半分以下にした後に、これら画像から物体検知を行う。
【0030】
画像から検知対象の物体を検知するための手法・アルゴリズムとしては、公知のものから任意に選択することができる。例えば、YOLO(You Only Look Once;非特許文献1参照)、SSD(Single Shot Multibox Detecttor;非特許文献2参照)などがある。本ステップの出力として、切り出し後フレーム画像に対する物体検知処理結果を、後続の切り出し領域決定ステップ(S4)へ出力する。また、切り出し後フレーム画像と、元フレーム画像と、元フレーム画像に対する物体検知処理結果とを、後続の物体検知処理結果表示ステップ(S5)へと出力する。
【0031】
切り出し領域決定ステップ(S4)において、サーバ20は、本システムの内部状態、および切り出し後フレーム画像に対する物体検知処理結果を参照して、次のフレームにおいて特定領域切り出しステップ(S2)で切り出す領域を決定する。本ステップの出力として、入力された切り出し後フレーム画像に対する物体検知処理結果を、後続の物体検知処理結果表示ステップ(S5)へとそのまま出力する。
【0032】
物体検知処理結果表示ステップ(S5)において、サーバ20は、入力された物体検知処理結果を参照し、入力された元フレーム画像および切り出し後フレーム画像に対して、検知した物体の位置を示す検知枠を描画する。また、サーバ20は、検知枠描画後の両フレーム画像をリサイズおよび重畳した上で、モニタ30へ送信して表示させる。ここで、リサイズおよび重畳の処理方法は、システムの内部状態に依存して決定される。本ステップの出力として、切り出し後フレーム画像に対する物体検知処理結果を、後続の状態遷移処理ステップ(S6)へと出力する。
【0033】
状態遷移処理ステップ(S6)において、サーバ20は、入力された切り出し後フレームに対する物体検知処理結果を参照し、遷移条件を満たした場合には、システムの内部状態を遷移させる。
以上の各ステップが、映像データを構成する各フレーム画像に対して繰り返し実行される。
【0034】
次に、本システムで定義された内部状態について説明する。本システムは、
図3に示す通り、スキャン状態(St1)および追尾状態(St2)を有し、常にどちらか一方の状態をとる。スキャン状態(St1)は、物体が検知されていない状態であり、追尾状態(St2)は、物体が検知されている状態である。システムの内部状態は、最初はスキャン状態(St1)である。
【0035】
状態遷移処理ステップ(S6)において、システムの内部状態がスキャン状態(St1)の場合には、入力された切り出し後フレーム画像に対する物体検知処理結果を参照し、物体の検知数が1以上であれば、追尾状態(St2)に遷移する。また、状態遷移処理ステップ(S6)において、システムの内部状態が追尾状態(St2)の場合には、入力された切り出し後フレーム画像に対する物体検知処理結果を参照し、物体の検知数が0であれば、スキャン状態(St1)に遷移する。
【0036】
次に、特定領域切り出しステップ(S2)において、切り出し領域を決定する方法について説明する。切り出し領域を決定する方法は、システムの内部状態がスキャン状態(St1)の場合と追尾状態(St2)の場合とで異なる。
【0037】
(システムの内部状態がスキャン状態の場合)
スキャン状態(St1)の場合における切り出し領域の決定方法について、
図4を参照して説明する。特定領域切り出しステップ(S2)において、サーバ20は、映像入力ステップ(S1)から入力された元フレーム画像を、予め定めた分割数Nになるよう分割して、N個の切り出し後フレーム画像を生成する。
図4には、元フレーム画像の分割例を示してある。
図4は、分割数N=4の場合の分割例であり、入力された元フレーム画像が、左上部(分割領域1)、右上部(分割領域2)、左下部(分割領域3)、右下部(分割領域4)の4つに等分されている。
【0038】
ここで、iを1からNまでの整数、jを0以上の整数と定義したとする。切り出し領域決定ステップ(S4)では、現在のフレームがシステムへの入力映像における(i+j×N)番目のフレームであれば、分割領域iを切出し領域に設定し、その領域を(1+j×N)番目の元フレーム画像から切り出すことで得られる切り出し後フレーム画像を後続の物体検知処理ステップ(S3)へ出力する。つまり、(1+j×N)番目の元フレーム画像をN等分してN個の切り出し後フレーム画像を生成し、各切り出し後フレーム画像に対する物体検知処理をNフレーム分の時間をかけて順番に実行する。また、切り出し領域決定ステップ(S4)において、サーバ20は、入力された切り出し後フレーム画像に対する物体検知処理の結果を参照し、物体の検知数が1以上という遷移条件を満たしていれば、次フレームの特定領域切り出しステップ(S2)における切り出し領域を、次項に示す切り出し領域決定方法に従って設定する。
【0039】
(システムの内部状態が追尾状態の場合)
追尾状態(St2)の場合(または、スキャン状態の場合で且つ前項で定めた遷移条件を満たす場合)における切り出し領域の決定方法について、
図5を参照して説明する。
図5の上段は、システムへの入力映像におけるn番目のフレーム画像に対し、特定領域切り出しステップ(S2)と、物体検知処理ステップ(S3)と、切り出し領域決定ステップ(S4)の各処理を順に行う様子を示している。
図5の上段に示す通り、物体検知処理ステップ(S3)にて物体が検知された場合、後続の切り出し領域決定ステップ(S4)において、切り出し後フレーム画像52の中心座標C1と検知した物体の検知枠50の中心座標C2との差Dを算出する。
【0040】
図5の下段は、システムへの入力映像における(n+1)番目のフレームに対し、特定領域切り出しステップ(S2)の処理を行う様子を示している。ここでは、n番目のフレームにおける切り出し領域52の座標に対し、n番目のフレームで算出した差分Dを加算することで、(n+1)番目のフレームにおける切り出し領域54を決定する。つまり、現在のフレームにおける検知物の位置を含むように設定された検知物領域を、次のフレームにおける切出し領域に決定する。
【0041】
なお、
図5には、切り出し後フレーム画像内で座標を計算する例を示したが、多数のフレームを続けて処理した場合には、誤差が累積する可能性がある。そこで、代替の方法として、切り出し後フレーム画像内における座標値を元フレーム画像内における座標系に換算した上で、切り出し領域の決定処理を実施してもよい。
【0042】
次に、物体検知処理結果表示ステップ(S5)において物体検知処理結果を表示する方法について、
図6A及び
図6Bを参照して説明する。システムの内部状態がスキャン状態(St1)である場合には、
図6Aに表示例60として示すように、物体検知処理結果表示ステップ(S5)への入力である元フレーム画像と切り出し後フレーム画像のうち、元フレーム画像を、モニタ30のウィンドウ全体に表示する。なお、
図6Aの表示例60は、物体を検知した直後の表示例であり、元フレーム画像における切り出し後フレーム画像の範囲を示す切り出し枠61が重畳されている。
【0043】
一方、システムの内部状態が追尾状態(St2)である場合には、
図6Bに表示例70として示すように、物体検知処理結果表示ステップ(S5)への入力である元フレーム画像と切り出し後フレーム画像のうち、切り出し後フレーム画像をモニタ30のウィンドウ全体に表示する。更に、元フレーム画像を縮小した上で、ウィンドウ(切り出し後フレーム画像)の一部(75)に重畳して表示する。なお、
図6Bの表示例70では、切り出し後フレーム画像における物体の位置を示す検知枠71と、元フレーム画像における切り出し後フレーム画像の範囲を示す切り出し枠76および物体の位置を示す検知枠77とが重畳されている。ここで、切り出し後フレーム画像の一部に重畳表示する元フレーム画像の縮小倍率および表示位置は、任意に決定してよい。
【0044】
以上のように、本例の映像監視システムでは、サーバ20は、映像データに含まれる各フレーム画像を元フレーム画像として、元フレーム画像からフレーム毎に設定された切り出し領域の部分を切り出して切り出し後フレーム画像を生成する特定領域切り出しステップ(S2)と、少なくとも元フレーム画像を低解像度化により縮小することで、縮小後の元フレーム画像および切り出し後フレーム画像の合計画素数を縮小前の元フレーム画像の画素数より低下させた後に、これら画像を解析して物体を検知する物体検知処理ステップ(S3)とを行う。これにより、物体検知に係る処理負担を抑制しつつ、高精度に物体を検知できるようになる。
【0045】
また、サーバ20は、物体が検知されていないスキャン状態(St1)では、各フレームに対する切り出し領域として、画像領域全体を所定数に分割する複数の分割領域の各々を循環的に設定し、物体が検知された追尾状態(St2)では、次のフレームに対する切り出し領域として、現在のフレームにおける検知物の位置を含む検知物領域を設定する。つまり、撮影映像の各分割領域をスキャンするように物体検知処理を行い、いずれかの分割領域で検知対象とする物体を検知したら、その物体を追尾するように振る舞う。また、追尾中の物体が映像の範囲外に移動した場合や、物体検知AIの性能不足により追尾中の物体を見失った場合は、追尾を終了してスキャンを再開することで、新しい検知対象を探索することや、一度見失った検知対象を再度探索することができる。
【0046】
また、本例の映像監視システムでは、内部状態がスキャン状態か追尾状態かにかかわらず、システムは常に、撮影映像全体に対する物体検知処理および物体検知処理結果表示を行うため、システム利用者はいつでも撮影映像全体を目視確認することができる。また、映像監視システムの内部状態が追尾状態である場合には、
図6に示した通り、元フレーム画像をウィンドウ全体に表示する従来方式と比較して、検知物領域を捉えた切り出し後フレーム画像が見かけ上大きく表示されるため、システム利用者は検知対象とする物体を明瞭に目視確認することができる。
【0047】
なお、上記の説明では、追尾状態において、元フレーム画像と、元フレーム画像から検知物領域を切り出した追尾用の切り出し後フレーム画像とに対して物体検知処理を行っているが、サーチ用の切り出し後フレーム画像に対する物体検知処理を追加してもよい。すなわち、追尾状態において、元フレーム画像から複数の分割領域を循環的に切り出してサーチ用の切り出し後フレーム画像を生成して物体検知処理を行うサーチ動作を、バックグラウンドで実行するようにする。これにより、追尾状態においてもサーチ状態と同等の物体検知を行えるので、検知漏れを低減することが可能である。ただし、縮小後の元フレーム画像および2つの切り出し後フレーム画像の合計画素数が、縮小前の元フレーム画像の画素数より低下するように、縮小処理を行う必要がある。
【0048】
以下、本システムの実施例について説明するが、本システムは以下に示す実施例に限定されない。
(第1実施例)
映像入力ステップ(S1)で入力映像から得られる元フレーム画像の画素数を100%とした場合に、物体検知処理ステップ(S3)において物体検知AIで処理する各画像の画素数を25%にするものとする。つまり、元フレーム画像の高さ及び幅をそれぞれ半分にした解像度の画像を物体検知AIで処理するものとする。また、システムの内部状態がスキャン状態である場合において、特定領域切り出しステップ(S2)におけるフレーム画像の分割数および分割方法を、
図4に示した通り、分割数N=4(つまり、縦方向と横方向にそれぞれ2等分)とする。また、物体検知処理ステップ(S3)で採用する物体検知AIの計算時間は、物体検知の対象となる画像の画素数に比例すると仮定する。
【0049】
この場合、物体検知処理ステップ(S3)では、元フレーム画像と比較して画素数を25%にした2つの画像を物体検知AIにより処理するので、物体検知AIの処理量は1フレーム当たり元フレーム画像の処理量の50%となる。ここで、元フレーム画像は、画素数が100%から25%へと縮小された後に、物体検知AIにより処理される。一方、切り出し後フレーム画像は、元フレーム画像から切り出した時点で画素数が25%であるため、縮小せずに等倍のままで、物体検知AIにより処理される。
【0050】
仮に本システムを適用せずに、元フレーム画像を等倍のままで物体検知AIにより処理した場合には、物体検知AIの処理量は、元フレーム画像に対する1フレーム当たりの処理量の100%である。これに対して、本システムでは、物体検知AIの処理量は、元フレーム画像に対する1フレーム当たりの処理量の50%となる。このように、本システムを適用することで、実質的に等倍での物体検知を実現しつつ、1フレーム当たりの物体検知処理時間を半分に短縮できることが分かる。
【0051】
(第2実施例)
特定領域切り出しステップ(S2)では、元フレーム画像を分割する分割数Nを任意に設定できるほか、分割領域の形状や場所を任意に設定してもよい。一例として、システムへの入力映像中に既知の遮蔽物がある場合など、物体検知処理を行う必要がない領域がある場合には、その領域を除外して分割領域を割り当てるようにする。すなわち、スキャン状態における切り出し領域を決定する際に、複数の分割領域のうちの所定位置の分割領域を、切り出し領域の設定対象から除外するようにする。これにより、物体検知処理の対象領域を削減できるので、物体検知処理時間を更に短縮することができる。
【0052】
(第3実施例)
これまでの説明では、物体検知処理ステップ(S3)における物体検知処理の並列処理数を2(元フレーム画像および切り出し後フレーム画像)としたが、元フレーム画像の分割パターンを複数用意しておくことで、より多様なパターンでの物体検知処理を並列的に実施してもよい。例えば、元フレーム画像を4等分する第1の分割パターンと、元フレーム画像を9等分する第2の分割パターンとを定めておく。そして、スキャン状態の特定領域切り出しステップ(S2)において、第1の分割パターンに従って切り出された第1の切り出し後フレーム画像と、第2の分割パターンに従って切り出された第2の切り出し後フレーム画像とを生成して、これら画像を物体検知処理ステップ(S3)へ出力する。物体検知処理ステップ(S3)では、元フレーム画像と、第1の切り出し後フレーム画像と、第2の切り出し後フレーム画像との3つの画像に対して、並列的に物体検知処理を行う。このようにすることで、物体検知処理の対象となる各画像の縮小倍率に変化をつけることができる。これにより、システムへの入力映像において検知対象の大きさの変化が激しい場合や、物体検知AIが検知対象の大きさの変化に対して頑健でない場合などに、システム全体での検知性能を向上させることができる。
【0053】
(第4実施例)
切り出し領域決定ステップ(S4)における次フレームの切り出し領域の決定方法に関し、これまでの説明では、物体検知処理ステップ(S3)により1つの物体を検知した場合を例にした。しかしながら、物体検知処理ステップ(S3)により2つ以上の物体が検知される場合もあり得る。そこで、2つ以上の物体が検知された場合の対策として、追尾対象とする物体を選択する仕組みを設けてもよい。例えば、検知された各物体をそれぞれ取り囲む複数の検知枠を設定し、検知枠の面積が最小となる物体を追尾対象に選択する。これにより、モニタ30には、最小の検知物を含む切り出し後フレーム画像が表示されるので、システム利用者はその追跡を行い易くなる。また、別の例として、検知された各物体をそれぞれ取り囲む複数の検知枠を元フレーム画像に重畳してモニタ30に表示し、その中からユーザに選択された物体を追尾対象に選択する。
【0054】
(第5実施例)
切り出し領域決定ステップ(S4)における次フレームの切り出し領域の決定方法に関し、これまでの説明では、
図5に示すように、切り出し後フレーム画像の中心座標C1と検知枠の中心座標C2との差分Dを用いた。しかしながら、この方法では、検知対象の動きが激しい場合などに、モニタ30に切り出し後フレーム画像を表示した際の視認性・了解性を損なうことがある。そこで、この対策として、追尾状態において、フレーム間における切り出し領域の移動に制限を設けることで、モニタ30に表示される切り出し後フレーム画像の変動を抑制してもよい。
【0055】
切り出し領域の移動の制限は、種々の方法によって実現することができる。一例として、フレーム間における切り出し領域の移動を一定速度にする。別の例として、フレーム間における切り出し領域の移動を加速度運動にする。更に別の例として、追尾する物体の中心座標が切り出し領域の中心座標から一定範囲外にある場合、つまり、追尾する物体の中心座標と切り出し領域の中心座標との間の距離が所定の閾値を超える場合にのみ、切り出し領域を移動させる。なお、これらの方法は例示に過ぎず、他の方法によって切り出し領域の移動を制限してもよい。
【0056】
(第6実施例)
状態遷移処理ステップ(S6)について、これまでの説明では、システムの内部状態がスキャン状態の場合に、遷移条件を満たした際に即座に追尾状態へ遷移していた。しかしながら、この方法では、元フレーム画像における全ての分割領域に対して物体検知処理を行う前に状態遷移する可能性がある。この場合、一部の分割領域に対しては物体検知処理が実施されないことになる。そこで、この対策として、スキャン状態から追尾状態への遷移条件を変更し、全ての分割領域に対しての物体検知処理が完了するまでは、状態遷移を待機するようにしてもよい。具体的には、分割領域1~Nの各々を切り出し領域に循環的に設定して特定領域切り出しステップ(S2)および物体検知処理ステップ(S3)を行う動作が一巡する毎に、その過程の物体検知処理ステップ(S3)で物体が検知されたか否かを判定し、物体が検知されていたことを条件に追尾状態へ遷移させればよい。
【0057】
(第7実施例)
物体検知処理結果表示ステップ(S5)について、システムの内部状態が追尾状態の場合に、これまでの説明では、
図6に示すように、元フレーム画像と切り出し後フレーム画像とを1つのウィンドウに表示していたが、これは例示に過ぎない。例えば、元フレーム画像と切り出し後フレーム画像とをそれぞれの別のウィンドウに分けて表示してもよい。
【0058】
以上、本発明の実施形態について説明したが、上記の実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明は、その他の様々な実施形態をとることが可能であると共に、本発明の要旨を逸脱しない範囲で、省略や置換等の種々の変形を行うことができる。これら実施形態及びその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0059】
また、本発明は、上記の説明で挙げたような装置や、これら装置で構成されたシステムとして提供することが可能なだけでなく、これら装置により実行される方法、これら装置の機能をプロセッサにより実現させるためのプログラム、そのようなプログラムをコンピュータ読み取り可能に記憶する記憶媒体などとして提供することも可能である。
【産業上の利用可能性】
【0060】
本発明は、監視領域の撮影映像から物体を検知する映像監視システムに利用することが可能である。
【符号の説明】
【0061】
10:カメラ、 20:サーバ、 30:モニタ