(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023097593
(43)【公開日】2023-07-10
(54)【発明の名称】映像解析システム及び映像解析方法
(51)【国際特許分類】
G06T 7/20 20170101AFI20230703BHJP
H04N 7/18 20060101ALI20230703BHJP
G08B 25/00 20060101ALI20230703BHJP
【FI】
G06T7/20 300Z
H04N7/18 D
H04N7/18 K
G08B25/00 510M
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021213802
(22)【出願日】2021-12-28
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】伊藤 良起
(72)【発明者】
【氏名】森田 健一
(72)【発明者】
【氏名】三木 亮祐
(72)【発明者】
【氏名】吉永 智明
【テーマコード(参考)】
5C054
5C087
5L096
【Fターム(参考)】
5C054CA04
5C054CC02
5C054FC12
5C054FC13
5C054FE09
5C054FE14
5C054FE17
5C054GB02
5C054HA19
5C087AA03
5C087AA09
5C087FF04
5C087GG02
5C087GG07
5C087GG08
5C087GG10
5C087GG17
5C087GG19
5C087GG66
5L096AA06
5L096BA02
5L096CA04
5L096DA02
5L096FA69
5L096GA30
5L096GA51
5L096HA04
5L096HA09
(57)【要約】
【課題】映像監視システムの処理負荷の低減を実現する。
【解決手段】映像解析システムは、監視領域を撮影した映像を用いて、監視領域における事象を検出する。記憶装置は動作量の範囲を画定する予め設定された動作量条件を格納する。演算装置は、映像に基づいて検知した人物の動作量を算出し、算出した動作量及び動作量条件に基づいて、人物が要監視候補人物であるか判定し、動作量及び動作量条件に基づき行動認識モデルを選択し、選択された行動認識モデルを用いて、要監視候補人物と判定された人物についての事象の検出を行う。
【選択図】
図3
【特許請求の範囲】
【請求項1】
監視領域を撮影した映像を用いて、前記監視領域における事象を検出する映像解析システムであって、
1以上の演算装置と、
動作量の範囲を画定する予め設定された動作量条件を格納する、1以上の記憶装置と、を含み、
前記1以上の演算装置は、
前記映像に基づいて検知した人物の動作量を算出し、
算出した前記動作量及び前記動作量条件に基づいて、前記人物が要監視候補人物であるか判定し、
前記動作量及び前記動作量条件に基づき行動認識モデルを選択し、
選択された前記行動認識モデルを用いて、前記要監視候補人物と判定された人物についての事象の検出を行う、映像解析システム。
【請求項2】
請求項1に記載の映像解析システムであって、
前記動作量条件は、事前に算出された行動ごとの動作量に関する確率密度関数に基づいて設定される、映像解析システム。
【請求項3】
請求項2に記載の映像解析システムであって、
前記1以上の演算装置は、
前記事象が予め設定された条件を満たす要監視候補人物を、要監視人物と判定し、
前記要監視人物に関する情報を前記1以上の記憶装置に格納する、映像解析システム。
【請求項4】
請求項1に記載の映像解析システムであって、
前記1以上の記憶装置は、行動種別及び/または発生場所に対する重要度情報を格納し、
前記1以上の演算装置は、前記事象を発生させた人物に対して、前記重要度情報に基づいて監視重要度を算出する、映像解析システム。
【請求項5】
請求項4に記載の映像解析システムであって、
前記1以上の演算装置は、前記監視重要度に基づいて前記人物の強調表示の処理を行う、映像解析システム。
【請求項6】
請求項1に記載の映像解析システムであって、
前記1以上の演算装置は、前記事象の検出時点のフレーム画像もしくは前記事象の検出時点を含む映像、または、前記事象の人物の現在位置もしくは映像を表示する、映像解析システム。
【請求項7】
請求項2に記載の映像解析システムであって、
前記1以上の演算装置は、
運用現場で取得された動作量と行動種別の認識結果を用いて、前記1以上の記憶装置に格納されている確率密度関数を更新し、
更新された前記確率密度関数に基づいて前記動作量条件を更新する、映像解析システム。
【請求項8】
請求項2に記載の映像解析システムであって、
前記1以上の演算装置は、
前記確率密度関数及び前記動作量条件の情報をユーザに提示し、
前記ユーザからの入力に応じて、前記動作量条件を調整する、映像解析システム。
【請求項9】
請求項8に記載の映像解析システムであって、
前記1以上の演算装置は、
運用現場で取得された動作量と行動種別の認識結果を用いて、前記1以上の記憶装置に格納されている確率密度関数を更新し、
更新された前記確率密度関数を前記ユーザに提示する、映像解析システム。
【請求項10】
請求項1に記載の映像解析システムであって、
前記1以上の演算装置は複数の演算装置であり、
前記複数の演算装置の一部は前記映像を撮影する監視カメラに実装され、
前記1以上の演算装置による処理の一部は、前記監視カメラに実装された演算装置により実行される、映像解析システム。
【請求項11】
監視領域を撮影した映像を用いて、前記監視領域における事象を検出する映像解析方法であって、
映像解析システムが、前記映像に基づいて検知した人物の動作量を算出し、
前記映像解析システムが、算出した前記動作量及び動作量の範囲を画定する予め設定された動作量条件に基づいて、前記人物が要監視候補人物であるか判定し、
前記映像解析システムが、前記動作量及び前記動作量条件に基づき行動認識モデルを選択し、
前記映像解析システムが、選択された前記行動認識モデルを用いて、前記要監視候補人物と判定された人物についての事象の検出を行う、映像解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像解析システム及び映像解析方法に関し、例えば、監視エリアを撮影した映像から人物を検知し、検知結果に基づいて、監視対象を検出する映像解析システム及び映像解析方法に関する。
【背景技術】
【0002】
駅や空港等の公共施設、コンサート会場やアミューズメント施設等では、利用者の安全確保のためにテロ行為や危険行為等を早急に発見して対処する必要がある。監視員や現場に配備する警備員等の数には限りがあることから、監視カメラによる映像監視の需要が増大している。ところが、監視カメラの低廉化、小型化、省電力化、映像の高解像度化等に伴って、監視カメラの増設の流れは進む一方で、限られた人員で膨大な映像を監視する必要が生じる。
【0003】
したがって、効果的な映像監視と管理者の省力化のため、映像監視の自動化が求められる。特に、人物の行動認識技術は、施設内の安心安全を確保するための自動監視技術として重要な技術の一つである。例えば、被撮影者の転倒やうずくまる動作等の早期発見によって、施設管理者は施設内において発生した要救護対象者の迅速な保護を行うことができる。また、走る行為や暴行行為の早期発見によって、施設内の保安維持に貢献することが可能になる。
【0004】
一方、監視カメラの増設に伴い、映像解析を行うための解析サーバも増強する必要があることから、増強が困難な場合においては解析処理量の低減が求められる。これに対して、例えば、特許文献1に記載の情報処理装置においては、解析処理量の低減を目的として、入力された画像を解析し、画像に含まれる人物を検出する検出手段と、検出された人物が予め登録された人物であるか否かを判定する人物判定手段と、人物判定手段が前記予め登録された人物でないと判定した人物が、支援を求める第1の動作を行ったか否かを判定する動作判定手段と、動作判定手段が前記第1の動作を行ったと判定した第1の人物に関する通知を外部装置に出力する出力手段とを備え、検出手段は、動作判定手段が第1の動作を行ったと判定した前記第1の人物に関連する更なる画像解析を実行することを特徴とする情報処理装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述の従来技術では、画像内で検出され、所定の行動を行った人物に対して、更なる画像解析を行うことで解析処理量を低減している。しかしながら、動作判定部における行動認識は、全ての被撮影者に対して行われる必要があるため、行動認識自体の解析処理量は減らない。被撮影者の増加に伴い、行動認識の解析処理量も合わせて増加するため、解析サーバの増強が困難な場合には、行動認識の処理量の低減が求められる。
【課題を解決するための手段】
【0007】
本発明の一態様としての映像解析システムは、監視領域を撮影した映像を用いて、前記監視領域における事象を検出する。映像解析システムは、1以上の演算装置と、動作量の範囲を画定する予め設定された動作量条件を格納する、1以上の記憶装置と、を含む。前記1以上の演算装置は、前記映像に基づいて検知した人物の動作量を算出し、算出した前記動作量及び前記動作量条件に基づいて、前記人物が要監視候補人物であるか判定し、前記動作量及び前記動作量条件に基づき行動認識モデルを選択し、選択された前記行動認識モデルを用いて、前記要監視候補人物と判定された人物についての事象の検出を行う。
【0008】
本発明の一態様としての映像解析方法は、監視領域を撮影した映像を用いて、前記監視領域における事象を検出する。前記映像解析方法は、映像解析システムが、前記映像に基づいて検知した人物の動作量を算出し、算出した前記動作量及び動作量の範囲を画定する予め設定された動作量条件に基づいて、前記人物が要監視候補人物であるか判定し、前記動作量及び前記動作量条件に基づき行動認識モデルを選択し、選択された前記行動認識モデルを用いて、前記要監視候補人物と判定された人物についての事象の検出を行うことを含む。
【発明の効果】
【0009】
本発明の一態様によれば、映像監視システムの処理負荷の低減を実現する。
【図面の簡単な説明】
【0010】
【
図1】本実施の形態における映像監視システムの説明図である。
【
図2】本実施の形態における映像監視システムの全体構成を示した図である。
【
図3】本実施の形態における映像監視システムのハードウェア構成を示した図である。
【
図4】本実施の形態における映像解析システムのブロック図である。
【
図5】本実施の形態における判定部の説明図である。
【
図6】本実施の形態における映像解析システムのフローチャートを示した図である。
【
図7】本実施の形態における動作量条件情報の設定画面例を示した図である。
【
図8】本実施の形態における要監視候補人物の表示例を示した図である。
【
図9】本実施の形態における映像解析システムのブロック図である。
【発明を実施するための形態】
【0011】
以下、本発明にかかる映像監視システムの実施の形態について説明する。本明細書の一実施の形態では、映像解析システムの処理負荷の低減を目的として、行動認識処理を多段化し、前段処理の結果に応じて、適応的に認識モデルを選択して行動認識処理を行うものである。
【0012】
本明細書の一実施の形態によると、画面内で検知された人物に対して、行動認識処理を行うか判定するための前段処理として行動認識処理よりも計算量が少なく高速な動作量推定を行い、動作量及び事前設定された所定の条件に応じて行動認識処理を行うかどうか判定する。これにより、行動認識処理の回数を削減することが可能になり、映像監視システムの処理負荷を低減する。また、動作量に応じた行動認識モデルの選択によって、認識精度の向上も併せて可能とする。
【0013】
なお、本実施の形態における「事象」とは、ある監視領域において検出対象として事前設定された状況である。特に本実施の形態では、人物の要注視行動を検出対象とする。例えば、転倒、しゃがみ込み、暴行、疾走などの行動が含まれる。また、「要監視候補人物」とは、動作量推定の結果、動作量に関して事前設定された所定の条件に到達した人物を指し、「要監視人物」とは、行動認識の結果、特定の行動を行ったと判定された人物を指す。
【0014】
本明細の一実施形態では、要監視候補人物に対してのみ行動認識処理を行うことで、全ての人物に対して行動認識処理を行っている従来型の映像監視システムと比べて、システムの処理負荷を低減することを可能とする。また、「ユーザ」とは、監視カメラが設置される空間の管理者、監視員、または現場警備員等のうち、映像監視システムにアクセス可能またはシステムの設定を操作可能な人物を指す。以下、図面を用いて、実施形態を説明する。
【0015】
図1は、本明細書の一実施形態における映像監視システムの説明図である。
図1に示すように、映像監視システム1は、撮影システム2、映像解析システム3、監視センタシステム4を含む。撮影システム2は、監視対象エリア12に設置された一つまたは複数のカメラ部13を含む。
【0016】
また、映像解析システム3では、撮像装置からの入力映像を解析することで、監視領域内に撮影された人物を検知し、人物の動作量を算出して、前記動作量及び動作量に関して事前設定された所定の条件と照らし合わせることで行動認識処理を実行するか判定する。実行判定時には、動作量から適切な行動認識モデルを選択して行動認識処理を実行する。
【0017】
監視センタシステム4では、映像解析システム3からの解析結果を受け取り、監視員14や警備員等のユーザに対する効果的な表示を行うほか、動作量に関して事前設定された所定の条件を映像解析システム3へ送信する。
【0018】
以下、撮影システム2、映像解析システム3、及び監視センタシステム4について説明する。
【0019】
図2は、本明細書の一実施形態における映像監視システムの全体構成を示した図である。撮影システム2は、監視対象エリアに設置された一つまたは複数のカメラ部21を含み、撮像された映像は、映像解析システム3の映像入力部31へ順次入力される。カメラ部21は、監視を対象とするエリア全体を撮像できるように配置された監視カメラである。監視カメラの種類は、固定カメラ、パン・チルト・ズーム(PTZ)操作が可能なPTZカメラ、またはドローン搭載型カメラもしくはウェアラブルカメラ等の移動体用カメラ等、その形式を問わない。
【0020】
PTZカメラや移動体用カメラの場合は、後段の動作量算出や行動認識にカメラが移動することによる影響が及ばないようにすることが重要である。例えば、カメラのキャリブレーションを事前に実施して、人物の世界座標系における位置推定を行うなどの事前処理が実行される。また、監視カメラによって取得した画像全体の領域に対して映像解析を行う必要はなく、マスク処理によって一部の監視領域に限定することも、解析処理量の低減に寄与する。
【0021】
また、カメラ部21と映像入力部31は、有線通信手段または無線通信手段によって接続され、カメラ部21から映像入力部31へフレーム画像を連続送信する。動作量算出及び/または行動認識が複数のフレーム画像の入力を前提とする時系列データ分析モデルを用いる場合、フレーム画像の連続送信のフレームレートは、動作量算出と行動認識の要求値以上であることが望ましい。ただし、フレームレートが要求値より低下した場合に生じる認識精度低下を許容できる場合、フレームレートは要求値を下回ってもよい。
【0022】
この場合、動作量算出及び行動認識において、時系列データの内挿または外挿による補間など、精度低下を抑制する処理を行ってもよい。また、カメラ部21と映像解析システム3は一対一の対応ではなくてもよく、複数のカメラ部から、一つの映像解析システムが映像データを受信してもよい。映像解析システムは、複数のカメラ部それぞれからの映像データを処理する。このような多重プロセスの実行の場合においても、各プロセスが必要とする各カメラ部からのフレームレートは、前述の制約に準ずる。
【0023】
なお、カメラ部21は、後述する映像解析システムの一部または全部の機能を搭載してもよい。例えば、カメラ部21は1以上の演算装置及び1以上の記憶装置を含み、動作量算出のエッジ処理を行い、要監視候補人物の情報のみを映像解析システムへ伝送するなどの形態により、映像解析システムの処理負荷を低減させることが可能になる。
【0024】
映像解析システム3は、映像入力部31、判定部32、モデル選択部33、行動認識部34、出力制御部35、そして記憶部36を含む。映像入力部31は、カメラ部21から映像の入力を受け付け、判定部32へ映像データを送信する。なお、解析対象とする映像は、カメラ部21から直接入力された映像ではなく、別途保存されたレコーダ内の映像でもよく、その映像の保存場所は問わない。判定部32では、画面内の人物に対して人物検知を行い、行動認識処理を行うか判定するための前段処理として行動認識処理よりも計算量が少なく高速な動作量推定を行い、推定された単位時間当たりの動作量及び動作量に関して事前設定された所定の条件に応じて、要監視候補人物として当該人物の行動認識処理を行うかどうか判定する機能を有する。
【0025】
モデル選択部33では、動作量と、記憶部36に事前設定された動作量に関する所定の条件に応じて行動認識モデルを選択する。行動認識部34は、モデル選択部33において選択されたモデル及び要監視候補人物周辺の画像情報を用いて、行動認識処理を行う。行動認識部34は、行動認識の結果が所定条件を満たす場合、当該人物を要監視人物と判定する。なお、本実施の形態では、映像解析システム3は、運用施設内のサーバへ構築するようなオンプレミス型のシステムに限定されるものではなく、クラウドサービスを活用するなど施設外部サーバに構築されてもよい。
【0026】
記憶部36は、行動種別及び/または発生場所に関して監視員や警備員等のユーザが設定可能な重要度情報を有する。重要度情報は、行動種別及び/または発生場所それぞれの重要度を示す。記憶部36は、事象を発生させた各人物に対して、重要度情報に基づいて監視重要度を算出する。出力制御部35では、監視重要度に応じて、表示端末での強調表示の処理を行う。
【0027】
監視センタシステム4は、記録部41、映像表示部42と、そして管理制御部43を含む。記録部41は、映像解析システム3による映像解析によって得られた要監視候補人物または要監視人物の画像情報や移動軌跡、当該人物が発生させた事象、人物属性、発生エリア、発生時刻等の情報をデータベースとして保持する機能を有する。
【0028】
映像表示部42では、要監視候補人物または要監視人物の現在時刻における行動や、事象発生時のフレームの一部または全部に関する情報を表示する。管理制御部43では、判定部32で用いる動作量に関する所定の条件及び前記重要度情報を記憶部36へ保存するため、ユーザによって設定情報を入力する機能を有する。
【0029】
図3は、本明細書の一実施形態における映像監視システムのハードウェア構成図である。
図3では、カメラユニット51がネットワークを介してコンピュータ52に接続されている。コンピュータ52は、ネットワークを介してコンピュータ53と通信可能である。さらに、コンピュータ54は、ネットワークを介してコンピュータ53と通信可能である。コンピュータ52、53、54は、それぞれ、1以上の演算装置及び1以上の記憶装置を含む。
【0030】
カメラユニット51は、例えば、撮影システム2又はカメラ部21として機能し、コンピュータ52は、映像解析システム3として機能する。コンピュータ53は、例えば、監視センタシステム4として機能し、コンピュータ54は、ユーザ(例えば監視員)が使用するユーザ端末として機能する。
【0031】
カメラユニット51は、監視領域に1つまたは複数設置され、映像データをコンピュータ52に適宜送信する。コンピュータ52は、演算装置としてのCPU(Central Processing Unit)521、主記憶装置としてのRAM(Random Access Memory)522、補助記憶装置としてのHDD(Hard Disk Drive)523、及び通信インタフェース(IF)524を備える。
【0032】
コンピュータ52は、各種プログラムをHDD523から読み出してRAM522に展開し、CPU521によって実行することで、映像解析システム3としての機能31~36を実現する。また、コンピュータ52は、所定の通信インタフェース524を介してカメラユニット51及びコンピュータ53と通信する。なお、図示を省略しているが、キーボードやディスプレイなどの入出力装置も所定のIFを介してコンピュータ52に接続されてよい。
【0033】
コンピュータ53は、演算装置としてのCPU531、主記憶装置としてのRAM532、補助記憶装置としてのHDD533、及び通信インタフェース524を備える。コンピュータ53は、各種プログラムをHDD533から読み出してRAM532に展開し、CPU531によって実行することで、監視センタシステム4としての機能41~43を実現する。また、コンピュータ53は、所定のインタフェース534を介してコンピュータ52と接続される。なお、図示を省略しているが、キーボードやディスプレイなどの入出力装置も所定のIFを介してコンピュータ53に接続されてよい。
【0034】
コンピュータ54は、演算装置としてのCPU541、主記憶装置としてのRAM542、補助記憶装置としてのHDD543、及び通信インタフェース544を備える。コンピュータ54は、各種プログラムをHDD543から読み出してRAM542に展開し、CPU541によって実行することで、ユーザ端末としての機能を実現する。コンピュータ54は、さらに、入出力装置(I/O)545を含む。入出力装置545は、ユーザからの入力を受け取り、さらに、監視結果をユーザに提示する。なお、コンピュータ54に代えて、コンピュータ53に直接接続された入出力装置が使用されてもよい。
【0035】
なお、映像解析システム3の一部または全部の処理は、監視カメラ側で処理されてもよい。その場合、監視カメラは、カメラユニット51及びコンピュータ52の一部もしくは全部のハードウェアを有する構成となる。
【0036】
次に、
図4を参照して、映像解析システム3の詳細を説明する。
図4は、本明細書の一実施形態における映像解析システムのブロック図である。以下、映像解析システム3を構成する映像入力部31、判定部32、モデル選択部33、行動認識部34、出力制御部35、記憶部36について説明する。
【0037】
映像入力部31は、一つまたは複数のカメラ部21から映像を順次受け付け、後段の判定部32へ映像を出力する。判定部32では動作量という対象人物の状態の時系列変化の度合いを定量化する。例えば、時系列的に連続する複数の画像(映像フレーム)によって動作量が算出される。行動認識部34が時系列情報を扱わない場合、行動認識部34への入力は画像であってもよい。
【0038】
判定部32は、人物検知部321、動作量算出部322、候補判定部323を含む。人物検知部321では、映像入力部31から受け付けた画像または映像(複数のフレーム)を用いて、現フレームの静止画中から人物を検出する。人物検出の手段には、HOG(Histogram of Oriented Gradients)やR-CNN(Regions with CNN)、YOLO(You Only Look Once)等によって判定する手段や、骨格推定手段を用いて人物ごとに推定された骨格座標群から推定領域を判定する手段などがあり、本実施の形態ではその手段を問わない。
【0039】
動作量算出部322と行動認識部34のいずれかにおいて時系列情報を扱う場合、または後述する
図8に示すように要監視候補人物または要監視人物の現在位置の継続した捕捉を行う場合は、その人物追跡も併せて行う。動作量算出部322では、検知された人物の動作量を算出する。動作量算出の代表的な手段にはオプティカルフローが挙げられる。オプティカルフローでは、移動方向とそのフロー強度を算出することができる。
【0040】
例えば、人物検知部321の出力と、TV-L1やFarneback等のオプティカルフローの手法を組み合わせることで、人物矩形内の密なオプティカルフローを算出することができる。動作量は、他の方法により算出されてよい。例えば、人物の1又は複数の特定位置の時間当たりの移動量から、単位時間当たりの動作量が算出されてもよい。
【0041】
候補判定部323では、動作量と、記憶部36に事前設定された動作量の動作量条件情報361に応じて、行動認識処理を行うかどうかを判定する。判定の指標には、例えば、人物矩形内の全ピクセルの平均フロー強度またはフロー強度が上位所定%(例えば数十%)のピクセルの平均強度等を用いることができる。
【0042】
簡単のために、例えば、後段のモデル選択部33において、二種類の認識モデルが選択可能であり、動作量条件情報として上側閾値と下側閾値が動作量条件情報361に設定されている場合を考える。この場合、ユーザは、上記指標を用いて、上下閾値を事前の映像解析により最適な値へ設定しておく。1以上の所定のフレーム数分、連続して片側閾値を超えた場合、候補判定部323は、当該人物を要監視候補人物として設定する。
【0043】
以上では二種類の認識モデルを利用した例を示したため、閾値を上側閾値と下側閾値の二種類設定したが、三種類以上の認識モデルを用いる際は、複数の閾値を設定する。また、閾値はスカラではなくベクトルであってもよい。例えば、フロー強度を画像横方向または画像縦方向のように分解して捉えることもできる。
【0044】
なお、要監視候補人物の移動軌跡を辿るために人物追跡を行ってもよい。人物追跡では、ある人物の矩形画像と、その人物へ割り当てられた人物IDとが、前後フレームで対応付けられていればよく、テンプレートマッチングに代表される一般的な人物追跡手法を用いるほか、前段の動作量算出部で使用したオプティカルフローの結果を用いてもよい。
【0045】
モデル選択部33では、動作量算出部322で算出された動作量と、動作量条件情報361に応じて行動認識モデルを選択する。以上の適応的モデル選択によって、認識精度の向上も併せて実現される。例えば、高速で移動する人物に対しては、転倒やしゃがみ込みなど、静止状態の行動種別を出力する認識モデルを用いる必要はないため、疾走や投てき等、高速な動きを伴う動作のみを認識可能なモデルを選択することによって、誤検知の確率を低減することが可能になる。
【0046】
行動認識部34では、モデル選択部33において選択されたモデル及び要監視候補人物の周辺の画像情報を用いて、行動認識処理を行う。画像情報のみならず、オプティカルフローなどの動作量に関する情報や、画像から指定される人物の属性情報等を用いてもよい。また、画像に対する骨格推定によって人物の骨格に関する特徴量を算出し、骨格に基づく行動認識手法を用いてもよい。
【0047】
画像情報を用いる場合は、HoG特徴やCNN特徴等を用いる手段が挙げられる。骨格情報を用いる場合は、姿勢、移動速度等を表す特徴量により、SVM(Support Vector Machine)、決定木、RNN(Recurrent Neural Network)、またはGCN(Graph Convolutional Network)等を学習させる手段が挙げられる。
【0048】
また、これらの認識モデルは、単独で用いられるだけではなく、複合的に用いられてもよい。本実施の形態において認識モデルの詳細は問わない。特定の行動を行ったと判定された要監視候補人物は、要監視人物として設定され、人物周辺の画像や行動等の情報が出力制御部35へ送信される。
【0049】
記憶部36は、動作量条件情報361のほか、行動種別及び/または発生場所に対してユーザが設定可能な重要度の情報を監視基準情報362として有し、事象を発生させた各人物に対して、重要度情報に基づいて監視重要度を算出する。出力制御部35では、監視重要度に応じて、要監視人物を表示端末で強調して表示を行うための処理を実施する。
【0050】
図5は、本明細書の一実施形態における判定部の説明図である。
図5では、ある監視カメラで撮影された二つの時刻における画像を示している。画像61は時刻tにおける画像であり、画像62は時刻t+i(iは自然数)における画像である。i=1の時、二つの画像は隣接フレームであることを示す。
【0051】
画像61には、領域611、領域612、領域613、に三名の人物が撮影されており、同様に、画像62には、領域621、領域622、領域623、に三名の人物が撮影されている。ここで、領域611と領域621の人物、領域612と領域622の人物、領域613と領域623の人物はそれぞれ同一の人物である。すなわち、例えば領域611の人物は、i秒後に領域621へ移動したことを示す。また、点線で示された領域は要監視候補人物として設定されていない人物を示し、実線で示された領域は要監視候補人物として設定された人物を示す。
【0052】
ここで、上述の通り、簡単のために二種類の認識モデルが選択可能である場合を考える。この時、動作量の上側閾値を上回った人物及び下側閾値を下回った人物を要監視候補人物と設定し、行動認識処理を行うことになる。
図5において、領域611の人物は領域621までの移動において、いずれの閾値にも到達しなかったため、要監視候補人物と設定されていない。
【0053】
一方、領域612の人物はi秒後までに動作量の上側閾値を上回り、領域613の人物はi秒後までに動作量の下側閾値を下回ったと判定されたため、要監視候補人物と設定されていることを示している。ただし、対象判定の頑健化のために、いずれかの閾値を一定フレーム連続して超えた場合や、所定のフレーム数のうち所定の割合のフレーム数が閾値を超えた場合に、要監視候補人物と設定することも好適である。
【0054】
次に、
図6に示すフローチャートを参照して、本明細書の一実施形態における映像解析システムの処理の流れを説明する。ステップS1において撮影システム2から映像解析システム3へ映像が入力されると、ステップS2において、人物検知部321により人物検出が行われる。もし人物が監視エリア内において検出された場合(S2:YES)、ステップ3からステップ9では、検出された人物ごとに処理を行う。もし人物が検出されなかった場合は(S2:NO)、次のフレーム画像の読み込みのためステップ1へ戻る。
【0055】
ステップ3以降の処理では、動作量算出または行動認識が時系列情報を扱う場合、人物検知部321は、まずステップS4において人物追跡を行う。この時、複数フレームの情報を保持する必要があることから、メモリやストレージ等において、人物IDによって人物周辺の画像情報や動作量情報を管理することが望ましい。次に、ステップS5において、動作量算出部322は、当該人物の動作量を算出する。ステップS6において、算出された動作量が、事前設定された動作量条件に到達したと候補判定部323によって判定された場合、行動認識処理を行うため、続くステップS7において、モデル選択部33が認識モデルの選択を行う。
【0056】
ここで、条件に到達しなかった人物に対してはステップS7以降の処理を行わず、次の人物に対してステップS4から再度処理を行う。ステップS8では、行動認識部34は、選択された認識モデル及び人物の周辺画像を用いて行動認識を行う。算出済みの動作量を特徴量として用いてもよい。最後に、ステップS10では、監視センタシステムへの出力制御として、出力制御部35は、人物追跡によって割り当てられた人物IDや要監視人物の画像座標等を監視センタシステム4へ送信する。ステップS10の後は、次のフレーム画像の読み込みのためステップS1へ戻る。
【0057】
なお、本図中に示したフローの処理は、必ずしも単一のプロセスで処理される必要はなく、演算効率の向上のために、複数のプロセスを用いて非同期に処理されてもよい。
【0058】
次に、
図7を参照して、本実施の形態における動作量条件情報の設定画面の一例を示す。
図7は、本明細書の一実施形態における監視センタシステム4の管理制御部43によって表示されるGUI(Graphical User Interface)であり、ユーザが制御を行うことができる。領域71では、横軸を動作量、縦軸を確率密度とするグラフが示されている。確率密度に応じて閾値を設定することでより適切な判定が可能となる。
【0059】
この例では、動作量としてスカラのフロー強度を想定しているが、フロー方向等に関する設定がさらに含まれてもよい。関数711は、ある行動における確率密度関数を表す。領域71では、行動Aから行動Eまでの5種の行動が学習データとして用意され、それぞれが簡単のために一峰性の確率密度関数となっている様子が図示されている。これらの確率密度関数は、例えば、人物矩形内の全ピクセルの平均フロー強度またはフロー強度が上位数十%のピクセルの平均強度等を用いて事前に算出しておくことで得ることができる。または、所定のフレーム数の平均値または中央値で算出してもよい。
【0060】
また、関数群に従って、事前に行動認識モデルを作成しておく必要がある。例えば、行動Aと行動Bは、他の三種の行動に比べて動作量が少ない行動であることが読み取れる。これら小さい動作量の行動を検知するための認識モデルAや、同様に、大きい動作量の行動を検知するための認識モデルBを事前に作成する。小さい動作量の行動の例には「転倒」、「しゃがみ込み」、「周囲の見回し」等が挙げられる。一方、大きい動作量の行動の例には「疾走」、「暴行」、「投てき」等が挙げられる。
【0061】
ここでは、上述した通り、二種の行動認識モデルが作成され、動作量がスカラで与えられるとする。領域71では、下側閾値として閾値A、上側閾値として閾値Bが用意されている。ユーザは、領域71に図示される関数を参照しながら、閾値それぞれを設定することができる。例えば、閾値Aをグラフ上で操作する場合、領域712を押下しながら左右に閾値をスライドさせることによって閾値を変更させることができる。
【0062】
または、表72のように、閾値設定によって変動する行動ごとのカバー率(累積密度)を表示してもよい。ユーザは表72を参照しながら、閾値を設定可能である。表72の「行動種別」は、対応する行動認識モデルが認識可能な行動である。同表の「カバー率」では、例えば行動認識「モデルA」において、現在設定されている「<閾値A」、即ち閾値Aよりも小さい動作量を持つ行動は、行動Aが99%、行動Bが90%カバーされているという情報が表示されている。領域71に併せて表72を作成して表示することで、ユーザは定量的な認識に基づいて、閾値を設定することが可能になる。
【0063】
図7に示す例の場合、行動Aと行動Bは行動認識モデルA、行動Dと行動Eは行動認識モデルBで学習されており、行動Cに関してはいずれのモデルにおいても学習されていない。閾値設定を行動Cが除外されるように設定することで、映像解析処理全体の高速化が期待できるほか、行動認識の結果「行動C」と誤推定される割合を低減することが可能になり、精度向上への効果も期待できる。なお、三種類以上の認識モデルを用いる場合は、同様に三種類以上の閾値が必要になる。以上の設定情報は、動作量条件情報361へ保持される。
【0064】
次に、
図8を参照して、
図5の要監視人物の表示例を説明する。
図8は、本明細書の一実施形態における映像表示部42で表示されるGUIである。領域8は出力画面を示し、領域8は通知画面の全体に表示されてもよいし、通知画面の一部に表示されてもよい。 領域8のうち、画面A(領域81)、画面B(領域82)、画面C(領域83)、画面D(領域84)に表示されている人物は、行動認識の結果、いずれかの行動認識モデルに学習済みの行動を行ったと検知された人物である。
【0065】
図8では、表示画面を4つ図示したが、その数及び配置方法は問わない。
図8は、各画面において、全人物について行動の検知時刻における画像を表示する例を示している。画像は、検知した前後数秒の映像でもよく、その場合は、映像が自動的にループ再生される形態も状況把握の効率化に好適である。領域81~84のそれぞれは、フレーム画像全体が表示されてもよいが、検知された人物の周辺状況のみが分かるように一定範囲でトリミングされた画像または映像が表示されてもよい。
【0066】
同一画面に撮影される他の人物との識別を容易にするため、図示するように要監視人物を矩形枠で囲むなどしてもよい。映像監視システム内で人物追跡を行う場合で、要監視人物の現在位置が捕捉できる場合は、現在位置における要監視人物の位置及び/またはリアルタイムの画像または映像を表示できるように切り替えられる形態でもよい。その場合、候補判定部323において、要監視人物と判定された人物の外見、属性、行動等の情報は、要監視人物情報として記憶部36に別途保存される形態が考えられる。人物の属性の情報は、例えば、性別、年齢、人種等を含み、外見の情報は、服装や髪型等の情報を含み、行動の情報は、行動の種類を含むことができる。これにより、ユーザは、要監視人物についての情報を容易に得ることができる。
【0067】
要監視人物情報の保存先は、クラウドや監視センタシステム内に用意したストレージサーバ等、その保存先を問わない。要監視人物にオクルージョンが発生した場合や、要監視人物が監視エリア外にフレームアウトした際は、最後に捕捉された場所や時間に関する情報を提示することも好適である。
【0068】
領域85では、上記四領域81~84の詳細な情報または全検知結果の詳細な情報がテキストベースで表示されている。具体的には、表示されている画面、監視重要度、要監視人物の現在位置、事象の種別とその検知時刻と発生場所、等である。ここで、監視重要度は、事象に対して事前設定された重みを指す。例えば、しゃがみ込みよりも転倒が重要であるというような事前設定をあらかじめ行っておくことで、監視重要度順のソートが可能になる。
【0069】
発生場所に対して重要度を設定したり、発生場所と検出事象のスコアを組み合わせてもよい。これらの情報は、管理制御部43が、監視基準情報362として設定する。また、領域81等の表示画面においても、監視重要度順に画面サイズを変更し、重要な事象ほど、より大きく表示することが可能になる。サイズによる強調表示の他、重要度が所定を超える画像の表示画面は、目立つ位置への配置、または太枠や枠の色付け等で強調表示されてもよい。このように、重要度に応じて画像が強調表示されてよく、サイズを重要度に応じて変更することや、重要度に応じて組み合わせる強調態様を変更してもよい。
【0070】
以上によって、ユーザによる状況判断や即応性の向上に効果的であり、映像監視の効率化が可能になる。監視基準情報の設定例として、発生場所に関して、コンコースの重要度を3点、駐車場の重要度を1点と設定する。一方、行動種別に関して、転倒の重要度を2点、暴行の重要度を3点とする。この時、発生場所と行動種別の和や積によって、監視重要度を計算することができる。
【0071】
前述の点数設定において積で監視重要度を算出する場合、「コンコースで発生した転倒」事象Aは6点、「駐車場で発生した暴行」事象Bは3点となる。これによって、事象Aは事象Bよりも監視重要度が高く設定され、
図8の例では、領域81は領域82よりも大きい画面になるように表示されている。画面の大きさの制約上、複数の事象が発生している場合には、画面をスクロールできるようにしてもよい。
【0072】
事象に対してスタッフによる対応が完了した場合、対応が不要と判断された場合、または誤検知が明らかな場合等は、ユーザは表示画面や領域85の行を選択し、削除することができると良い。
図8には、領域85の左端2行目のチェックボックスまたは領域82を押下することで、「駐車場で発生した暴行」事象Bが選択されている様子が図示されており、本事象への対応が完了した場合等は、本事象が選択された状態で領域86を押下し、表示から削除できる様子を示している。
【0073】
事象は時間経過に従って次々と発生することが想定されることから、表示画面の判読性を高めるため、検知時刻から所定の時間内にユーザによる処理がされなかった事象については、表示から自動で削除してもよい。ただし、特に重要事象に関しては、事象の検知から一定時間経過後または事象の削除前に、警告を発するなどによってユーザの見落としを軽減するための処理が行われてもよい。
【0074】
本画面を確認することができるのは、監視センタの監視員に代表されるような大型のディスプレイの利用が想定される発報対象者に限らず、現場で対応するスタッフや警備員であっても、スマートフォン端末やタブレット端末、またはARゴーグル等を利用することによって、領域8の一部または全部を現場において確認することができる。
【0075】
以上に説明したように、映像監視システム1は、映像解析システムの処理負荷の低減を目的として、行動認識処理を多段化し、前段処理の結果に応じて、適応的に認識モデルを選択して行動認識処理を行うものである。
【0076】
本発明によると、画面内で検知された人物に対して、行動認識処理を行うか判定するための前段処理として行動認識処理よりも高速な動作量推定を行い、その動作量と事前設定された動作量に関する所定の条件に応じて行動認識処理を行うかどうか判定するため、行動認識処理の回数を削減することが可能になり、映像監視システムの処理負荷を低減する。また、動作量に応じた行動認識モデルの選択によって、認識精度の向上も併せて可能とする。
【0077】
以下、本発明である映像監視システム1の別の実施形態について説明する。なお、上述した実施の形態と共通する部分については説明を省略し、主に本実施の形態における特有の処理について説明する。前述した例においては、
図7に示す通り、動作量に関する行動ごとの確率密度関数を事前に算出し、ユーザはそれに基づいて動作量に関する所定の条件を設定した。
【0078】
しかしながら、監視カメラが設置される施設の種別に応じて、上記関数の分布は変化することが想定される。疾走や投てき、暴行など、動作量が比較的大きい行動を例に挙げると、空間に占める人の密度が大きい状況における動作量と、上記密度が小さい状況における動作量では、後者の動作量はより大きくなることが想定される。
【0079】
即ち、空間に占める人の密度が大きい状況で撮影された学習データによって求められた確率密度関数を、密度が小さい状況で使用した場合、閾値は実際の分布よりも離れた位置へ設定されることになるため、解析処理量の低減効果が小さくなる可能性がある。そこで、監視カメラが設置された施設または監視カメラ毎に、分布と閾値を最適化する処理が考えられる。
【0080】
図9は、本明細書の一実施形態における映像解析システムのブロック図である。
図1で示した実施の形態における映像解析システムのブロック図と比較して、条件算出部37が追加されている。行動認識部34により出力された行動種別は、動作量算出部322の出力結果である動作量と共に、条件算出部37へ送られる。
【0081】
条件算出部37では、新たに算出された動作量と行動種別の結果を用いて、記憶部に保存されている確率密度を更新し、設定済みのカバー率の条件を満たすように閾値を自動調整する。例として
図7の設定状況を参照すると、行動認識モデルBが認識可能とする行動D及び行動Eについて、行動Eに関する分布が変更されたとする。閾値Bを変更すると行動Dに関する分布のカバー率にも影響を及ぼす。そのため、この場合は行動D及び行動Eの従来カバー率の平均値や中央値が、更新前の値と同値になるように、条件算出部37は閾値Bを調整してもよい。または、ユーザへ再調整を促すメッセージを出力する等の処理を行う。
【0082】
監視カメラが運用されている現場で一定量のデータが蓄積され、各行動について確率密度関数が算出可能な場合は、事前の分布を算出するために用いられたデータを再利用する必要はなく、その運用現場や類似施設、類似画角でのデータを用いればよい。類似施設や類似画角のデータは、予めユーザによって当該運用現場に対して関連付けられている。
【0083】
なお、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
【0084】
また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施例の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
【0085】
また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【符号の説明】
【0086】
1…映像監視システム、2…撮影システム、21…カメラ部、3…映像解析システム、31…映像入力部、32…判定部、321…人物検知部、322…動作量算出部、323…候補判定部、33…モデル選択部、34…行動認識部、35…出力制御部、36…記憶部、361…動作量条件情報、362…監視基準情報、37…条件算出部、4…監視センタシステム、41…記録部、42…映像表示部、43…管理制御部