(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172175
(43)【公開日】2024-12-12
(54)【発明の名称】画像監視システム及び画像監視方法
(51)【国際特許分類】
H04N 7/18 20060101AFI20241205BHJP
G06T 7/60 20170101ALI20241205BHJP
G06T 7/70 20170101ALI20241205BHJP
G06T 7/254 20170101ALI20241205BHJP
【FI】
H04N7/18 D
G06T7/60 180B
G06T7/70 Z
G06T7/254 A
H04N7/18 K
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023089726
(22)【出願日】2023-05-31
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000350
【氏名又は名称】ポレール弁理士法人
(72)【発明者】
【氏名】伊藤 良起
(72)【発明者】
【氏名】佐々木 辰也
【テーマコード(参考)】
5C054
5L096
【Fターム(参考)】
5C054CF06
5C054CF07
5C054FD07
5C054FE12
5C054GB01
5C054GB05
5C054HA19
5C054HA31
5L096AA06
5L096BA02
5L096CA04
5L096DA02
5L096FA16
5L096FA66
5L096FA67
5L096FA69
5L096GA51
5L096HA09
5L096HA11
5L096JA11
(57)【要約】
【課題】
判定に必要な処理を十分に抑えつつ、オブジェクト間の高精度なインタラクション認識を可能とする画像監視システム及び画像監視方法を提供する。
【解決手段】
監視領域を撮影した画像を用いて、監視領域における事象を検出する画像監視システム1は、少なくとも一つの演算装置と、インタラクション認識を行うか否かを判定するために予め設定された閾値を格納する少なくとも一つの記憶装置と、を備え、演算装置は、画像からオブジェクトの位置を検出する位置検出部32、認識対象のオブジェクトグループ内の各オブジェクト間の距離及び/又は角度に関する特徴量を算出する算出部33、特徴量が閾値に達するか否かを判定する判定部34、閾値に達したオブジェクトグループについてインタラクションを認識するインタラクション認識部35と、を有する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
監視領域を撮影した画像を用いて、前記監視領域における事象を検出する画像監視システムであって、
少なくとも一つの演算装置と、インタラクション認識を行うか否かを判定するために予め設定された閾値を格納する少なくとも一つの記憶装置と、を備え、
前記演算装置は、
前記画像からオブジェクトの位置を検出する位置検出部と、
認識対象のオブジェクトグループ内の各オブジェクト間の距離及び/又は角度に関する特徴量を算出する算出部と、
前記特徴量が閾値に達するか否かを判定する判定部と、
前記閾値に達したオブジェクトグループについてインタラクションを認識するインタラクション認識部と、を有することを特徴とする画像監視システム。
【請求項2】
請求項1に記載の画像監視システムであって、
前記判定部は、前記特徴量が予め設定された条件を満たすオブジェクトのグループを要監視候補と判定し、
前記インタラクション認識部は、前記要監視候補に対してインタラクション認識を実行し、所定のインタラクションの発生が検知された場合に、前記オブジェクトグループ又は各オブジェクトを要監視オブジェクトとして設定し、
前記要監視オブジェクトに関する情報を格納する記憶部を有することを特徴とする画像監視システム。
【請求項3】
請求項1に記載の画像監視システムであって、
認識対象のインタラクション種別ごとに、前記インタラクションを発生させる任意のオブジェクトを基準として、他のオブジェクトとの距離条件及び/又は角度条件を設定可能な管理制御部を有することを特徴とする画像監視システム。
【請求項4】
請求項1に記載の画像監視システムであって、
前記事象の検出時点のフレーム画像若しくは検出時点を含む映像、又は、前記事象の人物の現在位置を示す画像若しくは映像を表示するための画像表示部を有することを特徴とする画像監視システム。
【請求項5】
請求項1に記載の画像監視システムであって、
前記算出部は、前記インタラクションの認識のために、オブジェクトについて二次元又は三次元のキーポイントを検出し、オブジェクトの姿勢を表現する特徴量と、オブジェクト内及び/又はオブジェクト間の任意のキーポイント間の距離に関する特徴量と、前後の画像フレーム間の差分から算出される単位時間あたりのオブジェクトの移動量を表す特徴量と、オブジェクトの種別を表す特徴量と、矩形領域の位置に関する特徴量と、画像から得られる特徴量と、の中から少なくともいずれか一つを算出し、
前記インタラクション認識部は、算出した特徴量に基づきインタラクションの種別を検出することを特徴とする画像監視システム。
【請求項6】
請求項1に記載の画像監視システムであって、
前記記憶装置は、インタラクション種別と、インタラクションの発生場所と、オブジェクトの属性と、の中から少なくともいずれか一つに関する情報を重要度情報として格納し、
前記演算装置は、インタラクションを発生させた人物に対して、前記重要度情報に基づいて監視重要度を算出することを特徴とする画像監視システム。
【請求項7】
請求項6に記載の画像監視システムであって、
前記演算装置は、前記監視重要度に基づき、インタラクションを発生させた人物を強調して表示する画像表示部を有することを特徴とする画像監視システム。
【請求項8】
請求項1に記載の画像監視システムであって、
前記演算装置は、インタラクション種別と、インタラクションの発生場所と、オブジェクトの属性と、の中から少なくともいずれか一つに関する情報を検索クエリとして、インタラクションの検出実績を検索することで、前記インタラクションを発生させたオブジェクトの情報の検索が可能な検索部を有することを特徴とする画像監視システム。
【請求項9】
請求項1に記載の画像監視システムであって、
前記演算装置は複数の演算装置であり、前記複数の演算装置の一部は画像を撮影する監視カメラに実装されることを特徴とする画像監視システム。
【請求項10】
監視領域を撮影した画像を用いて、前記監視領域における事象を検出する画像監視方法であって、
位置検出部が、前記画像からオブジェクトの位置を検出し、
算出部が、認識対象のオブジェクトグループ内の各オブジェクト間の距離及び/又は角度に関する特徴量を算出し、
判定部が、インタラクション認識を行うか否かを判定するために予め設定された閾値条件を参照して、前記特徴量が閾値に達するか判定を行い、
インタラクション認識部が、前記閾値に達したオブジェクトグループについてインタラクションを認識することを特徴とする画像監視方法。
【請求項11】
請求項10に記載の画像監視方法であって、
前記判定部が、前記特徴量が予め設定された条件を満たすオブジェクトのグループを要監視候補と判定し、
前記インタラクション認識部は、前記要監視候補に対してインタラクション認識を実行し、所定のインタラクションの発生が検知された場合に、前記オブジェクトグループ又は各オブジェクトを要監視オブジェクトとして設定し、
記憶部が、前記要監視オブジェクトに関する情報を格納することを特徴とする画像監視方法。
【請求項12】
請求項10に記載の画像監視方法であって、
管理制御部が、認識対象のインタラクション種別ごとに、前記インタラクションを発生させる任意のオブジェクトを基準として、他のオブジェクトとの距離条件及び/又は角度条件を設定可能とすることを特徴とする画像監視方法。
【請求項13】
請求項10に記載の画像監視方法であって、
画像表示部が、前記事象の検出時点のフレーム画像若しくは検出時点を含む映像、又は、前記事象の人物の現在位置を示す画像若しくは映像を表示することを特徴とする画像監視方法。
【請求項14】
請求項10に記載の画像監視方法であって、
前記算出部が、前記インタラクションの認識のために、オブジェクトについて二次元又は三次元のキーポイントを検出し、オブジェクトの姿勢を表現する特徴量と、オブジェクト内及び/又はオブジェクト間の任意のキーポイント間の距離に関する特徴量と、前後の画像フレーム間の差分から算出される単位時間あたりのオブジェクトの移動量を表す特徴量と、オブジェクトの種別を表す特徴量と、矩形領域の位置に関する特徴量と、画像から得られる特徴量と、の中から少なくともいずれか一つを算出し、
前記インタラクション認識部が、算出した特徴量に基づきインタラクションの種別を検出することを特徴とする画像監視方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視エリアを撮影した画像から人物や物体を検知し、検知結果に基づいて、監視対象を検出する画像監視システム及び画像監視方法に関する。
【背景技術】
【0002】
駅や空港、コンサート会場やイベント施設等の公共空間では、利用者の安全確保のためにテロ行為や危険行為等を早急に発見して対処する必要がある。また、作業現場や工事現場においては、作業員の労災防止のため危険な作業が行われないよう対処する必要がある。監視員や現場に配備する警備員の数には限りがあることから、監視カメラによる映像監視の需要が増大している。セキュリティ意識や労災の防止意識の高まり、また、監視カメラの低廉化、小型化、省電力化、映像の高解像度化等の背景に伴って、監視カメラ増設の流れは進んでおり、限られた人員で膨大な映像を監視する必要が生じている。
【0003】
効果的な映像監視と監視員の省力化のためには、映像監視の自動化が求められる。特に、映像から人物の行動を認識する技術は、自動監視のための技術として重要な技術の一つである。例えば公共空間においては、被撮影者の転倒やうずくまる動作等の早期発見によって、施設管理者は施設内において発生した要救護対象者の迅速な保護を行うことができる。また、走る行為や暴行行為の早期発見によって、施設内の保安維持に貢献することが可能になる。一方、作業現場においては、危険作業の認識を通じて、作業者の労災防止や作業手順の認識による作業ミスの把握や効率化に活用することが可能である。
【0004】
高度な行動認識を実現する上では、人物のみならず、人物の周辺物体や周辺人物にも焦点を当て、対象人物との関係性を認識することが重要となる。例えば、作業現場においては、工具を利用した組み立て作業、脚立の不適切な利用、クレーンで吊下げられた物体下への潜り込みなど、あるいは公共空間においては、荷物の受け渡しや置き去り、持ち去りなど、人物一名のみ又は周辺の人物一名や物体一点のみの情報を活用した場合には、認識が難しいシーンが数多く存在する。
【0005】
一方、監視カメラの増設に伴い、画像解析を行うための解析サーバも増強する必要がある。そのため、サーバの増強が困難な場合においては解析処理量の低減によって対処することが求められる。特にカメラの設置方法の指定や増設が難しい環境において、人物の多様な見え方に対応するように認識のパターン数を増加させた場合、解析処理量や誤認識の増加に繋がる問題がある。これに対して、例えば、特許文献1に記載の画像処理装置においては、処理負荷を増大させることなく、高精度な行動認識を可能とする画像処理装置を提供するため、人物の姿勢に関する情報のほか、人物の周辺の物体の情報を利用することによって行動を認識する構成が開示されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に開示される技術では、行動認識は画面内の多様な人物と物体間ペアに対して試行されるため、検知された人物と物体のペアの数が多い場合には、解析処理はそのペア数に従って増加する。例えば、ある画像において、認識対象となるインタラクションを実行する人物と物体が別のある比較画像と比べて、それぞれ2倍の数だけ検知された場合には、その組み合わせは前記比較画像の4倍となるため、関係性を認識するための推論回数は指数関数的に増加するという問題がある。従って、判定に必要な処理を十分に抑えつつ、高精度なインタラクション認識を可能とすることが課題となる。
【0008】
そこで、本発明は、判定に必要な処理を十分に抑えつつ、オブジェクト間の高精度なインタラクション認識を可能とする画像監視システム及び画像監視方法を提供することにある。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明に係る画像監視システムは、監視領域を撮影した画像を用いて、前記監視領域における事象を検出する画像監視システムであって、少なくとも一つの演算装置と、インタラクション認識を行うか否かを判定するために予め設定された閾値を格納する少なくとも一つの記憶装置と、を備え、前記演算装置は、前記画像からオブジェクトの位置を検出する位置検出部と、認識対象のオブジェクトグループ内の各オブジェクト間の距離及び/又は角度に関する特徴量を算出する算出部と、前記特徴量が閾値に達するか否かを判定する判定部と、前記閾値に達したオブジェクトグループについてインタラクションを認識するインタラクション認識部と、を有することを特徴とする。
【0010】
また、本発明に係る画像監視方法は、監視領域を撮影した画像を用いて、前記監視領域における事象を検出する画像監視方法であって、位置検出部が、前記画像からオブジェクトの位置を検出し、算出部が、認識対象のオブジェクトグループ内の各オブジェクト間の距離及び/又は角度に関する特徴量を算出し、判定部が、インタラクション認識を行うか否かを判定するために予め設定された閾値条件を参照して、前記特徴量が閾値に達するか判定を行い、インタラクション認識部が、前記閾値に達したオブジェクトグループについてインタラクションを認識することを特徴とする。
【発明の効果】
【0011】
本発明によれば、判定に必要な処理を十分に抑えつつ、オブジェクト間の高精度なインタラクション認識を可能とする画像監視システム及び画像監視方法を提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施例1に係る画像監視システムの説明図である。
【
図2】
図1に示す画像監視システムの全体構成を示す図である。
【
図3】本発明の実施例1に係る画像監視システムのハードウェア構成を示す図である。
【
図4】本発明の実施例1に係る画像監視システムの機能ブロック図である。
【
図6】本発明の実施例1に係る画像解析システムのフローチャートである。
【
図8】本発明の実施例2に係る画像監視システムにおける監視重要度の設定画面例を示す図である。
【
図9】本発明の実施例2に係る画像監視システムにおける表示画面を示す図である。
【
図10】本発明の実施例2に係る画像監視システムにおける検索画面を示した図である。
【発明を実施するための形態】
【0013】
以下、本発明に係る画像監視システムの実施形態について説明する。本発明の一実施の形態では、画像解析システムの処理負荷の低減及び認識の高精度化を目的として、行動認識処理を多段化し、前段処理の結果に応じて、オブジェクトとその周辺オブジェクトとのインタラクションを推論するか否かを決定するものである。
【0014】
本発明の一実施形態によれば、画面内で検知されたオブジェクトに対して、その周辺オブジェクトとのインタラクションの認識を行うか否かを決定するために、まず、対象オブジェクトとその周辺オブジェクト間について距離や角度関係など空間的位置関係から距離や角度に関する特徴量を算出する。次に、上記特徴量が予め設定された閾値に達するか判定を行う。もし閾値に到達した場合には、オブジェクトのグループに対してインタラクション認識処理を行う。これにより、画面内に多くのオブジェクトが存在する場合であっても、従来は全ての候補に対して行われたインタラクション認識の推論回数を削減することが可能となり、画像監視システムの処理負荷を低減できる。また、このように処理を多段化することで総合的な計算量を抑制するだけではなく、インタラクションが発生していない可能性があるグループを予め除外し、インタラクション発生可能性の高いグループに対してのみ詳細な推論処理を行うことができるため、認識精度の向上に繋がる。
【0015】
なお、本明細書における「オブジェクト」とは、ある監視領域において物体検知モデルによって検知された物体又は人物を指す。「インタラクション」とは、あるオブジェクトと他のオブジェクト間の関係性を指す。例えば、人物と人物間のインタラクションには握手やハグなどの例が挙げられる。また、人物と物体間のインタラクションには物体の把持、置き去りや持ち去りなどの例が挙げられる。また、物体と物体間のインタラクションには接近や離散等の例が挙げられる。また、「要監視候補」とは、詳細なインタラクション認識を行うための閾値に到達したオブジェクト又はそのグループを指す。「非要監視候補」とは、それぞれ、詳細なインタラクション認識を行うための閾値に達しないオブジェクト又はそのグループを指す。また、「事象」とは、インタラクション認識の結果、特定のインタラクションが発生していると判定されたシーンを指す。また、「要監視オブジェクト」とは、インタラクション認識の結果、特定のインタラクションが行われたと判定されたオブジェクトを指す。なお、「グループ」とは二種以上のオブジェクトの集合を指し、連関するオブジェクトの数は問わない。「ユーザ」とは、監視カメラが設置される空間の管理者、監視員、又は現場警備員等のうち、画像監視システムにアクセス可能又はシステムの設定を操作可能又は映像や解析結果を確認可能な人物を指す。
【0016】
本発明の一実施形態では、要監視候補に対してのみインタラクション認識を行うことで、全てのオブジェクトグループに対してインタラクション認識を行っている従来型の画像監視システムと比べて、システムの処理負荷を低減し、認識精度を向上させることを可能とする。以下、図面を用いて本発明の実施例について説明する。
【実施例0017】
図1は、本発明の実施例1に係る画像監視システムの説明図である。
図1に示すように、画像監視システム1は、撮影システム2、画像解析システム3、及び監視センタシステム4を備える。撮影システム2は、監視対象エリア5に設置された少なくとも一つのカメラ部21を有する。
【0018】
また、画像解析システム3では、撮影システム2からの入力画像を解析することで、監視領域内に撮影されたオブジェクトを検知し、人物と人物、又は人物と物体など、予め指定された所定のオブジェクト種別のグループが存在する場合、距離や角度関係など空間的位置関係から特徴量を算出し、上記特徴量が予め決定された閾値に達するか否かを判定する。もし閾値に到達した場合には、そのオブジェクトのグループに対して詳細なインタラクション認識処理を行う。
【0019】
監視センタシステム4では、画像解析システム3からの解析結果を受け取り、監視員6や警備員などのユーザに対する効果的な表示を行い、映像の一部又は全部を記録するほか、上記閾値に関する設定情報を画像解析システム3へ送信する。撮影システム2から送信された映像を受け付けてもよい。
【0020】
以下、撮影システム2、画像解析システム3、及び監視センタシステム4について説明する。
図2は、
図1に示す画像監視システムの全体構成を示す図である。
図2に示すように、撮影システム2は、監視対象エリア5(
図1)に設置された少なくとも一つカメラ部21を含み、撮像された映像は、画像解析システム3の入力部31へ順次入力される。カメラ部21は、監視を対象とするエリア全体(監視対象エリア5)を撮像できるように配置された監視カメラである。監視カメラの種類は、固定カメラ、パン・チルト・ズーム(PTZ)操作が可能なPTZカメラ、又はドローン搭載カメラ若しくはウェアラブルカメラ等の移動体用カメラ等、その形式を問わない。
【0021】
PTZカメラや移動体用カメラ等、画角が固定されないカメラを用いる際、特にインタラクション認識のために世界座標における三次元の情報を利用する種のモデルを利用する場合、カメラが移動することによる影響が及ばないようにする必要がある。例えば、カメラのキャリブレーションを予め実施して、オブジェクトの世界座標系における位置推定を行うなどの前処理を行うこと等で対処する。また、監視カメラによって取得した画像全体の領域に対して映像解析を行う必要は必ずしも無く、マスク処理によって一部の監視領域に限定することも、解析処理量の低減に効果的である。
【0022】
また、カメラ部21及び入力部31並びにカメラ部21及び監視センタシステム4は、有線通信及び/又は無線通信によって接続され、カメラ部21からフレーム画像を連続送信する。閾値算出及び/又はインタラクション認識が複数のフレーム画像の入力を前提とする時系列データ分析モデルを用いる場合、フレーム画像の連続送信のフレームレートは、各モデルの要求値以上であることが望ましい。ただし、フレームレートが要求値より低下した場合に生じる認識精度低下を許容できる場合、フレームレートは要求値を下回ってもよい。この場合、各モデルへの入力において、時系列データの内挿や外挿による補間など、精度低下を抑制する処理を行うことが好適である。また、カメラ部21及び画像解析システム3並びにカメラ部21及び監視センタシステム4は一対一の対応ではなくてもよい。複数のカメラ部21から一つの入力部31を有する画像解析システム3及び監視センタシステム4が映像データを受信してもよい。また、画像解析システム3が複数ある場合には、一つのカメラ部21からの映像に対して映像解析の分散処理を行ってもよい。画像解析システム3が複数のカメラ部21からの映像データを処理する多重プロセスが実行される場合においても、各プロセスが必要とする各カメラ部21からのフレームレートは、上述の制約に準ずる。
【0023】
なお、カメラ部21は、後述する画像解析システム3の一部又は全部の機能を搭載してもよい。例えば、カメラ部21は、少なくとも一つの演算装置及び少なくとも一つの記憶装置を含み、インタラクション認識等の処理についてエッジ処理を行い、要監視オブジェクトに関する情報のみを画像解析システム3へ伝送するなどの形態により、画像解析システム3の処理負荷を低減させることが可能になる。
【0024】
図2に示すように、画像解析システム3は、入力部31、位置検出部32、算出部33、判定部34、インタラクション認識部35、出力制御部36、及び記憶部37を備える。なお、本実施例では、画像解析システム3は、運用施設内のサーバへ構築するようなオンプレミス型のシステムに限定されるものではなく、クラウドサービスを活用するなど施設外部サーバに構築されてもよい。
【0025】
入力部31は、カメラ部21から映像の入力を受け付け、位置検出部32へ映像データを送信する。なお、解析対象とする映像は、カメラ部21から直接入力された映像ではなく、別途保存されたレコーダ内の映像でもよく、その映像の保存場所は問わない。位置検出部32では、入力された画像(映像データ)に対して、学習済みの物体検知モデルを用いてオブジェクト検出を行い、人物や物体のバウンディングボックスを取得する。算出部33では、取得したバウンディングボックスの情報を用いて、距離及び/又は角度に関する特徴量を算出する。判定部34では、算出部33で算出された特徴量と、記憶部37に保持された閾値とを照合し、インタラクション認識部35においてオブジェクト間のインタラクション認識を行うか否かを判定する。判定部34で閾値に達したオブジェクトグループについては、要監視候補としてインタラクション認識部35へ情報が送信される。一方で、閾値に達しなかったオブジェクトグループについては、非要監視候補としてインタラクション認識部35へ送信されない。インタラクション認識部35では、位置検出部32で得られたバウンディングボックスによる位置情報を利用して、又は位置情報に付加して、追加の画像解析によって得られた他の情報を利用して、詳細なインタラクション認識処理を行う。出力制御部36では、インタラクション認識の結果に応じて、監視センタシステム4へ送信する情報を制御する。記憶部37は、判定部34において比較対象の閾値となる距離及び/又は角度に関する特徴量を保持する。
【0026】
監視センタシステム4は、記録部41、画像表示部42、及び管理制御部43を備える。記録部41は、画像解析システム3による映像解析によって得られた要監視オブジェクトの画像情報や移動軌跡、当該人物が発生させた事象、属性、発生エリア、発生時刻等の情報をデータベースとして保持する機能を有する。画像表示部42では、要監視オブジェクトの現在時刻における行動や、事象発生時のフレームの一部又は全部に関する情報を表示する。また、事象の検出時点のフレーム画像若しくは検出時点を含む映像、又は、事象の人物の現在位置を示す画像若しくは映像を表示する。カメラ部21から送信された画像を表示することもできる。管理制御部43では、画像解析システム3を構成する判定部34で用いる閾値を記憶部37へ保存するため、ユーザによって設定情報を入力する機能を有する。
【0027】
図3は、本実施例に係る画像監視システムのハードウェア構成を示す図である。
図3に示すように、カメラユニット71がネットワークを介してコンピュータ72に接続されている。コンピュータ72は、ネットワークを介してコンピュータ73と通信可能である。同様に、コンピュータ73は、ネットワークを介してコンピュータ74と通信可能である。コンピュータ72、コンピュータ73、及びコンピュータ74は、それぞれ少なくとも一つの演算装置及び少なくとも一つの記憶装置を有する。ただし、この構成に限られるものではない。例えば、カメラユニット71は、コンピュータ72及びコンピュータ73を介さずにコンピュータ74と直接通信できる構成であってもよい。
【0028】
カメラユニット71は、例えば、撮影システム2又はカメラ部21として機能し、コンピュータ72は、画像解析システム3として機能する。コンピュータ73は、例えば、監視センタシステム4として機能する。コンピュータ74は、例えば、現場監視員などが使用する端末として機能する。
【0029】
カメラユニット71は、監視領域に少なくとも一つ設置され、映像データをコンピュータ72に適宜送信する。コンピュータ72は、演算装置としてのCPU(Central Processing Unit)721、主記憶装置としてのRAM(Random Access Memory)722、補助記憶装置としてのHDD(Hard Disk Drive)723又はSSD(Solid State Drive)、及び通信インタフェース(IF)724等を備える。必要に応じて、演算装置としてGPU(Graphical Processing Unit)を備える。コンピュータ72は、各種プログラムをHDD723から読み出してRAM722に展開し、CPU721又はGPUによって実行することで、後述する画像解析システム3を構成する、入力部31、位置検出部32、算出部33、判定部34、インタラクション認識部35、出力制御部36、及び記憶部37を実現する。また、コンピュータ72は、所定の通信インタフェース724を介してカメラユニット71及びコンピュータ73と通信する。なお、図示を省略しているが、キーボードやディスプレイなどの入出力装置も所定のIFを介してコンピュータ72に接続されてよい。
コンピュータ73は、演算装置としてのCPU731、主記憶装置としてのRAM732、補助記憶装置としてのHDD733、及び通信インタフェース734を備える。コンピュータ73は、各種プログラムをHDD733から読み出してRAM732に展開し、CPU731によって実行することで、監視センタシステム4を構成する、記録部41、画像表示部42、及び管理制御部43を実現する。また、コンピュータ73は、所定の通信インタフェース(IF)734を介してコンピュータ72と接続される。なお、図示しないが、キーボードやディスプレイ等の入出力装置も所定のIFを介してコンピュータ73に接続する構成としてもよい。
【0030】
コンピュータ74は、演算装置としてのCPU741、主記憶装置としてのRAM742、補助記憶装置としてのHDD743、及び通信インタフェース744を備える。コンピュータ74は、各種プログラムをHDD743から読み出してRAM742に展開し、CPU741によって実行することで、現場監視員などユーザが使用する端末としての機能を実現する。なお、図示しないが、キーボードやディスプレイなどの入出力装置も所定のIFを介してコンピュータ74に接続されてよい。上記入出力装置は、現場監視員などユーザからの入力を受け取り、さらに、監視結果をユーザに提示する。コンピュータ74に代えて、コンピュータ73に直接接続された入出力装置が使用されてもよい。なお、画像解析システム3の一部又は全部の処理は、撮影システム2(監視カメラとも称する)側で処理されてもよい。その場合、撮影システム2は、カメラユニット71及びコンピュータ72の一部若しくは全部のハードウェアを有する構成となる。
【0031】
図4は、本実施例に係る画像監視システムの機能ブロック図である。
図4を参照して、画像解析システム3の詳細を説明する。以下、画像解析システム3を構成する入力部31、位置検出部32、算出部33、判定部34、インタラクション認識部35、出力制御部36、及び記憶部37について説明する。
【0032】
入力部31は、少なくとも一つカメラ部21から映像を順次受け付け、後段の位置検出部32へ映像を出力する。受信する映像のフレームレートが、後段処理となるオブジェクトの位置検出やインタラクション認識等の処理と比較して大きい場合、画像解析システム3の解析量低減のため、後段処理に必要十分なフレームレートに間引く処理を行っても良い。
【0033】
位置検出部32は、入力された画像に対して、学習済みの物体検知モデルを用いてオブジェクト検出を行い、人物や物体のバウンディングボックスを取得する。バウンディングボックスは画像の縦及び横方向に関する二次元の情報でも良いが、後段処理において距離及び/又は角度といった位置関係を正確に取得するために、世界座標系における三次元の情報であることが望ましい。オブジェクト検出には、HOG(Histogram of Oriented Gradients)やYOLO(You Only Look Once)等の手法を用いる場合や、骨格推定技術によって推定されたオブジェクトごとのキーポイントから、その外接矩形を一つのオブジェクト領域として用いる手法等があり、本実施例ではいずれの手法を用いてもい。また、二次元で取得したキーポイントの三次元情報を得るためには、二次元で取得したキーポイント群を入力として三次元座標を推定する手法や、各キーポイントに対する奥行推定を用いる手法がある。
【0034】
算出部33は、位置検出部32で取得したバウンディングボックスの情報を用いて、距離及び/又は角度に関する特徴量を算出する。例えば、二つのオブジェクトのインタラクションを認識させるタスクの場合、距離を求める場合には、両バウンディングボックスの中心間の座標間距離や、両オブジェクトの任意のキーポイント間の距離を算出する。角度を求める場合には、上述と同様に両バウンディングボックスの中心間や、両オブジェクトの任意のキーポイント間の角度を算出する。キーポイントの算出には、オブジェクトの骨格推定法などを活用する。
【0035】
判定部34では、算出部33で算出された特徴量と、記憶部37に保持された閾値とを照合し、インタラクション認識部35においてオブジェクト間のインタラクション認識を行うか否かを判定する。記憶部37では、例えば、人物とスーツケースなど特定のオブジェクト間のバウンディングボックスの中心間距離が100cm以下又は人物の身長比で0.5以下のように、記憶部37に設定を保存しておく。角度関係であれば、例えば、画像上において人物とスーツケースの中心座標間の関係を比較する際に、スーツケースとの角度関係が人物を中心とした時に5/4パイラジアンから7/4パイラジアンを検出の範囲とするというように設定を保存する。これらの設定に該当した場合、そのオブジェクトグループは要監視候補として、画像や位置情報、算出部33において算出した距離及び/又は角度に関する情報と共に、インタラクション認識部35に送信される。一方で、設定に非該当となったオブジェクトグループについては、非要監視候補として扱われ、インタラクション認識部35へ送信されない。なお、画像ごとに対して判定を行うのではなく、複数の画像を用いて判定を行うことも認識精度の安定化及び計算量の削減に対して好適である。画像ごとに判定処理を行った場合、物体検出モデルの性能やオクルージョンに影響され、位置検出が正常に行われない可能性があるほか、冗長なインタラクション認識処理を生じさせる可能性がある。これに対して、例えば、連続する数フレームのうち任意の画像一枚を選択して判定を行う、又は、全フレーム画像に対して判定処理を行うものの、そのうち所定の割合で要監視候補とし判定された場合に、その画像又は前後のフレームの情報を送信する方法が挙げられる。
【0036】
インタラクション認識部35は、オブジェクトグループのインタラクションの有無やその種別を判定する。位置検出部32で得られたバウンディングボックスによる位置情報を利用して、又は位置情報に付加して、追加の画像解析によって得られた他の情報を利用して、詳細なインタラクション認識処理を行う。例えば、算出部33においてオブジェクトのキーポイントを算出していない場合には、インタラクション認識部35で新たに算出し、認識処理に活用することができる。画像情報やバウンディングボックス、キーポイントの位置情報を活用した認識を行う場合、オブジェクトの三次元的位置関係や移動速度、オブジェクト間の相対距離、オブジェクト内外の任意のキーポイント間の相対距離等に基づく特徴量を算出し、SVM(Support Vector Machine)、決定木、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、又はGCN(Graph Convolutional Network)等を学習させる方法が挙げられる。認識モデルの構築にあたっては、認識させるインタラクションが、時間変化を捉えることが重要な行動である場合、時空間的な変化を解析することが可能な手法を選択することが好適である。例えば、時間方向の畳み込み処理を用いる手法や、RNNのように過去の特徴量に従いつつ現在の特徴量を処理できる手法などが挙げられる。これらの認識モデルは、単独で用いられるだけではなく、複合的に用いられてもよい。インタラクション認識部35において特定のインタラクションが発生したと判定された要監視候補は、要監視オブジェクトとして設定される。なお、前後の画像フレーム間の差分から算出される単位時間あたりのオブジェクトの移動量を表す特徴量、オブジェクトの種別を表す特徴量、矩形領域の位置に関する特徴量、及び画像から得られる特徴量のうち少なくともいずれか一つを特徴量として算出してもよい。
出力制御部36は、オブジェクト周辺の画像やインタラクション種別等の情報を集約し、監視センタシステム4へ情報を送信する。
【0037】
図5は、
図4に示す判定部の説明図である。
図5に示すようにカメラ部21が撮影している監視対象エリア5の中に、人物51、人物52、人物53が撮影され、物体として脚立54が撮影されている。ここでは、人物が脚立54上で作業しているかという人物と脚立54間のインタラクションを認識させることを考える。また、要監視候補の算出にあたって、記憶部37に、指定された脚立54を中心とした距離に関する閾値としてエリア56が指定されているものとする。また、角度関係が記憶部37に予め指定されているものとする。
【0038】
人物51と脚立54のバウンディングボックスの中心間の関係性511は、人と特定物体が一定の距離内であり、かつ角度関係が所定の範囲内であるものとする。この時、判定部34において、このオブジェクトグループは要監視候補として決定され、後段のインタラクション認識部35へ関連情報が送信される。
一方、人物52と脚立54のバウンディングボックスの中心間の関係性512は、人と特定物体が一定の距離内であり、かつ角度関係が所定の範囲外であるものとする。この時、判定部34において、このオブジェクトグループは非要監視候補として決定され、後段のインタラクション認識部35へ情報は送信されない。
【0039】
また、人物53と脚立54のバウンディングボックスの中心間の関係性513は、人と特定物体が一定の距離外であり、かつ角度関係が所定の範囲外であるものとする。この時、関係性512と同様に、判定部34において、このオブジェクトグループは非要監視候補として決定され、後段のインタラクション認識部35へ情報は送信されない。
【0040】
次に、
図6に示すフローチャートを参照して、本実施例に係る画像監視システム1を構成する画像解析システム3の処理の流れを説明する。なお、監視センタシステム4の管理者側において、判定部34で用いる距離及び/又は角度に関する閾値が記憶部41へ予めに設定されているものとする。
【0041】
図6に示すように、ステップS1において、撮影システム2から画像解析システム3へ映像が入力される。次に、ステップS2において、画像解析システム3を構成する位置検出部32によりオブジェクト検出が行われる。仮に監視対象エリア5内において認識対象のオブジェクトグループが少なくとも一つ検出された場合(ステップS3:YES)、ステップS4からステップS9では、検出されたオブジェクトグループごとに処理を行う。一方、ステップS3において認識対象のオブジェクトグループが検出されなかった場合は、次のフレーム画像の読み込みのためステップS1へ戻る。
【0042】
ステップS5では、画像解析システム3を構成する算出部33において、距離及び/又は角度に関する特徴量を算出する。次に、ステップS6では、画像解析システム3を構成する判定部34において、算出された特徴量と記憶部37へ保持された閾値とを照合し、閾値に達するか否かを判定する(ステップS7)。判定結果が閾値に到達した場合、ステップS8においてインタラクション認識処理を行う。一方、閾値に到達しなかった場合(S7:NO)、別のオブジェクトグループに対して、再びステップS5から処理を行う。最後に、ステップS10では、監視センタシステム4への出力制御として、出力制御部36によってオブジェクトのIDや要監視オブジェクトの画像座標等を監視センタシステム4へ送信する処理を行う。ステップS10の後は、次のフレーム画像の読み込みのためステップS1へ戻る。
なお、
図6中に示したフローの処理は、必ずしも単一のプロセスで処理される必要はなく、演算効率の向上のために、複数のプロセスを用いて処理されてもよい。
【0043】
図7は、本実施例における特徴量の閾値条件の設定画面例を示す図である。
図7は、本実施例における監視センタシステム4の管理制御部43によって表示されるGUI(Graphical User Interface)であり、ユーザが閾値の設定を行うことができる。この設定情報は、記憶部37へ保持され、判定部34で利用される。
【0044】
図7では、認識対象のインタラクションのリストと、それらの種別ごとに距離条件や角度条件、また、両条件の接続関係に関する設定画面が表示されている。例えば、本表示画面の領域81においては、脚立の不適切利用のインタラクションを認識させるための事前の判定条件として、距離条件と角度条件がそれぞれ「あり」として指定されている。この図の例では、距離条件欄には、物体のバウンディングボックスの大きさから算出される縦、横、又は対角方向の長さの基準に対して、人物がその300%の距離以内に位置していれば、閾値条件を満たすことを示す。角度条件欄では、物体を基点とした人物との位置関係について、0.25パイラジアンから0.75パイラジアンの範囲に人物が位置していれば、閾値条件を満たすことを示す。また、その右列の接続関係については、距離条件と角度条件をAnd/Orいずれの接続関係とするかを指定する。領域81の例では、Andとして接続されており、距離条件と角度条件のいずれも条件を満たした場合に、閾値条件を満たすように設定することができる。
【0045】
また、
図7に示すように領域82では、スーツケースの把持のインタラクションを認識させるための事前の判定条件として、距離条件のみが指定されている状態を示している。距離条件では、スーツケースが人物比で50%の距離以内に位置していれば、閾値条件を満たすことを示す。一方、角度条件は指定されておらず、それに伴い、右列の接続欄も入力が求められない仕様が示されている。
【0046】
また、
図7に示すように領域83では、クレーンで吊り下げられた物体下への潜り込みのインタラクションを認識させるための事前の判定条件として、角度条件のみが指定されている状態を示している。角度条件では、物体を基点とした人物との位置関係について、1.25パイラジアンから1.75パイラジアンの範囲に人物が位置していれば、閾値条件を満たすことを示す。一方、距離条件は指定されておらず、それに伴い、右列の接続欄も入力が求められない仕様が示されている。
【0047】
なお、
図7においては、距離条件はオブジェクトの大きさを基準とした割合、角度条件はオブジェクトを基点としたパイラジアンの単位で設定する例を示したが、設定方法はこれに限られるものではない。例えば、距離条件は任意のオブジェクトを基準として周囲「3m」のように条件を設定する構成としてもよい。
また、
図7においては、画像解析システム3を構成する位置検出部32においてオブジェクトのバウンディングボックスのみを取得する例を示したが、位置検出部32においてオブジェクトのキーポイントが取得されている場合、少なくとも一つのキーポイントに対する距離条件と角度条件を設定できるようにしても良い。
【0048】
このように、各種条件によってインタラクション認識を行うかどうかの判定を前処理として導入することで、インタラクション認識の推論回数を削減し、映像解析サーバの処理負荷を低減する。また、明らかに異なる空間的位置関係のオブジェクトグループを認識対象から除外することで、インタラクションの認識精度を向上させる。
【0049】
以上に説明したように、画像監視システム1は、画像解析システム3の処理負荷の低減及び認識の高精度化を目的として、行動認識処理を多段化し、前段処理の結果に応じて、オブジェクトとその周辺オブジェクトとのインタラクションを推論するか否かを決定するものである。
【0050】
以上の通り本実施例によれば、判定に必要な処理を十分に抑えつつ、オブジェクト間の高精度なインタラクション認識を可能とする画像監視システム及び画像監視方法を提供することができる。
また、本実施例によれば、表示画面内で検知されたオブジェクトに対して、その周辺オブジェクトとのインタラクションの認識を行うか否かを決定するために、まず、対象オブジェクトとその周辺オブジェクト間について距離や角度関係など空間的位置関係から距離や角度に関する特徴量を算出する。次に、特徴量が予め決定された閾値に達するか否かの判定を行う。仮に閾値に到達した場合には、オブジェクトのグループに対して詳細なインタラクション認識処理を行う。これにより、表示画面内に多くのオブジェクトが存在する場合であっても、インタラクションが発生している可能性がある全候補グループに対する詳細なインタラクションの推論回数を削減することが可能となり、画像監視システム1の処理負荷を低減する。また、このように処理を多段化することで総合的な計算量を抑制するだけではなく、インタラクションが発生していない可能性があるグループを予め除外し、インタラクション発生可能性の高いグループに対してのみ詳細な推論処理を行うことができるため、認識精度の向上に繋がる。
上述の実施例1においては、画像監視システム1を構成する画像解析システム3の処理負荷の低減及び認識の高精度化を目的としており、インタラクション種別ごとの監視重要度は一様であったことから、複数の要監視オブジェクトが出現した際に、どのオブジェクトグループが重要なのか決定することは監視員6のその場の判断に任せられるため、監視員6によって対応順に差が生じる可能性がある。そこで、本実施例では、インタラクション種別の観点で監視重要度を設定可能とすることで、表示画面の判読性を高め、効果的な映像監視を促す。
設定者は、領域84に示すプルダウン欄を押下し、重要度レベルの列ごとに、リストから登録されているインタラクションを選択することができる。選択したインタラクション種別を領域85の「追加」ボタンを押下し、下段の「登録済みのインタラクション」リストへ追加する。追加後、登録済みのインタラクションを削除するためには、削除を所望するインタラクションに対応するチェックボックスを押下し、表示画面の下側の「登録した項目を削除」ボタンを押下することで削除する。また、表示画面の下側の「設定を保存」ボタンを押下することで、本領域で設定された情報は記憶部37へ反映される。
なお、監視重要度はインタラクション種別に限定されるものではなく、インタラクションが発生した監視対象エリア5や実行者の属性などの観点で設定されても良い。例えば、インタラクションの発生場所に関して、コンコースの重要度を3点(高)、駐車場の重要度を1点(低)のように設定し、発生場所と行動種別の和や積によって、監視重要度を計算することができる。
なお、表示画面9に表示されている人物は、同一画面に撮影される他の人物との識別を容易にするため、人物の検出枠の重畳又は画像のトリミングなどの画像処理を施して表示することが望ましい。また、画面サイズの制約上、複数の事象が発生している場合には、画面をスクロールできるようにしてもよい。
事象は時間経過に従って次々と発生することが想定されることから、表示画面9の判読性を高めるため、検知時刻から所定の時間内にユーザによる処理がされなかった事象については、表示から自動で削除してもよい。ただし、特に重要事象に関しては、事象の検知から一定時間経過後又は事象の削除前に、警告を発するなどによってユーザの見落としを軽減するための処理が行われてもよい。
なお、要監視オブジェクトの情報の保存先は、クラウドや監視センタシステム4内に用意したストレージサーバ等、その保存先を問わない。要監視オブジェクトにオクルージョンが発生した場合や、要監視オブジェクトが監視対象エリア5外にフレームアウトした際は、最後に捕捉された場所や時間に関する情報を提示することも好適である。
以上のような検索機能を設けることによって、監視センタシステム4を構成する画像表示部42による表示出力から削除された事象であったとしても、記録部41から効率的に事象を検索することができる。また、類似事例の検索やその発生件数を確認することができるため、今後発生することが予想される事象への対応策や防止策を講じるために役立てることができる。
以上の通り本実施例によれば、画像監視システム1は、監視映像からインタラクションを検出し、インタラクション種別ごとの監視重要度を設定することで、発生事象の効果的な把握を行うことができる。また、検索部を新たに用意することで、類似事例の検索やその発生件数の把握、今後の対応策や防止策を講じるために役立てることができる。
なお、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施例の構成を加えることも可能である。また、上記の各構成、機能、処理部、処理手法等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。