IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特開-異常検知システム及び方法 図1
  • 特開-異常検知システム及び方法 図2
  • 特開-異常検知システム及び方法 図3
  • 特開-異常検知システム及び方法 図4
  • 特開-異常検知システム及び方法 図5
  • 特開-異常検知システム及び方法 図6A
  • 特開-異常検知システム及び方法 図6B
  • 特開-異常検知システム及び方法 図7
  • 特開-異常検知システム及び方法 図8
  • 特開-異常検知システム及び方法 図9
  • 特開-異常検知システム及び方法 図10
  • 特開-異常検知システム及び方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023062386
(43)【公開日】2023-05-08
(54)【発明の名称】異常検知システム及び方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230426BHJP
   H04N 7/18 20060101ALI20230426BHJP
   G08B 25/00 20060101ALI20230426BHJP
【FI】
G06T7/00 300F
H04N7/18 D
H04N7/18 K
G08B25/00 510M
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021172326
(22)【出願日】2021-10-21
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】孔 全
(72)【発明者】
【氏名】森田 健一
(72)【発明者】
【氏名】吉永 智明
【テーマコード(参考)】
5C054
5C087
5L096
【Fターム(参考)】
5C054CA04
5C054CC02
5C054FC12
5C054FE09
5C054HA19
5C087AA02
5C087AA09
5C087AA10
5C087AA19
5C087DD03
5C087DD04
5C087DD05
5C087DD31
5C087EE20
5C087FF01
5C087FF02
5C087FF04
5C087GG02
5L096BA02
5L096CA04
5L096DA03
5L096EA35
5L096FA72
5L096FA77
5L096GA51
5L096GA59
5L096JA03
5L096JA11
(57)【要約】
【課題】正常事象及び異常事象のいずれの事象の事前定義をすること無しに映像データから異常事象を検知しその検知の根拠を提示する。
【解決手段】システムは、それぞれ連続した時区間に属し二つ以上のフレームで構成された複数のスニプトを映像データから生成し、時空間で構造化されたスニプトを表し当該スニプトにおけるフレーム毎の情報を含んだローカル時空間情報Lを各スニプトについて構築し、時空間で構造化された映像データを表しスニプト毎の情報を含んだ情報であるグローバル時空間情報Gを映像データについて構築し、各スニプトの情報Lの特徴量FLを抽出し、情報Gの特徴量FGを抽出し、異常事象フレームを含んでいる可能性が最も高いスニプトを情報G及び特徴量FGを基に推定し、当該推定されたスニプトの情報L及び特徴量FLを基に当該スニプトから異常事象フレームを推定し、当該フレームを含む異常検知結果を表示する。
【選択図】図1
【特許請求の範囲】
【請求項1】
それぞれ連続した時区間に属し二つ以上のフレームで構成された複数のスニプトを複数のフレームで構成された映像データから生成するスニプト生成部と、
時空間で構造化されたスニプトを表し当該スニプトにおけるフレーム毎の情報を含んだ情報であるローカル時空間情報をスニプトからサンプリングされた各フレームを基に前記複数のスニプトの各々について構築することと、時空間で構造化された映像データを表しスニプト毎の情報を含んだ情報であるグローバル時空間情報を前記複数のスニプトを基に前記映像データについて構築することを含む時空間構造化処理を行う構造化処理部と、
前記複数のスニプトの各々について前記ローカル時空間情報の特徴量であるローカル特徴量を抽出し、前記映像データについて前記グローバル時空間情報の特徴量であるグローバル特徴量を抽出する特徴量抽出部と、
異常事象を表示したフレームである異常事象フレームを含んでいる可能性が最も高いスニプトを前記グローバル時空間情報及び前記グローバル特徴量を基に推定することと、当該推定されたスニプトの前記ローカル時空間情報及び前記ローカル特徴量を基に当該スニプトから異常事象フレームを推定することと、当該異常事象フレームを含む異常検知結果を表示することとを含んだ処理である異常検知表示処理を行う異常検知表示処理部と
を備える異常検知システム。
【請求項2】
前記複数のスニプトの各々についてのローカル特徴量と前記映像データについてのグローバル特徴量とを基に、前記異常事象フレームを前記映像データが含んでいる可能性の高さを表す異常スコアを推定する異常推定部、
を更に備え、
前記異常検知表示処理部は、前記異常スコアがその閾値を超えている場合に、前記異常検知表示処理を行う、
請求項1に記載の異常検知システム。
【請求項3】
前記複数のスニプトの各々について、
前記ローカル時空間情報は、当該スニプトからサンプリングされたフレーム毎に構築されたグラフであるローカル空間グラフの時系列としてのローカル時空間グラフであり、
各ローカル空間グラフについて、当該ローカル空間グラフのノードと、当該ノードとの関係が所定の条件を満たすノードが次のローカル空間グラフにある場合、前記ローカル時空間グラフは、それらのノード間の関連付けを含み、
当該所定の条件は、類似度がその閾値を超えており、且つ、最も類似度が高いことであり、
当該スニプトからサンプリングされた各フレームについて、
前記ローカル空間グラフにおけるノードは、当該フレームから検知されたオブジェクトに対応し、当該オブジェクトの特徴量を表し、
前記ローカル空間グラフにおけるエッジは、当該エッジの両端のノードに対応した二つのオブジェクトのエリアの重なり具合を重みとし当該重なり具合がその閾値を超えていることを表し、
前記映像データについて、
前記グローバル時空間情報は、前記映像データについて構築されたグラフであるグローバル時空間グラフであり、
前記グローバル時空間グラフにおけるノードは、スニプトに対応し、当該スニプトの特徴量を表し、
前記グローバル時空間グラフにおけるエッジは、当該エッジの両端のノードとしての二つのスニプト特徴量の類似度を重みとし当該類似度がその閾値を超えていることを表す、
請求項2に記載の異常検知システム。
【請求項4】
表示される前記異常検知結果が、前記推定された異常スコアと、前記推定されたスニプトの少なくも一部と、のうちの少なくとも一つを含む、
請求項2に記載の異常検知システム。
【請求項5】
前記映像データについて、前記グローバル時空間情報は、前記映像データについて構築されたグラフであるグローバル時空間グラフであり、
前記グローバル時空間グラフにおけるノードは、スニプトに対応し、当該スニプトの特徴量を表し、
前記グローバル時空間グラフにおけるエッジは、当該エッジの両端のノードとしての二つのスニプト特徴量の類似度を重みとし当該類似度がその閾値を超えていることを表す、
請求項1に記載の異常検知システム。
【請求項6】
前記異常検知表示処理部は、前記異常検知表示処理において、前記グローバル時空間グラフにおける各ノードについて前記グローバル特徴量への寄与度を表すサリエンシーマップを生成し、最も寄与度の高いノードに対応したスニプトを、異常事象フレームを含んでいる可能性が最も高いスニプトと推定する、
請求項5に記載の異常検知システム。
【請求項7】
前記複数のスニプトの各々について、
前記ローカル時空間情報は、当該スニプトからサンプリングされたフレーム毎に構築されたグラフであるローカル空間グラフの時系列としてのローカル時空間グラフであり、
当該スニプトからサンプリングされた各フレームについて、
前記ローカル空間グラフにおけるノードは、当該フレームから検知されたオブジェクトに対応し、当該オブジェクトの特徴量を表し、
前記ローカル空間グラフにおけるエッジは、当該エッジの両端のノードに対応した二つのオブジェクトのエリアの重なり具合を重みとし当該重なり具合がその閾値を超えていることを表す、
請求項1に記載の異常検知システム。
【請求項8】
前記異常検知表示処理部は、前記異常検知表示処理において、
前記推定されたスニプトからサンプリングされたフレーム毎に、
当該フレームの特徴量マップを基に当該フレームにおける第1のエリアを特定し、
当該フレームの前記ローカル空間グラフにおける各ノードについて前記ローカル特徴量への寄与度を表すサリエンシーマップを生成し、当該サリエンシーマップを基に、ノード毎に当該ノードに対応したオブジェクトのエリアである第2のエリアを特定し、
前記第1のエリアとノード毎の第2エリアとが重なったエリアの少なくとも一部を有するエリアを異常エリアとして推定し、
フレーム毎の異常エリアとノード毎の寄与度とを基に異常事象フレームを推定する、
請求項7に記載の異常検知システム。
【請求項9】
前記異常検知表示処理部は、前記異常検知表示処理において、寄与度の統計量がその閾値を超えているオブジェクトを特定し、当該オブジェクトのうち最も寄与度が高いオブジェクトである該当オブジェクトが映っているフレームを異常事象フレームとして推定し、
表示される前記異常検知結果が、前記推定された異常事象フレームのうちの前記該当オブジェクトのエリアを表す情報を含む、
請求項7に記載の異常検知システム。
【請求項10】
コンピュータが、それぞれ連続した時区間に属し二つ以上のフレームで構成された複数のスニプトを複数のフレームで構成された映像データから生成し、
コンピュータが、時空間で構造化されたスニプトを表し当該スニプトにおけるフレーム毎の情報を含んだ情報であるローカル時空間情報を当該スニプトからサンプリングされた各フレームを基に前記複数のスニプトの各々について構築することと、時空間で構造化された映像データを表しスニプト毎の情報を含んだ情報であるグローバル時空間情報を前記複数のスニプトを基に前記映像データについて構築することを含む時空間構造化処理を行い、
コンピュータが、前記複数のスニプトの各々について前記ローカル時空間情報の特徴量であるローカル特徴量を抽出し、前記映像データについて前記グローバル時空間情報の特徴量であるグローバル特徴量を抽出し、
コンピュータが、異常事象を表示したフレームである異常事象フレームを含んでいる可能性が最も高いスニプトを前記グローバル時空間情報を基に推定することと、当該推定されたスニプトの前記ローカル時空間情報を基に当該スニプトから異常事象フレームを推定することと、当該異常事象フレームを含む異常検知結果を表示することとを含んだ処理である異常検知表示処理を行う、
異常検知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、映像内の異常事象を検知する技術に関する。
【背景技術】
【0002】
例えば、不特定多数の人間や車両が出入りする公共施設等の監視対象場所に設置された監視カメラにより撮影された映像を基に、発生している異常事象を検知し、その事象を警備員のような所定の者に通知する警備システムが利用されている。このような警備システムでは、監視カメラが撮影した映像に映っている多数のオブジェクト(例えば人物や物体)から異常な事象を発見する必要があり、警備員が映像を実際に見て判断することで異常事象の発見を行うことができる。
【0003】
しかし、こうした異常事象の判断は手間がかかり、ときに難易度も高く、警備員の専門的なスキルに高度に依存する。また、監視中には常に映像を見続ける必要があるため、警備員の負担も大きい。また、上記のように専門的なスキルを持った警備員の確保が困難なことが少なくないことがある。また、上記の警備システムでは映像を監視する警備員を常駐させる必要がある。
【0004】
そこで、これらの課題を解決するために、監視カメラの映像から異常事象を自動的に発見する技術が求められている。
【0005】
特許文献1に開示の技術は、映像を時空間上にパッチ化し、各パッチを、学習データである正常シーンと比較し、差分ありの場合に異常と判定する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】WO2020/079877A1
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1の技術では、正常シーンとの差分ありか否かの判定が異常か否かの判定であるため、学習データとして適切な正常シーンが登録されていない場合には異常との誤判定がされる可能が高い。また、学習データとして正常シーンの事前登録といった正常事象の事前定義が無いと異常事象の検知ができない。更に、異常事象の検知の根拠が提示されない。したがって、特許文献1の技術では、ユーザが異常事象を正確に判定できない可能性がある。
【0008】
そこで、本発明は、正常事象及び異常事象のいずれの事象の事前定義をすること無しに映像データから異常事象を検知しその検知の根拠を提示することを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る異常検知システムは、それぞれ連続した時区間に属し二つ以上のフレームで構成された複数のスニプトを複数のフレームで構成された映像データから生成する。当該システムが、時空間で構造化されたスニプトを表し当該スニプトにおけるフレーム毎の情報を含んだ情報であるローカル時空間情報を当該スニプトからサンプリングされた各フレームを基に複数のスニプトの各々について構築することと、時空間で構造化された映像データを表しスニプト毎の情報を含んだ情報であるグローバル時空間情報を複数のスニプトを基に映像データについて構築することを含む時空間構造化処理を行う。当該システムが、複数のスニプトの各々についてローカル時空間情報の特徴量であるローカル特徴量を抽出し、映像データについてグローバル時空間情報の特徴量であるグローバル特徴量を抽出する。当該システムが、異常事象を表示したフレームである異常事象フレームを含んでいる可能性が最も高いスニプトをグローバル時空間情報及びグローバル特徴量を基に推定することと、当該推定されたスニプトのローカル時空間情報及びローカル特徴量を基に当該スニプトから異常事象フレームを推定することと、当該異常事象フレームを含む異常検知結果を表示することとを含んだ処理である異常検知表示処理を行う。
【発明の効果】
【0010】
本発明によれば、正常事象及び異常事象のいずれの事象の事前定義をすること無しに映像データから異常事象を検知しその検知の根拠を提示することができる。
【図面の簡単な説明】
【0011】
図1】本発明の一実施形態に係る異常検知システムの構成を示すブロック図である。
図2】異常検知システムの処理フローを示すフローチャートである。
図3】構造化処理部と特徴量抽出部の構成を示すブロック図である。
図4】グローバル時空間グラフの構築の例を示す図である。
図5】ローカル時空間グラフの構築を示すブロック図である。
図6A】ローカル空間グラフの構築の例の一部を示す図である。
図6B】ローカル時空間グラフの構築の例を示す図である。
図7】区間推定部の構成を示すブロック図である。
図8】区間推定の例を示す図である。
図9】エリア推定部の構成を示すブロック図である。
図10】エリア推定の例を示す図である。
図11】システムUIの例を示す図である。
【発明を実施するための形態】
【0012】
以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
【0013】
また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
【0014】
また、以下の説明では、「永続記憶装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)でよく、具体的には、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、NVMe(Non-Volatile Memory Express)ドライブ、又は、SCM(Storage Class Memory)でよい。
【0015】
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。
【0016】
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスでよいが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路(例えばFPGA(Field-Programmable Gate Array)、CPLD(Complex Programmable Logic Device)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。
【0017】
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
【0018】
また、以下の説明では、「xxxDB」(「DB」はデータベースの略)といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし(例えば、構造化データでもよいし非構造化データでもよいし)、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「xxxDB」を「xxx情報」と言うことができる。また、以下の説明において、各DBの構成は一例であり、一つのDBは、二つ以上のDBに分割されてもよいし、二つ以上のDBの全部又は一部が一つのDBであってもよい。
【0019】
また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号のうちの共通符号を使用し、同種の要素を区別する場合は、参照符号を使用することがある。
【0020】
以下、本発明の一実施形態について説明する。
【0021】
図1は、本発明の一実施形態に係る異常検知システムの構成を示すブロック図である。
【0022】
異常検知システム100は、監視カメラにより所定の監視対象場所を撮影して得られた映像の映像データに基づいて、監視対象場所において発生する異常事象を検知するシステムである。異常事象としては、例えば、車両追突事故、強盗、暴力振る舞い、公共施設への破壊行為、群衆暴動、作業現場での危険行為や事故、又は火事など挙げられる。本実施形態では、そのような異常事象が(それに加えて正常事象も)異常検知システム100に事前定義されていなくても異常検知システム100が映像データから異常事象を検知することができる。なお、「映像データ」とは、所定のフレームレートで撮影された映像(動画像)のデータであり、時系列の複数のフレーム(静止画像)で構成されたデータである。
【0023】
異常検知システム100は、一つ以上の物理的な計算機で構成された物理的な計算機システムでもよいし、物理的な計算機システム(例えばクラウド基盤)に基づく論理的な計算機システム(例えばクラウドコンピューティングサービスシステム)でもよい。本実施形態では、異常検知システム100は、物理的な計算機システムでよく、インターフェース装置51、記憶装置52及びそれらに接続されたプロセッサ53を有してよい。異常検知システム100は、インターフェース装置51を介して、入出力コンソール60(例えば、遠隔の計算機、又は、タッチパネルのような入出力デバイス)と通信可能でよい。
【0024】
記憶装置52が、メモリを含み、グラフDB101及び特徴量DB102といった情報と、コンピュータプログラムとを記憶する。グラフDB101は、グラフを含んだDB(例えば、グラフ毎に、ノード毎の情報と、エッジ毎の情報とを含んだDB)である。特徴量DB102は、特徴量を含んだDB(例えば、グラフ毎の特徴量と、各グラフについてノード毎の特徴量とを含んだDB)である。記憶装置52には、後述する各種閾値が記憶されていてよい。
【0025】
プロセッサ53がコンピュータプログラムを実行することにより、映像取得部103、スニプト生成部104、構造化処理部105、特徴量抽出部106、異常推定部107及び異常検知表示処理部120が実現される。異常検知表示処理部120は、区間推定部111、エリア推定部110、対象計算部109及び表示制御部108を含む。異常検知システム100は、映像取得部103、スニプト生成部104、構造化処理部105、特徴量抽出部106、異常推定部107及び異常検知表示処理部120を備えたシステムでよい。
【0026】
図2は、異常検知システムの処理フローを示すフローチャートである。以下、図1及び図2を参照して、各機能と処理フローとを説明する(なお、図1の破線矢印の意味については、本実施形態の説明の後の総括において説明する)。
【0027】
映像取得部103は、監視カメラにより撮影された映像のデータを映像データソースから取得し、取得した映像データをスニプト生成部104に入力する(S201)。映像データソースは、監視カメラでもよいし、映像データが格納された記憶装置52又は外部記憶装置でもよい。映像データソースから映像データがインターフェース装置51を介して異常検知システム100に入力されてよい。
【0028】
スニプト生成部104が、複数のフレームで構成された映像データから複数のスニプトを生成する(S202)。「スニプト」とは、時区間に属し二つ以上のフレームで構成されたフレーム集合である。「スニプト」は、「映像クリップ」と呼ばれてもよい。
【0029】
構造化処理部105が、スニプト生成部104により生成された複数のスニプトの各々について当該スニプトにおける各フレームを基にローカル時空間グラフを構築することと、映像取得部103により取得された映像データの生成された複数のスニプトを基にグローバル時空間グラフを構築することである時空間構造化処理を行う(S203)。構造化処理部105が、構築されたそれらのグラフを表す情報をグラフDB101に格納する。各スニプトについて、ローカル時空間グラフが、時空間で構造化されたスニプトを表し当該スニプトにおけるフレーム毎の情報を含んだ情報であるローカル時空間情報の一例である。グローバル時空間グラフが、時空間で構造化された映像データを表しスニプト毎の情報を含んだ情報であるグローバル時空間情報の一例である。
【0030】
特徴量抽出部106が、スニプト生成部104により生成された複数のスニプトの各々についてローカル時空間グラフの特徴量であるローカル特徴量を抽出し、映像データについてグローバル時空間グラフの特徴量であるグローバル特徴量を抽出する(S204)。抽出されたそれぞれの特徴量は「構造化特徴量」と呼ばれてよい。特徴量抽出部106が、抽出された特徴量を表す情報を特徴量DB102に格納する。
【0031】
異常推定部107が、複数のスニプトの各々についてのローカル特徴量と映像データについてのグローバル特徴量とを基に、異常事象を表示したフレームである異常事象フレームを映像データが含んでいる可能性の高さを表す異常スコアを推定する(S205)。異常推定部107が、推定された異常スコアがスコア閾値を超えているか否かを判定する(S206)。S206の判定結果が偽の場合(S206:No)、S201で取得された映像データに異常事象が無いとの判定となり、当該映像データについて異常事象の有無の判定は終了する。
【0032】
S206の判定結果が真の場合(S206:Yes)、つまり、推定された異常スコアがスコア閾値を超えている場合、異常検知表示処理部120が、例えば異常推定部107から所定の入力を受けて、異常検知表示処理(S207~S210を含んだ処理)を行う。
【0033】
S207では、区間推定部111が、グラフDB101を参照し、異常スニプトを異常区間(異常事象が生じた時区間)としてグローバル時空間グラフ及びグローバル特徴量を基に推定する。「異常スニプト」とは、異常事象を表示したフレームである異常事象フレームを含んでいる可能性が最も高いスニプトである。
【0034】
S208では、エリア推定部110が、推定された異常スニプトのフレーム毎に、異常エリアを、異常スニプトのローカル時空間グラフにおける当該フレームに対応したローカル空間グラフと、異常スニプトのローカル特徴量とを基に推定する。
【0035】
S209では、対象計算部109が、フレーム毎の異常エリアを基に、異常事象フレームと当該フレームにおける対象エリアとを推定する。
【0036】
S210では、表示制御部108が、当該異常事象フレーム112と対象エリア114(図1参照)とを含む異常検知結果を、入出力コンソール60に表示する。
【0037】
S207~S210の処理において、種々のグラフ及び特徴量は、グラフDB101及び特徴量DB102から特定される。それに代えて、少なくとも一つのグラフ及び少なくとも一つの特徴量が、S207~S210の処理において構築又は抽出されてもよい。
【0038】
以下、種々の機能及び処理を詳細に説明する。
【0039】
<スニプト生成>
【0040】
スニプト生成部104は、入力時刻Tのフレームを基準に時刻(T-Δt)のフレームから時刻(T+Δt)までのフレームといった複数のフレーム(時刻Tのフレームを含む)を抽出し、その複数のフレームを一つのスニプトとしてメモリ上に保存する。スニプト生成部104は、スニプトの生成の都度に、T=T+αとし、上記のスニプト生成を繰り返す。すなわち、スニプト生成部104は、スニプトの生成の都度に、時刻Tから時刻T+α(ステップサイズとしてのフレーム数分の時間)へ時刻を時間方向上スライディングし、α単位の間隔で映像の最後まで複数のスニプトの生成(抽出)を行う。スニプト生成部104は、生成された複数のスニプトを、図3に示すように構造化処理部105に入力する。
【0041】
<構造化処理>
【0042】
構造化処理部105は、図3に示すように、グローバル構築部301と、ローカル構築部302とを有する。グローバル構築部301は、入力された複数のスニプトを基にグローバル時空間グラフを構築する。ローカル構築部302は、入力された複数のスニプトを基にローカル時空間グラフを構築する。構造化処理は、グローバル時空間グラフの構築と、ローカル時空間グラフの構築とを含む。
【0043】
<<グローバル時空間グラフの構築>>
【0044】
グローバル構築部301は、複数のスニプトに基づいて、スニプト間の類似性でスニプト間の関係を表すグラフであるグローバル時空間グラフを構築する。グラフにおけるノードはスニプトと1:1で対応する。ノードはスニプト特徴量を表す。エッジは、当該エッジの両端のノードとしての二つのスニプト特徴量の類似度を重みとし当該類似度がその閾値を超えていることを表す。スニプト特徴量は、スニプトに属する二つ以上のフレームの特徴量のため、例えば、3D-CNN(Convolutional Neural Network)から抽出することが可能である。このように、スニプトの変化を類似度で紐付けることで、時系列上遠いスニプト間の関係が弱まることなく構造化が可能(モデリングが可能)となり、より長期的な視点による映像内容のグローバル構造化解析が可能となる。
【0045】
図4が、グローバル時空間グラフ構築の例を示す図である。
【0046】
図4が示す例によれば、グローバル時空間グラフ470は、六つのノードを有するため、映像データから六つのスニプトが生成されたことがわかる(図4が示す例によれば、フレーム450A~450Dが属するスニプト1~3が示されている)。グローバル構築部301は、六つのスニプトの各々について、当該スニプトの情報を3D-CNN401に入力することで、当該スニプトの特徴量を抽出する。また、グローバル構築部301は、ノード(スニプト特徴量)毎に、各他のノード(スニプト特徴量)との類似度(例えばペアワイズ類似度)を計算し、当該類似度がその閾値を超えている場合に、ノードと他ノード間にエッジを形成し、且つ、当該エッジに、当該エッジの重みとして、算出された類似度を関連付ける。このようにして構築されたグローバル時空間グラフ470の情報を、グローバル構築部301が、グラフDB101に格納する。グローバル時空間グラフ470の情報が、例えば、グラフDB101において、映像データのIDに紐づけられてよい。また、映像のデータIDに対して、当該映像データから生成されたスニプト毎のIDが、当該DB101(又は別のDB)において紐づけられてよい。スニプトのID毎に、スニプトの特徴量と、他のスニプトとの類維度が紐づけられてよい。
【0047】
<<ローカル時空間グラフの構築>>
【0048】
ローカル構築部302は、図5に示すように、スニプト毎に、ローカル時空間グラフを構築する。一つのスニプトを例に取る。ローカル構築部302は、スニプトからフレームをサンプリングし(符号501)、サンプリングしたフレーム毎に、人物や物体といったオブジェクトを当該フレームから検知し(符号502)、且つ、オブジェクト間の空間上の物理関係をローカル時空間グラフとして構築する(符号503)。そして、ローカル構築部302は、当該スニプトからサンプリングされた複数のフレームに対応した複数のローカル時空間グラフを連結し(符号504)、結果として、ローカル時空間グラフが構築される。スニプトからサンプリングされるフレームは、当該スニプトに属する全てのフレームでもよいし一部のフレームでもよい。
【0049】
以下、図4に例示のスニプト3を例に取り、図6A及び図6Bを参照して、ローカル時空間グラフの構築を詳細に説明する。
【0050】
図6Aが、スニプト3からサンプリングされた一つのフレーム450Cのローカル空間グラフの構築の例を示す。
【0051】
フレーム450Cには、木、バス及び車両といったオブジェクトが映っている。ローカル構築部302が、フレーム450Cからそれらのオブジェクトを検知する。フレーム450Cのローカル空間グラフ670Cのノードは、検知されたオブジェクトと1:1で対応する。ノードは、オブジェクトの特徴量を表す。エッジは、オブジェクト間の空間上の重畳率を重みとし、当該重畳率がその閾値を超えている場合に設定される。重畳率は、例えば、IoU(Intersection over Union)である。
【0052】
ローカル構築部302が、検知されたオブジェクト毎に、例えばオブジェクトのエリア60cの情報をDNN(Deep Neural Network)に入力することで、当該オブジェクトの特徴量を抽出する。また、ローカル構築部302が、オブジェクト毎に、当該オブジェクトのエリア(例えば、オブジェクト「バス」のエリア60cb)と重なる他のオブジェクトのエリア(例えば、オブジェクト「車両」のエリア60cc)があれば、それらのオブジェクトのエリア(例えば60cb及び60cc)のORのエリアに対する重なったエリア(つまりエリア60cb及び60ccのANDのエリア)の割合を、重畳率として算出する。「重畳率」は、オブジェクトのエリアの重なり具合の一例である。当該重畳率がその閾値を超えている場合、ローカル構築部302が、それらのオブジェクトに対応したノード間にエッジを設定する。当該エッジの重みが、算出された重畳率である。このようにして構築されたローカル空間グラフ670Cの情報を、ローカル構築部302が、グラフDB101に格納する。ローカル空間グラフ670の情報が、例えば、グラフDB101において、スニプトのIDに紐づけられてよい。また、ローカル空間グラフ毎に、当該グラフのIDが、当該グラフが属するローカル時空間グラフのIDに紐づけられてよい。スニプトのID毎に、当該スニプトに属する各フレームのIDが紐づけられていてよい。フレームのID毎に、当該フレームから検知されたオブジェクトのIDが紐づけられてよい。オブジェクトのID毎に、オブジェクトの特徴量と、他のオブジェクトとの間の重畳率とが紐づけられてよい。
【0053】
図6Bが、ローカル時空間グラフ650の構築の例を示す図である。
【0054】
フレーム450の内容はスニプト3の時間方向に沿って変化する。このため、各フレームから構築されたローカル空間グラフ670も時間方向に沿って変化する。ローカル構築部302が、各フレーム450のローカル空間グラフを時間上不変の要素を用いて紐付けることで、スニプト3内にある要素レベルの情報を動的グラフとして表現することができる。動的グラフの一例が、時系列のローカル空間グラフ670で構成されたローカル時空間グラフ650である。様々な要素を考慮できるデータ構造を用いて、異常事象に関わる多要素な解析が可能となる。
【0055】
ローカル構築部302は、例えば次のようにして、ローカル時空間グラフ650を構築する。すなわち、ローカル構築部302は、スニプト3からサンプリングされたフレームの時系列に沿って、ローカル空間グラフ670を並べる。ローカル構築部302は、例えば下記を行う。
(S1)ローカル構築部302が、未選択のローカル空間グラフ670のうち、時系列において最も古いローカル空間グラフ670を選択する。このグラフ670が時系列において最も新しいグラフの場合、処理が終了する。
(S2)ローカル構築部302が、S1で選択したローカル空間グラフ670における未選択のノードのうち、一つのノードを選択する。
(S3)ローカル構築部302が、S1で選択したローカル空間グラフ670の次のローカル空間グラフ670におけるノード毎に、当該ノードとS2で選択したノードとの類似度を計算する。計算された類似度に閾値を超えている類似度がある場合、ローカル構築部302は、最も類似度の大きいノードに対し、S2で選択したノードを関連付ける。
(S4)ローカル構築部302は、S1で選択したローカル空間グラフ670に未選択のノードがある場合、S2を行う。
(S5)ローカル構築部302は、未選択のローカル空間グラフ670がある場合、S1を行う。
【0056】
以上の処理により、例えば、オブジェクトID“1”が割り振られたオブジェクト「車両」に対応したノードが、時系列に沿ったローカル空間グラフ670C及び670D間で関連付けられる。構築されたローカル時空間グラフ650の情報を、ローカル構築部302が、グラフDB101に格納する。ローカル時空間グラフのIDに、ローカル空間グラフ間におけるノードの関連付けを表す情報が紐づけられてよい。
【0057】
<特徴量抽出>
【0058】
特徴量抽出部106は、図3に示すように、静的抽出部303と動的抽出部304とを備える。
【0059】
本実施形態では、スニプト特徴量をノードとしてスニプト特徴量間の類似度をエッジとしたグローバル時空間グラフが、映像データについて一つのグラフとなる静的グラフの一例である。そして、静的抽出部303は、静的グラフの特徴量を抽出する機能である。このため、静的抽出部303が、静的グラフの一例であるグローバル時空間グラフの特徴量であるグローバル特徴量を抽出する。グローバル時空間グラフのような静的グラフからグラフレベルの特徴量を抽出する手法の一例として、Graph Convolutional Network(GCN)を用いることができる。静的抽出部303が、GCNによる畳み込み操作を行い、結果、ノードごとの特徴量が周辺のノードの性質に畳み込みされ、最後、各ノードの特徴量がglobal average poolingされ、グラフレベルの特徴量が取得される。抽出されたグローバル特徴量は、例えば、特徴量DB102において、映像データのIDに紐付されてよい。
【0060】
また、本実施形態では、上述したように、スニプトからサンプリングされたフレーム毎にローカル空間グラフが構築され、時間方向で複数のローカル空間グラフを連結することで、ローカル時空間グラフが構築される。したがって、ローカル時空間グラフは、グラフが時間方向で変化する動的グラフの一例である。動的グラフから有効なグラフ特徴量を取得する手法として、任意の手法が採用されてよいが、本願の出願人と同一出願人の出願であり本出願時点では未公開の出願であるPCT/JP2021/30257(基礎出願番号2020-198781)に記載の手法を用いることが可能である。これにより、スニプト毎のローカル時空間グラフについてローカル特徴量が抽出される。複数のローカル時空間のローカル特徴量が、平均又は他の手法により一つのローカル特徴量とされてよい。
【0061】
特徴量抽出部106は、以上のようにして、グローバルとローカル両方の特徴量を抽出し、それらの特徴量を基に(例えば、グローバル特徴量とローカル特徴量とを連結する操作を行って)一つの特徴量としての構造化特徴量を取得し、当該構造化特徴量を異常推定部107に入力する。特徴量抽出部106は、抽出された各種特徴量を特徴量DB102に格納する。各種特徴量は、グラフのIDに紐づけられてよい。
【0062】
<異常スコアの推定>
【0063】
異常推定部107は、特徴量抽出部106から取得した構造化特徴量を用いて、映像データの異常スコアを推定する。異常スコアは、異常事象を表示したフレームである異常事象フレームを映像データが含んでいる可能性の高さを表すスコアである。異常推定部107は、事前に異常あり事象及び/又は異常なし事象の構造化特徴量を基に学習されたバイナリ分類器もしくは線形回帰モデルでよい。異常スコアが高い映像データは異常事象フレームを含んでいる確率が高く、異常スコアが事前に設定されたスコア閾値を超えた場合、異常推定部107が、異常事象発生と判断し、区間推定部111での処理へ移行する(例えば、区間推定部111にアラートといった所定情報(例えば、映像データのIDを含んだ情報)を入力する)。異常スコアがスコア閾値以下の場合、異常推定部107は、特にアラート出すことなく、処理が、次の映像データについての処理へ移行する。
【0064】
<異常区間の推定>
【0065】
区間推定部111は、グローバル時空間グラフ470を基に、異常事象フレームを含んでいる可能性が最も高いスニプトを推定(特定)する。
【0066】
区間推定部111は、図7に示すように、グローバルマップ生成部701と区間特定部702とを含む。
【0067】
グローバルマップ生成部701は、図8に示すように、入力されたグローバル時空間グラフ470(例えば、映像データのIDをキーにグラフDB101から特定されたグローバル時空間グラフ)のサリエンシーマップであるグローバルサリエンシーマップを生成する。具体的には、例えば、グローバルマップ生成部701は、グローバル時空間グラフ470から、当該グラフの各ノードについて、グローバル特徴量(静的特徴量の一例)への寄与度を計算してよい、つまり、CAM(Class Activation Mapping)ベースの処理であるgraph activation mapping処理を行ってよい。これにより、ノード毎の寄与度を表すグローバルサリエンシーマップ870が生成される。なお、グローバル特徴量は、例えば、映像データ又はグローバル時空間グラフ470のIDをキーに特徴量DB102から特定されてよい。
【0068】
区間特定部702は、グローバルサリエンシーマップ上で寄与度が最も高いノードに対応したスニプトである異常スニプトのIDを異常区間として出力する。区間特定部702は、出力されたスニプトをエリア推定部110へ入力する。図8が示す例によれば、異常スニプトはスニプト3である。
【0069】
<異常エリアの推定>
【0070】
上述の異常区間の推定は、異常のある時間(時区間)の推定である。それに対し、異常エリアの推定は、当該時間(時区間)に属するフレームにおける異常のあるエリア(空間)の推定である。
【0071】
エリア推定部110は、図9に示すように、ローカルマップ生成部901とエリア特定部902とを備える。エリア推定部110は、異常スニプトのIDをキーにローカル時空間グラフをグラフDB101から特定する。
【0072】
ローカルマップ生成部901は、図10に示すように、異常スニプトからフレームをサンプリングする。サンプリングされたフレーム毎に、図10を参照して説明する処理が行われる。以下、一つのフレーム450Dを例に取る。
【0073】
ローカルマップ生成部901は、特定されたローカル時空間グラフから、フレーム450Dのローカル空間グラフ670Dを特定する。ローカルマップ生成部901は、ローカル空間グラフ670Dについてローカルサリエンシーマップ生成処理を行う。ローカルサリエンシーマップ生成処理は、第1のアクティベーションと第2のアクティベーションとを含む。
【0074】
第1のアクティベーションによれば、ローカルマップ生成部901は、フレーム450Dについて、3D-CNN(図4参照)の中間層となる特徴量マップを用いて、フレーム450Dが異常事象フレームと判定される場合の特徴量マップ上のpixelレベルの寄与度を、feature map activation mappingで計算し、フレーム450Dにおけるactivation area1060(第1のエリアの一例)を取得する。
【0075】
第2のアクティベーションによれば、ローカルマップ生成部901は、フレーム450Dのローカル空間グラフ670Dについてgraph activation mapping処理を行う。これにより、ノード毎の寄与度(ローカル特徴量への寄与度)を表すローカルサリエンシーマップ1070が生成される。ローカルマップ生成部901は、フレーム450Dについて、ノード毎に、当該ノードに該当するオブジェクトのエリアであるbounding box area(第2のエリアの一例)を特定する。
【0076】
エリア特定部902が、activation area1060と各bounding box areaとの統合処理を行い(例えば、それらの最大公約エリア(例えば重なったエリア)を特定し)、統合処理において特定された一つ以上のエリアを、それぞれ異常エリアとする。エリア特定部902が、異常エリア毎に、当該異常エリアの基になったbounding box areaを持つオブジェクトに対応したノードの寄与度(又は当該寄与度に基づく値)を、当該オブジェクトのサリエンシースコアとする。エリア特定部902が、各異常エリアを表す情報と異常エリア毎のサリエンシースコアとを対象計算部109へ入力する。
【0077】
<対象エリアの計算>
【0078】
対象計算部109は、エリア推定部110から取得した異常エリアとサリエンシースコアを基に、対象エリアの計算を行う。具体的には、例えば、対象計算部109は、異常スニプトにおけるサンプリングされた二つ以上のフレームについて、オブジェクト毎に、異常エリアのサリエンシースコアの統計値(例えば平均スコア)を計算し、統計値が閾値を超えたオブジェクト(又は、そのうち最も統計値が高いオブジェクト)を、異常事象の手がかりオブジェクトと特定する。対象計算部109は、当該オブジェクトについて、最もサリエンシースコアが高い異常エリアを、手がかりの対象エリアと特定する。
【0079】
<表示制御>
【0080】
図11は、システムUIの例を示す。
【0081】
システムUI(User Interface)1100は、表示制御部108により入出力コンソール60に表示されるUI(例えばGUI)である。システムUI1100には、異常検知結果が表示される。
【0082】
例えば、システムUI1100には、異常検知結果の一例として、手がかりリスト1102が表示される。手がかりリスト1102は、異常事象フレーム112を含む。異常事象フレーム112は、対象エリア114が特定されたフレームである。つまり、異常検知結果の一例として、異常事象フレーム112が表示され、そのフレーム112の対象エリア114が提示される。これにより、ユーザ(例えばオペレータ)は、対象エリア114を手がかりに異常事象の特定等を行うことができる。なお、対象エリア114の近傍に、当該対象エリア114の基になった異常エリアのサリエンシースコアが表示されてもよい。
【0083】
システムUI1100には、異常推定部107により算出されメモリに格納された異常スコアが表示されてよい。
【0084】
また、システムUI1100には、スニプト毎のスコア(例えば、当該スニプトの全フレームについてのサリエンシースコアの統計値)を表す情報(例えばグラフ)1104が表示されてよい。当該情報1104において、横軸は、時間軸でよい。
【0085】
また、システムUI1100には、異常スニプトが異常区間として表示されてよい。
【0086】
<総括>
【0087】
以上の説明を、例えば下記のように総括することができる。下記の総括は、上述の説明の補足、変形例又は拡張等を含んでよい。
【0088】
異常検知システム100は、構造化処理部105と、特徴量抽出部106と、異常検知表示処理部120とを有する。
【0089】
構造化処理部105は、例えば図1の破線矢印で示すように、入力された映像データから時空間で構造化された情報である時空間情報を生成することを含む時空間構造化処理を行う。時空間情報は、グローバル時空間情報でもよいし、グローバル時空間情報とローカル時空間情報とを含んでもよいし、グローバル時空間情報及びローカル時空間情報に代えて、時間性と空間性を兼ねた別種の情報でもよい。
【0090】
特徴量抽出部106は、時空間情報の特徴量を抽出する。この特徴量は、異常事象(典型的には、可変長又は多要素な異常事象)への解析に適する構造化特徴量と言うことができる。
【0091】
異常検知表示処理部120が、例えば図1の破線矢印で示すように、時空間情報及び構造化特徴量を用いて、映像データに異常事象ありとの判定結果への寄与度が高い時区間を異常区間として推定し、当該異常区間の時空間で構造化された情報から、異常事象の手がかりとしての異常事象フレームを特定し、当該異常事象フレームを含んだ異常検知結果を表示する。異常検知結果は、異常事象フレームの他に、異常事象ありとの判定結果への寄与度が高いオブジェクトのエリア(例えば、異常エリア又は対象エリア)を、異常事象の手がかりとして含んでよい。
【0092】
このようにして、正常事象及び異常事象のいずれの事象の事前定義をすること無しに映像データから異常事象を検知しその検知の根拠を提示することができる。
【0093】
異常検知システム100は、スニプト生成部104を備えてよい。スニプト生成部104は、それぞれ連続した時区間に属し二つ以上のフレームで構成された複数のスニプトを映像データから生成する。構造化処理は、ローカル時空間情報(時空間で構造化されたスニプトを表し当該スニプトにおけるフレーム毎の情報を含んだ情報)をスニプトからサンプリングされた各フレームを基に複数のスニプトの各々について構築することと、グローバル時空間情報(時空間で構造化された映像データを表しスニプト毎の情報を含んだ情報)を複数のスニプトを基に映像データについて構築することを含む。特徴量抽出部106は、構造化特徴量として、各スニプトについてローカル時空間情報の特徴量であるローカル特徴量を抽出し、映像データについてグローバル時空間情報の特徴量であるグローバル特徴量を抽出する。異常検知表示処理部120が、異常スニプト(異常事象フレームを含んでいる可能性が最も高いスニプト)をグローバル時空間情報及びグローバル特徴量を基に推定することと、異常スニプトのローカル時空間情報及びローカル特徴量を基に異常スニプトから異常事象フレームを推定することと、当該異常事象フレームを含む異常検知結果を表示することとを含んだ処理である異常検知表示処理を行う。これにより、正常事象及び異常事象のいずれの事象の事前定義をすること無しに映像データから異常事象を精度良く検知しその検知の根拠を提示することができる。例えば、グローバルの視点(映像データ全体の俯瞰)とローカルの視点(スニプトの詳細)とから精度良く異常事象を検知できる。
【0094】
異常検知システム100が、異常推定部107を備えてよい。異常推定部107が、各スニプトについてのローカル特徴量と映像データについてのグローバル特徴量とを基に、異常事象フレームを映像データが含んでいる可能性の高さを表す異常スコアを推定する。異常検知表示処理部120は、異常スコアがその閾値を超えている場合に、上述の異常検知表示処理を行う。これにより、異常事象フレームが存在する可能性を精度良く判定できその可能性が低いときには異常検知表示処理の実行を避けることができる。
【0095】
各スニプトについて、ローカル時空間情報は、当該スニプトからサンプリングされたフレーム毎に構築されたグラフであるローカル空間グラフの時系列としてのローカル時空間グラフでよい。各ローカル空間グラフについて、当該ローカル空間グラフのノードと、当該ノードとの関係が所定の条件(例えば、それらノード(特徴量)間の類似度がその閾値を超えており、且つ、最も類似度が高いこと)を満たすノードが次のローカル空間グラフにある場合、ローカル時空間グラフは、それらのノード間の関連付けを含んでよい。ローカル空間グラフにおけるノードは、フレームから検知されたオブジェクトに対応し、当該オブジェクトの特徴量を表してよい。ローカル空間グラフにおけるエッジは、当該エッジの両端のノードに対応した二つのオブジェクトのエリアの重なり具合を重みとし当該重なり具合がその閾値を超えていることを表してよい。映像データについて、グローバル時空間情報は、映像データについて構築されたグラフであるグローバル時空間グラフでよい。グローバル時空間グラフにおけるノードは、スニプトに対応し、当該スニプトの特徴量を表してよい。グローバル時空間グラフにおけるエッジは、当該エッジの両端のノードとしての二つのスニプト特徴量の類似度を重みとし当該類似度がその閾値を超えていることを表してよい。グローバル時空間グラフは、時間の異なるスニプト間の関係と各時区間としてのスニプトの空間とを表現し、ローカル時空間グラフは、時間の異なるフレーム間の関係と各時点としてのフレームの空間とを表現する。このようなグラフを構築することで、それぞれ適切な特徴量を抽出でき、また、異常スコアを正確に推定することができる。例えば、グローバル時空間グラフは、異常時区(異常スニプト)の正確な推定に寄与し、ローカル時空間グラフにおける各ローカル空間グラフは、フレームにおけるオブジェクト間の関係のコンテキストを表し、故に、異常事象フレーム(且つ、そのフレームにおける異常エリア(異常事象に関わるオブジェクトのエリア)を正確に推定することに寄与する。
【0096】
なお、表示される異常検知結果が、推定された異常スコアと、異常スニプトとの少なくも一部のフレームと、のうちの少なくとも一つを含んでよい。これにより、ユーザにとって有用な異常事象の手がかりが提供される。
【0097】
また、異常検知表示処理部120は、異常検知表示処理において、グローバル時空間グラフにおける各ノードについてグローバル特徴量への寄与度を表すサリエンシーマップを生成し、最も寄与度の高いノードに対応したスニプトを、異常事象フレームを含んでいる可能性が最も高いスニプトと推定してよい。これにより、異常スニプトを正確に推定することができる。
【0098】
また、異常検知表示処理部120は、異常検知表示処理において、異常スニプトからサンプリングされたフレーム毎に、当該フレームの特徴量マップを基に当該フレームにおける第1のエリアを特定し、当該フレームのサリエンシーマップ(当該フレームのローカル空間グラフの各ノードについてローカル特徴量への寄与度を表すマップ)を基にノード毎に当該ノードに対応したオブジェクトのエリアである第2のエリアを特定し、第1のエリアとノード毎の第2エリアとが重なったエリアの少なくとも一部を有するエリアを異常エリアとして推定してよい。異常検知表示処理部120は、フレーム毎の異常エリアとノード毎の寄与度とを基に異常事象フレームを推定してよい。これにより、異常事象フレームを正確に推定することができる。異常検知表示処理部120は、異常検知表示処理において、寄与度の統計量がその閾値を超えているオブジェクトを特定し、当該オブジェクトのうち最も寄与度が高いオブジェクトである該当オブジェクトが映っているフレームを異常事象フレームとして推定してよい。表示される前記異常検知結果が、推定された異常事象フレームのうちの該当オブジェクトのエリア(例えば上述の対象エリア)を表す情報を含んでよい。これにより、ユーザにとって有用な異常事象の手がかりが提供される。
【0099】
以上、一実施形態を説明したが、これは本発明の説明のための例示であって、本発明の範囲をこの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。
【符号の説明】
【0100】
100:異常検知システム
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11