(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024087718
(43)【公開日】2024-07-01
(54)【発明の名称】情報処理プログラム、情報処理方法、および情報処理装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240624BHJP
G08B 25/00 20060101ALI20240624BHJP
G08B 25/04 20060101ALI20240624BHJP
G08B 21/02 20060101ALI20240624BHJP
【FI】
G06T7/00 660B
G08B25/00 510M
G08B25/04 K
G08B21/02
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022202661
(22)【出願日】2022-12-19
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山本 琢麿
【テーマコード(参考)】
5C086
5C087
5L096
【Fターム(参考)】
5C086AA22
5C086BA20
5C086CA28
5C086CB36
5C086DA08
5C086EA40
5C086EA45
5C086FA06
5C086FA17
5C087AA10
5C087AA37
5C087DD03
5C087DD27
5C087EE08
5C087FF01
5C087FF02
5C087FF04
5C087GG02
5C087GG08
5C087GG09
5C087GG66
5C087GG70
5C087GG83
5C087GG84
5L096AA02
5L096AA06
5L096BA02
5L096CA04
5L096DA03
5L096GA30
5L096HA11
5L096JA11
5L096JA18
5L096KA04
(57)【要約】
【課題】監視映像から、不安定な足場に乗る、危険な物体に近づくなど異常な行動をする人物を、コンピュータによる画像認識により識別してアラートを通知する技術がある。しかしながら、映像から抽出される物体や人物の位置関係は2次元空間によるものなので奥行きについては分析できず、人物の異常な行動を正しく判定できない場合がある。
【解決手段】情報処理プログラムは、映像を取得し、取得した映像を分析することで、映像に含まれる物体を含む第1の領域と、映像に含まれる人物を含む第2の領域と、物体および人物の相互作用を識別した関係性とを特定し、特定した第1の領域と、特定した関係性とに基づいて、第2の領域に含まれる人物が異常な行動をしているか否かを判定し、人物が異常な行動をしていると判定した場合、異常な行動をする人物の出現に関連するアラートを通知する処理をコンピュータに実行させる。
【選択図】
図7
【特許請求の範囲】
【請求項1】
映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項2】
前記人物が異常な行動をしているか否かを判定する処理は、
前記映像を分析することで、前記第1の領域に含まれる前記物体の種類を識別し、
識別された前記物体の種類と特定した前記関係性との組み合わせを、予め設定されたルールと比較することで、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定する
処理を含むことを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を分析することで、前記第1の領域と、前記第2の領域と、前記関係性の種類とを特定する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
特定した前記第1の領域に含まれる前記物体と、特定した前記関係性の種類とに基づいて、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して異なる前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
前記第1の人物が異常な行動をしていると判定する処理は、
第1の人物のみが所定の前記物体に対して、前記物体および前記人物の相互作用を識別した第1の関係性を発生させ、前記第1の人物以外の前記人物が前記所定の物体に対して前記第1の関係性とは異なる第2の関係性を示している場合、前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする請求項3に記載の情報処理プログラム。
【請求項5】
前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記映像に含まれる前記人物ごとに、前記第1の領域と、前記第2の領域と、前記関係性とを特定したシーングラフを生成する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
前記シーングラフを分析することで、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して所定の前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする請求項1に記載の情報処理プログラム。
【請求項6】
前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
前記映像から前記第1の領域または前記第2の領域に対応する第1の特徴量を抽出し、
抽出した前記第1の特徴量から前記映像の中に含まれる前記物体および前記人物を検出し、
検出した複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの組における前記物体または前記人物の有する前記第1の特徴量が組み合わされた第2の特徴量を生成し、
前記第1の特徴量と前記第2の特徴量とに基づいて、複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの相互作用を識別した前記関係性を示す第1のマップを生成し、
前記第1の特徴量を変換した第3の特徴量と、前記第1のマップとに基づいて、第4の特徴量を抽出し、
前記第4の特徴量から、前記関係性を特定する
処理を含むことを特徴とする請求項1に記載の情報処理プログラム。
【請求項7】
前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記第1の領域と、前記第2の領域と、前記関係性とを特定する
処理を含み、
前記機械学習モデルは、前記物体を示す第1のクラスおよび前記物体が出現する領域を示す前記第1の領域の情報と、前記人物を示す第2のクラスおよび前記人物が出現する領域を示す前記第2の領域の情報と、前記第1のクラスと前記第2のクラスとの相互作用と、を識別するように訓練されたHOID(Human Object Interaction Detection)用のモデルである
ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項8】
映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項9】
映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理を実行する制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像の中から異常な行動をする人物を識別する情報処理プログラム、情報処理方法、および情報処理装置に関する。
【背景技術】
【0002】
例えば、工場内などの監視映像から、不安定な足場に乗る、危険な物体に近づくなど異常な行動をする人物を、コンピュータによる画像認識により識別し、異常を知らせるアラートを通知する技術がある。これにより、事故の発生を未然に防ぐことができる。
【0003】
このような技術は、例えば、機械学習モデルを用いて、映像から物体や人物を含む領域を矩形で囲むバウンディングボックス(Bbox)を抽出し、両Bboxの位置関係により、人物が異常な行動をしているか否かを判定するものである。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、映像から抽出されるBboxの位置関係は2次元空間によるものなので、例えば、Bbox間の奥行きについては分析できず、人物の異常な行動を正しく判定できない場合がある。より具体的には、例えば、映像から不安定な足場のBboxと、映像上は足場の上に位置する作業員のBboxとが抽出された場合、実施には作業員は足場の奥で作業していても、足場の上に作業員がいると判定されてしまう場合がある。この場合、不安定な足場の上に作業員がいるため、当該作業員である人物は異常な行動をしていると判定されてしまうことになる。
【0006】
なお、異常な行動をする人物の一例として工場内の作業員を挙げたが、これに限定されない。例えば、異常な行動をする人物には、遊具で危険な行動をする子供や、通行禁止の道路を走行する車両などが含まれてよい。なお、車両は人物ではないが、人物が運転する車両として、異常な行動をし得る対象に含まれてよい。また、犬や猫などの動物も、異常な行動をし得る対象に含まれてよい。
【0007】
1つの側面では、映像から人物が異常な行動をしていることをより正確に判定して通知できる情報処理プログラム、情報処理方法、および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの態様において、情報処理プログラムは、映像を取得し、取得した映像を分析することで、映像に含まれる物体を含む第1の領域と、映像に含まれる人物を含む第2の領域と、物体および人物の相互作用を識別した関係性とを特定し、特定した第1の領域と、特定した関係性とに基づいて、第2の領域に含まれる人物が異常な行動をしているか否かを判定し、人物が異常な行動をしていると判定した場合、異常な行動をする人物の出現に関連するアラートを通知する処理をコンピュータに実行させる。
【発明の効果】
【0009】
1つの側面では、映像から人物が異常な行動をしていることをより正確に判定して通知できる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、撮像画像からの物体検出の一例を示す図である。
【
図2】
図2は、人物Bboxと物体Bboxとの位置関係の一例を示す図である。
【
図3】
図3は、本実施形態にかかる情報処理システム1の構成例を示す図である。
【
図4】
図4は、本実施形態にかかる情報処理装置10の構成例を示す図である。
【
図5】
図5は、本実施形態にかかるカメラ設置DB14に記憶される情報の例を示す図である。
【
図6】
図6は、本実施形態にかかるルールDB16に記憶される情報の例を示す図である。
【
図7】
図7は、本実施形態にかかるシーングラフによる関係性特定の一例を示す図である。
【
図8】
図8は、シーングラフ生成の問題点を説明するための図である。
【
図9】
図9は、本実施形態にかかるAttentionマップ生成の一例を示す図である。
【
図10】
図10は、本実施形態にかかる関係性推定のためのNN構成の一例を示す図である。
【
図11】
図11は、本実施形態にかかる画像特徴抽出の一例を示す図である。
【
図12】
図12は、本実施形態にかかる物体検出の一例を示す図である。
【
図13】
図13は、本実施形態にかかるペア特徴量生成の一例を示す図である。
【
図14】
図14は、本実施形態にかかる関係性特徴抽出の一例を示す図である。
【
図15】
図15は、本実施形態にかかる関係性推定の一例を示す図である。
【
図16】
図16は、本実施形態にかかるHOIDによる関係性特定の一例を示す図である。
【
図17】
図17は、本実施形態にかかる異常行動通知処理の流れを示すフローチャートである。
【
図18】
図18は、本実施形態にかかる関係性推定処理の流れを示すフローチャートである。
【
図19】
図19は、情報処理装置10のハードウェア構成例を説明する図である。
【発明を実施するための形態】
【0011】
以下に、本実施形態に係る情報処理プログラム、情報処理方法、および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本実施形態が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【0012】
まず、機械学習モデルを用いた、撮像画像からの一般的な物体検出について説明する。
図1は、撮像画像からの物体検出の一例を示す図である。一般的な物体検出では、撮像画像を入力データ、および人物を含む物体を正解ラベルとして訓練して生成された機械学習モデルを用いて、撮像画像から、人物を含む物体が検出される。
図1に示すように、例えば、このような訓練済み機械学習モデルに撮像画像150を入力することで、人物のBbox151~153や、物体のBbox154および155が検出される。
【0013】
そして、例えば、情報処理装置は、Bbox151とBbox155との位置関係から、Bbox151で示される人物が、Bbox155で示される物体の上に乗っており、異常行動の一例である危険な行動をしていると判定できる。しかしながら、Bboxの位置関係は2次元空間によるものなので、厳密には、情報処理装置は、Bbox151で示される人物が、Bbox155で示される物体の上に乗っていることまでは認識できておらず、上に位置することのみを認識する。そのため、情報処理装置は、例えば、物体の奥に人物がいるような場合にも、当該人物が物体の上に乗っていると判定してしまう場合がある。
【0014】
図2は、人物Bboxと物体Bboxとの位置関係の一例を示す図である。
図2の例も、
図1を用いて説明したような訓練済み機械学習モデルに撮像画像160を入力することで、人物のBbox161~163や、物体のBbox164~166が検出される。
図2の例では、Bbox161~163で示される各人物は、Bbox164~166で示される各物体の奥で作業しているが、情報処理装置は、人物Bboxと物体Bboxとの位置関係により、各人物が各物体の上にいると判定してしまう場合がある。そこで、本実施形態では、映像から検出される人物と物体との関係性をより正確に認識し、人物が異常な行動をしていることを、より正確に判定することを目的の1つとする。
【0015】
(全体構成)
次に、本実施形態を実施するための情報処理システムについて説明する。
図3は、本実施形態にかかる情報処理システム1の構成例を示す図である。
図3に示すように、情報処理システム1は、情報処理装置10と、カメラ装置100とが、ネットワーク50を介して相互に通信可能に接続されるシステムである。
【0016】
ネットワーク50には、有線や無線を問わず、例えば、工場内などの各種施設内で利用されるイントラネットやインターネットなどの各種通信網を採用できる。また、ネットワーク50は、単一のネットワークではなく、例えば、イントラネットとインターネットとがゲートウェイなどネットワーク装置やその他の装置(図示せず)を介して構成されてよい。なお、“施設内”という表現は、屋内に限定されず屋外を含んでよい。
【0017】
情報処理装置10は、例えば、工場内などの各種施設内に設置され、作業者や管理者などによって使用されるデスクトップPC(Personal Computer)やノートPC、またはサーバコンピュータなどの情報処理装置である。または、情報処理装置10は、クラウドコンピューティングサービスを提供するサービス提供者によって管理されるクラウドコンピュータ装置であってもよい。
【0018】
情報処理装置10は、例えば、カメラ装置100によって工場内などの各種施設内の所定の撮影範囲を撮影した映像を、カメラ装置100から受信する。なお、当該映像は、厳密には、カメラ装置100によって撮像される複数の撮像画像、すなわち、動画の一連のフレームで構成される。
【0019】
また、情報処理装置10は、例えば、既存の物体検知技術を用いて、カメラ装置100によって撮影される映像から、工場内などの各種施設内の、人物を含む物体を抽出する。また、情報処理装置10は、例えば、人物が、物体に近づく、触る、乗るなどといった、物体と人物との相互作用を識別した関係性を特定する。また、情報処理装置10は、例えば、特定された関係性に基づいて、人物が異常な行動をしているか否かを判定する。そして、情報処理装置10は、例えば、人物が異常な行動をしていると判定した場合、異常な行動をする人物の出現に関連するアラートを通知する。なお、当該アラートは、音声の出力や、画面へのメッセージ通知などであってよい。また、アラートの通知先は、情報処理装置10が備える出力装置であってもよいし、外付けの装置であってもよいし、ネットワーク50を介して情報処理装置10と通信可能に接続される他の情報処理装置が備える出力装置であってもよい。また、情報処理装置10は、例えば、異常な行動をしている人物の場所を特定し、当該人物が存在するフロア内の装置など、アラートの通知先を限定してもよい。なお、本実施形態では、異常な行動をし得る対象を人物として説明するが、人物が運転する車両や、犬や猫などの動物なども異常な行動をし得る対象に含まれてよい。そのため、情報処理装置10は、車両や動物などに対しても、異常な行動をしているか否かを判定し、異常な行動をしていると判定した場合はアラートを通知できる。
【0020】
そして、工場内などの各種施設内の作業者や管理者などは、アラートの通知を受け、異常な行動をしている人物に注意するなどして異常な行動をやめさせることにより、事故の発生を未然に防ぐことができる。
【0021】
なお、
図1では、情報処理装置10を1台のコンピュータとして示しているが、複数台のコンピュータで構成される分散型コンピューティングシステムであってもよい。
【0022】
カメラ装置100は、例えば、工場内などの各種施設内に設置される監視カメラである。カメラ装置100によって撮影された映像は、情報処理装置10に送信される。なお、
図1では、カメラ装置100を1台のみ示しているが、工場内などの各種施設内の様々な場所に複数台のカメラ装置100が設置されてよい。
【0023】
(情報処理装置10の機能構成)
次に、情報処理装置10の機能構成について説明する。
図4は、本実施形態にかかる情報処理装置10の構成例を示す図である。
図4に示すように、情報処理装置10は、通信部11、記憶部12、および制御部20を有する。
【0024】
通信部11は、カメラ装置100など、他の装置との間の通信を制御する処理部であり、例えば、ネットワークインタフェースカードなどの通信インタフェースである。
【0025】
記憶部12は、各種データや、制御部20が実行するプログラムを記憶する機能を有し、例えば、メモリやハードディスクなどの記憶装置により実現される。記憶部12は、撮像DB13、カメラ設置DB14、モデルDB15、およびルールDB16などを記憶する。なお、DBは、データベース(Data Base)の略称である。
【0026】
撮像DB13は、カメラ装置100によって撮像された一連のフレームである複数の撮像画像を記憶する。カメラ装置100によって撮像された複数の撮像画像、すなわち映像は、カメラ装置100から随時送信され、情報処理装置10によって受信され撮像DB13に記憶される。
【0027】
カメラ設置DB14は、例えば、カメラ装置100の各々が設置される場所を特定するための情報を記憶する。ここで記憶される情報は、例えば、管理者などにより予め設定されてよい。
図5は、本実施形態にかかるカメラ設置DB14に記憶される情報の例を示す図である。
図5に示すように、カメラ設置DB14には、例えば、「カメラID、設置場所」などの各情報が対応付けられて記憶される。ここで記憶される「カメラID」には、例えば、カメラ装置100の各々を一意に識別するための識別子などの情報が設定され、「設置場所」には、例えば、カメラ装置100の各々が設置される場所を特定するための情報が設定される。なお、カメラ装置100を1台しか設置しないなどの場合、記憶部12にカメラ設置DB14は含まれなくてもよい。
【0028】
モデルDB15は、例えば、カメラ装置100が撮影した映像から、物体や人物を含む領域と、物体および人物の関係性とを特定するための機械学習モデルに関する情報や、当該モデルを構築するためのモデルパラメータを記憶する。当該機械学習モデルは、例えば、カメラ装置100が撮影した映像、すなわち撮像画像を入力データ、ならびに物体および人物を含む領域と、物体および人物の関係性の種類とを正解ラベルとして機械学習により生成される。なお、物体および人物の関係性の種類とは、例えば、人物が、物体に近づく、触る、乗るなどであってよいが、これらに限定されない。また、物体や人物を含む領域は、例えば、撮像画像上でそれらの領域を矩形で囲むバウンディングボックス(Bbox)であってよい。なお、このような、映像から、物体や人物を含む領域と、物体および人物の関係性とを特定するための機械学習モデルは、後述する既存技術であるHOID(Human Object Interaction Detection)用の機械学習モデルであってよい。
【0029】
また、モデルDB15は、例えば、映像から、シーングラフを生成するための物体の種類および物体間の関係性を取得するための機械学習モデルに関する情報や、当該モデルを構築するためのモデルパラメータを記憶する。なお、シーングラフを生成するための物体の種類は“class”、物体間の関係性は“relation”と呼ばれることがある。また、当該機械学習モデルは、カメラ装置100が撮影した映像、すなわち撮像画像を入力データ、ならびに当該撮像画像に含まれる物体の場所(Bbox)、物体の種類、および物体間の関係性を正解ラベルとして機械学習により生成される。
【0030】
また、モデルDB15は、例えば、後述するAttentionマップを生成するための機械学習モデルに関する情報や、当該モデルを構築するためのモデルパラメータを記憶する。当該機械学習モデルは、例えば、撮像画像から検出された物体の特徴量を入力データ、および画像上の重要な領域を正解ラベルとして訓練して生成される。なお、各種機械学習モデルは、情報処理装置10によって生成されてもよいし、別の情報処理装置によって訓練され生成されてもよい。
【0031】
ルールDB16は、例えば、人物が異常な行動をしていると判定するためのルールに関する情報を記憶する。ここで記憶される情報は、例えば、管理者などにより予め設定されてよい。
図6は、本実施形態にかかるルールDB16に記憶される情報の例を示す図である。
図6に示すように、ルールDB16には、例えば、「ルールID、物体、関係性」などの各情報が対応付けられて記憶される。ここで記憶される「ルールID」には、例えば、ルールを一意に識別するための識別子などの情報が設定される。また、「物体」には、例えば、物体の名称などが設定される。また、「関係性」には、例えば、物体と人物との関係性の種類が設定される。例えば、カメラ装置100が撮影した映像から検出された人物が、ルールDB16の「物体」に設定された物体に対し、「関係性」に設定された関係性を示した場合に、当該人物が異常な行動をしていると判定できる。なお、ルールDB16に、さらに、稼働時間などの時間帯や、対象の物体が稼働中などの条件を追加し、より細かいルール設定を行うこともできる。
【0032】
なお、記憶部12に記憶される上記情報はあくまでも一例であり、記憶部12は、上記情報以外にも様々な情報を記憶できる。
【0033】
制御部20は、情報処理装置10全体を司る処理部であり、例えば、プロセッサなどである。制御部20は、取得部21、特定部22、判定部23、および通知部24を備える。なお、各処理部は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
【0034】
取得部21は、例えば、カメラ装置100によって工場内などの各種施設内を撮影した映像を撮像DB13から取得する。なお、カメラ装置100によって撮影された映像は、随時、カメラ装置100によって情報処理装置10に送信され、情報処理装置10によって受信され、撮像DB13に記憶される。
【0035】
特定部22は、例えば、取得部21が取得した映像を分析することで、映像に含まれる物体を含む第1の領域と、映像に含まれる人物を含む第2の領域と、当該物体および当該人物の相互作用を識別した関係性とを特定する。なお、第1の領域および第2の領域は、例えば、Bboxであってよい。また、特定される関係性は、例えば、人物が、物体に近づく、触る、乗るなどといった関係性の種類を含んでよい。また、このような特定処理は、例えば、取得部21が取得した映像を機械学習モデルに入力することで、映像に含まれる人物ごとに、第1の領域と、第2の領域と、関係性とを特定したシーングラフを生成する処理を含んでよい。シーングラフの生成について
図7を用いて、より具体的に説明する。
【0036】
図7は、本実施形態にかかるシーングラフによる関係性特定の一例を示す図である。特定部22は、例えば、撮像画像150から、既存の検出アルゴリズムを用いて、人物を含む物体を検出し、各物体の関係性を推定し、各物体とそれらの関係性、すなわちコンテキストを表現するシーングラフ159を生成する。ここで、既存の検出アルゴリズムとは、例えば、YOLO(YOU Only Look Once)、SSD(Single Shot Multibox Detector)、RCNN(Region Based Convolutional Neural Networks)などである。
【0037】
図7の例では、撮像画像150から、少なくとも、Bbox151および152で示される男性(man)が2人と、Bbox153で示される女性(woman)と、Bbox154で示される箱(box)と、Bbox155で示される棚(shelf)とが検出される。そして、特定部22は、例えば、撮像画像150から各物体のBbox領域を切り出し、各領域の特徴量を抽出して、物体同士(Subject、Object)のペアの特徴量から各物体の関係性を推定し、シーングラフ159を生成する。
図7では、シーングラフ159は、例えば、box151で示される男性が、Bbox155で示される棚(shelf)の上に立っている(standing on)という関係性を示している。また、例えば、シーングラフ159によって示される、box151で示される男性に対する関係性は1つに限られない。
図7に示すように、シーングラフ159には、棚(shelf)の他、box152で示される男性の後ろにいる(behind)や、Bbox154で示される箱(box)を持っている(holding)など、推定された関係性が全て示される。このように、特定部22は、シーングラフを生成することにより、映像に含まれる物体と人物との関係性を特定できる。
【0038】
しかしながら、シーングラフにも問題点が存在するため、その問題点を解決することにより、特定部22は、映像に含まれる物体と人物との関係性をさらに正確に特定できる。
【0039】
図8は、シーングラフ生成の問題点を説明するための図である。シーングラフの生成では、例えば、
図8に示すように、撮像画像170から個々の物体を切り出しているため、SubjectのBbox171およびObjectのBbox172の領域外にある、コンテキスト上重要な情報を見逃してしまうことがある。より具体的には、
図8の右側に示されるように、カーテン(curtain)のBbox171および猫(cat)のBbox172の各領域が切り出されるが、それら以外の領域の情報は、猫とカーテンとの関係性を推定する際に用いられない。そのため、猫とカーテンとの関係性の推定の際に重要な情報があっても見逃してしまう。例えば、猫およびカーテンの周囲の物体や部屋の構造を見ることで、カーテンが猫の後ろにあることが推定できるが、一般的なシーングラフの生成では、猫とカーテンの関係性を推定するにあたり、周囲の情報は用いられない。そのため、物体間の関係性を推定する際に、周囲の情報も用いることで、より正確な関係性の特定が可能になる。例えば、
図8の例では、撮像画像170から、猫の横にリンゴがあり、猫やリンゴの下はテーブルの可能性が高く、カーテンはドアにかかっているため、カーテンは猫の後ろ(behind)にあるなどといった関係性の推定が可能になる。
【0040】
そこで、本実施形態では、関係性を推定する対象のSubjectおよびObjectごとにコンテキスト上重要な領域を画像全体から適応的に抽出し、対象の関係性を認識する。関係性の認識にとって重要な領域の抽出は、例えば、重要度に応じて0~1の値をとるマップ(以下、「Attentionマップ」という)を生成することで実現される。
【0041】
図9は、本実施形態にかかるAttentionマップ生成の一例を示す図である。
図9に示すように、特定部22は、例えば、SubjectであるカーテンとObjectである猫との関係性を推定する際に、Bbox171および172の領域以外の重要な領域を表現するAttentionマップ180を生成し、当該関係性の推定に用いる。Attentionマップ180は、物体間の関係性の認識率が高くなるように、例えば、撮像画像から検出された物体の特徴量を入力データ、および画像上の重要な領域を正解ラベルとして訓練して生成された機械学習モデルを用いて生成される。また、Attentionマップ180は、例えば、
図9に示すように、SubjectとObjectとの関係性を推定するにあたって重要な領域の重要度が、色や濃淡などによって表現される。なお、コンテキスト上重要な領域が撮像画像のどこにあるか事前にわからないため、特定部22は、例えば、Attentionマップ180を、画像全体を対象として生成する。これにより、特定部22は、コンテキスト上重要な領域をより正確に抽出でき、延いては物体間の関係性をより正確に特定できる。
【0042】
Attentionマップ180を用いた各物体の関係性の推定について、
図10~15を用いて、より具体的に説明する。Attentionマップ180を用いた各物体の関係性の推定は、例えば、ニューラルネットワーク(NN:Neural Network)を用いて行われてよい。
【0043】
図10は、本実施形態にかかる関係性推定のためのNN構成の一例を示す図である。
図10に示すように、Attentionマップ180を用いて各物体の関係性を推定するためのNN40は、例えば、画像特徴抽出部41、物体検出部42、ペア特徴量生成部43、関係性特徴抽出部44、および関係性推定部45を有する。例えば、NN40は、あるシーンを撮影した映像、すなわち撮像画像が入力されると、画像特徴抽出部41による処理から実行し、物体検出部42によって検出された物体のBboxと、当該物体の種類(class)を出力する。また、NN40は、関係性推定部45によって推定された、物体検出部42によって検出された各物体の関係性(relation)を出力する。このようなNN40に含まれる各処理部による処理について、処理ごとに説明する。
【0044】
まず、画像特徴抽出部41によって実行される、撮像画像からの特徴抽出について説明する。
図11は、本実施形態にかかる画像特徴抽出の一例を示す図である。
図11に示すように、画像特徴抽出部41は、例えば、RGB3チャネルの撮像画像170からCチャネルの画像特徴量181を抽出する。なお、画像特徴抽出部41は、例えば、既存技術であるConvolutional neural network(CNN)やTransformerなどにより構成されてよい。また、CNNやTransformerは、ImageNetなどの大規模画像データセットでClassificationタスクなどを事前学習したものを用いることもできる。また、画像特徴量の幅Wと高さHは、一般的に、CNNやPooling処理により入力画像、すなわち、
図11の例では、撮像画像170の幅や高さよりも小さくなる。
【0045】
次に、物体検出部42によって実行される画像特徴量からの物体検出について説明する。
図12は、本実施形態にかかる物体検出の一例を示す図である。
図12に示すように、物体検出部42は、例えば、画像特徴抽出部41によって抽出された画像特徴量181を受け取り、撮像画像170に含まれる各物体のBbox171~175、および、物体の種類を示すclassを出力する。なお、
図12の例では、Bbox171~175は、bboxと表記している。また、出力例として、物体検出部42は、例えば、
図12の右側に示すように、撮像画像に対し、検出された各物体のBbox171~174を重ねて描画し、出力できる。また、各Bbox付近に、カーテン(curtain)や猫(cat)など、各物体の種類を示すclassが出力されてもよい。
【0046】
なお、Bboxの矩形は、例えば、矩形の左上座標(x1,y2)および右下座標(x2,y2)などと、4つの実数値で表現可能である。また、物体検出部42から出力されるclassは、例えば、Bboxで検出された物体が、予め定められた検出対象の物体であるという確率値である。より具体的には、例えば、検出対象の物体が{cat, table, car}(猫、テーブル、車)である場合、
図12の例では、猫に対応するBbox172のclassは、(0.9,0.1,0.2)のような、検出対象の各物体であるという確率値となる。すなわち、この場合のclassは、検出された物体が猫(cat)、テーブル(table)、車(car)である確率が、それぞれ、0.9、0.1、0.2であることを示す。なお、物体検出部42は、例えば、既存技術の物体検出用NNであるFaster Region Based Convolutional Neural Networks(R-CNN)、Mask R-CNN、DEtection TRansformer(DETR)などにより構成されてよい。
【0047】
次に、ペア特徴量生成部43によって実行される、検出された各物体のペアの特徴量について説明する。
図13は、本実施形態にかかるペア特徴量生成の一例を示す図である。
図13に示すように、ペア特徴量生成部43は、例えば、物体検出部42によって検出された物体、すなわち、出力されたclassおよびBboxに基づいて、検出された各物体の特徴量を物体ごとに抽出する。この際、ペア特徴量生成部43は、Mask R-CNNにおけるRoIAlignなどを用いることができる。また、物体検出部42がDETRによって構成される場合は、Transformer decoderの出力した物体ごとの特徴量をそのまま用いることができる。また、抽出される特徴量は、物体ごとに、例えば、256次元などの実数ベクトルとなり得る。
【0048】
そして、ペア特徴量生成部43は、検出された全ての物体の組み合わせを、一方の物体をSubject、他方の物体をObjectとしてペアリングする。
図13の右側に示すペア特徴量182は、SubjectおよびObjectの特徴量をペアごとに並べたものである。また、ペア特徴量生成部43は、ペア特徴量182の次元数を調整するために、ペアリングしたSubjectおよびObjectの特徴量を、既存技術であるMLP(Multi layer perceptron)により変換してもよい。
【0049】
次に、関係性特徴抽出部44によって実行される、検出されペアリングされた物体の関係性を示す特徴量の抽出について説明する。
図14は、本実施形態にかかる関係性特徴抽出の一例を示す図である。
図14に示すように、関係性特徴抽出部44は、例えば、変換部1、変換部2、Attentionマップ生成部、および合成部を有する。
【0050】
まず、
図14に示すように、関係性特徴抽出部44は、画像特徴抽出部41によって抽出された画像特徴量181を、後続の処理で用いるために、変換部1および変換部2によりそれぞれ変換する。変換部1および変換部2は、例えば、MLP(Multilayer-perceptron)などにより実現されてよい。また、
図14の例では、変換部1および変換部2は、異なる重みを持ったMLPにより実現されるため、1と2に区別されている。
【0051】
次に、関係性特徴抽出部44は、Attentionマップ生成部により、ペア特徴量生成部43により生成されたペア特徴量182を一行ずつ、変換部1により変換された画像特徴量との相関をとることでAttentionマップ180を生成する。なお、ペア特徴量182を一行ずつとは、SubjectとObjectとのペアごとにという意味である。また、関係性特徴抽出部44は、ペア特徴量182と変換部1により変換された画像特徴量との相関をとった後に、MLPやLayer normalizationによりAttentionマップ180を変換してもよい。
【0052】
ここで、ある1つのペア特徴量182と変換部1により変換された画像特徴量との相関処理について、より具体的に説明する。なお、ペア特徴量182は前段の処理によりC次元ベクトルに調整されているとする。また、変換部1により変換された画像特徴量は、H×Wでチャネル方向がC次元のテンソルであるとする。また、変換部1により変換された画像特徴量のあるピクセル(x,y)に注目し、これを注目ピクセルとする。当該注目ピクセルは1×1×Cであるため、C次元ベクトルとみなせる。そして、Attentionマップ生成部は、当該注目ピクセルのC次元ベクトルと、C次元ベクトルに調整されたペア特徴量182との相関をとって、相関値(スカラー)を算出する。これにより、注目ピクセル(x,y)における相関値が決定される。この処理を、Attentionマップ生成部は全てのピクセルに対して実行し、H×W×1のAttentionマップ180を生成する。
【0053】
そして、関係性特徴抽出部44は、生成されたAttentionマップ180を、変換部2により変換された画像特徴量にかけて重み付き和をとることで、SubjectとObjectとのペアに対応する画像全体で重要な領域の特徴量を抽出する。なお、重み付き和は、画像全体でとるので、重み付き和をとった特徴量はSubjectとobjectとのペア1つに対して、C次元の特徴量となる。
【0054】
また、Attentionマップ180と、変換部2により変換された画像特徴量との重み付き和についてより具体的に説明する。なお、変換部2により変換された画像特徴量は、H×W×Cのテンソルであるとする。まず、関係性特徴抽出部44は、変換部2により変換された画像特徴量に対し、Attentionマップ180を掛け算する。この際、Attentionマップ180はH×W×1であるため、チャネルはC次元にコピーされる。また、関係性特徴抽出部44は、掛け算したものについて各ピクセルのC次元ベクトルを全て加算する。これにより、C次元ベクトルが1つ生成される。すなわち、1つのAttentionマップ180につき1つのC次元ベクトルが生成されることになる。さらに、実際には、Attentionマップ180はペア特徴量182の数だけ生成されるため、作成されるC次元ベクトルの数もペア特徴量182の数分生成される。以上の処理により、関係性特徴抽出部44は、変換部2により変換された画像特徴量に対して、Attentionマップ180を重みとした重み付き和をとっていることになる。
【0055】
そして、関係性特徴抽出部44は、合成部により、Attentionマップ180によって抽出された重要な領域の特徴量と、ペア特徴量生成部43により生成されたペア特徴量182とを合成し、関係性特徴量183として出力する。より具体的には、関係性特徴抽出部44は、重要な領域の特徴量とペア特徴量182とを次元方向に連結したものを用いることができる。また、関係性特徴抽出部44は、重要な領域の特徴量とペア特徴量182とを連結した後に、次元数を調整するために連結した特徴量をMLPなどで変換してもよい。
【0056】
次に、関係性推定部45によって実行される、SubjectとObjectとの各ペアの関係性の推定について説明する。
図15は、本実施形態にかかる関係性推定の一例を示す図である。関係性推定部45は、関係性特徴抽出部44により出力された関係性特徴量183を受け取り、SubjectとObjectとの各ペアに対応する関係性(relation)を出力する。なお、関係性推定部45は、例えば、既存技術であるMLPやBatch normalizationなどにより構成されてよい。また、出力される関係性は、予め定められた推定対象の関係性であるという確率値である。具体的には、例えば、推定対象の関係性が{on, behind, hold}(上にある、後ろにある、持つ)である場合、
図15の例では、カーテン(curtain)と猫(cat)との関係性として、(0.1,0.9,0.2)のような各関係性に対する確率値が出力される。そして、この場合、特定部22は、確率値が最も高い“behind”(後ろにある)を、カーテン(curtain)と猫(cat)との関係性として特定できる。
【0057】
以上説明したようなAttentionマップ180を用いた各物体の関係性の推定の各処理を、特定部22がNN40を用いて実行する各物体の関係性の特定処理としてまとめる。
【0058】
まず、特定部22は、例えば、映像から映像に含まれる物体を含む第1の領域または映像に含まれる人物を含む第2の領域に対応する第1の特徴量を抽出する。例えば、当該映像は、カメラ装置100によって工場内などの各種施設内を撮影した映像であってよく、第1の領域および第2の領域は、Bboxであってよい。また、このような抽出処理は、
図11を用いて説明したような、画像特徴抽出部41による、撮像画像170から画像特徴量181を抽出する処理に対応する。すなわち、
図11の例では、撮像画像170は映像、画像特徴量181は第1の特徴量に対応する。
【0059】
次に、特定部22は、例えば、抽出した第1の特徴量から映像の中に含まれる物体および人物を検出する。このような物体および人物の検出処理は、
図12を用いて説明したような、物体検出部42による、第1の特徴量に対応する画像特徴量181から物体および人物のBboxおよびclassを検出する処理に対応する。
【0060】
次に、特定部22は、例えば、検出した複数の物体、複数の人物、および当該物体と当該人物の少なくとも1つの組における物体または人物の有する第1の特徴量が組み合わされた第2の特徴量を生成する。このような生成処理は、
図13を用いて説明したような、ペア特徴量生成部43による、第1の特徴量に対応する検出した物体および人物の各特徴量を、ペアごとに並べたペア特徴量182を生成する処理に対応する。すなわち、
図13の例では、ペア特徴量182は第2の特徴量に対応する。
【0061】
次に、特定部22は、例えば、第1の特徴量と第2の特徴量とに基づいて、複数の物体、複数の人物、および物体と人物の少なくとも1つの相互作用を識別した関係性を示す第1のマップを生成する。このような生成処理は、
図14を用いて説明したような、関係性特徴抽出部44による、第1の特徴量に対応する画像特徴量181と第2の特徴量に対応するペア特徴量182とに基づいてAttentionマップ180を生成する処理に対応する。すなわち、
図14の例では、Attentionマップ180は第1のマップに対応する。
【0062】
次に、特定部22は、例えば、第1の特徴量を変換した第3の特徴量と、第1のマップとに基づいて、第4の特徴量を抽出する。このような抽出処理は、
図14を用いて説明したような、関係性特徴抽出部44による、変換部2により変換された特徴量と、第1のマップに対応するAttentionマップ180とに基づいて、関係性特徴量183を抽出する処理に対応する。すなわち、
図14の例では、変換部2により変換された特徴量は、第1の特徴量に対応する画像特徴量181を変換部2により変換された特徴量であって、第3の特徴量に対応し、関係性特徴量183は第4の特徴量に対応する。
【0063】
そして、特定部22は、例えば、第4の特徴量から、物体および人物の相互作用を識別した関係性を特定する。このような特定処理は、
図15を用いて説明したような、関係性推定部45による、第4の特徴量に対応する関係性特徴量183から、物体および人物の関係性(relation)を推定して特定する処理に対応する。
【0064】
以上、シーングラフやAttentionマップを用いて、物体および人物の相互作用を識別した関係性を特定する処理について説明した。また、特定部22は、シーングラフやAttentionマップの他、例えば、取得した映像をHOID用の機械学習モデルに入力することで、第1の領域と、第2の領域と、物体および人物の相互作用を識別した関係性とを特定できる。当該第1の領域および第2の領域は、それぞれ、映像に含まれる物体および人物が出現する領域である。また、HOID用の機械学習モデルは、物体を示す第1のクラスおよび第1の領域の情報と、人物を示す第2のクラスおよび第2の領域の情報と、第1のクラスと第2のクラスとの相互作用と、を識別するように訓練されたモデルである。HOIDについて、
図16を用いて、より具体的に説明する。
【0065】
図16は、本実施形態にかかるHOIDによる関係性特定の一例を示す図である。
図16に示すように、特定部22は、例えば、カメラ装置100によって工場内などの各種施設内を撮影した映像、すなわち撮像画像である画像データ190をHOID用の機械学習モデルに入力し、出力結果を取得する。当該出力結果は、
図16に示すように、例えば、人物のBbox191、人物のクラス名、物体のBbox192、物体のクラス名、人物と物体の相互作用の確率値、および人物と物体の相互作用のクラス名などである。そして、特定部22は、例えば、物体のBbox192および人物のBbox191を、それぞれ、映像に含まれる物体および人物が出現する第1の領域および第2の領域として特定する。また、特定部22は、例えば、HOID用の機械学習モデルの出力結果から、人物と物体の相互作用の確率値が最も高い相互作用のクラス名が示す関係性を、物体および人物の相互作用を識別した関係性として特定する。
【0066】
図4に戻り、判定部23は、例えば、特定部22が特定した、映像に含まれる物体を含む第1の領域と、物体および人物の相互作用を識別した関係性とに基づいて、第2の領域に含まれる人物が異常な行動をしているか否かを判定する。このような判定処理は、映像を分析することで、識別された物体の種類と特定した関係性との組み合わせを、予め設定されたルールと比較することで、第2の領域に含まれる人物が異常な行動をしているか否かを判定する処理を含んでよい。ここで、識別された物体の種類は、例えば、第1の領域に含まれる物体の種類である。また、予め設定されたルールは、例えば、ルールDB16に記憶されるような、人物が異常な行動をしていると判定するための物体と人物との関係性のルールである。
【0067】
また、判定部23は、例えば、特定部22が特定した第1の領域に含まれる物体と、特定した関係性の種類とに基づいて、映像に含まれる複数の人物の中から、所定の物体に対して異なる関係性を示す第1の人物を特定する。そして、判定部23は、例えば、第1の人物が異常な行動をしていると判定する。これは、例えば、所定の物体に対して複数の人物が行動している中で、1人だけ異なる行動をしている場合は、その1人が異常な行動をしているという考えに基づく。そのため、判定部23は、所定の物体に対して、第1の人物のみが、物体および人物の相互作用を識別した第1の関係性を発生させ、第2の人物が第2の関係性を示している場合、第1の人物が異常な行動をしていると判定する。ここで、例えば、第2の人物は、第1の人物以外の人物であり、第2の関係性は、第1の関係性とは異なる関係性である。
【0068】
また、判定部23は、特定部22によって生成されたシーングラフを分析することで、映像に含まれる複数の人物の中から、所定の物体に対して所定の関係性を示す第1の人物を特定し、第1の人物が異常な行動をしていると判定する。
【0069】
通知部24は、例えば、判定部23によって人物が異常な行動をしていると判定された場合、異常な行動をする人物の出現に関連するアラートを通知する。当該アラートは、例えば、異常な行動をする人物の画像や映像、当該人物が存在する場所など位置に関する情報を含んでよい。そして、工場内などの各種施設内の作業者や管理者などは、アラートの通知を受け、異常な行動をしている人物に注意するなどして異常な行動をやめさせることにより、事故の発生を未然に防ぐことができる。
【0070】
(処理の流れ)
次に、情報処理装置10によって実行される異常行動通知処理の流れを説明する。
図17は、本実施形態にかかる異常行動通知処理の流れを示すフローチャートである。
【0071】
まず、
図17に示すように、情報処理装置10は、例えば、カメラ装置100によって工場内などの各種施設内の所定の撮影範囲が撮影された映像を撮像DB13から取得する(ステップS101)。なお、カメラ装置100によって撮影された映像はカメラ装置100から情報処理装置10に随時送信され、撮像DB13に記憶される。
【0072】
次に、情報処理装置10は、例えば、ステップS101で取得した映像を機械学習モデルに入力することで、映像から、物体を含む領域と、人物を含む領域と、物体および人物の関係性とを特定する(ステップS102)。なお、物体や人物を含む領域は、例えば、映像上の物体や人物を矩形で囲むBboxであってよい。また、物体や人物の関係性は、例えば、人物が、物体に近づく、触る、乗るなどであってよい。
【0073】
次に、情報処理装置10は、例えば、ステップS102で特定した物体および人物の関係性に基づいて、人物が異常な行動をしているか否かを判定する(ステップS103)。人物が異常な行動をしていないと判定された場合(ステップS104:No)、
図17に示す異常行動通知処理は終了する。
【0074】
一方、人物が異常な行動をしていると判定された場合(ステップS104:Yes)、情報処理装置10は、例えば、異常な行動をする人物の出現に関連するアラートを通知する(ステップS105)。ステップS105の実行後、
図17に示す異常行動通知処理は終了する。
【0075】
次に、情報処理装置10によって実行される関係性推定処理の流れを説明する。
図18は、本実施形態にかかる関係性推定処理の流れを示すフローチャートである。
図18に示す関係性推定処理は、
図10~15を用いて説明したNN40を用いた物体および人物の関係性の推定処理である。
【0076】
まず、情報処理装置10は、例えば、カメラ装置100によって工場内などの各種施設内の所定の撮影範囲が撮影された映像、すなわち入力画像を撮像DB13から取得する(ステップS201)。なお、当該入力画像は、映像の1フレーム分の画像を含み、撮像DB13に映像として記憶されている場合は、当該映像から1フレームを入力画像として取得する。
【0077】
次に、情報処理装置10は、例えば、ステップS201で取得された入力画像から、当該入力画像の画像特徴として画像特徴量181を抽出する(ステップS202)。
【0078】
次に、情報処理装置10は、例えば、既存技術を用いて、ステップS202で抽出された画像特徴量181から、映像の中に含まれる各物体の場所を示すBboxおよび各物体の種類を示すclassを検出する(ステップS203)。なお、ここで検出される各物体には人物が含まれてよく、以降の説明でも各物体には人物が含まれてよい。
【0079】
次に、情報処理装置10は、例えば、ペア特徴量182として、ステップS203で検出された各物体の組における各物体の有する第1の特徴量が組み合わされた第2の特徴量を生成する(ステップS204)。
【0080】
次に、情報処理装置10は、例えば、Attentionマップ180により抽出される、関係性推定に対して重要な領域の特徴量と、ペア特徴量182とを合成し、関係性特徴量183を抽出する(ステップS205)。なお、Attentionマップ180は、ステップS204で抽出されたペア特徴量182から生成される。
【0081】
そして、情報処理装置10は、例えば、ステップS205で抽出された関係性特徴量183に基づいて、画像から検出された各物体の関係性を推定する(ステップS206)。なお、関係性の推定は、例えば、関係性の種類ごとの確率値を算出することであってよい。ステップS206の実行後、
図18に示す関係性推定処理は終了する。
【0082】
(効果)
上述したように、情報処理装置10は、映像を取得し、取得した映像を分析することで、映像に含まれる物体を含む第1の領域と、映像に含まれる人物を含む第2の領域と、物体および人物の相互作用を識別した関係性とを特定し、特定した第1の領域と、特定した関係性とに基づいて、第2の領域に含まれる人物が異常な行動をしているか否かを判定し、人物が異常な行動をしていると判定した場合、異常な行動をする人物の出現に関連するアラートを通知する。
【0083】
このようにして、情報処理装置10は、映像から物体と人物との関係性を特定し、特定した関係性に基づいて、人物が異常な行動をしているか否かを判定してアラートを通知する。これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定して通知できる。
【0084】
また、情報処理装置10によって実行される、人物が異常な行動をしているか否かを判定する処理は、映像を分析することで、第1の領域に含まれる物体の種類を識別し、識別された物体の種類と特定した関係性との組み合わせを、予め設定されたルールと比較することで、第2の領域に含まれる人物が異常な行動をしているか否かを判定する処理を含む。
【0085】
これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定できる。
【0086】
また、情報処理装置10によって実行される、第1の領域と、第2の領域と、関係性とを特定する処理は、取得した映像を分析することで、第1の領域と、第2の領域と、関係性の種類とを特定する処理を含み、人物が異常な行動をしているか否かを判定する処理は、特定した第1の領域に含まれる物体と、特定した関係性の種類とに基づいて、映像に含まれる複数の人物の中から、所定の物体に対して異なる関係性を示す第1の人物を特定し、第1の人物が異常な行動をしていると判定する処理を含む。
【0087】
これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定できる。
【0088】
また、情報処理装置10によって実行される、第1の人物が異常な行動をしていると判定する処理は、第1の人物のみが所定の物体に対して、物体および人物の相互作用を識別した第1の関係性を発生させ、第1の人物以外の人物が所定の物体に対して第1の関係性とは異なる第2の関係性を示している場合、第1の人物が異常な行動をしていると判定する処理を含む。
【0089】
これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定できる。
【0090】
また、情報処理装置10によって実行される、第1の領域と、第2の領域と、関係性とを特定する処理は、取得した映像を機械学習モデルに入力することで、映像に含まれる人物ごとに、第1の領域と、第2の領域と、関係性とを特定したシーングラフを生成する処理を含み、人物が異常な行動をしているか否かを判定する処理は、シーングラフを分析することで、映像に含まれる複数の人物の中から、所定の物体に対して所定の関係性を示す第1の人物を特定し、第1の人物が異常な行動をしていると判定する処理を含む。
【0091】
これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定できる。
【0092】
また、情報処理装置10によって実行される、第1の領域と、第2の領域と、関係性とを特定する処理は、映像から第1の領域または第2の領域に対応する第1の特徴量を抽出し、抽出した第1の特徴量から映像の中に含まれる物体および人物を検出し、検出した複数の物体、複数の人物、および物体と人物の少なくとも1つの組における物体または人物の有する第1の特徴量が組み合わされた第2の特徴量を生成し、第1の特徴量と第2の特徴量とに基づいて、複数の物体、複数の人物、および物体と人物の少なくとも1つの相互作用を識別した関係性を示す第1のマップを生成し、第1の特徴量を変換した第3の特徴量と、第1のマップとに基づいて、第4の特徴量を抽出し、第4の特徴量から、関係性を特定する処理を含む。
【0093】
これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定できる。
【0094】
また、情報処理装置10によって実行される、第1の領域と、第2の領域と、関係性とを特定する処理は、取得した映像を機械学習モデルに入力することで、第1の領域と、第2の領域と、関係性とを特定する処理を含み、機械学習モデルは、物体を示す第1のクラスおよび物体が出現する領域を示す第1の領域の情報と、人物を示す第2のクラスおよび人物が出現する領域を示す第2の領域の情報と、第1のクラスと第2のクラスとの相互作用と、を識別するように訓練されたHOID用のモデルである。
【0095】
これにより、情報処理装置10は、映像から人物が異常な行動をしていることをより正確に判定できる。
【0096】
(システム)
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報は、特記する場合を除いて任意に変更されてもよい。また、実施例で説明した具体例、分布、数値などは、あくまで一例であり、任意に変更されてもよい。
【0097】
また、各装置の構成要素の分散や統合の具体的形態は図示のものに限られない。つまり、その構成要素の全部または一部は、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合されてもよい。さらに、各装置の各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0098】
(ハードウェア)
図19は、情報処理装置10のハードウェア構成例を説明する図である。
図19に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、プロセッサ10c、メモリ10dを有する。また、
図19に示した各部は、バスなどで相互に接続される。
【0099】
通信装置10aは、ネットワークインタフェースカードなどであり、他の情報処理装置との通信を行う。HDD10bは、
図4に示した機能を動作させるプログラムやDBを記憶する。
【0100】
プロセッサ10cは、
図4に示した各処理部と同様の処理を実行するプログラムをHDD10bなどから読み出してメモリ10dに展開することで、
図4などで説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10cは、取得部21、特定部22、判定部23、および通知部24などと同様の機能を有するプログラムをHDD10bなどから読み出す。そして、プロセッサ10cは、特定部22などと同様の処理を実行するプロセスを実行する。
【0101】
このように情報処理装置10は、
図4に示した各処理部と同様の処理を実行するプログラムを読み出して実行することで動作制御処理を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体からプログラムを読み出し、読み出されたプログラムを実行することで上述した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他の情報処理装置がプログラムを実行する場合や、情報処理装置10と他の情報処理装置とこれらが協働してプログラムを実行するような場合にも、本実施形態が同様に適用されてよい。
【0102】
また、
図4に示した各処理部と同様の処理を実行するプログラムは、インターネットなどのネットワークを介して配布できる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行できる。
【0103】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0104】
(付記1)映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【0105】
(付記2)前記人物が異常な行動をしているか否かを判定する処理は、
前記映像を分析することで、前記第1の領域に含まれる前記物体の種類を識別し、
識別された前記物体の種類と特定した前記関係性との組み合わせを、予め設定されたルールと比較することで、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定する
処理を含むことを特徴とする付記1に記載の情報処理プログラム。
【0106】
(付記3)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を分析することで、前記第1の領域と、前記第2の領域と、前記関係性の種類とを特定する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
特定した前記第1の領域に含まれる前記物体と、特定した前記関係性の種類とに基づいて、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して異なる前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記1に記載の情報処理プログラム。
【0107】
(付記4)前記第1の人物が異常な行動をしていると判定する処理は、
第1の人物のみが所定の前記物体に対して、前記物体および前記人物の相互作用を識別した第1の関係性を発生させ、前記第1の人物以外の前記人物が前記所定の物体に対して前記第1の関係性とは異なる第2の関係性を示している場合、前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記3に記載の情報処理プログラム。
【0108】
(付記5)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記映像に含まれる前記人物ごとに、前記第1の領域と、前記第2の領域と、前記関係性とを特定したシーングラフを生成する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
前記シーングラフを分析することで、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して所定の前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記1に記載の情報処理プログラム。
【0109】
(付記6)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
前記映像から前記第1の領域または前記第2の領域に対応する第1の特徴量を抽出し、
抽出した前記第1の特徴量から前記映像の中に含まれる前記物体および前記人物を検出し、
検出した複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの組における前記物体または前記人物の有する前記第1の特徴量が組み合わされた第2の特徴量を生成し、
前記第1の特徴量と前記第2の特徴量とに基づいて、複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの相互作用を識別した前記関係性を示す第1のマップを生成し、
前記第1の特徴量を変換した第3の特徴量と、前記第1のマップとに基づいて、第4の特徴量を抽出し、
前記第4の特徴量から、前記関係性を特定する
処理を含むことを特徴とする付記1に記載の情報処理プログラム。
【0110】
(付記7)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記第1の領域と、前記第2の領域と、前記関係性とを特定する
処理を含み、
前記機械学習モデルは、前記物体を示す第1のクラスおよび前記物体が出現する領域を示す前記第1の領域の情報と、前記人物を示す第2のクラスおよび前記人物が出現する領域を示す前記第2の領域の情報と、前記第1のクラスと前記第2のクラスとの相互作用と、を識別するように訓練されたHOID(Human Object Interaction Detection)用のモデルである
ことを特徴とする付記1に記載の情報処理プログラム。
【0111】
(付記8)映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理をコンピュータが実行することを特徴とする情報処理方法。
【0112】
(付記9)前記人物が異常な行動をしているか否かを判定する処理は、
前記映像を分析することで、前記第1の領域に含まれる前記物体の種類を識別し、
識別された前記物体の種類と特定した前記関係性との組み合わせを、予め設定されたルールと比較することで、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定する
処理を含むことを特徴とする付記8に記載の情報処理方法。
【0113】
(付記10)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を分析することで、前記第1の領域と、前記第2の領域と、前記関係性の種類とを特定する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
特定した前記第1の領域に含まれる前記物体と、特定した前記関係性の種類とに基づいて、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して異なる前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記8に記載の情報処理方法。
【0114】
(付記11)前記第1の人物が異常な行動をしていると判定する処理は、
第1の人物のみが所定の前記物体に対して、前記物体および前記人物の相互作用を識別した第1の関係性を発生させ、前記第1の人物以外の前記人物が前記所定の物体に対して前記第1の関係性とは異なる第2の関係性を示している場合、前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記10に記載の情報処理方法。
【0115】
(付記12)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記映像に含まれる前記人物ごとに、前記第1の領域と、前記第2の領域と、前記関係性とを特定したシーングラフを生成する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
前記シーングラフを分析することで、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して所定の前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記8に記載の情報処理方法。
【0116】
(付記13)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
前記映像から前記第1の領域または前記第2の領域に対応する第1の特徴量を抽出し、
抽出した前記第1の特徴量から前記映像の中に含まれる前記物体および前記人物を検出し、
検出した複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの組における前記物体または前記人物の有する前記第1の特徴量が組み合わされた第2の特徴量を生成し、
前記第1の特徴量と前記第2の特徴量とに基づいて、複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの相互作用を識別した前記関係性を示す第1のマップを生成し、
前記第1の特徴量を変換した第3の特徴量と、前記第1のマップとに基づいて、第4の特徴量を抽出し、
前記第4の特徴量から、前記関係性を特定する
処理を含むことを特徴とする付記8に記載の情報処理方法。
【0117】
(付記14)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記第1の領域と、前記第2の領域と、前記関係性とを特定する
処理を含み、
前記機械学習モデルは、前記物体を示す第1のクラスおよび前記物体が出現する領域を示す前記第1の領域の情報と、前記人物を示す第2のクラスおよび前記人物が出現する領域を示す前記第2の領域の情報と、前記第1のクラスと前記第2のクラスとの相互作用と、を識別するように訓練されたHOID(Human Object Interaction Detection)用のモデルである
ことを特徴とする付記8に記載の情報処理方法。
【0118】
(付記15)映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理を実行する制御部を有することを特徴とする情報処理装置。
【0119】
(付記16)前記人物が異常な行動をしているか否かを判定する処理は、
前記映像を分析することで、前記第1の領域に含まれる前記物体の種類を識別し、
識別された前記物体の種類と特定した前記関係性との組み合わせを、予め設定されたルールと比較することで、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定する
処理を含むことを特徴とする付記15に記載の情報処理装置。
【0120】
(付記17)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を分析することで、前記第1の領域と、前記第2の領域と、前記関係性の種類とを特定する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
特定した前記第1の領域に含まれる前記物体と、特定した前記関係性の種類とに基づいて、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して異なる前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記15に記載の情報処理装置。
【0121】
(付記18)前記第1の人物が異常な行動をしていると判定する処理は、
第1の人物のみが所定の前記物体に対して、前記物体および前記人物の相互作用を識別した第1の関係性を発生させ、前記第1の人物以外の前記人物が前記所定の物体に対して前記第1の関係性とは異なる第2の関係性を示している場合、前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記17に記載の情報処理装置。
【0122】
(付記19)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記映像に含まれる前記人物ごとに、前記第1の領域と、前記第2の領域と、前記関係性とを特定したシーングラフを生成する
処理を含み、
前記人物が異常な行動をしているか否かを判定する処理は、
前記シーングラフを分析することで、前記映像に含まれる複数の前記人物の中から、所定の前記物体に対して所定の前記関係性を示す第1の人物を特定し、
前記第1の人物が異常な行動をしていると判定する
処理を含むことを特徴とする付記15に記載の情報処理装置。
【0123】
(付記20)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
前記映像から前記第1の領域または前記第2の領域に対応する第1の特徴量を抽出し、
抽出した前記第1の特徴量から前記映像の中に含まれる前記物体および前記人物を検出し、
検出した複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの組における前記物体または前記人物の有する前記第1の特徴量が組み合わされた第2の特徴量を生成し、
前記第1の特徴量と前記第2の特徴量とに基づいて、複数の前記物体、複数の前記人物、および前記物体と前記人物の少なくとも1つの相互作用を識別した前記関係性を示す第1のマップを生成し、
前記第1の特徴量を変換した第3の特徴量と、前記第1のマップとに基づいて、第4の特徴量を抽出し、
前記第4の特徴量から、前記関係性を特定する
処理を含むことを特徴とする付記15に記載の情報処理装置。
【0124】
(付記21)前記第1の領域と、前記第2の領域と、前記関係性とを特定する処理は、
取得した前記映像を機械学習モデルに入力することで、前記第1の領域と、前記第2の領域と、前記関係性とを特定する
処理を含み、
前記機械学習モデルは、前記物体を示す第1のクラスおよび前記物体が出現する領域を示す前記第1の領域の情報と、前記人物を示す第2のクラスおよび前記人物が出現する領域を示す前記第2の領域の情報と、前記第1のクラスと前記第2のクラスとの相互作用と、を識別するように訓練されたHOID(Human Object Interaction Detection)用のモデルである
ことを特徴とする付記15に記載の情報処理装置。
【0125】
(付記22)プロセッサプロセッサと、
プロセッサに動作可能に接続されたメモリと
を備えた情報処理装置であって、プロセッサは、
映像を取得し、
取得した前記映像を分析することで、前記映像に含まれる物体を含む第1の領域と、前記映像に含まれる人物を含む第2の領域と、前記物体および前記人物の相互作用を識別した関係性とを特定し、
特定した前記第1の領域と、特定した前記関係性とに基づいて、前記第2の領域に含まれる前記人物が異常な行動をしているか否かを判定し、
前記人物が異常な行動をしていると判定した場合、異常な行動をする前記人物の出現に関連するアラートを通知する
処理を実行することを特徴とする情報処理装置。
【符号の説明】
【0126】
1 情報処理システム
10 情報処理装置
10a 通信装置
10b HDD
10c プロセッサ
10d メモリ
11 通信部
12 記憶部
13 撮像DB
14 カメラ設置DB
15 モデルDB
16 ルールDB
20 制御部
21 取得部
22 特定部
23 判定部
24 通知部
40 NN
41 画像特徴抽出部
42 物体検出部
43 ペア特徴量生成部
44 関係性特徴抽出部
45 関係性推定部
50 ネットワーク
100 カメラ装置
150 撮像画像
151~155 Bbox
159 シーングラフ
160 撮像画像
161~166 Bbox
170 撮像画像
171~175 Bbox
180 Attentionマップ
181 画像特徴量
182 ペア特徴量
183 関係性特徴量
190 画像データ
191、192 Bbox