(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022170790
(43)【公開日】2022-11-11
(54)【発明の名称】監視装置、監視方法およびプログラム
(51)【国際特許分類】
G08B 31/00 20060101AFI20221104BHJP
G08B 25/00 20060101ALI20221104BHJP
H04N 7/18 20060101ALI20221104BHJP
G06T 7/00 20170101ALI20221104BHJP
【FI】
G08B31/00 A
G08B25/00 510M
H04N7/18 D
G06T7/00 300F
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021076989
(22)【出願日】2021-04-30
(71)【出願人】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(71)【出願人】
【識別番号】000004260
【氏名又は名称】株式会社デンソー
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(72)【発明者】
【氏名】塚原 裕史
(72)【発明者】
【氏名】今城 広志
【テーマコード(参考)】
5C054
5C087
5L096
【Fターム(参考)】
5C054FC12
5C054FF05
5C054HA01
5C087AA02
5C087AA03
5C087AA10
5C087AA25
5C087AA37
5C087AA40
5C087DD03
5C087DD14
5C087DD27
5C087DD49
5C087EE18
5C087FF01
5C087FF02
5C087FF04
5C087GG08
5C087GG66
5C087GG70
5C087GG83
5L096BA02
5L096DA02
5L096HA09
5L096JA03
5L096JA11
(57)【要約】 (修正有)
【課題】監視エリアにおけるリスクを適切に推定できる監視装置、方法及びプログラムを提供する。
【解決手段】監視装置1は、監視エリアを撮像した画像を取得する画像取得部10と、画像中の人と物体(床、椅子、ドア、手摺、旋盤、発電機、ロボットアーム、スマホ、バッグ、他の人等)間の関係を要素とし、前記要素の集合によって構成されるシーングラフを推定するシーングラフ生成部12と、複数のシーングラフと複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部17と、共起モデル記憶部17に記憶された共起モデルを読み出し、画像から推定したシーングラフを共起モデルに適用してリスクを推定するリスク推定部13と、リスク推定部13にて推定されたリスクに関する情報を通知する通知部15と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
監視エリアを撮像した画像を取得する画像取得部と、
前記画像中のオブジェクト間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を推定する関係推定部と、
複数のオブジェクト間の関係と複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部と、
前記共起モデル記憶部に記憶された共起モデルを読み出し、前記画像から推定したグラフ構造を前記共起モデルに適用してリスクを推定するリスク推定部と、
前記リスク推定部にて推定されたリスクに関する情報を通知する通知部と、
を備える監視装置。
【請求項2】
前記共起モデルは、オブジェクト間の関係とリスクの共起の度合いが自己相互情報量によって規定されている請求項1に記載の監視装置。
【請求項3】
前記リスク推定部は、前記画像から推定した前記グラフ構造の前記要素をシードとしてメッセージパッシングを行って前記グラフ構造の特徴量を更新し、前記特徴量に基づいてリスクを推定する請求項1または2に記載の監視装置。
【請求項4】
前記リスク推定部は、推定されたリスクに寄与したオブジェクト間の関係を決定する請求項1から3のいずれか1項に記載の監視装置。
【請求項5】
リスクに対処するマニュアルを記憶したマニュアル記憶部と、
前記リスク推定部にて推定されたリスクに対処するマニュアルを前記マニュアル記憶部から読み出して、前記マニュアルに基づいてメッセージを生成するメッセージ生成部と、
を備え、
前記通知部は、前記メッセージを通知する請求項1から4のいずれか1項に記載の監視装置。
【請求項6】
前記メッセージ生成部は、メッセージを受け取る対象者の属性に応じて、前記メッセージの表現を変換する請求項5に記載の監視装置。
【請求項7】
監視エリアから収集した音声データを取得する音声データ取得部を備え、
前記共起モデル記憶部は、複数のオブジェクト間の関係および音声データと複数のリスクとの共起についてのモデルであって予め学習により生成された共起モデルを記憶しており、
前記共起モデル記憶部に記憶された共起モデルを読み出し、前記画像から推定したグラフ構造と前記音声データ取得部にて取得した音声データを前記共起モデルに適用してリスクを推定する請求項1から6のいずれか1項に記載の監視装置。
【請求項8】
監視エリアに設けられたセンサで検出したセンサデータを取得するセンサデータ取得部を備え、
前記共起モデル記憶部は、複数のオブジェクト間の関係およびセンサデータと複数のリスクとの共起についてのモデルであって予め学習により生成された共起モデルを記憶しており、
前記共起モデル記憶部に記憶された共起モデルを読み出し、前記画像から推定したグラフ構造と前記センサで検出したセンサデータを前記共起モデルに適用してリスクを推定する請求項1から6のいずれか1項に記載の監視装置。
【請求項9】
前記リスク推定部にて推定されたリスクに関係する装置に対して、リスク回避のための動作を指示するリスク回避命令を送信する命令送信部を備える請求項1から8のいずれか1項に記載の監視装置。
【請求項10】
監視エリアにおけるリスクを監視装置によって推定する監視方法であって、
前記監視装置は、監視エリアを撮像した画像を取得するステップと、
前記監視装置は、前記画像中のオブジェクト間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を推定するステップと、
前記監視装置は、複数のオブジェクト間の関係と複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部から共起モデルを読み出し、前記画像から推定したグラフ構造を前記共起モデルに適用してリスクを推定するステップと、
前記監視装置は、推定されたリスクに関する情報を通知するステップと、
を備える監視方法。
【請求項11】
監視エリアにおけるリスクを推定するためのプログラムであって、コンピュータに、
監視エリアを撮像した画像を取得するステップと、
前記画像中のオブジェクト間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を推定するステップと、
複数のオブジェクト間の関係と複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部から共起モデルを読み出し、前記画像から推定したグラフ構造を前記共起モデルに適用してリスクを推定するステップと、
推定されたリスクに関する情報を通知するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
人の行動におけるリスク発生を監視する装置に関する。
【背景技術】
【0002】
従来技術として、設備内を撮影した映像を遠隔地にいる人が目視で監視するシステムが一般に普及している。しかし、人が目視で監視できる映像の範囲には限界があり、あまり多くの設備を長時間、正確に監視することは非常に困難を伴う。また、ヒューマンエラーなどにより、監視対象の見落としや誤った判断を行うという課題もある。また、今後、無人の移動体が普及する際に、遠隔監視をスケールすることが困難であるという課題もある。
【0003】
監視エリアを無人で監視する技術として、画像から人を検出し、骨格モデルを当てはめることで人の姿勢状態や行動を推定し、転倒などのリスクを推定する技術が知られている。また、貨物車両などの運転者の運転状況をモニターし、非常事態の発生が検出された際に運転者及び監視者へ通知する発明が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、骨格モデルから推定される姿勢情報のみでは、人が手摺に掴っていたり、壁に寄り掛かっているなどの状況を検知することが困難である。また、人が屈みこんでいるような場合には、骨格データが得られないなどの課題がある。
【0006】
また、引用文献1に記載された技術は運転者の行動に限定されており、同乗者がいる場合に、同乗者に関するリスクなどを監視することや、車両以外の施設における人の行動に関するリスクは考えられていない。
【0007】
本発明は上記背景に鑑み、監視エリアにおけるリスクを適切に推定できる監視装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の監視装置は、監視エリアを撮像した画像を取得する画像取得部と、前記画像中のオブジェクト(例えば、人、床、椅子、ドア、手摺、旋盤、発電機、ロボットアーム、スマホ、バッグ、他の人等)間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を推定する関係推定部と、複数のオブジェクト間の関係と複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部と、前記共起モデル記憶部に記憶された共起モデルを読み出し、前記画像から推定したグラフ構造を前記共起モデルに適用してリスクを推定するリスク推定部と、前記リスク推定部にて推定されたリスクに関する情報を通知する通知部とを備える。
【0009】
グラフ構造は、画像に映るオブジェクトをノードとしてその間に成立する関係を要素とし、その要素の集合によって構成される。グラフ構造の一例はシーングラフであり、シーングラフはオブジェクト間に成立する関係を有向エッジとするグラフである。シーングラフは、例えば、人のオブジェクトを主体S、物体のオブジェクトを客体Oとし、オブジェクト間の関係P(predicate)として、{S,P,O}のセットのデータで構成される。シーングラフの生成方法としては、種々の方法が知られている(黒澤郁音ほか「言語特徴量を利用したシーングラフ生成の効率的な計算機構」言語処理学会第25回年次大会発表論文集、及びこの論文に記載された引用論文等)。
【0010】
本発明の構成により、画像からオブジェクト間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を生成し、グラフ構造に基づいてリスクを推定するので、人の行動状態や周辺状況において発生するリスクを適切に推定することができる。例えば、人が立っている状態だけからはリスクの有無が判然としない場合でも、人が何かにつかまっていれば転倒リスクがないというように判断できる。
【0011】
本発明の監視装置において、前記共起モデルは、オブジェクト間の関係とリスクの共起の度合いが自己相互情報量によって規定されていてもよい。自己相互情報量はPMI(Pointwise Mutual Information)とも呼ばれる、2つの値の共起しやすさを表す指標である。PMI(x,y)=log(P(x,y)/P(x)・P(y))で表される。xとyが共起しやすい場合にはPMI(x,y)>0、xとyが独立に出現する場合にはPMI(x,y)=0、xとyが共起しにくい場合にはPMI(x,y)<0となる。シーングラフとリスクの共起関係を自己相互情報量で規定することで、共起モデルを適切に構成できる。
【0012】
本発明の監視装置において、前記リスク推定部は、前記画像から推定した前記グラフ構造の前記要素をシードとしてメッセージパッシングを行って前記グラフ構造の特徴量を更新し、前記特徴量に基づいてリスクを推定してもよい。
【0013】
グラフ構造の推定の精度は状況によって異なり、場合によって信頼性が低いこともある。本発明の構成によれば、推定されたグラフ構造をシードとしてメッセージパッシングを行って求めたグラフ構造の特徴量を用いて、リスクを適切に推定することができる。
【0014】
本発明の監視装置において、前記リスク推定部は、推定されたリスクに寄与したオブジェクト間の関係を決定してもよい。
【0015】
この構成により、リスクが発生している状況を把握することができる。なお、ここで決定されるオブジェクト間の関係は、画像から推定されたオブジェクト間の関係のみならず、ラベル伝搬によって推定されたオブジェクト間の関係であってもよい。
【0016】
本発明の監視装置は、リスクに対処するマニュアルを記憶したマニュアル記憶部と、前記リスク推定部にて推定されたリスクに対処するマニュアルを前記マニュアル記憶部から読み出して、前記マニュアルに基づいてメッセージを生成するメッセージ生成部とを備え、前記通知部は、前記メッセージを通知してもよい。
【0017】
このようにリスクに対処するメッセージを通知することで、通知を受けた人がリスクに対処することができる。
【0018】
本発明の監視装置において、前記メッセージ生成部は、メッセージを受け取る対象者の属性に応じて、前記メッセージの表現を変換してもよい。この構成により、対象者の属性に応じた表現で、メッセージを分かりやすく伝えることができる。
【0019】
本発明の監視装置は、監視エリアから収集した音声データを取得する音声データ取得部を備え、前記共起モデル記憶部は、複数のオブジェクト間の関係および音声データと複数のリスクとの共起についてのモデルであって予め学習により生成された共起モデルを記憶しており、前記共起モデル記憶部に記憶された共起モデルを読み出し、前記画像から推定したグラフ構造と前記音声データ取得部にて取得した音声データを前記共起モデルに適用してリスクを推定してもよい。このように監視エリアから収集した音声データを用いることで、リスクを適切に推定することができる。
【0020】
本発明の監視装置は、監視エリアに設けられたセンサで検出したセンサデータを取得するセンサデータ取得部を備え、前記共起モデル記憶部は、複数のオブジェクト間の関係およびセンサデータと複数のリスクとの共起についてのモデルであって予め学習により生成された共起モデルを記憶しており、前記共起モデル記憶部に記憶された共起モデルを読み出し、前記画像から推定したグラフ構造と前記センサから取得したセンサデータを前記共起モデルに適用してリスクを推定してもよい。このように監視エリアに設けられたセンサで検出したセンサデータを用いることで、グラフ構造の推定の精度を高め、リスクを適切に推定することができる。
【0021】
本発明の監視装置は、前記リスク推定部にて推定されたリスクに関係する装置に対して、リスク回避のための動作を指示するリスク回避命令を送信する命令送信部を備えてもよい。この構成により、自動的にリスクを回避することができる。
【0022】
本発明の監視方法は、監視エリアにおけるリスクを監視装置によって推定する監視方法であって、前記監視装置は、監視エリアを撮像した画像を取得するステップと、前記監視装置は、前記画像中のオブジェクト間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を推定するステップと、前記監視装置は、複数のオブジェクト間の関係と複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部から共起モデルを読み出し、前記画像から推定したシーン構造を前記共起モデルに適用してリスクを推定するステップと、前記監視装置は、推定されたリスクに関する情報を通知するステップとを備える。
【0023】
本発明のプログラムは、監視エリアにおけるリスクを推定するためのプログラムであって、コンピュータに、監視エリアを撮像した画像を取得するステップと、前記画像中のオブジェクト間の関係を要素とし、前記要素の集合によって構成されるグラフ構造を推定するステップと、複数のオブジェクト間の関係と複数のリスクとの共起に関するモデルであって予め学習により生成された共起モデルを記憶する共起モデル記憶部から共起モデルを読み出し、前記画像から推定したグラフ構造を前記共起モデルに適用してリスクを推定するステップと、推定されたリスクに関する情報を通知するステップとを実行させる。
【発明の効果】
【0024】
本発明によれば、人の行動状態や人の周辺状況において発生するリスクを適切に推定することができる。
【図面の簡単な説明】
【0025】
【
図1】第1の実施の形態の監視装置の構成を示す図である。
【
図5】メッセージ生成部にて生成されるメッセージの例を示す図である。
【
図6】第1の実施の形態の監視装置の動作を示す図である。
【
図7】第2の実施の形態の監視装置の構成を示す図である。
【
図8】第3の実施の形態の監視装置の構成を示す図である。
【
図9】第4の実施の形態の監視装置の構成を示す図である。
【
図10】第5の実施の形態の監視システムの構成を示す図である。
【発明を実施するための形態】
【0026】
以下、本発明の実施の形態の監視装置について図面を参照して説明する。
(第1の実施の形態)
図1は、監視装置1の構成を示す図である。監視装置1は、監視エリアを撮影して得られた画像からリスクの発生を推定し、リスクが発生すると推定された場合にリスクが発生しそうな状況説明とそのリスクへの対処の仕方を通知する。
【0027】
図2は、監視エリアの例を示す図である。本実施の形態では、
図2に示すような工場を監視エリアとし、工場内で発生するリスクを推定する。なお、工場は監視エリアの一例であり、本発明の監視装置1は、例えば、乗物(バス等)の中や駅の構内等を監視エリアとすることができる。
【0028】
監視装置1は、画像取得部10と、オブジェクト検出部11と、シーングラフ生成部12と、リスク推定部13と、メッセージ生成部14と、通知部15とを有している。画像取得部10は、監視エリアを撮影するカメラ30から画像データを取得する。
【0029】
オブジェクト検出部11は、画像データから画像に映っているオブジェクトを検出する。オブジェクト検出部11は、オブジェクト検出モデル記憶部16からオブジェクト検出モデルを読み出し、オブジェクト検出モデルに画像データを入力することで、画像からオブジェクトを検出する。オブジェクト検出モデルは、深層学習によって学習を行ったニューラルネットワークのモデルである。オブジェクト検出部11は、検出したオブジェクトに対して、オブジェクトの種類(人、操作盤、アーム、柱、消火器、通路、作業台等)を示すラベルを付与する。
【0030】
シーングラフ生成部12は、オブジェクト検出部11にて検出された人と物体との関係を表すシーングラフを推定する。シーングラフ生成部12は、検出された人(Object)と物体(Subject)との間に関係があるか否かを推定し、関係があると推定された人と物体の関係(Predicate)を推定する。シーングラフの生成の方法は種々の方法が提案されており、それらの方法を採用することができる。なお、一般には、シーングラフは人と物体の関係に限らず、物体どうしの関係も含む。
【0031】
図3は、シーングラフの例を示す図である。シーングラフは、オブジェクトとしての人とオブジェクトとしての物体をノードとして、ノード間の関係を有向エッジで表したグラフ構造である。
図3において点線で囲んで示すように、例えば、人とベルトコンベアは、人がベルトコンベアの近くにいるという関係を有している。シーングラフは、オブジェクト間の関係を要素とし、要素の集合をグラフ構造で表している。
【0032】
リスク推定部13は、生成されたシーングラフからリスクを推定する。リスク推定部13には、共起モデル記憶部17が接続されている。共起モデル記憶部17は、シーングラフを構成するオブジェクト間の関係と複数のリスクとの共起に関する共起モデルを記憶している。
【0033】
図4は、共起モデルの例を示す図である。共起モデルの左側のノードは、オブジェクト間の関係であり、シーングラフの各要素となるものである。共起モデルに含まれるオブジェクト間の関係は、学習データの画像に含まれていた人と物体の関係である。共起モデルの右側のノードはリスクである。オブジェクト間の関係t_ijkは、エンティティクラスs_i(1≦i≦M)、関係クラスp_j(1≦j≦N)、エンティティクラスまたは属性クラスo_k(1≦k≦R)の3つのデータのセットで構成される。以下、オブジェクト間の関係t_ijkを、単に「関係t_ijk」ということがある。リスクr_l(1≦l≦L)は、共起モデルを生成した学習データに含まれていたリスクのデータである。リスクr_lには正常の状態も含んでいる。
【0034】
共起モデルは、関係t_ijkとリスクr_lの共起関係を表す重み係数W_l,[ijk]を正規化自己相互情報量NPMIで規定している。下記において、式(1)は自己相互情報量PMI、式(2)は正規化自己相互情報量を表す。正規化自己相互情報量NPMIを用いることにより、重み係数が取り得る値を-1から1の範囲とすることができる。
【数1】
【0035】
共起モデルは予め学習データを用いて学習され、オブジェクト間の関係t_ijkとリスクr_lとの間の重み係数W_l,[ijk]が決定されている。学習データは、画像からシーングラフを生成すると共に、当該画像で発生しているリスクを人がラベル付けすることにより準備することができる。
【0036】
リスク推定部13は、ラベル伝搬部20とロジスティック回帰部21とを有している。ラベル伝搬部20は、画像から検出されたシーングラフをシードとして、ラベル伝搬を行う。ラベル伝搬はメッセージパッシング法の一つである。ラベル伝搬は、データのラベルを関連するラベルに伝搬させることでモデルの学習を行う、半教師ありの学習方法である。一例として、単語の例であるが、小町守「ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得」情報処理学会第191回自然言語処理研究会報告に、ラベル伝搬について記載されている。
【0037】
本実施の形態では、関係t_ijkと関係t_i’j’k’の類似度行列Aを次式(3)で求める。なお、類似度行列Aは、「隣接行列」とも呼ばれる。
【数2】
【0038】
類似度行列Aは、関係t_ijkと関係t_i’j’k’の類似度をリスクを介して評価していることになる。例えば、関係t_ijkに強い共起を有するリスクr_lがあり、そのリスクr_lと別の関係t_i’j’k’との共起が強い場合には、関係t_ijkと関係t_i’j’k’の類似度が高いと判断できる。関係t_ijkが検出されており、関係t_i’j’k’が検出されていない場合であっても、関係t_ijkが検出されているということから、関係t_i’j’k’も存在する可能性があると判断することが可能である。
【0039】
ラベル伝搬においては、いずれのラベル(この場合は「オブジェクト間の関係」)
とも共起するジェネリックなラベル(この場合は「リスク」)があると、複数の無関係なラベルが混合されてしまうという課題があるので、類似度行列Aをそのまま使わずに、次式(4)に示す正規化ラプラシアンLを用いる。D(A)は、類似度行列Aの正方対角行列である。
【数3】
【0040】
ラベル伝搬部20は、次の式(5)を用いて、関係t_ijkの関係スコアf
[ijk]のラベル伝搬を行う。式(5)では、fの添字[ijk]は省略している。係数αは、初期値の影響をどの程度残すかを調整するパラメータである。αの値が大きいほど、初期値f
(0)の影響が小さくなる。
【数4】
【0041】
関係スコアは、関係t_ijkが存在する可能性に関するスコアであり、初期値f^(0)は、画像から推定された関係t_ijkでは「1」であり、推定されていない関係t_ijkは「0」である。関係スコアのラベル伝搬を行うと、推定されていない関係t_ijkについての関係スコアが「0」より大きい値になる。
【0042】
ラベル伝搬を行うことにより、シーングラフ生成部12にて生成されなかったオブジェクト間の関係であっても、他のオブジェクト間の関係からの伝搬によって、画像内に存在することが推定されたり、逆にシーングラフ生成部12にて生成された関係であっても、他の関係からの伝搬によって誤検出であることが推定される。このようにラベル伝搬を行うことで、シーングラフ(グラフ構造)の特徴量が更新される。
【0043】
ラベル伝搬部20は、ラベル伝搬後の関係スコアの値が所定値以上であるか否かを判定し、所定の閾値以上の関係スコアを有する関係t_ijkをフィルタリングする。フィルタリングされた関係t_ijkにスコア1を設定し、フィルタリングされた関係t_ijkを用いてリスクスコアを計算する。
【0044】
ロジスティック回帰部21は、フィルタリングで検出されたオブジェクト間の関係を用いて、次式(6)により、リスクスコアg_l(f;W)を求める。
【数5】
【0045】
メッセージ生成部14は、リスクスコアの高いものから所定数のリスクについて、メッセージを生成する。なお、メッセージ生成部14は、正常のリスク(リスクには正常も含むことは上述した)のみが推定された場合には、リスク検出なしとして、メッセージの生成は行わない。複数のリスクr_lが検出されている場合には、メッセージ生成部14は、緊急度の高いメッセージから優先的に複数のメッセージを生成する。
【0046】
次に、具体的なメッセージの生成方法について説明する。メッセージ生成部14は、リスクr_lが推定された場合に、そのリスク推定に寄与したと考えられる関係t_ijkを決定する。具体的には、次式(7)の関係を満たすシーングラフを求める。
【数6】
【0047】
メッセージ生成部14は、上記の関係式によって決定された、次式(8)に示すリスクr*
lとリスクスコアg*
lとリスクに寄与した関係[ijk]とフィルタリングで追加された関係[i*j*k*]のセットに基づいてメッセージを生成する。
【数7】
【0048】
式(8)に見られるようにオブジェクト間の関係は、初期に検出された関係[ijk]とラベル伝搬によるフィルタリングで追加された関係[i*j*k*]を区別しておく。後述する通り、検出された関係[ijk]かフィルタリングで追加された関係[i*j*k*]かによって、メッセージを変えることができる。なお、フィルタリングで追加された関係[i*j*k*]がない場合は、4つ目のデータは空({ })になる。
【0049】
メッセージ生成部14は、上記式(8)に示されるデータを用いて文章を生成する。(r*l, g*l)はリスク名r*lとリスクスコアg*lを表すが、リスクスコアg*lに応じて緊急度を表すと共に、リスク名r*lで示されるリスクを検出したことを表現する。例えば、リスクスコアg*lが第1の閾値より高い場合、リスクが「発生」しているという表現を用いる。リスクスコアg*lが第1の閾値より低いが第2の閾値より高い場合には、リスクが発生する「可能性あり」という表現を用いる。リスクが第2の閾値より低い場合には、リスクが発生する「疑いあり」という表現を用いる。
【0050】
{[ijk]}はリスクに寄与したオブジェクト間の関係のうち、初期に画像から検出されていた関係である。メッセージ生成部14はこのデータを用いて、「表現(i)が表現(k)に表現(j)しています」というようなメッセージを生成する。
【0051】
{[i*j*k*]}はリスクに寄与したオブジェクト間の関係のうち、画像からは検出されなかったがラベル伝搬のフィルタリングで追加された関係である。メッセージ生成部14はこのデータを用いて、「表現(i*)が表現(k*)に表現(j*)している恐れがあります」というようなメッセージを生成する。
【0052】
メッセージ生成部14には、マニュアルデータ記憶部18が接続されている。マニュアルデータ記憶部18は、リスクに対処するメッセージ・テンプレートのデータが記憶されている。メッセージ・テンプレートはリスクによって異なり、リスクに関連付けられて記憶されている。メッセージ生成部14は、マニュアルデータ記憶部18からリスクに対応するメッセージ・テンプレートを読み出し、対処のメッセージを生成する。
【0053】
図5は、メッセージ生成部14にて生成されるメッセージの例を示す図である。
図5では、{{pinching,0.9;{(person,on,floor),(person,at,door)},{(person,at,hazard_area)}}というデータに基づいてメッセージを生成した例である。挟み込み(pinching)のリスクスコアが高い(0.9)ことから、「元のメッセージ」の1行目「挟み込みが発生」の文章が生成されている。
【0054】
次に、リスクに寄与したオブジェクト間の関係が「(person,on,floor)」「(person,at,door)」であることを受けて、2行目の「人が床に倒れています。」と3行目の「人がドアの所にいます。」の文章が生成されている。続いて、「(person,at,hazard_area)」というフィルタリングで追加されたオブジェクト間の関係から、4行目の「人が危険エリアにいる恐れがあります。」という文章が生成されている。さらに5行目には、マニュアルデータ記憶部18から読み出した「ドア開閉禁止」というリスクへの対処方法を示す文章が生成されている。
【0055】
監視装置1は、メッセージ生成部14にて生成されたこのメッセージをそのまま用いることとしてもよいが、本実施の形態では、メッセージを受ける対象者の属性に合わせて、メッセージの表現を変換する。監視員等のようにリスク対応に慣れた熟練者ではなく、通常の人がメッセージを受ける場合には、
図5に「変換A」で示すような平易な表現にする変換を行う。メッセージを受ける人が外国人である場合には、
図5に「変換B」で示すように英語への翻訳を行う。なお、メッセージを受ける人が熟練者の場合にはリスクと状況について端的に伝えれば対処可能なので、メッセージの表現の変換を行わなくてよい。
【0056】
変換Aのような表現の変換は、Encoder-Decoderモデルを用いて行うことができる。例えば、予め表現変換の学習データを用意し、学習データを用いてEncoder-Decoderモデルを生成しておく。学習済みのEncoderモデルを用いて元のメッセージの表現の特徴を抽出し、学習済みのDecoderモデルによって別の表現のメッセージを生成する。変換Bについては、公知の機械翻訳に関する技術を用いることができる。
【0057】
なお、対象者の属性は、例えば、監視装置1が設置されている場所に基づいて決定することができる。例えば、監視装置1が公共の場所に設置されている場合には、対象者の属性は通常の人であると決定する。また、監視装置1に設けたカメラ30で撮影した映像から対象者を抽出し、対象者の属性を分析することとしてもよい。カメラ30の映像から通知部15の近傍にいる人が日本人か否か判定し、日本人以外の場合にはメッセージを翻訳する。
【0058】
通知部15は、生成されたメッセージを通知する機能を有する。通知部15は、ディスプレイにメッセージを表示してもよいし、メッセージを読み上げてもよい。
【0059】
図6は、監視装置1の動作を示すフローチャートである。監視装置1は、監視エリアを撮影するカメラ30から、監視エリアの画像データを取得する(S10)。監視装置1は、画像データからオブジェクトを検出し(S11)、検出結果に基づいて人と物体との関係を示すシーングラフを生成する(S12)。続いて、監視装置1は、オブジェクト間の関係とリスクとの共起関係を示す共起モデルを共起モデル記憶部17から読み出し、読み出した共起モデルに基づいて、推定されたオブジェクト間の関係のラベル伝搬を行う(S13)。監視装置1は、ラベル伝搬によってフィルタリングしたオブジェクト間の関係を用いてリスクを推定し(S14)、推定されたリスクに寄与したオブジェクト間の関係を特定する(S15)。次に、監視装置1は、リスクの種類とリスクの高さとリスクに寄与したシーングラフと、マニュアルデータ記憶部18から読み出した対処のメッセージ・テンプレートとを用いて、メッセージを生成する(S16)。監視装置1は、生成したメッセージを周囲にいる人に対して通知する(S17)。
【0060】
以上、本実施の形態の監視装置1の構成について説明したが、上記した監視装置1のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した監視装置1が実現される。このようなプログラムも本発明の範囲に含まれる。
【0061】
本実施の形態の監視装置1は、画像から人と物体との関係を表すシーングラフを生成し、シーングラフに基づいてリスクを推定するので、人の行動状態や周辺状況において発生するリスクを適切に推定することができる。
【0062】
(第2の実施の形態)
図7は、第2の実施の形態の監視装置2の構成を示す図である。第2の実施の形態の監視装置2の基本的な構成は、第1の実施の形態の監視装置1と同じであるが、第2の実施の形態の監視装置2は、画像データに加えて音声データを用いる。以下、第1の実施の形態の監視装置1と異なる点を中心に説明する。
【0063】
監視装置2はマイク31を備え、マイク31によって監視エリア内の音を集音する。監視装置2は、マイク31で集音した音声データを音声データ取得部22にて取得する。オブジェクト検出部11には音声パターン検出モデル記憶部23が接続されている。オブジェクト検出部11は、音声パターン検出モデル記憶部23に記憶された音声パターン検出モデルを用いて、収集した音声データから所定のパターンを有する音声オブジェクトを検出する。このように音声の検出結果もオブジェクトの一種とみなす。これにより、監視装置2は、監視エリア内の環境音のパワースペクトルや衝突音の有無を検出できる。また、監視装置2は、複数のマイク31を備えて、音声の到来方向を識別することとしてもよい。衝突音等の到来方向や発声場所等を特定することができる。
【0064】
監視装置2が有する共起モデルは、オブジェクト間の関係と音声データと、リスクとの共起関係のデータを有している。監視装置2は、画像から生成したシーングラフと、その画像が撮影された前後での音声データを用い、オブジェクト間の関係及び音声データの関係スコアをラベル伝搬し、フィルタリングされたオブジェクト間の関係を用いてリスクを推定する。
【0065】
このように画像データに加えて音声データを用いることにより、精度良くリスクの発生を検出することができる。
【0066】
(第3の実施の形態)
図8は、第3の実施の形態の監視装置3の構成を示す図である。第3の実施の形態の監視装置3の基本的な構成は、第1の実施の形態の監視装置1と同じであるが、第3の実施の形態の監視装置3は、画像データに加えてセンサデータを用いる。以下、第1の実施の形態の監視装置1と異なる点を中心に説明する。
【0067】
監視装置3は、日付、時刻、温度、圧力(気圧)、照度等のデータを検出するセンサ32を備え、センサ32によって取得したデータをセンサデータ取得部24にて取得する。オブジェクト検出部11にはセンサパターン検出モデル記憶部25が接続されている。オブジェクト検出部11は、センサパターン検出モデル記憶部25に記憶されたセンサパターン検出モデルを用いて、収集したセンサデータから所定のパターンを有するセンサデータのオブジェクトを検出する。このようにセンサの検出結果もオブジェクトの一種とみなす。ただし、温度等はオブジェクトの属性の関係となる。
【0068】
監視装置3が有する共起モデルは、オブジェクト間の関係とセンサデータと、リスクとの共起関係のデータを有している。監視装置3は、画像から生成したシーングラフと、その画像が撮影された前後でのセンサデータを用い、オブジェクト間の関係及びセンサデータの関係スコアをラベル伝搬し、フィルタリングされたオブジェクト間の関係を用いてリスクを推定する。
【0069】
このように画像データに加えてセンサデータを用いることにより、精度良くリスクの発生を検出することができる。なお、ここでは、第1の実施の形態の監視装置1の構成に対して、センサデータを用いる構成を追加した例を説明したが、第2の実施の形態の監視装置2の構成に対してセンサデータを用いる構成を追加してもよい。
【0070】
(第4の実施の形態)
図9は、第4の実施の形態の監視装置4の構成を示す図である。第4の実施の形態の監視装置4の基本的な構成は、第3の実施の形態の監視装置3と同じであるが、監視エリアにある設備33に対し、リスクを検出した際にリスクを回避するための命令を送信する構成を備えている。以下、第3の実施の形態の監視装置3と異なる点を中心に説明する。
【0071】
例えば、監視エリアが工場の場合には、工場内に、部品をピックアップするロボットアームや搬送機器等の各種の設備33がある。監視装置4は、監視エリア内でリスクが検出された場合には、リスクに寄与した関係からリスクに関係のある設備33を特定する。リスク回避命令送信部26は、リスクに関係する設備33に対し、リスクを回避するためのリスク回避命令APIを送信する。リスク回避命令APIの一例は、設備33の稼働を停止する命令である。これにより、人が介在することなく、速やかにリスクに対処することができる。なお、リスクに対応するリスク回避命令APIをマニュアルデータ記憶部18に記憶しておき、リスク回避命令送信部26はマニュアルデータ記憶部18から読み出したリスク回避命令APIをそのまま送信してもよいし、マニュアルデータ記憶部18に記憶された対処のデータをリスク回避命令APIに翻訳して送信してもよい。
【0072】
なお、ここでは、第3の実施の形態の監視装置3の構成に対して、リスク回避命令送信部26を追加した例を説明したが、第1の実施の形態の監視装置1あるいは第2の実施の形態の監視装置2に対してリスク回避命令送信部26を追加してもよい。
【0073】
(第5の実施の形態)
図10は、第5の実施の形態の監視システム5の構成を示す図である。監視システム5は、複数の監視装置1と監視センタサーバ40とがネットワークを介して接続されている。
【0074】
各監視装置1は上記した第1の実施の形態の監視装置1と同様の構成に加え、監視センタサーバ40と通信を行うための通信部とを備えている。監視装置1は、監視エリアで発生するリスクを検出すると、リスクに関するデータを監視センタサーバ40に送信する。リスクに関するデータは、リスクの種類、リスクスコア、リスクに寄与したオブジェクト間の関係を含む。監視センタサーバ40は、監視装置1からリスク発生の通知を受けると、その監視エリアに対して人を派遣したり、救急センタ41に連絡する等の措置をとることができる。
【0075】
なお、本実施の形態では、各監視装置1が第1の実施の形態の監視装置1と同様の構成を備える例を挙げたが、監視装置1の機能を監視センタサーバ40に持たせることとしてもよい。すなわち、監視エリアにカメラ30を設置しておき、監視エリアで撮影した画像を監視センタサーバ40に送信し、画像データからリスクの推定を行うこととしてもよい。このような構成とすることにより、監視エリアにはカメラ30を設置すれば監視をスタートできるので、監視システムの導入コストを抑えることができる。
【0076】
以上、本発明の監視装置について、実施の形態を挙げて詳細に説明したが、本発明の監視装置は上記した実施の形態に限定されない。上記した実施の形態では、画像からオブジェクトを検出するオブジェクト検出部11と、検出された人と物体の関係を推定するシーングラフ生成部12を備える例を説明したが、オブジェクトの検出とシーングラフの生成を同時に行ってもよい。すなわち、上述した黒澤郁音らの論文にあるように、画像から物体領域候補を検出し、物体領域候補に当てはまる物体クラスとシーングラフを同時に求めてもよい。
【産業上の利用可能性】
【0077】
本発明は、監視エリアにおけるリスクの発生を検出する監視装置等として有用である。
【符号の説明】
【0078】
1~5 監視装置
10 画像取得部
11 物体検出部
12 シーングラフ生成部
13 リスク推定部
14 メッセージ生成部
15 通知部
16 オブジェクト検出モデル記憶部
17 共起モデル記憶部
18 マニュアルデータ記憶部
20 ラベル伝搬部
21 ロジスティック回帰部
22 音声データ取得部
23 音声パターン検出モデル記憶部
24 センサデータ取得部
25 センサパターン検出モデル記憶部
26 リスク回避命令送信部
30 カメラ
31 マイク
32 センサ
40 監視センタサーバ
41 救急センタ