IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7447999処理装置、推定装置、監視システム、処理方法及びプログラム
<>
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図1
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図2
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図3
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図4
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図5
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図6
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図7
  • 特許-処理装置、推定装置、監視システム、処理方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-04
(45)【発行日】2024-03-12
(54)【発明の名称】処理装置、推定装置、監視システム、処理方法及びプログラム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20240305BHJP
【FI】
G06Q50/10
【請求項の数】 11
(21)【出願番号】P 2022522475
(86)(22)【出願日】2020-05-15
(86)【国際出願番号】 JP2020019455
(87)【国際公開番号】W WO2021229800
(87)【国際公開日】2021-11-18
【審査請求日】2022-11-04
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【弁理士】
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】劉 健全
(72)【発明者】
【氏名】李 点剛
【審査官】上田 翔太
(56)【参考文献】
【文献】特開2018-106437(JP,A)
【文献】国際公開第2010/035485(WO,A1)
【文献】ANVAROV, Fazliddin,Action Recognition Using Deep 3D CNNs with Sequential Feature Aggregation and Attention,Electronics,Volume9 Issue1,スイス,MDPI,2020年01月12日,インターネット,<URL:https://www.mdpi.com/2079-9292/9/1/147>
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
第1のモデルと前記教師データの前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成する重み付け手段と、
前記第1の重み付け特徴量マップをベクトルに変換した後、前記ベクトルを入力とし、前記時系列の画像群が表す物体の動きの推定結果を出力とする第3のモデルに前記ベクトルを入力することで、前記時系列の画像群が表す物体の動きを推定する推定手段と、
前記第1の重み付け特徴量マップに基づき推定された物体の動き及び推定確率と、前記教師データの前記ラベルが示す物体の動きとに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき推定された物体の動き及び推定確率と、前記教師データの前記ラベルが示す物体の動きとに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
【請求項2】
前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項1に記載の処理装置。
【請求項3】
前記最適化手段は、
複数のクラス各々の前記特徴量マップである学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、
複数の前記ペア間の算出された前記類似度の大小関係と、予め満たすべき制限として定められた複数の前記ペア間の前記類似度の大小関係とに基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項1に記載の処理装置。
【請求項4】
前記最適化手段は、
前記クラスのペア毎に前記教師データの前記ラベルの類似度を算出し、
複数の前記ペア間の前記ラベルの類似度の大小関係に基づき前記制限を決定する請求項3に記載の処理装置。
【請求項5】
前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数と前記ペア間類似度損失関数とを足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数と重み付け後の前記ペア間類似度損失関数とを足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項3又は4に記載の処理装置。
【請求項6】
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
第1のモデルと前記教師データの前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を相対的に強調した第1の重み付け特徴量マップを生成する重み付け手段と、
前記第1の重み付け特徴量マップをベクトルに変換した後、前記ベクトルを入力とし、前記時系列の画像群が表す物体の動きの推定結果を出力とする第3のモデルに前記ベクトルを入力することで、前記時系列の画像群が表す物体の動きを推定する推定手段と、
複数のクラス各々の前記特徴量マップである学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、複数の前記ペア間の算出された前記類似度の大小関係と、予め満たすべき制限として、前記教師データの前記ラベルに基づき定められた複数の前記ペア間の前記類似度の大小関係とに基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
【請求項7】
前記最適化手段は、
前記クラスのペア毎にラベルの類似度を算出し、
前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する請求項6に記載の処理装置。
【請求項8】
請求項1から7のいずれか1項の処理装置がパラメータ値を最適化した前記第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置。
【請求項9】
コンピュータが、
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
第1のモデルと前記教師データの前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成し、
前記第1の重み付け特徴量マップをベクトルに変換した後、前記ベクトルを入力とし、前記時系列の画像群が表す物体の動きの推定結果を出力とする第3のモデルに前記ベクトルを入力することで、前記時系列の画像群が表す物体の動きを推定し、
前記第1の重み付け特徴量マップに基づき推定された物体の動き及び推定確率と、前記教師データの前記ラベルが示す物体の動きとに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき推定された物体の動き及び推定確率と、前記教師データの前記ラベルが示す物体の動きとに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する処理方法。
【請求項10】
コンピュータを請求項1から7のいずれか1項に記載の処理装置として機能させるプログラム。
【請求項11】
請求項8に記載の推定装置を用いて、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、第1のエリア内の人物の行動を監視する第1の監視手段と、
可視光を検出するカメラが生成した時系列の画像群に基づき、前記第1のエリアと一部が重複する第2のエリア内の人物の行動を監視する第2の監視手段と、
前記第1のエリアと前記第2のエリアの重複しているエリアにおいて前記第1の監視手段が検出した人物の位置及び外観の特徴の少なくとも一方と、前記第1のエリアと前記第2のエリアの重複しているエリアにおいて前記第2の監視手段が検出した人物の位置及び外観の特徴の少なくとも一方との照合結果に基づき、前記第1の監視手段が監視している人物と前記第2の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、推定装置、監視システム、処理方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。
【0003】
非特許文献1は、3D-CNN(convolutional neural network)に基づき動画像が表す人物行動を推定する技術を開示している。
【0004】
非特許文献2及び3は、特徴量マップに基づき重み付けマスクを生成し、当該重み付けマスクを用いて重み付け特徴量マップを生成する技術を開示している。
【先行技術文献】
【特許文献】
【0005】
【文献】特表2018-524678号
【非特許文献】
【0006】
【文献】Kensho Hara、他2名、" Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"、[online]、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555)、[令和1年5月28日検索]、インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf>
【文献】"SENet論文読み"、[online]、[2019年5月9日更新]、[令和2年4月14日検索]、インターネット<URL: https://qiita.com/Q_ys/items/2054a8a724d22bd10aff>
【文献】白石卓也、"深層学習入門:画像分類(5)Attention機構"、[online]、[2019年10月21日掲載]、[令和2年4月14日検索]、インターネット<URL: https://www.softbanktech.co.jp/special/blog/cloud_blog/2019/0063/>
【発明の概要】
【発明が解決しようとする課題】
【0007】
トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラ(可視光を検出し、画像化するカメラ)を設置できない空間がある。しかし、このような空間においても、犯罪や事故等防止の観点から、人物の行動を監視することが望まれる。本発明は、可視光カメラが生成した画像を用いずに人物の行動を監視する技術を提供することを課題とする。
【課題を解決するための手段】
【0008】
本発明によれば、
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成する重み付け手段と、
第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置が提供される。
【0009】
また、本発明によれば、
前記処理装置がパラメータ値を最適化した前記第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置が提供される。
【0010】
また、本発明によれば、
コンピュータが、
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成し、
第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する処理方法が提供される。
【0011】
また、本発明によれば、
コンピュータを前記処理装置として機能させるプログラムが提供される。
【0012】
また、本発明によれば、
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第1の監視手段と、
可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第2の監視手段と、
人物の位置及び外観の特徴の少なくとも一方に基づき、前記第1の監視手段が監視している人物と前記第2の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システムが提供される。
【発明の効果】
【0013】
本発明によれば、可視光カメラが生成した画像を用いずに人物の行動を監視する技術が実現される。
【図面の簡単な説明】
【0014】
図1】本実施形態の処理装置及び推定装置のハードウエア構成の一例を示す図である。
図2】本実施形態の処理装置の機能ブロック図の一例である。
図3】本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。
図4】本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。
図5】本実施形態の処理装置が実行する学習処理の流れの一例を示すフロー図である。
図6】本実施形態の処理装置が処理する損失関数の一例を説明するための図である。
図7】本実施形態の推定装置が実行する推定処理の流れの一例を示すフロー図である。
図8】本実施形態の推定装置の適用例を示す図である。
【発明を実施するための形態】
【0015】
<概要>
本実施形態の処理装置は、「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群」と「当該時系列の画像群が表す物体の動きに関するラベル」とを対応付けた教師データに基づく機械学習(深層学習等)で、「当該時系列の画像群が表す物体の動き」を推定する推定モデルを生成する。そして、本実施形態の推定装置は、当該推定モデルに基づき、当該時系列の画像群が表す物体の動きを推定する。
【0016】
このような本実施形態の処理装置及び推定装置によれば、可視光カメラが生成した画像を用いずに人物の行動を監視することが可能となる。結果、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間においても、人物の行動を監視することが可能となる。
【0017】
ところで、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像は、可視光カメラが生成した画像よりも情報量が少なくなり得る。このため、可視光カメラが生成した画像から人物の行動を推定する技術において、単に処理データを「可視光カメラが生成した画像」から「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像」に置き換えただけでは、十分な推定の精度が得られない。
【0018】
そこで、本実施形態の処理装置は、特徴的な損失関数に基づき推定モデルのパラメータを最適化することで、上記精度の問題を軽減する。詳細は以下で説明する。
【0019】
<ハードウエア構成>
次に、処理装置及び推定装置のハードウエア構成の一例を説明する。処理装置及び推定装置各々が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
【0020】
図1は、処理装置及び推定装置各々のハードウエア構成を例示するブロック図である。図1に示すように、処理装置及び推定装置各々は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置及び推定装置各々は周辺回路4Aを有さなくてもよい。なお、処理装置及び推定装置各々は物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。処理装置及び推定装置各々が物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
【0021】
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
【0022】
<処理装置の機能構成>
次に、処理装置の機能構成を説明する。
【0023】
図2に、処理装置10の機能ブロック図の一例を示す。図3に、処理装置10が実行する学習処理の流れの一例を示す。図2に示すように、処理装置10は、取得部11と、特徴量マップ生成部12と、重み付け部13と、推定部14と、最適化部15とを有する。
【0024】
取得部11は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する。以下、「可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群」を、「センサー時系列画像群」という。
【0025】
センサーは、可視光でない電磁波を送信し、その反射波を受信する。送信する電磁波は、例えばミリ波、マイクロ波等である。電磁波を送信するアンテナと受信するアンテナは同一の筐体内に存在してもよいし、物理的に分かれた別の筐体内に存在してもよい。前者の場合、電磁波を送信するアンテナと受信するアンテナを別々に設けてもよいし、一のアンテナに電磁波の送信及び受信の両方を行わせてもよい。センサーの設置位置は特段制限されない。センサーは、室内の天井に設置されてもよいし、壁に設置されてもよいし、床に設置されてもよいし、室内に設置された物体に取り付けられてもよい。
【0026】
当該センサーの検知データに基づき生成される画像は、3次元空間内(センサーを設置した室内)における物体の位置、大きさ、形状等を示す。例えば、検出対象物(人等)が存在しない状態で測定した場合のデータ(検知データ、画像等)を予め用意しておき、これとの差分をとることで、その空間に定常的に存在する物体を除いて検出対象物を検出することができる。センサーの検知データを画像化する手法は広く知られているので、ここでの説明は省略する。
【0027】
1つのラベルに対応するセンサー時系列画像群の長さは、例えば数秒から数分程度である。
【0028】
ラベルは、人手で付される。センサー時系列画像群が表す物体の動きは人物の動きであり、例えば、「歩く」、「走る」、「靴の紐を結ぶ」、「物を拾う」、「投げる」、「座る」、「立つ」、「手を振る」、「手をたたく」等であるが、これらに限定されない。
【0029】
センサー時系列画像群は1人の人物の動きを表す場合もあれば、複数の人物の動きを表す場合もある。1人の人物の動きを表すセンサー時系列画像群は、センサーでセンシングされる空間内に1人の人物が存在している状況下で収集された検知データに基づく画像群である。一方、複数の人物の動きを表す時系列の画像群は、センサーでセンシングされる空間内に複数の人物が同時に存在している状況下で収集された検知データに基づく画像群である。
【0030】
センサー時系列画像群に付与されるラベルは、そのセンサー時系列画像群が表す人物の数と同数の行動を示す。すなわち、センサー時系列画像群が1人の人物の動きを表す場合、そのセンサー時系列画像群に対してその人物が行った1つの行動に関するラベル(例:「歩く」)が付与される。一方、センサー時系列画像群が複数の人物の動きを表す場合、そのセンサー時系列画像群に対してその複数の人物各々が行った行動に関するラベル(例:「歩く・座る」、「歩く・歩く」、「歩く・歩く・走る」)が付与される。
【0031】
特徴量マップ生成部12は、図3に示すように、取得部11が取得したセンサー時系列画像群を第1のモデルに入力し、そのセンサー時系列画像群の特徴量マップを生成する。第1のモデルは、例えば3次元畳み込みニューラルネットワーク(3D Convolutional Neural Network: 3D-CNN)を含んで構成される。図4に、第1のモデルの概念図の一例を示す。
【0032】
重み付け部13は、図3に示すように、第1のモデルの任意の段階で得られた特徴量マップを第2のモデルに入力し、特徴量マップの一部(付与されたラベルの認識において重要な部分)を強調した第1の重み付け特徴量マップと、同特徴量マップの同一部(付与されたラベルの認識において重要な部分)を弱めた第2の重み付け特徴量マップとを生成する。
【0033】
第2のモデルは、例えばSEブロックを含んで構成される。SEブロックでは、非特許文献2及び3に開示のように、例えば特徴量マップに対してGlobal pooling、2層の全結合層(fully connected layer)、ReLU(活性化関数)及びSigmoid(活性化関数)等を適用し、どのチャネルをどの程度強調すべきかを示す重み付けマスクを生成する。
【0034】
元の特徴量マップとこの重み付けマスクとに基づき、第1の重み付け特徴量マップと第2の重み付け特徴量マップとが生成される。例えば、この重み付けマスクを元の特徴量マップに掛け合わせることで、特徴量マップの一部を強調した第1の重み付け特徴量マップが生成される。また、この重み付けマスクに対して所定の加工(演算)を行い、強弱部分を逆転させたマスクを元の特徴量マップに掛け合わせることで、同特徴量マップの同一部を弱めた第2の重み付け特徴量マップが生成される。図5に、第2のモデルの概念図の一例を示す。
【0035】
推定部14は、図3に示すように、第1の重み付け特徴量マップに対してベクトル化処理を行った後、ベクトル特徴量を第3のモデルに入力して、センサー時系列画像群が表す人物の動きを推定する。
【0036】
ベクトル化処理では、例えば第1の重み付け特徴量マップに対してAverage poolingやflattenを適用し、1次元のベクトル特徴量に変換する。
【0037】
第3のモデルは、例えば全結合層を含んで構成される。最後のソフトマックス関数により、複数のクラス各々を表す確率が推定結果として出力される。
【0038】
最適化部15は、特徴的な損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する。図3に示す最適化処理が、最適化部15が実行する処理である。パラメータ値の変化のさせ方は設計的事項であり、あらゆる技術を採用できる。
【0039】
損失関数は、第1及び第2の重み付け特徴量マップ、推定結果、ラベルの中の少なくとも1つに基づき定義される。
【0040】
一例として、最適化部15は、第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数は、例えばbinary cross-entropy lossである。
【0041】
例えば、最適化部15は、第1の重み付け特徴量マップ損失関数と第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。または、最適化部15は、重み付け後の第1の重み付け特徴量マップ損失関数と重み付け後の第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。
【0042】
他の一例として、最適化部15は、複数のクラス各々の特徴量である学習結果特徴量(各クラスのラベルを付されたセンサー時系列画像群と第1のモデルとに基づき生成された特徴量マップ)に基づき、クラスのペア毎に各ペアを構成する2つのクラスの学習結果特徴量の類似度を算出してもよい。そして、最適化部15は、この算出結果で示される複数のペア間の学習結果特徴量の類似度の大小関係と、満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)とに基づき定義されるペア間類似度損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。制限は、例えば「第1のペアの学習結果特徴量の類似度は、第2のペアの学習結果特徴量の類似度よりも大」等のように示される。なお、学習結果特徴量の類似度は、例えばコサイン類似度を採用できるが、これに限定されない。
【0043】
「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」は、オペレータが任意に決定してもよいし、複数のペア間のラベル(人物の動き)の類似度の大小関係に基づき決定してもよい。一例として、複数のペア間のラベル(人物の動き)の類似度の大小関係を、満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)として採用することができる。
【0044】
ラベルの類似度は、例えば以下の式(1)のように定義される。
【0045】
【数1】
【0046】
i及びjはクラスの識別子である。Si,jは、クラスiとクラスjのラベルの類似度である。Yiは、クラスiのラベルが示す1つ又は複数の人物の動きを示す。Yjは、クラスjのラベルが示す1つ又は複数の人物の動きを示す。cardは条件を満たす人物の動きの数を示す。
【0047】
例えば、クラス1のラベルが「歩く・走る・座る」であり、クラス2のラベルが「歩く・走る・投げる」である場合、S1,2は、0.5(=2/4)となる。
【0048】
その他、ラベルの類似度は、式(1)の分子で定義されてもよい。すなわち、両クラスのラベルに共通する人物の動きの数を類似度としてもよい。
【0049】
図6に、「ラベルの類似度」に基づき「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」を決定する処理の概念図を示す。図では、話を簡単にするため4つのクラスA乃至Dを示している。そしてペア毎のラベルの類似度を、2つのクラスを結ぶ線に対応付けて表示している。この例では、両クラスのラベルに共通する人物の動きの数をラベルの類似度として算出している。そして、算出された「ラベルの類似度」に基づき決定された「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」が、"Constraints"として示されている。「満たすべき複数のペア間の学習結果特徴量の類似度の大小関係(制限)」は「ペア間のラベルの類似度の大小関係」と一致している。
【0050】
この例の場合、ペア間類似度損失関数は、学習結果特徴量の類似度とラベルの類似度とに基づき定義されている。
【0051】
最適化部15は、例えば、第1の重み付け特徴量マップ損失関数と第2の重み付け特徴量マップ損失関数とペア間類似度損失関数とを足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。又は、最適化部15は、重み付け後の第1の重み付け特徴量マップ損失関数と重み付け後の第2の重み付け特徴量マップ損失関数と重み付け後のペア間類似度損失関数とを足し合わせた損失関数に基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。
【0052】
ここで、最適化部15が処理する損失関数の一例を具体的に説明する。
【0053】
「ペア間類似度損失関数」
まず、上記式(1)に基づき複数のペア各々のラベルの類似度Si,jを算出した後、予め定められた閾値τとの大小比較により、複数のペアを第1のグループPと第2のグループNに分類する。第1のグループP及び第2のグループNは、各々以下の式(2)及び式(3)のように定義される。
【0054】
【数2】
【0055】
【数3】
【0056】
は、クラスiのラベルが付されたセンサー時系列画像群である。Xは、クラスjのラベルが付されたセンサー時系列画像群である。
【0057】
そして、学習結果特徴量の類似度は例えば以下の式(4)のように定義される。ここではコサイン類似度を算出する例を示す。
【0058】
【数4】
【0059】
チルダ(波記号)付きのSi,jは、クラスiとクラスjの学習結果特徴量の類似度である。f(X)はクラスiの学習結果特徴量、より詳細には、クラスiのラベルが付されたセンサー時系列画像群と第1のモデルとに基づき生成された特徴量マップである。f(X)はクラスjの学習結果特徴量、より詳細には、クラスjのラベルが付されたセンサー時系列画像群と第1のモデルとに基づき生成された特徴量マップである。
【0060】
そして、これらに基づき、ペア間類似度損失関数は、例えば以下の式(5)のように定義される。
【0061】
【数5】
【0062】
mlprが、ペア間類似度損失関数である。λは、margin hyper-parameterである。式(5)におけるチルダ(波記号)付きのSi,jは、第2のグループNに属するペアの学習結果特徴量の類似度である。式(5)におけるチルダ(波記号)付きのSs,tは、第1のグループPに属するペアの学習結果特徴量の類似度である。
【0063】
「第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数」
まず、第1の重み付け特徴量マップ及び第2の重み付け特徴量マップは、各々以下の式(6)及び式(7)のように定義される。
【0064】
【数6】
【0065】
【数7】
【0066】
(X)は、クラスjの学習結果特徴量f(X)を、その学習結果特徴量f(X)に基づき生成された重み付けマスクg(f(X))で、特徴量マップの一部(付与されたラベルの認識において重要な部分)を強調した第1の重み付け特徴量マップである。f(X)は、クラスjの学習結果特徴量f(X)を、その学習結果特徴量f(X)に基づき生成された重み付けマスクg(f(X))で、特徴量マップの一部(付与されたラベルの認識において重要な部分)を弱めた第2の重み付け特徴量マップである。
【0067】
第1の重み付け特徴量マップf(X)は、ラベルが示す人物の動きをよく表したものであり、第2の重み付け特徴量マップf(X)は、その逆である。すわなち、ラベルが示す人物の動き以外の情報(例えば、周囲のノイズ情報)を表したものである。学習の段階において、第1の重み付け特徴量マップマップf(X)、および第2の重み付け特徴量f(X)を用いることで、周囲のノイズ情報をうまく取り除き、ラベルが示す人物の動きをより正しく認識できるモデルを構築できる。
【0068】
そこで、第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数の一例として、binary cross-entropy lossを適用した損失関数は、以下の式(8)乃至式(11)のように定義される。
【0069】
【数8】
【0070】
【数9】
【0071】
【数10】
【0072】
【数11】
【0073】
bce が、第1の重み付け特徴量マップ損失関数である。lbce が、第2の重み付け特徴量マップ損失関数である。IIは、条件を満たす場合に1を出力し、その他の場合に0を出力する指示関数である。Yは、クラスjのラベルである。Wは分類層の重みである。
【0074】
「ペア間類似度損失関数、第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数の中の少なくとも1つに基づき算出されるその他の損失関数」
以下の式(12)乃至式(15)に示すように、ペア間類似度損失関数、第1の重み付け特徴量マップ損失関数及び第2の重み付け特徴量マップ損失関数を任意に組み合わせた損失関数を定義することができる。
【0075】
【数12】
【0076】
【数13】
【0077】
【数14】
【0078】
【数15】
【0079】
α及びβは重み係数である。
【0080】
最適化部15は、上述のような複数の損失関数の中の少なくとも1つに基づき、第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化することができる。
【0081】
<推定装置の機能構成>
次に、推定装置の機能構成を説明する。推定装置は、上記処理装置10がパラメータ値を最適化した第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する。図7に、推定装置が実行する推定処理の流れの一例を示す。推定処理の流れは、第2の重み付け特徴量マップの生成を行わない点、最適化処理を行わない点、入力データにラベルが付与されていない点を除き、処理装置10が実行する学習処理の流れと同様である。なお、処理の流れを逆方向にトレースすることで、確率が閾値以上のカテゴリ(人物の行動)が示される画像内の位置を算出することができる。
【0082】
<実施例>
上記推定装置の利用例を説明する。当該例では、第1の監視手段、第2の監視手段及び対応付け手段を有する監視システムが上記推定装置を利用する。
【0083】
第1の監視手段は、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する。第1の監視手段は、上記推定装置を利用して、当該監視を実現する。第2の監視手段は、可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する。
【0084】
対応付け手段は、人物の位置及び外観の特徴(身体、持ち物、服装等の外観の形状や大きさ)の少なくとも一方に基づき、第1の監視手段が監視している人物と第2の監視手段が監視している人物とを対応付ける。対応付け手段は、「位置が一致又はその差が閾値以内」、及び、「外観の特徴が一致又はその差が閾値以内」の少なくとも一方を満たす人物同士を対応付けることができる。
【0085】
図8に示すように、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間(private area)に、可視光でない電磁波を送受信するセンサーが設置される。監視システムは、当該センサーの検知データに基づき生成された時系列の画像群に基づき、その空間内で人物の行動を監視する。すなわち、その空間内で人物の位置や所定の行動が行われたことを検出する。
【0086】
一方、private areaに隣接する可視光カメラを設置できる空間(public area)には、可視光カメラが設置される。そして、従来の画像解析技術に基づき、その空間内で人物の行動を監視する。すなわち、その空間内で人物の位置や所定の行動が行われたことを検出する。
【0087】
そして、図示するように、可視光でない電磁波を送受信するセンサーのセンシングエリアと、可視光カメラが撮影する撮影エリアを一部重複させる。この重複エリアでは、可視光でない電磁波を送受信するセンサーによる監視、及び、可視光カメラによる監視の両方が行われる。そして、それらの検出結果を照合し、可視光でない電磁波を送受信するセンサーによる監視で追跡している人物と、可視光カメラによる監視で追跡している人物との対応付けを行うことができる。2つの方法各々で特定している人物の位置や外観の特徴などに基づき、2つの方法各々で追跡している人物の対応付け(同一人物の対応付け)を行うことができる。
【0088】
<作用効果>
本実施形態の処理装置10及び推定装置によれば、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を推定することができる。すなわち、可視光カメラが生成した画像を用いずに人物の行動を監視することが可能となる。結果、トイレ、更衣室、入浴場等のように、プライバシー保護の観点から可視光カメラを設置できない空間においても、人物の行動を監視することが可能となる。
【0089】
また、処理装置10は、上述した特徴的な損失関数に基づき推定モデルのパラメータを最適化することができる。このため、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された画像に基づく推定処理においても、十分な推定の精度が実現される。
【0090】
なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。
【0091】
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0092】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成する重み付け手段と、
第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
2. 前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数を足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する1に記載の処理装置。
3. 前記最適化手段は、
複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、
前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する1に記載の処理装置。
4. 前記最適化手段は、
前記クラスのペア毎にラベルの類似度を算出し、
前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する3に記載の処理装置。
5. 前記最適化手段は、前記第1の重み付け特徴量マップ損失関数と前記第2の重み付け特徴量マップ損失関数と前記ペア間類似度損失関数とを足し合わせた損失関数、または、重み付け後の前記第1の重み付け特徴量マップ損失関数と重み付け後の前記第2の重み付け特徴量マップ損失関数と重み付け後の前記ペア間類似度損失関数とを足し合わせた損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する3又は4に記載の処理装置。
6. 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得する取得手段と、
第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成する特徴量マップ生成手段と、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を相対的に強調した第1の重み付け特徴量マップを生成する重み付け手段と、
第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定する推定手段と、
複数のクラス各々の特徴量である学習結果特徴量に基づき、前記クラスのペア毎に各ペアを構成する2つの前記クラスの前記学習結果特徴量の類似度を算出し、前記学習結果特徴量の類似度に基づき定義されるペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する最適化手段と、
を有する処理装置。
7. 前記最適化手段は、
前記クラスのペア毎にラベルの類似度を算出し、
前記学習結果特徴量の類似度と前記ラベルの類似度とに基づき定義される前記ペア間類似度損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する6に記載の処理装置。
8. 1から7のいずれかの処理装置がパラメータ値を最適化した前記第1乃至第3のモデルを含む推定モデルに基づき、可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群が表す物体の動きを推定する推定装置。
9. コンピュータが、
可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群と、前記時系列の画像群が表す物体の動きに関するラベルとを対応付けた教師データを取得し、
第1のモデルと前記時系列の画像群とに基づき、前記時系列の画像群の特徴量マップを生成し、
第2のモデルと前記特徴量マップとに基づき重み付けマスクを生成し、前記特徴量マップと前記重み付けマスクとに基づき、前記特徴量マップの一部を強調した第1の重み付け特徴量マップと、前記特徴量マップの前記一部を弱めた第2の重み付け特徴量マップとを生成し、
第3のモデルと前記第1の重み付け特徴量マップとに基づき、前記時系列の画像群が表す物体の動きを推定し、
前記第1の重み付け特徴量マップに基づき定義される第1の重み付け特徴量マップ損失関数、及び、前記第2の重み付け特徴量マップに基づき定義される第2の重み付け特徴量マップ損失関数に基づき、前記第1乃至第3のモデルの中の少なくとも1つのパラメータ値を最適化する処理方法。
10. コンピュータを請求項1から7のいずれか1項に記載の処理装置として機能させるプログラム。
11. 可視光でない電磁波を送受信するセンサーの検知データに基づき生成された時系列の画像群に基づき、人物の行動を監視する第1の監視手段と、
可視光を検出するカメラが生成した時系列の画像群に基づき、人物の行動を監視する第2の監視手段と、
人物の位置及び外観の特徴の少なくとも一方に基づき、前記第1の監視手段が監視している人物と前記第2の監視手段が監視している人物とを対応付ける対応付け手段と、
を有する監視システム。
図1
図2
図3
図4
図5
図6
図7
図8