(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024004972
(43)【公開日】2024-01-17
(54)【発明の名称】監視システム、監視方法、及び、監視システム用の画像認識装置の学習方法
(51)【国際特許分類】
H04N 7/18 20060101AFI20240110BHJP
【FI】
H04N7/18 D
H04N7/18 K
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022104908
(22)【出願日】2022-06-29
(11)【特許番号】
(45)【特許公報発行日】2022-10-19
(71)【出願人】
【識別番号】515297076
【氏名又は名称】アースアイズ株式会社
(71)【出願人】
【識別番号】522000728
【氏名又は名称】Sabマネージメント有限会社
(74)【代理人】
【識別番号】100145713
【弁理士】
【氏名又は名称】加藤 竜太
(74)【代理人】
【識別番号】100165238
【弁理士】
【氏名又は名称】中西 陽一郎
(72)【発明者】
【氏名】山内 三郎
【テーマコード(参考)】
5C054
【Fターム(参考)】
5C054DA09
5C054EA07
5C054FA00
5C054FC11
5C054FC12
5C054GB14
5C054HA18
(57)【要約】
【課題】撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現する。
【解決手段】クライアント2は、監視対象人物特定部21と、監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、サーバ3にアップロードする骨格情報抽出部22と、サーバ3からダウンロードした監視対象人物の不審度を出力する不審度情報出力部23と、を備え、サーバ3は、背景画像記憶部31と、ディープラーニング型の画像認識装置であって、クライアント2からアップロードされた骨格情報と、背景画像記憶部31に予め記憶されている背景画像情報と、を入力することにより、監視対象人物の不審度を判定する不審度判定部32と、を備える、監視システム10とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、
前記クライアントは、前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記サーバにアップロードする骨格情報抽出部と、前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、
前記サーバは、前記監視対象領域の背景画像情報を記憶する背景画像記憶部と、ディープラーニング型の画像認識装置であって、前記クライアントからアップロードされた前記骨格情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の不審度を判定する不審度判定部と、を備える、
監視システム。
【請求項2】
前記サーバが、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景情報であって、前記背景画像記憶部に記憶されている背景情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部を備える、
請求項1に記載の監視システム。
【請求項3】
複数の前記クライアントと、
前記サーバと、からなり、
前記学習支援部は、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力する、
請求項2に記載の監視システム。
【請求項4】
前記撮影部が2次元情報のみを有する監視画像を撮影可能な単眼カメラであって、
前記クライアントが、前記監視画像中の位置を前記監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部を、更に備え、
前記骨格情報抽出部は、前記座標設定部が設定した前記座標に基づいて、前記特徴点の前記監視対象領域3次元空間内における位置及び動きを前記骨格情報として抽出する、
請求項1から3の何れかに記載の監視システム。
【請求項5】
請求項3に記載の監視システムにおいて、
複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力して学習をさせる、監視システム用画像認識装置の学習方法。
【請求項6】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、
前記撮影部が、監視対象領域を撮影する監視撮影ステップと、
前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、
前記クライアントを構成する骨格情報抽出部が、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出する、骨格情報抽出ステップと、
ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからアップロードされた前記骨格情報と、前記サーバを構成する背景画像記憶部に予め記憶されている背景画像情報から前記監視対象人物の不審度を判定する、不審度判定ステップと、
前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、
監視方法。
【請求項7】
前記サーバを構成する学習支援部が、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景情報であって、前記背景画像記憶部に記憶されている背景情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる、
請求項6に記載の監視方法。
【請求項8】
2次元情報のみを有する監視画像を撮影可能な単眼カメラであって、
前記監視撮影ステップが行われた後に、前記クライアントを構成する座標設定部が、前記監視画像中の位置を前記監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定ステップを、更に備え、
前記骨格情報抽出ステップにおいては、前記座標設定ステップにおいて設定された前記座標に基づいて、前記特徴点の前記監視対象領域3次元空間内における位置及び動きを前記骨格情報として抽出する、
請求項6又は7に記載の監視方法。
【請求項9】
請求項6又は7に記載の監視方法において、
前記監視対象人物特定ステップ、骨格情報抽出ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記骨格情報抽出部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。
【請求項10】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、
前記クライアントは、前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成するアバター生成部と、前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、
前記サーバは、前記監視対象領域の背景画像情報を記憶する背景画像記憶部と、ディープラーニング型の画像認識装置であって、前記クライアントからアップロードされた前記アバターの位置情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の不審度を判定する不審度判定部と、を備える、
監視システム。
【請求項11】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、
前記撮影部が、監視対象領域を撮影する監視撮影ステップと、
前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、
前記クライアントを構成するアバター生成部が、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成する、アバター生成ステップと、
ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからアップロードされた前記アバターの位置情報及び前記監視対象領域の背景画像情報から、前記監視対象人物の不審度を判定する、不審度判定ステップと、
前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、
監視方法。
【請求項12】
請求項11に記載の監視方法において、
前記監視対象人物特定ステップ、アバター生成ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記アバター生成部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視システム、監視方法、及び、監視システム用の画像認識装置の学習方法に関する。本発明は、詳しくは、監視対象領域を撮影する撮影部、クライアント、及び、サーバからなる監視システム、及び、そのような構成からなる監視システムを用いて行われる監視方法、及び、そのような構成からなる監視システム用の画像認識装置の学習方法に関する。
【背景技術】
【0002】
従来、防犯や防災等の目的で監視カメラを用いた監視システムが利用されている。この種の監視システムは、一般に、監視カメラと情報処理装置とを含んで構成されており、例えば、店舗や商業施設、公共施設等の所定の監視対象領域内に設置した監視カメラによって撮影された監視画像を認識することによって監視対象領域の監視が行われている。
【0003】
例えば、特許文献1、2には、監視画像内の監視対象人物の不審動作等、予め設定されている「特異的な動作」を画像認識によって認識する方法が開示されている。具体例として、「上部領域(頭部)の特異的な運動量の増加」から、当該監視対象人物の不審な動作(例えば、過剰に周辺を見回す動作等)を定型的な動作の一つとして把握することによって、不審動作を発見する技術が、既存の監視システムにおいて既に実現されている。又、最新の監視システムにおいては、例えば、特許文献3に開示されているように、監視対象の動作の不審度の判定を、ディープラーニングを用いた画像認識処理を利用して行う技術も実現されている。
【0004】
ここで、ディープラーニングを用いた画像認識処理を行うためには、高い演算処理能力が必要である。そのため、従来の監視システムにおいては、監視画像から検出された監視対象の動作の不審度の判定を行うめのディープラーニングを用いた画像認識処理は、個々の監視カメラが接続されている情報処理端末(クライアント)においてではなく、ネットワーク上に接続されている大型の演算処理装置であるサーバにおいて集中的に行われることが一般的であった。但し、このように、多数の監視カメラで撮影された監視画像の画像データをネットワーク上のサーバに集積して集中的に処理する場合、ネットワーク上で伝送される画像データの通信量が膨大となり、通信効率の低下に起因する処理の遅延が発生するリスクが高まる。又、多数の監視対象領域から並行して送信されてくる膨大な画像データの画像認識の処理量が、サーバの処理能力の限界を超えてしまうこともあった。
【0005】
これらの問題に対して、特許文献4においては、個々の監視カメラがディープラーニングを用いた画像認識処理による不審度の判定を行うように監視システムを構成し、尚且つ、ネットワーク上に接続されているサーバが、個々の監視カメラの処理能力に関する情報等に基づいて、個々の監視カメラの実行する処理を、個々の監視カメラ毎に最適に制御することにより、ネットワーク上の通信量の過剰な増加を抑制する監視システムが提案されている。
【0006】
しかしながら、特許文献4に開示されている監視システムを導入するためには、個々の監視対象領域、即ち、個々の店舗や商業施設、公共施設等毎に、ディープラーニングを用いた画像認識処理による不審度の判定を行うことができる高性能のカメラを導入する必要がある。このような高性能のカメラの導入の要請があると、既存の監視カメラの流用は難しく、システムの導入コストが嵩むため、特に、小規模な小売店舗等においては、このコスト負担の大きさが、このようなシステム導入の妨げとなっていることが多かった。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許第5899506号公報
【特許文献2】特許第6581280号公報
【特許文献3】特許第6534499号公報
【特許文献4】特許第6989294号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、上記状況に鑑み、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することを目的とする。
【課題を解決するための手段】
【0009】
本発明者らは、上記構成からなる監視システムを、個々のクライアントによって、監視画像から検出した監視対象の骨格情報のみを、ディープラーニング型の画像認識装置を備えるサーバに送信して、当該サーバにおいては、この骨格情報と、予め記憶されている監視対象領域の背景画像情報と、を用いて、監視対象人物の不審度を判定するシステムとすることによって上記課題が解決できることに想到し、本発明を完成させた。本発明は、具体的に以下のシステム及び方法を提供する。
【0010】
(1) 監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、前記クライアントは、前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記サーバにアップロードする骨格情報抽出部と、前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、前記サーバは、前記監視対象領域の背景画像情報を記憶する背景画像記憶部と、ディープラーニング型の画像認識装置であって、前記クライアントからアップロードされた前記骨格情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の不審度を判定する不審度判定部と、を備える、監視システム。
【0011】
(1)の監視システムによれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。
【0012】
(2) 前記サーバが、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景情報であって、前記背景画像記憶部に記憶されている背景情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部を備える、(1)に記載の監視システム。
【0013】
(2)の監視システムによれば、ディープラーニング型の画像認識装置である不審度判定部により監視画像を認識することによって監視対象者の不審度を判定する監視システムにおいて、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることによる学習済みモデルの生成を行うことができる。
【0014】
(3) 複数の前記クライアントと、前記サーバと、からなり、前記学習支援部は、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力する、(2)に記載の監視システム。
【0015】
(3)の監視システムによれば、ディープラーニング型の画像認識装置である不審度判定部に教師データとして入力する画像をより多く取得することができる。これにより、(2)の監視システムにおいて享受することができる上記効果をより好ましい水準で享受することができる。
【0016】
(4) 前記撮影部が2次元情報のみを有する監視画像を撮影可能な単眼カメラであって、前記クライアントが、前記監視画像中の位置を前記監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部を、更に備え、前記骨格情報抽出部は、前記座標設定部が設定した前記座標に基づいて、前記特徴点の前記監視対象領域3次元空間内における位置及び動きを前記骨格情報として抽出する、(1)から(3)の何れかに記載の監視システム。
【0017】
(4)の監視システムによれば、例えば、個々の店舗等においては、高価な3Dカメラ等を導入することなく廉価で取得可能な単眼カメラによって、(1)から(3)の何れかに記載の監視システムを構成することができる。これにより、個々の監視対象領域におけるシステムの導入コストを低く抑えることができるので、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視システムの普及を促進させることが期待できる。
【0018】
(5) (3)に記載の監視システムにおいて、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力して学習をさせる、監視システム用画像認識装置の学習方法。
【0019】
(5)の監視システム用画像認識装置の学習方法によれば、ディープラーニング型の画像認識装置により監視画像を認識することによって監視対象者の不審度を判定する監視システムにおいて、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることによる学習済みモデルの生成を行うことができる。
【0020】
(6) 監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、前記撮影部が、監視対象領域を撮影する監視撮影ステップと、前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、前記クライアントを構成する骨格情報抽出部が、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出する、骨格情報抽出ステップと、ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからアップロードされた前記骨格情報と、前記サーバを構成する背景画像記憶部に予め記憶されている背景画像情報から前記監視対象人物の不審度を判定する、不審度判定ステップと、前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、監視方法。
【0021】
(6)の監視方法によれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。
【0022】
(7) 前記サーバを構成する学習支援部が、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景情報であって、前記背景画像記憶部に記憶されている背景情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる、(6)に記載の監視方法。
【0023】
(7)の監視方法によれば、ディープラーニング型の画像認識装置である不審度判定部により監視画像を認識することによって監視対象者の不審度を判定する監視方法において、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることによる学習済みモデルの生成を行うことができる。
【0024】
(8) 2次元情報のみを有する監視画像を撮影可能な単眼カメラであって、前記監視撮影ステップが行われた後に、前記クライアントを構成する座標設定部が、前記監視画像中の位置を前記監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定ステップを、更に備え、前記骨格情報抽出ステップにおいては、前記座標設定ステップにおいて設定された前記座標に基づいて、前記特徴点の前記監視対象領域3次元空間内における位置及び動きを前記骨格情報として抽出する、(6)又は(7)に記載の監視方法。
【0025】
(8)の監視方法によれば、例えば、個々の監視対象領域の監視を行う個々の店舗等においては、高価な3Dカメラ等を導入することなく廉価で取得可能な単眼カメラによって、(6)又は(7)に記載の監視方法を実施することができる。これにより、個々の監視対象領域における監視プロセスを行うための初期コストを低く抑えることができるので、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視プロセスの普及を促進させることが期待できる。
【0026】
(9) (6)又は(7)に記載の監視方法において、前記監視対象人物特定ステップ、骨格情報抽出ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記骨格情報抽出部、及び、前記不審度情報出力部に実行させ、前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、監視システム用のプログラム。
【0027】
(9)のプログラムによれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。
【0028】
(10) 監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、前記クライアントは、前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成するアバター生成部と、前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、前記サーバは、前記監視対象領域の背景画像情報を記憶する背景画像記憶部と、ディープラーニング型の画像認識装置であって、前記クライアントからアップロードされた前記アバターの位置情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の不審度を判定する不審度判定部と、を備える、監視システム。
【0029】
(10)の監視システムによれば、一例として、侵入禁止エリアが特定されていて、個々の監視対象者の位置を監視することが必要な監視対象領域の監視を行う場合において、既存の汎用的な監視カメラ等を用いて構成することが可能でありながら、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができ、尚且つ、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えて不審度の判定や伝達の遅延を回避することができる。
【0030】
(11) 監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、前記撮影部が、監視対象領域を撮影する監視撮影ステップと、前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、前記クライアントを構成するアバター生成部が、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成する、アバター生成ステップと、ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからアップロードされた前記アバターの位置情報及び前記監視対象領域の背景画像情報から、前記監視対象人物の不審度を判定する、不審度判定ステップと、前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、監視方法。
【0031】
(11)の監視方法によれば、一例として、侵入禁止エリアが特定されていて、個々の監視対象者の位置を監視することが必要な監視対象領域の監視を行う場合において、既存の汎用的な監視カメラ等を用いて構成することが可能でありながら、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができ、尚且つ、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えて不審度の判定や伝達の遅延を回避することができる。
【0032】
(12) (11)に記載の監視方法において、前記監視対象人物特定ステップ、アバター生成ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記アバター生成部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。
【0033】
(12)のプログラムによれば、一例として、侵入禁止エリアが特定されていて、個々の監視対象者の位置を監視することが必要な監視対象領域の監視を行う場合において、既存の汎用的な監視カメラ等を用いて構成することが可能でありながら、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができ、尚且つ、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えて不審度の判定や伝達の遅延を回避することができる。
【発明の効果】
【0034】
本発明によれば、監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムにおいて、ネットワーク上で伝送される通信量の増大やサーバ側での処理負担を抑えながら、個々の監視対象領域において、ディープラーニングを用いた画像認識処理による不審度判定の結果を用いた監視を実現することができる。
【図面の簡単な説明】
【0035】
【
図1】本発明の監視システムの基本構成を示すブロック図である。
【
図2】本発明の監視システムにおいて、ネットワークを通じてアップロード或いはダウンロードされるデータの説明に供する図面である。
【
図3】本発明の監視システムの実施形態の一例であり、複数のクライアントと単一のサーバとが通信可能に接続されている実施形態におけるネットワーク構成を模式的に示す図面である。
【
図4】本発明の監視システムが備える監視対象人物特定部によって、監視画像中の監視対象人物が特定されている状態を示す図である。
【
図5】本発明の監視システムが備える骨格情報抽出部によって、
図4の監視対象人物から骨格情報が抽出されている状態を示す図である。
【
図6】本発明の監視システムが備える骨格情報抽出部によって、骨格の特徴点が、3次元情報(奥行情報)を含む座標上に重ね合わされている状態を示す図である。
【
図7】本発明の監視システムが備える骨格情報抽出部によって、上記の特徴点の位置の変動に係る情報に基づいて、監視対象人物の運動が認識される状態を示す図である。
【
図8】本発明の監視システムが備える骨格情報抽出部によって認識された、監視対象の速度ベクトルを示す図である。
【
図9】監視画像の背景画像であって、当該画像中に、「監視対象領域3次元空間内における位置」と関連付けされた座標が設定されている状態の一例を示す図である。
【
図10】本発明の監視方法の流れを示すフロー図である。
【
図11】本発明の監視システム用画像認識装置の学習方法の流れを模式的に示すフロー図である。
【
図12】本発明の監視システムの他の実施形態の構成を示すブロック図である。
【
図13】本発明の監視方法の他の実施態様の流れを示すフロー図である。
【
図14】本発明の監視システムの他の実施形態において、アバター生成部が生成するアバターの一例である。
【発明を実施するための形態】
【0036】
以下、本発明を実施するための形態について、適宜図面を参照しながら詳細に説明する。以下の説明では、本発明の監視システム及び監視方法等について、その具体的な構成の一例を示して説明を行う。但し、本発明の技術的範囲は、以下の実施形態等に限定されるものではなく、本発明の技術思想の範囲内において適宜変更して実施することができる。
【0037】
<監視システム>
本発明の監視システムは、店舗や工事現場等において監視対象領域を撮影する撮影部と、撮影部が撮影した監視画像の一次的な処理を行う情報処理端末(クライアント)と、個々のクライアントからアップロードされた画像情報を、ディープラーニング型の画像認識装置により認識することによって監視対象者の不審度を判定する処理を行うサーバとによって構成される監視システム全般に広く適用することができる技術である。
【0038】
[全体構成]
図1は、本発明の監視システムの実施形態の一つである監視システム10の基本構成を示すブロック図であり、
図2は、監視システム10の基本動作を示すシステム概念図であり、監視システム10において、ネットワークを通じてアップロード或いはダウンロードされるデータの説明に供する図面である。これらの各図に示す通り、監視システム10は、監視対象領域を撮影し、それによって得た監視画像の画像データをクライアント2に送信する撮影部1、監視画像の画像データから監視対象人物に係る画像データを抽出してサーバ3にアップロードするクライアント2、及び、クライアント2からアップロードされた画像データを認識して監視対象人物の不審度を判定する処理を行うサーバ3が、ネットワークを介して相互に情報通信可能に接続されてなる情報処理システムである。上記各部分間の接続は、専用の通信ケーブルを利用した有線接続、或いは、有線LANによる接続とすることができる。又、有線接続に限らず、無線LANや近距離無線通信、携帯電話回線等の各種無線通信を用いた接続によって監視システム10を構成することもできる。
【0039】
上記のように、撮影部1、クライアント2、及び、サーバ3の各部分を相互に情報通信可能に接続して構成される監視システム10において、少なくとも、撮影部1は、監視対象となる監視対象領域内、或いは、当該領域を撮影可能な監視対象領域近傍に設置される。又、クライアント2(2A~2D)についても撮影部1と共に監視対象領域内等に設置することが一般的な構成とはなるが、クライアント2については、必ずしも、当該監視対象領域内やその近傍に設置することが必須ではなく、ネットワークを介して上記通信が可能とされている任意の位置、例えば、監視対象領域から物理的に離れた任意の場所にある他の管理施設内等にクライアント2を配置することもできる。
【0040】
監視システム10の監視対象領域は、複数の相互に離間した場所に任意に設定することができる。各々の監視対象領域100、200内においては、一つのクライアント2(2A~2D)に対して、複数の撮影部1(1A~1D)を接続することができるし、単一の監視対象領域100、200内に、複数のクライアント2(2A~2D)を配置することもできる(
図3参照)。尚、監視システム10においては、撮影部1とクライアント2とを一つの情報処理装置として一体化した構成、或いは、クライアント2の一部の構成のみを撮影部1内に搭載した構成とすることもできる。
【0041】
サーバ3については、上述の通り、ネットワークを介してクライアント2と相互に情報通信可能に接続されている限りにおいて、当該ネットワーク上の任意の場所に設置することができる。例えば、監視システム10において要求される、以下に説明する各部の発揮する機能を享受することができる限りにおいては、クラウド上に分散して存在する各種の情報処理装置の機能を、サーバ3として統合的に利用することによって、監視システム10を構成することもできる。
【0042】
[撮影部]
撮影部1は、各種の監視カメラによって構成することができる。具体的には、撮影した監視画像を、クライアント2で演算処理することができるようにデジタル形式の画像データに加工して、当該画像データをクライアント2に向けて出する機能を有するものであれば、既存の各種のデジタルカメラを特に制限なく撮影部1を構成する監視カメラとして用いることができる。
【0043】
又、監視システム10においては、監視画像中の位置を監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部(図示せず)を、システム内に更に備えることにより、撮影部1を構成する監視カメラを、監視対象領域3次元空間を2次元の画像として撮影する汎用的な単眼のカメラで構成することができる。尚、この座標設定部は撮影部1を構成する監視カメラに内蔵されていてもよいし、別途の装置としてクライアント2の追加構成として付加されていてもよい。2次元の画像情報から3次元座標を生成可能な座標設定部を設けることにより、距離測定デバイスや3Dカメラ等を導入することなく廉価で取得可能な単眼カメラによってのみ取得された2次元情報のみを有する画像からであっても、自動的な処理のみにより高い精度で監視対象人物の不審度の判定に必要な画像データを抽出することができる。
【0044】
[クライアント(情報処理端末)]
クライアント2は、撮影部1から送信された画像データから、サーバ3での画像認識処理に用いるデータを抽出する演算処理を行う情報処理装置である。クライアント2は、少なくとも、監視対象人物特定部21、骨格情報抽出部22、及び、不審度情報出力部23を備えている。又、上述の通り、座標設定部が更に備えられていてもよい。
【0045】
上記の構成を備えるクライアント2は、例えば、パーソナルコンピュータやタブレット端末、スマートフォン等を利用して構成することができる。或いは、クライアント2は、監視システム10を作動させるための機能に特化した専用の情報処理装置によって構成することもできる。これらの何れの構成においても、クライアント2は、CPU、メモリ、通信部等のハードウェアを備えている。そして、このような構成からなるクライアント2は、下記に詳細を説明するサーバ3と連動して、本発明に係るコンピュータプログラムである「監視システム用のプログラム」を実行することにより、以下に説明する監視作業のための各種動作を具体的に実行することができる。
【0046】
(監視対象人物特定部)
監視対象人物特定部21は、一例として、
図4に示すように、監視画像中の監視対象人物(人H)を自動的に検出して、これを監視対象として特定する処理を行う。このような監視対象人物の検出と特定は、例えば、背景差分によって監視領域内の「人」を検出することによって行うことができる。この背景差分は公知の技術であり、撮影部1を構成する監視カメラで取得された画像データと、事前に取得しておいた監視領域の背景画像との差分をとることで、動きのある監視対象を検出する技術である。
【0047】
尚、監視対象人物特定部21に、ディープラーニングを用いた画像認識処理を実行可能な機能を備えさせることによって、検出された監視対象人物のカテゴリー(管理者側のメンバーであるか否か等)や、パーソナリティ情報(性別・年齢等)も、自動的に特定することができる。このような特定を行うための画像認識技術としては、例えば、下記に公開されている技術を利用することができる。
「ディープラーニングと画像認識、オペレーションズ・リサーチ」
(http://www.orsj.o.jp/archive2/or60-4/or60_4_198.pdf)
【0048】
(骨格情報抽出部)
骨格情報抽出部22は、一例として
図5~
図8に示すように、監視対象人物特定部21において特定された監視対象人物(人H)について、複数の特徴点を連接する骨格線で構成されていて、監視対象人物の監視対象領域の3次元空間内における位置及び動作を特定可能な「骨格情報」を抽出する処理が行われる。尚、抽出した「骨格情報」は、ネットワークを通じてサーバ3にアップロードされる。
【0049】
本明細書において、監視対象人物の「骨格」とは、監視対象人物の複数の特徴点とこれらを連接してなる骨格線によって構成される線状の図形のことを言う。
図5は、骨格情報抽出部22によって、監視対象人物である人Hから「骨格」が抽出されている状態を示す図である。
図5においては、監視対象人物である人Hの頭頂部、左手h2、及び、その他の四肢の先端や主たる関節部分に対応する位置が特徴点(h1、・・・、hn)として把握されており、これらの複数の特徴点と、それらを連接する線分(骨格線)とによって形成される監視対象人物である人Hの「骨格」が、2次元画像である監視画像内の図形として認識されている。
【0050】
監視対象人物の骨格の抽出は、具体的には、従来公知の様々な手法の何れか、又は、それらを組合せて行うことができる。一例として、下記文献に開示されている「OpenPose」と称される技術を用いることにより、2次元の監視画像から「人」の骨格を抽出することが可能である。
「Zhe Cao 他 Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017」
【0051】
そして、監視対象人物として特定された人Hの監視対象領域の3次元空間内における位置及び動作を特定可能な「骨格情報」は、上記のようにして抽出された骨格について、これを構成する各特徴点の「監視対象領域3次元空間内における位置と速度」を特定することによって得ることができる。
図6は、監視対象人物として特定された人Hについて、抽出されたそれぞれの骨格の特徴点(h1、h2、・・・h5)が、監視画像に予め設定されている3次元情報(奥行情報)を含む座標上に重ね合わされている状態を示す図である。
図6に示すように、人Hの骨格の脚部先端近傍の特徴点(h3、h5)の位置が、3次元情報(奥行情報)を含む座標上におけるどの位置を占めているか(どのグリッド内にあるか)によって、人Hの立ち位置が斜線部分のグリッド内であることを特定することができる。又、
図7、
図8に示すように、監視対象人物として特定された「人H」の2次元監視画像から抽出された複数の各特徴点(h1~h5等で構成される複数の特徴点)の「監視対象領域3次元空間内における位置及び速度」の変動に係る情報に基づいて、監視対象領域3次元空間内での監視対象の動作を特定することができる。
【0052】
尚、クライアント2において、監視対象人物と併せて監視対象となる物も同様にして検出することにより、物に対する人の動作をより正確に認識することも可能である。
図7、
図8においては、監視対象人物として特定された人Hの左手H2の位置が、監視対象領域3次元空間内において位置h2
0(xh2
0、yh2
0、zh2
0)から位置h2
1(xh2
1、yh2
1、zh2
1)に移動したこと、及び、物Mについては位置m1
0(xm1
0、ym1
0、zm1
0)に静止していること、そして、「人Hの左手H2の移動後の位置h2
1と、物Mの位置m1
0とが、監視対象領域3次元空間内において一致していること」が、骨格情報抽出部22によって認識されている。
【0053】
(不審度情報出力部)
不審度情報出力部23は、サーバ3において生成され、サーバ3からダウンロードした監視対象人物の不審度に係る情報である不審度情報を出力する。この情報の出力は、クライアント2が備える監視用モニタや、監視対象領域の警備を行う警備員等の所持する携帯情報端末の表示画面等である。
【0054】
(座標設定部)
座標設定部は、撮影部1が撮影した監視画像中の床面又は地面に相当する位置を監視対象領域3次元空間内における実寸法と関連付けて特定可能な座標を設定する処理を行う。
図9は、座標設定部が、監視画像中に設定した座標の一例を示す図である。
図9では、説明のために、
図4の監視画像中に、監視対象領域3次元空間内における実寸法において等間隔となるグリッドをY方向及びX方向に重ねて示した。尚、このようにグリッドで領域を分割することは、一例であって、グリッド分けをせずに連続した座標が設定されていてもよい。尚、座標設定部が設定する座標は、床面(又は地面)が無限に広がっていると仮定して設定されるので、これを説明するために、あえて壁面や陳列棚等に対してもグリッドを重ねて表示した。ここで、2次元画像である監視画像では、監視対象領域3次元空間内における実寸法が同じであっても、近くの位置よりも遠くの位置の方が小さく見える。よって、設定された座標において、上記実寸法上で等間隔のグリッドは、遠方の方が小さくなるように設定される。このように、座標設定部が設定する座標は、監視対象領域3次元空間内における実際の位置(実寸法、実距離)と関連付けられている。
【0055】
座標設定部が設定する座標が、上述の通り、監視対象領域3次元空間内における実際の位置(実寸法、実距離)と関連付けられているということは、換言すれば、座標設定部が設定する上記座標上の各グリッド、或いは、各点は、撮影部1からの距離情報を含んでいるということでもある。そうすると、所定領域内の監視対象がどのグリッドに位置しているかを把握することで、当該監視対象の大きさや立体形状に係る3次元情報を取得することが可能である(特許文献2参照)。
【0056】
[サーバ]
サーバ3は、クライアント2からアップロードされた監視対象人物の骨格情報と、予めサーバ内に記憶されている監視対象領域の背景画像情報から、監視対象人物の不審度を判定する処理を行う情報処理装置である。サーバ3は、少なくとも、監視対象領域の背景画像情報を記憶する背景画像記憶部31と、ディープラーニング型の画像認識装置である不審度判定部32を備えている。又、サーバ3には、クライアント2において抽出された大量の骨格情報を、不審度判定部32を構成する画像認識装置に教師データとして入力することによって当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部33が更に備えられていることが好ましい。
【0057】
上記の構成からなるサーバ3は、単体の情報処理装置によって構成することもできるし、上述した通り、クラウド上にある各種の情報処理装置の機能を利用することによって、クラウド上に分散配置された情報処理システムとして構成することもできる。
【0058】
(背景画像記憶部)
背景画像記憶部31は、監視対象領域毎に異なる監視画像の背景画像情報を記憶する。監視画像の背景画像とは、例えば
図4に示す監視画像における
図9に示すような画像のことを言う。このように、背景画像は、監視対象領域内に恒常的に設置されている什器等の構造物を含み、監視対象領域に出入りし領域内を移動する監視対象人物を含まない背景部分の画像のことを言う。又、「背景画像情報」には、背景画像の画像データに加えて、「監視画像中の床面又は地面に相当する位置を監視対象領域3次元空間内における実寸法と関連付けて特定可能な座標」が設定されていることが好ましい。背景画像記憶部31は、このような座標が設定されている背景画像の画像データを登録可能な各種の情報記憶装置等により構成することができる。
【0059】
尚、背景画像情報は、監視対象領域の監視画像の背景が経時的に変動しない場合であれば、監視開始前に当該情報を背景画像記憶部31に予め記憶させておけばよい。監視画像の背景が経時的に変動する場合は、当該変動に応じた複数種の背景画像情報を予め記憶させておくか、或いは、必要なタイミングで背景画像情報を更新する処理を行なえばよい。例えば、日中と夜間で背景画像情報を1日に2回切り替えること等が考えられる。本発明の監視システム10においては、何れにしても、背景画像情報は、骨格情報のようにリアルタイムでアップデートし続ける必要はなく、これにより、ネットワーク上で伝送される通信量を大幅に削減することができる。
【0060】
(不審度判定部)
不審度判定部32は、ディープラーニング型の画像認識装置であって、クライアント2からアップロードされた骨格情報と、背景画像記憶部31に予め記憶されている背景画像情報と、を入力することにより、監視対象人物の背景に対する動作を認識し、その不審度を判定する。
【0061】
不審度判定部32を構成する画像認識装置は、CPU、メモリ、通信部等のハードウェアを備えるディープラーニング型の情報処理装置である。尚、本明細書において、ディープラーニング型の情報処理装置とは、多層式ニューラルネットワークを有する機械学習型の画像認識装置のことを言う。不審度判定部32においては、このようなディープラーニング型の画像認識装置において、従来公知の各種の画像認識に係るプログラムを実行することにより、以下に説明する各動作を具体的に実行することができる。
【0062】
不審度判定部32における不審度の判定のための画像認識は、クライアント2において、監視画像中から抽出された監視対象人物の「骨格情報」と、背景画像記憶部31に予め記憶されている「背景画像情報」(記憶されている複数の「背景画像情報」のうち、入力される「骨格情報」に対応する「背景画像情報」)とを、入力データとして、ディープラーニング型の画像認識装置による演算処理が行われる。
【0063】
具体的には、クライアント2からアップロードされた骨格情報(特徴点(h1
~hn))を、背景画像記憶部31に予め記憶されている3次元情報(奥行情報)を含む座標が設定されている「背景画像」上に重ね合わすことによって、
図6に示す状態とすることができる。この状態の画像において、当該背景画像に対する当該骨格の相対的な位置や動きをディープラーニング型の画像認識装置によって認識することによって、当該背景画像に対する当該骨格、即ち、監視対象人物の監視対象領域空間内における相対的な位置や動きを認識することができる。そして、更に、これらの認識結果を数値化し解析することによって、監視対象人物の動作の不審度が判定される。不審度判定部32による監視対象人物の動作の不審度の判定は、一例として、上記のようにして特定され数値化された監視対象人物の動作に係る値と、予め規定されている所定の閾値との比較によって行うことができる。
【0064】
不審度判定部32は、上記のようにして数値化された監視対象人物の動作に係る値から、監視対象人物の移動、頭部や四肢の動き、姿勢の変化を、背景画像中における相対的な動きとして、統合的に把握し、この「動作」が不審度の高い「動作」であるか否かを判断することもできる。例えば、監視対象人物が、進入禁止の位置に浸入したことを検知したり、一定の位置に所定時間以上留まっていること、或いは、短時間のうちに一定の位置の周囲を徘徊する行動等、を検知したりした場合等に、それらの「運動」を不審度の高い運動と判断することができる。
【0065】
不審度判定部32は、例えば、
図8に示すような人Hの速度ベクトルと、物Mの速度ベクトルに係るデータを取得したとき、ベクトル量の差分等を解析することにより、「人Hが、位置m1
0に静置されていた物Mに左手を伸ばしてこれを把持し、そのまま物Mを位置m1
2(h1
2)まで移動させた」ことを3次元空間内で統合的に把握することができる。物Mが移動させられるべき物品ではないことを、予め条件付けしておくことにより、上記行動を「極めて不審度の高い行動」として検知することができる。
【0066】
(学習支援部)
学習支援部33は、
図11に示すように、クライアント2からアップロードされた骨格情報と、当該骨格情報に対応する背景情報であって、背景画像記憶部31に記憶されている背景情報とを、「教師データ」として不審度判定部32を構成するディープラーニング型の画像認識装置に入力することによって、当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる。
【0067】
学習支援部33による上記処理によって、不審度判定部32を構成するディープラーニング型の画像認識装置に監視画像データに含まれる監視対象人物の動作等を学習させて、画像認識に用いられるモデルパラメータ(例えば重み係数や閾値)を変更することで学習モデルを更新して、監視対象人物の動作の認識の精度を向上させることができる。又、大量にアップロードされる監視対象人物の動作にかかる画像データは、データ量の小さい骨格情報とされていて、背景画像に係るデータは予めサーバ側に記憶されている背景画像データを用いることができるので、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることができる。
【0068】
<監視方法>
本発明の監視方法は、上述の監視システム10を用いて行うことができる。この監視方法においては、以下に詳細を説明する、監視撮影ステップS10、監視対象人物特定ステップS20、骨格情報抽出ステップS30、不審度判定ステップS40、及び、不審度情報出力ステップS50が、順次行われる(
図10参照)。
【0069】
尚、本発明の監視方法においては、監視撮影ステップS10に先行して、必要に応じて、座標設定ステップ(図示省略)が行われる。この座標設定ステップは、撮影部1が撮影した監視画像中の床面又は地面に相当する位置を監視対象領域3次元空間内における実寸法と関連付けて特定可能な座標、即ち、監視対象領域についての奥行き情報も有する3次元座標を設定する処理である。尚、この座標設定ステップは、監視領域を監視するための事前準備であって、これ以降のステップにより本稼働としての実際の監視が開始される。換言すると、座標設定ステップは、監視の本稼働の開始に先行して、撮影部1の設置後に少なくとも1回行い、その後、撮影部1の配置の変更等、監視画像の撮影条件に特段の変更がない限り、監視システムの稼働中における再度の座標設定を不要とすることができる。
【0070】
[監視撮影ステップ]
監視撮影ステップS10は、撮影部1が、監視対象領域の撮影を行う手順である。ここで、この撮影は、静止画の撮影を所定間隔で連続して行い、撮影される画像の連続として後述する監視動作を行うが、撮影間隔を非常に短くすることにより、実質的には、動画撮影として、監視動作を行っているものと捉えることもできる。
【0071】
(監視対象人物特定ステップ)
監視対象人物特定ステップS20は、クライアント2において行われる手順であり、クライアント2を構成する監視対象人物特定部21が、撮影部1が撮影した監視画像から監視対象人物を検出して特定する処理が行われる。監視対象人物特定部21が、撮影部1が撮影した監視画像中の監視対象人物を検出して特定したか否かについて判断が行われ、監視対象人物を検出して特定した場合(S20、Yes)には、骨格情報抽出ステップS30へ進み、監視対象が検出されていない場合(S20、No)には、監視撮影ステップS10へ戻り、監視動作を継続する。
【0072】
(骨格情報抽出ステップ)
骨格情報抽出ステップS30もクライアント2において行われる手順であり、クライアント2を構成する骨格情報抽出部22が、監視対象人物特定ステップS20で検出され特定された監視対象人物について、複数の特徴点とそれらの複数の特徴点を連接する骨格線とで構成されていて監視対象人物の監視画像中における位置及び動作を特定可能な骨格情報を抽出する。
【0073】
(不審度判定ステップ)
不審度判定ステップS40はサーバ3において行われる手順であり、サーバ3を構成する不審度判定部32に、クライアントからアップロードされた骨格情報と、サーバ3側に予め記憶されている監視対象領域の背景画像情報と、を入力して、監視対象人物の不審度を判定する。不審度判定部32が、監視対象の運動の不審度が高い(異常行動を行っている)と判断した場合(S40、Yes)には、不審度情報出力ステップS50へ進み、監視対象の運動の不審度が低い(異常行動を行っていない)と判断した場合(S40、No)には、監視撮影ステップS10へ戻る。
【0074】
不審度判定部32は、クライアント2からアップロードされた骨格情報に含まれる各特徴点の位置ベクトルや速度ベクトルと、背景画像情報から、監視対象人物の監視対象領域内での移動、頭部や四肢の動き、姿勢の変化を統合的に把握し、この「動作」が不審度の高い「運動」であるか否かを判断する。例えば、監視対象人物が、背景画像情報によって進入禁止範囲であることが規定されている位置に浸入したことを検知したり、一定の位置に所定時間以上留まっていること、或いは、短時間のうちに一定の位置の周囲を徘徊する行動等、を検知したりした場合等に、それらの「運動」を不審度の高い運動と判断する。
【0075】
更に、不審度判定部32は、監視対象である「人」の速度ベクトルと、「物」の速度ベクトルとの差分を入力値とし、この入力値と既定の閾値との比較により、監視対象人物の動作の不審度を判定して出力することもできる。
【0076】
尚、不審度判定部32の上記判断例は、簡単な構成を例示したに過ぎず、様々な条件の組合せによって、より高度な不審行動の検出を行うことが可能である。
【0077】
(不審度情報出力ステップ)
不審度情報出力ステップS50はクライアント2において行われる手順であり、サーバ3において不審度判定部32が、不審行動を検知した場合に監視者に不審行動が検知されたことを通知する手順である。
【0078】
(学習ステップ)
学習ステップは、サーバ3を構成する学習支援部33が、クライアント2からアップロードされた骨格情報と、当該骨格情報に対応する背景情報であって、背景画像記憶部31に記憶されている背景情報とを、教師データとして不審度判定部32を構成するディープラーニング型の画像認識装置に入力することによって、当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる手順である。このような態様で多層式ニューラルネットワークの追加学習、又は、再学習を行うことにより、ネットワーク上で伝送される通信量の増大を抑えながら、ディープラーニング型の画像認識装置の認識力の弱点を効率よく補強することができる。
【0079】
<監視システム用画像認識装置の学習方法>
本発明に係る「監視システム用画像認識装置の学習方法」は、撮影部と、撮影部が撮影した監視画像の一次的な処理を行う情報処理端末(クライアント)と、個々のクライアントからアップロードされた画像情報を機械学習型の画像認識装置により認識することによって監視対象者の不審度を判定する処理を行うサーバとによって構成される監視システム全般において、多層式ニューラルネットワークを備えるディープラーニング型の画像認識装置の学習を行う方法として広く適用可能な学習方法である。この学習方法は、教師データとして用いる監視対象人物の動作に係る画像データがデータ量の少ない骨格情報としてアップロードされ、尚且つ、背景画像に係る情報は予めサーバ側に記憶しておく手順とされていることによって、ネットワーク上で伝送される通信量の増大を抑えながら、大量の教師データを学習させることができる。又、教師データとして用いる監視対象人物の動作に係る画像データが骨格情報の形に加工されているためプライバシー保護の観点からも好ましいプロセスとなっている。
【0080】
<監視システム・監視方法(第2の実施形態)>
本発明の監視システムの第2の実施形態は、撮影部1、クライアント2と、サーバ3とがネットワーク上に接続されている監視システムである点、クライアント2は、少なくとも、監視対象人物特定部21と不審度情報出力部23とを備えている点、及び、サーバ3は、少なくとも背景画像記憶部31と不審度判定部32とを備えている点おいて、上述した監視システム10(第1の実施形態)と同一の構成である。但し、この第2の実施形態に係るは、第1の実施形態における骨格情報抽出部22に対応する構成としてアバター生成部22Aを備える。このアバター生成部22Aは、例えば、
図14に示すように、単色の平面図形で構成されていることにより、監視対象人物とされた人Hの個人の特定は視認不可能に加工されていて、監視対象人物の位置を特定可能な画像データであるアバターa(a´a´´a´´´)を生成する。
【0081】
そして、この監視システムの第2の実施形態においては、サーバ3を構成する不審度判定部32においては、クライアント2からアップロードされたアバターの位置情報と、背景画像記憶部31に予め記憶されている背景画像情報と、を入力することにより、監視対象人物(人H)の背景画像中における位置に基づいて、その不審度を判定する。
【0082】
又、上述の本発明の監視システムの第2の実施形態を用いることにより、本発明の監視方法を第2の実施態様として実施することができる。この場合には、第1の実施態様における骨格情報抽出ステップS30に対応する手順としてアバター生成ステップS30Aが行われる。
【符号の説明】
【0083】
1 撮影部
2 クライアント
21 監視対象人物特定部
22 骨格情報抽出部
22A アバター生成部
23 不審度情報出力部
3 サーバ
31 背景画像記憶部
32 不審度判定部
33 学習支援部
10 監視システム
100、200 監視対象領域
S10 監視撮影ステップ
S20 監視対象人物特定ステップ
S30 骨格情報抽出ステップ
S30A アバター生成ステップ
S40 不審度判定ステップ
S50 不審度情報出力ステップ
【手続補正書】
【提出日】2022-08-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、
前記クライアントは、
前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、
複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記監視対象領域の背景画像情報を含まない前記骨格情報を、前記サーバにリアルタイムでアップロードする骨格情報抽出部と、
前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、
前記サーバは、
前記監視対象領域の背景部分の画像情報であって前記監視対象人物の画像情報を含まない前記背景画像情報が、前記骨格情報のアップロードに先行して予め記憶されている背景画像記憶部と、
ディープラーニング型の画像認識装置であって、前記クライアントからリアルタイムでアップロードされた前記骨格情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の動作を背景画像中における相対的な動作として、統合的に把握して、当該動作の不審度を判定する不審度判定部と、を備える、
監視システム。
【請求項2】
前記背景画像記憶部には複数種の前記背景画像情報が予め記憶されていて、
前記不審度判定部には、リアルタイムでアップロードされた不審度の判定対象である監視対象人物の前記骨格情報と、複数種の前記背景画像情報のうち、不審度の判定対象である監視対象人物の前記骨格情報に対応する背景画像情報が、入力される、
請求項1に記載の監視システム。
【請求項3】
前記サーバが、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部を備える、
請求項1又は2に記載の監視システム。
【請求項4】
複数の前記クライアントと、
前記サーバと、からなり、
前記学習支援部は、複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力する、
請求項3に記載の監視システム。
【請求項5】
前記撮影部が2次元情報のみを有する監視画像を撮影可能な単眼カメラであって、
前記クライアントが、前記監視画像中の位置を前記監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定部を、更に備え、
前記骨格情報抽出部は、前記座標設定部が設定した前記座標に基づいて、前記特徴点の前記監視対象領域3次元空間内における位置及び動きを前記骨格情報として抽出する、
請求項1又は2の何れかに記載の監視システム。
【請求項6】
請求項4に記載の監視システムにおいて、
複数の前記クライアントからアップロードされた前記骨格情報を、前記教師データとして前記画像認識装置に入力して学習をさせる、監視システム用画像認識装置の学習方法。
【請求項7】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、
前記撮影部が、監視対象領域を撮影する監視撮影ステップと、
前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、
前記クライアントを構成する骨格情報抽出部が、複数の特徴点を連接する骨格線で構成されていて前記監視対象人物の位置及び動作を特定可能な骨格情報を抽出して、前記監視対象領域の背景画像情報を含まない前記骨格情報を、前記サーバにリアルタイムでアップロードする、骨格情報抽出ステップと、
ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからリアルタイムでアップロードされた前記骨格情報と、前記サーバを構成する背景画像記憶部に予め記憶されている前記監視対象領域の背景部分の画像情報であって前記監視対象人物の画像情報を含まない背景画像情報と、を入力することにより前記監視対象人物の動作を背景画像中における相対的な動きとして、統合的に把握して、当該動きの前記監視対象人物の不審度を判定する、不審度判定ステップと、
前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、
監視方法。
【請求項8】
前記背景画像記憶部には複数種の前記背景画像情報が予め記憶されていて、
前記不審度判定部には、リアルタイムでアップロードされた不審度の判定対象である監視対象人物の前記骨格情報と、複数種の前記背景画像情報のうち、不審度の判定対象である監視対象人物の前記骨格情報に対応する背景画像情報が、入力される、
請求項7に記載の監視方法。
【請求項9】
前記サーバを構成する学習支援部が、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる、
請求項7又は8に記載の監視方法。
【請求項10】
2次元情報のみを有する監視画像を撮影可能な単眼カメラであって、
前記監視撮影ステップが行われた後に、前記クライアントを構成する座標設定部が、前記監視画像中の位置を前記監視対象領域である3次元空間内における実際の位置と関連付けて特定可能な座標を設定する座標設定ステップを、更に備え、
前記骨格情報抽出ステップにおいては、前記座標設定ステップにおいて設定された前記座標に基づいて、前記特徴点の前記監視対象領域3次元空間内における位置及び動きを前記骨格情報として抽出する、
請求項7又は8に記載の監視方法。
【請求項11】
請求項7又は8に記載の監視方法において、
前記監視対象人物特定ステップ、骨格情報抽出ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記骨格情報抽出部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。
【請求項12】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムであって、
前記クライアントは、
前記撮影部が撮影した監視画像から監視対象人物を検出して特定することができる監視対象人物特定部と、
単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成して、前記監視対象領域の背景画像情報を含まない前記アバターの位置情報を、前記サーバにリアルタイムでアップロードするアバター生成部と、
前記サーバからダウンロードした前記監視対象人物の不審度を出力する不審度情報出力部と、を備え、
前記サーバは、
前記監視対象領域の背景部分の画像情報であって前記監視対象人物の画像情報を含まない前記背景画像情報が、前記アバターの位置情報のアップロードに先行して予め記憶されている背景画像記憶部と、
ディープラーニング型の画像認識装置であって前記クライアントからリアルタイムでアップロードされた前記アバターの位置情報と、前記背景画像記憶部に予め記憶されている前記背景画像情報と、を入力することにより、前記監視対象人物の位置を背景画像中における相対的な位置として統合的に把握して、前記監視対象人物の不審度を判定する不審度判定部と、を備える、
監視システム。
【請求項13】
監視対象領域を撮影する撮影部と、クライアントと、サーバと、からなる監視システムを用いる監視方法であって、
前記撮影部が、監視対象領域を撮影する監視撮影ステップと、
前記クライアントを構成する監視対象人物特定部が、前記撮影部が撮影した監視画像から監視対象人物を検出して特定する、監視対象人物特定ステップと、
前記クライアントを構成するアバター生成部が、単色の平面図形で構成されていて前記監視対象人物の個人の特定は視認不可能に加工されていて、前記監視対象人物の位置を特定可能なアバターを生成して、前記監視対象領域の背景画像情報を含まない前記アバターの位置情報を、前記サーバにリアルタイムでアップロードする、アバター生成ステップと、
ディープラーニング型の画像認識装置であって前記サーバを構成する不審度判定部が、前記クライアントからリアルタイムでアップロードされた前記アバターの位置情報及び前記サーバを構成する背景画像記憶部に予め記憶されている背景画像情報と、を入力することにより前記監視対象人物の位置を背景画像中における相対的な位置として統合的に把握して、前記監視対象人物の不審度を判定する、不審度判定ステップと、
前記クライアントを構成する不審度情報出力部が、前記サーバからダウンロードした不審度情報を出力する、不審度情報出力ステップと、を備える、
監視方法。
【請求項14】
請求項13に記載の監視方法において、
前記監視対象人物特定ステップ、アバター生成ステップ、及び、前記不審度情報出力ステップを、前記クライアントを構成する前記監視対象人物特定部、前記アバター生成部、及び、前記不審度情報出力部に実行させ、
前記不審度判定ステップを、前記サーバを構成する不審度判定部に実行させる、
監視システム用のプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】変更
【補正の内容】
【0012】
(2) 前記サーバが、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる学習支援部を備える、(1)に記載の監視システム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0022
【補正方法】変更
【補正の内容】
【0022】
(7) 前記サーバを構成する学習支援部が、前記クライアントからアップロードされた前記骨格情報と、該骨格情報に対応する背景画像情報であって前記背景画像記憶部に記憶されている背景画像情報とを、教師データとして前記画像認識装置に入力することによって、前記画像認識装置の備える多層式ニューラルネットワークに学習をさせる、(6)に記載の監視方法。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0066
【補正方法】変更
【補正の内容】
【0066】
(学習支援部)
学習支援部33は、
図11に示すように、クライアント2からアップロードされた骨格情報と、当該骨格情報に対応する背景
画像情報であって、背景画像記憶部31に記憶されている背景
画像情報とを、「教師データ」として不審度判定部32を構成するディープラーニング型の画像認識装置に入力することによって、当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0078
【補正方法】変更
【補正の内容】
【0078】
(学習ステップ)
学習ステップは、サーバ3を構成する学習支援部33が、クライアント2からアップロードされた骨格情報と、当該骨格情報に対応する背景画像情報であって、背景画像記憶部31に記憶されている背景画像情報とを、教師データとして不審度判定部32を構成するディープラーニング型の画像認識装置に入力することによって、当該画像認識装置の備える多層式ニューラルネットワークに学習をさせる手順である。このような態様で多層式ニューラルネットワークの追加学習、又は、再学習を行うことにより、ネットワーク上で伝送される通信量の増大を抑えながら、ディープラーニング型の画像認識装置の認識力の弱点を効率よく補強することができる。