(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-20
(45)【発行日】2022-10-28
(54)【発明の名称】検知認識システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221021BHJP
G06N 20/00 20190101ALI20221021BHJP
G08B 13/196 20060101ALI20221021BHJP
G08B 25/00 20060101ALI20221021BHJP
G08B 25/04 20060101ALI20221021BHJP
H04N 5/225 20060101ALI20221021BHJP
H04N 5/232 20060101ALI20221021BHJP
H04N 7/18 20060101ALI20221021BHJP
【FI】
G06T7/00 350B
G06N20/00 130
G08B13/196
G08B25/00 510M
G08B25/04 E
H04N5/225 700
H04N5/232 250
H04N7/18 D
(21)【出願番号】P 2016231534
(22)【出願日】2016-11-29
【審査請求日】2019-08-19
【審判番号】
【審判請求日】2021-01-07
(73)【特許権者】
【識別番号】000005810
【氏名又は名称】マクセル株式会社
(74)【代理人】
【識別番号】100104547
【氏名又は名称】栗林 三男
(72)【発明者】
【氏名】大坪 宏安
【合議体】
【審判長】五十嵐 努
【審判官】畑中 高行
【審判官】川崎 優
(56)【参考文献】
【文献】国際公開第2013/157265(WO,A1)
【文献】特開2013-242825(JP,A)
【文献】特開2016-191973(JP,A)
【文献】特開2012-252507(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T1/00,7-00-7/90
H04N5/222-257,7/18
G08B13/194-13/196,25/00-25/04
G06N20/00
(57)【特許請求の範囲】
【請求項1】
複数のカメラと、サーバと、を備え、
前記カメラは、撮像をする撮像手段と、検知/認識手段と、を備え、
前記サーバは、サーバ側検知/認識手段と、機械学習手段と、検知/認識ファームウェア生成手段と、を備え、
前記検知/認識手段は、検知/認識ファームウェアを備え、前記撮像手段で取得した画像から前記検知/認識ファームウェアによる制御により、画像に含まれる特徴を検知して、設定された認識対象を認識するとともに、前記検知/認識ファームウェアを前記検知/認識ファームウェア生成手段で生成された新たな検知/認識ファームウェアに更新可能であり、
前記サーバ側検知/認識手段は、サーバ側検知/認識ファームウェアを備え、前記撮像手段で取得した画像から前記サーバ側検知/認識ファームウェアによる制御により、画像に含まれる特徴を検知して、設定された認識対象を認識するとともに、前記サーバ側検知/認識ファームウェアを検知/認識ファームウェア生成手段で生成された新たなサーバ側検知/認識ファームウェアに更新可能であり、
前記機械学習手段は、前記撮像手段で取得した画像を教師データとして機械学習により検知/認識アルゴリズムを生成する処理を実行し、
前記検知/認識ファームウェア生成手段は、前記検知/認識アルゴリズムから前記検知/認識手段の新たな検知/認識ファームウェアを生成する処理と、前記検知/認識アルゴリズムから前記サーバ側検知/認識手段の新たなサーバ側検知/認識ファームウェアを生成する処理と、を実行し、
前記複数のカメラは、前記撮像手段による撮像範囲および設定された認識対象のうちの少なくとも一部が重複し、
前記サーバは、前記サーバ側検知/認識手段での認識対象の認識に基づいて
、所定の端末が当該端末のユーザへ認識対象を認識した旨の報知を行うための情報を、当該端末に対して出力することを特徴とする検知認識システム。
【請求項2】
前記サーバ側検知/認識手段は、前記検知/認識手段における認識対象の認識の正誤に関する判断を行うことを特徴とする請求項1に記載の検知認識システム。
【請求項3】
前記複数のカメラのうちの少なくとも1台は、音声入力手段を備え、
検知/認識手段または前記サーバ側検知/認識手段は、前記音声入力手段で取得された音声を使用して、設定された認識対象の認識を行うことを特徴とする請求項1または2に記載の検知認識システム。
【請求項4】
前記機械学習手段は、前記複数のカメラのうちの、一部のカメラが重複する認識対象を認識した場合に、前記複数のカメラのうちの、他のカメラが前記重複する認識対象を認識しなかった画像を教師データとして、機械学習をすることを特徴とする請求項1~3のいずれか1項に記載の検知認識システム。
【請求項5】
複数のカメラと、サーバと、を備え、
前記カメラは、撮像をする撮像手段と、検知/認識手段と、を備え、
前記サーバは、機械学習手段と、検知/認識ファームウェア生成手段と、を備え、
前記検知/認識手段は、検知/認識ファームウェアを備え、前記撮像手段で取得した画像から前記検知/認識ファームウェアによる制御により、画像に含まれる特徴を検知して、設定された認識対象を認識するとともに、前記検知/認識ファームウェアを前記検知/認識ファームウェア生成手段で生成された新たな検知/認識ファームウェアに更新可能であり、
前記機械学習手段は、前記撮像手段で取得した画像を教師データとして機械学習により検知/認識アルゴリズムを生成する処理を実行し、
前記検知/認識ファームウェア生成手段は、前記検知/認識アルゴリズムから前記検知/認識手段の新たな検知/認識ファームウェアを生成する処理を実行し、
前記複数のカメラは、前記撮像手段による撮像範囲および設定された認識対象のうちの少なくとも一部が重複し、
前記機械学習手段は、前記複数のカメラのうちの、一部のカメラが重複する認識対象を認識した場合に、前記複数のカメラのうちの、他のカメラが前記重複する認識対象を認識しなかった画像を教師データとして、機械学習をすることを特徴とする検知認識システム。
【請求項6】
前記複数のカメラのうちの少なくとも1台は、前記撮像手段の異なるカメラであることを特徴とする請求項1~5のいずれか1項に記載の検知認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検知認識システムに関する。
【背景技術】
【0002】
従来、人や物等の物体を検知/認識するカメラが知られている(例えば、特許文献1,2参照)。このようなカメラは、例えば、監視カメラとして防犯の目的に使用され、検知/認識により異常が発見された場合に警報を発したりする。
【0003】
また、近年、画像認識等の分野において、機械学習がよく用いられるようになってきている。機械学習の手法としては、例えばディープラーニング等が知られている。ディープラーニングは、多層構造のニューラルネットワークを用いて、データの特徴を学習するものであり、これを用いることで、高精度の画像認識が可能になることが知られている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2012-208851号公報
【文献】特開2010-160743号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、監視カメラ等は、設置してから長期間使用する場合も多いが、画像から物体等を検知/認識する技術は日々進歩しているので、長期間使用をしていると、そのカメラに用いられている検知/認識技術が時代遅れのものとなってしまうおそれがある。
また、検知/認識のアルゴリズムは、使用される場所等の環境や、撮影対象等によって、最適なアルゴリズムが変わってくるので、カメラの設置前からカメラにもともと備えられていた検知/認識のファームウェアに用いられている検知/認識アルゴリズムでは、十分な検知/認識が行なえない可能性がある。
【0006】
本発明は、前記事情に鑑みてなされたもので、画像に含まれる特徴を検知し、この特徴から設定された認識対象を認識する検知/認識の性能を、検知/認識のためのファームウェアを更新して向上させることができる検知認識システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
前記目的を達成するために、本発明の検知認識システムは、
撮像をする撮像手段と、検知/認識手段と、サーバと、を備え、
前記検知/認識手段は、検知/認識ファームウェアを備え、前記撮像手段で取得した画像から前記検知/認識ファームウェアによる制御により、前記画像に含まれる特徴を検知して、設定された認識対象を認識するとともに、前記検知/認識ファームウェアを検知/認識ファームウェア生成手段で生成された新たな検知/認識ファームウェアに更新可能であり、
前記サーバは、前記撮像手段で取得した画像を教師データとして機械学習により検知/認識アルゴリズムを生成する機械学習手段と、前記検知/認識アルゴリズムから前記検知/認識手段の新たな検知/認識ファームウェアを生成する前記検知/認識ファームウェア生成手段と、を備えることを特徴とする。
【0008】
本発明においては、撮像手段は、撮像をする。そして、検知/認識手段は、撮像手段での撮像により得られた画像から、検知/認識ファームウェアによる制御により、画像に含まれる特徴を検知して、設定された認識対象を認識する。また、サーバの機械学習手段は、撮像手段で取得した画像を教師データとして機械学習により検知/認識アルゴリズムを生成する。そして、生成された検知/認識アルゴリズムは、サーバの検知/認識ファームウェア生成手段により、検知/認識手段に適合したファームウェア(検知/認識ファームウェア)に変換される。そして、検知/認識手段の検知/認識ファームウェアは、検知/認識ファームウェア生成手段によって生成された新たな検知/認識ファームウェアに更新される。
したがって、撮像手段で得られた画像から、機械学習により、より高精度な検知および認識が行なえる検知/認識アルゴリズムを生成し、この検知/認識アルゴリズムを、検知/認識手段に適合したファームウェアに変換し、検知/認識手段の検知/認識ファームウェアを更新することができるので、検知/認識の性能を向上させることができる。
【0009】
また、本発明の前記構成において、前記機械学習手段は、前記検知/認識手段が、前記設定された認識対象の認識を誤った際の画像を教師データとして機械学習をすることが好ましい。
【0010】
このような構成によれば、機械学習手段は、検知/認識手段が設定された認識対象の認識を誤った際の画像について、認識対象の認識を誤ることがないように、学習し、新たな検知/認識アルゴリズムを生成し、新たな検知/認識ファームウェアを生成することが可能となるので、確実に検知/認識の性能を向上させることができる。
【0011】
また、本発明の前記構成において、
少なくとも1台のカメラを備え、
前記カメラは、前記撮像手段と前記検知/認識手段とを備えることが好ましい。
【0012】
このような構成によれば、カメラとは別に検知/認識手段を備える端末等を備える必要がないので、システム全体の小型化が行なえる。また、カメラは、検知/認識手段の検知/認識ファームウェアを、サーバでの機械学習の結果作成された新たな検知/認識ファームウェアに、更新することができるので、カメラの検知/認識性能を向上させることができる。したがって、設置後のカメラ等であっても容易にカメラの検知/認識性能を向上させることができる。
【0013】
また、本発明の前記構成において、
前記撮像手段による撮像範囲および前記設定された認識対象のうちの少なくとも一部が重複する複数の前記カメラを備えることが好ましい。
【0014】
このような構成によれば、所定の範囲について複数のカメラで撮像し、検知/認識を行うことができる。したがって、同一の物体や、同一の現象について、複数のカメラで検知/認識をすることができるので、検知/認識の精度を高めることができる。
【0015】
また、本発明の前記構成において、
前記機械学習手段は、前記複数のカメラのうちの、一部のカメラが重複する認識対象を認識した場合に、前記複数のカメラのうちの、他のカメラが前記重複する認識対象を認識しなかった画像を教師データとして、機械学習をすることが好ましい。
【0016】
このような構成によれば、少なくとも1台のカメラが重複する認識対象を認識した場合に、他のカメラが重複する認識対象を認識することができなかった画像を教師データとして、機械学習をすることができる。したがって、認識対象を認識して欲しかったのに認識することができなかった可能性の高い画像を教師データとして機械学習をすることができ、機械学習の効率を高めることができる。
【0017】
また、本発明の前記構成において、前記複数のカメラのうちの少なくとも1台は、前記撮像手段が異なるカメラであることが好ましい。
【0018】
このような構成によれば、ある撮像手段により撮像した画像からでは、検知/認識をすることが困難であり、その撮像手段を備えるカメラでは認識対象を認識することができない場合でも、他の撮像手段を備えるカメラで認識対象を認識することが可能となる。これにより、認識対象を認識することができなかったことを容易に知ることができ、認識することができなかった画像を教師データとして、機械学習をすることができるので、検知/認識をすることが困難な画像からでも認識することができるように機械学習をすることができる。
【発明の効果】
【0019】
本発明によれば、画像に含まれる特徴を検知し、この特徴から設定された認識対象を認識する検知/認識の性能を、検知/認識のためのファームウェアを更新して向上させることができる。
【図面の簡単な説明】
【0020】
【
図1】本発明の実施の形態を示すもので、検知認識システムを示すブロック図である。
【
図2】同、検知認識システムのカメラを示すブロック図である。
【
図3】同、検知認識システムのサーバを示すブロック図である。
【
図4】同、検知認識システムによる検知認識ファームウェアの更新方法を説明するためのフローチャートである。
【発明を実施するための形態】
【0021】
以下、図面を参照しながら、本発明の実施の形態について説明する。
本実施の形態の検知認識システムは、例えば、カメラで撮像した画像から設定された認識対象を認識した場合に、報知をするのに用いられる。
なお、以下において、単に、画像といった場合、基本的には動画と静止画との両方を含む。
【0022】
検知認識システム1は、
図1に示すように、複数のカメラ2と、サーバ3と、端末4と、を備える。また、複数のカメラ2とサーバ3と端末4とは、それぞれ有線または無線のネットワーク5により繋がれている。
【0023】
検知認識システム1は、例えば、カメラ2が監視用のカメラとしてコンビニエンストア等の建物内あるいは屋外等に設置され、カメラ2が撮影した対象を、その外形や動きから不審者であると認識した場合に、別の場所にある端末4に報知をするといったように使用することができる。また、このように不審者を認識した場合に、検知認識システム1の管理者6が持つ端末やシステム管理用の装置等に知らせるようにしてもよい。
【0024】
カメラ2は、
図2に示すように、撮像手段20と、検知/認識手段21と、記録手段22と、通信手段23と、制御手段24と、を備える。
撮像手段20は、例えば、レンズや固体撮像素子を有し、撮像により、画像を取得する。また、検知/認識手段21は、演算処理装置とメモリとを備え、画像認識を行う。具体的には、検知/認識手段21のメモリに備えられた検知/認識ファームウェアによる制御により、撮像手段20によって撮像された画像に含まれる特徴を検知し、この特徴から設定された認識対象を認識する。なお、以下で単に検知/認識といった場合には、基本的に、このように、撮像手段20によって撮像された画像に含まれる特徴を検知し、この特徴から設定された認識対象を認識することをいう。
【0025】
また、記録手段22は、検知/認識手段21での検知/認識のための参照画像その他の情報や、異常時(例えば、検知/認識手段21が設定された認識対象を認識したとき)の画像その他の情報(例えば、音声等)の記録をする。また、通信手段23は、ネットワーク5を介してサーバ3と通信し、異常時の画像その他の情報のサーバ3への送信と、サーバ3からの命令や検知認識ファームウェアの受信をする。また、通信手段23は、ネットワーク5を介して端末4や管理者6の持つ端末とも接続をし、異常時に、これらの端末やサーバ3にアラーム信号等を送信する。また、端末4や管理者6の持つ端末は、このアラーム信号を受信して、あるいは、アラーム信号を受信したサーバ3からのアラームを鳴らす旨の命令を受けてアラームを鳴らす等する。
【0026】
また、制御手段24は、演算処理装置およびメモリを備え、撮像手段20、検知/認識手段21、記録手段22および通信手段23を制御する。なお、制御手段24は、検知/認識手段21と演算処理装置またはメモリを共有することとしてもよい。
【0027】
なお、撮像手段20、検知/認識手段21、記録手段22、通信手段23および制御手段24の全てをカメラ2が備える構成としなくてもよい。例えば、検知認識システム1は、カメラ2と有線または無線により接続され、カメラ2の制御やカメラ2で撮影した画像の表示等ができる端末をカメラ2の外部に備え、撮像手段20をカメラ2に配置し、検知/認識手段21、記録手段22、通信手段23および制御手段24を当該端末に設け、カメラ2に備えられた撮像手段20で撮影した画像に対して当該端末で検知/認識をするようにしてもよい。
【0028】
カメラ2は、例えば、一般的な監視カメラと同様の構成を有するもので、例えば、カメラ2の向きに応じて、撮像手段20が設定された画角に対応する撮像範囲を撮像する。検知認識システム1が備える複数のカメラ2には、それぞれ同種のカメラを用いてもよく、種類の異なるカメラを用いてもよい。また、それぞれのカメラ2の撮像範囲は重複していてもよく、全く異なるものであってもよい。
本実施の形態においては、カメラ2として、2台のステレオカメラ2aと、1台の赤外線カメラ2bと、1台の単眼カメラ2cと、の計4台の種類の異なるカメラ2を用いるようになっており、4台のカメラ2の撮像範囲は互いに重複しているものとする。
カメラ2として、視差から距離、サイズまたは3D構造等を算出可能なステレオカメラ2aを用いることで、視差から距離、サイズまたは3D構造等を算出できるので、検知/認識をするための演算処理装置等に必要な性能を低減させることができ、カメラが高性能な演算処理装置等を備えていなくても、検知/認識を容易に行うことができる。
【0029】
また、カメラ2として、赤外線カメラ(近赤外線カメラまたは遠赤外線カメラ)2bを用いることで、近赤外または遠赤外の画像を撮影することができ、人の目では見ることができないものも検知/認識することができる。また、夜間等、暗い環境における検知/認識も容易になる。
【0030】
また、カメラ2の種類は、これらに限られるものではない。例えば、カメラ2として、距離画像センサを用いてもよい。距離画像センサとしては、例えば、TOF(Time Of Flight)を用いることができる。TOFは、投射したレーザーが対象まで往復するのにかかる時間から、距離を計測する。
【0031】
つまり、カメラ2は、撮像手段20が1つの2次元画像を撮像し、この画像より、検知/認識を行うものでもよく、撮像手段20が2つの画像を撮像し、これらの画像の視差より、距離、サイズ、3D構造等を算出し、検知/認識を行うものでもよく、撮像手段20がTOFセンサ等により、3D距離画像を撮像し、この3D距離画像より、検知/認識を行うものでもよく、撮像手段20が近赤外や遠赤外の画像を撮像し、これらの画像より、検知/認識を行うものでもよい。また、1台のカメラ2が、上記の撮像手段20を複数備えていてもよい。すなわち、1台のカメラ2が、例えば、ステレオカメラおよび赤外線カメラの撮像機能を備えており、これらの機能により得られた画像から検知/認識を行ってもよい。
【0032】
検知/認識手段21は、設定された認識対象を認識するものであり、認識対象は、具体的な物体(人および人以外の物も含む)の場合もあれば、抽象的な現象の場合も考えられる。つまり、認識対象が強盗犯、窃盗犯、放火犯のような人や拳銃のような物といった物体の場合もあれば、犯罪や火災といった現象等の場合もある。
例えば、認識対象として強盗犯が設定されている状態において、コンビニエンスストア内に設置されたカメラ2の撮像手段20により、包丁や拳銃を持った人の画像が撮影された場合に、検知/認識手段21は、この画像から、包丁や拳銃を持った人を検知したり、この人の動きを検知したりして、この人を強盗犯と認識することが考えられる。また、例えば、認識対象として火災が設定されている状態において、赤外線カメラにより得られた画像から、ある場所の温度が異常に高いことを検知し、火災が発生していると認識したりすることが考えられる。また、例えば、赤外線カメラが遠赤外線を使ったものであれば、温度を検知することができ、拳銃、ナイフ等の武器と体温との温度差により、服のポケット等に隠し持った拳銃、ナイフ等の武器を画像認識して検知することも考えられる。ただし、検知/認識手段21の検知/認識ファームウェアは、後述する機械学習手段30での機械学習により生成されるので、実際には、検知/認識手段21が、このような人に理解しやすい(理解可能な)認識の仕方をするとは限らない。
つまり、検知/認識手段21は、検知/認識ファームウェアによる制御により、撮像手段20によって撮像された画像に含まれる特徴を検知し、この特徴から設定された認識対象を認識するものである。
なお、検知/認識手段21は、画像だけでなく、音声も使用して検知/認識を行ってもよい。例えば、カメラ2がマイク等の音声入力手段を備えており、この音声入力手段で取得された音声を使用して検知/認識を行うことで、検知/認識の精度を高めることができる。また、後述するサーバ側検知/認識手段32での検知/認識においても、同様に、音声を使用してもよい。
【0033】
なお、検知/認識手段21の検知/認識ファームウェアは、後述する機械学習手段30および検知/認識ファームウェア生成手段31で生成された新たな検知/認識ファームウェアによって更新されるが、更新される前の、最初に検知/認識手段21に備えられる検知/認識ファームウェアは、機械学習手段30および検知/認識ファームウェア生成手段31により生成されたものでもよく、他の機械学習ができる機器によって生成されたものを検知/認識手段21に組み込んだものであってもよい。また、機械学習以外の方法により生成された検知/認識ファームウェアを最初に検知/認識手段21に備えることとしてもよい。
【0034】
また、検知/認識手段21で認識する対象の設定は、検知/認識ファームウェアに含まれているものとする。例えば、検知/認識ファームウェアを機械学習手段30および検知/認識ファームウェア生成手段31により生成する場合において、認識する対象をコンビニエンスストアでの強盗犯としたい場合、機械学習の教師データとして、例えば、コンビニエンスストアで強盗をした強盗犯が写っている複数の画像と、これらの画像が強盗犯を示す画像だという情報とを教師データとして(画像に強盗犯というタグ付けをして)機械学習手段30に与える。すると、機械学習により、与えられた画像(教師データ)のどこに注目すれば強盗犯を認識することができるかが学習される。そして、機械学習の結果、画像から強盗犯を認識することができる確率の高い検知/認識アルゴリズムが生成される。そして、この検知/認識アルゴリズムが検知/認識ファームウェア生成手段31により変換され、検知/認識ファームウェアが生成される。つまり、この学習により得られた検知/認識ファームウェア(検知/認識アルゴリズム)は、画像のどこに注目すれば、画像に強盗犯が含まれているかを認識することができるものであり、認識する対象として、強盗犯が設定されているといえるということである。なお、この機械学習を行う際に画像に対するタグ付けは必ずしも必要ではない。例えば、教師データとして、強盗犯が写っている画像しか与えないのであれば、それが強盗犯を示す画像だという情報がなくても、教師データとして与えられた画像と特徴が近い画像を認識するアルゴリズムを生成することで、強盗犯を認識するアルゴリズムを生成することは可能である。
なお、検知/認識ファームウェアに設定されている認識対象(検知/認識ファームウェアが認識する対象)は、1つとは限らず、複数設定されていてもよい。
【0035】
以上のように、検知/認識ファームウェアは、特定の対象を認識するものであり、検知/認識手段21は、検知/認識ファームウェアによりこの特定の対象を認識した場合に、認識をした旨の信号等(例えば、アラーム信号)を出力する。また、この認識をした旨の信号等は、通信手段23を介してサーバ3や端末4、管理者6の持つ端末等に送られ、これらの端末等に設定対象を認識した旨の通知がなされる。なお、この認識をした旨の信号等は、サーバ3のみに送られ、サーバ3において各カメラ2からの情報を総合的に判断した上で、サーバ3から端末4等に、認識対象を認識した旨のメールやアラームを鳴らす旨の命令等のアラーム情報等を送るようにしてもよい。
【0036】
また、4台のカメラ2は、撮像範囲が互いに重複しており、検知/認識ファームウェアに設定されている認識対象のうち重複する部分について、4台のカメラ2で同時に認識することが可能となっている。つまり、重複する認識対象として、例えば強盗犯が設定されている場合、4台のカメラで同時に、特定の強盗を行う特定の強盗犯を認識することが可能となっている。
【0037】
サーバ3は、
図3に示すように、機械学習手段30と、検知/認識ファームウェア生成手段31と、サーバ側検知/認識手段32と、サーバ側記録手段33と、サーバ側通信手段34と、サーバ側制御手段35と、を備える。また、機械学習手段30、検知/認識ファームウェア生成手段31、サーバ側検知/認識手段32およびサーバ側制御手段35は、演算処理装置とメモリとを有するが、それぞれが個別の演算処理装置またはメモリを有していてもよく、演算処理装置またはメモリを共有するものであってもよい。
【0038】
機械学習手段30は、例えば、ディープラーニング等の機械学習を行い検知/認識アルゴリズムを生成する。ここで、検知/認識アルゴリズムとは、カメラ2の撮像手段20で撮像された画像から、設定された認識対象を認識するためのアルゴリズムである。
【0039】
検知/認識ファームウェア生成手段31は、機械学習手段30が生成した検知/認識アルゴリズムを各カメラ2で実行可能なファームウェアに変換し、検知/認識ファームウェアを生成する。各カメラ2は、撮像手段20により取得できる画像の解像度や、検知/認識手段21の演算処理装置の性能、検知/認識手段21用のGPU(Graphics Processing Unit)の有無、マイク等の音声入力手段の有無、カメラの種類(ステレオカメラか、TOFセンサか等)等が異なるので、各カメラ2で実行可能なファームウェアも異なる。検知/認識ファームウェア生成手段31により、機械学習により生成した検知/認識アルゴリズムを各カメラ2で実行可能なファームウェアに変換することで、各カメラ2に新しい検知/認識用のプログラムを実装することが可能となる。
【0040】
サーバ側検知/認識手段32は、各カメラ2の画像や情報から総合的に状況を判断して検知/認識をする。例えば、各カメラ2の検知/認識手段21は、そのカメラ2の撮像手段20により取得した画像を使用して検知/認識を行うが、サーバ側検知/認識手段32は、複数のカメラ2で取得した画像を使用して検知/認識を行う。また、各カメラ2で行うには重い処理である場合に、サーバ側検知/認識手段32が処理の一部を行うようにしてもよい。また、サーバ側検知/認識手段32の検知/認識ファームウェアは、サーバ側検知/認識手段32のメモリに備えられている。また、サーバ側検知/認識手段32の検知/認識ファームウェアも機械学習手段30および検知/認識ファームウェア生成手段31により生成された検知/認識ファームウェアによって、更新することが可能となっている。
【0041】
また、サーバ側検知/認識手段32は、4台のカメラ2(カメラ2a,2b,2c)の検知/認識手段21の認識結果から、各カメラ2における認識対象の認識が正しいものか、あるいは、各カメラ2における認識対象の認識が正しい確率等を判断してもよい。そして、この判断結果から、端末4等にアラーム情報等を送るようにしてもよい。例えば、4台のカメラ全てから設定対象(例えば強盗)を認識した旨の通知があった場合に、サーバ側検知/認識手段32は、設定対象の認識が正しいと判断し、端末4等にアラームを鳴らすように命令してもよい。また、設定対象を認識したカメラの台数によって、アラーム情報の内容を変える等してもよい。例えば、4台のカメラ全てが設定対象を認識した場合には、認識が正しいと判断して、サーバ側検知/認識手段32は、端末4に大きなアラーム音を鳴らすように命令するが、3台以下のカメラしか設定対象を認識しなかった場合には、認識が正しい可能性があると判断して、サーバ側検知/認識手段32は、端末4に小さなアラーム音を鳴らすように命令するといったようにしてもよい。
【0042】
また、サーバ側検知/認識手段32は、複数のカメラ2の検知/認識手段21の認識結果から、カメラ2の誤認識(認識ミス)の判断を行う。例えば、4台のカメラ2のうち、3台のカメラ2から検知/認識手段21により設定対象を認識した旨の通知があり、1台のカメラ2からは通知がなかった場合に、この1台のカメラ2は誤認識(認識ミス)をしたと判断をしたりする。また、逆に4台のカメラ2のうち、3台のカメラ2からは検知/認識手段21により設定対象を認識した旨の通知がなかったが、1台のカメラ2からは通知があった場合に、この1台のカメラ2は誤認識(認識ミス)をしたと判断をすることとしてもよい。
なお、サーバ側検知/認識手段32での検知/認識の結果と、各カメラ2での検知/認識の結果とを比較して、各カメラ2の誤認識(認識ミス)の判断をしてもよい。
【0043】
サーバ側記録手段33は、機械学習手段30で行う機械学習の教師データ等を記録する。また、サーバ側通信手段34は、ネットワーク5を介して各カメラ2と通信をし、各カメラ2からの画像その他の情報の受信、各カメラ2への命令や検知/認識ファームウェアの送信、異常時(設定対象を認識したとき)のアラーム情報の端末4や管理者6への送信をする。
【0044】
次に、このような検知認識システム1の検知認識ファームウェアの更新方法について、
図4のフローチャートを参照して説明する。
カメラ2は、撮像手段20により画像を取得し、検知/認識手段21の検知/認識ファームウェアによる制御により設定された認識対象の認識(検知/認識)を行う。そして、認識を誤った場合に、認識を誤った時の画像を、サーバ3に送信する(ステップS1)。なお、認識を誤った時の画像と同時に、認識を誤った時の音声データ等も送信してもよい。
なお、認識を誤ったかどうかの判断は、上述のように、複数のカメラ2の認識結果からサーバ側検知/認識手段32が判断する。例えば、カメラ2が設定された認識対象(例えば、強盗犯)を認識したときは、サーバ3に認識した旨(例えば、強盗犯を認識した旨)を通知するシステムにおいて、カメラ2aおよびカメラ2bからは認識した旨の通知がサーバ3にあったが、カメラ2cからは認識した旨の通知がなかった場合、サーバ側検知/認識手段32はこれらの通知結果から、カメラ2cは認識を誤った(認識をすることができなかった)と判断する。この際、サーバ3の制御手段は、カメラ2cに対して、カメラ2aおよびカメラ2bが認識対象を認識した画像を取得した時刻と同じ時刻またはこの前後の時刻(例えば、前後数秒から数分)にカメラ2cが取得した画像を、認識を誤った時の画像として、サーバ3に送信するように、カメラ2cに対して命令する。この命令を受けてカメラ2cは、認識を誤った時の画像をサーバ3に送信する。
なお、認識を誤ったかどうかは、人が判断してもよい。例えば、検知認識システム1は、カメラ2で撮影した画像を表示する表示手段とポインティングデバイスやキーボード等の入力手段を備えた端末とを備えており、カメラ2が、強盗犯を認識することができなかった場合に、人が、この端末の表示手段からカメラ2で撮影した画像を確認して、強盗犯を認識して欲しかった画像をこの端末の入力手段を用いて人が選択し、認識を誤った時の画像としてサーバ3に送信することとしてもよい。
【0045】
サーバ側制御手段35は、カメラ2から送られた認識を誤った時の画像を、教師データ(教育データ)としてサーバ側記録手段33に記録する。また、認識を誤った時の画像の記録と共に、検知/認識手段21に出して欲しかった認識結果(例えば、画像から強盗犯を認識して欲しかった旨)を教師データとしてサーバ側記録手段33に記録する。
なお、この教師データとして記録する検知/認識手段21に出して欲しかった認識結果は、サーバ3で作り出すものであってもよく、カメラ2から送られてくるものであってもよい。例えば、認識を誤ったかどうかの判断を、複数のカメラ2の認識結果からサーバ側検知/認識手段32がする場合、サーバ側検知/認識手段32は、正しいであろう認識結果(検知/認識手段21に出して欲しかった認識結果)を教師データとして作成し、この教師データをサーバ側記録手段33に記録することとしてもよい。また、例えば、人がカメラ2で撮影した画像を確認して、認識を誤ったかどうかの判断をする場合、人が上述の端末から、強盗犯を認識して欲しかった画像を選択する際に、強盗犯を認識して欲しかった旨(画像が強盗犯を示すものである旨)もこの端末の入力手段を用いて入力し、認識を誤った時の画像と共にサーバ3に送信し、この送信されたデータを教師データとして、サーバ側制御手段35がサーバ側記録手段33に記録するものとしてもよい。
【0046】
機械学習手段30は、サーバ側記録手段33に記録された教師データを読み出す(ステップS2)。そして、機械学習手段30は、この読み出した教師データに含まれる認識を誤った際の画像から、畳み込み演算により、特徴点を抽出する(ステップS3)。機械学習手段30は、抽出された特徴点と、検知/認識手段21に出して欲しかった認識結果との情報から、機械学習を行う(ステップS4)。そして、機械学習の結果、検知認識処理を行うニューラルネットワークである検知/認識アルゴリズムが生成される(ステップS5)。
【0047】
機械学習手段30での機械学習は、カメラ2毎に検知/認識アルゴリズム(検知/認識ファームウェア)が最適化されるように行われる。各カメラ2は、カメラの種類等が違う場合もあれば、まったく同じ特性を持つカメラであっても、設置場所や使用される環境が違う場合もあるので、これらの違いによって最適なアルゴリズムが異なってくる場合もあるからである。機械学習手段30は、元の検知/認識アルゴリズムと教師データとを基に、教師データに含まれる認識を誤った際の画像から、教師データに含まれる検知/認識手段21に出して欲しかった認識結果を出すことができる新たな検知/認識アルゴリズムを生成する。なお、機械学習に使う元の検知/認識アルゴリズムはサーバ側記録手段33に記録しておくものとしてもよく、カメラ2から検知/認識ファームウェアを送信してもらい、この検知/認識ファームウェアを検知/認識アルゴリズムに変換して使用してもよい。つまり、機械学習手段30は、検知/認識を誤ったカメラ2の検知/認識ファームウェアに用いられている検知/認識アルゴリズムと教師データとから、新たな検知/認識アルゴリズムを生成する。
【0048】
検知/認識ファームウェア生成手段31は、機械学習手段30で生成された検知/認識アルゴリズムを各カメラ用の検知/認識ソフトである検知/認識ファームウェアに変換する(ステップS6)。つまり、検知/認識アルゴリズムは、検知/認識ファームウェア生成手段31により、各カメラで実行可能な形式のソフトウェアに変換される。
サーバ側通信手段34は、検知/認識ファームウェア生成手段31で生成された検知/認識ソフトである検知/認識ファームウェアをカメラ2に送信する(ステップS7)。そして、カメラ2が検知/認識ファームウェアを受け取ると、カメラ2の制御手段24は、検知/認識手段21のファームウェアを、新しい検知/認識ファームウェアに更新する。
【0049】
本実施の形態の検知認識システムによれば、カメラ2の検知/認識手段21の検知認識ファームウェアは、サーバ3の機械学習手段30および検知/認識ファームウェア生成手段31により生成された新しい検知/認識ファームウェアに更新することができる。
機械学習手段30による機械学習は、カメラ2の検知/認識手段21が、設定された認識対象の認識を誤った際の画像を教師データとして行われるので、この教師データを用いた機械学習では、その画像について設定された認識対象の認識を誤らないように検知/認識アルゴリズムが改善される。したがって、カメラ2の検知/認識の性能を向上させることができる。
【0050】
また、機械学習はサーバ3で行い、カメラ2は、サーバ3で生成された検知認識ファームウェアの実行をすればよいので、カメラ2の演算能力等がそれほど高くなくても、検知認識ファームウェアを更新して、精度の高い検知/認識を行えるようにすることができる。また、カメラが年数の経過とともに、他のカメラに比べて相対的に性能の低いものになることもなく、むしろ、使用とともに徐々に性能を向上させることが可能となる。また、カメラ2が使用される環境に適した検知/認識ができるように、カメラ2の性能を改善させていくことが可能となる。
【0051】
また、機械が自ら学習することで、人であれば気づくことができないような場合でも、設定された認識対象を認識することが可能となる。例えば、教育データとして、強盗犯が実際に強盗をしているときの画像を与えるのではなく、実際に強盗が行なわれたときよりも前の、強盗犯が写っている画像等を与えることで、実際に強盗が行なわれている場合に強盗犯を認識するようなアルゴリズムではなく、コンビニエンスストア内やコンビニエンスストアの周囲をうろつく人の挙動等から、将来的に強盗におよぶ可能性の高い人の特徴を見出し、このような人を強盗犯(強盗犯となる可能性が高い人)として認識するような検知/認識アルゴリズムを生成することも可能になる。なお、実際にどのような特徴に注目して認識を行うかは、機械学習手段30が判断するので、挙動から強盗におよぶ可能性の高い人を認識するとは限らない。
【0052】
また、本実施の形態の検知認識システムによれば、4台のカメラ2は、撮像範囲が互いに重複しているので、検知/認識ファームウェアに設定されている認識対象のうち重複する部分について、4台のカメラ2で同時に認識することができる。したがって、4台のカメラ2のうち、数台が認識対象を認識することができなくても、4台のカメラ2のうちの他のカメラが認識対象を認識することが可能となるので、検知/認識をすることができる可能性を高め、システム全体としての検知/認識の精度を高めることができる。
また、4台のカメラ2は、ステレオカメラ2a、赤外線カメラ2b、単眼カメラ2cという、撮像手段20の種類の異なるカメラを含む。したがって、例えば、ステレオカメラ2aでは検知/認識をすることが困難な場合でも、赤外線カメラ2bで検知/認識をすることができる等して、同一種類のカメラ2を用いた場合に比べ、システム全体としての検知/認識の精度を高めることができる。
なお、複数のカメラ2は、それぞれ撮像範囲が全く異なる場所に設置されていたり、全く異なる認識対象を認識するものであったりしてもよい。
【0053】
また、サーバ側検知/認識手段32は、4台のカメラ2の検知/認識手段21の認識結果から、各カメラ2における認識対象の認識が正しいものかを判断したり、各カメラ2における認識対象の認識が正しい確率等を判断したり、カメラ2の誤認識(認識ミス)の判断をしたりすることができる。したがって、個々のカメラ2における検知/認識の結果から、サーバ側検知/認識手段32で認識が正しいと判断した場合にのみ、端末4等からアラーム音を発するようにしたりすることができる。
また、カメラ2の誤認識を自動で判断し、誤認識をしたカメラ2について、検知/認識の能力を改善するよう、自動で機械学習を行うようにすることができる。そして、このときに機械学習の教師データとして用いる画像には、誤認識をした際の画像を用いることができるので、この誤認識をした際の画像について認識を誤ることがないように、学習することが可能となる。したがって、誤認識を自動で判断し、カメラ2の使用とともに検知/認識の精度を高めていくことができる。
【0054】
なお、機械学習を行うタイミングは、必要に応じて適宜調整してもよい。例えば、教師データを記録手段22やサーバ側記録手段33に溜めておき、一定数以上溜まった場合や、一定期間経過したときに機械学習を行ってもよい。
また、機械学習は、撮像手段20により撮像された画像以外の画像を用いて行ってもよい。撮像手段20で撮像される画像だけでは、教師データの数や質が十分でない場合に、機械学習手段30に、他の画像を与えることで機械学習の効果を向上させることができる。
【0055】
なお、カメラ2で認識する認識対象は、上述のものに限られず、撮像手段20により撮像した画像から、検知/認識可能なものであれば何でもよい。
【符号の説明】
【0056】
1 検知認識システム
2 カメラ
2a ステレオカメラ(カメラ)
2b 赤外線カメラ(カメラ)
2c 単眼カメラ(カメラ)
3 サーバ
20 撮像手段
21 検知/認識手段
30 機械学習手段
31 認識ファームウェア生成手段