(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6948128
(24)【登録日】2021年9月22日
(45)【発行日】2021年10月13日
(54)【発明の名称】映像監視装置及びその制御方法及びシステム
(51)【国際特許分類】
H04N 7/18 20060101AFI20210930BHJP
G08B 25/00 20060101ALI20210930BHJP
G06T 7/00 20170101ALI20210930BHJP
【FI】
H04N7/18 D
G08B25/00 510M
G06T7/00 350B
【請求項の数】10
【全頁数】11
(21)【出願番号】特願2017-4617(P2017-4617)
(22)【出願日】2017年1月13日
(65)【公開番号】特開2018-113661(P2018-113661A)
(43)【公開日】2018年7月19日
【審査請求日】2019年12月27日
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】特許業務法人大塚国際特許事務所
(72)【発明者】
【氏名】矢野 光太郎
(72)【発明者】
【氏名】河合 智明
【審査官】
佐野 潤一
(56)【参考文献】
【文献】
特開2008−288870(JP,A)
【文献】
特開2012−063395(JP,A)
【文献】
特開2015−070401(JP,A)
【文献】
特開2003−274139(JP,A)
【文献】
特開2002−209140(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
H04N 5/222
G08B 25/00−31/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
複数の撮像装置からの画像を取得する取得手段と、
該取得手段により取得した複数の画像それぞれについて、ユーザの注目度を推定する推定手段と、
ユーザからの指示に応じて、前記複数の画像の1つを表示すべき画像として指定する指定手段と、
該指定手段で指定された画像の注目度が前記指定手段で指定されなかった画像の注目度より高くなるように、前記推定手段を学習させる学習手段と、
前記推定手段が推定した各画像の注目度に基づいて、前記複数の画像のうち注目度が他の画像の注目度より大きい画像を選択する選択手段と
を有することを特徴とする映像監視装置。
【請求項2】
前記推定手段は、設定されたパラメータに基づいて前記注目度を推定し、
前記学習手段は、前記指定手段で指定された画像の注目度が前記指定手段で指定されなかった画像の注目度より高くなるように前記設定されたパラメータを更新することで、前記推定手段を学習させることを特徴とする請求項1に記載の映像監視装置。
【請求項3】
前記学習手段は、前記パラメータの更新の回数が予め設定された回数になるまで継続することを特徴とする請求項2に記載の映像監視装置。
【請求項4】
前記学習手段は、ユーザによる所定の指示があるまで継続することを特徴とする請求項1または2に記載の映像監視装置。
【請求項5】
前記学習手段は、ユーザによる画像の選択操作の時刻に基づいて学習を行うことを特徴とする請求項1乃至4のいずれか1項に記載の映像監視装置。
【請求項6】
前記推定手段は、
前記複数の画像のそれぞれを複数の領域に分割する分割手段と、
与えられたパラメータに従って、分割した領域それぞれについて特徴量を推定し、各領域の特徴量を統合した値に基づいて前記注目度を求める統合手段と、
を含むことを特徴とする請求項1乃至5のいずれか1項に記載の映像監視装置。
【請求項7】
前記推定手段は、前記複数の撮像装置からの複数フレームを結合した時空間画像から前記注目度を推定することを特徴とする請求項1乃至6のいずれか1項に記載の映像監視装置。
【請求項8】
取得手段が、複数の撮像装置からの画像を取得する取得工程と、
推定手段が、前記取得工程で取得した複数の画像それぞれについて、ユーザの注目度を推定する推定工程と、
指定手段が、ユーザからの指示に応じて、前記複数の画像の1つを表示すべき画像として指定する指定工程と、
学習手段が、前記指定工程で指定された画像の注目度が前記指定手段で指定されなかった画像の注目度より高くなるように、前記推定手段を学習させる学習工程と、
選択手段が、前記推定工程で推定された各画像の注目度に基づいて、前記複数の画像のうち注目度が他の画像の注目度より大きい画像を選択する選択工程と
を有することを特徴とする映像監視装置の制御方法。
【請求項9】
コンピュータが読み込み実行することで、前記コンピュータに、請求項8に記載の方法が有する各工程を実行させるためのプログラム。
【請求項10】
映像監視システムであって、
複数の撮像装置と、
前記複数の撮像装置のそれぞれと通信可能に接続され、それぞれが撮像した画像を表示する映像監視装置とを含み、
前記映像監視装置は、
前記複数の撮像装置から取得した複数の画像それぞれについて、ユーザの注目度を推定する推定手段と、
ユーザからの指示に応じて、前記複数の画像の1つを表示すべき画像として指定する指定手段と、
該指定手段で指定された画像の注目度が前記指定手段で指定されなかった画像の注目度より高くなるように、前記推定手段を学習させる学習手段と、
前記推定手段が推定した各画像の注目度に基づいて、前記複数の画像のうち注目度が他の画像の注目度より大きい画像を選択する選択手段と
を有することを特徴とする映像監視システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のカメラによる映像を監視する技術に関するものである。
【背景技術】
【0002】
近年、監視カメラの設置台数は増え続け、監視システムの利用の重要性が増している。オフィスや大型商業施設においては、ビルの設備管理の目的で多くの監視カメラが設置され、防災センターにて一括管理されているが、それだけに留まらず、不審者の検知や混雑状況の監視なども期待されている。スポーツ競技やコンサートを行うイベント会場やその周辺市街地においても、これらの機能を活用する提案もある。更には、けんかや転倒などの異常を検知したいという要望もある。
【0003】
しかしながら、カメラの設置数の増加は、確認対象の映像数の増加を意味し、それらを全て確認することはますます困難となる。一般には、監視者が所定の時間間隔で監視する映像を切替えるものであるが、このような切替方法では、重要なカメラ映像が監視できなくなってしまう恐れがある。
【0004】
このような課題に対応するために、本出願人は特許文献1において、監視映像から特徴量を算出し、この算出した特徴量に基づいて自動的に異常を検知する方法を提案した。このような異常検知結果にもとづいて監視映像を自動的に切り替えることで監視者の作業を軽減することができる。
【0005】
一方、特許文献2では、監視者の視線や操作履歴から監視映像の異常度合いを学習し、異常事象の発見を早めることで監視者の作業を軽減する方法が提案されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2016−81355号公報
【特許文献2】特開2008−288870号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1は、事前にラベル付けされた正常ラベルと異常ラベルにもとづいて学習した観測モデルから異常を検知する。このため、必ずしも監視者の意図に合った検知結果が得られるとは言えず、監視者が確認したい異常を取りこぼしてしまう恐れがある。
【0008】
また、特許文献2では、監視者の視線や操作履歴を反映した異常の学習を行うが、異常度をデータベースに蓄積して検索するようにしているのでデータ量が多くなるに従って検知に時間が掛るといった問題がある。特に、多くのカメラ映像を監視する場合には、カメラ数の増大に伴い、検索処理に係る時間は長くなる。
【0009】
本発明は、上記問題に鑑みなされたものであり、複数の撮像装置からの画像に対し、監視者の意図を汲んだ監視画像の切り替えを自動的に行い、もって監視者の作業に係る負担を軽減する技術を提供しようとするものである。
【課題を解決するための手段】
【0010】
この課題を解決するため、例えば本発明の映像監視装置は以下の構成を備える。すなわち、
複数の撮像装置からの画像を取得する取得手段と、
該取得手段により取得した複数の画像それぞれについて、ユーザの注目度を推定する推定手段と、
ユーザからの指示に応じて、
前記複数の画像の1つを表示すべき画像として指定する指定手段と、
該指定手段で指定された画像の注目度が
前記指定手段で指定されなかった画像の注目度より高くなるように、前記推定手段を学習させる学習手段と、
前記推定手段が推定した各画像の注目度に基づいて、前記複数の画像の
うち注目度が他の画像の注目度より大きい画像を選択する選択手段とを有する。
【発明の効果】
【0011】
本発明によれば、複数の撮像装置からの画像に対し、監視者の意図を汲んだ監視画像の切り替えを自動的に行い、もって監視者の作業に係る負担を軽減することが可能になる。
【図面の簡単な説明】
【0012】
【
図1】実施形態の映像監視システムの機能構成を示す図。
【
図2】実施形態の映像監視システムの学習時の処理の流れを示す図。
【
図3】実施形態の映像監視システムの注目度推定手段の構成を示す図。
【
図4】実施形態の映像監視システムの注目度を推定する為のニューラルネットワークを示す図。
【
図5】実施形態の映像監視システムの表示画面の例を示す図。
【
図6】実施形態の映像監視システムの画面切替操作後の表示画面を示す図。
【
図7】実施形態の映像監視システムの自動制御時の処理の流れを示す図。
【発明を実施するための形態】
【0013】
以下、添付図面に従って本発明に係る実施形態を詳細に説明する。
【0014】
図1は、実施形態に係る映像監視システムの機能構成を示す図である。映像監視システムは、複数のカメラ200−1〜N(N≧2)、表示部300、画面切替操作部400、画像取得部110、注目度推定部120、推定パラメータ記憶部130、画面切替制御部140、操作情報取得部150、及び、学習部160を有する。カメラ200−1〜Nと画像所得部110との通信は有線、無線を問わない。
【0015】
表示部300は、液晶パネル、外部モニタ等であり、カメラで撮影した画像および各種の情報を出力する。画面切替操作部400は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、複数台のカメラで撮影した映像の画面切替操作を入力する。図中、参照符号110〜160は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、および、メモリで構成される演算処理装置に実装される。そして、これらが後述する動作プログラムを実行することで実現する。各処理部は、互いに通信可能に構成され、バス等により接続されている。
【0016】
画像取得部110は、カメラ200−1〜Nで撮影した画像データを取得する。画像データは静止画像、または、時系列画像データである。カメラ200−1〜Nがネットワーク上に設置されている場合には、各カメラのネットワーク上の名前やアドレス(IPアドレス等)から、それぞれの画像がどのカメラから取得したのかを特定できる。実施形態では、カメラより取得した画像がどのカメラから取得したものであるかを示す情報をカメラ識別番号として表す。
【0017】
表示部300は、画像取得部110で取得した画像を表示する。注目度推定部120は、推定パラメータ記憶部130に記憶されているパラメータを用いて画像取得部110で取得した各画像に対する、ユーザ(監視者)の注目の度合い表すための指標値(以下、注目度)を推定する。当然、監視者が画面切替操作で選択した画面(画像)の方が、非選択の画像よりも注目度は高い。
【0018】
画面切替制御部140は、注目度推定部120が推定した複数のカメラの各画像の注目度から表示部300に表示する画面を自動的に切替える。画面切替操作部400は、表示部300に表示する画面を監視者の操作にしたがって手動で切替える。操作情報取得部150は、画面切替操作部400の操作情報を取得する。学習部160は、注目度推定部120が推定した複数のカメラの注目度と操作情報取得部150で取得した操作情報から注目度推定部120を学習し、推定パラメータ記憶部130に記憶する。
【0019】
以下、実施形態に係る映像監視システムの学習時の動作を
図2に示す処理の流れに従って説明する。
【0020】
画像取得部110は、カメラ200−1〜Nで撮影した画像データを取得する(S100)。取得する画像データはRGB各8ビットの画素からなる二次元データであり、時系列に順次取得する。取得した画像データは不図示のメモリに保持される。
【0021】
注目度推定部120は、推定パラメータ記憶部130に記憶されているパラメータを用いて、画像取得部110で取得した各画像の注目度を推定する。注目度推定部120の構成を
図3に示す。図に示すように注目度推定部120は、領域分割部121、特徴抽出部122、推定部123、統合部124により構成される。領域分割部121は、画像取得部100で取得した着目画像データを、水平、垂直方向に、それぞれ予め設定された数で分割することで、同じ大きさの複数の画像領域を生成する。そして、分割した各画像領域を所定のサイズに正規化する(S110)。本実施例では、同じ大きさの領域(垂直方向H画素、水平方向W画素)に分割した画像を正規化するが、これに限らない。例えば、画面中心ほど小さい領域に分割しても良い。また、分割する領域は、互いにその一部が重複するようにしてもよく、領域の大きさは同一でなくても構わない。
【0022】
特徴抽出部122および推定部123は、領域分割部121で分割した画像領域毎に注目度を推定する(S120)。特徴抽出部122および推定部123は、
図4に示す深層ニューラルネットワークで構成する。このニューラルネットワークでは解像度H×Wの局所領域のRGB画像を入力として5層構成の畳込み型ニューラルネットワークの演算を行い、その演算結果を第6層、第7層の全結合ニューラルネットワークを通して出力を得る。図中、f1〜f5は夫々第1層から第5層の畳込み演算のフィルタサイズを表し、d1〜d7は夫々第1層から第7層の出力チャネル数を表す。特徴抽出部122は、第1層から第5層の畳込み型ニューラルネットワークで構成され、画像特徴量を得る。この画像特徴量は推定部123に供給される。推定部123を第6層、第7層の全結合ニューラルネットワークで構成し、注目度を出力する。注目度は監視映像に対して監視者が注目したい度合いを表す値である。
【0023】
注目度推定部120は領域分割部121で分割した領域数分、上記の推定処理を繰り返す。注目度推定部120の統合部124は、注目度推定部120の推定部123の出力を統合する(S130)。本実施形態では、複数の領域の夫々に対して推定した注目度を比較し、最も高い注目度を求めるものとする。ただし、この他、複数の領域から推定した注目度を平均してもよいし、他の統合方法を用いてもよい。
【0024】
一方、表示部300は、画像取得部110で取得した画像を表示する(S140)。表示部300に表示する画面の一例を
図5に示す。図中、参照符号Fはメインの画面(ユーザが特に注視すべき画面)、参照符号F1、F2…の夫々は、カメラ200−1、200−2…からのサブ画面を表す。この例では、メインの画面Fにカメラ200−1の画像が表示されていることを示している。なお、図示では、サブ画面は4つの例であるが、水平方向にスクロールすることで、5つ以上の画面のうちの4つを表示するようにしても良いし、サブ画面の個数を適宜設定できるようにしても構わない。
【0025】
表示画面切替操作部400は、表示部300に表示する画面を監視するユーザからの画面切替操作を受け付け、表示部300に表示する画面を切り替える(S150)。画面切替操作後の画面の例を
図6に示す。
図6は、ユーザがカメラ200−1からカメラ200−2からの映像にメイン画面を切り替えた例を示している。図では、ユーザはカメラ200で人物が密集しているのを見て画面を切り替えた例を示している。なお、この切替操作は、例えば、ユーザがポインティングデバイスやキーボード等からサブ画面を指定することで行うものとする。このS100乃至S150の処理を、N回(カメラの台数分)繰り返す。
【0026】
操作情報取得部150は、画面切替操作部400の操作情報を取得する(S160)。ここで取得する操作情報は、選択した画像のカメラを特定するカメラ識別番号である。学習部160は、注目度推定部120が推定した複数のカメラで得た画像の注目度と、操作情報取得部150で取得したカメラ識別番号を学習データとして取得する(S170)。 そして、ユーザが画像の1つを選択しなかった場合には、次の画像取得のため、処理はS100に戻る。
【0027】
一方、ユーザが画像の1つを選択した場合には、処理をS180進める。このS180にて、学習部160は、取得した学習データから注目度推定部120で用いるパラメータを更新し、推定パラメータ記憶部130に記憶する(S180)。
【0028】
そして、各カメラからの画像の取得する回数が予め設定された値になるまで、上記処理を繰り返す。
【0029】
ニューラルネットワークの学習は平均損失の勾配から推定パラメータを求める確率的勾配降下法を用いる。注目度推定部120が推定した注目度のうち、カメラ識別番号に対応するカメラから得たS130で求めた統合後の注目度をA
p、その他のカメラから得たS120で求めた注目度をA
miとする。但し、iはデータのインデックスを表す値である。本実施形態では平均損失としてユーザが選択したカメラの注目度と選択しなかった注目度の差異を評価する。損失関数は以下の式1に従って求める。
L=ΣI(A
p−A
mi<0)…(式1)
但し、I()は指示関数であり、括弧の中が真の時に1、それ以外の時に0の値を出力する。また、Σはインデックスiの学習データ数分の総和を表す。学習に用いるデータは全てを用いてもよいし、ランダムに所定数分選択してもかまわない。
【0030】
学習部160は注目度推定部120の推定部123、すなわち
図4に示したニューラルネットワークの第6層および第7層の各パラメータを所定の微小量だけ変化させて得た注目度推定値から、式1に基づく勾配を夫々求めていく。そして、平均損失が小さくなるように、推定パラメータを学習させていく。つまり、選択した画像の注目度と非選択画像の注目度との差が大きくなるように、推定パラメータを更新させていくことで学習を行う。学習部160は、求めたパラメータを推定パラメータ記憶部130に記憶して、推定パラメータを更新する。
【0031】
以上で実施形態における学習時の動作は終了する。上記では、学習ステージの処理を、各カメラからの画像の取得回数が所定回数になることをトリガに実行するものとした。しかしながら、選択操作の回数が多いほど高い学習効果が期待できるので、画像取得とユーザよる画像選択操作の回数が予め設定された回数に到達することを条件にしても良い。
【0032】
次に、実施形態に係る映像監視システムの自動画面切替制御時(運用ステージ)の表示制御に係る動作を
図7に示す処理の流れに従って説明する。
【0033】
画像取得部110は、カメラ200−1乃至Nで撮影した画像データを取得する(S200)。注目度推定部120の領域分割部121は、画像取得部100で取得した各画像データを垂直、水平方向それぞれに予め設定された数だけ分割することで、同じ大きさの画像領域に分割する。そして、画像取得部110は、分割した各画像領域を予め設定された所定のサイズに正規化する(S210)。
【0034】
注目度推定部120の特徴抽出部122および推定部123は、領域分割部121で分割した領域毎に注目度を推定する(S220)。このとき、前述した学習時の処理で推定パラメータが更新された場合は最新のパラメータを用いて注目度を推定する。また、注目度推定部120は領域分割部121で分割した領域数分、前記推定処理を繰り返す。
【0035】
注目度推定部120の統合部124は、注目度推定部120の推定部123の出力を統合する(S230)。
【0036】
一方、表示部300は、画像取得部110で取得した画像をサブ画面に表示する(S240)。カメラ200−1乃至Nに対して、カメラ台数分、S200からS240の処理を繰り返す。
【0037】
画面切替制御部140は、カメラ毎のS230で求めた統合後の注目度を比較し、注目度の最も大きい値を持つカメラのカメラ識別番号を得る(S250)。
【0038】
画面切替制御部140は、求めたカメラ識別番号の画像を、表示部300のメイン画面に表示することで、画面の自動的に切り替えを行う(S260)。
【0039】
以上で自動制御時の動作は終了する。なお、不図示の操作部を介して自動制御終了の指示があるまで処理を継続して行う。
【0040】
以上説明したように、本実施形態では、カメラ毎に画像から推定した注目度を用いて画面を切り替える操作からユーザが選んだカメラの注目度がその他のカメラの注目度より大きくなるように学習を行う。このため、ユーザの意図を汲んだ画面切り替えの学習が可能となる。また、学習したパラメータを更新すればよいのでカメラ数が増えても処理時間が問題になることはない。
【0041】
なお、実施形態において、注目度推定部をニューラルネットワークで構成するようにしたが、サポートベクターマシン等の他の機械学習による推定部で構成することも可能である。
【0042】
また、実施形態における注目度推定部は静止画から注目度を推定するようにしたが、時系列画像の複数フレームの領域を結合した時空間画像(動画像)から注目度を推定するようにしてもよい。
【0043】
例えばカメラが1秒当たり30フレームで撮像する場合、例えば直近の時間軸に並んだ30個(1秒間の場合)の特徴量又は上記実施形態で示した注目度を入力するニューラルネットワークを用いる。そして、ユーザが選択(注目)したカメラからの時間軸映像が、非選択のカメラからの時間軸映像と区別がつくように学習させればよい。
【0044】
また、本実施形態において、学習部は注目度推定部が推定する画像中の複数の推定結果を領域毎に学習データとして取得するようにしたが、注目度推定部の統合部で一つの推定結果として統合した後にカメラ画像毎に学習データとするようにしてもよい。あるいは、注目度推定部を複数の推定結果を再帰型のニューラルネットワークを用いて統合して推定するようにし、学習部でその出力を学習データとして取得するようにしてもよい。再帰型のニューラルネットワークとしては、RNN(Recurrent Neural Network)やLSTM(Long short-term memory)等を用いてもよい。
【0045】
また、実施形態において、学習部は画面切替操作部で選択したカメラの注目度がその他のカメラの注目度よりも大きくなるように学習するようにしたが、画面切替操作前後の情報を用いてもよい。例えば、選択したカメラの注目度が選択前にメインの画面に映っているカメラの注目度よりも大きくなるように学習するようにしてもよい。
【0046】
また、ユーザによる画面切替操作の発生時刻にもとづいて、学習ステージと画面切替ステージ(運用ステージ)を自動的に切り替えるようにしてもよい。
【0047】
また、上記実施形態では、学習ステージにて、カメラ200−1乃至Nから画像を取得するものとして説明した。例えばカメラ200−1乃至Nで過去(前日等)に撮像した画像を、それぞれのカメラ識別番号と対応付けてハードディスク等のストレージデバイスに記憶しておく。そして、そのストレージデバイスから各カメラの画像を取得しては、ユーザが選択するという操作を繰り返して学習させても良い。
【0048】
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0049】
110…画像取得部、120…注目度推定部、130…推定パラメータ記憶部、140…画面切換制御部、150…操作情報取得部、160…学習部、200−1〜N…カメラ、300…表示部、400…画面切換操作部