(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-10
(45)【発行日】2023-01-18
(54)【発明の名称】人工知能を用いた映像基盤のリアルタイム侵入検知方法及び監視カメラ
(51)【国際特許分類】
H04N 7/18 20060101AFI20230111BHJP
G08B 13/196 20060101ALI20230111BHJP
【FI】
H04N7/18 D
G08B13/196
(21)【出願番号】P 2021566080
(86)(22)【出願日】2020-04-23
(86)【国際出願番号】 KR2020005377
(87)【国際公開番号】W WO2020235819
(87)【国際公開日】2020-11-26
【審査請求日】2021-11-05
(31)【優先権主張番号】10-2019-0058243
(32)【優先日】2019-05-17
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】519280988
【氏名又は名称】イーエスシーエイ(エレクトロニック セキュリティー オブ ザ クリエイティブ アソシエイション) カンパニー リミテッド
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】ジョン, テ ウン
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】国際公開第2018/201121(WO,A1)
【文献】特開2019-20820(JP,A)
【文献】特開2018-182367(JP,A)
【文献】中国特許出願公開第103108159(CN,A)
【文献】特開2007-336431(JP,A)
【文献】韓国公開特許第10-2019-0046351(KR,A)
【文献】国際公開第2018/061616(WO,A1)
【文献】特開2013-200628(JP,A)
【文献】米国特許出願公開第2016/0377698(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
G08B 13/00-15/02
(57)【特許請求の範囲】
【請求項1】
映像基盤のリアルタイム侵入検知方法において、
第1時点で入力された複数フレームをサンプリングする段階と、
第1人工神経網を用いて前記サンプリングされた各フレームの映像内にターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得する段階と、
前記少なくとも1つの客体の存在確率獲得にかかる前記第1人工神経網のフレーム別処理時間によって前記第1時点以後の第2時点で入力される複数フレームに対するサンプリングレートを調節する段階と、
前記獲得された確率の大きさによって前記サンプリングされた各フレームをターゲット客体のフレームとして選定する段階と、
前記ターゲット客体のフレームとして選定されたフレームから前記ターゲット客体のタイプに該当する各客体の移動軌跡を生成する段階と、
第2人工神経網を用いて前記生成された移動軌跡から侵入発生確率を獲得する段階と、を含むことを特徴とする方法。
【請求項2】
前記サンプリングレートを調節する段階は、前記サンプリングされた各フレームの映像が前記第1人工神経網に入力された時点と前記サンプリングされた各フレームの映像内での少なくとも1つの客体の存在確率が前記第1人工神経網から出力された時点の差から前記第1人工神経網のフレーム別処理時間を算出し、前記算出された第1人工神経網のフレーム別処理時間に反比例して前記サンプリングレートを調節することを特徴とする請求項1に記載の方法。
【請求項3】
前記各客体の移動軌跡を生成する段階は、少なくとも1つの客体追跡アルゴリズムを用いて前記移動軌跡を生成し、
前記移動軌跡の生成にかかる客体追跡アルゴリズムのフレーム別処理時間によって前記調節されたサンプリングレートを再調節する段階をさらに含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記各客体の移動軌跡を生成する段階は、少なくとも1つの客体追跡アルゴリズムを用いて前記ターゲット客体のタイプに該当する各客体の少なくとも1つの部位別移動軌跡を生成し、
前記侵入発生確率を獲得する段階は、前記第2人工神経網に前記生成された部位別移動軌跡を入力することで、前記第2人工神経網の出力から前記侵入発生確率を獲得することを特徴とする請求項1に記載の方法。
【請求項5】
前記侵入発生確率の獲得にかかる第2人工神経網のフレーム別処理時間によって前記第2人工神経網に入力される部位別移動軌跡の個数を調節する段階をさらに含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記部位別移動軌跡の個数を調節する段階は、前記第2人工神経網のフレーム別処理時間が基準時間範囲以内であれば、前記第2人工神経網に入力される部位別移動軌跡の現在個数を保持し、前記第2人工神経網のフレーム別処理時間が前記基準時間範囲より大きければ、前記第2人工神経網に入力される部位別移動軌跡のうち、いずれか1つを除去し、前記第2人工神経網のフレーム別処理時間が前記基準時間範囲より小さければ、前記第2人工神経網に入力される部位別移動軌跡に対して新たな部位の移動軌跡をさらに入力することを特徴とする請求項5に記載の方法。
【請求項7】
前記サンプリングされた各フレームのカラー映像を少なくとも1つの客体のアウトラインを示す白黒映像に変換する段階をさらに含み、
前記少なくとも1つの客体が存在する確率を獲得する段階は、前記第1人工神経網を用いて前記変換された白黒映像内に前記ターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得することを特徴とする請求項1に記載の方法。
【請求項8】
第1時点で入力された複数フレームをサンプリングするサンプラと、
第1人工神経網を用いて前記サンプリングされた各フレームの映像内にターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得する客体識別部と、
前記少なくとも1つの客体の存在する確率獲得にかかる前記第1人工神経網のフレーム別処理時間によって前記第1時点以後の第2時点で入力される複数フレームに対するサンプリングレートを調節し、前記獲得された確率の大きさによって前記サンプリングされた各フレームをターゲット客体のフレームとして選定する制御部と、
前記ターゲット客体のフレームとして選定されたフレームから前記ターゲット客体のタイプに該当する各客体の移動軌跡を生成する軌跡生成部と、
第2人工神経網を用いて前記生成された移動軌跡から侵入発生確率を獲得する侵入検知部と、を含むことを特徴とする監視カメラ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視地域の映像に基づいてリアルタイムで検知地域に対する侵入を検知する方法及び監視カメラに関する。
【背景技術】
【0002】
現在運用中のほとんどの映像監視システムは、リアルタイムで侵入を検知することで犯罪や事件の発生を予め予防するために運用するものではなく、主に事件発生後に保存された映像を用いて犯罪や事件に係わる全貌を明らかにするか、侵入者などの身元把握に活用されている。しかし、国境線、飛行場、発電所、港湾、原電施設、備蓄基地のような国家重要施設や、産業及び公共施設、並びに事故予防など特定目的のために出入りを禁止した地域に対して非認可者の侵入を事前に防げなければ、テロのような国家的災難や保護物の毀損などの事故が発生してしまうので、そのような施設や区域に対しては、リアルタイムで侵入を検知して警報することで、事件事故の発生を遮断するか、予防する役割がさらに重要である。
【0003】
ほとんどの映像監視システムは、数十~数百台のCCTV(Closed Circuit Television)監視カメラを現場に設置し、その監視カメラの映像を管制センターのサーバに伝送すれば、管制センターに設けられた数十~数百台のモニタや大型スクリーンが数十~数百台のカメラの撮影映像を分割画面、順次画面方式で表示する方式によって運用されている。しかし、管制センターに勤める少数の人が、そのような多数の映像から肉眼観察を通じて侵入者を見つけ出すことは、事実上不可能である。これを可能にするためには、管制センター内に監視人力を大幅に増加させ、一人当たり監視映像の数を最小化せねばならないが、人件費上昇、収容施設拡充など現実的に多くの難点がある。
【0004】
最近になって、脚光を浴びている人工知能技法を用いてリアルタイムで侵入を検知する技術が登場している。例えば、大韓民国登録特許第10-0459767号「ハイブリッド神経網を用いた侵入探知システム及びその侵入探知方法」は、ハイブリッド神経網を用いて侵入を探知することで、侵入探知パターンデータベースが不要であり、これにより、侵入探知に対するパターンマッチングが不要であって、処理時間を大きく短縮することができる技術を開示している。大韓民国登録特許第10-1808587号「客体認識と追跡監視及び異常状況検知技術を用いた知能型統合監視管制システム」は、客体認識技術を用いてカメラに撮影された異常状況客体をリアルタイムで識別及び追跡可能な技術を開示している。
【0005】
しかし、このような従来技術による侵入検知などは、人工知能の負荷によってハードウェアの仕様が優秀なサーバでは駆動可能であったが、ハードウェアの仕様が劣る監視カメラでは駆動が不可能であった。これにより、従来には、管制センターのサーバが監視カメラの撮影映像を受信し、これに基づいて侵入検知を遂行した。しかし、監視カメラとサーバとの通信にかかる時間によって侵入検知のリアルタイム性が落ち、映像の圧縮及び復元過程において侵入検知の精度が落ちてしまう問題点があった。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、監視地域での侵入検知のために2つの人工神経網を段階的に用いることで監視地域での侵入発生確率の正確度を大幅に向上させつつも、ハードウェアの仕様が低い監視カメラで監視地域の撮影映像に対する侵入発生確率をリアルタイムで獲得することができる映像基盤のリアルタイム侵入検知方法及び監視カメラを提供することである。
前述したような技術的課題に限定されず、以下の説明からさらに他の技術的課題が導出されうる。
【課題を解決するための手段】
【0007】
本発明の一側面による映像基盤のリアルタイム侵入検知方法は、第1時点で入力された複数フレームをサンプリングする段階と、第1人工神経網を用いて前記サンプリングされた各フレームの映像内にターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得する段階と、前記少なくとも1つの客体の存在確率獲得にかかる前記第1人工神経網のフレーム別処理時間によって前記第1時点以後の第2時点で入力される複数フレームに対するサンプリングレートを調節する段階と、前記獲得された確率の大きさによって前記サンプリングされた各フレームをターゲット客体のフレームとして選定する段階と、前記ターゲット客体のフレームとして選定されたフレームから前記ターゲット客体のタイプに該当する各客体の移動軌跡を生成する段階と、第2人工神経網を用いて前記生成された移動軌跡から侵入発生確率を獲得する段階と、を含む。
【0008】
前記サンプリングレートを調節する段階は、前記サンプリングされた各フレームの映像が前記第1人工神経網に入力された時点と前記サンプリングされた各フレームの映像内での少なくとも1つの客体の存在確率が前記第1人工神経網から出力された時点の差から、前記第1人工神経網のフレーム別処理時間を算出し、前記算出された第1人工神経網のフレーム別処理時間に反比例して前記サンプリングレートを調節することができる。
【0009】
前記各客体の移動軌跡を生成する段階は、少なくとも1つの客体追跡アルゴリズムを用いて前記移動軌跡を生成し、前記映像基盤のリアルタイム侵入検知方法は、前記移動軌跡生成にかかる客体追跡アルゴリズムのフレーム別処理時間によって前記調節されたサンプリングレートを再調節する段階をさらに含んでもよい。
【0010】
前記各客体の移動軌跡を生成する段階は、少なくとも1つの客体追跡アルゴリズムを用いて前記ターゲット客体のタイプに該当する各客体の少なくとも1つの部位別移動軌跡を生成し、前記侵入発生確率を獲得する段階は、前記第2人工神経網に前記生成された部位別移動軌跡を入力することで前記第2人工神経網の出力から前記侵入発生確率を獲得することができる。
【0011】
前記映像基盤のリアルタイム侵入検知方法は、前記侵入発生確率獲得にかかる第2人工神経網のフレーム別処理時間によって前記第2人工神経網に入力される部位別移動軌跡の個数を調節する段階をさらに含んでもよい。
【0012】
前記部位別移動軌跡の個数を調節する段階は、前記第2人工神経網のフレーム別処理時間が基準時間範囲以内であれば、前記第2人工神経網に入力される部位別移動軌跡の現在個数を保持し、前記第2人工神経網のフレーム別処理時間が前記基準時間範囲より大きければ、前記第2人工神経網に入力される部位別移動軌跡のうち、いずれか1つを除去し、前記第2人工神経網のフレーム別処理時間が前記基準時間範囲より小さければ、前記第2人工神経網に入力される部位別移動軌跡に対して新たな部位の移動軌跡をさらに入力することができる。
【0013】
前記映像基盤のリアルタイム侵入検知方法は、前記サンプリングされた各フレームのカラー映像を少なくとも1つの客体のアウトラインを示す白黒映像に変換する段階をさらに含み、前記少なくとも1つの客体が存在する確率を獲得する段階は、前記第1人工神経網を用いて前記変換された白黒映像内に前記ターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得することができる。
【0014】
本発明の他の側面による監視カメラは、第1時点で入力された複数フレームをサンプリングするサンプラと、第1人工神経網を用いて前記サンプリングされた各フレームの映像内にターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得する客体識別部と、前記少なくとも1つの客体の存在する確率獲得にかかる前記第1人工神経網のフレーム別処理時間によって前記第1時点以後の第2時点で入力される複数フレームに対するサンプリングレートを調節し、前記獲得された確率の大きさによって、前記サンプリングされた各フレームをターゲット客体のフレームとして選定する制御部と、前記ターゲット客体のフレームとして選定されたフレームから前記ターゲット客体のタイプに該当する各客体の移動軌跡を生成する軌跡生成部と、第2人工神経網を用いて前記生成された移動軌跡から侵入発生確率を獲得する侵入検知部と、を含む。
【発明の効果】
【0015】
第1人工神経網を用いてターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得し、第2人工神経網を用いて移動軌跡から侵入発生確率を獲得することで、すなわち、監視地域での侵入検知のために、2つの人工神経網を段階的に用いることで、監視地域での侵入検知精度を大幅に向上させうる。なによりも、第1人工神経網のフレーム別処理時間によって、これから入力される複数フレームに対するサンプリングレートを調節することで、ハードウェアの仕様が低い監視カメラにおいて2つの人工神経網を用いるにも拘わらず、監視地域の撮影映像に対する侵入発生確率をリアルタイムで獲得することができる。
【0016】
また、少なくとも1つの客体追跡アルゴリズムを用いて各客体の移動軌跡を生成し、各客体の移動軌跡生成にかかる客体追跡アルゴリズムのフレーム別処理時間によって、これから入力される複数フレームに対するサンプリングレートを再調節することで、2つの人工神経網外に客体追跡アルゴリズムを用いる場合にも、監視カメラで監視地域の撮影映像に対する侵入発生確率をリアルタイムで獲得することができる。
【0017】
また、第2人工神経網に各客体の少なくとも1つの部位別移動軌跡を入力することで、第2人工神経網の出力から侵入発生確率を獲得し、侵入発生確率獲得にかかる第2人工神経網のフレーム別処理時間によって第2人工神経網に入力される部位別移動軌跡の個数を調節することで、監視地域の撮影映像に対する侵入発生確率がリアルタイムで獲得されうる状態で、最も高精度で獲得されるように監視カメラのハードウェア仕様によって侵入検知の正確度を精密に調整可能である。
前述したような効果に限定されず、以下の説明からさらに他の効果が導出されうる。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施例による映像監視システムの構成図である。
【
図3】本発明の一実施例による映像基盤のリアルタイム侵入検知方法のフローチャートである。
【
図4】本発明の一実施例による映像基盤のリアルタイム侵入検知方法のフローチャートである。
【
図5】
図3に図示したリアルタイム侵入検知方法の具現例示図である。
【
図6】
図2に図示した映像変換部によって変換されたアウトライン映像の例を示す図面である。
【発明を実施するための形態】
【0019】
以下、図面を参照して本発明の実施例を詳細に説明する。以下で説明する本発明の実施例は、監視地域での侵入検知のために2つの人工神経網を段階的に用いることで、監視地域での侵入発生確率の正確度を大幅に向上させつつも、ハードウェア仕様が低い監視カメラで監視地域の撮影映像に対する侵入発生確率をリアルタイムで獲得することができる映像基盤のリアルタイム侵入検知方法及び監視カメラに関する。以下では、そのような映像基盤のリアルタイム侵入検知方法及び監視カメラを簡略に「映像基盤のリアルタイム侵入検知方法」及び「監視カメラ」とも称する。
【0020】
図1は、本発明の一実施例による映像監視システムの構成図である。
図1を参照すれば、本実施例による映像監視システムは、
図1に図示する監視カメラ10を含む複数個の監視カメラ10、複数個のハブ20、及びサーバ30で構成される。複数個の監視カメラ10は、監視地域の各地に散発的に設けられつつ、上述したような構成によって撮影された映像をネットワークを介してサーバ30に伝送する。監視地域が非常に狭い場合であれば、一台の監視カメラ10のみ設けられてもよい。複数個のハブ20は、複数個の監視カメラ10をネットワークに接続させ、サーバ30をネットワークに接続させることで、複数個の監視カメラ10とサーバ30とのネットワーク通信を可能にする。
【0021】
サーバ30は、管制センターに設けられて複数個の監視カメラ10からネットワークを介して伝送されたカラー映像を受信し、受信されたカラー映像をユーザに表示する。サーバ30は、複数個の監視カメラ10に一対一に対応する複数個のモニタを備えている。各監視カメラ別に割り当てられたモニタは、当該監視カメラ10の撮影映像を表示する。以下で説明するように、各モニタには、監視カメラ10の撮影映像以外に、ある警報が同時に表示されることにより、管制センターの管理者がどの監視カメラの撮影映像を観察するかが分かる。これは、管制センターの管理者が、監視地域での犯罪や事件発生に係わる映像のみに集中可能にすることにより、管制センターの少人数だけでも監視地域での犯罪や事件発生を事前に遮断することができる。
【0022】
図2は、
図1に図示した監視カメラの構成図である。
図2を参照すれば、本実施例による監視カメラ10は、レンズ部11、イメージセンサ12、ISP(Image Signal Processor)13、圧縮部14、通信部15、サンプラ16、映像変換部17、客体識別部18、軌跡生成部19、侵入検知部110、ユーザインターフェース111、及び制御部112で構成される。本実施例による監視カメラ10は、前記構成要素以外にも、ハウジング、フィルタ、メモリなどをさらに含んでもよいが、本実施例の特徴を不明にすることを防止するために、本実施例の特徴と関係ないカメラの一般的な構成要素に係わる説明は省略する。前記構成要素のうち、一部は、マイクロプロセッサ、コンピュータプログラムが保存されたメモリなどの組合せによっても具現される。
【0023】
監視カメラ10の構成要素のうち、サンプラ16、映像変換部17、客体識別部18、軌跡生成部19、侵入検知部110、ユーザインターフェース111、及び制御部112が監視カメラ10から除去された後、サーバ30の構成要素としてサーバ30に追加されうる。その場合、監視カメラ10は、監視地域を撮影し、その結果物をサーバ30に伝送する役割のみを行い、サーバ30は、監視カメラ10から伝送された映像から外部人の侵入を検知する役割を行う。サーバ30のハードウェア的な性能は、監視カメラ10のハードウェア性能に比べて、非常に優れるために、上述したようにサーバ30の構成要素としてサーバ30に追加される場合、侵入検知精度が非常に高くなるが、監視カメラ10とサーバ30との通信環境が劣悪であるか、通信障害が発生する場合、侵入検知のリアルタイム性が保証されない。
【0024】
レンズ部11は、少なくとも1つのレンズで構成される。一般的に、監視カメラは、移動する物体を捕捉すれば、目標物体を拡大して撮影するズームイン機能と全体撮影面積を広げるズームアウト機能を支援し、そのようなズームイン/ズームアウト機能を可能にするために、レンズ部11は、複数個のレンズで構成される。例えば、レンズ部11は、円筒状鏡筒、それに内蔵されて焦点距離を変更することができる凸レンズ、凹レンズ、及び凸レンズで構成されうる。レンズ部11は、本実施例の特徴とは関わらないので、本実施例の特徴を不明にすることを防止するために、それ以上の詳細な説明は省略する。
【0025】
イメージセンサ12は、レンズ部11を通過した光を電気的信号に変換する。イメージセンサ13は、CCD(Charge Coupled Device)センサとCMOS(Complementary Metal-Oxide Semiconductor)センサで分類されうる。このようなイメージセンサ13は、赤外線と可視光線にいずれも反応し、それを電気的信号に変換する。イメージセンサ13から出力された信号からカラー映像が生成される場合、イメージセンサ13に照射された赤外線は、カラー映像の画質劣化の要因として作用し、イメージセンサ13から出力された信号から白黒映像が生成される場合、イメージセンサ13に照射された可視光線は、白黒映像の画質劣化の要因として作用する。レンズ部11とイメージセンサ12との間には、レンズ部11を通過した光の赤外線帯域と可視光線帯域とのうち、いずれか1つを遮断し、他の1つを透過させるハードウェアフィルタが挿入されうる。
【0026】
ISP 13は、イメージセンサ12によって変換された電気的信号から秒当たり複数のフレーム、例えば、秒当たり60フレームのカラー映像を生成し、そのように生成されたカラー映像をフレーム別に出力する。各フレームは、フレームヘッダと映像データとで構成される。フレームヘッダには、各フレームの番号が記録され、これは、フレームを区分するための用途として使用される。ISP 13は、基本的にイメージセンサ12から出力された信号のベイヤーパターン映像(Bayer pattern image)の各ピクセル値を補間(interpolate)することで、LVDS(Low Voltage Differential Signaling)形式のカラー映像を生成する。さらに、ISP 13は、このように生成されたカラー映像のノイズを除去し、逆光を補正し、色相を自然色に近く調整するなどの映像改善処理が可能である。
【0027】
ここで、秒当たり60フレームのカラー映像は、一例に過ぎず、ISP 13は、イメージセンサ12によって変換された電気的信号から秒当たり30フレームのカラー映像を生成し、イメージセンサ12によって変換された電気的信号から秒当たり120フレームのカラー映像を生成することができる。一方、ISP 13は、イメージセンサ12によって変換された電気的信号から白黒映像を生成することもできる。以下、ISP 13によって秒当たり60フレームのカラー映像が生成されると仮定して、本実施例を説明する。
【0028】
圧縮部14は、ISP 13によって生成されたカラー映像を圧縮する。圧縮部16は、H.264、HEVC(High Efficiency Video Codec)など多様なコーデックに応じてISP 13によって生成されたカラー映像を圧縮することができる。通信部15は、圧縮部14によって圧縮された映像を、ユーザに、監視カメラ10によって撮影された映像を表示するサーバ30、例えば、管制センターのコンピュータに伝送する。このような映像表示装置と監視カメラ10が遠く離れている場合、インターネット、LANのようなネットワークを介して互いに通信する。通信部15は、圧縮部14によって圧縮された映像をTCP/IP(Transmission Control Protocol/Internet Protocol)によってネットワークを介して映像表示装置に伝送することができる。一方、通信部15は、ISP 13によって生成されたカラー映像を圧縮せずに、そのまま伝送してもよい。
【0029】
サンプラ16は、制御部112の制御によるサンプリングレート(sampling rate)でISP 13から出力されるフレームをサンプリングする。映像変換部17は、サンプラ16によってサンプリングされた各フレームのカラー映像を少なくとも1つの客体のアウトラインを示す白黒映像に変換する。客体識別部18は、第1人工神経網を用いて映像変換部17によって変換された白黒映像内にユーザインターフェース111に入力されたターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得する。
【0030】
軌跡生成部19は、少なくとも1つの客体追跡アルゴリズム(Object Tracking Algorithm)を用いて制御部112によってターゲット客体のフレームとして選定されたフレームからユーザインターフェース111に入力されたターゲット客体のタイプに該当する各客体の少なくとも1つの部位別移動軌跡を生成する。侵入検知部110は、第2人工神経網を用いて軌跡生成部19によって生成された部位別移動軌跡から監視カメラ10の監視地域での侵入発生確率を獲得する。ユーザインターフェース111は、監視カメラ10のユーザから侵入検知環境の設定のための情報を入力される。
【0031】
制御部112は、第1人工神経網のフレーム別処理時間と客体追跡アルゴリズムのフレーム別処理時間によってサンプラ16のサンプリングレートを調節し、そのように調節されたサンプリングレートにサンプリングするようにサンプラ16の動作を制御する。また、制御部112は、第2人工神経網のフレーム別処理時間によって第2人工神経網に入力される部位別移動軌跡の個数を調節し、そのように調節された個数ほどの移動軌跡が第2人工神経網に入力されるように軌跡生成部19の動作を制御する。
【0032】
上述したように本実施例は、監視地域での侵入検知のために、2つの人工神経網を段階的に用いることで、監視地域での侵入検知精度を大幅に向上させうる。人工神経網のうち、CNN(Convolutional Neural Network)は、映像学習に適した構造を有している。すなわち、CNNは、伝統の人工神経網の前に映像の特徴を抽出するコンボリューション部分が取り付けられている構造を有している。以下では、第1人工神経網と第2人工神経網とがCNNによって設計された実施例を説明する。
【0033】
図3、
図4は、本発明の一実施例による映像基盤のリアルタイム侵入検知方法のフローチャートである。
図3、
図4を参照すれば、本実施例による映像基盤のリアルタイム侵入検知方法は、
図2に図示した監視カメラ10で時系列的に処理される段階で構成される。以下では、
図2に図示した監視カメラ10の処理について詳細に説明する。以下、省略された内容であっても、
図1、
図2に図示した監視カメラ10について前述した内容は、後述するリアルタイム侵入検知方法にも適用される。
【0034】
31段階において、ユーザインターフェース111は、監視カメラ10のユーザから侵入検知環境の設定のための情報を入力される。侵入検知環境の設定のための情報は、ターゲット客体の複数タイプのうち、いずれか1つのタイプとターゲット客体の基準精度からなる。ターゲット客体タイプの例としては、人、車両などが挙げられる。侵入検知環境の設定のための情報は、侵入検知領域、侵入先、侵入方向などをさらに含む。監視カメラ10の遠隔地に位置したサーバ30の管理者がサーバ30に侵入検知環境の設定のための情報を入力する場合、通信部15がサーバ30から侵入検知環境の設定のための情報を受信することもできる。
【0035】
32段階において、サンプラ16は、ISP 13から現在時点で入力された秒当たり60フレームを制御部112によって調節されたサンプリングレートにサンプリングする。現在時点で入力された秒当たり60フレームは、現在時点で入力されたフレームを含む秒当たり60フレームを意味し、サンプラ16は、サンプリングレートによって現在時点で入力されたフレームを出力するか、出力しない。例えば、サンプラ16は、ISP 13によって生成された秒当たり60フレームから、制御部112の制御によって秒当たり1~60フレームを抽出することができる。すなわち、サンプラ16は、秒当たり60フレームを「1」サンプリングレートでサンプリングすることで、秒当たり60フレームから秒当たり1フレームを抽出することができ、秒当たり60フレームを60サンプリングレートでサンプリングすることで、秒当たり60フレームから秒当たり60フレームを抽出することもできる。後者の場合、サンプラ16は、ISP 13によって生成された秒当たり60フレームをそのまま映像変換部17に伝達する役割を行う。
【0036】
サンプラ16は、サンプリングされた各フレームを1つずつ順次に出力し、後述する33~316段階は、サンプラ16によってサンプリングされた各フレーム別に繰り返される。後述するようにサンプラ16から出力された各フレームが33~316段階でリアルタイムで処理されるか否かによって、サンプラ16のサンプリングレートが変更される。すなわち、サンプラ16から出力された各フレームが、33~316段階においてリアルタイムで処理されるか否かによって、サンプラ16から出力されるフレーム間の時間間隔が変わる。結果として、サンプラ16から出力された各フレームが、33~316段階においてリアルタイムで処理されるようにサンプラ16から出力されるフレーム間の時間間隔が更新され続ける。
【0037】
33段階において、映像変換部17は、サンプラ16によってサンプリングされた各フレームのカラー映像を少なくとも1つの客体のアウトラインを示す白黒映像に変換する。以下、少なくとも1つの客体のアウトラインを示す白黒映像は、「アウトライン映像」とも簡略に呼称される。後述するように、さらに詳細に説明すれば、映像変換部17は、各フレームのカラー映像から少なくとも1つの客体のアウトラインを検出し、そのように検出されたアウトラインに位置した画素の値を「1」と設定し、残りの画素値を「0」と設定することで、各フレームのカラー映像をアウトライン映像に変換することができる。客体のアウトライン検出と係わっては、本実施例が属する技術分野で通常の知識を有する者に公知された様々なアルゴリズムが存在し、これについての詳細な説明は省略する。
【0038】
後述するように、映像変換部17によって変換された白黒映像は、各フレームの映像内の各客体のタイプを識別するための第1CNN 180に入力される。カラー映像は、各画素がRGB(Red Green Blue)3つの値で表現され、白黒映像は、各ピクセルが明暗1個の値のみで表現される。本実施例は、第1CNN 180のフレーム別処理速度を高めるために、カラー映像の代りに、それから変換された白黒映像が第1CNN 180に入力される。特に、客体のアウトラインを示す白黒映像は、その客体を示す白黒映像に比べて、その映像データ量が大幅に減少するので、第1CNN 180のフレーム別処理速度がさらに向上しうる。
【0039】
34段階において、客体識別部18は、第1CNN 180を用いて33段階で変換された白黒映像内に、31段階で入力されたターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を獲得する。さらに詳細に説明すれば、客体識別部18は、第1CNN 180に、31段階で入力されたターゲット客体のタイプと、33段階で変換された白黒映像を入力することで、第1CNN 180の出力から第1CNN 180に入力されたターゲット客体のタイプに該当する少なくとも1つの客体が第1CNN 180に入力された白黒映像内に存在する確率を獲得する。例えば、31段階で入力されたターゲット客体のタイプが人である場合、客体識別部18は、第1CNN 180の出力から第1CNN 180に入力された白黒映像内に人に該当する少なくとも1つの客体が存在する確率を獲得する。
【0040】
ここで、第1CNN 180は、その入力層に多数のアウトライン映像を入力し、その出力層に、このように入力された各アウトライン映像内の少なくとも1つの客体タイプを入力する方式によって学習されたCNNを言う。第1CNN 180に、31段階で入力されたターゲット客体のタイプと、33段階で変換された白黒映像を入力すれば、その入力に対する応答として第1CNN 180は、フレーム番号とその番号を有するフレームの白黒映像内にターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を出力する。
【0041】
35段階において、制御部112は、34段階での客体存在確率獲得にかかる第1CNN 180のフレーム別処理時間によって、現在時点以後の次の時点で入力される秒当たり60フレームに対するサンプラ16のサンプリングレートを調節する。次の時点で入力される秒当たり60フレームは、次の時点で入力されるフレームを含む秒当たり60フレームを意味し、監視カメラ10のフレーム別処理速度によって、現在入力された秒当たり60フレームに、新たなフレームが1つ追加されたものでもあり、複数個追加されたものでもある。
【0042】
図5は、
図3に図示したリアルタイム侵入検知方法の具現例示図である。
図5は、従来、リアルタイム侵入検知を担当していたサーバ30に比べて、ハードウェア性能が非常に落ちる監視カメラ10がISP 13によって生成された秒当たり60フレームのカラー映像に対してリアルタイム侵入検知を可能にする構成のみを示す図面である。
【0043】
図5を参照すれば、制御部112は、33段階で変換された白黒映像が第1CNN 180に入力された時点「T1」と、34段階において、その白黒映像に対する確率が第1CNN 180から出力された時点「T2」との差から、第1CNN 180のフレーム別処理時間を算出し、そのように算出された第1CNN 180のフレーム別処理時間に反比例してサンプラ16のサンプリングレートを調節する。制御部112によって、サンプリングレートが調節されるやいなや、サンプラ16は、このように調節されたサンプリングレートでサンプリングする。ここで、その白黒映像に対する確率は、その白黒映像内に、第1CNN 180に入力されたターゲット客体のタイプに該当する少なくとも1つの客体が存在する確率を意味する。
【0044】
すなわち、制御部112は、第1CNN 180のフレーム別処理時間が第1CNN 180の基準時間範囲内であれば、サンプラ16の現在サンプリングレートを保持し、第1CNN 180のフレーム別処理時間が第1CNN 180の基準時間範囲より大きければ、サンプラ16のサンプリングレートを単位量ほど、例えば、1つずつ減少させ、第1CNN 180のフレーム別処理時間が第1CNN 180の基準時間範囲より小さければ、単位量ほどサンプラ16のサンプリングレートを増加させる。ここで、第1CNN 180の基準時間範囲は、監視カメラ10のハードウェア仕様、例えば、マイクロプロセッサの性能などを考慮してISP 13によって生成された秒当たり60フレームのカラー映像に対してリアルタイム侵入検知が可能でありながらも、第1CNN 180に最も多くのフレームが入力されるように設定される。
【0045】
36段階において、制御部112は、34段階で獲得された確率の大きさによって、サンプラ16によってサンプリングされた各フレームをターゲット客体のフレームとして選定する。さらに詳細に説明すれば、制御部112は、34段階で獲得された確率と、31段階で入力されたターゲット客体の基準精度を比較する。次いで、制御部112は、34段階で獲得された確率が、31段階で入力されたターゲット客体の基準精度以上であれば、31段階で入力されたターゲット客体の基準精度以上の確率を有する各フレームをターゲット客体のフレームとして選定する。ターゲット客体のフレームが選定された場合には、37段階に進み、34段階で獲得された確率が、31段階で入力されたターゲット客体の基準精度未満であれば、当該フレームに対する手続きは終了する。すなわち、基準精度未満に該当するフレームに対する手続きは終了する。
【0046】
37段階において、軌跡生成部19は、少なくとも1つの客体追跡アルゴリズム190を用いて36段階でターゲット客体のフレームとして選定されたフレームから、31段階で入力されたターゲット客体のタイプに該当する各客体の少なくとも1つの部位別移動軌跡を生成する。36段階において、ターゲット客体のフレームとして選定されたフレームが蓄積されるほど各客体の移動軌跡の長さが延びる。リアルタイムで客体を追跡するためのアルゴリズムの例として、平均シフト(mean-shift)アルゴリズム、カムシフト(cam-shift)アルゴリズムなどが挙げられる。そのような客体追跡アルゴリズムは、本実施例が属する技術分野で通常の知識を有する者に公知された技術なので、これについての詳細な説明は省略する。本実施例によれば、各客体の部位個数が複数である場合、その個数ほど複数の客体追跡アルゴリズムが同時に遂行されうる。
【0047】
例えば、各客体の少なくとも1つの部位別移動軌跡は、人の中心部位の移動軌跡、人の右手の移動軌跡、人の右足の移動軌跡などを含んでもよい。本実施例において、人の中心部位の移動軌跡は、人の全身を最小サイズに取り囲む四角ボックスの中心点の移動軌跡であり、人の右手の移動軌跡は、人の右手を最小サイズに取り囲む四角ボックスの中心点の移動軌跡であり、人の右足の移動軌跡は、人の右足を最小サイズに取り囲む四角ボックスの中心点の移動軌跡である。すなわち、軌跡生成部19は、33段階で変換されたフレームの白黒映像内の31段階で入力されたターゲット客体のタイプに該当する各客体の少なくとも1つの部位を代表する少なくとも1つのドット別移動軌跡を生成する。
【0048】
38段階において、制御部112は、37段階での移動軌跡生成にかかる客体追跡アルゴリズム190のフレーム別処理時間によって、サンプラ16のサンプリングレートを調節する。
図5を参照すれば、制御部112は、36段階でターゲット客体のフレームとして選定された各フレームが客体追跡アルゴリズム190に入力された時点「T3」と、37段階において、その各フレームに対する部位別移動軌跡が客体追跡アルゴリズム190から出力された時点「T4」との差から、客体追跡アルゴリズム190のフレーム別処理時間を算出し、そのように算出された客体追跡アルゴリズム190のフレーム別処理時間に反比例して35段階で調節されたサンプリングレートを再調節する。ここで、その各フレームに対する部位別移動軌跡は、その各フレームを最後のフレームにする移動軌跡を意味する。
【0049】
制御部112によってサンプリングレートが再調節されるやいなや、サンプラ16は、そのように再調節されたサンプリングレートでサンプリングする。これにより、2つのCNN以外に客体追跡アルゴリズムを用いる場合にも、監視カメラ10で監視地域の撮影映像に対する侵入発生確率をリアルタイムで獲得することができる。本実施例によれば、35段階及び38段階において、サンプリングレートが二回調節されるが、2段階のうち、いずれかの段階でのみサンプリングレートが調節される構造で本実施例が変形されうる。
【0050】
すなわち、制御部112は、客体追跡アルゴリズム190のフレーム別処理時間が客体追跡アルゴリズム190の基準時間範囲内であれば、サンプラ16の現在サンプリングレートを保持し、客体追跡アルゴリズム190のフレーム別処理時間が客体追跡アルゴリズム190の基準時間範囲より大きければ、単位量ほどサンプラ16のサンプリングレートを減少させ、客体追跡アルゴリズム190のフレーム別処理時間が客体追跡アルゴリズム190の基準時間範囲より小さければ、単位量ほどサンプラ16のサンプリングレートを増加させる。ここで、客体追跡アルゴリズム190の基準処理時間は、監視カメラ10のハードウェア仕様、例えば、マイクロプロセッサの性能などを考慮し、ISP 13によって生成された秒当たり60フレームのカラー映像に対してリアルタイム侵入検知が可能であり、かつ客体追跡アルゴリズム190に最も多くのフレームが入力されるように設定される。
【0051】
39段階において、侵入検知部110は、第2CNN 1100を用いて37段階で生成された部位別移動軌跡から監視カメラ10の監視地域での侵入発生確率を獲得する。さらに詳細に説明すれば、侵入検知部110は、第2CNN 1100に、37段階で生成された部位別移動軌跡を入力することで、第2CNN 1100の出力から監視カメラ10の監視地域での侵入発生確率を獲得する。例えば、31段階で入力されたターゲット客体のタイプが人である場合、客体識別部18は、第2CNN 1100の出力から第2CNN 1100に入力された部位別移動軌跡が侵入者の侵入パターンに該当する確率、すなわち、侵入発生確率を獲得する。
【0052】
ここで、第2CNN 1100は、その入力層に多数の移動軌跡を入力し、その出力層に、そのように入力された移動軌跡それぞれが侵入パターンに該当するか否かを入力する方式によって学習されたCNNを言う。第2CNN 1100に、37段階で生成された部位別移動軌跡を入力すれば、その入力に対する応答として第2CNN 1100は、37段階で生成された部位別移動軌跡が侵入者の侵入パターンに該当する確率を出力する。侵入検知部110は、ユーザインターフェース111に入力された侵入検知領域、侵入先、侵入方向によって37段階で生成された部位別移動軌跡をフィルタリングし、そのようにフィルタリングされた部位別移動軌跡を第2CNN 1100に入力してもよい。
【0053】
図6は、
図2に図示した映像変換部17によって変換されたアウトライン映像の例を示す図面である。
図6を参照すれば、最初のアウトライン映像には、人がフェンス前方に伏せている形状のアウトラインが含まれており、二番目のアウトライン映像には、人がフェンスを掴んで立っている形状のアウトラインが含まれており、三番目のアウトライン映像には、人がフェンスの裏側領域で歩いている形状のアウトラインが含まれている。このような三つのアウトライン映像は、人がフェンスを乗り越えるイベントを示す。各アウトライン映像には、人の中心部位と右手にドットが表示されている。第2CNN 1100には、人の中心部位の移動軌跡のみ入力されてもよく、人の中心部位の移動軌跡と共に、人の右手の移動軌跡が入力されてもよい。
【0054】
第2CNN 1100に人の中心部位の移動軌跡のみ入力された場合には、1つの移動軌跡基盤の侵入発生確率が出力されるので、第2CNN 1100のフレーム別処理速度が向上するが、一方、侵入発生確率の正確度が低くなる。第2CNN 1100に人の中心部位の移動軌跡と、人の右手の移動軌跡が入力された場合には、2つの移動軌跡基盤の侵入発生確率が出力されるので、第2CNN 1100のフレーム別処理速度が低下するが、一方、侵入発生確率の正確度は高くなる。前者は、人がフェンスを乗り越えるイベントに対する侵入如何を判定することができるが、人がフェンス扉を正常に通過するイベントと、フェンス一部を毀損し、非正常的に通過するイベントとを区分することができない。人がフェンス扉を開くときと、フェンス一部を毀損するときに、右手の移動軌跡が異なるので、後者は、前記イベントの両方ともに対する侵入如何を判定することができる。
【0055】
310段階において、制御部112は、39段階での侵入発生確率獲得にかかる第2CNN 1100のフレーム別処理時間によって、第2CNN 1100に入力される部位別移動軌跡の個数を調節する。
図5を参照すれば、制御部112は、37段階で生成された部位別移動軌跡が第2CNN 1100に入力された時点「T5」と、34段階において、その部位別移動軌跡に対する確率が第2CNN 1100から出力された時点「T6」との差から第2CNN 1100のフレーム別処理時間を算出し、そのように算出された第2CNN 1100のフレーム別処理時間に反比例して、第2CNN 1100に入力される部位別移動軌跡の個数を調節する。制御部112によって第2CNN 1100に入力される部位別移動軌跡の個数が調節されるやいなや、侵入検知部110は、その調節された個数ほどの部位別移動軌跡を第2CNN 1100に入力する。
【0056】
これにより、本実施例は、監視地域の撮影映像に対する侵入発生確率をリアルタイムで獲得可能な状態で最も高精度に獲得されるように監視カメラ10のハードウェア仕様によって侵入検知の正確度を精密に調整することができる。ここで、その部位別移動軌跡は、各フレームに対する部位別移動軌跡、すなわち、その各フレームを最後のフレームとする移動軌跡を意味するので、第2CNN 1100のフレーム別処理時間が算出されうる。
【0057】
すなわち、制御部112は、第2CNN 1100のフレーム別処理時間が第2CNN 1100の基準時間範囲内であれば、第2CNN 1100に入力される部位別移動軌跡の現在個数を保持し、第2CNN 1100のフレーム別処理時間が第2CNN 1100の基準時間範囲より大きければ、第2CNN 1100に入力される部位別移動軌跡のうち、いずれか1つを優先順位によって除去し、第2CNN 1100のフレーム別処理時間が第2CNN 1100の基準時間範囲より小さければ、第2CNN 1100に入力される部位別移動軌跡に対して優先順位によって新たな部位の移動軌跡をさらに入力する。客体の部位それぞれには、優先順位が割り当てられており、優先順位の高い順に部位別移動軌跡が追加されるか、除去される。例えば、人の中心部位、右手、右足、左手、左足順に優先順位が高い。ここで、第2CNN 1100の基準時間範囲は、監視カメラ10のハードウェア仕様を考慮して、ISP 13によって生成された秒当たり60フレームのカラー映像に対してリアルタイム侵入検知が可能であり、かつ第2CNN 1100に最も多くの移動軌跡が入力されるように設定される。
【0058】
311段階において、制御部112は、39段階で獲得された侵入発生確率が90%以上であるかを確認する。39段階で獲得された侵入発生確率が90%以上であれば、312段階に進み、そうでなければ、313段階に進む。312段階において、制御部112は、通信部15を介してサーバ30に侵入警報メッセージを伝送する。このような侵入警報メッセージは、ターゲット客体のタイプ、当該フレームの番号などを含んでもよい。サーバ30は、監視カメラ10から侵入警報メッセージを受信すれば、当該フレームのカラー映像に侵入客体のタイプと共に、侵入を知らせる表示を行い、侵入を知らせる音声放送を行う。
【0059】
313段階において、制御部112は、39段階で獲得された侵入発生確率が80%以上であるかを確認する。39段階で獲得された侵入発生確率が80%以上であれば、314段階に進み、そうでなければ、315段階に進む。314段階において、制御部112は、通信部15を介してサーバ30に警戒警報メッセージを伝送する。このような警戒警報メッセージは、ターゲット客体のタイプ、当該フレームの番号などを含んでもよい。サーバ30は、監視カメラ10から警戒警報メッセージを受信すれば、当該フレームのカラー映像に警戒対象客体のタイプと共に、警戒状況を知らせる表示を行い、警戒状況を知らせる音声放送を行う。
【0060】
315段階において、制御部112は、39段階で獲得された侵入発生確率が70%以上であるかを確認する。39段階で獲得された侵入発生確率が70%以上であれば、316段階に進み、そうでなければ、当該フレームに対する手続きは終了する。すなわち、侵入発生確率が70%未満に該当するフレームに対する手続きは終了する。316段階で制御部112は、通信部15を介してサーバ30に注意警報メッセージを伝送する。このような注意警報メッセージは、ターゲット客体のタイプ、当該フレームの番号などを含んでもよい。サーバ30は、監視カメラ10から注意警報メッセージを受信すれば、当該フレームのカラー映像に注意対象客体のタイプと共に、注意状況を知らせる表示を行い、注意状況を知らせる音声放送を行う。312、314、316段階での映像表示や音声放送が開始されると共に、当該フレームに対する手続きは終了する。
【0061】
以上、本発明について望ましい実施例を中心に説明した。本発明が属する技術分野で通常の知識を有する者は、本発明が本発明の本質的な特性から外れない範囲で変形された形態に具現される可能性があるということを理解できるであろう。したがって、開示した実施例は、限定的な観点ではなく、説明的な観点で考慮されねばならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に開示されており、それと同等な範囲内にある全ての相違点は、本発明に含まれていると解釈されねばならない。
【符号の説明】
【0062】
10 監視カメラ
11 レンズ部
12 イメージセンサ
13 ISP
14 圧縮部
15 通信部
16 サンプラ
17 映像変換部
18 客体識別部
19 軌跡生成部
20 ハブ
30 サーバ
110 侵入検知部
111 ユーザインターフェース
112 制御部
180 第1CNN
190 客体追跡アルゴリズム
1100 第2CNN