(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6875262
(24)【登録日】2021年4月26日
(45)【発行日】2021年5月19日
(54)【発明の名称】モーションビデオにおいて事象を識別するための方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20210510BHJP
G06T 7/215 20170101ALI20210510BHJP
H04N 5/232 20060101ALI20210510BHJP
G08B 25/00 20060101ALI20210510BHJP
【FI】
G06T7/00 350C
G06T7/215
H04N5/232 290
G08B25/00 510M
【請求項の数】24
【外国語出願】
【全頁数】15
(21)【出願番号】特願2017-231462(P2017-231462)
(22)【出願日】2017年12月1日
(65)【公開番号】特開2018-142299(P2018-142299A)
(43)【公開日】2018年9月13日
【審査請求日】2020年12月1日
(31)【優先権主張番号】16205865.5
(32)【優先日】2016年12月21日
(33)【優先権主張国】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林特許業務法人
(72)【発明者】
【氏名】エドパルム, ヴィクトル
(72)【発明者】
【氏名】アンデション, エーリク
(72)【発明者】
【氏名】ユアン, ソン
【審査官】
▲徳▼田 賢二
(56)【参考文献】
【文献】
特開2016−015116(JP,A)
【文献】
米国特許出願公開第2016/0171852(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/215
G08B 25/00
H04N 5/232
(57)【特許請求の範囲】
【請求項1】
一時的識別プロセスおよび長期的識別プロセスを備える、モーションビデオカメラによって取り込まれた場面における事象を識別するための方法であって、
前記一時的識別プロセスが、
取り込まれた画像フレームからピクセルデータを分析することによって、前記取り込まれた場面における事象を識別することと、
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録することであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、カメラ処理データを登録することと、
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングすることと
を含み、
前記長期的識別プロセスが、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録することと、
ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別することと
を含み、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、
方法。
【請求項2】
前記ニューラルネットワークを基にした事象識別動作を前記トレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項1に記載の方法。
【請求項3】
前記重みが、前記一時的識別プロセスの間に、ネットワークを介して前記モーションビデオカメラに接続されたデバイスに記憶される、請求項2に記載の方法。
【請求項4】
前記重みが、前記ネットワークを介して前記モーションビデオカメラに転送される、請求項3に記載の方法。
【請求項5】
前記一時的識別プロセスが、要求により開始される、請求項1に記載の方法。
【請求項6】
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項5に記載の方法。
【請求項7】
前記一時的識別プロセスが、ネットワークを介して前記モーションビデオカメラに接続されたデバイスによって実行される、請求項1に記載の方法。
【請求項8】
前記ニューラルネットワークを基にした事象識別動作の重みおよびコードが、前記長期的識別プロセスで、前記モーションビデオカメラにおいて実行される、請求項1に記載の方法。
【請求項9】
前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開することをさらに備える、請求項1に記載の方法。
【請求項10】
通信ネットワークを介して通信するように構成されたモーションビデオカメラと処理デバイスとを含むシステムであって、
前記処理デバイスは一時的識別プロセスを使用するように構成されており、前記処理デバイスは、
前記処理デバイスの中央処理装置(CPU)に動作可能に連結された前記処理デバイスのネットワークインターフェースであって、前記処理デバイスの前記ネットワークインターフェース及び前記処理デバイスの前記CPUは、取り込まれた画像フレームからピクセルデータを分析することによって、前記モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、及び
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記処理デバイスの前記CPUであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、前記CPU、及び
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記CPU
を備え、
前記モーションビデオカメラは長期的識別プロセスを使用するように構成されており、前記モーションビデオカメラは、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記モーションビデオカメラのCPU、及び
前記モーションビデオカメラの前記CPUに動作可能に連結された前記モーションビデオカメラのネットワークインターフェースであって、前記モーションビデオカメラの前記ネットワークインターフェース及び前記モーションビデオカメラの前記CPUは、ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース
を備え、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、システム。
【請求項11】
前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項10に記載のシステム。
【請求項12】
前記一時的識別プロセスが、要求により開始される、請求項10に記載のシステム。
【請求項13】
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項12に記載のシステム。
【請求項14】
前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成された前記処理デバイスをさらに備える、請求項10に記載のシステム。
【請求項15】
モーションビデオカメラであって、
前記モーションビデオカメラは一時的識別プロセスを使用するように構成されており、前記モーションビデオカメラは、
中央処理装置(CPU)に動作可能に連結されたネットワークインターフェースであって、前記ネットワークインターフェース及び前記CPUは、取り込まれた画像フレームからピクセルデータを分析することによって、前記モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記CPUであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、前記CPU、及び
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記CPU
を備え、
前記モーションビデオカメラは長期的識別プロセスを使用するように構成されており、前記モーションビデオカメラはさらに、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記CPU、及び
ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成された、前記ネットワークインターフェース及び前記CPU、
を備え、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、モーションビデオカメラ。
【請求項16】
前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項15に記載のモーションビデオカメラ。
【請求項17】
前記一時的識別プロセスが、要求により開始される、請求項15に記載のモーションビデオカメラ。
【請求項18】
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項17に記載のモーションビデオカメラ。
【請求項19】
さらに、前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成されている、請求項15に記載のモーションビデオカメラ。
【請求項20】
処理デバイスであって、
前記処理デバイスは一時的識別プロセスを使用するように構成されており、前記処理デバイスは、
中央処理装置(CPU)に動作可能に連結されたネットワークインターフェースであって、前記ネットワークインターフェース及び前記CPUは、取り込まれた画像フレームからピクセルデータを分析することによって、モーションビデオカメラによって取り込まれた場面における事象を識別するように構成されている、ネットワークインターフェース、
前記事象の識別の対象となる前記画像フレームに関係するカメラ処理データを登録するように構成された前記CPUであって、前記カメラ処理データは、カメラによって取り込まれた符号化されたビデオストリームのデータレート、オートフォーカス距離、オートホワイトバランス機能の設定、オート露出設定、シャッター時間、ゲイン、信号対ノイズ比、取り込まれたフレームにおけるコントラスト、ネットワークに送られるデータレート、中央処理装置(CPU)使用量、メモリ使用量、ジャイロまたは加速度計からのデータ、および前記カメラに接続されたパンチルトズーム(PTZ)ヘッドからの位置データのうちの少なくとも1つを含む、前記CPU、及び
事象の前記識別の対象となる前記画像フレームに関係する前記登録されたカメラ処理データを、入力として使用し、前記識別された事象を、ニューラルネットワークを基にした事象識別動作から生じた事象の適正な分類として使用して、前記ニューラルネットワークを基にした事象識別動作をトレーニングするように構成された、前記CPU
を備え、
前記処理デバイスは長期的識別プロセスを使用するように構成されており、前記処理デバイスはさらに、
ピクセルデータの分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係するカメラ処理データを登録するように構成された、前記CPU、及び
ピクセルデータの前記分析のために使用された前記画像フレームに引き続いて取り込まれた画像フレームに関係する登録されたカメラ処理データを、前記トレーニングされたニューラルネットワークを基にした事象識別動作に入力することによって、前記取り込まれた場面における事象を識別するように構成された、前記ネットワークインターフェース及び前記CPU、
を備え、
前記一時的識別プロセスが、所定の時間期間の間に実行され、前記長期的識別プロセスが、前記所定の時間期間が終了した後に実行される、処理デバイス。
【請求項21】
前記ニューラルネットワークを基にした事象識別動作をトレーニングすることが、前記ニューラルネットワークを基にした事象識別動作のノードに属する重みを調整することを含み、前記ニューラルネットワークを基にした事象識別動作から生じた事象の分類が、前記取り込まれた画像フレームからのピクセルデータの前記分析によって識別された事象の分類に近くなるように、前記ニューラルネットワークを基にした事象識別動作の前記ノードの前記重みが調整される、請求項20に記載の処理デバイス。
【請求項22】
前記一時的識別プロセスが、要求により開始される、請求項20に記載の処理デバイス。
【請求項23】
前記要求が、ユーザによって前記モーションビデオカメラに入力された命令である、請求項22に記載の処理デバイス。
【請求項24】
さらに、前記長期的識別プロセスにおいて、前記ニューラルネットワークを基にした事象識別動作によって生成された信頼値が所定の閾値を下回ることに応答して、前記一時的識別プロセスを再開するように構成されている、請求項20に記載の処理デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モーションビデオにおいて事象を識別するためのプロセスおよびデバイスに関する。
【背景技術】
【0002】
今日の監視および/またはモニタリングシステムは、動き、侵入、暴力行為、徘徊、置き去りにされた品物、その他などの事象を検出するように、度々構成される。モニターされる場面において発生する事象を、システムに検出させ、認識させることによって、このタイプの監視および/またはモニタリングシステムの動作が促進されるが、それは、多くの同時に調査される場面を有するシステムにおいてモニターするために要する人的資源がより少なくて済むからである。しかしながら、システムに事象を認識させ、検出させることは、多量の処理能力を要する。これについての1つの理由は、検出された、および/または認識される事象を示すために、空間的および時間的両方の、かなりの量の画像データを要することである。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の1つの目的は、減少した量の処理能力および他のコンピューティングリソースを要する事象検出方法を提供することである。
【課題を解決するための手段】
【0004】
本目的は、請求項1に記載の方法を用いて、かつ請求項12に記載のシステムを用いて達成される。本発明のさらなる実施形態は、従属請求項に提示されている。
【0005】
とりわけ、本発明のいくつかの実施形態によれば、モーションビデオカメラによって取り込まれた場面における事象を識別するための方法が、一時的識別プロセスおよび長期的識別プロセスの2つの識別プロセスを備える。一時的識別プロセスは、取り込まれた画像フレームからピクセルデータを分析することによって、取り込まれた場面における事象を識別することと、事象の識別の対象となる各画像フレームに関係するカメラ処理データを登録することと、登録されたカメラ処理データを入力として使用するように構成された事象識別動作に属する重みを調整することとを含み、ここで、重みは、事象識別動作からの結果と、取り込まれた場面の取り込まれた画像フレームからのピクセルの分析に基づいた識別からの結果との相関性を高めるために調整される。長期的識別プロセスは、登録されたカメラ処理データを事象識別動作に入力することによって、取り込まれた場面における事象を識別することを含む。さらに、一時的識別プロセスは、所定の時間期間の間に実行され、長期的識別プロセスは、あらかじめ決められた初期時間が終了した後に実行される。事象識別をカメラ処理データに基づかせる1つの利点は、処理されるデータの量が、画像を表すピクセルデータの場合よりもはるかに低量なので、事象検出のために要する処理能力が減少することである。その上、カメラ処理データは、モーションビデオカメラの周囲状況、およびモーションビデオカメラがどのように設置されているかということ、たとえば、高いところから見下ろしているのか、地上レベルの低さで見上げているのか、人の肩の高さにあるのか、場面における動きの移動方向にあるのか、場面における動きの移動方向に直交するのか、交通監視のためか、人々の動きを追跡するためか、街区にあるのか、駐車場にあるのか、ガレージにあるのか、店舗にあるのか、ショッピングモールにあるのか、道路横にあるのかなどに大いに依存していることがあるので、一時的識別プロセスにおいてそのモーションビデオカメラ用に提供された独自のトレーニングによって、長期的識別プロセスからの結果の品質が著しく高まる。したがって、特定の位置における個別のモーションビデオカメラ用の独自のトレーニングを用いて、減少した量のデータの使用が可能になる。したがって、初期のおよび独自のトレーニングと、次いでトレーニングおよび低データレートのカメラ処理データに基づいた事象識別との2つのステップのプロセスが、事象検出を低い処理能力要件で許容する結果に結びつく。したがって、事象識別は、限定されたコンピューティングリソースしか有さないモニタリングカメラによってもまた使用され得る。
【0006】
さらに、いくつかの実施形態において、一時的識別プロセスは、モーションビデオカメラが初期にセットアップされるときに開始され、これらの実施形態またはいくつかの他の実施形態において、一時的識別プロセスは、要求により開始される。したがって、カメラ処理データを使用した事象検出動作のトレーニングは、そのカメラの環境用に独自にトレーニングされてよく、異なる環境に動かされた場合は、再トレーニングされてよい。一時的識別プロセスの開始を求める要求は、ユーザによってモーションビデオカメラに入力された命令であってよい。
【0007】
さらなる実施形態において、一時的識別プロセスは、ネットワークを介してモーションビデオカメラに接続されたデバイスによって実行される。モーションビデオカメラにおけるこのことの利点は、低いコンピューティング容量または処理容量を有するモーションビデオカメラに対して、高いコンピューティング容量または処理容量のデバイス上で、一時的識別プロセスのトレーニングを実行できることである。
【0008】
いくつかの実施形態において、事象識別動作に属する重みは、一時的識別プロセスの間に、ネットワークを介してモーションビデオカメラに接続されたデバイスに記憶される。これらの実施形態のうちのいくつかにおいて、事象識別動作に属する重みは、ネットワークを介してモーションビデオカメラに転送される。
【0009】
さらなる実施形態において、カメラ処理データを入力として使用する事象識別動作の重みおよびコードは、長期的識別プロセスで、モーションビデオカメラにおいて実行される。このことの利点は、事象識別プロセスが、事象が識別されたときにのみ、モーションビデオカメラにネットワーク負荷を付与させることを可能にすることである。事象が存在しないとき、たとえば、送らなければならないデータが全くないときには、それに応じてネットワーク負荷を減少させることができ、事象が発生したことを識別するために送られるべき限定された量のデータのみを要するので、事象が検出されたときのネットワーク負荷もまた減少させることができる。
【0010】
いくつかの実施形態は、長期的識別プロセスにおいて失敗した事象識別に応答して、一時的識別プロセスを再開することをさらに備える。
【0011】
いくつかの実施形態において、登録されたカメラ処理データを入力として使用するように構成された事象識別動作に属する重みを調整することは、ニューラルネットワークトレーニングセッションの一部である。
【0012】
他の実施形態において、事象識別動作は、ニューラルネットワークによって実施される。
【0013】
本発明の別の態様によれば、通信ネットワークを介して通信するように構成されたモーションビデオカメラと処理デバイスとを含むシステムが、上の実施形態のうちのいずれかによる方法を実施するように構成される。上の実施形態に関して提示された利点は、システムに関係した対応する実施形態に適用可能である。
【0014】
いくつかの実施形態において、処理デバイスは、一時的識別プロセスを実施するように構成される。他の実施形態において、モーションビデオカメラは、長期的識別プロセスを実施するように構成される。さらに他の実施形態において、処理デバイスは、長期的識別プロセスを実施するように構成される。本発明の適用可能性のさらなる範囲は、下で述べる詳細な説明から明らかになるであろう。しかしながら、当業者には、本発明の範囲内でのさまざまな変更および修正がこの詳細な説明から明らかとなるので、詳細な説明および個別の例は、本発明の好ましい実施形態を示すものの、例示のみとして述べられることが理解されるべきである。したがって、そのようなデバイスおよび方法は多様であってよいので、本発明は、説明されるデバイスの特定のコンポーネント部分、または説明される方法のステップには限定されないことを理解されたい。本明細書で使用される専門用語は、特定の実施形態を説明する目的のためのみであり、限定することを意図しないこともまた理解されたい。本明細書および添付の請求項において使用されるとき、冠詞「a」、「an」、「the」、および「said」は、コンテキストが別段明白に指図しない限り、要素のうちの1つまたは複数が存在することを意味するように意図されることに留意しなければならない。よって、たとえば、「a sensor」または「the sensor」への参照は、数個のセンサなどを含むことがある。さらに、単語「comprising(備える)」は、他の要素またはステップを排除しない。
【0015】
本発明の他の特徴および利点は、付属の図面を参照して、以下の現時点で好ましい実施形態の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態のプロセスの流れ図である。
【
図2】本発明の実施形態を実装するシステムの概略ブロック図である。
【発明を実施するための形態】
【0017】
さらに、図において、同様の参照文字は、数個の図面の全体を通して、同様のまたは対応する部分を指す。
【0018】
本発明は、モーションビデオにおける事象の検出に関する。一実施形態によれば、事象の検出および識別は、直接画像データの代わりに、カメラ処理データに基づく。カメラ処理データは、具体例として、カメラによって取り込まれた符号化されたビデオストリームのデータレートを示す値、登録されたカメラ処理データの残りに関係した時間点、オートフォーカス距離を示す値、オートホワイトバランス機能の設定を示す値、オート露出設定、たとえば、絞り、シャッター時間、ゲイン、電子画像安定化データに関係した値、信号対ノイズ比の値、取り込まれたフレームにおけるコントラストを示す値、ネットワークに送られるデータレートを示す値、CPU使用量を示す値、メモリ使用量を示す値、ジャイロまたは加速度計からのデータ、カメラに接続されたパンチルトズームヘッドからの位置データ、レーダセンサからのデータ、受動赤外線センサからのデータ、などであってよい。カメラ処理データは、代替として、または上で言及したものに加えて、上で言及した値のシーケンス、すなわち、露出カーブ、時間期間にわたるデータレートの変動を表すカーブ、オートフォーカスによって示される距離の変動を表すカーブなどから形成されてもよい。加えて、カメラの画像処理において実装される個別の画像符号化方式からの、最終的なおよび/または中間的な値の両方のさまざまな値が、カメラ処理データを表していることがある。上のカメラ処理データの例から明白であるように、全体のフレームを表す画像ピクセルデータの代わりにカメラ処理データを使用するとき、処理するためのデータの量を著しく減少させることができる。
【0019】
カメラ処理データを使用して事象を検出するためのプロセスの設計を促進するために、分類のために設計されたニューラルネットワークが、カメラ処理データを入力として使用して事象を検出するようにトレーニングされる。そのようなニューラルネットワークの例は、分類のために設計されたニューラルネットワーク、分類のために設計された畳み込みニューラルネットワーク、リカレントニューラルネットワーク、リカーシブニューラルネットワーク、ディープビリーフネットワーク、Boltzmannマシン、などである。
【0020】
一般的な分類ニューラルネットワークを、さまざまなカメラにおける、または処理に基づいた、事象検出器として使用するようにトレーニングすることの1つの問題は、データのうちのいくつかがすべてのカメラにおいて入手可能ではないこと、およびデータのうちのいくつかが異なるカメラ間で極めて多様であり得ることである。異なるカメラ間でのばらつきの1つの理由は、カメラが、異なる環境において、異なるビュー角度で、異なる光条件などで設置されていること、および/または、カメラが異なるカメラであることである。
【0021】
本発明の一実施形態によれば、この問題は、2つのステップの事象検出プロセスを実装することによって対処される。初期の一時的識別プロセスの間に、取り込まれたフレームにおけるピクセル情報に基づいて、取り込まれた画像フレームにおける事象を識別するためによく知られた事象識別プロセスが使用され、すなわち、取り込まれた場面において発生する事象を識別するために、画像フレームのシーケンスにおいて取り込まれたピクセルデータが分析される。同時に、この一時的識別プロセスでは、一組のさまざまなカメラ処理データが登録される。登録されたカメラ処理データは、ピクセルデータに基づいて事象を識別するプロセスで識別されたのと同じ識別された事象に達するように、ニューラルネットワークをトレーニングするための入力として使用される。この一時的識別プロセスは、ニューラルネットワークが受け入れ可能な信頼水準に届いたとき、またはオペレータがプロセスに停止するように告げたときに、終了する。一時的識別プロセスが停止したとき、事象識別は、トレーニングされたニューラルネットワークによって続行され、ニューラルネットワークは、長期的識別プロセスにおける入力としてのカメラ処理データを受信している。
【0022】
本発明のいくつかの実施形態によれば、事象識別プロセスは、
図1の流れ図で説明されるように実施される。事象を識別するための方法は、一時的識別プロセス102で開始され、このプロセスでは、ステップ104で、場面の1つの画像フレーム、または取り込まれた画像フレームのシーケンスのピクセルデータ上で動作させることによって、取り込まれた場面における事象が識別される。さらに、ステップ106で、事象を識別するのに使用される取り込まれた1つまたは複数のフレームに対応する時間期間に関係するカメラ処理データが登録される。次いで、ステップ108で、登録されたカメラ処理データが、ニューラルネットワークを基にした事象識別動作のトレーニングにおける入力として使用され、ピクセルを基にした事象識別動作から識別された事象が、登録されたカメラ処理データのこの入力から生じた事象の適正な分類として使用される。トレーニング動作は、ニューラルネットワークのノードにおける重みの調整を含むことができる。カメラ処理データの入力から生じた分類が、ピクセルを基にした事象識別動作によって識別された分類に近くなるように、重みが調整される。次いで、ステップ110で、一時的識別プロセスのための既定の時間期間が終了するかどうかを確認することによって、プロセスは継続する。一時的識別プロセスのための時間期間が終了していない場合、プロセスは、ステップ104に戻り、一時的識別プロセスにおいて継続する。一時的識別プロセスのための時間期間が終了している場合、プロセスは、ステップ114で、次の画像フレームを取り込み、ステップ116で、その画像フレームの取り込みの時間期間に関係するカメラ処理データを登録することによって、長期的識別プロセスにおいて継続する。次いで、ステップ118で、取り込まれた画像フレームの時間期間に関係するカメラ処理データが、ニューラルネットワークを基にした事象識別動作に、入力として送られる。ニューラルネットワークを基にした事象識別動作への入力は、代替として、またはそれに加えて、1つの画像フレームの時間期間よりも長い時間期間に関係するカメラ処理データを含んでもよく、たとえば、より長い時間期間にわたって拡大したカメラ処理データのより多いサンプルを含んでもよい。次いで、ステップ120で、プロセスは、追加のトレーニングを求める要求が受信されているかどうかを確認する。追加のトレーニングを求める要求が受信されていない場合、長期的識別プロセス112は、プロセス114に戻ることによって継続する。追加のトレーニングを求める要求が受信されている場合、プロセスは、一時的識別プロセスのステップ104に戻る。
【0023】
実装されるニューラルネットワークは、具体例として、リカレントニューラルネットワーク(RNN)であってよく、そのようなRNNのために使用される学習アルゴリズムは、バックプロパゲーションまたは共役勾配などの学習アルゴリズムであってよい。カメラ処理データは、時系列として見なされてよく、最初にトレーニングされ、後で事象の分類のために処理される。既存のRNNの実装の多くが、一変量の時系列および/または多変量の時系列を処理することができ、すなわち、RNNは、1つの成分および/または多数の成分を保有するベクトルのシーケンスを処理することができる。たとえば、一変量の時系列の処理は、符号化されたビデオストリームのデータレートを示す値のシーケンスの処理であってよい。多変量の時系列の処理の例はその場合、ベクトルのシーケンスの処理であってよく、ここでは各ベクトルが、符号化されたデータストリームのデータレートを示す値、およびホワイトバランスを示す値を含む。カメラ処理データの任意の組合せが可能であり、組合せは、2つの異なるデータタイプのみを組み合わせることに限定されるべきではなく、複数のデータタイプを非常に首尾よく組み合わせることができる。説明される方法はまた、時系列ではないデータ上で使用されてもよく、そのようなケースでは、方法は、その特定の分類動作のために好適なニューラルネットワークを使用していることがある。
【0024】
次に
図2を参照すると、本発明の実施形態によるシステムが、以下でネットワーク214と呼ぶ通信ネットワーク214を介して互いに接続された、モーションビデオカメラ210と、処理デバイス212とを備える。処理デバイス212は、具体例として、PC、ワークステーション、サーバ、またはデータを処理するように可能にする任意の他のタイプのネットワーク接続可能なデバイスであってよい。ネットワーク214は、任意のタイプのネットワーク、たとえば、イーサネット、Wi−Fi、LAN、WAN、インターネット、セルラー接続、公衆交換電話ネットワークなどであってよい。2つの識別プロセス、一時的識別プロセス102および長期的識別プロセス112は、2つのデバイス、すなわち、モーションビデオカメラ210および処理デバイス212のうちのいずれか1つにおいて実施されるように構成されてよい。モーションビデオカメラが多量の予備処理能力を有するケースでは、モーションビデオカメラが両方のプロセスを実行することができる。この処理能力に関して、モーションビデオカメラがその容量において非常に限定されている実施形態においては、両方のプロセスが処理デバイス212において実行されてもよく、処理デバイス212はその場合、モーションビデオカメラから、動作させるためのデータを受信している。このケースにおいて、本発明のプロセスを使用する利益は、長期的識別プロセスがいかなる画像データも要さないので、事象識別プロセスが一時的識別プロセスをスイッチオフにしたときに、ネットワーク負荷を減少させることができることであり、そのようなデータは、その段階では必ずしもカメラによって送信されない。
【0025】
さらに別のシナリオにおいて、ニューラルネットワークの学習段階および全体の画像フレームの分析を含む一時的識別プロセスは、それに応じて、2つの識別プロセスのうち最も多くの処理を要しているプロセスであり、したがって、処理デバイス212において実行されるように構成される。一方長期的識別プロセスは、はるかに少ない処理しか要さないので、このプロセスはモーションビデオカメラにおいて実行され、その場合、とりわけ長期において、カメラによってネットワークに送信されるデータの量を非常に減少させることができ、なぜなら、事象が検出されない限り、モーションビデオカメラはデータを送ることを回避してよいからである。
【0026】
いずれにせよ、モーションビデオカメラは、レンズ216と、画像センサ218と、画像処理ユニット220とを含み、これらはその組合せにおいて、カメラビューの場面において光を取り込み、その光からデジタル画像データを生成するように構成される。多くのモーションビデオカメラにおいて、取り込まれたデジタル画像データの圧縮および符号化は、画像処理デバイスにおいて実施される。さらに、モーションビデオカメラ210は、モーションカメラデバイスのより一般的な機能に関係したプログラムを実行するように構成された中央処理ユニット222を含む。画像処理は、画像処理デバイスによって処理されるので、中央処理ユニット222は、通常、そのような動作には関わらない。モーションビデオカメラはまた、揮発性メモリ224と、不揮発性メモリ226とを含み、揮発性メモリ224は、主として、処理デバイスによる実行中、データおよび/またはプログラムコードの一時的な記憶のための作業メモリとして使用され、不揮発性メモリ226は、モーションビデオカメラに長期間記憶されることになるデータおよびコードの記憶のために構成される。さらに、モーションビデオカメラ210は、カメラ処理データ登録モジュール228と、事象識別動作モジュール230と、ネットワークインターフェース232とを含む。カメラ処理データ登録モジュール228は、カメラ処理データを、モーションビデオカメラにおけるさまざまな物理的および/または論理的インターフェースから取り出す、または受信するように構成される。たとえば、生成された画像ストリームの現在のデータレートは、画像プロセッサ220から、またはネットワークインターフェース232から取り出すことができ、温度は、カメラにおける温度センサへのインターフェースから受信することができる、などである。事象識別動作モジュール230は、処理デバイス212上で稼働していてよい一時的識別プロセスが、登録されたカメラ処理データを使用するように構成された事象識別動作を調整することを済ませるまで、たとえば、カメラ処理データを入力として使用して動作するニューラルネットワークを調整することを済ませるまでは、モーションビデオカメラ210に存在しなくてもよい。ネットワークインターフェース232は、カメラをネットワーク214に接続するための、任意の知られたタイプのネットワークインターフェースであってよい。
【0027】
処理デバイス212もまた、ネットワークインターフェース234と、不揮発性メモリ236と、揮発性メモリ238と、中央処理ユニット240とを含む。ネットワークインターフェース234は、処理デバイスをネットワークに接続するように構成され、ネットワーク214を通じたモーションビデオカメラ210へのネットワーク通信を達成するために、任意の知られたやり方で実装されてよい。中央処理ユニット240、揮発性メモリ238、および不揮発性メモリ236は、プログラムコードを実行し、一時的なデータおよび/またはプログラムコードを記憶し、長期的なデータおよび/またはプログラムコードを記憶するように構成される。さらに、処理デバイス212は、ピクセルを基にした事象識別動作モジュール242と、事象識別動作トレーニングモジュール244とを含む。ピクセルを基にした事象識別動作モジュール242、および事象識別動作トレーニングモジュール244は、中央処理ユニット240によって、処理デバイス212において記憶され、実行されるプログラムコードとして実装されてよい。
【0028】
ピクセルを基にした事象識別動作は、画像フレームにおけるピクセルおよびピクセルの特性を分析することによって、一度に1つの画像フレーム上で、または一度に画像フレームのシーケンスで動作している、1つまたは複数のよく知られた事象識別動作を含むことができる。画像フレームは、モーションビデオカメラによって取り込まれた画像フレームであり、処理デバイス212で一時的プロセスが実施されるシステムにおいては、これらの取り込まれた画像フレームが、ネットワークを通じて処理デバイス212に送られる。ピクセルを基にした事象識別動作の例は、場面に到来する乗り物、場面に到来する乗り物のタイプ、場面に到来する乗り物のスピード、場面に到来する乗り物の数などである。ピクセルを基にした事象識別動作はまた、もしくはそれに代えて、場面に到来する人、場面に到来する動物、場面に到来する個別のオブジェクトなどに関係してもよく、上の乗り物について提示したバリエーションもまた含むことができる。さらに、ピクセルを基にした事象識別動作は、モーションが場面に発生したこと、徘徊、大群衆の集まり、交通渋滞、降雪、降雨、煙霧、および筐体の汚れ、ピントが外れたレンズ、異常のせいで劣化した画像などを識別することを含むことができる。
【0029】
一時的プロセスが処理デバイスにおいて実施される
図2に図示されたシステムにおいて、カメラは、少なくとも一時的プロセスの実行の間に、取り込まれた場面の画像フレームを含むビデオストリームと、モーションビデオカメラおよび/またはセットアップに関連したカメラ処理データとを送信する。動作させるためにどのタイプのカメラ処理データを選択するかは、さまざまなカメラ処理データの入手可能性により限定され、特定のカメラにおける上の例を参照されたい。さらに、カメラ処理データのタイプがさらに限定されることもある。しかしながら、特定のカメラについてのカメラ処理データを表す全体の入手可能なデータセットは比較的小さい可能性が高いので、全体のセットをしばしば使用することができる。事象識別動作を表すニューラルネットワークのトレーニングは、トレーニング入力をトリガすると、ピクセルを基にした事象識別動作を使用することによって実行される。すなわち、ある事象がピクセルを基にした事象識別動作によって識別されるとき、入力されたカメラ処理データを、ピクセルを基にした事象識別動作によって検出された事象と同じ事象として、より高い可能性でニューラルネットワークに識別させるために、ニューラルネットワークをトレーニングするプロセスは、トレーニングプロセスに対する識別よりも前の時間期間を表すカメラ処理データを入力として構成し、トレーニングプロセスでニューラルネットワークの重みを調整する。
【0030】
システムの追加的なトレーニングは、上で説明したように始めることができ、それに応じて、一時的識別プロセスの再開を含むことができる。加えて、または代替として、事象識別動作が事象を分類し、あらかじめ決められた閾値よりも低い個別の分類について事象識別動作によって生成された信頼値をもたらすことに応答して、カメラ処理データを入力として使用するように構成された事象識別動作のさらなるトレーニング、またはさらなる向上を始めることができる。信頼値が低いほど、分類はより不確実である。そのようなさらなるトレーニングは、ピクセルデータと、低い信頼の分類を得る事象についての時間点を含む時間期間に関係するカメラ処理データとを取り出すことによって開始されることになる。これらのデータセットは次いで、事象識別動作を向上させるために、トレーニング動作によって、すなわち、ピクセルを基にした事象識別動作および事象識別動作の重みを調整するプロセスによって、処理されることになる。次いで、向上した事象識別動作が、それ以前の事象識別動作に取って代わるように構成される。
【0031】
先に言及したように、カメラ処理データに基づいて事象を識別する利点は数多い。そのような利点の理解を促進するために、時間的に圧縮されたビデオの画像ストリームデータレートを本発明におけるカメラ処理データとして使用することを、以下でもう少し詳細に説明することにする。画像ストリームデータレートは、事象検出が所望される場面のモーションビデオを取り込んでいるカメラ210の画像処理デバイス220において、時間的に圧縮するビデオ符号器によって生成されたデータの量を表す基準である。符号器によって生成されたデータの量は、連続して取り込まれた画像フレーム間での変化量に依存する。たとえば、本質的に動いているオブジェクトを有さない場面の画像シーケンスは、多量の動きを有する場面の画像シーケンスよりも、少ない符号化されたデータをもたらすことになる。したがって、符号化ステップ後のデータの量は、連続して取り込まれた画像における変動に激しく依存する。これはまた、符号器によって生成されている符号化された画像データの量が、場面における動きによって影響される画像センサ上のピクセルの数に依存しているものとして説明することができる。具体例として、カメラに近いオブジェクトまたは場面の中の大きなオブジェクトは、カメラから遠いオブジェクトまたは小さなオブジェクトよりも、画像センサ上の多くのピクセルにインパクトを有することになる。それに応じて、データの量は、画像情報の時間的圧縮の効果となる。
【0032】
本発明の実施形態によれば、モニターされる場面のモーションビデオを含む、データストリームにおける単位時間あたりのデータ量を表す複数のデータレートが、測定され、順次登録され、カメラ処理データに含まれる。それにより、経時的にデータレートの変動を表すデータセットが登録される。データレートは、システムのさまざまな場所から、測定する、または取り出すことができる。たとえば、データレートは、カメラ210の画像処理デバイス220における符号器で、カメラのネットワークインターフェース232で、ネットワーク214におけるスイッチもしくはルータで、またはネットワーク214に接続された処理デバイス212におけるネットワークインターフェース234もしくは復号器で、測定する、または取り出すことができる。データレートは、画像ストリームを表すストリーム上で直接測定することができるが、モーションビデオを送信するネットワークパケットのデータレートを測定することによってもまた測定することができる。データストリームの、または任意のデータ送信のデータレートを測定するプロセスは、当業者によく知られている。経時的にデータレートを表すデータセットは、とりわけモーションビデオストリームを表すのに要するデータと比較して、非常に低いデータの量を使用して表すことができる。たとえば、経時的にデータレートの変動を表すデータセットに、画像ストリームにおける各画像を表すのに使用されるデータの量を表す値またはデータエントリを含めることを考えてみたい。カメラが10メガピクセルカメラである場合、イントラフレーム、すなわち空間的に符号化されたイントラフレームのサイズは、標準的な符号器のいずれかを使用して、およそ2.5MBとなる。ロスレス符号化方式を使用して10メガピクセルフレームが符号化されるとしても、10MBよりもはるかに大きいサイズを有することにはならない。0MB〜10MBの間のあらゆるサイズを表す値またはデータエントリを登録するために、必要となるのはほんの3バイトにすぎず、なぜなら3バイトは、1600万を超える値を表すことができることになるからである。データレートの分解能がそれほど重要ではないケースでは、2または1バイトを使用してデータレートを表すことさえ可能であることがある。ともかく、データセットにおいてデータレートを表すのに必要とされるデータは、1つのイントラフレームを表すために使用されるデータよりも、優にほぼ100万倍は少なくてよい。ストリーミングビデオにおいて、インターフレームは時間的に符号化されているので、フレームあたりに使用されるデータは当然より少ないことになる。しかしながら、使用されるデータセットは、あらゆるフレームのサイズを含む必要はなくてもよく、所定の時間期間にわたって蓄積されたデータ量を表すことができる。一実施形態において、フレームサイズは、データレートの表現として登録される。フレームサイズは、フレームを符号化するのに必要とされるデータの量を示す。フレームサイズは、4バイト(32ビット)を使用して登録され、フレームサイズは、フレームごとに登録される。フレームは、1秒あたり30フレームで取り込まれ、それに応じて、事象の検出のために本発明によって使用されるデータは、本実施形態において、0.12Kb/sであってよい。これは、通常のモーションビデオストリームの6000Kb/sのデータレートよりもはるかに低い。
【0033】
それに応じて、本発明によるシステムが長期的識別プロセスに切り替えたとき、事象を検出するために要するデータの量の極端な減少は、ピクセルを基にした事象検出動作に比べて、事象識別動作の処理能力要件に著しく影響を及ぼすことになる。事象識別動作が追加的な情報のタイプを入力として有するように設計されているとしても、上で言及したように、これらの追加のデータセットは、画像フレームまたは画像フレームのシーケンスを表すのに必要とされるデータ量に比べて、依然として非常に少ないことになる。
【符号の説明】
【0034】
102 一時的識別プロセス
112 長期的識別プロセス
210 モーションビデオカメラ
212 処理デバイス
214 通信ネットワーク
216 レンズ
218 画像センサ
220 画像処理ユニット、画像プロセッサ、画像処理デバイス
222 中央処理ユニット
224 揮発性メモリ
226 不揮発性メモリ
228 カメラ処理データ登録モジュール
230 事象識別動作モジュール
232 ネットワークインターフェース
234 ネットワークインターフェース
236 不揮発性メモリ
238 揮発性メモリ
240 中央処理ユニット
242 ピクセルを基にした事象識別動作モジュール
244 事象識別動作トレーニングモジュール