特許第6963467号(P6963467)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス アーベーの特許一覧

<>
  • 特許6963467-ビデオシーケンスにおける動作認識 図000002
  • 特許6963467-ビデオシーケンスにおける動作認識 図000003
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6963467
(24)【登録日】2021年10月19日
(45)【発行日】2021年11月10日
(54)【発明の名称】ビデオシーケンスにおける動作認識
(51)【国際特許分類】
   H04N 21/44 20110101AFI20211028BHJP
   G06T 7/20 20170101ALI20211028BHJP
【FI】
   H04N21/44
   G06T7/20 300Z
【請求項の数】12
【外国語出願】
【全頁数】14
(21)【出願番号】特願2017-212552(P2017-212552)
(22)【出願日】2017年11月2日
(65)【公開番号】特開2018-125841(P2018-125841A)
(43)【公開日】2018年8月9日
【審査請求日】2020年10月8日
(31)【優先権主張番号】16198678.1
(32)【優先日】2016年11月14日
(33)【優先権主張国】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林特許業務法人
(72)【発明者】
【氏名】ダニエルソン, ニクラス
(72)【発明者】
【氏名】モリン, サイモン
【審査官】 長谷川 素直
(56)【参考文献】
【文献】 米国特許第09158974(US,B1)
【文献】 特表2012−524343(JP,A)
【文献】 特開2003−216955(JP,A)
【文献】 特開2014−157452(JP,A)
【文献】 特開2002−032766(JP,A)
【文献】 特開2013−016171(JP,A)
【文献】 特表2009−538558(JP,A)
【文献】 国際公開第2014/147917(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00−21/858
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
カメラ(100)によってキャプチャされたビデオシーケンスにおける動作認識のための方法であって、
前記カメラ(100)の電気回路(102)によって、
前記ビデオシーケンスの画像フレーム内の対象物体を特定すること、
前記対象物体の予め規定された種類の動作の動作候補を検出するために、第1の動作認識アルゴリズムを前記画像フレームに適用すること、ここで、前記画像フレームは前記対象物体を含む単一の画像フレームであり、前記第1の動作認識アルゴリズムは、前記画像フレーム内で前記動作候補を検出するために、前記単一の画像フレームの文脈的及び/又は空間的認識情報を使用する、
前記ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの画像フレームを生成すること、ここで、前記ビデオデータが抽出されるところの前記複数の画像フレームのうちの1以上が、前記対象物体を含む、及び
前記動作候補の存在を検出することによりトリガされて、動作認識を実行するように構成されたサーバ(200)へ前記動作ビデオシーケンスを転送すること、並びに
前記サーバの電気回路(201)によって、
前記動作候補が予め規定された種類の動作であることを確認又は拒否するために、第2の動作認識アルゴリズムを前記動作ビデオシーケンスに適用すること、を含み、前記第2の動作認識アルゴリズムは、前記動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する、方法。
【請求項2】
前記対象物体を含む前記画像フレームが、前記対象物体の少なくとも一部分を含むように、前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記ビデオシーケンスの前記複数の画像フレームをトリミングすることを含む、請求項1に記載の方法。
【請求項3】
前記対象物体を含む前記動作ビデオシーケンスの前記画像フレームが、前記対象物体を少なくとも部分的に取り囲む背景の一部分を含む、請求項2に記載の方法。
【請求項4】
前記動作ビデオシーケンスを転送する動作が、前記対象物体に対する前記動作ビデオシーケンス内の座標を転送することを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記カメラの前記電気回路によって、
前記ビデオシーケンス内の対象物体を検出することを更に含み、
前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記対象物体が検出される前のある時点に関連する前記ビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出することを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記カメラの前記電気回路によって、
前記ビデオシーケンス内の対象物体を検出することを更に含み、
前記動作ビデオシーケンスの前記画像フレームを生成する動作が、前記対象物体が検出された後のある時点に関連する前記ビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出することを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記カメラと前記サーバが、互いから距離を置いて配置された個別の物理的エンティティーであり、デジタルネットワーク(300)を介して互いと通信するように構成されている、請求項1から6のいずれか一項に記載の方法。
【請求項8】
ビデオシーケンスにおける動作認識のためのシステムであって、
前記ビデオシーケンスをキャプチャするように構成されたカメラ(100)と、動作認識を実行するように構成されたサーバ(200)とを備え、
前記カメラが、
前記ビデオシーケンスの画像フレーム内の対象物体を特定するように構成された、物体識別器(124)、
前記対象物体の予め規定された種類の動作の動作候補を検出するために、第1の動作認識アルゴリズムを前記画像フレームに適用するように構成された動作候補認識器(126)であって、前記画像フレームは前記対象物体を含む単一の画像フレームであり、前記第1の動作認識アルゴリズムは、前記画像フレーム内で前記動作候補を検出するために、前記単一の画像フレームの文脈的及び/又は空間的認識情報を使用する、動作候補認識器、
前記ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの画像フレームを生成するように構成された、ビデオ抽出器(127)であって、前記ビデオデータが抽出されるところの前記複数の画像フレームのうちの1以上が、前記対象物体を含む、ビデオ抽出器、及び
前記動作候補の存在を検出することによりトリガされて、前記動作ビデオシーケンスを前記サーバへ転送するように構成された、ネットワークインターフェース(130)を備え、
前記サーバが、
前記動作候補が予め規定された種類の動作であることを確認又は拒否するために、第2の動作認識アルゴリズムを前記動作ビデオシーケンスに適用するように構成された、動作確認器(210)を備え、前記第2の動作認識アルゴリズムは、前記動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する、システム。
【請求項9】
前記対象物体を含む前記ビデオシーケンスの前記画像フレームが、前記対象物体の少なくとも一部分を含むように、前記ビデオ抽出器(127)が、前記ビデオシーケンスの前記複数の画像フレームをトリミングするように更に構成されている、請求項8に記載のシステム。
【請求項10】
前記対象物体を含む前記ビデオシーケンスの前記画像フレームが、前記対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、前記ビデオ抽出器(127)が、前記ビデオシーケンスの前記複数の画像フレームをトリミングするように更に構成されている、請求項8又は9に記載のシステム。
【請求項11】
前記物体識別器(124)が、前記ビデオシーケンス内の対象物体を検出するように更に構成され、前記ビデオ抽出器(127)が、前記対象物体が検出される前のある時点に関連する前記ビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出するように更に構成されている、請求項8から10のいずれか一項に記載のシステム。
【請求項12】
前記物体識別器(124)が、前記ビデオシーケンス内の対象物体を検出するように更に構成され、前記ビデオ抽出器(127)が、前記対象物体が検出された後のある時点に関連する前記ビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出するように更に構成されている、請求項8から11のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオシーケンスにおける動作認識に関する。
【背景技術】
【0002】
ビデオシーケンスにおける動作認識は、ビデオシーケンス内の特定の予め規定された動作を検出する作業である。検出されるべき動作の例は、例えば、闘っている、走っている、食べている、スポーツの試合を行っている人々であり得る。通常、動作認識は、ビデオシーケンスをキャプチャしたデジタルビデオカメラで実行することが不適切な、過剰な処理パワーを必要とする。代わりに、動作認識は、通常、必要とされる処理パワーを有するサーバによって実行される。しかし、デジタルネットワークを介して大量のビデオを送信することは、大きなバンド幅を必要とする。
【0003】
したがって、ビデオシーケンスにおける改良された動作認識が必要である。
【発明の概要】
【0004】
上記に照らしてみると、本発明の目的は、ビデオシーケンスにおける改良された動作認識を提供することである。
【0005】
第1の態様によれば、カメラによってキャプチャされたビデオシーケンスにおける動作認識のための方法が提供される。該方法は、カメラの電気回路によって、ビデオシーケンスの物体画像フレーム内の対象物体を特定すること、第1の動作認識アルゴリズムを物体画像フレームに適用し、それによって、動作候補の存在を検出すること、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成することであって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの1以上が、対象物体を含む、生成すること、及び、動作認識を実行するように構成されたサーバに動作ビデオシーケンスを転送すること、並びに、サーバの電気回路によって、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否することを含む。
【0006】
動作認識における本アプローチは、有益である。何故ならば、それは、カメラとサーバとの間の通信において大き過ぎるバンド幅を使用するという問題なしに、動作認識のために必要とされる処理パワーが、2つの異なるデバイスにわたり分散されることを可能にするからである。更に、動作認識における本アプローチは、カメラのプロセッサに過剰にローディングすることなしに、同時に、全体のビデオシーケンスを常にサーバにストリームする必要なしに、プロセッサ集中(intense)動作認識を実行することを可能にする。したがって、本アプローチは、より少ない処理を要求する第1の種類の動作認識アルゴリズムを局所的にカメラで使用し、より多い処理を要求する第2の種類の動作認識アルゴリズムをサーバで使用することを可能にする。常にビデオをストリームするよりもむしろ、動作ビデオシーケンスを抽出し動作ビデオシーケンスのみを送信することによって、バンド幅が節約され得る。動作認識における本アプローチによれば、候補動作がカメラで検出され得る。候補動作が、動作ビデオシーケンスのサーバへの転送をトリガし、サーバで、より進化した動作認識解析が実行される。したがって、カメラでの動作認識の目的は、動作候補の検出をトリガすることである。動作候補の検出が、更なる解析のために、動作ビデオシーケンスのサーバへの転送をトリガし、動作候補が実際の動作であることを確認又は拒否する。
【0007】
第1の動作認識アルゴリズムは、主として、物体画像フレーム内の文脈的及び/又は空間的情報を使用する文脈的及び/又は空間的動作認識に基づき得る。文脈的及び/又は空間的動作認識アルゴリズムは、通常、過剰な処理パワーを要求しない。したがって、その種のアルゴリズムを使用する動作認識は、より容易にカメラで局所的に行うことが可能である。
【0008】
第2の動作認識アルゴリズムは、主として、動作ビデオシーケンスの複数の画像フレームの時間的情報を使用する時間的動作認識アルゴリズムに基づき得る。時間的動作認識アルゴリズムは、通常、動作を認識することにおいてより正確である。したがって、より正確な動作認識が実行され得る。
【0009】
対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、動作画像フレームを生成する動作は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。これは、カメラとサーバとの間のバンド幅を節約し得る。
【0010】
対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、動作画像フレームを生成する動作は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。対象物体を少なくとも部分的に取り囲む背景を組み込むことによって、動作ビデオシーケンスの時間的だけではなく文脈的及び/又は空間的解析も実行され得る。
【0011】
動作ビデオシーケンスを転送する動作は、対象物体に対する動作ビデオシーケンス内の座標を転送することを含み得る。座標は、どの1以上の画像フレームが対象物体を含むか、及び/又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。
【0012】
該方法は、カメラの電気回路によって、ビデオシーケンス内の対象物体を検出することを更に含み得る。動作画像フレームを生成する動作は、対象物体が検出される前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。動作画像フレームを生成する動作は、対象物体が検出された後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。これは、動作がサーバにおいて認識されるための正しい時間的ウインドウが、サーバに送信されるチャンスを改良することができる。
【0013】
カメラとサーバは、互いから距離を置いて配置された個別の物理的エンティティーであり得る。カメラとサーバは、デジタルネットワークを介して互いに通信するように構成され得る。
【0014】
第2の態様によれば、ビデオシーケンスにおける動作認識のためのシステムが提供される。該システムは、ビデオシーケンスをキャプチャするように構成されたカメラと、動作認識を実行するように構成されたサーバとを備える。カメラは、ビデオシーケンスの物体画像フレーム内の対象物体を特定するように構成された物体識別器、第1の動作認識アルゴリズムを物体画像フレームに適用し、それによって、動作候補の存在を検出するように構成された、動作候補認識器、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成するように構成された、ビデオ抽出器であって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの1以上が、対象物体を含む、ビデオ抽出器、及び、動作ビデオシーケンスをサーバへ転送するように構成されたネットワークインターフェースを備える。サーバは、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否するように構成された、動作確認器を備える。
【0015】
対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、ビデオ抽出器は、ビデオシーケンスの複数の画像フレームをトリミングするように更に構成され得る。
【0016】
対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、ビデオ抽出器は、ビデオシーケンスの複数の画像フレームをトリミングするように更に構成され得る。
【0017】
物体識別器は、ビデオシーケンス内の対象物体を検出するように更に構成され得る。ビデオ抽出器は、対象物体が検出される前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。ビデオ抽出器は、対象物体が検出された後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。
【0018】
上述した方法の特徴は、可能な場合にはこの第2の態様にも適用される。無用な繰り返しを避けるため、上述を参照すべし。
【0019】
本発明の適用性の更なる範囲は、以下の詳細な説明から明らかになるであろう。しかし、この詳細な説明によって本発明の範囲内の様々な変更及び修正が当業者に明らかとなるため、詳細な説明及び具体例は、本発明の好適な実施形態を示しながらも単なる例として提示されることを理解されたい。
【0020】
したがって、記載のデバイス及び記載の方法は異なる場合があるため、この発明は、記載のデバイスの特定の構成要素部品又は記載の方法の工程に限定されないことを理解されたい。また、本明細書で使用される用語は、特定の実施形態だけを説明することを目的としており、限定的であることを意図していないということも理解されるべきである。明細書及び添付の特許請求の範囲で使用されるように、冠詞「1つの(「a」、「an」)」、及び「前記(「the」、「said」)」は、文脈が明らかにそうでないことを示さない限り、要素のうちの一又は複数が存在することを意味すると意図している点に留意しなければならない。従って、例えば、「部」(a unit)又は「当該部」(the unit)に言及した場合、これは幾つかのデバイスなどを含んでもよい。更に、用語「含む(「comprising」、「including」、「containing」)及び類似の表現は、他の要素又はステップを除外しない。
【0021】
本発明の上記の態様及びその他の態様を、本発明の実施形態を示す添付の図面を参照しながら更に詳細に説明する。図面は発明を具体的な実施形態へと限定するものでなく、本発明の説明及び理解のためのものである。
【0022】
図面に示すように、レイヤーと領域のサイズは図示目的のために誇張され、本発明の実施形態の一般構造を示すために提供されている。類似の参照番号は、全体を通して類似の要素を指す。
【図面の簡単な説明】
【0023】
図1】ビデオシーケンスにおける動作認識のためのシステムを示す。
図2】ビデオシーケンスにおける動作認識のための方法のブロックスキームである。
【発明を実施するための形態】
【0024】
これより、本発明の現時点で好ましい実施形態を示す添付図面を参照して、本発明を以下により詳細に説明する。しかしながら本発明は多くの異なる形態で実施されることができ、本明細書で説明される実施形態に限定されるものと解釈されるべきではなく、これらの実施形態はむしろ、本開示が包括的で完全となるように提供されており、当業者に本発明の範囲を十分に伝えるためのものである。
【0025】
図1は、ビデオシーケンスにおける動作認識のためのシステムを示している。該システムは、デジタルネットワークカメラ100とサーバ200を備える。デジタルネットワークカメラ100は、デジタルネットワーク300を介してサーバ200に接続されている。デジタルネットワークカメラ100とサーバ200は、互いから距離を置いて配置された個別の物理的エンティティーであり、デジタルネットワーク300を介して互いと通信するように構成されている。
【0026】
デジタルネットワーク300は、デジタルネットワーク300に接続されたデバイス、例えば、デジタルネットワークカメラ100とサーバ200が、デジタルデータを交換することを可能にするネットワークに関する。デジタルネットワーク300に接続されたデバイス間の接続は、ケーブル又は無線の何れかを使用して確立される。デジタルネットワークの非限定的な例は、インターネット、イントラネット、ローカルエリアネットワーク、及びセルラーネットワークである。デジタルネットワークの部分は、プライベートデジタルネットワークであってもよい。デジタルネットワークの部分は、パブリックデジタルネットワークであってもよい。プライベートデジタルネットワークは、(図示せぬ)ネットワークアクセス制限デバイスによって、パブリックデジタルネットワークに接続され得る。ネットワークアクセス制限デバイスは、プライベートデジタルネットワークを保護するためにインストールされたファイアウォールであってもよい。ネットワークアクセス制限デバイスは、ネットワークアドレス変換、NAT、を実行するデバイスであってもよい。
【0027】
デジタルネットワークカメラ100は、情景を描くビデオシーケンスをキャプチャするように配置されている。デジタルネットワークカメラ100は、ハウジング112、レンズ114、及び電気回路102を備える。デジタルネットワークカメラ100は、ビデオシーケンスをキャプチャし処理する(そして、恐らく記憶もする)ように構成されている。電気回路102は、画像センサ116、画像処理ユニット118、物体識別器124、動作候補認識器126、ビデオ抽出器127、及びネットワークインターフェース130を備える。電気回路102は、中央処理装置(CPU)120、デジタルデータ記憶媒体(メモリ)122、及びエンコーディングユニット128のうちの1以上を更に備え得る。画像処理ユニット118、物体識別器124、動作候補認識器126、ビデオ抽出器127、及び/又はエンコーディングユニット128のうちの何れか1つは、専用ハードウェア電気回路及び/又はソフトウェアモジュールとして実装され得る。ソフトウェアが実装される場合には、そのソフトウェアがCPU120で実行され得る。CPU120は、デジタルデータ処理を実行するための任意の適切なCPUであり得る。任意の専用ハードウェア電気回路が、専用プロセッサ又はCPU120で実行されるソフトウェア部分を部分的に備え得ることも留意されたい。
【0028】
メモリ122は、任意の種類の揮発性又は不揮発性メモリであり得る。更に、メモリ122は、複数のメモリユニットを備え得る。複数のメモリユニットのうちの少なくとも1つは、例えば、ビデオシーケンスのコンテンツを処理する間にデータをバッファリングするためのバッファメモリとして使用され得る。
【0029】
デジタルネットワークカメラ100は、ネットワークインターフェース130を介してデジタルネットワーク300と接続されるように配置されている。デジタルネットワークとの接続は、有線又は無線であり得る。したがって、ネットワークインターフェース130は、モジュラーコネクタ、例えば、RJ45コネクタを受け入れるように構成された、イーサネットポート、モジュラーポートなどの、10/100/1000Mbpsデータトラフィックに適合されたネットワークポートであり得る。通常は、(例えば、cat5、cat5e、又はcat6の)ツイストペアケーブルなどの、ネットワークケーブルを受け入れるように、そのようなRJ45コネクタポートが配置されている。代替的に、ネットワークポートのI/O手段は、モバイルインターネット通信標準(例えば、1G、2G、2.5G、2.75G、3G、3.5G、3.75G、3.9G、4G,5G)を使用する又はWiFiを使用する、無線I/O手段であり得る。
【0030】
カメラの構成要素、すなわち、レンズ114と画像センサ116は、生画像をキャプチャするように配置され得る。各生画像は、異なる波長の光として表され得る。それらの光は異なる物体及び物体の部分から発している。これらの生画像は、その後、アナログからデジタルフォーマットへ変換され、画像処理ユニット118へ転送される。本実施形態によれば、デジタルネットワークカメラ100は、写真画像をキャプチャするように構成されたカメラである。代替的に、又は組み合わされて、デジタルネットワークカメラ100の画像センサ116は、熱画像をキャプチャするように構成され得る。更に代替的に、又は組み合わされて、デジタルネットワークカメラ100の画像センサ116は、レーダー画像をキャプチャするように構成され得る。したがって、デジタルネットワークカメラ100によってキャプチャされたビデオシーケンスは、写真画像の表示、熱画像の表示、レーダー画像の表示、又はそれらの組み合わせであり得る。
【0031】
物体識別器124は、カメラ100によってキャプチャされたビデオシーケンス内の対象物体を検出するように構成されている。対象物体は、例えば、人間、顔、輸送体、コンベヤベルト上の製品、動物、地形構成要素、武器などであり得る。物体識別器124は、検出された対象物体を分類するように更に構成され得る。対象物体は、例えば、特定の種類の物体に属するように分類され得る。特定の種類の物体の例は、特定の種類の、人間、顔、輸送体、製品である。物体識別器124は、対象物体が最初に検出されたところの、ビデオシーケンス内のある時点を特定するように更に構成され得る。これに関連して、メモリ122は、所定の数の画像フレームを記憶するように構成された、画像フレームバッファとして更に使用され得る。したがって、対象物体が最初に検出されたところの、ビデオシーケンス内のある時点に先立つ画像フレームを表す画像フレームは、画像フレームバッファとして働くメモリ122内に記憶され得る。
【0032】
物体識別器124は、ビデオシーケンスの1以上の画像フレーム内の対象物体を特定するように更に構成されている。対象物体が特定された画像フレームは、本明細書において物体画像フレームと称されることになる。
【0033】
ビデオシーケンスにおける動作認識は、ビデオシーケンス内の1以上の予め規定された種類の動作を検出する作業である。予め規定された種類の動作の例は、闘っている、走っている、食べている、特定の試合を行っている人間などである。予め規定された種類の動作の他の例は、酒気帯び運転の検出、ジャンプの検出、怒りの検出、笑いの検出、手信号の検出、落下の検出、徘徊の検出、歩き方の検出、威嚇行為の検出、疑わしい挙動の検出(例えば、異常な又は普通でない挙動の検出)である。
【0034】
動作認識は、静止画像の文脈的及び/若しくは空間的解析又は時間的解析(又は2つの組み合わせ)によって実行され得る。文脈的及び/又は空間的動作認識アルゴリズムは、静止画像、例えば、ビデオシーケンスの単一の画像フレームで実行される。時間的動作認識アルゴリズムは、ビデオシーケンスの複数の画像フレームで実行される。
【0035】
文脈的動作認識アルゴリズムの一実施例は、Georgia Gkioxari, Ross Girshick and Jitendra Malikによって「Contextual Action Recognition with R*CNN」; arXiv: 1505.01197内で開示されている。文脈的及び/又は空間的動作認識アルゴリズムと時間的動作認識アルゴリズムの両方の動作認識アルゴリズムの更なる実施例は、例えば、CN102855462、CN103106394内で、及び、Karen Simonyan and Andrew Zissermanによって「Two-Stream Convolutional Networks for Action Recognition in Videos」; arXiv: 1406.2199内で説明されている。
【0036】
したがって、動作認識は、2つの主たるアプローチ、すなわち、静止画像の文脈的及び/又は空間的解析と時間的解析とを有する。最も有望なアプローチが、基本的な動作認識アルゴリズムとして時間的解析を使用する一方で、静止画像のアプローチは、ある場合にはかなり良く働く。しかし、時間的動作認識は、難しく、例えば、リカレントニューラルネットワークを使用する、非常に処理が集中するアルゴリズムを含む。これは、そのような時間的動作認識アルゴリズムが、デジタルネットワークカメラ100などの組み込みデバイスで実行されるのを不適当なものとする。
【0037】
本発明は、しばしば、穏当に処理が集中する文脈的及び/又は空間的動作認識アルゴリズムと、処理が集中する時間的動作認識アルゴリズムとの間の、相乗効果を使用することを対象としている。第1の動作認識アルゴリズムは、動作候補を見つけるためにデジタルネットワークカメラ100で実行され、第2の動作認識アルゴリズムは、動作候補が実際の動作であることを確認又は拒否するためにサーバ200で実行される。第2の動作認識アルゴリズムは、第1の動作認識アルゴリズムよりも多い処理を要求する。第1の動作認識アルゴリズムは、主として、文脈的及び/又は空間的動作認識に基づいている。非限定的な例として、第1の動作認識アルゴリズムは、文脈的及び/又は空間的動作認識アルゴリズムのみに基づき得る。第2の動作認識アルゴリズムは、主として、時間的動作認識に基づいている。しかし、第2の動作認識アルゴリズムは、文脈的及び/又は空間的動作認識の要素を含み得る。
【0038】
動作候補認識器126は、第1の動作認識アルゴリズムを、物体識別器124によって特定された物体画像フレームのうちの少なくとも1つへ適用するように構成されている。第1の動作認識アルゴリズムを適用することによって、動作候補の存在が検出される。動作候補認識器126によって実行される第1の動作認識アルゴリズム解析は、動作の種類を検出する必要はない。それは、無印の(generic)動作候補を検出することを必要とするだけである。しかし、第1の動作認識アルゴリズムは、異なる種類の動作についてフィルタリングするように構成されてもよい。したがって、第1の動作認識アルゴリズムを適用することによって、所定の種類の動作の動作候補の存在が検出され得る。
【0039】
第1の動作認識アルゴリズムを適用することによって、動作候補認識器126は、動作を示すように見える普通ではない姿勢を検出するように構成され得る。したがって、動作に対する動作候補を見つけることができる。更に、動作候補認識器126は、予め規定された種類の動作に対する動作候補を見つけるために、検出された姿勢をフィルタリングするように構成され得る。第1の動作認識アルゴリズムは、比較的軽いアルゴリズムである。ある程度まで誤検出が許容される。動作候補の検出は、第2の動作認識アルゴリズムを使用する、より進化した動作認識解析を動機付ける。したがって、動作候補認識器126は、動作の可能性があるものについてトリガし、又は動作候補を本明細書で言及されているようにトリガするように構成される。
【0040】
動作候補を検出することは、動作候補を含むビデオシーケンスの一部分である動作ビデオシーケンスをサーバ200へ送信することをトリガする。それは、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用することによって、動作候補が実際の動作であるか否かを判定するためである。
【0041】
ビデオ抽出器127は、動作ビデオシーケンスの動作画像フレームを生成するように構成されている。動作ビデオシーケンスは、動作候補を含むビデオシーケンスの一部分である。動作ビデオシーケンスは、ビデオシーケンスと同じフレーム速度を有し得る。動作ビデオシーケンスは、ビデオシーケンスのフレーム速度よりも小さいフレーム速度を有してもよい。すなわち、動作ビデオシーケンスは、ビデオシーケンスよりも低い秒当たりのフレーム数、fps、を有するフレーム速度を有する。例えば、ビデオシーケンスのフレーム速度は60fpsであり、動作ビデオシーケンスのフレーム速度は30fpsであり得る。
【0042】
本明細書で動作画像フレームと呼ばれる、動作ビデオシーケンスの画像フレームは、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって生成される。そこからビデオデータが抽出されるところの、複数の画像フレームのうちの1以上が、対象物体を含むように、ビデオ抽出器127は構成されている。したがって、複数の動作画像フレームのうちの少なくとも1以上は、(1以上の)物体画像フレームである。
【0043】
ビデオ抽出器127は、対象物体が検出されたビデオシーケンス内の特定されたある時点よりも前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。したがって、ビデオシーケンスの画像フレームは、動作ビデオシーケンスにおける後の使用のためにメモリ122内へキャッシュされ得る。これは、第1の動作認識アルゴリズムの実行をトリガする対象物体を含む物体画像フレームと、動作ビデオシーケンス内に含まれる物体画像フレームに先立つ(1以上の)画像フレームと、の両方を含むことを可能にする。これは、動作ビデオシーケンスの時間的ウインドウが、対象物体によって実行される動作に関する全ての関連情報を含むチャンスを向上させる。非限定的な実施例として、画像フレームの第1の所定の数が、対象物体の種類又は動作候補の動作の種類のうちの1以上に応じて設定され得る。更に、更なる非限定的な実施例として、物体及び潜在的にその周囲の運動解析が使用されて、動作候補が開始したところの、より早い画像フレームを明らかにし得る。これによって、相対的に大きいプリバッファから、第2の動作認識に対して実際に関連するような画像フレームのみを抽出することを可能にする。したがって、画像フレームの第1の所定の数は、動的に設定され得る。
【0044】
ビデオ抽出器127は、対象物体が検出されたビデオシーケンス内の特定されたある時点よりも後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出するように更に構成され得る。これは、第1の動作認識アルゴリズムの実行をトリガする対象物体を含む物体画像フレームと、動作ビデオシーケンス内に含まれる物体画像フレームに続く(1以上の)画像フレームと、の両方を含むことを可能にする。これは、動作ビデオシーケンスの時間的ウインドウが、対象物体によって実行される動作に関する全ての関連情報を含むチャンスを向上させる。画像フレームの第2の所定の数が、対象物体の種類又は動作候補の動作の種類のうちの1以上に応じて設定され得る。更に、更なる非限定的な実施例として、物体及び潜在的にその周囲の運動解析が使用されて、動作候補が終了したところの、画像フレームを明らかにし得る。これによって、第2の動作認識に対して実際に関連するような画像フレームのみを抽出することを可能にする。したがって、画像フレームの第2の所定の数は、動的に設定され得る。
【0045】
ビデオ抽出器127は、対象物体に対する動作ビデオシーケンス内の座標に関する情報を抽出するように更に構成され得る。座標は、どの1以上の画像フレームが対象物体を含むか、及び/又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。これらの座標は、動作ビデオシーケンスと共にサーバへ転送され得る。
【0046】
ビデオ抽出器127は、動作画像フレームを生成するときに、複数の画像フレームのビデオデータをトリミングするように更に構成され得る。対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、複数の画像フレームのビデオデータはトリミングされ得る。更に、対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、複数の画像フレームのビデオデータはトリミングされ得る。対象物体を少なくとも部分的に取り囲む背景を組み込むことによって、動作ビデオシーケンスの時間的だけではなく文脈的及び/又は空間的解析も実行され得る。
【0047】
エンコーディングユニット128は、ビデオエンコーディングを使用してビデオシーケンスのデジタルビデオデータをエンコードするように構成されている。ビデオエンコーディングの非限定的な実施例は、ISO/MPEG又はITU‐H.26X群のビデオエンコーディング標準である。エンコーディングユニット128は、これ以降、エンコードされたデジタルビデオデータと称される、デジタルビデオデータの画像をエンコードするように構成されている。エンコードされたデジタルビデオデータは、ネットワークインターフェース130を介して、デジタルネットワーク300を通して直接的に転送され得る。代替的に、エンコードされたデジタルビデオデータは、ネットワークインターフェース130を介した、デジタルネットワーク300を通る、後の送信のためにメモリ122内に記憶され得る。エンコーディングユニット128は、動作ビデオシーケンスがサーバ200へ転送される前に、動作ビデオシーケンスをエンコードするように構成され得る。
【0048】
ネットワークインターフェース130は、動作ビデオシーケンスをサーバ200へ転送するように構成されている。
【0049】
サーバ200は、動作確認器210を備えた電気回路201を備える。電気回路201は、ネットワークインターフェース202、デコーディングユニット204、中央処理装置(CPU)206、及びデジタルデータ記憶媒体(メモリ)208のうちの1以上を更に備え得る。デコーディングユニット204及び/又は動作確認器210のうちの何れか1つは、専用ハードウェア電気回路及び/又はソフトウェアモジュールとして実装され得る。ソフトウェアが実装される場合には、そのソフトウェアがCPU206で実行され得る。CPU206は、デジタルデータ処理を実行するための任意の適切なCPUであり得る。任意の専用ハードウェア電気回路が、専用プロセッサ又はCPU206で実行されるソフトウェア部分を部分的に備え得ることも留意されたい。
【0050】
サーバ200は、ネットワークインターフェース202を介してデジタルネットワーク300と接続されるように配置されている。デジタルネットワークとの接続は、有線又は無線であり得る。したがって、ネットワークインターフェース202は、モジュラーコネクタ、例えば、RJ45コネクタを受け入れるように構成された、イーサネットポート、モジュラーポートなどの、10/100/1000Mbpsデータトラフィックに適合されたネットワークポートであり得る。通常は、(例えば、cat5、cat5e、又はcat6の)ツイストペアケーブルなどの、ネットワークケーブルを受け入れるように、そのようなRJ45コネクタポートが配置される。代替的に、ネットワークポートのI/O手段は、モバイルインターネット通信標準(例えば、1G、2G、2.5G、2.75G、3G、3.5G、3.75G、3.9G、4G,5G)又はWiFiを使用する、無線I/O手段であり得る。
【0051】
動作ビデオシーケンスがエンコードされている場合には、デコーディングユニット204が、エンコードされたビデオシーケンスをデコードするように構成される。したがって、デコーディングユニット204は、ビデオデコーディングを使用してビデオシーケンスのデジタルビデオデータをデコードするように構成されている。
【0052】
メモリ122は、任意の種類の揮発性又は不揮発性メモリであり得る。更に、メモリ122は、複数のメモリユニットを備え得る。複数のメモリユニットのうちの少なくとも1つは、例えば、動作ビデオシーケンスを処理する間にデータをバッファリングするためのバッファメモリとして使用され得る。メモリ122は、動作ビデオシーケンスの全部又は一部を更に記憶し得る。
【0053】
動作確認器210は、第2の動作認識アルゴリズムを動作ビデオシーケンスへ適用するように構成されている。それによって、動作候補が実際の動作であることが確認又は拒否され得る。特に、動作候補が予め規定された種類の動作であることが確認又は拒否され得る。動作確認器210によって実行される動作認識は、必ずしもリアルタイムで実行される必要はない。動作は、常に進行中であるよりもむしろ短い時間のイベントなので、重要なことは、特定の種類の動作に対する警報が挙げられるべきか否かを判断することである。
【0054】
図2を参照すると、カメラ100によってキャプチャされたビデオシーケンスにおける動作認識のための方法が示されている。該方法は、カメラ(100)の電気回路102によって、
ビデオシーケンスの物体画像フレーム内の対象物体を特定すること(S501)、
第1の動作認識アルゴリズムを物体画像フレームに適用し(S502)、それによって、動作候補の存在を検出すること、
ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって、動作ビデオシーケンスの動作画像フレームを生成すること(S504)であって、そこからビデオデータが抽出されるところの複数の画像フレームのうちの1以上が、対象物体を含む、生成すること、及び
動作ビデオシーケンスをサーバ200へ転送すること(S506)を含む。
【0055】
該方法は、サーバ200の電気回路201によって、第2の動作認識アルゴリズムを動作ビデオシーケンスに適用し(S508)、それによって、動作候補が予め規定された種類の動作であることを確認又は拒否することを更に含む。
【0056】
対象物体を含む動作画像フレームが、対象物体の少なくとも一部分を含むように、動作画像フレームを生成する動作(S504)は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。
【0057】
対象物体を含む動作画像フレームが、対象物体を少なくとも部分的に取り囲む背景の一部分を含むように、動作画像フレームを生成する動作(S504)は、ビデオシーケンスの複数の画像フレームをトリミングすることを含み得る。
【0058】
動作ビデオシーケンスを転送する動作(506)は、対象物体に対する動作ビデオシーケンス内の座標を転送することを含み得る。座標は、どの1以上の画像フレームが対象物体を含むか、及び/又は、それぞれの画像フレーム内で対象物体がどこに配置されているかを指し示し得る。
【0059】
該方法は、カメラ100の電気回路102によって、ビデオシーケンス内の対象物体を検出すること(S500)を更に含み得る。動作画像フレームを生成する動作(S504)は、対象物体が検出される前のある時点に関連するビデオシーケンスの第1の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。動作画像フレームを生成する動作(S504)は、対象物体が検出された後のある時点に関連するビデオシーケンスの第2の所定の数の画像フレームに関するビデオデータを抽出することを含み得る。
【0060】
当業者は、本発明が如何なる意味においても、上述した好ましい実施形態に限定されないことを理解するであろう。むしろ、添付の特許請求項の範囲内で多くの修正例及び変形例が可能である。
【0061】
例えば、動作候補が実際の動作であることを確認した後で、サーバ200は、警報トリガを送信するように構成され得る。警報トリガは、デジタルネットワークカメラ100内での更なる処理のために、デジタルネットワークカメラ100へ送信され得る。例えば、デジタルネットワークカメラ100は、警報トリガを受信した後で、カメラの設定を変更するように構成され得る。変更され得るカメラの設定の非限定的な例は、フレーム速度、解像度、光感受性、HDRへのスイッチ、標準メッセージを用いてカメラに接続されたスピーカーをトリガする、対象物体のPTZ追跡を開始する、検出された物体が幾つかのカメラで追跡され得るように検出された物体のための進化した外観モデルの生成をトリガする、レーダー追跡を開始する、熱モードへのスイッチ、更なる動作認識のための閾値を変更する、又は関連した種類のフォローアップ動作をチェックする(例えば、人が倒れたならば、「再度立ち上がる」動作の検索を開始する、及び、彼が特定期間の閾値内に立ち上がらなければ警報をトリガする)ことである。
【0062】
代替的に、又は組み合わされて、警報トリガが、ビデオ管理センター(VMS)へ送信され得る。警報トリガは、予め規定された種類の動作が生じたという通知を送信するためにVMSで使用され得る。
【0063】
更に、サーバ200は、様々な種類のデバイス内に実装され得る。サーバ200として実装されているデバイスの非限定的な例は、専用コンピュータ、別のカメラデバイス、ビデオ管理システム、クラウドサーバ、カメラの近くのアナリティクスボックス(analytics box)、アクセス制御ユニット、計算能力を有するIoTデバイスである。更に、サーバの機能が、種々のデバイスへ分散され得る。複数のプロセッサで実行されるソフトウェアコード部分として少なくとも部分的に実装された動作確認器210の場合では、特に、そうである。
【0064】
更に、対象物体は、ビデオシーケンスの複数の物体画像フレーム内で特定され得る。第1の動作認識アルゴリズムは、その後、複数の物体画像フレームの各々に個別に適用され得る。第1の動作認識アルゴリズムの個別の適用の結果は、その後、動作候補を見つけるために使用され得る。例えば、複数の画像の個別の解析は、ある人の脚が常に異なる角度にあることを明らかにし得る。これは、その人が歩いており又は走っていることさえ示す。動作ビデオシーケンスの動作画像フレームは、その後、ビデオシーケンスから複数の画像フレームに関するビデオデータを抽出することによって生成される。そこからビデオデータが抽出されるところの、複数の画像フレームのうちの1以上は、対象物体を含む。
【0065】
加えて、当業者は、特許請求される本発明を実施する際に、図面、開示内容、及び添付の特許請求項を精査することにより、開示された実施形態の変形例を理解し実行することが可能である。
図1
図2