特開2022-27439 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・シー・アール・コーポレイションの特許一覧

特開2022-27439アクティビティ署名を利用する画像／ビデオの解析方法及びその解析システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
1F
1G
1H
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022027439

(43)【公開日】2022-02-10

(54)【発明の名称】アクティビティ署名を利用する画像／ビデオの解析方法及びその解析システム

(51)【国際特許分類】

G06T 7/20 20170101AFI20220203BHJP

G06T 7/00 20170101ALI20220203BHJP

【ＦＩ】

G06T7/20

G06T7/00

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021060214

(22)【出願日】2021-03-31

(31)【優先権主張番号】16/943,140

(32)【優先日】2020-07-30

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】391007161

【氏名又は名称】エヌ・シー・アール・コーポレイション

【氏名又は名称原語表記】ＮＣＲＣＯＲＰＯＲＡＴＩＯＮ

(74)【代理人】

【識別番号】100098589

【弁理士】

【氏名又は名称】西山善章

(74)【代理人】

【識別番号】100098062

【弁理士】

【氏名又は名称】梅田明彦

(74)【代理人】

【識別番号】100147599

【弁理士】

【氏名又は名称】丹羽匡孝

(72)【発明者】

【氏名】ジョシュアミグダル

(72)【発明者】

【氏名】ヴィクラムスリニヴァサン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA01

5L096CA02

5L096FA32

5L096FA33

5L096HA02

(57)【要約】（修正有）

【課題】機械学習及び深層学習をビデオ分類タスクに適用した種々のクティビティ署名を用いた画像／ビデオの解析方法及びそのシステムを提供する。
【解決手段】ビデオからのビデオフレームは、単一の画像または単一のデータ構造に圧縮され、単一のデータ構造は、ビデオフレームからモデル化されている所与のアクティビティに対する一意の視覚的なフロープリントまたは視覚的な署名を表現する。フロープリントは、単一の画像内のビデオフレームに関連付けられた元のピクセル値の算出された要約を含み、フロープリントは、所与のアクティビティに関連付けられたビデオフレーム内で行われる移動に固有のものである。フロープリントは、機械学習アルゴリズムへの入力として提供されることにより、フロープリントから物体の追跡および監視を遂行することを可能にし、デバイスのプロセッサ負荷およびメモリ使用率、アルゴリズムの応答性を実質的に改善する。
【選択図】図２

【特許請求の範囲】

【請求項1】

ビデオからビデオフレームを取得し、
前記ビデオフレームから単一の画像を発生させ、
前記単一の画像を、前記ビデオフレームにキャプチャされたアクティビティの視覚的なフロープリントとして提供する、
各工程を含む、アクティビティ署名を用いた画像／ビデオの解析方法。

【請求項2】

発生させることが、モデル化されたアクティビティに関連付けられた各ビデオフレーム内の領域を追跡することをさらに含む、請求項１に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項3】

識別することが、前記領域内の前記モデル化されたアクティビティの予測移動経路に沿った点に関連付けられた各ビデオフレームのピクセル値を取得することをさらに含む、請求項２に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項4】

前記予測経路を取得することが、前記ビデオフレームにわたる前記予想移動経路に沿った各点の集約されたピクセル値を、対応する点の前記ビデオフレームにわたってキャプチャされた対応するピクセル値から決定することをさらに含む、請求項３に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項5】

決定することが、前記集約されたピクセル値を、前記ビデオフレームにわたる前記対応するピクセル値の平均として算出することをさらに含む、請求項４に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項6】

決定することが、前記集約されたピクセル値を、前記ビデオフレームにわたる前記対応するピクセル値に関連付けられた最小ピクセル値または最大ピクセル値として選択することをさらに含む、請求項４に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項7】

決定することが、前記集約されたピクセル値を、前記ビデオフレームにわたる前記対応するピクセル値に関連付けられた標準偏差として算出することをさらに含む、請求項４に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項8】

決定することが、前記集約されたピクセル値を、前記ビデオフレームにわたる前記対応するピクセル値の前記予測移動経路に沿った運動の大きさを表現する光学フロー要約値として算出することをさらに含む、請求項４に記載のアクティビティ署名を用いた画像／ビデオの解析方法。

【請求項9】

カメラと、プロセッサおよび非一時的なコンピュータ可読ストレージ媒体を含むサーバと、を備え、
前記非一時的なコンピュータ可読ストレージ媒体が、実行可能な命令を含み、
前記プロセッサによって実行されたときに、前記非一時的なコンピュータ可読ストレージ媒体からの前記実行可能な命令が、前記プロセッサに対して、
（ａ）前記経路に沿ったモデル化されたアクティビティの移動に関連付けられた各ビデオフレーム内の経路に沿って行われる変更に基づいて、ビデオフィードのビデオフレームからの単一の集約されたデータ構造を維持し、
（ｂ）前記単一の集約されたデータ構造を、前記ビデオの前記ビデオフレーム内に現れるアクティビティの要約として、前記アクティビティに基づいて行為を監視、追跡、または遂行するアプリケーションに提供する、
各処理を遂行することを特徴とするアクティビティ署名を用いた画像／ビデオの解析システム。

【請求項10】

前記アプリケーションが、前記ビデオの前記ビデオフレームの代わりに入力として前記単一の集約されたデータ構造を取る機械学習アルゴリズムである、ことを特徴とする請求項９に記載のクティビティ署名を用いた画像／ビデオの解析システム。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、深層学習をビデオ分類タスクに適用するアクティビティ署名を用いた画像／ビデオの解析方法及びそのシステムに関する。

【背景技術】

【0002】

画像分類等の処理において深層学習が広く使用されるようになってきている。しかしながら、機械学習は計算的に高価であり得るため、深層学習をビデオ分類タスクに適用することは容易ではない。

【0003】

深層学習をビデオ分類タスクに適用するアクティビティ署名を用いた画像においては、単一の画像とは異なり、ビデオの内容は経時的に変化する。言い換えれば、静止画像には存在しない、ビデオを解析する時間的な側面がある。したがって、画像理解タスクは、画像中にあるものを理解することを伴い得るが、ビデオ理解タスクは、所与の時間におけるビデオ内にある物体を決定し、物体がどのようにビデオ内のフレームからフレームへと経時的に変化するかを決定することを必要とする。

【0004】

この時間ベースの解析は、ビデオアクティビティを理解するために必要であり、現在の機械学習アプローチに重大な課題を提示している。ビデオ解析に必要な検索空間は、静止画像解析に必要とされるものよりも指数関数的に大きい。その結果、機械学習アルゴリズムが注意深く構築されておらず、かつ適切に構成されていない場合、アルゴリズムによって処理されたビデオの学習および評価では、手に負えない問題に遭遇する可能性がある。

【0005】

さらに、ビデオ解析のための最適な機械学習アルゴリズムを用いても、対応するビデオフレームの真のデータサイズおよびフレームから追跡される特徴の数により、アルゴリズムがタイムリーな結果を配信することが妨げられる。典型的には、毎秒３０個超のフレーム（３０個の画像）が存在し得、１分間のビデオには、ほぼ２，０００個の個々の画像が含まれる。さらに、アルゴリズムがビデオフレームを処理する間、プロセッサ負荷およびメモリ使用率などのハードウェアリソースが過度に酷使されるようになる。

【0006】

結果として、リアルタイム機械学習アプリケーションは、ほとんど実現不可能であり、業界では実用的ではない。

【発明の概要】

【発明が解決しようとする課題】

【0007】

このような課題を解決するべく、本発明は、機械学習及び深層学習をビデオ分類タスクに適用した種々のクティビティ署名を用いた画像／ビデオの解析方法及びそのシステムを提供するものである。

【課題を解決するための手段】

【0008】

本発明の一実施形態によれば、アクティビティ署名を用いた画像／ビデオ解析を利用した、例えば、ビデオフレームがビデオから取得され、単一の画像がビデオフレームから発生する。単一の画像は、ビデオフレームにキャプチャされたアクティビティの視覚的なフロープリントとして提供される。

【図面の簡単な説明】

【0009】

【図1A】本発明の例示的な実施形態による、アクティビティ署名を用いた画像／ビデオ解析のためのシステムの図である。

【図1B】本発明の例示的な実施形態による、例示的な視覚的なフロープリントまたはアクティビティ署名の図である。

【図1C】本発明の例示的な実施形態による、トランザクション端末のトランザクションエリアについてキャプチャされたビデオフレームの例示的な頭上画像である。

【図1D】本発明の例示的な実施形態による、図１Ｃのビデオフレームの上に重ね合わされた複数のビデオフレームを通るフロープリントの予測経路の図である。

【図1E】本発明の例示的な実施形態による、１つのフレームから次のフレームへの光学データの移動を表現する、重ね合わせられた光学フローデータを含む画像の図である。

【図1F】本発明の例示的な実施形態による、異なる量の時間を使用したアクティビティに関連付けられた２つのフロープリントの図である。

【図1G】本発明の例示的な実施形態による、同じサイズに正規化された異なる量の時間を使用したアクティビティに関連付けられた２つのフロープリントの図である。

【図1H】本発明の例示的な実施形態による、２つのセンサによってキャプチャされたセンサデータで拡張されたフロープリントの図である。

【図2】本発明の例示的な実施形態による、アクティビティ署名を用いた画像／ビデオ解析のための方法の図である。

【図3】本発明の例示的な実施形態による、アクティビティ署名を用いた画像／ビデオ解析のための別の方法の図である。

【発明を実施するための形態】

【0010】

図１Ａは、例示的な実施形態による、アクティビティ署名を用いた画像／ビデオ解析のためのシステム１００の図である。構成要素が、例示される実施形態の理解に関連する構成要素のみを有して大幅に単純化された形態で概略的に示されていることに留意されたい。

【0011】

さらに、様々な構成要素（図１に示される）を例示し、そして構成要素の配置は例示のみを目的として提示する。本明細書および以下に提示される、アクティビティ署名を用いた画像／ビデオ解析の教示から逸脱することなく、より多くの、またはより少ない構成要素を含む他の配置が可能であることに留意されたい。

【0012】

システム１００は、トランザクション端末１１０、サーバ１２０、および１つ以上のカメラ１３０を含む。

【0013】

端末１１０は、ディスプレイ１１１、周辺デバイス１１２、プロセッサ１１３、および非一時的なコンピュータ可読ストレージ媒体１１４を備える。媒体１１４は、トランザクションマネージャ１１５に対する実行可能な命令を含む。

【0014】

サーバ１２０は、プロセッサ１２１、および非一時的なコンピュータ可読ストレージ媒体１２２を備える。媒体１２２は、トランザクションマネージャ１２３、視覚的な署名／フロープリントマネージャ１２４、および１つ以上のビデオベースのコンシューミングアプリケーション１２６に対する、実行可能な命令を含む。媒体１２２はまた、視覚的な署名／フロープリントマネージャ１２４によって生成され、ビデオベースのコンシューミングアプリケーション１２６への入力として提供される、ビデオ署名／フロープリント１２５を含む。

【0015】

カメラ１３０は、端末１１０に関連付けられたトランザクションエリアのビデオ１３１をキャプチャする。ビデオは、サーバ１２０、または視覚的な署名／フロープリントマネージャ１２４が解析のためにアクセス可能な他のネットワークベースのロケーション／ファイルにリアルタイムでストリーミングされ得る。

【0016】

本明細書においてその実施の形態が例示されるように、システム１００は、ビデオ署名、またはビデオ内で監視される所与のアクティビティに対する視覚的なフロープリント、およびその対応するフレーム（個々の画像）を生成するために、ビデオの複数のフレームを解析することができる。生成されたアクティビティ署名または視覚的なフロープリントは、それが導出された元のビデオフレームよりもサイズが著しく小さく、アクティビティ署名または視覚的なフロープリントは、所与のアクティビティに関連付けられたより多くの記述的な特徴および関連データを含む。署名／フロープリントは、その後、機械学習アルゴリズムおよび／または他のコンシューミングアプリケーションによって処理され、その結果、実質的にプロセッサのスループットが改善され、その結果、業界で達成されたものよりも実質的にメモリ使用率が改善され得る。

【0017】

本明細書で使用される場合、「視覚的なフロープリント」、「ビデオ署名」、「アクティビティ署名」、「フロープリント」、および「署名」という用語および言い回しは、互換的にかつ同義で使用され得る。これらは、ビデオ１３１のビデオフレームからのモニタアクティビティを表現するために、特定の様式（本明細書および以下に記載）で構築される新規のデータ構造または画像を指す。

【0018】

視覚的な署名／フロープリントマネージャ１２４は、端末１１０のトランザクションエリアのキャプチャされたビデオ１３１を解析し、フロープリントを生成する。ビデオ１３１の名声は、視覚的な署名／フロープリントマネージャ１２４によって要約される。視覚的な署名／フロープリントマネージャ１２４は、長さＴを有するビデオ１３１の断片の要約を表現するｎ次元数値配列を作成し、ｎは、Ｔに依存しないか、またはＴに著しく依存しない。

【0019】

ビデオの長さＴは、時間単位で、または同等にフレームの数で表され得る。このようにして、Ｔは、本明細書では、ビデオ１３１内のフレームの総数（およびビデオ１３１内のインデックス付けされた位置としてのｔ）とも称され得るが、それらは互換的に使用され得、区別は必要な場合にのみ行われる。問題のビデオが、３つの色チャネルと長さＴの持続時間を含む、６４０×４８０の解像度を有すると仮定する。したがって、フロープリントを作成する単純な方法は、ビデオのフレームをサイズ（Ｔ，６４０，４８０，３）の４次元（ｎ＝４）データ構造に単に「積み重ねる」ことである。慣例により、１次元は時間軸であり、各「行」はビデオの単一のフレームの要約を表現する。この１次元は、すべての場合で同等に、フロープリントの時間軸、高さ、スキャンライン、または行と称され得る。他のｎ－１次元は、ビデオの各フレームを要約するために使用される。この単純なフロープリントの実施例では、要約は恒等変換の形態を取る。これは、フロープリントが、必ずしもビデオに含まれる任意の情報の簡素化、縮小、または除去を必要としない点を示す。

【0020】

図１Ｂ～図１Ｈに関して以下で考察される処理は、視覚的な署名／フロープリントマネージャ１２４によって遂行される。生成されたフロープリントは、ビデオベースの機械学習アルゴリズムまたはアプリケーションなどの、様々なビデオベースのコンシューミングアプリケーション１２６への入力として提供され得る。

【0021】

図１Ｂは、例示的な実施形態による、例示的な視覚的なフロープリント１４０またはアクティビティ署名１４０の図である。

【0022】

フロープリント１４０は、ビデオ１３１内にキャプチャされた特定のアクティビティを要約する。「アクティビティ」は、人物、物体、群、またはこれらの任意の組み合わせの移動として定義され、それらの行為は反復的であるか、反復可能であるか、または別様にパターンを形成し、（コンシューミングアプリケーション１２６に関連付けられた機械学習または規則ベースの処理を通して）識別および学習され得る。

【0023】

学習されるアクティビティはドメイン固有のものであり、そのため、本明細書および以下に示される実施例は、非限定的なものであり、所与の小売チェックアウトドメイン内の例示のために提示されることに留意されたい。本明細書に提示される有益な教示から逸脱することなく、他のドメインを使用することができる。

【0024】

任意の所与のフロープリントは通常、少なくとも２つの次元を含み、１つの次元（１次元、スキャンライン、ｙ軸、または行）は、時間を表現する。このように、各スキャンラインは、ビデオ１３１の単一のフレームの要約を表現する。フロープリントが画像として表現される場合、画像の高さは、ビデオ１３１と同等の長さである（高さ「ｈ」＝Ｔ）。

【0025】

画像は、ピクセル値のマトリックスを形成する、高さおよび幅の２つの次元を含む。ビデオは、時間の経過とともに複数の画像を一緒に、連続的に一列に並べることによって３つの次元を表現する。

【0026】

フロープリント１４０は、一連の１次元積層フレームに圧縮されたビデオのフレームを表現する。任意の所与のフレーム（画像）に対する列ピクセル値を合計、平均化、または別様に計算して、列当たり単一のピクセル値を取得し、それにより、単一の画像またはフレームは、単一の行の数値ピクセル値（元のフレームまたは画像内に存在する特定の列のピクセル値の要約／計算を表現する行の各ピクセル値）に圧縮される。各フレームは、高さまたは１のみを有する新規のデータ構造に圧縮される。さらに、各フレームは、前の行の上に積み重ねられた追加の行として含まれる。したがって、フロープリント１４０の行の総数は、所与のアクティビティに対応するビデオ１３１の部分でキャプチャされるフレームの総数と同等である。視覚的には、フロープリント１４０は、ビデオ１３１の対応するすべてのフレームを表現する単一の２次元画像として視認され得る。

【0027】

図１Ｃは、例示的な実施形態による、トランザクション端末のトランザクションエリアについてキャプチャされたビデオフレームの例示的な頭上画像である。

【0028】

例示の目的で、ＰＯＳ（ポイントオブセールス）端末１１０でレジ係に関連付けられたトランザクションエリアの頭上カメラ１３０によってキャプチャされた所与のビデオ１３１またはビデオフィード１３１を仮定する。ここでは、小売業者が、トランザクションエリア内の商品の袋詰めに関連付けられたレジ係のアクティビティを監視したいと仮定する。ここで、図１Ｃにおいて、バーコードスキャナから袋詰めエリアまたは領域までのレジ係および商品の動きが追跡される（袋詰めエリアはレジ係の左側（レジ係にとっての左側）にある）。

【0029】

かかる行為の予想される動きは、図１Ｄに例示される経路を追従する。

【0030】

図１Ｄは、例示的な実施形態による、図１Ｃのビデオフレームの上に重ね合わされた複数のビデオフレームを通るフロープリントの予測経路１４１の図である。

【0031】

フロープリントの経路１４１は、商品の袋詰めに関連付けられたアクティビティに対して予測されるものである。アクティビティは、商品がスキャンされた直後に開始する。商品は、端末１１０のスキャナから、直接レジ係の左側の袋詰め領域まで経路１４１に追従する。このアクティビティの対応するフロープリントの各スキャンラインは、「ａ」から「ｂ」までの経路１４１に直交する列ピクセルから抽出された要約統計量から導出される。「ａ」から「ｂ」までの経路１４１の長さは、スキャンラインの幅、ひいては、対応するフロープリントの幅を決定する。高さ）ｈ）は、要約統計量を抽出するために使用される、経路１４１に直交するピクセルの列の高さである。

【0032】

図１Ｄでは、動きは、点ａで始まり、指定された経路１４１に沿って続き、点ｂで終了する。ａからｂまでの経路１４１に沿った点の数は、幅「ｗ」である。点「ｐ」は、この経路に沿ったその位置、ならびにビデオの時間におけるその位置に応じてインデックス付けされ得るｐｔ、ｘ。式中、ｘは、０とｗ－１との間であり、ｔは、０とＴ－１との間である。

【0033】

１つの要約変数を追跡するフロープリントの場合、これは、Ｔ×ｗ次元を有するフロープリントをもたらす。各行は、ビデオの各フレームを通して取られた経路１４１内のアクティビティを要約する長さｗの１つのスキャンラインを表現する。かかるフロープリント１４０の例を図１Ｂに示す。

【0034】

結果として得られるフロープリントの点ｐｔ．ｘにおける要約統計量の値を計算するために（ｘは、経路１４１に沿った点であり、０とｗ－１との間の値を有し、ｔは、ビデオ１３１内のフレームにおける再生位置であり、０とＴ－１との間の値を有する）、位置ｘで経路１４１に直交する線の上に見つかるピクセル値は、ビデオ内の時間ｔで画像／フレーム内に集約される。ピクセルの対応する列は、高さｈを有する。使用する要約統計量を決定する場合、２つの選択を行う必要がある。要約される値は何か、および使用される統計は何か。要約される値は、列内の各ピクセルの明るさまたは色の値と同程度に単純であってもよく、または値は一部の他の数量のものであってもよい。視覚的な署名／フロープリントマネージャ１２４によって使用され得る要約統計量のいくつかの実施例としては、ピクセル列の平均の明るさもしくは色、最小ピクセル値、最大ピクセル値、標準偏差、および／または任意の他の統計量が挙げられる。

【0035】

一実施形態では、フロープリントの任意の所与の点に使用される値は、フレームの光学フローから導出される。光学フローの使用は、緻密に計算することができるため様々な利点を有する。つまり、画像内の各ピクセルに対して値を導出することができる。さらに、効率的に計算することができ、計算的に高価な算出ではない。光学フローはまた、動きの堅牢な推定器、および現実世界のシナリオにコンピュータビジョンを適用する際に多くの共通の課題にほとんど影響されない動きのパターンであるという利点を有し、かかる課題には、多様で変化する照明条件、陰影、反射、鏡面ハイライト、閉塞、カモフラージュ、およびその他の条件が含まれる。

【0036】

図１Ｅは、例示的な実施形態による、１つのフレームから次のフレームへの光学データの移動を表現する、重ね合わせられた光学フローデータを含む画像の図である。

【0037】

光学フローを要約統計量の値として使用する場合、光学フローはビデオ１３１にわたって計算される。一実施形態では、要約統計量は、経路１４１に適合するバウンディングボックスのピクセル値に関して計算される。

【0038】

経路１４１に沿った各点で経路１４１に直交する各列を横切るフローが集約される。各列が中にｈ個のピクセルを有するため、集約はこれらのｈ個のフローに対して行われることを想起されたい。１つの実施形態では、フローは、各点ｐにおいて経路１４１の軸の下に射影され、フローピクセルごとに単一の値（およびｗ個の経路点が存在する、経路点ごとに列当たり合計ｈ個の値）をもたらす。この射影は、経路１４１に沿ったアクティビティの大きさをキャプチャするため、有用である。点ｐにおける「経路の軸」は、ｐにおいて経路１４１を表現する曲線のタンジェントを意味するように与えられる。次いで、任意の種類の要約統計量を使用して、ｈ個の値を、位置（ｔ、ｘ）において結果として得られるフロープリント内で使用されるｐにおける単一の点の値まで下げて集約することができる。一実施形態では、値の合計が使用される。

【0039】

これは、実際には、図１に示されるフロープリントがどのように計算されたかである。そのフロープリントは、６０個の行の高さ、および２００個の列の幅であり、グレースケール画像として表現される。グレースケール画像は、ピクセル当たり単一の値をキャプチャする。６０個の行は、要約されたビデオの６０個のフレームを表現する。２００個の列は、ビデオ内の経路の長さを表現する。各グレースケール値は、黒色の場合、経路に沿って「開始点ａに向かう」フロー、または白色の場合、経路に沿って「終了点ｂに向かう」フローのいずれかを表現する。色が強いほど、その点におけるａまたはｂのいずれかに向かう経路に沿ったフローが強くなる。

【0040】

他の変形例もまた可能であることに留意されたい。さらなる非限定的な実施例として、例えば、ピクセル当たり２つのチャネルのフロープリントをもたらし得る、光学フローの両方の軸を使用することができる。これによって意味されることは、結果として得られるフロープリントは、サイズＴの第１の次元、サイズｗの第２の次元、および光学フローの２つの軸を表現するサイズ２の最後の次元を有する、３次元数値配列であり得るということである。

【0041】

軸は、経路１４１に沿って射影され、かつ経路１４１に直交するか、または画像軸指向であるか、または任意の他の基礎ベクトルを介して使用されるかのいずれかであり得る。

【0042】

同様の方法で、例えば、コンピュータ平均色にいくつかの要約統計量を使用すると、３つのチャネルのフロープリントをもたらすことになる。

【0043】

他の値も使用され得ることに留意されたい。上述のアプローチを、バックグラウンド減算、追跡、シルエット、およびブロブ解析などのコンピュータビジョン技術と組み合わせて、ビデオを通じてアクティビティを追跡することができる。

【0044】

説明されるアプローチは、特徴ベースのアプローチでも使用され得る。例えば、ＳＩＦＴベースの特徴は、ビデオの各フレームから抽出され、要約される値として使用され得る。

【0045】

図１Ｅでは、光学フローデータは、フレームを通る移動がないことを例示するひし形形状１４２Ｂ、対応するひし形形状に関連付けられた線の長さで例示される大きさの下方および左への移動を例示する１４２Ａとして示されている。

【0046】

図１Ｆは、例示的な実施形態による、異なる量の時間を使用したアクティビティに関連付けられた２つのフロープリントの図である。

【0047】

異なる持続時間を有するアクティビティから導出されたフロープリントを図１Ｆに例示する。フロープリント１４３Ａでは、監視対象のアクティビティが要した時間はごくわずかであった（したがって、フロープリント１４３Ａの高さは小さい）。第２のフロープリント１４３Ｂでは、同じタイプのアクティビティが要した時間は著しく長かった（したがって、フロープリント１４３Ａと比較した場合、フロープリント１４３Ｂの高さはより大きい）。これは、高さが劇的に異なる２つのフロープリント１４３Ａおよび１４３Ｂをもたらす。これは、すべての入力が同じサイズのものであることを必要とする多くの機械学習アプローチに問題を提起する。

【0048】

機械学習フレームワークでは、多くの場合、すべての入力が同じサイズであることを確保する必要がある。ビデオを扱う際、これは、多くの場合、非常に難しい。ビデオは標準の長さではない。ビデオ内のアクティビティがすべて同じ時間を要するわけではない。

【0049】

図１Ｆは、同じタイプのアクティビティが完了するまでに著しく異なる時間を要するようなシナリオを例示している。これらのフロープリント１４３Ａおよび１４３Ｂは、異なるサイズのものであるため、同じ機械学習分類器への入力としてそのまま使用することは不可能であり得る。

【0050】

一貫した入力サイズを確保するために、フレームを戦略的に追加および除去することを含む、ビデオを正規化しようとする様々なアプローチがある。しかしながら、これらには問題がないわけではない。例えば、フレームを除去すると、フレームが除去された箇所で、結果として生じるビデオがぎくしゃくした動きになる。これは、多くの結果、とりわけ、１つのフレームと別のフレームとの間のフロー推定値に一貫性がないという結果を有する。

【0051】

フレームを追加しなければならない場合、最も近いフレームを複製することによって、ビデオのプレゼンテーションおよびフローの推定に関して同じ問題が生じる。フレームを追加する際に、２つのフレームとの間を補間して、かかる問題を軽減することを試みる場合があるが、結果に悪影響を与える可能性のある他のアーチファクトが顕在化する。

【0052】

ここで提案するアプローチ、および本明細書に提示される教示に対する１つの重要な利点は、ビデオではなく、フロープリントを正規化することである。正規化は、データ表現において可能な限りの同等性を確保するために、すべての入力が特定の方法で浄化されることを確保することを伴う。これにより、分類器が、データ表現の不一致によってではなく、フロープリントによってモデル化されるアクティビティに固有の差異のみに関して、訓練され、評価されることを確保する。

【0053】

フロープリントは通常、画像として表現され得るため、正規化の作用は画像処理に還元され、そのドメインで利用可能なすべてのツールおよび方法は、フロープリント正規化タスクに影響を与え得る。例えば、図１Ｆに示されるもののような時差を正規化するために、画像のリサイズ操作を遂行することができる。かかる操作は、最も近くの隣人であり得るか、またはバイキュービック補間などのより高度な方法を使用し得る。図１Ｇは、図１Ｆのサイズ正規化フロープリントの例を提示している。

【0054】

図１Ｇは、例示的な実施形態による、同じサイズに正規化された異なる量の時間を使用したアクティビティに関連付けられた２つのフロープリントの図である。

【0055】

フロープリントは通常、画像として表現されるため、データの正規化のために画像処理技術を使用することができる。この実施例では、異なる持続時間の同様のアクティビティを表現する２つのフロープリント１４３Ａおよび１４３Ｂは、両方が同じサイズであるようにフロープリント１４４Ａおよび１４４Ｂとしてリサイズされる。このようにして、より小さなフロープリント１４３Ａは１４４Ａとなり、より大きなフロープリント１４３Ｂは１４４Ｂとなる。ここで、２つの正規化されたフロープリント１４４Ａおよび１４４Ｂは、一定のサイズの入力を必要とする多くの既存の機械学習フレームワーク／アプリケーションで処理され得る。

【0056】

フロープリント１４３Ａおよび１４３Ｂは画像として表現されるため、超解像度強化技術を使用することによって、時間軸、またはその物質のその他の次元のいずれかをスケールアップすることも可能である。任意のかかる方法を使用して、フロープリント１４３Ａおよび１４３Ｂのサイズを正規化されたフロープリント１４４Ａおよび１４４Ｂに正規化することができる。

【0057】

さらに、データの値自体を正規化することができる。色のバランス調整、明るさおよびコントラストの調節、ならびにその他の無数の画像処理ツールのいずれかを使用して、フロープリントの視覚的な外観を正規化することができる。これは、データホワイトニングのより一般的なアプローチに類似しており、実際に、統計モデリングで標準的なこれらのアプローチをここで使用することもできる。

【0058】

これは、異なるビデオフレームレートに対して正規化するための光学フローベースの技術において有用である。例えば、一定の速度で移動している車両のフローを算出すると仮定する。その車両が、１つが１２ｆｐｓ（１秒当たりのフレーム数）のフレームレートを有し、１つが２４ｆｐｓのフレームレートを有する、２つのカメラによって記録されている場合、１２ｆｐｓのビデオファイルの任意の２つのフレームとの間で、動きは、同じ車両を記録している２４ｆｐｓのビデオの隣接するフレームを使用して算出されたフローの２倍の大きさである。

【0059】

画像表現に関して、黒から白までのグレーの色合いの大きさは、それぞれ開始点に向かう速度、および開始点から離れる速度の大きさを示すため、１２ｆｐｓでのフロープリントの画像表現は、２４ｆｐｓで記録されたものよりも高いコントラストで現れるべきである。

【0060】

これを補正するために使用され得る様々なアプローチの中でも、画像処理技術を使用した単純な色の改ざんは、データの正規化の単純かつ効率的な方法を提供する。

【0061】

図１Ｈは、例示的な実施形態による、２つのセンサによってキャプチャされたセンサデータで拡張されたフロープリントの図である。

【0062】

図１Ｈは、第１のセンサからの第１のセンサデータ１４５Ｃと、第２のセンサからの第２のセンサデータ１４５Ｄと、を含む、センサデータ１４５Ｂで拡張されたフロープリント１４５Ａを例示している。

【0063】

フロープリントを他の検出器、センサ、およびデバイスからのデータで拡張して、モデル化されるアクティビティの分類を助けることができる。図１Ｈでは、２つのセンサからのデータ１４５Ｃおよび１４５Ｄは、フロープリント１４５Ａの時系列に拡張されている。

【0064】

フロープリントは、機械学習アプリケーションでの使用にうまく適合された簡潔かつ効率的な方法で時系列の現象を表現するために使用される。したがって、それらを他のソースからの他の時系列データも含めるように拡張すると役立つ場合がある。

【0065】

例えば、図１Ｃに示される例示的なシナリオでは、レジ係が食料品精算時に商品をスキャンしている。特定の時間に発生したデータを有する、複数の異なる検出器、センサ、信号、およびさらには他の視覚アルゴリズムへの出力が存在し得る。これらのうちのいくつかは、視覚的な署名／フロープリントマネージャ１２４が発生したフロープリントによって要約されているアクティビティを裏付けるものでさえ、役立つ場合がある。

【0066】

図１Ｈでは、２つの他のセンサ源からのデータ１４５Ｃおよび１４５Ｄは、拡張データ１４５Ｂとしてフロープリント１４５Ａの時系列に拡張されている。列に沿ったこれらのロケーションは、これらが属しているデータソースを示す。行（時間軸）に沿ったこれらの位置は、これらのセンサデバイスが信号を発した時間を示す。フロープリント１４５Ｂ内のセンサ信号の形状およびサイズを使用して、とりわけ、フロープリント自体、および拡張フロープリント内の他のセンサ信号に関連して、センサ信号の重要性またはその有意性をモデル化することができる。信号の画像表現の形状および色（データの値）を使用して、信号自体の不確実性（例えば、カルマンフィルタ検知）をモデル化することができる。

【0067】

フロープリントを拡張するために使用され得る、センサ、信号、および視覚的な検出の実施例としては、スキャナデータ、ＰＯＳデータ、トランザクション情報、重量スケールの読み取り値、視覚的な検出、トリップワイヤ、電子商品監視機器（ＥＡＳ）のアラート、およびその他の任意のものが挙げられるが、これらに限定されない。

【0068】

一実施形態では、端末１１０は、ＰＯＳ端末、セルフサービス端末（ＳＳＴ）、自動現金預払機（ＡＴＭ）、またはキオスクである。

【0069】

一実施形態では、ビデオベースのコンシューミングアプリケーション１２６は、ビデオの追跡、監視、およびセキュリティ事象の発生のための機械学習アルゴリズムおよび／またはセキュリティベースのビデオアプリケーションを含む。

【0070】

ここで、上述の実施形態および他の実施形態を、図２を用いて考察する。

【0071】

図２は、例示的な実施形態による、アクティビティ署名を用いた画像／ビデオ解析のための方法２００の図である。方法２００を実施するソフトウェアモジュール（複数可）は、「ビデオアクティビティ特徴発生器」と称される。ビデオアクティビティ特徴発生器は、実行可能なプログラムされた命令として実装され、メモリおよび／または非一時的なコンピュータ可読（プロセッサ可読）ストレージ媒体の内部に常駐し、デバイスの１つ以上のプロセッサによって実行される。ビデオアクティビティ特徴発生器を実行するデバイスのプロセッサ（複数可）は、ビデオアクティビティ特徴発生器を処理するように具体的に構成およびプログラムされている。ビデオアクティビティ特徴発生器は、その処理中に１つ以上のネットワーク接続へのアクセスを有し得る。ネットワーク接続は、有線であっても、無線であっても、有線と無線の組み合わせであってもよい。

【0072】

一実施形態では、ビデオアクティビティ特徴発生器は、サーバ１２０上で実行される。一実施形態では、サーバ１２０は、ＰＯＳ端末、ＳＳＴ、ＡＴＭ、またはキオスクである。一実施形態では、サーバ１２０は、クラウド処理環境（クラウド）を表現する単一のサーバとして論理的に協働する、複数のサーバのうちの１つである。

【0073】

一実施形態では、ビデオアクティビティ特徴発生器は、視覚的な署名／フロープリントマネージャ１２４である。

【0074】

２１０では、ビデオアクティビティ特徴発生器は、ビデオからビデオフレームを取得する。ビデオは、供給されるリアルタイムのビデオであってもよく、または以前にキャプチャされたビデオであってもよい。

【0075】

２２０では、ビデオアクティビティ特徴発生器は、ビデオフレームから、またはビデオのすべてのビデオフレームにわたって、単一の画像を発生させる。

【0076】

一実施形態では、２２１において、ビデオアクティビティ特徴発生器は、モデル化されたアクティビティに関連付けられた各ビデオフレーム内の領域を追跡する。

【0077】

２２１の一実施形態では、２２２において、ビデオアクティビティ特徴発生器は、領域内のモデル化されたアクティビティに対する予想移動経路に沿った点に関連付けられた各ビデオフレームのピクセル値を取得する。

【0078】

２２２の一実施形態では、２２３において、ビデオアクティビティ特徴発生器は、ビデオフレームにわたる予想移動経路に沿った各点の集約されたピクセル値を、対応する点のビデオフレームにわたってキャプチャされた対応するピクセル値から決定する。

【0079】

２２３の一実施形態では、２２４において、ビデオアクティビティ特徴発生器は、集約されたピクセル値を、ビデオフレームにわたる対応するピクセル値の平均として算出する。

【0080】

２２３の一実施形態では、２２５において、ビデオアクティビティ特徴発生器は、集約されたピクセル値を、ビデオフレームにわたる対応するピクセル値に関連付けられた最小ピクセル値または最大ピクセル値として選択する。

【0081】

２２３の一実施形態では、２２６において、ビデオアクティビティ特徴発生器は、集約されたピクセル値を、ビデオフィードにわたる対応するピクセル値に関連付けられた標準偏差として算出する。

【0082】

２２３の一実施形態では、２２７において、ビデオアクティビティ特徴発生器は、集約されたピクセル値を、ビデオフレームにわたる対応するピクセル値の予測移動経路に沿った運動の大きさを表現する光学フロー要約値として算出する。

【0083】

２２０の一実施形態では、２２８において、ビデオアクティビティ特徴発生器は、２２０で単一の画像を発生させる前に、ビデオフレームから既知のバックグラウンドピクセル値を除去する。

【0084】

２２０の一実施形態では、２２９－１において、ビデオアクティビティ特徴発生器は、２２０で単一の画像を発生させる前に、ビデオフレームから、モデル化されたアクティビティの対象となる領域に関連付けられていないピクセル値を除去する。

【0085】

２２０の一実施形態では、２２９－２において、ビデオアクティビティ特徴発生装置は、ビデオフレームから特徴を抽出し、単一の画像をビデオフレームにわたる各特徴の要約として発生させる。

【0086】

２３０では、ビデオアクティビティ特徴発生器は、ビデオフレームにキャプチャされたアクティビティの視覚的なフロープリントまたは視覚的な署名として単一の画像を提供する。

【0087】

一実施形態では、２３１において、ビデオアクティビティ特徴発生器は、単一の画像のサイズが、機械学習アルゴリズムへの入力として入力画像で予想される第２のサイズと互換性がないと決定する。ビデオアクティビティ特徴発生器は、単一の画像を第２のサイズに正規化し、単一の画像を機械学習アルゴリズムへの入力として提供する。一実施形態では、単一の画像は、機械学習アルゴリズムによって予測される色のグラデーションに基づいて正規化される。これは、サイズに追加されるものであってもよく、または単一の画像が、既に機械学習アルゴリズムによる入力のために必要なサイズである場合、もしくは機械学習アルゴリズムによって予期された誤った色のグラデーションである場合に、サイズとは無関係であってもよい。

【0088】

図３は、例示的な実施形態による、アクティビティ署名を用いた画像／ビデオ解析のための方法３００の図である。方法３００を実施するソフトウェアモジュール（複数可）は、「ビデオアクティビティ解析器」と称される。ビデオアクティビティ解析器は、実行可能なプログラムされた命令として実装され、メモリおよび／または非一時的なコンピュータ可読（プロセッサ可読）ストレージ媒体の内部に常駐し、デバイスの１つ以上のプロセッサによって実行される。ビデオアクティビティ解析器を実行するデバイスのプロセッサ（複数可）は、ビデオアクティビティ解析器を処理するように具体的に構成およびプログラムされている。ビデオアクティビティ解析器は、その処理中に１つ以上のネットワーク接続へのアクセスを有し得る。ネットワーク接続は、有線、無線、または有線と無線の組み合わせであってもよい。

【0089】

一実施形態では、ビデオアクティビティ解析器を実行するデバイスは、サーバ１２０である。

【0090】

一実施形態では、ビデオアクティビティ解析器は、視覚的な署名／フロープリントマネージャ１２４のすべてまたは何らかの組み合わせである。

【0091】

ビデオアクティビティ解析器は、別の、およびある意味では、方法２００について上で考察したものの強化された処理の観点を表現する。

【0092】

３１０では、ビデオアクティビティ解析器は、ビデオフィードから少なくとも１つの画像を取得する。

【0093】

３２０では、ビデオアクティビティ解析器は、モデル化されたアクティビティに対して、画像内のレイアウトされたアクティビティの経路を識別する。

【0094】

３３０では、ビデオアクティビティ解析器は、経路上の測定値を算出する。

【0095】

一実施形態では、３３１において、ビデオアクティビティ解析器は、測定値を、ビデオフィード内に現れる監視対象のアクティビティの光学フローとして算出する。

【0096】

一実施形態では、３３２において、ビデオアクティビティ解析器は、測定値を、ビデオフィード内に現れる監視対象のアクティビティのピクセル値に基づいて算出する。

【0097】

一実施形態では、３３３において、ビデオアクティビティ解析器は、測定値を、視覚的なトラッカから提供されたシルエット情報から算出する。

【0098】

３４０において、ビデオアクティビティ解析器は、経路上の各点における経路に沿った測定値を、集約された測定値として集約する。

【0099】

一実施形態では、３４１において、ビデオアクティビティ解析器は、測定値を、経路に沿った各点で、および固定された量だけ経路のいずれかの側に延在する対応する点で経路に直交する線に沿って、集約する。

【0100】

一実施形態では、３４２において、ビデオアクティビティ解析器は、少なくとも１つのデータソースからキャプチャされたデータでデータ構造を拡張する。少なくとも１つのデータソースは、重量センサ、バーコードスキャナ、カードリーダ、およびトランザクション端末のうちの１つ以上から取得されたソースデータを含む。

【0101】

３５０において、ビデオアクティビティ解析器は、集約された測定値を、時系列としてビデオフィードからの複数の追加画像にわたってデータ構造に蓄積する。

【0102】

３６０において、ビデオアクティビティ解析器は、ビデオフィード内に現れ、モデル化されたアクティビティに関連付けられている、監視対象のアクティビティについて、データ構造を正規化する。

【0103】

ソフトウエアが特定の形態（構成要素またはモジュールなど）で説明されている場合、それは単に理解を助けるためであり、それらの機能を実施するソフトウエアがどのように設計されるか、あるいはどのような構造であるかを限定するものではないことが理解される。例えば、モジュールは別個のモジュールとして説明されているが、同種のコードとして、個別の構成要素として実施されてもよく、またこうしたモジュールの全体でなく一部を組み合わせてもよく、その他の任意の都合の良い方法で構造化されたソフトウエア内で機能が実施されてもよい。

【0104】

さらに、ソフトウエアモジュールは、１つのハードウエア上で実行されるものとして説明されているが、ソフトウエアは、複数のプロセッサにまたがる、またはその他の任意の都合の良い方法で分布されてもよい。

【0105】

上述の説明は、例証的なものであって制限的なものではない。当業者には、上述の説明を検討することにより、その他の数多くの実施形態が明らかとなるであろう。したがって、実施形態の範囲は、これらの請求項が権利を持つ均等物の完全な範囲とともに、添付の請求項を参照して、決定されるべきである。

【0106】

実施形態についての上述の説明では、開示を合理化する目的で様々な特徴が単一の実施形態でひとまとめにされている。この開示方法は、請求された実施形態が、各請求項で明示的に詳述されるものよりも多くの特徴を有することを反映するとは解釈されない。むしろ、下記の請求項で反映されるとおり、発明の主題は、単一の開示された実施形態のすべての特徴よりも少ない。したがって、これによって、以下の特許請求の範囲は、実施形態の説明に組み込まれ、各特許請求の範囲は、それ自体を別個の例示的な実施形態として主張する。

【図1A】