IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エバーシーン リミテッドの特許一覧

特許7285973アクティビティ認識のための量子化された遷移変化の検出
<>
  • 特許-アクティビティ認識のための量子化された遷移変化の検出 図1
  • 特許-アクティビティ認識のための量子化された遷移変化の検出 図2
  • 特許-アクティビティ認識のための量子化された遷移変化の検出 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-25
(45)【発行日】2023-06-02
(54)【発明の名称】アクティビティ認識のための量子化された遷移変化の検出
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230526BHJP
   G06V 20/62 20220101ALI20230526BHJP
【FI】
G06T7/00 350C
G06V20/62
【請求項の数】 16
(21)【出願番号】P 2021578060
(86)(22)【出願日】2020-05-12
(65)【公表番号】
(43)【公表日】2022-09-14
(86)【国際出願番号】 IB2020054488
(87)【国際公開番号】W WO2021001702
(87)【国際公開日】2021-01-07
【審査請求日】2021-12-28
(31)【優先権主張番号】16/458,288
(32)【優先日】2019-07-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518072210
【氏名又は名称】エバーシーン リミテッド
【氏名又は名称原語表記】Everseen Limited
【住所又は居所原語表記】4th Floor, The Atrium, Blackpool Retail Park, Blackpool, Cork, Ireland
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】ダン ペスカル
(72)【発明者】
【氏名】コスミン セルナザヌ-グラヴァン
(72)【発明者】
【氏名】ヴァシレ グイ
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2013-45433(JP,A)
【文献】特開2012-069103(JP,A)
【文献】米国特許出願公開第2014/0294360(US,A1)
【文献】米国特許出願公開第2012/0320199(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 20/62
(57)【特許請求の範囲】
【請求項1】
イメージングデバイスによってキャプチャされたビデオストリームから人間のアクティビティを認識するためのシステムであって、前記システムは、
1つまたは複数の命令を格納するためのメモリと、
前記1つまたは複数の命令を実行するために前記メモリに通信可能に結合されたプロセッサであって、前記プロセッサは、
前記イメージングデバイスに通信可能に結合された分類器であって、
前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類し、前記画像フレームは、前記画像フレーム内で識別された少なくとも1つのオブジェクトおよび1つまたは複数のアクションに基づいて分類され、
前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成し、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含む、ように構成された分類器と、
事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値をフィルタリングし、かつ二値化して、二値化された確率ベクトルを生成するように構成されたデータフィルタリングおよび二値化モジュールと、
圧縮単語構成モジュールであって、
前記二値化された確率ベクトルを、連続する画像フレームごとに比較することによって、前記ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定し、
前記1つまたは複数の連続する画像フレームにおける前記決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成圧縮された単語は、事前定義されたクラスの数の2倍に等しい数の文字を含むアルファベットの文字から形成され、各遷移は前記アルファベットの文字に対応する、ように構成された圧縮単語構成モジュールと、
前記圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識するように構成されたシーケンス依存分類器と
を含むプロセッサと
を備えたシステム。
【請求項2】
前記分類器は、畳み込みニューラルネットワークである、請求項1に記載のシステム。
【請求項3】
セルフチェックアウト(SCO)スキャンゾーンのための前記事前定義されたクラスのセットが、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナを含む前記1つまたは複数のクラスを含む、請求項1に記載のシステム。
【請求項4】
前記データフィルタリングおよび二値化モジュールは、1つまたは複数の連続する画像フレームの前記クラス確率ベクトルにおける分類器エラーを排除するようにさらに動作可能である、請求項1に記載のシステム。
【請求項5】
前記プロセッサは、サイレントインターバル検出モジュールをさらに備え、前記サイレントインターバル検出モジュールは、事前定義された閾値期間に前記画像フレームにおけるアクティビティ検出がないことに基づいて、前記ビデオストリーム内の1つまたは複数のサイレントインターバルを検出するように構成される、請求項1に記載のシステム。
【請求項6】
前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも1つのフレームを含む、請求項1に記載のシステム。
【請求項7】
前記シーケンス依存分類器は、リカレントニューラルネットワークである、請求項1に記載のシステム。
【請求項8】
ビデオストリームから人間のアクティビティを認識するための方法であって、前記方法は、
分類器によって、前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類することであって、前記画像フレームは、前記画像フレーム内で識別された少なくとも1つのオブジェクトおよび1つまたは複数のアクションに基づいて分類されることと、
前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成することであって、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含むことと、
事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値を二値化して、二値化された確率ベクトルを生成することと、
前記二値化された確率ベクトルを、連続する画像フレームごとに比較することによって、前記ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定することと、
前記1つまたは複数の連続する画像フレームにおいて前記決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成することであって、圧縮された単語は、事前定義されたクラスの数の2倍に等しい数の文字を含むアルファベットの文字から形成され、各遷移は前記アルファベットの文字に対応する、ことと、
シーケンス依存分類器によって前記圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することによって、1つまたは複数のユーザアクションを抽出することと
を含む方法。
【請求項9】
前記分類器は、畳み込みニューラルネットワークである、請求項に記載の方法。
【請求項10】
セルフチェックアウト(SCO)スキャンゾーンのための前記事前定義されたクラスのセットが、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナを含む前記1つまたは複数のクラスを含む、請求項に記載の方法。
【請求項11】
1つまたは複数の連続する画像フレームのクラス確率ベクトルにおける分類器エラーを排除することをさらに含む、請求項に記載の方法。
【請求項12】
事前定義された閾値期間に前記画像フレームでのアクティビティ検出がないことに基づいて、前記ビデオストリーム内の1つまたは複数のサイレントインターバルを検出することをさらに含む、請求項に記載の方法。
【請求項13】
前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも1つのフレームを含む、請求項に記載の方法。
【請求項14】
前記シーケンス依存分類器は、リカレントニューラルネットワークである、請求項に記載の方法。
【請求項15】
ビデオストリームから人間のアクティビティを認識するためのコンピュータプログラムであって、前記コンピュータプログラムは、命令のセットを含み、前記命令のセットはプロセッサによって実行されると、前記プロセッサに、
前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類させ、前記画像フレームは、前記画像フレーム内で識別された少なくとも1つのオブジェクトおよび1つまたは複数のアクションに基づいて分類され、
前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成させ、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含み、
事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値を二値化させて、二値化された確率ベクトルを生成させ
前記二値化された確率ベクトルを、連続する画像フレームごとに比較することによって、前記ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定させ、
前記1つまたは複数の連続する画像フレームにおける前記決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成させ、圧縮された単語は、事前定義されたクラスの数の2倍に等しい数の文字を含むアルファベットの文字から形成され、各遷移は前記アルファベットの文字に対応し、
前記圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することにより、1つまたは複数のユーザアクションを抽出させる、コンピュータプログラム。
【請求項16】
前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも1つのフレームを含む、請求項15に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に人工知能に関し、より具体的には、ビデオストリームからの人間のアクティビティ認識およびシンボリック処理に関する。
【背景技術】
【0002】
技術の進歩に伴い、人間の身体アクティビティの認識は非常に重要になっている。人間の身体アクティビティの認識は、セルフチェックアウト(SCO)システムを含む小売店のチェックアウトプロセスの監視など、さまざまなアプリケーションに貢献する。このようなシステムにより、購入者は自分で購入のプロセスを完了することができる。人間の身体アクティビティの認識の適用の別の例は、盗難などの万引き犯によって行われた不公正なアクティビティを検出し、それによって盗難を防ぐために店で雇用されている職員に警告することによってビデオ監視の支援を提供することである。さらに、人間の身体アクティビティの認識は、インテリジェントドライバー支援システム、困っている人のためのアシステッドリビングシステム、ビデオゲーム、理学療法などで採用されている。さらに、人間の身体アクティビティの認識は、スポーツ、軍事、医療、ロボット工学などの分野で積極的に使用されている。
【0003】
人間の身体アクティビティは、ほとんどのプロセスモデリングの構成要素を表す。しかしながら、人間の行動は予測できないため、多様な環境でのそのような人間の身体アクティビティの認識は困難なタスクである。人間の身体アクティビティは典型的に、手、足、顔などのさまざまな人間の身体部分を含む基本的なアクションのセットに分解可能である。さらに、人間の身体アクティビティに関連する基本的なアクションのセットは、複数の時間間隔にまたがっている。そのようなアクティビティの認識タスクは、変動する時間間隔にわたるアクションの全体的なシーケンスを要約するという問題に直面する。
【0004】
従来の人間の身体アクティビティ認識技術は、各人間の体の異なる身体構造、異なる体型、異なる肌の色などのために、人間の身体アクティビティを認識するのに非効率的である。また、人間のアクティビティのタイムフレームは、対象者、そしておそらく他の環境条件に応じて、時間の重要な変動をもたらす。さらに、すべての基本的な身体部分の動きが、考慮されるアクティビティの目的に関連しているわけではない。したがって、アクティビティ認識プロセスは、アクティビティに関与する人間の身体部分のアクション時間変動および物理的軌道変動に関連する2つの主要な問題に直面する。
【0005】
したがって、前述の議論に照らして、人間の身体アクティビティの認識に関連する前述の欠点を克服し、リカレントニューラルネットワークを使用したアクティビティ認識における時間変動および身体部分の動きの多様性の影響を低減することを目的とするシステムおよび方法を提供する必要がある。
【発明の概要】
【0006】
本開示は、ビデオストリームから人間のアクティビティを認識するためのシステムおよびその方法を提供することを目的とする。
【0007】
本開示の一態様によれば、イメージングデバイスによってキャプチャされたビデオストリームから人間のアクティビティを認識するためのシステムが提供される。このシステムは、1つまたは複数の命令を格納するためのメモリと、メモリに通信可能に結合されたプロセッサを含む。このシステムは、イメージングデバイスに通信可能に結合された分類器であって、ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類し、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類され、分類に基づいて画像フレームのクラス確率ベクトルを生成し、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含む、ように構成された分類器を含む。システムはさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値をフィルタリングし、かつ二値化するように構成されたデータフィルタリングおよび二値化モジュールを含む。システムはさらに、対応する二値化確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレーム内の1つまたは複数のクラスの1つまたは複数の遷移を決定し、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成する圧縮単語構成モジュールを含む。システムはさらに、圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識するように構成されたシーケンス依存分類器を含む。
【0008】
本開示の別の態様によれば、ビデオストリームから人間のアクティビティを認識するための方法が提供される。この方法は、分類器によって、ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類することであって、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類されることを含む。この方法はさらに、分類に基づいて画像フレームのクラス確率ベクトルを生成することであって、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含むことを含む。この方法はさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値を二値化することを含む。この方法はさらに、対応する二値化確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレームにおける1つまたは複数のクラスの1つまたは複数の遷移を決定することを含む。この方法はさらに、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成することを含む。この方法はさらに、圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識することを含む。
【0009】
本開示のさらに別の態様によれば、ビデオストリームから人間のアクティビティを認識するためのコンピュータプログラム可能な製品が提供され、コンピュータプログラム可能な製品は、命令のセットを含む。命令のセットは、プロセッサによって実行されると、プロセッサに、ビデオストリームの画像フレームを、事前定義されたクラスのセットの1つまたは複数のクラスに分類させ、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類され、分類に基づいて画像フレームのクラス確率ベクトルを生成させ、クラス確率ベクトルは、各事前定義されたクラスの画像フレームの分類の確率のセットを含み、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値を二値化させ、対応する二値化確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレーム内の1つまたは複数のクラスの1つまたは複数の遷移を決定させ、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて圧縮された単語のシーケンスを生成させ、1つまたは複数のユーザアクションを注するために圧縮された単語のシーケンスを分析することによって1つまたは複数のユーザアクションを抽出させ、かつ、そこから人間のアクティビティを認識させる。
【0010】
本開示は、ビデオストリームから人間のアクティビティを認識するためのシステムを提供することを目的とする。このようなシステムは、ビデオストリームからの人間のアクティビティの効率的で信頼できる認識を可能にする。
【0011】
本開示の特徴は、添付の特許請求の範囲によって定義されるように本開示の範囲から逸脱することなく、様々な組合せで組み合わせることができることを理解されたい。
【図面の簡単な説明】
【0012】
以上の発明の概要および例示的な実施形態の以下の詳細な説明は、添付図面と併せて読むとよりよく理解される。本開示を説明する目的のために、開示の例示的な構造が、図面において示される。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。
【0013】
ここで、本開示の実施形態は、以下の図を参照して、例としてのみ説明される。
【0014】
図1】本開示の様々な実施形態を実施することができる環境を示す図である。
図2】本開示の一実施形態による、図1のイメージングデバイスによってキャプチャされたビデオストリーム内の1つまたは複数の人間のアクションおよびアクティビティを認識するためのアクティビティ認識システムを示す図である。
図3】本開示の一実施形態による、ビデオストリームから人間のアクティビティを認識するための方法を示すフローチャートである。
【0015】
添付図面において、下線のある番号は、下線のある番号が配置されているアイテム、または下線のある番号が隣接しているアイテムを表すために使用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられた矢印が添えられている場合に、下線のない番号は、矢印が指す一般的なアイテムを識別するために使用される。
【発明を実施するための形態】
【0016】
以下の詳細な説明は、本開示の実施形態およびそれらを実装することができる方法を示す。本開示を実施するいくつかのモードが開示されているが、当業者は、本開示を実施または実践するための他の実施形態も可能であることを認識するであろう。
【0017】
図1は、本開示の様々な実施形態を実施することができる環境100を示す。環境100は、通信ネットワーク104を介して互いに通信可能に結合された、イメージングデバイス101、アクティビティ認識システム102、およびコンピューティングデバイス103を含む。通信ネットワーク104は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク(LAN)、無線LAN接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含み得る。
【0018】
イメージングデバイス101は、ビデオストリームをキャプチャするように構成される。本開示の一実施形態では、イメージングデバイス101は、セルフチェックアウトシステム(SCO)を含む小売チェックアウトプロセスの1つまたは複数のビデオをキャプチャするように構成される。オプションとして、イメージングデバイス101は、インターネットプロトコル(IP)カメラ、パンチルトズーム(PTZ)カメラ、熱画像カメラ、または赤外線カメラを含むが、これらに限定されない。
【0019】
アクティビティ認識システム102は、イメージングデバイス101によってキャプチャされたビデオストリーム内の人間のアクションおよび人間のアクティビティを認識するように構成される。
【0020】
アクティビティ認識システム102は、中央処理装置(CPU)106、操作パネル108、およびメモリ110を含む。CPU106は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル108およびメモリ110などの様々な構成要素の動作を制御する他の回路である。CPU106は、例えば、メモリ110などの揮発性または不揮発性メモリに格納されているか、またはそうでなければCPU106に提供されるソフトウェア、ファームウェア、および/または他の命令を実行し得る。CPU106は、1つまたは複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル108およびメモリ110に接続され得る。本開示の一実施形態では、CPU106は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックプロセシングユニット(GPU)サーバソフトウェアを含み得る。
【0021】
操作パネル108は、画像形成装置100のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとり得る。操作パネル108は、選択された機能、プリファレンス、および/または認証に関連する1または複数のユーザからの入力を受信することができ、視覚的および/または聴覚的に入力を提供および/または受信することができる。
【0022】
メモリ110は、画像形成装置100の動作を管理する際にCPU106によって使用される命令および/またはデータを格納することに加えて、画像形成装置100の1または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報(例えば、ユーザ名/パスワードのペア)、ユーザ設定、および他のユーザ固有の情報を含み得る。CPU106は、このデータにアクセスして、操作パネル108およびメモリ110の動作に関連する制御機能(例えば、1または複数の制御信号の送信および/または受信)を提供するのを支援し得る。
【0023】
イメージングデバイス101およびアクティビティ認識システム102は、コンピューティングデバイス103によって制御/操作され得る。コンピューティングデバイス103の例は、スマートフォン、パーソナルコンピュータ、ラップトップなどを含む。コンピューティングデバイス103は、ユーザ/オペレータが、イメージングデバイス101によってキャプチャされたビデオを表示および保存し、アクティビティ認識システム102によって処理されたビデオ/画像にアクセスすることを可能にする。コンピューティングデバイス103は、ユーザがイメージングデバイス101によってキャプチャされたビデオストリームにアクセスして処理することを可能にするように、アクティビティ認識システム102のモバイルアプリケーションを実行し得る。
【0024】
一実施形態では、カメラ101、アクティビティ認識システム102、およびコンピューティングデバイス103は、単一のデバイスに統合し得、単一のデバイスは、内蔵カメラおよびディスプレイを有する携帯型スマートフォンである。
【0025】
図2は、本開示の一実施形態による、イメージングデバイス101によってキャプチャされたビデオストリーム内の1つまたは複数の人間のアクションおよびアクティビティを認識するためのアクティビティ認識システム102を示す。
【0026】
アクティビティ認識システム102は、ビデオストリームの各フレームを分析して少なくとも1つのアクション関心領域を決定するように動作可能な分類器202を含むCPU106を含み、少なくとも1つの関心領域は少なくとも1つのオブジェクトを含む。アクション関心領域は、ビデオストリームの各フレーム内の長方形の領域を指し、少なくとも1つのオブジェクトが表示され、1つまたは複数のアクションが行われる。一例では、少なくとも1つのオブジェクトは、人、衣料品、食料品、財布などのオブジェクトであり得、1つまたは複数のアクションは、そのポケットから財布を取り出す人、列を歩いている人、クレジットカードをスワイプする人などを含み得る。各アクションは、プロセスモデル抽出の構成要素として使用することができ、プロセスは一連のアクションとして表現することができる。
【0027】
本開示の一実施形態では、分類器202は、SCOスキャン領域(スキャンアクション関心領域)のビデオの画像フレームを、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスに分類するように訓練された畳み込みニューラルネットワーク(CNN)などのアルゴリズムベースの分類器であり得る。各クラスの画像フレームの分類の基準を以下に述べる。
【0028】
手-画像フレームは人間の手を示す。
【0029】
手の中にあるオブジェクト-画像フレームはユーザの手の中にあるオブジェクトを示す。
【0030】
オブジェクト-画像フレームはオブジェクトのみを示す。
【0031】
身体部分-画像フレームは人間の身体部分を示す。
【0032】
空のスキャナ-画像フレームは空のスキャナのみを示す。
【0033】
本明細書で言及されるCNNは、主に、少なくとも1つの関心領域における少なくとも1つのオブジェクトを分類するために使用される、訓練された深層人工ニューラルネットワークとして定義される。特に、それらは、顔、個人、道路標識などを識別することができるアルゴリズムである。本明細書で使用される「ニューラルネットワーク」という用語は、それぞれオプションでローカルメモリに関連付けられた処理要素の高度に相互接続されたネットワークを含むことができる。一例では、ニューラルネットワークは、コホーネンマップ、多層パーセプトロンなどであり得る。さらに、ニューラルネットワークの処理要素は、「人工ニューラルユニット」、「人工ニューロン」、「ニューラルユニット」、「ニューロン」、「ノード」などとすることができる。さらに、ニューロンは、入力もしくは1つまたは複数の他のニューロンからデータを受信し、データを処理し、処理されたデータを出力もしくはさらに1つまたは複数の他のニューロンに送信することができる。ニューラルネットワークまたはその1つまたは複数のニューロンは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせのいずれかで生成することができ、その後、ニューラルネットワークは訓練することができる。畳み込みニューラルネットワーク(CNN)は、入力層、複数の隠れ層、および出力層から構成されることを理解されるだろう。さらに、畳み込みニューラルネットワークの複数の隠れ層は、典型的に、畳み込み層、プーリング層、全結合層、および正規化層からなる。任意選択で、Visual Geometry Group 19(VGG19)モデルが畳み込みニューラルネットワークアーキテクチャとして使用される。VGG19モデルは、ビデオストリームのフレーム内の少なくとも1つのオブジェクトをクラスに分類するように構成されている。隠れ層は、畳み込み層の複数のセットを含むことが理解されるであろう。
【0034】
動作中、分類器202は、SCOスキャン領域(スキャンアクション関心領域)のビデオストリームの画像フレームを受信し、画像フレームの内容に基づいて、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスに分類する。本開示の一実施形態では、分類器202は、各画像フレームを静的に分析し、各画像フレームについて、考慮されるクラスごとに1つのコンポーネントを有するクラス確率ベクトルPvを、Pv={PHand,PHandObject,PObject,PBodyPart,PEmptyScanner}のように出力し、
ここで、PHand=クラス「手」に分類される画像フレームの確率、
HandObject=クラス「手の中にあるオブジェクト」に分類される画像フレームの確率、
Object=クラス「オブジェクト」に分類される画像フレームの確率、
BodyPart=クラス「身体部分」に分類される画像フレームの確率、
EmptyScanner=クラス「空のスキャナ」に分類される画像フレームの確率
である。
【0035】
一例では、分類器202は、以下に与えられるフォーマットで、5つのクラスの6つの連続する画像フレームについて、6つの確率ベクトルPv1からPv6までを生成する。
v1={0.0,0.0,0.0,0.0,1.0}
v2={0.0,0.0,0.28,0.0,0.72}
v3={0.0,0.0,0.26,0.0,0.74}
v4={0.0,0.0,0.19,0.0,0.81}
v5={0.0,0.0,0.29,0.0,0.71}Pv6={0.0,0.45,0.14,0.0,0.41}
【0036】
CPU106は、分類器202によって決定された各スキャンアクションのために量子化された署名を生成するための量子化署名生成モジュール204をさらに含む。スキャンアクションは、セルフチェックアウト(SCO)端末のスキャンゾーンでアイテムをスキャンするために実行されるユーザアクションである。
【0037】
量子化署名生成モジュール204は、データフィルタリングおよび二値化モジュール205、サイレントインターバル検出モジュール206、および圧縮単語構成モジュール207を含む。
【0038】
データフィルタリングおよび二値化モジュール205は、分類器202によって生成されたクラス確率ベクトルにフィルタを適用して、分類器202によるエラーを最小化するように構成される。分類器202が、1つの孤立したフレームを除くシーケンス全体に対して単一のクラスを使用してスキャナ上の連続的な動きを分類する場合、分類器エラーが現れる。このような場合、孤立したフレームが誤って分類される可能性がある。
【0039】
以下は、ビデオストリームの6つの連続する画像フレームに対する分類器202からの確率ベクトルの出力例であり、6つの連続する画像フレームは、スキャナ上の連続的な動きをカバーする。画像フレームの場合、各確率ベクトルPvnは、「手」、「手の中にあるオブジェクト」、「オブジェクト」、「身体部分」、「空のスキャナ」の5つのクラスのそれぞれに画像フレームの分類の確率を含む。
v1={0.0,0.0,0.28,0.0,0.72}
v2={0.0,0.0,0.28,0.0,0.72}
v3={0.0,0.0,0.01,0.27,0.72}
v4={0.0,0.0,0.28,0.0,0.72}
v5={0.0,0.0,0.28,0.0,0.72}
v6={0.0,0.0,0.28,0.0,0.72}
【0040】
ビデオシーケンスの3番目の画像フレームの確率ベクトルPv3が異なることがはっきりと分かり、これは、分類器202による3番目の画像フレームの分類にエラーがあることを意味する。データフィルタリングおよび二値化モジュール205は、6つのフレームが実質的に同様の情報をカバーするという情報に基づいて、3番目の画像フレームの分類におけるエラーを修正する。本開示の一実施形態では、データフィルタリングおよび二値化モジュール205は、エラーのあるフレームを除去することによってエラーを修正する。
【0041】
次に、データフィルタリングおよび二値化モジュール205は、ヒューリスティック閾値を使用して確率ベクトルのフィルタリングされた値を二値化するように構成され、確率ベクトルの各コンポーネントには、それがヒューリスティック閾値以上の場合に値「1」が割り当てられ、それ以外の場合は「0」が割り当てられる。
【0042】
一例では、ヒューリスティック閾値が0.2である場合、5つの連続する画像フレームの例示的なフィルタリングされた確率ベクトルPvfは、以下のように表され得、
vf1={0.0,0.0,0.0,0.0,1.0}
vf2={0.0,0.0,0.28,0.0,0.72}
vf3={0.0,0.0,0.26,0.0,0.74}
vf4={0.0,0.0,0.39,0.0,0.71}
vf5={0.0,0.45,0.14,0.0,0.41}
対応する二値化された確率ベクトルPvbは、以下のように表され得る。
vb1={00001}
vb2={00101}
vb3={00101}
vb4={00101}
vb5={01001}
【0043】
したがって、各二値化確率ベクトルPvbは、一連の2進数の二値化文字列であり、連続するフレーム内のクラスの遷移を決定するために使用することができる。たとえば、最初の画像フレームでは、クラス「オブジェクト」に対応する2進値は「0」であり、2番目の画像フレームでは、クラス「オブジェクト」に対応する2進値は「1」であり、これは、最初の画像フレームから2番目の画像フレームへのクラスの遷移が明らかに存在することを意味する。同様に、4番目の画像フレームでは、クラス「手の中にあるオブジェクト」に対応する2進値は「0」であり、クラス「オブジェクト」に対応する2進値は「1」である。5番目のフレームでは、「手の中にあるオブジェクト」の2進値が「1」に変化し、「オブジェクト」の2進値が「0」に変化する。これは、4番目から5番目のフレームへの遷移中にユーザがオブジェクトを彼らの手の中に持っていることを明確に示す。したがって、二値化/量子化された確率ベクトルは、連続する画像フレーム内のクラスの遷移に関する情報を提供する。
【0044】
サイレントインターバル検出モジュール206は、ビデオストリーム内の1つまたは複数のサイレントインターバルを検出するように構成される。本開示の一実施形態では、サイレントインターバルの間、閾値期間にスキャンゾーンでアクティビティは検出されない。一例では、閾値期間は「0.5秒」として設定され得、0.5秒を超える時間間隔は、対応する画像フレームのクラス「空のスキャナ」の2進値が時間間隔全体で「1」のままである場合、「サイレントインターバル間隔」としてマークされる。
【0045】
圧縮単語構成モジュール207は、データフィルタリングおよび二値化モジュール205によって生成された二値化文字列に基づいて圧縮単語のシーケンスを生成するように構成される。圧縮された単語は、連続する画像フレームの「1」から「0」および「0」から「1」へのクラスの遷移に基づいて生成される。
【0046】
本開示の一実施形態では、各単語は、プロセスアクションセマンティクスに相関する2×N文字を含むアルファベットの文字から構成され、ここで、Nはクラスの数を表す。一例では、クラスの数が5であるの場合、各単語は合計10文字で構成される。各クラスについて、「0->1」遷移は特定の「開始」文字(たとえば、クラス「オブジェクト」の場合は「O」)を生成し、「1->0」遷移は「終了」文字(たとえば、クラス「オブジェクト」の場合は「o」)を生成する。
【0047】
したがって、5つのクラス、すなわち、「手」、「手の中にあるオブジェクト」、「オブジェクト」、「身体部分」、および「空のスキャナ」のアルファベットには、次の文字が含まれる。
classHand up:H down:h
classHandObject up:Q down:q
classObject up:O down:o
classBodyPart up:B down:b
classEmptyScanner up:E down:e
【0048】
本開示の一実施形態では、2つの隣接する単語は、「空のスキャナ」として分類される少なくとも1つのフレームによって分離される。これは、連続する「1」「空のスキャナ」値の長さに応じて、サイレントインターバルを表す場合とそうでない場合がある。
【0049】
圧縮単語構成モジュール207によって生成された量子化された出力の例を以下に示す。
Silence
OoE
Silence
OQoOqBobE
Silence
【0050】
シーケンス依存分類器208は、圧縮単語構成モジュール207から量子化された出力を受け取り、アルファベット文字として表される遷移の連続シーケンスから1つまたは複数のスキャンアクションを抽出するように構成される。シーケンス依存分類器208は、本明細書で使用される機械学習ベースのエンジンを含み、アルゴリズムおよび統計モデルを研究し、パターンおよび推論に依存して、明示的な命令を使用せずにそれらを使用して特定のタスクを効果的に実行することができるエンジンに関する。シーケンス依存分類器208の例は、リカレントニューラルネットワーク(RNN)、K最近傍アルゴリズム(KNN)、およびサポートベクターマシン(SVM)アルゴリズムなどを含む。
【0051】
シーケンス依存分類器208は、圧縮された単語のシーケンスを分析して、ビデオストリームから人間のアクティビティを認識する。関心領域におけるクラスのさまざまな遷移を決定するために、圧縮された単語のシーケンスが分析される。クラスの遷移のそのような決定は、ビデオストリームからの人間のアクティビティの認識につながる。シーケンス依存分類器208は、基本的なアクションを示唆する二値化された入力信号の遷移を認識する。
【0052】
したがって、量子化署名生成モジュール204は、アクティビティが行われる関心領域を観察する分類器202から来る入力信号のための量子化プロセスを提供する。遷移量子化の方法は、シーケンス依存分類器208を使用して、アクティビティ認識における時間変動および身体部分の動きの多様性の影響を低減することを目的とする。
【0053】
図3は、本開示の一実施形態による、ビデオストリームから人間のアクティビティを認識するための方法300を示すフローチャートである。いくつかのステップは、図2に示されるようなシステムに関して議論され得る。
【0054】
ステップ302において、事前定義されたクラスのセットの1つまたは複数のクラスにおけるビデオストリームの画像フレームは、分類器によって分類され、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類される。本開示の一実施形態では、分類器は畳み込みニューラルネットワークである。本開示の別の実施形態では、セルフチェックアウト(SCO)スキャンゾーンのための事前定義されたクラスのセットは、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナなどのクラスを含む。
【0055】
ステップ304において、分類に基づいて画像フレームに対してクラス確率ベクトルが生成され、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含む。一例では、クラス確率ベクトルPvは次のように表され、
v={PHand,PHandObject,PObject,PBodyPart,PEmptyScanner
ここで、PHand=クラス「手」に分類される画像フレームの確率、
HandObject=クラス「手の中にあるオブジェクト」に分類される画像フレームの確率、
Object=クラス「オブジェクト」に分類される画像フレームの確率、
BodyPart=クラス「身体部分」に分類される画像フレームの確率、
EmptyScanner=クラス「空のスキャナ」に分類される画像フレームの確率
である。
【0056】
ステップ306において、クラス確率ベクトルの各確率値は、事前定義された確率閾値に基づいて二値化される。一例では、確率ベクトルの各コンポーネントには、それがヒューリスティック閾値以上である場合は値「1」が割り当てられ、それ以外の場合は「0」が割り当てられる。
【0057】
ステップ308において、1つまたは複数のクラスの1つまたは複数の遷移は、対応する二値化された確率ベクトルに基づいて、ビデオストリームの1つまたは複数の連続する画像フレームにおいて決定される。たとえば、最初の画像フレームでは、クラス「オブジェクト」に対応する2進値は「0」であり、2番目の画像フレームでは、クラス「オブジェクト」に対応する2進値は「1」であり、これは、最初の画像フレームから2番目の画像フレームへのクラスの遷移が明らかに存在することを意味する。
【0058】
ステップ310において、圧縮された単語のシーケンスが、1つまたは複数の連続する画像フレームにおける決定された1つまたは複数の遷移に基づいて生成される。圧縮された単語は、連続する画像フレームにおける「1」から「0」および「0」から「1」へのクラスの遷移に基づいて生成される。本開示の一実施形態では、圧縮された単語は、事前定義されたクラスの数の2倍に相当する数の文字を含むアルファベットの文字から形成される。さらに、圧縮された単語のシーケンスの圧縮された単語のそれぞれは、それらの間に非アクティビティの少なくとも1つのフレームを含む。一例では、クラスの数が5であるの場合、各単語は合計10文字で構成される。各クラスについて、「0->1」遷移は特定の「開始」文字(たとえば、クラス「オブジェクト」の場合は「O」)を生成し、「1->0」遷移は「終了」文字(たとえば、クラス「オブジェクト」の場合は「o」)を生成する。
【0059】
ステップ312において、シーケンス依存分類器による圧縮された単語のシーケンスの分析に基づいて、1つまたは複数のユーザアクションが抽出される。1つまたは複数のユーザアクションは、SCOスキャン領域(スキャンアクション関心領域)における人間のアクティビティを認識し、認識結果をユーザコンピューティングデバイスに送信するために使用され得る。いくつかの実施形態では、ユーザコンピューティングデバイスは、認識結果を格納または表示するように構成され得る。本開示の一実施形態では、シーケンス依存分類器はリカレントニューラルネットワークである。
【0060】
本開示はまた、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品に関し、ソフトウェア製品は、ビデオストリームから人間のアクティビティを認識する方法を実装するためにコンピューティングハードウェア上で実行可能である。
【0061】
前述の発明の実施形態への変更は、添付の特許請求の範囲によって定義される発明の範囲から逸脱することなく可能である。本発明を説明し、特許請求するために使用される「含む」、「備える」、「組み込む」、「からなる」、「有する」、「である」などの表現は、非排他的な方法で解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素も存在することを可能にする。単数形への言及も、複数形に関連していると解釈されるべきである。添付の特許請求の範囲で括弧内に含まれる数字は、特許請求の範囲の理解を助けることを意図しており、これらの特許請求の範囲によって請求される主題を限定するものと解釈されるべきではない。
図1
図2
図3