特許7285973 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エバーシーン　リミテッドの特許一覧

特許7285973アクティビティ認識のための量子化された遷移変化の検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-25

(45)【発行日】2023-06-02

(54)【発明の名称】アクティビティ認識のための量子化された遷移変化の検出

(51)【国際特許分類】

G06T 7/00 20170101AFI20230526BHJP

G06V 20/62 20220101ALI20230526BHJP

【ＦＩ】

G06T7/00 350C

G06V20/62

【請求項の数】 16

(21)【出願番号】P 2021578060

(86)(22)【出願日】2020-05-12

(65)【公表番号】

(43)【公表日】2022-09-14

(86)【国際出願番号】 IB2020054488

(87)【国際公開番号】W WO2021001702

(87)【国際公開日】2021-01-07

【審査請求日】2021-12-28

(31)【優先権主張番号】16/458,288

(32)【優先日】2019-07-01

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】518072210

【氏名又は名称】エバーシーンリミテッド

【氏名又は名称原語表記】ＥｖｅｒｓｅｅｎＬｉｍｉｔｅｄ

【住所又は居所原語表記】４ｔｈＦｌｏｏｒ，ＴｈｅＡｔｒｉｕｍ，ＢｌａｃｋｐｏｏｌＲｅｔａｉｌＰａｒｋ，Ｂｌａｃｋｐｏｏｌ，Ｃｏｒｋ，Ｉｒｅｌａｎｄ

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】ダンペスカル

(72)【発明者】

【氏名】コスミンセルナザヌ－グラヴァン

(72)【発明者】

【氏名】ヴァシレグイ

【審査官】千葉久博

(56)【参考文献】

【文献】特開２０１３－４５４３３（ＪＰ，Ａ）

【文献】特開２０１２－０６９１０３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１４／０２９４３６０（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１２／０３２０１９９（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ２０／６２

(57)【特許請求の範囲】

【請求項1】

イメージングデバイスによってキャプチャされたビデオストリームから人間のアクティビティを認識するためのシステムであって、前記システムは、
１つまたは複数の命令を格納するためのメモリと、
前記１つまたは複数の命令を実行するために前記メモリに通信可能に結合されたプロセッサであって、前記プロセッサは、
前記イメージングデバイスに通信可能に結合された分類器であって、
前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの１つまたは複数のクラスに分類し、前記画像フレームは、前記画像フレーム内で識別された少なくとも１つのオブジェクトおよび１つまたは複数のアクションに基づいて分類され、
前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成し、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含む、ように構成された分類器と、
事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値をフィルタリングし、かつ二値化して、二値化された確率ベクトルを生成するように構成されたデータフィルタリングおよび二値化モジュールと、
圧縮単語構成モジュールであって、
前記二値化された確率ベクトルを、連続する画像フレームごとに比較することによって、前記ビデオストリームの１つまたは複数の連続する画像フレームにおける１つまたは複数のクラスの１つまたは複数の遷移を決定し、
前記１つまたは複数の連続する画像フレームにおける前記決定された１つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成し、圧縮された単語は、事前定義されたクラスの数の２倍に等しい数の文字を含むアルファベットの文字から形成され、各遷移は前記アルファベットの文字に対応する、ように構成された圧縮単語構成モジュールと、
前記圧縮された単語のシーケンスを分析することによって１つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識するように構成されたシーケンス依存分類器と
を含むプロセッサと
を備えたシステム。

【請求項2】

前記分類器は、畳み込みニューラルネットワークである、請求項１に記載のシステム。

【請求項3】

セルフチェックアウト（ＳＣＯ）スキャンゾーンのための前記事前定義されたクラスのセットが、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナを含む前記１つまたは複数のクラスを含む、請求項１に記載のシステム。

【請求項4】

前記データフィルタリングおよび二値化モジュールは、１つまたは複数の連続する画像フレームの前記クラス確率ベクトルにおける分類器エラーを排除するようにさらに動作可能である、請求項１に記載のシステム。

【請求項5】

前記プロセッサは、サイレントインターバル検出モジュールをさらに備え、前記サイレントインターバル検出モジュールは、事前定義された閾値期間に前記画像フレームにおけるアクティビティ検出がないことに基づいて、前記ビデオストリーム内の１つまたは複数のサイレントインターバルを検出するように構成される、請求項１に記載のシステム。

【請求項6】

前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも１つのフレームを含む、請求項１に記載のシステム。

【請求項7】

前記シーケンス依存分類器は、リカレントニューラルネットワークである、請求項１に記載のシステム。

【請求項8】

ビデオストリームから人間のアクティビティを認識するための方法であって、前記方法は、
分類器によって、前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの１つまたは複数のクラスに分類することであって、前記画像フレームは、前記画像フレーム内で識別された少なくとも１つのオブジェクトおよび１つまたは複数のアクションに基づいて分類されることと、
前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成することであって、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含むことと、
事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値を二値化して、二値化された確率ベクトルを生成することと、
前記二値化された確率ベクトルを、連続する画像フレームごとに比較することによって、前記ビデオストリームの１つまたは複数の連続する画像フレームにおける１つまたは複数のクラスの１つまたは複数の遷移を決定することと、
前記１つまたは複数の連続する画像フレームにおいて前記決定された１つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成することであって、圧縮された単語は、事前定義されたクラスの数の２倍に等しい数の文字を含むアルファベットの文字から形成され、各遷移は前記アルファベットの文字に対応する、ことと、
シーケンス依存分類器によって前記圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することによって、１つまたは複数のユーザアクションを抽出することと
を含む方法。

【請求項9】

前記分類器は、畳み込みニューラルネットワークである、請求項８に記載の方法。

【請求項10】

セルフチェックアウト（ＳＣＯ）スキャンゾーンのための前記事前定義されたクラスのセットが、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナを含む前記１つまたは複数のクラスを含む、請求項８に記載の方法。

【請求項11】

１つまたは複数の連続する画像フレームのクラス確率ベクトルにおける分類器エラーを排除することをさらに含む、請求項８に記載の方法。

【請求項12】

事前定義された閾値期間に前記画像フレームでのアクティビティ検出がないことに基づいて、前記ビデオストリーム内の１つまたは複数のサイレントインターバルを検出することをさらに含む、請求項８に記載の方法。

【請求項13】

前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも１つのフレームを含む、請求項８に記載の方法。

【請求項14】

前記シーケンス依存分類器は、リカレントニューラルネットワークである、請求項８に記載の方法。

【請求項15】

ビデオストリームから人間のアクティビティを認識するためのコンピュータプログラムであって、前記コンピュータプログラムは、命令のセットを含み、前記命令のセットはプロセッサによって実行されると、前記プロセッサに、
前記ビデオストリームの画像フレームを、事前定義されたクラスのセットの１つまたは複数のクラスに分類させ、前記画像フレームは、前記画像フレーム内で識別された少なくとも１つのオブジェクトおよび１つまたは複数のアクションに基づいて分類され、
前記分類に基づいて前記画像フレームに対してクラス確率ベクトルを生成させ、前記クラス確率ベクトルは、各事前定義されたクラスにおける前記画像フレームの分類の確率のセットを含み、
事前定義された確率閾値に基づいて前記クラス確率ベクトルの各確率値を二値化させて、二値化された確率ベクトルを生成させ、
前記二値化された確率ベクトルを、連続する画像フレームごとに比較することによって、前記ビデオストリームの１つまたは複数の連続する画像フレームにおける１つまたは複数のクラスの１つまたは複数の遷移を決定させ、
前記１つまたは複数の連続する画像フレームにおける前記決定された１つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成させ、圧縮された単語は、事前定義されたクラスの数の２倍に等しい数の文字を含むアルファベットの文字から形成され、各遷移は前記アルファベットの文字に対応し、
前記圧縮された単語のシーケンスを分析し、そこから人間のアクティビティを認識することにより、１つまたは複数のユーザアクションを抽出させる、コンピュータプログラム。

【請求項16】

前記圧縮された単語のシーケンスの前記圧縮された単語のそれぞれが、それらの間に非アクティビティの少なくとも１つのフレームを含む、請求項１５に記載のコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般に人工知能に関し、より具体的には、ビデオストリームからの人間のアクティビティ認識およびシンボリック処理に関する。

【背景技術】

【0002】

技術の進歩に伴い、人間の身体アクティビティの認識は非常に重要になっている。人間の身体アクティビティの認識は、セルフチェックアウト（ＳＣＯ）システムを含む小売店のチェックアウトプロセスの監視など、さまざまなアプリケーションに貢献する。このようなシステムにより、購入者は自分で購入のプロセスを完了することができる。人間の身体アクティビティの認識の適用の別の例は、盗難などの万引き犯によって行われた不公正なアクティビティを検出し、それによって盗難を防ぐために店で雇用されている職員に警告することによってビデオ監視の支援を提供することである。さらに、人間の身体アクティビティの認識は、インテリジェントドライバー支援システム、困っている人のためのアシステッドリビングシステム、ビデオゲーム、理学療法などで採用されている。さらに、人間の身体アクティビティの認識は、スポーツ、軍事、医療、ロボット工学などの分野で積極的に使用されている。

【0003】

人間の身体アクティビティは、ほとんどのプロセスモデリングの構成要素を表す。しかしながら、人間の行動は予測できないため、多様な環境でのそのような人間の身体アクティビティの認識は困難なタスクである。人間の身体アクティビティは典型的に、手、足、顔などのさまざまな人間の身体部分を含む基本的なアクションのセットに分解可能である。さらに、人間の身体アクティビティに関連する基本的なアクションのセットは、複数の時間間隔にまたがっている。そのようなアクティビティの認識タスクは、変動する時間間隔にわたるアクションの全体的なシーケンスを要約するという問題に直面する。

【0004】

従来の人間の身体アクティビティ認識技術は、各人間の体の異なる身体構造、異なる体型、異なる肌の色などのために、人間の身体アクティビティを認識するのに非効率的である。また、人間のアクティビティのタイムフレームは、対象者、そしておそらく他の環境条件に応じて、時間の重要な変動をもたらす。さらに、すべての基本的な身体部分の動きが、考慮されるアクティビティの目的に関連しているわけではない。したがって、アクティビティ認識プロセスは、アクティビティに関与する人間の身体部分のアクション時間変動および物理的軌道変動に関連する２つの主要な問題に直面する。

【0005】

したがって、前述の議論に照らして、人間の身体アクティビティの認識に関連する前述の欠点を克服し、リカレントニューラルネットワークを使用したアクティビティ認識における時間変動および身体部分の動きの多様性の影響を低減することを目的とするシステムおよび方法を提供する必要がある。

【発明の概要】

【0006】

本開示は、ビデオストリームから人間のアクティビティを認識するためのシステムおよびその方法を提供することを目的とする。

【0007】

本開示の一態様によれば、イメージングデバイスによってキャプチャされたビデオストリームから人間のアクティビティを認識するためのシステムが提供される。このシステムは、１つまたは複数の命令を格納するためのメモリと、メモリに通信可能に結合されたプロセッサを含む。このシステムは、イメージングデバイスに通信可能に結合された分類器であって、ビデオストリームの画像フレームを、事前定義されたクラスのセットの１つまたは複数のクラスに分類し、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類され、分類に基づいて画像フレームのクラス確率ベクトルを生成し、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含む、ように構成された分類器を含む。システムはさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値をフィルタリングし、かつ二値化するように構成されたデータフィルタリングおよび二値化モジュールを含む。システムはさらに、対応する二値化確率ベクトルに基づいて、ビデオストリームの１つまたは複数の連続する画像フレーム内の１つまたは複数のクラスの１つまたは複数の遷移を決定し、１つまたは複数の連続する画像フレームにおける決定された１つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成する圧縮単語構成モジュールを含む。システムはさらに、圧縮された単語のシーケンスを分析することによって１つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識するように構成されたシーケンス依存分類器を含む。

【0008】

本開示の別の態様によれば、ビデオストリームから人間のアクティビティを認識するための方法が提供される。この方法は、分類器によって、ビデオストリームの画像フレームを、事前定義されたクラスのセットの１つまたは複数のクラスに分類することであって、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類されることを含む。この方法はさらに、分類に基づいて画像フレームのクラス確率ベクトルを生成することであって、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含むことを含む。この方法はさらに、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値を二値化することを含む。この方法はさらに、対応する二値化確率ベクトルに基づいて、ビデオストリームの１つまたは複数の連続する画像フレームにおける１つまたは複数のクラスの１つまたは複数の遷移を決定することを含む。この方法はさらに、１つまたは複数の連続する画像フレームにおける決定された１つまたは複数の遷移に基づいて、圧縮された単語のシーケンスを生成することを含む。この方法はさらに、圧縮された単語のシーケンスを分析することによって１つまたは複数のユーザアクションを抽出し、そこから人間のアクティビティを認識することを含む。

【0009】

本開示のさらに別の態様によれば、ビデオストリームから人間のアクティビティを認識するためのコンピュータプログラム可能な製品が提供され、コンピュータプログラム可能な製品は、命令のセットを含む。命令のセットは、プロセッサによって実行されると、プロセッサに、ビデオストリームの画像フレームを、事前定義されたクラスのセットの１つまたは複数のクラスに分類させ、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類され、分類に基づいて画像フレームのクラス確率ベクトルを生成させ、クラス確率ベクトルは、各事前定義されたクラスの画像フレームの分類の確率のセットを含み、事前定義された確率閾値に基づいてクラス確率ベクトルの各確率値を二値化させ、対応する二値化確率ベクトルに基づいて、ビデオストリームの１つまたは複数の連続する画像フレーム内の１つまたは複数のクラスの１つまたは複数の遷移を決定させ、１つまたは複数の連続する画像フレームにおける決定された１つまたは複数の遷移に基づいて圧縮された単語のシーケンスを生成させ、１つまたは複数のユーザアクションを注するために圧縮された単語のシーケンスを分析することによって１つまたは複数のユーザアクションを抽出させ、かつ、そこから人間のアクティビティを認識させる。

【0010】

本開示は、ビデオストリームから人間のアクティビティを認識するためのシステムを提供することを目的とする。このようなシステムは、ビデオストリームからの人間のアクティビティの効率的で信頼できる認識を可能にする。

【0011】

本開示の特徴は、添付の特許請求の範囲によって定義されるように本開示の範囲から逸脱することなく、様々な組合せで組み合わせることができることを理解されたい。

【図面の簡単な説明】

【0012】

以上の発明の概要および例示的な実施形態の以下の詳細な説明は、添付図面と併せて読むとよりよく理解される。本開示を説明する目的のために、開示の例示的な構造が、図面において示される。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。

【0013】

ここで、本開示の実施形態は、以下の図を参照して、例としてのみ説明される。

【0014】

【図1】本開示の様々な実施形態を実施することができる環境を示す図である。

【図2】本開示の一実施形態による、図１のイメージングデバイスによってキャプチャされたビデオストリーム内の１つまたは複数の人間のアクションおよびアクティビティを認識するためのアクティビティ認識システムを示す図である。

【図3】本開示の一実施形態による、ビデオストリームから人間のアクティビティを認識するための方法を示すフローチャートである。

【0015】

添付図面において、下線のある番号は、下線のある番号が配置されているアイテム、または下線のある番号が隣接しているアイテムを表すために使用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられた矢印が添えられている場合に、下線のない番号は、矢印が指す一般的なアイテムを識別するために使用される。

【発明を実施するための形態】

【0016】

以下の詳細な説明は、本開示の実施形態およびそれらを実装することができる方法を示す。本開示を実施するいくつかのモードが開示されているが、当業者は、本開示を実施または実践するための他の実施形態も可能であることを認識するであろう。

【0017】

図１は、本開示の様々な実施形態を実施することができる環境１００を示す。環境１００は、通信ネットワーク１０４を介して互いに通信可能に結合された、イメージングデバイス１０１、アクティビティ認識システム１０２、およびコンピューティングデバイス１０３を含む。通信ネットワーク１０４は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク（ＬＡＮ）、無線ＬＡＮ接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含み得る。

【0018】

イメージングデバイス１０１は、ビデオストリームをキャプチャするように構成される。本開示の一実施形態では、イメージングデバイス１０１は、セルフチェックアウトシステム（ＳＣＯ）を含む小売チェックアウトプロセスの１つまたは複数のビデオをキャプチャするように構成される。オプションとして、イメージングデバイス１０１は、インターネットプロトコル（ＩＰ）カメラ、パンチルトズーム（ＰＴＺ）カメラ、熱画像カメラ、または赤外線カメラを含むが、これらに限定されない。

【0019】

アクティビティ認識システム１０２は、イメージングデバイス１０１によってキャプチャされたビデオストリーム内の人間のアクションおよび人間のアクティビティを認識するように構成される。

【0020】

アクティビティ認識システム１０２は、中央処理装置（ＣＰＵ）１０６、操作パネル１０８、およびメモリ１１０を含む。ＣＰＵ１０６は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル１０８およびメモリ１１０などの様々な構成要素の動作を制御する他の回路である。ＣＰＵ１０６は、例えば、メモリ１１０などの揮発性または不揮発性メモリに格納されているか、またはそうでなければＣＰＵ１０６に提供されるソフトウェア、ファームウェア、および／または他の命令を実行し得る。ＣＰＵ１０６は、１つまたは複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル１０８およびメモリ１１０に接続され得る。本開示の一実施形態では、ＣＰＵ１０６は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックプロセシングユニット（ＧＰＵ）サーバソフトウェアを含み得る。

【0021】

操作パネル１０８は、画像形成装置１００のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとり得る。操作パネル１０８は、選択された機能、プリファレンス、および／または認証に関連する１または複数のユーザからの入力を受信することができ、視覚的および／または聴覚的に入力を提供および／または受信することができる。

【0022】

メモリ１１０は、画像形成装置１００の動作を管理する際にＣＰＵ１０６によって使用される命令および／またはデータを格納することに加えて、画像形成装置１００の１または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報（例えば、ユーザ名／パスワードのペア）、ユーザ設定、および他のユーザ固有の情報を含み得る。ＣＰＵ１０６は、このデータにアクセスして、操作パネル１０８およびメモリ１１０の動作に関連する制御機能（例えば、１または複数の制御信号の送信および／または受信）を提供するのを支援し得る。

【0023】

イメージングデバイス１０１およびアクティビティ認識システム１０２は、コンピューティングデバイス１０３によって制御／操作され得る。コンピューティングデバイス１０３の例は、スマートフォン、パーソナルコンピュータ、ラップトップなどを含む。コンピューティングデバイス１０３は、ユーザ／オペレータが、イメージングデバイス１０１によってキャプチャされたビデオを表示および保存し、アクティビティ認識システム１０２によって処理されたビデオ／画像にアクセスすることを可能にする。コンピューティングデバイス１０３は、ユーザがイメージングデバイス１０１によってキャプチャされたビデオストリームにアクセスして処理することを可能にするように、アクティビティ認識システム１０２のモバイルアプリケーションを実行し得る。

【0024】

一実施形態では、カメラ１０１、アクティビティ認識システム１０２、およびコンピューティングデバイス１０３は、単一のデバイスに統合し得、単一のデバイスは、内蔵カメラおよびディスプレイを有する携帯型スマートフォンである。

【0025】

図２は、本開示の一実施形態による、イメージングデバイス１０１によってキャプチャされたビデオストリーム内の１つまたは複数の人間のアクションおよびアクティビティを認識するためのアクティビティ認識システム１０２を示す。

【0026】

アクティビティ認識システム１０２は、ビデオストリームの各フレームを分析して少なくとも１つのアクション関心領域を決定するように動作可能な分類器２０２を含むＣＰＵ１０６を含み、少なくとも１つの関心領域は少なくとも１つのオブジェクトを含む。アクション関心領域は、ビデオストリームの各フレーム内の長方形の領域を指し、少なくとも１つのオブジェクトが表示され、１つまたは複数のアクションが行われる。一例では、少なくとも１つのオブジェクトは、人、衣料品、食料品、財布などのオブジェクトであり得、１つまたは複数のアクションは、そのポケットから財布を取り出す人、列を歩いている人、クレジットカードをスワイプする人などを含み得る。各アクションは、プロセスモデル抽出の構成要素として使用することができ、プロセスは一連のアクションとして表現することができる。

【0027】

本開示の一実施形態では、分類器２０２は、ＳＣＯスキャン領域（スキャンアクション関心領域）のビデオの画像フレームを、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスに分類するように訓練された畳み込みニューラルネットワーク（ＣＮＮ）などのアルゴリズムベースの分類器であり得る。各クラスの画像フレームの分類の基準を以下に述べる。

【0028】

手－画像フレームは人間の手を示す。

【0029】

手の中にあるオブジェクト－画像フレームはユーザの手の中にあるオブジェクトを示す。

【0030】

オブジェクト－画像フレームはオブジェクトのみを示す。

【0031】

身体部分－画像フレームは人間の身体部分を示す。

【0032】

空のスキャナ－画像フレームは空のスキャナのみを示す。

【0033】

本明細書で言及されるＣＮＮは、主に、少なくとも１つの関心領域における少なくとも１つのオブジェクトを分類するために使用される、訓練された深層人工ニューラルネットワークとして定義される。特に、それらは、顔、個人、道路標識などを識別することができるアルゴリズムである。本明細書で使用される「ニューラルネットワーク」という用語は、それぞれオプションでローカルメモリに関連付けられた処理要素の高度に相互接続されたネットワークを含むことができる。一例では、ニューラルネットワークは、コホーネンマップ、多層パーセプトロンなどであり得る。さらに、ニューラルネットワークの処理要素は、「人工ニューラルユニット」、「人工ニューロン」、「ニューラルユニット」、「ニューロン」、「ノード」などとすることができる。さらに、ニューロンは、入力もしくは１つまたは複数の他のニューロンからデータを受信し、データを処理し、処理されたデータを出力もしくはさらに１つまたは複数の他のニューロンに送信することができる。ニューラルネットワークまたはその１つまたは複数のニューロンは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせのいずれかで生成することができ、その後、ニューラルネットワークは訓練することができる。畳み込みニューラルネットワーク（ＣＮＮ）は、入力層、複数の隠れ層、および出力層から構成されることを理解されるだろう。さらに、畳み込みニューラルネットワークの複数の隠れ層は、典型的に、畳み込み層、プーリング層、全結合層、および正規化層からなる。任意選択で、ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ１９（ＶＧＧ１９）モデルが畳み込みニューラルネットワークアーキテクチャとして使用される。ＶＧＧ１９モデルは、ビデオストリームのフレーム内の少なくとも１つのオブジェクトをクラスに分類するように構成されている。隠れ層は、畳み込み層の複数のセットを含むことが理解されるであろう。

【0034】

動作中、分類器２０２は、ＳＣＯスキャン領域（スキャンアクション関心領域）のビデオストリームの画像フレームを受信し、画像フレームの内容に基づいて、手、手の中にあるオブジェクト、オブジェクト、身体部分、空のスキャナなどのクラスに分類する。本開示の一実施形態では、分類器２０２は、各画像フレームを静的に分析し、各画像フレームについて、考慮されるクラスごとに１つのコンポーネントを有するクラス確率ベクトルＰｖを、Ｐ_v＝｛Ｐ_Hand，Ｐ_HandObject，Ｐ_Object，Ｐ_BodyPart，Ｐ_EmptyScanner｝のように出力し、
ここで、Ｐ_Hand＝クラス「手」に分類される画像フレームの確率、
Ｐ_HandObject＝クラス「手の中にあるオブジェクト」に分類される画像フレームの確率、
Ｐ_Object＝クラス「オブジェクト」に分類される画像フレームの確率、
Ｐ_BodyPart＝クラス「身体部分」に分類される画像フレームの確率、
Ｐ_EmptyScanner＝クラス「空のスキャナ」に分類される画像フレームの確率
である。

【0035】

一例では、分類器２０２は、以下に与えられるフォーマットで、５つのクラスの６つの連続する画像フレームについて、６つの確率ベクトルＰ_v1からＰ_v6までを生成する。
Ｐ_v1＝｛０．０，０．０，０．０，０．０，１．０｝
Ｐ_v2＝｛０．０，０．０，０．２８，０．０，０．７２｝
Ｐ_v3＝｛０．０，０．０，０．２６，０．０，０．７４｝
Ｐ_v4＝｛０．０，０．０，０．１９，０．０，０．８１｝
Ｐ_v5＝｛０．０，０．０，０．２９，０．０，０．７１｝Ｐ_v6＝｛０．０，０．４５，０．１４，０．０，０．４１｝

【0036】

ＣＰＵ１０６は、分類器２０２によって決定された各スキャンアクションのために量子化された署名を生成するための量子化署名生成モジュール２０４をさらに含む。スキャンアクションは、セルフチェックアウト（ＳＣＯ）端末のスキャンゾーンでアイテムをスキャンするために実行されるユーザアクションである。

【0037】

量子化署名生成モジュール２０４は、データフィルタリングおよび二値化モジュール２０５、サイレントインターバル検出モジュール２０６、および圧縮単語構成モジュール２０７を含む。

【0038】

データフィルタリングおよび二値化モジュール２０５は、分類器２０２によって生成されたクラス確率ベクトルにフィルタを適用して、分類器２０２によるエラーを最小化するように構成される。分類器２０２が、１つの孤立したフレームを除くシーケンス全体に対して単一のクラスを使用してスキャナ上の連続的な動きを分類する場合、分類器エラーが現れる。このような場合、孤立したフレームが誤って分類される可能性がある。

【0039】

以下は、ビデオストリームの６つの連続する画像フレームに対する分類器２０２からの確率ベクトルの出力例であり、６つの連続する画像フレームは、スキャナ上の連続的な動きをカバーする。画像フレームの場合、各確率ベクトルＰ_vnは、「手」、「手の中にあるオブジェクト」、「オブジェクト」、「身体部分」、「空のスキャナ」の５つのクラスのそれぞれに画像フレームの分類の確率を含む。
Ｐ_v1＝｛０．０，０．０，０．２８，０．０，０．７２｝
Ｐ_v2＝｛０．０，０．０，０．２８，０．０，０．７２｝
Ｐ_v3＝｛０．０，０．０，０．０１，０．２７，０．７２｝
Ｐ_v4＝｛０．０，０．０，０．２８，０．０，０．７２｝
Ｐ_v5＝｛０．０，０．０，０．２８，０．０，０．７２｝
Ｐ_v6＝｛０．０，０．０，０．２８，０．０，０．７２｝

【0040】

ビデオシーケンスの３番目の画像フレームの確率ベクトルＰ_v3が異なることがはっきりと分かり、これは、分類器２０２による３番目の画像フレームの分類にエラーがあることを意味する。データフィルタリングおよび二値化モジュール２０５は、６つのフレームが実質的に同様の情報をカバーするという情報に基づいて、３番目の画像フレームの分類におけるエラーを修正する。本開示の一実施形態では、データフィルタリングおよび二値化モジュール２０５は、エラーのあるフレームを除去することによってエラーを修正する。

【0041】

次に、データフィルタリングおよび二値化モジュール２０５は、ヒューリスティック閾値を使用して確率ベクトルのフィルタリングされた値を二値化するように構成され、確率ベクトルの各コンポーネントには、それがヒューリスティック閾値以上の場合に値「１」が割り当てられ、それ以外の場合は「０」が割り当てられる。

【0042】

一例では、ヒューリスティック閾値が０．２である場合、５つの連続する画像フレームの例示的なフィルタリングされた確率ベクトルＰ_vfは、以下のように表され得、
Ｐ_vf1＝｛０．０，０．０，０．０，０．０，１．０｝
Ｐ_vf2＝｛０．０，０．０，０．２８，０．０，０．７２｝
Ｐ_vf3＝｛０．０，０．０，０．２６，０．０，０．７４｝
Ｐ_vf4＝｛０．０，０．０，０．３９，０．０，０．７１｝
Ｐ_vf5＝｛０．０，０．４５，０．１４，０．０，０．４１｝
対応する二値化された確率ベクトルＰ_vbは、以下のように表され得る。
Ｐ_vb1＝｛００００１｝
Ｐ_vb2＝｛００１０１｝
Ｐ_vb3＝｛００１０１｝
Ｐ_vb4＝｛００１０１｝
Ｐ_vb5＝｛０１００１｝

【0043】

したがって、各二値化確率ベクトルＰ_vbは、一連の２進数の二値化文字列であり、連続するフレーム内のクラスの遷移を決定するために使用することができる。たとえば、最初の画像フレームでは、クラス「オブジェクト」に対応する２進値は「０」であり、２番目の画像フレームでは、クラス「オブジェクト」に対応する２進値は「１」であり、これは、最初の画像フレームから２番目の画像フレームへのクラスの遷移が明らかに存在することを意味する。同様に、４番目の画像フレームでは、クラス「手の中にあるオブジェクト」に対応する２進値は「０」であり、クラス「オブジェクト」に対応する２進値は「１」である。５番目のフレームでは、「手の中にあるオブジェクト」の２進値が「１」に変化し、「オブジェクト」の２進値が「０」に変化する。これは、４番目から５番目のフレームへの遷移中にユーザがオブジェクトを彼らの手の中に持っていることを明確に示す。したがって、二値化／量子化された確率ベクトルは、連続する画像フレーム内のクラスの遷移に関する情報を提供する。

【0044】

サイレントインターバル検出モジュール２０６は、ビデオストリーム内の１つまたは複数のサイレントインターバルを検出するように構成される。本開示の一実施形態では、サイレントインターバルの間、閾値期間にスキャンゾーンでアクティビティは検出されない。一例では、閾値期間は「０．５秒」として設定され得、０．５秒を超える時間間隔は、対応する画像フレームのクラス「空のスキャナ」の２進値が時間間隔全体で「１」のままである場合、「サイレントインターバル間隔」としてマークされる。

【0045】

圧縮単語構成モジュール２０７は、データフィルタリングおよび二値化モジュール２０５によって生成された二値化文字列に基づいて圧縮単語のシーケンスを生成するように構成される。圧縮された単語は、連続する画像フレームの「１」から「０」および「０」から「１」へのクラスの遷移に基づいて生成される。

【0046】

本開示の一実施形態では、各単語は、プロセスアクションセマンティクスに相関する２×Ｎ文字を含むアルファベットの文字から構成され、ここで、Ｎはクラスの数を表す。一例では、クラスの数が５であるの場合、各単語は合計１０文字で構成される。各クラスについて、「０－＞１」遷移は特定の「開始」文字（たとえば、クラス「オブジェクト」の場合は「Ｏ」）を生成し、「１－＞０」遷移は「終了」文字（たとえば、クラス「オブジェクト」の場合は「ｏ」）を生成する。

【0047】

したがって、５つのクラス、すなわち、「手」、「手の中にあるオブジェクト」、「オブジェクト」、「身体部分」、および「空のスキャナ」のアルファベットには、次の文字が含まれる。
ｃｌａｓｓＨａｎｄｕｐ：Ｈｄｏｗｎ：ｈ
ｃｌａｓｓＨａｎｄＯｂｊｅｃｔｕｐ：Ｑｄｏｗｎ：ｑ
ｃｌａｓｓＯｂｊｅｃｔｕｐ：Ｏｄｏｗｎ：ｏ
ｃｌａｓｓＢｏｄｙＰａｒｔｕｐ：Ｂｄｏｗｎ：ｂ
ｃｌａｓｓＥｍｐｔｙＳｃａｎｎｅｒｕｐ：Ｅｄｏｗｎ：ｅ

【0048】

本開示の一実施形態では、２つの隣接する単語は、「空のスキャナ」として分類される少なくとも１つのフレームによって分離される。これは、連続する「１」「空のスキャナ」値の長さに応じて、サイレントインターバルを表す場合とそうでない場合がある。

【0049】

圧縮単語構成モジュール２０７によって生成された量子化された出力の例を以下に示す。
Ｓｉｌｅｎｃｅ
ＯｏＥ
Ｓｉｌｅｎｃｅ
ＯＱｏＯｑＢｏｂＥ
Ｓｉｌｅｎｃｅ

【0050】

シーケンス依存分類器２０８は、圧縮単語構成モジュール２０７から量子化された出力を受け取り、アルファベット文字として表される遷移の連続シーケンスから１つまたは複数のスキャンアクションを抽出するように構成される。シーケンス依存分類器２０８は、本明細書で使用される機械学習ベースのエンジンを含み、アルゴリズムおよび統計モデルを研究し、パターンおよび推論に依存して、明示的な命令を使用せずにそれらを使用して特定のタスクを効果的に実行することができるエンジンに関する。シーケンス依存分類器２０８の例は、リカレントニューラルネットワーク（ＲＮＮ）、Ｋ最近傍アルゴリズム（ＫＮＮ）、およびサポートベクターマシン（ＳＶＭ）アルゴリズムなどを含む。

【0051】

シーケンス依存分類器２０８は、圧縮された単語のシーケンスを分析して、ビデオストリームから人間のアクティビティを認識する。関心領域におけるクラスのさまざまな遷移を決定するために、圧縮された単語のシーケンスが分析される。クラスの遷移のそのような決定は、ビデオストリームからの人間のアクティビティの認識につながる。シーケンス依存分類器２０８は、基本的なアクションを示唆する二値化された入力信号の遷移を認識する。

【0052】

したがって、量子化署名生成モジュール２０４は、アクティビティが行われる関心領域を観察する分類器２０２から来る入力信号のための量子化プロセスを提供する。遷移量子化の方法は、シーケンス依存分類器２０８を使用して、アクティビティ認識における時間変動および身体部分の動きの多様性の影響を低減することを目的とする。

【0053】

図３は、本開示の一実施形態による、ビデオストリームから人間のアクティビティを認識するための方法３００を示すフローチャートである。いくつかのステップは、図２に示されるようなシステムに関して議論され得る。

【0054】

ステップ３０２において、事前定義されたクラスのセットの１つまたは複数のクラスにおけるビデオストリームの画像フレームは、分類器によって分類され、画像フレームは、画像フレームの関心領域におけるユーザアクションに基づいて分類される。本開示の一実施形態では、分類器は畳み込みニューラルネットワークである。本開示の別の実施形態では、セルフチェックアウト（ＳＣＯ）スキャンゾーンのための事前定義されたクラスのセットは、手、手の中にあるオブジェクト、オブジェクト、身体部分、および空のスキャナなどのクラスを含む。

【0055】

ステップ３０４において、分類に基づいて画像フレームに対してクラス確率ベクトルが生成され、クラス確率ベクトルは、各事前定義されたクラスにおける画像フレームの分類の確率のセットを含む。一例では、クラス確率ベクトルＰ_vは次のように表され、
Ｐ_v＝｛Ｐ_Hand，Ｐ_HandObject，Ｐ_Object，Ｐ_BodyPart，Ｐ_EmptyScanner｝
ここで、Ｐ_Hand＝クラス「手」に分類される画像フレームの確率、
Ｐ_HandObject＝クラス「手の中にあるオブジェクト」に分類される画像フレームの確率、
Ｐ_Object＝クラス「オブジェクト」に分類される画像フレームの確率、
Ｐ_BodyPart＝クラス「身体部分」に分類される画像フレームの確率、
Ｐ_EmptyScanner＝クラス「空のスキャナ」に分類される画像フレームの確率
である。

【0056】

ステップ３０６において、クラス確率ベクトルの各確率値は、事前定義された確率閾値に基づいて二値化される。一例では、確率ベクトルの各コンポーネントには、それがヒューリスティック閾値以上である場合は値「１」が割り当てられ、それ以外の場合は「０」が割り当てられる。

【0057】

ステップ３０８において、１つまたは複数のクラスの１つまたは複数の遷移は、対応する二値化された確率ベクトルに基づいて、ビデオストリームの１つまたは複数の連続する画像フレームにおいて決定される。たとえば、最初の画像フレームでは、クラス「オブジェクト」に対応する２進値は「０」であり、２番目の画像フレームでは、クラス「オブジェクト」に対応する２進値は「１」であり、これは、最初の画像フレームから２番目の画像フレームへのクラスの遷移が明らかに存在することを意味する。

【0058】

ステップ３１０において、圧縮された単語のシーケンスが、１つまたは複数の連続する画像フレームにおける決定された１つまたは複数の遷移に基づいて生成される。圧縮された単語は、連続する画像フレームにおける「１」から「０」および「０」から「１」へのクラスの遷移に基づいて生成される。本開示の一実施形態では、圧縮された単語は、事前定義されたクラスの数の２倍に相当する数の文字を含むアルファベットの文字から形成される。さらに、圧縮された単語のシーケンスの圧縮された単語のそれぞれは、それらの間に非アクティビティの少なくとも１つのフレームを含む。一例では、クラスの数が５であるの場合、各単語は合計１０文字で構成される。各クラスについて、「０－＞１」遷移は特定の「開始」文字（たとえば、クラス「オブジェクト」の場合は「Ｏ」）を生成し、「１－＞０」遷移は「終了」文字（たとえば、クラス「オブジェクト」の場合は「ｏ」）を生成する。

【0059】

ステップ３１２において、シーケンス依存分類器による圧縮された単語のシーケンスの分析に基づいて、１つまたは複数のユーザアクションが抽出される。１つまたは複数のユーザアクションは、ＳＣＯスキャン領域（スキャンアクション関心領域）における人間のアクティビティを認識し、認識結果をユーザコンピューティングデバイスに送信するために使用され得る。いくつかの実施形態では、ユーザコンピューティングデバイスは、認識結果を格納または表示するように構成され得る。本開示の一実施形態では、シーケンス依存分類器はリカレントニューラルネットワークである。

【0060】

本開示はまた、機械が読み取り可能な非一時的データ記憶媒体に記録されたソフトウェア製品に関し、ソフトウェア製品は、ビデオストリームから人間のアクティビティを認識する方法を実装するためにコンピューティングハードウェア上で実行可能である。

【0061】

前述の発明の実施形態への変更は、添付の特許請求の範囲によって定義される発明の範囲から逸脱することなく可能である。本発明を説明し、特許請求するために使用される「含む」、「備える」、「組み込む」、「からなる」、「有する」、「である」などの表現は、非排他的な方法で解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素も存在することを可能にする。単数形への言及も、複数形に関連していると解釈されるべきである。添付の特許請求の範囲で括弧内に含まれる数字は、特許請求の範囲の理解を助けることを意図しており、これらの特許請求の範囲によって請求される主題を限定するものと解釈されるべきではない。

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版