特表2024-528528 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セブン－イレブンインコーポレイテッドの特許一覧

特表2024-528528デジタル画像処理を用いたアイテム識別

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4
5A
5B
5C
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-30

(54)【発明の名称】デジタル画像処理を用いたアイテム識別

(51)【国際特許分類】

G06Q 30/0601 20230101AFI20240723BHJP

【ＦＩ】

G06Q30/0601 338

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023580610

(86)(22)【出願日】2022-06-09

(85)【翻訳文提出日】2023-12-27

(86)【国際出願番号】 US2022072832

(87)【国際公開番号】W WO2023278930

(87)【国際公開日】2023-01-05

(31)【優先権主張番号】17/362,261

(32)【優先日】2021-06-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】520068870

【氏名又は名称】セブン－イレブンインコーポレイテッド

【氏名又は名称原語表記】７－Ｅｌｅｖｅｎ，Ｉｎｃ．

【住所又は居所原語表記】３２００ＨａｃｋｂｅｒｒｙＲｏａｄ，ＩｒｖｉｎｇＴＸ７５０６３ＵＳ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】クリシュナムルティ，サイレシュ，ブハラスワーユ

(72)【発明者】

【氏名】ダタール，スメダー，ヴィラス

(72)【発明者】

【氏名】タクルデサイ，シャンタヌ，ヤドゥナス

(72)【発明者】

【氏名】マウン，クリスタル

【テーマコード（参考）】

5L030

【Ｆターム（参考）】

5L030BB72

(57)【要約】

デバイスは、プラットフォームにおいてトリガイベントを検出し、３次元（３Ｄ）センサを使用してプラットフォーム上のアイテムの深度画像をキャプチャするように構成される。デバイスはさらに、プラットフォーム上の各アイテムのオブジェクト姿勢を決定し、プラットフォーム上の各アイテムのオブジェクト姿勢に基づいて、複数のカメラの中から１つ又は複数のカメラを識別するように構成される。デバイスは、識別されたカメラを使用してプラットフォーム上のアイテムの１つ又は複数の画像をキャプチャし、アイテムの特徴に基づいて、１つ又は複数の画像内のアイテムを識別するようにさらに構成される。デバイスは、プラットフォーム上の識別されたアイテムに関連付けられたユーザを識別し、ユーザに関連付けられたアカウントを識別し、識別されたアイテムをユーザのアカウントに関連付けるようにさらに構成される。

【特許請求の範囲】

【請求項1】

アイテム追跡システムであって、
各カメラがプラットフォームの少なくとも一部の画像をキャプチャするように構成された複数のカメラと、
前記プラットフォームの上方に配置された３次元（３Ｄ）センサであって、前記３Ｄセンサは、前記プラットフォーム上に置かれたアイテムのオーバーヘッド深度画像をキャプチャするように構成され、各オーバーヘッド深度画像は、前記プラットフォーム上に置かれたアイテムの上向き表面をキャプチャするように構成される、３Ｄセンサと、
複数のユーザに関するユーザアカウント情報を記憶するように動作可能なメモリと、
前記メモリに動作可能に結合されたプロセッサと
を備え、前記プロセッサは、
前記プラットフォームにおけるトリガイベントを検出することであって、前記トリガイベントは、ユーザが前記プラットフォーム上にアイテムを置くことに対応する、検出することと、
前記３Ｄセンサを使用して、前記プラットフォーム上の第１のアイテム及び第２のアイテムのオーバーヘッド深度画像をキャプチャすることと、
前記オーバーヘッド深度画像に少なくとも部分的に基づいて、前記第１のアイテムの第１のオブジェクト姿勢を決定することであって、前記第１のオブジェクト姿勢を決定することは、前記プラットフォームに対する前記第１のアイテムの第１の向きを決定することを含む、決定することと、
前記オーバーヘッド深度画像に少なくとも部分的に基づいて、前記第２のアイテムの第２のオブジェクト姿勢を決定することであって、前記第２のオブジェクト姿勢を決定することは、前記プラットフォームに対する前記第２のアイテムの第２の向きを決定することを含む、決定することと、
前記第１のアイテムの前記第１のオブジェクト姿勢に少なくとも部分的に基づいて、前記複数のカメラの中から第１のカメラを識別することと、
前記第２のアイテムの前記第２のオブジェクト姿勢に少なくとも部分的に基づいて、前記複数のカメラの中から第２のカメラを識別することであって、前記第２のカメラは、前記第１のカメラとは異なる、識別することと、
前記第１のカメラを使用して前記第１のアイテムの第１の画像をキャプチャすることであって、
前記第１の画像は、前記第１のアイテムの１つ又は複数の特徴を含み、
各特徴は、前記第１のアイテムの物理的属性に対応する、
キャプチャすることと、
前記第２のカメラを使用して前記第２のアイテムの第２の画像をキャプチャすることであって、
前記第２の画像は、前記第２のアイテムの１つ又は複数の特徴を含み、
各特徴は、前記第２のアイテムの物理的属性に対応する、
キャプチャすることと、
前記第１のアイテムの特徴に少なくとも部分的に基づいて、前記第１の画像内の前記第１のアイテムを識別することと、
前記第２のアイテムの特徴に少なくとも部分的に基づいて、前記第２の画像内の前記第２のアイテムを識別することと、
前記第１のアイテム及び前記第２のアイテムに関連付けられた前記ユーザを識別することと、
前記ユーザに関連付けられた前記ユーザアカウント情報内のアカウントを識別することと、
前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付けることと
を行うように構成される、デバイス。

【請求項2】

前記プラットフォーム上のアイテムの重量を測定するように構成された重量センサをさらに備え、
前記トリガイベントを検出することは、前記重量センサ上の重量増加を検出することを含む、
請求項１に記載のデバイス。

【請求項3】

前記トリガイベントを検出することは、
前記プラットフォームの第２の深度画像をキャプチャすることと、
前記第２の深度画像を基準深度画像と比較することであって、前記基準深度画像は、前記プラットフォーム上にアイテムがないときにキャプチャされる、比較することと、
前記第２の深度画像と前記基準深度画像との間の差に基づいて、前記第１のアイテム及び前記第２のアイテムを検出することと
を含む、請求項１に記載のデバイス。

【請求項4】

前記トリガイベントを検出することは、
前記プラットフォームの画像をキャプチャすることと、
前記プラットフォームの前記画像を基準画像と比較することであって、前記基準画像は、前記プラットフォーム上にアイテムがないときにキャプチャされる、比較することと、
前記プラットフォームの前記画像と前記基準画像との間の差に基づいて、前記第１のアイテム及び前記第２のアイテムを検出することと
を含む、請求項１に記載のデバイス。

【請求項5】

前記メモリは、前記３Ｄセンサに関連付けられたホモグラフィを記憶するようにさらに動作可能であり、前記ホモグラフィは、前記オーバーヘッド深度画像内のピクセル位置と前記プラットフォーム上の物理的位置との間で変換する係数を含み、
前記複数のカメラの中から前記第１のカメラを識別することは、
前記ホモグラフィを前記オーバーヘッド深度画像に適用して、前記プラットフォーム上の前記第１のアイテムの物理的位置を決定することと、
前記第１のアイテムの前記物理的位置と前記複数のカメラとの間の距離を決定することと、
前記複数のカメラの中から、前記第１のアイテムの前記物理的位置に最も近い前記第１のカメラを選択することと
を含む、請求項１に記載のデバイス。

【請求項6】

前記プラットフォーム上のアイテムの重量を測定するように構成された重量センサをさらに備え、
前記メモリは、複数のアイテムの重量を含むアイテム情報を記憶するようにさらに動作可能であり、
前記プロセッサは、
前記第１のアイテム及び前記第２のアイテムに関連付けられた前記アイテム情報に基づいて、前記第１のアイテム及び前記第２のアイテムに関連付けられた第１の重量を決定することと、
前記重量センサから前記第１のアイテム及び前記第２のアイテムの第２の重量を受信することと、
前記第１の重量と前記第２の重量との間の重量差を決定することと、
前記重量差が重量差しきい値以下であると決定することと、
前記重量差が重量差しきい値以下であると決定したことに応答して、前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付けることと
を行うようにさらに構成される、請求項１に記載のデバイス。

【請求項7】

前記第１の画像内の前記第１のアイテムを識別することは、
入力画像中に存在するアイテムの特徴に基づいて、アイテム識別子を出力するように構成された機械学習モデルに前記第１の画像を入力することと、
前記第１の画像を前記機械学習モデルに入力することに応答して、前記第１のアイテムの第１のアイテム識別子を受信することと
を含む、請求項１に記載のデバイス。

【請求項8】

前記第１のオブジェクト姿勢に少なくとも部分的に基づいて、前記複数のカメラの中から前記第１のカメラを識別することは、
前記第１のアイテムが前記プラットフォームに対して垂直な向きにあると決定することと、
前記決定に応答して、前記複数のカメラの中から前記第１のカメラを選択することであって、前記第１のカメラは、前記プラットフォームの斜視図で構成される、選択することと
を含む、請求項１に記載のデバイス。

【請求項9】

前記第１のオブジェクト姿勢に少なくとも部分的に基づいて、前記複数のカメラの中から前記第１のカメラを識別することは、
前記第１のアイテムが前記プラットフォームに対して水平の向きにあると決定することと、
前記決定に応答して、前記複数のカメラの中から前記第１のカメラを選択することであって、前記第１のカメラは、前記プラットフォームの俯瞰図で構成される、選択することと
を含む、請求項１に記載のデバイス。

【請求項10】

前記第１のアイテムの前記第１のオブジェクト姿勢を決定することは、
前記第１のアイテムに対応する前記オーバーヘッド深度画像内のエリアを決定することと、
前記エリアを所定のエリアしきい値と比較することと、
前記エリアが前記所定のエリアしきい値以下であると決定することと、
前記決定に応答して、前記複数のカメラの中から前記第１のカメラを選択することであって、前記第１のカメラは、前記プラットフォームの斜視図で構成される、選択することと
を含む、請求項１に記載のデバイス。

【請求項11】

前記第１のアイテムの前記第１のオブジェクト姿勢を決定することは、
前記第１のアイテムに対応する前記オーバーヘッド深度画像内のエリアを決定することと、
前記エリアを所定のエリアしきい値と比較することと、
前記エリアが前記所定のエリアしきい値よりも大きいと決定することと、
前記決定に応答して、前記複数のカメラの中から前記第１のカメラを選択することであって、前記第１のカメラは、前記プラットフォームの俯瞰図で構成される、選択することと
を含む、請求項１に記載のデバイス。

【請求項12】

前記プロセッサは、
前記第１のアイテム及び前記第２のアイテムのアイテム識別子を、禁止アイテムのアイテム識別子のリストと比較することと、
前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付ける前に、前記第１のアイテム及び前記第２のアイテムの前記アイテム識別子が、禁止アイテムの前記アイテム識別子のいずれとも一致しないと決定することと
を行うようにさらに構成される、請求項１に記載のデバイス。

【請求項13】

前記第１の画像内の前記第１のアイテムを識別することは、
前記第１のアイテムが正しく識別された確率に対応する信頼度スコアを取得することと、
前記信頼度スコアを所定の信頼度スコアしきい値と比較することと、
前記信頼度スコアが前記信頼度スコアしきい値以上であると決定することと
を含む、請求項１に記載のデバイス。

【請求項14】

前記メモリは、複数のアイテムの特徴を記憶するようにさらに動作可能であり、特徴は、アイテムの物理的属性に対応し、
前記第１の画像内の前記第１のアイテムを識別することは、
前記第１の画像から前記第１のアイテムの特徴を識別することと、
前記第１のアイテムの前記識別された特徴を前記複数のアイテムの前記特徴と比較することと、
前記第１のアイテムの前記識別された特徴に少なくとも部分的に一致する特徴を有する第３のアイテムを前記複数の一致の中から識別することと、
前記第１のアイテムを、前記第３のアイテムに対応するアイテム識別子に関連付けることと
を含む、請求項１に記載のデバイス。

【請求項15】

アイテム追跡方法であって、
プラットフォームにおいてトリガイベントを検出することであって、前記トリガイベントは、ユーザが前記プラットフォーム上にアイテムを置くことに対応する、検出することと、
３次元（３Ｄ）センサを使用して、前記プラットフォーム上の第１のアイテム及び第２のアイテムのオーバーヘッド深度画像をキャプチャすることであって、前記オーバーヘッド深度画像は、前記プラットフォーム上に置かれたアイテムの上向き表面をキャプチャするように構成される、キャプチャすることと、
前記オーバーヘッド深度画像に少なくとも部分的に基づいて、前記第１のアイテムの第１のオブジェクト姿勢を決定することであって、前記第１のオブジェクト姿勢を決定することは、前記プラットフォームに対する前記第１のアイテムの第１の向きを決定することを含む、決定することと、
前記オーバーヘッド深度画像に少なくとも部分的に基づいて、前記第２のアイテムの第２のオブジェクト姿勢を決定することであって、前記第２のオブジェクト姿勢を決定することは、前記プラットフォームに対する前記第２のアイテムの第２の向きを決定することを含む、決定することと、
前記第１のアイテムの前記第１のオブジェクト姿勢に少なくとも部分的に基づいて、複数のカメラの中から第１のカメラを識別することと、
第２のカメラの前記第２のオブジェクト姿勢に少なくとも部分的に基づいて、前記複数のカメラの中から前記第２のカメラを識別することであって、前記第２のカメラは、前記第１のカメラとは異なる、識別することと、
前記第１のカメラを使用して前記第１のアイテムの第１の画像をキャプチャすることであって、
前記第１の画像は、前記第１のアイテムの１つ又は複数の特徴を含み、
各特徴は、前記第１のアイテムの物理的属性に対応する、
キャプチャすることと、
前記第２のカメラを使用して前記第２のアイテムの第２の画像をキャプチャすることであって、
前記第２の画像は、前記第２のアイテムの１つ又は複数の特徴を含み、
各特徴は、前記第２のアイテムの物理的属性に対応する、
キャプチャすることと、
前記第１のアイテムの特徴に少なくとも部分的に基づいて、前記第１の画像内の前記第１のアイテムを識別することと、
前記第２のアイテムの前記特徴に少なくとも部分的に基づいて、前記第２の画像内の前記第２のアイテムを識別することと、
前記第１のアイテム及び前記第２のアイテムに関連付けられた前記ユーザを識別することと、
前記ユーザに関連付けられたアカウントを識別することと、
前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付けることと
を含む方法。

【請求項16】

前記トリガイベントを検出することは、重量センサ上の重量増加を検出することを含み、
前記重量センサは、前記プラットフォーム上のアイテムの重量を測定するように構成される、
請求項１５に記載の方法。

【請求項17】

前記トリガイベントを検出することは、
前記プラットフォームの第２の深度画像をキャプチャすることと、
前記第２の深度画像を基準深度画像と比較することであって、前記基準深度画像は、前記プラットフォーム上にアイテムがないときにキャプチャされる、比較することと、
前記第２の深度画像と前記基準深度画像との間の差に基づいて、第１のアイテム及び前記第２のアイテムを検出することと
請求項１５に記載の方法。

【請求項18】

【請求項19】

前記第１のアイテム及び前記第２のアイテムに関連付けられたアイテム情報に基づいて、前記第１のアイテム及び前記第２のアイテムに関連付けられた第１の重量を決定することと、
前記第１のアイテム及び前記第２のアイテムの第２の重量を重量センサから受信することであって、前記重量センサは、前記プラットフォーム上のアイテムの重量を測定するように構成される、受信することと、
前記第１の重量と前記第２の重量との間の重量差を決定することと、
前記重量差が重量差しきい値以下であると決定することと、
前記重量差が重量差しきい値以下であると決定したことに応答して、前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付けることと
をさらに含む、請求項１５に記載の方法。

【請求項20】

【請求項21】

前記複数のカメラの中から前記第１のカメラを識別することは、
ホモグラフィを前記オーバーヘッド深度画像に適用して、前記プラットフォーム上の前記第１のアイテムの物理的位置を決定することであって、前記ホモグラフィは、前記オーバーヘッド深度画像内のピクセル位置と前記プラットフォーム上の物理的位置との間で変換する係数を含む、決定することと、
前記第１のアイテムの前記物理的位置と前記複数のカメラとの間の距離を決定することと、
前記複数のカメラの中から、前記第１のアイテムの前記物理的位置に最も近い前記第１のカメラを選択することと
を含む、請求項１５に記載の方法。

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

前記第１のアイテム及び前記第２のアイテムのアイテム識別子を、禁止アイテムのアイテム識別子のリストと比較することと、
前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付ける前に、前記第１のアイテム及び前記第２のアイテムの前記アイテム識別子が、禁止アイテムの前記アイテム識別子のいずれとも一致しないと決定することと
をさらに含む、請求項１５に記載の方法。

【請求項27】

前記第１の画像内の前記第１のアイテムを識別することは、
前記第１のアイテムが正しく識別された確率に対応する信頼度スコアを取得することと、
前記信頼度スコアを所定の信頼度スコアしきい値と比較することと、
前記信頼度スコアが前記信頼度スコアしきい値以上であると決定することと
を含む、請求項１５に記載の方法。

【請求項28】

前記第１の画像内の前記第１のアイテムを識別することは、
前記第１の画像から前記第１のアイテムの特徴を識別することと、
前記第１のアイテムの前記識別された特徴を、メモリに記憶された前記複数のアイテムの特徴と比較することと、
前記第１のアイテムの前記識別された特徴に少なくとも部分的に一致する特徴を有する第３のアイテムを前記複数の一致の中から識別することと、
前記第１のアイテムを、前記第３のアイテムに対応するアイテム識別子に関連付けることと
を含む、請求項１５に記載の方法。

【請求項29】

非一時的コンピュータ可読媒体に記憶された実行可能命令を備えるコンピュータプログラム製品であって、前記実行可能命令は、プロセッサによって実行されると、前記プロセッサに
プラットフォームにおいてトリガイベントを検出することであって、前記トリガイベントは、ユーザが前記プラットフォーム上にアイテムを置くことに対応する、検出することと、
３次元（３Ｄ）センサを使用して、前記プラットフォーム上の第１のアイテム及び第２のアイテムのオーバーヘッド深度画像をキャプチャすることであって、前記オーバーヘッド深度画像は、前記プラットフォーム上に置かれたアイテムの上向き表面をキャプチャするように構成される、キャプチャすることと、
前記オーバーヘッド深度画像に少なくとも部分的に基づいて、前記第１のアイテムの第１のオブジェクト姿勢を決定することであって、前記第１のオブジェクト姿勢を決定することは、前記プラットフォームに対する前記第１のアイテムの第１の向きを決定することを含む、決定することと、
前記オーバーヘッド深度画像に少なくとも部分的に基づいて、前記第２のアイテムの第２のオブジェクト姿勢を決定することであって、前記第２のオブジェクト姿勢を決定することは、前記プラットフォームに対する前記第２のアイテムの第２の向きを決定することを含む、決定することと、
前記第１のアイテムの前記第１のオブジェクト姿勢に少なくとも部分的に基づいて、複数のカメラの中から第１のカメラを識別することと、
前記第２のアイテムの前記第２のオブジェクト姿勢に少なくとも部分的に基づいて、前記複数のカメラの中から第２のカメラを識別することであって、前記第２のカメラは、前記第１のカメラとは異なる、識別することと、
前記第１のカメラを使用して前記第１のアイテムの第１の画像をキャプチャすることであって、
前記第１の画像は、前記第１のアイテムの１つ又は複数の特徴を含み、
各特徴は、前記第１のアイテムの物理的属性に対応する、
キャプチャすることと、
前記第２のカメラを使用して前記第２のアイテムの第２の画像をキャプチャすることであって、
前記第２の画像は、前記第２のアイテムの１つ又は複数の特徴を含み、
各特徴は、前記第２のアイテムの物理的属性に対応する、
キャプチャすることと、
前記第１のアイテムの特徴に少なくとも部分的に基づいて、前記第１の画像内の前記第１のアイテムを識別することと、
第２のアイテムの前記特徴に少なくとも部分的に基づいて、前記第２の画像内の前記第２のアイテムを識別することと、
前記プラットフォーム上の前記第１のアイテム及び前記第２のアイテムに関連付けられた前記ユーザを識別することと、
前記ユーザに関連付けられたアカウントを識別することと、
前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付けることと
を行わせる、コンピュータプログラム製品。

【請求項30】

前記トリガイベントを検出することは、重量センサ上の重量増加を検出することを含み、
前記重量センサは、前記プラットフォーム上のアイテムの重量を測定するように構成される、
請求項２９に記載のコンピュータプログラム製品。

【請求項31】

前記トリガイベントを検出することは、
前記プラットフォームの第２の深度画像をキャプチャすることと、
前記第２の深度画像を基準深度画像と比較することであって、前記基準深度画像は、前記プラットフォーム上にアイテムがないときにキャプチャされる、比較することと、
前記第２の深度画像と前記基準深度画像との間の差に基づいて、第１のアイテム及び前記第２のアイテムを検出することと
請求項２９に記載のコンピュータプログラム製品。

【請求項32】

【請求項33】

前記プロセッサによって実行されると、前記プロセッサに、
前記第１のアイテム及び前記第２のアイテムに関連付けられたアイテム情報に基づいて、前記第１のアイテム及び前記第２のアイテムに関連付けられた第１の重量を決定することと、
前記第１のアイテム及び前記第２のアイテムの第２の重量を重量センサから受信することであって、前記重量センサは、前記プラットフォーム上のアイテムの重量を測定するように構成される、受信することと、
前記第１の重量と前記第２の重量との間の重量差を決定することと、
前記重量差が重量差しきい値以下であると決定することと、
前記重量差が重量差しきい値以下であると決定したことに応答して、前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付けることと
を行わせる命令をさらに含む、請求項２９に記載のコンピュータプログラム製品。

【請求項34】

【請求項35】

【請求項36】

【請求項37】

【請求項38】

【請求項39】

【請求項40】

前記プロセッサによって実行されると、前記プロセッサに、
前記第１のアイテム及び前記第２のアイテムのアイテム識別子を、禁止アイテムのアイテム識別子のリストと比較することと、
前記第１のアイテム及び前記第２のアイテムを前記ユーザの前記アカウントに関連付ける前に、前記第１のアイテム及び前記第２のアイテムの前記アイテム識別子が、禁止アイテムの前記アイテム識別子のいずれとも一致しないと決定することと
を行わせる命令をさらに含む、請求項２９に記載のコンピュータプログラム製品。

【請求項41】

前記第１の画像内の前記第１のアイテムを識別することは、
前記第１のアイテムが正しく識別された確率に対応する信頼度スコアを取得することと、
前記信頼度スコアを所定の信頼度スコアしきい値と比較することと、
前記信頼度スコアが前記信頼度スコアしきい値以上であると決定することと
請求項２９に記載のコンピュータプログラム製品。

【請求項42】

前記第１の画像内の前記第１のアイテムを識別することは、
前記第１の画像から前記第１のアイテムの特徴を識別することと、
前記第１のアイテムの前記識別された特徴を、メモリに記憶された前記複数のアイテムの特徴と比較することと
前記第１のアイテムの前記識別された特徴に少なくとも部分的に一致する特徴を有する第３のアイテムを前記複数の一致の中から識別することと、
前記第１のアイテムを、前記第３のアイテムに対応するアイテム識別子に関連付けることと
請求項２９に記載のコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、概して、デジタル画像処理に関し、より具体的には、デジタル画像処理を用いたアイテム識別に関する。

【背景技術】

【0002】

空間内のオブジェクトを識別及び追跡することは、いくつかの技術的課題を提起する。従来のシステムは、オブジェクトを識別するために様々な画像処理技法を使用し得る。例えば、これらのシステムは、画像内のアイテムを後に識別するために使用することができる、アイテムの異なる特徴を識別し得る。このプロセスは、画像がいくつかのアイテムを含む場合、計算集約的である。例えば、複数のアイテムを有する画像内のアイテムを識別することは、画像内の個々のアイテムを識別し、次いで、アイテムの特徴をアイテムのデータベース内のあらゆるアイテムと比較することを伴う。計算集約的であることに加えて、このプロセスは、かなりの時間を必要とし、すなわち、このプロセスがリアルタイムアプリケーションと互換性がないということである。この問題は、複数のアイテムを同時に識別及び追跡しようとするときには解決困難になる。

【発明の概要】

【0003】

本出願で開示されるシステムは、カメラと３次元（３Ｄ）センサとの組合せを使用して、プラットフォーム上に置かれたアイテムを識別及び追跡することによって、上述した技術的問題に対する技術的解決策を提供する。開示されたシステムは、プラットフォーム上に置かれたアイテムの画像をキャプチャするために撮像デバイス上のカメラの組合せを選択し、プラットフォーム上に置かれたアイテムを識別し、アイテムをユーザに割り当てるプロセスを含む、いくつかの実用的なアプリケーション及び技術的利点を提供する。既存のシステムは、典型的には、ユーザがアイテムをスキャン又は手動で識別することを必要とするので、アイテムを迅速に識別するシステムの能力にボトルネックが生じる。対照的に、開示されるプロセスは、アイテムの画像からアイテムを識別し、ユーザがアイテムをスキャンするか又は他の方法で識別することを必要とすることなく、アイテムをユーザに割り当てることが可能である。このプロセスは、複数のアイテムを迅速に識別するシステムの能力を向上させることによって、実用的なアプリケーションを提供する。これらの実用的なアプリケーションは、アイテムを識別するシステムの能力を向上させるだけでなく、基礎となるネットワーク及びネットワーク内のデバイスも向上させる。例えば、この開示されるプロセスは、アイテムを識別し、アイテムをユーザに割り当てるのに要する時間を短縮することによって、システムがより多くのユーザにサービスを提供することを可能にする。言い換えると、このプロセスは、追加のハードウェアリソースを必要とすることなく、ハードウェア利用を改善し、他のプロセスに利用可能なハードウェアリソースの数を増加させ、システムのスループットを増加させる。追加的に、これらの技術的改良により、本明細書で説明されるアイテム識別及び追跡機能性のスケーリングが可能になる。

【0004】

一実施形態では、アイテム追跡システムは、撮像デバイスのプラットフォームにおいてトリガイベントを検出するように構成されたアイテム追跡デバイスを備える。トリガイベントは、ユーザが、プラットフォーム上にアイテムを置くことによって、撮像デバイスに接近するか、又は撮像デバイスと相互作用するときに対応し得る。アイテム追跡デバイスは、３Ｄセンサを使用してプラットフォーム上のアイテムの深度画像をキャプチャし、深度画像に基づいて、プラットフォーム上の各アイテムのオブジェクト姿勢を決定するように構成される。姿勢は、プラットフォームに対するアイテムの位置及び向きに対応する。アイテム追跡デバイスは、プラットフォーム上の各アイテムのオブジェクト姿勢に基づいて、撮像デバイス上の複数のカメラの中から１つ又は複数のカメラを識別するようにさらに構成される。このプロセスにより、アイテム追跡デバイスは、プラットフォーム上のアイテムの最良のビューを有するカメラを選択することができ、これは、アイテムを識別するために処理される画像の数を低減する。アイテム追跡デバイスは、識別されたカメラを使用してプラットフォーム上のアイテムの画像をキャプチャし、アイテムの特徴に基づいて、画像内のアイテムを識別するようにさらに構成される。アイテム追跡デバイスは、プラットフォーム上の識別されたアイテムに関連付けられたユーザを識別し、ユーザに関連付けられたアカウントを識別し、ユーザに関連付けられたアカウントにアイテムを追加するようにさらに構成される。

【0005】

本開示の特定の実施形態は、これらの利点のうちのいくつかを含んでもよいし、全てを含んでもよいし、いずれも含まなくてもよい。これらの利点及び他の特徴は、添付の図面及び特許請求の範囲と併せて以下の詳細な説明からより明確に理解されるであろう。

【図面の簡単な説明】

【0006】

本開示のより完全な理解のために、ここで、添付の図面及び詳細な説明と併せて以下の簡単な説明が参照され、同様の参照番号は、同様の部分を表す。

【図1】デジタル画像処理を採用するように構成されたアイテム追跡システムの一実施形態の概略図である。

【図2A】撮像デバイスの一実施形態の斜視図である。

【図2B】筐体を有する撮像デバイスの別の実施形態の斜視図である。

【図2C】開放筐体を有する撮像デバイスの別の実施形態の斜視図である。

【図3】アイテム追跡システムのためのアイテム追跡プロセスの一実施形態のフローチャートである。

【図4】プラットフォーム上にアイテムを置く前と置いた後の撮像デバイスのプラットフォームの深度画像の比較の一例である。

【図5A】アイテムの画像の一例である。

【図5B】アイテムの画像の一例である。

【図5C】アイテムの画像の一例である。

【図6】アイテム追跡システム用に構成されたアイテム追跡デバイスの一実施形態である。

【発明を実施するための形態】

【0007】

システム概要
図１は、デジタル画像処理を採用するように構成されたアイテム追跡システム１００の一実施形態の概略図である。アイテム追跡システム１００は、デジタル画像処理を採用して、撮像デバイス１０２のプラットフォーム２０２上に置かれたアイテム２０４を識別し、アイテム２０４を特定のユーザに割り当て得る。このプロセスにより、ユーザは、ユーザが買いたい（take）アイテム２０４をユーザがスキャン又は他の方法で手動で識別することを必要とすることなく、空間からアイテム２０４を取得することができる。一実施形態では、アイテム追跡システム１００を空間（例えば、店舗）に設置することで、買い物客が従来のチェックアウトプロセスを行う必要がないようにし得る。本開示では店舗の例が使用されるが、本開示は、アイテム追跡システム１００が任意のタイプの物理的な空間（例えば、部屋、オフィス、屋外スタンド、モール、スーパーマーケット、コンビニエンスストア、ポップアップストア、倉庫、保管センター、遊園地、空港、オフィスビルなど）に設置され、使用され得ることを企図する。一例として、空間は、購入可能な複数のアイテム２０４を含む店舗であり得る。アイテム追跡システム１００を店舗に設置することで、買い物客が店舗から商品を購入するのに従来のチェックアウトプロセスを行う必要がないようにし得る。この例では、店舗は、コンビニエンスストア又は食料品店であり得る。他の例では、店舗は、物理的な建物ではなく、買い物客が買い物をすることができる物理的な空間又は環境であり得る。例えば、店舗は、空港の「グラブアンドゴー」パントリ、オフィスビルのキオスク、公園の屋外市場などであってもよい。別の例として、空間は、ユーザが使用又は借用することができる複数のアイテム２０４を含む倉庫又は備品室であってもよい。この例では、アイテム追跡システム１００を設置することで、ユーザは、自分自身で部品又は消耗品（supplies）をチェックアウトすることができる。他の例では、アイテム追跡システム１００は、任意の他の適切なアプリケーションに採用され得る。

【0008】

一実施形態では、アイテム追跡システム１００は、ネットワーク１０６を介して互いに信号通信する１つ又は複数の撮像デバイス１０２及びアイテム追跡デバイス１０４を含む。ネットワーク１０６は、インターネット、イントラネット、プライベートネットワーク、パブリックネットワーク、ピアツーピアネットワーク、公衆交換電話網、セルラーネットワーク、ローカルエリアネットワーク（ＬＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、ワイドエリアネットワーク通信網（ＷＡＮ）、及び衛星ネットワークの全て又は一部を含むがこれらに限定されない任意の適切なタイプのワイヤレス及び／又はワイヤードネットワークであり得る。ネットワーク１０６は、当業者によって理解されるように、任意の適切なタイプの通信プロトコルをサポートするように構成され得る。

【0009】

撮像デバイス
撮像デバイス１０２は、概して、撮像デバイス１０２のプラットフォーム２０２上に置かれたアイテム２０４の画像１２２及び深度画像１２４をキャプチャするように構成される。一実施形態では、撮像デバイス１０２は、１つ又は複数のカメラ１０８と、１つ又は複数の３次元（３Ｄ）センサ１１０と、１つ又は複数の重量センサ１１２とを備える。撮像デバイス１０２のハードウェア構成に関する追加の情報については図２Ａ～図２Ｃで説明する。

【0010】

カメラ１０８及び３Ｄセンサ１１０はそれぞれ、プラットフォーム２０２の少なくとも一部の画像１２２及び深度画像１２４をキャプチャするように構成される。カメラ１０８は、アイテム２０４の画像１２２（例えば、ＲＧＢ画像）をキャプチャするように構成される。カメラ１０８の例には、カメラ、ビデオカメラ、ウェブカメラ、及びプリント回路板（ＰＣＢ）カメラが含まれるが、これらに限定されない。３Ｄセンサ１１０は、アイテムの深度画像１２４（例えば、深度マップ又は点群）をキャプチャするように構成される。３Ｄセンサ１１０の例には、深度検知カメラ、飛行時間センサ、ＬｉＤＡＲ、構造化光カメラ、又は任意の他の適切なタイプの深度検知デバイスが含まれるが、これらに限定されない。いくつかの実施形態では、カメラ１０８及び３Ｄセンサ１１０は、単一のデバイス内に統合される。他の実施形態では、カメラ１０８及び３Ｄセンサ１１０は、別個のデバイスである。

【0011】

重量センサ１１２は、撮像デバイス１０２のプラットフォーム２０２上に置かれたアイテム２０４の重量を測定するように構成される。例えば、重量センサ１１２は、入力された機械力（例えば、重量、張力、圧縮、圧力、又はトルク）を出力電気信号（例えば、電流又は電圧）に変換するトランデューサを備え得る。入力された力が増加するにつれて、出力される電気信号が比例して増加し得る。アイテム追跡デバイス１０４は、出力された電気信号を分析して、重量センサ１１２上のアイテム２０４の総重量を決定するように構成される。重量センサ１１２の例には、圧電ロードセル又は感圧センサが含まれるが、これらに限定されない。例えば、重量センサ１１２は、ロードセルが受ける重量を示す電気信号を通信するように構成された１つ又は複数のロードセルを備え得る。例えば、ロードセルは、ロードセルが受ける重量又は力に応じて変化する電流を発生させ得る。ロードセルは、生成された電気信号を処理のためにアイテム追跡デバイス１０４に通信するように構成される。

【0012】

アイテム追跡デバイス
アイテム追跡デバイス１０４の例には、サーバ、コンピュータ、ラップトップ、タブレット、又は任意の他の適切なタイプのデバイスが含まれるが、これらに限定されない。図１では、撮像デバイス１０２及びアイテム追跡デバイス１０４は、２つのデバイスとして示されている。いくつかの実施形態では、撮像デバイス１０２及びアイテム追跡デバイス１０４は、単一のデバイス内に統合され得る。一実施形態では、アイテム追跡デバイス１０４は、アイテム追跡エンジン１１４とメモリ１１６とを備える。アイテム追跡デバイス１０４のハードウェア構成に関する更なる詳細については図６において説明する。メモリ１１６は、アイテム情報１１８、ユーザアカウント情報１２０、機械学習モデル１２６、及び／又は任意の他の適切なタイプのデータを記憶するように構成される。

【0013】

一実施形態では、アイテム追跡エンジン１１４は、概して、画像１２２及び深度画像１２４を処理して、撮像デバイス１０２のプラットフォーム２０２上に置かれたアイテム２０４を識別し、識別されたアイテム２０４をユーザに関連付けるように構成される。動作中のアイテム追跡エンジン１１４の例については図３において以下でより詳細に説明する。

【0014】

アイテム情報１１８は、一般に、複数のアイテムに関連付けられた情報を含む。アイテム情報１１８の例には、価格、重量、バーコード、アイテム識別子、アイテム番号、アイテムの特徴、又はアイテム２０４に関連付けられた任意の他の適切な情報が含まれるが、これらに限定されない。アイテムの特徴の例には、アイテム２０４のテキスト、ロゴ、ブランド、色、バーコード、パターン、形状、又は任意の他の適切なタイプの属性が含まれるが、これらに限定されない。ユーザアカウント情報１２０は、ユーザに関連付けられた１つ又は複数のアカウントに関する情報を含む。アカウントの例には、顧客アカウント、従業員アカウント、学校アカウント、ビジネスアカウント、金融アカウント、デジタルカート、又は任意の他の適切なタイプのアカウントが含まれるが、これらに限定されない。ユーザアカウント情報１２０は、ユーザ情報を、ユーザに関連付けられたアカウントに関連付けるように構成され得る。ユーザ情報の例には、名前、電話番号、電子メールアドレス、識別番号、従業員番号、英数字コード、リワードメンバーシップ情報、又はユーザに関連付けられた任意の他の適切なタイプの情報が含まれるが、これらに限定されない。いくつかの実施形態では、アイテム情報１１８及び／又はユーザアカウント情報１２０は、アイテム追跡デバイス１０４の外部のデバイス（例えば、クラウドサーバ）に記憶され得る。

【0015】

機械学習モデル１２６の例には、多層パーセプトロン、リカレントニューラルネットワーク（ＲＮＮ）、ＲＮＮロングショートタームメモリ（ＬＳＴＭ）、畳み込みニューラルネットワーク（ＣＮＮ）、トランスフォーマ、又は任意の他の適切なタイプのニューラルネットワークモデルが含まれるが、これらに限定されない。一実施形態では、機械学習モデル１２６は、概して、入力として画像１２２を受信し、提供された画像１２２に基づいて、アイテム識別子を出力するように構成される。機械学習モデル１２６は、対応するラベル（例えば、アイテム識別子）を有するアイテム２０４の異なる画像１２２を含む教師あり学習トレーニングデータを使用してトレーニングされる。トレーニングプロセス中、機械学習モデル１２６は、機械学習モデル１２６がアイテム２０４の画像１２２を異なるアイテム識別子にマッピングすることを可能にする重量及びバイアス値を決定する。このプロセスを通して、機械学習モデル１２６は、画像１２２内のアイテム２０４を識別することができる。アイテム追跡エンジン１１４は、当業者によって理解されるような任意の適切な技法を使用して機械学習モデル１２６をトレーニングするように構成され得る。いくつかの実施形態では、機械学習モデル１２６は、アイテム追跡デバイス１０４の外部にあるデバイスによって記憶及び／又はトレーニングされ得る。

【0016】

撮像デバイスのハードウェア構成
図２Ａは、撮像デバイス１０２の一実施形態の斜視図である。この例では、撮像デバイス１０２は、プラットフォーム２０２と、フレーム構造２０６と、複数のカメラ１０８と、複数の３Ｄセンサ１１０と、重量センサ１１２とを備える。撮像デバイス１０２は、図２Ａに示されるように、又は任意の他の適切な構成で構成され得る。いくつかの実施形態では、撮像デバイス１０２はさらに、限定ではないが、光、ディスプレイ、及びグラフィカルユーザインターフェースを含む、追加の構成要素を備え得る。

【0017】

プラットフォーム２０２は、複数のアイテム２０４を保持するように構成された表面２０８を備える。いくつかの実施形態では、プラットフォーム２０２は、重量センサ１１２と一体化され得る。例えば、プラットフォーム２０２は、重量センサ１１２上に配置され得、これにより、重量センサ１１２は、プラットフォーム２０２上に置かれたアイテム２０４の重量を測定することができる。別の例として、重量センサ１１２は、プラットフォーム２０２上に置かれたアイテム２０４の重量を測定するために、プラットフォーム２０２内に配設され得る。いくつかの実施形態では、表面２０８の少なくとも一部は、透明であり得る。この場合、カメラ１０８又はスキャナ（例えば、バーコードスキャナ）が、プラットフォーム２０２の表面２０８の下に配設され、プラットフォーム２０２上に置かれたアイテム２０４の画像１２２をキャプチャするか、又はその底面をスキャンするように構成され得る。例えば、カメラ１０８又はスキャナは、プラットフォーム２０２の透明な表面２０８を通してアイテム２０４の製品ラベル及び／又はバーコード（例えば、最小在庫管理単位（ＳＫＵ））を識別し、読み取るように構成され得る。プラットフォーム２０２は、アルミニウム、金属、木材、プラスチック、ガラス、又は任意の他の適切な材料から形成され得る。

【0018】

フレーム構造２０６は、概して、カメラ１０８及び３Ｄセンサ１１０を支持及び位置決めするように構成される。図２Ａでは、フレーム構造２０６は、撮像デバイス１０２の両サイドに、プラットフォーム２０２上のアイテム２０４の斜視図を有する第１のカメラ１０８Ａ及び第２のカメラ１０８Ｃを位置決めするように構成される。フレーム構造２０６は、撮像デバイス１０２のバックサイドに、プラットフォーム２０２上のアイテム２０４の斜視図を有する第３のカメラ１０８Ｄを位置決めするようにさらに構成される。いくつかの実施形態では、フレーム構造２０６はさらに、撮像デバイス１０２のフロントサイドに、プラットフォーム２０２上のアイテム２０４の斜視図を有する第４のカメラ１０８（図示せず）を備え得る。フレーム構造２０６は、任意の数及び組合せのサイドカメラ１０８Ａ及び１０８Ｃ、バックサイドカメラ１０８Ｄ、並びにフロントサイドカメラ１０８を使用するように構成され得る。例えば、識別されたカメラ１０８のうちの１つ又は複数は、任意選択であり、省略されてもよい。透視画像１２２又は深度画像１２４は、プラットフォーム２０２上に置かれたアイテム２０４の横向きの表面をキャプチャするように構成される。フレーム構造２０６はさらに、プラットフォーム２０２上のアイテム２０４の上面図又は俯瞰図を有する第３のカメラ１０８Ｂ及び３Ｄセンサ１１０を位置決めするように構成される。オーバーヘッド画像１２２又は深度画像１２４は、プラットフォーム２０２上に置かれたアイテム２０４の上向き表面をキャプチャするように構成される。他の例では、フレーム構造２０６は、任意の他の適切な数及び組合せのカメラ１０８及び３Ｄセンサ１１０を支持及び位置決めするように構成され得る。フレーム構造２０６は、アルミニウム、金属、木材、プラスチック、又は任意の他の適切な材料から形成され得る。

【0019】

図２Ｂは、筐体２１０を有する撮像デバイス１０２の別の実施形態の斜視図である。この構成では、筐体２１０は、撮像デバイス１０２のフレーム構造２０６、カメラ１０８、３Ｄセンサ１１０、及びプラットフォーム２０２を少なくとも部分的に封入するように構成される。フレーム構造２０６、カメラ１０８、３Ｄセンサ１１０、及びプラットフォーム２０２は、図２Ａで説明したものと同様に構成され得る。一実施形態では、フレーム構造２０６はさらに、カメラ１０８及び３Ｄセンサ１１０が筐体２１０内で位置調節可能（repositionable）となるように構成されたレール又はトラック２１２を備え得る。例えば、カメラ１０８Ａ、１０８Ｃ、及び１０８Ｄは、レール２１２を使用してプラットフォーム２０２に対して垂直軸に沿って位置調節可能であり得る。同様に、カメラ１０８Ｂ及び３Ｄセンサ１１０は、レール２１２を使用してプラットフォーム２１２に対して水平軸に沿って位置調節可能であり得る。

【0020】

図２Ｃは、開放筐体２１４を有する撮像デバイス１０２の別の実施形態の斜視図である。この構成では、筐体２１４は、撮像デバイス１０２のフレーム構造２０６、カメラ１０８、３Ｄセンサ１１０、及びプラットフォーム２０２を少なくとも部分的に覆うように構成される。フレーム構造２０６、カメラ１０８、３Ｄセンサ１１０、及びプラットフォーム２０２は、図２Ａで説明したものと同様に構成され得る。一実施形態では、フレーム構造２０６は、筐体２１４内に一体化され得る。例えば、筐体２１４は、カメラ１０８及び３Ｄセンサ１１０を収容するように構成された開口部２１６を備え得る。図２Ｃでは、筐体２１４は、丸みを帯びた縁部を有する矩形断面を有する。他の実施形態では、筐体２１４は、任意の他の適切な形状の断面を伴って構成され得る。

【0021】

アイテム追跡プロセス
図３は、アイテム追跡システム１００のアイテム追跡プロセス３００の一実施形態の流れ図である。アイテム追跡システム１００は、プロセス３００を用いて、撮像デバイス１０２のプラットフォーム２０２上に置かれたアイテム２０４を識別し、アイテム２０４を特定のユーザに割り当て得る。一例として、アイテム追跡システム１００は、購入のためにユーザのデジタルカートにアイテム２０４を追加するために店舗内でプロセス３００を採用し得る。別の例として、アイテム追跡システム１００は、ユーザにアイテムをチェックアウトするために倉庫又は備品室内でプロセス３００を採用し得る。他の例では、アイテム追跡システム１００は、アイテム２０４が特定のユーザに割り当てられるか、又は関連付けられる任意の他の適切なタイプのアプリケーションにおいてプロセス３００を採用し得る。このプロセスにより、ユーザは、ユーザが買いたいアイテム２０４をユーザにスキャン又は他の方法で識別させることなく、空間からアイテム２０４を取得することができる。

【0022】

ステップ３０２において、アイテム追跡デバイス１０４は、撮像デバイス１０２のための自動排除を実行する。初期較正期間中、プラットフォーム２０２には、プラットフォーム２０２上にアイテム２０４が置かれなくてもよい。この期間中、アイテム追跡デバイス１０４は、１つ又は複数のカメラ１０８及び３Ｄセンサ１１０を使用して、プラットフォーム２０２上にアイテム２０４が置かれていない状態で、プラットフォームの基準画像１２２及び基準深度画像１２４を取得し得る。次いで、アイテム追跡デバイス１０４は、キャプチャされた画像１２２及び深度画像１２４を基準画像として使用して、アイテムがプラットフォーム２０２上に置かれたときを検出することができる。例えば、アイテム追跡デバイス１０４は、プラットフォーム２０２の上面図又は俯瞰図で構成された３Ｄセンサ１１０を使用して、プラットフォーム２０２上にアイテム２０４が置かれていないときにプラットフォーム２０２の基準深度画像１２４をキャプチャし得る。この例では、キャプチャされた深度画像１２４は、プラットフォーム２０２の表面２０８に対応する深度画像１２４全体にわたって実質的に一定の深度値を含み得る。その後、アイテム追跡デバイス１０４は、後続の深度画像１２４と基準深度画像１２４との間の深度値の差に基づいて、アイテム２０４がプラットフォーム２０２の表面２０８上に置かれたことを検出することができる。別の例として、アイテム追跡デバイス１０４は、プラットフォーム２０２の上面図又は斜視図で構成されたカメラ１０８を使用して、プラットフォーム２０２上にアイテム２０４が置かれていないときにプラットフォームの基準画像１２２をキャプチャし得る。この例では、キャプチャされた画像１２２は、プラットフォーム２０２上にアイテム２０４が存在しないときのプラットフォームのシーンに対応するピクセル値を含む。その後、アイテム追跡デバイス１０４は、後続の画像１２２と基準画像１２２との間のピクセル値の差に基づいて、アイテム２０４がプラットフォーム２０２上に置かれたことを検出することができる。

【0023】

ステップ３０４において、アイテム追跡デバイス１０４は、トリガイベントが検出されたか否かを決定する。トリガイベントは、ユーザが撮像デバイス１０２と対話していることを示すイベントに対応する。例えば、トリガイベントは、ユーザが撮像デバイス１０２に接近するか、又はアイテム２０４を撮像デバイス１０２上に置いたときに発生し得る。一例として、アイテム追跡デバイス１０４は、３Ｄセンサ１１０を使用して動きを検出したことに応答して、又は３Ｄセンサ１１０によってキャプチャされた深度画像１２４の変化に基づいて、トリガイベントが発生したと決定し得る。例えば、アイテム追跡デバイス１０４は、３Ｄセンサ１１０によってキャプチャされた深度画像１２４と基準深度画像１２４との間の深度値の差に基づいて、アイテム２０４がプラットフォーム２０２の表面２０８上に置かれたことを検出することができる。一例として図４を参照すると、図４は、アイテム２０４をプラットフォーム２０２上に置く前と、図２Ａに示される置いた後の、撮像デバイス１０２のプラットフォーム２０２の俯瞰図からの深度画像１２４間の比較の一例を示す。深度画像１２４Ａは、プラットフォーム２０２上にアイテム２０４が置かれていないときにキャプチャされる基準深度画像１２４に対応する。深度画像１２４Ｂは、アイテム２０４がプラットフォーム２０２上に置かれた後にキャプチャされる深度画像１２４に対応する。この例では、深度画像１２４内の色又はピクセル値は、異なる深度値を表す。深度画像１２４Ａでは、深度画像１２４Ａ内の深度値は実質的に一定であり、これは、プラットフォーム２０２上にアイテム２０４がないことを意味する。深度画像１２４Ｂでは、異なる深度値は、プラットフォーム２０２上に置かれたアイテム２０４（すなわち、アイテム２０４Ａ、２０４Ｂ、及び２０４Ｃ）に対応する。この例では、アイテム追跡デバイス１０４は、深度画像１２４Ａと深度画像１２４Ｂとの間の差に基づいてプラットフォーム２０２上のアイテム２０４の存在を検出したことに応答して、トリガイベントを検出する。アイテム追跡デバイス１０４はまた、画像１２２又は深度画像１２４を使用して、プラットフォーム２０２上にあるアイテム２０４の数をカウントし得る。この例では、アイテム追跡デバイス１０４は、深度画像１２４Ｂに基づいて、プラットフォーム２０２上に３つのアイテム２０４が置かれていると決定する。アイテム追跡デバイス１０４は、決定された数のアイテム２０４を後で使用して、全てのアイテム２０４が識別されたか否かを確認することができる。このプロセスについては、ステップ３１２において以下でより詳細に説明する。

【0024】

別の例として、アイテム追跡デバイス１０４は、カメラ１０８を使用して動きを検出したことに応答して、又はカメラ１０８によってキャプチャされた画像１２２の変化に基づいて、トリガイベントが発生したと決定し得る。例えば、アイテム追跡デバイス１０４は、後続の画像１２２と基準画像１２２との間のピクセル値の差に基づいて、アイテム２０４がプラットフォーム２０２上に置かれたことを検出することができる。別の例として、アイテム追跡デバイス１０４は、撮像デバイス１０２の重量センサ１１２上の重量増加に応答して、トリガイベントが発生したと決定し得る。この場合、重量センサ１１２によって測定された重量の増加は、１つ又は複数のアイテム２０４がプラットフォーム２０２上に置かれたことを示す。他の例では、アイテム追跡デバイス１０４は、ユーザが撮像デバイス１０２に接近したとき又はアイテム２０４を撮像デバイス１０２上に置かれたときを検出するための任意の他の適切なタイプのセンサ又は技法を使用し得る。

【0025】

アイテム追跡デバイス１０４は、トリガイベントが検出されていないと決定したことに応答して、ステップ３０４に留まる。この場合、アイテム追跡デバイス１０４は、ユーザがまだ撮像デバイス１０２と対話していないと決定する。アイテム追跡デバイス１０４は、ステップ３０４に留まり、ユーザが撮像デバイス１０２との対話を開始するまで、トリガイベントをチェックし続ける。アイテム追跡デバイス１０４は、トリガイベントが検出されたと決定したことに応じて、ステップ３０６に進む。この場合、アイテム追跡デバイス１０４は、ユーザが撮像デバイス１０２との対話を開始したと決定する。アイテム追跡デバイス１０４はステップ３０６に進み、撮像デバイス１０２のプラットフォーム２０２上に置かれたアイテムの識別を開始する。

【0026】

ステップ３０６において、アイテム追跡デバイス１０４は、撮像デバイス１０２のプラットフォーム２０２上のアイテム２０４の画像１２２をキャプチャするための１つ又は複数のカメラ１０８を識別する。アイテム追跡デバイス１０４は、プラットフォーム２０２上のアイテム２０４の姿勢（例えば、位置及び向き）に少なくとも部分的に基づいて、アイテム２０４の画像１２２をキャプチャするためのカメラ１０８を識別し得る。アイテム２０４の姿勢は、アイテム２０４の位置と、アイテム２０４がプラットフォーム２０２に対してどのように配置されているかに対応する。図２Ａの例を参照すると、第１のアイテム２０４Ａ及び第２のアイテム２０４Ｃは、プラットフォーム２０２に対して垂直な向きに配置されている。垂直な向きでは、アイテム２０４の識別可能な特徴は、主に垂直な向きにある。カメラ１０８Ａ及び１０８Ｃなどの、斜視図を有するカメラ１０８は、垂直な向きにあるアイテム２０４の識別可能な特徴の画像１２２をキャプチャするのにより適している可能性がある。例えば、ブランド、テキスト、及びバーコードなど、アイテム２０４Ａの識別可能な特徴のほとんどは、アイテム２０４Ａの両サイドに位置し、アイテム２０４の斜視図を使用して最もよく見えるので、アイテム追跡デバイス１０４は、アイテム２０４Ａの画像１２２をキャプチャするためにカメラ１０８Ａを選択し得る。同様に、アイテム追跡デバイス１０４は、次いで、アイテム２０４Ｃの画像１２２をキャプチャするためにカメラ１０８Ｃを選択し得る。この例では、第３のアイテム２０４Ｂは、プラットフォーム２０２に対して水平の向きに配置されている。水平の向きでは、アイテム２０４の識別可能な特徴は、主に水平の向きにある。カメラ１０８Ｂなどの、上面図又は俯瞰図を有するカメラ１０８は、水平の向きにあるアイテム２０４の識別可能な特徴の画像１２２をキャプチャするのにより適している可能性がある。この場合、アイテム２０４Ｂの識別可能な特徴のほとんどは、アイテム２０４Ｂの上部に位置し、アイテム２０４Ｂの俯瞰図を使用することで最もよく見えるので、アイテム追跡デバイス１０４は、アイテム２０４Ｂの画像１２２をキャプチャするためにカメラ１０８Ｂを選択し得る。

【0027】

一実施形態では、アイテム追跡デバイス１０４は、深度画像１２４を使用して、プラットフォーム２０２上のアイテム２０４の姿勢を決定し得る。一例として図４を参照すると、深度画像１２４Ｂは、図２Ａに示されるアイテム２０４（すなわち、アイテム２０４ａ、２０４Ｂ、及び２０４Ｃ）がプラットフォーム２０２上に置かれた後にキャプチャされるオーバーヘッド深度画像１２４に対応する。この例では、アイテム追跡デバイス１０４は、各アイテム２０４に対応する深度画像１２４Ｂ内のエリアを使用して、アイテム２０４の姿勢を決定し得る。例えば、アイテム追跡デバイス１０４は、アイテム２０４Ａに対応する深度画像１２４Ｂ内のエリア４０２を決定し得る。アイテム追跡デバイス１０４は、決定されたエリア４０２を所定のエリアしきい値６１４と比較する。アイテム追跡デバイス１０４は、アイテム２０４の決定されたエリア４０２が所定のエリアしきい値６１４以下である場合、アイテム２０４が垂直な向きにあると決定する。そうではなく、アイテム追跡デバイス１０４は、アイテム２０４の決定されたエリア４０２が所定のエリアしきい値６１４よりも大きい場合、アイテム２０４が水平の向きにあると決定する。この例では、アイテム追跡デバイス１０４は、アイテム２０４Ａ及び２０４Ｃのエリア４０２及び４０６がそれぞれエリアしきい値６１４以下であるので、アイテム２０４Ａ及び２０４Ｃが垂直な向きにあると決定する。アイテム追跡デバイス１０４は、アイテム２０４Ｂのエリア４０４がエリアしきい値６１４よりも大きいので、アイテム２０４Ｂが水平の向きにあると決定する。この決定は、アイテム追跡デバイス１０４が、アイテム２０４Ａ及び２０４Ｃの画像１２２をキャプチャするために、プラットフォーム２０２の斜視図を有するカメラ１０８（例えば、カメラ１０８Ａ及び１０８Ｃ）を選択することを意味する。アイテム追跡デバイス１０４は、アイテム２０４Ｂの画像１２２をキャプチャするために、プラットフォーム２０２の上面図又は俯瞰図を有するカメラ１０８（例えば、カメラ１０８Ｂ）を選択する。

【0028】

一実施形態では、アイテム追跡デバイス１０４は、アイテム２０４とカメラ１０８との間の距離に少なくとも部分的に基づいて、アイテム２０４の画像１２２をキャプチャするためのカメラ１０８を識別し得る。例えば、アイテム追跡デバイス１０４は、撮像デバイス１０２のカメラ１０８及び／又は３Ｄセンサ１１０の間のホモグラフィ６０８を生成し得る。ホモグラフィ６０８を生成することによって、アイテム追跡デバイス１０４は、画像１２２内のアイテム２０４の位置を使用して、プラットフォーム２０２、カメラ１０８、及び３Ｄセンサ１１０に対するアイテム２０４の物理的位置を決定することができる。これにより、アイテム追跡デバイス１０４は、アイテム２０４の物理的位置を使用して、アイテム２０４とカメラ１０８及び３Ｄセンサ１１０のそれぞれとの間の距離を決定することができる。ホモグラフィ６０８は、画像１２２又は深度画像１２４内のピクセル位置と、グローバル平面内の（ｘ，ｙ）座標（すなわち、プラットフォーム２０２上の物理的位置）との間で変換するように構成された係数を含む。アイテム追跡デバイス１０４は、ホモグラフィ６０８を使用して、特定のカメラ１０８又は３Ｄセンサ１１０内のピクセル位置と、プラットフォーム２０２上の物理的位置とを相関させる。言い換えると、アイテム追跡デバイス１０４は、ホモグラフィ６０８を使用して、それぞれカメラ１０８又は３Ｄセンサ１１０からの画像１２２又は深度画像１２４内のピクセル位置に基づいて、アイテム２０４がプラットフォーム２０２上のどこに物理的に位置するかを決定する。アイテム追跡デバイス１０４は、複数のカメラ１０８及び３Ｄセンサ１１０を使用してプラットフォーム２０２を監視するので、各カメラ１０８及び３Ｄセンサ１１０は、撮像デバイス１０２上のカメラ１０８又は３Ｄセンサ１１０の物理的位置に基づいて、異なるホモグラフィ６０８に一意に関連付けられる。この構成により、アイテム追跡デバイス１０４は、どのカメラ１０８又は３Ｄセンサ１１０にアイテム２０４が現れるかと、そのカメラ１０８又は３Ｄセンサ１１０によってキャプチャされる画像１２２又は深度画像１２４内のその位置とに基づいて、アイテム２０４がプラットフォーム２０２上のどこに物理的に位置するかを決定することができる。ホモグラフィ６０８の生成及びホモグラフィ６０８の使用に関する追加の情報については、「ＤＲＡＷＷＩＲＥＥＮＣＯＤＥＲＢＡＳＥＤＨＯＭＯＧＲＡＰＨＹ」と題する米国特許第１１，０２３，７４１号（代理人整理番号０９０２７８．０２３３）に開示されており、その全体は、参照により本明細書に組み込まれるものとする。

【0029】

一例として、アイテム追跡デバイス１０４は、それぞれ、プラットフォーム２０２の上面図又は俯瞰図を有するカメラ１０８又は３Ｄセンサ１１０からの画像１２２又は深度画像１２４を使用して、プラットフォーム２０２上のアイテムの物理的位置を決定し得る。この例では、アイテム追跡デバイス１０４は、画像１２２又は深度画像１２４内のアイテム２０４のピクセル位置を決定し得る。次いで、アイテム追跡デバイス１０４は、ホモグラフィ６０８を使用し、そのピクセル位置に基づいて、プラットフォーム２０２に対するアイテム２０４の物理的位置を決定し得る。プラットフォーム２０２上のアイテム２０４の物理的位置を決定した後、アイテム追跡デバイス１０４は、どのカメラ１０８がアイテム２０４に物理的に最も近く位置しているかを識別し、識別されたカメラ１０８を選択し得る。図２Ａの例に戻ると、アイテム追跡デバイス１０４は、カメラ１０８Ａがカメラ１０８Ｃよりもアイテム２０４Ａに近いので、アイテム２０４Ａの画像１２２をキャプチャするためにカメラ１０８Ａを選択し得る。同様に、アイテム追跡デバイス１０４は、カメラ１０８Ｃがカメラ１０８Ａよりもアイテム２０４Ｃに近いので、アイテム２０４Ｃの画像１２２をキャプチャするためにカメラ１０８Ｃを選択し得る。このプロセスは、アイテム２０４の最良のビューを有するカメラ１０８が、アイテム２０４の画像１２２をキャプチャするために選択されることを確実にする。

【0030】

ステップ３０８において、アイテム追跡デバイス１０４は、識別されたカメラ１０８を使用してプラットフォーム２０２上のアイテム２０４の画像１２２をキャプチャする。ここで、アイテム追跡デバイス１０４は、識別されたカメラ１０８を使用してアイテム２０４の画像をキャプチャする。例として図５Ａ、図５Ｂ、及び図５Ｃを参照すると、アイテム追跡デバイス１０４は、それぞれカメラ１０８Ａ、１０８Ｂ、及び１０８Ｃを使用して、アイテム２０４Ａの第１の画像１２２Ａ、アイテム２０４Ｂの第２の画像１２２Ｂ、及びアイテム２０４Ｃの第３の画像１２２Ｃをキャプチャし得る。アイテム追跡デバイス１０４は、処理のために各アイテム２０４の１つ又は複数の画像１２２を収集し得る。撮像デバイス１０２上で利用可能なカメラ１０８のサブセットを使用してアイテム２０４の画像をキャプチャすることによって、アイテム追跡デバイス１０４は、プラットフォーム２０２上のアイテム２０４を識別するためにキャプチャ及び処理されることとなる画像１２２の数を減らすことができる。このプロセスは、同じアイテム２０４の複数の画像１２２を含む可能性がある、撮像デバイス１０２上のカメラ１０８の全てからの画像１２２を処理する代わりに、アイテム追跡デバイス１０４がより少ない画像１２２の処理でアイテム２０４を識別することを可能にすることによって、アイテム２０４を識別するための探索空間を低減し、アイテム追跡デバイス１０４の効率及びハードウェア利用を改善する。加えて、アイテム追跡デバイス１０４はまた、ステップ３０６で説明したように、アイテム２０４の向き及び位置に基づいて、アイテム２０４を識別するのに最も有用な特徴をキャプチャするように位置決めされたカメラ１０８を選択する。特徴の例には、アイテム２０４のテキスト、ロゴ、ブランド、色、バーコード、パターン、形状、又は任意の他の適切なタイプの属性が含まれるが、これらに限定されない。

【0031】

図３に戻ると、ステップ３１０において、アイテム追跡デバイス１０４は、キャプチャされた画像１２２に基づいて、プラットフォーム２０２上のアイテム２０４を識別する。ここで、アイテム追跡デバイス１０４は、画像１２２内のアイテム２０４の特徴に基づいて、各画像１２２内のアイテム２０４を識別する。一例として、機械学習モデル１２６はＣＮＮであり得る。この例では、機械学習モデル１２６は、入力層、出力層、及び１つ又は複数の隠れ層を含む。隠れ層は、少なくとも１つの畳み込み層を含む。例えば、機械学習モデル１２６は、入力層、畳み込み層、プーリング層、畳み込み層、プーリング層、１つ又は複数の全結合層、出力層という層のシーケンスを含み得る。機械学習モデル１２６の各畳み込み層は、畳み込みカーネルのセットを使用して、画像１２２を形成するピクセルから特徴を抽出する。特定の実施形態では、機械学習モデル１２６の畳み込み層は、周波数ドメインで実施され、畳み込みプロセスは、離散フーリエ変換を用いて達成される。これは、画像を分類する目的で機械学習モデル１２６をトレーニングし、使用することに関連付けられた計算時間を短縮するために望ましいであろう。例えば、周波数ドメインに変換することで、高速フーリエ変換アルゴリズム（ＦＦＴ）を実装して、畳み込みに関連付けられた離散フーリエ変換を実行し得る。ＦＦＴアルゴリズムを単独で使用することにより、単一のＣＰＵ上に実装されたときの計算時間が（空間ドメインで畳み込みカーネルを適用するのと比べて）大幅に短縮されるだけでなく、ＦＦＴアルゴリズムは、１つ又は複数のグラフィックス処理ユニット（ＧＰＵ）を使用して並列化され得、それによって計算時間がさらに短縮される。周波数ドメインへの変換はまた、機械学習モデル１２６が並進及び回転不変であることを確実にするのを助けるためにも望ましいであろう（例えば、画像１２２中のアイテム２０４の存在に基づいて、画像１２２の機械学習モデル１２６によって行われるアイテム識別子への割当ては、画像１２２内のアイテム２０４の位置及び／又は向きに依存すべきではない）。

【0032】

別の例として、機械学習モデル１２６は、教師あり学習アルゴリズムであり得る。従って、特定の実施形態では、アイテム追跡デバイス１０４は、入力画像１２２を所定のアイテム識別子のセットのいずれかに割り当てるように機械学習モデル１２６をトレーニングするように構成される。アイテム追跡デバイス１０４は、任意の適切な方法で機械学習モデル１２６をトレーニングし得る。例えば、特定の実施形態では、アイテム追跡デバイス１０４は、入力画像１２２に添付されたラベル（例えば、アイテム識別子）のセットを含むトレーニングデータ（例えば、画像１２２）を機械学習モデル１２６に提供することによって、機械学習モデル１２６をトレーニングする。別の例として、機械学習モデル１２６は、教師なし学習アルゴリズムであり得る。そのような実施形態では、アイテム追跡デバイス１０４は、機械学習モデル１２６に画像１２２の集合体を提供し、画像１２２から抽出された共通の特徴に基づいて、アイテム追跡デバイス１０４によって識別されたアイテム識別子でこれらの画像１２２を分類するように機械学習モデル１２６に命令することによって、機械学習モデル１２６をトレーニングするように構成される。アイテム追跡デバイス１０４は、キャプチャされた画像１２２を機械学習モデル１２６に入力する前ならいつでも、機械学習モデル１２６をトレーニングすることができる。機械学習モデル１２６をトレーニングした後、アイテム追跡デバイス１０４は、キャプチャされた画像１２２の各々を機械学習モデル１２６に入力し得る。機械学習モデル１２６に画像１２２を入力したことに応答して、アイテム追跡デバイス１０４は、機械学習モデル１２６からアイテム２０４のアイテム識別子を受信する。アイテム識別子は、画像１２２内の識別されたアイテム２０４に対応する。アイテム識別子の例には、アイテム名、バーコード、アイテム番号、シリアルナンバー、又はアイテム２０４を一意に識別する任意の他の適切なタイプの識別子が含まれるが、これらに限定されない。

【0033】

いくつかの実施形態では、アイテム追跡デバイス１０４は、機械学習モデル１２６を使用せずに１つ又は複数の画像処理技法を採用して、画像１２２内のアイテム２０４を識別し得る。例えば、アイテム追跡デバイス１０４は、オブジェクト検出及び／又は光学式文字認識（ＯＣＲ）を使用して、アイテム２０４を識別するために使用可能なアイテム２０４のテキスト、ロゴ、ブランド、色、バーコード、又は任意の他の特徴を識別し得る。この場合、アイテム追跡デバイス１０４は、画像１２２内のピクセルを処理して、アイテム２０４のテキスト、色、バーコード、パターン、又は任意の他の特性を識別し得る。次いで、アイテム追跡デバイス１０４は、アイテム２０４の識別された特徴を、異なるアイテム２０４に対応する特徴のセットと比較し得る。例えば、アイテム追跡デバイス１０４は、画像１２２からテキスト（例えば、製品名）を抽出し得、そのテキストを、異なるアイテム２０４に関連付けられたテキストのセットと比較し得る。別の例として、アイテム追跡デバイス１０４は、画像１２２内の支配色を決定し得、その支配色を、異なるアイテム２０４に関連付けられた色のセットと比較し得る。別の例として、アイテム追跡デバイス１０４は、画像１２２内のバーコードを識別し得、そのバーコードを、異なるアイテム２０４に関連付けられたバーコードのセットと比較し得る。別の例として、アイテム追跡デバイス１０４は、画像１２２内のロゴ又はパターンを識別し得、その識別されたロゴ又はパターンを、異なるアイテム２０４に関連付けられたロゴ又はパターンのセットと比較得る。他の例では、アイテム追跡デバイス１０４は、任意の他の適切なタイプ又は組合せの特徴を識別し、その識別された特徴を、異なるアイテム２０４に関連付けられた特徴と比較し得る。画像１２２からの識別された特徴を、異なるアイテム２０４に関連付けられた特徴のセットと比較した後、アイテム追跡デバイス１０４は、一致が見つかったかどうかを決定する。アイテム追跡デバイス１０４は、識別された特徴の少なくとも意味のある部分が、アイテム２０４に対応する特徴と一致した場合、一致が見つかったと決定し得る。画像１２２内の特徴の意味のある部分がアイテム２０４の特徴と一致すると決定したことに応答して、アイテム追跡デバイス１０４は、一致するアイテム２０４に対応するアイテム識別子を出力し得る。他の実施形態では、アイテム追跡デバイス１０４は、１つ又は複数の画像処理技法を機械学習モデル１２６と併用して、上記で説明した技法の任意の組合せを使用して画像１２２内のアイテム２０４を識別し得る。

【0034】

いくつかの実施形態では、アイテム追跡デバイス１０４は、アイテム２０４が正しく識別された確率を示す信頼度スコア６１０を出力するように構成される。例えば、アイテム追跡デバイス１０４は、決定されたアイテム識別子を用いて機械学習モデル１２６から信頼度スコア６１０を取得し得る。この例では、機械学習モデル１２６は、アイテム識別子を決定するときに使用又は一致した特徴の数に比例する信頼度スコア６１０を出力する。別の例として、アイテム追跡デバイス１０４は、識別された特徴が、識別されたアイテム２０４の特徴とどの程度一致するかに基づいて、信頼度スコア６１０を決定し得る。例えば、アイテム追跡デバイス１０４は、画像１２２内で識別されたテキストの半分が、識別されたアイテム２０４に関連付けられたテキストと一致する場合、５０％の信頼度スコア６１０を取得し得る。別の例として、アイテム追跡デバイス１０４は、画像１２２内のバーコードが、識別されたアイテム２０４のバーコードと一致する場合、１００％の信頼度スコア６１０を取得することを決定し得る。別の例として、アイテム追跡デバイス１０４は、画像１２２内の支配色が、識別されたアイテム２０４の支配色と一致するとき、２５％の信頼度スコア６１０を取得し得る。他の例では、アイテム追跡デバイス１０４は、任意の他の適切なタイプ又は組合せの特徴が、識別されたアイテム２０４の特徴とどの程度一致するかに基づく信頼度スコア６１０を取得し得る。信頼度スコア６１０に影響を与える可能性のある他の情報には、オブジェクトの向き、プラットフォーム２０８上のアイテムの数（例えば、プラットフォーム２０８上のアイテムの数が少ない方が、プラットフォーム２０８上のアイテムの数が多い場合よりも識別するのが容易である）、プラットフォーム上のアイテム間の相対距離（例えば、プラットフォーム２０８上のアイテムの間隔が空いている方が、プラットフォーム２０８上のアイテムが密集している場合よりも識別するのが容易である）などが含まれるが、これらに限定されない。アイテム追跡デバイス１０４は、識別されたアイテム２０４の信頼度スコア６１０を信頼度スコアしきい値６１２と比較して、アイテム２０４が識別されたかどうかを決定し得る。アイテム追跡デバイス１０４は、アイテム２０４の信頼度スコア６１０が信頼度スコアしきい値６１２未満である場合、アイテム２０４が識別されていないと決定し得る。アイテム追跡デバイス１０４は、アイテム２０４の信頼度スコア６１０が信頼度スコアしきい値６１２以上である場合、アイテム２０４が識別されたと決定する。信頼度スコアしきい値６１２は、９０％、８０％、７５％、又は任意の他の適切な値に設定され得る。

【0035】

ステップ３１２において、アイテム追跡デバイス１０４は、プラットフォーム２０２上の全てのアイテム２０４が識別されたかどうかを決定する。例えば、アイテム追跡デバイス１０４は、キャプチャ画像１２２からの識別されたアイテム２０４の数を、ステップ３０４において決定されたプラットフォーム２０２上のアイテム２０４の数と比較し得る。アイテム追跡デバイス１０４は、キャプチャされた画像１２２からの識別されたアイテム２０４のアイテム２０４の数が、プラットフォーム２０２上のアイテム２０４の決定された数と一致するとき、プラットフォーム２０２上のアイテム２０４の全てが識別されたと決定する。そうでなはなく、アイテム追跡デバイス１０４は、キャプチャされた画像１２２からの識別されたアイテム２０４のアイテム２０４の数が、プラットフォーム２０２上のアイテム２０４の決定された数と一致しないとき、アイテム２０４のうちの少なくとも１つが識別されなかったと決定する。

【0036】

アイテム追跡デバイス１０４は、プラットフォーム２０２上の１つ又は複数のアイテム２０４が識別されていないと決定したことに応答して、ステップ３１４に進む。この場合、アイテム追跡デバイス１０４は、アイテム追跡デバイス１０４がプラットフォーム上のアイテム２０４のうちのいくつかを識別するのを支援するために、プラットフォーム２０２上の１つ又は複数のアイテム２０４を位置調節するようにユーザに要求を出力し得る。ステップ３１４において、アイテム追跡デバイス１０４は、プラットフォーム２０２上の１つ又は複数のアイテム２０４を再配置するためのプロンプトを出力する。一例として、１つ又は複数のアイテム２０４は、カメラ１０８のうちの１つに対してアイテム２０４のビューを覆い隠し得る。この例では、アイテム追跡デバイス１０４は、プラットフォーム２０２上のアイテム２０４の位置を再配置するようにユーザに求める命令を有するメッセージを、撮像デバイス１０２に位置するグラフィカルユーザインターフェース上に出力し得る。いくつかの実施形態では、アイテム追跡デバイス１０４はまた、識別されなかったプラットフォーム２０２上の１つ又は複数のアイテム２０４の位置を識別し得る。例えば、アイテム追跡デバイス１０４は、認識されなかったアイテム２０４を照明するプラットフォーム２０２の上方又は下方の光源を作動させ得る。一実施形態では、プラットフォーム２０２上のアイテム２０４を再配置するためのメッセージを出力した後、アイテム追跡デバイス１０４は、ステップ３０６に戻って、プラットフォーム２０２上のアイテム２０４を識別するプロセスを再開する。このプロセスは、アイテム２０４がプラットフォーム２０２上に再配置された後に、アイテム追跡デバイス１０４がアイテム２０４を二重カウントすることを防止する。

【0037】

ステップ３１２に戻り、アイテム追跡デバイス１０４は、プラットフォーム２０２上の全てのアイテム２０４が識別されたと決定したことに応答して、ステップ３１６に進む。いくつかの実施形態では、アイテム追跡デバイス１０４は、プラットフォーム２０２上のアイテム２０４の重量に基づいて、識別されたアイテム２０４の検出精度を妥当性確認し得る。例えば、アイテム追跡デバイス１０４は、識別されたアイテム２０４に関連付けられたアイテム情報１１８に基づいて、識別されたアイテム２０４の重量に関連付けられた第１の重量を決定し得る。例えば、アイテム追跡デバイス１０４は、識別されたアイテム２０４のアイテム識別子を使用して、識別されたアイテム２０４のそれぞれに対応する重量を決定し得る。アイテム追跡デバイス１０４は、識別されたアイテム２０４の個々の重量を合計して、第１の重量を決定し得る。アイテム追跡デバイス１０４はまた、プラットフォーム２０２上のアイテム２０４の第２の重量を重量センサ１１２から受信し得る。次いで、アイテム追跡デバイス１０４は、第１の重量と第２の重量との間の重量差を決定し、重量差を重量差しきい値と比較する。重量差しきい値は、第１の重量と第２の重量との間の最大重量差に対応する。重量差が重量差しきい値を超えるとき、アイテム追跡デバイス１０４は、撮像デバイス１０２のプラットフォーム２０２上のアイテム２０４の重量と、識別されたアイテム２０４の予想重量との間に不一致があると決定し得る。この場合、アイテム追跡デバイス１０４は、エラーメッセージを出力し、及び／又はステップ３０６に戻ってアイテム追跡プロセスを再開し得る。重量差が重量差しきい値以下であるとき、アイテム追跡デバイス１０４は、撮像デバイス１０２のプラットフォーム２０２上のアイテム２０４の重量と、識別されたアイテム２０４の予想重量との間に一致があると決定し得る。この場合、アイテム追跡デバイス１０４はステップ３１６に進み得る。

【0038】

ステップ３１６において、アイテム追跡デバイス１０４は、禁止又は制限アイテム２０４がプラットフォーム２０２上に存在するかどうかをチェックする。禁止又は制限アイテム２０４とは、許可制限、年齢制限、又は任意の他のタイプの制限のためにユーザが取得することを認可されていないアイテム２０４である。アイテム追跡デバイス１０４は、識別されたアイテム２０４のアイテム識別子を、制限又は禁止アイテムのアイテム識別子のリスト６１６と比較し得る。アイテム２０４が制限又は禁止アイテムのリスト６１６上のアイテムのうちの１つと一致すると決定したことに応答して、アイテム追跡デバイス１０４は、ステップ３１８に進み、ユーザがプラットフォーム２０２上のアイテム２０４のうちの１つを取得することが禁止されていることを示す警告又は通知を出力する。例えば、アイテム追跡デバイス１０４は、禁止アイテム２０４を識別する警告メッセージを出力し、撮像デバイス１０２に位置するグラフィカルユーザインターフェースを使用して、プラットフォーム２０２から禁止アイテム２０４を除去するようにユーザに求め得る。別の例として、アイテム追跡デバイス１０４は、禁止アイテム２０４を識別する警告メッセージを、空間に関連付けられた別のユーザ（例えば、従業員）に出力し得る。他の例では、アイテム追跡デバイス１０４は、プラットフォーム２０２上の禁止アイテム２０４を検出したことに応答して、任意の他の適切なタイプの警告メッセージを出力し得る。

【0039】

ステップ３２０において、アイテム追跡デバイス１０４は、禁止アイテム２０４がプラットフォーム２０２から除去されたかどうかを決定する。例えば、アイテム追跡デバイス１０４は、重量センサ１１２を使用して、プラットフォーム２０２上のアイテム２０４の測定された重量が、禁止アイテム２０４の重量に対応する量だけ減少したかどうかを決定し得る。別の例として、アイテム追跡デバイス１０４は、カメラ１０８及び／又は３Ｄセンサ１１０を使用して、禁止アイテム２０４が依然としてプラットフォーム２０２上に存在するかどうかを決定し得る。禁止アイテム２０４が依然としてプラットフォーム２０２上に存在すると決定したことに応答して、アイテム追跡デバイス１０４は、プロセス３００を一時停止し、禁止アイテム２０４がプラットフォーム２０２から除去されるまでステップ３２０に留まり得る。このプロセスにより、ユーザは、禁止アイテム２０４を取得することができなくなる。アイテム追跡デバイス１０４は、禁止アイテム２０４がプラットフォーム２０２から除去された後、ステップ３２２に進み得る。

【0040】

そうではない場合、アイテム追跡デバイス１０４は、プラットフォーム２０２上に禁止アイテム２０４が存在しないと決定したことに応答して、ステップ３２２に進む。ステップ３２２において、アイテム追跡デバイス１０４は、アイテム２０４をユーザに関連付ける。一実施形態では、アイテム追跡デバイス１０４は、プラットフォーム２０２上のアイテム２０４に関連付けられたユーザを識別し得る。例えば、ユーザは、撮像デバイス１０２に位置するスキャナ又はカードリーダを使用して本人確認を行い得る（identify themselves）。スキャナの例には、ＱＲコード（登録商標）スキャナ、バーコードスキャナ、近距離無線通信（ＮＦＣ）スキャナ、又は人物を一意に識別する情報が埋め込まれた電子コードを受信することができる任意の他の適切なタイプのスキャナが含まれるが、これらに限定されない。他の例では、ユーザは、撮像デバイス１０２に位置するグラフィカルユーザインターフェース上にユーザ情報を提供することによって、本人確認を行い得る。ユーザ情報の例には、名前、電話番号、電子メールアドレス、識別番号、従業員番号、英数字コード、又はユーザに関連付けられた任意の他の適切なタイプの情報が含まれるが、これらに限定されない。

【0041】

アイテム追跡デバイス１０４は、ユーザによって提供された情報を使用して、ユーザに関連付けられたアカウントを識別し、次いで、識別されたアイテム２０４をユーザのアカウントに追加する。例えば、アイテム追跡デバイス１０４は、ユーザによって提供された情報を使用して、ユーザに関連付けられたユーザアカウント情報１２０内のアカウントを識別し得る。一例として、アイテム追跡デバイス１０４は、ユーザに関連付けられたデジタルカートを識別し得る。この例では、デジタルカートは、購入するためにユーザがプラットフォーム２０２上に置いたアイテム２０４に関する情報を含む。アイテム追跡デバイス１０４は、識別されたアイテム２０４のアイテム識別子をデジタルカートに追加することによって、アイテム２０４をユーザのデジタルカートに追加し得る。アイテム追跡デバイス１０４はまた、アイテム２０４に関連する他の情報をデジタルカートに追加し得る。例えば、アイテム追跡デバイス１０４は、アイテム識別子を使用して、記憶されたアイテム情報１１８から、識別されたアイテム２０４の価格情報をルックアップし得る。次いで、アイテム追跡デバイス１０４は、識別されたアイテム２０４の各々に対応する価格情報をユーザのデジタルカートに追加し得る。

【0042】

アイテム追跡デバイス１０４がアイテム２０４をユーザのデジタルカートに追加した後、アイテム追跡デバイス１０４は、アイテム２０４に対する取引をトリガ又は開始し得る。一実施形態では、アイテム追跡デバイス１０４は、以前に記憶された情報（例えば、支払いカード情報）を使用して、アイテム２０４の取引を完了し得る。この場合、ユーザは、空間を出るときに、ユーザのデジタルカート内のアイテム２０４の代金が自動的に請求され得る。他の実施形態では、アイテム追跡デバイス１０４は、撮像デバイス１０２に位置するスキャナ又はカードリーダを使用してユーザから情報を収集し、アイテム２０４の取引を完了し得る。このプロセスにより、ユーザが買いたいアイテム２０４をユーザにスキャン又は他の方法で識別させることなく、アイテム２０４をユーザのアカウント（例えば、デジタルカート）に自動的に追加することができる。アイテム２０４をユーザのアカウントに追加した後、アイテム追跡デバイス１０４は、ユーザのアカウントに追加されたアイテム２０４に関する情報を有する通知又はサマリをユーザに出力し得る。例えば、アイテム追跡デバイス１０４は、撮像デバイス１０２に位置するグラフィカルユーザインターフェース上にサマリを出力し得る。別の例として、アイテム追跡デバイス１０４は、ユーザに関連付けられた電子メールアドレス又はユーザデバイスにサマリを送信することによって、サマリを出力し得る。

【0043】

アイテム追跡デバイスのハードウェア構成
図６は、アイテム追跡システム１００のためのアイテム追跡デバイス１０４の一実施形態である。一実施形態では、アイテム追跡デバイス１０４は、プロセッサ６０２と、メモリ１１６と、ネットワークインターフェース６０４とを備え得る。アイテム追跡デバイス１０４は、図示のように、又は任意の他の適切な構成で構成され得る。

【0044】

プロセッサ
プロセッサ６０２は、メモリ１１６に動作可能に結合された１つ又は複数のプロセッサを含む。プロセッサ６０２は、状態機械、１つ又は複数の中央処理装置（ＣＰＵ）チップ、論理ユニット、コア（例えば、マルチコアプロセッサ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又はデジタルシグナルプロセッサ（ＤＳＰ）を含むが、これらに限定されない任意の電子回路である。プロセッサ６０２は、プログラマブル論理デバイス、マイクロコントローラ、マイクロプロセッサ、又は前述したものの任意の適切な組合せであり得る。プロセッサ６０２は、メモリ１１６及びネットワークインターフェース６０４に通信可能に結合され、それらと信号通信する。１つ又は複数のプロセッサは、データを処理するように構成され、ハードウェア又はソフトウェアで実装され得る。例えば、プロセッサ６０２は、８ビット、１６ビット、３２ビット、６４ビット、又は任意の他の適切なアーキテクチャであり得る。プロセッサ６０２は、算術及び論理演算を実行するための演算論理装置（ＡＬＵ）と、ＡＬＵにオペランドを供給し、ＡＬＵ演算の結果を記憶するプロセッサレジスタと、メモリから命令をフェッチし、ＡＬＵ、レジスタ、及び他の構成要素の協調動作を指示することによってそれらを実行する制御ユニットとを含み得る。

【0045】

１つ又は複数のプロセッサは、様々な命令を実装するように構成される。例えば、１つ又は複数のプロセッサは、アイテム追跡命令６０６を実行してアイテム追跡エンジン１１４を実装するように構成される。このように、プロセッサ６０２は、本明細書に開示される機能を実装するように設計された専用コンピュータであり得る。一実施形態では、アイテム追跡エンジン１１４は、論理ユニット、ＦＰＧＡ、ＡＳＩＣ、ＤＳＰ、又は任意の他の適切なハードウェアを使用して実装される。アイテム追跡エンジン１１４は、図１及び図３で説明したように動作するように構成される。例えば、アイテム追跡エンジン１１４は、図３で説明したようなプロセス３００のステップを実行するように構成され得る。

【0046】

メモリ
メモリ１１６は、プロセッサ６０２によって実行されたときに、本明細書で説明された機能（複数可）を実装するように動作可能な任意の他のデータ、命令、論理、ルール、又はコードとともに、図１及び図３に関して上記で説明した情報のいずれかを記憶するように動作可能である。メモリ１１６は、１つ又は複数のディスク、テープドライブ、又はソリッドステートドライブを備え、プログラムが実行のために選択されたときにそのようなプログラムを記憶し、プログラム実行中に読み取られる命令及びデータを記憶するために、オーバーフローデータ記憶デバイスとして使用され得る。メモリ１１６は、揮発性又は不揮発性であり得、読取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ターナリ連想メモリ（ＴＣＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、及びスタティックランダムアクセスメモリ（ＳＲＡＭ）を含み得る。

【0047】

メモリ１１６は、アイテム追跡命令６０６、アイテム情報１１８、ユーザアカウント情報１２０、機械学習モデル１２６、画像１２２、深度画像１２４、ホモグラフィ６０８、信頼度スコア６１０、信頼度スコアしきい値６１２、エリアしきい値６１４、制限又は禁止アイテムのリスト６１６、及び／又は任意の他のデータ若しくは命令を記憶するように動作可能である。アイテム追跡命令６０６は、アイテム追跡エンジン１１４を実行するように動作可能な命令、ロジック、ルール、又はコードの任意の適切なセットを含み得る。アイテム情報１１８、ユーザアカウント情報１２０、機械学習モデル１２６、画像１２２、深度画像１２４、ホモグラフィ６０８、信頼度スコア６１０、信頼度スコアしきい値６１２、エリアしきい値６１４、及び制限又は禁止アイテムのリスト６１６は、図１及び図３でそれぞれ説明したアイテム情報１１８、ユーザアカウント情報１２０、機械学習モデル１２６、画像１２２、深度画像１２４、ホモグラフィ６０８、信頼度スコア６１０、信頼度スコアしきい値６１２、エリアしきい値６１４、及び制限又は禁止アイテムのリスト６１６と同様に構成される。

【0048】

ネットワークインターフェース
ネットワークインターフェース６０４は、ワイヤード及び／又はワイヤレス通信を可能にするように構成される。ネットワークインターフェース６０４は、撮像デバイス１０２と他のデバイス、システム、又はドメインとの間でデータを通信するように構成される。例えば、ネットワークインターフェース６０４は、ＮＦＣインターフェース、Ｂｌｕｅｔｏｏｔｈ（登録商標）インターフェース、Ｚｉｇｂｅｅインターフェース、Ｚ－ｗａｖｅインターフェース、無線周波数識別（ＲＦＩＤ）インターフェース、ＷＩＦＩインターフェース、ＬＡＮインターフェース、ＷＡＮインターフェース、ＰＡＮインターフェース、モデム、スイッチ、又はルータを含み得る。プロセッサ６０２は、ネットワークインターフェース６０４を使用してデータを送信及び受信するように構成される。ネットワークインターフェース６０４は、当業者によって理解されるように、任意の適切なタイプの通信プロトコルを使用するように構成され得る。

【0049】

本開示ではいくつかの実施形態が提供されてきたが、開示されたシステム及び方法は、本開示の趣旨又は範囲から逸脱することなく、多くの他の特定の形態で具現化され得ることが理解されるべきである。本実施例は、限定ではなく例示と見なされるべきであり、その意図は、本明細書に与えられる詳細に限定されるべきではない。例えば、様々な要素又は構成要素が別のシステムと組み合わされるか若しくは統合されてもよいし、いくつかの特徴が省略される、すなわち実装されなくてもよい。

【0050】

加えて、離散的又は別個として様々な実施形態で説明及び図示される技法、システム、サブシステム、及び方法は、本開示の範囲から逸脱することなく、他のシステム、モジュール、技法、又は方法と組み合わされるか若しくは統合されてもよい。結合された、若しくは直接結合された、又は互いに通信するものとして図示又は説明された他の項目は、電気的、機械的、又は他の方法にかかわらず、何らかのインターフェース、デバイス、又は中間構成要素を介して間接的に結合又は通信され得る。変更、置換、及び改変の他の例は、当業者によって確認可能であり、本明細書に開示される趣旨及び範囲から逸脱することなく行われ得る。

【0051】

特許庁、及び本出願に対して発行された任意の特許の任意の読者が、本明細書に添付された特許請求の範囲を解釈するのを助けるために、出願人は、特定の請求項において「～ための手段（ｍｅａｎｓｆｏｒ）」又は「～ためのステップ（ｓｔｅｐｆｏｒ）」という語が明示的に使用されない限り、添付された特許請求の範囲のいずれもが、本明細書の出願日に存在する米国特許法１１２条（ｆ）項を行使することを意図しないことに留意されたい。

【図1】