(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-23
(45)【発行日】2022-05-31
(54)【発明の名称】映像モニタリングに基づく商品検知システムおよび商品検知方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220524BHJP
G06Q 30/00 20120101ALI20220524BHJP
【FI】
G06T7/00 350C
G06Q30/00 300
(21)【出願番号】P 2019543905
(86)(22)【出願日】2018-11-23
(86)【国際出願番号】 CN2018117326
(87)【国際公開番号】W WO2019144690
(87)【国際公開日】2019-08-01
【審査請求日】2020-10-22
(31)【優先権主張番号】201810078256.2
(32)【優先日】2018-01-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519290828
【氏名又は名称】上海云拿智能科技有限公司
【氏名又は名称原語表記】SHANGHAI CLOUDPICK SMART TECHNOLOGY CO., LTD.
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(74)【代理人】
【識別番号】100205936
【氏名又は名称】崔 海龍
(74)【代理人】
【識別番号】100132805
【氏名又は名称】河合 貴之
(72)【発明者】
【氏名】李 庭涛
(72)【発明者】
【氏名】馮 立男
(72)【発明者】
【氏名】夏 鼎
(72)【発明者】
【氏名】馬 捷▲いく▼
(72)【発明者】
【氏名】▲お▼ 文堯
(72)【発明者】
【氏名】張 一▲ばい▼
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2017-157216(JP,A)
【文献】薛承哲,賀雲,佐藤雄隆,複数RGB-Dカメラを用いた全周囲3次元モデル構築と物体認識学習用データセット生成への応用に関する研究,第22回 画像センシングシンポジウム SSII2016 [USB],日本,画像センシング技術研究会,2016年06月08日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06Q 30/00
(57)【特許請求の範囲】
【請求項1】
映像モニタリングに基づく商品検知システムであって、
各グループのピクチャサンプルは複数角度にある同一種の商品の複数枚のサンプルピクチャを含み、同一種の商品の1グループのピクチャサンプルに同じなグループマークが設けられ、当該グループマークが当該グループのピクチャサンプルに対応する商品の種類であり、複数グループのピクチャサンプルを取得するためのサンプル取得手段と、
複数グループのピクチャサンプルにおける各サンプルピクチャ及びそのグループマークに基づいて畳み込みニューラルネットワークモデルをトレーニングして、商品識別モデルを取得するモデルトレーニング手段と、
商品棚の前方空間にある少なくとも一つの、商品ピクチャの全部又は一部を含むリアルタイムピクチャを連続に取得するリアルタイムピクチャ取得手段と、
前記リアルタイムピクチャ及び前記商品識別モデルに基づいて、前記リアルタイムピクチャに表示されている商品の種類及び数量を取得する商品種類取得手段と、
を備え、
前記商品種類取得手段は、
複数のリアルタイムピクチャを前記商品識別モデルに入力して、可能性の結論として、複数のリアルタイムピクチャに対応する複数グループマークを取得するグループマーク取得手段と、
前記可能性の結論における各グループマークの数量と前記可能性の結論における全部のグループマークの総数の比率を算出し、当該比率が各グループマークの確実度であり、確実度が最大であるグループマークに対応する商品の種類及び/又は数量は前記リアルタイムピクチャに表示される商品の種類及び/又は数量であるマーク確実度算出手段と、
を備えることを特徴とする映像モニタリングに基づく商品検知システム。
【請求項2】
さらに、
前記サンプル取得手段に接続され、各商品に対して複数角度且つ複数距離でピクチャを撮像する第1のカメラと、
前記リアルタイムピクチャ取得手段に接続され、商品棚の前方空間のリアルタイムピクチャを撮像する第2のカメラと、を備え、
ここで、前記第2のカメラには、視野の範囲が前記商品棚の前方空間を覆うレンズが設けられている、
ことを特徴とする請求項1に記載の映像モニタリングに基づく商品検知システム。
【請求項3】
前記第2のカメラの数量が二つ又は四つであり、
前記第2のカメラのレンズが前記商品棚の前方の空間領域の中部に向き、
前記第2のカメラのレンズの中心軸と水平面が成す角度は30~60度であり、及び/又は
前記第2のカメラのレンズから前記商品棚の上端又は下端までの距離は0.8~1.2メートルであり、及び/又は
前記第2のカメラのレンズから前記商品棚の片側の辺までの距離は0.8~1.2メートルである、
ことを特徴とする請求項2に記載の映像モニタリングに基づく商品検知システム。
【請求項4】
前記モデルトレーニング手段は、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニング手段、を備え、
ここで、前記トレーニングサンプルは前記複数グループのピクチャサンプルの全部又は一部であり、前記グループ化モデルが商品識別モデルである、
ことを特徴とする請求項1に記載の映像モニタリングに基づく商品検知システム。
【請求項5】
前記モデルトレーニング手段は、
複数グループの前記ピクチャサンプルをランダムにトレーニングサンプル及びテストサンプルの二つのタイプに分けるサンプル分類手段と、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニング手段と、
複数グループのテストサンプルの各ピクチャ及び各グループのテストサンプルのグループマークに基づき、前記グループ化モデルを検証してモデルの正確度を算出し、前記グループ化モデルの正確度がプリセットしきい値より小さい場合に前記サンプル分類手段に戻し、前記グループ化モデルの正確度が前記プリセットしきい値以上である場合に前記グループ化モデルを商品識別モデルとする交差検証手段と、
を備えることを特徴とする請求項4に記載の映像モニタリングに基づく商品検知システム。
【請求項6】
前記グループ化モデルトレーニング手段は、
各トレーニングサンプルのピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する特徴抽出手段と、
各トレーニングサンプルのピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する候補領域生成手段と、
各トレーニングサンプルのピクチャの候補領域を畳み込みニューラルネットワークの最終層の畳み込み層の特徴画像にマッピングする候補領域マッピング手段と、
複数のトレーニングサンプルのピクチャの特徴画像及び候補領域を収集して、候補領域の特徴画像を算出し且つ分類器ネットワークに伝送することにより分類器を生成する分類器生成手段と、
を備えることを特徴とする請求項4又は5に記載の映像モニタリングに基づく商品検知システム。
【請求項7】
前記交差検証手段は、
複数のテストサンプルの各ピクチャを前記グループ化モデルに入力して、複数のテストサンプルのテストグループマークを取得するテストサンプル入力手段と、
複数のテストサンプルのテストグループマークと前記テストサンプルのグループマークを対比して、同じなマークの数量と前記テストサンプルの数量の、
一次データモデルの正確度である比率を算出する正確度算出手段と、
を備えることを特徴とする請求項
5に記載の映像モニタリングに基づく商品検知システム。
【請求項8】
前記グループマーク取得手段は、
一つのリアルタイムピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する第2の特徴抽出手段と、
前記リアルタイムピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する第2の候補領域生成手段と、
前記リアルタイムピクチャの候補領域を畳み込みニューラルネットワークの最終層の特徴画像にマッピングする第2の候補領域マッピング手段と、
複数のピクチャの特徴画像及び候補領域を収集し、候補領域の特徴画像を算出して分類器ネットワークに伝送し、当該リアルタイムピクチャに対応するグループマークを取得するグループマーク取得手段と、
を備えることを特徴とする請求項
1に記載の映像モニタリングに基づく商品検知システム。
【請求項9】
映像モニタリングに基づく商品検知方法であって、
各グループのピクチャサンプルは複数角度にある同一種の商品の複数枚のサンプルピクチャを含み、同一種の商品の1グループのピクチャサンプルに同じなグループマークが設けられ、当該グループマークが当該グループのピクチャサンプルに対応する商品の種類であり、複数グループのピクチャサンプルを取得するためのサンプル取得ステップと、
複数グループのピクチャサンプルにおける各サンプルピクチャ及びそのグループマークに基づいて畳み込みニューラルネットワークモデルをトレーニングして、商品識別モデルを取得するモデルトレーニングステップと、
商品棚の前方空間にある少なくとも一つの、商品ピクチャの全部又は一部を含むリアルタイムピクチャを連続に取得するリアルタイムピクチャ取得ステップと、
前記リアルタイムピクチャ及び前記商品識別モデルに基づいて、前記リアルタイムピクチャに表示されている商品の種類及び数量を取得する商品種類取得ステップと、
を備え、
前記商品種類取得ステップは、
複数のリアルタイムピクチャを前記商品識別モデルに入力して、可能性の結論として、複数のリアルタイムピクチャに対応する複数グループマークを取得するグループマーク取得ステップと、
前記可能性の結論における各グループマークの数量と前記可能性の結論における全部のグループマークの総数の比率を算出し、当該比率が各グループマークの確実度であり、確実度が最大であるグループマークに対応する商品の種類及び/又は数量は前記リアルタイムピクチャに表示される商品の種類及び/又は数量であるマーク確実度算出ステップと、
を備えることを特徴とする映像モニタリングに基づく商品検知方法。
【請求項10】
前記モデルトレーニングステップは、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニングステップ、を備え、
ここで、前記トレーニングサンプルは前記複数グループのピクチャサンプルの全部又は一部であり、前記グループ化モデルが商品識別モデルである
ことを特徴とする請求項
9に記載の映像モニタリングに基づく商品検知方法。
【請求項11】
前記モデルトレーニングステップは、
複数グループの前記ピクチャサンプルをランダムにトレーニングサンプル及びテストサンプルの二つのタイプに分けるサンプル分類ステップと、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニングステップと、
複数グループのテストサンプルの各ピクチャ及び各グループのテストサンプルのグループマークに基づき、前記グループ化モデルを検証してモデルの正確度を算出し、前記グループ化モデルの正確度がプリセットしきい値より小さい場合に前記サンプル分類ステップに戻し、前記グループ化モデルの正確度が前記プリセットしきい値以上である場合に前記グループ化モデルを商品識別モデルとする交差検証ステップと、
を備えることを特徴とする請求項
9に記載の映像モニタリングに基づく商品検知方法。
【請求項12】
前記グループ化モデルトレーニングステップは、
各トレーニングサンプルのピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する特徴抽出ステップと、
各トレーニングサンプルのピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する候補領域生成ステップと、
各トレーニングサンプルのピクチャの候補領域を畳み込みニューラルネットワークの最終層の畳み込み層の特徴画像にマッピングする候補領域マッピングステップと、
複数のトレーニングサンプルのピクチャの特徴画像及び候補領域を収集して、候補領域の特徴画像を算出し且つ分類器ネットワークに伝送することにより分類器を生成する分類器生成ステップと、
を備えることを特徴とする請求項
10又は11に記載の映像モニタリングに基づく商品検知方法。
【請求項13】
前記交差検証ステップは、
複数のテストサンプルの各ピクチャを前記グループ化モデルに入力して、複数のテストサンプルのテストグループマークを取得するテストサンプル入力ステップと、
複数のテストサンプルのテストグループマークと前記テストサンプルのグループマークを対比して、同じなマークの数量と前記テストサンプルの数量の、
一次データモデルの正確度である比率を算出する正確度算出ステップと、
備えることを特徴とする請求項
11に記載の映像モニタリングに基づく商品検知方法。
【請求項14】
前記グループマーク取得ステップは、
一つのリアルタイムピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する第2の特徴抽出ステップと、
前記リアルタイムピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する第2の候補領域生成ステップと、
前記リアルタイムピクチャの候補領域を畳み込みニューラルネットワークの最終層の特徴画像にマッピングする第2の候補領域マッピングステップと、
複数のピクチャの特徴画像及び候補領域を収集し、候補領域の特徴画像を算出して分類器ネットワークに伝送し、当該リアルタイムピクチャに対応するグループマークを取得するグループマーク取得ステップと、
を備えることを特徴とする請求項
9に記載の映像モニタリングに基づく商品検知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、小売業における商品検知の技術分野に関し、具体的には、映像モニタリングに基づく商品検知システムおよび商品検知方法に関する。
【背景技術】
【0002】
既存の小売業におけるショッピング方法によれば、各々のスーパーマーケットやコンビニエンスストアでは専門の販売員やレジ係を必要とし、人件費が高い。一方、電子決済技術、身元検知(ID認識)技術およびクラウドコンピューティング技術の発展にともない、無人スーパーマーケットプロジェクトは技術の面において非常に高い実行可能性が備えられた。無人スーパーマーケットプロジェクトにおいて、急いで解決すべき基本問題の一つはユーザにより選択購入された商品についての判断および記録の問題であり、具体的には、サーバは、ユーザのための自動決済が便利であるように、ユーザにより商品棚から取り出された商品の種類、取り出された商品の数量および単価などを正確に判定するが必要がある。
【0003】
従来技術には、RFID技術を利用してユーザにより選択購入された商品を検知するものがあり、このような方法によれば、各々の商品にRFID(radio frequency identification devices)タグを設け、セキュリティシステムが設置された出入口においてRFIDリーダライタを設ける必要がある。しかしながら、このような従来技術には次のような問題がある。まず、ハードウェアのコストが高い。一つのRFIDタグの価格はおよそ0.5~1人民元であるため、タグの使用によって商品のコストが高くなり、スーパーマーケットの競争力が低下する。たとえば、コストが5人民元である商品についていえば、RFIDタグを取り付けることにより、そのコストは10~20%高められる。続いて、商品に対する検知がシールドされたり、除去されたりされる可能性があるため、ユーザがRFIDリーダーを騙す場合があり、商品が紛失してしまうことが生じる。続いて、このような従来の方法によれば、スーパーマーケットのセキュリティシステムが設置された出入口においてのみ決済できるため、仮に、ユーザが店から出る前に食用可能な商品を食べて、包装をスーパーマーケットに残す場合には、RFIDリーダーはユーザの実際の消費金額を検知できず、確定できない。すなわち、従来の方法によれば、なんら技術的制限手段もなく、消費者の高度な自主性およびモラルに依存されるため、無人スーパーマーケットの営業におけるリスクが大きい。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、上記問題点に鑑みてなされたものであって、従来技術における商品棚からの商品の取り出しや商品棚への商品の載せ置きの状態に対する検知の正確度が低く、モニタリングの誤差が大きく、コストが高く、商品が容易に紛失される技術課題を解決可能な映像モニタリングに基づく商品検知技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するための本発明に係る映像モニタリングに基づく商品検知システムは、
各グループのピクチャサンプルは複数角度にある同一種の商品の複数枚のサンプルピクチャを含み、同一種の商品の1グループのピクチャサンプルに同じなグループマークが設けられ、当該グループマークが当該グループのピクチャサンプルに対応する商品の種類であり、複数グループのピクチャサンプルを取得するためのサンプル取得手段と、
複数グループのピクチャサンプルにおける各サンプルピクチャ及びそのグループマークに基づいて畳み込みニューラルネットワークモデルをトレーニングして、商品識別モデルを取得するモデルトレーニング手段と、
商品棚の前方空間にある少なくとも一つの、商品ピクチャの全部又は一部を含むリアルタイムピクチャを連続に取得するリアルタイムピクチャ取得手段と、
上記リアルタイムピクチャ及び上記商品識別モデルに基づいて、上記リアルタイムピクチャに表示されている商品の種類及び数量を取得する商品種類取得手段と、
を備える。
【0006】
さらに、異なる実施例において、上記映像モニタリングに基づく商品検知システムは、さらに、
上記サンプル取得手段に接続され、各商品に対して複数角度且つ複数距離でピクチャを撮像する第1のカメラと、
上記リアルタイムピクチャ取得手段に接続され、商品棚の前方空間のリアルタイムピクチャを撮像する第2のカメラと、を備え、
ここで、上記第2のカメラには、視野の範囲が上記商品棚の前方空間を覆うレンズが設けられている。
【0007】
さらに、異なる実施例において、
上記第2のカメラの数量が二つ又は四つであり、
上記第2のカメラのレンズが上記商品棚の前方の空間領域の中部に向き、
上記第2のカメラのレンズの中心軸と水平面が成す角度は30~60度であり、及び/又は
上記第2のカメラのレンズから上記商品棚の上端又は下端までの距離は0.8~1.2メートルであり、及び/又は
上記第2のカメラのレンズから上記商品棚の片側の辺までの距離は0.8~1.2メートルである。
【0008】
さらに、異なる実施例において、上記モデルトレーニング手段は、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニング手段、を備え、
ここで、上記トレーニングサンプルは上記複数グループのピクチャサンプルの全部又は一部であり、上記グループ化モデルが商品識別モデルである。
【0009】
さらに、異なる実施例において、上記モデルトレーニング手段は、
複数グループの上記ピクチャサンプルをランダムにトレーニングサンプル及びテストサンプルの二つのタイプに分けるサンプル分類手段と、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニング手段と、
複数グループのテストサンプルの各ピクチャ及び各グループのテストサンプルのグループマークに基づき、上記グループ化モデルを検証してモデルの正確度を算出し、上記グループ化モデルの正確度がプリセットしきい値より小さい場合に上記サンプル分類手段に戻し、上記グループ化モデルの正確度が上記プリセットしきい値以上である場合に上記グループ化モデルを商品識別モデルとする交差検証手段と、
を備える。
【0010】
さらに、異なる実施例において、上記グループ化モデルトレーニング手段は、
各トレーニングサンプルのピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する特徴抽出手段と、
各トレーニングサンプルのピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する候補領域生成手段と、
各トレーニングサンプルのピクチャの候補領域を畳み込みニューラルネットワークの最終層の畳み込み層の特徴画像にマッピングする候補領域マッピング手段と、
複数のトレーニングサンプルのピクチャの特徴画像及び候補領域を収集して、候補領域の特徴画像を算出し且つ分類器ネットワークに伝送することにより分類器を生成する分類器生成手段と、
を備える。
【0011】
さらに、異なる実施例において、上記交差検証手段は、
複数のテストサンプルの各ピクチャを上記グループ化モデルに入力して、複数のテストサンプルのテストグループマークを取得するテストサンプル入力手段と、
複数のテストサンプルのテストグループマークと上記テストサンプルのグループマークを対比して、同じなマークの数量と上記テストサンプルの数量の、上記一次データモデルの正確度である比率を算出する正確度算出手段と、
を備える。
【0012】
さらに、異なる実施例において、上記商品種類取得手段は、さらに、
複数のリアルタイムピクチャを上記商品識別モデルに入力して、可能性の結論として、複数のリアルタイムピクチャに対応する複数グループマークを取得するグループマーク取得手段と、
上記可能性の結論における各グループマークの数量と上記可能性の結論における全部のグループマークの総数の比率を算出し、当該比率が各グループマークの確実度であり、確実度が最大であるグループマークに対応する商品の種類及び/又は数量は上記リアルタイムピクチャに表示される商品の種類及び/又は数量であるマーク確実度算出手段と、
を備える。
【0013】
さらに、異なる実施例において、上記グループマーク取得手段は、
一つのリアルタイムピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する第2の特徴抽出手段と、
上記リアルタイムピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する第2の候補領域生成手段と、
上記リアルタイムピクチャの候補領域を畳み込みニューラルネットワークの最終層の特徴画像にマッピングする第2の候補領域マッピング手段と、
複数のピクチャの特徴画像及び候補領域を収集し、候補領域の特徴画像を算出して分類器ネットワークに伝送し、当該リアルタイムピクチャに対応するグループマークを取得するグループマーク取得手段と、
を備える。
【0014】
上記目的を達成するための本発明に係る映像モニタリングに基づく商品検知方法は、
各グループのピクチャサンプルは複数角度にある同一種の商品の複数枚のサンプルピクチャを含み、同一種の商品の1グループのピクチャサンプルに同じなグループマークが設けられ、当該グループマークが当該グループのピクチャサンプルに対応する商品の種類であり、複数グループのピクチャサンプルを取得するためのサンプル取得ステップと、
複数グループのピクチャサンプルにおける各サンプルピクチャ及びそのグループマークに基づいて畳み込みニューラルネットワークモデルをトレーニングして、商品識別モデルを取得するモデルトレーニングステップと、
商品棚の前方空間にある少なくとも一つの、商品ピクチャの全部又は一部を含むリアルタイムピクチャを連続に取得するリアルタイムピクチャ取得ステップと、
上記リアルタイムピクチャ及び上記商品識別モデルに基づいて、上記リアルタイムピクチャに表示されている商品の種類及び数量を取得する商品種類取得ステップと、
を備える。
【0015】
さらに、異なる実施例において、上記モデルトレーニングステップは、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニングステップ、を備え、
ここで、上記トレーニングサンプルは上記複数グループのピクチャサンプルの全部又は一部であり、上記グループ化モデルが商品識別モデルである。
【0016】
さらに、異なる実施例において、上記モデルトレーニングステップは、
複数グループの上記ピクチャサンプルをランダムにトレーニングサンプル及びテストサンプルの二つのタイプに分けるサンプル分類ステップと、
複数グループのトレーニングサンプルにおける各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得するグループ化モデルトレーニングステップと、
複数グループのテストサンプルの各ピクチャ及び各グループのテストサンプルのグループマークに基づき、上記グループ化モデルを検証してモデルの正確度を算出し、上記グループ化モデルの正確度がプリセットしきい値より小さい場合に上記サンプル分類ステップに戻し、上記グループ化モデルの正確度が上記プリセットしきい値以上である場合に上記グループ化モデルを商品識別モデルとする交差検証ステップと、
を備える。
【0017】
さらに、異なる実施例において、上記グループ化モデルトレーニングステップは、
各トレーニングサンプルのピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する特徴抽出ステップと、
各トレーニングサンプルのピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する候補領域生成ステップと、
各トレーニングサンプルのピクチャの候補領域を畳み込みニューラルネットワークの最終層の畳み込み層の特徴画像にマッピングする候補領域マッピングステップと、
複数のトレーニングサンプルのピクチャの特徴画像及び候補領域を収集して、候補領域の特徴画像を算出し且つ分類器ネットワークに伝送することにより分類器を生成する分類器生成ステップと、
を備える。
【0018】
さらに、異なる実施例において、上記交差検証ステップは、
複数のテストサンプルの各ピクチャを上記グループ化モデルに入力して、複数のテストサンプルのテストグループマークを取得するテストサンプル入力ステップと、
複数のテストサンプルのテストグループマークと上記テストサンプルのグループマークを対比して、同じなマークの数量と上記テストサンプルの数量の、上記一次データモデルの正確度である比率を算出する正確度算出ステップと、
を備える。
【0019】
さらに、異なる実施例において、上記商品種類取得ステップは、さらに、
複数のリアルタイムピクチャを上記商品識別モデルに入力して、可能性の結論として、複数のリアルタイムピクチャに対応する複数グループマークを取得するグループマーク取得ステップと、
上記可能性の結論における各グループマークの数量と上記可能性の結論における全部のグループマークの総数の比率を算出し、当該比率が各グループマークの確実度であり、確実度が最大であるグループマークに対応する商品の種類及び/又は数量は上記リアルタイムピクチャに表示される商品の種類及び/又は数量であるマーク確実度算出ステップと、
を備える。
【0020】
さらに、異なる実施例において、上記グループマーク取得ステップは、
一つのリアルタイムピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、特徴画像を取得する第2の特徴抽出ステップと、
上記リアルタイムピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する第2の候補領域生成ステップと、
上記リアルタイムピクチャの候補領域を畳み込みニューラルネットワークの最終層の特徴画像にマッピングする第2の候補領域マッピングステップと、
複数のピクチャの特徴画像及び候補領域を収集し、候補領域の特徴画像を算出して分類器ネットワークに伝送し、当該リアルタイムピクチャに対応するグループマークを取得するグループマーク取得ステップと、
を備える。
【発明の効果】
【0021】
本発明に係る映像モニタリングに基づく商品検知システムおよび商品検知方法によれば、商品棚に置かれている商品の取り出す/戻す状態を判断でき、商品棚の前方空間のリアルタイムピクチャに基づいて取り出された又は戻された商品の具体的な種類を判断できる。また、重量モニタリングに基づく商品検知システムを組み合わせる場合に、更に商品の数量を正確に判断できる。ユーザID識別技術及びユーザ位置決め追従技術を結んでいる場合に、商品を取り出した又は商品を戻したユーザのIDを正確に判断でき、当該ユーザショッピング情報データベースへショッピング記録を正確に追加する又は削除することができることで、ユーザのショッピングが終わると便利に自動的に決済することができる。
【図面の簡単な説明】
【0022】
【
図1】本発明の実施例に係る無人スーパーマーケットの平面図である。
【
図2】本発明の実施例に係る商品棚の全体構造を示す図である。
【
図3】本発明の実施例に係るユーザID識別システムの構成のブロック図である。
【
図4】本発明の実施例に係るユーザ位置決めシステムの構成のブロック図である。
【
図5】本発明の実施例に係る密閉空間内の映像センサーの分布図である。
【
図6】本発明の実施例に係る映像モニタリングに基づく商品検知システムの構成のブロック図である。
【
図7】本発明の実施例に係る第2のカメラと商品棚の位置関係図である。
【
図8】本発明の実施例に係るショッピングユーザ判断システムの構成のブロック図である。
【
図9】本発明の実施例に係るショッピング情報データベースシステムの構成のブロック図である。
【
図10】本発明の実施例に係る決済システムの構成のブロック図である。
【
図11】本発明の実施例に係る映像モニタリングに基づく商品検知方法のフロチャートである。
【
図12】本発明の実施例に係るモデルトレーニングステップのフロチャートである。
【
図13】本発明の実施例に係るグループ化モデルトレーニングステップのフロチャートである。
【
図14】本発明の実施例に係る交差検証ステップのフロチャートである。
【
図15】本発明の実施例に係る種類判断ステップのフロチャートである。
【
図16】本発明の実施例に係るグループマーク取得ステップのフロチャートである。
【発明を実施するための形態】
【0023】
以下は、この技術案をより明確させ且つ理解易くなるように、図面を参照して本発明の好ましい実施例を説明する。本発明は、異なる形態の実施例により現れる。その保護範囲は、明細書に記載されている実施例に限られない。
【0024】
図において、構成が同一である部品は、同一な数字記号で示し、各構成又は機能が類似である部品は、類似な数字記号で示している。本発明に記載されている向きを示す、例えば、上、下、前、後、左、右、内、外、上面、下面、側面、頂部、底部、前端、後端、末端などの用語は、図における方向のみであり、本発明の解釈及び説明に用いられるのみであり、本発明の保護範囲を限定することではない。
【0025】
ある部品が他の部品にあると記載されている場合に、上記部品がそのまま上記他の部品に配置してもよく、中間部品を介して上記部品が上記中間部品に配置し、且つ上記中間部品が他の部品に配置してもよい。一つの部品が他の部品「に取り付けられる」又は「に接続される」と記載されている場合に、両者は、直接的に「取り付けられる」又は「接続される」と理解されてもよく、又は一つの部品が中間部品を介して間接的に他の部品に「取り付けられる」又は「接続される」と理解されてもよい。
【0026】
本実施例は、無人スーパーマーケットに用いられる無人販売システムにおける一部としての映像モニタリングに基づく商品検知システムに関する。
図1~2に示されるように、上記無人販売システムは、内部に複数の商品棚2が設けられている密閉空間1を備え、各商品棚2はブラケット3及びブラケット3上に脱着可能に取り付けられる複数のトレイ4を含み、複数のトレイ4は異なる高度で互いに平行し、又は同一な高度で互いに揃っている。トレイ4毎に、複数の並列に設けられているフレームプレート5が設けられ、フレームプレート5毎に少なくとも一種の商品が置かれている。ユーザにとって本実施例のフレームプレート5に置かれている商品を便利に取り出す又は戻すことが必要であるので、フレームプレート5のユーザに向ける一端をフレームプレート5の前端とする。本実施例では、各フレームプレート5は、開口する箱体であり、一種又は複数の種類の商品を置くことができる。上記商品は標準商品であり、同一な種類の商品の外観及び重りは同じであり、或いは近似である。
【0027】
本実施例は、さらに、サーバ又はコンピューターなどのデータ処理機器7を備える。データ処理機器7は、内部に複数のデータ処理ソフトウェアをインストールし、データ線を介して複数のハードウェアに接続される複数の機能モジュールを有し、ソフトウェアとハードウェアが混在する態様で多種の機能を実現できる。
【0028】
図1及び
図3に示されるように、本実施例は、さらに、各ユーザのID情報を識別するユーザID識別システム100を備える。ユーザID識別システム100は、セキュリティシステム101及びID識別装置102を備える。本実施例の上記密閉空間1は絶対的な密閉される空間でなく、相対的な封鎖される空間である。密閉空間1には一つ又は複数の出入口が設けられ、一つのユーザ入口103及び一つのユーザ出口104が設けられていることが望ましい。すべてのユーザは、ユーザ入口103を介して当該密閉空間1に入り、且つユーザ出口104から当該密閉空間1を離れる。
【0029】
密閉空間1の各出入口にはセキュリティシステム101が設けられていて、ここで、自動ゲートが設けられていることが望ましい。ユーザのID情報を取得するID識別装置102は、データ処理機器7に接続されているスキャンコード装置1021と、データ処理機器7におけるID取得手段1022とを備える。スキャンコード装置1021は、ユーザ入口103のセキュリティシステム101の内部又は外部に設けられていて、ここで、自動ゲートの外側の表面に設けられていることが望ましい。スキャンコード装置1021は、ID識別コードをスキャンし、ここで、2次元コードをスキャンすることが望ましい。ID取得手段1022は、データ処理機器7における一つの機能モジュールであり、上記ID識別コードに基づいてユーザのID情報を取得することができる。ユーザ出口104のセキュリティシステム101にはID識別装置102を設ける必要がない。
【0030】
本実施例では、各ユーザは、無人スーパーマーケットに対応して利用される専用アプリケーションソフト(APP)を携帯通信端末(例えば、携帯機器やタブレットパソコンなど)にダウンロードして、アプリケーションソフト(APP)においてアカウントを登録し、支払ソフトウェアに関連付けられる。或いは、各ユーザは、支払ソフトウェア(例えば、ウィーチャットやアリペイ)を携帯通信端末にダウンロードし、また、支払ソフトウェアにおいて、無人スーパーマーケットにマッピングして利用されるアプレットを埋め込み、支払ソフトウェアにおいてアカウントを登録する。専用アプリケーションソフト(APP)又は支払ソフトウェアでは、ユーザID情報、銀行口座情報、支払パスワードなどを含むユーザの登録情報及び電子支払情報が設置されている。登録完了の場合に、ユーザID情報がデータ処理機器7のユーザデータベースに記憶されている。
【0031】
携帯通信端末におけるアプリケーションソフト(APP)は、ユーザのID情報などを記憶している2次元コードを生成することができる。あるユーザが外部から密閉空間1に入りたい場合に、アプリケーションソフトで生成される2次元コードをスキャンコード装置1021のスキャン端に対向させる。スキャンコード装置1021は、コードをスキャンした後、当該2次元コードの復号処理を行って、復号結果をデータ処理機器7に伝送する。2次元コードが識別される可能であり、且つ識別されたID情報と予めユーザデータベースに記憶されているID情報が合致する場合に、当該ユーザのIDが正当であることと判断され、セキュリティシステム101が開き、当該ユーザが密閉空間1に入ることを許可する。ユーザ入口103のセキュリティシステム101には、例えば赤外線センサーなどのセンサー装置が設けられている。セキュリティシステム101は、当該ユーザが密閉空間1に入った後、人がセキュリティシステム箇所を通り過ぎたことを検知して、自動的に閉じる。ユーザ出口104のアアクセス制御装置101は、ショッピングが終わりユーザが密閉空間1を離れる場合に、人が密閉空間1の内部からセキュリティシステム101の近くに寄ることを検知する際に自動的に開き、ユーザが密閉空間1を離れた後、人がセキュリティシステム箇所を通り過ぎた際に自動的に閉じる。
【0032】
データ処理機器7は、ID取得手段1022が上記ID識別コードに基づいてユーザのID情報を取得した後、当該ユーザのショッピング情報データベースを生成でき、ユーザのショッピング中のショッピングの動作ごとにショッピング情報を取得して当該ショッピング情報データベースをアップデートする。ユーザに携帯されている携帯通信端末はアプリケーションソフト(APP)を介してデータ処理機器7との間にリアルタイムデータの交換を行うので、ユーザのショッピング情報データベースが携帯通信端末にけるアプリケーションソフト(APP)に表示され、ショッピングカートの画面が形成されることで、ユーザが自分のショッピング記録及びその後の決済を知っている。
【0033】
図4に示されるように、本実施例では、さらに、各対象物の密閉空間1におけるリアルタイム位置を取得する対象物位置決めシステム200を備える。上記対象物がユーザ及びその延伸部の全部又は一部である。対象物位置決めシステム200は、ユーザ全体又は一部(例えば、頭部、手部など)の座標セットを取得する。対象物位置決めシステム200は、データ処理機器7に接続される三次元映像取得装置201と、データ処理機器7に配置する対象物座標取得手段202とを備える。
【0034】
図5に示されるように、三次元映像取得装置201は、リアルタイムで少なくとも1フレームの三次元映像を取得するための少なくとも一つの映像センサー2011を備える。映像センサー2011は、密閉空間1の頂部に均一的に分布し、そのレンズが下方に向けて、レンズの中心軸が水平面に対して垂直にしてもよく、一定の傾きの角度があってもいい。映像センサー2011の視野範囲は、密閉空間1の全部の底面を覆う。ユーザは、無人スーパーマーケットで動作又はショッピングを行っている場合に、常に映像センサーに監視される。この場合に、映像センサーに取得されたサ三次元映像は、当該ユーザの身体及びその延伸部の全部又は一部の映像であるユーザ映像を含む。当該密閉空間内に人がなければ、各時点での三次元映像が前の時点での三次元映像と同一であり、当該時点での三次元映像は、背景であると判断され、如何なるユーザ映像を含まない。
【0035】
各映像センサー2011は、並列に設けられる深度画像センサー2012、RGB画像センサー2013、及び三次元映像整合手段2014を備える。深度画像センサー2012は、複数のフレームの深度画像を連続に取得し、RGB画像センサー2013は、複数のフレームのRGB画像を連続に取得し、三次元映像整合手段2014は、同一の時点で取得した1フレームの深度画像及び1フレームのRGB画像を1フレームの三次元映像に整合する。
【0036】
上記の二つのセンサーは、同期的に取得(同時に取得し且つ取得頻度が同じである)を行い、三次元映像整合手段2014は、複数のフレームの三次元映像を連続に取得し且つデータ処理機器7の対象物座標取得手段202に伝送することができる。
【0037】
対象物座標取得手段202は、データ処理機器7における一つの機能モジュールであり、上記密閉空間の内部では三次元座標系を作成し、連続の複数のフレームに含まれるユーザ映像の三次元映像に基づいてリアルタイムで上記ユーザの上記三次元座標系における座標セット又は座標を取得する。対象物座標取得手段202は、座標系作成手段2021、パラメーター取得手段2022、背景除去手段2023、及び対象物座標算出手段2024を備える。座標系作成手段2021は、上記密閉空間において三次元座標系を作成し、ここで、密閉空間の底面(無人スーパーマーケットの地面)の中心点を座標系の原点とし、水平方向にX軸及びY軸を設け、垂直方向にZ軸を設けることが望ましい。
【0038】
ユーザ身体の全部又は一部が三次元座標系において大きい空間を占めるので、一つの座標セットでユーザの位置を示す可能である。位置の精確制御及び簡易計算を考えれば、当該座標セットにおける一つの特定の点の座標でユーザの位置を示す可能であり、例えば、当該ユーザ座標セットにおける最高の一点(Z軸の数値が最も大きい点)の座標でユーザの位置を示す可能である。
【0039】
パラメーター取得手段2022は、連続する複数のフレームに含んでいるユーザ映像の三次元映像に対して処理を行って、各フレームの三次元映像の各画素点の位置パラメーター及びカラーパラメーターを取得する。上記位置パラメーターは、x、y、zであり、当該画素点の上記三次元座標系における位置座標を示す。上記カラーパラメーターは、r、g、bであり、それぞれに当該画素点の三原色の強度を示す。データ処理機器7は、あるユーザがある映像センサーの視野内に入った後に、複数のフレームの三次元映像を取得してもいい。各フレームの三次元映像はユーザ映像及び背景映像を含み、各画素点は、ユーザの一部である可能性があり、背景の一部である可能性がある。
【0040】
異なる映像センサーから取得した三次元映像において、ユーザ身体及びその延伸部の同じ部位を示す画素点は、カラーパラメーターr、g、bが同じである。位置が異なる映像センサーとユーザとの間の距離が異なるので、各映像センサーが直接的に取得した一次位置パラメーターは、ユーザ身体及びその延伸部における一点が当該映像センサーに対する位置座標である。だから、座標変換を行って、位置が異なる映像センサーにより取得された一次位置パラメーターを、上記密閉空間内で作成した三次元座標系における位置パラメーターに変換する。
【0041】
パラメーター取得手段2022は、センサー座標取得手段20221、相対座標取得手段20222、及び座標補正手段20223を備える。センサー座標取得手段20221は、当該フレームの三次元映像を取得する映像センサーの中心点(つまり、並列して設けられる深度画像センサー2012及びRGB画像センサー2013のレンズ中心点の連結線の中間点)の、上記密閉空間内で作成された上記三次元座標系における座標を取得する。相対座標取得手段20222は、上記映像センサーの中心点を第2の原点として第2の三次元座標系を作成し、X軸、Y軸及びZ軸の方向が上記三次元座標系と同じであり、上記三次元映像から各画素点の上記第2の三次元座標系における座標を取得する。座標補正手段20223は、上記映像センサー中心点の上記三次元座標系における座標及び上記三次元映像における各画素点の第2の三次元座標系における座標に基づいて、上記三次元映像の各画素点の上記三次元座標系における座標を算出し且つ補正して、ユーザ及びその延伸部の各画素点の位置パラメーターを取得する。
【0042】
連続に取得されたMフレームの三次元映像において、各フレームの三次元映像が一人のユーザのみの映像を含んでいて、異なる三次元映像にそれぞれに属し且つ位置パラメーターが同じであるN個の画素点は、カラーパラメーターが同じであり、且つNが0.9*Mより大きく且つM以下である場合に、背景除去手段2023により当該N個の画素点が背景画素点であると判定され、上記Mフレームの三次元映像からN個の上記背景画素点が除去されて、Mフレームの背景がない三次元映像である当該ユーザの映像が取得される。連続に取得された三次元映像において、異なる三次元映像にそれぞれに属し且つ位置パラメーターが同じである画素点は、カラーパラメーターが同じであり、又は大部分が(例えば、90%)同じである場合に、画素点の位置が背景であると判断され、当該画素点を対応の三次元映像から除去することができる。
【0043】
対象物座標算出手段2024には、対象物がユーザ及びその延伸部の全てであれば、上記Mフレームの背景がない三次元映像におけるすべての画素点の位置パラメーターのセットは、上記ユーザ及びその延伸部の全ての座標セットである。ここで、上記座標セットにおいて、パラメーターzが最も大きい画素点の位置パラメーターはユーザの座標に定義されている。連続に取得された三次元映像から背景画素点を除去した後に、余りの画素点は当該ユーザ全体の行進の軌跡を示す。連続に取得されたMフレームの三次元映像では、各フレームの三次元映像が複数のユーザの映像を含まれば、先にMフレームのそれぞれから一人のユーザのみの全部又は一部を含む三次元映像を切り取る。
【0044】
対象物がユーザ及びその延伸部の一部であれば、上記ユーザの一部(例えば、頭部、肩部、肘部、腕部、手部など)の座標セットを取得してもいい。深度画像センサー2012及びRGB画像センサー2013には、それぞれに一つのレンズが設けられている。二つのレンズの中心軸を水平面に対して垂直として設ければ、二つのレンズが下方に向けて密閉空間内の商品及びユーザを見ることができる。二つのレンズは、一般的な場合に、ユーザの頭部及び肩部の位置座標セットを捉えることができ、ユーザが手を伸ばしている場合に、ユーザのアーム部、肘部、腕部、手部の位置座標セットを捉えることができる。ある時点の当該ユーザの頭部、肩部、肘部、腕部、手部が折線又は曲線に連結されることで、ユーザの手部と頭部の位置が対応関係に作成される。つまり、リアルタイムで手部の位置を取得することができ、同時に当該手部がどのユーザに属するかを判断することができる。
【0045】
更に、映像センサー2011の視野範囲は、出入口の外部の一部の空間を覆ってもいい。ユーザが出入口の外部にいる場合に、当該ユーザの映像が映像センサー2011により取得される。ユーザの上記無人販売システムを利用する全部の過程は、出入口のID識別の過程と、密閉空間1に入る過程と、密閉空間1内で歩く又は留まる過程と、密閉空間1を離れる過程とを備え、全部の過程が映像センサー2011に監視され、IDが特定されたユーザ及びその身体の一部が密閉空間1にいるリアルタイム位置をリアルタイムで取得することができる。スキャンコード装置1021がユーザの2次元コードを読み取る場合に、データ処理機器7が当該ユーザのID情報を取得できる。映像センサー2011は、スキャンコード装置1021がコードを読み取る時点から、位置決め及びリアルタイムで当該ユーザ位置を追従することを始め、当該ユーザがある商品棚にマッチングするか否かを監視している。映像センサー2011が当該ユーザのリアルタイムの三次元映像を取得できない場合に、当該ユーザのショッピングが終わったと判断して、決済を行う。
【0046】
図6に示されるように、本実施例では、映像モニタリングに基づく商品検知システム400に関する。当該、映像モニタリングに基づく商品検知システム400は、サンプル取得手段401、モデルトレーニング手段402、リアルタイムピクチャ取得手段403、及び商品種類取得手段404を備える。上記の四つの手段は、データ処理機器7における機能モジュールである。映像モニタリングに基づく商品検知システム400は、商品棚の前方空間のリアルタイム映像を監視して、取り出された又は戻された商品の種類を判断することができる。
【0047】
映像モニタリングに基づく商品検知システム400は、更に、第1のカメラ405及び第2のカメラ406を備える。第1のカメラ405は、データ処理機器7におけるサンプル取得手段401に接続されて、各商品に対して複数角度且つ複数距離でピクチャを撮像する。第2のカメラ406は、データ処理機器7におけるリアルタイムピクチャ取得手段403に接続され、商品棚の前方空間のリアルタイムピクチャを撮像する。
【0048】
図7に示されるように、第2のカメラ406は、数量が二つ又は四つであることが望ましく、商品棚2の外部に設けられ、各第2のカメラ406が商品棚2の一つの片隅に向ける。商品棚2の複数のフレームプレート5の最前端が同一な平面に位置し、当該平面が商品棚平面と称される。第2のカメラ406には、視野範囲が上記商品棚の前方空間を覆うレンズが設けられている。商品が上記商品棚から取り出され、又は、商品棚に戻される場合に、上記商品が取り出された過程又は戻された過程の映像が上記第2のカメラにより撮像される。上記商品棚の前方空間とは、商品棚の前方の、商品棚平面に対応する空間領域を指す。上記商品棚の前方空間は、通常、商品棚からの前方の30~50センチメートルの幅の領域範囲である。各第2のカメラ406のレンズが上記商品棚の前方空間の中心領域に向ける。
【0049】
第2のカメラ406のレンズの中心軸と水平面が成す角度は、30~60度であり、及び/又は第2のカメラ406のレンズから商品棚2の上端又は下端までの距離は0.8~1.2メートルであり、及び/又は第2のカメラ406のレンズから商品棚の片側の辺までの距離は、0.8~1.2メートルであることが望ましく、第2のカメラ406の視野範囲が商品棚の前方空間を完全に覆うことができることを確保し、商品が商品棚2から取り出された又は商品棚2に戻された場合に、取り出された過程又は戻された過程の映像が第2のカメラ406に撮像される。
【0050】
図6に示されるように、サンプル取得手段401は、少なくとも1グループのピクチャサンプルを取得し、各グループのピクチャサンプルは複数角度にある同一種の商品の複数枚のサンプルピクチャを含み、同一種の商品の1グループのピクチャサンプルに同じなグループマークが設けられ、当該グループマークが当該グループのサンプルに対応する商品の種類である。第1のカメラ405は、商品棚2における各種の商品に対して異なる角度、且つ異なる距離での3000~5000枚のピクチャを撮像して、データ処理機器7のサンプル取得手段401に伝送することが望ましい。これらのピクチャは、個別に撮像された商品のピクチャ、背景がある商品のピクチャ、商品が人の手に持たれているピクチャ、複数の同じ種類の製品が積み重ねられるピクチャを含んでいる。本実施例に係る無人スーパーマーケットに販売されている商品は標準商品であるので、同じな種類の商品の外観の六面図が同じであり又は近似であるため、同じな種類な商品から一個又はいくつの製品を選択して複数回の撮像処理を行うことで、当該種類の商品のトレーニングサンプルのサンプリングを完成することができる。
【0051】
モデルトレーニング手段402は、複数グループのピクチャサンプル中の各サンプルピクチャ及びそのグループマークに基づいて畳み込みニューラルネットワーク(CNN)モデルをトレーニングして、商品識別モデルを取得する。畳み込みニューラルネットワーク(Convolutional Neural Network、CNNと略称される)は、フィードフォワードニューラルネットワークであり、大型な画像処理に対して優れる。本実施例における畳み込みニューラルネットワークモデルは、現在に演算量が最も小さく、応答速度が最も速いFaster RCNN ネットワークモデルである。当該モデルは、最も速い応答速度が0.2秒程度であり、ごく短い時間でピクチャにおける品物の種類及び数量を正確に識別できる。モデルトレーニングのサンプルが少なければ、又はサンプルの解像度が低ければ、一回でトレーニングすることで取得したグループ化モデルは、ピクチャに表示された商品の種類を判断する場合に誤差が大きい可能性であるので、より正確のモデルを取得するように、交差検証を行ったほうがいい。モデルトレーニング手段402は、サンプル分類手段4021、グループ化モデルトレーニング手段4022、及び交差検証手段4023を備える。
【0052】
サンプル分類手段4021は、複数グループの上記ピクチャサンプルをランダムにトレーニングサンプル及びテストサンプルの二つのタイプに分ける。グループ化モデルトレーニング手段4022は、複数グループのトレーニングサンプルの各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングしてからグループ化モデルを取得する。交差検証手段4023は、複数グループのテストサンプルの各ピクチャ及び各グループのテストサンプルのグループマークに基づき上記グループ化モデルを検証して、モデルの正確度を算出し、上記グループ化モデルの正確度がプリセットしきい値(例えば90%)より小さい場合に上記サンプル分類手段に戻し、上記グループ化モデルの正確度が上記プリセットしきい値以上(例えば90%)である場合に上記グループ化モデルを商品識別モデルとする。モデルトレーニングのサンプルが少なければ、又はサンプルの解像度が低ければ、一回でトレーニングすることで取得したグループ化モデルは、ピクチャに表示された商品の種類を判断する場合に誤差が大きい可能性であるので、交差検証手段を有したほうがいい。
【0053】
モデルトレーニングのサンプルが十分に多く、サンプルの解像度が高ければ、直接的に一回でトレーニングすれば、Faster RCNNネットワークモデルを利用して一つのグループ化モデルをトレーニングすることできる。当該グループ化モデルは、ピクチャに表示された商品の種類を有効的に判断できる。他の実施例では、モデルトレーニング手段402は、サンプル取得手段401により取得された複数グループのピクチャサンプルの全部又は一部をトレーニングサンプルとして、各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングしてからグループ化モデルを取得できるグループ化モデルトレーニング手段4022のみを備える。上記グループ化モデルは商品識別モデルである。
【0054】
グループ化モデルトレーニング手段4022は、特徴抽出手段40221、候補領域生成手段40222、候補領域マッピング手段40223、及び分類器生成手段40224を備える。特徴抽出手段40221は、各トレーニングサンプルのピクチャを畳み込みニューラルネットワークに入力して、特徴を抽出し、トレーニングピクチャに表示される全部又は一部の商品の領域に対応する特徴画像(feature map)を取得する。候補領域生成手段40222は、各トレーニングサンプルのピクチャを候補領域ネットワーク(RPN)に入力して、複数の候補領域(region proposals)を生成する。候補領域マッピング手段40223は、各トレーニングサンプルのピクチャ候補領域を畳み込みニューラルネットワークの最終層の畳み込み層の特徴画像にマッピングする。分類器生成手段40224は、複数のトレーニングサンプルのピクチャ特徴画像及び候補領域を収集して、候補領域の特徴画像を算出し且つ分類器ネットワーク(classifier ネットワーク)に伝送することにより分類器を生成する。当該分類器ネットワークでは、対応する同じな商品の全てのトレーニングサンプルピクチャの特徴画像と当該商品のグループマークを対応関係に形成する。当該グループマークは、当該グループピクチャサンプルに対応する商品の種類である。
【0055】
交差検証手段4023は、テストサンプル入力手段40231及び正確度算出手段40232を備える。テストサンプル入力手段40231は、複数のテストサンプルの各ピクチャを上記グループ化モデルに入力して、複数のテストサンプルのテストグループマークを取得する。正確度算出手段40232は、複数のテストサンプルのテストグループマークと上記テストサンプルのグループマークを対比して、同じなマークの数量と上記テストサンプルの数量の、上記一次データモデルの正確度である比率を算出する。プリセットしきい値を90%とし、グループ化モデルの正確度が90%よりも小さい場合に、サンプル分類手段4021は、サンプルに対して新たにグループ化を行って、新たにトレーニングし、上記グループ化モデルの正確度が90%以上である場合に、上記グループ化モデルを商品識別モデルとすると考えられている。
【0056】
リアルタイムピクチャ取得手段403は、商品棚の前方空間の少なくとも一つのリアルタイムピクチャを連続に取得する。各リアルタイムピクチャは、一個又は複数の商品ピクチャの一部又は全部を含む。リアルタイムピクチャ取得手段403は複数の第2のカメラ406に接続され、上記商品棚の縁に設けられ、商品棚の前方領域に対してリアルタイムでピクチャを撮影する。第2のカメラ406は、ユーザが商品棚のあるフレームプレートから商品を取り出した場合に、或いはユーザが商品又は品物を商品棚のあるフレームプレートに置いた場合に、商品棚の前にある商品のピクチャを撮影できる。当該ピクチャは、当該商品の全部又は一部の写真を含み、当該商品の形状、模様及び色を表示する。第2のカメラは、当該商品の複数枚のリアルタイムピクチャを取得して、リアルタイムピクチャ取得手段403に伝送する。
【0057】
連続に取得された複数のフレームのピクチャでは、各フレームのピクチャにおける商品と商品棚の縁との間の距離が異なる。データ処理機器7は、上記距離の変化を算出することで、商品と商品棚との間の距離の変化を判断する。上記距離が大きくなると、商品が商品棚から取り出されたと考えられ、上記距離が小さくなると、商品が商品棚の上に置かれたと考えられる。
【0058】
ユーザは手で商品を持っている状態で商品棚の前方に1秒に留まると仮定して、第2のカメラ406は、1秒内で異なる角度の60枚のリアルタイムピクチャを取得する。ここで、各ピクチャの表示内容は、ユーザの手部及び商品の一部を含んでもいい。リアルタイムピクチャにはいかなる商品内容を含まなければ、例えば、ある商品の体型が小さいので、あるピクチャにユーザの手部のみが表示され、又はあるピクチャに背景映像のみが表示される場合に、こんなピクチャが除去される。本実施例では、商品がユーザの手に包まれる場合に、商品の種類を識別できないので、サイズがごく小さい商品に適用できない。
【0059】
第2のカメラ406は、長時間に連続に運転する機器であってもよく、商品棚に第2のカメラ406に接続されている赤外線スイッチが設けられて、通常時に電力遮断状態になり、ユーザが商品棚の近くに行進した場合に、赤外線スイッチが熱量を感知して接続され、第2のカメラ406が電力供給されることで起動され、ユーザが離れる場合に、赤外線スイッチが熱量を感知できないので切断され、第2のカメラ406の電力が切断される機器であってもいい。
【0060】
商品種類取得手段404は、上記リアルタイムピクチャ及び上記商品識別モデルに基づいて上記リアルタイムピクチャに表示される商品の種類及び数量を取得する。商品種類取得手段404は、グループマーク取得手段4041及びマーク確実度算出手段4042を備える。
【0061】
グループマーク取得手段4041は、複数枚のある商品を含むリアルタイムピクチャを取得して、それを上記商品識別モデルに入力し、可能性の結論として、当該モデルに出力された、複数のリアルタイムピクチャに対応する複数グループマークを取得する。グループマーク取得手段4041は、第2の特徴抽出手段40411、第2の候補領域生成手段40412、第2の候補領域マッピング手段40413、及び第2のグループ区分取得手段40414を備える。第2の特徴抽出手段40411は、一つのリアルタイムピクチャを畳み込みニューラルネットワークに入力し、特徴を抽出して、特徴画像を取得する。第2の候補領域生成手段40412は、上記リアルタイムピクチャを候補領域ネットワークに入力して、複数の候補領域を生成する。第2の候補領域マッピング手段40413は、上記リアルタイムピクチャの候補領域を畳み込みニューラルネットワークの最終層の特徴画像にマッピングする。グループ区分取得手段40414は、複数のピクチャの特徴画像及び候補領域を収集し、候補領域の特徴画像を算出して分類器ネットワークに伝送し、当該リアルタイムピクチャに対応するグループマークを取得する。各リアルタイムピクチャが上記商品識別モデルに入力した後に、当該ピクチャに対応するグループマークを識別できる。第2のカメラにより60枚のピクチャが取得され、且つある商品が各ピクチャに表示される場合に、各ピクチャを商品識別モデルに入力して、60個のグループマークを取得することができる。
【0062】
マーク確実度算出手段4042は、上記可能性の結論における上記可能性の結論の各グループマークの数量及び上記可能性の結論の全部のグループマークの総数の比率を算出して、当該比率を各種のグループマークの確実度とする。確実度が最大であるグループマークに対応する商品の種類和/又は数量は、上記リアルタイムピクチャに表示された商品の種類及び/又は数量である。上記の60個のグループマークを比較して、60個のグループマークに対応する60個の商品種類において、商品Aの出現した回数が36であり、商品Bの出現した回数が18であり、商品Cの出現した回数が6である場合に、三者の確実度がそれぞれに60%、30%及び10%であり、上記リアルタイムピクチャに表示された商品の種類は、確実度が最高である商品Aであると考えられている。サンプル取得手段401により取得されたピクチャサンプルには、複数の同じ種類の商品が積み重ねられる写真を含む場合に、商品種類取得手段404は更に商品の数量を判定することができる。
【0063】
映像モニタリングに基づく商品検知システム400の有益な効果は、リアルタイムで商品棚の前方空間の映像を監視する可能であり、商品が商品棚から取り出された又は商品棚に戻されたか否かを判断し、機器学習における畳み込みアルゴリズムを利用して商品の種類及び数量の可能性の結論を推算し、且つ確実度が最高である結果を最終の結論とする。
【0064】
図8に示されるように、本実施例では、データ処理機器7における機能モジュールであるショッピングユーザ判断システム500を備える。ショッピングユーザ判断システムは、いずれの種類の商品が取り出された又は戻された場合に、上記ユーザのID情報及び上記ユーザのリアルタイム位置に基づいて商品を取り出した又は商品を戻したユーザIDを判断する。ショッピングユーザ判断システム500は。商品情報記憶手段501、フレームプレート座標記憶手段502、フレームプレートとユーザとのマッチング判断手段503、及び商品とユーザとのマッチング判断手段504を備える。
【0065】
データ処理機器7には、商品情報記憶手段501に記憶されている商品データベースが設けられている。上記商品データベースは、各商品情報を備える。上記商品情報は、商品ごとの商品名、型番、正味重量及び単価などを備え、さらに、当該商品が置かれた商品棚の番号、当該商品が置かれたフレームプレートの番号、及び商品番号を備える。
【0066】
対象物位置決めシステム200は、上記密閉空間において三次元座標系を作成する。対象物位置決めシステム200は、商品棚2及びフレームプレート5の位置が特定されたので、座標系を作成した後に、各商品棚2及び各フレームプレート5の座標を取得でき、商品棚の座標セット及びフレームプレートの座標セットをフレームプレート座標記憶手段502に記憶し、フレームプレートの上方の、商品が置かれているフレームプレート空間の高度(例えば、30CM)が設けられることで、上記フレームプレート空間の座標セットを取得することができる。
【0067】
ユーザ座標取得手段202は、IDが知っている各ユーザの手部のリアルタイム座標セットを取得できる。フレームプレートとユーザとのマッチング判断手段503は、あるフレームプレートの上方のフレームプレート空間の座標セットとあるユーザの手部の座標セットが共通部分を有する場合に、当該フレームプレートと当該ユーザがマッチングすると判断する。この場合に、当該ユーザは手部を当該フレームプレートの上方のフレームプレート空間に伸ばしていると考えられる。
【0068】
対象物位置決めシステム200は、上記密閉空間で三次元座標系を作成する。対象物位置決めシステム200は、商品棚2及びフレームプレート5の位置が特定されるので、座標系を作成した後に各商品棚2及び各フレームプレート5の座標を取得でき、商品棚の座標セット及びフレームプレートの座標セットをフレームプレート座標記憶手段502に記憶し、且つフレームプレート上方の、商品が置かれるフレームプレート空間の高さ(例えば、30CM)が設けられることで、上記フレームプレート空間の座標セットを取得できる。
【0069】
ユーザ座標取得手段202は、IDが知っている各ユーザの手部のリアルタイム座標セットを取得できる。フレームプレートとユーザとのマッチング判断手段503は、あるフレームプレートの上方のフレームプレート空間の座標とあるユーザの手部の座標セットが共通部分を有する場合に、当該フレームプレートと当該ユーザがマッチングすると判断する。この場合に、当該ユーザは手部を当該フレームプレートの上方のフレームプレート空間に伸ばしていると考えられている。
【0070】
映像モニタリングに基づく商品検知システム400は、第2のカメラ406により商品棚の前方空間のリアルタイム映像を監視し、連続に取得された複数のフレームのピクチャにける商品と商品棚との間の距離変化に基づいて商品の取り出す/戻す状態を判断し、取り出された商品又は戻された商品の種類及び数量を判断する。上記取り出す/戻す状態は、商品の置かれている状態、取り出された状態、及び戻された状態を備える。
【0071】
商品とユーザとのマッチング判断手段504は、商品がフレームプレートから取り出される又はフレームプレートに戻される場合に、且つ同じ時点であるユーザと当該フレームプレートがマッチングする場合に、当該商品と当該ユーザがマッチングすると判断し、当該商品が当該時点で当該ユーザにより当該フレームプレートから取り出される又は当該フレームプレートに戻されることで、商品を取り出した又は商品を戻した当該ユーザのIDを特定することができる。
【0072】
図9に示されるように、本実施例では、データ処理機器7における機能モジュールであるショッピング情報記録手段600を備える。ショッピング情報記録手段600は、各ユーザのID情報に基づいて、少なくとも一つのショッピング情報データベースを生成し、各ユーザにより取り出された少なくとも一つの商品の種類及び数量を記録する。ショッピング情報記録手段600は、ショッピング情報データベース生成手段601及びショッピング情報データベースアップデート手段602を備える。
【0073】
ユーザのIDがユーザID識別システム100により識別された場合に、ID取得手段1022がユーザのID情報を取得し、ショッピング情報データベース生成手段601が上記ユーザのID情報に基づいてデータ処理機器7において当該ユーザのショッピング情報データベースを生成する。初期状態でのショッピング情報データベースには、如何なるショッピング情報がない。
【0074】
ショッピング情報データベースアップデート手段602は、取り出された商品の種類と数量、及び商品を取り出したユーザのID情報に基づいて1グループのショッピング情報を生成して、当該ショッピング情報を当該ユーザのショッピング情報データベースに記憶する。当該ショッピング情報は、当該時点で取り出された商品の種類と数量、及び当該商品の商品情報(例えば、商品名、型番、正味重量及び単価など)を含む。ユーザが密閉空間1で複数回で商品を取り出した後に、そのショッピング情報データベースに複数グループのショッピング情報を備え、ユーザに携帯されている携帯通信端末とデータ処理機器7が無線通信方式で接続され且つデータ交換が行われるので、ショッピング情報データベースにおけるショッピング情報もユーザの携帯通信端末のAPP画面に表示されて、ユーザの電子ショッピングカートが形成される。
【0075】
商品とあるユーザがマッチングする場合に、映像モニタリングに基づく商品検知システム400は、ある品物が当該フレームプレートに置かれたことを監視すれば、当該品物の種類及び数量を判定できる。データ処理機器7は、当該ユーザのショッピング情報データベースから各ショッピング情報を問い合わせて、買った商品の種類のデータが当該品物の種類とマッチングするか否かを判定し、つまり、フレームプレートに置かれている商品は、ユーザのショッピング情報データベースにける一つ又は複数の買った商品と同じであるか否かを判断する。
【0076】
映像モニタリングに基づく商品検知システム400は、戻された商品の種類と当該フレームプレートの既存商品の種類が一致するか否かを判断し、一致しない場合に、管理者又はユーザに対して、誤りに置かれたことに注意を喚起するように、警報信号を選択性に生成する可能である。映像モニタリングに基づく商品検知システム400は、戻された商品の種類を判断でなければ、フレームプレートに戻された品物が当該無人スーパーマーケットにおける既有商品でなく、ユーザの自分の品物(例えば、傘、携帯機器等)であることと確認できる。この場合に、警報信号を選択的に生成できる可能であり、必要があれば、管理者又はユーザに対して注意を喚起するように、当該フレームプレートのフレームプレート番号が表示器に表示される可能である。
【0077】
他の実施例では、上記無人販売システムはさらに重量モニタリングに基づく商品検知システムを備える。重量モニタリングに基づく商品検知システムは、各フレームプレートに1種の商品のみが置かれて、フレームプレート内に重量センサーが設けられ、リアルタイムで各種のフレームプレートの重量の変化を検知し、本実施例の映像モニタリングに基づく商品検知システムと連携に動作することで、商品の取り出す/戻す状態、取り出された/戻された商品の種類及び数量をより正確に判断することができる。
【0078】
図10に示されるように、本実施例では、データ処理機器7における機能モジュールであり、上記ユーザのショッピング情報データベースにおけるすべての商品の種類及び数量に基づいて料金の決済を行う決済システム700を備える。ユーザは、ショッピングが終わった後に、自分で出入口のセキュリティシステムを介して密閉空間1を離れてもいい。ユーザ位置決めシステム200の映像センサー2011が当該ユーザのリアルタイム三次元映像を取得できない場合に、当該ユーザのショッピングが終わったと判断されて、決済システム700が当該ユーザの料金を決済する。
【0079】
決済システム700は、総額算出手段701及び支払手段702を備える。総額算出手段701は、上記ユーザが上記密閉空間を離れる場合に、上記ユーザのショッピング情報データベースにおけるすべての商品の種類及び数量に基づいて総額を算出する。それぞれの種類の商品の単価が商品情報としてデータ処理機器7に記憶されておくので、複数の種類の商品単価と数量を乗算した積の合計金額は、当該ユーザの支払うべきな総額である。さらに、他の実施例では、ユーザが商品の割引を利用したり、クーポンやバウチャーなどを使用したりできるので、ユーザが支払う必要がある合計金額は、複数の種類の商品の単価と数量を乗算した積の合計金額からクーポン及び/又はバウチャー及び/又は割引の金額を差し引いたものである。支払手段702は、決済システム700の自己の支払ソフトウェア又は第三者の支払ソフトウェアであり、上記ユーザの銀行口座又は電子口座から金額を差し引いて、差し引いた料金の金額と当該ユーザの支払う必要がある総額が同じである。
【0080】
図11に示されるように、本実施例では、さらに、前記映像モニタリングに基づく商品検知システム400の実現方法である、映像モニタリングに基づく商品検知方法を提供する。当該映像モニタリングに基づく商品検知方法サンプル取得ステップであるステップS201、モデルトレーニングステップであるステップS202、リアルタイムピクチャ取得ステップであるステップS203、及び商品種類取得ステップであるステップS204は、サンプル取得ステップであるステップS201、モデルトレーニングステップであるステップS202、リアルタイムピクチャ取得ステップであるステップS203、及び商品種類取得ステップであるステップS204を備える。本実施例に係る無人スーパーマーケットに販売されている商品が標準商品であるので、同じな種類の商品の外観六面図が同じであるので、同じな種類の商品から一つ又はいくつの製品を選択して複数回の撮像処理を行うことで、当該種類の商品のトレーニングサンプルのサンプリングを完成することができる。
【0081】
ステップS201は、複数グループのピクチャサンプルを取得するサンプル取得ステップであり、各グループのピクチャサンプルは複数角度にある同一種の商品の複数枚のサンプルピクチャを含み、同一種の商品の1グループのピクチャサンプルに同じなグループマークが設けられ、当該グループマークが当該グループのサンプルに対応する商品の種類である。上記サンプル取得ステップにおいて、各商品に対して複数角度且つ複数距離でピクチャを撮影し、撮影回数が3000~5000回であることが望ましい。撮影回数が多すぎるとコストが高く、撮影回数が少なすぎるとモデル誤差が大きい。各種類の商品に対して異なる角度と異なる距離での5000枚のピクチャを撮影し、個別に撮像された商品のピクチャがあり、背景がある商品のピクチャがあり、商品が人の手に持たれているピクチャがあり、複数の同じ種類の製品が積み重ねられるピクチャがある。
【0082】
ステップS202は、モデルトレーニングステップであり、複数グループのピクチャサンプル中の各サンプルピクチャ及びそのグループマークに基づいて畳み込みニューラルネットワークモデルをトレーニングして、商品識別モデルを取得する。
【0083】
モデルトレーニングのサンプルが少なければ、又はサンプルの解像度が低ければ、一回でトレーニングすることで取得したグループ化モデルは、ピクチャに表示された商品の種類を判断する場合に誤差が大きい可能性であるので、交差検証ステップがあったほうがいい。
図12に示されるように、ステップS202は、モデルトレーニングステップであり、サンプル分類ステップであるステップS2021、グループ化モデルトレーニングステップであるステップS2022、及び交差検証ステップであるステップS2023を備える。
【0084】
ステップS2021は、サンプル分類ステップであり、複数グループの上記ピクチャサンプルをランダムにトレーニングサンプル及びテストサンプルの二つのタイプに分ける。上記サンプル取得ステップであるステップS201において、各商品に対して、異なる角度且つ異なる距離で4000枚のピクチャを撮影する。各商品に対応する4000枚のピクチャがランダムに二つの部分に分けられて、トレーニングサンプルとテストサンプルがそれぞれ2000枚程度のピクチャである。
【0085】
ステップS2022は、グループ化モデルトレーニングステップであり、複数グループのトレーニングサンプルの各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングによりグループ化モデルを取得する。
図13に示されるように、ステップS2022は、グループ化モデルトレーニングステップであり、特徴抽出ステップであるステップS20221、候補領域生成ステップであるステップS20222、候補領域マッピングステップであるステップS20223、及び分類器生成ステップであるステップS20224を備える。ステップS20221は、特徴抽出ステップであり、各トレーニングサンプルのピクチャを畳み込みニューラルネットワーク(CNN)に入力して、特徴を抽出し、特徴画像(feature map)を取得し、トレーニングピクチャにおける、全部又は一部の商品が表示される領域に対応する。例えば、ある商品は2000枚のピクチャがあり、各枚のピクチャにおいて、商品の全体又は一部に関する特徴画像(feature map)を見出す。カラーピクチャに対して、各画素点のRGB三原色がそれぞれに二次元マトリックスに対応し、各マトリックスが3*3又は5*5のコンボリューション・カーネルで畳み込み演算を行った後に、特徴画像(feature map)である三つの新たな二次元マトリックスを生成する。ステップS20222は、候補領域生成ステップであり、各トレーニングサンプルのピクチャを候補領域ネットワーク(RPN)に入力して、複数の候補領域(region proposals)を生成する。各枚のピクチャに対して300個の候補領域を生成することが望ましい。候補領域ネットワーク(Region Proposal Networks、RPNと略称する)は、Faster RCNNモデルにおける領域(proposal)生成ネットワークであり、対象物検知における対象物のサイズの差が大きい可能性があるので、異なるサイズの候補領域(region proposals)をできるだけ生成する。ステップS20223は、候補領域マッピングステップであり、異なるサイズの候補領域を同じなサイズのピクチャに変換して、各トレーニングサンプルのピクチャの候補領域(region proposals)を畳み込みニューラルネットワークの最終層の畳み込み層の特徴画像(feature map)にマッピングする。ステップS20224は、分類器生成ステップであり、複数のトレーニングサンプルのピクチャ特徴画像(feature maps)及び候補領域(region proposals)を収集して、候補領域の特徴画像(proposal feature maps)を算出し且つ分類器ネットワーク(classifier ネットワーク)に伝送することにより分類器を生成する。当該分類器ネットワークにおいて、同じな商品に対応するすべてのトレーニングサンプルピクチャの特徴画像と当該商品のグループマークとが対応関係に形成される。ここで、当該グループマークは、当該グルームのピクチャサンプルに対応する商品の種類である。
【0086】
ステップS2023は、交差検証ステップであり、複数グループのテストサンプルの各ピクチャ及び各グループのテストサンプルのグループマークに基づいて上記グループ化モデルを検証してモデルの正確度を算出するためである。
図14に示されるように、ステップS2023は、交差検証ステップであり、テストサンプル入力ステップであるステップS20231及び正確度算出ステップであるステップS20232を備える。ステップS20231は、テストサンプル入力ステップであり、複数のテストサンプルの各ピクチャが上記グループ化モデルに入力され、複数のテストサンプルのテストグループマークを取得する。ステップS20232は、正確度算出ステップであり、複数のテストサンプルのテストグループマークと上記テストサンプルのグループマークを対比して、同じなマークの数量と上記テストサンプルの数量の、上記一次データモデルの正確度である比率を算出する。上記グループ化モデルの正確度は、予め設置されたプリセットしきい値よりも小さい場合に、上記サンプル分類ステップに戻される。上記グループ化モデルの正確度が上記プリセットしきい値以上である場合に、上記グループ化モデルが商品識別モデルである。プリセットしきい値を90%とし、グループ化モデルの正確度が90%よりも小さい場合に、上記サンプル分類ステップに戻され、上記グループ化モデルの正確度が90%以上である場合に、上記グループ化モデルを商品識別モデルとすると考えられていることは望ましい。
【0087】
モデルトレーニングのサンプルが十分に多く、サンプルの解像度が高ければ、直接的に一回でトレーニングすれば、Faster RCNN ネットワークモデルを利用して一つのグループ化モデルをトレーニングできる。当該グループ化モデルは、ピクチャに表示された商品の種類を有効的に判断できる。ステップS202は、モデルトレーニングステップであり、グループ化モデルトレーニングステップであるステップS2022を含まればいい。サンプル取得ステップであるステップS201において取得された複数グループのピクチャサンプルの全部又は一部をトレーニングサンプルとして、各サンプルピクチャ及びそのグループマークを畳み込みニューラルネットワークモデルに入力して、トレーニングしてからグループ化モデルを取得できる。ここで、上記グループ化モデルが商品識別モデルである。
【0088】
ステップS203は、リアルタイムピクチャ取得ステップであり、少なくとも一つのリアルタイムピクチャを連続に取得するためである。各リアルタイムピクチャは、ある商品映像の一部又は全部を含む。ステップS203は、リアルタイムピクチャ取得ステップであり、各商品に対して複数のピクチャを撮像して、撮影回数が10~200回である第2のピクチャ取得ステップを備える。上記商品棚の四つの片隅にそれぞれに一つの第2のカメラ206が設けられ、各第2のカメラ206の視野範囲が上記商品棚の前方の空間領域を覆い、各第2のカメラ206のレンズが上記商品棚の平面の中心領域に向けている。ユーザが手を伸ばして、ある商品を商品棚から取り出した又はある商品を商品棚に戻した場合に、四つの第2のカメラ206は、異なる角度で当該商品の全体又は一部に対してピクチャを撮影することができる。ユーザは手で商品を持っている状態で商品棚の前方に1秒に留まると仮定して、四つの第2のカメラ206は、1秒内に異なる角度で120枚のリアルタイムピクチャを取得する。ここで、各ピクチャの表示内容は、ユーザの手部及び商品の一部を含んでもいい。第2のカメラ206は、長時間に通電する又は起動された機器であってもよく、商品棚に第2のカメラ206に接続されている赤外線スイッチが設けられて、通常時に電力遮断状態になり、ユーザが商品棚の近くに行進した場合に、赤外線スイッチが熱量を感知して接続され、第2のカメラ206が電力供給されることで起動され、ユーザが離れる場合に、赤外線スイッチが熱量を感知できないので切断され、第2のカメラ206の電力が切断される機器であってもいい。
【0089】
ステップS204は、商品種類取得ステップであり、上記リアルタイムピクチャ及び上記商品識別モデルに基づいて上記リアルタイムピクチャに表示される商品の種類及び数量を取得する。
図15に示されるように、種類判断ステップであるステップS204は、さらに、グループマーク取得ステップであるステップS2041及びマーク確実度算出ステップであるステップS2042を備える。グループマーク取得ステップであるステップS2041は、複数のリアルタイムピクチャを上記商品識別モデルに入力して複数のリアルタイムピクチャに対応する複数グループマークを取得する。マーク確実度算出ステップであるステップS2042では、各種類のグループマークの数量と全部のグループマークの総数との比率が算出される。当該比率は各種類のグループマークの確実度であり、確実度が最大であるグループマークに対応する商品の種類は上記リアルタイムピクチャに表示された商品の種類である。ステップS204を実行してから、リアルタイムピクチャ取得ステップであるステップS203に戻ることで、次に商品が取り出された場合又は戻された場合に、直ちに商品のピクチャを撮像することができる。
【0090】
図16に示されるように、グループマーク取得ステップであるステップS2041は、第2の特徴抽出ステップであるステップS20411、第2の候補領域生成ステップであるステップS20412、第2の候補領域マッピングステップであるステップS20413、及びグループ区分取得ステップであるステップS20414を備える。第2の特徴抽出ステップであるステップS20411では、リアルタイムピクチャが畳み込みニューラルネットワーク(CNN)に入力され、特徴抽出が行われて、特徴画像(feature map)が取得される。第2の候補領域生成ステップであるステップS20412では、上記リアルタイムピクチャを候補領域ネットワーク(RPN)に入力して、複数の候補領域(region proposals)を生成する。ここで、各枚のリアルタイムピクチャに対して、300個の候補領域を生成する。第2の候補領域マッピングステップであるステップS20413では、上記リアルタイムピクチャの候補領域(region proposals)を畳み込みニューラルネットワークの最終層の特徴画像(feature map)にマッピングする。グループ区分取得ステップであるステップS20414では、複数のピクチャの特徴画像(feature maps)と候補領域(region proposals)を収集して、候補領域の特徴画像(proposal feature maps)を算出し、分類器ネットワーク(classifier ネットワーク)に伝送されて、当該リアルタイムピクチャに対応するグループマークを取得する。
【0091】
マーク確実度算出ステップであるステップS2042は、上記可能性の結論における上記可能性の結論の各種類のグループマークの数量と上記可能性の結論の全部のグループマークの総数の比率が算出され、当該比率は各種類のグループマークの確実度であり、確実度が最大であるグループマークに対応する商品の種類及び/又は数量は上記リアルタイムピクチャに表示された商品の種類及び/又は数量である。上記の60個のグループマークを比較して、60個のグループマークに対応する60個の商品種類において、商品Aの出現した回数が36であり、商品Bの出現した回数が18であり、商品Cの出現した回数が6である場合に、三者の確実度がそれぞれに60%、30%及び10%であり、上記リアルタイムピクチャに表示された商品の種類は、確実度が最高である商品Aであると考えられている。サンプル取得ステップであるステップS201により取得されたピクチャサンプルには、複数の同じ種類の商品が積み重ねられる写真を含む場合に、商品種類取得ステップであるステップS204では更に商品の数量を判定することができる。
【0092】
上記の上記映像モニタリングに基づく商品検知システム及び商品検知方法は、商品棚の前方空間のリアルタイムピクチャに基づいて商品棚における商品の取り出す/戻す状態、取り出された又は戻された商品の具体的な種類を判断できる。また、重量モニタリングに基づく商品検知システムを組み合わせる場合に、更に商品の数量を正確に判断できる。ユーザID識別技術及びユーザ位置決め追従技術を結んでいる場合に、商品を取り出した又は商品を戻したユーザのIDを正確に判断でき、当該ユーザショッピング情報データベースへショッピング記録を正確に追加する又は削除することができることで、ユーザのショッピングが終わると便利に自動的に決済することができる。
【0093】
以上は、本発明の望ましい実施態様のみであり、当業者がより正確に本発明を理解し且つ実現するためであるが、本発明の範囲を制限するためでない。当業者にとって、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。これらの修正や変更も本発明の範囲と見なされる。
【符号の説明】
【0094】
1 密閉空間、
2 商品棚、
3 ブラケット、
4 トレイ、
5 フレームプレート、
7 データ処理機器、
100 ユーザID識別システム、
101 セキュリティシステム、
102 ID識別装置、
1021 スキャンコード装置、
1022 ID取得手段、
103 ユーザ入口、
104 ユーザ出口、
200 対象物位置決めシステム、
201 三次元映像取得装置、
202 対象物座標取得手段、
2011 映像センサー、
2012 深度画像センサー、
2013 RGB画像センサー、
2014 三次元映像整合手段、
2021 座標系作成手段、
2022 パラメーター取得手段、
2023 背景除去手段、
2024 対象物座標算出手段、
20221 センサー座標取得手段、
20222 相対座標取得手段、
20223 座標補正手段、
400 映像モニタリングに基づく商品検知システム、
401 サンプル取得手段、
402 モデルトレーニング手段、
403 リアルタイムピクチャ取得手段、
404 商品種類取得手段、
405 第1のカメラ、
406 第2のカメラ、
407 戻された商品確認手段、
408 取り出した商品確認手段、
4021 サンプル分類手段、
4022 グループ化モデルトレーニング手段、
4023 交差検証手段、
40221 特徴抽出手段、
40222 候補領域生成手段、
40223 候補領域マッピング手段、
40224 分類器生成手段、
40231 テストサンプル入力手段、
40232 正確度算出手段、
4041 グループマーク取得手段、
4042 マーク確実度算出手段、
40411 第2の特徴抽出手段、
40412 第2の候補領域生成手段、
40413 第2の候補領域マッピング手段、
40414 グループ区分取得手段、
500 ショッピングユーザ判断システム、
501 商品情報記憶手段、
502 フレームプレート座標記憶手段、
503 フレームプレートとユーザのマッチング判断手段、
504 商品とユーザのマッチング判断手段、
600 ショッピング情報データベースシステム、
601 ショッピング情報データベース生成手段、
602 ショッピング情報データベースアップデート手段、
700 決済システム、
701 総額算出手段、
702 支払手段。