(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024075796
(43)【公開日】2024-06-05
(54)【発明の名称】解析装置、解析システム、解析方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240529BHJP
G06T 7/20 20170101ALI20240529BHJP
【FI】
G06T7/00 350C
G06T7/20 300Z
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021023665
(22)【出願日】2021-02-17
(71)【出願人】
【識別番号】515130201
【氏名又は名称】株式会社Preferred Networks
(71)【出願人】
【識別番号】306014264
【氏名又は名称】株式会社 イトーヨーカ堂
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】松元 叡一
(72)【発明者】
【氏名】齋藤 俊太
(72)【発明者】
【氏名】西野 大輔
(72)【発明者】
【氏名】山田 良博
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA02
5L096CA04
5L096DA02
5L096FA69
5L096HA02
5L096HA05
5L096HA11
(57)【要約】
【課題】商品の注目度を解析するための新規な技術を提供することである。
【解決手段】本開示の一態様は、1つ以上のメモリと、1つ以上のプロセッサと、を有し、前記1つ以上のプロセッサは、売場映像に基づいて売場に関する人の挙動を検出し、前記挙動の検出結果に基づき前記売場の注目度を推定する、解析装置に関する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
1つ以上のメモリと、
1つ以上のプロセッサと、
を有し、
前記1つ以上のプロセッサは、
売場映像に基づいて売場に関する人の挙動を検出し、
前記挙動の検出結果に基づき前記売場の注目度を推定する、
解析装置。
【請求項2】
前記1つ以上のプロセッサは、前記挙動の検出に、前記売場映像に基づいて検出された売場の変化を利用する、請求項1記載の解析装置。
【請求項3】
前記1つ以上のプロセッサは、前記挙動の検出に、前記売場映像に基づいて推定された売場の商品の量を利用する、請求項1又は2記載の解析装置。
【請求項4】
前記1つ以上のプロセッサは、前記売場映像に基づいて撮像された来店客と店員とを判別し、判別結果を前記挙動の推定に利用する、請求項1乃至3何れか一項記載の解析装置。
【請求項5】
前記挙動の検出結果は、少なくとも、前記商品の売場の前を来店客が歩く、前記商品の売場の前で来店客が立ち止まる、来店客が前記商品を見る、来店客が前記商品を手に取る、又は、来店客が前記商品を戻す、のいずれか1つを含む、請求項1乃至4何れか一項記載の解析装置。
【請求項6】
前記1つ以上のプロセッサは、前記挙動の検出をニューラルネットワークを用いて行う、請求項1乃至5何れか一項記載の解析装置。
【請求項7】
請求項1乃至6何れか一項記載の解析装置と、
前記売場映像を取得する1つ以上の撮像装置と、
を有する解析システム。
【請求項8】
1つ以上のプロセッサが、売場映像に基づいて売場に関する人の挙動を検出し、
前記1つ以上のプロセッサが、前記挙動の検出結果に基づき前記売場の注目度を推定する、
ことを有する解析方法。
【請求項9】
1つ以上のプロセッサに、
売場映像に基づいて売場に関する人の挙動を検出するステップと、
前記1つ以上のプロセッサが、前記挙動の検出結果に基づき前記売場の注目度を推定するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、解析装置、解析システム、解析方法及びプログラムに関する。
【背景技術】
【0002】
スーパーマーケットやコンビニエンスストアなどの小売業界において、情報技術の活用が進展している。例えば、店舗における商品の陳列にも情報技術が活用されてきている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の課題は、商品の注目度を解析するための新規な技術を提供することである。
【課題を解決するための手段】
【0005】
上記課題を解決するため、本開示の一態様は、1つ以上のメモリと、1つ以上のプロセッサと、を有し、前記1つ以上のプロセッサは、売場映像に基づいて売場に関する人の挙動を検出し、前記挙動の検出結果に基づき前記売場の注目度を推定する、解析装置に関する。
【図面の簡単な説明】
【0006】
【
図1】本開示の一実施例による解析システムを示す概略図である。
【
図2】本開示の一実施例による解析装置の機能構成を示すブロック図である。
【
図3】本開示の一実施例による解析処理を示すフローチャートである。
【
図4】本開示の一実施例による解析装置のハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0007】
以下、図面に基づいて本開示の実施の形態を説明する。
【0008】
以下の実施例では、店舗の売場を撮像し、機械学習モデルを利用して売場映像に基づいて売場の注目度を推定する解析システムが開示される。
[解析システム]
まず、
図1を参照して、本開示の一実施例による解析システムを説明する。
図1は、本開示の一実施例による解析システムを示す概略図である。
【0009】
図1に示されるように、本実施例の解析システム10は、例えば、撮像装置20、ユーザ端末30及び解析装置100を備え、撮像装置20から売場映像を取得すると、解析装置100は、取得した売場映像を解析し、売場や当該売場に陳列されている商品の注目度をユーザ端末30に通知する。なお、商品の注目度は売場の注目度の一例である。また、注目度とは、売場や商品が魅力的であるかの度合いを指す。
【0010】
撮像装置20は、例えば、店舗等に設置されたビデオカメラであってもよく、撮像対象の売場を撮像し、売場映像を解析装置100に送信する。典型的には、撮像装置20は、撮像対象の売場の近傍に設置され、当該売場を観測するのに利用される。撮像装置20は、店舗の一定の個所に固定されてもよく、ロボットやカートに備えられた移動可能なものであってもよい。これにより、種々の情報を取得することができる。また、設置される撮像装置20の台数を減らすことも可能となる。また、撮像装置20は複数備えられてもよい。これにより、死角等が発生する場合であっても適切な売場映像を取得することができる。
【0011】
ユーザ端末30は、例えば、店舗等に備えられたパーソナルコンピュータ、タブレット、スマートフォンなどの情報処理装置であってもよく、売場映像に基づき推定された売場の商品や売場の注目度に関する情報を解析装置100や解析装置100の解析結果を保存したサーバ等から取得する。例えば、ユーザ端末30は、店舗の運営業務や業務改善に関するソフトウェア、例えば最適な商品配置や店員の業務評価を決定するのを支援するための各種ソフトウェアを備えてもよく、また、解析装置100の解析結果を閲覧可能なソフトウェアを備えてもよい。店員等は、このような解析装置100から取得した商品の注目度や注目度の高い商品の配置やPOP広告に関するデータ等を利用して各種ソフトウェアによって解析されたデータに基づき、売場の商品配置を決定したり、高い注目度を実現した商品配置を行った店員等の業務評価を実行してもよい。
【0012】
解析装置100は、例えば、店舗に備えられたパーソナルコンピュータ、店舗とは異なる場所、例えば店舗を管理する本部やクラウド上に備えられたサーバなどの情報処理装置であってもよく、撮像装置20から取得した売場映像から、売場や売場に陳列されている商品種別毎の注目度を推定する。なお、解析装置100は、撮像装置20から取得した売場映像を取得してもよく、売場映像に所定の処理を行ったデータを取得してもよい。このような場合、撮像装置20が取得した売場映像は所定の処理装置に出力され、その処理装置で処理されたデータが解析装置100に出力される。これにより、売場映像に関する情報のネットワークを介した送信や解析装置100においての以降の処理を容易にすることが可能となる。複数の撮像装置20が設置されている場合、この処理装置は複数の撮像装置20に対して1つ設けられてもよい。
【0013】
本実施例による解析装置100は、ニューラルネットワークなどの機械学習モデルを利用して、売場映像に基づいて売場に関する店員や来店客などの挙動を検出し、挙動の検出結果から当該商品及び/又は売場の注目度を推定することができる。推定した注目度は以降の販促活動等に利用したり、あるいは、陳列作業を行った店員の業務評価等、店舗の運営業務や業務改善等に利用されうる。
【0014】
例えば、解析装置100は、
図1に示されるような売場映像について、売場前を何人の来店客が歩いたか、売場前で何人の来店客が立ち止まったか、売場に陳列されている商品を何人の来店客が手に取ったか、手に取った商品を何人の来店客が売場に戻したか、などの来店客による商品及び/又は売場とのインタラクション、言い換えると来店客の商品及び/又は売場への反応を検出し、検出結果に基づき商品及び/又は売場の注目度を推定する。ここで、解析装置100は、撮像装置20から取得した売場映像をリアルタイム処理してもよいし、バッチ処理してもよい。
【0015】
本開示によると、売場映像に基づいて売場や商品の注目度を推定し、推定した注目度に基づき適切な商品配置を決定することが可能になる。また、推定した注目度に基づき店員等による商品陳列やPOP広告の効果を推定することが可能になる。
[解析装置]
次に、
図2を参照して、本開示の一実施例による解析装置100を説明する。
図2は、本開示の一実施例による解析装置100の機能構成を示すブロック図である。
【0016】
図2に示されるように、本実施例の解析装置100は、インタラクション検出部110及び注目度推定部120を有する。インタラクション検出部110及び注目度推定部120は、解析装置100にインストールされ、1つ以上のメモリに格納された1つ以上のプログラムを1つ以上のプロセッサが実行することによって実現される。
【0017】
インタラクション検出部110は、売場映像に基づいて売場に関する人の挙動を検出する。具体的には、撮像装置20から売場映像を取得すると、インタラクション検出部110は、前処理として、売場映像から人やショッピングカートなどの動体を除去する。そして、前処理された売場映像から売場の変化を検出すると共に、抽出した人物による売場及び商品とのインタラクションを検出する。
【0018】
インタラクション検出部110は、売場の商品に対するインタラクションなどの売場に関する人の挙動を検出する。ここで、インタラクション検出部110は、挙動の検出に、売場映像に基づいて検出された売場の変化を利用してもよい。例えば、一例となる前処理として、インタラクション検出部110は、Mask-RCNN(Regional Convolutional Neural Network)などの公知の物体検出器を利用して、売場映像における人やショッピングカートなどの動体を検出する。売場映像内に動体を検出すると、インタラクション検出部110は、公知の動体除去技術を用いて、検出した動体を売場映像から除去し、動体が除去された売場映像と、抽出した動体の映像とを導出する。
【0019】
そして、インタラクション検出部110は、前処理された売場映像のフレーム間の差分を算出し、算出した差分に基づき売場に変化が生じたか判断する。例えば、インタラクション検出部110は、所定の時間間隔で売場映像からフレームを間欠的に抽出し、抽出した隣接フレームの差分を算出する。具体的には、インタラクション検出部110は、隣接フレームの差分として、当該隣接フレームの画像データの差分を利用してもよい。また、インタラクション検出部110は、畳み込みニューラルネットワークなどの何れか適切な機械学習モデルを利用し、当該機械学習モデルに隣接フレームを入力し、出力された特徴量マップの差分を当該隣接フレームの差分として利用してもよい。特徴量マップを比較することによって、売場に対する照明の変化や振動の影響などを効果的に低減できると予想される。あるいは、インタラクション検出部110は、入力される2つのフレームにおいて所定の閾値以上の差分のある部分を検出するよう訓練された畳み込みニューラルネットワークなどの何れか適切な機械学習モデルを利用し、当該機械学習モデルに各隣接フレームを入力し、検出された差分部分を隣接フレームの差分として利用してもよい。このようにして、隣接フレーム間における差分を検出すると、インタラクション検出部110は、売場に変化が生じた位置及び/又は時刻を特定することができる。
【0020】
また、インタラクション検出部110は、売場映像から商品種別毎の配置領域を推定してもよい。具体的には、インタラクション検出部110は、売場映像のフレームに対して商品種別毎に領域分割を実行し、商品種別毎に配置領域を推定する。例えば、インタラクション検出部110は、訓練済み機械学習モデルを利用して、動体除去された売場映像のフレームに対して商品種別に基づく領域分割を実行し、商品種別毎の配置領域を推定してもよい。当該機械学習モデルは、動体除去された売場映像のフレームが入力されると、当該フレームを領域分割して商品種別毎の配置領域を示す商品領域マップを出力するよう訓練されてもよい。例えば、インタラクション検出部110は、動体除去された売場映像のフレームを訓練済み機械学習モデルに入力して、売場における商品種別毎の陳列領域を示す商品領域マップを取得すると、取得した商品領域マップを入力フレームに重畳し、商品種別毎に領域分割されたフレームを生成してもよい。
【0021】
ここで、領域推定のための機械学習モデルは、例えば、ニューラルネットワークとして実現されてもよく、売場映像のフレームと、商品種別毎の配置領域が付されたアノテーション付きのフレームとのペアを訓練データとして利用した教師有り学習によって訓練されてもよい。具体的には、当該機械学習モデルは、Mask-RCNNなどのインスタンスセグメンテーションモデルであってもよく、フレーム内の複数の商品又は商品種別に対して、検出対象のバウンディングボックスと、これに対応するセグメンテーションマスクとを予測するよう訓練されてもよい。
【0022】
あるいは、当該機械学習モデルは、畳み込みニューラルネットワークであってもよく、特徴量マップにおける特徴ベクトルをクラスタリングすることによって領域分割するよう訓練されてもよい。すなわち、特徴ベクトルが近い領域は同一種別の商品が陳列されている領域と考えることができる。このような畳み込みニューラルネットワークは、別のImagenet等の大規模画像データセットで事前学習された畳み込みニューラルネットワーク等をチューニングすることによって訓練されてもよいし、あるいは、商品領域に仮のラベルを割当て、当該ラベル番号を予測するよう訓練されてもよい。
【0023】
しかしながら、本開示はこれに限定されず、他の何れか適切な商品種別毎の領域分割技術が利用されてもよい。
【0024】
このようにして商品種別毎に領域分割された売場映像を取得すると、インタラクション検出部110は、配置領域に陳列されている商品の商品名及び/又は商品数(商品の量を含む)を推定してもよい。具体的には、インタラクション検出部110は、商品種別毎の配置領域に含まれる商品群について、訓練済み機械学習モデルを利用して、商品群の商品名及び/又は商品数を推定する。当該機械学習モデルは、動体除去された売場映像のフレームが入力されると、当該フレーム内に含まれる商品の商品名及び/又は中心位置を出力するよう訓練される。例えば、商品名は、当該商品名に予め割り当てられた商品番号等の商品識別情報によって示されてもよい。また、各商品の中心位置は、フレーム内の各商品の中心を示す記号(例えば、丸印など)等によって示されてもよいし、あるいは、商品中心ヒートマップ等によって示されてもよい。機械学習モデルは、動体除去された売場映像のフレームが入力されると、当該フレームに撮像された商品の商品名及び/又は商品中心を出力するよう訓練される。このような機械学習モデルは、例えば、ニューラルネットワークとして実現されてもよく、売場映像のフレームと、当該フレーム内の商品種別毎の商品名及び/又は各商品の中心が付されたアノテーション付きのフレームとのペアを訓練データとして利用した教師有り学習によって訓練されてもよい。
【0025】
より詳細には、インタラクション検出部110が、訓練済み機械学習モデルを利用して配置領域に陳列されている商品群の商品名を推定する場合、当該機械学習モデルは、入力フレームからフレーム内に撮像された商品の商品番号等の商品識別情報を特定するものであってもよい。すなわち、当該機械学習モデルは、ニューラルネットワークとして実現され、売場映像のフレームと、フレーム内の各商品の商品識別情報を付与したアノテーション付きのフレームとのペアを訓練データとして利用した教師有り学習によって訓練されてもよい。このように訓練された機械学習モデルを取得すると、インタラクション検出部110は、当該機械学習モデルを利用して、売場映像のフレーム内に陳列された各商品の商品名を推定することができる。ここで、入力フレームは、領域分割されたフレームであってもよいし、領域分割されていないフレームであってもよい。
【0026】
あるいは、当該機械学習モデルは、売場映像のフレームから商品種別毎の商品の特徴量を決定するニューラルネットワークであってもよい。インタラクション検出部110は、当該機械学習モデルを利用してフレーム内に配置された各商品の特徴量を推定すると、推定した特徴量に対応する商品名を当該商品として特定してもよい。
【0027】
なお、既存のどの商品種別にも該当しない場合、当該商品は未知として決定されてもよい。また、店舗のレイアウト情報やPOSデータなどの外部情報が利用可能である場合、外部情報から解析対象の売場に配置される商品を絞ることができ、解析対象の売場(例えば、野菜売場、お菓子売場など)の商品に適した商品分類(例えば、野菜、お菓子など)種別毎の機械学習モデルを取得することができ、推定精度を向上させることができる。
【0028】
次に、インタラクション検出部110が、訓練済み機械学習モデルを利用して配置領域における商品群の商品数を推定する場合、当該機械学習モデルは、例えば、入力フレームからフレーム内に撮像された商品の中心を特定するものであってもよい。すなわち、当該機械学習モデルは、ニューラルネットワークとして実現され、売場映像のフレームと、フレーム内の各商品の中心を付与したアノテーション付きのフレームとのペアを訓練データとして利用した教師有り学習によって訓練されてもよい。
【0029】
このように訓練された機械学習モデルを取得すると、インタラクション検出部110は、当該機械学習モデルを利用して、売場映像のフレーム内に陳列された各商品の中心を推定し、領域分割されたフレームを参照して、各配置領域内における推定された中心の個数に基づき各配置領域に陳列されている商品数を推定することができる。例えば、インタラクション検出部110は、商品名を特定する機械学習モデルと商品中心を推定する機械学習モデルとを併用して、領域分割されたフレームの各配置領域に配置されている商品群の商品名と各商品の中心とを示すフレームを生成することができる。インタラクション検出部110は、当該フレームに基づき各配置領域に含まれる中心の個数を計数することによって、商品名と商品種別毎の商品数とを推定することができる。
【0030】
なお、本開示による商品数の推定は、これに限定されるものでない。例えば、商品中心の代わりに、フレーム内の各商品の位置を示すバウンディングボックスによって検出する機械学習モデルが利用されてもよい。この場合、インタラクション検出部110は、各配置領域に含まれるバウンディングボックスの個数を計数することによって商品数を推定してもよい。あるいは、商品中心ヒートマップを商品密度とみなし、各配置領域に対して商品中心ヒートマップを積分することによって商品数を推定してもよい。あるいは、インタラクション検出部110は、配置領域の特徴量から商品数を回帰するよう訓練された機械学習モデルを利用して、フレームの各配置領域内の商品数を推定してもよい。上述した商品密度及び商品数の回帰による商品数の推定は、機械学習モデルが適切に訓練された場合には、フレームには撮像されていない隠れた商品の個数も予測することができうる。また、商品が配置されていない領域を対象として認識を行う機械学習モデルおよび商品が配置されうる領域を対象として認識を行う機械学習モデルを用いて、商品が配置されている領域の大きさを逆算してもよい。
【0031】
一方、インタラクション検出部110は、前処理された売場映像から抽出された人物の映像について人物や動きを特定する。例えば、インタラクション検出部110は、売場映像に撮像された来店客と店員とを判別してもよい。すなわち、インタラクション検出部110は、売場映像から抽出された人物の映像を入力すると、当該人物が来店客か店員かを判別するよう訓練された機械学習モデルを利用して、当該判別を行ってもよい。当該機械学習モデルは、例えば、畳み込みニューラルネットワークとして実現され、アノテーションが付された店員の画像データと、アノテーションが付された来店客の画像データとを訓練データとして利用して訓練されてもよい。一般に、店員は所定の制服や名札等を身に付けており、機械学習モデルは、これらを検出することによって店員か来店客かを判別しうると考えられる。このようにして、インタラクション検出部110は、売場映像に基づいて撮像された来店客と店員とを判別し、判別結果を挙動の推定に利用してもよい。
【0032】
また、インタラクション検出部110は、抽出された人物の映像から当該人物の動きを検出してもよい。例えば、インタラクション検出部110は、商品の売場の前を来店客が歩く、商品の売場の前で来店客が立ち止まる、来店客が商品を手に取る、又は、来店客が商品を戻す、などの来店客による商品や売場とのインタラクションに関連する所定の挙動を検出してもよい。
【0033】
例えば、インタラクション検出部110は、公知のトラッキング技術を利用して当該人物の位置をトラッキングすることによって軌跡データを生成し、生成した軌跡データから人物の歩行や滞留を検出してもよい。ここで、軌跡データは、例えば、位置と当該位置に人物がいた時刻とを関連付けたものであってもよい。また、公知のトラッキング技術として、フレームごとに人物のバウンディングボックスを検出し、時間的に近接するフレームの検出結果において、その検出領域に対応する特徴量の差が小さかったり、バウンディングボックスの重なりが大きかったりする検出同士を「同じ人物」とみなして同じIDを振るなどして対応付け、その処理を対象の動画中の全部のフレームに対して適用することで、各人物の動いた軌跡を導出してもよい。具体的には、来店客の軌跡データが解析対象の売場の前を通過したことを示す場合、インタラクション検出部110は、来店客が解析対象の売場の前を歩いたと判定してもよい。また、来店客の軌跡データが解析対象の売場の前を所定の閾値時間以上滞留していたことを示す場合、インタラクション検出部110は、来店客が解析対象の売場の前で立ち止まったと判定してもよい。
【0034】
あるいは、軌跡データは、時系列の軌跡データとして構成されてもよく、インタラクション検出部110は、時系列の軌跡データと、当該時系列の軌跡データが売場を素通りしたか、又は、売場の商品とインタラクションをとったかを示すアノテーションとのペアを訓練データとして訓練された何れか適切なニューラルネットワークなどの機械学習モデルを利用して、来店客が解析対象の売場の前で立ち止まったか判定してもよい。
【0035】
また、インタラクション検出部110は、公知のポーズ推定技術を利用して当該人物の手などの体の部位の動きを検出し、検出結果に基づき当該人物による売場の商品とのインタラクションを検出してもよい。ここで、公知のポーズ推定技術として、OpenPose、AlphaPoseなどが利用されてもよい。具体的には、インタラクション検出部110は、来店客の映像から手の位置を検出し、売場映像における商品の配置領域内に検出した手が所定の閾値時間以上あった場合、来店客が当該商品とインタラクションを持ったと判定してもよい。
【0036】
あるいは、インタラクション検出部110は、ポーズ推定によって抽出された手の映像と、当該手が商品を取り上げているか、商品を戻しているか、それ以外かを示すアノテーションとのペアを訓練データとして訓練された何れか適切なニューラルネットワークなどの機械学習モデルを利用して、来店客が解析対象の売場で商品を手に取ったか、あるいは、商品を戻したか判定してもよい。
【0037】
また、インタラクション検出部110は、アクション推定器を利用して、抽出された人物のアクションを推定してもよい。具体的には、アクション推定器は、抽出された人物の映像を入力とし、当該人物が所定のアクションの何れを行っているか判定するよう訓練された何れか適切なニューラルネットワークなどの機械学習モデルとして実現されてもよい。当該機械学習モデルは、人物の映像と、当該人物が商品の売場の前を歩く、商品の売場の前で立ち止まる、商品を見る、商品を手に取る、又は商品を戻す、などの商品や売場とのインタラクションに関連する所定の挙動とのペアを訓練データとして訓練されてもよい。
【0038】
なお、インタラクション検出部110は、アクション推定器を利用して、来店客だけでなく店員による商品や売場に関する挙動も検出してもよい。この場合、アクション推定器は、上述した来店客による商品との所定のインタラクションだけでなく、店員による商品や売場とのインタラクションを検出するよう訓練された機械学習モデルを利用して、店員の映像から店員による商品や売場とのインタラクションを検出してもよい。例えば、インタラクション検出部110は、店員による配置領域における商品の整頓、補充、入替等の陳列作業、POP広告の提示などの販促作業などのインタラクションを検出するよう訓練されたニューラルネットワークなどの機械学習モデルを利用して、店員の映像から店員による商品とのインタラクションを検出してもよい。
【0039】
このようにして、売場の変化、商品領域及び人物とのその動き等を検出すると、インタラクション検出部110は、これらの検出結果に基づき、さらに来店客や店員による商品とのインタラクションを検出する。具体的には、インタラクション検出部110は、売場の変化の検出結果から売場に変化が生じた位置及び時刻を特定し、商品領域の検出結果から解析対象の売場に陳列されている商品名及び商品数を特定し、人物の検出結果から来店客又は店員による商品とのインタラクションを特定することができる。これにより、インタラクション検出部110は、売場に変化が生じた位置及び時刻の変化前後の売場映像から、商品種別毎の商品数の増減や当該時刻に売場にいた人物及び商品とのインタラクションを特定することができる。
【0040】
例えば、インタラクション検出部110は、変化前後の売場映像から、来店客が商品Aを2個手に取り、売場に陳列されている商品数が2個減少したことを検出できるかもしれない。あるいは、インタラクション検出部110は、変化前後の売場映像から、店員が商品Bを補充し、売場に陳列されている商品数が増加したことを検出できるかもしれない。また、インタラクション検出部110は、売場に変化が生じていない場合でも、売場映像から来店客が売場の前を通過又は立ち止まったことを検出できるかもしれない。売場の変化、商品領域及び人物とのその動きの検出結果の組み合わせに対するインタラクションを判断するため、インタラクション検出部110は、売場の変化、商品領域及び人物とのその動きの検出結果と、インタラクションとの対応関係を示すテーブルを予め保持してもよい。インタラクション検出部110は、当該テーブルを参照して、ルールベースで売場の変化、商品領域及び人物とのその動きの検出結果の組み合わせに対応するインタラクションを決定してもよい。
【0041】
すなわち、インタラクション検出部110は、挙動の検出に、売場に基づいて推定された売場の商品の量を利用してもよい。このようにして解析対象の売場における商品とのインタラクションを検出すると、インタラクション検出部110は、インタラクションの検出結果を注目度推定部120にわたす。
【0042】
注目度推定部120は、インタラクションの検出結果に基づいて商品の注目度を推定する。具体的には、注目度推定部120は、例えば、所定の期間内において検出されたインタラクションに対して正規化等の統計処理を施し、来店客によるインタラクションの対象となった商品及び/又は売場の注目度を算出する。例えば、注目度推定部120は、来店客が売場に立ち止まったインタラクションの回数を集計し、当該期間における合計来店客数や当該売場の前を通り過ぎた合計来店客数に対して正規化し、当該売場及び/又は陳列されている商品の注目度を決定してもよい。
【0043】
また、注目度推定部120は、売場の各配置領域に陳列されている商品を来店客が手に取ったインタラクションの回数を集計し、各配置領域のインタラクションの相対的な回数に基づき、各配置領域に陳列されている商品の注目度を決定してもよい。例えば、インタラクションの相対的な回数が多い配置領域は、陳列されている商品だけでなく当該配置領域に対する注目度も高いと考えられる。このため、推定した注目度を利用して、積極的に販売した商品を注目度が高い配置領域に陳列してもよい。
【0044】
また、注目度推定部120は、店員によるインタラクションと注目度の関係を推定してもよい。例えば、店員が商品に対する補充、入替又は整頓等の陳列作業をしたインタラクションに対して、当該インタラクション後の来店客による当該商品に対するインタラクションの検出結果を集計し、集計したインタラクションの検出結果に基づき当該店員によるインタラクションが商品の注目度にどの程度影響があったかを推定してもよい。例えば、注目度推定部120は、店員によるある商品の売場の整頓前後の来店客による当該商品のインタラクションの増減を算出し、来店客によるインタラクションが有意に増加した場合、当該店員による商品の整頓が商品の販売に寄与したと判断してもよい。
【0045】
そして、注目度推定部120は、推定した注目度を店員や担当部署に通知し、以降の陳列戦略や販促戦略に利用してもよい。例えば、注目度推定部120は、ある商品の注目度が所定の閾値以上である場合、当該商品の配置領域を拡大したり、欠品が生じないように当該商品の発注量を増やしたり、当該商品を陳列した店員の評価を上げるよう店員や担当部署に通知してもよい。また、注目度推定部120は、ある売場の注目度が所定の閾値以上である場合、当該売場に販売促進したい商品を陳列したり、当該売場の陳列を行った店員の評価を上げるよう店員や担当部署に通知してもよい。
[解析処理]
次に、
図3を参照して、本開示の一実施例による解析処理を説明する。当該解析処理は、上述した解析装置100によって実行され、例えば、解析装置100の1つ以上のメモリに格納されたプログラムを1つ以上のプロセッサが実行することによって実現されうる。
図3は、本開示の一実施例による解析処理を示すフローチャートである。
【0046】
図3に示されるように、ステップS101において、解析装置100は、売場映像を取得する。具体的には、解析装置100は、売場に設置された撮像装置20から売場映像を取得する。ここで、解析装置100は、取得した売場映像に対してリアルタイムに以降のステップを実行してもよいし、あるいは、取得した売場映像を一時的に保存し、適切なタイミングで保存している売場映像に対して以降のステップを実行してもよい。
【0047】
ステップS102において、解析装置100は、売場映像を前処理する。具体的には、解析装置100は、何れか公知の物体検出器を利用して、売場映像における人やショッピングカートなどの動体を検出し、何れか公知の動体除去技術を利用して、検出した動体を売場映像から除去する。また、解析装置100は、動体除去された売場映像に対して商品種別毎に領域分割を実行し、商品種別毎の配置領域を推定する。
【0048】
ステップS103において、解析装置100は、売場や売場の商品に対する店員や来店客による挙動を検出する。具体的には、解析装置100は、動体除去された売場映像のフレーム間の差分を算出し、算出した差分に基づき売場に変化が生じたか判断してもよい。また、解析装置100は、配置領域に陳列されている商品の商品名及び/又は商品の量(商品数)を推定してもよい。また、解析装置100は、動体として検出された人物の映像における人物や動きを認識してもよい。例えば、解析装置100は、売場映像に撮像された来店客と店員とを判別してもよい。また、解析装置100は、人物の映像から、商品の売場の前を来店客が歩く、商品の売場の前で来店客が立ち止まる、来店客が商品を見る、来店客が商品を手に取る、又は、来店客が商品を戻す、などの来店客による商品や売場とのインタラクションに関連する所定の挙動を検出してもよい。また、解析装置100は、店員による商品や売場とのインタラクション(例えば、売場の商品の補充、入替、整頓などの陳列作業、POP広告の提示などの販促作業など)を検出してもよい。これらのインタラクションの検出は、例えば、ニューラルネットワークなどの機械学習モデルに基づき行われてもよく、検出対象の人の挙動の種別毎に機械学習モデルが構成されてもよいし、あるいは、売場映像から所望の種別の挙動を検出するエンド・ツー・エンドの機械学習モデルが構成されてもよい。
【0049】
ステップS104において、解析装置100は、挙動の検出結果に基づき売場の注目度を推定してもよい。具体的には、解析装置100は、各種挙動の検出結果に基づき売場の注目度を検出する。例えば、解析装置100は、所定の期間内において検出された挙動に対して統計処理を施し、来店客や店員による挙動の対象となった商品及び/又は売場の注目度を算出してもよい。解析装置100は、推定した注目度を店員や担当部署に通知し、以降の陳列戦略や販促戦略に利用してもよい。
[ハードウェア構成]
前述した実施形態における解析装置100の一部又は全部は、ハードウェアで構成されていてもよいし、CPU(Central Processing Unit)、又はGPU(Graphics Processing Unit)等が実行するソフトウェア(プログラム)の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、CD-ROM(Compact Disc-Read Only Memory)、又はUSB(Universal Serial Bus)メモリ等の非一時的な記憶媒体(非一時的なコンピュータ可読媒体)に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがASIC(Application Specific Integrated Circuit)、又はFPGA(Field Programmable Gate Array)等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。
【0050】
ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。
【0051】
図4は、前述した実施形態における解析装置100のハードウェア構成の一例を示すブロック図である。解析装置100は、一例として、プロセッサ71と、主記憶装置72(メモリ)と、補助記憶装置73(メモリ)と、ネットワークインタフェース74と、デバイスインタフェース75と、を備え、これらがバス76を介して接続されたコンピュータ7として実現されてもよい。
【0052】
図4のコンピュータ7は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、
図4では、1台のコンピュータ7が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース74等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における解析装置100は、1又は複数の記憶装置に記憶された命令を1台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた1台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。
【0053】
前述した実施形態における解析装置100の各種演算は、1又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ7と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における解析装置100は、1台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。
【0054】
プロセッサ71は、コンピュータの制御装置及び演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry、CPU、GPU、FPGA、又はASIC等)であってもよい。また、プロセッサ71は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ71は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ71は、量子コンピューティングに基づく演算機能を含むものであってもよい。
【0055】
プロセッサ71は、コンピュータ7の内部構成の各装置等から入力されたデータやソフトウェア(プログラム)に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ71は、コンピュータ7のOS(Operating System)や、アプリケーション等を実行することにより、コンピュータ7を構成する各構成要素を制御してもよい。
【0056】
前述した実施形態における解析装置100は、1又は複数のプロセッサ71により実現されてもよい。ここで、プロセッサ71は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいは2つ以上のデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
【0057】
主記憶装置72は、プロセッサ71が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置72に記憶された情報がプロセッサ71により読み出される。補助記憶装置73は、主記憶装置72以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における解析装置100において各種データを保存するための記憶装置は、主記憶装置72又は補助記憶装置73により実現されてもよく、プロセッサ71に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態における記憶部72は、主記憶装置72又は補助記憶装置73により実現されてもよい。
【0058】
記憶装置(メモリ)1つに対して、複数のプロセッサが接続(結合)されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ1つに対して、複数の記憶装置(メモリ)が接続(結合)されてもよい。前述した実施形態における解析装置100が、少なくとも1つの記憶装置(メモリ)とこの少なくとも1つの記憶装置(メモリ)に接続(結合)される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも1つのプロセッサが、少なくとも1つの記憶装置(メモリ)に接続(結合)される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置(メモリ))とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置(メモリ)がプロセッサと一体になっている構成(例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ)を含んでもよい。
【0059】
ネットワークインタフェース74は、無線又は有線により、通信ネットワーク8に接続するためのインタフェースである。ネットワークインタフェース74は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース74により、通信ネットワーク8を介して接続された外部装置9Aと情報のやり取りが行われてもよい。なお、通信ネットワーク8は、WAN(Wide Area Network)、LAN(Local Area Network)、PAN(Personal Area Network)等の何れか、又は、それらの組み合わせであってよく、コンピュータ7と外部装置9Aとの間で情報のやり取りが行われるものであればよい。WANの一例としてインターネット等があり、LANの一例としてIEEE802.11やイーサネット(登録商標)等があり、PANの一例としてBluetooth(登録商標)やNFC(Near Field Communication)等がある。
【0060】
デバイスインタフェース75は、外部装置9Bと直接接続するUSB等のインタフェースである。
【0061】
外部装置9Aはコンピュータ7とネットワークを介して接続されている装置である。外部装置9Bはコンピュータ7と直接接続されている装置である。
【0062】
外部装置9A又は外部装置9Bは、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータ7に与える。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。
【0063】
また、外部装置9A又は外部装置9Bは、一例として、出力装置でもよい。出力装置は、例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、又は有機EL(Electro Luminescence)パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。
【0064】
また、外部装置9Aまた外部装置9Bは、記憶装置(メモリ)であってもよい。例えば、外部装置9Aはネットワークストレージ等であってもよく、外部装置9BはHDD等のストレージであってもよい。
【0065】
また、外部装置9A又は外部装置9Bは、前述した実施形態における各装置(サーバ100又は端末200)の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ7は、外部装置9A又は外部装置9Bの処理結果の一部又は全部を送信又は受信してもよい。
【0066】
本明細書(請求項を含む)において、「a、b及びcの少なくとも1つ(一方)」又は「a、b又はcの少なくとも1つ(一方)」の表現(同様な表現を含む)が用いられる場合は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素(a、b及びc)以外の他の要素を加えることも含む。
【0067】
本明細書(請求項を含む)において、「データを入力として/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を入力として用いる場合を含む。また「データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び/又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を出力とする場合も含む。
【0068】
本明細書(請求項を含む)において、「接続される(connected)」及び「結合される(coupled)」との用語が用いられる場合は、直接的な接続/結合、間接的な接続/結合、電気的(electrically)な接続/結合、通信的(communicatively)な接続/結合、機能的(operatively)な接続/結合、物理的(physically)な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。
【0069】
本明細書(請求項を含む)において、「AがBするよう構成される(A configured to B)」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的(permanent)又は一時的(temporary)な設定(setting/configuration)が、動作Bを実際に実行するように設定(configured/set)されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的(permanent)又は一時的(temporary)なプログラム(命令)の設定により、動作Bを実際に実行するように設定(configured)されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築(implemented)されていればよい。
【0070】
本明細書(請求項を含む)において、含有又は所有を意味する用語(例えば、「含む(comprising/including)」及び有する「(having)等)」が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。
【0071】
本明細書(請求項を含む)において、ある箇所において「1つ又は複数(one or more)」又は「少なくとも1つ(at least one)」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)は、必ずしも特定の数に限定されないものとして解釈されるべきである。
【0072】
本明細書において、ある実施例の有する特定の構成について特定の効果(advantage/result)が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び/又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。
【0073】
本明細書(請求項を含む)において、「最大化(maximize)」等の用語が用いられる場合は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化(minimize)」等の用語が用いられる場合は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化(optimize)」等の用語が用いられる場合は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。
【0074】
本明細書(請求項を含む)において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書(請求項を含む)において、「1又は複数のハードウェアが第1の処理を行い、前記1又は複数のハードウェアが第2の処理を行う」等の表現が用いられている場合、第1の処理を行うハードウェアと第2の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第1の処理を行うハードウェア及び第2の処理を行うハードウェアが、前記1又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は電子回路を含む装置等を含んでよい。
【0075】
本明細書(請求項を含む)において、複数の記憶装置(メモリ)がデータの記憶を行う場合、複数の記憶装置(メモリ)のうち個々の記憶装置(メモリ)は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。
【0076】
以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、数値又は数式を説明に用いている場合は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。
【符号の説明】
【0077】
10 解析システム
20 撮像装置
30 ユーザ端末
100 解析装置
110 インタラクション検出部
120 注目度推定部