(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】処理装置、処理方法及びプログラム
(51)【国際特許分類】
H04N 7/18 20060101AFI20231205BHJP
G06T 7/00 20170101ALI20231205BHJP
G06Q 30/06 20230101ALI20231205BHJP
【FI】
H04N7/18 K
G06T7/00 300Z
G06Q30/06
(21)【出願番号】P 2022524827
(86)(22)【出願日】2020-05-22
(86)【国際出願番号】 JP2020020260
(87)【国際公開番号】W WO2021234938
(87)【国際公開日】2021-11-25
【審査請求日】2022-11-17
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】菊池 克
(72)【発明者】
【氏名】佐藤 貴美
(72)【発明者】
【氏名】鍋藤 悠
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特表2016-532932(JP,A)
【文献】特開2020-053019(JP,A)
【文献】国際公開第2019/171573(WO,A1)
【文献】国際公開第2017/030177(WO,A1)
【文献】国際公開第2015/033577(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
G06T 7/00
G06Q 30/06
(57)【特許請求の範囲】
【請求項1】
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
前記複数の画像各々から物体を検出する検出手段と、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置。
【請求項2】
前記位置条件は、前記画像内における物体の位置が、前記画像内における物体が同一の被写体であった場合の位置関係を満たすことである請求項1に記載の処理装置。
【請求項3】
前記位置条件は、第1のカメラの設定情報と、前記第1のカメラが生成した前記画像内における第1の物体の位置とから推定される3次元空間内において前記第1の物体が存在し得る位置、及び、他のカメラの設定情報と、前記他のカメラが生成した前記画像内における第2の物体の位置と、前記第1のカメラと前記他のカメラとの相対的な関係とから推定される前記3次元空間内において前記第2の物体が存在し得る位置とが、前記第1の物体と前記第2の物体とが同一の被写体であった場合の位置関係を満たすことである請求項2に記載の処理装置。
【請求項4】
前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量であり、
前記商品種別条件は、前記外観の特徴量の類似度が基準値以上である請求項1から3のいずれか1項に記載の処理装置。
【請求項5】
前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量に基づき特定された商品種別識別情報であり、
前記商品種別条件は、前記商品種別識別情報が一致することである請求項1から3のいずれか1項に記載の処理装置。
【請求項6】
前記商品種別条件は、
前記商品種別が一致し、かつ、
第1のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記第1のカメラに対向している商品の特徴部分と、他のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記他のカメラに対向している商品の特徴部分との関係が向き条件を満たすことである請求項5に記載の処理装置。
【請求項7】
コンピュータが、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
前記複数の画像各々から物体を検出し、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
前記抽出された集合毎に、商品認識結果を出力する処理方法。
【請求項8】
コンピュータを、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
前記複数の画像各々から物体を検出する検出手段、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、処理方法及びプログラムに関する。
【背景技術】
【0002】
非特許文献1及び2は、レジカウンターでの決済処理(商品登録及び支払い等)をなくした店舗システムを開示している。当該技術では、店内を撮影するカメラが生成した画像に基づき顧客が手に持っている商品を認識し、顧客が店舗を出たタイミングで認識結果に基づき自動的に決済処理を行う。
【0003】
特許文献1は、次のような装置を開示している。まず、当該装置は、第1のカメラから取得した第1画像中の第1飛行物体を検出し、第1のカメラからみた第1の飛行物体の方向を示すエピポーラ線を求める。そして、当該装置は、当該エピポーラ線に沿って撮影するように第2のカメラを制御する。次いで、当該装置は、第2のカメラから取得した第2の画像中の第2の飛行物体を検出し、第1の飛行物体と第2の飛行物体とが同一か判断し、第1の飛行物体及び第2の飛行物体の位置を算出する。
【0004】
特許文献2は、複数のカメラから得られた画像中の人物頭部の位置に応じて人物の3次元位置を推定する方法を切り替えることで、物体が映っているカメラの台数によらず、物体の3次元的な位置を精度よく取得する技術を開示している。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2018-195965号公報
【文献】特開2017-103602号公報
【非特許文献】
【0006】
【文献】宮田拓弥、"Amazon Goの仕組み「カメラとマイク」で実現するレジなしスーパー"、[online]、2016年12月10日、[2019年12月6日検索]、インターネット<URL:https://www.huffingtonpost.jp/tak-miyata/amazon-go_b_13521384.html>
【文献】"NEC、レジレス店舗「NEC SMART STORE」を本社内にオープン--顔認証活用、退店と同時決済"、[online]、2020年2月28日、[2020年3月27日検索]、インターネット<URL: https://japan.cnet.com/article/35150024/>
【発明の概要】
【発明が解決しようとする課題】
【0007】
顧客が手に取った商品を精度よく認識する技術が望まれている。例えば、非特許文献1及び2に記載のレジカウンターでの決済処理(商品登録及び支払い等)をなくした店舗システムにおいては、顧客が手に持っている商品を精度よく認識する技術が必要となる。その他、顧客の嗜好調査やマーケティング調査等の目的で顧客の店内行動を調査する場合にも、当該技術は有用である。
【0008】
本発明の課題は、顧客が手に持っている商品を精度よく認識する技術を提供することである。
【課題を解決するための手段】
【0009】
本発明によれば、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
前記複数の画像各々から物体を検出する検出手段と、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置が提供される。
【0010】
また、本発明によれば、
コンピュータが、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
前記複数の画像各々から物体を検出し、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
前記抽出された集合毎に、商品認識結果を出力する処理方法が提供される。
【0011】
また、本発明によれば、
コンピュータを、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
前記複数の画像各々から物体を検出する検出手段、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラムが提供される。
【発明の効果】
【0012】
本発明によれば、顧客が手に持っている商品を精度よく認識する技術が実現される。
【図面の簡単な説明】
【0013】
【
図1】本実施形態の処理装置のハードウエア構成の一例を示す図である。
【
図2】本実施形態の処理装置の機能ブロック図の一例である。
【
図3】本実施形態のカメラの設置例を説明するための図である。
【
図4】本実施形態のカメラの設置例を説明するための図である。
【
図5】本実施形態の処理装置が処理する画像の一例を示す図である。
【
図6】本実施形態の処理装置が処理する情報の一例を示す図である。
【
図7】本実施形態の処理装置が処理する情報の一例を示す図である。
【
図8】本実施形態の処理装置の処理の流れの一例を示すフローチャートである。
【
図9】本実施形態の処理装置が処理する情報の一例を示す図である。
【
図10】本実施形態の処理装置が処理する情報の一例を示す図である。
【発明を実施するための形態】
【0014】
<第1の実施形態>
「概要」
本実施形態では、顧客が手に持っている商品を互いに異なる位置及び方向から撮影する複数のカメラが生成した画像に基づき商品認識処理を実行する。そして、複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却する。本実施形態の処理装置によれば、このような「複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する場合に真とする」という条件を付すことで、誤認識を抑制し、顧客が手に持っている商品を精度よく認識することが可能となる。
【0015】
「ハードウエア構成」
次に、処理装置のハードウエア構成の一例を説明する。
【0016】
処理装置の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
【0017】
図1は、処理装置のハードウエア構成を例示するブロック図である。
図1に示すように、処理装置は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置は周辺回路4Aを有さなくてもよい。なお、処理装置は物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。処理装置が物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
【0018】
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
【0019】
「機能構成」
図2に、処理装置10の機能ブロック図の一例を示す。図示するように、処理装置10は、取得部11と、検出部12と、位置情報生成部13と、商品種別関連情報生成部14と、抽出部15と、商品認識結果出力部16とを有する。
【0020】
取得部11は、顧客が手に持っている商品を複数のカメラが互いに異なる位置及び互いに異なる方向から撮影することで生成された複数の画像を取得する。タイムスタンプ等により、複数のカメラが同じタイミングで生成した画像を特定できるようになっている。取得部11への画像の入力は、リアルタイム処理で行われてもよいし、バッチ処理で行われてもよい。いずれの処理とするかは、例えば商品認識結果の利用内容に応じて決定することができる。
【0021】
ここで、複数のカメラについて説明する。本実施形態では顧客が手に持っている商品を複数の位置及び複数の方向から撮影できるように複数のカメラ(2台以上のカメラ)が設置される。例えば商品陳列棚毎に、各々から取り出された商品を撮影する位置及び向きで複数のカメラが設置されてもよい。カメラは、商品陳列棚に設置されてもよいし、天井に設置されてもよいし、床に設置されてもよいし、壁面に設置されてもよいし、その他の場所に設置されてもよい。なお、商品陳列棚毎にカメラを設置する例はあくまで一例であり、これに限定されない。
【0022】
カメラは動画像を常時(例えば、営業時間中)撮影してもよいし、動画像のフレーム間隔よりも大きい時間間隔で静止画像を継続的に撮影してもよいし、人感センサー等で所定位置(商品陳列棚の前等)に存在する人を検出している間のみこれらの撮影を実行してもよい。
【0023】
ここで、カメラ設置の一例を示す。なお、ここで説明するカメラ設置例はあくまで一例であり、これに限定されない。
図3に示す例では、商品陳列棚1毎に2つのカメラ2が設置されている。
図4は、
図3の枠4を抽出した図である。枠4を構成する2つの部品各々には、カメラ2と照明(不図示)とが設けられる。
【0024】
照明の光放射面は一方向に延在しており、発光部及び発光部を覆うカバーを有している。照明は、主に、光放射面の延在方向に直交する方向に光を放射する。発光部は、LEDなどの発光素子を有しており、カバーによって覆われていない方向に光を放射する。なお、発光素子がLEDの場合、照明が延在する方向(図において上下方向)に、複数のLEDが並んでいる。
【0025】
そしてカメラ2は、直線状に延伸する枠4の部品の一端側に設けられており、照明の光が放射される方向を撮影範囲としている。例えば
図4の左側の枠4の部品において、カメラ2は下方及び右斜め下を撮影範囲としている。また、
図4の右側の枠4の部品において、カメラ2は上方及び左斜め上を撮影範囲としている。
【0026】
図3に示すように、枠4は、商品載置スペースを構成する商品陳列棚1の前面フレーム(又は両側の側壁の前面)に取り付けられる。枠4の部品の一方は、一方の前面フレームに、カメラ2が下方に位置する向きに取り付けられる。枠4の部品の他方は、他方の前面フレームに、カメラ2が上方に位置する向きに取り付けられる。そして、枠4の部品の一方に取り付けられたカメラ2は、商品陳列棚1の開口部を撮影範囲に含むように、上方及び斜め上方を撮影する。一方、枠4の部品の他方に取り付けられたカメラ2は、商品陳列棚1の開口部を撮影範囲に含むように、下方及び斜め下方を撮影する。このように構成することで、2つのカメラ2で商品陳列棚1の開口部の全範囲を撮影することができる。結果、商品陳列棚1から取り出されている商品(顧客が手に持っている商品)を2つのカメラ2で撮影することが可能となる。
【0027】
例えば
図3及び
図4に示す構成を採用した場合、
図5に示すように、顧客が手に持っている商品を2つのカメラ2で撮影することになる。結果、当該商品を複数の位置及び複数の方向から撮影した2つの画像7及び8が生成される。
【0028】
なお、以下では、「顧客が手に持っている商品を2つのカメラで撮影」することを前提とする。そして、本実施形態の末尾において、変形例として、「顧客が手に持っている商品を3つ以上のカメラで撮影」する場合の構成を説明する。
【0029】
図2に戻り、検出部12は、複数のカメラが生成した複数の画像各々から物体が存在する領域を検出することで、物体を検出する。画像から物体が存在する領域を検出する技術は広く知られているので、ここでの詳細な説明は省略する。なお、検出される「物体が存在する領域」は、物体及びその周辺を含む矩形領域であってもよいし、物体のみが存在する物体の輪郭に沿った形状の領域であってもよい。例えば、画像内の矩形領域毎に物体が存在するか判断する手法を採用する場合、検出される「物体が存在する領域」は、
図5に示すように、物体及びその周辺を含む矩形領域Wとなる。一方、セマンティックセグメンテーションやインスタンスセグメンテーションと呼ばれる検出対象が存在するピクセル領域を検出する手法を採用する場合、検出される「物体が存在する領域」は、物体のみが存在する物体の輪郭に沿った形状の領域となる。
【0030】
位置情報生成部13は、検出された物体毎に、画像内の位置を示す位置情報を生成する。位置情報は、例えば画像上に設定された2次元座標系の座標で示される。位置情報は、画像内の一定領域を示してもよいし、画像内の一点を示してもよい。画像内の一定領域を示す位置情報は、例えば、上述した物体が存在する領域を示してもよい。画像内の一点を示す位置情報は、例えば、上述した物体が存在する領域の中の代表点(中心点、重心点等)を示してもよい。
【0031】
商品種別関連情報生成部14は、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する。本実施形態の商品種別関連情報は、複数の商品種別を互いに識別する商品種別識別情報(商品名、商品コード等)である。
【0032】
画像に含まれる物体の商品種別を認識する技術は広く知られており、本実施形態ではあらゆる技術を採用できる。例えば、商品種別関連情報生成部14は、予め機械学習等で生成された分類器と、上記「物体が存在する領域」の画像とに基づき、その物体の商品種別を認識してもよい。その他、商品種別関連情報生成部14は、予め用意された各商品の外観のテンプレート画像と上記「物体が存在する領域」の画像とを照合するパターンマッチングにより、その物体の商品種別を認識してもよい。
【0033】
ここまで説明した取得部11、検出部12、位置情報生成部13及び商品種別関連情報生成部14により、
図6及び
図7に示すような情報が生成される。
【0034】
図6に示す第1の物体情報は、第1のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図中、「1-01」、「1-02」は、画像から検出された複数の物体を互いに識別するための通番である。
【0035】
図7に示す第2の物体情報は、第2のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。図中、「2-01」、「2-02」は、画像から検出された複数の物体を互いに識別するための通番である。
【0036】
図2に戻り、抽出部15は、互いに異なるカメラが生成した画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する。「顧客が手に持っている商品を2つのカメラで撮影」する例の場合、抽出部15は、第1のカメラが生成した画像から検出された物体である第1の物体と、第2のカメラが生成した画像から検出された物体である第2の物体とのペアであって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす第1の物体及び第2の物体のペアを抽出する。抽出部15は、
図6及び
図7に示すような情報に基づき、当該抽出処理を行う。
【0037】
抽出部15による当該抽出は、第1のカメラが生成した画像の解析結果と第2のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する物体の抽出を意味する。
【0038】
まず、位置条件について説明する。位置条件は、第1のカメラが生成した画像内における第1の物体の位置と、第2のカメラが生成した画像内における第2の物体の位置とが、その第1の物体とその第2の物体とが同一の被写体であった場合の位置関係を満たすことである。
【0039】
当該位置条件の一例は、「第1のカメラの設定情報」と「第1のカメラが生成した画像内における第1の物体の位置」とから推定される「3次元空間内において第1の物体が存在し得る位置」、及び、「第2のカメラの設定情報」と「第2のカメラが生成した画像内における第2の物体の位置」と「第1のカメラと第2のカメラとの相対的な関係」とから推定される「上記3次元空間内において第2の物体が存在し得る位置」とが整合する(第1の物体と第2の物体とが同一の被写体であった場合の位置関係を満たす)ことである。このような位置条件を満たすか否かの判断手法の詳細は特段制限されず、あらゆる手法を採用できる。以下、一例を説明するがこれに限定されない。
【0040】
例えば、エピポーラ線の利用が考えられる。まず、第1のカメラの設定情報(焦点距離、画角等)、第2のカメラの設定情報(焦点距離、画角等)、及び、第1のカメラと第2のカメラとの相対的な関係(相対的な位置関係、相対的な向きの関係等)等に基づき、第1のカメラと第1のカメラが生成した画像内の所定の点とを通る線を、第2のカメラが生成した画像内に投影した線(エピポーラ線)を求めることができる。上記所定の点を、第1のカメラが生成した画像内における第1の物体の位置に基づき設定することで、第1の物体が存在し得る第2の画像内の位置を求めることができる。第2の物体が、この第1の物体が存在し得る第2の画像内の位置に存在する場合、その第1の物体と第2の物体は位置条件を満たす(画像内の互いの位置が整合する)と判断することができる。
【0041】
次に、商品種別条件について説明する。上述の通り、本実施形態の商品種別関連情報は、物体の外観の特徴量に基づき特定された商品種別識別情報である。そして、本実施形態の商品種別条件は、第1の物体の商品種別識別情報と、第2の物体の商品種別識別情報とが一致すること(商品種別の認識結果が一致すること)である。
【0042】
図2に戻り、商品認識結果出力部16は、抽出部15により抽出されたペア(集合)毎に、第1の物体又は第2の物体の商品認識結果(商品種別識別情報)を出力する。本実施形態の場合、抽出部15により抽出されたペア(集合)は、「第1の物体の商品種別識別情報と、第2の物体の商品種別識別情報とが一致」という商品種別条件を満たしているので、第1の物体の商品認識結果及び第2の物体の商品認識結果は一致する。
【0043】
なお、本実施形態では、商品認識結果出力部16が出力した商品認識結果に対するその後の処理内容は特段制限されない。
【0044】
例えば、商品認識結果は、非特許文献1及び2に開示のようなレジカウンターでの決済処理(商品登録及び支払い等)をなくした店舗システムにおける決済処理で利用されてもよい。以下、一例を説明する。
【0045】
まず、店舗システムは、出力された商品認識結果(商品種別識別情報)を、その商品を手に持っている顧客を特定する情報に紐づけて登録する。例えば、店内には、商品を手に持っている顧客の顔を撮影するカメラが設置されており、店舗システムは、当該カメラが生成した画像から顧客の顔の外観の特徴量を抽出してもよい。そして、店舗システムは、当該顔の外観の特徴量(顧客を特定する情報)に紐づけて、その顧客が手に持っている商品の商品種別識別情報やその他の商品情報(単価、商品名等)を登録してもよい。その他の商品情報は、予め店舗システムに記憶されている商品マスタ(商品種別識別情報と、その他の商品情報とを紐づけた情報)から取得することができる。
【0046】
その他、予め、顧客の顧客識別情報(会員番号、氏名等)と、顔の外観の特徴量とが紐づけて任意の場所(店舗システム、センターサーバ等)に登録されていてもよい。そして、店舗システムは、商品を手に持っている顧客の顔を含む画像から顧客の顔の外観の特徴量を抽出すると、当該予め登録された情報に基づきその顧客の顧客識別情報を特定してもよい。そして、店舗システムは、特定した顧客識別情報に紐づけて、その顧客が手に持っている商品の商品種別識別情報やその他の商品情報を登録してもよい。
【0047】
また、店舗システムは、登録内容に基づき決済金額を算出し、決済処理を実行する。例えば、顧客がゲートから退場したタイミングや、顧客が出口から店舗外に出たタイミング等で、決済処理が実行される。これらのタイミングの検出は、ゲートや出口に設置されたカメラが生成した画像で顧客の退店を検出することで実現されてもよいし、ゲートや出口に設置された入力装置(近距離無線通信するリーダ等)に対する退店する顧客の顧客識別情報の入力で実現されてもよいし、その他の手法で実現されてもよい。決済処理の詳細は、予め登録されたクレジットカード情報に基づくクレジットカードでの決済処理であってもよいし、予めチャージされたお金に基づく決済であってもよいし、その他であってもよい。
【0048】
商品認識結果出力部16が出力した商品認識結果のその他の利用場面として、顧客の嗜好調査やマーケティング調査等が例示される。例えば、各顧客が手に取った商品を各顧客に紐づけて登録することで、各顧客が興味を有する商品などを分析することができる。また、商品ごとに顧客が手に取った旨を登録することで、どの商品が顧客に興味を持たれているかを分析することができる。さらに、従来の画像解析技術を利用して顧客の属性(性別、年代、国籍等)を推定し、各商品を手に取った顧客の属性を登録することで、各商品がどのような属性の顧客に興味を持たれているかを分析することができる。
【0049】
次に、
図8のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
【0050】
まず、取得部11は、第1のカメラ及び第2のカメラが同じタイミングで撮影して生成された2つの画像を取得する(S10)。第1のカメラ及び第2のカメラは、顧客が手に持っている商品を互いに異なる位置及び方向から撮影するように設置されている。
【0051】
次いで、検出部12は、この2つの画像各々を解析し、各画像から物体を検出する(S11)。次いで、位置情報生成部13は、S11で検出された物体毎に、画像内の位置を示す位置情報を生成する(S12)。また、商品種別関連情報生成部14は、検出された物体毎に、商品種別を特定する商品種別関連情報を、画像に基づき生成する(S13)。なお、S12及びS13の処理順は図示するものに限定されない。
【0052】
ここまでの処理により、
図6及び
図7に示すような情報が生成される。
図6に示す第1の物体情報は、第1のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。
図7に示す第2の物体情報は、第2のカメラが生成した画像から検出された複数の物体各々の位置情報及び商品種別関連情報を示す。
【0053】
次いで、抽出部15は、第1のカメラが生成した画像から検出された物体である第1の物体と、第2のカメラが生成した画像から検出された物体である第2の物体とのペア(集合)であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たす第1の物体及び第2の物体のペアを抽出する(S14)。
【0054】
そして、商品認識結果出力部16は、S14で抽出されたペア(集合)毎に、第1の物体又は第2の物体の商品認識結果(商品種別識別情報)を出力する(S15)。
【0055】
「作用効果」
以上説明した本実施形態の処理装置10によれば、顧客が手に持っている商品を互いに異なる位置及び方向から撮影する複数のカメラが生成した画像に基づき商品認識処理を実行することができる。そして、複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却することができる。その他の商品認識結果は、抽出部15により抽出されなかった第1の物体及び第2の物体の商品認識結果である。
【0056】
本実施形態の処理装置10によれば、このような「複数のカメラが生成した画像の解析結果が整合(位置が整合、外観が整合等)する場合に真とする」という条件を付すことで、誤認識を抑制し、顧客が手に持っている商品を精度よく認識することが可能となる。
【0057】
「変形例」
上述の通り、本実施形態では、顧客が手に持っている商品を互いに異なる位置及び方向から3つ以上のカメラで撮影してもよい。
【0058】
この場合、処理装置10は、N個(Nは3以上の整数)のカメラが生成した画像の解析結果のすべてが整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部15は、N個のカメラが生成したN個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、N個の物体が属する集合を抽出する。この条件は、集合に属する物体(メンバー)の数の条件がさらに加わっている点で、上述した条件と異なる。
【0059】
その他、処理装置10は、N個(Nは3以上の整数)のカメラが生成した画像のN個の解析結果の中の少なくともM個(Mは2以上の整数、MはN未満)の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部15は、N個のカメラが生成したN個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、M個以上の物体が属する集合を抽出する。この条件は、集合に属する物体(メンバー)の数の条件がさらに加わっている点で、上述した条件と異なる。
【0060】
その他、処理装置10は、N個(Nは3以上の整数)のカメラが生成した画像の解析結果の中の所定割合以上の解析結果が整合(位置が整合、外観が整合等)する物体の商品認識結果のみを出力し、その他の商品認識結果は例えば棄却してもよい。この場合、抽出部15は、N個のカメラが生成したN個の画像から検出された複数の物体の集合であって、位置情報が互いに位置条件を満たし、かつ、商品種別関連情報が互いに商品種別条件を満たし、かつ、Nの所定割合以上の個数の物体が属する集合を抽出する。この条件は、集合に属する物体(メンバー)の数の条件がさらに加わっている点で、上述した条件と異なる。
【0061】
当該変形例においても、上記作用効果が実現される。また、カメラの台数を増やし、上述のような条件とすることで、人の手や何かにより商品が死角となり、一部のカメラでその商品を撮影できない状況が生じても、その他の複数のカメラが生成した画像の解析結果が整合すれば真とすることができる。結果、より利便性が向上する。
【0062】
<第2の実施形態>
本実施形態は、商品種別条件が、第1の実施形態と異なる。具体的には、本実施形態の商品種別条件は、「商品種別が一致」、かつ、「第1のカメラが生成した画像から抽出された物体の外観の特徴量に基づき特定される第1のカメラに対向している商品の特徴部分と、第2のカメラが生成した画像から抽出された物体の外観の特徴量に基づき特定される第2のカメラに対向している商品の特徴部分との関係が向き条件を満たす」である。
【0063】
例えば、
図3乃至
図5の例のように、第1のカメラ及び第2のカメラが商品を挟み込むように撮影し、互いの撮影方向が約180°異なる場合、上記向き条件は「表裏の関係」となる。すなわち、第1のカメラに対向している商品の特徴部分と、第2のカメラに対向している商品の特徴部分は、その商品において表裏の関係にあることが、向き条件となる。
【0064】
例えば、
図9に示すように、商品種別ごとに、複数の方向から撮影した場合の画像各々から抽出された特徴量を登録しておく。なお、
図9では6方向(前から、後ろから、上から、下から、右から、左から)から撮影した場合の特徴量を登録しているが、撮影方向の数はこれに限定されない。
【0065】
また、
図10に示すように、第1のカメラ及び第2のカメラの撮影方向の関係を登録しておく。当該関係は、「第1のカメラが商品をある方向から撮影した場合、第2のカメラはその商品をどの方向から撮影することになるか」という関係を示す。
【0066】
そして、抽出部15は、これらの情報に基づき、上記向き条件を満たすか否かを判断することができる。
【0067】
具体的には、まず、商品種別関連情報生成部14は、第1のカメラが生成した画像から抽出された物体の外観の特徴量と、
図9に示す特徴量との照合により、どの方向から撮影した場合に撮影される商品の特徴部分が第1のカメラに対向しているか特定する。また、商品種別関連情報生成部14は、第2のカメラが生成した画像から抽出された物体の外観の特徴量と、
図9に示す特徴量との照合により、どの方向から撮影した場合に撮影される商品の特徴部分が第2のカメラに対向しているか特定する。これらの特定処理は、機械学習で生成された分類器を利用して実現されてもよいし、パターンマッチングで実現されてもよいし、その他の手法で実現されてもよい。
【0068】
そして、抽出部15は、第1のカメラに対向しているか特徴部分が撮影される撮影方向と、第2のカメラに対向しているか特徴部分が撮影される撮影方向とが
図10に示す関係を満たす場合、上記向き条件を満たすと判断する。
【0069】
本実施形態の処理装置10のその他の構成は、第1の実施形態と同様である。なお、本実施形態の処理装置10は、顧客が手に持っている商品を互いに異なる位置及び方向から3つ以上のカメラで撮影する変形例も採用できる。例えば、3つ以上のカメラの撮影方向の関係を予め登録しておけば、上記と同様の処理で同様の作用効果が実現される。
【0070】
本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。また、本実施形態の処理装置10は、「互いに異なる位置及び方向から複数のカメラで商品を撮影した場合、どの方向から撮影するかに応じて画像に現れる商品の特徴部分が異なり得る」という特徴を考慮し、上述のような向き条件をさらに加えたものである。当該向き条件を付すことで、誤認識をさらに抑制し、顧客が手に持っている商品をより精度よく認識することが可能となる。
【0071】
<第3の実施形態>
本実施形態の商品種別関連情報は、画像から抽出された物体の外観の特徴量である。そして、商品種別条件は、上記外観の特徴量の類似度が基準値以上である。
【0072】
本実施形態の処理装置10のその他の構成は、第1の実施形態と同様である。本実施形態の処理装置10によれば、第1の実施形態と同様の作用効果が実現される。
【0073】
<変形例>
ここで、すべての実施形態に適用可能な変形例を説明する。上記実施形態では、検出された物体毎に位置情報生成部13が位置情報を生成し、検出された物体毎に商品種別関連情報生成部14が商品種別関連情報を生成した後、抽出部15が位置条件及び商品種別条件を満たす複数の物体の集合を抽出した。
【0074】
変形例1では、検出された物体毎に位置情報生成部13が位置情報を生成した後、抽出部15は位置条件を満たす複数の物体の集合を抽出する。そして、その後、商品種別関連情報生成部14は、抽出された集合に属する複数の物体が互いに商品種別条件を満たすか判断する。そして、抽出部15は、商品種別条件を満たすと判断された複数の物体の集合を抽出する。
【0075】
この場合、商品種別関連情報生成部14は、複数の物体各々の外観の特徴量に基づき各物体の商品種別識別情報を特定する処理を実行してもよい。そして、商品種別関連情報生成部14は、特定した商品種別識別情報が互いに一致する物体の組み合わせは商品種別条件を満たすと判断してもよい。
【0076】
その他の処理例として、商品種別関連情報生成部14は、第1の物体の外観の特徴量に基づきその第1の物体の商品種別識別情報を特定した後、他の物体の外観の特徴量が「特定した第1の物体の商品識別情報で識別される商品の外観の特徴量」とマッチングするか否かを判断してもよい。そして、商品種別関連情報生成部14は、マッチングする場合、商品種別条件を満たすと判断してもよい。この処理例の場合、複数種類の商品種別各々の特徴量との照合により商品種別識別情報を特定する処理を第1の物体に対してのみ行い、他の物体に対しては行わない。このため、コンピュータの処理負担が軽減される。
【0077】
なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。
【0078】
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0079】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段と、
前記複数の画像各々から物体を検出する検出手段と、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段と、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段と、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段と、
前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段と、
を有する処理装置。
2. 前記位置条件は、前記画像内における物体の位置が、前記画像内における物体が同一の被写体であった場合の位置関係を満たすことである1に記載の処理装置。
3. 前記位置条件は、第1のカメラの設定情報と、前記第1のカメラが生成した前記画像内における第1の物体の位置とから推定される3次元空間内において前記第1の物体が存在し得る位置、及び、他のカメラの設定情報と、前記他のカメラが生成した前記画像内における第2の物体の位置と、前記第1のカメラと前記他のカメラとの相対的な関係とから推定される前記3次元空間内において前記第2の物体が存在し得る位置とが、前記第1の物体と前記第2の物体とが同一の被写体であった場合の位置関係を満たすことである2に記載の処理装置。
4. 前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量であり、
前記商品種別条件は、前記外観の特徴量の類似度が基準値以上である1から3のいずれかに記載の処理装置。
5. 前記商品種別関連情報は、前記画像から抽出された前記物体の外観の特徴量に基づき特定された商品種別識別情報であり、
前記商品種別条件は、前記商品種別識別情報が一致することである1から3のいずれかに記載の処理装置。
6. 前記商品種別条件は、
前記商品種別が一致し、かつ、
第1のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記第1のカメラに対向している商品の特徴部分と、他のカメラが生成した前記画像から抽出された前記物体の外観の特徴量に基づき特定される前記他のカメラに対向している商品の特徴部分との関係が向き条件を満たすことである5に記載の処理装置。
7. コンピュータが、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得し、
前記複数の画像各々から物体を検出し、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成し、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成し、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出し、
前記抽出された集合毎に、商品認識結果を出力する処理方法。
8. コンピュータを、
顧客が手に持っている商品を複数のカメラが互いに異なる方向から撮影することで生成された複数の画像を取得する取得手段、
前記複数の画像各々から物体を検出する検出手段、
前記検出された物体毎に、前記画像内の位置を示す位置情報を生成する位置情報生成手段、
前記検出された物体毎に、商品種別を特定する商品種別関連情報を、前記画像に基づき生成する商品種別関連情報生成手段、
互いに異なる前記カメラが生成した前記画像から検出された複数の物体の集合であって、前記位置情報が互いに位置条件を満たし、かつ、前記商品種別関連情報が互いに商品種別条件を満たす複数の物体の集合を抽出する抽出手段、
前記抽出された集合毎に、商品認識結果を出力する商品認識結果出力手段、
として機能させるプログラム。