IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ニトリホールディングスの特許一覧 ▶ 国立大学法人北海道大学の特許一覧

<>
  • 特開-情報処理システム 図1
  • 特開-情報処理システム 図2
  • 特開-情報処理システム 図3
  • 特開-情報処理システム 図4
  • 特開-情報処理システム 図5
  • 特開-情報処理システム 図6
  • 特開-情報処理システム 図7
  • 特開-情報処理システム 図8
  • 特開-情報処理システム 図9
  • 特開-情報処理システム 図10
  • 特開-情報処理システム 図11
  • 特開-情報処理システム 図12
  • 特開-情報処理システム 図13
  • 特開-情報処理システム 図14
  • 特開-情報処理システム 図15
  • 特開-情報処理システム 図16
  • 特開-情報処理システム 図17
  • 特開-情報処理システム 図18
  • 特開-情報処理システム 図19
  • 特開-情報処理システム 図20
  • 特開-情報処理システム 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024090422
(43)【公開日】2024-07-04
(54)【発明の名称】情報処理システム
(51)【国際特許分類】
   G06Q 30/0201 20230101AFI20240627BHJP
   G06T 7/00 20170101ALI20240627BHJP
【FI】
G06Q30/0201
G06T7/00 660B
G06T7/00 350B
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022206332
(22)【出願日】2022-12-23
(71)【出願人】
【識別番号】500560129
【氏名又は名称】株式会社ニトリホールディングス
(71)【出願人】
【識別番号】504173471
【氏名又は名称】国立大学法人北海道大学
(74)【代理人】
【識別番号】100205084
【弁理士】
【氏名又は名称】吉浦 洋一
(72)【発明者】
【氏名】本間 勇紀
(72)【発明者】
【氏名】山城 輝久
(72)【発明者】
【氏名】長谷山 美紀
(72)【発明者】
【氏名】小川 貴弘
(72)【発明者】
【氏名】藤後 廉
【テーマコード(参考)】
5L030
5L049
5L096
【Fターム(参考)】
5L030BB02
5L049BB02
5L096BA08
5L096CA04
5L096DA02
5L096FA02
5L096FA09
5L096FA18
5L096FA67
5L096FA69
5L096FA72
5L096GA51
5L096HA05
5L096HA09
5L096HA11
5L096JA03
5L096JA11
5L096JA16
5L096KA04
5L096KA15
(57)【要約】
【課題】
実店舗に来店した顧客の関心を推定する情報処理システムを提供することを目的とする。
【解決手段】
実店舗に来店した人物の関心を推定する情報処理システムであって、情報処理システムは、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、画像情報に写っている人物について2次元または3次元の姿勢推定処理を行う姿勢推定処理部と、人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部と、教師データを用いて関心推定モデルの学習処理を行わせる学習処理部と、を有する情報処理システム。
【選択図】 図1
【特許請求の範囲】
【請求項1】
実店舗に来店した人物の関心を推定する情報処理システムであって、
前記情報処理システムは、
撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、
前記画像情報に写っている人物について姿勢推定処理を行う姿勢推定処理部と、
前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部と、
前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部と、
を有することを特徴とする情報処理システム。
【請求項2】
前記情報処理システムは、
前記画像情報受付処理部で受け付けた画像情報から、その画像情報に写っている人物を個別識別して検出をする検出処理部、
を有することを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記検出処理部は、
前記画像情報受付処理部で受け付けた画像情報から、その画像情報に写っている人物を含む領域を検出し、
前記姿勢推定処理部は、
前記領域の画像情報に対して2次元または3次元の姿勢推定処理を実行する、
ことを特徴とする請求項2に記載の情報処理システム。
【請求項4】
前記アノテーション処理部は、
前記領域の座標情報と前記姿勢特徴量と前記人物の商品に対する関心を示す情報とを含むデータを教師データに設定する、
ことを特徴とする請求項3に記載の情報処理システム。
【請求項5】
前記姿勢推定処理部は、
前記画像情報に写っている人物について2次元の姿勢特徴量を推定し、さらに、前記2次元の姿勢特徴量を用いて3次元の姿勢特徴量を推定することで、前記3次元の姿勢推定処理を行う、
ことを特徴とする請求項3に記載の情報処理システム。
【請求項6】
実店舗に来店した人物の関心を推定する情報処理システムであって、
前記情報処理システムは、
撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、
前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部と、
前記領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部と、
前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部と、
前記領域の座標情報と前記姿勢特徴量と前記人物の商品に対する関心を示す情報とを含む前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部と、
を有することを特徴とする情報処理システム。
【請求項7】
前記アノテーション処理部は、
あるフレームにおける前記人物の商品に対する関心を示す情報と、そのフレームとそのフレームよりも前の一以上のフレームにおける前記領域の座標情報と前記姿勢特徴量とのそれぞれとを一つのデータ群とし、
前記データ群を含むデータを教師データに設定する、
ことを特徴とする請求項1、請求項5または請求項6に記載の情報処理システム。
【請求項8】
前記情報処理システムは、
前記関心推定モデルを用いて、関心推定の処理対象とするフレームの画像情報に写っている人物の商品に対する関心を示す情報を出力する関心推定処理部、
を有することを特徴とする請求項7に記載の情報処理システム。
【請求項9】
前記関心推定処理部は、
前記関心推定の処理対象とするフレームとそのフレームよりも前の一以上のフレームのそれぞれにおける画像情報から検出した人物を含む領域の座標情報と、前記人物の前記姿勢特徴量とを入力値として、前記関心推定モデルに入力し、
前記関心推定の処理対象とするフレームにおける人物の商品に対する関心を示す情報を出力する、
ことを特徴とする請求項8に記載の情報処理システム。
【請求項10】
実店舗に来店した顧客の関心を推定する関心推定モデルを学習させるための教師データとなるデータセットであって、
撮像装置で前記実店舗における展示商品売り場を撮像した画像情報から検出した人物を含む領域の座標情報と、前記人物の姿勢特徴量と、前記画像情報における人物の商品に対する関心を示す情報とを対応づけている、
ことを特徴とするデータセット。
【請求項11】
前記データセットは、
あるフレームにおける前記人物の商品に対する関心を示す情報と、そのフレームとそのフレームよりも前の一以上のフレームのそれぞれにおける画像情報から検出した人物を含む領域の座標情報と前記姿勢特徴量とを一つのデータ群とし、前記データ群を複数含む、
ことを特徴とする請求項10に記載のデータセット。
【請求項12】
請求項10または請求項11に記載のデータセットを用いて学習した関心推定モデルにより実店舗に来店した人物の関心を推定する情報処理システムであって、
前記情報処理システムは、
撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、
前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部と、
前記検出した領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部と、
前記領域の座標情報と前記姿勢特徴量とを前記関心推定モデルに入力することで、前記人物の商品に対する関心を示す情報を出力する関心推定処理部と、
を有することを特徴とする情報処理システム。
【請求項13】
コンピュータを、
撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部、
前記画像情報に写っている人物について姿勢推定処理を行う姿勢推定処理部、
前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部、
前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部、
として機能させることを特徴とする情報処理プログラム。
【請求項14】
コンピュータを、
撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部、
前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部、
前記検出した領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部、
前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部、
前記領域の座標情報と前記姿勢特徴量と前記人物の商品に対する関心を示す情報とを含む前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部、
として機能させることを特徴とする情報処理プログラム。
【請求項15】
請求項10または請求項11に記載のデータセットを用いて学習した関心推定モデルにより実店舗に来店した人物の関心を推定する情報処理プログラムであって、
前記情報処理プログラムは、コンピュータを、
撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部、
前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部、
前記検出した領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部、
前記領域の座標情報と前記姿勢特徴量とを前記関心推定モデルに入力することで、前記人物の商品に対する関心を示す情報を出力する関心推定処理部、
として機能させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システムに関する。とくに実店舗に来店した顧客の関心を推定する情報処理システムに関する。
【背景技術】
【0002】
従来、小売業界では、過去の売上げ、新商品、値下げ品などの店舗側の立場による画一的な情報の発信が行われてきた。しかし、近年では、これまでの画一的な情報発信から、顧客一人一人の過去の購入履歴や購買行動などの顧客側の関心に合わせたOne to One(ワン・トゥ・ワン)マーケティングの手法が注目を浴びている。
【0003】
たとえばECサイトであれば、顧客のインターネット上の購買行動を収集しており、ログインさえしていれば購入の有無に関わらず顧客情報と購買行動が紐付くので、One to Oneマーケティングの実現は容易である。しかし、実店舗の場合には、来店した顧客の購買行動を取得することはできず、顧客情報は会計の際のポイントカードや顧客の申告などによって初めて明らかとなるものであり、この場合には、後日、限定的な顧客に対して購入履歴から推定される商品のクーポンを発行する、広告を行うなどといったマーケティングしか行えない。したがって、顧客が実店舗に来店して商品を見ている際に顧客の関心を推定することは、販売員が常時見ていない限り困難である。
【0004】
そこで、実店舗に来店をした顧客について、商品を購入する前に関心を推定する方法として、たとえば下記特許文献1、特許文献2などのシステムがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】WO2015/033577号公報
【特許文献2】特開2021-47810号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1では、3次元カメラを用いて顧客を撮影し、顧客の顔や視線を認識することで、当該顧客の商品に対する関心を推定するシステムである。このシステムの場合、3次元カメラという特殊なカメラを実店舗に設置する必要があり、その設置コストの負担が生じる。
【0007】
また、顧客の顔や視線を認識するためには、顧客の顔や視線の方向を正確に認識しなければならないが、カメラの設置場所と顧客との距離が離れている場合などは、その認識は容易ではない。また、単に、移動のために顔や視線が向いている場合もあり、顧客の顔や視線の方向にある商品を必ずしも関心を持って見ているとは限らない。さらに、コンビニエンスストアやスーパーマーケットのように、陳列棚に陳列されている商品の場合には、陳列棚に向いている顔や視線の先に当該商品しか存在しないので、顔や視線の方向と商品への関心との関連付けができる場合もある。しかし、家具などを販売する大型店舗では、商品は陳列棚に陳列されているだけではなく、店内に展示形式で設置されることが多い。そのため、顔や視線の方向の先には複数の商品が存在し、顔や視線の方向を推定しただけでは、当該顧客がどの商品に関心があるかを特定することはできない。すなわち、顔や視線の方向と顧客の商品への関心との関連付けが必ずしもできない。
【0008】
特許文献2も特許文献1と同様に、実店舗に来店した顧客の視線の方向を推定することで、顧客の商品への関心を推定するシステムである。そのため、特許文献1と同様に、顔や視線の方向と顧客の商品への関心との関連付けが必ずしもできないという課題がある。
【課題を解決するための手段】
【0009】
そこで本発明者は上記課題を鑑み、商品が展示されている実店舗であっても、そこに来店した顧客の商品への関心を、精度よく推定することができる情報処理システムを発明した。
【0010】
第1の発明は、実店舗に来店した人物の関心を推定する情報処理システムであって、前記情報処理システムは、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、前記画像情報に写っている人物について姿勢推定処理を行う姿勢推定処理部と、前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部と、前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部と、を有する情報処理システムである。
【0011】
本発明のように構成することで、画像情報に写っている人物の姿勢推定をすることができ、関心推定モデルの精度を向上させることができる。
【0012】
上述の発明において、前記情報処理システムは、前記画像情報受付処理部で受け付けた画像情報から、その画像情報に写っている人物を個別識別して検出をする検出処理部、を有する情報処理システムのように構成することができる。
【0013】
本発明のように構成することで、画像情報に複数の人物が写っている場合であっても、それぞれの人物を識別して処理を行うことができるので、汎用性を高めることができる。
【0014】
上述の発明において、前記検出処理部は、前記画像情報受付処理部で受け付けた画像情報から、その画像情報に写っている人物を含む領域を検出し、前記姿勢推定処理部は、前記領域の画像情報に対して2次元または3次元の姿勢推定処理を実行する、情報処理システムのように構成することができる。
【0015】
画像情報に写っている人物の姿勢推定処理を行う場合、最初から姿勢推定処理を行ってしまうと、推定された姿勢特徴量と人物との対応を時系列で取得することができない。そこで、本発明のように、画像情報に写っている人物を含む領域を検出・個別識別を行った後に、その領域の画像情報に対して2次元または3次元の姿勢推定処理を行うことで、各人物について推定された姿勢特徴量と人物の対応関係を時系列で取得することができるようになる。
【0016】
上述の発明において、前記アノテーション処理部は、前記領域の座標情報と前記姿勢特徴量と前記人物の商品に対する関心を示す情報とを含むデータを教師データに設定する、情報処理システムのように構成することができる。
【0017】
上述の発明において、前記姿勢推定処理部は、前記画像情報に写っている人物について2次元の姿勢特徴量を推定し、さらに、前記2次元の姿勢特徴量を用いて3次元の姿勢特徴量を推定することで、前記3次元の姿勢推定処理を行う、情報処理システムのように構成することができる。
【0018】
3次元の姿勢推定を行うためには3次元カメラを用いる方法などもあるが、その場合、通常の防犯カメラで撮像した画像情報を処理に用いることができなくなる。そこで、本発明のように2次元の姿勢特徴量を推定し、そこから3次元の姿勢特徴量を推定することで、通常の防犯カメラで撮像した画像情報であっても処理に用いることができる。
【0019】
第6の発明は、実店舗に来店した人物の関心を推定する情報処理システムであって、前記情報処理システムは、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部と、前記領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部と、前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部と、前記領域の座標情報と前記姿勢特徴量と前記人物の商品に対する関心を示す情報とを含む前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部と、を有する情報処理システムである。
【0020】
本発明のように構成することで、人物のいる位置と、人物の姿勢を考慮して関心推定モデルの学習処理を実行することができる。人物のいる位置は撮像装置で撮像した画像情報における座標系である一方、姿勢特徴量は検出した領域における座標系であり、異なる座標系で処理がされる。そのため通常は、ある人物がある場所である姿勢を取っていることがその商品に対する関心があるか否かを判定する場合、人物がいる位置の座標系と、姿勢の座標系とを揃えるための処理が必要となる。しかし、本発明のように、教師データとして、検出した領域の座標情報と姿勢特徴量とを、異なる座標系のまま機械学習の教師データとして用いることで、これらの座標系の変換処理を行わずに学習することができ、座標系を揃える処理が不要となる。
【0021】
上述の発明において、前記アノテーション処理部は、あるフレームにおける前記人物の商品に対する関心を示す情報と、そのフレームとそのフレームよりも前の一以上のフレームにおける前記領域の座標情報と前記姿勢特徴量とのそれぞれとを一つのデータ群とし、前記データ群を含むデータを教師データに設定する、情報処理システムのように構成することができる。
【0022】
上述の発明において、前記情報処理システムは、前記関心推定モデルを用いて、関心推定の処理対象とするフレームの画像情報に写っている人物の商品に対する関心を示す情報を出力する関心推定処理部、を有する情報処理システムのように構成することができる。
【0023】
上述の発明において、前記関心推定処理部は、前記関心推定の処理対象とするフレームとそのフレームよりも前の一以上のフレームのそれぞれにおける画像情報から検出した人物を含む領域の座標情報と、前記人物の前記姿勢特徴量とを入力値として、前記関心推定モデルに入力し、前記関心推定の処理対象とするフレームにおける人物の商品に対する関心を示す情報を出力する、情報処理システムのように構成することができる。
【0024】
これらの発明のように構成することで、人物の姿勢について時系列を考慮した教師データを用いた機械学習をすることができるので、関心推定の際にも、精度をより向上させることができる。
【0025】
機械学習の教師データとしては、本発明のようなデータセットを用いることができる。すなわち、実店舗に来店した顧客の関心を推定する関心推定モデルを学習させるための教師データとなるデータセットであって、撮像装置で前記実店舗における展示商品売り場を撮像した画像情報から検出した人物を含む領域の座標情報と、前記人物の姿勢特徴量と、前記画像情報における人物の商品に対する関心を示す情報とを対応づけている、データセットである。
【0026】
機械学習の教師データとして、本発明のデータセットを用いることで、人物のいる位置と、人物の姿勢を考慮して関心推定モデルの学習処理を実行することができる。人物のいる位置は撮像装置で撮像した画像情報における座標系である一方、姿勢特徴量は検出した領域における座標系であり、異なる座標系で処理がされる。そのため、ある人物がある場所である姿勢を取っていることがその商品に対する関心があるか否かを判定する場合、人物がいる位置の座標系と、姿勢の座標系とを揃えるための処理が必要となる。しかし、本発明のように、機械学習における教師データとして、検出した領域の座標情報と姿勢特徴量とを、異なる座標系のまま機械学習の教師データとして用いることで、これらの座標系の変換処理を行わずに学習することができ、座標系を揃える処理が不要となる。これは、機械学習であるからこそ可能な処理である。
【0027】
上述の発明において、前記データセットは、あるフレームにおける前記人物の商品に対する関心を示す情報と、そのフレームとそのフレームよりも前の一以上のフレームのそれぞれにおける画像情報から検出した人物を含む領域の座標情報と前記姿勢特徴量とを一つのデータ群とし、前記データ群を複数含む、データセットのように構成することができる。
【0028】
機械学習の教師データとして、本発明のデータセットを用いることで、人物の姿勢について時系列を考慮した教師データを用いた機械学習をすることができるので、関心推定の際にも、精度をより向上させることができる。
【0029】
上述の各発明のデータセットを用いて学習した関心推定モデルにより実店舗に来店した人物の関心を推定する情報処理システムであって、前記情報処理システムは、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部と、前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部と、前記検出した領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部と、前記領域の座標情報と前記姿勢特徴量とを前記関心推定モデルに入力することで、前記人物の商品に対する関心を示す情報を出力する関心推定処理部と、を有する情報処理システムである。
【0030】
本発明の情報処理システムを用いることで、関心推定の際にも、精度をより向上させることができる。
【0031】
第1の発明は、本発明のプログラムをコンピュータに読み込ませて実行することで実現することができる。すなわち、コンピュータを、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部、前記画像情報に写っている人物について姿勢推定処理を行う姿勢推定処理部、前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部、前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部、として機能させる情報処理プログラムのように構成することができる。
【0032】
第6の発明は、本発明のプログラムをコンピュータに読み込ませて実行することで実現することができる。すなわち、コンピュータを、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部、前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部、前記検出した領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部、前記人物の商品に対する関心度合いの情報を、教師データに設定するアノテーション処理部、前記領域の座標情報と前記姿勢特徴量と前記人物の商品に対する関心を示す情報とを含む前記教師データを用いて関心推定モデルの学習処理を行わせる学習処理部、として機能させる情報処理プログラムのように構成することができる。
【0033】
第12の発明は、上述の各発明に記載のデータセットを用いて学習した関心推定モデルにより実店舗に来店した人物の関心を推定する情報処理プログラムであって、前記情報処理プログラムは、コンピュータを、撮像装置で実店舗内を撮像した画像情報を受け付ける画像情報受付処理部、前記画像情報から、その画像情報に写っている人物を含む領域を検出する検出処理部、前記検出した領域の画像情報に写っている人物の姿勢特徴量を推定する姿勢推定処理部、前記領域の座標情報と前記姿勢特徴量とを前記関心推定モデルに入力することで、前記人物の商品に対する関心を示す情報を出力する関心推定処理部、として機能させる情報処理プログラムのように構成することができる。
【発明の効果】
【0034】
本発明の情報処理システムを用いることによって、商品が展示されている実店舗であっても、そこに来店した顧客の商品への関心を、精度よく推定することができる。
【図面の簡単な説明】
【0035】
図1】本発明の情報処理システムの全体の処理機能の一例を模式的に示すブロック図である。
図2】本発明の情報処理システムで用いるコンピュータのハードウェア構成の一例を模式的に示すブロック図である。
図3】本発明の情報処理システムにおける学習処理の処理プロセスの一例を示すフローチャートである。
図4】本発明の情報処理システムにおける検出処理の処理プロセスの一例を示すフローチャートである。
図5】本発明の情報処理システムにおける姿勢推定処理の処理プロセスの一例を示すフローチャートである。
図6】本発明の情報処理システムにおける学習処理の処理プロセスの一例を示すフローチャートである。
図7】本発明の情報処理システムにおける関心推定処理の処理プロセスの一例を示すフローチャートである。
図8】撮像画像情報の一例を示す図である。
図9】検出処理部の処理を模式的に示す図である。
図10】検出処理における画像情報と座標情報を模式的に示す図である。
図11】テーブルreid_outputの一例を示す図である。
図12】テーブルmoviecut_outputの一例を示す図である。
図13】2次元の姿勢情報の画像情報、3次元の姿勢情報の画像情報の一例を示す図である。
図14】テーブルmhformer_outputの一例を示す図である。
図15】テーブルmhformer_outputの他の一例を示す図である。
図16】アノテーション処理をした場合のテーブルmhformer_outputの一例を示す図である。
図17】アノテーション処理をした場合のテーブルmhformer_outputの他の一例を示す図である。
図18】学習処理部における学習処理を模式的に示す図である。
図19】関心推定処理を行う場合の処理を模式的に示す図である。
図20】テーブルestimation_resultsの一例を示す図である。
図21】テーブルestimation_resultsの他の一例を示す図である。
【発明を実施するための形態】
【0036】
本発明の情報処理システム1の全体の処理機能の一例のブロック図を図1に示す。情報処理システム1は管理端末2で機能する。
【0037】
管理端末2は、情報処理システム1の中心的な処理機能を実現するコンピュータである。図2にコンピュータのハードウェア構成の一例を模式的に示す。コンピュータは、プログラムの演算処理を実行するCPUなどの演算装置70と、情報を記憶するRAMやハードディスクなどの記憶装置71と、情報を表示するディスプレイなどの表示装置72と、情報の入力が可能なキーボードやマウスなどの入力装置73と、演算装置70の処理結果や記憶装置71に記憶する情報をインターネットやLANなどのネットワークを介して送受信する通信装置74とを有している。
【0038】
コンピュータがタッチパネルディスプレイを備えている場合には、表示装置72と入力装置73とが一体的に構成されていてもよい。タッチパネルディスプレイは、たとえばタブレット型コンピュータやスマートフォンなどの可搬型通信端末などで利用されることが多いが、それに限定するものではない。
【0039】
タッチパネルディスプレイは、そのディスプレイ上で、直接、所定の入力デバイス(タッチパネル用のペンなど)や指などによって入力を行える点で、表示装置72と入力装置73の機能が一体化した装置である。
【0040】
本発明における各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上は同一の領域を為していてもよい。本発明の各手段における処理は、その処理順序を適宜変更することもできる。また、処理の一部を省略してもよい。さらに、管理端末2における各機能は一台で実現されるのみならず、複数台にその機能が分散していてもよい。また一部の処理がインターネットなどにあるサーバなどで実行されていてもよい。
【0041】
管理端末2は、撮像装置3が撮像した画像情報を受け付け、所定の処理を実行する。撮像装置3は、実店舗に設置されており、実店舗内の状況を撮像する店内カメラである。撮像装置3としては、たとえば防犯カメラを用いることができるが、それに限定するものではない。なお、撮像装置3の撮像方向は固定されていることが好ましいが、機械学習用として撮像する画像情報と、関心推定処理の対象として撮像する画像情報とで撮像方向が同じであれば、固定されていなくてもよい。
【0042】
撮像装置3は実店舗内の状況を撮像しているので、実店舗に来店した顧客、試用できる展示品のある売り場(展示商品売り場)などの実店舗内の任意の場所や人物などが写るように撮像する。なお、展示商品売り場とは、コンビニエンスストアやスーパーマーケットとは異なり、商品および/または商品の試用品が、直接、売り場に置かれ、顧客がその商品を試用可能となっているような売り場をいう。たとえば、家具、大型家電(冷蔵庫、洗濯機、テレビ、マッサージ機など)、一人用ソファや椅子などと同等の大きさがある大型クッションなどの大型日用品・寝具・雑貨品、自動車や二輪車などの大型商品を販売する売り場が一例としてあげられる。
【0043】
情報処理システム1は、画像情報受付処理部20と記憶部21と検出処理部22と姿勢推定処理部23とアノテーション処理部24と学習処理部25と関心推定処理部26と出力処理部27とを有する。
【0044】
画像情報受付処理部20は、撮像装置3で撮像した画像情報の入力を受け付け、後述する記憶部21に記憶させる。たとえば防犯カメラである撮像装置3が実店舗の店内の状況を撮像した画像情報(撮像画像情報)を、撮像装置3から入力を受け付け、それを記憶部21に記憶させる。なお必要に応じて、撮像日時、撮像対象を示す情報など、関連する情報を合わせて入力を受け付けて、記憶部21に記憶させてもよい。また撮像画像情報としては動画像、静止画像のいずれであってもよい。
【0045】
記憶部21は、画像情報受付処理部20で入力を受け付けた撮像画像情報を記憶する。また本発明の情報処理システム1の各処理部での出力結果など、処理に必要なさまざまな情報を記憶する。
【0046】
検出処理部22は、撮像画像情報の各フレームに写っている人物を検出する人物検出処理と、その人物を識別する個別識別処理とを実行する。人物検出処理としては、たとえばM2Detと呼ばれる人物検出モデルを利用することができるが、それに限定するものではなく、撮像画像情報から人物を検出可能な各種のモデルを用いることができる。また、個別識別処理としては、たとえばTransReIDと呼ばれる個別識別モデルを利用することができるが、それに限定するものではなく、撮像画像情報から検出した人物を識別可能な各種のモデルを用いることができる。また、人物検出処理、個別識別処理を一つの処理として同時に実行してもよい。
【0047】
以上のような処理を行うことで、検出処理部22は、撮像画像情報の各フレームに写っているそれぞれの人物を個別に識別して、その人物を含むバウンディングボックス(矩形領域)の座標情報および画像情報を記憶部21に記憶させる。矩形領域は、一人が写るサイズで領域が設定される。
【0048】
また検出処理部22は、撮像画像情報から人物が写っているフレームだけを検出した動画像または静止画像を抽出し、後述するアノテーション処理部24でアノテーション処理を実行する際の画像情報を記憶部21に記憶させておく。
【0049】
姿勢推定処理部23は、検出処理部22で検出した矩形領域の画像情報に写っている人物の姿勢推定を行う。姿勢推定処理部23は、検出処理部22で検出した矩形領域の画像情報に写っている人物の2次元での姿勢特徴量を推定する。姿勢特徴量とは、人間の頭部、胴部、腕部、脚部などの部位や関節などの所定箇所の当該矩形領域における座標情報として表現される。画像情報に写っている人物の2次元の姿勢特徴量を推定するには、OpenPose,HRNet(High Resolution Network)、ST-GCNなどの公知の姿勢推定モデルを用いることができる。
【0050】
そして姿勢推定処理部23は、推定した2次元の姿勢特徴量を用いて、3次元の姿勢特徴量を推定する。2次元の姿勢特徴量から3次元の姿勢特徴量を推定するには、公知のMHFormerなどの姿勢推定モデルを用いることができる。
【0051】
以上のような処理を行うことで、姿勢推定処理部23は、検出処理部22で検出した矩形領域の画像情報に写っている人物の2次元の姿勢特徴量、3次元の姿勢特徴量を推定し、記憶部21に記憶させる。
【0052】
アノテーション処理部24は、学習処理部25で機械学習を行うために用いるアノテーションの入力を受け付け、教師データとする。たとえば、検出処理部22で検出したアノテーション用の画像情報を記憶部21から抽出し、その画像情報を、所定の担当者が、商品に関心があるか否かを判定し、関心度合いの情報の入力を受け付ける。この際に、関心度合いとしては、関心の有無のみならず、関心度が強い、関心度が普通、関心度が弱い、関心度がない、などのように複数段階設けて、関心度合いの情報の入力を受け付けてもよい。
【0053】
アノテーション処理部24で入力を受け付けた関心度合いの情報は、各フレームの人物に対応づけて記憶させる。好ましくは、矩形領域の画像情報またはその画像情報へのパス、2次元の姿勢特徴量および/または3次元の姿勢特徴量に対応づけてデータセットとして記憶させるとよい。また、データセットには、矩形領域の座標情報も対応づけてもよい。
【0054】
学習処理部25は、アノテーション処理部24でアノテーション処理されたデータセットを教師データとして用いて、関心推定モデルの機械学習の学習処理を実行する。関心推定モデルとしては、深層学習(ディープラーニング)を用いることが好ましい。この場合、中間層が多数の層からなるニューラルネットワークに対して教師データを入力し、各層のニューロン間の重み付け係数を最適化することで関心推定モデルを学習することができる。
【0055】
関心推定処理部26は、撮像装置3が撮像して画像情報受付処理部20で入力を受け付けた、関心推定の処理対象とする画像情報に写っている人物が、商品に関心があるかを、学習処理部25で機械学習した関心推定モデルを用いて推定する。
【0056】
出力処理部27は、関心推定モデルで出力した出力値を用いて、関心がある顧客の存在を店員に通知するなど、所定の出力処理を実行する。
【実施例0057】
つぎに本発明の情報処理システム1を用いた処理プロセスの一例を図3乃至図7のフローチャートを用いて説明する。以下の説明では、撮像装置3として、家具を展示販売する売り場を撮影する防犯カメラを用いた場合を説明する。
【0058】
まず防犯カメラなどの撮像装置3で撮像した、学習に用いるための実店舗の画像情報(撮像画像情報)の入力を、画像情報受付処理部20で受け付け、記憶部21に記憶させる(S100)。撮像画像情報としてはどのようなものであってもよいが、たとえば1秒1フレームとする。画像情報受付処理部20で入力を受け付けた撮像画像情報の一例を図8に示す。図8では、撮像画像情報として3フレーム分の画像情報を示しているが、実際には、より長時間の多数のフレームの画像情報の入力を受け付ける。たとえば、1日の営業時間中の防犯カメラの画像情報などの入力を受け付けてもよい。
【0059】
そして、検出処理部22は、入力を受け付けて、記憶部21に記憶させた撮像画像情報に対して、撮像画像情報に写っている人物の人物検出処理、個別識別処理を行う(S110)。たとえば人物検出処理としてM2Detなどの人物検出モデルを用い、検出された人物に対してTransReIDなどの個別識別モデルを用いて、前までのフレームで検出された人物と同一の人物が写っているかを検出する。検出処理部22の処理を模式的に示すのが図9である。
【0060】
検出処理部22における検出処理は、より具体的には、図4に示すフローチャートなどの処理で実行できる。なお、図4の処理は一例であって、撮像画像情報のフレームの画像情報に写っている人物の人物検出、個別識別が行えれば、これに限定するものではない。また、図10に、検出処理における画像情報と座標情報を模式的に示す。
【0061】
撮像画像情報のうち処理対象とするフレームの画像情報について、所定の大きさにリサイズをする(S200)。たとえば画像情報の大きさが横640ピクセル×縦480ピクセルであった場合(図10(a))、横1280ピクセル×縦720ピクセルにリサイズする(図10(b))。なお、処理対象とするフレームの画像情報の大きさが、最初から所定の大きさである場合には、リサイズの処理は不要である。
【0062】
そして、図10(b)の画像情報からM2Detなどの人物検出モデルにより人物検出処理を実行し(S210)、その人物を含む矩形領域の座標情報(x座標、y座標)の値を返す(図10(c))。図10(c)では、処理対象とするフレームの画像情報から2人の人物を検出し、それぞれの人物を含む各矩形領域の座標情報(x1,y1)、(x2,y2)と、(x3,y3)、(x4,y4)の値を返す。この座標情報の座標系は、リサイズした画像情報における座標系である。
【0063】
そして、S210で検出した人物の矩形領域の大きさが所定サイズ未満、たとえば縦または横が50ピクセル以下の場合には、後述する姿勢推定処理部23における姿勢推定の処理が正常に行えないことがあるので、処理対象とする矩形領域から除外する(S220)。そして矩形領域が所定サイズ以上、たとえば縦および横が50ピクセル以上の場合には、当該矩形領域の画像情報を切り出し、記憶部21における一時保存フォルダ(query_folder)に一時保存する(S230)(図10(d))。
【0064】
そして、検出処理部22は、TransReIDなどの個別識別モデルにより個別識別処理を実行する。すなわち、すでに識別済みの人物の矩形領域の画像情報を保存する保存フォルダ(gallery_folder)に、保存されている画像情報がある場合には(S240)、一時保存フォルダの画像情報に類似する画像情報が保存フォルダに既に保存されているかを判定するため、一時保存フォルダの画像情報と保存フォルダの画像情報との類似度を比較し(S250)(図10(e))、その類似度が所定条件を充足している場合には(S260)、当該一時保存フォルダの画像情報に、類似度が所定条件を充足した保存フォルダに保存している画像情報の人物の識別情報と同一の識別情報を付与する(S270)。類似度が所定条件を充足していない場合には、保存フォルダに保存している画像情報の人物の識別情報とは異なる識別情報を、当該一時保存フォルダの画像情報に付与する(S280)。なお、識別済みの人物の矩形領域の画像情報は、保存フォルダ(gallery_folder)に保存してもよいし、しなくてもよい。保存しない場合には、メモリ上での処理としてもよい。
【0065】
たとえば図10(e)では、一時保存フォルダに一時保存する矩形領域の画像情報「000001_001.jpg」と、保存フォルダに保存する「ID:1」が付された人物の矩形領域の画像情報と、「ID:2」が付された人物の矩形領域の画像情報と、それぞれ比較し、類似度を算出する。そしてそれぞれの類似度のうち、所定条件を充足している場合、たとえばもっとも高い類似度について、その類似度が所定の閾値以上である場合には、当該一時保存する矩形領域の画像情報に、条件を充足している人物と同一の識別情報を付する。一方、所定の条件を充足していない場合には、当該一時保存する矩形領域の画像情報に、新しい識別情報を付する。たとえば、画像情報「000001_001.jpg」について、「ID:1」の矩形領域の画像情報と比較した場合に所定条件を充足している場合には、画像情報「000001_001.jpg」に「ID:1」を付する。そして、画像情報「000001_001.jpg」の画像情報を、「ID:1」に対応づけて保存フォルダに記憶するとともに、一時保存フォルダから削除する。また、画像情報「000001_002.jpg」について、所定条件を充足していない場合には、新たな識別情報「ID:3」を付する。そして、画像情報「000001_002.jpg」の画像情報を、「ID:3」に対応づけて保存フォルダに記憶するとともに、一時保存フォルダから削除する。これを模式的に示すのが図10(f)である。
【0066】
以上のように処理を行うことで、処理対象とするフレームの画像情報から検出した人物を含む矩形領域の画像情報を、人物ごとに識別して保存フォルダgallery_folderに保存することができるが、保存フォルダgallery_folderに保存せず、メモリ上での処理としてもよい。
【0067】
さらに、検出処理部22は、処理対象とするフレームの画像情報に、当該矩形領域の座標情報と、個別識別した人物の識別情報とを用いて、矩形領域と人物の識別情報とを重畳表示させ(S290)(図10(g))、元の画像情報のサイズに、再度、リサイズする。たとえば横640ピクセル×縦480ピクセルにリサイズする(S300)(図10(h))。そして、S290またはS300によるフレームの画像情報を、矩形領域と人物の識別情報とが重畳表示された動画像情報outputmovieファイルの一フレームの画像情報として、記憶部21に保存する。なお、outputmovieファイルは記憶部21に保存してもよいし、しなくてもよい。保存しない場合には、メモリ上での処理としてもよい。
【0068】
そして検出処理部22は、同様の処理をつぎのフレームの画像情報に対して行う。以上のような処理を実行することで、撮像画像情報から個別識別をした人物を検出し、人物ごとの矩形領域の画像情報を保存フォルダgallery_folderに、撮像画像情報に矩形領域と人物の識別情報とが重畳表示された動画像情報outputmovieファイルが出力される。
【0069】
なお、検出処理部22は、上述のほか、撮像画像情報におけるフレーム番号のカラム(frame_number)、そのフレームに写っている人物の識別情報のカラム(person_ID)、矩形領域の座標情報のカラム(bounding_box)、保存フォルダgallery_folderで保存する当該矩形領域の画像情報へのパスのカラム(img_path)を対応づけて記憶するテーブルreid_outputも合わせて出力する。テーブルreid_outputの一例を図11に示す。
【0070】
また、検出処理部22は、テーブルreid_outputに動画像情報outputmovieファイルへのパスのカラム(movie_path)を追加したテーブルmoviecut_outputを出力する。なお、テーブルreid_outputにカラムを追加したテーブルを、説明の便宜上、テーブルmoviecut_outputとするが、同一のテーブルであってもよいし、異なるテーブルとして処理を行ってもよい。テーブルmoviecut_outputの一例を図12に示す。
【0071】
検出処理部22で検出処理が終了すると、つぎに、姿勢推定処理部23において、検出処理部22で検出した矩形領域の画像情報に写っている人物の姿勢推定処理を実行する(S120)。
【0072】
姿勢推定処理部23における姿勢推定処理は、より具体的には、図5に示すフローチャートなどの処理で実行できる。なお、図5の処理は一例であって、画像情報に写っている人物の姿勢推定処理が行えれば、これに限定するものではない。
【0073】
まず姿勢推定処理部23は、検出処理部22で出力したテーブルreid_outputまたはテーブルmoviecut_outputを読み込み、記憶部21に記憶する各フレームに写っている各人物の矩形領域の画像情報を、保存フォルダgallery_folderで保存する当該矩形領域の画像情報へのパスのカラム(img_path)に基づいて読み込む(S400)。
【0074】
また、読み込んだテーブルreid_outputまたはテーブルmoviecut_outputに、後述する姿勢特徴量(好ましくは2次元の姿勢特徴量および/または3次元の姿勢特徴量)を含むカラム(pose)、2次元または3次元の姿勢特徴量が取得できたかを示すカラム(annotation_auto)、関心があるか否かのフラグを示すカラム(annotation_TY)、後述のアノテーション作業が終了またはアノテーション作業から除外したことを示すフラグのカラム(check_flg)、当該人物の矩形領域の画像情報に2次元の姿勢情報(2次元の姿勢推定処理で推定した人間の頭部、胴部、腕部、脚部などの部位や関節などの所定箇所の座標情報をつないで人間を表現した図)のカラム(2D_pose)、2次元の姿勢情報を重畳表示した画像情報へのパスのカラム(2Dimg_path)、当該人物の矩形領域の画像情報に3次元の姿勢情報(3次元の姿勢推定処理で算出した人間の頭部、胴部、腕部、脚部などの部位や関節などの所定箇所の座標情報をつないで人間を表現した図)の画像情報へのパスのカラム(3Dimg_path)などの各カラムを追加する。各カラムは一例であり、その処理に応じて、適宜、追加、変更等をすることができる。
【0075】
2次元の姿勢情報の一例を図13(a)に、当該人物の矩形領域の画像情報に2次元の姿勢情報を重畳表示した画像情報を図13(b)に示す。また、2次元の姿勢特徴量に基づいて推定した3次元の姿勢特徴量をつないで人間を表現した図である3次元の姿勢情報の画像情報の一例を図13(c)に示す。また、読み込んだテーブルreid_outputまたはテーブルmoviecut_outputに、上述の各カラムを追加したテーブルを、説明の便宜上、テーブルmhformer_outputとする。なお、テーブルreid_outputまたはテーブルmoviecut_outputにカラムを追加したテーブルであってもよいし、異なるテーブルとしてもよい。また、追加した各テーブルの初期値は任意の値、たとえば「0」としておくとよい。
【0076】
そして処理対象とする画像情報について、OpenPose、HRNet、ST-GCNなどの公知の2次元の姿勢推定モデルを用いて、2次元の姿勢特徴量を推定する(S410)。この際の2次元の姿勢特徴量は、矩形領域の画像情報に写っている人物の頭部、胴部、腕部、脚部などの部位や関節などの所定箇所の座標情報であって、矩形領域の座標空間における2次元の座標情報(x,y)である。したがって、ある矩形領域における一人の人物に対して、たとえば17箇所の2次元の座標情報のデータ群が推定される。
【0077】
2次元の姿勢特徴量が推定できなかった場合には(S420)、テーブルmhformer_outputのカラムannotation_autoに、2次元の姿勢特徴量が推定できないことを示すフラグ、たとえば「-1」などを追加する。そして、つぎの画像情報を処理対象とする。
【0078】
また、2次元の姿勢特徴量が算出できた場合には(S420)、MHFormerなどの姿勢推定モデルを用いて、S410で推定した2次元の姿勢特徴量を用いて3次元の姿勢特徴量を推定する(S430)。この際の3次元の姿勢特徴量は、矩形領域の画像情報を3次元化した座標情報(矩形領域の画像情報に写っている人物の頭部、胴部、腕部、脚部などの部位や関節などの所定箇所の座標情報であって、矩形領域の座標空間を3次元化したときの3次元の座標情報(x,y,z)である。したがって、ある矩形領域における一人の人物に対して、たとえば17箇所の3次元の座標情報のデータ群が推定される。
【0079】
そして、推定した2次元の姿勢特徴量から2次元の姿勢情報を描画して(S440)、描画した画像情報を、記憶部21のpose2Dフォルダに保存し、その画像情報へのパスをテーブルmhformer_outputのカラム2Dimg_pathに追加する。また、推定した3次元の姿勢特徴量から3次元の姿勢情報を描画して(S450)、描画した画像情報を記憶部21のpose3Dフォルダに保存する。なお、描画した2次元の姿勢情報、3次元の姿勢情報は保存してもよいし、保存しなくてもよい。
【0080】
推定した3次元の姿勢特徴量をテーブルmhformer_outputのカラムposeにその姿勢特徴量を追加する(S460)。たとえば3次元の姿勢特徴量として17箇所の3次元の座標情報を取得している場合、51個のデータが追加されることとなる。なお、カラムposeには、3次元の姿勢特徴量に加えて、当該人物が写っている矩形領域を示す座標情報(撮像画像情報のフレーム(リサイズしたフレーム)の座標空間における2次元の座標情報)を追加してもよい。この場合、カラムposeには55個のデータが含まれることとなる。
【0081】
以上のような処理を実行することで、処理対象とする矩形領域の画像情報に写っている人物の3次元の姿勢特徴量の推定処理を実行することができる。そして、つぎの処理対象の矩形領域の画像情報の処理を実行する。このような処理を最後の矩形領域の画像情報まで実行することで、姿勢推定処理部23における姿勢推定処理を行う。
【0082】
姿勢推定処理部23における姿勢推定処理により出力されるテーブルmhformer_outputの一例を図14に示す。図14のテーブルmhformer_outputは、図11のreid_outputに各カラムを追加した場合であり、またカラムposeには、3次元の姿勢情報のほか、矩形領域の座標情報を追加した場合を示している。また各カラムには表示可能な範囲でデータを表示している。
【0083】
なお、姿勢推定処理部23としては、テーブルmhformer_outputについて、読み込んだテーブルreid_outputまたはテーブルmoviecut_outputに各カラムを追加する場合に、カラム(annotation_auto)とカラム(annotation_TY)の代わりに、一つのカラム(annotaion)として追加してもよい。この場合、カラム(annotation)には2次元の姿勢特徴量が取得できたか否か、および関心があるか否かのフラグが追加される。初期値として任意の値、たとえば「0」が追加され、2次元の姿勢特徴量が取得できなかった場合には「-1」が追加され、後述のアノテーション作業で関心があることを示す場合には「1」が追加される。この場合のテーブルmhformer_outputの一例を図15に示す。
【0084】
姿勢推定処理部23における姿勢推定処理を実行すると、アノテーション処理部24におけるアノテーション処理を実行する(S130)。
【0085】
アノテーション処理部24は、テーブルmhformer_output、テーブルreid_outputまたはテーブルmoviecut_outputのいずれかにおけるカラムmovie_pathが示す動画像情報outputmovieファイルへのパスを参照して動画像情報outputmovieファイルを再生する。そして、所定の担当者がその動画像情報outputmovieファイルを目視し、カラムannotation_autoまたはannotationの値が「-1」(姿勢情報がないフレーム)以外のフレームの各矩形領域に写っている人物ごとに、関心度合いの情報として、「関心がある」ことを示す動作をしているか、「関心がある」ことを示す動作ではないかを、所定の担当者が判定し、「関心がある」ことを示す動作をしている場合には、テーブルmhformer_outputのカラムannotation_TYまたはannotationに「関心がある」ことを示すフラグ、たとえば「1」を入力し、またカラムcheck_flgに作業が終了したことを示すフラグ、たとえば「1」を入力する。一方、「関心がある」ことを示す動作をしていない場合には、テーブルmhformer_outputのカラムannotation_TYまたはannotationに「関心がある」動作をしていないことを示すフラグ、たとえば「0」を入力し、またカラムcheck_flgに作業が終了したことを示すフラグ、たとえば「1」を入力する。
【0086】
なお、上述では、関心度合いとして、「関心がある」ことを示す動作をしている、「関心がある」ことを示す動作をしていないの2択としたが、関心の強さをさらに複数の段階に分けて、それらの値を入力してもよい。
【0087】
以上のようにアノテーション処理をした場合のテーブルmhformer_outputの一例を図16に示す。図16では、フレーム番号(frame_number)が「32」の人物識別情報(person_ID)が「0」、「1」の矩形領域、フレーム番号が「33」の人物識別情報が「2」の矩形領域は、カラムannotation_autoの値が「-1」なのでアノテーション処理から除外され、それ以外の各フレームの矩形領域に写っている人物について、アノテーション処理がされている。また、フレーム番号が「33」の人物識別情報「0」、「1」、フレーム番号が「36」の人物識別情報「0」について関心度合いとして「関心がある」動作をしていないとして「関心なし」を示す「0」とされ、それ以外が「関心がある」動作をしているとして「関心あり」を示す「1」がカラムannotation_TYに入力されている場合である。
【0088】
また、テーブルmhformer_outputのカラムとしてannotationの場合には、図17に示すように入力されている。
【0089】
以上のような処理によってアノテーション処理を実行することができる。上述では、担当者が目視で関心度合いを判定し入力する場合を説明したが、アノテーションの処理対象とする画像情報について自動的に関心度合いを判定してアノテーション処理を行うようにしてもよい。
【0090】
アノテーション処理が終了した後、学習処理部25における学習処理を実行する(S140)。
【0091】
学習処理部25における学習処理は、より具体的には、図6に示すフローチャートなどの処理で実行できる。なお、図6の処理は一例であって、機械学習により学習モデルを生成することができる処理であればこれに限定するものではない。
【0092】
テーブルmhformer_outputの行ごと(フレームおよび矩形領域の人物ごと)のデータについて、任意の方法により、学習用、テスト用、検証用に分類する(S500)。学習用、テスト用、検証用に分類する方法は任意の方法を採ることができるが、たとえばoutputmovieファイルごとにそれぞれ分類するとよい。
【0093】
そして学習用、テスト用、検証用に分類した各行のデータの全部または一部のデータについて、データセットにそれぞれ変換をする(S510)。なお、データセットには各行のカラムのデータのうち、少なくとも3次元の姿勢特徴量、関心度合いを含む。またこれらは1フレームごとに1つのデータ群とし、そのデータ群を含むデータセットとして構成してもよいが、少なくとも2フレーム以上、たとえば直前3フレームと処理対象とする1フレームの合計4フレームの3次元の姿勢特徴量と、処理対象とするフレームの関心度合いとを一つのデータ群とし、複数のデータ群を含むデータセットとする。
【0094】
すなわち、学習処理部25は、あるフレームtについて処理対象とする場合、所定数だけ前のフレーム(t-k)のフレームから、フレームtまでの各フレームにおける当該人物の3次元の姿勢特徴量の各データと、フレームtにおける関心度合いのデータとを、処理対象とするフレームtにおける一つのデータ群とし、このデータ群をまとめたデータセットをひとまとまりの学習処理の対象とする。このように、人物識別情報ごとに時系列を考慮して関心推定の学習モデルを生成することができる。
【0095】
また学習処理部25としては、学習対象とするデータについて、3次元の姿勢特徴量、関心度合いのみならず、さらに当該人物が写っている矩形領域の座標情報を含めてもよい。これによって、当該人物がいる場所も考慮して関心推定の学習モデルを生成することができる。学習処理部25における学習処理を模式的に示すのが図18である。
【0096】
テーブルmhformer_outputの場合、カラムframe_numberのフレームおよびカラムperson_IDの人物識別情報ごとに、処理対象とするframe_numberから所定数だけ前のframe_numberにおける、それぞれの、カラムposeに含まれる3次元の姿勢特徴量のデータ(たとえば51個のデータ)、カラムannotation_TYまたはannotationに含まれる関心度合いのデータを抽出し、一つのデータ群とする。また、当該人物が写っている矩形領域の座標情報もデータセットに含める場合には、カラムbounding_boxのデータまたはカラムposeに含まれる矩形領域の座標情報のデータ(たとえば4個のデータ)もデータ群に含める。
【0097】
以上のような処理を実行することで、学習処理部25は、時系列を考慮した関心推定の学習モデル(関心推定モデル)を生成する(S520)。そして生成した関心推定モデルを記憶部21などの所定の記憶領域に記憶させる(S150)。なお、テスト用のデータセット、検証用のデータセットは、関心推定モデルを生成するにあたり、公知の機械学習と同様に用いればよい。
【0098】
つぎに学習処理をした後の関心推定モデルを用いて関心推定処理を行う場合の処理プロセスの一例を図7のフローチャートを用いて説明する。また関心推定処理を行う場合の処理を図19に模式的に示す。
【0099】
関心推定モデルを用いて関心推定処理を行う場合の処理対象となる画像情報(処理対象画像情報)として、防犯カメラなどの撮像装置3で撮像した画像情報の入力を、画像情報受付処理部20で受け付け、記憶部21に記憶させる(S600)。
【0100】
そして検出処理部22は、当該処理対象画像情報について、図4のフローチャートと同様に、各フレームに写っている人物をM2Detなどの人物検出モデルを用いて検出し、また、個別識別モデルTransReIDなどの個別識別モデルを用いて個別識別を行う(S610)。検出処理部22は、検出した人物を含む矩形領域の座標情報、人物識別情報を出力する。
【0101】
つぎに、姿勢推定処理部23は、検出処理部22で検出した人物(矩形領域に写っている人物)の3次元の姿勢特徴量を推定する姿勢推定処理を、図5のフローチャートと同様に、実行する(S620)。
【0102】
まず、姿勢推定処理部23は、検出処理部22で検出した矩形領域の座標情報に基づいて、その領域内の画像情報に対して、OpenPose、HRNet、ST-GCNなどの姿勢推定プログラムを用いて2次元の姿勢特徴量を推定する。そしてその2次元の姿勢特徴量からMHFormerなどの3次元姿勢推定プログラムを用いて、3次元の姿勢特徴量を推定する。推定した3次元の姿勢特徴量は一時的に記憶しておく。
【0103】
そして関心推定処理部26は、処理対象とするフレームtから所定数だけ前のフレームt-kまでの各フレームでの同一人物の3次元の姿勢特徴量を入力値として関心推定モデルに入力を行う(S620)。なお、この際には、当該人物が写っているフレームおよび2次元の姿勢特徴量が推定できたフレームのみを対象とするとよい。
【0104】
たとえば処理対象とするフレームtから3つだけ前のフレームt-3における各フレームでの同一人物の3次元の姿勢特徴量を入力値として関心推定モデルに入力すると、所定の演算が実行され、関心推定確率が出力される(S640)。この関心推定確率が閾値より大きい場合には、関心ありと判定し、関心推定確率が閾値以下の場合には関心なしと判定する。たとえば、図20および図21に示すように、関心推定処理部26は、テーブルestimation_resultsにおけるカラムestimation_resultsに、関心ありの場合には「1」を、関心なしの場合には「0」を追加することで、フレームごと、人物ごとの関心推定確率に基づく関心推定を出力する。
【0105】
なお、学習処理部25において、検出処理部22で検出した人物を含む矩形領域の座標情報も教師データとして用いている場合には、処理対象とするフレームtから3つだけ前のフレームt-3における各フレームでの同一人物の矩形領域の座標情報と、3次元の姿勢特徴量を入力値として関心推定モデルに入力して関心推定確率を出力させてもよい。
【0106】
出力処理部27は、関心推定処理部26において、関心ありと判定した場合には、関心がある顧客の存在を店員に通知するなど、所定の出力処理を実行する。たとえば、処理対象の画像情報を撮像した撮像装置3の付近に、商品に関心がある顧客がいることの通知を店員が所持する可搬型通信端末(スマートフォンやタブレット型コンピュータなどの通信装置74)に通知する、などがある。
【0107】
また、出力処理部27は、上述のように関心ありの顧客がいることを店員に通知するほか、どの展示されている商品に関心があったかを出力してもよい。この場合、撮像画像情報における各商品が配置されている位置を示す座標情報があらかじめ記憶されている。そして、関心推定処理部26において、関心ありと判定した場合には、処理対象としたフレームにおける人物の矩形領域の座標情報を抽出し、抽出した矩形領域の座標情報と、商品が配置されている位置を示す座標情報とを比較して、矩形領域の座標情報を含む位置にある商品、またはその座標情報の近傍にある商品について、当該人物の関心があったと判定することができる。
【0108】
以上のような処理を実行することで、3次元の姿勢特徴量を用いて関心度合いを推定することができる。また、矩形領域の座標情報を用いた場合には、当該人物がいる場所も考慮して関心度合いを推定することができる。
【実施例0109】
実施例1では3次元の姿勢特徴量を用いて関心度合いを推定する場合を説明したが、2次元の姿勢特徴量と矩形領域の座標情報を用いて関心推定処理を実行してもよい。この場合、姿勢推定処理部23における姿勢推定処理、学習処理部25における学習処理、関心推定処理部26における関心推定処理などの各処理部において、3次元の姿勢推定処理や姿勢特徴量を用いた処理は不要である。そして、3次元の姿勢特徴量の代わりに、姿勢推定処理部23で推定した2次元の姿勢特徴量を用いて、2次元の姿勢特徴量を用いて学習処理、関心推定処理を実行する。
【0110】
上述の各実施例における各処理については、本発明の明細書に記載した順序に限定するものではなく、その目的を達成する限度において、適宜、変更することが可能である。また、実施例1および実施例2では各テーブルを用いて処理を実行しているが、テーブルに限定するものではなく、各データが対応づけて処理可能であれば如何なるデータ保持形態であってもよい。たとえばリレーショナルデータベースであってもよい。
【産業上の利用可能性】
【0111】
本発明の情報処理システム1を用いることによって、商品が展示されている実店舗であっても、そこに来店した顧客の商品への関心を、精度よく推定することができる。
【符号の説明】
【0112】
1:情報処理システム
2:管理端末
3:撮像装置
20:画像情報受付処理部
21:記憶部
22:検出処理部
23:姿勢推定処理部
24:アノテーション処理部
25:学習処理部
26:関心推定処理部
27:出力処理部
70:演算装置
71:記憶装置
72:表示装置
73:入力装置
74:通信装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21