▶ 富士通株式会社の特許一覧
特開2024-85202情報処理プログラム、情報処理方法および情報処理装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024085202
(43)【公開日】2024-06-26
(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240619BHJP
G06Q 30/015 20230101ALI20240619BHJP
【FI】
G06T7/00 350B
G06Q30/015
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022199604
(22)【出願日】2022-12-14
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】木幡 駿
【テーマコード(参考)】
5L030
5L049
5L096
【Fターム(参考)】
5L030BB05
5L030BB44
5L049BB05
5L049BB44
5L096BA02
5L096CA04
5L096CA05
5L096DA02
5L096EA35
5L096FA69
5L096HA11
5L096JA16
5L096KA04
(57)【要約】
【課題】顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を提供すること。
【解決手段】情報処理装置は、映像を取得する。情報処理装置は、取得した映像を分析することで、映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、第一の物体および第二の物体の相互作用を識別した関係性とを特定する。情報処理装置は、特定された関係性に基づいて、複数のモデルの中から、第一の物体または第二の物体に関連するモデルを選択し、選択されたモデルを出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項2】
映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする請求項4に記載の情報処理プログラム。
【請求項6】
前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたHOID(Human Object Interaction Detection)用のモデルであることを特徴とする請求項1に記載の情報処理プログラム。
【請求項7】
映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項8】
映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理を実行する制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム等に関する。
【背景技術】
【0002】
販売店では、より多くの商品を販売するために、様々な工夫を行っている。たとえば、会計機等に、予め設定しておいた商品の情報を表示したり、販売スタッフが、顧客に対して接客したりしている。販売スタッフは、顧客がある商品に対して興味を示している場合、適切な接客を行うことができれば、顧客の購買意欲を高めることができる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のように、単に商品の情報を表示するだけでは、顧客の購買意欲を高めることができない場合が多い。また、販売スタッフは、ノウハウや他の販売スタッフのアドバイスを基にして、顧客に対して接客を行っているものの、販売スタッフ自身のスキルに依存する部分が大きいため、各販売スタッフが顧客に対して適切な接客を行えていないのが現状である。
【0005】
このため、商品の情報や、販売スタッフの接客を補助するような情報等を、顧客と商品との関係性に応じて提供することが求められている。
【0006】
たとえば、顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を、販売スタッフや、顧客に提示することが望ましい。
【0007】
1つの側面では、本発明は、顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を提供することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、映像を取得する。コンピュータは、取得した映像を分析することで、映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、第一の物体および第二の物体の相互作用を識別した関係性とを特定する。コンピュータは、特定された関係性に基づいて、複数のモデルの中から、第一の物体または第二の物体に関連するモデルを選択し、選択されたモデルを出力する。
【発明の効果】
【0009】
顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本実施例1に係るシステムの一例を示す図である。
【
図2】
図2は、本実施例1に係る情報処理装置の処理を説明するための図(1)である。
【
図3】
図3は、本実施例1に係る情報処理装置の処理を説明するための図(2)である。
【
図4】
図4は、HOIDの機械学習を説明する図である。
【
図5】
図5は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。
【
図6】
図6は、本実施例1に係るモデルテーブルのデータ構造の一例を示す図である。
【
図7】
図7は、本実施例1に係る表示装置管理テーブルのデータ構造の一例を示す図である。
【
図8】
図8は、本実施例1に係る情報処理装置の処理手順を示すフローチャートである。
【
図9】
図9は、本実施例2に係るシステムの一例を示す図である。
【
図10】
図10は、本実施例2に係る情報処理装置の処理を説明するための図(1)である。
【
図11】
図11は、本実施例2に係る情報処理装置の処理を説明するための図(2)である。
【
図12】
図12は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。
【
図13】
図13は、本実施例2に係るモデルテーブルのデータ構造の一例を示す図である。
【
図14】
図14は、本実施例2に係る情報処理装置の処理手順を示すフローチャートである。
【
図15】
図15は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0011】
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例0012】
図1は、本実施例1に係るシステムの一例を示す図である。
図1に示すように、このシステムは、カメラ10a,10b,10cと、表示装置15a,15b,15cと、情報処理装置100とを有する。カメラ10a~10cと、情報処理装置100とは、ネットワークを介して相互に接続される。また、表示装置15a~15cと、情報処理装置100とは、ネットワークを介して相互に接続される。
【0013】
図1では説明の便宜上、カメラ10a~10c、表示装置15a~15cのみを示すが、本実施例1に係るシステムは、他のカメラ、他の表示装置を有していてもよい。
【0014】
カメラ10a~10cは、店内の所定の位置に設置される。店内には、複数の商品が配置される。カメラ10a~10cが設置される位置(座標)を、それぞれ異なる位置とする。以下の説明では、カメラ10a~10cを特に区別しない場合「カメラ10」と表記する。
【0015】
カメラ10は、店内の映像を撮影し、撮影した映像のデータを、情報処理装置100に送信する。以下の説明では、カメラ10が情報処理装置100に送信する映像のデータを、「映像データ」と表記する。
【0016】
映像データには、時系列の複数の画像フレームが含まれる。各画像フレームには、時系列の昇順に、フレーム番号が付与される。1つの画像フレームは、カメラ10があるタイミングで撮影した静止画像である。各画像フレームには、時刻のデータが付与されていてもよい。映像データには、映像データを撮影したカメラ10を識別するカメラ識別情報が設定される。
【0017】
表示装置15a~15cは、店内の所定の位置に設置され、たとえば、商品の周辺に設置される。表示装置15a~15cが設置される位置(座標)を、それぞれ異なる位置とする。以下の説明では、表示装置15a~15cを特に区別しない場合「表示装置15」と表記する。表示装置15は、情報処理装置100から出力された商品の情報等を表示する。
【0018】
情報処理装置100は、カメラ10から、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置100は、特定した関係性に基づいて、記憶部に記憶された複数の機械学習モデルの中から、機械学習モデルを選択する。これによって、顧客および人物に関連する機械学習モデルを選択でき、かかる機械学習モデルを利用することで、顧客と人物との関係性に応じた情報を提供することができる。
【0019】
図2および
図3は、本実施例1に係る情報処理装置の処理を説明するための図である。まず、
図2について説明する。たとえば、情報処理装置100は、カメラ10が撮影した映像データ20を分析することで、顧客を含む第一の領域20aと、商品を含む第二の領域20bと、顧客および商品の関係性とを特定する。
図2に示す例では、人物および商品の関係性を「把持している」とする。なお、第一の領域20aに含まれる商品の近くに表示装置15が設置されている。
【0020】
なお、
図2で説明した例では、第一の領域20aと、第二の領域20bとの関係性を「把持している」として説明したが、関係性には「見ている」、「触っている」、「座る」等の他の関係性も含まれる。
【0021】
図3の説明に移行する。情報処理装置100は、複数の機械学習モデルを有している。
図3では、機械学習モデル30a,30b,30cを示す。たとえば、機械学習モデル30aは、関係性「見ている」専用の機械学習モデルである。機械学習モデル30bは、関係性「触っている」専用の機械学習モデルである。機械学習モデル30cは、関係性「把持している」専用の機械学習モデルである。機械学習モデル30a~30cは、NN(Neural Network)等である。
【0022】
機械学習モデル30aは、関係性「見ている」に対応した複数の第1訓練データによって事前に訓練されている。たとえば、第1訓練データの入力は、商品の画像データであり、出力(正解ラベル)は、商品情報である。第1訓練データの商品情報は、「商品の広告情報」等である。
【0023】
機械学習モデル30bは、関係性「触っている」に対応した複数の第2訓練データによって事前に訓練されている。たとえば、第2訓練データの入力は、商品の画像データであり、出力(正解ラベル)は、商品情報である。第2訓練データの商品情報は、「商品の利点を説明する情報」、「商品の人気の具合を説明する情報」等である。
【0024】
機械学習モデル30cは、関係性「把持している」に対応した複数の第3訓練データによって事前に訓練されている。たとえば、関係性「把持している」に応じた第3訓練データの入力は、商品の画像データであり、出力(正解ラベル)は、商品情報である。第3訓練データの商品情報は、「商品を購入すると得られる特典を説明する情報」等である。
【0025】
情報処理装置100は、
図2で説明した処理によって特定した関係性に対応する機械学習モデルを、機械学習モデル30a~30cから選択する。たとえば、情報処理装置100は、特定した関係性が「把持している」である場合、
図3の機械学習モデル30cを選択する。
【0026】
情報処理装置100は、選択した機械学習モデル30cに、商品を含む第二の領域20bの画像データを入力することで、第二の領域20bに含まれる商品の商品情報を特定する。情報処理装置100は、特定した商品情報を、第二の領域に含まれる商品の近くに配置された表示装置15に出力して表示させ、顧客に商品情報を参照させる。顧客に参照させる商品情報は、顧客と商品との関係性に基づいた機械学習モデルから出力される情報であり、顧客の購買意欲を高めることができる。なお、商品情報は、第二の領域に含まれる商品に関する「関連情報」の一例である。
【0027】
ところで、情報処理装置100は、HOID(Human Object Interaction Detection)を用いて、顧客を含む第一の領域と、商品を含む第二の領域と、第一の領域および第二の領域の関係性を特定する。情報処理装置100が、映像データ(時系列の画像フレーム)をHOIDに入力することで、第一の領域、第二の領域、関係性の情報が出力される。
【0028】
ここで、情報処理装置100が実行するHOIDの学習処理の一例について説明する。情報処理装置100は、複数の訓練データを用いて、人物を示す第1クラスと、物体を示す第2クラスと、第1クラスおよび第2クラスの関係性とを識別するHOIDを訓練する。
【0029】
各訓練データは、入力データとなる画像データ(画像フレーム)と、当該画像データに対して設定された正解情報とを有する。
【0030】
正解情報には、検出対象であるヒトとモノのクラスと、ヒトとモノの相互作用を示すクラスと、各クラスの領域を示すBbox(Bounding Box)とが設定される。たとえば、正解情報として、物体を示すSomethingクラスの領域情報、ユーザを示すヒトのクラスの領域情報、Somethingクラスとヒトのクラスとの相互作用を示す関係性とが設定される。
【0031】
なお、訓練データにも、訓練データにも複数のクラスと複数の相互作用を設定することができ、訓練済みのHOIDも複数のクラスと複数の相互作用とを認識することができる。
【0032】
一般的に、通常の物体認識でSomethingクラスを作ると、すべての背景、服装品、小物などタスクと関係ないものをすべて検出することになる。かつ、それらはすべてSomethingなので、画像データ内に大量のBboxが認識されるだけで何も分からない。HOIDの場合は、ヒトのモノに対する特殊な関係性(把持している、座っている、操作している、など他の関係の場合もある)であることが分かるので、意味のある情報としてタスクに利用することができる。
【0033】
図4は、HOIDの機械学習を説明する図である。
図4に示すように、情報処理装置100は、訓練データの入力データをHOIDに入力し、HOIDの出力結果を取得する。この出力結果には、HOIDが検出したヒトのクラスと、モノのクラスと、ヒトとモノの相互作用などが含まれる。そして、情報処理装置100は、訓練データの正解情報と、HOIDの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりHOIDの機械学習を実行する。
【0034】
続いて、HOIDを用いた識別処理の一例について説明する。情報処理装置100は、カメラ10が撮影した映像データの各画像フレームを、HOIDに入力し、HOIDの出力結果を取得する。HOIDの出力結果には、ヒトのBbox、モノのBbox、ヒトとモノの相互作用の確率値(各関係性の確率値)およびクラス名などが含まれる。ヒトのBboxは、上記の第一の領域に対応する。モノのBboxは、上記の第二の領域に対応する。情報処理装置100は、HOIDの出力結果に基づき、関係性を特定する。たとえば、情報処理装置100は、確率値が最大となる関係性を、第一の領域と第二の領域との関係性として特定する。
【0035】
上記のように、情報処理装置100は、映像データを、HOIDに入力することで、第一の領域、第二の領域、関係性を特定することができる。なお、情報処理装置100は、機械学習済みのHOIDを予め記憶部に保持しておき、係るHOIDを用いて、第一の領域と、第二の領域と、関係性とを特定してもよい。
【0036】
次に、
図2および
図3に示した処理を実行する情報処理装置100の構成例について説明する。
図5は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。
図5に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
【0037】
通信部110は、ネットワークを介して、カメラ10、表示装置15、外部装置等との間でデータ通信を実行する。通信部110は、NIC(Network Interface Card)等である。たとえば、通信部110は、カメラ10から、映像データを受信する。
【0038】
入力部120は、情報処理装置100の制御部150に各種の情報を入力する入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0039】
表示部130は、制御部150から出力される情報を表示する表示装置である。
【0040】
記憶部140は、HOID141、映像バッファ142、モデルテーブル143、表示装置管理テーブル144を有する。記憶部140は、メモリなどの記憶装置である。
【0041】
HOID141は、
図4等で説明したHOIDである。HOID141に、映像データの画像フレームを入力することで、画像フレーム上の第一の領域と、第二の領域と、第一の領域(第一の領域に含まれる物体)および第二の領域(第二の領域に含まれる物体)の関係性とが出力される。
【0042】
映像バッファ142は、カメラ10が撮影した映像データを保持する。たとえば、映像バッファ142は、カメラ識別情報に対応付けて、映像データを保持する。
【0043】
モデルテーブル143は、
図3で説明した、複数の機械学習モデル30a~30cに関する情報を保持する。
図6は、本実施例1に係るモデルテーブルのデータ構造の一例を示す図である。
図6に示すように、このモデルテーブル143は、モデル識別情報と、関係性と、機械学習モデルとを対応付ける。モデル識別情報は、機械学習モデルを一意に識別する情報である。関係性は、機械学習モデルに対応する関係性を示す。機械学習モデルは、画像データ(画像フレーム)を入力、商品情報を出力とするNNである。
【0044】
たとえば、モデル識別情報「M30a」は、機械学習モデル30aを示す。機械学習モデル30aは、関係性「見ている」に対応した機械学習モデルである。モデル識別情報「M30b」は、機械学習モデル30bを示す。機械学習モデル30bは、関係性「触っている」に対応した機械学習モデルである。モデル識別情報「M30c」は、機械学習モデル30cを示す。機械学習モデル30cは、関係性「把持している」に対応した機械学習モデルである。
【0045】
表示装置管理テーブル144は、店内に配置された表示装置15に関する情報を保持する。
図7は、本実施例1に係る表示装置管理テーブルのデータ構造の一例を示す図である。
図7に示すように、この表示装置管理テーブル144は、表示装置識別情報と、位置と、カメラ識別情報とを対応付ける。
【0046】
表示装置識別情報は、表示装置15を一意に識別する情報である。たとえば、表示装置15a,15b,15cの表示装置識別情報を、それぞれ、A15a,A15b,A15cとする。位置は、表示装置15の位置(座標)を示す。カメラ識別情報は、表示装置15に最も近いカメラ10を識別する情報である。たとえば、カメラ識別情報C10a,C10b,C10cは、
図1に示したカメラ10a,10b,10cに対応する。
【0047】
たとえば、
図7において、表示装置識別情報「A15a」の表示装置15aが、位置「(x
1,y
1)」に設置されており、表示装置15aに最も近いカメラ10は、カメラ識別情報「C10a」のカメラ10aである旨の情報が登録されている。
【0048】
図5の説明に戻る。制御部150は、取得部151と、分析部152と、特定部153と、学習部154とを有する。制御部150は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等である。
【0049】
取得部151は、カメラ10から映像データを取得する。上記のように、映像データには、映像データを撮影したカメラ10のカメラ識別情報が設定されている。取得部151は、カメラ識別情報に対応付けて、映像データを映像バッファ142に格納する。
【0050】
分析部152は、映像バッファ142から映像データを取得し、映像データを分析することで、第一の領域と、第二の領域と、関係性とを特定する。係る関係性は、「第一の領域に含まれる第一の物体」、および、「第二の領域に含まれる第二の物体」との関係性である。たとえば、分析部152は、映像データに含まれる時系列の画像フレーム(画像データ)を、HOID141に入力し、各画像フレーム上の第一の領域、第二の領域、関係性を特定する。
【0051】
分析部152は、上記処理を繰り返し実行することで、時系列の画像フレーム毎に、第一の領域、第二の領域、関係性を特定する。分析部152は、第一の領域、第二の領域、関係性を繰り返し特定する場合に、第一の領域に含まれる顧客と、第二の領域に含まれる商品とを追跡する。分析部152は、上記処理の分析結果の情報を生成し、特定部153に出力する。以下の説明では、分析結果の情報を「分析結果情報」と表記する。たとえば、分析結果情報には、追跡中の人物を含む第一の領域の画像データと、追跡中の商品を含む第二の領域の画像データと、関係性と、映像データ(画像フレーム)を撮影したカメラ10のカメラ識別情報とが対応付けられる。
【0052】
特定部153は、分析結果情報に含まれる関係性を基にして、関係性に対応する機械学習モデルを、モデルテーブル143に登録された複数の機械学習モデルから選択する。特定部153は、選択した機械学習モデルに、分析結果情報に含まれる第二の領域の画像データを入力し、選択した機械学習モデルから出力される商品情報を取得する(商品情報を特定する)。
【0053】
たとえば、特定部153は、分析結果情報に含まれる関係性が「把持している」である場合には、モデルテーブル143から、「把持している」に対応する機械学習モデル30cを選択する。特定部153は、選択した機械学習モデル30cに、第二の領域の画像データを入力することで、商品情報を特定する。
【0054】
特定部153は、分析結果情報に含まれるカメラ識別情報と、表示装置管理テーブル144とを基にして、商品情報を表示させる表示装置識別情報を特定する。たとえば、特定部153は、分析結果情報に含まれるカメラ識別情報が「C10a」である場合には、商品情報を表示させる表示装置識別情報「A15a(表示装置15a)」を特定する。特定部153は、特定した表示装置15aに、商品情報を出力して表示させる。
【0055】
なお、特定部153は、画像フレーム上の第二の領域(顧客)の座標と、カメラ識別情報に対応するカメラ10のカメラパラメータから、顧客の位置を算出し、算出した位置と、表示装置管理テーブル144の各距離とを比較してもよい。特定部153は、算出した位置との距離が最短となる表示装置識別情報を特定し、特定した表示装置識別情報に対応する表示装置15に、商品情報を出力して表示させる。
【0056】
学習部154は、複数の訓練データを基にして、HOID141の機械学習を実行する。学習部154は、複数の訓練データを予め取得しておく。学習部154は、訓練データをHOID141に入力し、訓練データの正解情報と、HOID141の出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりHOID141の機械学習を実行する。その他の機械学習に関する説明は、
図4で説明した内容と同様である。
【0057】
また、学習部154は、モデルテーブル143に含まれる機械学習モデル30a,30b,30cの機械学習を実行してもよい。
【0058】
学習部154は、複数の第1訓練データを基にして、機械学習モデル30aを訓練する。学習部154は、第1訓練データを入力し、第1訓練データの正解ラベルと、機械学習モデル30aの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により機械学習モデル30aの機械学習を実行する。
【0059】
学習部154は、複数の第2訓練データを基にして、機械学習モデル30bを訓練する。学習部154は、第2訓練データを入力し、第2訓練データの正解ラベルと、機械学習モデル30bの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により機械学習モデル30bの機械学習を実行する。
【0060】
学習部154は、複数の第3訓練データを基にして、機械学習モデル30cを訓練する。学習部154は、第3訓練データを入力し、第3訓練データの正解ラベルと、機械学習モデル30bの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により機械学習モデル30cの機械学習を実行する。
【0061】
次に、本実施例1に係る情報処理装置100の処理手順について説明する。
図8は、本実施例1に係る情報処理装置の処理手順を示すフローチャートである。
図8に示すように、情報処理装置100の取得部151は、カメラ10から映像データを取得し、映像バッファ142に格納する(ステップS101)。
【0062】
情報処理装置100の分析部152は、映像データの各画像フレームをHOID141に入力し、画像フレーム毎に、第一の領域と、第二の領域と、第一の領域および第二の領域の関係性と特定する(ステップS102)。
【0063】
情報処理装置100の特定部153は、特定された関係性を基にして、モデルテーブル143から、機械学習モデルを選択する(ステップS103)。特定部153は、選択した機械学習モデルに、第二の領域の画像データを入力することで、商品情報を特定する(ステップS104)。
【0064】
特定部153は、表示装置管理テーブル144を基にして、表示装置15を特定する(ステップS105)。特定部153は、商品情報を表示装置に表示させる(ステップS106)。
【0065】
次に、本実施例1に係る情報処理装置100の効果について説明する。情報処理装置100は、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置100は、特定した関係性に基づいて、記憶部140に記憶された複数の機械学習モデルの中から、機械学習モデルを選択する。これによって、顧客および人物に関連する機械学習モデルを選択でき、かかる機械学習モデルを利用することで、顧客と人物との関係性に応じた情報を提供することができる。
【0066】
情報処理装置100は、選択した機械学習モデルに、第二の領域の画像データを入力することで、商品情報を特定し、特定した商品情報を、表示装置15に出力して表示される。商品情報は、顧客と商品との関係性に基づいた機械学習モデルから出力される情報であり、かかる商品情報を顧客に見せることで、顧客の購買意欲を高めることができる。
【0067】
ところで、本実施例1に係る情報処理装置100は、表示装置15に商品情報を表示させていたが、これに限定されるものではなく、顧客が利用する端末装置に、商品情報を表示させてもよい。顧客が利用する端末装置は、会計機、デジタルサイネージ、スマートカード等である。
【0068】
たとえば、情報処理装置100の分析部152は、時系列の画像フレーム毎に上記の処理を行う際に、第一の領域に含まれる顧客の追跡(トラッキング)を行う。分析部152は、映像データを撮影したカメラ10のカメラパラメータと、画像フレーム上の第一の領域の座標とを基にして、店内における顧客の位置を特定する。分析部152は、特定した店内のおける顧客の位置を基にして、顧客が利用する端末装置を特定し、特定した端末装置に対して、商品情報を出力して表示させる。これによって、情報処理装置100は、効率的に、顧客に商品情報を見せることができる。
【実施例0069】
図9は、本実施例2に係るシステムの一例を示す図である。
図9に示すように、このシステムは、カメラ10a,10b,10cと、販売スタッフ26が保持する端末装置25と、情報処理装置200とを有する。カメラ10a~10cと、情報処理装置200とは、ネットワークを介して相互に接続される。端末装置25と、情報処理装置200とは、ネットワーク(無線)を介して相互に接続される。
【0070】
図9では説明の便宜上、カメラ10a~10c、端末装置25のみを示すが、本実施例2に係るシステムは、他のカメラ、他の端末装置を有していてもよい。
【0071】
カメラ10a~10cは、店内の所定の位置に設置される。以下の説明では、カメラ10a~10cを特に区別しない場合「カメラ10」と表記する。カメラ10は、映像データを、情報処理装置200に送信する。カメラ10に関するその他の説明は、実施例1で説明した内容と同様である。
【0072】
端末装置25は、販売スタッフ26が保持する。端末装置25は、情報処理装置200から出力された接客を補助するための接客情報を表示する。
【0073】
情報処理装置200は、カメラ10から、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置200は、特定した関係性に基づいて、記憶部に記憶された複数の接客モデルの中から、接客モデルを選択する。これによって、顧客および人物に関連する接客モデルを選択でき、かかる接客モデルを利用することで、顧客と人物との関係性に応じた情報であって、接客を補助可能な情報(接客情報)を、販売スタッフ26等に提供することができる。なお、接客情報は、第二の領域に含まれる商品に関連する「関連情報」の一例である。また、接客情報は、第一の領域に含まれる顧客に対する第二の領域に含まれる商品に関連する接客内容の情報である。
【0074】
図10および
図11は、本実施例2に係る情報処理装置の処理を説明するための図である。まず、
図10について説明する。たとえば、情報処理装置200は、カメラ10が撮影した映像データ20を分析することで、顧客を含む第一の領域20aと、商品を含む第二の領域20bと、顧客および商品の関係性とを特定する。
図10に示す例では、人物および商品の関係性を「把持している」とする。商品の近くに、販売スタッフ26が待機しているものとする。
【0075】
なお、
図10で説明した例では、第一の領域20aと、第二の領域20bとの関係性を「把持している」として説明したが、関係性には「見ている」、「触っている」、「座る」等の他の関係性も含まれる。
【0076】
図11の説明に移行する。情報処理装置200は、複数の接客モデルを有している。
図11では、接客モデル40a,40b,40cを示す。たとえば、接客モデル40aは、関係性「見ている」専用の機械学習モデルである。接客モデル40bは、関係性「触っている」専用の機械学習モデルである。接客モデル40cは、関係性「把持している」専用の機械学習モデルである。接客モデル40a~40cは、NN等である。
【0077】
接客モデル40aは、関係性「見ている」に対応した複数の第4訓練データによって事前に訓練されている。たとえば、関係性「見ている」に応じた第4訓練データの入力は、商品の画像データであり、出力(正解ラベル)は、商品を見ている顧客に対して行う接客内容の情報(以下、接客情報)である。商品を見ている顧客への接客情報は、「色違いの商品を提示する」、「他の商品を勧める」等である。
【0078】
接客モデル40bは、関係性「触っている」に対応した複数の第5訓練データによって事前に訓練されている。たとえば、関係性「触っている」に対応した第5訓練データの入力は、商品の画像データであり、出力(正解ラベル)は、商品を触っている顧客に対して行う接客情報である。商品を触っている顧客への接客情報は、「商品の利点を説明する」、「商品の人気の具合を説明する」等である。
【0079】
接客モデル40cは、関係性「把持している」に対応した複数の第6訓練データによって事前に訓練されている。たとえば、関係性「把持している」に応じた第6訓練データの入力は、商品の画像データであり、出力(正解ラベル)は、商品を把持している顧客に対して行う接客情報である。商品を把持している顧客への接客情報は、「商品の性能を提示する」、「商品を購入する際のお得な期間を説明する」等である。
【0080】
情報処理装置200は、
図10で説明した処理によって特定した関係性に対応する接客モデルを、接客モデル40a~40cから選択する。たとえば、情報処理装置200は、特定した関係性が「把持している」である場合、接客モデル40cを選択する。
【0081】
情報処理装置200は、選択した接客モデル40cに、商品を含む第二の領域の画像を入力することで、第二の領域に含まれる商品の接客情報を特定する。情報処理装置200は、特定した接客情報を、販売スタッフ26が利用する端末装置25に出力して表示させる。販売スタッフ26は、接客情報を参照することで、第一の領域に含まれる顧客により適切な接客を行うことができる。
【0082】
次に、
図10および
図11に示した処理を実行する情報処理装置200の構成例について説明する。
図12は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。
【0083】
通信部210、入力部220、表示部230に関する説明は、
図5で説明した通信部110、入力部120、表示部130に関する説明と同様である。
【0084】
記憶部240は、HOID241、映像バッファ242、モデルテーブル243を有する。記憶部240は、メモリなどの記憶装置である。
【0085】
HOID241、映像バッファ242に関する説明は、実施例1で説明したHOID141、映像バッファ142に関する説明と同様である。
【0086】
モデルテーブル243は、
図11で説明した、複数の接客モデル40a~40cに関する情報を保持する。
図13は、本実施例2に係るモデルテーブルのデータ構造の一例を示す図である。
図13に示すように、このモデルテーブル243は、モデル識別情報と、関係性と、接客モデルとを対応付ける。モデル識別情報は、機械学習モデルを一意に識別する情報である。関係性は、機械学習モデルに対応する関係性を示す。接客モデルは、画像データ(画像フレーム)を入力、接客情報を出力とするNNである。
【0087】
たとえば、モデル識別情報「M40a」は、接客モデル40aを示す。接客モデル40aは、関係性「見ている」に対応した接客モデルである。モデル識別情報「M40b」は、接客モデル40bを示す。接客モデル40bは、関係性「触っている」に対応した接客モデルである。モデル識別情報「M40c」は、接客モデル40cを示す。接客モデル40cは、関係性「把持している」に対応した接客モデルである。
【0088】
図12の説明に戻る。制御部250は、取得部251と、分析部252と、特定部253と、学習部254とを有する。制御部250は、CPU、GPU等である。
【0089】
取得部251は、カメラ10から映像データを取得する。上記のように、映像データには、映像データを撮影したカメラ10のカメラ識別情報が設定されている。取得部251は、カメラ識別情報に対応付けて、映像データを映像バッファ242に格納する。
【0090】
分析部252は、映像バッファ242から映像データを取得し、映像データを分析することで、第一の領域と、第二の領域と、関係性とを特定する。係る関係性は、「第一の領域に含まれる第一の物体」、および、「第二の領域に含まれる第二の物体」との関係性である。たとえば、分析部252は、映像データに含まれる時系列の画像フレーム(画像データ)を、HOID241に入力し、各画像フレーム上の第一の領域、第二の領域、関係性を特定する。
【0091】
分析部252は、上記処理を繰り返し実行することで、時系列の画像フレーム毎に、第一の領域、第二の領域、関係性を特定する。分析部252は、第一の領域、第二の領域、関係性を繰り返し特定する場合に、第一の領域に含まれる顧客と、第二の領域に含まれる商品とを追跡する。分析部252は、上記処理の分析結果の情報を生成し、特定部253に出力する。以下の説明では、分析結果の情報を「分析結果情報」と表記する。たとえば、分析結果情報には、追跡中の人物を含む第一の領域の画像データと、追跡中の商品を含む第二の領域の画像データと、関係性とが対応付けられる。
【0092】
特定部253は、分析結果情報に含まれる関係性を基にして、関係性に対応する接客モデルを、モデルテーブル243に登録された複数の接客モデルから選択する。特定部253は、選択した接客モデルに、分析結果情報に含まれる第二の領域の画像データを入力し、選択した接客モデルから出力される接客情報を取得する(接客情報を特定する)。
【0093】
たとえば、特定部253は、分析結果情報に含まれる関係性が「把持している」である場合には、モデルテーブル243から、「把持している」に対応する接客モデル40cを選択する。特定部253は、選択した接客モデル40cに、第二の領域の画像データを入力することで、接客情報を特定する。
【0094】
特定部253は、販売スタッフ26が保持する端末装置25に、接客情報を出力して表示させる。
【0095】
学習部254は、複数の訓練データを基にして、HOID241の機械学習を実行する。学習部254は、複数の訓練データを予め取得しておく。学習部254は、訓練データをHOID241に入力し、訓練データの正解情報と、HOID241の出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりHOID241の機械学習を実行する。その他の機械学習に関する説明は、
図4で説明した内容と同様である。
【0096】
また、学習部254は、モデルテーブル243に含まれる接客モデル40a,40b,40cの機械学習を実行してもよい。
【0097】
学習部254は、複数の第4訓練データを基にして、接客モデル40aを訓練する。学習部254は、第4訓練データを入力し、第4訓練データの正解ラベルと、接客モデル40aの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により接客モデル40aの機械学習を実行する。
【0098】
学習部254は、複数の第5訓練データを基にして、接客モデル40bを訓練する。学習部254は、第5訓練データを入力し、第5訓練データの正解ラベルと、接客モデル40bの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により接客モデル40bの機械学習を実行する。
【0099】
学習部254は、複数の第6訓練データを基にして、接客モデル40cを訓練する。学習部254は、第6訓練データを入力し、第6訓練データの正解ラベルと、接客モデル40bの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により接客モデル40cの機械学習を実行する。
【0100】
次に、本実施例2に係る情報処理装置200の処理手順について説明する。
図14は、本実施例2に係る情報処理装置の処理手順を示すフローチャートである。
図14に示すように、情報処理装置200の取得部251は、カメラ10から映像データを取得し、映像バッファ242に格納する(ステップS201)。
【0101】
情報処理装置200の分析部252は、映像データの各画像フレームをHOID241に入力し、画像フレーム毎に、第一の領域と、第二の領域と、第一の領域および第二の領域の関係性と特定する(ステップS202)。
【0102】
情報処理装置200の特定部253は、特定された関係性を基にして、モデルテーブル243から、接客モデルを選択する(ステップS203)。特定部253は、選択した接客モデルに、第二の領域の画像データを入力することで、接客情報を特定する(ステップS204)。特定部253は、接客情報を端末装置に表示させる(ステップS205)。
【0103】
次に、本実施例2に係る情報処理装置200の効果について説明する。情報処理装置200は、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置200は、特定した関係性に基づいて、記憶部240に記憶された複数の接客モデルの中から、接客モデルを選択する。情報処理装置200は、選択した接客モデルに、第二の領域の画像データを入力することで、接客情報を特定し、特定した接客情報を、端末装置25に出力して表示される。接客情報は、顧客と商品との関係性に基づいた接客モデルから出力される情報であり、かかる接客情報を販売スタッフ26に見せることで、販売スタッフ26は、顧客の購買意欲を高めるような接客を行うことができる。
【0104】
次に、上述した情報処理装置100,200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。
図15は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0105】
図15に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
【0106】
ハードディスク装置307は、取得プログラム307a、分析プログラム307b、特定プログラム307c、学習プログラム307dを有する。また、CPU301は、各プログラム307a~307dを読み出してRAM306に展開する。
【0107】
取得プログラム307aは、取得プロセス306aとして機能する。分析プログラム307bは、分析プロセス306bとして機能する。特定プログラム307cは、特定プロセス306cとして機能する。学習プログラム307dは、学習プロセス306dとして機能する。
【0108】
取得プロセス306aの処理は、取得部151,251の処理に対応する。分析プロセス306bの処理は、分析部152,252の処理に対応する。特定プロセス306cの処理は、特定部153,253の処理に対応する。学習プロセス306dの処理は、学習部154,254の処理に対応する。
【0109】
なお、各プログラム307a~307dについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307dを読み出して実行するようにしてもよい。
【0110】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0111】
(付記1)映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【0112】
(付記2)映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更にコンピュータに実行させることを特徴とする付記1に記載の情報処理プログラム。
【0113】
(付記3)前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更にコンピュータに実行させることを特徴とする付記1に記載の情報処理プログラム。
【0114】
(付記4)前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする付記1に記載の情報処理プログラム。
【0115】
(付記5)映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする付記4に記載の情報処理プログラム。
【0116】
(付記6)前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたHOID(Human Object Interaction Detection)用のモデルであることを特徴とする付記1に記載の情報処理プログラム。
【0117】
(付記7)映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータが実行することを特徴とする情報処理方法。
【0118】
(付記8)映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更にコンピュータが実行することを特徴とする付記7に記載の情報処理方法。
【0119】
(付記9)前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更にコンピュータが実行することを特徴とする付記7に記載の情報処理方法。
【0120】
(付記10)前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更にコンピュータが実行することを特徴とする付記7に記載の情報処理方法。
【0121】
(付記11)映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更にコンピュータが実行することを特徴とする付記10に記載の情報処理方法。
【0122】
(付記12)前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたHOID(Human Object Interaction Detection)用のモデルであることを特徴とする付記7に記載の情報処理方法。
【0123】
(付記13)映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理を実行する制御部を有することを特徴とする情報処理装置。
【0124】
(付記14)前記制御部は、
映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更に実行することを特徴とする付記13に記載の情報処理装置。
【0125】
(付記15)前記制御部は、
前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更に実行することを特徴とする付記13に記載の情報処理装置。
【0126】
(付記16)前記制御部は、
前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更に実行することを特徴とする付記13に記載の情報処理装置。
【0127】
(付記17)前記制御部は、
映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更に実行することを特徴とする付記16に記載の情報処理装置。
【0128】
(付記18)前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたHOID(Human Object Interaction Detection)用のモデルであることを特徴とする付記13に記載の情報処理装置。