特開2024-85202 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-85202情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024085202

(43)【公開日】2024-06-26

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20240619BHJP

G06Q 30/015 20230101ALI20240619BHJP

【ＦＩ】

G06T7/00 350B

G06Q30/015

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022199604

(22)【出願日】2022-12-14

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】木幡駿

【テーマコード（参考）】

5L030

5L049

5L096

【Ｆターム（参考）】

5L030BB05

5L030BB44

5L049BB05

5L049BB44

5L096BA02

5L096CA04

5L096CA05

5L096DA02

5L096EA35

5L096FA69

5L096HA11

5L096JA16

5L096KA04

(57)【要約】

【課題】顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を提供すること。
【解決手段】情報処理装置は、映像を取得する。情報処理装置は、取得した映像を分析することで、映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、第一の物体および第二の物体の相互作用を識別した関係性とを特定する。情報処理装置は、特定された関係性に基づいて、複数のモデルの中から、第一の物体または第二の物体に関連するモデルを選択し、選択されたモデルを出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【請求項2】

映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項4】

前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項5】

映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする請求項４に記載の情報処理プログラム。

【請求項6】

前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたＨＯＩＤ（Human Object Interaction Detection）用のモデルであることを特徴とする請求項１に記載の情報処理プログラム。

【請求項7】

映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータが実行することを特徴とする情報処理方法。

【請求項8】

映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理を実行する制御部を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム等に関する。

【背景技術】

【0002】

販売店では、より多くの商品を販売するために、様々な工夫を行っている。たとえば、会計機等に、予め設定しておいた商品の情報を表示したり、販売スタッフが、顧客に対して接客したりしている。販売スタッフは、顧客がある商品に対して興味を示している場合、適切な接客を行うことができれば、顧客の購買意欲を高めることができる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－１６５４８３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記のように、単に商品の情報を表示するだけでは、顧客の購買意欲を高めることができない場合が多い。また、販売スタッフは、ノウハウや他の販売スタッフのアドバイスを基にして、顧客に対して接客を行っているものの、販売スタッフ自身のスキルに依存する部分が大きいため、各販売スタッフが顧客に対して適切な接客を行えていないのが現状である。

【0005】

このため、商品の情報や、販売スタッフの接客を補助するような情報等を、顧客と商品との関係性に応じて提供することが求められている。

【0006】

たとえば、顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を、販売スタッフや、顧客に提示することが望ましい。

【0007】

１つの側面では、本発明は、顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を提供することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、映像を取得する。コンピュータは、取得した映像を分析することで、映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、第一の物体および第二の物体の相互作用を識別した関係性とを特定する。コンピュータは、特定された関係性に基づいて、複数のモデルの中から、第一の物体または第二の物体に関連するモデルを選択し、選択されたモデルを出力する。

【発明の効果】

【0009】

顧客に相当する第一の物体と、商品に相当する第二の物体との関係性に応じた情報を提供することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、本実施例１に係るシステムの一例を示す図である。

【図2】図２は、本実施例１に係る情報処理装置の処理を説明するための図（１）である。

【図3】図３は、本実施例１に係る情報処理装置の処理を説明するための図（２）である。

【図4】図４は、ＨＯＩＤの機械学習を説明する図である。

【図5】図５は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。

【図6】図６は、本実施例１に係るモデルテーブルのデータ構造の一例を示す図である。

【図7】図７は、本実施例１に係る表示装置管理テーブルのデータ構造の一例を示す図である。

【図8】図８は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。

【図9】図９は、本実施例２に係るシステムの一例を示す図である。

【図10】図１０は、本実施例２に係る情報処理装置の処理を説明するための図（１）である。

【図11】図１１は、本実施例２に係る情報処理装置の処理を説明するための図（２）である。

【図12】図１２は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。

【図13】図１３は、本実施例２に係るモデルテーブルのデータ構造の一例を示す図である。

【図14】図１４は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。

【図15】図１５は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0011】

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例0012】

図１は、本実施例１に係るシステムの一例を示す図である。図１に示すように、このシステムは、カメラ１０ａ，１０ｂ，１０ｃと、表示装置１５ａ，１５ｂ，１５ｃと、情報処理装置１００とを有する。カメラ１０ａ～１０ｃと、情報処理装置１００とは、ネットワークを介して相互に接続される。また、表示装置１５ａ～１５ｃと、情報処理装置１００とは、ネットワークを介して相互に接続される。

【0013】

図１では説明の便宜上、カメラ１０ａ～１０ｃ、表示装置１５ａ～１５ｃのみを示すが、本実施例１に係るシステムは、他のカメラ、他の表示装置を有していてもよい。

【0014】

カメラ１０ａ～１０ｃは、店内の所定の位置に設置される。店内には、複数の商品が配置される。カメラ１０ａ～１０ｃが設置される位置（座標）を、それぞれ異なる位置とする。以下の説明では、カメラ１０ａ～１０ｃを特に区別しない場合「カメラ１０」と表記する。

【0015】

カメラ１０は、店内の映像を撮影し、撮影した映像のデータを、情報処理装置１００に送信する。以下の説明では、カメラ１０が情報処理装置１００に送信する映像のデータを、「映像データ」と表記する。

【0016】

映像データには、時系列の複数の画像フレームが含まれる。各画像フレームには、時系列の昇順に、フレーム番号が付与される。１つの画像フレームは、カメラ１０があるタイミングで撮影した静止画像である。各画像フレームには、時刻のデータが付与されていてもよい。映像データには、映像データを撮影したカメラ１０を識別するカメラ識別情報が設定される。

【0017】

表示装置１５ａ～１５ｃは、店内の所定の位置に設置され、たとえば、商品の周辺に設置される。表示装置１５ａ～１５ｃが設置される位置（座標）を、それぞれ異なる位置とする。以下の説明では、表示装置１５ａ～１５ｃを特に区別しない場合「表示装置１５」と表記する。表示装置１５は、情報処理装置１００から出力された商品の情報等を表示する。

【0018】

情報処理装置１００は、カメラ１０から、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置１００は、特定した関係性に基づいて、記憶部に記憶された複数の機械学習モデルの中から、機械学習モデルを選択する。これによって、顧客および人物に関連する機械学習モデルを選択でき、かかる機械学習モデルを利用することで、顧客と人物との関係性に応じた情報を提供することができる。

【0019】

図２および図３は、本実施例１に係る情報処理装置の処理を説明するための図である。まず、図２について説明する。たとえば、情報処理装置１００は、カメラ１０が撮影した映像データ２０を分析することで、顧客を含む第一の領域２０ａと、商品を含む第二の領域２０ｂと、顧客および商品の関係性とを特定する。図２に示す例では、人物および商品の関係性を「把持している」とする。なお、第一の領域２０ａに含まれる商品の近くに表示装置１５が設置されている。

【0020】

なお、図２で説明した例では、第一の領域２０ａと、第二の領域２０ｂとの関係性を「把持している」として説明したが、関係性には「見ている」、「触っている」、「座る」等の他の関係性も含まれる。

【0021】

図３の説明に移行する。情報処理装置１００は、複数の機械学習モデルを有している。図３では、機械学習モデル３０ａ，３０ｂ，３０ｃを示す。たとえば、機械学習モデル３０ａは、関係性「見ている」専用の機械学習モデルである。機械学習モデル３０ｂは、関係性「触っている」専用の機械学習モデルである。機械学習モデル３０ｃは、関係性「把持している」専用の機械学習モデルである。機械学習モデル３０ａ～３０ｃは、ＮＮ（Neural Network）等である。

【0022】

機械学習モデル３０ａは、関係性「見ている」に対応した複数の第１訓練データによって事前に訓練されている。たとえば、第１訓練データの入力は、商品の画像データであり、出力（正解ラベル）は、商品情報である。第１訓練データの商品情報は、「商品の広告情報」等である。

【0023】

機械学習モデル３０ｂは、関係性「触っている」に対応した複数の第２訓練データによって事前に訓練されている。たとえば、第２訓練データの入力は、商品の画像データであり、出力（正解ラベル）は、商品情報である。第２訓練データの商品情報は、「商品の利点を説明する情報」、「商品の人気の具合を説明する情報」等である。

【0024】

機械学習モデル３０ｃは、関係性「把持している」に対応した複数の第３訓練データによって事前に訓練されている。たとえば、関係性「把持している」に応じた第３訓練データの入力は、商品の画像データであり、出力（正解ラベル）は、商品情報である。第３訓練データの商品情報は、「商品を購入すると得られる特典を説明する情報」等である。

【0025】

情報処理装置１００は、図２で説明した処理によって特定した関係性に対応する機械学習モデルを、機械学習モデル３０ａ～３０ｃから選択する。たとえば、情報処理装置１００は、特定した関係性が「把持している」である場合、図３の機械学習モデル３０ｃを選択する。

【0026】

情報処理装置１００は、選択した機械学習モデル３０ｃに、商品を含む第二の領域２０ｂの画像データを入力することで、第二の領域２０ｂに含まれる商品の商品情報を特定する。情報処理装置１００は、特定した商品情報を、第二の領域に含まれる商品の近くに配置された表示装置１５に出力して表示させ、顧客に商品情報を参照させる。顧客に参照させる商品情報は、顧客と商品との関係性に基づいた機械学習モデルから出力される情報であり、顧客の購買意欲を高めることができる。なお、商品情報は、第二の領域に含まれる商品に関する「関連情報」の一例である。

【0027】

ところで、情報処理装置１００は、ＨＯＩＤ（Human Object Interaction Detection）を用いて、顧客を含む第一の領域と、商品を含む第二の領域と、第一の領域および第二の領域の関係性を特定する。情報処理装置１００が、映像データ（時系列の画像フレーム）をＨＯＩＤに入力することで、第一の領域、第二の領域、関係性の情報が出力される。

【0028】

ここで、情報処理装置１００が実行するＨＯＩＤの学習処理の一例について説明する。情報処理装置１００は、複数の訓練データを用いて、人物を示す第１クラスと、物体を示す第２クラスと、第１クラスおよび第２クラスの関係性とを識別するＨＯＩＤを訓練する。

【0029】

各訓練データは、入力データとなる画像データ（画像フレーム）と、当該画像データに対して設定された正解情報とを有する。

【0030】

正解情報には、検出対象であるヒトとモノのクラスと、ヒトとモノの相互作用を示すクラスと、各クラスの領域を示すＢｂｏｘ（Bounding Box）とが設定される。たとえば、正解情報として、物体を示すSomethingクラスの領域情報、ユーザを示すヒトのクラスの領域情報、Somethingクラスとヒトのクラスとの相互作用を示す関係性とが設定される。

【0031】

なお、訓練データにも、訓練データにも複数のクラスと複数の相互作用を設定することができ、訓練済みのＨＯＩＤも複数のクラスと複数の相互作用とを認識することができる。

【0032】

一般的に、通常の物体認識でSomethingクラスを作ると、すべての背景、服装品、小物などタスクと関係ないものをすべて検出することになる。かつ、それらはすべてSomethingなので、画像データ内に大量のＢｂｏｘが認識されるだけで何も分からない。ＨＯＩＤの場合は、ヒトのモノに対する特殊な関係性（把持している、座っている、操作している、など他の関係の場合もある）であることが分かるので、意味のある情報としてタスクに利用することができる。

【0033】

図４は、ＨＯＩＤの機械学習を説明する図である。図４に示すように、情報処理装置１００は、訓練データの入力データをＨＯＩＤに入力し、ＨＯＩＤの出力結果を取得する。この出力結果には、ＨＯＩＤが検出したヒトのクラスと、モノのクラスと、ヒトとモノの相互作用などが含まれる。そして、情報処理装置１００は、訓練データの正解情報と、ＨＯＩＤの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりＨＯＩＤの機械学習を実行する。

【0034】

続いて、ＨＯＩＤを用いた識別処理の一例について説明する。情報処理装置１００は、カメラ１０が撮影した映像データの各画像フレームを、ＨＯＩＤに入力し、ＨＯＩＤの出力結果を取得する。ＨＯＩＤの出力結果には、ヒトのＢｂｏｘ、モノのＢｂｏｘ、ヒトとモノの相互作用の確率値（各関係性の確率値）およびクラス名などが含まれる。ヒトのＢｂｏｘは、上記の第一の領域に対応する。モノのＢｂｏｘは、上記の第二の領域に対応する。情報処理装置１００は、ＨＯＩＤの出力結果に基づき、関係性を特定する。たとえば、情報処理装置１００は、確率値が最大となる関係性を、第一の領域と第二の領域との関係性として特定する。

【0035】

上記のように、情報処理装置１００は、映像データを、ＨＯＩＤに入力することで、第一の領域、第二の領域、関係性を特定することができる。なお、情報処理装置１００は、機械学習済みのＨＯＩＤを予め記憶部に保持しておき、係るＨＯＩＤを用いて、第一の領域と、第二の領域と、関係性とを特定してもよい。

【0036】

次に、図２および図３に示した処理を実行する情報処理装置１００の構成例について説明する。図５は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図５に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

【0037】

通信部１１０は、ネットワークを介して、カメラ１０、表示装置１５、外部装置等との間でデータ通信を実行する。通信部１１０は、ＮＩＣ（Network Interface Card）等である。たとえば、通信部１１０は、カメラ１０から、映像データを受信する。

【0038】

入力部１２０は、情報処理装置１００の制御部１５０に各種の情報を入力する入力装置である。たとえば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0039】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。

【0040】

記憶部１４０は、ＨＯＩＤ１４１、映像バッファ１４２、モデルテーブル１４３、表示装置管理テーブル１４４を有する。記憶部１４０は、メモリなどの記憶装置である。

【0041】

ＨＯＩＤ１４１は、図４等で説明したＨＯＩＤである。ＨＯＩＤ１４１に、映像データの画像フレームを入力することで、画像フレーム上の第一の領域と、第二の領域と、第一の領域（第一の領域に含まれる物体）および第二の領域（第二の領域に含まれる物体）の関係性とが出力される。

【0042】

映像バッファ１４２は、カメラ１０が撮影した映像データを保持する。たとえば、映像バッファ１４２は、カメラ識別情報に対応付けて、映像データを保持する。

【0043】

モデルテーブル１４３は、図３で説明した、複数の機械学習モデル３０ａ～３０ｃに関する情報を保持する。図６は、本実施例１に係るモデルテーブルのデータ構造の一例を示す図である。図６に示すように、このモデルテーブル１４３は、モデル識別情報と、関係性と、機械学習モデルとを対応付ける。モデル識別情報は、機械学習モデルを一意に識別する情報である。関係性は、機械学習モデルに対応する関係性を示す。機械学習モデルは、画像データ（画像フレーム）を入力、商品情報を出力とするＮＮである。

【0044】

たとえば、モデル識別情報「Ｍ３０ａ」は、機械学習モデル３０ａを示す。機械学習モデル３０ａは、関係性「見ている」に対応した機械学習モデルである。モデル識別情報「Ｍ３０ｂ」は、機械学習モデル３０ｂを示す。機械学習モデル３０ｂは、関係性「触っている」に対応した機械学習モデルである。モデル識別情報「Ｍ３０ｃ」は、機械学習モデル３０ｃを示す。機械学習モデル３０ｃは、関係性「把持している」に対応した機械学習モデルである。

【0045】

表示装置管理テーブル１４４は、店内に配置された表示装置１５に関する情報を保持する。図７は、本実施例１に係る表示装置管理テーブルのデータ構造の一例を示す図である。図７に示すように、この表示装置管理テーブル１４４は、表示装置識別情報と、位置と、カメラ識別情報とを対応付ける。

【0046】

表示装置識別情報は、表示装置１５を一意に識別する情報である。たとえば、表示装置１５ａ，１５ｂ，１５ｃの表示装置識別情報を、それぞれ、Ａ１５ａ，Ａ１５ｂ，Ａ１５ｃとする。位置は、表示装置１５の位置（座標）を示す。カメラ識別情報は、表示装置１５に最も近いカメラ１０を識別する情報である。たとえば、カメラ識別情報Ｃ１０ａ，Ｃ１０ｂ，Ｃ１０ｃは、図１に示したカメラ１０ａ，１０ｂ，１０ｃに対応する。

【0047】

たとえば、図７において、表示装置識別情報「Ａ１５ａ」の表示装置１５ａが、位置「（ｘ_１，ｙ_１）」に設置されており、表示装置１５ａに最も近いカメラ１０は、カメラ識別情報「Ｃ１０ａ」のカメラ１０ａである旨の情報が登録されている。

【0048】

図５の説明に戻る。制御部１５０は、取得部１５１と、分析部１５２と、特定部１５３と、学習部１５４とを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等である。

【0049】

取得部１５１は、カメラ１０から映像データを取得する。上記のように、映像データには、映像データを撮影したカメラ１０のカメラ識別情報が設定されている。取得部１５１は、カメラ識別情報に対応付けて、映像データを映像バッファ１４２に格納する。

【0050】

分析部１５２は、映像バッファ１４２から映像データを取得し、映像データを分析することで、第一の領域と、第二の領域と、関係性とを特定する。係る関係性は、「第一の領域に含まれる第一の物体」、および、「第二の領域に含まれる第二の物体」との関係性である。たとえば、分析部１５２は、映像データに含まれる時系列の画像フレーム（画像データ）を、ＨＯＩＤ１４１に入力し、各画像フレーム上の第一の領域、第二の領域、関係性を特定する。

【0051】

分析部１５２は、上記処理を繰り返し実行することで、時系列の画像フレーム毎に、第一の領域、第二の領域、関係性を特定する。分析部１５２は、第一の領域、第二の領域、関係性を繰り返し特定する場合に、第一の領域に含まれる顧客と、第二の領域に含まれる商品とを追跡する。分析部１５２は、上記処理の分析結果の情報を生成し、特定部１５３に出力する。以下の説明では、分析結果の情報を「分析結果情報」と表記する。たとえば、分析結果情報には、追跡中の人物を含む第一の領域の画像データと、追跡中の商品を含む第二の領域の画像データと、関係性と、映像データ（画像フレーム）を撮影したカメラ１０のカメラ識別情報とが対応付けられる。

【0052】

特定部１５３は、分析結果情報に含まれる関係性を基にして、関係性に対応する機械学習モデルを、モデルテーブル１４３に登録された複数の機械学習モデルから選択する。特定部１５３は、選択した機械学習モデルに、分析結果情報に含まれる第二の領域の画像データを入力し、選択した機械学習モデルから出力される商品情報を取得する（商品情報を特定する）。

【0053】

たとえば、特定部１５３は、分析結果情報に含まれる関係性が「把持している」である場合には、モデルテーブル１４３から、「把持している」に対応する機械学習モデル３０ｃを選択する。特定部１５３は、選択した機械学習モデル３０ｃに、第二の領域の画像データを入力することで、商品情報を特定する。

【0054】

特定部１５３は、分析結果情報に含まれるカメラ識別情報と、表示装置管理テーブル１４４とを基にして、商品情報を表示させる表示装置識別情報を特定する。たとえば、特定部１５３は、分析結果情報に含まれるカメラ識別情報が「Ｃ１０ａ」である場合には、商品情報を表示させる表示装置識別情報「Ａ１５ａ（表示装置１５ａ）」を特定する。特定部１５３は、特定した表示装置１５ａに、商品情報を出力して表示させる。

【0055】

なお、特定部１５３は、画像フレーム上の第二の領域（顧客）の座標と、カメラ識別情報に対応するカメラ１０のカメラパラメータから、顧客の位置を算出し、算出した位置と、表示装置管理テーブル１４４の各距離とを比較してもよい。特定部１５３は、算出した位置との距離が最短となる表示装置識別情報を特定し、特定した表示装置識別情報に対応する表示装置１５に、商品情報を出力して表示させる。

【0056】

学習部１５４は、複数の訓練データを基にして、ＨＯＩＤ１４１の機械学習を実行する。学習部１５４は、複数の訓練データを予め取得しておく。学習部１５４は、訓練データをＨＯＩＤ１４１に入力し、訓練データの正解情報と、ＨＯＩＤ１４１の出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりＨＯＩＤ１４１の機械学習を実行する。その他の機械学習に関する説明は、図４で説明した内容と同様である。

【0057】

また、学習部１５４は、モデルテーブル１４３に含まれる機械学習モデル３０ａ，３０ｂ，３０ｃの機械学習を実行してもよい。

【0058】

学習部１５４は、複数の第１訓練データを基にして、機械学習モデル３０ａを訓練する。学習部１５４は、第１訓練データを入力し、第１訓練データの正解ラベルと、機械学習モデル３０ａの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により機械学習モデル３０ａの機械学習を実行する。

【0059】

学習部１５４は、複数の第２訓練データを基にして、機械学習モデル３０ｂを訓練する。学習部１５４は、第２訓練データを入力し、第２訓練データの正解ラベルと、機械学習モデル３０ｂの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により機械学習モデル３０ｂの機械学習を実行する。

【0060】

学習部１５４は、複数の第３訓練データを基にして、機械学習モデル３０ｃを訓練する。学習部１５４は、第３訓練データを入力し、第３訓練データの正解ラベルと、機械学習モデル３０ｂの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により機械学習モデル３０ｃの機械学習を実行する。

【0061】

次に、本実施例１に係る情報処理装置１００の処理手順について説明する。図８は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。図８に示すように、情報処理装置１００の取得部１５１は、カメラ１０から映像データを取得し、映像バッファ１４２に格納する（ステップＳ１０１）。

【0062】

情報処理装置１００の分析部１５２は、映像データの各画像フレームをＨＯＩＤ１４１に入力し、画像フレーム毎に、第一の領域と、第二の領域と、第一の領域および第二の領域の関係性と特定する（ステップＳ１０２）。

【0063】

情報処理装置１００の特定部１５３は、特定された関係性を基にして、モデルテーブル１４３から、機械学習モデルを選択する（ステップＳ１０３）。特定部１５３は、選択した機械学習モデルに、第二の領域の画像データを入力することで、商品情報を特定する（ステップＳ１０４）。

【0064】

特定部１５３は、表示装置管理テーブル１４４を基にして、表示装置１５を特定する（ステップＳ１０５）。特定部１５３は、商品情報を表示装置に表示させる（ステップＳ１０６）。

【0065】

次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置１００は、特定した関係性に基づいて、記憶部１４０に記憶された複数の機械学習モデルの中から、機械学習モデルを選択する。これによって、顧客および人物に関連する機械学習モデルを選択でき、かかる機械学習モデルを利用することで、顧客と人物との関係性に応じた情報を提供することができる。

【0066】

情報処理装置１００は、選択した機械学習モデルに、第二の領域の画像データを入力することで、商品情報を特定し、特定した商品情報を、表示装置１５に出力して表示される。商品情報は、顧客と商品との関係性に基づいた機械学習モデルから出力される情報であり、かかる商品情報を顧客に見せることで、顧客の購買意欲を高めることができる。

【0067】

ところで、本実施例１に係る情報処理装置１００は、表示装置１５に商品情報を表示させていたが、これに限定されるものではなく、顧客が利用する端末装置に、商品情報を表示させてもよい。顧客が利用する端末装置は、会計機、デジタルサイネージ、スマートカード等である。

【0068】

たとえば、情報処理装置１００の分析部１５２は、時系列の画像フレーム毎に上記の処理を行う際に、第一の領域に含まれる顧客の追跡（トラッキング）を行う。分析部１５２は、映像データを撮影したカメラ１０のカメラパラメータと、画像フレーム上の第一の領域の座標とを基にして、店内における顧客の位置を特定する。分析部１５２は、特定した店内のおける顧客の位置を基にして、顧客が利用する端末装置を特定し、特定した端末装置に対して、商品情報を出力して表示させる。これによって、情報処理装置１００は、効率的に、顧客に商品情報を見せることができる。

【実施例0069】

図９は、本実施例２に係るシステムの一例を示す図である。図９に示すように、このシステムは、カメラ１０ａ，１０ｂ，１０ｃと、販売スタッフ２６が保持する端末装置２５と、情報処理装置２００とを有する。カメラ１０ａ～１０ｃと、情報処理装置２００とは、ネットワークを介して相互に接続される。端末装置２５と、情報処理装置２００とは、ネットワーク（無線）を介して相互に接続される。

【0070】

図９では説明の便宜上、カメラ１０ａ～１０ｃ、端末装置２５のみを示すが、本実施例２に係るシステムは、他のカメラ、他の端末装置を有していてもよい。

【0071】

カメラ１０ａ～１０ｃは、店内の所定の位置に設置される。以下の説明では、カメラ１０ａ～１０ｃを特に区別しない場合「カメラ１０」と表記する。カメラ１０は、映像データを、情報処理装置２００に送信する。カメラ１０に関するその他の説明は、実施例１で説明した内容と同様である。

【0072】

端末装置２５は、販売スタッフ２６が保持する。端末装置２５は、情報処理装置２００から出力された接客を補助するための接客情報を表示する。

【0073】

情報処理装置２００は、カメラ１０から、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置２００は、特定した関係性に基づいて、記憶部に記憶された複数の接客モデルの中から、接客モデルを選択する。これによって、顧客および人物に関連する接客モデルを選択でき、かかる接客モデルを利用することで、顧客と人物との関係性に応じた情報であって、接客を補助可能な情報（接客情報）を、販売スタッフ２６等に提供することができる。なお、接客情報は、第二の領域に含まれる商品に関連する「関連情報」の一例である。また、接客情報は、第一の領域に含まれる顧客に対する第二の領域に含まれる商品に関連する接客内容の情報である。

【0074】

図１０および図１１は、本実施例２に係る情報処理装置の処理を説明するための図である。まず、図１０について説明する。たとえば、情報処理装置２００は、カメラ１０が撮影した映像データ２０を分析することで、顧客を含む第一の領域２０ａと、商品を含む第二の領域２０ｂと、顧客および商品の関係性とを特定する。図１０に示す例では、人物および商品の関係性を「把持している」とする。商品の近くに、販売スタッフ２６が待機しているものとする。

【0075】

なお、図１０で説明した例では、第一の領域２０ａと、第二の領域２０ｂとの関係性を「把持している」として説明したが、関係性には「見ている」、「触っている」、「座る」等の他の関係性も含まれる。

【0076】

図１１の説明に移行する。情報処理装置２００は、複数の接客モデルを有している。図１１では、接客モデル４０ａ，４０ｂ，４０ｃを示す。たとえば、接客モデル４０ａは、関係性「見ている」専用の機械学習モデルである。接客モデル４０ｂは、関係性「触っている」専用の機械学習モデルである。接客モデル４０ｃは、関係性「把持している」専用の機械学習モデルである。接客モデル４０ａ～４０ｃは、ＮＮ等である。

【0077】

接客モデル４０ａは、関係性「見ている」に対応した複数の第４訓練データによって事前に訓練されている。たとえば、関係性「見ている」に応じた第４訓練データの入力は、商品の画像データであり、出力（正解ラベル）は、商品を見ている顧客に対して行う接客内容の情報（以下、接客情報）である。商品を見ている顧客への接客情報は、「色違いの商品を提示する」、「他の商品を勧める」等である。

【0078】

接客モデル４０ｂは、関係性「触っている」に対応した複数の第５訓練データによって事前に訓練されている。たとえば、関係性「触っている」に対応した第５訓練データの入力は、商品の画像データであり、出力（正解ラベル）は、商品を触っている顧客に対して行う接客情報である。商品を触っている顧客への接客情報は、「商品の利点を説明する」、「商品の人気の具合を説明する」等である。

【0079】

接客モデル４０ｃは、関係性「把持している」に対応した複数の第６訓練データによって事前に訓練されている。たとえば、関係性「把持している」に応じた第６訓練データの入力は、商品の画像データであり、出力（正解ラベル）は、商品を把持している顧客に対して行う接客情報である。商品を把持している顧客への接客情報は、「商品の性能を提示する」、「商品を購入する際のお得な期間を説明する」等である。

【0080】

情報処理装置２００は、図１０で説明した処理によって特定した関係性に対応する接客モデルを、接客モデル４０ａ～４０ｃから選択する。たとえば、情報処理装置２００は、特定した関係性が「把持している」である場合、接客モデル４０ｃを選択する。

【0081】

情報処理装置２００は、選択した接客モデル４０ｃに、商品を含む第二の領域の画像を入力することで、第二の領域に含まれる商品の接客情報を特定する。情報処理装置２００は、特定した接客情報を、販売スタッフ２６が利用する端末装置２５に出力して表示させる。販売スタッフ２６は、接客情報を参照することで、第一の領域に含まれる顧客により適切な接客を行うことができる。

【0082】

次に、図１０および図１１に示した処理を実行する情報処理装置２００の構成例について説明する。図１２は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。

【0083】

通信部２１０、入力部２２０、表示部２３０に関する説明は、図５で説明した通信部１１０、入力部１２０、表示部１３０に関する説明と同様である。

【0084】

記憶部２４０は、ＨＯＩＤ２４１、映像バッファ２４２、モデルテーブル２４３を有する。記憶部２４０は、メモリなどの記憶装置である。

【0085】

ＨＯＩＤ２４１、映像バッファ２４２に関する説明は、実施例１で説明したＨＯＩＤ１４１、映像バッファ１４２に関する説明と同様である。

【0086】

モデルテーブル２４３は、図１１で説明した、複数の接客モデル４０ａ～４０ｃに関する情報を保持する。図１３は、本実施例２に係るモデルテーブルのデータ構造の一例を示す図である。図１３に示すように、このモデルテーブル２４３は、モデル識別情報と、関係性と、接客モデルとを対応付ける。モデル識別情報は、機械学習モデルを一意に識別する情報である。関係性は、機械学習モデルに対応する関係性を示す。接客モデルは、画像データ（画像フレーム）を入力、接客情報を出力とするＮＮである。

【0087】

たとえば、モデル識別情報「Ｍ４０ａ」は、接客モデル４０ａを示す。接客モデル４０ａは、関係性「見ている」に対応した接客モデルである。モデル識別情報「Ｍ４０ｂ」は、接客モデル４０ｂを示す。接客モデル４０ｂは、関係性「触っている」に対応した接客モデルである。モデル識別情報「Ｍ４０ｃ」は、接客モデル４０ｃを示す。接客モデル４０ｃは、関係性「把持している」に対応した接客モデルである。

【0088】

図１２の説明に戻る。制御部２５０は、取得部２５１と、分析部２５２と、特定部２５３と、学習部２５４とを有する。制御部２５０は、ＣＰＵ、ＧＰＵ等である。

【0089】

取得部２５１は、カメラ１０から映像データを取得する。上記のように、映像データには、映像データを撮影したカメラ１０のカメラ識別情報が設定されている。取得部２５１は、カメラ識別情報に対応付けて、映像データを映像バッファ２４２に格納する。

【0090】

分析部２５２は、映像バッファ２４２から映像データを取得し、映像データを分析することで、第一の領域と、第二の領域と、関係性とを特定する。係る関係性は、「第一の領域に含まれる第一の物体」、および、「第二の領域に含まれる第二の物体」との関係性である。たとえば、分析部２５２は、映像データに含まれる時系列の画像フレーム（画像データ）を、ＨＯＩＤ２４１に入力し、各画像フレーム上の第一の領域、第二の領域、関係性を特定する。

【0091】

分析部２５２は、上記処理を繰り返し実行することで、時系列の画像フレーム毎に、第一の領域、第二の領域、関係性を特定する。分析部２５２は、第一の領域、第二の領域、関係性を繰り返し特定する場合に、第一の領域に含まれる顧客と、第二の領域に含まれる商品とを追跡する。分析部２５２は、上記処理の分析結果の情報を生成し、特定部２５３に出力する。以下の説明では、分析結果の情報を「分析結果情報」と表記する。たとえば、分析結果情報には、追跡中の人物を含む第一の領域の画像データと、追跡中の商品を含む第二の領域の画像データと、関係性とが対応付けられる。

【0092】

特定部２５３は、分析結果情報に含まれる関係性を基にして、関係性に対応する接客モデルを、モデルテーブル２４３に登録された複数の接客モデルから選択する。特定部２５３は、選択した接客モデルに、分析結果情報に含まれる第二の領域の画像データを入力し、選択した接客モデルから出力される接客情報を取得する（接客情報を特定する）。

【0093】

たとえば、特定部２５３は、分析結果情報に含まれる関係性が「把持している」である場合には、モデルテーブル２４３から、「把持している」に対応する接客モデル４０ｃを選択する。特定部２５３は、選択した接客モデル４０ｃに、第二の領域の画像データを入力することで、接客情報を特定する。

【0094】

特定部２５３は、販売スタッフ２６が保持する端末装置２５に、接客情報を出力して表示させる。

【0095】

学習部２５４は、複数の訓練データを基にして、ＨＯＩＤ２４１の機械学習を実行する。学習部２５４は、複数の訓練データを予め取得しておく。学習部２５４は、訓練データをＨＯＩＤ２４１に入力し、訓練データの正解情報と、ＨＯＩＤ２４１の出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播によりＨＯＩＤ２４１の機械学習を実行する。その他の機械学習に関する説明は、図４で説明した内容と同様である。

【0096】

また、学習部２５４は、モデルテーブル２４３に含まれる接客モデル４０ａ，４０ｂ，４０ｃの機械学習を実行してもよい。

【0097】

学習部２５４は、複数の第４訓練データを基にして、接客モデル４０ａを訓練する。学習部２５４は、第４訓練データを入力し、第４訓練データの正解ラベルと、接客モデル４０ａの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により接客モデル４０ａの機械学習を実行する。

【0098】

学習部２５４は、複数の第５訓練データを基にして、接客モデル４０ｂを訓練する。学習部２５４は、第５訓練データを入力し、第５訓練データの正解ラベルと、接客モデル４０ｂの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により接客モデル４０ｂの機械学習を実行する。

【0099】

学習部２５４は、複数の第６訓練データを基にして、接客モデル４０ｃを訓練する。学習部２５４は、第６訓練データを入力し、第６訓練データの正解ラベルと、接客モデル４０ｂの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により接客モデル４０ｃの機械学習を実行する。

【0100】

次に、本実施例２に係る情報処理装置２００の処理手順について説明する。図１４は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。図１４に示すように、情報処理装置２００の取得部２５１は、カメラ１０から映像データを取得し、映像バッファ２４２に格納する（ステップＳ２０１）。

【0101】

情報処理装置２００の分析部２５２は、映像データの各画像フレームをＨＯＩＤ２４１に入力し、画像フレーム毎に、第一の領域と、第二の領域と、第一の領域および第二の領域の関係性と特定する（ステップＳ２０２）。

【0102】

情報処理装置２００の特定部２５３は、特定された関係性を基にして、モデルテーブル２４３から、接客モデルを選択する（ステップＳ２０３）。特定部２５３は、選択した接客モデルに、第二の領域の画像データを入力することで、接客情報を特定する（ステップＳ２０４）。特定部２５３は、接客情報を端末装置に表示させる（ステップＳ２０５）。

【0103】

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、店内の映像データを取得し、取得した映像データを分析することで、店内の商品を購入する対象の顧客を含む第一の領域と、商品を含む第二の領域と、顧客および商品の相互作用を識別した関係性とを特定する。情報処理装置２００は、特定した関係性に基づいて、記憶部２４０に記憶された複数の接客モデルの中から、接客モデルを選択する。情報処理装置２００は、選択した接客モデルに、第二の領域の画像データを入力することで、接客情報を特定し、特定した接客情報を、端末装置２５に出力して表示される。接客情報は、顧客と商品との関係性に基づいた接客モデルから出力される情報であり、かかる接客情報を販売スタッフ２６に見せることで、販売スタッフ２６は、顧客の購買意欲を高めるような接客を行うことができる。

【0104】

次に、上述した情報処理装置１００，２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１５は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0105】

図１５に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

【0106】

ハードディスク装置３０７は、取得プログラム３０７ａ、分析プログラム３０７ｂ、特定プログラム３０７ｃ、学習プログラム３０７ｄを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｄを読み出してＲＡＭ３０６に展開する。

【0107】

取得プログラム３０７ａは、取得プロセス３０６ａとして機能する。分析プログラム３０７ｂは、分析プロセス３０６ｂとして機能する。特定プログラム３０７ｃは、特定プロセス３０６ｃとして機能する。学習プログラム３０７ｄは、学習プロセス３０６ｄとして機能する。

【0108】

取得プロセス３０６ａの処理は、取得部１５１，２５１の処理に対応する。分析プロセス３０６ｂの処理は、分析部１５２，２５２の処理に対応する。特定プロセス３０６ｃの処理は、特定部１５３，２５３の処理に対応する。学習プロセス３０６ｄの処理は、学習部１５４，２５４の処理に対応する。

【0109】

なお、各プログラム３０７ａ～３０７ｄについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｄを読み出して実行するようにしてもよい。

【0110】

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0111】

（付記１）映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【0112】

（付記２）映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更にコンピュータに実行させることを特徴とする付記１に記載の情報処理プログラム。

【0113】

（付記３）前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更にコンピュータに実行させることを特徴とする付記１に記載の情報処理プログラム。

【0114】

（付記４）前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする付記１に記載の情報処理プログラム。

【0115】

（付記５）映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更にコンピュータに実行させることを特徴とする付記４に記載の情報処理プログラム。

【0116】

（付記６）前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたＨＯＩＤ（Human Object Interaction Detection）用のモデルであることを特徴とする付記１に記載の情報処理プログラム。

【0117】

（付記７）映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理をコンピュータが実行することを特徴とする情報処理方法。

【0118】

（付記８）映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更にコンピュータが実行することを特徴とする付記７に記載の情報処理方法。

【0119】

（付記９）前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更にコンピュータが実行することを特徴とする付記７に記載の情報処理方法。

【0120】

（付記１０）前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更にコンピュータが実行することを特徴とする付記７に記載の情報処理方法。

【0121】

（付記１１）映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更にコンピュータが実行することを特徴とする付記１０に記載の情報処理方法。

【0122】

（付記１２）前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたＨＯＩＤ（Human Object Interaction Detection）用のモデルであることを特徴とする付記７に記載の情報処理方法。

【0123】

（付記１３）映像を取得し、
取得した前記映像を分析することで、前記映像の中から第一の物体を含む第一の領域と、第二の物体を含む第二の領域と、前記第一の物体および前記第二の物体の相互作用を識別した関係性とを特定し、
特定された前記関係性に基づいて、複数のモデルの中から、前記第一の物体または前記第二の物体に関連するモデルを選択し、
選択された前記モデルを出力する
処理を実行する制御部を有することを特徴とする情報処理装置。

【0124】

（付記１４）前記制御部は、
映像を分析することで、前記第一の物体および前記第二の物体を追跡し、
特定された前記関係性に基づいて、複数の機械学習モデルの中から、前記第二の物体に適用する機械学習モデルを選択し、
追跡した前記第二の物体の画像を、選択された前記機械学習モデルに入力することで、前記第二の物体に関する関連情報を特定し、
特定された前記第二の物体に関する関連情報を、追跡した前記第二の物体と関連する表示装置に出力させる
処理を更に実行することを特徴とする付記１３に記載の情報処理装置。

【0125】

（付記１５）前記制御部は、
前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、接客内容が規定された複数の接客モデルとが対応付けられた記憶部を参照し、前記複数の接客モデルから、特定された前記関係性に対応する接客モデルを特定し、
特定された前記接客モデルに基づいて、前記第一の物体が示す人物に対する前記第二の物体が示す物体に関連する接客内容を特定し、
特定された接客内容を、店員が利用している端末に送信する
処理を更に実行することを特徴とする付記１３に記載の情報処理装置。

【0126】

（付記１６）前記制御部は、
前記第一の物体が人物であり、
前記第二の物体が商品であり、
特定された前記関係性と、商品情報が学習された複数の機械学習モデルとが対応付けられた記憶部を参照し、前記複数の機械学習モデルから、特定された前記関係性に対応する機械学習モデルを特定し、
特定された前記第二の物体が示す商品の画像を、特定された前記機械学習モデルに入力することで、商品情報を特定し、
前記第一の物体が示す人物が利用している端末に、特定された前記商品情報を表示させる
処理を更に実行することを特徴とする付記１３に記載の情報処理装置。

【0127】

（付記１７）前記制御部は、
映像を分析することで、店内での人物の位置を追跡し、
追跡された店内での人物の位置に基づいて、人物が利用している端末を特定し、
特定された端末に、特定された前記商品情報を表示させる
処理を更に実行することを特徴とする付記１６に記載の情報処理装置。

【0128】

（付記１８）前記関係性を特定する処理は、前記映像を所定のモデルに入力することで、前記第一の領域と、前記第二の領域と、前記関係性とを特定し、
前記所定のモデルは、商品を購入する人物を示す第一クラスおよび前記人物が出現する領域を示す第一領域情報と、商品を含む物体を示す第二クラスおよび前記物体が出現する領域を示す第二領域情報と、前記第一クラスおよび前記第二クラスの相互作用とを識別するように機械学習が実行されたＨＯＩＤ（Human Object Interaction Detection）用のモデルであることを特徴とする付記１３に記載の情報処理装置。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版