特開2022-190454 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2022-190454逆強化学習プログラム、逆強化学習方法、及び、情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022190454

(43)【公開日】2022-12-26

(54)【発明の名称】逆強化学習プログラム、逆強化学習方法、及び、情報処理装置

(51)【国際特許分類】

G06Q 30/02 20120101AFI20221219BHJP

G06Q 30/06 20120101ALI20221219BHJP

【ＦＩ】

G06Q30/02 300

G06Q30/06

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021098783

(22)【出願日】2021-06-14

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100092978

【弁理士】

【氏名又は名称】真田有

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】本間克己

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049BB02

5L049BB72

(57)【要約】

【課題】顧客が購入していない商品を含む複数の商品間の関係性を取得する。
【解決手段】コンピュータが、第１の商品を購入した複数の顧客の移動軌跡１１ｂを取得し、前記第１の商品を含む複数の商品のそれぞれと対応付けられた複数の位置が示す状態を含む報酬関数の前記第１の商品に対応付けられた第１の位置に対する第１のパラメータを固定した状態で、前記複数の顧客の移動軌跡に基づいた逆強化学習によって、前記報酬関数のパラメータ１１ｄを更新し、更新後の報酬関数に含まれる第２の商品に対応する第２の位置に対する第２のパラメータに基づいて、前記第１の商品と前記第２の商品との関係を示す情報１１ｅを出力する。
【選択図】図３

【特許請求の範囲】

【請求項1】

第１の商品を購入した複数の顧客の移動軌跡を取得し、
前記第１の商品を含む複数の商品のそれぞれと対応付けられた複数の位置が示す状態を含む報酬関数の前記第１の商品に対応付けられた第１の位置に対する第１のパラメータを固定した状態で、前記複数の顧客の移動軌跡に基づいた逆強化学習によって、前記報酬関数のパラメータを更新し、
更新後の報酬関数に含まれる第２の商品に対応する第２の位置に対する第２のパラメータに基づいて、前記第１の商品と前記第２の商品との関係を示す情報を出力する、
処理をコンピュータに実行させる、逆強化学習プログラム。

【請求項2】

前記更新する処理は、前記第１のパラメータを所定値以上の値に設定した状態で、前記複数の顧客の移動軌跡に基づいた前記逆強化学習によって、前記報酬関数のパラメータを更新する処理を含み、
前記出力する処理は、前記更新後の報酬関数に含まれる前記第２のパラメータと、所定の閾値との比較結果に基づいて、前記情報を出力する処理を含む、
請求項１に記載の逆強化学習プログラム。

【請求項3】

前記出力する処理は、前記更新後の報酬関数に含まれる前記第２のパラメータが前記所定の閾値以上である場合に、前記第１の商品と前記第２の商品とが購買の相関を有することを示す前記情報を出力する処理を含む、
請求項２に記載の逆強化学習プログラム。

【請求項4】

前記複数の顧客は、前記第１の商品を購入した顧客のうちの所定の属性を有する顧客である、
請求項１～請求項３のいずれか１項に記載の逆強化学習プログラム。

【請求項5】

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、逆強化学習プログラム、逆強化学習方法、及び、情報処理装置に関する。

【背景技術】

【0002】

顧客の購買行動の解析において、顧客が購入する商品の購買相関を解析することが知られている。購買相関とは、例えば、商品Ａが購入される際に商品Ｂも購入される傾向が高い、等の商品間の購入の関係性、例えば共起関係性、同時発生関係性を意味してよい。

【0003】

例えば、商品の購買相関が分かれば、店舗側は、相関の高い商品どうしを近くに配置して買い易くする、ＰＯＰ（Point of Purchase advertising）を用いて相関の高い商品の購買を誘発する、等の手法により、商品の売上向上を図ることができる。

【0004】

商品の購買相関は、例えば、ＰＯＳ（Point of sale；販売時点情報管理）システムから得られる、顧客が実際に購入した商品の情報である購買記録を用いて解析することができる。以下、購買記録を「ＰＯＳデータ」と表記する場合がある。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第２０１８／１３１２１４号パンフレット

【特許文献2】特開２０２０－０８６７４２号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、ＰＯＳデータに基づいて商品間の関係性を特定した場合、顧客が実際に購入した商品間の購買相関は得られる一方、それ以外の商品、例えば、顧客が実際に購入していない商品に関して、商品間の関係性は特定されない。

【0007】

例えば、顧客が購入した商品と、顧客が購入を検討したが（迷ったが）、実際には購入しなかった商品（顧客が弱い関心を持つ商品）との間の関係性、及び、当該実際には購入しなかった商品間の関係性は、ＰＯＳデータに基づく解析では特定されない。

【0008】

１つの側面では、本発明は、顧客が購入していない商品を含む複数の商品間の関係性を取得することを目的とする。

【課題を解決するための手段】

【0009】

１つの側面では、逆強化学習プログラムは、コンピュータに以下の処理を実行させてよい。前記処理は、第１の商品を購入した複数の顧客の移動軌跡を取得してよい。また、前記処理は、前記第１の商品を含む複数の商品のそれぞれと対応付けられた複数の位置が示す状態を含む報酬関数の前記第１の商品に対応付けられた第１の位置に対する第１のパラメータを固定した状態で、前記複数の顧客の移動軌跡に基づいた逆強化学習によって、前記報酬関数のパラメータを更新してよい。さらに、前記処理は、更新後の報酬関数に含まれる第２の商品に対応する第２の位置に対する第２のパラメータに基づいて、前記第１の商品と前記第２の商品との関係を示す情報を出力してよい。

【発明の効果】

【0010】

１つの側面では、顧客が購入していない商品を含む複数の商品間の関係性を取得することができる。

【図面の簡単な説明】

【0011】

【図1】ＰＯＳデータの一例を示す図である。

【図2】図１に示すＰＯＳデータに対応する各顧客の買い回り軌跡の一例を示す図である。

【図3】一実施形態に係るサーバの機能構成例を示すブロック図である。

【図4】区画データを説明するための店舗内の区画例を示す図である。

【図5】買い回り軌跡データの一例を示す図である。

【図6】ＰＯＳデータの一例を示す図である。

【図7】強化学習処理の一例を説明するための図である。

【図8】顧客の買い回り軌跡の一例を示す図である。

【図9】報酬関数係数データの一例を示す図である。

【図10】購買相関データの一例を示す図である。

【図11】一実施形態に係るサーバの動作例を説明するためのフローチャートである。

【図12】一実施形態に係るサーバの機能を実現するコンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。

【発明を実施するための形態】

【0012】

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

【0013】

〔１〕一実施形態
〔１－１〕顧客の購買行動解析について
図１は、ＰＯＳデータの一例を示す図である。図１に例示するＡ～Ｅは、顧客が購入した商品を識別する識別情報の一例である。図１に例示するように、顧客＃０のＰＯＳデータは、顧客＃０が商品Ｃ_Ａ、Ｃ_Ｂ、Ｃ_Ｃ、Ｃ_Ｄを購入したことを示し、顧客＃１のＰＯＳデータは、顧客＃１が商品Ｃ_Ａ、Ｃ_Ｃ、Ｃ_Ｅを購入したことを示す。同様に、顧客＃２及び＃３のＰＯＳデータは、顧客＃２及び＃３のそれぞれが商品Ｃ_Ａ、Ｃ_Ｃを購入したことを示す。

【0014】

ＰＯＳデータによる解析では、例えば、複数のＰＯＳデータに所定数以上又は所定の割合以上で出現する組み合わせの商品に購買相関があると判断される。購買相関があるとは、例えば、商品間の相関（関係性）が高いと判断される区分に属することを意味してよい。図１の例では、顧客＃０～＃３のそれぞれが購入した商品Ｃ_Ａ、Ｃ_Ｃの購買相関が高いと判断される。

【0015】

購買相関のある商品間は、例えば、当該商品間のうちの１つ（１種類）の商品が購入される場合に、当該商品間のうちの他の１つ以上（１種類以上）の商品が一緒に購入される可能性が高い（例えば所定確率以上である）ことを意味してよい。

【0016】

図２は、図１に示すＰＯＳデータに対応する各顧客の買い回り軌跡の一例を示す図である。図２では、店舗における商品棚及び商品Ｃ_Ａ～Ｃ_Ｅの配置を店舗内の配置図（平面図）に表し、商品棚間の通路を通過する各顧客の買い回り軌跡を実線（顧客＃０）、短破線（顧客＃１）、一点鎖線（顧客＃２）及び長破線（顧客＃３）でそれぞれ示している。

【0017】

図２に例示する各顧客の買い回り軌跡から、商品Ｃ_Ｅの近辺を通過する顧客が多いことがわかる。なお、図１に示すＰＯＳデータによれば、顧客＃１は商品Ｃ_Ｅを購入している。

【0018】

図１に例示するＰＯＳデータから得られる商品Ｃ_Ａ、Ｃ_Ｃの購買相関と、図２に例示する各顧客の買い回り軌跡とを総合すると、商品Ｃ_Ａ、Ｃ_Ｃを購入する顧客は、商品Ｃ_Ｅにも興味があるといえる。

【0019】

このように、図１に例示するＰＯＳデータ、換言すれば、顧客による実際の購買記録による解析では、顧客が購入しようとしたが実際には購入しなかったといった「弱い関心」（図２参照）は無視される。

【0020】

そこで、一実施形態では、このような「弱い関心」を商品の購買相関（商品相関）に取り入れることで、顧客が購入しなかった商品（商品Ｃ_Ｅ等）を含む商品間の関係性を取得し、ひいては店舗の売上の向上を図るための手法を説明する。

【0021】

〔１－２〕一実施形態の機能構成例
図３は、一実施形態に係るサーバ１の機能構成例を示すブロック図である。サーバ１は、逆強化学習装置又は情報処理装置の一例であり、例えば、顧客に関する種々の情報に基づき顧客の購買行動を解析する購買行動解析装置であってよい。

【0022】

図３に示すように、サーバ１は、例示的に、メモリ部１１、取得部１２、逆強化学習部１３、検出部１４、及び、出力部１５を備えてよい。取得部１２、逆強化学習部１３、検出部１４、及び、出力部１５は、制御部１６の一例である。

【0023】

メモリ部１１は、記憶領域の一例であり、サーバ１による処理に用いられる種々の情報を記憶する。図３に示すように、メモリ部１１は、例示的に、区画データ１１ａ、買い回り軌跡データ１１ｂ、ＰＯＳデータ１１ｃ、報酬関数係数データ１１ｄ、及び、購買相関データ１１ｅを記憶可能であってよい。区画データ１１ａ、買い回り軌跡データ１１ｂ、ＰＯＳデータ１１ｃ、報酬関数係数データ１１ｄ、及び、購買相関データ１１ｅのそれぞれは、例えば、テーブル形式、ＤＢ（Database）形式、又は、配列形式等の種々の形式でメモリ部１１に格納されてよい。

【0024】

取得部１２は、逆強化学習部１３による処理の実行に用いる情報の少なくとも一部、一例として、区画データ１１ａ、買い回り軌跡データ１１ｂ、及び、ＰＯＳデータ１１ｃを、例えば図示しないコンピュータから取得する。

【0025】

区画データ１１ａは、店舗内の区画に関するデータ、例えば、商品棚間の通路の区画と、商品棚に配置（陳列）される商品が面する区画との関係を示す情報である。

【0026】

図４は、区画データ１１ａを説明するための店舗内の区画例を示す図である。図４では、網掛けで示す商品棚の間の通路を、点線で示すラインによりメッシュ状に複数の区画に分割した例を示す。図４に例示するように、各区画には、区画を示す符号“Ｍ”と“１”から始まる数字とを組み合わせた区画Ｍの識別情報（“Ｍ１１”以降図示省略）が設定されてよい。

【0027】

また、図４に例示するように、各区画Ｍに面する位置（例えば商品棚）に配置される商品には、商品を示す符号“Ｃ”と“１”から始まる数字とを組み合わせた商品Ｃの識別情報（“Ｃ１１”以降図示省略）が設定されてよい。なお、図４では、簡単のために、１つの区画Ｍに面する位置に１つの商品Ｃが配置される場合を例に挙げる。また、以下の説明では、商品Ｃの識別情報の数字部分に代えて、アルファベット（図２参照）を用いて商品Ｃ_Ａ等と表記する場合がある。同様に、以下の説明では、区画Ｍの識別情報の数字部分に代えて、アルファベット（図２参照）を用いて区画Ｍ_Ａ等と表記する場合がある。

【0028】

区画データ１１ａは、図４に示す区画例に基づく区画Ｍｘと商品Ｃｙとの対応関係が設定されてよい。ｘは、区画Ｍの識別情報の数字部分に対応する１以上の整数であり、ｙは、商品Ｃの識別情報の数字部分に対応する１以上の整数又はアルファベットである。例えば、区画データ１１ａには、区画Ｍｘと、区画Ｍｘに面する（属する）位置に配置される商品Ｃｙとが対応付けられた情報が格納されてよい。

【0029】

区画データ１１ａには、例えば、店舗における各区画Ｍの位置（例えば座標）を示す情報、及び、区画Ｍ間の隣接関係（例えば隣接する区画Ｍの識別情報）を示す情報、区画例を表現（再現）可能な情報、のうちの少なくとも１つが含まれてもよい。或いは、これらの情報は、区画データ１１ａとは別にメモリ部１１に格納されてもよい。

【0030】

買い回り軌跡データ１１ｂは、各顧客による店舗での買い回りの軌跡（又は「軌道」）を示す情報であり、例えば、各顧客が通過した区画Ｍを時系列で示す情報であってよい。顧客の買い回りの軌跡（買い回り軌跡）は、顧客の移動軌跡の一例である。

【0031】

図５は、買い回り軌跡データ１１ｂの一例を示す図である。図５に示すように、買い回り軌跡データ１１ｂは、例示的に、「顧客」及び「区画」の項目を含んでよい。「顧客」には、顧客の識別情報が設定されてよい。「区画」は、「顧客」による通過（買い回り）の順序を区別可能な態様で複数の区画Ｍの識別情報を含んでよい。一例として、図５に示す買い回り軌跡データ１１ｂには、顧客＃０による区画Ｍの通過順序が、Ｍ１、Ｍ４、Ｍ６、Ｍ７、・・・であることが設定されている。

【0032】

取得部１２は、種々の手法により顧客ごとの買い回り軌跡を取得してよい。例えば、取得部１２は、顧客の移動の軌跡を取得するシステムから、当該システムにより生成された買い回り軌跡データ１１ｂを取得してもよい。或いは、取得部１２は、当該システムから、店舗における顧客ごとの移動の軌跡に関する情報を取得して、取得した情報に基づき買い回り軌跡データ１１ｂを生成してもよい。また、取得部１２は、区画データ１１ａに基づき、買い回り軌跡データ１１ｂの区画Ｍの情報を設定してもよい。

【0033】

このように、取得部１２は、第１の商品Ｃ_Ａと第２の商品Ｃ_Ｃとを購入した複数の顧客の移動軌跡を取得するのである。

【0034】

顧客の移動の軌跡を取得するシステムとしては、例えば、買い物カゴ又はカート等に付加されたＲＦ（Radio Frequency）タグ等のタグを追跡するシステム、店舗に設置された監視カメラ等の撮像装置により撮像された画像を解析するシステム、等が挙げられる。

【0035】

ＰＯＳデータ１１ｃは、顧客が実際に購入した商品の情報であり、顧客の購買記録の一例である。ＰＯＳデータ１１ｃは、ＰＯＳシステムから取得されてよい。

【0036】

図６は、ＰＯＳデータ１１ｃの一例を示す図である。図６に示すように、ＰＯＳデータ１１ｃは、例示的に、「顧客」及び「商品」の項目を含んでよい。「顧客」には、顧客の識別情報が設定されてよい。「商品」は、「顧客」により購入された複数の商品Ｃの識別情報を含んでよい。一例として、図６に示すＰＯＳデータ１１ｃには、顧客＃０により、Ｃ１、Ｃ８、・・・の商品Ｃが購入されたことが設定されている。

【0037】

取得部１２は、種々の手法により顧客の購買記録を取得してよい。例えば、取得部１２は、ＰＯＳシステムから、当該ＰＯＳシステムにより集計及び生成されたＰＯＳデータ１１ｃを取得してもよい。或いは、取得部１２は、ＰＯＳシステムから、店舗における顧客ごとの商品の購買に関する情報を取得して、取得した情報に基づきＰＯＳデータ１１ｃを生成してもよい。

【0038】

買い回り軌跡データ１１ｂに含まれる「顧客」の識別情報と、ＰＯＳデータ１１ｃに含まれる「顧客」の識別情報とは、共通の識別情報であってもよく、或いは、他の情報を介して互いに対応付け可能な識別情報であってもよい。換言すれば、買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃは、顧客の識別情報をキーとすることで、各顧客について、顧客が購入した商品Ｃと、当該顧客が通過した区画Ｍ（買い回り軌跡）と、を関連付けた情報であると捉えられてもよい。

【0039】

逆強化学習部１３は、買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃを利用した逆強化学習を行ない、逆強化学習により得られた報酬関数係数データ１１ｄをメモリ部１１に格納する。

【0040】

例えば、逆強化学習部１３は、区画データ１１ａに基づき、買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃに対して逆強化学習の手法を適用する。逆強化学習部１３による逆強化学習処理、及び、報酬関数係数データ１１ｄについては後述する。

【0041】

検出部１４は、報酬関数係数データ１１ｄに基づき、買い回り軌跡を考慮した購買相関（商品相関）を検出し、検出した購買相関を購買相関データ１１ｅとしてメモリ部１１に格納する。検出部１４は、買い回り軌跡を考慮することで、「弱い関心」を考慮した購買相関を検出することができる。例えば、検出部１４は、或る商品Ｃに関して、顧客行動の報酬関数の係数値が大きい商品Ｃを相関のある商品として検出する。

【0042】

出力部１５は、検出部１４により取得される購買相関データ１１ｅを出力データとして出力する。例えば、出力部１５は、購買相関データ１１ｅそのものを図示しない他のコンピュータに送信してもよいし、購買相関データ１１ｅをメモリ部１１に蓄積してサーバ１又は他のコンピュータから参照可能に管理してもよい。或いは、出力部１５は、購買相関データ１１ｅを示す情報をサーバ１等の出力装置に画面出力してもよい。

【0043】

なお、出力部１５は、出力データとして、購買相関データ１１ｅそのものに代えて又は加えて、種々のデータを出力してもよい。出力データは、例えば、購買相関データ１１ｅに基づく顧客の購買行動の解析結果、逆強化学習処理における中間生成情報、又は、購買行動の解析処理における中間生成情報、等の種々のデータであってもよい。

【0044】

以上のように、サーバ１によれば、逆強化学習部１３及び検出部１４により、顧客の買い回り軌跡に基づく解析によって、顧客が商品Ｃの棚へ行ったものの購入しなかった等の「弱い関心」を考慮した購買相関を検出することができる。

【0045】

これにより、顧客が購入していない商品を含む複数の商品間の購入の関係性を取得する、換言すれば、より正確な購買相関を取得することができるため、例えば、当該購買相関に基づく顧客の購買行動の解析により、店舗における商品の売上向上を実現できる。

【0046】

〔１－３〕逆強化学習処理の説明
次に、逆強化学習部１３による逆強化学習処理について説明する。

【0047】

まず、強化学習処理について説明する。図７は、強化学習処理の一例を説明するための図である。強化学習処理は、エージェント（「制御器」と称されてもよい）１１０が行なう行動ａを検出するためのモデルの機械学習を行なう処理である。例えば、強化学習処理では、エージェント１１０が、状態ｓ（state）の環境１２０において或る行動ａ（action）を行なうと、報酬ｒが与えられるというモデルが想定される。

【0048】

エージェント１１０は、例えば買い物客（顧客）であり、報酬ｒが高くなる行動ａを行なうものとする。行動ａは、例えば買い物（移動）である。報酬ｒの総額（合計）は、下記式（１）に例示するように、利得Ｒ（ｔ）となる。なお、下記式（１）において、ｔは時刻であり、γは時刻の経過に応じて報酬ｒを減少させるための割引率である。
R(t) = r(t+1)+γr(t+2)+ ... （１）

【0049】

ところで、報酬ｒ及び遷移確率Ｐが既知である場合、価値（Ｖ，Ｑ）が最大となる方策Π（ａ｜ｓ）を求める動的計画法が知られている。動的計画法には、例えば、ベルマン方程式が用いられてよい。

【0050】

これに対し、強化学習処理は、報酬ｒ、及び、遷移確率Ｐが未知（ブラックボックス）である場合に、実データでモデルの機械学習を行ないながら、価値（Ｖ，Ｑ）が最大となる方策を求める処理を含んでよい。

【0051】

遷移確率Ｐの一例として、マルコフ決定過程（ＭＤＰ；Markov Decision Process）における遷移確率が挙げられる。例えば、（ｓ，ａ）のときに状態ｓ’となる遷移確率Ｐは、Ｐ（ｓ｜ｓ，ａ）と表記されてよい。

【0052】

方策Π（ａ｜ｓ）は、状態ｓであるときに行動ａが行なわれる確率である。例えば、動的計画法では、Ｑ（ｓ，ａ）が最大となるｓ，ａが求められてよい。価値（Ｖ，Ｑ）は、状態価値関数Ｖ^Π（ｓ）及び行動価値関数Ｑ^Π（ｓ，ａ）を含んでよい。状態価値関数Ｖ^Π（ｓ）及び行動価値関数Ｑ^Π（ｓ，ａ）は、それぞれ、下記式（２）及び式（３）により表されてよい。なお、下記式（２）及び式（３）において、Ｅは期待値を表す。
V^Π(s) = E_P,Π[R(t)|s(t)=s] （２）
Q^Π(s,a) = E_P[R(t)|s(t)=s, a(t)=a] （３）

【0053】

以上のように、強化学習処理は、利得Ｒ（報酬ｒ）が不明である場合に、エージェント１１０がトライアンドエラーにより状態ｓ及び行動ａを変化させて繰り返し利得Ｒを算出することで得られるデータを利用して、利得Ｒが最大となる方策を求める手法である。なお、強化学習処理は、Ｑ学習、例えば、Ｑ（ｓ，ａ）をＤＬ（Deep Learning；深層学習）でモデル化する深層Ｑ学習の一例であり、「方策学習」と称されてもよい。

【0054】

強化学習処理による訓練済みのモデルによれば、エージェント１１０の時系列の状態ｓ及び動作ａ、換言すれば、エージェント１１０の移動の軌跡を取得することができる。

【0055】

逆強化学習処理は、強化学習処理の軌跡（結果）が与えられているときに、当該軌跡を実現する利得（コスト）関数を推定する手法である。一例として、逆強化学習処理は、エージェントが或る行動ａを行なったときに、当該行動ａが何らかの報酬ｒに従ってエージェントが動いた結果であると仮定して、当該行動ａを実現するような利得関数を取得するためのモデルの機械学習処理が実施されてよい。逆強化学習処理では、例えば、最大エントロピー法が用いられてよいが、これに限定されるものではなく、既知の種々の手法が用いられてもよい。

【0056】

（ｓ，ａ）の利得関数は、（ｓ，ａ）及びパラメータベクトルθを用いたｒ（ｓ，ａ；θ）として表現されてよい。利得関数ｒ（ｓ，ａ；θ）は、下記式（４）により表されてよい。下記式（４）において、φ（ｓ，ａ）は、特徴ベクトルであり、エージェント１１０の状態ｓ及び行動ａ、換言すれば、エージェント１１０が次に何売り場に行くか、どちらの方向に行くか、といったアクション（軌跡）を蓄積した情報であってよい。
r(s, a; θ) = θ・φ(s,a) （４）

【0057】

上記式（４）において、中黒（・）は内積を示す。最大エントロピー法では、例えば、特徴ベクトルの１次関数によって利得関数が表現されてよい。

【0058】

ここで、逆強化学習処理では、エージェント１１０が、下記式（５）に例示する遷移確率Ｐ（ζ_ｉ；θ）で観測軌跡｛ζ_ｉ｝を選択していると仮定する。観測軌跡｛ζ_ｉ｝は、下記式（６）に示すように、１～Ｎｉのそれぞれにおけるエージェント１１０の状態ｓ_ｉ及び行動ａ_ｉを含んでよい。下記式（５）において、Z(θ)は、P(ζ_i;θ)が確率（0以上1以下の数）となるための規格化定数であり、例えば、下記式（５－１）により表されてよい。下記式（６）において、_ｉ（１）、_ｉ（２）、・・・、_{ｉ（Ｎｉ）}は、軌跡ζ_ｉが通過したメッシュ番号の時系列を意味する。換言すれば、軌跡ζ_ｉは、Ｍ_ｉ（１）、Ｍ_ｉ（２）、・・・、Ｍ_{ｉ（Ｎｉ）}の順にメッシュを通過したことを意味する。Ｎｉは、軌跡ζ_ｉが通過した総メッシュ数である。_{ａｉ（１）}、・・・_{ａｉ（Ｎｉ）}は、各メッシュで顧客が次に向かう方向、例えば、現在のメッシュを起点として、上、下、右又は左等の方向を意味する。当該方向は、軌道から求めることができる。
P(ζ_i;θ) = exp(Σ_{<sj, aj> ∈ ζi} θ・φ(s_j,a_j))/Z(θ) （５）
Z(θ) = Σ_i exp(Σ_{<sj, aj> ∈ ζi} θ・φ(sj, aj)) （５－１）
{ζ_i} = {<s_i(1), a_i(1)>, ..., <s_i(Ni), a_i(Ni)>} （６）

【0059】

上記式（５）に示す遷移確率Ｐ（ζ_ｉ；θ）において尤度を最大化することによって最適化されるパラメータベクトルθ＊は、下記式（７）に従い算出されてよい。argmaxは、最大点の集合を求める関数である。
θ* = argmax Σ_i log(P(ζ_i;θ)) （７）

【0060】

逆強化学習処理としては、例えば、「“Maximum Entropy Inverse Reinforcement Learning”、B. Ziebart, A. Maas, et.al.、Proc. of the 23rd AAAI (2008)」に記載の手法が採用されてもよい。

【0061】

一実施形態に係る逆強化学習部１３は、上述した逆強化学習処理により、観測軌跡｛ζ_ｉ｝が実際の軌跡（顧客の買い回り）を再現するようなパラメータベクトルθを得るための最適化問題を解くことで、利得関数ｒ（ｓ，ａ；θ）を取得する。以下の説明において、利得関数ｒ（ｓ，ａ；θ）は、「報酬関数」と称されてもよい。

【0062】

図８は、顧客＃０の買い回り軌跡の一例を示す図である。例えば、ＰＯＳデータ１１ｃにおいて顧客＃０が商品Ｃ_Ａ、Ｃ_Ｂ、Ｃ_Ｃ、Ｃ_Ｄを購入したことが設定されており、買い回り軌跡データ１１ｂにおいて顧客＃０が図８に示す買い回り軌跡で移動した場合を想定する。

【0063】

逆強化学習部１３は、買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃに基づき、顧客＃０による買い回り軌跡を再現するような報酬関数を出力する機械学習モデルの訓練を行なう。

【0064】

例えば、状態ｓは、区画（メッシュ）Ｍのうちの顧客＃０が存在する区画を示す情報である。一例として、状態ｓは、メッシュ番号の０－１ベクトルｓ_ｉ＝（０，…，０，１，…０）のように、顧客＃０が位置するメッシュＭの番号ｉに対応する座標に“１”がセットされた情報であってよい。

【0065】

報酬関数は、上記式（４）、式（５）、式（７）に基づき、下記式（８）のように表現されてよい。下記式（８）において、θ_ｉは、報酬関数のパラメータの一例であり、例えば、メッシュｉ（区画Ｍｉ）に面する（属する）位置に配置される商品Ｃの関心度を示す。商品Ｃの関心度は、顧客＃０による商品Ｃの関心の度合いを示す指標であり、関心度が高いことは、顧客＃０が商品Ｃに移動する可能性（尤度）が高いことを意味する。
報酬関数：θ₁*s₁+...+θ_N*s_N （８）

【0066】

逆強化学習部１３は、機械学習モデルの訓練において、顧客＃０が購入した商品Ｃ（ＰＯＳデータ１１ｃ）が位置する区画Ｍ_ｉのθを十分大きな値に固定した状態で、買い回り軌跡データ１１ｂによる逆強化学習処理を行なう。例えば、逆強化学習部１３は、顧客＃０の買い回り軌跡を再現した出力が得られるように各θ（θ_ｉ）を更新する。

【0067】

報酬関数は、上記式（８）に示すように、状態ｓ_ｉ（状態ベクトル）に係数としてのθ_ｉを乗じて得られることから、報酬が高い場所（区画Ｍｉ）では、係数θ_ｉの値が大きくなるといえる。そこで、逆強化学習部１３は、顧客＃０が購入した商品Ｃに対応する区画ｉ、換言すれば、報酬が高いことが分かっている区画Ｍｉについて、θを十分大きな値に固定するのである。

【0068】

図９は、報酬関数係数データ１１ｄの一例を示す図である。図９に示すように、報酬関数係数データ１１ｄは、例示的に、「区画」、及び、「係数値」の項目を含んでよい。「区画」には、各区画Ｍの識別情報が設定されてよい。「係数値」には、区画Ｍｉに対応するθ_ｉの値が設定されてよい。

【0069】

なお、１つの区画Ｍに複数の商品Ｃが対応付けられる（配置される）場合、報酬関数係数データ１１ｄには、「区画」に代えて又は加えて、商品Ｃの識別情報を示す「商品」が設定されてもよい。

【0070】

逆強化学習部１３は、逆強化学習処理による訓練済みのモデルから報酬関数の係数θを抽出（取得）して報酬関数係数データ１１ｄを生成し、メモリ部１１に格納してよい。

【0071】

このように、逆強化学習部１３は、１以上の商品Ｃの同一の組み合わせ（セット）を購入した複数の顧客のそれぞれの買い回り軌跡データ１１ｂに基づき、当該組み合わせを購入した顧客の買い回り軌跡を再現する報酬関数係数データ１１ｄを出力する。換言すれば、逆強化学習部１３は、購買相関を検出する対象となる１以上の商品Ｃの同一の組み合わせごとに、逆強化学習処理を行ない、報酬関数係数データ１１ｄを生成してよい。

【0072】

例えば、逆強化学習部１３は、商品Ｃ_Ａ、Ｃ_Ｃを購入した顧客をＰＯＳデータ１１ｃから抽出する。そして、逆強化学習部１３は、抽出した顧客のそれぞれの買い回り軌跡データ１１ｂに基づき、商品Ｃ_Ａ、Ｃ_Ｃに対応するθ_Ａ、θ_Ｃを高い値に固定した状態で、逆強化学習処理を行なう。高い値とは、例えば、後述する検出部１４により、購買相関があると検出される所定値以上の値、一例として、後述する所定の閾値以上の値である。逆強化学習処理によって、第１の商品Ｃ_Ａと第２の商品Ｃ_Ｃとを含む複数の商品のそれぞれと対応付けられた複数の位置Ｍ_Ａ、Ｍ_Ｃが示す状態ｓを含む報酬関数のパラメータθが更新される。

【0073】

以上のように、逆強化学習部１３は、報酬関数の第１の商品Ｃ_Ａに対応付けられた第１の位置Ｍ_Ａに対する第１のパラメータθ_Ａと第２の商品Ｃ_Ｃに対応付けられた第２の位置Ｍ_Ｃに対する第２のパラメータθ_Ｃとを固定した状態で、複数の顧客の移動軌跡に基づいた逆強化学習によって、報酬関数のパラメータθを更新するのである。

【0074】

なお、１以上の商品Ｃの組み合わせ（例えば商品Ｃ_Ａ、Ｃ_Ｃ）を購入した顧客とは、例えば、複数の商品Ｃのうちの商品Ｃ_Ａ、Ｃ_Ｃのみを購入した顧客であってもよいし、商品Ｃ_Ａ、Ｃ_Ｃを少なくとも含む複数の商品Ｃを購入した顧客であってもよい。また、上述した例では、１以上の商品Ｃが第１の商品Ｃ_Ａ及び第２の商品Ｃ_Ｃであるものとしたが、これに限定されるものではなく、１つの商品Ｃ（例えば第１の商品Ｃ_Ａ）であってもよい。

【0075】

例えば、１以上の商品Ｃが１つの商品Ｃ（例えば第１の商品Ｃ_Ａ）である場合、取得部１２は、第１の商品Ｃ_Ａを購入した複数の顧客の買い回り軌跡データ１１ｂを取得してよい。また、逆強化学習部１３は、第１の商品Ｃ_Ａを含む複数の商品のそれぞれと対応付けられた複数の位置Ｍ_ｉが示す状態ｓを含む報酬関数の第１の商品Ｃ_Ａに対応付けられた第１の位置Ｍ_Ａに対する第１のパラメータθ_Ａを固定した状態で、複数の顧客の移動軌跡に基づいた逆強化学習によって、報酬関数のパラメータθを更新してよい。

【0076】

〔１－４〕購買相関の検出処理の説明
検出部１４は、逆強化学習部１３により生成された報酬関数係数データ１１ｄに基づき、購買相関データ１１ｅを生成し、メモリ部１１に格納する。

【0077】

上述したように、逆強化学習処理により、報酬が高い場所（区画Ｍｉ）では、係数θ_ｉの値が大きくなる。一例として、商品Ｃ_Ａ、Ｃ_Ｃに関する報酬関数係数データ１１ｄでは、区画Ｍ_Ａ、Ｍ_Ｃに対応するθ_Ａ、θ_Ｃの値が大きくなる。また、商品Ｃ_Ａ、Ｃ_Ｃを購入した顧客が商品Ｃ_Ｅの区画Ｍ_Ｅを通過することが多い場合、換言すれば、当該顧客が商品Ｃ_Ｅに関心がある場合、当該報酬関数係数データ１１ｄでは、区画Ｍ_Ｅに対応するθ_Ｅの値も大きくなる。

【0078】

そこで、検出部１４は、報酬関数係数データ１１ｄの各パラメータベクトルθ_ｉの値を所定の閾値と比較し、θ_ｉの値が所定の閾値以上である複数の商品Ｃｉ（区画Ｍｉ）、例えば商品Ｃ_Ａ、Ｃ_Ｃ、Ｃ_Ｅを、購買相関のある商品Ｃとして検出してよい。所定の閾値は、固定値であってもよいし、可変値であってもよい。可変値である場合、例えば、所定の閾値は、報酬関数係数データ１１ｄに含まれるθ_ｉの値の平均値、θ_ｉの値の中央値、等の種々の手法により算出されてもよい。

【0079】

図１０は、購買相関データ１１ｅの一例を示す図である。図１０に示すように、購買相関データ１１ｅは、例示的に、「商品」、及び、「相関」の項目を含んでよい。「商品」には、各商品Ｃの識別情報が設定されてよい。「相関」には、商品Ｃｉ（区画Ｍｉ）に対応する、報酬関数係数データ１１ｄに基づく購買相関の検出結果が設定されてよい。

【0080】

一例として、購買相関がある、換言すれば、θ_ｉの値が所定の閾値以上であると判定された商品Ｃｉの「相関」には、“１”が設定されてよい。また、購買相関がない、換言すれば、θ_ｉの値が所定の閾値未満であると判定された商品Ｃｉの「相関」には、“０”が設定されてよい。

【0081】

購買相関データ１１ｅにおいて、「相関」に“１”が設定された複数の商品Ｃｉは、購買相関が高い商品Ｃｉである、換言すれば、顧客により同時に（１度の買い物において）購入される可能性が高い商品Ｃｉであるといえる。例えば、１以上の商品Ｃの組み合わせが第１の商品Ｃ_Ａ及び第２の商品Ｃ_Ｃであり、第３の商品Ｃ_Ｅのθ_Ｅが所定の閾値以上である場合、購買相関データ１１ｅは、第１の商品Ｃ_Ａと第２の商品Ｃ_Ｃと第３の商品Ｃ_Ｅとが購買の相関を有することを示す情報となる。また、例えば、１以上の商品Ｃ（の組み合わせ）が第１の商品Ｃ_Ａであり、第２の商品Ｃ_Ｅのθ_Ｅが所定の閾値以上である場合、購買相関データ１１ｅは、第１の商品Ｃ_Ａと第２の商品Ｃ_Ｅとが購買の相関を有することを示す情報となる。

【0082】

なお、図１０に示す購買相関データ１１ｅは、検出部１４により、図９に示す報酬関数係数データ１１ｄに対して、所定の閾値を“４．０”として購買相関の検出処理が行なわれた結果の一例である。

【0083】

以上のように、検出部１４は、更新後の報酬関数に含まれる第３の商品Ｃ_Ｅに対応する第３の位置Ｍ_Ｅに対する第３のパラメータθ_Ｅに基づいて、第１の商品Ｃ_Ａと第２の商品Ｃ_Ｃと第３の商品Ｃ_Ｅとの関係を示す情報、例えば購買相関データ１１ｅを生成する。また、１以上の商品Ｃが１つの商品Ｃ（例えば第１の商品Ｃ_Ａ）である場合、検出部１４は、更新後の報酬関数に含まれる第２の商品Ｃ_Ｅに対応する第２の位置Ｍ_Ｅに対する第２のパラメータθ_Ｅに基づいて、第１の商品Ｃ_Ａと第２の商品Ｃ_Ｅとの関係を示す情報、例えば購買相関データ１１ｅを生成する。検出部１４が生成した購買相関データ１１ｅは、例えば、出力部１５により出力されてよい。

【0084】

このように、一実施形態に係るサーバ１によれば、顧客の買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃに基づき、逆強化学習処理の手法により、顧客の関心を考慮した商品Ｃの購買相関を検出することができる。また、サーバ１によれば、検出された購買相関を利用し、売上の向上を図ることができる。

【0085】

〔１－５〕動作例
次に、図１１を参照して、上述した一実施形態に係るサーバ１の動作例を説明する。図１１は、一実施形態に係るサーバ１の動作例を説明するためのフローチャートである。図１１に示すように、サーバ１の取得部１２は、買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃを取得する（ステップＳ１）。

【0086】

逆強化学習部１３は、例えばユーザから指定された購買相関の検出対象の１以上の商品Ｃについて、ＰＯＳデータ１１ｃに基づき、当該１以上の商品Ｃの同一の組み合わせを購入した顧客を特定する（ステップＳ２）。

【0087】

逆強化学習部１３は、当該１以上の商品のそれぞれのθの値を所定値以上（例えば所定の閾値以上）の値に固定し、特定した顧客の買い回り軌跡データ１１ｂに基づきモデルの逆強化学習処理を実施する（ステップＳ３）。

【0088】

検出部１４は、訓練済みのモデルのパラメータの一部である報酬関数係数データ１１ｄに基づき、購買相関の検出対象の１以上の商品に関する購買相関を検出し（ステップＳ４）、購買相関を示す購買相関データ１１ｅをメモリ部１１に格納する。

【0089】

出力部１５は、検出部１４が検出した購買相関を示す購買相関データ１１ｅを出力し（ステップＳ５）、処理が終了する。

【0090】

なお、サーバ１は、購買相関の検出対象として１以上の商品をユーザから指定される都度、上述したステップＳ１～Ｓ５の処理を実行してよい。

【0091】

〔１－６〕ハードウェア構成例
一実施形態に係るサーバ１を実現する装置は、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、サーバ１の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、サーバ１の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

【0092】

図１２は、一実施形態に係るサーバ１の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。サーバ１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図１２に例示するＨＷ構成を備えてよい。

【0093】

図１２に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、Ｉ／Ｏ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

【0094】

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

【0095】

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

【0096】

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

【0097】

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

【0098】

なお、図３に示すメモリ部１１が記憶する情報１１ａ～１１ｅは、メモリ１０ｂ及び記憶部１０ｃの一方又は双方が有する記憶領域に格納されてよい。

【0099】

また、記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（逆強化学習プログラム）を格納してよい。例えば、サーバ１のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、図３に例示するサーバ１（例えば制御部１６）としての機能を実現できる。

【0100】

ＩＦ部１０ｄは、ネットワークの一方又は双方との間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ１は、ＩＦ部１０ｄを介して、図示しないコンピュータと相互に通信可能に接続されてよい。また、例えば、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

【0101】

Ｉ／Ｏ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

【0102】

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

【0103】

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

【0104】

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ１において、Ｉ／Ｏ部１０ｅ及び読取部１０ｆの少なくとも一方は、省略されてもよい。

【0105】

〔２〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

【0106】

例えば、図３に示すサーバ１が備える各処理機能１２～１５は、それぞれ任意の組み合わせで併合してもよく、分割してもよい。

【0107】

また、サーバ１は、逆強化学習処理、及び、購買相関の検出処理において、区画データ１１ａを利用しない場合、メモリ部１１において区画データ１１ａを記憶しない構成が許容されてもよい。

【0108】

さらに、一実施形態において、メモリ部１１は、買い回り軌跡データ１１ｂ及びＰＯＳデータ１１ｃの一方又は双方を、所定の属性を有する顧客のグループ、例えば、特定の性質を有する顧客層に限定して記憶してもよい。顧客層としては、例えば、男性客、女性客、若年層顧客、老年層顧客等の、顧客の属性に応じた区分が挙げられる。このように顧客層を限定することにより、サーバ１は、限定した顧客層特有の購買相関を検出することができる。

【0109】

また、図３に示すサーバ１は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、取得部１２及び出力部１５はＷｅｂサーバ、逆強化学習部１３及び検出部１４はアプリケーションサーバ、メモリ部１１はＤＢ（Database）サーバ、であってもよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ１としての各処理機能を実現してもよい。

【0110】

〔３〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

【0111】

（付記１）
第１の商品を購入した複数の顧客の移動軌跡を取得し、
前記第１の商品を含む複数の商品のそれぞれと対応付けられた複数の位置が示す状態を含む報酬関数の前記第１の商品に対応付けられた第１の位置に対する第１のパラメータを固定した状態で、前記複数の顧客の移動軌跡に基づいた逆強化学習によって、前記報酬関数のパラメータを更新し、
更新後の報酬関数に含まれる第２の商品に対応する第２の位置に対する第２のパラメータに基づいて、前記第１の商品と前記第２の商品との関係を示す情報を出力する、
処理をコンピュータに実行させる、逆強化学習プログラム。

【0112】

（付記２）
前記更新する処理は、前記第１のパラメータを所定値以上の値に設定した状態で、前記複数の顧客の移動軌跡に基づいた前記逆強化学習によって、前記報酬関数のパラメータを更新する処理を含み、
前記出力する処理は、前記更新後の報酬関数に含まれる前記第２のパラメータと、所定の閾値との比較結果に基づいて、前記情報を出力する処理を含む、
付記１に記載の逆強化学習プログラム。

【0113】

（付記３）
前記出力する処理は、前記更新後の報酬関数に含まれる前記第２のパラメータが前記所定の閾値以上である場合に、前記第１の商品と前記第２の商品とが購買の相関を有することを示す前記情報を出力する処理を含む、
付記２に記載の逆強化学習プログラム。

【0114】

（付記４）
前記複数の顧客は、前記第１の商品を購入した顧客のうちの所定の属性を有する顧客である、
付記１～付記３のいずれか１項に記載の逆強化学習プログラム。

【0115】

（付記５）
第１の商品を購入した複数の顧客の移動軌跡を取得し、
前記第１の商品を含む複数の商品のそれぞれと対応付けられた複数の位置が示す状態を含む報酬関数の前記第１の商品に対応付けられた第１の位置に対する第１のパラメータを固定した状態で、前記複数の顧客の移動軌跡に基づいた逆強化学習によって、前記報酬関数のパラメータを更新し、
更新後の報酬関数に含まれる第２の商品に対応する第２の位置に対する第２のパラメータに基づいて、前記第１の商品と前記第２の商品との関係を示す情報を出力する、
処理をコンピュータが実行する、逆強化学習方法。

【0116】

（付記６）
前記更新する処理は、前記第１のパラメータを所定値以上の値に設定した状態で、前記複数の顧客の移動軌跡に基づいた前記逆強化学習によって、前記報酬関数のパラメータを更新する処理を含み、
前記出力する処理は、前記更新後の報酬関数に含まれる前記第２のパラメータと、所定の閾値との比較結果に基づいて、前記情報を出力する処理を含む、
付記５に記載の逆強化学習方法。

【0117】

（付記７）
前記出力する処理は、前記更新後の報酬関数に含まれる前記第２のパラメータが前記所定の閾値以上である場合に、前記第１の商品と前記第２の商品とが購買の相関を有することを示す前記情報を出力する処理を含む、
付記６に記載の逆強化学習方法。

【0118】

（付記８）
前記複数の顧客は、前記第１の商品を購入した顧客のうちの所定の属性を有する顧客である、
付記５～付記７のいずれか１項に記載の逆強化学習方法。

【0119】

（付記９）
第１の商品を購入した複数の顧客の移動軌跡を取得し、
前記第１の商品を含む複数の商品のそれぞれと対応付けられた複数の位置が示す状態を含む報酬関数の前記第１の商品に対応付けられた第１の位置に対する第１のパラメータを固定した状態で、前記複数の顧客の移動軌跡に基づいた逆強化学習によって、前記報酬関数のパラメータを更新し、
更新後の報酬関数に含まれる第２の商品に対応する第２の位置に対する第２のパラメータに基づいて、前記第１の商品と前記第２の商品との関係を示す情報を出力する、
制御部を備える、情報処理装置。

【0120】

（付記１０）
前記制御部は、
前記更新する処理において、前記第１のパラメータを所定値以上の値に設定した状態で、前記複数の顧客の移動軌跡に基づいた前記逆強化学習によって、前記報酬関数のパラメータを更新し、
前記出力する処理において、前記更新後の報酬関数に含まれる前記第２のパラメータと、所定の閾値との比較結果に基づいて、前記情報を出力する、
付記９に記載の情報処理装置。

【0121】

（付記１１）
前記制御部は、前記出力する処理において、前記更新後の報酬関数に含まれる前記第２のパラメータが前記所定の閾値以上である場合に、前記第１の商品と前記第２の商品とが購買の相関を有することを示す前記情報を出力する、
付記１０に記載の情報処理装置。

【0122】

（付記１２）
前記複数の顧客は、前記第１の商品を購入した顧客のうちの所定の属性を有する顧客である、
付記９～付記１１のいずれか１項に記載の情報処理装置。

【符号の説明】

【0123】

１サーバ
１０コンピュータ
１１メモリ部
１１ａ区画データ
１１ｂ買い回り軌跡データ
１１ｃＰＯＳデータ
１１ｄ報酬関数係数データ
１１ｅ購買相関データ
１２取得部
１３逆強化学習部
１４検出部
１５出力部
１６制御部

【図1】