(58)【調査した分野】(Int.Cl.,DB名)
前記機械学習手段は、前記複数の場面で提供された複数の前記販売促進情報と、該複数の前記販売促進情報が提供された後の消費者の行動データとに基づいて、機械学習を行う、請求項1に記載の販売促進システム。
前記第1場面専属エージェントと前記第2場面専属エージェントとに与えられる報酬が前記統括エージェントによって影響されるように制御する報酬制御手段をさらに含む、請求項1または2に記載の販売促進システム。
コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面毎に対応した形態で消費者に提供する複数場面毎情報提供手段を備えた販売促進システムに用いられる機械学習装置であって、
人工知能が機械学習を行い、その学習結果を前記販売促進情報の提供に反映させるための機械学習手段を備え、
前記機械学習手段は、前記複数の場面で提供された複数の前記販売促進情報と、該複数の前記販売促進情報が提供された後の消費者の行動データとに基づいて、機械学習を行うものであり、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントが報酬を受け取り、該報酬の累積を最大化する方策を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段を含み、
前記複数の場面は、第1場面と第2場面とを含み、
前記エージェントは、前記第1場面に専属して販売促進情報を提供する第1場面専属エージェントと、前記第2場面に専属して販売促進情報を提供する第2場面専属エージェントとを含み、
前記強化学習手段は、前記第1場面専属エージェントおよび前記第2場面専属エージェントが、前記複数の場面を統括して全体最適化を図る統括エージェントと協調して動作するマルチエージェントシステムを含む、機械学習装置。
コンピュータネットワークを利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面毎に対応した形態で消費者に提供する複数場面毎情報提供手段を備えた販売促進システムに用いられる機械学習装置に対し、機械学習に必要なデータを提供する機械学習用データ提供装置であって、
前記機械学習装置は、消費者の行動環境内で収集された行動データをエージェントが観測して選択した販売促進情報を前記複数の場面で当該消費者に提供した後にその消費者が取った行動に従ってエージェントに報酬が与えられ、該報酬の累積を最大化する方策を学習し、該学習された方策に基づいて前記販売促進情報を選択して消費者に提供する強化学習手段を含み、
前記複数の場面は、第1場面と第2場面とを含み、
前記エージェントは、前記第1場面に専属して販売促進情報を提供する第1場面専属エージェントと、前記第2場面に専属して販売促進情報を提供する第2場面専属エージェントとを含み、
前記第1場面専属エージェントが提供した販売促進情報を前記第2場面専属エージェントに提供すると共に、前記第2場面専属エージェントが提供した販売促進情報を前記第1場面専属エージェントに提供する販売促進情報提供手段と、を備えた、機械学習用データ提供装置。
【発明を実施するための形態】
【0017】
本実施の形態における販売促進システムを図面に基づいて詳細に説明する。以下には、アプリケーションソフトウェアを単にアプリ、データベースをDB、販売促進を販促、人工知能をAIと記載する。本実施の形態における販促システムはAIによる機械学習を利用したものであり、その全体システム構成を
図1に基づいて説明する。
【0018】
消費者の行動環境1内でユーザ(消費者ともいう)2が、種々の消費行動を行う。例えばWEBサイトを訪問したユーザ2が或る商店での安売り情報を閲覧した場合に、そのユーザ2が自宅から出て街中を移動してその商店の外から店の入り口に進入して店内において各種商品を購入する。このようなユーザ2の消費行動環境を消費者の行動環境1として示している。
【0019】
この販促システムにおけるAIでの機械学習は、主に強化学習が用いられている。強化学習とは、ある環境の状態に置かれたエージェントが、行動を選択したときに与えられる報酬をもとに、初期状態からゴールまでの累積報酬を最大化するような方策を獲得する仕組みのことである。強化学習ではAIの一種であるソフトウェアエージェント(以下「エージェント」という)と環境が相互作用することで学習を進めていく。ここにエージェントとはAIの一種であり、ユーザやソフトウェアなどと通信しながら自らがある程度の判断能力を持って自律的にふるまい永続的に活動するソフトウェアのことである。エージェントが環境に対して或る行為aを行うことによりその環境の状態sが変化し或る目的状態に達することにより報酬rがエージェントに与えられる。エージェントは、この報酬rを最大化することを目的として状態sを入力として行為aを出力する関数を学習する。
【0020】
強化学習は次の単純なステップを繰り返すことで時間が進行していく。
1 エージェントは環境から受け取った観測o(あるいは直接、環境の状態s)を受け取り、方策πに基いて環境に行為aを返す。
2 環境はエージェントから受け取った行為aと現在の状態sに基いて、次の状態s′に変化し、その遷移に基いて次の観測o′と、報酬rと呼ばれる直前の行動の良し悪しを示す1つの数(スカラー量)をエージェントに返す。
3 時間の進行:t←t+1
ここで←は代入操作を表す。
【0021】
なお、この販促システムにおけるAIでは、上記強化学習を行う前に、販促コンテンツとそれを提供された消費者の行動データとビッグデータ等を含む既存の蓄積データを教師データとしてAI(エージェント)に与えて教師あり学習を行っておくのが望ましい。
【0022】
この販促システムでは、ユーザ2の各種行動場面において当該ユーザ2に行為a
1〜a
5を行う各種専属エージェント9〜12、14と、それら専属エージェントを統括する統括エージェント15とを備えている。なお、店舗サーバ専属エージェント13はユーザに対して行為を行うものではなく、店内での商品配列の最適化等の店作り用の提案を行うものである。これら各専属エージェント9〜14と統括エージェント15とが連携して販促を行うマルチエージェントシステムで本販促システムが構成されている。
【0023】
ユーザ2の自宅において、ユーザ2がパーソナルコンピュータやスマートフォン55を操作してWEBサイトの閲覧や電子ショッピング等を行う。なお、自宅には後述するようにAIサーバ41(
図2参照)が設置されており、各種センサ(マイクを含む)40から収集されたユーザ2の声やユーザ2の位置に基づいて各種スピーカ58から情報提供やメッセージ等を発話する。これら情報提供やメッセージ等の発話は、AIサーバ41にインストールされているハウス専属エージェント9がユーザに対し行う行為a
1である。なお各種スピーカ58に加えて液晶等の表示装置により映像を映し出すことによって情報発信してもよい。
【0024】
次に、街中に出たユーザ2がスマートフォン55を操作してアプリ4を起動したときに、アプリ専属エージェント10がそのアプリ4を介してユーザ2に対し販促コンテンツ配信等の行為a
2を行う。このアプリ4は、後に詳しく説明するが、或る店で商品を購入した時のポイントを累積記憶したり当該店における販促コンテンツを表示したりする店舗アプリと、街中を移動するユーザ2が所定のエリア内に進入したときにそのユーザ2に販促コンテンツをプッシュ配信するためのジオフェンシングアプリとがある。ゆえに、アプリ専属エージェント10のその2種類のアプリに合わせて、店舗アプリ専属エージェントとジオフェンシングアプリ専属エージェントとの2種類が用意されている。街中を移動するユーザ2が例えばSNS5にログインしたときに、SNS専属エージェント11がそのSNS5を介してユーザに対し販促コンテンツ配信等の行為a
3を行う。街中あるいは店頭付近に設置されたサイネージ6による報知エリア内にユーザ2が進入したときに、サイネージ専属エージェント12がそのサイネージ6を介してユーザ2に対し販促コンテンツ配信等の行為a
4を行う。
【0025】
店の入り口から進入したユーザ2のスマートフォン55と通信することにより、店舗サーバ50が来店客数の計測、ユーザ2の店内での動線、行動、滞在時間、リピート回数等を集計してその集計データを店のスタッフに表示する。また、店舗サーバ専属エージェント13がそれら集計データや顧客属性データ、店舗データ等の一般的ビッグデータに基づいてデータマイニング等を行い、商品配置の最適化等の店づくり用のメッセージを店舗サーバ50により表示させる。更に、店内においてスマートフォン55と交信することにより、ユーザ2の店内移動を検知して移動場所に応じた店内プッシュ配信8をユーザ2のスマートフォン55に対して行う。その店内プッシュ配信8が店内専属エージェント14の行為a
5である。
【0026】
各種専属エージェント9〜12、14がユーザ2に対して行った行為a
1〜a
5が統括エージェント15側の消費者DB16に収集されて格納される。そして、行動環境1内での消費者2の状態が変化した場合、例えば消費者2がある店を訪問した場合やある商品を購入した場合に、ユーザ2がどのような商品をいくらの金額で購入したか等の消費者の行動データが消費者DB16に入力されてその金額等が記憶される。そして、その行動データが状態sとして統括エージェント15により各専属エージェント9〜14へ送信される。そして、統括エージェント15は、報酬DB17に格納されている報酬テーブルを参照して、所定の専属エージェントに対して行為に見合った報酬r1〜r5を送信する。
【0027】
このように、本実施形態における販促システムでの強化学習では、全体を統括する統括エージェント15が報酬を決めて各専属エージェント9〜14に与えている点が特徴である。従来から一般的な強化学習においては、単独のエージェント(専属エージェント)が行為を行ってその結果である状態に応じてあらかじめ定められた報酬を得るように構成されている。
【0028】
ところが、本実施の形態における販促システムにおいては、消費者の行動環境1におけるユーザ2の種々の場面で行為を行う各種専属エージェントが状態sに応じて予め定められた報酬を得るようにした場合には、各専属エージェントが自分のテリトリーのみでの最適化を学習することとなり、全体最適化とはならない不都合が生ずる。例えば、サイネージ専属エージェント12単独で考えた場合に、サイネージ専属エージェント12の使命はユーザ2を商店に誘導することである。よって、販促コンテンツとしてある商店への訪問を促すメッセージをサイネージ6を介してユーザに報知する行為を行ってその商店にユーザ2が訪れれば高い報酬が得られることとなる。ところが、本実施形態における販促システムのように、各場面毎にそれぞれの専属エージェントがユーザ2に対して行為を行う場合、例えばハウス専属エージェント9が高額のゴルフクラブの情報をユーザ2に報知してユーザ2がそのゴルフクラブを購入するために商店に移動する最中にサイネージ6によって地酒フェアを行っている商店の情報がユーザ2に報知されたとする。
【0029】
ユーザ2はそれを見てその店を訪問して地酒を購入した結果、高額ゴルフクラブを購入するための資金が不足してしまい、ゴルフクラブの購入をあきらめた場合、全体としてユーザ2の消費の促進にはなっていない。このように、各専属エージェントが単独で強化学習を行った場合には部分最適化に走り全体最適化にならないという欠点が生ずる。そこで、この販促システムでは、全体を統括する統括エージェント15が全体を見て消費の促進になったか否かで報酬を決めて各専属エージェントに与えるように制御している。
【0030】
各専属エージェント9〜12、14が行った行為a
1〜a
5は消費者DB16に収集されて格納されるとともに他の専属エージェントが行った行為が他行為aとしてそれぞれの専属エージェントに配信される。例えば、ハウス専属エージェント9には他行為としてアプリ専属エージェントの行為a2、SNS専属エージェントの行為a
3、サイネージ専属エージェントの行為a
4、店内専属エージェント14の行為a
5が配信される。
【0031】
次に、販促システムの全体ハードウェア構成を
図2に基づいて説明する。ユーザ宅56には、AIサーバ41、各種センサ40、各種スピーカ58およびユーザDB57がそれぞれ通信可能に設置されている。各種センサ40は、ユーザの移動および居場所を検知する人感センサ、温度や湿度を検知するセンサおよびユーザの音声を入力するマイクが含まれている。AIサーバ41にはハウス専属エージェント9がインストールされている。またAIサーバ41にはネット上を巡回して情報を収集するクローラもインストールされている。このAIサーバ41がインターネット79に接続されており、クローラがインターネット上を巡回して各種情報を収集し、その収集された情報の中からユーザにマッチする情報のみをハウス専属エージェント9が選び出してユーザDB57に格納する。このユーザDB57に格納されたデータおよび各種センサ40から入力されたデータに基づいて、ハウス専属エージェント9の発話機能によりユーザにマッチするメッセージや情報を各種スピーカ58から報知する。
【0032】
SNS業者59には、WEBサーバ42、AIサーバ43、ユーザDB60および販促DB61が互いに通信可能に設置されている。WEBサーバ42とAIサーバ43とはインターネット79に接続されている。ユーザ2がスマートフォン55またはパーソナルコンピュータ54を操作してSNSにログインした場合にWEBサーバ42がそのWEB閲覧のための制御を行う。またWEBサーバ42は、販促DB61に格納されている各種SNS広告等の販促コンテンツの中からログインしているユーザにマッチする販促コンテンツを表示する。ユーザDB62は、会員ユーザの各種行動データが格納されている。行動データとしては、トラッキング型クッキーで収集した他WEBサイトへの閲覧履歴やユーザ2が頻繁に訪問する地域等のロケーションデータである。これらのデータに基づいてAIサーバ43にインストールされているSNS専属エージェント11が強化学習を行いユーザ2にとって最適な販促コンテンツを販促DB61から選び出して行為a
3としてWEBサーバ42を介してユーザに提供する。
【0033】
図1に基づいて説明した店舗アプリがユーザ2のパーソナルコンピュータ54およびスマートフォン55にインストールされている。ユーザ2がそれらパーソナルコンピュータ54またはスマートフォン55で店舗アプリを起動させれば店舗アプリサーバ44が各種情報をパーソナルコンピュータ54またはスマートフォン55へ送信する。前述した店舗アプリ専属エージェントがAIサーバ45にインストールされている。店舗アプリサーバ44、AI45、ユーザDB62および販促DB63が互いに通信可能に接続されている。店舗アプリサーバ44とAIサーバ45とがインターネット79に接続されている。ユーザDB62には店舗アプリをインストールしている各ユーザ2毎の購買履歴データ等が格納されている。また販促DB63には店舗での販売商品情報や特売情報、レシピ、クーポン、プレゼント応募情報等の各種販促コンテンツが格納されている。AIサーバ45にインストールされている店舗アプリ専属エージェントは、前述した強化学習を行って、各ユーザ毎に最適な販促コンテンツを選び出して店舗アプリを介してユーザ2に提供する。
【0034】
図1に基づいて説明したジオフェンシングアプリがユーザ2のスマートフォン55にインストールされている。そのスマートフォン55に販促コンテンツを送信するためのアプリがジオフェンシングサーバ46にインストールされているとともにジオフェンシングアプリ専属エージェントがAIサーバ47にインストールされている。それらサーバ46、47に対してユーザDB64と販促DB65とが互いに通信可能に接続されている。ジオフェンシングアプリをインストールしているスマートフォン55を所持したユーザ2が、予めジオフェンシングサーバ46に登録されているプッシュ配信エリアに進入した場合に予め登録されている販促コンテンツを販促DB65から選びだしてそのスマートフォン55にプッシュ配信する。
【0035】
ユーザDB64にはユーザ毎の購買履歴データ等が格納されており、ジオフェンシングアプリ専属エージェントが強化学習を行って購買履歴データ等に基づいて最適な販促コンテンツをユーザのスマートフォン55に提供する。例えば、既購入商品で再購入時期が来るものを金額の高い順に優先して当該ユーザのスマートフォン55に表示させる制御を行う。なお、店舗アプリとジオフェンシングアプリとを別々にスマートフォン55等にインストールするのに代えて、両アプリを一体のものに構成して一括スマートフォン55にインストールできるようにしてもよい。
【0036】
サイネージ6に表示させるための販促コンテンツが販促DB70に格納されている。その販促DB70とユーザDB69とサイネージサーバ48とAIサーバ49とが互いに通信可能に接続されている。サイネージサーバ48とAIサーバ49とがインターネット79を経由してサイネージコントローラ68と通信可能に接続されている。オペレータがサイネージサーバ48を操作してサイネージ6に表示させるための販促コンテンツをあらかじめ販促DB70に格納しておく。スマートフォン55のブルートゥース(登録商標)をオンにしているユーザがサイネージ6による報知エリア内に進入した場合に、そのスマートフォン55がビーコン66の識別IDを受信しその識別IDを無線LANルータ67、サイネージコントローラ68、インターネット79を経由してサイネージサーバ48およびAIサーバ49に送信される。またスマートフォン55はそのビーコン66の識別IDの送信とともにユーザIDもサイネージサーバ48およびAIサーバ49へ送信する。なお、LANはLocal Area Networkのことである。
【0037】
AIサーバ49にインストールされているサイネージ専属エージェント12は、送信されてきたユーザIDに基づいてユーザDB69を検索してユーザを特定し、そのユーザについての強化学習を行い、当該ユーザに最適な販促コンテンツを販促DB70から選択して、その販促コンテンツをインターネット79、サイネージコントローラ68を経由してサイネージ6により表示させる。
【0038】
小売店71には、店舗サーバ50、AIサーバ51、熱感知センサ72、無線LANルータ67、ユーザDB73、販促DB74、プッシュ配信サーバ52およびビーコン66が設置されている。AIサーバ51には、
図1に基づいて説明した店舗サーバ専属エージェント13と店内専属エージェント14とがインストールされている。店舗サーバ50とAIサーバ51とがインターネット79に接続されている。ユーザ2が店の入り口に進入した場合にそのユーザを熱感知センサ72が検出して店舗サーバ50へ検出信号を送信する。店内の要所要所に設置されたビーコン66の通信エリア内にユーザ2のスマートフォン55が進入した場合に、そのスマートフォン55がブルートゥース通信によってビーコンから発信された識別IDを受信し、その識別IDを無線LANルータ67に送信し、その識別IDが店舗サーバ50、AIサーバ51およびプッシュ配信サーバ52に送信される。
【0039】
店内の要所要所に設置された各ビーコン66から送信されてくるそれぞれの識別IDを店舗サーバ50が受信することにより、店内でのユーザ2の動線、行動、滞在時間とを集計することができる。またユーザが当該小売店71内において商品を購入した場合にはその購入商品の種類と購入金額とユーザIDとが店舗サーバ50およびAIサーバ51に送信される。このユーザ2の購入データが消費者の行動データとして統括管理業者75の統括管理用AIサーバ53へ送信され、消費者DB76に格納される。
【0040】
また、AIサーバ51にインストールされている店舗サーバ専属エージェント13は、店舗サーバ50によって集計されたユーザ毎のデータに基づいて、また一般ビッグデータDB77に格納されている天候データ等のビッグデータに基づいて、データマイニングを行って売れ筋商品パターンや売れ筋商品組合わせを見つけ出し、商品の配置等の店づくり用のメッセージを店舗サーバ50に表示させる。さらにAIサーバ51にインストールされている店内専属エージェント14は、各ビーコン66から送られてくるそれぞれの識別IDによりユーザの居場所を特定し、それぞれの居場所に応じた当該ユーザに最適な販促コンテンツを販促DB74から選び出してプッシュ配信サーバ52を経由してユーザのスマートフォン55に表示させる。この販促DB74には、例えば、当該ユーザに最適なクーポン、当該ユーザの過去の購入履歴に応じたリピート商品の提案、何も購入しなかったユーザに対して再訪問を誘導するための次回に使えるクーポン等が格納されている。
【0041】
統括管理業者75の統括管理用AIサーバ53には、
図1に基づいて説明した統括エージェント15がインストールされている。この統括管理用AIサーバ53に対して消費者DB76と報酬DB17とが接続されている。また統括管理用AIサーバ53はインターネット79に接続されている。
【0042】
更に、インターネット79には一般ビッグデータDB77とロケーションDB78とが接続されている。一般ビッグデータDB77には前述した天候情報や催事の情報等が格納されている。ロケーションDB78には、ユーザID毎に当該ユーザが移動した地理的位置データ(ロケーションデータ)が格納されている。
【0043】
次に、スマートフォン55の制御回路のハードウェア構成を説明する。制御中枢としてのCPU(Central Processing Unit)23、CPU23のワークエリアであるRAM(Read Only Member)24、各種機能を実行するためのプログラムを保存したROM25、EEPROM(Electronically Erasable and Programmable Read Only Memory)26がバス27により接続されている。EEPROM26には、インターネット79を通じてダウンロードしたアプリ等が記憶されている。
【0044】
バス27は、インタフェース部28を介して種々のデバイスが接続されている。例えば、カメラ入力部29、表示部30、基地局と無線通信してインターネット79を介してサーバ等とデータ通信する無線通信処理部31、入力操作部32、ユーザが音声により通話をするための音声出力部33と音声入力部34、衛星からのGPS情報と基地局からの電波と無線LANアクセスポイントからの無線電波とに基づいて、現在位置を取得するための位置情報取得部35、Wi-FiやBluetooth(登録商標)、Wi-Fi Direct、Zigbee、Zwave、Ant+などを用いて通信する無線通信インタフェース部36などが、インタフェース部28に接続されている。
【0045】
次に、
図3(b)に基づいて、各種サーバ41〜53およびパーソナルコンピュータ54の制御回路のハードウェア構成を説明する。前述と同様に、CPU80、RAM81およびROM82がバス83により接続されている。そのバス83が接続されているインタフェース部84には、インターネット79等との通信部85、オペレータに映像や情報を表示する表示部86、オペレータからの操作を受付ける入力操作部87が接続されている。AIサーバ41、43、45、47、49、51、53は、ノイマン型の一般的なコンピュータを用いているが、ニューラル・ネット・プロセッサー(NNP)を用いてもよい。NNPのチップ上には本物のニューロンをモデルにした「人工ニューロン」が多数搭載されており、各ニューロンはネットワークでそれぞれ連携し合う。また、「量子アニーリング方式」を採用した量子コンピュータを用いてもよい。これにより、機械学習における最適化計算の所要時間を大幅に短縮できる。
【0046】
次に
図4〜
図6に基づいて統括エージェント15の制御動作を説明する。統括エージェント15には、前述したように、各専属エージェント9〜14に与える報酬r1〜r5を制御することにより各専属エージェント9〜14をコントロールして全体最適化を図るものである。
図4(a)を参照してステップ(以下単にSという)1により各専属エージェントとの通信処理を行い、S2により強化学習処理を行い、制御がS1に戻る。各専属エージェントとの通信処理の具体的制御動作を
図4(b)に基づいて説明する。S5により仮IDと行為a
ijを受信したか否か判定する。受信していない場合にはこの通信処理が終了してリターンしS2に制御が移行する。
【0047】
図1に基づいて説明したように、各専属エージェント9〜12、14はユーザ毎に最適と思われる行為a
1〜a
5を行うのであり、その行為を受けたユーザ2がその後どのような行動を取ったかを統括エージェント15が特定してその行動を状態sとして各専属エージェント9〜14に配信する。よって、各専属エージェント9〜14と統括エージェント15との間で同一のユーザを同定する識別子が必要となる。それを満たす1番シンプルな方法としては、各専属エージェント9〜14および統括エージェント15の全てに共通する統一IDを各ユーザ毎に割り振ることである。しかし、そのように統一IDを割り振った場合には、ある専属エージェントと他の専属エージェントとの間で統一IDに基づいた名寄せが可能となり、ユーザ毎に個人情報を横流しするというプライバシー上の問題が生ずる虞がある。しかも、SNS5等にアカウント登録しているユーザ2の場合には当該SNS固有のユーザIDを既に保有している。小売店71や店舗アプリをインストールしているユーザ2においても同様に固有のユーザIDを既に登録している場合がある。そこで本実施の形態においては、各専属エージェント毎の固有のユーザIDの他に各専属エージェント毎の仮IDをユーザ毎に登録してもらい、その専属エージェント毎の各仮IDと統一IDとを紐づけるようにしている。
【0048】
図5に示すように、消費者DB16に格納されているIDテーブルにおいて、例えばユーザ山田太郎がハウス用仮ID、店舗アプリ用仮ID、ジオフェンシング用仮ID、SNS用仮ID、サイネージ用仮ID、店舗用仮IDをそれぞれ登録してそれらの仮IDを統括管理用AIサーバ53へ送信する。統括管理用AIサーバ53では、その送信されてきたユーザ山田太郎の各仮IDに対し統一IDを割り振ってそれぞれ紐づけてIDテーブルに記憶する。このように構成することにより、前述した名寄せによるユーザのプライバシー問題を解決することができる。しかも、統括管理用AIサーバ53においては、各専属エージェント9〜14におけるそれぞれの仮IDまでは知得できるがその仮IDから専属エージェント固有のユーザIDを知得することができないため、その固有のユーザIDに紐づいたユーザの個人情報を不正に入手することが防止できる。
【0049】
図5(b)に示すように、仮IDは例えばhttp://abcsf27aのように、送信元のインターネット上の住所である「http://abc」と、ユーザのIDである「sf27a」とから成り立っており、この仮ID単独でその送信元の専属エージェントを特定することができる。
【0050】
図4(b)に戻り、仮IDと行為a
ijを受信した場合にS5によりYESと判定されて制御がS6へ進み、IDテーブルを検索して専属エージェントと統一IDとを特定する処理が行われる。例えば受信した仮IDがhttp://jkmec89cであった場合に
図5(b)のIDテーブルを参照して、SNS専属エージェントから送られてきた仮IDであって統一IDが000002であることが分かる。次にS7により、その特定された専属エージェントの統一IDエリア(行為テーブルのエリア)に行為a
ijを記憶するとともにT期間を経過した古い行為a
ijの記憶を消去する処理が行われる。例えばSNS専属エージェントから送られてきた統一IDが000002の仮IDの場合には
図6(c)を参照して行為テーブル(T期間内)における統一IDが000002の行でSNS専属エージェントの列で特定されるエリアにa
32を記憶する。そしてその行為テーブルではT期間を経過した古いデータが消去される。
【0051】
次に制御がS8へ進み、受信した行為a
ijを他の専属エージェントへ送信する制御が行われる。例えば、受信した仮IDがSNS専属エージェント11からのものであった場合にはSNS専属エージェント11以外の専属エージェントであるハウス専属エージェント9、店舗アプリ専属エージェント、ジオフェンシング専属エージェント、サイネージ専属エージェント12および店内専属エージェント14に対して受信した行為a
32を送信する。次に制御がS9へ進み、仮IDと消費者の行動データとを受信したか否か判定され、受信していない場合にはこの各専属エージェントとの通信処理がリターンして制御がS2へ移行する。一方、いずれかの専属エージェントから仮IDと消費者の行動データとを受信した場合には制御がS10へ進み、その受信した行動データを状態sとして各専属エージェントへ送信する。この行動データとは例えばユーザがゴルフクラブを購入した等のデータである。このS10では、どのユーザの行動データかを各専属エージェントが分かるようにその行動を起こしたユーザの仮IDを各専属エージェントへ送信する。例えば、S9により受信したと判定された仮IDがhttp://qrsp32qcであった場合には統一IDが000001のユーザであるために、そのユーザを特定できる仮ID、すなわち、ハウス専属エージェントに対してhttp://abcsf27a、店舗アプリ専属エージェントに対してhttp://defak8b3、ジオフェンシング専属エージェントに対してhttp://ghim2s2a、SNSエージェントに対してhttp://jkmrn33c、サイネージ専属エージェント12に対してhttp://nopt6a3c、店舗サーバ専属エージェント13と店内専属エージェント14に対してhttp://qrsp32gcを送信する。次に制御がS11へ進み、報酬テーブルを参照して報酬rを算出して該当する専属エージェントへ送信する。この報酬テーブルは
図6(b)に示されている。次に制御がS12へ進み、S5により受信したと判定された行動データが購入データの場合にその購入金額を購入額テーブル(
図5(c)参照)に加算更新する。例えば統一IDが000001のユーザが平成29年5月に4000円の地酒を購入した場合には購入額テーブルを参照して統一IDが000001の行におけるH29.5の行の「51320円」が「55320円」に加算更新されることとなる。
【0052】
次に、S2に示した強化学習処理のサブルーチンプログラムのフローチャートを
図4(c)に基づいて説明する。S20により学習更新時期か否か判定される。統括エージェント15では例えば1ヶ月毎に学習更新を行うように設定されている。例えば月末が学習更新時期である。学習更新時期でない場合にはS20によりNOと判定されてこの強化学習処理がリターンして制御がS1へ戻る。一方月末が到来した場合にはS20によりYESと判定されて制御がS21へ進み、購入額テーブル(
図5(c)参照)を参照して当月(例えばH29.5)おの平均購入額G
tを算出する。
図5(c)に示す購入額テーブルの場合には例えば51201円となっている。次にS22により、報酬r
t=(G
t−G
t−1)/Cを計算する。このCは定数であり例えば1000等の数字である。またtは月数を示し5月の場合には5となる。したがって、5月の報酬r
5=(G
5−G
4)/1000=(51201−50001)/1000=1.2となる。
【0053】
次にS23へ進み、PD学習により最適政策π
*に従った行為データa1〜a4を求める制御が行われる。時間tのときの状態をs
tとすると一般的に最適政策は、
π
*(s
t):Choose a
t*ifQ
*(s
t,a
t*)
の式で表される。PD学習とはTemporal Differelce学習のことであり、モデルフリーの手法を用いてQ値を推定するものである。
【0054】
また行為データa1〜a4は
図6(b)に示す報酬テーブルに示されたa1〜a4のことであり、各専属エージェントへの報酬rを算出する際の係数(定数)のことである。そしてS24により報酬テーブルのa1〜a4をS23により求めた値に更新する制御が行われる。
【0055】
このように、統括エージェント15は、S22により求めた報酬r
tすなわち今月のユーザの平均購入額から先月のユーザの平均購入額を引いた差が大きくなるように最適政策π
*を決定してその最適政策π
*に従って行為データa1〜a4を更新して各専属エージェントへの最適な報酬rを学習する。その結果、各専属エージェントが部分最適化に走ることなく全体最適化すなわち全ユーザにおける平均購入額の最大化を達成することができる。
【0056】
図5(a)を参照して、統括エージェント15側の消費者DB16にはIDテーブルと購入額テーブルとが記憶されている。IDテーブルとは
図5(b)に示すように、各専属エージェント用の仮IDとそれに対応する統一IDとが紐づけで記憶されている。また購入額テーブルは
図5(c)に示すように、ユーザ毎すなわち統一ID毎に各月のトータルの購入額が記憶されており、購入額テーブルの最終行に全ユーザの平均購入額が月毎に記憶されている。
【0057】
図6(a)を参照して報酬DB17には、報酬テーブルと行為テーブルとが記憶されている。報酬テーブルは
図6(b)に示すように状態sの欄と報酬rの欄とからなる。状態sすなわちユーザの行動が金額Kの商品を購入した場合には、購入前T期間内に購入対象をレコメンドした各専属エージェントへの報酬を、
r=a1・K/(R+購入対象レコメンド回数)で計算する。Rはレコメンドした品目数である。この式からわかるように、専属エージェントがレコメンドした品目数が少なくかつユーザの購入対象(例えばゴルフクラブ)のレコメンド回数が少ないほど、報酬rが大きくなる。
【0058】
また購入前T期間内に購入対象をレコメンドしなかった各専属エージェントへの報酬を、
r=−a2・k・Rで算出する。ここに・は乗算を意味している。
【0059】
また状態sとしてユーザが来店したが購入しなかった場合には、来店前T周期内に来店を促した各専属エージェントの報酬r=a3、来店前T周期内に来店を促さなかった各専属エージェントへの報酬r=−a4とする。
【0060】
行為テーブルは
図6(c)に示すように、ユーザ毎すなわち統一ID毎に各専属エージェントが行った行為が記されている。例えば統一ID000001のユーザに対しては、ハウス専属エージェント9がa
11,店舗アプリ専属エージェントがa
21、SNS専属エージェントがa
31、店内専属エージェントがa
61の行為を行っている。この行為テーブルに記憶されるデータの記憶期間はT期間であり、T期間を経過した古いデータは記録から削除される。また各専属エージェントがユーザに対して行った行為a
ijは,例えばゴルフクラブの商品を含む販促コンテンツをユーザに提示したとか、○○デパートがコスメフェアを開催している旨の販促コンテンツを提示した等である。そして、ユーザがゴルフクラブを購入した場合にはそのゴルフクラブをレコメンドする販促コンテンツをユーザに提示した各専属エージェントに対して報酬が与えられる。またユーザが○○デパートを訪問した場合には○○デパートのレコメンドを含むコンテンツをユーザに提示した各専属エージェントに対して報酬を与える。
【0061】
次に、ユーザ宅56のAIサーバ41にインストールされているハウス専属エージェント9の制御動作を説明する。まず
図7(a)に基づいてハウス専属エージェントのメインルーチンを説明する。S30によりクローラが収集したデータ中にユーザにマッチするものが有るか否か判定される。ない場合には制御S32に進むが、有る場合にはS31によりユーザDB57にそのマッチするデータが格納される。その状態が
図7(c)のユーザDB57に格納されているテーブルデータにおける「収集格納データ」の列に示されている。ユーザ宅56には、山田太郎、山田花子、山田さくらの三人家族であり、例えば山田太郎に対してはマッチする収集データとして○○商店ゴルフ大安売り、〇〇デパート地酒フェアー等のデータである。次にS32に進み、統括エージェントとの通信処理が行われ、S33により強化学習処理が行われた後、制御S30へ戻る。
【0062】
次にS32に示された統括エージェントとの通信処理のサブルーチンプログラムのフローチャートを
図7(b)に基づいて説明する。S38により、ハウス専属エージェント9以外の専属エージェント10〜12、14がユーザに対し行なった他行為aを統括エージェント15から受信したか否か判定され、受信していない場合には制御がS40に進むが、受信した場合にはS39によりその受信した他行為aをユーザDB57に格納する処理が行われる。その結果、
図7(c)に示すように、ユーザDB57のテーブルデータ中の「他行為a
ij」の列に他行為が記憶される。例えば、山田太郎の場合には、店舗アプリ専属エージェントが行なった他行為a
21、SNS専属エージェント11が行なった他行為a
31、店内専属エージェント14が行なった他行為a
61が記憶されている。
【0063】
S40によりユーザの状態sを統括エージェント15から受信したか否か判定される。受信していない場合には制御がS42へ進むが、受信した場合にはS41によりユーザDB57にその受信した状態sが格納される。その状態が
図7(c)のテーブルデータ中の「状態s」の列に示されている。例えば山田太郎の場合には状態sとして「ゴルフクラブ購入」となっている。
【0064】
次にS42により、ハウス専属エージェント9がユーザ2に対し行為a
1jを行ったか否か判定する。行っていない場合にはこの統括エージェントとの通信処理が終了してリターンする。ハウス専属エージェント9は、ユーザ2と対話する機能を有しており、例えば山田太郎の「ゴルフクラブの安売りを行っているところないかなあ」の問いかけに対して、現時点での最適政策π
*に従って最適な行為、例えば「○○商店でゴルフの大安売りを行っています」のメッセージを山田太郎に報知する。このような行為a
1jが行われた場合には、S42によりYESと判定されて制御がS43へ進み、当該ユーザの仮IDとを行為a
1jとをエージェント15へ送信するとともにa
1jを自行為としてユーザDB57に格納する処理がなされた後リターンする。自行為がユーザDB57に格納された状態が
図7(c)に示されている。例えば山田太郎の場合には自行為a
1jの列においてa
11が格納されている。
【0065】
現時点における最適政策π
*に従った行為a
1jを求める際には、他行為a
ijとして既に他の専属エージェントがユーザに対し行った行為も考慮して行われる。例えば山田太郎の場合には、他行為として既にa
21,a
31,a
61が行われているために、それらをも考慮して自行為を求める。後述するS61による行為を求める場合も同様である。この点が本販促システムにおける重要な特徴点である。一般的な強化学習の場合には、単独のエージェントが行なった行為に対して報酬rが与えられるのが一般的であるが、本販促システムの場合には複数の専属エージェント9〜12、14が連携して1人のユーザ(山田太郎)に対して行為を行うために、他の専属エージェントが既に行った行為をも考慮して次に自分が行う自行為を決定するのである。
【0066】
また、ユーザDB57には、ハウス用仮IDも格納されている。例えば山田太郎の場合にはhttp://abcsf27aとなっている。
【0067】
次にS33に示された強化学習処理のサブルーチンプログラムを
図8(a)に基づいて説明する。S60により統括エージェント15から報酬rを受信したか否か判定され、受信してない場合には、この強化学習処理がリターンする。報酬rを受信すれば制御がS61へ進み、TD学習により最適政策π
*に従った行為a
1j求める処理が行われる。次にS62によりその求めたa
1jをユーザに報知するとともにユーザDB57に格納する処理が行われる。
【0068】
次にSNS専属エージェント11の制御動作を説明する。
図8(b)に基づいてまずSNS専属エージェント11のメインルーチンを説明する。S70により複雑ネットワーク理論に基づいた販促処理が行われる。次にS71により統括エージェントとの通信処理が行われ、次にS72により強化学習処理が行われ、次にS73によりユーザのログインがあったか否か判定される。ない場合には制御S70へ戻るがログインがあった場合には制御がS74へ進み、販促コンテンツ報知処理が行われた後制御がS70へ戻る。
【0069】
次にS70に示された複雑ネットワーク理論に基づいた販促処理のサブルーチンプログラムのフローチャートを
図8(c)に基づいて説明する。S50により仮想コミュニティの更新時期になったか否か判定される。未だ更新時期になっていない場合にはこのサブルーチンプログラムがリターンする。仮想コミュニティの更新は例えば1週間毎に行われ、その更新時期が到来した段階でS50によりYESと判定されて制御がS51へ進む。この仮想コミュニティとは、ユーザ集合により消費形態の関連性が高いユーザ同士をグルーピングして分割した各分割コミュニティのことであり、その詳細は後述する。SNS会員ユーザの増加、ユーザに対するレコメンド回数の増加、およびレコメンドした結果のユーザの反応(販促コンテンツの閲覧やそれに基づいた商品の購入)等により、定期的に仮想コミュニティを更新する必要がある。その予め定められた更新時期が来たか否かをこのS50により判定している。
【0070】
S51では、購入履歴データに基づいたユーザベースのネットワークKを作成する処理が行われる。このユーザベースネットワークKの原理を
図9(a)に基づいて説明する。
図9(a)では、分りやすさを優先するために、ユーザ数をA、B、C、D、Eの5人に絞り、商品数を1、2、3、4の4品に絞ってシンプル化している。ユーザ集合140の各ユーザが商品集合141の内のどの商品を購入したかを矢印→で示している。例えばユーザAは商品1と2と3を購入している。ユーザBは商品1と2とを購入している。そして、同じ商品を購入したユーザ同士をリンク(またはエッジともいう)で繋いだネットワークがユーザベースネットワーク142である。S51は、購入履歴データに基づいたユーザベースネットワークKを作成する。ゆえに、このユーザベースネットワークKは同じ商品を購入したユーザ同士をリンクで繋いだネットワークである。
【0071】
次にS52により、来店履歴データに基づいたユーザベースネットワークSを作成する処理がなされる。その結果、このユーザベースネットワークSは、同じ商店に来店したユーザ同士をリンクで繋いだネットワークとなる。次にS53により、ユーザがアカウント登録時に入力したユーザ属性データに基づいたユーザネットワークZを作成する処理が行われる。このユーザ属性データとは、例えば、ユーザの年齢、性別、好みのブランドや好みの色等のユーザの嗜好情報などである。これにより、このユーザベースネットワークZは、各種嗜好情報や年齢等の各属性が同じユーザ同士をリンクで繋いだネットワークとなる。
【0072】
次に、S54により、ユーザベースネットワークK,S,Zの各々に基づいて仮想コミュニティ分割K(k1,k2,k3…),S(s1,s2,s3…),Z(z1,z2,z3…)を作成する処理がなされる。この仮想コミュニティ分割について以下に簡単に説明する。
図9(a)のユーザベースネットワーク142において、各ユーザA,B,C,D,Eをノードとしてそれぞれのユーザを繋いでいる線をリンクとして、両者の関係を次数分布という視点でみるとべき乗則に従っている。このべき乗則に従っているという現象は、複雑ネットワーク理論におけるスケールフリー性と呼ばれるものであり、多種多様な消費活動において何らかの自己相似的な行動パターンが存在することを示すものである。
【0073】
このような性質を有するユーザベースネットワーク142において、辺の媒介中心性を算出する。これは、ネットワークにおいてどのくらい中心的な指標であるかをリンクに適応したものである。例えば、あるユーザと他のユーザとの繋がり(リンク)を除外すると、コミュニティ間の繋がりがなくなったり、あるいは、遠くなったりするような繋がり(リンク)ほどスコア(指標)が高くなる。この各リンクについて算出された媒介中心性の値が最大となるリンクを取り除いてネットワークを分割するという処理を繰り返すことにより、コミュニティを分割していく。このコミュニティの分割回数(ステップ数)についてどのステップ数まで行うかは、モジュラリティQの指標を用いる。このモジュラリティQは、分割されたコミュニティ内の繋がり具合とコミュニティ間の繋がり具合とを比較した指標である。このモジュラリティQが最大となる分割ステップ数まで分割処理を行う。
【0074】
このようにして、ユーザベースネットワークK,S,Zの各々について仮想コミュニティ分割を行う。S54のK(k1,k2,k3…)は、ユーザベースネットワークKについて仮想コミュニティ分割を行い、k1,k2,k3…の各仮想コミュニティ分割がなされたことを示している。S(s1,s2,s3…)とZ(z1,z2,z3…)も同様の意味を示している。
【0075】
そしてS55により、上記3つの仮想コミュニティ分割K,S,Zの各分割コミュニティ内で商品ベースネットワークを作成する処理がなされる。この商品ベースネットワークとは、同じユーザが購入した商品同士(または訪問した商店同士)をリンクで繋いだネットワークのことである。ただし、前述したユーザ属性についてのネットワークは作成しない。
【0076】
次にS56により、その各分割コミュニティ毎の商品ベースネットワークにおいてリンク数の多い商品順に優先順位をつけて記憶する処理がなされる。各ユーザベースネットワークの分割コミュニティは、商品購入に関する関連性の高いユーザ同士の分割コミュニティ、訪問した商店についての関連性の高いユーザ同士のコミュニティ、ユーザ属性について関連性の高いユーザ同士のコミュニティというように、消費形態の関連性の高いユーザ同士のコミュニティ内において、関連性の高い商品同士がリンクで繋がっているのであり、そのリンク数の多い商品とは各コミュニティ内において関連性の高い商品ということになる。よって、レコメンデーションする場合においてそれら関連性の高い商品から順にレコメンドするのが効率的となる。例えば、ユーザAは、各商品コミュニティ分割の内k1とs2とz3とのコミュニティ分割に属している場合に、k1内でのリンクの多い優先順位の高い商品から順にレコメンドし、s2内でのリンク数の多い優先順位の高い商品からレコメンドし、z3内でのリンク数の多い優先順位の高い商品からレコメンドするのが効率的である。SNS専属エージェント11はそのような優先順位の高い商品を含む販促コンテンツを優先してユーザに報知する。
【0077】
図8(b)に戻り、S71により統括エージェントとの通信処理が行われる。この統括エージェントとの通信処理は
図7(b)に示した統括エージェントとの通信処理と同様の内容であり、ここでは説明の繰り返しを省略する。この統括エージェントとの通信処理(S71)の結果、ユーザDB60に格納されたユーザテーブルに
図10(b)のようなデータが格納されることとなる。このユーザテーブルにおいて「ユーザID」は、SNS業者59のSNSにおいてアカウント登録しているユーザにおけるそのアカウント登録時のユーザIDである。
【0078】
図9(b)を参照して、ユーザDB60には、複雑ネットワーク学習テーブルとその他学習テーブルとユーザテーブルとが格納されている。複雑ネットワーク学習テーブルは、仮想コミュニティ分割と状態データS(購入額/レコメンド回数)と行為データa(重み付け)との項で構成されている。前述した各仮想コミュニティ分割k1,k2,k3…,s1,s2,s3…,z1,z2,z3…毎に、状態データS(購入額/レコメンド回数)と行為データa(重み付け)とが対応付けて記憶されている。状態データSは、各コミュニティ分割に属するユーザに対して商品のレコメンドを行った結果、当該ユーザが商品を購入した場合の購入額をレコメンド回数で割った商である。例えば仮想コミュニティ分割k1のユーザに対し、10回のレコメンドを行った結果13300円のスーツを当該ユーザが購入した場合には、13300/10=1330となる。
【0079】
行為データaは、前述のS56で算出された各分割コミュニティ毎の優先順位に対し、各分割コミュニティ毎の重み付けの値である。例えば、分割コミュニティk1についての優先順位に対しては、重み付けが7であり、当該優先順位をその重み付け7で割った商を最終的な優先順位として使用する。例えば、仮想コミュニティs2の場合には重み付けが5となっており、当該仮想コミュニティ分割s2の優先順位に対し5で割った商を最終的な優先順位として用いる。
【0080】
よって、例えば仮想コミュニティ分割k1では最終的な優先順位が1/7,2/7,3/7…となる一方、仮想コミュニティs2の優先順位は1/5,2/5,3/5…となる。そして、例えばユーザが仮想コミュニティ分割k1とs2との両方に属している人物であった場合には、当該ユーザにレコメンドする優先順位として、優先順位の値の小さい商品から順にレコメンドする。上記の人物の例では優先順位として、1/7,1/5,2/7,2/5,3/7,3/5…となる。
【0081】
次に、ユーザDB60に格納されているその他学習テーブルを
図10(a)に基づいて説明する。その他学習テーブルでは、商品類別の項と行為データa(重み付け)の項とから構成されている。ユーザが既に購入した既購入商品で再購入時期がくるものについて金額の大きいもの順に優先順位を定め、それに対する行為データa(重み付け)が10と記憶されている。他の専属エージェントが行った他行為a
ijとしてレコメンドされた商品についてその金額の大きい順に優先順位が定められそれに対する行為データa(重み付け)が8と記憶されている。ユーザが閲覧したWEBサイトでの取扱商品についてはユーザが訪問した訪問回数の多いウェブサイト順に優先順位が定められ、それに対する行為データa(重み付け)が5と記憶されている。ユーザが訪問した地域に位置する店の情報についてはユーザが訪問した回数の多い地域順に優先順位が定められそれに対する行為データa(重み付け)が4と記憶されている。
【0082】
以上により、例えばユーザが仮想コミュニティ分割k1とs2との両者に属し且つ当該ユーザに対し他行為a
ijとしてレコメンドされた商品が複数ある場合の優先順位としては、1/8,1/7,1/5,2/8,2/7,3/8,2/5,3/7,4/8,3/5…となる。
【0083】
次に、ユーザDB60に格納されているユーザテーブルを
図10(b)に基づいて説明する。このユーザテーブルではユーザID、SNS用仮ID,他行為a
ij、自行為a
3j、状態sに加えてユーザの行動データが記憶されている。この行動データとしては、ユーザがどのサイトを閲覧したかやどの地域を訪問したか等である。どのサイトを閲覧したかはトラッキング型クッキーを用いてWEBサーバ42が収集する。またどの地域を訪問したかは当該ユーザがGPS機能をオンにしたスマートフォン55を所持して移動したときのGPSデータ等に基づいてデータ収集する。例えばユーザID48231のユーザの場合には、ゴルフサイトと地酒サイトを閲覧している。その結果、状態sとしてゴルフクラブが購入されている。
【0084】
次に、S72で示した強化学習処理のサブルーチンプログラムのフローチャートを
図10(c)に基づいて説明する。この強化学習処理は
図8(a)に示した強化学習処理とほぼ同じであるが、相違点としては、S77において、TD学習により最適政策π
*に従った行為データa(重み付け)を求める点である。S61ではユーザに対して行う行為自体を求めているが、このS77では、
図9(b)および
図10(a)に示した行為データa(重み付け)を求めるのである。そして複雑ネットワークテーブルおよびその他学習テーブルに記録されている行為データa(重み付け)の値を新たなものに更新する処理がS78により行われる。
【0085】
なお、
図9(b)、
図10(a)、
図10(b)に示した複雑ネットワークテーブル、その他学習テーブルおよびユーザテーブルは、ユーザDB60ばかりでなくユーザDB62、ユーザDB64、ユーザDB69によっても同様のものが格納されている。なおユーザDB73については、複雑ネットワーク学習テーブルとユーザテーブルとについは同様のものが格納されているが、その他学習テーブルについては後述する
図13(b)に示すデータが格納されている。
【0086】
次に、S74に示された販促コンテンツ報知処理のサブルーチンプログラムのフローチャートを
図11(a)に基づいて説明する。S80によりユーザの属する各仮想コミュニティ分割毎の商品優先順位が検索され、S81により、その検索された各商品優先順位に対し現時点での行為データaで割った商を算出する処理がなされ、S82により、その他学習テーブルの各商品類別に該当するユーザの商品優先順位を検索する処理がなされ、S83により、その検索された各商品優先順位に対し現時点での行為データaで割った商を算出する処理がなされる。そして、S84により、全ての算出された商についてその商が小さい商品を含む販促コンテンツを優先してユーザに報知する制御が行われる。
【0087】
次に、AIサーバ45にインストールされている店舗アプリ専属エージェントのメインルーチンを
図11(b)に基づいて説明する。S90により複雑ネットワーク理論に基づいた販促処理が行われ、S91により統括エージェント15との通信処理が行われ、S92により強化学習処理が行われ、S93により新たな報酬を受信しているか否か判定され、受信していない場合には制御がS90へ戻る。一方、新たな報酬を受信している場合には制御がS94へ進み、販促コンテンツ報知処理が行われた後制御がS90へ戻る。
【0088】
S90の複雑ネットワーク理論に基づいた販促処理は
図8(c)に示したものと同じであり、S90の統括エージェントとの通信処理は
図7(b)に示したものと同じであり、S92強化学習処理は
図10(c)に示したものと同じであり、S94に示す販促コンテンツ報知処理は
図11(a)に示したものと同じであり、ここではこれらの処理の説明の繰り返しを省略する。
【0089】
ジオフェンシング専属エージェントのメインルーチンを
図12(a)に、サイネージ専属エージェントのメインルーチンを
図12(b)に、店内専属エージェントのメインルーチンを
図12(c)に示す。これらメインルーチンは、
図11(b)に示した店舗アプリ専属エージェントのメインルーチンとほぼ同じである。相違点としては、ジオフェンシング専属エージェントではS103でユーザ2がジオフェンシングによる販促コンテンツの配信エリア内に進入したか否か判定される。サイネージ専属エージェントではS113でサイネージによる販促コンテンツの報知エリア内にユーザ2が進入したか否か判定される。店内専属エージェントではS123でユーザ2がプッシュ配信エリア内に進入したか否か判定される。
【0090】
次に、店舗サーバ専属エージェント13の制御を
図13(a)に基づいて説明する。S130により、過去の購買商品データ、購買日時、天候データ、顧客属性データに基づいてデータマイニングを行い、売れ筋商品のパターンと売れ筋商品の組合わせとを見つけ出す処理がなされる。売れ筋商品のパターンとは、気温、天候、曜日、時間帯別にどのような商品がよく売れるかのパターンのことである。また売れ筋商品の組合わせとは、Aの商品を購入した客は高い確率でBの商品も購入する等の商品同士の相関関係のことである。
【0091】
次にS131により、売れ筋商品のパターンと売れ筋商品の組合わせとに基づいて店づくり用メッセージを報知する処理が行われる。例えば、売れ筋商品のパターンに該当する日時においてはその売れ筋商品を店の前面に出すとか、売れ筋商品の組合わせに基づいて相関関係のある商品同士を隣接する売り場に配置する等のメッセージを行う。次にS132により、売れ筋商品のパターンと売れ筋商品の組合わせと行為データa(重み付け)の初期値とをユーザDB73のその他学習データテーブルに格納する処理が行われる。
【0092】
次に
図13(b)を参照して、ユーザDB73には、複雑ネットワーク学習テーブルとその他学習テーブルとユーザテーブルとが格納されている。複雑ネットワーク学習テーブルとユーザテーブルとは
図9(b)、
図10(b)と同じ内容であるためにここでは説明の繰り返しを省略する。その他学習テーブルにおいては、商品類別の項において、既購入商品で最購入時期が来るもの(金額順)と、他行為a
ijとしてレコメンドされた商品(金額順)とは、
図10(a)に示したものと同じである。
【0093】
そして、このユーザDB73には、商品類別の列において、売れ筋商品のパターン(金額順)と売れ筋商品の組合わせ(金額順)とそれぞれに対応した行為データa(重み付け)とが記憶されている。前述した店内専属エージェントのS122に示した強化学習処では、
図13(b)のその他学習テーブルに示した商品類別の各々に対応づけられた行為データa(重み付け)を最適化する学習が行われる。
【0094】
次に、以上説明した実施形態の変形例や特徴点等を以下に列挙する。
【0095】
(1) 前述した実施形態における販促システムでは、各専属エージェント9〜14とそれを統括する統括エージェント15とにより強化学習を行っているが、それに代えて、全ての専属エージェントの機能あるいは一部の専属エージェントの機能を統括エージェント15に持たせ、統括エージェント15がその専属エージェントの役割を担うようにしてもよい。その場合に、統括エージェント15をモバイルエージェントで構成し、専属エージェントのAIサーバへ移動して専属エージェントの機能を発揮できるように構成してもよい。更に、各専属エージェント9〜14と統括エージェント15とのプログラムがインターネット経由でAIサーバにインストールされる代わりに、これらエージェントプログラムの全部または一部を記録媒体(CD−ROM)を介してAIサーバにインストールしてもよい。さらに、これらエージェント機能の全部または一部をクラウドサービスで実現してもよい。
【0096】
(2) 前述の実施形態では、各専属エージェント9〜14および統括エージェント15が強化学習を行っているが、深層強化学習(Deep Q-Network)を行うようにしてもよい。深層強化学習とは、強化学習の関数近似に深層学習(Deep Learning)の技術を適用したものである。強化学習におけるQ学習の最大の特徴は、(s,a)の全ての組からサンプル (s,a,r,s′)が無限回得られるとするなら、それらをどのような順番で与えたとしても必ず最適な価値関数Q
*(s,a)が得られるという点にある。全ての状態と行動についてテーブル関数Q(s,a)を作成するとなると、処理するデータ量が膨大なものとなるために、Q(s,a)に関数近似を用いる。この関数近似に深層学習の技術を適用したものが深層強化学習である。従って、深層強化学習も強化学習の1種であり、「強化学習」の用語は「深層強化学習」も包含する広い概念である。
【0097】
(3) 本実施形態では、各専属エージェントに与えられる報酬を100%統括エージェント15が単独で決定しているが、それに代えて、各専属エージェントに与えられる報酬のうちのN%を統括エージェント15側で決定し残りの(100−N)%を専属エージェント側で決定するようにしてもよい。この場合、統括エージェント15側で決定された報酬と専属エージェント側で決定された報酬との和が当該専属エージェントに与えられる報酬となる。
【0098】
(4) 前述した実施形態では、マルチエージェントシステムのアイデア(特徴点)を販促システムに適用したものを例示したが、用途としては販促システムに限定されるものではなく、複数の専属エージェントと統括エージェントとが連携する一般的なマルチエージェントシステムに適用できる汎用性のあるアイデアである。
【0099】
(5) 前述した実施形態では、統括管理業者75に設置された統括管理用AIサーバ53にインストールされている統括エージェント15が、各専属エージェント9〜12、14に対し行為a
1〜a
5を与えると共に、各専属エージェント9〜14に対し報酬rと状態(消費者の行動データ)sとを与えているが、その代わりに、統括管理用AIサーバ53が行為a
1〜a
5のみを各専属エージェント9〜14に与え、報酬は各専属エージェント9〜14自身が算出して取得すると共に状態(消費者の行動データ)sを各専属エージェント9〜14自身が収集するように制御してもよい。各専属エージェント9〜14は、自身が算出した報酬および自身が収集した状態(消費者の行動データ)sと統括エージェント15から与えられた行為a
1〜a
5とに基づいて強化学習を行う。
【0100】
さらには、統括エージェント15が各専属エージェント9〜12、14に対し行為a
1〜a
5を提供する代わりに、ユーザ自身が自分に提供された販促コンテンツ等の行為a
1〜a
5を各専属エージェント9〜12、14に提供するように制御してもよい。例えば、自分に提供された販促コンテンツ等の行為a
1〜a
5をユーザがスマートフォン55等のユーザ端末に記憶させておき、定期的(例えば1時間毎や1日毎等)に各専属エージェント9〜12、14に送信する。他の方法としては、各ユーザの行動履歴データ(ライフログ等)をクラウド上のデータベース(情報バンク)に収集して蓄積しておき、蓄積されている行動履歴データ中の販促コンテンツ等の行為a
1〜a
5を各ユーザの意思に従って各専属エージェント9〜12、14に送信するように制御してもよい。
【0101】
(6) 前述した実施形態では、販促コンテンツとして、販売商品情報や特売情報、レシピ、クーポン、プレゼント応募情報等を示したが、さらに、ユーザとのコミュニケーションを促進させるためのコミュニケーション用コンテンツを販促コンテンツに含ませてもよい。特に、SNS業者59の販促DB61にこのコミュニケーション用コンテンツを記憶させることにより、ユーザとSNS専属エージェント11とのコミュニケーションが促進され、ユーザのSNSサイトへの訪問回数が増加する効果が期待できる。また、一般ビッグデータDB77にデジタル口コミのデータを記憶させ、デジタル口コミのデータを販促に利用できるように制御してもよい。
【0102】
(7) 以下のプログラムを格納(記録)した記録媒体(例えばCD−ROM等)を流通させてもよい。
【0103】
コンピュータネットワーク(例えば、インターネット79)を利用して消費を誘発して販売を促進させる販売促進情報を消費者の行動に伴う複数の場面(例えば、自宅、店舗アプリ起動時、ジオフェンシングエリア内への進入時、SNSログイン時、サイネージ6での報知エリア内への進入時、店内進入時)毎に対応した形態で消費者に提供する複数場面毎情報提供手段(例えば、S62、S74、S94、S104、S114、S124)を備えた販売促進システムに用いられるコンピュータにより実行されるプログラムであって、
人工知能が機械学習を行い、その学習結果を前記複数の場面での前記販売促進情報の提供に反映させるためのステップ(例えば、S60〜S62、S76〜S78)を前記コンピュータに実行させ、
前記ステップは、前記複数の場面で提供された複数の前記販売促進情報(例えば、ユーザテーブルやその他学習テーブルに格納された他行為a
ij)と、該複数の前記販売促進情報が提供された後の消費者の行動データ(例えば、ユーザテーブルに格納された状態s)とに基づいて、機械学習を行うプログラム。
【0104】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。