(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-07-06
(45)【発行日】2023-07-14
(54)【発明の名称】計画装置、計画方法及びプログラム
(51)【国際特許分類】
G06Q 30/0202 20230101AFI20230707BHJP
G06Q 10/04 20230101ALI20230707BHJP
G06Q 50/10 20120101ALI20230707BHJP
【FI】
G06Q30/0202 318
G06Q10/04
G06Q50/10
(21)【出願番号】P 2022054991
(22)【出願日】2022-03-30
【審査請求日】2023-02-10
【早期審査対象出願】
(73)【特許権者】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】村松 眞由
(72)【発明者】
【氏名】岡田 清志郎
(72)【発明者】
【氏名】小野 祐為
【審査官】関 博文
(56)【参考文献】
【文献】関川 大樹, 小原 和博,マルチエージェントの街モデルによる売上予測とAHPによる立地判定,第75回(平成25年)全国大会講演論文集(4) インタフェース コンピュータと人間社会,日本,一般社団法人情報処理学会,2013年03月06日,4-623~4-624
【文献】VRANCHEN, Thomas et al.,Multi-Agent Parking Place Simulation,PAAMS 2017, LNAI 10349,Springer International Publishing,2017年10月04日,pp.272-283
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
施設周辺の地図情報及び前記施設の設定情報を含む環境条件の入力を受け付けるように構成されている環境受付部と、
前記環境条件の下で前記施設を利用するエージェントを模擬することで前記施設に関する環境情報を計算するように構成されている模擬計算部と、
前記環境情報から算出される前記施設の売上を報酬として強化学習することで前記設定情報に関する行動を決定するように構成されている行動決定部と、
前記行動に基づいて変更された前記設定情報を出力するように構成されている結果出力部と、
を備える計画装置。
【請求項2】
請求項1に記載の計画装置であって、
前記設定情報は、前記施設の設定料金であり、
前記行動は、前記設定料金の値上げ、値下げ又は維持のいずれかである、
計画装置。
【請求項3】
請求項2に記載の計画装置であって、
前記行動決定部は、予め定められた上限額、下限額及び料金幅の範囲で前記行動を決定するように構成されている、
計画装置。
【請求項4】
請求項3に記載の計画装置であって、
前記エージェントは、前記施設の利用料金及び前記施設を利用したときの移動距離から算出されるコストに基づいて、前記施設を利用するように行動する、
計画装置。
【請求項5】
請求項1に記載の計画装置であって、
前記設定情報は、前記施設の位置であり、
前記行動は、前記位置の変更である、
計画装置。
【請求項6】
請求項5に記載の計画装置であって、
前記エージェントは、前記施設への移動距離から算出されるコストに基づいて、前記施設を利用するように行動する、
計画装置。
【請求項7】
コンピュータが、
施設周辺の地図情報及び前記施設の設定情報を含む環境条件の入力を受け付ける環境受付手順と、
前記環境条件の下で前記施設を利用するエージェントを模擬することで前記施設に関する環境情報を計算する模擬計算手順と、
前記環境情報から算出される前記施設の売上を報酬として強化学習することで前記設定情報に関する行動を決定する行動決定手順と、
前記行動に基づいて変更された前記設定情報を出力する結果出力手順と、
を実行する計画方法。
【請求項8】
コンピュータに、
施設周辺の地図情報及び前記施設の設定情報を含む環境条件の入力を受け付ける環境受付手順と、
前記環境条件の下で前記施設を利用するエージェントを模擬することで前記施設に関する環境情報を計算する模擬計算手順と、
前記環境情報から算出される前記施設の売上を報酬として強化学習することで前記設定情報に関する行動を決定する行動決定手順と、
前記行動に基づいて変更された前記設定情報を出力する結果出力手順と、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、計画装置、計画方法及びプログラムに関する。
【背景技術】
【0002】
コインパーキング等の駐車場ビジネスにおいて、料金設定は売上に直結する経営上の重要事項である。近年、機械学習によって動的に料金改定を行うダイナミックプライシングの検討が進んでいる。
【0003】
例えば、非特許文献1には、コインパーキングに機械学習を活用したダイナミックプライシングを導入する試みが開示されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】株式会社空,"NTTル・パルクとコインパーキングへのダイナミックプライシング導入に向けた実証実験を開始",[online],[令和4年2月16日検索],インターネット<URL: https://www.harmoniainc.jp/news/nttleperc/>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、施設周辺の情報を入手することが困難である、という課題がある。例えば、コインパーキングでは、近隣の道路事情、商業施設の有無、近隣の駐車場の利用状況等により売上に影響が及ぶが、競合他社の駐車場に関する情報や将来的に発生する事象に関する情報を得ることは困難である。
【0006】
本発明の一態様は、上記のような技術的課題に鑑みて、施設に関する設定情報を適切に計画することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、本発明の一態様の計画装置は、施設周辺の地図情報及び施設の設定情報を含む環境条件の入力を受け付けるように構成されている環境受付部と、環境条件の下で施設を利用するエージェントを模擬することで施設に関する環境情報を計算するように構成されている模擬計算部と、環境情報から算出される施設の売上を報酬として強化学習することで設定情報に関する行動を決定するように構成されている行動決定部と、行動に基づいて変更された設定情報を出力するように構成されている結果出力部と、を備える。
【発明の効果】
【0008】
本発明の一態様によれば、施設に関する設定情報を適切に計画することができる。
【図面の簡単な説明】
【0009】
【
図1】一実施形態における計画システムの全体構成の一例を示す図である。
【
図2】一実施形態におけるコンピュータのハードウェア構成の一例を示す図である。
【
図3】一実施形態における計画システムの機能構成の一例を示す図である。
【
図4】一実施形態における計画方法の処理手順の一例を示す図である。
【
図5】一実施形態における地図情報の一例を示す図である。
【
図6】一実施形態における評価結果の一例を示す図である。
【
図7】一実施形態における評価結果の一例を示す図である。
【
図8】一実施形態における計画システムの応用例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0011】
[実施形態]
本発明の一実施形態は、コインパーキングの設定料金を計画する計画システムである。本実施形態におけるコインパーキングとは、利用時間に応じて利用料金が決定される駐車場である。
【0012】
コインパーキングにおける料金設定は様々である。例えば、平日又は休日、及び昼間又は夜間等の時間帯の組み合わせにより、単位時間当たりの料金が設定されている場合がある。コインパーキングによっては、一日当たりの最大料金が設定され、利用料金が最大料金に達すると、それ以上利用料金が増えない場合もある。
【0013】
従来、コインパーキングの設定は経験則に基づいて決定されており、料金改定も数か月程度の低頻度であった。これに対して、近年では、機械学習によって動的に料金改定を行うダイナミックプライシングの導入等により、設定料金を最適化するための検討が進んでいる。
【0014】
しかしながら、コインパーキングの売上は、例えば、近隣の道路事情、商業施設の位置、他の駐車場の駐車台数及び設定料金等、多くの要因により影響を受ける。そのため、機械学習により適切な料金設定を予測するために必要な学習データを収集することは困難である。例えば、近隣に存在する競合他社の駐車場に関する情報を入手することは困難である。また、道路事情の変化や、商業施設の開設又は閉鎖等、将来発生する事象に対しては学習データを得ることができない。
【0015】
本実施形態における計画システムは、エージェント・ベース・シミュレーション(Agent Based Simulation; ABS)と強化学習(Reinforcement Learning; RL)とを連携することにより、適切な設定料金を計画する。すなわち、本実施形態における計画システムは、エージェント・ベース・シミュレーションにより将来発生し得る事象における環境情報を生成し、その環境情報を用いて強化学習することで、駐車場の適切な設定料金を計画する。
【0016】
エージェント・ベース・シミュレーションとは、自律的な意思決定を行う複数のエージェントが同時に活動し、相互に作用する状況をシミュレーションすることで、それらがシステム全体に与える影響を評価する手法である。エージェント・ベース・シミュレーションに関する詳細は、下記参考文献1を参照されたい。
【0017】
〔参考文献1〕中井豊, "社会学におけるエージェント・ベース・シミュレーション", 理論と方法(Sociological Theory and Methods),Vol. 25, No. 2, pp. 275-285, 2010.
【0018】
強化学習とは、行動主体であるエージェントにより良い行動の選択を学習させる機械学習手法である。強化学習では、エージェントが環境に基づいて行動を選択し、選択した行動に基づいて環境を変化させ、環境変化に伴う報酬をエージェントに与えることを繰り返すことで、学習を行う。強化学習の一例は、Q学習である。Q学習に関する詳細は、下記参考文献2を参照されたい。
【0019】
〔参考文献2〕たぬきねこの小部屋,"[入門]Q学習の解説とpythonでの実装 ~シンプルな迷路問題を例に~",[online],[令和4年2月16日検索],インターネット<URL: https://www.tcom242242.net/entry/ai-2/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92/%E3%80%90%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92%E3%80%81%E5%85%A5%E9%96%80%E3%80%91q%E5%AD%A6%E7%BF%92_%E8%BF%B7%E8%B7%AF%E3%82%92%E4%BE%8B%E3%81%AB/>
【0020】
本実施形態における計画システムは、エージェント・ベース・シミュレーションを用いて、駐車場周辺の地理情報を環境として、駐車場を利用する複数の利用者の行動をシミュレーションすることで、時間帯当たりの売上等を計算する。また、本実施形態における計画システムは、強化学習を用いて、時間帯当たりの売上を報酬とし、売上を最大化するように設定料金に関する行動を決定する。本実施形態における計画システムは、これらを繰り返し実行することで、駐車場における適切な設定料金を計画する。
【0021】
本実施形態における計画システムに将来発生し得る事象を反映させた地理情報を与えることにより、未知の環境における駐車場に関する情報を得ることができ、当該駐車場の適切な設定料金を事前に計画することができる。また、エージェント・ベース・シミュレーションにより短時間で環境情報を得ることができるため、高頻度で設定料金の改定を行うことが可能となる。
【0022】
<計画システムの全体構成>
まず、本実施形態における計画システムの全体構成を、
図1を参照しながら説明する。
図1は、本実施形態における計画システムの全体構成の一例を示すブロック図である。
【0023】
図1に示されているように、本実施形態における計画システム1は、計画装置10及びユーザ端末30を含む。計画装置10及びユーザ端末30は、LAN(Local Area Network)又はインターネット等の通信ネットワークN1を介してデータ通信可能に接続されている。
【0024】
計画装置10は、ユーザ端末30からの要求に応じて、駐車場の設定料金を決定するPC(Personal Computer)、ワークステーション、サーバ等の情報処理装置である。計画装置10は、ユーザ端末30から駐車場に関する環境条件を受信する。また、計画装置10は、受信した環境条件における適切な設定料金を計画し、ユーザ端末30に送信する。
【0025】
ユーザ端末30は、ユーザが操作するPC、タブレット端末、スマートフォン等の情報処理端末である。ユーザ端末30は、ユーザの操作に応じて、環境条件の入力を受け付け、計画装置10に送信する。また、ユーザ端末30は、計画装置10から駐車場の設定料金を受信し、ユーザに対して出力する。
【0026】
なお、
図1に示した計画システム1の全体構成は一例であって、用途や目的に応じて様々なシステム構成例があり得る。例えば、計画装置10は、複数台のコンピュータにより実現してもよいし、クラウドコンピューティングのサービスとして実現してもよい。また、例えば、計画システム1は、計画装置10及びユーザ端末30がそれぞれ備えるべき機能を兼ね備えたスタンドアローンの情報処理装置により実現してもよい。
【0027】
<計画システムのハードウェア構成>
次に、本実施形態における計画システムのハードウェア構成を、
図2を参照しながら説明する。
【0028】
≪コンピュータのハードウェア構成≫
本実施形態における計画装置10及びユーザ端末30は、例えばコンピュータにより実現される。
図2は、本実施形態におけるコンピュータのハードウェア構成の一例を示すブロック図である。
【0029】
図2に示されているように、本実施形態におけるコンピュータ500は、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HDD(Hard Disk Drive)504、入力装置505、表示装置506、通信I/F(Interface)507及び外部I/F508を有する。CPU501、ROM502及びRAM503は、いわゆるコンピュータを形成する。コンピュータ500の各ハードウェアは、バスライン509を介して相互に接続されている。なお、入力装置505及び表示装置506は外部I/F508に接続して利用する形態であってもよい。
【0030】
CPU501は、ROM502又はHDD504等の記憶装置からプログラムやデータをRAM503上に読み出し、処理を実行することで、コンピュータ500全体の制御や機能を実現する演算装置である。
【0031】
ROM502は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)の一例である。ROM502は、HDD504にインストールされている各種プログラムをCPU501が実行するために必要な各種プログラム、データ等を格納する主記憶装置として機能する。具体的には、ROM502には、コンピュータ500の起動時に実行されるBIOS(Basic Input/Output System)、EFI(Extensible Firmware Interface)等のブートプログラムや、OS(Operating System)設定、ネットワーク設定等のデータが格納されている。
【0032】
RAM503は、電源を切るとプログラムやデータが消去される揮発性の半導体メモリ(記憶装置)の一例である。RAM503は、例えば、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等である。RAM503は、HDD504にインストールされている各種プログラムがCPU501によって実行される際に展開される作業領域を提供する。
【0033】
HDD504は、プログラムやデータを格納している不揮発性の記憶装置の一例である。HDD504に格納されるプログラムやデータには、コンピュータ500全体を制御する基本ソフトウェアであるOS、及びOS上において各種機能を提供するアプリケーション等がある。なお、コンピュータ500はHDD504に替えて、記憶媒体としてフラッシュメモリを用いる記憶装置(例えばSSD:Solid State Drive等)を利用するものであってもよい。
【0034】
入力装置505は、ユーザが各種信号を入力するために用いるタッチパネル、操作キーやボタン、キーボードやマウス、音声等の音データを入力するマイクロホン等である。
【0035】
表示装置506は、画面を表示する液晶や有機EL(Electro-Luminescence)等のディスプレイ、音声等の音データを出力するスピーカ等で構成されている。
【0036】
通信I/F507は、通信ネットワークに接続し、コンピュータ500がデータ通信を行うためのインタフェースである。
【0037】
外部I/F508は、外部装置とのインタフェースである。外部装置には、ドライブ装置510等がある。
【0038】
ドライブ装置510は、記録媒体511をセットするためのデバイスである。ここでいう記録媒体511には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体511には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。これにより、コンピュータ500は外部I/F508を介して記録媒体511の読み取り及び/又は書き込みを行うことができる。
【0039】
なお、HDD504にインストールされる各種プログラムは、例えば、配布された記録媒体511が外部I/F508に接続されたドライブ装置510にセットされ、記録媒体511に記録された各種プログラムがドライブ装置510により読み出されることでインストールされる。あるいは、HDD504にインストールされる各種プログラムは、通信I/F507を介して、通信ネットワークとは異なる他のネットワークよりダウンロードされることでインストールされてもよい。
【0040】
<計画システムの機能構成>
続いて、本実施形態における計画システムの機能構成を、
図3を参照しながら説明する。
図3は本実施形態における計画システムの機能構成の一例を示すブロック図である。
【0041】
≪計画装置の機能構成≫
図3に示されているように、本実施形態における計画装置10は、環境受付部101、模擬計算部102、行動決定部103、行動反映部104、収束判定部105及び結果出力部106を備える。
【0042】
環境受付部101、模擬計算部102、行動決定部103、行動反映部104、収束判定部105及び結果出力部106は、
図2に示されているHDD504からRAM503上に展開されたプログラムがCPU501に実行させる処理によって実現される。
【0043】
環境受付部101は、ユーザ端末30から環境条件を受信する。また、環境受付部101は、受信した環境条件に基づいてエージェントベースモデルの環境情報を生成する。さらに、環境受付部101は、生成した環境情報を模擬計算部102に送る。
【0044】
模擬計算部102は、環境受付部101が生成した環境情報に対してエージェント・ベース・シミュレーションを実行する。これにより、模擬計算部102は、各駐車場における時間帯、駐車台数、及び時間帯当たりの売上を計算する。
【0045】
行動決定部103は、模擬計算部102が計算した各駐車場における時間帯、設定料金及び駐車台数を環境とし、時間帯当たりの売上を報酬として、強化学習を行う。これにより、行動決定部103は、各駐車場における設定料金に関する行動を決定する。
【0046】
行動反映部104は、行動決定部103が決定した行動に基づいて、環境情報に含まれる各駐車場の設定料金を変更する
【0047】
収束判定部105は、模擬計算部102が計算した売上の変化量に基づいて、収束判定を行う。なお、模擬計算部102、行動決定部103及び行動反映部104は、収束判定部105が収束したと判定するまで、処理を繰り返す。
【0048】
結果出力部106は、収束判定部105が収束したと判定した後、環境情報に含まれる各駐車場の設定料金をユーザ端末30に送信する。
【0049】
≪ユーザ端末の機能構成≫
図3に示されているように、本実施形態におけるユーザ端末30は、環境入力部301及び結果表示部302を備える。
【0050】
環境入力部301は、
図2に示されているHDD504からRAM503上に展開されたプログラムがCPU501及び入力装置505に実行させる処理によって実現される。結果表示部302は、
図2に示されているHDD504からRAM503上に展開されたプログラムがCPU501及び表示装置506に実行させる処理によって実現される。
【0051】
環境入力部301は、ユーザの操作に応じて、環境条件の入力を受け付ける。また、環境入力部301は、受け付けた環境条件を計画装置10に送信する。
【0052】
結果表示部302は、計画装置10から各駐車場の設定料金を受信する。また、結果表示部302は、受信した各駐車場の設定料金をユーザに対して提示する。
【0053】
<計画システムの処理手順>
次に、本実施形態における計画システムが実行する計画方法の処理手順を、
図4を参照しながら説明する。
図4は本実施形態における計画方法の処理手順の一例を示すフローチャートである。
【0054】
ステップS1において、ユーザ端末30が備える環境入力部301は、ユーザの操作に応じて、環境条件の入力を受け付ける。本実施形態における環境条件は、駐車場の周辺の地図情報、エージェントの行動パターン、駐車場の設定料金を表す設定情報、及びエージェントが従うコスト関数を含む。環境入力部301は、受け付けた環境条件を計画装置10に送信する。
【0055】
計画装置10では、環境受付部101が、環境条件をユーザ端末30から受信する。次に、環境受付部101は、受信した環境条件に基づいてエージェントベースモデルの環境情報を生成する。続いて、環境受付部101は、生成した環境情報を模擬計算部102に送る。
【0056】
地図情報は、設定料金を計画する駐車場が設置される地域の地図情報である。当該地図情報は、駐車場、道路、商業施設及び住民の住居等の配置を表す。
【0057】
図5は、本実施形態における地図情報の一例を示す概念図である。
図5において、黒塗りで示したP1~P4は駐車場である。網掛け部分は商業施設又は住居である。白塗り部分は道路である。
図5に示されているように、地図情報は、駐車場、道路、商業施設及び住居の配置を表している。
【0058】
道路事情の変化や商業施設の開店又は閉店等、将来的に発生する事象に対して適切な設定料金を計画したい場合、地図情報に当該事象による変化を反映して入力すればよい。
【0059】
行動パターンは、地図情報に表された地域で活動するエージェントの生活パターンを表す。エージェントは、当該行動パターンに従って自律的に行動する。生活パターンは、例えば、住居からランダムに商業施設への外出を繰り返す、深夜は外出を控える等である。また、生活パターンは、家族構成に応じて異なるものとしてもよい。例えば、独身であれば夜間の外出が多い、幼い子供がいる家族であれば夜間は外出しない等である。
【0060】
具体的には、エージェントは、待機中、移動中(往路)、行動中、移動中(復路)の4つの状態を持ち、各状態に応じて、所定の行動を行う。
【0061】
待機中には、待機時間を過ぎているか否かを判定し、待機時間を過ぎていた場合には、以下の行動を行う。1.次の目的地を乱数で決定する。2.目的地に最も近い駐車場を用いた場合、又は徒歩で直接移動した場合のコストをコスト関数で計算し、どの駐車場を利用するか(又は利用せず徒歩で移動するか)を決定する。3.道路幅優先探索を用いて移動ルートを計算する。4.状態を「移動中」に遷移させる。
【0062】
移動中(往路)には、以下の行動を行う。1.最寄りの幹線道路まで徒歩(又は低速)で移動し、到着した場合、自動車での移動に移る。2.自動車で駐車場まで移動し、到着した場合、駐車場が満車でなければ、再び徒歩での移動に移る。駐車場が満車の場合は、次に近い駐車場までのルートを道路幅優先探索で決定し、自動車でその駐車場に向かう。3.商業施設まで徒歩での移動を行う。4.商業施設に到着したら、状態を「行動中」に遷移させる。
【0063】
行動中には、待機時間を過ぎているか否かを判定し、待機時間を過ぎていた場合には、以下の行動を行う。1.往路で用いたルートの逆ルートを計算する。2.状態を「移動中(復路)」に遷移させる。
【0064】
移動中(復路)には、以下の行動を行う。1.自動車を用いていた場合、駐車した地点を経由し、逆ルートで自宅に帰る。2.自宅に到着したら、状態を「待機中」に遷移させる。
【0065】
コスト関数は、エージェントが外出する際の移動コストを算出する関数である。エージェントはコスト関数に基づいて、移動手段(徒歩又は自動車)を決定し、自動車で移動する場合には利用する駐車場を決定する。
【0066】
本実施形態におけるコスト関数は、駐車場の利用料金及び移動距離に基づいてコストを計算する。具体的には、コスト関数は、次式で表される。
【0067】
【0068】
ただし、Ciはコストであり、viは駐車場料金であり、tは駐車時間であり、cwは歩行コストであり、dwは歩行距離である。
【0069】
図4に戻って説明する。ステップS2において、計画装置10が備える模擬計算部102は、環境受付部101から環境情報を受け取る。
【0070】
次に、模擬計算部102は、受け取った環境情報に対してエージェント・ベース・シミュレーションを実行し、各駐車場における時間帯、駐車台数、及び時間帯当たりの売上を計算する。時間帯は、予め定めた時間間隔により決定される。時間間隔はどのように設定してもよいが、例えば、5分間隔である。
【0071】
続いて、模擬計算部102は、計算した時間帯、駐車台数、及び時間帯当たりの売上が含まれる環境情報を行動決定部103に送る。
【0072】
ステップS3において、計画装置10が備える行動決定部103は、模擬計算部102から環境情報を受け取る。次に、行動決定部103は、環境情報に含まれる各駐車場における時間帯、設定料金及び駐車台数を環境とし、時間帯当たりの売上を報酬として、強化学習を行う。
【0073】
強化学習は、Q学習の学習アルゴリズムにより行う。Q学習の学習アルゴリズムを次式に示す。
【0074】
【0075】
ただし、QはQ値であり、Eは現在の環境であり、aは起こす行動であり、αは学習率であり、rは報酬であり、γは割引率であり、E'は次の環境であり、a'は次の行動であり、Aは次の行動の集合である。
【0076】
Q値は、ある環境における、ある行動の良さを表現する値である。学習率は、Q値の更新をどの程度急激に行うかを制御する指標である。学習率は、0以上1以下の固定値である。割引率は、Q値を更新する際に、未来のQ値をどの程度反映させるかを制御する指標である。未来のQ値とは、ある行動を起こした後に遷移する環境がどの程度報酬を得る上で好ましい状態なのかを表す値である。割引率は、0以上1以下の固定値である。例えば、γ=0.015とする。
【0077】
これにより、行動決定部103は、設定料金に関する行動を決定する。行動決定部103は、設定料金に関する行動を表す行動情報を行動反映部104に送る。
【0078】
本実施形態における行動は、設定料金の値上げ、値下げ又は維持である。値上げ又は値下げの場合、1回で変更できる料金幅を予め定めておいてもよい。1回で値上げ又は値下げできる金額を定めておくことで行動を決定するために必要となる計算量を削減し、レスポンスを向上することができる。
【0079】
また、設定料金に関する行動は、異なる料金幅での値上げ又は値下げを含んでもよい。例えば、本実施形態における行動の集合は、100円の値上げ、500円の値上げ、維持、100円の値下げ、及び500円の値下げを含んでもよい。
【0080】
例えば、料金幅を1つ(例えば100円)とした場合、所定の時間間隔が5分であれば、設定料金を500円上げるためには25分かかる。しかしながら、コインパーキングにおいては25分経過していると、エージェントの行動パターンの変化に追随できない可能性がある。ここで、1回で500円値上げする行動が用意されていれば、5分で設定料金を500円上げることができるため、エージェントの動きに即時に対応することができる。
【0081】
したがって、第1の料金幅と、第1の料金幅より大きい第2の料金幅を定めておくことで、より精度良く設定料金を計画することができる。料金幅は2種類に限定されるものではなく、3種類以上の料金幅を定めておいてもよい。
【0082】
行動決定部103は、各駐車場の設定料金の上限額及び下限額を定めておいてもよい。すなわち、行動決定部103は、値上げすべき状況であったとしても、すでに設定料金が上限額に達している場合、設定料金を維持することを決定してもよい。上限額及び下限額を定めておくことで、設定料金が非現実的な金額になることを防止し、より精度良く設定料金を計画することができる。
【0083】
ステップS4において、計画装置10が備える行動反映部104は、行動決定部103から行動情報を受け取る。次に、行動反映部104は、行動情報に基づいて、環境情報に含まれる駐車場の設定料金を変更する。続いて、行動反映部104は、変更した設定料金が反映された環境情報を収束判定部105に送る。
【0084】
ステップS5において、計画装置10が備える収束判定部105は、行動反映部104から環境情報を受け取る。次に、収束判定部105は、受け取った環境情報に基づいて収束判定を行う。具体的には、収束判定部105は、模擬計算部102が計算した売上の変化を表したグラフに基づいて、グラフが漸近したか否かを判定する。グラフが漸近したか否かの判定基準は、任意の手法を用いればよい。
【0085】
収束判定部105は、収束したと判定した場合(YES)、ステップS6に処理を進める。このとき、収束判定部105は、環境情報を結果出力部106に送る。
【0086】
一方、収束判定部105は、収束していないと判定した場合(NO)、ステップS2に処理を戻す。このとき、収束判定部105は、環境情報を模擬計算部102に送る。このようにして、ステップS5において収束判定部105が収束したと判定するまで、ステップS2からS4の処理が繰り返し実行される。
【0087】
ステップS6において、計画装置10が備える結果出力部106は、収束判定部105から環境情報を受け取る。次に、結果出力部106は、環境情報に含まれる各駐車場の設定料金をユーザ端末30に送信する。
【0088】
ユーザ端末30では、結果表示部302が、各駐車場の設定料金を計画装置10から受信する。次に、結果表示部302は、受信した各駐車場の設定料金を表示装置506に表示する。駐車場の設定料金を表示する態様は限定されないが、例えば、環境入力部301に入力した地図情報において、各駐車場に対応する位置に設定料金を表示すること等が考えられる。
【0089】
<実施形態の効果>
本実施形態における計画システムは、エージェント・ベース・シミュレーションにより生成した環境情報を用いて強化学習することで、駐車場の設定料金に関する行動を決定する。したがって、本実施形態における計画システムによれば、未知の環境における駐車場の適切な設定料金を計画することができる。また、エージェント・ベース・シミュレーションにより短時間で環境情報を得ることができるため、高頻度で設定料金の改定を行うことが可能となる。
【0090】
[評価結果]
一実施形態における計画システムの性能を評価するために、評価試験を行った。本評価試験では、以下のようにパラメータを設定した。エージェント・ベース・シミュレーションでは、エージェント数を200人とし、地図情報の範囲を15~20km四方とした。強化学習では、取り得る行動を、500円の値上げ、100円の値上げ、維持、100円の値下げ、500円の値下げの5種類とした。設定料金の変更頻度は、1時間毎とした。設定料金の範囲は100円以上2000円以下とし、100円単位とした。駐車場の最大駐車台数は30台とした。したがって、強化学習で計算する状態の数は、24×20×30=14,400となる。
【0091】
本評価試験では、計画システムにより計画した設定料金を用いた場合と、3種類の均一料金(150円、690円及び1320円)を用いた場合とで、売上の比較を行った。
図6及び
図7は、1回の評価試験において、異なる位置に設置された2つの駐車場の評価結果を示す図である。
【0092】
図6(A)は、
図5に示した駐車場P3における時間帯毎の設定料金を、横軸を時間帯とし、縦軸を設定料金としてプロットしたグラフである。
図6(A)に示されているように、外出の多い日中や夜間は平均よりも高い料金が設定され、外出の少ない深夜は平均よりも低い料金が設定される結果となった。
【0093】
図6(B)は、駐車場P3における時間経過に伴う売上の推移を、横軸を日数とし、縦軸を10日間当たりの売上としてプロットしたグラフである。
図6(B)に示されているように、計画システムにより計画した設定料金を用いた方が、均一料金に設定した場合よりも一貫して売上が高くなる結果となった。
【0094】
図7(A)及び
図7(B)は、
図5に示した駐車場P1における
図6(A)及び
図6(B)と同様のグラフである。
図7(A)に示されているように、概ね駐車場P3と同様の設定料金となったが、駐車場P1の方が日中の設定料金は低く抑えられ、夜間に設定料金が高くなる時間帯が長い結果となった。
図7(B)に示されているように、駐車場P1では、均一料金でも設定料金によって売上に大きな差が生じたが、計画システムにより計画した設定料金を用いた方が、均一料金を用いた場合よりも概ね売上が高くなる結果となった。
【0095】
したがって、本評価試験の結果から、一実施形態における計画システムによれば、所定の時間間隔で適切な設定料金を決定することができ、売上が向上することが実証された。
【0096】
[応用例]
上記の実施形態では、コインパーキングにおける設定料金を対象としたが、本実施形態における計画システムは、様々な施設の設定情報を対象とすることができる。
【0097】
図8は、本実施形態における計画システムの応用例を示す図である。
図8に示されているように、本実施形態における計画システムは、種々の施設の料金設定及び配置計画に応用することができる。
【0098】
本実施形態における計画システムを料金設定に応用する場合、例えば、対象の施設をコインパーキング又は水素ステーション等とすることができる。また、本実施形態における計画システムを配置計画に応用する場合、例えば、対象の施設を倉庫、店舗又は水素ステーション等とすることができる。
【0099】
水素ステーションの料金設定に適用する場合、入力される環境条件は、地図情報、エージェント(住民)の行動パターン及び給水素料金とすればよい。エージェント・ベース・シミュレーションで用いるコスト関数は、例えば「水素ステーションの料金×水素の注入時間」とすればよい。エージェント・ベース・シミュレーションが生成する環境情報は、時間帯毎の設定料金及び給水素台数を含めばよい。強化学習では、利益が最大化されるように給水素料金を変更する行動を決定すればよい。これにより、応用例における計画システムは、水素ステーションの最適な給水素料金を計画することができる。
【0100】
なお、コスト関数における「歩行コスト×歩行距離」は、歩行による移動に適切なペナルティを課すために設定される。エージェントは、自動車を利用しなかった場合、歩行により移動することになる。仮に、歩行による移動を選択したときに不利益が定義されていなければ、すべてのエージェントは自動車を利用せず、歩行による移動を選択してします。歩行による移動に適切なペナルティを課すことで、自動車の利用と歩行による移動とn間で利益を最大化するように意味のある選択をするようにできる。
【0101】
倉庫の配置計画に適用する場合、入力される環境条件は、地図情報、エージェント(輸送車両)の行動パターン及び倉庫の位置とすればよい。エージェント・ベース・シミュレーションで用いるコスト関数は、例えば「荷物の総重量×倉庫位置から配達先までの距離」とすればよい。存在する複数の倉庫から配達先までの距離の合計がより小さくなるように倉庫計画を立てることで、最適な倉庫計画ができる。なお、コスト関数では、倉庫位置から配達先までの距離に加えて、荷物の総重量を加味してもよい。エージェント・ベース・シミュレーションが生成する環境情報は、時間帯毎の倉庫の位置及び倉庫の使用率を含めばよい。強化学習では、全倉庫の総輸送コストが最小化されるように倉庫の位置を変更する行動を決定すればよい。これにより、応用例における計画システムは、倉庫の配置を計画することができる。
【0102】
店舗の配置計画に適用する場合、入力される環境条件は、地図情報、エージェント(住民)の行動パターン及び店舗の位置とすればよい。エージェント・ベース・シミュレーションで用いるコスト関数は、例えば「移動コスト×現在地から店舗位置までの距離」とすればよい。エージェント・ベース・シミュレーションが生成する環境情報は、時間帯毎の店舗の位置及び店舗の利用率を含めばよい。なお、店舗の利用率とは、店舗の駐車場に駐車している自動車の台数を駐車可能台数で除算した値である。強化学習では、店舗の売上が最大化されるように店舗の位置を変更する行動を決定すればよい。これにより、応用例における計画システムは、店舗の配置を計画することができる。
【0103】
水素ステーションの配置計画に適用する場合、入力される環境条件は、地図情報、エージェント(住民)の行動パターン及び水素ステーションの位置とすればよい。エージェント・ベース・シミュレーションで用いるコスト関数は、例えば「移動コスト×現在地から水素ステーション位置までの距離」とすればよい。エージェント・ベース・シミュレーションが生成する環境情報は、時間帯毎の水素ステーションの位置及び水素ステーションの稼働率を含めばよい。強化学習では、水素の売上が最大化されるように水素ステーションの位置を変更する行動を決定すればよい。これにより、応用例における計画システムは、水素ステーションの配置を計画することができる。
【0104】
[補足]
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等の機器を含むものとする。
【0105】
以上、本発明の実施の形態について詳述したが、本発明はこれらの実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形又は変更が可能である。
【符号の説明】
【0106】
1 計画システム
10 計画装置
101 環境受付部
102 模擬計算部
103 行動決定部
104 行動反映部
105 収束判定部
106 結果出力部
30 ユーザ端末
【要約】
【課題】施設に関する設定事項を適切に計画する。
【解決手段】計画装置は、施設周辺の地図情報及び施設の設定情報を含む環境条件の入力を受け付けるように構成されている環境受付部と、環境条件の下で施設を利用するエージェントを模擬することで施設に関する環境情報を計算するように構成されている模擬計算部と、環境情報から算出される施設の売上を報酬として強化学習することで設定情報に関する行動を決定するように構成されている行動決定部と、行動に基づいて変更された設定情報を出力するように構成されている結果出力部と、を備える。
【選択図】
図3