(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165383
(43)【公開日】2024-11-28
(54)【発明の名称】強化学習プログラム、強化学習方法、および情報処理装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20241121BHJP
G06N 3/092 20230101ALI20241121BHJP
H04W 28/08 20230101ALI20241121BHJP
H04W 48/08 20090101ALI20241121BHJP
H04W 52/02 20090101ALI20241121BHJP
【FI】
G06N20/00
G06N3/092
H04W28/08
H04W48/08
H04W52/02
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023081533
(22)【出願日】2023-05-17
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】鈴木 彼方
(72)【発明者】
【氏名】飯村 由信
(72)【発明者】
【氏名】小川 雅俊
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA12
5K067AA43
5K067DD11
5K067EE02
5K067EE10
(57)【要約】
【課題】制約が破られることを抑止する。
【解決手段】情報処理装置10は、所定の環境1で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、第2の需要量の信頼度とを計算する。情報処理装置10は、第2の需要量と信頼度と環境1の現在の第1の状態とを含む入力データに基づいて、機械学習のモデル2に従って、環境1に対して行う行動を決定する。情報処理装置10は、決定した行動を環境1に対して実行し、そして情報処理装置10は、行動を行った後の環境1の第2の状態と報酬とに基づいて、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって、モデル2のパラメータを更新する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習プログラム。
【請求項2】
前記第2の需要量と前記信頼度とを計算する処理では、無線アクセスネットワークの通信環境を前記環境とし、前記無線アクセスネットワークの現在の第1の通信トラフィック量を前記第1の需要量とし、前記第1の通信トラフィック量に基づいて、前記無線アクセスネットワークの一定時間後の第2の通信トラフィック量を、前記第2の需要量として計算し、
前記行動を決定する処理では、前記第1の状態として前記無線アクセスネットワーク内の基地局の負荷を用いて、前記基地局をアクティブにするのかスリープにするのかを、前記行動として決定し、
前記モデルのパラメータを更新する処理では、決定された前記行動に従って前記基地局を制御した後の前記基地局の第2の負荷が前記基地局の負荷に関するしきい値を超えた場合に罰則を発生させ、前記基地局を制御した後の前記基地局の消費電力が少ないほど大きな値を前記報酬とし、前記罰則を発生させずに前記報酬を増大させるように前記モデルのパラメータを更新する、
請求項1記載の強化学習プログラム。
【請求項3】
前記第2の需要量と前記信頼度とを計算する処理では、前記信頼度として、前記第2の需要量の分散を計算する、
請求項1記載の強化学習プログラム。
【請求項4】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量に対して前記信頼度に応じた値を加算した第3の需要量と前記環境の現在の第1の状態とを含む入力データに基づいて、前記環境の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって生成されたモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行する、
強化学習プログラム。
【請求項5】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習方法。
【請求項6】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、決定した前記行動を前記環境に対して実行し、前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する処理部、
を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。制約が設けられている場合、制約を満たすような行動を決定するモデルが生成される。
【0003】
制約あり強化学習は、例えば無線アクセスネットワークの消費電力を最適化するための基地局制御に利用できる。その場合、複数の基地局のアクティブとスリープとの状態の切替の制御のためのモデルが、制約あり強化学習によって生成される。基地局制御のためのモデルにおける制約は、例えば各基地局の負荷が上限を超えないことである。
【0004】
基地局などの消費電力の制御に関する技術としては、例えば制御が失敗するリスクを抑えながら消費電力を抑えた制御を行うための制御情報を生成する技術が提案されている。また複数基地局分のベースバンド処理を集約する基地局装置において、頻繁なリソース切り替えによる切り替えオーバヘッドを低減する技術も提案されている。過去のトラフィックデータについて人工知能モデルを用いて分析し、基地局に対する容量を超える量を予測し、無人機を基地局に派遣する技術も提案されている。リアルタイムに省電力操作をするとともに、不適切な省電力処理や、深刻なユーザアクセスの混雑を防止し、エラービット数を低減させる技術も提案されている。セルラー通信ネットワークの基地局におけるトラフィックパターンの分析に基づいて電力消費を低減する技術も提案されている。
【0005】
さらにディープQネットワーク(DQN)の意思決定と高度なトラフィック需要予測を共同で適用した、異種ネットワークにおけるエネルギー考慮型モバイルトラフィックオフロード方式も提案されている。
【0006】
なお強化学習のモデルには、例えばニューラルネットワークを用いることができる。ニューラルネットワークに関する技術としては、例えば従来のニューラルネットワークと混合密度モデルを組み合わせて得られる新しいクラスのネットワークモデルが提案されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2016-189529号公報
【特許文献2】国際公開第2015/045444号
【特許文献3】米国特許出願公開第2022/0394512号明細書
【特許文献4】特表2015-515196号公報
【特許文献5】米国特許出願公開第2020/0045627号明細書
【非特許文献】
【0008】
【非特許文献1】Chih-Wei Huang, Po-Chen Chen, "Mobile Traffic Offloading with Forecasting using Deep Reinforcement Learning", arXiv:1911.07452, 18 Nov 2019
【非特許文献2】Christopher M. Bishop, "Mixture Density Networks", Neural Computing Research Group Report (NCRG/94/004), Aston University, February, 1994
【発明の概要】
【発明が解決しようとする課題】
【0009】
強化学習では、モデルの挙動を意図通りにコントロールすることが困難である。このような強化学習の特性があるため、制約あり強化学習では、学習後のモデルの挙動の結果、制約に関する指標がしきい値を超えることが多い。制約が守られない場合、モデルを用いた制御に問題が生じる可能性がある。例えば無線アクセスネットワークにおける基地局の制御において、基地局の負荷に関する制約が破られると、通信の輻輳の発生を招く。
【0010】
1つの側面では、本件は、制約が破られることを抑止することを目的とする。
【課題を解決するための手段】
【0011】
1つの案では、以下の強化学習プログラムが提供される。
コンピュータは、所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、第2の需要量の信頼度とを計算する。コンピュータは、第2の需要量と信頼度と環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、環境に対して行う行動を決定する。コンピュータは、決定した行動を環境に対して実行する。そしてコンピュータは、行動を行った後の環境の第2の状態と報酬とに基づいて、環境の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって、モデルのパラメータを更新する。
【発明の効果】
【0012】
1態様によれば、制約が破られることを抑止することができる。
【図面の簡単な説明】
【0013】
【
図1】第1の実施の形態に係る強化学習方法の一例を示す図である。
【
図2】コンピュータのハードウェアの一例を示す図である。
【
図3】制約あり強化学習を実現するためのコンピュータの機能の一例を示すブロック図である。
【
図4】制約あり強化学習動作の一例を示す図である。
【
図6】第2の実施の形態における制約あり強化学習による行動の一例を示す図である。
【
図7】制約あり強化学習の処理手順の一例を示すフローチャートである。
【
図8】予測分散を用いた制約あり強化学習によって得られたモデルによる予測結果の一例を示す図である。
【
図9】第3の実施の形態における制約あり強化学習による行動の一例を示す図である。
【
図10】制約あり強化学習による学習済みのモデルを用いた予測処理手順の一例を示すフローチャートである。
【
図11】予測分散に応じたマージンが加算された予測トラフィック量を入力した場合の検証結果の一例を示す図である。
【
図12】無線アクセスネットワークにおける基地局管理システムの一例を示す図である。
【発明を実施するための形態】
【0014】
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
第1の実施の形態は、環境で行われるサービスの予測される需要量の信頼度を有効に利用することで、制約あり強化学習での制約が破られることを抑止する強化学習方法である。
【0015】
図1は、第1の実施の形態に係る強化学習方法の一例を示す図である。
図1には、強化学習方法を実施する情報処理装置10が示されている。情報処理装置10は、例えば強化学習プログラムを実行することにより、強化学習方法を実施することができる。
【0016】
情報処理装置10は、記憶部11と処理部12とを有する。記憶部11は、例えば情報処理装置10が有するメモリまたはストレージ装置である。処理部12は、例えば情報処理装置10が有するプロセッサまたは演算回路である。
【0017】
記憶部11は、例えばモデル2の初期状態を記憶する。また記憶部11は、処理部12によって学習された後のモデル2を記憶する。
処理部12は、モデル2の制約あり強化学習を行う。例えば処理部12は、所定の環境1で提供されるサービスに対する現在の第1の需要量(現在需要量)に基づいて、一定時間後の第2の需要量(予測需要量)と、第2の需要量の信頼度とを計算する。信頼度は、一定時間後の予測値として計算された第2の需要量が、どの程度の信頼性があるのかを示す数値である。信頼度としては、例えば第2の需要量の確率変数の分散(第2の需要量の候補値(確率変数の取り得る値)と期待値(平均値)との差の2乗)を用いることができる。
【0018】
処理部12は、第2の需要量と信頼度と環境1の現在の第1の状態とを含む入力データに基づいて、機械学習のモデル2に従って、環境1に対して行う行動を決定する。例えば処理部12は、第2の需要量と信頼度と環境1の現在の第1の状態をモデル2への入力として、モデル2に従った計算を行い、モデル2の出力を得る。モデル2の出力が、環境1に対して行う行動を示す。処理部12は、環境1に対して決定した行動を実行する。
【0019】
行動が行われると、環境1の状態が、第1の状態から第2の状態に変化する。処理部12は、行動を行った後の環境1の第2の状態と報酬とに基づいて、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって、モデル2のパラメータを更新する。
【0020】
処理部12は、このような処理によるモデル2のパラメータの更新を繰り返す。これにより、モデル2を用いた行動の決定処理では、制約が破られることが抑止される。すなわち、制約つき強化学習は、制約を満たす範囲で報酬を増大させるようにモデル2のパラメータを更新するものであるが、モデル2に従って決定した行動の結果、環境1が、制約を満たさない状態に遷移することを完全に回避できるわけではない。モデル2の入力データに、予測された第2の需要量の信頼度を含めることで、信頼度が低い場合には、制約を満足させるための余裕度を大きくとり、信頼度が高い場合には、制約を満足させるための余裕度を小さくとるようにモデル2が学習される。その結果、制約が破られることが抑止される。
【0021】
環境1としては、例えば無線アクセスネットワークの通信環境が考えられる。この場合、環境1で提供されるサービスは、ユーザの端末からの要求に応じた、無線による情報通信サービスである。
【0022】
無線アクセスネットワークの基地局は、通信トラフィック量が少ない場合には、スリープ状態(端末と通信を行わない状態)にして、消費電力を抑えることが望まれる。他方、スリープ状態の基地局が多すぎると、短時間での通信トラフィック量の増加に対応できず、輻輳が発生する可能性がある。無線アクセスネットワークでは、輻輳の発生は極力避けることが重要である。そこで、例えば基地局の負荷が、負荷のしきい値を超えないという制約のもとで、強化学習が行われる。
【0023】
無線アクセスネットワークの基地局制御用のモデル2を生成する場合、無線アクセスネットワークの通信環境における現在の第1の通信トラフィック量が、第1の需要量となる。そして処理部12は、第1の通信トラフィック量に基づいて、無線アクセスネットワークの一定時間後の第2の通信トラフィック量を、第2の需要量として計算する。また無線アクセスネットワークについての第1の状態は、例えば基地局の負荷(第1の負荷)である。
【0024】
処理部12は、行動を決定する処理では、第2のトラフィック量と信頼度と無線アクセスネットワーク内の基地局の第1の負荷とに基づいて、モデル2に従って、基地局をアクティブにするのかスリープにするのかを決定する。そして処理部12は、決定した通りに基地局の状態を制御するように、無線アクセスネットワーク内の基地局制御用の装置に指示する。
【0025】
処理部12は、基地局の制御を指示後、基地局を制御した後の基地局の負荷(第2の負荷)が基地局の負荷に関するしきい値を超えた場合に罰則を発生させる。また処理部12は、基地局を制御した後の基地局の消費電力が少ないほど大きな値を報酬とする。そして処理部12は、罰則を発生させずに報酬を増大させるようにモデル2のパラメータを更新する。例えば罰則は負の報酬で与えられ、処理部12は、罰則に基づく負の報酬と、負荷に応じた報酬(正の報酬)との合計を増大させるように、モデル2のパラメータを更新する。
【0026】
これにより、一定時間後の通信トラフィック量の正確な予測が困難な状態となっているときには、アクティブ状態の基地局による通信能力に余裕を持たせるようなモデル2が生成される。また一定時間後の通信トラフィック量が十分正確に予測できる状態となっている場合には、より多くの基地局をスリープ状態とさせるようなモデル2が生成される。基地局を制御する装置に対して、モデル2を用いて基地局を制御させれば、基地局の負荷がしきい値を超えることによる輻輳の発生を抑止しながら、全体の消費電力の低減を図ることができる。
【0027】
予測した需要量の信頼度を、モデル2の学習時ではなく、生成済みのモデル2を用いた行動の決定時に利用することで、制約が破られることを抑止することも可能である。例えば処理部12は、信頼度を用いずに、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習を行うことによって生成されたモデル2を用いて、以下の処理を行う。
【0028】
処理部12は、所定の環境1で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、第2の需要量の信頼度とを計算する。処理部12は、第2の需要量に対して信頼度に応じた値を加算した第3の需要量を求める。そして処理部12は、第3の需要量と環境1の現在の第1の状態とを含む入力データに基づいて、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって生成されたモデル2に従って、環境1に対して行う行動を決定する。処理部12は、決定した行動を環境1に対して実行する。
【0029】
これにより、信頼度が低い場合には、予測された需要量が過大に見積もられることとなり、制約を満足させるための余裕度が大きくなる。その結果、制約が破られることが抑止される。
【0030】
〔第2の実施の形態〕
第2の実施の形態は、無線アクセスネットワークの基地局制御用のモデルを制約あり強化学習で生成する際に、制約を破るような挙動が抑止されたモデルを生成することができるコンピュータである。
【0031】
図2は、コンピュータのハードウェアの一例を示す図である。コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
【0032】
メモリ102は、コンピュータ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
【0033】
バス109に接続されている周辺機器としては、ストレージ装置103、GPU(Graphics Processing Unit)104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
【0034】
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、コンピュータ100の補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
【0035】
GPU104は画像処理を行う演算装置である。GPU104は、グラフィックコントローラの一例である。GPU104には、モニタ21が接続されている。GPU104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、有機EL(Electro Luminescence)を用いた表示装置や液晶表示装置などがある。
【0036】
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
【0037】
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取り、または光ディスク24へのデータの書き込みを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)などがある。
【0038】
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
【0039】
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース108は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース108は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。
【0040】
コンピュータ100は、以上のようなハードウェアによって、第2の実施の形態の処理機能を実現することができる。なおコンピュータ100は、第1の実施の形態に示した情報処理装置10の一例である。また第1の実施の形態に示した情報処理装置10も、
図2に示したコンピュータ100と同様のハードウェアにより実現することができる。
【0041】
コンピュータ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。またコンピュータ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
【0042】
コンピュータ100は、無線アクセスネットワークの環境をソフトウェアシミュレーションで再現することができる。コンピュータ100が無線アクセスネットワークの環境のシミュレーションを行うことで、実際の無線アクセスネットワーク環境に接続せずに基地局の消費電力および負荷を取得できる。これにより、制約あり強化学習を効率的に行うことができる。
【0043】
図3は、制約あり強化学習を実現するためのコンピュータの機能の一例を示すブロック図である。コンピュータ100は、記憶部110、基地局制御部120、および環境シミュレーション部130、および通信トラフィック予測部140を有する。
【0044】
記憶部110は、環境定義情報111を記憶する。環境定義情報111は、無線アクセスネットワークの環境に関する情報である。例えば各基地局の性能、基地局の負荷の上限などの情報が、環境定義情報111に含まれる。
【0045】
基地局制御部120は、通信トラフィック予測部140から得られる通信トラフィック量の予測値と、予測の信頼度とに基づいて、機械学習のモデルを用いて基地局の状態制御(アクティブ/スリープ)を行うと共に、そのモデルのパラメータを動的に修正する。予測の信頼度は、例えば予測分散で表される。予測分散とは、予測された出力が真値からどれほどバラついているかを示す指標である。真値とは、例えば通信トラフィック量の候補値(確率変数の取り得る値)それぞれが正しい値である確率が所定の確率分布に従うときの、確率分布の平均の値(期待値)である。確率分布は、例えばガウス分布(正規分布)である。例えば真値は、算出された予測トラフィック量と同じ値となる。
【0046】
基地局制御部120は、機械学習のモデルを用いて行動として各基地局の状態を決定すると、各基地局の状態を環境シミュレーション部130に指示する。基地局制御部120は、行動を適用した結果として、無線アクセスネットワークの状態情報を環境シミュレーション部130から取得する。取得する状態情報は、例えば各基地局の消費電力と負荷である。基地局制御部120は、取得した状態情報に基づいてモデルを修正する。モデルは、例えばニューラルネットワークである。その場合、基地局制御部120は、ニューロン間の重みパラメータを修正する。
【0047】
環境シミュレーション部130は、環境定義情報111に基づいて、強化学習の問題で定義される環境の状態の変化をシミュレートする。例えば環境シミュレーション部130は、無線アクセスネットワークにおける基地局のスリープ制御(どの基地局をスリープ状態にするのか)に基づいて、各基地局の負荷および消費電力をシミュレートする。
【0048】
また環境シミュレーション部130は、例えば予め設定されたスケジュールに従って現在の通信トラフィック量を決定する。また環境シミュレーション部130は、実際の無線アクセスネットワークにおける通信トラフィック量の時間遷移を再現するように、シミュレーション上の各時刻での通信トラフィック量を決定してもよい。
【0049】
環境シミュレーション部130は、シミュレーション結果として得られた各基地局の負荷と消費電力とを基地局制御部120に送信する。また環境シミュレーション部130は、現在の通信トラフィック量を通信トラフィック予測部140に送信する。
【0050】
通信トラフィック予測部140は、過去と現在の通信トラフィック量に基づいて、以降の通信トラフィック量を予測する。例えば通信トラフィック予測部140は、通信トラフィック予測用の学習済みのモデルを用いて通信トラフィック量を予測する。通信トラフィック量予測用のモデルは、例えばニューラルネットワークである。通信トラフィック予測部140は、以降の所定時間後の通信トラフィック量を予測する際に、同時に予測結果の信頼度を示す予測分散を求める。通信トラフィック予測部140は、予測した通信トラフィック量と予測分散とを、基地局制御部120に送信する。
【0051】
なお、
図3に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをプロセッサ101に実行させることで実現することができる。
図4は、制約あり強化学習動作の一例を示す図である。例えば環境シミュレーション部130は、マクロ基地局(MBS)131、複数のスモール基地局(SBSs)132、複数のユーザイクイップメント(UEs)133の動作を、ソフトウェアでシミュレートする。以下、基地局と呼んだ場合、マクロ基地局131と複数のスモール基地局とを含むものとする。
【0052】
例えば環境シミュレーション部130は、基地局制御部120からの複数のスモール基地局132それぞれの状態(アクティブかスリープか)の指示に応じて、複数のスモール基地局132それぞれの状態を設定する。
【0053】
また環境シミュレーション部130は、複数のユーザイクイップメント133それぞれによる通信要求の発生状況を、所定のアルゴリズムに従って再現する。そして環境シミュレーション部130は、複数のユーザイクイップメント133それぞれによる接続先の基地局の選択動作を再現し、接続先を選択する。このとき接続先となることができるのは、マクロ基地局131またはアクティブ状態のスモール基地局である。
【0054】
環境シミュレーション部130は、複数のユーザイクイップメント133それぞれの通信の接続状況に基づいて、マクロ基地局131および複数のスモール基地局132それぞれの負荷を計算する。また環境シミュレーション部130は、複数のユーザイクイップメント133それぞれの通信の接続状況と各基地局の状態とに基づいて、マクロ基地局131および複数のスモール基地局132それぞれの消費電力を計算する。
【0055】
環境シミュレーション部130は、各基地局の負荷と消費電力とを、基地局制御部120に送信する。また環境シミュレーション部130は、基地局それぞれと複数のユーザイクイップメント133それぞれとの間の通信トラフィック量を計算する。環境シミュレーション部130は、計算した通信トラフィック量を、現在トラフィック量として通信トラフィック予測部140に送信する。
【0056】
通信トラフィック予測部140は、基地局それぞれと複数のユーザイクイップメント133それぞれとの間の、以後の通信トラフィック量を予測する。また通信トラフィック予測部140は、トラフィック量の予測分散を計算する。そして通信トラフィック予測部140は、予測トラフィック量と予測分散とを基地局制御部120に送信する。
【0057】
基地局制御部120は、各基地局の現在の負荷と消費電力とを環境シミュレーション部130から取得する。また基地局制御部120は、通信トラフィック量と予測分散とを通信トラフィック予測部140から取得する。そして基地局制御部120は、取得した情報に基づいて、モデル121を用いて、複数のスモール基地局132それぞれの状態を決定する。
【0058】
また基地局制御部120は、各基地局の負荷と消費電力とに基づいて、モデル121のパラメータを修正する。この際、基地局制御部120は、各基地局の消費電力が少ないほど報酬を大きくする。また基地局制御部120は、各基地局の負荷が、負荷についての制約で示されるしきい値を超えている場合、罰則を大きくする。そして基地局制御部120は、報酬がより大きくなり、罰則がより小さくなるように、モデル121のパラメータを修正する。これにより制約あり強化学習が進められる。
【0059】
図4に示した例では、通信トラフィック予測部140から基地局制御部120に、予測トラフィック量に加えて予測分散が送信され、基地局制御部120では、予測分散を用いて複数のスモール基地局132の状態を求めている。複数のスモール基地局132の状態を求めるのに予測分散を利用しているのは、制約が破られることを抑止するためである。
【0060】
換言すると、予測分散を利用せずに制約あり強化学習を行うと、負荷に関する制約が破られることが多い。なお、制約が破られた場合の罰則を大きくすることで、制約は破られづらくなるが、罰則を大きくしすぎると、強化学習が進まず、精度の高いモデル121を生成することが困難となる。
【0061】
制約つき強化学習において、予測分散のような予測の信頼度の情報を利用することで、信頼度が高い場合は、基地局制御部120は、制約を守る範囲で、消費電力を大きく削減するような行動に決定することができる。また信頼度が低い場合は、基地局制御部120は、制約を破らないように、負荷のしきい値までの余裕を多めにとった行動に決定することができる。その結果、制約が破られることを抑止することができる。
【0062】
次に、予測分散について説明する。
図5は、予測分散の一例を示す図である。通信トラフィック予測部140は、例えば学習するデータ系列がある分布に基づいていると仮定し、モデル141の出力として、分布の平均と分散を予測する。モデル141としては、例えばLSTM(Long Short-Term Memory)ネットワークの出力側に混合密度ネットワーク(MDN:Mixture Density Network)を設けたニューラルネットワークが用いられる。この場合、MDNによって、予測トラフィック量の分散が計算される。
【0063】
例えば通信トラフィック予測部140は、MDNにより混合ガウス分布を仮定し、各分布の混合ガウス係数π、平均μ、分散δを予測する。
MDNでは、以下の式(1)に示す負の対数尤度の最小値を損失関数として学習が行われる。
【0064】
【数1】
式(1)においてN()は、ガウス分布の確率密度関数である。Σは、分散共分散行列である。yは、教示信号である。xは、モデル141への入力である。
図5の例では、混合ガウス係数π、平均μ、分散δのセットが、K個(Kは自然数)出力されている。例えばMDNによって得られるK個の分散δの平均を、予測トラフィック量の予測分散とすることができる。なお、MDNの詳細は、前述の非特許文献2に示されている。
【0065】
通信トラフィック予測用のモデル141は、予め学習済みである。例えば通信トラフィック予測部140は、無線アクセスネットワークの領域を複数の部分領域に分割する。そして通信トラフィック予測部140は、部分領域ごとに、予測トラフィック量と予測分散とを計算する。
【0066】
部分領域ごとの予測トラフィック量と予測分散とは、基地局制御部120におけるモデル121の学習と予測に利用される。
図6は、第2の実施の形態における制約あり強化学習による行動の一例を示す図である。通信トラフィック予測部140で予測された予測分散は、基地局制御部120における制約つき強化学習手法の入力となる。基地局制御部120は、例えば無線アクセスネットワークの状態(基地局の負荷)と予測トラフィック量と信頼度を反映した値(予測分散)とをモデル121への入力として、モデル121の学習を行う。
【0067】
例えば基地局制御部120は、モデル121からの出力に基づいて、スモール基地局の状態(アクティブにするかスリープにするか)についての行動を決定する。そして基地局制御部120は、決定した行動を環境シミュレーション部130に指示する。すると、決定した行動に基づいて、環境シミュレーション部130が無線アクセスネットワークの環境のシミュレーションを行い、状態(時刻ラベル、各基地局の負荷)と報酬(消費電力、各基地局の負荷)とを基地局制御部120に送信する。基地局制御部120は、いずれかの基地局の負荷がしきい値を超えた場合は罰則(負の報酬)を付与する。また基地局制御部120は、消費電力が少ないほど報酬を大きくする。また基地局制御部120は、基地局の負荷が少ないほど報酬を大きくしてもよい。そして基地局制御部120は、報酬がより大きく(罰則が低く)なるようにモデル121のパラメータを更新する。
【0068】
基地局制御部120は、予測トラフィック量と予測分散に基づく学習を繰り返し実行することで、モデル121の精度を向上させる。これにより、基地局制御部120は、モデルが次時刻(例えば10分後)の行動で、「信頼度(分散値)が高い/低い→リスクをとらない/とる」といった挙動を学習する。例えばリスクをとる場合、予測される負荷から負荷のしきい値までの差が、リスクをとらない場合よりも小さくなるように学習が行われる。
【0069】
その結果、十分な学習が行われた後は、基地局制御部120は、分散が高い場合は、スリープさせるスモール基地局の数を少量に留める。他方、基地局制御部120は、分散が低い場合は、多くのスモール基地局をスリープさせる。これにより、基地局の負荷がしきい値を超える(制約が破られる)ような事態の発生が抑止される。
【0070】
このように、予測トラフィック量の信頼度を示す予測分散を制約あり強化学習に利用することで、例えば予測トラフィック量が同じ場合であっても、予測分散が異なれば、決定される行動も異なる。そして、報酬を高めるように学習を進めれば、制約が破られる事態の発生を抑止したモデル121が生成される。
【0071】
次に、制約が破られることを抑止した制約あり強化学習の処理手順について説明する。
図7は、制約あり強化学習の処理手順の一例を示すフローチャートである。以下、
図7に示す処理をステップ番号に沿って説明する。
【0072】
[ステップS101]基地局制御部120は、学習パラメータを初期化する。
[ステップS102]環境シミュレーション部130は、無線アクセスネットワークの環境を初期化する。
【0073】
[ステップS103]基地局制御部120は、環境の状態を取得する。例えば基地局制御部120は、時刻ラベル、基地局の負荷、現在のトラフィック量を取得する。現在のトラフィック量は、例えば無線アクセスネットワークの領域を分割して得られる複数の部分領域ごとのトラフィック量である。
【0074】
[ステップS104]通信トラフィック予測部140は、現在のトラフィック量に基づいて、環境シミュレーション上の次の時刻(例えば10分後)の通信トラフィック量と予測分散を、部分領域ごとに計算する。
【0075】
[ステップS105]基地局制御部120は、環境シミュレーション上の次の時刻の行動を予測する。例えば基地局制御部120は、現在の各基地局の負荷と部分領域ごとの予測トラフィック量と部分領域ごとの予測分散とをモデル121への入力データとして、モデル121に従った計算を行う。この計算結果が、予測された行動を示す。
【0076】
なお、基地局制御部120は、各基地局の負荷については、現在の負荷だけでなく、過去の所定期間内の負荷を入力データに含めてもよい。また基地局制御部120は、現在の通信トラフィック量(現在需要量)を入力データに含めてもよい。
【0077】
[ステップS106]環境シミュレーション部130は、予測された行動に基づいて、環境を更新する。例えば環境シミュレーション部130は、スリープと指定されているスモール基地局を、消費電力の少ないスリープ状態に移行させる。また環境シミュレーション部130は、アクティブと指定されているスモール基地局を、ユーザイクイップメントからの要求に応じて通信を行う状態に移行させる。また環境シミュレーション部130は、状態の更新結果から報酬を計算し、基地局制御部120に報酬をフィードバックする。
【0078】
[ステップS107]基地局制御部120は、エピソードをデータセットに追加する。エピソードには、環境シミュレーション上のある時刻についての、基地局ごとの予測トラフィック量と予測分散、予測された基地局ごとの状態、その状態の環境における基地局ごとの負荷と消費電力などの情報が含まれる。
【0079】
[ステップS108]基地局制御部120は、エピソードが規定数に達したか否かを判断する。基地局制御部120は、エピソードが規定数に達した場合、処理をステップS109に進める。また基地局制御部120は、エピソードが規定数に達していなければ、処理をステップS103に進める。
【0080】
[ステップS109]基地局制御部120は、データセットに含まれるエピソードそれぞれをモデル121に入力して、モデル121に従った計算を行い、行動を予測する。また基地局制御部120は、アクティブの基地局について、予測時に想定した報酬の大きさを示す値と、フィードバックされた負荷および消費電力から得られる報酬の大きさを示す値との誤差を算出する。報酬の大きさを示す値は、例えばQ値と呼ばれる値である。
【0081】
[ステップS110]基地局制御部120は、誤差を、モデル121にフィードバックする。例えば基地局制御部120は、モデル121のパラメータを、誤差が少なくなる方向に修正する。
【0082】
[ステップS111]基地局制御部120は、学習終了か否かを判断する。例えば基地局制御部120は、誤差が一定値以下になった場合、学習終了と判断する。基地局制御部120は、学習終了の場合処理をステップS112に進める。また基地局制御部120は、学習を継続する場合、処理をステップS103に進める。
【0083】
[ステップS112]基地局制御部120は、学習されたモデル121についてのパラメータを保存する。
このようにして学習したモデル121を用いて基地局の状態を制御することで、制約が破られることが抑止される。例えば、環境シミュレーション部130に代えて実際の無線アクセスネットワークの基地局を制御する装置を利用する。これにより、実際の無線アクセスネットワークにおける基地局の省電力制御を、負荷がしきい値を超えない範囲で適切に行うことができる。
【0084】
図8は、予測分散を用いた制約あり強化学習によって得られたモデルによる予測結果の一例を示す図である。予測結果比較表31には、モデル121へ入力する情報の違いに応じた予測結果の違いが示されている。モデル121へ入力した情報の種類は、以下の4パターンである。
1.現在需要量λ
t
2.予測需要量λ
t+1(λは^付き)
3.現在需要量λ
t、予測需要量λ
t+1(λは^付き)
4.現在需要量λ
t、予測需要量λ
t+1(λは^付き)、予測分散σ
2
なお、無線アクセスネットワークでは、現在需要量は、現在トラフィック量である。予測需要量は、予測トラフィック量である。またモデル121への学習時の入力と検証時の入力とは同じである。制約として設定された負荷のしきい値は「0.1」である。
【0085】
報酬は、負荷と消費電力に基づいて計算した値である。報酬は、値が大きいほどモデル121の性能が良いことを示す。負荷は、値が低いほどモデル121の性能が良いことを示す。最大負荷がしきい値を超えることは、可能な限り避けることが望まれる。消費電力は、値が低いほどモデル121の性能が良いことを示す。
【0086】
予測結果比較表31に示すように、予測分散を入力に含めることで最大負荷が低下する。しかも、予測分散が入力に含まれる場合、最大負荷が負荷のしきい値を超えずに済む。すなわち制約が守られる。
【0087】
例えばモデル121の学習に現在需要量のみを用いた場合、最大負荷は「0.10341±0.00526」となる。この場合、負荷がしきい値「0.1」を超える可能性が高い。モデル121の学習に予測需要量のみを用いた場合、最大負荷は「0.09601±0.00354」となる。この場合、負荷が最大負荷の誤差の上限「0.09601+0.00354」となっても負荷のしきい値以下であるものの、かなりしきい値に近い値となっている。そのため、環境の状態に想定外の変化があると、負荷がしきい値を超える危険性がある。これは、モデル121の学習に現在需要量と予測需要量とを用いた場合も同様である。
【0088】
それに対して、モデル121の学習に現在需要量と予測需要量と予測分散を用いた場合、最大負荷は「0.08897±0.00530」となっている。この場合、負荷が最大負荷の誤差の上限「0.08897+0.00530」となっても、まだ負荷のしきい値(0.1)までに余裕がある。そのため、環境が想定外の変化をした場合でも、負荷がしきい値を超えることが抑止される。
【0089】
〔第3の実施の形態〕
第3の実施の形態では、基地局制御部120において、モデル121を用いた適切な行動の予測時に、信頼度に基づくマージンを加算した予測トラフィック量をモデル121への入力とする。これにより、各基地局は安全側に傾いた制御が行われる。例えば予測のバラつきが大きい時刻では予測トラフィック量が過大評価されるため、スモール基地局をスリープさせないように、行動が決定される。
【0090】
なおモデル121の学習時には、予測トラフィック量への信頼度に基づくマージンの加算は不要である。すなわち、第3の実施の形態では、学習時には、通信トラフィック予測部140は予測分散の計算を行わない。また学習時には、基地局制御部120は、モデル121への入力に予測分散を含めない。学習時におけるそれ以外の処理は、
図7に示した第2の実施の形態の処理と同様である。
【0091】
図9は、第3の実施の形態における制約あり強化学習による行動の一例を示す図である。第3の実施の形態では、基地局制御部120における処理が第2の実施の形態と異なる。基地局制御部120は、学習時には、予測分散を利用しない。また基地局制御部120は、予測時には、予測分散に応じたマージンを予測トラフィック量に加算する。
【0092】
例えば学習時には、ある部分領域の予測トラフィック量に基づいて、周囲の3つのスモール基地局それぞれの状態として、1つがアクティブ、2つがスリープと決定されたものとする。予測時には、その部分領域について学習時と同じ予測トラフィック量がモデル121に入力されると、アクティブのスモール基地局の数が増加する。
図9の例では、該当部分領域の周囲の3つのスモール基地局すべてをアクティブとすることが決定されている。
【0093】
予測トラフィック量に加算するマージンの量は、予測分散が大きいほど大きな値である。例えば、「予測トラフィック量+予測分散」が、予測時にモデル121に入力される予測トラフィック量となる。予測分散に応じたマージンの大きさを、ユーザが任意に設定することも可能である。その場合、マージンの大きさを「a×予測分散」(係数aは、正の実数)とする。ユーザは、係数aの値を指定することで、マージンの大きさを任意に設定することができる。
【0094】
次に、予測トラフィック量への予測分散の大きさに応じたマージンの加算を行う際の予測時の処理手順について説明する。
図10は、制約あり強化学習による学習済みのモデルを用いた予測処理手順の一例を示すフローチャートである。以下、
図10に示す処理をステップ番号に沿って説明する。
【0095】
[ステップS201]基地局制御部120は、学習パラメータを初期化する。
[ステップS202]環境シミュレーション部130は、無線アクセスネットワークの環境を初期化する。
【0096】
[ステップS203]基地局制御部120は、環境の状態を取得する。例えば基地局制御部120は、時刻ラベル、基地局の負荷、現在のトラフィック量を取得する。現在のトラフィック量は、例えば無線アクセスネットワークの領域を分割して得られる複数の部分領域ごとのトラフィック量である。
【0097】
[ステップS204]通信トラフィック予測部140は、現在のトラフィック量に基づいて、環境シミュレーション上の次の時刻(例えば10分後)の通信トラフィック量と予測分散を、部分領域ごとに計算する。
【0098】
[ステップS205]基地局制御部120は、予測トラフィック量にマージンを加算する。
[ステップS206]基地局制御部120は、マージンが加算された予測トラフィック量を用いて、環境シミュレーション上の次の時刻の行動を予測する。例えば基地局制御部120は、部分領域ごとの予測トラフィック量に対して、その部分領域の予測分散に応じたマージンを加算する。そして基地局制御部120は、マージンが加算された後の値を、予測トラフィック量としてモデル121への入力データに含め、モデル121に従った計算を行う。この計算結果が、予測された行動を示す。
【0099】
[ステップS207]環境シミュレーション部130は、予測された行動に基づいて、環境を更新する。例えば環境シミュレーション部130は、スリープと指定されているスモール基地局を、消費電力の少ないスリープ状態に移行させる。また環境シミュレーション部130は、アクティブと指定されているスモール基地局を、ユーザイクイップメントからの要求に応じて通信を行う状態に移行させる。
【0100】
[ステップS208]基地局制御部120は、環境シミュレーション上の規定のタイムステップまで予測を適用したか否かを判断する。基地局制御部120は、規定のタイムステップまでの予測の適用が終了した場合、処理をステップS209に進める。また基地局制御部120は、規定のタイムステップまでの予測の適用が終了していない場合、処理をステップS203に進める。
【0101】
[ステップS209]基地局制御部120は、予測処理終了か否かを判断する。例えば基地局制御部120は、ユーザから予測終了の指示が入力された場合、予測終了と判断する。基地局制御部120は、予測終了の場合、処理をステップS210に進める。また基地局制御部120は、予測を継続する場合、処理をステップS203に進める。
【0102】
[ステップS210]基地局制御部120は、予測結果を、メモリ102またはストレージ装置103に保存する。予測結果には、例えば環境の状態(基地局の負荷と通信トラフィック量を含む)、予測トラフィック量、予測分散、次時刻の行動などの情報が含まれる。
【0103】
環境シミュレーション部130に代えて実際に基地局を制御する装置に接続し、
図10に示した処理で予測した行動に基づき基地局を制御することで、無線アクセスネットワークにおいて制約が破られることを抑止した、省電力基地局制御が可能となる。
【0104】
図11は、予測分散に応じたマージンが加算された予測トラフィック量を入力した場合の検証結果の一例を示す図である。予測結果比較表32には、予測時に予測分散に応じたマージンを含める場合と含めない場合とにおける予測結果が示されている。予測時にモデル121への入力に用いた情報は以下の2パターンである。
1.現在需要量λ
t
2.予測需要量λ
t+1(λは^付き)
予測結果比較表32には、入力の各パターンについて、予測精度の検証時に、予測需要量(予測トラフィック量)に対して予測分散σ
2(σは^付き)の値を加算する場合と、加算しない場合との予測結果が示されている。すなわち現在需要量を入力として用いた場合、モデル121への学習時の入力は現在需要量の値のままであり、検証時の入力は現在需要量+予測分散である。予測需要量を入力として用いた場合、モデル121への学習時の入力は予測需要量の値のままであり、検証時の入力は予測需要量+予測分散である。なお、制約として定義された負荷のしきい値は「0.1」である。
【0105】
予測結果比較表32に示されるように、予測需要量に対して予測分散に応じたマージンを加算した場合、負荷の最大値が低下する。その結果、負荷の最大値がしきい値を超える(制約が破られる)ことが抑止される。
【0106】
例えば現在需要量を用いた場合、予測分散に応じたマージンの加算を行わなければ、最大負荷は「0.10341±0.00526」となる。この場合、負荷が負荷のしきい値を超える可能性が高い。それに対して、予測需要量に対して予測分散に応じたマージンを加算することで、最大負荷は「0.09356±0.00326」となっている。この場合、負荷が誤差の上限「0.09356+0.00326」となっても、まだ負荷のしきい値以下である。
【0107】
予測需要量を用いた場合、より正確な予測が可能となり、現在需要量を用いた場合よりも負荷の最大値は低下する。ただし、予測分散に応じたマージンの加算を行わなければ、最大負荷は「0.09601±0.00354」となる。この場合、誤差の上限「0.09601+0.00354」は負荷のしきい値以下であるものの、かなりしきい値に近い値となっている。そのため、環境の想定外の若干の変化でも、負荷が最大値を超える危険性がある。それに対して、予測需要量に対して予測分散に応じたマージンを加算することで、最大負荷は「0.09494±0.00268」となっている。この場合、負荷が誤差の上限「0.09494+0.00268」となっても、まだ負荷のしきい値までは余裕がある。そのため、環境が想定外の変化をした場合でも、負荷がしきい値を超えることが抑止される。
【0108】
〔その他の実施の形態〕
第2・第3の実施の形態に示した強化学習によって学習したモデルは、例えば携帯電話会社のような無線アクセスネットワークを運営している組織における無線基地局の管理に有効に利用できる。
【0109】
図12は、無線アクセスネットワークにおける基地局管理システムの一例を示す図である。例えば基地局管理サーバ200は、無線の基地局71~74の動作状態(アクティブかスリープか)を管理している。また基地局管理サーバ200は、各基地局71~74での時刻ごとのトラフィック量、基地局の使用率、消費電力などの情報を取得できる。基地局管理サーバ200は、取得した情報を状態データ81としてコンピュータ100に送信する。
【0110】
コンピュータ100は、環境シミュレーション部130により無線アクセスネットワークの動作を模倣させて強化学習を実行し、報酬が最大となるような方策が設定されたモデルを生成する。そしてコンピュータ100は、基地局管理サーバ200から取得した状態データ81に示される状態をモデルに入力し、行動(各基地局をアクティブにするのかスリープにするのか)を決定する。コンピュータ100は、決定した行動を示す行動データ82を基地局管理サーバ200に送信する。基地局管理サーバ200は、行動データ82に基づいて、基地局71~74の動作状態を制御する。
【0111】
コンピュータ100は、行動データ82を送信後の基地局71~74の状態を示す状態データ81を基地局管理サーバ200から取得すると、指示した行動に対する報酬を計算する。そしてコンピュータ100は、より報酬が高くなるように、モデルの方策を更新する。これにより、精度のよいモデルが生成され、無線アクセスネットワークにおける省電力化が促進される。
【0112】
なお
図12の例では、基地局管理サーバ200と別のコンピュータ100で強化学習を実施しているが、基地局管理サーバ200内で強化学習を実施してもよい。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
【符号の説明】
【0113】
1 環境
2 モデル
10 情報処理装置
11 記憶部
12 処理部