(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-01-23
(45)【発行日】2024-01-31
(54)【発明の名称】移動体装置の接続先基地局の選択を学習する学習装置およびシステム
(51)【国際特許分類】
H04W 24/02 20090101AFI20240124BHJP
G06N 20/00 20190101ALI20240124BHJP
H04W 16/32 20090101ALI20240124BHJP
H04W 24/08 20090101ALI20240124BHJP
H04W 36/14 20090101ALI20240124BHJP
H04W 36/36 20090101ALI20240124BHJP
H04W 48/16 20090101ALI20240124BHJP
H04W 88/06 20090101ALI20240124BHJP
【FI】
H04W24/02
G06N20/00
H04W16/32
H04W24/08
H04W36/14
H04W36/36
H04W48/16 131
H04W48/16 134
H04W88/06
(21)【出願番号】P 2023147749
(22)【出願日】2023-09-12
【審査請求日】2023-09-12
【早期審査対象出願】
(73)【特許権者】
【識別番号】397036309
【氏名又は名称】株式会社インターネットイニシアティブ
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】柿島 純
【審査官】田畑 利幸
(56)【参考文献】
【文献】米国特許出願公開第2023/0016595(US,A1)
【文献】国際公開第2020/159430(WO,A1)
【文献】米国特許出願公開第2021/0007023(US,A1)
【文献】国際公開第2022/186657(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04W 4/00-99/00
G06N 20/00
3GPP TSG RAN WG1-4
SA WG1-4
CT WG1,4
(57)【特許請求の範囲】
【請求項1】
通信方式が異なる複数の基地局と接続することが可能な通信エリアにおいて移動体装置が接続すべき基地局の選択を学習する学習装置であって、
前記移動体装置の前記通信エリアにおける位置を管理する移動体位置管理部と、
前記移動体装置の前記通信エリアにおける前記位置ごとに、前記複数の基地局の各々に対して、強化学習における報酬値を管理する報酬管理部であって、前記報酬値は、当該位置において当該基地局を接続先として選択することに対する報酬を表す、報酬管理部と、
前記移動体装置の前記位置と前記報酬値とに基づく強化学習により、前記移動体装置が接続すべき基地局を選択するための学習モデルを生成する学習モデル生成部と、
を備える学習装置。
【請求項2】
前記移動体位置管理部は、前記移動体装置の前記通信エリアにおける予め設定された1または複数の移動経路を、前記移動体装置の前記位置として管理し、
前記学習モデル生成部は、前記移動体装置の前記1または複数の移動経路上の各位置と当該各位置に対応する前記報酬値とに基づく強化学習により、前記学習モデルを生成する、
請求項1に記載の学習装置。
【請求項3】
前記移動経路は、第1の通信方式による基地局と接続することが可能であり第2の通信方式による基地局と接続することが可能でない第1通信エリアと、前記第1の通信方式による基地局および前記第2の通信方式による基地局の両方と接続することが可能な第2通信エリアとを跨る経路であり、
前記第2通信エリアにおいて、前記第2の通信方式による基地局に対する前記報酬値は、前記第1の通信方式による基地局に対する前記報酬値よりも高い値に設定される、
請求項2に記載の学習装置。
【請求項4】
前記第1の通信方式は、パブリック5G、パブリック4G、パブリックLTEのうちのいずれかによる通信方式を含み、前記第2の通信方式は、ローカル5G、ローカル4G、ローカルLTE、無線LANのうちのいずれかによる通信方式を含む、請求項3に記載の学習装置。
【請求項5】
前記学習モデルは、前記移動体装置の前記位置を状態s
tとして入力し、前記複数の基地局のうちの各基地局を選択する行動a
tを行った場合における行動価値Q(s
t,a
t)を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項1に記載の学習装置。
【請求項6】
請求項1から5のいずれか1項に記載の学習装置
と、前記学習装置によって生成された前記学習モデルを搭載した移動体装置
と、を備えるシステムであって、
前記移動体装置は、
前記移動体装置の現在位置を取得する位置取得部と、
前記学習モデルを用いて、前記移動体装置の前記取得された現在位置に基づいて前記通信エリアにおける複数の基地局の中から1つの基地局を選択する基地局選択部と、
前記基地局選択部によって選択された基地局と通信する通信部と、
を備える
、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、移動体装置の接続先基地局の選択を学習する学習装置およびシステムに関する。
【背景技術】
【0002】
近年、多様な無線通信ネットワークが併存して利用されている。例えば、パブリック5G(または4G、LTE)と呼ばれる通信事業者によって提供されるネットワークと、ローカル5G(または4G、LTE)と呼ばれる通信事業者ではない一般企業や自治体等によって提供されるネットワークがあり、後者の通信エリアは前者の通信エリアに重複してスポット的に設けられている。そのような重複エリアでは、移動端末はいずれかのネットワークを選択して利用することができる。
【先行技術文献】
【非特許文献】
【0003】
【文献】「プライベートLTEとパブリックLTEの相互運用における問題とその解決」、[online]、株式会社インターネットイニシアティブ、[令和5年7月28日検索]、インターネット<https://www.slideshare.net/IIJ_techlog/iijmio-meeting-26-ltelte>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、例えば上記のような環境において、移動端末がパブリック5Gエリアからローカル5Gエリアへ移動した場合に、パブリック5Gネットワークとの通信が継続されてしまい、ローカル5Gネットワークへ通信が切り替わらないことがある(例えば非特許文献1参照)。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、通信方式が異なる複数の基地局と接続することが可能な通信エリアにおいて移動体装置が接続すべき基地局の選択を学習する学習装置であって、前記移動体装置の前記通信エリアにおける位置を管理する移動体位置管理部と、前記移動体装置の前記通信エリアにおける前記位置ごとに、前記複数の基地局の各々に対して、強化学習における報酬値を管理する報酬管理部であって、前記報酬値は、当該位置において当該基地局を接続先として選択することに対する報酬を表す、報酬管理部と、前記移動体装置の前記位置と前記報酬値とに基づく強化学習により、前記移動体装置が接続すべき基地局を選択するための学習モデルを生成する学習モデル生成部と、を備える学習装置が提供される。
【0006】
また、本発明の一態様によれば、前記移動体位置管理部は、前記移動体装置の前記通信エリアにおける予め設定された1または複数の移動経路を、前記移動体装置の前記位置として管理し、前記学習モデル生成部は、前記移動体装置の前記1または複数の移動経路上の各位置と当該各位置に対応する前記報酬値とに基づく強化学習により、前記学習モデルを生成するのであってよい。
【0007】
また、本発明の一態様によれば、前記移動経路は、第1の通信方式による基地局と接続することが可能であり第2の通信方式による基地局と接続することが可能でない第1通信エリアと、前記第1の通信方式による基地局および前記第2の通信方式による基地局の両方と接続することが可能な第2通信エリアとを跨る経路であり、前記第2通信エリアにおいて、前記第2の通信方式による基地局に対する前記報酬値は、前記第1の通信方式による基地局に対する前記報酬値よりも高い値に設定されるのであってよい。
【0008】
また、本発明の一態様によれば、前記第1の通信方式は、パブリック5G、パブリック4G、パブリックLTEのうちのいずれかによる通信方式を含み、前記第2の通信方式は、ローカル5G、ローカル4G、ローカルLTE、無線LANのうちのいずれかによる通信方式を含むのであってよい。
【0009】
また、本発明の一態様によれば、前記学習モデルは、前記移動体装置の前記位置を状態stとして入力し、前記複数の基地局のうちの各基地局を選択する行動atを行った場合における行動価値Q(st,at)を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルであるのであってよい。
【0010】
また、本発明の一態様によれば、前記学習装置によって生成された前記学習モデルを搭載した移動体装置であって、前記移動体装置の現在位置を取得する位置取得部と、前記学習モデルを用いて、前記移動体装置の前記取得された現在位置に基づいて前記通信エリアにおける複数の基地局の中から1つの基地局を選択する基地局選択部と、前記基地局選択部によって選択された基地局と通信する通信部と、を備える移動体装置が提供される。
【発明の効果】
【0011】
本発明によれば、複数の基地局の中から移動体装置が接続すべき適切な1つの基地局を決定することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態に係る学習装置が適用されるシステムの概略的な構成を示す図である。
【
図2】本発明の一実施形態に係る学習装置の機能的構成を示すブロック図である。
【
図3】移動体位置管理部が移動体装置の位置を管理し報酬管理部が学習用の報酬値を管理するための管理テーブルの一例である。
【
図4】移動体装置の状態の遷移を示す模式図である。
【
図5】学習モデルの一例(DQN)を示す図である。
【
図6】学習モデルの別の一例(Fixed Target Q-Network)を示す図である。
【
図8】本発明の一実施形態に係る移動体装置の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
【0014】
図1は、本発明の一実施形態に係る学習装置が適用されるシステムの概略的な構成を示す図である。システム10は、学習装置100と、移動体装置200と、複数の基地局300(300A、300B)を備える。移動体装置200は、複数の基地局300との間で無線通信を行うことができる。各基地局300は、移動体装置200が当該基地局300と無線通信することを可能にする無線通信エリア(以下、通信エリア)を形成する。
【0015】
図1の例において、通信エリアは、第1通信エリアCA1と、第1通信エリアCA1に内包された第2通信エリアCA2とを含む。第1通信エリアCA1は、移動体装置200が基地局300Aと通信できるが基地局300Bとは通信できないエリアである。第2通信エリアCA2は、移動体装置200が基地局300Aと基地局300Bの両方と通信することが可能なエリアである。換言すれば、基地局300Aは、第1通信エリアCA1と第2通信エリアCA2の両方を包含する1つの大きなエリアにわたる通信エリアを形成している。一方、基地局300Bは、基地局300Aによって形成される通信エリアの中にそれより小さい通信エリア(第2通信エリアCA2)を形成している。
【0016】
例えば、
図1のシステム10が5G(第5世代)、4G(第4世代)、および/またはLTE(Long Term Evolution)モバイル通信システムとともに利用される場合において、基地局300Aによって形成される通信エリア(すなわち第1通信エリアCA1と第2通信エリアCA2を併せた全体エリア)は、パブリック5Gエリア、パブリック4Gエリア、またはパブリックLTEエリアであってよく、また基地局300Bによって形成される通信エリア(第2通信エリアCA2)は、ローカル5Gエリア、ローカル4Gエリア、またはローカルLTEエリアであってよい。基地局300Bによって形成される通信エリア(第2通信エリアCA2)は、モバイル通信によるもの限らず、例えばWiFi等の無線LANによる通信が可能な通信エリアであってもよい。なお、パブリック5G(4G、LTE)エリアとは、モバイル通信サービス(携帯電話およびデータ通信)を提供する通信事業者によって構築され管理される広範な通信範囲を有する通信エリアであり、一方ローカル5G(4G、LTE)エリアとは、通信事業者ではない一般企業や自治体等によって構築され管理される、比較的狭い通信範囲を有する通信エリアである。
【0017】
例えば、移動体装置200は、パブリック5Gエリア(すなわち第1通信エリアCA1および第2通信エリアCA2)において、第1の通信方式(例えば第1の周波数帯域を使用した、5Gモバイル通信方式)を用いて、基地局300Aと通信することができ、またローカル5Gエリア(すなわち第2通信エリアCA2)においては、第1の通信方式と異なる第2の通信方式(例えば第1の周波数帯域とは異なる第2の周波数帯域を使用した、5Gモバイル通信方式)を用いて、基地局300Bと通信することができる。また、例えばパブリック5Gエリアと無線LANによる通信エリアが併存する場合、移動体装置200は、無線LAN通信エリア(すなわち第2通信エリアCA2)において、パブリック5Gエリアで用いる第1の通信方式(5Gモバイル通信方式)とは異なる第2の通信方式(無線LAN通信方式)を用いて、基地局300Bと通信することができる。したがって、第2通信エリアCA2では、移動体装置200は、第1の通信方式に従う基地局300Aとパブリック5Gによる通信を行うか、第2の通信方式に従う基地局300Bとローカル5G(または、例えば無線LAN)による通信を行うかを選択し、その選択に基づいて基地局300Aと基地局300Bのいずれかと通信する。
【0018】
なお、通常、パブリック5G(4G、LTE)とローカル5G(4G、LTE)は、通信規格の世代が同じではあっても、使用される周波数帯域が互いに異なっている。本明細書では、周波数帯域の相違は、通信方式の相違に含まれる概念であるものとする。
【0019】
図1に示される通信エリアの配置は説明のための単なる一例であって、限定的と解されるべきではないことに留意されたい。例えば、第2通信エリアCA2の大きさは
図1に示されるよりもずっと大きいのであってもよいし、あるいは、第1通信エリアCA1の中に複数の第2通信エリアCA2が存在するのであってもよい。また、
図1にはパブリックエリア(例えばパブリック5Gエリア)を形成する1つの基地局300Aだけが示されているが、複数の基地局300Aによってパブリックエリアが形成され、移動体装置200はパブリックエリア内の位置に応じたそのうち1つの基地局300Aと通信するのであってよい。ローカルエリア(例えばローカル5Gエリア)についても同様である。
【0020】
移動体装置200は、例えば、ドローン等の遠隔操縦式もしくは自律移動型の空中・陸上・海上移動機械、または自動運転車両を含む移動車両(自動車等)、または人間によって携帯されて移動するスマートフォン等の情報端末、あるいは、基地局300と通信する能力を備え通信エリア内を移動することができるその他の任意のタイプの装置・デバイスであってよい。
【0021】
図1に示されるように、移動体装置200は、通信エリア内をある移動経路MPに沿って移動する。移動経路MPは、例えば、最初に第1通信エリアCA1を通過する区間#1、区間#1の後に第2通信エリアCA2を通過する区間#2、および、区間#2の後に再び第1通信エリアCA1を通過する区間#3、からなる3つの区間を含む。この例において、移動体装置200は、例えば、移動経路MPに沿って移動中の区間#2においてパブリック5Gではなくローカル5G(または無線LAN)による通信を行うことが望ましいまたは求められる場合がある。本実施形態によるシステム10は、このような移動経路MP上を移動する移動体装置200が通信接続先としていずれの通信方式(例えばパブリック5G/ローカル5G)の基地局300Aまたは300Bを選択すべきか、を学習する学習装置100を備える。
【0022】
図2は、本発明の一実施形態に係る学習装置100の機能的構成を示すブロック図である。学習装置100は、移動体位置管理部110と、報酬管理部120と、学習モデル生成部130と、学習モデル生成部130によって生成された学習モデル140とを備える。なお、学習装置100は、プロセッサおよびメモリを備えたコンピュータによって実現することができる。
【0023】
学習装置100の移動体位置管理部110は、通信エリアにおける移動体装置200の位置を管理するように構成される。移動体装置200の位置は、
図1に示されるような移動経路MP上の各位置である。移動経路MPは、例えば、予め設定された経路であってよい。移動経路MP上の各位置は、三次元位置座標(x,y,z)によって表すことができる。移動体位置管理部110は、例えば、予め設定された1または複数の移動経路MP上の各位置の三次元位置座標を管理(例えばデータベース等の記憶部に記憶)する。予め設定された1または複数の移動経路MPは、学習装置100における学習を実行するための経路として適宜に設定することができる。
【0024】
学習装置100の報酬管理部120は、移動体装置200の接続先とすべき基地局300の学習(強化学習)において用いる報酬値を管理するように構成される。具体的に、報酬管理部120は、通信エリアにおける移動体装置200の位置ごとに、複数の基地局300の各々について、その基地局300を接続先に選択した場合の報酬値を管理する。例えば、基地局300Aおよび300Bによって通信エリアが形成されている上述した
図1の例において、報酬管理部120は、通信エリアの各位置、例えば移動経路MP上の各位置について、基地局300Aが接続先である場合の報酬値と、基地局300Bが接続先である場合の報酬値とを管理(例えばデータベース等の記憶部に記憶)する。
【0025】
報酬値は、移動体装置200が接続先として選択することが望ましい基地局300についての報酬値が、そうでない基地局300についての報酬値よりも大きい値となるように設定される。例えば、
図1を参照して説明した上述の例、すなわち移動経路MP中の区間#2ではローカル5G(または無線LAN)による通信を行うことが望まれる場合の例において、ローカル5G(または無線LAN)に対応する基地局300Bを区間#2において選択することに関する報酬値は、パブリック5Gに対応する基地局300Aを区間#2において選択することに関する報酬値(例えば“1”)よりも大きな値(例えば“2”)に設定される。このような報酬値の設定は、移動体装置200をその位置(移動経路MP上の位置)に応じて複数の基地局300のうちのどの基地局に接続させたいあるいは接続させるべきであるかという適宜の設計指針を考慮して、事前に設定しておくことができる。
【0026】
図3は、移動体位置管理部110が移動体装置200の位置を管理し報酬管理部120が学習用の報酬値を管理するために移動体位置管理部110および報酬管理部120によって参照される管理テーブルの一例である。この例において、位置P
i1~P
i2は
図1に例示された移動経路MP上の区間#1内の各位置を表し、位置P
i3~P
i4は移動経路MP上の区間#2内の各位置を表し、位置P
i5~P
i6は移動経路MP上の区間#3内の各位置を表す。つまり、この管理テーブルは、移動体装置200が移動経路MP上を位置P
i1、…、P
i2、…、P
i3、…、P
i4、…、P
i5、…、P
i6の順に移動することを設定するものである。
【0027】
また、この管理テーブルの例において、移動経路MP上の区間#1および区間#3では、移動体装置200は基地局300Aとの通信のみが可能であることから、基地局300Aに対する報酬値が“1”、基地局300Bに対する報酬値が“0”にそれぞれ設定されている。一方、基地局300Aおよび300Bの両方との通信が可能な移動経路MP上の区間#2では、基地局300Aに対する報酬値が“1”、基地局300Bに対する報酬値が“2”にそれぞれ設定されている。すなわち、移動経路MP上の区間#2では、基地局300B(例えばローカル5G)に対して基地局300A(例えばパブリック5G)よりも高い報酬値が設定されている。したがって、このような報酬値が設定された管理テーブルを用いて基地局300の選択に関する学習を行うことによって、複数の基地局300の中から移動体装置200が接続すべき適切な1つの基地局300を決定することが可能となる。
【0028】
図4は、移動体装置200の状態の遷移を示す模式図である。この状態遷移図は、例えば学習装置100の学習モデル生成部130によって管理(保持)され、学習モデル140の生成に使用される。移動体装置200の状態は、状態s
1から状態s
2へ、状態s
2から状態s
3へ、…、状態s
tから状態s
t+1へと遷移する。本実施形態において、移動体装置200の「状態」は、通信エリアにおける移動体装置200の位置である。例えば、移動体装置200の状態は、
図3に例示された管理テーブルに設定されている位置(P
i1等)に従って、順次遷移する。各状態(すなわち各位置)において、移動体装置200は、N個の行動a
1、a
2、…、a
Nをとり得る。例えば、移動体装置200は、状態s
t-1において行動a
2を行って新たな状態s
tへと遷移し、次いで状態s
tにおいて行動a
1を行ってさらに新たな状態s
t+1へと遷移することができる。移動体装置200がとり得る各「行動」は、複数の基地局300のうちの1つの基地局300を接続先候補として指定することを含む。例えば、移動体装置200の行動a
1は、パブリック5Gに対応する基地局300Aを接続先候補に指定することであってよく、移動体装置200の行動a
2は、ローカル5G(または無線LAN)に対応する基地局300Bを接続先候補に指定することであってよい。なお、とり得る行動の数Nは、移動体装置200が通信エリア内で通信可能な基地局300の総数と等しい(例えば、
図1の例ではN=2である)。
【0029】
図2に戻り、学習装置100の学習モデル生成部130は、移動体装置200の状態(位置)と、複数の基地局300の各々に対する報酬値とに基づく強化学習により、移動体装置200が実際に通信する接続先の基地局300を決定するための学習モデル140を生成するように構成される。例えば、学習モデル140として、
図5に示されるように、移動体装置200の状態s
tを入力層に入力し、状態s
tにおいて移動体装置200がとることが可能な全ての行動(複数の基地局300から1つの基地局300の選択)a
tのそれぞれについての行動価値Q(s
t,a
t)を出力層の各ノードから出力するように構成された、DQN(Deep Q-Network)に基づくニューラルネットワークを採用することができる。また、学習モデル140は、
図6に示されるように、
図5と同様の構成の2つのニューラルネットワーク(メインネットワークとターゲットネットワーク)を用いたFixed Target Q-Networkに基づくものであってもよい。
図5のDQNおよび
図6のFixed Target Q-Networkにおいて、出力層から出力される行動価値Q(s
t,a
t)と報酬管理部120により与えられる報酬値とを用いてニューラルネットワークのパラメータ(重みおよび閾値)を更新することで、学習モデル140の訓練が行われる(すなわち学習モデル140が生成される)。
【0030】
なお、DQNおよびFixed Target Q-Networkにおけるニューラルネットワークの学習方法としては、周知の方法を適用することができる。よって本明細書では、学習の具体的手順については説明を省略する。
【0031】
なお、上記説明では、
図1に示されるように通信エリアには1つの移動経路MPのみが設定されているものとしたが、移動経路は
図7に示されるように複数設定されるのであってもよく、移動体装置200がこれら各移動経路上を移動するそれぞれの場合について、ニューラルネットワークの学習を行ってもよい。
【0032】
図8は、本発明の一実施形態に係る移動体装置200の機能的構成を示すブロック図である。移動体装置200は、位置取得部210と、基地局選択部220と、学習モデル230と、通信部240とを少なくとも備える。なお、移動体装置200は、その他の機能に関わる機能部(例えば移動のためのエンジンやモータ等の駆動部)を備えてもよいが、ここではそれらについての説明は省略する。
【0033】
移動体装置200の位置取得部210は、通信エリアを移動中の移動体装置200の現在位置を取得するように構成される。例えば、位置取得部210は、GPS信号を受信し、受信したGPS信号から移動体装置200の現在のGPS位置情報を取得するように構成されるのであってよい。
【0034】
移動体装置200の基地局選択部220は、学習モデル230を用いて、移動体装置200の現在位置に基づいて通信エリアにおける複数の基地局300の中から1つの基地局300を選択するように構成される。移動体装置200には、学習装置100によって生成された(すなわち訓練済みの)学習モデル140が、学習モデル230として搭載される。学習モデル230の入力層には移動体装置200の現在位置が入力され、学習モデル230は、移動体装置200が複数の基地局300の各々をそれぞれ接続先に選択した場合の各行動価値Q(st,at)を、出力層の各ノードから出力する。基地局選択部220は、学習モデル230の出力層から出力される行動価値Q(st,at)のうち最大の行動価値に対応する基地局300を、移動体装置200が実際に接続するべき基地局として選択する。
【0035】
移動体装置200の通信部240は、このように基地局選択部220によって選択された基地局300と通信する。これにより、移動体装置200は、その現在位置に応じた適切な基地局300と通信することができる。
【0036】
以上、本発明の実施形態を説明したが、本発明はこれに限定されず、その要旨を逸脱しない範囲内において様々な変更が可能である。
【符号の説明】
【0037】
10 システム
100 学習装置
110 移動体位置管理部
120 報酬管理部
130 学習モデル生成部
140 学習モデル
200 移動体装置
210 位置取得部
220 基地局選択部
230 学習モデル
240 通信部
300A、B 基地局
CA1 第1通信エリア
CA2 第2通信エリア
MP 移動経路
【要約】
【課題】複数の基地局の中から移動体装置が接続すべき適切な1つの基地局を決定する。
【解決手段】通信方式が異なる複数の基地局と接続することが可能な通信エリアにおいて移動体装置が接続すべき基地局の選択を学習する学習装置が提供される。学習装置は、前記移動体装置の前記通信エリアにおける位置を管理する移動体位置管理部と、前記移動体装置の前記通信エリアにおける前記位置ごとに、前記複数の基地局の各々に対して、強化学習における報酬値を管理する報酬管理部であって、前記報酬値は、当該位置において当該基地局を接続先として選択することに対する報酬を表す、報酬管理部と、前記移動体装置の前記位置と前記報酬値とに基づく強化学習により、前記移動体装置が接続すべき基地局を選択するための学習モデルを生成する学習モデル生成部と、を備える。
【選択図】
図1