(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022128930
(43)【公開日】2022-09-05
(54)【発明の名称】端末制御システム、制御装置、端末制御方法、および、端末制御プログラム
(51)【国際特許分類】
G06Q 10/04 20120101AFI20220829BHJP
G05B 23/02 20060101ALI20220829BHJP
G06N 3/08 20060101ALI20220829BHJP
G06N 20/00 20190101ALI20220829BHJP
H04B 17/309 20150101ALI20220829BHJP
【FI】
G06Q10/04
G05B23/02 Z
G06N3/08
G06N20/00
H04B17/309
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021027412
(22)【出願日】2021-02-24
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100129230
【弁理士】
【氏名又は名称】工藤 理恵
(72)【発明者】
【氏名】工藤 理一
(72)【発明者】
【氏名】高橋 馨子
(72)【発明者】
【氏名】村上 友規
(72)【発明者】
【氏名】小川 智明
(72)【発明者】
【氏名】新宮 裕章
(72)【発明者】
【氏名】藤橋 卓也
(72)【発明者】
【氏名】猿渡 俊介
(72)【発明者】
【氏名】渡邊 尚
【テーマコード(参考)】
3C223
5L049
【Fターム(参考)】
3C223BA03
3C223BB07
3C223BB08
3C223BB12
3C223CC02
3C223DD03
3C223EB04
3C223FF22
3C223FF26
3C223GG01
5L049AA04
(57)【要約】
【課題】端末との無線通信の品質を向上させる。
【解決手段】端末制御システムであって、複数の端末2iとの無線通信を行う少なくとも1つの無線通信装置101と、端末2iを制御する制御装置110と、を備え、制御装置110は、端末2iの状態情報を含む端末情報を収集する収集部102と、前記端末情報を、前記無線通信装置101で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデル106に入力し、前記制御モデルの出力値を用いて端末2iの動作、および、無線通信装置101または端末2iの通信設定、の少なくとも1つを制御するための制御情報を生成する制御部103と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の端末との無線通信を行う少なくとも1つの無線通信装置と、
前記端末を制御する制御装置と、を備え、
前記制御装置は、
前記端末の状態情報を含む端末情報を収集する収集部と、
前記端末情報を、前記無線通信装置で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデルに入力し、前記制御モデルの出力値を用いて前記端末の動作、および、前記無線通信装置または前記端末の通信設定、の少なくとも1つを制御するための制御情報を生成する制御部と、を備える
端末制御システム。
【請求項2】
前記制御モデルは、深層強化学習により生成されたニューラルネットワークであって、重みの乗算とバイアスの加算とを繰り返して、制御情報に対応する出力値を生成し、
前記制御部は、制御情報に対応する出力値が大きいものを制御情報として選択し、
前記制御モデルの出力値と、前記無線通信装置で測定されるターゲットパラメータの値とを比較し、その誤差が小さくなるように前記制御モデルを更新する更新部を備える
請求項1に記載の端末制御システム。
【請求項3】
前記制御情報は、任意の地点への移動、前進、後進、旋回、上昇および下降の少なくとも1を含む動作を制御する動作情報、または、前記動作情報と前記動作の速度、加速度、許容範囲および動作タイミングの少なくとも1つを含む動作関連情報と、を含む
請求項1または2に記載の端末制御システム。
【請求項4】
前記制御情報は、前記無線通信装置または前記端末で用いる無線通信周波数、接続先となる無線通信装置または端末の周波数利用方法およびその組み合わせ、無線通信の帯域幅、変調方式、誤り訂正符号、アンテナ素子の組み合わせ、反射物や誘電体の設定、の少なくとも1つを含む
請求項1から3のいずれか1項に記載の端末制御システム。
【請求項5】
前記収集部は、前記状態情報を前記端末から収集する、あるいは、前記制御装置に接続された状態取得部を用いて前記状態情報を推定する
請求項1から4のいずれか1項に記載の端末制御システム。
【請求項6】
無線通信装置と無線通信を行う複数の端末を制御する制御装置であって、
前記端末の状態情報と通信情報とを含む端末情報を収集する収集部と、
前記端末情報を、前記無線通信装置で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデルに入力し、前記制御モデルの出力値を用いて前記端末の動作、および、前記無線通信装置または前記端末の通信設定、の少なくとも1つを制御するための制御情報を生成する制御部と、を備える
制御装置。
【請求項7】
少なくとも1つの無線通信装置は、複数の端末と無線通信を行い、
前記端末を制御する制御装置は、
前記端末の状態情報を含む端末情報を収集し、
前記端末情報を、前記無線通信装置で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデルに入力し、前記制御モデルの出力値を用いて前記端末の動作、および、前記無線通信装置または前記端末の通信設定、の少なくとも1つを制御するための制御情報を生成する
端末制御方法。
【請求項8】
請求項6に記載の制御装置として、コンピュータを機能させる端末制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末制御システム、制御装置、端末制御方法、および、端末制御プログラムに関する。
【背景技術】
【0002】
様々なデバイスがインターネットにつながるIoT(Internet of things)の実現が進んでおり、自動車やドローン、建設機械車両など様々な機器が無線により接続されつつある。無線通信規格としても標準化規格IEEE 802.11で規定される無線LAN(Local Area Network)、Bluetooth(登録商標)、LTEや5Gによるセルラー通信、IoT向けのLPWA(Low Power Wide Area)通信、車通信に用いられるETC(Electronic Toll Collection System)、VICS(Vehicle Information and Communication System)、ARIB-STD-T109など、サポートする無線規格も発展しており、今後の普及が期待されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】C.J. Lowrance, A.P. Lauf, “An active and incremental learning framework for the online prediction of link quality in robot networks,” Engineering Applications of Artificial Intelligence, 77, pp.197-211, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0004】
様々な用途で無線通信が使われる一方、サービスによっては、通信品質の要求条件を、無線通信が必ずしも満たすことができないことが問題となっている。特に端末や周辺のオブジェクトが動くことにより、アンテナの指向性の向きや、伝搬環境、基地局と通信する端末数とトラヒック量が変わってしまい通信品質に影響を及ぼすことはこれまで避けられなかった。
【0005】
非特許文献1では、ロボットと基地局との距離情報を用いて、通信品質を予測している。ロボットのような制御可能な端末が複数存在する場合には、それぞれの位置や通信設定が通信品質に大きく影響するため、効率的な制御方法が必要である。
【0006】
無線通信機能が搭載された端末が複数存在し、無線通信システムの容量、データレート、遅延時間、パケットロスレート、などの通信品質に関して、要求条件がある場合に、端末の位置、分布、動作によって、通信品質が期待された性能を満たさない、パフォーマンスが低くなる条件が存在するなどの問題がある。
【0007】
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、端末との無線通信の品質を向上させることにある。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の一態様は、端末制御システムであって、複数の端末との無線通信を行う少なくとも1つの無線通信装置と、前記端末を制御する制御装置と、を備え、前記制御装置は、前記端末の状態情報を含む端末情報を収集する収集部と、前記端末情報を、前記無線通信装置で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデルに入力し、前記制御モデルの出力値を用いて前記端末の動作、および、前記無線通信装置または前記端末の通信設定、の少なくとも1つを制御するための制御情報を生成する制御部と、を備える。
【0009】
本発明の一態様は、無線通信装置と無線通信を行う複数の端末を制御する制御装置であって、前記端末の状態情報と通信情報とを含む端末情報を収集する収集部と、前記端末情報を、前記無線通信装置で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデルに入力し、前記制御モデルの出力値を用いて前記端末の動作、および、前記無線通信装置または前記端末の通信設定、の少なくとも1つを制御するための制御情報を生成する制御部と、を備える。
【0010】
本発明の一態様は、端末制御方法であって、少なくとも1つの無線通信装置は、複数の端末と無線通信を行い、前記端末を制御する制御装置は、前記端末の状態情報を含む端末情報を収集し、前記端末情報を、前記無線通信装置で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデルに入力し、前記制御モデルの出力値を用いて前記端末の動作、および、前記無線通信装置または前記端末の通信設定、の少なくとも1つを制御するための制御情報を生成する。
【0011】
本発明の一態様は、上記制御装置として、コンピュータを機能させる端末制御プログラムである。
【発明の効果】
【0012】
本発明によれば、端末との無線通信の品質を向上させることができる。
【図面の簡単な説明】
【0013】
【
図1】実施形態の端末制御システムの構成例を示す図である。
【
図2】端末制御システムの動作を示すフローチャートである。
【
図4】深層強化学習によるニューラルネットワークの例である。
【発明を実施するための形態】
【0014】
添付の図面を参照して、本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において、同一符号は同一または相当部分を示す。
【0015】
図1は、本実施形態の端末制御システムの構成図である。図示する端末制御システムは、基地局NW1(基地局ネットワーク)と、複数の端末21~2Lとを備える。Lは、端末の数であり、1以上の整数である。複数の端末21~2Lは、端末2iと記載することもある。端末基地局NW1と、各端末2iとは、無線通信により接続されている。
【0016】
各端末2iは、複数の無線通信部211-1~211-Mと、端末制御部212と、状態取得部213とを備え、これらは、NW部210を介して接続される。Mは、無線通信部の数であり、1以上の整数である。無線通信装部211-1~211-Mは、無線通信部211と記載することもある。
【0017】
無線通信部211は、基地局NW1のいずれかの無線通信装置101-1~101-Nと、無線通信する。端末制御部212は、制御装置110から送信される制御情報に従って、自身の端末2iを制御する。状態取得部213は、当該端末2iの状態に関する状態情報を取得する。
【0018】
基地局NW1は、少なくとも1つの無線通信装置(基地局)101-1~101-Nと、制御装置110と、状態取得部104-1~104-Cとを備え、これらは、NW部100を介して接続される。
【0019】
Nは、無線通信装置の数であり、1以上の整数である。無線通信装装置101-1~101-Nは、無線通信装装置101と記載することもある。Cは、状態取得部の数であり、1以上の整数である。状態取得部104-1~104-Cは、状態取得部104と記載することもある。
【0020】
各無線通信装置101は、複数の端末2iと無線通信を行う。複数の無線通信装置101は、それぞれ、異なる周波数、異なる通信方式、異なる帯域幅を有してもよい。
【0021】
制御装置110は、端末2iを制御する。図示する制御装置110は、収集部102と、制御部103と、更新部105とを備える。
【0022】
収集部102は、端末2iの状態情報を含む端末情報を収集する。端末情報は、端末2iに関する情報である。状態情報は、端末2iの状態に関する情報であって、例えば、端末の位置、端末の向き、端末の速度、端末の動作、端末の運行計画の少なくとも1つを含む。
【0023】
収集部102は、端末2iの状態取得部213から端末情報を収集してもよく、あるいは、制御装置110に接続された状態取得部104を用いて状態情報を推定してもよい。状態取得部213から状態情報を取得する場合、収集部102は、無線通信部211および無線通信装置101を介して、状態情報を受信し収集する。
【0024】
端末2iの状態取得部213は、例えはカメラ、センサ(レーダ、LIDERなど)などの各種のデバイスを備える。状態取得部213は、これらのデバイスまたは無線通信部211から取得されるGPS信号、周辺の無線通信装置101との間の電波伝搬チャネル情報、無線信号の到来時間、カメラ映像、センサ値、タイヤ・脚部の動きなどを、状態情報として取得する。また、状態取得部213は、これらのデータから算出される値を状態情報として取得してもよい。収集部102は、状態取得部213が取得した状態情報を、当該端末2iの端末ID(識別信号)とともに収集することができる。
【0025】
基地局NW1の状態取得部104には、例えば、監視カメラ、レーダやLIDARなどのセンサ、インターネットを介して得られる人・モノなどの動き情報の収集器、などを用いることができる。収集部102は、状態取得部104から収集した情報から、端末2iまたは端末2iの周辺に存在するオブジェクトの状態情報を生成する。この場合、カメラ映像上で端末2iまたは端末2iの所有者を特定しないと、端末IDとの対応づけが困難である。このため、状態取得部104から取得する状態情報は、端末2iから収集される状態情報および端末IDと共に用いることで、端末2iの状態情報の特定、端末2iの位置の推定精度の向上、端末2iとの通信が切断している間の補完として用いることもできる。
【0026】
収集部102は、端末2iの通信情報を含む端末情報を収集してもよい。収集部102は、無線通信装置101から通信情報を収集する。
【0027】
通信情報は、通信品質、通信設定、トラヒック、通信要求品質、端末2iまたは端末2iの所有者のサービスグレードの少なくとも1つを含む。通信情報は、例えば、信号対雑音電力比、信号対干渉雑音電力比、RSSI(Received Signal Strength Indication)、RSRQ(Received Signal Reference Quality)、パケット誤り率、到達ビット数、単位時間あたり到達ビット数、Modular Code Scheme (MCS) Index、再送回数、遅延時間、誤り訂正技術の設定などである。RSSI(信号電力)は、受信信号の強度を示す数値である。また、通信情報は、これらの値の微分情報、これらの値から所定の計算式を用いて算出される値であってもよい。また、通信情報は、無線通信装置101の周波数、リソースの帯域幅、送信電力、QoS(Quality Of Service)設定、など無線通信装置101の設定項目であってもよい。
【0028】
制御部103は、収集部102が収集した端末情報を用いて、端末2iの動作および通信設定の少なくとも1つを制御する制御情報を生成する。具体的には、制御部103は、前記端末情報を、無線通信装置101で得られる前記無線通信に関するターゲットパラメータを向上させるための制御モデル106に入力し、制御モデル106の出力値を用いて端末2iの動作、および、記無線通信装置101または端末2iの通信設定、の少なくとも1つを制御するための制御情報を生成する。より具体的には、制御部103は、端末情報を、制御モデル106に入力し、制御モデルの出力値を用いて端末2iの動作および通信設定の少なくとも1つを制御するための制御情報を生成する。制御モデル106は、無線通信装置101で測定される無線通信に関するターゲットパラメータを向上させる制御情報が生成できるように、訓練される。通信設定には、空無線通信装置101の通信設定、および、端末2iの通信設定の少なくとも1つが含まれる。
【0029】
本実施形態では、端末情報から制御情報を生成する方法として、強化学習を用いることができる。具体的には、制御部103は、強化学習によって生成された制御モデル106を備え、当該制御モデル106に収集した端末情報を入力して制御情報を生成する。強化学習による制御情報の生成については、後述する。
【0030】
制御情報は、無線通信装置101または端末2iで用いる無線通信周波数、接続先となる無線通信装置101または端末2iの周波数利用方法およびその組み合わせ、無線通信の帯域幅、変調方式、誤り訂正符号、アンテナ素子の組み合わせ、反射物や誘電体の設定、の少なくとも1つを含んでもよい。 例えば、無線通信装置101を制御する制御情報の場合は、制御部103は、対応する無線通信装置101の通信設定を変更する。ここでの通信設定は、例えば、無線方式、利用する無線通信装置、利用する無線通信装置における通信設定(指向性パターン、アンテナ選択、周波数チャネル、帯域幅、QoS、優先順位、パケットサイズ、スケジューリング、通信モード、変調方式、誤り訂正方式、送信電力など)などが挙げられる。
【0031】
端末2iを制御する制御情報の場合、制御部103は、いずれかの無線通信装置101を介して対応する端末2iに制御情報を通知し、当該端末2iの動作および通信設定の少なくとも1つを制御する。制御部103が制御する端末2iは、複数でもよい。なお、制御部103は、端末2iのいずれかの無線通信部211およびNW部210を介して、端末制御部212を制御する。
【0032】
ここで、端末2iの通信設定の例としては、使用する無線通信部211-1~211-Mの選択、当該無線通信部の周波数、帯域幅、指向性パターン、アンテナ選択、QoS、パケットサイズ、通信モード、変調方式、誤り訂正方式、送信電力、省電力モードのオンオフなどがあげられる。
【0033】
端末2iの動作としては、例えば、任意の地点への移動、前進、後進、旋回、上昇および下降などがあげられる。端末制御部212は、制御情報に従って、このような動作を実行する。
【0034】
動作の制御情報には、任意の地点への移動、前進、後進、旋回、上昇および下降の少なくとも1を含む動作を制御する動作情報、または、前記動作情報と前記動作の速度、加速度、許容範囲および動作タイミングの少なくとも1つを含む動作関連情報と、を含んでもよい。また、動作の制御情報には、端末2iが備える構成物(駆動物)の動作を制御するための制御情報を含んでもよい。
【0035】
本実施形態の制御部103は、強化学習によって生成された制御モデル106に、収集した端末情報を入力して、端末の動作および通信設定の少なくとも1つを制御する制御情報を生成してもよい。強化学習は、システム自身が試行錯誤しながら最適なシステム制御を実現する機械学習の1つである。強化学習では、あらかじめ設定したターゲットパラメータに対し、システム自身が選択した制御情報の妥当性を評価し、入力された端末情報に対して適切な制御情報を出力するように試行錯誤して学習する。
【0036】
制御部103は、予めシミュレーション空間で試行錯誤を繰り返して得られた制御モデル106を利用してもよいし、実際の端末制御システムで運用しながら試行錯誤を繰り返して更新される制御モデル106を利用してもよいし、あるいは、シミュレーション空間で得られた制御モデル106に実際の端末制御システムでの試行錯誤を反映した制御モデル106を用いてもよい。
【0037】
なお、制御情報は、端末2iの運用パラメータを制御するものであってもよい。運用パラメータは、例えば、端末2iが物品を運搬する場合、作業効率、作業量、電力消費量、作業リスクなどである。
【0038】
本実施形態では、無線通信装置101で得られる無線通信に関するターゲットパラメータ(目標関数)が向上する制御情報を出力するような強化学習を実行する。
【0039】
ターゲットパラメータとしては、例えば以下のものが挙げられる。
【0040】
・無線通信装置101と端末2iとの間の無線通信のスループット(伝送容量)、平均パケットロスレート、平均遅延時間など
・特定の端末におけるデータレート、パケットロスレート、遅延時間など
・全ての端末におけるデータレート、パケットロスレート、遅延時間の中央値、最小値最大値など
これらのターゲットパラメータが向上(最大化、最小化)するように、強化学習では、少なくとも1つの端末2iの端末情報(状態情報、通信情報)を入力情報として、当該端末2iに対する動作および/または通信設定の制御が評価され、ターゲットパラメータを向上する制御の選択されることで、よりよい制御が可能となる。
【0041】
すなわち、実行される制御情報は、ターゲットパラメータを向上するのに貢献したのか否かが評価され、向上に貢献したことを示す報酬を高める制御情報が選択されるように、制御モデル106は更新される。報酬はターゲットパラメータそのものでもよい。具体的には、ターゲットパラメータは、前述の通信情報を意味する。ターゲットパラメータの向上は、例えば、RSSI、RSRQ、到達ビット数、MCS Index、QoEなどが増加すること、または、パケット誤り率、誤り率、遅延時間などが低下することを意味する。小さいほうがよいターゲットパラメータを報酬とする場合には、逆数をとるなどして、望ましいターゲットパラメータが高い値となるようにしてもよい。
【0042】
更新部105は、制御モデル106により得られた制御情報に対して、逐次、評価し、制御情報の出力とともに、制御モデル106を更新し続けることができる。すなわち、更新部105は、入力された端末情報に対応する制御情報を出力するための制御モデル106を更新することができる。
【0043】
例えば、制御モデル106は、深層強化学習により生成されたニューラルネットワークであって、重みの乗算とバイアスの加算とを繰り返して、制御情報に対応する出力値を取得し、制御部103は、制御情報に対応する出力値が大きいものを制御情報として生成し、更新部105は、制御モデル106の出力値と、無線通信装置101で測定されるターゲットパラメータの値とを比較し、その誤差が小さくなるように制御モデル106を更新してもよい。
【0044】
図2は、本実施形態の端末制御システムの動作を示すフローチャートである。
【0045】
収集部102は、端末状態情報と端末通信情報とを含む端末情報を収集する(ステップS101)。制御部103は、予め強化学習された制御モデル106と、収集された端末情報とを用いて、制御情報を出力する(ステップS102)。ここで、制御情報は、ε-greedy法など、制御モデルで選択された制御情報とは異なる制御情報を選択することができる。ε-greedy法では、一定の確率でランダムに異なる制御情報を選択することで、後述する制御モデルの更新が、様々な制御情報の出力に対して評価できる。
【0046】
制御部103は、無線通信装置101および無線通信部211を介して、対応する端末2iの端末制御部212に制御情報を送信する。端末制御部212は、制御情報を実行する(ステップS103)。
【0047】
また、制御部103は、制御情報を図示しない記憶部に記憶する(ステップS104)。更新部105は、実行された制御情報が、ターゲットパラメータを向上するのに貢献したのか否かを評価する(ステップS105)。例えば、更新部105は、無線通信装置101から、制御の結果得られたターゲットパラメータを収集し、収集したターゲットパラメータを用いて実行された制御情報を評価する。
【0048】
更新部105は、ターゲットパラメータの向上に貢献した制御情報が選択されやすくなるように、制御モデル106を更新する(ステップS106)。なお、予め強化学習させた制御モデル106をそのまま用いる場合は、ステップS104~S106の更新処理は省略してもよい。
【0049】
図3は、本実施形態の端末制御システムの効果を検証するための実験例(シミュレーション)の構成を示す図である。
【0050】
図示する例では、2台の端末21、22が、2つの基地局101-1、101-2と無線通信する。端末21、22は、自律走行するロボットであり、基地局101-1、101-2は、
図1に示す基地局NW1の無線通信装置101である。
【0051】
各端末21、22は、100m離れた地点Aと地点Bとを往復運動しており、どちらかの基地局101-1、101-2と、アップリンクの無線通信を行う。すなわち、各端末21、22は、アップリンク信号のパケットを、いずれかの基地局101-1、101-2へ送信する。この際の各端末21、22のスループットを、以下の式(1)のように定義する。
【0052】
C1 = log2(1+ S1,q/Nq)/Lq
C2 =log2(1+ S2,p/Np)/Lp
ここで、C1は、端末21のスループットであり、C2は、端末22のスループットである。S1,qは、端末21が送信したパケットが、基地局q(q=101-1または101-2)で受信された際の信号電力であり、Nqは、基地局qにおける熱雑音電力、Lqは、基地局qに接続される端末の数を表す。同様に、S2,pは、端末22が送信したパケットが、基地局p(p=101-1または101-2)で受信された際の信号電力であり、Npは、基地局pにおける熱雑音電力、Lpは、基地局pに接続される端末の数を表す。
【0053】
図4は、本実施例における深層強化学習(Deep Q-Network)により生成されるニューラルネットワーク(制御モデル)の例を示す。
【0054】
ニューラルネットワークは、入力層41と、複数の中間層42と、出力層43とを備え、重みの乗算とバイアスの加算とを繰り返して、入力された端末情報に対応する制御情報を出力する。
【0055】
具体的には、深層強化学習では、無線通信に関するターゲットパラメータの出力から、ターゲットパラメータを設定し、重みとバイアスを更新する。
図4の構成では、ターゲットパラメータは、C
1+C
2であり、端末21と端末22の位置情報の入力に対し、
図4で丸印で示される各ニューロン40は、入力された情報に重みとバイアスを与えて次のニューロンへ出力する。Actionに対応する最終出力は、当該Actionで得られるターゲットパラメータに漸近するように、訓練の際に逆伝搬により勾配分だけ重みとバイアスが更新される。訓練を繰り返し行うことで、重みとバイアスがActionに対応するターゲットパラメータを出力するようになり、出力の大きい、すなわち高いターゲットパラメータに対応するActionを選択することで、よりよい制御が可能となる。ここでは、各端末21、22に基地局1と基地局2のどちらに接続させるかを、Actionとして与えてシミュレーションした。具体的には、以下の4つActionを与えた。
【0056】
Act(1):2台の端末21、22が、両方とも基地局1に接続する行動
Act(2):端末21が基地局1に接続し、端末22が基地局2に接続する行動
Act(3):端末21が基地局2に接続し、端末22が基地局1に接続する行動
Act(4):2台の端末21、22が、両方とも基地局2に接続する行動
本実施例では、さらにε-greedy法を用い、ある確率で、深層強化学習で選択された制御情報ではなく、ランダムにActionを選択した。初期値では、100%ランダムなActionを選択するものとし、episodeが増えるに従い比率を低下させ、10%でランダムなActionを選択するように確率を収束させた。
【0057】
更新部105は、選択されたActionに対応する出力と、無線通信に関するターゲットパラメータを比較し、その誤差情報から、逆伝搬により勾配分ニューラルネットワークの重みとバイアスを更新する。具体的には、更新部105は、無線通信装置101から各端末21、22のターゲットパラメータに対応する通信情報の値を収集する、そして、更新部105は、深層強化学習に従って、収集した値を用いて選択されたActionの出力を評価し、ニューラルネットワークの重みとバイアスとを更新する。
【0058】
深層強化学習されたニューラルネットワークは、端末21と端末22の位置情報を入力することで、Actionに対応したターゲットパラメータを出力するため、大きな値を出力するActionを選択できる。
【0059】
本検討では、各時刻tの端末状態情報をs
t、Actionをa
t、更新前のニューラルネットワークの重みとバイアスのパラメータをθ
t-1としたとき、予測値をQ(s
t,a
t:θ
t-1)とする。Actionに対応する出力値に用いる誤差関数は次式に示すHuber損失関数を用いた。ここで、s
t,a
tによる報酬の値をr
tとする。
図4の構成では、r
t=C
1+C
2である。
【0060】
【0061】
ここで、β=1とした。誤差関数をパラメータθt-1で微分し勾配を求め、その勾配分だけパラメータθt-1を更新してθtを求める。更新には、RMSProp最適化アルゴリズムを用いた。
【0062】
【0063】
ただし、β=0.9、α=0.95、ε=0.01である。
【0064】
図5は、
図3および
図4に示す実施例の効果を示す図である。
図4のニューラルネットワークを用いたグラフ51では、試行錯誤(1episodeは30秒)を繰り返しながら、逆伝搬によりニューラルネットワークが更新され、式(1)における端末21と端末22のスループットの総和(C
1+C
2)が改善されていく様子が示されており、400episode程度で理想状態52に収束している。スループットの総和(C
1+C
2)は、30秒間の平均の値である。
【0065】
ここで、理想状態52は、端末21、22がどちらの基地局に接続すべきかの全てのAction(Act(1)~(4))のスループットの総和を計算し、最大となるActionのスループットの総和を示したものである。RSSI53は、各端末21、22が、RSSIが高い方の基地局に接続した場合のスループットの総和を示し、この場合、スループットの総和は増加しない。
【0066】
図6に、異なる初期状態で2台の端末を30秒間動作させた際に、本実施例によるニューラルネットワークを用いた場合のスループットの総和の平均を、棒グラフで示す。また、
図6には、比較例として、前述の理想状態のスループットの総和と、RSSIが高い方の基地局に接続した場合のスループットの総和も示す。
【0067】
図6に示すように、単にRSSIが高くなる基地局を選択した場合に比べ、本実施例の方が高いスループットとなっており、基地局の選択において理想状態とほぼ変わらないスループットの総和を得ていることが確認できる。
【0068】
以上説明した本実施形態の端末制御システムは、複数の端末2iとの無線通信を行う少なくとも1つの無線通信装置101と、端末2iを制御する制御装置110と、を備え、制御装置110は、端末2iの状態情報を含む端末情報を収集する収集部102と、端末情報を用いて、端末2iの動作、および、無線通信装置101または端末2iの通信設定、の少なくとも1つを制御する制御情報を生成する制御部103とを備える。
【0069】
本実施形態によれば、複数の端末2iとの無線通信品質を向上し、また、無線通信の要求条件を満たすように、無線通信を利用することができる。また、本実施形態によれば、複数の端末2iがそれぞれ移動する場合であっても、各端末2iにおける通信品質を向上させることができる。
【0070】
上記説明した制御装置をコンピュータで実現してもよい。すなわち、制御装置110に、例えば、
図7に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ903(HDD:Hard Disk Drive、SSD:Solid State Drive)と、通信装置904と、入力装置905と、出力装置906とを備える。メモリ902およびストレージ903は、記憶装置である。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた制御装置110のプログラムを実行することにより、制御装置110の各機能が実現される。
【0071】
また、制御装置は、1つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、制御装置110は、コンピュータに実装される仮想マシンであっても良い。制御装置110用のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
【0072】
なお、コンピュータ読み取り可能な記録媒体は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した構成要素の一部を実現するためのものであってもよい。また、前述した構成要素をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
【0073】
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【符号の説明】
【0074】
1 :基地局ネットワーク
100:NW部
101:無線通信装置(基地局)
102:収集部
103:制御部
104:状態取得部
105:更新部
106:制御モデル
110:制御装置
2i :端末
210:NW部
211:無線通信部
212:端末制御部
213:状態取得部