(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023114115
(43)【公開日】2023-08-17
(54)【発明の名称】制御装置、無線通信端末、制御方法および制御プログラム
(51)【国際特許分類】
H04W 24/02 20090101AFI20230809BHJP
H04W 8/24 20090101ALI20230809BHJP
H04W 24/08 20090101ALI20230809BHJP
H04M 11/00 20060101ALI20230809BHJP
H04Q 9/00 20060101ALI20230809BHJP
H04B 17/391 20150101ALI20230809BHJP
【FI】
H04W24/02
H04W8/24
H04W24/08
H04M11/00 301
H04Q9/00 301B
H04B17/391
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022016270
(22)【出願日】2022-02-04
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.VICS
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100129230
【弁理士】
【氏名又は名称】工藤 理恵
(72)【発明者】
【氏名】工藤 理一
(72)【発明者】
【氏名】高橋 馨子
(72)【発明者】
【氏名】村上 友規
(72)【発明者】
【氏名】大宮 陸
(72)【発明者】
【氏名】永田 尚志
(72)【発明者】
【氏名】小川 智明
(72)【発明者】
【氏名】猿渡 俊介
(72)【発明者】
【氏名】藤橋 卓也
(72)【発明者】
【氏名】新宮 裕章
(72)【発明者】
【氏名】森 友絃
(72)【発明者】
【氏名】渡邊 尚
【テーマコード(参考)】
5K048
5K067
5K201
【Fターム(参考)】
5K048BA26
5K048DB01
5K048DC01
5K048GC06
5K048HA01
5K048HA02
5K067AA23
5K067EE02
5K067EE10
5K067HH22
5K067JJ51
5K201AA01
5K201BA01
5K201BA02
5K201CC01
5K201CC04
5K201CC06
5K201CC07
5K201DC04
5K201EC06
5K201ED08
5K201ED09
5K201FA03
(57)【要約】
【課題】端末による作業のタスク効率を維持しつつ、端末との無線通信の品質を向上させる。
【解決手段】物理的な動作を伴う作業を行う端末2iを制御する制御装置110であって、端末2iは無線通信装置101と無線通信し、制御装置110は、端末2iの状態情報および通信情報を含む端末情報を収集する収集部102と、前記端末情報を制御モデル105に入力し、制御モデル105が出力する、端末2iの動作および通信設定に関する制御情報に基づいて端末2iの動作および通信設定を制御する制御部103と、制御部103による制御後の端末情報を用いて制御情報の評価値を算出し、制御モデル105が出力する制御情報の評価値が高くなるように、制御モデル105を更新する評価部104と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
物理的な動作を伴う作業を行う端末を制御する制御装置であって、前記端末は無線通信装置と無線通信し、
前記制御装置は、
前記端末の状態情報および通信情報を含む端末情報を収集する収集部と、
前記端末情報を制御モデルに入力し、前記制御モデルが出力する、前記端末の動作および通信設定に関する制御情報に基づいて前記端末の動作および通信設定を制御する制御部と、
前記制御部による制御後の端末情報を用いて前記制御情報の評価値を算出し、前記制御モデルが出力する制御情報の評価値が高くなるように、前記制御モデルを更新する評価部と、を備える
制御装置。
【請求項2】
前記評価部は、作業に関する少なくとも1つの第1条件と対応する第1報酬値と、通信品質に関する少なくとも1つの第2条件と対応する第2報酬値とを保持し、前記制御部による制御後の前記端末の作業および前記通信品質を数値化し、第1報酬値および第2報酬値を用いて前記評価値を算出し、
前記第1条件が作業の完了に寄与するか否かに応じて前記第1報酬値が設定され、第2条件の通信品質に応じて前記第2報酬値が設定される
請求項1に記載の制御装置。
【請求項3】
前記評価部は、前記端末の作業、通信、日時、アプリケーション、位置、速度および加速度の少なくとも1つが、所定の条件を満たす場合にのみ、前記評価値を算出する
請求項1または2に記載の制御装置。
【請求項4】
動作に関する前記制御情報は、長期的な経路または位置に関する長期動作指令、および、短期的な前進、後進、方向変換、上昇、下降、加速または減速に関する短期動作指令の少なくとの1つを含み、
通信設定に関する前記制御情報は、無線通信の接続先、周波数、周波数帯域、要求品質、優先度、データレート、送信頻度および再送回数の少なくとも1つを含む
請求項1から3のいずれか1項に記載の制御装置。
【請求項5】
物理的な動作を伴う作業を行う無線通信端末であって、
前記無線通信端末の状態情報および通信情報を含む端末情報を取得する取得部と、
前記端末情報を制御モデルに入力し、前記制御モデルが出力する、前記無線通信端末の動作および通信設定に関する制御情報に基づいて前記無線通信端末の動作および通信設定を制御する制御部と、
前記制御情報に基づいて制御された後の端末情報を用いて前記制御情報の評価値を算出し、前記制御モデルが出力する制御情報の評価値が高くなるように、前記制御モデルを更新する評価部と、を備える
無線通信端末。
【請求項6】
制御装置が行う、物理的な動作を伴う作業を行う端末を制御する制御方法であって、前記端末は無線通信装置と無線通信し、
前記制御装置は、
前記端末の状態情報および通信情報を含む端末情報を収集する収集ステップと、
前記端末情報を制御モデルに入力し、前記制御モデルが出力する、前記端末の動作および通信設定に関する制御情報に基づいて前記端末の動作および通信設定を制御する制御ステップと、
前記制御ステップの制御後の端末情報を用いて前記制御情報の評価値を算出し、前記制御モデルが出力する制御情報の評価値が高くなるように、前記制御モデルを更新する評価ステップと、を行う
制御方法。
【請求項7】
請求項1から4のいずれか1項に記載の制御装置として、コンピュータを機能させる制御プログラム。
【請求項8】
請求項5に記載の無線通信端末として、コンピュータを機能させる制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御装置、無線通信端末、制御方法および制御プログラムに関する。
【背景技術】
【0002】
様々なデバイスがインターネットにつながるIoT(Internet of things)の実現が進んでおり、自動車やドローン、建設機械車両など様々な機器が無線により接続されつつある。無線通信規格としても標準化規格IEEE 802.11で規定される無線LAN(Local Area Network)、Bluetooth(登録商標)、LTEや5Gによるセルラー通信、IoT向けのLPWA(Low Power Wide Area)通信、車通信に用いられるETC(Electronic Toll Collection System)、VICS(Vehicle Information and Communication System)、ARIB-STD-T109など、サポートする無線規格も発展しており、今後の普及が期待されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】C.J. Lowrance, A.P. Lauf, “An active and incremental learning framework for the online prediction of link quality in robot networks,” Engineering Applications of Artificial Intelligence, 77, pp.197-211, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0004】
様々な用途で無線通信が使われる一方、サービスによっては、通信品質の要求条件を、無線通信が必ずしも満たすことができないことが問題となっている。特に端末や周辺のオブジェクトが動くことにより、アンテナの指向性の向きや、伝搬環境、基地局と通信する端末数とトラヒック量が変わってしまい通信品質に影響を及ぼすことはこれまで避けられなかった。
【0005】
非特許文献1では、ロボットと基地局との距離情報を用いて、通信品質を予測している。ロボットのような制御可能な端末が複数存在する場合には、それぞれの位置や通信設定が通信品質に大きく影響するため、効率的な制御方法が必要である。
【0006】
無線通信機能が搭載された端末が複数存在し、無線通信システムの容量、データレート、遅延時間、パケットロスレート、などの通信品質に関して、要求条件がある場合に、端末の位置、分布、動作によって、通信品質が期待された性能を満たさない、パフォーマンスが低くなる条件が存在するなどの問題がある。
【0007】
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、端末による作業のタスク効率を維持しつつ、端末の無線通信の品質を向上させることにある。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の一態様は、物理的な動作を伴う作業を行う端末を制御する制御装置であって、前記端末は無線通信装置と無線通信し、前記制御装置は、前記端末の状態情報および通信情報を含む端末情報を収集する収集部と、前記端末情報を制御モデルに入力し、前記制御モデルが出力する、前記端末の動作および通信設定に関する制御情報に基づいて前記端末の動作および通信設定を制御する制御部と、前記制御部による制御後の端末情報を用いて前記制御情報の評価値を算出し、前記制御モデルが出力する制御情報の評価値が高くなるように、前記制御モデルを更新する評価部と、を備える。
【0009】
本発明の一態様は、物理的な動作を伴う作業を行う無線通信端末であって、前記無線通信端末の状態情報および通信情報を含む端末情報を取得する取得部と、前記端末情報を制御モデルに入力し、前記制御モデルが出力する、前記無線通信端末の動作および通信設定に関する制御情報に基づいて前記無線通信端末の動作および通信設定を制御する制御部と、前記制御情報に基づいて制御された後の端末情報を用いて前記制御情報の評価値を算出し、前記制御モデルが出力する制御情報の評価値が高くなるように、前記制御モデルを更新する評価部と、を備える。
【0010】
本発明の一態様は、制御装置が行う、物理的な動作を伴う作業を行う端末を制御する制御方法であって、前記端末は無線通信装置と無線通信し、前記制御装置は、前記端末の状態情報および通信情報を含む端末情報を収集する収集ステップと、前記端末情報を制御モデルに入力し、前記制御モデルが出力する、前記端末の動作および通信設定に関する制御情報に基づいて前記端末の動作および通信設定を制御する制御ステップと、前記制御ステップの制御後の端末情報を用いて前記制御情報の評価値を算出し、前記制御モデルが出力する制御情報の評価値が高くなるように、前記制御モデルを更新する評価ステップと、を行う。
【0011】
本発明の一態様は、上記制御装置として、コンピュータを機能させる制御プログラムである。
【発明の効果】
【0012】
本発明によれば、端末による作業のタスク効率を維持しつつ、端末との無線通信の品質を向上させることができる。
【図面の簡単な説明】
【0013】
【
図1】実施形態の端末制御システムの構成例を示す図である。
【
図2】制御装置の動作を示すフローチャートである。
【
図3】荷物運搬のシミュレーションにおける通信エリアを示す模式図である。
【
図4】
図3のシミュレーションにおける2次元平面の座標を示す図である。
【
図5】制御モデルのニューラルネットワーク構造の一例を示す図である。
【
図6】シミュレーションにおける荷物の運搬に要したステップ数の散布図である。
【
図7】シミュレーションにおけるロボットの平均スループットの累積分布関数を示す図である。
【発明を実施するための形態】
【0014】
添付の図面を参照して、本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において、同一符号は同一または相当部分を示す。
【0015】
図1は、本実施形態の端末制御システムの構成図である。図示する端末制御システムは、基地局NW1(基地局ネットワーク)と、少なくとも1つの端末21~2Lとを備える。Lは、端末の数であり、1以上の整数である。端末21~2Lは、端末2iと記載することもある。基地局NW1と、各端末2iとは、無線通信により接続されている。
【0016】
各端末2iは、複数の無線通信部2i1-1~2i1-Mと、取得部2i2と、制御部2i3とを備え、これらは、NW部2i0を介して接続される。Mは、無線通信部の数であり、1以上の整数である。無線通信部2i1-1~2i1-Mは、無線通信部2i1と記載することもある。
【0017】
無線通信部2i1は、基地局NW1のいずれかの無線通信装置101-1~101-Nと、無線通信する。取得部2i2は、当該端末2iの状態情報および通信情報を含む端末情報を取得し、取得した端末情報を制御装置110の収集部102に送信する。取得部2i2は、例えはカメラ、センサ(レーダ、LIDERなど)などの各種のデバイスを備える。取得部2i2は、これらのデバイスまたは無線通信部211から取得されるGPS信号、周辺の無線通信装置101との間の電波伝搬チャネル情報、無線信号の到来時間、カメラ映像、センサ値、タイヤ・脚部の動きなどを、端末情報として取得する。また、取得部2i2は、これらのデータから算出される値を端末情報として取得してもよい。制御部2i3は、制御装置110から送信される制御情報に従って、自身の端末2iを制御する。
【0018】
基地局NW1は、少なくとも1つの無線通信装置(基地局)101-1~101-Nと、制御装置110と、を備え、これらはNW部100を介して接続される。Nは、無線通信装置の数であり、1以上の整数である。無線通信装置101-1~101-Nは、無線通信装置101と記載することもある。
【0019】
各無線通信装置101は、少なくとも1つの端末2iと無線通信する。無線通信装置101は、それぞれ、異なる周波数、異なる通信方式、異なる帯域幅を有してもよい。
【0020】
制御装置110は、物理的な動作を伴う作業を行う、少なくとも1つの端末2iを制御する。図示する制御装置110は、収集部102と、制御部103と、評価部104とを備える。
【0021】
収集部102は、端末2iの状態情報および通信情報を含む端末情報を、無線通信装置101を介して収集する。収集部102は、各端末2iの取得部2i2がそれぞれ取得した端末情報を、当該端末2iの端末ID(識別信号)とともに収集することができる。
【0022】
端末情報は、端末2iに関する情報である。状態情報は、端末2iの状態に関する情報であって、例えば、端末の位置、端末の向き、端末の速度、端末の動作、端末の運行計画、端末の作業の状態の少なく1つを含む。
【0023】
通信情報は、端末2iの無線通信に関する情報であって、例えば、通信品質、通信設定、トラヒック、通信要求品質、端末2iまたは端末2iの所有者のサービスグレードの少なくとも1つを含む。通信情報は、例えば、信号対雑音電力比、信号対干渉雑音電力比、RSSI(Received Signal Strength Indication)、RSRQ(Received Signal Reference Quality)、パケット誤り率、到達ビット数、単位時間あたり到達ビット数、Modular Code Scheme (MCS) Index、再送回数、遅延時間、誤り訂正技術の設定などである。RSSI(信号電力)は、受信信号の強度を示す数値である。また、通信情報は、これらの値の微分情報、これらの値から所定の計算式を用いて算出される値であってもよい。また、通信情報は、無線通信装置101の周波数、リソースの帯域幅、送信電力、QoS(Quality Of Service)設定、など無線通信装置101の設定項目であってもよい。
【0024】
なお、収集部102は、制御装置110に接続されたカメラ、センサなどの取得装置(不図示)を用いて各端末2iの端末情報(状態情報)を収集または推定してもよい。
【0025】
制御部103は、強化学習により生成された制御モデル105を備える。制御モデル105は、予めシミュレーション空間で試行錯誤を繰り返して得られたものを利用してもよいし、実際の端末制御システムで運用しながら試行錯誤を繰り返して更新される制御モデルを利用してもよいし、あるいは、シミュレーション空間で得られた制御モデルに実際の端末制御システムでの試行錯誤を反映した制御モデルを用いてもよい。
【0026】
制御部103は、収集部102が収集した端末情報を制御モデル105に入力し、制御モデル105が出力する、端末2iの動作および通信設定に関する制御情報に基づいて、端末2iの動作および通信設定を制御する。
【0027】
具体的には、制御部103は、制御モデル105から出力された制御情報を各端末2iに送信する。各端末2iの制御部2i3は、送信された制御情報に従って自身の端末2iを制御する。
【0028】
制御部103は、1つの端末2iの端末情報を制御モデル105に入力して当該端末2iの制御情報を出力してもよく、あるいは、複数の端末2iの各端末情報を制御モデル105に入力して複数の端末2iの制御情報をそれぞれ出力してもよい。
【0029】
端末2iの動作に関する制御情報は、例えば、長期的な経路または位置に関する長期動作指令、および、短期的な前進、後進、方向変換、上昇、下降、加速または減速に関する短期動作指令の少なくとの1つを含んでもよい。また、動作に関する制御情報は、任意の地点への移動、旋回などを含んでもよい。また、動作に関する制御情報は、前述の動作の速度、加速度、許容範囲および動作タイミングの少なくとも1つを含む動作関連情報、最大速度、最小速度などの動作ルールを含んでもよい。
【0030】
また、動作に関する制御情報には、端末2iが備える構成物(駆動物)の動作を制御するための制御情報を含んでもよい。制御情報は、端末2iの運用パラメータを制御するものであってもよい。運用パラメータは、例えば、端末2iが物品を運搬する場合、作業効率、作業量、電力消費量、作業リスクなどである。
【0031】
通信設定に関する制御情報は、無線通信の接続先(無線通信装置101)、周波数、周波数帯域、要求品質、優先度、データレート、送信頻度および再送回数の少なくとも1つを含んでもよい。通信設定に関する制御情報は、通信する基地局、利用するアンテナ数、送信電力、利用する無線システム、送信頻度、ビットレート、パケットサイズ、送信モードを含んでもよい。
【0032】
評価部104は、制御部103による制御後の端末情報を用いて制御情報の評価値を算出し、制御モデル105が出力する制御情報の評価値が高くなるように、制御モデル105を更新する。すなわち、評価部104は、制御情報の評価値を高くするように、制御モデル105を更新し、よりよい制御を実施するように制御モデル105を学習させる。具体的には評価部104は、出力された制御情報による端末2iの動作に対し、評価値を算出する。
【0033】
評価部104は、作業に関する少なくとも1つの第1条件と対応する第1報酬値と、通信品質に関する少なくとも1つの第2条件と対応する第2報酬値とを保持し、制御部103による制御後の端末2iの作業および通信品質を数値化し、第1報酬値および第2報酬値を用いて評価値を算出してもよい。第1条件が作業の完了に寄与するか否かに応じて第1報酬値が設定され、第2条件の通信品質に応じて第2報酬値が設定される。
【0034】
第1条件(要求条件)は、端末2iが実施する作業に対して設定されるパラメータであり、例えば運搬を行う端末2iの場合、運搬の成功、実施、効率などであって、望ましい条件を満たす作業に対して、高い第1報酬値が生成される。逆に、望ましくない条件を満たす作業に対して、ペナルティとしてマイナスの第1報酬値を設定してもよい。
【0035】
監視端末であれば、第1条件は監視の実施、監視エリア、監視対象の特定数などであって、望ましい条件を満たす作業に対して高い第1報酬値が設定される。ドローンであれば、第1条件は計画経路との乖離の小ささ、目的地への到達などであって、望ましい条件を満たす作業に対して高い第1報酬値が生成される。
【0036】
第2条件(要求条件)は、端末2iの無線通信に関するパラメータであって、前述の通信情報に対して各種の条件が設定され、望ましい通信品質に対して高い第2報酬値が設定される。例えば、単位時間当たり到達ビット数が規定の値以上となる状態をより長く継続している場合、作業実施に対する最小通信品質が大きい場合、再送回数が少ない場合、または、通信パケットの到達遅延時間が小さい場合に高い第2報酬値を設定し、逆に、既定の通信品質を満たさない場合にペナルティとしてマイナスの第2報酬値を設定してもよい。例えば、到達ビット数が既定の値以下となったり規定以下の状態が一定の時間続く場合、通信パケットの到達遅延時間が大きい場合、通信品質の変動が大きい場合、にペナルティやマイナスの報酬を設定できる。
【0037】
図2は、本実施形態の制御装置110の動作を示すフローチャートである。
【0038】
収集部102は、少なくとも1つの端末2iから端末情報を収集する(ステップS101)。制御部103は、制御モデル105に各端末2iの端末情報を入力し、各端末2iの制御情報を出力する(ステップS102)。
【0039】
強化学習において、必ずしも最適でない制御を行わせることでよりよい行動を行うための、ε-greedy法などの最適解でない制御情報を出力する方法を用いてもよい。ε-greedy法では、制御モデル105は、自身が選択した制御情報とは異なる制御情報を一定の確率で出力することを許容する。このようにすることで、よりよい制御を発見できる場合がある。
【0040】
制御部103は、制御モデル105が出力した制御情報に基づいて各端末2iを制御する。すなわち、制御部103は、各端末2iに対応する制御情報を送信し、各端末2iの動作および通信設定を制御する(ステップS103)。
【0041】
端末2iが制御されると、評価部104は、その制御結果に対して評価値を算出する(ステップS104)。例えば、評価部104は、端末2iが行う作業および無線通信の品質について評価し、予め設定された報酬値を取得する。たとえば、端末2iが運搬機器である場合には、以下の条件および報酬値などが考えらえる。
【0042】
・運搬の完了:+100
・優良な無線通信の継続:+10
・低品質無線通信:-10
このように、作業の完了に対して高い報酬値を設定するとともに、端末2iが満たすべき無線通信品質の要求条件に応じて、無線通信に対する報酬を、プラスの値またはペナルティとしてマイナスの値をあらかじめ設定しておく。
【0043】
評価部104は、収集部102が収集した、制御情報により制御された後の各端末2iの端末情報を用いて、前記制御情報の制御結果を評価し、報酬値を用いて評価値を算出し、制御モデル105にフィードバックすることで、制御モデル105を更新する(ステップS106)。制御装置110が、
図2に示す処理を繰り返し行うことで、よりよい制御モデル105に改善しつつ、端末2iを制御することができる。
【0044】
評価部104は、上記の条件(パラメータ)を満たした報酬値の合計を評価値として算出してもよい。また、評価部104は、各条件に所定の重みづけを設定し、報酬値に重み付けを加味した値の合計値を評価値として算出してもよい。
【0045】
また、評価部104は、端末2iの作業、通信、日時、アプリケーション、位置、速度および加速度の少なくとも1つが、所定の条件を満たす場合にのみ、評価値を算出してもよい。これは、端末2iの運動範囲が広い場合に、全ての条件に対して、常に良い制御情報を出力する制御モデル105を生成することが難しい場合があるためである。または、常に通信品質と作業双方を鑑みて制御する必要がないか、特定の条件でのみ、効率的な制御を実施したい場合があるためである。実際に運用する場合には、環境、通信、日時、アプリケーション、干渉、天候、などさまざまな複雑な要因が影響するため、制御モデル105が動作する条件を限定することで、制御モデル105の精度を高めることも期待できる。このため、評価部104は、端末2iの作業、通信、日時、アプリケーション、位置、速度、加速度などがあらかじめ定めた条件を満たす場合のみ、報酬を数値化して出力してもよい。例えば、特定のアプリケーション、特に無線通信を用いるアプリケーションを使っている時のみ、またはアプリケーションが特定のモードであるときのみ、本実施形態の制御方法を用いてもよい。
【0046】
図3は、本実施形態の端末制御システムの効果を検証するための荷物運搬のシミュレーション(実験例)における通信エリアを示す模式図である。倉庫などの2次元平面301上を3台のロボット(端末)41、42、43が通信しながら移動して、Loading Point303にある荷物305を、仕分けをしながらいずれかのGoalA~D304へ運搬する。また、ロボット41、42、43は、荷物305の運搬とともに、倉庫301の左右に存在する無線基地局51、52との無線通信品質に対する要求条件を満たす必要がある。無線基地局51、52と、ロボット41、42、43との間のスループットは、以下の式のように定義した。
【0047】
Ci = log2(1+Si,j)/Li
ここで、Ciは、無線基地局5i(iは1または2)と、ロボット4j(jは1~3のいずれか)が無線通信した際のスループットである。Si,jは、端末4jが送信したパケットが、無線基地局5iと端末4jの上りまたは下り回線における信号対干渉雑音電力比である。Liは、無線基地局5iに接続される端末4jの数を表す。
【0048】
ここでは、無線基地局5iと通信している端末4jの数に応じて、スループットが分割されるシナリオで計算しているが、Wi-Fi、LTE、5Gなど、実際のシステムにおけるスループットや回線品質に関するいかなるパラメータと置き換えてもよい。
【0049】
図4に、
図3のシミュレーションにおける2次元平面301の座標を示す。想定した2次元平面301は、横13m、縦7mである。
図4の領域41、42、43は、ロボット4jの位置を示している。
図4の縦軸5、横軸6の地点(領域42)にLoading Pointがあるものとした。
図4の領域304は、左から順にGoal A、Goal B、Goal C、Goal Dを示す。
図4の領域51、52は、無線基地局5jを示している。ロボットが動ける範囲は、
図4の白い領域と、Goalの領域304と、Loading Pointの領域42である。
【0050】
ここで、Goalは荷物によって指定されるものとした。各ロボットはGoalが指定された荷物を指定されたGoalに仕分けるものとした。Loading Point42には、ここでは20個の荷物が収納されたバッファが設置され、ロボットは荷物を持っていない状態でLoading Point42に到達すると、バッファに格納されている荷物を受け取り、荷物を持っている状態でその荷物が指定したGoalに到達すると荷物をおろす作業を繰り返すものとした。
【0051】
本シミュレーションでは、深層強化学習のアルゴリズムを用いて適切なロボットの移動制御を推定する。ロボットの自己位置とロボットの目的地とを入力とした適切なロボットの移動制御を推定し、推定したロボット操作をシミュレータ環境へ反映し、操作後のロボットのタスク遂行効率とネットワーク性能とを元にした評価値(報酬/ペナルティ)を計算する3ステップを繰り返して、適切なロボットの移動制御を学習する。
【0052】
図5に、
図3および
図4のシミュレーションで用いた制御モデル105のニューラルネットワーク構造を示す。本手法では、各ロボットによる行動を推定するために、各ロボットの自己位置の縦軸座標および横軸座標と、目的地の横軸座標および縦軸座標とが入力として与えられる。すなわち、自己位置の縦軸横軸座標、および目的地の縦軸横軸座標の計4つの情報が入力である。無線基地局5jの選択は、受信電力が高い方に接続する条件を与えている。
【0053】
図示する例では、入力したロボットの自己位置と目的地に対して、FC(Fully Connected Layer)501と、ReLU (Rectified Linear Unit)502を2回用いて、ロボットの自己位置と目的地に関する特徴を抽出する。FCは、全結合層である。ReLU502は、負の値を0とする活性化関数f(x)=max(0,x)である。図の右側の添え字の数字は、ニューロンの数を表す。
【0054】
FC501が出力した1次元テンソルを半分に分割してそれぞれを状態価値関数および行動価値関数の学習に用いる。
図5において、「64」の添え字があるFC501の出力を32ずつ2つに分割し、上部のFC501aで状態価値関数、下部のFC501bで行動価値関数の学習を行っている。最後に、FC501aの状態価値関数から得られた出力と、FC501bの行動価値関数の出力とを結合した状態行動価値関数から適切なロボットの行動を推定し出力する。出力される行動は、上、下、右、左の4方向にいずれかへの1mの移動または停止の5種類とした。
【0055】
ネットワーク性能を考慮したロボットの移動制御を学習するため、評価値を算出するための条件および報酬値を、以下とした。
【0056】
・1つの行動: -1
・0.2Gbps以下を下回るスループットを計測: -3
・侵入不可領域への侵入の試行: -5
・静止: -5
・目的地への接近: +2
・運搬の完了: +100
「1つの行動」に対する報酬の減点は、タスクをなるべく少ないステップで終わらせるためのものである。行動を選択した結果、「0.2Gbps以下のスループットであるか」、「侵入負荷領域への侵入を試みたか」、「停止の選択をしたのか」、「目的地への距離は小さくなったか」、「運搬は完了したのか」のいずれかを満たすか判定し、満たしていれば対応する報酬またはペナルティを受ける。0.2Gbps以下になりながら、目的地に近づいたら、―3+2=―1のペナルティとなる。なお、侵入不可領域への侵入を試みた場合は、ロボットの位置は更新しないものとする。ロボットが荷物を運搬していない状態で、搬入口のバッファに荷物が存在しない場合、いずれの行動をとった場合も報酬は0とした。
【0057】
図6および
図7に本シミュレーションの効果を示す。本シミュレーションの効果を示すために、上記評価項目の「0.2Gbps以下を下回るスループットを計測:-3」を含めずスループットを考慮しない場合と、「0.2Gbps以下を下回るスループットを計測:-3」を含めてスループットを考慮する場合の2通りのタスク効率と通信性能を評価した。
【0058】
図6は、各エピソード数に対する20個の荷物の運搬に要したステップ数の散布図を示す。
図6より、スループットを考慮していない場合とスループットを考慮している場合はともに、最終的に100ステップに収束していることがわかる。タスク効率の観点で見ればスループットを考慮する項目により、効率が落ちることなく動作していることがわかる。すなわち、スループットを考慮しない場合は、約2300エピソードで100ステップに収束しているが、スループットを考慮した場合は、約1200エピソードで100ステップに収束している。
【0059】
図7は、各エピソードに対する3台のロボットの平均スループットの累積分布関数(Cumulative distribution function: CDF)を示す。CDFにより、スループットの全体分布を確認することができ、0~100%が縦軸の0~1に対応している。スループットを考慮しない場合、0.31Gbpsを頻繁に計測していることがわかる。スループットを考慮した場合、0.325Gbpsを頻繁に計測していることがわかる。
【0060】
これにより、本実施形態の端末制御システムによるスループットを考慮したロボット制御を行うことで、タスク効率を維持したまま通信の質を向上させることを達成したといえる。これは、従来の方法に対し、通信品質と作業効率の両方を考慮した強化学習とすることで得られる効果である。
【0061】
以上説明した本実施形態の制御装置110は、物理的な動作を伴う作業を行う端末2iを制御する制御装置であって、端末2iは無線通信装置101と無線通信し、制御装置110は、端末2iの状態情報および通信情報を含む端末情報を収集する収集部102と、前記端末情報を制御モデル105に入力し、制御モデル105が出力する、端末2iの動作および通信設定に関する制御情報に基づいて端末2iの動作および通信設定を制御する制御部103と、制御部103による制御後の端末情報を用いて制御情報の評価値を算出し、制御モデル105が出力する制御情報の評価値が高くなるように、制御モデル105を更新する評価部104と、を備える。
【0062】
これにより、端末2iによる作業のタスク効率を維持しつつ、端末2iの無線通信の品質を向上させることができる。
【0063】
<変形例>
次に、本実施形態の変形例を説明する。
図1に示す本実施形態では、基地局NW1が、制御装置110を備え、制御装置110が各端末2iから端末情報を収集し、制御情報に従って各端末2iを制御し、制御結果を評価した。変形例では、制御装置110の機能を各端末2iが具備する。
【0064】
図8は、変形例の端末制御システムの構成図である。変形例の端末制御システムは、基地局NW1A(基地局ネットワーク)と、少なくとも1つの端末21A~2LAとを備える。Lは、端末の数であり、1以上の整数である。端末21A~2LAは、端末2iAと記載することもある。基地局NW1と、各端末2iAとは、無線通信により接続されている。
【0065】
図示する基地局NW1A(基地局ネットワーク)は、制御装置110を備えない点において、
図1の基地局NW1と異なり、その他は
図1の基地局NW1と同様である。すなわち、基地局NW1Aは、少なくとも1つの無線通信装置101-1~101-Nを備え、これらはNW部100を介して接続される。無線通信装置101-1~101-Nは、
図1の無線通信装置101と同様である。
【0066】
端末2iAは、物理的な動作を伴う作業を行う無線通信端末であって、基地局NW1Aの無線通信装置101と無線通信する。各端末2iAは、複数の無線通信部2i1-1~2i1-Mと、取得部2i2と、制御部2i3と、評価部2i4を備え、これらは、NW部2i0を介して接続される。Mは、無線通信部の数であり、1以上の整数である。無線通信部2i1-1~2i1-Mは、無線通信部2i1と記載することもある。変形例の無線通信部2i1は、
図1の無線通信部2i1と同様である。
【0067】
取得部2i2は、当該端末2iAの状態情報および通信情報を含む端末情報を取得し、取得した端末情報を2i3に送出する。取得部2i2は、取得した端末情報を制御部2i3に送出する点において
図1の取得部2i2と異なり、その他は
図1の取得部2i2と同様である。
【0068】
制御部2i3は、
図1の制御部103と同様の機能を有する。すなわち、制御部2i3は、強化学習により生成された制御モデル2i5を備える。制御部2i3は、端末情報を制御モデル2i5に入力し、制御モデル2i5が出力する、当該端末2iAの動作および通信設定に関する制御情報に基づいて当該端末2iAの動作および通信設定を制御する。
【0069】
評価部2i4は、
図1の評価部104と同様の機能を有する。すなわち、評価部2i4は、制御情報に基づいて制御された後の端末情報を用いて制御情報の評価値を算出し、制御モデル2i5が出力する制御情報の評価値が高くなるように、制御モデル2i5を更新する。
【0070】
このように本変形例では、各端末2iAが、制御モデル2i5に自身の端末情報を入力し、出力される制御情報に従って自身の端末2iAを自律的に制御し、評価する。これにより、本変形例でも上記実施形態と同様に、端末による作業のタスク効率を維持しつつ、端末の無線通信の品質を向上させることができる。
【0071】
<ハードウェア>
上記説明した制御装置および端末2i、2iAをコンピュータで実現してもよい。すなわち、制御装置110および端末2i、2iAに、例えば、
図9に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ903(HDD:Hard Disk Drive、SSD:Solid State Drive)と、通信装置904と、入力装置905と、出力装置906とを備える。メモリ902およびストレージ903は、記憶装置である。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた制御装置110または端末2i、2iAのプログラムを実行することにより、制御装置110または端末2i、2iAの各機能が実現される。
【0072】
また、制御装置110および端末2i、2iAは、1つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、制御装置110および端末2i、2iAは、コンピュータに実装される仮想マシンであっても良い。制御装置110用のプログラムおよび端末2i、2iA用のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
【0073】
なお、コンピュータ読み取り可能な記録媒体は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した構成要素の一部を実現するためのものであってもよい。また、前述した構成要素をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
【0074】
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【符号の説明】
【0075】
1 :基地局ネットワーク
100:NW部
101:無線通信装置(基地局)
102:収集部
103:制御部
104:評価部
105:制御モデル
110:制御装置
21 :端末
210:NW部
211:無線通信部
212:取得部
213:制御部
214:評価部
215:制御モデル