(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024154278
(43)【公開日】2024-10-30
(54)【発明の名称】集約装置、通信システム、通信方法、及びプログラム
(51)【国際特許分類】
H04W 4/00 20180101AFI20241023BHJP
H04W 72/12 20230101ALI20241023BHJP
H04W 72/54 20230101ALI20241023BHJP
H04W 92/12 20090101ALI20241023BHJP
H04W 88/12 20090101ALI20241023BHJP
【FI】
H04W4/00 111
H04W72/12
H04W72/54
H04W92/12
H04W88/12
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023068024
(22)【出願日】2023-04-18
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】河村 憲一
(72)【発明者】
【氏名】村山 大輔
(72)【発明者】
【氏名】中平 俊朗
(72)【発明者】
【氏名】守山 貴庸
(72)【発明者】
【氏名】金子 めぐみ
(72)【発明者】
【氏名】ティハーリー ディン
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA23
5K067DD34
5K067DD57
5K067EE02
5K067EE10
5K067EE16
5K067EE23
5K067HH22
(57)【要約】
【課題】強化学習によりスケジューリングを行う通信装置において、学習における収束の速度、及び精度を向上させるための技術を提供する。
【解決手段】集約装置において、強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、前記全体報酬を、前記複数の通信装置に配信する情報配信部とを備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、
前記全体報酬を、前記複数の通信装置に配信する情報配信部と
を備える集約装置。
【請求項2】
前記フィードバック情報は、リスク状態を表す指標、受信成功パケット数、及び送信パケット数を有する
請求項1に記載の集約装置。
【請求項3】
前記報酬計算部は、全デバイスの平均パケット受信成功率と、各無線インタフェースでのリスク状態によるペナルティーの、前記複数の通信装置についての総和を計算することにより前記全体報酬を算出する
請求項1に記載に集約装置。
【請求項4】
請求項1ないし3のうちいずれか1項に記載の前記集約装置と、前記複数の通信装置とを含む通信システム。
【請求項5】
コンピュータが実行する通信方法であって、
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集ステップと、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算ステップと、
前記全体報酬を、前記複数の通信装置に配信する情報配信ステップと
を備える通信方法。
【請求項6】
コンピュータを、請求項1ないし3のうちいずれか1項に記載の集約装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無線通信システムにおけるパケットスケジューリングに関連するものである。
【背景技術】
【0002】
現在、無線通信システムは発展し、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークになっている。セルラー通信では、第5世代移動通信(5G)が実用化され、1GHz以下の周波数から、ミリ波帯まで幅広い周波数が利用され、スモールセルからマクロセルまで様々なサイズのセルが重畳するように提供される世界になってきている。
【0003】
また、もう一つの代表的な無線アクセスシステムである無線LANでも、2.4/5/60GHz帯の無線周波数が利用されており、6GHz帯の利用も検討されている。スマートフォンなどの無線端末はセルラーと無線LANのアクセスに対応したI/Fを一般的に備え、またそれぞれのI/Fにおいて複数のバンドへの対応となっている。端末は複数の周波数、アクセス方式から接続する無線基地局を選択し、通信を行うことが一般的となってきており、デュアルコネクティビティなど、1台の端末が複数の基地局を統合利用することも行われる。
【0004】
このようなヘテロジニアス環境において、端末がどのI/Fでどの基地局を選択するかはシステム全体で制御し、最適化を図ることがシステムのリソースの有効利用に有効である。
【0005】
また、5Gの発展として、uRLLC(Ultra-Reliable and Low Latency Communications、超高信頼低遅延通信)等、従来の無線通信ではあまり使われていなかった超高信頼・超低遅延な用途に向けた通信機能の実現が目標とされている。
【0006】
高信頼性(低パケットロス)、低遅延性を実現するための手段の一つとして、非特許文献1に開示されているように、強化学習を用いて送信パケットをより高信頼に送るための利用回線を最適化する手法がある。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】T. H. L. Dinh, M. Kaneko, K. Kawamura, T. Moriyama and Y. Takatori, "Improving Reliability by Risk-Averse Reinforcement Learning over Sub6GHz/mmWave Integrated Networks, " ICC 2022 - IEEE International Conference on Communications, 2022, pp. 3178-3183, doi: 10.1109/ICC45855.2022.9839175
【発明の概要】
【発明が解決しようとする課題】
【0008】
非特許文献1に開示された技術では、通信装置で強化学習により利用回線の最適化を行うことが可能である。しかし、複数の通信装置がある場合において、個々の通信装置は、周囲の通信装置の情報を得ることができないため、学習の収束に時間がかかり、学習の精度も劣化するという課題がある。なお、「通信装置」とは、例えば、無線基地局、又は、無線端末、又は、無線基地局と無線端末の両方である。
【0009】
本発明は上記の点に鑑みてなされたものであり、強化学習によりスケジューリングを行う通信装置において、学習における収束の速度、及び精度を向上させるための技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
開示の技術によれば、強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、
前記全体報酬を、前記複数の通信装置に配信する情報配信部と
を備える集約装置が提供される。
【発明の効果】
【0011】
開示の技術によれば、強化学習によりスケジューリングを行う通信装置において、学習における収束の速度、及び精度を向上させることが可能となる。
【図面の簡単な説明】
【0012】
【
図2】無線基地局(又は無線端末)の構成図である。
【
図3】無線基地局(又は無線端末)の構成図である。
【
図6】集約装置に関わる動作を説明するためのシーケンス図である。
【
図11】装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0014】
(システム構成例)
図1に、本実施の形態における無線通信システムの構成例を示す。
図1に示すように、本システムは、複数の無線基地局100、複数の無線端末200、及び集約装置300を含む。
図1の例では、集約装置300はインターネットに接続されている。
【0015】
なお、
図1の例では、無線基地局100が集約装置300に接続されているが、無線端末200が集約装置300に接続されてもよい。また、無線基地局100と無線端末200の両方が集約装置300に接続されてもよい。
【0016】
本実施の形態では、後述する強化学習の手法により、複数の無線インタフェースを備える無線基地局100が、デバイス(無線端末)に送信するパケットについて、それを送信する無線インタフェース、及び、その無線インタフェースで送信するパケット数を決定して、送信を行う。なお、無線インタフェースの決定及びパケット数の決定をスケジューリングと呼んでもよい。
【0017】
本実施の形態に係る手法は、無線端末200においても適用することが可能である。無線基地局と無線端末を総称して通信装置と呼んでもよい。集約装置300に関わる動作については後述する。
【0018】
また、後述する具体例では、無線インタフェースをSub-6GHzとmmWaveの2種類として説明しているが無線インタフェースはこれらに限られない。また、「無線インタフェース」を、「周波数」であると解釈してもよい。つまり、本実施の形態は、複数周波数をアグリゲーションして使用する形態において、周波数の選択、及び、パケット数決定を後述する強化学習の手法により実現できる。
【0019】
図2に、無線基地局100の構成例を示す。無線端末200も
図2に示す構成と同様の構成を備えることとしてよい。
【0020】
図2に示すように、無線基地局100は、通信I/F部110、制御部120、無線通信部130、アンテナ101を有する。
【0021】
無線通信部130は、スケジューラ部140、受信部131、無線通信信号生成部132、RF部135を備える。スケジューラ部140は、強化学習部150、通信品質測定部141、全体無線リソース割当算出部142、個別無線リソース割当算出部143を有する。「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」は、無線インタフェースの数だけ備えられる。ただし、「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」のうちのいずれかが、複数インタフェースで共有されてもよい。また、「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」を「無線インタフェース」と呼んでもよい。
【0022】
強化学習部150は、Qテーブル管理部151、状態算出部152、報酬算出部153、リスク評価部154を備える。各部の動作は下記のとおりである。
【0023】
通信I/F部110は、集約装置300との通信を行う。制御部120は、例えば、CPUとメモリを備え、装置全体の制御を行う。無線通信部130は無線通信に係る動作を実行する。
【0024】
スケジューラ部140はパケットスケジューリング等を実行する。受信部131は他の通信装置からの信号(例:無線端末からのフィードバック)をアンテナ及びRF部を介して受信する。無線通信信号生成部132は、送信するパケットのデータから無線で送信する信号を生成する。RF部135は、信号を搬送波に乗せる等の処理を実行する。なお、スケジューラ部140はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0025】
通信品質測定部141は、例えば、送信パケット数と、通信相手からのフィードバック(例:ACK/NACK)に基づき、通信品質(例:パケットロス率)を測定する。なお、本実施の形態では、各デバイスからの瞬時のCSIフィードバック(ACK/NACK等)を得られず、散発的なCSIフィードバックを得られる状況にも対応しており、散発的なCSIフィードバックから通信品質の統計値(全デバイスにわたる平均値等)を取得することができる。
【0026】
全体無線リソース割当算出部142は、フレーム毎に強化学習部150が決定する行動に基づき、送信するパケット総数に対して、各無線インタフェースに割り当てる量を決定する。また、個別無線リソース割当算出部143は、フレーム毎に強化学習部150が決定する行動に基づき、該当する無線インタフェース(個別無線リソース割当算出部143に接続される無線インタフェース)における送信パケット数に対応する無線リソース量を決定する。
【0027】
なお、無線基地局100(又は無線端末200)を
図3に示す構成で表すこともできる。
図3に示すように、無線基地局100は、強化学習部10、送信部20、受信部30を有する。強化学習部10は強化学習部150と同様の処理を行う。送信部20は、送信に関する処理(例:送信リソース割当算出、パケット送信)、受信部30は、受信に関する処理(例:フィードバック受信、通信品質算出)を行う。
【0028】
(強化学習部150について)
本実施の形態では、無線基地局100(もしくは無線端末200)において、複数の無線インタフェース(もしくは複数の周波数)をアグリゲーションする構成を採用している。
【0029】
各無線インタフェースの送信パケットに対する無線リソースの割当を行うスケジューラ部140に強化学習部150を備えることで強化学習を適用(1)し、自律的に所望の通信品質を得るための最適な接続を学習して行うとともに、複数Qテーブルの並列更新(単独Qテーブルも含む)に基づくRisk-averse learning(リスク回避学習)手法(非特許文献1)(2)を用いることで、通信の信頼性を重視した行動選択を可能としている。
【0030】
上記の(1)の強化学習の適用について、本実施の形態では、状態s(t)を各無線インタフェースでの各無線端末のパケットロス率(ACKのフィードバックより検出)情報に基づく各無線端末のSatisfaction Level(満足レベル)とし、行動a(t)を各デバイス(送信元が無線基地局の場合は無線端末)に対して使用する無線インタフェースの組み合わせとパケットスケジューリング(各無線インタフェースで送信するパケット数)とする。本実施の形態では、Risk-Averse Average Q-learning(リスク回避平均化Q学習)により、状態s(t)から各デバイスに対する最適な行動a(t)を学習する。
【0031】
本実施の形態では例えばuRLLCを使用することが想定される。その場合、低遅延性を保つため瞬時のCSIフィードバックを利用できないことが考えられる。本実施の形態では、瞬時のチャネル状態が未知でも良好なRisk-averse学習ができるように無線インタフェース選択とパケットスケジューリング法を設計している。
【0032】
上記の(2)のRisk-averse learning(リスク回避学習)手法に関して、Risk-Averse Learningの、Risk(分散の大きさ)に反応する評価関数の概念を示す式(後述する式(11)、式(12))に、累積報酬sumrの分散(リスク)に機敏に反応する項を入れることにより、高リスク行動に対する報酬の低下を反映させている。累積報酬sumrの分散に反応して評価に反映する項とは、後述する式(12)(式(11)をテイラー展開した式)における2番目の項(Varがある項)である。
【0033】
後述する具体的において説明するとおり、本実施の形態では、瞬時報酬は全てのデバイスにわたる平均パケット受信成功率、及びリスク状態によるペナルティー(ex.信頼性・遅延等のQoSターゲットが未達成の状態)を反映する。
【0034】
また、本実施の形態では、集約装置300が、複数の無線基地局100(あるいは複数の無線端末200)からのフィードバックに基づいて、上記の報酬として全体報酬を算出し、算出した全体報酬を複数の無線基地局100(あるいは複数の無線端末200)に送信する。
【0035】
図2に示す強化学習部150において、Qテーブル管理部151は、Qテーブルの保持、初期化、更新等を行う。状態算出部152は、状態s(t)を算出する。報酬算出部153は、フィードバック情報を集約装置300に送信し、集約装置300から全体報酬を受信する。なお、報酬算出部153は、自身でs(t)、a(t)に対する報酬rを算出することもできる。リスク評価部154は、Qテーブルに基づいて、評価関数を計算し、行動を選択する。なお、評価関数の計算は報酬算出部153が行ってもよい。
【0036】
ここで、強化学習に関連する無線基地局100の動作概要を
図4のフローチャートを参照して説明する。
【0037】
S101において、状態算出部152が、各無線インタフェースでの各無線端末のパケットロス率(ACKのフィードバックより検出)情報に基づく各無線端末のSatisfaction Level(満足度レベル)を取得し、状態s(t)を計算する。
【0038】
S102において、リスク評価部154は、Qテーブル管理部151において管理されている複数Qテーブル(もしくは単独Qテーブル)に基づいて、ε-greedy法により行動aを決定する。
【0039】
S103において、強化学習部150は決定した行動aを、全体無線リソース割当算出部142、個別無線リソース割当算出部143等に通知することで、無線基地局100は、行動aを実行する。
【0040】
S104において、通信品質測定部141によりパケットロス情報が取得され、パケットロス情報は強化学習部150における報酬算出部153に渡される。
【0041】
S105において、報酬算出部153は、フィードバック情報を集約装置300に送信し、集約装置300から全体報酬を取得する。S106において、Qテーブル管理部151は、複数Qテーブル(もしくは単独Qテーブル)の更新を行う。
【0042】
(集約装置300に関わる動作について)
以下では、一例として、
図1に示したように、無線基地局100が集約装置300と接続される場合について説明するが、無線端末200が集約装置300と接続される場合においても、以下の無線基地局100を無線端末200に置き換えることで、以下の説明の動作(集約装置300を使用する動作)を適用可能である。
【0043】
本実施の形態では、
図1に示したとおり、無線基地局100と通信可能である集約装置300を配置する。各無線基地局100は、上述した強化学習を用いて、複数の無線インタフェースに対するパケット送信のためのスケジューリングを実施する。
【0044】
各無線基地局100は、強化学習で得られたフィードバック情報を集約装置300に送信する。集約装置300は、各無線基地局100から受信したフィードバック情報をもとに全体報酬を算出し、算出した全体報酬を各無線基地局100に送信する。
【0045】
各無線基地局100は、集約装置300から受信した全体報酬に基づいて複数Qテーブル(もしくは単独Qテーブル)を更新し、更新した複数Qテーブル(もしくは単独Qテーブル)を参照して行動を選択する。
【0046】
(集約装置300の構成例)
図5に、集約装置300の構成例を示す。
図5に示すように、集約装置300は、通信I/F部310、情報収集部320、報酬計算部330、情報配信部340を有する。
【0047】
通信I/F部310は、各無線基地局100との間でデータ通信を行う。集約装置300と無線基地局100との間の通信方法は無線でもよいし、有線でもよい。
【0048】
情報収集部320は、通信I/F部310を介して、フィードバック情報を各無線基地局100から収集する。情報配信部340は、通信I/F部310を介して、全体報酬を各無線基地局100に配信する。報酬計算部330は、情報収集部320により収集したフィードバック情報に基づいて全体報酬を算出する。
【0049】
(システムの動作例)
続いて、
図6のシーケンス図を参照して、本実施の形態に係る無線通信システムにおいて、集約装置300を使用する場合の動作を説明する。
図6に示すシーケンスは、予め定めた時間間隔(例えば、フレーム毎、あるいは、強化学習の実行周期)で実行される。また、実際には複数の無線基地局100が存在するが、
図6は1つの無線基地局100のみを示している。各無線基地局100について、
図6に示す動作が実行される。
【0050】
また、
図6では、例として、無線基地局100が集約装置300と通信する動作を示しているが、
図6の無線基地局100を無線端末200に置き換えてもよい。つまり、無線端末200が集約装置300と通信する動作も
図6に示す動作と同じである。
【0051】
<S201>
S201において、各無線基地局100は、強化学習の手法により、スケジューリングを実施する。すなわち、各無線基地局100は、各無線インタフェースのユーザ選択、及び各無線インタフェースの送信パケット数の決定を行う。
【0052】
ここでの強化学習の手法に基づくスケジューリング(行動の選択)においては、全体報酬に基づき更新された複数Qテーブル(又は単独Qテーブル)が使用される。
【0053】
<S202>
S202において、各無線基地局100は、通信相手先(ここでは無線端末100)からのフィードバック(ACK/NACK)に基づいて、リスク状態、受信成功パケット数、及び送信パケット数を算出し、これらをフィードバック情報として集約装置300へ送信する。
【0054】
ここで、リスク状態、受信成功パケット数、及び送信パケット数をそれぞれ下記のように表す。なお、ここでの例は、後述するシステムモデル(Sub‐6GHzおよびmmWaveを使用するモデル)を想定したものである。
【0055】
リスク状態を表す指標:uk
ν(t)
受信成功パケット数:Ωk
ν(t)
送信パケット数:lk
ν(t)
kは端末(デバイス)を表し、νは無線インタフェース(Sub又はmW)を表す。tは対象のフレームを示す。このとき、uk
ν(t)は後述する式(14)で決定される。式(14)において、ρはパケットロス率であり、ρmaxは要求パケットロス率である。
【0056】
各無線基地局100は、無線端末毎、無線インタフェース毎の上記情報をフィードバック情報として集約装置300に送信する。集約装置300の情報収集部320は、各無線基地局100から送信されたフィードバック情報を取得する。
【0057】
<S203>
S203において、集約装置300の報酬計算部330が、各無線基地局100から収集されたフィードバック情報を用いて、無線基地局100全体の報酬である全体報酬を計算する。
【0058】
全体報酬は、例えば、
図7に示す式で計算される。この式も、後述するシステムモデル(Sub‐6GHzおよびmmWaveを使用するモデル)を想定したものである。
図7の式において、bは無線基地局を示す。
【0059】
図7に示すように、全体報酬rは、「全デバイスの平均パケット受信成功率と各無線IFでのリスクステートによるペナルティー」の和の無線基地局についての総和のt時間における平均である。
【0060】
図7の例では、平均パケット受信成功率の計算において、行動を表すaにより場合分けしている。後述するように、このシステムモデルの例では、aは0、1、2のうちのいずれかの値であり、aが2以外の場合は
図7のAに示す値を用い、aが2の場合はBとCのうちの大きいほうを用いる。
【0061】
<S204>
S204において、集約装置300の情報配信部340は、S203で算出された全体報酬を各無線基地局100に配信する。
【0062】
<S205>
S205において、各無線基地局100は、本実施の形態における強化学習の手法により、集約装置300から受信した全体報酬を用いて複数Qテーブル(又は単独Qテーブル)を更新する。
【0063】
<S206>
S206において、各無線基地局100は、新しい状態を選択し、処理に反映させる。
【0064】
以下、本実施の形態における無線基地局100の動作(特に強化学習部150による動作)を、具体的な無線インタフェースを使用する例を用いてより詳細に説明する。以下では、本システムモデルにおける強化学習の処理の説明を分かり易くするために、単独の無線基地局100で報酬を計算する場合の動作例を示している。
【0065】
(システムモデル)
本実施の形態では、
図8に示すように、複数のデバイスを収容する複数のAPから構成される無線ネットワークにおけるダウンリンク(DL)送信を例にとって説明する。各APは、Sub‐6GHzおよびmmWave(ミリ波)インタフェースを備えているものとする。各APは、無線基地局100に相当する。デバイスは無線端末200に相当する。以下では、無線基地局100が本実施の形態に係る強化学習の動作を行うものとして説明するが、無線端末200も同様の動作が可能である。
【0066】
図8に示すように、AP bはデバイスの集合Κに所望のパケットを送信する。また、デバイスの集合Κは、他の全てのAP b´≠bからDL干渉を受信する。
【0067】
各スケジューリングフレームtの開始において、AP bは各デバイスk∈KへのLk(t)個のパケットを持つものとする。各パケットl∈Lk(t)は、dビットのサイズであり、デバイスk∈Kに送信されるものである。
【0068】
AP bは、Sub-6GHzインタフェース上のN個のサブチャネルと、mmWaveインタフェース上のM個のビームを介してこれらのパケットを送信する。各Sub-6GHzサブチャネル又は各mmWaveビームは、各スケジューリング時間フレームにおいて、あるユニークなデバイスに割り当てることができる。Sub-6GHzでは異なるサブチャネル、mmWaveでは異なるビームを介して、各フレームで複数のデバイスをサポートすることができる。
【0069】
Sub-6GHz帯では、サブチャネルnにおけるAP bからデバイスkに対する信号対干渉+雑音比(SINR)は、
【0070】
【数1】
と表される。ここで、AP bからデバイスkへのサブチャネルnにおける送信電力p
bkn
subは、サブチャネル間で等しいと仮定する。W
subはサブチャネルあたりの帯域幅である。h
bkn
subの項は、サブチャネルn上のAP bとデバイスkとの間のチャネル電力(channel power)であり、h
bkn
sub(t)=|
~h
bkn
sub(t)|
2で与えられる。なお、本明細書のテキストにおいて、記載の便宜上、文字の頭に記載する記号を文字の前に記載する場合がある。「
~h」はその例である。ここで、
~h
bkn
sub(t)は、スモールスケールおよびラージスケールフェージング効果を含む複素チャネル係数である。σ
n
2は、加算性白色ガウス雑音(AWGN)電力を表す。I
bkn
subは、APs b´≠bからデバイスkへのサブチャネルn上の干渉電力である。
【0071】
mmWaveインタフェースについてはアナログビームフォーミングを想定し、ビームm上でのAP bからデバイスkへの送信ビーム幅とビーム方向はそれぞれθbkm及びβbkmと表され、各ビームmにおける対象デバイスk及び時間フレームtに応じて調整される。
【0072】
単純化のために、一般性を損なうことなく、デバイスkにおける受信ビーム利得Gk
Rxは固定であると想定する。得られるレートを最大化するために、θbkmは最も狭いビーム幅に設定され、βbkmはAP bからデバイスkへの視線(LoS)方向によって与えられる。したがって、AP bに収容されるデバイスkにおけるビームmのSINRは、次のように与えられる。
【0073】
【数2】
ここで、p
bkm
mW、h
bkm
mWは、それぞれ、ビームm上のAP bとデバイスkとの間の送信電力およびチャネル電力であり、W
mwは、帯域幅である。チャネル電力h
bkm
mWは、ビームm上の送信ビーム幅と方向の関数であり、下記のとおりである。
【0074】
【数3】
ここで、PL
bkmは、ビームm上のAP bとデバイスkとの間のパスロスを示し、G
b(θ
bkm,β
bkm)は、AP bとデバイスkとの間のメイン送信ビーム利得であり、下記のようにモデル化される。
【0075】
【数4】
ここでεはサイドローブビームゲインである。式(2)において、I
bkm
mWは、全てのAPs b´≠bからAP bに収容されるデバイスkへの干渉電力であり、それらのサイドローブビーム利得に基づいて計算される。
【0076】
したがって、AP bに収容されるデバイスkの実現可能なレートは、次のとおりである。
【0077】
【数5】
ここで、ν={Sub,mW}(Sub 6GHzまたはmmWave)である。デバイスのアプリケーションの低遅延要件の下では、デバイスからAPsへの瞬時のCSIフィードバックは想定されない。従って、APsは達成可能なレート(式(5))を知ることなく割り当てを決定する必要がある。
【0078】
インタフェースνのフレームtにおけるデバイスkへの送信パケット数を、lk
ν(t)∈{0,…,Lk(t)}と表す。Lk(t)は、フレームtにおけるキューに入れられたパケットの総数であるので、lk
sub(t)+lk
mW(t)≦Lk(t)である。各インタフェース上において、デバイスkの正常に受信できたパケット数Ωk
ν(t)は、AP bによりデバイスkのACKフィードバックに基づいて下記のように計算できる。
【0079】
【数6】
ここで、ω
kl
ν(t)は、フレームtにおけるインタフェースν上のパケットlに対するデバイスkからのフィードバックを示し、下記のとおりである。
【0080】
【数7】
更に、期間T
sのフレーム内において、インタフェースν上でデバイスkにより正常に受信されたサイズdビットのパケットの最大数は、
【0081】
【0082】
ここで、rbk
ν(t)はAPにおいて未知なので、lk,max
νは、APにおいて未知である。従って、lk
ν(t)≦lk,max
ν(t)である場合、つまり、デバイスkの割り当てられたサブチャネル又はビームにおいて、送信パケットの数がデバイスkで受信し得るパケットの数よりも小さい場合において、これら全てのパケットは正常に受信され、それらのACKはAPにフィードバックされると想定する。しかし、lk
ν(t)≧lk,max
ν(t)である場合、lk
ν(t)-lk,max
ν(t)パケットはNACK状態になる。
【0083】
上記に基づいて、下記のとおり、フレームtまでのパケットロス発生を両インタフェースにわたって平均をとったものを、フレームtにおけるデバイスkのPLR(パケットロス率)と定義する。
【0084】
【0085】
【数10】
は、フレームτにおける両インタフェースにわたるパケット正常伝達レート(PSR:Packet Successful Delivery Rate)を示す。各インタフェースにおけるフレームtのデバイスkのPLRは下記のように更新される。
【0086】
【数11】
以下、本実施の形態に係る手法を詳細に説明する。
【0087】
(マルコフ決定過程(MDP)について)
ここでの目標は、各デバイスの個々のPLR制約(ここではρ
max)を満たしながら、すべてのデバイスにわたって平均化された長期PSRを最大化することである。この問題は、
図9に示すように、状態空間、行動空間、遷移確率および報酬関数によって特徴づけられるMDPとしてモデル化することができる。
図9において、状態s
tは、全てのデバイスに対する、PLRの満足レベル(及びACKフィードバック状態)である。行動a
tは、全てのデバイスに対する、インタフェース選択及びパケットスケジューリングである。本実施の形態では、状態s(t)、行動a(t)を元に、報酬r(t)を得て、目的関数を最大化することで、行動の最適化を行う。
【0088】
各AP(無線基地局)はインタフェース選択及びパケットスケジューリングの決定を行うエージェントである。各フレームtにおいて、APは、現在の状態stを知っている。状態stは、当該APに関連するデバイスの現在のPLR満足レベルと前回のフレームt-1におけるそれらのフィードバック状態からなる。stに基づいて、APは行動atを取る。すなわち、APは、現在のフレームtにおける各デバイスの各インタフェースにおけるパケット数を決定し、環境から即時報酬rtを取得し、新たな状態st+1に遷移する。
【0089】
即時のCSIやインタフェースの統計等の情報は未知なので、APは、遷移確率P(st+1|st,at)の知識を有していない。本実施の形態では、この問題をRL(強化学習)のフレームワークを用いて解決する。
【0090】
(リスク回避強化学習:Risk-Averse Reinforcement Learning)
厳しい信頼性の要求を最もよく満足させるために、本実施の形態では、リスク回避平均化Q学習(RAQL:Risk-Averse Average Q-learning)と呼ばれるRSRL(Risk-Sensitive Reinforcement Learning)のアプローチを用いる。QLのように期待されるリターンを最大化することを目標とする伝統的なRL法と比較して、RSRLはリスクの概念を導入しており、そのリスクは、報酬の分散とリンクしている。RAQLは、更なる分散の減少を達成しており、それによりリスクを減少させる。
【0091】
伝統的なRLのように目的関数として期待報酬をとることに代えて、目的関数として下記のような報酬の期待効用(expected utility)を用いる。
【0092】
【数12】
上記の式(11)において、期待は、行動を選択するための確率論的ポリシーπ:S×A→[0,1]、及び、両インタフェースにわたるチャネル実現hにわたるものである。テイラー展開をとることにより下記の式(12)が得られる。
【0093】
【数13】
β<0により、分散が最小となりつつ期待報酬が最大化されるので、目的関数がリスク回避になる。
【0094】
なお、上記の式(11)、式(12)における記号の意味は下記のとおりである。
【0095】
Jπ:マルコフ決定過程における、ポリシーπによる平均効用関数(即時報酬rtの割引和)
Π:ポリシー(方策)
Eπ,h:ポリシーπ、無線チャネル(伝搬路等)の状態hの下での期待値
rt:過程tにおける即時報酬値
β:パラメータ
Var[]:[]の分散
O():()のオーダー
後述するように、本実施の形態では、式(22)を更新ルールとして使用することにより、複数Qテーブルを同時に学習する。そして、真の分散の近似として、これらQテーブルのサンプル分散が使用される。この分散から、リスク回避^Qテーブルが計算され、行動選択に使用される。
【0096】
(RAQLベースのインタフェース選択及びパケットスケジューリング法)
次に、本実施の形態においてAP(無線基地局100)が実行する、RAQLに基づくアルゴリズムを詳細に説明する。状態空間と行動空間は次のように定義される。
【0097】
状態:s(t)は、下記の式(13)、式(14)のとおり、フレームtにおける全てのデバイスk∈Κに対する、PLRの現在のQoS満足レベル、及び、フレームt-1に送信されたパケットに対する直近のACKフィードバックである。s(t)にACKフィードバックを含まないこととしてもよい。
【0098】
【0099】
【0100】
行動:a(t)は、各デバイスのパケットが送信されるべきインタフェース選択を示す。行動空間サイズの爆発を回避して、提案手法をスケーラブルにするために、次に説明するように、本実施の形態では、インタフェース選択タスクとパケットスケジューリングタスクを、デバイスkに対する3つの行動ak(t)に集約している。APは、即時CSIの知識を持たないが、散発的なフィードバックにより、平均パスロスあるいは平均SINRなどの長期CSIが既知であると仮定することは適切である。
【0101】
従って、各APは、各デバイスの平均CSIに基づいて、サブチャネル及びビーム割り当てを行うことができる。この場合、全てのサブチャネルは各デバイスにおいて同等であり、従って、APは各デバイスに割り当てられる各サブチャネルをランダムに選択することができる。そして、各APのスケジューリングタスクは、各デバイスにおけるサブチャネル毎に送信されるパケット数を決定することに相当する。フレーム長Tsの期間におけるAP bから送信されデバイスkにより正常に受信されるパケットの最大数は、下記の式(15)のように推定できる。
【0102】
【数16】
~r
bk
νは、インタフェースνにおけるデバイスkの既知の平均レートである。各行動a
k(t)は、下記のとおりである。
【0103】
ak(t)=0:Sub-6GHzインタフェースのみが使用され、送信パケット数は、
【0104】
【0105】
ak(t)=1:mmWaveインタフェースのみが使用され、送信パケット数は、
【0106】
【0107】
ak(t)=2:Sub-6GHzインタフェースとmmWaveインタフェースの両方が使用されるが、高データレートを利用して送信パケット数を最大化するようにmmWaveの優先度を高くする。
【0108】
【0109】
【数20】
最後に、サブチャネルとビームの数の制約の下で、全てのデバイスに対する行動a(t)が下記の式(20)のとおりに与えられる。
【0110】
【数21】
報酬:r(s(t),a(t))は、複数デバイスにわたる平均PSRにより与えられる、フレームtにおける行動a(t)の実行により達成される即時報酬を表す。特に、この報酬関数は、式(14)で規定されるリスク状態も考慮している。APが式(6)におけるΩ
k
ν(t)を取得するためのACK/NACKフィードバックに基づいて、報酬は下記の式(21)により計算される。
【0111】
【0112】
式(21)の各記号の意味は下記のとおりである。
【0113】
r(s(t),a(t)):過程tにおける即時報酬値
Ωk
sub(τ):Sub6GHのI/Fで送信が成功したパケット数
Ωk
mW(τ):ミリ波のI/Fで送信が成功したパケット数
lk
sub(τ):Sub6GHのI/Fで送信されるパケット数
lk
mW(τ):ミリ波のI/Fで送信されるパケット数
uk
sub(t):Sub6GHのI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
uk
mW(t):ミリ波のI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
式(14)から明らかなように、uk
ν(t)=0である場合、すなわち、デバイスkが、式(14)におけるPLRを満足しないリスク状態にある場合、報酬にはペナルティーが科せられる。
【0114】
なお、集約装置300を用いる場合、既に説明したとおり、集約装置300が、各無線基地局100からのフィードバック情報に基づいて、
図7に示す全体報酬を算出し、各無線基地局100に配信する。
【0115】
本実施の形態における、RAQLベースのインタフェース選択及びパケットスケジューリング方法は
図10に示すアルゴリズム1により実行される。つまり、無線基地局100は、例えばプログラムをCPUで実行することで本アルゴリズムを実行する。各記号の意味は下記のとおりである。
【0116】
ε:探索率
λ:減衰率
I:Qテーブルの枚数
λp:リスク制御パラメータ
Q:Qテーブル
V:Qテーブル更新回数
α:学習率
アルゴリズム1において、最初に、APは、状態sの下で各行動aの選択数をカウントするテーブルVとともにI個のQテーブルを初期化する。対応する学習率αもまた0に初期化され、ランダム状態からアルゴリズムが開始する(1~2行)。
【0117】
各フレームtにおいて、Qテーブルがランダムに選択され、後述する式(24)によりリスク回避^Qテーブルを計算するためにQテーブルが使用される(3~5行)。従来のQLと異なり、RAQLでは、Q関数を下記の式(22)により更新する。
【0118】
【数23】
式(22)における「x
0」は定数であり、例えばx
0=-1と設定される。α(s(t),a(t))は、状態行動ペア(s(t),a(t))の学習率であり、γは、減衰率であり、u(x)は、単調増加凹効用関数であり、以下で表される。
【0119】
【数24】
βは、Risk Averseな特性を持たすためのパラメータであり、ここではβ<0である。リスク回避^Qテーブルは、下記の式(24)により計算される。
【0120】
【数25】
λ
pは、リスクコントロールパラメータであり、
-Q(s,a)=(1/I)Σ
i=1
IQ
i(s,a)は平均Qテーブルである。
【0121】
次に、現在の状態と探索率εが与えられると、εグリーディー戦略により行動a(t)が選択される。APは、選択された行動に基づきパケットを送信し、即時報酬(式(21))を受け取る(6~9行)。そして、環境が新たな状態に遷移する(10~16行)。このプロセスが、フレームの最大数Tに達するまで繰り返される。
【0122】
なお、集約装置300を用いる場合、
図10のアルゴリズム1におけるrewardとして、
図7の全体報酬が用いられる。なお、rewardとして、全体報酬と、式(21)で計算される無線基地局100単独での報酬との両方を使用してもよい。
【0123】
(ハードウェア構成例)
集約装置300、無線基地局100、及び無線端末200はいずれも、例えば、コンピュータにプログラムを実行させることにより実現することも可能である。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、集約装置300、無線基地局100、及び無線端末200を総称して装置と呼ぶ。
【0124】
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0125】
図11は、上記コンピュータのハードウェア構成例を示す図である。
図11のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、通信装置において、表示装置1006を備えないこととしてもよい。
【0126】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0127】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0128】
(実施の形態の効果)
本実施の形態に係る技術により、強化学習によりスケジューリングを行う通信装置が複数存在する場合において、当該通信装置の学習における収束の速度、及び精度を向上させることが可能となる。
【0129】
(付記1)
本明細書には、少なくとも下記各項の通信装置、及び通信方法が開示されている。
(第1項)
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
(第2項)
前記強化学習部は、各無線インタフェースでの各無線端末のパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
第1項に記載の通信装置。
(第3項)
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
第2項に記載の通信装置。
(第4項)
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
第1項ないし第3項のうちいずれか1項に記載の通信装置。
(第5項)
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
第1項ないし第4項のうちいずれか1項に記載の通信装置。
(第6項)
第1項ないし第5項のうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。
(第7項)
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。
【0130】
(付記2)
更に、本明細書には、下記の集約装置、通信システム、通信方法、及び記憶媒体が開示されている。
(付記項1)
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、
前記全体報酬を、前記複数の通信装置に配信する情報配信部と
を備える集約装置。
(付記項2)
前記フィードバック情報は、リスク状態を表す指標、受信成功パケット数、及び送信パケット数を有する
付記項1に記載の集約装置。
(付記項3)
前記報酬計算部は、全デバイスの平均パケット受信成功率と、各無線インタフェースでのリスク状態によるペナルティーの、前記複数の通信装置についての総和を計算することにより前記全体報酬を算出する
付記項1又は2に記載に集約装置。
(付記項4)
付記項1ないし3のうちいずれか1項に記載の前記集約装置と、前記複数の通信装置とを含む通信システム。
(付記項5)
コンピュータが実行する通信方法であって、
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集ステップと、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算ステップと、
前記全体報酬を、前記複数の通信装置に配信する情報配信ステップと
を備える通信方法。
(付記項6)
コンピュータを、付記項1ないし3のうちいずれか1項に記載の集約装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
【0131】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0132】
100 無線基地局
101 アンテナ
110 通信I/F部
120 制御部
130 無線通信部
131 受信部
132 無線通信信号生成部
135 RF部
140 スケジューラ部
141 通信品質測定部
142 全体無線リソース割当算出部
143 個別無線リソース割当算出部
150 強化学習部
151 Qテーブル管理部
152 状態算出部
153 報酬算出部
154 リスク評価部
200 無線端末
300 集約装置
310 通信I/F部
320 情報収集部
330 報酬計算部
340 情報配信部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置