IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-117803通信装置、通信システム、及び通信方法
<>
  • 特開-通信装置、通信システム、及び通信方法 図1
  • 特開-通信装置、通信システム、及び通信方法 図2
  • 特開-通信装置、通信システム、及び通信方法 図3
  • 特開-通信装置、通信システム、及び通信方法 図4
  • 特開-通信装置、通信システム、及び通信方法 図5
  • 特開-通信装置、通信システム、及び通信方法 図6
  • 特開-通信装置、通信システム、及び通信方法 図7
  • 特開-通信装置、通信システム、及び通信方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023117803
(43)【公開日】2023-08-24
(54)【発明の名称】通信装置、通信システム、及び通信方法
(51)【国際特許分類】
   H04W 28/12 20090101AFI20230817BHJP
   H04W 28/06 20090101ALI20230817BHJP
【FI】
H04W28/12
H04W28/06
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022020561
(22)【出願日】2022-02-14
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】河村 憲一
(72)【発明者】
【氏名】村山 大輔
(72)【発明者】
【氏名】中平 俊朗
(72)【発明者】
【氏名】守山 貴庸
(72)【発明者】
【氏名】金子 めぐみ
(72)【発明者】
【氏名】ティハーリー ディン
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA11
5K067DD43
5K067EE02
5K067EE10
5K067EE56
(57)【要約】
【課題】環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供する。
【解決手段】複数の無線インタフェースを利用して無線通信を行う通信装置において、あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部とを備える。
【選択図】図5
【特許請求の範囲】
【請求項1】
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
【請求項2】
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
請求項1に記載の通信装置。
【請求項3】
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
請求項2に記載の通信装置。
【請求項4】
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
請求項1ないし3のうちいずれか1項に記載の通信装置。
【請求項5】
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
請求項1ないし4のうちいずれか1項に記載の通信装置。
【請求項6】
請求項1ないし5のうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。
【請求項7】
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無線通信システムにおけるパケットスケジューリングに関連するものである。。
【背景技術】
【0002】
現在、無線通信システムは発展し、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークになっている。セルラー通信では、第5世代移動通信(5G)が実用化され、1GHz以下の周波数から、ミリ波帯まで幅広い周波数が利用され、スモールセルからマクロセルまで様々なサイズのセルが重畳するように提供される世界になってきている。
【0003】
また、もう一つの代表的な無線アクセスシステムである無線LANでも、2.4/5/60GHz帯の無線周波数が利用されており、6GHz帯の利用も検討されている。スマートフォンなどの無線端末はセルラーと無線LANのアクセスに対応したI/Fを一般的に備え、またそれぞれのI/Fにおいて複数のバンドへの対応となっている。端末は複数の周波数、アクセス方式から接続する無線基地局を選択し、通信を行うことが一般的となってきており、デュアルコネクティビティなど、1台の端末が複数の基地局を統合利用することも行われる。
【0004】
このようなヘテロジニアス環境において、端末がどのI/Fでどの基地局を選択するかはシステム全体で制御し、最適化を図ることがシステムのリソースの有効利用に有効である。
【0005】
また、5Gの発展として、uRLLC(Ultra-Reliable and Low Latency Communications、超高信頼低遅延通信)等、従来の無線通信ではあまり使われていなかった超高信頼・超低遅延な用途に向けた通信機能の実現が目標とされている。
【0006】
高信頼性(低パケットロス)、低遅延性を実現するための従来技術の一つとして、複数の無線I/F、複数のバンドで冗長的に同一データを送信し、受信側で合成する手法(例えば非特許文献1)がある。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Cisco Parallel Redundancy Protocol Over Wireless https://www.cisco.com/c/ja_jp/td/docs/wireless/outdoor_industrial/iw3702/technote/b_prp_dg.html
【非特許文献2】Yue Gao, Kry Yik Chau Lui, Pablo Hernandez-Leal, "Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets," RL4RealLife Workshop in Int. Conf. on Machine Learning (ICML), 2021.
【発明の概要】
【発明が解決しようとする課題】
【0008】
非特許文献1の技術では、基本的に、求められるQoSレベルに応じて、固定的に冗長させる無線I/Fあるいはバンドを設定するため、必要以上に無線リソースを使用する場合があり、無線リソースの利用効率が悪い。また、環境の変化に応じて、柔軟に必要なリソース量を反映できない。
【0009】
本発明は上記の点に鑑みてなされたものであり、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
開示の技術によれば、複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置が提供される。
【発明の効果】
【0011】
開示の技術によれば、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術が提供される。
【図面の簡単な説明】
【0012】
図1】無線通信システムの構成例を示す図である。
図2】無線基地局(又は無線端末)の構成図である。
図3】無線基地局(又は無線端末)の構成図である。
図4】動作概要を示すフローチャートである。
図5】システムモデルを説明するための図である。
図6】強化学習を説明するための図である。
図7】アルゴリズム1を示す図である。
図8】装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0014】
(システム構成例)
図1に、本実施の形態における無線通信システムの構成例を示す。図1に示すように、本システムは、無線基地局100と、複数の無線端末200を含む。図1の例では、無線基地局100はインターネットに接続されている。
【0015】
本実施の形態では、後述する強化学習の手法により、複数の無線インタフェースを備える無線基地局100が、デバイス(無線端末)に送信するパケットについて、それを送信する無線インタフェース、及び、その無線インタフェースで送信するパケット数を決定して、送信を行う。なお、パケット数を決定することをパケットスケジューリングと呼んでもよい。ただし、本実施の形態に係る手法は、無線端末200においても適用することが可能である。無線基地局と無線端末を総称して通信装置と呼んでもよい。
【0016】
また、後述する具体例では、無線インタフェースをSub-6GHzとmmWaveの2種類として説明しているが無線インタフェースはこれらに限られない。また、「無線インタフェース」を、「周波数」であると解釈してもよい。つまり、本実施の形態は、複数周波数をアグリゲーションして使用する形態において、周波数の選択、及び、パケット数決定を後述する強化学習の手法により実現できる。
【0017】
図2に、無線基地局100の構成例を示す。無線端末200も図2に示す構成と同様の構成を備えることとしてよい。
【0018】
図2に示すように、無線基地局100は、通信I/F部110、制御部120、無線通信部130、アンテナ101を有する。
【0019】
無線通信部130は、スケジューラ部140、受信部131、無線通信信号生成部132、RF部135を備える。スケジューラ部140は、強化学習部150、通信品質測定部141、全体無線リソース割当算出部142、個別無線リソース割当算出部143を有する。「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」は、無線インタフェースの数だけ備えられる。ただし、「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」のうちのいずれかが、複数インタフェースで共有されてもよい。また、「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」を「無線インタフェース」と呼んでもよい。
【0020】
強化学習部150は、Qテーブル管理部151、状態算出部152、報酬算出部153、リスク評価部154を備える。各部の動作は下記のとおりである。
【0021】
通信I/F部110は、例えばインターネット等との通信を行う。制御部120は、例えば、CPUとメモリを備え、装置全体の制御を行う。無線通信部130は無線通信に係る動作を実行する。
【0022】
スケジューラ部140はパケットスケジューリング等を実行する。受信部131は他の通信装置からの信号(例:無線端末からのフィードバック)をアンテナ及びRF部を介して受信する。無線通信信号生成部132は、送信するパケットのデータから無線で送信する信号を生成する。RF部135は、信号を搬送波に乗せる等の処理を実行する。なお、スケジューラ部140はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0023】
通信品質測定部141は、例えば、送信パケット数と、通信相手からのフィードバック(例:ACK/NACK)に基づき、通信品質(例:パケットロス率)を測定する。なお、本実施の形態では、各デバイスからの瞬時のCSIフィードバック(ACK/NACK等)を得られないが、散発的なCSIフィードバックを得られる場合を想定しており、散発的なCSIフィードバックから通信品質の統計値(全デバイスにわたる平均値等)を取得することができる。
【0024】
全体無線リソース割当算出部142は、フレーム毎に強化学習部150が決定する行動に基づき、送信するパケット総数に対して、各無線インタフェースに割り当てる量を決定する。また、個別無線リソース割当算出部143は、フレーム毎に強化学習部150が決定する行動に基づき、該当する無線インタフェース(個別無線リソース割当算出部143に接続される無線インタフェース)における送信パケット数に対応する無線リソース量を決定する。
【0025】
なお、無線基地局100(又は無線端末200)を図3に示す構成で表すこともできる。図3に示すように、無線基地局100は、強化学習部10、送信部20、受信部30を有する。強化学習部10は強化学習部150と同様の処理を行う。送信部20は、送信に関する処理(例:送信リソース割当算出、パケット送信)、受信部30は、受信に関する処理(例:フィードバック受信、通信品質算出)を行う。
【0026】
(強化学習部150について)
本実施の形態では、無線基地局100(もしくは無線端末200)において、複数の無線インタフェース(もしくは複数の周波数)をアグリゲーションする構成を採用している。
【0027】
各無線インタフェースの送信パケットに対する無線リソースの割当を行うスケジューラ部140に強化学習部150を備えることで強化学習を適用(1)し、自律的に所望の通信品質を得るための最適な接続を学習して行うとともに、複数Qテーブルの並列更新(単独Qテーブルも含む)に基づくRisk-averse learning(リスク回避学習)手法(非特許文献2)(2)を用いることで、通信の信頼性を重視した行動選択を可能としている。
【0028】
上記の(1)の強化学習の適用について、本実施の形態では、状態s(t)を各無線インタフェースでのパケットロス率(ACKのフィードバックより検出)情報に基づくSatisfaction Level(満足レベル)とし、行動a(t)を各デバイス(送信元が無線基地局の場合は無線端末)に対して使用する無線インタフェースの組み合わせとパケットスケジューリング(各無線インタフェースで送信するパケット数)とする。本実施の形態では、Risk-Averse Average Q-learning(リスク回避平均化Q学習)により、状態s(t)から各デバイスに対する最適な行動a(t)を学習する。
【0029】
本実施の形態で想定されるuRLLCの場合,低遅延性を保つため瞬時のCSIフィードバックを利用できない。本実施の形態では、瞬時のチャネル状態が未知でも良好なRisk-averse学習ができるように無線インタフェース選択とパケットスケジューリング法を設計している。
【0030】
上記の(2)のRisk-averse learning(リスク回避学習)手法に関して、Risk-Averse Learningの、Risk(分散の大きさ)に反応する評価関数の概念を示す式(後述する式(11)、式(12))に、過去の報酬rの分散(リスク)に機敏に反応する項を入れることにより、高リスク行動に対する報酬の低下を反映させている。過去の報酬rの分散に反応して評価に反映する項とは、後述する式(12)(式(11)をテイラー展開した式)における2番目の項(Varがある項)である。
【0031】
後述する具体的において説明するとおり、本実施の形態では、瞬時報酬は全てのデバイスにわたる平均パケット受信成功率、及びリスク状態によるペナルティー(ex.信頼性・遅延等のQoSターゲットが未達成の状態)を反映する。
【0032】
図2に示す強化学習部150において、Qテーブル管理部151は、Qテーブルの保持、初期化、更新等を行う。状態算出部152は、状態s(t)を算出する。報酬算出部153は、s(t)、a(t)に対する報酬rを算出する。リスク評価部154は、Qテーブルに基づいて、評価関数を計算し、行動を選択する。なお、評価関数の計算は報酬算出部153が行ってもよい。
【0033】
ここで、強化学習に関連する無線基地局100の動作概要を図4のフローチャートを参照して説明する。
【0034】
S101において、状態算出部152が、各無線インタフェースでのパケットロス率(ACKのフィードバックより検出)情報に基づくSatisfaction Level(満足度レベル)を取得し、状態s(t)を計算する。
【0035】
S102において、リスク評価部154は、Qテーブル管理部151において管理されている複数Qテーブル(もしくは単独Qテーブル)に基づいて、ε-greedy法により行動aを決定する。
【0036】
S103において、強化学習部150は決定した行動aを、全体無線リソース割当算出部142、個別無線リソース割当算出部143等に通知することで、無線基地局100は、行動aを実行する。
【0037】
S104において、通信品質測定部141によりパケットロス情報が取得され、パケットロス情報は強化学習部150における報酬算出部153に渡される。
【0038】
S105において、報酬算出部153は報酬を算出する。S106において、Qテーブル管理部151は、複数Qテーブル(もしくは単独Qテーブル)の更新を行う。
【0039】
以下、本実施の形態における無線基地局100の動作(特に強化学習部150による動作)を、具体的な無線インタフェースを使用する例を用いてより詳細に説明する。
【0040】
(システムモデル)
本実施の形態では、図5に示すように、複数のデバイスを収容する複数のAPから構成される無線ネットワークにおけるダウンリンク(DL)送信を例にとって説明する。各APは、Sub‐6GHzおよびmmWave(ミリ波)インタフェースを備えているものとする。各APは、無線基地局100に相当する。デバイスは無線端末200に相当する。以下では、無線基地局100が本発明に係る強化学習の動作を行うものとして説明するが、無線端末200も同様の動作が可能である。
【0041】
図5に示すように、AP bはデバイスの集合Κに所望のパケットを送信する。また、デバイスの集合Κは、他の全てのAP b´≠bからDL干渉を受信する。
【0042】
各スケジューリングフレームtの開始において、AP bは各デバイスk∈KへのL(t)個のパケットを持つものとする。各パケットl∈L(t)は、dビットのサイズであり、デバイスk∈Kに送信されるものである。
【0043】
AP bは、Sub-6GHzインタフェース上のN個のサブチャネルと、mmWaveインタフェース上のM個のビームを介してこれらのパケットを送信する。各Sub-6GHzサブチャネル又は各mmWaveビームは、各スケジューリング時間フレームにおいて、あるユニークなデバイスに割り当てることができる。Sub-6GHzでは異なるサブチャネル、mmWaveでは異なるビームを介して、各フレームで複数のデバイスをサポートすることができる。
【0044】
Sub-6GHz帯では、サブチャネルnにおけるAP bからデバイスkに対する信号対干渉+雑音比(SINR)は、
【0045】
【数1】
と表される。ここで、AP bからデバイスkへのサブチャネルnにおける送信電力pbkn subは、サブチャネル間で等しいと仮定する。Wsubはサブチャネルあたりの帯域幅である。hbkn subの項は、サブチャネルn上のAP bとデバイスkとの間のチャネル電力(channel power)であり、hbkn sub(t)=|bkn sub(t)|で与えられる。なお、本明細書のテキストにおいて、記載の便宜上、文字の頭に記載する記号を文字の前に記載する場合がある。「h」はその例である。ここで、bkn sub(t)は、スモールスケールおよびラージスケールフェージング効果を含む複素チャネル係数である。σ は、加算性白色ガウス雑音(AWGN)電力を表す。Ibkn subは、APs b´≠bからデバイスkへのサブチャネルn上の干渉電力である。
【0046】
mmWaveインタフェースについてはアナログビームフォーミングを想定し、ビームm上でのAP bからデバイスkへの送信ビーム幅とビーム方向はそれぞれθbkm及びβbkmと表され、各ビームmにおける対象デバイスk及び時間フレームtに応じて調整される。
【0047】
単純化のために、一般性を損なうことなく、デバイスkにおける受信ビーム利得G Rxは固定であると想定する。得られるレートを最大化するために、θbkmは最も狭いビーム幅に設定され、βbkmはAP bからデバイスkへの視線(LoS)方向によって与えられる。したがって、AP bに収容されるデバイスkにおけるビームmのSINRは、次のように与えられる。
【0048】
【数2】
ここで、pbkm mW、hbkm mWは、それぞれ、ビームm上のAP bとデバイスkとの間の送信電力およびチャネル電力であり、Wmwは、帯域幅である。チャネル電力hbkm mWは、ビームm上の送信ビーム幅と方向の関数であり、下記のとおりである。
【0049】
【数3】
ここで、PLbkmは、ビームm上のAP bとデバイスkとの間のパスロスを示し、G(θbkm,βbkm)は、AP bとデバイスkとの間のメイン送信ビーム利得であり、下記のようにモデル化される。
【0050】
【数4】
ここでεはサイドローブビームゲインである。式(2)において、Ibkm mWは、全てのAPs b´≠bからAP bに収容されるデバイスkへの干渉電力であり、それらのサイドローブビーム利得に基づいて計算される。
【0051】
したがって、AP bに収容されるデバイスkの実現可能なレートは、次のとおりである。
【0052】
【数5】
ここで、ν={Sub,mW}(Sub 6GHzまたはmmWave)である。デバイスのアプリケーションの低遅延要件の下では、デバイスからAPsへの瞬時のCSIフィードバックは想定されない。従って、APsは達成可能なレート(式(5))を知ることなく割り当てを決定する必要がある。
【0053】
インタフェースνのフレームtにおけるデバイスkへの送信パケット数を、l ν(t)∈{0,…,L(t)}と表す。L(t)は、フレームtにおけるキューに入れられたパケットの総数であるので、l sub(t)+l mW(t)≦L(t)である。各インタフェース上において、デバイスkの正常に受信できたパケット数Ω ν(t)は、AP bによりデバイスkのACKフィードバックに基づいて下記のように計算できる。
【0054】
【数6】
ここで、ωkl ν(t)は、フレームtにおけるインタフェースν上のパケットlに対するデバイスkからのフィードバックを示し、下記のとおりである。
【0055】
【数7】
更に、期間Tのフレーム内において、インタフェースν上でデバイスkにより正常に受信されたサイズdビットのパケットの最大数は、
【0056】
【数8】
として与えられる。
【0057】
ここで、rbk ν(t)はAPにおいて未知なので、lk,max νは、APにおいて未知である。従って、l ν(t)≦lk,max ν(t)である場合、つまり、デバイスkの割り当てられたサブチャネル又はビームにおいて、送信パケットの数がデバイスkで受信し得るパケットの数よりも小さい場合において、これら全てのパケットは正常に受信され、それらのACKはAPにフィードバックされると想定する。しかし、l ν(t)≧lk,max ν(t)である場合、l ν(t)-lk,max ν(t)パケットはNACK状態になる。
【0058】
上記に基づいて、下記のとおり、フレームtまでのパケットロス発生を両インタフェースにわたって平均をとったものを、フレームtにおけるデバイスkのPLR(パケットロス率)と定義する。
【0059】
【数9】
ここで、
【0060】
【数10】
は、フレームτにおける両インタフェースにわたるパケット正常伝達レート(PSR:Packet Successful Delivery Rate)を示す。各インタフェースにおけるフレームtのデバイスkのPLRは下記のように更新される。
【0061】
【数11】
以下、本実施の形態に係る手法を詳細に説明する。
【0062】
(マルコフ決定過程(MDP)について)
ここでの目標は、各デバイスの個々のPLR制約を満たしながら、すべてのデバイスにわたって平均化された長期PSRを最大化(ここではρmax)することである。この問題は、図6に示すように、状態空間、行動空間、遷移確率および報酬関数によって特徴づけられるMDPとしてモデル化することができる。図5において、状態sは、全てのデバイスに対する、PLRの満足レベル(及びACKフィードバック状態)である。行動aは、全てのデバイスに対する、インタフェース選択及びパケットスケジューリングである。本実施の形態では、状態s(t)、行動a(t)を元に、報酬r(t)を得て、目的関数を最大化することで、行動の最適化を行う。
【0063】
各AP(無線基地局)はインタフェース選択及びパケットスケジューリングの決定を行うエージェントである。各フレームtにおいて、APは、現在の状態sを知っている。状態sは、当該APに関連するデバイスの現在のPLR満足レベルと前回のフレームt-1におけるそれらのフィードバック状態からなる。sに基づいて、APは行動aを取る。すなわち、APは、現在のフレームtにおける各デバイスの各インタフェースにおけるパケット数を決定し、環境から即時報酬rを取得し、新たな状態st+1に遷移する。
【0064】
即時のCSIやインタフェースの統計等の情報は未知なので、APは、遷移確率P(st+1|s,a)の知識を有していない。本実施の形態では、この問題をRL(強化学習)のフレームワークを用いて解決する。
【0065】
(リスク回避強化学習:Risk-Averse Reinforcement Learning)
厳しい信頼性の要求を最もよく満足させるために、本実施の形態では、リスク回避平均化Q学習(RAQL:Risk-Averse Average Q-learning)と呼ばれるRSRL(Risk-Sensitive Reinforcement Learning)のアプローチを用いる。QLのように期待されるリターンを最大化することを目標とする伝統的なRL法と比較して、RSRLはリスクの概念を導入しており、そのリスクは、報酬の分散とリンクしている。RAQLは、更なる分散の減少を達成しており、それによりリスクを減少させる。
【0066】
伝統的なRLのように目的関数として期待報酬をとることに代えて、目的関数として下記のような報酬の期待効用(expected utility)を用いる。
【0067】
【数12】
上記の式(11)において、期待は、行動を選択するための確率論的ポリシーπ:S×A→[0,1]、及び、両インタフェースにわたるチャネル実現hにわたるものである。テイラー展開をとることにより下記の式(12)が得られる。
【0068】
【数13】
β<0により、分散が最小となりつつ期待報酬が最大化されるので、目的関数がリスク回避になる。
【0069】
なお、上記の式(11)、式(12)における記号の意味は下記のとおりである。
【0070】
π:マルコフ決定過程における、ポリシーπによる平均効用関数(即時報酬rの割引和)
Π:ポリシー(方策)
π,h:ポリシーπ、無線チャネル(伝搬路等)の状態hの下での期待値
:過程tにおける即時報酬値
β:パラメータ
Var[]:[]の分散
O():()のオーダー
後述するように、本実施の形態では、式(22)を更新ルールとして使用することにより、複数Qテーブルを同時に学習する。そして、真の分散の近似として、これらQテーブルのサンプル分散が使用される。この分散から、リスク回避^Qテーブルが計算され、行動選択に使用される。
【0071】
(RAQLベースのインタフェース選択及びパケットスケジューリング法)
次に、本実施の形態においてAP(無線基地局100)が実行する、RAQLに基づくアルゴリズムを詳細に説明する。状態空間と行動空間は次のように定義される。
【0072】
状態:s(t)は、下記の式(13)、式(14)のとおり、フレームtにおける全てのデバイスk∈Κに対する、PLRの現在のQoS満足レベル、及び、フレームt-1に送信されたパケットに対する直近のACKフィードバックである。s(t)にACKフィードバックを含まないこととしてもよい。
【0073】
【数14】
ここで、
【0074】
【数15】
である。
【0075】
行動:a(t)は、各デバイスのパケットが送信されるべきインタフェース選択を示す。行動空間サイズの爆発を回避して、提案手法をスケーラブルにするために、次に説明するように、本実施の形態では、インタフェース選択タスクとパケットスケジューリングタスクを、デバイスkに対する3つの行動a(t)に集約している。APは、即時CSIの知識を持たないが、散発的なフィードバックにより、平均パスロスあるいは平均SINRなどの長期CSIが既知であると仮定することは適切である。
【0076】
従って、各APは、各デバイスの平均CSIに基づいて、サブチャネル及びビーム割り当てを行うことができる。この場合、全てのサブチャネルは各デバイスにおいて同等であり、従って、APは各デバイスに割り当てられる各サブチャネルをランダムに選択することができる。そして、各APのスケジューリングタスクは、各デバイスにおけるサブチャネル毎に送信されるパケット数を決定することに相当する。フレーム長Tの期間におけるAP bから送信されデバイスkにより正常に受信されるパケットの最大数は、下記の式(15)のように推定できる。
【0077】
【数16】
bk νは、インタフェースνにおけるデバイスkの既知の平均レートである。各行動a(t)は、下記のとおりである。
【0078】
(t)=0:Sub-6GHzインタフェースのみが使用され、送信パケット数は、
【0079】
【数17】
である。
【0080】
(t)=1:mmWaveインタフェースのみが使用され、送信パケット数は、
【0081】
【数18】
である。
【0082】
(t)=2:Sub-6GHzインタフェースとmmWaveインタフェースの両方が使用されるが、高データレートを利用して送信パケット数を最大化するようにmmWaveの優先度を高くする。
【0083】
【数19】
【0084】
【数20】
最後に、サブチャネルとビームの数の制約の下で、全てのデバイスに対する行動a(t)が下記の式(20)のとおりに与えられる。
【0085】
【数21】
報酬:r(s(t),a(t))は、複数デバイスにわたる平均PSRにより与えられる、フレームtにおける行動a(t)の実行により達成される即時報酬を表す。特に、この報酬関数は、式(14)で規定されるリスク状態も考慮している。APが式(6)におけるΩ ν(t)を取得するためのACK/NACKフィードバックに基づいて、報酬は下記の式(21)により計算される。
【0086】
【数22】
【0087】
式(21)の各記号の意味は下記のとおりである。
【0088】
r(s(t),a(t)):過程tにおける即時報酬値
Ω sub(τ):Sub6GHのI/Fで送信が成功したパケット数
Ω mW(τ):ミリ波のI/Fで送信が成功したパケット数
sub(τ):Sub6GHのI/Fで送信されるパケット数
mW(τ):ミリ波のI/Fで送信されるパケット数
sub(t):Sub6GHのI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
mW(t):ミリ波のI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
式(14)から明らかなように、u ν(t)=0である場合、すなわち、デバイスkが、式(14)におけるPLRを満足しないリスク状態にある場合、報酬にはペナルティーが科せられる。
【0089】
本実施の形態における、RAQLベースのインタフェース選択及びパケットスケジューリング方法は図7に示すアルゴリズム1により実行される。つまり、無線基地局100は、例えばプログラムをCPUで実行することで本アルゴリズムを実行する。各記号の意味は下記のとおりである。
【0090】
ε:探索率
λ:減衰率
I:Qテーブルの枚数
λ:リスク制御パラメータ
Q:Qテーブル
V:Qテーブル更新回数
α:学習率
アルゴリズム1において、最初に、APは、状態sの下で各行動aの選択数をカウントするテーブルVとともにI個のQテーブルを初期化する。対応する学習率αもまた0に初期化され、ランダム状態からアルゴリズムが開始する(1~2行)。
【0091】
各フレームtにおいて、Qテーブルがランダムに選択され、後述する式(24)によりリスク回避^Qテーブルを計算するためにQテーブルが使用される(3~5行)。従来のQLと異なり、RAQLでは、Q関数を下記の式(22)により更新する。
【0092】
【数23】
式(22)における「x」は定数であり、例えばx=-1と設定される。α(s(t),a(t))は、状態行動ペア(s(t),a(t))の学習率であり、γは、減衰率であり、u(x)は、単調増加凹効用関数であり、以下で表される。
【0093】
【数24】
βは、Risk Averseな特性を持たすためのパラメータであり、ここではβ<0である。リスク回避^Qテーブルは、下記の式(24)により計算される。
【0094】
【数25】
λは、リスクコントロールパラメータであり、Q(s,a)=(1/I)Σi=1 (s,a)は平均Qテーブルである。
【0095】
次に、現在の状態と探索率εが与えられると、εグリーディー戦略により行動a(t)が選択される。APは、選択された行動に基づきパケットを送信し、即時報酬(式(21))を受け取る(6~9行)。そして、環境が新たな状態に遷移する(10~16行)。このプロセスが、フレームの最大数Tに達するまで繰り返される。
【0096】
(ハードウェア構成例)
無線基地局100と無線端末200はいずれも、例えば、コンピュータにプログラムを実行させることにより実現することも可能である。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、無線基地局100と無線端末200を総称して通信装置と呼ぶ。
【0097】
すなわち、通信装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、通信装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0098】
図8は、上記コンピュータのハードウェア構成例を示す図である。図8のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、通信装置において、表示装置1006を備えないこととしてもよい。
【0099】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0100】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、通信装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0101】
(実施の形態の効果)
本実施の形態に係る技術により、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することができる。
【0102】
(付記)
本明細書には、少なくとも下記各項の通信装置、及び通信方法が開示されている。
(第1項)
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
(第2項)
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
第1項に記載の通信装置。
(第3項)
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
第2項に記載の通信装置。
(第4項)
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
第1項ないし第3項のうちいずれか1項に記載の通信装置。
(第5項)
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
第1項ないし第4項のうちいずれか1項に記載の通信装置。
(第6項)
第1項ないし第5項のうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。
(第7項)
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。
【0103】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0104】
100 無線基地局
101 アンテナ
110 通信I/F部
120 制御部
130 無線通信部
131 受信部
132 無線通信信号生成部
135 RF部
140 スケジューラ部
141 通信品質測定部
142 全体無線リソース割当算出部
143 個別無線リソース割当算出部
150 強化学習部
151 Qテーブル管理部
152 状態算出部
153 報酬算出部
154 リスク評価部
200 無線端末
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
図1
図2
図3
図4
図5
図6
図7
図8