特開2024-154278 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2024-154278集約装置、通信システム、通信方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024154278

(43)【公開日】2024-10-30

(54)【発明の名称】集約装置、通信システム、通信方法、及びプログラム

(51)【国際特許分類】

H04W 4/00 20180101AFI20241023BHJP

H04W 72/12 20230101ALI20241023BHJP

H04W 72/54 20230101ALI20241023BHJP

H04W 92/12 20090101ALI20241023BHJP

H04W 88/12 20090101ALI20241023BHJP

【ＦＩ】

H04W4/00 111

H04W72/12

H04W72/54

H04W92/12

H04W88/12

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023068024

(22)【出願日】2023-04-18

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】河村憲一

(72)【発明者】

【氏名】村山大輔

(72)【発明者】

【氏名】中平俊朗

(72)【発明者】

【氏名】守山貴庸

(72)【発明者】

【氏名】金子めぐみ

(72)【発明者】

【氏名】ティハーリーディン

【テーマコード（参考）】

5K067

【Ｆターム（参考）】

5K067AA23

5K067DD34

5K067DD57

5K067EE02

5K067EE10

5K067EE16

5K067EE23

5K067HH22

(57)【要約】

【課題】強化学習によりスケジューリングを行う通信装置において、学習における収束の速度、及び精度を向上させるための技術を提供する。
【解決手段】集約装置において、強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、前記全体報酬を、前記複数の通信装置に配信する情報配信部とを備える。
【選択図】図５

【特許請求の範囲】

【請求項1】

強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、
前記全体報酬を、前記複数の通信装置に配信する情報配信部と
を備える集約装置。

【請求項2】

前記フィードバック情報は、リスク状態を表す指標、受信成功パケット数、及び送信パケット数を有する
請求項１に記載の集約装置。

【請求項3】

前記報酬計算部は、全デバイスの平均パケット受信成功率と、各無線インタフェースでのリスク状態によるペナルティーの、前記複数の通信装置についての総和を計算することにより前記全体報酬を算出する
請求項１に記載に集約装置。

【請求項4】

請求項１ないし３のうちいずれか１項に記載の前記集約装置と、前記複数の通信装置とを含む通信システム。

【請求項5】

コンピュータが実行する通信方法であって、
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集ステップと、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算ステップと、
前記全体報酬を、前記複数の通信装置に配信する情報配信ステップと
を備える通信方法。

【請求項6】

コンピュータを、請求項１ないし３のうちいずれか１項に記載の集約装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、無線通信システムにおけるパケットスケジューリングに関連するものである。

【背景技術】

【0002】

現在、無線通信システムは発展し、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークになっている。セルラー通信では、第５世代移動通信（５Ｇ）が実用化され、１ＧＨｚ以下の周波数から、ミリ波帯まで幅広い周波数が利用され、スモールセルからマクロセルまで様々なサイズのセルが重畳するように提供される世界になってきている。

【0003】

また、もう一つの代表的な無線アクセスシステムである無線ＬＡＮでも、２．４／５／６０ＧＨｚ帯の無線周波数が利用されており、６ＧＨｚ帯の利用も検討されている。スマートフォンなどの無線端末はセルラーと無線ＬＡＮのアクセスに対応したＩ／Ｆを一般的に備え、またそれぞれのＩ／Ｆにおいて複数のバンドへの対応となっている。端末は複数の周波数、アクセス方式から接続する無線基地局を選択し、通信を行うことが一般的となってきており、デュアルコネクティビティなど、１台の端末が複数の基地局を統合利用することも行われる。

【0004】

このようなヘテロジニアス環境において、端末がどのＩ／Ｆでどの基地局を選択するかはシステム全体で制御し、最適化を図ることがシステムのリソースの有効利用に有効である。

【0005】

また、５Ｇの発展として、ｕＲＬＬＣ（Ultra-Reliable and Low Latency Communications、超高信頼低遅延通信）等、従来の無線通信ではあまり使われていなかった超高信頼・超低遅延な用途に向けた通信機能の実現が目標とされている。

【0006】

高信頼性（低パケットロス）、低遅延性を実現するための手段の一つとして、非特許文献１に開示されているように、強化学習を用いて送信パケットをより高信頼に送るための利用回線を最適化する手法がある。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】T. H. L. Dinh, M. Kaneko, K. Kawamura, T. Moriyama and Y. Takatori, "Improving Reliability by Risk-Averse Reinforcement Learning over Sub6GHz/mmWave Integrated Networks, " ICC 2022 - IEEE International Conference on Communications, 2022, pp. 3178-3183, doi: 10.1109/ICC45855.2022.9839175

【発明の概要】

【発明が解決しようとする課題】

【0008】

非特許文献１に開示された技術では、通信装置で強化学習により利用回線の最適化を行うことが可能である。しかし、複数の通信装置がある場合において、個々の通信装置は、周囲の通信装置の情報を得ることができないため、学習の収束に時間がかかり、学習の精度も劣化するという課題がある。なお、「通信装置」とは、例えば、無線基地局、又は、無線端末、又は、無線基地局と無線端末の両方である。

【0009】

本発明は上記の点に鑑みてなされたものであり、強化学習によりスケジューリングを行う通信装置において、学習における収束の速度、及び精度を向上させるための技術を提供することを目的とする。

【課題を解決するための手段】

【0010】

開示の技術によれば、強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、
前記全体報酬を、前記複数の通信装置に配信する情報配信部と
を備える集約装置が提供される。

【発明の効果】

【0011】

開示の技術によれば、強化学習によりスケジューリングを行う通信装置において、学習における収束の速度、及び精度を向上させることが可能となる。

【図面の簡単な説明】

【0012】

【図1】無線通信システムの構成例を示す図である。

【図2】無線基地局（又は無線端末）の構成図である。

【図3】無線基地局（又は無線端末）の構成図である。

【図4】動作概要を示すフローチャートである。

【図5】集約装置の構成図である。

【図6】集約装置に関わる動作を説明するためのシーケンス図である。

【図7】全体報酬の計算例を示す図である。

【図8】システムモデルを説明するための図である。

【図9】強化学習を説明するための図である。

【図10】アルゴリズム１を示す図である。

【図11】装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0014】

（システム構成例）
図１に、本実施の形態における無線通信システムの構成例を示す。図１に示すように、本システムは、複数の無線基地局１００、複数の無線端末２００、及び集約装置３００を含む。図１の例では、集約装置３００はインターネットに接続されている。

【0015】

なお、図１の例では、無線基地局１００が集約装置３００に接続されているが、無線端末２００が集約装置３００に接続されてもよい。また、無線基地局１００と無線端末２００の両方が集約装置３００に接続されてもよい。

【0016】

本実施の形態では、後述する強化学習の手法により、複数の無線インタフェースを備える無線基地局１００が、デバイス（無線端末）に送信するパケットについて、それを送信する無線インタフェース、及び、その無線インタフェースで送信するパケット数を決定して、送信を行う。なお、無線インタフェースの決定及びパケット数の決定をスケジューリングと呼んでもよい。

【0017】

本実施の形態に係る手法は、無線端末２００においても適用することが可能である。無線基地局と無線端末を総称して通信装置と呼んでもよい。集約装置３００に関わる動作については後述する。

【0018】

また、後述する具体例では、無線インタフェースをＳｕｂ－６ＧＨｚとｍｍＷａｖｅの２種類として説明しているが無線インタフェースはこれらに限られない。また、「無線インタフェース」を、「周波数」であると解釈してもよい。つまり、本実施の形態は、複数周波数をアグリゲーションして使用する形態において、周波数の選択、及び、パケット数決定を後述する強化学習の手法により実現できる。

【0019】

図２に、無線基地局１００の構成例を示す。無線端末２００も図２に示す構成と同様の構成を備えることとしてよい。

【0020】

図２に示すように、無線基地局１００は、通信Ｉ／Ｆ部１１０、制御部１２０、無線通信部１３０、アンテナ１０１を有する。

【0021】

無線通信部１３０は、スケジューラ部１４０、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５を備える。スケジューラ部１４０は、強化学習部１５０、通信品質測定部１４１、全体無線リソース割当算出部１４２、個別無線リソース割当算出部１４３を有する。「個別無線リソース割当算出部１４３、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５、アンテナ１０１」は、無線インタフェースの数だけ備えられる。ただし、「個別無線リソース割当算出部１４３、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５、アンテナ１０１」のうちのいずれかが、複数インタフェースで共有されてもよい。また、「個別無線リソース割当算出部１４３、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５、アンテナ１０１」を「無線インタフェース」と呼んでもよい。

【0022】

強化学習部１５０は、Ｑテーブル管理部１５１、状態算出部１５２、報酬算出部１５３、リスク評価部１５４を備える。各部の動作は下記のとおりである。

【0023】

通信Ｉ／Ｆ部１１０は、集約装置３００との通信を行う。制御部１２０は、例えば、ＣＰＵとメモリを備え、装置全体の制御を行う。無線通信部１３０は無線通信に係る動作を実行する。

【0024】

スケジューラ部１４０はパケットスケジューリング等を実行する。受信部１３１は他の通信装置からの信号（例：無線端末からのフィードバック）をアンテナ及びＲＦ部を介して受信する。無線通信信号生成部１３２は、送信するパケットのデータから無線で送信する信号を生成する。ＲＦ部１３５は、信号を搬送波に乗せる等の処理を実行する。なお、スケジューラ部１４０はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

【0025】

通信品質測定部１４１は、例えば、送信パケット数と、通信相手からのフィードバック（例：ＡＣＫ／ＮＡＣＫ）に基づき、通信品質（例：パケットロス率）を測定する。なお、本実施の形態では、各デバイスからの瞬時のＣＳＩフィードバック（ＡＣＫ／ＮＡＣＫ等）を得られず、散発的なＣＳＩフィードバックを得られる状況にも対応しており、散発的なＣＳＩフィードバックから通信品質の統計値（全デバイスにわたる平均値等）を取得することができる。

【0026】

全体無線リソース割当算出部１４２は、フレーム毎に強化学習部１５０が決定する行動に基づき、送信するパケット総数に対して、各無線インタフェースに割り当てる量を決定する。また、個別無線リソース割当算出部１４３は、フレーム毎に強化学習部１５０が決定する行動に基づき、該当する無線インタフェース（個別無線リソース割当算出部１４３に接続される無線インタフェース）における送信パケット数に対応する無線リソース量を決定する。

【0027】

なお、無線基地局１００（又は無線端末２００）を図３に示す構成で表すこともできる。図３に示すように、無線基地局１００は、強化学習部１０、送信部２０、受信部３０を有する。強化学習部１０は強化学習部１５０と同様の処理を行う。送信部２０は、送信に関する処理（例：送信リソース割当算出、パケット送信）、受信部３０は、受信に関する処理（例：フィードバック受信、通信品質算出）を行う。

【0028】

（強化学習部１５０について）
本実施の形態では、無線基地局１００（もしくは無線端末２００）において、複数の無線インタフェース（もしくは複数の周波数）をアグリゲーションする構成を採用している。

【0029】

各無線インタフェースの送信パケットに対する無線リソースの割当を行うスケジューラ部１４０に強化学習部１５０を備えることで強化学習を適用（１）し、自律的に所望の通信品質を得るための最適な接続を学習して行うとともに、複数Ｑテーブルの並列更新（単独Ｑテーブルも含む）に基づくRisk-averse learning（リスク回避学習）手法（非特許文献１）（２）を用いることで、通信の信頼性を重視した行動選択を可能としている。

【0030】

上記の（１）の強化学習の適用について、本実施の形態では、状態ｓ（ｔ）を各無線インタフェースでの各無線端末のパケットロス率（ＡＣＫのフィードバックより検出）情報に基づく各無線端末のSatisfaction Level（満足レベル）とし、行動ａ（ｔ）を各デバイス（送信元が無線基地局の場合は無線端末）に対して使用する無線インタフェースの組み合わせとパケットスケジューリング（各無線インタフェースで送信するパケット数）とする。本実施の形態では、Risk-Averse Average Q-learning（リスク回避平均化Ｑ学習）により、状態ｓ（ｔ）から各デバイスに対する最適な行動ａ（ｔ）を学習する。

【0031】

本実施の形態では例えばｕＲＬＬＣを使用することが想定される。その場合、低遅延性を保つため瞬時のＣＳＩフィードバックを利用できないことが考えられる。本実施の形態では、瞬時のチャネル状態が未知でも良好なRisk-averse学習ができるように無線インタフェース選択とパケットスケジューリング法を設計している。

【0032】

上記の（２）のRisk-averse learning（リスク回避学習）手法に関して、Risk-Averse Learningの、Risk(分散の大きさ)に反応する評価関数の概念を示す式（後述する式（１１）、式（１２））に、累積報酬sumｒの分散（リスク）に機敏に反応する項を入れることにより、高リスク行動に対する報酬の低下を反映させている。累積報酬sumｒの分散に反応して評価に反映する項とは、後述する式（１２）（式（１１）をテイラー展開した式）における２番目の項（Ｖａｒがある項）である。

【0033】

後述する具体的において説明するとおり、本実施の形態では、瞬時報酬は全てのデバイスにわたる平均パケット受信成功率、及びリスク状態によるペナルティー（ｅｘ．信頼性・遅延等のＱｏＳターゲットが未達成の状態）を反映する。

【0034】

また、本実施の形態では、集約装置３００が、複数の無線基地局１００（あるいは複数の無線端末２００）からのフィードバックに基づいて、上記の報酬として全体報酬を算出し、算出した全体報酬を複数の無線基地局１００（あるいは複数の無線端末２００）に送信する。

【0035】

図２に示す強化学習部１５０において、Ｑテーブル管理部１５１は、Ｑテーブルの保持、初期化、更新等を行う。状態算出部１５２は、状態ｓ（ｔ）を算出する。報酬算出部１５３は、フィードバック情報を集約装置３００に送信し、集約装置３００から全体報酬を受信する。なお、報酬算出部１５３は、自身でｓ（ｔ）、ａ（ｔ）に対する報酬ｒを算出することもできる。リスク評価部１５４は、Ｑテーブルに基づいて、評価関数を計算し、行動を選択する。なお、評価関数の計算は報酬算出部１５３が行ってもよい。

【0036】

ここで、強化学習に関連する無線基地局１００の動作概要を図４のフローチャートを参照して説明する。

【0037】

Ｓ１０１において、状態算出部１５２が、各無線インタフェースでの各無線端末のパケットロス率（ＡＣＫのフィードバックより検出）情報に基づく各無線端末のSatisfaction Level（満足度レベル）を取得し、状態ｓ（ｔ）を計算する。

【0038】

Ｓ１０２において、リスク評価部１５４は、Ｑテーブル管理部１５１において管理されている複数Ｑテーブル（もしくは単独Ｑテーブル）に基づいて、ε－ｇｒｅｅｄｙ法により行動ａを決定する。

【0039】

Ｓ１０３において、強化学習部１５０は決定した行動ａを、全体無線リソース割当算出部１４２、個別無線リソース割当算出部１４３等に通知することで、無線基地局１００は、行動ａを実行する。

【0040】

Ｓ１０４において、通信品質測定部１４１によりパケットロス情報が取得され、パケットロス情報は強化学習部１５０における報酬算出部１５３に渡される。

【0041】

Ｓ１０５において、報酬算出部１５３は、フィードバック情報を集約装置３００に送信し、集約装置３００から全体報酬を取得する。Ｓ１０６において、Ｑテーブル管理部１５１は、複数Ｑテーブル（もしくは単独Ｑテーブル）の更新を行う。

【0042】

（集約装置３００に関わる動作について）
以下では、一例として、図１に示したように、無線基地局１００が集約装置３００と接続される場合について説明するが、無線端末２００が集約装置３００と接続される場合においても、以下の無線基地局１００を無線端末２００に置き換えることで、以下の説明の動作（集約装置３００を使用する動作）を適用可能である。

【0043】

本実施の形態では、図１に示したとおり、無線基地局１００と通信可能である集約装置３００を配置する。各無線基地局１００は、上述した強化学習を用いて、複数の無線インタフェースに対するパケット送信のためのスケジューリングを実施する。

【0044】

各無線基地局１００は、強化学習で得られたフィードバック情報を集約装置３００に送信する。集約装置３００は、各無線基地局１００から受信したフィードバック情報をもとに全体報酬を算出し、算出した全体報酬を各無線基地局１００に送信する。

【0045】

各無線基地局１００は、集約装置３００から受信した全体報酬に基づいて複数Ｑテーブル（もしくは単独Ｑテーブル）を更新し、更新した複数Ｑテーブル（もしくは単独Ｑテーブル）を参照して行動を選択する。

【0046】

（集約装置３００の構成例）
図５に、集約装置３００の構成例を示す。図５に示すように、集約装置３００は、通信Ｉ／Ｆ部３１０、情報収集部３２０、報酬計算部３３０、情報配信部３４０を有する。

【0047】

通信Ｉ／Ｆ部３１０は、各無線基地局１００との間でデータ通信を行う。集約装置３００と無線基地局１００との間の通信方法は無線でもよいし、有線でもよい。

【0048】

情報収集部３２０は、通信Ｉ／Ｆ部３１０を介して、フィードバック情報を各無線基地局１００から収集する。情報配信部３４０は、通信Ｉ／Ｆ部３１０を介して、全体報酬を各無線基地局１００に配信する。報酬計算部３３０は、情報収集部３２０により収集したフィードバック情報に基づいて全体報酬を算出する。

【0049】

（システムの動作例）
続いて、図６のシーケンス図を参照して、本実施の形態に係る無線通信システムにおいて、集約装置３００を使用する場合の動作を説明する。図６に示すシーケンスは、予め定めた時間間隔（例えば、フレーム毎、あるいは、強化学習の実行周期）で実行される。また、実際には複数の無線基地局１００が存在するが、図６は１つの無線基地局１００のみを示している。各無線基地局１００について、図６に示す動作が実行される。

【0050】

また、図６では、例として、無線基地局１００が集約装置３００と通信する動作を示しているが、図６の無線基地局１００を無線端末２００に置き換えてもよい。つまり、無線端末２００が集約装置３００と通信する動作も図６に示す動作と同じである。

【0051】

＜Ｓ２０１＞
Ｓ２０１において、各無線基地局１００は、強化学習の手法により、スケジューリングを実施する。すなわち、各無線基地局１００は、各無線インタフェースのユーザ選択、及び各無線インタフェースの送信パケット数の決定を行う。

【0052】

ここでの強化学習の手法に基づくスケジューリング（行動の選択）においては、全体報酬に基づき更新された複数Ｑテーブル（又は単独Ｑテーブル）が使用される。

【0053】

＜Ｓ２０２＞
Ｓ２０２において、各無線基地局１００は、通信相手先（ここでは無線端末１００）からのフィードバック（ＡＣＫ／ＮＡＣＫ）に基づいて、リスク状態、受信成功パケット数、及び送信パケット数を算出し、これらをフィードバック情報として集約装置３００へ送信する。

【0054】

ここで、リスク状態、受信成功パケット数、及び送信パケット数をそれぞれ下記のように表す。なお、ここでの例は、後述するシステムモデル（Ｓｕｂ‐６ＧＨｚおよびｍｍＷａｖｅを使用するモデル）を想定したものである。

【0055】

リスク状態を表す指標：ｕ_ｋ ^ν（ｔ）
受信成功パケット数：Ω_ｋ ^ν（ｔ）
送信パケット数：ｌ_ｋ ^ν（ｔ）
ｋは端末（デバイス）を表し、νは無線インタフェース（Ｓｕｂ又はｍＷ）を表す。ｔは対象のフレームを示す。このとき、ｕ_ｋ ^ν（ｔ）は後述する式（１４）で決定される。式（１４）において、ρはパケットロス率であり、ρ_ｍａｘは要求パケットロス率である。

【0056】

各無線基地局１００は、無線端末毎、無線インタフェース毎の上記情報をフィードバック情報として集約装置３００に送信する。集約装置３００の情報収集部３２０は、各無線基地局１００から送信されたフィードバック情報を取得する。

【0057】

＜Ｓ２０３＞
Ｓ２０３において、集約装置３００の報酬計算部３３０が、各無線基地局１００から収集されたフィードバック情報を用いて、無線基地局１００全体の報酬である全体報酬を計算する。

【0058】

全体報酬は、例えば、図７に示す式で計算される。この式も、後述するシステムモデル（Ｓｕｂ‐６ＧＨｚおよびｍｍＷａｖｅを使用するモデル）を想定したものである。図７の式において、ｂは無線基地局を示す。

【0059】

図７に示すように、全体報酬ｒは、「全デバイスの平均パケット受信成功率と各無線ＩＦでのリスクステートによるペナルティー」の和の無線基地局についての総和のｔ時間における平均である。

【0060】

図７の例では、平均パケット受信成功率の計算において、行動を表すａにより場合分けしている。後述するように、このシステムモデルの例では、ａは０、１、２のうちのいずれかの値であり、ａが２以外の場合は図７のＡに示す値を用い、ａが２の場合はＢとＣのうちの大きいほうを用いる。

【0061】

＜Ｓ２０４＞
Ｓ２０４において、集約装置３００の情報配信部３４０は、Ｓ２０３で算出された全体報酬を各無線基地局１００に配信する。

【0062】

＜Ｓ２０５＞
Ｓ２０５において、各無線基地局１００は、本実施の形態における強化学習の手法により、集約装置３００から受信した全体報酬を用いて複数Ｑテーブル（又は単独Ｑテーブル）を更新する。

【0063】

＜Ｓ２０６＞
Ｓ２０６において、各無線基地局１００は、新しい状態を選択し、処理に反映させる。

【0064】

以下、本実施の形態における無線基地局１００の動作（特に強化学習部１５０による動作）を、具体的な無線インタフェースを使用する例を用いてより詳細に説明する。以下では、本システムモデルにおける強化学習の処理の説明を分かり易くするために、単独の無線基地局１００で報酬を計算する場合の動作例を示している。

【0065】

（システムモデル）
本実施の形態では、図８に示すように、複数のデバイスを収容する複数のＡＰから構成される無線ネットワークにおけるダウンリンク（ＤＬ）送信を例にとって説明する。各ＡＰは、Ｓｕｂ‐６ＧＨｚおよびｍｍＷａｖｅ（ミリ波）インタフェースを備えているものとする。各ＡＰは、無線基地局１００に相当する。デバイスは無線端末２００に相当する。以下では、無線基地局１００が本実施の形態に係る強化学習の動作を行うものとして説明するが、無線端末２００も同様の動作が可能である。

【0066】

図８に示すように、ＡＰｂはデバイスの集合Κに所望のパケットを送信する。また、デバイスの集合Κは、他の全てのＡＰｂ´≠ｂからＤＬ干渉を受信する。

【0067】

各スケジューリングフレームｔの開始において、ＡＰｂは各デバイスｋ∈ＫへのＬ_ｋ（ｔ）個のパケットを持つものとする。各パケットｌ∈Ｌ_ｋ（ｔ）は、ｄビットのサイズであり、デバイスｋ∈Ｋに送信されるものである。

【0068】

ＡＰｂは、Ｓｕｂ－６ＧＨｚインタフェース上のＮ個のサブチャネルと、ｍｍＷａｖｅインタフェース上のＭ個のビームを介してこれらのパケットを送信する。各Ｓｕｂ－６ＧＨｚサブチャネル又は各ｍｍＷａｖｅビームは、各スケジューリング時間フレームにおいて、あるユニークなデバイスに割り当てることができる。Ｓｕｂ－６ＧＨｚでは異なるサブチャネル、ｍｍＷａｖｅでは異なるビームを介して、各フレームで複数のデバイスをサポートすることができる。

【0069】

Ｓｕｂ－６ＧＨｚ帯では、サブチャネルｎにおけるＡＰｂからデバイスｋに対する信号対干渉＋雑音比（ＳＩＮＲ）は、

【0070】

【数1】

と表される。ここで、ＡＰｂからデバイスｋへのサブチャネルｎにおける送信電力ｐ_ｂｋｎ ^ｓｕｂは、サブチャネル間で等しいと仮定する。Ｗ_ｓｕｂはサブチャネルあたりの帯域幅である。ｈ_ｂｋｎ ^ｓｕｂの項は、サブチャネルｎ上のＡＰｂとデバイスｋとの間のチャネル電力（channel power）であり、ｈ_ｂｋｎ ^ｓｕｂ（ｔ）＝｜^～ｈ_ｂｋｎ ^ｓｕｂ（ｔ）｜^２で与えられる。なお、本明細書のテキストにおいて、記載の便宜上、文字の頭に記載する記号を文字の前に記載する場合がある。「^～ｈ」はその例である。ここで、^～ｈ_ｂｋｎ ^ｓｕｂ（ｔ）は、スモールスケールおよびラージスケールフェージング効果を含む複素チャネル係数である。σ_ｎ ^２は、加算性白色ガウス雑音（ＡＷＧＮ）電力を表す。Ｉ_ｂｋｎ ^ｓｕｂは、ＡＰｓｂ´≠ｂからデバイスｋへのサブチャネルｎ上の干渉電力である。

【0071】

ｍｍＷａｖｅインタフェースについてはアナログビームフォーミングを想定し、ビームｍ上でのＡＰｂからデバイスｋへの送信ビーム幅とビーム方向はそれぞれθ_ｂｋｍ及びβ_ｂｋｍと表され、各ビームｍにおける対象デバイスｋ及び時間フレームｔに応じて調整される。

【0072】

単純化のために、一般性を損なうことなく、デバイスｋにおける受信ビーム利得Ｇ_ｋ ^Ｒｘは固定であると想定する。得られるレートを最大化するために、θ_ｂｋｍは最も狭いビーム幅に設定され、β_ｂｋｍはＡＰｂからデバイスｋへの視線（ＬｏＳ）方向によって与えられる。したがって、ＡＰｂに収容されるデバイスｋにおけるビームｍのＳＩＮＲは、次のように与えられる。

【0073】

【数2】

ここで、ｐ_ｂｋｍ ^ｍＷ、ｈ_ｂｋｍ ^ｍＷは、それぞれ、ビームｍ上のＡＰｂとデバイスｋとの間の送信電力およびチャネル電力であり、Ｗ_ｍｗは、帯域幅である。チャネル電力ｈ_ｂｋｍ ^ｍＷは、ビームｍ上の送信ビーム幅と方向の関数であり、下記のとおりである。

【0074】

【数3】

ここで、ＰＬ_ｂｋｍは、ビームｍ上のＡＰｂとデバイスｋとの間のパスロスを示し、Ｇ_ｂ（θ_ｂｋｍ，β_ｂｋｍ）は、ＡＰｂとデバイスｋとの間のメイン送信ビーム利得であり、下記のようにモデル化される。

【0075】

【数4】

ここでεはサイドローブビームゲインである。式（２）において、Ｉ_ｂｋｍ ^ｍＷは、全てのＡＰｓｂ´≠ｂからＡＰｂに収容されるデバイスｋへの干渉電力であり、それらのサイドローブビーム利得に基づいて計算される。

【0076】

したがって、ＡＰｂに収容されるデバイスｋの実現可能なレートは、次のとおりである。

【0077】

【数5】

ここで、ν＝｛Ｓｕｂ，ｍＷ｝（Ｓｕｂ６ＧＨｚまたはｍｍＷａｖｅ）である。デバイスのアプリケーションの低遅延要件の下では、デバイスからＡＰｓへの瞬時のＣＳＩフィードバックは想定されない。従って、ＡＰｓは達成可能なレート（式（５））を知ることなく割り当てを決定する必要がある。

【0078】

インタフェースνのフレームｔにおけるデバイスｋへの送信パケット数を、ｌ_ｋ ^ν（ｔ）∈｛０，…，Ｌ_ｋ（ｔ）｝と表す。Ｌ_ｋ（ｔ）は、フレームｔにおけるキューに入れられたパケットの総数であるので、ｌ_ｋ ^ｓｕｂ（ｔ）＋ｌ_ｋ ^ｍＷ（ｔ）≦Ｌ_ｋ（ｔ）である。各インタフェース上において、デバイスｋの正常に受信できたパケット数Ω_ｋ ^ν（ｔ）は、ＡＰｂによりデバイスｋのＡＣＫフィードバックに基づいて下記のように計算できる。

【0079】

【数6】

ここで、ω_ｋｌ ^ν（ｔ）は、フレームｔにおけるインタフェースν上のパケットｌに対するデバイスｋからのフィードバックを示し、下記のとおりである。

【0080】

【数7】

更に、期間Ｔ_ｓのフレーム内において、インタフェースν上でデバイスｋにより正常に受信されたサイズｄビットのパケットの最大数は、

【0081】

【数8】

として与えられる。

【0082】

ここで、ｒ_ｂｋ ^ν（ｔ）はＡＰにおいて未知なので、ｌ_{ｋ，ｍａｘ} ^νは、ＡＰにおいて未知である。従って、ｌ_ｋ ^ν（ｔ）≦ｌ_{ｋ，ｍａｘ} ^ν（ｔ）である場合、つまり、デバイスｋの割り当てられたサブチャネル又はビームにおいて、送信パケットの数がデバイスｋで受信し得るパケットの数よりも小さい場合において、これら全てのパケットは正常に受信され、それらのＡＣＫはＡＰにフィードバックされると想定する。しかし、ｌ_ｋ ^ν（ｔ）≧ｌ_{ｋ，ｍａｘ} ^ν（ｔ）である場合、ｌ_ｋ ^ν（ｔ）－ｌ_{ｋ，ｍａｘ} ^ν（ｔ）パケットはＮＡＣＫ状態になる。

【0083】

上記に基づいて、下記のとおり、フレームｔまでのパケットロス発生を両インタフェースにわたって平均をとったものを、フレームｔにおけるデバイスｋのＰＬＲ（パケットロス率）と定義する。

【0084】

【数9】

ここで、

【0085】

【数10】

は、フレームτにおける両インタフェースにわたるパケット正常伝達レート（ＰＳＲ:Packet Successful Delivery Rate）を示す。各インタフェースにおけるフレームｔのデバイスｋのＰＬＲは下記のように更新される。

【0086】

【数11】

以下、本実施の形態に係る手法を詳細に説明する。

【0087】

（マルコフ決定過程（ＭＤＰ）について）
ここでの目標は、各デバイスの個々のＰＬＲ制約（ここではρ_ｍａｘ）を満たしながら、すべてのデバイスにわたって平均化された長期ＰＳＲを最大化することである。この問題は、図９に示すように、状態空間、行動空間、遷移確率および報酬関数によって特徴づけられるＭＤＰとしてモデル化することができる。図９において、状態ｓ_ｔは、全てのデバイスに対する、ＰＬＲの満足レベル（及びＡＣＫフィードバック状態）である。行動ａ_ｔは、全てのデバイスに対する、インタフェース選択及びパケットスケジューリングである。本実施の形態では、状態ｓ（ｔ）、行動ａ（ｔ）を元に、報酬ｒ（ｔ）を得て、目的関数を最大化することで、行動の最適化を行う。

【0088】

各ＡＰ（無線基地局）はインタフェース選択及びパケットスケジューリングの決定を行うエージェントである。各フレームｔにおいて、ＡＰは、現在の状態ｓ_ｔを知っている。状態ｓ_ｔは、当該ＡＰに関連するデバイスの現在のＰＬＲ満足レベルと前回のフレームｔ－１におけるそれらのフィードバック状態からなる。ｓ_ｔに基づいて、ＡＰは行動ａ_ｔを取る。すなわち、ＡＰは、現在のフレームｔにおける各デバイスの各インタフェースにおけるパケット数を決定し、環境から即時報酬ｒ_ｔを取得し、新たな状態ｓ_ｔ＋１に遷移する。

【0089】

即時のＣＳＩやインタフェースの統計等の情報は未知なので、ＡＰは、遷移確率Ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）の知識を有していない。本実施の形態では、この問題をＲＬ（強化学習）のフレームワークを用いて解決する。

【0090】

（リスク回避強化学習：Risk-Averse Reinforcement Learning）
厳しい信頼性の要求を最もよく満足させるために、本実施の形態では、リスク回避平均化Ｑ学習（ＲＡＱＬ：Risk-Averse Average Q-learning）と呼ばれるＲＳＲＬ（Risk-Sensitive Reinforcement Learning）のアプローチを用いる。ＱＬのように期待されるリターンを最大化することを目標とする伝統的なＲＬ法と比較して、ＲＳＲＬはリスクの概念を導入しており、そのリスクは、報酬の分散とリンクしている。ＲＡＱＬは、更なる分散の減少を達成しており、それによりリスクを減少させる。

【0091】

伝統的なＲＬのように目的関数として期待報酬をとることに代えて、目的関数として下記のような報酬の期待効用（expected utility）を用いる。

【0092】

【数12】

上記の式（１１）において、期待は、行動を選択するための確率論的ポリシーπ：Ｓ×Ａ→［０，１］、及び、両インタフェースにわたるチャネル実現ｈにわたるものである。テイラー展開をとることにより下記の式（１２）が得られる。

【0093】

【数13】

β＜０により、分散が最小となりつつ期待報酬が最大化されるので、目的関数がリスク回避になる。

【0094】

なお、上記の式（１１）、式（１２）における記号の意味は下記のとおりである。

【0095】

Ｊ_π：マルコフ決定過程における、ポリシーπによる平均効用関数（即時報酬ｒ_ｔの割引和）
Π：ポリシー（方策）
Ｅ_π，ｈ：ポリシーπ、無線チャネル（伝搬路等）の状態ｈの下での期待値
ｒ_ｔ：過程ｔにおける即時報酬値
β：パラメータ
Ｖａｒ［］：［］の分散
Ｏ（）：（）のオーダー
後述するように、本実施の形態では、式（２２）を更新ルールとして使用することにより、複数Ｑテーブルを同時に学習する。そして、真の分散の近似として、これらＱテーブルのサンプル分散が使用される。この分散から、リスク回避＾Ｑテーブルが計算され、行動選択に使用される。

【0096】

（ＲＡＱＬベースのインタフェース選択及びパケットスケジューリング法）
次に、本実施の形態においてＡＰ（無線基地局１００）が実行する、ＲＡＱＬに基づくアルゴリズムを詳細に説明する。状態空間と行動空間は次のように定義される。

【0097】

状態：ｓ（ｔ）は、下記の式（１３）、式（１４）のとおり、フレームｔにおける全てのデバイスｋ∈Κに対する、ＰＬＲの現在のＱｏＳ満足レベル、及び、フレームｔ－１に送信されたパケットに対する直近のＡＣＫフィードバックである。ｓ（ｔ）にＡＣＫフィードバックを含まないこととしてもよい。

【0098】

【数14】

ここで、

【0099】

【数15】

である。

【0100】

行動：ａ（ｔ）は、各デバイスのパケットが送信されるべきインタフェース選択を示す。行動空間サイズの爆発を回避して、提案手法をスケーラブルにするために、次に説明するように、本実施の形態では、インタフェース選択タスクとパケットスケジューリングタスクを、デバイスｋに対する３つの行動ａ_ｋ（ｔ）に集約している。ＡＰは、即時ＣＳＩの知識を持たないが、散発的なフィードバックにより、平均パスロスあるいは平均ＳＩＮＲなどの長期ＣＳＩが既知であると仮定することは適切である。

【0101】

従って、各ＡＰは、各デバイスの平均ＣＳＩに基づいて、サブチャネル及びビーム割り当てを行うことができる。この場合、全てのサブチャネルは各デバイスにおいて同等であり、従って、ＡＰは各デバイスに割り当てられる各サブチャネルをランダムに選択することができる。そして、各ＡＰのスケジューリングタスクは、各デバイスにおけるサブチャネル毎に送信されるパケット数を決定することに相当する。フレーム長Ｔ_ｓの期間におけるＡＰｂから送信されデバイスｋにより正常に受信されるパケットの最大数は、下記の式（１５）のように推定できる。

【0102】

【数16】

^～ｒ_ｂｋ ^νは、インタフェースνにおけるデバイスｋの既知の平均レートである。各行動ａ_ｋ（ｔ）は、下記のとおりである。

【0103】

ａ_ｋ（ｔ）＝０：Ｓｕｂ－６ＧＨｚインタフェースのみが使用され、送信パケット数は、

【0104】

【数17】

である。

【0105】

ａ_ｋ（ｔ）＝１：ｍｍＷａｖｅインタフェースのみが使用され、送信パケット数は、

【0106】

【数18】

である。

【0107】

ａ_ｋ（ｔ）＝２：Ｓｕｂ－６ＧＨｚインタフェースとｍｍＷａｖｅインタフェースの両方が使用されるが、高データレートを利用して送信パケット数を最大化するようにｍｍＷａｖｅの優先度を高くする。

【0108】

【数19】

【0109】

【数20】

最後に、サブチャネルとビームの数の制約の下で、全てのデバイスに対する行動ａ（ｔ）が下記の式（２０）のとおりに与えられる。

【0110】

【数21】

報酬：ｒ（ｓ（ｔ），ａ（ｔ））は、複数デバイスにわたる平均ＰＳＲにより与えられる、フレームｔにおける行動ａ（ｔ）の実行により達成される即時報酬を表す。特に、この報酬関数は、式（１４）で規定されるリスク状態も考慮している。ＡＰが式（６）におけるΩ_ｋ ^ν（ｔ）を取得するためのＡＣＫ／ＮＡＣＫフィードバックに基づいて、報酬は下記の式（２１）により計算される。

【0111】

【数22】

【0112】

式（２１）の各記号の意味は下記のとおりである。

【0113】

ｒ（ｓ（ｔ），ａ（ｔ））：過程ｔにおける即時報酬値
Ω_ｋ ^ｓｕｂ（τ）：Ｓｕｂ６ＧＨのＩ／Ｆで送信が成功したパケット数
Ω_ｋ ^ｍＷ（τ）：ミリ波のＩ／Ｆで送信が成功したパケット数
ｌ_ｋ ^ｓｕｂ（τ）：Ｓｕｂ６ＧＨのＩ／Ｆで送信されるパケット数
ｌ_ｋ ^ｍＷ（τ）：ミリ波のＩ／Ｆで送信されるパケット数
ｕ_ｋ ^ｓｕｂ（ｔ）：Ｓｕｂ６ＧＨのＩ／Ｆでのパケットロス率ρが要求品質ρ_ｍａｘに達しているかどうかで変わる変数
ｕ_ｋ ^ｍＷ（ｔ）：ミリ波のＩ／Ｆでのパケットロス率ρが要求品質ρ_ｍａｘに達しているかどうかで変わる変数
式（１４）から明らかなように、ｕ_ｋ ^ν（ｔ）＝０である場合、すなわち、デバイスｋが、式（１４）におけるＰＬＲを満足しないリスク状態にある場合、報酬にはペナルティーが科せられる。

【0114】

なお、集約装置３００を用いる場合、既に説明したとおり、集約装置３００が、各無線基地局１００からのフィードバック情報に基づいて、図７に示す全体報酬を算出し、各無線基地局１００に配信する。

【0115】

本実施の形態における、ＲＡＱＬベースのインタフェース選択及びパケットスケジューリング方法は図１０に示すアルゴリズム１により実行される。つまり、無線基地局１００は、例えばプログラムをＣＰＵで実行することで本アルゴリズムを実行する。各記号の意味は下記のとおりである。

【0116】

ε：探索率
λ：減衰率
Ｉ：Ｑテーブルの枚数
λ_ｐ：リスク制御パラメータ
Ｑ：Ｑテーブル
Ｖ：Ｑテーブル更新回数
α：学習率
アルゴリズム１において、最初に、ＡＰは、状態ｓの下で各行動ａの選択数をカウントするテーブルＶとともにＩ個のＱテーブルを初期化する。対応する学習率αもまた０に初期化され、ランダム状態からアルゴリズムが開始する（１～２行）。

【0117】

各フレームｔにおいて、Ｑテーブルがランダムに選択され、後述する式（２４）によりリスク回避＾Ｑテーブルを計算するためにＱテーブルが使用される（３～５行）。従来のＱＬと異なり、ＲＡＱＬでは、Ｑ関数を下記の式（２２）により更新する。

【0118】

【数23】

式（２２）における「ｘ_０」は定数であり、例えばｘ_０＝－１と設定される。α（ｓ（ｔ），ａ（ｔ））は、状態行動ペア（ｓ（ｔ），ａ（ｔ））の学習率であり、γは、減衰率であり、ｕ（ｘ）は、単調増加凹効用関数であり、以下で表される。

【0119】

【数24】

βは、Risk Averseな特性を持たすためのパラメータであり、ここではβ＜０である。リスク回避＾Ｑテーブルは、下記の式（２４）により計算される。

【0120】

【数25】

λ_ｐは、リスクコントロールパラメータであり、^－Ｑ（ｓ，ａ）＝（１／Ｉ）Σ_ｉ＝１ ^ＩＱ^ｉ（ｓ，ａ）は平均Ｑテーブルである。

【0121】

次に、現在の状態と探索率εが与えられると、εグリーディー戦略により行動ａ（ｔ）が選択される。ＡＰは、選択された行動に基づきパケットを送信し、即時報酬（式（２１））を受け取る（６～９行）。そして、環境が新たな状態に遷移する（１０～１６行）。このプロセスが、フレームの最大数Ｔに達するまで繰り返される。

【0122】

なお、集約装置３００を用いる場合、図１０のアルゴリズム１におけるrewardとして、図７の全体報酬が用いられる。なお、rewardとして、全体報酬と、式（２１）で計算される無線基地局１００単独での報酬との両方を使用してもよい。

【0123】

（ハードウェア構成例）
集約装置３００、無線基地局１００、及び無線端末２００はいずれも、例えば、コンピュータにプログラムを実行させることにより実現することも可能である。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、集約装置３００、無線基地局１００、及び無線端末２００を総称して装置と呼ぶ。

【0124】

すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0125】

図１１は、上記コンピュータのハードウェア構成例を示す図である。図１１のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。なお、通信装置において、表示装置１００６を備えないこととしてもよい。

【0126】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0127】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0128】

（実施の形態の効果）
本実施の形態に係る技術により、強化学習によりスケジューリングを行う通信装置が複数存在する場合において、当該通信装置の学習における収束の速度、及び精度を向上させることが可能となる。

【0129】

（付記１）
本明細書には、少なくとも下記各項の通信装置、及び通信方法が開示されている。
（第１項）
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
（第２項）
前記強化学習部は、各無線インタフェースでの各無線端末のパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
第１項に記載の通信装置。
（第３項）
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
第２項に記載の通信装置。
（第４項）
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、ＱｏＳ目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
第１項ないし第３項のうちいずれか１項に記載の通信装置。
（第５項）
前記通信装置は、第１無線インタフェースと、前記第１無線インタフェースよりも高いデータレートによる通信を行う第２無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第１無線インタフェースのみを使用、前記第２無線インタフェースのみを使用、及び、前記第２無線インタフェースを優先的に使用、の３つの行動のうちのいずれかの行動である
第１項ないし第４項のうちいずれか１項に記載の通信装置。
（第６項）
第１項ないし第５項のうちいずれか１項に記載の通信装置と、前記デバイスを含む通信システム。
（第７項）
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。

【0130】

（付記２）
更に、本明細書には、下記の集約装置、通信システム、通信方法、及び記憶媒体が開示されている。
（付記項１）
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集部と、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算部と、
前記全体報酬を、前記複数の通信装置に配信する情報配信部と
を備える集約装置。
（付記項２）
前記フィードバック情報は、リスク状態を表す指標、受信成功パケット数、及び送信パケット数を有する
付記項１に記載の集約装置。
（付記項３）
前記報酬計算部は、全デバイスの平均パケット受信成功率と、各無線インタフェースでのリスク状態によるペナルティーの、前記複数の通信装置についての総和を計算することにより前記全体報酬を算出する
付記項１又は２に記載に集約装置。
（付記項４）
付記項１ないし３のうちいずれか１項に記載の前記集約装置と、前記複数の通信装置とを含む通信システム。
（付記項５）
コンピュータが実行する通信方法であって、
強化学習を用いてスケジューリングを実行する複数の通信装置からフィードバック情報を収集する情報収集ステップと、
前記フィードバック情報を用いて、前記複数の通信装置についての全体報酬を算出する報酬計算ステップと、
前記全体報酬を、前記複数の通信装置に配信する情報配信ステップと
を備える通信方法。
（付記項６）
コンピュータを、付記項１ないし３のうちいずれか１項に記載の集約装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。

【0131】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0132】

１００無線基地局
１０１アンテナ
１１０通信Ｉ／Ｆ部
１２０制御部
１３０無線通信部
１３１受信部
１３２無線通信信号生成部
１３５ＲＦ部
１４０スケジューラ部
１４１通信品質測定部
１４２全体無線リソース割当算出部
１４３個別無線リソース割当算出部
１５０強化学習部
１５１Ｑテーブル管理部
１５２状態算出部
１５３報酬算出部
１５４リスク評価部
２００無線端末
３００集約装置
３１０通信Ｉ／Ｆ部
３２０情報収集部
３３０報酬計算部
３４０情報配信部
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

【図1】