IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-9997無線通信方法、無線端末および無線端末用プログラム
<>
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図1
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図2
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図3
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図4
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図5
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図6
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図7
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図8
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図9
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023009997
(43)【公開日】2023-01-20
(54)【発明の名称】無線通信方法、無線端末および無線端末用プログラム
(51)【国際特許分類】
   H04W 28/06 20090101AFI20230113BHJP
   H04W 72/0457 20230101ALI20230113BHJP
   H04W 16/32 20090101ALI20230113BHJP
   H04W 24/02 20090101ALI20230113BHJP
   H04W 48/16 20090101ALI20230113BHJP
   H04B 7/022 20170101ALI20230113BHJP
【FI】
H04W28/06 130
H04W72/04 111
H04W16/32
H04W24/02
H04W48/16 132
H04B7/022
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021113733
(22)【出願日】2021-07-08
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】若尾 佳佑
(72)【発明者】
【氏名】河村 憲一
(72)【発明者】
【氏名】守山 貴庸
(72)【発明者】
【氏名】金子 めぐみ
(72)【発明者】
【氏名】ティハーリー ディン
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA13
5K067AA23
5K067BB04
5K067BB21
5K067DD11
5K067DD17
5K067DD43
5K067DD45
5K067EE02
5K067EE10
5K067EE24
5K067EE56
5K067FF16
5K067HH22
5K067JJ12
5K067JJ13
5K067JJ37
(57)【要約】
【課題】この開示は、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得ることを目的とする。
【解決手段】複数の無線基地局と無線端末との接続の状態S(t)を、DLとULとを区別して検知する(ステップ100)。状態S(t)の下で無線端末が採り得る行動a(t)夫々の価値をDQNに出力させる(ステップ108)。行動a(t)の夫々は、何れの無線基地局に接続を要求するかをDLとULとを区別して定める。採用する行動a(t)を無線基地局に要求する(ステップ112)。要求に対する応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する(ステップ116、118)。報酬に基づいて行動a(t)の価値を更新し、更新後の価値に基づいてDQNのパラメータを学習する(ステップ122)。
【選択図】図10
【特許請求の範囲】
【請求項1】
複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
前記複数の無線基地局と前記無線端末との接続の状態を、DLの通信とULの通信とを区別して検知するステップと、
前記状態を価値関数に入力するステップと、
前記状態の下で前記無線端末が採り得る行動の夫々の価値を前記価値関数が出力し、当該行動の夫々は、何れの無線基地局に接続を要求するかをDLの通信とULの通信とを区別して定めたものであるステップと、
採用する行動に対応する要求を無線基地局に伝達するステップと、
前記要求に対する応答を前記無線基地局から取得するステップと、
前記応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する報酬算出ステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
を含む無線通信方法。
【請求項2】
前記複数の無線基地局の少なくとも一部は、互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記無線端末は、前記複数の無線通信用のインターフェースを有し、
前記状態は、前記無線端末が、どの無線基地局と、どのインターフェースで、DLとULの何れで接続しているかの情報を含み、
前記行動は、前記無線端末のどのインターフェースを、どの無線基地局に、DLとULの何れで接続させるかの情報を含む請求項1に記載の無線通信方法。
【請求項3】
前記報酬算出ステップは、
前記無線端末が要求するDLの通信に関するSINRを算出するステップと、
DLに関する前記SINRに基づいて、DLの通信で得られた伝送レートを算出するステップと、
前記無線端末が要求するULの通信におけるSINRを算出するステップと、
ULに関する前記SINRに基づいて、ULの通信で得られた伝送レートを算出するステップと、
DLに関する前記伝送レートと、ULに関する前記伝送レートとに基づて前記報酬を算出するステップと、
を含む請求項1または2に記載の無線通信方法。
【請求項4】
前記価値関数は、Deep Q-NetworkまたはDouble Deep Q-Networkである請求項1乃至3の何れか1項に記載の無線通信方法。
【請求項5】
複数の無線基地局と接続する機能を有する無線端末であって、
CPUとを備え、
前記CPUが、
前記複数の無線基地局と前記無線端末との接続の状態を、DLの通信とULの通信とを区別して検知する処理と、
前記状態を価値関数に入力する処理と、
前記状態の下で前記無線端末が採り得る行動の夫々の価値を前記価値関数を用いて算出し、当該行動の夫々は、何れの無線基地局に接続を要求するかをDLの通信とULの通信とを区別して定めたものである処理と、
採用する行動に対応する要求を無線基地局に伝達する処理と、
前記要求に対する応答を無線基地局から取得する処理と、
前記応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する報酬算出処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
を実行する無線端末。
【請求項6】
前記複数の無線基地局の少なくとも一部は、互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記無線端末は、前記複数の無線通信用のインターフェースを有し、
前記状態は、前記無線端末が、どの無線基地局と、どのインターフェースで、DLとULの何れで接続しているかの情報を含み、
前記行動は、前記無線端末のどのインターフェースを、どの無線基地局に、DLとULの何れで接続させるかの情報を含む請求項5に記載の無線端末。
【請求項7】
前記報酬算出処理は、
前記無線端末が要求するDLの通信に関するSINRを算出する処理と、
DLに関する前記SINRに基づいて、DLの通信で得られた伝送レートを算出する処理と、
前記無線端末が要求するULの通信に関するSINRを算出する処理と、
ULに関する前記SINRに基づいて、ULの通信で得られた伝送レートを算出する処理と、
DLに関する前記伝送レートと、ULに関する前記伝送レートとに基づいて前記報酬を算出する処理と、
を含む請求項5または6に記載の無線端末。
【請求項8】
複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるCPUに、
前記複数の無線基地局と前記無線端末との接続の状態を、DLの通信とULの通信とを区別して検知する処理と、
前記状態を価値関数に入力する処理と、
前記状態の下で前記無線端末が採り得る行動の夫々の価値を前記価値関数を用いて算出し、当該行動の夫々は、何れの無線基地局に接続を要求するかをDLの通信とULの通信とを区別して定めたものである処理と、
採用する行動に対応する要求を無線基地局に伝達する処理と、
前記要求に対する応答を無線基地局から取得する処理と、
前記応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する報酬算出処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
を実行させるプログラムを含む無線端末用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、無線通信方法、無線端末および無線端末用プログラムに係り、特に、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて、高い通信効率を得る上で好適な無線通信方法、無線端末および無線端末用プログラムに関する。
【背景技術】
【0002】
無線通信システムの発展に伴い、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークが実用化の段階に至っている。セルラー通信では、第5世代移動通信(5G)が実用化されている。5Gの通信システムでは、1GHz以下の帯域からミリ波帯まで幅広い周波数が利用される。また、スモールセルからマクロセルまで、様々なサイズのセルが重畳するように提供される環境が整備されつつある。
【0003】
もう一つの代表的な無線アクセスシステムである無線LANでは、2.4/5/60GHz帯の無線周波数が利用されており、更に、6GHz帯の利用も検討されている。スマートフォンなどの無線端末には、セルラーおよび無線LANの双方にアクセスするためのインターフェース(IF)が一般的に与えられている。また、それぞれのIFは複数の周波数帯に対応するように構成されている。
【0004】
無線端末は、複数の周波数帯およびアクセス方式から、接続する無線基地局或いはアクセスポイント(AP)を選択して、通信を確立することが一般的となっている。デュアルコネクティビティ等の機能により、1台の無線端末が複数の無線基地局を統合して利用することも行われる。このようなヘテロジニアス環境においては、無線端末がどのIFを用いてどの基地局を選択するかを、システム全体で制御し最適化することが、システムリソースを有効に利用するうえで重要である。
【0005】
ヘテロジニアスな環境において、システムリソースを有効に利用する技術に関して、例えば下記非特許文献1や非特許文献2は、無線端末とAPとの接続を、強化学習により最適化する手法を開示している。より具体的には、非特許文献2は、Deep Q-Learning、或いはDouble Deep Q-Learningの手法を用いて、複数のIFを用いる無線端末と複数のAPとの接続を最適化する技術を開示している。
【0006】
また、下記非特許文献3は高次元の入力を強化学習で取り扱う手法であるDeep Q-Network(DQN)についての開示を、また、下記非特許文献4はDouble Deep Q-Network(DDQN)についての開示を夫々提供している。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】“Reinforcement Learning-aided Distributed User-to-Access Points Association in Interfering Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Hirantha Abeysekera, Yasushi Takatori, IEEE Globecom, Waikoloa, Hawaii, USA, Dec. 2019
【非特許文献2】“Deep Reinforcement Learning-based User Association in Sub6GHz/mmWave Integrated Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Kenichi Kawamura, Takatsune Moriyama, Hirantha Abeysekera and Yasushi Takatori, in IEEE CCNC, Jan. 2021
【非特許文献3】“Human-level control through deep reinforcement learning,”Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves,Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou,Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis, Nature. 2015 Feb 26; Vol.518(7540): P529-533. doi: 10.1038/nature14236
【非特許文献4】“Deep Reinforcement Learning with Double Q-Learning,” H. Van Hasselt, A. Guez, and D. Silver, in Thirtieth AAAI conference on artificial intelligence, 2016
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した非特許文献1は、下記の手順でDQNを更新する手法を開示している。
1.無線端末が、どの無線基地局に接続を求めるかが「行動a(t)」となる。
2.無線端末がある行動a(t)を選択した場合、その結果として、無線基地局からどの程度の伝送データレートを獲得できたか、に基づいて報酬Γ(t)が計算される。
3.DQNは、ある状態S(t)の下で取り得る行動a(t)の夫々について、採用の価値を算出するために用いられる。
4.ある状態S(t)の下である行動a(t)が選択され、その結果報酬Γ(t)が得られた場合に、そのΓ(t)に基づいて、その状態S(t)の下でその行動a(t)を選択することについての「価値」が更新される。
5.同じ(S(t)、a(t))の組み合わせに対して、DQNが算出する「価値」が更新後の値となるように、DQNを特徴付けるパラメータθが更新される。
【0009】
このような学習の手法によれば、複数の無線基地局が複数の無線端末に提供する伝送レートが最適化されるように、両者の接続が決定できる。このため、上記の学習手法は、無線通信システムのリソースを有効に活用するうえで有用である。
【0010】
しかしながら、無線基地局と無線端末との間では、前者から後者に向かうダウンリンク(DL)の通信の他に、後者から前者に向かうアップリング(UL)の通信も行われる。上述した非特許文献1または2に記載の技術を含めて、従来の学習手法では、一般にDLの通信だけを考慮して接続の最適化が図られる。そして、上記の学習手法のようにDLの通信だけを考慮して最適化を図る技術では、DLとULの双方を最適化することができないことがある。
【0011】
本開示は、上記の課題に着目してなされたものであり、複数の無線端末と複数の基地局等とを含むネットワークにおいて、DLとULの双方を最適化することのできる無線通信方法、無線端末および無線端末用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本開示の第1の態様は、上記の目的を達成するため、複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
前記複数の無線基地局と前記無線端末との接続の状態を、DLの通信とULの通信とを区別して検知するステップと、
前記状態を価値関数に入力するステップと、
前記状態の下で前記無線端末が採り得る行動の夫々の価値を前記価値関数が出力し、当該行動の夫々は、何れの無線基地局に接続を要求するかをDLの通信とULの通信とを区別して定めたものであるステップと、
採用する行動に対応する要求を無線基地局に伝達するステップと、
前記要求に対する応答を前記無線基地局から取得するステップと、
前記応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する報酬算出ステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
を含むことが望ましい。
【0013】
また、本開示の第2の態様は、複数の無線基地局と接続する機能を有する無線端末であって、
CPUを備え、
前記CPUが、
前記複数の無線基地局と前記無線端末との接続の状態を、DLの通信とULの通信とを区別して検知する処理と、
前記状態を価値関数に入力する処理と、
前記状態の下で前記無線端末が採り得る行動の夫々の価値を前記価値関数を用いて算出し、当該行動の夫々は、何れの無線基地局に接続を要求するかをDLの通信とULの通信とを区別して定めたものである処理と、
採用する行動に対応する要求を無線基地局に伝達する処理と、
前記要求に対する応答を無線基地局から取得する処理と、
前記応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する報酬算出処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
を実行することが望ましい。
【0014】
また、本開示の第3の態様は、複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるCPUに、
前記複数の無線基地局と前記無線端末との接続の状態を、DLの通信とULの通信とを区別して検知する処理と、
前記状態を価値関数に入力する処理と、
前記状態の下で前記無線端末が採り得る行動の夫々の価値を前記価値関数を用いて算出し、当該行動の夫々は、何れの無線基地局に接続を要求するかをDLの通信とULの通信とを区別して定めたものである処理と、
採用する行動に対応する要求を無線基地局に伝達する処理と、
前記要求に対する応答を無線基地局から取得する処理と、
前記応答に基づいて、DLに関わる評価とULに関わる評価とが共に反映された報酬を算出する報酬算出処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
を実行させるプログラムを含むことが望ましい。
【発明の効果】
【0015】
本開示によれば、無線端末が、ある状態の下で選択した行動に対する報酬に、DLに関する評価とULに関する評価の双方が反映される。そして、ある状態の下での最適な行動を示す評価関数のパラメータが、その報酬に基づいて学習される。このような学習によれば、DLとULの双方が総合的に最適化されるように価値関数を収束させることができる。このため、本開示によれば、DLとULとが混在するヘテロジニアスな環境下で、双方向の通信を総合的に最適化することができる。
【図面の簡単な説明】
【0016】
図1】本開示の実施の形態1の無線通信システムの全体構成を説明するための図である。
図2】本開示の実施の形態1における無線端末と無線基地局との接続状態の一例を説明するための図である。
図3】本開示の実施の形態1におけるヘテロジニアスな環境下で、sub6GHz帯およびミリ波帯の全てがダウンリンクの通信に用いられている様子を示す図である。
図4図3に示す環境下で、ミリ波帯の一部がアップリンクの通信に用いられている様子を示す図である。
図5】本開示の実施の形態1で用いられる無線基地局の機能的な構成を説明するためのブロック図である。
図6】本開示の実施の形態1で用いられる無線端末の機能的な構成を説明するためのブロック図である。
図7】本開示の実施の形態1で用いられる無線端末のハードウェア構成を説明するための図である。
図8】本開示の実施の形態1で用いられるDQNの概要を説明するための図である。
図9】本開示の実施の形態1で用いられるDQNの更新に関わる処理の内容を説明するための図である。
図10】本開示の実施の形態1における無線端末が、最適な接続状態を実現するために実行する処理の流れを説明するためのフローチャートである。
【発明を実施するための形態】
【0017】
実施の形態1.
[実施の形態1の全体構成]
図1は、本開示の実施の形態1の無線通信システム10の全体構成を説明するための図である。図1に示すように、無線通信システム10は、有線通信のネットワーク12を含んでいる。ネットワーク12には、スイッチ14を介して複数の無線基地局16が接続されている。無線基地局16は、ネットワーク12を介して、また無線の経路を介して、他の無線基地局16と通信することができる。
【0018】
図1に示す無線通信システム10は、複数の無線端末18を含んでいる。本実施形態において、無線端末18は、スマートフォン、或いはタブレット端末のようなモバイル端末を含んでいるものとする。
【0019】
無線端末18は、夫々、無線通信用のアプリケーションとIFを、複数組み備えている。例えば、無線端末18は、6GHz以下の帯域(以下、「sub6GHz」とする)での通信に用いるアプリケーション並びにIF、ミリ波の帯域(以下、「mmWave」とする)での通信に用いるアプリケーション並びにIFを備えている。更には、無線LANで用いられる2.4/5/60GHz帯での通信に用いるアプリケーション並びにIFが備わっていても良い。
【0020】
上述した無線基地局16にも、それらに対応するIF等が備わっている。そして、個々の無線端末18は、上記のアプリケーションおよびIFを介して、単一または複数の無線基地局16と無線で通信することができる。これにより、本実施形態の無線通信システム10は、マルチバンド・マルチアクセスによるヘテロジニアスなネットワークとしての機能を実現する。
【0021】
また、本実施形態において、無線端末18は、通信に用いる接続を、ダウンリンク(DL)およびアップリンク(UL)毎に管理する。より具体的には、無線端末18は、複数のアプリケーションの夫々と、使用するIF並びに帰属先の無線基地局16との対応関係を、DLとULを区別して管理する。
【0022】
一方、無線基地局16は、アプリケーション毎に、無線端末18からのDLの接続要求およびULの接続要求を判断し、その可否についての応答をフィードバックする。そして、無線端末18は、受信した応答に基づいて、DLで得られた結果、およびULで得られた結果の全てを考慮して、今回要求した接続の組み合わせに対する報酬Γを計算する。
【0023】
尚、本実施形態の無線通信システム10は、通信事業者が設置するセルラー通信用の無線基地局に加えて、無線LANのアクセスポイント(AP)にも対応していてもよい。以下、便宜上「無線基地局16」は両者を包括するものとして説明を進める。
【0024】
[実施の形態1の課題]
次に、図2乃至図12を参照して、本実施形態における無線端末18の特徴を説明する。以下の説明では、無線基地局16および無線端末18が、第一の周波数帯域での通信に対応するインターフェースIF1と、第二の周波数帯域での通信に対応するインターフェースIF2を備えていることとする。IF1は、例えば、sub6GHzに対応するインターフェースであり、IF2は、例えば、mmWaveに対応するインターフェースである。
【0025】
また、以下の説明では、無線端末18を複数の中の特定の一台として指し示す必要がある場合は、「無線端末18」のように、k等の文字を含む符号を用いる。更に、複数の無線基地局16の夫々を区別して説明する必要がある場合は、16-1、16-2のように添え字を付した符号を用いることとする。
【0026】
図2は、無線端末18が、二台の無線基地局16-1、16-2に帰属している様子を示している。無線端末18および無線基地局16は、上記の通り、異なる帯域に対応する二つのインターフェース、IF1およびIF2を備えている。図2に示す例では、無線端末18が、IF1で第一の無線基地局16-1に帰属し、IF2で第二の無線基地局16-2に帰属する状態が形成されている。
【0027】
図3は、マルチバンド・マルチアクセスによるヘテロジニアスな環境下に、四台の無線基地局16-1~16-4と、三台の無線端末18i、18、18が存在する様子を示している。図2に示す場合と同様に、それらは何れも、sub6GHzに対応するIF1と、mmWaveに対応するIF2を備えている。
【0028】
sub6GHzの通信波は、障害物を回り込む性質が強く、広い範囲の通信エリアを確保するのに適している。図3において、無線基地局16-1~16-4の夫々を取り巻くように描かれている楕円のエリアは、無線基地局16-1~16-4の夫々が、sub6GHzに対応するIF1を用いることで実現する通信エリアを示している。
【0029】
mmWaveの通信波は、直進性が強く、sub6GHzのように広いエリアをカバーするのには不適であるが、高速で大容量の通信を実現するのに適している。図3において、無線基地局16-2と無線端末18との間を含む三か所に、矢印を包含する楕円が描かれている。これらの楕円は、ビームフォーミングされた波形の向きと幅を表している。
【0030】
図3に示す例では、無線端末18、18、18の全てを、DLの通信で無線基地局16-1~16-4に接続させることが想定されている。この想定によれば、無線端末18、18、18の夫々が、複数の無線基地局16から受け取るデータの伝送レートが最大となるように接続先を決めることで、システム容量は最大化することができる。しかしながら、本実施形態の無線通信システム10では、ULの通信が用いられる場合がある。
【0031】
図4は、無線端末18のIF2が、無線基地局16-2とのULの通信に用いられている様子を示している。図4に示すようにDLの通信とULの通信とが混在する環境下では、DLの通信だけを評価の対象とする最適化では、システム容量が最大化できない事態が生ずる。そこで、本実施形態では、DLの通信とULの通信とを区別して、その双方を評価の対象として接続の最適化を図ることとした。
【0032】
[無線基地局の構成]
図5は、無線基地局16の一例を機能的に説明するためのブロック図である。無線基地局16は、アンテナ部20を備えている。アンテナ部20は、無線基地局16が、他の無線基地局16並びに周囲の無線端末18と無線信号を授受するために用いられる。
【0033】
アンテナ部20は、無線通信部22に接続されている。無線通信部22は、高周波の信号を処理するRF(Radio Frequency)部24と、無線通信におけるメディアアクセス制御の機能を備えたMAC(Media Access Control)機能部26とを備えている。無線通信部22は、複数の周波数帯域に対応する機能、具体的には、sub6GHzに対応するIF1としての機能と、mmWaveに対応するIF2としての機能を、共に実現することができる。
【0034】
本実施形態において、無線通信部22が実現する複数のIFの夫々(ここではIF1およびIF2の夫々)には、DLの通信およびULの通信の双方が混在することがある。但し、後述する最適化の処理は、IFの夫々が、DLおよびULの一方にだけ割り当てられるものとして実行される。また、この最適化の処理は、一台の無線端末18に、DL用またはUL用として、複数の無線基地局16のIFが同時に割り当てられることはないものとして行われる。
【0035】
無線基地局16は、品質測定部28を備えている。品質測定部28は、無線環境測定部30とトラヒック測定部32を備えている。無線環境測定部30は、無線基地局16を取り巻く無線通信の環境に関わる情報を取得する。トラヒック測定部32は、無線基地局16と無線端末18との間のトラヒックに関わる情報を取得する。品質測定部28は、それらの情報に基づいて、無線基地局16と無線端末18との間の通信品質の情報を算出する。通信品質情報には、例えば、無線端末18からの受信電力、無線端末18の要求データレート、現実の伝送レート、および無線基地局16における帯域使用率等が含まれる。
【0036】
無線基地局16は、通信IF部34を備えている。通信IF部34は、ネットワーク12を経由する有線での通信に用いられる。無線基地局16は、通信IF部34を経由する有線通信により、或いは無線通信部22およびアンテナ部20を経由する無線通信により、他の無線基地局16が取得した通信品質情報を取得することができる。他の無線基地局16から取得した通信品質情報は、自らが取得した通信品質情報と共に、品質測定部28において一元的に管理される。
【0037】
無線基地局16は、情報通知部36を備えている。情報通知部36は、品質測定部28に集約された通信品質情報を読み出すことができる。情報通知部36は、読み出した通信品質情報を、通信IF部34並びに無線通信部22に提供することができる。これにより、無線基地局16は、有線または無線の経路で、自らが保有する通信品質情報を他の無線基地局16に提供することができる。
【0038】
無線基地局16は、無線通信部22およびアンテナ部20を介して、周辺に位置する無線端末18からDLに関する帰属要求、並びにULに関する帰属要求を受け付ける。それらの帰属要求は、要求情報評価部38で処理される。要求情報評価部38は、無線端末18が要求する帯域およびデータレート、更には自らの負荷状態等に基づいて帰属の可否を判断する。
【0039】
要求情報評価部38による判断の結果は、要求応答通知部40と、帰属情報記録部42に送られる。要求応答通知部40は、無線通信部22およびアンテナ部20を介して、帰属要求を発した無線端末18に向けて、帰属の可否に関する判断結果をDLとULの夫々について提供する。帰属情報記録部42は、その判断の結果に基づいて、無線基地局16に帰属している無線端末18の情報をDLおよびUL毎に更新して記録する。
【0040】
[無線端末の構成]
図6は、無線端末18の一例を機能的に説明するためのブロック図である。無線端末18は、アンテナ部44および無線通信部46を備えている。無線通信部46は、RF部48およびMAC機能部50を備えている。これらの機能は、無線基地局16が備える対応ブロックの機能と実質的に同じであるため、ここでは、その説明を省略する。
【0041】
本実施形態において、無線端末18は、DL/UL管理部52を備えている。DL/UL管理部52は、無線端末18におけるDLの通信に必要な処理と、ULの通信に必要な処理とを実行する。
【0042】
無線端末18は、制御情報算出部54を備えている。制御情報算出部54は、無線通信部46およびアンテナ部44を介して、帰属先の無線基地局16から通信品質情報を取得する。制御情報算出部54は、更に、取得した通信品質情報に基づいて、DQNまたはDDQNを用いた最適化処理を行う。具体的には、複数のIFの夫々を、どの無線基地局16のどのIFに、DLおよびULの何れの用途で接続させるのが最適な行動a(t)であるかをDQNまたはDDQNを用いて決定する処理と、そのDQNまたはDDQNの学習処理とを実行する。
【0043】
制御情報算出部54は、状態算出部56を備えている。状態算出部56では、通信品質情報に基づいて、DQNまたはDDQNの入力層に提供する状態S(t)が算出される。状態S(t)には、DLおよびUL毎に、自身が有するIFの夫々が、どの無線基地局16のどのIFに帰属しているかの情報が含まれている。
【0044】
制御情報算出部54は、また、報酬算出部58を備えている。報酬算出部58は、通信品質情報に基づいて、採用された行動a(t)により得られた報酬Γ(t)を算出する。報酬Γ(t)は、DLの通信に関する評価およびULの通信に関する評価が共に反映されるように算出される。この算出の手法については、後に詳細に説明する。
【0045】
制御情報算出部54は、更に、DQN/DDQN更新部60を備えている。DQN/DDQN更新部60では、強化学習に用いられるDQNまたはDDQNのパラメータθが更新される。より具体的には、DQNまたはDDQNの価値関数としての特徴を決める重み付けの係数やバイアス値(以下、「重み付け係数等」とする)が更新される。
【0046】
DQN/DDQN更新部60によって更新されたDQNまたはDDQNは、帰属先算出部62において用いられる。即ち、帰属先算出部62は、更新後のDQNまたはDDQNに従って、今回採用するべき行動a(t)、つまり、どのIFを、どの無線基地局16のどのIFに、DLおよびULの何れの用途で帰属させるべきかを算出する。
【0047】
DQNおよびDDQNは、入力層に状態S(t)が与えられると、無線端末18が採り得る行動a(t)の夫々について、採用の価値を出力層に表出させる。従って、その価値が最も大きい値となる行動を選択すれば、現在の学習段階において最適と考えられる行動を選択することができる。但し、次の行動a(t)が常に上記の価値に基づいて選択されるとすると、偶然選ばれた局所的な解に囚われてしまい、真の最適行動が永遠に選択されない事態に陥ることがある。
【0048】
帰属先算出部62は、そのような事態の発生を避けるため、ε-greedy法に従って行動a(t)を算出する。このため、帰属先算出部62では、確率εで、DQNまたはDDQNによらずランダムに次の行動a(t)が選択される。また、確率1-εで、DQNまたはDDQNが最適と判断する行動a(t)が選択される。
【0049】
更に、帰属先算出部62は、学習が繰り返される毎に、εに減衰処理を施す。偶然選ばれた局所的解に陥る可能性は、学習初期の段階で大きく、学習が進行するに連れて小さくなる。このため、ランダムに行動a(t)を選択する必要性は、学習が進むに連れて小さくなる。εに減衰処理を施すと、その必要性の低下に合わせて、行動a(t)がランダムに選択される頻度を下げることができる。このため、本実施形態の帰属先算出部62によれば、効率よく学習を進めて、パラメータθを短期間で最適値に収束させることができる。
【0050】
無線端末18は、メモリ部66を備えている。メモリ部66は、下記の情報を経験e(t)として格納する。
1.今回の学習でDQNまたはDDQNの入力層に提供された状態S(t)、
2.その状態S(t)に応じて決定された行動a(t)、
3.その行動a(t)により得られた報酬Γ(t)、
4.その行動a(t)により遷移した先の状態S(t+1)。
【0051】
無線端末18は、また、帰属先要求部68を備えている。帰属先要求部68は、帰属先算出部62から行動a(t)を受け取り、その行動a(t)に対応するリクエストを生成する。例えば、DLの用途でIF1を用いて無線基地局16-1に接続する、或いは、ULの用途でIF2を用いて無線基地局16-2に接続する、といったリクエストを生成する。生成されたリクエストは、無線通信部46およびアンテナ部20を介して、単一または複数の無線基地局16に送信される。
【0052】
無線端末18は、帰属先記録部70を備えている。無線基地局16から受け取る情報には、リクエストに対する可否の応答が含まれている。例えば、その情報には、新たな接続を許可する旨の応答、或いは接続の更新を許可する旨の応答等が含まれている。帰属先記録部70は、これらの応答に基づいて、帰属先の無線基地局16についての情報を更新して記録する。
【0053】
図7は、無線端末18のハードウェア構成を説明するための図である。ここでは、無線端末18がスマートフォンである場合について説明する。但し、無線端末18は、スマートフォンに限定されるものではなく、タブレット端末や汎用のコンピュータシステムであってもよい。
【0054】
無線端末18は、CPU(Central Processing Unit)72を備えている。CPU72は、バス配線74を介して、無線端末18が備える各種のハードウェア要素と接続されている。バス配線74には、例えば、ROM(Read Only Memory)76、RAM(Random Access Memory)78、ストレージ80等の各種メモリ装置が接続されている。
【0055】
ストレージ80は、フラッシュROM等の不揮発性メモリを含んでいる。各種のアプリケーションの実行に必要なプログラムやデータは、ストレージ80に格納されている。上述したメモリ部66および帰属先記録部70は、ストレージ80により実現される。また、CPU72は、ストレージ80に格納されているプログラムに沿って処理を進めることにより、図6に示すDL/UL管理部52および制御情報算出部54等の機能を実現する。
【0056】
無線端末18は、通信インターフェース82を備えている。通信インターフェース82は、上記のアンテナ部44および無線通信部46に相当する。無線端末18は、更に、操作部84および表示部86を備えている。操作部84は、各種の機械的なスイッチ機構および電子的なセンサ機構に加えて、表示部86と一体化されたタッチパネルを含んでいる。
【0057】
[DQNの概要]
図8は、DQNの概要を説明するための図である。以下、図8を参照して、無線端末18が用いる深層強化学習の一例であるDQNの概要を説明する。本実施形態で用いられるDQNは、入力層と、隠れ層と、出力層を有している。また、DQNには、現時点tの学習状態に対応するパラメータθ が設定されている。DQNの価値関数としての特性は、パラメータθ により決定される。
【0058】
図8において、DQNの入力層は、M個のノードS~Sを有している。これらのノードには、無線端末18の状態Sを構成する要素が夫々入力される。状態Sの要素には、例えば、以下のような要素が含まれる。これらは、DLに関わるものとULに関わるものとが区別して扱われる。
1.無線基地局16-bの帯域利用率φb、
2.無線端末18のインターフェースfの要求データレートRkf
3.無線端末18と無線基地局16-bとの帰属の関係xbkf(帰属していれば1、そうでなければ0)、
4.無線端末18のインターフェースfの無線基地局16-bに対する帰属の要求abkf(要求有りなら1、そうでなければ0)、
5.無線端末18のインターフェースfと無線基地局16-bとの間に成立している伝送レートrbkf
【0059】
隠れ層の層数とノード数は任意である。出力層は、無線端末18が、状態Sの下で取ることのできる行動aの総数Nと等しいノード数を有している。行動aの一部を以下に例示する。
・IF1をDLの用途で無線基地局16-1に帰属させる。
・IF1をULの用途で無線基地局16-1に帰属させる。
・IF2をDLの用途で無線基地局16-1に帰属させる。
・IF2をULの用途で無線基地局16-1に帰属させる。
・IF1をDLの用途で無線基地局16-1に帰属させ、IF2をULの用途で無線基地局16-2に帰属させる。
・IF1をULの用途で無線基地局16-1に帰属させ、IF2をDLの用途で無線基地局16-2に帰属させる。


【0060】
出力層の各ノードには、無線端末18が取り得る行動a(i=1~N)の夫々についてのQ値=Q(S,a;θ )が表出する。Q値は、パラメータθ の下でDQNが算出した行動aについての採用価値である。
【0061】
DQNを用いる手法では、出力層に表れたQ値の中から最も大きな値を選択して、そのQ値を生じさせる行動aを、現時点tでの最適な行動a(t)と決定する。DQNによれば、このようにして、個々の学習段階において、その時点tで最適と判断できる行動a(t)を決定することができる。
【0062】
図9は、無線端末18の制御情報算出部54がDQNのパラメータθを更新する流れを説明するため図である。尚、図8では、行動a(t)を、便宜上DQN/DDQNの後段に示しているが、行動a(t)がDQNまたはDDQNにより決定されるのは、上記の通り確率1-εの場合に限られる。そして、確率εの下では、行動a(t)がランダムに決定される。パラメータθには、それら双方の場合に得られた経験e(t)が反映される。
【0063】
無線端末18では、行動a(t)が決定された後、その行動a(t)に対する報酬Γ(t)が算出される。報酬Γ(t)は、例えば、次式(1)により算出される。
【0064】
【数1】
【0065】
上記(1)式中、右辺第一項は加点項目であり、第二項は減点項目である。両者に付されたω1k、ω2kは、それらに対する配分比率を決める係数である。λは集合Λ={DL、UL}の各要素を示す識別子である。νは、集合L={sub6GHz、mmWave}の各要素を示す識別子である。
【0066】
更に、上記(1)式中、右辺第一項中のc1k λ,νは、λ(DLまたはUL)で求める要求データレートRkf λを満たす伝送レートrbkf(t)が、ν(sub6GHzまたはmmWave)において得られた場合の加点分を意味している。その値は、次式(2)により算出される。
【0067】
【数2】
【0068】
上記(2)式は、以下の場合に、伝送レートrbkf(t)に応じた加点rbkf(t)/Wλ,νが与えられることを意味している。但し、末項中のWλ,νは、λ(DLまたはUL)並びにν(sub6GHzまたはmmWave)の違いに起因する周波数帯の違いを相殺して正規化するための因子である。
1.無線基地局16-bが無線端末18のインターフェースfの帰属を、λ(DLまたはUL)の用途で、ν(sub6GHzまたはmmWave)について認めており(xbkf λ,ν=1)、かつ、λ(DLまたはUL)について、要求データレートRkf λ以上の伝送レートrbkf(t)が得られていること(rbkf(t)≧Rkf λ)。
2.無線基地局16-bに、無線端末18のインターフェースfが、λ(DLまたはUL)の用途で、ν(sub6GHzまたはmmWave)での帰属を要求していること(abkf λ,ν(t)=1)。
【0069】
上記(1)式中、右辺第二項中のc2k λ,νは、λ(DLまたはUL)で求める要求データレートRkf λを満たす伝送レートrbkf(t)が、ν(sub6GHzまたはmmWave)において得られなかった場合の減点分を意味している。その値は、例えば次式(3)により算出される。
【0070】
【数3】
【0071】
上記(3)式は、以下の二つの場合には、報酬Γ(t)に、要求データレートRkf λと伝送レートrbkf(t)との比に応じた減点が施されることを意味している。
1.λ(DLまたはUL)の用途で、ν(sub6GHzまたはmmWave)での帰属の要求が出され(abkf λ,ν(t)=1)、帰属は許可されたが(xbkf λ,ν(t)=1)、要求データレートRkf λを満たす伝送レートrbkf(t)が得られなかった場合(rbkf(t)<Rkf λ)。
2.λ(DLまたはUL)の用途で、ν(sub6GHzまたはmmWave)での帰属の要求が出されたが(abkf λ,ν(t)=1)、要求したλ(DLまたはUL)について、無線基地局16で帰属が許可されなかった場合(xbkf λ,ν(t)=0)。
【0072】
このように、報酬Γ(t)は、行動a(t)の結果として要求データレートRkf λを満たす伝送レートrbkf(t)が得られれば大きな値となる。他方、十分な伝送レートrbkf(t)が得られなければ、報酬Γ(t)は小さな値となる。
【0073】
尚、上記(3)式に含まれる伝送レートrbkf(t)は、以下の四つの場面毎に、下記(4)式により算出することができる。
1.無線端末18が、DLの用途で、sub6GHzで無線基地局16-bに帰属、
2.無線端末18が、ULの用途で、sub6GHzで無線基地局16-bに帰属、
3.無線端末18が、DLの用途で、mmWaveで無線基地局16-bに帰属、
4.無線端末18が、ULの用途で、mmWaveで無線基地局16-bに帰属。
【0074】
【数4】
【0075】
また、上記(4)式の四つの右辺に含まれるγbkf λ,ν(t)は、夫々の条件下でのSINR(Signal to Interference plus Noise power Ratio)である。それらは、下記(5)式~(8)式で算出することができる。
【0076】
【数5】
【0077】
【数6】
【0078】
【数7】
【0079】
【数8】
【0080】
但し、上記(5)式において、pbkf DL,sub(t)は、DL、sub6GHzにおける送信電力である。また、hbk sub(t)は、無線基地局16-bと無線端末18kとの間のsub6GHzにおける相関係数である。その値は、両者の距離が近い場合に大きくなり、伝搬ロスやフェージングの影響を受ける。hb´k sub(t)並びにhk´k sub(t)についても、夫々の添え字が示す環境下での相関係数である。更に、分母末尾のWDL,subはDL、sub6GHzでの帯域幅を表しており、ノイズ部分の電力計算に用いられている。上記(6)~(8)式中のpbkf λ,ν(t)、hbk ν(t)等、並びにWλ、νについても同様である。
【0081】
以上説明した通り、本実施形態では、無線端末18と無線基地局16との通信品質が、DLおよびULの夫々について評価される。そして、選択された行動a(t)に対する報酬Γ(t)には、その両者が反映される。
【0082】
このようにして報酬Γ(t)が算出されると、今回の経験e(t)がメモリに格納される(ステップ88)。具体的には、現在の状態S(t)、選択された行動a(t)、得られた報酬Γ(t)、並びに遷移後の状態S(t+1)が、経験e(t)としてメモリに格納される。
【0083】
サンプルの系列に時間的な相関があると学習が適切に進まないことがある。この問題を解決するために、パラメータθの更新にあたっては、メモリに格納された経験eからランダムにメモリサンプルを取得し、それらをバッチ的に処理する(ステップ90)。
【0084】
ランダムに取得したメモリサンプル、つまり(S、a、Γ、S´)を含む経験eを用いて、DQN/DDQNのパラメータθを更新する(ステップ92)。但し、S´は、行動aにより遷移した先の状態を指すものとする。本ステップ92の処理は、具体的には、以下のように進められる。
【0085】
行動aに対する報酬Γが決まると、その報酬Γに基づいて、状態Sの下で行動aを選択することについての「新たなQ値」=Q(S,a)が算出できる。新たなQ値は、例えば下記(9)式のように算出される。
【0086】
Q(S,a)←Γ+γ*maxQ(S´,a´) ・・・(9)
但し、γは、時間割引率である。
【0087】
上記(9)式の右辺、Γ+γ*maxQ(S´,a´)は、(S,a)の組合せに対して、「学習後のDQN」にQ値として算出して貰いたい値である。従って、DQNのパラメータθは、(S,a)の入力に対して出力層にその値が表出するように更新すればよい。
【0088】
下記(10)式は、本実施形態においてDQNのパラメータθを更新する際に用いる損失関数Lを示す。
【0089】
【数9】
【0090】
但し、上記(10)式中、右辺第一項のQ(S,a;θ)は、パラメータθを持つメインネットワークが(S,a)の組合せに対して算出するQ値である。また、右辺第二項中のQ(S´,a´;θ )は、パラメータθ を持つターゲットネットワークが(S´,a´)の組合せに対して算出するQ値である。
【0091】
DQNを更新する際に、更新するネットワークの値を更新中のネットワークで計算すると、学習が安定しないことがある。このため、DQNの更新では、更新対象であるメインネットワークの他に、更新値を計算するためのターゲットネットワークを用いるのが通常である。本実施形態においても、上記通常の手法に従い、新たなQ値に当たる(10)式第二項は、ターゲットネットワークを用いて計算する。
【0092】
本ステップ92では、上記(10)式に示す損失関数Lが最小化されるように、DQNのパラメータθ、つまりメインネットワークのパラメータθが更新される。その結果、DQNは、状態Sの入力に対して、行動aのQ値として、上記(9)式右辺の値を表出するように学習される。
【0093】
ターゲットネットワークは、更新の直後を除いて、過去のメインネットワークと同一である。そして、ターゲットネットワークは、既定の周期で更新される(ステップ94)。即ち、既定の周期で更新時期が到来すると、ターゲットネットワークのパラメータθ が、メインネットワークのパラメータθにより上書きされる。以上の処理により、DQNの更新が完了する。
【0094】
尚、下記(11)式は、本実施形態で、DDQNの手法が用いられる場合に、上記ステップ92において用いられる損失関数Lを示す。更新の原理は、DQNの場合と同様であるため、これについての詳細は説明は省略する。
【0095】
【数10】
【0096】
[無線端末のCPUによる処理]
図10は、上記の機能を実現するために無線端末18のCPU72が実行する処理の流れを説明するためのフローチャートである。尚、ここでは、強化学習の手法としてDQNが用いられる場合について説明する。
【0097】
図10に示すルーチンでは、先ず、周辺の無線基地局16から取得した通信品質情報等に基づいて、DQNの入力層に提供する状態S(t)が設定される(ステップ100)。状態S(t)には、上記の通り、DLに関する接続の情報と、ULに関する接続の情報とが含まれている。
【0098】
次に、今回の学習で用いるεが設定される(ステップ102)。εには、例えば初期値として0.1程度の値が与えられ、その後、本ルーチンが繰り返される毎に、εに減衰処理が施される。
【0099】
次に、0~1の範囲に収まる乱数を発生させる。更に、その乱数がε以下であるかが判別される(ステップ104)。
【0100】
乱数≦εの成立が認められた場合は、現在の状態S(t)に対して、次の行動a(t)がランダムに決定される(ステップ106)。この行動a(t)には、帰属を求める無線基地局16を、DLおよびUL毎に特定した情報が含まれる。
【0101】
これに対して、上記ステップ104で乱数≦εの成立が認められなかった場合は、DQNの入力層に状態S(t)が入力される(ステップ108)。そして、DQNの出力層に表れたQ値が比較され、最も大きなQ値を示す行動a(t)が、現時点での最適な行動a(t)として選択される(ステップ110)。
【0102】
次に、上記の処理により選択された行動a(t)に基づいて、周囲の無線基地局16に対して帰属のリクエストが出される(ステップ112)。具体的には、DLとULの別、sub6GHzとmmWaveの別、および接続先の無線基地局16-bを特定した一または複数の接続要求が発せられる。
【0103】
上記の接続要求を受けた無線基地局16では、DLおよびULの夫々について、接続の可否が判断される。接続可否の判断は、例えばBranch and Bound法により、DLおよびULの夫々につき、以下のような手順で行われる。
1.無線端末18からの全ての接続要求を、伝送効率(rbkf/φbkf)の良い順にソートする(但し、φbkfは、無線基地局16-bが、無線端末18のアプリケーションfで伝送レートrbkfを得る際の負荷である)。
2.上記のソートの順に帰属の候補を選び、収容の可否を判断する。残存する容量で収容できれば接続を許可し、そうでなければ接続を却下する。
3.全ての候補について判断を終えたら、周辺の無線端末18に、その結果を含む応答を送信する。
【0104】
無線端末18は、リクエストに対する応答を受信すると、その応答に含まれている通信品質情報を取得する(ステップ114)。
【0105】
次に、通信品質情報に基づいて、上記(5)式~(8)式によりγbkf λ,ν(t)が算出される(ステップ116)。これにより、DLとULの一方と、sub6GHzとmmWaveの一方とで定まる条件毎のSINRが算出される。
【0106】
次いで、γbkf λ,ν(t)の算出値を上記(1)~(4)式に当てはめることにより、今回の行動a(t)に対する報酬Γ(t)が算出される(ステップ118)。これにより、DLに関する評価とULに関する評価の双方が反映された報酬Γ(t)が算出される。
【0107】
以上の処理が終わると、メモリ部66を構成するRAM78に、今回のルーチンで取得した経験e(t)、即ち、(S(t)、a(t)、Γ(t)、S(t+1))のセットが格納される(ステップ120)。
【0108】
以後、バッチ処理によるDQNの更新が実行されて(ステップ122)、今回のルーチンが終了される。
【0109】
以上説明した通り、本実施形態における無線端末18は、DLに関わる評価とULに関わる評価が共に反映された報酬Γ(t)を計算する。そして、その報酬Γ(t)に基づいて更新されたQ値に基づいて、DQNまたはDDQNのパラメータθが更新される。このため、本実施形態によれば、DLとULとが混在するヘテロジニアスな環境下で、それら双方の品質を総合的に最適化するようにDQNまたはDDQNを学習することができる。そして、複数の無線端末18と複数の無線基地局16との接続が、そのDQNまたはDDQNに従って決定されるため、DLとULとが混在するヘテロジニアスな環境下で、双方向の通信を総合的に最適化することができる。
【0110】
ところで、上述した実施の形態1では、無線端末18および無線基地局16が、無線通信に二つのIFを用いることとしているが、本開示はこれに限定されるものではない。例えば、無線通信用のIFは三つ以上であってもよい。更には、無線通信用のIFには、ライセンス帯を対象とするものと、無線LAN等に用いる非ライセンス帯を対象とするものとが混在していてもよい。
【0111】
また、上述した実施の形態1では、行動を決める価値関数として、DQNまたはDDQNを用いることとしている。しかしながら、それらはあくまで例示であり、本開示はこれに限定されるものではない。特定の状態の下で取り得る行動毎の価値を判断することのできるものであれば、何れも本開示の価値関数として用いることができる。
【符号の説明】
【0112】
10 無線通信システム
16、16-1、16-2、16-3 無線基地局
18、18、18、18 無線端末
52 DL/UL管理部
54 制御情報算出部
60 DQN/DDQN更新部
Γ(t) 報酬
(t) 行動
(t) 経験
(t) 状態
(t+1) 遷移後の状態
kf 要求データレート
bkf 伝送レート
θ パラメータ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10