(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023009998
(43)【公開日】2023-01-20
(54)【発明の名称】無線通信方法、無線端末および無線端末用プログラム
(51)【国際特許分類】
H04W 48/16 20090101AFI20230113BHJP
H04W 16/32 20090101ALI20230113BHJP
H04W 72/0457 20230101ALI20230113BHJP
H04W 24/02 20090101ALI20230113BHJP
H04W 28/18 20090101ALI20230113BHJP
【FI】
H04W48/16 132
H04W16/32
H04W72/04 111
H04W24/02
H04W28/18
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021113735
(22)【出願日】2021-07-08
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】若尾 佳佑
(72)【発明者】
【氏名】河村 憲一
(72)【発明者】
【氏名】守山 貴庸
(72)【発明者】
【氏名】金子 めぐみ
(72)【発明者】
【氏名】ティハーリー ディン
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA13
5K067AA23
5K067BB04
5K067BB21
5K067DD11
5K067DD17
5K067DD43
5K067DD45
5K067EE02
5K067EE10
5K067EE24
5K067EE56
5K067FF16
5K067HH22
5K067JJ13
5K067JJ37
(57)【要約】
【課題】この開示は、無線通信方法に関し、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得ることを目的とする。
【解決手段】複数の無線基地局と無線端末との接続の状態S
k(t)を検知する。確率εの下では(ステップ108)、その状態S
k(t)の下で採用する行動をランダムに決定する(ステップ110)。その他の場合はDQNに状態S
k(t)を入力して(ステップ112)、最適行動a
k(t)を採用する(ステップ114)。以後、行動a
k(t)に対する報酬Γ
k(t)(ステップ118)に基づいて、DQNのパラメータを更新する(ステップ122)。通信環境が変化しない状況下では、学習毎にεを減衰させる(ステップ104)。一方、通信環境が変化した場合は(ステップ102)、減衰していたεを初期値にリセットする(ステップ106)。
【選択図】
図9
【特許請求の範囲】
【請求項1】
複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率εでランダムに決定するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率(1-ε)で、価値関数の結果に従って決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する前記複数の無線基地局の応答を取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記無線端末を取り巻く通信環境の変化を検知するステップと、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施すステップと、
前記通信環境の変化が検知された場合に、前記εを初期化するステップと、
を含む無線通信方法。
【請求項2】
前記複数の無線基地局の少なくとも一部は、互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記無線端末は、前記複数の無線通信用のインターフェースを有し、
前記状態は、前記無線端末が、インターフェース毎に、どの無線基地局と接続しているかの情報を含み、
前記行動は、前記無線端末のどのインターフェースを、どの無線基地局に接続させるかの情報を含む請求項1に記載の無線通信方法。
【請求項3】
前記価値関数は、Deep Q-Networkである請求項1または2に記載の無線通信方法。
【請求項4】
前記価値関数は、Double Deep Q-Networkである請求項1または2に記載の無線通信方法。
【請求項5】
複数の無線基地局と接続する機能を有する無線端末であって、
CPUを備え、
前記CPUが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率(1-ε)で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行する無線端末。
【請求項6】
互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記状態は、当該無線端末が、インターフェース毎に、どの無線基地局と接続しているかの情報を含み、
前記行動は、当該無線端末のどのインターフェースを、どの無線基地局に接続させるかの情報を含む請求項5に記載の無線端末。
【請求項7】
複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるCPUに、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率(1-ε)で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行させるプログラムを含む無線端末用プログラム。
【請求項8】
前記無線端末が、互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記状態は、当該無線端末が、インターフェース毎に、どの無線基地局と接続しているかの情報を含み、
前記行動は、当該無線端末のどのインターフェースを、どの無線基地局に接続させるかの情報を含む請求項7に記載の無線端末用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、無線通信方法、無線端末および無線端末用プログラムに係り、特に、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得る上で好適な無線通信方法、無線端末および無線端末用プログラムに関する。
【背景技術】
【0002】
無線通信システムの発展に伴い、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークが実用化の段階に至っている。セルラー通信では、第5世代移動通信(5G)が実用化されている。5Gの通信システムでは、1GHz以下の帯域からミリ波帯まで幅広い周波数が利用される。また、スモールセルからマクロセルまで、様々なサイズのセルが重畳するように提供される環境が整備されつつある。
【0003】
もう一つの代表的な無線アクセスシステムである無線LANでは、2.4/5/60GHz帯の無線周波数が利用されており、更に、6GHz帯の利用も検討されている。スマートフォンなどの無線端末には、セルラーおよび無線LANの双方にアクセスするためのインターフェース(IF)が一般的に与えられている。また、それぞれのIFは複数の周波数帯に対応するように構成されている。
【0004】
無線端末は、複数の周波数帯およびアクセス方式から、接続する無線基地局或いはアクセスポイント(AP)を選択して、通信を確立することが一般的となっている。デュアルコネクティビティ等の機能により、1台の無線端末が複数の無線基地局を統合して利用することも行われる。このようなヘテロジニアス環境においては、無線端末がどのIFを用いてどの基地局を選択するかを、システム全体で制御し最適化することが、システムリソースを有効に利用するうえで重要である。
【0005】
ヘテロジニアスな環境において、システムリソースを有効に利用する技術に関して、例えば下記非特許文献1や非特許文献2は、無線端末とAPとの接続を、強化学習により最適化する手法を開示している。より具体的には、非特許文献2は、Deep Q-Learning、或いはDouble Deep Q-Learningの手法を用いて、複数のIFを用いる無線端末と複数のAPとの接続を最適化する技術を開示している。
【0006】
また、下記非特許文献3は高次元の入力を強化学習で取り扱う手法であるDeep Q-Network(DQN)についての開示を、また、下記非特許文献4はDouble Deep Q-Network(DDQN)についての開示を夫々提供している。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】“Reinforcement Learning-aided Distributed User-to-Access Points Association in Interfering Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Hirantha Abeysekera, Yasushi Takatori, IEEE Globecom, Waikoloa, Hawaii, USA, Dec. 2019
【非特許文献2】“Deep Reinforcement Learning-based User Association in Sub6GHz/mmWave Integrated Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Kenichi Kawamura, Takatsune Moriyama, Hirantha Abeysekera and Yasushi Takatori, in IEEE CCNC, Jan. 2021
【非特許文献3】“Human-level control through deep reinforcement learning,”Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves,Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou,Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis, Nature. 2015 Feb 26; Vol.518(7540): P529-533. doi: 10.1038/nature14236
【非特許文献4】“Deep Reinforcement Learning with Double Q-Learning,” H. Van Hasselt, A. Guez, and D. Silver, in Thirtieth AAAI conference on artificial intelligence, 2016
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した非特許文献に開示されるようなDQNやDDQNの深層強化学習では、ε-greedy法を用いた学習が行われる。ε-greedy法によれば、学習の繰り返し毎に、εの確率で次の行動がランダムに選択される。また、1-εの確率で、その時点の学習結果に基づいて最適と判断される行動が、次の行動として選択される。
【0009】
上記のε-greedy法によれば、1-εの確率で、現時点での最適な行動が選択されると共に、εの確率で、ランダムな行動により新たな「最適」が探索される。このため、この手法によれば、偶然見つかった局所的な最適解に固執せずに真の最適解に向けて学習を進めることができる。
【0010】
DQNおよびDDQNで用いられるε-greedy法では、更に、学習が繰り返される毎に、確率εに減衰処理が施される。この処理によれば、学習が進むに連れて、ランダムな行動の選択確率が下がり、最適行動の選択確率が上がる。その結果、学習が進んだ段階での無駄な探索が回避され、最適解への収束に要する時間が短縮される。
【0011】
ところで、マルチバンド・マルチアクセスのテヘロジニアスな環境では、スマートフォンやタブレットのようなモバイル端末が無線端末として用いられることがある。モバイル端末を取り巻く通信環境は、モバイル端末の移動に伴って変化する。また、同じエリアの中に多数の無線端末が存在する場合は、個々の無線端末から発せられる要求の変化が、そのエリアに属する無線端末や無線基地局の負荷に影響を与える。その結果、個々の無線端末を取り巻く通信環境は、他の無線端末の状態によっても大きく変化する。これらの理由により、ヘテロジニアスな環境に置かれた無線端末が、どの無線基地局に対して、どのIFで接続するかに関する最適解は、安定的なものではなく、激しく変化する動的なものとなることがある。
【0012】
学習の進行に伴ってεを減衰させる従来の学習手法は、安定した通信環境の下では、早期に最適解を得るうえで有効である。しかしながら、激しく変化する動的な通信環境の下では、εが減衰してしまうと、環境の変化に追随して効率よく最適解を探索することができなくなる。この点で、DQN、DDQN等を用いた従来の学習手法は、動的な通信環境下では、システムリソースを必ずしも有効に利用できないという課題を有していた。
【0013】
本開示は、上記の課題に着目してなされたものであり、複数の無線端末と複数の基地局等とを含むネットワークにおいて、通信環境の変化に関わらず、システムリソースを常に有効に活用するための無線通信方法、無線端末および無線端末用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本開示の第1の態様は、上記の目的を達成するため、複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率εでランダムに決定するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率(1-ε)で、価値関数の結果に従って決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する前記複数の無線基地局の応答を取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記無線端末を取り巻く通信環境の変化を検知するステップと、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施すステップと、
前記通信環境の変化が検知された場合に、前記εを初期化するステップと、
を含むことが望ましい。
【0015】
また、本開示の第2の態様は、複数の無線基地局と接続する機能を有する無線端末であって、
CPUを備え、
前記CPUが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率(1-ε)で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行することが望ましい。
【0016】
また、本開示の第3の態様は、複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるCPUに、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率(1-ε)で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行させるプログラムを含むことが望ましい。
【発明の効果】
【0017】
本開示によれば、複数の無線端末と複数の基地局等とを含むネットワークにおいて、通信環境の変化に関わらず、接続の組合せを最適な状態に更新し続けることができる。このため、本開示によれば、ヘテロジニアスな環境下で、システムリソースを常に有効に活用することができる。
【図面の簡単な説明】
【0018】
【
図1】本開示の実施の形態1の無線通信システムの全体構成を説明するための図である。
【
図2】本開示の実施の形態1における無線端末と無線基地局との接続状態の一例を説明するための図である。
【
図3】本開示の実施の形態1においてヘテロジニアスな環境下で無線端末が移動している様子を表す図である。
【
図4】本開示の実施の形態1で用いられる無線基地局の機能的な構成を説明するためのブロック図である。
【
図5】本開示の実施の形態1で用いられる無線端末の機能的な構成を説明するためのブロック図である。
【
図6】本開示の実施の形態1で用いられる無線端末のハードウェア構成を説明するための図である。
【
図7】本開示の実施の形態1で用いられるDQNの概要を説明するための図である。
【
図8】本開示の実施の形態1で用いられるDQNの更新に関わる処理の内容を説明するための図である。
【
図9】本開示の実施の形態1における無線端末の特徴を説明するためのフローチャートである。
【発明を実施するための形態】
【0019】
実施の形態1.
[実施の形態1の全体構成]
図1は、本開示の実施の形態1の無線通信システム10の全体構成を説明するための図である。
図1に示すように、無線通信システム10は、有線通信のネットワーク12を含んでいる。ネットワーク12には、スイッチ14を介して複数の無線基地局16が接続されている。無線基地局16は、ネットワーク12を介して、また無線の経路を介して、他の無線基地局16と通信することができる。
【0020】
図1に示す無線通信システム10は、複数の無線端末18を含んでいる。本実施形態において、無線端末18は、スマートフォン、或いはタブレット端末のようなモバイル端末を含んでいるものとする。
【0021】
無線端末18は、夫々、無線通信用のアプリケーションとIFを、複数組み備えている。例えば、無線端末18は、1GHz以下での通信に用いるアプリケーション並びにIF、ミリ波帯での通信に用いるアプリケーション並びにIF、更には、無線LANで用いられる2.4/5/60GHz帯での通信に用いるアプリケーション並びにIFを備えている。
【0022】
上述した無線基地局16にも、それらに対応するIF等が備わっている。そして、個々の無線端末18は、上記のアプリケーションおよびIFを介して、単一または複数の無線基地局16と無線で通信することができる。これにより、本実施形態の無線通信システム10は、マルチバンド・マルチアクセスによるヘテロジニアスなネットワークとしての機能を実現する。
【0023】
尚、本実施形態の無線通信システム10は、通信事業者が設置するセルラー通信用の無線基地局に加えて、無線LANのアクセスポイント(AP)にも対応している。以下、便宜上「無線基地局16」は両者を包括するものとして説明を進める。
【0024】
[実施の形態1の特徴]
次に、
図2乃至
図9を参照して、本実施形態における無線端末18の特徴を説明する。以下の説明では、無線基地局16および無線端末18が、第一の周波数帯域での通信に対応するインターフェースIF1と、第二の周波数帯域での通信に対応するインターフェースIF2を備えていることとする。IF1は、例えば、1GHz以下の周波数帯に対応するインターフェースであり、IF2は、例えば、ミリ波帯の周波数に対応するインターフェースである。
【0025】
また、以下の説明では、無線端末18を複数の中の特定の一台として指し示す必要がある場合は、符号kを用いて「無線端末18k」のように表示する。更に、複数の無線基地局16の夫々を区別して説明する必要がある場合は、16-1、16-2のように添え字を付した符号を用いることとする。
【0026】
図2は、無線端末18
kが、二台の無線基地局16-1、16-2に帰属している様子を示している。無線端末18
kは、自己を取り巻く通信環境において、チャネル品質の状態を表すRSSI(Received Signal Strength Indicator)を計測する。そして、RSSIが示す強度が高い順にBmax個の無線基地局16を通信の対象として選択する。
図2は、それらBmax個の無線基地局16のうち、無線端末18
kが無線基地局16-1および16-2と接続している状態を示している。
【0027】
無線端末18
kおよび無線基地局16は、上記の通り、異なる帯域に対応する二つのインターフェース、IF1およびIF2を備えている。Bmax個の無線基地局16が通信の対象であるとすれば、無線端末18
kが備える二つのIFと、Bmax個の無線基地局16が備える二つのIFとの間に成立し得る可能な組み合わせの数が、状態空間のサイズとなる。
図2に示す例では、無線端末18
kが、IF1で第一の無線基地局16-1に帰属し、IF2で第二の無線基地局16-2に帰属する状態が形成されている。
【0028】
図3は、マルチバンド・マルチアクセスによるヘテロジニアスな環境下で、無線端末18
kが移動している様子を示している。先ず、無線端末18
kが、図中最も左の位置に存在する環境を想定する。この環境において、無線端末18
kが、無線基地局16-1および16-2に帰属する状態が最適であれば、無線端末18
kからの接続要求は、その状態が実現されるように発せられることが望ましい。
【0029】
しかしながら、無線端末18kが、図中最も左の位置から、図の中央、更には図の右側へと移動すれば、最適な接続の組合せは、当初の組合せから変化する。同様の変化は、無線端末18kと同じ環境に属する他の無線端末18(図示略)の移動や、それらからの要求データレートの変化等によっても生ずる。このため、無線端末18kは、通信環境が変化した場合には、変化後の環境下に最適な組み合わせで、接続要求を発することが望ましい。
【0030】
本実施形態において、無線端末18は、接続を求める無線基地局16並びにIFを、Deep Q-Network(DQN)またはDouble Deep Q-Network(DDQN)を用いて決定する。このため、ここで用いられるDQN或いはDDQNは、安定した通信環境の下では、その環境に最適な状態に早期に収束し、かつ、動的な通信環境の下では、迅速に環境変化に追随するものであることが望まれる。
【0031】
図4は、無線基地局16の一例を機能的に説明するためのブロック図である。無線基地局16は、アンテナ部20を備えている。アンテナ部20は、無線基地局16が、他の無線基地局16並びに周囲の無線端末18と無線信号を授受するために用いられる。
【0032】
アンテナ部20は、無線通信部22に接続されている。無線通信部22は、高周波の信号を処理するRF(Radio Frequency)部24と、無線通信におけるメディアアクセス制御の機能を備えたMAC(Media Access Control)機能部26とを備えている。無線通信部22は、複数の周波数帯域に対応する機能、具体的には、1GHz以下に対応するIF1としての機能と、ミリ波帯の周波数に対応するIF2としての機能を、共に実現することができるように構成されている。
【0033】
無線基地局16は、また、品質測定部28を備えている。品質測定部28は、無線環境測定部30とトラヒック測定部32を備えている。無線環境測定部30は、無線基地局16を取り巻く無線通信の環境に関わる情報を取得する。トラヒック測定部32は、無線基地局16と無線端末18との間のトラヒックに関わる情報を取得する。品質測定部28は、それらの情報に基づいて、無線基地局16と無線端末18との間の通信品質の情報を算出する。通信品質情報には、例えば、無線端末18からの受信電力、無線端末18の要求データレート、現実の伝送レート、および無線基地局16における帯域使用率等が含まれる。
【0034】
無線基地局16は、通信IF部34を備えている。通信IF部34は、ネットワーク12を経由する有線での通信に用いられる。無線基地局16は、通信IF部34を経由する有線通信により、或いは無線通信部22およびアンテナ部20を経由する無線通信により、他の無線基地局16が取得した通信品質情報を取得することができる。他の無線基地局16から取得した通信品質情報は、自らが取得した通信品質情報と共に、品質測定部28において一元的に管理される。
【0035】
無線基地局16は、情報通知部36を備えている。情報通知部36は、品質測定部28に集約された通信品質情報を読み出すことができる。情報通知部36は、読み出した通信品質情報を、通信IF部34並びに無線通信部22に提供することができる。これにより、無線基地局16は、有線または無線の経路で、自らが保有する通信品質情報を他の無線基地局16に提供することができる。
【0036】
無線基地局16は、無線通信部22およびアンテナ部20を介して、周辺に位置する無線端末18から帰属要求を受け付ける。帰属要求は、要求情報評価部38で処理される。要求情報評価部38は、無線端末18が要求する帯域およびデータレート、更には自らの負荷状態等に基づいて帰属の可否を判断する。
【0037】
要求情報評価部38による判断の結果は、要求応答通知部40と、帰属情報記録部42に送られる。要求応答通知部40は、無線通信部22およびアンテナ部20を介して、帰属要求を発した無線端末18に向けて、帰属の可否に関する判断結果を提供する。帰属情報記録部42は、その判断の結果に基づいて、無線基地局16に如何なる無線端末18が帰属しているのかに関する情報を更新および記録する。
【0038】
図5は、無線端末18の一例を機能的に説明するためのブロック図である。無線端末18は、アンテナ部44および無線通信部46を備えている。無線通信部46は、RF部24およびMAC機能部50を備えている。これらの機能は、無線基地局16が備える対応ブロックの機能と実質的に同じであるため、ここでは、その説明を省略する。
【0039】
無線端末18は、制御情報算出部52を備えている。制御情報算出部52は、無線通信部46およびアンテナ部44を介して、帰属先の無線基地局16から通信品質情報を取得する。そして、制御情報算出部52は、通信品質情報に基づいて、DQNまたはDDQNの手法により、複数の無線通信用のIFの夫々を、どの無線基地局16に接続させるのが最適な行動akであるかを決める処理と、そのための学習とを行う。
【0040】
制御情報算出部52は、状態算出部54を備えている。状態算出部54では、通信品質情報に基づいて、DQNまたはDDQNの入力層に提供する状態Sk(t)が算出される。
【0041】
制御情報算出部52は、また、報酬算出部56を備えている。報酬算出部56は、通信品質情報に基づいて、採用された行動ak(t)により得られる報酬Γk(t)を算出する。
【0042】
制御情報算出部52は、更に、DQN/DDQN更新部58を備えている。DQN/DDQN更新部58では、強化学習に用いられるDQNまたはDDQNのパラメータθが更新される。より具体的には、DQNまたはDDQNの価値関数としての特徴を決める重み付けの係数w等が更新される。
【0043】
DQN/DDQN更新部58によって更新されたDQNまたはDDQNは、帰属先算出部60において用いられる。即ち、帰属先算出部60は、更新後のDQNまたはDDQNに従って、今回採用するべき行動ak(t)、つまり、どのIFをどの無線基地局16に帰属させるべきかを算出する。
【0044】
DQNおよびDDQNは、入力層に状態Sk(t)が与えられると、無線端末18が採り得る行動ak(t)の夫々について、採用の価値を出力層に表出させる。従って、その価値が最も大きい値となる行動を選択すれば、現在の学習段階において最適と考えられる行動を選択することができる。但し、次の行動ak(t)が常に上記の価値に基づいて選択されるとすると、偶然選ばれた局所的な解に囚われてしまい、真の最適行動が永遠に選択されない事態に陥ることがある。
【0045】
帰属先算出部60は、そのような事態の発生を避けるため、ε-greedy法に従って行動ak(t)を算出する。このため、帰属先算出部60では、確率εで、DQNまたはDDQNによらずランダムに次の行動ak(t)が選択される。また、確率1-εで、DQNまたはDDQNが最適と判断する行動ak(t)が選択される。
【0046】
更に、帰属先算出部60は、学習が繰り返される毎に、εに減衰処理を施す。偶然選ばれた局所的解に陥る可能性は、学習初期の段階で大きく、学習が進行するに連れて小さくなる。このため、ランダムに行動ak(t)を選択する必要性は、学習が進むに連れて小さくなる。εに減衰処理を施すと、その必要性の低下に合わせて、行動ak(t)がランダムに選択される頻度を下げることができる。このため、本実施形態の帰属先算出部60によれば、効率よく学習を進めて、パラメータθを短期間で最適値に収束させることができる。
【0047】
但し、本実施形態の無線通信システム10では、無線端末18が移動することにより、或いは、周辺に位置する他の無線端末18が要求する帯域やデータレートが変化することにより、無線端末18を取り巻く通信環境が大きく変化することがある。そして、通信環境が変化すれば、変化前の最適値であったパラメータθが、最適値でなくなることがある。
【0048】
このような状況下、つまり、新たな最適を探索する必要がある状況下では、次の行動ak(t)がランダムに採用される頻度が高いことが望ましい。そして、学習の進行に伴ってεが減衰してしまっている状況では、そのような要求に応えることができない。
【0049】
本実施形態の無線端末18は、上記の要求に応えるべく、環境変化検出部62と、ε初期化判断部64を備えている。環境変化検出部62は、無線端末18を取り巻く通信環境の変化を検出する。例えば、無線端末18がアクセスできる無線基地局16の組み合わせが変化した場合、或いは、無線基地局16側で利用可能なIFの組み合わせが変化した場合において、環境変化検出部62は、無線端末18を取り巻く通信環境が変化したと判断する。
【0050】
ε初期化判断部64は、無線端末18を取り巻く通信環境の変化が検知された場合に、εの初期化が必要であると判断する。ε初期化判断部64の判断は、帰属先算出部60に提供される。そして、帰属先算出部60は、ε初期化の判断を受けると、減衰していたεを初期化により元の値に戻す。これにより、次の行動ak(t)がランダムに決定される確率εが高まり、新たな最適を探索する頻度が高められる。このため、本実施形態の帰属先算出部60によれば、無線端末18を取り巻く通信環境が変化する環境下で、DQNおよびDDQNのパラメータをその変化に適切に追随させることができる。
【0051】
無線端末18は、メモリ部66を備えている。メモリ部66は、下記の情報を経験ek(t)として格納する。
1.今回の学習でDQNまたはDDQNの入力層に提供された状態Sk(t)、
2.その状態Sk(t)に応じて決定された行動ak(t)、
3.その行動ak(t)により得られた報酬Γk(t)、
4.その行動ak(t)により遷移した先の状態Sk(t+1)。
【0052】
無線端末18は、また、帰属先要求部68を備えている。帰属先要求部68は、帰属先算出部60から行動ak(t)を受け取り、その行動ak(t)に対応するリクエストを生成する。例えば、無線端末18をIF1で無線基地局16-1に接続する、或いは、無線端末18をIF2で無線基地局16-2に接続する、といったリクエストを生成する。生成されたリクエストは、無線通信部46およびアンテナ部20を介して、単一または複数の無線基地局16に送信される。
【0053】
無線端末18は、帰属先記録部70を備えている。無線基地局16から受け取る情報には、リクエストに対する可否の応答が含まれている。例えば、その情報には、新たな接続を許可する旨の応答、或いは接続の更新を許可する旨の応答等が含まれている。帰属先記録部70は、これらの応答に基づいて、帰属先の無線基地局16についての情報を更新して記録する。
【0054】
図6は、無線端末18のハードウェア構成を説明するための図である。ここでは、無線端末18がスマートフォンである場合について説明する。但し、無線端末18は、スマートフォンに限定されるものではなく、タブレット端末や汎用のコンピュータシステムであってもよい。
【0055】
無線端末18は、CPU(Central Processing Unit)72を備えている。CPU72は、バス配線74を介して、無線端末18が備える各種のハードウェア要素と接続されている。バス配線74には、例えば、ROM(Read Only Memory)76、RAM(Random Access Memory)78、ストレージ80等の各種メモリ装置が接続されている。
【0056】
ストレージ80は、フラッシュROM等の不揮発性メモリを含んでいる。各種のアプリケーションの実行に必要なプログラムやデータは、ストレージ80に格納されている。上述したメモリ部66および帰属先記録部70は、ストレージ80により実現される。また、CPU72は、ストレージ80に格納されているプログラムに沿って処理を進めることにより、
図5に示す制御情報算出部52、環境変化検出部62およびε初期化判断部64等の機能を実現する。
【0057】
無線端末18は、通信インターフェース82を備えている。通信インターフェース82は、上記のアンテナ部44および無線通信部46に相当する。無線端末18は、更に、操作部84および表示部86を備えている。操作部84は、各種の機械的なスイッチ機構および電子的なセンサ機構に加えて、表示部86と一体化されたタッチパネルを含んでいる。
【0058】
[DQNの概要]
図7は、DQNの概要を説明するための図である。以下、
図7を参照して、無線端末18
kが用いる深層強化学習の一例であるDQNの概要を説明する。本実施形態で用いられるDQNは、入力層と、隠れ層と、出力層を有している。また、DQNには、現時点tの学習状態に対応するパラメータθ
i
tが設定されている。DQNの価値関数としての特性は、パラメータθ
i
tにより決定される。
【0059】
図7において、DQNの入力層は、M個のノードS
1~S
Mを有している。これらのノードには、無線端末18
kの状態S
kを構成する要素が夫々入力される。状態S
kの要素には、例えば、以下のような要素が含まれる。
1.無線基地局16-bの帯域利用率φb、
2.無線端末18
kのインターフェースfの要求データレートR
kf、
3.無線端末18
kと無線基地局16-bとの帰属の関係x
bkf(帰属していれば1,そうでなければ0)
4.無線端末18
kのインターフェースfの無線基地局16-bに対する帰属の要求a
bkf(要求有りなら1、そうでなければ0)、
5.無線端末18
kのインターフェースfと無線基地局16-bとの間に成立している伝送レートr
bkf。
【0060】
隠れ層の層数とノード数は任意である。出力層は、無線端末18kが、状態Skの下で取ることのできる行動aiの総数Nと等しいノード数を有している。行動aiの一部を以下に例示する。
・IF1だけを無線基地局16-1に帰属させる。
・IF1およびIF2の双方を無線基地局16-1に帰属させる。
・IF2だけを無線基地局16-1に帰属させる。
・IF1を無線基地局16-1に帰属させ、IF2を無線基地局16-2に帰属させる。
・
・
・
【0061】
出力層の各ノードには、無線端末18kが取り得る行動ai(i=1~N)の夫々についてのQ値=Q(Sk,ai;θi
t)が表出する。Q値は、パラメータθi
tの下でDQNが算出した行動aiについての採用価値である。
【0062】
DQNを用いる手法では、出力層に表れたQ値の中から最も大きな値を選択して、そのQ値を生じさせる行動aiを、現時点tでの最適な行動ak(t)と決定する。DQNによれば、このようにして、個々の学習段階において、その時点tで最適と判断できる行動ak(t)を決定することができる。
【0063】
図8は、無線端末18
kの制御情報算出部52がDQNのパラメータθ
iを更新する流れを説明するため図である。尚、
図8では、行動a
k(t)を、便宜上DQN/DDQNの後段に示しているが、行動a
k(t)がDQNまたはDDQNにより決定されるのは、上記の通り確率1-εの場合に限られる。そして、確率εの下では、行動a
k(t)がランダムに決定される。パラメータθ
iには、それら双方の場合に得られた経験e
k(t)が反映される。
【0064】
無線端末18kでは、行動ak(t)が決定された後、その行動ak(t)に対する報酬Γk(t)が算出される。報酬Γk(t)は、例えば、次式(1)により算出される。
【0065】
【0066】
上記(1)式中、右辺第一項は加点項目であり、第二項は減点項目である。両者に付されたω1k、ω2kは、それらに対する配分比率を決める係数である。また、νは、IF1が対応するべき1GHz以下(sub)の項と、IF2が対応するべきミリ波(mW)の項とを区別するための識別子である。
【0067】
更に、上記(1)式中、右辺第一項中のc1k
νは、要求データレートRkfを満たす伝送レートrbkfが得られた場合の加点分を意味している。その値は、次式(2)により算出される。
【0068】
【0069】
上記(2)式は、以下の場合に、伝送レートrbkfに応じた加点rbkf/Wνが与えられることを意味している。但し、末項中のWνは(sub)と(mW)の周波数帯の違いを相殺して正規化するための因子である。
1.無線端末18kのインターフェースfが無線基地局16-bへの帰属を要求していること(abkf(t)=1)。
2.無線端末18kのインターフェースfの帰属を無線基地局16-bが認めており(xbkf=1)、かつ、要求データレートRkfを超える伝送レートrbkfが得られていること(rbkf(t)>Rkf)。
【0070】
上記(1)式中、右辺第二項中のc2k
νは、以下の二つの場面における減点分を意味している。
1.帰属の要求が出され(abkf(t)=1)、帰属は許可されたが(xbkf(t)=1)、要求データレートRkfを満たす伝送レートrbkfが得られなかった場合(rbkf(t)<Rkf)。
2.帰属の要求が出されたが(abkf(t)=1)、無線基地局16から帰属がドロップされてしまった場合(xbkf
ν(t)=0)。
【0071】
(sub)の場合の減点c2k
subは、例えば下記(3)式のように表すことができる。また、(mW)の場合の減点c2k
mWは、例えば下記(4)式および(5)式のように表すことができる。
【0072】
【0073】
【0074】
【0075】
このように、行動ak(t)の結果として要求データレートRkfを満たす伝送レートrbkf(t)が得られれば報酬Γk(t)は大きな値となる。他方、十分な伝送レートrbkf(t)が得られなければ、報酬Γk(t)は小さな値となる。
【0076】
報酬Γk(t)が算出されると、今回の経験ek(t)がメモリに格納される(ステップ88)。具体的には、現在の状態Sk(t)、選択された行動ak(t)、得られた報酬Γk(t)、並びに遷移後の状態Sk(t+1)が、経験ek(t)としてメモリに格納される。
【0077】
サンプルの系列に時間的な相関があると学習が適切に進まないことがある。この問題を解決するために、パラメータθiの更新にあたっては、メモリに格納された経験ekからランダムにメモリサンプルを取得し、それらをバッチ的に処理する(ステップ90)。
【0078】
ランダムに取得したメモリサンプル、つまり(Sk、ak、Γk、Sk´)を含む経験ekを用いて、DQN/DDQNのパラメータθiを更新する(ステップ92)。但し、Sk´は、行動akにより遷移した先の状態を指すものとする。本ステップ92の処理は、具体的には、以下のように進められる。
【0079】
行動akに対する報酬Γkが決まると、その報酬Γkに基づいて、状態Skの下で行動akを選択することについての「新たなQ値」=Q(Sk,ak)が算出できる。新たなQ値は、例えば下記(6)式のように算出される。
【0080】
Q(Sk,ak)←Γk+γ*maxQ(Sk´,ak´) ・・・(6)
但し、γは時間割引率である。
【0081】
上記(6)式の右辺、Γk+γ*maxQ(Sk´,ak´)は、(Sk,ak)の組合せに対して、「学習後のDQN」にQ値として算出して貰いたい値である。従って、DQNのパラメータθiは、(Sk,ak)の入力に対して出力層にその値が表出するように更新すればよい。
【0082】
下記(7)式は、本実施形態においてDQNのパラメータθiを更新する際に用いる損失関数Lkを示す。
【0083】
【0084】
但し、上記(7)式、右辺第一項のQ(Sk,ak;θi)は、パラメータθiを持つメインネットワークが(Sk,ak)の組合せに対して算出するQ値である。また、右辺第二項中のQ(Sk´,ak´;θi
―)は、パラメータθi
―を持つターゲットネットワークが(Sk´,ak´)の組合せに対して算出するQ値である。
【0085】
DQNを更新する際に、更新するネットワークの値を更新中のネットワークで計算すると、学習が安定しないことがある。このため、DQNの更新では、更新対象であるメインネットワークの他に、更新値を計算するためのターゲットネットワークを用いるのが通常である。本実施形態においても、上記通常の手法に従い、新たなQ値に当たる(7)式第二項は、ターゲットネットワークを用いて計算する。
【0086】
本ステップ92では、上記(7)式に示す損失関数Lkが最小化されるように、DQNのパラメータθi、つまりメインネットワークのパラメータθiが更新される。その結果、DQNは、状態Skの入力に対して、行動akのQ値として、上記(6)式右辺の値を表出するように学習される。
【0087】
ターゲットネットワークは、更新の直後を除いて、過去のメインネットワークと同一である。そして、ターゲットネットワークは、既定の周期で更新される(ステップ94)。即ち、既定の周期で更新時期が到来すると、ターゲットネットワークのパラメータθi
―が、メインネットワークのパラメータθiにより上書きされる。以上の処理により、DQNの更新が完了する。
【0088】
尚、下記(8)式は、本実施形態で、DDQNの手法が用いられる場合に、上記ステップ92において用いられる損失関数Lkを示す。更新の原理は、DQNの場合と同様であるため、これについての詳細は説明は省略する。
【0089】
【0090】
[無線端末のCPUによる処理]
図9は、上記の機能を実現するために無線端末18のCPU72において実行される処理の流れを説明するためのフローチャートである。
【0091】
図9に示すルーチンでは、先ず、無線端末18を取り巻く通信環境が確認される(ステップ100)。具体的には、アクセス可能な無線基地局16が、インターフェース毎に確認される。
【0092】
次に、通信環境に変化が認められたか否かが判別される(ステップ102)。
【0093】
その結果、変化が認められないと判別された場合は、ε係数の減衰処理が行われる(ステップ104)。
【0094】
一方、通信環境の変化が認められた場合は、ε係数が初期値にリセットされる(ステップ106)。これにより、減衰していたεが元の値に復帰する。
【0095】
次に、0~1の範囲に収まる乱数を発生させる。更に、その乱数がε以下であるかが判別される(ステップ108)。
【0096】
乱数≦εの成立が認められた場合は、現在の状態Sk(t)に対して、次の行動ak(t)がランダムに決定される(ステップ110)。
【0097】
これに対して、上記ステップ108で乱数≦εの成立が認められなかった場合は、DQNの入力層に状態Sk(t)が入力される(ステップ112)。そして、DQNの出力層に表れたQ値が比較され、最も大きなQ値を示す行動ai(t)が、現時点での最適な行動ak(t)として選択される(ステップ114)。
【0098】
次に、上記の処理により選択された行動ak(t)に基づいて、周囲の無線基地局16に対して帰属のリクエストが出される(ステップ116)。
【0099】
リクエストに対する応答を受信すると、その応答に含まれている情報に基づいて、選択した行動ak(t)に対する報酬Γk(t)が算出される(ステップ118)。
【0100】
次いで、メモリ部66を構成するRAM78に、今回のルーチンで取得した経験ek(t)、即ち、(Sk(t)、ak(t)、Γk(t)、Sk(t+1))のセットが格納される(ステップ120)。
【0101】
以後、バッチ処理によるDQNの更新が実行されて(ステップ122)、今回のルーチンが終了される。
【0102】
以上説明した通り、本実施形態の無線通信システム10によれば、複数の無線端末18と複数の無線基地局16とを含むヘテロジニアスな環境において、DQN、DDQN等のニューラルネットワークを用いて接続状態を管理することができる。そして、ε-greedy法を用いることで、そのネットワークの学習を早期に収束させることができる。更に、通信環境が変化した場合にεを初期化することで、そのネットワークの価値関数としての特徴を、適切に変化後の状況に追随させることができる。このため、本実施形態の構成によれば、無線通信に関わるシステムリソースを常に有効に活用し続けることができる。
【0103】
ところで、上述した実施の形態1では、無線端末18および無線基地局16が、無線通信に二つのIFを用いることとしているが、本開示はこれに限定されるものではない。例えば、無線通信用のIFは三つ以上であってもよい。更には、無線通信用のIFには、ライセンス帯を対象とするものと、無線LAN等に用いる非ライセンス帯を対象とするものとが混在していてもよい。或いは、無線通信用のIFは一つだけとして、DQN等の深層強化学習は、無線端末18が、どの無線基地局16に接続を求めるのが最適かを決定するために用いることとしてもよい。
【0104】
また、上述した実施の形態1では、行動を決める価値関数として、DQNまたはDDQNを用いることとしている。しかしながら、それらはあくまで例示であり、本開示はこれに限定されるものではない。特定の状態の下で取り得る行動毎の価値を判断することのできるものであれば、何れも本開示の価値関数として用いることができる。
【符号の説明】
【0105】
10 無線通信システム
16、16-1、16-2、16-3 無線基地局
18、18k 無線端末
52 制御情報算出部
60 帰属先算出部
62 環境変化検出部
64 ε判断部
Γk(t) 報酬
ak(t) 行動
ek(t) 経験
Sk(t) 状態
Sk(t+1) 遷移後の状態
Rkf 要求データレート
rbkf 伝送レート