IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-10000無線通信方法、無線端末および無線端末用プログラム
<>
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図1
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図2
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図3
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図4
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図5
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図6
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図7
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図8
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図9
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図10
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図11
  • 特開-無線通信方法、無線端末および無線端末用プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023010000
(43)【公開日】2023-01-20
(54)【発明の名称】無線通信方法、無線端末および無線端末用プログラム
(51)【国際特許分類】
   H04W 28/18 20090101AFI20230113BHJP
   H04W 72/0457 20230101ALI20230113BHJP
   H04W 16/32 20090101ALI20230113BHJP
   H04W 24/02 20090101ALI20230113BHJP
   H04W 48/16 20090101ALI20230113BHJP
【FI】
H04W28/18
H04W72/04 111
H04W16/32
H04W24/02
H04W48/16 132
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021113738
(22)【出願日】2021-07-08
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】若尾 佳佑
(72)【発明者】
【氏名】河村 憲一
(72)【発明者】
【氏名】守山 貴庸
(72)【発明者】
【氏名】金子 めぐみ
(72)【発明者】
【氏名】ティハーリー ディン
【テーマコード(参考)】
5K067
【Fターム(参考)】
5K067AA13
5K067AA23
5K067BB04
5K067BB21
5K067DD11
5K067DD17
5K067DD43
5K067DD45
5K067EE02
5K067EE10
5K067EE24
5K067EE56
5K067FF16
5K067HH22
5K067JJ13
5K067JJ37
(57)【要約】
【課題】この開示は、無線通信方法に関し、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得ることを目的とする。
【解決手段】複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備えるDQNを準備する。DQNは、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能する。パラメータの更新対象を、DQNの隠れ層の後段に結び付くパラメータに制限する(ステップ128)。接続の状態S(t)をDQNの入力層に提供して(ステップ108)最適行動a(t)を選択する(ステップ110)。行動a(t)に対して算出された報酬Γ(t)(ステップ114)に基づいて、DQNのパラメータを更新する(ステップ118)。この際、パラメータは、隠れ層の後段に関わるものだけが更新される。
【選択図】図12
【特許請求の範囲】
【請求項1】
複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを準備するステップと、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する応答を複数の無線基地局から取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限するステップと、
を含む無線通信方法。
【請求項2】
前記パラメータを初期化する段階で、前記パラメータの更新範囲を、前記ニューラルネットワークの全パラメータとするステップと、
前記初期化の終了後に前記全パラメータを保管するステップとを含み、
前記パラメータの更新範囲を制限した状態での前記学習は、前記初期化の終了後、かつ前記保管の終了後に実行される請求項1に記載の無線通信方法。
【請求項3】
前記ニューラルネットワークは、BUB個の無線基地局に対応する入力層および出力層を備え、
前記BUB個の無線基地局の中から、通信品質の優れた無線基地局を、前記BUB個より少ないBmax個だけ選定するステップと、
前記パラメータの更新範囲を、前記Bmax個の無線基地局に関わる行動に結びつくパラメータに更に制限するステップと、
を含む請求項1または2に記載の無線通信方法。
【請求項4】
前記ニューラルネットワークは、Deep Q-NetworkまたはDouble Deep Q-Networkである請求項1乃至3の何れか1項に記載の無線通信方法。
【請求項5】
複数の無線基地局と接続する機能を有する無線端末であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを格納したメモリ部と、CPUとを備え、
前記CPUが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行する無線端末。
【請求項6】
前記CPUは、
前記パラメータを初期化する段階で、前記パラメータの更新範囲を、前記ニューラルネットワークの全パラメータとする処理、
前記初期化の終了後に前記全パラメータを保管する処理とを更に実行し、
前記パラメータの更新範囲を制限した状態での前記学習は、前記初期化の終了後、かつ前記保管の終了後に実行される請求項5に記載の無線端末。
【請求項7】
前記ニューラルネットワークは、BUB個の無線基地局に対応する入力層および出力層を備え、
前記CPUは、
前記BUB個の無線基地局の中から、通信品質の優れた無線基地局を、前記BUB個より少ないBmax個だけ選定する処理と、
前記パラメータの更新範囲を、前記Bmax個の無線基地局に関わる行動に結びつくパラメータに更に制限する処理と、
を更に実行する請求項5または6に記載の無線端末。
【請求項8】
複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるCPUに、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークをメモリ部から読み出させる処理と、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行させるプログラムを含む無線端末用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この開示は、無線通信方法、無線端末および無線端末用プログラムに係り、特に、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得る上で好適な無線通信方法、無線端末および無線端末用プログラムに関する。
【背景技術】
【0002】
無線通信システムの発展に伴い、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークが実用化の段階に至っている。セルラー通信では、第5世代移動通信(5G)が実用化されている。5Gの通信システムでは、1GHz以下の帯域からミリ波帯まで幅広い周波数が利用される。また、スモールセルからマクロセルまで、様々なサイズのセルが重畳するように提供される環境が整備されつつある。
【0003】
もう一つの代表的な無線アクセスシステムである無線LANでは、2.4/5/60GHz帯の無線周波数が利用されており、更に、6GHz帯の利用も検討されている。スマートフォンなどの無線端末には、セルラーおよび無線LANの双方にアクセスするためのインターフェース(IF)が一般的に与えられている。また、それぞれのIFは複数の周波数帯に対応するように構成されている。
【0004】
無線端末は、複数の周波数帯およびアクセス方式から、接続する無線基地局或いはアクセスポイント(AP)を選択して、通信を確立することが一般的となっている。デュアルコネクティビティ等の機能により、1台の無線端末が複数の無線基地局を統合して利用することも行われる。このようなヘテロジニアス環境においては、無線端末がどのIFを用いてどの基地局を選択するかを、システム全体で制御し最適化することが、システムリソースを有効に利用するうえで重要である。
【0005】
ヘテロジニアスな環境において、システムリソースを有効に利用する技術に関して、例えば下記非特許文献1や非特許文献2は、無線端末とAPとの接続を、強化学習により最適化する手法を開示している。より具体的には、非特許文献2は、Deep Q-Learning、或いはDouble Deep Q-Learningの手法を用いて、複数のIFを用いる無線端末と複数のAPとの接続を最適化する技術を開示している。
【0006】
また、下記非特許文献3は高次元の入力を強化学習で取り扱う手法であるDeep Q-Network(DQN)についての開示を、また、下記非特許文献4はDouble Deep Q-Network(DDQN)についての開示を夫々提供している。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】“Reinforcement Learning-aided Distributed User-to-Access Points Association in Interfering Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Hirantha Abeysekera, Yasushi Takatori, IEEE Globecom, Waikoloa, Hawaii, USA, Dec. 2019
【非特許文献2】“Deep Reinforcement Learning-based User Association in Sub6GHz/mmWave Integrated Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Kenichi Kawamura, Takatsune Moriyama, Hirantha Abeysekera and Yasushi Takatori, in IEEE CCNC, Jan. 2021
【非特許文献3】“Human-level control through deep reinforcement learning,”Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves,Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou,Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis, Nature. 2015 Feb 26; Vol.518(7540): P529-533. doi: 10.1038/nature14236
【非特許文献4】“Deep Reinforcement Learning with Double Q-Learning,” H. Van Hasselt, A. Guez, and D. Silver, in Thirtieth AAAI conference on artificial intelligence, 2016
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、マルチバンド・マルチアクセスのテヘロジニアスな環境では、スマートフォンやタブレットのようなモバイル端末が無線端末として用いられることがある。モバイル端末を取り巻く通信環境は、モバイル端末の移動に伴って変化する。また、同じエリアの中に多数の無線端末が存在する場合は、個々の無線端末から発せられる要求の変化が、そのエリアに属する無線端末や無線基地局の負荷に影響を与える。その結果、個々の無線端末を取り巻く通信環境は、他の無線端末の状態によっても大きく変化する。これらの理由により、ヘテロジニアスな環境に置かれた無線端末が、どの無線基地局に対して、どのIFで接続するかに関する最適解は、安定的なものではなく、激しく変化する動的なものとなることがある。
【0009】
DQNやDDQNのような強化学習を用いて無線端末と無線基地局との接続を最適化しようとした場合、通信環境が変化すれば、変化後の環境に適合するように強化学習のパラメータを更新する必要がある。そして、通信環境が頻繁に変化する環境下では、そのような更新を高い頻度で実行する必要がある。
【0010】
無線端末を、複数のIFを用いて多数の無線基地局と接続させる環境下では、無線基地局の数、およびIFの数が増えるほど、上記の更新に伴って高い負荷が生ずる。無線端末の処理能力は有限であるため、無線基地局の数、並びに使用可能なIFの数が増えるに従って、高頻度でのパラメータ更新に追随することが無線端末にとって困難になる。
【0011】
本開示は、上記の課題に着目してなされたものであり、複数の無線端末と複数の基地局等とを含むネットワークにおいて、最適化のために必要なパラメータ更新の演算負荷を軽減することのできる無線通信方法、無線端末および無線端末用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本開示の第1の態様は、上記の目的を達成するため、複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを準備するステップと、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する応答を複数の無線基地局から取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限するステップと、
を含むことが望ましい。
【0013】
また、本開示の第2の態様は、複数の無線基地局と接続する機能を有する無線端末であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを格納したメモリ部と、CPUとを備え、
前記CPUが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行することが望ましい。
【0014】
また、本開示の第3の態様は、複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるCPUに、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークをメモリ部から読み出させる処理と、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行させるプログラムを含むことが望ましい。
【発明の効果】
【0015】
本開示によれば、複数の無線端末と複数の基地局等とを含むネットワークにおいて、無線端末の行動を決めるニューラルネットワークのパラメータ更新範囲を、隠れ層の後段の層に結び付くパラメータに制限することができる。このため、本開示によれば、全てのパラメータが更新される場合に比して、パラメータの更新に伴う計算負荷を軽減することができる。その結果、無線基地局の数、或いはそこで用いられる無線通信用のインターフェースの数が増えても、パラメータを高頻度で更新することが可能となり、システムリソースを常に有効に活用することが可能となる。
【図面の簡単な説明】
【0016】
図1】本開示の実施の形態1の無線通信システムの全体構成を説明するための図である。
図2】本開示の実施の形態1における無線端末と無線基地局との接続状態の一例を説明するための図である。
図3】本開示の実施の形態1においてヘテロジニアスな環境下で無線端末が移動している様子を表す図である。
図4】本開示の実施の形態1で用いられる無線基地局の機能的な構成を説明するためのブロック図である。
図5】本開示の実施の形態1で用いられる無線端末の機能的な構成を説明するためのブロック図である。
図6】本開示の実施の形態1で用いられる無線端末のハードウェア構成を説明するための図である。
図7】本開示の実施の形態1で用いられるDQNの概要を説明するための図である。
図8】本開示の実施の形態1で用いられるDQNの更新に関わる処理の内容を説明するための図である。
図9】本開示の実施の形態1で用いられるDQNのパラメータの初期化を説明するための図である。
図10】本開示の実施の形態1で用いられるDQNのパラメータの部分更新を説明するための図である。
図11】本開示の実施の形態1における無線端末が、DQNのパラメータを初期化する際の処理の流れを説明するためのフローチャートである。
図12】本開示の実施の形態1における無線端末が、DQNのパラメータを部分更新する際の処理の流れを説明するためのフローチャートである。
【発明を実施するための形態】
【0017】
実施の形態1.
[実施の形態1の全体構成]
図1は、本開示の実施の形態1の無線通信システム10の全体構成を説明するための図である。図1に示すように、無線通信システム10は、有線通信のネットワーク12を含んでいる。ネットワーク12には、スイッチ14を介して複数の無線基地局16が接続されている。無線基地局16は、ネットワーク12を介して、また無線の経路を介して、他の無線基地局16と通信することができる。
【0018】
図1に示す無線通信システム10は、複数の無線端末18を含んでいる。本実施形態において、無線端末18は、スマートフォン、或いはタブレット端末のようなモバイル端末を含んでいるものとする。
【0019】
無線端末18は、夫々、無線通信用のアプリケーションとIFを、複数組み備えている。例えば、無線端末18は、1GHz以下での通信に用いるアプリケーション並びにIF、ミリ波帯での通信に用いるアプリケーション並びにIF、更には、無線LANで用いられる2.4/5/60GHz帯での通信に用いるアプリケーション並びにIFを備えている。
【0020】
上述した無線基地局16にも、それらに対応するIF等が備わっている。そして、個々の無線端末18は、上記のアプリケーションおよびIFを介して、単一または複数の無線基地局16と無線で通信することができる。これにより、本実施形態の無線通信システム10は、マルチバンド・マルチアクセスによるヘテロジニアスなネットワークとしての機能を実現する。
【0021】
尚、本実施形態の無線通信システム10は、通信事業者が設置するセルラー通信用の無線基地局に加えて、無線LANのアクセスポイント(AP)にも対応している。以下、便宜上「無線基地局16」は両者を包括するものとして説明を進める。
【0022】
[実施の形態1の特徴]
次に、図2乃至図12を参照して、本実施形態における無線端末18の特徴を説明する。以下の説明では、無線基地局16および無線端末18が、第一の周波数帯域での通信に対応するインターフェースIF1と、第二の周波数帯域での通信に対応するインターフェースIF2を備えていることとする。IF1は、例えば、1GHz以下の周波数帯に対応するインターフェースであり、IF2は、例えば、ミリ波帯の周波数に対応するインターフェースである。
【0023】
また、以下の説明では、無線端末18を複数の中の特定の一台として指し示す必要がある場合は、符号kを用いて「無線端末18」のように表示する。更に、複数の無線基地局16の夫々を区別して説明する必要がある場合は、16-1、16-2のように添え字を付した符号を用いることとする。
【0024】
図2は、無線端末18が、二台の無線基地局16-1、16-2に帰属している様子を示している。無線端末18は、自己を取り巻く通信環境において、ハードウェアの制約により定まる上限数BUBの無線基地局16を通信対象として取り扱うことができる。図2は、それらBBU個の無線基地局16のうち、無線端末18が無線基地局16-1および16-2と接続している状態を示している。
【0025】
無線端末18および無線基地局16は、上記の通り、異なる帯域に対応する二つのインターフェース、IF1およびIF2を備えている。図2に示す例では、無線端末18が、IF1で第一の無線基地局16-1に帰属し、IF2で第二の無線基地局16-2に帰属する状態が形成されている。
【0026】
図3は、マルチバンド・マルチアクセスによるヘテロジニアスな環境下で、無線端末18が移動している様子を示している。先ず、無線端末18が、図中最も左の位置に存在する環境を想定する。この環境において、無線端末18が、無線基地局16-1および16-2に帰属する状態が最適であれば、無線端末18からの接続要求は、その状態が実現されるように発せられることが望ましい。
【0027】
ここで、無線端末18が、図中最も左の位置から図の中央、更には図の右側へと移動すれば、最適な接続の組合せは当初の組合せから変化する。同様の変化は、無線端末18と同じ環境に属する他の無線端末18(図示略)の移動や、それらからの要求データレートの変化等によっても生ずる。このため、無線端末18は、通信環境が変化した場合には、変化後の環境下に最適な組み合わせで、接続要求を発することが望ましい。
【0028】
本実施形態において、無線端末18は、接続を求める無線基地局16並びにIFを、Deep Q-Network(DQN)またはDouble Deep Q-Network(DDQN)を用いて決定する。このため、ここで用いられるDQN或いはDDQNは、安定した通信環境の下では、その環境に最適な状態に早期に収束し、かつ、動的な通信環境の下では、迅速に環境変化に追随するものであることが望まれる。
【0029】
図4は、無線基地局16の一例を機能的に説明するためのブロック図である。無線基地局16は、アンテナ部20を備えている。アンテナ部20は、無線基地局16が、他の無線基地局16並びに周囲の無線端末18と無線信号を授受するために用いられる。
【0030】
アンテナ部20は、無線通信部22に接続されている。無線通信部22は、高周波の信号を処理するRF(Radio Frequency)部24と、無線通信におけるメディアアクセス制御の機能を備えたMAC(Media Access Control)機能部26とを備えている。無線通信部22は、複数の周波数帯域に対応する機能、具体的には、1GHz以下に対応するIF1としての機能と、ミリ波帯の周波数に対応するIF2としての機能を、共に実現することができるように構成されている。
【0031】
無線基地局16は、また、品質測定部28を備えている。品質測定部28は、無線環境測定部30とトラヒック測定部32を備えている。無線環境測定部30は、無線基地局16を取り巻く無線通信の環境に関わる情報を取得する。トラヒック測定部32は、無線基地局16と無線端末18との間のトラヒックに関わる情報を取得する。品質測定部28は、それらの情報に基づいて、無線基地局16と無線端末18との間の通信品質の情報を算出する。通信品質情報には、例えば、無線端末18からの受信電力、無線端末18の要求データレート、現実の伝送レート、および無線基地局16における帯域使用率等が含まれる。
【0032】
無線基地局16は、通信IF部34を備えている。通信IF部34は、ネットワーク12を経由する有線での通信に用いられる。無線基地局16は、通信IF部34を経由する有線通信により、或いは無線通信部22およびアンテナ部20を経由する無線通信により、他の無線基地局16が取得した通信品質情報を取得することができる。他の無線基地局16から取得した通信品質情報は、自らが取得した通信品質情報と共に、品質測定部28において一元的に管理される。
【0033】
無線基地局16は、情報通知部36を備えている。情報通知部36は、品質測定部28に集約された通信品質情報を読み出すことができる。情報通知部36は、読み出した通信品質情報を、通信IF部34並びに無線通信部22に提供することができる。これにより、無線基地局16は、有線または無線の経路で、自らが保有する通信品質情報を他の無線基地局16に提供することができる。
【0034】
無線基地局16は、無線通信部22およびアンテナ部20を介して、周辺に位置する無線端末18から帰属要求を受け付ける。帰属要求は、要求情報評価部38で処理される。要求情報評価部38は、無線端末18が要求する帯域およびデータレート、更には自らの負荷状態等に基づいて帰属の可否を判断する。
【0035】
要求情報評価部38による判断の結果は、要求応答通知部40と、帰属情報記録部42に送られる。要求応答通知部40は、無線通信部22およびアンテナ部20を介して、帰属要求を発した無線端末18に向けて、帰属の可否に関する判断結果を提供する。帰属情報記録部42は、その判断の結果に基づいて、無線基地局16に如何なる無線端末18が帰属しているのかに関する情報を更新および記録する。
【0036】
図5は、無線端末18の一例を機能的に説明するためのブロック図である。無線端末18は、アンテナ部44および無線通信部46を備えている。無線通信部46は、RF部24およびMAC機能部50を備えている。これらの機能は、無線基地局16が備える対応ブロックの機能と実質的に同じであるため、ここでは、その説明を省略する。
【0037】
無線端末18は、制御情報算出部52を備えている。制御情報算出部52は、無線通信部46およびアンテナ部44を介して、帰属先の無線基地局16から通信品質情報を取得する。そして、制御情報算出部52は、通信品質情報に基づいて、DQNまたはDDQNにより、複数の無線通信用のIFの夫々を、どの無線基地局16に接続させるのが最適な行動aであるかを決める処理と、そのための学習とを行う。
【0038】
制御情報算出部52は、状態算出部54を備えている。状態算出部54では、通信品質情報に基づいて、DQNまたはDDQNの入力層に提供する状態S(t)が算出される。
【0039】
制御情報算出部52は、また、報酬算出部56を備えている。報酬算出部56は、通信品質情報に基づいて、採用された行動aにより得られる報酬Γを算出する。
【0040】
制御情報算出部52は、更に、DQN/DDQN更新部58を備えている。DQN/DDQN更新部58では、強化学習に用いられるDQNまたはDDQNのパラメータθが更新される。より具体的には、DQNまたはDDQNの価値関数としての特徴を決める重み付けの係数やバイアス値(以下、「重み付け係数等」とする)が更新される。
【0041】
DQN/DDQN更新部58によって更新されたDQNまたはDDQNは、帰属先算出部60において用いられる。即ち、帰属先算出部60は、更新後のDQNまたはDDQNに従って、今回採用するべき行動a、つまり、どのIFをどの無線基地局16に帰属させるべきかを算出する。
【0042】
DQNおよびDDQNは、入力層に状態Sが与えられると、無線端末18が採り得る行動aの夫々について、採用の価値を出力層に表出させる。従って、その価値が最も大きい値となる行動を選択すれば、現在の学習段階において最適と考えられる行動を選択することができる。但し、次の行動aが常に上記の価値に基づいて選択されるとすると、偶然選ばれた局所的な解に囚われてしまい、真の最適行動が永遠に選択されない事態に陥ることがある。
【0043】
帰属先算出部60は、そのような事態の発生を避けるため、ε-greedy法に従って行動aを算出する。このため、帰属先算出部60では、確率εで、DQNまたはDDQNによらずランダムに次の行動aが選択される。また、確率1-εで、DQNまたはDDQNが最適と判断する行動aが選択される。
【0044】
更に、帰属先算出部60は、学習が繰り返される毎に、εに減衰処理を施す。偶然選ばれた局所的解に陥る可能性は、学習初期の段階で大きく、学習が進行するに連れて小さくなる。このため、ランダムに行動aを選択する必要性は、学習が進むに連れて小さくなる。εに減衰処理を施すと、その必要性の低下に合わせて、行動aがランダムに選択される頻度を下げることができる。このため、本実施形態の帰属先算出部60によれば、効率よく学習を進めて、パラメータθを短期間で最適値に収束させることができる。
【0045】
ところで、DQNまたはDDQNのパラメータを学習する手法として、転移学習(Transfer Learning)が知られている。転移学習とは、学習済みモデルをベースに、最終の出力層を付け替えて学習させる手法である。転移学習では、入力層に近い部分のパラメータは学習済みの値から変化させず、付け替えた出力層へのパラメータ、およびその手前の幾つかの層のパラメータだけが自前のデータで学習し直される。転移学習によれば、一部のパラメータだけが更新の対象となるため、パラメータの全てを更新する場合に比して、更新に伴う計算負荷を軽減することができる。
【0046】
本実施形態の無線通信システム10では、上記の通り、動的な通信環境の下で、DQNまたはDDQNを迅速に環境変化に追随させることが望まれる。そのためには、DQNまたはDDQNの更新を高い頻度で繰り返す必要がある。そして、その更新を高い頻度で繰り返すためには、その更新に伴う計算負荷を十分に軽減することが必要である。
【0047】
本実施形態では、上記の観点の下、DQNまたはDDQNの更新に、転移学習の考え方を応用して、パラメータの部分更新を行う。つまり、パラメータの初期化が終了した後は、DQNまたはDDQNに含まれる隠れ層のうち、前段に対応するパラメータは固定して、その後段に対応するパラメータだけを更新する。この手法によれば、全てのパラメータが更新対象である場合に比して、DQNまたはDDQNの更新に伴う計算負荷を大幅に軽減することができる。
【0048】
また、本実施形態における無線端末18は、上記の通り、ハードウェアが許容するBUB個の無線基地局16を通信の対象として取り扱う。そして、BUB個の無線基地局16を通信対象としてDQNまたはDDQNを更新しようとすると、無線端末18が備える二つのIFと、BUB個の無線基地局16が備える二つのIFとの間に成立し得る可能な組み合わせの数が状態空間のサイズとなる。
【0049】
しかしながら、BUB個の無線基地局16には、無線端末18との間の信号強度が弱く、現実的には帰属先の対象とならないものが含まれる。そして、このような無線基地局16を帰属先から省けば、DQNまたはDDQNの更新において考慮すべき状態空間のサイズが小さくなり、更新に伴う演算負荷を下げることができる。
【0050】
無線端末18は、上記の機能を実現するため、環境変化検出部62と、更新範囲制御部64を備えている。環境変化検出部62は、以下の三つの機能を果たす。
1.周囲の無線基地局16から受信する信号に基づいて、チャネル品質の状態を表すRSSI(Received Signal Strength Indicator)を計測する。
2.RSSIが示す強度が高い順にBmax個の無線基地局16を選択する。但し、Bmaxは、BUBより小さな数である。
3.Bmax個に含まれる無線端末18の組み合わせ、或いはそれらにおいて利用可能なIFの組み合わせが変化した場合に、環境の変化を認定する。
【0051】
更新範囲制御部64は、以下の三つの機能を果たす。
1.パラメータθを初期化する段階では、隠れ層の全てを更新の対象とすることをDQN/DDQN更新部58に指示する。同時に、BUB個の無線基地局6の全てをアクティブな対象として取り扱うことを、報酬算出部56およびDQN/DDQN更新部58に指示する。
2.初期化の終了後は、隠れ層の後段だけを更新の対象とすることをDQN/DDQN更新部58に指示する。同時に、RSSIの大きなBmax個の無線基地局16だけをアクティブな対象として扱うことを、報酬算出部56およびDQN/DDQN更新部58に指示する。
3.環境変化検出部62が環境変化を認定したら、学習済みのパラメータを保存して、アクティブな対象を新たなBmax個の無線基地局16に変更することを、報酬算出部56およびDQN/DDQN更新部58に指示する。
【0052】
報酬算出部56およびDQN/DDQN更新部58は、更新範囲制御部64の指示に従ってパラメータθの更新手法を切り替える。これにより、初期化の終了後は、パラメータθの更新に伴う負荷が十分に軽減される。
【0053】
本実施形態において、無線端末18は、メモリ部66を備えている。メモリ部66は、下記の情報を経験e(t)として格納する。
1.今回の学習でDQNまたはDDQNの入力層に提供された状態S(t)、
2.その状態S(t)に応じて決定された行動a(t)、
3.その行動a(t)により得られた報酬Γ(t)、
4.その行動a(t)により遷移した先の状態S(t+1)。
【0054】
無線端末18は、また、帰属先要求部68を備えている。帰属先要求部68は、帰属先算出部60から行動aを受け取り、その行動aに対応するリクエストを生成する。例えば、無線端末18をIF1で無線基地局16-1に接続する、或いは、無線端末18をIF2で無線基地局16-2に接続する、といったリクエストを生成する。生成されたリクエストは、無線通信部46およびアンテナ部20を介して、単一または複数の無線基地局16に送信される。
【0055】
無線端末18は、帰属先記録部70を備えている。無線基地局16から受け取る情報には、リクエストに対する可否の応答が含まれている。例えば、その情報には、新たな接続を許可する旨の応答、或いは接続の更新を許可する旨の応答等が含まれている。帰属先記録部70は、これらの応答に基づいて、帰属先の無線基地局16についての情報を更新して記録する。
【0056】
図6は、無線端末18のハードウェア構成を説明するための図である。ここでは、無線端末18がスマートフォンである場合について説明する。但し、無線端末18は、スマートフォンに限定されるものではなく、タブレット端末や汎用のコンピュータシステムであってもよい。
【0057】
無線端末18は、CPU(Central Processing Unit)72を備えている。CPU72は、バス配線74を介して、無線端末18が備える各種のハードウェア要素と接続されている。バス配線74には、例えば、ROM(Read Only Memory)76、RAM(Random Access Memory)78、ストレージ80等の各種メモリ装置が接続されている。
【0058】
ストレージ80は、フラッシュROM等の不揮発性メモリを含んでいる。各種のアプリケーションの実行に必要なプログラムやデータは、ストレージ80に格納されている。上述したメモリ部66および帰属先記録部70は、ストレージ80により実現される。また、CPU72は、ストレージ80に格納されているプログラムに沿って処理を進めることにより、図5に示す制御情報算出部52、環境変化検出部62および更新範囲制御部64等の機能を実現する。
【0059】
無線端末18は、通信インターフェース82を備えている。通信インターフェース82は、上記のアンテナ部44および無線通信部46に相当する。無線端末18は、更に、操作部84および表示部86を備えている。操作部84は、各種の機械的なスイッチ機構および電子的なセンサ機構に加えて、表示部86と一体化されたタッチパネルを含んでいる。
【0060】
[DQNの概要]
図7は、DQNの概要を説明するための図である。以下、図7を参照して、無線端末18が用いる深層強化学習の一例であるDQNの概要を説明する。本実施形態で用いられるDQNは、入力層と、隠れ層と、出力層を有している。また、DQNには、現時点tの学習状態に対応するパラメータθ が設定されている。DQNの価値関数としての特性は、パラメータθ により決定される。
【0061】
図7において、DQNの入力層は、M個のノードS~Sを有している。これらのノードには、無線端末18の状態Sを構成する要素が夫々入力される。状態Sの要素には、例えば、以下のような要素が含まれる。
1.無線基地局16-bの帯域利用率φb、
2.無線端末18のインターフェースfの要求データレートRkf
3.無線端末18と無線基地局16-bとの帰属の関係xbkf(帰属していれば1、そうでなければ0)、
4.無線端末18のインターフェースfの無線基地局16-bに対する帰属の要求abkf(要求有りなら1、そうでなければ0)、
5.無線端末18のインターフェースfと無線基地局16-bとの間に成立している伝送レートrbkf
【0062】
隠れ層の層数とノード数は任意である。但し、本実施形態では、隠れ層の層数は二以上であるものとする。出力層は、無線端末18が、状態Sの下で取ることのできる行動aの総数Nと等しいノード数を有している。行動aの一部を以下に例示する。
・IF1だけを無線基地局16-1に帰属させる。
・IF1およびIF2の双方を無線基地局16-1に帰属させる。
・IF2だけを無線基地局16-1に帰属させる。
・IF1を無線基地局16-1に帰属させ、IF2を無線基地局16-2に帰属させる。


【0063】
出力層の各ノードには、無線端末18が取り得る行動a(i=1~N)の夫々についてのQ値=Q(S,a;θ )が表出する。Q値は、パラメータθ の下でDQNが算出した行動aについての採用価値である。
【0064】
DQNを用いる手法では、出力層に表れたQ値の中から最も大きな値を選択して、そのQ値を生じさせる行動a(t)を、現時点tでの最適な行動a(t)と決定する。DQNによれば、このようにして、個々の学習段階において、その時点tで最適と判断できる行動a(t)を決定することができる。
【0065】
図8は、無線端末18の制御情報算出部52がDQNのパラメータθを更新する流れを説明するため図である。尚、図8では、行動a(t)を、便宜上DQN/DDQNの後段に示しているが、行動a(t)がDQNまたはDDQNにより決定されるのは、上記の通り確率1-εの場合に限られる。そして、確率εの下では、行動a(t)がランダムに決定される。パラメータθには、それら双方の場合に得られた経験e(t)が反映される。
【0066】
無線端末18では、行動a(t)が決定された後、その行動a(t)に対する報酬Γ(t)が算出される。報酬Γ(t)は、例えば、次式(1)により算出される。
【0067】
【数1】
【0068】
上記(1)式中、右辺第一項は加点項目であり、第二項は減点項目である。両者に付されたω1k、ω2kは、それらに対する配分比率を決める係数である。また、νは、IF1が対応するべき1GHz以下(sub)の項と、IF2が対応するべきミリ波(mW)の項とを区別するための識別子である。
【0069】
更に、上記(1)式中、右辺第一項中のc1k ν(t)は、要求データレートRkfを満たす伝送レートrbkf(t)が得られた場合の加点分を意味している。その値は、次式(2)により算出される。
【0070】
【数2】
【0071】
上記(2)式は、以下の場合に、伝送レートrbkf(t)に応じた加点rbkf(t)/Wνが与えられることを意味している。但し、末項中のWνは(sub)と(mW)の周波数帯の違いを相殺して正規化するための因子である。
1.無線端末18のインターフェースfが無線基地局16-bへの帰属を要求していること(abkf(t)=1)。
2.無線端末18のインターフェースfの帰属を無線基地局16-bが認めており(xbkf(t)=1)、かつ、要求データレートRkfを超える伝送レートrbkf(t)が得られていること(rbkf(t)>Rkf)。
【0072】
上記(1)式中、右辺第二項中のc2k ν(t)は、以下の二つの場面における減点分を意味している。
1.帰属の要求が出され(abkf(t)=1)、帰属は許可されたが(xbkf(t)=1)、要求データレートRkfを満たす伝送レートrbkf(t)が得られなかった場合(rbkf(t)<Rkf)。
2.帰属の要求が出されたが(abkf(t)=1)、無線基地局16から帰属がドロップされてしまった場合(xbkf ν(t)=0)。
【0073】
(sub)の場合の減点c2k sub(t)は、例えば下記(3)式のように表すことができる。また、(mW)の場合の減点c2k mW(t)は、例えば下記(4)式および(5)式のように表すことができる。
【0074】
【数3】
【0075】
【数4】
【0076】
【数5】
【0077】
このように、行動a(t)の結果として要求データレートRkfを満たす伝送レートrbkf(t)が得られれば報酬Γ(t)は大きな値となる。他方、十分な伝送レートrbkf(t)が得られなければ、報酬Γ(t)は小さな値となる。
【0078】
報酬Γ(t)が算出されると、今回の経験e(t)がメモリに格納される(ステップ88)。具体的には、現在の状態S(t)、選択された行動a(t)、得られた報酬Γ(t)、並びに遷移後の状態S(t+1)が、経験e(t)としてメモリに格納される。
【0079】
サンプルの系列に時間的な相関があると学習が適切に進まないことがある。この問題を解決するために、パラメータθの更新にあたっては、メモリに格納された経験eからランダムにメモリサンプルを取得し、それらをバッチ的に処理する(ステップ90)。
【0080】
ランダムに取得したメモリサンプル、つまり(S、a、Γ、S´)を含む経験eを用いて、DQN/DDQNのパラメータθを更新する(ステップ92)。但し、S´は、行動aにより遷移した先の状態を指すものとする。本ステップ92の処理は、具体的には、以下のように進められる。
【0081】
行動aに対する報酬Γが決まると、その報酬Γに基づいて、状態Sの下で行動aを選択することについての「新たなQ値」=Q(S,a)が算出できる。新たなQ値は、例えば下記(6)式のように算出される。
【0082】
Q(S,a)←Γk+γ*maxQ(S´,a´) ・・・(6)
但し、γは、時間割引率である。
【0083】
上記(6)式の右辺、Γ+γ*maxQ(S´,a´)は、(S,a)の組合せに対して、「学習後のDQN」にQ値として算出して貰いたい値である。従って、DQNのパラメータθは、(S,a)の入力に対して出力層にその値が表出するように更新すればよい。
【0084】
下記(7)式は、本実施形態においてDQNのパラメータθを更新する際に用いる損失関数Lを示す。
【0085】
【数6】
【0086】
但し、上記(7)式、右辺第一項のQ(S,a;θ)は、パラメータθを持つメインネットワークが(S,a)の組合せに対して算出するQ値である。また、右辺第二項中のQ(S´,a´;θ )は、パラメータθ を持つターゲットネットワークが(S´,a´)の組合せに対して算出するQ値である。
【0087】
DQNを更新する際に、更新するネットワークの値を更新中のネットワークで計算すると、学習が安定しないことがある。このため、DQNの更新では、更新対象であるメインネットワークの他に、更新値を計算するためのターゲットネットワークを用いるのが通常である。本実施形態においても、上記通常の手法に従い、新たなQ値に当たる(7)式第二項は、ターゲットネットワークを用いて計算する。
【0088】
本ステップ92では、上記(7)式に示す損失関数Lが最小化されるように、DQNのパラメータθ、つまりメインネットワークのパラメータθが更新される。その結果、DQNは、状態Sの入力に対して、行動aのQ値として、上記(6)式右辺の値を表出するように学習される。
【0089】
ターゲットネットワークは、更新の直後を除いて、過去のメインネットワークと同一である。そして、ターゲットネットワークは、既定の周期で更新される(ステップ94)。即ち、既定の周期で更新時期が到来すると、ターゲットネットワークのパラメータθ が、メインネットワークのパラメータθにより上書きされる。以上の処理により、DQNの更新が完了する。
【0090】
尚、下記(8)式は、本実施形態で、DDQNの手法が用いられる場合に、上記ステップ92において用いられる損失関数Lを示す。更新の原理は、DQNの場合と同様であるため、これについての詳細は説明は省略する。
【0091】
【数7】
【0092】
[パラメータθの初期化]
図9は、パラメータθを初期化する際のDQNの特徴を模式的に表した図である。ここでは、隠れ層の層数を「二」に設定している。パラメータθには、隠れ層のhノードが出力層のaノードを選択するための重み付け係数Wh等が含まれる。パラメータθの初期化の際には、上記の通り、更新範囲制御部64が、隠れ層の全てを更新の対象とすること、およびBUB個の無線基地局16の全てをアクティブなものとして取り扱うことを指示する。
【0093】
DQNおよびDDQNの入力層並びに出力層には、BUB個の無線基地局16を取り扱うために必要な数のノードが準備されている。例えば、出力層には、無線端末18が備える二つのIFと、BUB個の無線基地局16が夫々有するIFとの間に成り立つ組合せの総数に等しい数のノードa~a|A|が準備される。パラメータθを初期化する段階では、それらのノードの全てがアクティブな状態とされる。そして、DQNまたはDDQNのノード間に夫々設定される重み付け係数W等の全てが学習により更新される。
【0094】
この際、報酬Γ(t)の計算も、BUB個の無線基地局16を処理の対象として計算される。即ち、上記(1)式~(4)式に示すように、報酬Γ(t)の計算は、無線基地局16の集合Bに対して実行される。ここでは、その集合BがBUB個の無線基地局16を含むものとして、上記(1)式~(4)式の計算が行われる。
【0095】
[パラメータθの部分更新]
図10は、パラメータθが部分更新される際のDQNの特徴を模式的に表した図である。初期化の終了後は、上記の通り、更新範囲制御部64が、隠れ層の後段だけを更新の対象とすることを指示する。この指示を受けて、初期化の終了後は、隠れ層の二層のうち後段の層96だけが更新の対象となり、隠れ層の前段の層に関わる重み付け係数W等は固定される。前段の層に関わる重み付け係数W等が固定されれば、更新するべきパラメータθの数が少なくなる。このため、パラメータθの更新に伴う計算負荷は、初期化の際の計算負荷に比して軽減される。
【0096】
更新範囲制御部64は、また、初期化の終了後に、RSSIの大きなBmax個の無線基地局16だけをアクティブなものとして取り扱うことを指示する。DQNおよびDDQNの入力層並びに出力層には、Bmaxに含まれない無線基地局16を取り扱うためのノードが準備されている。この段階では、それらのノードが非アクティブな状態とされる。例えば、無線基地局16-1がBmaxに含まれない場合は、「無線端末18のIF1を無線基地局16-1に接続する」、或いは「無線端末18のIF1およびIF2の双方を無線基地局16-1に接続する」といった行動aを収容するためのノードが非アクティブとされる。
【0097】
この場合、非アクティブなノードに関わる重み付け係数W等は固定され、アクティブなノードに関わるパラメータθだけが更新される。非アクティブなノードに関わる重み付け係数W等が固定されれば、更新するべきパラメータθの数が少なくなる。このため、パラメータθの更新に伴う計算負荷は、初期化の際の計算負荷に比して、更に軽減される。
【0098】
報酬Γ(t)の計算についても、集合Bの要素数がBUB個からBmax個に減少することで、上記(1)式から(4)式で取り扱うべき変数の数が減少する。これにより、報酬Γ(t)の計算負荷も、初期化の場合に比して大幅に軽減される。
【0099】
このように、本実施形態では、パラメータθの初期化が終了すると、その後は、パラメータθの全数更新が部分更新に切り替えられる。そして、上記の部分更新によれば、最適な行動aを導出するためのDQNまたはDDQNの特徴を損なうことなく、その学習に伴う演算負荷を大幅に低下させることができる。
【0100】
[無線端末のCPUによる処理]
図11は、上記の機能を実現するために無線端末18のCPU72において実行される処理の流れを説明するためのフローチャートである。図11に示すルーチンは、無線端末18が、初めての通信環境下で起動された場合に実行される。尚、ここでは、強化学習の手法としてDQNが用いられる場合について説明する。
【0101】
図11に示すルーチンでは、先ず、周辺の無線基地局16から取得した通信品質情報等に基づいて、DQNの入力層に提供する状態S(t)が設定される(ステップ100)。
【0102】
次に、今回の学習で用いるεが設定される(ステップ102)。εには、例えば初期値として0.1程度の値が与えられ、その後、本ルーチンが繰り返される毎に減衰処理が施される。
【0103】
次に、0~1の範囲に収まる乱数を発生させる。更に、その乱数がε以下であるかが判別される(ステップ104)。
【0104】
乱数≦εの成立が認められた場合は、現在の状態S(t)に対して、次の行動a(t)がランダムに決定される(ステップ106)。
【0105】
これに対して、上記ステップ104で乱数≦εの成立が認められなかった場合は、DQNの入力層に状態S(t)が入力される(ステップ108)。そして、DQNの出力層に表れたQ値が比較され、最も大きなQ値を示す行動a(t)が、現時点での最適な行動a(t)として選択される(ステップ110)。
【0106】
次に、上記の処理により選択された行動a(t)に基づいて、周囲の無線基地局16に対して帰属のリクエストが出される(ステップ112)。
【0107】
リクエストに対する応答を受信すると、その応答に含まれている情報に基づいて、選択した行動a(t)に対する報酬Γ(t)が算出される(ステップ114)。
【0108】
次いで、メモリ部66を構成するRAM78に、今回のルーチンで取得した経験e(t)、即ち、(S(t)、a(t)、Γ(t)、S(t+1))のセットが格納される(ステップ116)。
【0109】
以後、バッチ処理によるDQNの更新が実行されて(ステップ118)、今回のルーチンが終了される。ここでは、DQNを特徴付けるパラメータθの全数が更新される。以上の処理は、パラメータθの初期化終了が認められるまで繰り返し実行される。
【0110】
図12は、初期化の終了後に、パラメータθの部分更新のためにCPU72が実行する処理の流れを説明するためのフローチャートである。尚、図12において、上記図11に示すステップと実質的に同一のステップについては、共通する符号を付してその説明を省略または簡略する。
【0111】
図12に示すルーチンでは、先ず、周辺の無線基地局16の中から、RSSIの優れたBmax個の無線基地局16が選定される(ステップ120)。
【0112】
次に、Bmax個の無線基地局16の選定結果に変化が生じたか否かが判別される(ステップ122)。より具体的には、選定されたBmax個の無線基地局16において利用可能な通信インターフェースの組み合わせが変化したか否かが判別される。
【0113】
初期化の終了後、Bmax個の無線基地局16が初めて選定された場合は、上記の「変化」が生じたと判断される。また、今回のサイクルで選定されたBmax個の無線基地局16および利用可能なIFの組み合わせが、前回のサイクルで選定された組合せと異なる場合も「変化」が生じたと判断される。これらの場合は、次に、その時点で学習されていたパラメータθの全てが保存される(ステップ124)。
【0114】
次いで、入出力層のノードのうち、可能な行動に関わるノードだけが活性化設定される(ステップ126)。より具体的には、DQNの入力層および出力層のノードのうち、選定されたBmax個の無線基地局16について起こり得る行動に対応するものだけが活性化され、他の入出力ノードが非活性化される。
【0115】
尚、上記ステップ120において、Bmax個の組み合わせに変化が生じなかったと判別された場合は、上記ステップ124および126の処理がジャンプされる。そして、それらの処理に続いて、DQNの隠れ層のうち後段の層だけを更新対象とし、前段の層を更新対象から外す処理が実行される(ステップ128)。
【0116】
以後、図11に示す場合と同様に、ステップ100以降の処理が実行される。尚、図12に示すルーチンでは、Bmax個の組み合わせについて変化が検知される毎に、ステップ102において、減衰していたεを初期値に戻すこととしてもよい。εが初期値にリセットされると、ランダムな探索の実行頻度が回復するため、パラメータθを、通信環境の変化に追随させ易くすることができる。
【0117】
図12に示すルーチンでは、ステップ118において、隠れ層の前段の層に関わるパラメータは固定値として保持される。そして、隠れ層の後段の層に関わるパラメータが、学習の進行に合わせて更新される。
【0118】
更に、図12に示すルーチンでは、ステップ118において、Bmax個の無線基地局16に対応する入出力ノードだけがアクティブなものとして、パラメータθが部分的に更新される。換言すると、それらアクティブな入出力ノードの間に位置する重み付け係数W等だけが更新され、他のパラメータは固定値のまま保持される。
【0119】
また、図12に示すルーチンによれば、無線端末18を取り巻く通信環境が変化して、Bmax個の無線基地局16の組み合わせ、或いはそれらにおいて利用可能なIFの組み合わせが変化すると、その時点で学習済みのパラメータθが保管される。そして、以後、新たなBmax個の無線基地局16を対象として、最適な行動aを導出するためのパラメータθの部分更新が行われる。
【0120】
上記の処理によれば、無線端末18を取り巻く環境に属する無線基地局16の数が増えても、また、それらにおいて利用可能なIFの数が増えても、過剰な計算負荷を課することなく、無線端末18kにおいてDQNのパラメータθを頻繁に学習させることができる。このため、本実施形態によれば、マルチバンド・マルチアクセスによるヘテロジニアスな環境下で、システムリソースを常に有効に活用し続けることができる。
【0121】
ところで、上述した実施の形態1では、無線端末18および無線基地局16が、無線通信に二つのIFを用いることとしているが、本開示はこれに限定されるものではない。例えば、無線通信用のIFは三つ以上であってもよい。更には、無線通信用のIFには、ライセンス帯を対象とするものと、無線LAN等に用いる非ライセンス帯を対象とするものとが混在していてもよい。或いは、無線通信用のIFは一つだけとして、DQN等の深層強化学習は、無線端末18が、どの無線基地局16に接続を求めるのが最適かを決定するために用いることとしてもよい。
【0122】
また、上述した実施の形態1では、行動を決める価値関数として、DQNまたはDDQNを用いることとしている。しかしながら、それらはあくまで例示であり、本開示はこれに限定されるものではない。特定の状態の下で取り得る行動毎の価値を判断することのできるものであれば、何れも本開示の価値関数として用いることができる。
【0123】
また、上述した実施の形態1では、隠れ層の後段だけを更新対象とする技術と、信号強度の強いBmax個の無線基地局16だけをアクティブなものとして取り扱う技術とを組み合わせて用いているが、それらを組み合わせて用いることは必須ではない。例えば、BUB個の無線基地局16の全てをアクティブなものとして取り扱い、隠れ層の後段の層だけを更新対象とすることで計算負荷の軽減を図ることとしてもよい。
【0124】
また、上述した実施の形態1では、隠れ層が二層の場合を説明しているが、隠れ層は、二層に限られるものではなく、上記の通り二層以上であればよい。そして、隠れ層が三層以上である場合、更新の対象となる層は最終段の層に限定されるものではない。この場合、再前段の層が除かれている限り、後段の幾つかの層が更新対象であってもよい。
【符号の説明】
【0125】
10 無線通信システム
16、16-1、16-2、16-3 無線基地局
18、18 無線端末
52 制御情報算出部
60 帰属先算出部
62 環境変化検出部
64 更新範囲制御部
Γ(t) 報酬
(t) 行動
(t) 経験
(t) 状態
(t+1) 遷移後の状態
kf 要求データレート
bkf 伝送レート
θ パラメータ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12