特開2023-9998 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-9998無線通信方法、無線端末および無線端末用プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023009998

(43)【公開日】2023-01-20

(54)【発明の名称】無線通信方法、無線端末および無線端末用プログラム

(51)【国際特許分類】

H04W 48/16 20090101AFI20230113BHJP

H04W 16/32 20090101ALI20230113BHJP

H04W 72/0457 20230101ALI20230113BHJP

H04W 24/02 20090101ALI20230113BHJP

H04W 28/18 20090101ALI20230113BHJP

【ＦＩ】

H04W48/16 132

H04W16/32

H04W72/04 111

H04W24/02

H04W28/18

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021113735

(22)【出願日】2021-07-08

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】110003199

【氏名又は名称】弁理士法人高田・高橋国際特許事務所

(72)【発明者】

【氏名】若尾佳佑

(72)【発明者】

【氏名】河村憲一

(72)【発明者】

【氏名】守山貴庸

(72)【発明者】

【氏名】金子めぐみ

(72)【発明者】

【氏名】ティハーリーディン

【テーマコード（参考）】

5K067

【Ｆターム（参考）】

5K067AA13

5K067AA23

5K067BB04

5K067BB21

5K067DD11

5K067DD17

5K067DD43

5K067DD45

5K067EE02

5K067EE10

5K067EE24

5K067EE56

5K067FF16

5K067HH22

5K067JJ13

5K067JJ37

(57)【要約】

【課題】この開示は、無線通信方法に関し、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得ることを目的とする。
【解決手段】複数の無線基地局と無線端末との接続の状態Ｓ_ｋ(t)を検知する。確率εの下では（ステップ１０８）、その状態Ｓ_ｋ(t)の下で採用する行動をランダムに決定する（ステップ１１０）。その他の場合はＤＱＮに状態Ｓ_ｋ(t)を入力して（ステップ１１２）、最適行動ａ_ｋ(t)を採用する（ステップ１１４）。以後、行動ａ_ｋ(t)に対する報酬Γ_ｋ(t)（ステップ１１８）に基づいて、ＤＱＮのパラメータを更新する（ステップ１２２）。通信環境が変化しない状況下では、学習毎にεを減衰させる（ステップ１０４）。一方、通信環境が変化した場合は（ステップ１０２）、減衰していたεを初期値にリセットする（ステップ１０６）。
【選択図】図９

【特許請求の範囲】

【請求項1】

複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率εでランダムに決定するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率（１－ε）で、価値関数の結果に従って決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する前記複数の無線基地局の応答を取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記無線端末を取り巻く通信環境の変化を検知するステップと、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施すステップと、
前記通信環境の変化が検知された場合に、前記εを初期化するステップと、
を含む無線通信方法。

【請求項2】

前記複数の無線基地局の少なくとも一部は、互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記無線端末は、前記複数の無線通信用のインターフェースを有し、
前記状態は、前記無線端末が、インターフェース毎に、どの無線基地局と接続しているかの情報を含み、
前記行動は、前記無線端末のどのインターフェースを、どの無線基地局に接続させるかの情報を含む請求項１に記載の無線通信方法。

【請求項3】

前記価値関数は、Deep Q-Networkである請求項１または２に記載の無線通信方法。

【請求項4】

前記価値関数は、Double Deep Q-Networkである請求項１または２に記載の無線通信方法。

【請求項5】

複数の無線基地局と接続する機能を有する無線端末であって、
ＣＰＵを備え、
前記ＣＰＵが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率（１－ε）で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行する無線端末。

【請求項6】

互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記状態は、当該無線端末が、インターフェース毎に、どの無線基地局と接続しているかの情報を含み、
前記行動は、当該無線端末のどのインターフェースを、どの無線基地局に接続させるかの情報を含む請求項５に記載の無線端末。

【請求項7】

複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるＣＰＵに、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率（１－ε）で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行させるプログラムを含む無線端末用プログラム。

【請求項8】

前記無線端末が、互いに仕様の異なる複数の無線通信用のインターフェースを有し、
前記状態は、当該無線端末が、インターフェース毎に、どの無線基地局と接続しているかの情報を含み、
前記行動は、当該無線端末のどのインターフェースを、どの無線基地局に接続させるかの情報を含む請求項７に記載の無線端末用プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この開示は、無線通信方法、無線端末および無線端末用プログラムに係り、特に、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得る上で好適な無線通信方法、無線端末および無線端末用プログラムに関する。

【背景技術】

【0002】

無線通信システムの発展に伴い、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークが実用化の段階に至っている。セルラー通信では、第５世代移動通信（５Ｇ）が実用化されている。５Ｇの通信システムでは、１ＧＨｚ以下の帯域からミリ波帯まで幅広い周波数が利用される。また、スモールセルからマクロセルまで、様々なサイズのセルが重畳するように提供される環境が整備されつつある。

【0003】

もう一つの代表的な無線アクセスシステムである無線ＬＡＮでは、２．４／５／６０ＧＨｚ帯の無線周波数が利用されており、更に、６ＧＨｚ帯の利用も検討されている。スマートフォンなどの無線端末には、セルラーおよび無線ＬＡＮの双方にアクセスするためのインターフェース（ＩＦ）が一般的に与えられている。また、それぞれのＩＦは複数の周波数帯に対応するように構成されている。

【0004】

無線端末は、複数の周波数帯およびアクセス方式から、接続する無線基地局或いはアクセスポイント（ＡＰ）を選択して、通信を確立することが一般的となっている。デュアルコネクティビティ等の機能により、１台の無線端末が複数の無線基地局を統合して利用することも行われる。このようなヘテロジニアス環境においては、無線端末がどのＩＦを用いてどの基地局を選択するかを、システム全体で制御し最適化することが、システムリソースを有効に利用するうえで重要である。

【0005】

ヘテロジニアスな環境において、システムリソースを有効に利用する技術に関して、例えば下記非特許文献１や非特許文献２は、無線端末とＡＰとの接続を、強化学習により最適化する手法を開示している。より具体的には、非特許文献２は、Deep Q-Learning、或いはDouble Deep Q-Learningの手法を用いて、複数のＩＦを用いる無線端末と複数のＡＰとの接続を最適化する技術を開示している。

【0006】

また、下記非特許文献３は高次元の入力を強化学習で取り扱う手法であるDeep Q-Network（ＤＱＮ）についての開示を、また、下記非特許文献４はDouble Deep Q-Network（ＤＤＱＮ）についての開示を夫々提供している。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】“Reinforcement Learning-aided Distributed User-to-Access Points Association in Interfering Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Hirantha Abeysekera, Yasushi Takatori, IEEE Globecom, Waikoloa, Hawaii, USA, Dec. 2019

【非特許文献2】“Deep Reinforcement Learning-based User Association in Sub6GHz/mmWave Integrated Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Kenichi Kawamura, Takatsune Moriyama, Hirantha Abeysekera and Yasushi Takatori, in IEEE CCNC, Jan. 2021

【非特許文献3】“Human-level control through deep reinforcement learning,”Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves,Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou,Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis, Nature. 2015 Feb 26; Vol.518(7540): P529-533. doi: 10.1038/nature14236

【非特許文献4】“Deep Reinforcement Learning with Double Q-Learning,” H. Van Hasselt, A. Guez, and D. Silver, in Thirtieth AAAI conference on artificial intelligence, 2016

【発明の概要】

【発明が解決しようとする課題】

【0008】

上述した非特許文献に開示されるようなＤＱＮやＤＤＱＮの深層強化学習では、ε-greedy法を用いた学習が行われる。ε-greedy法によれば、学習の繰り返し毎に、εの確率で次の行動がランダムに選択される。また、１－εの確率で、その時点の学習結果に基づいて最適と判断される行動が、次の行動として選択される。

【0009】

上記のε-greedy法によれば、１－εの確率で、現時点での最適な行動が選択されると共に、εの確率で、ランダムな行動により新たな「最適」が探索される。このため、この手法によれば、偶然見つかった局所的な最適解に固執せずに真の最適解に向けて学習を進めることができる。

【0010】

ＤＱＮおよびＤＤＱＮで用いられるε-greedy法では、更に、学習が繰り返される毎に、確率εに減衰処理が施される。この処理によれば、学習が進むに連れて、ランダムな行動の選択確率が下がり、最適行動の選択確率が上がる。その結果、学習が進んだ段階での無駄な探索が回避され、最適解への収束に要する時間が短縮される。

【0011】

ところで、マルチバンド・マルチアクセスのテヘロジニアスな環境では、スマートフォンやタブレットのようなモバイル端末が無線端末として用いられることがある。モバイル端末を取り巻く通信環境は、モバイル端末の移動に伴って変化する。また、同じエリアの中に多数の無線端末が存在する場合は、個々の無線端末から発せられる要求の変化が、そのエリアに属する無線端末や無線基地局の負荷に影響を与える。その結果、個々の無線端末を取り巻く通信環境は、他の無線端末の状態によっても大きく変化する。これらの理由により、ヘテロジニアスな環境に置かれた無線端末が、どの無線基地局に対して、どのＩＦで接続するかに関する最適解は、安定的なものではなく、激しく変化する動的なものとなることがある。

【0012】

学習の進行に伴ってεを減衰させる従来の学習手法は、安定した通信環境の下では、早期に最適解を得るうえで有効である。しかしながら、激しく変化する動的な通信環境の下では、εが減衰してしまうと、環境の変化に追随して効率よく最適解を探索することができなくなる。この点で、ＤＱＮ、ＤＤＱＮ等を用いた従来の学習手法は、動的な通信環境下では、システムリソースを必ずしも有効に利用できないという課題を有していた。

【0013】

本開示は、上記の課題に着目してなされたものであり、複数の無線端末と複数の基地局等とを含むネットワークにおいて、通信環境の変化に関わらず、システムリソースを常に有効に活用するための無線通信方法、無線端末および無線端末用プログラムを提供することを目的とする。

【課題を解決するための手段】

【0014】

本開示の第１の態様は、上記の目的を達成するため、複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率εでランダムに決定するステップと、
検知された状態の下で前記無線端末が採用する行動を、確率（１－ε）で、価値関数の結果に従って決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する前記複数の無線基地局の応答を取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記無線端末を取り巻く通信環境の変化を検知するステップと、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施すステップと、
前記通信環境の変化が検知された場合に、前記εを初期化するステップと、
を含むことが望ましい。

【0015】

また、本開示の第２の態様は、複数の無線基地局と接続する機能を有する無線端末であって、
ＣＰＵを備え、
前記ＣＰＵが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率（１－ε）で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行することが望ましい。

【0016】

また、本開示の第３の態様は、複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるＣＰＵに、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態の下で採用する行動を、確率εでランダムに決定する処理と、
検知された状態の下で採用する行動を、確率（１－ε）で、価値関数の結果に従って決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する前記複数の無線基地局の応答を取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
当該無線端末を取り巻く通信環境の変化を検知する処理と、
前記通信環境の変化が検知されない状況下で、前記εに経時的な減衰処理を施す処理と、
前記通信環境の変化が検知された場合に、前記εを初期化する処理と、
を実行させるプログラムを含むことが望ましい。

【発明の効果】

【0017】

本開示によれば、複数の無線端末と複数の基地局等とを含むネットワークにおいて、通信環境の変化に関わらず、接続の組合せを最適な状態に更新し続けることができる。このため、本開示によれば、ヘテロジニアスな環境下で、システムリソースを常に有効に活用することができる。

【図面の簡単な説明】

【0018】

【図1】本開示の実施の形態１の無線通信システムの全体構成を説明するための図である。

【図2】本開示の実施の形態１における無線端末と無線基地局との接続状態の一例を説明するための図である。

【図3】本開示の実施の形態１においてヘテロジニアスな環境下で無線端末が移動している様子を表す図である。

【図4】本開示の実施の形態１で用いられる無線基地局の機能的な構成を説明するためのブロック図である。

【図5】本開示の実施の形態１で用いられる無線端末の機能的な構成を説明するためのブロック図である。

【図6】本開示の実施の形態１で用いられる無線端末のハードウェア構成を説明するための図である。

【図7】本開示の実施の形態１で用いられるＤＱＮの概要を説明するための図である。

【図8】本開示の実施の形態１で用いられるＤＱＮの更新に関わる処理の内容を説明するための図である。

【図9】本開示の実施の形態１における無線端末の特徴を説明するためのフローチャートである。

【発明を実施するための形態】

【0019】

実施の形態１．
［実施の形態１の全体構成］
図１は、本開示の実施の形態１の無線通信システム１０の全体構成を説明するための図である。図１に示すように、無線通信システム１０は、有線通信のネットワーク１２を含んでいる。ネットワーク１２には、スイッチ１４を介して複数の無線基地局１６が接続されている。無線基地局１６は、ネットワーク１２を介して、また無線の経路を介して、他の無線基地局１６と通信することができる。

【0020】

図１に示す無線通信システム１０は、複数の無線端末１８を含んでいる。本実施形態において、無線端末１８は、スマートフォン、或いはタブレット端末のようなモバイル端末を含んでいるものとする。

【0021】

無線端末１８は、夫々、無線通信用のアプリケーションとＩＦを、複数組み備えている。例えば、無線端末１８は、１ＧＨｚ以下での通信に用いるアプリケーション並びにＩＦ、ミリ波帯での通信に用いるアプリケーション並びにＩＦ、更には、無線ＬＡＮで用いられる２．４／５／６０ＧＨｚ帯での通信に用いるアプリケーション並びにＩＦを備えている。

【0022】

上述した無線基地局１６にも、それらに対応するＩＦ等が備わっている。そして、個々の無線端末１８は、上記のアプリケーションおよびＩＦを介して、単一または複数の無線基地局１６と無線で通信することができる。これにより、本実施形態の無線通信システム１０は、マルチバンド・マルチアクセスによるヘテロジニアスなネットワークとしての機能を実現する。

【0023】

尚、本実施形態の無線通信システム１０は、通信事業者が設置するセルラー通信用の無線基地局に加えて、無線ＬＡＮのアクセスポイント（ＡＰ）にも対応している。以下、便宜上「無線基地局１６」は両者を包括するものとして説明を進める。

【0024】

［実施の形態１の特徴］
次に、図２乃至図９を参照して、本実施形態における無線端末１８の特徴を説明する。以下の説明では、無線基地局１６および無線端末１８が、第一の周波数帯域での通信に対応するインターフェースＩＦ１と、第二の周波数帯域での通信に対応するインターフェースＩＦ２を備えていることとする。ＩＦ１は、例えば、１ＧＨｚ以下の周波数帯に対応するインターフェースであり、ＩＦ２は、例えば、ミリ波帯の周波数に対応するインターフェースである。

【0025】

また、以下の説明では、無線端末１８を複数の中の特定の一台として指し示す必要がある場合は、符号ｋを用いて「無線端末１８_ｋ」のように表示する。更に、複数の無線基地局１６の夫々を区別して説明する必要がある場合は、１６－１、１６－２のように添え字を付した符号を用いることとする。

【0026】

図２は、無線端末１８_ｋが、二台の無線基地局１６－１、１６－２に帰属している様子を示している。無線端末１８_ｋは、自己を取り巻く通信環境において、チャネル品質の状態を表すＲＳＳＩ（Received Signal Strength Indicator）を計測する。そして、ＲＳＳＩが示す強度が高い順にＢmax個の無線基地局１６を通信の対象として選択する。図２は、それらＢmax個の無線基地局１６のうち、無線端末１８_ｋが無線基地局１６－１および１６－２と接続している状態を示している。

【0027】

無線端末１８_ｋおよび無線基地局１６は、上記の通り、異なる帯域に対応する二つのインターフェース、ＩＦ１およびＩＦ２を備えている。Ｂmax個の無線基地局１６が通信の対象であるとすれば、無線端末１８_ｋが備える二つのＩＦと、Ｂmax個の無線基地局１６が備える二つのＩＦとの間に成立し得る可能な組み合わせの数が、状態空間のサイズとなる。図２に示す例では、無線端末１８_ｋが、ＩＦ１で第一の無線基地局１６－１に帰属し、ＩＦ２で第二の無線基地局１６－２に帰属する状態が形成されている。

【0028】

図３は、マルチバンド・マルチアクセスによるヘテロジニアスな環境下で、無線端末１８_ｋが移動している様子を示している。先ず、無線端末１８_ｋが、図中最も左の位置に存在する環境を想定する。この環境において、無線端末１８_ｋが、無線基地局１６－１および１６－２に帰属する状態が最適であれば、無線端末１８_ｋからの接続要求は、その状態が実現されるように発せられることが望ましい。

【0029】

しかしながら、無線端末１８_ｋが、図中最も左の位置から、図の中央、更には図の右側へと移動すれば、最適な接続の組合せは、当初の組合せから変化する。同様の変化は、無線端末１８_ｋと同じ環境に属する他の無線端末１８（図示略）の移動や、それらからの要求データレートの変化等によっても生ずる。このため、無線端末１８_ｋは、通信環境が変化した場合には、変化後の環境下に最適な組み合わせで、接続要求を発することが望ましい。

【0030】

本実施形態において、無線端末１８は、接続を求める無線基地局１６並びにＩＦを、Deep Q-Network（ＤＱＮ）またはDouble Deep Q-Network（ＤＤＱＮ）を用いて決定する。このため、ここで用いられるＤＱＮ或いはＤＤＱＮは、安定した通信環境の下では、その環境に最適な状態に早期に収束し、かつ、動的な通信環境の下では、迅速に環境変化に追随するものであることが望まれる。

【0031】

図４は、無線基地局１６の一例を機能的に説明するためのブロック図である。無線基地局１６は、アンテナ部２０を備えている。アンテナ部２０は、無線基地局１６が、他の無線基地局１６並びに周囲の無線端末１８と無線信号を授受するために用いられる。

【0032】

アンテナ部２０は、無線通信部２２に接続されている。無線通信部２２は、高周波の信号を処理するＲＦ（Radio Frequency）部２４と、無線通信におけるメディアアクセス制御の機能を備えたＭＡＣ（Media Access Control）機能部２６とを備えている。無線通信部２２は、複数の周波数帯域に対応する機能、具体的には、１ＧＨｚ以下に対応するＩＦ１としての機能と、ミリ波帯の周波数に対応するＩＦ２としての機能を、共に実現することができるように構成されている。

【0033】

無線基地局１６は、また、品質測定部２８を備えている。品質測定部２８は、無線環境測定部３０とトラヒック測定部３２を備えている。無線環境測定部３０は、無線基地局１６を取り巻く無線通信の環境に関わる情報を取得する。トラヒック測定部３２は、無線基地局１６と無線端末１８との間のトラヒックに関わる情報を取得する。品質測定部２８は、それらの情報に基づいて、無線基地局１６と無線端末１８との間の通信品質の情報を算出する。通信品質情報には、例えば、無線端末１８からの受信電力、無線端末１８の要求データレート、現実の伝送レート、および無線基地局１６における帯域使用率等が含まれる。

【0034】

無線基地局１６は、通信ＩＦ部３４を備えている。通信ＩＦ部３４は、ネットワーク１２を経由する有線での通信に用いられる。無線基地局１６は、通信ＩＦ部３４を経由する有線通信により、或いは無線通信部２２およびアンテナ部２０を経由する無線通信により、他の無線基地局１６が取得した通信品質情報を取得することができる。他の無線基地局１６から取得した通信品質情報は、自らが取得した通信品質情報と共に、品質測定部２８において一元的に管理される。

【0035】

無線基地局１６は、情報通知部３６を備えている。情報通知部３６は、品質測定部２８に集約された通信品質情報を読み出すことができる。情報通知部３６は、読み出した通信品質情報を、通信ＩＦ部３４並びに無線通信部２２に提供することができる。これにより、無線基地局１６は、有線または無線の経路で、自らが保有する通信品質情報を他の無線基地局１６に提供することができる。

【0036】

無線基地局１６は、無線通信部２２およびアンテナ部２０を介して、周辺に位置する無線端末１８から帰属要求を受け付ける。帰属要求は、要求情報評価部３８で処理される。要求情報評価部３８は、無線端末１８が要求する帯域およびデータレート、更には自らの負荷状態等に基づいて帰属の可否を判断する。

【0037】

要求情報評価部３８による判断の結果は、要求応答通知部４０と、帰属情報記録部４２に送られる。要求応答通知部４０は、無線通信部２２およびアンテナ部２０を介して、帰属要求を発した無線端末１８に向けて、帰属の可否に関する判断結果を提供する。帰属情報記録部４２は、その判断の結果に基づいて、無線基地局１６に如何なる無線端末１８が帰属しているのかに関する情報を更新および記録する。

【0038】

図５は、無線端末１８の一例を機能的に説明するためのブロック図である。無線端末１８は、アンテナ部４４および無線通信部４６を備えている。無線通信部４６は、ＲＦ部２４およびＭＡＣ機能部５０を備えている。これらの機能は、無線基地局１６が備える対応ブロックの機能と実質的に同じであるため、ここでは、その説明を省略する。

【0039】

無線端末１８は、制御情報算出部５２を備えている。制御情報算出部５２は、無線通信部４６およびアンテナ部４４を介して、帰属先の無線基地局１６から通信品質情報を取得する。そして、制御情報算出部５２は、通信品質情報に基づいて、ＤＱＮまたはＤＤＱＮの手法により、複数の無線通信用のＩＦの夫々を、どの無線基地局１６に接続させるのが最適な行動ａ_ｋであるかを決める処理と、そのための学習とを行う。

【0040】

制御情報算出部５２は、状態算出部５４を備えている。状態算出部５４では、通信品質情報に基づいて、ＤＱＮまたはＤＤＱＮの入力層に提供する状態Ｓ_ｋ(t)が算出される。

【0041】

制御情報算出部５２は、また、報酬算出部５６を備えている。報酬算出部５６は、通信品質情報に基づいて、採用された行動ａ_ｋ(t)により得られる報酬Γ_ｋ(t)を算出する。

【0042】

制御情報算出部５２は、更に、ＤＱＮ／ＤＤＱＮ更新部５８を備えている。ＤＱＮ／ＤＤＱＮ更新部５８では、強化学習に用いられるＤＱＮまたはＤＤＱＮのパラメータθが更新される。より具体的には、ＤＱＮまたはＤＤＱＮの価値関数としての特徴を決める重み付けの係数ｗ等が更新される。

【0043】

ＤＱＮ／ＤＤＱＮ更新部５８によって更新されたＤＱＮまたはＤＤＱＮは、帰属先算出部６０において用いられる。即ち、帰属先算出部６０は、更新後のＤＱＮまたはＤＤＱＮに従って、今回採用するべき行動ａ_ｋ(t)、つまり、どのＩＦをどの無線基地局１６に帰属させるべきかを算出する。

【0044】

ＤＱＮおよびＤＤＱＮは、入力層に状態Ｓ_ｋ(t)が与えられると、無線端末１８が採り得る行動ａ_ｋ(t)の夫々について、採用の価値を出力層に表出させる。従って、その価値が最も大きい値となる行動を選択すれば、現在の学習段階において最適と考えられる行動を選択することができる。但し、次の行動ａ_ｋ(t)が常に上記の価値に基づいて選択されるとすると、偶然選ばれた局所的な解に囚われてしまい、真の最適行動が永遠に選択されない事態に陥ることがある。

【0045】

帰属先算出部６０は、そのような事態の発生を避けるため、ε-greedy法に従って行動ａ_ｋ(t)を算出する。このため、帰属先算出部６０では、確率εで、ＤＱＮまたはＤＤＱＮによらずランダムに次の行動ａ_ｋ(t)が選択される。また、確率1-εで、ＤＱＮまたはＤＤＱＮが最適と判断する行動ａ_ｋ(t)が選択される。

【0046】

更に、帰属先算出部６０は、学習が繰り返される毎に、εに減衰処理を施す。偶然選ばれた局所的解に陥る可能性は、学習初期の段階で大きく、学習が進行するに連れて小さくなる。このため、ランダムに行動ａ_ｋ(t)を選択する必要性は、学習が進むに連れて小さくなる。εに減衰処理を施すと、その必要性の低下に合わせて、行動ａ_ｋ(t)がランダムに選択される頻度を下げることができる。このため、本実施形態の帰属先算出部６０によれば、効率よく学習を進めて、パラメータθを短期間で最適値に収束させることができる。

【0047】

但し、本実施形態の無線通信システム１０では、無線端末１８が移動することにより、或いは、周辺に位置する他の無線端末１８が要求する帯域やデータレートが変化することにより、無線端末１８を取り巻く通信環境が大きく変化することがある。そして、通信環境が変化すれば、変化前の最適値であったパラメータθが、最適値でなくなることがある。

【0048】

このような状況下、つまり、新たな最適を探索する必要がある状況下では、次の行動ａ_ｋ(t)がランダムに採用される頻度が高いことが望ましい。そして、学習の進行に伴ってεが減衰してしまっている状況では、そのような要求に応えることができない。

【0049】

本実施形態の無線端末１８は、上記の要求に応えるべく、環境変化検出部６２と、ε初期化判断部６４を備えている。環境変化検出部６２は、無線端末１８を取り巻く通信環境の変化を検出する。例えば、無線端末１８がアクセスできる無線基地局１６の組み合わせが変化した場合、或いは、無線基地局１６側で利用可能なＩＦの組み合わせが変化した場合において、環境変化検出部６２は、無線端末１８を取り巻く通信環境が変化したと判断する。

【0050】

ε初期化判断部６４は、無線端末１８を取り巻く通信環境の変化が検知された場合に、εの初期化が必要であると判断する。ε初期化判断部６４の判断は、帰属先算出部６０に提供される。そして、帰属先算出部６０は、ε初期化の判断を受けると、減衰していたεを初期化により元の値に戻す。これにより、次の行動ａ_ｋ(t)がランダムに決定される確率εが高まり、新たな最適を探索する頻度が高められる。このため、本実施形態の帰属先算出部６０によれば、無線端末１８を取り巻く通信環境が変化する環境下で、ＤＱＮおよびＤＤＱＮのパラメータをその変化に適切に追随させることができる。

【0051】

無線端末１８は、メモリ部６６を備えている。メモリ部６６は、下記の情報を経験ｅ_ｋ(t)として格納する。
１．今回の学習でＤＱＮまたはＤＤＱＮの入力層に提供された状態Ｓ_ｋ(t)、
２．その状態Ｓ_ｋ(t)に応じて決定された行動ａ_ｋ(t)、
３．その行動ａ_ｋ(t)により得られた報酬Γ_ｋ(t)、
４．その行動ａ_ｋ(t)により遷移した先の状態Ｓ_ｋ(t+1)。

【0052】

無線端末１８は、また、帰属先要求部６８を備えている。帰属先要求部６８は、帰属先算出部６０から行動ａ_ｋ(t)を受け取り、その行動ａ_ｋ(t)に対応するリクエストを生成する。例えば、無線端末１８をＩＦ１で無線基地局１６－１に接続する、或いは、無線端末１８をＩＦ２で無線基地局１６－２に接続する、といったリクエストを生成する。生成されたリクエストは、無線通信部４６およびアンテナ部２０を介して、単一または複数の無線基地局１６に送信される。

【0053】

無線端末１８は、帰属先記録部７０を備えている。無線基地局１６から受け取る情報には、リクエストに対する可否の応答が含まれている。例えば、その情報には、新たな接続を許可する旨の応答、或いは接続の更新を許可する旨の応答等が含まれている。帰属先記録部７０は、これらの応答に基づいて、帰属先の無線基地局１６についての情報を更新して記録する。

【0054】

図６は、無線端末１８のハードウェア構成を説明するための図である。ここでは、無線端末１８がスマートフォンである場合について説明する。但し、無線端末１８は、スマートフォンに限定されるものではなく、タブレット端末や汎用のコンピュータシステムであってもよい。

【0055】

無線端末１８は、CPU（Central Processing Unit）７２を備えている。CPU７２は、バス配線７４を介して、無線端末１８が備える各種のハードウェア要素と接続されている。バス配線７４には、例えば、ROM（Read Only Memory）７６、RAM（Random Access Memory）７８、ストレージ８０等の各種メモリ装置が接続されている。

【0056】

ストレージ８０は、フラッシュROM等の不揮発性メモリを含んでいる。各種のアプリケーションの実行に必要なプログラムやデータは、ストレージ８０に格納されている。上述したメモリ部６６および帰属先記録部７０は、ストレージ８０により実現される。また、CPU７２は、ストレージ８０に格納されているプログラムに沿って処理を進めることにより、図５に示す制御情報算出部５２、環境変化検出部６２およびε初期化判断部６４等の機能を実現する。

【0057】

無線端末１８は、通信インターフェース８２を備えている。通信インターフェース８２は、上記のアンテナ部４４および無線通信部４６に相当する。無線端末１８は、更に、操作部８４および表示部８６を備えている。操作部８４は、各種の機械的なスイッチ機構および電子的なセンサ機構に加えて、表示部８６と一体化されたタッチパネルを含んでいる。

【0058】

［ＤＱＮの概要］
図７は、ＤＱＮの概要を説明するための図である。以下、図７を参照して、無線端末１８_ｋが用いる深層強化学習の一例であるＤＱＮの概要を説明する。本実施形態で用いられるＤＱＮは、入力層と、隠れ層と、出力層を有している。また、ＤＱＮには、現時点ｔの学習状態に対応するパラメータθ_ｉ ^ｔが設定されている。ＤＱＮの価値関数としての特性は、パラメータθ_ｉ ^ｔにより決定される。

【0059】

図７において、ＤＱＮの入力層は、Ｍ個のノードＳ_１～Ｓ_Ｍを有している。これらのノードには、無線端末１８_ｋの状態Ｓ_ｋを構成する要素が夫々入力される。状態Ｓ_ｋの要素には、例えば、以下のような要素が含まれる。
１．無線基地局１６－ｂの帯域利用率φｂ、
２．無線端末１８_ｋのインターフェースｆの要求データレートＲ_ｋｆ、
３．無線端末１８_ｋと無線基地局１６－ｂとの帰属の関係ｘ_ｂｋｆ（帰属していれば１，そうでなければ０）
４．無線端末１８_ｋのインターフェースｆの無線基地局１６－ｂに対する帰属の要求ａ_ｂｋｆ（要求有りなら１、そうでなければ０）、
５．無線端末１８_ｋのインターフェースｆと無線基地局１６－ｂとの間に成立している伝送レートｒ_ｂｋｆ。

【0060】

隠れ層の層数とノード数は任意である。出力層は、無線端末１８_ｋが、状態Ｓ_ｋの下で取ることのできる行動ａ_ｉの総数Ｎと等しいノード数を有している。行動ａ_ｉの一部を以下に例示する。
・ＩＦ１だけを無線基地局１６－１に帰属させる。
・ＩＦ１およびＩＦ２の双方を無線基地局１６－１に帰属させる。
・ＩＦ２だけを無線基地局１６－１に帰属させる。
・ＩＦ１を無線基地局１６－１に帰属させ、ＩＦ２を無線基地局１６－２に帰属させる。
・
・
・

【0061】

出力層の各ノードには、無線端末１８_ｋが取り得る行動ａ_ｉ（ｉ＝１～Ｎ）の夫々についてのＱ値＝Ｑ（Ｓ_ｋ，ａ_ｉ；θ_ｉ ^ｔ）が表出する。Ｑ値は、パラメータθ_ｉ ^ｔの下でＤＱＮが算出した行動ａ_ｉについての採用価値である。

【0062】

ＤＱＮを用いる手法では、出力層に表れたＱ値の中から最も大きな値を選択して、そのＱ値を生じさせる行動ａ_ｉを、現時点ｔでの最適な行動ａ_ｋ(t)と決定する。ＤＱＮによれば、このようにして、個々の学習段階において、その時点ｔで最適と判断できる行動ａ_ｋ(t)を決定することができる。

【0063】

図８は、無線端末１８_ｋの制御情報算出部５２がＤＱＮのパラメータθ_ｉを更新する流れを説明するため図である。尚、図８では、行動ａ_ｋ(t)を、便宜上ＤＱＮ／ＤＤＱＮの後段に示しているが、行動ａ_ｋ(t)がＤＱＮまたはＤＤＱＮにより決定されるのは、上記の通り確率１－εの場合に限られる。そして、確率εの下では、行動ａ_ｋ(t)がランダムに決定される。パラメータθ_ｉには、それら双方の場合に得られた経験ｅ_ｋ(t)が反映される。

【0064】

無線端末１８_ｋでは、行動ａ_ｋ(t)が決定された後、その行動ａ_ｋ(t)に対する報酬Γ_ｋ(t)が算出される。報酬Γ_ｋ(t)は、例えば、次式（１）により算出される。

【0065】

【数1】

【0066】

上記（１）式中、右辺第一項は加点項目であり、第二項は減点項目である。両者に付されたω_１ｋ、ω_２ｋは、それらに対する配分比率を決める係数である。また、νは、ＩＦ１が対応するべき１GＨｚ以下（ｓｕｂ）の項と、ＩＦ２が対応するべきミリ波（ｍＷ）の項とを区別するための識別子である。

【0067】

更に、上記（１）式中、右辺第一項中のｃ_１ｋ ^νは、要求データレートＲ_ｋｆを満たす伝送レートｒ_ｂｋｆが得られた場合の加点分を意味している。その値は、次式（２）により算出される。

【0068】

【数2】

【0069】

上記（２）式は、以下の場合に、伝送レートｒ_ｂｋｆに応じた加点ｒ_ｂｋｆ/Ｗ_νが与えられることを意味している。但し、末項中のＷ_νは（ｓｕｂ）と（ｍＷ）の周波数帯の違いを相殺して正規化するための因子である。
１．無線端末１８_ｋのインターフェースｆが無線基地局１６－ｂへの帰属を要求していること（ａ_ｂｋｆ(t)＝１）。
２．無線端末１８_ｋのインターフェースｆの帰属を無線基地局１６－ｂが認めており（ｘ_ｂｋｆ＝１）、かつ、要求データレートＲ_ｋｆを超える伝送レートｒ_ｂｋｆが得られていること（ｒ_ｂｋｆ(t)＞Ｒ_ｋｆ）。

【0070】

上記（１）式中、右辺第二項中のｃ_２ｋ ^νは、以下の二つの場面における減点分を意味している。
１．帰属の要求が出され（ａ_ｂｋｆ(t)＝１）、帰属は許可されたが（ｘ_ｂｋｆ(t)＝１）、要求データレートＲ_ｋｆを満たす伝送レートｒ_ｂｋｆが得られなかった場合（ｒ_ｂｋｆ(t)＜Ｒ_ｋｆ）。
２．帰属の要求が出されたが（ａ_ｂｋｆ(t)＝１）、無線基地局１６から帰属がドロップされてしまった場合（ｘ_ｂｋｆ ^ν(t)＝０）。

【0071】

（ｓｕｂ）の場合の減点ｃ_２ｋ ^subは、例えば下記（３）式のように表すことができる。また、（ｍＷ）の場合の減点ｃ_２ｋ ^ｍWは、例えば下記（４）式および（５）式のように表すことができる。

【0072】

【数3】

【0073】

【数4】

【0074】

【数5】

【0075】

このように、行動ａ_ｋ(t)の結果として要求データレートＲ_ｋｆを満たす伝送レートｒ_ｂｋｆ(t)が得られれば報酬Γ_ｋ(t)は大きな値となる。他方、十分な伝送レートｒ_ｂｋｆ(t)が得られなければ、報酬Γ_ｋ(t)は小さな値となる。

【0076】

報酬Γ_ｋ(t)が算出されると、今回の経験ｅ_ｋ(t)がメモリに格納される（ステップ８８）。具体的には、現在の状態Ｓ_ｋ(t)、選択された行動ａ_ｋ(t)、得られた報酬Γ_ｋ(t)、並びに遷移後の状態Ｓ_ｋ(t+1)が、経験ｅ_ｋ(t)としてメモリに格納される。

【0077】

サンプルの系列に時間的な相関があると学習が適切に進まないことがある。この問題を解決するために、パラメータθ_ｉの更新にあたっては、メモリに格納された経験ｅ_ｋからランダムにメモリサンプルを取得し、それらをバッチ的に処理する（ステップ９０）。

【0078】

ランダムに取得したメモリサンプル、つまり（Ｓ_ｋ、ａ_ｋ、Γ_ｋ、Ｓ_ｋ´）を含む経験ｅ_ｋを用いて、ＤＱＮ／ＤＤＱＮのパラメータθ_ｉを更新する（ステップ９２）。但し、Ｓ_ｋ´は、行動ａ_ｋにより遷移した先の状態を指すものとする。本ステップ９２の処理は、具体的には、以下のように進められる。

【0079】

行動ａ_ｋに対する報酬Γ_ｋが決まると、その報酬Γ_ｋに基づいて、状態Ｓ_ｋの下で行動ａ_ｋを選択することについての「新たなＱ値」＝Ｑ（Ｓ_ｋ，ａ_ｋ）が算出できる。新たなＱ値は、例えば下記（６）式のように算出される。

【0080】

Ｑ（Ｓ_ｋ，ａ_ｋ）←Γ_ｋ＋γ*maxＱ（Ｓ_ｋ´，ａ_ｋ´）・・・（６）
但し、γは時間割引率である。

【0081】

上記（６）式の右辺、Γ_ｋ＋γ*maxＱ（Ｓ_ｋ´，ａ_ｋ´）は、（Ｓ_ｋ，ａ_ｋ）の組合せに対して、「学習後のＤＱＮ」にＱ値として算出して貰いたい値である。従って、ＤＱＮのパラメータθ_ｉは、（Ｓ_ｋ，ａ_ｋ）の入力に対して出力層にその値が表出するように更新すればよい。

【0082】

下記（７）式は、本実施形態においてＤＱＮのパラメータθ_ｉを更新する際に用いる損失関数L_ｋを示す。

【0083】

【数6】

【0084】

但し、上記（７）式、右辺第一項のＱ（Ｓ_ｋ，ａ_ｋ；θ_ｉ）は、パラメータθ_ｉを持つメインネットワークが（Ｓ_ｋ，ａ_ｋ）の組合せに対して算出するＱ値である。また、右辺第二項中のＱ（Ｓ_ｋ´，ａ_ｋ´；θ_ｉ ^―）は、パラメータθ_ｉ ^―を持つターゲットネットワークが（Ｓ_ｋ´，ａ_ｋ´）の組合せに対して算出するＱ値である。

【0085】

ＤＱＮを更新する際に、更新するネットワークの値を更新中のネットワークで計算すると、学習が安定しないことがある。このため、ＤＱＮの更新では、更新対象であるメインネットワークの他に、更新値を計算するためのターゲットネットワークを用いるのが通常である。本実施形態においても、上記通常の手法に従い、新たなＱ値に当たる（７）式第二項は、ターゲットネットワークを用いて計算する。

【0086】

本ステップ９２では、上記（７）式に示す損失関数Ｌ_ｋが最小化されるように、ＤＱＮのパラメータθ_ｉ、つまりメインネットワークのパラメータθ_ｉが更新される。その結果、ＤＱＮは、状態Ｓ_ｋの入力に対して、行動ａ_ｋのＱ値として、上記（６）式右辺の値を表出するように学習される。

【0087】

ターゲットネットワークは、更新の直後を除いて、過去のメインネットワークと同一である。そして、ターゲットネットワークは、既定の周期で更新される（ステップ９４）。即ち、既定の周期で更新時期が到来すると、ターゲットネットワークのパラメータθ_ｉ ^―が、メインネットワークのパラメータθ_ｉにより上書きされる。以上の処理により、ＤＱＮの更新が完了する。

【0088】

尚、下記（８）式は、本実施形態で、ＤＤＱＮの手法が用いられる場合に、上記ステップ９２において用いられる損失関数Ｌ_ｋを示す。更新の原理は、ＤＱＮの場合と同様であるため、これについての詳細は説明は省略する。

【0089】

【数7】

【0090】

［無線端末のCPUによる処理］
図９は、上記の機能を実現するために無線端末１８のＣＰＵ７２において実行される処理の流れを説明するためのフローチャートである。

【0091】

図９に示すルーチンでは、先ず、無線端末１８を取り巻く通信環境が確認される（ステップ１００）。具体的には、アクセス可能な無線基地局１６が、インターフェース毎に確認される。

【0092】

次に、通信環境に変化が認められたか否かが判別される（ステップ１０２）。

【0093】

その結果、変化が認められないと判別された場合は、ε係数の減衰処理が行われる（ステップ１０４）。

【0094】

一方、通信環境の変化が認められた場合は、ε係数が初期値にリセットされる（ステップ１０６）。これにより、減衰していたεが元の値に復帰する。

【0095】

次に、０～１の範囲に収まる乱数を発生させる。更に、その乱数がε以下であるかが判別される（ステップ１０８）。

【0096】

乱数≦εの成立が認められた場合は、現在の状態Ｓ_ｋ(t)に対して、次の行動ａ_ｋ(t)がランダムに決定される（ステップ１１０）。

【0097】

これに対して、上記ステップ１０８で乱数≦εの成立が認められなかった場合は、ＤＱＮの入力層に状態Ｓ_ｋ(t)が入力される（ステップ１１２）。そして、ＤＱＮの出力層に表れたＱ値が比較され、最も大きなＱ値を示す行動ａ_ｉ(t)が、現時点での最適な行動ａ_ｋ(t)として選択される（ステップ１１４）。

【0098】

次に、上記の処理により選択された行動ａ_ｋ(t)に基づいて、周囲の無線基地局１６に対して帰属のリクエストが出される（ステップ１１６）。

【0099】

リクエストに対する応答を受信すると、その応答に含まれている情報に基づいて、選択した行動ａ_ｋ(t)に対する報酬Γ_ｋ(t)が算出される（ステップ１１８）。

【0100】

次いで、メモリ部６６を構成するＲＡＭ７８に、今回のルーチンで取得した経験ｅ_ｋ(t)、即ち、（Ｓ_ｋ(t)、ａ_ｋ(t)、Γ_ｋ(t)、Ｓ_ｋ(t+1)）のセットが格納される（ステップ１２０）。

【0101】

以後、バッチ処理によるＤＱＮの更新が実行されて（ステップ１２２）、今回のルーチンが終了される。

【0102】

以上説明した通り、本実施形態の無線通信システム１０によれば、複数の無線端末１８と複数の無線基地局１６とを含むヘテロジニアスな環境において、ＤＱＮ、ＤＤＱＮ等のニューラルネットワークを用いて接続状態を管理することができる。そして、ε-greedy法を用いることで、そのネットワークの学習を早期に収束させることができる。更に、通信環境が変化した場合にεを初期化することで、そのネットワークの価値関数としての特徴を、適切に変化後の状況に追随させることができる。このため、本実施形態の構成によれば、無線通信に関わるシステムリソースを常に有効に活用し続けることができる。

【0103】

ところで、上述した実施の形態１では、無線端末１８および無線基地局１６が、無線通信に二つのＩＦを用いることとしているが、本開示はこれに限定されるものではない。例えば、無線通信用のＩＦは三つ以上であってもよい。更には、無線通信用のＩＦには、ライセンス帯を対象とするものと、無線ＬＡＮ等に用いる非ライセンス帯を対象とするものとが混在していてもよい。或いは、無線通信用のＩＦは一つだけとして、ＤＱＮ等の深層強化学習は、無線端末１８が、どの無線基地局１６に接続を求めるのが最適かを決定するために用いることとしてもよい。

【0104】

また、上述した実施の形態１では、行動を決める価値関数として、ＤＱＮまたはＤＤＱＮを用いることとしている。しかしながら、それらはあくまで例示であり、本開示はこれに限定されるものではない。特定の状態の下で取り得る行動毎の価値を判断することのできるものであれば、何れも本開示の価値関数として用いることができる。

【符号の説明】

【0105】

１０無線通信システム
１６、１６－１、１６－２、１６－３無線基地局
１８、１８_ｋ無線端末
５２制御情報算出部
６０帰属先算出部
６２環境変化検出部
６４ ε判断部
Γ_ｋ(t) 報酬
ａ_ｋ(t) 行動
ｅ_ｋ(t) 経験
Ｓ_ｋ(t) 状態
Ｓ_ｋ(t+1) 遷移後の状態
Ｒ_ｋｆ要求データレート
ｒ_ｂｋｆ伝送レート

【図1】