特開2023-10000 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-10000無線通信方法、無線端末および無線端末用プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023010000

(43)【公開日】2023-01-20

(54)【発明の名称】無線通信方法、無線端末および無線端末用プログラム

(51)【国際特許分類】

H04W 28/18 20090101AFI20230113BHJP

H04W 72/0457 20230101ALI20230113BHJP

H04W 16/32 20090101ALI20230113BHJP

H04W 24/02 20090101ALI20230113BHJP

H04W 48/16 20090101ALI20230113BHJP

【ＦＩ】

H04W28/18

H04W72/04 111

H04W16/32

H04W24/02

H04W48/16 132

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021113738

(22)【出願日】2021-07-08

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】110003199

【氏名又は名称】弁理士法人高田・高橋国際特許事務所

(72)【発明者】

【氏名】若尾佳佑

(72)【発明者】

【氏名】河村憲一

(72)【発明者】

【氏名】守山貴庸

(72)【発明者】

【氏名】金子めぐみ

(72)【発明者】

【氏名】ティハーリーディン

【テーマコード（参考）】

5K067

【Ｆターム（参考）】

5K067AA13

5K067AA23

5K067BB04

5K067BB21

5K067DD11

5K067DD17

5K067DD43

5K067DD45

5K067EE02

5K067EE10

5K067EE24

5K067EE56

5K067FF16

5K067HH22

5K067JJ13

5K067JJ37

(57)【要約】

【課題】この開示は、無線通信方法に関し、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得ることを目的とする。
【解決手段】複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備えるＤＱＮを準備する。ＤＱＮは、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能する。パラメータの更新対象を、ＤＱＮの隠れ層の後段に結び付くパラメータに制限する（ステップ１２８）。接続の状態Ｓ_ｋ(t)をＤＱＮの入力層に提供して（ステップ１０８）最適行動ａ_ｋ(t)を選択する（ステップ１１０）。行動ａ_ｋ(t)に対して算出された報酬Γ_ｋ(t)（ステップ１１４）に基づいて、ＤＱＮのパラメータを更新する（ステップ１１８）。この際、パラメータは、隠れ層の後段に関わるものだけが更新される。
【選択図】図１２

【特許請求の範囲】

【請求項1】

複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを準備するステップと、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する応答を複数の無線基地局から取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限するステップと、
を含む無線通信方法。

【請求項2】

前記パラメータを初期化する段階で、前記パラメータの更新範囲を、前記ニューラルネットワークの全パラメータとするステップと、
前記初期化の終了後に前記全パラメータを保管するステップとを含み、
前記パラメータの更新範囲を制限した状態での前記学習は、前記初期化の終了後、かつ前記保管の終了後に実行される請求項１に記載の無線通信方法。

【請求項3】

前記ニューラルネットワークは、Ｂ_ＵＢ個の無線基地局に対応する入力層および出力層を備え、
前記Ｂ_ＵＢ個の無線基地局の中から、通信品質の優れた無線基地局を、前記Ｂ_ＵＢ個より少ないＢmax個だけ選定するステップと、
前記パラメータの更新範囲を、前記Ｂmax個の無線基地局に関わる行動に結びつくパラメータに更に制限するステップと、
を含む請求項１または２に記載の無線通信方法。

【請求項4】

前記ニューラルネットワークは、Deep Q-NetworkまたはDouble Deep Q-Networkである請求項１乃至３の何れか１項に記載の無線通信方法。

【請求項5】

複数の無線基地局と接続する機能を有する無線端末であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを格納したメモリ部と、ＣＰＵとを備え、
前記ＣＰＵが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行する無線端末。

【請求項6】

前記ＣＰＵは、
前記パラメータを初期化する段階で、前記パラメータの更新範囲を、前記ニューラルネットワークの全パラメータとする処理、
前記初期化の終了後に前記全パラメータを保管する処理とを更に実行し、
前記パラメータの更新範囲を制限した状態での前記学習は、前記初期化の終了後、かつ前記保管の終了後に実行される請求項５に記載の無線端末。

【請求項7】

前記ニューラルネットワークは、Ｂ_ＵＢ個の無線基地局に対応する入力層および出力層を備え、
前記ＣＰＵは、
前記Ｂ_ＵＢ個の無線基地局の中から、通信品質の優れた無線基地局を、前記Ｂ_ＵＢ個より少ないＢmax個だけ選定する処理と、
前記パラメータの更新範囲を、前記Ｂmax個の無線基地局に関わる行動に結びつくパラメータに更に制限する処理と、
を更に実行する請求項５または６に記載の無線端末。

【請求項8】

複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるＣＰＵに、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークをメモリ部から読み出させる処理と、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行させるプログラムを含む無線端末用プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この開示は、無線通信方法、無線端末および無線端末用プログラムに係り、特に、複数の無線端末と複数の無線基地局等とを含むネットワークにおいて高い通信効率を得る上で好適な無線通信方法、無線端末および無線端末用プログラムに関する。

【背景技術】

【0002】

無線通信システムの発展に伴い、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークが実用化の段階に至っている。セルラー通信では、第５世代移動通信（５Ｇ）が実用化されている。５Ｇの通信システムでは、１ＧＨｚ以下の帯域からミリ波帯まで幅広い周波数が利用される。また、スモールセルからマクロセルまで、様々なサイズのセルが重畳するように提供される環境が整備されつつある。

【0003】

もう一つの代表的な無線アクセスシステムである無線ＬＡＮでは、２．４／５／６０ＧＨｚ帯の無線周波数が利用されており、更に、６ＧＨｚ帯の利用も検討されている。スマートフォンなどの無線端末には、セルラーおよび無線ＬＡＮの双方にアクセスするためのインターフェース（ＩＦ）が一般的に与えられている。また、それぞれのＩＦは複数の周波数帯に対応するように構成されている。

【0004】

無線端末は、複数の周波数帯およびアクセス方式から、接続する無線基地局或いはアクセスポイント（ＡＰ）を選択して、通信を確立することが一般的となっている。デュアルコネクティビティ等の機能により、１台の無線端末が複数の無線基地局を統合して利用することも行われる。このようなヘテロジニアス環境においては、無線端末がどのＩＦを用いてどの基地局を選択するかを、システム全体で制御し最適化することが、システムリソースを有効に利用するうえで重要である。

【0005】

ヘテロジニアスな環境において、システムリソースを有効に利用する技術に関して、例えば下記非特許文献１や非特許文献２は、無線端末とＡＰとの接続を、強化学習により最適化する手法を開示している。より具体的には、非特許文献２は、Deep Q-Learning、或いはDouble Deep Q-Learningの手法を用いて、複数のＩＦを用いる無線端末と複数のＡＰとの接続を最適化する技術を開示している。

【0006】

また、下記非特許文献３は高次元の入力を強化学習で取り扱う手法であるDeep Q-Network（ＤＱＮ）についての開示を、また、下記非特許文献４はDouble Deep Q-Network（ＤＤＱＮ）についての開示を夫々提供している。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】“Reinforcement Learning-aided Distributed User-to-Access Points Association in Interfering Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Hirantha Abeysekera, Yasushi Takatori, IEEE Globecom, Waikoloa, Hawaii, USA, Dec. 2019

【非特許文献2】“Deep Reinforcement Learning-based User Association in Sub6GHz/mmWave Integrated Networks”, Thi Ha Ly Dinh, Megumi Kaneko, Keisuke Wakao, Kenichi Kawamura, Takatsune Moriyama, Hirantha Abeysekera and Yasushi Takatori, in IEEE CCNC, Jan. 2021

【非特許文献3】“Human-level control through deep reinforcement learning,”Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves,Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou,Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis, Nature. 2015 Feb 26; Vol.518(7540): P529-533. doi: 10.1038/nature14236

【非特許文献4】“Deep Reinforcement Learning with Double Q-Learning,” H. Van Hasselt, A. Guez, and D. Silver, in Thirtieth AAAI conference on artificial intelligence, 2016

【発明の概要】

【発明が解決しようとする課題】

【0008】

ところで、マルチバンド・マルチアクセスのテヘロジニアスな環境では、スマートフォンやタブレットのようなモバイル端末が無線端末として用いられることがある。モバイル端末を取り巻く通信環境は、モバイル端末の移動に伴って変化する。また、同じエリアの中に多数の無線端末が存在する場合は、個々の無線端末から発せられる要求の変化が、そのエリアに属する無線端末や無線基地局の負荷に影響を与える。その結果、個々の無線端末を取り巻く通信環境は、他の無線端末の状態によっても大きく変化する。これらの理由により、ヘテロジニアスな環境に置かれた無線端末が、どの無線基地局に対して、どのＩＦで接続するかに関する最適解は、安定的なものではなく、激しく変化する動的なものとなることがある。

【0009】

ＤＱＮやＤＤＱＮのような強化学習を用いて無線端末と無線基地局との接続を最適化しようとした場合、通信環境が変化すれば、変化後の環境に適合するように強化学習のパラメータを更新する必要がある。そして、通信環境が頻繁に変化する環境下では、そのような更新を高い頻度で実行する必要がある。

【0010】

無線端末を、複数のＩＦを用いて多数の無線基地局と接続させる環境下では、無線基地局の数、およびＩＦの数が増えるほど、上記の更新に伴って高い負荷が生ずる。無線端末の処理能力は有限であるため、無線基地局の数、並びに使用可能なＩＦの数が増えるに従って、高頻度でのパラメータ更新に追随することが無線端末にとって困難になる。

【0011】

本開示は、上記の課題に着目してなされたものであり、複数の無線端末と複数の基地局等とを含むネットワークにおいて、最適化のために必要なパラメータ更新の演算負荷を軽減することのできる無線通信方法、無線端末および無線端末用プログラムを提供することを目的とする。

【課題を解決するための手段】

【0012】

本開示の第１の態様は、上記の目的を達成するため、複数の無線基地局と無線端末との接続の組合せを決める無線通信方法であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを準備するステップと、
前記複数の無線基地局と前記無線端末との接続の状態を検知するステップと、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定するステップと、
採用する行動に対応する要求を前記複数の無線基地局に伝達するステップと、
前記要求に対する応答を複数の無線基地局から取得するステップと、
前記応答に基づいて、前記行動に対する報酬を算出するステップと、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新するステップと、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習するステップと、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限するステップと、
を含むことが望ましい。

【0013】

また、本開示の第２の態様は、複数の無線基地局と接続する機能を有する無線端末であって、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークを格納したメモリ部と、ＣＰＵとを備え、
前記ＣＰＵが、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行することが望ましい。

【0014】

また、本開示の第３の態様は、複数の無線基地局と接続する機能を実現するための無線端末用プログラムであって、
無線端末が備えるＣＰＵに、
複数の無線基地局に対応する入力層および出力層と、それらの間に位置する二以上の層を含む隠れ層とを備え、状態の入力に対して、当該状態の下で前記無線端末が採り得る行動夫々の価値を出力する価値関数として機能するニューラルネットワークをメモリ部から読み出させる処理と、
前記複数の無線基地局と当該無線端末との接続の状態を検知する処理と、
検知された状態を前記入力層に提供した結果、前記出力層に表れる結果に従って、当該状態の下で前記無線端末が採用する行動を決定する処理と、
採用する行動に対応する要求を前記複数の無線基地局に伝達する処理と、
前記要求に対する応答を複数の無線基地局から取得する処理と、
前記応答に基づいて、前記行動に対する報酬を算出する処理と、
前記報酬に基づいて、前記状態の下で前記行動を採用することについての価値を更新する処理と、
更新後の前記価値に基づいて、前記価値関数のパラメータを学習する処理と、
前記パラメータの更新範囲を、前記隠れ層のうち、少なくとも最前段の層を除く後段の一以上の層に結び付くパラメータに制限する処理と、
を実行させるプログラムを含むことが望ましい。

【発明の効果】

【0015】

本開示によれば、複数の無線端末と複数の基地局等とを含むネットワークにおいて、無線端末の行動を決めるニューラルネットワークのパラメータ更新範囲を、隠れ層の後段の層に結び付くパラメータに制限することができる。このため、本開示によれば、全てのパラメータが更新される場合に比して、パラメータの更新に伴う計算負荷を軽減することができる。その結果、無線基地局の数、或いはそこで用いられる無線通信用のインターフェースの数が増えても、パラメータを高頻度で更新することが可能となり、システムリソースを常に有効に活用することが可能となる。

【図面の簡単な説明】

【0016】

【図1】本開示の実施の形態１の無線通信システムの全体構成を説明するための図である。

【図2】本開示の実施の形態１における無線端末と無線基地局との接続状態の一例を説明するための図である。

【図3】本開示の実施の形態１においてヘテロジニアスな環境下で無線端末が移動している様子を表す図である。

【図4】本開示の実施の形態１で用いられる無線基地局の機能的な構成を説明するためのブロック図である。

【図5】本開示の実施の形態１で用いられる無線端末の機能的な構成を説明するためのブロック図である。

【図6】本開示の実施の形態１で用いられる無線端末のハードウェア構成を説明するための図である。

【図7】本開示の実施の形態１で用いられるＤＱＮの概要を説明するための図である。

【図8】本開示の実施の形態１で用いられるＤＱＮの更新に関わる処理の内容を説明するための図である。

【図9】本開示の実施の形態１で用いられるＤＱＮのパラメータの初期化を説明するための図である。

【図10】本開示の実施の形態１で用いられるＤＱＮのパラメータの部分更新を説明するための図である。

【図11】本開示の実施の形態１における無線端末が、ＤＱＮのパラメータを初期化する際の処理の流れを説明するためのフローチャートである。

【図12】本開示の実施の形態１における無線端末が、ＤＱＮのパラメータを部分更新する際の処理の流れを説明するためのフローチャートである。

【発明を実施するための形態】

【0017】

実施の形態１．
［実施の形態１の全体構成］
図１は、本開示の実施の形態１の無線通信システム１０の全体構成を説明するための図である。図１に示すように、無線通信システム１０は、有線通信のネットワーク１２を含んでいる。ネットワーク１２には、スイッチ１４を介して複数の無線基地局１６が接続されている。無線基地局１６は、ネットワーク１２を介して、また無線の経路を介して、他の無線基地局１６と通信することができる。

【0018】

図１に示す無線通信システム１０は、複数の無線端末１８を含んでいる。本実施形態において、無線端末１８は、スマートフォン、或いはタブレット端末のようなモバイル端末を含んでいるものとする。

【0019】

無線端末１８は、夫々、無線通信用のアプリケーションとＩＦを、複数組み備えている。例えば、無線端末１８は、１ＧＨｚ以下での通信に用いるアプリケーション並びにＩＦ、ミリ波帯での通信に用いるアプリケーション並びにＩＦ、更には、無線ＬＡＮで用いられる２．４／５／６０ＧＨｚ帯での通信に用いるアプリケーション並びにＩＦを備えている。

【0020】

上述した無線基地局１６にも、それらに対応するＩＦ等が備わっている。そして、個々の無線端末１８は、上記のアプリケーションおよびＩＦを介して、単一または複数の無線基地局１６と無線で通信することができる。これにより、本実施形態の無線通信システム１０は、マルチバンド・マルチアクセスによるヘテロジニアスなネットワークとしての機能を実現する。

【0021】

尚、本実施形態の無線通信システム１０は、通信事業者が設置するセルラー通信用の無線基地局に加えて、無線ＬＡＮのアクセスポイント（ＡＰ）にも対応している。以下、便宜上「無線基地局１６」は両者を包括するものとして説明を進める。

【0022】

［実施の形態１の特徴］
次に、図２乃至図１２を参照して、本実施形態における無線端末１８の特徴を説明する。以下の説明では、無線基地局１６および無線端末１８が、第一の周波数帯域での通信に対応するインターフェースＩＦ１と、第二の周波数帯域での通信に対応するインターフェースＩＦ２を備えていることとする。ＩＦ１は、例えば、１ＧＨｚ以下の周波数帯に対応するインターフェースであり、ＩＦ２は、例えば、ミリ波帯の周波数に対応するインターフェースである。

【0023】

また、以下の説明では、無線端末１８を複数の中の特定の一台として指し示す必要がある場合は、符号ｋを用いて「無線端末１８_ｋ」のように表示する。更に、複数の無線基地局１６の夫々を区別して説明する必要がある場合は、１６－１、１６－２のように添え字を付した符号を用いることとする。

【0024】

図２は、無線端末１８_ｋが、二台の無線基地局１６－１、１６－２に帰属している様子を示している。無線端末１８_ｋは、自己を取り巻く通信環境において、ハードウェアの制約により定まる上限数Ｂ_ＵＢの無線基地局１６を通信対象として取り扱うことができる。図２は、それらＢ_ＢＵ個の無線基地局１６のうち、無線端末１８_ｋが無線基地局１６－１および１６－２と接続している状態を示している。

【0025】

無線端末１８_ｋおよび無線基地局１６は、上記の通り、異なる帯域に対応する二つのインターフェース、ＩＦ１およびＩＦ２を備えている。図２に示す例では、無線端末１８_ｋが、ＩＦ１で第一の無線基地局１６－１に帰属し、ＩＦ２で第二の無線基地局１６－２に帰属する状態が形成されている。

【0026】

図３は、マルチバンド・マルチアクセスによるヘテロジニアスな環境下で、無線端末１８_ｋが移動している様子を示している。先ず、無線端末１８_ｋが、図中最も左の位置に存在する環境を想定する。この環境において、無線端末１８_ｋが、無線基地局１６－１および１６－２に帰属する状態が最適であれば、無線端末１８_ｋからの接続要求は、その状態が実現されるように発せられることが望ましい。

【0027】

ここで、無線端末１８_ｋが、図中最も左の位置から図の中央、更には図の右側へと移動すれば、最適な接続の組合せは当初の組合せから変化する。同様の変化は、無線端末１８_ｋと同じ環境に属する他の無線端末１８（図示略）の移動や、それらからの要求データレートの変化等によっても生ずる。このため、無線端末１８_ｋは、通信環境が変化した場合には、変化後の環境下に最適な組み合わせで、接続要求を発することが望ましい。

【0028】

本実施形態において、無線端末１８は、接続を求める無線基地局１６並びにＩＦを、Deep Q-Network（ＤＱＮ）またはDouble Deep Q-Network（ＤＤＱＮ）を用いて決定する。このため、ここで用いられるＤＱＮ或いはＤＤＱＮは、安定した通信環境の下では、その環境に最適な状態に早期に収束し、かつ、動的な通信環境の下では、迅速に環境変化に追随するものであることが望まれる。

【0029】

図４は、無線基地局１６の一例を機能的に説明するためのブロック図である。無線基地局１６は、アンテナ部２０を備えている。アンテナ部２０は、無線基地局１６が、他の無線基地局１６並びに周囲の無線端末１８と無線信号を授受するために用いられる。

【0030】

アンテナ部２０は、無線通信部２２に接続されている。無線通信部２２は、高周波の信号を処理するＲＦ（Radio Frequency）部２４と、無線通信におけるメディアアクセス制御の機能を備えたＭＡＣ（Media Access Control）機能部２６とを備えている。無線通信部２２は、複数の周波数帯域に対応する機能、具体的には、１ＧＨｚ以下に対応するＩＦ１としての機能と、ミリ波帯の周波数に対応するＩＦ２としての機能を、共に実現することができるように構成されている。

【0031】

無線基地局１６は、また、品質測定部２８を備えている。品質測定部２８は、無線環境測定部３０とトラヒック測定部３２を備えている。無線環境測定部３０は、無線基地局１６を取り巻く無線通信の環境に関わる情報を取得する。トラヒック測定部３２は、無線基地局１６と無線端末１８との間のトラヒックに関わる情報を取得する。品質測定部２８は、それらの情報に基づいて、無線基地局１６と無線端末１８との間の通信品質の情報を算出する。通信品質情報には、例えば、無線端末１８からの受信電力、無線端末１８の要求データレート、現実の伝送レート、および無線基地局１６における帯域使用率等が含まれる。

【0032】

無線基地局１６は、通信ＩＦ部３４を備えている。通信ＩＦ部３４は、ネットワーク１２を経由する有線での通信に用いられる。無線基地局１６は、通信ＩＦ部３４を経由する有線通信により、或いは無線通信部２２およびアンテナ部２０を経由する無線通信により、他の無線基地局１６が取得した通信品質情報を取得することができる。他の無線基地局１６から取得した通信品質情報は、自らが取得した通信品質情報と共に、品質測定部２８において一元的に管理される。

【0033】

無線基地局１６は、情報通知部３６を備えている。情報通知部３６は、品質測定部２８に集約された通信品質情報を読み出すことができる。情報通知部３６は、読み出した通信品質情報を、通信ＩＦ部３４並びに無線通信部２２に提供することができる。これにより、無線基地局１６は、有線または無線の経路で、自らが保有する通信品質情報を他の無線基地局１６に提供することができる。

【0034】

無線基地局１６は、無線通信部２２およびアンテナ部２０を介して、周辺に位置する無線端末１８から帰属要求を受け付ける。帰属要求は、要求情報評価部３８で処理される。要求情報評価部３８は、無線端末１８が要求する帯域およびデータレート、更には自らの負荷状態等に基づいて帰属の可否を判断する。

【0035】

要求情報評価部３８による判断の結果は、要求応答通知部４０と、帰属情報記録部４２に送られる。要求応答通知部４０は、無線通信部２２およびアンテナ部２０を介して、帰属要求を発した無線端末１８に向けて、帰属の可否に関する判断結果を提供する。帰属情報記録部４２は、その判断の結果に基づいて、無線基地局１６に如何なる無線端末１８が帰属しているのかに関する情報を更新および記録する。

【0036】

図５は、無線端末１８の一例を機能的に説明するためのブロック図である。無線端末１８は、アンテナ部４４および無線通信部４６を備えている。無線通信部４６は、ＲＦ部２４およびＭＡＣ機能部５０を備えている。これらの機能は、無線基地局１６が備える対応ブロックの機能と実質的に同じであるため、ここでは、その説明を省略する。

【0037】

無線端末１８は、制御情報算出部５２を備えている。制御情報算出部５２は、無線通信部４６およびアンテナ部４４を介して、帰属先の無線基地局１６から通信品質情報を取得する。そして、制御情報算出部５２は、通信品質情報に基づいて、ＤＱＮまたはＤＤＱＮにより、複数の無線通信用のＩＦの夫々を、どの無線基地局１６に接続させるのが最適な行動ａ_ｋであるかを決める処理と、そのための学習とを行う。

【0038】

制御情報算出部５２は、状態算出部５４を備えている。状態算出部５４では、通信品質情報に基づいて、ＤＱＮまたはＤＤＱＮの入力層に提供する状態Ｓ_ｋ(t)が算出される。

【0039】

制御情報算出部５２は、また、報酬算出部５６を備えている。報酬算出部５６は、通信品質情報に基づいて、採用された行動ａ_ｋにより得られる報酬Γ_ｋを算出する。

【0040】

制御情報算出部５２は、更に、ＤＱＮ／ＤＤＱＮ更新部５８を備えている。ＤＱＮ／ＤＤＱＮ更新部５８では、強化学習に用いられるＤＱＮまたはＤＤＱＮのパラメータθが更新される。より具体的には、ＤＱＮまたはＤＤＱＮの価値関数としての特徴を決める重み付けの係数やバイアス値（以下、「重み付け係数等」とする）が更新される。

【0041】

ＤＱＮ／ＤＤＱＮ更新部５８によって更新されたＤＱＮまたはＤＤＱＮは、帰属先算出部６０において用いられる。即ち、帰属先算出部６０は、更新後のＤＱＮまたはＤＤＱＮに従って、今回採用するべき行動ａ_ｋ、つまり、どのＩＦをどの無線基地局１６に帰属させるべきかを算出する。

【0042】

ＤＱＮおよびＤＤＱＮは、入力層に状態Ｓ_ｋが与えられると、無線端末１８が採り得る行動ａ_ｋの夫々について、採用の価値を出力層に表出させる。従って、その価値が最も大きい値となる行動を選択すれば、現在の学習段階において最適と考えられる行動を選択することができる。但し、次の行動ａ_ｋが常に上記の価値に基づいて選択されるとすると、偶然選ばれた局所的な解に囚われてしまい、真の最適行動が永遠に選択されない事態に陥ることがある。

【0043】

帰属先算出部６０は、そのような事態の発生を避けるため、ε-greedy法に従って行動ａ_ｋを算出する。このため、帰属先算出部６０では、確率εで、ＤＱＮまたはＤＤＱＮによらずランダムに次の行動ａ_ｋが選択される。また、確率1-εで、ＤＱＮまたはＤＤＱＮが最適と判断する行動ａ_ｋが選択される。

【0044】

更に、帰属先算出部６０は、学習が繰り返される毎に、εに減衰処理を施す。偶然選ばれた局所的解に陥る可能性は、学習初期の段階で大きく、学習が進行するに連れて小さくなる。このため、ランダムに行動ａ_ｋを選択する必要性は、学習が進むに連れて小さくなる。εに減衰処理を施すと、その必要性の低下に合わせて、行動ａ_ｋがランダムに選択される頻度を下げることができる。このため、本実施形態の帰属先算出部６０によれば、効率よく学習を進めて、パラメータθを短期間で最適値に収束させることができる。

【0045】

ところで、ＤＱＮまたはＤＤＱＮのパラメータを学習する手法として、転移学習（Transfer Learning）が知られている。転移学習とは、学習済みモデルをベースに、最終の出力層を付け替えて学習させる手法である。転移学習では、入力層に近い部分のパラメータは学習済みの値から変化させず、付け替えた出力層へのパラメータ、およびその手前の幾つかの層のパラメータだけが自前のデータで学習し直される。転移学習によれば、一部のパラメータだけが更新の対象となるため、パラメータの全てを更新する場合に比して、更新に伴う計算負荷を軽減することができる。

【0046】

本実施形態の無線通信システム１０では、上記の通り、動的な通信環境の下で、ＤＱＮまたはＤＤＱＮを迅速に環境変化に追随させることが望まれる。そのためには、ＤＱＮまたはＤＤＱＮの更新を高い頻度で繰り返す必要がある。そして、その更新を高い頻度で繰り返すためには、その更新に伴う計算負荷を十分に軽減することが必要である。

【0047】

本実施形態では、上記の観点の下、ＤＱＮまたはＤＤＱＮの更新に、転移学習の考え方を応用して、パラメータの部分更新を行う。つまり、パラメータの初期化が終了した後は、ＤＱＮまたはＤＤＱＮに含まれる隠れ層のうち、前段に対応するパラメータは固定して、その後段に対応するパラメータだけを更新する。この手法によれば、全てのパラメータが更新対象である場合に比して、ＤＱＮまたはＤＤＱＮの更新に伴う計算負荷を大幅に軽減することができる。

【0048】

また、本実施形態における無線端末１８は、上記の通り、ハードウェアが許容するＢ_ＵＢ個の無線基地局１６を通信の対象として取り扱う。そして、Ｂ_ＵＢ個の無線基地局１６を通信対象としてＤＱＮまたはＤＤＱＮを更新しようとすると、無線端末１８が備える二つのＩＦと、Ｂ_ＵＢ個の無線基地局１６が備える二つのＩＦとの間に成立し得る可能な組み合わせの数が状態空間のサイズとなる。

【0049】

しかしながら、Ｂ_ＵＢ個の無線基地局１６には、無線端末１８との間の信号強度が弱く、現実的には帰属先の対象とならないものが含まれる。そして、このような無線基地局１６を帰属先から省けば、ＤＱＮまたはＤＤＱＮの更新において考慮すべき状態空間のサイズが小さくなり、更新に伴う演算負荷を下げることができる。

【0050】

無線端末１８は、上記の機能を実現するため、環境変化検出部６２と、更新範囲制御部６４を備えている。環境変化検出部６２は、以下の三つの機能を果たす。
１．周囲の無線基地局１６から受信する信号に基づいて、チャネル品質の状態を表すＲＳＳＩ（Received Signal Strength Indicator）を計測する。
２．ＲＳＳＩが示す強度が高い順にＢmax個の無線基地局１６を選択する。但し、Ｂmaxは、Ｂ_ＵＢより小さな数である。
３．Ｂmax個に含まれる無線端末１８の組み合わせ、或いはそれらにおいて利用可能なＩＦの組み合わせが変化した場合に、環境の変化を認定する。

【0051】

更新範囲制御部６４は、以下の三つの機能を果たす。
１．パラメータθを初期化する段階では、隠れ層の全てを更新の対象とすることをＤＱＮ／ＤＤＱＮ更新部５８に指示する。同時に、Ｂ_ＵＢ個の無線基地局６の全てをアクティブな対象として取り扱うことを、報酬算出部５６およびＤＱＮ／ＤＤＱＮ更新部５８に指示する。
２．初期化の終了後は、隠れ層の後段だけを更新の対象とすることをＤＱＮ／ＤＤＱＮ更新部５８に指示する。同時に、ＲＳＳＩの大きなＢmax個の無線基地局１６だけをアクティブな対象として扱うことを、報酬算出部５６およびＤＱＮ／ＤＤＱＮ更新部５８に指示する。
３．環境変化検出部６２が環境変化を認定したら、学習済みのパラメータを保存して、アクティブな対象を新たなＢmax個の無線基地局１６に変更することを、報酬算出部５６およびＤＱＮ／ＤＤＱＮ更新部５８に指示する。

【0052】

報酬算出部５６およびＤＱＮ／ＤＤＱＮ更新部５８は、更新範囲制御部６４の指示に従ってパラメータθの更新手法を切り替える。これにより、初期化の終了後は、パラメータθの更新に伴う負荷が十分に軽減される。

【0053】

本実施形態において、無線端末１８は、メモリ部６６を備えている。メモリ部６６は、下記の情報を経験ｅ_ｋ(t)として格納する。
１．今回の学習でＤＱＮまたはＤＤＱＮの入力層に提供された状態Ｓ_ｋ(t)、
２．その状態Ｓ_ｋ(t)に応じて決定された行動ａ_ｋ(t)、
３．その行動ａ_ｋ(t)により得られた報酬Γ_ｋ(t)、
４．その行動ａ_ｋ(t)により遷移した先の状態Ｓ_ｋ(t+1)。

【0054】

無線端末１８は、また、帰属先要求部６８を備えている。帰属先要求部６８は、帰属先算出部６０から行動ａ_ｋを受け取り、その行動ａ_ｋに対応するリクエストを生成する。例えば、無線端末１８をＩＦ１で無線基地局１６－１に接続する、或いは、無線端末１８をＩＦ２で無線基地局１６－２に接続する、といったリクエストを生成する。生成されたリクエストは、無線通信部４６およびアンテナ部２０を介して、単一または複数の無線基地局１６に送信される。

【0055】

無線端末１８は、帰属先記録部７０を備えている。無線基地局１６から受け取る情報には、リクエストに対する可否の応答が含まれている。例えば、その情報には、新たな接続を許可する旨の応答、或いは接続の更新を許可する旨の応答等が含まれている。帰属先記録部７０は、これらの応答に基づいて、帰属先の無線基地局１６についての情報を更新して記録する。

【0056】

図６は、無線端末１８のハードウェア構成を説明するための図である。ここでは、無線端末１８がスマートフォンである場合について説明する。但し、無線端末１８は、スマートフォンに限定されるものではなく、タブレット端末や汎用のコンピュータシステムであってもよい。

【0057】

無線端末１８は、CPU（Central Processing Unit）７２を備えている。CPU７２は、バス配線７４を介して、無線端末１８が備える各種のハードウェア要素と接続されている。バス配線７４には、例えば、ROM（Read Only Memory）７６、RAM（Random Access Memory）７８、ストレージ８０等の各種メモリ装置が接続されている。

【0058】

ストレージ８０は、フラッシュROM等の不揮発性メモリを含んでいる。各種のアプリケーションの実行に必要なプログラムやデータは、ストレージ８０に格納されている。上述したメモリ部６６および帰属先記録部７０は、ストレージ８０により実現される。また、CPU７２は、ストレージ８０に格納されているプログラムに沿って処理を進めることにより、図５に示す制御情報算出部５２、環境変化検出部６２および更新範囲制御部６４等の機能を実現する。

【0059】

無線端末１８は、通信インターフェース８２を備えている。通信インターフェース８２は、上記のアンテナ部４４および無線通信部４６に相当する。無線端末１８は、更に、操作部８４および表示部８６を備えている。操作部８４は、各種の機械的なスイッチ機構および電子的なセンサ機構に加えて、表示部８６と一体化されたタッチパネルを含んでいる。

【0060】

［ＤＱＮの概要］
図７は、ＤＱＮの概要を説明するための図である。以下、図７を参照して、無線端末１８_ｋが用いる深層強化学習の一例であるＤＱＮの概要を説明する。本実施形態で用いられるＤＱＮは、入力層と、隠れ層と、出力層を有している。また、ＤＱＮには、現時点ｔの学習状態に対応するパラメータθ_ｉ ^ｔが設定されている。ＤＱＮの価値関数としての特性は、パラメータθ_ｉ ^ｔにより決定される。

【0061】

図７において、ＤＱＮの入力層は、Ｍ個のノードＳ_１～Ｓ_Ｍを有している。これらのノードには、無線端末１８_ｋの状態Ｓ_ｋを構成する要素が夫々入力される。状態Ｓ_ｋの要素には、例えば、以下のような要素が含まれる。
１．無線基地局１６－ｂの帯域利用率φｂ、
２．無線端末１８_ｋのインターフェースｆの要求データレートＲ_ｋｆ、
３．無線端末１８_ｋと無線基地局１６－ｂとの帰属の関係ｘ_ｂｋｆ（帰属していれば１、そうでなければ０）、
４．無線端末１８_ｋのインターフェースｆの無線基地局１６－ｂに対する帰属の要求ａ_ｂｋｆ（要求有りなら１、そうでなければ０）、
５．無線端末１８_ｋのインターフェースｆと無線基地局１６－ｂとの間に成立している伝送レートｒ_ｂｋｆ。

【0062】

隠れ層の層数とノード数は任意である。但し、本実施形態では、隠れ層の層数は二以上であるものとする。出力層は、無線端末１８_ｋが、状態Ｓ_ｋの下で取ることのできる行動ａ_ｉの総数Ｎと等しいノード数を有している。行動ａ_ｉの一部を以下に例示する。
・ＩＦ１だけを無線基地局１６－１に帰属させる。
・ＩＦ１およびＩＦ２の双方を無線基地局１６－１に帰属させる。
・ＩＦ２だけを無線基地局１６－１に帰属させる。
・ＩＦ１を無線基地局１６－１に帰属させ、ＩＦ２を無線基地局１６－２に帰属させる。
・
・
・

【0063】

出力層の各ノードには、無線端末１８_ｋが取り得る行動ａ_ｉ（ｉ＝１～Ｎ）の夫々についてのＱ値＝Ｑ（Ｓ_ｋ，ａ_ｉ；θ_ｉ ^ｔ）が表出する。Ｑ値は、パラメータθ_ｉ ^ｔの下でＤＱＮが算出した行動ａ_ｉについての採用価値である。

【0064】

ＤＱＮを用いる手法では、出力層に表れたＱ値の中から最も大きな値を選択して、そのＱ値を生じさせる行動ａ_ｉ(t)を、現時点ｔでの最適な行動ａ_ｋ(t)と決定する。ＤＱＮによれば、このようにして、個々の学習段階において、その時点ｔで最適と判断できる行動ａ_ｋ(t)を決定することができる。

【0065】

図８は、無線端末１８_ｋの制御情報算出部５２がＤＱＮのパラメータθ_ｉを更新する流れを説明するため図である。尚、図８では、行動ａ_ｋ(t)を、便宜上ＤＱＮ／ＤＤＱＮの後段に示しているが、行動ａ_ｋ(t)がＤＱＮまたはＤＤＱＮにより決定されるのは、上記の通り確率１－εの場合に限られる。そして、確率εの下では、行動ａ_ｋ(t)がランダムに決定される。パラメータθ_ｉには、それら双方の場合に得られた経験ｅ_ｋ(t)が反映される。

【0066】

無線端末１８_ｋでは、行動ａ_ｋ(t)が決定された後、その行動ａ_ｋ(t)に対する報酬Γ_ｋ(t)が算出される。報酬Γ_ｋ(t)は、例えば、次式（１）により算出される。

【0067】

【数1】

【0068】

上記（１）式中、右辺第一項は加点項目であり、第二項は減点項目である。両者に付されたω_１ｋ、ω_２ｋは、それらに対する配分比率を決める係数である。また、νは、ＩＦ１が対応するべき１GＨｚ以下（ｓｕｂ）の項と、ＩＦ２が対応するべきミリ波（ｍＷ）の項とを区別するための識別子である。

【0069】

更に、上記（１）式中、右辺第一項中のｃ_１ｋ ^ν(t)は、要求データレートＲ_ｋｆを満たす伝送レートｒ_ｂｋｆ(t)が得られた場合の加点分を意味している。その値は、次式（２）により算出される。

【0070】

【数2】

【0071】

上記（２）式は、以下の場合に、伝送レートｒ_ｂｋｆ(t)に応じた加点ｒ_ｂｋｆ(t)/Ｗ_νが与えられることを意味している。但し、末項中のＷ_νは（ｓｕｂ）と（ｍＷ）の周波数帯の違いを相殺して正規化するための因子である。
１．無線端末１８_ｋのインターフェースｆが無線基地局１６－ｂへの帰属を要求していること（ａ_ｂｋｆ(t)＝１）。
２．無線端末１８_ｋのインターフェースｆの帰属を無線基地局１６－ｂが認めており（ｘ_ｂｋｆ(t)＝１）、かつ、要求データレートＲ_ｋｆを超える伝送レートｒ_ｂｋｆ(t)が得られていること（ｒ_ｂｋｆ(t)＞Ｒｋｆ）。

【0072】

上記（１）式中、右辺第二項中のｃ_２ｋ ^ν(t)は、以下の二つの場面における減点分を意味している。
１．帰属の要求が出され（ａ_ｂｋｆ(t)＝１）、帰属は許可されたが（ｘ_ｂｋｆ(t)＝１）、要求データレートＲ_ｋｆを満たす伝送レートｒ_ｂｋｆ(t)が得られなかった場合（ｒ_ｂｋｆ(t)＜Ｒ_ｋｆ）。
２．帰属の要求が出されたが（ａ_ｂｋｆ(t)＝１）、無線基地局１６から帰属がドロップされてしまった場合（ｘ_ｂｋｆ ^ν(t)＝０）。

【0073】

（ｓｕｂ）の場合の減点ｃ_２ｋ ^sub(t)は、例えば下記（３）式のように表すことができる。また、（ｍＷ）の場合の減点ｃ_２ｋ ^ｍW(t)は、例えば下記（４）式および（５）式のように表すことができる。

【0074】

【数3】

【0075】

【数4】

【0076】

【数5】

【0077】

このように、行動ａ_ｋ(t)の結果として要求データレートＲ_ｋｆを満たす伝送レートｒ_ｂｋｆ(t)が得られれば報酬Γ_ｋ(t)は大きな値となる。他方、十分な伝送レートｒ_ｂｋｆ(t)が得られなければ、報酬Γ_ｋ(t)は小さな値となる。

【0078】

報酬Γ_ｋ(t)が算出されると、今回の経験ｅ_ｋ(t)がメモリに格納される（ステップ８８）。具体的には、現在の状態Ｓ_ｋ(t)、選択された行動ａ_ｋ(t)、得られた報酬Γ_ｋ(t)、並びに遷移後の状態Ｓ_ｋ(t+1)が、経験ｅ_ｋ(t)としてメモリに格納される。

【0079】

サンプルの系列に時間的な相関があると学習が適切に進まないことがある。この問題を解決するために、パラメータθ_ｉの更新にあたっては、メモリに格納された経験ｅ_ｋからランダムにメモリサンプルを取得し、それらをバッチ的に処理する（ステップ９０）。

【0080】

ランダムに取得したメモリサンプル、つまり（Ｓ_ｋ、ａ_ｋ、Γ_ｋ、Ｓ_ｋ´）を含む経験ｅ_ｋを用いて、ＤＱＮ／ＤＤＱＮのパラメータθ_ｉを更新する（ステップ９２）。但し、Ｓ_ｋ´は、行動ａ_ｋにより遷移した先の状態を指すものとする。本ステップ９２の処理は、具体的には、以下のように進められる。

【0081】

行動ａ_ｋに対する報酬Γ_ｋが決まると、その報酬Γ_ｋに基づいて、状態Ｓ_ｋの下で行動ａ_ｋを選択することについての「新たなＱ値」＝Ｑ（Ｓ_ｋ，ａ_ｋ）が算出できる。新たなＱ値は、例えば下記（６）式のように算出される。

【0082】

Ｑ（Ｓ_ｋ，ａ_ｋ）←Γｋ＋γ*maxＱ（Ｓ_ｋ´，ａ_ｋ´）・・・（６）
但し、γは、時間割引率である。

【0083】

上記（６）式の右辺、Γ_ｋ＋γ*maxＱ（Ｓ_ｋ´，ａ_ｋ´）は、（Ｓ_ｋ，ａ_ｋ）の組合せに対して、「学習後のＤＱＮ」にＱ値として算出して貰いたい値である。従って、ＤＱＮのパラメータθ_ｉは、（Ｓ_ｋ，ａ_ｋ）の入力に対して出力層にその値が表出するように更新すればよい。

【0084】

下記（７）式は、本実施形態においてＤＱＮのパラメータθ_ｉを更新する際に用いる損失関数L_ｋを示す。

【0085】

【数6】

【0086】

但し、上記（７）式、右辺第一項のＱ（Ｓ_ｋ，ａ_ｋ；θ_ｉ）は、パラメータθ_ｉを持つメインネットワークが（Ｓ_ｋ，ａ_ｋ）の組合せに対して算出するＱ値である。また、右辺第二項中のＱ（Ｓ_ｋ´，ａ_ｋ´；θ_ｉ ^―）は、パラメータθ_ｉ ^―を持つターゲットネットワークが（Ｓ_ｋ´，ａ_ｋ´）の組合せに対して算出するＱ値である。

【0087】

ＤＱＮを更新する際に、更新するネットワークの値を更新中のネットワークで計算すると、学習が安定しないことがある。このため、ＤＱＮの更新では、更新対象であるメインネットワークの他に、更新値を計算するためのターゲットネットワークを用いるのが通常である。本実施形態においても、上記通常の手法に従い、新たなＱ値に当たる（７）式第二項は、ターゲットネットワークを用いて計算する。

【0088】

本ステップ９２では、上記（７）式に示す損失関数Ｌ_ｋが最小化されるように、ＤＱＮのパラメータθ_ｉ、つまりメインネットワークのパラメータθ_ｉが更新される。その結果、ＤＱＮは、状態Ｓ_ｋの入力に対して、行動ａ_ｋのＱ値として、上記（６）式右辺の値を表出するように学習される。

【0089】

ターゲットネットワークは、更新の直後を除いて、過去のメインネットワークと同一である。そして、ターゲットネットワークは、既定の周期で更新される（ステップ９４）。即ち、既定の周期で更新時期が到来すると、ターゲットネットワークのパラメータθ_ｉ ^―が、メインネットワークのパラメータθ_ｉにより上書きされる。以上の処理により、ＤＱＮの更新が完了する。

【0090】

尚、下記（８）式は、本実施形態で、ＤＤＱＮの手法が用いられる場合に、上記ステップ９２において用いられる損失関数Ｌ_ｋを示す。更新の原理は、ＤＱＮの場合と同様であるため、これについての詳細は説明は省略する。

【0091】

【数7】

【0092】

［パラメータθ_ｉの初期化］
図９は、パラメータθ_ｉを初期化する際のＤＱＮの特徴を模式的に表した図である。ここでは、隠れ層の層数を「二」に設定している。パラメータθ_ｉには、隠れ層のｈ_１ノードが出力層のａ_１ノードを選択するための重み付け係数Ｗｈ_１ａ_１等が含まれる。パラメータθ_ｉの初期化の際には、上記の通り、更新範囲制御部６４が、隠れ層の全てを更新の対象とすること、およびＢ_ＵＢ個の無線基地局１６の全てをアクティブなものとして取り扱うことを指示する。

【0093】

ＤＱＮおよびＤＤＱＮの入力層並びに出力層には、Ｂ_ＵＢ個の無線基地局１６を取り扱うために必要な数のノードが準備されている。例えば、出力層には、無線端末１８が備える二つのＩＦと、Ｂ_ＵＢ個の無線基地局１６が夫々有するＩＦとの間に成り立つ組合せの総数に等しい数のノードａ_１～ａ｜Ａ_ｋ｜が準備される。パラメータθ_ｉを初期化する段階では、それらのノードの全てがアクティブな状態とされる。そして、ＤＱＮまたはＤＤＱＮのノード間に夫々設定される重み付け係数Ｗ等の全てが学習により更新される。

【0094】

この際、報酬Γ_ｋ(t)の計算も、Ｂ_ＵＢ個の無線基地局１６を処理の対象として計算される。即ち、上記（１）式～（４）式に示すように、報酬Γ_ｋ(t)の計算は、無線基地局１６の集合Ｂに対して実行される。ここでは、その集合ＢがＢ_ＵＢ個の無線基地局１６を含むものとして、上記（１）式～（４）式の計算が行われる。

【0095】

［パラメータθ_ｉの部分更新］
図１０は、パラメータθ_ｉが部分更新される際のＤＱＮの特徴を模式的に表した図である。初期化の終了後は、上記の通り、更新範囲制御部６４が、隠れ層の後段だけを更新の対象とすることを指示する。この指示を受けて、初期化の終了後は、隠れ層の二層のうち後段の層９６だけが更新の対象となり、隠れ層の前段の層に関わる重み付け係数Ｗ等は固定される。前段の層に関わる重み付け係数Ｗ等が固定されれば、更新するべきパラメータθ_ｉの数が少なくなる。このため、パラメータθ_ｉの更新に伴う計算負荷は、初期化の際の計算負荷に比して軽減される。

【0096】

更新範囲制御部６４は、また、初期化の終了後に、ＲＳＳＩの大きなＢmax個の無線基地局１６だけをアクティブなものとして取り扱うことを指示する。ＤＱＮおよびＤＤＱＮの入力層並びに出力層には、Ｂmaxに含まれない無線基地局１６を取り扱うためのノードが準備されている。この段階では、それらのノードが非アクティブな状態とされる。例えば、無線基地局１６－１がＢmaxに含まれない場合は、「無線端末１８_ｋのＩＦ１を無線基地局１６－１に接続する」、或いは「無線端末１８_ｋのＩＦ１およびＩＦ２の双方を無線基地局１６－１に接続する」といった行動ａ_ｋを収容するためのノードが非アクティブとされる。

【0097】

この場合、非アクティブなノードに関わる重み付け係数Ｗ等は固定され、アクティブなノードに関わるパラメータθ_ｉだけが更新される。非アクティブなノードに関わる重み付け係数Ｗ等が固定されれば、更新するべきパラメータθ_ｉの数が少なくなる。このため、パラメータθ_ｉの更新に伴う計算負荷は、初期化の際の計算負荷に比して、更に軽減される。

【0098】

報酬Γ_ｋ(t)の計算についても、集合Ｂの要素数がＢ_ＵＢ個からＢmax個に減少することで、上記（１）式から（４）式で取り扱うべき変数の数が減少する。これにより、報酬Γ_ｋ(t)の計算負荷も、初期化の場合に比して大幅に軽減される。

【0099】

このように、本実施形態では、パラメータθ_ｉの初期化が終了すると、その後は、パラメータθ_ｉの全数更新が部分更新に切り替えられる。そして、上記の部分更新によれば、最適な行動ａ_ｋを導出するためのＤＱＮまたはＤＤＱＮの特徴を損なうことなく、その学習に伴う演算負荷を大幅に低下させることができる。

【0100】

［無線端末のCPUによる処理］
図１１は、上記の機能を実現するために無線端末１８のＣＰＵ７２において実行される処理の流れを説明するためのフローチャートである。図１１に示すルーチンは、無線端末１８_ｋが、初めての通信環境下で起動された場合に実行される。尚、ここでは、強化学習の手法としてＤＱＮが用いられる場合について説明する。

【0101】

図１１に示すルーチンでは、先ず、周辺の無線基地局１６から取得した通信品質情報等に基づいて、ＤＱＮの入力層に提供する状態Ｓ_ｋ(t)が設定される（ステップ１００）。

【0102】

次に、今回の学習で用いるεが設定される（ステップ１０２）。εには、例えば初期値として０．１程度の値が与えられ、その後、本ルーチンが繰り返される毎に減衰処理が施される。

【0103】

次に、０～１の範囲に収まる乱数を発生させる。更に、その乱数がε以下であるかが判別される（ステップ１０４）。

【0104】

乱数≦εの成立が認められた場合は、現在の状態Ｓ_ｋ(t)に対して、次の行動ａ_ｋ(t)がランダムに決定される（ステップ１０６）。

【0105】

これに対して、上記ステップ１０４で乱数≦εの成立が認められなかった場合は、ＤＱＮの入力層に状態Ｓ_ｋ(t)が入力される（ステップ１０８）。そして、ＤＱＮの出力層に表れたＱ値が比較され、最も大きなＱ値を示す行動ａ_ｉ(t)が、現時点での最適な行動ａ_ｋ(t)として選択される（ステップ１１０）。

【0106】

次に、上記の処理により選択された行動ａ_ｋ(t)に基づいて、周囲の無線基地局１６に対して帰属のリクエストが出される（ステップ１１２）。

【0107】

リクエストに対する応答を受信すると、その応答に含まれている情報に基づいて、選択した行動ａ_ｋ(t)に対する報酬Γ_ｋ(t)が算出される（ステップ１１４）。

【0108】

次いで、メモリ部６６を構成するＲＡＭ７８に、今回のルーチンで取得した経験ｅ_ｋ(t)、即ち、（Ｓ_ｋ(t)、ａ_ｋ(t)、Γ_ｋ(t)、Ｓ_ｋ(t+1)）のセットが格納される（ステップ１１６）。

【0109】

以後、バッチ処理によるＤＱＮの更新が実行されて（ステップ１１８）、今回のルーチンが終了される。ここでは、ＤＱＮを特徴付けるパラメータθ_ｉの全数が更新される。以上の処理は、パラメータθ_ｉの初期化終了が認められるまで繰り返し実行される。

【0110】

図１２は、初期化の終了後に、パラメータθ_ｉの部分更新のためにＣＰＵ７２が実行する処理の流れを説明するためのフローチャートである。尚、図１２において、上記図１１に示すステップと実質的に同一のステップについては、共通する符号を付してその説明を省略または簡略する。

【0111】

図１２に示すルーチンでは、先ず、周辺の無線基地局１６の中から、ＲＳＳＩの優れたＢmax個の無線基地局１６が選定される（ステップ１２０）。

【0112】

次に、Ｂmax個の無線基地局１６の選定結果に変化が生じたか否かが判別される（ステップ１２２）。より具体的には、選定されたＢmax個の無線基地局１６において利用可能な通信インターフェースの組み合わせが変化したか否かが判別される。

【0113】

初期化の終了後、Ｂmax個の無線基地局１６が初めて選定された場合は、上記の「変化」が生じたと判断される。また、今回のサイクルで選定されたＢmax個の無線基地局１６および利用可能なＩＦの組み合わせが、前回のサイクルで選定された組合せと異なる場合も「変化」が生じたと判断される。これらの場合は、次に、その時点で学習されていたパラメータθ_ｉの全てが保存される（ステップ１２４）。

【0114】

次いで、入出力層のノードのうち、可能な行動に関わるノードだけが活性化設定される（ステップ１２６）。より具体的には、ＤＱＮの入力層および出力層のノードのうち、選定されたＢmax個の無線基地局１６について起こり得る行動に対応するものだけが活性化され、他の入出力ノードが非活性化される。

【0115】

尚、上記ステップ１２０において、Ｂmax個の組み合わせに変化が生じなかったと判別された場合は、上記ステップ１２４および１２６の処理がジャンプされる。そして、それらの処理に続いて、ＤＱＮの隠れ層のうち後段の層だけを更新対象とし、前段の層を更新対象から外す処理が実行される（ステップ１２８）。

【0116】

以後、図１１に示す場合と同様に、ステップ１００以降の処理が実行される。尚、図１２に示すルーチンでは、Ｂmax個の組み合わせについて変化が検知される毎に、ステップ１０２において、減衰していたεを初期値に戻すこととしてもよい。εが初期値にリセットされると、ランダムな探索の実行頻度が回復するため、パラメータθ_ｉを、通信環境の変化に追随させ易くすることができる。

【0117】

図１２に示すルーチンでは、ステップ１１８において、隠れ層の前段の層に関わるパラメータは固定値として保持される。そして、隠れ層の後段の層に関わるパラメータが、学習の進行に合わせて更新される。

【0118】

更に、図１２に示すルーチンでは、ステップ１１８において、Ｂmax個の無線基地局１６に対応する入出力ノードだけがアクティブなものとして、パラメータθ_ｉが部分的に更新される。換言すると、それらアクティブな入出力ノードの間に位置する重み付け係数Ｗ等だけが更新され、他のパラメータは固定値のまま保持される。

【0119】

また、図１２に示すルーチンによれば、無線端末１８_ｋを取り巻く通信環境が変化して、Ｂmax個の無線基地局１６の組み合わせ、或いはそれらにおいて利用可能なＩＦの組み合わせが変化すると、その時点で学習済みのパラメータθ_ｉが保管される。そして、以後、新たなＢmax個の無線基地局１６を対象として、最適な行動ａ_ｋを導出するためのパラメータθ_ｉの部分更新が行われる。

【0120】

上記の処理によれば、無線端末１８_ｋを取り巻く環境に属する無線基地局１６の数が増えても、また、それらにおいて利用可能なＩＦの数が増えても、過剰な計算負荷を課することなく、無線端末１８ｋにおいてＤＱＮのパラメータθ_ｉを頻繁に学習させることができる。このため、本実施形態によれば、マルチバンド・マルチアクセスによるヘテロジニアスな環境下で、システムリソースを常に有効に活用し続けることができる。

【0121】

ところで、上述した実施の形態１では、無線端末１８および無線基地局１６が、無線通信に二つのＩＦを用いることとしているが、本開示はこれに限定されるものではない。例えば、無線通信用のＩＦは三つ以上であってもよい。更には、無線通信用のＩＦには、ライセンス帯を対象とするものと、無線ＬＡＮ等に用いる非ライセンス帯を対象とするものとが混在していてもよい。或いは、無線通信用のＩＦは一つだけとして、ＤＱＮ等の深層強化学習は、無線端末１８が、どの無線基地局１６に接続を求めるのが最適かを決定するために用いることとしてもよい。

【0122】

また、上述した実施の形態１では、行動を決める価値関数として、ＤＱＮまたはＤＤＱＮを用いることとしている。しかしながら、それらはあくまで例示であり、本開示はこれに限定されるものではない。特定の状態の下で取り得る行動毎の価値を判断することのできるものであれば、何れも本開示の価値関数として用いることができる。

【0123】

また、上述した実施の形態１では、隠れ層の後段だけを更新対象とする技術と、信号強度の強いＢmax個の無線基地局１６だけをアクティブなものとして取り扱う技術とを組み合わせて用いているが、それらを組み合わせて用いることは必須ではない。例えば、Ｂ_ＵＢ個の無線基地局１６の全てをアクティブなものとして取り扱い、隠れ層の後段の層だけを更新対象とすることで計算負荷の軽減を図ることとしてもよい。

【0124】

また、上述した実施の形態１では、隠れ層が二層の場合を説明しているが、隠れ層は、二層に限られるものではなく、上記の通り二層以上であればよい。そして、隠れ層が三層以上である場合、更新の対象となる層は最終段の層に限定されるものではない。この場合、再前段の層が除かれている限り、後段の幾つかの層が更新対象であってもよい。

【符号の説明】

【0125】

１０無線通信システム
１６、１６－１、１６－２、１６－３無線基地局
１８、１８_ｋ無線端末
５２制御情報算出部
６０帰属先算出部
６２環境変化検出部
６４更新範囲制御部
Γ_ｋ(t) 報酬
ａ_ｋ(t) 行動
ｅ_ｋ(t) 経験
Ｓ_ｋ(t) 状態
Ｓ_ｋ(t+1) 遷移後の状態
Ｒ_ｋｆ要求データレート
ｒ_ｂｋｆ伝送レート
θ_ｉパラメータ

【図1】