IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許7385869無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム
<>
  • 特許-無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム 図1
  • 特許-無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム 図2
  • 特許-無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム 図3
  • 特許-無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム 図4
  • 特許-無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム 図5
  • 特許-無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-15
(45)【発行日】2023-11-24
(54)【発明の名称】無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム
(51)【国際特許分類】
   H04W 24/02 20090101AFI20231116BHJP
   H04W 72/50 20230101ALI20231116BHJP
【FI】
H04W24/02
H04W72/50
【請求項の数】 8
(21)【出願番号】P 2020122332
(22)【出願日】2020-07-16
(65)【公開番号】P2022018901
(43)【公開日】2022-01-27
【審査請求日】2022-07-28
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】篠原 笑子
(72)【発明者】
【氏名】井上 保彦
(72)【発明者】
【氏名】淺井 裕介
(72)【発明者】
【氏名】鷹取 泰司
(72)【発明者】
【氏名】大関 啓史
(72)【発明者】
【氏名】成末 義哲
(72)【発明者】
【氏名】森川 博之
【審査官】小林 正明
(56)【参考文献】
【文献】特開2019-208188(JP,A)
【文献】特開2020-092368(JP,A)
【文献】特開2016-158305(JP,A)
【文献】特表2015-534772(JP,A)
【文献】山▲崎▼ 周 他1名,強化学習を用いた輻輳制御における公平性に関する一検討,電子情報通信学会技術研究報告 Vol.119 No.194,日本,一般社団法人電子情報通信学会,2019年08月29日,第119巻,第194号,13~18頁
【文献】相原 直紀 他4名,ニューラルネットワークに基づくQ学習を用いた無線リソース割り当て手法,電子情報通信学会技術研究報告 Vol.118 No.434,日本,一般社団法人電子情報通信学会,2019年01月24日,第118巻,第434号,109-114頁
(58)【調査した分野】(Int.Cl.,DB名)
H04B 7/24-7/26
H04W 4/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数の無線通信端末を含む無線通信システムの最適化方法であって、
個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定するステップと、
前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算するステップと、
複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算するステップと、
個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する報酬計算ステップと、
を含み、
前記行動は、特定の周波数チャネルの使用または周波数チャネルの不使用であり、
前記個別の報酬は、前記特定の周波数チャネルの利用の成否を表す値を含む無線通信システムの最適化方法。
【請求項2】
前記複数の無線通信端末は、通信規格および要求条件の少なくとも一方が同じであるグループに属する複数の無線通信端末を含み、
前記効用は、前記グループに対して計算され、
前記報酬計算ステップでは、前記個別の報酬と前記グループに対する効用とに基づいて、当該グループに属する無線通信端末の報酬が計算される
請求項1に記載の最適化方法。
【請求項3】
前記複数の無線通信端末は、複数のグループに分類され、
複数のグループの夫々に対する前記効用に基づいて、前記複数の無線通信端末の全てを対象とした公平性を表す全体効用を計算するステップを含み、
前記報酬計算ステップでは、前記個別の報酬と前記グループに対する効用と前記全体効用とに基づいて、当該グループに属する無線通信端末の報酬が計算される
請求項2に記載の最適化方法。
【請求項4】
前記効用は、前記複数の無線通信端末のうち通信の成功を意味するACKを受け取った端末の数に基づいて計算される請求項1乃至3の何れか1項に記載の最適化方法。
【請求項5】
前記効用は、前記複数の無線通信端末を、スループットおよびトラヒック負荷から計算される公平性で評価した値である請求項1乃至3の何れか1項に記載の最適化方法。
【請求項6】
前記効用は、前記複数の無線通信端末に対する要求条件から計算されるアウテージ端末数に基づいて計算され
前記アウテージ端末は、要求された通信品質を満たさないアウテージの状態に陥っている無線通信端末である請求項1乃至3の何れか1項に記載の最適化方法。
【請求項7】
複数の無線通信端末を含む無線通信システムであって、
前記複数の無線通信端末から無線環境情報を受け取ると共に、当該複数の無線通信端末に制御情報を提供する制御サーバを備え、
当該制御サーバは、
個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、
前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、
複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、
個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、を実行し、
前記行動は、特定の周波数チャネルの使用または周波数チャネルの不使用であり、
前記個別の報酬は、前記特定の周波数チャネルの利用の成否を表す値を含む無線通信システム。
【請求項8】
複数の無線通信端末から無線環境情報を受け取ると共に当該複数の無線通信端末に制御情報を提供する制御サーバに実装される無線通信システム用プログラムであって、
当該制御サーバに、
個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、
前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、
複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、
個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、
を実行させるためのプログラムを含み、
前記行動は、特定の周波数チャネルの使用または周波数チャネルの不使用であり、
前記個別の報酬は、前記特定の周波数チャネルの利用の成否を表す値を含む無線通信システム用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラムに係り、特に、多段階評価の学習を用いて通信状態の最適化を図る無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラムに関する。
【0002】
より具体的には、本発明は、異なる無線通信システムが干渉しあい混在する環境において、下記の2つの事項を併せて達成するための評価を実施する機械学習や強化学習などの、計算機を用いた学習に関するものである。
1.各無線通信システム内での通信容量を最大化する。
2.同じ周波数リソースを共有する無線通信システム同士で、全体としての最適化を実現する。即ち、各無線通信システムで定められた、スループット達成率などの評価項目について公平性を実現する。
【背景技術】
【0003】
無線LANは、免許不要帯において廉価に利用できる無線通信システムである。このため、その普及は急激に進み、多数の無線LAN端末が同じエリア内に混在する事態が生じている。その結果、無線LAN端末同士が互いに干渉し合うことが課題となっている。このような課題を受けて、無線LAN端末同士の干渉の影響を最小限にして、個々の、または全体のシステム容量を拡大するための技術が多数提案されている。
【0004】
例えば図1は、無線通信端末1~Nが、互いに干渉しあう無線LAN基地局(AP:Access Point)である例を示している。尚、図1の下段に示す無線通信端末N+1~N+Mは、上記のAPと通信を確立するスマートフォン等のユーザ端末である。この例では、APとして機能する無線通信端末1~Nの夫々が、それらの周辺における干渉情報や、無線通信端末N+1~N+Mとの接続成否の情報を取得し、無線環境情報として制御サーバ10へ送信する。
【0005】
制御サーバ10は、無線通信端末1~Nを含むAP群のスループットが最大となるように周波数チャネルや送信電力値の割り当てを算出し、その結果を制御情報として各APへ返送する。
【0006】
他方で、無線LAN以外にも免許不要帯を使用する無線通信システムは存在し、無線LANと同じ周波数リソースを共用して通信している。特に、現在国内でRFIDやIoT向けに開放されている920MHz帯では、複数の無線通信システムが混在している。例えば、日本国内では、LoRAWANやWi-SUN、SIGFOXなどの無線通信システムが、その同じ周波数帯域内でサービスを開始している。また、無線LANではIEEE 802.11ahが920MHz帯を使用する無線通信システムと考えられている。
【0007】
海外では、規格上キャリアセンスが規定されているものは時間すみわけがなされている。また、キャリアセンスが規定されていないものは、他の無線通信システムと、周波数リソースを分かつか同時に使用することになる。
【0008】
しかしながら、日本国内では、920MHz帯は複数の無線通信システムを収容するために十分な帯域が割り当てられていない。このため、周波数リソースを常に分かつことは難しく、同じ周波数リソースを同時に使用することが想定されている。
【0009】
同じ周波数リソースを共用するこれらの無線通信システムは、同じIoT向けと言っても、規格や仕様が大きく異なる。変復調方式やアクセス制御も異なるため、周波数利用効率や通信距離も異なり、同一の評価軸で扱うことは合理的とは言えない。
【0010】
非特許文献1によると、LoRAWANは、占有帯域幅が125kHzであり、通信距離は10kmほど、通信速度は最大でも数十kbsである。また、SIGFOXは帯域幅が100Hzで通信距離は数十km、通信速度は100bpsが基本である。Wi-SUNは占有帯域幅が最大600kHzで通信距離は1kmほど、通信速度は数百kbpsである。11ahは占有帯域幅が1MHz以上、通信速度は1kmほどで通信速度は数Mbpsとなっている。
【0011】
以上の無線通信システムでは、規格や仕様も異なる他、ユースケースやトラヒックが全く異なる。例えば、SIGFOXのような広域で低速な無線通信システムは、一日に数回トラヒックが発生して低速で送信するようなセンサ系のユースケースで適用されている。他方で、11ahのような高速な無線通信システムでは、監視カメラからの動画伝送など、常にトラヒックが発生するユースケースで適用されることが考えられる。
【0012】
このように、同じ周波数リソースを使用する複数の無線通信システムは、通信規格や仕様が大きく異なる他、要求されるスループットや頻度も異なる。このため、周波数リソースの割り当て等に関する最適化の計算では、それらのシステム各々の条件に基づいた計算が必要となる。
【0013】
他方で、条件が異なる複数の無線通信端末に対して周波数リソースを割り当てると、個々には最適な計算ができても、全体では最適と言えない場合が存在する。例えば、通信速度が速いと考えられる無線通信端末に対してのみ優先的に周波数リソースを割り当てるような算出結果では、周波数リソース割り当てが少なかった無線通信端末でのサービスが滞る事態が生ずる。この場合、周波数リソースを使用している全ての無線通信システムの評価としては、アウテージを残す結果となってしまい、最適とは言えない。
【0014】
そのため、条件が異なる複数の無線通信システムが存在する場合は、個々端末の最適化と共に、各条件の無線通信端末および共存している全無線通信システムの無線通信端末を考慮した最適化を可能とする制御が必要となる。
【先行技術文献】
【非特許文献】
【0015】
【文献】LPWAの最新動向と今後の展望、千葉大学、阪田史郎、2018年6月
【文献】IEEE Std 802.11ah-2016、2016年12月
【発明の概要】
【発明が解決しようとする課題】
【0016】
上述した免許不要帯のように、異なる条件が課された複数の無線通信システムが共存する無線通信リソースを最適化する際には、上述した従来の手法のように、1種類の無線通信システムが個々の無線通信リソースを最適化するだけでは不十分である。このような状況下では、複数の無線通信システムの夫々について評価を行い、個々のシステムにおける最適化だけではなく、無線通信リソースを使用する全ての無線通信システムに属する全ての無線通信端末にとっての最適化を実現する必要がある。
【0017】
本発明は、複数の無線通信端末の夫々につき無線通信での最適化を実施するとともに、複数の無線通信端末を全体として見た場合の最適化を併せて実施するため、強化学習の評価を多段階で実行する。
【課題を解決するための手段】
【0018】
第1の発明は、上記の目的を達成するため、複数の無線通信端末を含む無線通信システムの最適化方法であって、個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定するステップと、前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算するステップと、複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算するステップと、個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する報酬計算ステップと、を含むことが望ましい。
【0019】
また、第2の発明は、複数の無線通信端末を含む無線通信システムであって、前記複数の無線通信端末から無線環境情報を受け取ると共に、当該複数の無線通信端末に制御情報を提供する制御サーバを備え、当該制御サーバは、個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、を実行することが望ましい。
【0020】
また、第3の発明は、複数の無線通信端末から無線環境情報を受け取ると共に、当該複数の無線通信端末に制御情報を提供する制御サーバに実装される無線通信システム用プログラムであって、当該制御サーバに、個々の無線通信端末について、環境から提供される状態に基づいて、最高の報酬が得られるように行動を決定する処理と、前記行動が前記環境に返されることで、前記無線通信端末が得る個別の報酬を計算する処理と、複数の無線通信端末の夫々に対する前記個別の報酬に基づいて、前記複数の無線通信端末の公平性を表す効用を計算する処理と、個々の無線通信端末に対する報酬を、前記個別の報酬と前記効用とに基づいて計算する処理と、を実行させるものであることが望ましい。
【発明の効果】
【0021】
本発明によれば、無線通信端末の報酬が、当該端末が個別に受ける報酬と、複数の無線通信端末を公平性の視点で評価した結果である効用とに基づいて計算される。そして、個々の無線通信端末の行動は、その報酬が最大になるように決定される。このため、本発明によれば、無線通信端末夫々の最適化と、複数の無線通信端末を全体として評価した場合の最適化の双方をバランス良く実現することができる。
【図面の簡単な説明】
【0022】
図1】無線通信システムの構成例を説明するための図である。
図2】従来の強化学習のモデル例を説明するための図である。
図3】本発明の実施の形態1で実施される強化学習のモデルの例を説明するための図である。
図4】本発明の実施の形態1において実施される学習アルゴリズムの例を説明するためのフローチャートである。
図5】本発明の実施の形態2で実施される強化学習のモデルの例を説明するための図である。
図6】本発明の実施の形態2において実施される学習アルゴリズムの例を説明するためのフローチャートである。
【発明を実施するための形態】
【0023】
実施の形態1.
[実施の形態1の構成]
本発明の実施形態1の無線通信システムは、図1に示す構成例により実現することができる。図1において、中段に示す無線通信端末1~Nは、夫々Access Point(AP)として機能する。これらは、図1の下段に示す無線通信端末N+1~N+Mと通信することができる。無線通信端末N+1~N+Mは、スマートフォン、IoT用のセンサ、スマートメータ等で構成されている。このように、図1に示す構成には、同じ周波数リソースを共用するが、規格や仕様が異なる複数の無線通信システムが含まれている。
【0024】
本実施形態の無線通信システムは、制御サーバ10を備えている。制御サーバ10は、通信インターフェース、プロセッサユニット、メモリ等のハードウェアを備えている。制御サーバ10は、これらのハードウェアが、メモリ内に格納されているプログラムに従って処理を進めることにより、後述する機能を実現する。
【0025】
制御サーバ10は、APとして機能する無線通信端末1~Nに対して、制御情報を提供することができる。制御情報には、例えば、利用可能な周波数リソースや送信電力等の情報が含まれている。一方、無線通信端末1~Nは、制御サーバ10に対して無線環境情報を送信することができる。無線環境情報には、無線通信端末1~N夫々の周辺における干渉情報や、無線通信端末N+1~N+Mとの接続成否の情報が含まれている。
【0026】
また、制御サーバ10には、無線環境情報等に基づいて、制御情報に含める各種パラメータを最適化するための学習機能と、それら各種パラメータを、その学習の結果に基づいて決定する機能とが備わっている。
【0027】
[強化学習の概要]
【0028】
本実施形態において、制御情報に含める各種パラメータの最適化には、強化学習が用いられる。図2は、一般的な強化学習のモデル図を示す。図2に示すモデルには、学習を行う対象としてエージェント12が存在する。エージェント12は、事象の観測タイミングをtとして、一意な環境14の中で、現在の状態S(t)および報酬R(t)から行動A(t+1)を算出して実行する。その結果、状態S(t+1)が実現される。この状態S(t+1)から、行動を評価する報酬R(t+1)を得て、次の行動が算出される。
【0029】
以下の説明では、sおよびSが状態、aおよびAが行動、rおよびRが報酬を夫々表すものとする。ここで、小文字は個々のエージェント(最適化対象)に対するパラメータ、大文字はその集合(複数のエージェント)に対するパラメータであることを意味する。また、各パラメータの添え字tは、そのパラメータが、観測タイミングtにおける値であることを示し、St,At,RtはそれぞれS(t),A(t),R(t)と同じであるものとする。
【0030】
図2に示す強化学習は、以下のステップの繰り返しにより進められる。
1.エージェント12は、環境14から状態S(t)と報酬R(t)を受け取り、方策πに基づいて決定した行動A(t)を環境14に返す。
2.環境14は、エージェント12から受け取った行動A(t)と現在の状態S(t)とに基づいて次の状態S(t+1)に変化し、遷移後の状態S(t+1)と報酬R(t+1)をエージェント12に提供する。尚、報酬Rは、その直前の行動Aの良し悪しを示すスカラー量である。
【0031】
ある状態Sに対するエージェントの行動がAであるとした場合、現時点から無限の未来までに得ることのできる報酬Rの総和、つまり収益Gは、次式のようになる。
【数1】
【0032】
但し、γは0≦γ≦1であり、未来の報酬の影響をどの程度収益として評価するかを調整するパラメータである。
【0033】
強化学習によるQ学習では、行動aの価値が以下の関数で評価される。
【数2】
【0034】
但し、Eは期待値を示す関数である。また、Qπは、状態sから行動aをとるエージェントが方策πに従って行動をとっていった場合の期待値を表す価値関数(以下、「Q関数」とする)である。
【0035】
図2に示す強化学習は、このQ関数を最大化するように進められる。この学習は、例えば、状態sで行動aを行ったときの収益Gを推定するQ関数を、次式のアルゴリズムで求めることにより進めることができる。
【数3】
【0036】
ここで、pは学習率と呼ばれるパラメータで、機械学習の設計者が決める代数である。通常は1未満の小さな値に設定される。また、maxQは、理想的に取得すると考えられるQ関数の最大値を示す。Q関数の学習は、各時間tごとに、次の時間t+1に取る行動によって得られるQ値を全て見積もり、その中で最大のものを用いてQ値を更新するというものである。
【0037】
[実施の形態1の特徴]
図3は、本実施形態の無線通信システムにおいて実施される強化学習のモデルを示す。本実施形態では、条件の異なる複数の無線通信システムを対象として、個々の評価と各条件の評価とを実施して最適化を図る。複数の無線通信システムは、夫々の条件に基づいてグループ化することができる。図3に示すモデルでは、3つのグループが存在し、グループ毎にエージェントが存在している。
【0038】
図3に示すエージェント12-1,12-2,12-3は、夫々同じ環境14の下で、夫々のグループに属する個々のユーザiの行動を評価すると共に、グループ全体の評価も実施する。例えば、エージェント12-1には、グループ1に含まれる複数のユーザiの夫々に対応するエージェントiが含まれている。エージェントiは、ユーザiの行動を評価すると共に、公平性を考慮してグループ1の全体の評価を実施する。
【0039】
エージェントi毎に必要とする接続回数や帯域などの要件は異なっており、それに応じたリソースの割り振りを考えないとリソースを十分に活用できているとは言えない。このため、グループ全体を評価するにあたり、単純にリソースをエージェントiの数で等分に割り振るのでは公平性は担保されない。そこで、リソースの分配によって達成される個々のエージェントiへの割り振りの妥当性を効用関数によって定義することにする。
【0040】
ユーザiに割り振られるリソースをxiとした場合に、そのユーザiの効用関数をR(xi) と表現することとする。ユーザi毎の効用関数の和を最大化出来た場合、システム全体のリソースの割当の妥当性が最大になり、リソースが公平に割り振られたといえる。
【0041】
効用関数R(xi)としては、具体的には以下の関数を用いる。
【数4】
【0042】
但し、αは効用関数Rの公平性を決定するためのパラメータである。上記の効用関数Rにおいて、αを∞とすると、ユーザ間の最小値を最大化するような効用、すなわちmax-min公平性を評価することができる。本実施形態では、このような設定を用いることで、上記の効用関数Rにより、報酬が最小値となる無線通信端末に合わせたリソース分配を実現することができる。
【0043】
例えば、無線通信システムに対する周波数リソースの割り当てを最適化する場合を考える。ここで、グループ1の無線通信システムでは、1/2/4MHz帯を割り当て可能であり、各無線通信端末の要求トラヒックとスループットからスループット達成率を算出できるものとする。なお、スループットは割り当てられる帯域幅および割り当てられた周波数リソース内で共存している無線通信端末の数、送受信端末間の距離などから計算することができる。
【0044】
同じくグループ2の無線通信システムでは、200/400/600kHz帯の割り当てが可能であり、グループ1の無線通信システムと同様にトラヒックとスループットからスループット達成率を算出できるものとする。また、グループ3の無線通信システムも同様の計算方法からスループット達成率を算出できるものとする。
【0045】
このときの各無線通信端末の評価値を、グループ1の無線通信システムでは、x1,x2,x3,・・・とする。グループ2の無線通信システムでは、その評価値をy1,y2,y3,・・・とする。また、グループ3の無線通信システムの評価値は、z1,z2,z3,・・・とする。この場合、グループ1~3夫々の全体評価は、下記のように表すことができる。尚、下記の評価関数においてβおよびεは、αと同じく効用関数の公平性を決定するためのパラメータである。
【数5】


【0046】
グループの全体評価を踏まえて、例えば、ある無線通信端末kの報酬は下記のように計算することができる。
【数6】
【0047】
具体的なアルゴリズムの例を示すために以下の環境を考える。
まず、環境として無線通信端末がn個、利用できる周波数チャネルの数がk個存在する状況を想定する。ある時間において各通信端末はk個のチャネルの中から1つを選択しそのチャネルの利用を試みるか、チャネルの利用をしないという(k+1)個の選択肢の中から1つの行動をとるものとする。その際、各端末は自身の取った行動に対して、他の端末と選択したチャネルが重ならず、チャネルの利用ができた場合にはACKを受け取り、他のいずれかの端末1つとでも同じチャネルを選択してしまった場合にはACKを受け取れない。このACKの受け取りの成否を各端末の報酬とみなす。各端末の行動とそれに対しての結果の報酬をある時間における状態としてみなすことにする。また別の報酬として、一定時間ごとの各端末の総接続数(ACKを受け取った無線通信端末の数)から計算した効用関数を定義する。
【0048】
また、報酬として、ACKの受け取りの成否以外に、これまでの通信実績からスループットや通信容量を計算し、要求された通信品質を満たさないアウテージの状態に陥っているか否かの判定結果を指定してもよい。或いは、グループ内でアウテージ状態に至っていない無線通信端末の数を報酬として指定してもよい。アウテージ状態を報酬として考慮すると、ユーザ品質を保てているか否かを指標として学習を進めることができる。このため上記の手法によれば、ユーザ体感に即した効果的な学習が可能である。
【0049】
図4は、本実施形態において、制御サーバ10で実施される学習の概要を示す。
図4に示すアルゴリズムによれば、先ず、n人のユーザiの行動選択の手法が決定される(ステップ100)。
【0050】
上記ステップ100では、以下の3つの手法の何れかがランダムに選択される。
1.学習結果を利用することなく無作為の行動を決定する手法(ステップ102)
2.Main-netを用いた学習を利用する手法(ステップ104、106)
3.Fair-netを用いた学習を利用する手法(ステップ108、110)
ここで、一定確率でランダムにチャネルを選択する理由は、学習が局所解に陥ることを防止し、学習を効率的に進めるためである。
【0051】
尚、本実施形態では、エージェントが取り得る状態の数が膨大である場合に対処するべく、Q関数の学習に、公知のDeep Q Network(DQN)の手法を利用する。上記のMain-netとは、ユーザi各自の報酬r、即ち、各時間のユーザiのチャネル利用の可否の期待値を最大化するように方策πを探索するDQNに付した名前である。また、上記のFair-netとは、グループ全体の効用を考慮して設定された上記の効用関数を最大化するように方策πを探索するDQNに付した名前である。
【0052】
各端末iの行動がすべて決定すると、各端末iの報酬rと状態sが定まる(ステップ112)。
【0053】
次に、端末i毎の行動a、報酬r、状態sを、学習用にそれぞれ制御サーバ10のメモリに追加する(ステップ114)。報酬rは、各時間における端末iのチャネル利用可否の結果xiと、効用関数Rの計算結果である。尚、これらのデータは、一定時間分だけ記憶されていればよい。
【0054】
次に、上記のメモリから、複数のタイムスロットに対応する各端末の情報をランダムに抜き出す(ステップ116)。
【0055】
次いで、それらを学習用のデータとしてバッチ学習を実行し、Main-netおよびFair-netのパラメータを更新する(ステップ118)。
【0056】
更新したパラメータをもとに、再び各端末は学習結果に基づくチャネル選択(ステップ104~110)、またはランダムなチャネル選択(ステップ102)を繰り返し、同様の流れを追って学習が進められる(ステップ112~118)。
【0057】
尚、上記の説明では、端末が行動を決める3つの手法は、ランダムに決定されることとしているが、本発明はこれに限定されるものではない。例えば、各端末が学習結果に基づいて行動を選択する手法については、Main-netを用いた学習の結果を利用するのを基本として、一定確率でFair-netを用いた学習の結果を利用することとしてもよい。また、ランダムに行動を決定する確率は、学習結果を利用して行動を決定する確率に比して低く設定することとしてもよい。
【0058】
以上説明した通り、本実施形態の無線通信システムでは、個々の学習結果による行動を第1ステップとし、効用関数による全体評価を第2ステップとすることで、個々の端末の行動について多段階評価を実行することができる。このため、本実施形態によれば、同一のグループに属する複数の無線通信端末夫々の最適化と、同一のグループ内での公平性を担保するための最適化との双方を実現することができる。
【0059】
実施の形態2.
次に、図1と共に図5および図6を参照して、本発明の実施の形態2について説明する。本実施形態の無線通信システムは、実施の形態1の場合と同様に、図1に示す構成により実現することができる。本実施形態のシステムは、端末の行動を決定する手法、並びにQ関数を学習する手法が異なる点を除いて、実施の形態1の場合と同様である。
【0060】
[実施の形態2の特徴]
図5は、本実施形態の無線通信システムにおいて実施される強化学習のモデルを示す。図5に示すモデルでは、図3に示すモデルが実行する処理に加えて、3つのグループの全てを対象とする全体評価が実施される。この全体評価は、同じ環境14の下で作動する全ての無線通信端末について、公平性の最適化を図るために実行される。
【0061】
図5に示すモデルでは、グループ1~3の無線通信システムについての評価結果を用いて、下記のアルゴリズムで全体評価の効用関数Rallが計算される。尚、次式に含まれるθは、グループについての効用関数Rに含まれるαと同様、効用関数の公平性を決定するためのパラメータである。
【数7】
【0062】
但し、上式におけるΣは、3つのグループの報酬Rx,Ry,Rzの総和を取ることを意味している。
【0063】
本実施形態のシステムでは、ある無線通信端末kの報酬Rxkを、個別の報酬xkと、グループの報酬Rと、全体の報酬Rallとを用いて、下記のように計算することができる。
【数8】
【0064】
無線通信端末kの報酬Rxkを上記のように計算すれば、同じ環境14に属する全ての無線通信端末を対象としたmax-min公平性を考慮して、個々の端末の行動を決めることができる。
【0065】
図6は、本実施形態において、制御サーバ10で実施される学習の概要を示す。図6に示すフローチャートは、ステップ120および122が追加されている点を除いて、図4に示すフローチャートと同様である。
【0066】
図6に示すように、本実施形態では、行動選択の手法として、一定の確率で、Fair-net(全体)を用いた学習を利用する手法が採用される(ステップ120、122)。「Fair-net(全体)」とは、同じ環境14に属する全ての無線通信端末に関する効用関数Rallを最大化するように方策πを探索するDQNに付した名前である。
【0067】
上記の処理によれば、個々の無線通信端末についての最適化と、同じグループに属する端末間での公平性の担保と、全ての端末間での公平性の担保とを、バランス良く実現することができる。
【符号の説明】
【0068】
10 制御サーバ
12、12-1、12-2、12-3 エージェント
14 環境
S、s 状態
R、r 報酬
A、a 行動
図1
図2
図3
図4
図5
図6