IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許7270914無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム
<>
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図1
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図2
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図3
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図4
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図5
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図6
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図7
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図8
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図9
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図10
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図11
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図12
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図13
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図14
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図15
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図16
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図17
  • 特許-無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-28
(45)【発行日】2023-05-11
(54)【発明の名称】無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム
(51)【国際特許分類】
   H04W 48/16 20090101AFI20230501BHJP
   H04W 48/18 20090101ALI20230501BHJP
【FI】
H04W48/16 132
H04W48/18
【請求項の数】 7
(21)【出願番号】P 2020034683
(22)【出願日】2020-03-02
(65)【公開番号】P2021141356
(43)【公開日】2021-09-16
【審査請求日】2022-02-28
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】若尾 佳佑
(72)【発明者】
【氏名】河村 憲一
(72)【発明者】
【氏名】守山 貴庸
(72)【発明者】
【氏名】アベセカラ ヒランタ
(72)【発明者】
【氏名】鷹取 泰司
(72)【発明者】
【氏名】金子 めぐみ
(72)【発明者】
【氏名】ティハーリー ディン
【審査官】松野 吉宏
(56)【参考文献】
【文献】米国特許出願公開第2020/0037392(US,A1)
【文献】欧州特許出願公開第3595362(EP,A1)
【文献】中国特許出願公開第107690176(CN,A)
【文献】中国特許出願公開第102647773(CN,A)
【文献】中国特許出願公開第110933723(CN,A)
【文献】中国特許出願公開第110868740(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04B 7/24 - 7/26
H04W 4/00 - 99/00
3GPP TSG RAN WG1-4
SA WG1-4
CT WG1、4
(57)【特許請求の範囲】
【請求項1】
複数の無線端末と複数の無線基地局とが行う無線通信を制御する無線通信制御方法において、
前記無線基地局それぞれは、
他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する通知工程
を実行し、
前記無線端末それぞれは、
通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出工程と、
過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶工程と、
記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新工程と、
パラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出工程と、
算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録工程と
実行することを特徴とする無線通信制御方法。
【請求項2】
前記DQN/DDQN更新工程では、
状態を入力とし、行動ごとにQ値を出力する予測関数を学習すること
を特徴とする請求項1に記載の無線通信制御方法。
【請求項3】
複数の無線端末と複数の無線基地局とを備えた無線通信システムにおいて、
前記無線基地局それぞれは、
他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する情報通知部
を有し、
前記無線端末それぞれは、
通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、
過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、
前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、
前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、
算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部と
を有することを特徴とする無線通信システム。
【請求項4】
前記DQN/DDQN更新部は、
状態を入力とし、行動ごとにQ値を出力する予測関数を学習すること
を特徴とする請求項3に記載の無線通信システム。
【請求項5】
複数の無線基地局と無線通信を可能にされた無線端末において、
複数の前記無線基地局から通知された複数の前記無線基地局に帰属する複数の無線端末との間の無線通信品質に基づく品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、
過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、
前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、
前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、
算出した帰属情報に基づいて当該無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部と
を有することを特徴とする無線端末。
【請求項6】
前記DQN/DDQN更新部は、
状態を入力とし、行動ごとにQ値を出力する予測関数を学習すること
を特徴とする請求項5に記載の無線端末。
【請求項7】
請求項5又は6に記載の無線端末の各部としてコンピュータを機能させるための無線通信プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラムに関する。
【背景技術】
【0002】
現在、多様な無線通信システムが広く普及している。例えば、免許帯の無線通信システムであるセルラシステムは、現在第4世代の無線通信規格が商用化されており、径が大小のセルを組み合わせながら、移動無線端末を収容している。また、免許不要帯で普及している無線通信システムとしては、まず無線LANシステムが挙げられ、国内では2.4/5/60GHz帯の無線周波数を利用して数~数十mの径に存在する無線端末に対して広帯域な無線通信が提供されている。また、別の免許不要帯の無線通信システムとして挙げられるLPWA(Low Power Wide Area)は、数~数kmの広大な径に存在する無線端末に対して低消費電力で無線通信を提供できることから、モノのインターネットサービスを収容することに適している。
【0003】
このように、多様な無線通信システムの中から、無線サービスの要求に応じて適した無線通信システムを選択できる無線通信環境が普及している。また、無線通信システム群のうち、大容量を目的としたものは、エリア容量増大のために無線基地局の高密度化が進んでいる。例えば、無線端末の周りに十分無線通信を実施できるほどの強い受信電力で検出される無線基地局が1台以上存在するような無線環境が増えている。
【0004】
結果として、無線端末が選択できる無線アクセスの自由度は、無線通信システムの種類及び無線基地局台数の両面で、大きくなっている。この自由度を活かして、複数の無線アクセスに同時接続してロードバランシングやフレーム冗長送信を行う無線通信プロトコルが開発されている(例えば非特許文献1参照)。例えば、セルラ回線と無線LAN回線を同時に用いることにより、無線通信環境を安定化させることができる。
【0005】
無線端末主導の自律分散制御によって無線仮想インターフェースの無線基地局帰属先制御を実施する構成は、制御演算処理の簡便さから有力な構成の1つである。しかしながら、この場合、従来技術では段階的に以下の3点の課題が生じる。
【0006】
1点目の課題は、無線基地局での輻輳が生じやすいという点である。従来の技術では、無線通信伝送レート最大化の観点から、主に無線端末での受信電力が最大の無線基地局へ接続される。しかしながら、大容量を要する無線仮想インターフェースがある無線基地局の周りに集中している場合、該無線基地局の無線通信の最大伝送レートを超えて輻輳し、各無線仮想インターフェースの要求を満足できなくなる。
【0007】
2点目の課題は、従来技術では、無線通信環境の安定性を考慮した無線通信制御アルゴリズムとはなっていないが、この場合に観測された無線通信環境を入力した時に、無線通信品質が劣化してしまう設定を出力してしまう可能性がある点である。例えば、1点目に挙げた課題を克服し、無線基地局の利用率の情報を収集する手段を具備して、無線端末がある時点についての適切な無線基地局を選択できるとする。しかしながら、観測された無線通信環境が瞬時的なものである場合、例えば、無線仮想インターフェースの出入りが激しい場合などに、該無線基地局は、一時的に当初の無線仮想インターフェースのトラヒックの収容には成功できるが、新たな無線仮想インターフェースが該無線基地局へ帰属してきた場合に、直ちに輻輳が生じる。
【0008】
3点目の課題は、無線端末が収集する情報の状態数が膨大であり、統計的な手法で制御を実施する手法が適用できない点である。2点目の課題を克服するには、強化学習やパターンマッチングなどの統計的な制御手法により、情報収集によって取得された無線通信環境が安定なのか不安定なのか、各場合で各無線仮想インターフェースが帰属すべき無線基地局はいずれなのか、といった判断機能を経験的に取得するアプローチが有効となる。
【0009】
しかしながら、上記制御手法では、いずれも無線通信環境を事前に離散化された状態として定義したうえで、現時点で取得された無線通信環境がどの状態に属するかを判定した後に、該状態における無線仮想インターフェースの適切な帰属先無線基地局を決定するという手順を踏む必要がある。一方で、信号の受信強度やトラヒックのデータレートなど、無線通信品質情報のほとんどは、連続値で定義される。よって、各数値の型でそのまま離散状態を定義してしまうと、あまりに膨大な状態数となり、状態の判定処理が収束しなくなるという課題がある。
【0010】
特に、無線端末のインターフェース(IF)数、及び、接続先候補となる基地局台数が巨大な値となる場合、判定処理を収束させることが困難になる場合がある。
【先行技術文献】
【非特許文献】
【0011】
【文献】Atefeh Hajijamali Arani, 外4名, "Distributed Learning for Energy-Efficient Resource Management in Self-Organizing Heterogeneous Networks", IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY, OCTOBER 2017, VOL. 66, NO. 10, p.9287-9303
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、無線基地局に対する無線端末の配置に偏りが生じても、通信品質の低下を効率的に抑えることができる無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明の一態様にかかる無線通信制御方法は、複数の無線端末と複数の無線基地局とが行う無線通信を制御する無線通信制御方法において、前記無線基地局それぞれは、他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する通知工程を実行し、前記無線端末それぞれは、通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出工程と、過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶工程と、記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新工程と、パラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出工程と、算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録工程とを実行することを特徴とする。
【0014】
本発明の一態様にかかる無線通信システムは、複数の無線端末と複数の無線基地局とを備えた無線通信システムにおいて、前記無線基地局それぞれは、他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する情報通知部を有し、前記無線端末それぞれは、通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部とを有することを特徴とする。
【0015】
本発明の一態様にかかる無線端末は、複数の無線基地局と無線通信を可能にされた無線端末において、複数の前記無線基地局から通知された複数の前記無線基地局に帰属する複数の無線端末との間の無線通信品質に基づく品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、算出した帰属情報に基づいて当該無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部とを有することを特徴とする。
【発明の効果】
【0016】
本発明によれば、無線基地局に対する無線端末の配置に偏りが生じても、通信品質の低下を効率的に抑えることができる。
【図面の簡単な説明】
【0017】
図1】一実施形態にかかる無線通信システムの基本構成例を示す図である。
図2】状態と行動との組合せごとに得られるQ値の概要を示す図である
図3】多数の無線基地局が配置され、無線端末が多くのインターフェースを備えている無線通信システムの構成例を示す図である。
図4】無線端末が備える記憶部が記憶する実績データを例示する図である。
図5】無線端末が行うDQNのQ値の予測関数を示す図である。
図6】無線端末が記憶していた上述の実績データを用いて予測関数を学習した場合の効果を模式的に示す図である。
図7】一実施形態にかかる無線通信システムの具体的な構成例を示す図である。
図8】無線通信システムにおける無線基地局が品質測定情報などの情報を互いに交換する情報交換経路を示す図である。
図9】一実施形態にかかる無線基地局の構成例を示す図である。
図10】一実施形態にかかる無線端末の構成例を示す図である。
図11】無線通信システムにおける動作を示すための変数を示す図である。
図12】(a)は、無線端末から無線基地局への接続要求を示す図である。(b)は、無線端末が無線基地局との接続を決定した状態を示す図である。
図13】DQNの構成例を示す図である。
図14】DDQNの構成例を示す図である。
図15】DQN又はDDQNの更新処理を示す図である。
図16】完全に割当てられたDQN又はDDQNにおける無線基地局から無線端末へのフィードバックを示す図である。
図17】部分的に割当てられたDQN又はDDQNにおける無線基地局から無線端末へのフィードバックを示す図である。
図18】一実施形態にかかる無線端末のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0018】
以下に、図面を用いて無線通信システムの一実施形態を説明する。図1は、一実施形態にかかる無線通信システム10の基本構成例を示す図である。図1に示すように、無線通信システム10は、例えば2台の無線基地局20及び無線端末30を有する。なお、無線基地局20及び無線端末30の台数は限定されない。
【0019】
無線端末30は、第1の周波数帯で無線通信を行う第1インターフェース(IF)と、第2の周波数帯で無線通信を行う第2インターフェース(IF)とを備え、無線基地局20との間で無線通信を可能にさている。なお、無線端末30において、インターフェース(IF)の数は限定されない。
【0020】
無線端末30は、過去の状態、行動、報酬、行動後の遷移先状態の実績データを蓄積する記憶部を備え、当該記憶部が記憶するデータを用いてDQN(Deep Q-Network)又はDDQN(Double DQN)によるQ値の予測関数を学習する。
【0021】
具体的には、無線端末30は、(1)状態Sを検知し、(2)DQN又はDDQNが出力するQ値を参照して、(3)行動Aを実施し、(4)報酬γを無線基地局20から受信する一連の処理を複数回繰り返し実施する。
【0022】
図2は、離散的な状態と行動との組合せごとに得られるQ値の概要をテーブル形式で示した図である。なお、本発明では、DQN又はDDQNの各出力が、状態と行動との各組合せに対応したQ値となるため、従来のQ学習で用いられるようなQテーブルは不要である。
【0023】
状態は、現在の品質測定情報を離散的に表している。行動は、第1インターフェース又は第2インターフェースによる基地局への帰属先の組合せを示している。
【0024】
そして、無線端末30は、(5)DQN又はDDQNのパラメータを例えば確率的勾配降下法等で更新して、再び(1)の処理に戻る。
【0025】
無線通信システム10は、図3に示すように、多数の無線基地局20が配置され、無線端末30が多くのインターフェース(IF)を備えている場合には、無線端末30が、上述した処理に基づく状態、行動、報酬、行動後の遷移先状態の実績データを記憶部へ蓄積する。
【0026】
図4は、無線端末30が備える記憶部が記憶する実績データを例示する図である。図4に示すように、無線端末30は、状態S、行動a、報酬γ、行動a後の遷移先状態s’の実績データを記憶部へ蓄積する。
【0027】
そして、無線端末30は、DQN又はDDQNのパラメータの更新を行う。DQN(又はDDQN)は、状態情報を入力とし、各行動ごとに該当状態・行動に関するQ値を出力する予測関数を備え、無線端末30の記憶部が蓄積するデータに基づいて当該予測関数を学習する。
【0028】
図5は、無線端末30が行うDQNのQ値の予測関数を示す図である。無線端末30は、記憶部が記憶した上述の実績データを用いて予測関数を学習する。
【0029】
そして、無線端末30は、再び(1)の処理に戻る。
【0030】
図6は、無線端末30が記憶していた上述の実績データを用いて予測関数を学習した場合の効果を模式的に示す図である。本発明ではQテーブルを使用しないが、図6では、従来のQ学習との違いをQテーブルにより示している。無線端末30は、DQN又はDDQNによりQテーブル1要素分(S,A)の更新処理を他の要素の更新へ波及させることにより、状態の判定処理の収束を高速化させることができる。
【0031】
次に、一実施形態にかかる無線通信システム10のより具体的な構成について説明する。図7は、一実施形態にかかる無線通信システム10の具体的な構成例を示す図である。
【0032】
図7に示すように、無線通信システム10は、複数の無線基地局20がネットワーク100に対してそれぞれスイッチ102を介して接続されている。ここで、無線基地局20それぞれは、ネットワーク100を介した有線通信経路によって互いに接続されている。また、無線基地局20は、無線通信によって他の無線基地局20との間で通信を行うことも可能にされている。
【0033】
無線基地局20の周囲には、無線基地局20との間で無線通信を行う複数の無線端末30が位置している。無線端末30は、例えばRSSI(Received Signal Strength Indicator)の強度などの物理的な信号によって無線基地局20に対する帰属を決定する1つ以上の無線物理インターフェース、及び、受信信号を演算処理した結果に応じて無線基地局20に対する帰属を決定する1つ以上の無線仮想インターフェースのいずれかによって無線基地局20に接続される。無線仮想インターフェースは、例えば強化学習によって無線基地局20に対する無線端末30の帰属先を制御する。
【0034】
ここで、無線端末30は、無線基地局20から通知される品質測定情報に基づいて、帰属する無線基地局20を選択する自律分散制御を行う。品質測定情報は、無線基地局20が帰属する無線端末30との間の無線通信品質を測定した情報と、他の無線基地局20における無線端末30との間の無線通信品質を測定した情報とを含むものとする。なお、無線端末30は、周辺の1つ以上の無線基地局20に対して帰属可能であり、遠方の無線基地局20に対しては帰属外となる。
【0035】
図8は、無線通信システム10における無線基地局20が品質測定情報などの情報を互いに交換する情報交換経路を示す図である。図8において太矢印で示した情報交換経路は、有線区間(有線通信経路)と無線区間(無線通信経路)の2種類に分類される。有線区間では、スイッチ102及びネットワーク100を介して情報が交換される。無線区間には、無線基地局20が他の無線基地局20との間で無線通信を直接行う区間と、無線基地局20が無線端末30を介して他の無線基地局20と無線通信を行う区間とがある。つまり、無線端末30は、無線基地局20と他の無線基地局20との間の通信を中継することも可能にされている。
【0036】
例えば、無線端末30が無線基地局20の相互の通信を中継しない場合には、無線基地局20は、自局が測定した品質測定情報を周囲の他の無線基地局20へ送信することにより、それぞれの品質測定情報を交換する。
【0037】
また、無線端末30が無線基地局20の相互の通信を中継する場合には、無線基地局20は、自局が測定した品質測定情報を周囲の無線端末30へ通知する。そして、無線端末30は、通知された品質測定情報を周囲の他の無線基地局20へ通知する。無線端末30は、複数の無線通信アプリケーションを実行し、情報を中継する場合に無線通信規格(無線通信方式)を他の無線通信規格に変換し、他の無線通信規格で無線基地局に通知するように構成されてもよい。また、無線端末30及び無線基地局20は、互いに複数の無線通信規格によって無線通信を行う複数の無線通信アプリケーションを備え、品質測定情報が無線通信アプリケーションそれぞれにおける無線通信品質に基づくようにされてもよい。
【0038】
図9は、一実施形態にかかる無線基地局20の構成例を示す図である。図9に示すように、無線基地局20は、アンテナ部21、無線通信部22、通信I/F部23、品質測定部24、情報通知部25、要求情報評価部26、要求応答通知部27及び帰属情報記録部28を有する。
【0039】
無線基地局20は、アンテナ部21を介して所定の規格の電波を送受信し、無線通信部22が行う処理により、無線端末30及び他の無線基地局20との間で無線通信を行う。無線通信部22は、高周波(RF:Radio Frequency)の信号を処理するRF部220と、無線通信メディアアクセス制御(MAC)の機能を備えたMAC機能部222とを有する。通信I/F部23は、ネットワーク100(図7)などによって構成される有線区間を介して通信を行うインターフェースである。
【0040】
品質測定部24は、無線環境測定部240及びトラヒック測定部242を有し、当該無線基地局20(自局)に帰属する無線端末30との間の無線通信品質を測定し、自局の無線通信品質に基づく品質測定情報を品質測定情報算出処理によって算出して取得する。無線環境測定部240は、無線通信の環境の測定を行い無線環境情報を取得する。トラヒック測定部242は、無線通信のトラヒックの測定を行いトラヒック情報を取得する。品質測定情報は、例えば無線環境情報及びトラヒック情報に基づいて算出される。また、品質測定情報は、無線通信における受信電力、要求データレート及び無線基地局の帯域の使用率を含んでもよい。
【0041】
無線基地局20は、他の無線基地局20(他局)おいて帰属する無線端末30との間の無線通信品質を示す品質測定情報に関しては、通信I/F部23を介して有線区間の情報を取得し、無線通信部22を介して無線区間の情報を取得する。そして、品質測定部24は、自局及び他局から取得した品質測定情報を集約させる。
【0042】
情報通知部25は、品質測定部24が集約させた品質測定情報を無線通信部22を介して無線端末30へ通知する。例えば、情報通知部25は、他の無線基地局20と当該無線基地局20に帰属する無線端末30との間の無線通信品質、及び他の無線基地局20における帰属する他の無線端末30との間の無線通信品質に基づく品質測定情報を無線端末30それぞれに通知する。
【0043】
要求情報評価部26は、無線通信部22を介して無線端末30から後述する帰属要求を受けると、無線端末30の帰属の可否(帰属先の変更・更新の可否)を判断する。
【0044】
要求応答通知部27は、要求情報評価部26が無線端末30の帰属先の更新を許可した場合、その旨を要求応答として無線端末30へ無線通信部22を介して通知する。
【0045】
帰属情報記録部28は、要求情報評価部26が無線端末30の帰属先の更新を許可した場合、無線端末30の帰属先を管理する管理情報を更新して記録する。
【0046】
図10は、無線端末30の構成例を示す図である。図10に示すように、無線端末30は、アンテナ部31、無線通信部32、制御情報算出部33、帰属先要求部34、帰属先記録部35、及び記憶部36を有する。
【0047】
無線端末30は、アンテナ部31を介して所定の規格の電波を送受信し、無線通信部32が行う処理により、無線基地局20との間で無線通信を行う。無線通信部32は、高周波の信号を処理するRF部320と、無線通信メディアアクセス制御(MAC)の機能を備えたMAC機能部322とを有する。そして、無線端末30は、無線通信部32を介して無線基地局20が送信する品質測定情報を取得する。
【0048】
制御情報算出部33は、状態算出部330、報酬算出部332、DQN/DDQN更新部334及び帰属先算出部336を有し、例えば強化学習を用いた無線仮想インターフェースによって無線基地局20への帰属先を制御する。
【0049】
状態算出部330は、無線通信部32を介して品質測定情報を取得し、品質測定情報を離散的に表す”状態”を算出し、算出した”状態”を記憶部36に対して出力する。また、状態算出部330は、”行動”による”遷移先の状態”も算出し、算出した”遷移先の状態”を記憶部36に対して出力する。
【0050】
報酬算出部332は、品質測定情報に基づく”報酬”を算出し、算出した”報酬”を記憶部36に対して出力する。例えば、報酬算出部332は、通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局20の無線インターフェースそれぞれに帰属する無線端末30の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する。
【0051】
DQN/DDQN更新部334は、DQN又はDDQNを備え、離散的な”状態”それぞれにおける”行動”が選択された場合のDQN又はDDQNのパラメータを保持・管理するとともに、DQN又はDDQNによって得られたQ値を帰属先算出部336に対して出力する。
【0052】
そして、DQN/DDQN更新部334は、記憶部36が記憶した過去の”状態”、”行動”、”報酬”、及び行動後の”遷移先の状態”をランダムサンプリングして利用し、DQN又はDDQNのパラメータを更新(利得を補正)する。例えば、DQN/DDQN更新部334は、状態を入力とし、行動ごとにQ値を出力する予測関数を学習する。
【0053】
なお、利得は、無線基地局20と無線端末30の間の無線通信におけるデータレート、要求データレート、平均パケットサイズ、及び無線基地局20の帯域使用率等に基づいて算出される。
【0054】
帰属先算出部336は、DQN/DDQN更新部334が出力したQ値に基づいて帰属先算出処理を行い、無線通信品質を向上可能な無線基地局20の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する。例えば、帰属先算出部336は、無線通信品質を高めるために最適な無線基地局20の無線インターフェースを新たな帰属先として選択する帰属情報を算出する。
【0055】
帰属先要求部34は、帰属している無線基地局20の無線インターフェース、又は帰属先算出部336が算出した帰属情報により選択される無線基地局20の無線インターフェースなどに対し、帰属先を変更する許可を求める帰属要求を無線通信部32を介して通知する。
【0056】
帰属先記録部35は、無線端末30が帰属先の更新を許可する要求応答を無線基地局20から受信した場合、帰属先算出部336が算出した帰属情報に基づいて帰属先を更新するように帰属情報を記録する。つまり、帰属先記録部35は、帰属先を管理する管理情報を帰属情報によって更新する。
【0057】
次に、無線通信システム10が実行する無線通信制御アルゴリズム(無線通信制御方法)について説明する。
【0058】
まず、無線端末30がある行動によって無線仮想インターフェースを無線基地局20に帰属させると、無線基地局20は、帰属している無線端末30及び周囲の無線端末30の無線仮想インターフェース群の現在の無線通信品質を測定し、自局の無線通信品質に基づく品質測定情報を品質測定情報算出処理によって算出する。
【0059】
無線基地局20は、必要に応じて他の無線基地局20(他局)おいて帰属する無線端末30との間の無線通信品質を示す品質測定情報を取得するように情報交換を行い、自局及び他局から取得した品質測定情報を集約させる。
【0060】
そして、無線基地局20は、集約させた品質測定情報を無線端末30へ通知する。
【0061】
無線端末30は、通知された品質測定情報に基づいて、現在の状態と他の無線端末30へ与える報酬を算出する。報酬は、DQN/DDQN更新部334が管理するDQN又はDDQNのパラメータを補正する値である。
【0062】
次に、無線通信システム10の動作について詳述する。なお、無線通信システム10における動作を示すために、ここでは図11に示された変数を用いる。
【0063】
無線通信システム10は、無線端末k内のアプリケーションfの要求帯域Rkfを必要最低限にし、伝送レートを下式(1)に示すように最大化する。
【0064】
【数1】
【0065】
このとき、各無線端末k(ユーザk)の各アプリケーションにサービスを提供する無線基地局fの数は、下式(2)に示すように1である。
【0066】
【数2】
【0067】
また、各無線端末kが必要とする各アプリケーションの最小レート要件は、下式(3)によって表される。
【0068】
【数3】
【0069】
また、各無線端末kが必要とする各アプリケーションfと無線基地局bとの間の最大許容遅延は、下式(4)によって表される。
【0070】
【数4】
【0071】
また、無線基地局bの負荷φは、下式(5)のように抑制される。
【0072】
【数5】
【0073】
図12は、無線通信システム10の動作例を示す図である。図12(a)は、無線端末kから無線基地局bへの接続要求を示す図である。図12(b)は、無線端末kが無線基地局bとの接続を決定した状態を示す図である。
【0074】
図12(a)において、状態s(t)は、現在の無線端末k(ユーザk)がアプリケーションの品質要件を満たして無線基地局bに時間tで接続していることを示しており、具体的には下式(6)によって表される。
【0075】
【数6】
【0076】
なお、状態Sの濃度は、下式(7)によって表され、(基地局台数×バンド数)^アプリケーション数となっている。ここでは、バンド数は、高周波及び低周波の2つである。
【0077】
【数7】
【0078】
また、行動a(t)は、無線端末kが無線基地局bに対してアプリケーションを実行するために時間tにおいて現在の状態で次に選択して要求する接続であり、具体的には下式(8),(9)によって表される。
【0079】
【数8】
【0080】
【数9】
【0081】
なお、行動Aの濃度は、下式(10)によって表され、(基地局台数×バンド数)^アプリケーション数となっている。ここでは、バンド数は、高周波及び低周波の2つである。
【0082】
【数10】
【0083】
上述したように、無線端末kは、例えばDQN又はDDQNを用いて強化学習を行う機能を備えており、アプリケーションごとに接続要求を無線基地局bに対して行う。
【0084】
図12(b)に示すように、無線基地局bは、無線端末kからのアプリケーションごとの品質要件を満たす接続要求に対し、無線端末kの位置及び無線基地局bの電波利用効率に基づいて、接続を許可する無線端末kを選択する。また、無線基地局bは、過負荷である場合には、最も負荷の重い無線端末kをドロップさせる。
【0085】
そして、無線基地局bは、FB情報を用いて無線端末kからのアプリケーションごとの接続要求に対する可否を無線端末kへ応答する。
【0086】
その後、無線端末kは、FB情報に基づいて下式(11),(12)によって表される報酬を算出し、DQN又はDDQNを更新させて強化学習を行い、新たな状態へ移行する。
【0087】
【数11】
【0088】
【数12】
【0089】
図13は、DQNの構成例を示す図である。DQNは、状態s(t)を入力とし、行動a(t)ごとにQ値(s,a)を出力する予測関数を学習する。
【0090】
具体的には、DQNは、要求アプリケーション数の入力層から、ソフトマックス関数を用いて各行動のQ値を算出し、Q値の最大値の集合を出力する。
【0091】
図14は、DDQNの構成例を示す図である。DDQNは、DQN1と、mフレームの各間隔でウェイトをコピーしたDQN2とを備え、状態s(t)を入力とし、行動a(t)ごとにQ’値(s,a)を出力する予測関数を学習する。
【0092】
図15は、DQN又はDDQNの更新処理を示す図である。まず、DQN又はDDQNは、状態s(t)を入力とし、行動a(t)を出力する。そして、DQN又はDDQNは、報酬Γ(t)を得て、記憶部36(図10)に状態s(t)、行動a(t)、報酬Γ(t)、及び遷移先の状態s(t+1)を記憶させる。
【0093】
そして、DQNは、下式(13)によって表される損失関数を算出し、損失関数を最小化するようにウェイトwを更新する。
【0094】
【数13】
【0095】
DDQNの場合は、下式(14)によって表される損失関数を算出し、損失関数を最小化するようにウェイトwを更新する。
【0096】
【数14】
【0097】
なお、γは、割引率を示す。
【0098】
次に、DQN又はDDQNによる学習の実施例について説明する。
【0099】
図16は、完全に割当てられたDQN又はDDQNにおける無線基地局bから無線端末kへのフィードバック(FB)を示す図である。
【0100】
ここでは、各無線端末k(ユーザk)は、自局からの要求のみに対する接続決定のフィードバックを取得するので、下式(15)によって示されるフィードバックΩは最小となる。
【0101】
【数15】
【0102】
このとき、アプリケーションの要求帯域Rkf未満の伝送レートに対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(16)によって表される情報が無線基地局bから無線端末kへ通知される。
【0103】
【数16】
【0104】
また、アプリケーションの許容遅延時間Tkfを超える遅延時間に対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(17)によって表される情報も無線基地局bから無線端末kへ通知される。
【0105】
【数17】
【0106】
図17は、部分的に割当てられたDQN又はDDQNにおける無線基地局bから無線端末kへのフィードバック(FB)を示す図である。
【0107】
ここでは、各無線端末k(ユーザk)は、他の各無線端末kとの無線基地局bに対する負荷割合に応じて、下式(18)によって示されるフィードバックΩはいくらか増加する。
【0108】
【数18】
【0109】
なお、最小レート要件を規定されたアプリケーションに要求される負荷正規化係数N(t)と、遅延時間要件を伴うアプリケーションに要求される負荷正規化係数M(t)は、下式(19),(20)によって表される。
【0110】
【数19】
【0111】
【数20】
【0112】
このとき、アプリケーションの要求帯域Rkf未満の伝送レートに対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(21)によって表される情報が無線基地局bから無線端末kへ通知される。
【0113】
【数21】
【0114】
また、アプリケーションの許容遅延時間Tkfを超える遅延時間に対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(22)によって表される情報も無線基地局bから無線端末kへ通知される。
【0115】
【数22】
【0116】
なお、無線基地局20及び無線端末30それぞれが有する各機能は、それぞれ一部又は全部がハードウェアによって構成されてもよいし、CPU等のプロセッサが実行するプログラムとして構成されてもよい。
【0117】
すなわち、無線基地局20及び無線端末30は、それぞれコンピュータとプログラムを用いて実現することができ、プログラムを記憶媒体に記録することも、ネットワークを通して提供することも可能である。
【0118】
図18は、無線端末30のハードウェア構成例を示す図である。図18に示すように、無線端末30は、例えば入力部70、出力部71、通信部72、CPU73、メモリ74及びHDD75がバス76を介して接続され、コンピュータとしての機能を備える。また、無線端末30は、記憶媒体77との間でデータを入出力することができるようにされている。
【0119】
入力部70は、例えばキーボード等である。出力部71は、例えばディスプレイなどの表示装置である。通信部72は、例えば無線のネットワークインターフェースである。
【0120】
CPU73は、無線端末30を構成する各部を制御し、上述した計算等を行う。メモリ74及びHDD75は、データ等を記憶する。記憶媒体77は、無線端末30が有する機能を実行させる無線通信プログラム等を記憶可能にされている。なお、無線端末30を構成するアーキテクチャは図18に示した例に限定されない。また、無線基地局20も無線端末30と同様のハードウェア構成を有する。
【0121】
このように、実施形態にかかる無線通信システム10は、DQN又はDDQNによるQ値の更新を行うので、無線基地局に対する無線端末の配置に偏りが生じても、通信品質の低下を効率的に抑えることができる。
【0122】
また、無線通信システム10は、DQN又はDDQNにより従来のQ学習におけるQテーブル1要素分の更新処理を他の要素の更新へ波及させることを可能とするので、従来よりも状態の判定処理の収束を高速化させることができる。
【符号の説明】
【0123】
10・・・無線通信システム、20・・・無線基地局、22・・・無線通信部、23・・・通信I/F部、24・・・品質測定部、25・・・情報通知部、26・・・要求情報評価部、27・・・要求応答通知部、28・・・帰属情報記録部、30・・・無線端末、32・・・無線通信部、33・・・制御情報算出部、34・・・帰属先要求部、35・・・帰属先記録部、36・・・記憶部、70・・・入力部、71・・・出力部、72・・・通信部、73・・・CPU、74・・・メモリ、75・・・HDD、76・・・バス、77・・・記憶媒体、100・・・ネットワーク、330・・・状態算出部、332・・・報酬算出部、334・・・DQN/DDQN更新部、336・・・帰属先算出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18