(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024138789
(43)【公開日】2024-10-09
(54)【発明の名称】無線端末及び無線システム
(51)【国際特許分類】
H04L 47/41 20220101AFI20241002BHJP
【FI】
H04L47/41
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023049472
(22)【出願日】2023-03-27
(71)【出願人】
【識別番号】000001122
【氏名又は名称】株式会社日立国際電気
(74)【代理人】
【識別番号】100093104
【弁理士】
【氏名又は名称】船津 暢宏
(72)【発明者】
【氏名】木本 亨尚
【テーマコード(参考)】
5K030
【Fターム(参考)】
5K030GA13
5K030HA08
5K030HC09
5K030LB06
(57)【要約】
【課題】 マルチパスにおけるパケット伝送の割合を最適化でき、通信品質を安定化できる無線端末及び無線システムを提供する。
【解決手段】 5QIのリソースタイプを基にした通信品質を報酬として、マルチパスに送信するパケットの割合を変化させて、PMF部12と電波・回線状況観測部13でのパラメータの数値を強化学習させ、最適なマルチパスへのパケット伝送の割合を決定して、MPTCP通信部11のスケジューラ11aに設定してパケット送信の割合を制御するとする無線端末及び無線システムである。
【選択図】
図1
【特許請求の範囲】
【請求項1】
マルチパスへのパケット伝送を行う無線端末であって、
通信品質を報酬にして前記マルチパスへのパケット伝送の割合を変化させながら強化学習を行い、前記割合を最適化することを特徴とする無線端末。
【請求項2】
前記通信品質として5QIのリソースタイプを用い、アプリケーションの要求に応じた前記5QIに基づいて報酬を決定することを特徴とする請求項1記載の無線端末。
【請求項3】
マルチパスは、異なる無線方式のパスであることを特徴とする請求項1又は2記載の無線端末。
【請求項4】
マルチパスは、同じ無線方式であって異なる周波数のパスであることを特徴とする請求項1又は2記載の無線端末。
【請求項5】
請求項1又は2記載の無線端末と、前記通信品質に応じた報酬を前記無線端末に送信するTCPサーバとを有することを特徴とする無線システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチパス伝送を行う無線端末に係り、特に、マルチパスにおけるパケット伝送の割合を最適化できる無線端末及び無線システムに関する。
【背景技術】
【0002】
[従来の技術]
まず、複数の無線ネットワークインターフェースを同時に使用して伝送を行うマルチパス伝送がある。マルチパス伝送のためのプロトコルとしては、RFC 8684のMultipath TCP(以下、MPTCP)が挙げられる。
【0003】
複数回線を同時に使用する方法としては、第1に、スループットを上げるためにそれぞれの回線に別々のパケットを送信する方法、第2に、1回でのパケットの到達率を上げるために同じパケットを別々の回線に送信する方法、第3に、主回線と副回線というように使う優先度をつけて、主回線のスループットが不足してきた時に副回線を追加して、スループットを確保する方法がある。
【0004】
複数の無線回線を同時に使用した場合、回線毎に速度や遅延が異なる場合が多い。
それらの回線上でスループットを上げる方法で2つの回線に同じ量の別パケットを送信したとすると、速度が速くレイテンシー(遅延時間)が小さい回線側では受信装置までにすぐに届くが、速度が遅く遅延が大きい回線側ではすぐに届かないという状態が発生する。
【0005】
そうなると、全てのパケットが受信装置に届くまで、2つの回線のうち、速度が速くレイテンシーが小さい回線側が使われていないという状況が発生する。そのため、速度が速くレイテンシーが小さい回線に多くのパケットを送信し、速度が遅く遅延が大きい回線には少量のパケットしか送信しないという制御が必要となる。
【0006】
無線回線の場合、場所や時刻によって回線の速度、遅延が大きく変化する。そのため、どの回線にどれだけのパケットを送信するのかを決める方法が重要であるが、決まった方法が存在しないのが現状である。
【0007】
[関連技術]
尚、関連する先行技術として、特開2011-035516号公報「IPパケット転送装置ならびにその転送方法および転送プログラム」(特許文献1)、特開2021-064901号公報「モバイルデバイス及びネットワーク通信ハンドオーバープログラム」(特許文献2)、また、3GPP TS23.501 Table 5.7.4-1 Standardized 5QI to QoS characteristics mapping(非特許文献1)がある。
【0008】
特許文献1には、パケットを複製し、同一のパケットを異なる伝送路で同時に送信する構成が示されている。
特許文献2には、スループットの閾値により無線LAN通信とセルラー通信を切り替える構成が示されている。
【0009】
非特許文献1には、5QIにおけるリソースタイプ(Resource Type)が示されている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2011-035516号公報
【特許文献2】特開2021-064901号公報
【非特許文献】
【0011】
【非特許文献1】3GPP TS23.501 Table 5.7.4-1 Standardized 5QI to QoS characteristics mapping
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、従来のマルチパスの無線システムでは、場所や時刻によって回線の速度、遅延が大きく変化するものの、回線に伝送するパケットの割合を制御するのが難しく、通信品質の安定化が容易ではないという問題点があった。
【0013】
尚、特許文献1,2、非特許文献1には、無線システムで、マルチパスにおけるパケット伝送の割合を最適化し、通信品質を安定化させる構成の記載がない。
【0014】
本発明は上記実情に鑑みて為されたもので、マルチパスにおけるパケット伝送の割合を最適化でき、通信品質を安定化させることができる無線端末及び無線システムを提供することを目的とする。
【課題を解決するための手段】
【0015】
上記従来例の問題点を解決するための本発明は、マルチパスへのパケット伝送を行う無線端末であって、通信品質を報酬にしてマルチパスへのパケット伝送の割合を変化させながら強化学習を行い、当該割合を最適化することを特徴とする。
【0016】
本発明は、上記無線端末において、通信品質として5QIのリソースタイプ(Resource Type)を用い、アプリケーションの要求に応じた5QIに基づいて報酬を決定することを特徴とする。
【0017】
本発明は、上記無線端末において、マルチパスが、異なる無線方式のパスであることを特徴とする。
【0018】
本発明は、上記無線端末において、マルチパスが、同じ無線方式であって異なる周波数のパスであることを特徴とする。
【0019】
本発明は、無線システムにおいて、上記無線端末と、通信品質に応じた報酬を無線端末に送信するTCPサーバとを有することを特徴とする。
【発明の効果】
【0020】
本発明によれば、マルチパスへのパケット伝送を行う無線端末であって、通信品質を報酬にしてマルチパスへのパケット伝送の割合を変化させながら強化学習を行い、当該割合を最適化することを特徴とする無線端末としているので、通信品質を安定化できる効果がある。
【0021】
本発明によれば、上記無線端末と、通信品質に応じた報酬を無線端末に送信するTCPサーバとを有する無線システムとしているので、パケット伝送の割合を決定する強化学習ができると共に通信品質を安定化できる効果がある。
【図面の簡単な説明】
【0022】
【
図3】5QIのリソースタイプと報酬の関係を示す図である。
【
図4】強化学習の状態のパラメータを示す図である。
【
図5】スケジューリング方式の一覧表を示す図である。
【発明を実施するための形態】
【0023】
本発明の実施の形態について図面を参照しながら説明する。
[実施の形態の概要]
本発明の実施の形態に係る無線端末(本無線端末)は、通信品質を報酬として、マルチパスに伝送するパケットの割合を変化させて学習させ、最適なマルチパスへのパケット伝送の割合を決定するものであり、通信品質を安定化できるものである。
【0024】
また、本発明の実施の形態に係る無線システム(本無線システム)は、本無線端末と、通信品質に応じて報酬を本無線端末に送信するTCPサーバとを備えており、パケット伝送の割合を決定する強化学習ができると共に通信品質を安定化できるものである。
【0025】
本無線システムでは、複数の無線回線を同時に使用する無線端末とユーザデータのパケット転送を行うTCPサーバとの間でMPTCP(Multipath TCP)通信を行うもので、無線端末における複数回線の利用を定義するTCPサブフロー(TCP subflow)の制御に強化学習の結果を用いている。
【0026】
そして、本無線端末は、強化学習の結果を利用する方式として、ルックアップテーブル方式又はニューラルネットワーク方式のいずれかを用いている。
【0027】
強化学習の報酬として、5QI(5G QoS Indicator)毎に異なる報酬を用いることとし、強化学習の状態設定として、無線の電波状況、回線の込み具合、RTT(Round Trip Time)、TCPスループットを使用することにしている。尚、QoSは、サービス品質(Quality of Service)である。
【0028】
無線の電波状況に関して、第5世代移動通信システム(以下5G)は下りのCQI(Channel Quality Indicator)と上りのMCS(Modulation and Coding Scheme)レベルを用い、Wi-FiはRSSI(Received Signal Strength Indicator)を使用している。
また、無線回線の混雑度具合に関して、5GはSS-RSRQ(Synchronization Signal-Reference Signal Received Quality)を使用し、Wi-Fiはビジー(Busy)時間率を使用することにしている。
【0029】
RTT(Round Trip Time)とTCPスループットに関しては、通信相手となるTCPサーバから得ることにしている。
強化学習の行動として、MPTCPのスケジューリング方式を選択し、TCPサブフローに流すパケットの割合を適時変えることにしている。
【0030】
また、本無線システムでは、 強化学習時に使用するQテーブルの状態数を減らすために、5Gの下りの回線品質に関して、SS-RSRP(Synchronization Signal-Reference Signal Received Power)ではなくCQIを使うことにしている。
【0031】
また、本無線システムでは、5QIがGBR(Guaranteed Bit Rate)かつ回線を1端末で使用している時のPMF(Performance Management Function)のTCPスループットと位置をデータベースに記録し、スループットのエリア図を作成するものである。
【0032】
更に、本無線システムでは、 データベースに蓄積された結果を学習のためのシミュレーションに使用するものである。
【0033】
[本無線システム:
図1]
本無線システムについて
図1を参照しながら説明する。
図1は、本無線システムの構成概略図である。
本無線システムは、
図1に示すように、無線端末1と、TCPサーバ2と、Wi-Fiアクセスポイント3と、5G基地局4と、アプリケーションサーバ5とから構成されている。
尚、無線端末1は、実際は複数存在してTCPサーバ2に接続し、Wi-Fiアクセスポイント3と5G基地局4も複数存在するものであるが、
図1では説明を簡単にするために各々1つを示している。
【0034】
無線端末1は、MPTCP通信部11と、PMF部12とを備え、TCPサーバ2もMPTCP通信部21と、PMF部22とを備えている。
MPTCP通信部11とMPTCP通信部21は、相互にMPTCP通信を行い、アプリケーションサーバ5にパケットを転送する。
PMF部12とPMF部22は、回線の性能又は能力を測定するもので、例えば、それぞれの回線の遅延を測定し、それぞれの回線のスループットを測定するものである。
【0035】
回線の遅延測定のために、TCPサーバ2のPMF部22は、無線端末1内のPMF部12から遅延測定のために送られてきたパケットに応答する機能を備えている。
また、それぞれの回線のTCPスループットを測定した場合に、無線端末1内のPMF部12に報告する機能を備える。
無線端末1及びTCPサーバ2の詳細については後述する。
【0036】
Wi-Fiアクセスポイント3は、無線端末1とTCPサーバ2との間のWi-Fiの無線通信路(パス)における無線通信を有線通信に変換する装置である。
5G基地局4は、無線端末1とTCPサーバ2との間の5Gの無線通信路(パス)における無線通信を有線通信に変換する装置である。
また、アプリケーションサーバ5は、アプリケーションプログラムを実行するもので、TCPサーバ2を介して無線端末1との接続を行う。
【0037】
尚、無線回線としては、
図1の場合、Wi-Fiアクセスポイント3を経由する回線(パス)と5G基地局4を経由する回線(パス)の2回線を示している。ただし、無線回線は別種類のものか、同じ種類の無線回線であっても周波数が異なる回線が複数あればよく、通信方式としてもIP(Internet Protocol)通信ができればよいので、回線の本数や種類を限定するものではない。
【0038】
[本無線端末1:
図2]
次に、本無線端末1の構成について
図2を参照しながら説明する。
図2は、本無線端末の構成ブロック図である。
本無線端末1は、
図2に示すように、アプリケーション10と、MPTCP通信部11と、PMF部12と、電波・回線状況観測部13と、5QI設定部14と、TCPサブフロー(TCP Subflow)15a,15bと、IP層16a,16bと、5G用無線モデム17と、Wi-Fi無線モデム18とを備えている。
【0039】
[アプリケーション10]
アプリケーション10は、
図1のアプリケーションサーバ5と通信する部分であり、MPTCP通信部11を経由して通信する。
【0040】
[MPTCP通信部11]
MPTCP通信部11は、スケジューラ11aを備え、PMF部12、電波・回線状況観測部13、5QI設定部14から情報を入力し、それらの情報に基づいて為された強化学習の結果がスケジューラ11aに設定されており、2つの回線に伝送するパケットの割合をスケジューラ11aで変更可能に管理し、当該スケジューラ11aで管理されたパケットの送信の割合に従ってTCPサブフロー15a,15bにパケットを出力する。
MPTCP通信部11における処理の詳細は後述する。
【0041】
[PMF部12]
PMF部12は、各回線の往復遅延時間、RTT(Round Trip Time)とTCPスループットを把握している。
【0042】
[電波・回線状況観測部13]
電波・回線状況観測部13は、それぞれの無線回線の電波状況や回線の混雑状況を測定する機能を備えている。
5Gでは、上りのMCSレベルが「上りの電波状況」を示しており、SS-RSRQが「回線の混雑具合」を示している。また、Wi-Fiでは、RSSIが「電波状況」を示しており、ビジー時間率が「回線の混雑具合」を示している。
【0043】
ここで、5G下りの電波状況を表す指標としてSS-RSRPがあるが、SS-RSRPは、-44dBmから-140dBmの1dBm刻みの範囲をとるのに対し、CQIは0から15の16段階となるため、CQIを使用した方が状態数を減らすことができる。
よって、5G下りの電波状況は、CQIを用いるのが望ましい。
【0044】
また、ビジー時間率の計測方法は、Wi-Fiのインターフェースにおいて、アクティブ時間(active time)とビジー時間(busy time)が出力されるので、以下の式1を用いてビジー時間率を算出する。
Busy時間率 = busy time / (busy time + active time) …式1
【0045】
[5QI設定部14]
5QI設定部14は、5G通信のQoSが設定されており、非特許参考文献1に記載されている「Resource Type」(リソースタイプ)を使用する。
5QIと報酬の具体的な関係については後述する。
【0046】
[TCPサブフロー15a,15b]
TCPサブフロー15aは、5G用無線モデム17のTCP通信を行い、MPTCP通信部11からのパケットをIP層16aに出力し、IP層16aからのパケットをMPTCP通信部11に出力する。
TCPサブフロー15bは、Wi-Fi無線モデム18のTCP通信を行い、MPTCP通信部11からのパケットをIP層16bに出力し、IP層16bからのパケットをMPTCP通信部11に出力する。
【0047】
[IP層16a,16b]
IP層16aは、TCPサブフロー15aと5G用無線モデム17との間で、IPのプロトコルで通信を行うために、5G用無線モデム17のIPアドレスとTCPサーバ2のIPアドレスを付与する。
IP層16bは、TCPサブフロー15bとWi-Fi無線モデム18との間で、IPのプロトコルで通信を行うために、Wi-Fi無線モデム18のIPアドレスとTCPサーバ2のIPアドレスを付与する。
【0048】
[5G用無線モデム17,Wi-Fi無線モデム18]
5G用無線モデム17は、5G用の無線通信を行うためのモデムである。
Wi-Fi無線モデム18は、Wi-Fiの無線通信を行うためのモデムである。
図2では、5GとWi-Fiの異なる無線回線を示したが、5G用無線モデムを複数枚使用して異なる周波数での回線(マルチパス)に適用することができる。
【0049】
[MPTCP通信部11のスケジューラ11aの強化学習:
図3~6]
スケジューラ11aは、強化学習後の結果が設定されている。
当該強化学習について
図3~6を参照しながら説明する。
図3は、5QIのリソースタイプ(Resource Type)と報酬の関係を示す図であり、
図4は、強化学習の状態のパラメータを示す図であり、
図5は、スケジュールリング方式の一覧表を示す図であり、
図6は、強化学習の学習時のシステム構成図である。
【0050】
5QI設定部14には、
図3に示す5QIの複数のリソースタイプが設定され、行動価値算出部19の切り替えに使用される。
そして、MPTCP通信部11は、PMF部12と電波・回線状況観測部13から
図4に示す強化学習の状態を示すパラメータの数値を取得し、5QI設定部14に設定されている複数のリソースタイプ毎に行動価値算出部19で行動価値の計算が行われ、その行動価値算出部19の結果に基づき
図5に示すスケジューリング方式の一覧表からリソースタイプ毎に最適なパケット送信の割合をスケジューリング方式番号で選択し、スケジューラ11aに設定して当該番号に示すパケット送信の割合でパケットをTCPサブフロー15a、15bに出力し、運用している。
【0051】
[5QIのリソースタイプと強化学習時の報酬:
図3]
5QI設定部14に設定されている5QIのリソースタイプと強化学習時の報酬について
図3を参照しながら説明する。報酬は報酬算出部24が算出する。
図3に示すように、5QIのリソースタイプが、GBR(Guaranteed Bit Rate)の場合は、複数回線のTCPスループット合計値の大きさが報酬となり、伝送速度を優先したものとなる。強化学習では、複数回線のTCPスループット合計値が最大となるよう学習される。報酬の算出式は式2となる。
GBRの時の報酬=(MPTCP通信部が受信している現在のスループット値)/(無線回線の理論上の最大スループットの合計値)…式2
【0052】
また、5QIのリソースタイプが、Non-GBRの場合は、TCP再送回数の少なさが報酬となり、パケットの到達率を優先したものとなる。強化学習では、TCP再送回数が最小になるよう学習される。報酬の算出式は式3となる。
Non-GBRの時の報酬=(1)/(MPTCP通信部が受信している今の再送回数+1)…式3
また、5QIのリソースタイプが、Delay-critical GBRの場合は、遅延の小ささが報酬となり、少ない伝送遅延を優先したものとなる。強化学習では、遅延が最小となるよう学習される。報酬の算出式は式4となる。
Delay-criticalGBRの時の報酬=(無線回線の理論上の最小遅延)/(MPTCP通信部が受信している今の遅延)…式4
【0053】
[強化学習時の状態を示すパラメータ:
図4]
次に、強化学習時の状態を示すパラメータについて
図4を参照しながら説明する。
図4に示す強化学習時の状態を示すパラメータは、TCPサーバ2から特定のパケットが無線端末1に戻って来た時に取得するパラメータとなる。
PMF部12では、PMF部22から各回線のパケットのRTT[msec]、各回線のパケットのTCPスループット[Mbps]のパラメータの数値を取得する。
電波・回線状況観測部13では、5G用無線モデム17及びWi-Fi無線モデム18からパラメータの数値を取得する。
【0054】
尚、報酬の内容によって回線毎の送信パケット量が異なることがあるので、報酬毎に生成する各Qテーブルでは、パラメータの数値も違ってくることになり、報酬毎のQテーブルが必要となる。
【0055】
PMF部12では、5GのRTT[msec]、Wi-FiのRTT[msec]、5GのTCPスループット[Mbps]、Wi-FiのTCPスループット[Mbps]がパラメータとなる。
電波・回線状況観測部13では、5G下りのCQI、5GのSSーRSRQ[dB]、5Gの上りMCSレベル、Wi-FiのRSSI[dBm]、Wi-Fiのビジー時間率がパラメータとなる。
【0056】
[スケジューリング方式の一覧表:
図5]
スケジューラ11aは、
図5に示す5G回線にパケットを送信する割合とWi-Fi回線にパケットを送信する割合を定めたスケジューリング方式の一覧表を記憶しており、強化学習の結果、最適な送信割合が導き出されるとスケジューリング方式の番号で選択され、当該番号に示す割合でパケットの送信が行われる。
【0057】
[強化学習の学習時のシステム構成:
図6]
本無線システムにおいて、強化学習の学習時のシステム構成について
図6を参照しながら説明する。
学習時のシステム構成は、
図6に示すように、TCPサーバ2が、MPTCP通信部21と、PMF部22、5QI設定部23と報酬算出部24を備え、無線端末1が、MPTCP通信部11、PMF部12、電波・回線状況観測部13、5QI設定部14、行動価値算出部19を備えている。
【0058】
MPTCP通信部21とMPTCP通信部11とは、無線通信を行い、MPTCP通信部11のスケジューラ11aがマルチパスへのパケット送信の割合を制御している。スケジューラ11aは、パケット送信をまず特定の割合で行う。
【0059】
TCPサーバ2のPMF部22が、
図4に示すパラメータの測定を行い、通信品質を報酬算出部24に送る。報酬算出部24では5QI設定部23の値より
図3に示す報酬を算出する。その報酬を無線端末1の行動価値算出部19に送信する。
行動価値算出部19は5QI設定部14からの値に基づいてQテーブルを選択する。該当するQテーブルにおいて、以下の式5の行動価値関数Qを算出し、Qテーブルに記録する。R
t+1は報酬算出部24から報告された報酬である。
Q(S
t,a
t)=Q(S
t,a
t)+α(R
t+1 +γmax Q(S
t+1,a)-Q(S
t,a
t))…式5
【0060】
tはある時刻を表す。
(S
t,a
t)は現在の
図7のQテーブル上の位置であり、Q(S
t,a
t)はその位置におけるQ値である。
Stは状態を示し、
図7のPFM部と電波・回線状況観測部のインデックスとなる。
a
tは行動を示し、
図7のスケジューリング方式のインデックスとなる。
【0061】
αは学習率で、一般的に0.1が使われる。
Rt+1は、状態Stで行動atをとった時に得られる報酬となる。行動後に報酬が得られるため、t+1となる。
γは割引率で、一般的に0.1が使われる。
Q(St+1,a)のSt+1は、(St,at)で行動した結果、遷移先する状態を示す。
max Q(St+1,a)は遷移先の行動に対するQ値を比較した時の最大値である。
行動価値関数Qは累計報酬を示している。
【0062】
また、TCPサーバ2からの無線パケットを無線端末1が受信することで、
図4に示すPMF部のパラメータの数値をPMF部12が取得する。
電波・回線状況観測部13は、
図4に示す電波・回線状況観測部のパラメータを5G用無線モデム17及びWi-Fi無線モデム18から取得する。アプリケーションの要求品質を5QI設定部14に設定する。
【0063】
無線端末1のMPTCP通信部11は、PMF部12、電波・回線状況観測部13からのパラメータを現在の状態とし、QテーブルのQ値が一番大きいスケジューリング方式の割合で、マルチパスへのパケット送信を行う。
また、Qテーブルの初期値を大きい値とすることで、
図5の一覧表の全ての割合を実行することが可能となる。Qテーブルの計算は、5QIのリソースタイプ毎に行われる。
図3ではリソースタイプが3種類あるので、3種類行うことになる。
そして、全ての割合に対するパラメータの数値の取得は、定期的に巡回的に行うことで強化学習を実行するものである。
【0064】
そして、MPTCP通信部11のスケジューラ11aは、強化学習の結果を利用する方式として、ルックアップテーブル方式又はニューラルネットワーク方式がある。
次に、強化学習の結果を利用するルックアップテーブル(Qテーブル)方式とニューラルネットワーク方式について説明する。
【0065】
[ルックアップテーブル(Qテーブル)方式:
図7]
次に、Qテーブル方式について
図7を参照しながら説明する。
図7は、Qテーブルの概略図である。
Qテーブルは、
図7に示すように、
図4に示したPMF部12で取得できるパラメータと電波・回線状況観測部13で取得できるパラメータが縦軸に設定され、横軸には、5G回線とWi-Fi回線へのパケット伝送(送信)の割合が設定されている。縦軸が強化学習の状態、横軸が強化学習の行動となる。横軸の割合は10%単位としているが、もっと細かくてももっと粗くても構わない。
【0066】
そして、
図6の強化学習時のシステム構成に従って、MPTCP通信部11が横軸の割合についてPMF部12と電波・回線状況観測部13から得られたパラメータの数値を入力し、Qテーブルを完成させる。
ここで、5QI設定部14に記憶されているリソースタイプの報酬の全てについてQテーブルを生成する。
図3ではリソースタイプが3つ設定されているので、3枚のQテーブルが形成される。
【0067】
そのように生成されたQテーブルから、ユーザ(システム運用者)が指定する5QIのリソースにおいてパラメータの数値が全体的に良好な割合が選択される。
従って、ある状態において行動価値関数Qが一番高くなるスケジューリング方式が決定されるものである。
【0068】
[ニューラルネットワーク方式:
図8]
次に、ニューラルネットワーク方式について
図8を参照しながら説明する。
図8は、深層強化学習済モデルの構成概略図である。
深層強化学習済モデルは、上記強化学習によりPMF部12及び電波・回線状況観測部13でのパラメータの数値を学習済で、中間層のパラメータが調整されている。
深層強化学習済モデルは、
図8に示すように、入力層としてPMF部12と電波・回線状況観測部13を設け、中間層をニューラルネットワークで構成し、出力層でスケジューラ11aを設けている。
【0069】
運用中は、入力層のPMF部12と電波・回線状況観測部13からパラメータが入力されると、出力層のスケジューラ11aにはパラメータの数値が良好なパケット送信の割合が入力され、スケジューラ11aは、その割合に従ってマルチパスへのパケットの伝送を行うものである。つまり、
図8の方式では推論が為される。
学習時には、リソースタイプに応じた行動価値関数Qが最大化するようにパラメータを修正する。学習が終わるとパラメータを固定して使用する。
【0070】
[スループットエリア図生成]
次に、スループットエリア図の生成について説明する。
5QIのリソースタイプがGBRのとき、2つの回線のTCPスループット合計値を最大化することが強化学習の報酬となる。
そのため、5QIがGBRかつ回線が混雑していなく、自分の無線端末1しか使っていない時、PMF部12のTCPスループットの数値と位置をアプリケーションサーバ5に接続するデータベースに記録しておく。これにより、アプリケーションサーバ5でスループットのエリア図を作成することができる。
位置に関しては、屋外の場合はGPS(Global Positioning Satellite)、屋内の場合はSLAM(Simultaneous Localization and Mapping)より取得することができる。
【0071】
更に、本無線システムでは、 上記データベースに蓄積された結果を強化学習の学習時のデータに使用して、強化学習の学習時の効率化を図ることができるものである。
【0072】
以上説明したように、本無線システムは、5QI毎に報酬を変えることで、アプリケーションの要求に応じてパケット送信の割合をMPTCP通信部11のスケジューラ11aで制御し、各回線に対応するTCPサブフローを効率的に使用できるものである。
【0073】
また、本無線システムは、無線回線の品質と混雑状況を見るとこで、より通信のしやすい回線を重視して、通信することができる。
また、本無線端末1の移動時には無線回線の品質や混雑状況が刻々と変化するが、このような状況においても、アプリケーションの要求に応じた通信が可能となる。
【0074】
[実施の形態の効果]
本無線端末によれば、5QIのリソースタイプを基にしたアプリケーションの要求品質を報酬として、マルチパスに送信するパケットの割合を変化させて、PMF部12と電波・回線状況観測部13でのパラメータの数値を強化学習の状態とさせ、最適なマルチパスへのパケット伝送の割合を決定して、MPTCP通信部11のスケジューラ11aに設定してパケット送信の割合を制御するようにしているので、通信品質を安定化できる効果がある。
【0075】
本無線システムによれば、本無線端末と、アプリケーションの要求品質に応じて報酬を本無線端末に送信するTCPサーバとを備えるようにしているので、パケット送信の割合を決定する強化学習ができると共に通信品質を安定化できる効果がある。
【産業上の利用可能性】
【0076】
本発明は、マルチパスにおけるパケット伝送の割合を最適化でき、通信品質を安定化できる無線端末及び無線システムに好適である。
【符号の説明】
【0077】
1…無線端末、 2…TCPサーバ、 3…Wi-Fiアクセスポイント、 4…5G基地局、 5…アプリケーションサーバ、 10…アプリケーション部、 11…MPTCP通信部、 11a…スケジューラ、 12…PMF部、 13…電波・回線状況観測部、 14…5GI設定部、 15a,15b…TCPサブフロー、 16a,16b…IP層、 17…5G用無線モデム、 18…Wi-Fi無線モデム、 19…行動価値算出部、 21…MPTCP通信部、 22…PMF部、 23…5QI設定部、 24…報酬算出部