(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024158091
(43)【公開日】2024-11-08
(54)【発明の名称】モバイル通信システムおよび通信方法
(51)【国際特許分類】
H04W 48/18 20090101AFI20241031BHJP
H04W 92/08 20090101ALI20241031BHJP
H04W 8/18 20090101ALI20241031BHJP
H04W 72/54 20230101ALI20241031BHJP
H04W 48/16 20090101ALI20241031BHJP
H04M 1/72 20210101ALI20241031BHJP
【FI】
H04W48/18
H04W92/08
H04W8/18
H04W72/54
H04W48/16 135
H04M1/72
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023072960
(22)【出願日】2023-04-27
(11)【特許番号】
(45)【特許公報発行日】2023-05-31
(71)【出願人】
【識別番号】397036309
【氏名又は名称】株式会社インターネットイニシアティブ
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【弁理士】
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】柿島 純
【テーマコード(参考)】
5K067
5K127
【Fターム(参考)】
5K067AA23
5K067DD43
5K067EE02
5K067EE10
5K067EE16
5K067HH21
5K127AA36
5K127BA03
5K127BB06
5K127BB22
5K127GA14
5K127GA22
5K127JA23
(57)【要約】
【課題】マルチプロファイルSIMにおいて、携帯電話網の通信状況に応じて自動でプロファイルを切り替える。
【解決手段】モバイル通信システムは、マルチプロファイルSIMを備えたユーザ端末と、ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、ユーザ端末および複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備える。SIMプロファイル切替装置は、複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定する報酬決定部を備える。ユーザ端末は、ユーザ端末の状態と報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成された学習モデルと、学習モデルを用いて、ユーザ端末の状態に基づいてSIMプロファイルを選択するSIMプロファイル選択部とを備える。
【選択図】
図7
【特許請求の範囲】
【請求項1】
マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムであって、
前記SIMプロファイル切替装置は、
前記複数のモバイル事業者ネットワークの各々についての通信状況を管理する通信状況管理部と、
前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定する報酬決定部であって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、報酬決定部と、
前記報酬を前記ユーザ端末へ送信する送信部と、を備え、
前記ユーザ端末は、
前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成された学習モデルと、
前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するSIMプロファイル選択部と、
前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信する通信部と、を備える、
モバイル通信システム。
【請求項2】
前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、当該SIMプロファイルに対する報酬値が最大となるように、前記報酬を決定する、請求項1に記載のモバイル通信システム。
【請求項3】
前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、当該他のモバイル事業者ネットワークに対応するSIMプロファイルに対する報酬値が最大となるように、前記報酬を決定する、請求項2に記載のモバイル通信システム。
【請求項4】
前記学習モデルは、前記ユーザ端末の状態stを入力とし、複数のSIMプロファイルのうち各SIMプロファイルを選択する行動atを行った場合における行動価値Q(st,at)を出力とする、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項1から3のいずれか1項に記載のモバイル通信システム。
【請求項5】
前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、前記ニューラルネットワークから出力される複数の行動価値のうち最大の行動価値を用いて、学習が行われる、請求項4に記載のモバイル通信システム。
【請求項6】
前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、前記ニューラルネットワークから出力される複数の行動価値のうち当該他のモバイル事業者ネットワークのSIMプロファイルに対応する行動価値を用いて、学習が行われる、請求項5に記載のモバイル通信システム。
【請求項7】
マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムにおける通信方法であって、
前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々についての通信状況を取得するステップと、
前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定するステップであって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、ステップと、
前記SIMプロファイル切替装置が、前記報酬を前記ユーザ端末へ送信するステップと、
前記ユーザ端末が、前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習モデルに学習させるステップと、
前記ユーザ端末が、前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するステップと、
前記ユーザ端末が、前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信するステップと、
を含む通信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モバイル通信システムおよび通信方法に関する。特に、本発明は、マルチプロファイルSIMにおけるプロファイルの切り替えに関する。
【背景技術】
【0002】
携帯電話端末やスマートフォンなどのユーザ端末が1枚のSIMカードで複数の携帯電話網に接続することが可能なマルチプロファイルSIMが開発されている(例えば非特許文献1参照)。マルチプロファイルSIMは、1枚のSIMカードの中に複数の通信事業者のプロファイル(携帯電話網に接続するための情報)を保持しており、ユーザ端末は、これら複数のプロファイルを切り替えて利用することができる。これにより、例えば通信障害時等に、SIMカード内のプロファイルを切り替えて異なる携帯電話網に接続することで、通信を確保することができる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】「IIJ、1枚のSIMで複数の携帯電話網に接続できるマルチプロファイルSIMを開発」、[online]、株式会社インターネットイニシアティブ、[令和5年4月24日検索]、インターネット<https://www.iij.ad.jp/news/pressrelease/2022/1025.html>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のマルチプロファイルSIMでは、プロファイルの切り替えはユーザ端末の使用者が手動で行う必要があり、携帯電話網の通信状況に応じて自動でプロファイルを切り替えることは実現されていない。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムであって、前記SIMプロファイル切替装置は、前記複数のモバイル事業者ネットワークの各々についての通信状況を管理する通信状況管理部と、前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定する報酬決定部であって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、報酬決定部と、前記報酬を前記ユーザ端末へ送信する送信部と、を備え、前記ユーザ端末は、前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成された学習モデルと、前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するSIMプロファイル選択部と、前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信する通信部と、を備える、モバイル通信システムが提供される。
【0006】
また、本発明の一態様によれば、前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、当該SIMプロファイルに対する報酬値が最大となるように、前記報酬を決定するのであってよい。
【0007】
また、本発明の一態様によれば、前記報酬決定部は、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、当該他のモバイル事業者ネットワークに対応するSIMプロファイルに対する報酬値が最大となるように、前記報酬を決定するのであってよい。
【0008】
また、本発明の一態様によれば、前記学習モデルは、前記ユーザ端末の状態stを入力とし、複数のSIMプロファイルのうち各SIMプロファイルを選択する行動atを行った場合における行動価値Q(st,at)を出力とする、深層強化学習に基づくニューラルネットワークにより構成されたモデルであるのであってよい。
【0009】
また、本発明の一態様によれば、前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好な場合は、前記ニューラルネットワークから出力される複数の行動価値のうち最大の行動価値を用いて、学習が行われるのであってよい。
【0010】
また、本発明の一態様によれば、前記学習モデルは、前記ユーザ端末が現在使用しているSIMプロファイルに対応するモバイル事業者ネットワークの通信状況が良好でなく、他のモバイル事業者ネットワークの通信状況が良好である場合は、前記ニューラルネットワークから出力される複数の行動価値のうち当該他のモバイル事業者ネットワークのSIMプロファイルに対応する行動価値を用いて、学習が行われるのであってよい。
【0011】
また、本発明の一態様によれば、マルチプロファイルSIMを備えたユーザ端末と、前記ユーザ端末が通信可能な複数のモバイル事業者ネットワークと、前記ユーザ端末および前記複数のモバイル事業者ネットワークと接続されたSIMプロファイル切替装置と、を備えるモバイル通信システムにおける通信方法であって、前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々についての通信状況を取得するステップと、前記SIMプロファイル切替装置が、前記複数のモバイル事業者ネットワークの各々の通信状況に基づいて、強化学習における報酬を決定するステップであって、前記報酬は、前記ユーザ端末が使用すべきSIMプロファイルの選択に関連する、ステップと、前記SIMプロファイル切替装置が、前記報酬を前記ユーザ端末へ送信するステップと、前記ユーザ端末が、前記ユーザ端末の状態と前記報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習モデルに学習させるステップと、前記ユーザ端末が、前記学習モデルを用いて、前記ユーザ端末の状態に基づいてSIMプロファイルを選択するステップと、前記ユーザ端末が、前記選択されたSIMプロファイルを用いて前記複数のモバイル事業者ネットワークのうちの1つと通信するステップと、を含む通信方法が提供される。
【発明の効果】
【0012】
本発明によれば、ユーザ端末は、SIMカードに保持された複数のSIMプロファイルの中からモバイル事業者ネットワークの通信状況に応じた最適なSIMプロファイルを選択して、通信を行うことができる。
【図面の簡単な説明】
【0013】
【
図1】一実施形態に係るモバイル通信システムのネットワーク構成図である。
【
図2】別の実施形態に係るモバイル通信システムのネットワーク構成図である。
【
図3】ユーザ端末の状態の遷移を示す模式図である。
【
図4】本発明の一実施形態に係る、SIMプロファイル切替装置およびユーザ端末の機能的構成を示すブロック図である。
【
図5】学習モデルの一例(DQN)を示す図である。
【
図6】学習モデルの別の一例(Fixed Target Q-Network)を示す図である。
【
図7】本発明の一実施形態に係る、SIMプロファイル切替装置およびユーザ端末の動作を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
【0015】
図1は、本発明の一実施形態に係るモバイル通信システム10のネットワーク構成図である。モバイル通信システム10は、ユーザ端末100と、第1モバイル事業者ネットワークMN
1と、第2モバイル事業者ネットワークMN
2と、SIMプロファイル切替装置400を備える。各モバイル事業者ネットワークMN
1、MN
2は、それぞれ無線アクセスネットワーク200とコアネットワーク300とを備える。モバイル通信システム10において、ユーザ端末100は、モバイル事業者ネットワークMN
1、MN
2の無線アクセスネットワーク200およびコアネットワーク300を介して、インターネット500等のネットワークと通信することができる。なお、モバイル事業者ネットワークの数は2つに限定されず、任意であってよい。
【0016】
ユーザ端末100は、携帯電話端末やスマートフォンなどの無線通信機器である。ユーザ端末100は、1枚のSIMカード110を備え、このSIMカード110には複数のSIMプロファイルが格納されている。SIMプロファイルは、ユーザ端末100がモバイル事業者ネットワークに接続するための情報である。
図1の例では、ユーザ端末100は、SIMカード110に2つのSIMプロファイルSP
1、SP
2を有している。SIMプロファイルSP
1は第1モバイル事業者ネットワークMN
1に対応し、SIMプロファイルSP
2は第2モバイル事業者ネットワークMN
2に対応する。ユーザ端末100は、SIMプロファイルSP
1を使用して第1モバイル事業者ネットワークMN
1に接続することができ、またSIMプロファイルSP
2を使用して第2モバイル事業者ネットワークMN
2に接続することができる。なお、SIMカード110に保持されるSIMプロファイルの数は2より多くてもよい。
【0017】
SIMプロファイル切替装置400は、ユーザ端末100におけるSIMプロファイルの切り替えを制御する装置である。SIMプロファイル切替装置400は、プロセッサおよびメモリを備えたコンピュータとして構成され、メモリに格納されたプログラムをプロセッサが読み出して実行することにより、所定の機能が実現される。SIMプロファイル切替装置400の機能および動作については以下に詳述する。
【0018】
図1のモバイル通信システム10において、第1モバイル事業者ネットワークMN
1および第2モバイル事業者ネットワークMN
2は、ともに第5世代(5G)通信規格に準拠する。無線アクセスネットワーク(NG-RAN:Next Generation Radio Access Network)200は、複数の基地局を含む。コアネットワーク300は、AMF(Access and Mobility Management Function)302、SMF(Session Management Function)304、PCF(Policy Control Function)306、UDM(Unified Data Management)308、UDR(Unified Data Repository)310、UPF(User Plane Function)312の各ノードを備える。
【0019】
AMF302は、モビリティ制御機能を提供し、位置登録、ページング、およびハンドオーバ等の移動制御を行うノードである。SMF304は、セッション管理機能を提供し、セッションの保守、確立、変更および解放を行うノードである。PCF306は、データ転送速度や遅延時間などの品質に関するポリシー制御機能を提供するノードである。UDM308は、ユーザの契約情報や認証情報を管理するノードである。UDR310は、ユーザ端末の識別番号や在圏情報を保持した加入者データベースを格納するノードである。UPF312は、ユーザ端末との間でユーザデータを通信するノードである。これら各ノードは、5G通信規格に準拠するものであり、その詳細についての説明はここでは省略する。
【0020】
第1モバイル事業者ネットワークMN
1と第2モバイル事業者ネットワークMN
2のいずれか一方または両方は、第4世代(4G)通信規格に準拠するのであってもよい。
図2は、第1モバイル事業者ネットワークMN
1が5G通信規格に準拠し、第2モバイル事業者ネットワークMN
2が4G通信規格に準拠するモバイル通信システム10のネットワーク構成図である。
図2のモバイル通信システム10において、第2モバイル事業者ネットワークMN
2の無線アクセスネットワーク200は、E-UTRAN(Evolved Universal Terrestrial Radio Access Network)である。また第2モバイル事業者ネットワークMN
2のコアネットワーク300は、MME(Mobility Management Entity)314、SGW(Serving Gateway)316、PGW-U(Packet data network Gateway-User Plane)318、PGW-C(Packet data network Gateway-Control Plane)320、PCRF(Policy and Charging Rules Function)322、HSS(Home Subscriber Server)324、およびUDR326の各ノードを含む。これらは4G通信規格に準拠するものであり、その詳細についての説明はここでは省略する。
【0021】
図3は、ユーザ端末100の状態の遷移を示す模式図である。ユーザ端末100の状態は、状態s
1から状態s
2へ、状態s
2から状態s
3へ、…、状態s
t-1から状態s
tへ、状態s
tから状態s
t+1へと遷移する。各状態間において、ユーザ端末100は、N個の行動a
1、a
2、…、a
Nをとり得る。例えば、ユーザ端末100は、状態s
t-1において行動a
2を行って新たな状態s
tへと遷移し、次いで状態s
tにおいて行動a
1を行ってさらに新たな状態s
t+1へと遷移することができる。ユーザ端末100がとり得る行動は、複数のSIMプロファイルの中から1つのSIMプロファイルを選択することを含む。例えば、ユーザ端末100の行動a
1は、第1モバイル事業者ネットワークMN
1に対応するSIMプロファイルSP
1を選択することに対応し、ユーザ端末100の行動a
2は、第2モバイル事業者ネットワークMN
2に対応するSIMプロファイルSP
2を選択することに対応する(以下同様)のであってよい。なお、とり得る行動の数Nは、ユーザ端末100のSIMカード110に保持されているSIMプロファイルの数と等しい。ユーザ端末100の状態s
tは、例えば、3GPP(登録商標)で規定されているRRC IDLE、RRC INACTIVE、RRC CONNECTED等を含むのであってよい。
【0022】
図4は、モバイル通信システム10におけるSIMプロファイル切替装置400およびユーザ端末100の機能的構成を示すブロック図である。SIMプロファイル切替装置400は、ユーザ端末情報管理部402と、通信状況管理部404と、報酬決定部406と、送信部408とを備える。ユーザ端末100は、学習モデル102と、SIMプロファイル選択部104と、通信部106とを備える。
【0023】
SIMプロファイル切替装置400のユーザ端末情報管理部402は、ユーザ端末100から、ユーザ端末100の状態s
tと、ユーザ端末100が選択した行動a
i(iは1、2、…、Nのいずれか)とを含むユーザ端末情報を取得するように構成される。ユーザ端末情報管理部402は、さらに、ユーザ端末100のとり得る全ての状態と、各状態において各行動をとったときにユーザ端末100が次にどの状態に遷移するかに関する情報(例えば
図3に示されるような状態遷移図)を管理するように構成される。
【0024】
SIMプロファイル切替装置400の通信状況管理部404は、モバイル通信システム10における複数のモバイル事業者ネットワークの各々についての通信状況を管理するように構成される。例えば、通信状況管理部404は、モバイル事業者ネットワークMN1とMN2におけるそれぞれのNG-RAN200、AMF302、UDM308、UDR310、およびUPF312から、これら各装置のCPU使用率や、各モバイル事業者ネットワークのトラフィック量や障害発生情報などを含む各種情報を定期的に収集し、これらの収集した情報に基づいて、各モバイル事業者ネットワークMN1、MN2の通信状況(例えば、通信帯域が逼迫し輻輳が発生しそうであるか否か等)を把握することができる。
【0025】
SIMプロファイル切替装置400の報酬決定部406は、通信状況管理部404において特定された各モバイル事業者ネットワークの通信状況に基づいて、ユーザ端末100における最適SIMプロファイルの学習のための報酬を決定するように構成される。具体的に、報酬決定部406は、通信状況が良好なモバイル事業者ネットワークのSIMプロファイルを選択する行動に対して報酬値が高くなる(例えば最大となる)ように、報酬を決定する。
【0026】
例えば、報酬決定部406は、ユーザ端末100が現在使用しているSIMプロファイルが第1モバイル事業者ネットワークMN1のSIMプロファイルSP1であり、且つ第1モバイル事業者ネットワークMN1の通信状況が良好である場合には、SIMプロファイルSP1を選択する行動である行動a1に対して報酬値“1”を有し、他の全ての行動aj(j≠1)に対しては報酬値“0”を持つように、報酬を決定するのであってよい。また例えば、報酬決定部406は、ユーザ端末100が現在使用しているSIMプロファイルが第1モバイル事業者ネットワークMN1のSIMプロファイルSP1であるが、第1モバイル事業者ネットワークMN1の通信状況が良好でなく第2モバイル事業者ネットワークMN2の通信状況が良好である場合には、第2モバイル事業者ネットワークMN2に対応するSIMプロファイルSP2を選択する行動である行動a2に対して報酬値“1”を有し、他の全ての行動aj(j≠2)に対しては報酬値“0”を持つように、報酬を決定するのであってよい。
【0027】
SIMプロファイル切替装置400の送信部408は、報酬決定部406によって決定された報酬と、ユーザ端末100が行動をとったことによる遷移後のユーザ端末100の状態st+1とをユーザ端末100へ送信するように構成される。遷移後のユーザ端末100の状態st+1は、ユーザ端末情報管理部402において、現在の状態stおよび現在の状態stで選択した行動aiを指定することにより、特定することができる。
【0028】
なお、SIMプロファイル切替装置400とユーザ端末100との間の通信(ユーザ端末100からSIMプロファイル切替装置400へのユーザ端末情報の送信、ならびにSIMプロファイル切替装置400からユーザ端末100への報酬および遷移後の状態の送信)は、ユーザ端末100が現在使用しているモバイル事業者ネットワークのU-plane(ユーザプレーン)通信路を介して行われる。
【0029】
ユーザ端末100の学習モデル102は、ユーザ端末100の状態と、SIMプロファイル切替装置400から与えられた報酬とに基づく強化学習により、最適なSIMプロファイルの選択を学習するように構成される。例えば、学習モデル102として、
図5に示されるように、ユーザ端末100の状態s
tを入力層に入力し、状態s
tにおいてユーザ端末100がとることが可能な全ての行動(複数のSIMプロファイルのうちのいずれか1つのSIMプロファイルの選択)a
tのそれぞれについての行動価値Q(s
t,a
t)を出力層の各ノードから出力するように構成された、DQN(Deep Q-Network)に基づくニューラルネットワークを適用することができる。また、学習モデル102は、
図6に示されるように、
図5と同様の構成の2つのニューラルネットワーク(メインネットワークとターゲットネットワーク)を用いたFixed Target Q-Networkに基づくものであってもよい。
図5のDQNおよび
図6のFixed Target Q-Networkにおいて、出力層から出力される行動価値Q(s
t,a
t)とSIMプロファイル切替装置400から与えられる報酬とを用いてニューラルネットワークのパラメータ(重みおよび閾値)を更新することで、学習モデル102の学習が行われる。
【0030】
ユーザ端末100のSIMプロファイル選択部104は、学習モデル102の出力に基づいてSIMプロファイルを選択するように構成される。例えば、SIMプロファイル選択部104は、ニューラルネットワークの出力層から出力される各行動atに対する行動価値Q(st,at)のうち最大の行動価値に対応するSIMプロファイルを、ユーザ端末100が使用するSIMプロファイルとして選択することができる。
【0031】
ユーザ端末100の通信部106は、SIMプロファイル選択部104によって選択されたSIMプロファイルを用いてモバイル事業者ネットワークのうちの1つと通信するように構成される。
【0032】
図7は、モバイル通信システム10におけるSIMプロファイル切替装置400およびユーザ端末100の動作を示すフローチャートである。以下では、ユーザ端末100の学習モデル102がFixed Target Q-Networkに基づくニューラルネットワークとして構成される場合を例に説明を行う。なおユーザ端末100は現在、複数のモバイル事業者ネットワークのうちのJ番目のモバイル事業者ネットワークMN
Jに対応するSIMプロファイルSP
Jを使用して、モバイル事業者ネットワークMN
Jに接続し通信を行っているものとする。
【0033】
ステップ702において、ユーザ端末100の学習モデル102を構成するメインネットワークの入力層にユーザ端末100の状態stが入力される。状態stの入力を受け、学習モデル102は、ステップ704において、メインネットワークの出力層の各ノードから、ユーザ端末100が状態stにおいてSIMプロファイルSP1~SPN(ただし、Nは2以上の整数であり、ユーザ端末100に装着されているSIMカード110に保持されているSIMプロファイルの総数を表す)をそれぞれ選択した場合の行動価値Qmain(st,ai)(i=1,2,…,N)を出力する。例えば、出力層のノード1からは、ユーザ端末100がSIMプロファイルSP1を選択すなわち行動a1を行った場合の行動価値Qmain(st,a1)が出力され、ノード2からは、ユーザ端末100がSIMプロファイルSP2を選択すなわち行動a2を行った場合の行動価値Qmain(st,a2)が出力され、以下同様である。なお、出力層のノード数はSIMカード110内のSIMプロファイルの数と同数である。
【0034】
ここで、ユーザ端末100の学習モデル(メインネットワークおよびターゲットネットワーク)102は、ユーザ端末100が現在使用しているSIMプロファイルSPJに対して最大の行動価値を出力するように学習が行われているものとする。続くステップ706において、ユーザ端末100は、ステップ704で得られた全ての行動価値のうち最大の行動価値Qmain(st,aJ)に対応する行動aJと、ユーザ端末100の状態stとを含むユーザ端末情報を、現在使用しているモバイル事業者ネットワークのU-planeを介してSIMプロファイル切替装置400へ送信する。ステップ708において、SIMプロファイル切替装置400のユーザ端末情報管理部402は、このユーザ端末情報を取得する。
【0035】
次にステップ710において、SIMプロファイル切替装置400の通信状況管理部404は、モバイル通信システム10における複数のモバイル事業者ネットワークの各々についての通信状況を判定する。ステップ712において、SIMプロファイル切替装置400の報酬決定部406は、ユーザ端末情報管理部402からユーザ端末情報を、また通信状況管理部404から各モバイル事業者ネットワークの通信状況を取得し、ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好であるか否かに応じて、ユーザ端末100の学習モデル102を更新するための報酬Rt+1を決定する。例えば、ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好である場合は、そのモバイル事業者ネットワークのSIMプロファイルを選択する行動aJに対する報酬値が最大となるように、またユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好でない場合は、通信状況が良好な別の(例えばK(≠J)番目の)モバイル事業者ネットワークのSIMプロファイルを選択する行動aKに対する報酬値が最大となるように、報酬Rt+1が決定される。
【0036】
次にステップ714において、SIMプロファイル切替装置400の送信部408は、ステップ712で決定された報酬Rt+1と、状態stにおいてユーザ端末100が行動aJをとった場合における遷移後のユーザ端末100の状態st+1とをユーザ端末100へ送信する。さらにステップ716において、ユーザ端末100の学習モデル102に対する更新指示(後述参照)が、SIMプロファイル切替装置400からユーザ端末100へ送信される。
【0037】
次にステップ718において、学習モデル102の更新に用いる行動価値を得るため、ユーザ端末100の学習モデル102を構成するもう一方のニューラルネットワークであるターゲットネットワークの入力層に、ユーザ端末100の次の状態st+1が入力される。この入力を受け、ステップ720において、学習モデル102のターゲットネットワークは、ステップ704におけるメインネットワークと同様に、その出力層の各ノードから、状態st+1に関する各行動aiの行動価値Qtarget(st+1,ai)を出力する。
【0038】
次にステップ722において、ターゲットネットワークから出力された行動価値を用いて、ユーザ端末100の学習モデル102におけるメインネットワークの更新が行われる。更新は、ステップ716でSIMプロファイル切替装置400からユーザ端末100へ送られた更新指示の内容に従う。更新指示の内容は、SIMプロファイル切替装置400の報酬決定部406によって決定された報酬Rt+1と連動している。具体的に、(A)ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好である場合は、ターゲットネットワークから出力された行動価値のうち最大の行動価値maxaiQtarget(st+1,ai)=Qtarget(st+1,aJ)が、メインネットワークの更新に用いられる(maxaiは全てのとり得る行動aiに関する最大値を表す)。一方、(B)ユーザ端末100が現在使用しているモバイル事業者ネットワークの通信状況が良好でない場合には、ターゲットネットワークから出力された行動価値のいずれが最大であるかにかかわらず、通信状況が良好なK番目のモバイル事業者ネットワークのSIMプロファイルに対応する行動価値Qtarget(st+1,aK)が、メインネットワークの更新に用いられる。具体的な更新式は次のとおりである。メインネットワークは、次式の損失関数Eが最小になるように学習が行われる。
【0039】
【0040】
ここで、γは時間割引率である。このように、ステップ722では、モバイル事業者ネットワークの通信状況に応じ、上式(1)または(2)に従って、ユーザ端末100の学習モデル102におけるメインネットワークの更新(すなわちニューラルネットワークのパラメータの調整)が行われる。その後、再びステップ702から722が繰り返され、メインネットワークの学習が進む。また所定回数の繰り返しごとに、ステップ722の後のステップ724において、ターゲットネットワークのパラメータがメインネットワークのパラメータと同期される。
【0041】
このようにして学習された学習モデル102を用いて、ユーザ端末100は使用するSIMプロファイルの選択を行うことができる。具体的に、ステップ704に続いてステップ726へ進むことができ、このステップ726において、ユーザ端末100のSIMプロファイル選択部104は、ステップ704で得られた全ての行動価値Qmain(st,ai)の中から最大の行動価値を選択し、その最大の行動価値に対応するSIMプロファイルを、最適なSIMプロファイルと決定する。次いで、ステップ728において、ユーザ端末100の通信部106は、SIMプロファイル選択部104によって選択されたSIMプロファイルを用いて、そのSIMプロファイルに対応するモバイル事業者ネットワークと通信する。こうして、ユーザ端末100は、SIMカード110に保持された複数のSIMプロファイルの中からモバイル事業者ネットワークの通信状況に応じた最適なSIMプロファイルを選択して、通信を行うことができる。
【0042】
以上、本発明の実施形態を説明したが、本発明はこれに限定されず、その要旨を逸脱しない範囲内において様々な変更が可能である。
【符号の説明】
【0043】
10 モバイル通信システム
100 ユーザ端末
102 学習モデル
104 SIMプロファイル選択部
106 通信部
110 SIMカード
200 無線アクセスネットワーク
300 コアネットワーク
400 SIMプロファイル切替装置
402 ユーザ端末情報管理部
404 通信状況管理部
406 報酬決定部
408 送信部
500 インターネット
MN1、MN2 モバイル事業者ネットワーク
SP1、SP2 SIMプロファイル