IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7079059ネットワーク管理システムおよびプログラム
<>
  • 特許-ネットワーク管理システムおよびプログラム 図1
  • 特許-ネットワーク管理システムおよびプログラム 図2
  • 特許-ネットワーク管理システムおよびプログラム 図3
  • 特許-ネットワーク管理システムおよびプログラム 図4
  • 特許-ネットワーク管理システムおよびプログラム 図5
  • 特許-ネットワーク管理システムおよびプログラム 図6
  • 特許-ネットワーク管理システムおよびプログラム 図7
  • 特許-ネットワーク管理システムおよびプログラム 図8
  • 特許-ネットワーク管理システムおよびプログラム 図9
  • 特許-ネットワーク管理システムおよびプログラム 図10
  • 特許-ネットワーク管理システムおよびプログラム 図11
  • 特許-ネットワーク管理システムおよびプログラム 図12
  • 特許-ネットワーク管理システムおよびプログラム 図13
  • 特許-ネットワーク管理システムおよびプログラム 図14
  • 特許-ネットワーク管理システムおよびプログラム 図15
  • 特許-ネットワーク管理システムおよびプログラム 図16
  • 特許-ネットワーク管理システムおよびプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-24
(45)【発行日】2022-06-01
(54)【発明の名称】ネットワーク管理システムおよびプログラム
(51)【国際特許分類】
   H04L 41/40 20220101AFI20220525BHJP
   H04L 45/85 20220101ALI20220525BHJP
   H04M 3/00 20060101ALI20220525BHJP
【FI】
H04L41/40
H04L45/85
H04M3/00 D
【請求項の数】 4
(21)【出願番号】P 2019049033
(22)【出願日】2019-03-15
(65)【公開番号】P2020150518
(43)【公開日】2020-09-17
【審査請求日】2021-02-03
【早期審査対象出願】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100114258
【弁理士】
【氏名又は名称】福地 武雄
(74)【代理人】
【識別番号】100125391
【弁理士】
【氏名又は名称】白川 洋一
(72)【発明者】
【氏名】黒木 圭介
【審査官】中川 幸洋
(56)【参考文献】
【文献】特開2017-200172(JP,A)
【文献】特開2010-263442(JP,A)
【文献】宮澤 高也他,ネットワーク仮想化における強化学習に基づく動的リソースマイグレーション機構の提案,電子情報通信学会技術研究報告,Vol.116 No.322,日本,一般社団法人電子情報通信学会,2016年11月17日,79~84
(58)【調査した分野】(Int.Cl.,DB名)
H04L 41/40
H04L 45/85
H04M 3/00
(57)【特許請求の範囲】
【請求項1】
サービスまたは目的分けて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムであって、
前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する監視機能部と、
前記監視機能部からネットワークパラメータの変更依頼があったときに、ネットワークのパラメータ変更の内容を行動として記述した行動情報、並びにパラメータを調整する目的、パラメータを調整する場合の環境、利用される報酬の付与条件およびその報酬を記述した目的情報を用いて、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定するパラメータ算出機能部と、
前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する設定機能部と、を備え、
前記パラメータ算出機能部は、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、
前記監視機能部は、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、
前記パラメータ算出機能部は、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とするネットワーク管理システム。
【請求項2】
前記各論理ネットワークのトラフィックを蓄積するトラフィック保持部と、
前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する複数の模写ネットワークと、をさらに備え、
前記パラメータ算出機能部は、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行することを特徴とする請求項1記載のネットワーク管理システム。
【請求項3】
サービスまたは目的分けて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムのプログラムであって、
監視機能部において、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する処理と、
パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、ネットワークのパラメータ変更の内容を行動として記述した行動情報、並びにパラメータを調整する目的、パラメータを調整する場合の環境、利用される報酬の付与条件およびその報酬を記述した目的情報を用いて、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定する処理と、
設定機能部において、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する処理と、の一連の処理をコンピュータに実行させ、
前記パラメータ算出機能部において、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、
前記監視機能部において、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、
前記パラメータ算出機能部において、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報を選定することを特徴とするプログラム。
【請求項4】
トラフィック保持部において、前記各論理ネットワークのトラフィックを蓄積する処理と、
複数の模写ネットワークにおいて、前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する処理と、
前記パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行する処理と、をさらに実行することを特徴とする請求項3記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムおよびプログラムに関する。
【背景技術】
【0002】
次世代モバイル通信規格である5Gにおいては、通信要件の異なる様々なサービスが収容されることが予想される。多彩なサービス要件を1つのネットワークに収容する場合において、全ての要件を満足するために、あらゆる機能を具備したネットワーク機器でネットワーク全体を構築すると、非常にコストがかかりサービス毎の運用が非常に煩雑になる。そこでサービスや目的毎にネットワークを論理的に分けるネットワークスライスという技術が期待されており、それが実現できれば、単一の物理ネットワークにおいて、互いに影響し合わない論理ネットワークを、必要な時に必要な分だけ構築できる。
【0003】
また、例えば、特許文献1には、動的なサービス品質パラメータ値の設定を、より正確に行なうための発明が開示されている。QoSパラメータ値などは一般的に固定値であるが、本来は、トポロジ変更やトラフィックの状況に応じて変更すべきものであることから、特許文献1では、O&Mサーバが定期的に基地局を監視し、NWトポロジ状態、QoS値、トラフィック量を取得し、更に呼制御のレスポンス情報(レスポンス率、レスポンス時間など)もNWレベルに加え、アプリレベルでの品質をチェックするように構成している。O&Mサーバ内には取得した情報からQoS値を最適化すべきかどうかを判断する分析部が存在し、最適化後のQoSパラメータを計算し、設定を行なうことで、動的なパラメータ変更を可能にしている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2014-003476号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ネットワークスライスを用いた場合において、各々のサービス要件が満たされるように、各々の論理ネットワークのパラメータを決定することは非常に複雑になることも予想される。また、将来自動運転などをサポートするネットワークなどでは、品質の低下は大事故に直結する可能性があり、ネットワーク環境が変化した場合でも、品質の担保のためにサービス毎に動的に最適なネットワークパラメータを設定することも求められる可能性がある。また、特許文献1記載の技術では、目的毎にパラメータを設定することができない。
【0006】
本発明は、このような事情に鑑みてなされたものであり、サービスや、目的毎にネットワークが論理的に分かれており、または、サービスや目的ごとにネットワークのパラメータを変更する必要があるネットワークにおいて、目的毎に、その目的に関連がある環境データを管理することで、最適なネットワークパラメータを強化学習の利用によって決定し、必要に応じ動的にネットワークパラメータを再設定することができるネットワーク管理システムおよびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のネットワーク管理システムは、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムであって、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する監視機能部と、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定するパラメータ算出機能部と、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する設定機能部と、を備え、前記パラメータ算出機能部は、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、前記監視機能部は、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、前記パラメータ算出機能部は、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とする。
【0008】
(2)また、本発明のネットワーク管理システムは、前記各論理ネットワークのトラフィックを蓄積するトラフィック保持部と、前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する複数の模写ネットワークと、をさらに備え、前記パラメータ算出機能部は、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行することを特徴とする。
【0009】
(3)また、本発明のプログラムは、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムのプログラムであって、監視機能部において、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する処理と、パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定する処理と、設定機能部において、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する処理と、の一連の処理をコンピュータに実行させ、前記パラメータ算出機能部において、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、前記監視機能部において、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、前記パラメータ算出機能部において、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とする。
【0010】
(4)また、本発明のプログラムは、トラフィック保持部において、前記各論理ネットワークのトラフィックを蓄積する処理と、複数の模写ネットワークにおいて、前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する処理と、前記パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行する処理と、をさらに実行することを特徴とする。
【発明の効果】
【0011】
本発明によれば、目的やサービス毎に論理的に分けられたネットワークにおいて、それぞれの論理ネットワークに強化学習を通じて、動的にパラメータを決定することが可能となる。
【図面の簡単な説明】
【0012】
図1】第1の実施形態に係るネットワーク管理システムの概略構成を示す図である。
図2】監視システムの概略構成を示す図である。
図3】パラメータ算出システムの概略構成を示す図である。
図4】設定システムの概略構成を示す図である。
図5】構成情報の一例を示す図である。
図6】性能情報の一例を示す図である。
図7】SLA情報の一例を示す図である。
図8】行動情報の一例を示す図である。
図9】目的情報の一例を示す図である。
図10】ノードコマンド情報の一例を示す図である。
図11】第1の実施形態に係るネットワーク管理システムのパラメータ算出動作を示すシーケンスチャートである。
図12】報酬テーブルの一例を示す図である。
図13】第2の実施形態に係るネットワーク管理システムの概略構成を示す図である。
図14】トラフィック保持システム21の概略構成を示す図である。
図15】トラフィックの一例を示す図である。
図16】第2の実施形態に係るネットワーク管理システムの動作を示すフローチャートである。
図17】第2の実施形態に係るネットワーク管理システムの動作を示すフローチャートである。
【発明を実施するための形態】
【0013】
本発明者は、サービスや、目的毎にネットワークが論理的に分かれており、または、サービスや目的ごとにネットワークのパラメータを変更する必要があるネットワークにおいて、目的毎に、その目的に関連がある環境データを管理し、最適なネットワークパラメータを強化学習の利用によって決定することに着目し、必要に応じて、動的にネットワークパラメータを再設定することを見出し、本発明に至った。
【0014】
すなわち、本発明のネットワーク管理システムは、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムであって、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する監視機能部と、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定するパラメータ算出機能部と、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する設定機能部と、を備え、前記パラメータ算出機能部は、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、前記監視機能部は、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、前記パラメータ算出機能部は、前記環境通知とその前の環境通知とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とする。
【0015】
これにより、本発明者は、目的やサービス毎に論理的に分けられたネットワークにおいて、それぞれの論理ネットワークに強化学習を通じて、動的にパラメータを決定することを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。
【0016】
[第1の実施形態]
図1は、第1の実施形態に係るネットワーク管理システムの概略構成を示す図である。ネットワーク管理システム1は、監視機能部としての監視システム3、パラメータ算出機能部としてのパラメータ算出システム5、設定機能部としての設定システム7を備えている。これらの構成要素はスイッチ9によって接続されており、相互に通信することが可能となっている。
【0017】
物理ネットワーク11は、実際に設置されているルータや伝送装置などで構成されているネットワークである。第1の論理ネットワーク13および第2の論理ネットワーク17は、物理ネットワーク11上で通信帯域などのネットワークリソース、CPU、メモリなどのコンピューティングリソースなどを倫理的に分け、それらで構成されたネットワークのことである。
【0018】
図1に示すように、携帯電話15用の論理ネットワークが、第1の論理ネットワーク13であり、携帯電話15は、基地局10を介して、第1の論理ネットワーク13で提供されるサービスを受けることが可能である。車19用の論理ネットワークが第2の論理ネットワーク17であり、車19は、基地局10を介して、第2の論理ネットワーク17で提供されるサービスを受けることが可能である。ただし、これはあくまでも例示であって、本発明は、これらの態様に限定されるわけではない。また、監視システム3、パラメータ算出システム5、設定システム7は、各論理ネットワークにアクセスすることができ、監視や設定を行なうことができるように構成されている。
【0019】
図2は、監視システムの概略構成を示す図である。監視システム3は、構成情報3a、性能情報3b、SLA(Service Level Agreement)情報3および通信部3dから構成されている。各論理ネットワークの構成情報、SLA情報3cを論理ネットワーク毎に保持し、性能情報3bにおいては、論理ネットワークを構成する要素毎に保持している。構成情報3aは、図5に示すように、論理ネットワーク毎に、その論理ネットワークがどのような要素を含んで構成されているかを示すものである。ただし、図5に示すような形式でなく、JSONやXMLなどで記述される形式でも構わない。性能情報3bは、図6に示すように、論理ネットワークを構成するノードなどの各要素からトラフィック量、負荷、遅延などを格納している。
【0020】
SLA情報3cは、図7に示すように、論理ネットワーク毎のSLAが格納されており、性能情報3bなどから、SLAが満たされているかどうかの判定結果も含んでいる。通信部3dは、各システムや論理ネットワークへのアクセスなど、外部との通信に利用され、構成情報3aや性能情報3bは、定期的にこの通信部3dを経由して取得され、もしくは格納される。このため、構成情報3aが変更された場合に追随し、また、性能情報3bを最新情報に保つことができている。
【0021】
SLA情報3cは、人などが論理ネットワーク毎に設定したものであり、性能情報3bを参照し、そのSLAが満たされているかどうかを、監視システム3が判断し、その判定結果を格納している。なお、判定のアルゴリズムなどは本発明では問わない。また、監視システム3は、判定結果がNGとなった時、すなわちSLAが満たされないと判断された時、対象となる論理ネットワークと、パラメータ変更の目的を伝えることによって、動的なパラメータ変更のアルゴリズムを実行する契機とすることが可能である。
【0022】
図3は、パラメータ算出システムの概略構成を示す図である。パラメータ算出システム5は、強化学習にてパラメータを算出する算出部5aと、その算出に利用する行動情報5bと目的情報5cを保持する。行動情報5bとは、図8に示すように、ネットワークのパラメータ変更の内容を、行動として記述したものである。この行動情報5bは、人などが事前に準備することが想定されている。目的情報5cとは、図9に示すように、パラメータを調整する目的と、それを実施する場合の測定対象(環境)および、強化学習実施時に利用される報酬を与える条件とその報酬が記述されている。この目的情報5cについても、事前に準備することが想定されている。報酬条件の数式は、例として示しているだけでこれに限らない。パラメータ算出システム5の通信部5dは、各システムとの通信に利用される。具体的には、通信部5dは、算出されたパラメータに基づいて、実際にパラメータの変更を設定システム7へ依頼するなどの信号を出力する。
【0023】
パラメータ算出システム5は、パラメータ変更の際、最適なパラメータ値を強化学習により算出する。強化学習とは、ある行動をとった場合の状態を、行動を取る前の状態と比較し、行動をとった価値を大きくしていくという機械学習の一種である。以下はQ学習という強化学習でパラメータを算出する場合の例である。(式1)は、一般的なQ学習の更新式を示している。
【0024】
【数1】
上記の(式1)において、ある時間tの環境s_tにおいて、行動a_tを実行し、報酬r_tを受け取り、環境がs_(t+1)を観測し、行動価値Qを更新するということを示している。なおαは学習率、γは割引率と言われる。
【0025】
図4は、設定システムの概略構成を示す図である。設定システム7は、論理ネットワークのパラメータを変更するための設定を作成する設定作成部7aを持ち、その際、実際の設定に関わるコマンド情報などはノードコマンド情報7bを参照して作られる。ノードコマンド情報7bとは、図10に示すように、論理ネットワークを構成するノード毎のパラメータを変更する場合のコマンド情報が記載されており、パラメータ変更のために設定を行なう場合に参考にする情報である。設定システム7の通信部7cは、各システムや論理ネットワークへのアクセスなど、外部との通信に利用され、パラメータ変更の設定などはこの通信部7cを経由して実行される。
【0026】
図11は、本実施形態に係るネットワーク管理システムのパラメータ算出動作を示すシーケンスチャートである。ここでは一例として、第1の論理ネットワーク13のSLAが条件を満たさなくなったことを監視システム3が検知し(ステップS1、S2)、監視システム3がパラメータ算出システム5にパラメータ変更依頼を送出した場合(ステップS3)を示している。監視システム3からパラメータ変更依頼を受け取ったパラメータ算出システム5は(ステップS3)、パラメータ変更の目的を目的情報から選択する。その後、目的情報を参照して観測すべき環境(測定対象)として、パラメータ算出システム5は、内部に環境DBを作成する。
【0027】
次に、パラメータ算出システム5は、環境DBにセットされた情報について現時点での情報を監視システム3に確認し、監視システム3は初期環境通知を行ない(ステップS4、S5)、初期値を決定し、登録する。次に、パラメータ算出システム5は、行動をランダムに選択し(1)、設定システム7にパラメータ変更を依頼する(2)(ステップS6)。設定システム7は、設定を作成し(3)、第1の論理ネットワーク13に設定を入力する(2)(ステップS7)。そして、設定システム7は、設定完了通知をパラメータ算出システム5に通知する(5)(ステップS8)。
【0028】
パラメータ算出システム5は、パラメータ変更が終了したら、行動の結果として、監視システムを経由して、環境を観測し(6)、観測した環境を通知し(7)(ステップS9、S10)、目的情報の報酬条件式を参照して、報酬を与える(8)。
【0029】
上記の行動選択(1)から報酬を与えるまでの動作(8)を規定回数、若しくは終了条件などを事前に定め、その終了条件に合致するまで繰り返す(9)。そして、図12に示すような報酬テーブルを更新するまでを「エピソード」と呼ぶこととする(10)。エピソード完了後はパラメータを初期状態に戻し(11)(ステップS11)、再度(1)~(8)を繰り返し、次のエピソードを実行する(ステップS12、S13)。このエピソードを図11に示す(1)~(14)を繰り返すことで、報酬テーブルは更新されていき、ある状態における次の行動は何が良いかが学習されていく。例えば、報酬テーブルが図12のようであるとき、状態Aの時は最も報酬が大きな行動2を選択するのが経験的に良く、その結果状態Bに以降した場合は行動4を選択するのが良いということが分かる。
【0030】
エピソードが規定回数繰り返された後、若しくは終了条件などを事前に定め、例えば環境観測の結果、SLAを満たす結果が見つかった時点で完了というものを終了条件にし、それに合致するまで繰り返して完了としても良いし、Q値が10000以上となった場合に学習完了とし、それを設定システム経由で設定して完了となる(ステップS14~S17)。
【0031】
このように、監視システムからの「SLA NG」をきっかけとし、パラメータの変更を行なうことで、動的なパラメータ変更を実現できる。また、目的別に取得すべき環境情報などを管理することで、ネットワークスライスなどの目的(要件)の異なる多くの論理ネットワークのパラメータ変更にも対応することができる。なお、行動選択のランダム性の確保には「ε-greedy法」などを取る手法が多く活用されるが、本発明では、ランダム性確保の方法については限定しない。
【0032】
[第2の実施形態]
第1の実施形態では、論理ネットワークの設定を変えながら、強化学習を行ない、価値の高い行動すなわち、SLAが満たされるようになるパラメータ変更方法を示した。しかし、実際のネットワークでは、商用として動作している論理ネットワークのパラメータを変更しながら学習するのは、品質が悪化する場合があることを考慮すると難しい。第2の実施形態では、このような不都合を解消するものである。
【0033】
図13は、第2の実施形態に係るネットワーク管理システムの概略構成を示す図である。第2の実施形態に係るネットワーク管理システム20は、トラフィック保持システム21を備え、第1の模写ネットワーク23および第2の模写ネットワーク25を想定している。その他の構成は、第1の実施形態と同様である。本実施形態において、模写ネットワークとは、論理ネットワークを別の環境に模写したものである。模写の方法としては、仮想化やエミュレータ等が考えられるが、本発明においては模写の方法については特に限定されない。第1の模写ネットワーク23は、第1の論理ネットワーク13に対応しており、第2の模写ネットワーク25は、第2の論理ネットワーク17に対応している。一般化すると、模写ネットワークの番号は論理ネットワークの番号と関連しており、模写ネットワークnは論理ネットワークnを模写したものとする。
【0034】
監視システム3は、各論理ネットワークに加え、各模写ネットワークも監視し、設定システム7も論理ネットワークに加え、模写ネットワークの設定を変更できる。
【0035】
図14は、トラフィック保持システム21の概略構成を示す図である。トラフィック保持システム21は、トラフィックデータ21a、および通信部21bを備え、商用で動作する各論理ネットワークにおいて、論理ネットワーク毎にトラフィックをキャプチャし、蓄積する。例えば、図15に示すように、曜日と時間帯に区切って論理ネットワーク毎に直近一週間のトラフィックを蓄積するシステムである。また、模写ネットワークに対して、トラフィック保持システム21から該当のトラフィックを流すことで、商用に近い環境を模写するネットワークとして動作させる。
【0036】
図16および図17は、第2の実施形態に係るネットワーク管理システムの動作を示すフローチャートである。模写ネットワークは、事前に人などが構築しておくことを想定している(ステップT1)。その後、監視システム3が各模写ネットワークと関連する論理ネットワークを監視し(ステップT2)、各論理ネットワークのSLAは満たされているかどうかを判断する(ステップT3)。ステップT3において、各論理ネットワークのSLAは満たされている場合は、ステップT2へ遷移する一方、いずれかの論理ネットワークのSLAが満たされていないと判断した場合は、パラメータ変更依頼をパラメータ算出システム5へ通知する(ステップT4)。
【0037】
次に、パラメータ算出システム5は、パラメータ変更依頼に基づいて、目的情報および論理ネットワーク構成情報を抽出し(ステップT5)、目的を選択して環境DBを作成(ステップT6)、トラフィック保持システム21に対して、対応する模写ネットワークへ現在のトラフィック流入依頼を行なう(ステップT7)。そして、模写ネットワーク上での強化学習が実行される。すなわち、トラフィック保持システム21から模写ネットワークへトラフィックを流入し、パラメータ算出システム5へ通知する(ステップT9)。パラメータ算出システム5は、模写ネットワークの初期値を確認し(ステップT8)、監視システム3は、模写ネットワークの性能情報を参照して、初期値をパラメータ算出システム5に通知する(ステップT10)。
【0038】
パラメータ算出システム5は、環境DBへ初期値を登録し(ステップT11)、行動を選択して、設定システム7へ行動依頼を行なう(ステップT12)。設定システム7は、設定を作成し(ステップT13)、模写ネットワークへ設定を入力し(ステップT14)、設定入力完了通知をパラメータ算出システム5に行なう(ステップT15)。パラメータ算出システム5は、模写ネットワークの環境を確認し(ステップT16)、監視システム3は、模写ネットワークの性能情報を参照してパラメータ算出システム5に環境通知として通知する(ステップT18)。
【0039】
パラメータ算出システム5は、行動価値を計算し(ステップT17)、終了条件が満たされたかどうかを判断する(ステップT19)。ステップT19において、終了条件が満たされていない場合は、ステップT12へ遷移する一方、終了条件が満たされた場合は、報酬テーブルを更新する(ステップT20)。そして、パラメータ算出システム5は、設定システム7に対してパラメータの初期化依頼を行ない(ステップT21)、設定システム7は、設定を作成し(ステップT22)、模写ネットワークのパラメータを初期化して(ステップT23)、パラメータ算出システム5に対して初期化完了通知を行なう(ステップT24)。
【0040】
パラメータ算出システムは、エピソードが完了したかどうかを判断し(ステップT25)、エピソードが完了していない場合は、ステップT12へ遷移する。一方、ステップT12において、エピソードが完了した場合は、パラメータ算出システム5は、最終パラメータを決定し(ステップT26)、最終パラメータ設定依頼を設定システム7に行なう(ステップT27)。設定システム7は、設定を作成し(ステップT28)、模写ネットワークのパラメータを対応する論理ネットワークへ設定する(ステップT29)。設定システム7は、設定入力完了通知をパラメータ算出システム5に行ない(ステップT30)、パラメータ算出システム5は、パラメータ設定完了通知を監視システム3に通知し(ステップT31)、監視システム3は、SLAを確認する(ステップT32)。
【0041】
次に、監視システム3は、論理ネットワークのSLAは満たされているかどうかを判断し(ステップT33)、満たされている場合は、ステップT38へ遷移する一方、満たされていない場合は、再依頼フラグをONとし(ステップT34)、トラフィック停止依頼をトラフィック保持システム21へ行なう(ステップT35)。トラフィック保持システム21は、該当する模写ネットワークへのトラフィックを停止してその旨を監視システム3へ通知する(ステップT36)。監視システム3は、再依頼フラグがOFFであるかどうかを判断し(ステップT37)、OFFでない場合、すなわち、再依頼フラグがONである場合は、ステップT4へ遷移する。一方、ステップT37において、再依頼フラグがOFFである場合は、完了する。
【0042】
以上説明したように、本実施形態によれば、目的やサービス毎に論理的に分けられたネットワークにおいて、それぞれの論理ネットワークに強化学習を通じて、動的にパラメータを決定することができる。
【符号の説明】
【0043】
1 ネットワーク管理システム
3 監視システム
3a 構成情報
3b 性能情報
3c SLA情報
3d 通信部
5 パラメータ算出システム
5a 算出部
5b 行動情報
5c 目的情報
5d 通信部
7 設定システム
7a 設定作成部
7b ノードコマンド情報
7c 通信部
9 スイッチ
10 基地局
11 物理ネットワーク
13 第1の論理ネットワーク
15 携帯電話
17 第2の論理ネットワーク
19 車
20 ネットワーク管理システム
21 トラフィック保持システム
21a トラフィックデータ
21b 通信部
23 第1の模写ネットワーク
25 第2の模写ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17