(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024048696
(43)【公開日】2024-04-09
(54)【発明の名称】ネットワーク疑似障害発生システム、ネットワーク疑似障害発生方法およびプログラム
(51)【国際特許分類】
H04L 41/16 20220101AFI20240402BHJP
H04M 3/26 20060101ALI20240402BHJP
H04L 41/06 20220101ALI20240402BHJP
【FI】
H04L41/16
H04M3/26 C
H04L41/06
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022154759
(22)【出願日】2022-09-28
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(72)【発明者】
【氏名】宮坂 拓也
(57)【要約】
【課題】ネットワーク障害に関して、高精度なAI/ML学習モデルの訓練を行うことができるネットワーク疑似障害発生システムを提供する。
【解決手段】ネットワークに含まれるノードの疑似障害を発生させる障害発生部と、前記ノードの前記疑似障害に関する情報を記憶する情報データベースと、前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行うAI/ML訓練部と、前記学習モデルの検知精度を評価するAI/ML評価部と、前記AI/ML評価部の評価結果に基づいて、前記障害発生部によって発生させる前記疑似障害の態様を判断する障害判断部と、を備えるネットワーク疑似障害発生システム。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ネットワークに含まれるノードの疑似障害を発生させる障害発生部と、
前記ノードの前記疑似障害に関する情報を記憶する情報データベースと、
前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行うAI/ML訓練部と、
前記学習モデルの検知精度を評価するAI/ML評価部と、
前記AI/ML評価部の評価結果に基づいて、前記障害発生部によって発生させる前記疑似障害の態様を判断する障害判断部と、
を備えるネットワーク疑似障害発生システム。
【請求項2】
前記AI/ML評価部の評価結果に基づいて、前記検知精度が閾値と比べて不足していると判定した場合に前記疑似障害の発生が必要であると判断し、前記検知精度が閾値と比べて不足していないと判定した場合に前記疑似障害の発生が不要であると判断するノード管理部を備える、
請求項1に記載のネットワーク疑似障害発生システム。
【請求項3】
前記検知精度は、前記ノード、時間帯、および、障害の項目のうちの1以上の単位ごとに定められる、
請求項1または請求項2に記載のネットワーク疑似障害発生システム。
【請求項4】
さらに前記ノードを備え、
前記ノードは、発生させる前記疑似障害の態様に基づいて、リアルタイムの判断として、前記疑似障害を発生するか否かを判断する、
請求項1または請求項2に記載のネットワーク疑似障害発生システム。
【請求項5】
前記ノードは、緊急呼が処理されている場合に、前記疑似障害を発生しないことを判断する、
請求項4に記載のネットワーク疑似障害発生システム。
【請求項6】
前記ノードは、前記疑似障害を発生させたときには補償しているSLAに違反すると判定した場合に、前記疑似障害を発生しないことを判断する、
請求項4に記載のネットワーク疑似障害発生システム。
【請求項7】
障害発生部が、ネットワークに含まれるノードの疑似障害を発生させ、
情報データベースが、前記ノードの前記疑似障害に関する情報を記憶し、
AI/ML訓練部が、前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行い、
AI/ML評価部が、前記学習モデルの検知精度を評価し、
障害判断部が、前記AI/ML評価部の評価結果に基づいて、前記障害発生部によって発生させる前記疑似障害の態様を判断する、
ネットワーク疑似障害発生方法。
【請求項8】
コンピューターに、
ネットワークに含まれるノードの疑似障害を発生させる障害発生機能と、
AI/ML評価部の評価結果に基づいて、前記障害発生機能によって発生させる前記疑似障害の態様を判断する障害判断機能と、
を実現するためのプログラムであって、
情報データベースが、前記ノードの前記疑似障害に関する情報を記憶し、
AI/ML訓練部が、前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行い、
前記AI/ML評価部が、前記学習モデルの検知精度を評価する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ネットワーク疑似障害発生システム、ネットワーク疑似障害発生方法およびプログラムに関する。
【背景技術】
【0002】
通信事業者が提供するネットワークサービスにおいて高品質な通信品質を維持するためにAI(Artificial Intelligence)/ML(Machine Learning)を活用したネットワーク運用が期待されている。
特に、ネットワークで日々発生するネットワーク障害の検知および障害の原因特定のためにAI/ML技術を活用することにより、高品質な通信品質を維持することができる。
【0003】
ネットワークのうち、最新のモバイルネットワークである5Gのモバイルコア(5GC)においては、サービスベイスドアーキテクチャ(Service Based Architecture)を採用しており、クラウドネイティブなアーキテクチャとなっている。
クラウドネイティブなアーキテクチャにおいては、カオスエンジニアリング(Chaos Engineering)という、商用ネットワークにおいて意図的に疑似障害を発生させ、システムが意図した動作をしているか検証する手法が用いられている。
【0004】
特許文献1では、カオスエンジニアリングを実現するために必要な、コンピューターシステムにおいて疑似障害を発生させるシステムに関して記述している(特許文献1参照。)。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1では、AI/MLのための学習モデル訓練のために疑似障害を利用するための手法については規定されていない。
【0007】
また、AI/ML技術を活用したネットワーク上で発生するネットワーク障害の検知および原因特定の利用が求められる一方で、商用のネットワークにおいて障害が発生することは稀なため、ネットワーク障害時のネットワーク内の各設備の十分な統計データを取得できず、このため、ネットワーク障害の検知および原因特定のための高精度なAI/ML学習モデルの訓練を行うことができない。
統計データとしては、例えば、CPU(Central Processing Unit)の利用率、あるいは、メモリーの利用率などがある。
【0008】
本開示は、このような事情を考慮してなされたもので、ネットワーク障害に関して、高精度なAI/ML学習モデルの訓練を行うことができるネットワーク疑似障害発生システム、ネットワーク疑似障害発生方法およびプログラムを提供することを課題とする。
【課題を解決するための手段】
【0009】
一構成例として、ネットワークに含まれるノードの疑似障害を発生させる障害発生部と、前記ノードの前記疑似障害に関する情報を記憶する情報データベースと、前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行うAI/ML訓練部と、前記学習モデルの検知精度を評価するAI/ML評価部と、前記AI/ML評価部の評価結果に基づいて、前記障害発生部によって発生させる前記疑似障害の態様を判断する障害判断部と、を備えるネットワーク疑似障害発生システムである。
【0010】
一構成例として、障害発生部が、ネットワークに含まれるノードの疑似障害を発生させ、情報データベースが、前記ノードの前記疑似障害に関する情報を記憶し、AI/ML訓練部が、前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行い、AI/ML評価部が、前記学習モデルの検知精度を評価し、障害判断部が、前記AI/ML評価部の評価結果に基づいて、前記障害発生部によって発生させる前記疑似障害の態様を判断する、ネットワーク疑似障害発生方法である。
【0011】
一構成例として、コンピューターに、ネットワークに含まれるノードの疑似障害を発生させる障害発生機能と、AI/ML評価部の評価結果に基づいて、前記障害発生機能によって発生させる前記疑似障害の態様を判断する障害判断機能と、を実現するためのプログラムであって、情報データベースが、前記ノードの前記疑似障害に関する情報を記憶し、AI/ML訓練部が、前記情報データベースに記憶された情報に基づいてAI/MLの学習モデルの訓練を行い、前記AI/ML評価部が、前記学習モデルの検知精度を評価する、プログラムである。
【発明の効果】
【0012】
本開示に係るネットワーク疑似障害発生システム、ネットワーク疑似障害発生方法およびプログラムによると、ネットワーク障害に関して、高精度なAI/ML学習モデルの訓練を行うことができる。
【図面の簡単な説明】
【0013】
【
図1】実施形態に係るネットワーク疑似障害発生システムを含む通信システムの概略的な構成を示す図である。
【
図2】実施形態に係るネットワーク疑似障害発生システムを含む通信システムの機能ブロックの構成を示す図である。
【
図3】実施形態に係る疑似障害対象ノードリストの一例を示す図である。
【
図4】実施形態に係る障害情報テーブルの一例を示す図である。
【
図5】実施形態に係る通信システムにおける疑似障害処理の流れの一例を示す図である。
【
図6】実施形態に係る疑似障害対象となるNWノードの選定処理の手順の一例を示す図である。
【
図7】実施形態に係る疑似障害実行処理の手順の一例を示す図である。
【
図8】実施形態に係る学習関連処理の手順の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照し、本開示の実施形態について説明する。
本実施形態では、AI/MLという語を用いて説明するが、AI/MLの代わりに機械学習などと呼ばれてもよい。
【0015】
[通信システム]
図1は、実施形態に係るネットワーク疑似障害発生システムA1を含む通信システム1の概略的な構成を示す図である。
通信システム1は、ネットワーク管理ノード(NW管理ノード)11と、疑似障害管理ノード12と、AI/ML管理ノード13と、情報データベース14と、AMF(Access & Mobility Management Function)21と、SMF(Session Management Function)22と、NF(Network Function)23と、UPF(User Plane Function)24と、UE(User Equipment)31~33と、基地局51を含むRAN(Radio Access Network)41と、データネットワーク(Data Network)61と、を備える。
【0016】
図1の例では、疑似障害管理ノード12がネットワーク上で疑似障害Q1~Q4を意図的に発生させる手順P1、情報データベース14により疑似障害時のデータを収集する手順P2、および、AI/ML管理ノード13が高精度な学習モデルを訓練する手順P3を模式的に示してある。
【0017】
本実施形態では、ネットワーク疑似障害発生システムA1は、NW管理ノード11と、疑似障害管理ノード12と、AI/ML管理ノード13と、情報データベース14を備える。
【0018】
図2は、実施形態に係るネットワーク疑似障害発生システムA1を含む通信システム1の機能ブロックの構成を示す図である。
図2は、
図1に示される通信システム1の機能ブロックの構成を示す。
なお、
図2では、
図1に示される一部の構成を概略化して示してある。
【0019】
図2には、NW管理ノード11と、疑似障害管理ノード12と、AI/ML管理ノード13と、情報データベース14と、NWノード231~233を含む管理対象ネットワーク211と、を示してある。
NW管理ノード11は、ノード管理部111と、AI/ML管理部112と、を備える。
疑似障害管理ノード12は、障害判断部121と、障害発生部122と、を備える。
AI/ML管理ノード13は、AI/ML訓練部131と、AI/ML評価部132と、を備える。
情報データベース14は、統計情報141と、障害情報142と、を記憶する。
【0020】
ここで、
図2の例では、
図1に示されるNW管理ノード11、疑似障害管理ノード12、AI/ML管理ノード13および情報データベース14以外の構成部については、管理対象ネットワーク211として示してある。
また、NWノード231~233は、例えば、
図1に示されるUE31~33、基地局51、あるいは、各インスタンスなどであってもよい。
【0021】
図2の例に関し、各ノードおよび各機能について説明する。
管理対象ネットワーク211は、ある通信事業者が通信サービスのために構築および運用しているネットワークであり、AI/MLによるネットワーク運用を適用する対象のネットワークである。
ここで、AI/MLによるネットワーク運用の具体例としては、ネットワーク障害の検知および原因特定などが含まれる。
ネットワークの種類としては、特に制限されず、構成要素であるNWノード231~233に疑似障害を発生させることが可能であり、構成要素であるNWノード231~233から統計情報が取得可能であればよい。
具体的には、ネットワークは、例えば、5Gなどの基地局またはモバイルコア設備で構成されるモバイルネットワーク、あるいは、FTTH(Fiber To The Home)などのルーターなどで構成されるIP(Internet Protocol)ネットワークなどがあげられる。
【0022】
NWノード231~233は、管理対象ネットワーク211を構成する要素である。
本実施形態では、1個または複数個のNWノード231~233が物理的、論理的に接続されることにより、管理対象ネットワーク211が構築されている。
NWノード231~233としては、特に限定はなく、例えば、サーバー、ルーター、あるいは、端末などであってもよい。
【0023】
NW管理ノード11は、管理対象ネットワーク211のNWノード231~233を管理するノードである。
【0024】
ノード管理部111は、NW管理ノード11の構成要素であり、管理対象ネットワーク211の内部に存在するNWノード231~233の情報を管理するノードである。
NWノード231~233の情報には、例えば、ノードの名称(ノード名)、ノードの識別情報(ノードID)、ノードのIPアドレス、利用OS(Operating System)の名称またはバージョン、利用ソフトウェアの名称またはバージョン、設定コンフィグ情報、現在の運用状況などが含まれ得る。
【0025】
AI/ML管理部112は、NW管理ノード11の構成要素であり、AI/MLによるネットワーク運用のために、それぞれのNWノード231~233に対してAI/ML学習モデルの訓練状態を管理する。
訓練状態には、訓練された学習モデル、学習モデルのバージョン、学習モデルの検知精度などの状態が含まれ得る。
【0026】
疑似障害管理ノード12は、管理対象ネットワーク211において疑似障害の発生を管理するノードである。
本実施形態では、疑似障害とは、管理対象ネットワーク211上で意図的に発生させるネットワーク障害のことを指す。
【0027】
障害判断部121は、疑似障害管理ノード12の構成要素であり、発生させる疑似障害の詳細情報を判断する。
疑似障害の詳細情報には、疑似障害を発生させるNWノード、疑似障害の内容、障害発生時刻が含まれ得る。
疑似障害の内容としては、例えば、CPUの高騰、あるいは、ネットワークポート閉塞などがある。
【0028】
障害発生部122は、疑似障害管理ノード12の構成要素であり、障害判断部121により決定された疑似障害の詳細情報に基づいて、疑似障害をNWノード231~233において実行させる。
【0029】
AI/ML管理ノード13は、NWノード231~233の統計情報に基づいてAI/MLによるネットワーク運用のための学習モデルを訓練し、その学習モデルの精度を評価する。
【0030】
AI/ML訓練部131は、AI/ML管理ノード13の構成要素であり、情報データベース14に格納された各種情報からAI/MLによるネットワーク運用のための学習モデルを訓練する。
【0031】
AI/ML評価部132は、AI/ML管理ノード13の構成要素であり、AI/ML訓練部131によって訓練されたAI/MLによるネットワーク運用のための学習モデルの精度を評価する。
【0032】
情報データベース14は、管理対象ネットワーク211に関する各種情報を管理するデータベースである。
情報データベース14は、このような情報を収集して記憶(記録)する。
【0033】
統計情報141は、管理対象ネットワーク211のNWノード231~233から送信されるノードに関する統計情報である。
統計情報141には、NWノード231~233のリソース利用状況に関する情報、NWノード231~233が提供するサービスに関する情報が含まれ得る。
ここで、NWノード231~233のリソース利用状況に関する情報としては、例えば、CPU利用率が含まれ、NWノード231~233が提供するサービスに関する情報としては、毎秒あたりの受信リクエスト数が含まれる。
【0034】
障害情報142は、管理対象ネットワーク211において発生したネットワーク障害に関する情報である。
当該情報には、ネットワーク障害が発生したNWノードの名称(NWノード名)、ネットワーク障害種別、ネットワーク障害開始時刻、ネットワーク障害終了時刻が含まれ得る。
本実施形態では、ネットワーク障害に関しては、例えば、疑似障害管理ノード12の障害発生部122によって発生したネットワーク障害と、自然に発生したネットワーク障害と、の両方を含む。
【0035】
[疑似障害対象ノードリスト]
図3は、実施形態に係る疑似障害対象ノードリスト2011の一例を示す図である。
疑似障害対象ノードリスト2011には、最終的に疑似障害対象となるノード(NWノード名)の一覧が記述される。
図3の例では、疑似障害対象ノードリスト2011に、「NWノード1」、「NWノード3」、「NWノード4」、「NWノード5」が記述されている。
【0036】
[疑似障害情報テーブル]
図4は、実施形態に係る障害情報テーブル2021の一例を示す図である。
障害情報テーブル2021は、NWノード名と、疑似障害の障害内容と、障害発生時刻と、結果と、を対応付けて格納する。
図4の例では、「NWノード1」というNWノード名と、「CPU高騰」という障害内容と、「2025/05/01 22:30:00」という障害発生時刻と、「〇」という結果と、が対応付けられている。
【0037】
障害内容としては、他の例として、「ノード再起動」、「プロセスクラッシュ」、「ネットワークポート閉塞」などもある。
「結果」としては、疑似障害の発生が実行されたことを表す「〇」と、疑似障害の発生が実行されなかったことを表す「×」がある。
【0038】
ここで、本実施形態におけるAI/MLによる学習モデルの精度について説明する。
本実施形態では、AI/MLによる学習モデルによる検知の精度(検知精度)が評価され、評価の結果(評価精度)が得られる。
【0039】
このような精度は、例えば、ノード、時間、項目などに関して、任意の単位ごとに求められてもよい。
例えば、精度は、それぞれのノード(1個のノード)ごとに求められてもよい。
例えば、精度は、任意の時間帯ごとに求められてもよい。当該時間帯としては、例えば、それぞれの開始時刻および終了時刻が定められた、「朝」、「昼」、「晩」などであってもよい。
例えば、精度は、「CPU高騰」、「ノード再起動」などのように障害内容(障害の項目)ごとに求められてもよい。
【0040】
精度は、ノード、時間、項目などのうちの2以上について定められた単位ごとに求められてもよく、一例として、あるノード、かつ、ある時間帯、かつ、ある障害内容(障害の項目)ごとに求められてもよい。
また、精度は、例えば、ノードは定められているが、他の要素(時間、項目など)については任意でよいという単位で求められてもよい。
また、精度は、例えば、時間は定められているが、他の要素(ノード、項目など)については任意でよいという単位で求められてもよい。
また、精度は、例えば、項目は定められているが、他の要素(ノード、時間など)については任意でよいという単位で求められてもよい。
【0041】
なお、障害情報テーブル2021は、例えば、それぞれのNWノード名ごとに、検知精度の評価結果(評価精度)を格納していてもよい。
このような精度は、例えば、パーセント(%)を用いて表されてもよく、他の指標により表されてもよい。
【0042】
[疑似障害処理]
図5は、実施形態に係る通信システム1における疑似障害処理の流れの一例を示す図である。
図5を参照して、管理対象ネットワーク211において疑似障害を発生させるための手順の一例を示す。
図5には、NW管理ノード11、疑似障害管理ノード12、情報データベース14、および、NWノード231を示してある。
図5の例では、疑似障害を発生させる対象がNWノード231である場合を示すが、他の対象についても同様である。
【0043】
(処理T1)
疑似障害管理ノード12は、処理を開始する。
【0044】
(手順1:処理T31)
疑似障害管理ノード12は、疑似障害対象ノードリストの取得依頼をNW管理ノード11に送信する。
【0045】
(手順2:処理T11)
NW管理ノード11は、当該取得依頼を受信すると、疑似障害対象の一覧を確認する。
ここで、NW管理ノード11は、疑似障害対象となるNWノードを選定して、疑似障害対象ノードリストを生成する。
図3に示される疑似障害対象ノードリスト2011は、最終的な疑似障害対象ノードリストの具体例である。
【0046】
(手順3:処理T32)
NW管理ノード11は、生成された疑似障害対象ノードリストを疑似障害管理ノード12に提供する。
【0047】
(手順4:処理T2)
疑似障害管理ノード12は、NW管理ノード11から受信した疑似障害対象ノードリストに基づいて、今回発生させる疑似障害の詳細情報を決定する。
ここで、
図4に示される障害情報テーブル2021における「結果」以外の情報が、疑似障害の詳細情報の例である。
疑似障害の詳細情報は、例えば、疑似障害を発生させるNWノード、疑似障害の内容(例えば、CPU高騰、あるいは、ネットワークポート閉塞など)、障害発生時刻、が含まれる。
【0048】
なお、障害内容の決定に関しては、本実施形態において特に制限しないが、例えば、対象のNWノードが現在実行可能な疑似障害よりランダムに決定する手法、または、現在訓練されている学習モデルの精度結果より最も効果的な疑似障害を判定し、その疑似障害を実行する手法などが用いられてもよい。
また、疑似障害の障害発生時刻の決定に関しては、本実施形態において特に制限しないが、例えば、NWノード毎にランダムに時刻を決定する手法、NWノードのユーザー利用状況を考慮し、ユーザーへの通信影響が最小限となる時刻を障害発生時刻とする手法、または、現在訓練されている学習モデルの精度結果より最も効果的な障害発生時刻を判定する手法などが用いられてもよい。
【0049】
(手順5:処理T33)
疑似障害管理ノード12は、決定した疑似障害の詳細情報に従い、疑似障害を発生させるNWノード231に対して疑似障害の実行(疑似障害の発生)を依頼する。
ここで、依頼内容には、例えば、発生させる障害内容、障害発生時刻が含まれる。
図4に示されるように、複数のNWノードが対象である場合、疑似障害管理ノード12は、各NWノードに対して並列に依頼を行う。
【0050】
(手順6:処理T21)
NWノード231は、疑似障害管理ノード12より指定された疑似障害を実行する処理を行う。
なお、NWノード231は、状況に応じて、当該疑似障害を実行しない場合がある。
【0051】
(手順7:処理T34)
NWノード231は、自己の統計情報を情報データベース14に記録する。
ここで、本手順では、例えば、障害発生後に今まで記録されていたすべての統計情報を情報データベース14に記録する手法、または、定期的に自己の統計情報を情報データベース14に記録する手法などが用いられてもよい。
【0052】
(手順8:処理T35)
NWノード231は、実行された疑似障害の実行結果を疑似障害管理ノード12に報告する。
ここで、報告内容には、例えば、実行結果が含まれ、また、手順6において疑似障害を実行していた場合には実際の疑似障害の発生時刻を含む。
なお、本実施形態では、
図4に示される障害情報テーブル2021における障害発生時刻は、予定の時刻である。
【0053】
(手順9:処理T36)
手順9は、NWノード231において疑似障害が実行されていた場合にのみ行われる。
手順9では、疑似障害管理ノード12は、疑似障害情報を情報データベース14に記録する。
疑似障害情報には、例えば、ネットワーク障害が発生したNWノード名、ネットワーク障害種別、ネットワーク障害開始時刻、ネットワーク障害終了時刻が含まれる。
【0054】
以上により、疑似障害管理ノード12は、AI/MLによるネットワーク運用のための学習モデルを訓練するために、管理対象ネットワーク211において疑似障害の発生を管理することができる。
ここで、
図5に示される一連の処理は、例えば、それぞれのNWノードに関して繰り返し実行される。具体例として、1週間ごとに1回、または、1日ごとに1回などの任意のタイミングで、
図5に示される一連の処理が定期的に行われてもよい。
【0055】
[手順2における疑似障害対象となるNWノードの選定]
図6は、実施形態に係る疑似障害対象となるNWノードの選定処理の手順の一例を示す図である。本手順は、
図5に示される処理T11の手順の一例である。
図6を参照して、詳細な選定アルゴリズムの例を示す。
【0056】
(ステップS1)
NW管理ノード11のノード管理部111は、登録されているすべてのNWノードをリストアップし、このリストから1個ずつNWノードを選択する。
そして、ステップS2の処理へ移行する。
【0057】
ここで、本実施形態では、登録されているすべてのNWノードを含むリストを用いてステップS1の処理(NWノードの選択)を行う場合を示すが、他の例として、これらすべてのNWノードではなく、所定の一部のNWノードのみを含むリストを用いてステップS1の処理(NWノードの選択)を行う態様が用いられてもよい。
【0058】
(ステップS2)
NW管理ノード11のノード管理部111は、選択したNWノードについて、疑似障害発生対象であるか否かを現在の学習モデル精度から確認(判定)する。
【0059】
具体的には、ノード管理部111は、対象のNWノードに関して、訓練されたAI/MLの学習モデルの評価精度が基準の閾値(求められる精度)と比べて不足しているかどうか確認(判定)する。
この結果、ノード管理部111は、現在の精度が不足している(求められる精度より低い)と判定した場合には(ステップS2:YES)、疑似障害の発生が必要であると判断し、ステップS3の処理へ移行する。
一方、この結果、ノード管理部111は、現在の精度が十分である(求められる精度より高い)と判定した場合には(ステップS2:NO)、疑似障害の発生が不要であると判断し、ステップS4の処理へ移行する。
【0060】
ここで、精度(評価精度)としては、例えば、ノード、時間、項目などに関して、あらかじめ定められた単位ごとの精度が用いられる。
また、評価精度に関する基準の閾値としては、特に限定はなく、例えば、90パーセントなどの精度の値が用いられてもよい。
【0061】
(ステップS3)
NW管理ノード11のノード管理部111は、該当するNWノードを疑似障害対象ノードリストに追加する。
そして、ステップS4の処理へ移行する。
【0062】
(ステップS4)
NW管理ノード11のノード管理部111は、本フローの処理を終了するか否かを判定する。
この結果、ノード管理部111は、本フローの処理を終了することを判定した場合には(ステップS4:YES)、本フローの処理を終了する。
一方、ノード管理部111は、本フローの処理を終了しないことを判定した場合には(ステップS4:NO)、ステップS1の処理へ移行して、次のNWノードを選択する。ここで、ノード管理部111は、すべてのNWノードを選択していない場合には、本フローの処理を終了しないことを判定する。
【0063】
このように、NW管理ノード11は、一連の動作をすべてのNWノードに関して確認し、疑似障害を発生させるNWノードの対象リストを決定する。
【0064】
[手順6における疑似障害実行処理]
図7は、実施形態に係る疑似障害実行処理の手順の一例を示す図である。
図7を参照して、詳細なアルゴリズムの例を示す。
【0065】
(ステップS11)
NWノード231は、疑似障害実行依頼を受領した場合、ステップS12の処理へ移行する。
【0066】
(ステップS12)
NWノード231は、指定された疑似障害発生時刻まで待機する。
そして、ステップS13の処理へ移行する。
【0067】
(ステップS13)
NWノード231は、リアルタイムで(つまり、例えば、予定された疑似障害発生時刻よりも所定時間だけ前に)疑似障害の実行が可能であるか否かを確認(判定)する。
この判定の結果、NWノード231は、疑似障害の実行が可能であると判定した場合には(ステップS13:YES)、ステップS14の処理へ移行する。
一方、この判定の結果、NWノード231は、疑似障害の実行が可能ではないと判定した場合には(ステップS13:NO)、本フローの処理を終了する。つまり、NWノード231は、疑似障害が発生不可能な状態である場合には、疑似障害を発生させずに本フローの処理を終了する。
【0068】
ここで、NWノード231が疑似障害を実行可能であるか否かを判定する手法としては、本実施形態において特に制限しないが、例えば、該当するNWノード231において通信事業者の運用者が何らかの作業を実施している場合に疑似障害が実行不可能であると判定する手法、緊急呼が(例えば、一時的に)該当するNWノード231上で処理されている場合に疑似障害が実行不可能であると判定する手法、または、疑似障害を発生させたときにはユーザーに補償しているSLA(Service Level Agreement)に違反する可能性が高い場合に疑似障害が実行不可能であると判定する手法などが用いられてもよい。
【0069】
ここで、緊急呼がNW上で処理されているか否かを判定する手法として、例えば、NW上における緊急呼用のセッションの数が所定数(例えば、1)以上である場合に緊急呼がNW上で処理されていると判定する手法が用いられてもよい。
また、SLAに違反する可能性が高いか否かを判定する手法として、例えば、所定のアクセス(例えば、電話の呼び出し)が所定の時間に所定の回数以上(例えば、1時間に5回以上)拒否された場合にSLAに違反する可能性が高いと判定する手法が用いられてもよい。
【0070】
また、緊急呼に関する判定、あるいは、SLAに関する判定のように、疑似障害を実行可能であるか否かの判定は、例えば、該当するNWノード231によって単独で行われてもよく、あるいは、当該NWノード231以外の任意の装置(例えば、他のノード)によって行われて、その判定結果が当該NWノード231に通知されることで、当該NWノード231が通知内容に応じて疑似障害を実行可能であるか否かを判定してもよい。
【0071】
また、
図4の例では、複数の疑似障害の予定があり、障害発生時刻(予定)が異なる2以上の疑似障害が存在する。この場合、例えば、障害発生時刻(予定)が異なるそれぞれの疑似障害ごとに、疑似障害の実行が可能であるか否かの判定が行われてもよい。
また、例えば、障害発生時刻(予定)が同じである2以上の疑似障害についても、それぞれの疑似障害ごとに、疑似障害の実行が可能であるか否かの判定が行われてもよい。
【0072】
(ステップS14)
NWノード231は、疑似障害を発生させ、本フローの処理を終了する。つまり、NWノード231は、疑似障害が発生可能な状態である場合には、指定された内容(例えば、CPU高騰など)の疑似障害を発生させて本フローの処理を終了する。
【0073】
なお、本実施形態では、ステップS13の処理において、NWノード231は、リアルタイムで疑似障害の実行が可能ではないと判定した場合には、本フローの処理を終了する構成を示したが、他の例として、このような場合には、
図4に示される障害情報テーブル2021における該当する障害発生時刻(予定)を所定の時間だけ延期して本フローの処理を終了する構成が用いられてもよい。
【0074】
[学習関連処理]
図8は、実施形態に係る学習関連処理の手順の一例を示す図である。
図8を参照して、AI/ML管理ノード13において、あるNWノードのAI/MLによるネットワーク運用のための学習モデルを訓練する処理の例を示す。
【0075】
(処理T111)
AI/ML管理ノード13は、処理を開始する。
【0076】
(手順1:処理T131)
AI/ML管理ノード13は、情報データベース14に対して、AI/MLによるネットワーク運用のための学習モデルを訓練するために、学習モデルの訓練対象となるNWノードに関する統計情報および障害情報の取得依頼を情報データベース14に送信して要求する。
ここで、当該情報の取得期間に関しては、本実施形態において特に制限しないが、例えば、すべての期間の情報を依頼する手法、または、特定の期間のみを指定して依頼する手法などが用いられてもよい。
【0077】
(手順2:処理T132)
情報データベース14は、AI/ML管理ノード13により指定された情報(統計情報および障害情報)を取得して、当該情報をAI/ML管理ノード13に対して送信して提供する。
【0078】
(手順3:処理T112)
AI/ML管理ノード13は、取得した情報からAI/MLによるネットワーク運用のための学習モデルの訓練を実行する。
【0079】
(手順4:処理T113)
AI/ML管理ノード13は、AI/MLによるネットワーク運用のための学習モデルの精度の評価を実行する。
なお、当該学習モデルの精度(検知精度)は、障害(ここでは、疑似障害を含む。)に基づく訓練が行われるたびに変化し得る。
また、当該学習モデルの精度(検知精度)は、例えば、ネットワークの構成が変化すると変化し得る。
ネットワークの構成は、例えば、当該ネットワークに含まれるノードの追加あるいは削除などにより変化する。
【0080】
ここで、本実施形態では、訓練の手法あるいは評価の手法に関して特に制限しない。
本実施形態では、例えば、情報データベース14により取得されたデータベースのデータを訓練用のデータセットと評価用のデータセットに一定の割合で分割して、訓練用のデータセットによりAI/MLによるネットワーク運用のための学習モデルを訓練し、その学習モデルを用いて評価用のデータセットにより障害検知および障害原因特定の精度を評価する手法などが用いられてもよい。
【0081】
(手順5:処理T133)
AI/ML管理ノード13は、NW管理ノード11に対して、現在の対象NWノードに関する学習モデルの訓練状況を送信する。
ここで、訓練状況には、例えば、NWノードの情報、訓練された学習モデル、学習モデルのバージョン、学習モデルの検知精度が含まれる。
【0082】
以上により、疑似障害時の統計情報に基づいて高精度なAI/MLによるネットワーク運用のための学習モデルを訓練し、その訓練状況をNW管理ノード11に対して送信する。
ここで、
図8に示される一連の処理は、例えば、それぞれのNWノードに関して繰り返し実行される。具体例として、1時間ごとに1回、または、1日ごとに1回などの任意のタイミングで、
図8に示される一連の処理が定期的に行われてもよい。
【0083】
なお、
図8の例では、自然の障害結果(つまり、疑似障害ではない障害の結果)と、疑似障害の結果と、を区別せずに、学習モデルの訓練および精度の評価が行われる場合を示したが、例えば、学習モデルの訓練と、精度の評価との一方または両方において、自然の障害結果と、疑似障害の結果とが区別される態様が用いられてもよい。
例えば、疑似障害の結果を用いて学習モデルの訓練を行い、自然の障害結果を用いて当該学習モデルの精度の評価を行う、構成が用いられてもよい。
【0084】
また、
図8の例では、AI/ML学習モデルの訓練(処理T112)と、AI/ML学習モデルの精度評価(処理T113)と、が一連の処理として行われる場合を示したが、これらの処理は、それぞれ、独立に任意のタイミングで行われてもよい。
つまり、
図8とは別の例として、AI/ML学習モデルの訓練は、任意のタイミングで行われてもよい。同様に、
図8とは別の例として、AI/ML学習モデルの精度評価は、任意のタイミングで行われてもよい。
【0085】
以上のように、本実施形態に係る通信システム1におけるネットワーク疑似障害発生システムA1では、疑似障害をネットワーク上で発生させることにより、高精度なAI/MLによるネットワーク運用のための学習モデルのための統計情報を取得することができ、これにより、当該学習モデルを訓練することができる。本実施形態に係るネットワーク疑似障害発生システムA1では、ネットワーク障害に関して、高精度なAI/ML学習モデルの訓練を行うことができる。
本実施形態に係るネットワーク疑似障害発生システムA1では、疑似障害の発生を適正にコントロールして、高精度な学習モデルを訓練することができる。
【0086】
本実施形態に係るネットワーク疑似障害発生システムA1では、このような疑似障害の発生情報をデータベースへ保存することを行う。
本実施形態に係るネットワーク疑似障害発生システムA1では、AI/MLによるネットワーク運用のための学習モデルの訓練時に、訓練状況をNW管理ノード11に送信することを行う。
【0087】
本実施形態に係るネットワーク疑似障害発生システムA1では、AI/MLによるネットワーク運用のための学習モデルの精度状況を確認しながら疑似障害を発生させることにより、無駄な疑似障害ならびに学習モデルの過学習を防ぐことができる。
本実施形態に係るネットワーク疑似障害発生システムA1では、NW管理ノード11が、AI/MLによるネットワーク運用のための学習モデルの精度状況を確認し、疑似障害の発生対象を判断することを行う。
【0088】
本実施形態に係るネットワーク疑似障害発生システムA1では、疑似障害発生前(例えば、その直前)にそのNWノードにおいて現在(リアルタイムで)疑似障害の発生が可能かどうかを確認することで、通信サービスに過大な影響を与えることを防ぐことができる。
【0089】
本実施形態に係るネットワーク疑似障害発生システムA1では、ネットワーク上において、ネットワーク障害の検知および原因特定のための高精度なAI/ML学習モデルを訓練するために、疑似障害を発生させるノードを導入した。
そして、本実施形態に係るネットワーク疑似障害発生システムA1では、疑似障害をネットワーク内で発生させることにより、ネットワーク障害の検知および原因特定のための高精度なAI/ML学習モデルを訓練することができる。
また、本実施形態に係るネットワーク疑似障害発生システムA1では、過学習の防止のために、高精度なモデルの訓練が完了したノードに関しては、疑似障害を発生させることを停止する。
また、本実施形態に係るネットワーク疑似障害発生システムA1では、あるノードが現在(リアルタイムで)疑似障害を許容するか否かを確認したうえで、疑似障害を発生させる。
【0090】
このように、本実施形態に係るネットワーク疑似障害発生システムA1では、疑似障害によるAI/MLによる学習モデルの訓練を行う。
【0091】
ここで、
図1および
図2に示される通信システム1およびネットワーク疑似障害発生システムA1の構成は、一例であり、これらの例に限定されない。
例えば、本実施形態では、NW管理ノード11、疑似障害管理ノード12、AI/ML管理ノード13、および、情報データベース14がそれぞれ別々の装置により構成される場合を示したが、他の例として、これらのうちの2以上(すべてでもよい。)が一体化されて構成されてもよい。
【0092】
また、本実施形態では、ネットワーク疑似障害発生システムA1が管理対象ネットワーク211とは別のネットワークに存在する場合を示したが、他の構成例として、ネットワーク疑似障害発生システムA1の一部または全部が管理対象ネットワーク211に存在する構成が用いられてもよい。
【0093】
また、本実施形態に係るネットワーク疑似障害発生システムA1により疑似障害を発生させるネットワークとしては、必ずしも5Gのネットワークに限定されず、また、必ずしもモバイルのネットワークに限定されず、他の様々なネットワークに適用されてもよい。
【0094】
一構成例として、ネットワーク疑似障害発生システムA1は、ネットワーク(
図2の例では、管理対象ネットワーク211)に含まれるノード(
図2の例では、NWノード231~233)の疑似障害を発生させる障害発生部122と、ノードの疑似障害に関する情報を記憶する情報データベース14と、情報データベース14に記憶された情報に基づいてAI/MLの学習モデルの訓練を行うAI/ML訓練部131と、当該学習モデルの検知精度を評価するAI/ML評価部132と、AI/ML評価部132の評価結果に基づいて、障害発生部122によって発生させる疑似障害の態様を判断する障害判断部121と、を備える。
【0095】
一構成例として、ネットワーク疑似障害発生システムA1において、ノード管理部111は、AI/ML評価部132の評価結果に基づいて、検知精度が閾値と比べて不足している(例えば、閾値以下である、または、閾値未満である)と判定した場合に疑似障害の発生が必要であると判断し、検知精度が閾値と比べて不足していない(例えば、閾値を超える、または、閾値以上である)と判定した場合に疑似障害の発生が不要であると判断する。
【0096】
一構成例として、ネットワーク疑似障害発生システムA1において、検知精度は、ノード、時間帯、および、障害の項目のうちの1以上の単位ごとに定められる。
【0097】
一構成例として、ネットワーク疑似障害発生システムA1は、さらに、ノードを備える。そして、ノードは、発生させる疑似障害の態様に基づいて、リアルタイムの判断として、疑似障害を発生するか否かを判断する。
一構成例として、ノードは、緊急呼が処理されている場合に、疑似障害を発生しないことを判断する。
一構成例として、ノードは、疑似障害を発生させたときには補償しているSLAに違反すると判定した場合に、疑似障害を発生しないことを判断する。
ここで、ネットワーク疑似障害発生システムA1は、例えば、管理対象ネットワーク211の構成要素のうちの一部または全部を含むと捉えられてもよい。
【0098】
例えば、通信システム1およびネットワーク疑似障害発生システムA1において行われる一部または全部の処理を実行する方法(例えば、ネットワーク疑似障害発生方法)を提供することが可能である。
【0099】
例えば、通信システム1およびネットワーク疑似障害発生システムA1において行われる一部または全部の処理を実行する機能をコンピューターに実現するプログラムを提供することが可能である。
【0100】
[以上の実施形態について]
以上により、例えば無線ネットワークにおける総合的なサービス品質の向上を実現することができることから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。
【0101】
なお、以上に説明した任意の装置における任意の構成部の機能を実現するためのプログラムを、コンピューター読み取り可能な記録媒体に記録し、そのプログラムをコンピューターシステムに読み込ませて実行するようにしてもよい。なお、ここでいう「コンピューターシステム」とは、オペレーティングシステムあるいは周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD(Compact Disc)-ROM(Read Only Memory)等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークあるいは電話回線等の通信回線を介してプログラムが送信された場合のサーバーあるいはクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。当該揮発性メモリーは、例えば、RAM(Random Access Memory)であってもよい。記録媒体は、例えば、非一時的記録媒体であってもよい。
【0102】
また、上記のプログラムは、このプログラムを記憶装置等に格納したコンピューターシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピューターシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワークあるいは電話回線等の通信回線のように情報を伝送する機能を有する媒体のことをいう。
また、上記のプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、上記のプログラムは、前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイルであってもよい。差分ファイルは、差分プログラムと呼ばれてもよい。
【0103】
また、以上に説明した任意の装置における任意の構成部の機能は、プロセッサーにより実現されてもよい。例えば、実施形態における各処理は、プログラム等の情報に基づき動作するプロセッサーと、プログラム等の情報を記憶するコンピューター読み取り可能な記録媒体により実現されてもよい。ここで、プロセッサーは、例えば、各部の機能が個別のハードウェアで実現されてもよく、あるいは、各部の機能が一体のハードウェアで実現されてもよい。例えば、プロセッサーはハードウェアを含み、当該ハードウェアは、デジタル信号を処理する回路およびアナログ信号を処理する回路のうちの少なくとも一方を含んでもよい。例えば、プロセッサーは、回路基板に実装された1または複数の回路装置、あるいは、1または複数の回路素子のうちの一方または両方を用いて、構成されてもよい。回路装置としてはIC(Integrated Circuit)などが用いられてもよく、回路素子としては抵抗あるいはキャパシターなどが用いられてもよい。
【0104】
ここで、プロセッサーは、例えば、CPUであってもよい。ただし、プロセッサーは、CPUに限定されるものではなく、例えば、GPU(Graphics Processing Unit)、あるいは、DSP(Digital Signal Processor)等のような、各種のプロセッサーが用いられてもよい。また、プロセッサーは、例えば、ASIC(Application Specific Integrated Circuit)によるハードウェア回路であってもよい。また、プロセッサーは、例えば、複数のCPUにより構成されていてもよく、あるいは、複数のASICによるハードウェア回路により構成されていてもよい。また、プロセッサーは、例えば、複数のCPUと、複数のASICによるハードウェア回路と、の組み合わせにより構成されていてもよい。また、プロセッサーは、例えば、アナログ信号を処理するアンプ回路あるいはフィルター回路等のうちの1以上を含んでもよい。
【0105】
以上、この開示の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この開示の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0106】
1…通信システム、11…NW管理ノード、12…疑似障害管理ノード、13…AI/ML管理ノード、14…情報データベース、21…AMF、22…SMF、23…NP、24…UPF、31~33…UE、41…RAN、51…基地局、61…データネットワーク、111…ノード管理部、112…AI/ML管理部、121…障害判断部、122…障害発生部、131…AI/ML訓練部、132…AI/ML評価部、141…統計情報、142…障害情報、211…管理対象ネットワーク、231~233…NWノード、2011…疑似障害対象ノードリスト、2021…障害情報テーブル、A1…ネットワーク疑似障害発生システム