(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024118802
(43)【公開日】2024-09-02
(54)【発明の名称】ネットワークのデータ変化検知装置、方法及びプログラム
(51)【国際特許分類】
H04L 43/02 20220101AFI20240826BHJP
H04L 43/04 20220101ALI20240826BHJP
H04L 43/06 20220101ALI20240826BHJP
H04L 41/16 20220101ALI20240826BHJP
H04L 41/06 20220101ALI20240826BHJP
【FI】
H04L43/02
H04L43/04
H04L43/06
H04L41/16
H04L41/06
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023025314
(22)【出願日】2023-02-21
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】宮本 達史
(72)【発明者】
【氏名】宮坂 拓也
(57)【要約】
【課題】ネットワークの障害検知AIモデルを更新や再学習により見直す契機となる統計情報の変化を検知し、その原因を判定する。
【解決手段】正解ラベル作成機能部101はネットワークドメイン情報毎に正解ラベルデータを生成する。ネットワーク情報蓄積機能部103にはネットワークの統計情報が蓄積されている。データセット作成機能部102は、統計情報に変化が生じた日時及びネットワークドメイン情報で管理される事象が発生した日時に基づいて、統計情報が変化した原因を正解ラベルとして付与したデータセットを作成する。AIモデル作成機能部104は、データセットを教師あり機械学習アルゴリズムに適用してデータ変化検知AIモデルを作成する。データ変化判定機能部105は、データ変化検知AIモデルに基づいてデータ分布の変化を検知し、その原因を判定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ネットワークの統計情報に関するデータの変化を検知して原因を判定するネットワークデータの変化検知装置において、
ネットワークの統計情報を取得する手段と、
ネットワーク障害業務に固有のネットワークドメイン情報を取得する手段とを具備し、
前記統計情報及びネットワークドメイン情報に基づいて、ネットワークの障害検知AIモデルを見直す契機となる統計情報の変化及びその原因を判定することを特徴とするネットワークのデータ変化検知装置。
【請求項2】
前記ネットワークドメイン情報が、ネットワーク障害業務に固有の情報であって、通信ネットワークの運用業務において運用者が業務を遂行する際に参照する情報全般であり、前記統計情報に非日常的な変化を生じさせる原因となり得る事象を管理する情報であることを特徴とする請求項1に記載のネットワークのデータ変化検知装置。
【請求項3】
前記ネットワークドメイン情報が、計画作業情報、障害チケット情報、FM/PM/CMデータ及びトラフィック特性が変化するイベントカレンダー情報の少なくとも一つを含むことを特徴とする請求項2に記載のネットワークのデータ変化検知装置。
【請求項4】
訓練モード及び運用モードを具備し、
前記訓練モードでは、
前記統計情報に変化が生じた時刻と前記ネットワークドメイン情報で管理する事象の発生時刻とに基づいて、データ変化とネットワークドメイン情報との因果関係を表すデータセットを作成し、
前記データセットに基づいて、前記障害検知AIモデルを見直す契機となるデータ変化を検知して、その原因を判定するデータ変化検知AIモデルを作成することを特徴とする請求項1ないし3のいずれかに記載のネットワークのデータ変化検知装置。
【請求項5】
前記運用モードにおいて、
前記生成したデータ変化検知AIモデルに統計情報を適用して、前記障害検知AIモデルを見直す契機となるデータ変化を検知して、その原因を判定することを特徴とする請求項4に記載のネットワークのデータ変化検知装置。
【請求項6】
ネットワークの統計情報に関するデータの変化を検知して原因を判定するネットワークデータの変化検知方法において、
ネットワークの統計情報を取得し、
ネットワーク障害業務に固有のネットワークドメイン情報を取得し、
前記統計情報及びネットワークドメイン情報に基づいて、ネットワークの障害検知AIモデルを見直す契機となる統計情報の変化及びその原因を判定することを特徴とするネットワークのデータ変化検知方法。
【請求項7】
ネットワークの統計情報に関するデータの変化を検知して原因を判定するネットワークデータの変化検知プログラムにおいて、
ネットワークの統計情報を取得する手順と、
ネットワーク障害業務に固有のネットワークドメイン情報を取得する手順と、
前記統計情報及びネットワークドメイン情報に基づいて、ネットワークの障害検知AIモデルを見直す契機となる統計情報の変化及びその原因を判定する手順とをコンピュータに実行させることを特徴とするネットワークのデータ変化検知プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークのデータ変化検知装置、方法及びプログラムに係り、特に、ネットワークドメイン情報に基づいてデータ変化の原因を判定できるネットワークのデータ変化検知装置、方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、連続したデータから抽出される判定対象データと比較データとの異同に基づいて変化点を判定し、判定対象データの直前データが変化点と判定された数が所定の閾値より大きいか否かに基づいて、判定対象データが変化点であるか否かを判定する技術が開示されている。
【0003】
非特許文献1には、強化学習を用いて、エッジクラウド運用者の要求を考慮しつつ、データ特性の変化が発生した際に最適な適応手法を選択し、且つ適応時に必要となる最適なデータ量を選択する、エッジクラウドにおける障害予測のためのデータ特性変化への対処フレームワークが開示されている。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】論文"Automated Concept Drift Handling for Fault Prediction in Edge Clouds Using Reinforcement Learning", IEEE Transactions on Network and Service Management ( Volume: 19, Issue: 2, June 2022), Behshid Shayesteh; Chunyan Fu; Amin Ebrahimzadeh; Roch H. Glitho [https://ieeexplore.ieee.org/document/9718523]
【発明の概要】
【発明が解決しようとする課題】
【0006】
障害復旧業務においてAIを運用する中で、通信ネットワークのデータ分布やストリーミングデータの振る舞いは日々変化するため、これまで使えていた学習モデルが突如使えなくなることがある。そのため、AIの推論精度を維持するために、変化の原因に応じて学習モデルを適切な時期に適切な方法で見直したいという要望がある。
【0007】
例えば、データ特性の変化に対応するための対処方法を選択する際にはネットワークの統計情報が使用される。通信ネットワークでは障害以外に起因する作業や外部イベントによってもデータ変化が誘発され、それぞれのデータ変化原因に応じて障害検知AIモデルの最適な見直し方法を選択する必要がある。
【0008】
しかしながら、特許文献1及び非特許文献1のいずれにおいてもデータ変化の原因を特定できないため、障害検知AIモデルに対して必要な更新が行われない一方で不必要な更新が行われるなど、障害検知AIモデルを適切に見直すことができなかった。
【0009】
本発明の目的は、上記の技術課題を解決し、ネットワーク障害業務固有の情報を活用することで、データ分布の有意な変化及びその原因を判定し、障害検知AIモデルの見直しの時期及び方法を最適化できるネットワークのデータ変化検知装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記の目的を達成するために、本発明は、ネットワークのデータ変化を検知して原因を判定するネットワークのデータ変化検知装置において、ネットワークの統計情報を取得する手段と、ネットワーク障害業務に固有のネットワークドメイン情報を取得する手段と、統計情報及びネットワークドメイン情報に基づいて、ネットワークの障害検知AIモデルを見直す契機となる統計情報の変化及びその原因を判定する手段とを具備した。
【発明の効果】
【0011】
本発明によれば、ネットワークデータの分布や振る舞いの変化を検知し、変化の原因に応じて速やかに学習モデルを更新することで、ネットワーク運用業務を自動化するためのAIにおける推論精度を維持できるようになる。
【図面の簡単な説明】
【0012】
【
図1】本発明を適用したデータ変化検知部の機能ブロック図である。
【
図2】本発明を適用した障害検知AIモデル管理システムの機能ブロック図である。
【
図3】データ変化検知部の主要部の構成を示した機能ブロック図である。
【
図4】訓練モード時の動作を説明するための機能ブロック図である。
【
図5】運用モード時の動作を説明するための機能ブロック図である。
【
図6】データセットの例(その1)を示した図である。
【
図7】データセットの例(その2)を示した図である。
【
図8】データセットの例(その3)を示した図である。
【
図9】障害検知AIモデル管理システムの動作を示したシーケンスフローである。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は、本発明を適用したデータ変化検知部1の機能を説明するためのブロック図であり、ここではその後段に接続される既知のデータ変化対処部2の動作も併せて説明する。
【0014】
データ変化検知部1は、ネットワークドメイン情報及びネットワークデータの統計情報に基づいて、ネットワークの障害を検知するAI学習モデル(以下、障害検知AIモデルと表現する場合もある)を更新や再学習により見直す契機となる統計情報の特性変化を検知し、更にその原因を判定してデータ変化対処部2へ通知する。
【0015】
ここで、ネットワークドメイン情報とはネットワーク障害業務に固有の情報、すなわち通信ネットワークの運用業務において運用者が業務を遂行する際に参照する情報全般の総称であり、ネットワークデータの統計情報に非日常的な変化を生じさせる原因となり得る事象を管理する情報である。
【0016】
前記ネットワークドメイン情報には、計画作業情報、障害チケット情報、ネットワーク性能データ、トラフィック特性に影響を及ぼし得る各種イベントのカレンダー情報などが含まれる。前記統計情報には、トラフィック量、スループット数、セッション数、接続UE(端末)数、CPU使用率などの、ネットワークやネットワークノードに固有の統計情報が含まれる。
【0017】
データ変化対処部2は、統計情報に有意な特性変化が検知され、更にその原因が判定されると、特性変化の内容及びその原因に応じて障害検知AIモデルを更新等する対処を行う。本実施形態では特性変化の大小に応じて、AIモデルの再学習、既存AIモデルの切替、既存AIモデルの更新等が選択、実行される。
【0018】
このような構成において、データ変化検知部1は統計情報の特性に有意な変化が生じたことを検知するとネットワークドメイン情報を参照する。その結果、例えば計画作業情報の特定の日時においてネットワーク接続構成変更作業が行われていることが判明し、かつ両者に因果関係が認められると、特性変化の原因がネットワーク接続構成変更作業にあると判定する。特性変化の内容及びその原因はデータ変化対処部2へ通知される。
【0019】
図2は、本発明を適用した障害検知AIモデル管理システムの主要部の構成を示した機能ブロック図であり、前記データ変化検知部1及びデータ変化対処部2に加えて統計情報データベース(DB)3及び障害検知AI群4を主要な構成としている。
【0020】
このような障害検知AIモデル管理システムは、CPU,ROM,RAM,バス,インタフェース等を備えた少なくとも一台の汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
【0021】
本実施形態では、通信ネットワークが携帯電話やインターネット接続サービスを提供するためのルータやスイッチといった通信装置及び伝送線路を含む設備群であり、統計情報DB3は、それらの性能状態に関するPM(Performance Management:性能管理データ)データを収集し、これを運用者の監視業務に必要なKPI情報(Key Performance Indicator:重要業績評価指標)として変換・蓄積する。
【0022】
データ変化検知部1は、統計情報DB3よりKPIデータを収集し、運用者が監視業務に用いる専用システム5からネットワークドメイン情報を収集する。本実施形態では、ネットワーク構成管理システム501からCM(Configuration Management:構成管理データ)データを収集し、計画作業管理システム502から計画作業関連情報を収集し、障害チケット管理システム503からFM(Fault Management:障害管理データ)データを収集する。
【0023】
データ変化検知部1は更に、KPIデータの分布に関して有意な変化を検知すると、ネットワークドメイン情報を参照することでその原因を判定し、データ分布の変化の内容及びその原因をデータ変化対処部2へ通知する。
【0024】
データ変化対処部2は、前記通知されたデータ分布の変化内容及びその原因に基づいて、障害検知AIモデル群のうち、対応する障害検知AIモデルの見直し方法を選択し、選択結果に応じて更新や再学習等の見直しを実行する。
【0025】
本実施形態では、初めに(If)過去に経験したことのあるデータ変化であるか否かが判断される。(Then)経験したデータ変化であれば、最も類似度の高いデータ分布に該当する既存AIモデルを切り替える対処が実施される。
【0026】
さもなくば(Else if)、過去に経験したことがないデータ変化であるが、変化の最大値が閾値以内であれば、(Then)データ分布の変化が発生する前のデータも含めて、すなわちこれまでのデータ及び新しいデータの双方を用いてAIモデルを更新する対処が実施される。
【0027】
さもなくば(Else if)、データは変化しているが過去に対処できた実績あれば、(Then)対処は実施されない。
【0028】
さもなくば(Else Then)、データ分布が変化した以降の新しいデータのみを使ってAIモデルを新たに学習(再学習)する対処が実施される。
【0029】
図3は、前記データ変化検知部1の主要部の構成を示した機能ブロック図であり、正解ラベル作成機能部101、データセット作成機能部102、ネットワーク情報蓄積機能部103、AIモデル作成機能部104及びデータ変化判定機能部105を主要な構成としている。
【0030】
データ変化検知部1は、
図4に示すようにNW統計情報のKPIデータ及びネットワークドメイン情報に基づいて、AIモデル作成機能部104にデータ変化検知用のAI学習モデル(以下、データ変化検知AIモデル)を作成させる「訓練モード」と、
図5に示すように、データ変化判定機能部105がNW統計情報のKPIデータを前記データ変化検知AIモデルに適用することで前記障害検知AIモデルの見直し契機となる有意なデータ変化及びその原因を判定する「運用モード」とを備える。
【0031】
正解ラベル作成機能部101は、ネットワークドメイン情報毎に正解ラベルデータを生成する。ネットワークドメイン情報が計画作業情報であれば、計画作業の実施日時、内容、作業の対象ノード及びFM/CMデータを専用システムから収集して正解ラベルデータを生成する。
【0032】
ネットワーク情報蓄積機能部103には、ネットワークやノードの統計情報として、セッション数、スループット数、接続UE数、CPU使用率、パケットエラー率等が日時の分布データとして蓄積されている。
【0033】
データセット作成機能部102は、KPIデータの分布が有意に変化した日時に基づいて前記正解ラベルデータを参照し、データ分布の変化と因果関係が認められるネットワークドメイン情報を特定する。そして、KPIデータにおいて分布の変化が発生した日時、KPI名及び対象ノードに該当するものに対して、データ分布の変化が発生した原因を正解ラベルとして付与したデータセットを作成する。KPIデータの各項目は、統計情報の中から監視に必要な一部を予め運用者が選出し、その平均値、中央値、変化量(傾き)などを算出することにより決定される。
【0034】
図6は、データセット作成機能部102が作成するデータセットの例を示した図であり、ここでは通信設備areaASMF01のセッション数が、2022年12月8日0時2分0秒までは27万台で推移していたのに対して、同3分0秒では14万台まで減少し、それ以降も減少し続けており、セッション数のデータ分布が有意に変化していることが判る。
【0035】
一方、areaASMF01に関するネットワークドメインデータ情報として、同3分0秒頃からネットワーク構成情報が変更されていれば、areaASMF01におけるセッション数の変化がネットワーク構成情報の変更に起因していると判定できる。したがって、データセット作成機能部102は、12月8日0時3分0秒以降に収集されたデータサンプルに正解ラベルとして「ネットワーク構成変更」ラベルを付与し、AIモデル作成機能部104におけるデータ変化検知AIモデルの機械学習用のデータセットとして保存する。
【0036】
図7は、データセット作成機能部102が作成するデータセットの他の例を示した図であり、ここでは統計情報として通信設備「areaASMF01」のスループット数及び接続端末(Active UE)数に注目している。
【0037】
2022年12月8日17時3分0秒までは、スループット数及び接続端末数がそれぞれ約180万、約220万で安定的に推移していたのに対して、同4分0秒ではそれぞれ約190万、約270万に上昇し、それ以降も上昇してそれぞれ約380万、約330万へ推移していることから、ネットワークのデータ分布が有意に変化していることが判る。
【0038】
一方、areaASMF01に関するネットワークドメインデータ情報として、同4分0秒頃からイベント(花火大会)が予定されていたことから、areaASMF01におけるセッション数や接続端末数の有意な変化がイベントの実施に起因していると判定できる。したがって、データセット作成機能部102は12月8日17時4分0秒以降に収集されたデータサンプルに正解ラベルとして「イベント(花火大会)」ラベルを付与し、データ変化検知AIモデルの機械学習用のデータセットとして保存する。
【0039】
図8は、データセット作成機能部102が作成するデータセットの更に他の例を示した図であり、ここでは通信設備「areaASMF01」のCPU使用率及びパケットエラー率に注目して説明する。
【0040】
2022年12月8日21時43分0秒までは、CPU使用率及びパケットエラー率がそれぞれ30%,0%で推移していたのに対して、同45分0秒ではそれぞれ80%,10%に上昇し、それ以降も上昇し続けていることから、CPU使用率及びパケットエラー率のデータ分布が有意に変化していることが判る。
【0041】
一方、areaASMF01に関するネットワークドメインデータ情報として、同44分0秒頃から障害(CPU異常輻湊)が検知されていたことから、areaASMF01におけるCPU使用率及びパケットエラー率の有意な変化が障害(CPU異常輻湊)に起因していると判定できる。したがって、データセット作成機能部102は12月8日21時44分0秒以降に収集されたデータサンプルに正解ラベルとして「障害(CPU異常輻湊)」ラベルを付与し、データ変化検知AIモデルの機械学習用のデータセットとして保存する。
【0042】
図3へ戻り、AIモデル作成機能部104は、前記データセットを教師あり機械学習アルゴリズムに適用し、KPIデータのデータ分布に有意な変化が発生しているか否かの検知及びその原因判定を行うためのデータ変化検知AIモデルを作成する。
【0043】
データ変化判定機能部105は、上記の訓練モードで生成されたデータ変化検知AIモデルに、運用モードで新しく収集したKPIデータを適用することでデータ分布の変化が発生しているか否かの検知を行い、データの変化が検知されると、その原因を含めてデータ変化対処部2へ通知する。
【0044】
その後、データ変化対処部2において、データ変化検知部1より通知されたデータ分布の変化の内容及びその原因に応じて、予め設定された条件分岐に従って障害検知AIモデルの見直し方法を選択し、選択結果に応じて更新等の対処を適宜に実行する。
【0045】
図9は、発明を適用した障害検知AIモデル管理システムの訓練モードにおける動作を示したシーケンスフローである
【0046】
時刻t1では、ネットワークからPM/CMデータが収集されて統計情報DB3へ蓄積される。時刻t2では、データ変化検知部1により障害チケット管理システム503からFMデータが収集される。時刻t3では、データ変化検知部1により計画作業管理システム502から計画作業関連情報が収集される。時刻t4では、データ変化検知部1により統計情報DB3からKPIデータが収集される。
【0047】
時刻t5では、データ変化検知部1が前記収集したデータやドメイン情報に基づいてデータ分布の変化の有無及びその原因を判定する。時刻t6では、前記データ分布の変化の有無及びその原因がデータ変化対処部2へ通知される。
【0048】
時刻t7では、データ変化対処部2において障害検知AIモデルの見直し方法が選択される。時刻t8では、前記選択の結果に基づいて障害検知AIモデルの再学習、切替又は更新等が選択的に実行される。
【0049】
そして、上記の実施形態によれば、ネットワーク運用業務を自動化するためのAIにおける推論精度を維持できるようになるので、地理的あるいは経済的な格差を超えて多くの人々に多様なエンターテインメントを提供できるようになる。その結果、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。
【符号の説明】
【0050】
1…データ変化検知部,2…データ変化対処部,3…統計情報データベース(DB),4…障害検知AI群,101…正解ラベル作成機能部,102…データセット作成機能部,103…ネットワーク情報蓄積機能部,104…AIモデル作成機能部,105…データ変化判定機能部,501…ネットワーク構成管理システム,502…計画作業管理システム,503…障害チケット管理システム