(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025025833
(43)【公開日】2025-02-21
(54)【発明の名称】ネットワーク障害分析装置およびネットワーク障害分析方法
(51)【国際特許分類】
H04L 41/0631 20220101AFI20250214BHJP
【FI】
H04L41/0631
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023130990
(22)【出願日】2023-08-10
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
(71)【出願人】
【識別番号】000233295
【氏名又は名称】株式会社日立情報通信エンジニアリング
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】田澤 功
(72)【発明者】
【氏名】受田 賢知
(72)【発明者】
【氏名】村中 延之
(72)【発明者】
【氏名】飯島 智之
(72)【発明者】
【氏名】金子 拓朗
(72)【発明者】
【氏名】森 久斗
(57)【要約】
【課題】ネットワークの運用サービスを提供するにあたり、ネットワークの不具合を事前に解決するか、あるいは、障害が起こったときに、対策のため時間を短縮し、迅速に対処できるようにする。
【解決手段】ネットワーク障害分析装置は、ネットワークを構成する機器のログと、ネットワークの監視データと、ネットワークの通信経路情報と、利用者からの問合せ情報とを保持し、利用者からの問合せ情報を、パターン化されたルールに基づいてグループ化し、グループ化された問合せ情報に含まれる機器情報に基づいて、グループ化された各々の問合せ情報に関する通信の通信経路情報を求め、通信経路情報の通信経路のノードに対応する機器情報に基づいて、ネットワークの不具合が発生した時刻の前後に含まれるログと監視データを取得する。
【選択図】
図22
【特許請求の範囲】
【請求項1】
ネットワーク上の機器による監視データまたはネットワークを構成する機器のログを収集するネットワーク障害分析装置であって、
ネットワークを構成する機器のログと、
ネットワークの監視データと、
ネットワークの通信経路情報と、
利用者からの問合せ情報とを保持し、
前記利用者からの問合せ情報を、パターン化されたルールに基づいてグループ化し、
前記グループ化された問合せ情報に含まれる機器情報に基づいて、グループ化された各々の問合せ情報に関する通信の通信経路情報を求め、
前記通信経路情報の通信経路のノードに対応する機器情報に基づいて、前記利用者からの問合せ情報に関連するログと監視データを取得することを特徴とするネットワーク障害分析装置。
【請求項2】
前記利用者からの問合せ情報は、問合せに関するネットワークの事象が発生した日時を含み、
前記利用者からの問合せ情報グループ化するためのパターン化されたルールにネットワーク事象が発生した時刻に関するルールが含まれることを特徴とする請求項1記載のネットワーク障害分析装置。
【請求項3】
取得する前記利用者からの問合せ情報に関連するログと監視データは、問合せに関するネットワークの事象が発生した日時の前後の所定の時間間隔に関するデータであることを特徴とする請求項2記載のネットワーク障害分析装置。
【請求項4】
前記利用者からの問合せ情報は、問合せに関するネットワークの事象の事象内容、利用サイト、通信した機器のアドレスを含み、
前記利用者からの問合せ情報グループ化するためのパターン化されたルールに問合せに関するネットワークの事象の事象内容、利用サイト、通信した機器のアドレスに関するルールが含まれることを特徴とする請求項2記載のネットワーク障害分析装置。
【請求項5】
ネットワークの事象の事象内容に関するルールは、文字列の類似度が一定のしきに値にあるときに、同一の事象内容とみなすというルールであること特徴とする請求項4記載のネットワーク障害分析装置。
【請求項6】
前記ネットワークの監視データは、機器の死活監視、機器のポート監視、機器の状態監視、トラフィックの監視、リソース管理であることを特徴とする請求項1記載のネットワーク障害分析装置。
【請求項7】
さらに、ネットワークに関する性能を計測して、ネットワークの性能に関する統計情報を格納するネットワーク性能指標情報を保持し、
前記利用者からの問合せ情報に含まれる機器のネットワーク性能を計測して、計測したネットワーク性能の計測値による統計情報と、前記問合せ情報に関する前記ネットワーク性能指標情報の値を比較し、ネットワーク性能に有意の差があるときに、前記利用者からの問合せ情報を、パターン化されたルールに基づいてグループ化することを特徴とする請求項1記載のネットワーク障害分析装置。
【請求項8】
ネットワーク障害分析装置により、ネットワーク上の機器による監視データまたはネットワークを構成する機器のログを収集するネットワーク障害分析方法であって、
前記ネットワーク障害分析装置は、
ネットワークを構成する機器のログと、
ネットワークの監視データ
ネットワークの通信経路情報と、
利用者からの問合せ情報とを保持し、
前記利用者からの問合せ情報は、問合せに関するネットワークの事象が発生した日時、問合せに関するネットワークの事象の事象内容、利用サイト、通信した機器のアドレスを含み、
前記利用者からの問合せ情報グループ化するためのパターン化されたルールにネットワーク事象が発生した時刻、問合せに関するネットワークの事象の事象内容、利用サイト、通信した機器のアドレスに関するルールが含まれ、
前記利用者からの問合せ情報を、パターン化されたルールに基づいてグループ化するステップと、
前記グループ化された問合せ情報に含まれる機器情報に基づいて、グループ化された各々の問合せ情報に関する通信の通信経路情報を求めるステップと、
前記通信経路情報の通信経路のノードに対応する機器情報に基づいて、前記利用者からの問合せ情報に関連するログと監視データを取得するステップとを有することを特徴とするネットワーク障害分析方法。
【請求項9】
取得する前記利用者からの問合せ情報に関連するログと監視データは、問合せに関するネットワークの事象が発生した日時の前後の所定の時間間隔に関するデータであることを特徴とする請求項8記載のネットワーク障害分析方法。
【請求項10】
さらに、ネットワーク障害分析装置は、ネットワークに関する性能を計測して、ネットワークの性能に関する統計情報を格納するネットワーク性能指標情報を保持し、
前記利用者からの問合せ情報を、パターン化されたルールに基づいてグループ化するステップは、
前記利用者からの問合せ情報に含まれる機器のネットワーク性能を計測して、計測したネットワーク性能の計測値による統計情報と、前記問合せ情報に関する前記ネットワーク性能指標情報の値を比較し、ネットワーク性能に有意の差があるときに、実行されることを特徴とする請求項8記載のネットワーク障害分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク障害分析装置およびネットワーク障害分析方法に係り、特に、ユーザの問い合わせに基づいて、ネットワークの障害に対して、迅速、かつ、的確に対処するのに好適なネットワーク障害対応に必要なデータを抽出する方法に関する。
【背景技術】
【0002】
近年、リモート業務への移行やモバイル端末の利用増加への対応、第5世代移動通信システムやSDN(Software Defined Network)といった技術の進展により、企業ネットワークの運用を代行するサービスや、ネットワークの運用機能を提供するサービスに対するニーズが増大している。
【0003】
このようなネットワークの運用サービスでは、複数の手段を組み合わせてネットワークの監視を行うことが多く、複数の監視手段によって得られる監視データや機器の動作ログを統合的に利用することにより、個々のネットワーク機器の障害やセキュリティインシデントに対応するだけではなく、ユーザ視点でネットワークの品質を維持することが重要となっている。そこでは、ネットワーク障害が個々の監視で検知できない場合でも、ユーザに影響を与えているネットワーク上の不具合を把握して、不具合への対応を迅速に行うことが重要となる。
【0004】
従来、このようなネットワークの運用監視を行う方法としては、例えば、特許文献1に開示がある。特許文献1では、業務アプリケーションの障害検知結果と通信経路情報を用いてネットワーク機器の障害を推定するネットワーク障害解析システムが記載されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載された技術によれば、複数の業務アプリケーションの障害検知結果と通信経路情報から、各業務アプリケーションの通信経路上の重複するネットワーク機器での障害発生を推定することにより、ネットワーク機器の監視で明らかに障害が検知できていなくてもネットワーク上の不具合への対応時間を短縮することが可能である。
【0007】
しかしながら、業務アプリケーションで明らかな障害が発生していない場合にはネットワーク上の不具合の把握が困難であり、不具合の発見から対応までの時間を短縮することはできない。また、従来技術では、ユーザからの問い合わせ情報を有効活用にして、ネットワーク障害を原因を分析する手段については示唆されていない。
【0008】
本発明の目的は、ネットワークの運用サービスを提供するにあたり、利用者からの問い合わせ情報を有効活用し、ネットワークの不具合を事前に解決するか、あるいは、障害が起こったときに、対策のため時間を短縮し、迅速に対処することを可能にするネットワーク障害分析装置およびネットワーク障害分析方法を提供することにある。
【課題を解決するための手段】
【0009】
本発明のネットワーク障害分析装置の構成は、好ましくは、ネットワーク上の機器による監視データまたはネットワークを構成する機器のログを収集するネットワーク障害分析装置であって、ネットワークを構成する機器のログと、ネットワークの監視データと、ネットワークの通信経路情報と、利用者からの問合せ情報とを保持し、利用者からの問合せ情報を、パターン化されたルールに基づいてグループ化し、グループ化された問合せ情報に含まれる機器情報に基づいて、グループ化された各々の問合せ情報に関する通信の通信経路情報を求め、通信経路情報の通信経路のノードに対応する機器情報に基づいて、利用者からの問合せ情報に関連するログと監視データを取得するようにしたものである。
【発明の効果】
【0010】
本発明によれば、ネットワークの運用サービスを提供するにあたり、利用者からの問い合わせ情報を有効活用し、ネットワークの不具合を事前に解決するか、あるいは、障害が起こったときに、対策のため時間を短縮し、迅速に対処することを可能にするネットワーク障害分析装置およびネットワーク障害分析方法を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】ネットワーク障害分析システムのシステム構成図である。
【
図2】ネットワーク障害分析システムの各コンポーネントの機能構成図である。
【
図3】ネットワーク障害分析システムの各コンポーネントのハードウェア・ソフトウェア構成図である。
【
図4】機器監視情報テーブルの一例を示す図である。
【
図5】ネットワーク監視情報DBのログ管理テーブルの一例を示す図である。
【
図6】セキュリティ監視情報DBのログ管理テーブルの一例を示す図である。
【
図7】サービス監視情報テーブルの一例を示す図である。
【
図8】サービス監視情報DBのログ管理テーブルの一例を示す図である。
【
図9】インシデント管理テーブルの一例を示す図である。
【
図11】モデル機器情報テーブルの一例を示す図である。
【
図12】モデル業務情報テーブルの一例を示す図である。
【
図13】ネットワーク性能情報テーブルの一例を示す図である。
【
図14】ネットワーク性能指標テーブルの一例を示す図である。
【
図15】通信経路情報テーブルの一例を示す図である。
【
図16】
図15の通信経路情報テーブルのデータに従う通信経路を示す図である。
【
図17】問合せグループ情報テーブルの一例を示す図である。
【
図18】監視データグループ情報テーブルの一例を示す図である。
【
図19】問合せ傾向分析部によるネットワーク性能分析の処理を示すフローチャートである。
【
図20】問合せ傾向分析部による問合せ傾向分析処理を示すフローチャートである。
【
図21】問合せのグループ化ルールを行うためのグループ化ルールテーブルの一例示す図である。
【
図22】関連データ分析部による関連データ収集処理を示すフローチャートである。
【
図23A】運用端末に表示されるネットワーク障害分析画面の一例を示す図である(その一)。
【
図23B】運用端末に表示されるネットワーク障害分析画面の一例を示す図である(その二)
【発明を実施するための形態】
【0012】
以下、本発明に係る一実施形態を、
図1ないし
図23Bを用いて説明する。
【0013】
本実施形態は、ネットワーク運用サービスを提供するにあたり、障害が疑われるユーザからの問合せ情報を使用して不具合の発生を推定し、その時刻情報、通信経路情報に基づいて、ネットワーク監視、セキュリティ監視のアラートやログの中から関連度の高い情報をまとめて運用者に提供することにより、ネットワーク上で明らかな障害が発生していない場合には、ネットワークシステムの運用者に対して、事前に対策することを可能とし、障害が起こったときには、対策のため時間を短縮し、迅速に対処することを可能にするネットワーク障害分析システムに関するものである。
【0014】
先ず、
図1ないし
図3を用いて一実施形態に係るネットワーク障害分析システムの構成について説明する。
【0015】
ネットワーク障害分析システム1は、運用対象ネットワーク機器群3、ネットワーク分析機器群2からなる。
【0016】
運用対象ネットワーク機器群3は、利用端末20、ネットワーク機器21、サーバ22、サービス環境24を有する。運用対象ネットワーク機器群3は、ネットワークNW1により相互に接続されている。
【0017】
ネットワーク分析機器群2は、ネットワークの運用サービスを提供する機器群であり、運用端末40、ネットワーク監視装置100、セキュリティ監視装置200、サービス監視装置300、サービス管理装置400、ネットワーク障害分析装置500を有する。ネットワーク分析機器群2は、ネットワークNW2により相互に接続されており、ネットワークNW1とも相互に接続されている。
【0018】
ネットワークNW1、ネットワークNW2は、LAN(Local Area Network)でもよいし、インターネットのようなグローバルネットワークでもよい。また、有線でもよいし、Wifiのような無線ネットワークであってもよい。
【0019】
ここで、利用者10は、利用端末20からサービス環境24を利用して業務を行う者、また、サーバ22の機能を利用する者を想定しており、利用者10の人数は、一人でもよく、また二人以上でもよい。
【0020】
利用端末20は、利用者10がサービス利用のために使用する情報処理装置であり、例えば、スマートフォン、タブレット、ラップトップPC、デスクトップPCなどである。
【0021】
ネットワーク機器21は、スイッチングハブやルータなどのネットワーク通信に使用される機器である。
【0022】
サーバ22は、利用端末20をクライアントとして、ストレージサービス、アプリケーションソフトウェア実行サービス、データベースサービスなどのサービスや、DNS(Domain Name System)サービス、プロキシサービスなどのサービスを提供する情報処理装置である。
【0023】
サービス環境24は、ネットワークを介して、利用者10にオンラインで、サービス提供ネットワーク23を介して、ストレージサービス、アプリケーションソフトウェア実行サービス、データベースサービスなどのサービスを提供する環境、いわゆるクラウド環境である。サーバ22の違いは、利用者10がシステムの内部構成を意識することなく、ネットワーク経由でサービスを利用することである。
【0024】
運用者30は、ネットワークの運用サービスを提供する者を想定しており、運用者30の人数は、一人でもよく、また二人以上でもよい。運用者30は、運用端末40に表示される情報を参照して、ネットワーク障害の調査をおこなったり、ネットワークの障害対応にあたるなどの責務を有する。
【0025】
運用端末40は、運用者30が作業するにあたり使用する情報処理装置であり、例えば、スマートフォン、タブレット、ラップトップPC、デスクトップPCなどである。運用端末40には、運用者30に対しての監視結果などが表示される。なお、運用端末40の提供するユーザインターフェイスは、後に説明する。
【0026】
ネットワーク監視装置100は、ネットワーク機器21の死活監視や状態監視、ログ収集などのネットワーク監視を行う情報処理装置である。
【0027】
セキュリティ監視装置200は、セキュリティインシデントの監視を行い、セキュリティインシデントに対して自動的に対応することを可能にする情報処理装置である。ここで、セキュリティインシデントとは、外部からの不正アクセスや外部へのデータ流出などである。
【0028】
サービス監視装置300は、利用端末20からサービス環境24を利用したときのサービス環境24のレスポンスタイムやスループットなどのパフォーマンスを監視する情報処理装置である。
【0029】
サービス管理装置400は、利用者からの問合せや、ネットワーク監視装置200やセキュリティ監視装置300、サービス監視装置400からの通知、監視対象の利用端末20やネットワーク機器21、サーバ22のIPアドレスなどの情報を管理する情報処理装置である。
【0030】
ネットワーク障害分析装置500は、説明してきたネットワーク上の種々のコンポーネントの監視情報、管理情報と、ネットワークに関する問い合わせ情報に基づき、ネットワークの障害を分析する装置である。
【0031】
ネットワーク障害分析装置500の動作の概略を示すと以下のようになる。
【0032】
利用者10が、サービス管理装置400に対して、問合せを行って、その問合せが登録された際に、ネットワーク障害分析装置500は、サービス管理装置400の管理する問合せの中から同様の事象を抽出してグループ化する。そして、ネットワーク障害分析装置500は、グループ化した問合せの事象が発生した時刻や、その問合せの事象に関係している通信経路の情報に基づいて、ネットワーク監視装置100、セキュリティ監視装置200、およびサービス監視装置300の管理する監視データの中から関連度の高いデータを抽出して、運用端末40を介して運用者30に提供する。運用者30は、提供された関連度の高いデータに基づいてネットワーク上の不具合の原因を調査することができる。
【0033】
次に、
図2を用いて、ネットワーク障害分析システムの各コンポーネントの機能構成を説明する。
【0034】
なお、以下の
図2による説明では、ネットワーク分析機器群2の機能構成を説明する。
【0035】
ネットワーク監視装置100は、
図2に示されるように、機能構成として、ネットワーク監視部101、記憶部102を有する。
【0036】
ネットワーク監視部101は、ネットワーク機器21とサーバ22の死活監視や状態監視、ログ収集を実行して、監視結果やログを管理する機能部である。死活監視は、例えば、pingコマンドによる機器の応答の確認、状態監視は、例えば、SNMP(Simple Network Management Protocol)のコマンドによるCPUやメモリの使用率等の確認を行うことにより実行する。
【0037】
記憶部102は、データを記憶する機能部である。記憶部102は、ネットワーク監視情報DB110を記憶している。ネットワーク監視情報DB110は、ネットワーク監視装置100で管理している各種情報を格納するデータベースである。ネットワーク監視情報DB110には、機器監視情報テーブル111、ログ管理テーブル112が格納されている。なお、各テーブルの詳細は、後に説明する。
【0038】
セキュリティ監視装置200は、
図2に示されるように、機能構成として、セキュリティ監視部201、記憶部202を有する。
【0039】
セキュリティ監視部201は、セキュリティインシデントの監視やセキュリティインシデントへの自動対応を実行して、監視結果やログを管理する機能部である。
【0040】
記憶部202は、データを記憶する機能部である。記憶部202は、セキュリティ監視情報DB210を記憶している。セキュリティ監視情報DB210は、セキュリティ監視装置200で管理している各種情報を格納するデータベースである。セキュリティ監視情報DB210には、ログ管理テーブル212が格納されている。なお、テーブルの詳細は、後に説明する。
【0041】
サービス監視装置300は、
図2に示されるように、機能構成として、サービス監視部301、記憶部302を有する。
【0042】
サービス監視部301は、利用端末20から利用するサービス環境24のパフォーマンス監視やログ収集を実行して、監視結果やログを管理する機能部である。
【0043】
記憶部302は、データを記憶する機能部である。記憶部302は、サービス監視情報DB310を記憶している。サービス監視情報DB310は、サービス監視装置300で管理している各種情報を格納するデータベースである。サービス監視情報DB310には、サービス監視情報テーブル311、ログ管理テーブル312が格納されている。なお、各テーブルの詳細は、後に説明する。
【0044】
サービス管理装置400は、
図2に示されるように、機能構成として、サービス管理部401、記憶部402を有する。
【0045】
サービス管理部401は、利用者10からの問合せや、ネットワーク監視装置100、セキュリティ監視装置200、サービス監視装置300からの通知を受信して、それらの通知に関する情報を管理する機能部である。
【0046】
記憶部402は、データを記憶する機能部である。記憶部402は、サービス管理情報DB410を記憶している。サービス管理情報DB410は、サービス管理装置400で管理している各種情報を格納するデータベースである。サービス管理情報DB410には、インシデント管理テーブル411、構成管理テーブル412が格納されている。なお、各テーブルの詳細は、後に説明する。
【0047】
ネットワーク障害分析装置500は、
図2に示されるように、機能構成として、問合せ傾向分析部501、関連データ収集部502、記憶部503を有する。
【0048】
問合せ傾向分析部501は、利用者10からの問合せの中から類似の問合せを抽出してグループ化し管理する機能部である。
【0049】
関連データ収集部502は、グループ化した問合せに対して、その事象と関連度の高い監視データやログを抽出して管理する機能部である。
【0050】
記憶部503は、データを記憶する機能部である。記憶部503は、連携管理情報DB510を記憶している。連携管理情報DB510は、ネットワーク障害分析装置500で管理している各種情報を格納するデータベースである。連携管理情報DB510には、モデル機器情報テーブル511、モデル業務情報テーブル512、ネットワーク性能情報テーブル513、ネットワーク性能指標テーブル514、通信経路情報テーブル515、問合せグループ情報テーブル516、監視データグループ情報テーブル517が格納されている。なお、各テーブルの詳細は、後に説明する。
【0051】
次に、
図3を用いて、ネットワーク障害分析システムの各コンポーネントのハードウェア・ソフトウェア構成について説明する。なお、
図3による説明では、ネットワーク分析機器群2の中で、ネットワーク監視装置100、セキュリティ監視装置200、サービス監視装置300、サービス管理装置400、ネットワーク障害分析装置500について詳細に説明する。
【0052】
ネットワーク監視装置100は、
図3に示されるような一般的なサーバ装置などの情報処理装置で実現することができる。ネットワーク監視装置100は、ハードウェアとして、CPU(Central Processing Unit)121、主メモリ122、補助記憶装置123、通信I/F(Interface)124が、バス125により接続された形態である。
【0053】
CPU121は、ネットワーク監視装置100の各部を制御し、主メモリ122上にロードされたプログラムを実行するプロセッサである。
【0054】
主メモリ122は、RAM(Random Access Memory)のような高速で動作する揮発性の半導体記憶装置であり、プログラムとワークデータを記憶する。補助記憶装置123は、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの大容量の磁気記憶装置や半導体記憶装置である。
【0055】
補助記憶装置123には、ネットワーク監視プログラム101pがインストールされている。ネットワーク監視プログラム101pは、ネットワーク監視部101の機能を実行するプログラムである。
【0056】
また、補助記憶装置123には、ネットワーク監視情報DB110が格納されている。
【0057】
通信I/F124は、ネットワークNW1、NW2を介して運用対象ネットワーク機器群3、ネットワーク障害分析装置500、運用端末40とそれぞれネットワーク接続する装置である。
【0058】
セキュリティ監視装置200は、
図3に示されるような一般的なサーバ装置などの情報処理装置で実現することができる。セキュリティ監視装置200は、ハードウェアとして、CPU221、主メモリ222、補助記憶装置223、通信I/F224が、バス225により接続された形態である。
【0059】
CPU221は、セキュリティ監視装置200の各部を制御し、主メモリ222上にロードされたプログラムを実行するプロセッサである。
【0060】
主メモリ222は、RAM(Random Access Memory)のような高速で動作する揮発性の半導体記憶装置であり、プログラムとワークデータを記憶する。補助記憶装置223は、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの大容量の磁気記憶装置や半導体記憶装置である。
【0061】
補助記憶装置223には、セキュリティ監視プログラム201aがインストールされている。セキュリティ監視プログラム201aは、セキュリティ監視部201の機能を実行するプログラムである。
【0062】
また、補助記憶装置223には、セキュリティ監視情報DB210が格納されている。
【0063】
通信I/F224は、ネットワークNW1、NW2を介して運用対象ネットワーク機器群3、ネットワーク障害分析装置500、運用端末40とそれぞれネットワーク接続する装置である。
【0064】
サービス監視装置300は、
図3に示されるような一般的なサーバ装置などの情報処理装置で実現することができる。サービス監視装置300は、ハードウェアとして、CPU321、主メモリ322、補助記憶装置323、通信I/F324が、バス325により接続された形態である。
【0065】
CPU321は、サービス監視装置300の各部を制御し、主メモリ322上にロードされたプログラムを実行するプロセッサである。
【0066】
主メモリ322は、RAMのような高速で動作する揮発性の半導体記憶装置であり、プログラムとワークデータを記憶する。補助記憶装置323は、HDD、SSDなどの大容量の磁気記憶装置や半導体記憶装置である。
【0067】
補助記憶装置323には、サービス監視プログラム301pがインストールされている。サービス監視プログラム301aは、サービス監視部301の機能を実行するプログラムである。
【0068】
また、補助記憶装置323には、サービス監視情報DB310が格納されている。
通信I/F324は、ネットワークNW1、NW2を介して運用対象ネットワーク機器群3、ネットワーク障害分析装置500、運用端末40とそれぞれネットワーク接続する装置である。
【0069】
サービス管理装置400は、
図3に示されるような一般的なサーバ装置などの情報処理装置で実現することができる。サービス管理装置400は、ハードウェアとして、CPU421、主メモリ422、補助記憶装置423、通信I/F424が、バス425により接続された形態である。
【0070】
CPU421は、サービス管理装置400の各部を制御し、主メモリ422上にロードされたプログラムを実行するプロセッサである。
【0071】
主メモリ422は、RAMのような高速で動作する揮発性の半導体記憶装置であり、プログラムとワークデータを記憶する。補助記憶装置423は、HDD、SSDなどの大容量の磁気記憶装置や半導体記憶装置である。
【0072】
補助記憶装置423には、サービス管理プログラム401pがインストールされている。サービス管理プログラム401aは、サービス管理部401の機能を実行するプログラムである。
【0073】
また、補助記憶装置423には、サービス管理情報DB410が格納されている。
通信I/F424は、ネットワークNW1、NW2を介して運用対象ネットワーク機器群3、ネットワーク障害分析装置500、運用端末40とそれぞれネットワーク接続する装置である。
【0074】
ネットワーク障害分析装置500は、
図3に示されるような一般的なサーバ装置などの情報処理装置で実現することができる。ネットワーク障害分析装置500は、ハードウェアとして、CPU521、主メモリ522、補助記憶装置523、通信I/F524が、バス525により接続された形態である。
【0075】
CPU521は、ネットワーク障害分析装置500の各部を制御し、主メモリ522上にロードされたプログラムを実行するプロセッサである。
【0076】
主メモリ522は、RAMのような高速で動作する揮発性の半導体記憶装置であり、プログラムとワークデータを記憶する。補助記憶装置523は、HDD、SSDなどの大容量の磁気記憶装置や半導体記憶装置である。
【0077】
補助記憶装置523には、問合せ傾向分析プログラム501p、関連データ収集プログラム502pがインストールされている。問合せ傾向分析プログラム501Pは、問合せ傾向分析部501の機能を実行するプログラムである。関連データ収集プログラム502pは、関連データ収集部502の機能を実行するプログラムである。
【0078】
また、補助記憶装置523には、連携管理情報DB510が格納されている。
【0079】
通信I/F524は、ネットワークNW2を介してネットワーク監視装置100、セキュリティ監視装置200、サービス監視装置300、サービス管理装置400、運用端末40とそれぞれネットワーク接続する装置である。
【0080】
次に、
図4ないし
図18を用いて、一実施形態に係るネットワーク障害分析システムで使用されるデータ構造について説明する。
【0081】
機器監視情報テーブル111は、ネットワーク監視結果の情報を格納するテーブルである機器監視情報テーブル111は、ネットワーク監視の項目に応じて、様々な形態のデータを格納しうるが、本実施形態では、死活監視に関する情報を格納するテーブルを例として説明する。
【0082】
機器監視情報テーブル111は、
図4に示されるように、フィールドとして、日時111a、機器IPアドレス111b、送信パケット数111c、受信パケット数111d、パケット損失率111eを有する。
【0083】
日時111aは、値として、監視データを取得した年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。機器IPアドレス111bは、値として、監視対象機器のIPアドレスを記憶するフィールドである。送信パケット数111cは、値として、監視のために機器に送信するパケット数を記憶するフィールドである。受信パケット数111dは、値として、機器から返信されたパケット数を記憶するフィールドである。パケット損失率111eは、値として、送信したパケット数に対する返信されなかったパケット数の割合を記憶するフィールドである。
【0084】
ネットワーク監視情報DB110のログ管理テーブル112は、ネットワーク監視装置100において、収集した機器のログを格納するテーブルである。
【0085】
ログ管理テーブル112は、
図5に示されるように、フィールドとして、日時112a、送信元IPアドレス112b、送信元ポート112c、送信先IPアドレス112d、送信先ポート112e、プロトコル112dを有する。
【0086】
日時112aは、値として、ログが出力された年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。送信元IPアドレス112bは、IPパケットを送信した機器のIPアドレス、例えば、サービス環境24にリクエストを送信した利用端末20のIPアドレスを記憶するフィールドである。送信元ポート112cは、送信側でIPパケット送信時に割り当てられるサービスのポート番号、例えば、リクエストを送信する際に使用した利用端末20が利用するサービスのポート番号を記憶するフィールドである。送信先IPアドレス112dは、IPパケットの送信先のIPアドレス、例えば、利用端末20からリクエストを送信したサービス環境24のIPアドレスを記憶するフィールドである。送信先ポート112eは、IPパケット送信先で実現されるサービスのポート番号、例えば、利用端末20から送信したリクエストを受信するためのサービス環境24のポート番号を記憶するフィールドである。プロトコル112fは、IP通信に用いられる規約、例えば、HTTP、POP、SMTPを表す文字列または識別子を記憶するフィールドである。
【0087】
セキュリティ監視情報DB210のログ管理テーブル212は、セキュリティ監視で出力されたログを格納するテーブルであり、
図6に示されるように、フィールドとして、日時212a、送信元IPアドレス212b、アクセス先サービス提供サーバIPアドレス212c、クエリ212d、セキュリティ対応212eを有する。
【0088】
日時212aは、値として、ログが出力された年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。送信元IPアドレス212bは、IPパケットを送信した機器のIPアドレス、例えば、サービス環境24にリクエストを送信した利用端末20のIPアドレスを記憶するフィールドである。アクセス先サービス提供サーバIPアドレス212cは、サービスを提供するサーバのIPアドレス、例えば、利用端末20からリクエストを送信したサービス環境24のサーバのIPアドレスを記憶するフィールドである。クエリ212dは、サービス提供時のリクエストの内容、例えば、利用端末20からサービス環境24に送信されたリクエストの内容を記憶するフィールドである。セキュリティ対応212eは、サービス提供時にシステムがセキュリティ監視のために行った対応を表す文字列または識別子、例えば、利用端末20からサービス環境24に送信されたリクエストに対して、セキュリティ監視で実施した自動対応の内容を記憶するフィールドである。
【0089】
サービス監視情報テーブル311は、サービス提供時のシステムの性能諸元を格納するテーブルであり、
図7に示されるように、フィールドとして、日時311a、サービス提供サーバIPアドレス311b、レスポンスタイム311c、スループット311dを有する。
【0090】
日時311aは、値として、監視データを取得した年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。サービスアドレス提供サーバIPアドレス311bは、サービスを提供するサーバのIPアドレス、例えば、監視対象のサービス環境24のサーバのIPアドレスを記憶するフィールドである。レスポンスタイム311cは、送信したIPパケットのレスポンスタイム、例えば、サービス環境24にリクエストを送信してレスポンスが返ってくるまでの時間をミリ秒単位で記憶するフィールドである。スループット311dは、IPパケットに関するスリープットに関する計量、例えば、サービス環境24において単位時間当たりに処理したトランザクション数を記憶するフィールドである。
【0091】
サービス監視情報DB310のログ管理テーブル312は、サービスを提供するシステムのログを格納するテーブルあり、
図8に示されるように、フィールドとして、日時312a、サービス提供サーバIPアドレス312b、メッセージ312cを有する。
【0092】
日時312aは、値として、ログが出力された年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。サービス提供サーバIPアドレス312bは、サービス提供時の監視対象となるサーバのIPアドレス、例えば、サービス環境24のサーバのIPアドレスを記憶するフィールドである。メッセージ312cは、サービス提供時にシステムが出力したメッセージ、例えば、サービス環境24が出力したメッセージをテキスト形式で記憶するフィールドである。
【0093】
インシデント管理テーブル411は、利用者10からの問い合わせ情報に関するデータを格納するテーブルであり、
図9に示されるように、フィールドとして、インシデントID411a、発生日時411b、登録日時411c、事象内容411d、利用端末ID411e、利用端末IPアドレス411f、利用サイト411g、サービス環境名411h、サービス環境提供サーバIPアドレス411iを有する。
【0094】
インシデントID411aは、値として、問合せなどのインシデントを一意に特定する識別子(インシデントID)を記憶するフィールドである。発生日時411bは、値として、インシデントが発生した年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。発生日時411bの情報は、利用者10からの問い合わせがあったときに利用者10にアンケートすることにより得られる情報であり、ネットワークの不具合事象などのネットワークに関する事象が発生したと利用者10が報告した日時である。登録日時411cは、値として、利用者10からの問合せをインシデントとして登録した年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。事象内容411dは、利用者10からの問合せの内容をテキスト形式で記憶するフィールドである。利用端末ID411eは、利用者10が利用している利用端末20を一意に特定する識別子(利用端末ID)を記憶するフィールドである。利用端末IPアドレス411fは、利用者10が利用している利用端末20のIPアドレスを記憶するフィールドである。利用サイト411gは、利用者10が利用端末20を利用している場所の情報をテキスト形式で記憶するフィールドである。利用サイト411gの情報は、例えば、事業所の支店名などの情報である。サービス環境名411hは、利用者が利用端末20から利用したサービスの名称をテキスト形式で記憶するフィールドである。サービス環境提供サーバIPアドレス411iは、利用者が利用端末20から利用したサービスを提供するサーバのIPアドレスを記憶するフィールドである。
【0095】
なお、利用者からの問い合わせで、利用者が必要な情報を入力しなかったときなど、ネットワークの不具合事象の発生日時が不明なときには、デフォルトとして、発生日時411bの値を、登録日時411cの値と同一のものにして運用してもよい。
【0096】
構成管理テーブル412は、サービスを提供する利用端末20、ネットワーク機器21、サーバ22などの機器のハードウェア構成、ネットワーク構成情報を格納するテーブルであり、
図10に示されるように、フィールドとして、機器ID412a、MACアドレス412b、IPアドレス412c、利用者412d、利用サイト412e、機器種別412fを有する。
【0097】
機器ID412aは、値として、利用端末20、ネットワーク機器21、サーバ22を一意に特定する識別子(機器ID)を記憶するフィールドである。MACアドレス412bは、値として、利用端末20、ネットワーク機器21、サーバ22のMACアドレスを記憶するフィールドである。IPアドレス412cは、値として、機器のIPアドレスを記憶するフィールドである。利用者412dは、値として、機器の利用者または管理者の所属や氏名をテキスト形式で記憶するフィールドである。利用サイト412eは、値として、利用端末20、ネットワーク機器21、サーバ22を利用している場所の情報をテキスト形式で記憶するフィールドである。機器種別412fは、値として、機器の種別をテキスト形式で記憶するフィールドである。
【0098】
モデル機器情報テーブル511は、ネットワーク性能を測定するモデルとなるモデル機器の情報を格納するテーブルであり、
図11に示されるように、フィールドとして、機器ID511a、MACアドレス511b、IPアドレス511c、利用サイト511dを有する。
【0099】
機器ID511aは、値として、利用者10が利用している利用端末20を一意に特定する識別子(機器ID)を記憶するフィールドである。MACアドレス511bは、値として、モデル機器のMACアドレスを記憶するフィールドである。IPアドレス511cは、値として、モデル機器のIPアドレスを記憶するフィールドである。利用サイト1103は、値として、利用者10が利用端末20を利用している場所の情報をテキスト形式で記憶するフィールドである。
【0100】
モデル業務情報テーブル512は、ネットワーク性能を測定するモデルとなるモデル業務の情報を格納するテーブルであり、
図12に示されるように、フィールドとして、サービスID512aと、サービス環境名512bと、サービス環境提供サーバIPアドレス512cを有する。
【0101】
サービスID512aは、値として、利用者10が利用しているモデル業務のサービス環境24を一意に特定する識別子(サービスID)を記憶するフィールドである。サービス環境名512bは、値として、モデル業務のサービス環境24の名称をテキスト形式で記憶するフィールドである。サービス環境提供サーバIPアドレス512cは、値として、モデル業務を提供するサービス環境24のサーバのIPアドレスを記憶するフィールドである。
【0102】
ネットワーク性能情報テーブル513は、ネットワーク性能の計測結果を格納するテーブルであり、
図13に示されるように、フィールドとして、機器ID513a、サービスID513b、計測日時513c、計測値513dを有する。
【0103】
機器ID513aは、値として、ネットワーク性能の計測時に使用した機器を一意に特定する識別子(機器ID)を記憶するフィールドである。サービスID513bは、値として、ネットワーク性能の計測時に使用したサービス環境24を一意に特定する識別子(サービスID)を記憶するフィールドである。計測日時513cは、値として、ネットワーク性能を計測した年月日と時刻を、yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。計測値513dは、値として、計測したネットワーク性能値を記憶するフィールドである。計測値513dは、例えば、利用端末20からサービス環境24にリクエストを送信した際のミリ秒単位のレスポンスタイムである。
【0104】
ネットワーク性能指標テーブル514は、平常時のネットワーク性能に関する計測値の統計的情報を格納するテーブルであり、
図14に示されるように、フィールドとして、機器ID514a、サービスID514b、計測値平均514c、計測値標準偏差514d、データ数514e、計測期間514fを有する。
【0105】
機器ID514aは、値として、ネットワーク性能の計測時に使用した機器を一意に特定する識別子(機器ID)を記憶するフィールドである。サービスID514bは、値として、ネットワーク性能の計測時に使用したサービス環境24を一意に特定する識別子(サービスID)を記憶するフィールドである。計測値平均514cは、値として、計測値の平均値を記憶するフィールドである。計測値標準偏差514は、値として、計測したネットワーク性能値の標準偏差を記憶するフィールドである。データ数514eは、値として、計測値平均514cと計測値標準偏差514dを算定するために使用したデータ数を記憶するフィールドである。計測期間514fは、値として、計測値平均514cと計測値標準偏差514dを算定するために使用したデータの測定期間の開始と終了の年月日と時刻を、yyyy/mm/dd hh:mm:ss~yyyy/mm/dd hh:mm:ssの形式で記憶するフィールドである。
【0106】
通信経路情報テーブル515は、利用端末20からサービス環境24までの通信経路情報を格納するテーブルであり、
図15に示されるように、フィールドとして、経路ID515a、始点515b、終点515c、経由ノード515d、通信元ノード515e、通信先ノード515fを有する。
【0107】
経路ID515aは、値として、利用端末20からサービス環境24までの通信経路を一意に特定する識別子(経路ID)を記憶するフィールドである。始点515bは、値として、経路の始点となる利用端末20の機器IDを記憶するフィールドである。終点515cは、値として、経路の終点となるサービス環境24のサービスIDを記憶するフィールドである。経由ノード515dは、通信経路に含まれるノードを一意に特定する識別子であり、値として、利用端末20、ネットワーク機器21、サーバ22、サービス環境24のいずれかの機器IDを記憶するフィールドである。通信元ノード515eは、経由ノード515dにパケットを送信するノードを一意に特定する識別子であり、値として、利用端末20、ネットワーク機器21、サーバ22のいずれかの機器IDを記憶するフィールドである。通信先ノード515eは、経由ノード515dからパケットを受信するノードを一意に特定する識別子であり、値として、ネットワーク機器21、サーバ22、サービス環境24のいずれかの機器IDもしくはサービス環境24のサービスIDを記憶するフィールドである。
【0108】
なお、通信元ノード515eが、「None」のときには、経由ノード515dの値は、始点515bの値と一致させ、通信先ノード515fが、「None」のときには、経由ノード515dの値は、終点515cの値と一致させるものとする。
【0109】
図15に格納された情報の通信路をグラフで示すと、
図16のようになる。
【0110】
問合せグループ情報テーブル516は、グループ化した問合せの情報を格納するテーブルであり、
図17に示されるように、フィールドとして、グループID516a、インシデントID516b、ステータス516cを有する。
【0111】
グループID516aは、値として、問合せのグループを一意に特定する識別子(グループID)を記憶するフィールドである。インシデントID516bは、値として、グループに属するインシデントを一意に特定する識別子(インシデントID)をリスト形式で記憶するフィールドである。ステータス516cは、値として、グループ化した問合せへの対応が完了したかのステータスをテキスト形式で記憶するフィールドである。
【0112】
監視データグループ情報テーブル517は、問合せのグループと関連度の高い監視データを関連付けて格納するテーブルであり、
図18に示されるように、JSON(JavaScript Object Notation)形式で監視データを記憶する。ここで、JSON形式は、{“key”:“value”}のように、キーと値をコロンで区切って記述する形式である。
【0113】
次に、
図19ないし
図22を用いて、ネットワーク障害分析装置の行う処理について説明する。
【0114】
先ず、
図19を用いて、問合せ傾向分析部によるネットワーク性能分析の処理について説明する。問合せ傾向分析部501によるネットワーク性能分析の処理は、平常時のネットワーク性能値の傾向を把握することを目的として定期的に行われる処理である。
【0115】
ネットワーク障害分析装置500の問合せ傾向分析部501は、利用者10が使用する利用端末20の中からネットワーク性能値の計測対象とするモデル機器を選択する(S101)。具体的には、例えば、利用端末20が接続されているネットワークや機器の利用場所を広く網羅するように、ランダムに機器を選択する。
【0116】
次に、問合せ傾向分析部501は、選択した利用端末20で利用者10が実施する業務の中からネットワーク性能値の計測対象とするモデル業務を選択する(S102)。具体的には、例えば、DNS(Domain Name System)サーバのログを取得して、S101で選択したモデル機器から閲覧や操作などのリクエストを送信したサーバのIPアドレスを取得する。利用端末20からリクエストを送信するサーバでは、利用者10が業務で使用する機能やデータが提供されていると考えられる。その中からモデル機器全体でリクエスト数の平均値がしきい値ThMeanより大きいサーバと、各モデル機器でリクエスト数がしきい値ThReqより大きいサーバをモデル業務として選択する。ここで、ThMean、ThReqは事前に定められる値である。
【0117】
次に、問合せ傾向分析部501は、S101およびS102で選択したモデル機器およびモデル業務について、ネットワーク性能値を計測する(S103)。
【0118】
具体的には、例えば、各モデル機器でモデル業務のリクエストを送信した際のレスポンス時間を計測して、ネットワーク性能値としてネットワーク性能情報テーブル513に格納する。
【0119】
次に、問合せ傾向分析部501は、S103で計測して格納されたネットワーク性能値からネットワーク性能指標を計算する(S104)。具体的には、例えば、各モデル機器のモデル業務ごとに、過去M日分のネットワーク性能値の平均および標準偏差を算出して、ネットワーク性能指標としてネットワーク性能指標テーブル514に格納する。
【0120】
次に、
図20および
図21を用いて問合せ傾向分析部による問合せ傾向分析処理について説明する。
【0121】
問合せ傾向分析部による問合せ傾向分析処理は、利用者10からの問合せがあった際に関連する問合せをグループ化することを目的として問合せが発生する度に行なわれる処理である。
【0122】
ネットワーク障害分析装置500は、問合せ傾向分析部501は、サービス管理装置400のサービス管理部401から新規にインシデント管理テーブル411に登録された問合せ情報を取得する(S201)。具体的には、例えば、メッセージング基盤やWeb API(Application Programming Interface)を介して、サービス管理部401から新規に登録された問合せのインシデントID901を受信し、サービス管理部401が提供するインシデント情報取得用のAPIにより、インシデントID901をパラメータとして指定して問合せ情報を取得する。
【0123】
次に、問合せ傾向分析部501は、問合せのあった機器および利用サービスについて、ネットワーク性能値を計測する(S202)。具体的には、例えば、問合せのあった機器で利用サービスのリクエストを送信した際のレスポンス時間を計測する。ここで、レスポンス時間の計測値をTrとする。
【0124】
次に、問合せ傾向分析部501は、計測したネットワーク性能値が平常時と比べて有意な差があるかを判定し(S203)、有意の差があるときには(S203:YES)、S204の処理に進み、それ以外の場合には(S203:NO)、問合せ傾向分析部501の処理は終了する。
【0125】
具体的には、例えば、問合せのあった機器の機器ID、利用サイト、利用サービスの情報をインシデント管理テーブル411から取得して、モデル機器情報テーブル511から機器IDもしくは利用サイトが一致するモデル機器の機器IDを取得する。そして、ネットワーク性能指標情報テーブル514からモデル機器IDおよびサービスIDが一致するネットワーク性能指標(計測値平均514cおよび計測値標準偏差514d)を取得する。ここで、取得した計測値の平均の値をμ、計測値の標準偏差の値をσとする。そして、S402で計測したネットワーク性能値Trと計測値平均μ、計測値標準偏差σについて、μ+3σ<Trの関係が成り立つ場合、すなわち、ネットワーク性能値が正規分布に従うと仮定したときに、そのばらつきの範囲から計測したネットワーク性能値Trが有意に逸脱した場合には(ネットワークが正常であり、かつ、Trがこの領域にある可能性は、理論的に0.15%であると評価される)、Trが平常時と比べて異常値を示していると判定する。
【0126】
このように、問合せに関連するネットワークの性能を測定して、異常があったと認められるときに、初めてネットワークの障害分析を行うようにしているのは、利用者10から問合せがあったインシデントについて、全てネットワークに異常があるとは限らないために、運用者30のむだな作業が発生するのを防止するためである。
【0127】
次に、問合せ傾向分析部501は、S203の判定の結果、計測したネットワーク性能値が異常値を示していると判定された場合に、問合せ情報のグループ化ルールに基づいて問合せ情報をグループ化する(S204)。具体的には、例えば、インシデント管理テーブル411から新規の問合せの発生日時411b、事象内容411d、利用サイト411g、サービス環境提供サーバIPアドレス411iを取得して、例えば、
図21のグループ化ルールテーブルで定義されたルールに従い問合せが属するグループを判定する。そして、グループ化された問合せのインシデントを、問合せグループ情報テーブル511に、それぞれのグループを一レコードとして格納する。
【0128】
図21に示されグループ化ルールテーブルは、フィールドとして、ルールID520a、発生日時520b、事象内容520c、利用サイト520d、サービス環境提供サーバIPアドレス520e、判定グループ520fを有する。
【0129】
ルールID520aは、ルールを一意的に識別する識別子を意味し、判定グループ520fは、発生日時520b、事象内容520c、利用サイト520d、サービス環境提供サーバIPアドレス520eの値に従って、問い合わせのインシデントが属するグループを意味する。
【0130】
発生日時520b、事象内容520c、利用サイト520d、サービス環境提供サーバIPアドレス520eの値として、「S」は異なる問合せインシデントの対応する項目(発生日時、事象内容、利用サイト、サービス環境提供サーバIPアドレスのいずれか)を比較して、その項目が同一であることを意味する。また、「D」は、異なる問合せの対応する項目を比較して、その項目が異なることを意味する。ただし、発生日時については、発生日時の差があらかじめ定めたしきい値以下であれば同一であるとする。
【0131】
図9の問合せのインシデントの例では、例えば、発生日時の差のしきい値を1時間とすると、インシデントID411a「IN0001」とインシデントID411a「IN0002」は、発生日時411bの差がしきい値(例えば、5分)以下であり、事象内容411d、利用サイト411g、サービス環境提供サーバIPアドレス411iが同一であるため、ルールID520a「RL0001」に適合するため、同一のAグループとする。また、インシデントIN0003については、インシデントID411a「IN0001」とインシデントID411a「IN0002」と発生日時411bの差がしきい値以下であり、事象内容411d、サービス環境提供IPアドレス411iは同一であるが、利用サイト411g(「品川サイト」)が異なるため、同一のグループとしない。
【0132】
なお、
図9の事象内容411dは、定型文字列「レスポンス遅延」のように記載されているが、利用者の問い合わせ内容を一定文字数内のフリーフォーマットとして記録し、規定のテンプレート文字列と文字列の類似度判定を行い、類似度が一定のしきい値内にあるときには、それらの文字列は、同一とみなして、
図21の「S」、「D」判定を行うようにしてもよい。なお、文字列の類似度判定は、コサイン類似度(Cosine Similarity)、レーベンシュタイン距離(Levenshtein Distance)、Jaccard係数(Jaccard Coefficient)、ロングテイル(Long Tail)類似度などの手法を用いることができる。
【0133】
次に、
図22を用いて関連データ収集部による関連データ収集処理について説明する。
図22の関連データ収集処理は、ネットワーク上の不具合の調査に必要な各種監視データや機器などのログを収集する処理である。
【0134】
関連データ収集部502は、グループ化された問合せ情報を取得する(S301)。具体的には、例えば、問合せグループ情報テーブル516のグループID516aを一つ選択して、インシデント管理テーブルからそのグループID516aに属するインシデント情報を取得する。
【0135】
次に、関連データ収集部502は、問合せグループに含まれる機器からその利用サービスまでの経路情報を取得する(S302)。具体的には、例えば、tracerouteといったコマンドで、機器のIPアドレスと利用サービスのIPアドレスを指定して、機器から利用サービスまでの通信経路上にあるネットワーク機器のIPアドレスを取得して、そのIPアドレスからサービス管理装置400に問い合わせて、構成管理テーブル412に格納された機器IDを求めて、それを通信経路情報テーブル515に格納する。
【0136】
次に、関連データ収集部502は、問合せの原因となるネットワーク上の不具合と監視データおよびログとの関連度を判定する(S303)。具体的には、例えば、以下のように関連度を判定する。利用端末IDおよびサービス環境IDに基づき、問合せの事象が発生している利用端末20からサービス環境への通信経路(経路ID)を通信経路情報テーブル515から取得する。取得した経路IDに含まれるノードのID(機器ID)に基づいて、構成管理テーブル412から、通信経路上にあるネットワーク機器やサーバのIPアドレスを取得する。取得したIPアドレスを持つネットワーク機器やサーバの監視データおよびログと、それらの通信を監視するセキュリティサービスのログの中で、次の(1)、(2)の条件を満足する監視データおよびログについては、不具合との関連度が高いと判定する。
【0137】
(1)以下のような監視データについては、問合せのあったインシデントの発生日時の前後Tn秒のデータは関連度が高いとみなす。ここで、Tnは、システムの仕様やネットワーク管理の運用によって定められるしきい値である(例えば、Tn=600)。
--機器の死活監視(Ping監視)
--機器のポート監視(Syslogの監視)
--機器の温度等の状態監視(SNMPコマンドの定期実行による監視)
--トラフィックの監視(SNMPコマンドの定期実行による監視)
--リソース管理(SNMPコマンドの定期実行による監視)
(2)以下のようなログについては、問合せのあったインシデントの発生日時の前後Tn秒で、かつ、リクエストの送信先が同じログは関連度が高いとみなす。また、問合せのあった事象の発生時刻の前後Tn秒で、かつ、リクエストの送信元が同じログは関連度が高いとみなす。
--ファイアウォールのログ
--DNS(Domain Name System)のログ
--セキュリティ監視ログ
【0138】
このように、問合せのあったインシデントの発生日時の前後の監視データやログを収集の対象とするのは、そのような監視データやログがネットワークの不具合の発生を解明する資料となる可能性が高いからである。
【0139】
なお、監視データとログの取得する前後時間のしきい値は同じものとしたが、異なったものにしてもよい。また、上の説明では、関連度のある、なしの二種類であったが、時間区分により、関連度を例えば、5段階に分類してランク付けしてもよい。
【0140】
次に、関連データ収集部502は、関連度が高いと判定した監視データおよびログを取得して、監視データグループ情報テーブル517に格納する(S304)。
【0141】
具体的には、例えば、ネットワーク監視部100、セキュリティ監視部200、サービス監視部300が提供するAPIを利用し、日時の範囲、および利用端末、ネットワーク機器、サーバ、サービス環境のIPアドレスを指定して監視データおよびログを取得する。日時の範囲は、グループに含まれるすべての問合せの発生日時を含む範囲とし、最初の発生日時のTn秒前から最後の発生日時のTn秒後までの区間とする。利用端末20のIPアドレスとしては、グループに含まれる問合せに関する利用端末IPアドレス411fの値をインシデント管理テーブル411から取得する。ネットワーク機器21、サーバ22のIPアドレスは、S303で取得した機器IDを使用して、構成管理テーブル412の412cから取得する。サービス環境を提供するサーバのIPアドレスとしては、グループに含まれる問合せに関するインシデントに対応するインシデント管理テーブル411のサービス環境提供サーバIPアドレス411iを取得する。
【0142】
また、機器監視情報テーブル111から、日時111aの範囲および機器IPアドレス111bを指定して該当する機器のパケット損失率111eを取得する。同様に、ネットワーク監視情報DB110のログ管理テーブル112から、日時112aの範囲および送信元IPアドレス112b(利用端末20のIPアドレス)、送信先IPアドレス112d(サービス環境のサーバのIPアドレス)を指定して送信元ポート112c、送信先ポート112e、プロトコル112fを取得する。同様に、セキュリティ監視情報DB210のログ管理テーブル212から、日時212aの範囲および送信元IPアドレス212b(利用端末20のIPアドレス)、アクセス先サービス提供サーバIPアドレス(サービス環境のサーバのIPアドレス)を指定して、クエリ212d、セキュリティ対応212eを取得する。同様に、サービス監視情報テーブル311から、日時311aの範囲およびサービス提供サーバアドレス311b(サービス環境のサーバのIPアドレス)を指定してレスポンスタイム311c、スループット311dを取得する。同様に、サービス監視情報DB310のログ管理テーブル312から、日時312aの範囲およびサービス提供サーバIPアドレス312b(サービス環境のサーバのIPアドレス)を取得する。これらの取得したデータにグループIDと、各々の項目に適切なkeyを付与して、監視データグループ情報テーブル517に対応する値を、
図18に示したようなJSON形式で格納する。
【0143】
次に、関連データ収集部502は、問合せのすべてのグループについてS301からS304の処理を繰り返し(S305)、問合せのすべてのグループについて処理したときに(S305:YES)、関連データ収集部による関連データ収集処理を終了する。
【0144】
運用端末40では、監視データグループ情報テーブル517に格納した監視データやログを表示する。
【0145】
以下、
図23Aおよび
図23Bを用いて運用端末に表示されるユーザインターフェイスの例について説明する。
【0146】
運用端末40に表示されるネットワーク障害分析画面600では、
図23Aに示されるように、運用者30がネットワークトポロジータブ610を選択したときに、ネットワーク障害に係る通信経路を表示する。
【0147】
また、運用端末40に表示されるネットワーク障害分析画面600では、
図23Bに示されるように、運用者30が監視データタブ620を選択したときに、各利用端末20からサービス環境24へのリクエスト数を時系列的に示したグラフ621、パケット損失率を時系列的に示したグラフ622、ネットワーク機器21やサーバ22の問合せとの関連度の高いログ623などを表示する。また、例えば、グラフ621上のデータを選択することにより、より詳細な通信ログ624を表示する。
【0148】
本実施形態では、上述のように、問い合わせに関するインシデントをグループ化することにより、運用者が個々の問い合わせに対処するよりも効率的に、多くの問い合わせがあったネットワークの不具合に対して、効率的に対処することができ、その問い合わせに関するインシデントに関連する監視データやログの収集と分析も効率的に行えることを可能にする。
【0149】
このように、本実施形態では、障害が疑われる問合せ情報を使用してネットワーク上の不具合の発生を推定し、その時刻情報、通信経路情報に基づいて、ネットワーク監視、セキュリティ監視、サービス監視の監視データ、ログの中から関連度の高い情報をまとめて運用者に提供することにより、ネットワーク上で明らかな障害が発生していない場合でも、ネットワーク上の不具合への対応時間を短縮し、あるいは、障害が起こったときに、対策のため時間を短縮し、迅速に対処することを可能とすることができる。
【符号の説明】
【0150】
1…ネットワーク障害分析システム、2…ネットワーク分析機器群、3…運用対象ネットワーク機器群、
10…利用者、20…利用端末、21…ネットワーク機器、22…サーバ、23…サービス提供ネットワーク、24…サービス環境、30…運用者、40…運用端末、
100…ネットワーク監視装置、101…ネットワーク監視部、102…記憶部、110…ネットワーク監視情報DB、
200…セキュリティ監視装置、201…セキュリティ監視部、202…記憶部、210…セキュリティ監視情報DB、
300…サービス監視装置、301…サービス監視部、302…記憶部、310…サービス監視情報DB、
400…サービス管理装置、401…サービス管理部、402…記憶部、410…サービス管理情報DB、
500…ネットワーク障害分析装置、501…問合せ傾向分析部、502…関連データ収集部、503…記憶部、510…連携管理情報DB、
111…機器監視情報テーブル、112…ログ管理テーブル、
212…ログ管理テーブル、
311…サービス監視情報テーブル、312…ログ管理テーブル、
411…インシデント管理テーブル、412…構成管理テーブル、
511…モデル機器情報テーブル、512…モデル業務情報テーブル、513…ネットワーク性能情報テーブル、514…ネットワーク性能指標テーブル、515…通信経路情報テーブル、516…問合せグループ情報テーブル、517…監視データグループ情報テーブル