(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6381373
(24)【登録日】2018年8月10日
(45)【発行日】2018年8月29日
(54)【発明の名称】ネットワーク監視装置、ネットワーク監視方法およびプログラム
(51)【国際特許分類】
H04L 12/26 20060101AFI20180820BHJP
【FI】
H04L12/26
【請求項の数】7
【全頁数】15
(21)【出願番号】特願2014-176363(P2014-176363)
(22)【出願日】2014年8月29日
(65)【公開番号】特開2016-52011(P2016-52011A)
(43)【公開日】2016年4月11日
【審査請求日】2017年2月13日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100114258
【弁理士】
【氏名又は名称】福地 武雄
(74)【代理人】
【識別番号】100125391
【弁理士】
【氏名又は名称】白川 洋一
(72)【発明者】
【氏名】樫原 俊太郎
(72)【発明者】
【氏名】宮澤 雅典
(72)【発明者】
【氏名】林 通秋
【審査官】
大石 博見
(56)【参考文献】
【文献】
特開平05−207015(JP,A)
【文献】
特開2007−243855(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 12/26
(57)【特許請求の範囲】
【請求項1】
ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視装置であって、
監視対象のネットワークから、障害が発生したことを示すアラームを取得する監視部と、
前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、およびネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルから前記アラームを発した特定のネットワーク機器を含む関係表を全て抽出し、前記抽出した関係表の前記ネットワーク機器ごとの対応箇所の数値に基づいて前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す影響スコアを算出する影響スコア算出部と、
前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とする候補表示部と、を備えることを特徴とするネットワーク監視装置。
【請求項2】
前記影響スコア算出部は、前記算出した影響スコアの数値に基づいて前記各ネットワーク機器を示す情報および前記算出した影響スコアを含む影響スコアランキングを出力し、
前記候補表示部は、ユーザの操作を契機として、前記影響スコアランキングの各ネットワーク機器を示す情報に対して、ユーザが選択したネットワーク機器が根本原因であると仮定した場合の根本原因であるか波及結果であるかを示すフラグを付し、前記フラグを用いて、前記波及結果であるフラグが付されたネットワーク機器の情報をフィルタリングすることを特徴とする請求項1記載のネットワーク監視装置。
【請求項3】
前記テーブルは、ネットワーク機器が存在する地域または提供されるサービスに基づいて、予め分類されていることを特徴とする請求項1または請求項2記載のネットワーク監視装置。
【請求項4】
前記影響スコア算出部は、前記取得したアラームが、予め定められた条件に基づいて、監視対象外となっている場合は、前記アラームを発した特定のネットワーク機器の影響スコアの算出を停止すると共に前記アラームを発した特定のネットワーク機器を含む関係表を全て抽出し、前記抽出した関係表の前記ネットワーク機器ごとの対応箇所の数値に基づいて前記ネットワーク機器ごとに影響スコアを減算することを特徴とする請求項1から請求項3のいずれかに記載のネットワーク監視装置。
【請求項5】
前記予め定められた条件は、前記アラームのタイムスタンプ、前記アラームに対するackまたはclearの情報のいずれかであることを特徴とする請求項4記載のネットワーク監視装置。
【請求項6】
ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視方法であって、
監視対象のネットワークから、障害が発生したことを示すアラームを取得するステップと、
前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、およびネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルから前記アラームを発した特定のネットワーク機器を含む関係表を全て抽出し、前記抽出した関係表の前記ネットワーク機器ごとの対応箇所の数値に基づいて前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す影響スコアを算出するステップと、
前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とするステップと、を少なくとも含むことを特徴とするネットワーク監視方法。
【請求項7】
ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視装置のプログラムであって、
監視対象のネットワークから、障害が発生したことを示すアラームを取得する処理と、
前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、およびネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルから前記アラームを発した特定のネットワーク機器を含む関係表を全て抽出し、前記抽出した関係表の前記ネットワーク機器ごとの対応箇所の数値に基づいて前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す影響スコアを算出する処理と、
前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とする処理と、の一連の処理を、コンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視装置、ネットワーク監視方法およびプログラムに関する。
【背景技術】
【0002】
従来から、多数のネットワーク機器で構成された大規模ネットワークが利用されている。大規模ネットワークを一元管理する場合、各ネットワーク機器から通知される障害アラームも多数発生する。ネットワーク障害は、単体の機器が故障した場合でも、物理的、論理的およびプロトコル的に接続された周辺の機器に影響が波及するため、監視者に提示される多数のアラームの中には、根本原因のアラームと波及結果のアラームとが混在することとなる。このため、各障害に迅速に対応する効率的なネットワーク運用管理を実現させるためには、根本原因アラームと波及結果アラームを区別する必要がある。
【0003】
特許文献1には、アラーム情報と関連する論理パスを紐づけて、波及範囲を特定するシステムが開示されている。また、特許文献2には、アラームだけでなくサービス品質監視の情報を使うことにより、サービスに影響する根本原因を特定する技術が開示されている。また、特許文献3には、既定の波及アラームマスクのルールに基づいて、アラーム到着の集中を軽減する技術が開示されている。さらに、特許文献4には、既定のコリレーションルールに合致したものをフィルタリングする技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2014−107724号公報
【特許文献2】特開2003−092571号公報
【特許文献3】特開2007−259316号公報
【特許文献4】特開2006−338305号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、根本原因アラームがあることが前提とされ、ルールを参照し、波及結果アラームのマスクを行なっているため、根本原因となっているネットワーク機器が特定できない状態では、適用することができない。
【0006】
本発明は、このような事情に鑑みてなされたものであり、根本原因のみを表示する監視ビューを表示することができるネットワーク監視装置、ネットワーク監視方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のネットワーク監視装置は、ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視装置であって、監視対象のネットワークから、障害が発生したことを示すアラームを取得する監視部と、前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出する影響スコア算出部と、前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とする候補表示部と、を備えることを特徴とする。
【0008】
このように、アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出し、ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、根本原因として選択されなかったネットワーク機器の情報を非表示とするので、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、障害原因の特定を迅速に行なうことが可能となる。
【0009】
(2)また、本発明のネットワーク監視装置において、前記影響スコア算出部は、前記各ネットワーク機器を示す情報および前記算出した影響スコアを含むリストを出力し、前記候補表示部は、ユーザの操作を契機として、前記リストの各ネットワーク機器を示す情報に対して、根本原因であるか波及結果であるかを示すフラグを付し、前記フラグを用いて、前記波及結果であるフラグが付されたネットワーク機器の情報をフィルタリングすることを特徴とする。
【0010】
このように、各ネットワーク機器を示す情報および算出した影響スコアを含むリストを出力し、ユーザの操作を契機として、リストの各ネットワーク機器を示す情報に対して、根本原因であるか波及結果であるかを示すフラグを付し、フラグを用いて、波及結果であるフラグが付されたネットワーク機器の情報をフィルタリングするので、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、根本原因に関わるネットワーク機器の情報のみを提供することが可能となる。
【0011】
(3)また、本発明のネットワーク監視装置において、前記テーブルは、ネットワーク機器が存在する地域または提供されるサービスに基づいて、予め分類されていることを特徴とする。
【0012】
このように、テーブルは、ネットワーク機器が存在する地域または提供されるサービスに基づいて、予め分類されているので、分類された地域またはサービスに応じて影響スコアを算出しておくことによって、アラーム監視端末の表示を変更する度に再計算をする必要が無くなり、迅速な情報の提供が可能となる。
【0013】
(4)また、本発明のネットワーク監視装置において、前記影響スコア算出部は、前記取得したアラームが、予め定められた条件に基づいて、監視対象外となっている場合は、影響スコアの算出を停止することを特徴とする。
【0014】
このように、取得したアラームが、予め定められた条件に基づいて、監視対象外となっている場合は、影響スコアの算出を停止するので、障害状態の時間変化に追従した情報の提供が可能となる。例えば、一定時間内のアラームのみを監視対象とすることによって、監視時間から対象外となったアラームや、ack(監視者確認済)、clear(障害復旧済み)などのユーザからのアクションが取られたアラームを影響スコアの算出の対象外とする。これにより、障害状態の時間変化を逃さないようにすることができる。
【0015】
(5)また、本発明のネットワーク監視装置において、前記候補表示部は、ユーザからのリクエストに応じて、前記根本原因として選択されたネットワーク機器の情報をアラーム監視端末に出力することを特徴とする。
【0016】
このように、ユーザからのリクエストに応じて、前記根本原因として選択されたネットワーク機器の情報をアラーム監視端末に出力するので、ユーザは、根本原因に関わるネットワーク機器を迅速に特定することが可能となる。その結果、復旧までの時間を短縮させることが可能となる。
【0017】
(6)また、本発明のネットワーク監視方法は、ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視方法であって、監視対象のネットワークから、障害が発生したことを示すアラームを取得するステップと、前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出するステップと、前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とするステップと、を少なくとも含むことを特徴とする。
【0018】
このように、アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出し、ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、根本原因として選択されなかったネットワーク機器の情報を非表示とするので、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、障害原因の特定を迅速に行なうことが可能となる。
【0019】
(7)また、本発明のプログラムは、ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視装置のプログラムであって、監視対象のネットワークから、障害が発生したことを示すアラームを取得する処理と、前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出する処理と、前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とする処理と、の一連の処理を、コンピュータに実行させることを特徴とする。
【0020】
このように、アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出し、ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、根本原因として選択されなかったネットワーク機器の情報を非表示とするので、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、障害原因の特定を迅速に行なうことが可能となる。
【発明の効果】
【0021】
本発明によれば、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、障害原因の特定を迅速に行なうことが可能となる。
【図面の簡単な説明】
【0022】
【
図1】本実施形態に係るネットワーク監視装置の概略構成を示す図である。
【
図2】本実施形態において想定するネットワーク構成図である。
【
図3A】関係表に対応するネットワーク構成例を示す図である。
【
図3B】関係表に対応するネットワーク構成例を示す図である。
【
図3C】関係表に対応するネットワーク構成例を示す図である。
【
図3D】関係表に対応するネットワーク構成例を示す図である。
【
図3E】関係表に対応するネットワーク構成例を示す図である。
【
図4A】ネットワーク設計的グルーピングの関係表を示す図である。
【
図4B】ネットワーク設計的グルーピングの関係表を示す図である。
【
図4C】ネットワーク設計的グルーピングの関係表を示す図である。
【
図4D】ネットワーク設計的グルーピングの関係表を示す図である。
【
図4E】ネットワーク設計的グルーピングの関係表を示す図である。
【
図4F】ネットワーク設計的グルーピングの関係表を示す図である。
【
図5】影響スコア算出部の動作を示すフローチャートである。
【
図6】グルーピング関係表の属性分類を示す図である。
【
図7】グルーピング関係表の属性分類を用いた影響スコアデータベースのデータ保存方法の一例を示す図である。
【
図8A】障害監視範囲の設定動作を示すフローチャートである。
【
図9】本実施形態に係るネットワーク監視装置の動作例を示すフローチャートである。
【
図12A】候補の中からフィルタを適用して、いずれかのノードを選択した例を示す図である。
【
図12B】候補の中からフィルタを適用して、いずれかのノードを選択した例を示す図である。
【発明を実施するための形態】
【0023】
本発明者らは、従来の技術では、根本原因アラームが前提となっており、ルールを参照し、波及結果アラームのマスクを行なっているため、根本原因がどこにあるのかが不明である状態では適用することができない点に着目し、観点の異なる複数の障害影響範囲の関連表を用いることによって、障害発生時に影響が集中するネットワーク機器を数値評価し、そのネットワーク機器が根本原因であると仮定した場合の根本原因のみを表示することによって、障害原因の特定を迅速に行なうことができることを見出し、本発明をするに至った。
【0024】
すなわち、本発明のネットワーク監視装置は、ネットワーク障害の根本原因となっているネットワーク機器を特定するネットワーク監視装置であって、監視対象のネットワークから、障害が発生したことを示すアラームを取得する監視部と、前記アラームを取得した場合、ネットワークを設計する上で影響を与え合うネットワーク機器から構成される複数のグループ同士の関係性を示すテーブル、ネットワーク機器同士の物理的配置関係から定められる複数のグループ同士の関係性を示すテーブル、またはネットワークプロトコルから定められる複数のグループ同士の関係性を示すテーブルの少なくとも一つを用いて、前記各ネットワーク機器が前記障害によって受ける影響の度合いを示す障害影響スコアを算出する影響スコア算出部と、前記ネットワーク機器のいずれかが根本原因として選択された場合、選択されたネットワーク機器の情報を表示する一方、前記根本原因として選択されなかったネットワーク機器の情報を非表示とする候補表示部と、を備えることを特徴とする。
【0025】
これにより、本発明者らは、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、障害原因の特定を迅速に行なうことを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。
【0026】
図1は、本実施形態に係るネットワーク監視装置の概略構成を示す図である。このネットワーク監視装置1は、アラーム監視部3、影響スコア算出部5、グルーピング関係表データベース7、影響スコアデータベース9および候補表示部13を備えている。アラーム監視部3は、監視対象ネットワーク21から障害アラームを取得し、影響スコア算出部5にアラームを転送する。影響スコア算出部5は、アラームに基づいて、グルーピング関係表データベース7(ネットワーク設計グルーピング関係表群7a、物理配置グルーピング関係表群7b、プロトコルグルーピング関係表群7c)を参照して、各ネットワーク機器の影響スコアを算出する。そして、グルーピング関係表の属性分類を用いて影響スコアデータベース9に、地域単位影響スコア9aおよびサービス単位影響スコア9bに分類して記録する。その際、障害監視範囲の更新情報11を用いて、障害監視範囲外の情報を除外する。そして、候補表示部13は、利用者23からのフィルタリング要求に基づいて、アラーム監視端末25に対して、ユーザの選択した内容のアラームフィルタを提供する。
【0027】
図2は、本実施形態において想定するネットワーク構成図である。このネットワークは、以下の条件を満たす。
・ルータ1〜3の間では、経路情報が交換される。
・IP上は、ルータ同士が直接つながっていると認識する。
・物理接続では、それぞれ間にスイッチが入っている。
・装置1と装置2は、互いに通信をしている。
【0028】
このようなネットワークを、種々の視点から記述すると、次のようなグルーピング関係性が得られる。
図3A〜
図3Eは、関係表に対応するネットワーク構成例を示す図である。
(A)ネットワーク設計の観点からは、
図3Aに示すような構成が把握される。
(B)物理配置の観点からは、
図3Bに示すような構成が把握される。
(C)プロトコル(IPの場合)の観点からは、
図3Cに示すような構成が把握される。
(D)プロトコル(OSPF(Open Shortest Path First)の場合)の観点からは、
図3Dに示すような構成が把握される。
(E)プロトコル(何らかのサービスの場合)の観点からは、
図3Eに示すような構成が把握される。
【0029】
図4Aは、ネットワーク設計的グルーピングの関係表を示す図である。なお、
図4A〜
図4Fにおいて、影響がある場合を「1」と表わし、影響が無い場合を「0」と表わす。
図4Aにおいて、ルータが故障すると、途中経路が遮断する。ルータ間スイッチが故障すると、ルータ同士の途中経路が遮断する。装置収容スイッチが故障すると、装置への経路が遮断される。装置が故障した場合は、装置にのみ影響する。
【0030】
図4Bは、物理配置の関係表を示す図である。ここでは、それぞれ機器の物理収容関係でグルーピングされており、それぞれの電源設備と関わっている。
【0031】
図4Cは、プロトコル(IPの場合)の関係表を示す図である。ここでは、同じアドレス空間の機器に影響がある。
【0032】
図4Dは、プロトコル(OSPFの場合)の関係表を示す図である。それぞれのルータは、互いに経路交換を行なっているため、一つのルータが故障すると他のルータに影響がある。
【0033】
図4Eは、プロトコル(装置間のサービス)の関係表を示す図である。片側の装置が故障すると、もう一方の装置に影響がある。
【0034】
図4Fは、物理接続グルーピング関係表を示す図である。それぞれ機器の完全な物理接続関係が取得できる場合は、
図4Fに示す関係表を用いることが可能である。
【0035】
図5は、影響スコア算出部の動作を示すフローチャートである。まず、影響スコア算出部5がアラームを受信する(ステップS1)。例えば、ルータI/Fに障害が発生したとする。ここで、アラームは、時刻、アラーム種別(故障の種類等)、発出元機器種別、発出元機器IDなどの情報を含む。次に、グルーピング関係表の検索を行なう(ステップS2)。影響スコア算出部5は、アラーム発出元の機器IDを用いて、グルーピング関係表データベースを検索する。グルーピング関係表には、例えば、ネイバールータ関係表、物理接続スイッチ関係表、同一ラック搭載機器関係表、同一局舎収容機器関係表、OSPF(Open Shortest Path First)交換機関係表などが含まれる。グルーピング関係表データベースは、対象機器を含んだ複数の関係表を全て返す。
【0036】
次に、影響スコアの加算処理を行なう(ステップS3)。ここでは、検索結果の全ての関係表に基づいて、対象機器に加算する。影響スコアデータベースは、影響スコアを記録する。各機器の障害の影響スコアは、影響スコアデータベースに格納され、フィルタ生成時に参照される。最後に、次のアラームの到着を待機して(ステップS4)、アラームを受信したら、ステップS1に遷移する。
【0037】
図6は、グルーピング関係表の属性分類を示す図である。影響スコア算出部は、影響スコアをカウントする上で、アラーム監視端末25で候補表示(監視view)を変更する動作に合わせて、一から再計算することを回避するために、
図6に示すように、地域およびサービスの種別に応じて予め分類する。例えば、ユーザが関東の音声系設備の障害関連情報のみを表示(監視)することを望む場合、
図6の太い点線で囲まれた表群のみを使って、影響範囲をカウントする。
【0038】
図7は、グルーピング関係表の属性分類を用いた影響スコアデータベースのデータ保存方法の一例を示す図である。グルーピング関係表は、地域とサービス毎に分類されている。例えば、「地域」であれば、関東、関西、中部、北陸、東北、北海道、中国、四国、九州、沖縄などである。また、「サービス」であれば、音声、データ、共通などである。影響スコアの計算済みのデータは、
図4に示すように、要素に分割された形で保持する。これにより、例えば、関東・関西の音声のみのデータを算出するためには、一からの再計算をする必要がなく、「関東音声」と「関西音声」のデータの加算のみで表示をすることが可能となる。
【0039】
図8Aは、障害監視範囲の設定動作を示すフローチャートである。ここでは、一定時間内のアラームのみを監視するため、監視時間から対象外となったアラームや、ack(監視者確認済)、clear(障害復旧済み)などのユーザからのアクションが取られたアラームも影響スコアから除外する。
図8Aにおいて、まず、タイマーを動作させる(ステップS11)。例えば、タイマーを10分にセットする。例えば、
図8Bに示すように、監視対象範囲を過去の10分間と定める。
【0040】
次に、対象外アラームを検出し(ステップS12)、グルーピング関係表を検索する(ステップS13)。ここでは、アラーム発出元の機器IDを用いてグルーピング関係表データベースを検索する。そして、グルーピング関係表データベースは、対象機器を含んだ複数の関係表全てを返す。次に、影響スコアの減算処理を行なう(ステップS14)。ここでは、関係表に基づいて、対象機器から減算を行なう。そして、影響範囲データベースに格納する。そして、タイマー動作を待機し(ステップS15)、ステップS11に遷移する。
【0041】
図9は、本実施形態に係るネットワーク監視装置の動作例を示すフローチャートである。まず、影響スコア算出機能において、アラームの受信を待機し(ステップS21)、受信したかどうかを判断する(ステップS22)。アラームを受信しなければステップS22の判断を繰り返し、アラームを受信した場合、グルーピング関係表の問い合わせを行なう(ステップS23)。
【0042】
ここで、本明細書においては、アラームは、原則として、SNMP trap(RFC 1157)に準拠しているものとする(https://www.ietf.org/rfc/rfc1157.txt)。SNMPのtrap−pdu構成は、以下の通りである。
・企業ID(enterprise)・・・製品の特定に利用。
・エージェントアドレス(agent-addr)・・・IPアドレスから機器IDの特定に利用する。
・「generic trapタイプ」および「specific trapタイプ」・・・障害内容の特定に利用する。
・タイムスタンプ(time stamp)・・・発生時刻の特定に利用する。
・その他、追加情報(variable-binding)がある。
【0043】
図10は、具体的なアラームの例を示す図である。本実施形態では、アラーム情報から以下の要素を抽出し、グルーピング関係表を検索する際のキーとして利用する。
・機器種別(企業IDを元に機器を特定)
・機器ID(IPアドレスの割り当てから、一意に特定)
・アラーム種別(trapタイプと追加情報から特定)
【0044】
次に、グルーピング関係表を受信し(ステップS24)、影響スコアを算出する(ステップS25)。ステップS25の後、影響スコアの算出結果をデータベースに反映し(ステップS26、ステップS38)、ステップS21に遷移する。
【0045】
一方、監視範囲設定機能において、タイマーが設定時刻となることを待機し(ステップS28)、グルーピング関係表の問い合わせを行なう(ステップS29)。次に、グルーピング関係表を受信し(ステップS30)、対象外の影響スコアを算出する(ステップS31)。そして、対象外の影響スコアの算出結果をデータベースに反映し(ステップS32、ステップS38)、ステップS28に遷移する。
【0046】
一方、フィルタ生成機能において、影響スコアデータベースを参照し、影響スコアランキングを提示する(ステップS33)。次に、対象機器選定が完了すると(ステップS34)、グルーピング関係表の問い合わせを行なう(ステップS35)。次に、グルーピング関係表を受信し(ステップS36)、根本原因であるか波及結果であるかを示すフラグを生成して(ステップS37)、ステップS42に遷移する。
【0047】
一方、利用者において、ステップS22を介してアラームを受信したことを目視確認すると(ステップS39)、影響スコアランキングを確認する(ステップS40)。
図11Aおよび
図11Bは、影響スコア算出例を示す図である。アラーム情報に基づいて、現在発生中の障害の影響度合いの大きい、すなわち、スコアが高いノードのランキングを作成する。そして、監視者は、ランキングを参考として、当該ノードが根本原因である場合を仮定したアラームフィルタをリストに適用する。
図12Aおよび
図12Bは、候補の中からフィルタを適用して、いずれかのノードを選択した例を示す図である。フラグにより、波及アラームはマスクされ、非表示となる。その結果、根本フラグのノードのみが候補として表示される。そして、根本原因候補機器を選定すると(ステップS41)、ステップS34に遷移する。そして、ステップS37において、根本・波及フラグが生成されると、フラグに基づいて、フィルタを適用する(ステップS42)。最後に、障害復旧作業を実施して(ステップS43)、終了する。
【0048】
以上説明したように、本実施形態によれば、大量の障害アラームが短時間に発生した場合であっても、根本原因と波及結果とを区別し、障害原因の特定を迅速に行なうことが可能となる。
【符号の説明】
【0049】
1 ネットワーク監視装置
3 アラーム監視部
5 影響スコア算出部
7 グルーピング関係表データベース
7a ネットワーク設計グルーピング関係表群
7b 物理配置グルーピング関係表群
7c プロトコルグルーピング関係表群
9 影響スコアデータベース
9a 地域単位影響スコア
9b サービス単位影響スコア
11 障害監視範囲の更新部
13 候補表示部
21 監視対象ネットワーク
23 利用者
25 アラーム監視端末