(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023005049
(43)【公開日】2023-01-18
(54)【発明の名称】障害検知装置及び障害検知方法
(51)【国際特許分類】
H04L 43/00 20220101AFI20230111BHJP
【FI】
H04L12/26
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021106736
(22)【出願日】2021-06-28
(71)【出願人】
【識別番号】000233295
【氏名又は名称】株式会社日立情報通信エンジニアリング
(74)【代理人】
【識別番号】110000176
【氏名又は名称】一色国際特許業務法人
(72)【発明者】
【氏名】増田 千絵
(72)【発明者】
【氏名】三村 和
(72)【発明者】
【氏名】坂口 和也
【テーマコード(参考)】
5K030
【Fターム(参考)】
5K030GA14
5K030HA08
5K030MB05
5K030MB09
5K030MB10
5K030MB13
5K030MC08
5K030MD07
(57)【要約】 (修正有)
【課題】ネットワークの安定稼働を提供する障害検知装置及び障害検知方法を提供する。
【解決手段】監視対象装置の障害を検知する、プロセッサ及びメモリを備える障害検知装置であって、ヒストグラム生成部及び障害検知部を含む。ヒストグラム生成部は、監視対象装置の稼働状態を表す第1性能値が時系列に記録された第1性能データから、所定期間における第1性能値の度数を所定の階級別に集計した第1ヒストグラムを生成し、障害検知部は、第1ヒストグラムの各階級の度数を、基準として定められた第2ヒストグラムの各階級の度数と比較した結果に応じて、所定期間に監視対象装置の障害が発生したか否かを検知する。
【選択図】
図17
【特許請求の範囲】
【請求項1】
監視対象装置の障害を検知する障害検知装置であって、
プロセッサ及びメモリを備え、
前記監視対象装置の稼働状態を表す第1性能値が時系列に記録された第1性能データから、所定期間における前記第1性能値の度数を所定の階級別に集計した第1ヒストグラムを生成するヒストグラム生成部と、
前記第1ヒストグラムの各階級の度数を、基準として定められた第2ヒストグラムの各階級の度数と比較した結果に応じて、前記所定期間に前記監視対象装置の障害が発生したか否かを検知する障害検知部と、
を備える障害検知装置。
【請求項2】
請求項1に記載の障害検知装置であって、
前記障害検知部は、
前記第1ヒストグラムにおける度数が前記第2ヒストグラムよりも第1所定値又は第1所定割合以上大きくなる階級が検出された場合に、前記所定期間に前記監視対象装置の障害が発生したことを検知する、障害検知装置。
【請求項3】
請求項1に記載の障害検知装置であって、
前記障害検知部は、
前記第1ヒストグラムにおける度数が前記第2ヒストグラムよりも第1所定値又は第1所定割合以上大きくなる階級が検出され、かつ、前記階級よりも上位の階級における前記第1ヒストグラムの度数が第2所定値以下である場合に、前記所定期間に前記監視対象装置の障害が発生したことを検知する、障害検知装置。
【請求項4】
請求項1に記載の障害検知装置であって、
前記ヒストグラム生成部は、前記第1性能値と相関性を有する前記監視対象装置の稼働状態を表す第2性能値が時系列に記録された第2性能データから、前記所定期間における前記第2性能値の度数を前記所定の階級別に集計することにより前記第2ヒストグラムを生成する、障害検知装置。
【請求項5】
請求項4に記載の障害検知装置であって、
前記監視対象装置の稼働状態を表す複数種類の性能データの中で互いに相関性を有する一対の性能データの識別情報を対応付けて記憶する相関メトリックペアテーブルと、
をさらに備え、
前記ヒストグラム生成部は、前記相関メトリックペアテーブルを参照することにより特定される前記第1性能データ及び前記第2性能データから、前記第1ヒストグラム及び前記第2ヒストグラムを生成する、障害検知装置。
【請求項6】
請求項1に記載の障害検知装置であって、
前記ヒストグラム生成部は、隣り合う階級の度数の差のばらつきが小さくなるように前記第1ヒストグラムを平滑化することにより、前記第2ヒストグラムを生成する、障害検知装置。
【請求項7】
請求項1に記載の障害検知装置であって、
前記監視対象装置の稼働状態を表す第3性能値が時系列に記録された第3性能データから、前記第3性能値が所定値以下となった1つ以上の期間をそれぞれ前記所定期間として特定する期間特定部と、
をさらに備える、障害検知装置。
【請求項8】
請求項7に記載の障害検知装置であって、
前記第3性能値が前記所定値以下となった前記各所定期間を示す情報と、前記各所定期間のうち、前記監視対象装置の障害が検知された期間を示す情報と、を出力する障害出力部と、
をさらに備える、障害検知装置。
【請求項9】
請求項1に記載の障害検知装置であって、
前記監視対象装置は、通信ネットワークを利用してデータを所定の宛先に送信する第1情報処理装置と、前記データの宛先である第2情報処理装置と、前記通信ネットワークを構成する複数のデータ転送装置と、のいずれかであり、
前記第1情報処理装置、前記第2情報処理装置、及び前記複数のデータ転送装置のそれぞれについて、データを転送する際の次の転送先を定めたルーティングテーブルを記憶するルーティングテーブル記憶部と、
前記データの送信元である前記第1情報処理装置の識別情報と、前記データの宛先である前記第2情報処理装置の識別情報と、を取得する装置情報取得部と、
前記第1情報処理装置の識別情報、前記第2情報処理装置の識別情報、及び前記ルーティングテーブルを元に特定される、前記第1情報処理装置から前記第2情報処理装置まで前記データを送信する際の転送経路上の各装置を前記監視対象装置として特定する監視対象装置特定部と、
をさらに備える、障害検知装置。
【請求項10】
請求項9に記載の障害検知装置であって、
前記監視対象装置として特定されたデータ転送装置毎に、単位時間当たりのパケットドロップ数を元に算出される第3性能値が所定値以下となった1つ以上の期間をそれぞれ前記所定期間として特定する期間特定部と、
をさらに備える、障害検知装置。
【請求項11】
監視対象装置の障害を検知する方法であって、
プロセッサ及びメモリを備えた障害検知装置が、
前記監視対象装置の稼働状態を表す第1性能値が時系列に記録された第1性能データから、所定期間における前記第1性能値の度数を所定の階級別に集計した第1ヒストグラムを生成し、
前記第1ヒストグラムの各階級の度数を、基準として定められた第2ヒストグラムの各階級の度数と比較した結果に応じて、前記所定期間に前記監視対象装置の障害が発生したか否かを検知する、障害検知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害検知装置及び障害検知方法に関する。
【背景技術】
【0002】
今日、通信ネットワークは社会インフラの一つとなり、安定稼働が強く求められるようになっている。ネットワークの安定稼働とは、通信可能、且つ、快適な速度で通信できることである。
【0003】
特許文献1には、管理対象システム内のエラーメッセージや性能データの不整合では発見できないサイレント障害を発見する障害分析システムが記載されている。
【0004】
この障害分析システムは、蓄積データ処理部が、管理対象システムの性能に関する時系列データの変化の周期を検出し、この検出した周期の各位相毎に、位相の過去の時系列データから将来の位相における性能データの期待値を算出して蓄積し、障害判断部が、検出した周期中の各位相毎に、算出された位相における性能データの期待値と位相における管理対象システムの性能データの実測値とを比較して、性能データの実測値の異常を判定する。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、IT(Information Technology)化の進展に伴い、ネットワークは急速に構成要素が増大して複雑化しており、安定稼働の困難性が増している。そのためネットワークの保守、運用の重要性が増しており、ネットワークに何等かの障害が発生した場合には、障害の発生期間を最小化することが切望されている。
【0007】
そのためには、顧客からネットワークに関するクレームを受けてから、原因を特定するまでの時間を短縮することが必要となる。
【0008】
ネットワークに生じた障害の原因を特定するには、多々あるネットワークの構成要素の中から、原因となっている可能性がある構成要素を絞り込むことが必要であるが、その際に用いられる以下の4つの技術が知られている。
【0009】
1.End-to-Endパス分析:顧客がデータ送信を行った際に使用した起点と終点の間のパス上にあるネットワーク装置を特定して可視化する技術
【0010】
2.閾値監視:ネットワーク装置の性能値が所定の閾値を超える場合、障害可能性ありと特定する技術
【0011】
3.ルールベース分析(イベント相関):ある障害が起きた時に発生する複数のイベントの条件をルールとして設定しておき、実際に障害が起きたときに、ルールに合致するイベント群があれば、障害可能性ありと特定する技術
【0012】
4.アノマリ分析(複数メトリック連動):ネットワーク装置の性能値が「いつも通り
(例えば機械学習活用)」でなければ、障害可能性ありと特定する技術
【0013】
例えば、End-to-Endパス分析でデータの転送経路の可視化を行いながら、閾値監視によって正常か異常かを判定したり、ルールベース分析によって、ネットワーク装置の性能値の挙動が、予め記憶しておいた異常発生時の性能値の変動パターンに沿った挙動かどうかで正常か異常かを判定したり、システム全体の動作から性能情報間の相関関係を考慮してアノマリ分析を行うことで、正常か異常かを判定する。このようにしてネットワーク障害の原因を特定する時間を短縮することができる。
【0014】
しかしこの場合、サイレント障害に関しては上記閾値監視やルールベース分析では原因を絞り込むことができない場合がある。また、上記アノマリ分析を適用した場合でも、原因個所が推測できない場合や推測が外れた場合には、システムを構成する装置毎の管理者や専門家が集まり、発生している障害の内容から原因個所を大まかに推測して、さらに時間をかけてすべての性能情報を調べることになり、原因を特定するまでに数日から数週間といった時間を要する場合がある。
【0015】
またサイレント障害は、装置のバグや設定ミス等で性能データの値に頭打ち(性能の上限)が発生しているような場合にも起こり得る。この場合は、そもそも過去のデータも頭打ちが発生しているため、特許文献1のような技術では頭打ちを発見することはできない。
【0016】
本発明は、このような点を鑑みてなされたものであり、ネットワークの安定稼働を提供可能な障害検知装置及び障害検知方法を提供することを目的とする。
【課題を解決するための手段】
【0017】
上記課題を解決する障害検知装置は、監視対象装置の障害を検知する障害検知装置であって、プロセッサ及びメモリを備え、前記監視対象装置の稼働状態を表す第1性能値が時系列に記録された第1性能データから、所定期間における前記第1性能値の度数を所定の階級別に集計した第1ヒストグラムを生成するヒストグラム生成部と、前記第1ヒストグラムの各階級の度数を、基準として定められた第2ヒストグラムの各階級の度数と比較した結果に応じて、前記所定期間に前記監視対象装置の障害が発生したか否かを検知する障害検知部と、を備える。
【0018】
その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。
【発明の効果】
【0019】
本発明によれば、ネットワークの安定稼働を提供することができる。
【図面の簡単な説明】
【0020】
【
図1】実施形態に係る全体システム構成図を示す図である。
【
図2】実施形態に係るルーティングテーブルの一例を示したテーブルである。
【
図3】実施形態に係るメトリックテーブルの一例を示したテーブルである。
【
図4】実施形態に係る性能データテーブルの一例を示したテーブルである。
【
図5】実施形態に係る通信品質マップテーブルの一例を示したテーブルである。
【
図6】実施形態に係る相関メトリックペアテーブルの一例を示したテーブルである。
【
図7】実施形態に係るアノマリテーブルの一例を示したテーブルである。
【
図8】実施形態に係る全体処理シーケンスを示す図である。
【
図9】実施形態に係る起点IPから終点IPに至るパスを特定する処理シーケンスを示す図である。
【
図10】実施形態に係るパス上のネットワーク装置の通信品質のマップを作成する処理シーケンスを示す図である。
【
図11】実施形態に係る通信品質劣化の原因となるアノマリを検出する処理シーケンスを示す図である。
【
図12】実施形態に係る二つのメトリックの間の相関係数の低下を検出することで、アノマリを見つける処理シーケンスを示す図である。
【
図13】実施形態に係るアノマリを検出する別の方法の処理シーケンスを示す図である。
【
図14】実施形態に係るアノマリを検出する別の方法の処理シーケンスを示す図である。
【
図15】実施形態に係る通信品質の劣化とアノマリを関連づける処理シーケンスを示す図である。
【
図16】実施形態に係るネットワーク通信品質劣化の原因を分析した結果をユーザに伝えるための画面例を示す図である。
【
図17】実施形態に係る第1ヒストグラム及び第2ヒストグラムが生成される様子を示す図である。
【
図18】実施形態に係る第1ヒストグラム及び第2ヒストグラムが生成される様子を示す図である。
【
図19】実施形態に係る障害検知装置の機能構成例を示す図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施の形態を、図面を用いて説明する。なお、以下で説明する実施の形態は一例にすぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。さらに、以下に示した実施の形態は単独で適用してもよいし、複数もしくはすべての実施の形態を組み合わせて適用しても構わない。
<構成>
【0022】
図1は、本発明の実施形態に係る障害検知装置102及び監視対象システム101を含む全体システムの構成図である。
【0023】
監視対象システム101は、複数の監視対象装置を含んで構成される情報システムである。監視対象装置は、障害検知装置102によって、障害が発生したか否かを監視される。
【0024】
監視対象システム101は、一例として、端末103、SW(Switch)104、FW(Fire Wall)105、ルータ106、業務システムサーバ107を有している。
【0025】
端末103、SW104、FW105、ルータ106、業務システムサーバ107の各装置は、障害検知装置102によって監視される監視対象装置である。
【0026】
監視対象システム101を構成する各監視対象装置は、それぞれ障害検知装置102と通信可能に接続されている。
【0027】
端末103及び業務システムサーバ107は、データの送信元及び送信先(宛先)となるコンピュータ(第1情報処理装置及び第2情報処理装置)である。例えば端末103から業務システムサーバ107に対して、所定のリクエストを送信する。そうすると業務システムサーバ107は、端末107に対してリクエストに応じたレスポンスを送信する。このようなリクエストやレスポンスがデータの一例である。
【0028】
SW104、FW105及びルータ106はいずれも、端末103と業務システムサーバ107との間を通信可能に接続するネットワーク500を構成するデータ転送装置である。
【0029】
なお、
図1に示した監視対象システム101の構成は一例であり、端末103、SW104、FW105、ルータ106、業務システムサーバ107のそれぞれの台数や接続態様は、
図1に示した例に限定されない。
【0030】
障害検知装置102は、プロセッサ及びメモリを有し、監視対象装置の障害を検知するコンピュータである。
【0031】
障害検知装置102は、HDD(Hard Disk Drive)108、メモリ109、CPU(Central Processing Unit)110、ネットワークインタフェースカード(以下NICと呼ぶ)111、入力装置119、出力装置120及び記録媒体読取装置121を有する。
【0032】
HDD108は、障害検知装置102によって実行あるいは処理されるNWパフォーマンス分析プログラム118や、ルーティングテーブル112、メトリックテーブル113、性能データテーブル114、通信品質マップテーブル115、相関メトリックペアテーブル116、アノマリテーブル117等の各種のデータを格納する。HDD108は、後述するルーティングテーブル記憶部204として機能する。
【0033】
HDD108に記憶されているNWパフォーマンス分析プログラム118や各種のデータがメモリ109に読み出されてCPU110(プロセッサ)によって実行あるいは処理されることにより、障害検知装置102の各種機能が実現される。例えば障害検知装置102は、監視対象装置の障害を検知する。
【0034】
ここで、HDD108は不揮発性の記憶装置であり、SSD(Solid State
Drive)やフラッシュメモリでもよい。
【0035】
またNWパフォーマンス分析プログラム118は、本実施形態に係る障害検知装置102が有する各種機能を実現するためのプログラムを総称しており、例えば、障害検知装置102上で動作するアプリケーションプログラムやOS(Operating System)、種々のライブラリ等を含む。
【0036】
記録媒体読取装置121は、SDカードやDVD等の記録媒体800に記録された各種のプログラム(NWパフォーマンス分析プログラム118など)やデータを読み取り、HDD108に格納する。
【0037】
NIC111は、監視対象装置から各種の性能データなどの様々なデータを取得する。またNIC111は、不図示の他のコンピュータと各種プログラムやデータの授受を行ってもよい。例えば他のコンピュータに上述したNWパフォーマンス分析プログラム118を格納しておき、障害検知装置102がこのコンピュータからNWパフォーマンス分析プログラム118をダウンロードするようにすることができる。
【0038】
入力装置119は、ユーザによるコマンドやデータの入力を受け付ける装置であり、各種ボタンやスイッチ、キーボード、タッチパネルディスプレイ上でのタッチ位置を検出するタッチセンサ、マイクなどの入力インタフェース、加速度センサ、温度センサ、GPS受信機やコンパスなどの位置検出センサ、カメラなどを含んでもよい。
【0039】
また出力装置109は、例えばディスプレイなどの表示装置、スピーカ、バイブレータ、照明などの出力ユーザインタフェースである。
【0040】
なお、HDD108は、例えば、SSD(Solid State Drive)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の非一時的な記録媒体の読取/書込装置、クラウドサーバの非一時的な記憶領域等である。HDD108には、記録媒体読取装置121やNIC111を介して、非一時的な記録媒体や非一時的な記憶装置を備えた他の情報処理装置からプログラムやデータを読み込むことができる。HDD108に格納(記憶)されているプログラムやデータはメモリ109に随時読み込まれる。
【0041】
次に、ルーティングテーブル112について説明する。
【0042】
図2は、ルーティングテーブル112の構成を示す。ルーティングテーブル112には、SW104、FW105、ルータ106等のデータ転送装置や、端末103及び業務システムサーバ107を含む、監視対象システム101を構成する各監視対象装置について、データを転送する際の次の転送先が定義されている。
【0043】
つまりこのルーティングテーブル112には、例えば第1情報処理装置から第2情報処理装置までデータを送信するとした場合、データの送信元となる第1情報処理装置から、このデータの宛先となる第2情報処理装置までの、データを送信する際の転送経路上の各装置を特定するための情報が格納されている。
【0044】
ルーティングテーブル112の情報は、データ転送装置同士が情報交換を行い、随時更新されていく。いずれかのデータ転送装置に不具合が生じてデータを転送できなくなった場合には、迂回経路を案内できるようにルーティングテーブル112が書き換えられ、また、手動で設定することも可能である。
【0045】
ルーティングテーブル112は、監視対象システム101を構成する監視対象装置自身のIPアドレスが格納されるIP欄と、宛先ルートのIPアドレスが格納される宛先ネットワーク欄と、出力インタフェースが格納されるIF欄と、パケット(データ)の転送先が格納される転送先欄を有して構成される。
【0046】
次にメトリックテーブル113について説明する。
【0047】
図3は、メトリックテーブル113の構成を示す。メトリックテーブル113には、各監視対象装置で計測あるいは算出されるメトリックの一覧情報が格納されている。
【0048】
メトリックは、各監視対象装置の稼働状態を推定するための指標である。例えば
図3に示す例では、装置IP1のIF1では「パケットドロップ数」及び「送信バイト数」が計測されることが記載されている。
【0049】
パケットドロップ数や送信バイト数は、監視対象装置の稼働状態に応じて変動しているが、通常の稼働状態ではある程度想定された範囲内の値となっている。
【0050】
メトリックテーブル113は、各装置で定義されるメトリックに対して付与された一意の識別番号が格納されるメトリックID欄と、その装置が持つIPアドレス情報が格納されるIP欄と、その装置が持つインタフェース情報が格納されるIF欄と、その装置のメ
トリック名が格納されるメトリック名欄を有して構成される。
【0051】
次に、性能データテーブル114について説明する。
【0052】
図4は、性能データテーブル114の構成を示す。この性能データテーブル114には、メトリックテーブル113で定義されるメトリックID毎に、各監視対象装置の稼働状態を表す性能値が時系列に記録された性能データが格納されている。例えば
図4において、「0」や「3」等の各値は性能値であり、これらの各性能値の時系列の並びが性能データである。これらの各性能値や性能データは、各監視対象装置の稼働状態を表すデータである。
【0053】
性能データテーブル114は、各メトリックに対して付与された一意の識別番号が格納されるメトリックID欄と、性能値が測定あるいは算出された時刻が格納される時間欄と、その時刻での性能値が格納される値欄を有して構成される。
【0054】
次に通信品質マップテーブル115について説明する。
【0055】
図5は、通信品質マップテーブル115の構成を示す。この通信品質マップテーブル115には、性能データテーブル114に記録されているメトリックの性能値を、単位時間毎(例えば1時間毎)に集計したデータ(集計値)が格納されている。なお
図5では、パケットドロップ数をメトリックとした場合の例が示されている。つまり、
図5に示す例では、単位時間毎のパケットドロップ数の合計が記録されている。
【0056】
また詳細は後述するが、通信品質マップテーブル115に格納されている集計値(パケットドロップ数)は、第1情報処理装置から第2情報処理装置に至る転送経路上の監視対象装置の通信品質を表す。
【0057】
通信品質マップテーブル115は、監視対象装置のIPアドレス情報が格納されるIP欄と、監視対象装置のインタフェース情報が格納されるIF欄と、メトリックの性能値を集計するための集計間隔(単位時間)が格納される期間欄と、その期間での性能値の集計値(例えばパケットドロップ数の集計値)が格納されるパケットドロップ数欄から構成される。
【0058】
次に相関メトリックペアテーブル116について説明する。
【0059】
図6は、相関メトリックペアテーブル116の構成を示す。相関メトリックペアテーブル116は、各監視対象装置の稼働状態を表す複数種類の性能データの中で、互いに相関性を有する一対の性能データの識別情報(メトリックID)を対応付けて記憶する。このため相関メトリックペアテーブル116には、各監視対象装置のメトリックのペアの相関係数を算出したデータが格納されている。
【0060】
相関係数とは、2種類のデータの関係性の強さを表す指標である。-1から+1の間の値で表され、値が-1に近いほど強い負の相関があると評価され、+1に近いほど強い正の相関があると評価され、0に近いほど相関が弱いと評価される。
【0061】
本実施形態では、相関係数の絶対値を記録している。これにより、正の相関をもつ性能データのペアを用いる場合だけでなく、負の相関をもつ性能データのペアを用いる場合にも、監視対象装置のサイレント障害を検知することが可能となる。
【0062】
相関メトリックペアテーブル116に記憶される一対のメトリックIDは、同一の監視
対象装置で計測あるいは算出されるメトリックのIDのみならず、異なる監視対象装置で計測あるいは算出されるメトリックのIDでもよい。
【0063】
相関メトリックペアテーブル116は、メトリックのペアに対して付与された一意の識別番号が格納されるペアID欄と、ペアとして選ばれた各メトリックのIDが格納されるメトリックID1欄と、メトリックID2欄と、そのペアの相関係数(絶対値)を算出した結果が格納される相関係数の閾値欄を有して構成される。
【0064】
次にアノマリテーブル117について説明する。
【0065】
図7は、アノマリテーブル117の構成を示す。アノマリテーブル117には、障害検知装置102によって検出されたアノマリの情報が格納される。アノマリテーブル117は、各行に一つのアノマリ情報(アノマリレコードとも記す)を格納する。
【0066】
本来相関性を有するはずのメトリックのペア(例えば第1性能データと第2性能データ)の相関係数が閾値を下回っている場合や、詳細は後述するが、
図17に示すように、ペアとなる各メトリックについてそれぞれ性能値のヒストグラムを生成して比較した場合に、度数の差あるいは割合が基準値を超える階級が検出された場合などに、アノマリが検出される。
【0067】
アノマリテーブル117は、アノマリ情報に対して付与される一意識別子が格納されるアノマリID欄と、アノマリが発生したメトリックの識別子が格納されるメトリックID欄と、アノマリの発生期間が格納される期間欄と、アノマリの異常の度合いが格納されるスコア欄を有して構成される。
<障害検知方法>
【0068】
本実施形態に係る障害検知方法は、障害検知装置102が以下に説明する各処理手順を実行することにより実現される。
【0069】
図8に、障害検知装置102が実行する全体の処理手順を示す。障害検知装置102は、通信品質マップテーブル115に記録されたパケットドロップ数を元に、通信品質が劣化した監視対象装置と劣化した期間を見つけ、更に、同じ装置と期間でアノマリが検出された場合に、そのアノマリによってサイレント障害(通信品質の劣化)が発生したことを検知し、ユーザへ通知する。
【0070】
障害検知装置102は、まず、ネットワーク500の通信速度が遅いなど、通信品質が劣化したと連絡をしてきた顧客(ユーザ)の機器(第1情報処理装置)のIPアドレス(起点IPアドレス)と、通信先の機器(第2情報処理装置)のIPアドレス(終点IPアドレス)と、通信品質が劣化した期間を受領する(S801)。障害検知装置102は、この期間を分析対象期間として、以下の障害検知処理を実行する。
【0071】
障害検知装置102は、起点IPアドレス(第1情報処理装置の識別情報)と、終点IPアドレス(第2情報処理装置の識別情報)と、ルーティングテーブル112とを元に、第1情報処理装置から第2情報処理装置までデータを送信する際の転送経路を特定し、この転送経路上の各装置を監視対象装置として特定する。また障害検知装置102は、各監視対象装置のIPアドレスとIF名を特定する(S802)。この処理の詳細は、
図9を参照しながら説明する。
【0072】
続いて障害検知装置102は、転送経路上の各監視対象装置について、性能データテーブル114を参照して単位時間毎(例えば1時間毎)のパケットドロップ数を集計し、通
信品質マップテーブル115を作成する(S803)。
【0073】
これにより障害検知装置102は、通信品質が劣化した期間(性能低下期間)を特定する。この処理の詳細は、
図10を参照しながら説明する。
【0074】
そして障害検知装置102は、転送経路上の各監視対象装置で発生したアノマリを特定する(S804)。具体的には障害検知装置102は、相関メトリックペアテーブル116に記載されているメトリックのペアについて、性能データテーブル114を参照することで、上記通信品質が劣化した性能低下期間(所定期間)において各メトリックにアノマリが生じていないかどうかを特定する。そして障害検知装置102は、アノマリが発生している場合には、アノマリテーブル117を作成する。この処理の詳細は、
図11~
図14を参照しながら説明する。
【0075】
障害検知装置102は、S803で特定した通信品質の劣化と、S804で特定したアノマリと、を関連づけ、そのアノマリによって通信品質が劣化したことをユーザへ通知する(S805)。つまり障害検知装置102は、通信品質が劣化しかつアノマリが発生した監視対象装置とその期間を特定してユーザへ通知する。この処理の詳細は、
図15を参照しながら説明する。
【0076】
続いて、
図9に、障害検知装置102が、起点IP(第1情報処理装置)から終点IP(第2情報処理装置)に至るデータの転送経路(パス)を特定する処理手順を示す。
【0077】
障害検知装置102は、第1情報処理装置のIPアドレス(識別情報)を取得し、第1情報処理装置のIPアドレスを起点IPアドレスとして設定する。また障害検知装置102は、第2情報処理装置のIPアドレス(識別情報)を取得し、第2情報処理装置のIPアドレスを終点IPアドレスとして設定する。そして障害検知装置102は、起点IPアドレスを、変数「IPアドレス」に代入する(S901)。
【0078】
そして障害検知装置102は、変数「IPアドレス」の内容が終点IPアドレス(第2情報処理装置のIPアドレス)であれば、S906へ、そうでなければS903へ進む(S902)。
【0079】
変数「IPアドレス」の内容が終点IPアドレスでない場合、障害検知装置102は、不図示のIPアドレスリストに、変数「IPアドレス」の内容を追加する(S903)。
【0080】
そして障害検知装置102は、IPアドレスリストに追加したIPアドレスについてルーティングテーブル112を参照し、転送先のIPアドレスを取得する(S904)。
【0081】
障害検知装置102は、取得した転送先のIPアドレスを変数「IPアドレス」に設定する(S905)。
【0082】
そして障害検知装置102は、変数「IPアドレス」に設定した最新のIPアドレスが終点のIPアドレスとなるまで、S902~S905の処理を繰り返す。
【0083】
そして障害検知装置102は、変数「IPアドレス」の内容が終点IPアドレスであれば、IPアドレスリストに終点IPアドレスを追加して、処理を終了する(S906)。
【0084】
このようにして障害検知装置102は、第1情報処理装置から第2情報処理装置に至る転送経路上の各装置のIPアドレスを、IPアドレスリスト(不図示)に記録することができる。
【0085】
続いて、
図10に、障害検知装置102が性能データテーブル114を参照し、転送経路上の各監視対象装置における単位時間毎(例えば1時間毎)のパケットドロップ数を集計し、通信品質マップテーブル115を作成する処理手順を示す。
【0086】
本実施形態では、通信品質の指標としてパケットドロップ数の値を用いる。これは、ネットワーク500の不調はパケットドロップ数に端的に現れることが多いためである。
【0087】
しかし、パケットドロップ数以外にも、エラーパケット数やパケット再送回数もネットワーク500の不調を示す指標であると考えられるため、それらを指標としてもよい。
【0088】
障害検知装置102は、上述した分析対象期間と、パス(転送経路)上の監視対象装置のIPアドレスリスト(不図示)を受領する(S1001)。
【0089】
そして障害検知装置102は、受領したIPアドレスリストにある、各IPアドレスについて、通信品質のマップ作成処理を実施しているかチェックする。障害検知装置102は、未処理のIPアドレスがある場合ステップS1003へ進み、未処理のIPアドレスがない場合には終了する(S1002)。
【0090】
障害検知装置102は、通信品質のマップ作成処理が未処理であるIPアドレスから、1つを選択する(S1003)。
【0091】
そして障害検知装置102は、メトリックテーブル113と性能データテーブル114を用いて、選択したIPアドレスで特定される監視対象装置のパケットドロップ数を取得する。そして、単位時間毎(例えば1時間毎)の合計値を計算する(S1004)。
【0092】
障害検知装置102は、S1004で計算した結果を、通信品質マップテーブル115に記載し、通信品質マップを作成する(S1005)。
【0093】
障害検知装置102は、未処理のIPアドレスがなくなるまで、ステップ1002~S1005の処理を繰り返す。
【0094】
このようにして、障害検知装置102は、通信品質マップテーブル115を参照することで、単位時間毎のパケットドロップ数が所定値以上(単位時間当たりのパケットドロップ数を元に算出される第3性能値が所定値以下)の監視対象装置及び期間(性能低下期間)を特定することができる。
【0095】
続いて、
図11に、障害検知装置102が、上記性能低下期間において通信品質劣化の原因となるアノマリが生じていないかどうかを特定する処理手順を示す。障害検知装置102は、相関メトリックペアテーブル116に記載されているメトリックのペアについて性能データテーブル114を参照することで、アノマリを特定する。
【0096】
なお障害検知装置102は、性能値が通常と異なるふるまいを示すメトリックをアノマリとして検出する。分析の対象となる装置は、パス(転送経路)上の監視対象装置である。
【0097】
障害検知装置102は、性能低下期間と、パス(転送経路)上の監視対象装置のIPアドレスリストを受領する(S1101)。
【0098】
そして障害検知装置102は、受領したIPアドレスリストに記録されている各監視対
象装置のIPアドレスについて、アノマリ検出処理を実施しているかチェックする(S1102)。
【0099】
障害検知装置102は、未処理のIPアドレスがある場合ステップS1103へ進み、未処理のIPアドレスがない場合には終了する。
【0100】
障害検知装置102は、アノマリ検出処理が未処理であるIPアドレスから、1つを選択する(S1103)。
【0101】
そして障害検知装置102は、メトリックテーブル113と相関メトリックペアテーブル116を用いて、そのIPアドレスで特定される監視対象装置についての全ての相関メトリックペアを取得する(S1104)。
【0102】
障害検知装置102は、未処理の相関メトリックペアがある場合、S1106へ進み、未処理の相関メトリックペアがない場合、S1108へ進む(S1105)。
【0103】
障害検知装置102は、未処理の相関メトリックペアがある場合、未処理の相関メトリックペアの中から一つを選択する(S1106)。
【0104】
そして障害検知装置102は、S1106で選択した相関メトリックペアの二つのメトリックの性能値を使ってアノマリの有無を検査し、アノマリが検出された場合アノマリテーブル117にレコードを作成する(S1107)。詳細な処理は、
図12、もしくは
図13で説明する。
【0105】
一方、障害検知装置102は、相関メトリックペアが存在しない場合、相関メトリックペアを使わずに、一つのメトリックの性能値を使ってアノマリを検出し、アノマリテーブル117にレコードを作成する(S1108)。詳細な処理は、
図14で説明する。
【0106】
続いて
図12に、障害検知装置102が、二つのメトリックのペア間の相関係数の低下を検出することで、アノマリを見つける処理手順(第1の方法)を示す。
【0107】
障害検知装置102は、まず、相関メトリックペアテーブル116を参照し、二つのメトリックのペアと、性能低下期間を受領する。ペアとなる二つのメトリックを、メトリック1、メトリック2と記す(S1201)。
【0108】
次に障害検知装置102は、時刻Tを、性能低下期間の最初の時刻として初期化する(S1202)。
【0109】
障害検知装置102は、相関係数を計算するための時間ウィンドウを、TからT+Wの間とする。Wは、予め決められた固定の時間幅である(S1203)。
【0110】
障害検知装置102は、時刻T+Wが、性能低下期間内か否かを調べ、性能低下期間内であればS1205へ、そうでなければS1207へ進む(S1204)。
【0111】
障害検知装置102は、性能データテーブル114を参照し、メトリック1およびメトリック2の、時間ウィンドウの間の性能値を取得し、両者の相関係数を計算する。その値を時刻T+Wの相関係数とする(S1205)。
【0112】
障害検知装置102は、時刻Tをインクリメントし、S1203へ戻る。障害検知装置102は、時刻Tを進めながら、S1203~S1206の各処理を繰り返す。
【0113】
このようにして障害検知装置102は、時刻T+Wから、性能低下期間の最後の時刻までの各時刻における、メトリック1と2との間の相関係数列を得る(S1206)。
【0114】
そして障害検知装置102は、アノマリの有無を調べる。アノマリとは、メトリック1とメトリック2の間の相関係数の絶対値が閾値未満である期間である(S1207)。
【0115】
つまり、障害検知装置102は、S1205の処理で得られる相関係数の絶対値を所定の閾値と比較し、閾値未満である相関係数が所定数以上(例えば1つ以上)あればS1208へ進んでアノマリテーブルにレコードを作成し、閾値未満の相関係数が所定数未満であれば(例えば0)処理を終了する。
【0116】
S1208では、障害検知装置102は、検出されたアノマリのレコードを作成し、アノマリテーブル117に記録する。アノマリテーブル117に記録されるレコードには、S1207において、相関係数の絶対値が連続して閾値未満であった期間を示す情報が含まれる。
【0117】
アノマリテーブル117に記録される期間には、相関係数の絶対値が連続して閾値未満であった最初と最後の時刻が格納される。アノマリテーブルに記録されるスコアには、アノマリの異常度を格納する。アノマリの異常度は、例えば、相関係数の絶対値と閾値との差の合計値である。
【0118】
次に、
図13に、障害検知装置102がアノマリを検出する他の方法(第2の方法)を示す。
【0119】
ここで検出されるアノマリは、例えば、何らかの意図しない原因によって、監視対象装置の所定のメトリックの性能値がある値以上になることが阻害され、性能に上限が現れるようなアノマリである。このような例として、監視対象装置のファームウェアのバグ、設定値の誤り、監視対象装置のコンポーネントの故障などがある。
【0120】
このようなアノマリを検出するために、障害検知装置102は、
図12と同様に、本来であれば高い相関性を持つメトリックのペアを使う。このようなペアのメトリックを、メトリック1、メトリック2とする。ここでは、メトリック1に問題があり性能値に意図しない上限が現れるものとする。まず、障害検知装置102は、
図17に示すように、メトリック1(第1性能データ)およびメトリック2(第2性能データ)の、性能低下期間における性能値のヒストグラムを作成する。なお、メトリック2のヒストグラムは、メトリック1のヒストグラムに現れる異常を検出するための基準となる。
【0121】
障害検知装置102は、メトリック1のヒストグラム(第1ヒストグラム)と、メトリック2のヒストグラム(第2ヒストグラム)と、の各階級の差分を作成する。上述したように、メトリック1の性能値には意図しない上限値が存在する。そのため、メトリック1のヒストグラムには、上限値以上の値の度数が不自然に0あるいは非常に小さい値になる。一方で、この上限値付近においては非常に大きな度数となり、スパイクとなる。
【0122】
一方メトリック2には、このようなスパイクや、不自然に低い値は現れない。このため、メトリック1とメトリック2のヒストグラムの差分を計算すると、上限値付近で大きなスパイク(プラスの値)、上限値以上で連続的なマイナスの値になると予想される。障害検知装置102は、このようなスパイクと、マイナスの値を見つけることで、アノマリを検出することができる。以下、本フローの各ステップの処理を説明する。
【0123】
障害検知装置102は、まず、ペアとなる二つのメトリック(第1性能データ、第2性能データ)と、性能低下期間を受領する。二つのメトリックを、メトリック1、メトリック2と記す(S1301)。
【0124】
障害検知装置102は、性能データテーブル114を参照し、性能低下期間におけるメトリック1の性能値を取得する。障害検知装置102は、取得した性能値から、メトリック1のヒストグラムを作成する(S1302)。つまり障害検知装置102は、監視対象装置の第1性能値が時系列に記録された第1性能データ(メトリック1)から、性能低下期間(所定期間)における第1性能値の度数を所定の階級別に集計した第1ヒストグラム(ヒストグラム1)を生成する。
【0125】
次に障害検知装置102は、S1302と同様の処理をメトリック2に対して行い、メトリック2のヒストグラム(ヒストグラム2)を作成する(S1303)。つまり障害検知装置102は、監視対象装置の第2性能値が時系列に記録された第2性能データ(メトリック2)から、性能低下期間(所定期間)における第2性能値の度数を所定の階級別に集計した第2ヒストグラム(ヒストグラム2)を生成する。
【0126】
続いて障害検知装置102は、ヒストグラム1とヒストグラム2の差分を計算する(S1304)。例えば障害検知装置102は、各ヒストグラムの各階級の度数について、それぞれ差分を各級の値とする差分ヒストグラムを作成する。
【0127】
障害検知装置102は、差分ヒストグラムの各階級の度数を調べ、閾値を超えるスパイクの有無を調べる(S1305)。スパイクがあればS1306へ、なければフローを終了する。
【0128】
障害検知装置102は、スパイクの大きさに応じてアノマリのスコアを計算する(S1306)。
【0129】
障害検知装置102は、スパイクがあった級をVとして、差分ヒストグラムの級がV+1以上の度数の合計値を計算する(S1307)。合計値の計算方法は、単純に合計するだけでもよいし、マイナス値だけの合計としてもよい。また、一つでもプラスの値があれば、アノマリではないと判定して、S1310においてアノマリテーブル117にレコードを作成しない、としてもよい。
【0130】
障害検知装置102は、S1307で計算した合計値が、マイナスの閾値以下であれば、アノマリである確度が更に高いと考えられるためS1309へ進み、そうでなければS1310へ進む(S1308)。
【0131】
そして障害検知装置102は、アノマリのスコアを加算する(S1309)。加算分は、先に計算した合計値の絶対値としてもよいし、合計値の絶対値に0.5などの係数を乗算した値でもよい。また、加算分に上限を設けてもよい。
【0132】
障害検知装置102は、アノマリテーブル117に、検出したアノマリのレコードを作成する(S1310)。
【0133】
このとき、アノマリテーブル117のアノマリIDには、新規に作成したIDが格納される。またメトリックID欄には、メトリック1のメトリックIDが格納される。期間の欄には、メトリック1の性能値が、S1306においてスパイクを観測した級Vに含まれる全ての期間(つまり、性能低下期間)が格納される(時間が連続する箇所は、一つの期間とする)。スコアには、S1306およびS1309で計算したスコアが格納される。
【0134】
次に、
図14に、障害検知装置102が、アノマリを検出する際の他の方法(第3の方法)を示す。この第3の方法で検出されるアノマリは、
図13と同様であり、例えば、何らかの意図しない原因によって、監視対象装置で計測あるいは算出されるメトリックの性能値がある値以上になることが阻害され、性能に上限が現れるアノマリである。
【0135】
第3の方法では、一つのメトリック(メトリック1とする)からアノマリが検出される。
図18に示すように、まず、障害検知装置102は、メトリック1(第1性能データ)のヒストグラム(第1ヒストグラム)を作成する(ヒストグラム1とする)。
【0136】
次に障害検知装置102は、カーネル密度推定等の手法を用いて、ヒストグラム1において隣り合う階級の度数の差のばらつきが小さくなるようにヒストグラム1を平滑化し、ヒストグラム1から推定される別のヒストグラム(第2ヒストグラム)を作成する(ヒストグラム2とする)。
【0137】
ヒストグラム2は、ベースをヒストグラム1とする滑らかなヒストグラムになる。このように滑らかなヒストグラム2と、もとのヒストグラム1を比較することで、第2の方法と同様に、意図しない上限値が存在することによる不自然なスパイクや、その右側に現れる不自然な度数の低下を見つけることが可能となる。
【0138】
障害検知装置102は、まず、分析対象のメトリック(メトリック1)と、性能低下期間を受領する(S1401)。
【0139】
障害検知装置102は、性能データテーブル114を参照し、性能低下期間におけるメトリック1の性能値を取得する。障害検知装置102は、取得した性能値からメトリック1のヒストグラム(第1ヒストグラム)を作成する(S1402)。つまり障害検知装置102は、監視対象装置の第1性能値が時系列に記録された第1性能データ(メトリック1)から、性能低下期間(所定期間)における第1性能値の度数を所定の階級別に集計した第1ヒストグラム(ヒストグラム1)を生成する。
【0140】
次に障害検知装置102は、カーネル密度推定などの手法により、ヒストグラム1を滑らかにしたヒストグラム2(第2ヒストグラム)を作成する(S1403)。
【0141】
なお、S1404以降の処理は、
図13で説明した第2の方法と同じであるため、説明を省略する。
【0142】
次に
図15に、障害検知装置102が通信品質の劣化とアノマリを関連づける処理手順を示す。これらが関連づけられることで、通信品質劣化の原因がアノマリであるとの気づきを得られる。
【0143】
関連づけには、発生箇所と時間を条件に使う。すなわち、通信品質が劣化した監視対象装置のIPアドレスとIF、アノマリが発生した監視対象装置のIPアドレスとIFが同じであり、かつ、両者の発生期間に重なりがある場合に、通信品質の劣化とアノマリに関連があるとして出力装置120が備えるGUI(Graphical User Interface)等に表示する。
【0144】
障害検知装置102は、通信品質マップテーブル115を、ユーザから取得した分析対象期間で検索し、パケットドロップ数が閾値以上(第3性能値が所定値以下)であるレコードを取得する(S1501)。これらのレコードは、通信品質が劣化している監視対象装置と期間(性能低下期間)を示す。つまり障害検知装置102は、監視対象装置の第3
性能値が時系列に記録された第3性能データから、第3性能値が所定値以下となった1つ以上の期間をそれぞれ所定期間(性能低下期間)として特定する。なおこれらのレコードを通信劣化レコードとする。
【0145】
障害検知装置102は、メトリックテーブル113を参照し、通信劣化レコードのIPアドレスとIF(インタフェース)をキーとしてメトリックテーブル113を検索し、メトリックレコードを取得する(S1502)。
【0146】
障害検知装置102は、アノマリテーブル117を検索し、アノマリテーブル117に記録されているメトリックIDがS1502で取得したメトリックレコードのメトリックIDと一致するレコード(アノマリレコードとする)を取得する(S1503)。
【0147】
障害検知装置102は、アノマリレコードに記録されている期間が、通信劣化レコードに記録されている期間と重なるかどうかを調べ、期間が重なるレコードが存在する場合はS1050へ進み、存在しなければフローを終了する(S1504)。
【0148】
アノマリレコードに記録されている期間が、通信劣化レコードに記録されている期間と重なる場合は、通信劣化レコードと関連するアノマリレコードが存在するといえる。
【0149】
障害検知装置102は、S1504で関連づけた通信劣化レコードと、アノマリレコードを出力装置120が具備するGUI上に表示する(S1505)。これにより、ユーザは、表示された通信劣化レコードの原因が、表示されたアノマリである可能性があると気づくことができる。
【0150】
次に、
図16は、障害検知装置102が行ったネットワーク通信品質劣化の原因分析の結果を、ユーザに伝えるための出力装置120の画面例である。
【0151】
ユーザは、この画面を見ることで、通信品質の劣化が起きた監視対象装置とIF、劣化が発生した期間、その原因と思われるアノマリを一目で把握できる。
【0152】
障害検知装置102は、画面上段に、ネットワークパスを表示する。ユーザが、通信品質が劣化していると連絡してきた、通信元(第1情報処理装置)のIPアドレス(起点IPアドレス)から、通信先(第2情報処理装置)のIPアドレス(終点IPアドレス)までのパス(転送経路)上にある各監視対象装置のIPアドレスとIF名を表示する。
【0153】
図16では、起点IPアドレスがIP1、終点IPアドレスがIP4で、IP2とIP3は、パス途上にあるNW装置(データ転送装置)のIPアドレスである。IP3は、グレーの円として描かれており、これは通信品質に問題があることを表している。パス上の各監視対象装置およびIFは、
図9の処理で得られる。
【0154】
また障害検知装置102は、画面中段に、通信品質劣化期間を表形式で表示する。表の行は、パス上の監視対象装置およびIFを表し、列は時間を表す。表示する時間の範囲は、ユーザが通信品質が劣化していると連絡した期間(分析対象期間)で、この図では3月28日~3月29日である。
【0155】
図16では、この期間を1時間ごとに区切り、通信品質が劣化した期間(性能低下期間)をグレーで着色している。通信品質が劣化した期間とIFは、
図10の処理で得られる。
【0156】
更に、障害検知装置102は、通信品質が劣化し、かつ、アノマリが発生した期間を黒
で着色している。
【0157】
アノマリが発生した期間とIFは、
図11の処理で得られ、通信品質の劣化とアノマリが同時に発生した期間とIFの特定は、
図15の処理で得られる。
【0158】
これらの着色された箇所がクリックされると、障害検知装置102は、画面下部のメッセージエリアにメッセージを表示する。
【0159】
メッセージは、クリックされた箇所で発生した通信品質の劣化の詳細や、同時に発生したアノマリの詳細を示す。なお
図16には表示されていないが、障害検知装置102は、通信品質の劣化を示すパケットドロップ数のグラフや、アノマリの根拠を示すグラフを表示してもよい。
<機能構成>
【0160】
次に、障害検知装置102の機能構成図の一例を
図19に示す。本実施形態に係る障害検知装置102は、ヒストグラム生成部200、障害検知部201、期間特定部202、障害出力部203、ルーティングテーブル記憶部204、装置情報取得部205及び監視対象装置特定部206の各機能を有する。
【0161】
これらの各機能は、障害検知装置102のハードウェアによって本実施形態に係るNWパフォーマンス分析プログラム118が実行されることにより実現される。
【0162】
ヒストグラム生成部200は、監視対象装置の稼働状態を表す第1性能値が時系列に記録された第1性能データから、所定期間における第1性能値の度数を階級別に集計した第1ヒストグラムを生成する。例えば
図17及び
図18に示したヒストグラム1を生成する。
【0163】
ここで、監視対象装置は、障害検知装置102によって監視される装置であり、本実施形態では、例えば、監視対象システム101が備える端末103、SW104、FW105、ルータ106、業務システムサーバ107の各装置として例示される。
【0164】
また第1性能データは、例えば上述したメトリック1が該当し、第1ヒストグラムは、ヒストグラム1が該当する。所定期間は、例えば性能低下期間が該当する。
【0165】
そして障害検知部201は、上記第1ヒストグラムの各階級の度数を、基準として定められた第2ヒストグラムの各階級の度数と比較した結果に応じて、上記所定期間に監視対象装置の障害が発生したか否かを検知する。
【0166】
このようにして障害検知部201が第1性能値を調べることで、監視対象装置に障害が発生していないかどうかを検知することができる。例えば性能の頭打ちのようなサイレント障害を検知することが可能となる。
【0167】
なおこのとき障害検知部201は、第1ヒストグラムにおける度数が第2ヒストグラムよりも第1所定値又は第1所定割合以上大きくなる階級が検出された場合に、所定期間に監視対象装置の障害が発生したことを検知するようにすると良い。
【0168】
これにより、第1性能データに生じている頭打ちを効果的に検知することが可能となる。つまり第1性能データに頭打ちが生じている場合には、例えば
図17に示したように第1ヒストグラムにスパイクが現れるが、このスパイクが現れた階級の度数を第2ヒストグラムと比較すると、その差分が第1所定値以上あるいは比率が第1所定割合以上になるの
で、容易に検知することができる。
【0169】
あるいは障害検知部201は、ある階級よりも上位の階級における第1ヒストグラムの度数が第2所定値以下である場合に、所定期間に監視対象装置の障害が発生したことを検知するようにしてもよい。あるいは、ヒストグラム1とヒストグラム2から生成される上述した差分ヒストグラムにおいて、ある階級Vよりも上位の階級における度数がある負の値以下(第2所定値以下)である場合に、所定期間に監視対象装置の障害が発生したことを検知するようにしてもよい。
【0170】
このような態様によっても、第1性能データに生じている頭打ちを効果的に検知することが可能となる。
【0171】
あるいは障害検知部201は、第1ヒストグラムにおける度数が第2ヒストグラムよりも第1所定値又は第1所定割合以上大きくなる階級が検出され、かつ、この階級よりも上位の階級における第1ヒストグラムの度数が第2所定値以下である場合に、所定期間に監視対象装置の障害が発生したことを検知するようにしてもよい。
【0172】
これにより、第1性能データに生じている頭打ちをさらにより確実に検知することが可能となる。つまり、第1性能データに頭打ちが生じている場合は、第1ヒストグラムにスパイクが現れるだけでなく、スパイクが現れた階級よりも上位の階級の度数が少なくなるはずで、これを検知することにより、頭打ちの誤検知を防止することが可能となる。
【0173】
なお、ヒストグラム生成部200は、上記第1性能値と相関性を有する監視対象装置の稼働状態を表す第2性能値が時系列に記録された第2性能データから、所定期間における第2性能値の度数を所定の階級別に集計することにより第2ヒストグラムを生成するようにしてもよい。
【0174】
このような態様により、障害が発生していなければ一定以上の相関性をもって連動する2つの性能値のずれの拡大(相関性の低下)を元に、監視対象装置の障害を検知することが可能となる。
【0175】
この時、ヒストグラム生成部200は、相関メトリックペアテーブル116を参照することにより第1性能データ及び第2性能データを特定し、この第1性能データ及び第2性能データから、第1ヒストグラム及び第2ヒストグラムを生成するようにするとよい。
【0176】
このような態様により、障害検知装置102は、相関性を有するメトリックのペア(第1性能データと第2性能データ)を短時間に特定することできるので、障害検知の処理効率を向上させることが可能となる。
【0177】
なお相関メトリックペアテーブル116は、
図6に示したように、監視対象装置の稼働状態を表す複数種類の性能データ(メトリック)の中で互いに相関性を有する一対の性能データの識別情報を対応付けて記憶するテーブルである。
【0178】
またヒストグラム生成部200は、例えば
図18に示したように、カーネル密度推定等の手法を用いることで、隣り合う階級の度数の差のばらつきが小さくなるように第1ヒストグラムを平滑化することにより第2ヒストグラムを生成するようにしてもよい。
【0179】
このような態様により、障害検知装置102は、第1性能データと相関性を有する第2性能データがない場合であっても、監視対象装置の障害を検知することが可能となる。
【0180】
続いて、期間特定部202は、監視対象装置の稼働状態を表す第3性能値が時系列に記録された第3性能データから、第3性能値が所定値以下となった1つ以上の期間をそれぞれ上記の所定期間として特定する。
【0181】
このような態様により、障害検知部201は、第3性能値が所定値以下となった期間に絞り込んだうえで、第1ヒストグラム及び第2ヒストグラムを用いた監視対象装置の障害検知を行うことが可能となるので、より短時間に障害を検知することが可能となる。
【0182】
なお、第3性能値は、例えば単位時間当たりのパケットドロップ数を元にして算出される性能値とすることができる。例えば単位時間当たりのパケットドロップ数の逆数を第3性能値にすれば良い。
【0183】
そして障害出力部203は、第3性能値が所定値以下となった各所定期間を示す情報と、各所定期間のうち監視対象装置の障害が検知された期間を示す情報と、を出力する。
【0184】
このような態様により、
図16に示したように、何等かの性能低下がみられた期間(第3性能値が所定値以下となった期間)と、監視対象装置の障害によりアノマリが発生した期間と、をユーザに提示することで、障害の原因をユーザにより分かりやすく提示することが可能となる。
【0185】
なお、本実施形態に係る監視対象装置は、障害検知装置102によって障害が発生したか否かの検知対象とされる装置であるが、例えば、通信ネットワークを利用してデータを所定の宛先に送信する第1情報処理装置と、データの宛先である第2情報処理装置と、通信ネットワークを構成する複数のデータ転送装置と、のいずれかとしてもよい。
【0186】
そしてこの時、障害検知装置102は、第1情報処理装置、第2情報処理装置、及び複数のデータ転送装置のそれぞれについて、データを転送する際の次の転送先を定めたルーティングテーブル112を記憶するルーティングテーブル記憶部204を備えて、上記第1情報処理装置から第2情報処理装置までデータを送信する際の転送経路上の各装置を監視対象装置として特定するようにしてもよい。
【0187】
このような態様により、様々な機器が複雑に接続されて構成される通信ネットワークにおいて発生した障害の原因を効果的に特定することが可能となる。
【0188】
なおルーティングテーブル記憶部204は、例えばHDD108として具現化されている。
【0189】
またこのとき、障害検知装置102は、装置情報取得部205と監視対象装置特定部206を備え、装置情報取得部205が、データの送信元である第1情報処理装置の識別情報と、データの宛先である第2情報処理装置の識別情報と、を取得し、監視対象装置特定部206が、第1情報処理装置の識別情報、第2情報処理装置の識別情報、及びルーティングテーブル112を元に特定される、第1情報処理装置から第2情報処理装置までデータを送信する際の転送経路上の各装置を、監視対象装置として特定するようにしてもよい。
【0190】
このような態様により、通信ネットワークの不調を訴えてきたユーザが使用した第1情報処理装置から、データの送信先である第2情報処理装置までの転送経路上の各装置を特定して障害の検知を行うことができるので、障害検知装置102は、障害の原因となる装置を探す際に、調査範囲を効果的に絞り込むことが可能となる。
【0191】
以上、本実施形態に係る障害検知装置102及び障害検知方法について説明したが、本実施形態に係る障害検知装置102及び障害検知方法によれば、ネットワークの安定稼働を提供することができる。また、ネットワークのサイレント障害の候補を自動的に検出することも可能となる。さらに、顧客からクレームを受けてから原因を特定するまでの時間を短縮することが可能となる。また障害の監視対象装置に生じている性能の頭打ち(性能上限)を効率的に検知することが可能となる。
【0192】
また、装置のバグ等で最初からサイレント障害が発生している場合でも、想定された閾値ではない値で、性能上限(頭打ち)が発生している箇所を検出し、サイレント障害を発見する障害分析装置、障害分析システムを提供することができる。
【0193】
例えば、性能値に相関があるNW装置のペアを記録した相関テーブルを持つNW障害分析装置であって、あるNW装置1の分析依頼を受けると、相関テーブルを参照して相関があるNW装置2を特定する。NW装置1と特定したNW装置2、それぞれの性能値から作成したヒストグラムを比較し、差分を検出して異常の発生を判定する。また、相関があるNW装置が無い場合、分析依頼を受けたNW装置1の性能値から作成したヒストグラムと、その性能値から推定されるヒストグラムを比較し、差分を検出することで異常の発生を判定する。
【0194】
また、障害分析装置、障害分析システムは、性能値に相関があるNW装置のペアを記録した相関テーブルを持つ。NW障害分析装置は、あるNW装置1の分析依頼を受けると、相関テーブルを参照して相関があるNW装置2を特定するステップと、NW装置1と特定したNW装置2、それぞれの性能値から作成したヒストグラムを比較し、差分を検出して異常の発生を判定するステップと、また、相関があるNW装置が無い場合、分析依頼を受けたNW装置1の性能値から作成したヒストグラムと、その性能値から推定されるヒストグラムを比較し、差分を検出することで異常の発生を判定するステップと、を備えること、を特徴とする。
【0195】
また、ネットワークシステムの安定稼働を図るために、ネットワーク管理システムの性能値を分析して、サイレント障害と呼ばれる種類の障害を検出する、障害分析装置および障害分析システムも含まれる。
【0196】
例えば、障害分析装置は、管理対象システムの性能に関する単一または複数の時系列データを取得し、前記取得したデータを所定の方法で2つのヒストグラムを作成し、前記作成した2つのヒストグラムを比較し、前後の区間に比べてヒストグラム1の頻度がヒストグラム2の頻度よりも著しく高い区間(区間1)を検出することで異常の発生を検知する。
【0197】
このとき、前記異常の発生を検知するステップは、さらに、ヒストグラム1の区間1の後ろの区間の頻度が著しく低いことを検出した場合、異常と判定する確度が高くしてもよい。
【0198】
さらに前記2つのヒストグラムを作成するステップは、管理対象システムの各性能値についてその性能値と高い相関がある別の性能値の対応関係を記録した相関ペア情報を更に持ち、当該保持された前記相関ペア情報に基づいて、前記ヒストグラム(ヒストグラム1)と相関が高い性能値の時系列データを取得し、その時系列データから作成したヒストグラムを前記ヒストグラムの予測値(ヒストグラム2)としてもよい。
【0199】
また前記2つのヒストグラムを作成するステップは、管理対象システムの各性能値についてその性能値と高い相関がある別の性能値がない場合、前記ヒストグラム1を入力とし
て推定した密度分布を前記ヒストグラム2としてもよい。
【0200】
また前記異常の発生を検知するステップは、パス分析により、顧客クレームの起点と終点の間のパス上にあるNW装置を特定してもよい。
【0201】
また前記異常の発生を検知するステップは、特定された、各NW装置の時間別のパケロスをプロットし、障害が発生していそうな時間を特定(抽出)してもよい。
【0202】
なお、上述した実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得るとともに、本発明にはその等価物も含まれる。
【0203】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、ま
たは、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0204】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0205】
101 監視対象システム
102 障害検知装置
103 端末
104 SW
105 FW
106 ルータ
107 業務システムサーバ
108 HDD
109 メモリ
110 CPU
111 NIC
112 ルーティングテーブル
113 メトリックテーブル
114 性能データテーブル
115 通信品質マップテーブル
116 相関メトリックペアテーブル
117 アノマリテーブル
118 NWパフォーマンス分析プログラム
119 入力装置
120 出力装置
121 記録媒体読取装置
500 通信ネットワーク
800 記録媒体