(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022129879
(43)【公開日】2022-09-06
(54)【発明の名称】監視装置、障害検知方法および障害検知プログラム
(51)【国際特許分類】
H04L 43/00 20220101AFI20220830BHJP
【FI】
H04L12/70 100A
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021028735
(22)【出願日】2021-02-25
(71)【出願人】
【識別番号】598057291
【氏名又は名称】株式会社富士通エフサス
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】野崎 淳
(72)【発明者】
【氏名】山中 基裕
(72)【発明者】
【氏名】石黒 信二
(72)【発明者】
【氏名】鈴木 大和
【テーマコード(参考)】
5K030
【Fターム(参考)】
5K030GA14
5K030JA10
5K030LA04
5K030MA07
5K030MB04
5K030MC07
(57)【要約】
【課題】効率よくサイレント障害を検知すること。
【解決手段】監視装置100は、ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、他の監視スイッチとをそれぞれ仮想ネットワークで接続した監視スイッチから、第1スイッチとの第1通信状況、第2スイッチとの第2通信状況、他の監視スイッチとの第3通信状況とを取得する。監視装置100は、第1通信状況と、第2通信状況と、第3通信状況とを基にして、第1スイッチおよび第2スイッチから、障害の発生したスイッチを検知する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、他の監視スイッチとをそれぞれ仮想ネットワークで接続した監視スイッチから、前記第1スイッチとの第1通信状況、前記第2スイッチとの第2通信状況、前記他の監視スイッチとの第3通信状況とを取得する取得部と、
前記第1通信状況と、前記第2通信状況と、前記第3通信状況とを基にして、前記第1スイッチおよび前記第2スイッチから、障害の発生したスイッチを検知する検知部と、
を有することを特徴とする監視装置。
【請求項2】
前記検知部によって検出された障害の発生したスイッチに対してメッセージを送信することで、通信を停止させる制御を行う送信部を更に有することを特徴とする請求項1に記載の監視装置。
【請求項3】
前記検知部は、前記第1通信状況および前記第3通信状況にアラートが発生しておらず、第2通信状況のみにアラートが発生している場合には、前記第1スイッチまたは前記第2スイッチの障害を検知することを特徴とする請求項1または2に記載の監視装置。
【請求項4】
前記検知部は、前記第2通信状況および前記第3通信状況にアラートが発生しておらず、前記第1通信状況のみにアラートが発生している場合には、前記第1スイッチの障害を検知することを特徴とする請求項1、2または3に記載の監視装置。
【請求項5】
前記検知部は、前記第1通信状況および前記第2通信状況にアラートが発生しておらず、前記第3通信状況のみにアラートが発生している場合には、前記第1スイッチの障害を検知することを特徴とする請求項1~4のいずれか一つに記載の監視装置。
【請求項6】
前記検知部は、前記第2通信状況にアラートが発生しておらず、前記第1通信状況および前記第3通信状況のみにアラートが発生している場合には、前記第1スイッチの障害を検知することを特徴とする請求項1~5のいずれか一つに記載の監視装置。
【請求項7】
前記検知部は、前記第3通信状況にアラートが発生しておらず、前記第1通信状況および前記第2通信状況のみにアラートが発生している場合には、前記第1スイッチの障害を検知することを特徴とする請求項1~6のいずれか一つに記載の監視装置。
【請求項8】
前記検知部は、前記第1通信状況にアラートが発生しておらず、前記第2通信状況および前記第3通信状況のみにアラートが発生している場合には、前記第1スイッチの異常を検知することを特徴とする請求項1~7のいずれか一つに記載の監視装置。
【請求項9】
前記検知部は、前記第1通信状況と、前記第2通信状況と、前記第3通信状況とにアラートが発生している場合には、前記第1スイッチの障害を検知することを特徴とする請求項1~8のいずれか一つに記載の監視装置。
【請求項10】
コンピュータが実行する障害検知方法であって、
ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、他の監視スイッチとをそれぞれ仮想ネットワークで接続した監視スイッチから、前記第1スイッチとの第1通信状況、前記第2スイッチとの第2通信状況、前記他の監視スイッチとの第3通信状況とを取得し、
前記第1通信状況と、前記第2通信状況と、前記第3通信状況とを基にして、前記第1スイッチおよび前記第2スイッチから、障害の発生したスイッチを検知する
処理を実行することを特徴とする障害検知方法。
【請求項11】
コンピュータに、
ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、他の監視スイッチとをそれぞれ仮想ネットワークで接続した監視スイッチから、前記第1スイッチとの第1通信状況、前記第2スイッチとの第2通信状況、前記他の監視スイッチとの第3通信状況とを取得し、
前記第1通信状況と、前記第2通信状況と、前記第3通信状況とを基にして、前記第1スイッチおよび前記第2スイッチから、障害の発生したスイッチを検知する
処理を実行させることを特徴とする障害検知プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視装置等に関する。
【背景技術】
【0002】
クラウドの普及に伴って、データセンター(DC:Data Center)の基盤となるDCネットワークには、今まで以上に高い品質が求められている。DCネットワークでは、スイッチ等のネットワーク機器が障害アラートを発しないにも関わらず、誤動作するサイレント障害が発生する場合がある。このサイレント障害は、その発見が認識されにくいため、障害復旧が遅延し、多くのサービスに影響を及ぼす恐れがある。
【0003】
図9は、サイレント障害の一例を説明するための図である。
図9に示す例では、スイッチ4,5が、監視装置6に接続されている。スイッチ4は、コントロールプレーン4aと、データプレーン4bとを有する。コントロールプレーン4aは、スイッチ4全体を制御する制御部である。データプレーン4bは、実際にデータ通信を司るASIC(Application Specific Integrated Circuit:特定用途向け集積回路)である。スイッチ5には、スイッチ4と同様にして、コントロールプレーン5aと、データプレーン5bとが含まれる。
【0004】
たとえば、スイッチ4のデータプレーン4bに異常が発生し、通信に支障をきたしているが、コントロールプレーン4aが正常である場合には、サイレント障害となる。ここで、コントロールプレーン4aが正常に動作している場合、監視装置6が、SNMPリクエストをスイッチ4に送信しても、異常を示すアラートが、監視装置6に通知されず、監視装置6は、SNMPリクエストによって、データプレーン4bの障害を検知できない。
【0005】
上記のサイレント障害を検知する従来技術として、従来技術1、2がある。従来技術1では、監視装置から、監視対象装置に対してテストデータを定期的に送信し、応答の有無で異常(サイレント障害等)を検知する。
【0006】
従来技術2では、監視装置が、各監視対象装置の情報を定期的に収集し、収集した情報を基にして、システムの管理者が、通常時のネットワークの振る舞いを定義しておき、通常時の振る舞いとの違いや兆候を基にして異常(サイレント障害等)を検知する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2020-88786号公報
【特許文献2】特開2011-211350号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した従来技術では、効率よくサイレント障害を検知することができないという問題がある。
【0009】
たとえば、従来技術1をそのまま、大規模なネットワークに適用すると、テストデータによってトラフィックの量が増加してしまうという問題がある。また、従来技術2では、通常時のネットワークの振る舞いを定義する管理者の負担が大きく、運用コストもかかる。
【0010】
1つの側面では、本発明は、効率よくサイレント障害を検知することができる監視装置、障害検知方法および障害検知プログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
第1の案では、監視装置は、取得部と、検知部とを有する。取得部は、ネットワークに含まれる複数のスイッチのうち、監視対象とする第1スイッチと、第2スイッチと、他の監視スイッチとをそれぞれ仮想ネットワークで接続した監視スイッチから、第1スイッチとの第1通信状況、第2スイッチとの第2通信状況、他の監視スイッチとの第3通信状況とを取得する。検知部は、第1通信状況と、第2通信状況と、第3通信状況とを基にして、第1スイッチおよび第2スイッチから、障害の発生したスイッチを検知する。
【発明の効果】
【0012】
効率よくサイレント障害を検知することができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本実施例に係る監視システムを示す図である。
【
図2】
図2は、IP SLA機能を説明するための図である。
【
図3】
図3は、本実施例に係る監視装置の構成を示す機能ブロック図である。
【
図4】
図4は、パターンテーブルのデータ構造の一例を示す図である。
【
図5】
図5は、判定ポリシーテーブルのデータ構造の一例を示す図である。
【
図6】
図6は、メッセージ送信による経路切り替えの一例を説明するための図である。
【
図7】
図7は、本実施例に係る監視装置の処理手順を示すフローチャートである。
【
図8】
図8は、実施例の監視装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【
図9】
図9は、サイレント障害の一例を説明するための図である。
【発明を実施するための形態】
【0014】
以下に、本願の開示する監視装置、障害検知方法および障害検知プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例0015】
図1は、本実施例に係る監視システムの一例を示す図である。
図1に示すように、この監視システム1は、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30A,30B、監視装置100を有する。
【0016】
コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30A,30Bはそれぞれ無線LAN(Local Area Network)又は有線LANによって相互に接続される。また、図示を省略するが、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30A,30Bは、無線LAN又は有線LANによって、ネットワーク内の他のスイッチ、端末装置に接続される。
【0017】
コアスイッチ10Aは、ネットワーク内でパケット転送、中継を行うネットワークスイッチである。たとえば、コアスイッチ10Aは、ルーティングテーブルを保持しており、コアスイッチ10B、他のスイッチ、端末装置からパケットを受信した場合には、ルーティングテーブルを基にして、データの転送、中継を行う。コアスイッチ10Aは、スイッチング機能も有する。
【0018】
コアスイッチ10Bは、ネットワーク内でパケット転送、中継を行うネットワークスイッチである。たとえば、コアスイッチ10Bは、ルーティングテーブルを保持しており、コアスイッチ10A、他のスイッチ、端末装置からパケットを受信した場合には、ルーティングテーブルを基にして、データの転送、中継を行う。コアスイッチ10Bは、スイッチング機能も有する。
【0019】
フロアスイッチ20は、ネットワークの中枢部と末端部との橋渡しを行うネットワークスイッチである。
【0020】
監視スイッチ30Aは、IP SLA機能を備え、コアスイッチ10A,10Bを経由してフロアスイッチ20に到達するVLAN(Virtual Local Area Network)を作成し、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30Bを監視する。
【0021】
監視スイッチ30Bは、IP SLA機能を備え、コアスイッチ10A,10Bを経由してフロアスイッチ20に到達するVLANを作成し、コアスイッチ10A,10B、フロアスイッチ20、監視スイッチ30Aを監視する。
【0022】
図2は、IP SLA機能を説明するための図である。一例として、監視スイッチ30Aと、監視対象としてコアスイッチ10Aとを用いて説明を行う。監視スイッチ30Aは、監視パケットをコアスイッチ10Aに送信し、コアスイッチ10Aからの応答を基にして、コアスイッチ10Aのアラートの発生の有無を判定する。以下では説明を省略するが、監視スイッチ30Aとコアスイッチ10Aとは、VLANを介して、監視パケットに関する情報をやり取りする。
【0023】
監視スイッチ30Aは、監視パケットを送信し、コアスイッチ10Aから応答を受信した場合には、コアスイッチ10Aにアラートが発生していないと判定する。
【0024】
一方、監視スイッチ30Aは、監視パケットをコアスイッチ10Aに送信し、コアスイッチ10Aから応答を受信しない場合には、コアスイッチ10Aにアラートが発生したと判定し、アラート情報を、監視装置100に送信する。アラート情報の通信には、SYSLOG/SNMP trap等のプロトコルが用いられる。
【0025】
監視スイッチ30Aは、他の監視対象となるコアスイッチ10B、フロアスイッチ20、監視スイッチ30Bについても、VLANを介して、監視パケットに関する情報をやり取りすることで、アラートの発生の有無を判定し、アラートが発生した場合には、アラート情報を、監視装置100に送信する。
【0026】
アラート情報には、送信元の監視スイッチ30Aの情報と、アラートの発生した監視対象の情報が設定される。監視スイッチ30Aは、アラートの発生した監視対象を検知するたびに、アラート情報を、監視装置100に送信する。
【0027】
監視スイッチ30Bは、監視スイッチ30Aと同様にして、監視パケットを監視対象(コアスイッチ10A,10B,フロアスイッチ20、監視スイッチ30A)に送信し、監視対象からの応答を基にして、監視対象のアラートの発生の有無を判定する。監視スイッチ30Bは、監視対象にアラートが発生したと判定した場合には、アラート情報を、監視装置100に送信する。
【0028】
監視装置100は、監視スイッチ30A、30Bからアラート情報を受信した場合に、アラート情報を基にして、サイレント障害の発生した監視対象のスイッチを検知する装置である。監視装置100は、サイレント障害の発生した監視対象のスイッチを検知すると、検知したスイッチに対して、メッセージを送信することで、監視対象のポートを閉塞させる。たとえば、ネットワークが冗長化されていれば、かかる処理を実行することで、自動的に、サイレント障害のスイッチを検知して、ネットワークを障害から復旧させることができる。
【0029】
次に、監視装置100の構成の一例について説明する。
図3は、本実施例に係る監視装置の構成を示す機能ブロック図である。
図3に示すように、この監視装置100は、通信部110と、入力部120と、表示部130と、記憶部140、制御部150とを有する。
【0030】
通信部110は、ネットワークを介して、監視スイッチ30A,30Bとの間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。
【0031】
入力部120は、各種の情報を、入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0032】
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
【0033】
記憶部140は、登録テーブル141、パターンテーブル142、判定ポリシーテーブル143を有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0034】
登録テーブル141は、監視スイッチ30A,30Bから送信されるアラート情報を保持するテーブルである。アラート情報には、このアラート情報の送信元となる監視スイッチの識別情報(IP<Internet Protocol>アドレス、MAC<Media Access Control>アドレス等)と、アラートの発生した監視対象のスイッチの識別情報(IPアドレス、MACアドレス等)が含まれる。
【0035】
パターンテーブル142は、アラートの発生した監視対象と、アラートの発生していない監視対象との組み合わせに対応するパターンを定義するテーブルである。
図4は、パターンテーブルのデータ構造の一例を示す図である。
図4に示すように、このパターンテーブル142は、アラート発生箇所と、パターンとを対応付ける。アラート発生箇所は、監視パケットによってアラートが検出されたスイッチを示す。ここではアラート発生箇所として、監視スイッチ(監視スイッチ30A,30B)、コアスイッチ10A、フロアスイッチ20を用いて説明する。
【0036】
たとえば、監視スイッチ30Aから送信されたアラート情報において監視スイッチ30Bにアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報において監視スイッチ30Aにアラートが発生していない場合に、パターンテーブル142の監視スイッチの判定が「○」となる。
【0037】
一方、監視スイッチ30Aから送信されたアラート情報において監視スイッチ30Bにアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報において監視スイッチ30Aにアラートが発生している場合には、パターンテーブル142の監視スイッチの判定が「×」となる。
【0038】
監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Aにアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Aにアラートが発生していない場合に、パターンテーブル142のコアスイッチの判定が「○」となる。
【0039】
監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Aにアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Aにアラートが発生している場合には、パターンテーブル142のコアスイッチの判定が「×」となる。
【0040】
監視スイッチ30Aから送信されたアラート情報においてフロアスイッチ20にアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報においてフロアスイッチ20にアラートが発生していない場合に、パターンテーブル142のフロアスイッチの判定が「○」となる。
【0041】
監視スイッチ30Aから送信されたアラート情報においてフロアスイッチ20にアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報においてフロアスイッチ20にアラートが発生している場合には、パターンテーブル142のコアスイッチの判定が「×」となる。
【0042】
ここで、
図4に示すように、監視スイッチの判定が「○」、コアスイッチ10Aの判定が「○」、フロアスイッチ20の判定が「×」の場合には、パターン「A」となる。監視スイッチの判定が「○」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「○」の場合には、パターン「B」となる。
【0043】
監視スイッチの判定が「×」、コアスイッチ10Aの判定が「○」、フロアスイッチ20の判定が「○」の場合には、パターン「C」となる。監視スイッチの判定が「×」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「○」の場合には、パターン「D」となる。
【0044】
監視スイッチの判定が「○」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「×」の場合には、パターン「E」となる。監視スイッチの判定が「×」、コアスイッチ10Aの判定が「○」、フロアスイッチ20の判定が「×」の場合には、パターン「F」となる。監視スイッチの判定が「×」、コアスイッチ10Aの判定が「×」、フロアスイッチ20の判定が「×」の場合には、パターン「G」となる。
【0045】
ここで、
図4で説明したパターンテーブル142は、コアスイッチ10Aに対応するパターンテーブルであるが、コアスイッチ10Bに対応するパターンテーブルも同様となる。説明の便宜上、一部について説明すると、監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Bにアラートが発生しておらず、かつ、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Bにアラートが発生していない場合に、パターンテーブル(コアスイッチ10Bに対応するパターンテーブル)のコアスイッチの判定が「○」となる。
【0046】
監視スイッチ30Aから送信されたアラート情報においてコアスイッチ10Bにアラートが発生している場合、または、監視スイッチ30Bから送信されたアラート情報においてコアスイッチ10Bにアラートが発生している場合には、パターンテーブル(コアスイッチ10Bに対応するパターンテーブル)のコアスイッチの判定が「×」となる。
【0047】
そして、監視スイッチ、コアスイッチ10A、フロアスイッチ20の「○」、「×」の組み合わせによって、コアスイッチ10Bに関するパターンが特定される。
【0048】
判定ポリシーテーブル143は、パターンに応じたサイレント障害の要因を判定するための情報を保持する。
図5は、判定ポリシーテーブルのデータ構造の一例を示す図である。
図5に示すように、この判定ポリシーテーブル143は、パターンと、要因とを対応付ける。パターンは、
図4で説明したパターンA~Gに対応する。要因は、サイレント障害の要因を示す。ここでは一例として、コアスイッチ10Aに関するパターンを用いて説明を行う。
【0049】
たとえば、パターンAの要因は、「フロアスイッチ20またはコアスイッチ10A(コアスイッチ10Aのルーティング機能)に障害発生」となる。パターンBの要因は、「コアスイッチ10Aに障害発生」となる。
【0050】
パターンCの要因は、「コアスイッチ10A(コアスイッチ10Aのスイッチング機能)に障害発生」となる。パターンDの要因は、「コアスイッチ10Aに障害発生」となる。
【0051】
パターンEの要因は、「コアスイッチ10A(コアスイッチ10Aのルーティング機能)に障害発生」となる。パターンFの要因は、「コアスイッチ10A(コアスイッチ10Aのルーティング機能、スイッチング機能)に障害発生」となる。パターンGの要因は、「コアスイッチ10Aに障害発生」となる。
【0052】
図5では、コアスイッチ10Aに関するパターンを用いて説明を行った。図示を省略するが、コアスイッチ10Bのパターンに対応する要因は、上記説明のコアスイッチ10Aを、コアスイッチ10Bに置き換えたものとなる。
【0053】
図3の説明に戻る。制御部150は、取得部151と、検知部152と、送信部153とを有する。制御部150は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実行されてもよい。
【0054】
取得部151は、監視スイッチ30A,30Bから、アラート情報を取得する。取得部151は、取得したアラート情報を、登録テーブル141に登録する。取得部151は、アラート情報を取得する度に、上記処理を繰り返し実行する。
【0055】
検知部152は、登録テーブル141に登録されたアラート情報の組み合わせと、パターンテーブル142とを基にして、パターンを特定する。検知部152は、特定したパターンと、判定ポリシーテーブル143とを基にして、サイレント障害の要因となる箇所を検知し、検知結果を送信部153に出力する。検知部152は、検知結果を表示部130に出力して、表示させてもよい。
【0056】
たとえば、検知部152は、登録テーブル141に登録された各アラート情報を参照し、監視スイッチ(30A,30B)、コアスイッチ10A、コアスイッチ10B、フロアスイッチについて、「○」か「×」かの判定を実行する。検知部152が「○」か「×」かを判定する処理は、
図4で説明した方法に対応する。
【0057】
検知部152は、「○」、「×」の判定結果の組み合わせと、パターンテーブル142とを基にして、パターンを特定する。検知部152が、パターンを特定する処理は、
図4で説明した方法に対応する。なお、検知部152は、全ての判定結果が「○」となる場合には、サイレント障害が発生していないものとして、いずれかの判定結果が「×」となるまで、上記処理を繰り返し実行する。
【0058】
検知部152は、パターン(
図4で説明したパターンA~Gのいずれか)を特定すると、特定したパターンと、判定ポリシーテーブル143とを基にして、サイレント障害の要因となる箇所を検知し、検知した結果を、送信部153に出力する。検知部152は、サイレント障害の要因となる箇所に加えて、ルーティング機能、スイッチング機能に障害があるのかを合わせて出力してもよい。
【0059】
送信部153は、検知部152の検知結果を基にして、サイレント障害の要因となる箇所となるスイッチに対してメッセージを送信する。メッセージには、あて先となるスイッチの識別情報が設定されるものとする。
【0060】
送信部153のメッセージを受信したスイッチは、他のスイッチとの通信を停止する処理を行う。たとえば、送信部153は、監視スイッチ30A,30Bを介して、該当するスイッチにメッセージを送信する。係る処理が実行されることで、コアスイッチ10A,10Bによる経路の切り替えが発生する。
【0061】
図6は、メッセージ送信による経路切り替えの一例を説明するための図である。たとえば、監視装置100が、コアスイッチ10Aにサイレント障害が発生したことを検知し、送信部153が、メッセージをコアスイッチ10Aに送信した場合について説明する。
【0062】
監視スイッチ30Aは、監視装置100の送信部153からメッセージを受信すると、メッセージをコアスイッチ10Aに転送する。コアスイッチ10Aは、メッセージを受信すると、所定のスクリプトを実行し、コアスイッチ10Aのポートをダウンさせる。コアスイッチ10Aのポートがダウンすることで、それまでコアスイッチ10Aを経由していたパケットが、コアスイッチ10Bを経由して転送されるようになり、経路の切り替えが発生する。これによって、一部のコアスイッチにサイレント障害が発生しても、ネットワークを自動的に復旧させることができる。
【0063】
次に、本実施例に係る監視装置100の処理手順の一例について説明する。
図7は、本実施例に係る監視装置の処理手順を示すフローチャートである。
図7に示すように、監視装置100の取得部151は、監視スイッチ30A,30Bからアラート情報を受信した場合に、アラート情報を登録テーブル141に登録する(ステップS101)。
【0064】
監視装置100の検知部152は、登録テーブル141の各アラート情報と、パターンテーブル142とを比較して、パターンを特定する(ステップS102)。検知部152は、パターンと判定ポリシーテーブル143とを基にして、サイレント障害の発生したスイッチを検知する(ステップS103)。
【0065】
監視装置100の送信部は、サイレント障害の発生したスイッチに対してメッセージを送信し、送信先のスイッチのポートを閉塞させる(ステップS104)。
【0066】
監視装置100は、処理を継続するか否かを判定する(ステップS105)。監視装置100は、処理を継続する場合には(ステップS105,Yes)、ステップS101に移行する。監視装置100は、処理を継続しない場合には(ステップS105,No)、処理を終了する。
【0067】
次に、本実施例に係る監視装置100の効果について説明する。監視装置100は、監視対象となるスイッチを監視する監視スイッチ30A,30Bから、アラート情報を取得し、アラートの発生したスイッチの組み合わせを基にして、サイレント障害の発生したスイッチを検知する。これによって、効率的に監視対象となるスイッチのサイレント障害を検知することができる。
【0068】
たとえば、監視装置100は、アラートの発生したスイッチの組み合わせを、パターンA~パターンGのいずれかに分類し、分類したパターンと、判定ポリシーテーブル143とを基にして、サイレント障害の発生したスイッチを検知する。これにより、精度よく、サイレント障害に対応する箇所を特定することができる。
【0069】
監視装置100は、サイレント障害の発生したスイッチを検知した場合に、検知したスイッチに対して、メッセージを送信し、スイッチのポートを閉塞させる。冗長化されたネットワークにおいて、かかる処理を実行することで、サイレント障害が発生した場合でも、ネットワークを自動的に復旧させることができる。
【0070】
次に、上記実施例に示した監視装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。
図8は、実施例の監視装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0071】
図8に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
【0072】
ハードディスク装置207は、取得プログラム207a、検知プログラム207b、送信プログラム207cを有する。また、CPU201は、各プログラム207a~207cを読み出してRAM206に展開する。
【0073】
取得プログラム207aは、取得プロセス206aとして機能する。検知プログラム207bは、検知プロセス206bとして機能する。送信プログラム207cは、送信プロセス206cとして機能する。
【0074】
取得プロセス206aの処理は、取得部151の処理に対応する。検知プロセス206bの処理は、検知部152の処理に対応する。送信プロセス206cの処理は、送信部153の処理に対応する。
【0075】
なお、各プログラム207a~207dについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207dを読み出して実行するようにしてもよい。