特開2022-174535 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2022-174535クラスタシステム、監視システム、監視方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022174535

(43)【公開日】2022-11-24

(54)【発明の名称】クラスタシステム、監視システム、監視方法、及びプログラム

(51)【国際特許分類】

G06F 11/07 20060101AFI20221116BHJP

G06F 11/20 20060101ALI20221116BHJP

【ＦＩ】

G06F11/07 193

G06F11/20 620

G06F11/07 140A

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021080395

(22)【出願日】2021-05-11

(71)【出願人】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】木本大輝

【テーマコード（参考）】

5B034

5B042

【Ｆターム（参考）】

5B034CC01

5B034DD02

5B042KK17

(57)【要約】

【課題】複数のクラスタシステムが共有するサーバ装置に障害が発生した場合に、サーバ装置に対する適切な回復動作を実行することができるクラスタシステムを提供すること。
【解決手段】本開示にかかるクラスタシステムは、サーバ装置の監視状態及びサーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理する管理部１１と、サーバ装置の監視結果を監視状態に反映するとともに、他のクラスタシステムから受信したサーバ装置の監視結果を監視状態に反映する監視部１２と、少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、他のクラスタシステムと同一の前記判定基準に従ってサーバ装置に対する回復動作を実行する第１のクラスタシステムを決定し、決定結果を実行状態に反映する決定部１３と、実行状態に従ってサーバ装置に対する回復動作を実行するか否かを判定する制御部１４と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理する管理部と、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映する監視部と、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映する決定部と、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する制御部と、を備えるクラスタシステム。

【請求項2】

前記監視部は、
前記他のクラスタシステムが前記サーバ装置に対する回復動作を実行することが前記実行状態に示されている場合、前記サーバ装置の監視を停止する、請求項１に記載のクラスタシステム。

【請求項3】

前記監視部は、
前記サーバ装置に対する回復動作を実行しない少なくとも一つの第２のクラスタシステムの監視状態を、前記サーバ装置の監視を停止している状態であることを示す情報に更新する、請求項２に記載のクラスタシステム。

【請求項4】

前記判定基準は、
前記回復動作を実行する前記第１のクラスタシステムの優先順位を定める、請求項１乃至３のいずれか１項に記載のクラスタシステム。

【請求項5】

前記決定部は、
前記複数のクラスタシステムのうち、前記サーバ装置が異常状態であることを検出した少なくとも一つの第３のクラスタシステムの中から、前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定する、請求項１乃至４のいずれか１項に記載のクラスタシステム。

【請求項6】

前記回復動作は、
前記サーバ装置において提供されるアプリケーションの再起動、又は前記サーバ装置の再起動である、請求項１乃至５のいずれか１項に記載のクラスタシステム。

【請求項7】

前記監視部は、
前記サーバ装置がDNSサーバ装置である場合に、仮想ホスト名のアドレス解決が成功したか否かに応じて前記DNSサーバ装置が正常状態かもしくは異常状態かを判定する、請求項１乃至６のいずれか１項に記載のクラスタシステム。

【請求項8】

複数のクラスタシステムと、
前記複数のクラスタシステムによって管理されるサーバ装置と、を含む監視システムであって、
それぞれの前記クラスタシステムは、
前記複数のクラスタシステムにおける前記サーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、監視システム。

【請求項9】

複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、
監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、
決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、クラスタシステムにおいて実行される監視方法。

【請求項10】

複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、
監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、
決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定することをコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はクラスタシステム、監視システム、監視方法、及びプログラムに関する。

【背景技術】

【0002】

企業等が社内ネットワークを構築する場合に、拡張性及び可用性を確保するために、クラスタシステムを用いる場合がある。クラスタシステムは、予め定められたポリシーもしくは特定のパラメータ等を用いてクラスタシステム内のサーバ装置等の管理を行う。また、クラスタシステムにおいて可用性を確保されないサーバ装置は、クラスタシステムによる管理の対象外となり、クラスタシステムに適用されるポリシーが適用されない。このように、クラスタシステムによる管理の対象外となるサーバ装置は、クラスタシステム内のサーバ装置等に障害が発生した場合とは異なる手順によって障害時の回復動作が実行される。

【0003】

特許文献１には、ネットワークを介して接続された複数の計算機が分散処理を行う構成が開示されている。特許文献１に開示されている計算機は、データの出力順序を決定する際に、半順序配信を行うことによって、一部の計算機に障害が発生した場合であっても、それぞれの計算機から出力されるデータの一貫性を確保し、処理を継続させる。

【0004】

また、特許文献２には、複数の機能を分散処理している二つの計算機及び共通補助記憶装置を有するシステムの構成が開示されている。特許文献１には、一方の計算機に障害が発生した場合に、他方の計算機が、障害が発生した計算機において実行されていた機能を引き継いで運用するバックアップ運用形態が開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２０－１８７５２６号公報

【特許文献2】特開平０９－２４４９１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

ここで、社内ネットワーク等に複数のクラスタシステムが含まれる場合、クラスタシステムによる管理の対象外となるサーバ装置を、複数のクラスタシステムが共有し、管理することがある。この場合、サーバ装置に障害が発生した場合、それぞれのクラスタシステムが、サーバ装置に対する回復動作を実行するため、回復動作が重複もしくは競合し、適切な回復動作が行われなくなるという問題がある。ここで、特許文献２に開示されている計算機は、障害が発生した場合、予め定められた手順に従って機能の引継ぎを行うため、障害が発生した計算機に対して複数の回復動作が実行されることはない。そのため、特許文献２に開示されている障害時の回復動作を実行しても、複数のクラスタシステムが共有し、さらに管理するサーバ装置に障害が発生した場合に、適切な回復動作が行われなくなるという問題を解決することができない。

【0007】

本開示の目的の一つは、複数のクラスタシステムが共有するサーバ装置に障害が発生した場合に、サーバ装置に対する適切な回復動作を実行することができるクラスタシステム、監視システム、監視方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0008】

本開示の第１の態様にかかるクラスタシステムは、複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理する管理部と、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映する監視部と、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映する決定部と、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する制御部と、を備える。

【0009】

本開示の第２の態様にかかる監視システムは、複数のクラスタシステムと、前記複数のクラスタシステムによって管理されるサーバ装置と、を含む監視システムであって、それぞれの前記クラスタシステムは、前記複数のクラスタシステムにおける前記サーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映し、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する。

【0010】

本開示の第３の態様にかかる監視方法は、複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映し、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する。

【0011】

本開示の第４の態様にかかるプログラムは、複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映し、管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定することをコンピュータに実行させる。

【発明の効果】

【0012】

本開示により、複数のクラスタシステムが共有するサーバ装置に障害が発生した場合に、サーバ装置に対する適切な回復動作を実行することができるクラスタシステム、監視システム、監視方法、及びプログラムを提供することができる。

【図面の簡単な説明】

【0013】

【図1】実施の形態１にかかるクラスタシステムの構成図である。

【図2】実施の形態実施の形態２にかかる監視システムの構成図である。

【図3】実施の形態２にかかる監視マップを示す図である。

【図4】実施の形態２にかかる監視マップの監視状態に設定される値を説明する図である。

【図5】実施の形態２にかかる監視マップの実行状態に設定される値を説明する図である。

【図6】実施の形態２にかかる回復動作の実行処理の流れを示す図である。

【図7】実施の形態２にかかる回復動作の実行処理の流れを示す図である。

【図8】実施の形態２にかかる監視マップに設定される値の遷移を示す図である。

【図9】実施の形態２にかかる監視マップに設定される値の遷移を示す図である。

【図10】実施の形態２にかかる回復動作の実行処理の流れを示す図である。

【図11】実施の形態２にかかる回復動作の実行処理の流れを示す図である。

【図12】実施の形態２にかかる監視マップに設定される値の遷移を示す図である。

【図13】それぞれの実施の形態にかかるクラスタシステムの構成図である。

【発明を実施するための形態】

【0014】

（実施の形態１）
以下、図面を参照して本開示の実施の形態について説明する。図１を用いて実施の形態１にかかるクラスタシステム１０の構成例について説明する。クラスタシステム１０は、１台以上のコンピュータ装置が連携して動作することによって、柔軟な拡張性もしくは高可用性を実現するシステムである。クラスタシステム１０は、複数のコンピュータ装置が分散処理を行うことによって動作するシステムであってもよい。もしくは、クラスタシステム１０は、アクティブ動作を行う１台のコンピュータ装置と、アクティブ動作を行っているコンピュータ装置のバックアップ用のコンピュータ装置とを有するシステムであってもよい。以下に説明されるクラスタシステム１０の構成要素は、複数のコンピュータ装置において分散して実行される機能等であってもよく、アクティブ動作を行う１台のコンピュータ装置において実行される機能等であってもよい。

【0015】

コンピュータ装置は、プロセッサがメモリに格納されたプログラムを実行することによって動作する装置である。コンピュータ装置は、例えば、サーバ装置であってもよい。

【0016】

コンピュータ装置もしくはコンピュータ装置の集合であるクラスタシステム１０は、管理部１１、監視部１２、決定部１３、及び制御部１４を有している。管理部１１、監視部１２、決定部１３、及び制御部１４等のクラスタシステム１０の構成要素は、プロセッサがメモリに格納されたプログラムを実行することによって処理が実行されるソフトウェアもしくはモジュールであってもよい。または、クラスタシステム１０の構成要素は、回路もしくはチップ等のハードウェアであってもよい。

【0017】

管理部１１は、複数のクラスタシステムにおけるサーバ装置の監視状態及びサーバ装置が異常状態である場合にサーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理する。複数のクラスタシステムに含まれるそれぞれのクラスタシステムは、他のクラスタシステムとは異なるポリシーもしくはシステム構成等を用いて、拡張性もしくは可用性を実現してもよい。サーバ装置は、それぞれのクラスタシステムにおいて拡張性もしくは可用性を確保するために管理されるコンピュータ装置の対象外となるコンピュータ装置である。サーバ装置は、例えば、DNS（Domain Name System）サーバ装置であってもよい。サーバ装置は、それぞれのクラスタシステムによって管理される。言い換えると、サーバ装置に障害が発生した場合に、それぞれのクラスタシステムがサーバ装置の障害を検出し、さらに、それぞれのクラスタシステムによってサーバ装置の回復動作が実行される。

【0018】

監視状態は、それぞれのクラスタシステムにおける監視結果を示しており、例えば、サーバ装置が正常状態か異常状態かを示す。異常状態は、例えば、サーバ装置に障害もしくは故障が発生した状態であってもよい。回復動作は、例えば、サーバ装置が有する一部の機能、サービス、もしくはアプリケーション等を再起動させることであってもよく、サーバ装置自体を再起動させることであってもよい。実行状態は、例えば、障害が発生したサーバ装置に対して、どのクラスタシステムが回復動作を実行するかを示す。

【0019】

管理部１１は、例えば、監視状態及び実行状態をクラスタシステム毎に管理してもよい。具体的には、管理部１１は、クラスタシステムごとの監視状態及び実行状態を示すフラグ情報を、データベースを用いて管理してもよい。

【0020】

監視部１２は、サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を監視状態に反映するとともに、他のクラスタシステムから受信したサーバ装置の監視結果を監視状態に反映する。

【0021】

監視部１２は、例えば、サーバ装置に対してメッセージを送信し、応答メッセージを受信することができたか否かに応じて、サーバ装置が正常状態かもしくは異常状態かを判定してもよい。または、サーバ装置がDNSサーバ装置である場合、監視部１２は、仮想ホスト名をDNSサーバ装置へ送信し、仮想ホスト名に対するアドレス情報を受信することができたか否かに応じて、サーバ装置が正常かもしくは異常状態かを判定してもよい。

【0022】

監視部１２は、監視結果を、管理部１１において管理されているクラスタシステム１０におけるサーバ装置の監視状態に反映する。さらに、監視部１２は、クラスタシステム１０とは異なる他のクラスタシステムからサーバ装置の監視結果を受信する。つまり、他のクラスタシステムも、監視部１２と同様に、サーバ装置の監視を行っている。監視部１２は、監視結果を受信すると、管理部１１において管理されている他のクラスタシステムにおけるサーバ装置の監視状態に反映する。

【0023】

決定部１３は、複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、サーバ装置に対する回復動作を実行するクラスタシステムを決定する。決定部１３は、監視状態を管理する他のクラスタシステムが使用する判定基準と同一の判定基準に従って、異常状態のサーバ装置に対する回復動作を実行するクラスタシステムを決定する。決定部１３は、回復動作を実行するクラスタシステムを決定すると、決定結果を管理部１１において管理されている実行状態に反映する。

【0024】

それぞれのクラスタシステムは、異なる方法を用いてサーバ装置を監視してもよい。そのため、サーバ装置の異常状態を検出することができたクラスタシステムと、サーバ装置の異常状態を検出することができなかったクラスタシステムとが存在する。

【0025】

判定基準は、回復動作を実行するクラスタシステムを一意に決定することができる基準である。例えば、判定基準には、それぞれのクラスタシステムの優先順位が定められており、決定部１３は、優先順位の高いクラスタシステムを、回復動作を実行するクラスタシステムと定めてもよい。複数のクラスタシステムは、同一の判定基準を有している。つまり、複数のクラスタシステムは、同一の判定基準を共有している。

【0026】

制御部１４は、実行状態に従ってサーバ装置に対する回復動作を実行するか否かを判定する。制御部１４は、実行状態においてクラスタシステム１０が回復動作を実行することが示されている場合、サーバ装置に対する回復動作を実行する。また、制御部１４は、実行状態において、他のクラスタシステムが回復動作を実行することが示されている場合、サーバ装置に対する回復動作を実行しない。

【0027】

以上説明したように、クラスタシステム１０は、クラスタシステム１０を含むすべてのクラスタシステムにおけるサーバ装置の監視状態を管理する。これにより、クラスタシステム１０は、クラスタシステム１０においてサーバ装置の異常状態を検出することができなかった場合であっても、他のクラスタシステムにおいてサーバ装置の異常状態が検出されたことを把握することができる。

【0028】

さらに、クラスタシステム１０は、異常状態が検出されたサーバ装置に対する回復動作を実行するクラスタシステムを、他のクラスタシステムが有する判定基準と同一の判定基準を用いて決定する。これにより、クラスタシステム１０を含む複数のクラスタシステムは、回復動作を実行するクラスタシステムを一意に決定することができる。その結果、異常状態であるサーバ装置に対する回復動作が、複数のクラスタシステムから重複して実行されることを回避することができる。つまり、それぞれのクラスタシステムは、異常状態であるサーバ装置に対する回復動作を実行するクラスタシステムを適切に決定することができる。

【0029】

（実施の形態２）
続いて、図２を用いて実施の形態２にかかる監視システムの構成例について説明する。図２の監視システムは、クラスタシステム１０、クラスタシステム２０、クラスタシステム３０、及び共有サーバ装置４０を有している。クラスタシステム１０、クラスタシステム２０、クラスタシステム３０、及び共有サーバ装置４０は、例えば、一つの社内システム等に含まれていてもよい。

【0030】

クラスタシステム１０、クラスタシステム２０、クラスタシステム３０、及び共有サーバ装置４０は、ネットワークを介して接続されている。ネットワークは、例えばIPネットワークであってもよい。クラスタシステム２０及びクラスタシステム３０は、クラスタシステム１０と同じ構成を有している。共有サーバ装置４０は、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０における拡張性もしくは可用性を確保するために管理されるコンピュータ装置の対象外となるサーバ装置である。共有サーバ装置４０は、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０によって管理されている。共有サーバ装置４０は、例えば、DNSサーバ装置であってもよい。

【0031】

例えば、クラスタシステム１０は、クラスタシステム２０もしくは３０へアクセスするために、DNSサーバ装置として動作する共有サーバ装置４０から、クラスタシステム２０もしくは３０を識別するアドレス情報を取得してもよい。クラスタシステム２０へアクセスするとは、クラスタシステム２０内において管理されているいずれかのコンピュータ装置へアクセスすることであってもよい。もしくは、クラスタシステム２０へアクセスするとは、クラスタシステム２０において他のクラスタシステムと通信を行う機能を有するコンピュータ装置へアクセスすることであってもよい。

【0032】

次に、図３を用いてクラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０が管理する監視マップについて説明する。以下においては、主にクラスタシステム１０が管理する監視マップについて説明するが、クラスタシステム２０及びクラスタシステム３０が管理する監視マップもクラスタシステム１０が管理する監視マップと同様の構成を有する。

【0033】

クラスタシステム１０は、管理部１１において監視マップを管理する。監視マップは、それぞれのクラスタシステムと、監視状態、実行状態、及び実行順序とが関連付けられている。クラスタシステムの列に設定される数値は、クラスタシステムの識別情報を示しており、図２に示されるクラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０が監視マップにおいて管理されていることを示している。

【0034】

実行順序の列に設定される数値は、回復動作を実行する順序を示している。１が設定されているクラスタシステムが最も優先的に回復動作を実行するクラスタシステムであり、３が設定されているクラスタシステムが最も優先順位が低いクラスタシステムである。

【0035】

監視状態に設定される数値について図４を用いて説明する。監視状態に設定される数値は、フラグ情報と言い換えられてもよい。図４は、監視状態として、正常、一時停止、及び異常のパラメータが存在することを示している。また、図４は、監視状態として正常を示すフラグが０であり、一時停止を示すフラグが１であり、異常を示すフラグが２であることを示している。正常は、共有サーバ装置４０が異常状態ではなく、つまり、共有サーバ装置４０に障害もしくは故障が発生していないことを示す。一時停止は、共有サーバ装置４０の監視を一時的に停止していることを示す。異常は、共有サーバ装置４０が正常ではなく、つまり、共有サーバ装置４０に障害もしくは故障が発生していることを示す。

【0036】

続いて、実行状態に設定される数値について図５を用いて説明する。実行状態に設定される数値は、フラグ情報と言い換えられてもよい。図５は、実行状態として、未実施、実行準備、実行中、及び実行済のパラメータが存在することを示している。また、図５は、実行状態として未実施を示すフラグが０であり、実行準備を示すフラグが１であり、実行中を示すフラグが２であり、実行済を示すフラグが３であることを示している。未実施は、異常状態である共有サーバ装置４０に対する回復動作を実行しないことを示す。実行準備は、異常状態である共有サーバ装置４０に対する回復動作を実行するための準備中であることを示す。実行中は、異常状態である共有サーバ装置４０に対する回復動作を実行中であることを示す。実行済は、異常状態である共有サーバ装置４０に対する回復動作を完了したことを示す。

【0037】

続いて、図６及び図７を用いて、クラスタシステム１０のみが共有サーバ装置４０の異常を検出した場合における回復動作の実行処理の流れについて説明する。さらに、図８を用いて、監視マップに設定される値の遷移について説明する。図８は、クラスタシステム１０の実行順序が１であり、クラスタシステム２０の実行順序が２であり、クラスタシステム３０の実行順序が３であることを示している。さらに、図８は、図６及び図７において監視マップが更新されるステップと、監視マップのフラグ情報とを関連付けて示している。

【0038】

はじめに、クラスタシステム１０は、共有サーバ装置４０が異常状態であることを検出する（Ｓ１１）。例えば、クラスタシステム１０は、共有サーバ装置４０から仮想ホスト名に対応するアドレス情報を取得できない場合に、共有サーバ装置４０が異常状態であると判定する。

【0039】

次に、クラスタシステム１０は、クラスタシステム２０及びクラスタシステム３０へ、共有サーバ装置４０の異常状態を検出したことを示すメッセージを送信する（Ｓ１２）。

【0040】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおける監視状態を更新する（Ｓ１３）。例えば、クラスタシステム１０は、異常状態を検出したことを示すメッセージを送信したことを契機に監視マップを更新する。また、クラスタシステム２０及びクラスタシステム３０は、異常状態を検出したことを示すメッセージを受信したことを契機に監視マップを更新する。図６においては、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０が監視マップを更新するタイミングが同一であることを示しているが、完全に同一のタイミングに監視マップの更新が行われなくてもよい。以下の説明においても同様に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０において実行される処理のタイミングが同一であることが示されていても、完全に同一のタイミングでなくてもよい。

【0041】

具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ１２の列に示されるように、クラスタシステム１０の監視状態を２に設定する。

【0042】

また、図６においては、クラスタシステム１０は、メッセージを送信した後に、監視マップを更新しているが、ステップＳ１１において異常状態を検出し、ステップＳ１２においてメッセージを送信する前に、監視マップを更新してもよい。

【0043】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０に対する監視処理を実行する（Ｓ１４）。図６においては、クラスタシステム１０のみが共有サーバ装置４０の異常状態を検出する例について説明するため、クラスタシステム２０及びクラスタシステム３０は、ステップＳ１４において異常状態を検出しなかったとする。

【0044】

次に、クラスタシステム２０は、クラスタシステム１０及びクラスタシステム３０へ監視結果を含むメッセージを送信する（Ｓ１５）。さらに、クラスタシステム３０は、クラスタシステム１０及びクラスタシステム２０へ監視結果を示すメッセージを送信する（Ｓ１６）。クラスタシステム２０及びクラスタシステム３０は、共有サーバ装置４０が正常であることを示すメッセージを送信する。また、図６は、ステップＳ１５においてクラスタシステム２０がメッセージを送信した後に、クラスタシステム３０がステップＳ１６においてメッセージを送信する例を示しているが、ステップＳ１５及びＳ１６の順番は逆であってもよい。もしくは、ステップＳ１５及びＳ１６は、実質的に同一のタイミングに実行されてもよい。

【0045】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム２０は、監視マップにおける監視状態を更新する（Ｓ１７）。クラスタシステム１０は、クラスタシステム２０及びクラスタシステム３０から受信した監視結果を監視マップの監視状態に反映する。クラスタシステム２０は、ステップＳ１４における監視結果及びクラスタシステム３０から受信した監視結果を監視マップの監視状態に反映する。クラスタシステム３０は、ステップＳ１４における監視結果及びクラスタシステム２０から受信した監視結果を監視マップの監視状態に反映する。

【0046】

具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ１７の列に示されるように、ステップＳ１２における監視状態と同様の状態の監視マップを有する。

【0047】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、回復動作を実行するクラスタシステムを決定し、監視マップの実行状態を更新する（Ｓ１８）。クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、異常状態を検出したクラスタシステムの中から回復動作を実行するクラスタシステムを決定する。クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、複数のクラスタシステムが共有サーバ装置４０の異常状態を検出した場合、実行順序に従って回復動作を実行するクラスタシステムを決定する。図６においては、共有サーバ装置４０の異常状態を検出したのはクラスタシステム１０のみである。そのため、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、回復動作を実行するクラスタシステムをクラスタシステム１０として、監視マップの実行状態を更新する。

【0048】

具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ１８の列に示されるように、クラスタシステム１０の実行状態を１に設定する。つまり、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、クラスタシステム１０が回復動作の実行準備中であるとする。

【0049】

次に、クラスタシステム２０は、回復動作を実行しないため、共有サーバ装置４０の監視を一時的に停止することを示すメッセージをクラスタシステム１０及びクラスタシステム３０へ送信する（Ｓ１９）。また、クラスタシステム３０も、共有サーバ装置４０の監視を一時的に停止することを示すメッセージをクラスタシステム１０及びクラスタシステム２０へ送信する（Ｓ２０）。ステップＳ１９及びＳ２０は、実行される順番が逆であってもよく、実質的に同一のタイミングに行われてもよい。回復動作が実行された場合、共有サーバ装置４０の再起動が行われることがある。この場合、回復動作を実行しないクラスタシステムが共有サーバ装置４０の監視を行っていた場合、共有サーバ装置４０に異常状態が発生していると認識し、共有サーバ装置４０の異常状態を検出することがある。そのため、回復動作を実行しないクラスタシステムは、監視を一時的に停止することによって、回復動作中の共有サーバ装置４０に関する異常状態の検出を回避することができる。

【0050】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム２０及びクラスタシステム３０の監視状態を更新する（Ｓ２１）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ２１の列に示されるように、クラスタシステム２０及びクラスタシステム３０の監視状態を１に設定する。

【0051】

次に、クラスタシステム１０は、クラスタシステム２０及びクラスタシステム３０へ、回復動作を開始することを示すメッセージを送信する（Ｓ２２）。

【0052】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム１０の実行状態を実行中に更新する（Ｓ２３）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ２３の列に示されるように、クラスタシステム１０の実行状態を２に設定する。また、クラスタシステム１０は、ステップＳ２２において回復動作を開始することを示すメッセージを送信する前に、クラスタシステム１０の実行状態を２に設定してもよい。

【0053】

次に、クラスタシステム１０は、共有サーバ装置４０に対する回復動作を実行する（Ｓ２４）。例えば、クラスタシステム１０は、共有サーバ装置４０が有する一部のアプリケーションを再起動してもよく、共有サーバ装置４０を再起動してもよい。次に、クラスタシステム１０は、共有サーバ装置４０に対する回復動作を完了する（Ｓ２５）。

【0054】

次に、クラスタシステム１０は、共有サーバ装置４０に対する回復動作が完了したことを示すメッセージを、クラスタシステム２０及びクラスタシステム３０へ送信する（Ｓ２６）。

【0055】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム１０の実行状態を実行済に更新する（Ｓ２７）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ２７の列に示されるように、クラスタシステム１０の実行状態を３に設定する。また、クラスタシステム１０は、ステップＳ２７において回復動作が完了したことを示すメッセージを送信する前に、クラスタシステム１０の実行状態を３に設定してもよい。

【0056】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０の実行状態を実行済に更新する（Ｓ２７）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ２７の列に示されるように、クラスタシステム１０の実行状態を３に設定する。

【0057】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０の監視を実行する（Ｓ２８）。クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０が正常に動作していると判定すると、監視マップの監視状態及び実行状態をリセットする（Ｓ２９）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図８の監視マップのステップＳ２９の列に示されるように、監視状態及び実行状態に０を設定する。

【0058】

続いて、クラスタシステム１０及びクラスタシステム２０が、共有サーバ装置４０の異常状態を検出した場合における回復動作の実行処理の流れについて説明する。例えば、クラスタシステム１０が先に共有サーバ装置４０の異常状態を検出し、その後、クラスタシステム２０が共有サーバ装置４０の異常状態を説明する場合について説明する。

【0059】

クラスタシステム１０及びクラスタシステム２０が共有サーバ装置４０の異常状態を検出した場合の回復動作の実行処理の流れは、図６及び図７と同様である。ここでは、クラスタシステム１０及びクラスタシステム２０が、共有サーバ装置４０の異常状態を検出した場合における、監視マップに設定される値の遷移について、クラスタシステム１０が異常状態を検出した場合との差異を説明する。

【0060】

クラスタシステム１０及びクラスタシステム２０が、共有サーバ装置４０の異常状態を検出した場合における回復動作の実行処理の流れについて、図６のステップＳ１からＳ１３までは、クラスタシステム１０のみが異常状態を検出した場合と同様である。

【0061】

クラスタシステム２０は、図６のステップＳ１４において共有サーバ装置４０の異常状態を検出する。さらに、クラスタシステム２０は、ステップＳ１５において、クラスタシステム１０へ、共有サーバ装置４０の異常状態を検出したことを示すメッセージをクラスタシステム１０及びクラスタシステム３０へ送信する。

【0062】

この場合、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図９のステップＳ１７の列に示されるように、クラスタシステム１０及びクラスタシステム２０の監視状態を２に設定する。

【0063】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、ステップＳ１８において、共有サーバ装置４０に対する回復動作を実行するクラスタシステムを決定する。ステップＳ１７の時点において、共有サーバ装置４０の異常状態を検出したクラスタシステムは、クラスタシステム１０及びクラスタシステム２０である。また、クラスタシステム１０は、実行順序に１が設定されているため、実行順序の優先度は、クラスタシステム２０よりも高い。そのため、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０に対する回復動作を実行するクラスタシステムとしてクラスタシステム１０の監視マップの実行状態を更新する。

【0064】

具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図９の監視マップのステップＳ１８の列に示されるように、クラスタシステム１０の実行状態を１に設定する。つまり、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、クラスタシステム１０が回復動作の実行準備中であるとする。

【0065】

ステップＳ１９以降については、クラスタシステム１０のみが異常状態を検出した場合のステップ１９以降の処理と同様であるため、詳細な説明を省略する。

【0066】

続いて、クラスタシステム１０及びクラスタシステム２０が、共有サーバ装置４０の異常状態を検出し、さらに、回復動作において共有サーバ装置４０が正常状態へ遷移しなかった場合における回復動作の実行処理の流れについて説明する。この場合、図６及び図７のステップＳ２８までの処理は、クラスタシステム１０及びクラスタシステム２０が、共有サーバ装置４０の異常状態を検出した場合の処理と同様であるため詳細な説明を省略する。以下に、図１０及び図１１を用いて、ステップＳ２８以降の処理について説明する。

【0067】

図１０は、図７のステップＳ２８以降の処理を示している。クラスタシステム１０及びクラスタシステム２０は、ステップＳ２８において共有サーバ装置４０の監視を実行すると、共有サーバ装置４０の異常状態を検出する（Ｓ３１）。つまり、クラスタシステム１０が共有サーバ装置４０に対して回復動作を実行したが、共有サーバ装置４０の異常状態は回復していない。

【0068】

次に、クラスタシステム１０は、クラスタシステム２０及びクラスタシステム３０へ共有サーバ装置４０が異常状態であることを検出したことを示すメッセージを送信する（Ｓ３２）。さらに、クラスタシステム２０も、クラスタシステム１０及びクラスタシステム３０へ共有サーバ装置４０が異常状態であることを検出したことを示すメッセージを送信する（Ｓ３３）。また、異常状態を検出していないクラスタシステム３０も、異常状態を検出していないことを示す監視結果をクラスタシステム１０及びクラスタシステム２０へ送信してもよい。

【0069】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム１０及びクラスタシステム２０の監視状態を更新する（Ｓ３４）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図９のステップＳ２７の列に示されている監視マップの状態から、図１２のステップＳ３４の列に示されている監視マップの状態へ更新する。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図１２におけるクラスタシステム１０及びクラスタシステム２０の監視状態を２に更新する。

【0070】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、回復動作を実行するクラスタシステムを決定し、監視マップの実行状態を更新する（Ｓ３５）。ステップＳ３１において、クラスタシステム１０及びクラスタシステム２０が、共有サーバ装置４０の異常状態を検出している。また、図１２のステップＳ３４の列における実行状態には、クラスタシステム１０に３が設定されており、クラスタシステム１０における回復動作が実行済であることが示されている。そのため、ステップＳ３５においては、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、実行順序が２に設定されているクラスタシステム２０を、回復動作を実行するクラスタシステムとする。

【0071】

具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図１２のステップＳ３５の列におけるクラスタシステム２０の実行状態を１に更新する。

【0072】

次に、クラスタシステム１０は、回復動作を実行しないため、共有サーバ装置４０の監視を一時的に停止することを示すメッセージをクラスタシステム２０及びクラスタシステム３０へ送信する（Ｓ３６）。また、クラスタシステム３０も、共有サーバ装置４０の監視を一時的に停止することを示すメッセージをクラスタシステム１０及びクラスタシステム２０へ送信する（Ｓ３７）。ステップＳ３６及びＳ３７は、実行される順番が逆であってもよく、実質的に同一のタイミングに行われてもよい。

【0073】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム１０及びクラスタシステム３０の監視状態を更新する（Ｓ３８）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図１２の監視マップのステップＳ３８の列に示されるように、クラスタシステム１０及びクラスタシステム３０の監視状態を１に設定する。

【0074】

次に、クラスタシステム２０は、クラスタシステム１０及びクラスタシステム３０へ、回復動作を開始することを示すメッセージを送信する（Ｓ３９）。

【0075】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム１０の実行状態を実行中に更新する（Ｓ４０）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図１２の監視マップのステップＳ４０の列に示されるように、クラスタシステム２０の実行状態を２に設定する。また、クラスタシステム２０は、ステップＳ３９において回復動作を開始することを示すメッセージを送信する前に、クラスタシステム２０の実行状態を２に設定してもよい。

【0076】

次に、クラスタシステム２０は、共有サーバ装置４０に対する回復動作を実行する（Ｓ４１）。次に、クラスタシステム２０は、共有サーバ装置４０に対する回復動作を完了する（Ｓ４２）。

【0077】

次に、クラスタシステム２０は、共有サーバ装置４０に対する回復動作が完了したことを示すメッセージを、クラスタシステム１０及びクラスタシステム３０へ送信する（Ｓ４３）。

【0078】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップにおけるクラスタシステム２０の実行状態を実行済に更新する（Ｓ４４）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図１２の監視マップのステップＳ４４の列に示されるように、クラスタシステム２０の実行状態を３に設定する。また、クラスタシステム２０は、ステップＳ４３において回復動作が完了したことを示すメッセージを送信する前に、クラスタシステム２０の実行状態を３に設定してもよい。

【0079】

次に、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０の監視を実行する（Ｓ４５）。クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０が正常に動作していると判定すると、監視マップの監視状態及び実行状態をリセットする（Ｓ４６）。具体的には、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、図１２の監視マップのステップＳ４６の列に示されるように、監視状態及び実行状態に０を設定する。

【0080】

以上説明したように、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０が保有する監視マップは、同一となる。また、監視マップには、回復動作を実行する順序が定められている。そのため、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、監視マップを用いることによって、回復動作を実行するクラスタシステムを一意に決定することができる。これより、クラスタシステム１０、クラスタシステム２０、及びクラスタシステム３０は、共有サーバ装置４０に対して重複した回復動作を実行することがなく、共有サーバ装置４０に対して適切に回復動作を実行することができる。

【0081】

さらに、回復動作を実行しないクラスタシステムは、一時的に共有サーバ装置４０の監視を停止する。これにより、回復動作を実行しないクラスタシステムは、回復動作を実行中のサーバ装置を異常状態であると検出することを回避することができる。

【0082】

また、実施の形態２にかかる監視システムにおいては、それぞれのクラスタシステムが監視マップを有することによって、上位サーバ装置もしくはリーダーとなるサーバ装置は不要である。これにより、一般的な分散処理において実行されるリーダーを決定するまでのシーケンス等を排除することが可能となり、上位サーバ装置等を設置するためのコストを低減することができる。

【0083】

図１３は、１台のコンピュータ装置として動作するクラスタシステム１０の構成例を示すブロック図である。図１３を参照すると、クラスタシステム１０は、ネットワークインタフェース１２０１、プロセッサ１２０２、及びメモリ１２０３を含む。ネットワークインタフェース１２０１は、ネットワークノード（e.g., eNB、MME、P-GW、）と通信するために使用されてもよい。ネットワークインタフェース１２０１は、例えば、IEEE 802.3 seriesに準拠したネットワークインタフェースカード（NIC）を含んでもよい。ここで、eNBはevolved Node B、MMEはMobility Management Entity、P-GWはPacket Data Network Gatewayを表す。IEEEは、Institute of Electrical and Electronics Engineersを表す。

【0084】

プロセッサ１２０２は、メモリ１２０３からソフトウェア（コンピュータプログラム）を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明されたクラスタシステム１０の処理を行う。プロセッサ１２０２は、例えば、マイクロプロセッサ、MPU、又はCPUであってもよい。プロセッサ１２０２は、複数のプロセッサを含んでもよい。

【0085】

メモリ１２０３は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１２０３は、プロセッサ１２０２から離れて配置されたストレージを含んでもよい。この場合、プロセッサ１２０２は、図示されていないI/O（Input/Output）インタフェースを介してメモリ１２０３にアクセスしてもよい。

【0086】

図１３の例では、メモリ１２０３は、ソフトウェアモジュール群を格納するために使用される。プロセッサ１２０２は、これらのソフトウェアモジュール群をメモリ１２０３から読み出して実行することで、上述の実施形態において説明されたクラスタシステム１０の処理を行うことができる。

【0087】

図１３を用いて説明したように、上述の実施形態におけるクラスタシステム１０が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む１又は複数のプログラムを実行する。

【0088】

上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

【0089】

なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

【0090】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理する管理部と、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映する監視部と、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映する決定部と、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する制御部と、を備えるクラスタシステム。
（付記２）
前記監視部は、
前記他のクラスタシステムが前記サーバ装置に対する回復動作を実行することが前記実行状態に示されている場合、前記サーバ装置の監視を停止する、付記１に記載のクラスタシステム。
（付記３）
前記監視部は、
前記サーバ装置に対する回復動作を実行しない少なくとも一つの第２のクラスタシステムの監視状態を、前記サーバ装置の監視を停止している状態であることを示す情報に更新する、付記２に記載のクラスタシステム。
（付記４）
前記判定基準は、
前記回復動作を実行する前記第１のクラスタシステムの優先順位を定める、付記１乃至３のいずれか１項に記載のクラスタシステム。
（付記５）
前記決定部は、
前記複数のクラスタシステムのうち、前記サーバ装置が異常状態であることを検出した少なくとも一つの第３のクラスタシステムの中から、前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定する、付記１乃至４のいずれか１項に記載のクラスタシステム。
（付記６）
前記回復動作は、
前記サーバ装置において提供されるアプリケーションの再起動、又は前記サーバ装置の再起動である、付記１乃至５のいずれか１項に記載のクラスタシステム。
（付記７）
前記監視部は、
前記サーバ装置がDNSサーバ装置である場合に、仮想ホスト名のアドレス解決が成功したか否かに応じて前記DNSサーバ装置が正常状態かもしくは異常状態かを判定する、付記１乃至６のいずれか１項に記載のクラスタシステム。
（付記８）
複数のクラスタシステムと、
前記複数のクラスタシステムによって管理されるサーバ装置と、を含む監視システムであって、
それぞれの前記クラスタシステムは、
前記複数のクラスタシステムにおける前記サーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、監視システム。
（付記９）
それぞれの前記クラスタシステムは、
前記他のクラスタシステムが前記サーバ装置に対する回復動作を実行することが前記実行状態に示されている場合、前記サーバ装置の監視を停止する、付記８に記載の監視システム。
（付記１０）
複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、
監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、
決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定する、クラスタシステムにおいて実行される監視方法。
（付記１１）
複数のクラスタシステムにおけるサーバ装置の監視状態及び前記サーバ装置が異常状態である場合に前記サーバ装置に対する回復動作を実行する第１のクラスタシステムを示す実行状態を管理し、
前記サーバ装置が正常状態かもしくは異常状態かを監視し、
監視結果を前記監視状態に反映するとともに、他のクラスタシステムから受信した前記サーバ装置の監視結果を前記監視状態に反映し、
前記複数のクラスタシステムのうち少なくとも一つのクラスタシステムにおける監視結果が異常状態を示す場合、前記監視状態を管理する前記他のクラスタシステムが使用する判定基準と同一の前記判定基準に従って前記サーバ装置に対する回復動作を実行する前記第１のクラスタシステムを決定し、
決定結果を前記実行状態に反映し、
管理されている前記実行状態に従って前記サーバ装置に対する回復動作を実行するか否かを判定することをコンピュータに実行させるプログラム。

【符号の説明】

【0091】

１０クラスタシステム
１１管理部
１２監視部
１３決定部
１４制御部
２０クラスタシステム
３０クラスタシステム
４０共有サーバ装置

【図1】