IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023179110
(43)【公開日】2023-12-19
(54)【発明の名称】障害対応支援装置及び方法
(51)【国際特許分類】
   G06F 11/07 20060101AFI20231212BHJP
   H04L 41/0604 20220101ALI20231212BHJP
   H04L 43/0876 20220101ALI20231212BHJP
【FI】
G06F11/07 193
G06F11/07 151
G06F11/07 166
H04L41/0604
H04L43/0876
G06F11/07 181
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022092193
(22)【出願日】2022-06-07
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】徳永 雅和
【テーマコード(参考)】
5B042
【Fターム(参考)】
5B042GA12
5B042JJ15
5B042JJ17
5B042JJ23
5B042JJ29
5B042KK13
5B042KK14
5B042KK15
5B042KK17
5B042KK20
5B042MA08
5B042MA10
5B042MA14
5B042MC16
5B042MC18
5B042MC27
5B042MC35
(57)【要約】
【課題】
多くの利用者に利用されるシステムに発生した障害の客観的な復旧対応の緊急度及び優先度を迅速に保守員に提示でき、保守業務を最適化させ得る障害対応支援装置及び方法を提案する。
【解決手段】
ネットワーク及びサーバ装置の状態監視を行い、状態監視により障害を検知した場合に、障害が発生してから現在までの利用者からのアクセスの有無に基づいて障害に対する対応の緊急度を算出し、算出した緊急度に基づいて当該障害の優先度を判定し、優先度の判定結果を前記保守員に提示するようにした。
【選択図】 図2
【特許請求の範囲】
【請求項1】
保守員による障害対応を支援する障害対応支援装置において、
ネットワーク及びサーバ装置の状態監視を行う状態監視部と、
前記状態監視部が障害を検知した場合に、前記障害が発生してから現在までの利用者からのアクセスの有無に基づいて前記障害に対する対応の緊急度を算出する緊急度算出部と、
前記緊急度算出部が算出した緊急度に基づいて当該障害の優先度を判定する優先度判定部と、
前記優先度判定部の判定結果を前記保守員に提示する判定結果提示部と
を備えることを特徴とする障害対応支援装置。
【請求項2】
前記緊急度算出部は、
前記障害が発生してから現在までの前記利用者からのアクセスの有無に加えて、当該障害からの復旧の有無と、予備系への切替えの有無とに基づいて前記緊急度を算出し、
前記優先度判定部は、
前記緊急度に加えて、前記障害からの経過時間と、前記障害の影響を受ける1又は複数の前記サーバ装置から構成されるシステムの重要度とに基づいて前記優先度を算出する
ことを特徴とする請求項1に記載の障害対応支援装置。
【請求項3】
前記判定結果提示部は、
前記優先度の高い前記障害の順、かつ、前記優先度が同じ前記障害については前記利用者からのアクセス回数が多い順に並べて前記優先度判定部の判定結果を前記保守員に提示する
ことを特徴とする請求項1に記載の障害対応支援装置。
【請求項4】
前記重要度は、
事前に前記利用者により設定され、又は、前記システムごとの定常状態における顧客からのアクセス数に基づいて動的に決定される
ことを特徴とする請求項2に記載の障害対応支援装置。
【請求項5】
前記緊急度算出部は、
前記障害が発生してから現在までの利用者からのアクセスの有無に加えて、当該アクセスがあった場合の回数に基づいて当該障害に対する対応の緊急度を算出する
ことを特徴とする請求項1に記載の障害対応支援装置。
【請求項6】
保守員による障害対応を支援する障害対応支援装置により実行される障害対応支援方法であって、
ネットワーク及びサーバ装置の状態監視を行う第1のステップと、
前記状態監視により障害を検知した場合に、前記障害が発生してから現在までの利用者からのアクセスの有無に基づいて前記障害に対する対応の緊急度を算出する第2のステップと、
算出した緊急度に基づいて当該障害の優先度を判定する第3のステップと、
前記優先度の判定結果を前記保守員に提示する第4のステップと
を備えることを特徴とする障害対応支援方法。
【請求項7】
前記第2のステップにおいて、前記障害対応支援装置は、
前記障害が発生してから現在までの前記利用者からのアクセスの有無に加えて、当該障害からの復旧の有無と、予備系への切替えの有無とに基づいて前記緊急度を算出し、
前記第3のステップにおいて、前記障害対応支援装置は、
前記緊急度に加えて、前記障害からの経過時間と、前記障害の影響を受ける1又は複数の前記サーバ装置から構成されるシステムの重要度とに基づいて前記優先度を算出する
ことを特徴とする請求項6に記載の障害対応支援方法。
【請求項8】
前記第4のステップにおいて、前記障害対応支援装置は、
前記優先度の高い前記障害の順、かつ、前記優先度が同じ前記障害については前記利用者からのアクセス回数が多い順に並べて前記優先度の判定結果を前記保守員に提示する
ことを特徴とする請求項6に記載の障害対応支援方法。
【請求項9】
前記重要度は、
事前に前記利用者により設定され、又は、前記システムごとの定常状態における顧客からのアクセス数に基づいて動的に決定される
ことを特徴とする請求項7に記載の障害対応支援方法。
【請求項10】
前記第2のステップにおいて、前記障害対応支援装置は、
前記障害が発生してから現在までの利用者からのアクセスの有無に加えて、当該アクセスがあった場合の回数に基づいて当該障害に対する対応の緊急度を算出する
ことを特徴とする請求項6に記載の障害対応支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は障害対応支援装置及び方法に関し、例えば、システムに障害が発生した場合における保守員による対応を支援する障害対応支援装置に適用して好適なものである。
【背景技術】
【0002】
重要なシステムについては、障害が発生した場合にその障害の影響を素早く把握し、迅速にその対応に当たる必要がある。また複数の障害が同時に発生した場合、保守員は、復旧対応の緊急度及び優先度を考慮する必要がある。
【0003】
この点について、例えば特許文献1には、ユニット統合データベースの警報分類から、各プラントユニットの緊急度を判定し、ユニット統合データベースとユニット間影響度評価データベースから事象が他のプラントユニットに及ぼす影響を評価し、プラントユニット毎に判定した緊急度とプラントユニット毎に判定した影響度から各プラントユニット間の優先度を判定する態様が開示されている。
【0004】
また特許文献2には、複数の設備それぞれが設置される現場を識別する情報、当該設備における故障の予兆の発生状況及び予兆後に当該設備に発生した故障に関する故障履歴情報を、現場の特性を示す特性情報に基づき分類することでグループ化し、形成されたグループ毎に、予兆発生から故障するまでの経過時間に伴って変化する故障確率を算出し、算出されたグループ毎の故障確率を記憶し、保守員の拠点から予兆が発生した設備それぞれが設置された現場までの移動時間を取得し、記憶された故障確率及び取得された移動時間に基づいて予兆が発生した設備それぞれが設置された現場に到着する時点における故障確率を算出し、算出された故障確率に基づいて予兆が発生した各設備に対して保守点検を行う優先度を設定することが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】再公表2016-63374号公報
【特許文献2】特開2015-169989号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、これら特許文献1及び2に開示された緊急度や優先度は、システムを利用する利用者視点での緊急度及び優先度ではない。このため、例えば特許文献1や特許文献2に開示された技術を多くの人が利用するシステムに適用したとしても、複数の障害が同時に発生した場合に、依然として保守員が障害による利用者への影響の大小を考慮してこれらの障害に対する優先度を判断しなければならないという問題があった。
【0007】
本発明は以上の点を考慮してなされたもので、多くの利用者が利用するシステムに発生した障害の客観的な復旧対応の緊急度及び優先度を迅速に保守員に提示でき、保守業務を最適化させ得る障害対応支援装置及び方法を提案しようとするものである。
【課題を解決するための手段】
【0008】
かかる課題を解決するため本発明においては、保守員による障害対応を支援する障害対応支援装置において、ネットワーク及びサーバ装置の状態監視を行う状態監視部と、前記状態監視部が障害を検知した場合に、前記障害が発生してから現在までの利用者からのアクセスの有無に基づいて前記障害に対する対応の緊急度を算出する緊急度算出部と、前記緊急度算出部が算出した緊急度に基づいて当該障害の優先度を判定する優先度判定部と、前記優先度判定部の判定結果を前記保守員に提示する判定結果提示部とを設けるようにした。
【0009】
また本発明においては、保守員による障害対応を支援する障害対応支援装置により実行される障害対応支援方法であって、ネットワーク及びサーバ装置の状態監視を行う第1のステップと、前記状態監視により障害を検知した場合に、前記障害が発生してから現在までの利用者からのアクセスの有無に基づいて前記障害に対する対応の緊急度を算出する第2のステップと、算出した緊急度に基づいて当該障害の優先度を判定する第3のステップと、前記優先度の判定結果を前記保守員に提示する第4のステップとを設けるようにした。
【0010】
本発明の障害対応支援装置及び方法によれば、多くの利用者が利用するシステムに発生した障害の客観的な緊急度及び優先度を迅速に保守員に提示できる。
【発明の効果】
【0011】
本発明によれば、保守業務を最適化させ得る障害対応支援装置及び方法を実現できる。
【図面の簡単な説明】
【0012】
図1】本実施の形態による情報処理システムの概略構成を示すブロック図である。
図2】サービスサーバ、外部接続サーバ及び監視サーバの構成を示すブロック図である。
図3】アクセス履歴テーブルの構成例を示す図表である。
図4】ネットワーク監視テーブルの構成例を示す図表である。
図5】応答閾値テーブルの構成例を示す図表である。
図6】性能監視マネージャプログラムの出力情報の説明に供する図表である。
図7】障害管理テーブルの構成例を示す図表である。
図8】緊急度テーブルの構成例を示す図表である。
図9】重要度テーブルの構成例を示す図表である。
図10】構成管理テーブルの構成例を示す図表である。
図11】保守時間テーブルの構成例を示す図表である。
図12】設定テーブルの構成例を示す図表である。
図13】障害発生状況一覧画面の画面構成例を示す図である。
図14】アクセス監視処理の処理手順を示すフローチャートである。
図15A】ネットワーク監視処理の処理手順を示すフローチャートである。
図15B】ネットワーク監視処理の処理手順を示すフローチャートである。
図16】状態監視処理の処理手順を示すフローチャートである。
図17A】緊急度算出処理の処理手順を示すフローチャートである。
図17B】緊急度算出処理の処理手順を示すフローチャートである。
図18A】優先度判定処理の処理手順を示すフローチャートである。
図18B】優先度判定処理の処理手順を示すフローチャートである。
図19】経過時間係数の説明に供する図表である。
図20】判定結果提示処理の処理手順を示すフローチャートである。
図21】対応済チェック処理の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下図面について、本発明の一実施の形態を詳述する。
【0014】
(1)本実施の形態による情報処理システムの構成
図1において、1は全体として本実施の形態による情報処理システムを示す。この情報処理システム1は、ネットワーク2を介して相互に接続された1又は複数の顧客端末3及びデータセンタ4と、保守員端末5とを備えて構成される。
【0015】
顧客端末3は、データセンタ4を利用する顧客側に設けられた汎用のコンピュータ装置であり、顧客の操作やプログラムからの要求に応じたリクエストをネットワーク2を介してデータセンタ4に送信する。
【0016】
データセンタ4は、それぞれ何れかのシステム6を構成する複数のサービスサーバ7と、障害対応支援システム8を構成する外部接続サーバ9及び監視サーバ10とを備えて構成される。
【0017】
サービスサーバ7は、それぞれ顧客に対して何らかのサービスを提供する機能を有するサーバ装置である。図1では、「Aシステム」というシステム6を構成し、顧客に対して当該システム6に応じたサービスを提供するサービスサーバ7(「サービスサーバA」)と、「Bシステム」というシステム6を構成し、顧客に対して当該システム6に応じたサービスを提供するサービスサーバ7(「サービスサーバB」)と、「Cシステム」というシステム6を構成し、顧客に対して当該システム6に応じたサービスを提供するサービスサーバ7(「サービスサーバC」)とがデータセンタ4に設けられている例が示されている。
【0018】
なお図1は、「Bシステム」というシステム6に、用途がアプリケーションサーバである「サービスサーバB AP」というサービスサーバ7と、用途がデータベースサーバである「サービスサーバB DB」というサービスサーバ7が設けられている場合の構成例である。また図1では、同じシステム6を構成する同じ用途のサービスサーバ7が冗長化されている場合に、障害が発生していない状態における現用系のサービスサーバ7を「1号機」、予備系のサービスサーバ7を「2号機」と表示している。そして障害が発生した場合には、「2号機」のサービスサーバ7の状態が現用系に切り替えられる。
【0019】
サービスサーバ7は、後述のように外部接続サーバ9から転送されてきた顧客端末3からのリクエストを処理し、処理結果を、次段のサービスサーバ7に送信したり、外部接続サーバ9を経由して当該リクエストの送信元の顧客端末3に送信する。図1では、「Aシステム」を構成する現用系の「1号機」又は「2号機」の「サービスサーバA」は、顧客端末3からのリクエストの処理結果を「Bシステム」を構成する現用系の「1号機」又は「2号機」の「サービスサーバB AP」に送信し、「サービスサーバB AP」は「サービスサーバB DB」を利用してリクエストを処理した後、その処理結果を顧客端末3からのリクエストの処理結果を外部接続サーバ9を経由して当該リクエストの送信元の顧客端末3に送信する例が示されている。また図1では、「Cシステム」を構成する現用系の「サービスサーバC」も、処理結果を顧客端末3からのリクエストの処理結果を外部接続サーバ9を経由して当該リクエストの送信元の顧客端末3に送信する。
【0020】
外部接続サーバ9は、ネットワーク2を介して顧客端末3から送信されてきたリクエストを対応するサービスサーバ7に転送したり、データセンタ4内における各サービスサーバ7との間のネットワーク状態(通信状態)を監視する機能を有するサーバ装置である。また監視サーバ10は、各サービスサーバ7の状態を監視する機能を有するサーバ装置である。これら外部接続サーバ9及び監視サーバ10は、それぞれデータセンタ内ネットワーク12(図2)を介してデータセンタ4内の各サービスサーバ7と接続される。
【0021】
保守員端末5は、保守員11が監視サーバ10に対する保守及び管理を行うために利用する汎用のコンピュータ装置又はタブレットである。保守員端末5は、保守員11の操作に応じたコマンドや情報を監視サーバ10に送信することにより、監視サーバ10の設定等を更新したり、必要な情報を監視サーバ10に提供する。
【0022】
図2は、サービスサーバ7、外部接続サーバ9及び監視サーバ10の具体的な構成例を示す。この図2に示すように、サービスサーバ7は、プロセッサ20、メモリ21及び通信装置22などの情報処理資源を備えた汎用のサーバ装置から構成される。
【0023】
プロセッサ20は、サービスサーバ7全体の動作制御を司る制御装置である。またメモリ21は、例えば半導体メモリから構成され、各種プログラムが格納されるほか、プロセッサ20のワークメモリとしても利用される。通信装置22は、例えばNIC(Network Interface Card)などから構成され、データセンタ内ネットワーク12を介した外部接続サーバ9や監視サーバ10との通信時におけるプロトコル制御を行う。
【0024】
また外部接続サーバ9は、プロセッサ23、メモリ24、記憶装置25及び通信装置26などの情報処理資源を備えた汎用のサーバ装置から構成される。プロセッサ23、メモリ24及び通信装置26は、サービスサーバ7のプロセッサ20、メモリ21及び通信装置22と同様の構成及び機能を有するものであるため、ここでの説明は省略する。記憶装置25は、ハードディスク装置やSSD(Solid State Drive)などの不揮発性の大容量の記憶装置から構成され、長期間保存が必要な各種データが格納される。
【0025】
監視サーバ10も、プロセッサ27、メモリ28、記憶装置29及び通信装置30などの情報処理資源を備えた汎用のサーバ装置から構成される。プロセッサ27、メモリ28及び通信装置30は、サービスサーバ7のプロセッサ20、メモリ21及び通信装置22と同様の構成及び機能を有するものであり、記憶装置29も外部接続サーバ9の記憶装置25と同様の構成及び機能を有するものであるため、ここでの説明は省略する。
【0026】
(2)障害対応支援機能
次に、外部接続サーバ9及び監視サーバ10から構成される障害対応支援システム8(図1)に搭載された本実施の形態による障害対応支援機能について説明する。この障害対応支援機能は、データセンタ4内の監視対象のサービスサーバ7の状態や、データセンタ内ネットワーク12の状態を監視し、これらのサービスサーバ7やデータセンタ内ネットワーク12の障害を検知した場合に、検知した障害からの復旧対応の優先度を障害ごとにそれぞれ算出して保守員11に提示する機能である。
【0027】
実際上、障害対応支援システム8では、外部接続サーバ9が当該外部接続サーバ9及び各サービスサーバ7間のデータセンタ内ネットワーク12の状態を監視すると共に、監視サーバ10がデータセンタ4内の監視対象の各サービスサーバ7の状態を監視している。
【0028】
そして監視サーバ10は、いずれかのサービスサーバ7の障害を検知した場合や、外部接続サーバ9がデータセンタ内ネットワーク12の障害を検知した場合に、その障害の復旧対応の緊急度を、当該障害からの復旧の有無と、予備系への切替えの有無と、その障害が発生してから現在までの顧客端末3からのアクセスの有無とに基づいて算出する。
【0029】
また監視サーバ10は、算出した緊急度と、障害が発生したサービスサーバ7が構成するシステム6の重要度と、障害が発生してからの経過時間とに基づいて、各障害の復旧対応の優先度をそれぞれ算出し、算出した優先度に従った順番で各障害の障害情報をソートして一覧表示する。
【0030】
このように各障害の障害情報を算出した優先度に従った順番で表示することにより、緊急度や、システム6の重要度の高い障害を客観的に認識することができ、保守員11が優先度の高い障害から順番に対応することが可能となる。
【0031】
このような障害対応支援機能を実現するための手段として、図2に示すように、サービスサーバ7のメモリ21には、性能監視エージェントプログラム40が格納されている。また外部接続サーバ9のメモリ24には、アクセス監視部41及びネットワーク監視部42が格納されると共に、外部接続サーバ9の記憶装置25には、アクセス履歴テーブル43、ネットワーク監視テーブル44及び応答閾値テーブル45が格納されている。
【0032】
さらに、かかる障害対応支援機能を実現するための手段として、監視サーバ10のメモリ28には、性能監視マネージャプログラム46、状態監視部47、緊急度算出部48、優先度判定部49及び判定結果提示部50が格納されると共に、監視サーバ10の記憶装置29には、障害管理テーブル51、緊急度テーブル52、重要度テーブル53、構成管理テーブル54、保守時間テーブル55及び設定テーブル56が格納されている。
【0033】
各サービスサーバ7の性能監視エージェントプログラム40は、自身が搭載されたサービスサーバ7におけるプロセッサ20の稼動率、メモリ21の使用率及び記憶装置(図示せず)の使用率などのリソース情報や、各種ログ、各プロセスの稼動状態などの情報を収集する機能を有するプログラムである。性能監視エージェントプログラム40は、収集したこれらの情報に基づいて、各リソースの状態や、各ログの内容、及び、各プロセスの状態をそれぞれ監視する。
【0034】
また外部接続サーバ9のアクセス監視部41は、顧客端末3(図1)からデータセンタ4内のサービスサーバ7へのアクセスを監視する機能を有するプログラムである。アクセス監視部41は、顧客端末3からサービスサーバ7へのアクセス(サービスサーバ7へのリクエストの送信)があるごとに、そのアクセスがあった日時、アクセス先のサービスサーバ7が構成するシステム6(図1)のシステム名や、そのアクセスに対するそのサービスサーバ7からの応答時間などの情報を収集し、これらの情報をアクセス履歴テーブル43に格納して管理する。
【0035】
ネットワーク監視部42は、外部接続サーバ9及び各サービスサーバ7間をそれぞれ接続するデータセンタ内ネットワーク12の状態を監視する機能を有するプログラムである。ネットワーク監視部42は、監視対象の各サービスサーバ7に対して定期的(例えば1分周期)に応答時間測定用のリクエスト(以下、これを応答時間測定用リクエストと呼ぶ)をそれぞれ送信するようにして外部接続サーバ9及び各サービスサーバ7間のデータセンタ内ネットワーク12の状態を確認し、確認結果をネットワーク監視テーブル44に格納して管理する。
【0036】
アクセス履歴テーブル43は、上述のように顧客端末3からネットワーク2(図1)を介して行われたデータセンタ4内のサービスサーバ7へのアクセスに関する履歴情報を記憶保持するために利用されるテーブルであり、図3に示すように、日時欄43A、システム名欄43B、応答時間欄43C、応答内容欄43D及び状態欄43Eを備えて構成される。アクセス履歴テーブル43では、1つのエントリ(行)が、いずれかの顧客端末3から行われたデータセンタ4内のいずれかのサービスサーバ7への1回のアクセスの履歴情報に対応する。
【0037】
そして日時欄43Aには、対応するアクセスが行われた日時が格納され、システム名欄43Bには、そのときアクセスされたサービスサーバ7が構成するシステム6の名称(システム名)が格納される。また応答時間欄43Cには、外部接続サーバ9が対応するアクセスのリクエストを対応するサービスサーバ7に転送してからその応答を受信するまでの時間(応答時間)が格納される。
【0038】
さらに応答内容欄43Dには、その応答の内容(応答内容)が格納される。また状態欄43Eには、かかる応答内容から判定された応答の状態が格納される。なお応答の状態としては、正常に応答を受信した「正常」、応答が図5について後述する応答時間閾値までに受信できなかった「タイムアウト」、応答は得られたもののその応答にエラーが含まれていた「エラー」などがある。
【0039】
従って、図3の例の場合、例えば、「2022/2/10 9:55」に「Aシステム」へのアクセスがあり、そのアクセスに対する「Aシステム」からの応答時間が「0.2秒」で、応答内容が「正常(HTTP200)」、応答の状態が「正常」であったことが示されている。
【0040】
ネットワーク監視テーブル44は、上述のようにネットワーク監視部42がデータセンタ内ネットワーク12を介してデータセンタ4内の監視対象の各サービスサーバ7に定期的に応答時間測定用リクエストを送信することにより取得した、外部接続サーバ9及び各サービスサーバ7間のデータセンタ内ネットワーク12の状態を記憶保持するために利用されるテーブルである。
【0041】
このネットワーク監視テーブル44は、図4に示すように、日時欄44A、サーバ名欄44B、応答時間欄44C及び状態欄44Dを備えて構成される。ネットワーク監視テーブル44では、1つのエントリ(行)が、外部接続サーバ9がデータセンタ4内の1つの監視対象のサービスサーバ7に応答時間測定用リクエストを送信することにより取得した外部接続サーバ9と、そのサービスサーバ7との間のデータセンタ内ネットワーク12の状態を表す情報に対応する。
【0042】
そして日時欄44Aには、外部接続サーバ9がいずれかのサービスサーバ7に1回分の応答時間測定用リクエストを送信した日時が格納され、サーバ名欄44Bには、そのサービスサーバ7の名称(サーバ名)が格納される。図4の例では、そのサービスサーバ7が構成するシステム6のシステム名と、そのサービスサーバ7の用途と(同じシステム6内に異なる用途のサービスサーバ7がある場合のみ)、そのシステム6におけるそのサービスサーバ7の号機番号とを組み合わせたものをそのサービスサーバ7のサーバ名としている場合を例示している。
【0043】
また応答時間欄44Cには、そのとき外部接続サーバ9が応答時間測定用リクエストをそのサービスサーバ7に送信してからその応答を受信するまでの時間(応答時間)が格納される。なお、後述のタイムアウトが発生した場合、応答時間欄44Cには、情報が存在しないことを表す情報(図4では「-」)が格納される。
【0044】
さらに状態欄44Dには、かかる応答時間から推定される外部接続サーバ9と、そのサービスサーバ7との間のデータセンタ内ネットワーク12の状態が格納される。「データセンタ内ネットワーク12の状態」としては、かかるデータセンタ内ネットワーク12が正常な状態である「正常」と、断線や回線混雑等の理由により規定時間(図5について後述する応答時間閾値)内に応答を受信できなかった「タイムアウト」と、応答を受信できたがその内容がエラーであった「エラー」とがある。
【0045】
従って、図4の例の場合、「2022/2/10 9:59」に「Aシステム2号機」というサービスサーバ7に応答時間測定用リクエストを送信し、その「0.2秒」後にそのサービスサーバ7から応答があり、そのサービスサーバ7との間のデータセンタ内ネットワーク12の状態は「正常」であると判定されたことが示されている。
【0046】
なお、ネットワーク監視テーブル44には、常に、少なくとも直近2サイクル分の外部接続サーバ9及び各サービスサーバ7間のデータセンタ内ネットワーク12の状態に関する情報が保持される。
【0047】
応答閾値テーブル45は、システム6ごとにそれぞれ予め設定された、そのシステム6のサービスサーバ7にリクエストや応答時間測定用リクエストを送信した場合にタイムアウトと判定するための時間的な閾値(応答時間がこの時間を超過した場合にタイムアウトとなる応答時間であり、以下、これを応答時間閾値と呼ぶ)を管理するために利用されるテーブルである。この応答閾値テーブル45は、図5に示すように、システム名欄45A及び応答時間閾値欄45Bを備えて構成される。応答閾値テーブル45では、1つのエントリ(行)が1つのシステム6と対応する。
【0048】
そしてシステム名欄45Aには、対応するシステム6のシステム名が格納され、応答時間閾値欄45Bには、そのシステム6に対して事前に設定された応答時間閾値が格納される。従って、図5の例の場合、「Aシステム」の応答時間閾値は「10秒」に設定されており、外部接続サーバ9は、「Aシステム」を構成するサービスサーバ7にリクエストや応答時間測定用リクエストを送信した場合に、「10秒」以内にそのサービスサーバ7からの応答を受信できなかったときには、タイムアウトと判定すべきことが示されている。
【0049】
一方、監視サーバ10の性能監視マネージャプログラム46は、監視対象の各サービスサーバ7にそれぞれ実装された性能監視エージェントプログラム40によるそのサービスサーバ7の各リソースや、各ログ、及び各プロセスの監視結果をこれら性能監視エージェントプログラム40から定期的に収集する機能を有するプログラムである。性能監視マネージャプログラム46は、図6に示すように、収集したこれらの情報のうちの少なくとも直近の2サイクル分の情報を各サービスサーバ7の性能情報として状態監視部47に出力する。
【0050】
なお図6からも明らかなように、この性能情報には、性能監視マネージャプログラム46が対応する性能情報を対応する性能監視エージェントプログラム40から収集した時刻(「時刻」)と、対応する性能監視エージェントプログラム40が実装されたサービスサーバ7のサーバ名(「サーバ名」)と、そのサービスサーバ7が構成するシステム6のシステム名(「システム名」)と、その性能監視エージェントプログラム40が取得したそのサービスサーバ7のプロセス、ログ及びリソースの各監視結果(「プロセス監視」、「ログ監視」及び「リソース監視」)と、そのサービスサーバ7の死活監視の監視結果(「死活監視」)とを含む。
【0051】
「死活監視」は、性能監視マネージャプログラム46により追加される情報であり、対応するサービスサーバ7が正常状態又はダウン状態のいずれであるかを表す情報である。性能監視マネージャプログラム46は、性能監視エージェントプログラム40から上述の各種監視結果を正しく収集できた場合には「死活監視」を「正常」に設定する。また性能監視マネージャプログラム46は、性能監視エージェントプログラム40との通信でタイムアウトが発生した場合には「死活監視」を「タイムアウト」に設定し、タイムアウトは発生しなかったが各種監視結果を正しく収集できなかった場合には「死活監視」を「エラー」に設定する。
【0052】
状態監視部47は、性能監視マネージャプログラム46から与えられた各サービスサーバ7の性能情報に基づいて、これらサービスサーバ7の状態を監視する機能を有するプログラムである。状態監視部47は、かかる監視によりいずれかのサービスサーバ7の障害を検知した場合には、その障害に関する情報を障害情報として障害管理テーブル51に格納する。
【0053】
緊急度算出部48は、障害管理テーブル51に格納された各障害情報と、後述する緊急度テーブル52とを参照して、障害が発生したサービスサーバ(以下、これを障害発生サービスサーバと呼ぶ)7ごとに、その障害に対する復旧対応の緊急度を算出する機能を有するプログラムである。緊急度算出部48は、算出した障害発生サービスサーバ7ごとの緊急度を優先度判定部49に出力する。
【0054】
優先度判定部49は、緊急度算出部48から通知された障害発生サービスサーバ7ごとの緊急度と、予め定義されて重要度テーブル53に登録されているシステム6ごとの重要度と、障害発生サービスサーバ7に障害が発生してからの経過時間とに基づいて、障害発生サービスサーバ7ごとの復旧対応の優先度をそれぞれ算出する機能を有するプログラムである。優先度判定部49は、算出した障害発生サービスサーバ7ごとの優先度を判定結果提示部50に出力する。
【0055】
判定結果提示部50は、一定期間(例えば直近1~2週間)内に障害が発生した障害発生サービスサーバ7の障害情報が掲載された図13について後述する障害発生状況一覧画面60を生成する機能を有するプログラムである。判定結果提示部50は、保守員11(図1)の操作に応じて保守員端末5(図1)から送信される障害発生状況一覧表示要求に応動してかかる障害発生状況一覧画面60を生成し、その画面データを障害発生状況一覧表示要求の送信元の保守員端末5に送信することにより、その障害発生状況一覧画面60をその保守員端末5に表示させる。
【0056】
一方、障害管理テーブル51は、上述のように障害が発生したと判定されたサービスサーバ(障害発生サービスサーバ)7の当該障害に関する情報(以下、これを障害情報と呼ぶ)が状態監視部47により格納されるテーブルである。この障害管理テーブル51は、図7に示すように、障害発生日時欄51A、障害復旧日時欄51B、システム名欄51C、サーバ名欄51D、障害内容欄51E、エラーアクセス数欄51F、緊急度欄51G、重要度欄51H、経過時間係数欄51I、緊急度×重要度欄51J、優先度欄51K及び対応済欄51Lを備えて構成される。障害管理テーブル51では、1つのエントリ(行)が、1つの障害発生サービスサーバ7の1つの障害の障害情報に対応する。
【0057】
そして障害発生日時欄51Aには、対応する障害が発生した日時が格納され、障害復旧日時欄51Bには、対応する障害発生サービスサーバ7がその障害から復旧している場合に、復旧した日時が格納される。またサーバ名欄51Dには、その障害発生サービスサーバ7のサーバ名が格納され、システム名欄51Cには、その障害発生サービスサーバ7が構成するシステム6のシステム名が格納される。
【0058】
障害内容欄51Eには、対応する障害の内容が格納され、エラーアクセス数欄51Fには、その障害発生サービスサーバ7にその障害が発生してから現在まで(その障害発生サービスサーバ7が障害から復旧している場合には、復旧するまで)の間に顧客端末3からその障害発生サービスサーバ7がアクセスされた回数が格納される。
【0059】
また緊急度欄51Gには、その障害について緊急度算出部48により算出された復旧対応の緊急度が格納され、重要度欄51Hには、その障害発生サービスサーバ7が構成するシステム6について事前に設定された重要度が格納される。また経過時間係数欄51Iには、対応する障害が発生してから現在までの経過時間について算出された後述の経過時間係数が格納され、緊急度×重要度欄51Jには、その障害に対する復旧対応の緊急度と、対応するシステム6の重要度との乗算結果が格納される。
【0060】
さらに優先度欄51Kには、対応する障害について優先度判定部49(図2)により算出された復旧対応の優先度が格納され、対応済欄51Lには、対応する障害が未対応及び対応済のいずれであるかを表す情報が格納される。例えば、対応する障害が未対応である場合には「未対応」が対応済欄51Lに格納され、その障害が既に対応済である場合には「対応済」が対応済欄51Lに格納される。
【0061】
従って、図7の例の場合、例えば「2022/2/10 10:00」に「Aシステム」を構成する「Aシステム2号機」というサービスサーバ7に「プロセスダウン」が発生し、その障害は未だ対応されていないために(対応済欄51Lの値が「未対応」)、「Aシステム2号機」は未だ復旧しておらず(障害復旧日時欄が「-」)、その障害が発生してから現在までに「Aシステム2号機」に顧客端末3から3回のアクセスがあったことが示されている。また図7では、その障害に対する復旧対応の緊急度は「5」、「Aシステム」の重要度は「0.667」、その障害の時間経過係数が「0.5」で、緊急度及び重要度の乗算結果が「3.335」であるため、その障害の復旧作業の優先度が「6.167」と算出されたことが示されている。
【0062】
なお障害管理テーブル51に格納された障害情報は、対応する障害発生サービスサーバ7が障害から復旧した後、予め設定された十分な期間(例えば3年)、障害管理テーブル51において保持される。ただし、障害情報が障害管理テーブル51に格納される期間を顧客が決定できるようにしてもよい。
【0063】
緊急度テーブル52は、サービスサーバ7に発生した障害に対する復旧対応の緊急度を緊急度算出部48がスコアとして算出する際の加点項目及び加点項目ごとの加点スコア(以下、これを緊急度スコアと呼ぶ)を管理するために利用されるテーブルである。緊急度テーブル52は、事前に作成されて監視サーバ10に提供される。この緊急度テーブル52は、図8に示すように、加点項目欄52A及び緊急度スコア欄52Bを備えて構成される。緊急度テーブル52では、1つのエントリが1つの加点項目に対応する。
【0064】
そして加点項目欄52Aには、予め設定された加点項目が格納され、緊急度スコア欄52Bには、対応する加点項目に対して予め設定された緊急度スコアが格納される。従って、図8の例の場合、加点項目としては、「障害復旧」、「予備系切替え」及び「利用者影響」の3つがあり、これらの加点項目に対して緊急度スコアがそれぞれ「4」、「2」又は「1」に設定されていることが示されている。
【0065】
なお図8における「障害復旧」という加点項目は、対応する障害発生サービスサーバ7が障害から復旧していない場合に緊急度に「4」を加点することを意味し、これにより緊急度が上がることを意味する。また「予備系切替え」という加点項目は、対応する障害発生サービスサーバ7の処理が予備系のサービスサーバ7に切り替えられていない場合に緊急度に「2」を加点することを意味し、「利用者影響」という加点項目は、対応する障害発生サービスサーバ7の障害発生中に顧客からその障害発生サービスサーバ7へのアクセスがあった場合に緊急度に「1」を加算することを意味する。
【0066】
重要度テーブル53は、事前に顧客等により設定されたシステム6ごとの重要度を管理するために利用されるテーブルである。重要度テーブル53は、事前に作成されて監視サーバ10に提供される。この重要度テーブル53は、図9に示すように、システム名欄53A、重要順位欄53B、全システム数欄53C、演算値欄53D、重み欄53E及び重要度欄53Fを備えて構成される。重要度テーブル53では、1つのエントリが監視対象の1つのシステム6に対応する。
【0067】
そしてシステム名欄53Aには、対応するシステム6のシステム名が格納され、全システム数欄53Cには、監視対象のシステム6の総数が格納される。また重要順位欄53Bには、予めユーザにより設定された対応するシステム6の全システム6内における重要性の観点から見た順位(重要順位)が格納される。この重要順位は設定しなくてもよく、この場合には重要順位が全システム6内の最下位の順位(例えば全システム数がnであればn)に設定される。
【0068】
さらに演算値欄53Dには、次式
【数1】
で算出される演算値Mが格納される。この演算値Mは、重要性が高いシステム6ほど0~1の範囲内でより大きな値を取る数値であり、従って、この演算値Mが大きいシステム6ほどより重要なシステムであるということができる。
【0069】
さらに重要度欄53Fには、演算値Mを小数点以下の所定の位で四捨五入した値に重み欄53Eに格納された後述の重みを乗算することにより算出された対応するシステム6の重要度が格納される。なお、演算値Mの小数点以下の第何位を四捨五入するかは監視対象のサービスサーバ7の数に応じてユーザが任意に設定することができる。
【0070】
さらに重み欄53Eには、対応するシステム6に対して予めユーザにより設定された重みの値が格納される。後述のように本実施の形態の場合、各障害に対する優先度は、その障害に対する復旧対応の緊急度と、その障害が発生したサービスサーバ7が構成するシステム6の重要度と、障害発生からの経過時間に基づき算出される経過時間係数とを加算することにより算出する。このため重みの値を大きくすることにより、優先度の計算においてシステム6の重要度の影響度合を大きくすることができ、重みの値を小さくすることにより、優先度の計算においてシステム6の影響度合を小さくすることができる。
【0071】
従って、図9の例の場合、「Aシステム」というシステム6の重要順位は「1」に設定されており、監視対象の全システム6の数は「3」であることから重要度算出値が「0.666…」と算出され、重みが「1」に設定されているため、「Aシステム」の重要度が「0.667」と定義されたことが示されている。
【0072】
構成管理テーブル54は、監視対象の各サービスサーバ7の構成情報を管理するために利用されるテーブルであり、図10に示すように、システム欄54A、用途欄54B、サーバ名欄54C及びIPアドレス欄54Dを備えて構成される。構成管理テーブル54では、1つのエントリが、監視対象の1つのサービスサーバ7に対応する。
【0073】
そしてサーバ名欄54Cには、対応するサービスサーバ7のサーバ名が格納され、システム欄54Aには、そのサービスサーバ7が構成するシステム6のシステム名が格納される。また用途欄54Bには、対応するサービスサーバ7の用途が格納される。サービスサーバの用途の種類としては、アプリケーションサーバ(「AP」)やデータベースサーバ(「DB」)などがある。さらにIPアドレス欄54Dには、対応するサービスサーバ7のIPアドレスが格納される。
【0074】
従って、図10の例の場合、例えば「Aシステム」に所属する「Aシステム1号機」というサーバ名のサービスサーバ7は「AP」という用途のサーバ装置であり、そのIPアドレスは「192.168.1.12」であることが示されている。
【0075】
保守時間テーブル55は、データセンタ4の各システム6に対して保守員11が保守サービスを提供可能な時間(障害等が発生した場合に保守員11が対応可能な時間)を管理するために利用されるテーブルである。保守時間テーブル55は、事前に作成されて監視サーバ10に提供される。この保守時間テーブル55は、図11に示すように、システム名欄55A及び保守時間欄55Bを備えて構成される。保守時間テーブル55では、1つのエントリがデータセンタ4内に存在する1つのシステム6に対応する。
【0076】
そしてシステム名欄55Aには、対応するシステム6のシステム名が格納され、保守時間欄55Bには、そのシステム6に対する保守サービスを提供可能な時間帯が格納される。従って、図11の例の場合、例えば「Aシステム」については、保守員11(図1)が保守サービスを提供可能な時間帯が「0:00~24:00」であり、「Bシステム」については、保守員11が保守サービスを提供可能な時間帯が「9:00~17:00」であることが示されている。
【0077】
設定テーブル56は、性能監視マネージャプログラム46(図2)が各サービスサーバ7の性能監視エージェントプログラム40(図2)から性能情報を収集する間隔(以下、これを監視間隔と呼ぶ)や、後述の経過時間係数を算出する際の最大経過時間を管理するために利用されるテーブルである。設定テーブルは、事前に作成されて監視サーバ10に提供される。この設定テーブル56は、図12に示すように、項目欄56A及び値欄56Bを備えて構成される。設定テーブル56では、1つのエントリが予め設定された1つの設定項目に対応する。
【0078】
そして項目欄56Aには、事前に値が設定された設定項目(図12では「監視間隔」及び「最大経過時間」)が格納され、値欄56Bには、対応する設定項目について設定されている値が格納される。従って、図12の場合、「監視間隔」として「1分」、「最大経過時間」として「60分」が設定されていることが示されている。
【0079】
(3)障害発生状況一覧画面の構成
図13は、保守員端末5(図1)を所定操作することにより、その保守員端末5に表示される上述の障害発生状況一覧画面60の構成例を示す。この障害発生状況一覧画面60は、障害発生状況一覧61を備えて構成される。
【0080】
障害発生状況一覧61は、そのときデータセンタ4内の監視対象のサービスサーバ7に発生している各障害の障害情報が、対応するサービスサーバ7(障害発生サービスサーバ7)の優先度の順番で並べられて掲載された一覧であり、図13に示すように、障害発生日時欄61A、障害復旧日時欄61B、サーバ名欄61C、障害内容欄61D、利用者アクセス欄61E、優先度欄61F及び対応済欄61Gを備えて構成される。
【0081】
そして障害発生日時欄61A、障害復旧日時欄61B、サーバ名欄61C、障害内容欄61D及び対応済欄61Gには、それぞれ図7について上述した障害管理テーブル51の障害発生日時欄51A、障害復旧日時欄51B、サーバ名欄51D、障害内容欄51E及び対応済欄51Lのうちの対応する欄にそれぞれ格納された内容と同じ内容が表示される。
【0082】
また利用者アクセス欄61Eには、対応する障害が発生してから現在までに対応する障害発生サービスサーバ7に対していずれかの顧客端末3からのアクセスがあったか否かを表す情報(アクセスがあった場合には「有」、なかった場合には「無」)が格納され、優先度欄61Fには、その障害発生サービスサーバ7の優先度が格納される。
【0083】
さらに障害発生状況一覧61では、掲載された各障害情報のうちの優先度が大きい障害情報に対応するエントリが、その優先度に応じた色又は濃度で着色される。例えば、優先度が所定の閾値以上(例えば「7」以上)のエントリについては赤色等で着色され、優先度が次に大きい所定範囲(例えば「4」以上「7」未満)のエントリについては、オレンジ色等で着色される。よって、保守員11(図1)は、この障害発生状況一覧61の各エントリの色や濃度に基づいて、障害発生状況一覧61に掲載された障害情報のうちのより優先度が高い障害情報を直ぐに見つけ出すことができる。
【0084】
また障害発生状況一覧61における、障害復旧日時欄61B、サーバ名欄61C、障害内容欄61D及び対応済欄61Gの上位行には、それぞれ検索キーワードを入力するためのテキストボックス61Hが設けられており、このテキストボックス61H内に所望する障害発生日時や、障害復旧日時、サーバ名、障害内容、利用者アクセスの有無、優先度又は未対応/対応済を表す文字列を入力した後、その上の「障害発生日時」、「障害復旧日時」、「サーバ名」、「障害内容」、「利用者アクセス」、「優先度」又は「対応済」といった文字列が表示された欄61Jをクリックすることによって、入力した障害発生日時等を検索キーとして絞り込まれた障害情報のみを障害発生状況一覧61に表示させることができる。
【0085】
なお、保守員11は、障害発生状況一覧61に表示された障害情報に対応する障害発生サービスサーバ7に対する復旧作業が完了した場合には、障害発生状況一覧61におけるその障害発生サービスサーバ7に対応するエントリの対応済欄61Gをクリックすることで、その障害発生サービスサーバ7に対する復旧作業が完了したことを表すチェックマーク61Iをその対応済欄61G内に表示させることができる。
【0086】
この場合、かかる操作が行われたことが監視サーバ10(図1)の判定結果提示部50(図2)に通知される。そして判定結果提示部50は、この通知を受領すると、障害管理テーブル51(図7)における対応するエントリの対応済欄51L(図7)に格納された値を「未対応」から「対応済」に更新する。
【0087】
(4)障害対応支援機能に関連して実行される各種処理
次に、上述の障害対応支援機能に関連して外部接続サーバ9や監視サーバ10において実行される各種処理の具体的な処理内容について説明する。なお、以下においては、各処理の処理主体をプログラム(「……部」)として説明するが、実際上は、そのプログラムに基づいて外部接続サーバ9のプロセッサ23(図2)や監視サーバ10のプロセッサ27がその処理を実行することは言うまでもない。
【0088】
(4-1)アクセス監視処理
図14は、外部接続サーバ9のアクセス監視部41(図2)により実行されるアクセス監視処理の処理手順を示す。アクセス監視部41は、この図14に示す処理手順に従って、顧客端末3からデータセンタ4内のサービスサーバ7へのアクセスがある度に、そのアクセスに対するそのサービスサーバ7の応答時間及び応答内容や、タイムアウト及びエラーなどの応答状態の情報を取得し、取得したこれらの情報をアクセス履歴テーブル43(図3)に格納する。
【0089】
実際上、アクセス監視部41は、顧客端末3からデータセンタ4内のいずれかのサービスサーバ7へのリクエストを受信するとこの図14に示すアクセス監視処理を開始し、まず、応答閾値テーブル45(図5)を参照して、そのリクエストの送信先のサービスサーバ7が構成するシステム6について設定されている応答時間閾値を取得する(S1)。
【0090】
続いて、アクセス監視部41は、現在時刻をリクエスト転送時刻として取得し(S2)、この後、かかるリクエストをリクエスト先のサービスサーバ(以下、これをリクエスト先サービスサーバ7と呼ぶ)に転送する(S3)。
【0091】
次いで、アクセス監視部41は、ステップS1で応答時間閾値として取得した時間内にリクエスト先サービスサーバ7からのかかるリクエストに対する応答が得られたか否かを判断する(S4)。そして、アクセス監視部41は、この判断で否定結果を得ると、今回のアクセスの状態が「タイムアウト」であったと判定し(S5)、この後、ステップS12に進む。
【0092】
これに対して、アクセス監視部41は、ステップS4の判断で肯定結果を得ると、その応答を受領すると共に、現在時刻を応答受領時刻として取得する(S6)。またアクセス監視部41は、受領したかかる応答を、そのリクエストの送信元の顧客端末3に転送すると共に(S7)、ステップS6で取得した応答受領時刻と、ステップS2で取得したリクエスト転送時刻との差を応答時間として算出する(S8)。
【0093】
さらにアクセス監視部41は、ステップS5で受領したが含まれてい応答の内容がエラーであったか否かを判断する(S9)。そしてアクセス監視部41は、この判断で否定結果を得ると、今回のアクセスの状態が「正常」であったと判定する一方(S10)、この判断で肯定結果を得ると、今回のアクセスの状態が「エラー」であったと判定する(S11)。
【0094】
続いて、アクセス監視部41は、今回のアクセスの情報をアクセス履歴テーブル43(図3)に新規に登録する(S12)。具体的に、アクセス監視部41は、アクセス履歴テーブル43に新たなエントリを追加し、そのエントリの日時欄43AにステップS2で取得したリクエスト転送時刻、システム名欄43Bに今回のリクエスト先サービスサーバ7が構成するシステム6のシステム名、応答時間欄43CにステップS6で取得した応答受領時間、応答内容欄43DにステップS6で受領した応答の応答内容、状態欄43EにステップS5、ステップS10又はステップS11で判定したアクセスの状態をそれぞれ格納する。
【0095】
そしてアクセス監視部41は、この後、このアクセス監視処理を終了する。
【0096】
(4-2)ネットワーク監視処理
一方、図15A及び図15Bは、外部接続サーバ9のネットワーク監視部42(図2)により実行されるネットワーク監視処理の具体的な処理内容を示す。ネットワーク監視部42は、この図15A及び図15Bに示す処理手順に従って、データセンタ4内の監視対象の各サービスサーバ7及び外部接続サーバ9間のデータセンタ内ネットワーク12(図2)の状態を監視する。
【0097】
実際上、ネットワーク監視部42は、例えば外部接続サーバ9がデータセンタ内ネットワーク12を介して監視サーバ10と接続された状態で外部接続サーバ9の電源が投入されるとこの図15A及び図15Bに示すネットワーク監視処理を開始し、まず、監視サーバ10にアクセスして、設定テーブル56(図12)に格納されている監視間隔を取得する(S20)。
【0098】
続いて、ネットワーク監視部42は、監視サーバ10にアクセスして構成管理テーブル54(図10)に登録されている監視対象のすべてのサービスサーバ7のIPアドレス及びこれらサービスサーバ7が構成するシステム6のシステム名をそれぞれ取得する(S21)。
【0099】
次いで、ネットワーク監視部42は、ステップS21でアドレス及びシステム名を取得した各サービスサーバ7のうち、ステップS23以降が未処理のサービスサーバ7を1つ選択する(S22)。またネットワーク監視部42は、ステップS22で選択したサービスサーバ(以下、図15A及び図15Bの説明において、これを選択サービスサーバと呼ぶ)のシステム名に基づいて、選択サービスサーバ7が構成するシステム6の応答時間閾値を応答閾値テーブル45(図5)から取得する(S23)。
【0100】
さらにネットワーク監視部42は、現在時刻を取得し(S24)、その後、応答時間測定用リクエストを選択サービスサーバ7に送信する(S25)。またネットワーク監視部42は、この後、ステップS23で応答時間閾値として取得した時間内に応答時間測定用リクエストに対する選択サービスサーバ7からの応答が得られたか否かを判断する(S26)。
【0101】
そしてネットワーク監視部42は、この判断で否定結果を得ると、外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が「タイムアウト」であると判定し(S27)、この後、ステップS32に進む。
【0102】
これに対して、ネットワーク監視部42は、ステップS26の判断で肯定結果を得ると、その応答を受領し(S28)、ステップS24で取得した時刻と現在時刻とに基づいて、応答時間測定用リクエストを送信してから当該応答時間測定用リクエストに対する応答が得られるまでの応答時間を算出する(S29)。具体的に、ネットワーク監視部42は、現在時刻からステップS24で取得した時刻を減算することにより、かかる応答時間を算出する。
【0103】
続いて、ネットワーク監視部42は、ステップS28で受領した応答にエラーが含まれるか否かを判断する(S30)。そしてネットワーク監視部42は、この判断で肯定結果を得ると、外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態を「エラー」であると判定する(S31)。
【0104】
またネットワーク監視部42は、前回サイクル(前回のステップS21~ステップS41の処理)で得られた外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態に関する情報をネットワーク監視テーブル44(図4)から取得し(S32)、今回サイクル(今回のステップS21~ステップS41の処理)で得られた外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態と、前回サイクルでの外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態とが一致するか否かを判断する(S33)。
【0105】
この判断で否定結果を得ることは、今回の外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が「タイムアウト」又は「エラー」で、前回の当該データセンタ内ネットワークの状態が、今回が「タイムアウト」の場合には「正常」又は「エラー」、今回が「エラー」の場合には「正常」又は「タイムアウト」であることから、前回サイクルから今回サイクルまでの間に外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12に新たな障害が発生した可能性があることを意味する。
【0106】
かくして、このときネットワーク監視部42は、監視サーバ10にアクセスして、外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12に発生した障害を障害管理テーブル51に追加登録する(S34)。具体的に、ネットワーク監視部42は、障害管理テーブル51にエントリを追加し、そのエントリの障害発生日時欄51Aに現在の日時、システム名欄51Cに選択サービスサーバ7が構成するシステム6のシステム名、サーバ名欄51Dに選択サービスサーバ7のサーバ名、障害内容欄51Eに今回の外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の障害内容をそれぞれ格納する。そしてネットワーク監視部42は、この後ステップS39に進む。
【0107】
これに対して、ステップS33の判断で肯定結果を得ることは、今回の外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が「タイムアウト」又は「エラー」で、前回の当該データセンタ内ネットワークの状態も同じく「タイムアウト」又は「エラー」であり、その障害は既に障害管理テーブル51に登録されていることを意味する。かくして、このときネットワーク監視部42は、何らの処理を行うことなくステップS39に進む。
【0108】
一方、ネットワーク監視部42は、ステップS30の判断で否定結果を得ると、外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が「正常」であると判定する(S35)。
【0109】
またネットワーク監視部42は、前回サイクルで得られた外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態に関する情報をネットワーク監視テーブル44(図4)から取得し(S36)、今回サイクルで得られた外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態と、前回サイクルの外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態とが一致するか否かを判断する(S37)。
【0110】
この判断で否定結果を得ることは、今回の外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が「正常」で、前回の当該データセンタ内ネットワーク12の状態が「正常」以外であることから、前回サイクルから今回サイクルまでの間に外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が障害状態から復旧されたことを意味する。
【0111】
かくして、このときネットワーク監視部42は、監視サーバ10にアクセスして、障害管理テーブル51(図7)に登録されている対応する障害(それまで外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12に発生していた障害)に対応するエントリを特定し、そのエントリの障害復旧日時欄51B(図7)に現在の日時を障害復旧日時として格納する(S38)。そしてネットワーク監視部42は、この後、ステップS39に進む。
【0112】
これに対して、ステップS37の判断で肯定結果を得ることは、今回の外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態が「正常」で、前回の当該データセンタ内ネットワーク12の状態も「正常」であることを意味する。かくして、このときネットワーク監視部42は、何らの処理を行うことなくステップS39に進む。
【0113】
そしてネットワーク監視部42は、ステップS39に進むと、ネットワーク監視テーブル44に今回の監視結果を登録する(S39)。具体的に、ネットワーク監視部42は、ネットワーク監視テーブル44に新たなエントリを追加し、そのエントリの日時欄44Aに現在の日時、サーバ名欄44Bに選択サービスサーバ7のサーバ名、応答時間欄44CにステップS29で算出した応答時間(今回の状態が「タイムアウト」のときには「-」)、状態欄44DにステップS27、ステップS31又はステップS35で判定した外部接続サーバ9及び選択サービスサーバ7間のデータセンタ内ネットワーク12の状態をそれぞれ格納する。
【0114】
続いて、ネットワーク監視部42は、ステップS21でアドレス及びシステム名を取得したすべてのサービスサーバ7についてステップS23~ステップS39の処理を実行し終えたか否かを判断する(S40)。そしてネットワーク監視部42は、この判断で否定結果を得るとステップS22に戻り、この後ステップS22で選択するサービスサーバ7をステップS23以降が未処理の他のサービスサーバ7に順次切り替えながらステップS22~ステップS41の処理を繰り返す。
【0115】
そしてネットワーク監視部42は、やがて監視対象のすべてのサービスサーバ7に対するステップS23~ステップS39の処理を実行し終えることによりステップS40で肯定結果を得ると、今回サイクルを開始し始めてからステップS20で取得した監視間隔の時間が経過するまで待機する(S41)。
【0116】
そしてネットワーク監視部42は、やがて今回のサイクルを開始し始めてからステップS20で取得した監視間隔の時間が経過するとステップS21に戻り、この後ステップS21以降の処理を上述と同様に繰り返す。
【0117】
(4-3)状態監視処理
図16は、監視サーバ10の状態監視部47(図2)により実行される状態監視処理の流れを示す。状態監視部47は、この図16に示す処理手順に従って、データセンタ4内の監視対象の各サービスサーバ7の状態を監視する。
【0118】
実際上、状態監視部47は、監視サーバ10の電源が投入されるとこの図16に示す状態監視処理を開始し、まず、設定テーブル56(図12)に格納されている監視間隔を読み出すことにより取得する(S50)。
【0119】
また状態監視部47は、性能監視マネージャプログラム46(図2)が各サービスサーバ7の性能監視エージェントプログラム40(図2)から収集した、図6について上述した各種情報の転送を性能監視マネージャプログラム46にリクエストすることにより、これらの情報を取得する(S51)。
【0120】
続いて、状態監視部47は、ステップS51で情報を取得した各サービスサーバ7のうち、ステップS53以降が未処理のサービスサーバ7を1つ選択し(S52)、選択したサービスサーバ(以下、図16の説明において、これを選択サービスサーバと呼ぶ)7について取得した死活監視、プロセス監視、ログ及びリソース監視の各監視項目(図6を参照)の中からステップS54以降が未処理の1つの監視項目を選択する(S53)。
【0121】
次いで、状態監視部47は、ステップS51で取得した情報の中から選択サービスサーバ7に関するステップS53で選択した監視項目(以下、これを選択監視項目と呼ぶ)の監視結果を抽出して、その監視項目についての監視結果が「正常」であるか否かを判断する(S54)。
【0122】
状態監視部47は、この判断で否定結果を得ると、ステップS51で取得した情報の中から前回サイクル(前回のステップS51~ステップS63の処理)で取得した選択サービスサーバ7の選択監視項目の監視結果を抽出し(S55)、選択サービスサーバ7の選択監視項目の今回サイクル(今回のステップS51~ステップS63の処理)での監視結果と、前回サイクルの監視結果とが一致するか否かを判断する(S56)。
【0123】
この判断で否定結果を得ることは、選択サービスサーバ7の選択監視項目の前回サイクルでの監視結果が「正常」であり、今回の監視結果が「正常」以外であることから、前回サイクルから今回サイクルまでの間に選択サービスサーバ7に選択監視項目に影響を与える何らかの障害が発生したことを意味する。
【0124】
かくして、このとき状態監視部47は、障害管理テーブル51(図7)に今回の監視結果を追加登録する(S57)。具体的に、状態監視部47は、障害管理テーブル51に新たなエントリを追加し、その障害発生日時欄51Aに現在の日時を、システム名欄51Cに選択サービスサーバ7が構成するシステム6のシステム名を、サーバ名欄51Dに選択サービスサーバ7のサーバ名を、障害内容欄51Eに今回の選択監視項目の監視結果をそれぞれ格納する。そして状態監視部47は、この後、ステップS61に進む。
【0125】
これに対して、ステップS56の判断で肯定結果を得ることは、選択サービスサーバ7の選択監視項目の前回サイクル及び今回サイクルの監視結果が共に「正常」以外の監視結果であり、このような監視結果が得られる原因となった障害が前回サイクルのステップS57において既に障害管理テーブル51に登録されていることを意味する。かくして、このとき状態監視部47は、何も処理することなくステップS61に進む。
【0126】
一方、状態監視部47は、ステップS54の判断で肯定結果を得た場合には、ステップS51で取得した情報の中から前回サイクルで取得した選択サービスサーバ7の選択監視項目の監視結果を抽出し(S58)、選択サービスサーバ7の選択監視項目の今回サイクルでの監視結果と、前回サイクルの監視結果とが一致するか否かを判断する(S59)。
【0127】
この判断で否定結果を得ることは、選択サービスサーバ7の選択監視項目の前回サイクルでの監視結果が「正常」以外の監視結果であったのに対して、今回の監視結果が「正常」であり、前回サイクルから今回サイクルまでの間に選択サービスサーバ7の選択監視項目についての復旧が行われたことを意味する。
【0128】
かくして、このとき状態監視部47は、前回サイクルで障害管理テーブル51に登録した選択サービスサーバ7の選択監視項目に対応するエントリの障害復旧日時欄51Bに、現在の日時を障害復旧日時として登録する(S60)。
【0129】
これに対して、ステップS59の判断で肯定結果を得ることは、選択サービスサーバ7の選択監視項目の前回サイクル及び今回サイクルの監視結果が共に「正常」であることを意味する。かくして、このとき状態監視部47は、何も処理することなくステップS61に進む。
【0130】
また状態監視部47は、ステップS61に進むと、選択サービスサーバ7に関して、すべての監視項目についてのステップS54~ステップS60の処理を実行し終えたか否かを判断する(S61)。そして状態監視部47は、この判断で否定結果を得るとステップS53に戻り、この後、ステップS53で選択する監視項目をステップS54以降が未処理の他の監視項目に順次切り替えながらステップS53~ステップS61の処理を繰り返す。
【0131】
そして状態監視部47は、やがて選択サービスサーバ7のすべての監視項目についてステップS54~ステップS60の処理を実行し終えることによりステップS61で肯定結果を得ると、監視対象のすべてのサービスサーバ7についてステップS53~ステップS60の処理を実行し終えたか否かを判断する(S62)。
【0132】
状態監視部47は、この判断で否定結果を得るとステップS52に戻り、この後、ステップS52で選択するサービスサーバ7をステップS53以降が未処理の他のサービスサーバ7に切り替えながらステップS52~ステップS62の処理を繰り返す。
【0133】
そして状態監視部47は、やがて監視対象のすべてのサービスサーバ7についてステップS53~ステップS61の処理を実行し終えることによりステップS62で肯定結果を得ると、今回サイクルでステップS51以降の処理を開始し始めてからの経過時間がステップS50で取得した監視間隔の時間となるまで待機する(S63)。
【0134】
そして状態監視部47は、やがて今回サイクルでステップS51以降の処理を開始し始めてからの経過時間がステップS50で取得した監視間隔の時間となるとステップS51に戻り、この後ステップS51以降の処理を上述と同様に繰り返す。
【0135】
(4-4)緊急度算出処理
図17A及び図17Bは、監視サーバ10の緊急度算出部48(図2)により実行される緊急度算出処理の流れを示す。緊急度算出部48は、この図17A及び図17Bに示す処理手順に従って、障害管理テーブル51(図7)に登録された各障害情報について、その障害に対する対応の緊急度をそれぞれ算出する。
【0136】
実際上、緊急度算出部48は、監視サーバ10の電源が投入されるとこの図17A及び図17Bに示す緊急度算出処理を開始し、まず、設定テーブル56(図12)に格納されている監視間隔を読み出す(S70)。また緊急度算出部48は、障害管理テーブル51に登録されているすべての障害情報(各エントリの情報)を読み出し(S71)、読み出した障害管理の中からステップS73以降が未処理の障害情報を1つ選択する(S72)。
【0137】
続いて、緊急度算出部48は、ステップS72で選択した障害情報(以下、図17A及び図17Bの説明において、これを選択障害情報と呼ぶ)の緊急度を「0」に設定し(S73)、この後、選択障害情報の障害復旧日時が障害管理テーブル51に登録されているか否かを判断する(S74)。この判断は、障害管理テーブル51における選択障害情報に対応するエントリの障害復旧日時欄51B(図7)に日時が格納されているか否かにより行われる。
【0138】
そして緊急度算出部48は、この判断で肯定結果を得るとステップS76に進む。これに対して、緊急度算出部48は、ステップS74の判断で否定結果を得ると、緊急度テーブル52(図8)から「障害復旧」という加点項目の緊急度スコア(図8では「4」)を読み出し、読み出した緊急度スコアを選択障害情報の緊急度スコアに加算する(S75)。
【0139】
続いて、緊急度算出部48は、選択障害情報に対応するサービスサーバ7(対応する障害が発生したサービスサーバ7であり、以下、図17A及び図17Bの説明において、これを対応サービスサーバ7と呼ぶ)に対する予備系のすべてのサービスサーバ7のサーバ名を構成管理テーブル54(図10)から取得する(S76)。具体的に、緊急度算出部48は、構成管理テーブル54の各エントリのうち、対応サービスサーバ7が構成するシステム6のシステム名がシステム欄54Aに格納され、かかるシステム6の用途が用途欄54Bに格納されたエントリをすべて抽出する。そして緊急度算出部48は、抽出したこれらエントリのサーバ名欄54Cにそれぞれ格納されているサーバ名のうち、対応サービスサーバ7のサーバ名以外のサーバ名を対応サービスサーバ7の予備系のサービスサーバ7のサーバ名として取得する。
【0140】
次いで、緊急度算出部48は、ステップS76で取得したサーバ名のサービスサーバ7(対応サービスサーバ7に対する予備系のサービスサーバ7であり、以下、これを対応予備系サービスサーバ7と呼ぶ)の中からステップS78以降が未処理の対応予備系サービスサーバ7を1つ選択する(S77)。
【0141】
また緊急度算出部48は、ステップS77で選択した対応予備系サービスサーバ7に関する未復旧の障害の障害情報を、ステップS71で障害管理テーブルから読み出したすべての障害情報上で検索する(S78)。具体的に、緊急度算出部48は、サーバ名がステップS77で選択した対応予備系サービスサーバ7のサーバ名で、対応サービスサーバ7の障害発生以降の障害発生日時が登録され、かつ障害復旧日時が登録されていない障害情報を検索する。また緊急度算出部48は、この後、かかる障害情報を検出できたか否かを判断する(S79)。
【0142】
ここで、ステップS79の判断で否定結果を得ることは、ステップS77で選択した対応予備系サービスサーバ7に未復旧の障害が発生しておらず、かかる対応予備系サービスサーバ7が正常稼動していることを意味する。よって、この場合には、対応サービスサーバ7の復旧をそれほど急ぐ必要がないということができる。かくして、このとき緊急度算出部48はステップS82に進む。
【0143】
これに対して、ステップS79の判断で肯定結果を得ることは、現在、ステップS77で選択した対応予備系サービスサーバ7に障害が発生しており、かかる対応予備系サービスサーバ7が正常に稼動していないことを意味する。かくして、このとき緊急度算出部48は、ステップS76で対応サービスサーバ7の他の予備系のサービスサーバ7を検出していたか否かを判断する(S80)。
【0144】
緊急度算出部48は、この判断で肯定結果を得るとステップS77に戻り、この後、ステップS77で選択する予備系のサービスサーバ7を、ステップS76でサーバ名を取得したサービスサーバ7であって、ステップS78以降が未処理の他のサービスサーバ7に順次切り替えながらステップS79又はステップS80で否定結果を得るまでステップS77~ステップS80の処理を繰り返す。このような繰返し処理により、ステップS76でサーバ名を取得したすべてのサービスサーバ7(対応サービスサーバ7の予備系のサービスサーバ7)について、現在、未復旧の障害が発生しているか否かを順番に判定することができる。
【0145】
そして、この繰返し処理により、ステップS76でサーバ名を取得したすべてのサービスサーバ7に未復旧の障害が発生しているとの判定が得られた場合(ステップS80で否定結果を得た場合)、このことは対応サービスサーバ7のすべての予備系のサービスサーバ7に未復旧の障害が発生しているため、対応サービスサーバ7の復旧を急ぐ必要があることを意味する。かくして、このとき緊急度算出部48は、緊急度テーブル52から「予備系切替え」という加点項目の緊急度スコア(図8では「2」)を読み出し、読み出した緊急度スコアを選択障害情報の現在の緊急度スコアに加算する(S81)。
【0146】
続いて、緊急度算出部48は、外部接続サーバ9にアクセスして、対応サービスサーバ7が構成するシステム6における対応サービスサーバ7に障害が発生した日時(障害発生日時)以降に生成されたエラーログをアクセス履歴テーブル43(図3)上で検索する(S82)。具体的に、緊急度算出部48は、アクセス履歴テーブル43上で、日時欄43Aにかかる障害発生日時以降の日時が格納され、システム名欄43Bに対応サービスサーバ7が構成するシステム6のシステム名が格納され、かつ状態欄43Eに「正常」以外の状態(「エラー」又は「タイムアウト」)が格納されたエントリを検索する。
【0147】
そして緊急度算出部48は、かかる検索により上述のようなエラーログのエントリを検出できたか否かを判断する(S83)。
【0148】
この判断で否定結果を得ることは、対応サービスサーバ7に障害が発生してから現在までの間に対応サービスサーバ7にアクセスしてきた顧客端末3が存在せず、対応サービスサーバ7の障害が当該対応サービスサーバ7を利用する顧客に影響を与えていないことを意味する。よって、この場合には、対応サービスサーバ7の復旧を急ぐ必要性が低いということができる。かくして、このとき緊急度算出部48はステップS85に進む。
【0149】
これに対して、ステップS83の判断で肯定結果を得ることは、対応サービスサーバ7に障害が発生してから現在までの間に対応サービスサーバ7にアクセスしてきた顧客端末3が存在し、対応サービスサーバ7の障害が当該対応サービスサーバ7を利用する顧客に悪影響を与えていることを意味する。よって、この場合には、対応サービスサーバ7の復旧を急ぐ必要性が高いということができる。かくして、このとき緊急度算出部48は、緊急度テーブル52(図8)から「利用者影響」という加点項目の緊急度スコア(図8では「1」)を読み出し、読み出した緊急度スコアを選択障害情報の現在の緊急度スコアに加算する(S84)。
【0150】
続いて、緊急度算出部48は、障害管理テーブル51(図7)における対応サービスサーバ7の現在の障害に対応するエントリの緊急度欄51Gに格納されている値をこれまでに算出した対応サービスサーバ7の緊急度の値に更新すると共に(S85)、そのエントリのエラーアクセス数欄51Fに格納されている値を、ステップS82で検出したエラーログの数に更新する(S86)。
【0151】
この後、緊急度算出部48は、ステップS71で障害管理テーブル51から読み出したすべての障害情報について、ステップS73~ステップS86の処理を実行し終えたか否かを判断する(S87)。そして緊急度算出部48は、この判断で否定結果を得るとステップS72に戻り、この後、ステップS72で選択する障害情報をステップS73以降が未処理の他の障害情報に順次切り替えながらステップS72~ステップS87の処理を繰り返す。
【0152】
そして緊急度算出部48は、やがてステップS71で障害管理テーブル51から読み出したすべての障害情報についてステップS73~ステップS86の処理を実行し終えることによりステップS87で肯定結果を得ると、この後、今回サイクル(ステップS71~ステップS88の処理)を開始し始めてからステップS70で取得した監視間隔の時間が経過するまで待機する(S88)。
【0153】
そして緊急度算出部48は、やがて今回サイクルの処理を開始し始めてからステップS70で取得した監視間隔の時間が経過するとステップS71に戻り、この後ステップS71以降の処理を繰り返す。
【0154】
(4-5)優先度判定処理
図18A及び図18Bは、監視サーバ10の優先度判定部49(図2)により実行される優先度判定処理の流れを示す。優先度判定部49は、この図18A及び図18Bに示す処理手順に従って、障害管理テーブル51(図7)に登録された各障害情報について、その障害に対する対応の優先度をそれぞれ判定する。
【0155】
実際上、優先度判定部49は、監視サーバ10の電源が投入されるとこの図18A及び図18Bに示す優先度判定処理を開始し、まず、設定テーブル56に格納されている監視間隔を読み出す(S90)。また優先度判定部49は、障害管理テーブル51に登録されているすべての障害情報の中からステップS92以降が未処理の障害情報を1つ選択し、選択した障害情報(以下、図18A及び図18Bの説明において、これを選択障害情報と呼ぶ)を障害管理テーブル51から読み出す(S91)。
【0156】
続いて、優先度判定部49は、選択障害情報の緊急度が「0」に設定されているか否かを判断する(S92)。そして優先度判定部49は、この判断で肯定結果を得ると、その選択障害情報の優先度を「0」に設定する(S98)。具体的に、優先度判定部49は、障害管理テーブル51における選択障害情報に対応するエントリの優先度欄51Kに「0」を格納する。そして優先度判定部49は、この後、この優先度判定処理を終了する。
【0157】
また優先度判定部49は、ステップS92の判断で否定結果を得ると、選択障害情報の緊急度が「1」~「3」のいずれかの値に設定されているか否かを判断する(S93)。そして優先度判定部49は、この判断で否定結果を得るとステップS96に進む。
【0158】
これに対して、優先度判定部49は、ステップS93の判断で肯定結果を得ると、選択障害情報に対応するシステム6の保守時間を保守時間テーブル55(図11)から読み出す(S94)。具体的に、優先度判定部49は、障害管理テーブル51における選択障害情報に対応するエントリのシステム名欄51Cに格納されたシステム名を読み出し、読み出したシステム名が保守時間テーブル55におけるシステム名欄55Aに格納されているエントリの保守時間欄55Bに格納された保守時間を読み出す。
【0159】
続いて、優先度判定部49は、現在時刻がステップS94で保守時間テーブル55から読み出した保守時間内であるか否か(現在時刻が選択障害情報に対応するシステム6の保守時間内であるか否か)を判断する(S95)。そして優先度判定部49は、この判断で否定結果を得ると、その選択障害情報の優先度を「0」に設定し(S98)、この後、この優先度判定処理を終了する。
【0160】
これに対して、優先度判定部49は、ステップS95の判断で肯定結果を得ると、障害管理テーブル51における選択障害情報に対応するエントリの対応済欄51Lを参照し(S96)、選択障害情報に対応する障害に対して保守員11(図1)が対応済であるか否か(対応するサービスサーバ7が障害から復旧しているか否か)を判断する(S97)。そして優先度判定部49は、この判断で肯定結果を得ると、その選択障害情報の優先度を「0」に設定し(S98)、この後、この優先度判定処理を終了する。
【0161】
一方、優先度判定部49は、ステップS97の判断で否定結果を得ると、選択障害情報に対応するサービスサーバ7(対応する障害が発生したサービスサーバ7)が構成するシステム6(以下、これを対応システム6と呼ぶ)の重要度を重要度テーブル53(図9)から取得する(S99)。具体的に、優先度判定部49は、障害管理テーブル51における選択障害情報に対応するエントリのシステム名欄51Cから対応システム6のシステム名を読み出し、重要度テーブル53におけるそのシステム名がシステム名欄53Aに格納されたエントリの重要度欄53Fに格納された重要度を読み出す。
【0162】
続いて、優先度判定部49は、障害管理テーブル51における選択障害情報に対応するエントリの緊急度欄51Gに格納されている対応する障害の緊急度と、かかる対応システム6の重要度とを加算するようにして、選択障害情報に対応する障害の仮の優先度(以下、これを仮優先度と呼ぶ)を算出する(S100)。
【0163】
また優先度判定部49は、選択障害情報に対応する障害の障害発生からの経過時間を算出する(S101)。具体的に、優先度判定部49は、選択障害情報に対応する障害の障害発生日時を障害管理テーブル51における選択障害情報に対応するエントリの障害発生日時欄51Aから読み出し、読み出した障害発生日時と現在時刻との差分を経過時間として算出する。
【0164】
続いて、優先度判定部49は、設定テーブル56(図12)から最大経過時間を読み出し(S102)、読み出した最大経過時間と、ステップS100で算出した経過時間とに基づいて、選択障害情報に対応する障害の経過時間係数を算出する(S103)。
【0165】
この経過時間係数は、選択障害情報に対応する障害が発生してからの経過時間に応じて変化する係数であり、かかる経過時間が大きくなればなるほどその数値が大きくなるような一定のルールに従って算出される。
【0166】
このようなルールは任意に設定することができる。例えば図19に示すように、ステップS102で設定テーブル56から読み出した最大経過時間が「60分」であった場合、かかる経過時間が「0分」のときの経過時間係数を「0」、経過時間が「30分」であったときの経過時間係数を「0.5」、経過時間が「60分」のときの経過時間係数を「1」として、経過時間が「0分」から「30分」の間や、経過時間が「30分」から「60分」の間は、経過時間係数の値がリニアに変化し、経過時間が「60分以上」の場合には一律に経過時間係数を「1」とするといったルールを適用することができる。また経過時間係数を「1」以上に設定できるようにしてもよい。
【0167】
次いで、優先度判定部49は、ステップS100で算出した仮優先度にステップS103で算出した経過時間係数を加算するようにして選択障害情報に対応する障害の優先度を算出する(S104)。
【0168】
また優先度判定部49は、ステップS104の算出結果に基づいて障害管理テーブル51を更新する(S105)。具体的に、優先度判定部49は、障害管理テーブル51における選択障害情報に対応するエントリの重要度欄51HにステップS99で取得した重要度を格納し、そのエントリの経過時間係数欄51IにステップS103で算出した経過時間係数を格納し、そのエントリの緊急度×重要度欄51Jに選択障害情報に対応する障害の緊急度及び重要度の積を格納し、そのエントリの優先度欄51KにステップS104で算出した優先度を格納する。
【0169】
さらに優先度判定部49は、障害管理テーブル51に登録されたすべての障害情報についてステップS92~ステップS105の処理を実行し終えたか否かを判断する(S106)。そして優先度判定部49は、この判断で否定結果を得るとステップS91に戻り、この後、ステップS91で選択する障害情報(エントリ)をステップS92以降が未処理の他の障害情報に順次切り替えながらステップS91~ステップS106の処理を繰り返す。この繰返し処理により、そのとき障害管理テーブル51に登録されているすべての障害情報について優先度等が算出されてその値が障害管理テーブル51に登録される。
【0170】
そして優先度判定部49は、やがて障害管理テーブル51に登録されたすべての障害情報について優先度等を障害管理テーブル51に登録し終えることによりステップS106で肯定結果を得ると、この優先度判定処理を終了する。
【0171】
(4-6)判定結果提示処理
図20は、監視サーバ10の判定結果提示部50(図2)により実行される判定結果提示処理の流れを示す。本情報処理システム1では、保守員11(図1)が保守員端末5(図1)を所定操作することによって、その保守員端末5から監視サーバ10に障害発生状況一覧画面60(図13)の表示要求(以下、これを障害発生状況一覧画面表示要求と呼ぶ)が与えられる。そして判定結果提示部50は、かかる障害発生状況一覧画面表示要求が与えられると、この図20に示す処理手順に従って障害発生状況一覧画面60をその保守員端末5に表示させる。
【0172】
実際上、判定結果提示部50は、かかる障害発生状況一覧画面表示要求を受信するとこの判定結果提示処理を開始し、まず、障害管理テーブル51(図7)から必要範囲の障害情報を取得する(S110)。ここでの「必要範囲」とは、例えば、障害発生状況一覧画面60に表示すべき期間的な範囲(例えば直近1週間)が予め決められている場合の当該範囲が該当する。また保守員11が障害発生日時の期間を指定した場合には、その期間がかかる「必要範囲」となる。
【0173】
続いて、判定結果提示部50は、ステップS110で取得した各障害情報を、優先度が大きい順にソートする(S111)。この際、判定結果提示部50は、優先度が同じ障害情報が複数ある場合には、これらの障害情報を障害発生日時が遅い順にソートする。また判定結果提示部50は、優先度及び障害発生日時のいずれもが同じ障害情報が複数ある場合には、これらの障害情報を緊急度及び重要度の積(緊急度×重要度)の値が小さい順にソートする。さらに判定結果提示部50は、優先度及び障害発生時刻と、緊急度及び重要度の積の値とのすべてが同じ障害情報が複数ある場合には、これらの障害情報をエラーアクセス数が多い順にソートする。
【0174】
次いで、判定結果提示部50は、ステップS110で障害管理テーブルから取得し、ステップS111のようにソートした各障害情報を掲載した図13について上述した障害発生状況一覧61を生成し、その障害発生状況一覧61を含む障害発生状況一覧画面60の画面データを上述の障害発生状況一覧表示要求の送信元の保守員端末5に送信する。これにより、この障害発生状況一覧画面60がその保守員端末5に表示される(S112)。そして判定結果提示部50は、この後、この判定結果提示処理を終了する。
【0175】
(4-7)対応済チェック処理
一方、図21は、障害発生状況一覧画面60の障害発生状況一覧61におけるチェックマーク61Iが表示されていないいずれかのエントリ(つまり対応する障害が未対応の障害情報のエントリ)の対応済欄61Gがクリックされた場合に判定結果提示部50により実行される対応済チェック処理の流れを示す。判定結果提示部50は、かかる対応済欄61Gがクリックされると、この図21に示す処理手順に従って障害管理テーブル51(図7)を更新する。
【0176】
実際上、判定結果提示部50は、障害発生状況一覧画面60の障害発生状況一覧61におけるチェックマーク61Iが表示されていないいずれかのエントリの対応済欄61Gがクリックされると、この図21に示す対応済チェック処理を開始し、まず、かかる障害発生状況一覧61におけるそのエントリ(以下、図21の説明において、これを対応エントリと呼ぶ)のその対応済欄61Gにチェックマーク61Iを表示させる(S120)。
【0177】
続いて、判定結果提示部50は、かかる障害発生状況一覧61の対応エントリに対応する障害管理テーブル51のエントリの対応済欄51L(図7)に格納されている値を、「未対応」から「対応済」に更新し(S121)、この後、この対応済チェック処理を終了する。
【0178】
(5)本実施の形態の効果
以上のように本実施の形態の情報処理システム1では、障害対応支援システム8を構成する外部接続サーバ9及び監視サーバ10によってデータセンタ4内の監視対象のサービスサーバ7の状態や、データセンタ内ネットワーク12の状態を監視し、これらのサービスサーバ7やデータセンタ内ネットワーク12の障害を検知した場合に、検知した障害からの復旧対応の優先度を障害ごとにそれぞれ算出し、算出した優先度に応じた順番でソートして各障害の障害情報を保守員11に提示する。
【0179】
この際、監視サーバ10は、各障害の復旧対応の緊急度を、当該障害からの復旧の有無及び予備系への切替えの有無に加えて、その障害が発生してから現在までの顧客端末3からのアクセスの有無に基づいて算出し、算出した緊急度と、障害が発生したサービスサーバ7が構成するシステム6の重要度と、障害が発生してからの経過時間に基づいて算出した経過時間係数とを加算するようにして、各障害の復旧対応の優先度をそれぞれ算出する。
【0180】
従って、この情報処理システム1によれば、多くの顧客から利用されるシステム6を構成するサービスサーバ7に障害が発生した場合にその障害の影響が直ちに緊急度に反映され、これに伴ってその障害の復旧対応の優先度もより高く算出されるため、システム6に発生した障害の客観的な緊急度及び優先度を迅速に保守員11に提示することができる。この結果、本情報処理システム1によれば、保守業務を最適化させることができる。
【0181】
(6)他の実施の形態
なお上述の実施の形態においては、障害対応支援システム8を外部接続サーバ9及び監視サーバ10により構成するようにした場合について述べたが、本発明はこれに限らず、監視サーバ10の機能をすべて外部接続サーバ9に搭載することにより、障害対応支援システム8を外部接続サーバ9のみで構成するようにしてもよい。
【0182】
また上述の実施の形態においては、データセンタ4内の監視対象の各サービスサーバ7の状態を監視する状態監視機能や、検知した障害ごとの復旧対応の緊急度を算出する緊急度算出機能、各障害の復旧対応の優先度をそれぞれ判定する優先度判定機能、及び、判定した各障害の復旧対応の優先度を保守員11に提示する判定結果提示機能をすべて1台の監視サーバ10に搭載するようにした場合について述べたが、本発明はこれに限らず、これらの機能を分散コンピューティングシステムを構成する複数のコンピュータ装置に分散して配置するようにしてもよい。
【0183】
さらに上述の実施の形態においては、障害が発生したサービスサーバ7ごとに、そのサービスサーバ7について算出した緊急度、システム6の重要度及び経過時間係数を足し合わせるようにして優先度を算出するようにした場合について述べたが、本発明はこれに限らず、これら緊急度、システム6の重要度及び経過時間係数を掛け合わせるようにして優先度を算出するようにしてもよく、優先度の算出手法としては、この他種々の算出手法を広く適用することができる。この場合において、サービスサーバ7に障害が発生してから現在までのそのサービスサーバ7に対する顧客端末3からのアクセス回数がより影響力が大きくなるように優先度を算出するようにしてもよい。
【0184】
さらに上述の実施の形態においては、障害が発生してから現在までの利用者からのアクセスの有無のみに基づいて障害の緊急度を算出するようにした場合について述べたが、本発明はこれに限らず、障害が発生してから現在までの利用者からのアクセス回数に基づいて、当該アクセス回数が多ければ多いほど緊急度が高くなるように監視サーバ10がかかる緊急度を算出するようにしてもよい。このようにすることによって、顧客の利用頻度が高いサービスサーバ7に発生した障害の緊急度及び優先度がより高く算出されるため、各サービスサーバ7に対する顧客の実際の利用状況を迅速かつ客観的に反映した緊急度及び優先度を保守員11に提示することができる。この結果、本情報処理システム1によれば、保守業務をより一層と最適化させることができる。
【0185】
なお、この場合には、緊急度テーブル52において「利用者影響」に代えて、例えば「アクセス回数1~10」、「アクセス回数11~100」のように「アクセス回数」を幾つかの範囲ごとに区分したものをそれぞれ加点項目とし、例えば、「アクセス回数1~10」は緊急度スコアを「1」、「アクセス回数11~100」は緊急度スコアを「2」、……のようにアクセス回数が多いほど緊急度スコアを多く設定する。そして図17A及び図17Bについて上述した緊急度算出処理のステップS84において、ステップS82で検出したエラーログの回数を「アクセス回数」として対応する緊急度スコアを加算するようにすればよい。
【0186】
さらに上述の実施の形態においては、重要度が事前に顧客等により設定された場合について述べたが、本発明はこれに限らず、例えば、システム6ごとの定常状態における顧客からのアクセス数(システム6を構成する各サービスサーバ7への定常状態における顧客からのアクセス総数)に基づいて動的に決定するようにしてもよい。具体的には、一定期間内における顧客からのアクセス数をそのまま正規化したものを重要度としてもよく、またシステム6ごとの定常状態における顧客からのアクセス数を他の方法で利用するようにして重要度を決定するようにしてもよい。
【産業上の利用可能性】
【0187】
本発明は、例えばデータセンタ内のサービスサーバの保守管理を行う保守員による障害対応の支援を行う種々の障害対応支援装置に広く適用することができる。
【符号の説明】
【0188】
1……情報処理システム、3……顧客端末、4……データセンタ、5……保守員端末、6……システム、7……サービスサーバ、8……障害対応支援システム、9……外部接続サーバ、10……監視サーバ、11……保守員、23,27……プロセッサ、40……性能監視エージェントプログラム、41……アクセス監視部、42……ネットワーク監視部、43……アクセス履歴テーブル、44……ネットワーク監視テーブル、45……応答閾値テーブル、46……性能監視マネージャプログラム、47……状態監視部、48……緊急度算出部、49……優先度判定部、50……判定結果提示部、51……障害管理テーブル、52……緊急度テーブル、53……重要度テーブル、54……構成管理テーブル、55……保守時間テーブル、56……設定テーブル、60……障害発生状況一覧画面、61……障害発生状況一覧。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15A
図15B
図16
図17A
図17B
図18A
図18B
図19
図20
図21