(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024127092
(43)【公開日】2024-09-20
(54)【発明の名称】障害対応方法および障害対応システム
(51)【国際特許分類】
G06F 11/07 20060101AFI20240912BHJP
【FI】
G06F11/07 172
G06F11/07 193
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023035975
(22)【出願日】2023-03-08
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
(71)【出願人】
【識別番号】598057291
【氏名又は名称】エフサステクノロジーズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山口 龍二
(72)【発明者】
【氏名】塩川 順
(72)【発明者】
【氏名】泉 博文
(72)【発明者】
【氏名】山口 敦
(72)【発明者】
【氏名】村井 幸治
(72)【発明者】
【氏名】大場 重志
(72)【発明者】
【氏名】岡 賢作
【テーマコード(参考)】
5B042
【Fターム(参考)】
5B042KK13
5B042KK17
5B042KK20
5B042MA08
5B042MC16
5B042MC17
5B042MC35
(57)【要約】
【課題】顧客システムの障害対応を行うための承認を適切に得ること。
【解決手段】障害対応システムは、システムと、システムを管理する管理サーバとを有する。管理サーバは、監視サーバによって、システムに障害が発生したことが検知され、障害の対応情報が記憶部に登録された場合に、システムの重要度と、対応情報の種別とを基にして、障害の緊急度を算出する。管理サーバは、緊急度を基にして、対応情報に応じた処理の承認要求を承認者端末に行うための手段を選定する。管理サーバは、選定した手段によって、承認者端末に承認要求を行う。
【選択図】
図1
【特許請求の範囲】
【請求項1】
システムと、前記システムを管理する管理サーバとを有する障害対応システムの障害対応方法であって、
前記管理サーバは、監視サーバによって、前記システムに障害が発生したことが検知され、前記障害の対応情報が記憶部に登録された場合に、前記システムの重要度と、前記対応情報の種別とを基にして、前記障害の緊急度を算出し、
前記管理サーバは、前記緊急度を基にして、前記対応情報に応じた処理の承認要求を承認者端末に行うための手段を選定し、
前記管理サーバは、選定した前記手段によって、前記承認者端末に前記承認要求を行う
ことを特徴とする障害対応方法。
【請求項2】
前記システムのツールは、前記記憶部に登録された前記対応情報と、前記承認要求の結果とを基にして、前記対応情報に応じた処理を前記システムに対して実行する処理を更に実行することを特徴とする請求項1に記載の障害対応方法。
【請求項3】
前記管理サーバは、前記緊急度が閾値以上の場合には、前記承認者端末に電話を発信し、自動音声を再生することで、前記対応情報に応じた処理の承認要求を行うことを特徴とする請求項1に記載の障害対応方法。
【請求項4】
前記管理サーバは、前記緊急度が閾値未満の場合には、前記承認者端末に、前記対応情報に応じた処理の承認要求に関するテキスト情報を設定したメールを送信することを特徴とする請求項1に記載の障害対応方法。
【請求項5】
前記管理サーバは、前記障害の対応情報が前記記憶部に登録された日時を基にして、前記緊急度を補正する処理を更に実行することを特徴とする請求項1に記載の障害対応方法。
【請求項6】
システムと、前記システムを管理する管理サーバとを有する障害対応システムであって、
前記管理サーバは、監視サーバによって、前記システムに障害が発生したことが検知され、前記障害の対応情報が記憶部に登録された場合に、前記システムの重要度と、前記対応情報の種別とを基にして、前記障害の緊急度を算出し、
前記管理サーバは、前記緊急度を基にして、前記対応情報に応じた処理の承認要求を承認者端末に行うための手段を選定し、
前記管理サーバは、選定した前記手段によって、前記承認者端末に前記承認要求を行う
ことを特徴とする障害対応システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害対応方法および障害対応システムに関する。
【背景技術】
【0002】
従来、顧客システムを監視し、顧客システムに何らかの障害が発生した場合に、係る障害に対応する障害対応システムがある。
【0003】
図14は、従来の障害対応システムの一例を示す図である。
図14に示すように、この障害対応システムは、顧客システム5、自動化処理部6、監視サーバ7、ITSM(IT Service Management)サーバ8を有する。監視サーバ7およびITSMサーバ8と、自動化処理部6との間には、不正アクセス等を防止するためのFirewall9が配置される。
【0004】
顧客システム5は、顧客が利用するシステムであり、複数の電子機器から構成される。自動化処理部6は、インバウンド通信によって、外部の監視サーバ7から、ワークアラウンドの実行命令を受信した場合に、該当するワークアラウンドに応じたジョブを、顧客システムに対して実行する。図示を省略するが、障害対応システムは、顧客システム5に加えて、他の顧客システムを更に含んでいてもよい。
【0005】
監視サーバ7は、SaaS(Software as a Service)型の監視サーバであり、顧客システム5や、他の顧客システム(図示略)の監視を行う。ここでは、顧客システム5を用いて、監視サーバ7の説明を行う。
【0006】
監視サーバ7は、顧客システム5から、障害発生の通知を受け付けた場合等に、顧客システム5の障害発生を検知し、表示画面等に障害発生の情報を表示させる。監視サーバ7のオペレータは、障害発生の情報を表示画面等で確認すると、障害内容に対応するワークアラウンドを実行するための承認プロセスを行い、承認を得られたワークアラウンドの実行命令を、自動化処理部6に対して送信する。
【0007】
たとえば、監視サーバ7のオペレータは、承認プロセスにおいて、事前に指定された顧客の携帯電話等に電話をかけることで、承認をもらう場合もある。
【0008】
ITSMサーバ8は、SaaS型のITSMサーバであり、顧客システム5および他の顧客システム(図示略)に発生した障害内容、係る障害内容に対して選択したワークアラウンド等の履歴情報を保存する。監視サーバ7のオペレータは、ITSMサーバ8に保存された履歴情報を参照して、顧客システム5で新たに発生した障害内容に対応するワークアラウンドを選択する場合もある。
【先行技術文献】
【特許文献】
【0009】
【発明の概要】
【発明が解決しようとする課題】
【0010】
たとえば、監視サーバ7のオペレータは、承認プロセスにおいて、事前に指定された顧客の携帯電話等に電話をかけることで、承認を得ているが、深夜に障害が発生した場合には、顧客が就寝中であるため、実際に電話をかけるか否かはオペレータの判断に依存することになる。緊急の障害であれば、深夜であっても顧客から承認を得るべきであるが、緊急の障害でない場合には、翌日に承認を得てもよいことになる。しかしながら、オペレータ自身が、係る判断を行って承認を得ることは難しい。
【0011】
1つの側面では、本発明は、顧客システムの障害対応を行うための承認を適切に得ることができる障害対応方法および障害対応システムを提供することを目的とする。
【課題を解決するための手段】
【0012】
第1の案では、障害対応システムは、システムと、システムを管理する管理サーバとを有する。管理サーバは、監視サーバによって、システムに障害が発生したことが検知され、障害の対応情報が記憶部に登録された場合に、システムの重要度と、対応情報の種別とを基にして、障害の緊急度を算出する。管理サーバは、緊急度を基にして、対応情報に応じた処理の承認要求を承認者端末に行うための手段を選定する。管理サーバは、選定した手段によって、承認者端末に承認要求を行う。
【発明の効果】
【0013】
顧客システムの障害対応を行うための承認を適切に得ることができる。
【図面の簡単な説明】
【0014】
【
図1】
図1は、本実施例に係る障害対応システムの一例を示す図である。
【
図2】
図2は、障害DBのデータ構造の一例を示す図である。
【
図3】
図3は、本実施例に係る自動化処理装置の構成を示す機能ブロック図である。
【
図4】
図4は、処理テーブルのデータ構造の一例を示す図である。
【
図5】
図5は、監視サーバの構成を示す機能ブロック図である。
【
図6】
図6は、ITSMサーバの構成を示す機能ブロック図である。
【
図7】
図7は、ワークアラウンド管理テーブルのデータ構造の一例を示す図である。
【
図8】
図8は、システムレベル管理テーブルのデータ構造の一例を示す図である。
【
図9】
図9は、本実施例に係る自動化処理装置の処理手順を示すフローチャートである。
【
図10】
図10は、監視サーバおよびITSMサーバの処理手順を示すフローチャートである。
【
図12】
図12は、実施例の監視サーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【
図13】
図13は、実施例のITSMサーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【
図14】
図14は、従来の障害対応システムの一例を示す図である。
【発明を実施するための形態】
【0015】
以下に、本願の開示する障害対応方法および障害対応システムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例0016】
図1は、本実施例に係る障害対応システムの一例を示す図である。
図1に示すように、この障害対応システムは、顧客システム10a,10b,10cと、自動化処理装置20a,20b,20cと、承認者端末55と、監視サーバ100と、ITSMサーバ200とを有する。本実施例では、監視サーバ100と、ITSMサーバ200とを別々のサーバとして説明するが、監視サーバ100と、ITSMサーバ200とを一つのサーバで実現することもできる。
【0017】
顧客システム10a~10cは、自動化処理装置20a~20cにそれぞれ接続される。自動化処理装置20a~20cは、それぞれ、外部からの不正アクセスを防止するためのFirewall30a,30b,30cを介して、ネットワーク50に接続される。監視サーバ100およびITSMサーバ200は、ネットワーク50に接続される。
【0018】
顧客システム10a~10cは、顧客が利用するシステムであり、複数の電子機器から構成される。以下の説明では、特に区別する場合を除き、顧客システム10a~10cをまとめて「顧客システム10」と表記する。顧客システム10は、自顧客システム10内に障害が発生した場合に、障害情報を、監視サーバ100に送信する。
【0019】
たとえば、障害情報には、障害の内容を一意に識別する障害コードと、顧客システム10を一意に識別するシステム識別番号が含まれる。顧客システム10aのシステム識別番号を「sys1」、顧客システム10bのシステム識別番号を「sys2」、顧客システム10cのシステム識別番号を「sys3」とする。
【0020】
承認者端末55は、承認者が利用する端末装置である。承認者端末55は、スマートフォン等に対応する。承認者端末55は、ITSMサーバ200から、自動音声による電話またはメールによって、ワークアラウンドに対応する処理の承認要求を受け付ける。承認者は、承認者端末55を操作して、承認要求の内容を確認し、該当の処理を承認するか否かを設定した承認結果の情報を、ITSMサーバ200に送信する。
【0021】
監視サーバ100は、顧客システム10を監視する。監視サーバ100は、顧客システム10から障害情報を受信した場合、障害情報を表示画面に表示する。また、監視サーバ100は、障害情報を設定したインシデント発行要求を、ITSMサーバ200に送信する。
【0022】
ITSMサーバ200は、インシデント発行要求を受付けると、インシデント番号を発行し、障害情報に関する情報を、障害DB241に登録する。
【0023】
図2は、障害DBのデータ構造の一例を示す図である。
図2に示すように、この障害DB241は、障害テーブルta1,ta2,ta3を有する。障害テーブルta1は、顧客システム10aの障害情報に関する情報を保持する。障害テーブルta2は、顧客システム10bの障害情報に関する情報を保持する。障害テーブルta3は、顧客システム10cの障害情報に関する情報を保持する。障害DB241は、他の顧客システムの障害テーブルを更に有していてもよい。
【0024】
障害テーブルta1について説明する。障害テーブルta1には、顧客システム10aのシステム識別番号「sys1」が設定される。また、障害テーブルta1には、インシデント番号、障害コード、ワークアラウンド、日時、承認済みフラグ、対処フラグが設定される。
【0025】
インシデント番号は、ITSMサーバ200が発行する番号である。障害コードは、障害情報に設定された障害を一意に識別する情報である。ワークアラウンドは、障害コードによって識別される障害の対処内容を示す。たとえば、ワークアラウンドは、Windowsサーバのサービス状態確認、長時間走行ジョブの確認等である。その他のワークアラウンドの説明を省略する。
【0026】
日時は、インシデント発行要求を受付けた日時が設定される。承認済みフラグは、ワークアラウンドに対応する処理を実行することが承認されたか否かを示すフラグである。ワークアラウンドに対応する処理が承認されている場合には、承認済みフラグが「ON」となる。ワークアラウンドに対応する処理が承認されていない場合には、承認済みフラグが「OFF」となる。承認済みフラグの初期値を「OFF」とする。
【0027】
対処フラグは、顧客システムの障害に対応したか否かを示すフラグである。障害に対処した場合には、対処フラグに「ON」が設定される。障害に対応していない場合には、対処フラグに「OFF」が設定される。対処フラグの初期値を「OFF」とする。
【0028】
障害テーブルta2について説明する。障害テーブルta2には、顧客システム10bのシステム識別番号「sys2」が設定される。また、障害テーブルta2には、インシデント番号、障害コード、ワークアラウンド、日時、承認済みフラグ、対処フラグが設定される。
【0029】
障害テーブルta3について説明する。障害テーブルta3には、顧客システム10cのシステム識別番号「sys3」が設定される。また、障害テーブルta3には、インシデント番号、障害コード、ワークアラウンド、日時、承認済みフラグ、対処フラグが設定される。
【0030】
以下の説明では、障害テーブルta1,ta2,ta3のインシデント番号によって識別されるレコードを「インシデント」と表記する。たとえば、インシデント番号「inc_1」によって識別されるインシデントは、障害コード「error1100」、ワークアラウンド「Windowsサーバのサービス状態確認」、日時「2023年2月20日 11時00分」、承認済みフラグ「ON」、対処フラグ「OFF」のレコードに対応する。以下の説明では、適宜、対処フラグが「OFF」となるインシデントを、未対処のインシデントと表記する。また、承認済みフラグが「OFF」となるインシデントを、未承認のインシデントと表記する。
【0031】
ここで、ITSMサーバ200は、障害の発生した顧客システム10の重要度と、ワークアラウンドの種別に応じた値と乗算することで、緊急度を算出する。ITSMサーバ200は、緊急度を基にして、ワークアラウンドの処理の承認要求を、承認者端末55に行うための手段を選定する。たとえば、ITSMサーバ200は、緊急度が閾値以上となる場合には、緊急の障害が発生していると判定し、自動音声による電話を承認者端末55にかける(電話を発信する)。自動音声には、該当するインシデント番号、障害コード、ワークアラウンド等を伝える音声と、承認を要求する旨の音声が含まれる。
【0032】
一方、ITSMサーバ200は、緊急度のスコアが閾値未満となる場合には、翌日でも対応可能な障害が発生していると判定し、承認要求のメールを承認者端末55に送信する。承認要求のメールには、該当するインシデント番号、障害コード、ワークアラウンドの情報と、承認を要求する旨のテキストが含まれる。
【0033】
ITSMサーバ200は、承認要求を行った後に、承認者端末55からの承認結果を受信する。承認結果には、ワークアラウンドに対応する処理を承認するか否かの情報が設定される。ITSMサーバ200は、承認結果に「承認する」旨が設定されている場合には、承認済みフラグを「ON」に更新する。ITSMサーバ200は、承認結果に「承認しない」旨が設定されている場合には、承認済みフラグを「OFF」のままとする。
【0034】
図1の説明に戻る。自動化処理装置20a~20cは、アウトバウンド通信によって、所定時間毎に、ITSMサーバ200の障害DB241にアクセスし、自身の顧客システム10に対応する障害テーブルを参照する。たとえば、自動化処理装置20aは、顧客システム10aに対応する障害テーブルta1を参照する。自動化処理装置20bは、顧客システム10bに対応する障害テーブルta2を参照する。自動化処理装置20cは、顧客システム10cに対応する障害テーブルta3を参照する。
【0035】
自動化処理装置20aは、障害テーブルta1のインシデントのうち、承認済みフラグが「ON」、かつ、対処フラグが「OFF」となる未対処のインシデントを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10aに対して実行する。
図2に示す例では、自動化処理装置20aは、ワークアラウンド「Windowsサーバのサービス状態確認」のジョブ、「長時間走行ジョブの確認」のジョブを顧客システム10aに対して実行する。自動化処理装置20aは、「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」の処理結果を、ITSMサーバ200に通知する。
【0036】
ITSMサーバ200は、ワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対処した旨の情報を、処理結果として受信した場合には、障害テーブルta1のワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対応する対処フラグを「OFF」から「ON」に更新する。
【0037】
一方、ITSMサーバ200は、ワークアラウンド「Windowsサーバのサービス状態確認」、「長時間走行ジョブの確認」に対処に失敗した旨の情報を、処理結果として受信した場合には、エラー情報を、監視サーバ100に送信する。エラー情報には、システム識別番号、対処に失敗したワークアラウンドに対応するインシデント番号等が設定される。
【0038】
自動化処理装置20bは、障害テーブルta2のインシデントのうち、承認済み、かつ、未対処のインシデントを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10bに対して実行する。自動化処理装置20bは、ジョブの処理結果を、ITSMサーバ200に通知する。その他の説明は、自動化処理装置20aに関する説明と同様である。
【0039】
自動化処理装置20cは、障害テーブルta3のインシデントのうち、承認済み、かつ、未対処のレコードを特定し、特定したインシデントに設定されたワークアラウンドに対応するジョブを、顧客システム10cに対して実行する。自動化処理装置20cは、ジョブの処理結果を、ITSMサーバ200に通知する。その他の説明は、自動化処理装置20aに関する説明と同様である。
【0040】
以下の説明では、自動化処理装置20a~20cを特に区別しない場合、自動化処理装置20a~20cをまとめて「自動化処理装置20」と表記する。自動化処理装置20は、顧客システム10のツールの一例である。自動化処理装置20は、顧客システム10内に設定されていてもよいし、顧客システム10が、自動化処理装置20の機能を有していてもよい。
【0041】
上記のように、本実施例に係る障害対応システムは、監視サーバ100が、顧客システム10の障害情報を受信した場合に、インシデント発行要求を、ITSMサーバ200に行い、ITSMサーバ200は、障害情報に関する情報を、障害DB241に登録する。
【0042】
ここで、ITSMサーバ200は、障害の発生した顧客システム10の重要度と、ワークアラウンドの種別とを基にして、緊急度を算出する。ITSMサーバ200は、緊急度が閾値以上となる場合には、緊急の障害が発生していると判定し、自動音声による電話を承認者端末55にかける。一方、ITSMサーバ200は、緊急度が閾値未満となる場合には、翌日でも対応可能な障害が発生していると判定し、承認要求のメールを承認者端末55に送信する。
【0043】
このように、ITSMサーバ200は、緊急度を基にして、自動音声による電話またはメールによって、承認者端末55に承認要求を行う。これによって、緊急の障害が発生している場合には、電話によって、迅速に承認要求を行うことができ、翌日でも対応可能な障害が発生している場合には、承認者に即時対応を求めないメールによって、承認要求を行うことができる。すなわち、本実施例の障害対応システムによれば、顧客システムの障害対応を行うための承認を適切に得ることができる。
【0044】
また、本実施例に係る障害対応システムは、アウトバウンド通信によって、自動化処理装置20側から、ワークアラウンドを取得するため、インバウンド通信の場合と比較して、顧客システム10の障害対応をセキュアに実行することができる。
【0045】
次に、
図1で説明した自動化処理装置20の構成例について説明する。
図3は、本実施例に係る自動化処理装置の構成を示す機能ブロック図である。
図3に示すように、この自動化処理装置20a(20)は、通信部21と、記憶部24と、制御部25とを有する。
【0046】
通信部21は、ネットワーク50を介して、監視サーバ100、ITSMサーバ200との間で情報の送受信を行う。また、通信部21は、顧客システム10との間で情報の送受信を行う。通信部21は、NIC(Network Interface Card)等によって実現される。
【0047】
記憶部24は、処理テーブル24aを有する。たとえば、記憶部24は、メモリ等の記憶装置である。
【0048】
処理テーブル24aは、ワークアラウンドに対応するジョブを設定するテーブルである。
図4は、処理テーブルのデータ構造の一例を示す図である。
図4に示すように、この処理テーブル24aは、ワークアラウンドと、ジョブとを対応付ける。ワークアラウンドに関する説明は、上記のワークアラウンドに関する説明と同様である。ジョブは、複数のプログラムをまとめて連続して実行するひとつのかたまりである。また、ジョブは、複数のコード部品の実行順を定義したパーツに対応する。
【0049】
図3の説明に戻る。制御部25は、取得部25aと、実行部25bとを有する。制御部25は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等である。
【0050】
取得部25aは、所定時間毎に、ITSMサーバ200の障害DB241の障害テーブルta1にアクセスする。取得部25aは、ITSMサーバ200にアクセスする場合、ジョブの実行対象となる顧客システムのシステム識別番号を通知する。取得部25aは、障害テーブルta1のインシデントのうち、承認済み、かつ、未対処のインシデントのワークアラウンドを取得する。取得部25aは、インシデント番号もあわせて取得してもよい。取得部25aは、取得したワークアラウンドを、実行部25bに出力する。
【0051】
実行部25bは、取得部25aから取得したワークアラウンドと、処理テーブル24aとを比較し、ワークアラウンドに対応するジョブを特定する。実行部25bは、特定したジョブを、顧客システム10aに対して実行する。実行部25bは、処理結果を、ITSMサーバ200に送信する。処理結果には、インシデント番号と、ワークアラウンドに対応するジョブの実行に成功したか否かの情報が含まれる。
【0052】
ここで、実行部25bは、ジョブの実行に失敗した場合に、所定回数、ジョブの実行を再試行してもよい。実行部25bは、所定回数、ジョブを再試行しても、ジョブの実行に成功しない場合に、処理結果に、ワークアラウンドに対応するジョブの実行に失敗した旨の情報を設定し、ITSMサーバ200に送信する。
【0053】
自動化処理装置20b,20cの機能ブロック図は、
図3に示した自動化処理装置20aの機能ブロック図に対応するため、説明を省略する。
【0054】
次に、
図1で説明した監視サーバ100の構成例について説明する。
図5は、監視サーバの構成を示す機能ブロック図である。
図5に示すように、この監視サーバ100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
【0055】
通信部110は、ネットワーク50を介して、ITSMサーバ200、自動化処理装置20、顧客システム10と情報の送受信を行う。通信部110は、NIC等によって実現される。
【0056】
入力部120は、各種の情報を、監視サーバ100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0057】
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、顧客を表示する。
【0058】
記憶部140は、制御部150が処理を実行するための各種の情報を保持する。記憶部140は、メモリ等の記憶装置である。
【0059】
制御部150は、異常検知部151、依頼部152、表示制御部153を有する。制御部150は、たとえば、CPUやMPU等である。
【0060】
異常検知部151は、顧客システム10a~10cを監視し、障害が発生したか否かを検知する。たとえば、異常検知部151は、顧客システム10から障害情報を受信した場合、障害情報に設定されたシステム識別番号に対応する顧客システム10に障害が発生したことを検知する。異常検知部151は、受信した障害情報を、依頼部152、表示制御部153に出力する。
【0061】
異常検知部151は、データを顧客システム10に送信し、送信先の顧客システム10から応答がない場合に、顧客システム10の異常を検知してもよい。この場合、異常検知部151は、応答なしを示す障害コードと、異常を検知した顧客システム10のシステム識別番号を設定した障害情報を生成し、生成した障害情報を、依頼部152、表示制御部153に出力する。
【0062】
依頼部152は、異常検知部151から障害情報を取得した場合に、障害情報を設定したインシデント発行要求を、ITSMサーバ200に送信する。
【0063】
表示制御部153は、各種の情報を表示部130に表示させる。たとえば、表示制御部153は、障害情報を、表示部130に表示させる。表示制御部153は、ITSMサーバ200から、エラー情報を受信した場合には、エラー情報を、表示部130に表示させる。
【0064】
次に、
図1で説明したITSMサーバ200の構成例について説明する。
図6は、ITSMサーバの構成を示す機能ブロック図である。
図6に示すように、このITSMサーバ200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。
【0065】
通信部210は、ネットワーク50を介して、監視サーバ100、自動化処理装置20、顧客システム10と情報の送受信を行う。通信部110は、NIC等によって実現される。
【0066】
入力部220は、各種の情報を、ITSMサーバ200に入力する入力装置である。入力部220は、キーボードやマウス、タッチパネル等に対応する。
【0067】
表示部230は、制御部150から出力される情報を表示する表示装置である。表示部230は、液晶ディスプレイ、有機ELディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、顧客を表示する。
【0068】
記憶部240は、障害DB241、ワークアラウンド管理テーブル242、システムレベル管理テーブル243を保持する。記憶部240は、メモリ等の記憶装置である。
【0069】
障害DB241は、障害情報に関する情報を保持する。障害DB241のデータ構造は、
図2で説明したデータ構造に対応する。
【0070】
ワークアラウンド管理テーブル242は、障害コードによって識別される障害に対処するためのワークアラウンドを定義する。
図7は、ワークアラウンド管理テーブルのデータ構造の一例を示す図である。
図7に示すように、このワークアラウンド管理テーブル242は、障害コードと、種別と、ワークアラウンドとを対応付ける。障害コードは、障害を一意に識別する情報である。種別には、参照系、または、更新系が設定される。参照系のワークアラウンドは、顧客システム10の情報を参照するワークアラウンドである。更新系のワークアラウンドは、顧客システム10の情報を更新するワークアラウンドである。ワークアラウンドは、障害に対処するためのワークアラウンド名である。たとえば、障害コード「error1000」に対応するワークアラウンド(ワークアラウンド名)は「システム再起動」である。
【0071】
システムレベル管理テーブル243は、顧客システム10のシステムレベルの情報を保持する。
図8は、システムレベル管理テーブルのデータ構造の一例を示す図である。
図8に示すように、システムレベル管理テーブル243は、システム識別番号と、システムレベルとを対応付ける。システム識別番号は、顧客システム10を一意に識別する番号である。
【0072】
システムレベルは、顧客システムの障害が社会に与える重要性を示すレベルである。システムレベルが大きいほど、顧客システムの障害が社会に与える重要度が大きい。たとえば、顧客システム10のシステムレベルは、(1)、(2)、(3)の何れかとなる。システムレベル(1)の顧客システムは、「社会的影響が殆どないシステム」である。システムレベル(2)の顧客システムは、「社会的影響が限定されるシステム」である。システムレベル(3)の顧客システムは、「社会的影響が極めて大きいシステム」である。
【0073】
たとえば、システム識別番号「sys1」によって識別される顧客システム10aのシステムレベルは「システムレベル(1)」である。このため、顧客システム10aは、障害が発生した場合でも、「社会的影響が殆どないシステム」である。
【0074】
図6の説明に戻る。制御部250は、受信部251、登録部252、承認処理部253、アクセス受付部254を有する。制御部250は、たとえば、CPUやMPU等である。
【0075】
受信部251は、監視サーバ100からインシデント発行要求を受信した場合に、インシデント発行要求に設定された障害情報を、登録部252に出力する。
【0076】
登録部252は、障害情報を基にして、インシデントに関する情報を障害DB241に登録する。たとえば、登録部252は、障害情報を取得した場合に、ユニークなインシデント番号を生成する。登録部252は、障害情報に設定された障害コードと、ワークアラウンド管理テーブル242とを比較して、障害コードに対応するワークアラウンドを特定する。
【0077】
登録部252は、障害情報に設定されたシステム識別番号を基にして、インシデントを登録する障害テーブルを選択する。登録部252は、システム識別番号が「sys1」である場合には、障害テーブルta1を選択する。登録部252は、システム識別番号が「sys2」である場合には、障害テーブルta2を選択する。登録部252は、システム識別番号が「sys3」である場合には、障害テーブルta3を選択する。
【0078】
登録部252は、選択した障害テーブルに、インシデント(インシデント番号、障害情報の障害コード、ワークアラウンド、日時、承認済みフラグ<OFF>、対処フラグ<OFF>)を登録する。たとえば、登録部252は、インシデントの日時として、インシデント発行要求を受信した日時を設定する。
【0079】
承認処理部253は、障害DB241に、インシデントが登録された場合に、障害の発生した顧客システム10の重要度と、ワークアラウンドの種別に応じた値とを乗算することで、緊急度を算出する。
【0080】
承認処理部253は、インシデントに対応するシステム識別情報と、システムレベル管理テーブル243とを基にして、顧客システム10のシステムレベルを特定する。たとえば、承認処理部253は、顧客システムのシステムレベルがシステムレベル(1)の場合には、顧客システム10の重要度を「1」とする。承認処理部253は、顧客システムのシステムレベルがシステムレベル(2)の場合には、顧客システム10の重要度を「2」とする。承認処理部253は、顧客システムのシステムレベルがシステムレベル(3)の場合には、顧客システム10の重要度を「3」とする。
【0081】
また、承認処理部253は、インシデントに対応する障害コードと、ワークアラウンド管理テーブル242とを基にして、ワークアラウンドの種別を特定する。たとえば、承認処理部253は、ワークアラウンドの種別が「参照系」の場合には、種別に対応する値を「α」とする。承認処理部253は、ワークアラウンドの種別が「更新系」の場合には、種別に対応する値を「β」とする。ただし、αとβとの大小関係をα<βとする。
【0082】
たとえば、障害DB241の障害テーブルta1(システム識別番号:sys1)に、インシデント番号「inc_1」のレコードが登録された場合、顧客システムの重要度は「1」となり、障害コード「error1100」の種別(更新系)の値は「β」となる。この場合、承認処理部253は、緊急度「1×β」を計算する。
【0083】
承認処理部253は、緊急度が閾値以上である場合には、自動音声による電話を承認者端末55に発信する。承認処理部253は、自動音声として、該当するインシデント番号、障害コード、ワークアラウンド等を伝える音声と、承認を要求する旨の音声を設定する。承認者端末55の電話番号は、事前に設定される。
【0084】
一方、承認処理部253は、緊急度が閾値未満となる場合には、承認要求のメールを承認者端末55に送信する。承認処理部253は、承認要求のメールに、該当するインシデント番号、障害コード、ワークアラウンドの情報と、承認を要求する旨のテキストを設定する。承認者端末55のメールアドレスは、事前に設定される。
【0085】
承認処理部253は、承認要求の情報を送信した後、承認者端末55からの承認結果を受信する。承認結果には、ワークアラウンドに対応する処理を承認するか否かの情報が設定される。承認処理部253は、承認結果に「承認する」旨が設定されている場合には、承認済みフラグを「ON」に更新する。承認処理部253は、承認結果に「承認しない」旨が設定されている場合には、承認済みフラグを「OFF」のままとする。
【0086】
アクセス受付部254は、自動化処理装置20から、障害DB241に対するアクセスを受け付ける。この際、アクセス受付部254は、自動化処理装置20から通知されるシステム識別番号に対応する障害テーブルへのアクセスを許容する。たとえば、自動化処理装置20aの取得部25aは、障害テーブルta1から、承認済み、かつ、未対処のインシデントのワークアラウンドを取得する。
【0087】
また、アクセス受付部254は、自動化処理装置20から、ワークアラウンドに対する処理結果を受信する。たとえば、処理結果には、インシデント番号と、ワークアラウンドに対応するジョブの実行に成功したか否かの情報が含まれる。
【0088】
アクセス受付部254は、ジョブの実行に成功した旨の情報が処理結果に含まれる場合には、処理結果に含まれるインシデント番号に対応する対処フラグを「ON」に更新する。
【0089】
一方、アクセス受付部254は、ジョブの実行に失敗した旨の情報が処理結果に含まれる場合には、エラー情報を、監視サーバ100に送信する。エラー情報には、システム識別番号、対処に失敗したワークアラウンドに対応するインシデント番号等が設定される。
【0090】
次に、
図1に示した自動化処理装置20の処理手順の一例について説明する。
図9は、本実施例に係る自動化処理装置の処理手順を示すフローチャートである。
図9に示すように、自動化処理装置20の取得部25aは、一定時間経過していない場合には(ステップS101,No)、再度、ステップS101に移行する。
【0091】
取得部25aは、一定時間経過した場合には(ステップS101,Yes)、ITSMサーバ200の障害DB241にアクセスし、承認済み、かつ、未対処のインシデントが存在するか否かを判定する(ステップS102)。取得部25aは、承認済み、かつ、未対処のインシデントが存在しない場合には(ステップS103,No)、ステップS108に移行する。
【0092】
一方、取得部25aは、承認済み、かつ、未対処のインシデントが存在する場合には(ステップS103,Yes)、ワークアラウンドを取得する(ステップS104)。自動化処理装置20の実行部25bは、処理テーブル24aを基にして、ワークアラウンドに応じたジョブを選択する(ステップS105)。
【0093】
実行部25bは、顧客システム10aに対してジョブを実行する(ステップS106)。実行部25bは、ジョブの処理結果をITSMサーバ200に送信する(ステップS107)。
【0094】
自動化処理装置20は、処理を継続する場合には(ステップS108,Yes)、ステップS101に移行する。自動化処理装置20は、処理を継続しない場合には(ステップS108,No)、処理を終了する。
【0095】
次に、
図1に示した監視サーバ100およびITSMサーバ200の処理手順について説明する。
図10は、監視サーバおよびITSMサーバの処理手順を示すフローチャートである。監視サーバ100は、障害情報を検知しない場合には(ステップS201,No)、再度、ステップS201に移行する。
【0096】
一方、監視サーバ100は、障害情報を検知した場合には(ステップS201,Yes)、障害情報を設定したインシデント発行要求をITSMサーバ200に送信する(ステップS202)。
【0097】
ITSMサーバ200は、インシデント発行要求を受信する(ステップS203)。ITSMサーバ200は、インシデント番号を生成する(ステップS204)。
【0098】
ITSMサーバ200は、ワークアラウンド管理テーブル242を基にして、障害情報に対応するワークアラウンドを特定する(ステップS205)。ITSMサーバ200は、障害DB241にインシデントの情報を登録する(ステップS206)。ITSMサーバ200は、承認処理を実行する(ステップS207)。
【0099】
次に、
図10に示したITSMサーバ200が実行する承認処理の処理手順の一例について説明する。
図11は、承認処理を示すフローチャートである。
図11に示すように、ITSMサーバ200の承認処理部253は、システムレベル管理テーブル243を基にして、顧客システム10の重要度を特定する(ステップS301)。
【0100】
承認処理部253は、ワークアラウンド管理テーブル242を基にして、ワークアラウンドの種別に対応する値を特定する(ステップS302)。承認処理部253は、顧客システム10の重要度と、ワークアラウンドの種別に対応する値とを乗算することで、緊急度を算出する(ステップS303)。
【0101】
承認処理部253は、緊急度が閾値以上の場合には(ステップS304,Yes)、承認者端末55に電話を発信し、自動音声を再生し(ステップS305)、ステップS307に移行する。
【0102】
一方、承認処理部253は、緊急度が閾値未満の場合には(ステップS304,No)、承認者端末55にメールを送信し(ステップS306)、ステップS307に移行する。
【0103】
承認処理部253は、承認者端末5から承認結果の情報を受信し、承認結果を基にして、承認済みフラグを更新する(ステップS307)。
【0104】
次に、本実施例に係る障害対応システムの効果について説明する。障害対応システムは、監視サーバ100が、顧客システム10の障害情報を受信した場合に、インシデント発行要求を、ITSMサーバ200に行い、ITSMサーバ200は、障害情報に関する情報を、障害DB241に登録する。
【0105】
ここで、ITSMサーバ200は、障害の発生した顧客システム10の重要度と、ワークアラウンドの種別とを基にして、緊急度を算出する。ITSMサーバ200は、緊急度が閾値以上となる場合には、緊急の障害が発生していると判定し、自動音声による電話を承認者端末55にかける。一方、ITSMサーバ200は、緊急度が閾値未満となる場合には、翌日でも対応可能な障害が発生していると判定し、承認要求のメールを承認者端末55に送信する。
【0106】
このように、ITSMサーバ200は、緊急度を基にして、自動音声による電話またはメールによって、承認者端末55に承認要求を行う。これによって、緊急の障害が発生している場合には、電話によって、迅速に承認要求を行うことができ、翌日でも対応可能な障害が発生している場合には、承認者に即時対応を求めないメールによって、承認要求を行うことができる。すなわち、本実施例の障害対応システムによれば、顧客システムの障害対応を行うための承認を適切に得ることができる。
【0107】
障害対応システムは、アウトバウンド通信によって、自動化処理装置20側から、ワークアラウンドを取得するため、インバウンド通信の場合と比較して、顧客システム10の障害対応をセキュアに実行することができる。
【0108】
ところで、上述した障害対応システムの処理の内容は一例である。以下では、障害対応システムのその他の処理1~3について説明する。
【0109】
障害対応システムのその他の処理1について説明する。上述したITSMサーバ200の承認処理部253は、顧客システムの重要度と、ワークアラウンドの種別の値とを乗算することで、緊急度を算出していたがこれに限定されるものではない。たとえば、承認処理部253は、障害DB241の障害テーブルに格納されたインシデントの日時を更に用いて、緊急度を補正してもよい。
【0110】
承認処理部253は、インシデントの日時(あるいは、インシデントの障害が発生した時刻)が営業時間(たとえば、9:00~17:00)、または、土日祝日に含まれる場合には、緊急度を所定値増加される補正を行う。一方、承認処理部253は、インシデントの日時が営業時間、および、土日祝日に含まれない場合には、緊急度を所定値減少させる補正を行う。これによって、インシデントの日時が営業時間に含まれる場合には、承認要求を電話で行う確度を高めて、迅速に、承認結果を得ることができる。一方、インシデントの日時が営業時間に含まれない場合には、承認要求をメールで行う確度を高めて、営業時間外における承認者の負担を軽減させることができる。
【0111】
障害対応システムのその他の処理2について説明する。障害対応システムは、承認者端末55以外の承認者端末が含まれていてもよい。たとえば、第1の承認者が利用する承認者端末55a、第2の承認者が利用する承認者端末55b、第3の承認者が利用する承認者端末55cが含まれていてもよい。承認者端末55a~55cの電話番号、メールアドレスは、ITSMサーバ200に事前に設定されているものとする。
【0112】
承認処理部253は、電話による承認要求あるいはメールによる承認要求を、同一の承認者端末に集中しないように、順番に、承認要求を、各承認者端末55a~55cに対して実行してもよい。また、承認処理部253は、緊急度の大きさに応じて、承認要求を行う承認端末を選択してもよい。たとえば、承認処理部253は、閾値Th1以上の場合には、承認者端末55aに承認要求を行い、閾値Th1未満、閾値Th2以上の場合には、承認者端末55bに承認要求を行い、閾値Th2未満の場合には、承認者端末55cに承認要求を行う(ただし、閾値Th1は、閾値Th2よりも大きい閾値とする)。これによって、緊急度の大きさに応じて、承認者を切替えることができる。
【0113】
障害対応システムのその他の処理3について説明する。上記の第1~第3の承認者は、承認者端末55a~55cに、「休憩中」、「睡眠中」等の所定のフラグを設定してもよい。この場合に、承認処理部253は、上記の所定のフラグが設定されていない承認者端末に対して、承認要求を行ってもよい。これによって、承認要求に対応しやすい承認者の承認者端末に、承認要求を送信することができる。
【0114】
次に、上記実施例に示した監視サーバ100、ITSMサーバ200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。
図12は、実施例の監視サーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0115】
図12に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、顧客システム10、自動化処理装置20、ITSMサーバ200等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
【0116】
ハードディスク装置307は、異常検知プログラム307a、依頼プログラム307b、表示制御プログラム307cを有する。また、CPU301は、各プログラム307a~307cを読み出してRAM306に展開する。
【0117】
異常検知プログラム307aは、異常検知プロセス306aとして機能する。依頼プログラム307bは、依頼プロセス306bとして機能する。表示制御プログラム307cは、表示制御プロセス306cとして機能する。
【0118】
異常検知プロセス306aの処理は、異常検知部151の処理に対応する。依頼プロセス306bの処理は、依頼部152の処理に対応する。表示制御プロセス306cの処理は、表示制御部153の処理に対応する。
【0119】
なお、各プログラム307a~307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307cを読み出して実行するようにしてもよい。
【0120】
続いて、
図13の説明に移行する。
図13は、実施例のITSMサーバと同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0121】
図13に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、有線または無線ネットワークを介して、顧客システム10、自動化処理装置20、監視サーバ100等との間でデータの授受を行う通信装置404と、インタフェース装置405とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401~407は、バス408に接続される。
【0122】
ハードディスク装置407は、受信プログラム407a、登録プログラム407b、承認処理プログラム407c、アクセス受付プログラム407dを有する。また、CPU401は、各プログラム407a~407dを読み出してRAM406に展開する。
【0123】
受信プログラム407aは、受信プロセス406aとして機能する。登録プログラム407bは、登録プロセス406bとして機能する。承認処理プログラム407cは、承認処理プロセス406cとして機能する。アクセス受付プログラム407dは、アクセス受付プロセス406dとして機能する。
【0124】
受信プロセス406aの処理は、受信部251の処理に対応する。登録プロセス406bの処理は、登録部252の処理に対応する。承認処理プロセス406cの処理は、承認処理部253の処理に対応する。アクセス受付プロセス406dの処理は、アクセス受付部255の処理に対応する。
【0125】
なお、各プログラム407a~407dについては、必ずしも最初からハードディスク装置407に記憶させておかなくても良い。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ400が各プログラム407a~407dを読み出して実行するようにしてもよい。