(58)【調査した分野】(Int.Cl.,DB名)
複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が影響を与えるサービスとを対応付けた影響範囲情報に基づいて、インシデントが発生した前記監視対象機器によって提供されるサービスを特定する特定部と、
前記特定部により特定されたサービスの利用可能状況を確認する確認部と、
前記確認部の確認結果に基づいて、前記特定部により特定されたサービスに対する前記インシデントの影響度を判定する判定部と、
対処者が前記インシデントに対処する際に、前記対処者が前記インシデントに対処するために実施可能な操作範囲を前記影響度に基づいて導出する導出部と、
を備えた対処者支援装置。
複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が影響を与えるサービスとを対応付けた影響範囲情報に基づいて、インシデントが発生した前記監視対象機器によって提供されるサービスを特定し、
特定されたサービスの利用可能状況を確認し、
特定されたサービスに対する前記インシデントの影響度を、確認結果に基づいて判定し、
対処者が前記インシデントに対処する際に、前記対処者が前記インシデントに対処するために実施可能な操作範囲を前記影響度に基づいて導出する、
処理をコンピュータに実行させるための対処者支援プログラム。
複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が影響を与えるサービスとを対応付けた影響範囲情報に基づいて、インシデントが発生した前記監視対象機器によって提供されるサービスを特定し、
特定されたサービスの利用可能状況を確認し、
特定されたサービスに対する前記インシデントの影響度を、確認結果に基づいて判定し、
対処者が前記インシデントに対処する際に、前記対処者が前記インシデントに対処するために実施可能な操作範囲を前記影響度に基づいて導出する、
処理を含む対処者支援方法。
【発明を実施するための形態】
【0014】
以下、本実施形態について、図面を参照して説明する。まず、本実施形態の対処者支援システムの構成について説明する。
図1に、本実施形態の対処者支援システムの一例の概略構成を表すブロック図を示す。
【0015】
図1に示すように、本実施形態の対処者支援システム10は、仮想機器12A〜12E、監視装置14、仮想環境管理装置16、稼働確認装置18、操作端末20、警報装置22、及び記憶装置24を備える。なお、以下では、仮想機器12A〜12Eの個々を区別する場合は、個々を区別するための符号「A」〜「E」を符号に付し、個々を区別せずに総称する場合は、「仮想機器12」という。また、個々を区別する場合は、「仮想機器A」等と、個々を区別するための符号を名称に付して表記する場合がある。
【0016】
本実施形態の監視装置14、仮想環境管理装置16、及び稼働確認装置18が本開示の対処者支援装置の一例である。
【0017】
仮想機器12、監視装置14、仮想環境管理装置16、稼働確認装置18、及び記憶装置24は、LAN(Local Area Network)等のネットワーク26に接続される。また、操作端末20及び警報装置22は、WAN(Wide Area Network)等のネットワーク28に接続される。また、ネットワーク28は、ネットワーク26に接続される。
【0018】
本実施形態の対処者支援システム10は、仮想機器12で発生したインシデントに対処する対処者(以下、「オペレータ」という)を支援する機能を有する。なお、「インシデント」とは、仮想機器12において発生した事項のうち、対処者による何らかの対応を要することが予め定められた事項のことをいい、仮想機器12において発生した障害等を含むが、障害に至らないまたは障害ではない事項も含む。
【0019】
仮想機器12は、1つ以上のサービスを提供する。なお、各仮想機器12が提供するサービスの種類、及びサービスの数等は特に限定されない。
【0020】
監視装置14は、仮想機器12におけるインシデントの発生を監視し、インシデントが発生したことを検知した場合は、その旨を報知するアラームを出力する。
【0021】
図2には、本実施形態の監視装置14の一例の機能ブロック図を示す。
図2に示すように、監視装置14は、受信部50、検知部52、及び出力部54を含む。
【0022】
受信部50は、仮想機器12から送信されたインシデントの発生を検知するための情報を受信する。検知部52は、受信部50が受信したインシデントの発生を検知するための情報に基づいて、インシデントの発生を検知する。検知部52が、インシデントの発生を検知する方法は特に限定されず、例えば、仮想機器12から稼働中のプロセスを示す情報や、システムログやアップリケーションログ等のログ情報に基づいて検知してもよい。また例えば、監視対象に応じたpingの応答に関する情報に基づいて検知してもよい。また例えば、仮想機器12のCPU、メモリ、ディスク等(いずれも図示省略)の使用(稼働)状況等のリソース情報に基づいて検知してもよい。また例えば、仮想機器12から送信されたSNMP(Simple Network Management Protocol)トラップを解析することにより検知してもよい。出力部54は、検知部52がインシデントの発生を検知した場合に、その旨を報知するアラームを稼働確認装置18及び警報装置22に出力する。
【0023】
図3には、本実施形態の監視装置14の一例のハードウェア構成を表すブロック図を示す。
【0024】
図3に示すように、監視装置14は、CPU(Central Processing Unit)100、ROM(Read Only Memory)102、RAM(Random Access Memory)104、通信I/F(InterFace)106、及び記憶部108を備える。
【0025】
CPU100は、ROM102に格納されている各種プログラムを実行することにより、監視装置14の動作を制御する。ROM102は、上記のようにCPU100で実行される各種プログラム103や各種パラメータ等が予め記憶されている。RAM104は、CPU100による各種プログラムの実行時のワークエリア等として用いられる。通信I/F106は、ネットワーク26、28を介して、他の装置及び機器等と通信を行うためのインターフェースである。記憶部108は、HDD(Hard Disk Drive)等の不揮発性の記憶部である。
【0026】
CPU100、ROM102、RAM104、通信I/F106、及び記憶部108の各部は、バス109を介して互いに接続されている。
【0027】
一方、仮想環境管理装置16は、サーバ、ストレージ、及びネットワーク等のハードウェアを抽象化した仮想化環境を管理するための装置であり、本実施形態では、複数のサービスについて、サービスを提供する仮想機器を同じ環境で管理することができる。
【0028】
図4には、本実施形態の仮想環境管理装置16の一例の機能ブロック図を示す。
図4に示すように、仮想環境管理装置16は、受信部60、導出部62、実施部64、及び出力部66を含む。
【0029】
受信部60は、稼働確認装置18から提示された暫定策等の各種情報を受信する。また受信部60は、操作端末20から各種情報等を受信する。導出部62は、オペレータが操作端末20によりインシデントに対処する際に、インシデントに対処する暫定策を実施するためにオペレータが実施可能な操作範囲を、影響度(詳細後述)に基づいて導出する。また、本実施形態の導出部62は、導出した操作範囲に基づいて、オペレータが行った操作に応じた暫定策の実施可否を判定する。実施部64は、暫定策の実施が可能であると導出部62が判定した場合に、操作端末20を介して行われるオペレータの操作に応じて当該暫定策を実施する。出力部66は、実施部64による暫定策の実施に関する各種情報を出力する。
【0030】
図5には、本実施形態の仮想環境管理装置16の一例のハードウェア構成を表すブロック図を示す。
【0031】
図5に示すように、仮想環境管理装置16は、CPU110、ROM112、RAM114、通信I/F116、及び記憶部118を備える。
【0032】
CPU110は、ROM112に格納されている各種プログラムを実行することにより、仮想環境管理装置16の動作を制御する。ROM112は、上記のようにCPU110で実行される、後述する暫定策実施処理プログラムを含む各種プログラム113や各種パラメータ等が予め記憶されている。RAM114は、CPU110による各種プログラムの実行時のワークエリア等として用いられる。通信I/F116は、ネットワーク26、28を介して、他の装置及び機器等と通信を行うためのインターフェースである。記憶部118は、HDD等の不揮発性の記憶部である。
【0033】
CPU110、ROM112、RAM114、通信I/F116、及び記憶部118の各部は、バス119を介して互いに接続されている。
【0034】
一方、稼働確認装置18は、監視装置14から出力されたアラームの内容に応じて、影響を与えるサービスの範囲(いずれのサービスに影響を与えるか)を判定し、当該サービスが利用可能か否かを確認する。
【0035】
図6には、本実施形態の稼働確認装置18の一例の機能ブロック図を示す。
図6に示すように、稼働確認装置18は、受信部70、特定部72、確認部74、判定部76、提示部78、及び出力部80を含む。
【0036】
受信部70は、インシデントが発生したことを表すアラームや稼働確認指示等を受信する。特定部72は、詳細を後述する影響範囲情報30に基づいて、インシデントが影響を与える範囲を特定する。確認部74は、詳細を後述する稼働確認判定情報32に基づいて、サービスが正常に稼働しているか否かを確認する。判定部76は、確認部74の確認結果、及び詳細を後述する稼働確認判定情報32または影響度管理情報36に基づいて、影響度が1〜4のいずれであるかを判定する。提示部78は、詳細を後述する操作範囲情報38に基づいて、選択した暫定策を表す情報等を提示する。出力部80は、確認部74の確認結果を表す情報や提示部78で提示された暫定策を表す情報等を出力する。
【0037】
図7には、本実施形態の稼働確認装置18の一例のハードウェア構成を表すブロック図を示す。
【0038】
図7に示すように、稼働確認装置18は、CPU120、ROM122、RAM124、通信I/F126、及び記憶部128を備える。
【0039】
CPU120は、ROM122に格納されている各種プログラムを実行することにより、稼働確認装置18の動作を制御する。ROM122は、上記のようにCPU120で実行される、影響度更新プログラム、及びインシデント対策処理プログラムを含む各種プログラム123や各種パラメータ等が予め記憶されている。なお、影響度更新プログラム、インシデント対策処理プログラム、及び仮想環境管理装置16のROM112に格納されているプログラム113に含まれる暫定策実施処理プログラムが、本開示の対処者支援プログラムの一例である。
【0040】
RAM124は、CPU120による各種プログラムの実行時のワークエリア等として用いられる。通信I/F126は、ネットワーク26、28を介して、他の装置及び機器等と通信を行うためのインターフェースである。記憶部128は、HDD等の不揮発性の記憶部である。
【0041】
CPU120、ROM122、RAM124、通信I/F126、及び記憶部128の各部は、バス129を介して互いに接続されている。
【0042】
一方、操作端末20は、オペレータがインシデントに対処するために操作する装置である。警報装置22は、監視装置14がインシデントの発生を検知した場合に、インシデントが発生した旨を対処者に報知するための装置である。なお、警報装置22における報知方法は特に限定されず、例えば、可視表示及び可聴表示の少なくとも一方とすることができる。なお、操作端末20及び警報装置22は、対処者支援システム10が備える他の装置及び機器等と離れた場所に設けられていてもよい。また、警報装置22は、操作端末20の内部に設けられていてもよい。
【0043】
図8には、本実施形態の操作端末20の一例のハードウェア構成を表すブロック図を示す。
【0044】
図8に示すように、操作端末20は、CPU130、ROM132、RAM134、通信I/F136、記憶部138、表示部140、及び入力部142を備える。
【0045】
CPU130は、ROM132に格納されている各種プログラムを実行することにより、操作端末20の動作を制御する。ROM132は、上記のようにCPU130で実行される各種プログラム133や各種パラメータ等が予め記憶されている。RAM134は、CPU130による各種プログラムの実行時のワークエリア等として用いられる。通信I/F136は、ネットワーク26、28を介して、他の装置及び機器等と通信を行うためのインターフェースである。記憶部138は、HDD等の不揮発性の記憶部である。
【0046】
また、表示部140は、オペレータに対して各種情報を可視表示及び可聴表示の少なくとも一方により表示するものであり、例えば、液晶ディスプレイやスピーカ等である。入力部142は、オペレータが各種指示等を入力するために用いられるものであり、例えば、キーボード、マウス、及びマイク等が挙げられる。なお、表示部140と入力部142とを一体化してタッチパネルディスプレイとしてもよい。
【0047】
CPU130、ROM132、RAM134、通信I/F136、及び記憶部138、表示部140、及び入力部142の各部は、バス149を介して互いに接続されている。
【0048】
一方、
図1に示すように本実施形態の記憶装置24は、影響範囲情報30、稼働確認判定情報32、影響度管理情報36、操作範囲情報38、及びアカウント管理情報40等の各種情報を記憶するものであり、例えば、HDD等である。
【0049】
図9には、影響範囲情報30の一例を示す。
図9に示すように、影響範囲情報30は、アラーム(インシデント)の発生箇所となる仮想機器12の各々と、インシデントの影響箇所と、複数のサービスのうちの仮想機器12が提供するサービスとが対応付けられた情報を含む。
図9に示した例では、仮想機器12毎に、「○」が記載されているサービスが提供されることを示す。本実施形態では、仮想機器12が提供するサービスを、当該機器におけるインシデントの発生により影響を受けるサービスとみなしている。
【0050】
例えば、
図9に示す「仮想機器A」は、サービスAを提供することを示し、「仮想機器A」でアラームが発生した場合は、その影響箇所はサーバであり、サービスAに影響を与えることを示す。また、例えば、
図9に示す「仮想機器D」は、サービスA及びBを提供することを示し、「仮想機器D」でアラームが発生した場合は、その影響箇所はネットワークあり、サービスA及びBに影響を与えることを示す。なお、影響範囲情報30は、例えば、
図9に示すようなマトリクス状の表を操作端末20の表示部140(図示省略)に表示し、オペレータ等が仮想機器12毎に提供するサービスのチェックボックスを入力部142を用いてチェックすることによって作成される。
【0051】
また、
図10には、稼働確認判定情報32の一例を示す。
図10に示すように、稼働確認判定情報32は、サービス毎に対応付けられた、各影響箇所に応じた各サービスの稼働を確認するために稼働確認装置18が行う確認処理及び確認処理の結果に応じた影響度を表す情報を含む。例えば、
図10では、サービスAにおいて、影響箇所がサーバである場合の確認処理は、「http://aaa.bbb.cc/」というURL(Uniform Resource Locator)にアクセスする処理であることを表している。さらに、稼働確認装置18が当該処理を実行することにより、サービスAが正常に稼働した場合(OK)は、影響度が2であり、正常に稼働しなかった場合(NG)は、影響度が3であることを表している。
【0052】
また、例えば、
図10では、サービスAにおいて、影響箇所がネットワークである場合の確認処理は、仮想機器12Dにpingを実行する処理であることを表している。さらに、稼働確認装置18が当該処理を実行することにより、サービスAが正常に稼働した場合(OK)は、影響度が2であり、正常に稼働しなかった場合(NG)は、影響度が4であることを表している。
【0053】
なお、本実施形態において「影響度」とは、インシデントが与える影響の度合いを表しており、本実施形態では一例として、以下の4段階が予め定義されている。なお、本実施形態では、影響度を表す数字が小さくなるほど、影響度が低いことを表している。
影響度1:サービスが正常に稼動中で、対処が不要。
影響度2:サービスは正常稼働中であるが、原因調査又は対処が必要。
影響度3:サービスの一部の機能に影響あり。
影響度4:サービスの全機能に影響あり。
【0054】
なお、サービスの稼働を確認するために稼働確認装置18が行う確認処理は、
図10に例示した処理に限定されない。例えば、サービスFに対応する「ddd.co.jp」のSMTP(Simple Mail Transfer Protocol)サービスで使用されるポート番号のポートに対して、telnet接続を行う処理であってもよい。また例えば、サービスがFTP(File Transfer Protocol)サービスの場合は、FTPクライアントを制御してFTP接続を行う処理であってもよい。また例えば、サービスがSIP(Session Initiation Protocol)サービスの場合は、SIPクライアントを制御してSIP接続を行う処理であってもよい。また例えば、サービスに合わせて専用に作りこまれた処理であってもよい。また、1つのサービス及び影響箇所の組合せに対して複数の処理が対応していてもよい。
【0055】
また、
図11には、影響度管理情報36の一例を示す。
図11に示すように、影響度管理情報36は、サービス及び影響箇所の組合せと、影響度とを対応付けた情報である。例えば、
図11では、サービスAにおいて、影響箇所がサーバである場合の影響度が1であり、影響箇所がネットワークである場合の影響度が1であることを表している。
【0056】
本実施形態では、稼働確認装置18により、予め定められたタイミングで定期的に(一例として5分間間隔)全てのサービス及び影響箇所における影響度が判定され、影響度管理情報36が更新される。
【0057】
また、
図12には、操作範囲情報38の一例を示す。
図12に示すように、操作範囲情報38は、サービスの種類と、各影響度と、オペレータが実施可能な操作範囲とを対応付けた情報である。
図12は、暫定策として、「ログ取得」、「サービス再起動」、及び「サーバ再起動」の3種類が存在する場合の一例である。
図12では、「○」が付与された操作(暫定策)は実施か可能であることを表し、「×」が付与された操作は実施が不可であることを表している。例えば、サービスAにおいて、影響度が1の場合、3種類ある暫定策のいずれについても実施か不可であることを表している。一方、影響度が3の場合、「ログ取得」及び「サービス再起動」の実施は可能であるが、「サーバ再起動」の実施は不可であることを表している。
【0058】
図12に示すように本実施形態の操作範囲情報38は、影響度が低くなるほど、実施が不可となる操作が多くなる。これは、影響度が低い場合には、実施しない方が好ましい暫定策があるためである。例えば、サービスが殆ど正常に稼働している場合に、当該サービスに応じたサーバを再起動してしまうと、当該サービスや当該サービスを提供している仮想機器12に不要な影響を与えてしまう場合がある。このような場合は、暫定策としてサーバの再起動を実施することは好ましくない。そのため、本実施形態では、
図12に示した操作範囲情報38が示すように、オペレータが操作可能な操作範囲を、影響度が低くなるほど狭い範囲としている。
【0059】
また、
図13には、アカウント管理情報40の一例を示す。
図13に示すように、アカウント管理情報40は、オペレータを識別するためのアカウント(識別情報:ID(Identification))と各サービスにおける操作権限との対応関係を表す情報である。
図13では、例えば、IDが「UserA」のオペレータは、サービスA〜Dのいずれに対しても管理者権限を有していることを表している。また例えば、IDが「UserE」のオペレータは、サービスCに対して一般権限を有しているが、その他のサービスに対しては操作権限を有していないことを表している。なお、本実施形態では、管理者権限を有しているオペレータは、影響度を考慮せず、全ての暫定策の実施が許可されている。また、一般権限を有しているオペレータは、影響度を考慮して操作範囲内における暫定策の実施が許可されている。また、操作権限を有していないオペレータは、全ての暫定策の実施を禁止されている。
【0060】
次に、本実施形態の対処者支援システム10における仮想環境管理装置16及び稼働確認装置18の作用を説明する。
【0061】
本実施形態の対処者支援システム10では、上述したように、インシデントの発生の有無にかかわらず、定期的に影響度管理情報36(
図11参照)の更新が稼働確認装置18によって行われる。まず、稼働確認装置18によって行われる影響度管理情報36の更新について説明する。稼働確認装置18のCPU120がROM122に格納されている影響度更新プログラムを実行することによって、
図14に示す影響度更新処理が実行される。CPU120は、影響度更新プログラムを実行することによって、
図6に示した確認部74、判定部76、及び出力部80として機能する。また、
図14に示した影響度更新処理は、例えば、稼働確認装置18の電源スイッチがオン状態とされた場合に実行される。
【0062】
ステップS10で確認部74が、所定のタイミングに達したか否かを判定する。所定のタイミングに達していない場合、ステップS10の判定が否定判定となる。一方、所定のタイミングに達した場合、ステップS10の判定が肯定判定となり、ステップS12へ移行する。
【0063】
ステップS12で確認部74は、対処者支援システム10に係わる複数のサービスのうちから、稼働を確認する1つを選択する。一例として、本実施形態では、サービスA〜Dのうちのいずれか1つを選択する。さらに次のステップS14で確認部74は、選択したサービスに係わる影響箇所を1つ選択する。一例として、本実施形態では、サーバ及びネットワークの何れかを選択する。
【0064】
次のステップS18で確認部74は、選択したサービス及び影響箇所に応じた稼働確認を行う。本ステップにおいて確認部74が稼働確認を行う方法は特に限定されないが、一例として本実施形態の確認部74は、稼働確認判定情報32(
図10参照)を参照し、選択したサービス及び影響箇所に対応する確認処理を実行する。
【0065】
次のステップS18で判定部76は、上記S16で行った稼働確認の確認結果に応じて、選択したサービス及び影響箇所における影響度が影響度1〜4のいずれであるか判定する。一例として本実施形態の判定部76は、正常に稼働していることを表す確認結果の場合、影響度を「1」と判定する。また、判定部76は、正常に稼働していないことを表す確認結果の場合、稼働確認判定情報32(
図10参照)の「NG」を参照して影響度を判定する。
【0066】
なお、本ステップにおいて判定部76が影響度の判定を行う方法は上記に限定されない。例えば、連続して正常に稼働していないことが確認された回数が多くなるほど、影響度を高くしてもよい。また例えば、上記サービスを提供する仮想機器12に応じて、影響度を異ならせてもよい。また例えば、インシデント(アラーム)が発生してから所定期間内は、当該インシデントに対応するサービスについては、例えば、影響度を「1」まで引き下げない等と、影響度の更新を制限してもよい。
【0067】
次のステップS20で判定部76は、出力部80を介して、記憶装置24に記憶されている影響度管理情報36の影響度を、上記ステップS18の判定結果に基づいて更新する。
【0068】
次のステップS22で確認部74は、未選択の影響箇所が有るか否かを判定する。未選択の影響箇所が有る場合、ステップS22の判定が肯定判定となり、ステップS14に戻り、ステップS14〜S20の各処理を繰り返す。一方、未選択の影響箇所が無い場合、ステップS22の判定が否定判定となり、ステップS24へ移行する。
【0069】
ステップS24で確認部74は、未選択のサービスが有るか否かを判定する。未選択のサービスが有る場合、ステップS24の判定が肯定判定となり、ステップS12に戻り、ステップS12〜S22の各処理を繰り返す。一方、未選択のサービスが無い場合、ステップS24の判定が否定判定となり、ステップS10に戻り、本影響度更新処理を繰り返す。
【0070】
なお、影響度更新処理は、
図14に例示した処理に限定されない。例えば、各サービス及び影響箇所毎に判定部76が影響度管理情報36を更新する形態に替えて、全てのサービス及び影響箇所における稼働確認及び影響度判定を行った後、一括して影響度管理情報36を更新してもよい。
【0071】
次に、仮想機器12においてインシデントが発生した場合の仮想環境管理装置16及び稼働確認装置18の作用について説明する。
【0072】
上述したように、監視装置14は、インシデントが発生したことを検知するとその旨を報知するアラームを、ネットワーク26、28を介して稼働確認装置18に出力する。当該アラームを受信すると、稼働確認装置18のCPU120がROM122に格納されているインシデント対策処理プログラムを実行することによって、
図15に示すインシデント対策処理が実行される。CPU120は、インシデント対策処理プログラムを実行することによって、
図6に示した特定部72、確認部74、判定部76、提示部78、及び出力部80として機能する。なお、
図15に示したインシデント対策処理と、上記影響度更新処理(
図14参照)とは、別立てで実行される。
【0073】
ステップS100で特定部72は、影響範囲情報30(
図9参照)に基づいて、アラーム発生場所に応じた、影響範囲(影響箇所及びサービス)を特定する。
【0074】
次のステップS102で確認部74は、稼働確認判定情報32(
図10参照)に基づき、上記ステップS100で特定したサービスに対応する確認処理を実行し、稼働確認を行う。
【0075】
次のステップS104で判定部76は、上記ステップS102の確認結果、及び稼働確認判定情報32(
図10参照)に基づき、影響度を判定する。
【0076】
次のステップS106で提示部78は、操作範囲情報38(
図12参照)に基づいて、上記ステップS100で特定したサービス及び上記ステップS104で判定した影響度に対応する、実施可能な暫定策を特定する。
【0077】
次のステップS108で提示部78は、実施可能な暫定策が有ったか否かを判定する。本実施形態では、サービスの種類及び影響度によっては、実施可能な暫定策が無い場合がある。例えば、
図12に示した操作範囲情報38では、「サービスD」において影響度が「2」である場合、実施可能な暫定策が無い。実施可能な暫定策が無い場合、ステップS108の判定が否定判定となり、ステップS112へ移行する。
【0078】
ステップS112で提示部78は、暫定策が無いことを表す情報を出力部80からネットワーク26、28を介して操作端末20に出力した後、本インシデント対策処理を終了する。なお、本実施形態では、一例として、提示部78は、暫定策が無いことを表す情報と共に、上記ステップS100で特定したサービスの種類、及び上記ステップS104で判定した影響度を表す情報も出力する。
【0079】
図16には、操作端末20の表示部140において、上記ステップS112の処理により出力された情報に応じて表示される情報の一例を示す。
図16に示すように、表示部140には、インシデントが発生したサービス、その影響度、及び実施可能な暫定策が無い旨の情報200が表示される。当該情報200の表示は、オペレータにより、入力部142によって、表示部140に表示されたボタン(OKボタン)202が押圧(指定)されると終了する。
【0080】
なお、本実施形態の対処者支援システム10では、このように暫定策が無い場合は、例えば、オペレータは、インシデントが発生しているサービスや仮想機器12の専門の担当者や上司等の他の人物とエスカレーションを行う等の対処を行う。
【0081】
一方、実施可能な暫定策が有る場合、ステップS108の判定が肯定判定となり、ステップS110へ移行する。ステップS110で提示部78は、暫定策が有ることを表す情報を出力部80からネットワーク26、28を介して操作端末20に出力する。なお、本実施形態では、一例として、提示部78は、実施可能な暫定策を表す情報と共に、上記ステップS100で特定したサービスの種類、及び上記ステップS104で判定した影響度を表す情報も出力する。
【0082】
図17には、操作端末20の表示部140において、上記ステップS110の処理により出力された情報に応じて表示される情報の一例を示す。
図17に示すように、表示部140には、インシデントが発生したサービス、その影響度、及び実施可能な暫定策を表す情報206が表示される。当該情報206の表示は、オペレータにより、入力部142によって、表示部140に表示されたボタン(OKボタン)208が押圧(指定)されると終了する。
【0083】
図17に示した表示に応じて、オペレータは、操作端末20を操作し、仮想環境管理装置16を介して暫定策を実施し、サービスの稼働を確認するための稼働確認指示を行う(詳細後述)。当該稼働確認指示は、操作端末20からネットワーク26、28を介して稼働確認装置18に出力される。
【0084】
そこで、ステップS114で確認部74は、稼働確認指示を受信したか否かを判定する。稼働確認指示を受信していない場合、ステップS114の判定が否定判定となる。一方、稼働確認指示を受信した場合、ステップS114の判定が肯定判定となり、ステップS116へ移行する。
【0085】
ステップS116で確認部74は、上記ステップS102と同様に稼働確認を行う。
【0086】
次のステップS118で確認部74は、正常に稼働したか否かを判定する。正常に稼働したか否かを判定する。正常に稼働した場合、ステップS118の判定が肯定判定となり、ステップS120へ移行する。ステップS120で確認部74は、正常に稼働したことを表す情報(OK情報)を出力部80からネットワーク26、28を介して操作端末20に出力した後、本インシデント対策処理を終了する。
【0087】
図18には、操作端末20の表示部140において、上記ステップS120の処理により出力された情報に応じて表示される情報の一例を示す。
図18に示すように、表示部140には、実施した暫定策、及び正常に稼働したことを表す情報210が表示される。当該情報210の表示は、オペレータにより、入力部142によって、表示部140に表示されたボタン(OKボタン)212が押圧(指定)されると終了する。
【0088】
一方、正常に稼働しなかった場合、ステップS118の判定が否定判定となり、ステップS122へ移行する。ステップS122で確認部74は、正常に稼働しなかったことを表す情報(NG情報)を出力部80からネットワーク26、28を介して操作端末20に出力した後、本インシデント対策処理を終了する。
【0089】
図19には、操作端末20の表示部140において、上記ステップS122の処理により出力された情報に応じて表示される情報の一例を示す。
図19に示すように、表示部140には、実施した暫定策、及び正常に稼働しなかったことを表す情報210が表示される。当該情報216の表示は、オペレータにより、入力部142によって、表示部140に表示されたボタン(OKボタン)218が押圧(指定)されると終了する。
【0090】
一方、オペレータは、警報装置22により、インシデントの発生を認知した場合、及び操作端末20の表示部140に、
図17に一例を示した情報206が表示された場合の少なくとも一方の場合を契機として、操作端末20を操作し、仮想環境管理装置16にログインする。
【0091】
仮想環境管理装置16では、操作端末20を介してオペレータのログインが行われると、CPU110がROM112に格納されている暫定策実施処理プログラムを実行することによって、
図20に示す暫定策実施処理が実行される。CPU110は、暫定策実施処理プログラムを実行することによって、
図4に示した導出部62、実施部64、及び出力部66として機能する。
【0092】
ステップS200で導出部62は、操作端末20においてオペレータにより、暫定策に対するオペレーションが実施されたか否かを判定する。
【0093】
次のステップS202で導出部62は、オペレータがオペレーションを行った暫定策の実施の可否を判定するために、
図21に一例を示した暫定策実施可否判定処理を実行する。
【0094】
図21に示したステップS250で導出部62は、ログインしているオペレータの、暫定策を実施する対象となるサービスに対する操作権限を判定する。なお、本実施形態の仮想環境管理装置16は、暫定策を実施する対象となるサービス(以下、「対象サービス」という)に関する情報は、上述したように、稼働確認装置18から受信しているが、本実施形態と異なり、対象サービスに関する情報を受信していない場合は、上述したインシデント対策処理(
図15参照)のステップS100と同様の処理により、対象サービスを特定してもよい。
【0095】
本実施形態では、一例として仮想環境管理装置16にログインする際に、オペレータは、識別情報としてIDを入力する。そこで、導出部62は、アカウント管理情報40に基づいて、入力されたIDにおける対象サービスに対応する操作権限を判定する。
【0096】
本実施形態では、管理者権限を有する場合、影響度にかかわらず暫定策の実施が許可されているため、ステップS250において操作権限が管理者権限であると判定された場合、ステップS258へ移行する。
【0097】
ステップS258で導出部62は、暫定策の実施が可能であると判定した後、本暫定策実施可否判定処理を終了して、暫定策実施処理のステップS204へ移行する。
【0098】
一方、本実施形態では、操作権限を有していない(操作権限無)場合、全ての暫定策の実施が禁止されているため、ステップS250において、操作権限を有していないと判定された場合、ステップS260へ移行する。
【0099】
ステップS260で導出部62は、暫定策の実施が不可であると判定した後、本暫定策実施可否判定処理を終了して、暫定策実施処理のステップS204へ移行する。
【0100】
また、ステップS250において、操作権限が一般権限であると判定された場合、ステップS252へ移行する。ステップS252で導出部62は、影響度管理情報36(
図11参照)に基づいて、対象サービスの現在の影響度、すなわちオペレータが操作端末20によりインシデントに対処する際の影響度を判定する。本ステップにおいて判定された影響度は、上記インシデント対策支援処理(
図15参照)のステップS104で判定された影響度と異なる場合がある。例えば、仮想機器12のCPUの処理負荷によりリソースに障害が発生した場合のインシデントでは、時間経過により処理負荷が軽くなると影響度が低くなる場合がある。また、逆に、時間経過に応じて障害の程度が進み、影響度が高くなる場合がある。
【0101】
次のステップS254で導出部62は、操作範囲情報38(
図12参照)に基づいて、上記ステップS252で判定した現在の影響度に対応する操作範囲を導出する。
【0102】
次のステップS256で導出部62は、オペレータが実施したオペレーションに応じた暫定策が、上記ステップS252で導出した操作範囲内であるか否かを判定する。操作範囲内である場合、ステップS256の判定が肯定判定となり、上記ステップS258へ移行する。一方、操作範囲外である場合、ステップS256の判定が否定判定となり、上記ステップS260へ移行する。なお、本判定において、操作対象となる仮想機器12が、複数のサービスに影響を及ぼす場合、全てのサービスに対する影響度をふまえて、操作範囲内であるか否かを判定し、実施の可否を決定する。例えば、
図9に示した影響範囲情報30によれば、仮想機器12Cは、サービスC及びDに影響を及ぼすことがわかる。この場合、
図12に示した操作範囲情報38によれば、仮想機器12Cの再起動は、サービスCに対する影響度が3以上、かつサービスDに対する影響度が4以上の場合のみ実施可能であると判定することができる。
【0103】
このようにして暫定策の実施可否判定処理により、暫定策の実施の可否が判定されると、暫定策実施処理のステップS204で実施部64は、判定結果が暫定策の実施が可能であったか否かを判定する。暫定策の実施が可能であるとの判定結果の場合、ステップS204の判定が肯定判定となり、ステップS212へ移行する。
【0104】
ステップS212では、オペレータが操作端末20により行った暫定策に対応する処理を実施する。なお、この際、
図22に示した一例のように、実施部64は、操作端末20の表示部140に、対象サービス、及び実施する暫定策を表す情報220を表示させてもよい。また、
図22に示した一例のように、実施部64は、操作端末20の表示部140に、オペレータが対応策を実施するためのターミナル画面222を表示させてもよい。
【0105】
上記ステップS212による暫定策の実施が完了すると次のステップ214で実施部64は、操作端末20の表示部140に、実施した操作が完了した旨を表す情報を表示させる。
図23には、操作端末20の表示部140において、当該ステップS212の処理により出力された情報に応じて表示される情報の一例を示す。
図23に示すように、表示部140には、対象サービス、及び実施が完了した暫定策を表す情報224が表示される。当該情報224の表示は、オペレータにより、入力部142によって、表示部140に表示されたボタン(OKボタン)226または稼働確認ボタン228が押圧(指定)されると終了する。
【0106】
次のステップS216で実施部64は、稼働確認ボタン228が押圧されたか否かを判定する。ボタン226が押圧された場合、ステップS216の判定が否定判定となり、本暫定策実施処理を終了する。一方、稼働確認ボタン228が押圧された場合、ステップS216の判定が肯定判定となり、ステップS218へ移行する。
【0107】
ステップS218で実施部64は、上述した稼働確認指示をネットワーク26を介して稼働確認装置18に出力した後、本暫定策実施処理を終了する。
【0108】
一方、上記ステップS202の判定結果が暫定策の実施が可能であるとの判定結果ではない場合、ステップS204の判定が否定判定となり、ステップS206へ移行する。ステップS206で実施部64は、実施可能な暫定策が有るか否かを判定する。実施可能な暫定策が無い場合、ステップS206の判定が否定判定となり、ステップS208へ移行する。
【0109】
ステップS208で実施部64は、暫定策が無いことを表す情報を出力部80からネットワーク26、28を介して操作端末20に出力した後、本暫定策実施処理を終了する。本ステップにおいて出力する情報は、例えば、上述したインシデント対策処理のステップ112と同様の情報であってもよい。この場合、操作端末20の表示部140には、
図16に示した一例と同様の表示が行われる。
【0110】
一方、実施可能な暫定策が有る場合、ステップS206の判定が肯定判定となり、ステップS210へ移行する。ステップS210で実施部64は、実施が不可であることを表す情報を出力部80からネットワーク26、28を介して操作端末20に出力した後、ステップS200に戻る。
【0111】
図24には、操作端末20の表示部140において、当該ステップS210の処理により出力された情報に応じて表示される情報の一例を示す。
図24に示すように、表示部140には、対象サービス、現在の影響度、及びオペレータが行った暫定策の実施が不可であることを表す情報230が表示される。当該情報230の表示は、オペレータにより、入力部142によって、表示部140に表示されたボタン(OKボタン)232が押圧(指定)されると終了する。当該表示により、暫定策の実施が不可であることを認識したオペレータは、別の暫定策に対するオペレーションを行うことができる。
【0112】
なお、ステップS210の処理を経てステップS200に戻るフローを所定の回数繰り返した場合、すなわち、オペレータが実施が許可されていない(操作範囲外の)操作を所定の回数繰り返して行った場合は、本暫定実施処理を終了するようにしてもよい。
【0113】
以上説明したように、本実施形態の対処者支援システム10では、稼働確認装置18が、複数の監視対象機器である仮想機器12の各々と、複数のサービスのうちの仮想機器12が影響を与えるサービスとを対応付けた影響範囲情報30に基づいて、インシデントが発生した仮想機器12によって提供されるサービスを特定する特定部72と、特定部72により特定されたサービスの利用可能状況を確認する確認部74と、確認部74の確認結果に基づいて、特定部72により特定されたサービスに対するインシデントの影響度を判定する判定部76と、を備える。また、仮想環境管理装置16が、オペレータがインシデントに対処する際に、オペレータがインシデントに対処するために実施可能な操作範囲を影響度に基づいて導出する導出部62を備える。
【0114】
従って、本実施形態の対処者支援システム10によれば、動的に影響度を変更でき、オペレータがインシデントに対処する際の影響度に基づいて操作範囲を導出するため、オペレータに対して適切な支援を行うことができる。例えば、本実施形態の対処者支援システム10によれば、インシデントが発生してからオペレータが対処を行うまでに時間を要した場合や、影響度に変動が生じた場合でも、適切に支援を行うことができる。
【0115】
これにより、本実施形態の対処者支援システム10によれば、オペレータの操作に対するサービスへの不要な影響を抑制することができる。
【0116】
なお、本実施形態は、本発明の一例であり、本発明の主旨を逸脱しない範囲内において状況に応じて変更可能であることはいうまでもない。
【0117】
例えば、本実施形態では、監視装置14、仮想環境管理装置16、及び稼働確認装置18の各々を別個の装置とした形態について説明したが、これら全部の装置または一部の装置、もしくは一部の機能を1つの装置に集約させてもよい。
【0118】
また、本実施形態では、監視対象機器が仮想機器12のみである形態について説明したが、物理機器のみの形態、または物理機器と仮想機器12とが混在する形態であってもよい。また、仮想機器12の数も本実施形態に限定されない。
【0119】
また、影響度の数等も本実施形態に限定されないことはいうまでもない。
【0120】
また、本実施形態では、各サービスで影響箇所をサーバとネットワークに分類する形態について説明したが、当該形態に限定されず、サービスが複数の機能を有する場合は、各機能毎に分類する形態としてもよい。
【0121】
また、本実施形態では、監視装置14、仮想環境管理装置16、及び稼働確認装置18の各装置においてCPU(100、110、120、130)がソフトウェア(プログラム)を実行することにより実行した各処理(影響度更新処理、暫定策実施処理、及びインシデント対策処理)を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(field-programmable gate array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、影響度更新処理、暫定策実施処理、及びインシデント対策処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0122】
また、上記各実施形態では、監視装置14のROM102、仮想環境管理装置16のROM112、稼働確認装置18のROM122等に格納される各種プログラムは、ROM(102、112、122)に予め記憶(インストール)されている態様を説明したが、これに限定されない。これらの各種プログラムは、CD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、これらの各種プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。