(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
以下、実施形態を図面により詳細に説明する。尚、本発明は、以下で説明される例に限定されるものではない。なお、以後の説明では「aaaテーブル」、「aaaリスト」、等の表現にて本実施形態の情報を説明するが、これら情報はテーブル、リスト、等のデータ構造以外で表現されていてもよい。
【0011】
データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、等について「aaa情報」と呼ぶことがある。さらに、各情報の内容を説明する際に、「識別子」、「名」、「ID」等の表現を用いるが、これらについてはお互いに置換が可能である。
【0012】
以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御デバイス)を用いながら行うため、プロセッサを主語とした説明としてもよい。
【0013】
プログラムを主語として開示された処理は管理サーバ計算機等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部又は全ては専用ハードウェアによって実現されてもよい。各種プログラムはプログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。
【0014】
以後、情報処理システムを管理し、本願発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムである。管理計算機と表示用計算機の組み合わせも管理システムである。管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
【0015】
第1の実施形態
<概要>
本実施形態は、計算機システムの構成変更プランと当該プランの実行に直接影響を受ける可能性のあるコンポーネントを事前に形式化しておき、計算機システムの構成情報と、二次的に影響を受ける可能性のある装置を、影響波及関係を表した解析ルールを元に特定する。
【0016】
本実施形態は、計算機システムに対して実行するプランを運用管理者に提示する際に、そのプランの実行による影響を併せて提示する。本実施形態は、運用管理者がプランの実行可否を判定することを支援できる。例えば障害発生時に回復するためのプランを作成した場合に、障害回復までの時間を短縮する。
【0017】
図1は、第1の実施形態における計算機システムの概念図である。当該計算機システムは、管理対象計算機システム1000と、それに対してネットワークなどを介して接続された管理サーバ1100と、を含む。
【0018】
装置性能取得プログラム1110と構成管理情報取得プログラム1120は、管理対象計算機システム1000を監視している。構成管理情報取得プログラム1120は構成が変更される都度、構成情報リポジトリ1130へ構成情報を記録する。装置性能取得プログラム1110は、取得した装置性能情報から管理対象計算機システム1000に障害が発生していることを検知すると、原因特定のために障害原因解析プログラム1140を呼び出す。
【0019】
障害原因解析プログラム1140は、障害原因を特定する。ルール化された障害波及関係が、障害波及関係ルール1150において定義されている。障害原因解析プログラム1140は、障害波及関係ルール1150と構成情報リポジトリ1130より取得した構成情報とを照合することにより、障害原因を特定する。
【0020】
障害原因解析プログラム1140は、特定した原因に対する対処プランを作成するために、プラン作成プログラム1160を呼び出す。プラン作成プログラム1160は、障害と対応するプランとの関係をあらかじめ形式化した汎用プラン1170を利用して、具体的な対処プラン(展開プラン)を作成する。
【0021】
プラン実行影響解析プログラム1180は、プラン作成プログラム1160が作成した対処プランを実行することにより影響を与える装置、装置を構成する部品、及びプログラムを特定する。以下において、装置、装置内の部位(ハードウェア部品又はプログラム)を、それぞれコンポーネントと呼ぶ。
【0022】
プラン実行影響解析プログラム1180は、作成された対処プランと構成情報リポジトリ1130の示す構成情報と、障害波及関係ルール1150とを照合することにより、対処プランを実行することによる影響を特定する。
【0023】
画像表示プログラム1190は、運用管理者に、作成された対処プランと、それを実行することによる波及関係とを、併せて表示する。第1の実施形態は、障害原因解析プログラム1140による障害原因の特定に伴い作成された対処プランを説明するが、本発明は障害原因の特定に限定されず、計算機システムにおける構成変更を伴う様々なプランの影響の特定に適用できる。
【0024】
図2は、本実施形態における計算機システムの物理構成例を示す。当該計算機システムは、ストレージ装置20000と、ホスト計算機10000と、管理サーバ計算機30000と、WEBブラウザ起動サーバ計算機35000と、IPスイッチ40000とを有し、それらが、ネットワーク45000によって接続される。
図2における一部装置が省略されていてもよく、一部のみが相互接続していていもよい。
【0025】
ホスト計算機10000乃至10010は、例えば、それらに接続された、図示しないクライアント計算機からファイルのI/O要求を受信し、それに基づいてストレージ装置20000乃至20010へのアクセスを実現する。ここでは、ホスト計算機10000乃至10010は、サーバ計算機である。
【0026】
ホスト計算機10000乃至10010は、それらが互いにネットワーク45000を介してプログラム間で通信を実行し、ファイルを交換する。そのために、ホスト計算機10000乃至10010は、ネットワーク45000に接続するためのポート11010を有する。管理サーバ計算機30000は、当該計算機システム全体の運用を管理する。
【0027】
WEBブラウザ起動サーバ計算機35000は、ネットワーク45000を介して、管理サーバ計算機30000の画像表示プログラム1190と通信し、WEBブラウザ上に各種情報を表示する。ユーザはWEBブラウザ起動サーバ上のWEBブラウザに表示された情報を参照することで、計算機システム内の装置を管理する。ただし、管理サーバ計算機30000と、WEBブラウザ起動サーバ計算機35000は1台のサーバ計算機で構成されていてもよい。
【0028】
<システム構成例>
図3は、以下で説明する、管理サーバ計算機30000が保持する表に対応するシステム構成例を説明する概念図である。この図において、IPスイッチ40000、40010それぞれのIDは、IPSW1、IPSW2である。IPスイッチIPSW1、IPSW2は、それぞれ、ネットワーク45000に接続するためのポート40010を有する。
【0029】
IPスイッチIPSW1のポート40010のIDは、それぞれ、ポート1、ポート2、ポート8である。IPスイッチIPSW2のポート40010のIDは、それぞれ、ポート1、ポート8である。ポートのIDは、IPスイッチ内において一意である。
【0030】
ホスト計算機10000、10005、10010のそれぞれのIDは、SERVER10、SERVER11、SERVER20である。ホスト計算機10000、10005、10010は、それぞれ、ポート11010ポートを介してネットワーク45000に接続している。各ポートのIDは、ポート101、ポート111、ポート201である。
【0031】
本構成例において、それぞれのホスト計算機上10000、10005、10010では、サーバ仮想化機構(サーバ仮想化プログラム)が動作している。ホスト計算機10000、10005上で、仮想マシン(VM)11000が動作している。各VM11000のIDは、HOST10乃至HOST13である。図示していないが、各VM11000上にはOSがインストールされ、その上でウェブサービスが動作しているものとする。
【0032】
<管理サーバ計算機の物理構成>
図2に示すように、管理サーバ計算機30000は、ネットワーク45000に接続するためのポート31000と、プロセッサ31100と、キャッシュメモリ等のメモリ32000と、HDD等の二次記憶装置33000とを含む。メモリ32000及び二次記憶装置33000は、それぞれ、半導体メモリ又は不揮発性記憶デバイスのいずれか、もしくは半導体メモリ及び不揮発性記憶デバイス両方から構成される。
【0033】
管理サーバ計算機30000は、さらに、後述する処理結果を出力するためのディスプレイ装置等の出力デバイス31200と、ストレージ管理者が指示を入力するためのキーボード等の入力デバイス31300とを含む。これらは、内部バスを介して相互に接続されている。
【0034】
メモリ32000は、
図1に示すプログラム及びデータ1110乃至1190に加え、他のプログラム及びデータを格納している。具体的には、メモリ32000は、装置性能管理表33100、ファイルトポロジ管理表33200、ネットワークトポロジ管理表33250、VM構成管理表33280、イベント管理表33300、を格納する。
【0035】
メモリ32000は、さらに、解析ルールリポジトリ33400、解析結果管理表33600、汎用プランリポジトリ33700、展開プランリポジトリ33800、ルール・プラン対応管理表33900、プラン実行影響ルールリポジトリ33950を格納する。
【0036】
図1における構成情報リポジトリ1130は、ファイルトポロジ管理表33200、ネットワークトポロジ管理表33250、VM構成管理表33280を格納する。障害波及関係ルール1150は、解析ルールリポジトリ33400に格納されている。汎用プラン1170は、汎用プランリポジトリ33700に格納されている。
【0037】
本例において、機能部は、メモリ32000のプログラムを実行するプロセッサ31100により実装されている。これと異なり、ハードウェアモジュールによって、本例のプログラム及びプロセッサ31100によって実現される機能部が提供されていてもよい。プログラム間の明確な境界が存在しなくてもよい。
【0038】
画像表示プログラム1190は、入力デバイス31300を介した管理者からの要求に応じ、取得した構成管理情報を出力デバイス31200によって表示する。入力デバイスと出力デバイスは別々なデバイスでもよく、一つ以上のまとまったデバイスでもよい。
【0039】
管理サーバ計算機30000は、例えば、入力デバイス31300としてキーボードとポインタデバイス等、出力デバイス31200としてディスプレイやプリンタ等とを有しているが、これ以外の装置であってもよい。
【0040】
入出力デバイスの代替としてシリアルインターフェースやイーサーネットインターフェースを用い、当該インタフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。
【0041】
管理サーバ計算機30000が表示用情報を表示する場合は、管理サーバ計算機30000が管理システムであり、また、管理サーバ計算機30000と表示用計算機(例えば
図2のWEBブラウザ起動サーバ計算機35000)の組み合わせも管理システムである。
【0042】
<装置性能管理表の構成>
図4は、管理サーバ計算機30000が有する装置性能管理表33100の構成例を示す。装置性能管理表33100は、管理対象システムにおける装置の性能情報を管理し、複数の構成項目を含む。装置性能管理表33100は、装置の仕様上の性能ではなく、動作している装置の実際の性能を示す。
【0043】
フィールド33110は、管理対象となる装置の識別子となる装置IDを格納する。装置IDは、物理装置及び仮想マシンに付与されている。フィールド33120は、管理対象装置内部の部位のIDを格納する。フィールド33130は、管理対象装置の性能情報のメトリック名を格納する。フィールド33140は、閾値異常(「閾値に基づいて異常であると判定されたもの」の意味)を検知した装置のOS種別を格納する。
【0044】
フィールド33150は、管理対象装置の実際の性能値を該当装置から取得して格納する。フィールド33160は、管理対象装置の性能値の正常範囲の上限もしくは下限である閾値(アラート実行閾値)を、ユーザからの入力を受けて格納する。フィールド33170は、閾値が正常値の上限であるのか下限であるかを示す値を格納する。フィールド33180は、性能値が正常値であるか異常値であるかを示すステータスを格納する。
【0045】
例えば、
図4の第1行目(1つ目のエントリ)は、HOST11上で動作するWEBSERVICE1におけるレスポンスタイムが、現時点で、1500msec(フィールド33150参照)であることを示す。
【0046】
さらに、WEBSERVICE1のレスポンスタイムが10msecを超えた場合(33160参照)に、管理サーバ計算機30000はWEBSERVICE1が過負荷であると判定する。本例は、当該性能値が異常値であると判定する(フィールド3315033180参照)。この値が異常値であると判定された場合、後述のイベント管理表33300に、イベントとして異常状態が書き込まれる。
【0047】
なお、ここでは管理サーバ計算機30000が管理する装置の性能値としてレスポンスタイムや単位時間当たりのI/O量やI/Oエラー率を例として挙げたが、管理サーバ計算機30000は、これらと異なる性能値を管理してもよい。
【0048】
フィールドフィールド33160は、管理サーバ計算機30000により自動的に決定された値を格納してもよい。例えば、管理サーバ計算機30000は、過去の性能値から外れ値をベースライン分析により決定し、当該外れ値から決定した上限閾値又は下限閾値の情報を、フィールド33160、33170に格納してもよい。
【0049】
管理サーバ計算機30000は、過去所定期間の性能値を使用して、異常状態(アラート実行)について判定してもよい。例えば、管理サーバ計算機30000は、過去所定期間の性能値を取得して性能値変化の傾向を分析し、上昇/下降傾向であり、性能値がその傾向に従って推移すると将来の所定期間経過後に上限閾値/下限閾値を越えると予想する場合に、後述のイベント管理表33300にイベントとして異常状態を書き込んでもよい。
【0050】
<ファイルトポロジ管理表の構成>
図5は、管理サーバ計算機30000の有するファイルトポロジ管理表33200の構成例を示す。ファイルトポロジ管理表33200は、ボリュームの利用関係を示し、複数の構成項目を含んでいる。
【0051】
フィールド33210は、ホスト(VM)のIDを格納する。フィールド33220は、ホストに提供されているボリュームのIDを格納する。フィールド33230は、ボリュームがホスト上でマウントされているときの識別名であるパス名を表す。
【0052】
フィールド32340は、ホストが他のホストにパス名で示されるファイルシステムを公開している場合に、その公開先であるエキスポート先ホストのIDを示す。フィールド33245は、エキスポート先ホストにおいて当該ファイルシステムをマウントしているパス名を示す。
【0053】
例えば、
図5の第1行目(1つ目のエントリ)において、IDがHOST10のホストで、ボリュームVOL101が、/var/www/dataという名称で示されるパス名でマウントされている。さらに、そのパス名のファイルシステムは、HOST11、HOST12、HOST13で示されるホストに公開されている。それぞれのホストにおいて、/mnt/www/dataや/var/www/dataや¥¥host1¥www_dataで示すパス名にマウントされている。
【0054】
<ネットワークトポロジ管理表の構成>
図6は、管理サーバ計算機30000の有するネットワークトポロジ管理表33250の構成例を示す図である。ネットワークトポロジ管理表33250は、スイッチを含むネットワークのトポロジを管理し、具体的には、スイッチと他装置との接続関係を管理する。
【0055】
ネットワークトポロジ管理表33250は、複数の項目を含む。フィールド33251は、ネットワーク装置であるIPスイッチのIDを格納する。フィールド33252は、IPスイッチが有するポートのIDを格納する。フィールド33253は、ポートが接続されている装置のIDを表す。フィールド33254は、接続先装置において接続されているポートのIDを示す。
【0056】
例えば、
図6の第1行目(1つ目のエントリ)は、IDがIPSW1のIPスイッチのIDがポート1のポートが、IDがSERVER10のホスト計算機のIDがポート101のポートに接続していることを示す。
【0057】
<VM構成管理表の構成>
図7は、管理サーバ計算機30000の有するVM構成管理表33280の構成例を示す。VM構成管理表33280は、VM、つまりホストの構成情報を管理し、複数の項目を含む。
【0058】
フィールド33281は、仮想マシン(VM)が動作する物理マシン、つまりホスト計算機のIDを格納する。フィールド33282は、物理マシンで動作している仮想マシンのIDを格納する。
【0059】
例えば、
図7の第1行目(1つ目のエントリ)は、物理マシンIDがSERVER10で示されるホスト計算機上では、IDがHOST10で示される仮想マシンが動作していることを示す。
【0060】
<イベント管理表の構成>
図8は、管理サーバ計算機30000が有するイベント管理表33300の構成例を示す。このイベント管理表33300は、発生イベントを管理し、後述する障害原因解析処理、プラン展開・プラン実行影響分析処理において適宜参照される。
【0061】
管理サーバ計算機30000は、複数の項目を有する。フィールド33310は、イベントのIDを格納する。フィールド33320は、取得した性能値に閾値異常といったイベントの発生した装置のIDを格納する。フィールド33330は、イベントの発生した機器内の部位のIDを格納する。
【0062】
フィールド33340は、閾値異常を検知したメトリックの名称を登録する。フィールド33350は、閾値異常が検知された装置のOS種別を格納する。フィールド33360は、装置内の部位のイベント発生時の状態を示す。フィールド33370は、イベントが後述する障害原因解析プログラム1140によって解析済みかどうかを示す。フィールド33380とイベントが発生した日時を格納する。
【0063】
例えば、
図8の第1行目(1つ目のエントリ)は、管理サーバ計算機30000が、仮想マシンHOST11上で動作する装置部位WEBSERVICE1におけるレスポンスタイムの閾値異常を検知し、そのイベントIDはEV1であることを示す。
【0064】
<解析ルールの構成>
図9A、9Bは、管理サーバ計算機30000が有する解析ルールリポジトリ33400内の解析ルールの構成例を示す。解析ルールは、計算機システムのコンポーネントの装置で発生し得る1つ以上の条件イベントの組み合わせと、その条件イベントの組み合わせに対して障害原因とされる結論イベントと、の関係を示す。解析ルールは、原因解析のための汎用的なルールであり、イベントをシステムコンポーネントの種別を用いて定義する。
【0065】
一般的に、障害解析において原因を特定するためのイベント伝播モデルは、ある障害の結果発生することが予想されるイベントの組み合わせと、その原因を"IF−THEN"形式で記載する。なお、解析ルールは
図9A、9Bに挙げられたものに限られず、さらに多くのルールがあってもよい。
【0066】
解析ルールは複数の項目を含む。フィールド33430は、解析ルールのIDを格納する。フィールド33410は、"IF−THEN"形式で記載した解析ルールのIF(条件)部に相当する観測イベントを格納する。フィールド33420は、"IF−THEN"形式で記載した解析ルールのTHEN(結論)部に相当する原因イベントを格納する。フィールド33440は、解析ルールを実システムに適用する際に取得するトポロジを示す。
【0067】
フィールド33410は、条件部のイベントに対するイベントID33450を含む。条件部フィールド33410のイベントが検知された場合、結論部フィールド33420のイベントが障害の原因である。結論部フィールド33420のステータスが正常になれば、条件部フィールド33410の問題も解決している。
図9A、
図9Bの例では、条件部フィールド33410には2つのイベントが記述されているが、イベント数に制限はない。
【0068】
条件部フィールド33410は、結論部フィールド33420の原因イベントから一次的に発生するイベントのみを含むか、又は、当該原因イベントから二次的、三次的に発生するイベントを含んでもよい。結論部フィールド33420のイベントは、条件部フィールド33410のイベントの根本原因を示す。条件部フィールド33410は、結論部フィールド33420の根本原因イベントとイベントの派生イベントで構成される。
【0069】
条件部フィールド33410が、N次的派生イベントを含む場合、N次的派生イベントの直接の原因イベントは(N−1)次的派生イベントであり、結論部フィールド33420のイベントは、全ての派生イベントに共通する根本原因イベントである。
【0070】
例えば、
図9Aにおいて、IDがRULE1で示される解析ルールは、観測イベントとしてサーバ上で動作するWEBサービスのレスポンスタイムの閾値異常(派生イベント)と、ファイルサーバにおけるボリュームのI/Oエラー率の閾値異常(原因イベント)を検知した場合、ファイルサーバにおけるボリュームのI/Oエラー率の閾値異常が原因と結論付ける。なお、観測事象に含まれるイベントとして、ある条件が正常であることを定義してもよい。
図9Aは、さらに、適用するトポロジとして、ファイルトポロジ管理表33200が示すトポロジを指定する。
【0071】
<解析結果管理表の構成>
図10は、管理サーバ計算機30000の有する解析結果管理表33600の構成例を示す。解析結果管理表33600は、後述する障害原因解析処理の結果を格納し、複数の項目を含む。
【0072】
フィールド33610は、障害原因解析処理において障害の原因と判定されたイベントの発生した装置のIDを格納する。フィールド33620は、イベントの発生した装置内の部位のIDを格納する。フィールド33630は、閾値異常を検知したメトリックの名称を格納する。
【0073】
フィールド33640は、解析ルールにおいて条件部33410に記載されたイベントの発生割合を格納する。フィールド33650は、イベントを障害の原因と判定した根拠となる解析ルールのIDを格納する。フィールド33660は、解析ルールにおいて条件部33410に記載されたイベントのうち、実際に受信したイベントのIDを格納する。フィールド33670は、イベント発生に伴う障害解析処理を開始した日時を格納する。
【0074】
例えば、
図10の第1段目(1つ目のエントリ)は、解析ルールRULE1に基づき、管理サーバ計算機30000が、仮想マシンHOST10のVOLUME1で示されるボリュームのI/Oエラー率の閾値異常を障害原因として判定していることを示す。さらに、その根拠として、イベントIDがEV1及びEV4で示されるイベントを受信している、すなわち、条件イベントの発生割合が2/2であることを示す。
【0075】
<汎用プランの構成>
図11は、管理サーバ計算機30000の有する汎用プランリポジトリ33700の構成例を示す。汎用プランリポジトリ33700は、計算機システムにおいて実行可能な機能の一覧を示す。
【0076】
汎用プランリポジトリ33700において、フィールド33710は、汎用プランIDを格納する。フィールド33720は、計算機システムにおいて実行可能な機能の情報を格納する。例えば、ホストのリブート、スイッチの設定変や、ストレージでのボリュームマイグレーション、VMの移動、等のプランがある。なお、プランは、
図11に挙げられたものに限られない。フィールド33730は、各汎用プランのコストを示し、フィールド33740は、各汎用プランの時間を示す。
【0077】
<展開プランの構成>
図12は、管理サーバ計算機30000の有する展開プランリポジトリ33800に格納される、展開プランの一例を示す。展開プランは、汎用プランを計算機システムの実構成に依存する形式に展開した情報であり、コンポーネントの識別子を用いてプランを定義する。
【0078】
図12に示す展開プランは、プラン作成プログラム1160によって生成される。具体的には、プラン作成プログラム1160は、
図11に示す汎用プランリポジトリ33700の各エントリに対して、ファイルトポロジ管理表33200、ネットワークトポロジ管理表33250、VM構成管理表33280及び装置性能管理表33100のエントリの情報を適用する。
【0079】
展開プランは、プラン詳細フィールド33810、汎用プランIDフィールド33820、展開プランIDフィールド33830、解析ルールIDフィールド33833、影響コンポーネントリストフィールド33835を含む。さらに、プラン対象フィールド33840、コストフィールド33880、時間フィールド33890を含む。
【0080】
プラン詳細フィールド33810は、展開された各プランの具体的な処理内容及び処理実行後の状態情報を、プラン毎に格納する。汎用プランIDフィールド33820は、展開プランの基となった汎用プランのIDを格納する。
【0081】
展開プランIDフィールド33830は、展開プランのIDを格納する。解析ルールIDフィールド33833は、展開されたプランが、どの障害原因に対するプランなのかを識別するための情報として、解析ルールのIDを格納する。影響コンポーネントリストフィールド33835は、当該プランを実行することにより影響する他のコンポーネント(コンポーネント)と影響の種類とを示す。
【0082】
プラン対象フィールド33840は、プラン実行対象の装置(フィールド33850)、実行前の構成情報(フィールド33860)、及びプラン実行後の構成情報(フィールド33870)を示す。
【0083】
コストフィールド33880及び時間フィールド33890は、プランを実行することに対する作業量を記述する。なお、コストフィールド33880及び時間フィールド33890は、プランを評価する尺度であれば、作業量を表す値としていかなる値であってもよく、プランを実行することによりどの程度改善するかという効果を示してもよい。
【0084】
図12は、
図11の汎用プランリポジトリ33700におけるPLAN1(VM移動プラン)及びRULE1の解析ルールの例を示している。
図12に示すように、PLAN1の展開プランは、移動対象VM(フィールド33850)、移移動元装置(フィールド33860)、移動先装置(フィールド33870)、移動に要するコスト(フィールド33880)及び時間(フィールド33890)の項目を含む。
【0085】
展開プランが各作業量を示す値及びプランを実行する改善効果を示す値を含む場合、それらの値について、その算出のためにどのような方法を取ってもよい。ここでは簡単化のために、あらかじめ何らかの方法で
図11のプランに関連して定義されているとする。
【0086】
本開示は、PLAN1(VM移動プラン)の展開プランの例のみを具体的に記載しているが、
図11記載の汎用プランリポジトリ33700が保持する他の汎用プランに対応する展開プランなども同様に生成される。
【0087】
<ルール・プラン対応管理表の構成>
図13は管理サーバ計算機30000の有する、ルール・プラン対応管理表33900の一例を示す。ルール・プラン対応管理表33900は、解析ルールIDで示される解析ルールと、その解析ルールを適用して障害の原因を特定した場合に実行可能なプランのリストを示す。
【0088】
ルール・プラン対応管理表33900は、複数の項目を含む。解析ルールIDフィールド33910は、解析ルールのIDを格納する。解析ルールIDの値は、解析ルールリポジトリの解析ルールIDフィールド33430の値と同様である。汎用プランIDフィールド33920は、汎用プランのIDを格納する。汎用プランIDは、汎用プランリポジトリ33700の汎用プランIDフィールド33710の値と同様である。
【0089】
<プラン実行影響ルールの構成>
図14は、管理サーバ計算機30000の有する、プラン実行影響ルールリポジトリ33950が示すプラン実行影響ルールの一例を示す。プラン実行影響ルールは、汎用プランの実行による影響を示す汎用的なルールである。
【0090】
プラン実行影響ルールは、汎用プランIDフィールド33961で示される汎用プランを実行した場合に、影響を受けるコンポーネントのリストを影響先フィールド33960に記述する。本例は、プラン実行の一次的影響を受ける、つまり、プラン実行の影響を直接に受けるコンポーネントを示す。
【0091】
汎用プランIDは、汎用プランリポジトリ33700の汎用プランIDフィールド33710の値と同様である。影響先フィールド33960の各エントリは、複数のフィールドを含む。装置種別フィールド33962は、影響を受ける装置の装置種別を示す。移動元/移動先フィールド33963は、その装置が展開プランの移動元の装置にある場合に影響を受けるのかそれとも移動先の装置にある場合に影響を受けるのかを示す。
【0092】
装置部位種別フィールド33964は、影響を受ける装置部位の種別を記述する。メトリックフィールド33965は、影響を受けるメトリックを示す。ステータスフィールド33966は、どのように変化するかを示す。なお、影響先フィールド33960は、対象とする汎用プランに応じてどのようなフィールドを含んでもよい。
【0093】
図14は、
図11の汎用プランリポジトリ33700におけるPLAN1(VM移動プラン)の例を示している。最初のエントリは、装置種別がSERVERの装置が移動先である場合、SCSI DISCの単位時間I/O量のメトリックが増加する可能性があることを表している。
【0094】
<構成管理情報の取得処理、ボリュームトポロジ管理表の更新処理>
管理サーバ計算機30000のプログラム制御プログラムは、例えばポーリングによって、構成管理情報取得プログラム1120に対し、計算機システム内のストレージ装置、ホスト計算機及びIPスイッチから、構成管理情報を定期的に取得するよう指示する。
【0095】
構成管理情報取得プログラム1120は、ストレージ装置、ホスト計算機及びIPスイッチから構成管理情報を取得する。構成管理情報取得プログラム1120は、ファイルトポロジ管理表33200、ネットワークトポロジ管理表33250、VM構成管理表33280及び装置性能管理表33100を、取得した情報により更新する。
【0096】
<全体の流れ>
図15は、本実施形態における処理の全体的な流れを示す図である。まず、管理サーバ計算機30000のプログラム制御プログラムは、装置性能情報取得処理(ステップ61010)を実行する。
【0097】
プログラム制御プログラムは、プログラムの起動時、もしくは前回の装置性能情報取得処理から所定時間経過するたびに、装置性能取得プログラム1110に対し、装置性能情報取得処理を実行するよう指示する。当該実行指示を繰り返し出す場合、周期は一定でなくてもよい。
【0098】
ステップ61010において、装置性能取得プログラム1110は、監視対象の各装置に対し、性能情報を送信するように指示する。返された性能情報を、装置性能管理表22100に格納し、その性能値が閾値を超えているかどうかを判定する。
【0099】
前回に性能値を取得できている場合で、閾値を超えているかどうかの状態が変化した場合(ステップ61020:YES)、装置性能取得プログラム1110は、イベント管理表33300にイベントを登録する。装置性能取得プログラム1110から指示を受けた障害原因解析プログラム1140は、障害原因解析処理を実行する(ステップ61030)。
【0100】
障害原因解析処理実行後に、プラン作成プログラム1160及びプラン実行影響解析プログラム1180は、プランの展開処理とプラン実行影響解析処理を実行する(ステップ61040)。
【0101】
以下の説明では、この流れに沿ってステップ61030以降のステップを説明する。なお、本発明は障害の発生時の対処計画導出の際のプラン実行影響の解析に限ったものではなく、何らかの管理者の意思によって計算機システムの構成を変更するプランを作成した場合に、その実行の影響を評価するために、後述のステップ63050のみを実行してもよい。
【0102】
ステップ61030以降のステップの概要を説明する。管理サーバ計算機30000は、イベント管理表33300から選択したイベントに適用可能な解析ルールを、解析ルールリポジトリ33400から選択する。
【0103】
管理サーバ計算機30000は、ルール・プラン対応管理表33900を用いて、選択した解析ルールに対応する汎用プランを選択する。管理サーバ計算機30000は、選択した汎用プランと構成情報(表33200、33250、33280)とから、計算機システム実行する具体的な対処プランである、展開プランを生成する。
【0104】
管理サーバ計算機30000は、展開プランの実行の影響により発生し得るイベントを、プラン実行影響ルール(プラン実行影響ルールリポジトリ33950)と構成情報(表33200、33250、33280)を用いて特定する。プラン実行影響ルールは、プラン実行により一次影響を受けるコンポーネントの種別及び影響内容を定義する。
【0105】
管理サーバ計算機30000は、上記イベントを原因イベント(結論イベント)として含む解析ルールを選択し、当該イベントの派生イベントを特定する。管理サーバ計算機30000は、派生イベントの情報を、展開プランの影響コンポーネントリスト33835に記述する。
【0106】
<障害原因解析処理(ステップ61030)の流れ>
装置性能取得プログラム1110は、新規に追加したイベントがある場合、障害原因解析プログラム1140に対して障害原因解析処理(ステップ61030)の指示を行う。障害原因解析処理(ステップ61030)は、解析ルールリポジトリ33400内に格納された各解析ルールに対してマッチング処理を実行することにより行う。解析結果は、イベントをコンポーネントの識別子により示す。
【0107】
マッチング処理において、障害原因解析プログラム1140は、各解析ルールに対して、イベント管理表33300に登録された障害イベントのうち所定期間内に登録されたものをマッチングする。解析ルールの条件部に存在する種別のコンポーネントからイベントが発生している場合、障害原因解析プログラム1140は、確信度を計算して解析結果管理表33600に書き込む。
【0108】
例えば、
図9Aに示す解析ルールRULE1は、条件部33410に"サーバ上のWEBサービスに対するレスポンスタイムの閾値異常"と、"ファイルサーバのボリュームのI/Oエラー率の閾値異常"を定義している。
【0109】
図8に示すイベント管理表33300に、イベントEV1(発生日時:2010−01−01 15:05:00)が登録されると、障害原因解析プログラム1140は、所定時間待機した後に、イベント管理表33300を参照し、過去所定期間に発生したイベントを取得する。イベントEV1は、"HOST11上のWEB SERVICE1に対するレスポンスタイムの閾値異常"、を示している。
【0110】
次に、障害原因解析プログラム1140は、RULE1に記載された条件部に対応するイベントについて、過去所定期間の発生件数を算出する。
図8の例において、イベントEV4"HOST10(ファイルサーバ)のVOLUME101のI/Oエラー率の閾値異常"も過去所定期間に発生している。これは、RULE1の条件部フィールド33410における第2のイベントであり、かつ、原因イベント(結論部フィールド33420)である。
【0111】
したがって、RULE1に記載された条件部33410に対応するイベント(原因イベントと派生イベント)の過去所定期間の発生数が、条件部33410に記載された全イベントにおいて占める割合は、2/2となる。障害原因解析プログラム1140は、この結果を、解析結果管理表33600に書き出す。
【0112】
障害原因解析プログラム1140は、上記の処理を、解析ルールリポジトリ33500に定義された全ての解析ルールに対し実行する。
【0113】
以上が、障害原因解析プログラム1140が実行する障害原因解析処理の説明である。上記例は、
図9Aに示す解析ルールと
図8に示すイベント管理表33300に登録されたイベントを利用しているが、障害原因を解析する方法についてはこの限りではない。
【0114】
上述のようにして算出された割合が所定値を超えている場合、障害原因解析プログラム1140は、プラン作成プログラム1160に対し、障害回復のためのプランの生成を指示する。例えば、所定値を30%とする。当該具体例においては、解析結果管理表33600の最初のエントリに記入された解析結果に対して、各イベントの過去所定期間の発生割合が2/2、すなわち100%である。したがって、障害回復のためのプランの生成が指示される。
【0115】
<対処プラン展開処理(ステップ61040の流れ)>
図16は、本実施形態の管理サーバ計算機30000のプラン作成プログラム1160が実行する、プラン展開処理(ステップ61040)を示すフローチャートである。
【0116】
プラン作成プログラム1160は、解析結果管理表33600を参照し、新規登録エントリを取得する(ステップ63010)。プラン作成プログラム1160は、新規登録エントリである障害原因ごとに、以下のステップ63020からステップ63050までを実行する。
【0117】
プラン作成プログラム1160は、まず、解析結果管理表33600のエントリのフィールド33650から、解析ルールIDを取得する(ステップ63020)。次に、プラン作成プログラム1160は、ルール・プラン対応管理表33900及び汎用プランリポジトリ33700を参照し、取得した解析ルールIDに対応する汎用プランを取得する(ステップ63030)。
【0118】
次に、プラン作成プログラム1160は、ファイルトポロジ管理表33200、ネットワークトポロジ管理表33250及びVM構成管理表33280を参照し、取得した各汎用プランに対応する展開プランを生成し、展開プランリポジトリ33800内の展開プラン表に格納する(ステップ63040)。
【0119】
一例として、
図12に示す展開プランの作成方法を説明する。プラン作成プログラム1160は、PLAN1に対応する展開プランの表を作成する。プラン作成プログラム1160は、移動対象VMフィールド33850にHOST10を格納する。プラン作成プログラム1160は、VM構成管理表33280から、HOST10の物理マシンID SERVER10を取得し、移動元装置フィールド33860に格納する。
【0120】
プラン作成プログラム1160は、ネットワークトポロジ管理表33250から、SERVER10と接続している物理マシンのIDを取得する。プラン作成プログラム1160は、VM構成管理表33280を参照して、取得した物理マシンIDのうち、VMが動作可能な物理マシンのIDを選択する。プラン作成プログラム1160は、選択した物理マシンIDの一部又は全部について展開プランを生成する。
図12は、選択した一つの物理マシンのための展開プランを示す。ここでは、物理マシンID SERVER20が選択され、移動先装置フィールド33870に格納される。
【0121】
プラン作成プログラム1160は、汎用リポジトリからコスト及び時間の情報を取得して、コストフィールド33880及び時間フィールド33890に格納する。さらに、汎用プランIDフィールド33820及び解析ルールIDフィールド33833に、選択した汎用プランIDと解析ルールIDを格納する。プラン作成プログラム1160は、作成した展開プランIDを展開プランIDフィールド33830に格納する。
【0122】
プラン作成プログラム1160は、後述するプラン実行影響分析処理(
図15及び
図17におけるステップ61040)により特定した影響範囲の情報を、影響コンポーネントリスト33835に格納する。
【0123】
続いて、プラン作成プログラム1160は、プラン実行影響解析プログラム1180に指示して、展開プランに対してプラン実行影響解析処理を実行する(ステップ63050)。ここでは記載しないが、それぞれの展開プランに対してプラン実行後のシミュレーションを実行することで各プランを実行することによりどの程度改善するかという効果を算出してもよい。
【0124】
全ての障害原因対象に対する処理の完了後、プラン作成プログラム1160は、画像表示プログラム1190に対して、プラン提示を要求し(ステップ63060)、処理を終了する。
【0125】
<プラン実行影響解析処理(ステップ63050)の詳細>
図17は、プラン実行影響解析プログラム1180が実行するプラン実行影響解析処理(ステップ63050)を示すフローチャートである。
【0126】
まず、プラン実行影響解析プログラム1180は、プラン実行影響ルールリポジトリ33950から、展開プランを導出する元になった汎用プランに対応するプラン実行影響ルールを取得する。プラン実行影響解析プログラム1180は、取得したプラン実行影響ルールによって、プラン実行によってメトリックが変化するコンポーネントの種別を決定する(ステップ64010)。当該コンポーネントの種別は、装置種別と装置部位種別とを用いて示される。
【0127】
プラン実行影響解析プログラム1180は、選択されたコンポーネント種別に対して、以下のステップ64020から64050までの処理を実行する。ステップ64020から64050において、プラン実行影響解析プログラム1180は、結論部フィールド33420において、選択されたコンポーネント種別と同じ装置種別及び装置部位種別を含む解析ルールを、解析ルールリポジトリ33400から選択する(ステップ64020)。つまり、プラン実行影響解析プログラム1180は、原因イベントの装置種別及び装置部位種別が、選択されたコンポーネント種別の装置種別及び装置部位種別と一致する解析ルールを選択する。
【0128】
なお、解析ルールの条件部フィールド33410が他のイベントの原因イベントなるイベントを含む場合、プラン実行影響解析プログラム1180は、条件部フィールド33410において選択されたコンポーネント種別と同じ装置種別及び装置部位種別を含む解析ルールを、選択してもよい。
【0129】
プラン実行影響解析プログラム1180は、選択された各解析ルールについて、ステップ64030からステップ64050までの処理を実行する。まず、プラン実行影響解析プログラム1180は、ファイルトポロジ管理表33200と、ネットワークトポロジ管理表33250と、VM構成管理表33280とを参照し、解析ルールの示すトポロジと一致する構成情報の組み合わせを選択する(ステップ64030)。
【0130】
プラン実行影響解析プログラム1180は、選択した構成情報の組み合わせに対して、解析ルールの条件部に該当するコンポーネントのうち、ステップ64010で選択されなかった各コンポーネントについて、ステップ64040及びステップ64050を行う。解析ルールの条件部に該当するコンポーネントのうち、ステップ64010で選択されなかったコンポーネントは、プラン実行影響ルールに示されるコンポーネントに対する影響から、二次的に影響を受けるコンポーネントである。つまり、プラン実行の影響が、プラン実行影響ルールに示される装置部位を介して、他のコンポーネントに波及する。
【0131】
ステップ64040において、プラン実行影響解析プログラム1180は、装置IDと装置内の部位ID、解析ルールの条件部33410で指定されているメトリックとステータスを選択する。ステップ64050において、プラン実行影響解析プログラム1180は、該当する展開プランの影響コンポーネントリスト33835に追加する。
【0132】
図12の例では、VMであるHOST10がSERVER10からSERVER20にPLAN1に従って移動される場合に、プラン実行影響解析プログラム1180は、まず汎用プランPLAN1とプラン実行影響ルール(
図14)から、このプランを実行する際に移動先のホスト計算機SERVER20のSCSI DISCの単位時間I/O量と、CPUの計算量と、ポートの単位時間I/O量が変化することを認識する(ステップ64010)。
【0133】
図14に示すように、この例の値の変化は、増加である。さらに、プラン実行影響解析プログラム1180は、選択したSERVER20のSCSI DISC、CPU、ポートそれぞれについて、該当イベントを原因イベントとして結論部フィールド33420に含む解析ルールを選択する(ステップ64020)。本例において、サーバのポートでの単位時間I/O量の変化のイベントが、
図9Bの解析ルールの結論部フィールド33420に含まれる。したがって、この解析ルールが選択される。
【0134】
次に、プラン実行影響解析プログラム1180は、選択した解析ルールの示すトポロジと一致するコンポーネントの組み合わせを、ネットワークトポロジ管理表33250から選択する。条件部フィールド33410は、接続しているコンポーネントの種別を示す。ここでは、プラン実行影響解析プログラム1180は、SERVER20のポート201とIPSW2のポート1の組み合わせを選択する(ステップ64030)。
【0135】
選択した組み合わせに含まれるコンポーネントのうち、ステップ64010で選択されなかったIPSW2のポート1について、解析ルールの条件部フィールド33410で指定されているメトリック(単位時間I/O量)とステータス(閾値異常)を、影響コンポーネントリスト33835に追加する(ステップ64050)。影響コンポーネントリスト33835は、プラン実行の副次的影響により発生し得るイベントを示す。
【0136】
<プラン提示処理(ステップ63060)の詳細>
図18は、ステップ63060により出力デバイス31200に出力される対策プラン一覧画像の一例を示す。
図18の例において、表示領域71010は、計算機システムにおける障害発生時に、管理者がその原因を追究して対策を実行する際に、その障害の原因の可能性のある部位と、その障害に対して取り得る対策プランのリストの対応関係を表示する。プラン実行ボタン71020は、対策プランを実行するための選択ボタンである。ボタン71030は、画像表示をキャンセルするためのボタンである。
【0137】
障害原因と障害に対する対策プランとの対応を表示する表示領域71010は、障害原因の情報として、障害原因の装置のID、障害原因の装置部位のID、障害と判定されたメトリックの種別、及び確信度を含む。確信度は、解析ルールによると発生するはずのイベント数に対する、実際に発生したイベント数の割合を示す。
【0138】
画像表示プログラム1190は、解析結果管理表33600から、障害原因(原因装置IDフィールド33610、原因部位IDフィールド33620、メトリックフィールド33630)及び確信度(確信度フィールド33640)を取得し、表示画像データを生成し、表示する。
【0139】
障害に対するプランの情報は、候補となるプラン、プラン実行にかかるコスト、プラン実行によりかかる時間を含む。さらに、障害が残り続ける時間及び影響が波及する可能性がある箇所が示される。
【0140】
画像表示プログラム1190は、障害に対するプランの情報を表示するため、展開プランリポジトリ33800において、取得したプラン対象フィールド33840、コストフィールド33880、時間フィールド33890、影響コンポーネントリストフィールド33835から、情報を取得する。なお候補となるプランの表示領域は、後述のプラン実行ボタン71020を押下した際に実行するプランをユーザに選択させるためのチェックボックスを含む。
【0141】
プラン実行ボタン71020は、選択されたプランの実行を指示するためのアイコンである。管理者は、入力デバイス31300を使用してプラン実行ボタン71020を押下することにより、候補となるプランのうち、チェックボックスが選択されている一つのプランを実行する。このプランの実行は、プランに対応づけられた具体的なコマンド群が実行されることにより、実現する。
【0142】
図18は、表示画像の一例であり、表示領域71010は、プラン実行にかかるコスト及び時間以外の、プランの特徴をあらわす情報をあわせて表示してもよく、他の表示態様を採用してもよい。管理サーバ計算機30000は、管理者の入力を受け付けることなく自動選択したプランを実行してもよいし、プラン実行機能を有していなくてもよい。
【0143】
以上第1の実施形態によれば、対処プランの作成時に、そのプラン実行によって影響を受ける可能性のある他コンポーネントが存在する場合に、その実行前に影響が存在することを示すことができる。このように障害対処プランの導出時に運用管理者は影響を受ける装置の存在を考慮した上でプランの実行を決定できるようになり、計算機システムに変更を加える場合の影響解析のための運用管理コストを削減できる。
【0144】
上記例は、プラン実行により影響を受けるコンポーネントを提示するが、それは必須ではない。例えば、管理サーバ計算機30000は、プラン実行の影響の解析結果を表示することなく、当該解析結果に応じてプランをスケジューリングし、実行してもよい。
【0145】
上述のように、計算機システムにおける障害原因解析のための解析ルールを利用して、構成変更を伴うプラン実行の影響を解析することで、適切かつ効率的にプラン実行の影響を解析することができる。管理サーバ計算機30000は、障害原因解析の解析ルールとは別に、プラン実行の影響を解析するための解析ルールを保持してもよい。
【0146】
第2の実施形態
第2の実施形態を説明する。以下では、第1の実施形態との差異を中心に説明し、同等の構成要素や、同等の機能を持つプログラム、同等の項目を持つテーブルについては、記載を省略する。
【0147】
本実施形態は、実行中のプランや、実行計画中のプランが存在する場合に、構成変更計画がそれらに影響を与えるかどうかを判定し、その判定結果に基づきプランをスケジューリングし、スケジューリングの情報を運用管理者に提示する。さらに、プラン実行状況を見積もり、プラン実行によりいつ回復するかを提示する。
【0148】
第1の実施形態は、対処プランの作成時にそのプランの実行によって影響を受ける可能性のある他コンポーネントが存在する場合に、その存在を提示した。この対処プランは、作成後、プラン実行ボタン71020の押下により実行される。
【0149】
第1の実施形態は、プランの実行に時間を要することを考慮していない。すなわち、プラン展開処理によりプランを作成する時点では、以前に実行したプランが実行中の可能性があり、作成中のプランがその実行に影響を与える可能性がある。
【0150】
第1の実施形態はその可能性を考慮していないため、プラン実行ボタン71020の押下によりすぐに選択されたプランが実行されることになり、結果として実行中のプランに影響を与える。
【0151】
第2の実施形態においては、そのような影響を低減するように、管理サーバ計算機30000は、プランの実行を管理する。管理サーバ計算機30000のメモリ32000は、第1の実施形態における情報(プログラム、表、リポジトリを含む)に加え、プラン実行プログラム、プラン実行記録プログラム、並びに、プラン実行記録管理表33970を保持する。
【0152】
第1の実施形態に置いてプラン実行ボタン71020の押下によりプランが実行される際には、プラン実行プログラムは、そのプランを実行する。プラン実行記録プログラムは、その実行状態を監視し、プラン実行記録管理表33970に記録する。
【0153】
図19は、プラン実行記録管理表33970の構成例を示す。プラン実行管理表33970は、実行中の展開プランIDフィールド33974と、実行開始時刻フィールド33975と、プランの実行状態フィールド33976と、を含む。
【0154】
例えば、
図19の第1段目(1つ目のエントリ)は、展開プラン"ExPlan2−1"が、"2010−1−1 14:30:00"に実行開始され、現在実行中であることを示す。また
図19の第2段目(2つ目のエントリ)は、展開プラン"ExPlan1−1"が、"2010−1−2 15:30:00"に実行されるように実行予約済みであることを示す。
【0155】
図20は、第2の実施形態の管理サーバ計算機30000のプラン実行影響解析プログラム1180が実行する、他プランへのプラン実行影響特定処理を示すフローチャートを示す。第1の実施形態では、プラン実行影響解析プログラム1180は、ステップ64010からステップ64050までにおいて、展開した各プランの実行に対して影響があるコンポーネントが存在するかどうかを判定した。
【0156】
第2の実施形態では、プラン実行影響解析プログラム1180は、ステップ64050の直後に展開したプランの実行が、プラン実行記録管理表33970に記録されているプランへ影響を与えるかどうかを判定する。
【0157】
プラン実行影響解析プログラム1180は、展開プラン33800の影響コンポーネントリスト33835から、影響を与える可能性があると第1の実施形態で判定したコンポーネントを選択する(ステップ65010)。
【0158】
プラン実行影響解析プログラム1180は、選択されたコンポーネントに対して、ステップ65020から65060までの処理を実行する。まず、プラン実行影響解析プログラム1180は、プラン実行記録管理表33970と展開プランリポジトリ33800内の展開プランを利用し、選択された装置の装置部位の記述された展開プランを示すエントリを選択する(ステップ65020)。
【0159】
このような展開プランがプラン実行記録管理表33970に存在する場合、作成中の展開プランが実行中又は実行予約済みの展開プランの実行に影響を与える可能性がある。このため、プラン実行影響解析プログラム1180は、選択したエントリに対して、ステップ65030から65060の処理を実行する。
【0160】
プラン実行影響解析プログラム1180は、ステップ65020で選択されたエントリに対して、エントリに含まれるプランが実行中かどうかをプラン実行記録管理表33970の状態フィールド33976から判定する(ステップ65030)。
【0161】
実行中ではない場合(ステップ65030:NO)、プラン実行影響解析プログラム1180は、作成中のプラン(ステップ65010で扱った展開プラン)の実行時間フィールド33890の値を現在時刻に加算し、プランの実行終了時刻を算出する(ステップ65040)。
【0162】
ステップ65020において、プラン実行影響解析プログラム1180は、選択されたエントリに含まれるプランの実行開始時刻フィールド33975の値が、算出した実行終了時刻よりも後かどうかを判定する(ステップ65050)。
【0163】
エントリに含まれるプランの実行開始時刻フィールド33975の値が、算出した実行終了時刻よりも遅い場合(ステップ65050:YES)、作成中のプランの実行はエントリに含まれるプランの実行に影響を与えない。
【0164】
一方で、エントリに含まれるプランが実行中の場合(ステップ65030:YES)、又は、エントリに含まれるプランの実行開始時刻フィールド33975の値が算出した実行終了時刻よりも前の場合(ステップ65050:NO)、作成中のプランの実行はエントリに含まれるプランの実行に影響を与える。
【0165】
その場合、プラン実行影響解析プログラム1180は、エントリに含まれるプランの実行終了までの時間を算出する。これは、エントリの実行開始時刻フィールド33975の値に、エントリに含まれる展開プランの時間フィールド33890の値を加算した値と、現在時刻との差を算出することにより求める。現在時刻から求めた時間内に作成中の展開プランを実行すると、エントリに含まれる展開プランの実行に影響を与える。
【0166】
そこで第2の実施形態は、一例として、この間に作成中の展開プランを実行することを避ける。つまり、実行中又は実行予約済みの展開プランの実行期間と作成中の展開プランの実行期間が重ならないように、作成中の展開プランをスケジューリングする。なお、影響が小さいのであれば、期間の一部が重なってもよい。
【0167】
プラン実行影響解析プログラム1180は、求めた時間を作成中の展開プランの実行時間に加算し、展開プランの時間フィールド33890の値を更新する。なお、この際に、プランを実行できない時間を区別できるように時間フィールド33890に記録する(ステップ65060)。
【0168】
図21は、第2の実施形態において、ステップ63060により出力される対策プラン一覧の一例を示す。
図18の画像との差異は、障害に対するプランの情報として表示している、プラン実行によりかかる時間の部分である。この部分は、ステップ65060によって加算された値と、プランを実行できない時間を表示するように変更されている。
【0169】
プラン実行ボタン71020が押下された場合、プラン実行プログラムは、第1の実施形態と同様に、プランを実行する。プラン実行プログラムは、展開プランの時間フィールド33890より、プランを実行できない時間が存在するかどうかを判定する。
【0170】
当該時間が存在しない場合、プラン実行プログラムは、プランに関連付けられたコマンド群を即時実行し、開始時刻と実行中の状態を、プラン実行記録管理表33970における当該エントリの実行開始時刻フィールド33975と状態フィールド33976に記録する。プランを実行できない時間が存在する場合、プラン実行プログラムは、現在時刻にその時間を加算した時刻と予約済みの状態を、それぞれ実行開始時刻フィールド33975と状態フィールド33976に記録する。
【0171】
以上第2の実施形態によれば、第1の実施形態での対処プランの実行による影響コンポーネントの特定に加え、プラン作成時に実行中又は予約済みのプランの存在を考慮して、そのようなプランが存在する場合に作成中の対処プランの実行開始時刻を制御することができる。
【0172】
このように障害対処プランの導出時に、影響を与える装置の存在を運用管理者が考慮できることに加え、影響を与える別のプランに対してその実行の終了を考慮して、適切にスケジューリングをした上でプランの実行を決定できるようになる。これにより、計算機システムに変更を加える場合の影響解析とスケジューリングのための運用管理コストを削減できる。
【0173】
なお、本発明は上記例に限定されるものではなく、様々な変形例が含まれる。例えば、上記例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある例の構成の一部を他の例の構成に置き換えることが可能であり、また、ある例の構成に他の例の構成を加えることも可能である。また、各例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0174】
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード等の記録媒体に置くことができる。