(58)【調査した分野】(Int.Cl.,DB名)
前記保守レベルを含んだ保守作業の指示情報の出力後、所定の条件が成立するまで、オンラインでの保守操作を禁止する保守操作ロック機能を有する請求項1から4いずれか一の情報処理システム。
さらに、管理対象のシステムの構成情報に基づいて、保守作業により影響を受ける他の運用システムまたは運用中の別の論理パーティションの有無を判別し、サービスプロセッサに通報する構成情報解析部を備え、
前記サービスプロセッサは、前記保守作業により影響を受ける他の運用システムまたは運用中の別の論理パーティションを、前記保守作業による障害検出を抑止させるよう制御する請求項1から5いずれか一の情報処理システム。
【発明の概要】
【発明が解決しようとする課題】
【0005】
以下の分析は、本発明によって与えられたものである。近年、電子機器製品のダウンサイジング化にともない、多くのコモディティプロセッサを高速ネットワークで接続する高密度実装サーバ(ブレード、クラスタ)技術など分散・並列処理技術が進んでいる。これらの技術の進歩により保守コスト削減のための構造設計も重要な要素の一つであるが、相反してシステム構成あるいは形態によってはより高度な高密度実装がとられ、定期保守あるいは障害発生時の保守自体も高度な訓練や相応の経験が必要となるケースがある。
【0006】
また、上記システム構成や形態に依存しない場合でも、設計不良、製造工程での初期不良あるいはロット不良(品質バラツキ)、顧客先での運用環境による劣化、部品の経年劣化等が挙げられ、これらの要因に応じて保守の対応も追随しないと適切な保守が出来ず、運用停止時間の長期化や健全に運用されているシステムへの副次的な影響を及ぼし兼ねずユーザに甚大な被害を与えることがある。
【0007】
上記のように、適切な保守を行うためには、保守作業の難易度に応じた訓練や経験が必要とされるところ、特許文献1の障害管理システムは、障害発生時に、障害要因部位について正確な被疑割合を提供することを主眼としており、保守作業の難易度を提供できるものとなっていない。
【0008】
特許文献2の電子機器は、異常状態が検出されると、異常状態の復旧難易度を算出すると記載されているが、当該復旧難易度は、異常状態を通知する通知メールの宛先を決定するために用いられているに過ぎない。また、復旧難易度の算出方法自体も、同公報
図4のような異常ステータスと復旧難易度とを対応付けたテーブル(異常ステータスエリア)から読み出すものであり、上述のように、システム構成や形態のみならず、様々な要素が絡み合って適切な保守を行う必要があるシステムには到底対応することは不可能である。
【0009】
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、上記した多種多様かつ難易度の異なる保守作業への対応を支援する情報処理システム、保守方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
本発明の第1の視点によれば、
少なくともプロセッサ、メモリを含む置換可能な部位を備えた情報処理システムであって、前記置換可能な部位からエラーコードが出力された場合、前記置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源にアクセスして、
前記エラーコードに対応する被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを
取得する障害要因解析部と、前記
被疑割合付きの障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する保守レベル算出部と、を備え、前記保守レベルを含んだ保守作業の指示情報を出力する情報処理システムが提供される。
【0011】
本発明の第2の視点によれば、
少なくともプロセッサ、メモリを含む置換可能な部位を備えた情報処理システムによる保守方法
であって、前記置換可能な部位からエラーコードが出力された場合、前記置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納し
た情報源にアクセスして、
前記エラーコードに対応する被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを
取得するステップと、
前記被疑割合付きの障害要因部位と
前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出するステップと、前記保守レベルを含んだ保守作業の指示情報を出力するステップとを含む、保守方法が提供される。本方法は、保守員に対し、保守レベルを含んだ保守作業の指示情報を出力する情報処理システムという、特定の機械に結びつけられている。
【0012】
本発明の第3の視点によれば、
少なくともプロセッサ、メモリを含む置換可能な部位を備えた情報処理システムに含まれるコンピュータに、
前記置換可能な部位からエラーコードが出力された場合、前記被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを
取得する処理と、
前記被疑割合付きの障害要因部位と
前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する処理と、前記保守レベルを含んだ保守作業の指示情報を出力する処理とを実行させるプログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
【発明の効果】
【0013】
本発明によれば、多種多様かつ難易度の異なる保守作業への対応を好適に支援することが可能となる。
【発明を実施するための形態】
【0015】
はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。
【0016】
本発明は、
図1に示すように、その一実施形態において、障害要因解析部110と、保守レベル算出部120と、前記保守レベルを含んだ保守作業の指示情報を出力する表示部130とを備える構成にて実現できる。
【0017】
より具体的には、障害要因解析部110は、管理対象のシステムに含まれる置換可能な部位のうちの障害要因部位を特定するための情報と、該障害要因部位の障害の履歴情報とを格納した情報源100にアクセスして、管理対象のシステムに含まれる置換可能な部位から発せられるエラーコードから、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する。
【0018】
そして、前記保守レベル算出部120は、障害要因部位と前記障害の履歴情報とに基づいて、保守作業の難易度を示す保守レベルを算出する。例えば、保守レベル算出部120は、ある障害要因部位に故障が多発している場合、保守レベルを引き上げる。これにより、相応の高度な訓練や経験を持った保守員による保守や、オンラインではなく、オフラインによる保守作業が行われる。
[第1の実施形態]
【0019】
続いて、本発明の第1の実施形態について図面を参照して詳細に説明する。
図2は、本発明の第1の実施形態の構成を表したブロック図である。
【0020】
図2を参照すると、障害情報管理サーバ12と接続された情報処理システム11が示されている。情報処理システム11は、主記憶装置(以下、「MEM」)21と、複数のプロセッサ(以下、「PROC」)22と、複数のノードコントローラ(以下、「NC」)23と、複数のクロスバスイッチ(以下、「Xbar」)24と、複数の入出力装置(以下、「IO」)25と、サービスプロセッサ(以下、「SVP」)26と、データ収集部40と、障害要因解析部41と、保守レベル算出部42と、コンソール43と、構成情報解析部44とを備えている。
【0021】
また、この情報処理システム11は、情報源として、FRU(Field Replacable Unit)テーブル30と、障害履歴格納部A31と、障害履歴格納部B32と、を備えている。
【0022】
MEM21、PROC22、NC23、Xbar24、IO25のいずれか1つあるいは複数の箇所で障害が検出された場合、信号線e001を介してエラーがSVP26に報告される。
【0023】
SVP26は、前記エラー報告を受信すると、そのサービスログから、上記MEM21、PROC22、NC23、Xbar24、IO25の障害情報を採取する。さらに、SVP26は、前記障害情報に含まれるエラーインディケータフラグ(EIF)をキーとして、FRUテーブル30から障害要因部位(NAME)やその被疑割合(RATE)等を抽出し、障害履歴格納部A31に登録する。
【0024】
FRUテーブル30は、エラーコードを示すエラーインディケータフラグ(EIF)に対応する障害要因部位(NAME)やその被疑割合(RATE)、製造ロット番号やリビジョン番号(REV)、ベンダーID(VID)等を登録したテーブルである。
【0025】
図3は、FRUテーブル30の一例を示す図である。例えば、EIFが「N0_EIF_0」には、FRU[0]として、NAME=N0_NCC、RATE=100、REV=A0001、VID=000という情報が対応付けられている。これは、「N0_EIF_0」とのエラーインディケータフラグ(EIF)から、障害要因部位として、100%の割合でN0ノードコントローラのカード「N0_NCC」が特定されることを示している。同様に、「N0_EIF_2」とのエラーインディケータフラグ(EIF)から、障害要因部位として、N0ノードコントローラのポート0「N0_P0」、N1ノードコントローラのポート0「N1_P0」、ケーブルA(CABLE_A)が特定される。また、それぞれ被疑割合は、49%、50%、1%という情報が得られる。
【0026】
また、
図3のFRUテーブルは、EIF毎に、エラー回数(Error Count)と、メンテナンス状態フラグ(MN1)とを保持可能となっている。これらの情報は、SVP26から適宜更新される。
【0027】
障害履歴格納部A31は、情報処理システム11で検出された障害の履歴情報を格納する。また、これらの障害の履歴情報に、製造ロットやベンダID等を含ませることで、障害発生頻度から、設計マージンに余裕のない機能や製造ロットにより障害発生頻度の多い部品の分析が可能となる。障害履歴格納部A31には、EIF毎に、エラー回数フィールドを管理するテーブルが備えられており、各EIFのエラー発生回数を把握できるようになっている。
【0028】
障害履歴格納部B32は、信号線n001を介して障害情報サーバ12から提供された他の情報処理システムで検出された障害の履歴情報を格納する。また、障害履歴格納部B32も、EIF毎に、エラー回数フィールドを管理するテーブルが備えられており、各EIFのエラー発生回数を把握できるようになっている。
【0029】
データ収集部40は、SVP26によるFRUテーブル30、障害履歴格納部A31の更新が完了すると、FRUテーブル30、障害履歴格納部A31及び障害履歴格納部B32のデータを収集し、障害要因解析部41及び構成情報解析部44に出力する。
【0030】
障害要因解析部41は、データ収集部40から出力されたデータに基づいて、報告されたエラーが過去の障害履歴、他の情報処理システムの障害履歴、製造ロット等を分析し、被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報とを生成する。また、障害要因解析部41が、必要に応じて外部サーバ等に対し、障害要因部位として特定された部位の情報等を問い合わせるようにしてもよい。
【0031】
保守レベル算出部42は、障害要因解析部41から出力された被疑割合付きの障害要因部位情報と、該障害要因部位の障害の履歴情報と、信号線n002を介して得られる保守情報とに基づいて、保守の難易度を算出し、被疑割合付きの障害要因部位情報とともに保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を出力する。例えば、保守支援情報に、保守時のミス(手順ミス)による障害や保守による故障(過剰な押し込み、引き込みなどにより発生したもの)の回数が含まれている場合、保守レベル算出部42は、この保守時のミスによる故障回数情報が多い部位の保守レベルを保守レベル高(難易度大)と算出する。前記保守レベルの算出は、例えば、予め定めた数式により、障害要因部位や、故障の回数、そのうちの保守時のミスによる回数等を評点に換算し、予め定めたレベル毎の閾値と、この評点と比較することにより求めることができる。なお、閾値は部品のFIT(Failure In Time)値等から障害要因部位毎に決めておくことが好ましい。
【0032】
コンソール43は、保守レベル算出部42から出力された、被疑割合付きの障害要因部位情報および保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を出力する。
【0033】
構成情報解析部44は、データ収集部40から出力されたデータに基づいて、運用形態から構成情報を分析してSVP26に伝達する。この分析結果には、例えば、障害要因部位の保守操作(カバーの脱着、ケーブルの移動/脱着、モジュール交換)に伴う副次的な影響による運用可否情報が含まれる。前記分析の結果、運用可能と判断された場合、SVP26は、MEM21、PROC22、NC23、Xbar24、IO25をメンテナンスモードに移行させるとともに、メンテナンスモード中のエラーカウント等の変更を実施する。
【0034】
障害情報管理サーバ12は、信号線n003、n004を介して、情報処理システム11を含む他の情報処理システムと接続され、障害情報を収集するサーバである。より具体的には、障害情報管理サーバ12は、前記収集した障害情報を蓄積する障害情報データベース(障害情報DB)35と、保守支援情報として情報処理システム11を含む他の情報処理システムにて行われた保守作業の情報を格納する保守情報データベース(保守情報DB)36とを備えている。障害情報DB35に格納された情報は、所定のタイミングで、信号線n001を介して、情報処理システム11の障害履歴格納部B32に転送される。
【0035】
なお、
図2に示した情報処理システム11のデータ収集部40、障害要因解析部41と、保守レベル算出部42とおよび構成情報解析部44はそれぞれ、情報処理システム11に搭載されたコンピュータに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することもできる。
【0036】
続いて、本実施形態の動作について図面を参照して詳細に説明する。情報処理システム11においては、以下の障害が発生しうる。
・MEM21−PROC22間
・PROC22−NC23間
・NC23−Xbar24間
・Xbar24−IO25間
・SVP26−MEM21、PROC22、NC23、Xbar24、IO25間
・MEM21、PROC22、NC23、Xbar24、IO25、SVP26の単体障害
以下の説明では、情報処理システム11の複数のノード間を接続しているXbar24とIO25間で障害を発生した場合の動作を説明する。
【0037】
図4は、本発明の第1の実施形態の情報処理システムにおいて、Xbar24またはIO25のいずれかにおいてエラーが検出された際の動作を表した流れ図である。
図4を参照すると、まず、Xbar24−IO25間の障害により、Xbar24またはIO25のいずれかにおいてエラーが検出されると(ステップS001)、SVP26へのエラー報告が行われる(ステップS002)。
【0038】
前記エラー報告を受けたSVP26は、そのサービスログ(SVPログ)から、上記Xbar24、IO25の障害情報を採取する(ステップS003)。
【0039】
次に、SVP26は、前記採取した障害情報に含まれるエラーインディケータ(EIF)をキーとしてFRUテーブル30から該当するデータを検索する(ステップS004)。次に、SVP26は、前記FRUテーブル30から検索したデータを障害履歴格納部A31に格納するとともに、データ収集部40を起動する。ここで、SVP26は、前記FRUテーブル30の該当するエントリのエラー回数フィールドの値を1加算する。
【0040】
データ収集部40は、まず、ステップS004での登録より前に、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていたか否かを確認する(ステップS005)。
【0041】
ここで、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていた場合(ステップS005のYes)、データ収集部40は、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部B32に登録されていたか否かを確認する(ステップS006−1)。
【0042】
また、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部A31に登録されていない場合も(ステップS005のNo)、同様に、データ収集部40は、ステップS003で特定されたエラーインディケータ(EIF)に対応するデータが障害履歴格納部B32に登録されていたか否かを確認する(ステップS006−2)。
【0043】
上記ステップS005、S006−1、S006−2の結果に応じて、ステップS007〜S010のいずれかの処理が行われる。また、障害履歴格納部A31、障害履歴格納部B32のいずれかまたは双方に、同一の障害履歴が存在していた場合、データ収集部40は、それぞれのエラー回数フィールドを管理するテーブルのエラー発生回数フィールドの値を1加算する。
【0044】
まず、障害履歴格納部A31、障害履歴格納部B32の双方に、同一の障害履歴が存在していた場合(ステップS005、S006−1が共にYes)、データ収集部40は、これら双方の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、前記双方の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS007)。
【0045】
一方、障害履歴格納部A31に、同一の障害履歴が存在しているが、障害履歴格納部B32に、同一の障害履歴が存在していない場合(ステップS005がYes、S006−1がNo)、データ収集部40は、障害履歴格納部A31の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、障害履歴格納部A31の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS008)。
【0046】
一方、障害履歴格納部A31に、同一の障害履歴が存在していないが、障害履歴格納部B32に、同一の障害履歴が存在している場合(ステップS005がNo、S006−2がYes)、データ収集部40は、障害履歴格納部B32の障害履歴を障害要因解析部41に出力する。障害要因解析部41は、障害履歴格納部B32の障害履歴情報について、製造ロット、ベンダーID等の条件を比較分析し、障害要因部位および障害要因部位の被疑割合の補正の必要性を判定する(ステップS009)。
【0047】
一方、障害履歴格納部A31、障害履歴格納部B32の双方に、同一の障害履歴が存在していない場合(ステップS005、S006−1が共にNo)、データ収集部40は、FRUテーブルのデータをそのまま送信する(ステップS010)。障害要因解析部41は、FRUテーブルのデータを用いて、障害要因部位と、該障害要因部位の被疑割合とを出力する(ステップS010)。
【0048】
なお、上記したステップS007〜S009における被疑割合の補正方法については、特許文献1に詳細に記載されている。
【0049】
次に、保守レベル算出部42が、前記ステップS007〜S010で得られた情報と保守支援情報とを基に保守の難易度を算出し、被疑割合付きの障害要因部位情報や保守支援情報とともに保守の難易度情報(保守レベル)を含んだ保守作業の指示情報を生成・出力する(ステップS011)。ここで、保守レベルの算出の結果、保守レベルが高い場合(難易度大)や、保守による他装置への副次的影響が予見される場合、保守レベル算出部42は、オンライン保守は行わないようにするといった指示を生成する。
【0050】
最後に、コンソール43にて、保守レベル算出部42から出力された保守指示が表示される(ステップS012)。保守員は、保守指示に応じて、例えば、運用停止後の保守(オフライン保守)に切り替えるための保守スケジュールを作成し、保守作業を開始する。
【0051】
続いて、保守作業の一連の流れを説明する。
図5は、保守作業の流れを表した図である。以下、本実施形態の情報処理システム11は、
図6に示すような論理パーティションによる複数のシステムが運用されているサーバであるものとする。また、そのNC23、Xbar24、IO25間は、
図7に示すように接続され、パーティション0(PAR0)と、パーティション1(PAR1)と、が構成され、それぞれ第1のオペレーティングシステム(OS_0)、第2のオペレーティングシステム(OS_1)に割り当てて運用されているものとして説明する。
【0052】
ここで、
図8のXbar1−IO1間での障害検出により、情報処理システム11は、暫定的に保守操作を禁ずる保守操作ロックを指示し、障害状態表示ランプの点滅動作等により、障害を検出したことを表示する。
図9は、情報処理システム11(
図11では、情報処理システム11中の装置A11A、装置B11Bのみを示す)に備えられるエラー状態表示ランプ(EF表示)48およびメンテナンス状態表示ランプ(MF表示)47の点灯制御を行う回路構成を示す図である。ここでは、情報処理システム11に含まれる装置11A、11Bのいずれかで障害(EF)が検出されると、EF制御部46が、エラー状態表示ランプ(EF表示)48を点滅させる。これにより、コンソール以外でも保守員等に障害発生を認識させることができる。
【0053】
次に、情報処理システム11は、その障害がシステムの自動訂正機能等により訂正可能な障害であるか否かを判定する(ステップS101)。ここで、訂正可能な障害と判断した場合(ステップS101のYES)、情報処理システム11は、自動訂正処理を行ない、エラー状態表示ランプ(EF表示)48を消灯する(ステップS102)。
【0054】
訂正可能な障害でないと判断した場合(ステップS101のNO)、次に、該当データを再送可能であるか否かを判定する。ここで、該当データを再送不可能な障害と判断した場合(ステップS103のNO)、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。
【0055】
該当データを再送可能な障害と判断した場合(ステップS103のYES)、メンテナンスモードに遷移させるか否かの判断が行われる(ステップS104)。なお、ここで、他に稼動中のシステムがなく、保守操作ミス等による副次的なシステム障害の影響がない場合、メンテナンスモードへの遷移は不要と判断され、保守指示書に基づいて保守が行われる(ステップS104のNO)。具体的には、今回検出された障害の発生件数(エラー回数)が所定の閾値未満であれば(ステップS105のNO)、運用継続となり(ステップS106)、そうでない場合には、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。なお、
図5の例では、Xbar1−IO1間を閉塞する前に、予防保守通知(ステップS108)を出力するか否かのエラー判定が行われる(ステップS107)。
【0056】
一方、
図8に示すように、第1のオペレーティングシステム(OS_0)、第2のオペレーティングシステム(OS_1)が運用中である場合、ステップS104において、メンテナンスモードに遷移する。この場合、情報処理システム11は、
図9に示すメンテナンス状態表示ランプ(MF表示)47を点灯する。
【0057】
前記メンテナンス状態表示ランプ47の点灯やコンソール43の表示により、メンテナンスモードに移行したことを認識した保守員は、コンソール43に表示された障害履歴、保守情報、保守レベル(難易度)等から総合的に判断し、運用中の保守(オンライン保守)を実施するか否かを判断する(ステップS109)。
【0058】
ここで、例えば、保守レベルが高い場合(難易度大)、保守による他装置への副次的影響が予見されるため、保守員は、オンライン保守は行わず、顧客と相談しシステムダウンに繋がるような副次的な影響を排除した保守スケジュールに変更することができる(
図5の流れ図の作業を中断)。
【0059】
一方、保守レベルが高くなく(難易度小〜中)、オンライン保守が可能と判断された場合、保守員は、保守ロック指示を解除し、保守作業を開始する。
【0060】
まず、保守員は、障害要因部位IO1の交換に先立って閾値変更処理を行なう(ステップS110)。
図10は、障害要因部位IO1を交換する際にエラー閾値を変更する箇所を表わした図である。
図10の例では、IO1の交換による論理パーティションへの影響を最小限にするために、SVP26より、Xbar0−I0、Xbar0−I1、Xbar1−I0、Xbar1−I1のエラーカウントの閾値変更が行われている。具体的には、交換作業の間にエラーが発生しても、システムの切り離しや予防保守通知の出力が抑止されるよう、これらのエラーカウントの閾値を暫定的に引き上げる、あるいは、エラーカウントを無効化する等の措置が行われる。
【0061】
これにより、
図11に示すように、メンテナンスモードにおいて、前記閾値等のパラメータの調整が行われるため(S202、S204、S206)、交換部位に関連する箇所にて障害が検出されても(
図11のS203、S205、S207)、エラー判定1〜3(S208〜S210)にて、否定判定が行われる。続く、エラー分析(S211)においても、メンテナンスモードである旨と、構成情報と、これらのエラー判定結果とを踏まえた分析が行われ、メンテナンスを中断するか否かやエラー表示を行うか否かが決定される。さらに、これらの結果は、保守情報DB36に蓄積される。
【0062】
上記閾値変更後、今回検出された障害の発生件数(エラー回数)が前記変更後の閾値未満であれば(ステップS111のNO)、メンテナンスモードを維持した状態で運用継続となる(ステップS112)。この結果、保守による他のシステムへの副次的影響が最小限に抑えられる。
【0063】
一方、今回検出された障害の発生件数(エラー回数)が前記変更後の閾値を越えてしまうような場合には、
図11に示したフローにて、エラー判定が行われる(ステップS113)。前記エラー判定の結果、NG(メンテナンス中断)と判定した場合、コンソール43等にエラー判定通知が出力され(ステップS116)、リカバリ不可障害と判断し、Xbar1−IO1間を閉塞する処理が行われる。この場合、
図9に示すメンテナンス状態表示ランプ(MF表示)47やエラー状態表示ランプ(EF表示)48を点灯させるなどを併せて行ってもよい。その際に、エラー発生箇所の数やエラー件数などに応じて、エラー状態表示ランプ(EF表示)48の点灯数を制御するようにしてもよい。
【0064】
一方、前記エラー判定の結果、OK(メンテナンス継続可)と判定した場合、メンテナンスモードを維持した状態で運用継続となる(ステップS114)。この結果、保守による他のシステムへの副次的影響が最小限に抑えられる。
【0065】
以上の過程を経て、保守が完了したら、再度、
図10に示したエラーカウント閾値等を戻し、メンテナンスモードを解除し通常運用に復帰する。
【0066】
以上のように、本実施形態によれば、保守レベルを含んだ保守作業の指示情報が出力されるため、保守員に適切な保守させることができる。加えて、保守レベルが高くなく保守を行う場合においても、上述の保守作業の流れのように、エラー回数の閾値を適宜引き上げることで、運用中の他のシステムへの影響を低減することができる。これらにより、近年問題となっている平均復旧時間(MTTR)を短縮して保守員への負担を軽減し、なおかつ顧客への影響を最小限に止めることができる。
【0067】
システム縮退や拡張に伴う構成変更の際に、障害履歴および保守履歴情報を反映することにより、極力障害発生の高い部位を回避してシステムの構成および保守を支援することができる。これにより、平均故障間隔(MTBF)の影響を最小限にとどめ、結果としてシステムの稼働率が改善してシステム全体の信頼性を向上させることができる。
【0068】
以上、本発明の実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、上記した実施形態では、障害検出時の保守の例を挙げて説明したが、定期点検による部品交換、予兆保守による作業の場合も同様に適用可能である。
【0069】
また、上記した実施形態では、エラー回数の閾値の変更等により、保守作業による副次的影響を低減するものとして説明したが、一時的に動作モードを可変にしデータの転送レートを低下させること等により保守による副次的影響を最小限にするようにしてもよい。
【0070】
また、上記した実施形態では、保守情報DB36には、情報処理システム11を含む他の情報処理システムにて行われた保守作業の情報を格納するものとして説明したが、下記のような情報を記録しておくことも望ましい。
・メンテナンスレコーダによる保守、点検操作の映像情報
これらの映像情報は、障害部位やエラーコード等のタグを付与され、障害発生時に障害部位等より関連する映像情報を索引、参照できるようにすることが好ましい。また、これら映像情報は、定点WEBカメラやベテラン保守員が着用する小型カメラ(例えば、メガネに装着した小型カメラ)等から収集するようにしてもよい。加えて、これらのWEBカメラや小型カメラには、障害情報管理サーバ12に対し、保守あるいは点検の開始から完了までの情報を送信する手段および格納する手段を設けることが好ましい。さらに、遠隔地の保守員がリアルタイムで上記映像情報を視聴できるようにしてもよい。もちろん、セキュリティレベルや保守員のアクセスポリシに基づいた視聴制御が行われる。
【0071】
また、上記した実施形態では、情報処理システム11が単体で動作するものとして説明したが、複数の情報処理システムで障害情報を授受し、他の情報処理システムから障害報告の受信の都度、保守レベルを再計算して保守員に提示するにしてもよい。例えば、他の情報処理システムから、ある部位の障害報告を受信した場合、情報処理システム11が、過去の障害履歴情報を参照し同一部位あるいは関連部位の有無を判定するようにすることができる。
【0072】
また、上記した実施形態では、保守レベルを算出するためのパラメータは予め登録されているものとして説明したが、適宜、これらを点検、修正できるようにしてもよい。例えば、実際に行う保守の形態(オンライン、オフライン)、サーバの型(ラックマウント、ブレード)情報を用いることで、より精緻な保守指示を出力することができる。加えて、本来はオンラインでメンテナンスが可能であるが、当該保守を行った場合、保守対象外(管理対象外)の装置に影響する可能性があるか否かを判定するようにしてもよい。その結果によって、例えば、保守対象外(管理対象外)への影響によりシステムダウンとなる致命障害のリスクがある場合は、顧客への問い合わせを行い保守スケジュールを確立するといった運用を行うことが可能になる。
【0073】
なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。