特許第5958987号(P5958987)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECプラットフォームズ株式会社の特許一覧

特許5958987情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
<>
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000002
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000003
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000004
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000005
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000006
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000007
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000008
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000009
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000010
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000011
  • 特許5958987-情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5958987
(24)【登録日】2016年7月1日
(45)【発行日】2016年8月2日
(54)【発明の名称】情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
(51)【国際特許分類】
   G06F 11/22 20060101AFI20160719BHJP
   G06F 11/00 20060101ALI20160719BHJP
【FI】
   G06F11/22 675C
   G06F11/00 608
【請求項の数】8
【全頁数】18
(21)【出願番号】特願2012-21935(P2012-21935)
(22)【出願日】2012年2月3日
(65)【公開番号】特開2013-161211(P2013-161211A)
(43)【公開日】2013年8月19日
【審査請求日】2015年1月8日
(73)【特許権者】
【識別番号】000227205
【氏名又は名称】NECプラットフォームズ株式会社
(74)【代理人】
【識別番号】100106909
【弁理士】
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100134544
【弁理士】
【氏名又は名称】森 隆一郎
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】有井 宏之
【審査官】 三坂 敏夫
(56)【参考文献】
【文献】 特開2008−117145(JP,A)
【文献】 特開2004−246468(JP,A)
【文献】 特開平10−320241(JP,A)
【文献】 特開平09−307635(JP,A)
【文献】 特開2011−013953(JP,A)
【文献】 特開平10−034122(JP,A)
【文献】 特開2011−154526(JP,A)
【文献】 特開2007−199844(JP,A)
【文献】 特開2007−086908(JP,A)
【文献】 特開2004−206166(JP,A)
【文献】 特開2003−50618(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/22
G06F 11/00
(57)【特許請求の範囲】
【請求項1】
交換可能な複数のハードウェアユニットと、前記ハードウェアユニットを診断するための故障診断制御部とを具備した情報処理装置であって、
前記各ハードウェアユニットは、当該ハードウェアユニットの通電時間の累積をカウントして保持する通電時間カウント部を有し、
前記故障診断制御部は、
前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定して、前記故障原因の可能性のある部位それぞれについての故障率に基づいて、障害の被疑となるハードウェアユニットを決定する故障解析部と、
前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位前記故障率を算出する故障率算出部と、を有する
ことを特徴とする情報処理装置。
【請求項2】
更に、前記ハードウェアユニットの部位毎に通電時間に対する故障率曲線に関する情報を保持する故障率特性保持部を有する
ことを特徴とする請求項に記載の情報処理装置。
【請求項3】
前記故障率特性保持部は、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線をデータとして保持する
ことを特徴とする請求項に記載の情報処理装置。
【請求項4】
前記故障率特性保持部は、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線を数式で求めるためのパラメータを保持する
ことを特徴とする請求項に記載の情報処理装置。
【請求項5】
前記故障特性保持部は、前記故障診断制御部に設けられ、前記ハードウェアユニットの部位毎に通電時間に対する故障率曲線に関する情報を一括して保持することを特徴とする請求項乃至の何れかに記載の情報処理装置。
【請求項6】
通電時間の累積をカウントして保持する通電時間カウント部を備えた複数のハードウェアユニットを交換可能に実装した情報処理装置の診断を行う故障診断制御装置であって、
前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定して、前記故障原因の可能性のある部位それぞれについての故障率に基づいて、障害の被疑となるハードウェアユニットを決定する故障解析部と、
前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位前記故障率を算出する故障率算出部と、を有する
ことを特徴とする故障診断制御装置。
【請求項7】
通電時間の累積をカウントして保持する通電時間カウント部を備えた複数のハードウェアユニットを交換可能に実装した情報処理装置の故障判定方法であって、
前記各ハードウェアユニットは、当該ハードウェアユニットの通電時間の累積をカウントして保持しており、
前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定し、
前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位の故障率を算出し、
前記故障原因の可能性のある部位それぞれについての前記故障率に基づいて、障害の被疑となるハードウェアユニットを決定する
ことを特徴とする情報処理装置の故障判定方法。
【請求項8】
通電時間の累積をカウントして保持する通電時間カウント部を備えた複数のハードウェアユニットを交換可能に実装した情報処理装置に実行させる故障判定プログラムであって、
前記情報処理装置に、
前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定して、前記故障原因の可能性のある部位それぞれについての故障率に基づいて、障害の被疑となるハードウェアユニットを決定する処理と、
前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位前記故障率を算出する処理と、
を実行させる故障判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、故障診断機能を有する情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラムに関する。
【背景技術】
【0002】
故障診断機能を有するサーバ等の情報処理装置には、ハードウェアユニットが交換可能に実装されると共に、各ハードウェアユニットを診断する故障診断制御部が備えられる。このような交換可能なハードウェアユニットは、保守交換単位(FRU:Field Replaceable Unit)と呼ばれている。また、各FRUとなるハードウェアユニットからは、障害が発生すると、障害が発生した部位に応じた障害情報が出力される。故障診断制御部は、この障害情報に基づいて、障害の発生している部位を特定し、その部位が含まれるハードウェアユニットを障害の被疑のハードウェアユニットとして判定する。保守作業員は、故障診断制御部により被疑のハードウェアユニットとして判定されたハードウェアユニットの交換を行うことで、障害に対処できる(例えば特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003−177939号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述のように、関連技術における故障診断機能を有する情報処理装置では、故障診断制御部が、ハードウェアユニットからの障害情報に基づいて、故障原因の可能性のある部位を特定し、故障の被疑となるハードウェアユニットの絞り込みを行っている。ところが、故障の被疑となるハードウェアユニットは、常に1つに絞り込めるとは限らない。故障原因の可能性がある部位が複数のハードウェアユニットに跨がり、インターフェースエラーとなり、故障の被疑となるハードウェアユニットが1つに絞り込めない場合もある。
【0005】
故障の被疑となるハードウェアユニットが1つに絞り込めない場合、故障原因の可能性のある部位が含まれるハードウェアユニットを全て交換することが考えられる。ところが、故障原因の可能性のある部位が含まれるハードウェアユニットを全て交換すると、障害とは無関係なハードウェアユニットも交換することになり、保守費用の増大や保守交換時間の拡大につながる。
【0006】
また、特許文献1には、インターフェースエラーに対処するために、エラーチェッカーのパターンを解析すると共に、部品の故障率を解析して、被疑部品を判定することが記載されている。しかしながら、特許文献1に示されているものでは、それぞれの部位に対応する故障率を固定に設定している。これに対して、電気部品や機械部品の信頼度は、時間と共に変化する。このため、各ハードウェアユニットの部位に対して固定の故障率を設定してしまうと、故障の被疑となるハードウェアユニットの判定を誤るおそれがある。
【0007】
また、各ハードウェアユニットの部位の故障率を、過去の障害情報に基づいて更新していくことで、故障率の信頼性を高めていくことが考えられる。しかしながら、各部位の故障率を過去の障害情報に基づいて更新していくためには、プログラム変更等が必要になる。
【0008】
本発明は、上述の課題を解決することのできる情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上述の課題を解決するために、本発明に係る情報処理装置は、交換可能な複数のハードウェアユニットと、前記ハードウェアユニットを診断するための故障診断制御部とを具備した情報処理装置であって、前記各ハードウェアユニットは、当該ハードウェアユニットの通電時間の累積をカウントして保持する通電時間カウント部を有し、前記故障診断制御部は、前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定して、前記故障原因の可能性のある部位それぞれについての故障率に基づいて、障害の被疑となるハードウェアユニットを決定する故障解析部と、前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位前記故障率を算出する故障率算出部と、を有することを特徴とする。
【0010】
本発明に係る故障診断制御装置は、通電時間の累積をカウントして保持する通電時間カウント部を備えた複数のハードウェアユニットを交換可能に実装した情報処理装置の診断を行う故障診断制御装置であって、前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定して、前記故障原因の可能性のある部位それぞれについての故障率に基づいて、障害の被疑となるハードウェアユニットを決定する故障解析部と、前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位前記故障率を算出する故障率算出部と、を有することを特徴とする。
【0011】
本発明に係る故障判定方法は、通電時間の累積をカウントして保持する通電時間カウント部を備えた複数のハードウェアユニットを交換可能に実装した情報処理装置の故障判定方法であって、前記各ハードウェアユニットは、当該ハードウェアユニットの通電時間の累積をカウントして保持しており、前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定し、前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位の故障率を算出し、前記故障原因の可能性のある部位それぞれについての前記故障率に基づいて、障害の被疑となるハードウェアユニットを決定することを特徴とする。
【0012】
本発明に係る故障判定プログラムは、通電時間の累積をカウントして保持する通電時間カウント部を備えた複数のハードウェアユニットを交換可能に実装した情報処理装置に実行させる故障判定プログラムであって、前記情報処理装置に、前記ハードウェアユニットからの障害情報を検出すると、前記ハードウェアユニットからの障害情報から故障原因の可能性のある部位が複数のハードウェアユニットに跨るか否かに基づいて障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記障害の部位が複数のハードウェアユニットに跨る場合には障害の被疑となるハードウェアユニットを特定できないと判定して、前記故障原因の可能性のある部位それぞれについての故障率に基づいて、障害の被疑となるハードウェアユニットを決定する処理と、前記通電時間カウント部に保持されている通電時間の累積と、前記ハードウェアユニットの部位毎の前記通電時間に対する故障率曲線に関する情報とに基づいて、前記ハードウェアユニットに含まれる部位のうち前記故障原因の可能性のある部位前記故障率を算出する処理と、を実行させる。
【発明の効果】
【0013】
本発明によれば、故障原因の可能性のある部位が複数のハードウェアユニットに跨がっている場合でも、故障の被疑となるハードウェアユニットをより適切に決定できる。
【図面の簡単な説明】
【0014】
図1】本発明の第1の実施形態に係る情報処理装置の概略構成の説明図である。
図2】本発明の第1の実施形態に係る情報処理装置の概略構成のブロック図である。
図3】故障率曲線の一例を示すグラフである。
図4】故障診断部の処理を示すフローチャートである。
図5】故障の被疑となるハードウェアユニットの判定処理の説明図である。
図6】ハードウェアユニットに搭載される部品の故障率曲線の一例を示すグラフである。
図7】通電時間カウント部の一例を示すブロック図である。
図8】通電時間カウント制御部の処理を示すフローチャートである。
図9】本発明の第2の実施形態の概略構成を示すブロック図である。
図10】本発明の第2の実施形態の概略構成を示すブロック図である。
図11】本発明の基本構成を示すブロック図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について図面を参照しながら説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る故障診断機能を有する情報処理装置の概略構成の説明図であり、図2はその概略ブロック図である。図1に示すように、本発明の第1の実施形態に係る情報処理装置1は、複数のハードウェアユニット11a、11b、11c、…と、故障診断制御部12とから構成されている。
【0016】
各ハードウェアユニット11a、11b、11c、…は、保守交換単位となるハードウェアユニット(FRU:Field Replaceable Unit)である。例えば、情報処理装置1がブレードサーバシステムである場合、FRUとなる各ハードウェアユニット11a、11b、11c、…は、各ブレードサーバとなる。なお、これに限らず、ハードウェアユニット11a、11b、11c、…は、交換可能な各種のボードやモジュールを含むことができる。
【0017】
なお、ここでは、説明の便宜上、3つのハードウェアユニット11a、11b、11cについてのみ説明するが、ハードウェアユニットの数は任意である。また、図1では、複数のハードウェアユニット11a、11b、11c、…と、故障診断制御部12とを同一の筐体内に配設して示しているが、故障診断制御部12は、複数のハードウェアユニット11a、11b、11c、…とは別体の故障診断装置に備わる構成しても良い。すなわち、例えば、情報処理装置1がブレードサーバシステムである場合、故障診断制御部12がブレードサーバシステムにネットワークを介して接続された外部の処理装置内に備わるようにしても良い。
【0018】
各ハードウェアユニット11a、11b、11c、…には、それぞれ、図2に示すように、多数の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…と、故障検出部31a、31b、31c、…と、通電時間カウント部32a、32b、32c、…と、入出力部33a、33b、33c、…とが設けられている。
【0019】
部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…は、各ハードウェアユニット11a、11b、11c、…において障害検出できる部位の単位(故障指摘対象部位)を示している。例えば、情報処理装置1がブレードサーバシステムである場合、部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…は、CPU(Central Processing Unit)、メモリ、電源、ファン等である。
【0020】
なお、ここでは、説明の便宜上、各ハードウェアユニット11a、11b、11cについて、3つの部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…のみ図示されている。しかしながら、各ハードウェアユニット11a、11b、11c…に配置される部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…の数、配置、配線等は、各ハードウェアユニット11a、11b、11c、…毎に様々であってよい。また、部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…に対する信号の入出力は、各ハードウェアユニット11a、11b、11c、…内で完結するものと、他のハードウェアユニット11a、11b、11c、…に跨がるものがあってよい。
【0021】
故障検出部31a、31b、31c、…は、各ハードウェアユニット11a、11b、11c、…内の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…に生じた障害を検出し、その部位や障害の種類に対応した障害情報を出力する。例えば、情報処理装置1がブレードサーバの場合、故障検出部31a、31b、31c、…は、ブート時に起動されるPOST(Power On Self Test)処理の故障診断機能により実現できる。
【0022】
通電時間カウント部32a、32b、32c、…は、各ハードウェアユニット11a、11b、11c、…の通電時間の累積をカウントして、保持する。すなわち、通電時間カウント部32aは、ハードウェアユニット11aが情報処理装置1に装着されてから現在に至るまでの通電時間の累計をカウントして保持する。また通電時間カウント部32bは、ハードウェアユニット11bが情報処理装置1に装着されてから現在に至るまでの通電時間の累計をカウントして保持する。また通電時間カウント部32cは、ハードウェアユニット11cが情報処理装置1に装着されてから現在に至るまでの通電時間の累計をカウントして保持している。
【0023】
入出力部33a、33b、33cはそれぞれ、ハードウェアユニット11a、11b、11c、…と、故障診断制御部12との間の信号の入出力を行う。
【0024】
故障診断制御部12は、ハードウェアユニット11a、11b、11c、…を診断するためのユニットである。故障診断制御部12は、図2に示すように、故障解析部51と、故障率算出部52と、故障率特性保持部53と、入出力部54とを備えている。
【0025】
故障解析部51は、各ハードウェアユニット11a、11b、11c、…からの障害情報を受信すると、この障害情報を解析して、故障原因の可能性がある部位を特定し、故障の被疑となるハードウェアユニット11a、11b、11c、…を判定する。故障の被疑となるハードウェアユニット11a、11b、11c、…の判定方法については、後に説明する。
【0026】
故障率特性保持部53は、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎に、通電時間に対する故障率曲線を保持している。
【0027】
すなわち、機械部品や電気部品の故障率は、時間とともに、ある一定の傾向をもって変化する。このような時間に対する故障率の変化の曲線は、故障率曲線と称される。図3は、故障率曲線の一例を示すグラフである。図3において、横軸は時間を示し、縦軸は故障率を示している。
【0028】
図3に示すように、故障発生期は、初期故障期と、偶発故障期と、摩耗故障期とに分けられる。初期故障期は、設備上の欠陥や製造工程上の誤り等により、使用開始後の比較的早期に生ずる故障の期間である。初期故障期では、使用開始後の比較的早期に故障が多く生じ、低規格製品の淘汰により、時間とともに故障率は急速に低下する。偶発故障期は、初期故障期の経過後に、偶発的に故障が発生する期間である。偶発故障期では、故障率がきわめて低く、故障の発生に時間依存性はない。摩耗故障期は、老朽化に伴い、故障が発生する期間である。摩耗故障期では、機械的な摩耗、化学的変化等の累積によって、時間とともに、故障率が加速度的に増大する。図3に示すような時間に対する故障率の変化の曲線は、バスタブに似た形状となる。このことから、このような故障率曲線は、「バスタブ曲線」とも呼ばれている。
【0029】
故障率特性保持部53はメモリからなり、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎に、このようなバスタブ曲線で示される通電時間に対する故障率曲線のデータを保持している。
【0030】
故障率算出部52は、各ハードウェアユニット11a、11b、11c、…の通電時時間で、故障率特性保持部53に保持されている故障率の変化情報を索引することで、故障原因の可能性がある部位の故障率を算出する。
【0031】
入出力部54は、故障診断制御部12と、ハードウェアユニット11a、11b、11c、…との間の信号の入出力を行う。
【0032】
次に、本発明の第1の実施形態における故障診断制御部12での処理について、図4のフローチャートを参照しながら説明する。
【0033】
前述したように、各ハードウェアユニット11a、11b、11c、…の故障検出部31a、31b、31c、…は、障害を検出すると、その部位に対応した障害情報を出力する。図4において、故障解析部51は、ハードウェアユニット11a、11b、11c、…の故障検出部31a、31b、31c、…からの障害情報を受信すると(ステップS101)、受信した障害情報を解析し、故障原因の可能性のある部位を特定する(ステップS102)。そして、故障解析部51は、故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっているか否かを判定する(ステップS103)。
【0034】
故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっていなければ、故障の被疑となるハードウェアユニット11a、11b、11c、…は1つに絞り込むことができる。したがって、ステップS103で、故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっていなければ(ステップS103 No)、故障解析部51は、故障原因の可能性のある部位に基づいて、故障の被疑となるハードウェアユニット11a、11b、11c、…を決定する(ステップS104)。
【0035】
ステップS103で、故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっている場合には(ステップS103 Yes)、故障解析部51は、故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…に対して、通電時間のリクエストを送信する(ステップS105)。
【0036】
故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…の制御部は、通電時間のリクエストを受信すると、各ハードウェアユニット11a、11b、11c、…の通電時間カウント部32a、32b、32c、…から通電時間の累積のカウント値を読み出す。そして故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…の制御部は、この通電時間の累積のカウント値を故障診断制御部12に送信する。故障診断制御部12の故障解析部51は、この通電時間の累積のカウント値を入出力部54を介して受信する(ステップS106)。
【0037】
故障解析部51は、故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…からの通電時間の累積のカウント値を受信すると、故障率算出部52に、故障原因の可能性のある部位の故障率の算出を行わせる。前述したように、故障率特性保持部53には、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎に、通電時間に対する故障率曲線が保持されている。したがって、故障率算出部52は、受信した故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…からの通電時間の累積のカウント値に基づいて、故障率特性保持部53に保持されている故障率曲線を読み出すことで、故障原因の可能性のある部位の故障率を算出する(ステップS107)。
【0038】
故障原因の可能性のある部位の故障率が算出されると、故障解析部51は、故障原因の可能性のある部位の故障率に基づいて、故障の被疑となるハードウェアユニット11a、11b、11c、…を決定する。例えば、故障解析部51は、故障原因の可能性のある部位の故障率から、被疑確率が最大となる部位を含むハードウェアユニット11a、11b、11c、…を故障の被疑となるハードウェアユニットして決定する(ステップS108)。
【0039】
このように、本発明の第1の実施形態では、故障の被疑となるハードウェアユニット11a、11b、11c、…が1つに絞り込めない場合には、故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…からの通電時間の累積のカウント値と、故障原因の可能性のある部位の通電時間に対する故障率曲線とから、故障原因の可能性のある部位の故障率を算出している。そして、算出された故障率に基づいて、故障の被疑となるハードウェアユニット11a、11b、11c、…を決定している。このため、故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっている場合でも、故障の被疑となるハードウェアユニット11a、11b、11c、…をより適切に決定できる。このことについて、以下に説明する。
【0040】
図5は、故障の被疑となるハードウェアユニットの判定処理の説明図である。例えば、図5に示すように、ハードウェアユニット11aに部品21a、22a、23a、…が実装され、ハードウェアユニット11bに部品21b、22b、23b、…が実装されていたとする。ここで、ハードウェアユニット11aの部品21aと、ハードウェアユニット11bの部品21bとの間では、信号の入出力が行われているとする。このような状態で、ハードウェアユニット11aの故障検出部31aから、部品21aを故障指摘対象とする障害情報が出力されたとする。
【0041】
ハードウェアユニット11aの部品21aを故障指摘対象とする障害情報が出力された場合、故障原因の可能性がある部位は、部品21aの他に、部品21aと信号の入出力を行っているハードウェアユニット11bの部品21bである。この場合、故障原因の可能性のある部位が複数のハードウェアユニット11a及び11bに跨がり、インターフェースエラーとなり、被疑となるハードウェアユニットが1つに絞り込めない。
【0042】
このような場合、本発明の第1の実施形態では、故障解析部51は、故障原因の可能性のある部位を含むハードウェアユニットの通電時間の累積のカウント値で、故障率特性保持部53に保持されている故障率曲線を索引することで、故障原因の可能性のある部位の故障率を算出し、故障率の最大となる部位を被疑として特定している。
【0043】
ここでは、故障原因の可能性のある部位は、ハードウェアユニット11aの部品21aと、ハードウェアユニット11bの部品21bである。故障率特性保持部53には、ハードウェアユニット11aの部品21aの故障率曲線として、図6(A)に示すような特性が蓄積され、ハードウェアユニット11bの部品21bの故障率曲線として、図6(B)に示すような特性が蓄積されているとする。また、故障が発生したときのハードウェアユニット11aの通電時間の累積はT11で、ハードウェアユニット11aの通電時間の累積はT21であるとする。
【0044】
この場合、故障解析部51は、故障原因の可能性のある部位を含むハードウェアユニット11a及び11bに通電時間の累積のリクエストを送信し、ハードウェアユニット11aの通電時間の累積としてT11を取得し、ハードウェアユニット11bの通電時間の累積としてT21を取得する。そして、故障解析部51は、ハードウェアユニット11aの通電時間の累積T11と、ハードウェアユニット11bの通電時間の累積T21を故障率算出部52に送る。
【0045】
故障率算出部52は、ハードウェアユニット11aの通電時間の累積T11と、図6(A)に示すハードウェアユニット11aの部品21aの故障率曲線とから、ハードウェアユニット11aの部品21aの故障率として、30fitを算出する。また、故障率算出部52は、ハードウェアユニット11bの通電時間の累積T21と、図6(B)に示すハードウェアユニット11bの部品21bの故障率曲線とから、ハードウェアユニット11bの部品21bの故障率として、70fitを算出する。なお、fit(Failure In Time)は所定時間当たりに故障が発生する確率を表す単位である。
【0046】
情報処理装置1の全体の故障率を100fitとすると、ハードウェアユニット11aの部品21aの故障率が30fit、ハードウェアユニット11bの部品21bの故障率が70fitなら、ハードウェアユニット11aの部品21aの被疑確率は30%、ハードウェアユニット11bの部品21bの被疑確率は70%となる。よって、最大の被疑確率となるのはハードウェアユニット11bの部品21bであり、故障率算出部52は、ハードウェアユニット11bを故障の被疑となるハードウェアユニットとして決定する。
【0047】
このように、本発明の実施形態では、故障の被疑となるハードウェアユニット11a、11b、11c、…が1つに絞り込めない場合には、故障原因の可能性のある部位を含むハードウェアユニット11a、11b、11c、…の通電時間の累積のカウント値で、故障原因の可能性のある部位の通電時間に対する故障率曲線を索引することで、故障原因の可能性のある部位の故障率を算出する。そして、算出された故障率に基づいて、故障の被疑となるハードウェアユニット11a、11b、11c、…を決定している。このため、故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっている場合でも、故障の被疑となるハードウェアユニット11a、11b、11c、…をより適切に決定できる。
【0048】
次に、ハードウェアユニット11a、11b、11c、…の通電時間カウント部32a、32b、32c、…について説明する。図7は、通電時間カウント部32a、32b、32c、…の一例を示すブロック図である。前述したように、通電時間カウント部32a、32b、32c、…は、各ハードウェアユニット11a、11b、11c、…の通電時間の累積をカウントして、保持する。このような通電時間カウント部32a、32b、32c、…は、図7に示すように、各ハードウェアユニット11a、11b、11c、…に設けられているEPROM(Erasable Programmable Read Only Memory)61と、実時間時計(RTC:Real Time Clock)62と、通電時間カウント制御部63により構成できる。
【0049】
EPROM61は、電源をオフしても、データを保持できる。通電時間の累積のカウント値は、このEPROM61の空き領域に格納できる。実時間時計62は、現在時刻を計測するものである。情報処理装置1がブレードサーバシステムの場合、各ブレードサーバには、EPROMや実時間時計は標準的に備えられている。また、通電時間カウント制御部63は、POST処理のファームウェアに実装できる。
【0050】
通電時間カウント制御部63は、以下にフローチャートで示すような処理を行うことで、各ハードウェアユニット11a、11b、11c、…の通電時間の累積値を蓄積する。
【0051】
図8は、通電時間カウント制御部63の処理を示すフローチャートである。図8において、通電時間カウント制御部63は、電源がオンされたことを検出すると(ステップS201 Yes)、実時間時計62から電源オン時の時刻RTC_1を取得して、保持しておく(ステップS202)。そして、通電時間カウント制御部63は、電源がオフされたことを検出すると(ステップS203 Yes)、実時間時計62から電源オフ時の時刻RTC_2を取得する(ステップS204)。そして、通電時間カウント制御部63は、ステップS202で取得した電源オン時の時刻RTC_1と、ステップS204で取得した電源オフ時の時刻RTC_2とから、今回の通電時間TIME(TIME=RTC_2−RTC_1)を算出する(ステップS205)。そして、通電時間カウント制御部63は、EPROM61からこれまでの通電時間の累積値A_TIMEを読み出し(ステップS206)、これまでの通電時間の累積値A_TIMEに今回の通電時間TIMEを加算して通電時間の累積値を更新し(A_TIME=A_TIME+TIME)(ステップS207)、更新された通電時間の累積値をEPROM61に保存する(ステップS208)。
【0052】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。図9は、本発明の第2の実施形態の概略構成を示すブロック図である。なお、図9において、図2に示した第1の実施形態と同一部分については、同一符号を付して、その説明を省略する。
【0053】
前述の第1の実施形態では、全てのハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線データを、一括して、故障診断制御部12の故障率特性保持部53に保存している。
【0054】
これに対して、この第2の実施形態では、ハードウェアユニット11a、11b、11c、…側に、故障率特性保持部153a、153b、153c、…が設けられる。そして、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線データは、それぞれ、ハードウェアユニット11a、11b、11c、…の故障率特性保持部153a、153b、153c、…に保存される。
【0055】
ハードウェアユニット11a、11b、11c、…を交換した場合、以前のハードウェアユニット11a、11b、11c、…に対して改良が施されていたり、異なった部品が装着されたりする可能性がある。この場合、通電時間に対する故障率曲線についても変わっている。また、情報処理装置1に、新たな機能のハードウェアユニット11a、11b、11c、…が装着される可能性がある。
【0056】
前述の第1の実施形態では、故障診断制御部12側に故障率特性保持部53が設けられ、この故障率特性保持部53に全てのハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線データを一括して保存している。このため、ハードウェアユニット11a、11b、11c、…の改良や、新たな機能のハードウェアユニット11a、11b、11c、…の追加に対応させることが難しい。この第2の実施形態では、ハードウェアユニット11a、11b、11c、…側に、故障率特性保持部153a、153b、153c、…が設けられているので、ハードウェアユニット11a、11b、11c、…の改良や、新たな機能のハードウェアユニット11a、11b、11c、…の追加に容易に対応できる。
【0057】
<第3の実施形態>
図10は、本発明の第3の実施形態を示すものである。なお、図10において、図2に示した第1の実施形態と同一部分については、同一符号を付して、その説明を省略する。
【0058】
前述の第1の実施形態では、故障診断制御部12の故障率特性保持部53に、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線をデータとして保存している。
【0059】
これに対して、この第3の実施形態では、故障率特性保持部253に、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線を求めるための数式のパラメータを保存している。そして、故障率曲線計算部255は、このパラメータを用いて数式により故障率曲線を計算し、故障率算出部52は、計算により求められた故障率曲線から、通電時間に対応する故障率を算出する。
【0060】
前述の第1の実施形態では、故障率特性保持部53に全てのハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線のデータを全て一括して保存するため、故障率特性保持部53のメモリ容量が大きくなる。これに対して、この実施形態では、故障率特性保持部253に、各ハードウェアユニット11a、11b、11c、…の部品21a、22a、23a、…、部品21b、22b、23b、…、部品21c、22c、23c、…毎の通電時間に対する故障率曲線を求めるための数式のパラメータを保存しているため、メモリ容量が削減できる。
【0061】
<基本構成>
図11は、本発明による情報処理装置の基本構成を示す概略ブロック図である。上述した実施形態では、本発明による情報処理装置1の実施形態について説明したが、本発明による情報処理装置の基本構成は、図11に示すとおりである。
【0062】
すなわち、本発明による情報処理装置は、交換可能な複数のハードウェアユニット11a、11b、11c、…と、ハードウェアユニット11a、11b、11c、…を診断するための故障診断制御部12とを具備した情報処理装置である。ハードウェアユニット11a、11b、11c、…は、各ハードウェアユニット11a、11b、11c、…の通電時間の累積をカウントして保持する通電時間カウント部32a、32b、32c、…を有する。故障診断制御部12は、通電時間カウント部32a、32b、32c、…に保持されている通電時間の累積と故障率曲線に基づいて、故障原因の可能性のあるハードウェアユニット11a、11b、11c、…に含まれる部位の故障率を算出する故障率算出部52と、ハードウェアユニット11a、11b、11c、…からの障害情報を検出する。すると、故障診断制御部12は、当該障害情報を解析すると共に、故障率算出部52で求められた故障率に基づいて、障害の被疑となるハードウェアユニット11a、11b、11c、…を決定する故障解析部51とを有する。これにより、故障原因の可能性のある部位が複数のハードウェアユニット11a、11b、11c、…に跨がっている場合でも、故障の被疑となるハードウェアユニット11a、11b、11c、…をより適切に決定できる。
【0063】
上述の故障診断制御部12は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0064】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0065】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0066】
(付記1)
交換可能な複数のハードウェアユニットと、前記ハードウェアユニットを診断するための故障診断制御部とを具備した情報処理装置であって、前記各ハードウェアユニットは、当該ハードウェアユニットの累積をカウントして保持する通電時間カウント部を有し、前記故障診断制御部は、前記通電時間カウント部に保持されている通電時間の累積と故障率曲線に基づいて、故障原因の可能性のあるハードウェアユニットに含まれる部位の故障率を算出する故障率算出部と、前記ハードウェアユニットからの障害情報を検出すると、当該障害情報を解析すると共に、前記故障率算出部で求められた故障率に基づいて、障害の被疑となるハードウェアユニットを決定する故障解析部とを有することを特徴とする情報処理装置。
【0067】
(付記2)前記故障解析部は、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できない場合には、前記故障率算出部で求められた故障率に基づいて、障害の被疑となるハードウェアユニットを判定することを特徴とする付記1に記載の情報処理装置。
【0068】
(付記3)更に、前記ハードウェアユニットの部位毎に通電時間に対する故障率曲線に関する情報を保持する故障率特性保持部を有することを特徴とする付記1又は2に記載の情報処理装置。
【0069】
(付記4)前記故障率特性保持部は、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線をデータとして保持することを特徴とする付記3に記載の情報処理装置。
【0070】
(付記5)前記故障率特性保持部は、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線を数式で求めるためのパラメータを保持することを特徴とする付記3に記載の情報処理装置。
【0071】
(付記6)前記故障特性保持部は、前記故障診断制御部に設けられ、前記ハードウェアユニットの部位毎に通電時間に対する故障率曲線に関する情報を一括して保持することを特徴とする付記3乃至5の何れかに記載の情報処理装置。
【0072】
(付記7)前記故障特性保持部は、各ハードウェアユニット毎に設けられ、前記各ハードウェアユニット毎に、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線に関する情報を保持することを特徴とする付記3乃至5の何れかに記載の情報処理装置。
【0073】
(付記8)複数のハードウェアユニットを交換可能に実装した情報処理装置の診断を行う故障診断制御装置であって、前記ハードウェアユニットに保持されている通電時間の累積と故障率曲線に基づいて、故障原因の可能性のあるハードウェアユニットに含まれる部位の故障率を算出する故障率算出部と、前記ハードウェアユニットからの障害情報を検出すると、当該障害情報を解析すると共に、前記故障率算出部で求められた故障率に基づいて、障害の被疑となるハードウェアユニットを決定する故障解析部とを有することを特徴とする故障診断制御装置。
【0074】
(付記9)前記故障解析部は、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できない場合には、前記故障率算出部で求められた故障率に基づいて、障害の被疑となるハードウェアユニットを決定することを特徴とする付記8に記載の故障診断制御装置。
【0075】
(付記10)更に、前記ハードウェアユニットの部位毎に通電時間に対する故障率曲線に関する情報を保持する故障率特性保持部を有することを特徴とする付記8又は9に記載の故障診断制御装置。
【0076】
(付記11)前記故障率特性保持部は、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線をデータとして保持することを特徴とする付記10に記載の故障診断制御装置。
【0077】
(付記12)前記故障率特性保持部は、前記各ハードウェアユニットの部位毎に通電時間に対する故障率曲線を数式で求めるためのパラメータを保持することを特徴とする付記10に記載の故障診断制御装置。
【0078】
(付記13)複数のハードウェアユニットを交換可能に実装した情報処理装置の故障判定方法であって、前記各ハードウェアユニットは、当該ハードウェアユニットの通電時間の累積をカウントして保持しており、前記ハードウェアユニットからの障害情報を検出すると、当該障害情報を解析すると共に、前記ハードウェアユニットに保持されている通電時間の累積と故障率曲線に基づいて、故障原因の可能性のあるハードウェアユニットに含まれる部位の故障率を算出し、障害の被疑となるハードウェアユニットを決定することを特徴とする情報処理装置の故障判定方法。
【0079】
(付記14)前記障害の被疑となるハードウェアユニットを決定は、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できるか否かを判定し、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できない場合には、前記求められた故障率に基づいて、障害の被疑となるハードウェアユニットを判定して行うことを特徴とする付記13に記載の情報処理装置の故障判定方法。
【0080】
(付記15)複数のハードウェアユニットを交換可能に実装した情報処理装置の故障判定プログラムであって、前記各ハードウェアユニットは、当該ハードウェアユニットの通電時間の累積をカウントして保持しており、前記ハードウェアユニットからの障害情報を検出するステップと、当該障害情報を解析するステップと、前記ハードウェアユニットに保持されている通電時間の累積と故障率曲線に基づいて、故障原因の可能性のあるハードウェアユニットに含まれる部位の故障率を算出し、障害の被疑となるハードウェアユニットを決定するステップとを含むことを特徴とするコンピュータにより実行可能な故障判定プログラム。
【0081】
(付記16)前記障害の被疑となるハードウェアユニットを決定するステップは、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できるか否かを判定するステップと、前記ハードウェアユニットからの障害情報から障害の被疑となるハードウェアユニットを特定できない場合には、前記求められた故障率に基づいて、障害の被疑となるハードウェアユニットを判定するステップとを含むことを特徴とする付記15に記載の故障判定プログラム。
【符号の説明】
【0082】
1:情報処理装置
11a,11b,11c: ハードウェアユニット
12: 故障診断制御部
21a〜23a,21b〜23b,21c〜23c:部品
32a,32b,32c:通電時間カウント部
33a,33b,33c:入出力部
51:故障解析部
52:故障率算出部
53:故障率特性保持部
54:入出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11