IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

<>
  • 特開-情報処理装置及び推定方法 図1
  • 特開-情報処理装置及び推定方法 図2
  • 特開-情報処理装置及び推定方法 図3
  • 特開-情報処理装置及び推定方法 図4
  • 特開-情報処理装置及び推定方法 図5
  • 特開-情報処理装置及び推定方法 図6
  • 特開-情報処理装置及び推定方法 図7
  • 特開-情報処理装置及び推定方法 図8
  • 特開-情報処理装置及び推定方法 図9
  • 特開-情報処理装置及び推定方法 図10
  • 特開-情報処理装置及び推定方法 図11
  • 特開-情報処理装置及び推定方法 図12
  • 特開-情報処理装置及び推定方法 図13
  • 特開-情報処理装置及び推定方法 図14
  • 特開-情報処理装置及び推定方法 図15
  • 特開-情報処理装置及び推定方法 図16
  • 特開-情報処理装置及び推定方法 図17
  • 特開-情報処理装置及び推定方法 図18
  • 特開-情報処理装置及び推定方法 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024010475
(43)【公開日】2024-01-24
(54)【発明の名称】情報処理装置及び推定方法
(51)【国際特許分類】
   G06F 11/07 20060101AFI20240117BHJP
【FI】
G06F11/07 190
G06F11/07 140H
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022111839
(22)【出願日】2022-07-12
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100092978
【弁理士】
【氏名又は名称】真田 有
(74)【代理人】
【識別番号】100189201
【弁理士】
【氏名又は名称】横田 功
(72)【発明者】
【氏名】金谷 学
【テーマコード(参考)】
5B042
【Fターム(参考)】
5B042JJ06
5B042KK15
5B042KK20
(57)【要約】
【課題】訂正不可能な障害が生じた場合においても、障害が生じたことが疑われる被疑部品を推定する。
【解決手段】情報処理装置の複数の構成部品のそれぞれにおいて生じる障害にしたがって、予め定められた基準に応じた重みづけ値を構成部品ごとに付与した被疑部品推定情報を記憶装置に記憶し、複数の構成部品のいずれかにおいて障害として訂正不可能な障害が発生した場合に、被疑部品推定情報に含まれる重みづけ値に基づいて、訂正不可能な障害が生じたことが疑われる被疑部品を推定する、制御部を備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
情報処理装置の複数の構成部品のそれぞれにおいて生じる障害にしたがって、予め定められた基準に応じた重みづけ値を前記構成部品ごとに付与した被疑部品推定情報を記憶装置に記憶し、
前記複数の構成部品のいずれかにおいて前記障害として訂正不可能な障害が発生した場合に、前記被疑部品推定情報に含まれる前記重みづけ値に基づいて、前記訂正不可能な障害が生じたことが疑われる被疑部品を推定する、
制御部を備える、情報処理装置。
【請求項2】
前記訂正不可能な障害は、前記複数の構成部品のうちのプロセッサからの読み出しが不可能な障害である、
請求項1に記載の情報処理装置。
【請求項3】
前記被疑部品推定情報は、複数の構成部品のそれぞれにおいて、前記障害の発生回数、前記障害の発生間隔、及び直近の前記障害の発生時期のうち少なくとも一つの項目を含み、
前記制御部は、前記被疑部品を推定する処理において、前記少なくとも一つの項目についての前記重みづけ値に基づいて、前記被疑部品を推定する、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記被疑部品推定情報は、前記訂正不可能な障害が前回生じた時期と、前記構成部品を交換した時期の情報とを含んでおり、
前記制御部は、前記訂正不可能な障害が前回生じた時期と、前記構成部品を交換した時期とを比較し、
前記訂正不可能な障害が前回生じた時期よりも前記構成部品を交換した時期が後である場合には、前記構成部品を交換したことを提示する、
請求項1又は2に記載の情報処理装置。
【請求項5】
前記制御部は、
前記情報処理装置の複数の構成部品のそれぞれにおいて生じる前記障害について、将来の前記訂正不可能な障害の予兆となり得ることを示す種別を含むリストを予め記憶装置に記憶し、
前記被疑部品推定情報を前記記憶装置に記憶する処理において、前記リストにおいて前記種別が記録された障害について前記被疑部品推定情報を記憶する、
請求項1又は2に記載の情報処理装置。
【請求項6】
情報処理装置の複数の構成部品のそれぞれにおいて生じる障害に対して、予め定められた基準に応じた重みづけ値を付与した被疑部品推定情報を記憶装置に記憶し、
前記複数の構成部品のいずれかにおいて前記障害として訂正不可能な障害が発生した場合に、前記被疑部品推定情報に含まれる前記重みづけ値に基づいて、前記訂正不可能な障害が生じたことが疑われる被疑部品を推定する、
処理を前記情報処理装置が実行する、推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び推定方法に関する。
【背景技術】
【0002】
コンピュータ等の情報処理装置において、Central Processing Unit(CPU)内部エラー(Internal Error(IERR))が発生する場合がある。CPU内部エラーは、主としてCPUと通信可能な部品における障害に起因する。CPU内部エラーが発生した場合、システム管理部(System Management Block)は、CPUから障害情報を読み出す。システム管理部は、読み出した障害情報に基づいて、障害の発生が疑われる被疑部品を推定して、ユーザに知らせる。
【0003】
軽故障の発生件数に応じて、障害が疑られる被疑部品の推定内容を変更する技術や、障害情報に含まれる障害発生日時から障害発生間隔を算出する技術、直近の障害発生日に基づいて、障害の発生頻度を算出し、算出結果から、修復困難な故障発生の可能性を報告する技術が存在する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015-162030号公報
【特許文献2】特開2002-323997号公報
【特許文献3】特開2001-243276号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
CPU内部エラーとして、訂正可能な障害(Correctable Error(CE))と、訂正不可能な障害(Uncorrectable Error(UE))とが存在する。障害がUEである場合には、CPUの動作不能等に起因して、システム管理部が障害情報を取得できない場合がある。この結果、被疑部品を推定することが困難となるおそれがある。
【0006】
1つの側面では、訂正不可能な障害が生じた場合においても、障害が生じたことが疑われる被疑部品を推定することを目的とする。
【課題を解決するための手段】
【0007】
1つの側面では、情報処理装置は、制御部を備える。制御部は、情報処理装置の複数の構成部品のそれぞれにおいて生じる障害に対して、予め定められた基準に応じた重みづけ値を付与した被疑部品推定情報を記憶装置に記憶する。制御部は、複数の構成部品のいずれかにおいて障害として訂正不可能な障害が発生した場合に、被疑部品推定情報に含まれる重みづけ値に基づいて、訂正不可能な障害が生じたことが疑われる被疑部品を推定する。
【発明の効果】
【0008】
1つの側面では、訂正不可能な障害が生じた場合においても、障害が生じたことが疑われる被疑部品を推定することができる。
【図面の簡単な説明】
【0009】
図1】関連技術における情報処理装置のハードウェア構成例を模式的に示すブロック図である。
図2】実施形態における情報処理装置のハードウェア構成の第1例を模式的に示すブロック図である。
図3図2に示す情報処理装置におけるCE及びUEの発生例を示す図である。
図4図2に示す情報処理装置の第1例を模式的に示す図である。
図5図2に示す情報処理装置のエラーレジスタに記憶される障害情報の一例を示す図である。
図6図2に示す情報処理装置が予め格納しているCEカテゴリ表の一例を示す図である。
図7】CEの障害発生間隔に応じた重みづけ値#1について示す図である。
図8】CEの障害発生回数に応じた重みづけ値#2について示す図である。
図9】直近のCEの発生時期に応じた重みづけ値#3について示す図である。
図10】重みづけ値の合算値及び被疑順位について示す図である。
図11図2に示す情報処理装置における直近UE発生時期の情報の一例を示す図である。
図12図2に示す情報処理装置において記憶装置に記憶される予兆リストの一例を示す図である。
図13図2に示す情報処理装置において作成されるエラー推定リストの一例を示す図である。
図14図2に示す情報処理装置におけるシステム管理部の機能を模式的に示す図である。
図15図2に示す情報処理装置におけるシステム管理部による処理の一例を示すフローチャートである。
図16図2に示す情報処理装置におけるシステム管理部による障害解析処理の一例を示すフローチャートである。
図17図2に示す情報処理装置におけるシステム管理部による予兆リストの活用処理の一例を示すフローチャートである。
図18】実施形態における情報処理装置の第2例を模式的に示す図である。
図19】実施形態における情報処理装置の第3例を模式的に示す図である。
【発明を実施するための形態】
【0010】
〔A〕関連技術
図1は、関連技術における情報処理装置2のハードウェア構成例を模式的に示すブロック図である。
【0011】
図1に示す情報処理装置2は、システム100及びシステム管理部4を備える。システム100及びシステム管理部4は、一つのボード3に設けられてよい。
【0012】
システム100は、CPU10,メモリ20-1~20-4,及びPCIカード30-1~30-3を備えるコンピュータシステムであってよい。
【0013】
CPU10(プロセッサ)は、例示的に、種々の制御や演算を行う処理装置であり、メモリ20-1~20-4等に格納されたOperating System(OS)及びプログラムを実行することにより、種々の機能を実現する。
【0014】
メモリ20-1~20-4(メモリ20と総称する場合がある)は、例示的に、Read Only Memory(ROM)及びRandom Access Memory(RAM)を含む記憶装置である。RAMは、例えばDynamic RAM(DRAM)であってよい。メモリ20のROMには、Basic Input/Output System(BIOS)等のプログラムが書き込まれてよい。メモリ20のソフトウェアプログラムは、CPU10に適宜に読み込まれて実行されてよい。また、メモリ20のRAMは、一次記録メモリあるいはワーキングメモリとして利用されてよい。
【0015】
PCIカード30-1~30-3(PCIカード30と総称する場合がある)は、コンピュータの主基板であるボード3に接続されて特定の機能を追加する拡張カードの一種であり、PCIバスで通信を行なう。但し、PCIカード30に代えて、種々の拡張カード等のI/Oデバイスが用いられてもよい。
【0016】
図1においては、メモリ20として、4つのメモリ#1~#4が設けられており、PCIカード30として、3つのPCIカード#1~#3が設けられている。但し、メモリ20及びPCIカード30の数は、図1に示す例に限定されない。
【0017】
CPU10は、コア11,キャッシュ(cache)12,メモリコントローラ13,I/Oコントローラ14,他制御回路15,及びエラーレジスタ16を備えてよい。
【0018】
コア11は、CPU10(マイクロプロセッサ)の内部で、独立して機能する演算装置であり、プロセッサコアと称される。キャッシュ12は、CPU10がメモリ20から読み出したデータを一時記憶するメモリ回路である。
【0019】
メモリコントローラ13は、メモリ20のインタフェースを統括する。一例において、メモリコントローラ13は、コンピュータシステム上でRAMのデータの読み出し及び書き込み、ならびにDRAMのリフレッシュなどの各処理を実行する。
【0020】
I/Oコントローラ14は周辺機器とCPU10との接続及び通信を制御する。本例では、I/Oコントローラ14は、各PCIカード30との通信を制御する。
【0021】
他制御回路15は、キャッシュ12,メモリコントローラ13,及びI/Oコントローラ14以外の回路部分である。例えば、他制御回路15は、電源を制御するコントローラである。
【0022】
エラーレジスタ16は、障害情報を格納するレジスタである。障害情報は、障害の種別,障害が検出された検出部位,エラーコード,及び障害が生じたと疑われる対象部品等のデータを含んでよい。障害情報の詳細は後に詳述される。
【0023】
障害は、CPU内部エラーであってよい。CPU内部エラーは、CPU10が設けられたCPUシステム(システム100)内において検出した障害であってよい。CPU内部エラーは、コア11の外部の部品で生じた障害であることが一般的である。一例において、CPU内部エラーは、キャッシュ12,メモリ20,PCIカード30,他制御回路15において発生した障害を含む。
【0024】
CPU内部エラーは、CPU10内のキャッシュ12,メモリコントローラ13,I/Oコントローラ14等の検出部位において検出される。メモリ20において障害が発生した場合には、メモリコントローラ13が障害を検出する。PCIカード30等のI/Oデバイスにおいて障害が発生した場合には、I/Oコントローラ14が障害を検出する。
【0025】
障害が検出された場合には、障害が発生した旨がCPU10からシステム管理部4に対して通知される。さらに、障害情報が、CPU10内のレジスタ(エラーレジスタ16)に格納される。
【0026】
システム管理部4は、障害が発生した旨の通知を受けた場合、CPU10内のエラーレジスタ16から障害情報を読み出す。
【0027】
システム管理部4は、読み出した障害情報に基づいて、故障部品を特定する。システム管理部4は、特定した故障部品についての情報を内部ログとして記録してよい。内部ログは、システムイベントログ(System Event Log)であってよい。システム管理部4は、発生した障害についての情報を内部ログとしてユーザに提供する。ユーザに提供される情報には、故障部品の指摘情報が含まれる。ユーザは、システム管理部4にアクセスすることによって、内部ログを閲覧することができる。
【0028】
CPU内部エラーとして、訂正可能な障害(Correctable Error(CE))と、訂正不可能な障害(Uncorrectable Error(UE))とが存在する。
【0029】
CEは、複数の構成部品のうちのCPU10(プロセッサ)からの障害情報の読み出しが可能な障害である。一方、UEが発生した場合、CPU10の動作不能等に起因して、システム管理部4が障害情報をCPU10のエラーレジスタ16から読み出し不可能な場合がある。システム管理部4が、障害情報の読み出しに失敗した場合、システム管理部4は、例えば、故障部位特定不可能の障害が発生したと判断するか、CPU10が故障部品であると誤って指摘する。
【0030】
図1においては、一例において、PCIカード30-2(PCIカード#2)において、UEが発生したことがI/Oコントローラ14によって検出される。障害が発生した旨がシステム管理部4に通知される。また、UEを検出した検出部位、エラーコード、障害が生じたと疑われる対象部品等のデータを含む障害情報がエラーレジスタ16に記憶される。
【0031】
図1においては、通知を受けたシステム管理部4は、エラーレジスタ16からの障害情報の読み出しに失敗する場合が示される。図1において、UEがPCIカード30-2(PCIカード#2)において発生したことをシステム管理部4が推測することが困難となるおそれがある。
【0032】
〔B〕実施形態
以下、図面を参照して一実施形態が説明される。但し、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
【0033】
以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。
【0034】
〔B-1〕構成例
図2は、実施形態における情報処理装置1のハードウェア構成の第1例を模式的に示すブロック図である。
【0035】
図2に示す情報処理装置1は、システム100及びシステム管理部200を備える。一例において、システム100及びシステム管理部200は一つのボード3に設けられてよい。
【0036】
システム100の構成は、図1に示す情報処理装置2におけるシステム100と同様である。システム100は、主として、CPU10,メモリ20,I/Oデバイス(PCIカード30等)を備える。
【0037】
システム管理部200は、予兆リスト41を記憶装置40に記憶する。記憶装置40は、ボード3に設けられていてもよく、ボード3の外部に設けられていてもよい。
【0038】
予兆リスト41は、情報処理装置1の複数の構成部品のそれぞれにおいて生じる障害に対して、予め定められた基準に応じた重みづけ値を付与した被疑部品推定情報の一例である。複数の構成部品は、CPU10,メモリ20,及びPCIカード30(拡張カードやI/Oデバイス)等であってよい。障害は、CPU内部エラーであってよい。
【0039】
システム管理部200は、CE(訂正可能な障害)のうちで、UE(訂正不可能な障害)の前兆となり得る障害の発生に関する履歴データを予兆リスト41として記録してよい。但し、予兆リスト41は、すべてのCEについて記録してもよい。
【0040】
システム管理部200は、複数の構成部品のいずれかにおいて障害としてUEが発生した場合に、予兆リスト41に含まれる重みづけ値に基づいて、UEが生じたことが疑われる被疑部品を推定する。システム管理部200は、重みづけ値に基づいて被疑部品を推定する制御部の一例である。
【0041】
図3は、図2に示す情報処理装置1におけるCE及びUEの発生例を示す図である。CPU10内部のメモリコントローラ13及びI/Oコントローラ14においてCEが検出された場合は、将来において、タイムアウトが生じることに起因するUEが発生する可能性がある。メモリコントローラ13で検出されるCEの原因部位はメモリ20であってよい。I/Oコントローラ14で検出されるCEの原因部位は、PCIカード30(I/Oデバイス)であってよい。なお、原因部位は、CEの原因となった構成部品の属するカテゴリを意味する。
【0042】
CPU10内部のキャッシュ12においてCEが検出された場合、キャッシュ12の故障に起因してデータ化けエラーが発生してUEが生じる可能性がある。キャッシュ12において検出されるCEの原因部位は、CPU10であってよい。
【0043】
また、キャッシュ12,メモリ20,及びPCIカード30(I/Oデバイス)以外の他制御回路15でCEが検出された場合、ボード3が障害の原因部位とされてよい。
【0044】
CEが検出された場合には、CEが発生した旨がCPU10からシステム管理部200に対して通知される。CEに関する障害情報が、CPU10内のレジスタ(エラーレジスタ16)に格納される。
【0045】
システム管理部200は、CPU10内の障害情報を読み出し、読み出された障害情報に基づいて、予兆リスト41を作成する。予兆リスト41は、複数の構成部品であるCPU10,メモリ#1~#4,PCIカード#1~#3,及びボード3のそれぞれにおいて、障害(CE)の発生回数、CEの発生間隔、及び直近のCE障害の発生時期のうち少なくとも一つの項目を含んでよい。予兆リスト41は、少なくとも一つの項目についての重みづけ値を含んでよい。
【0046】
図3においては、PCIカード#2におけるCE発生回数(10回)が他の構成部品におけるCE発生回数に比べて多い。予兆リスト41ではCE発生回数に応じて重みづけ値が付与されてよい。システム管理部200は、複数の構成部品のいずれかにおいて障害としてUE(訂正不可能な障害)が発生した場合に、予兆リスト41に含まれる重みづけ値に基づいて、UEが生じたことが疑われる被疑部品としてPCIカード#2を推定してよい。
【0047】
図4は、図2に示す情報処理装置1の第1例を模式的に示す図である。
【0048】
システム管理部200は、主としてファームウェアによって動作する。システム100内(Inband)において、CPU10とメモリ20との間は、Double DataRate(DDR)等で通信が実行されてよい。CPU10とI/Oデバイス(PCIカード30等)との間は、Peripheral Component Interconnect Express(PCIe)等で通信が実行されてよい。システム管理部200とユーザとの間は、Intelligent Platform Management Interface(IPMI)等で通信が実行されてよい。
【0049】
図4は、システム100において障害(エラー)が発生した場合のシステム管理部200の動作を示す。以下、図5図12を参照しつつ、図4に示す処理(1)~処理(6)が説明される。
【0050】
障害が発生した場合、システム管理部200は、CPU10からエラー通知を受信する(処理(1))。
【0051】
システム管理部200は、CPU10内のレジスタ(エラーレジスタ16)のデータ(値)である障害情報を読み出す(処理(2))。
【0052】
図5は、図2に示す情報処理装置1のエラーレジスタ16に記憶される障害情報の一例を示す図である。エラーレジスタ16に記憶される障害情報は、障害種別(エラー種別),検出部位,エラーコード,及び対象部品などの情報を含んでよい。
【0053】
障害種別は、障害が訂正可能な障害(CE)であるか訂正不可能な障害(UE)であるかを示す情報を含む。
【0054】
検出部位は、構成部品でのCEの発生を検出した部位について情報である。例えば、メモリ20においてCEが発生した場合には、検出部位は、メモリコントローラ13である。エラーコードは、障害を識別する識別符号であってよい。
【0055】
図4に示されるように、システム管理部200は、読み出された障害情報(エラーレジスタ16の値)に基づいて障害解析(エラー解析)を実行する(処理(3))。
【0056】
障害解析は、発生した障害がCE(訂正可能な障害)であるかUE(訂正不可能な障害)であるかの解析を含む。
【0057】
障害解析は、さらに、発生したCEが、UEの前兆となり得る障害であるか否かの解析を含んでよい。システム管理部200は、発生したCEが、UEの前兆となり得る障害であるか否かを判断するための情報であるCEカテゴリ表を記憶装置40に事前に格納してよい。
【0058】
図6は、図2に示す情報処理装置1が予め格納しているCEカテゴリ表の一例を示す図である。CEカテゴリ表(CEカテゴリ情報)は、各CEについての検出部位とエラーコードごとに、UEの前兆となり得る障害であるか否かの情報を含む。CEカテゴリ表は、情報処理装置1の複数の構成部品のそれぞれにおいて生じる障害について、将来のUEの予兆となり得ることを示す種別を含むリストの一例である。
【0059】
システム管理部200は、CPU10から読み出した障害情報(図5)に含まれる「検出部位」及び「エラーコード」に基づいてCEカテゴリ表を参照する。この結果に基づいて、システム管理部200は、発生したCEが将来のUEの予兆となり得る障害であるかを判定してよい。
【0060】
図6に示されるとおり、CEが同一の検出部位で検出された場合においても、UEの前兆となり得る障害であるか否かはエラーコードによって決定されてよい。一例において、検出部位がキャッシュ12である場合において、エラーコードが「A」,「B」,及び「C」である場合には、検出された障害は将来のUEの予兆となる。一方、エラーコードが「D」である場合には、検出された障害は将来のUEの予兆とならない。
【0061】
図4に示されるように、システム管理部200は、読み出された障害情報に基づいて、障害情報を内部ログ(システムイベントログ)に記憶してよい(処理(4))。特に、ユーザは、内部ログにアクセスして、障害情報を知ることができる。
【0062】
システム管理部200は、障害が、将来のUEの予兆となるCEである場合には、障害の発生に関する履歴(エラー履歴)を予兆リスト41に記録する(処理(5))。
【0063】
一例において、予兆リスト41は、複数の構成部品のそれぞれにおいて、障害の発生回数、障害の発生間隔、及び直近の障害の発生時期のうち少なくとも一つの項目を含む。予兆リスト41において、情報処理装置1の複数の構成部品のそれぞれにおいて生じる障害に対して、予め定められた基準に応じた重みづけ値が付与されてよい。
【0064】
図7は、CEの障害発生間隔に応じた重みづけ値#1について示す図である。図7において、障害発生間隔が「無し(none)」である場合は、当該CEの発生回数が1回であり、2回以上発生していないため、障害発生間隔が観念できない。
【0065】
図7において、障害発生が1度もないメモリ#3,PCIカード#3,及びボード3については、障害発生間隔は、設定されない。
【0066】
発生回数が2回目のCEについては、初回のCE発生時期と現CE発生時期との差分に基づいて障害発生間隔が設定されてよい。発生回数が3回目以上のCEについては、「直近CE発生時期」(前回のCE発生時期)と現CE発生時期との差分に基づいて算出された値と、既存の「障害発生間隔」との平均を計算することによって障害発生間隔が更新されてよい。但し、障害発生間隔の計算は、この場合に限られない。
【0067】
システム管理部200は、障害発生間隔の短いものから順番に、番号を1から昇順となるように付与してよい。この順番に応じて重みづけ値#1が付与されてよい。一例において、番号自体が重みづけ値#1とされる。本例では、重みづけ値#1が小さいほど、訂正不可能な障害が生じたことが疑われる可能性が高い順である被疑順位を高くしてよい。被疑順位は、被疑部品の推定の一例である。
【0068】
図7に示される場合では、障害発生間隔が最も短いメモリ#4の重みづけ値#1が、1であり、PCIカード#1及び#2の重みづけ値#1が、2及び3である。メモリ#2の重みづけ値#1が4である。CPU10及びメモリ#1においては、障害発生間隔が「無し(none)」である場合である。したがって、CPU10及びメモリ#1の重みづけ値#1が5である。メモリ#3,PCIカード#3,及びボードは、障害が発生していないので、重みづけ値#1が設定されない。但し、重みづけ値#1は、図7に示される場合に限られず、障害発生間隔に基づいて重みづけ値#1が付与されればよい。
【0069】
CPU10におけるシステム100においては、UE発生前にCEが連続発生する傾向がある。したがって、CE発生間隔の短い障害が発生した構成部品が、被疑部品である可能性が高くなる。したがって、図7の重みづけ値#1に基づく処理によれば、UE発生に起因してシステム管理部200がCPU10から障害情報を読み出せない場合であっても、被疑部品を推定することが可能となる。
【0070】
図8は、CE発生回数(障害発生回数)に応じた重みづけ値#2について示す図である。図8において、システム管理部200は、CE発生回数の多い順に、番号を1から昇順に付与する。付与された番号に基づいて重みづけ値#2が付与されてよい。一例において、番号自体が重みづけ値#2であってよい。本例では、重みづけ値#2が小さいほど、訂正不可能な障害が生じたことが疑われる可能性が高い順である被疑順位を高くしてよい。但し、重みづけ値#2は、図8に示される場合に限られず、障害発生回数に基づいて重みづけ値#2が付与されればよい。
【0071】
CPU10におけるシステム100においては、経年劣化等に起因する構成部品のUEの場合、UEの発生に先立って当該構成部品にけるCEの発生回数が徐々に増加する傾向にある。したがって、図8の重みづけ値#2に基づく処理によれば、UE発生に起因してシステム管理部200がCPU10から障害情報を読み出せない場合であっても、被疑部品を推定することが可能となる。
【0072】
図9は、直近のCE発生時期に応じた重みづけ値#3について示す図である。直近のCE発生時期は、直近のCE発生日時であってもよく、直近のCE発生日であってもよい。
【0073】
図9において、システム管理部200は、直近のCE発生時期が現時点に近い順に、番号を1から昇順に付与する。付与された番号に基づいて重みづけ値#3が付与されてよい。一例において、番号自体が重みづけ値#3であってよい。本例では、重みづけ値#3が小さいほど、訂正不可能な障害が生じたことが疑われる可能性が高い順である被疑順位を高くしてよい。但し、重みづけ値#3は、図9に示される場合に限られず、直近のCE発生時期に基づいて重みづけ値#3が付与されればよい。
【0074】
CPU10におけるシステム100においては、UEが発生する直前においてCEが発生している可能性が高い。したがって、図9の重みづけ値#3に基づく処理によれば、UE発生に起因してシステム管理部200がCPU10から障害情報を読み出せない場合であっても、被疑部品を推定することが可能となる。
【0075】
図10は、重みづけ値#1,#2,#3の合算値及び被疑順位について示す図である。
予兆リスト41は、図7図9に示したCE発生間隔、CE発生回数、及び直近のCE発生時期の項目のうち、複数の項目を含んでよい。システム管理部200は、複数の項目についての重みづけ値#1,#2,#3に基づいて、被疑部品を推定してよい。
【0076】
図10においては、予兆リスト41(被疑部品推定情報)は、図7図9に示したCE発生間隔、CE発生回数、及び直近のCE発生時期の各項目を含む。システム管理部200は、重みづけ値#1,#2,及び#3の合算値(SUM)を算出する。システム管理部200は、合算値に基づいて、複数の構成部品について、訂正不可能な障害が生じたことが疑われる可能性が高い順(被疑順位)を推定してよい。一例において、合算値(SUM)の値が小さい順に、番号を1から昇順に付与して、当該番号を被疑順位としてよい。
【0077】
複数の構成部品について合算値(SUM)の値が同じ場合には、被疑順位も同じとしてよい。また、CEが発生していないことに起因して重みづけ値#1~#3が設定されていない場合には、被疑順位が設定されなくてよい。換言すれば、CE未発生の部品については、重みづけ値及び被疑順位の計算が実行されない。
【0078】
但し、実施形態は、重みづけ値#1,#2,及び#3の合算値(SUM)の単純な合算値に基づいて被疑部品が推定される場合に限られない。重みづけ値#1,#2,及び#3のそれぞれに予め定められた係数を乗じた結果を合算して得られた値に基づいて被疑部品が推定されてもよく、重みづけ値#1,#2,及び#3を考慮要素として演算した何らかの値に基づいて被疑部品が推定されてよい。
【0079】
以上のように、予兆リスト41(被疑部品推定情報)は、CEのうちで、UEの前兆となり得る障害の発生に関する履歴データと、障害に対して予め定められた基準に応じて付与された重みづけ値とを有してよい。但し、予兆リスト41は、他の情報を含んでよい。
【0080】
図11は、図2に示す情報処理装置1における直近UE発生時期の情報の一例を示す図である。予兆リスト41は、直近UE発生時期と、構成部品を交換した時期の情報とを含んでいてよい。直近UE発生時期は、UEが前回生じた時期であってよい。
【0081】
システム管理部200は、特定の構成部品にUEが前回生じた時期と、特定の構成部品を交換した時期とを比較する。特定の構成部品においてUEが前回生じた時期よりも特定の構成部品を交換した時期が後である場合には、システム管理部200は、特定の構成部品を交換したことを提示してよい。一例において、予兆リスト41は、特定の構成部品を交換した旨を示す補足事項を含んでよい。
【0082】
図12は、図2に示す情報処理装置1において記憶装置40に記憶される予兆リスト41の一例を示す図である。予兆リスト41は、システム固有情報、通常更新情報、及びUE発生時利用情報を含んでよい。
【0083】
システム固有情報は、システム100に固有の情報であり、予めシステム管理部200が記憶してよい。システム固有情報は、CEの検出個所である検出部位、CEの原因となった構成部品の属するカテゴリを示す原因部位、及び交換可能な最小単位の構成部品(障害を指摘する単位)を示す対象部品についての情報を含んでよい。
【0084】
通常更新情報は、各構成部品(対象部品)について、CE発生回数、シリアルナンバー、交換時期、初回CE発生時期、直近CE発生時期、及びCEの障害発生間隔を含んでよい。通常更新情報は、CEの発生に関して重みづけ値の根拠となる項目を含んでよい。
【0085】
シリアルナンバーは、個々の対象部品を識別する部品情報の一例である。対象部品が交換されるとシリアルナンバーが変更される。
【0086】
通常更新情報は、システム100の通常の運用時に更新されてよい。一例において、通常更新情報は、情報処理装置1の電源投入時自己診断テストPOST(Power On Self Test)において更新されてよい。システム管理部200は、情報処理装置1の電源投入時自己診断テストにおいて検出された障害検出対象である対象部品のシリアルナンバー(部品情報)と、予兆リスト41における当該構成部品のシリアルナンバーとを比較してよい。
【0087】
システム管理部200は、比較結果に基づいて、予兆リスト41(被疑部品推定情報)を更新してよい。具体的には、システム管理部200は、検出された対象部品のシリアルナンバーと予兆リスト41におけるシリアルナンバーが不一致の場合、予兆リスト41におけるシリアルナンバーを検出された対象部品のシリアルナンバーに書き換えてよい。この場合、システム管理部200は、交換時期をシリアルナンバーの書き換え時の日時等に設定し、CE発生回数を0にリセットしてよい。
【0088】
UE発生時利用情報は、図7図8,及び図9に示した重みづけ値#1~#3と、図10に示した合算値(SUM)及び被疑順位と、図11を用いて説明した補足事項とを含んでよい。但し、UE発生時利用情報は、図12に示される場合に限定されず、重みづけ値#1~#3の少なくとも一つを含んでいればよい。また、被疑順位に代えて、被疑順位の上位に該当する被疑部品を特定する情報が被疑部品推定情報に含まれていてよい。さらに、被疑部品推定情報は、必ずしも被疑順位を含んでいなくてもよい。
【0089】
以上のように、システム管理部200は、障害の発生に関する履歴(エラー履歴)を含むデータを予兆リスト41として記録する(図4の処理(5))。
【0090】
次に、図4に戻り、UEが発生した場合、システム管理部200は、予兆リスト41に基づいて、発生したUEの内容を推定し、エラー推定リスト42を作成する。エラー推定リスト42は、内部ログ(システムイベントログ)の一部として記憶してよい。ユーザは、内部ログを閲覧することで、障害の発生が疑われる被疑部品の推定結果を知ることができる(図4の処理(6))。
【0091】
図13は、図2に示す情報処理装置1において作成されるエラー推定リスト42の一例を示す図である。エラー推定リスト42は、被疑順位、対象部品、対象部品のシリアルナンバー、及び交換時期を含んでよい。
【0092】
ユーザは、システム管理部200の内部ログへアクセスし、被疑部品について内部ログ(エラー推定リスト42)を得る。ユーザは、必要に応じて被疑部品(故障部品)を交換することによって、システム100を復旧させる。
【0093】
特に、UEが発生した場合、システム管理部200が障害情報をCPU10のエラーレジスタ16から読み出しすることに失敗する場合であっても、システム管理部200は内部ログ(エラー推定リスト42)をユーザに提供することができる。
【0094】
図13においては、被疑順位の値“1”が最優先で交換すべき故障部品であり、被疑順位が下がるにつれて、交換すべき優先度が下がる。また、エラー推定リスト42は、部品をすでに交換した時期である“交換時期”を含んでよい。この場合、部品交換しても再度同一のエラーが発生した際に、ユーザが同種部品の交換を繰り返さないように注意が喚起される。
【0095】
図14は、図2に示す情報処理装置1におけるシステム管理部200の機能を模式的に示す図である。
システム管理部200は、POST処理部51及びリスト更新部52を備えてよい。POST処理部51は、情報処理装置1の電源投入時自己診断テストの処理を実行する。
【0096】
リスト更新部52は、予兆リスト41(被疑部品推定情報)を更新する。一例において、リスト更新部52は、通常更新部53と重みづけ値更新部54を備えてよい。
【0097】
通常更新部53は、各対象部品について、CE発生回数、初回CE発生時期、直近CE発生時期、CEの障害発生間隔、シリアルナンバー、及び交換時期などの通常更新情報(図12参照)を更新してよい。通常更新部53は、CEが発生するたびにCE発生回数、初回CE発生時期、直近CE発生時期、及びCEの障害発生間隔を更新してよい。本例では、将来のUEの予兆となり得る種別のCEについて、CE発生回数、初回CE発生時期、直近CE発生時期、及びCEの障害発生間隔等が更新される。
【0098】
さらに、通常更新部53は、POST処理部51による電源投入時自己診断テストPOSTにおいて、対象部品のシリアルナンバー、交換時期を更新してよく、CE発生回数、初回CE発生時期、直近CE発生時期、及びCEの障害発生間隔をリセットしてよい。
【0099】
重みづけ値更新部54は、情報処理装置1の複数の構成部品(対象部品)のそれぞれにおいて発生するCEに対して、予め定められた基準に応じた重みづけ値#1~#3を付与(更新)してよい。
【0100】
リスト更新部52は、重みづけ値#1~#3の合算値(SUM)、被疑順位、部品交換の有無のついての補足事項を付与してもよい。
【0101】
重みづけ値#1~#3、合算値(SUM)、及び被疑順位は、UEが発生した後に更新されてもよい。但し、この場合に限られず、重みづけ値#1~#3、合算値(SUM)、及び被疑順位が、UEが発生する前に所定期間ごとに計算されて付与されてもよい。
【0102】
システム管理部200は、通知受信部55,システム停止部56,障害情報読出部57,障害要因解析部58,及び障害種別判定部59を備えてよい。
【0103】
通知受信部55は、障害が発生した旨の通知をCPU10から受信する。
【0104】
システム停止部56は、障害内容がUEである場合に、UE発生時の処理を実行する。一例において、システム停止部56は、障害内容がUEである場合に、システム100の動作を停止する。
【0105】
障害情報読出部57は、障害が検出された場合に、CPU10内のエラーレジスタ16から障害情報を読み出す。障害情報読出部57がエラーレジスタ16から障害情報を読み出せない場合には、読み出し不可能な障害であるUEが生じたと判断される。この結果、記憶装置40内の予兆リスト41が活用される。
【0106】
障害要因解析部58は、読み出された障害情報に基づいて障害要因を解析する。障害要因解析部58による解析において障害要因が不明である場合にも、予兆リスト41が活用されてよい。
【0107】
障害種別判定部59は、障害の種別を判定する。障害種別判定部59は、訂正可能障害種別判定部60を備えてよい。
【0108】
障害種別判定部59は、CPU10内のエラーレジスタ16から読み出された障害情報に基づいて、障害がCEであるかUEであるかを判定する処理を実行してよい。
【0109】
訂正可能障害種別判定部60は、エラーレジスタ16から読み出された障害情報の内容と、図6に示したCEカテゴリ表の内容とに基づいて、発生したCEが将来のUEの予兆となり得る種別であるか否かを判断する。リスト更新部52は、訂正可能障害種別判定部60による判定結果に基づいて、将来のUEの予兆となり得る種別のCEについて、CE発生回数、初回CE発生時期、直近CE発生時期、及びCEの障害発生間隔等を更新してよい。
【0110】
システム管理部200は、被疑部品推定部61,被疑順位リスト作成部62,及び交換時期通知部63を備えてよい。
【0111】
被疑部品推定部61は、複数の構成部品のいずれかにおいて障害としてUEが発生した場合に、予兆リスト41に含まれる重みづけ値#1~#3に基づいて、UEが生じたことが疑われる被疑部品を推定する。
【0112】
本実施形態のように、予兆リスト41に被疑順位が含まれる場合には、被疑部品推定部61は、予兆リスト41に含まれる被疑順位に基づいて、被疑部品を推定してよい。但し、これに限られず、被疑部品推定部61が、予兆リスト41に含まれる重みづけ値#1~#3に基づいて、被疑部品を推定してよい。
【0113】
被疑順位リスト作成部62は、図13に示したエラー推定リスト42を作成する。エラー推定リスト42は、図13に示すように、対象部品のうち訂正不可能な障害が生じたことが疑われる可能性が高い順を示す被疑順位を含む被疑順位リスト(被疑順位情報)の一例である。
【0114】
〔B-2〕動作例
図2に示した情報処理装置1におけるシステム管理部200による処理が、図15に示すフローチャート(ステップS10~S21)にしたがって説明される。
【0115】
POST処理部51は、システム起動時の処理として、電源投入時自己診断テストPOST(Power On Self Test)処理を実行する(ステップS10)。
【0116】
POST処理(ステップS10)において、ステップS11~S16の処理が実行されてよい。予兆リスト41の準備の処理(ステップS11)として、通常更新部53は、ステップS12~S15の処理を実行する。
【0117】
通常更新部53は、障害検出対象である対象部品のシリアルナンバーを取得する(ステップS12)。
【0118】
通常更新部53は、ステップS12において検出されたシリアルナンバーと、予兆リスト41における当該対象部品のシリアルナンバーとが一致するかを判断する(ステップS13)。検出されたシリアルナンバーが予兆リスト41におけるシリアルナンバーと一致する場合(ステップS13のYESルート)、通常更新部53は、当該対象部品のシリアルナンバーを更新しない(ステップS14)。一方、検出されたシリアルナンバーが予兆リスト41におけるシリアルナンバーと一致しない場合(ステップS13のNOルート)、通常更新部53は、検出されたシリアルナンバーを予兆リスト41内におけるシリアルナンバーに設定する(ステップS15)。この場合、通常更新部53は、当該部品の交換時期をシリアルナンバーの書き換え時の日時等に設定し、CE発生回数を0にリセットしてよい。
【0119】
ステップS16において、通常更新部53は、当該部品のその他の情報(初回CE発生時期、直近CE発生時期、障害発生間隔、重みづけ値#1~#3、重みづけ値#1~#3の合算値、被疑順位等)を除去する。処理はPOST処理(ステップS10)に戻る(ステップS16)。
【0120】
POST処理の後、システム100の運用が開始される。システム100の運用においては、ステップS17~S21の処理が実行されてよい。
【0121】
通知受信部55がCPU10から障害発生の通知を受信しない間は(ステップS17のNOルート)、システム運用を継続する。
【0122】
通知受信部55がCPU10から障害発生の通知を受信すると(ステップS17のYESルート)、システム管理部200は、障害解析処理(A)を実行する(ステップS18)。障害解析処理(A)は、障害情報の読出し、障害要因解析、障害種別判定、CE種別判定、及び予兆リスト41の活用(B)等の処理を含む。障害解析処理(A)の内容は後に説明される。
【0123】
障害内容がCEであれば、システム管理部200は、CE発生時の処理へ移行後(ステップS19)、システム100の運用を継続する(ステップS17~ステップS19)。障害内容がUEであれば、システム管理部200は、UE発生時の処理へ移行後(ステップS20)、システム100の運用を停止する(ステップS21)。なお、ステップS19及びS20の処理は、従来のシステム管理部の処理と同様であってよい。すなわち、それぞれの障害(CE,UE)の内容に応じて必要となるリカバリー等の制御処理が実行されてよい。
【0124】
次に、図2に示す情報処理装置1におけるシステム管理部200による障害解析処理(A)の詳細が、図16に示すフローチャート(ステップS30~S52)にしたがって説明される。図16の処理は、図15のステップS18の処理の一例である。
【0125】
障害情報読出部57は、CPU10内のエラーレジスタ16から障害情報を読み出す(ステップS30)。
【0126】
障害情報読出部57が、エラーレジスタ16から障害情報を読み出すことに失敗した場合には(ステップS31のNOルート)、処理が予兆リスト41の活用(ステップS32)に進む。障害情報読出部57がエラーレジスタ16から障害情報を読み出すことに成功した場合には(ステップS31のYESルート)、障害要因解析部58は、読み出された障害情報に基づいて障害要因を解析する(ステップS33)。
【0127】
障害要因解析部58による解析において障害要因がない場合(ステップS34のNOルート)、換言すれば障害要因が不明である場合には、処理が予兆リスト41の活用(B)(ステップS32)に進む。障害要因がある場合(ステップS34のYESルート)、換言すれば障害要因が推定できる場合には、処理は、障害種別判定処理(ステップS35)に進む。
【0128】
障害種別判定部59は、CPU10内のエラーレジスタ16から読み出された障害情報に基づいて、障害がCEであるかUEであるかを判定する(ステップS35)。障害がUEである場合には(ステップS35のUEルート)、リスト更新部52は、障害履歴情報として、現在の日時を直近UE発生時期として記憶する(ステップS36)。次いで、処理は、図15のフローチャートのステップS20に進む(ステップS37)。
【0129】
一方、障害がCEである場合には(ステップS35のCEルート)、訂正可能障害種別判定部60は、発生したCEが、予兆リスト41に障害発生の履歴として残す対象である対象CEであるか、予兆リスト41に障害発生の履歴として残す対象でない非対象CEであるかを判定する(ステップS38)。対象CEは、将来のUEの前兆となるCEである。各CEのそれぞれについて、対象CEであるか非対象CEであるかの判断は、予めCEカテゴリ表(図6)に基づいて実行されてよい。
【0130】
発生した障害が、非対象CEである場合には(ステップS38の非対象CEルート)、処理は、図15のフローチャートのステップS19に進む(ステップS39)。発生した障害が対象CEである場合には(ステップS38の対象CEルート)、CEの原因となった構成部品の属するカテゴリを示す原因部位が特定される(ステップS40)。換言すれば、CEのカテゴリ分けが実行される。リスト更新部52は、障害情報に含まれる「検出部位」の情報と予兆リスト41とを比較して「原因部位」を確認する。
【0131】
具体的には、リスト更新部52は、キャッシュ12においてCEが検出された場合(ステップS40のキャッシュルート)、CPU10をCEの原因部位としてよい(ステップS41)。リスト更新部52は、メモリコントローラ13においてCEが検出された場合(ステップS40のメモリコントローラルート)、メモリ20をCEの原因部位としてよい(ステップS42)。リスト更新部52は、I/Oコントローラ14においてCEが検出された場合(ステップS40のI/Oコントローラルート)、PCIカード30(I/Oデバイス)をCEの原因部位としてよい(ステップS43)。リスト更新部52は、キャッシュ12,メモリコントローラ13,及びI/Oコントローラ14を除く検出部位(他制御回路15)においてCEが検出された場合(他制御回路ルート)、ボード3をCEの原因部位としてよい(ステップS44)。
【0132】
リスト更新部52は、CPU10内のエラーレジスタ16から読み出された障害情報に基づいて、CE又はUEが生じたことが疑われる被疑部品が推定される単位である対象部位を確認する(ステップS45)。
【0133】
リスト更新部52は、今回発生したCEが、その対象部品において初回に発生したCE(初回CE)であるか否かを判断する(ステップS46)。CEが初回CEである場合には(ステップS46のYESルート)、リスト更新部52は、CE回数に1を設定し、初回CE発生時期及び直近CE発生時期に、現在の時期(現在の日時又は日付)を設定する。さらに、リスト更新部52は、障害発生間隔を「無し(none)」に設定する(ステップS47)。次いで、処理は、図15のフローチャートのステップS19に進む(ステップS48)。
【0134】
一方、リスト更新部52は、CEが初回CEではない場合(ステップS46のNOルート)、CE発生回数をカウントアップし、直近CE発生時期に、現在の日時を設定する(ステップS49)。
【0135】
障害が、発生回数2回目のCEである場合(ステップS50のYESルート)、初回のCE発生時期と現CE発生時期との差分に基づいて障害発生間隔が設定されてよい(S51)。障害が、発生回数3回目以上のCEである場合(ステップS50のNOルート)、リスト更新部52は「直近CE発生時期」(前回のCE発生時期)と現CE発生時期との差分を算出してよい。リスト更新部52は、差分と既存の「障害発生間隔」との平均を計算することによって障害発生間隔を更新してよい(ステップS52)。次いで、処理は、図15のフローチャートのステップS19に進む(ステップS48)。但し、障害発生間隔の算出については、ステップS46~S52の場合に限られず、種々の方法で障害発生間隔が算出されてよい。
【0136】
次に、図2に示す情報処理装置1におけるシステム管理部200による予兆リスト41の活用処理(B)の詳細が、図17に示すフローチャート(ステップS60~S68)にしたがって説明される。図17の処理は、図16のステップS32の処理の一例である。
【0137】
重みづけ値更新部54は、対象となる構成部品について、CE発生間隔の短い順に重みづけ値#1を付与する(ステップS60)。
【0138】
重みづけ値更新部54は、対象となる構成部品について、CE発生回数の多い順に重みづけ値#2を付与する(ステップS61)。
【0139】
重みづけ値更新部54は、対象となる構成部品について、直近のCE発生時期の近い順に重みづけ値#3を付与する(ステップS62)。
【0140】
重みづけ値更新部54は、重みづけ値#1,#2,及び#3の合算値を算出する(ステップS63)。
【0141】
リスト更新部52は、特定の構成部品にUEが前回生じた時期である直近UE発生時期と、特定の構成部品を交換した時期とを比較する。交換時期が直近UE発生時期より後である場合(新しい場合)には(ステップS64のYESルート)、リスト更新部52は、直近UE発生時期以降に部品が交換されていると判断し、リスト更新部52は、補足事項に「交換あり」を設定する(ステップS65)。そして、処理がステップS66に進む。交換時期が直近UE発生時期より前である場合には(ステップS64のNOルート)、補足事項に「交換あり」を設定することなく、処理がステップS66に進む。
【0142】
被疑部品推定部61は、複数の構成部品のいずれかにおいて障害としてUEが発生した場合に、予兆リスト41に含まれる重みづけ値#1~#3に基づいて、UEが生じたことが疑われる被疑部品を推定する(ステップS66)。被疑部品推定部61は、被疑部品の推定の一例として、被疑順位を推定してよい。
【0143】
被疑順位リスト作成部62は、図13に示したエラー推定リスト42を作成する(ステップS67)。エラー推定リスト42は、図13に示すように、対象部品のうち訂正不可能な障害が生じたことが疑われる可能性が高い順を示す被疑順位を含む被疑順位リスト(被疑順位情報)の一例である。次いで、処理は、図15のフローチャートのステップS20に進む(ステップS68)。
【0144】
エラー推定リスト42は、被疑順位、対象部品、対象部品のシリアルナンバー、及び交換時期を含んでよい。エラー推定リスト42は、内部ログ(システムイベントログ)として記憶されてよい。
【0145】
この結果、ユーザは、システム管理部200の内部ログへアクセスし、被疑部品について内部ログ(エラー推定リスト42)を得ることができる。
【0146】
実施形態の情報処理装置1によれば、システム管理部200がCPU10のエラーレジスタ16から障害情報を読み出すことができない場合であっても、障害の発生が疑われる被疑部品を推定することができる。
【0147】
〔B-3〕変形例
図18は、実施形態における情報処理装置1の第2例を模式的に示す図である。
【0148】
第2例の情報処理装置1は、複数のボード5-1及び5-2を備える。ボード5-1には、システム100-1(システム#1)が構築され、ボード5-2には、システム100-2(システム#2)が構築されている。これにより、複数のシステム100-1,100-2を同時に動作させることが可能になる。
【0149】
システム100-1,100-2は、それぞれ図2図17において説明したシステム100と同様の構成を有してよい。したがって、繰り返しの説明は省略される。システム100-1,100-2は、それぞれCPU10,メモリ20,及びPCIカード30を有してよい。
【0150】
ボード5-1には、ボード管理部210-1が設けられ、ボード5-2には、ボード管理部210-2が設けられる。ボード管理部210-1は、ボード5-1内のシステム100-1を管理及び制御する。ボード管理部210-2は、ボード5-2内のシステム100-2を管理及び制御する。ボード管理部210-1,210-2は、それぞれファームウェアで動作してよい。
【0151】
第2例においては、システム管理部220は、システム100-1,100-2とは異なるボードであるシステム管理ボード6に設けられてよい。
【0152】
第2例においては、システム100-1において障害(エラー)が発生した場合、ボード管理部210-1は、CPU10からエラー通知を受信する(処理(1))。ボード管理部210-2は、CPU10内のエラーレジスタ16のデータ(値)である障害情報を読み出す(処理(2))。システム100-2において障害が発生した場合、ボード管理部210-2は、同様の処理(1)及び処理(2)を実行する。
【0153】
システム管理部220は、ボード管理部210-1,210-2を経由して障害情報を取得する(処理(3))。
【0154】
システム管理部220は、取得した障害情報(エラーレジスタ16の値)に基づいて障害解析を実行する(処理(4))。システム管理部220は、取得した障害情報に基づいて、障害情報を内部ログ(システムイベントログ)として記憶してよい(処理(5))。
【0155】
システム管理部200は、障害が、将来のUEの予兆となるCEである場合には、障害の発生に関する履歴(エラー履歴)を予兆リスト41に記録する(処理(6))。ユーザは、ログを閲覧することで、障害の発生が疑われる被疑部品の推定結果を知ることができる(処理(7))。
【0156】
処理(4)~処理(7)は、図2図17において説明した第1例における処理(3)~処理(6)と同様であるので、詳しい説明は省略される。
【0157】
図19は、実施形態における情報処理装置1の第3例を模式的に示す図である。
【0158】
第3例の情報処理装置1は、複数のボード7-1及び7-2を備える。但し、第3例の情報処理装置1は、第1例及び第2例と異なり、システム管理部200,220を有しないでよい。
【0159】
システム100は、複数のボード7-1及び7-2にまたがって、システム100を構成することができる。これによりシステム100の大規模構成を実現することができる。システム100は、複数のボード7を通信可能に接続することによりフレキシブルに変更可能であり、ユーザが任意に設定され得る。但し、第3例においても、第2例のようにシステム100がボード7ごとに独立して構築されてもよい。
【0160】
ボード7-1,7-2毎に搭載されているボード管理部230-1,230-2が、システム100を管理する。ボード管理部230-1,230-2が、それぞれ、第1例における図4の処理(1)~(6)の処理を実行してよい。第3例におけるボード管理部230-1,230-2は、重みづけ値に基づいて被疑部品を推定する制御部の一例である。
【0161】
但し、図19においては、ボード管理部230-1,230-2のうちで主となるボード管理部(図19においては、ボード管理部230-1)が、第1例における図4の処理(1)~(6)の処理を実行してよい。
【0162】
第3例においては、システム100において障害(エラー)が発生した場合、ボード7-1におけるエラー通知は、ボード管理部230-1が受信する。ボード管理部230-1は、ボード7-1におけるCPU10内のエラーレジスタ16のデータ(値)である障害情報を読み出す(処理(2))
【0163】
ボード7-2におけるエラー通知は、ボード管理部230-2が受信する。ボード管理部230-2は、ボード7-2におけるCPU10内のエラーレジスタ16のデータ(値)である障害情報を読み出す(処理(2))。
【0164】
従属するボード7-2のボード管理部230-2は、主なるボード7-1のボード管理部230-1に、ボード7-2のCPU10内のエラーレジスタ16から読み出した障害情報を送信する。ボード管理部230-1は、ボード7-2における障害情報を取得する(処理(3))。
【0165】
ボード管理部230-1は、ボード7-1,7-2においてシステム100に発生した障害情報に基づいて障害解析を実行する(処理(4))。ボード管理部230-1は、取得した障害情報に基づいて、障害情報を内部ログ(システムイベントログ)として記憶してよい(処理(5))。
【0166】
ボード管理部230-1は、障害が、将来のUEの予兆となるCEである場合には、障害の発生に関する履歴(エラー履歴)を予兆リスト41に記録する(処理(6))。ユーザは、ログを閲覧することで、障害の発生が疑われる被疑部品の推定結果を知ることができる(処理(7))。
【0167】
〔B-4〕ビジネスシーンにおける効能等
本件の内容は、教育、医療、通信、ビジネス等のシーンにおいて用いられるコンピュータ等に広く応用することができる。コンピュータ等において、訂正不可能な障害が発生して、障害の内容をCPU10から読み出しできない場合においても、故障の疑いのある被疑部品の推定結果をユーザに知らせることができる。
【0168】
したがって、コンピュータの障害を復旧するまでの時間を短縮することができる。また、内部エラーの原因をユーザが検討する時間を短縮化することができる。特にシステム管理を担当しているユーザの負担を軽減することができる。さらに、原因の調査を担当する、開発元の調査負担を軽減することができる。
〔C〕効果
上述した実施形態における情報処理装置1及び推定方法によれば、例えば、以下の作用効果を奏することができる。
【0169】
システム管理部200(あるいはボード管理部230)は制御部として処理を実行する。制御部は、情報処理装置1の複数の構成部品のそれぞれにおいて生じる障害(CE)にしたがって、予め定められた基準に応じた重みづけ値#1~#3を構成部品ごとに付与した被疑部品推定情報を記憶装置40に記憶する。制御部は、複数の構成部品のいずれかにおいて障害として訂正不可能な障害(UE)が発生した場合に、被疑部品推定情報(予兆リスト41)に含まれる重みづけ値に基づいて、訂正不可能な障害が生じたことが疑われる被疑部品を推定する、
【0170】
これにより、訂正不可能な障害(UE)が発生した場合においても、障害が生じたことが疑われる被疑部品を推定することができる。
【0171】
訂正不可能な障害(UE)は、複数の構成部品のうちのプロセッサからの読み出しが不可能な障害である。
【0172】
これにより、プロセッサからの読み出し不可能な障害が発生した場合においても、障害が生じたことが疑われる被疑部品を推定することができる。
【0173】
被疑部品推定情報は、複数の構成部品のそれぞれにおいて、障害の発生回数、障害の発生間隔、及び直近の障害の発生時期のうち少なくとも一つの項目を含む。制御部は、被疑部品を推定する処理において、少なくとも一つの項目についての重みづけ値に基づいて、被疑部品を推定する。
【0174】
これにより、障害の発生状況に起因して被疑部品を推定することができ、被疑部品の推定精度を向上することができる。
【0175】
被疑部品推定情報は、訂正不可能な障害が前回生じた時期と、構成部品を交換した時期の情報とを含んでいる。制御部は、訂正不可能な障害が前回生じた時期と、構成部品を交換した時期とを比較する。訂正不可能な障害が前回生じた時期よりも構成部品を交換した時期が後である場合には、制御部は、構成部品を交換したことを提示する。
【0176】
これにより、部品交換しても再度同一の障害が発生した場合に、ユーザが同種部品の交換を繰り返さないようにユーザに対して注意喚起することができる。
【0177】
制御部は、情報処理装置1の複数の構成部品のそれぞれにおいて生じる障害(CE)について、将来の訂正不可能な障害(UE)の予兆となり得ることを示す種別を含むリスト(CEカテゴリ表)を予め記憶装置40に記憶する。制御部は、被疑部品推定情報(予兆リスト41)を記憶装置40に記憶する処理において、リスト(CEカテゴリ表)において種別が記録された障害について被疑部品推定情報を記憶する。
【0178】
これにより、将来の訂正不可能な障害(UE)の予兆となるCEについて、障害の発生状況及び重みづけ値が記憶されればよくなる。したがって、処理負担及び記憶容量を節約することができる。また、将来の訂正不可能な障害(UE)の予兆とならないCEの発生状況の影響を受けないので、被疑部品の推定精度を向上することができる。
【0179】
〔D〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
【0180】
〔E〕付記
以上の実施形態に関し、さらに以下の付記が開示される。
【0181】
(付記1)
情報処理装置の複数の構成部品のそれぞれにおいて生じる障害にしたがって、予め定められた基準に応じた重みづけ値を前記構成部品ごとに付与した被疑部品推定情報を記憶装置に記憶し、
前記複数の構成部品のいずれかにおいて前記障害として訂正不可能な障害が発生した場合に、前記被疑部品推定情報に含まれる前記重みづけ値#1~#3に基づいて、前記訂正不可能な障害が生じたことが疑われる被疑部品を推定する、
制御部を備える、情報処理装置。
【0182】
(付記2)
前記訂正不可能な障害は、前記複数の構成部品のうちのプロセッサからの読み出しが不可能な障害である、付記1に記載の情報処理装置。
【0183】
(付記3)
前記被疑部品推定情報は、複数の構成部品のそれぞれにおいて、前記障害の発生回数、前記障害の発生間隔、及び直近の前記障害の発生時期のうち少なくとも一つの項目を含み、
前記制御部は、前記被疑部品を推定する処理において、前記少なくとも一つの項目についての前記重みづけ値に基づいて、前記被疑部品を推定する、
付記1又は2に記載の情報処理装置。
【0184】
(付記4)
前記被疑部品推定情報は、前記訂正不可能な障害が前回生じた時期と、前記構成部品を交換した時期の情報とを含んでおり、
前記制御部は、前記訂正不可能な障害が前回生じた時期と、前記構成部品を交換した時期とを比較し、
前記訂正不可能な障害が前回生じた時期よりも前記構成部品を交換した時期が後である場合には、前記構成部品を交換したことを提示する、
付記1又は2に記載の情報処理装置。
【0185】
(付記5)
前記制御部は、
前記情報処理装置の複数の構成部品のそれぞれにおいて生じる前記障害について、将来の前記訂正不可能な障害の予兆となり得ることを示す種別を含むリストを予め記憶装置に記憶し、
前記被疑部品推定情報を前記記憶装置に記憶する処理において、前記リストにおいて前記種別が記録された障害について前記被疑部品推定情報を記憶する、
付記1又は2に記載の情報処理装置。
【0186】
(付記6)
情報処理装置の複数の構成部品のそれぞれにおいて生じる障害に対して、予め定められた基準に応じた重みづけ値を付与した被疑部品推定情報を記憶装置に記憶し、
前記複数の構成部品のいずれかにおいて前記障害として訂正不可能な障害が発生した場合に、前記被疑部品推定情報に含まれる前記重みづけ値#1~#3に基づいて、前記訂正不可能な障害が生じたことが疑われる被疑部品を推定する、
処理を前記情報処理装置が実行する、推定方法。
【0187】
(付記7)
前記訂正不可能な障害は、前記複数の構成部品のうちのプロセッサからの読み出しが不可能な障害である、付記6に記載の推定方法。
【0188】
(付記8)
前記被疑部品推定情報は、複数の構成部品のそれぞれにおいて、前記障害の発生回数、前記障害の発生間隔、及び直近の前記障害の発生時期のうち少なくとも一つの項目を含み、
前記情報処理装置は、前記被疑部品を推定する処理において、前記少なくとも一つの項目についての前記重みづけ値に基づいて、前記被疑部品を推定する処理を実行する、付記6又は7に記載の推定方法。
【0189】
(付記9)
前記被疑部品推定情報は、前記訂正不可能な障害が前回生じた時期と、前記構成部品を交換した時期の情報とを含んでおり、
前記情報処理装置は、前記訂正不可能な障害が前回生じた時期と、前記構成部品を交換した時期とを比較し、
前記訂正不可能な障害が前回生じた時期よりも前記構成部品を交換した時期が後である場合には、前記構成部品を交換したことを提示する、
処理を実行する、付記6又は7に記載の推定方法。
【0190】
(付記10)
前記情報処理装置は、
前記情報処理装置の複数の構成部品のそれぞれにおいて生じる前記障害について、将来の前記訂正不可能な障害の予兆となり得ることを示す種別を含むリストを予め記憶装置に記憶し、
前記被疑部品推定情報を前記記憶装置に記憶する処理において、前記リストにおいて前記種別が記録された障害について前記被疑部品推定情報を記憶する、
処理を実行する、付記6又は7に記載の推定方法。
【符号の説明】
【0191】
1 :情報処理装置
3,5,7 :ボード
6 :システム管理ボード
10 :CPU
11 :コア
12 :キャッシュ
13 :メモリコントローラ
14 :I/Oコントローラ
15 :他制御回路
16 :エラーレジスタ
20 :メモリ
30 :PCIカード
40 :記憶部
41 :予兆リスト
42 :エラー推定リスト
51 :POST処理部
52 :リスト更新部
53 :通常更新部
54 :重みづけ値更新部
55 :通知受信部
56 :システム停止部
57 :障害情報読出部
58 :障害要因解析部
59 :障害種別判定部
60 :訂正可能障害種別判定部
61 :被疑部品推定部
62 :被疑順位リスト作成部
63 :交換時期通知部
100 :システム
200,220:システム管理部
210,230:ボード管理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19