(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-16
(45)【発行日】2023-10-24
(54)【発明の名称】情報処理装置および通信ケーブルログ情報採取方法
(51)【国際特許分類】
H04L 43/04 20220101AFI20231017BHJP
【FI】
H04L43/04
(21)【出願番号】P 2019215910
(22)【出願日】2019-11-29
【審査請求日】2022-08-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110003649
【氏名又は名称】弁理士法人真田特許事務所
(74)【代理人】
【識別番号】100092978
【氏名又は名称】真田 有
(74)【代理人】
【識別番号】100189201
【氏名又は名称】横田 功
(72)【発明者】
【氏名】三木 淳司
【審査官】宮島 郁美
(56)【参考文献】
【文献】特開2018-136882(JP,A)
【文献】特開2008-042527(JP,A)
【文献】特開2018-163557(JP,A)
【文献】特開2014-182515(JP,A)
【文献】国際公開第2014/196078(WO,A1)
【文献】特開2019-079263(JP,A)
【文献】米国特許出願公開第2018/0239663(US,A1)
【文献】米国特許出願公開第2019/0121561(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04L12/00,13/00,41/00-49/9057,61/00-65/80,69/00-69/40
(57)【特許請求の範囲】
【請求項1】
管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置であって、
前記通信ケーブルが、第1障害情報を記憶する第1障害情報領域と、第2障害情報を記憶する第2障害情報領域と
を有し、
通信障害発生時において、
前記第2障害情報領域には、障害の種別毎の障害発生位置それぞれにおける障害発生の有無を示す値を含む前記第2障害情報が書き込まれ、
前記第1障害情報領域に
は、前記障害の種別毎における前記値の論理和であり、前記障害の種別毎の障害発生の有無を示す情報を含む前記第1障害情報が書き込ま
れ、
前記管理装置は、前記第1障害情報領域から前記第1障害情報を読み込み、
前記通信制御装置は、前記第2障害情報領域から前記第2障害情報を読み込む
ことを特徴とする、情報処理装置。
【請求項2】
管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置であって、
前記通信ケーブルが、第1障害情報を記憶する第1障害情報領域と、第2障害情報を記憶する第2障害情報領域と
を有し、
通信障害発生時において、
前記第1障害情報領域に前記第1障害情報が書き込まれるとともに、前記第2障害情報領域に前記第2障害情報が書き込まれ、
前記通信制御装置は、前記第2障害情報領域から前記第2障害情報を読み込み、
前記管理装置は、前記第1障害情報領域から前記第1障害情報を読み込み、前記通信制御装置が採取した障害情報と、前記通信制御装置が前記第2障害情報領域から読み出した前記第2障害情報とを関連付けて、障害情報記憶部に記憶させる
ことを特徴とする、情報処理装置。
【請求項3】
前記第1障害情報領域の前記第1障害情報が読み出された場合においても、前記第2障害情報領域の前記第2障害情報を削除しない
ことを特徴とする、請求項1
または2に記載の情報処理装
置。
【請求項4】
前記管理装置が、前記第1障害情報領域から前記第1障害情報を読み込んだ後に、前記通信制御装置が、前記第2障害情報領域から前記第2障害情報を読み込む
ことを特徴とする、請求項1~3のいずれか1項に記載の情報処理装
置。
【請求項5】
管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置において、
前記通信ケーブルが、第1障害情報を記憶可能な第1障害情報領域と、第2障害情報を記憶可能な第2障害情報領域と
を有し、
通信障害検出時において、
前記第2障害情報領域には、障害の種別毎の障害発生位置それぞれにおける障害発生の有無を示す値を含む前記第2障害情報が書き込まれ、
前記第1障害情報領域に
は、前記障害の種別毎における前記値の論理和であり、前記障害の種別毎の障害発生の有無を示す情報を含む前記第1障害情報が書き込まれ
、
前記管理装置が、前記第1障害情報領域から前記第1障害情報を読み込む処理と、
前記通信制御装置が、前記第2障害情報領域から前記第2障害情報を読み込む処置と
を備えることを特徴とする、通信ケーブルログ情報採取方法。
【請求項6】
管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置において、
前記通信ケーブルが、第1障害情報を記憶可能な第1障害情報領域と、第2障害情報を記憶可能な第2障害情報領域と
を有し、
通信障害検出時において、
前記第1障害情報領域に前記第1障害情報が書き込まれるとともに、前記第2障害情報領域に前記第2障害情報が書き込まれ、
前記通信制御装置が、前記第2障害情報領域から前記第2障害情報を読み込む処理と、
前記管理装置が、前記第1障害情報領域から前記第1障害情報を読み込
み、前記通信制御装置が採取した障害情報と、前記通信制御装置が前記第2障害情報領域から読み出した前記第2障害情報とを関連付けて、障害情報記憶部に記憶させる処理と、
を備えることを特徴とする、通信ケーブルログ情報採取方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置および通信ケーブルログ情報採取方法に関する。
【背景技術】
【0002】
近年、コンピュータ間の通信は伝送容量の増大および高速化により光通信が主流となりつつある。例えば、複数のコンピュータ(ノード)を相互に通信可能に接続して構成される並列処理装置において、ノード間の光通信に用いられるデバイスとしてサーバ間を接続する通信ケーブル(AOC:Active Optical Cables)があげられる。
【0003】
AOCにおいては光ケーブルの両端部のコネクタに専用IC(Integrated Circuit)が内蔵され、これらの専用ICにおいて電気/光相互変換を行なうことで、コンピュータ側とは電気通信、光ケーブル側とは光通信を実現する。
【0004】
多数のCPU(Central Processing Unit)を光通信網で接続し、大規模並列演算を行なう装置には多数のAOCが使用される。例えば、スーパーコンピュータ富岳(登録商標)には約100000本のAOCが使用される。
【0005】
AOCを使用するに際して、故障箇所や接続箇所間違い、接続不良等を判別し保守作業を行なう必要があるが、AOCの数が多いほど異常箇所等の判別が困難となり、保守作業時間は増大する。
【0006】
保守作業効率を向上させるためには障害時の詳細なログの採取が不可欠である。ログにはシステムイベントログ(System Event Log:SEL)と解析用ログとの2種類がある。SELは、コンピュータ上で発生した状態変化を示す情報である。解析用ログは、SEL発生時の詳細障害情報である。以下、解析用ログをDUMPという場合がある。DUMPは、障害種別(DETAIL)と発生箇所(REGION)との2種類の情報を備える。
【0007】
コンピュータは、BMC(Baseboard Management Controller)を備える。BMCは、コンピュータの監視や保守を行なう監視制御装置である。BMCは、コンピュータ上で発生した状態変化を示すSELをSEL登録ストレージに書き込む。また、BMCはSEL発生時の詳細障害情報(解析用ログ)をログ登録ストレージに書き込む。
【先行技術文献】
【特許文献】
【0008】
【文献】特開平11-31091号公報
【文献】特開2004-145321号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
BMCは、コンピュータにおける種々の場所で採取したログ情報をログ登録ストレージに格納する。例えば、BMCは、AOCやICC(Integrated Communication Controller)等の各部から障害情報を収集し、ログ登録ストレージに記憶させる。これによりログ登録ストレージには、種々の情報(ログ)が記憶される。保守者は、コンピュータにおいて通信障害が発生した場合に、例えば、SELで障害レベルを把握し、DUMPで保守箇所を判断する。
【0010】
しかしながら、上述の如くログ登録ストレージには、コンピュータにおいて収集された種々の情報が記憶されるので、ログ登録ストレージに格納された情報の中から、検出された障害に関連のあるログを収集することが困難である。
【0011】
例えば、保守者は、ログ登録ストレージに登録された各ログのタイムスタンプや、ログの採取場所等を参照することでログ間の相互関係を判断しており、このような判断手法は煩雑である。
【0012】
ここで、コンピュータシステムにおいて、保守者が、ログ登録ストレージに登録された複数のログ間の相互関係を容易に判断するために、ICCで通信異常検知が行なわれた時に、BMCが、障害発生時におけるICCの障害情報とAOCの障害情報とを合わせてログ登録ストレージに記憶させることが考えられる。
図1は従来の情報処理装置に関連する情報処理システムのノード間通信部500の構成を模式的に示す図である。
【0013】
図1に例示するノード間通信部500は、例えば、複数の情報処理装置(ノード)を相互に通信可能に接続して構成される並列処理装置の各情報処理装置に備えられる。ノード間通信部500は、一の情報処理装置において、他の情報処理装置とのノード間通信に用いられる。
ノード間通信部500は、
図1に示すように、BMC510,ICC520およびAOC530を備える。
【0014】
BMC510は、情報処理装置の監視や保守を行なう監視制御装置であり、BMCプロセッサ511,SEL登録ストレージ512およびログ登録ストレージ513を備える。BMCプロセッサ511は、信号線541を介してSEL登録ストレージ512に接続されるとともに、信号線542を介してログ登録ストレージ513に接続されている。
【0015】
SEL登録ストレージ512は、コンピュータ上で発生した状態変化を示す情報(SEL)を記憶する。ログ登録ストレージ513は、SEL発生時の詳細障害情報(解析用ログ)を記憶する。
【0016】
また、BMCプロセッサ511は、信号線543を介してICCプロセッサ521に接続されるとともに、信号線546を介してAOCプロセッサ531に接続されている。信号線546は、AOCプロセッサ531からBMCプロセッサ511に対する割込み信号を入力する割込み信号線としても用いられる。
【0017】
ICC520は、他の情報処理装置との通信を制御する通信制御装置である。ICC520は、BMC510とAOC530との間に配置される。ICCプロセッサ521とAOCプロセッサ531とは信号線547を介して接続されている。信号線547は、ICCプロセッサ521からAOCプロセッサ531に対する割込み信号を入力する割込み信号線としても用いられる。
【0018】
AOC530は、AOCプロセッサ531およびAOCレジスタ532を備える。
図1に例示するAOCプロセッサ531およびAOCレジスタ532は、AOC530の両端に設けられたコネクタにそれぞれ搭載される。
図1中においては、ノード間通信部500に接続されたAOC530の一端側のAOCプロセッサ531およびAOCレジスタ532を示す。
【0019】
AOCレジスタ532の所定の記憶領域(障害情報領域)には、AOC530において検出された障害に関する情報(AOC障害情報)が記憶される。AOCプロセッサ531はファームウェアを実行することで各種機能を実現する。例えば、AOCレジスタ532からAOC障害情報を読み出す。ここで、AOC530においては、既知の共通規格により、AOCプロセッサ531は、AOCレジスタ532から、一度、値を読み出すと、AOCレジスタ532の値を消去するようになっている。すなわち、AOCレジスタ532に格納された情報は、AOCプロセッサ531によって一度読み出されると削除される。
【0020】
ICC520は、ICCプロセッサ521とICCレジスタ522とを備える。ICCレジスタ522の所定の記憶領域(障害情報領域)にはICC520において検出された障害に関する情報(ICC障害情報)が記憶される。
【0021】
ICC520で通信異常が検知された時に、BMC510がICC520の障害情報とAOC530の障害情報とを合わせてログ登録ストレージ513に記憶させるためには、例えば以下の手法が考えられる。
【0022】
すなわち、ICCプロセッサ521は、ICCにおいて通信障害を検知した場合に、AOCプロセッサ531に対して、AOCレジスタ532の内容を読み出させ、読み出させたAOCレジスタ532の内容(AOC障害情報)を受信する。そして、ICCプロセッサ521は、AOCプロセッサ531から取得したAOC障害情報とICCレジスタ522から読み出したICC障害情報とをあわせてBMCプロセッサ511へ通知する。BMCプロセッサ511は、受信したAOC障害情報とICC障害情報とを関連付けた状態でログ登録ストレージ513に記憶させる。
【0023】
しかしながら、上述の如く、AOCレジスタ532に格納された情報は、AOCプロセッサ531によって一度読み出されると削除される。
【0024】
従って、ノード間通信部500における通信異常検知時に、ICCプロセッサ521からの指示によりAOCプロセッサ531がAOCレジスタ532の障害情報領域から障害情報を読み出すと、AOCレジスタ532の障害情報が消去される。
【0025】
ここで、AOC530において障害が発生した場合に、このAOC530の障害に関する障害情報もAOCレジスタ532に記憶される。しかしながら、AOCレジスタ532の障害情報が消去されることで、AOC530の障害に関する障害情報もAOCレジスタ532から削除されてしまう。これにより、AOC530からBMC510への割り込みが上がらず、SEL登録ストレージ512にAOC530の障害発生情報が登録されない事態が生じる。
1つの側面では、本発明は、通信障害発生時に、相関のある障害情報を容易且つ確実に取得することができるようにすることを目的とする。
【課題を解決するための手段】
【0026】
このため、この情報処理装置は、管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置であって、前記通信ケーブルが、第1障害情報を記憶する第1障害情報領域と、第2障害情報を記憶する第2障害情報領域と を有し、通信障害発生時において、前記第2障害情報領域には、障害の種別毎の障害発生位置それぞれにおける障害発生の有無を示す値を含む前記第2障害情報が書き込まれ、前記第1障害情報領域には、前記障害の種別毎における前記値の論理和であり、前記障害の種別毎の障害発生の有無を示す情報を含む前記第1障害情報が書き込まれ、前記管理装置は、前記第1障害情報領域から前記第1障害情報を読み込み、前記通信制御装置は、前記第2障害情報領域から前記第2障害情報を読み込む。
また、この情報処理装置は、管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置であって、前記通信ケーブルが、第1障害情報を記憶する第1障害情報領域と、第2障害情報を記憶する第2障害情報領域とを有し、通信障害発生時において、前記第1障害情報領域に前記第1障害情報が書き込まれるとともに、前記第2障害情報領域に前記第2障害情報が書き込まれ、前記通信制御装置は、前記第2障害情報領域から前記第2障害情報を読み込み、前記管理装置は、前記第1障害情報領域から前記第1障害情報を読み込み、前記通信制御装置が採取した障害情報と、前記通信制御装置が前記第2障害情報領域から読み出した前記第2障害情報とを関連付けて、障害情報記憶部に記憶させる。
【発明の効果】
【0027】
一実施形態によれば、通信障害発生時に、相関のある障害情報を容易且つ確実に取得することができる。
【図面の簡単な説明】
【0028】
【
図1】従来の情報処理装置に関連する情報処理システムのノード間通信部の構成を模式的に示す図である。
【
図2】実施形態の一例としての情報処理システムのハードウェア構成を例示する図である。
【
図3】情報処理装置に備えられたノード間通信部の構成を模式的に示す図である。
【
図4】実施形態の一例としての情報処理システムにおける第一AOC障害情報および第二AOC障害情報を例示する図である。
【
図5】実施形態の一例としての情報処理システムのノード間通信部における障害発生時の処理を説明するためのフローチャートである。
【発明を実施するための形態】
【0029】
以下、図面を参照して本情報処理装置および通信ケーブルログ情報採取方法に係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
【0030】
(A)構成
図2は実施形態の一例としての情報処理システム100のハードウェア構成を例示する図、
図3は情報処理装置1に備えられたノード間通信部5の構成を模式的に示す図である。
【0031】
実施形態の一例としての情報処理システム100は、
図2に示すように、複数(
図2に示す例では2つ)の情報処理装置1a,1bを備える並列処理装置である。情報処理装置1a,1bは互いに同様の構成を有する。なお、
図2に示す例においては、便宜上、情報処理装置1bの一部の構成のみを図示している。以下、情報処理装置1a,1bを特に区別しない場合には、情報処理装置1と表記する。また、情報処理装置1をノードといってもよい。
【0032】
情報処理装置1は、基板2とBMC10とを備える。基板2にはCPU40とICC20とが搭載されている。また、基板2には図示しないコネクタが備えられ、このコネクタにAOC(光ケーブル,通信ケーブル)3の一端に形成されたAOCコネクタ30が接続される。
【0033】
そして、情報処理装置1にAOC3のAOCコネクタ30が接続された状態で、BMC10,ICC20およびAOCコネクタ30はノード間通信部5として機能する。
【0034】
CPU40は、種々の制御や演算を行なう処理装置であり、図示しないメモリ等に格納されたOS(Operating System)やプログラムを実行することにより、種々の機能を実現する。
【0035】
[AOC3]
AOC3のAOCコネクタ30は、
図3に示すように、AOCプロセッサ31およびAOCレジスタ32を備える。なお、
図3において図示を省略するAOC3の他端側のAOCコネクタ30にも、AOCプロセッサ31およびAOCレジスタ32が同様に備えられる。
【0036】
AOCレジスタ32は、第一レジスタ領域33および第二レジスタ領域34を備える。第一レジスタ領域33には第一AOC障害情報331(
図4参照)が格納され、第二レジスタ領域34には第二AOC障害情報332(
図4参照)が格納される。第一レジスタ領域33を第一障害情報領域といってもよく、第二レジスタ領域34を第二障害情報領域といってもよい。
【0037】
後述するBMC10が、通信障害発生時に第一レジスタ領域(第一障害情報領域)33から通信障害情報を読み込み、ICC20が、通信障害発生時に第二レジスタ領域(第二障害情報領域)34から通信障害情報を読み込む。
図4は実施形態の一例としての情報処理システム100における第一AOC障害情報331および第二AOC障害情報332を例示する図である。
第二AOC障害情報332は、ALRARM情報であり、DETAIL情報とREGION情報とを備える。
【0038】
DETAIL情報は、検知された障害の内容(アラーム種別)を表す。
図4に示す例においては、DETAIL情報としてアラーム名が用いられており、具体的には、“信号断”,“ロック不可”,“振幅小”および“内部異常”がアラーム名として示されている。また、
図4に示す例においては、複数のアラーム名のそれぞれに対してユニークなアドレスが設定されており、“信号断”,“ロック不可”,“振幅小”および“内部異常”に対して、アドレス1~4が順に設定されている。本情報処理システム100においては、これらのアドレス1~4をDETAIL情報として取り扱ってもよい。以下、DETAIL情報を単にDETAILと表す場合がある。
【0039】
REGION情報は、各アラーム名によって特定される障害の発生場所(発生位置)を示す。
図4に示す例においては、REGION情報としてch1~ch4が示されている。これらのch1~ch4は、AOC3の信号チャネルに相当する。REGION情報は、アラーム種類(アラーム名)のそれぞれについてのAOC3の信号チャネルごとのビット情報として構成され、例えば、異常が未検出の場合に“0”が、異常が検出された場合に“1”が設定される。
例えば、
図4に示す第二AOC障害情報332においては、“信号断”の障害がch1およびch3で特定される2か所で検知されたことを示す。
【0040】
第二AOC障害情報332へのREGION情報の登録は、既知の種々の手法で実現することができる。第二AOC障害情報332へのREGION情報の登録は、電子回路等のハードウェアにより行なってもよく、また、ソフトウェアによって行ってもよい。以下、REGION情報を単にREGIONと表す場合がある。
本情報処理システム100における通信障害発生時に、第二レジスタ領域(第2障害情報領域)34に第二AOC障害情報(第2障害情報)332が書き込まれる。
【0041】
第一AOC障害情報331は、第二AOC障害情報332のDETAIL情報のアラーム名ごとの全チャネル(
図4に示す例ではch1~ch4)の論理和を格納する。すなわち、第一AOC障害情報331においては、第二AOC障害情報332において、いずれかのチャネルにおいて異常が検出されたアラーム種別に対して、“1”が設定され、いずれのチャネルにも異常が検出されないアラーム種別に対して“0”が設定される。
【0042】
例えば、
図4に示す例において、アドレス1の“信号断”について、そのch1~ch4の論理和は“1”となる。これにより、第一AOC障害情報331においては、アドレス1の“信号断”に対して“1”が設定される。
【0043】
従って、第一AOC障害情報331は、第二AOC障害情報332に示される各アラーム種別(アラーム名)のそれぞれについて、異常検知の有無を示す。第一AOC障害情報331をSUMMARY情報もしくはSUMMARYといってもよい。
【0044】
本情報処理システム100における通信障害発生時に、第一レジスタ領域(第1障害情報領域)33に第一AOC障害情報(第1障害情報)331が書き込まれる。第二レジスタ領域34への第二AOC障害情報332の書き込みは、AOCプロセッサ31が行なってもよく、AOCプロセッサ31以外の外部から行なってもよい。
【0045】
AOCレジスタ32において、第二レジスタ領域34の第二AOC障害情報332は、第一レジスタ領域33の第一AOC障害情報331が読み出された際に削除されない。すなわち、AOC3のファームウェア(FW:Firmware)は、第一レジスタ領域33の第一AOC障害情報331が読み出された場合においても、第二レジスタ領域34の情報(第二AOC障害情報332)を削除しないように構成されている。例えば、AOC3のファームウェアにおいては、AOCレジスタ32においてデータの読み出しが行なわれた際のデータ削除対象から、第二レジスタ領域34が除外されている。
【0046】
また、AOC3において、第二レジスタ領域34の第二AOC障害情報332は、AOCプロセッサ31から第二AOC障害情報332が読み出されると消去される。すなわち、AOC3のファームウェアは、第二レジスタ領域34の第二AOC障害情報332が読み出された場合には、この第二レジスタ領域34の情報(第二AOC障害情報332)を削除する。
【0047】
第一レジスタ領域33の第一AOC障害情報331(SUMMARY)は、後述するBMC10からのみ読み出され、第二レジスタ領域34の第二AOC障害情報332(ALARM)は、ICC20からのみ読み出される。BMC10はSUMMARYをSEL登録ストレージ12に登録し、ICC20はALARMをログ登録ストレージ13に登録する。
【0048】
[ICC20]
ICC20は、他の情報処理装置1(
図2に示す例では情報処理装置1b)との通信を制御する通信制御装置である。ICC20は、BMC10と通信ケーブルとの間に配置される。ICC20は、ICCプロセッサ21およびICCレジスタ22を備える。ICCレジスタ22の所定の記憶領域(障害情報領域)にはICC20において検出された障害に関する情報(ICC障害情報)が記憶される。
【0049】
ICCプロセッサ21は、ノード間通信部5における障害検知時にログ情報の収集を行なう。すなわち、ICCプロセッサ21は、ICCレジスタ22から障害情報を読み出す。
【0050】
また、ICCプロセッサ21は、AOCプロセッサ31に対して、AOCレジスタ32の第二レジスタ領域34の第二AOC障害情報332(ALARM)を読み出させることで、第二AOC障害情報332(ALARM)を取得する。このように、ICCプロセッサ21は、AOCプロセッサ31を介してAOCレジスタ32の第二レジスタ領域34から第二AOC障害情報332を取得する。
【0051】
そして、ICCプロセッサ21は、収集したログ情報、すなわち、ICC障害情報および第二AOC障害情報332(ALARM)を、ログ情報の格納指示とともにBMCプロセッサ11に送信(通知)する。
【0052】
また、ICCプロセッサ21は、ノード間通信部5における通信障害の発生を検知する機能を備える。なお、ノード間通信部5における通信障害の発生の検知は既知の種々の手法を用いて実現することができ、その説明は省略する。
【0053】
[BMC10]
BMC10は、情報処理装置1の監視や保守を行なう監視制御装置であり、BMCプロセッサ11,SEL登録ストレージ12およびログ登録ストレージ13を備える。BMCプロセッサ11は、
図3に示すように、信号線41を介してSEL登録ストレージ12に接続状されるとともに、信号線42を介してログ登録ストレージ13に接続されている。
【0054】
また、BMCプロセッサ11は、信号線43を介してICCプロセッサ21に接続されるとともに、信号線46を介してAOCプロセッサ31に接続されている。信号線46は、AOCプロセッサ31からBMCプロセッサ11に対する割込み信号を入力する割込み信号線としても用いられる。
【0055】
SEL登録ストレージ12は、コンピュータ上で発生した状態変化を示す情報(SEL)を記憶する。具体的には、SEL登録ストレージ12には、ICCプロセッサ21がBMCプロセッサ11を介して第一レジスタ領域33から読み出した第一AOC障害情報331(SUMMARY)が格納される。
【0056】
ログ登録ストレージ13は、SEL発生時の詳細障害情報(解析用ログ)を記憶する。具体的には、ログ登録ストレージ13には、AOCレジスタ32の第二レジスタ領域34から読み出された第二AOC障害情報332と、ICCレジスタ22から読み出されたICC障害情報とが関連付けられた状態で、BMCプロセッサ11により格納される。
【0057】
すなわち、ログ登録ストレージ13は、ICC20が採取した障害情報(ICC障害情報)と、ICC20が(AOCプロセッサ31を介して)AOCレジスタ32の第二レジスタ領域34から読み出した第二AOC障害情報332とを関連付けて記憶する、障害情報記憶部として機能する。
【0058】
BMCプロセッサ11は、ノード間通信部5における通信障害検知時に、AOCレジスタ32の第一レジスタ領域33から読み出した第一AOC障害情報331(SUMMARY)をSEL登録ストレージ12へ格納させる。
【0059】
また、BMCプロセッサ11は、ICCプロセッサ21からログ情報の格納指示とともに、ICC障害情報およびALARM(第二AOC障害情報332)を受信すると、これらのICC障害情報およびALARMを関連付けたログ情報をログ登録ストレージ13の所定の領域に格納させる。ログ情報において、これらのICC障害情報およびALARMは、同じ障害検知のタイミングで採取されたものであるので、相関があるものとして取り扱うことができる。
【0060】
BMCプロセッサ11は、ノード間通信部5における通信障害の発生を検知する機能を備える。なお、ノード間通信部5における通信障害の発生の検知は既知の種々の手法を用いて実現することができ、その説明は省略する。
【0061】
(B)動作
上述の如く構成された実施形態の一例としての情報処理システム100のノード間通信部5における障害発生時の処理を、
図5に示すフローチャート(ステップS1~S8)に従って説明する。
ステップS1において、ICCプロセッサ21がファームウェア(FW)を実行することで、ICCレジスタ22からICC障害情報を取得する。
ステップS2において、AOC3(AOCプロセッサ31)が、BMC10(BMCプロセッサ11)に対して割込み通知を発行する。
【0062】
ステップS3において、BMC10(BMCプロセッサ11)が、BMCファームウェアを実行することで、AOCレジスタ32の第一レジスタ領域33から第一AOC障害情報331(SUMMARY)を読み出す。
【0063】
ステップS4において、ICC20(ICCプロセッサ21)が、AOCプロセッサ31を介して、AOCレジスタ32の第二レジスタ領域34から第二AOC障害情報332(ALARM)を読み出す。AOC3(AOCプロセッサ31)がAOCファームウェアを実行することで、AOCレジスタ32の第二AOC障害情報332(ALARM) をクリアする(ステップS5)。
【0064】
ステップS6において、AOC3(AOCプロセッサ31)が、AOCレジスタ32の第二レジスタ領域34の第二AOC障害情報332(ALARM)に対して、アドレス毎(アラーム種別毎)にREGIONの論理和を算出する。第二レジスタ領域34の第二AOC障害情報332(ALARM)は、上述したステップS5においてクリアされているので各アラーム名に対応する論理和の値はそれぞれ0となる。すなわち、第一レジスタ領域33の第一AOC障害情報331(SUMMARY)はクリアされる。
【0065】
ステップS7において、BMC10(BMCプロセッサ11)が、上述したステップS3において読み出したSUMMARYをSEL登録ストレージ12に登録する。なお、ステップS6の処理とステップS7の処理の順序は、これに限定されるものではない。すなわち、ステップS7の処理をステップS6の処理の前に行なってもよく、また、ステップS6の処理とステップS7の処理とを並行して行なってもよい。
【0066】
その後、ステップS8において、ICC20(ICCプロセッサ21)が、BMC10(BMCプロセッサ11)に対して、上述したステップS4において読み出したALARMをステップS1において取得したICC障害情報と合わせて(関連付けて)ログ登録ストレージ13に登録させる。
【0067】
すなわち、ICCプロセッサ21はBMCプロセッサ11に対してログ情報の格納指示を通知する。BMCプロセッサ11は、ICC20からALARMとICC障害情報とを受け取り、ログ情報の格納指示に従って、これらのALARMとICC障害情報とを合わせて(関連付けて)、ログ登録ストレージ13の所定の記憶領域に格納させる。その後、処理を終了する。
【0068】
(C)効果
このように、実施形態の一例としての情報処理システム100によれば、AOCレジスタ32は第一レジスタ領域33および第二レジスタ領域34を備え、第一レジスタ領域33に第一AOC障害情報331(SUMMARY)を、第二レジスタ領域34に第二AOC障害情報332(ALARM)を格納する。そして、AOC3のファームウェアは、第一レジスタ領域33の第一AOC障害情報331が読み出された場合においても、第二レジスタ領域34の情報(第二AOC障害情報332)を削除しない。
【0069】
これにより、BMCプロセッサ11がAOCレジスタ32の第一レジスタ領域33から第一AOC障害情報331(SUMMARY)のみ読み出すことで、AOCレジスタ32のレジスタ情報はクリアされない。従って、その後にICCプロセッサ21からのAOCレジスタ32の第二レジスタ領域34の第二AOC障害情報332(ALARM)の採取が正しく実行される。
【0070】
また、BMCプロセッサ11は、SEL登録ストレージ12にSUMMARYを登録する。これにより、例えば、保守者がSEL登録ストレージ12のSUMMARYを参照することで、障害の内容を容易に把握することができ保守作業効率が向上する。
【0071】
さらに、BMCプロセッサ11が、AOCレジスタ32の第一レジスタ領域33から第一AOC障害情報331(SUMMARY)を読み出した場合でも、第二レジスタ領域34の第二AOC障害情報332(ALARM)は削除されない。これにより、第二AOC障害情報332(ALARM)のREGIONが削除されずに保持されるため、保守者は、REGIONを参照することで、保守箇所を容易に特定することができ、保守の効率化を図ることができるとともに利便性が向上する。例えば、ノード間通信部5における障害発生時に、保守者は、障害に関するログ情報の詳細な解析を行なうことなく障害発生個所がICC20であるかAOC3であるかを確実に切り分けることができる。
【0072】
AOC3において、AOCレジスタ32の第二レジスタ領域34の第二AOC障害情報332(ALARM)に対して、アドレス毎(アラーム種別毎)にREGIONの論理和を算出することで第一AOC障害情報(SUMMARY)331を作成する。これにより、第一AOC障害情報331を容易に作成することができる他、AOC3における障害の発生状況を容易に把握することができ利便性が高い。
【0073】
BMCプロセッサ11とICCプロセッサ21との双方からAOCレジスタ32の障害ログ収集を行なうことができるので、AOCコネクタ30からICC21への割込み信号線が不要となり、製造コストを低減することができる。
【0074】
ログ登録ストレージ13には、ICCプロセッサ21によって取得されたICC障害情報と、ICCプロセッサ21がAOCレジスタ32の第二レジスタ領域34から取得した第二AOC障害情報332とが関連付けて記憶される。これにより、保守者は障害情報間の相互関係を判断する必要がなく、相関がある障害情報を容易に取得することができ、利便性が高い。
【0075】
(D)その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
【0076】
例えば、上述した実施形態においては、AOCプロセッサ31が、AOCレジスタ32の第二レジスタ領域34の第二AOC障害情報332(ALARM)に対して、アドレス毎(アラーム種別毎)にREGIONの論理和を算出することで第一AOC障害情報(SUMMARY)331を作成しているが、これに限定されるものではない。AOC3において、第二AOC障害情報332(ALARM)に対するアドレス毎(アラーム種別毎)にREGIONの論理和を論理回路等により算出することで第一AOC障害情報(SUMMARY)331を作成してもよい。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
【0077】
(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置であって、
前記通信ケーブルが、第1障害情報を記憶する第1障害情報領域と、第2障害情報を記憶する第2障害情報領域と
を有し、
通信障害発生時において、
前記第1障害情報領域に前記第1障害情報が書き込まれるとともに、前記第2障害情報領域に前記第2障害情報が書き込まれ、
前記管理装置は、前記第1障害情報領域から前記第1障害情報を読み込み、
前記通信制御装置は、前記第2障害情報領域から前記第2障害情報を読み込む
ことを特徴とする、情報処理装置。
【0078】
(付記2)
前記第1障害情報領域の前記第1障害情報が読み出された場合においても、前記第2障害情報領域の前記第2障害情報を削除しない
ことを特徴とする、付記1記載の情報処理装置。
【0079】
(付記3)
前記第2障害情報が、複数の障害種別のそれぞれに対して、複数の障害発生位置のそれぞれにおける障害発生の有無を示す値を対応付けて構成され、
前記第1障害情報が、前記第2障害情報における前記障害種別毎の、前記複数の障害発生位置のそれぞれにおける障害発生の有無を示す値の論理和として構成される
ことを特徴とする、付記1または2記載の情報処理装置。
【0080】
(付記4)
前記管理装置が、前記第1障害情報領域から前記第1障害情報を読み込んだ後に、前記通信制御装置が、前記第2障害情報領域から前記第2障害情報を読み込む
ことを特徴とする、付記1~3のいずれか1項に記載の情報処理装置。
【0081】
(付記5)
前記管理装置が、前記通信制御装置が採取した障害情報と、前記通信制御装置が前記第2障害情報領域から読み出した前記第2障害情報とを関連付けて、障害情報記憶部に記憶させる
ことを特徴とする、付記1~4のいずれか1項に記載の情報処理装置。
【0082】
(付記6)
管理装置と、通信制御装置とを備え、他の情報処理装置と通信ケーブルを介して接続される情報処理装置において、
前記通信ケーブルが、第1障害情報を記憶する第1障害情報領域と、第2障害情報を記憶する第2障害情報領域と
を有し、
通信障害検出時において、
前記第1障害情報領域に前記第1障害情報が書き込まれるとともに、前記第2障害情報領域に前記第2障害情報が書き込まれ、
前記管理装置は、前記第1障害情報領域から前記第1障害情報を読み込む処理と、
前記通信制御装置は、前記第2障害情報領域から前記第2障害情報を読み込む処置と
を備えることを特徴とする、通信ケーブルログ情報採取方法。
【0083】
(付記7)
前記第1障害情報領域の前記第1障害情報が読み出された場合においても、前記第2障害情報領域の前記第2障害情報の削除を抑止する処理
を備えることを特徴とする、付記6記載の通信ケーブルログ情報採取方法。
【0084】
(付記8)
前記第2障害情報が、複数の障害種別のそれぞれに対して、複数の障害発生位置のそれぞれにおける障害発生の有無を示す値を対応付けて構成され、
前記第2障害情報における前記障害種別毎の、前記複数の障害発生位置のそれぞれにおける障害発生の有無を示す値の論理和として算出することで、前記第1障害情報を作成する処理
を備えることを特徴とする、付記6または7記載の通信ケーブルログ情報採取方法
【0085】
(付記9)
前記管理装置が、前記第1障害情報領域から前記第1障害情報を読み込んだ後に、前記通信制御装置が、前記第2障害情報領域から前記第2障害情報を読み込む処理
を備えることを特徴とする、付記6~8のいずれか1項に記載の通信ケーブルログ情報採取方法。
【0086】
(付記10)
前記管理装置が、前記通信制御装置が採取した障害情報と、前記通信制御装置が前記第2障害情報領域から読み出した前記第2障害情報とを関連付けて、障害情報記憶部に記憶させる処理
を備えることを特徴とする、付記6~9のいずれか1項に記載の通信ケーブルログ情報採取方法。
【符号の説明】
【0087】
1 情報処理装置
2 基板
5 ノード間通信部
10 BMC
11 BMCプロセッサ
12 SEL登録ストレージ
13 ログ登録ストレージ
20 ICC
21 ICCプロセッサ
22 ICCレジスタ
3 AOC
30 AOCコネクタ
31 AOCプロセッサ
32 AOCレジスタ
33 第一レジスタ領域
34 第二レジスタ領域
41~46 信号線
100 情報処理システム
331 第一AOC障害情報
332 第二AOC障害情報