(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024158926
(43)【公開日】2024-11-08
(54)【発明の名称】管理装置、情報処理システム、及び管理方法
(51)【国際特許分類】
G06F 3/06 20060101AFI20241031BHJP
G06F 13/36 20060101ALI20241031BHJP
G06F 11/07 20060101ALI20241031BHJP
【FI】
G06F3/06 306B
G06F13/36 510
G06F11/07 193
G06F11/07 140A
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023074563
(22)【出願日】2023-04-28
(71)【出願人】
【識別番号】598057291
【氏名又は名称】エフサステクノロジーズ株式会社
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(72)【発明者】
【氏名】風間 哲
(72)【発明者】
【氏名】鈴木 和宏
(72)【発明者】
【氏名】遠藤 浩史
【テーマコード(参考)】
5B042
【Fターム(参考)】
5B042KK17
(57)【要約】
【課題】情報処理装置が使用する複数のデバイスのうち、故障したデバイスの位置を容易に特定する。
【解決手段】記憶部は、情報処理装置が使用する複数のデバイスそれぞれの識別情報と第1位置情報と第2位置情報とを対応付ける、管理情報を記憶する。第1位置情報は、複数のデバイスを格納するデバイス格納部の位置を示す。第2位置情報は、デバイス格納部内における複数のデバイスそれぞれの格納位置を示す。特定部は、複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、情報処理装置から受信する。特定部は、故障デバイス情報に含まれる故障デバイスの識別情報から、管理情報に基づいて、故障デバイスを格納するデバイス格納部の位置と、デバイス格納部内における故障デバイスの格納位置とを特定する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
情報処理装置が使用する複数のデバイスそれぞれの識別情報と、前記複数のデバイスを格納するデバイス格納部の位置を示す第1位置情報と、前記デバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付ける、管理情報を記憶する記憶部と、
前記複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、前記情報処理装置から受信し、前記故障デバイス情報に含まれる前記故障デバイスの識別情報から、前記管理情報に基づいて、前記故障デバイスを格納する前記デバイス格納部の位置と、前記デバイス格納部内における前記故障デバイスの格納位置とを特定する特定部と、
を備えることを特徴とする管理装置。
【請求項2】
前記情報処理装置は、複数のデバイス格納部にアクセス可能であり、
前記複数のデバイス格納部各々は、複数のデバイスを格納しており、
前記故障デバイスを格納している前記デバイス格納部は、前記複数のデバイス格納部のうち1つのデバイス格納部であり、
前記管理情報は、前記複数のデバイス格納部各々を管理対象のデバイス格納部として、前記管理対象のデバイス格納部が格納する前記複数のデバイスそれぞれの識別情報と、前記管理対象のデバイス格納部の位置を示す第1位置情報と、前記管理対象のデバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付けることを特徴とする請求項1記載の管理装置。
【請求項3】
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスに追加された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス追加情報を受信する受信部と、
前記何れかのデバイス格納部の識別情報に基づいて、前記デバイス追加情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記何れかのデバイス格納部の位置を示す第1位置情報に対応付けて、前記管理情報に追加する制御部と、
をさらに備えることを特徴とする請求項2記載の管理装置。
【請求項4】
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスから除外された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス削除情報を受信する受信部と、
前記デバイス削除情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記管理情報から削除する制御部と、
をさらに備えることを特徴とする請求項2記載の管理装置。
【請求項5】
前記故障デバイスを格納する前記デバイス格納部の位置と前記故障デバイスの格納位置とを含む故障通知情報を出力する出力部をさらに備えることを特徴とする請求項1乃至4の何れか1項に記載の管理装置。
【請求項6】
情報処理装置と、
前記情報処理装置が使用する複数のデバイスを格納するデバイス格納部と、
前記複数のデバイスそれぞれの識別情報と、前記デバイス格納部の位置を示す第1位置情報と、前記デバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付ける、管理情報を記憶する記憶部と、
前記複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、前記情報処理装置から受信し、前記故障デバイス情報に含まれる前記故障デバイスの識別情報から、前記管理情報に基づいて、前記故障デバイスを格納する前記デバイス格納部の位置と、前記デバイス格納部内における前記故障デバイスの格納位置とを特定する特定部と、
を備えることを特徴とする情報処理システム。
【請求項7】
情報処理装置が使用する複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、前記情報処理装置から受信し、
前記複数のデバイスそれぞれの識別情報と、前記複数のデバイスを格納するデバイス格納部の位置を示す第1位置情報と、前記デバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付ける、管理情報に基づいて、前記故障デバイス情報に含まれる前記故障デバイスの識別情報から、前記故障デバイスを格納する前記デバイス格納部の位置と、前記デバイス格納部内における前記故障デバイスの格納位置とを特定する、
処理をコンピュータが実行することを特徴とする管理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、故障デバイスを特定する管理技術に関する。
【背景技術】
【0002】
サーバには、サーバを管理するBMC(Baseboard Management Controller)が搭載されている。BMCは、PCIe(Peripheral Component Interconnect Express)スロットのスロット番号と、PCIeスロットに挿入されているPCIeカードのBDF(Bus Device Function)との対応関係を示す対応テーブルを記憶している。
【0003】
BDFは、PCIeカードの識別情報であり、バス番号、デバイス番号、及びファンクション番号の組み合わせを含む。以下の説明では、PCIeスロットを指して、単にスロットと記載することがある。
【0004】
何れかのPCIeカードが故障したとき、故障したPCIeカードのBDFがPCIeバス経由でBMCに通知される。BMCは、対応テーブルに基づいて、通知されたBDFをスロット番号に変換し、得られたスロット番号をユーザに通知する。ユーザは、サーバ上のIDランプによりサーバの設置位置を特定し、通知されたスロット番号から、故障したPCIeカードを特定することができる。ユーザは、例えば、サーバの保守作業を行う作業者である。
【0005】
サーバにおける故障に関して、コンポーザブルインフラストラクチャにおける記憶装置の故障耐性を維持するための方法が知られている(例えば、特許文献1を参照)。障害の発生したI/O(Input/Output)ドロワ上のPCIe Cardの物理位置の特定方法も知られている(例えば、特許文献2を参照)。
【0006】
計算機システムにおけるI/O故障カードの特定に関する技術も知られている(例えば、特許文献3を参照)。仮想化した計算機システムにおける障害耐性向上技術も知られている(例えば、特許文献4を参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特表2022-517890号公報
【特許文献2】特開2011-197845号公報
【特許文献3】特開2011-253332号公報
【特許文献4】特開2012-160095号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
CDI(Composable Disaggregation Infrastructure)構成のサーバシステムでは、サーバが使用するPCIeカードが、サーバの外部の複数のPCIeボックス内に格納されており、サーバに接続されるPCIeカードを動的に変更することができる。しかしながら、故障したPCIeカードを特定するために長い時間がかかることがある。
【0009】
なお、かかる問題は、CDI構成のサーバシステムに限らず、様々な情報処理システムにおいて生ずるものである。また、かかる問題は、PCIeボックス内の故障したPCIeカードを特定する場合に限らず、様々な格納部内の様々な故障デバイスを特定する場合において生ずるものである。
【0010】
1つの側面において、本発明は、情報処理装置(コンピュータ)が使用する複数のデバイスのうち、故障したデバイスの位置を容易に特定することを目的とする。
【課題を解決するための手段】
【0011】
1つの案では、管理装置は、記憶部及び特定部を含む。
【0012】
記憶部は、情報処理装置が使用する複数のデバイスそれぞれの識別情報と第1位置情報と第2位置情報とを対応付ける、管理情報を記憶する。第1位置情報は、複数のデバイスを格納するデバイス格納部の位置を示す。第2位置情報は、デバイス格納部内における複数のデバイスそれぞれの格納位置を示す。
【0013】
特定部は、複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、情報処理装置から受信する。特定部は、故障デバイス情報に含まれる故障デバイスの識別情報から、管理情報に基づいて、故障デバイスを格納するデバイス格納部の位置と、デバイス格納部内における故障デバイスの格納位置とを特定する。
【発明の効果】
【0014】
1つの側面によれば、情報処理装置が使用する複数のデバイスのうち、故障したデバイスの位置を容易に特定することができる。
【図面の簡単な説明】
【0015】
【
図4】サーバシステムのハードウェア構成図である。
【
図9】エントリが追加されたデバイス情報テーブルを示す図である。
【
図10】エントリが削除されたデバイス情報テーブルを示す図である。
【
図11】ボックス情報テーブル生成処理のフローチャートである。
【
図12】デバイス情報テーブル更新処理のフローチャートである。
【
図14】情報処理装置のハードウェア構成図である。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0017】
CDI構成のサーバシステムでは、サーバに接続されるPCIeカードに応じて、論理的なシステム構成に含まれるPCIeボックスの個数及び位置が変化する可能性がある。PCIeカードのBDFは論理的なシステム構成に応じて動的に変化するため、サーバ内のBMCは、各PCIeカードのBDFを認識しておらず、各PCIeカードを格納しているPCIeボックスの位置も認識していない。
【0018】
図1は、比較例のサーバシステムの構成例を示している。
図1のサーバシステムは、CDI構成のサーバシステムであり、サーバ101、PCIeスイッチ102、PCIeボックス103-1、及びPCIeボックス103-2を含む。
【0019】
サーバ101は、BMC111及びスロット112-1~スロット112-3を含む。スロット112-2には、PCIeカードが挿入されている。PCIeボックス103-1は、スロット121-1~スロット121-3を含む。各スロット121-i(i=1~3)には、PCIeカードが挿入されている。PCIeボックス103-2は、スロット131-1~スロット131-3を含む。各スロット131-i(i=1~3)には、PCIeカードが挿入されている。
【0020】
PCIeスイッチ102は、スロット112-2に挿入されたPCIeカードに接続されるとともに、PCIeボックス103-1及びPCIeボックス103-2に接続されている。ユーザは、PCIeスイッチ102を介して、所望のスロット121-i又はスロット131-iをスロット112-2に接続することで、論理的なシステム構成を構築することができる。
【0021】
例えば、スロット131-2に挿入されたPCIeカードを含む論理的なシステム構成の運用中に、そのPCIeカードが故障した場合、故障したPCIeカードのBDFがPCIeバス経由でBMC111に通知される。しかし、BMC111は、PCIeボックス103-2の位置と、スロット131-2に挿入されたPCIeカードのBDFとを認識していない。
【0022】
この場合、BMC111は、不図示のユーザ端末装置の管理画面において、サーバエラーを示すエラー情報を表示する。ユーザは、表示されたエラー情報を見て、サーバシステムにおける故障の発生に気づき、故障したPCIeカードを特定するための調査を実施する。この調査は、例えば、以下の手順で実施される。
【0023】
(P1)ユーザは、サーバシステムで動作中のアプリケーションを停止させる。
【0024】
(P2)サーバ101にログイン可能である場合、ユーザは、サーバ101にログインしてログを解析することで、故障したPCIeカードを特定する。
【0025】
(P3)サーバ101にログイン不可能である場合、ユーザは、スロット121-i及びスロット131-iに挿入されたPCIeカードを別々にスロット112-2に接続することで、個別の論理的なシステム構成を構築する。そして、ユーザは、1枚ずつPCIeカードの故障の有無を調べることで、故障したPCIeカードを特定する。
【0026】
(P4)ユーザは、ケーブルの結線を辿る等の手作業を行うことで、故障したPCIeカードを格納しているPCIeボックス103-j(j=1,2)の位置を特定する。
【0027】
しかしながら、ユーザが調査を実施する場合、故障したPCIeカードを特定するために長い時間がかかる。また、故障判定のスキルがユーザに求められるため、経験の浅いユーザは、故障したPCIeカードを特定することが難しい。さらに、サーバシステムの停止範囲が広いため、サーバシステムの可用性が損なわれる。
【0028】
図2は、実施形態の管理装置の機能的構成例を示している。
図2の管理装置201は、記憶部211及び特定部212を含む。
【0029】
記憶部211は、情報処理装置が使用する複数のデバイスそれぞれの識別情報と第1位置情報と第2位置情報とを対応付ける、管理情報を記憶する。第1位置情報は、複数のデバイスを格納するデバイス格納部の位置を示す。第2位置情報は、デバイス格納部内における複数のデバイスそれぞれの格納位置を示す。
【0030】
図3は、
図2の管理装置201が行う位置特定処理の例を示すフローチャートである。まず、特定部212は、複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、情報処理装置から受信する(ステップ301)。次に、特定部212は、故障デバイス情報に含まれる故障デバイスの識別情報から、管理情報に基づいて、故障デバイスを格納するデバイス格納部の位置と、デバイス格納部内における故障デバイスの格納位置とを特定する(ステップ302)。
【0031】
図2の管理装置201によれば、情報処理装置が使用する複数のデバイスのうち、故障したデバイスの位置を容易に特定することができる。
【0032】
図4は、
図2の管理装置201を含むサーバシステムのハードウェア構成例を示している。
図4のサーバシステムは、ラック401-1及びラック401-2を含む。ラック401-k(k=1,2)は、筐体と呼ばれることもある。
図4のサーバシステムは、情報処理システムの一例である。
【0033】
ラック401-1は、ネットワークスイッチ411-1、管理サーバ412、PCIeスイッチ413-1、サーバ414-1、サーバ414-2、PCIeボックス415-1、及びPCIeボックス415-2を含む。これらの構成要素はハードウェアである。管理サーバ412は、
図2の管理装置201に対応する。
【0034】
ラック401-2は、ネットワークスイッチ411-2、PCIeスイッチ413-2、サーバ414-3、サーバ414-4、PCIeボックス415-3、及びPCIeボックス415-4を含む。これらの構成要素はハードウェアである。
【0035】
管理サーバ412は、NIC(Network Interface Controller)421及びHBA(Host Bus Adapter)422を含む。NIC421及びHBA422は、ハードウェアの通信装置である。
【0036】
サーバ414-j(j=1~4)は、BMC423-j及びHBA424-jを含む。BMC423-jは、サーバ414-jを管理するハードウェアの制御装置であり、HBA424-jは、ハードウェアの通信装置である。サーバ414-jは、情報処理装置に対応する。
【0037】
ネットワークスイッチ411-1は、NIC421、BMC423-1、BMC423-2、及びネットワークスイッチ411-2と接続されている。PCIeスイッチ413-1は、HBA422、HBA424-1、HBA424-2、PCIeボックス415-1、PCIeボックス415-2、及びPCIeスイッチ413-2と接続されている。
【0038】
ネットワークスイッチ411-2は、BMC423-3、BMC423-4、及びネットワークスイッチ411-1と接続されている。PCIeスイッチ413-2は、HBA424-3、HBA424-4、PCIeボックス415-3、PCIeボックス415-4、及びPCIeスイッチ413-1と接続されている。
【0039】
サーバ414-1及びサーバ414-2は、PCIeスイッチ413-1を介して、PCIeボックス415-1及びPCIeボックス415-2にアクセス可能である。また、サーバ414-1及びサーバ414-2は、PCIeスイッチ413-1及びPCIeスイッチ413-2を介して、PCIeボックス415-3及びPCIeボックス415-4にアクセス可能である。
【0040】
サーバ414-3及びサーバ414-4は、PCIeスイッチ413-2を介して、PCIeボックス415-3及びPCIeボックス415-4にアクセス可能である。また、サーバ414-3及びサーバ414-4は、PCIeスイッチ413-2及びPCIeスイッチ413-1を介して、PCIeボックス415-1及びPCIeボックス415-2にアクセス可能である。
【0041】
サーバシステムに含まれるラック401-kの個数は、1個であってもよく、3個以上であってもよい。各ラック401-kに含まれるサーバ414-jの個数は、1個であってもよく、3個以上であってもよい。各ラック401-kに含まれるPCIeボックス415-jの個数は、1個であってもよく、3個以上であってもよい。
【0042】
図5は、
図4のPCIeボックス415-j(j=1~4)の構成例を示している。
図5のPCIeボックス415-jは、スロット511-1~スロット511-N(Nは1以上の整数)を含む。スロット511-i(i=1~N)には、PCIeカード等の着脱可能なデバイス512-iが接続される。デバイス512-iは、NIC、GPU(Graphics Processing Unit)、又はSSD(Solid State Drive)であってもよい。PCIeボックス415-jは、デバイスを格納するデバイス格納部に対応する。
【0043】
ユーザは、PCIeスイッチ413-kを介して、各PCIeボックス415-j内のスロット511-iをサーバ414-jに接続することで、サーバ414-j用の論理的なシステム構成を構築することができる。
【0044】
サーバ414-j用の論理的なシステム構成に含まれるデバイス512-iは、そのサーバ414-jのオペレーティングシステム(Operating System,OS)から認識可能なデバイス512-iである。OSから認識可能なデバイス512-iを格納しているPCIeボックス415-jは、管理対象のPCIeボックス415-jとなる。OSから認識可能なデバイス512-iは、情報処理装置が使用するデバイスに対応する。
【0045】
図6は、
図4の管理サーバ412の機能的構成例を示している。
図6の管理サーバ412は、NIC421、HBA422、特定部611、制御部612、及び記憶部613を含む。特定部611及び記憶部613は、
図2の特定部212及び記憶部211にそれぞれ対応する。
【0046】
ユーザは、論理的なシステム構成の構築時に、ネットワークスイッチ411-1に接続された不図示のユーザ端末装置を用いて、各PCIeボックス415-jのボックス情報を入力する。NIC421は、ネットワークスイッチ411-1を介して、入力されたボックス情報を受信する。制御部612は、受信したボックス情報を含むボックス情報テーブル621を生成して、記憶部613に格納する。
【0047】
図7は、ボックス情報テーブル621の例を示している。
図7のボックス情報テーブル621のエントリは、Box#、Rack#、及びU#を含む。Box#、Rack#、及びU#は、互いに対応付けられている。
【0048】
Box#は、管理対象のPCIeボックス415-jの識別情報である。Rack#は、PCIeボックス415-jを含むラック401-kの識別情報である。U#は、ラック401-k内においてPCIeボックス415-jが設置されている位置を示す情報である。
【0049】
この例では、管理対象のPCIeボックス415-jは、PCIeボックス415-2及びPCIeボックス415-3である。
【0050】
Box#“2”は、PCIeボックス415-2を示し、Rack#“1”は、ラック401-1を示す。U#“10”は、ラック401-1内におけるPCIeボックス415-2の設置位置の高さを表す。Box#“3”は、PCIeボックス415-3を示しRack#“2”は、ラック401-2を示す。U#“20”は、ラック401-2内におけるPCIeボックス415-3の設置位置の高さを表す。
【0051】
ユーザは、論理的なシステム構成にPCIeボックス415-jを追加したとき、ユーザ端末装置を用いて、追加されたPCIeボックス415-jのボックス情報を入力する。制御部612は、入力されたボックス情報を含むエントリを、ボックス情報テーブル621に追加する。
【0052】
ユーザは、論理的なシステム構成から何れかのPCIeボックス415-jを除外したとき、ユーザ端末装置を用いて、除外されたPCIeボックス415-jのボックス情報を入力する。制御部612は、入力されたボックス情報を含むエントリを、ボックス情報テーブル621から削除する。
【0053】
ユーザは、管理対象のPCIeボックス415-jに格納されているデバイス512-iのうち、論理的なシステム構成に含めるデバイス512-iを動的に変更することができる。論理的なシステム構成に含まれるデバイス512-iが変更された場合、PCIeバス経由で転送される構成変更情報が、PCIeスイッチ413-1から管理サーバ412へ出力される。
【0054】
構成変更情報は、例えば、デバイス512-iのアタッチ又はデタッチを示す。デバイス512-iのアタッチは、デバイス512-iをサーバ414-jに接続することで、そのデバイス512-iをサーバ414-j用の論理的なシステム構成に追加する変更を表す。デバイス512-iのデタッチは、デバイス512-iをサーバ414-jから切り離すことで、そのデバイス512-iをサーバ414-j用の論理的なシステム構成から除外する変更を表す。
【0055】
デバイス512-iのアタッチを示す構成変更情報は、例えば、“Attached Box:2 Slot:1 BDF:10:00.0”のように記述することができる。“Attached”は、アタッチを示す。
【0056】
“Box:2”は、アタッチされたデバイス512-iを格納しているPCIeボックス415-jのBox#が“2”であることを示す。“Slot:1”は、アタッチされたデバイス512-iが接続されているスロット511-iのSlot#が“1”であることを示す。Slot#は、スロット511-iの識別情報である。“BDF:10:00.0”は、アタッチされたデバイス512-iのBDFが“10:00.0”であることを示す。
【0057】
デバイス512-iのアタッチを示す構成変更情報は、デバイス追加情報の一例である。アタッチされたデバイス512-iは、追加された特定のデバイスの一例であり、デバイス512-iのBDFは、特定のデバイスの識別情報の一例である。PCIeボックス415-jのBox#は、特定のデバイスを格納するデバイス格納部の識別情報の一例であり、スロット511-iのSlot#は、デバイス格納部内における特定のデバイスの格納位置を示す第2位置情報の一例である。
【0058】
デバイス512-iのデタッチを示す構成変更情報は、例えば、“Detached Box:2 Slot:1 BDF:10:00.0”のように記述することができる。“Detached”は、デタッチを示す。
【0059】
“Box:2”は、デタッチされたデバイス512-iを格納していたPCIeボックス415-jのBox#が“2”であることを示す。“Slot:1”は、デタッチされたデバイス512-iが接続されていたスロット511-iのSlot#が“1”であることを示す。“BDF:10:00.0”は、デタッチされたデバイス512-iのBDFが“10:00.0”であることを示す。
【0060】
デバイス512-iのデタッチを示す構成変更情報は、デバイス削除情報の一例である。デタッチされたデバイス512-iは、除外された特定のデバイスの一例であり、デバイス512-iのBDFは、特定のデバイスの識別情報の一例である。PCIeボックス415-jのBox#は、特定のデバイスを格納するデバイス格納部の識別情報の一例であり、スロット511-iのSlot#は、デバイス格納部内における特定のデバイスの格納位置を示す第2位置情報の一例である。
【0061】
HBA422は、PCIeスイッチ413-1から構成変更情報を受信する。論理的なシステム構成の構築時に、デバイス512-iのアタッチを示す構成変更情報を受信した場合、制御部612は、受信した構成変更情報からBox#、Slot#、及びBDFを抽出する。そして、制御部612は、抽出されたBox#、Slot#、及びBDFを含むデバイス情報テーブル622を生成して、記憶部613に格納する。
【0062】
図8は、デバイス情報テーブル622の例を示している。
図8のデバイス情報テーブル622のエントリは、アタッチを示す構成変更情報である“Attached Box:2 Slot:1 BDF:10:00.0”から抽出されたBox#、Slot#、及びBDFを含む。Box#、Slot#、及びBDFは、互いに対応付けられている。
【0063】
デバイス情報テーブル622に含まれるSlot#及びBDFは、Box#を介して、ボックス情報テーブル621に含まれるRack#及びU#と対応付けられている。ボックス情報テーブル621及びデバイス情報テーブル622は、管理情報に対応する。
【0064】
デバイス情報テーブル622に含まれるBDFは、デバイスの識別情報に対応する。ボックス情報テーブル621に含まれるRack#及びU#は、デバイス格納部の位置を示す第1位置情報に対応する。デバイス情報テーブル622に含まれるSlot#は、デバイス格納部内におけるデバイスの格納位置を示す第2位置情報に対応する。
【0065】
サーバシステムに複数のPCIeボックス415-jが含まれている場合、各PCIeボックス415-jのRack#及びU#がボックス情報テーブル621に登録される。これにより、デバイス512-iのBDFに基づいてPCIeボックス415-jの設置位置を特定することが可能になる。
【0066】
デバイス情報テーブル622が生成された後に、デバイス512-iのアタッチを示す構成変更情報をさらに受信した場合、制御部612は、受信した構成変更情報からBox#、Slot#、及びBDFを抽出する。そして、制御部612は、抽出されたBox#、Slot#、及びBDFを含むエントリをデバイス情報テーブル622に追加することで、デバイス情報テーブル622を更新する。
【0067】
図9は、エントリが追加されたデバイス情報テーブル622の例を示している。
図9のデバイス情報テーブル622は、
図8のデバイス情報テーブル622にエントリを追加することで生成される。追加された2番目のエントリは、アタッチを示す構成変更情報である“Attached Box:2 Slot:2 BDF:20:00.0”から抽出されたBox#、Slot#、及びBDFを含む。
【0068】
デバイス512-iのアタッチを示す構成変更情報に対応するエントリを追加することで、そのデバイス512-iを追加する変更をデバイス情報テーブル622に反映させることができる。
【0069】
デバイス情報テーブル622が生成された後に、デバイス512-iのデタッチを示す構成変更情報を受信した場合、制御部612は、受信した構成変更情報からBox#、Slot#、及びBDFを抽出する。そして、制御部612は、抽出されたBox#、Slot#、及びBDFを含むエントリをデバイス情報テーブル622から削除することで、デバイス情報テーブル622を更新する。
【0070】
図10は、エントリが削除されたデバイス情報テーブル622の例を示している。
図10のデバイス情報テーブル622は、
図9のデバイス情報テーブル622から1番目のエントリを削除することで生成される。削除された1番目のエントリは、デタッチを示す構成変更情報である“Detached Box:2 Slot:1 BDF:10:00.0”から抽出されたBox#、Slot#、及びBDFを含む。
【0071】
デバイス512-iのデタッチを示す構成変更情報に対応するエントリを削除することで、そのデバイス512-iを除外する変更をデバイス情報テーブル622に反映させることができる。
【0072】
サーバ414-j用の論理的なシステム構成の運用中に、何れかのデバイス512-iが故障した場合、故障したデバイス512-iのBDFがPCIeバス経由で、そのサーバ414-j内のBMC423-jに通知される。BMC423-jは、通知されたBDFを含む故障デバイス情報を、ネットワークスイッチ411-kを介して、管理サーバ412へ送信する。故障したデバイス512-iは、故障デバイスに対応する。
【0073】
管理サーバ412の特定部611は、NIC421を介して、故障デバイス情報を受信する。次に、特定部611は、受信した故障デバイス情報からBDFを抽出し、ボックス情報テーブル621及びデバイス情報テーブル622を用いて、抽出されたBDFに対応付するRack#、U#、及びSlot#を特定する。
【0074】
まず、特定部611は、抽出されたBDFをキーとして用いてデバイス情報テーブル622を検索し、BDFに対応付けられたBox#及びSlot#を取得する。次に、特定部611は、取得したBox#をキーとして用いてボックス情報テーブル621を検索し、Box#に対応付けられたRack#及びU#を取得する。
【0075】
そして、特定部611は、取得したRack#及びU#を、故障したデバイス512-iを格納するPCIeボックス415-jのRack#及びU#として特定する。さらに、特定部611は、取得したSlot#を、そのPCIeボックス415-j内における故障したデバイス512-iの格納位置として特定する。
【0076】
次に、特定部611は、特定されたRack#、U#、及びSlot#を含む故障通知情報623を生成して、記憶部613に格納する。NIC421は、ネットワークスイッチ411-1を介して、故障通知情報623をユーザ端末装置へ送信する。これにより、ユーザは、故障したデバイス512-iの位置を示すRack#、U#、及びSlot#を取得することができる。NIC421は、故障通知情報623を出力する出力部の一例である。
【0077】
一例として、記憶部613が
図7のボックス情報テーブル621と
図9のデバイス情報テーブル622とを記憶しており、かつ、故障デバイス情報に含まれるBDFが“20:00.0”である場合について説明する。
【0078】
この場合、特定部611は、
図9のデバイス情報テーブル622から、BDF“20:00.0”に対応付けられたBox#“2”及びSlot#“2”を取得する。次に、特定部611は、
図7のボックス情報テーブル621から、Box#“2”に対応付けられたRack#“1”及びU#“10”を取得する。
【0079】
そして、特定部611は、Rack#“1”、U#“10”、及びSlot#“2”を含む故障通知情報623を生成し、NIC421を介してユーザ端末装置へ送信する。Rack#“1”は、ラック401-1を示し、U#“10”は、PCIeボックス415-2の設置位置を示し、Slot#“2”は、スロット511-2を示す。
【0080】
したがって、ユーザは、故障通知情報623から、ラック401-1内のPCIeボックス415-2のスロット511-2に接続されているデバイス512-2が故障したことを認識することができる。
【0081】
図4のサーバシステムによれば、何れかのデバイス512-iが故障したときに、BMC423-jに通知されるBDFから、故障したデバイス512-iの位置を容易に特定することができる。
【0082】
ユーザは、故障したデバイス512-iの位置を示す故障通知情報623から、その位置を速やかに取得できるため、保守作業の時間を短縮することができる。故障したデバイス512-iの交換時には、そのデバイス512-iを格納するラック401-k内で動作しているアプリケーションのみを停止させればよいため、サーバシステム全体を停止させる場合と比較して可用性が向上する。
【0083】
図11は、
図6の管理サーバ412が行うボックス情報テーブル生成処理の例を示すフローチャートである。まず、NIC421は、ユーザから入力されたボックス情報を受信し(ステップ1101)、制御部612は、受信したボックス情報が、論理的なシステム構成の構築時のボックス情報であるか否かをチェックする(ステップ1102)。
【0084】
受信したボックス情報が、論理的なシステム構成の構築時のボックス情報である場合(ステップ1102,YES)、制御部612は、受信したボックス情報を含むボックス情報テーブル621を生成する(ステップ1105)。
【0085】
受信したボックス情報が、論理的なシステム構成の構築時のボックス情報ではない場合(ステップ1102,NO)、制御部612は、ステップ1103の処理を行う。ステップ1103において、制御部612は、受信したボックス情報が、追加されたPCIeボックス415-jのボックス情報であるか否かをチェックする。
【0086】
受信したボックス情報が、追加されたPCIeボックス415-jのボックス情報である場合(ステップ1103,YES)、制御部612は、受信したボックス情報を含むエントリを、ボックス情報テーブル621に追加する(ステップ1106)。
【0087】
受信したボックス情報が、追加されたPCIeボックス415-jのボックス情報ではない場合(ステップ1103,NO)、制御部612は、ステップ1104の処理を行う。ステップ1104において、制御部612は、受信したボックス情報が、除外されたPCIeボックス415-jのボックス情報であるか否かをチェックする。
【0088】
受信したボックス情報が、除外されたPCIeボックス415-jのボックス情報である場合(ステップ1104,YES)、制御部612は、受信したボックス情報を含むエントリを、ボックス情報テーブル621から削除する(ステップ1107)。
【0089】
受信したボックス情報が、除外されたPCIeボックス415-jのボックス情報ではない場合(ステップ1104,NO)、制御部612は、処理を終了する。
【0090】
図12は、
図6の管理サーバ412が行うデバイス情報テーブル更新処理の例を示すフローチャートである。まず、HBA422は、PCIeスイッチ413-1から構成変更情報を受信し(ステップ1201)、制御部612は、受信した構成変更情報が“Attached”を含んでいるか否かをチェックする(ステップ1202)。
【0091】
受信した構成変更情報が“Attached”を含んでいる場合(ステップ1202,YES)、制御部612は、構成変更情報から、“Attached”に対応付けられたBox#、Slot#、及びBDFを抽出する(ステップ1203)。そして、制御部612は、抽出されたBox#、Slot#、及びBDFを含むエントリを、デバイス情報テーブル622に追加する(ステップ1204)。
【0092】
次に、制御部612は、受信した構成変更情報が“Detached”を含んでいるか否かをチェックする(ステップ1205)。
【0093】
受信した構成変更情報が“Detached”を含んでいる場合(ステップ1205,YES)、制御部612は、構成変更情報から、“Detached”に対応付けられたBox#、Slot#、及びBDFを抽出する(ステップ1206)。次に、制御部612は、抽出されたBox#、Slot#、及びBDFを含むエントリを、デバイス情報テーブル622から削除する(ステップ1207)。そして、管理サーバ412は、ステップ1201以降の処理を繰り返す。
【0094】
受信した構成変更情報が“Attached”を含んでいない場合(ステップ1202,NO)、制御部612は、ステップ1205以降の処理を行う。受信した構成変更情報が“Detached”を含んでいない場合(ステップ1205,NO)、管理サーバ412は、ステップ1201以降の処理を繰り返す。
【0095】
図13は、
図4のサーバシステムが行う故障通知処理の例を示すフローチャートである。まず、BMC423-jは、故障したデバイス512-iのBDFをPCIeバス経由で受信したか否かをチェックする(ステップ1301)。
【0096】
故障したデバイス512-iのBDFを受信した場合(ステップ1301,YES)、BMC423-jは、受信したBDFを含む故障デバイス情報を管理サーバ412へ送信する(ステップ1302)。管理サーバ412のNIC421は、故障デバイス情報を受信する。
【0097】
次に、特定部611は、受信した故障デバイス情報からBDFを抽出し、ボックス情報テーブル621及びデバイス情報テーブル622を用いて、抽出されたBDFに対応付するRack#、U#、及びSlot#を特定する(ステップ1303)。
【0098】
次に、特定部611は、特定されたRack#、U#、及びSlot#を含む故障通知情報623を生成し、NIC421を介して、ユーザ端末装置へ送信する(ステップ1304)。そして、サーバシステムは、ステップ1301以降の処理を繰り返す。
【0099】
故障したデバイス512-iのBDFを受信していない場合(ステップ1301,NO)、サーバシステムは、ステップ1301以降の処理を繰り返す。
【0100】
図1及び
図4のサーバシステムの構成は一例に過ぎず、サーバシステムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0101】
図2の管理装置201の構成は一例に過ぎず、管理装置201の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0102】
図5のPCIeボックス415-jの構成は一例に過ぎず、サーバシステムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
図6の管理サーバ412の構成は一例に過ぎず、サーバシステムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0103】
図3及び
図11~
図13のフローチャートは一例に過ぎず、管理装置201又はサーバシステムの構成又は条件に応じて、一部の処理を省略又は変更してもよい。
【0104】
図7に示したボックス情報テーブル621と
図8~
図10に示したデバイス情報テーブル622は一例に過ぎず、ボックス情報テーブル621及びデバイス情報テーブル622は、サーバシステムの構成に応じて変化する。
【0105】
図14は、
図6の管理サーバ412として用いられる情報処理装置のハードウェア構成例を示している。
図14の情報処理装置は、CPU(Central Processing Unit)1401、メモリ1402、補助記憶装置1403、媒体駆動装置1404、NIC421、及びHBA422を含む。これらの構成要素はハードウェアであり、バス1405により互いに接続されている。
【0106】
メモリ1402は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリであり、処理に用いられるプログラム及びデータを記憶する。メモリ1402は、
図2の記憶部211又は
図6の記憶部613として動作してもよい。
【0107】
CPU1401(プロセッサ)は、例えば、メモリ1402を利用してプログラムを実行することにより、
図2の特定部212として動作する。CPU1401は、メモリ1402を利用してプログラムを実行することにより、
図6の特定部611及び制御部612としても動作する。
【0108】
補助記憶装置1403は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1403は、ハードディスクドライブ又はSSDであってもよい。情報処理装置は、補助記憶装置1403にプログラム及びデータを格納しておき、それらをメモリ1402にロードして使用することができる。補助記憶装置1403は、
図2の記憶部211又は
図6の記憶部613として動作してもよい。
【0109】
媒体駆動装置1404は、可搬型記録媒体1406を駆動し、その記録内容にアクセスする。可搬型記録媒体1406は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1406は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。ユーザは、可搬型記録媒体1406にプログラム及びデータを格納しておき、それらをメモリ1402にロードして使用することができる。
【0110】
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1402、補助記憶装置1403、又は可搬型記録媒体1406のような、物理的な(非一時的な)記録媒体である。
【0111】
なお、情報処理装置が
図14のすべての構成要素を含む必要はなく、情報処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、補助記憶装置1403又は可搬型記録媒体1406を使用しない場合は、補助記憶装置1403又は媒体駆動装置1404を省略することができる。
【0112】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0113】
図1乃至
図14を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
情報処理装置が使用する複数のデバイスそれぞれの識別情報と、前記複数のデバイスを格納するデバイス格納部の位置を示す第1位置情報と、前記デバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付ける、管理情報を記憶する記憶部と、
前記複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、前記情報処理装置から受信し、前記故障デバイス情報に含まれる前記故障デバイスの識別情報から、前記管理情報に基づいて、前記故障デバイスを格納する前記デバイス格納部の位置と、前記デバイス格納部内における前記故障デバイスの格納位置とを特定する特定部と、
を備えることを特徴とする管理装置。
(付記2)
前記情報処理装置は、複数のデバイス格納部にアクセス可能であり、
前記複数のデバイス格納部各々は、複数のデバイスを格納しており、
前記故障デバイスを格納している前記デバイス格納部は、前記複数のデバイス格納部のうち1つのデバイス格納部であり、
前記管理情報は、前記複数のデバイス格納部各々を管理対象のデバイス格納部として、前記管理対象のデバイス格納部が格納する前記複数のデバイスそれぞれの識別情報と、前記管理対象のデバイス格納部の位置を示す第1位置情報と、前記管理対象のデバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付けることを特徴とする付記1記載の管理装置。
(付記3)
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスに追加された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス追加情報を受信する受信部と、
前記何れかのデバイス格納部の識別情報に基づいて、前記デバイス追加情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記何れかのデバイス格納部の位置を示す第1位置情報に対応付けて、前記管理情報に追加する制御部と、
をさらに備えることを特徴とする付記2記載の管理装置。
(付記4)
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスから除外された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス削除情報を受信する受信部と、
前記デバイス削除情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記管理情報から削除する制御部と、
をさらに備えることを特徴とする付記2記載の管理装置。
(付記5)
前記故障デバイスを格納する前記デバイス格納部の位置と前記故障デバイスの格納位置とを含む故障通知情報を出力する出力部をさらに備えることを特徴とする付記1乃至4の何れか1項に記載の管理装置。
(付記6)
情報処理装置と、
前記情報処理装置が使用する複数のデバイスを格納するデバイス格納部と、
前記複数のデバイスそれぞれの識別情報と、前記デバイス格納部の位置を示す第1位置情報と、前記デバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付ける、管理情報を記憶する記憶部と、
前記複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、前記情報処理装置から受信し、前記故障デバイス情報に含まれる前記故障デバイスの識別情報から、前記管理情報に基づいて、前記故障デバイスを格納する前記デバイス格納部の位置と、前記デバイス格納部内における前記故障デバイスの格納位置とを特定する特定部と、
を備えることを特徴とする情報処理システム。
(付記7)
前記情報処理システムは、複数のデバイス格納部を備え、
前記複数のデバイス格納部各々は、複数のデバイスを格納しており、
前記故障デバイスを格納している前記デバイス格納部は、前記複数のデバイス格納部のうち1つのデバイス格納部であり、
前記管理情報は、前記複数のデバイス格納部各々を管理対象のデバイス格納部として、前記管理対象のデバイス格納部が格納する前記複数のデバイスそれぞれの識別情報と、前記管理対象のデバイス格納部の位置を示す第1位置情報と、前記管理対象のデバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付けることを特徴とする付記6記載の情報処理システム。
(付記8)
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスに追加された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス追加情報を受信する受信部と、
前記何れかのデバイス格納部の識別情報に基づいて、前記デバイス追加情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記何れかのデバイス格納部の位置を示す第1位置情報に対応付けて、前記管理情報に追加する制御部と、
をさらに備えることを特徴とする付記7記載の情報処理システム。
(付記9)
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスから除外された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス削除情報を受信する受信部と、
前記デバイス削除情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記管理情報から削除する制御部と、
をさらに備えることを特徴とする付記7記載の情報処理システム。
(付記10)
前記故障デバイスを格納する前記デバイス格納部の位置と前記故障デバイスの格納位置とを含む故障通知情報を出力する出力部をさらに備えることを特徴とする付記6乃至9の何れか1項に記載の情報処理システム。
(付記11)
情報処理装置が使用する複数のデバイスのうち故障デバイスの識別情報を含む故障デバイス情報を、前記情報処理装置から受信し、
前記複数のデバイスそれぞれの識別情報と、前記複数のデバイスを格納するデバイス格納部の位置を示す第1位置情報と、前記デバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付ける、管理情報に基づいて、前記故障デバイス情報に含まれる前記故障デバイスの識別情報から、前記故障デバイスを格納する前記デバイス格納部の位置と、前記デバイス格納部内における前記故障デバイスの格納位置とを特定する、
処理をコンピュータが実行することを特徴とする管理方法。
(付記12)
前記情報処理装置は、複数のデバイス格納部にアクセス可能であり、
前記複数のデバイス格納部各々は、複数のデバイスを格納しており、
前記故障デバイスを格納している前記デバイス格納部は、前記複数のデバイス格納部のうち1つのデバイス格納部であり、
前記管理情報は、前記複数のデバイス格納部各々を管理対象のデバイス格納部として、前記管理対象のデバイス格納部が格納する前記複数のデバイスそれぞれの識別情報と、前記管理対象のデバイス格納部の位置を示す第1位置情報と、前記管理対象のデバイス格納部内における前記複数のデバイスそれぞれの格納位置を示す第2位置情報とを対応付けることを特徴とする付記11記載の管理方法。
(付記13)
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスに追加された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス追加情報を受信し、
前記何れかのデバイス格納部の識別情報に基づいて、前記デバイス追加情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記何れかのデバイス格納部の位置を示す第1位置情報に対応付けて、前記管理情報に追加する、
処理を前記コンピュータがさらに実行することを特徴とする付記12記載の管理方法。
(付記14)
前記複数のデバイス格納部のうち何れかのデバイス格納部内の特定のデバイスが、前記情報処理装置が使用する複数のデバイスから除外された場合、前記何れかのデバイス格納部の識別情報と、前記特定のデバイスの識別情報と、前記何れかのデバイス格納部内における前記特定のデバイスの格納位置を示す第2位置情報とを含む、デバイス削除情報を受信し、
前記デバイス削除情報に含まれる前記特定のデバイスの識別情報と前記特定のデバイスの格納位置を示す第2位置情報とを、前記管理情報から削除する、
処理を前記コンピュータがさらに実行することを特徴とする付記12記載の管理方法。
(付記15)
前記故障デバイスを格納する前記デバイス格納部の位置と前記故障デバイスの格納位置とを含む故障通知情報を出力する処理を、前記コンピュータがさらに実行することを特徴とする付記11乃至14の何れか1項に記載の管理方法。
【符号の説明】
【0114】
101、414-1~414-4 サーバ
102、413-1、413-2 PCIeスイッチ
103-1、103-2、415-1~415-4 PCIeボックス
111、423-1~423-4 BMC
112-1~112-3、121-1~121-3、131-1~131-3 スロット
201 管理装置
211、613 記憶部
212、611 特定部
401-1、401-2 ラック
411-1、411-2 ネットワークスイッチ
412 管理サーバ
421 NIC
422、424-1~424-4 HBA
511-1~511-N スロット
512-1~512-N デバイス
612 制御部
621 ボックス情報テーブル
622 デバイス情報テーブル
623 故障通知情報
1401 CPU
1402 メモリ
1403 補助記憶装置
1404 媒体駆動装置
1405 バス
1406 可搬型記録媒体