(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025025674
(43)【公開日】2025-02-21
(54)【発明の名称】サーバ監視システムおよびサーバ監視方法
(51)【国際特許分類】
G06F 11/20 20060101AFI20250214BHJP
【FI】
G06F11/20 635
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023130694
(22)【出願日】2023-08-10
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山田 忠史
(72)【発明者】
【氏名】▲高▼橋 清剛
【テーマコード(参考)】
5B034
【Fターム(参考)】
5B034BB17
(57)【要約】
【課題】筐体システム制御に故障が発生した筐体を切り離さずにサーバシステムの運用を継続する。
【解決手段】単独でサーバ装置としての機能を有している同一構成の筐体10-1~10-4によって、ビルディングブロック構成のサーバシステムが構成される。筐体10-1は、筐体10-3の故障の検知を行い、故障を検知すると筐体10-3の制御権を獲得して筐体10-3に対する制御を代行し、筐体10-3を正常復帰させる制御を代行して行い、筐体10-3が正常復帰すると制御権を筐体10-3に返還する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
サーバ装置である筐体の故障を検知し、
前記故障を検知すると、前記筐体の制御権を獲得して前記筐体に対する制御を代行し、
前記故障が検知された前記筐体を正常復帰させる制御を代行して行い、
前記筐体の正常復帰に応じて前記制御権を前記筐体に返還する
処理を行う制御部を備えることを特徴とするサーバ監視システム。
【請求項2】
前記筐体は、
前記筐体の制御を行う制御デバイスと、
前記筐体の制御に関する指示を前記制御デバイスに与えるプロセッサと
を備え、
前記制御部は、前記制御デバイスを制御して、前記指示を与えるための前記プロセッサからのアクセスを抑止させることによって、前記制御権を獲得する
ことを特徴とする請求項1に記載のサーバ監視システム。
【請求項3】
前記制御デバイスは、
前記筐体における第1の制御対象の制御を行う第1の制御デバイスと、
前記筐体における前記第1の制御対象とは異なる第2の制御対象の制御を行う第2の制御デバイスであって、前記プロセッサからの前記指示が前記第1の制御デバイスを介して与えられる前記第2の制御デバイスと
を備え、
前記プロセッサは、前記第2の制御デバイスに対する前記指示を前記第1の制御デバイスに与え、
前記制御部は、前記第2の制御デバイスを制御して、前記第2の制御デバイスに対する前記指示を前記第2の制御デバイスに転送するための前記第1の制御デバイスからのアクセスを抑止させることによって、前記筐体における前記第2の制御対象についての前記制御権を獲得する
ことを特徴とする請求項2に記載のサーバ監視システム。
【請求項4】
前記制御部は、
前記筐体の故障を検知すると、前記筐体の制御を行う筐体制御部に対して前記筐体の制御のリセットを要求し、
前記筐体の制御のリセットに失敗した場合に、前記制御権を獲得する
ことを特徴とする請求項1に記載のサーバ監視システム。
【請求項5】
前記筐体制御部は、
前記筐体の制御を行う制御処理を行わせるプログラムを実行するプロセッサと、
前記プロセッサからの指示に応じて前記筐体の制御を行う制御デバイスと
を備え、
前記制御部は、前記筐体の故障を検知すると、前記プログラムを実行している前記プロセッサに対して前記制御処理のリセットを要求し、前記制御処理のリセットが失敗した場合に前記制御デバイスに対して前記プロセッサのソフトウェアリセットを要求し、前記ソフトウェアリセットが失敗した場合に前記制御デバイスに対して前記プロセッサのハードウェアリセットを要求し、前記ハードウェアリセットが失敗した場合に前記制御権を獲得する
ことを特徴とする請求項4に記載のサーバ監視システム。
【請求項6】
前記制御部は、前記筐体を正常復帰させる制御として、前記筐体の動作をリセットさせる制御を行うことを特徴とする請求項1に記載のサーバ監視システム。
【請求項7】
前記サーバ監視システムは、前記筐体と同一のハードウェア構成を有しており、
前記制御部は、前記サーバ監視システムが有する前記同一の構成を利用して前記筐体の制御を代行する
ことを特徴とする請求項1から6のうちのいずれか一項に記載のサーバ監視システム。
【請求項8】
サーバ装置である筐体の故障を検知し、
前記故障を検知すると、前記筐体の制御権を獲得して前記筐体に対する制御を代行し、
前記制御の代行によって前記筐体を正常復帰させる制御を行い、
前記筐体が正常復帰すると、前記制御権を前記筐体に返還する
処理を情報処理装置が行うことを特徴とするサーバ監視方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバ監視システムおよびサーバ監視方法に関する。
【背景技術】
【0002】
情報処理装置が複数接続された情報処理システムにおいて、情報処理装置間で障害の発生を相互に監視するという技術が幾つか知られている(例えば特許文献1~特許文献2参照)。
【0003】
例えば、システムリソースを分割した複数の区画で実行されるオペレーティングシステムインスタンスが、オペレーティングシステムインスタンスの機能不良を検出するためのアクティビティを互いに連続的に監視する手段を備えるという技術が知られている。また、疎結合された複数のプロセッサの1つに障害が検知されると、代替のプロセッサを決定し、障害が発生したプロセッサの出力待ちデータを代替のプロセッサの管理下で共用入出力装置から出力するという技術が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平11-316747号公報
【特許文献2】特開平6-282452号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
単独でもサーバ装置として機能する筐体が複数接続された構成をひとつのサーバシステムとして動作させる、ビルディングブロック(Building Block)構成のサーバシステムが知られている。なお、以下の説明では、ビルディングブロック構成を「BB構成」と称することとする。
【0006】
BB構成のサーバシステムでは、当該サーバシステムを安定稼働させるためのシステム制御として、筐体システム制御と全システム制御とが行われる。筐体システム制御は、当該サーバシステムを構成する複数の筐体のそれぞれで行われるシステム制御であって、筐体自身の各部の監視や制御を行う。この複数の筐体のうちの1つでは自身についての筐体システム制御と共に全システム制御が行われる。全システム制御は、当該サーバシステム全体のシステム制御であって、筐体毎に行われる筐体システム制御を統括する。
【0007】
BB構成のサーバシステムのいずれかの筐体で行われている筐体システム制御に故障が発生した場合における当該筐体が異常状態にあることの検出は他の筐体システム制御で行えるように構成されている。このような故障が発生すると、故障した筐体システム制御によって提供されていた筐体自身の各部の監視や制御は不能となるため、全システム制御は、筐体システム制御が故障した筐体をシステムから切り離す処理を行っていた。
【0008】
1つの側面において、本発明は、筐体システム制御に故障が発生した筐体を切り離さずにサーバシステムの運用を継続することを目的とする。
【課題を解決するための手段】
【0009】
1つの案では、サーバ監視システムが制御部を備える。この制御部は、サーバ装置である筐体の故障を検知し、故障を検知すると、筐体の制御権を獲得して筐体に対する制御を代行し、故障が検知された筐体を正常復帰させる制御を代行して行い、筐体の正常復帰に応じて制御権をサーバ装置に返還する。
【発明の効果】
【0010】
1つの側面によれば、筐体システム制御に故障が発生した筐体を切り離さずにサーバシステムの運用を継続できる。
【図面の簡単な説明】
【0011】
【
図1A】サーバシステムの制御の第1の手法を説明する図である。
【
図1B】サーバシステムの制御の第2の手法を説明する図である。
【
図2】BB構成のサーバシステムの第1の構成例を示した図である。
【
図4】筐体相互間の接続構成の第1の例を示した図である。
【
図5】筐体システム制御の流用の手法を説明する図である。
【
図6A】ターゲット制御デバイスの代行制御を可能にする構成の第1の例を説明する図である。
【
図6B】ターゲット制御デバイスの代行制御を可能にする構成の第2の例を説明する図である。
【
図6C】ターゲット制御デバイスの代行制御を可能にする構成の第3の例を説明する図である。
【
図7】筐体システム制御の代行処理の処理内容を示すフローチャートである。
【
図8】筐体相互間の接続構成の第2の例を示した図である。
【
図9】BB構成のサーバシステムの第2の構成例を示した図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0013】
初めに、サーバシステムの制御の手法を2つ説明する。
【0014】
サーバシステムの制御の第1の手法は、サーバシステム全体の制御を単一のシステム制御で行うという手法である。まず、この第1の手法について、
図1Aを用いて説明する。
【0015】
図1Aには、1つの筐体1に、CPU(Central Processing Unit)等が搭載されている複数のCPUモジュール2と、システム制御3とが収められているサーバシステムの構成が表されている。
【0016】
なお、
図1Aでは筐体1にシステム制御3が2つ収められているが、これは、
図1Aの構成ではシステム制御3が冗長化されていることを表しており、2つのシステム制御3のそれぞれに付されている黒丸印と白丸印とによって運用系と待機系とを表現している。
【0017】
CPUモジュール2に対する制御の内容としては、例えば、電源の投入及び切断の制御、冷却用ファンの回転数制御、故障発生時のCPUモジュール2の切り離し制御、監視ログの収集及び解析の制御などがある。第1の手法は、複数のCPUモジュール2に対するこのような制御を1つのシステム制御3で賄うというものである。従って、第1の手法ではシステム制御3の負荷が非常に高くなる。このため、システムの起動時間や故障発生からの検出時間、あるいは故障ログの収集などといった点において即応性の高いシステムを構築するためには大規模且つ高機能な制御がシステム制御3には求められる。また、このようなシステム制御3を構築するには制御要素数や配線数が多数必要となるため、部品のコストや配線の複雑さなどといった実装上の問題が大きくなる。
【0018】
なお、第1の手法においてシステム制御3の故障耐性を向上させるには、
図1Aの構成のようなシステム制御3の冗長化が有効である。但し、冗長化により構築される予備系は、通常時には使われない余分な資源となる。
【0019】
次に、サーバシステムの制御の第2の手法について説明する。この第2の手法は、複数の筐体1で構成されるサーバシステムにおける筐体1のそれぞれにおいて自身のみのシステム制御を個別に行うという手法であり、スーパーコンピュータにおけるシステム制御でも用いられる手法である。この第2の手法について、
図1Bを用いて説明する。
【0020】
図1Bには、それぞれにCPUモジュール2とシステム制御3とが収められている複数の筐体1と管理用端末4とが接続されているサーバシステムの構成が表されている。管理用端末4は、各筐体1のシステム制御3に指示を与えるためのものである。
【0021】
なお、
図1Bでは管理用端末4が2つ表されているが、これは、
図1Bの構成では管理用端末4が冗長化されていることを表しており、2つの管理用端末4のそれぞれに付されている黒丸印と白丸印とによって運用系と待機系とを表現している。
【0022】
図1Bの構成では、各筐体1のシステム制御3が、自身が収められている筐体1の電源の投入及び切断の制御や、当該筐体1に共に収められているCPUモジュール2の制御のみを、管理用端末4からの指示に応じて行い、他の筐体1に関する制御は行わない。従って、例えば、筐体1内で故障が発生した場合においても、この故障への対応は個々の筐体1で独自に行われる。このため、故障の影響が他の筐体1に及んで複数の筐体1で異常が発生した場合であっても、どの筐体1に異常発生の原因があるかを判定するような処理は行われない。すなわち、例えば、ある筐体1の電源での故障の発生に起因して、当該筐体1との通信を行っていた別の筐体1内のCPUの異常が検知された場合でも、この異常の原因が、当該CPUと当該CPUの通信相手とのどちらにあるのかを判別できない可能性がある。
【0023】
また、第2の手法では、管理用端末4は、各筐体1のシステム制御3についての電源の投入及び切断の指示や監視ログの収集などを、LAN(Local Area Network)等の通信ネットワークを経由して行う。従って、ある筐体1のシステム制御3に異常が発生した場合には、管理用端末4は、当該異常が発生したシステム制御3との通信ができなくなる。この異常による影響が拡大することを防ぐための措置として、他の筐体1が有するインタフェースを管理用端末4からの指示により閉塞させて当該異常が発生した筐体1をシステムから切り離す程度のことは可能である。しかしながら、当該異常が発生した筐体1の電源の切断を管理用端末4から行うことまではできない。
【0024】
次に、BB構成のサーバシステムの制御の手法について説明する。
【0025】
図2は、BB構成のサーバシステムの第1の構成例を示したものである。この第1の構成例は、それぞれにCPUモジュール2とシステム制御3とが収められている複数(
図2では4つ)の筐体1が相互に接続されている構成を表している。これらの筐体1はいずれも単独でサーバ装置としての機能を有している。また、各筐体1のシステム制御3では、自身の筐体1内の各部の監視や制御を行う筐体システム制御が行われる。筐体システム制御では、具体的には、電源異常、温度異常、構成部品の故障などの検出といった運用状態の妥当性の監視、CPUモジュール2への電力の供給・停止の制御、筐体1の冷却用ファンの回転数制御、故障が検出されたCPUの再起動制御などが行われる。
【0026】
また、
図2の構成例では、複数の筐体1のうちの1つである筐体1-1と、他の筐体1のそれぞれとが一対一接続されている。筐体1-1のシステム制御3は、筐体1毎に行われる筐体システム制御を統括することによってサーバシステム全体を制御する全システム制御を、自身についての筐体システム制御と共に行う。全システム制御では、筐体1-1と他の筐体1のそれぞれとの間での相互通信による各種の情報の交換によって筐体システム制御との間で共有される、前述した監視や制御の状況を用いて、サーバシステム全体の制御が行われる。この全システム制御を、自身についての筐体システム制御と共に筐体1-1のシステム制御3が行うので、全システム制御を行うための専用の構成要素をサーバシステムに備える必要はない。
【0027】
なお、
図2の構成例では、更に、複数の筐体1のうちの1つである筐体1-2と、筐体1-1以外の筐体10のそれぞれとが一対一接続されていることが表されている。これは、筐体1-2を筐体1-1のバックアップとして機能させるためのものである。すなわち、この構成例では、筐体1-1の動作に異常が発生した場合には、黒丸印が付されているシステム制御3が行っていた、筐体1毎の筐体システム制御を統括する全システム制御を、白丸印が付されているシステム制御3が代行し得るように構成されている。
【0028】
このように、
図2に例示したBB構成では、サーバシステムについての制御処理が各筐体1に分散される。従って、前述した第1の手法における、全ての筐体1に関する制御を賄うシステム制御3と比べると、筐体1-1のシステム制御3により行われる全システム制御のための処理の負荷は少なく、また、監視制御に対する反応時間が短い。また、このBB構成では、筐体1-1のシステム制御3による全システム制御が筐体1毎の筐体システム制御を統括する。従って、1つの筐体1で発生した故障の影響が波及して複数の筐体1で異常が検知された場合における当該異常の根本原因である筐体1の特定が、前述した第2の手法での制御よりも容易である。
【0029】
ところで、BB構成のサーバシステムにおいて、いずれかの筐体1での筐体システム制御に故障が発生すると、当該故障が発生した筐体システム制御による制御対象の筐体1は制御不能に陥る。この場合における全システム制御の対応について、
図2の構成例で説明する。
【0030】
このような故障が筐体システム制御に発生した場合でも、制御不能の筐体1と一対一接続されている筐体1-1は、当該故障が発生した筐体システム制御の異常状態を検出することが可能である。従って、筐体1-1は、筐体1の異常状態の検出を認識した場合に、全システム制御として、サーバシステムの運用の継続のため、制御不能の筐体1をサーバシステムから切り離す制御を行うことができる。但し、このような切り離しの制御のみでは、制御不能の筐体1によって行われていたサーバ機能の提供を維持することは容易ではなく、また、筐体1-1が、制御不能の筐体1の電源切断を行うことはできない。
【0031】
なお、このような切り離しの制御を全システム制御として筐体1-1が行う代わりに、筐体システム制御を筐体1毎に冗長化するという手法が考えられるが、この手法では、各筐体1の規模の大型化やコスト増を招くこととなる。
【0032】
そこで、これより説明する実施形態では、筐体システム制御に故障が発生した筐体1を切り離さずに運用を継続し得るBB構成のサーバシステムを説明する。より詳細には、このサーバシステムでは、いずれかの筐体1の筐体システム制御に故障が発生した場合に、当該故障が発生した筐体システム制御による制御対象であった筐体1の制御権を筐体1-1が獲得して、当該筐体1に対する筐体システム制御を代行する。
【0033】
詳細は後述するが、本実施形態では各筐体1の構成はいずれも同一であるので、筐体1-1が自身のための筐体システム制御を活用することで、筐体1-1は他の筐体1の筐体システム制御の代行を容易に行うことが可能である。この筐体システム制御の代行によって筐体1-1による制御の下で当該筐体1の動作が維持されるので、当該筐体1を切り離すことなくサーバシステムの運用の継続が可能となる。また、必要であれば、当該筐体1の電源を切断させる制御を全システム制御として筐体1-1から安全に行うこともできる。
【0034】
なお、筐体1-1が故障した場合には、筐体1-1のバックアップとしての筐体1-2が、筐体1-1による制御を代行して、サーバシステム全体に対する全システム制御と筐体1-1に対する筐体システム制御とを行うようにすることが可能である。
【0035】
まず、本実施形態に係るBB構成のサーバシステムに使用される筐体10の詳細構成例について、
図3を参照しながら説明する。
【0036】
筐体10は、システム制御プロセッサ20、PSU30、FAN-C40、システム制御デバイス50、CPU60、DDC70、ADC80、及びターゲット制御デバイス90を備えている。なお、
図2に示されている筐体1内のCPUモジュール2には
図3におけるCPU60、DDC70、及びADC80が備えられている。また、
図2におけるシステム制御3は、
図3におけるシステム制御プロセッサ20、システム制御デバイス50、及びターゲット制御デバイス90によって構成される。
【0037】
システム制御プロセッサ20は、システム制御ソフトウェアを実行することによって、システム制御デバイス50とターゲット制御デバイス90とを制御して前述した筐体システム制御を実現する情報処理装置である。
【0038】
また、前述した
図2の筐体1-1として筐体10が用いられてサーバシステム全体の制御を行う場合には、システム制御プロセッサ20は、このシステム制御ソフトウェアを実行することによって前述した全システム制御も行う。
【0039】
なお、このシステム制御ソフトウェアは、例えば、システム制御プロセッサ20に接続されているメモリ(不図示)に予め格納しておくようにする。システム制御プロセッサ20は、電力が供給されて動作を開始すると、このシステム制御ソフトウェアを当該メモリから読みだして実行することで、筐体システム制御や全システム制御の機能を提供する。
【0040】
PSU(Power Supply Unit)30は、筐体10の各部に電力を供給する電源装置である。
【0041】
FAN-C(Fan Controller)40は、筐体10に備えられている冷却用のファンの制御装置である。
【0042】
これらのPSU30及びFAN-C40は、どちらも、筐体10における第1の制御対象の一例である。
【0043】
システム制御デバイス50は、I2C(Inter-Integrated Circuit)、JTAG(Joint test Action Group)、SPI(Serial Peripheral Interface)等のデータ通信インタフェースを提供する。このシステム制御デバイス50は、デバイス制御部51と、リセット制御部52と、デバイス間IF53及び54と、他筐体デバイス間IF制御部55とを備えている。なお、「IF」はインタフェース(Interface)の略称である。
【0044】
デバイス制御部51は、システム制御プロセッサ20からの制御に関する指示に従ってPSU30及びFAN-C40の監視及び制御を行う。このデバイス制御部51を備えるシステム制御デバイス50は、筐体10における第1の制御対象の制御を行う第1の制御デバイスの一例である。
【0045】
リセット制御部52は、システム制御プロセッサ20に対するリセットの機能を提供する。
【0046】
デバイス間IF53は、ターゲット制御デバイス90との双方向の通信インタフェース機能を提供して、システム制御プロセッサ20とターゲット制御デバイス90との間の通信を中継する。
【0047】
デバイス間IF54は、他の筐体10が備えている制御デバイスとの双方向の通信インタフェース機能を提供して、当該制御デバイスとの通信を可能にする。
【0048】
他筐体デバイス間IF制御部55は、筐体システム制御による管理下でデバイス間IF54の制御を行う。
【0049】
なお、システム制御デバイス50は内部にレジスタを有している。この内部レジスタにアクセスして値の読み出し・書き込みを行うことで、システム制御デバイス50が備えている各構成要素の監視・制御を含む、システム制御デバイス50の監視・制御が行われる。
【0050】
CPU60は、筐体10が有しているサーバ機能を提供するプロセッサである。
【0051】
DDC70は、PSU30からの出力電圧をCPU60の動作電圧に変換してCPU60に電力を供給するDC-DCコンバータである。なお、「DC」は、直流(Direct Current)の略称である。
【0052】
ADC80は、計測用デバイスを含むADコンバータであり、CPU60の動作温度やDDC70からCPU60への供給電圧などの計測値を表すデジタルデータを出力する。なお、「AC」は、交流(Alternating Current)の略称である。
【0053】
これらのCPU60、DDC70、及びADC80は、いずれも、筐体10における第2の制御対象の一例である。
【0054】
ターゲット制御デバイス90は、システム制御デバイス50と同様に、I2C、JTAG、SPI等のデータ通信インタフェースを提供する。このターゲット制御デバイス90は、CPU制御部91と、デバイス制御部92と、デバイス間IF93及び94とを備えている。
【0055】
CPU制御部91は、システム制御デバイス50を介して与えられるシステム制御プロセッサ20からの制御に関する指示に従い、CPU60の監視及び制御を行う。
【0056】
デバイス制御部92は、システム制御デバイス50を介して与えられるシステム制御プロセッサ20からの制御に関する指示に従い、DDC70及びADC80の監視及び制御を行う。
【0057】
これらのCPU制御部91及びデバイス制御部92を備えるターゲット制御デバイス90は、筐体10における第2の制御対象の制御を行う第2の制御デバイスの一例である。
【0058】
デバイス間IF93は、システム制御プロセッサ20とターゲット制御デバイス90との間の通信の中継を行うシステム制御デバイス50との双方向の通信インタフェース機能を提供する。
【0059】
デバイス間IF94は、他の筐体10が備えている制御デバイスとの双方向の通信インタフェース機能を提供する。このデバイス間IF94は、故障等の原因によりシステム制御デバイス50が動作不能となった場合において、CPU60、DDC70及びADC80の監視及び制御を他の筐体10から行うために用いられる。
【0060】
なお、ターゲット制御デバイス90も、システム制御デバイス50と同様に、内部にレジスタを有している。この内部レジスタにアクセスして値の読み出し・書き込みを行うことで、ターゲット制御デバイス90が備えている上述した各構成要素の監視・制御を含む、ターゲット制御デバイス90の監視・制御が行われる。
【0061】
次に、
図3の筐体10を複数台用いてBB構成のサーバシステムを構成する場合の筐体10相互間の接続構成例について、
図4を用いて説明する。
【0062】
図4に示した接続構成の第1の例は、
図3に示した構成を有する筐体10を4台用いてBB構成のサーバシステムを構成する場合の接続例であって、
図2に示した構成例に対応するものである。
【0063】
図4において、筐体10-1、10-2、10-3、及び10-4は、いずれも
図3に示した筐体10と同様の構成を有しており、同一の構成である。但し、
図4の構成例では、システム制御デバイス50がデバイス間IF54を3つ(デバイス間IF54-1、54-2、及び54-3)有しており、ターゲット制御デバイス90がデバイス間IF94を2つ(デバイス間IF94-1及び94-2)有している。
【0064】
なお、
図4では、簡単のため、筐体10が備えている構成のうちのシステム制御デバイス50及びターゲット制御デバイス90のみを表している。また、
図4では、システム制御デバイス50が備える構成のうちのデバイス間IF53、54-1、54-2、及び54-3のみを表しており、ターゲット制御デバイス90が備える構成のうちのデバイス間IF93、94-1、及び94-2のみを表している。
【0065】
図4において、筐体10-1のシステム制御デバイス50が有するデバイス間IF54-1と、筐体10-2のシステム制御デバイス50が有するデバイス間IF54-1とが筐体間経路101を介して接続されている。また、筐体10-1のシステム制御デバイス50が有するデバイス間IF54-2及び54-3のそれぞれと、筐体10-3及び10-4のそれぞれのシステム制御デバイス50が有するデバイス間IF54-1とが筐体間経路102を介して接続されている。つまり、この筐体間経路101及び102により、筐体10-1と、他の筐体10-2、10-3、及び10-4のそれぞれとが一対一接続されている。従って、筐体10-1のシステム制御プロセッサ20と筐体10-2、10-3、及び10-4のそれぞれのシステム制御プロセッサ20との間で直接の通信が可能である。
【0066】
図4の例は、以上のような接続構成を有しており、筐体10-1、10-2、10-3、及び10-4のそれぞれで行われる筐体システム制御を統括する全システム制御を筐体10-1のシステム制御プロセッサ20が行うことが可能である。つまり、筐体10-1は、
図4のように構成されているBB構成のサーバシステムの全体を監視するサーバ監視システムとして機能し得る。また、この接続構成により、筐体10-1のシステム制御プロセッサ20による、筐体10-2、10-3、及び10-4のそれぞれのシステム制御デバイス50の内部レジスタへのアクセスが可能である。
【0067】
なお、
図4では、更に、筐体10-2におけるシステム制御デバイス50のデバイス間IF54-2及び54-3と、筐体10-3及び10-4のシステム制御デバイス50におけるデバイス間IF54-2とが筐体間経路103を介して接続されている。従って、筐体間経路101及び103により、筐体10-2と、他の筐体10-1、10-3、及び10-4のそれぞれとが一対一接続されている。この接続は、白丸印が付されている筐体1-2が、黒丸印が付されている筐体1-1のバックアップとして機能するときに使用される。
【0068】
次に、筐体システム制御に故障が発生した筐体10に対する筐体システム制御を、当該筐体10と一対一接続されている相手方の筐体10が代行することを可能にするための機能について説明する。本実施形態では、これより説明する4つの機能を、全システム制御を担う筐体システム制御が備えるようにする。
【0069】
まず、筐体10の筐体システム制御に、当該筐体10と一対一接続されている相手方の筐体10の筐体システム制御の正常性を監視して異常を検知する第1の機能を備える。
【0070】
本実施形態では、筐体10の筐体システム制御は、筐体10自身のシステム制御デバイス50を制御して、一対一接続されている相手方の筐体10の筐体システム制御と一定の時間間隔で通信を行わせる。この通信において、所定時間経過しても相手方からの通知を受信しない場合には、筐体10の筐体システム制御は、相手方の筐体10の筐体システム制御に異常が発生して、当該相手方の筐体10が故障したとの判断を下すようにする。
【0071】
また、筐体10の筐体システム制御に、相手方の筐体10における、異常が検知された筐体システム制御をリセットさせる第2の機能を備える。
【0072】
前述したように、
図4に示した接続構成では、筐体10のシステム制御プロセッサ20と相手方の筐体10のシステム制御プロセッサ20との間で通信が可能である。そこで、筐体10の筐体システム制御は、まず、この通信により、相手方の筐体10のシステム制御プロセッサ20に対するリセット要求を発行して、相手方の筐体10のシステム制御プロセッサ20に対するリセットを試みるようにする。
【0073】
また、前述したように、
図4に示した接続構成では、筐体10のシステム制御プロセッサ20は、筐体10自身のシステム制御デバイス50を介して、相手方の筐体10のシステム制御デバイス50の内部レジスタにアクセスすることが可能である。そこで、筐体10の筐体システム制御は、このアクセスにより相手方の筐体10のシステム制御デバイス50を制御してリセット制御部52を機能させて、相手方の筐体10のシステム制御プロセッサ20に対するリセットを試みるようにする。
【0074】
更に、筐体10の筐体システム制御に、相手方の筐体10を制御する制御権を獲得する第3の機能と、当該制御権を獲得した場合に当該相手方の筐体10を代行して制御する第4の機能とを備える。
【0075】
まず、筐体10の筐体システム制御は、相手方の筐体10のシステム制御デバイス50を制御して制御権の獲得を試みる。すなわち、筐体10の筐体システム制御は、相手方のシステム制御デバイス50の内部レジスタにアクセスして、相手方の筐体10のシステム制御プロセッサ20から当該内部レジスタへのアクセスを抑止させる制御を行う。より具体的には、筐体10の筐体システム制御は、当該内部レジスタにアクセスして、システム制御プロセッサ20へのインタフェース回路(不図示)に対する、リセット、クロック供給の停止、信号経路の遮断などの制御を試みる。これらの制御によってアクセスの抑止に成功し、相手方の筐体10の制御権を獲得できた場合には、筐体10の筐体システム制御が代行して相手方の筐体10に対する制御を行う。
【0076】
前述したように、
図4に示した接続構成において、各筐体10は同一の構成であって
図3に示した筐体10と同様の構成を有しており、各筐体10における筐体システム制御も同一である。従って、筐体10は、相手方の筐体10の制御の代行に、自身の制御のための筐体システム制御の流用が可能である。この筐体システム制御の流用の手法について、
図5を用いて説明する。
【0077】
図5において、システム制御プロセッサ20-1及びシステム制御デバイス50-1を備える筐体10と、システム制御プロセッサ20-2及びシステム制御デバイス50-2を備える相手方の筐体10とは同一の構成を有しているとする。また、システム制御デバイス50-1は内部レジスタ56-1及び56-2を有しており、システム制御デバイス50-2は内部レジスタ56-3及び56-4を有しているとする。
【0078】
ここで、筐体10と相手方の筐体10とにおいて同一の機能を提供する内部レジスタ56-1及び内部レジスタ56-3には共通のアドレスを割り当てるようにする。また、同様に、内部レジスタ56-2及び内部レジスタ56-4にも共通のアドレスを割り当てるようにする。このようにすると、内部レジスタ56-1及び56-2を示すそれぞれのアドレスに所定値のオフセットを与える変更を行うだけで、筐体10自身についての筐体システム制御により内部レジスタ56-3及び56-4を操作できる。従って、相手方の筐体10の制御の代行のための、筐体10自身についての筐体システム制御の流用を容易に行える。
【0079】
ところで、相手方の筐体10の筐体システム制御の異常の状況によっては、筐体10の筐体システム制御では、当該相手方の筐体10のシステム制御デバイス50を制御できない場合がある。そこで、この場合に、筐体10の筐体システム制御が、相手方の筐体10のターゲット制御デバイス90を制御して制御権の獲得を試みるようにしてもよい。
【0080】
このためには、筐体10の筐体システム制御は、相手方のターゲット制御デバイス90の内部レジスタにアクセスして、相手方のシステム制御プロセッサ20からシステム制御デバイス50を介して行われる当該内部レジスタへのアクセスを抑止させるようにする。このアクセスの抑止に成功し、相手方の筐体10のターゲット制御デバイス90の制御権を獲得できた場合には、筐体10の筐体システム制御が代行して相手方の筐体10におけるCPU60、DDC70及びADC80の監視及び制御を行う。
【0081】
但し、制御不能に陥っている相手方のシステム制御デバイス50を経由して行われる、筐体10の筐体システム制御による相手方のターゲット制御デバイス90の内部レジスタへのアクセスはできないことがある。そこで、相手方の筐体10のターゲット制御デバイス90の制御の代行のために、筐体10の筐体システム制御から、相手方の筐体10のシステム制御デバイス50を経由せずに、当該ターゲット制御デバイス90の制御を可能にする構成を備えてもよい。次に、この構成の具体例としての3つの構成例について、
図6A、
図6B、及び
図6Cをそれぞれ用いて説明する。
【0082】
【0083】
図6A、
図6B、及び
図6Cのそれぞれに表されている構成は、いずれも、
図4に示した接続構成に追加されるものである。これらの図では、簡単のために、筐体10-1と筐体10-3との間での構成のみを表しているが、この構成と同様の構成を、
図4において一対一接続されている筐体10の相互間で備えるようにする。
【0084】
また、
図4においては筐体10-1と筐体10-3との一対一接続を表現している筐体間経路102を双方向の矢印により表しているが、
図6A、
図6B、及び
図6Cでは、筐体間経路102-1と筐体間経路102-2とに分けて表している。筐体間経路102-1は筐体10-1から筐体10-3への信号の伝送路であり、筐体間経路102-2は筐体10-3から筐体10-1への信号の伝送路である。
【0085】
なお、筐体間経路102-1及び102-2は1本のケーブル110として纏められている。ケーブル110は、筐体10に設けられているコネクタ120に接続されている。筐体間経路102-1及び102-2は、このコネクタ120を介して、システム制御デバイス50が搭載されている回路基板57へと導かれる。筐体間経路102-1及び102-2は、回路基板57に搭載されているシステム制御デバイス50とコネクタ120とを繋ぐ配線により、システム制御デバイス50が備えているデバイス間IF54-2に接続される。
【0086】
回路基板57には、更に、ターゲット制御デバイス90が搭載されている回路基板95が接続されるコネクタ130が設けられている。システム制御デバイス50のデバイス間IF53とターゲット制御デバイス90のデバイス間IF93とは、このコネクタ130を介して接続される。
【0087】
なお、以下の説明では、事例として、筐体10-3の筐体システム制御で異常が発生したことで、筐体10-3のターゲット制御デバイス90の制御を筐体10-1の筐体システム制御が代行する場合について説明する。
【0088】
まず、ターゲット制御デバイス90の代行制御を可能にする構成の第1の例について、
図6Aを用いて説明する。この第1の例は、筐体10のシステム制御デバイス50が備えるデバイス間IF54を増設して、筐体10-1のシステム制御デバイス50と筐体10-3のターゲット制御デバイス90とを直接接続する構成である。
【0089】
図6Aの例では、
図4の接続構成における筐体10-1のシステム制御デバイス50と筐体10-2、10-3、及び10-4のそれぞれのターゲット制御デバイス90との直接接続のために、システム制御デバイス50にデバイス間IF54を3つ増設している。なお、
図6Aでは、増設したデバイス間IF54-4、54-5、及び54-6のうちのデバイス間IF54-5と、筐体10-3のターゲット制御デバイス90のデバイス間IF94-1との接続のみを表している。
【0090】
図6Aでは、筐体10-1のシステム制御デバイス50のデバイス間IF54-5と筐体10-3のターゲット制御デバイス90のデバイス間IF94-1とが筐体間経路104-1及び104-2により接続されている。この筐体間経路104-1及び104-2を、筐体間経路102-1及び102-2と共に1本のケーブル110として纏めるようにしてもよい。
【0091】
この第1の例の構成では、筐体10-3のターゲット制御デバイス90の制御を、筐体10-3のシステム制御デバイス50を経由することなく、筐体10-1の筐体システム制御から行うことができる。従って、筐体10-3のシステム制御デバイス50が制御不能に陥っていても、筐体10-1の筐体システム制御による筐体10-3のターゲット制御デバイス90の制御の代行を行うことができる。
【0092】
次に、ターゲット制御デバイス90の代行制御を可能にする構成の第2の例について、
図6Bを用いて説明する。この第2の例は、第1の例のようなデバイス間IF54の増設といった、ハードウェア資源の大規模な増設を行わずに済む構成である。
【0093】
この第2の例では、回路基板57にセレクタ140が設けられており、セレクタ140によって筐体間経路102-1及び102-2をそれぞれ分岐させる。分岐させた経路111-1及び111-2はターゲット制御デバイス90のデバイス間IF94-1に接続される。
【0094】
また、この第2の例では、筐体10-1のシステム制御デバイス50とセレクタ140とを接続する選択信号線141が更に設けられる。この選択信号線141を、筐体間経路102-1及び102-2と共に1本のケーブル110として纏めるようにしてもよい。
【0095】
この第2の例の構成において、筐体10-3のターゲット制御デバイス90の制御権を獲得するための、筐体10-1の筐体システム制御による制御の手順を説明する。
【0096】
筐体10-1の筐体システム制御は、まず、自身のシステム制御デバイス50を制御して、セレクタ140に対する選択指示信号を選択信号線141に出力させる。この選択指示信号により、セレクタ140は、筐体間経路102-1及び102-2を、筐体10-3のシステム制御デバイス50が備えるデバイス間IF54-1から切り離して経路111-1及び111-2にそれぞれ接続する。すると、筐体10-1のシステム制御デバイス50のデバイス間IF54-2と筐体10-3のターゲット制御デバイス90のデバイス間IF94-1とが接続される。この結果、筐体10-1のシステム制御プロセッサ20は、筐体10-3のシステム制御デバイス50を経由することなく筐体10-3のターゲット制御デバイス90と直接通信を行えるようになり、当該ターゲット制御デバイス90の制御が可能になる。
【0097】
次に、ターゲット制御デバイス90の代行制御を可能にする構成の第3の例について、
図6Cを用いて説明する。この第3の例は、筐体10-1と筐体10-3との間の接続線として、筐体間経路102-1及び102-2以外の接続線を追加しないで済む構成である。
【0098】
この第3の例では、
図6Bに示した第2の例のようなセレクタ140を設けること無しに、筐体間経路102-1及び102-2を回路基板57上でそれぞれ分岐させる。分岐させた経路112-1及び112-2はターゲット制御デバイス90のデバイス間IF94-1に接続される。但し、回路基板57上における、分岐点とシステム制御デバイス50のデバイス間IF54-1との間の筐体間経路102-2にスイッチ150が挿入される。更に、筐体間経路102-2上の当該分岐点とターゲット制御デバイス90のデバイス間IF94-1との間の経路112-2にスイッチ160が挿入される。
【0099】
また、この第3の例では、これらのスイッチ150及び160のそれぞれと、筐体10-3のターゲット制御デバイス90とを接続する切替信号線142-1及び142-2が更に設けられる。
【0100】
この第3の例の構成において、筐体10-3のターゲット制御デバイス90の制御権を筐体10-1が獲得するための制御の手順を説明する。
【0101】
まず、正常時の動作として、筐体10-1と筐体10-3との間で、一定時間間隔での筐体間通信が行われる。筐体10-1では、この筐体間通信は全システム制御による制御として行われる。筐体10-3では、筐体システム制御によって、この筐体間通信がターゲット制御デバイス90で受信されていることの監視が行われる。
【0102】
その後、筐体10-3における筐体システム制御の異常が検知されて、当該筐体システム制御をリセットさせる試みでは異常が解消されなかった場合、筐体10-1では、全システム制御による制御として、送信抑止指示の筐体10-3への送信が行われる。筐体10-3では、この送信抑止指示がシステム制御デバイス50とターゲット制御デバイス90とのそれぞれで受信される。
【0103】
システム制御デバイス50は、この送信抑止指示を受信すると、システム制御デバイス50自身から筐体間経路102-2への信号の送信の抑止を試みる。
【0104】
但し、システム制御デバイス50が制御不能に陥っている場合には、筐体間経路102-2への信号の送信が抑止されないこともある。そこで、ターゲット制御デバイス90は、この信号抑止信号を受信すると、まず、切替信号線142-1に切替信号を出力してスイッチ150の切り替えを行い、筐体間経路102-2からシステム制御デバイス50を切り離す。
【0105】
次に、ターゲット制御デバイス90は、切替信号線142-2に切替信号を出力してスイッチ160の切り替えを行い、デバイス間IF94-1を経路112-2に接続する。この結果、筐体10-1のシステム制御プロセッサ20は、筐体10-3のシステム制御デバイス50を経由することなく筐体10-3のターゲット制御デバイス90と通信を行えるようになり、当該ターゲット制御デバイス90の制御が可能になる。
【0106】
次に、筐体10の筐体システム制御において行われる、相手方の筐体10の筐体システム制御の代行処理について説明する。
図7は、この代行処理の処理内容を示すフローチャートである。
【0107】
図7の処理が開始されると、まず、S101において、相手方の筐体10の故障の検知を行う故障検知処理が行われ、続くS102において、S101の故障検知処理によって相手方の筐体10の故障が検知されたかどうかを判定する処理が行われる。
【0108】
故障検知処理では、前述したように、筐体10自身のシステム制御デバイス50を制御して、一対一接続されている相手方の筐体10の筐体システム制御と一定の時間間隔で通信を行わせる処理が行われる。S102の処理では、故障検知処理による通信における相手方の筐体10からの通知の受信が監視されて、予め定めておいた所定期間(当該通信の時間間隔以上の期間)が経過するまでに当該通知が受信されたかどうかが判定される。
【0109】
この監視の結果、当該所定期間を経過しても相手方の筐体10からの通知を受信しなかった場合には、S102の判定結果はYESとなり、相手方の筐体10の故障が検知されたと判断されてS103に処理を進める。一方、この監視の結果、当該所定期間を経過するまでに相手方の筐体10からの通知を受信した場合には、S102の判定結果はNOとなり、相手方の筐体10の故障は検知されなかったと判断されてS101に処理を戻し、故障検知処理の実行が継続される。
【0110】
次に、S103において、故障が検知された相手方の筐体10の筐体システム制御のリセットを試みるリセット処理が行われ、続くS104において、リセットに成功したかどうかを判定する処理が行われる。
【0111】
リセット処理では、相手方の筐体10の筐体システム制御を提供する筐体制御部としてのシステム制御プロセッサ20及びシステム制御デバイス50に対する様々なリセットの試みが行われる。例えば、初めに、前述したように、筐体10のシステム制御プロセッサ20と相手方の筐体10のシステム制御プロセッサ20との間での通信を利用して、当該相手方のシステム制御プロセッサ20に対するリセット要求が発行される。発行されたリセット要求に当該相手方のシステム制御プロセッサ20が応答し、当該相手方の筐体システム制御のリセットに成功して正常動作が回復した場合には、S104の判定結果がYESとなる。
【0112】
一方、リセット要求に当該相手方のシステム制御プロセッサ20が応答しない場合には、当該相手方の筐体10のシステム制御デバイス50に対して筐体システム制御のリセットを要求する。すなわち、当該相手方の筐体10のシステム制御デバイス50の内部レジスタへのアクセスによりリセット制御部52を機能させてシステム制御プロセッサ20のリセットを試みる。
【0113】
ここで、システム制御デバイス50のリセット制御部52によるシステム制御プロセッサ20のリセットの手法として、ソフトウェアリセットとハードウェアリセットとが利用可能である場合には、ソフトウェアリセットを先に試みるようにしてもよい。
【0114】
ソフトウェアリセットは、外部信号やウォッチドッグタイマによる割り込みを契機にしたソフトウェア自身でのプログラムカウンタ等のリセットによりプログラムを再起動させて、ハングアップ等のシステム制御プロセッサ20の異常状態を解消させるものである。ソフトウェアリセットは、システム制御プロセッサ20内部の設定が維持されることや、再起動までに要する時間がハードウェアリセットに比べて短いこと等の利点を有している。
【0115】
このようなソフトウェアリセットを試みても相手方の筐体システム制御の正常動作が回復しない場合にはハードウェアリセットを試みる。ハードウェアリセットは、外部信号により、システム制御プロセッサ20の全てのレジスタ等の初期化を実施して再起動させるものである。ソフトウェアリセットは、システム制御プロセッサ20の異常状態が解消する可能性がソフトウェアリセットに比べて高い等の利点を有している。
【0116】
システム制御プロセッサ20に対する、システム制御デバイス50のリセット制御部52によるこれらのリセットの試みによって当該相手方の筐体システム制御のリセットに成功して正常動作が回復した場合にも、S104の判定結果がYESとなる。
【0117】
S104の判定処理がYESの場合には、S101へと処理を戻して、筐体システム制御の正常動作が回復した相手方の筐体10に対する故障検知処理が改めて開始される。一方、S103のリセット処理によるいずれのリセットの試みによっても相手方の筐体10の筐体システム制御のリセットに失敗した場合には、S104の判定結果はNOとなり、S105に処理を進める。
【0118】
S105では、故障が検知された相手方の筐体10の制御権の獲得を試みる制御権獲得処理が行われ、続くS106において、制御権を獲得したかどうかを判定する処理が行われる。
【0119】
制御権獲得処理では、前述したように、相手方のシステム制御デバイス50の内部レジスタにアクセスして、相手方の筐体10のシステム制御プロセッサ20から当該内部レジスタへのアクセスを抑止させる制御が行われる。この結果、当該アクセスの抑止に成功し、相手方の筐体10の制御権を獲得できた場合には、S106の判定結果はYESとなり、S107に処理を進める。一方、当該アクセスを抑止できず、相手方の筐体10の制御権を獲得できなかった場合には、S106の判定結果はNOとなり、S110に処理を進める。
【0120】
S107では、相手方の筐体システム制御を代行して相手方の筐体10の制御を行い、当該筐体システム制御の回復を試みる代行リセット制御処理が行われ、続くS108において、相手方の筐体システム制御が回復したかどうかを判定する処理が行われる。
【0121】
代行リセット制御処理では、相手方のシステム制御プロセッサ20からシステム制御デバイス50へのアクセスを抑止した状態で、当該相手方のシステム制御プロセッサ20に対する前述したソフトウェアリセット・ハードウェアリセットが試みられる。また、相手方の筐体10のPSU30による各部への電力供給の中断及び再開を試みるようにしてもよい。この結果、相手方の筐体システム制御が回復し、相手方の筐体10が正常復帰した場合には、S108の判定結果はYESとなり、S109に処理を進める。一方、相手方の筐体システム制御が回復しない場合には、S108の判定結果はNOとなり、S111に処理を進める。
【0122】
S109では、回復した相手方の筐体システム制御に当該相手方の筐体10の制御権を変換する制御権返還処理が行われる。この処理では、相手方のシステム制御デバイス50の内部レジスタにアクセスして、S105の制御権獲得処理により抑止させた、相手方の筐体10のシステム制御プロセッサ20から当該内部レジスタへのアクセスを許可の状態に回復させる制御が行われる。この処理の後にはS101へと処理を戻して、筐体システム制御の正常動作が回復した相手方の筐体10に対する故障検知処理が改めて開始される。
【0123】
一方、前述したS106の判定結果がNOの場合には、S110において、故障した相手方の筐体10に対する保守作業が行われる。この作業は保守作業者によって行われ、当該相手方の筐体10の筐体システム制御を提供するハードウェアの交換作業やリセット作業、当該相手方の筐体10への電力供給の停止及び再開の作業などの実施により、当該相手方の筐体10を正常動作に復旧させる。この作業によって相手方の筐体10の筐体システム制御が回復した後にはS101へと処理を戻して、筐体システム制御の正常動作が回復した相手方の筐体10に対する故障検知処理が改めて開始される。
【0124】
なお、このS110の保守作業を行う前に、筐体10の筐体システム制御が相手方の筐体10のターゲット制御デバイス90を制御して、ターゲット制御デバイス90の制御権の獲得を試みる処理を行うようにしてもよい。すなわち、前述したように、筐体10の筐体システム制御が、相手方のターゲット制御デバイス90の内部レジスタにアクセスして、相手方のシステム制御プロセッサ20から行われる当該内部レジスタへのアクセスを抑止させる処理を行うようにしてもよい。このアクセスの抑止に成功して相手方のターゲット制御デバイス90の制御権を獲得できた場合には、例えば、ターゲット制御デバイス90を制御して、DDC70によるCPU60への電力の供給を停止させるようにした上でS110の保守作業を行うとよい。このようにすると、筐体10によるサーバ装置としての機能の提供のためのキーパーツであるCPU60を、筐体10の故障や当該故障からの回復のための保守作業の際において不意に損傷させてしまう可能性を低下させることができる。
【0125】
また、前述したS108の判定結果がNOの場合にも、S111において、故障した相手方の筐体10に対する保守作業が保守作業者によってS110と同様に行われる。但し、このS111の保守作業は、相手方の筐体10の制御権を有している場合に行われるものである。そこで、S111の処理の完了後にはS109へと処理を戻して、前述した制御権返還処理が行われる。
【0126】
以上までの処理を筐体10の筐体システム制御が行うことにより、相手方の筐体10の筐体システム制御の代行が行われる。
【0127】
以上、開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0128】
例えば、
図3に示した筐体10の詳細構成例では、システム制御デバイス50とターゲット制御デバイス90とを筐体10に備え、デバイス間IF53及び93を介して両者間の通信が可能な構成としている。この代わりに、システム制御デバイス50とターゲット制御デバイス90とが一体のデバイスを筐体10に備える構成であってもよい。すなわち、例えば、筐体相互間の接続構成の第2の例を示している
図8のように、システム制御デバイス50がターゲット制御デバイス90の機能の全てを有しており、このシステム制御デバイス50を各筐体10に備える構成であってもよい。なお、この
図8に示した第2の例における筐体10-1、10-2、10-3、及び10-4の接続構成は、
図4に示した第1の例と同様のものでよい。
【0129】
また、BB構成のサーバシステムは、
図2に示した第1の構成例のものに限定されるものではなく、例えば、
図9に示す第2の構成例のものであってもよい。
【0130】
BB構成のサーバシステムでは、サーバシステムとしての動作のための通信が、各筐体1が備えるCPUモジュール2相互間で直接行われる。このために、各筐体1のCPUモジュール2と他の全ての筐体1のCPUモジュール2のそれぞれとの間が一対一で接続される。例えば、2つの筐体1でサーバシステムを構成する場合には、CPUモジュール2相互間の一対一接続のための接続ケーブルの本数は1本で済む。ところが、サーバシステムを構成する筐体1の個数が3、4、5、…と増えていくと、CPUモジュール2相互間の一対一接続のための接続ケーブルの本数は3、6、10、…と爆発的に増加することとなる。
【0131】
図9に示した第2の構成例では、上述した接続ケーブルの代わりに多接続用筐体5を用いて、このCPUモジュール2相互間の一対一接続が行われる。
【0132】
図9において、CPUモジュール2とシステム制御3とがそれぞれ収められている複数の筐体1は
図2に示した第1の構成例におけるものと同様のものであり、これらの筐体1はいずれも単独でサーバ装置としての機能を有している。
【0133】
多接続用筐体5には、CPU間通信IF6と、クロスバースイッチ7と、システム制御8とが収められている。
【0134】
CPU間通信IF6は、CPUモジュール2との通信インタフェースを提供する。
【0135】
クロスバースイッチ7は、複数の筐体1がそれぞれ備えているCPUモジュール2相互間での一対一の通信経路を提供する。各CPUモジュール2は、CPU間通信IF6を介してクロスバースイッチ7と接続される。
【0136】
図9の構成例では、多接続用筐体5-1のシステム制御8が、複数の筐体1のそれぞれのシステム制御3に行われる筐体システム制御を統括することによってサーバシステム全体を制御する全システム制御を行う。全システム制御では、筐体1のシステム制御3との間での相互通信による各種の情報の交換によって筐体システム制御との間で共有される、前述した監視や制御の状況を用いて、サーバシステム全体の制御が行われる。
【0137】
なお、
図9の構成例では、更に、多接続用筐体5-1のシステム制御8と一対一接続されている多接続用筐体5-2のシステム制御8が、複数の筐体1のそれぞれのシステム制御3とも接続されていることが表されている。これは、多接続用筐体5-2を多接続用筐体5-1のバックアップとして機能させるためのものである。すなわち、
図9の構成例では、多接続用筐体5-1の動作に異常が発生した場合には、黒丸印が付されているシステム制御8が行っていた、筐体1毎の筐体システム制御の統括を、白丸印が付されているシステム制御8が代行可能であるように構成されている。
【0138】
このような構成のサーバシステムでも、前述したようにすることで、故障が発生した筐体システム制御による制御対象であった筐体1の制御権を多接続用筐体5が獲得して、当該筐体1に対する筐体システム制御を代行することが可能になる。
【符号の説明】
【0139】
1、1-1、1-2、10、10-1、10-2、10-3、10-4 筐体
2 CPUモジュール
3、8 システム制御
4 管理用端末
5、5-1、5-2 多接続用筐体
6 CPU間通信IF
7 クロスバースイッチ
20、20-1、20-2 システム制御プロセッサ
30 PSU
40 FAN-C
50、50-1、50-2 システム制御デバイス
51、92 デバイス制御部
52 リセット制御部
53、54、54-1、54-2、54-3、54-4、54-5、54-6、
93、94、94-1、94-2 デバイス間IF
55 他筐体デバイス間IF制御部
56-1、56-2、56-3、56-4 内部レジスタ
57、95 回路基板
60 CPU
70 DDC
80 ADC
90 ターゲット制御デバイス
91 CPU制御部
101、102、102-1、102-2、103、104-1、104-2
筐体間経路
110 ケーブル
111-1、111-2、112-1、112-2 経路
120、130 コネクタ
140 セレクタ
141 選択信号線
142-1、142-2 切替信号線
150、160 スイッチ