特許第6962243号(P6962243)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許6962243-コンピュータシステム 図000002
  • 特許6962243-コンピュータシステム 図000003
  • 特許6962243-コンピュータシステム 図000004
  • 特許6962243-コンピュータシステム 図000005
  • 特許6962243-コンピュータシステム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6962243
(24)【登録日】2021年10月18日
(45)【発行日】2021年11月5日
(54)【発明の名称】コンピュータシステム
(51)【国際特許分類】
   G06F 13/14 20060101AFI20211025BHJP
   G06F 11/20 20060101ALI20211025BHJP
   G06F 13/10 20060101ALI20211025BHJP
   G06F 13/36 20060101ALI20211025BHJP
   G06F 13/00 20060101ALI20211025BHJP
【FI】
   G06F13/14 310F
   G06F11/20 602
   G06F13/10 310D
   G06F13/36 520D
   G06F13/00 353T
【請求項の数】8
【全頁数】10
(21)【出願番号】特願2018-41431(P2018-41431)
(22)【出願日】2018年3月8日
(65)【公開番号】特開2019-159439(P2019-159439A)
(43)【公開日】2019年9月19日
【審査請求日】2021年2月9日
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100124811
【弁理士】
【氏名又は名称】馬場 資博
(74)【代理人】
【識別番号】100088959
【弁理士】
【氏名又は名称】境 廣巳
(72)【発明者】
【氏名】松下 潤一
【審査官】 松平 英
(56)【参考文献】
【文献】 特開平06−348522(JP,A)
【文献】 特開2007−072929(JP,A)
【文献】 特開平04−340630(JP,A)
【文献】 特開2009−116642(JP,A)
【文献】 特開2007−249505(JP,A)
【文献】 特開2010−231340(JP,A)
【文献】 特開平07−182253(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 13/14
G06F 11/20
G06F 13/10
G06F 13/36
G06F 13/00
G06F 3/00
(57)【特許請求の範囲】
【請求項1】
メインユニットと、前記メインユニットに内部インターフェースを通じて接続されたデバイスとを備え、
前記デバイスは、前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備え
前記メインユニットと前記障害管理部との間でデータの授受を行うための外部インターフェースを、さらに備え、
前記メインユニットは、前記オペレーティングシステムから前記デバイスを切り離す処理を実施した後、完了通知を、前記外部インターフェースを通じて前記障害管理部に送信するように構成されてい
コンピュータシステム。
【請求項2】
前記障害管理部は、前記完了通知を受信すると、前記障害を復旧する処理を実施した後、前記デバイスを前記オペレーティングシステムに接続する要求を、前記外部インターフェースを通じて前記メインユニットへ送信するように構成されている
請求項に記載のコンピュータシステム。
【請求項3】
前記外部インターフェースは、LANインターフェースである
請求項またはに記載のコンピュータシステム。
【請求項4】
前記内部インターフェースは、PCI Expressである
請求項1乃至の何れかに記載のコンピュータシステム。
【請求項5】
メインユニットに内部インターフェースを通じて接続されたデバイスであって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備え
前記メインユニットと前記障害管理部との間でデータの授受を行うための外部インターフェースを、さらに備え、
前記障害管理部は、前記オペレーティングシステムからの前記デバイスの切り離しを完了した旨の完了通知を、前記外部インターフェースを通じて前記メインユニットから受信するように構成されてい
デバイス。
【請求項6】
前記障害管理部は、前記完了通知を受信すると、前記障害を復旧する処理を実施した後、前記デバイスを前記オペレーティングシステムに接続する要求を、前記外部インターフェースを通じて前記メインユニットへ送信するように構成されている
請求項に記載のデバイス。
【請求項7】
メインユニットに内部インターフェースを通じて接続されたデバイスを構成するコンピュータを、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部と
前記メインユニットと前記障害管理部との間でデータの授受を行うための外部インターフェースとして機能させ
前記障害管理部は、前記オペレーティングシステムからの前記デバイスの切り離しを完了した旨の完了通知を、前記外部インターフェースを通じて前記メインユニットから受信するように構成されているプログラム。
【請求項8】
メインユニットに内部インターフェースを通じて接続されたデバイスが実施する障害処理方法であって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信し、
前記オペレーティングシステムからの前記デバイスの切り離しを完了した旨の完了通知を、前記メインユニットと前記デバイスとの間でデータの授受を行うための外部インターフェースを通じて前記メインユニットから受信する
障害処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータシステム、デバイス、プログラム、および障害処理方法に関する。
【背景技術】
【0002】
コンピュータの内部でCPU(Central Processing Unit)などのメインユニットとI/O(Input/Output)デバイスを接続するバス或いは内部インターフェースの規格として、PCIe(Peripheral Component Interconnect Express)(登録商標)が知られている。PCIeは、ルートコンプレックスを頂点とし、I/Oデバイスを終点とするツリー構造を有する。PCIeに準拠するI/Oデバイスは、PCIeデバイスあるいはPCIeアダプタと呼ばれる。PCIeデバイスの例として、NIC(Network Interface Card)やHBA(Host Bus Adapter)などが挙げられる。
【0003】
このようなPCIeデバイスに障害が発生した場合、システム全体の動作停止を招くことなく障害が発生した部位を停止させる技術が、特許文献1に記載されている。特許文献1に記載される技術(以下、関連技術と称す)では、障害が発生した部位を停止させる前に、その部位が停止することによって発生するリンク切れのエラーメッセージをOS(オペレーティングシステム)が稼働するメインユニットへ転送するのを抑止する措置を講じ、且つメインユニットへ障害発生を通知するようにしている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015−225522号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記関連技術は、PCIeデバイス中の障害の発生した部位を停止させているけれども、それ以外の残りのPCIeデバイスの部位は動作可能な状態のままである。また当該PCIeデバイスは依然としてOSに組み込まれたままである。そのため、障害の発生したPCIeデバイスの予期しない動作によって、システム全体の動作停止が発生する危険性があった。このような課題は、PCIeデバイスに限定されず、メインユニットに内部インターフェースを通じて接続されたデバイス全般に生じ得る。
【0006】
本発明の目的は、上述した課題、すなわち、障害の発生したデバイスがOSに組み込まれたままではシステム全体の動作停止を招く危険性がある、という課題を解決するコンピュータシステムを提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決する本発明の一形態に係るコンピュータシステムは、
メインユニットと、前記メインユニットに内部インターフェースを通じて接続されたデバイスとを備え、
前記デバイスは、前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備える。
また本発明の他の形態に係るデバイスは、
メインユニットに内部インターフェースを通じて接続されたデバイスであって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備える。
また本発明の他の形態に係るプログラムは、
メインユニットに内部インターフェースを通じて接続されたデバイスを構成するコンピュータを、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部として機能させる。
また、本発明の他の形態に係る障害処理方法は、
メインユニットに内部インターフェースを通じて接続されたデバイスが実施する障害処理方法であって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する。
【発明の効果】
【0008】
本発明は上述した構成を有することにより、障害の発生したデバイスの予期しない動作によって、システム全体の動作停止が発生するのを防止することができる。
【図面の簡単な説明】
【0009】
図1】本発明の第1の実施形態に係るコンピュータシステムのブロック図である。
図2】本発明の第1の実施形態におけるPCIeデバイスの障害管理部およびデバイス管理部の動作の一例を示すフローチャートである。
図3】本発明の第1の実施形態におけるメインユニットの管理部の動作の一例を示すフローチャートである。
図4】本発明の第1の実施形態に係るコンピュータシステムの動作説明図である。
図5】本発明の第2の実施形態に係るコンピュータシステムのブロック図である。
【発明を実施するための形態】
【0010】
次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係るコンピュータシステム100のブロック図である。図1を参照すると、コンピュータシステム100は、メインユニット110とPCIeデバイス120とを備え、メインユニット110とPCIeデバイス120とは信号線130、140で互いに接続されている。図1では、PCIeデバイス120は1個であるが、2個以上のPCIeデバイスがメインユニット110に接続されていてもよい。
【0011】
メインユニット110は、コンピュータシステム100の主たる制御を司るユニットであり、管理部111と、信号線130に接続されたPCIeインターフェース112と、信号線140に接続されたLANインターフェース113とを有する。
【0012】
管理部111は、PCIeインターフェース112を通じてPCIeデバイス120と通信することができると共に、LANインターフェース113を通じてPCIeデバイス120と通信することができる。本実施形態では、外部インターフェースとしてLANインターフェースを使用したが、外部インターフェースはLANインターフェースに限定されない。外部インターフェースは、USB、RS−232Cなどであってもよい。
【0013】
また管理部111は、PCIeインターフェース112を通じてPCIeデバイス120から切り離し要求メッセージを受信すると、メインユニット110で動作するオペレーティングシステム(OS)からPCIeデバイス120を切り離すように構成されている。また管理部111は、上記切り離しを完了すると、切り離し完了メッセージを、LANインターフェース113を通じてPCIeデバイス120へ送信するように構成されている。管理部111は、例えば、オペレーティングシステム上で稼働しているアプリケーションプログラム、或いはサーバ本体装置(管理サーバ)で実現することができる。
【0014】
なお、PCIe技術として、PCI SIGにおいてPCIeデバイスの動的な切り離し/接続についての仕様定義が行われている。定義された仕様では、専用のHotPlug機構をPCIeデバイスが接続されるサーバ本体装置に有することが必要となっている。これに対して安価で一般的なサーバ本体装置では、専用のHotPlug機構を備えているものが少ない。本実施形態は、後者のような専用のHotPlug機構を備えていないサーバ本体装置を前提とする。即ち、メインユニット110とPCIeデバイス120とは、HotPlug機構によって接続されていない。
【0015】
PCIeデバイス120は、メインユニット110に対して着脱自在に接続されたデバイスであり、障害管理部121とデバイス管理部122とPCIeインターフェース123とLANインターフェース124とを有する。
【0016】
障害管理部121は、PCIeデバイス120を構成するリソースの障害を検出するように構成されている。PCIeデバイス120を構成するリソースとしては、例えば、PCIeに含まれるCPU、メモリ、ネットワークインターフェースカード、通信ポートなどがある。また障害管理部121は、障害を検出すると、障害検出メッセージをデバイス管理部122に送信するように構成されている。また障害管理部121は、PCIeデバイス120のOSからの切り離しが完了した旨のメッセージを、LANインターフェース124を通じてメインユニット110から受信すると、リソースの障害を復旧する処理を開始するように構成されている。例えば、障害管理部121は、リソースの障害を復旧する処理として、リソースつまりPCIeデバイス120の再初期化を実施するように構成されている。また障害管理部121は、リソースの障害を復旧する処理を完了すると、PCIeデバイス120をOSに組み込むように要求するメッセージを、LANインターフェース124を通じてメインユニット110へ送信するように構成されている。
【0017】
デバイス管理部122は、障害管理部121から障害を検出した旨のメッセージを受信すると、PCIeデバイス120をOSから切り離すように要求するメッセージを、PCIeインターフェース123を通じてメインユニット110へ送信するように構成されている。
【0018】
上述した障害管理部121、デバイス管理部122、PCIeインターフェース123、およびLANインターフェース124は、例えば、PCIeデバイス120を構成するCPUとプログラムとで実現することができる。プログラムは、磁気ディスク等のコンピュータ可読記録媒体に記録されて提供され、PCIeデバイスの立ち上げ時などにCPUに読み取られ、CPUの動作を制御することにより、CPU上に障害管理部121、デバイス管理部122、PCIeインターフェース123、およびLANインターフェース124を実現する。
【0019】
図2は、PCIeデバイス120の障害管理部121およびデバイス管理部122の動作の一例を示すフローチャートである。また、図3は、メインユニット110の管理部111の動作の一例を示すフローチャートである。また、図4は、コンピュータシステム100の動作説明図である。以下、図1乃至図4を参照して、コンピュータシステム100の動作を説明する。
【0020】
メインユニット110とPCIeデバイス120とが信号線130、140により接続され、コンピュータシステム100が正常に動作している状態では、メインユニット110の管理部111とPCIeデバイス120のデバイス管理部122とは、PCIeインターフェース112、信号線130、およびPCIeインターフェース123を通じて相互に通信可能になっている。また、メインユニット110の管理部111とPCIeデバイス120の障害管理部121とは、LANインターフェース113、信号線140、LANインターフェース124を通じて相互に通信可能になっている。
【0021】
コンピュータシステム100の稼働中、PCIeデバイス120の障害管理部121は、図2に示すように、PCIeデバイス120を構成するリソースに障害が発生していないか否かを常時監視する(ステップS1)。そして、障害管理部121は、リソースの障害を検出すると、図4に示すように、障害を検出した旨の通知aをデバイス管理部122に送信する。そして、障害管理部121は、LANインターフェース124を通じてメインユニット110から、PCIeデバイス120のOSからの削除完了通知を待ち合わせる(ステップS3)。
【0022】
障害管理部121からの通知aを受けたデバイス管理部122は、図4に示すように、PCIeインターフェース123を介してメインユニット110の管理部111に対して、PCIeデバイス120をOSから削除(切り離し)するように要求する通知bを行う(ステップS2)。
【0023】
コンピュータシステム100の稼働中、メインユニット110の管理部111は、図3に示すように、PCIeインターフェース112を通じてPCIeデバイス120から削除を要求する通知を受信したか否か、LANインターフェース113を通じてPCIeデバイス120から復旧通知を受信したか否かを、それぞれ監視している(ステップS11、S12)。そして、管理部111は、OSからの削除を要求する通知bをPCIeインターフェース112経由でPCIeデバイス120から受信すると、OSの機能を利用してPCIeデバイス120をOSから削除、すなわち切り離す(ステップS13)。次に、管理部111は、図4に示すように、削除の完了時、LANインターフェース113経由でPCIeデバイス120の障害管理部121へ、削除完了の通知cを出す(ステップS14)。
【0024】
障害管理部121は、上記通知cをLANインターフェース124経由でメインユニット110から受信すると、PCIeデバイス120の障害にかかるリソースの障害復旧処理を行う(ステップS4)。具体的には、障害管理部121は、障害にかかるリソースの再初期化を行う。一般にPCIeデバイスに致命的な障害が発生した場合、PCIeデバイスの再初期化を行うことにより、高い確率で致命的な障害を復旧することができる。但し、PCIeデバイスの再初期化が行われる際、PCIeは一旦リンクダウンすることが考えられる。そのため、PCIeデバイスがOSに組み込まれている状態でリンクダウンが発生すると、サプライズリンクダウンに繋がり、OSパニック等の問題が生じる。しかし、本実施形態では、PCIeデバイス120の再初期化を行う前に、PCIeデバイス120をOSから切り離している。そのため、サプライズリンクダウンによるOSパニック等が発生することはない。
【0025】
次に、障害管理部121は、障害復旧処理を完了すると、図4に示すように、LANインターフェース124経由でメインユニット110へ、PCIeデバイス120をOSに再接続(再組み込み)するように要求する通知dを出す(ステップS5)。
【0026】
メインユニット110の管理部111は、上記通知dをLANインターフェース113経由で障害管理部121から受信すると、OSの機能を利用して、PCIeデバイス120をOSに再接続(再組み込み)する(ステップS15)。これにより、コンピュータシステム100は、元の正常な状態に復帰する。
【0027】
このように本実施形態によれば、障害の発生したPCIeデバイス120の予期しない動作によって、コンピュータシステム100全体の動作停止が発生するのを防止することができる。その理由は、障害の発生したPCIeデバイス120を、その障害復旧処理を行う前にOSから切り離すようにしているためである。
【0028】
[第2の実施形態]
図5は、本発明の第2の実施形態に係るコンピュータシステム200のブロック図である。図5を参照すると、コンピュータシステム200は、メインユニット210とデバイス220とを備え、メインユニット210とデバイス220とは内部インターフェース230を通じて接続されている。内部インターフェース230は、例えばPCIeである。但し、内部インターフェース230は、PCIeに限定されない。内部インターフェースは、PCIやシリアルATAなどであってもよい。
【0029】
デバイス220は、1以上のリソース221と、障害管理部222とを有する。リソース221は、デバイス220を構成するハードウェア資源あるいはソフトウェア資源である。ハードウェア資源は、例えばCPUやメモリなどである。また、ソフトウェア資源は、例えばプログラムなどである。障害管理部222は、リソース221の障害を検出するように構成されている。また障害管理部222は、リソース221の障害を検出すると、その障害復旧処理を開始する前に、デバイス220をオペレーティングシステム(OS)から切り離す要求を、内部インターフェース230を通じてメインユニット210へ送信するように構成されている。
【0030】
このように構成されたコンピュータシステム200は、以下のように機能する。すなわち、デバイス220の障害管理部222は、コンピュータシステム200の稼働中に、デバイス220を構成するリソース221の障害を検出すると、リソース221の障害を復旧する処理を開始する前に、デバイス220をオペレーティングシステムから切り離す要求を、内部インターフェース230を通じてメインユニット210へ送信する。
【0031】
このように本実施形態に係るデバイス220は、リソース221の障害を復旧する処理を開始する前に、デバイス220をOSから切り離す要求を、内部インターフェース230を通じてメインユニット210へ送信する。そのため、デバイス220におけるリソース221の障害を復旧する処理は、デバイス220がOSから切り離された状態で行われる。その結果、障害の発生したデバイス220の予期しない動作によって、コンピュータシステム200全体の動作停止が発生するのを防止することができる。
【0032】
以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。
【0033】
例えば、本発明の第1の実施形態では、PCIeデバイスとメインユニットの管理部との通信をPCIeおよびLANインターフェースを介して行う方法について説明したが、通信手段を制限するものではない。また、PCIeデバイスにLED等の表示器を実装し、目視による確認をしてもよい。例えば、障害管理部121は、LANインターフェース124を通じてメインユニット110から、PCIeデバイス120のOSからの削除完了通知を受信したときに、表示器の点灯状態を切り換えて、PCIeデバイス120がOSから切り離されている旨をオペレータに提示するように構成されていてよい。
【符号の説明】
【0034】
100…コンピュータシステム
110…メインユニット
111…管理部
112…PCIeインターフェース
113…LANインターフェース
120…PCIeデバイス
121…障害管理部
122…デバイス管理部
123…PCIeインターフェース
124…LANインターフェース
130…信号線
140…信号線
200…コンピュータシステム
210…メインユニット
220…デバイス
221…リソース
222…障害管理部
図1
図2
図3
図4
図5