(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024050522
(43)【公開日】2024-04-10
(54)【発明の名称】マルチベンダーを支援するサーバ管理システム
(51)【国際特許分類】
G06F 11/30 20060101AFI20240403BHJP
G06F 11/07 20060101ALI20240403BHJP
G06F 8/65 20180101ALI20240403BHJP
【FI】
G06F11/30 151
G06F11/30 140A
G06F11/07 140A
G06F11/07 193
G06F8/65
【審査請求】有
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2023169581
(22)【出願日】2023-09-29
(11)【特許番号】
(45)【特許公報発行日】2024-02-22
(31)【優先権主張番号】10-2022-0124122
(32)【優先日】2022-09-29
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】523374161
【氏名又は名称】ジニエイアイ カンパニー リミテッド
【氏名又は名称原語表記】GeniAI CO., LTD
【住所又は居所原語表記】5th fl, 316, Yeongdong-daero, Gangnam-gu, Seoul, Republic of Korea
(74)【代理人】
【識別番号】100121382
【弁理士】
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】ユ,セ クウォン
【テーマコード(参考)】
5B042
5B376
【Fターム(参考)】
5B042KK13
5B042KK17
5B042MA08
5B042MC08
5B042MC38
5B042MC39
5B376CA21
5B376DA01
5B376DA11
5B376DA14
(57)【要約】
【課題】本発明は、マルチベンダーを支援するサーバ管理システムに関する。
【解決手段】サーバ管理システムは、前記サーバ管理システムを管理する管理者が使用する管理者端末と、管理対象サーバを依頼した各顧客が使用する顧客端末と、前記管理対象サーバからデータを収集し、各管理対象サーバの現況を把握して管理し、これに関連した管理サービス統計データと管理サービスレポートを含む各種サーバ管理情報を前記の管理者端末と前記顧客端末に提供する管理サーバと、を含む。本発明によれば、マルチベンダーを支援するサーバ管理システムを提案することで、より便利で効率的に多数のサーバを管理できるという効果がある。
【選択図】
図1
【特許請求の範囲】
【請求項1】
マルチベンダーを支援するサーバ管理システムにおいて、
前記サーバ管理システムを管理する管理者が使用する管理者端末と、
管理対象サーバを依頼した各顧客が使用する顧客端末と、
前記管理対象サーバからデータを収集し、各管理対象サーバの現況を把握して管理し、これに関連した管理サービス統計データと管理サービスレポートを含む各種サーバ管理情報を前記管理者端末と前記顧客端末に提供する管理サーバと、を含み、
前記管理サーバは、複数の管理対象サーバからマルチベンダハードウェア情報を収集して保存し、保存した情報を照会して利用できるように、前記管理者端末および前記顧客端末に提供することを特徴とするサーバ管理システム。
【請求項2】
前記管理サーバは、登録された複数の管理対象サーバからマルチベンダハードウェアインベントリ情報を収集して保存することを特徴とする請求項1に記載のサーバ管理システム。
【請求項3】
前記管理サーバは、緊急ファームウェアのアップデートを含むファームウェアのアップデートイベントがあると、すべての管理対象サーバに対してファームウェアアップデートを行うことを特徴とする請求項2に記載のサーバ管理システム。
【請求項4】
前記管理サーバは、管理対象サーバのある装備で障害が発生すると、ログおよびパターンを分析し、分析したデータを保存し、障害が解決されると、該当装備と類似した装備を分類し、分類された類似装備に対して障害事前対応処理を実施することを特徴とする請求項1に記載のサーバ管理システム。
【請求項5】
前記管理サーバは、Redfish APIを利用して各管理対象サーバのハードウェア詳細仕様、OS(Operating system)の情報、ファームウェアの情報及びドライバーの情報を含む運用中のx86サーバに対する情報を収集することができ、x86サーバの標準化管理を行うことを特徴とする請求項1に記載のサーバ管理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバを管理するためのサーバ管理システムに関するものであり、より詳しくは、マルチベンダー(multi-vendor)を支援するサーバ管理システムに関するものである。
【背景技術】
【0002】
近年、コンピュータが大容量化、高速化するにつれて、システムのエラーやウイルスなどによるコンピュータの障害が頻繁に発生している。特に、大容量のサーバの場合、多様な応用プログラムの動作と、データ保存、読み出し、および伝送など、色々な要因による障害が頻繁に発生しうる。したがって、各企業では、このようなサーバを管理する別途のサーバ管理者を常駐させてサーバを管理して、障害発生時に、これを処理するようにしている。
【0003】
ところで、サーバ管理には、専門的な技術が要求され、そのような専門人材を採用するには、かなりの費用が要求される。したがって、特に、小規模な企業等では、当該サーバ管理者として専門技術者を採用するのではなく、社内の既存の人材の中から適切な者を選び、サーバ管理者として置いているのが実情である。その場合には、サーバ管理が円滑に行われにくく、しかもサーバ障害の発生時に円滑に対処することがほとんど不可能である。
【0004】
また、サーバ管理のために専門技術を有するサーバ管理者を採用した場合でも、サーバ管理者が出張等の理由でサーバから遠隔地にいる場合には、サーバ障害の発生の時に、このようなサーバの状況を管理者に迅速に通知することが困難となり、サーバ障害の発生時に円滑に対処することが困難となった。さらに、サーバ管理者が当該サーバ障害の発生の通知を受けた場合でも、遠隔地にある関係で、直ちに対処することが難しく、最終的にサーバがダウンするなど莫大な損失を招かれることができる。
【0005】
従来は、多数のサーバを統合して管理するサーバ統合管理システムで、あるサーバに障害が発生すれば、これを感知し、事後に障害を復旧する方式である。しかし、このような従来の事後の障害復旧方式は、障害が発生したサーバを復旧する期間中に、該当サーバの動作が中断され、サーバ使用の中断による損失が発生し、復旧するのにかかる人材と費用による損害が大きいという問題点がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】韓国公開特許第2015-0124642号
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、前記のような問題点を解決するために案出されたものであり、マルチベンダーを支援し、より迅速に自動化できるサーバ管理システムを提供することをその目的としている。
【0008】
本発明の目的は以上で言及した目的に限定されず、言及されていない他の目的は、下記の記載から、通常の技術者であれば、明確に理解することができるものである。
【課題を解決するための手段】
【0009】
このような目的を達成するために、本発明は、マルチベンダーを支援するサーバ管理システムに関するものであり、前記サーバ管理システムを管理する管理者が使用する管理者端末と、管理対象のサーバを依頼した各お客様が使用する顧客端末と、及び前記管理対象のサーバからデータを収集し、各管理対象のサーバの現状を把握して管理し、これに関連した管理サービス統計データと管理サービスレポートとを含む各種サーバ管理情報を前記管理者端末及び前記顧客端末に提供する管理サーバを含む。
【0010】
前記管理サーバは、複数の管理対象サーバからマルチベンダーハードウェア情報を収集して保存し、保存した情報を照会して利用できるように、前記管理者端末及び前記顧客端末に提供することができる。
【0011】
前記管理サーバは、登録された複数の管理対象サーバからマルチベンダーハードウェアインベントリ情報を収集して保存することができる。
【0012】
前記管理サーバは、緊急ファームウェア(firmware)アップデートを含むファームウェアアップデートイベントがあれば、すべての管理対象サーバに対してファームウェアアップデートを進行することができる。
【0013】
前記管理サーバは、管理対象サーバのある装備で障害が発生すると、ログおよびパターンを分析し、分析したデータを保存し、障害が解決されれば、該当装備と類似した装備を分類し、分類された類似装備に対して障害事前対応処理を行うことができる。
【0014】
前記管理サーバは、Redfish APIを利用して各管理対象サーバのハードウェア詳細仕様、OS(Operating System)情報、ファームウェア情報、およびドライバー情報を含む運営中のx86サーバに対する情報を収集でき、x86サーバの標準化管理を行うことができる。
【発明の効果】
【0015】
本発明によれば、マルチベンダーを支援するサーバ管理システムを提案することで、より便利で効率的に多数のサーバを管理できる効果がある。
【0016】
また、本発明によれば、サーバを所有している顧客に障害パターンを分析して先制的に障害をあらかじめ対応するようにし、サーバ管理機能を提供することで、顧客のニーズ(needs)に合うデータを加工して伝達できる効果がある。
【図面の簡単な説明】
【0017】
【
図1】
図1は、本発明の一実施例によるサーバ管理システムの全般的な構成を概念的に図示したものである。
【
図2】
図2は、本発明の一実施例によるサーバ管理システムでマルチベンダーを支援してサーバを管理する方法を例示するフローチャートである。
【
図3】
図3は、本発明の一実施例によるサーバ管理システムで障害ログおよびパターンを分析して障害を事前に予防する方法を例示するフローチャートである。
【
図4】
図4は、本発明の一実施例によるサーバ管理システムで「Redfish API」を活用してマルチベンダーを支援する動作モデルを例示するものである。
【
図5】
図5は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図6】
図6は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図7】
図7は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図8】
図8は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図9】
図9は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図10】
図10は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図11】
図11は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図12】
図12は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図13】
図13は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図14】
図14は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図15】
図15は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図16】
図16は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図17】
図17は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図18】
図18は、本発明の一実施例によるサーバ管理システムの画面例を図示するものである。
【
図19】
図19は、本発明の一実施例によるシステム装備を分類した図表である。
【
図20】
図20は、本発明の一実施例によるハードウェアの症状と、その原因を記載した図表である。
【
図21】
図21は、本発明の一実施例によるハードウェアの症状と、その原因を記載した図表である。
【
図22】
図22は、本発明の一実施例によるサーバ管理システムで障害事前対応方法を示すフローチャートである。
【
図23】
図23は、本発明の一実施例によるサーバ管理システムで障害事前対応方法を示すフローチャートである。
【発明を実施するための形態】
【0018】
本発明は、多様な変更を加えることができ、様々な実施例を持つことができる。特定の実施例を図面に例示して詳細に説明する。しかし、これは、本発明を特定の実施形態に対して限定しようとするものではなく、本発明の思想および技術範囲に含まれるすべての変更、均等物、ないし代替物を含むと理解されなければならない。
【0019】
本出願で使用した用語は、単に特定の実施例を説明するために使用されたものであり、本発明を限定しようとする意図ではない。単数の表現は、文脈上明らかに異なる意味を持たない限り、複数の表現を含む。本出願において、「含む」又は「持つ」等の用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを指定しようとするものであり、一つまたはその以上の他の特徴、若しくは数字、段階、動作、構成要素、部品、又はこれらを組み合わせたものの存在又は付加の可能性をあらかじめ排除しないと理解しなければならない。
【0020】
他に定義されない限り、技術的または科学的な用語を含み、本明細書で使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般に理解されるのと同じ意味を有する。一般的に使用される辞書で定義されているものなどの用語は、関連技術の文脈上の意味と一致する意味を有すると解釈されるべきであり、本出願で明確に定義されていない限り、理想的または過度に形式的な意味として解釈されるべきではない。
【0021】
なお、添付図面を参照して説明するにあたり、図面符号にかかわらず同一の構成要素には同一の参照符号を付し、これに対する重複する説明は省略する。
【0022】
本発明の説明において、関連する公知技術の具体的な説明が本発明の要旨を不必要に曇らせることができると判断される場合、その詳細な説明を省略する。
【0023】
図1は、本発明の一実施例によるサーバ管理システムの全般的な構成を概念的に図示するものである。
【0024】
図1を参照すれば、本発明のサーバ管理システムは、管理サーバ110、管理者端末120、及び顧客端末130を含む。
【0025】
管理者端末120は、サーバ管理システムを管理する管理者が使用する端末である。
【0026】
顧客端末130は、管理対象サーバ10、20、30、40の管理を依頼した各顧客が使用する端末である。
【0027】
本発明の一実施例において、管理者端末120と顧客端末130は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットPC、携帯電話、スマートフォンなど有無線の通信が可能な多様な端末の形態として実現できる。
【0028】
管理サーバ110は、管理対象サーバ10,20,30,40からデータを収集し、各管理対象サーバの現状を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバ管理情報を管理者端末120と顧客端末130に提供する。
【0029】
管理サーバ110は、複数の管理対象サーバからマルチベンダーのハードウェア情報を収集して保存し、保存した情報を照会して利用できるように管理者端末120及び顧客端末130に提供することができる。
【0030】
管理サーバ110は、登録された複数の管理対象サーバからマルチベンダハードウェアインベントリ(multi-vendor hardware inventory)情報を収集して保存することができる。
【0031】
管理サーバ110は、緊急ファームウェアアップデートを含むファームウェアアップデートのイベントがある場合、全ての管理対象サーバに対してファームウェアアップデートを進めることができる。
【0032】
管理サーバ110は、管理対象サーバのどの機器から障害が発生した場合、ログ及びパターンを分析し、分析したデータを保存し、障害が解決されれば、当該装備と類似の装備を分類し、分類された類似の装置に対して障害事前対応処理を実施することができる。
【0033】
管理サーバ110は、Redfish APIを利用して各管理対象サーバのハードウェア詳細仕様、OS情報、ファームウェア情報、及びドライバー情報を含む運用中のx86サーバに対する情報を収集することができ、x86サーバの標準化管理を行うことができる。
【0034】
管理サーバ110は、管理対象サーバ10、20、30、40の障害パターンを分析して、類似の障害が発生することを予防する予防分析機能を提供し、予防分析機能を介して管理対象サーバ10、20、30、40で予め定められたイベントの発生時に、発生したイベントによる障害が発生する可能性があることを警告する予想障害発生メッセージを、該当管理対象サーバの管理を依頼した顧客端末に先制的に送信することができる。
【0035】
管理サーバ110は、管理対象サーバ10、20、30、40の設置、障害、技術支援の履歴を管理する履歴管理機能を提供することができる。
【0036】
管理サーバ110は、管理対象サーバ10、20、30、40の納品履歴を管理する納品管理機能を提供することができる。
【0037】
管理サーバ110は、管理対象サーバで装備関連イベントが発生すると、あらかじめ定められた分類基準に従って危険装備を分類し、当該危険装備に対する警告メッセージを管理者端末120及び該当顧客端末に発送し、該当危険装備に対する事前障害対応措置を行うことができる。
【0038】
管理サーバ110は、管理対象サーバで装備関連イベントが発生すると、当該装備の障害症状を把握し、当該障害症状に対応する障害コードに従って原因を分析し、障害対応方案を含むレポートを管理者端末120及び該当顧客端末に発送し、当該装備に対する障害対応措置を行うことができる。
【0039】
本発明において、管理サーバ110は、顧客端末130の要求に応じて管理対象サーバの管理に関連するデータを加工して配信するデータ配信サービス(data delivery service)機能を提供することができる。
【0040】
また、管理サーバ110は、管理対象サーバのクリティカル障害を分析し、同一事例を伝播してサーバ障害を事前に予防することができ、四半期ごとに各サーバの障害統計を管理者端末120及び顧客端末130に提供することができる。
【0041】
本発明において、管理サーバは、納品したサーバ関連装備に対する履歴を管理することができ、設置/障害/技術支援の履歴管理サービスを提供し、パーツ別の問題(issue)を管理することができる。
【0042】
本発明は、顧客から依頼された複数の管理対象サーバ10、20、30、40を管理するサーバ管理システムに関するものである。
【0043】
本発明の一実施例において管理対象となるサーバである管理対象サーバは、多様なサーバであってもよく、例えば、Dell(登録商標)サーバ10、HP(登録商標)サーバ20、Lenovo(登録商標)サーバ30、X86サーバ40とできる。
【0044】
管理対象サーバ10、20、30、40と管理サーバ110は、様々な有無線通信方式を介して通信し、例えばHTTP通信やJSON形式のPOST伝送方式で通信することができる。
【0045】
また、管理対象サーバ10、20、30、40は、大規模な電算環境の様々なx86サーバで定められたスケジューリングに従ってスクリプトを自動実行することができる。
【0046】
管理者は、管理者端末120を介して管理サーバ110に接続し、管理サーバ110に定められたスケジューリングに従ってバッチ(BATCH)プログラムを実行し、既存のデータと比較して変更履歴を管理する。
【0047】
管理サーバ110は、自動的に管理対象サーバ10、20、30、40のハードウェア情報及びソフトウェア情報を収集し、これに基づいて各サーバの現況を把握し、各サーバの要求状況に応じた管理サービスを提供する。
【0048】
管理サーバ110は、管理対象サーバのBBU(Backup Battery Unit)周期を点検し、あらかじめ決められた周期になると、この内容を該当管理対象サーバの顧客端末に伝送することができる。
【0049】
また、管理サーバ110は、管理対象サーバのBBU充電容量を点検し、バッテリーの充電効率があらかじめ定められた数値の以下に減少すると、この内容を該当管理対象サーバの顧客端末に知らせることができる。例えば、管理サーバ110は、管理対象サーバのBBU充電容量を点検し、バッテリーの充電効率が40%以下に減少すれば、その内容を該当管理対象サーバの顧客端末に知らせることができる。
【0050】
管理サーバ110は、管理対象サーバのBBU残り容量を点検し、バッテリーの残り容量が予め定められた数値以下である場合、この内容を該当管理対象サーバの顧客端末に知らせることができる。例えば、管理サーバ110は、管理対象サーバのBBU残余容量を点検し、バッテリーの残量が10%以下である場合、この内容を該当管理対象サーバの顧客端末に知らせることができる。
【0051】
また、管理サーバ110は、管理対象サーバのBBU書き込みポリシー(Write Policy)を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバの顧客端末に知らせることができる。
【0052】
本発明は、多数のサーバを統合して管理するサーバ統合管理システムに対するものであり、サーバの多様な機能を診断し、障害を予め予測して警告し、解決方法を一緒に提示する。本発明では、サーバの多様な機能のうち、BBUを例示して説明することにする。
【0053】
Dell(登録商標)サーバを例にとると、RAIDコントローラのバッテリー失敗(failure)によるキャッシュ(cache)データの損失を防止するために、BBUのバッテリーの状態点検および、先制的交換の進行が必要である。このために、Dell(登録商標)サーバのログ(log)確認を通じて、バッテリー完全充電(Full Charging)率(%)を確認し、完全充電率が50%未満の装備を確認し、バッテリー交換を進行する。36ヶ月以降のバッテリー充電率は、約70%前後で自然に減少し、これを考慮して約20%程度の追加的な減少があるバッテリーに対して、充電率の不良と判定することができる。
【0054】
本発明のサーバ統合管理システムは、BBU周期点検、充電容量の点検、残余容量の点検、書き込みポリシー(Write Policy)の点検を行い、これによりキャッシュデータの損失を防止し、バッテリー状態に対する危険因子を事前に防止することができる。
【0055】
本発明のサーバ管理システムでは、あるイベントが発生した場合、当該イベントを通じてサーバに障害が発生する可能性があることを診断し、予め当該サーバのシステムに警告し、解決方法に関する情報を一緒に伝達する。これと関連して、サーバで発生するイベントは、非常に多様であり、以前になかったイベントが新たに発生する可能性もある。本発明では、このようなサーバで発生することができるイベントのうちいくつかのイベントを例示することにする。
【0056】
1.iDRAC7、バージョン1.51.51に適用された製品「Dell(登録商標) R720サーバ」でファン(FAN)騒音(Reading 12,000RPM以上)
【0057】
これに対する解決方法としては、iDRAC71.46.45バージョンへのダウングレードすることを推奨する。
【0058】
2.ラックPDU#1及びPDU#2で電力使用率がPDU#1に傾く現象が発生
【0059】
図21を参照すれば、Dell(登録商標)サーバだけでなく、HP(登録商標)サーバも同様に、パワーサプライのデフォルトとして、アクティブスタンバイ(Active Standby)で動作するように設定されており、これにより電力がラックPDUの一方に集中する状況が発生し、バランスを合わせるためには、「Primary-PSU」の比率を合わせる必要がある。
【0060】
3.Dell(登録商標)サーバ製品の第12世代~第14世代カーネルアップデート(kernel update)後のOSの異常動作
【0061】
このとき、管理サーバ110は、デル(Dell)(登録商標)サーバでカーネルアップデート後、OS上で異常動作が発見された場合、これにより発生し得る予想障害発生メッセージを該当管理対象サーバに送信し、これと共に予測障害の解決方法を該当管理対象サーバに伝達する。
【0062】
4.TCP/IPポートの不足によるサービス不可
【0063】
これは、Windows(登録商標)2008でアップタイム(Uptime)が497日以上の場合、ネットワークTIME_WAITセッション(session)がクローズできず残っている現象である。これにより、ポートを占有するようになり、それ以上のポートがない時に問題となる。Windows(登録商標)2008サーバとWindows(登録商標)2012サーバが対象となり、アップデートされたパッチを除去することで障害を解決できる。
【0064】
5.Windows(登録商標)2003~2022のイベントログの発生
【0065】
6.メモリの生産周期診断
【0066】
これは、特定メモリの特定生産周期が不良であることを確認するものであり、障害対象は、第13世代装備(R730、R930、R630)であり、障害OSは「Windows(登録商標)2012R2サーバ」で「KB3064209hotfix」が含まれたサーバであり、解決方法は、該当ホットフィックスを除去することである。
【0067】
本発明において、管理サーバ110は、管理対象サーバのメモリ生産周期を診断し、あらかじめ定められたメモリ生産周期を不良と判定し、この内容を該当管理対象サーバに知らせる。
【0068】
7.「PCIe Type」のSSDを使用している場合、デバイス設定で応答が停止する現象
【0069】
これに対する解決方法は、BIOS1.1.4を1.2.10にアップデートすることである。
【0070】
8.「12Gサーバ」のBIOSアップデート後、温度センサーが正常に作動せず、警告音(Alert_)が発生し続ける問題
【0071】
これに対する解決方法は、BIOS2.5.2バージョンを診断し、最新のファームウェアにアップデートすることである。
【0072】
9.パッチのアップデート後、BSOD発生後にブート不可の現象
【0073】
このイベントは、2014年8月の「Patch Tuesday Update」の「Windows(登録商標)エラー、KB2982791」による現象である。
【0074】
障害対象は、「Windows(登録商標)2008サーバ」であり、パッチアップデートを通じて障害を解決することができる。
【0075】
10.「Windows(登録商標)2012 Active Director」を使用したクライアントでDNS接続エラーが発生
【0076】
サーバからドメインアカウントにログインする際、アカウントとパスワードが正常であるにもかかわらず、「ユーザー名、またはパスワードが正しくありません」というエラーが発生する。
【0077】
「Windows(登録商標)Server2008R2/Windows(登録商標)7」から「DES-CBC-MD5およびDES-CBC-CRC暗号化」を使用せず、「AES256-CTS-HMAC-SHA1-96、AES128-CTS-HMAC-SHA1-96、RC4-HMAC暗号化」のみを使用するが、ADサーバが「Windows(登録商標)Server2012R2」であり、ドメインメンバー(Domain Member)が「Windows(登録商標)Server2008R2」または「Windows(登録商標)7」の場合、コンピュータのアカウントに対するパスワードの更新時に、AESキーの生成が失敗するという製品上の問題により発生する現象である。
【0078】
11.「GNU Bash 4.3 Shell」に存在する脆弱性
【0079】
「Bash」の脆弱性を利用して、攻撃者は、ウェブサーバのコンテンツおよびコードの変更、ウェブサイトの変調、ユーザーデータの流出およびDDoS攻撃の実行が可能であることが知られている。この他にも、SSH、DHCPプロトコル、などの多様な環境下での「Bashコードインジェクション」脆弱性攻撃のシナリオも提起されている状況である。
【0080】
障害対象は、「RedHat(登録商標) Enterprise Linux(登録商標) 5,6,7サーバ」であり、障害解決方法は、「Bash」アップデートである。
【0081】
12.「GNU C ライブラリ(glibc)」のバッファオーバーフロー脆弱性
【0082】
ネットワーク接続時によく使われる、「gethostbyname()」、「gethostbyname2()」関数の呼び出し時、脆弱な関数が呼び出される現象であり、外部の攻撃者は、脆弱なサーバで遠隔に任意のコードを実行することができる。
【0083】
障害の対象は、「RedHat(登録商標) Enterprise Linux(登録商標) 5,6,7サーバ」であり、障害解決方法は、GLIBCアップデートである。
13.「RedHat(登録商標) V5およびV6」系OSのバグ。
【0084】
「Intel(登録商標) CPU」を使用する「RedHat(登録商標) Enterprise Linux(登録商標) 6or5」のすべてのバージョンで、208.5日以降に「Reboot現象」が発生するバグである。
【0085】
障害の対象は、「RedHat(登録商標) Enterprise Linux(登録商標) 5,6サーバ」であり、障害解決方法は、カーネルアップデートである。
【0086】
14.レイドコントローラのバッテリーペール(Raid Controller Battery Fail)
【0087】
レイドコントローラキャッシュ(Raid Controller Cache)の使用不可によりI/O性能が低下する。障害の対象は、「Dell(登録商標) Perc 5i、6i」用の「Raid Controller Battery」であり、障害解決方法は、「Dell(登録商標) Perc 5i、6i」用の「Raid Controller Battery」の使用周期である4~5年ごとに事前交換することである。
【0088】
15.CPU IERR エラー発生によるシステムダウン(SYSTEM DOWN)。
【0089】
障害の対象は、「Intel(登録商標) iBridge V2」使用CPUの使用サーバ(PE R720、PE R920)であり、障害解決方法は、BIOS設定(Setting)を変更することである。
【0090】
例えば、システムプロファイル設定(System Profile Settings)を、システムプロファイルを「Custom」に設定し、CPUパワーマネジメント(Power Management)を「Maximum Performance」とし、C1Eを「Disabled C States Disabled」とし、「Monitor/Mwait」を「Disabled」に設定する。
【0091】
16.iDrac 1.50.50 F/W(Firmware)(該当バージョン検索)使用時の管理ウェブ接続不可。
【0092】
iDrac F/W OS上でのF/Wアップグレードするか、日常生活でのメディアによるアップグレードを通じて、「1.51.51」にアップグレードする。
【0093】
本発明は、マルチベンダーを支援するサーバ管理システムを提案する。例えば、本発明では、Dell(登録商標)、HP(登録商標)、Lenovo(登録商標)、などの3社のハードウェアシステムに関する情報を1つのインベントリ(Inventory)に格納し、インベントリに格納された情報を用いてハードウェアに関する全ての情報を照会することができ、機能を活用できるように具現する。
【0094】
本発明で説明の便宜のために、Dell(登録商標)、HP(登録商標)、Lenovo(登録商標)、などのメーカーを例示してマルチベンダーを支援するサーバ管理システムについて説明する。
【0095】
図2は、本発明の一実施例によるサーバ管理システムにおいて、マルチベンダーを支援してサーバを管理する方法を例示するフローチャートである。
図2において、各段階の実行主体は、管理サーバ110である。
【0096】
図2を参照すれば、管理対象サーバを登録する(S201)。このとき、各サーバの管理IP情報を用いて対象サーバを登録することができる。たとえば、「Dell(登録商標)」の場合は「iDRAC」、「HP(登録商標)」の場合は「iLO」、「Lenovo(登録商標)」の場合は「iMM」を使用して対象サーバを登録することができる。
【0097】
次に、各サーバ別の接続の有無を把握し(S203)、マルチベンダハードウェアインベントリ情報を収集する(S205)。本発明の一実施例において、ハードウェア共通標準である「Redfish API」を使用して、メーカー区分なしに、x86サーバのハードウェアシステムに対するインベントリ情報を収集することができる。
【0098】
そして、収集したインベントリ情報を保存する(S207)。
【0099】
「緊急ファームウェアアップデート」を含むファームウェアアップデートイベントがある場合、全ての管理対象サーバに対してファームウェアアップデートを行う(S209)。そして、変更されたアップデート情報を確認する(S211)。本発明の一実施例では、「Redfish API」を通じてファームウェアアップデート情報を確認することができる。
【0100】
そして、各サーバの安全度、点検対象かどうか、重要度、等に応じてグループを設定し(S215)、リアルタイムでサーバ情報を確認する(S217)。
【0101】
このように、本発明の一実施例では、「Redfish API」を利用して各サーバのハードウェア詳細仕様、OS情報、ファームウェア情報、ドライバ情報、などの運営中のx86サーバに関する様々な情報を収集することができ、x86サーバの標準化管理を行うことができる。
【0102】
図3は、本発明の一実施例によるサーバ管理システムにおいて、障害ログおよびパターンを分析して障害を事前予防する方法を例示するフローチャートである。
図3において、各ステップを行う主体は、管理サーバ110である。
【0103】
図3を参照すれば、管理対象サーバのある装備で障害が発生すると(S401)、ログおよびパターンを分析する(S403)。そして、分析したデータを保存する(S405)。
【0104】
障害が解決されると(S407)、該当装備と類似した装備を分類し(S409)、分類された類似装備に対して障害事前対応処理を実施する(S411)。
【0105】
このように、本発明において障害発生時、ログおよびパターンを分析して自動的に類似装備を分類することにより、類似装備で発生する障害を事前に予防することができる。
【0106】
図4は、本発明の一実施例によるサーバ管理システムで「Redfish API」を活用してマルチベンダーを支援する動作モデルを例示する図である。
【0107】
図4に示すように、本発明では、「Redfish API」を利用して、Dell(登録商標)、HP(登録商標)、Lenovo(登録商標)、などのメーカーの区別なしに、x86サーバのハードウェアシステムに対するインベントリ情報を収集し、収集した情報を照会して活用することができる。例えば、「Dell(登録商標)」の場合は「iDRAC」を使用してデータを収集し、「HP(登録商標)」の場合は「iLO」を使用してデータを収集し、「Lenovo(登録商標)」の場合は「iMM」を使用してデータを収集する。そして、「Redfish API」を利用して多数のサーバにOSやファームウェアを配布して設置することができる。
【0108】
そして、本発明では、「Redfish API」を利用して各サーバのハードウェア仕様、OS情報、ファームウェア情報、などを迅速に確認することができる。
【0109】
そして、本発明でパターンを分析して障害を予測することができ、ハードウェアログを利用してパターン分析を行うことができる。
【0110】
「Redfish API」は、2015年に初めてリリースされて以来、継続的なアップデートが行われており、複数のサーバ製造ベンダー社を支援し、「IPMI」と同じ機能を提供している。また、「Redfish API」は、「BIOS」と「Secure Boot」設定機能を、ファームウェアアップデート機能、ストレージとサーバのネットワーキング設定機能を支援する。そして、「Open Compute Platform」、「Open stack」、「SNIA(Storage Networking Industry Association)」、などを支援し、ネットワークスイッチマネジメント、外付けストレージマネジメント、などを支援する。
【0111】
パワーエッジ(Power Edge)サーバの管理ツールである「iDRAC」は、「Redfish」を活用して「Redfish RESTful API」を支援する。例えば、「iDRAC」は、サーバ電源(「Reset」、「Reboot」、「Power Control」)、サーバハードウェアインベントリ、サーバモニタリング、および状態チェック、システムログ収集、サーバの状態変化チェック、およびアラームを行うことができる。
パワーエッジサーバは、「Redfish」を通じてサーバの初期設定を自動化することができる。そして、「iDRAC」初期設定、BIOS、RAIDコントローラ、ネットワークカード、などの様々な構成情報をテンプレート化してサーバの自動化配布を行うことができる。
【0112】
パワーエッジサーバの「iDRAC」における「Redfish」活用例の中で、サーバ構成自動化(Auto deployment)を例示すると、次のようになる。サーバが持つ固有の設定値は、「SCP(Server configuration profile)」のメタデータとして保存され、これは「Redfish API」で構成できる。また、「Redfish API」を通じて「BIOS」、「iDRAC/LC」、「PERC RAID Controller」、「NIC」、「HBA」、などの各種設定情報を設定することができる。「SCP」は、「Export、Preview、Import」が可能で、新しく構築されるサーバに構成情報を自由に適用することができる。「SCP」は、「HTTS」、「NFS」、「CIFS」、などの方式で共有でき、「XML」や「JSON」のファイル形式などで具現できる。
【0113】
図5~
図18は、本発明の一実施例によるサーバ管理システムの画面例を示す。
【0114】
図5は、初期画面例であり、管理対象サーバに対して自動的に収集したインベントリ及びログに関する情報を一目で見ることができるようにダッシュボードを介して支援する画面例である。
【0115】
図6は、管理対象サーバのインベントリ情報をリアルタイムで確認できる画面例であり、この画面例で変更された情報に対しても自動的にインベントリ情報が変更される。
【0116】
図7の画面例では、管理対象サーバの問題が確認される時に、分かりやすく各パート別に赤色で表示され、正常なパートは緑色で表示される。
【0117】
図8は、ファームウェア情報を含む全体管理対象サーバのリアルタイムマネジメント情報を確認できる画面例である。
【0118】
図9は、全体管理対象サーバのリアルタイムCPU詳細情報及び現在の状態を確認できる画面例である。
【0119】
図10は、全体管理対象サーバのリアルタイムメモリ詳細情報および現在の状態を確認できる画面例である。
【0120】
図11は、全体管理対象サーバのリアルタイム「Raid Controller」の詳細情報及び現在の状態を確認できる画面例である。
【0121】
図12は、全体管理対象サーバのリアルタイムディスク詳細情報及び現在の状態を確認できる画面例である。
【0122】
図13は、全体管理対象サーバのPSUのリアルタイム詳細情報および現在の状態を確認できる画面例である。
【0123】
図14及び
図15は、全体管理対象サーバの収集ログに関するリアルタイム詳細情報を確認できる画面例であり、リアルタイム「Vendor HW」エラーコードを収集して自動的に分類し、エラーコード別問題装備の確認が可能である。
【0124】
図16は、障害分析画面例であり、障害原因、結論、交換時期を含む障害分析情報が表示されている。
【0125】
図17は、顧客社と比較した各サーバ別障害分析分布図を例示する画面例である。
【0126】
図18は、サービスレポート機能を例示した画面例であり、発生時期、 問題の事項、問題解決、及び再発防止措置事項を含むレポート内容が例示されている。
【0127】
図19は、本発明の一実施例によるシステム装備を分類した図表であり、
図20及び
図21は、本発明の一実施例によるハードウェアの症状及びその原因を記載した図表である。
【0128】
図22~
図23は、本発明の一実施例によるサーバ管理システムにおける障害事前対応方法を示すフローチャートである。
【0129】
図22を参照すれば、管理サーバ110は、管理対象サーバでハードウェア関連の問題が発生すると(S101)、
図19の分類表を参照して、障害発生の可能性が高い類似装備を危険装備に分類する(S103)。
【0130】
そして、分類された危険装備に対する警告メッセージを発送し(S105)、障害事前対応措置を行う(S107)。
【0131】
図19の分類表を参照すれば、本発明の一実施例におけるシステム装備の具体的な類似判断基準が例示されており、 同じクラスの装備の分類、同一CPU装備の分類、同一メモリ装備の分類、同一NIC装備の分類、同一ディスク装備の分類、同一HBA装備の分類、同一BIOS装備の分類、同一ドライバーバージョン装備の分類、同一OS装備の分類、同一ファームウェアバージョン装備の分類、などが例示されている。
【0132】
図23を参照すれば、管理サーバ110は、管理対象サーバでハードウェア関連の問題が発生すると(S301)、障害の症状を把握する(S303)。
【0133】
そして、
図20及び
図21の図表を参照して障害症状に応じた症状コードを確認する(S305)。また、症状コードに対応する原因を確認し(S307)、それに応じて対応策レポートを発送する(S309)。また、障害原因に対応する障害対応措置を行う(S311)。
【0134】
S305段階で障害症状に対応する症状コードがない場合、新たな症状コードを生成し、
図20及び
図21のリストに追加する(S313)。
【0135】
図20及び
図21を参照すれば、本発明の一実施例による障害症状別症状コードに対応する障害原因が例示されている。すなわち、「RAC1198」はiDracファームウェアの問題、「コネクタブルメモリ障害」はメモリの問題及びバイオスファームウェアの問題、「LinkFailureの発生」はNIC障害及びファームウェアの問題、「LinkFailureCountの多数発生」はNICドライバー及びファームウェアの問題、「NIC Link is Down」はNICドライバー及びファームウェアの問題、Linkの状態及びサーバの点検要請はNICドライバー及びファームウェアの問題、 「HOST_DOWN」の発生はNICドライバー及びファームウェアの問題、「サーバ前面の黄色点灯」の発生はiDracファームウェアの問題、「SWC5008:criticalメッセージ」の出力はiDracファームウェアの問題、「NO_PARTITION」アラームの発生はディスクの障害、「Reset adapte」はBIOSファームウェアの問題、「Correctable memory error」はメモリの問題およびBIOSファームウェアの問題、「CPUの性能低下」はBIOSファームウェアの問題、「MemoryおよびSlotが表示されない」はメモリの問題およびBIOSファームウェアの問題、「Disk fault error」はディスクの障害、「disk predicted fail」は「ディスクのBadBlock」による障害、「周期的なFAN6の認識問題」はFan6の障害、「光量400以下によるFault」はGbicの障害、「NIC GBIC 通信不可」はGbicの障害、「システムの無限リブート」はBIOSファームウェアの問題、「LCDパネルでの特定のメッセージ出力」はiDracファームウェアの問題、「iDRACで繰り返しエラーメッセージの発生」はiDracファームウェアの問題、「vCenterエージェントと同期化エラー」はEXSiバージョンとOSバージョンの問題、「サーバReboot現象」はBIOSファームウェアの問題、「HBA Writeの速度低下」はHBAファームウェアとドライバーの問題、「HBA Readの速度低下」はHBAファームウェアとドライバーの問題、「HBA Link Down」はHBA Gbic及びカードの問題、「HBA二重化の節体障害」は「HBA Gbic」及びカードの問題、「Riser1の認識不良」は「Riser Card」の問題、「Riser2の認識不良」は「Riser Card」の問題、「ネットワーク二重化の障害」はネットワークカードの問題、「PSU Alertの黄色LEDの点灯」はPSUの障害、「低電圧による異常発生」はPSUの障害、「PXEブート不可」はBIOS設定およびNICファームウェア/ドライバーの問題、「POSTブート不可」はマザーボードの障害、「LifeCycle接続不可」はマザーボードの障害、「iDRAC Hangの症状」はiDracファームウェアの問題、「iDRACネットワークの切断」はマザーボードの障害とiDracのファームウェアの問題、「iDRAC SNMPサービスの障害の発生」はiDracのファームウェアの問題、「サーバの使用中に突然サーバが切れる症状」はマザーボードの問題、「Medium Erorの発生」はディスクの障害、「ERROR Event」の確認要請はエラーイベントによる問題、「CMC接続不可」はCMCファームウェアの問題、が原因で対応される。
【0136】
そして、「DSET分析要求」は分析による障害、「TSR Log」分析要求は分析による障害、「NFSサービスの起動失敗」はNFS設定とOS設定の点検、「vCenter接続不可」はEXSiのバージョンとOSバージョンの問題、「NIC Reset」は「Network Card」の問題、「GPU認識不可」は「GPU Card」の障害、「OS Crash」の発生は「OS Dump」の分析、「Network error/dropped packets」の発生はネットワークカードの問題、「CRCエラーの発生」はネットワークカードの問題、「サーバ―スイッチの切れた現象」はネットワークカードの問題、「Network(Bonding)に通信が円滑でない」はネットワークカードの問題、「メモリ交換後の同一スロットイベントの発生」はメモリの障害またはマザーボードの障害、「「Disk Read Only」状態でアクセス不可」はディスクの障害またはRAID構成の問題、「スイッチの1ヶ月に3~4回の「Hang」症状」はマザーボードまたはOSバージョンの問題、「「LACP Network Speed」の問題が発生する」のはネットワークカードの問題、「クラスタフェイルオーバーの発生」はクラスタ設定の問題、またはHWの障害、「RTSP同期化の失敗」はOS設定またはネットワークの障害、「セッション低下現象の発生」はネットワークカードまたはGbicの問題、「不明な電源遮断」はPSU障害、サーバが遅い及び「Hang」現象はアプリケーションまたはHWの障害、「Network Ping Loss」はネットワークカードまたはGbicの問題、「Load Avg」の上昇はCPU点検の必要、「Fatal Error」の発生は「PCI Card」または「Riser Card」の問題、「PXEインストール中の停止またはパフォーマンスの低下」はネットワークカードまたはGbicの問題、「Blue Screenの発生(0x00004f)」はマザーボード/バイオス/ディスク/メモリの障害、「Blue Screen」はマザーボード/バイオス/ディスクの障害、「OS Booting」の失敗はマザーボード/バイオス/ディスクの障害、「プロセスDownおよびOSのインストール中のパニック」はマザーボード/バイオス/ディスクの障害、「サーバからの臭い」はファン/マザーボード/PSUの問題、「NAS接続不可措置」はネットワーク/OS設定の問題、「KVM接続不可」はマザーボード/KVMケーブル/KVMの問題、「DiskAmberLED」はディスクの障害、「Postブーテイング時のDelay」はマザーボード/ファン/PCI/メモリの問題、「電源供給不良措置」はPSUの障害、「Teaming性能低下」はネットワーク/OS設定の問題、「VD Bad Block」はディスクの障害、「HBALoop」はHBAの障害、「Raid構成情報が見えない」のはファームウェア/ディスクドライバーの問題、「Volume認識不可」はファームウェア/ディスクドライバーの問題、「Kernel Panic」はOS/Appの問題、「最大性能使用時のサーバリブート(reboot)」はCPU/PSU/マザーボード/メモリの問題、「サーバ処理速度が著しく遅くなる」のはCPU/PSU/マザーボード/メモリ/ディスクの問題、「サーバ電源が入らない」はPSUの障害、が原因で対応する。
【0137】
以上、本発明をいくつかの望ましい実施例を用いて説明したが、これらの実施例は例示的なものであり、限定的なものではない。本発明が属する技術分野で通常の知識を持つ者なら、本発明の思想と添付された特許請求範囲に提示された権利範囲から抜け出せずに多様な変化と修正を加えることができることを理解することができる。
【符号の説明】
【0138】
110 管理サーバ
120 管理者端末
130 顧客端末
10、20、30、40 管理対象サーバ
【手続補正書】
【提出日】2023-10-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチベンダーを支援するサーバ管理システムにおいて、
前記サーバ管理システムを管理する管理者が使用する管理者端末と、
管理対象サーバを依頼した各顧客が使用する顧客端末と、
前記管理対象サーバからデータを収集し、各管理対象サーバの現況を把握して管理し、これに関連した管理サービス統計データと管理サービスレポートを含む各種サーバ管理情報を前記管理者端末と前記顧客端末に提供する管理サーバと、を含み、
前記管理サーバは、複数の管理対象サーバからマルチベンダハードウェア情報を収集して保存し、保存した情報を照会して利用できるように、前記管理者端末および前記顧客端末に提供し、
前記管理サーバは、管理対象サーバのBBU(Backup Battery Unit)周期を点検し、あらかじめ決められた周期になると、この内容を該当管理対象サーバの顧客端末に伝送し、
前記管理サーバは、管理対象サーバのBBU充電容量を点検し、バッテリーの充電効率があらかじめ定められた数値の以下に減少すると、この内容を該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、管理対象サーバのBBU残り容量を点検し、バッテリーの残り容量が予め定められた数値以下である場合、この内容を該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、管理対象サーバのBBU書き込みポリシー(Write Policy)を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、管理対象サーバのログ(log)確認を通じて、バッテリー完全充電(Full Charging)効率(%)を確認し、完全充電効率が予め定められた数値未満の装備に対するバッテリーの交換を知らせるメッセージを該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、各管理対象サーバからマルチベンダハードウェアインベントリ情報を収集して保存し、緊急ファームウェアのアップデートを含むファームウェアのアップデートイベントがあると、すべての管理対象サーバに対してファームウェアアップデートを行い、ファームウェアアップデート後に変更されたアップデート情報を確認し、各管理対象サーバの安全度、点検対象有無、重要度に応じてグループを設定し、リアルタイムでサーバ情報を確認し、
前記管理サーバは、管理対象サーバのある装備で障害が発生すると、ログおよびパターンを分析し、分析したデータを保存し、障害が解決されると、該当装備と類似した装備を分類し、分類された類似装備に対して障害事前対応処理を実施し、
前記管理サーバは、「Redfish API」を利用して各管理対象サーバのハードウェア詳細仕様、OS(Operating system)の情報、ファームウェアの情報及びドライバーの情報を含む運用中のx86サーバに対する情報を収集することができ、x86サーバの標準化管理を行い、
前記管理サーバは、管理対象サーバでハードウェア関連の問題が発生すると、分類表を参照して障害発生可能性が高い類似装備を危険装備に分類し、分類された危険装備に対する警告メッセージを発送し、事前障害対応措置を行い、
この時、前記分類表は、システム装備の具体的な類似判断基準を含み、同じクラスの装備の分類、同一CPU装備の分類、同一メモリ装備の分類、同一NIC装備の分類、同一ディスク装備の分類、同一HBA装備の分類、同一BIOS装備の分類、同一ドライバーバージョン装備の分類、同一OS装備の分類、同一ファームウェアバージョン装備の分類を含み、
前記管理サーバは、管理対象サーバで ハードウェア関連の問題が発生すると、 障害症状を把握し、 障害症状ごとの症状コードに対応する障害原因を含むリストを参照し、障害症状に応じた症状コードを確認し、症状コードに対応する原因を確認し、それに応じて対応策レポートを送信し、障害原因に対応する障害対応措置を行い、障害症状に対応する症状コードがない場合は、新たな症状コードを生成して前記リストに追加し、
このとき、前記リストにおいて、「RAC1198」はiDracファームウェアの問題、「コネクタブルメモリ障害」はメモリの問題及びバイオスファームウェアの問題、「LinkFailureの発生」はNIC障害及びファームウェアの問題、「LinkFailureCountの多数発生」はNICドライバー及びファームウェアの問題、「NIC Link is Down」はNICドライバー及びファームウェアの問題、「Linkの状態及びサーバの点検要請」はNICドライバー及びファームウェアの問題、「HOST_DOWNの発生」はNICドライバー及びファームウェアの問題、「サーバ前面の黄色点灯の発生」はiDracファームウェアの問題、「SWC5008:criticalメッセージの出力」はiDracファームウェアの問題、「NO_PARTITIONアラームの発生」はディスクの障害、「Reset adapte」はBIOSファームウェアの問題、「Correctable memory error」はメモリの問題およびBIOSファームウェアの問題、「CPUの性能低下」はBIOSファームウェアの問題、「MemoryおよびSlotが表示されない」はメモリの問題およびBIOSファームウェアの問題、「Disk fault error」はディスクの障害、「disk predicted fail」は「ディスクのBadBlock」による障害、「周期的なFAN6の認識問題」はFan6の障害、「光量400以下によるFault」はGbicの障害、「NIC GBIC 通信不可」はGbicの障害、「システムの無限リブート」はBIOSファームウェアの問題、「LCDパネルでの特定のメッセージ出力」はiDracファームウェアの問題、「iDRACで繰り返しエラーメッセージの発生」はiDracファームウェアの問題、「vCenterエージェントと同期化エラー」はEXSiバージョンとOSバージョンの問題、「サーバReboot現象」はBIOSファームウェアの問題、「HBA Writeの速度低下」はHBAファームウェアとドライバーの問題、「HBA Readの速度低下」はHBAファームウェアとドライバーの問題、「HBA Link Down」はHBA Gbic及びカードの問題、「HBA二重化の節体障害」は「HBA Gbic」及びカードの問題、「Riser1の認識不良」は「Riser Card」の問題、「Riser2の認識不良」は「Riser Card」の問題、「ネットワーク二重化の障害」はネットワークカードの問題、「PSU Alertの黄色LEDの点灯」はPSUの障害、「低電圧による異常発生」はPSUの障害、「PXEブート不可」はBIOS設定およびNICファームウェア/ドライバーの問題、「POSTブート不可」はマザーボードの障害、「LifeCycle接続不可」はマザーボードの障害、「iDRAC Hangの症状」はiDracファームウェアの問題、「iDRACネットワークの切断」はマザーボードの障害とiDracのファームウェアの問題、「iDRAC SNMPサービスの障害の発生」はiDracのファームウェアの問題、「サーバの使用中に突然サーバが切れる症状」はマザーボードの問題、「Medium Erorの発生」はディスクの障害、「ERROR Event」の確認要請はエラーイベントによる問題、「CMC接続不可」はCMCファームウェアの問題、「DSET分析要求」は分析による障害、「TSR Log」分析要求は分析による障害、「NFSサービスの起動失敗」はNFS設定とOS設定の点検、「vCenter接続不可」はEXSiのバージョンとOSバージョンの問題、「NIC Reset」は「Network Card」の問題、「GPU認識不可」は「GPU Card」の障害、「OS Crash」の発生は「OS Dump」の分析、「Network error/dropped packets」の発生はネットワークカードの問題、「CRCエラーの発生」はネットワークカードの問題、「サーバ―スイッチの切れた現象」はネットワークカードの問題、「Network(Bonding)に通信が円滑でない問題」はネットワークカードの問題、「メモリ交換後の同一スロットイベントの発生」はメモリの障害またはマザーボードの障害、「「Disk Read Only」状態でアクセス不可」はディスクの障害またはRAID構成の問題、「スイッチの1ヶ月に3~4回の「Hang」症状」はマザーボードまたはOSバージョンの問題、「「LACP Network Speed」の問題が発生する」のはネットワークカードの問題、「クラスタフェイルオーバーの発生」はクラスタ設定の問題、またはHWの障害、「RTSP同期化の失敗」はOS設定またはネットワークの障害、「セッション低下現象の発生」はネットワークカードまたはGbicの問題、「不明な電源遮断」はPSU障害、サーバが遅い及び「Hang」現象はアプリケーションまたはHWの障害、「Network Ping Loss」はネットワークカードまたはGbicの問題、「Load Avg」の上昇はCPU点検の必要、「Fatal Error」の発生は「PCI Card」または「Riser Card」の問題、「PXEインストール中の停止またはパフォーマンスの低下」はネットワークカードまたはGbicの問題、「Blue Screenの発生(0x00004f)」はマザーボード/バイオス/ディスク/メモリの障害、「Blue Screen」はマザーボード/バイオス/ディスクの障害、「OS Booting」の失敗はマザーボード/バイオス/ディスクの障害、「プロセスDownおよびOSのインストール中のパニック」はマザーボード/バイオス/ディスクの障害、「サーバからの臭い」はファン/マザーボード/PSUの問題、「NAS接続不可措置」はネットワーク/OS設定の問題、「KVM接続不可」はマザーボード/KVMケーブル/KVMの問題、「DiskAmberLED」はディスクの障害、「Postブーテイング時のDelay」はマザーボード/ファン/PCI/メモリの問題、「電源供給不良措置」はPSUの障害、「Teaming性能低下」はネットワーク/OS設定の問題、「VD Bad Block」はディスクの障害、「HBALoop」はHBAの障害、「Raid構成情報が見えない」のはファームウェア/ディスクドライバーの問題、「Volume認識不可」はファームウェア/ディスクドライバーの問題、「Kernel Panic」はOS/Appの問題、「最大性能使用時のサーバリブート(reboot)」はCPU/PSU/マザーボード/メモリの問題、「サーバ処理速度が著しく遅くなる」のはCPU/PSU/マザーボード/メモリ/ディスクの問題、「サーバ電源が入らない」はPSUの障害、が原因で対応する、ことを特徴とするサーバ管理システム。
【手続補正書】
【提出日】2023-10-20
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0116
【補正方法】変更
【補正の内容】
【0116】
図7の画面例では、管理対象サーバの問題が確認される時に、分かりやすく各パート別に赤色
で表示され、正常なパートは緑色
で表示される。
【手続補正2】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正書】
【提出日】2024-01-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチベンダーを支援するサーバ管理システムにおいて、
前記サーバ管理システムを管理する管理者が使用する管理者端末と、
管理対象サーバを依頼した各顧客が使用する顧客端末と、
前記管理対象サーバからデータを収集し、各管理対象サーバの現況を把握して管理し、これに関連した管理サービス統計データと管理サービスレポートを含む各種サーバ管理情報を前記管理者端末と前記顧客端末に提供する管理サーバと、を含み、
前記管理サーバは、複数の管理対象サーバからマルチベンダハードウェア情報を収集して保存し、保存した情報を照会して利用できるように、前記管理者端末および前記顧客端末に提供し、
前記管理サーバは、管理対象サーバのBBU(Backup Battery Unit)周期を点検し、あらかじめ決められた周期になると、この内容を該当管理対象サーバの顧客端末に伝送し、
前記管理サーバは、管理対象サーバのBBU充電容量を点検し、バッテリーの充電効率があらかじめ定められた数値の以下に減少すると、この内容を該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、管理対象サーバのBBU残り容量を点検し、バッテリーの残り容量が予め定められた数値以下である場合、この内容を該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、管理対象サーバのBBU書き込みポリシー(Write Policy)を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、管理対象サーバのログ(log)確認を通じて、バッテリー完全充電(Full Charging)効率(%)を確認し、完全充電効率が予め定められた数値未満の装備に対するバッテリーの交換を知らせるメッセージを該当管理対象サーバの顧客端末に知らせ、
前記管理サーバは、各管理対象サーバからマルチベンダハードウェアインベントリ情報を収集して保存し、緊急ファームウェアのアップデートを含むファームウェアのアップデートイベントがあると、すべての管理対象サーバに対してファームウェアアップデートを行い、ファームウェアアップデート後に変更されたアップデート情報を確認し、各管理対象サーバの安全度、点検対象有無、重要度に応じてグループを設定し、リアルタイムでサーバ情報を確認し、
前記管理サーバは、管理対象サーバのある装備で障害が発生すると、ログおよびパターンを分析し、分析したデータを保存し、障害が解決されると、該当装備と類似した装備を分類し、分類された類似装備に対して障害事前対応処理を実施し、
前記管理サーバは、ハードウェア共通標準であるRESTful APIを利用して各管理対象サーバのハードウェア詳細仕様、OS(Operating system)の情報、ファームウェアの情報及びドライバーの情報を含む運用中のx86サーバに対する情報を収集することができ、x86サーバの標準化管理を行い、
前記管理サーバは、管理対象サーバでハードウェア関連の問題が発生すると、分類表を参照して障害発生可能性が高い類似装備を危険装備に分類し、分類された危険装備に対する警告メッセージを発送し、事前障害対応措置を行い、
この時、前記分類表は、システム装備の具体的な類似判断基準を含み、同じクラスの装備の分類、同一CPU装備の分類、同一メモリ装備の分類、同一NIC装備の分類、同一ディスク装備の分類、同一HBA装備の分類、同一BIOS装備の分類、同一ドライバーバージョン装備の分類、同一OS装備の分類、同一ファームウェアバージョン装備の分類を含み、
前記管理サーバは、管理対象サーバで ハードウェア関連の問題が発生すると、 障害症状を把握し、 障害症状ごとの症状コードに対応する障害原因を含むリストを参照し、障害症状に応じた症状コードを確認し、症状コードに対応する原因を確認し、それに応じて対応策レポートを送信し、障害原因に対応する障害対応措置を行い、障害症状に対応する症状コードがない場合は、新たな症状コードを生成して前記リストに追加し、
このとき、前記リストにおいて、「RAC1198」はiDracファームウェアの問題、「コネクタブルメモリ障害」はメモリの問題及びバイオスファームウェアの問題、「LinkFailureの発生」はNIC障害及びファームウェアの問題、「LinkFailureCountの多数発生」はNICドライバー及びファームウェアの問題、「NIC Link is Down」はNICドライバー及びファームウェアの問題、「Linkの状態及びサーバの点検要請」はNICドライバー及びファームウェアの問題、「HOST_DOWNの発生」はNICドライバー及びファームウェアの問題、「サーバ前面の黄色点灯の発生」はiDracファームウェアの問題、「SWC5008:criticalメッセージの出力」はiDracファームウェアの問題、「NO_PARTITIONアラームの発生」はディスクの障害、「Reset adapte」はBIOSファームウェアの問題、「Correctable memory error」はメモリの問題およびBIOSファームウェアの問題、「CPUの性能低下」はBIOSファームウェアの問題、「MemoryおよびSlotが表示されない」はメモリの問題およびBIOSファームウェアの問題、「Disk fault error」はディスクの障害、「disk predicted fail」は「ディスクのBadBlock」による障害、「周期的なFAN6の認識問題」はFan6の障害、「光量400以下によるFault」はGbicの障害、「NIC GBIC 通信不可」はGbicの障害、「システムの無限リブート」はBIOSファームウェアの問題、「LCDパネルでの特定のメッセージ出力」はiDracファームウェアの問題、「iDRACで繰り返しエラーメッセージの発生」はiDracファームウェアの問題、「サーバReboot現象」はBIOSファームウェアの問題、「HBA Writeの速度低下」はHBAファームウェアとドライバーの問題、「HBA Readの速度低下」はHBAファームウェアとドライバーの問題、「HBA Link Down」はHBA Gbic及びカードの問題、「HBA二重化の節体障害」は「HBA Gbic」及びカードの問題、「Riser1の認識不良」は「Riser Card」の問題、「Riser2の認識不良」は「Riser Card」の問題、「ネットワーク二重化の障害」はネットワークカードの問題、「PSU Alertの黄色LEDの点灯」はPSUの障害、「低電圧による異常発生」はPSUの障害、「PXEブート不可」はBIOS設定およびNICファームウェア/ドライバーの問題、「POSTブート不可」はマザーボードの障害、「LifeCycle接続不可」はマザーボードの障害、「iDRAC Hangの症状」はiDracファームウェアの問題、「iDRACネットワークの切断」はマザーボードの障害とiDracのファームウェアの問題、「iDRAC SNMPサービスの障害の発生」はiDracのファームウェアの問題、「サーバの使用中に突然サーバが切れる症状」はマザーボードの問題、「Medium Erorの発生」はディスクの障害、「ERROR Event」の確認要請はエラーイベントによる問題、「CMC接続不可」はCMCファームウェアの問題、「DSET分析要求」は分析による障害、「TSR Log」分析要求は分析による障害、「NFSサービスの起動失敗」はNFS設定とOS設定の点検、「NIC Reset」は「Network Card」の問題、「GPU認識不可」は「GPU Card」の障害、「OS Crash」の発生は「OS Dump」の分析、「Network error/dropped packets」の発生はネットワークカードの問題、「CRCエラーの発生」はネットワークカードの問題、「サーバ―スイッチの切れた現象」はネットワークカードの問題、「Network(Bonding)に通信が円滑でない問題」はネットワークカードの問題、「メモリ交換後の同一スロットイベントの発生」はメモリの障害またはマザーボードの障害、「「Disk Read Only」状態でアクセス不可」はディスクの障害またはRAID構成の問題、「スイッチの1ヶ月に3~4回の「Hang」症状」はマザーボードまたはOSバージョンの問題、「「LACP Network Speed」の問題が発生する」のはネットワークカードの問題、「クラスタフェイルオーバーの発生」はクラスタ設定の問題、またはHWの障害、「RTSP同期化の失敗」はOS設定またはネットワークの障害、「セッション低下現象の発生」はネットワークカードまたはGbicの問題、「不明な電源遮断」はPSU障害、サーバが遅い及び「Hang」現象はアプリケーションまたはHWの障害、「Network Ping Loss」はネットワークカードまたはGbicの問題、「Load Avg」の上昇はCPU点検の必要、「Fatal Error」の発生は「PCI Card」または「Riser Card」の問題、「PXEインストール中の停止またはパフォーマンスの低下」はネットワークカードまたはGbicの問題、「Blue Screenの発生(0x00004f)」はマザーボード/バイオス/ディスク/メモリの障害、「Blue Screen」はマザーボード/バイオス/ディスクの障害、「OS Booting」の失敗はマザーボード/バイオス/ディスクの障害、「プロセスDownおよびOSのインストール中のパニック」はマザーボード/バイオス/ディスクの障害、「サーバからの臭い」はファン/マザーボード/PSUの問題、「NAS接続不可措置」はネットワーク/OS設定の問題、「KVM接続不可」はマザーボード/KVMケーブル/KVMの問題、「DiskAmberLED」はディスクの障害、「Postブーテイング時のDelay」はマザーボード/ファン/PCI/メモリの問題、「電源供給不良措置」はPSUの障害、「Teaming性能低下」はネットワーク/OS設定の問題、「VD Bad Block」はディスクの障害、「HBALoop」はHBAの障害、「Raid構成情報が見えない」のはファームウェア/ディスクドライバーの問題、「Volume認識不可」はファームウェア/ディスクドライバーの問題、「Kernel Panic」はOS/Appの問題、「最大性能使用時のサーバリブート(reboot)」はCPU/PSU/マザーボード/メモリの問題、「サーバ処理速度が著しく遅くなる」のはCPU/PSU/マザーボード/メモリ/ディスクの問題、「サーバ電源が入らない」はPSUの障害、が原因で対応する、ことを特徴とするサーバ管理システム。