(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024156646
(43)【公開日】2024-11-06
(54)【発明の名称】AIを利用したサーバー管理システム
(51)【国際特許分類】
G06F 11/34 20060101AFI20241029BHJP
G06F 11/30 20060101ALI20241029BHJP
【FI】
G06F11/34 176
G06F11/30 140
【審査請求】有
【請求項の数】11
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024070593
(22)【出願日】2024-04-24
(31)【優先権主張番号】10-2023-0053119
(32)【優先日】2023-04-24
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】523374161
【氏名又は名称】ジニエイアイ カンパニー リミテッド
【氏名又は名称原語表記】GeniAI CO., LTD
【住所又は居所原語表記】5th fl, 316, Yeongdong-daero, Gangnam-gu, Seoul, Republic of Korea
(74)【代理人】
【識別番号】100121382
【弁理士】
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】ユ,セ クウォン
【テーマコード(参考)】
5B042
【Fターム(参考)】
5B042JJ06
5B042JJ08
5B042JJ17
5B042KK08
5B042KK13
5B042KK14
5B042KK15
5B042KK17
5B042KK20
5B042MA08
5B042MA14
5B042MC15
(57)【要約】
【課題】サーバーで発生する可能性のある障害を予め防止し、サーバー障害による被害を低減する。
【解決手段】2以上の管理対象サーバーを管理するサーバー管理システムは、管理対象サーバー関連データを格納するためのデータベースおよび管理対象サーバーからハードウェア関連データおよびソフトウェア関連データを収集し、各管理対象サーバーの状況 を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバー管理情報を管理者が使用する管理者端末と管理対象サーバーを依頼した顧客端末に提供する管理サーバーを含み、サーバーは、AI技術を用いて、管理対象サーバーを分析し、これにより、管理対象サーバーの状態及び障害を予測し、予測を通じて問題が発生した場合、当該管理者端末及び顧客端末へのテキストメッセージ及び電子メールでアラームメッセージを伝達する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
2以上の管理対象サーバーを管理するサーバー管理システムにおいて、
前記管理対象サーバー関連データを格納するためのデータベースと、
前記管理対象サーバーからハードウェア関連データ及びソフトウェア関連データを収集し、各管理対象サーバーの現状を把握して管理し、これに関連する管理サービス統計データ及び管理サービスレポートを含む各種サーバー管理情報を、管理者が使用する管理端末と管理対象サーバーを依頼した顧客端末に提供する管理サーバーと、を含み、
前記管理サーバーは、AI技術を用いて、前記管理対象サーバーを解析して前記管理対象サーバーの状態及び障害を予測し、予測を通じて問題が発生した場合、当該管理者端末及び顧客端末への文字メッセージおよび電子メールでアラームメッセージを伝達する、
サーバー管理システム。
【請求項2】
請求項1に記載のサーバー管理システムにおいて、
前記管理サーバーは、各管理対象サーバーから整形ログデータ及び非定型ログデータを収集し、収集したデータを分類し、データ前処理を実行し、その後AI学習データモデルを通じて学習を実行して管理対象サーバーの状態および障害を予測する、サーバー管理システム。
【請求項3】
請求項2に記載のサーバー管理システムにおいて、
前記管理サーバーは、Redfish APIを使用してAI分析機能を提供し、各管理対象サーバーで正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要なリスクの優先順位を設定して問題を分析してサポートするAI分析機能を提供する、サーバー管理システム。
【請求項4】
請求項1に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーのBBU(Backup Battery Unit)周期を確認し、予め定められた周期になるとこの内容を該当管理対象サーバーの顧客端末に転送し、
前記管理サーバーは、
管理対象サーバーのBBU充電容量を点検し、バッテリーの充電効率が予め定められた数値以下に減少すると、この内容を該当管理対象サーバーの顧客端末に通知し、
管理対象サーバーのBBU残容量を点検し、バッテリーの残量が予め定められた数値以下である場合、この内容を該当管理対象サーバーの顧客端末に通知し、
管理対象サーバーのBBU書き込みポリシー(Write Policy)を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバーの顧客端末に通知し、 管理対象サーバーのログ(log)確認を通じて、バッテリーフル充電(Full Charging)効率(%)を確認し、完全充電効率が予め定められた数値未満の機器に対するバッテリー交替を通知するメッセージを該当管理対象サーバーの顧客端末に通知する、サーバー管理システム。
【請求項5】
請求項1に記載のサーバー管理システムにおいて、
前記管理サーバーは、登録された複数の管理対象サーバーからマルチベンダハードウェアインベントリ情報を収集して記憶する、サーバー管理システム。
【請求項6】
請求項5に記載のサーバー管理システムにおいて、
前記管理サーバーは、緊急ファームウェアアップデートを含むファームウェアアップデートイベントがある場合、全ての管理対象サーバーに対してファームウェアアップデートを進める、サーバー管理システム。
【請求項7】
請求項1に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーのいずれかの機器で障害が発生した場合にログとパターンを分析し、分析したデータを格納し、障害が解決されると、該当機器と同様の機器を分類し、分類された類似装置に対して障害を事前に対応処理を実行する、サーバー管理システム。
【請求項8】
請求項1に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーでハードウェア関連の問題が発生した場合、分類表を参照して、障害発生の可能性が高い類似機器を危険機器に分類し、分類された危険機器に関する警告メッセージを発送し、障害事前に対応措置を実行する、サーバー管理システム。
【請求項9】
請求項8に記載のサーバー管理システムにおいて、
前記分類表は、システム機器の具体的な類似判断基準を含み、同じクラス機器の分類、同じCPU機器の分類、同じメモリー機器の分類、同じNIC機器の分類、同じDisk機器の分類、同じHBA機器の分類、同じBIOS機器の分類、同じDriverバージョン機器の分類、同じOS機器の分類、同じFirmwareバージョン機器の分類を含む、サーバー管理システム。
【請求項10】
請求項9に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーでハードウェア関連の問題が発生すると、障害症状を把握し、障害症状別症状コードに対応する障害原因を含むリストを参照して、障害症状に応じた症状コードを確認し、症状コードに対応する原因を確認し、それに応じて対応策レポートを発送し、障害原因に対応する障害対応措置を実行し、障害症状に対応する症状コードがない場合は新たな症状コードを生成し、前記のリストに追加する、サーバー管理システム。
【請求項11】
請求項10に記載のサーバー管理システムにおいて、
前記のリストは、
RAC1198は、iDracファームウェアの問題、
コネクタブルメモリー障害は、メモリーの問題とバイオスファームウェアの問題、
Link Failure発生は、NIC障害とファームウェアの問題、
Link Failure Count多数の発生は、NICドライバーおよびファームウェアの問題、
NIC Link is Downは、NIC ドライバーとファームウェアの問題、
Linkステータスおよびサーバー点検要請は、NICドライバーおよびファームウェアの問題、
HOST_DOWN発生は、NICドライバーおよびファームウェアの問題、
サーバー前面黄色点灯発生は、iDracファームウェアの問題、
SWC5008:criticalメッセージ出力は、iDracファームウェアの問題、
NO_PARTITIONアラーム発生は、ディスク障害、
Reset adapteは、BIOSのファームウェアの問題、
Correctable memory errorは、メモリーの問題とBIOSのファームウェアの問題、
CPUの性能低下は、BIOSのファームウェアの問題、
MemoryおよびSlotが表示されないことは、メモリーの問題とBIOSファームウェアの問題、
Disk fault errorは、ディスク障害、
Disk predicted failは、ディスクBadBlockによる障害、
定期的なFAN 6認識問題は、FAN 6の障害、
光量400以下によるFaultは、Gbic障害、
NIC DBIC通信不可は、Gbic障害、
System無限リブートは、BIOSファームウェアの問題、
LCD Panel特定メッセージ出力は、iDracファームウェアの問題、
iDRACで繰り返しエラーメッセージが発生するのは、iDracファームウェアの問題、
vCenterエージェントと同期エラーは、EXSiバージョン、OSバージョンの問題、
サーバーリブート現象は、バイオスファームウェアの問題、
HBA Write速度低下は、HBAファームウェアとドライバーの問題、
HBA Read速度低下は、HBAファームウェアとドライバーの問題、
HBAリンクダウンは、HBA Gbicとカードの問題、
HBA二重化冗長転送障害は、HBA GbicとCardの問題、
Riser1認識不良は、Riser Cardの問題、
Riser2認識不良は、Riser Cardの問題、
ネットワーク二重化障害は、Network Cardの問題、
PSU Alert黄色LED点灯は、PSU障害、
低電圧による異常発生は、PSU障害、PXEブート不可バイオス設定、NICファームウェア/ドライバーの問題、POSTブート不可マザーボード障害、LifeCycle接続不可マザーボード障害、
iDRAC Hang症状は、iDracファームウェアの問題、
iDRAC Networkの切断は、マザーボード障害、iDracファームウェアの問題、
iDRAC SNMPサービス障害発生は、iDracファームウェアの問題、
サーバー使用中に突然サーバーがオフする症状は、マザーボードの問題、
Medium Error発生は、ディスク障害、
ERROR Event確認要請は、Error Eventによる問題、CMC接続不可CMCファームウェアの問題、
DSET分析要請は、分析による障害、
TSR Log分析要請は、分析による障害、
NFSサービスの起動失敗は、NFS設定とOS設定の確認、vCenterに接続できないEXSiバージョンとOSバージョンの問題、
NIC Resetは、ネットワークカードの問題、
GPU認識不可は、GPUカードの障害、
OS Crash発生は、OS Dump分析、
Network error/dropped packets発生は、Network Cardの問題、
CRCエラー発生は、Network Cardの問題、
サーバースイッチが切れる現象は、Networkカードの問題、
ネットワーク(Bonding)への通信がスムーズにならない問題は、ネットワークカードの問題、
メモリー交替後の同じスロットイベントの発生は、メモリー障害またはマザーボード障害、ディスク読み取り専用状態でアクセスできないディスク障害、またはRAID構成の問題、
スイッチが月に3~4回Hangする症状は、マザーボードまたはOSバージョンの問題、
LACP Network Speed問題が発生するのは、Network Cardの問題、
クラスタフェイルオーバー発生は、クラスタ設定の問題またはHW障害、RTSP同期失敗OSの設定やネットワークの障害、
セッションの低下現象の発生は、ネットワークカードまたはGbicの問題、
不明な電源遮断は、PSUの障害、
サーバーの遅れおよびハング現象は、アプリケーションまたはHWの障害、
ネットワークのpingロスは、ネットワークカードまたはGbicの問題、
LoadAvgの上昇は、CPU点検が必要、
Fatal Error発生は、PCI CardまたはRiser Cardの問題、
PXEインストール中の停止またはパフォーマンス低下は、Network CardまたはGbicの問題、
Blue Screen発生(0x00004f)は、マザーボード/BIOS/ディスク/メモリー障害、
Blue Screenは、マザーボード/BIOS/ディスク障害、
OS Booting障害は、マザーボード/BIOS/ディスク障害、
プロセスDownおよびOSインストール中のパニックは、マザーボード/BIOS/ディスク障害、
サーバーからの臭いは、ファン/マザーボード/PSUの問題、
NAS接続不可対策は、ネットワーク/OS設定の問題、KVM接続不可マザーボード/KVMケーブル/KVMの問題、
Disk Amber LEDは、ディスク障害、
Postブート時のDelayは、マザーボード/ファン/PCI/メモリーの問題、
電源不良対策は、PSU障害、
Teming性能の低下は、ネットワーク/OS設定の問題、
VD Bad Blockは、ディスク障害、
HBAループは、HBA障害、Raid構成情報が見えないというファームウェア/ディスクドライバーの問題 、Volume認識不可能なファームウェア/ディスクドライバーの問題、
Kernel Panicは、OS/Appの問題、最大性能使用時にサーバーリブートはCPU/PSU/マザーボード/メモリーの問題、サーバー処理が著しく遅くなるCPU/PSU/マザーボード/メモリー/ディスクの問題、
サーバーの電源が入らないのは、PSU障害が原因で対応されることを含む、
サーバー管理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のサーバーを管理する技術に関し、より詳細には、AI(Artificial Intelligence)技術を用いて複数のサーバーを管理する技術に関する。
【背景技術】
【0002】
最近、サーバー、ストレージ、ネットワークなどのIT(Information Technology)環境が複雑になり、作業時間が不足する現象が発生している。このようにコンピュータシステムが大容量化、高速化されるにつれて、システムのエラーやウイルスなどによるコンピュータ障害が頻繁に発生している。
【0003】
特に大容量のサーバーでは、さまざまなアプリケーションプログラムの動作やデータの格納、読み取り、転送など、さまざまな要因による障害が頻繁に発生する。したがって、各企業では、これらのサーバーを管理する別々のサーバー管理者を常駐させてサーバーを管理し、障害発生時にこれを処理するようにしている。
【0004】
ところで、サーバー管理には専門的な技術が必要であり、そのような専門職員を採用するにはかなりの費用がかかる。したがって、特に小規模の企業などでは、該当するサーバー管理者として専門技術者を採用するのではなく、社内既存の人材の中から適切な人を選択し、サーバー管理者として置いている実情である。
【0005】
そのような場合には、サーバー管理がスムーズに行われにくく、しかもサーバー障害発生時にスムーズに対処することはほとんど不可能である。また、サーバー管理のために専門技術を有するサーバー管理者を採用した場合でも、サーバー管理者が出張等の理由でサーバーから遠隔地にいる場合には、サーバーの障害発生時にこれらのサーバーの状況が管理者に迅速に通知されることが難しく、サーバー 障害発生時にスムーズに対処するのが難しかったし、サーバー管理者が当該サーバーの障害発生を通知された場合でも、遠隔地にいる関係でこれに対する即時の対処が難しく、結局サーバーがダウンするなど莫大な損失が生じることがある。
【0006】
従来、複数のサーバーを統合して管理するサーバー統合管理システムにおいて、あるサーバーに障害が発生した場合、これを検知し、事後に障害を回復する方式である。しかし、このような従来の事後障害回復方式では、障害が発生したサーバーを復旧する期間中、当該サーバーの動作が中断され、サーバーの使用中断に伴う損失が発生し、復旧に要する人員やコストによる損害が大きいという問題がある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国公開特許10-2015-0124642号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、前記のような問題点を解決するために案出されたものであり、AI(Artificial Intelligence)を用いて、ITリソースをシステム化し、業務を標準化することにより、運営効率性を改善し、運営コストを削減し、セキュリティを強化できるサーバー管理システムを提供することにその目的がある。
【0009】
本発明の目的は、前記の目的に限定されず、言及されていない他の目的は、以下の説明から通常の技術者に明確に理解することができるであろう。
【課題を解決するための手段】
【0010】
このような目的を達成するための本発明は、2以上の管理対象サーバーを管理するサーバー管理システムにおいて、管理対象サーバー関連データを格納するためのデータベースおよび管理対象サーバーからハードウェア関連データおよびソフトウェア関連データを収集し、各管理対象サーバーの現状を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバー管理情報を管理者が使用する管理者端末と管理対象サーバーを依頼した顧客端末に提供する管理サーバーを含み、管理サーバーは、AI技術を用いて管理対象サーバーを分析し、これを介して管理対象サーバーの状態および障害を予測し、予測を通じて問題が発生した場合 顧客端末にテキストメッセージと電子メールでアラームメッセージを伝達する。
【0011】
前記管理サーバーは、各管理対象サーバーから整形ログデータ及び非定型ログデータを収集し、収集したデータを分類し、データ前処理を進行し、その後AI学習データモデルを通じて学習を実行し、これにより、管理対象サーバーの状態と障害を予測することができる。
【0012】
管理サーバーは、Redfish APIを使用してAI分析機能を提供するが、各管理対象サーバーで正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要なリスクの優先順位を設定し、問題を分析し、そして支援するAI分析機能を提供できる。
【発明の効果】
【0013】
本発明によれば、多数の管理対象サーバーに対するAI分析により、先制的にサーバーで発生する障害を予測し、警告し解決策を提供することにより、サーバーで発生しうる障害を予め防止し、サーバー障害 によるダメージを減少させる効果がある。
【0014】
また、本発明によれば、ITリソースをシステム化し、業務を標準化することにより、運営効率性を改善し、運営コストを削減し、セキュリティを強化することができる効果がある。
【0015】
また、本発明によれば、より便利で効率的に多数のサーバーを管理することができる効果がある。
【0016】
また、本発明によれば、サーバー管理を依頼した顧客に障害パターンを分析し、先制的に障害を予め対応付けておき、サーバー管理機能を提供することにより、顧客のニーズに合ったデータを加工し、伝達できる効果がある。
【図面の簡単な説明】
【0017】
【
図1】本発明の一実施形態によるサーバー管理システムの全体構成を概念的に示す図である。
【
図2】本発明の一実施形態によるサーバー管理システムにおける動作過程を概念的に示す図である。
【
図3】本発明の一実施形態によるサーバー管理システムにおいてAI(Artificial Intelligence)分析機能実現方法を示すフローチャートである。
【
図4】本発明の一実施形態によるサーバー管理システムにおけるAI(Artificial Intelligence)分析機能のうち、整形データのAI学習過程を示すフローチャートである。
【
図5】本発明の一実施形態によるサーバー管理システムにおけるAI(Artificial Intelligence)分析機能のうち、非定型データのAI学習過程を示すフローチャートである。
【
図6】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。
【
図7】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。
【
図8】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。
【
図9】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。
【
図10】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。
【
図11】本発明の一実施形態によるサーバー管理システムの構成例を示す図である。
【
図12】本発明の一実施形態によるサーバー管理システムにおけるRedfishイベントによるサーバーモニタリング機能を説明するための例示図である。
【
図13】本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成ジョブ自動化機能を説明するための例示図である。
【
図14】本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成自動化機能を説明するための例示図である。
【
図15】本発明の一実施形態によるサーバー管理システムにおいてマルチベンダを支援してサーバーを管理する方法を例示するフローチャートである。
【
図16】本発明の一実施形態によるサーバー管理システムにおいて障害のログ及びパターンを分析して障害を予防する方法を例示するフローチャートである。
【
図17】本発明の一実施形態によるサーバー管理システムにおいてRedfish APIを利用してマルチベンダを支援する動作モデルを例示したものである。
【
図18】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図19】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図20】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図21】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図22】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図23】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図24】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図25】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図26】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図27】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図28】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図29】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図30】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図31】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
【
図32】本発明の一実施形態によるシステム装備を分類した図である。
【
図33】本発明の一実施形態によるハードウェア症状とその原因を記載した図表である。
【
図34】本発明の一実施形態によるハードウェア症状とその原因を記載した図表である。
【
図35】本発明の一実施形態によるサーバー管理システムにおける障害を事前に対応する方法を表示するフローチャートである。
【
図36】本発明の一実施形態によるサーバー管理システムにおける障害を事前に対応する方法を表示するフローチャートである。
【発明を実施するための形態】
【0018】
本発明は、様々な変更を加えることができ、様々な実施に例を有することができるが、特定の実施に例を図面に例示し、詳細に説明する。しかしながら、これは、本発明を特定の実施形態に限定することを意図するものではなく、本発明の精神および技術的範囲に含まれるすべての変更、等価物から代替物を含むことを理解されたい。
【0019】
本出願で使用される用語は、単に特定の実施において例を説明するために使用されたものであり、本発明を限定することを意図していない。単数の表現は、文脈上明らかに他に意味がない限り、複数の表現を含む。
【0020】
本出願において、「含む」または「有する」などの用語は、本明細書に記載の特徴、数字、ステップ、動作、構成要素、部品、またはそれらの組み合わせが存在することを指定することを意図しており、1つまたは複数の他の特徴それらは、数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものの存在または追加の可能性を予め排除しないことを理解されたい。
【0021】
他に定義されない限り、技術的または科学的用語を含む本明細書で使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般に理解されるのと同じ意味を有する。
【0022】
一般的に使用される事前に定義されているものなどの用語は、関連技術の文脈上の意味と一致する意味を有すると解釈されるべきであり、本出願で明確に定義されていない限り、理想的または過度に形式的な意味として解釈されるべきではない。
【0023】
なお、添付図面を参照して、説明するにあたって、符号にかかわらず同じ構成要素には同じ符号を付し、これに対する重複する説明は省略する。本発明の説明において、関連する公知技術の具体的な説明が本発明の要旨を不必要にぼやけることができると判断される場合、その詳細な説明は省略する。
【0024】
本発明は、2以上の管理対象サーバーを管理するサーバー管理システムにおいて、管理対象サーバー関連データを格納するためのデータベースおよび管理対象サーバーからハードウェア関連データおよびソフトウェア関連データを収集し、各管理対象サーバーの状況を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバー管理情報を管理者が使用する管理者端末と、管理対象サーバーを依頼した顧客端末に提供する管理サーバーとを含み、サーバーは、AI技術を用いて、管理対象サーバーを解析し、これにより、管理対象サーバーの状態や障害を予測し、予測を通じて問題が発生した場合、該当管理者端末および顧客端末へのテキストメッセージおよび電子メールにアラームメッセージを伝達する。
【0025】
前記管理サーバーは、各管理対象サーバーから整形ログデータ及び非定型ログデータを収集し、収集したデータを分類し、データ前処理を進行し、その後AI学習データモデルを通じて学習を実行し、これにより、管理対象サーバーの状態と障害を予測することができる。
【0026】
管理サーバーはRedfish APIを使用してAI分析機能を提供し、各管理対象サーバーで正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要なリスクの優先順位を設定し、問題を分析し、そして支援するAI分析機能を提供できる。
【0027】
図1は、本発明の一実施形態によるサーバー管理システムの全体構成を概念的に示す図であり、
図2は、本発明の一実施形態によるサーバー管理システムにおける動作過程を概念的に示す図である。
【0028】
図1および
図2を参照すると、本発明のサーバー管理システムは、管理サーバー110、データベース112、管理者端末120、顧客端末130を含む。
【0029】
管理者端末120は、サーバー管理システムを管理する管理者が使用する端末である。顧客端末130は、管理対象サーバー10、20、30、40を依頼した各顧客が使用する端末である。本発明の一実施形態では、管理者端末120と顧客端末130とは、デスクトップコンピュータ、ラップトップコンピュータ、タブレットPC、携帯電話、携帯電話、スマートフォンなどの有無線通信が可能な様々な端末形態で実現することができる。本発明の一実施形態では、ユーザー端末は、管理者端末120と顧客端末130とを含む概念である。
【0030】
データベース112は、管理対象サーバー10、20、30、40関連データを格納する。
【0031】
管理サーバー110は、管理対象サーバー10、20、30、40からデータを収集し、各管理対象サーバーの現状を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートとを含む。管理サーバー110は、各種サーバー管理情報を管理者端末120と顧客端末130に提供する。
【0032】
管理サーバー110は、複数の管理対象サーバーからマルチベンダハードウェア情報を収集し、格納し、格納した情報を照会して利用できるように管理者端末120および顧客端末130に提供することができる。
【0033】
管理サーバー110は、登録された複数の管理対象サーバーからマルチベンダハードウェアインベントリ情報を収集して格納することができる。
【0034】
管理サーバー110は、緊急ファームウェアアップデートを含むファームウェアアップデートイベントがあれば、全ての管理対象サーバーに対してファームウェアアップデートを進めることができる。
【0035】
管理サーバー110は、管理対象サーバーのいずれかの装備で障害が発生した場合にログやパターンを分析し、分析したデータを格納し、障害が解決された場合、当該装備と同様の装備を分類し、分類された類似装備に対して障害を事前に対応処理を実行することができる。
【0036】
管理サーバー110は、Redfish APIを利用して、各管理対象サーバーのハードウェア詳細仕様、OS(Operating system)情報、ファームウェア情報及びドライバー情報を含む運営中のx86サーバーに関する情報を収集することができ、x86サーバーの標準化管理を実行できる。
【0037】
管理サーバー110は、管理対象サーバー10、20、30、40の障害パターンを分析し、同様の障害が発生するのを予防する予防分析機能を提供し、予防分析機能を通じて、管理対象サーバー10、20、30、40で予め定められたイベント発生時に、発生したイベントによる障害が発生する可能性があることを警告する予想障害発生メッセージを、該当管理対象サーバーを依頼した顧客端末に先制的に送信することができる。
【0038】
管理サーバー110は、管理対象サーバー10、20、30、40の設置、障害、技術支援履歴を管理する履歴管理機能を提供することができる。
【0039】
管理サーバー110は、管理対象サーバー10、20、30、40の納品履歴を管理する配送管理機能を提供することができる。
【0040】
管理サーバー110は、管理対象サーバーで装備関連イベントが発生すると、予め定められた分類基準に従って危険装備を分類し、当該危険装備に関する警告メッセージを管理者端末120及び該当顧客端末に発送し、該当する危険装備に対して事前に障害対応措置を実行できる。
【0041】
管理サーバー110は、管理対象サーバーで装備関連イベントが発生すると、当該装備の障害症状を把握し、当該障害症状に対応する障害コードに従って原因を分析し、障害対応方案を含むレポートを管理者端末120及び該当顧客端末に発送し、当該装備に対する障害対応措置を実行できる。
【0042】
本発明において、管理サーバー110は、顧客端末130の要請に応じて管理対象サーバーの管理に関するデータを処理し、伝達するデータデリバリーサービス(data delivery service)機能を提供することができる。
【0043】
また、管理サーバー110は、管理対象サーバーのクリティカル障害を分析し、同じ事例を伝播して、サーバー障害を事前に予防することができ、四半期ごとに各サーバーの障害統計を管理者端末120 顧客端末130に提供することができる。
【0044】
本発明において、管理サーバーは、配達したサーバー関連装備に対する履歴を管理することができ、設置/障害/技術支援履歴管理サービスを提供し、パーツ別の問題を管理することができる。
【0045】
本発明は、顧客から依頼された複数の管理対象サーバー10、20、30、40を管理するサーバー管理システムに関する。
【0046】
本発明の一実施形態において管理対象となるサーバーである管理対象サーバーは、様々なサーバーであってもよく、例えば、Dell(登録商標)サーバー10、HP(登録商標)サーバー20、Lenovo(登録商標)サーバー30、x86サーバー40 ある場合もある。
【0047】
管理対象サーバー10、20、30、40と管理サーバー110は、様々な有無線通信方式を介して通信し、例えば、HTTP通信やJSON形式のPOST転送方式で通信することができる。
【0048】
また、管理対象サーバー10、20、30、40は、大規模なコンピュータ環境の様々なx86サーバーで定められたスケジューリングに従ってスクリプトを自動実行できる。
【0049】
管理者は、管理者端末120を介して管理サーバー110に接続し、管理サーバー110に定められたスケジューリングに従ってバッチ(BATCH)プログラムを実行し、既存のデータと比較して変更履歴を管理する。
【0050】
管理サーバー110は、自動的に管理対象サーバー10、20、30、40のハードウェア情報及びソフトウェア情報を収集し、これに基づいて各サーバーの現状を把握し、各サーバーの要請状況に合わせて管理サービスを提供する。
【0051】
図2は、本発明の一実施形態によるサーバー管理システムにおける動作過程を概念的に示す図であり、
図2において管理対象サーバーはiDRAC9バージョンが適用されたDell(登録商標)サーバー10であり、Redfish API(Application Programming Interface) が使用されたプラットフォームを例示した。
【0052】
図2を参照すると、ユーザー端末においてフラスコ(Flask)を用いてゲットモジュール(Get Module)を実行し、Redfish APIを用いて、Dell(登録商標)サーバー10からiDRAC9整形データ及び非整形データを収集し、収集したデータを分類し、データ前処理を実行する。その後、前処理したデータをデータベース112に格納し、データベースにスタックされたデータについてAI学習データモデルを介して学習を実行し、データを再分類し、データロー(row)を生成する。
【0053】
さらに、ユーザー端末でフラスコ(Flask)を用いてページを呼び出し、データ解析モジュールでデータベース112を検索し、解析を進め、データ視覚化を実行し、これをフラスコレスパンスユーザーウェブ(Flask Response User Web)ページに伝達する。
【0054】
図3は、本発明の一実施形態によるサーバー管理システムにおいてAI(Artificial Intelligence)分析機能実現方法を示すフローチャートである。
図3の実施形態は、Redfish APIを用いた実施形態である。
【0055】
図3を参照すると、管理サーバー110は、各管理対象サーバーからログデータを含むデータを収集し(S4010)、収集したデータを分類し(S4020)、分類したデータを前処理する(S4030)。その後、前処理したデータについてAI学習を進める(S4040)。次に、AI分析により、各管理対象サーバーの装備状態を診断し(S4050)、障害を予測する(S4060)。管理対象サーバーで問題が発生すると(S4070)、テキストメッセージや電子メールなどで関連端末にアラームメッセージを伝達する(S4080)。
【0056】
図4は、本発明の一実施形態によるサーバー管理システムにおけるAI(Artificial Intelligence)分析機能のうち、整形データのAI学習過程を示すフローチャートである。
図4の実施形態はRedfish APIを用いた実施形態である。
【0057】
図4を参照すると、管理サーバー110は、管理対象サーバーでログが発生すると(S5010)、障害の有無を判断する(S5020)。障害がなければ、該当ログに対して「異常なし」の学習データを追加する(S5080、S5090)。障害がある場合は、対応する管理対象サーバーと同様の仕様およびモデルのサーバーを検索し(S5030)、該当サーバーのログを抽出する(S5040)。そして、管理対象サーバーのログと抽出したログとを比較する(S5050)。比較の結果、同じパターンであれば該当ログについて「異常あり」の学習データを追加し(S5060、S5070、S5090)、そうでなければ、「異常なし」の学習データを追加する(S5060、S5080、S5090)。
【0058】
図5は、本発明の一実施形態によるサーバー管理システムにおけるAI(Artificial Intelligence)分析機能のうち、非定型データのAI学習過程を示すフローチャートである。
図5の実施形態はRedfish APIを用いた実施形態である。
【0059】
図5を参照すると、管理サーバー110は、管理対象サーバーに対して予め設定された設定周期に従ってデータを収集する(S6010)。例えば、設定周期が10秒に設定されている場合、10秒周期で管理対象サーバーからデータを収集する。
【0060】
その後、管理サーバー110は、収集したデータに対して前処理を行い(S6020)、データベースに格納する(S6030)。次に、管理サーバー110は、AI学習データモデルを用いて非定型データを分析する(S6040)。解析の結果、非定型データの異常がある場合は、当該非定型データに対して「異常あり」の学習データを追加し(S6050、S6060、S6080)、そうでなければ「異常なし」の学習データを追加する(S6050、S6070、S6080)。
【0061】
図6ないし
図10は、本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。
図6はメインダッシュボード画面例である。
【0062】
図6を参照すると、管理サーバー110は、管理対象サーバー10、20、30、40から収集されたリソース情報と、登録された業績件数などに基づいて重要な情報を一つの画面にまとめて表示するメインのダッシュボード画面を提供する。
【0063】
本発明では、特定情報を深く分析し、継続的にモニタリングできるように支援し、ユーザーが頻繁に使用する装備が何であり、ある業務に多くの時間を要しており、管理対象サーバーのコンポーネント別安定化ファームウェア(Firmware)が適用されているか否かなどの様々な情報を、ダッシュボード画面を通じて提供し、ダッシュボード画面を介して、ユーザーが重要管理対象サーバー情報を一目で確認できるように提供することができる。
【0064】
図6の画面例では、サーバー、ストレージ、ネットワーク運営状況情報を表示するが、運営中の総数量と、サーバーメーカー別数量に対するパイチャートを提供する。そして、毎月の業績件数状況情報を提供するが、作業、変更、障害成果件数に関する棒グラフを提供する。
【0065】
また、安定化ファームウェア適用状況情報を表示する際に、BIOS、R/C、NIC、iDRAC、HBAなどの安定化ファームウェア適用装置と未適用装置の割合である安定化適用率に関するチャートを提供する。
【0066】
図7は、リソース管理機能を表示した画面例である。本発明において、管理サーバー110は、サーバー等の装備新規設置、変更リストを自動的に収集し、整理し、信頼性の高いデータをリアルタイムで提供するリソース管理機能を提供する。
【0067】
管理サーバー110は、リソース管理機能において、ユーザー端末から登録された情報を収集し、標準化されたRedfish RESTful APIを介して、あらかじめ定義された周期に従ってデータセンター内のサーバーのリソース情報を自動的に収集することができる。
【0068】
図7の画面例では、装備情報が表示されており、サーバー、ストレージ、ネットワーク、SAN、バックアップ装備、廃棄装備などの装備情報を登録または照会することができる。そして、関連統計情報を提供するために、運営、アイドル、サービス前、廃棄などの装備状態に対するパイチャートを提供し、年度別、ベンダー別運営装備の現状と、最近登録された装備リスト、追加カスタマイズ方式などの さまざまな統計グラフを提供する。
【0069】
図6は、性能管理機能を表示した画面例である。本発明において、管理サーバー110は、予定されたタスク、タスクによって変更された事項などに対する管理、障害発生後の履歴、改善結果を管理するための性能管理機能を提供する。これにより、本発明において障害の原因が明確である場合、同じ障害が発生しないように記録管理し、改善が必要な事項に対して担当者を割り当て、改善結果を確認することができる。
【0070】
また、年度、月別、データセンター位置、運営サービス前、アイドルなどの状態に応じた多様な成果状況統計情報を提供することができる。
【0071】
図8の画面例では、オンラインまたはオフラインのジョブ履歴管理を含むジョブ履歴、障害処理履歴管理人の障害履歴、システム変更履歴管理人の変更履歴などが表示されており、バックアップスケジュール管理、業績状況に関する各種統計グラフが表示されている。
【0072】
図9は、自動化管理機能を表示した画面例である。本発明において、管理サーバー110は、標準化されたRedfish RESTful APIを介して、同期周期(Daily/Weekly/Monthly)設定、自動化収集値(全て/Chassis/MGMT/CPU/NIC/HBA/DISK/GPUなど)設定、スケジュール情報登録などの自動化収集のためのグループ別実行周期管理と、毎日自動点検を通じて、点検必要対象装備に関する通知情報を提供する自動化管理機能を提供する。
【0073】
図9の画面例では、収集同期周期の設定、自動化収集値のカスタマイズ設定、収集スケジュール情報を登録する自動化設定と、日常点検が必要な装備の自動分類、MGMT(Management Repository)接続エラー装備を確認することができる ある日常点検のメニューが表示されている。
【0074】
図9に示すように、管理サーバー110は、日常点検のメニューで装備の状態に応じて色を変えて表示することができる。すなわち、装備に異常がなければ記号1(緑丸)で、管理者の点検が必要な場合である「点検必要」であれば記号2(赤丸)で、肉眼で点検が必要な場合である「目視点検必要」であれば記号3(黄色丸)で、MGMTに接続できない場合の「MGMTアクセス不可」の場合、記号4(灰色丸)で表示することができる。
【0075】
図10は、自動化管理機能を表示した画面例である。本発明において、管理サーバー110は、ITインフラ構成要素であるサーバー、ストレージ、ネットワーク、SAN等のITインフラ環境を効率的に運営及び管理するために必要な構成図のビュー機能である構成図管理機能を提供する。
【0076】
すなわち、管理サーバー110は、ユーザー端末から選択されたリソースであるサーバー、ストレージ、ネットワーク、SAN等の構成に対するビュー(View)を自動的に表示する構成も管理機能を提供し、これにより、性能問題及び障害発生時に、より速い意思決定ができるようにする。
【0077】
図10を参照すると、構成図管理機能においてユーザー端末から選択された装備(サーバー、ストレージ、ネットワーク、SAN等)の構成図のビュー機能を提供し、ホスト名(Hostname)、装備モデル基準検索及び選択機能を提供し、性能問題や障害発生時にインフラ構成をリアルタイムで確認できるようにする。
【0078】
図11は、本発明の一実施形態によるサーバー管理システムの構成例を示す図である。
図11の構成例では、Redfish APIが使用され、管理対象サーバーがMGMTネットワークを介して接続され、管理者端末120Web接続方式で管理対象サーバーに接続することができる。
【0079】
本発明の一実施形態では、サーバー管理システムは、Redfish APIベースのプラットフォームでマルチベンダx86サーバーのハードウェアシステムのインベントリ情報をリアルタイムで収集し、BIOS設定、ファームウェアなどを配布する。これにより、メンテナンス効率の向上と運営コストの削減の効果をもたらすことができる。また、収集されたログ(Log)に基づいて類似装備を把握し、同じ障害を事前に予防できるようにする。
【0080】
図12は、本発明の一実施形態によるサーバー管理システムにおけるRedfishイベントによるサーバーモニタリング機能を説明するための例示図である。
図12を参照すると、本発明における管理サーバー110は、Redfishイベントを介したサーバーモニタリング機能を提供することができる。
【0081】
Redfishイベントは、HTTPSに基づいてサーバーのイベント情報をRedfishクライアントに転送し、管理でアラームが発生するとHTTP POSTに転送され、HTTP GETを介して受信できる。このとき、重要通知メールプッシュ(Push)、状態モニタリング、日常点検の対象サーバーを選別し、必要なデータをロードすることができる。
【0082】
図13は、本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成ジョブ自動化機能を説明するための例示図である。
図13を参照すると、本発明において管理サーバー110は、Redfishを介したサーバー構成作業自動化機能を提供することができる。
【0083】
この機能では、BIOS設定の変更、セキュアブート(Secure Boot)、iDRAC Configurationなどをローカルに配布することができ、アップデートすることができる。また、管理対象サーバーファームウェアインベントリの管理およびアップデートを提供し、サーバー展開時にBIOS標準設定、マネジメント標準設定値を一括適用することで、展開時間を短縮でき、自動化管理機能により、誤設定値が入力されるのを防止できる。また、管理対象サーバーにインストールされたファームウェア情報をあらかじめ設定しておいた周期に応じてアップデートし、緊急ファームウェア配布時に対象装備を自動的に選別し、管理者に電子メールをプッシュする機能を提供する。
【0084】
図14は、本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成自動化機能を説明するための例示図である。本発明では、管理サーバー110は、Redfishを介したサーバー構成自動化機能を提供することができる。
【0085】
サーバーが持つ固有の設定値は、SCP(Server Configuration Profile)のメタデータとして格納されるが、このメタデータは、本発明においてRedfish APIを用いて構成することができる。
【0086】
SCPは、エクスポート(Export)、プレビュー(Preview)、およびインポート(Import)が可能であり、これを利用して、本発明におけるサーバー構成自動化機能により、新たに構築されるサーバーに構成情報を適用することができる。
【0087】
SCPは、HTTPS、NFS、CIFSなどの方法で共有でき、XMLとJSON形式で実現される。サーバー構成時にSSHプロトコルを使用すると、多数のアプリケーションを安定して一貫して配布できる。
【0088】
本発明では、物理サーバー配布のための固有の設定値をメタデータとしてファイル共有サーバーにXML、JSON形式で格納し、マネジメントネットワークに接続された新しく構築されるサーバーに構成情報を自動的に適用することができる。このように、本発明の構成自動化機能により、オペレータは、新しいサーバー構成のために各サーバーに別々の接続を行わなくても迅速に新しいサーバーを構成することができる。
【0089】
本発明の一実施形態では、Redfishを利用したAI(Artificial Intelligence)分析機能を提供する。すなわち、SRC(Server remote control)(iDRAC、iLO、IPMI)により、サーバー、ストレージ装置の整形、非定型ログデータを収集し、データ分類及び前処理進行過程を実行できる。
【0090】
その後、学習データモデルを利用して装備の状態や障害を予測し、重要な問題が発生したときに文字や電子メールなどでユーザー端末にアラームメッセージを伝達する。
【0091】
本発明のAI分析機能により、正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要な危険度の優先順位を設定し、問題を分析して支援することができる。
【0092】
そして、AIを通じて、サーバー運営時に収集されたログを分析して学習し、アルゴリズムを開発し、学習したアルゴリズムを通じて、既存の障害発生と同様のログ情報の確認時に顧客端末130に警報メッセージを伝達する障害解決策を提供する。すなわち、AI分析機能により、事前に障害防止、課題発生、迅速共有、リアルタイム分析などを実行できる。
【0093】
管理サーバー110は、管理対象サーバーのBBU(Backup Battery Unit)周期を確認し、予め定められた周期になると、この内容を該当管理対象サーバーの顧客端末に 転送することができる。
【0094】
管理サーバー110は、管理対象サーバーのBBU(Backup Battery Unit)充電容量を点検し、バッテリーの充電効率が予め定められた数値以下に減少すると、この内容を該当管理対象サーバーの顧客端末に通知することができる。
【0095】
また、管理サーバー110は、管理対象サーバーのBBU充電容量を点検し、バッテリーの充電効率が40%以下に減少すると、この内容を該当管理対象サーバーの顧客端末に通知することができる。
【0096】
例えば、管理サーバー110は、管理対象サーバーのBBU充電容量を点検し、バッテリーの残量が予め定められた数値以下の場合、この内容を該当管理対象サーバーの顧客端末に通知することができる。例えば、管理サーバー110は、管理対象サーバーのBBU残容量を点検し、バッテリーの残量が10%以下の場合、この内容を該当管理対象サーバーの顧客端末に通知することができる。
【0097】
また、管理サーバー110は、管理対象サーバーのBBU書き込みポリシー(Write Policy)を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバーの顧客端末に通知することができる。
【0098】
本発明の多数のサーバーを統合し、管理するサーバー統合管理システムのためのものであり、サーバーの様々な機能を診断し、障害を予め予測し、警告し、解決策を一緒に提示する。
【0099】
本発明では、サーバーの様々な機能のうち、BBU(Backup Battery Unit)を例示して説明する。Dell(登録商標)サーバーを例にとると、RAIDコントローラのバッテリー障害によるキャッシュデータの損失を防ぐために、BBUのバッテリーの状態の点検及び先制的な交換の進行が必要である。
【0100】
このために、Dell(登録商標)サーバーのログ確認により、バッテリーフル充電(Full Charging)効率(%)を確認し、フル充電効率が50%未満の装備を確認し、バッテリー交替を進める。36ヶ月以降のバッテリー充電効率は約70%前後で自然に減少し、これを考慮して、約20%程度の追加的な減少があるバッテリーに対して充電効率不良と判定することができる。
【0101】
本発明のサーバー統合管理システムは、BBU周期点検、充電容量点検、残容量確認、書き込みポリシー(Write Policy)点検を実行し、これによりキャッシュデータの損失を防止し、バッテリー状態の危険因子を事前に防止できる。
【0102】
本発明のサーバー管理システムは、あるイベントが発生したときに、そのイベントを介してサーバーに障害が発生する可能性があることを診断し、予め当該サーバーのシステムに警告し、解決策に関する情報を一緒に伝達する。
【0103】
これに関して、サーバーで発生するイベントは非常に多様であり、以前になかったイベントを新たに発生できる。本発明では、このようなサーバーで発生し得るイベントのうちいくつかのイベントを例示する。
【0104】
1.iDRAC7バージョン1.51.51に適用された製品のDell(登録商標) R720サーバーでファン (FAN) ノイズ (Reading 12,000 RPM 以上)
これに対する解決策は、iDRAC7バージョン1.46.45にダウングレードすることを推奨する。
【0105】
2.ラック PDU#1およびPDU#2の電力使用率がPDU#1に集中
図34を参照すると、Dell(登録商標)サーバーだけでなく、HP(登録商標)サーバーも同様に電源(Power Supply)のデフォルト(Default)としてアクティブスタンバイ(Active Standby)として動作するように設定されており、これにより電力がラック(Rack)PDU の一方に追い込まれる状況が発生するのにバランス(Balance)を合わせるためにはPrimary-PSUの割合を合わせる必要がある。
【0106】
3.Dell(登録商標)サーバー製品の第12世代~第14世代カーネルアップデート(kernel update)後のOSの異常動作
このとき、管理サーバー110は、デル(登録商標)サーバーでカーネルアップデート後、OS(Operating system)上で異常動作が発見された場合、これにより発生し得る予想障害発生メッセージを該当管理対象サーバーに送信し、それに伴って予測障害に対する解決策を該当管理対象サーバーに伝達する。
【0107】
4.TCP/IPポート (Port) 不足によるサービス不可
これは、ウィンドウズ(登録商標)(Windows)2008でアップタイム(Uptime)が497日以降の場合、ネットワーク(Network)TIME_WAITセッション(session)が閉じられずに残っている現象である。これにより、ポートを占有し、それ以上のポートがない場合に問題になる。ウィンドウズ(登録商標)2008サーバーとウィンドウズ(登録商標)2012サーバーが対象となり、アップデートされたパッチを削除することで障害を解決できる。
【0108】
5.ウィンドウズ(登録商標)2003~2022 イベントログの発生
6.メモリーの生産サイクルの診断
これは、特定メモリーの特定生産サイクルが不良であることを確認するもので、障害対象は、第13世代装備(R730、R930、R630)であり、障害OSはウィンドウズ(登録商標)2012 R2サーバー(Server)でKB3064209 hotfixを含むサーバー で、解決策は、対応するhotfixを削除することである。
【0109】
本発明において、管理サーバー110は、管理対象サーバーのメモリー生産周期を診断し、予め定められたメモリー生産周期を不良と判定し、この内容を該当管理対象サーバーに通知する。
【0110】
7.PCIe TypeのSSDを使用している場合、デバイス設定で応答が停止する現象
これに対する解決策は、BIOS 1.1.4 -> 1.2.10にアップデートすることである。
【0111】
8.12G サーバー のBIOS アップデート後、温度 センサーが正常に動作しないため、ビープ音 (Alert_) が発生し続ける問題。
これに対する解決策は、BIOS 2.5.2バージョンを診断し、最新のファームウェアでアップデートすることである。
【0112】
9.パッチアップデート後BSOD発生後ブート(Booting)不可現象
このイベントは、2014年8月のPatch Tuesday update WindowsエラーKB2982791による現象である。障害対象は、windows(登録商標)2008サーバーであり、パッチアップデートを通じて障害を解決することができる。
【0113】
10.ウィンドウズ(登録商標)2012 Active Directorを用いたクライアント(Client)でDNS接続エラーの発生
サーバーからドメインアカウントにログインすると、アカウントとパスワードが正常であっても「ユーザー名またはパスワードが正しくありません」というエラーが発生する。ウィンドウズ(登録商標)サーバー2008 R2/ウィンドウズ(登録商標)7以降、DES-CBC-MD5およびDES-CBC-CRC暗号化を使用せず、AES256-CTS-HMAC-SHA1-96、AES128-CTS-HMAC-SHA1-96、RC4 -HMAC暗号化のみを使用するが、ADサーバーがウィンドウズ(登録商標)サーバー2012 R2で、ドメインメンバー(Domain Member)がウィンドウズ(登録商標)サーバー2008 R2またはウィンドウズ(登録商標)7の場合、コンピューターアカウントのパスワード アップデート時にAESキー生成が失敗する製品上の問題により発生した現象である。
【0114】
11.GNU Bash 4.3 Shellに存在する脆弱性
Bashの脆弱性により、攻撃者は、Webサーバーのコンテンツとコードの変更、Webサイトの改ざん、ユーザーデータの漏洩、およびDDoS攻撃の実行が可能であることが知られている。この他にもSSH、DHCPプロトコルなど多様な環境下でのBashコードインジェクション脆弱性の攻撃シナリオも提起されている状況である。障害の対象は、Red Hat Enterprise Linux(登録商標) 5,6,7サーバーであり、障害解決策は、Bashアップデートである。
【0115】
12.GNU Cライブラリ(glibc)のバッファオーバーフローの脆弱性
ネットワーク接続時によく使われる gethostbyname(), gethostbyname2()の関数呼び出し時に、脆弱な関数が呼び出される現象として、外部の攻撃者は脆弱なサーバーで、リモートで任意のコードを実行させることができる。障害の対象は、Red Hat Enterprise Linux(登録商標) 5,6,7サーバーであり、障害解決策は、GLIBCアップデートである。
【0116】
13.Radhat V5およびV6シリーズOSのバグ
Intel(登録商標) CPUを使用するRed Hat Enterprise Linux(登録商標)6 or 5 すべてのバージョンで 208.5 日以降に Reboot現象が発生するバグである。障害の対象は、Red Hat Enterprise Linux(登録商標) 5,6サーバーであり、障害解決策は、カーネルアップデートである。
【0117】
14.レイドコントローラのバッテリーフェイル(Raid Controller Battery Fail)
レイドコントローラキャッシュ(Raid Controller Cache)の使用不可によるI/O性能が低下する。障害の対象は、Dell(登録商標)Perc 5i、6i用のRaid Controller Batteryであり、障害解決策は、Dell(登録商標)Perc 5i、6i用のRaid Controller Batteryの使用サイクル4~5年ごとに事前に交替することである。
【0118】
15.CPU IERR エラー (Error) 発生によるシステムダウン(SYSTEM DOWN)
障害対象は、インテル(登録商標)アイブリッジV2使用CPU使用サーバー(PE R720、PE R920)であり、障害解決策は、BIOS設定(Setting)を変更することである。たとえば、システムプロファイル設定(System Profile Settings)をシステムプロファイル(System Profile)をCustomに設定し、CPUパワーマネジメント(Power Management)をMaximum Performance、C1EをDisabled C States Disabled、Monitor/MwaitをDisabledに設定する。
【0119】
16.iDrac 1.50.50 F/W(Firmware)(該当バージョン検索)使用時に管理Web接続不可
iDrac F/W(Firmware) OS上でのF/Wアップグレード(Upgrade)するか、日常生活でのメディアによるアップグレードを通じて、1.51.51にアップグレードする。
【0120】
本発明は、マルチベンダを支援するサーバー管理システムを提案する。例えば、本発明では、Dell(登録商標)、HP(登録商標)、Lenovo(登録商標)など3社のハードウェアシステムに関する情報を1つのインベントリ(Inventory)に格納し、インベントリに格納された情報を用いて、ハードウェアに関する全ての情報を照会することができ、機能を活用できるように実現する。
【0121】
本発明の説明の便宜のために、Dell(登録商標)、HP(登録商標)、Lenovo(登録商標)などの製造業者を例示して、マルチベンダを支援するサーバー管理システムについて説明する。
【0122】
図15は、本発明の一実施形態によるサーバー管理システムにおいてマルチベンダを支援してサーバーを管理する方法を例示するフローチャートである。
図15において、各ステップの実行主体は管理サーバー110である。
【0123】
図15を参照すると、管理対象サーバーを登録する(S201)。このとき、各サーバーの管理IP情報を用いて対象サーバーを登録することができる。たとえば、Dell(登録商標)の場合はiDRAC、HP(登録商標)の場合はiLO、Lenovo(登録商標)の場合はiMMを使用してターゲットサーバーを登録できる。
【0124】
次に、各サーバーに接続するか否かを把握し(S203)、マルチベンダハードウェアインベントリ情報を収集する(S205)。本発明の一実施形態では、ハードウェア共通標準であるRedfish API(Application Programming Interface)を用いて、メーカーを区別することなくx86サーバーのハードウェアシステムのインベントリ情報を収集することができる。
【0125】
その後、収集したインベントリ情報を格納する(S207)。緊急ファームウェアアップデートを含むファームウェアアップデートイベントがある場合、全ての管理対象サーバーに対してファームウェアアップデートを進める(S209)。次に、変更されたアップデート情報を確認する(S211)。本発明の一実施形態では、Redfish APIを介してファームウェアアップデート情報を確認することができる。
【0126】
そして、各サーバーの安全度、点検対象の有無、重要度等に応じてグループを設定し(S215)、リアルタイムでサーバー情報を確認する(S217)。このように、本発明の一実施形態ではRedfish APIを利用して、各サーバーのハードウェア詳細仕様、OS(Operating system)情報、ファームウェア情報、ドライバー情報など運営中のx86サーバーに関する様々な情報を収集することができ、x86サーバーの標準化管理を実行できる。
【0127】
図16は、本発明の一実施形態によるサーバー管理システムにおける障害のログおよびパターンを分析して障害を予防する方法を示すフローチャートである。
図16において各ステップを実行する主体は管理サーバー110である。
【0128】
図16を参照すると、管理対象サーバーのどの装備で障害が発生した場合(S401)、ログおよびパターンを分析する(S403)。その後、分析したデータを格納する(S405)。障害が解決されると(S407)、該当装備と同様の装備を分類し(S409)、分類された類似装備に対して障害を事前に対応処理を実行する(S411)。このように、本発明において障害問題発生時にログ及びパターンを分析し、自動的に類似装置を分類することにより、類似装置で発生する障害を予防することができる。
【0129】
図17は、本発明の一実施形態によるサーバー管理システムにおいてRedfish APIを利用してマルチベンダを支援する動作モデルを例示したものである。
図17に示すように、本発明では、Redfish APIを利用して、Dell(登録商標)、HP(登録商標)、Lenovo(登録商標)などメーカーの区別なしにx86サーバーハードウェアシステムに対するインベントリ情報を収集し、収集した情報を照会して活用することができる。
【0130】
たとえば、Dell(登録商標)の場合はiDRACを使用してデータを収集し、HP(登録商標)の場合はiLOを使用してデータを収集し、Lenovo(登録商標)の場合はiMMを使用してデータを収集する。また、Redfish APIを利用して、複数のサーバーにOSやファームウェアを配布してインストールすることができる。
【0131】
そして、本発明ではRedfish APIを用いて、各サーバーのハードウェア仕様、OS情報、ファームウェア情報などを迅速に確認することができる。
【0132】
また、本発明でパターンを分析して障害を予測することができ、ハードウェアログを用いてパターン分析を進めることができる。
【0133】
Redfish APIは、2015年に最初にリリースされて以来、継続的なアップデートが行われており、複数のサーバー製造ベンダー社を支援し、IPMIと同じ機能を提供している。さらに、Redfish APIはBIOSとSecure Boot設定機能、ファームウェアアップデート機能、ストレージとサーバーのネットワーク設定機能を支援する。そして、Open Compute Platform、Open stack、SNIA(Storage Networking Industry Association)などを支援し、ネットワークスイッチマネジメント、外付けストレージマネジメントなどを支援する。
【0134】
Power Edgeサーバーの管理ツール(tool)であるiDRACは、Redfishを利用してRedfish RESTful APIを支援する。例えば、iDRACは、サーバー電源(Reset、Reboot、Power Control)、サーバーハードウェアインベントリ、サーバーモニタリングおよび状態点検、システムログ収集、サーバーの状態変化点検、およびアラームを実行できる。
【0135】
パワーエッジサーバーは、Redfishを介してサーバーの初期設定を自動化できる。そして、iDRAC初期設定、BIOS、RAIDコントローラ、ネットワークカードなど様々な構成情報をテンプレート化し、サーバーの自動化展開を実行できる。
【0136】
パワーエッジサーバーのiDRACでRedfishの活用例の中でサーバー構成の自動化(Auto deployment)を例示すると、次の通りである。
【0137】
サーバーが持つ固有の設定値は、SCP(Server configuration profile)のメタデータとして格納され、Redfish APIで構成できる。また、Redfish APIを介して、BIOS、iDRAC/LC、PERC RAID Controller、NIC、HBAなどの各種設定情報を設定できる。
【0138】
SCPは、エクスポート、プレビュー、インポートが可能で、新しく構築されたサーバーに設定情報を自由に適用できる。SCPは、HTTS、NFS、CIFSなどの方法で共有でき、XMLやJSONファイル形式などで 実現することができる。
【0139】
図18ないし
図31は、本発明の一実施形態によるサーバー管理システムの画面例を示す図である。
図18は初期画面例であり、管理対象サーバーに対して自動的に収集したインベントリ及びログに関する情報を一目で見ることができるようにダッシュボードを介して支援する画面例である。
【0140】
図19は、管理対象サーバーのインベントリ情報をリアルタイムで確認できる画面例であり、この画面例で変更された情報に対しても自動的にインベントリ情報が変更される。
【0141】
図20の画面例では、管理対象サーバーの問題が確認されたときに容易に認識できるように、パーツごとに記号5(赤丸)で表され、正常なパーツは記号6(緑丸)で示されている。
【0142】
図21は、ファームウェア(F/W)情報を含む全体管理対象サーバーのリアルタイムマネジメント情報を確認できる画面例である。
【0143】
図22は、全体管理対象サーバーのリアルタイムCPU詳細情報及び現在の状態を確認できる画面例である。
【0144】
図23は、全体管理対象サーバーのリアルタイムメモリー詳細情報及び現在の状態を確認できる画面例である。
【0145】
図24は、全体管理対象サーバーのリアルタイムRaid Controller詳細情報及び現在の状態を確認できる画面例である。
【0146】
図25は、全体管理対象サーバーのリアルタイムDisk詳細情報及び現在の状態を確認できる画面例である。
【0147】
図26は、全体管理対象サーバーのPSU(Power supply)リアルタイム詳細情報および現在の状態を確認できる画面例である。
【0148】
図27及び
図28は、全体管理対象サーバーの収集ロゴに関するリアルタイム詳細情報を確認できる画面例であり、リアルタイムVendor HWエラーコードを収集して自動的に分類し、エラーコード別問題装備確認が可能である。
【0149】
図29は、障害分析画面例として、障害の原因、結論、交替時期を含む障害分析情報が表示されている。
【0150】
図30は、顧客会社と比較した各サーバー別障害分析分布図を例示した画面例である。
【0151】
図31は、サービスレポート機能を例示した画面例であり、発生時期、問題事項、問題解決及び再発防止措置事項を含むレポート内容が例示されている。
【0152】
図32は、本発明の一実施形態によるシステム装備を分類した図表であり、
図33および
図34は、本発明の一実施形態によるハードウェア症状とその原因を記載した図表である。
【0153】
図35および
図36は、本発明の一実施形態によるサーバー管理システムにおける障害を事前に対応する方法を表示するフローチャートである。
【0154】
図35を参照すると、管理サーバー110は、管理対象サーバーでハードウェア関連問題が発生すると(S101)、
図32の分類表を参照して、障害発生の可能性が高い類似装備を危険装備に分類する(S101、S103)。次に、分類された危険装備に対する警告メッセージを発送し(S105)、障害事前に対応措置を実行する(S107)。
図32の分類表を参照すると、本発明の一実施形態におけるシステム装備の具体的な類似判断基準が例示されており、同じクラス装備の分類、同じCPU装備の分類、同じメモリー装備の分類、同じNIC装備の分類、同じディスク 装備の分類、同じHBA装備の分類、同じBIOS装備の分類、同じドライバーバージョン装備の分類、同じOS装備の分類、同じファームウェアバージョン装備の分類などが例示されている。
【0155】
図36を参照すると、管理サーバー110は、管理対象サーバーでハードウェア関連の問題が発生すると(S301)、障害の症状を把握する(S303)。次に、
図33及び
図34の図を参照して、障害症状に応じた症状コードを確認する(S305)。その後、症状コードに対応する原因を確認し(S307)、それに応じて対応策レポートを発送する(S309)。次に、障害原因に対応する障害対応措置を実行する(S311)。ステップS305で障害症状に対応する症状コードがない場合は、新たな症状コードを生成して
図33および
図34のリストに追加する(S313)。
図33および
図34を参照すると、本発明の一実施形態による障害症状別症状コードに対応する障害原因が例示されている。
【0156】
つまり、RAC1198はiDracファームウェア問題、コネクタブルメモリー障害はメモリー問題とバイオスファームウェア問題、Link Failure発生はNIC障害とファームウェア問題、Link Failure Count多数発生はNICドライバーとファームウェア問題、NIC Link is DownはNICドライバー、ファームウェアの問題、リンクの状態とサーバーの確認要請はNICドライバーとファームウェアの問題、HOST_DOWNの発生はNICのドライバーとファームウェアの問題、サーバーの前面の黄色の点灯の発生はiDracのファームウェアの問題、SWC5008:criticalメッセージ出力はiDracのファームウェアの問題、NO_PARTITIONアラームの発生はディスク障害、Reset adapteはBIOSファームウェア問題、Correctable memory errorはメモリーの問題とBIOSファームウェアの問題、CPUの性能低下はBIOSファームウェアの問題、MemoryおよびSlot表示にはないメモリー問題とBIOSファームウェア問題、Disk fault errorはディスク障害、disk predicted failはディスクBadBlockによる障害、定期的なFAN 6 認識問題はFan 6 障害、光量400以下によるFaultはGbic障害、NIC GBIC通信不可のGbic障害、System無限リブートはバイオスファームウェアの問題、LCD Panel特定メッセージ出力はiDracファームウェアの問題、iDRACで繰り返しエラーメッセージが発生するとiDracファームウェアの問題、vCenterエージェントと同期エラーはEXSiバージョンとOSバージョンの問題、サーバーがRebootする現象はバイオスファームウェア問題、HBA Write速度低下はHBAファームウェアとドライバーの問題、HBA読み込み速度の低下はHBAファームウェアとドライバーの問題、HBAリンクダウンはHBA GbicとCardの問題、HBAの冗長節体障害はHBA GbicとCardの問題、Riser1認識不良はRiser Cardの問題、Riser2の認識不良はRiser Cardの問題、ネットワークの冗長障害はネットワークカードの問題、PSU Alert黄色のLED点灯はPSU障害、低電圧による異常発生はPSU障害、PXEブート不可のバイオス設定およびNIC ファームウェア/ドライバー問題、POSTブート不可のマザーボード障害、LifeCycle接続不可のマザーボードの障害、iDRAC Hangの症状はiDracファームウェアの問題、iDRAC Networkの切断はマザーボードの障害とiDracのファームウェアの問題、iDRAC SNMPサービスの障害の発生はiDracのファームウェアの問題、サーバーの使用中に突然サーバーの電源が切れる症状はマザーボードの問題、Medium Errorの場合はディスクの障害、ERROR Event確認要請はError Eventによる問題、CMC接続不可のCMCファームウェア問題が原因で対応される。
【0157】
また、DSET分析要請は分析による障害、TSR Log分析要請は分析による障害、NFSサービス起動失敗はNFS設定とOS設定点検、vCenterに接続できないEXSiバージョンとOSバージョンの問題、NIC ResetはNetwork Cardの問題 、GPU認識不可のGPUカード障害、OSクラッシュ発生はOSダンプ解析、ネットワークエラー/ドロップパケット発生はネットワークカードの問題、CRCエラー発生はネットワークカードの問題、サーバーのスイッチが切れる現象はネットワークカードの問題、ネットワーク(ボンディング) において通信がスムーズにならない問題はNetwork Cardの問題、メモリー交替後同じスロットイベント発生はメモリーの障害またはマザーボードの障害、Disk Read Only状態でアクセスできないディスクの障害またはRAID構成の問題、スイッチが月に3~4 回 Hangする症状はマザーボードまたはOSバージョンの問題、LACP Network Speedの問題が発生するのはNetwork Cardの問題、クラスタのフェイルオーバーの発生はクラスタの設定の問題またはHWの障害、RTSP同期の失敗はOSの設定またはNetworkの障害、セッションの低下現象の発生はNetwork CardまたはGbicの問題、不明な電源遮断はPSUの障害、サーバーの遅れ、ハング現象はアプリケーションまたはHWの障害、Network Ping Loss はNetwork CardまたはGbicの問題、LoadAvgの上昇はCPU 点検が必要、Fatal Error 発生はPCI CardまたはRiser Card問題、PXEインストール中の停止またはパフォーマンス低下はNetwork CardまたはGbic問題、Blue Screen発生(0x00004f)はマザーボード/BIOS/ディスク/メモリー障害、Blue Screenはマザーボード/BIOS/ディスク障害、OS Booting失敗はマザーボード/BIOS/ディスク障害、プロセスDownおよびOSインストール中のパニックはマザーボード/BIOS/ディスク障害、サーバーからの臭いはファン/マザーボード/PSU問題、NAS接続不可対策はネットワーク/OS設定問題、KVM接続不可能なマザーボード/KVMケーブル/KVM問題、Disk Amber LEDはディスク障害、Postブート時にDelayはマザーボード/ファン/PCI/メモリー問題、電源不良対策はPSU障害、Teaming性能低下はネットワーク/OS設定の問題、VD Bad Blockはディスク障害、HBA LoopはHBA障害、Raid構成情報が見えないというファームウェア/ディスクドライバー問題、Volume認識不可能なファームウェア/ディスクドライバー問題、Kernel PanicはOS/App問題、最大性能使用時のサーバーのリブートはCPU/PSU/マザーボード/メモリー問題、サーバーの処理が著しく遅くなるのはCPU/PSU/マザーボード/メモリー/ディスクの問題、サーバーの電源が入らないのはPSU障害が原因で対応される。
【0158】
以上、本発明をいくつかの好ましい実施例を用いて説明したが、これらの実施例は例示的なものであり、限定的なものではない。本発明が属する技術分野で通常の知識を有する者であれば、本発明の思想と添付の特許請求の範囲に提示された権利範囲から逸脱することなく様々な変更と修正を加えることができることが理解されるであろう。
【符号の説明】
【0159】
110:管理サーバー
112:データベース
120:管理者端末
130:顧客端末
10、20、30、40:管理対象サーバー
【外国語明細書】