特開2024-156646 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ジニエイアイカンパニーリミテッドの特許一覧

特開2024-156646ＡＩを利用したサーバー管理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024156646

(43)【公開日】2024-11-06

(54)【発明の名称】ＡＩを利用したサーバー管理システム

(51)【国際特許分類】

G06F 11/34 20060101AFI20241029BHJP

G06F 11/30 20060101ALI20241029BHJP

【ＦＩ】

G06F11/34 176

G06F11/30 140

【審査請求】有

【請求項の数】11

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024070593

(22)【出願日】2024-04-24

(31)【優先権主張番号】10-2023-0053119

(32)【優先日】2023-04-24

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】523374161

【氏名又は名称】ジニエイアイカンパニーリミテッド

【氏名又は名称原語表記】ＧｅｎｉＡＩＣＯ．，ＬＴＤ

【住所又は居所原語表記】５ｔｈｆｌ，３１６，Ｙｅｏｎｇｄｏｎｇ－ｄａｅｒｏ，Ｇａｎｇｎａｍ－ｇｕ，Ｓｅｏｕｌ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100121382

【弁理士】

【氏名又は名称】山下託嗣

(72)【発明者】

【氏名】ユ，セクウォン

【テーマコード（参考）】

5B042

【Ｆターム（参考）】

5B042JJ06

5B042JJ08

5B042JJ17

5B042KK08

5B042KK13

5B042KK14

5B042KK15

5B042KK17

5B042KK20

5B042MA08

5B042MA14

5B042MC15

(57)【要約】

【課題】サーバーで発生する可能性のある障害を予め防止し、サーバー障害による被害を低減する。
【解決手段】２以上の管理対象サーバーを管理するサーバー管理システムは、管理対象サーバー関連データを格納するためのデータベースおよび管理対象サーバーからハードウェア関連データおよびソフトウェア関連データを収集し、各管理対象サーバーの状況を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバー管理情報を管理者が使用する管理者端末と管理対象サーバーを依頼した顧客端末に提供する管理サーバーを含み、サーバーは、ＡＩ技術を用いて、管理対象サーバーを分析し、これにより、管理対象サーバーの状態及び障害を予測し、予測を通じて問題が発生した場合、当該管理者端末及び顧客端末へのテキストメッセージ及び電子メールでアラームメッセージを伝達する。
【選択図】図３

【特許請求の範囲】

【請求項1】

２以上の管理対象サーバーを管理するサーバー管理システムにおいて、
前記管理対象サーバー関連データを格納するためのデータベースと、
前記管理対象サーバーからハードウェア関連データ及びソフトウェア関連データを収集し、各管理対象サーバーの現状を把握して管理し、これに関連する管理サービス統計データ及び管理サービスレポートを含む各種サーバー管理情報を、管理者が使用する管理端末と管理対象サーバーを依頼した顧客端末に提供する管理サーバーと、を含み、
前記管理サーバーは、ＡＩ技術を用いて、前記管理対象サーバーを解析して前記管理対象サーバーの状態及び障害を予測し、予測を通じて問題が発生した場合、当該管理者端末及び顧客端末への文字メッセージおよび電子メールでアラームメッセージを伝達する、
サーバー管理システム。

【請求項2】

請求項１に記載のサーバー管理システムにおいて、
前記管理サーバーは、各管理対象サーバーから整形ログデータ及び非定型ログデータを収集し、収集したデータを分類し、データ前処理を実行し、その後ＡＩ学習データモデルを通じて学習を実行して管理対象サーバーの状態および障害を予測する、サーバー管理システム。

【請求項3】

請求項２に記載のサーバー管理システムにおいて、
前記管理サーバーは、Redfish APIを使用してＡＩ分析機能を提供し、各管理対象サーバーで正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要なリスクの優先順位を設定して問題を分析してサポートするＡＩ分析機能を提供する、サーバー管理システム。

【請求項4】

請求項１に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーのＢＢＵ（Backup Battery Unit）周期を確認し、予め定められた周期になるとこの内容を該当管理対象サーバーの顧客端末に転送し、
前記管理サーバーは、
管理対象サーバーのＢＢＵ充電容量を点検し、バッテリーの充電効率が予め定められた数値以下に減少すると、この内容を該当管理対象サーバーの顧客端末に通知し、
管理対象サーバーのＢＢＵ残容量を点検し、バッテリーの残量が予め定められた数値以下である場合、この内容を該当管理対象サーバーの顧客端末に通知し、
管理対象サーバーのＢＢＵ書き込みポリシー（ＷｒｉｔｅＰｏｌｉｃｙ）を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバーの顧客端末に通知し、管理対象サーバーのログ（log）確認を通じて、バッテリーフル充電（Full Charging）効率（％）を確認し、完全充電効率が予め定められた数値未満の機器に対するバッテリー交替を通知するメッセージを該当管理対象サーバーの顧客端末に通知する、サーバー管理システム。

【請求項5】

請求項１に記載のサーバー管理システムにおいて、
前記管理サーバーは、登録された複数の管理対象サーバーからマルチベンダハードウェアインベントリ情報を収集して記憶する、サーバー管理システム。

【請求項6】

請求項５に記載のサーバー管理システムにおいて、
前記管理サーバーは、緊急ファームウェアアップデートを含むファームウェアアップデートイベントがある場合、全ての管理対象サーバーに対してファームウェアアップデートを進める、サーバー管理システム。

【請求項7】

請求項１に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーのいずれかの機器で障害が発生した場合にログとパターンを分析し、分析したデータを格納し、障害が解決されると、該当機器と同様の機器を分類し、分類された類似装置に対して障害を事前に対応処理を実行する、サーバー管理システム。

【請求項8】

請求項１に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーでハードウェア関連の問題が発生した場合、分類表を参照して、障害発生の可能性が高い類似機器を危険機器に分類し、分類された危険機器に関する警告メッセージを発送し、障害事前に対応措置を実行する、サーバー管理システム。

【請求項9】

請求項８に記載のサーバー管理システムにおいて、
前記分類表は、システム機器の具体的な類似判断基準を含み、同じクラス機器の分類、同じCPU機器の分類、同じメモリー機器の分類、同じNIC機器の分類、同じDisk機器の分類、同じHBA機器の分類、同じBIOS機器の分類、同じDriverバージョン機器の分類、同じOS機器の分類、同じFirmwareバージョン機器の分類を含む、サーバー管理システム。

【請求項10】

請求項９に記載のサーバー管理システムにおいて、
前記管理サーバーは、管理対象サーバーでハードウェア関連の問題が発生すると、障害症状を把握し、障害症状別症状コードに対応する障害原因を含むリストを参照して、障害症状に応じた症状コードを確認し、症状コードに対応する原因を確認し、それに応じて対応策レポートを発送し、障害原因に対応する障害対応措置を実行し、障害症状に対応する症状コードがない場合は新たな症状コードを生成し、前記のリストに追加する、サーバー管理システム。

【請求項11】

請求項１０に記載のサーバー管理システムにおいて、
前記のリストは、
RAC1198は、iDracファームウェアの問題、
コネクタブルメモリー障害は、メモリーの問題とバイオスファームウェアの問題、
Link Failure発生は、NIC障害とファームウェアの問題、
Link Failure Count多数の発生は、NICドライバーおよびファームウェアの問題、
NIC Link is Downは、NIC ドライバーとファームウェアの問題、
Linkステータスおよびサーバー点検要請は、NICドライバーおよびファームウェアの問題、
HOST_DOWN発生は、NICドライバーおよびファームウェアの問題、
サーバー前面黄色点灯発生は、iDracファームウェアの問題、
SWC5008:criticalメッセージ出力は、iDracファームウェアの問題、
NO_PARTITIONアラーム発生は、ディスク障害、
Reset adapteは、BIOSのファームウェアの問題、
Correctable memory errorは、メモリーの問題とBIOSのファームウェアの問題、
CPUの性能低下は、BIOSのファームウェアの問題、
MemoryおよびSlotが表示されないことは、メモリーの問題とBIOSファームウェアの問題、
Disk fault errorは、ディスク障害、
Disk predicted failは、ディスクBadBlockによる障害、
定期的なFAN 6認識問題は、FAN 6の障害、
光量４００以下によるFaultは、Gbic障害、
NIC DBIC通信不可は、Gbic障害、
System無限リブートは、BIOSファームウェアの問題、
LCD Panel特定メッセージ出力は、iDracファームウェアの問題、
iDRACで繰り返しエラーメッセージが発生するのは、iDracファームウェアの問題、
vCenterエージェントと同期エラーは、EXSiバージョン、OSバージョンの問題、
サーバーリブート現象は、バイオスファームウェアの問題、
HBA Write速度低下は、HBAファームウェアとドライバーの問題、
HBA Read速度低下は、HBAファームウェアとドライバーの問題、
HBAリンクダウンは、HBA Gbicとカードの問題、
HBA二重化冗長転送障害は、HBA GbicとCardの問題、
Riser1認識不良は、Riser Cardの問題、
Riser2認識不良は、Riser Cardの問題、
ネットワーク二重化障害は、Network Cardの問題、
PSU Alert黄色LED点灯は、PSU障害、
低電圧による異常発生は、PSU障害、PXEブート不可バイオス設定、NICファームウェア／ドライバーの問題、POSTブート不可マザーボード障害、LifeCycle接続不可マザーボード障害、
iDRAC Hang症状は、iDracファームウェアの問題、
iDRAC Networkの切断は、マザーボード障害、iDracファームウェアの問題、
iDRAC SNMPサービス障害発生は、iDracファームウェアの問題、
サーバー使用中に突然サーバーがオフする症状は、マザーボードの問題、
Medium Error発生は、ディスク障害、
ERROR Event確認要請は、Error Eventによる問題、CMC接続不可CMCファームウェアの問題、
DSET分析要請は、分析による障害、
TSR Log分析要請は、分析による障害、
NFSサービスの起動失敗は、NFS設定とOS設定の確認、vCenterに接続できないEXSiバージョンとOSバージョンの問題、
NIC Resetは、ネットワークカードの問題、
GPU認識不可は、GPUカードの障害、
OS Crash発生は、OS Dump分析、
Network error/dropped packets発生は、Network Cardの問題、
CRCエラー発生は、Network Cardの問題、
サーバースイッチが切れる現象は、Networkカードの問題、
ネットワーク（Bonding）への通信がスムーズにならない問題は、ネットワークカードの問題、
メモリー交替後の同じスロットイベントの発生は、メモリー障害またはマザーボード障害、ディスク読み取り専用状態でアクセスできないディスク障害、またはRAID構成の問題、
スイッチが月に3～4回Hangする症状は、マザーボードまたはOSバージョンの問題、
LACP Network Speed問題が発生するのは、Network Cardの問題、
クラスタフェイルオーバー発生は、クラスタ設定の問題またはHW障害、RTSP同期失敗OSの設定やネットワークの障害、
セッションの低下現象の発生は、ネットワークカードまたはGbicの問題、
不明な電源遮断は、PSUの障害、
サーバーの遅れおよびハング現象は、アプリケーションまたはHWの障害、
ネットワークのpingロスは、ネットワークカードまたはGbicの問題、
LoadAvgの上昇は、CPU点検が必要、
Fatal Error発生は、PCI CardまたはRiser Cardの問題、
PXEインストール中の停止またはパフォーマンス低下は、Network CardまたはGbicの問題、
Blue Screen発生(0x00004f)は、マザーボード/BIOS/ディスク/メモリー障害、
Blue Screenは、マザーボード/BIOS/ディスク障害、
OS Booting障害は、マザーボード/BIOS/ディスク障害、
プロセスDownおよびOSインストール中のパニックは、マザーボード/BIOS/ディスク障害、
サーバーからの臭いは、ファン/マザーボード/PSUの問題、
NAS接続不可対策は、ネットワーク/OS設定の問題、KVM接続不可マザーボード/KVMケーブル/KVMの問題、
Disk Amber LEDは、ディスク障害、
Postブート時のDelayは、マザーボード/ファン/PCI/メモリーの問題、
電源不良対策は、PSU障害、
Teming性能の低下は、ネットワーク/OS設定の問題、
VD Bad Blockは、ディスク障害、
HBAループは、HBA障害、Raid構成情報が見えないというファームウェア/ディスクドライバーの問題、Volume認識不可能なファームウェア/ディスクドライバーの問題、
Kernel Panicは、OS/Appの問題、最大性能使用時にサーバーリブートはCPU/PSU/マザーボード/メモリーの問題、サーバー処理が著しく遅くなるCPU/PSU/マザーボード/メモリー/ディスクの問題、
サーバーの電源が入らないのは、PSU障害が原因で対応されることを含む、
サーバー管理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数のサーバーを管理する技術に関し、より詳細には、ＡＩ（Artificial Intelligence）技術を用いて複数のサーバーを管理する技術に関する。

【背景技術】

【0002】

最近、サーバー、ストレージ、ネットワークなどのＩＴ（Information Technology）環境が複雑になり、作業時間が不足する現象が発生している。このようにコンピュータシステムが大容量化、高速化されるにつれて、システムのエラーやウイルスなどによるコンピュータ障害が頻繁に発生している。

【0003】

特に大容量のサーバーでは、さまざまなアプリケーションプログラムの動作やデータの格納、読み取り、転送など、さまざまな要因による障害が頻繁に発生する。したがって、各企業では、これらのサーバーを管理する別々のサーバー管理者を常駐させてサーバーを管理し、障害発生時にこれを処理するようにしている。

【0004】

ところで、サーバー管理には専門的な技術が必要であり、そのような専門職員を採用するにはかなりの費用がかかる。したがって、特に小規模の企業などでは、該当するサーバー管理者として専門技術者を採用するのではなく、社内既存の人材の中から適切な人を選択し、サーバー管理者として置いている実情である。

【0005】

そのような場合には、サーバー管理がスムーズに行われにくく、しかもサーバー障害発生時にスムーズに対処することはほとんど不可能である。また、サーバー管理のために専門技術を有するサーバー管理者を採用した場合でも、サーバー管理者が出張等の理由でサーバーから遠隔地にいる場合には、サーバーの障害発生時にこれらのサーバーの状況が管理者に迅速に通知されることが難しく、サーバー障害発生時にスムーズに対処するのが難しかったし、サーバー管理者が当該サーバーの障害発生を通知された場合でも、遠隔地にいる関係でこれに対する即時の対処が難しく、結局サーバーがダウンするなど莫大な損失が生じることがある。

【0006】

従来、複数のサーバーを統合して管理するサーバー統合管理システムにおいて、あるサーバーに障害が発生した場合、これを検知し、事後に障害を回復する方式である。しかし、このような従来の事後障害回復方式では、障害が発生したサーバーを復旧する期間中、当該サーバーの動作が中断され、サーバーの使用中断に伴う損失が発生し、復旧に要する人員やコストによる損害が大きいという問題がある。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】韓国公開特許１０－２０１５－０１２４６４２号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

本発明は、前記のような問題点を解決するために案出されたものであり、ＡＩ（Artificial Intelligence）を用いて、ＩＴリソースをシステム化し、業務を標準化することにより、運営効率性を改善し、運営コストを削減し、セキュリティを強化できるサーバー管理システムを提供することにその目的がある。

【0009】

本発明の目的は、前記の目的に限定されず、言及されていない他の目的は、以下の説明から通常の技術者に明確に理解することができるであろう。

【課題を解決するための手段】

【0010】

このような目的を達成するための本発明は、２以上の管理対象サーバーを管理するサーバー管理システムにおいて、管理対象サーバー関連データを格納するためのデータベースおよび管理対象サーバーからハードウェア関連データおよびソフトウェア関連データを収集し、各管理対象サーバーの現状を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバー管理情報を管理者が使用する管理者端末と管理対象サーバーを依頼した顧客端末に提供する管理サーバーを含み、管理サーバーは、ＡＩ技術を用いて管理対象サーバーを分析し、これを介して管理対象サーバーの状態および障害を予測し、予測を通じて問題が発生した場合顧客端末にテキストメッセージと電子メールでアラームメッセージを伝達する。

【0011】

前記管理サーバーは、各管理対象サーバーから整形ログデータ及び非定型ログデータを収集し、収集したデータを分類し、データ前処理を進行し、その後ＡＩ学習データモデルを通じて学習を実行し、これにより、管理対象サーバーの状態と障害を予測することができる。

【0012】

管理サーバーは、Redfish APIを使用してＡＩ分析機能を提供するが、各管理対象サーバーで正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要なリスクの優先順位を設定し、問題を分析し、そして支援するＡＩ分析機能を提供できる。

【発明の効果】

【0013】

本発明によれば、多数の管理対象サーバーに対するＡＩ分析により、先制的にサーバーで発生する障害を予測し、警告し解決策を提供することにより、サーバーで発生しうる障害を予め防止し、サーバー障害によるダメージを減少させる効果がある。

【0014】

また、本発明によれば、ＩＴリソースをシステム化し、業務を標準化することにより、運営効率性を改善し、運営コストを削減し、セキュリティを強化することができる効果がある。

【0015】

また、本発明によれば、より便利で効率的に多数のサーバーを管理することができる効果がある。

【0016】

また、本発明によれば、サーバー管理を依頼した顧客に障害パターンを分析し、先制的に障害を予め対応付けておき、サーバー管理機能を提供することにより、顧客のニーズに合ったデータを加工し、伝達できる効果がある。

【図面の簡単な説明】

【0017】

【図1】本発明の一実施形態によるサーバー管理システムの全体構成を概念的に示す図である。

【図2】本発明の一実施形態によるサーバー管理システムにおける動作過程を概念的に示す図である。

【図3】本発明の一実施形態によるサーバー管理システムにおいてＡＩ（Artificial Intelligence）分析機能実現方法を示すフローチャートである。

【図4】本発明の一実施形態によるサーバー管理システムにおけるＡＩ（Artificial Intelligence）分析機能のうち、整形データのＡＩ学習過程を示すフローチャートである。

【図5】本発明の一実施形態によるサーバー管理システムにおけるＡＩ（Artificial Intelligence）分析機能のうち、非定型データのＡＩ学習過程を示すフローチャートである。

【図6】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。

【図7】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。

【図8】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。

【図9】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。

【図10】本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。

【図11】本発明の一実施形態によるサーバー管理システムの構成例を示す図である。

【図12】本発明の一実施形態によるサーバー管理システムにおけるRedfishイベントによるサーバーモニタリング機能を説明するための例示図である。

【図13】本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成ジョブ自動化機能を説明するための例示図である。

【図14】本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成自動化機能を説明するための例示図である。

【図15】本発明の一実施形態によるサーバー管理システムにおいてマルチベンダを支援してサーバーを管理する方法を例示するフローチャートである。

【図16】本発明の一実施形態によるサーバー管理システムにおいて障害のログ及びパターンを分析して障害を予防する方法を例示するフローチャートである。

【図17】本発明の一実施形態によるサーバー管理システムにおいてＲｅｄｆｉｓｈＡＰＩを利用してマルチベンダを支援する動作モデルを例示したものである。

【図18】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図19】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図20】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図21】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図22】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図23】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図24】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図25】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図26】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図27】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図28】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図29】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図30】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図31】本発明の一実施形態によるサーバー管理システムの画面例を示す図である。

【図32】本発明の一実施形態によるシステム装備を分類した図である。

【図33】本発明の一実施形態によるハードウェア症状とその原因を記載した図表である。

【図34】本発明の一実施形態によるハードウェア症状とその原因を記載した図表である。

【図35】本発明の一実施形態によるサーバー管理システムにおける障害を事前に対応する方法を表示するフローチャートである。

【図36】本発明の一実施形態によるサーバー管理システムにおける障害を事前に対応する方法を表示するフローチャートである。

【発明を実施するための形態】

【0018】

本発明は、様々な変更を加えることができ、様々な実施に例を有することができるが、特定の実施に例を図面に例示し、詳細に説明する。しかしながら、これは、本発明を特定の実施形態に限定することを意図するものではなく、本発明の精神および技術的範囲に含まれるすべての変更、等価物から代替物を含むことを理解されたい。

【0019】

本出願で使用される用語は、単に特定の実施において例を説明するために使用されたものであり、本発明を限定することを意図していない。単数の表現は、文脈上明らかに他に意味がない限り、複数の表現を含む。

【0020】

本出願において、「含む」または「有する」などの用語は、本明細書に記載の特徴、数字、ステップ、動作、構成要素、部品、またはそれらの組み合わせが存在することを指定することを意図しており、１つまたは複数の他の特徴それらは、数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものの存在または追加の可能性を予め排除しないことを理解されたい。

【0021】

他に定義されない限り、技術的または科学的用語を含む本明細書で使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般に理解されるのと同じ意味を有する。

【0022】

一般的に使用される事前に定義されているものなどの用語は、関連技術の文脈上の意味と一致する意味を有すると解釈されるべきであり、本出願で明確に定義されていない限り、理想的または過度に形式的な意味として解釈されるべきではない。

【0023】

なお、添付図面を参照して、説明するにあたって、符号にかかわらず同じ構成要素には同じ符号を付し、これに対する重複する説明は省略する。本発明の説明において、関連する公知技術の具体的な説明が本発明の要旨を不必要にぼやけることができると判断される場合、その詳細な説明は省略する。

【0024】

本発明は、２以上の管理対象サーバーを管理するサーバー管理システムにおいて、管理対象サーバー関連データを格納するためのデータベースおよび管理対象サーバーからハードウェア関連データおよびソフトウェア関連データを収集し、各管理対象サーバーの状況を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートを含む各種サーバー管理情報を管理者が使用する管理者端末と、管理対象サーバーを依頼した顧客端末に提供する管理サーバーとを含み、サーバーは、ＡＩ技術を用いて、管理対象サーバーを解析し、これにより、管理対象サーバーの状態や障害を予測し、予測を通じて問題が発生した場合、該当管理者端末および顧客端末へのテキストメッセージおよび電子メールにアラームメッセージを伝達する。

【0025】

【0026】

管理サーバーはRedfish APIを使用してＡＩ分析機能を提供し、各管理対象サーバーで正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要なリスクの優先順位を設定し、問題を分析し、そして支援するＡＩ分析機能を提供できる。

【0027】

図１は、本発明の一実施形態によるサーバー管理システムの全体構成を概念的に示す図であり、図２は、本発明の一実施形態によるサーバー管理システムにおける動作過程を概念的に示す図である。

【0028】

図１および図２を参照すると、本発明のサーバー管理システムは、管理サーバー１１０、データベース１１２、管理者端末１２０、顧客端末１３０を含む。

【0029】

管理者端末１２０は、サーバー管理システムを管理する管理者が使用する端末である。顧客端末１３０は、管理対象サーバー１０、２０、３０、４０を依頼した各顧客が使用する端末である。本発明の一実施形態では、管理者端末１２０と顧客端末１３０とは、デスクトップコンピュータ、ラップトップコンピュータ、タブレットＰＣ、携帯電話、携帯電話、スマートフォンなどの有無線通信が可能な様々な端末形態で実現することができる。本発明の一実施形態では、ユーザー端末は、管理者端末１２０と顧客端末１３０とを含む概念である。

【0030】

データベース１１２は、管理対象サーバー１０、２０、３０、４０関連データを格納する。

【0031】

管理サーバー１１０は、管理対象サーバー１０、２０、３０、４０からデータを収集し、各管理対象サーバーの現状を把握して管理し、これに関連する管理サービス統計データと管理サービスレポートとを含む。管理サーバー１１０は、各種サーバー管理情報を管理者端末１２０と顧客端末１３０に提供する。

【0032】

管理サーバー１１０は、複数の管理対象サーバーからマルチベンダハードウェア情報を収集し、格納し、格納した情報を照会して利用できるように管理者端末１２０および顧客端末１３０に提供することができる。

【0033】

管理サーバー１１０は、登録された複数の管理対象サーバーからマルチベンダハードウェアインベントリ情報を収集して格納することができる。

【0034】

管理サーバー１１０は、緊急ファームウェアアップデートを含むファームウェアアップデートイベントがあれば、全ての管理対象サーバーに対してファームウェアアップデートを進めることができる。

【0035】

管理サーバー１１０は、管理対象サーバーのいずれかの装備で障害が発生した場合にログやパターンを分析し、分析したデータを格納し、障害が解決された場合、当該装備と同様の装備を分類し、分類された類似装備に対して障害を事前に対応処理を実行することができる。

【0036】

管理サーバー１１０は、Redfish APIを利用して、各管理対象サーバーのハードウェア詳細仕様、ＯＳ（Operating system）情報、ファームウェア情報及びドライバー情報を含む運営中のｘ８６サーバーに関する情報を収集することができ、ｘ８６サーバーの標準化管理を実行できる。

【0037】

管理サーバー１１０は、管理対象サーバー１０、２０、３０、４０の障害パターンを分析し、同様の障害が発生するのを予防する予防分析機能を提供し、予防分析機能を通じて、管理対象サーバー１０、２０、３０、４０で予め定められたイベント発生時に、発生したイベントによる障害が発生する可能性があることを警告する予想障害発生メッセージを、該当管理対象サーバーを依頼した顧客端末に先制的に送信することができる。

【0038】

管理サーバー１１０は、管理対象サーバー１０、２０、３０、４０の設置、障害、技術支援履歴を管理する履歴管理機能を提供することができる。

【0039】

管理サーバー１１０は、管理対象サーバー１０、２０、３０、４０の納品履歴を管理する配送管理機能を提供することができる。

【0040】

管理サーバー１１０は、管理対象サーバーで装備関連イベントが発生すると、予め定められた分類基準に従って危険装備を分類し、当該危険装備に関する警告メッセージを管理者端末１２０及び該当顧客端末に発送し、該当する危険装備に対して事前に障害対応措置を実行できる。

【0041】

管理サーバー１１０は、管理対象サーバーで装備関連イベントが発生すると、当該装備の障害症状を把握し、当該障害症状に対応する障害コードに従って原因を分析し、障害対応方案を含むレポートを管理者端末１２０及び該当顧客端末に発送し、当該装備に対する障害対応措置を実行できる。

【0042】

本発明において、管理サーバー１１０は、顧客端末１３０の要請に応じて管理対象サーバーの管理に関するデータを処理し、伝達するデータデリバリーサービス（data delivery service）機能を提供することができる。

【0043】

また、管理サーバー１１０は、管理対象サーバーのクリティカル障害を分析し、同じ事例を伝播して、サーバー障害を事前に予防することができ、四半期ごとに各サーバーの障害統計を管理者端末１２０顧客端末１３０に提供することができる。

【0044】

本発明において、管理サーバーは、配達したサーバー関連装備に対する履歴を管理することができ、設置／障害／技術支援履歴管理サービスを提供し、パーツ別の問題を管理することができる。

【0045】

本発明は、顧客から依頼された複数の管理対象サーバー１０、２０、３０、４０を管理するサーバー管理システムに関する。

【0046】

本発明の一実施形態において管理対象となるサーバーである管理対象サーバーは、様々なサーバーであってもよく、例えば、Ｄｅｌｌ（登録商標）サーバー１０、ＨＰ（登録商標）サーバー２０、Ｌｅｎｏｖｏ（登録商標）サーバー３０、ｘ８６サーバー４０ある場合もある。

【0047】

管理対象サーバー１０、２０、３０、４０と管理サーバー１１０は、様々な有無線通信方式を介して通信し、例えば、ＨＴＴＰ通信やＪＳＯＮ形式のＰＯＳＴ転送方式で通信することができる。

【0048】

また、管理対象サーバー１０、２０、３０、４０は、大規模なコンピュータ環境の様々なｘ８６サーバーで定められたスケジューリングに従ってスクリプトを自動実行できる。

【0049】

管理者は、管理者端末１２０を介して管理サーバー１１０に接続し、管理サーバー１１０に定められたスケジューリングに従ってバッチ（ＢＡＴＣＨ）プログラムを実行し、既存のデータと比較して変更履歴を管理する。

【0050】

管理サーバー１１０は、自動的に管理対象サーバー１０、２０、３０、４０のハードウェア情報及びソフトウェア情報を収集し、これに基づいて各サーバーの現状を把握し、各サーバーの要請状況に合わせて管理サービスを提供する。

【0051】

図２は、本発明の一実施形態によるサーバー管理システムにおける動作過程を概念的に示す図であり、図２において管理対象サーバーはｉＤＲＡＣ９バージョンが適用されたＤｅｌｌ（登録商標）サーバー１０であり、ＲｅｄｆｉｓｈＡＰＩ（Application Programming Interface）が使用されたプラットフォームを例示した。

【0052】

図２を参照すると、ユーザー端末においてフラスコ（Ｆｌａｓｋ）を用いてゲットモジュール（ＧｅｔＭｏｄｕｌｅ）を実行し、ＲｅｄｆｉｓｈＡＰＩを用いて、Ｄｅｌｌ（登録商標）サーバー１０からｉＤＲＡＣ９整形データ及び非整形データを収集し、収集したデータを分類し、データ前処理を実行する。その後、前処理したデータをデータベース１１２に格納し、データベースにスタックされたデータについてＡＩ学習データモデルを介して学習を実行し、データを再分類し、データロー(row)を生成する。

【0053】

さらに、ユーザー端末でフラスコ（Ｆｌａｓｋ）を用いてページを呼び出し、データ解析モジュールでデータベース１１２を検索し、解析を進め、データ視覚化を実行し、これをフラスコレスパンスユーザーウェブ（ＦｌａｓｋＲｅｓｐｏｎｓｅＵｓｅｒＷｅｂ）ページに伝達する。

【0054】

図３は、本発明の一実施形態によるサーバー管理システムにおいてＡＩ（Artificial Intelligence）分析機能実現方法を示すフローチャートである。図３の実施形態は、Redfish APIを用いた実施形態である。

【0055】

図３を参照すると、管理サーバー１１０は、各管理対象サーバーからログデータを含むデータを収集し（Ｓ４０１０）、収集したデータを分類し（Ｓ４０２０）、分類したデータを前処理する（Ｓ４０３０）。その後、前処理したデータについてＡＩ学習を進める（Ｓ４０４０）。次に、ＡＩ分析により、各管理対象サーバーの装備状態を診断し（Ｓ４０５０）、障害を予測する（Ｓ４０６０）。管理対象サーバーで問題が発生すると（Ｓ４０７０）、テキストメッセージや電子メールなどで関連端末にアラームメッセージを伝達する（Ｓ４０８０）。

【0056】

図４は、本発明の一実施形態によるサーバー管理システムにおけるＡＩ（Artificial Intelligence）分析機能のうち、整形データのＡＩ学習過程を示すフローチャートである。図４の実施形態はRedfish APIを用いた実施形態である。

【0057】

図４を参照すると、管理サーバー１１０は、管理対象サーバーでログが発生すると（Ｓ５０１０）、障害の有無を判断する（Ｓ５０２０）。障害がなければ、該当ログに対して「異常なし」の学習データを追加する（Ｓ５０８０、Ｓ５０９０）。障害がある場合は、対応する管理対象サーバーと同様の仕様およびモデルのサーバーを検索し（Ｓ５０３０）、該当サーバーのログを抽出する（Ｓ５０４０）。そして、管理対象サーバーのログと抽出したログとを比較する（Ｓ５０５０）。比較の結果、同じパターンであれば該当ログについて「異常あり」の学習データを追加し（Ｓ５０６０、Ｓ５０７０、Ｓ５０９０）、そうでなければ、「異常なし」の学習データを追加する（Ｓ５０６０、Ｓ５０８０、Ｓ５０９０）。

【0058】

図５は、本発明の一実施形態によるサーバー管理システムにおけるＡＩ（Artificial Intelligence）分析機能のうち、非定型データのＡＩ学習過程を示すフローチャートである。図５の実施形態はRedfish APIを用いた実施形態である。

【0059】

図５を参照すると、管理サーバー１１０は、管理対象サーバーに対して予め設定された設定周期に従ってデータを収集する（Ｓ６０１０）。例えば、設定周期が１０秒に設定されている場合、１０秒周期で管理対象サーバーからデータを収集する。

【0060】

その後、管理サーバー１１０は、収集したデータに対して前処理を行い（Ｓ６０２０）、データベースに格納する（Ｓ６０３０）。次に、管理サーバー１１０は、ＡＩ学習データモデルを用いて非定型データを分析する（Ｓ６０４０）。解析の結果、非定型データの異常がある場合は、当該非定型データに対して「異常あり」の学習データを追加し（Ｓ６０５０、Ｓ６０６０、Ｓ６０８０）、そうでなければ「異常なし」の学習データを追加する（Ｓ６０５０、Ｓ６０７０、Ｓ６０８０）。

【0061】

図６ないし図１０は、本発明の一実施形態によるサーバー管理システムが提供する機能を示す画面例である。図６はメインダッシュボード画面例である。

【0062】

図６を参照すると、管理サーバー１１０は、管理対象サーバー１０、２０、３０、４０から収集されたリソース情報と、登録された業績件数などに基づいて重要な情報を一つの画面にまとめて表示するメインのダッシュボード画面を提供する。

【0063】

本発明では、特定情報を深く分析し、継続的にモニタリングできるように支援し、ユーザーが頻繁に使用する装備が何であり、ある業務に多くの時間を要しており、管理対象サーバーのコンポーネント別安定化ファームウェア（Firmware）が適用されているか否かなどの様々な情報を、ダッシュボード画面を通じて提供し、ダッシュボード画面を介して、ユーザーが重要管理対象サーバー情報を一目で確認できるように提供することができる。

【0064】

図６の画面例では、サーバー、ストレージ、ネットワーク運営状況情報を表示するが、運営中の総数量と、サーバーメーカー別数量に対するパイチャートを提供する。そして、毎月の業績件数状況情報を提供するが、作業、変更、障害成果件数に関する棒グラフを提供する。

【0065】

また、安定化ファームウェア適用状況情報を表示する際に、ＢＩＯＳ、Ｒ／Ｃ、ＮＩＣ、ｉＤＲＡＣ、ＨＢＡなどの安定化ファームウェア適用装置と未適用装置の割合である安定化適用率に関するチャートを提供する。

【0066】

図７は、リソース管理機能を表示した画面例である。本発明において、管理サーバー１１０は、サーバー等の装備新規設置、変更リストを自動的に収集し、整理し、信頼性の高いデータをリアルタイムで提供するリソース管理機能を提供する。

【0067】

管理サーバー１１０は、リソース管理機能において、ユーザー端末から登録された情報を収集し、標準化されたRedfish RESTful APIを介して、あらかじめ定義された周期に従ってデータセンター内のサーバーのリソース情報を自動的に収集することができる。

【0068】

図７の画面例では、装備情報が表示されており、サーバー、ストレージ、ネットワーク、ＳＡＮ、バックアップ装備、廃棄装備などの装備情報を登録または照会することができる。そして、関連統計情報を提供するために、運営、アイドル、サービス前、廃棄などの装備状態に対するパイチャートを提供し、年度別、ベンダー別運営装備の現状と、最近登録された装備リスト、追加カスタマイズ方式などのさまざまな統計グラフを提供する。

【0069】

図６は、性能管理機能を表示した画面例である。本発明において、管理サーバー１１０は、予定されたタスク、タスクによって変更された事項などに対する管理、障害発生後の履歴、改善結果を管理するための性能管理機能を提供する。これにより、本発明において障害の原因が明確である場合、同じ障害が発生しないように記録管理し、改善が必要な事項に対して担当者を割り当て、改善結果を確認することができる。

【0070】

また、年度、月別、データセンター位置、運営サービス前、アイドルなどの状態に応じた多様な成果状況統計情報を提供することができる。

【0071】

図８の画面例では、オンラインまたはオフラインのジョブ履歴管理を含むジョブ履歴、障害処理履歴管理人の障害履歴、システム変更履歴管理人の変更履歴などが表示されており、バックアップスケジュール管理、業績状況に関する各種統計グラフが表示されている。

【0072】

図９は、自動化管理機能を表示した画面例である。本発明において、管理サーバー１１０は、標準化されたRedfish RESTful APIを介して、同期周期（Daily/Weekly/Monthly）設定、自動化収集値（全て/Chassis/MGMT/CPU/NIC/HBA/DISK/GPUなど）設定、スケジュール情報登録などの自動化収集のためのグループ別実行周期管理と、毎日自動点検を通じて、点検必要対象装備に関する通知情報を提供する自動化管理機能を提供する。

【0073】

図９の画面例では、収集同期周期の設定、自動化収集値のカスタマイズ設定、収集スケジュール情報を登録する自動化設定と、日常点検が必要な装備の自動分類、MGMT（Management Repository）接続エラー装備を確認することができるある日常点検のメニューが表示されている。

【0074】

図９に示すように、管理サーバー１１０は、日常点検のメニューで装備の状態に応じて色を変えて表示することができる。すなわち、装備に異常がなければ記号１（緑丸）で、管理者の点検が必要な場合である「点検必要」であれば記号２（赤丸）で、肉眼で点検が必要な場合である「目視点検必要」であれば記号３（黄色丸）で、MGMTに接続できない場合の「MGMTアクセス不可」の場合、記号４（灰色丸）で表示することができる。

【0075】

図１０は、自動化管理機能を表示した画面例である。本発明において、管理サーバー１１０は、ＩＴインフラ構成要素であるサーバー、ストレージ、ネットワーク、ＳＡＮ等のＩＴインフラ環境を効率的に運営及び管理するために必要な構成図のビュー機能である構成図管理機能を提供する。

【0076】

すなわち、管理サーバー１１０は、ユーザー端末から選択されたリソースであるサーバー、ストレージ、ネットワーク、ＳＡＮ等の構成に対するビュー（View）を自動的に表示する構成も管理機能を提供し、これにより、性能問題及び障害発生時に、より速い意思決定ができるようにする。

【0077】

図１０を参照すると、構成図管理機能においてユーザー端末から選択された装備（サーバー、ストレージ、ネットワーク、ＳＡＮ等）の構成図のビュー機能を提供し、ホスト名（Ｈｏｓｔｎａｍｅ）、装備モデル基準検索及び選択機能を提供し、性能問題や障害発生時にインフラ構成をリアルタイムで確認できるようにする。

【0078】

図１１は、本発明の一実施形態によるサーバー管理システムの構成例を示す図である。図１１の構成例では、ＲｅｄｆｉｓｈＡＰＩが使用され、管理対象サーバーがＭＧＭＴネットワークを介して接続され、管理者端末１２０Ｗｅｂ接続方式で管理対象サーバーに接続することができる。

【0079】

本発明の一実施形態では、サーバー管理システムは、Redfish APIベースのプラットフォームでマルチベンダx86サーバーのハードウェアシステムのインベントリ情報をリアルタイムで収集し、BIOS設定、ファームウェアなどを配布する。これにより、メンテナンス効率の向上と運営コストの削減の効果をもたらすことができる。また、収集されたログ（Log）に基づいて類似装備を把握し、同じ障害を事前に予防できるようにする。

【0080】

図１２は、本発明の一実施形態によるサーバー管理システムにおけるRedfishイベントによるサーバーモニタリング機能を説明するための例示図である。図１２を参照すると、本発明における管理サーバー１１０は、Ｒｅｄｆｉｓｈイベントを介したサーバーモニタリング機能を提供することができる。

【0081】

Redfishイベントは、HTTPSに基づいてサーバーのイベント情報をRedfishクライアントに転送し、管理でアラームが発生するとHTTP POSTに転送され、HTTP GETを介して受信できる。このとき、重要通知メールプッシュ（Push）、状態モニタリング、日常点検の対象サーバーを選別し、必要なデータをロードすることができる。

【0082】

図１３は、本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成ジョブ自動化機能を説明するための例示図である。図１３を参照すると、本発明において管理サーバー１１０は、Ｒｅｄｆｉｓｈを介したサーバー構成作業自動化機能を提供することができる。

【0083】

この機能では、BIOS設定の変更、セキュアブート（Secure Boot）、iDRAC Configurationなどをローカルに配布することができ、アップデートすることができる。また、管理対象サーバーファームウェアインベントリの管理およびアップデートを提供し、サーバー展開時にBIOS標準設定、マネジメント標準設定値を一括適用することで、展開時間を短縮でき、自動化管理機能により、誤設定値が入力されるのを防止できる。また、管理対象サーバーにインストールされたファームウェア情報をあらかじめ設定しておいた周期に応じてアップデートし、緊急ファームウェア配布時に対象装備を自動的に選別し、管理者に電子メールをプッシュする機能を提供する。

【0084】

図１４は、本発明の一実施形態によるサーバー管理システムにおけるRedfishによるサーバー構成自動化機能を説明するための例示図である。本発明では、管理サーバー１１０は、Redfishを介したサーバー構成自動化機能を提供することができる。

【0085】

サーバーが持つ固有の設定値は、SCP（Server Configuration Profile）のメタデータとして格納されるが、このメタデータは、本発明においてRedfish APIを用いて構成することができる。

【0086】

SCPは、エクスポート（Export）、プレビュー（Preview）、およびインポート（Import）が可能であり、これを利用して、本発明におけるサーバー構成自動化機能により、新たに構築されるサーバーに構成情報を適用することができる。

【0087】

SCPは、HTTPS、NFS、CIFSなどの方法で共有でき、XMLとJSON形式で実現される。サーバー構成時にSSHプロトコルを使用すると、多数のアプリケーションを安定して一貫して配布できる。

【0088】

本発明では、物理サーバー配布のための固有の設定値をメタデータとしてファイル共有サーバーにＸＭＬ、ＪＳＯＮ形式で格納し、マネジメントネットワークに接続された新しく構築されるサーバーに構成情報を自動的に適用することができる。このように、本発明の構成自動化機能により、オペレータは、新しいサーバー構成のために各サーバーに別々の接続を行わなくても迅速に新しいサーバーを構成することができる。

【0089】

本発明の一実施形態では、Redfishを利用したＡＩ（Artificial Intelligence）分析機能を提供する。すなわち、ＳＲＣ（Server remote control）（ｉＤＲＡＣ、ｉＬＯ、ＩＰＭＩ）により、サーバー、ストレージ装置の整形、非定型ログデータを収集し、データ分類及び前処理進行過程を実行できる。

【0090】

その後、学習データモデルを利用して装備の状態や障害を予測し、重要な問題が発生したときに文字や電子メールなどでユーザー端末にアラームメッセージを伝達する。

【0091】

本発明のＡＩ分析機能により、正常なトラフィックが何であるかを学習し、異常トラフィックを発見し、ユーザーに必要な危険度の優先順位を設定し、問題を分析して支援することができる。

【0092】

そして、ＡＩを通じて、サーバー運営時に収集されたログを分析して学習し、アルゴリズムを開発し、学習したアルゴリズムを通じて、既存の障害発生と同様のログ情報の確認時に顧客端末１３０に警報メッセージを伝達する障害解決策を提供する。すなわち、ＡＩ分析機能により、事前に障害防止、課題発生、迅速共有、リアルタイム分析などを実行できる。

【0093】

管理サーバー１１０は、管理対象サーバーのＢＢＵ（Backup Battery Unit）周期を確認し、予め定められた周期になると、この内容を該当管理対象サーバーの顧客端末に転送することができる。

【0094】

管理サーバー１１０は、管理対象サーバーのＢＢＵ（Backup Battery Unit）充電容量を点検し、バッテリーの充電効率が予め定められた数値以下に減少すると、この内容を該当管理対象サーバーの顧客端末に通知することができる。

【0095】

また、管理サーバー１１０は、管理対象サーバーのＢＢＵ充電容量を点検し、バッテリーの充電効率が４０％以下に減少すると、この内容を該当管理対象サーバーの顧客端末に通知することができる。

【0096】

例えば、管理サーバー１１０は、管理対象サーバーのＢＢＵ充電容量を点検し、バッテリーの残量が予め定められた数値以下の場合、この内容を該当管理対象サーバーの顧客端末に通知することができる。例えば、管理サーバー１１０は、管理対象サーバーのＢＢＵ残容量を点検し、バッテリーの残量が１０％以下の場合、この内容を該当管理対象サーバーの顧客端末に通知することができる。

【0097】

また、管理サーバー１１０は、管理対象サーバーのＢＢＵ書き込みポリシー（ＷｒｉｔｅＰｏｌｉｃｙ）を点検し、書き込みポリシーが変更されると、この内容を該当管理対象サーバーの顧客端末に通知することができる。

【0098】

本発明の多数のサーバーを統合し、管理するサーバー統合管理システムのためのものであり、サーバーの様々な機能を診断し、障害を予め予測し、警告し、解決策を一緒に提示する。

【0099】

本発明では、サーバーの様々な機能のうち、ＢＢＵ（Backup Battery Unit）を例示して説明する。Dell（登録商標）サーバーを例にとると、RAIDコントローラのバッテリー障害によるキャッシュデータの損失を防ぐために、BBUのバッテリーの状態の点検及び先制的な交換の進行が必要である。

【0100】

このために、Dell（登録商標）サーバーのログ確認により、バッテリーフル充電（Full Charging）効率（％）を確認し、フル充電効率が50％未満の装備を確認し、バッテリー交替を進める。３６ヶ月以降のバッテリー充電効率は約70％前後で自然に減少し、これを考慮して、約２０％程度の追加的な減少があるバッテリーに対して充電効率不良と判定することができる。

【0101】

本発明のサーバー統合管理システムは、ＢＢＵ周期点検、充電容量点検、残容量確認、書き込みポリシー（ＷｒｉｔｅＰｏｌｉｃｙ）点検を実行し、これによりキャッシュデータの損失を防止し、バッテリー状態の危険因子を事前に防止できる。

【0102】

本発明のサーバー管理システムは、あるイベントが発生したときに、そのイベントを介してサーバーに障害が発生する可能性があることを診断し、予め当該サーバーのシステムに警告し、解決策に関する情報を一緒に伝達する。

【0103】

これに関して、サーバーで発生するイベントは非常に多様であり、以前になかったイベントを新たに発生できる。本発明では、このようなサーバーで発生し得るイベントのうちいくつかのイベントを例示する。

【0104】

１．iDRAC7バージョン1.51.51に適用された製品のDell（登録商標） R720サーバーでファン (FAN) ノイズ (Reading 12,000 RPM 以上)
これに対する解決策は、iDRAC7バージョン1.46.45にダウングレードすることを推奨する。

【0105】

２．ラック PDU#1およびPDU#2の電力使用率がPDU#1に集中
図３４を参照すると、Ｄｅｌｌ（登録商標）サーバーだけでなく、ＨＰ（登録商標）サーバーも同様に電源(Power Supply)のデフォルト(Default)としてアクティブスタンバイ(Active Standby)として動作するように設定されており、これにより電力がラック(Rack)PDU の一方に追い込まれる状況が発生するのにバランス（Balance）を合わせるためにはPrimary－PSUの割合を合わせる必要がある。

【0106】

３．Dell（登録商標）サーバー製品の第12世代～第14世代カーネルアップデート（kernel update）後のOSの異常動作
このとき、管理サーバー１１０は、デル（登録商標）サーバーでカーネルアップデート後、ＯＳ（Operating system）上で異常動作が発見された場合、これにより発生し得る予想障害発生メッセージを該当管理対象サーバーに送信し、それに伴って予測障害に対する解決策を該当管理対象サーバーに伝達する。

【0107】

４．TCP/IPポート (Port) 不足によるサービス不可
これは、ウィンドウズ（登録商標）（Windows）2008でアップタイム(Uptime)が497日以降の場合、ネットワーク（Network）TIME_WAITセッション（session）が閉じられずに残っている現象である。これにより、ポートを占有し、それ以上のポートがない場合に問題になる。ウィンドウズ（登録商標）2008サーバーとウィンドウズ（登録商標）2012サーバーが対象となり、アップデートされたパッチを削除することで障害を解決できる。

【0108】

５．ウィンドウズ（登録商標）2003～2022 イベントログの発生
６．メモリーの生産サイクルの診断
これは、特定メモリーの特定生産サイクルが不良であることを確認するもので、障害対象は、第13世代装備(R730、R930、R630)であり、障害OSはウィンドウズ（登録商標）2012 R2サーバー(Server)でKB3064209 hotfixを含むサーバーで、解決策は、対応するhotfixを削除することである。

【0109】

本発明において、管理サーバー１１０は、管理対象サーバーのメモリー生産周期を診断し、予め定められたメモリー生産周期を不良と判定し、この内容を該当管理対象サーバーに通知する。

【0110】

７．PCIe TypeのSSDを使用している場合、デバイス設定で応答が停止する現象
これに対する解決策は、BIOS 1.1.4 -> 1.2.10にアップデートすることである。

【0111】

８．12G サーバーのBIOS アップデート後、温度センサーが正常に動作しないため、ビープ音 (Alert_) が発生し続ける問題。
これに対する解決策は、BIOS 2.5.2バージョンを診断し、最新のファームウェアでアップデートすることである。

【0112】

９．パッチアップデート後BSOD発生後ブート(Booting)不可現象
このイベントは、2014年8月のPatch Tuesday update WindowsエラーKB2982791による現象である。障害対象は、windows（登録商標）2008サーバーであり、パッチアップデートを通じて障害を解決することができる。

【0113】

１０．ウィンドウズ（登録商標）2012 Active Directorを用いたクライアント（Client）でDNS接続エラーの発生
サーバーからドメインアカウントにログインすると、アカウントとパスワードが正常であっても「ユーザー名またはパスワードが正しくありません」というエラーが発生する。ウィンドウズ（登録商標）サーバー2008 R2/ウィンドウズ（登録商標）７以降、DES-CBC-MD5およびDES-CBC-CRC暗号化を使用せず、AES256-CTS-HMAC-SHA1-96、AES128-CTS-HMAC-SHA1-96、RC4 -HMAC暗号化のみを使用するが、ADサーバーがウィンドウズ（登録商標）サーバー2012 R2で、ドメインメンバー（Domain Member）がウィンドウズ（登録商標）サーバー2008 R2またはウィンドウズ（登録商標）７の場合、コンピューターアカウントのパスワードアップデート時にAESキー生成が失敗する製品上の問題により発生した現象である。

【0114】

１１．GNU Bash 4.3 Shellに存在する脆弱性
Bashの脆弱性により、攻撃者は、Webサーバーのコンテンツとコードの変更、Webサイトの改ざん、ユーザーデータの漏洩、およびDDoS攻撃の実行が可能であることが知られている。この他にもSSH、DHCPプロトコルなど多様な環境下でのBashコードインジェクション脆弱性の攻撃シナリオも提起されている状況である。障害の対象は、Red Hat Enterprise Linux（登録商標） 5,6,7サーバーであり、障害解決策は、Bashアップデートである。

【0115】

１２．GNU Cライブラリ（glibc）のバッファオーバーフローの脆弱性
ネットワーク接続時によく使われる gethostbyname(), gethostbyname2()の関数呼び出し時に、脆弱な関数が呼び出される現象として、外部の攻撃者は脆弱なサーバーで、リモートで任意のコードを実行させることができる。障害の対象は、Red Hat Enterprise Linux（登録商標） 5,6,7サーバーであり、障害解決策は、GLIBCアップデートである。

【0116】

１３．Radhat V5およびV6シリーズOSのバグ
Intel（登録商標） CPUを使用するRed Hat Enterprise Linux（登録商標）6 or 5 すべてのバージョンで 208.5 日以降に Reboot現象が発生するバグである。障害の対象は、Red Hat Enterprise Linux（登録商標） 5,6サーバーであり、障害解決策は、カーネルアップデートである。

【0117】

１４．レイドコントローラのバッテリーフェイル(Raid Controller Battery Fail)
レイドコントローラキャッシュ（Raid Controller Cache）の使用不可によるI/O性能が低下する。障害の対象は、Dell（登録商標）Perc 5i、6i用のRaid Controller Batteryであり、障害解決策は、Dell（登録商標）Perc 5i、6i用のRaid Controller Batteryの使用サイクル４～５年ごとに事前に交替することである。

【0118】

１５．CPU IERR エラー (Error) 発生によるシステムダウン（SYSTEM DOWN）
障害対象は、インテル（登録商標）アイブリッジV2使用CPU使用サーバー（PE R720、PE R920）であり、障害解決策は、BIOS設定（Setting）を変更することである。たとえば、システムプロファイル設定（System Profile Settings）をシステムプロファイル（System Profile）をCustomに設定し、CPUパワーマネジメント（Power Management）をMaximum Performance、C1EをDisabled C States Disabled、Monitor/MwaitをDisabledに設定する。

【0119】

１６．iDrac 1.50.50 F/W(Firmware)(該当バージョン検索)使用時に管理Web接続不可
iDrac F/W(Firmware) OS上でのF/Wアップグレード(Upgrade)するか、日常生活でのメディアによるアップグレードを通じて、1.51.51にアップグレードする。

【0120】

本発明は、マルチベンダを支援するサーバー管理システムを提案する。例えば、本発明では、Ｄｅｌｌ（登録商標）、ＨＰ（登録商標）、Ｌｅｎｏｖｏ（登録商標）など３社のハードウェアシステムに関する情報を１つのインベントリ（Ｉｎｖｅｎｔｏｒｙ）に格納し、インベントリに格納された情報を用いて、ハードウェアに関する全ての情報を照会することができ、機能を活用できるように実現する。

【0121】

本発明の説明の便宜のために、Ｄｅｌｌ（登録商標）、ＨＰ（登録商標）、Ｌｅｎｏｖｏ（登録商標）などの製造業者を例示して、マルチベンダを支援するサーバー管理システムについて説明する。

【0122】

図１５は、本発明の一実施形態によるサーバー管理システムにおいてマルチベンダを支援してサーバーを管理する方法を例示するフローチャートである。図１５において、各ステップの実行主体は管理サーバー１１０である。

【0123】

図１５を参照すると、管理対象サーバーを登録する（Ｓ２０１）。このとき、各サーバーの管理ＩＰ情報を用いて対象サーバーを登録することができる。たとえば、Dell（登録商標）の場合はiDRAC、HP（登録商標）の場合はiLO、Lenovo（登録商標）の場合はiMMを使用してターゲットサーバーを登録できる。

【0124】

次に、各サーバーに接続するか否かを把握し（Ｓ２０３）、マルチベンダハードウェアインベントリ情報を収集する（Ｓ２０５）。本発明の一実施形態では、ハードウェア共通標準であるRedfish API（Application Programming Interface）を用いて、メーカーを区別することなくx86サーバーのハードウェアシステムのインベントリ情報を収集することができる。

【0125】

その後、収集したインベントリ情報を格納する（Ｓ２０７）。緊急ファームウェアアップデートを含むファームウェアアップデートイベントがある場合、全ての管理対象サーバーに対してファームウェアアップデートを進める（Ｓ２０９）。次に、変更されたアップデート情報を確認する（Ｓ２１１）。本発明の一実施形態では、Redfish APIを介してファームウェアアップデート情報を確認することができる。

【0126】

そして、各サーバーの安全度、点検対象の有無、重要度等に応じてグループを設定し（Ｓ２１５）、リアルタイムでサーバー情報を確認する（Ｓ２１７）。このように、本発明の一実施形態ではRedfish APIを利用して、各サーバーのハードウェア詳細仕様、OS(Operating system)情報、ファームウェア情報、ドライバー情報など運営中のx86サーバーに関する様々な情報を収集することができ、x86サーバーの標準化管理を実行できる。

【0127】

図１６は、本発明の一実施形態によるサーバー管理システムにおける障害のログおよびパターンを分析して障害を予防する方法を示すフローチャートである。図１６において各ステップを実行する主体は管理サーバー１１０である。

【0128】

図１６を参照すると、管理対象サーバーのどの装備で障害が発生した場合（Ｓ４０１）、ログおよびパターンを分析する（Ｓ４０３）。その後、分析したデータを格納する（Ｓ４０５）。障害が解決されると（Ｓ４０７）、該当装備と同様の装備を分類し（Ｓ４０９）、分類された類似装備に対して障害を事前に対応処理を実行する（Ｓ４１１）。このように、本発明において障害問題発生時にログ及びパターンを分析し、自動的に類似装置を分類することにより、類似装置で発生する障害を予防することができる。

【0129】

図１７は、本発明の一実施形態によるサーバー管理システムにおいてＲｅｄｆｉｓｈＡＰＩを利用してマルチベンダを支援する動作モデルを例示したものである。図１７に示すように、本発明では、ＲｅｄｆｉｓｈＡＰＩを利用して、Ｄｅｌｌ（登録商標）、ＨＰ（登録商標）、Ｌｅｎｏｖｏ（登録商標）などメーカーの区別なしにｘ８６サーバーハードウェアシステムに対するインベントリ情報を収集し、収集した情報を照会して活用することができる。

【0130】

たとえば、Dell（登録商標）の場合はiDRACを使用してデータを収集し、HP（登録商標）の場合はiLOを使用してデータを収集し、Lenovo（登録商標）の場合はiMMを使用してデータを収集する。また、Redfish APIを利用して、複数のサーバーにOSやファームウェアを配布してインストールすることができる。

【0131】

そして、本発明ではRedfish APIを用いて、各サーバーのハードウェア仕様、OS情報、ファームウェア情報などを迅速に確認することができる。

【0132】

また、本発明でパターンを分析して障害を予測することができ、ハードウェアログを用いてパターン分析を進めることができる。

【0133】

Redfish APIは、2015年に最初にリリースされて以来、継続的なアップデートが行われており、複数のサーバー製造ベンダー社を支援し、IPMIと同じ機能を提供している。さらに、Redfish APIはBIOSとSecure Boot設定機能、ファームウェアアップデート機能、ストレージとサーバーのネットワーク設定機能を支援する。そして、Open Compute Platform、Open stack、SNIA（Storage Networking Industry Association）などを支援し、ネットワークスイッチマネジメント、外付けストレージマネジメントなどを支援する。

【0134】

Power Edgeサーバーの管理ツール（tool）であるiDRACは、Redfishを利用してRedfish RESTful APIを支援する。例えば、iDRACは、サーバー電源（Reset、Reboot、Power Control）、サーバーハードウェアインベントリ、サーバーモニタリングおよび状態点検、システムログ収集、サーバーの状態変化点検、およびアラームを実行できる。

【0135】

パワーエッジサーバーは、Redfishを介してサーバーの初期設定を自動化できる。そして、iDRAC初期設定、BIOS、RAIDコントローラ、ネットワークカードなど様々な構成情報をテンプレート化し、サーバーの自動化展開を実行できる。

【0136】

パワーエッジサーバーのiDRACでRedfishの活用例の中でサーバー構成の自動化（Auto deployment）を例示すると、次の通りである。

【0137】

サーバーが持つ固有の設定値は、SCP（Server configuration profile）のメタデータとして格納され、Redfish APIで構成できる。また、Redfish APIを介して、BIOS、iDRAC/LC、PERC RAID Controller、NIC、HBAなどの各種設定情報を設定できる。

【0138】

SCPは、エクスポート、プレビュー、インポートが可能で、新しく構築されたサーバーに設定情報を自由に適用できる。SCPは、HTTS、NFS、CIFSなどの方法で共有でき、XMLやJSONファイル形式などで実現することができる。

【0139】

図１８ないし図３１は、本発明の一実施形態によるサーバー管理システムの画面例を示す図である。図１８は初期画面例であり、管理対象サーバーに対して自動的に収集したインベントリ及びログに関する情報を一目で見ることができるようにダッシュボードを介して支援する画面例である。

【0140】

図１９は、管理対象サーバーのインベントリ情報をリアルタイムで確認できる画面例であり、この画面例で変更された情報に対しても自動的にインベントリ情報が変更される。

【0141】

図２０の画面例では、管理対象サーバーの問題が確認されたときに容易に認識できるように、パーツごとに記号５（赤丸）で表され、正常なパーツは記号６（緑丸）で示されている。

【0142】

図２１は、ファームウェア（Ｆ／Ｗ）情報を含む全体管理対象サーバーのリアルタイムマネジメント情報を確認できる画面例である。

【0143】

図２２は、全体管理対象サーバーのリアルタイムＣＰＵ詳細情報及び現在の状態を確認できる画面例である。

【0144】

図２３は、全体管理対象サーバーのリアルタイムメモリー詳細情報及び現在の状態を確認できる画面例である。

【0145】

図２４は、全体管理対象サーバーのリアルタイムＲａｉｄＣｏｎｔｒｏｌｌｅｒ詳細情報及び現在の状態を確認できる画面例である。

【0146】

図２５は、全体管理対象サーバーのリアルタイムＤｉｓｋ詳細情報及び現在の状態を確認できる画面例である。

【0147】

図２６は、全体管理対象サーバーのＰＳＵ（Power supply）リアルタイム詳細情報および現在の状態を確認できる画面例である。

【0148】

図２７及び図２８は、全体管理対象サーバーの収集ロゴに関するリアルタイム詳細情報を確認できる画面例であり、リアルタイムＶｅｎｄｏｒＨＷエラーコードを収集して自動的に分類し、エラーコード別問題装備確認が可能である。

【0149】

図２９は、障害分析画面例として、障害の原因、結論、交替時期を含む障害分析情報が表示されている。

【0150】

図３０は、顧客会社と比較した各サーバー別障害分析分布図を例示した画面例である。

【0151】

図３１は、サービスレポート機能を例示した画面例であり、発生時期、問題事項、問題解決及び再発防止措置事項を含むレポート内容が例示されている。

【0152】

図３２は、本発明の一実施形態によるシステム装備を分類した図表であり、図３３および図３４は、本発明の一実施形態によるハードウェア症状とその原因を記載した図表である。

【0153】

図３５および図３６は、本発明の一実施形態によるサーバー管理システムにおける障害を事前に対応する方法を表示するフローチャートである。

【0154】

図３５を参照すると、管理サーバー１１０は、管理対象サーバーでハードウェア関連問題が発生すると（Ｓ１０１）、図３２の分類表を参照して、障害発生の可能性が高い類似装備を危険装備に分類する（Ｓ１０１、Ｓ１０３）。次に、分類された危険装備に対する警告メッセージを発送し（Ｓ１０５）、障害事前に対応措置を実行する（Ｓ１０７）。図３２の分類表を参照すると、本発明の一実施形態におけるシステム装備の具体的な類似判断基準が例示されており、同じクラス装備の分類、同じＣＰＵ装備の分類、同じメモリー装備の分類、同じＮＩＣ装備の分類、同じディスク装備の分類、同じＨＢＡ装備の分類、同じＢＩＯＳ装備の分類、同じドライバーバージョン装備の分類、同じＯＳ装備の分類、同じファームウェアバージョン装備の分類などが例示されている。

【0155】

図３６を参照すると、管理サーバー１１０は、管理対象サーバーでハードウェア関連の問題が発生すると（Ｓ３０１）、障害の症状を把握する（Ｓ３０３）。次に、図３３及び図３４の図を参照して、障害症状に応じた症状コードを確認する（Ｓ３０５）。その後、症状コードに対応する原因を確認し（Ｓ３０７）、それに応じて対応策レポートを発送する（Ｓ３０９）。次に、障害原因に対応する障害対応措置を実行する（Ｓ３１１）。ステップＳ３０５で障害症状に対応する症状コードがない場合は、新たな症状コードを生成して図３３および図３４のリストに追加する（Ｓ３１３）。図３３および図３４を参照すると、本発明の一実施形態による障害症状別症状コードに対応する障害原因が例示されている。

【0156】

つまり、RAC1198はiDracファームウェア問題、コネクタブルメモリー障害はメモリー問題とバイオスファームウェア問題、Link Failure発生はNIC障害とファームウェア問題、Link Failure Count多数発生はNICドライバーとファームウェア問題、NIC Link is DownはNICドライバー、ファームウェアの問題、リンクの状態とサーバーの確認要請はNICドライバーとファームウェアの問題、HOST_DOWNの発生はNICのドライバーとファームウェアの問題、サーバーの前面の黄色の点灯の発生はiDracのファームウェアの問題、SWC5008：criticalメッセージ出力はiDracのファームウェアの問題、NO_PARTITIONアラームの発生はディスク障害、Reset adapteはBIOSファームウェア問題、Correctable memory errorはメモリーの問題とBIOSファームウェアの問題、CPUの性能低下はBIOSファームウェアの問題、MemoryおよびSlot表示にはないメモリー問題とBIOSファームウェア問題、Disk fault errorはディスク障害、disk predicted failはディスクBadBlockによる障害、定期的なFAN 6 認識問題はFan 6 障害、光量400以下によるFaultはGbic障害、NIC GBIC通信不可のGbic障害、System無限リブートはバイオスファームウェアの問題、LCD Panel特定メッセージ出力はiDracファームウェアの問題、iDRACで繰り返しエラーメッセージが発生するとiDracファームウェアの問題、vCenterエージェントと同期エラーはEXSiバージョンとOSバージョンの問題、サーバーがRebootする現象はバイオスファームウェア問題、HBA Write速度低下はHBAファームウェアとドライバーの問題、HBA読み込み速度の低下はHBAファームウェアとドライバーの問題、HBAリンクダウンはHBA GbicとCardの問題、HBAの冗長節体障害はHBA GbicとCardの問題、Riser1認識不良はRiser Cardの問題、Riser2の認識不良はRiser Cardの問題、ネットワークの冗長障害はネットワークカードの問題、PSU Alert黄色のLED点灯はPSU障害、低電圧による異常発生はPSU障害、PXEブート不可のバイオス設定およびNIC ファームウェア/ドライバー問題、POSTブート不可のマザーボード障害、LifeCycle接続不可のマザーボードの障害、iDRAC Hangの症状はiDracファームウェアの問題、iDRAC Networkの切断はマザーボードの障害とiDracのファームウェアの問題、iDRAC SNMPサービスの障害の発生はiDracのファームウェアの問題、サーバーの使用中に突然サーバーの電源が切れる症状はマザーボードの問題、Medium Errorの場合はディスクの障害、ERROR Event確認要請はError Eventによる問題、CMC接続不可のCMCファームウェア問題が原因で対応される。

【0157】

また、DSET分析要請は分析による障害、TSR Log分析要請は分析による障害、NFSサービス起動失敗はNFS設定とOS設定点検、vCenterに接続できないEXSiバージョンとOSバージョンの問題、NIC ResetはNetwork Cardの問題、GPU認識不可のGPUカード障害、OSクラッシュ発生はOSダンプ解析、ネットワークエラー／ドロップパケット発生はネットワークカードの問題、CRCエラー発生はネットワークカードの問題、サーバーのスイッチが切れる現象はネットワークカードの問題、ネットワーク（ボンディング）において通信がスムーズにならない問題はNetwork Cardの問題、メモリー交替後同じスロットイベント発生はメモリーの障害またはマザーボードの障害、Disk Read Only状態でアクセスできないディスクの障害またはRAID構成の問題、スイッチが月に３～４回 Hangする症状はマザーボードまたはOSバージョンの問題、LACP Network Speedの問題が発生するのはNetwork Cardの問題、クラスタのフェイルオーバーの発生はクラスタの設定の問題またはHWの障害、RTSP同期の失敗はOSの設定またはNetworkの障害、セッションの低下現象の発生はNetwork CardまたはGbicの問題、不明な電源遮断はPSUの障害、サーバーの遅れ、ハング現象はアプリケーションまたはHWの障害、Network Ping Loss はNetwork CardまたはGbicの問題、LoadAvgの上昇はCPU 点検が必要、Fatal Error 発生はPCI CardまたはRiser Card問題、PXEインストール中の停止またはパフォーマンス低下はNetwork CardまたはGbic問題、Blue Screen発生(0x00004f)はマザーボード/BIOS/ディスク/メモリー障害、Blue Screenはマザーボード/BIOS/ディスク障害、OS Booting失敗はマザーボード/BIOS/ディスク障害、プロセスDownおよびOSインストール中のパニックはマザーボード/BIOS/ディスク障害、サーバーからの臭いはファン/マザーボード/PSU問題、NAS接続不可対策はネットワーク/OS設定問題、KVM接続不可能なマザーボード/KVMケーブル/KVM問題、Disk Amber LEDはディスク障害、Postブート時にDelayはマザーボード/ファン/PCI/メモリー問題、電源不良対策はPSU障害、Teaming性能低下はネットワーク/OS設定の問題、VD Bad Blockはディスク障害、HBA LoopはHBA障害、Raid構成情報が見えないというファームウェア/ディスクドライバー問題、Volume認識不可能なファームウェア/ディスクドライバー問題、Kernel PanicはOS/App問題、最大性能使用時のサーバーのリブートはCPU/PSU/マザーボード/メモリー問題、サーバーの処理が著しく遅くなるのはCPU/PSU/マザーボード/メモリー/ディスクの問題、サーバーの電源が入らないのはPSU障害が原因で対応される。

【0158】

以上、本発明をいくつかの好ましい実施例を用いて説明したが、これらの実施例は例示的なものであり、限定的なものではない。本発明が属する技術分野で通常の知識を有する者であれば、本発明の思想と添付の特許請求の範囲に提示された権利範囲から逸脱することなく様々な変更と修正を加えることができることが理解されるであろう。

【符号の説明】

【0159】

110:管理サーバー
112:データベース
120:管理者端末
130:顧客端末
10、20、30、40:管理対象サーバー

【図1】