特許第6828096号(P6828096)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 廣逹電腦股▲ふん▼有限公司の特許一覧

特許6828096サーバハードウェア障害の分析及びリカバリ
<>
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000005
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000006
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000007
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000008
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000009
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000010
  • 特許6828096-サーバハードウェア障害の分析及びリカバリ 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6828096
(24)【登録日】2021年1月22日
(45)【発行日】2021年2月10日
(54)【発明の名称】サーバハードウェア障害の分析及びリカバリ
(51)【国際特許分類】
   G06F 11/07 20060101AFI20210128BHJP
【FI】
   G06F11/07 193
   G06F11/07 140A
   G06F11/07 175
【請求項の数】8
【全頁数】17
(21)【出願番号】特願2019-128482(P2019-128482)
(22)【出願日】2019年7月10日
(65)【公開番号】特開2020-27615(P2020-27615A)
(43)【公開日】2020年2月20日
【審査請求日】2019年7月10日
(31)【優先権主張番号】16/101,749
(32)【優先日】2018年8月13日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】508018934
【氏名又は名称】廣達電腦股▲ふん▼有限公司
【氏名又は名称原語表記】Quanta Computer Inc.
(74)【代理人】
【識別番号】100108833
【弁理士】
【氏名又は名称】早川 裕司
(74)【代理人】
【識別番号】100162156
【弁理士】
【氏名又は名称】村雨 圭介
(72)【発明者】
【氏名】錢 威宇
【審査官】 三坂 敏夫
(56)【参考文献】
【文献】 特開2012−178014(JP,A)
【文献】 特開平11−265322(JP,A)
【文献】 特開2004−259044(JP,A)
【文献】 特開2016−152011(JP,A)
【文献】 特開2014−146110(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/07
11/30− 11/36
(57)【特許請求の範囲】
【請求項1】
データセンタシステムで発生するハードウェア障害イベントを自動的に管理する方法であって、
前記ハードウェア障害イベントに対応するハードウェア障害イベント分析のデータを収集する工程であって、前記ハードウェア障害イベント分析のデータは、前記ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている、工程と、
前記サーバデバイスのレポートから受信した統計データを処理する工程と、
処理された統計データに基づいてハードウェアリカバリを実行する工程と、
前記ハードウェア障害イベントの原因を識別する工程と、前記ハードウェア障害イベントが修復可能又は修復不可能なエラーの何れかの結果であるかを判別する工程であって、前記ハードウェア障害イベントの原因がBIOSサービスルーチンによって決定される、工程と、
前記ハードウェア障害イベントを識別する工程であって、障害位置、障害カテゴリ、障害タイプ、及び、障害重大度のうち少なくとも1つを識別する、工程と、
前記ハードウェア障害イベントの識別の通知をBMCから受信する工程と、
前記レポート内のデータオブジェクトを表現するために、人間が読めるテキストを使用する言語非依存のオープンデータフォーマットを受信する工程と、
を含むことを特徴とする方法。
【請求項2】
前記ハードウェア障害イベント分析のデータを収集する工程は、ハードウェア障害イベント検出プロセスを、前記サーバデバイスのベースボード管理コントローラ(BMC)ファームウェアに記憶する工程を含み、前記レポートは、ハードウェア障害イベントレポートと、デバイスレポートと、を含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記レポートの分析コンポーネントにおいて、データの中心傾向分析を実行する工程を含み、
前記中心傾向分析は、
前記ハードウェア障害イベントに関連するオペレーティングシステム及びソフトウェアサービスのリスクを分析する工程と、
前記サーバデバイスの保護の方向性を分析する工程と、
前記ハードウェア障害イベントの傾向及び前記ハードウェア障害イベントの影響を予測する工程と、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記ハードウェア障害イベントを測定する工程と、予測性分析プロセスによってリスク評価を生成して、前記ハードウェア障害イベントの診断証明を生成する工程と、を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記ハードウェアリカバリを実行する工程は、前記サーバデバイスのリカバリポリシーを検査する工程と、リカバリメカニズムをスケジューリングする工程であって、前記リカバリメカニズムは、前記リカバリポリシーに基づいて、即時的な修復又は遅延の修復の何れかにスケジュールされる、工程と、
前記サーバデバイスの性能欠陥についてハードウェア障害イベントを監視する工程と、
を含むことを特徴とする請求項1に記載の方法。
【請求項6】
データセンタシステムで発生するハードウェア障害イベントを自動的に管理するシステムであって、
それぞれサーバデバイスを有する複数のラックサーバと、
前記サーバデバイスに接続されたデータセンタ管理システムと、を備え、
前記データセンタ管理システムは、
前記ハードウェア障害イベントに対応するハードウェア障害イベント分析のデータを収集する工程であって、前記ハードウェア障害イベント分析のデータは、前記ハードウェア障害イベントを被る前記サーバデバイスのレポートとして構成されている、工程と、
前記サーバデバイスのレポートから受信した統計データを処理する工程と、
評価された統計データに基づいてハードウェアリカバリを実行する工程と、
前記ハードウェア障害を識別する工程であって、障害位置、障害カテゴリ、障害タイプ、及び、障害重大度のうち少なくとも1つを識別する、工程と、
前記ハードウェア障害イベントの識別の通知をBMCから受信する工程と、
前記レポート内のデータオブジェクトを表現するために、人間が読めるテキストを使用する言語非依存のオープンデータフォーマットを受信する工程と、
を行うように構成されている、
ことを特徴とするシステム。
【請求項7】
前記ハードウェア障害イベント分析のデータを収集する工程は、ハードウェア障害イベント検出システムを、前記サーバデバイスのベースボード管理コントローラ(BMC)ファームウェアに記憶する工程を含み、前記レポートは、ハードウェア障害イベントレポートと、デバイスレポートと、を含む、ことを特徴とする請求項に記載のシステム。
【請求項8】
前記データセンタ管理システムは、前記ハードウェア障害イベントの原因を識別する工程と、前記ハードウェア障害イベントが修復可能又は修復不可能なエラーの何れかの結果であるかを判別する工程と、を行うように構成されている、ことを特徴とする請求項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、データセンタで発生する障害イベントを管理するための自動管理システム及び方法に関する。
【背景技術】
【0002】
情報ベースの経済の需要の増大に応じて、データセンタ及び情報技術ネットワークが世界中で急増し続けている。この展開は、地理的に異なるコンピューティングリソースを互いにリンクさせる広範囲に分散したコンピュータネットワークや、電力、冷却及びコンピューティングインフラストラクチャを様々なアプリケーションに提供するデータセンタ等のように様々な形態で行われてきた。
【0003】
一般的なデータセンタは、電力、冷却及び外部通信設備への接続を必要とする複数の機器ラックを有する。現代のデータセンタやネットワークルームでは、これらの設備で用いられるコンピューティング装置の密度の増加により、これらに関連する電力システムに負担がかかる。このコンピューティング装置は動作中に熱を発生するので、これらの設備の冷却システムにも負担がかかる。
【0004】
よって、効率的なデータセンタ操作及び管理ツールが必要とされている。データセンターを管理するための従来の方法の殆どは、以前の操作記録に依存している。一般的なデータセンタ操作及び管理ツールでは、データセンタの障害は、手動で管理されている。この場合、障害イベントの発生を予測することが困難である。また、以前に発生したことのない新たなタイプの障害イベントに対して予防的な対策及び予測を行うことも困難である。
【0005】
以下は、本発明の技術の基本的な理解を提供するための1つ以上の実施形態の簡単な概要である。この概要は、本技術の全ての企図された実施形態の広範な概要ではない。全ての例のキー又は重要な要素を特定することも、本発明の技術の何れか又は全ての態様の範囲を表現することも意図していない。この唯一の目的は、以下のより詳細な説明の前置きとして、1つ以上の例のいくつかの概念を簡略化された形式で提示することである。
【発明の概要】
【発明が解決しようとする課題】
【0006】
データセンタシステムで発生する障害イベントを自動的に管理する方法及びシステムを提供する。本方法は、ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集する工程を含む。ハードウェア障害イベント分析は、ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている。また、本方法は、サーバデバイスのレポートから受信した統計データを処理する工程を含む。さらに、本方法は、評価された統計データに基づいてハードウェアリカバリを実行する工程を含む。
【課題を解決するための手段】
【0007】
本発明のいくつかの実施形態では、ハードウェア障害イベント分析を収集する工程は、ハードウェア障害イベント検出システムをサーバデバイスのベースボード管理コントローラ(BMC)ファームウェア内に記憶する工程を含む。また、本方法は、ハードウェア障害イベントの原因を識別する工程と、ハードウェア障害イベントが修復可能又は修復不可能なエラーの何れの結果であるかを判別する工程と、を含むことができる。本発明のいくつかの実施形態では、ハードウェア障害イベントの原因は、BIOSサービスルーチンによって決定される。さらに、本方法は、ハードウェア障害イベントを識別する工程を含むことができる。いくつかの実施形態では、ハードウェア障害イベントを識別する工程は、障害位置、障害カテゴリ、障害タイプ、及び/又は、障害重大度(fault severity)のうち少なくとも1つを識別する工程を含むことができる。さらにまた、本方法は、ハードウェア障害イベントの識別の通知をBMCから受信する工程を含むことができる。本発明のいくつかの実施形態では、レポートは、ハードウェア障害イベントレポートと、デバイスレポートと、を含む。本発明のいくつかの実施形態では、レポート内のデータオブジェクトを表現するために、人間が読めるテキストを使用する言語非依存のオープンデータフォーマットを受信することができる。また、本方法は、レポートの分析コンポーネントにおいて、データの中心傾向分析(central tendency analysis)を実行する工程を含むことができる。
【0008】
いくつかの実施形態では、中心傾向分析は、ハードウェア障害イベントに関連するオペレーティングシステム及びソフトウェアサービスのリスクを分析する工程と、サーバデバイスの保護の方向性を分析する工程と、ハードウェア障害イベントの傾向及びハードウェア障害イベントの影響を予測する工程と、を含む。いくつかの実施形態では、本方法は、ハードウェア障害イベントを測定する工程と、予測性分析プロセスによってリスク評価を生成して、ハードウェア障害イベントの診断証明(certificate of diagnosis)を生成する工程と、をさらに含むことができる。本発明のいくつかの実施形態では、ハードウェアリカバリを実行する工程は、サーバデバイスのリカバリポリシーを検査する工程を含むことができる。また、本方法は、リカバリメカニズムをスケジューリングする工程を含むことができる。いくつかの実施形態では、リカバリメカニズムは、リカバリポリシーに基づいて、即時修復又は遅延修復の何れかにスケジュールされる。さらに、本方法は、サーバデバイスの性能欠陥についてハードウェア障害イベントを監視する工程を含む。
【0009】
データセンタシステムで発生するハードウェア障害イベントを自動的に管理するシステムも提供される。本システムは、ラックサーバを含み、各ラックサーバは、サーバデバイスを含む。また、システムは、サーバデバイスに接続されたデータセンタ管理システムを含む。データセンタ管理システムは、ハードウェア障害イベントに対応するハードウェア障害イベント分析を収集するように構成されている。ハードウェア障害イベント分析は、ハードウェア障害イベントを被るサーバデバイスのレポートとして構成されている。また、データセンタ管理システムは、サーバデバイスのレポートから受信した統計データを処理し、評価された統計データに基づいてハードウェアリカバリを実行するように構成されている。
【0010】
本開示のさらなる特徴及び利点は、以下の説明に記載され及びその説明から部分的に明らかになり、又は、本明細書に開示された原理の実施によって理解することができる。本開示の特徴及び利点は、添付の特許請求の範囲において特に指摘された機器や組み合わせによって実現し、得ることができる。本開示のこれら及び他の特徴は、以下の説明及び添付の特許請求の範囲から十分に明らかになり、又は、本明細書に記載された原理の実施によって理解することができる。
【発明の効果】
【0011】
本発明によれば、新たなタイプの障害イベントに対して予防的な対策及び予測が可能になる。
【0012】
上記の開示内容と、その利点及び特徴と、を得ることができる方法を説明するために、添付の図面に示された特定の例を参照することによって、上記の原理のより詳細な説明が与えられるであろう。これらの図面は、本開示の例示的な態様のみを示すものであり、よって、本発明の範囲を限定するものとみなされるべきではない。以下の図面を用いることにより、これらの原理が、さらなる詳細と共に記載及び説明される。
【図面の簡単な説明】
【0013】
図1】従来のデータセンタシステム100を示す図である。
図2】本発明の一実施形態による、例示的なデータセンタシステム200を示す図である。
図3】本発明の一実施形態による、データセンタシステム200で発生する障害イベントを自動的に管理するプロセス300のフローチャートである。
図4】本発明の一実施形態による、ハードウェア障害イベント分析を収集するプロセス400のフローチャートである。
図5A】本発明の一実施形態による、統計データを処理及び評価するプロセス500のフローチャートである。
図5B】本発明の一実施形態による、統計データを処理及び評価するプロセス500のフローチャートである。
図6】本発明の一実施形態による、ハードウェアリカバリのプロセス600のフローチャートである。
【発明を実施するための形態】
【0014】
添付の図面を参照しながら本発明を説明する。図面全体を通して、類似又は同等の要素を示すために同様の符号が用いられている。図面は、一定の縮尺で描かれておらず、単に本発明を説明するために提供されている。本発明のいくつかの態様は、例示的な用途を参照して以下に説明される。本発明の十分な理解を提供するために、多くの特定の詳細、関係及び方法が説明されていることを理解されたい。しかしながら、当業者であれば、本発明が1つ以上の具体的な詳細無しに又は他の方法を用いて実施可能であることを容易に認識するであろう。他の例では、本発明を曖昧にすることを避けるために、周知の構造又は動作を詳細に示していない。いくつかの工程は、異なる順序で及び/又は他の工程若しくはイベントと同時に起こり得るので、本発明は、例示された工程又はイベントの順序によって限定されない。さらに、本発明による方法を実施するために、例示された全ての工程又はイベントが必要とされているわけではない。
【0015】
上述したように、一般的なデータセンタの操作及び管理ツールでは、データセンタの障害が手動で管理されている。この場合、障害イベントの発生を予測することが困難である。さらに、これまでに発生したことのない新たなタイプの障害イベントについて予防的な対策及び予測を行うことも困難である。本発明は、データセンタで発生する障害イベントを自動的に管理するシステム及び対応する方法を提供する。本発明のシステム及び方法は、サーバハードウェア障害分析を実行し、リカバリメカニズムを提供することができる。リカバリメカニズムは、サーバのダウンタイムを減らし、ソフトウェアが、ハードウェア障害イベントの影響を受けるのを軽減し、交換が不要となるように構成されている。また、リカバリメカニズムは、製造者による修復やリカバリを必要とせずに、サーバハードウェアの障害イベントの根本的な原因の診断をスケジュールすることができる。
【0016】
図1は、従来のデータセンタシステム100を示す図である。データセンタシステム100は、数千のラックサーバ102を含むことができる。また、データセンタシステム100は、ラックサーバ102から受信したエラーを監視するオンサイト管理者104を含むことができる。特に、管理者104は、データセンタ管理システム113のユーザインタフェースを介して、ラックサーバ102に記憶されている複数の電子部品からエラーを受信することができる。電子部品は、サーバデバイスを含むことができる。例示的なサーバデバイス110が本明細書で示されている。サーバデバイス110に関連するエラーは、ストレージエラー11、CPUエラー13、メモリエラー14、電源エラー12、又は、入力/出力エラー15を含むことができる。これらのエラーは例示を目的としたものであり、網羅的なエラーのリストにすることを意図していない。場合によっては、ラックサーバ102から管理者104への連続的な報告(レポート)において数千ものハードウェアエラーが生成される可能性がある。
【0017】
データセンタシステム100は、リモート位置に存在する顧客108を含むことができる。顧客108は、ネットワーク106を介してラックサーバ102にアクセスすることができる。ネットワーク106は、顧客108をラックサーバ102に接続するように構成されたLAN(local area network)又はWAN(wide-area network)とすることができる。多くの場合、欠陥のあるハードウェア(例えば、サーバデバイス110)は、ラックサーバ102のパフォーマンスに直接影響を及ぼし得る。その結果、顧客108が体験するラックサーバ102のパフォーマンスが、直接影響を受ける。その結果、管理者104は、ラックサーバ102内のハードウェア障害イベントを可能な限り早く解決する任務を負う。管理者104がサービスできない、又は、サーバデバイス110のハードウェア障害イベントを修復できない場合、サーバデバイス110は、製造者112に送られて修理又は交換される。この目的のために、製造者112は、ラックサーバ102及び管理者104から離れている。製造者112によるサーバデバイス110上のサービスは、通常、数日、数週間又は数か月を要する場合がある。よって、ハードウェア障害イベントを解決するために単に管理者を採用するという従来のアプローチは、理想的な解決手段ではない。
【0018】
通常、データセンタ管理システム113は、検証段階中に98%のハードウェア障害イベントを検出し、ハードウェア及びファームウェア設計を改善することによって障害を排除することができる。残りの1%のハードウェア障害イベントは、ハードウェアの経年劣化の結果である。よって、このタイプのハードウェア障害イベントは、通常、予測不能であり、検出が困難である。ハードウェア障害イベントは、データセンタ管理システム113の安定した信頼性、可用性及び実用性(RAS)機能を介して検出及び報告可能である。データセンタ管理システム113の信頼性機能は、ハードウェア障害イベントを回避、検出及びリカバリすることができる。データセンタ管理システム113の可用性機能は、ハードウェア障害イベントを軽減し、関連するソフトウェアのダウンタイムを短縮するように構成されている。データセンタ管理システム113の実用性機能は、問題が発生した場合にシステムを診断するように構成されている。
【0019】
サーバの残り1%のハードウェア障害イベントはそれほど予測可能ではない。実際、これらのハードウェア障害イベントは、通常、新しく、未発見である。その結果、ハードウェア設計者は、ハードウェア障害イベントを考慮してシミュレーションを実行していない。これらの予期できないハードウェア障害イベントは、サーバデバイス110をクラッシュさせ、又は、関連するオペレーティングシステムのインテグリティを損なう可能性がある。結局、ハードウェア障害イベントは、かなりのダウンタイムを必要とし、トラブルシューティング分析リカバリを実行する方法が存在しない場合には、顧客108に深刻な影響を及ぼす可能性がある。
【0020】
図2は、例示的なデータセンタシステム200を示す図である。データセンタシステム200は、有用な報告(レポート)を管理者に提供し、データセンタにおける障害及び実現可能なリカバリメカニズムを予測することができる。これにより、管理者は、サーバに関連する問題を軽減し、サーバダウンタイムを短縮し、サーバのサービスを維持することができる。データセンタシステム200は、数千のラックサーバ202を含むことができる。また、データセンタシステム200は、ラックサーバ202から受信したエラーを監視するオンサイト管理者204を含むことができる。特に、管理者204は、データセンタ管理システム213のユーザインタフェースを介して、ラックサーバ202に記憶されたいくつかの電子部品からエラーを受信することができる。電子コンポーネントは、サーバデバイスを含むことができる。例示的なサーバデバイス210が本明細書に示されている。サーバデバイス210は、計算サーバ、ストレージサーバ又はネットワークスイッチサーバを含むことができる。サーバデバイス210のハードウェア障害イベントに関連するエラーは、ストレージエラー21、CPUエラー23、メモリエラー24、電源エラー22、又は、入力/出力エラー25を含むことができる。これらのエラーは例示を目的としたものであり、網羅的なエラーのリストにすることを意図していない。場合によっては、ラックサーバ202から管理者への連続的な報告(レポート)において数千ものハードウェアエラーが生成される可能性がある。
【0021】
また、データセンタシステム200は、リモート位置に存在する顧客208を含むことができる。顧客208は、ネットワーク206を介してラックサーバ202にアクセスすることができる。ネットワーク206は、顧客208をラックサーバ202に接続するように構成されたLAN(local area network)又はWAN(wide-area network)とすることができる。管理者204がサービスできない、又は、サーバデバイス210のハードウェア障害イベントを修復できない場合、ITエンジニア212は、サーバデバイス210にサービスすることができる。
【0022】
図3は、データセンタシステム200で発生した障害イベントを自動的に管理するプロセス300のフローチャートである。プロセス300の以下の説明は、図2のデータセンタシステム200のコンポーネントを参照して詳細に述べられる。プロセス300は、工程301で開始し、データセンタ管理システム213がハードウェア障害イベント分析を収集する。これは、図4を参照して詳細に説明する。工程302において、データセンタ管理システム213は、ハードウェア障害イベント分析に関連する統計データを処理し、評価する。これは、図5A及び図5Bを参照して詳細に説明する。最後に、工程303において、データセンタ管理システム213は、ハードウェアリカバリを実行する。これは、図6を参照して詳細に説明する。
【0023】
図4は、ハードウェア障害イベント分析を収集するプロセス400のフローチャートである。プロセス400の以下の説明は、図2のデータセンタシステム200のコンポーネントを参照して詳細に述べられる。プロセス400は、工程401で開始し、ハードウェア障害イベント検出システムが、ベースボード管理コントローラ(BMC)ファームウェアに記憶される。ラックサーバ202内の各サーバデバイス(例えば、サーバデバイス210)は、BMCファームウェアをインストールすることができる。BMCファームウェアは、データセンタ管理システム213と接続するように構成されてもよい。別の実施形態では、ハードウェア障害イベント検出システムは、ユニファイドエクステンシブルファームウェアインタフェース(UEFI)、ベーシックインプット/アウトプットシステム(BIOS)、ラックマネージャ(RM)ソフトウェア、又は、データセンタ管理システム213内にインストールされてもよい。
【0024】
工程402において、ハードウェア障害イベントの原因が識別される。ハードウェア障害イベントは、修復可能又は修復不可能の何れかであるハードウェアエラーの結果とすることができる。ハードウェアの修復不可能なエラーは、ソフトウェアリカバリ可能エラー又は壊滅的なエラーの2つのカテゴリに分類することができる。ソフトウェアリカバリ可能エラーは、サーバデバイス210内の少なくともいくつかのデータが破損していることを示す。その結果、このデータをリカバリすることができない。しかし、このタイプのエラーが発生しても、オペレーティングシステムはまだ有効であり、システムをリセットしたり、進行中の別のプロセスを妨げることなく、ソフトウェアをリカバリすることができる。一方、壊滅的なエラーは、プロセッサがマイクロ命令を実行することができないことを示す。また、壊滅的エラーは、システムのリセットを必要とし、進行中の別のプロセスを妨げる。これらのエラーは、システムのリセットを必要とするが、修復可能なエラーに分類される。対照的に、修復可能なエラーは、ハードウェアメカニズム(例えば、巡回冗長検査(CRC)等)によって修復可能なエラーデータを意味する。いくつかの実施形態では、修正可能なエラーは、システムリセットを必要としない。
【0025】
いくつかの実施形態では、ハードウェア障害イベントは、BIOSサービスルーチンによって認識され得る。いくつかの実施形態では、BIOSサービスルーチンは、システム管理割り込み(SMI)信号トリガを実行することができる。工程403において、ハードウェア障害イベントの識別を決定することができる。エラートリガは、ハードウェア信号(例えば、SMI、SCI、NMI、SMBusアラート又はCATERR割り込み等)によって実行することができる。例えば、障害の位置、カテゴリ、障害のタイプ、重大度、識別を記録し、BMCの恒久的なストレージに転送することができる。いくつかの実施形態では、ハードウェア障害イベントの識別は、既存のインタフェース(例えば、システム管理バス(SMBus)、プラットフォーム環境制御インタフェース(PECI)又はJTAG(Joint Test Action Group)等)を介して決定することができる。これらのバス又はインタフェースの各々は、ハードウェアコンポーネントとBMCとの間の通信メカニズムを提供する。工程404において、BMCは、UEFI、BIOS、RMソフトウェア又はデータセンタ管理システム213に通知することができる。
【0026】
図5A及び図5Bは、統計データを処理及び評価するプロセス500のフローチャートである。プロセス500の以下の説明は、図2のデータセンタシステム200のコンポーネントを参照して詳細に述べられる。ハードウェア障害イベントは、大量の様々なデータを含む場合がある。ハードウェア障害イベントに関連するデータを評価するために、データセンタ管理システム213は、複数の場所からデータを収集し、当該データを処理し、当該データに基づいてサーバデバイス210の処理及びリカバリ段階を開始するように構成されている。プロセス500は、工程502で開始し、ハードウェア障害イベントデータ及びその関連データが収集される。ハードウェア障害イベントデータは、サーバ毎のレポート550として構成されてもよい。図5A及び図5Bに示すように、計算サーバ、ストレージサーバ又はネットワークスイッチサーバ毎の個別のレポート550が存在する。サーバデバイス毎のレポート550は、ハードウェア障害イベントレポート551と、デバイスレポート552と、を含むことができる。デバイスレポート552は、サーバデバイス210に関するものであることから、様々なデータを含むことができる。例えば、デバイスレポート552は、サーバデバイス210のファームウェアバージョン555と、サーバデバイス210のプラットフォーム構成556と、サーバデバイス210のカスタム設定554と、サーバデバイス210の使用モデル553と、を含むことができる。当業者であれば、デバイスレポート552内のデータのリストが一例として提供されており、網羅的であることを意図していないことが理解できるであろう。
【0027】
プロセスは、工程503において、デバイスレポート552からの関連情報が収集され、集積される。計算サーバ、ストレージサーバ又はネットワークスイッチサーバのレポート550の例は、表1を参照して以下のように示される。
【表1】
【0028】
表1に示すように、サーバデバイス210毎の特定の測定基準を提供することができる。表1において、サーバデバイス210は、計算サーバ、ストレージサーバ又はネットワークスイッチサーバを含むことができる。サーバデバイス210毎の例示的な測定基準は、データ収集(Data Collection)と、製品エラーフォーマット(Product Error Format)と、を含むことができる。これは、エラーのカテゴリー(Category)と、時間(Time)と、タイプ(Type)と、重大度(Severity)と、位置(Location)と、識別(Identity)と、を含むことができる。例えば、計算サーバのCPUメモリにエラーが存在する場合がある。本明細書では、CPUメモリエラーの時間と、タイプと、重大度と、位置と、識別と、を提供することができる。各サーバデバイス210の他の測定基準は、ファームウェアバージョンと、構成と、カスタム設定と、使用情報と、を含むことができる。
【0029】
サーバデバイス210は、BMCを有することができる。サーバデバイス210用のBMCは、ハードウェア障害イベント及びそれに関連する生データの収集のためのストレージを提供することができる。サーバデバイス210のBMCは、管理者204の便宜のために人間が読めるテキストを使用する、言語非依存のオープンデータフォーマットを送ることができる。
【0030】
レポート550内の統計データは、サーバタイプ毎のデータの統計的評価を生成するために使用することができる。この統計的評価は、評価特徴561と、分析特徴562と、を含むことができる。工程504において、データセンタ管理システム213は、評価特徴561内のデータの統計的評価を呼び出すことができる。評価特徴561は、ハードウェア障害イベントに関連するエンティティ、ハードウェア障害イベントの重大度、層、及び、ハードウェア障害イベントに関連する関係データを含むことができる。また、評価特徴561は、ハードウェア障害分類を含むことができる。ハードウェア障害イベントは、冗長性、方向性、リカバリ可能性、又は、緊急性に分類することができる。最後に、評価特徴561は、ハードウェア障害イベントの量、ハードウェア障害イベントの重大度、ハードウェア障害イベントの位置、ハードウェア障害イベントのカテゴリ、プラットフォーム構成、カスタム設定、使用モデル、及び、ハードウェア障害イベントのタイプスタンプを含むことができる。当業者であれば、評価特徴561に対して多くの属性を提供することができ、本明細書に列挙された属性が例示を目的としており網羅的であることを意図していないことを理解できるであろう。
【0031】
工程505において、データセンタ管理システム213は、分析特徴562内のデータの中心傾向分析を実行する。中心傾向分析は、修復不可能なエラー(致命的でない(non-fatal))に焦点を当てている。致命的ではない修復不可能なエラーは、ソフトウェアの再起動又はハードウェアの再トランザクションによってリカバリ可能であるが、サーバのパフォーマンスに影響を与える可能性がある。中心傾向分析は、修復不可能なエラーの位置を識別する工程と、接続されたデバイスの数を判別する工程と、を含む。また、中心傾向分析は、ハードウェアコンポーネントからのエラーレポートを識別し、トランザクションが代替のデバイスに再転送され得るかどうかを識別する工程を含む。この時点で、障害のあるハードウェアを交換するために構成された全ての冗長なコンポーネントをリストすることができる。ソフトウェアサービスを代替の仮想マシンに移行することができるか否かを決定する。エラー履歴、比率及び使用モデルが検査される。さらに、ハードウェア障害イベントのエラータイプ、ハードウェア障害イベントのリスト量、及び、このハードウェア障害イベントからの影響が決定される。データセンタ管理システム213は、オペレーティングシステム、及び、ハードウェア障害イベントに関連するソフトウェアサービスのリスクを分析することができる。また、データセンタ管理システム213は、サーバデバイス210の保護の方向性を分析することができる。さらに、データセンタ管理システム213は、障害イベントの傾向、及び、ハードウェア障害イベントの影響を予測することができる。データセンタ管理システム213は、統計的なハードウェア障害イベントデータを関連するデータと共に処理して、ハードウェア障害イベントデータを特有のパターンで理解することができる。さらにまた、データセンタ管理システム213は、ハードウェア障害イベントを測定し、予測性分析プロセスを介してリスク評価を生成するように構成されている。
【0032】
工程504及び工程505におけるデータセンタ管理システム213による評価に基づいて、工程506において、データセンタ管理システム213は、ハードウェア障害イベントの診断証明を生成することができる。例示的な診断証明を以下の表2に提供する。
【表2】
【0033】
表2に示すように、診断証明は、理解(Understanding)コンポーネント、視覚的(Visualizing)コンポーネント、及び、予測性分析(Predictive analytics)コンポーネントを有するソフトウェアサービスを含むことができる。理解コンポーネントは、ハードウェア障害イベントの根本的(Root)な原因を判別することができる。いくつかの実施形態では、ハードウェア障害イベントの根本的な原因は、ハードウェア障害イベントのエンティティ、ハードウェア障害イベントの重大度、ハードウェア障害イベントの原因、ハードウェア障害イベントのシナリオ、及び、ハードウェア障害イベントの関係を含むことができる。また、理解コンポーネントは、ハードウェア障害イベントの属性(Attribute)コンポーネントを含むことができる。属性コンポーネントは、ハードウェア障害イベントコンポーネントの冗長性、ハードウェア障害イベントの方向性、ハードウェア障害イベントのリカバリ可能プロセス、及び、ハードウェア障害イベントの緊急度を含むことができる。これらの測定基準の各々の記述も診断証明に記載されている。
【0034】
視覚的コンポーネントは、ハードウェア障害イベントの数量測定基準を提供することができる。数量測定基準は、ハードウェア障害イベントの重大度の数量、ハードウェア障害イベントの数量、ハードウェア障害イベントの位置の数量、ハードウェア製品の数量、ハードウェア障害イベント毎のハードウェア障害イベント構成の数量、ハードウェア障害イベント毎のソフトウェア構成の数量、及び、ハードウェア障害イベントの比率と間隔を含むことができる。これらの測定基準の各々の説明も診断証明に記載されている。単純なハードウェア障害イベントは、実際の根本的な原因を示すことができないので、関連する条件を有するエラー履歴の数量が計算される。どのような関係が各コンポーネント間の障害を引き起こしたのかを判別するための決定が行われる。障害が特定のプラットフォーム構成、コンポーネント、ファームウェアバージョン又は使用モードの何れに由来するのかについて識別される。
【0035】
予測性分析コンポーネントは、リスク評価分析を実行することができる。リスク評価分析は、ハードウェア障害イベントの傾向、保護の方向性、オペレーティングシステムのリスク、ハードウェア障害イベントの問題(affliction)、及び、ハードウェアのペイン(pain)を含むことができる。これらの測定基準の各々の記述も診断証明に記載されている。
【0036】
図6は、ハードウェアリカバリのプロセス600を説明するフローチャートである。図2のデータセンタシステム200のコンポーネントを参照して、プロセス600を詳細に説明する。データセンタ管理システム213は、数千ものハードウェア障害イベントデータをマイニング及び分析した後に、修復要素(例えば、クラウドサービスリカバリが実行可能かどうか、及び、ハードウェア障害イベントの当面の危険性等)を決定するように構成されている。さらに、データセンタ管理システム213は、予測性分析を用いて潜在的なリスクを予測して、ソフトウェアパフォーマンスに対するハードウェア障害イベントの影響を軽減する。いくつかの実施形態において、サーバデバイス210上のマザーボードのハードウェア設計は、主要なコンポーネントの冗長回路を有することができる。その結果、サーバ210のマザーボードは、サーバが、1つの故障したコンポーネントの操作を正常なコンポーネントに移動させるのを可能にする予備のエンティティを提供することができる。不可避のハードウェア障害イベントが発生した場合、オプションの回路は、サーバの使用規模を縮小することができる。
【0037】
プロセス600は、工程601で開始し、データセンタ管理システム213は、ハードウェア障害イベントの影響を受けるサーバデバイス210のリカバリポリシーを検査する。リカバリポリシーは、ハードウェア障害イベントのタイプに対して固有のものにすることができる。表3は、例示的なハードウェア障害イベントと、そのリカバリ方法とを示す。
【表3】
【0038】
表3に示すように、レポートは、ハードウェア障害イベントの位置、ハードウェア障害イベントのタイプ、リカバリ方法、及び、ハードウェア障害イベントに関連するソフトウェアを含む。データセンタ管理システム213は、サーバデバイス210からハードウェア障害イベントレポートを受信し、統計的なデータ処理及び評価を開始する。プロセス600は、工程602に進み、リカバリメカニズムを直ちに実行すべきか否かを決定する。リカバリメカニズムを直ちに実行しないと決定した場合、プロセス600は、工程603に進む。工程603において、データセンタ管理システム213は、リカバリプロセスのダウンタイムをスケジュールし、リカバリプロセス中に必要なハードウェア及びソフトウェアの交換をリストする。そして、プロセス600は、工程604及び工程605に進み、データセンタ管理システム213は、スケジュールされたダウンタイムをデータセンタサービスエンジニアに通知する。デザインチームのためにレッスンと学習のセッション(lesson-and-learn session)をスケジュールすることができる。技術的なフィードバックは、将来のプラットフォームハードウェア設計を改善し、必要な保護回路を追加し、トラブルシューティングのソフトウェアアルゴリズムを調整することができる。
【0039】
リカバリメカニズムを直ちに実行すべきであると決定した場合、プロセス600は、工程606に進む。工程606において、データセンタ管理システム213は、サーバデバイス650のリカバリポリシー651を生成する。管理者204(図2に示す)は、個々のリカバリポリシー651を生成し、これを実行して、ハードウェア障害イベントによるクラウドサービス及びパフォーマンスの影響を軽減することができる。例示的なリカバリポリシー651を図6に示す。次に、プロセス600は、工程607に進み、ハードウェア障害イベントが、サーバデバイス650のパフォーマンスにおけるさらなる傾向又は欠陥について監視される。
【0040】
本発明の特定の実施形態を示し説明してきたが、より広い観点において本発明から逸脱することなく変更及び修正を加えることができることが当業者には明らかであろう。したがって、添付の特許請求の範囲における目的は、本発明の真の趣旨及び範囲に含まれる全ての変更及び修正を網羅することである。上記の説明及び添付の図面に記載された事項は、例示としてのみ提供され、限定するものとして提供されない。本発明の実際の範囲は、先行技術に基づいてこれらの適切な観点から見たときに、添付の特許請求の範囲において定義されていることを意図している。
【0041】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本明細書で使用される場合、「一」、「1つの」、「この」等の単数形は、文脈が明らかにそうでないことを示さない限り、複数形も含むことを意図している。さらに、「有する」、「含む」又はこれらの変形は、詳細な説明及び/又は特許請求の範囲において使用される限りにおいて、「備える」という用語と同様の方法で包括的であることを意味している。
【0042】
別に定義されない限り、本明細書で用いられる全ての用語(技術的及び科学的用語を含む)は、本発明が属する技術分野の当業者によって通常理解されるものと同じ意味を有する。さらに、一般的に使用される辞書で定義されているような用語は、関連技術の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、明確に定義されない限り、理想的又は過度に形式的な意味で解釈されない。
【符号の説明】
【0043】
100…従来のデータセンタシステム
102…ラックサーバ
104,204…オンサイト管理者
106,206…ネットワーク
108,208…顧客
110,210…サーバデバイス
112…製造者
113,213…データセンタ管理システム
11,21…ストレージエラー
12,22…電源エラー
13,23…CPUエラー
14,24…メモリエラー
15,25…入力/出力エラー
200…データセンタシステム
202…ラックサーバ
212…ITエンジニア
300,400,500,600…方法
図1
図2
図3
図4
図5A
図5B
図6