(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-27
(54)【発明の名称】高密度周辺カードシャーシ
(51)【国際特許分類】
G06F 1/16 20060101AFI20240319BHJP
G06F 1/18 20060101ALI20240319BHJP
【FI】
G06F1/16 312D
G06F1/16 312M
G06F1/16 312N
G06F1/18 F
G06F1/18 H
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023553389
(86)(22)【出願日】2022-02-18
(85)【翻訳文提出日】2023-10-31
(86)【国際出願番号】 US2022017004
(87)【国際公開番号】W WO2022186999
(87)【国際公開日】2022-09-09
(32)【優先日】2021-03-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-03-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-03-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-10-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523220499
【氏名又は名称】リキッド インコーポレイテッド
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】ロン,クリストファー
(72)【発明者】
【氏名】ヘイド,アンドリュー
(72)【発明者】
【氏名】ラスト,ブレンデン
(57)【要約】
本明細書では、複数のカードスロットを有するラックマウントシャーシの設計を提示する。一例では、装置は、複数の周辺カードスロットを含むサーバラックに装着するように構成されたシャーシと、関連するスロットの動作ステータスの表示を提供するように構成された複数のステータスライトと、を含む。シャーシは、スロットを結合するように構成された少なくとも3つのスイッチ素子を含むスイッチ回路をさらに含み、スイッチ素子の各々のポートの第1の部分は対応するスロットに結合され、スイッチ素子の各々のポートの第2の部分はシャーシの外部ポートに結合され、スイッチ素子の各々のポートの第3の部分はスイッチ素子のうちの少なくとも別のものに結合される。シャーシは、スイッチ回路を介してスロットに通信可能に結合されたシャーシ上の複数の外部ポートをさらに含むことができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
サーバラックに装着されるシャーシを備える装置であって、前記シャーシは、
複数のPCIeスロットと、
複数のステータスライトであって、各ステータスライトが前記複数のPCIeスロットのうちの1つに対応し、関連するPCIeスロットに挿入された周辺カードの動作ステータスの表示を提供するように構成された、複数のステータスライトと、
少なくとも3つのPCIeスイッチ素子を含むPCIeスイッチ回路であって、該PCIeスイッチ回路が、前記PCIeスロットを結合するように構成され、
前記3つのPCIeスイッチ素子の各々のPCIeポートの第1の部分が、対応するPCIeスロットに結合され、
前記3つのPCIeスイッチ素子の各々の前記PCIeポートの第2の部分が、前記シャーシの外部PCIeポートに結合され、
前記3つのPCIeスイッチ素子の各々の前記PCIeポートの第3の部分が、前記3つのPCIeスイッチ素子のうちの少なくとも別のPCIeスイッチ素子に接続される、PCIeスイッチ回路と、
前記PCIeスイッチ回路を介して前記PCIeスロットに通信可能に結合された前記シャーシ上の複数の外部PCIeポートと、を含む、装置。
【請求項2】
PCIeルートコンプレクスまたはホストデバイスを介してデータを転送することなく、前記PCIeスロットに挿入された対応する周辺カード間のデータ転送を提供するために、前記PCIeスロットのいずれかの間のピアツーピア配置を確立するように構成される前記PCIeスイッチ回路をさらに備える、請求項1に記載の装置。
【請求項3】
前記PCIeスイッチ回路に結合された第1のリンクを有する制御システムをさらに含む前記シャーシをさらに備え、前記制御システムが、前記PCIeスイッチ素子の前記PCIeポートの前記第1の部分、前記第2の部分、および前記第3の部分を介した前記PCIeポートとの間の信号のルーティングを管理するために、前記PCIeスイッチ素子を制御するように構成される、請求項1に記載の装置。
【請求項4】
前記制御システムが、外部制御ポートに結合された第2のリンクをさらに含み、前記制御システムが、前記第2のリンクを介して外部エージェントから受信したメッセージングに基づいて信号の前記ルーティングを管理するように構成される、請求項3に記載の装置。
【請求項5】
前記制御システムが、オンザフライで計算ユニットを論理的に定義するために信号の前記ルーティングを管理するようにさらに構成され、該計算ユニットが、前記複数のPCIeスロットのうちの選択されたものを備え、前記計算ユニットの前記PCIeスロットが、前記計算ユニットに含まれないPCIeスロットから論理的に分離される、請求項3に記載の装置。
【請求項6】
前記シャーシが、前記複数のPCIeスロットに結合された電力制御回路をさらに含み、該電力制御回路が、前記複数のPCIeスロットの各々への電力分配を個別に制御するように構成され、前記電力制御回路が、第2のPCIeスロットへの電力を維持しつつ、第1のPCIeスロットへの電力を無効化することを含む、請求項1に記載の装置。
【請求項7】
前記電力制御回路が、
スロット電力接続と、
補助電力接続と、を介して前記複数のPCIeスロットに結合され、
前記電力制御回路が、選択されたPCIeスロットに対する前記スロット電力接続および前記補助電力接続の両方を同時に有効または無効にすることによって、前記複数のPCIeスロットの各々への電力分配を個別に制御するように構成される、請求項6に記載の装置。
【請求項8】
テキストベースのステータスインジケータを提供するように構成された前記シャーシ上のフロント・ディスプレイ・パネルをさらに備える、請求項1に記載の装置。
【請求項9】
前記シャーシのフロントパネルに開口部を含む前記シャーシをさらに備え、
前記複数のステータスライトが、前記シャーシの内部に位置し、前記開口部を通して前記シャーシの外部から視認可能である、請求項1に記載の装置。
【請求項10】
周辺カードの前記動作ステータスがエラーステータスを含む、請求項1に記載の装置。
【請求項11】
周辺カードの前記動作ステータスが、電力ステータスを含む、請求項1に記載の装置。
【請求項12】
シャーシ内に複数のPCIeスロットを設けるステップと、
関連するPCIeスロットに挿入された周辺カードの動作ステータスの表示を提供するように構成された各スロットのステータスライトを提供するステップと、
少なくとも3つのPCIeスイッチ素子を含むPCIeスイッチ回路を介して前記複数のPCIeスロットを結合するステップであって、前記3つのPCIeスイッチ素子の各々のPCIeポートの第1の部分が、対応するPCIeスロットに結合され、前記3つのPCIeスイッチ素子の各々のPCIeポートの第2の部分が、前記シャーシの外部PCIeポートに結合され、前記3つのPCIeスイッチ素子の各々のPCIeポートの第3の部分が、前記3つのPCIeスイッチ素子のうちの少なくとも別のPCIeスイッチ素子に結合される、ステップと、
前記PCIeスイッチ回路を介して前記PCIeスロットに通信可能に結合された前記シャーシ上に複数の外部PCIeポートを設けるステップと、を含む方法。
【請求項13】
前記PCIeスイッチ回路において、PCIeルートコンプレクスまたはホストデバイスを介してデータを転送することなく、前記PCIeスロットに挿入された対応する周辺カード間のデータ転送を提供するために、前記PCIeスロットのいずれかの間のピアツーピア配置を確立するステップをさらに含む、請求項12に記載の方法。
【請求項14】
前記PCIeスイッチ回路に結合された第1のリンクと、外部制御ポートに結合された第2のリンクと、を有する制御システムを前記シャーシ内に設けるステップと、
前記PCIeスイッチ素子の前記PCIeポートの前記第1の部分、前記第2の部分、および前記第3の部分を介した前記PCIeポートとの間の信号のルーティングを管理するために、前記第2のリンクを介した外部エージェントからのメッセージングに基づく前記制御システムを介して、前記PCIeスイッチ素子を制御するステップと、をさらに含む、請求項12に記載の方法。
【請求項15】
前記制御システムを介して、オンザフライで計算ユニットを論理的に定義するために信号の前記ルーティングを管理するステップであって、該計算ユニットが、前記複数のPCIeスロットのうちの選択されたものを備え、前記計算ユニットの前記PCIeスロットが、前記計算ユニットに含まれないPCIeスロットから論理的に分離される、ステップをさらに含む、請求項14に記載の方法。
【請求項16】
前記複数のPCIeスロットに結合された前記シャーシ内に電力制御回路を設けるステップと、
前記電力制御回路を介して、前記複数のPCIeスロットの各々への電力分配を個別に制御するステップであって、第2のPCIeスロットへの電力を維持しつつ、第1のPCIeスロットへの電力を無効化することを含む、ステップと、をさらに含む、請求項12に記載の方法。
【請求項17】
前記電力制御回路を前記複数のPCIeスロットに、
スロット電力接続と、
補助電力接続と、を介して結合するステップと、
前記電力制御回路を介して、選択されたPCIeスロットへの前記スロット電力接続および前記補助電力接続の両方を同時に有効または無効にすることによって、前記複数のPCIeスロットの各々への電力分配を個別に制御するステップと、をさらに含む、請求項16に記載の方法。
【請求項18】
エラーステータスの表示および電源ステータスの表示を含む、前記関連するPCIeスロットに挿入された前記周辺カードの前記動作ステータスの表示を提供するために、前記電力制御回路を介して、前記ステータスライトを制御するステップをさらに含む、請求項16に記載の方法。
【請求項19】
テキストベースのステータスインジケータを提供するように構成されたフロント・ディスプレイ・パネルを前記シャーシ上に設けるステップをさらに含む、請求項12に記載の方法。
【請求項20】
前記シャーシのフロントパネルに開口部を設けるステップであって、前記複数のステータスライトが、前記シャーシの内部に位置し、前記開口部を通して前記シャーシの外部から視認可能である、ステップをさらに含む、請求項12に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2021年3月4日に出願された「HIGH PERFORMANCE COMPUTING SYSTEM」と題する米国仮特許出願第63/156,750号、2021年3月4日に出願された「POWER CONTROL FOR PCIe SLOTS」と題する米国仮特許出願第63/156,751号、ならびに2021年3月4日に出願された「GPU SWITCH CHASSIS」と題する米国仮特許出願第63/156,749号の利益および優先権を主張するものであり、これらの内容全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
クラスタ化された計算システムは、データストレージ、データ処理、および通信処理に対する需要が高まっているため、普及している。データセンタは、典型的には、大型ラックマウント型およびネットワーク結合型のデータストレージおよびデータ処理システムを含む。多くの場合、データセンタおよび関連する計算機器を使用して、複数の同時ユーザまたはアプリケーションのためのジョブを実行することができる。ジョブは、データセンタのリソースを利用して、中央処理装置(CPU)またはグラフィックス処理装置(GPU)を使用してデータを処理し、ならびにこれらのリソースに関連するデータを一時記憶装置と長期記憶装置との間で、または様々なネットワーク位置の間でルーティングすることができる実行ジョブを含む。GPUベースの処理は、人工知能(AI)および機械学習レジームで使用するために人気が高まっている。これらのレジームでは、ブレードサーバなどの計算システムは、大規模データセットを処理するための関連するCPUと共に1つまたは複数のGPUを含むことができる。複数のGPUを有するブレードサーバは、JBOG(単にGPUの束(またはボックス))と呼ばれることがある。
【0003】
多くの既存のJBOGは、いくつかの性能領域において不足している。GPUカードを挿入することができる周辺構成要素相互接続エクスプレス(PCIe)ポートなどの個々のスロットは、電力保護されていない。個々のGPUまたは周辺カードは、JBOGシャーシ内の残りのGPUの電源がオンになって動作している間はライブサービスすることができず、故障したカードを交換またはサービスするためにユニットまたはシャーシ全体の電源を切る必要がある。ハードリセットは、OOB(帯域外)シグナリングを介して利用可能である。ユニットは、カード障害から回復するための電源サイクルを可能にせず、いくつかの不良GPUは、システム全体を停止させる可能性がある。さらに、ユニットは、個々のカードが故障したことを示すインジケータを提供せず、故障したカードが発見されるまで一度に1つのカードを取り外す必要がある。
【発明の概要】
【0004】
本明細書では、複数のカードスロットを有するラックマウントシャーシの設計を提示する。一例では、装置は、複数のPCIeスロットと、複数のステータスライトと、を含むサーバラックに装着するように構成されたシャーシを含み、各ステータスライトは、複数のPCIeスロットのうちの1つに対応し、関連するPCIeスロットに挿入された周辺カードの動作ステータスの表示を提供するように構成される。シャーシは、少なくとも3つのPCIeスイッチ素子を含むPCIeスイッチ回路をさらに含み、PCIeスイッチ回路は、PCIeスロットを結合するように構成され、3つのPCIeスイッチ素子のそれぞれのPCIeポートの第1の部分は、対応するPCIeスロットに結合され、3つのPCIeスイッチ素子のそれぞれのPCIeポートの第2の部分は、シャーシの外部PCIeポートに結合され、3つのPCIeスイッチ素子のそれぞれのPCIeポートの第3の部分は、3つのPCIeスイッチ素子のうちの少なくとも別のものに結合される。シャーシは、PCIeスイッチ回路を介してPCIeスロットに通信可能に結合されたシャーシ上の複数の外部PCIeポートをさらに含むことができる。
【0005】
一例では、方法は、シャーシ内に複数のPCIeスロットを設けるステップと、関連するPCIeスロットに挿入された周辺カードの動作ステータスの表示を提供するように構成された各スロットのステータスライトを提供するステップと、を含む。本方法は、少なくとも3つのPCIeスイッチ素子を含むPCIeスイッチ回路を介して複数のPCIeスロットを結合するステップであって、3つのPCIeスイッチ素子の各々のPCIeポートの第1の部分が、対応するPCIeスロットに結合され、3つのPCIeスイッチ素子の各々のPCIeポートの第2の部分が、シャーシの外部PCIeポートに結合され、3つのPCIeスイッチ素子の各々のPCIeポートの第3の部分が、3つのPCIeスイッチ素子のうちの少なくとも別のPCIeスイッチ素子に結合される、ステップをさらに含む。本方法は、PCIeスイッチ回路を介してPCIeスロットに通信可能に結合されたシャーシ上に複数の外部PCIeポートを設けるステップをさらに含む。
【0006】
この概要は、本技術開示において以下でさらに説明される概念の選択を簡略化した形で紹介するために提供される。この概要は、特許請求される主題の重要な特徴または本質的な特徴を特定することを意図するものではなく、特許請求される主題の範囲を限定するために使用されるべきでもないことを理解されたい。
【図面の簡単な説明】
【0007】
本開示の多くの態様は、以下の図面を参照してよりよく理解することができる。図面の構成要素は必ずしも縮尺通りではなく、代わりに本開示の原理を明確に示すことに重点が置かれている。さらに、図面において、同様の符号は、いくつかの図面を通して対応する部分を示す。これらの図面に関連していくつかの実施形態が説明されているが、本開示は本明細書に開示した実施形態に限定されない。それどころか、意図は、すべての代替例、修正例、および均等例を網羅することである。
【0008】
【
図1】一実施態様における高密度周辺カードシャーシの等角上面図を示す図である。
【0009】
【
図2】一実施態様における高密度周辺カードシャーシの側面図を示す図である。
【0010】
【
図3】一実施態様における高密度周辺カードシャーシの背面図である。
【0011】
【
図4】一実施態様における高密度周辺カードシャーシの上面図である。
【0012】
【
図5】一実施態様における高密度周辺カードシャーシのアセンブリ要素を示す図である。
【0013】
【
図6】一実施態様における計算システムを示す図である。
【0014】
【
図7】一実施態様における主回路アセンブリを示す図である。
【0015】
【
図8】一実施態様におけるメザニン回路アセンブリを示す図である。
【0016】
【
図9】一実施態様における通信ファブリックのための制御プレーンを示す図である。
【0017】
【
図10】一実施態様における通信ファブリックのための制御プレーンを示す図である。
【0018】
【
図11】一実施態様における制御システムを示す図である。
【発明を実施するための形態】
【0019】
データ処理は、人工知能(AI)および機械学習レジームを含む様々な分野で使用するために人気が高まっている。データ処理センタは、大規模データセットの処理のために、関連するCPUと共に1つまたは複数のGPUを含む計算システムを使用することができる。本明細書の例は、GPUなどの複数の周辺カードを保持するためのPCIeポートを提供するラックマウントシャーシを含む、改良された計算システムを提供する。シャーシは、PCIeファブリックスイッチング機能を提供することができ、PCIeルートコンプレクスまたはホストデバイスを介してデータを転送することなく直接周辺カード間の通信を可能にし、さらに、計算システム内の複数のカードがシャーシ上の外部PCIeポートを介して外部PCIeファブリックと統合されることを可能にする。さらに、改良された計算システムは、挿入された周辺カードの動作ステータスを提供するためにシャーシに統合されたステータスライトおよびインジケータを含むことができる。改良された計算システムは、シャーシ内の計算システムまたは他のカードを非接続または電源切断することなく、シャーシ内の周辺カードのライブスワップまたはホットスワップを可能にすることができる。
【0020】
PCIeスイッチシャーシ計算システムの設計により、物理的計算構成要素のグループをアドホックまたはオンザフライ計算ユニットに動的に構成することが可能になる。物理的構成要素は、異なるシャーシ、異なるサーバラック、または異なるデータセンタに配置することができ、PCIeスイッチングファブリックを介して編成および通信することができる。通信ファブリックを介して結合された物理的計算構成要素の配置は、シャーシ内の様々な周辺カードスロットに、そのような計算構成要素を収容するアドインカードを装着することによって達成することができる。さらなるシャーシおよび構成要素への結合を可能にする様々な拡張ポートも含まれる。これらのカードおよびポートは、通信ファブリックを介して、ベース基板上に別個の交差結合を有する複数のコプロセッシングユニット(CoPU)またはGPUデバイスを収容するベース基板にさらに結合することができる。本明細書の様々な計算システムの構成要素は、棚またはラックユニットにさらに含めることができるラックマウント可能モジュールなどの1つまたは複数の物理的エンクロージャに含めることができる。特定のエンドユーザのニーズに応じてモジュールを挿入および取り外しできるモジュール式フレームワークなど、物理的な筐体またはシャーシに多数の構成要素を挿入または設置することができる。シャーシは、回路、プリント回路基板、半導体システム、および構造要素を含む物理的支持構造体およびエンクロージャを含むことができる。計算システムなどの構成要素を含むモジュールは、ラックマウント型またはラックユニット(U)タイプのエンクロージャに挿入可能かつ取り外し可能であってもよい。
【0021】
本明細書では、1つまたは複数の共有通信ファブリックを介して結合された様々な個々の物理的計算構成要素を収容することができる計算システムシャーシについて説明する。以下の例では、例示的な通信ファブリックタイプとしてPCIeを使用しているが、代わりに他のものを使用できることを理解されたい。PCIeは、高速シリアルコンピュータ拡張バス規格であり、ホストおよび構成要素デバイス間、またはピアデバイス間のポイントツーポイント接続を可能にすることができる。PCIeは、典型的には、すべてのデバイスをホストとも呼ばれるルートコンプレクスに接続する個々のシリアルリンクを有する。PCIe通信ファブリックは、本明細書に記載の様々なスイッチング回路および制御アーキテクチャを使用して確立することができる。PCIeファブリックは、とりわけ3.0、4.0、または5.0などの様々な実装バージョンを含み得る。いくつかの追加のシグナリングまたはプロトコルタイプは、PCIe上に構築され、したがって、PCIeインターフェースに追加の機能を追加することができる。
【0022】
PCIeファブリックの代わりに、関連する物理層、電気シグナリング、プロトコル、および階層化された通信スタックを有する他のポイントツーポイント通信ファブリックまたは通信バスを使用することができる。これらは、とりわけ、Gen-Z、イーサネット、InfiniBand、NVMe、インターネットプロトコル(IP)、シリアル接続SCSI(SAS)、ファイバチャネル、サンダーボルト、シリアル接続ATAエクスプレス(SATA Express)、キャッシュ・コヒーレント・インターコネクト・フォー・アクセラレータ(CCIX)、コンピュート・エクスプレス・リンク(CXL)、オープン・コヒーレント・アクセラレータ・プロセッサ・インターフェース(OpenCAPI)、ワイヤレス・イーサネットまたはWi-Fi(802.11x)、またはセルラ無線技術を含むことができる。イーサネットは、10BASE-T、100BASE-TX、1000BASE-T、10GBASE-T(10GBイーサネット)、40GBASE-T(40GBイーサネット)、ギガビット(GbE)、テラビット(TbE)、200GbE、400GbE、800GbE、または他の様々な有線および無線イーサネットフォーマットおよび速度など、利用可能な様々なネットワーク通信プロトコル規格および帯域幅のいずれかを指すことができる。セルラ無線技術は、とりわけ、4Gロングタームエボリューション(LTE)、5G NR(New Radio)、および関連する5G規格を含む、第3世代パートナーシッププロジェクト(3GPP)規格の周りに構築された様々な無線プロトコルおよびネットワークを含んでもよい。パラレル、シリアル、または組み合わせたパラレル/シリアルタイプのインターフェースも、本明細書の例に適用することができる。
【0023】
第1の例示的なシステムとして、
図1が提示される。
図1は、例示的な高密度周辺カードシャーシ計算システム100の等角上面図を示す図である。システム100は、サーバ・ラック・ユニットに挿入または装着するように構成することができるシャーシフレームまたはエンクロージャ110を含むことができる。シャーシフレーム110は、計算構成要素を挿入および取り外しすることができるモジュール式フレームワークを提供することができる。
【0024】
取り付けブラケットまたはスライドレール112は、シャーシ110に取り付けられてもよい。レール112は、シャーシ112をサーバラックまたは棚ユニットにしっかりと固定することを可能にするねじ穴または他の接合要素を含むことができる。さらに、ボールまたはローラスライドレール112を有する例では、シャーシ110をラックまたは棚ユニットから部分的に引き出すことを可能にして、シャーシ110をラックから完全に切断することなくシステム100の構成要素に容易にアクセスできるようにすることができる。一致するスライドレール112は、シャーシ110をサーバラックの内外にスライドさせるときに追加の支持を提供するためにシャーシ110の両側に取り付けられてもよい。シャーシ110に取り付けられたハンドル113は、スライドレール112を使用してシャーシ110をラックから引き出すこと、またはサーバラックに挿入されていないときにシステム100を運ぶことを容易にすることができる。
【0025】
シャーシ110は、取り外し可能な最上部または蓋114を含むことができ、これは、親指ねじまたは他のラッチ要素で閉位置に固定することができる。例えば、蓋は、ヒンジを介してシャーシ110に結合されてもよく、シャーシ110がスライドレール112上のサーバラックから引き出されるときに蓋114を開くことを可能にする。取り外し可能な最上部114が開かれると、ユーザは、シャーシ110に収容された周辺スロット、計算モジュール、および他の構成要素にアクセスすることができる。
【0026】
シャーシ110のフロントパネルは、システム100の周辺カード区画への複数の凹部、ベイ、または開口部115を含むことができる。凹部115は、空気流を提供し、周辺カードのステータスのインジケータライトのビューを提供することができ、いくつかの例では、カードを凹部115を通して直接挿入または取り外すことを可能にすることができる。
【0027】
システム100はまた、システム100の構成要素のステータスについてのインジケータを提供することができるOLEDディスプレイなどのステータスディスプレイ130を含むことができる。ステータスディスプレイ130は、個々のカードスロットのステータスインジケータまたはLEDをいつ内部(例えば、貫通開口部115または取り外し可能な最上部114)を見るべきかをオペレータに伝えることができ、あるいは個々のカードまたはスロットをいつ調査またはデバッグすべきかを指示することができる。いくつかの例では、ステータスディスプレイ130は、システム100に交差結合された他のシャーシに関する問題を報告することができる。ステータスディスプレイ130は、カラーコード化されたエラーまたはステータスインジケータ(例えば、連続色または点滅光による)を提供することができ、あるいはディスプレイ130は、エラーコードを表示するなど、テキストベースのエラーまたはステータスインジケータを提供することができる。ステータスディスプレイ130はまた、ボタン、タッチスクリーン、スイッチ、ダイヤル、または同様の入力などの、1つまたは複数のユーザ入力構成要素を含んでもよい。ユーザ入力は、ステータスインジケータをクリアまたは循環させるなどの機能を可能にすることができる。いくつかの例では、ステータスディスプレイ130上のユーザ入力要素は、オペレータが、1つまたは複数の周辺カードスロットへの電力を遮断するなど、システム100の他の機能を制御することを可能にすることができる。
【0028】
システム100はまた、追加の要素および構成要素を有する、
図1に部分的に見え、
図3により詳細に示すバックパネルを含むことができる。バックパネルは、シャーシ110およびその構成要素を外部システムに通信可能に結合するための1つまたは複数のポート111を有することができる。バックパネルは、1つまたは複数のファンユニット120をさらに含んでもよい。ファンユニット120は、過熱を防止するためにシステム100内の温度を制御することができ、ユーザ制御(例えば、ソフトウェア制御インターフェースまたは物理的制御による)、自動(例えば、システム100の温度がしきい値を超えて上昇すると、ファンを作動させる温度センサを有する)、他の方法で制御、またはそれらの任意の組み合わせで常にオンにすることができる。ファンユニット120は、個別に取り外し可能かつ交換可能であってもよく、システム100は、シャーシ110がラック内にある間にファンユニット120を交換することを可能にすることができる。
図2は、例示的なシステム100の追加の要素の詳細を示す。
【0029】
図2は、例示的な高密度周辺カードシャーシ計算システム200の側面図を示す図である。システム200は、
図1のシステム100と同じまたは異なるシステムの例であってもよい。システム200は、シャーシまたはフレーム110、取り外し可能な蓋114、ハンドル113、ステータスディスプレイ130、およびファンユニット120など、
図1に関して説明したものと同様の要素を含むことができる。
図2は、シャーシまたはエンクロージャ110内の内部構成要素を表示するために、システム200の断面図、または側面パネルが取り外されたシステム200の図を提供することができる。
【0030】
システム200は、4つの2400ワット電源(277ACボルト対応)などの、1つまたは複数の電源ユニット(PSU)220を含むことができる。PSU220は、電源ケーブル222を介して電力を受け取り、システム200の構成要素に電力を分配することができる。例えば、PSU220は、ファンコネクタ221を介してファン120に電力を供給し、配電盤(PDB)270を介してカードポート251および補助電源ケーブル272などのシステム200の他の構成要素に電力を供給することができる。
【0031】
周辺カード240は、コネクタ要素241を使用してカードスロット251に接続することができる。例えば、システム200は、10個のダブル幅PCIe x16(例えば16レーン)カードスロット251を含むことができ、GPU240は、x16コネクタ241を使用してスロット251に接続することができる。電力を大量消費するGPU構成要素などのいくつかの周辺カード240は、PCIeカードスロットなどのカードポート251を介して提供されるよりも多くの電力を利用することができる。これらのカード240は、補助電源コネクタ242を有することができ、補助電源線272の接続を可能にする。
【0032】
PDB270はまた、1つまたは複数のスロット・ステータス・インジケータ・ライトまたはLED271を含んでもよい。ステータスライト271は、点滅シーケンス、異なる色のライト、または他の可視インジケータなどによって、どのカード240またはスロット251が適切または不適切に機能しているかの可視インジケータを提供することができる。インジケータライト271は、開口スロット115(
図1に示す)を通して見ることができる。
【0033】
システム200は、システム200の構成要素を介しておよび構成要素間で電力信号およびデータ信号を供給するための回路を有する積み重ねられた、または積層された一組の基板を備えることができる。一例では、カードスロット251は、メザニン基板250に接続されてもよく、メザニン基板は、スーパーメザニン基板290に接続され得る主基板260の上に配置され、主基板に接続されてもよい。管理プロセッサまたはPCIeスイッチ回路261は、システム200(例えば、主基板260に接続される)内に設けられてもよい。いくつかの例では、回路は、ファン制御、ステータスインジケータ271もしくはステータスディスプレイ130のエラー監視、電力分配および制御(例えば、対応するスロット251および補助コネクタ272のカード240の接続ステータスに基づいて、個々のポート251または補助ケーブル272に電力を供給するか、またはそれらから電力を遮断する)、または他の動作などのシステム200の機能を管理することができる。回路261は、PCIeファブリックまたは同様の信号切り替え構成の信号切り替えおよびルーティングを管理するように構成されてもよい。信号切り替えは、システム200内の様々な計算モジュールまたはカード240が、スイッチングモジュールまたは回路を介して互いに直接通信すること、または外部データポートを介してシャーシ110の外側の計算システムと通信することを可能にすることができる。
【0034】
システム200は、イーサネットポートまたはミニSAS(シリアル接続SCSI)HD(高密度)ポートなどの1つまたは複数のデータまたはケーブルポート291を含むことができる。イーサネットケーブルまたはmini-SAS HDケーブルなどのデータケーブル292をポート291に接続することができ、システム200の構成要素が外部計算システムとデータを通信および交換することを可能にする。
図3は、
図1および
図2に示すような例示的なシステムの別の図を提供する。
【0035】
図3は、例示的な高密度周辺カードシャーシ計算システム300の背面図を示す図である。システム300は、
図1および
図2のシステム100および200と同じまたは異なるシステムの例であってもよい。システム300は、シャーシまたはフレーム110、ファンユニット120、および電源ユニット220など、
図1および
図2に関して説明したものと同様の要素を含むことができる。電源ユニット220は各々、外部電源に接続することができる電源ケーブル(図示せず)に接続することができる。
【0036】
図2は、
図2の例示的なデータおよび制御ポート291の別の図を提供する。例えば、
図2はポート391,392,393および394を示す。ポート391および393はそれぞれ、2つのx16ミニSAS HDポート(または任意選択的に、8つのx4接続、または他の構成)を表すことができる。図示する例では、ケーブルは393個のポートに差し込まれてもよいが、391個のポートには差し込まれなくてもよい。x16ポートは、データ処理、記憶、または検索などの大規模なデータ転送に使用することができる。ポート392は、(接続されたケーブルを有する)2つのx4 mini-SAS HDポートを含むことができる。ポート392は、システム300の制御回路と通信して、システム300のデータ切り替えまたは他の動作を管理するために使用され得るような管理ポートの一例であってもよい。ポート394は、同様にデータ転送またはシステム管理に使用することができる2つのイーサネットポートを含むことができる。より多くのまたはより少ないポート、または異なるタイプのポートもシステム300に含まれてもよい。
【0037】
ここで
図4を参照すると、例示的な高密度周辺カードシャーシ計算システム400の上面図を示す図が示されている。システム400は、
図1、
図2、および
図3のシステム100,200、および300と同じまたは異なるシステムの例であってもよい。システム400は、シャーシまたはフレーム110、ハンド113、ステータスディスプレイ130、ファンユニット120、メザニン基板250、カードスロット251、PDB270、ステータス表示インジケータまたはライト271、および補助電源要素272など、
図1、
図2、および
図3に関して説明したものと同様の要素を含むことができる。
【0038】
上面図に示すように、システム400は、メザニン基板250に固定されたPCIeスロットなどの10個の周辺カードスロットまたはポート251を含む。PCIeカードは、スロット251に接続することができ、任意選択的に、補助電源要素272を介して追加的に補助電源を受け取ることができる。システム400は、システムの電源がオンであり、他のカードがアクティブである間に、システム400に出入りするカードのライブホットスワップを可能にするように構成されてもよい。システム400は、スロット251および補助電源272の両方で安定した接続が検出されることを保証するように監視することができ、そうでなければ、カードの損傷を防止するためにそのスロットおよび補助ケーブルへの電力を遮断することができる。
【0039】
カードが正しく機能していない場合、このステータスは、システム400の前面を通して見ることができる関連するステータス表示LED271を介して示すことができる。誤動作しているカードは、所定の位置で診断またはリセットを試みることができ、または本明細書に記載されているようにシステム400の電源を切ることなく取り外すことができる。システム400は、PCIeカードをそれらのスロット251内にしっかりと保持するためのキャプティブサムスクリュー416を含むことができる。蝶ねじ416は、カードを取り外すときに緩められてもよく、カードが挿入されると締め付けられてもよい。
図5は、システム内の層状回路基板を示す、例示的な高密度周辺カードシャーシを示す。
【0040】
図5は、一実施態様における高密度周辺カードシャーシ計算システム500のアセンブリ要素を示す図である。特に、
図5は、
図501,502および
図503を介して回路基板の一組の積層された層を示している。システム500は、
図1、
図2、
図3、および
図4のシステム100,200,300、および400の一例を含むことができ、同様の番号が付けられた要素を共有することができる。
【0041】
図501は、シャーシ110の底部を備えるベースパネルを示す。第1の回路基板層は、スーパーメザニン基板590および290を含むことができる。スーパーメザニン基板290は、mini-SAS HDポートなどのデータポート391、およびスーパーメザニン基板290と主基板260とを接続するように構成された基板間コネクタ591に接続されてもよい。スーパーメザニン基板290は、ポート391と主基板260との間の接続を提供して、システム500の外部の計算システムとシステム500内の計算構成要素との間でデータ通信を転送することができる。同様に、スーパーメザニン基板590は、基板間コネクタ592を介してデータポート392および393と主基板260との間の導管に接続され、それらとして機能することができる。
【0042】
図502は、マザー基板または主基板260を含む追加の回路基板を示す。主基板260は、システム500の構成要素間およびシステム500と外部システムとの間の電力割り振りおよび通信を含む、システム500の様々な動作を制御または促進することができる。いくつかの例では、基板間コネクタ591および592は、スーパーメザニン基板290および590を主基板260と通信可能に接続し、したがって主基板を外部ポート391,392および393に接続することができる。主基板260はまた、シャーシ110上の外部イーサネットポート394にケーブルを介して接続することができるイーサネットまたは同様のポートを含むことができるデータポート594を含むことができる。主基板260は、主基板260をメザニン基板250に接続することができる、1つまたは複数の基板間コネクタ回路561を含むことができる。
【0043】
図503は、メザニン基板250を含む回路基板の第3の層を示す。メザニン基板250は、例えばスイッチまたは接続回路561を介して主基板260に接続することができるドーター基板であってもよい。PCIeスロットなどの複数の周辺カードスロットまたはポート251が、メザニン基板250に含まれてもよい。メザニン基板250はまた、配電盤(PDB)270などのシステム500の他の構成要素に接続することができるエッジコネクタ回路553を含むことができる。
図6は、高密度周辺カードシャーシ計算システムの別の例示的な図である。
【0044】
図6は、例示的な高密度周辺カードシャーシ計算システム600を示すシステム図である。システム600は、
図1、
図2、
図3、
図4、および
図5のシステム100,200,300,400、および500に対応することができる。システム600は、通信ファブリックを介して結合された物理的計算構成要素を有するシャーシ601を含むことができる。計算システム600は、様々な構成要素、すなわちメザニン基板620、主基板610、および配電盤630を有するいくつかの回路基板を含むことができる。さらに、様々な支持回路、構造支持要素、筐体要素、および電源構成要素640がシャーシ601に含まれる。例えば、フロント・パネル・ディスプレイ650は、シャーシ601内または上に含まれてもよい。回路基板およびシャーシ部品の異なる構成または配置を採用することができることを理解されたい。シャーシ601は、エンクロージャと、エンクロージャの外部の他の機器に接続するための様々なポートとを有する、
図6に示す様々な構成要素を含むラックマウント構造であってもよい。
【0045】
図6の通信ファブリックは、主基板610上のPCIeスイッチ回路612によって示される複数のPCIeスイッチング素子の中から形成される。
図6はまた、一組のPCIe周辺カードスロット622と、外部ホストへの接続を提供することができる一組のPCIe拡張ポート615と、を含む。したがって、外部PCIeポート615を介して結合された計算システム600に含まれないCPUなどの外部ホストは、特定のPCIeスロット622などの計算システム600のリソースにアクセスすることができる。これらの外部ホストは、ネイティブPCIe、PCIe上のNVMeプロトコルを使用して計算システム600に結合するか、またはPCIeスロット622のうちの1つの拡張カードによって提供されるInfiniBand(IB)上に接続することができる。
【0046】
図6に含まれる様々な基板に関する説明に戻ると、メザニン基板620は、電気部品、相互接続、および複数のPCIeスロット622が実装された1つまたは複数の回路基板を備えることができる。一組のPCIeスロット622は、一組のPCIeスイッチと異なっていてもよい。この例では、合計10(10)個のPCIeスロットが提供され、それぞれがx16のデータ幅を有する。メザニン基板620はまた、10個のPCIeスロットの各々に対して電力フィルタリング、変換、分配、切り替え、および制御を提供する電力コントローラ621を備えてもよい。電力は、補助電源コネクタ631およびスロット固有のLED632を含むことができる配電盤(PDB)630を介していくつかの構成要素に供給または分配されることができる。電力コントローラ621によって管理される電力は、PCIeスロット接続623(例えば3.3Vおよび12V)を介して供給される電力、ならびに追加の電力を必要とする周辺カードに接続するように構成された補助電源コネクタ631(例えば12V)へライン624を介して供給される電力を含むことができる。電力コントローラ621は、PCIeスロット622および補助電力接続631の個別の電源オン/オフを提供することができ、それによって、他のカードは電源が供給され機能したままであるが、個々の周辺カードを取り外したり交換したりすることができる。このようにして、電源投入された「起動」システムは、1つまたは複数のPCIeカードを交換して、故障したカードの堅牢な障害回復を提供するか、または構成要素/容量のその場での拡張を実行することができる。インジケータライト632(例えば、LEDライト)は、各PCIeスロット622のライン625を介して給電されてもよく、ステータス、障害、動作モード、電源ステータス、または他の情報の視覚的インジケータをオペレータに提供してもよい。電力コントローラ621はまた、ライン619を介してフロント・パネル・ディスプレイ650への電力を管理することができる。
【0047】
主基板610は、電気部品が実装された1つまたは複数の回路基板を備える。これらの構成要素は、PCIeファブリックおよびシャーシ601の他の回路基板との様々な相互接続を形成することができる。PCIeファブリックは、PCIeスイッチ回路612によって示される複数のPCIeスイッチと、様々な制御要素とを備える。これらの制御要素の中には、PCIeスイッチ回路612を制御し、外部エージェントへの制御アクセスを(例えば、制御リンク617を介して)制御システム611およびPCIeスイッチ回路612に提供し、PCIeファブリック内の計算構成要素の論理的配置を構成/分解するための様々なファブリック管理機能も提供する制御システム611がある。制御システム611はまた、制御システム611と、1つまたは複数のPCIeリンクを含み得る関連する通信ファブリックに結合された任意の構成要素との間の通信リンクを含むファブリック制御インターフェースを含み得る。いくつかの例では、ファブリックインターフェースは、PCIeリンクまたは他のリンクを介して転送されるイーサネットトラフィックを使用することができる。ファブリック制御インターフェースは、動作およびユーザがコントローラ要素とインターフェースし、PCIeファブリックを制御することを可能にするために、それぞれ異なる通信アーキテクチャおよびプロトコルを有する1つまたは複数の制御プレーンに配置することができる。さらに、制御システム611は、テレメトリデータを取得し、外部エンティティに示すことができる。制御システム611はまた、PCIeスイッチ回路612を介して、または直接リンクを介して、リンク616を介してメザニン基板620の電力機能を制御することができる。さらに、制御システム611は、どのインジケータを表示するかを制御すること、およびフロント・ディスプレイ・パネル650のインターフェース構成要素から任意の入力を受信することを含む、フロント・ディスプレイ・パネルまたはステータスパネル650の動作を制御することができる。
【0048】
制御システム611は、関連するストレージシステム(図示せず)から、ジョブインターフェースおよびファブリック管理ソフトウェアなどのソフトウェアを検索して実行する、1つまたは複数のマイクロプロセッサおよび他の処理回路を備えることができる。制御システム611は、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。制御システム611の例は、汎用中央処理装置、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイス、それらの組み合わせ、または変形を含むことができる。いくつかの例では、制御システム611は、Intel(登録商標)マイクロプロセッサ、Apple(登録商標)マイクロプロセッサ、AMD(登録商標)マイクロプロセッサ、ARM(登録商標)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向けプロセッサ、または他のマイクロプロセッサもしくは処理要素を含む。
【0049】
ステータスディスプレイまたはフロント・ディスプレイ・パネル650は、システム600の構成要素のステータスのインジケータを提供することができるOLEDまたは同様のディスプレイを含むことができる。ステータスディスプレイ650は、制御システム611からの制御信号に基づいて、システム600の電源ステータスまたは設定、1つまたは複数のカードまたはスロット622のステータス、または他のインジケータを示すことができる。ステータスディスプレイ650は、カラーコード化されたエラーまたはステータスインジケータ(例えば、連続色または点滅光による)を提供することができ、あるいはディスプレイ650は、エラーコードを表示するなど、テキストベースのエラーインジケータを提供することができる。フロント・パネル・ディスプレイ650はまた、ボタン、タッチスクリーン、スイッチ、ダイヤル、または同様の入力などの、1つまたは複数のユーザ入力構成要素を含んでもよい。ユーザ入力は、ライン618を介して制御システム611に提供されてもよい。フロント・パネル・ディスプレイ650は、ライン619を介して電力コントローラ621から電力または制御信号を受信することができる。
【0050】
電源構成要素640は、様々な電力変換、電力処理、フィルタリング、および調整回路を備える。電源構成要素640は、典型的には、入力電圧または電源電圧をシャーシ601内の構成要素の動作電圧レベルに変換し、サージ保護、短絡保護、極性保護、ならびに他の形態の保護および干渉緩和を提供する。さらに、電源構成要素640は、ファン、冷却ユニット、チラー、空調要素、または他の同様の構成要素など、シャーシ601から熱を除去するための熱処理構成要素を含むことができる。冗長性は、電源構成要素640内の機器の様々な故障にわたって連続動作および電源安定性を提供するために、電源構成要素640に含まれてもよい。
【0051】
シャーシ601で上述した各回路基板の構成要素に加えて、制御回路、テレメトリエージェントおよび構成要素、接着剤ロジック、相互接続、オン基板および基板間コネクタ、ソケット、電源および変換機器/回路、機械的構造要素および支持部材、加熱/冷却構成要素、ファン、サブエンクロージャ、ならびに他の装置および回路などのさらなる構成要素を含めることができる。
【0052】
CPU要素、ネットワーク・インターフェース・カード(NIC)、GPU、FPGA、ストレージドライブ、さらなる共処理要素、または任意のPCIe互換デバイスは、PCIeスロット622内の周辺アドインカードに取り込むことができる。これらの物理的計算構成要素(CPU、GPU、NIC、ストレージ、または他のデバイス)を使用して、PCIeファブリック内で互いに分離された、本明細書では計算ユニットと呼ばれる計算構成を形成することができる。これらは、異なる物理的構成要素の配置または異なる数の物理的構成要素を有するようにオンザフライで再構成することができる個々のコンピュータまたはサーバを形成することができる。物理的計算構成要素のプールは、PCIeスロット622内に投入された物理的計算構成要素から、ならびに外部PCIeリンク615のうちの1つまたは複数を介して結合された他のシャーシまたはシステム内に形成することができる。
【0053】
PCIeファブリックは、PCIeスイッチ回路612に含まれる複数のPCIeスイッチから構成されてもよく、PCIeクロスポイントスイッチと称されてもよい。PCIeスイッチ回路は、少なくとも各PCIeリンクによって搬送されるトラフィックに基づいて、様々なPCIeリンクを論理的に相互接続するように構成することができる。これらの例では、オペレータ定義のグループに従ってPCIeスイッチのPCIeポートの分離を可能にするドメインベースのPCIeシグナリング配信を含めることができる。オペレータ定義のグループは、制御システム611によって管理することができ、制御システムは、物理的計算構成要素を関連する計算ユニットに論理的に組み立て、異なる計算ユニット間で物理的計算構成要素を論理的に分離する。制御システム611は、PCIeファブリックに結合されたファブリックインターフェース(例えば、リンク613)を介してPCIeスイッチ回路を制御し、PCIeポート間の論理区分または分離を変更し、したがって、物理的構成要素のグループ化の構成を変更することができる。ドメインベースの分離に加えて、または代替として、各PCIeスイッチポートは、非透過(NT)ポートまたは透過ポートとすることができる。NTポートは、ブリッジのようにエンドポイント間の何らかの論理的分離を可能にすることができるが、トランスペアレントポートは論理的分離を可能にせず、純粋に切り替えられた構成でエンドポイントを接続する効果を有する。1つまたは複数のNTポートを介したアクセスは、特定のNTポートを選択するため、またはNTポートを介した可視性を可能にするために、PCIeスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。有利には、このドメインベースの分離(NTポートベースの分離)は、物理的構成要素(例えば、CPU、CoPU、ストレージユニット、FPGA、NIC)を共有ファブリックまたは共通ファブリックに結合することを可能にするが、分離/仕切りを介して計算ユニットに含まれる構成要素に対する可視性のみを有することができる。したがって、PCIeファブリック間の論理分割を用いて、複数の物理的構成要素間のグルーピングを実現することができる。この分割は本質的にスケーラブルであり、制御システム611または他の制御要素によって必要に応じて動的に変更することができる。
【0054】
本明細書で説明するシステムおよび動作は、CPU、GPU、NIC、FPGA、またはストレージリソースなどの物理的計算構成要素の、計算ユニットを含む計算クラスタへの動的な割り当てを提供する。計算ユニットは、分解され、計算ユニットに割り当てられる(構成される)まで、未使用、未割り当て、または自由な構成要素のプール内に存在することができる。制御システム611などの管理エンティティは、計算ユニットの構成および構成解除を制御し、外部ユーザ、ジョブ管理ソフトウェア、またはオーケストレーションソフトウェアにインターフェースを提供することができる。物理的計算構成要素は、オンザフライで計算ユニットおよび関連するクラスタの内外で交換することができ、これらのリソースは他の計算ユニットまたはクラスタに割り当てることができる。一例では、リソースに障害、ハング、過負荷状態が発生した場合、追加のリソースを計算ユニットおよびクラスタに導入してリソースを補うことができる。
【0055】
形成後に計算ユニットを修正または変更するために、様々なトリガを使用することができる。第1のトリガでは、イベントベースのトリガが採用される。これらのイベントベースのトリガは、ジョブまたはジョブを含む作業ユニットをサポートするために、計算ユニットを変更もしくは修正するか、または追加の計算ユニットを追加することができる。ジョブによって示される動的イベントまたはパターンの制御システム611による観測に基づいて、制御システム611は、それに割り当てられた計算ユニットおよびリソースの構成に対する変更を開始することができる。そのようなイベントまたはパターンの例には、プロセスの観測されたリソース不足、機能によって識別される特定の文字列、インテリジェント・インフラストラクチャ・アルゴリズムによって識別される特定の信号、または制御システム611によって監視することができる他の要因が含まれる。実行中のジョブのテレメトリまたは実行前または実行中のジョブのプロパティの分析は、制御システム611に、計算ユニットの動的変更を開始するように通知することができる。したがって、制御システム611は、イベントまたはパターンに従って計算ユニットのリソース(例えば、物理的計算構成要素)を追加または削除するために計算ユニットの構成を変更することができる。有利には、計算ユニットは、各ジョブの現在のリソースニーズをサポートするためにより良好に最適化することができ、現在のジョブによって不要になったとき、または他の将来のジョブによる使用のために、リソースをプールにインテリジェントに戻すことができる。
【0056】
別の代替トリガは、機械学習タイプのアルゴリズムまたはユーザ定義の時間枠に基づく時間トリガを含む。この例では、特定の種類のジョブが特定の種類の挙動を示すように、構成された計算ユニットのパターンまたは挙動を経時的に決定または学習することができる。これらの挙動に基づいて、計算ユニットへの変更を動的に行い、ワークロードパターンをサポートすることができる。例えば、制御システム611は、特定の種類のジョブの実行の特定の段階において、より多くの/より少ないストレージリソースが必要であるか、またはより多くの/より少ないコプロセッシングリソースが必要であると判定することができる。制御システム611は、追加または除去またはリソースを含むことができる計算ユニットの構成を予測的またはプリエンプティブに変更して、作業ユニットがジョブによって実行されている状態で計算ユニットに割り当てられた現在のリソースをより良好に最適化することができる。時間特性は、明示的なユーザ入力に基づいて、または機械学習プロセスに基づいて制御システム611によって決定され、計算ユニットからリソースを追加または削除する時間枠を決定することができる。制御システム611は、どのリソース変更が必要であるか、およびこれらの変更が現在および将来のジョブのニーズをサポートするためにいつ必要とされるかを決定することができるリソーススケジューラ要素を含むことができる。本明細書で説明する計算ユニットへの変更は、いくつかの例では、特定の物理的構成要素またはリソースを追加または削除するときなどに、計算ユニットおよび関連するオペレーティングシステムの再構成および再起動を必要とする場合がある。しかしながら、ストレージまたはネットワーク・インターフェース・リソースの追加/削除などの他の変更は、特定の計算ユニットを再起動または再構成することなくオンザフライで達成され得る。
【0057】
ここで、主基板610の要素に関する説明に移ると、
図7が提示される。
図7は、構成700における主基板610を示す。
図6の主基板610は例示を目的として参照されているが、関連する回路の他の構成および配置を使用することができることを理解されたい。主基板610は、PCIeスイッチ回路612、制御システム611、およびいくつかの外部ポート/リンクを含む。主基板610の要素は、PCIeベースの通信ファブリックを備え、PCIeスイッチ710は、PCIeリンク/ポート間の様々な論理的分離またはパーティションを提供するために、リンク613を介して制御システム611によって制御される。いくつかの例では、PCIeスイッチ710は、PEX8796 24ポート、96レーンPCIeスイッチチップ、PEX8725 10ポート、24レーンPCIeスイッチチップ、PEX97xxチップ、PEX9797チップ、または他のPEX87xx/PEX97xxチップなどのPLX/Broadcom/Avago PEXシリーズチップを備える。
【0058】
PCIeスイッチ710は、PCIeリンクまたはポート614および615を介して結合されたデバイスにリンクすることができる。PCIeリンク614は、メザニン基板620上のPCIe拡張スロット622に結合することができ、PCIeリンク615は、シャーシ601の外部の他のPCIeデバイス、ホスト、または管理エンティティに結合するために、複数の外部PCIeポート718に結合することができる。PCIeスイッチ710は、リンクまたはポート714を介して他のPCIeスイッチ710に結合されてもよい。論理的配置は、任意の選択されたPCIeリンク614,615,714と、対応するデバイスとの間で形成することができ、対応するデバイスは、典型的には、ホストデバイス(例えば、CPU)に関連付けられた1つのPCIeルートコンプレクスを含む。このPCIeホストデバイスは、メザニン基板620上のPCIe拡張スロットに含めることができ、または外部PCIeポート718のいずれかを介して結合することができる。PCIeトラフィックレーンの幅または数の例は、
図7(および本明細書の他の図)において、16レーンPCIeリンクの場合はx16、4レーンPCIeリンクの場合はx4、1レーンPCIeリンクの場合はx1で示されていることに留意されたい。他の幅および構成も可能である。
【0059】
PCIeスロットに挿入された対応する周辺カード間のデータ転送を提供するために、PCIeルートコンプレクスまたはホストデバイスを介してデータを転送することなく、PCIeスロットのいずれかの間でピアツーピア配置を形成することができる。例えば、シャーシ601内のPCIeスロットは、リンク614、スイッチ710、およびリンク714を介して互いに通信することができる。あるいは、シャーシ601内のPCIeスロットは、リンク614、スイッチ710、およびリンク615を介してシャーシ601の外部のスロットと通信することができる。ピアツーピア通信は、制御システム611によって管理されてもよく、または制御システム611による制御なしにPCIeスロットに差し込まれた周辺カードに利用可能であってもよい。
【0060】
リンク/デバイス間の論理的配置を形成および解消するなど、PCIeスイッチ710の動作を制御するために、制御システム611が本明細書で提供および説明される。
図7は、制御システム611の例示的な構成要素を示しているが、さらなる構成が
図9~
図11に示されている。制御システム611は、コントローラ711と、1つまたは複数のリンク713を介して結合された通信スイッチ712とを含む。リンク713は、イーサネットリンク、またはその変形/派生物を備えることができ、あるいは代わりに、シングルレーン(x1)PCIeリンクなどのPCIeリンクを備えることができる。通信スイッチ712は、PCIeスイッチ回路612、PCIeスイッチ710の各々、またはそれらの組み合わせに結合する1つまたは複数のファブリック制御リンク613のためのファンアウトまたはスイッチ多重化を提供する。制御システム611は、ファブリック制御リンク613を介してPCIeスイッチ710を制御し、PCIeポート間の論理区分または分離を変更し、したがって、対応する物理的計算構成要素の計算ユニットグループの構成を変更することができる。ファブリック制御リンク613は、
図9~
図10に詳述されているように、イーサネットスタイルリンク(例えば、シリアル・ギガビット・メディア非依存インターフェース(SGMII)または縮小ギガビット・メディア非依存インターフェース(RGMII))またはPCIeリンクのいずれかを含むことができるが、ファブリック制御リンク613はそのようなリンクタイプに限定されない。
【0061】
制御システム611は、メザニン基板620の電力機能を制御するためのリンク616を提供するが、メザニン基板620は、リンク616を介してコントローラ711と通信するさらなる制御システム、ロジック、およびコントローラを含むことができる。制御システム611はまた、フロント・パネル・ディスプレイ650を制御し、そこから入力を受信するためのリンク618を提供してもよい。リンク616および613は、集積回路間(I2C)インターフェース、システム管理バス(SMBus)インターフェース、電力管理バス(PMBus)インターフェース、ネットワークインターフェース、または本明細書で説明する他のシリアルまたはパラレルのポイントツーポイントまたはマルチポイントインターフェースなどの様々な通信リンクを含むことができる。コントローラ711はまた、1つまたは複数のファブリック制御または管理インターフェース617を提供する。制御インターフェース617は、イーサネットスタイルのインターフェース(例えば、SGMIIまたはRGMII)またはPCIe互換インターフェースを含むことができる。
図7は、制御インターフェースまたは617、すなわち外部PCIeポートに結合されたPCIeリンク717および外部Ethernet PHY/ポートに結合されたEthernetリンク716の例を示す。リンク713,716,717の正確な配置および構成は、
図9~
図10に示すように、PCIeファブリックに使用される制御プレーンの種類に基づいて変化し得る。
【0062】
コントローラ711は、関連するストレージシステムから、管理オペレーティングシステム、ユーザインターフェース、およびジョブインターフェースなどのソフトウェアを検索および実行する、1つまたは複数のマイクロプロセッサおよび他の処理回路を備えることができる。コントローラ711は、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。コントローラ711の例は、汎用中央処理装置、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイス、それらの組み合わせ、または変形を含む。いくつかの例では、コントローラ711は、Intel(登録商標)もしくはAMD(登録商標)マイクロプロセッサ、Apple(登録商標)マイクロプロセッサ、ARM(登録商標)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向けプロセッサ、または他のマイクロプロセッサもしくは処理要素を含む。
【0063】
次に、メザニン基板620の要素に関する説明に移ると、
図8が提示される。
図8は、構成800のメザニン基板620を示す。
図6のメザニン基板620は、例示を目的として
図8で参照されているが、関連する回路の他の構成および配置を採用することができることを理解されたい。メザニン基板620は、リンク812,813および625を介して電力制御回路810のいくつかの例に結合された電力コントローラ621を含む。この例では、リンク812は、電力制御回路810の各々内の論理回路を制御するための個別リンクのいくつかの例を含む。リンク813は、電力制御回路810の各々内の論理回路と通信するPMBusまたは他のシリアルインターフェースを備える。電力コントローラ621はまた、PMBus817を介して電力入力回路815のいくつかのインスタンスに通信可能に結合される。電力コントローラ621は、個別の信号線または共有シリアル通信バス線を含むことができるリンク625を介してインジケータライト632のスロット・インジケータ・ライト制御装置に結合される。電力コントローラ621はまた、任意選択的に、リンク815および616を介して主基板610の制御システム611によって提供される制御プレーンに結合され、リンク815および619を介してフロント・ディスプレイ・パネル650に結合される。いくつかの例では、代わりに電力コントローラ621の1つまたは複数の機能を制御システム611内に含めることができる。
【0064】
電力入力回路815は、電源線または素子880を介して入力電力を受け取り、PCIeスロット622が必要とする電圧/電流を生成するための昇圧または降圧変換などの、1つまたは複数の電力変換または電圧調整活動を実行する。電圧の例としては、とりわけ、3.3VDCおよび12VDCが挙げられる。電力入力回路815は、リンク817を介して監視することができ、電力コントローラ621によってリンク817を介して有効化/無効化および構成することができる。電力入力回路815は、個々のPCIeスロット622への電力の分配および有効化/無効化を制御する電力制御回路810に、リンク816を介して1つまたは複数の出力電圧を提供する。PCIeスロット622ごとに独立した電力制御を実現して、他のPCIe拡張カードの電源状態とは無関係に、選択されたPCIe拡張カードをその場で「ライブ」取り外しおよび挿入することを可能にすることができる。各スロット622のインジケータライト632として示されるステータスインジケータは、電源の現在のステータス、ならびにインジケータ色、オン/オフステータス、および選択された点滅状態/パターンに基づく他の情報を表示する。拡張カードが装着されている場合でも、現在使用されていないスロット622の電源を無効にすることができる。個々のスロット622の電力制御は、リンク616および815を介して制御システム611によって、またはそれらの組み合わせを含むリンク812~813を介して電力コントローラ621によって制御することができる。動作中、複数の電力リンクは、このような制御に従ってPCIeスロット622の個々のもののために通電される。
【0065】
電力制御回路810は、対応するPCIeスロット622に電力を供給し、この電力はPCIeスロットごとに個別に制御される。さらに、各スロットに対して電力を印加または除去することができるが、他のスロットはアクティブまたは電力供給される。この機能を提供するために、電力制御回路810は、3.3VDCおよび12VDC電源が同時に印加されるように、すべての電力入力を個々のスロットに同時に印加するための回路および論理を含む。これにより、スロットに挿入された実際の周辺カードの電源ドメインにわたる短絡および電力スニークの可能性を防止または低減することができる。例えば、ある電圧が印加され、別の電圧が印加されないままである場合、電流は、周辺カードに損傷を引き起こす、周辺カード上の回路または無関係な電源ドメインを通る経路を見つける可能性がある。この同時電力は、使用される場合、対応するPCIeスロット/ソケット用のスロットコネクタおよび補助電源コネクタを介して提供される12VDCに印加される。補助電源コネクタは、多くの場合、大量の電力を消費し、スロットコネクタ自体を介して供給される12VDCを補足する周辺カードに使用される。多くの場合、GPU周辺カードは、他の周辺カードよりも大量の電力を消費し、したがって補助電力接続の使用を必要とする。電力制御回路810は、補助接続(例えば、補助電源631からのリンク624)およびPCIeスロット電力(例えば、リンク623)に12VDC電力を、そのスロットに適用可能なアクセサリ電力または3.3VDC電力と共に同時に印加する論理/回路を含む。電力コントローラ621は、論理リンク812を介して、またはPMBus813を介して電力オン/オフイベントを開始することができ、これはリンク616および815を介して提供される情報または制御信号を考慮に入れることができる。
【0066】
電流感知および制御は、電力制御回路810によっても提供される。電子ヒューズまたは電子ヒューズと呼ばれるこの電流感知は、各スロットの電流引き込みに制限を与える。この電流制限は、故障モードまたは短絡状態の間に過度の電流が引き込まれるのを防止することによって、周辺カードへの損傷を低減することができる。さらに、e-fuse機能はリセット可能であるため、電力制御回路810によってe-fuseリセットプロセスが実行された後に電力を再印加することができる。感知された電流はデジタル化され、PMBus813または他の手段を介して電力コントローラ621に提供され得る。
【0067】
スロット・ステータス・インジケータは、スロットLED632として含まれ、リンク625を介して電力コントローラ621によって制御される。電力コントローラ621からの制御信号に基づいて、LED632は、点滅、点滅速度/遅延、色、および他の特徴の様々な組み合わせを使用して、現在の動作ステータス、電源ステータス、故障もしくはエラーステータス、または関連するスロットもしくは周辺カードの他のインジケータを示すことができる。さらに、LED632をオペレータが使用して、周辺カードを修理するときにスロットの知識を得ることができる。例えば、スロットのLEDは、スロットの電源がいつ取り外され、周辺機器のカードを取り外すことができるかを示すことができる。各LED632は、どのスロット622に現在電力の問題または障害が発生しているかを示すことができるので、オペレータは、どの周辺カードをデバッグ、リセット、取り外し、または交換すべきかを迅速に判断することができる。
【0068】
例示的なスロットごとのステータスLED632の光信号は、以下を含むことができる。
【表1】
一例では、システムは、スロットに挿入されたカードのPCIe生成を検出することができ、システムは、関連するLEDを介してその情報を示すことができる。例えば、Gen4のカードは、スロットの電源が入っているときに障害なく連続点灯を維持することができるが、異なる点滅パターンを使用して、Gen3(例えば、オン1秒、オフ250ms)、Gen2(例えば、オン1秒、オフ500ms)、またはGen1(例えば、オン1秒、オフ1秒)のカードを示すことができる。様々なステータスを示すために固定された点滅パターンではなく、またはそれに加えて、LED632は、代替スタイルで情報を提供することもできる。例えば、「1」が500msの光の持続時間で示され、0が200msの光の持続時間で示され、1秒の間隔で、モールスコード型のバイナリ点滅パターンを使用することができる。
【0069】
LED632はまた、スロット内に新しいカードをセットアップするためのガイダンスモード、カードを取り外すときのガイダンス、または他のプロセスに関連して使用されてもよい。例示的なセットアッププロセスでは、システムのソフトウェアまたはファームウェアは、どのスロット622を構成するか、および挿入されるカードの幅(例えば、x1、x4、x8、またはx16などの使用するレーンの数)の表示を要求または取得することができる。この情報は、リモートホストまたは他のデバイスのユーザインターフェースを介して、またはフロント・パネル・ディスプレイ130または650などのシャーシのインターフェースを介して取得することができる。選択されたスロット622は、それらの関連するLED632を調整可能な期間、例えば10秒間点滅させることができる。接続されるべき第1のポート622用のLED632は点滅したまま(例えば、200msオン/オフ)であってもよく、残りのポート用の他のLED632はオフにされてもよい。挿入されたカードとの固体接続が第1のスロットで検出されると、関連するLED62は連続点灯になり、接続されるべき次のスロット622のLEDが点滅を開始し、接続されるべき残りのすべてのスロット622について同様に繰り返すことができる。LED632は、挿入されたカードとの通信リンクが確立されている間、急速に連続して(例えば、200msオン/オフ)点滅することができ、次いで、LED632は、例えば1秒間オフになり、次いで、現在のリンク状態を提示するステータスモードに入ることができる。
【0070】
電力制御回路810の他の特徴は、電力コントローラ621と組み合わせて、個々のスロット電力制御および電力ステータステレメトリ、スロット内の周辺カードのサービス中の個々のスロットの自動電源オフ、様々なリセット特徴、およびウェイクサポートを含む。リセット機能は、各スロット622の電力を個別にハードサイクルして、関連する周辺カードの再起動を実行する能力を含む。このハードサイクルは、スロット622へのすべての電力の除去、所定の遅延の待機、およびスロットへの電力の印加を含んでいた。この動作は、他のスロットが機能し、電力供給されたままである間に実行することができ、関連する計算システムの動作中に各スロット622の個々のデバッグおよびリセットを可能にする。
【0071】
物理的には、各PCIeスロット622はx16 PCIeスロットコネクタを備える。スロット幅は、他の幅の中でも、それらの組み合わせを含む、シングル幅またはダブル幅PCIeカードをサポートするように選択することができる。上述したように、各スロット/カードに追加の電力を供給するために、補助電源コネクタ/ケーブルがリンク624に使用される。また、互換性のあるGPUカードが使用される場合、NVlinkは、PCIeインターフェースとは別に、各GPUカード間のポイントツーポイント接続に使用することができる。
【0072】
動作中、CPU、GPU、NIC、FPGA、またはストレージリソースなどの物理的計算構成要素は、周辺カードに含まれ、PCIeスロット622のいずれかに挿入することができる。周辺カードの1つまたは複数の電源をオンまたはオフにし、個々のカードのホットスワップを可能にし、カードのその場での交換またはサービスを可能にするために、各スロットに対して個別に電源制御を達成することができる。選択された一組の周辺カードが投入されると、PCIeスロット622は、PCIeインターフェース614を介してPCIeファブリックにインターフェース接続し、物理的計算構成要素を計算クラスタに提供する。計算ユニットは、含まれる周辺カードのいずれかの間で任意に形成することができ、カード間のこの構成は、計算システムの現在のニーズに適合するように変更することができる。各周辺カードは分解され、計算ユニットに割り当てられる(構成される)まで、未使用、未割り当て、または空き構成要素のプールに存在し得る。制御システム611などの管理エンティティは、計算ユニットの構成および構成解除を制御し、外部ユーザ、ジョブ管理ソフトウェア、またはオーケストレーションソフトウェアにインターフェースを提供することができる。物理的計算構成要素は、オンザフライで計算ユニットおよび関連するクラスタの内外で交換することができ、これらのリソースは他の計算ユニットまたはクラスタに割り当てることができる。
【0073】
図9は、一実施態様における通信ファブリックのための制御プレーン900を示す図である。制御プレーン900は、PCIeスイッチ710、したがって対応するPCIeファブリックの動作に対するサイドバンドまたは帯域外制御を提供する。制御プレーン900は、ポート915を介したシャーシ601への、およびシャーシからのステータス/テレメトリおよびコマンド/制御シグナリングの安全で暗号化された転送を提供する。制御プレーン900は、この例ではイーサネットベースの制御プレーンを含み、PCIeベースの例が
図10に示されている。制御プレーン900は、PCIeスイッチ710を備えるものとして
図7および
図9に示すように、複数のPCIeスイッチから形成されたPCIeファブリックの動作および構成を制御することができる。制御プレーン900は、制御リンク713を介してイーサネットスイッチ912およびリンク716(617)を介してイーサネット物理層回路(PHY)914に通信するコントローラ711を備える。さらに、コントローラ711は、リンク616を介して電力制御要素(
図9には図示せず)に通信することができる。イーサネットPHY914は、カテゴリ5、5e、6、またはギガビット級以上の速度を提供する他の適切なタイプのイーサネットケーブル(導電性および光)などのイーサネットケーブルに結合するための少なくとも2つのイーサネットポート915を提供する。リンク713は、ケーブル配線または関連するPHY回路を使用せずにイーサネット互換性シグナリングを使用してオン基板チップツーチップ通信を提供する、シリアル・ギガビット・メディア独立インターフェース(SGMII)と呼ばれるイーサネットシグナリングのバージョンを使用して、コントローラ711をイーサネットスイッチ912に通信可能に結合する。
【0074】
イーサネットスイッチ912は、コントローラ711を、関連するリンク913(613)を介してPCIeスイッチ710の各々の管理インターフェースに通信可能に結合するためのマルチポートスイッチ構成を備える。リンク913は、この例では、ケーブル配線または関連するPHY回路を使用することなく、イーサネット互換性シグナリングを使用してオン基板チップツーチップ通信を提供する縮小ギガビット・メディア非依存インターフェース(RGMII)を備える。PCIeスイッチ710は、RGMII通信に対応した管理ポートを備え、PCIeスイッチ710の各種動作を制御することができる。例えば、PCIeスイッチ710のポートの割り当ておよび割り当ては、リンク913を介して制御されて、グループ化された一組のポート614を形成し、物理的計算構成要素が接続された計算ユニットを形成することができる。
図9に示すPCIeリンク614の各々は、x16のPCIeリンクを備えてもよいが、レーンの他の構成を採用することもできる。PCIeスイッチ710のそのような動作を制御するための制御シグナリングは、コントローラ711への配信のためにイーサネットポート915を介して受信することができ、または他のソースの中でもコントローラ711によって発信することができる。コントローラ711は、リンク716を介して受信されたシグナリングまたはメッセージングを解釈し、リンク713,913を使用してPCIeスイッチ710に固有の制御シグナリングを決定して、PCIeスイッチ710とインターフェースし、PCIeスイッチの構成を制御することができる。さらに、PCIeスイッチ710は、ステータス、テレメトリ、および他のメッセージングを、同様のインターフェース/リンクを介してコントローラ711に提供することができる。コントローラ711は、そのようなテレメトリ/メッセージングに作用するか、またはリンク716を介してさらなるシステムに渡すことができる。
【0075】
図10は、一実施態様における通信ファブリックのための制御プレーン1000を示す図である。制御プレーン1000は、PCIeスイッチ710、したがって対応するPCIeファブリックの動作に対するサイドバンドPCIe制御を提供する。制御プレーン1000は、ポート915を介したシャーシ601への、およびシャーシからのステータス/テレメトリおよびコマンド/制御シグナリングの安全で暗号化された転送を提供する。さらに、ポート915と同様の機能を提供することができる外部PCIeポート/リンク1010が制御プレーン1000に設けられる。制御プレーン1000は、この例ではPCIeベースの制御プレーンを含む。制御プレーン1000は、PCIeスイッチ710を備えるものとして
図7および
図10に示すように、複数のPCIeスイッチから形成されたPCIeファブリックの動作および構成を制御することができる。制御プレーン1000は、制御リンク713を介してリンク716(617)を介して管理PCIeスイッチ912およびイーサネット物理レイヤ回路(PHY)914に通信するコントローラ711を備える。さらに、コントローラ711は、リンク616を介して電力制御要素(
図10には図示せず)に通信することができる。イーサネットPHY914は、カテゴリ5、5e、6、またはギガビット級以上の速度を提供する他の適切なタイプのイーサネットケーブル(導電性および光)などのイーサネットケーブルに結合するための少なくとも2つのイーサネットポート915を提供する。リンク713は、x1 PCIeリンクを使用してコントローラ711を管理PCIeスイッチ912に通信可能に結合するが、他のPCIe幅も可能である。M.2ストレージユニット1020は、管理PCIeスイッチ912に結合することができ、管理PCIeスイッチを介して、リンク713を介してコントローラ711によってアクセスすることができる。一例では、M.2ストレージユニット1020は、管理またはテレメトリデータのためのローカルキャッシュまたはメモリを提供することができる。
【0076】
管理PCIeスイッチ912は、PCIeスイッチ710と同様の構成であるが、コントローラ711を関連するリンク1013(613)を介してPCIeスイッチ710の各々の管理インターフェースに通信可能に結合するようにx1リンク幅構成で構成された、マルチポートPCIeスイッチを備える。この例では、リンク1013はx1 PCIeリンクを含む。PCIeスイッチ710は、PCIe通信に対応した管理ポートを備え、PCIeスイッチ710の各種動作を制御する。例えば、PCIeスイッチ710のポートの割り当ておよび割り当ては、リンク1013を介して制御されて、グループ化された一組のポート614を形成し、物理的計算構成要素が接続された計算ユニットを形成することができる。
図10に示すPCIeリンク614の各々は、x16のPCIeリンクを備えてもよいが、レーンの他の構成を採用することもできる。PCIeスイッチ710のそのような動作を制御するための制御シグナリングは、コントローラ711への配信のためにイーサネットポート915を介して受信することができ、または他のソースの中でもコントローラ711によって発信することができる。コントローラ711は、リンク716を介して受信されたシグナリングまたはメッセージングを解釈し、リンク713、1013を使用してPCIeスイッチ710に固有の制御シグナリングを決定して、PCIeスイッチ710とインターフェースし、PCIeスイッチの構成を制御することができる。さらに、PCIeスイッチ710は、ステータス、テレメトリ、および他のメッセージングを、同様のインターフェース/リンクを介してコントローラ711に提供することができる。コントローラ711は、そのようなテレメトリ/メッセージングに作用するか、またはリンク716を介してさらなるシステムに渡すことができる。さらに、外部PCIeポート/リンク1010は、ポート/リンク915と同様の特徴/機能を提供するが、イーサネットの代わりにPCIeスタイルのリンクを介して、制御プレーン1000に設けられる。
【0077】
図10に示す構成では、帯域外制御およびテレメトリは、リンク716を介してイーサネットシグナリングを介して搬送することができ、PCIeスイッチ710のポート構成を介した計算ユニット形成のオーケストレーションは、リンク717を介して制御することができる。
図10のPCIeベースの制御プレーンは、コントローラ711(シャーシ601の内部)を介して、またはPCIeおよびリンク717を介して結合された外部管理ノードを介して、個々のPCIeスイッチ710を管理する柔軟性を可能にする。
【0078】
図11は、制御システム1100の実施態様を示すブロック図である。制御システム1100は、
図6の制御システム611、
図7、
図9、および
図10のコントローラ711、または
図6および
図8の電力コントローラ621など、本明細書で説明する制御システム、コントローラ、または管理プロセッサのいずれかの例を示す。制御システム1100は、通信インターフェース1101、ユーザインターフェース1103、および処理システム1110を含む。処理システム1110は、処理回路1111と、ランダムアクセスメモリ(RAM)1113を含むことができるデータストレージシステム1112と、を含むが、追加のまたは異なる構成の要素を含むことができる。
【0079】
処理回路1111は、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。処理回路1111の例は、汎用中央処理装置、マイクロプロセッサ、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイスを含む。いくつかの例では、処理回路1111は、クラウド計算システムなどの物理的に分散された処理デバイスを含む。
【0080】
通信インターフェース1101は、通信リンク、パケットネットワークなどのネットワーク、およびインターネットなどを介して通信するための1つまたは複数の通信およびネットワークインターフェースを含む。通信インターフェースは、PCIeインターフェース、イーサネットインターフェース、シリアルインターフェース、シリアル・ペリフェラル・インターフェース(SPI)リンク、I2Cインターフェース、ユニバーサル・シリアル・バス(USB)インターフェース、SMBusインターフェース、PMBusインターフェース、UARTインターフェース、無線インターフェース、またはイーサネット、イーサネットスタイル、もしくはインターネットプロトコル(IP)リンクを介して通信することができる1つもしくは複数のローカルもしくはワイドエリアネットワーク通信インターフェースを含むことができる。通信インターフェース1101は、異なるネットワークリンクに関連付けることができる1つまたは複数のネットワークアドレスを使用して通信するように構成されたネットワークインターフェースを含むことができる。通信インターフェース1101の例は、ネットワーク・インターフェース・カード機器、トランシーバ、モデム、および他の通信回路を含む。通信インターフェース1101は、PCIeファブリックまたは他の通信ファブリックの要素と通信して、通信ファブリックの1つまたは複数の通信スイッチの管理インターフェースまたは制御インターフェースなどを介して、ファブリック内で論理分割を確立することができる。
【0081】
ユーザインターフェース1103は、タッチスクリーン、キー基板、マウス、音声入力デバイス、音声入力デバイス、またはユーザからの入力を受信するための他のタッチ入力デバイスを含むことができる。ディスプレイ、スピーカ、ウェブインターフェース、端末インターフェース、および他の種類の出力デバイスなどの出力デバイスもまた、ユーザインターフェース1103に含まれてもよい。ユーザインターフェース1103は、通信インターフェース1101などのネットワークインターフェースを介して出力を提供し、入力を受信することができる。ネットワークの例では、ユーザインターフェース1103は、1つまたは複数のネットワークインターフェースを介して結合されたディスプレイシステムまたは計算システムによって、リモートディスプレイ用のディスプレイまたはグラフィックスデータをパケット化することができる。ユーザインターフェース1103の物理的または論理的要素は、ユーザまたは他のオペレータに警告または視覚的出力を提供することができる。ユーザインターフェース1103はまた、上述した様々なユーザ入出力デバイスをサポートする、処理システム1110によって実行可能な関連するユーザインターフェースソフトウェア1121を含むことができる。別個に、または互いにおよび他のハードウェアおよびソフトウェア要素と共に、ユーザインターフェースソフトウェア1121およびユーザインターフェースデバイス1103は、グラフィカルユーザインターフェース、自然なユーザインターフェース、または任意の他の種類のユーザインターフェースをサポートすることができる。物理ユーザインターフェース1103の一例は、
図1、
図2、および
図4のステータスディスプレイ130、または
図6および
図7のフロント・パネル・ディスプレイ650であってもよい。しかしながら、ユーザインターフェース1103は、シャーシ601に、またはリモートホストもしくはクライアントデバイスを介して提示することができるグラフィカルユーザインターフェース(GUI)などのソフトウェアベースのインターフェースとして提示することもできる。
【0082】
ユーザインターフェース1103は、グラフィカルユーザインターフェース(GUI)を一人または複数のユーザに提示することができる。GUIは、クラスタを確立し、アセット(計算ユニット/マシン)を各クラスタに割り当てるために、エンドユーザまたは管理者によって使用され得る。いくつかの例では、GUIまたはユーザインターフェース1103の他の部分は、エンドユーザが、計算ユニットの作成で使用するために使用またはカスタマイズするための1つまたは複数の計算ユニットテンプレートおよび動的調整ポリシーセットを決定することを可能にするインターフェースを提供する。ユーザインターフェース1103を使用して、マシンテンプレートを管理、選択、および変更したり、計算ユニットのポリシーを変更したりすることができる。ユーザインターフェース1103はまた、1つまたは複数のステータスインターフェースまたはステータスビューなどにおいて、テレメトリ情報を提供することができる。様々な構成要素または要素の状態は、とりわけ、プロセッサ/CPU状態、ネットワーク状態、記憶装置状態、PCIe要素状態など、ユーザインターフェース1103を介して監視することができる。様々な性能測定基準、エラー状況は、ユーザインターフェース1103を使用して監視することができる。ユーザインターフェース1103は、コマンド・ライン・インターフェース(CLI)、アプリケーション・プログラミング・インターフェース(API)、または他のインターフェースなど、GUI以外の他のユーザインターフェースを提供することができる。ユーザインターフェース1103の一部は、WebSocketベースのインターフェースを介して提供することができる。ユーザインターフェース1103は、本明細書で論じられているような物理的インジケータライトを提供または制御することができ、あるいはシャーシまたはエンクロージャに取り付けられたディスプレイ上の1つまたは複数のフロント・パネル・ディスプレイに対するステータス/情報/制御を提供することができる。
【0083】
ストレージシステム1112およびRAM1113は、共に非一時的データストレージシステムを備えることができるが、変形も可能である。ストレージシステム1112およびRAM1113はそれぞれ、処理回路1111によって読み取り可能であり、ソフトウェアおよびOSイメージを記憶することができる任意の記憶媒体を備えることができる。RAM1113は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装された揮発性および不揮発性、取り外し可能および固定の媒体を含むことができる。ストレージシステム1112は、それらの組み合わせを含む、固体記憶媒体、フラッシュメモリ、相変化メモリ、または磁気メモリなどの不揮発性記憶媒体を含むことができる。ストレージシステム1112およびRAM1113は各々、単一のストレージデバイスとして実装することができるが、複数のストレージデバイスまたはサブシステムにわたって実装することもできる。ストレージシステム1112およびRAM1113は各々、処理回路1111と通信することができるコントローラなどの追加の要素を備えることができる。
【0084】
ストレージシステム1112もしくはRAM1113に記憶されたソフトウェアまたはデータは、コンピュータプログラム命令、ファームウェア、または処理システムが実行されると本明細書に記載のように動作するように制御システム1100に指示するプロセスを有する何らかの他の形態の機械可読処理命令を含むことができる。ソフトウェア1120は、ストレージ1112またはRAM1113の構成例の詳細図を示す。異なる構成が可能であることを理解されたい。ソフトウェア1120は、アプリケーション1125およびオペレーティングシステム(OS)1126を含む。ソフトウェアアプリケーションはそれぞれ、本明細書で説明する動作に従って計算システムもしくはクラスタコントローラを動作させるため、または他の回路を動作させるために制御システム1100によって実行することができる実行可能命令を含む。
【0085】
例えば、ソフトウェア1120は、制御システム1100を駆動して、他の構成要素の中でも、CPU、GPU、SSD、およびNICを含む複数の分散された物理的計算構成要素間で計算ユニットを確立するためのユーザコマンドを受信することができる。これらの構成要素は、本明細書で説明するPCIe周辺スロットまたはPCIeベースのストレージドライブコネクタに挿入された任意の構成要素を備える。ソフトウェア1120は、制御システム1100を駆動して、テレメトリデータ、統計情報、動作データ、および他のデータを受信および監視して、テレメトリをユーザに提供し、テレメトリデータ、ポリシー、または他のデータおよび基準に従って計算ユニットの動作を変更することができる。ソフトウェア1120は、制御システム1100を駆動して、とりわけ、クラスタリソースおよび計算ユニットリソースを管理し、通信ファブリック要素間のドメイン分割またはNT分割を確立し、個々の通信スイッチとインターフェース接続してそのような通信スイッチの動作を制御することができる。ソフトウェア1120はまた、ユーザ・ソフトウェア・アプリケーション、アプリケーション・プログラミング・インターフェース(API)、またはユーザインターフェース1121を含むことができる。ソフトウェア1120は、単一のアプリケーションまたは複数のアプリケーションとして実装することができる。一般に、ソフトウェア1120は、処理システム1110にロードされて実行されると、処理システムを汎用デバイスから本明細書で説明するようにカスタマイズされた専用デバイスに変換することができる。
【0086】
制御プレーンインターフェース1122は、I2C、SMBus、PMBus、個別論理シグナリング、イーサネット、エミュレートされたネットワークデバイス、またはPCIeインターフェースなどを介して、他の制御システム1100要素間の通信を提供する。制御プレーンインターフェース1122は、制御システム1100、制御プレーン回路、および電力制御回路、ならびに他の要素の間の通信を可能にする。ファブリックインターフェース1123は、PCIeスイッチ回路の管理/制御インターフェースと通信し、PCIeファブリックのPCIeスイッチ素子などの通信ファブリック回路素子間の様々な論理区分またはドメインを確立する。ファブリックインターフェース1123はまた、ファブリックスイッチ素子の動作を制御し、ファブリックスイッチ素子からテレメトリを受信する。ファブリックインターフェース1123はまた、通信ファブリック内にアドレストラップまたはアドレスリダイレクト機能を確立する。ファブリックインターフェース1123は、監視およびリダイレクトされるアドレス範囲を確立するために、1つまたは複数のファブリックスイッチ回路要素とインターフェースすることができ、したがって、通信ファブリック内にアドレストラップを形成する。
【0087】
ソフトウェア1120に加えて、他のデータ1130をストレージシステム1112およびRAM1113によって記憶することができる。データ1130は、テレメトリエージェント1134、テレメトリデータ1135、およびファブリックデータ1136を含むことができる。テレメトリエージェント1134は、計算ユニットの動作を監視するために計算ユニット内の構成要素に展開することができるソフトウェア要素を含むことができる。テレメトリエージェント1134は、ハードウェア/ソフトウェアパラメータ、テレメトリデバイスアドレス指定、または計算ユニットおよび通信ファブリックのIPMI準拠ハードウェア/ソフトウェアなどの監視要素とのインターフェースに使用される他の情報を含むことができる。テレメトリデータ1135は、様々な計算ユニットのテレメトリ要素からの受信データのデータストアを含み、この受信データは、テレメトリデータまたは監視データを含むことができる。テレメトリデータ1135は、データを計算ユニット配置、通信ファブリック配置、または他の構造に編成することができる。テレメトリデータ1135は、データ1130としてキャッシュされ、その後に、計算システムの他の要素に転送されるか、またはユーザインターフェースを介した提示に使用され得る。ファブリックデータ1136は、ファブリックタイプ、プロトコルバージョン、技術記述子、ヘッダ要件、アドレス指定情報、および他のデータなどのリソースのプールまたは構成要素のプールを含む様々な通信ファブリックの情報およびプロパティを含む。ファブリックデータ1136は、構成要素と構成要素が接続する特定のファブリックとの間の関係を含むことができる。
【0088】
電力コントローラ621に見られるような制御システム1100を用いて電力制御を達成することもできる。電力制御1124は、他の動作のうちで、とりわけ、PCIeスロット電力の監視、PCIeスロットおよび関連するシャーシに関連する様々なユーザインターフェース要素へのステータスインジケータの開始、およびスロット電力の制御を提供する制御アルゴリズムおよびスキームを提供する。電力テレメトリ1137は、電流消費、電源オン/オフステータス、およびカード挿入ステータスを示す、個々の周辺スロットのシャーシ電力およびスロット電力のステータスを格納することができる。このステータスに基づいて、電力制御1124は、個々の周辺スロットまたはシャーシ内部回路基板の電源オン/オフステータスを変更し、電力インジケータライト/LEDまたはフロント・パネル・ディスプレイ(使用される場合)の制御を提供することができる。さらに、ユーザインターフェース1103によって説明するように、電力ステータス/制御を外部システムに送信/受信するために、ウェブインターフェース、端末インターフェース、API、またはコマンド・ライン・インターフェースを電力制御1124によって提供することができる。
【0089】
ソフトウェア1120は、制御システム1100の実行および動作中にRAM1113に存在することができ、他の場所および状態の中でも電源オフ状態中にストレージシステム1112の不揮発性部分に存在することができる。ソフトウェア1120は、コンピュータ・オペレーティング・システムおよびアプリケーションについて説明したように、起動またはブート手順中にRAM1113にロードすることができる。ソフトウェア1120は、ユーザインターフェース1103を介してユーザ入力を受け取ることができる。このユーザ入力は、ユーザコマンド、ならびにそれらの組み合わせを含む他の入力を含むことができる。
【0090】
ストレージシステム1112は、他のソリッドステート記憶技術の中でも、NANDフラッシュまたはNORフラッシュメモリなどのフラッシュメモリ、相変化メモリ、磁気メモリを含むことができる。
図11に示すように、ストレージシステム1112はソフトウェア1120を含む。上述したように、ソフトウェア1120は、他のオペレーティングソフトウェアの中でも、制御システム1100の電源が切られた状態の間、アプリケーションおよびOSのための不揮発性記憶空間内にあり得る。
【0091】
制御システム1100は、一般に、本明細書に記載の動作をレンダリングまたは他の様態で実施するために、少なくともソフトウェア1120が展開および実行される計算システムを表すことを意図している。しかしながら、制御システム1100はまた、少なくともソフトウェア1120をステージングすることができ、そこからソフトウェア1120を展開および実行、またはさらに追加の配布のためにさらに別の計算システムに配布、輸送、ダウンロード、または提供することができる任意の計算システムを表すこともできる。
【0092】
図で提供される機能ブロック図、動作シナリオおよびシーケンス、ならびにフロー図は、本開示の新規な態様を実行するための例示的なシステム、環境、および方法論を表す。説明を簡単にするために、本明細書に含まれる方法は、機能図、動作シナリオもしくはシーケンス、またはフロー図の形態であってもよく、一連の動作として説明されてもよいが、いくつかの動作は、それに従って、本明細書に示され説明されているものとは異なる順序で、および/または他の動作と同時に行われ得るため、方法は動作の順序によって限定されないことを理解および認識されたい。例えば、当業者は、方法が状態図などの一連の相互に関連する状態または事象として代替的に表され得ることを理解および認識するであろう。さらに、方法論において例示されたすべての動作が、新規な実施のために必要とされるわけではない。
【0093】
本明細書に含まれる説明および図は、最良の選択肢を作成および使用する方法を当業者に教示するための特定の実施態様を示す。本発明の原理を教示する目的で、いくつかの従来の態様は簡略化または省略されている。当業者は、本開示の範囲内に入るこれらの実施態様からの変形を理解するであろう。当業者はまた、上述の特徴を様々な方法で組み合わせて複数の実施態様を形成することができることを理解するであろう。結果として、本発明は、上述の特定の実施態様に限定されず、特許請求の範囲およびそれらの均等物によってのみ限定される。
【国際調査報告】