特表2023-553213 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ リキッドインコーポレイテッドの特許一覧

特表2023-553213計算クラスタにおける実行ジョブ計算ユニット合成

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-12-20

(54)【発明の名称】計算クラスタにおける実行ジョブ計算ユニット合成

(51)【国際特許分類】

G06F 9/50 20060101AFI20231213BHJP

G06F 9/48 20060101ALI20231213BHJP

【ＦＩ】

G06F9/50 120A

G06F9/48 300A

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023559965

(86)(22)【出願日】2021-11-11

(85)【翻訳文提出日】2023-08-07

(86)【国際出願番号】 US2021058947

(87)【国際公開番号】W WO2022125259

(87)【国際公開日】2022-06-16

(31)【優先権主張番号】17/119,165

(32)【優先日】2020-12-11

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．３ＧＰＰ

２．Ｌｉｎｕｘ

３．ＷＩＮＤＯＷＳ

４．ｍａｃＯＳ

５．ＡＮＤＲＯＩＤ

６．ｉＯＳ

７．ＯＰＥＮＣＡＰＩ

(71)【出願人】

【識別番号】523220499

【氏名又は名称】リキッドインコーポレイテッド

(74)【代理人】

【識別番号】110000659

【氏名又は名称】弁理士法人広江アソシエイツ特許事務所

(72)【発明者】

【氏名】クラーク，ジョサイア

(57)【要約】

本明細書では、通信ファブリックを介して結合された物理計算構成要素の配置の展開が提示される。一例では、方法は、少なくとも１つの通信ファブリックに結合された計算構成要素のプールを含む計算クラスタに指示する実行ジョブを受信するステップを含む。実行ジョブのプロパティに基づいて、本方法は、実行ジョブを処理するためのリソーススケジューリングを決定するステップであって、リソーススケジューリングが、計算クラスタのリソースの時間的割り当てを示す、ステップと、実行ジョブを処理するために計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを合成するように通信ファブリックに少なくとも命令することによって、リソーススケジューリングに従って計算クラスタ上で実行ジョブを開始するステップと、を含む。実行ジョブの完了に応答して、計算ユニットが合成解除されて、計算構成要素のプールに戻される。
【選択図】図１

【特許請求の範囲】

【請求項1】

少なくとも１つの通信ファブリックに結合された計算構成要素のプールを含む計算クラスタに指示する実行ジョブを受信するステップと、
前記実行ジョブのプロパティに基づいて、前記実行ジョブを処理するためのリソーススケジューリングを決定するステップであって、前記リソーススケジューリングが、前記計算クラスタのリソースの時間割り当てを示す、ステップと、
前記実行ジョブを処理するために前記計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを合成するように前記通信ファブリックに少なくとも命令することによって、前記リソーススケジューリングに従って前記計算クラスタ上で前記実行ジョブを開始するステップであって、前記実行ジョブの完了に応答して、前記計算ユニットが合成解除されて前記計算構成要素のプールに戻される、ステップと、
を含む方法。

【請求項2】

前記リソーススケジューリングに従って、前記計算ユニットの各々が形成されると、前記実行ジョブを実行するために前記計算ユニットにソフトウェア構成要素を展開するように前記通信ファブリックに命令するステップを、さらに含む、請求項１に記載の方法。

【請求項3】

前記実行ジョブの完了に応答して、前記計算ユニットの計算構成要素が追加の計算ユニットへの合成に利用可能になるように、前記計算ユニットの対応する論理分離を除去することによって前記計算ユニットを合成解除するように前記通信ファブリックに命令するステップを、さらに含む、請求項１に記載の方法。

【請求項4】

前記リソーススケジューリングが、前記実行ジョブの識別子、前記実行ジョブの各々を実行するのに必要な前記計算構成要素のセットの表示、前記計算ユニットの合成および合成解除を開始する時間枠、および前記実行ジョブのために前記計算ユニットに展開するソフトウェア構成要素の表示、に関する１つまたは複数のデータ構造を含む、請求項１に記載の方法。

【請求項5】

前記計算構成要素のプールが、少なくとも前記通信ファブリックに結合された、中央処理装置（ＣＰＵ）、コプロセッシングユニット、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、記憶ドライブ、およびネットワーク・インターフェース・コントローラ（ＮＩＣ）を含む、請求項１に記載の方法。

【請求項6】

前記計算構成要素のプールが、各々が異なる通信プロトコルを含む、２つ以上の通信ファブリックに結合された計算構成要素を含む、請求項５に記載の方法。

【請求項7】

前記通信ファブリックが、周辺機器相互接続エクスプレス（ＰＣＩｅ、ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）、Ｇｅｎ－Ｚ、コンピュート・エクスプレス・リンク（ＣＸＬ、ＣｏｍｐｕｔｅＥｘｐｒｅｓｓＬｉｎｋ）、ＮＶＬｉｎｋ、アクセラレータ用キャッシュコヒーレント相互接続（ＣＣＩＸ、ＣａｃｈｅＣｏｈｅｒｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｆｏｒＡｃｃｅｌｅｒａｔｏｒｓ）、オープン・コヒーレント・アクセラレータ・インターフェース（ＯｐｅｎＣＡＰＩ、ＯｐｅｎＣｏｈｅｒｅｎｔＡｃｃｅｌｅｒａｔｏｒＰｒｏｃｅｓｓｏｒＩｎｔｅｒｆａｃｅ）、イーサネット（Ｅｔｈｅｒｎｅｔ）、インフィニバンド（ＩｎｆｉｎｉＢａｎｄ）、およびファイバーチャネル（ＦｉｂｒｅＣｈａｎｎｅｌ）のうちの少なくとも１つからの通信プロトコルを含む、請求項１に記載の方法。

【請求項8】

前記計算ユニットを合成するように前記通信ファブリックに命令するステップが、前記計算構成要素のセットを通信可能に結合する前記通信ファブリック内に論理分離を形成するように前記通信ファブリックに命令するステップを含み、前記論理分離はそれぞれ、前記計算構成要素のセットのそれぞれ内の計算構成要素が、対応する論理分離内でのみ前記通信ファブリックを介して通信することを可能にする、請求項１に記載の方法。

【請求項9】

１つまたは複数のコンピュータ可読記憶媒体と、
前記１つまたは複数のコンピュータ可読記憶媒体と動作可能に結合された処理システムと、
前記１つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令であって、前記処理システムによって読み取られかつ実行されることに基づいて、
前記処理システムに、少なくとも、
少なくとも１つの通信ファブリックに結合された計算構成要素のプールを含む計算クラスタに指示する実行ジョブを受信することと、
前記実行ジョブのプロパティに基づいて、前記実行ジョブを処理するためのリソーススケジューリングを決定し、前記リソーススケジューリングが、前記計算クラスタのリソースの時間的割り当てを示すことと、
前記実行ジョブを処理するために前記計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを構成するように前記通信ファブリックに少なくとも命令することによって、前記リソーススケジューリングに従って前記計算クラスタ上で前記実行ジョブを開始することであって、前記実行ジョブの完了に応答して、前記計算ユニットが合成解除されて、前記計算構成要素のプールに戻されることと、を指示する、プログラム命令と、
を含む、装置。

【請求項10】

前記処理システムによって実行されることに基づいて、前記処理システムに、少なくとも、
前記リソーススケジューリングに従って、前記計算ユニットの各々が形成されると、前記実行ジョブを実行するために前記計算ユニットにソフトウェア構成要素を展開するように、前記通信ファブリックに命令することを、指示する、プログラム命令をさらに含む、請求項９に記載の装置。

【請求項11】

前記処理システムによって実行されることに基づいて、前記処理システムに、少なくとも、
前記実行ジョブの前記完了に応答して、前記計算ユニットの計算構成要素が追加の計算ユニットへの合成に利用可能になるように、前記計算ユニットの対応する論理分離を除去することによって、前記計算ユニットを合成解除するように前記通信ファブリックに命令することを、指示する、プログラム命令をさらに含む、請求項９に記載の装置。

【請求項12】

【請求項13】

【請求項14】

前記計算構成要素のプールが、各々が異なる通信プロトコルを含む２つ以上の通信ファブリックに結合された計算構成要素を含む、請求項１３に記載の装置。

【請求項15】

【請求項16】

前記処理システムによって実行されることに基づいて、前記処理システムに、少なくとも、
前記計算構成要素のセットを通信可能に結合する前記通信ファブリック内に論理分離を形成するように、前記通信ファブリックに少なくとも命令することによって、前記通信ファブリックに前記計算ユニットを合成するように命令することであって、前記論理分離は各々、前記計算構成要素のセットの各々の内の計算構成要素が、対応する論理分離内でのみ前記通信ファブリックを介して通信することを可能にすること、を指示する、プログラム命令をさらに含む、請求項９に記載の装置。

【請求項17】

計算システムであって、
前記計算システムによる処理のための実行ジョブを受信するように構成されたジョブインターフェースと、
管理プロセッサであって、
少なくとも１つの通信ファブリックに結合された計算構成要素のフリープールを形成することと、
前記実行ジョブのプロパティに基づいて、前記実行ジョブを処理するためのリソーススケジューリングを決定することであって、前記リソーススケジューリングが、前記計算構成要素のフリープールからのリソースの時間割り当てを示すことと、
前記実行ジョブを処理するために前記計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを、少なくとも合成することによって、前記リソーススケジューリングに従って前記実行ジョブを開始することと、
前記リソーススケジューリングに従って、前記計算ユニットの各々が形成されると、前記実行ジョブを実行するために前記計算ユニットにソフトウェア構成要素を展開することと、
前記実行ジョブの完了に応答して、前記計算ユニットの計算構成要素が追加の計算ユニットへの合成に利用可能になるように、前記計算ユニットの対応する論理分離を除去することによって、前記計算ユニットを合成解除することと、
を行うように構成されている、管理プロセッサと、
を含む、計算システム。

【請求項18】

前記リソーススケジューリングが、前記実行ジョブの識別子、前記実行ジョブの各々を実行するのに必要な前記計算構成要素のセットの表示、前記計算ユニットの構成および合成解除を開始する時間枠、ならびに前記実行ジョブのために前記計算ユニットに展開するソフトウェア構成要素の表示、に関する１つまたは複数のデータ構造を含む、請求項１７に記載の計算システム。

【請求項19】

前記管理プロセッサが、前記計算構成要素のセットを通信可能に結合する前記通信ファブリック内に少なくとも論理分離を形成することによって前記計算ユニットを合成するように構成され、前記論理分離は各々、前記計算構成要素のセットの各々内の計算構成要素が対応する論理分離内でのみ前記通信ファブリックを介して通信することを可能にする、請求項１７に記載の計算システム。

【請求項20】

前記計算構成要素のプールが、少なくとも前記通信ファブリックに結合された中央処理装置（ＣＰＵ）、コプロセッシングユニット、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、記憶ドライブ、およびネットワーク・インターフェース・コントローラ（ＮＩＣ）を含む、請求項１７に記載の計算システム。

【発明の詳細な説明】

【背景技術】

【0001】

クラスタ化された計算システムは、データ記憶、データ処理、およびパケット通信処理に対する需要が高まるにつれて普及している。データセンタは、典型的には、大型ラックマウント型およびネットワーク結合型のデータ記憶およびデータ処理システムを含む。これらのデータセンタは、ネットワークリンクを介して外部ユーザから記憶のためのデータを受信でき、データセンタ内の処理要素で実行されるアプリケーションから生成されたデータを受信できる。多くの場合、データセンタおよび関連する計算機器を使用して、複数の同時ユーザまたはアプリケーションのためのジョブを実行できる。ジョブは、中央処理装置（ＣＰＵ）またはグラフィックス処理装置（ＧＰＵ）を使用してデータを処理するために、ならびに、これらのリソースに関連するデータを一時記憶と長期記憶との間でやり取りするために、データセンタのリソースを利用できる実行ジョブを含む。ＧＰＵベースの処理は、人工知能（ＡＩ）および機械学習レジームで使用するために人気が高まっている。これらのレジームでは、ブレードサーバなどの計算システムは、大規模データセットを処理するための関連するＣＰＵと共に１つまたは複数のＧＰＵを含むことができる。

【0002】

しかしながら、ラックマウント型機器を有する大規模なデータセンタであっても、ブレードサーバまたは同様のタイプの計算要素を展開するときに密度の制限が生じる。具体的には、各サーバは、典型的には、ＣＰＵ、ＧＰＵ、および共通のエンクロージャまたはシャーシに収容された記憶要素の間に固定された配置を含む。着信ジョブがデータセンタ内に展開されると、計算リソースの粒度は個々のサーバに制限される。したがって、展開されたジョブは、通常、サーバのリソース全体が実際にジョブを実行するために必要であるか否かにかかわらず、各サーバの対応するＣＰＵ、ＧＰＵ、および記憶要素のすべてと共に、１つまたは複数のサーバを占有する。補填するために、データセンタのオペレータは通常、サーバの数を連続的に増加して展開し、ジョブからの増加するトラフィックに対応する。この戦略は、ラックマウント型サーバに必要な物理的空間だけでなく、環境の温度調節システムのための大きな空間およびコスト要件において、障害に直面する可能性がある。

【発明の概要】

【0003】

【0004】

別の例では、装置は、１つまたは複数のコンピュータ可読記憶媒体と、１つまたは複数のコンピュータ可読記憶媒体と動作可能に結合された処理システムとを含む。プログラム命令は、処理システムによって読み取られかつ実行されることに基づいて、少なくとも１つの通信ファブリックに結合された計算構成要素のプールを含む計算クラスタに指示する実行ジョブを少なくとも受信するように処理システムに指示する、１つまたは複数のコンピュータ可読記憶媒体に記憶される。実行ジョブのプロパティに基づいて、プログラム命令は、実行ジョブを処理するためのリソーススケジューリングを決定するように処理システムに指示し、リソーススケジューリングは、計算クラスタのリソースの時間的割り当てを示す。プログラム命令は、実行ジョブを処理するために計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを合成するように通信ファブリックに少なくとも命令することによって、リソーススケジューリングに従って計算クラスタ上の実行ジョブを開始するように処理システムに指示し、実行ジョブの完了に応答して、計算ユニットが合成解除されて、計算構成要素のプールに戻される。

【0005】

さらに別の例では、システムは、計算システムによる処理のための実行ジョブを受信するように構成されたジョブインターフェースと、管理プロセッサとを含む。管理プロセッサは、少なくとも１つの通信ファブリックに結合された計算構成要素のフリープールを形成するように構成される。実行ジョブのプロパティに基づいて、管理プロセッサは、実行ジョブを処理するためのリソーススケジューリングを決定するように構成され、リソーススケジューリングは、計算構成要素のフリープールからのリソースの時間的な割り当てを示す。管理プロセッサは、実行ジョブを処理するために計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを少なくとも合成することによって、リソーススケジューリングに従って実行ジョブを開始するように構成される。リソーススケジューリングに従って、管理プロセッサは、計算ユニットの各々が形成されると、実行ジョブを実行するためにソフトウェア構成要素を計算ユニットに展開し、実行ジョブの完了に応答して、計算ユニットの対応する論理分離を除去することによって計算ユニットを合成解除し、その結果、計算ユニットの計算構成要素が追加の計算ユニットへの合成に利用可能になるように、構成される。

【0006】

この概要は、本技術開示において以下でさらに説明される概念の選択を簡略化した形で紹介するために提供される。この概要は、特許請求される主題の重要な特徴または本質的な特徴を特定することを意図するものではなく、特許請求される主題の範囲を限定するために使用されるべきでもないことを理解されたい。

【0007】

本開示の多くの態様は、以下の図面を参照してよりよく理解することができる。図面の構成要素は必ずしも縮尺通りではなく、代わりに本開示の原理を明確に示すことに重点が置かれている。さらに、図面において、同様の参照番号は、いくつかの図を通して対応する部分を示す。これらの図面に関連していくつかの実施形態が説明されているが、本開示は本明細書に開示された実施形態に限定されない。それどころか、すべての代替形態、修正形態、および同等物を網羅することを、意図としている。

【図面の簡単な説明】

【0008】

【図1】一実装形態における計算システムを示す図である。

【0009】

【図2】一実装形態における計算システムの動作例を示す流れ図である。

【0010】

【図3】一実装形態における計算システムの管理を示す図である。

【0011】

【図4】一実装形態における計算システムを示す図である。

【0012】

【図5】一実装形態における計算システムの管理要素を示す図である。

【0013】

【図6】一実装形態における管理プロセッサを示す図である。

【発明を実施するための形態】

【0014】

複数の同時ユーザまたはアプリケーションのためのジョブを実行するために、関連する計算機器を有するデータセンタを使用できる。ジョブは実行ジョブを含み、実行ジョブはデータセンタのリソースを利用してデータを処理するとともに、これらのリソースに関連するデータを一時記憶と長期記憶との間でやり取りすることができる。データセンタ処理リソースは、グラフィックス処理装置（ＧＰＵ、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）、テンソル処理装置（ＴＰＵ、ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ）、または特定用途向け集積回路（ＡＳＩＣ、Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）などの様々な種類のコプロセッシングユニット（ＣｏＰＵ、Ｃｏ－ＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）と共に中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）を含むことができる。人工知能（ＡＩ）および機械学習システムで使用するために、コプロセッシングユニット）タイプの処理は人気が高まっている。本明細書の例では、ブレードサーバベースのデータシステムの制限は、各着信実行ジョブの必要性に従ってオンザフライで計算のグループを動的に合成できる分解された計算システムを使用して克服できる。本明細書では計算ユニットまたはベアメタルマシンと呼ばれるこれらのグループ化は、様々な実行ジョブのニーズを満たし、そのようなジョブに合わせて調整されたリソースを含むことができる。共通のエンクロージャまたはシャーシに収容されたＣＰＵ、ＣｏＰＵ、および記憶要素間の固定配置を持つ代わりに、本明細書の例は、任意の数のエンクロージャ／シャーシにわたり、そして、通信ファブリック上で論理配置に動的に形成される任意の数のＣＰＵ、ＣｏＰＵ、および記憶要素を柔軟に含むことができる。計算ユニットは、より大きな並列性およびスループットを達成するために、多くの計算ユニット／マシンのセットまたはクラスタに、さらにグループ化できる。したがって、データシステムは、特定のジョブまたはジョブの特定部分に必要とされないブレードサーバのアイドル部分または無駄な部分を有さないことによって、リソースをより良好に利用できる。データセンタのオペレータは、固定配置サーバを使用して達成できるよりも大きい、データセンタの非常に高い利用レベルを達成できる。

【0015】

本明細書では、通信ファブリックを介して結合された物理計算構成要素の配置の展開が提示される。計算クラスタに指示する実行ジョブが受信される。クラスタは、少なくとも１つの「マシン」または計算ユニットを含み、計算ユニットは、少なくとも１つのプロセッサ要素（例えば、ＣＰＵ）を含む。計算ユニットはまた、ＣｏＰＵ（ＧＰＵなど）、ネットワークインターフェース要素（例えば、ＮＩＣ）、またはデータ記憶要素（例えば、ＳＳＤ）を含むことができるが、これらの要素は計算ユニットに必要ではない。計算ユニットまたはクラスタは、１つまたは複数の通信ファブリックを介して結合された計算構成要素のプールから形成される。実行ジョブのプロパティに基づいて、制御システムは、ジョブに必要なリソース、ならびに実行ジョブを処理するためのリソーススケジューリングを決定できる。ジョブが実行される予定になると、制御システムは、実行ジョブを処理するための計算ユニットの合成を促進する。計算ユニットは、計算構成要素のプールを形成する計算構成要素の中から合成される。論理分割は、計算ユニットを形成し、各計算ユニットを互いに分離するために通信ファブリック内で確立される。実行ジョブの完了に応答して、計算ユニットが合成解除されて、計算構成要素のプールに戻される。

【0016】

本明細書では、１つまたは複数の共有通信ファブリックを介して結合された様々な個々の物理計算構成要素について説明する。本明細書では、様々な通信ファブリックタイプを使用できる。例えば、周辺機器相互接続エクスプレス（ＰＣＩｅ）ファブリックを使用することができ、それは、とりわけ３．０、４．０、または５．０などの様々なバージョンを含んでもよい。ＰＣＩｅファブリックの代わりに、関連する物理層、電気シグナリング、プロトコル、および階層化された通信スタックを有する他のポイントツーポイント通信ファブリックまたは通信バスを使用できる。これらは、とりわけ、Ｇｅｎ－Ｚ、イーサネット、インフィニバンド（ＩｎｆｉｎｉＢａｎｄ）、ＮＶＭｅ、インターネットプロトコル（ＩＰ、ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）、シリアル接続ＳＣＳＩ（ＳＡＳ、ＳｅｒｉａｌＡｔｔａｃｈｅｄＳＣＳＩ）、ファイバーチャネル、サンダーボルト、シリアル接続ＡＴＡエクスプレス（ＳＡＴＡＥｘｐｒｅｓｓ）、ＮＶＬｉｎｋ、アクセラレータ用キャッシュコヒーレント相互接続（ＣＣＩＸ、ＣａｃｈｅＣｏｈｅｒｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｆｏｒＡｃｃｅｌｅｒａｔｏｒｓ）、コンピュート・エクスプレス・リンク（ＣＸＬ、ＣｏｍｐｕｔｅＥｘｐｒｅｓｓＬｉｎｋ）、オープン・コヒーレント・アクセラレータ・プロセッサ・インターフェース（ＯｐｅｎＣＡＰＩ、ＯｐｅｎＣｏｈｅｒｅｎｔＡｃｃｅｌｅｒａｔｏｒＰｒｏｃｅｓｓｏｒＩｎｔｅｒｆａｃｅ）、ワイヤレス・イーサネットまたはＷｉ－Ｆｉ（８０２．１１ｘ）、またはセルラ無線技術を含むことができる。イーサネットは、１０ＢＡＳＥ－Ｔ、１００ＢＡＳＥ－ＴＸ、１０００ＢＡＳＥ－Ｔ、１０ＧＢＡＳＥ－Ｔ（１０ＧＢイーサネット）、４０ＧＢＡＳＥ－Ｔ（４０ＧＢイーサネット）、ギガビット（イーサネット）、テラビット（ＴｂＥ）、２００ＧＢｂＥ、４００ＧｂＥ、８００ＧｂＥ、または他の様々な有線および無線イーサネットフォーマットおよび速度など、利用可能な様々なネットワーク通信プロトコル規格および帯域幅のいずれかを指すことができる。セルラ無線技術は、とりわけ、４Ｇロングタームエボリューション（ＬＴＥ、Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ）、５ＧＮＲ（ＮｅｗＲａｄｉｏ）、および関連する５Ｇ規格を含む、第３世代パートナーシッププロジェクト（３ＧＰＰ、３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）規格の周りに構築された様々な無線プロトコルおよびネットワークを含んでもよい。

【0017】

前述のシグナリングまたはプロトコルタイプのいくつかは、ＰＣＩｅ上に構築され、したがってＰＣＩｅインターフェースに追加機能を追加する。パラレル、シリアル、または複合パラレル／シリアル型のインターフェースも、本明細書の例に適用できる。以下の例では、例示的なファブリックタイプとしてＰＣＩｅを使用しているが、代わりに他のものを使用できることを理解されたい。ＰＣＩｅは、高速シリアルコンピュータ拡張バス規格であり、典型的には、ホストおよび構成要素デバイス間、またはピアデバイス間のポイントツーポイント接続を有する。ＰＣＩｅは、典型的には、すべてのデバイスをホストとも呼ばれるルートコンプレクスに接続する個々のシリアルリンクを有する。ＰＣＩｅ通信ファブリックは、本明細書に記載の様々なスイッチング回路および制御アーキテクチャを使用して確立できる。

【0018】

本明細書の様々な計算システムの構成要素は、棚またはラックユニットにさらに含めることができるラックマウント可能モジュールなどの１つまたは複数の物理的エンクロージャに含めることができる。特定のエンドユーザの必要に応じてモジュールを挿入および取り外しできるモジュール式フレームワークなど、物理的なエンクロージャに多数の構成要素を挿入または設置できる。囲まれたモジュール式システムは、回路、プリント回路基板、半導体システム、および構造要素を含む物理的支持構造体およびエンクロージャを含むことができる。計算システム１００などの構成要素を含むモジュールは、ラックマウント型またはラックユニット（Ｕ）タイプのエンクロージャに挿入可能かつ取り外し可能であってもよい。図１の構成要素は、任意の物理的な取り付け環境に含めることができ、関連するエンクロージャまたはラックマウント要素を含む必要がないことを理解されたい。

【0019】

第１の例示的なシステムとして、図１が提示される。図１は、ワークロードベースのハードウェア合成技法を使用する計算システム１００を示すシステム図である。計算システム１００は、通信ファブリック１４０を介して結合された物理計算構成要素のプールを有する計算クラスタ１０１を含む。計算システム１００はまた、管理システム１１０、ジョブインターフェース１１１、およびジョブキュー１１２を含む。物理計算構成要素は、ＣＰＵプール１４１内のＣＰＵ、ＣｏＰＵプール１４２内のＣｏＰＵ、および記憶プール１４３内の記憶ユニットを含む。ネットワーク・インターフェース・コントローラ（ＮＩＣ、ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ）、ファブリック結合ランダムアクセスメモリ（ＲＡＭ、Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）、または他の形態のデータ記憶ユニットのプールなど、構成要素の追加のプールを含めることができる。プール１４１～１４３のこれらの物理計算構成要素は、この例ではＰＣＩｅベースのファブリックを含む通信ファブリック１４０を介して通信可能に結合される。通信ファブリック１４０は、計算クラスタ１０１内の物理構成要素のそれぞれに個別に結合する複数のＰＣＩｅスイッチ要素および様々な対応するＰＣＩｅリンクから形成される。通信ファブリック１４０は、複数の物理計算構成要素を通信可能に結合し、また通信ファブリック内で論理分割を使用して計算ユニットを確立するように構成される。例えば図１の計算ユニット１２０および１３０に示されているこれらの計算ユニットは各々、いくつかのタイプの構成要素のうちの０個を含む、物理計算構成要素のそれぞれのプールからの任意の数のジョブ定義数量のＣＰＵ、ＣｏＰＵ、または記憶ユニットから構成できる。

【0020】

動作中、ジョブは、ジョブインターフェース１１１を介して受信され、システム１００の要素による実行または他のタイプの処理のためにキュー１１２に置かれる。ジョブインターフェース１１１は、他のインターフェースの中でも、ネットワークインターフェース、ユーザインターフェース、端末インターフェース、アプリケーション・プログラミング・インターフェース（ＡＰＩ）、または、レプレセンテーショナル・ステート・トランスファ（ＲＥＳＴ、ＲｅｐｒｅｓｅｎｔａｔｉｏｎａｌＳｔａｔｅＴｒａｎｓｆｅｒ）インターフェースを含むことができる。いくつかの例では、ワークロード・マネージャ・ソフトウェア・プラットフォーム（図示せず）は、システム１００による実行または処理のためにジョブを作成、スケジュール、および転送できるユーザまたはオペレータ用のフロントエンドを確立する。後述するように、他の様々なジョブインターフェースを使用できる。これらの実行ジョブは、各ジョブの実行、操作、および処理プロセスの性質を記述するプロパティを有する。例えば、ジョブは、ジョブの実行に必要なリソースを示すメタデータの付随セットを有することができ、または、システム／計算要件の最小セットが、ジョブの実行をサポートするために必要である。ジョブ要件は、構成要素タイプ、処理能力、記憶使用量、ジョブ完了最大時間枠、または他の表示の仕様として示すことができる。

【0021】

最初に、計算ユニットは、様々なジョブの実行または処理をサポートするために形成または確立されない。代わりに、物理構成要素のプールが確立され、計算ユニットは、実行ジョブの特定の要件に適合するように、これらのプール内の構成要素からオンザフライで形成できる。特定の実行ジョブのための計算ユニット内に含まれる必要がある構成要素を決定するために、管理システム１１０は、実行ジョブの前述のプロパティを処理して、ジョブの実行または処理をサポートするためにどのリソースが必要かを決定し、ジョブを処理するための計算ユニットを確立する。したがって、計算クラスタ１０１の総リソースは、ジョブインターフェース１１１を介して受信される様々な実行ジョブの実行をサポートするために、必要に応じて動的に細分化できる。計算ユニットは、合成または合成されていると呼ばれる特定の時間に形成され、ジョブのソフトウェアは、ジョブの性質に従って実行／処理するために計算ユニットの要素に展開される。特定のジョブが特定の計算ユニット上で完了すると、その計算ユニットが合成解除され、計算ユニットは、追加のジョブのためのさらなる計算ユニットの作成に使用するために、物理構成要素のプールに追加される個々の物理構成要素を含む。本明細書で説明するように、これらの計算ユニットを合成および合成解除するために、様々な技法が使用される。

【0022】

図１では、２つの例示的な実行ジョブが強調表示されている。すなわち、ジョブ１９１および１９２は、ジョブインターフェース１１１によって受信された後にキュー１１２に保持される。ジョブ１９１が受信されると、ジョブ１９１のプロパティが管理システム１１０によって分析されて、ジョブ１９１を実行するためにどの物理計算構成要素が必要とされるかが決定される。図１では、ジョブ１９１をサポートするために、ＣＰＵプール１４１からのＣＰＵ、ＣｏＰＵプール１４２からのＣｏＰＵ、および記憶プール１４３からの記憶ユニットが選択され、これらの物理計算構成要素（ＣＰＵ１２１、ＣｏＰＵ１２２、記憶ユニット１２３）が、計算ユニット１２０に合成される。図１の要素１５０として示されているこの合成プロセスは、ジョブ１９１の計算クラスタ１０１のリソースのスケジュールまたは時間的割り当てに対応できる時間ｔ１において行われる。同様に、ジョブ１９２は、ジョブ１９２のプロパティに基づいて割り当てられた物理計算構成要素の異なるセットを有する。図１では、ジョブ１９２をサポートするために、ＣＰＵプール１４１からのＣＰＵ、ＣｏＰＵプール１４２からの２つのＣｏＰＵ、および記憶プール１４３からの記憶ユニットが選択され、これらの物理計算構成要素（ＣＰＵ１３１、ＣｏＰＵ１３２～１３３、記憶ユニット１３４）が、計算ユニット１３０に合成される。図１の要素１５１として示されているこの合成プロセスは、ジョブ１９２の計算クラスタ１０１のリソースのスケジュールまたは時間的割り当てに対応できる時間ｔ２において行われる。

【0023】

計算ユニット１２０および１３０に合成されるハードウェアまたは物理構成要素に加えて、計算ユニットが合成されると、ジョブ１９１～１９２の各々のソフトウェア構成要素が展開される。ジョブは、ユーザアプリケーション、ユーザデータセット、モデル、スクリプト、または他のジョブ提供ソフトウェアなど、実行のために展開されるソフトウェア構成要素を含むことができる。オペレーティングシステム、仮想化システム、ハイパーバイザ、デバイスドライバ、ブートストラップソフトウェア、ＢＩＯＳ要素および構成、状態情報、または他のソフトウェア構成要素などの他のソフトウェアが管理システム１１０によって提供されてもよい。例えば、管理システム１１０は、特定のジョブの実行をサポートするために、Ｌｉｎｕｘのバージョンなどの特定のオペレーティングシステムを、合成された計算ユニットに展開すべきであると決定できる。オペレーティングシステムの種類またはバージョンの表示は、着信ジョブに付随するプロパティに含まれてもよく、またはジョブの他のメタデータに含まれてもよい。オペレーティングシステムイメージの形態のオペレーティングシステムは、計算ユニットの他の物理計算構成要素をサポートするために必要なデバイスドライバと共に、合成された計算ユニットに含まれるデータ記憶要素に展開できる。ジョブは、データ処理を実行する１つまたは複数のアプリケーションと共に、計算ユニットによって処理される１つまたは複数のデータセットを含んでもよい。利用レベル、完全性レベルを示すジョブ実行ステータス、ウォッチドッグモニタ、または他の要素など、様々な監視またはテレメトリ構成要素を展開して、計算ユニットのアクティビティを監視できる。他の例では、利用可能なアプリケーションおよびオペレーティングシステムのカタログを計算クラスタ１０１によって提供することができ、計算クラスタは、関連する計算ユニットに含めるためにジョブによって選択され得る。最後に、ハードウェアおよびソフトウェア構成要素が合成／展開されて計算ユニットを形成すると、ジョブは計算ユニット上で実行できる。

【0024】

計算ユニットを合成するために、管理システム１１０は、ファブリックインターフェース１１３を介してコマンドまたは制御命令を発行し、通信ファブリック１４０の要素を制御する。物理構成要素は、１つまたは複数の共有通信ファブリックに結合される。これらの構成要素は、任意の数の別個の任意に定義された配置（計算ユニット）に論理的に分離できる。通信ファブリックは、異なる計算ユニット間の論理分離を維持しながら、特定の計算ユニットの構成要素間でトラフィックを選択的にルーティングするように管理システム１１０によって構成できる。このようにして、計算クラスタ１０１の物理構成要素間で柔軟な「ベアメタル」構成を確立できる。個々の計算ユニットは、計算ユニットの計算、記憶、ネットワーク、またはグラフィックス処理リソースを利用することができる外部ユーザまたはクライアントマシンに関連付けることができる。さらに、より大きな並列性および容量のために、任意の数の計算ユニットを計算ユニットの「クラスタ」にグループ化できる。明確にするために図１には示されていないが、様々な電源モジュールならびに関連する電力および制御配信リンクもまた、構成要素の各々に含まれ得る。

【0025】

通信ファブリック１４０の一例では、ＰＣＩｅファブリックが使用される。ＰＣＩｅファブリックは、ＰＣＩｅクロスポイントスイッチと称され得る複数のＰＣＩｅスイッチ回路から形成される。ＰＣＩｅスイッチ回路は、少なくとも各ＰＣＩｅリンクによって搬送されるトラフィックに基づいて、様々なＰＣＩｅリンクを論理的に相互接続するように構成できる。これらの例では、オペレータ定義グループに従ってＰＣＩｅスイッチのＰＣＩｅポートのセグメント化を可能にするドメインベースのＰＣＩｅシグナリング配信を含めることができる。オペレータ定義グループは、管理システム１１０によって管理でき、管理システムは、構成要素を関連する計算ユニットに論理的に組み立て、異なる計算ユニットの構成要素を論理的に分離する。管理システム１１０は、ＰＣＩｅポート間の論理分割またはセグメント化を変更し、したがって物理構成要素のグループ化の合成を変更するために、ＰＣＩｅファブリックを含むファブリックインターフェース１１３を介してＰＣＩｅスイッチ回路を制御できる。ドメインベースのセグメント化に加えて、または代替として、各ＰＣＩｅスイッチポートは、非透過（ＮＴ、ｎｏｎ－ｔｒａｎｓｐａｒｅｎｔ）ポートまたは透過ポートとすることができる。ＮＴポートは、ブリッジのようにエンドポイント間の何らかの論理分離を可能にすることができるが、透過ポートは論理分離を可能にせず、純粋に切り替えられた構成でエンドポイントを接続する効果を有する。１つまたは複数のＮＴポートを介したアクセスは、特定のＮＴポートを選択するため、またはＮＴポートを介した可視性を可能にするために、ＰＣＩｅスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。有利には、このドメインベースのセグメント化（ＮＴポートベースのセグメント化）は、物理的構成要素（すなわち、ＣＰＵ、ＣｏＰＵ、記憶ユニット、ＮＩＣ）を共有ファブリックまたは共通ファブリックに結合することを可能にするが、セグメント化／分割を介して計算ユニットに含まれる構成要素に対する可視性のみを有することができる。したがって、ＰＣＩｅファブリック間の論理分割を用いて、複数の物理構成要素間のグループ化を実現できる。この分割は本質的にスケーラブルであり、管理システム１１０または他の制御要素によって必要に応じて動的に変更できる。

【0026】

図１の要素の説明に戻ると、管理システム１１０は、１つまたは複数のマイクロプロセッサと、関連する記憶システム（図示せず）からジョブインターフェース１１２およびファブリック管理ソフトウェアなどのソフトウェアを検索および実行する他の処理回路とを含むことができる。管理システム１１０は、単一の処理デバイス内に実装できるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。管理システム１１０の例は、汎用中央処理装置、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイス、それらの組み合わせ、または変形を含む。いくつかの例では、管理システム１１０は、Ｉｎｔｅｌ^{（登録商標）}もしくはＡＭＤ^{（登録商標）}マイクロプロセッサ、ＡＲＭ^{（登録商標）}マイクロプロセッサ、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向けプロセッサ、または他のマイクロプロセッサもしくは処理要素を含む。管理システム１１０は、ジョブインターフェース１１１およびキュー１１２を含むか、または提供する。これらの要素は、管理システム１１０のプロセッサ要素によって実行される様々なソフトウェア構成要素を含むことができ、あるいは代わりに回路を含んでもよい。

【0027】

図１では、管理システム１１０は、ファブリックインターフェース１１３を提供する。ファブリックインターフェース１１３は、管理システム１１０と、通信ファブリック１４０に結合された任意の構成要素との間の通信リンクを備え、通信リンクは、１つまたは複数のＰＣＩｅリンクを備えてもよい。いくつかの例では、ファブリックインターフェース１１３は、ＰＣＩｅリンクまたは他のリンクを介して転送されるイーサネットトラフィックを使用してもよい。さらに、図１の計算ユニットに含まれる各ＣＰＵは、ＰＣＩｅリンクを介して伝送されるイーサネット通信を提供することができるドライバまたはエミュレーションソフトウェアで構成されてもよい。したがって、プール１４１のＣＰＵのいずれか（計算ユニットに展開されると）および管理システム１１０は、ＰＣＩｅファブリックを介して転送されるイーサネットを介して通信できる。しかしながら、実装形態はＰＣＩｅ上のイーサネットに限定されず、ＰＣＩｅインターフェース上のＰＣＩｅトラフィックを含む他の通信インターフェースが使用されてもよい。

【0028】

計算クラスタ１０１の構成要素は、通信ファブリック１４０、ＣＰＵ、ＣｏＰＵ、および記憶ユニットを含む。ＮＩＣ、ＦＰＧＡ、ＲＡＭ、またはプログラマブル読み出し専用メモリ（ＰＲＯＭ）デバイスなどの他の様々なデバイスを含んでもよい。ＣＰＵプール１４１のＣＰＵは各々、マイクロプロセッサ、システム・オン・チップ・デバイス、または関連する記憶システムからユーザアプリケーションなどのソフトウェアを検索および実行する他の処理回路を備える。各ＣＰＵは、単一の処理デバイス内に実装できるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。各ＣＰＵの例は、汎用中央処理装置、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイス、それらの組み合わせ、または変形を含む。いくつかの例では、各ＣＰＵは、Ｉｎｔｅｌ^{（登録商標）}、ＡＭＤ^{（登録商標）}、またはＡＲＭ^{（登録商標）}マイクロプロセッサ、グラフィックスコア、計算コア、ＡＳＩＣ、ＦＰＧＡ部分、または他のマイクロプロセッサもしくは処理要素を含む。各ＣＰＵは、ＣＰＵを通信ファブリック１４０のスイッチ要素に結合するＰＣＩｅなどの１つまたは複数のファブリック通信インターフェースを含む。ＣＰＵは、ルートコンプレクスを有しても有しなくてもよいＰＣＩｅエンドポイントデバイスまたはＰＣＩｅホストデバイスを備えてもよい。

【0029】

ＣｏＰＵプール１４２のＣｏＰＵは各々、データセットの特殊な処理のためのコプロセッシング要素を備える。例えば、ＣｏＰＵプール１４２は、１つまたは複数の計算ユニットに割り当てることができるグラフィックス処理リソースを備えることができる。ＧＰＵは、グラフィックスプロセッサ、シェーダ、ピクセルレンダリング要素、フレームバッファ、テクスチャマッパ、グラフィックスコア、グラフィックスパイプライン、グラフィックスメモリ、または他のグラフィックス処理および処理要素を備えることができる。いくつかの例では、各ＧＰＵは、ＧＰＵチップをサポートする回路を備えるグラフィックス「カード」を備える。例示的なＧＰＵカードは、様々なサポート回路、コネクタ、および他の要素と共にグラフィックス処理要素を含むｎＶＩＤＩＡ^{（登録商標）}またはＡＭＤ^{（登録商標）}グラフィックスカードを含む。さらなる例では、機械学習処理ユニット、テンソル処理ユニット（ＴＰＵ）、ＦＰＧＡ、ＡＳＩＣ、または他の専用プロセッサなど、他のスタイルの共処理ユニットまたは共処理アセンブリを使用できる。

【0030】

記憶プール１４３の記憶ユニットは各々、関連するエンクロージャおよび回路と共に、ソリッドステート記憶ドライブ（ＳＳＤ）または磁気ハードディスクドライブ（ＨＤＤ）などの１つまたは複数のデータ記憶ドライブを備える。各記憶ユニットはまた、ファブリックインターフェース（ＰＣＩｅインターフェースなど）、制御プロセッサ、および電力システム要素を含む。さらに他の例では、各記憶ユニットは、関連するエンクロージャおよび回路と共に、１つまたは複数の別個のデータ記憶ユニットのアレイを備える。いくつかの例では、記憶ユニットを形成するために、ファブリックインターフェース回路が記憶ドライブに追加される。具体的には、記憶ドライブは、ＳＡＳ、ＳＡＴＡＥｘｐｒｅｓｓ、ＮＶＭｅ、または他の記憶インターフェースなどの記憶インターフェースを備えることができ、記憶ユニットに含まれる通信変換回路を使用して通信ファブリック１４０に結合され、ＰＣＩｅ通信または他のファブリックインターフェースに通信を変換する。

【0031】

ＮＩＣが計算クラスタ１０１の物理構成要素の間に含まれる場合、各ＮＩＣは、イーサネットおよびＴＣＰ／ＩＰ（伝送制御プロトコル／インターネットプロトコル）ネットワークなどのパケットネットワークを介して通信するための回路を備える。いくつかの例は、ｉＳＣＳＩ（ＩｎｔｅｒｎｅｔＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）などのイーサネットまたはＴＣＰ／ＩＰを介して他のトラフィックを伝送する。各ＮＩＣは、イーサネットインターフェース機器を備え、有線、光、または無線リンクを介して通信できる。計算クラスタ１０１の構成要素への外部アクセスは、ＮＩＣによって提供されるパケット・ネットワーク・リンクを介して提供でき、ネットワークリンクを介してｉＳＣＳＩ、ネットワークファイルシステム（ＮＦＳ）、サーバ・メッセージ・ブロック（ＳＭＢ）、または共通インターネットファイルシステム（ＣＩＦＳ）共有を提示することを含んでもよい。いくつかの例では、記憶ユニットを形成するために、ファブリックインターフェース回路が記憶ドライブに追加される。具体的には、ＮＩＣは、ＰＣＩｅ通信または他のファブリックインターフェースを使用してＮＩＣを通信ファブリック１４０に結合するために、ＮＩＣに含まれる通信変換回路を備えることができる。

【0032】

通信ファブリック１４０は、通信スイッチ回路によって結合された複数のファブリックリンクを備える。ＰＣＩｅが使用される例では、通信ファブリック１４０は、関連するＰＣＩｅリンクを介して計算クラスタ１０１のメンバと通信する、複数のＰＣＩｅスイッチを備える。各ＰＣＩｅスイッチは、各ＰＣＩｅスイッチによって処理される任意のＰＣＩｅインターフェース間の切り替え接続を確立するためのＰＣＩｅクロス・コネクト・スイッチを備える。通信ファブリック１４０は、複数のＰＣＩｅホストが、関連するＰＣＩｅエンドポイントにのみに通信可能に結合されながら同一ファブリック上に存在することを、受け入れることができる。したがって、多くのホスト（例えば、ＣＰＵ）は、同一ファブリックを使用して多くのエンドポイントと独立して通信できる。ＣＰＵ、ＣｏＰＵ、および計算ユニット内の記憶ユニット間、およびホスト間通信が使用される場合の計算ユニット間、でデータを転送するために、ＰＣＩｅスイッチを使用できる。本明細書で説明するＰＣＩｅスイッチは、少なくとも各ＰＣＩｅリンクによって搬送されるトラフィックに基づいて、関連するＰＣＩｅリンクのうちの様々なＰＣＩｅリンクを論理的に相互接続するように構成できる。これらの例では、ユーザ定義のグループに従ってＰＣＩｅスイッチのＰＣＩｅポートをセグメント化できるドメインベースのＰＣＩｅシグナリング配信を含むことができる。ユーザ定義グループは、構成要素を関連する計算ユニットに論理的に統合し、異なる計算ユニット間から構成要素を論理的に分離する管理システム１１０によって管理できる。ドメインベースのセグメント化に加えて、またはその代わりに、各ＰＣＩｅスイッチポートは、非透過（ＮＴ）または透過ポートであり得る。ＮＴポートは、ブリッジのようにエンドポイント間のいくらかの論理分離を可能にできるが、透過ポートは論理分離を可能にせず、純粋な回路切り替え構成でエンドポイントを接続する効果を有する。１つまたは複数のＮＴポートを介したアクセスは、特定のＮＴポートを選択するため、またはＮＴポートを介した可視性を可能にするために、ＰＣＩｅスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。いくつかの例では、各ＰＣＩｅスイッチは、ＰＥＸ８７９６２４ポート、９６レーンＰＣＩｅスイッチチップ、ＰＥＸ８７２５１０ポート、２４レーンＰＣＩｅスイッチチップ、ＰＥＸ９７ｘｘチップ、ＰＥＸ９７９７チップ、または他のＰＥＸ８７ｘｘ／ＰＥＸ９７ｘｘチップなどのＰＬＸ／Ｂｒｏａｄｃｏｍ／ＡｖａｇｏＰＥＸシリーズチップを備える。

【0033】

図２は、図１の要素の例示的な動作を示すために含まれる。動作２０１において、管理システム１１０のジョブインターフェース１１１は、キュー１１２への実行ジョブを受信する。このエンキュー処理は、少なくとも通信ファブリック１４０に結合された計算構成要素のプールを含む計算クラスタ１０１に指示する実行ジョブを受信することを含むことができる。動作２０２において、管理システム１１０は、ジョブプロファイルを分析して必要な計算リソースを決定し、動作２０３において、ジョブを合成スケジューリング情報と共にキュー１１２に追加する。実行ジョブのプロパティに基づいて、管理システム１１０は、実行ジョブを処理するためのリソーススケジューリングを決定し、リソーススケジューリングは、計算クラスタ１０１のリソースの時間的割り当てを示す。リソーススケジューリングが、実行ジョブの識別子、実行ジョブの各々を実行するのに必要な計算構成要素のセットの表示、計算ユニットの合成および合成解除を開始する時間枠、ならびに実行ジョブの計算ユニットに展開するソフトウェア構成要素の表示、に関する１つまたは複数のデータ構造を含む。

【0034】

動作２０４において、管理システム１１０は、キュー１１２に示されたスケジュールに従ってジョブをサポートするために計算ユニットを合成する。管理システム１１０は、実行ジョブを処理するために計算構成要素のプールの中から選択された計算構成要素のセットを含む計算ユニットを合成するように通信ファブリック１４０に少なくとも命令することによって、リソーススケジューリングに従って計算クラスタ１０１上の実行ジョブを開始する。通信ファブリック１４０に計算ユニットを合成するように命令することは、計算構成要素セットを通信可能に結合する通信ファブリック内に論理分離を形成するように通信ファブリック１４０に命令することを含む。論理分離は各々、計算構成要素のセットの各々内の計算構成要素が、対応する論理分離内でのみ通信ファブリックを介して通信することを可能にする。リソーススケジューリングに従って、管理システム１１０は、計算ユニットの各々が形成されると、実行ジョブを実行するためにソフトウェア構成要素を計算ユニットに展開するための通信ファブリックを制御する。次に、動作２０５において、合成された計算ユニットは、合成された計算ユニット上で対応するジョブを実行する。最後に、実行ジョブが完了すると、動作２０６において、管理システム１１０は、計算ユニットリソースを合成解除し、フリープールに戻す。計算ユニットが合成解除されて、計算構成要素のプールに戻される。管理システム１１０は、計算ユニットの対応する論理分離を除去することによって計算ユニットを合成解除するように通信ファブリック１４０に命令し、その結果、計算ユニットの計算構成要素は、追加の計算ユニットへの合成に利用可能となる。

【0035】

図２および本明細書の他の例の動作は、計算ユニットの合成および合成解除のジョブベースの開始を説明する。したがって、実行ジョブの開始および関連するジョブプロパティは、ジョブを実行する計算ユニットの作成をトリガできる。本明細書のこれらの例では、別個に、または前述のトリガと組み合わせて、他のトリガを使用できる。第１の代替トリガでは、イベントベースのトリガが使用される。これらのイベントベースのトリガは、ジョブまたはジョブを含む作業単位をサポートするために、計算ユニットを変更もしくは修正するか、または追加の計算ユニットを追加できる。ジョブによって示される動的イベントまたはパターンの管理システム１１０による観測に基づいて、管理システム１１０は、それに割り当てられた計算ユニットおよびリソースの構成に対する変更を開始できる。そのようなイベントまたはパターンの例には、プロセスの観測されたリソース不足、機能によって識別される特定の文字列、インテリジェント・インフラストラクチャ・アルゴリズムによって識別される特定の信号、または管理システム１１０によって監視することができる他の要因、が含まれる。実行中のジョブのテレメトリまたは実行前もしくは実行中のジョブのプロパティの分析は、管理システム１１０に、計算ユニットの動的変更を開始するように通知できる。したがって、管理システム１１０は、イベントまたはパターンに従って計算ユニットのリソース（例えば、物理計算構成要素）を追加または削除するために計算ユニットの合成を変更できる。有利には、各ジョブの現在のリソースニーズをサポートするために計算ユニットをより良好に最適化することができ、現在のジョブによって不要になったとき、または他の将来のジョブによる使用のために、リソースをプールにインテリジェントに戻すことができる。

【0036】

別の代替トリガは、機械学習タイプのアルゴリズムまたはユーザ定義の時間枠に基づく時間トリガを含む。この例では、特定の種類のジョブが特定の種類の挙動を示すように、合成された計算ユニットのパターンまたは挙動を、経時的に決定または学習できる。これらの挙動に基づいて、計算ユニットへの変更を動的に行い、ワークロードパターンをサポートできる。例えば、管理システム１１０は、特定の種類の実行ジョブの特定の実行段階において、より多くの／より少ない記憶リソースが必要である、または、より多くの／より少ないコプロセッシングリソースが必要である、と決定できる。管理システム１１０は、追加または削除またはリソースを含むことができる計算ユニットの合成を予測的または予防的に変更して、作業単位がジョブによって実行されている状態で計算ユニットに割り当てられた現在のリソースをより良好に最適化できる。時間プロパティは、明示的なユーザ入力に基づいて、または機械学習プロセスに基づいて管理システム１１０により決定され、計算ユニットからリソースを追加または削除する時間枠を決定できる。管理システム１１０は、どのリソース変更が必要であるか、および、これらの変更が現在および将来のジョブニーズをサポートするためにいつ必要とされるか、を決定できるリソーススケジューラ要素を含むことができる。本明細書で説明する計算ユニットへの変更は、いくつかの例では、特定の物理構成要素またはリソースを追加または削除するときなどに、計算ユニットおよび関連するオペレーティングシステムの再合成および再起動を必要とする場合がある。しかしながら、記憶またはネットワークインターフェースリソースの追加／削除などの他の変更は、特定の計算ユニットを再起動または再合成することなくオンザフライで達成され得る。

【0037】

ここで、ワークロードベースのハードウェア合成のための技法の詳細な説明に移り、図３を提示する。図３は、いくつかの計算ユニット合成動作を有する構成３００を示す。いくつかの例示的な実行ジョブ３２０，３３０および３４０がエンキューされたワークロードキュー３９０が含まれる。物理計算構成要素の例示的なプール、すなわち１６個のＧＰＵのセットも含まれる。明確にするためにこの例ではＧＰＵのみが示されているが、他の要素の中でもＣＰＵおよび記憶ユニットなどの計算ユニットを形成するために、他のコプロセッシング要素または他のタイプの要素を、選択されたＧＰＵに含むことができる。したがって、図３のキュー３９０内の実行ジョブは、機械学習ジョブ、人工知能ジョブ、グラフィックスレンダリングジョブ、または複数の同時ＧＰＵにわたって実行することから利益を得ることができる他の種類のデータ処理ジョブ、などのグラフィックス処理リソースを使用するジョブを含む。

【0038】

実行ジョブ３２０，３３０および３４０が対応するジョブインターフェースを介して受信されると、実行ジョブ３２０，３３０および３４０のプロパティが分析されて、そのようなジョブを実行するためにどの物理計算構成要素が必要とされるかが決定される。これらのプロパティは、ジョブに望まれるＧＰＵ、ＣＰＵ、または記憶要素間の計算構成要素の量および構成を直接示すことができ、または計算構成要素の量および構成は、ジョブによって示されるリソース要件によって推測できる。例えば、実行ジョブは、特定の最小クラスまたはタイプのＣＰＵまたはＧＰＵ（および量）が所望され、その能力を超えるものは許容可能であることを示すことができる。実行ジョブ３２０，３３０および３４０の各々は、図３に作業単位として示されている部分に細分化できる。各作業単位は、計算ユニット内の異なるＧＰＵに展開できる。

【0039】

実行ジョブが実行されるべきであるとスケジュールが示すと、管理要素は各ジョブの計算ユニットを形成できる。ＧＰＵ３５０のプールの初期状態３０１は、すべてのＧＰＵがアイドルであり、現在ジョブを処理していないことを示すが、他の初期状態も可能である。状態３０２において、実行ジョブ３２０，３３０、および３４０は、実行ジョブ３２０，３３０、および３４０の各々をサポートするために、新たに合成された計算ユニット上に展開される。すなわち、計算ユニット３１０は実行ジョブ３２０をサポートするように合成され、計算ユニット３１１は実行ジョブ３３０をサポートするように合成され、計算ユニット３１２はジョブ３４０の第１の部分をサポートするように合成される。実行ジョブ３２０および３３０はＧＰＵ３５０のプールの一部を消費するので、計算ユニット３１２には、ジョブ３４０の完全適応に必要な量よりも少なくなり得る残りの数のＧＰＵが残る。いくつかの例では、ジョブ３４０は、すべての必要なリソースが利用可能になるまで遅延されてもよく、または代わりに、図３に示すように部分適応が採用されてもよい。

【0040】

一定期間後、実行ジョブは完了または終了する。これらのジョブが完了すると、これらのジョブに割り当てられた計算ユニットのリソースが手放され、追加のジョブで使用するためにフリーリソースのプールに戻される。図３では、実行ジョブ３２０および３３０が完了し、実行ジョブ３４０の最初の作業単位が完了すると、実行ジョブ３４０の後続の作業単位は、手放されたＧＰＵを包含することができる。後続の実行ジョブの作業単位３４０を展開するために、計算ユニット３１３が合成される。計算ユニット３１３は、計算ユニット３１２の修正バージョン、またはＧＰＵリソースの放棄に応答して形成される新たな計算ユニットを備えることができる。したがって、状態３０３は、計算ユニット３１３内のＧＰＵ３５０のプールのすべてのＧＰＵおよび実行ジョブ３４０の作業単位の実行を示す。

【0041】

図４は、計算プラットフォーム４００を示すシステム図である。計算プラットフォーム４００は、モジュール式シャーシのラックマウント配置を備える。モジュール式シャーシなどの１つまたは複数の物理的エンクロージャは、棚またはラックユニットにさらに含めることができる。シャーシ４１０，４２０，４３０，４４０、および４５０は、計算プラットフォーム４００に含まれ、１つまたは複数のデータセンタ内の共通のラックマウント配置に取り付けられてもよく、または複数のラックマウント配置にまたがってもよい。各シャーシ内で、モジュールは、様々な電力システム、構造支持体、およびコネクタ要素と共に、共有ＰＣＩｅスイッチに取り付けられる。計算プラットフォーム４００の所定数の構成要素は、特定のエンドユーザの必要に応じてモジュールを挿入および取り外しすることができるモジュール式フレームワークなどの物理的エンクロージャに挿入または設置できる。囲まれたモジュール式システムは、回路、プリント回路基板、半導体システム、および構造要素を含む物理的支持構造体およびエンクロージャを含むことができる。計算プラットフォーム４００の構成要素を備えるモジュールは、ラックマウント式のエンクロージャに挿入可能かつ取り外し可能である。いくつかの例では、図４の要素は、より大きなラックマウント環境内に取り付けるための「Ｕ」スタイルのシャーシに含まれる。図４の構成要素は、任意の物理的な取り付け環境に含めることができ、関連するエンクロージャまたはラックマウント要素を含む必要がないことを理解されたい。

【0042】

シャーシ４１０は、管理モジュールまたはトップ・オブ・ラック（ＴｏＲ）スイッチシャーシを備え、管理プロセッサ４１１およびＰＣＩｅスイッチ４６０を備える。管理プロセッサ４１１は、管理オペレーティングシステム（ＯＳ）４１２、ユーザインターフェース４１３、およびジョブインターフェース４１４を含む。管理プロセッサ４１１は、１つまたは複数のＰＣＩｅレーンを含む１つまたは複数のＰＣＩｅリンクを介して、ＰＣＩｅスイッチ４６０に結合される。

【0043】

ＰＣＩｅスイッチ４６０は、計算プラットフォーム４００内の他のシャーシ内のＰＣＩｅスイッチ４６１～４６４に、１つまたは複数のＰＣＩｅリンクを介して結合される。これらの１つまたは複数のＰＣＩｅリンクは、ＰＣＩｅモジュール間接続４６５によって表される。ＰＣＩｅスイッチ４６０～４６４およびＰＣＩｅモジュール間接続４６５は、図４の様々な物理計算要素のすべてを通信可能に結合するＰＣＩｅファブリックを形成する。いくつかの例では、管理プロセッサ４１１は、ＰＣＩｅファブリックの動作および分割を制御するために、集積回路間（Ｉ２Ｃ）インターフェースなどの特別な管理ＰＣＩｅリンクまたはサイドバンドシグナリング（図示せず）を介して、ＰＣＩｅファブリックの要素と通信できる。これらの制御動作は、計算ユニットの合成および合成解除、ＰＣＩｅファブリック内の論理分割の変更、ＰＣＩｅファブリックのテレメトリの監視、ＰＣＩｅファブリック上のモジュールのパワーアップ／ダウン動作の制御、ＰＣＩｅファブリックを備える様々な回路のファームウェアの更新、および他の動作を含むことができる。

【0044】

シャーシ４２０は、各々がＰＣＩｅスイッチ４６１および関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＣＰＵ４２１～４２５を備える。シャーシ４３０は、それぞれがＰＣＩｅスイッチ４６２および関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＧＰＵ４３１～４３５を備える。シャーシ４４０は、各々がＰＣＩｅスイッチ４６３および関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＳＳＤ４４１～４４５を備える。シャーシ４５０は、各々がＰＣＩｅスイッチ４６４および関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＮＩＣ４５１～４５５を備える。各シャーシ４２０，４３０，４４０、および４５０は、各ＣＰＵ、ＧＰＵ、ＳＳＤ、またはＮＩＣの対応する要素を備えるモジュールを取り付けるための様々なモジュール式ベイを含むことができる。電力システム、監視要素、内部／外部ポート、取り付け／取り外しハードウェア、および他の関連する特徴を、各シャーシに含めることができる。シャーシ４２０，４３０，４４０、および４５０の個々の要素のさらなる説明が以下に含まれる。

【0045】

計算プラットフォーム４００の様々なＣＰＵ、ＧＰＵ、ＳＳＤ、またはＮＩＣ構成要素が関連するシャーシまたはエンクロージャに設置されると、構成要素は、ＰＣＩｅファブリックを介して結合され、「マシン」または計算ユニットと呼ばれる任意の数の別個の任意に定義された配置に論理的に分離できる。計算ユニットはそれぞれ、任意のタイプのモジュールの０を含む、選択された数のＣＰＵ、ＧＰＵ、ＳＳＤ、およびＮＩＣで合成できるが、典型的には、少なくとも１つのＣＰＵが各計算ユニットに含まれる。図４には、ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、およびＮＩＣ４５１を含む計算ユニット４０１の一例が示されている。計算ユニット４０１は、論理ドメイン４７０によって示されるＰＣＩｅファブリック内の論理分割を使用して合成される。ＰＣＩｅファブリックは、特定の計算ユニットに含まれない構成要素間の論理分離を維持しながら、特定の計算ユニットの構成要素間でトラフィックを選択的にルーティングするように、管理プロセッサ４１１によって構成できる。このようにして、プラットフォーム１００の構成要素間に分解された柔軟な「ベアメタル」構成を確立できる。個々の計算ユニットは、計算ユニットの計算、記憶、ネットワーク、またはグラフィックス処理リソースを利用することができる外部ユーザ、着信ジョブ、またはクライアントマシンに関連付けることができる。さらに、より大きな並列性および容量のために、任意の数の計算ユニットを計算ユニットの「クラスタ」にグループ化できる。

【0046】

いくつかの例では、管理プロセッサ４１１は、１つまたは複数のユーザインターフェースまたはジョブインターフェースを介して計算ユニットを作成できる。例えば、管理プロセッサ４１１は、テンプレートを使用して作成された計算ユニットのために、割り当てられるハードウェア構成要素、ならびにソフトウェアおよび構成情報を指定できる計算ユニットのためのマシンテンプレートを提示できるユーザインターフェース４１３を提供してもよい。いくつかの例では、計算ユニット作成ユーザインターフェースは、計算ユニットのユースケースまたは使用カテゴリに基づいて、計算ユニットのマシンテンプレートを提供してもよい。例えば、ユーザインターフェースは、ゲーム・サーバ・ユニット、人工知能学習計算ユニット、データ分析ユニット、および記憶サーバユニットのための提案されたマシンテンプレートまたは計算ユニット構成を提供してもよい。例えば、ゲーム・サーバ・ユニット・テンプレートは、記憶サーバユニットテンプレートと比較して追加の処理リソースを指定してもよい。さらに、構成要素のリストまたはカテゴリから任意に選択された構成要素タイプから計算ユニットテンプレートをユーザが作成するための、テンプレートまたは計算ユニット構成およびオプションのカスタマイズを、ユーザインターフェースが提供してもよい。

【0047】

追加の例では、管理プロセッサ４１１は、動作中にポリシーベースの動的調整を計算ユニットに提供できる。いくつかの例では、ユーザが、計算ユニットに割り当てられたハードウェアおよびソフトウェアの調整、ならびに動作中のその構成情報の調整のためのポリシーを定義することを、ユーザインターフェース４１３は可能にできる。一例では、動作中に、管理プロセッサ４１１は、現在のリソースの利用率を決定するために、計算ユニットのテレメトリデータを分析できる。現在の利用率に基づいて、動的調整ポリシーは、処理リソース、記憶リソース、ネットワーキングリソースなどが計算ユニットに割り当てられるか、または計算ユニットから削除されることを指定できる。例えば、テレメトリデータは、記憶計算ユニットの割り当てられた記憶リソースの現在の使用レベルが１００％に近づいていることを示し、追加の記憶デバイスを計算ユニットに割り当てることができる。

【0048】

さらに別の例では、管理プロセッサ４１１は、動作中に計算ユニットに対する実行ジョブベースの動的調整を提供できる。いくつかの例では、ジョブインターフェース４１４は、計算プラットフォーム４００によって処理されるべき実行ジョブの表示を受信できる。管理プロセッサ４１１は、これらの着信ジョブを分析して、ＣＰＵ、ＧＰＵ、ＳＳＤ、ＮＩＣ、および他のリソースの中から選択されたリソースを含む、ジョブを実行／処理するためのシステム要件を決定できる。図４において、表４９０は、ジョブインターフェース４１４を介して受信され、ジョブキューにエンキューされたいくつかのジョブを示す。表４９０は、一意のジョブ識別子（ＩＤ）とそれに続く、ジョブをサポートするために形成された計算ユニット内に含まれることになる様々な粒度のシステム構成要素、とを示す。例えば、ジョブ４９１は、００００１２３４のジョブＩＤを有し、ジョブ４９１を実行するために形成される計算ユニットに、１個のＣＰＵ、２個のＧＰＵ、１個のＳＳＤ、１個のＮＩＣが含まれることを示す。これにより、管理プロセッサ４１１は、ジョブ４９１の実行タイミングになると、ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、ＮＩＣ４５１からなる計算ユニット４０１を構築する。計算ユニット４０１は、論理ドメイン４７０によって示されるＰＣＩｅファブリック内の論理分割を使用して合成される。ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、およびＮＩＣ４５１がＰＣＩｅシグナリングを介して通信することを、論理ドメイン４７０は可能にし、同時に、他の論理ドメインの他の構成要素および他の計算ユニットを計算ユニット４０１からＰＣＩｅ通信を分離し、すべて同じＰＣＩｅファブリックを共有する。ジョブ４９１は、様々なソフトウェア構成要素が計算ユニット４０１に展開されると、計算ユニット４０１上で実行できる。図５は、これらの様々なソフトウェア構成要素の展開を示している。

【0049】

ＰＣＩｅファブリックが図４の文脈で説明されているが、管理プロセッサ４１１は、複数のプロトコル通信ファブリックの制御および管理を提供できる。例えば、管理プロセッサ４１１およびＰＣＩｅファブリックのＰＣＩｅスイッチデバイスは、ＰＣＩｅおよび同様のプロトコルの複数の異なる実装形態またはバージョンを使用して物理構成要素の通信結合を提供できる。例えば、同じＰＣＩｅファブリック内の異なる物理構成要素に対して、異なるＰＣＩｅバージョン（例えば、３．０、４．０、５．０、およびそれ以降）が使用されてもよい。さらに、次世代インターフェース、例えば、Ｇｅｎ－Ｚ、ＣＣＩＸ、ＣＸＬ、ＯｐｅｎＣＡＰＩ、またはＷｉ－Ｆｉインターフェースもしくはセルラ無線インターフェースを含む無線インターフェースを使用できる。また、図４ではＰＣＩｅが使用されているが、ＰＣＩｅは存在しなくてもよく、他の相互接続、ネットワーク、およびリンクインターフェースの中でも、ＮＶＭｅ、イーサネット、ＳＡＳ、ファイバーチャネル、サンダーボルト、ＳＡＴＡエクスプレスなどの異なる通信リンクまたはバスを代わりに使用できることを理解されたい。

【0050】

ここで計算プラットフォーム４００の構成要素に関する説明を参照すると、管理プロセッサ４１１は、関連する記憶システムから、管理オペレーティングシステム４１２、ユーザインターフェース４１３、およびジョブインターフェース４１４などのソフトウェアを検索および実行する、１つまたは複数のマイクロプロセッサおよび他の処理回路を備えることができる。管理プロセッサ４１１は、単一の処理デバイス内に実装できるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。管理プロセッサ４１１の例は、汎用中央処理装置、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイス、それらの組み合わせ、または変形を含む。いくつかの例では、管理プロセッサ４１１は、Ｉｎｔｅｌ^{（登録商標）}もしくはＡＭＤ^{（登録商標）}マイクロプロセッサ、ＡＲＭ^{（登録商標）}マイクロプロセッサ、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向けプロセッサ、または他のマイクロプロセッサもしくは処理要素を含む。

【0051】

管理オペレーティングシステム（ＯＳ）４１２は、管理プロセッサ４１１によって実行され、計算プラットフォーム４００のリソースの管理を提供する。この管理には、１つまたは複数の計算ユニットの合成、変更、合成解除、および監視が含まれる。管理ＯＳ４１２は、管理プロセッサ４１１のための本明細書に記載の機能および動作を提供する。ユーザインターフェース４１３は、グラフィカルユーザインターフェース（ＧＵＩ）、アプリケーション・プログラミング・インターフェース（ＡＰＩ）、またはコマンド・ライン・インターフェース（ＣＬＩ）、ウエブソケット（ＷｅｂＳｏｃｋｅｔ）インターフェースを１人または複数のユーザに提示できる。ユーザインターフェース４１３は、計算ユニットを確立し、計算ユニットにリソースを割り当て、計算ユニットのクラスタを作成し、他の動作を実行するために、エンドユーザまたは管理者によって使用できる。いくつかの例では、ユーザインターフェース４１３は、ユーザが、計算ユニットの作成で使用するために、使用またはカスタマイズするための１つまたは複数の計算ユニットテンプレートおよび動的調整ポリシーセットを決定できるインターフェースを提供する。ユーザインターフェース４１３を使用して、マシンテンプレートを管理、選択、および変更できる。ユーザインターフェース４１３を使用して、計算ユニットのポリシーを管理、選択、および変更できる。ユーザインターフェース４１３はまた、計算プラットフォーム４００の動作のためのテレメトリ情報を、１つまたは複数のステータスインターフェースまたはステータスビューなどで、ユーザに提供できる。計算プラットフォーム４００の様々な構成要素または要素の状態は、とりわけ、ＣＰＵ状態、ＧＰＵ状態、ＮＩＣ状態、ＳＳＤ状態、ＰＣＩｅスイッチ／ファブリック状態など、ユーザインターフェース４１３を介して監視できる。様々な性能測定基準、エラーステータスは、ユーザインターフェース４１３を使用して監視できる。

【0052】

要素４１１～４１４の２つ以上のインスタンスを計算プラットフォーム４００に含めることができる。各管理インスタンスは、所定数のクラスタまたは計算ユニットのリソースを管理することができる。ＧＵＩを介して受信されるものなどのユーザコマンドは、管理インスタンスのいずれかに受信され、受信管理インスタンスによってハンドリング管理インスタンスに転送され得る。各管理インスタンスは、適切な管理インスタンスへのユーザコマンドの配信を助けることができる、一意のまたは事前に割り当てられた識別子を有することができる。さらに、各管理インスタンスの管理プロセッサは、メールボックスプロセスまたは他のデータ交換技法を使用するなどして、互いに通信できる。この通信は、Ｉ２Ｃインターフェースなどの専用サイドバンドインターフェースを介して行うことができ、または各管理プロセッサを結合するＰＣＩｅまたはイーサネットインターフェースを介して行うことができる。

【0053】

複数のＣＰＵ４２１～４２５は、シャーシ４２０に含まれる。各ＣＰＵは、１つまたは複数のＣＰＵまたはマイクロプロセッサと、関連する記憶システムからオペレーティングシステム、デバイスドライバ、およびアプリケーションなどのソフトウェアを取得して実行する他の処理回路と、を含むＣＰＵモジュールを備えることができる。各ＣＰＵは、単一の処理デバイス内に実装できるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。各ＣＰＵの例は、汎用中央処理装置、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイス、それらの組み合わせ、または変形を含む。いくつかの例では、各ＣＰＵは、Ｉｎｔｅｌ^{（登録商標）}もしくはＡＭＤ^{（登録商標）}マイクロプロセッサ、ＡＲＭ^{（登録商標）}マイクロプロセッサ、グラフィックスプロセッサ、計算コア、グラフィックスコア、ＡＳＩＣ、ＦＰＧＡ、または他のマイクロプロセッサもしくは処理要素を含む。各ＣＰＵはまた、１つまたは複数のＰＣＩｅインターフェースおよびＰＣＩｅファブリックを介して、同じ記憶アセンブリ／エンクロージャまたは別の記憶アセンブリ／エンクロージャ内のものなどの他の計算ユニットと通信できる。

【0054】

複数のＧＰＵ４３１～４３５は、シャーシ４３０に含まれる。各ＧＰＵは、１つまたは複数のＧＰＵを含むＧＰＵモジュールを備えることができる。各ＧＰＵは、１つまたは複数の計算ユニットに割り当てることができるグラフィックス処理リソースを含む。ＧＰＵは、グラフィックスプロセッサ、シェーダ、ピクセルレンダリング要素、フレームバッファ、テクスチャマッパ、グラフィックスコア、グラフィックスパイプライン、グラフィックスメモリ、または他のグラフィックス処理および処理要素を含むことができる。いくつかの例では、各ＧＰＵは、ＧＰＵチップをサポートする回路を備えるグラフィックス「カード」を備える。例示的なＧＰＵカードは、様々なサポート回路、コネクタ、および他の要素と共にグラフィックス処理要素を含むｎＶＩＤＩＡ^{（登録商標）}またはＡＭＤ^{（登録商標）}グラフィックスカードを含む。さらなる例では、機械学習処理ユニット、テンソル処理ユニット（ＴＰＵ）、ＦＰＧＡ、ＡＳＩＣ、または特殊なデータセットの処理に処理およびメモリリソースを集中させるための特殊な処理要素を含むことができる他の特殊なプロセッサなど、他のスタイルのグラフィックス処理ユニット、グラフィックス処理アセンブリ、またはコプロセッシング要素を使用できる。

【0055】

複数のＳＳＤ４４１～４４５は、シャーシ４４０に含まれる。各ＳＳＤは、１つまたは複数のＳＳＤを含むＳＳＤモジュールを備えてもよい。各ＳＳＤは、ＰＣＩｅインターフェースを有するソリッドステート記憶ドライブなどの１つまたは複数の記憶ドライブを含む。各ＳＳＤはまた、ＰＣＩｅインターフェース、制御プロセッサ、および電力システム要素を含む。各ＳＳＤは、他の動作の中でも、トラフィック統計およびステータス監視のためのプロセッサまたは制御システムを含むことができる。さらに他の例では、各ＳＳＤは、代わりに、磁気ハードディスクドライブ（ＨＤＤ）、クロスポイントメモリ（例えば、Ｏｐｔａｎｅ^{（登録商標）}デバイス）、スタティック・ランダム・アクセスメモリ（ＳＲＡＭ）デバイス、プログラマブル読み出し専用メモリ（ＰＲＯＭ）デバイス、または他の磁気、光学、もしくは半導体ベースの記憶媒体などの異なるデータ記憶媒体を、関連するエンクロージャ、制御システム、電力システム、およびインターフェース回路と共に備える。

【0056】

複数のＮＩＣ４５１～４５５は、シャーシ４５０に含まれる。各ＮＩＣは、１つまたは複数のＮＩＣを含むＮＩＣモジュールを備えることができる。各ＮＩＣは、ＴＣＰ／ＩＰ（伝送制御プロトコル（ＴＣＰ）／インターネットプロトコル）ネットワークを介して通信するための、または、関連する計算ユニットの要素のためのｉＳＣＳＩ（ＩｎｔｅｒｎｅｔＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）もしくはＮＶＭｅ（ＮＶＭＥｘｐｒｅｓｓ）トラフィックなどのユーザトラフィックを搬送するための、ネットワーク・インターフェース・コントローラカードを含むことができる。ＮＩＣは、イーサネットインターフェース機器を備えることができ、有線、光、または無線リンクを介して通信できる。計算プラットフォーム４００の構成要素への外部アクセスは、ＮＩＣによって提供されるパケット・ネットワーク・リンクを介して提供できる。ＮＩＣは、ＰＣＩｅファブリックの関連するＰＣＩｅリンクを介して、関連する計算ユニットの他の構成要素と通信できる。いくつかの例では、ＮＩＣは、イーサネットリンクを介して管理プロセッサ４１１と通信するために提供される。追加の例では、ＮＩＣは、イーサネットリンクを介して１つまたは複数の他のシャーシ、ラックマウントシステム、データセンタ、計算プラットフォーム、通信ファブリック、または他の要素と通信するために提供される。

【0057】

計算プラットフォームには、ＣＰＵ、ＧＰＵ、ＳＳＤ、およびＮＩＣに加えて、他の専用デバイスが使用されてもよい。これらの他の専用デバイスは、他の回路の中でも、専用のコプロセッシング回路、ファブリックカップリングＲＡＭデバイス、ＡＳＩＣ回路、またはＦＰＧＡ回路、ならびに様々なメモリ構成要素、記憶構成要素、およびインターフェース構成要素を備えるコプロセッシングモジュールを含むことができる。他の専用デバイスは各々、１つまたは複数のＰＣＩｅレーンを備えるＰＣＩｅインターフェースを含むことができる。これらのＰＣＩｅインターフェースは、ＰＣＩｅファブリックを介して通信し、１つまたは複数の計算ユニットに他の専用デバイスを含めるために使用することができる。これらの他の専用デバイスは、ルートコンプレクスを有しても有しなくてもよいＰＣＩｅエンドポイントデバイスまたはＰＣＩｅホストデバイスを備えてもよい。

【0058】

ＦＰＧＡデバイスは、他の専用デバイスの一例として使用できる。ＦＰＧＡデバイスは、ＣＰＵまたはＧＰＵなどの別のＰＣＩｅデバイスから処理タスクを受信して、それらの処理タスクをＦＰＧＡプログラマブル論理回路にオフロードすることができる。ＦＰＧＡは、典型的には、構成データを使用してプログラム状態に初期化され、このプログラム状態は、様々な論理配置、メモリ回路、レジスタ、処理コア、特殊回路、および特殊回路または特定用途向け回路を提供する他の機能を含む。ＦＰＧＡデバイスは、その中に実装された回路を変更し、異なる時点で異なるセットの処理タスクを実行するように再プログラムすることができる。ＦＰＧＡデバイスを使用して、機械学習タスクを実行し、人工ニューラルネットワーク回路を実装し、カスタムインターフェースまたはグルーロジックを実装し、暗号化／復号タスクを実行し、ブロックチェーン計算および処理タスクを実行し、または他のタスクを実行することができる。いくつかの例では、ＣＰＵは、ＰＣＩｅインターフェースを介してＦＰＧＡによって処理されるデータをＦＰＧＡに提供する。ＦＰＧＡは、このデータを処理して結果を生成し、この結果をＰＣＩｅインターフェースを介してＣＰＵに提供できる。２つ以上のＣＰＵおよび／またはＦＰＧＡが、２つ以上のデバイスを介してタスクを並列化するために、または２つ以上のデバイスを介してデータをシリアル処理するために関与してもよい。いくつかの例では、ＦＰＧＡ配置は、構成データ記憶装置に記憶された構成データを使用して補足、置換、または上書きすることができるローカルに記憶された構成データを含むことができる。この構成データは、本明細書で説明される他の構成データの中でも、ファームウェア、プログラマブル論理プログラム、ビットストリーム、またはオブジェクト、ＰＣＩｅデバイス初期構成データを含むことができる。ＦＰＧＡ配置はまた、ブートプログラミング、電源オン構成、またはＦＰＧＡデバイスの初期構成を確立するための他の機能を実行するために使用されるＳＲＡＭデバイスまたはＰＲＯＭデバイスを含むことができる。いくつかの例では、ＳＲＡＭまたはＰＲＯＭデバイスをＦＰＧＡ回路またはパッケージに組み込むことができる。

【0059】

ＰＣＩｅスイッチ４６０～４６４は、関連するＰＣＩｅリンクを介して通信する。図４の例では、ＰＣＩｅスイッチ４６０～４６４は、各シャーシ内のＰＣＩｅデバイス間および各シャーシ間でユーザデータを搬送するために使用できる。各ＰＣＩｅスイッチ４６０～４６４は、各ＰＣＩｅスイッチによって処理される任意のＰＣＩｅインターフェース間の切り替え接続を確立するためのＰＣＩｅクロス・コネクト・スイッチを備える。本明細書で説明されるＰＣＩｅスイッチは、少なくとも各ＰＣＩｅリンクによって搬送されるトラフィックに基づいて、関連するＰＣＩｅリンクのうちの様々なＰＣＩｅリンクを論理的に相互接続することができる。これらの例では、ユーザ定義のグループに従ってＰＣＩｅスイッチのＰＣＩｅポートをセグメント化できるドメインベースのＰＣＩｅシグナリング配信を含むことができる。ユーザ定義グループは、構成要素を関連する計算ユニットに論理的に統合し、構成要素および計算ユニットを互いに論理的に分離する、管理プロセッサ４１１によって管理できる。ドメインベースのセグメント化に加えて、またはその代わりに、各ＰＣＩｅスイッチポートは、非透過（ＮＴ）または透過ポートであり得る。ＮＴポートは、ブリッジのようにエンドポイント間の何らかの論理分離を可能にすることができるが、透過ポートは論理分離を可能にせず、純粋に切り替えられた構成でエンドポイントを接続する効果を有する。１つまたは複数のＮＴポートを介したアクセスは、特定のＮＴポートを選択するため、またはＮＴポートを介した可視性を可能にするために、ＰＣＩｅスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。

【0060】

有利には、このＮＴポートベースのセグメント化またはドメインベースのセグメント化は、物理的構成要素（すなわち、ＣＰＵ、ＧＰＵ、ＳＳＤ、ＮＩＣ）がセグメント化／分割を介して含まれるこれらの構成要素に対してのみ視認性を有することを可能にできる。したがって、ＰＣＩｅファブリック間の論理分割を用いて、複数の物理構成要素間のグループ化を実現できる。この分割は本質的にスケーラブルであり、管理プロセッサ４１１または他の制御要素によって必要に応じて動的に変更できる。管理プロセッサ４１１は、ＰＣＩｅファブリックを備えるＰＣＩｅスイッチ回路を制御することができ、ＰＣＩｅポート間の論理分割またはセグメント化を変更し、したがって物理構成要素のグループ化の合成を変更できる。本明細書では計算ユニットと呼ばれるこれらのグループ化は、個別に「マシン」を形成することができ、多くの計算ユニット／マシンのクラスタにさらにグループ化することができる。本明細書で説明される他の考慮事項の中でも、ユーザインターフェースを介して受信されたユーザ命令に従って、ロード／アイドル状態に応答して動的に、着信またはキューに入れられた実行ジョブに応答して動的に、または予期される必要性に起因して予防的に、物理的構成要素を、計算ユニットに追加または計算ユニットから削除できる。

【0061】

さらなる例では、メモリ・マップド・ダイレクト・メモリ・アクセス（ＤＭＡ、ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）コンジットを、個々のＣＰＵ／ＰＣＩｅデバイスペアの間に形成することができる。このメモリマッピングは、他の構成の中でもとりわけ、ＰＣＩｅファブリックアドレス空間上で行うことができる。多くのＣＰＵおよびＧＰＵを備える共有ＰＣＩｅファブリック上にこれらのＤＭＡコンジットを提供するために、本明細書に記載の論理分割を採用できる。具体的には、ＰＣＩｅスイッチ上のＮＴポートまたはドメインベースの分割は、関連するＣＰＵ／ＧＰＵ間の個々のＤＭＡコンジットを分離できる。ＰＣＩｅファブリックは、６４ビットのアドレス空間を有することができ、これにより、２６４バイトのアドレス指定可能な空間が可能になり、少なくとも１６エクスビバイトのバイトアドレス指定可能なメモリがもたらされる。６４ビットＰＣＩｅアドレス空間は、すべての計算ユニットによって共有できるか、またはリソースへの適切なメモリマッピングのための配置を形成する様々な計算ユニット間でセグメント化できる。

【0062】

ＰＣＩｅインターフェースは、ｘ１、ｘ２、ｘ４、ｘ８、ｘ１６、およびｘ３２などの複数のバス幅をサポートすることができ、バス幅の各倍数は、データ転送のための追加の「レーン」を含む。ＰＣＩｅはまた、他のシグナリングの中でも、システム管理バス（ＳＭＢｕｓ）インターフェースおよびジョイント・テスト・アクション・グループ（ＪＴＡＧ、ＪｏｉｎｔＴｅｓｔＡｃｔｉｏｎＧｒｏｕｐ）インターフェース、ならびに関連するクロック、電力、およびブートストラップなどのサイドバンドシグナリングの転送をサポートする。ＰＣＩｅはまた、本明細書で使用される異なる実装形態またはバージョンを有してもよい。例えば、ＰＣＩｅバージョン３．０以降（例えば、４．０、５．０、またはそれ以降）が使用されてもよい。さらに、Ｇｅｎ－Ｚ、キャッシュコヒーレントＣＣＩＸ、ＣＸＬ、またはＯｐｅｎＣＡＰＩなどの次世代インターフェースを使用できる。また、図４ではＰＣＩｅが使用されているが、他の相互接続、ネットワーク、およびリンクインターフェースの中でも、ＮＶＭｅ、イーサネット、ＳＡＳ、ファイバーチャネル、サンダーボルト、ＳＡＴＡエクスプレスなど、の異なる通信リンクまたはバスを代わりに使用できることを理解されたい。ＮＶＭｅは、ハードディスクドライブおよびソリッドステートメモリデバイスなどの大容量記憶デバイスのためのインターフェース規格である。ＮＶＭｅは、パーソナルコンピュータおよびサーバ環境における大容量記憶デバイスとインターフェースするためのＳＡＴＡインターフェースに取って代わることができる。しかしながら、これらのＮＶＭｅインターフェースは、ＳＡＴＡデバイスと同様に、１対１のホストドライブ関係に限定される。本明細書で説明する例では、ＰＣＩｅインターフェースを使用してＮＶＭｅトラフィックを転送し、ＰＣＩｅインターフェース上で１つまたは複数のＮＶＭｅ仮想論理ユニット番号（ＶＬＵＮ、ＶｉｒｔｕａｌＬｏｇｉｃａｌＵｎｉｔＮｕｍｂｅｒｓ）として多くの記憶ドライブを備えるマルチドライブシステムを提示できる。

【0063】

図４のリンクのいずれも、空気、空間、金属、光ファイバー、またはそれらの組み合わせを含む他の何らかの信号伝搬経路などの様々な通信媒体をそれぞれ使用できる。図４のリンクのいずれも、任意の数のＰＣＩｅリンクまたはレーン構成を含むことができる。図４のリンクのいずれも、それぞれ直接リンクであってもよく、または様々な機器、中間構成要素、システム、およびネットワークを含んでもよい。図４のリンクのいずれも、それぞれ共通リンク、共有リンク、統合リンクとすることができ、または個別の別個のリンクから構成できる。

【0064】

次に、計算ユニットの形成および処理の詳細な例について説明する。図４では、任意のＣＰＵ４２１～４２５は、ＰＣＩｅファブリックによって論理的にセグメント化されているように、任意の／すべてのＧＰＵ４３１～４３５、ＳＳＤ４４１～４４５、およびＮＩＣ４５１～４５５、または計算プラットフォーム４００のＰＣＩｅファブリックに結合された他の物理構成要素、に対する構成可能な論理的可視性を有する。例えば、任意のＣＰＵ４２１～４２５は、同じ計算ユニットに含まれる任意のＳＳＤ４４１～４４５と記憶データを転送および検索できる。同様に、任意のＣＰＵ４２１～４２５は、同じ計算ユニットに含まれる任意のＧＰＵ４３１～４３５による処理のためにデータを交換できる。したがって、「ｍ」個のＳＳＤまたはＧＰＵが「ｎ」個のＣＰＵと結合され、高レベルの性能、冗長性、および密度を有する大規模でスケーラブルなアーキテクチャを可能にできる。グラフィック処理の例では、ＰＣＩｅファブリックにおけるＮＴ分割またはドメインベースの分割は、ＰＣＩｅスイッチの１つまたは複数によって提供できる。この分割により、ＧＰＵを所望の１つまたは複数のＣＰＵと相互作用させることができ、８つのＧＰＵなどの２つ以上のＧＰＵを特定の計算ユニットに関連付けることができる。さらに、動的なＧＰＵ計算ユニットの関係は、ＰＣＩｅファブリック全体の分割を使用してオンザフライで調整できる。共有ＮＩＣリソースは、計算ユニット全体に適用することもできる。

【0065】

図５は、計算ユニットの形成およびそこへのソフトウェア構成要素の展開など、図４の要素に関するさらなる詳細を含むシステム図である。システム５００は、リンク５１０を介して合成された計算ユニット４０１と通信する管理プロセッサ４１１を含む。合成された計算ユニット４０１は、ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、およびＮＩＣ４５１を備える。ＣＰＵ４２１は、オペレーティングシステム５２２、アプリケーション５２４、計算ユニットインターフェース５２５、および実行ジョブ４９１を備えるソフトウェアを展開している。したがって、ＣＰＵ４２１は、いくつかの動作層を有するものとして示されている。第１の層５０１は、論理ドメイン４７０を使用してＰＣＩｅファブリック上に形成される計算ユニット４０１のハードウェア層または「メタル」マシンインフラストラクチャである。第２の層５０２は、ＯＳならびに計算ユニットインターフェース５２５を提供する。最後に、第３の層５０３は、ユーザレベルアプリケーションおよび実行ジョブを提供する。

【0066】

管理ＯＳ１１１はまた、リンク５１０を介して、計算ユニット４０１上に展開された計算ユニットインターフェース５２５と通信する管理インターフェース５１５を含む。管理インターフェース５１５は、ソフトウェア構成要素を計算ユニットに転送し、計算ユニットからステータス、テレメトリ、および他のデータを受信するために、計算ユニットとの通信を可能にする。管理インターフェース５１５および計算ユニットインターフェース５２５は、制御命令、制御応答、テレメトリデータ、ステータス情報、または他のデータなどのための管理トラフィックのための標準化されたインターフェースを提供する。標準化されたインターフェースは、１つまたは複数のＡＰＩを含むことができる。

【0067】

いくつかの例では、計算ユニットインターフェースは、エミュレートされたネットワークインターフェースを含む。このエミュレートされたネットワークインターフェースは、１つまたは複数のＰＣＩｅインターフェース上でパケットネットワークトラフィックを転送するための転送機構を備える。エミュレートされたネットワークインターフェースは、イーサネットデバイスなどのネットワークデバイスを管理プロセッサ４１１にエミュレートすることができ、その結果、管理プロセッサ４１１は、あたかも管理プロセッサ４１１およびＣＰＵ４２１がイーサネットネットワークインターフェースを介して通信しているかのように、ＰＣＩｅインターフェースを介して計算ユニット４０１のＣＰＵ４２１と対話／インターフェースすることができる。エミュレートされたネットワークインターフェースは、ＯＳがイーサネットスタイルのコマンドおよびドライバを使用してインターフェースすることを可能にし、アプリケーションまたはＯＳレベルのプロセスが、完全なネットワークスタックに関連付けられた関連するレイテンシおよび処理オーバーヘッドを有することなく、エミュレートされたネットワークデバイスと通信することを可能にする、カーネルレベルの要素またはモジュールを備えることができる。エミュレートされたネットワークインターフェースは、ドライバ、モジュール、カーネルレベルモジュール、または計算ユニットのＣＰＵによって実行されるアプリケーションレベルおよびシステムレベルのソフトウェアに対するネットワークデバイスとして見える他のソフトウェア構成要素、などのソフトウェア構成要素を含む。有利には、エミュレートされたネットワークインターフェースは、通信を転送するためにネットワークスタック処理を必要としない。計算ユニット４０１などの計算ユニットの場合、エミュレートされたネットワークインターフェースは、ネットワークスタック処理を使用せず、依然としてネットワークデバイスとしてオペレーティングシステム５２２に現れるので、その結果、関連するＣＰＵのユーザソフトウェアまたはオペレーティングシステム要素は、ネットワークインターフェースと対話し、イーサネット通信などの既存のネットワークに面する通信方法を使用してＰＣＩｅファブリックを介して通信することができる。管理プロセッサ４１１のエミュレートされたネットワークインターフェースは、ＰＣＩｅインターフェースまたはＰＣＩｅファブリックを介して、関連するトラフィックとして、計算ユニット４０１上に位置する別のエミュレートされたネットワークデバイスに通信を転送する。エミュレートされたネットワークインターフェースは、ＰＣＩｅトラフィックをネットワークデバイストラフィックに翻訳し、その逆も同様である。ネットワークスタックを介してエミュレートされたネットワークデバイスに転送される通信の処理は省略され、ネットワークスタックは、通常、提示されるネットワークデバイス／インターフェースのタイプに使用されることが多い。例えば、エミュレートされたネットワークデバイスは、オペレーティングシステムまたはアプリケーションにイーサネットデバイスとして提示されてもよい。オペレーティングシステムまたはアプリケーションから受信した通信は、エミュレートされたネットワークデバイスによって１つまたは複数の宛先に転送される。しかしながら、エミュレートされたネットワークインターフェースは、アプリケーション層からリンク層までの通信を処理するためのネットワークスタックを含まない。代わりに、エミュレートされたネットワークインターフェースは、オペレーティングシステムまたはアプリケーションから受信した通信からペイロードデータおよび宛先を抽出し、宛先に関連するアドレス指定を使用してペイロードデータをＰＣＩｅフレームにカプセル化することなどによって、ペイロードデータおよび宛先をＰＣＩｅトラフィックに翻訳する。

【0068】

計算ユニットインターフェース５２５は、エミュレートされたネットワークインターフェースについて説明したような、エミュレートされたネットワークインターフェースを含むことができる。さらに、計算ユニットインターフェース５２５は、ＣＰＵ４２１の動作およびＣＰＵ４２１によって実行されるソフトウェアを監視し、この動作のためのテレメトリを管理プロセッサ４１１に提供する。したがって、ユーザ提供オペレーティングシステム（Ｗｉｎｄｏｗｓ、Ｌｉｎｕｘ、ＭａｃＯＳ、Ａｎｄｒｏｉｄ、ｉＯＳなど．．．）、実行ジョブ４９１、ユーザアプリケーション５２４、または他のソフトウェアおよびドライバなどの任意のユーザ提供ソフトウェアを、ＣＰＵ４２１によって実行できる。計算ユニットインターフェース５２５は、関連する計算ユニットおよび／またはクラスタに関与すること、ならびに、リンク５１０を介して管理プロセッサ４１１にテレメトリデータを提供することを、ＣＰＵ４２１が可能にする機能を提供する。計算ユニットが複数のまたは異なる通信プロトコルを利用する物理構成要素を含む例では、計算ユニットインターフェース５２５は、計算ユニット内でプロトコル間通信を行うことができる機能を提供してもよい。計算ユニットの各ＣＰＵはまた、ＰＣＩｅファブリックを介してネットワークトラフィックを伝送するエミュレートされたネットワークデバイスを介して、互いに通信できる。計算ユニットインターフェース５２５はまた、ユーザソフトウェアおよびオペレーティングシステムが計算ユニットインターフェース５２５と対話するためのＡＰＩ、ならびに管理プロセッサ４１１と制御／テレメトリシグナリングを交換するためのＡＰＩ、を提供することもできる。

【0069】

さらに、例えば、ＰＣＩｅデバイスが異なる通信プロトコルを利用する場合、計算ユニットのＰＣＩｅデバイスのデバイスドライバ間のプロトコル間通信またはピアツーピア通信を容易にするために、計算ユニットインターフェース５２５が、計算ユニットのＰＣＩｅデバイスのデバイスドライバへのインターフェースとして動作してもよい。さらに、計算ユニットインターフェース５２５は、動的調整ポリシーに基づいて計算ユニットに対する動的調整中の継続動作を容易にするように動作してもよい。さらに、計算ユニットインターフェース５２５は、ポリシー（例えば、利用率または応答性ポリシーに基づくＰＣＩｅバージョン３．０ハードウェアからＧｅｎ－Ｚハードウェアへの移行）に基づいて、計算プラットフォームにおける代替ハードウェアへの移行を容易にするように動作してもよい。対応するＰＣＩｅスイッチ回路内の制御要素は、異なるバージョンまたは通信プロトコルを利用する計算ユニット間のＰＣＩｅ通信を監視するように構成されてもよい。上述したように、計算プラットフォーム内で、およびいくつかの実装形態では計算ユニット内で、異なるバージョンまたは通信プロトコルを利用できる。いくつかの例では、ＰＣＩｅファブリック内の１つまたは複数のＰＣＩｅスイッチまたは他のデバイスは、異なるバージョンまたは通信プロトコルを利用するＰＣＩｅデバイス間のインターフェースとして機能するように動作してもよい。検出されたデータ転送は、「トラップ」され、ＰＣＩｅスイッチ回路によって宛先ＰＣＩｅデバイスによって利用されるバージョンまたは通信プロトコルに翻訳または変換され、次いで宛先ＰＣＩｅデバイスにルーティングされてもよい。

【0070】

図６は、管理プロセッサ６００の実装形態を示すブロック図である。管理プロセッサ６００は、図１の管理システム１１０または図４および図５の管理プロセッサ４１１など、本明細書で説明する管理プロセッサのいずれかの例を示す。管理プロセッサ６００は、通信インターフェース６０１と、ジョブインターフェース６０２と、ユーザインターフェース６０３と、処理システム６１０とを含む。処理システム６１０は、処理回路６１１と、ランダムアクセスメモリ（ＲＡＭ）６１３を含むことができるデータ記憶システム６１２とを含むが、追加のまたは異なる構成の要素を含むことができる。

【0071】

処理回路６１１は、単一の処理デバイス内に実装できるが、プログラム命令を実行する際に協働する複数の処理デバイスまたはサブシステムにわたって分散させることもできる。処理回路６１１の例は、汎用中央処理装置、マイクロプロセッサ、特定用途向けプロセッサ、および論理デバイス、ならびに任意の他の種類の処理デバイスを含む。いくつかの例では、処理回路６１１は、クラウド計算システムなどの物理的に分散された処理デバイスを含む。

【0072】

通信インターフェース６０１は、通信リンク、パケットネットワークなどのネットワーク、およびインターネットなどを介して通信するための１つまたは複数の通信およびネットワークインターフェースを含む。通信インターフェースは、ＰＣＩｅインターフェース、イーサネットインターフェース、シリアルインターフェース、シリアル・ペリフェラル・インターフェース（ＳＰＩ）リンク、集積回路間（Ｉ２Ｃ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、ＵＡＲＴインターフェース、無線インターフェース、またはイーサネットもしくはインターネットプロトコル（ＩＰ）リンクを介して通信することができる１つもしくは複数のローカルもしくはワイドエリアネットワーク通信インターフェース、を含むことができる。通信インターフェース６０１は、異なるネットワークリンクに関連付けることができる１つまたは複数のネットワークアドレスを使用して通信するように構成されたネットワークインターフェースを含むことができる。通信インターフェース６０１の例は、ネットワーク・インターフェース・カード機器、トランシーバ、モデム、および他の通信回路を含む。通信インターフェース６０１は、ＰＣＩｅファブリックまたは他の通信ファブリックの要素と通信して、通信ファブリックの１つまたは複数の通信スイッチの管理インターフェースまたは制御インターフェースなどを介して、ファブリック内で論理分割を確立できる。

【0073】

ジョブインターフェース６０２は、１つまたは複数の外部システムから実行ジョブを受け取り、そのような外部システムに実行ジョブ結果およびステータスを提供する、ネットワークベースのインターフェースまたは他のリモートインターフェースを備える。ジョブは、ジョブインターフェース６０２を介して受信され、対応する計算プラットフォームの要素による実行または他の種類の処理のために、ジョブスケジュール６３１に置かれる。ジョブインターフェース６０２は、他のインターフェースの中でも、ネットワークインターフェース、ユーザインターフェース、端末インターフェース、アプリケーション・プログラミング・インターフェース（ＡＰＩ）、またはレプレセンテーショナル・ステート・トランスファ（ＲＥＳＴ）インターフェースを含むことができる。いくつかの例では、ワークロード・マネージャ・ソフトウェア・プラットフォーム（図示せず）は、実行または処理のためにジョブを作成、スケジュール、および転送することができるユーザまたはオペレータ用のフロントエンドを確立する。ジョブインターフェース６０２は、ワークロード・マネージャ・ソフトウェア・プラットフォームからこれらのジョブの表示を受信できる。

【0074】

ユーザインターフェース６０３は、タッチスクリーン、キーボード、マウス、音声入力デバイス、音声入力デバイス、またはユーザからの入力を受信するための他のタッチ入力デバイスを含んでもよい。ディスプレイ、スピーカ、ウエブインターフェース、端末インターフェース、および他の種類の出力デバイスなどの出力デバイスもまた、ユーザインターフェース６０３に含まれてもよい。ユーザインターフェース６０３は、通信インターフェース６０１などのネットワークインターフェースを介して出力を提供し、入力を受信できる。ネットワークの例では、ユーザインターフェース６０３は、１つまたは複数のネットワークインターフェースを介して結合されたディスプレイシステムまたは計算システムによって、リモートディスプレイ用のディスプレイまたはグラフィックスデータをパケット化することができる。ユーザインターフェース６０３の物理的または論理的要素は、ユーザまたは他のオペレータに警告または視覚的出力を提供できる。ユーザインターフェース６０３はまた、上述した様々なユーザ入出力デバイスをサポートする、処理システム６１０によって実行可能な関連するユーザインターフェースソフトウェアを含んでもよい。別個に、または互いにおよび他のハードウェアおよびソフトウェア要素と共に、ユーザインターフェースソフトウェアおよびユーザインターフェースデバイスは、グラフィカルユーザインターフェース、自然なユーザインターフェース、または任意の他の種類のユーザインターフェースをサポートできる。

【0075】

ユーザインターフェース６０３は、グラフィカルユーザインターフェース（ＧＵＩ）を１人または複数のユーザに提示できる。ＧＵＩは、クラスタを確立し、アセット（計算ユニット／マシン）を各クラスタに割り当てるために、エンドユーザまたは管理者によって使用され得る。いくつかの例では、ＧＵＩまたはユーザインターフェース６０３の他の部分は、エンドユーザが、計算ユニットの作成で使用するために、使用またはカスタマイズするための１つまたは複数の計算ユニットテンプレートおよび動的調整ポリシーセットを決定できるインターフェースを提供する。ユーザインターフェース６０３を使用して、マシンテンプレートを管理、選択、および変更したり、または、計算ユニットのポリシーを変更したりすることができる。ユーザインターフェース６０３はまた、１つまたは複数のステータスインターフェースまたはステータスビューなどにおいて、テレメトリ情報を提供できる。様々な構成要素または要素の状態は、とりわけ、プロセッサ／ＣＰＵ状態、ネットワーク状態、記憶ユニット状態、ＰＣＩｅ要素状態などを、ユーザインターフェース６０３を介して監視できる。様々な性能測定基準、エラーステータスは、ユーザインターフェース６０３を使用して監視できる。ユーザインターフェース６０３は、コマンド・ライン・インターフェース（ＣＬＩ）、アプリケーション・プログラミング・インターフェース（ＡＰＩ）、または他のインターフェースなど、ＧＵＩ以外の他のユーザインターフェースを提供できる。ユーザインターフェース６０３の一部は、ウエブソケットベースのインターフェースを介して提供できる。

【0076】

記憶システム６１２およびＲＡＭ６１３は、共に非一時的データ記憶システムを備えることができるが、変形も可能である。記憶システム６１２およびＲＡＭ６１３は各々、処理回路６１１によって読み取り可能であり、ソフトウェアおよびＯＳイメージを記憶することができる、任意の記憶媒体を備えることができる。ＲＡＭ６１３は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装された揮発性および不揮発性、取り外し可能および固定の媒体を含むことができる。記憶システム６１２は、ソリッドステート記憶媒体、フラッシュメモリ、相変化メモリ、または磁気メモリなどの不揮発性記憶媒体を含むことができ、それらの組み合わせを含む。記憶システム６１２およびＲＡＭ６１３は各々、単一の記憶デバイスとして実装することができるが、複数の記憶デバイスまたはサブシステムにわたって実装することもできる。記憶システム６１２およびＲＡＭ６１３は各々、処理回路６１１と通信することができるコントローラなどの追加の要素を備えることができる。

【0077】

記憶システム６１２もしくはＲＡＭ６１３上、またはそれらの内に記憶されるソフトウェアまたはデータは、コンピュータプログラム命令、ファームウェア、または処理システムが実行されると本明細書に記載されるように動作するようにプロセッサ６００に指示するプロセスを有する何らかの他の形態の機械可読処理命令、を含むことができる。例えば、ソフトウェア６２０は、プロセッサ６００を駆動して、他の構成要素の中でも、ＣＰＵ、ＧＰＵ、ＳＳＤ、およびＮＩＣを含む複数の分解された物理計算構成要素間で計算ユニットを確立するためのユーザコマンドを受信することができる。ソフトウェア６２０は、テレメトリデータ、統計情報、動作データ、および他のデータを受信および監視して、テレメトリをユーザに提供し、テレメトリデータ、ポリシー、または他のデータおよび基準に従って計算ユニットの動作を変更するように、プロセッサ６００を駆動できる。ソフトウェア６２０は、とりわけ、クラスタリソースおよび計算ユニットリソースを管理し、通信ファブリック要素間のドメイン分割またはＮＴ分割を確立し、個々の通信スイッチとインターフェースしてそのような通信スイッチの動作を制御するように、プロセッサ６００を駆動できる。ソフトウェアはまた、ユーザ・ソフトウェア・アプリケーション、アプリケーション・プログラミング・インターフェース（ＡＰＩ）、またはユーザインターフェースを含むことができる。ソフトウェアは、単一のアプリケーションまたは複数のアプリケーションとして実装できる。一般に、ソフトウェアは、処理システムにロードされて実行されると、汎用デバイスから本明細書で説明するようにカスタマイズされた専用デバイスに、処理システムを変換できる。

【0078】

システムソフトウェア６２０は、ＲＡＭ６１３の例示的な構成の詳細図を示す。異なる構成が可能であることを理解されたい。システムソフトウェア６２０は、アプリケーション６２１およびオペレーティングシステム（ＯＳ）６２２を含む。ソフトウェアアプリケーション６２３～６２８は各々、計算システムもしくはクラスタコントローラを動作させるため、または本明細書で説明する動作に従って他の回路を動作させるため、にプロセッサ６００によって実行できる実行可能命令を含む。

【0079】

具体的には、クラスタ管理アプリケーション６２３は、図１に示すように、計算プラットフォームの様々なハードウェア要素間でクラスタおよび計算ユニットを確立および維持する。ユーザ・インターフェース・アプリケーション６２４は、エンドユーザが関連するクラスタおよび計算ユニットを管理し、クラスタおよび計算ユニットの動作を監視するための、１つまたは複数のグラフィカルまたは他のユーザインターフェースを提供する。ジョブ処理アプリケーション６２５は、ジョブインターフェース６０２を介して実行ジョブを受信し、合成された計算ユニット内のジョブの処理／実行に必要な計算構成要素の表示と共に、スケジューリング／待ち行列のために実行ジョブを分析する。ジョブ処理アプリケーション６２５はまた、ジョブの実行のために合成された計算ユニットに展開される必要があるジョブソフトウェアまたはデータ、ならびに、どのデータ、ステータス、または結果が、ジョブのためにジョブインターフェース６０２を介して転送される必要があるか、を示す。モジュール間通信アプリケーション６２６は、Ｉ２Ｃ、イーサネット、エミュレートされたネットワークデバイス、またはＰＣＩｅインターフェースなどの他のプロセッサ６００要素間の通信を提供する。モジュール間通信アプリケーション６２６は、プロセッサ６００と合成された計算ユニットとの間の通信、ならびに他の要素との間の通信、を可能にする。ユーザＣＰＵインターフェース６２７は、計算ユニットのプロセッサおよびその専用ドライバ要素と通信するための通信、ＡＰＩ、およびエミュレートされたネットワークデバイスを提供する。ファブリックインターフェース６２８は、ＰＣＩｅファブリックのＰＣＩｅスイッチ要素などの通信ファブリック回路要素間の様々な論理分割またはドメインを確立する。ファブリックインターフェース６２８はまた、ファブリックスイッチ要素の動作を制御し、ファブリックスイッチ要素からテレメトリを受信する。ファブリックインターフェース６２８はまた、通信ファブリック内にアドレストラップまたはアドレスリダイレクト機能を確立する。ファブリックインターフェース６２８は、監視およびリダイレクトされるアドレス範囲を確立するために、１つまたは複数のファブリックスイッチ回路要素とインターフェースすることができ、したがって、通信ファブリック内にアドレストラップを形成する。

【0080】

ソフトウェア６２０に加えて、他のデータ６３０が記憶システム６１２およびＲＡＭ６１３によって記憶され得る。データ６３０は、ジョブスケジュール６３１（またはジョブキュー）、テンプレート６３２、マシンポリシー６３３、テレメトリエージェント６３４、テレメトリデータ６３５、およびファブリックデータ６３６を含むことができる。ジョブスケジュール６３１は、ジョブ識別子、ジョブの実行に必要なジョブリソース、ならびに様々な他のジョブ情報の表示を含む。この他のジョブ情報には、受信、実行開始／終了、その他の情報のタイムスタンプを含むことができる。ジョブスケジュール６３１は、実行ジョブの実行／処理のために合成された計算ユニットに含むために必要な実行ジョブおよび関連する計算構成要素の時間的表現を保持する、１つまたは複数のデータ構造を含むことができる。テンプレート６３２は、事前定義された様々なハードウェアテンプレートまたはマシンテンプレートの仕様または記述を含む。テンプレート６３２はまた、テンプレート作成またはテンプレート調整に使用することができる、構成要素のリストまたはデータ構造および構成要素プロパティを含むことができる。マシンポリシー６３３は、事前定義された様々なマシンポリシーの仕様または説明を含む。これらのマシンポリシー仕様は、基準、トリガ、閾値、制限、または他の情報のリスト、ならびにポリシーの影響を受ける構成要素またはファブリックの表示、を含むことができる。マシンポリシー６３３はまた、ポリシー要因、基準、トリガ、閾値、制限、または、ポリシー作成もしくはポリシー調整に使用することができる他の情報、のリストあるいはデータ構造を含むことができる。テレメトリエージェント６３４は、計算ユニットの動作を監視するために計算ユニット内の構成要素に展開することができるソフトウェア要素を含むことができる。テレメトリエージェント６３４は、ハードウェア／ソフトウェアパラメータ、テレメトリ・デバイス・アドレス指定、または計算ユニットおよび通信ファブリックのＩＰＭＩ準拠ハードウェア／ソフトウェアなどの監視要素とのインターフェースに使用される他の情報、を含むことができる。テレメトリデータ６３５は、様々な計算ユニットのテレメトリ要素からの受信データのデータストアを含み、この受信データは、テレメトリデータまたは監視データを含むことができる。テレメトリデータ６３５は、データを計算ユニット配置、通信ファブリック配置、または他の構造に編成できる。テレメトリデータ６３５は、データ６３０としてキャッシュされ、その後、計算システムの他の要素に転送されるか、またはユーザインターフェースを介した提示に使用され得る。ファブリックデータ６３６は、ファブリックタイプ、プロトコルバージョン、技術記述子、ヘッダ要件、アドレス指定情報、および他のデータなどのリソースのプールまたは構成要素のプールを含む、様々な通信ファブリックの情報ならびにプロパティを含む。ファブリックデータ６３６は、構成要素と構成要素が接続する特定のファブリックとの間の関係を含んでもよい。

【0081】

ソフトウェア６２０は、プロセッサ６００の実行および動作中にＲＡＭ６１３に存在することができ、他の場所および状態の中でも、電源オフ状態中に記憶システム６１２の不揮発性部分に存在できる。ソフトウェア６２０は、コンピュータ・オペレーティング・システムおよびアプリケーションについて説明したように、起動またはブート手順中にＲＡＭ６１３にロードできる。ソフトウェア６２０は、ユーザインターフェース６０３を介してユーザ入力を受け取ることができる。このユーザ入力は、ユーザコマンド、ならびにそれらの組み合わせを含む他の入力を含むことができる。

【0082】

記憶システム６１２は、他のソリッドステート記憶技術の中でも、ＮＡＮＤフラッシュまたはＮＯＲフラッシュメモリなどのフラッシュメモリ、相変化メモリ、磁気メモリを含むことができる。図６に示すように、記憶システム６１２はソフトウェア６２０を含む。上述したように、ソフトウェア６２０は、他のオペレーティングソフトウェアの中でも、プロセッサ６００の電源が切られた状態の間、アプリケーションおよびＯＳのための不揮発性記憶空間内にあり得る。

【0083】

プロセッサ６００は、一般に、本明細書に記載の動作をレンダリングまたは他の様態で実施するために、少なくともソフトウェア６２０が展開および実行される計算システムを表すことを意図している。しかしながら、プロセッサ６００はまた、少なくともソフトウェア６２０をステージングすることができ、そこから、ソフトウェア６２０を展開および実行、またはさらに追加の配信のためにさらに別の計算システムに分散、転送、ダウンロード、または提供され得る、任意の計算システムを表すこともできる。

【0084】

本明細書で説明するシステムおよび動作は、計算ユニットを備える計算クラスタへの計算リソース（ＣＰＵ）、グラフィックス処理リソース（ＧＰＵ）、ネットワークリソース（ＮＩＣ）、または記憶リソース（ＳＳＤ）の動的な割り当てを提供する。計算ユニットは、分解され、計算ユニットに割り当てられる（合成される）まで、未使用、未割り当て、または自由な構成要素のプール内に存在する。管理プロセッサは、計算ユニットの合成および合成解除を制御し、外部ユーザ、ジョブ管理ソフトウェア、またはオーケストレーションソフトウェアへのインターフェースを提供できる。処理リソースおよび他の要素（グラフィックス処理、ネットワーク、記憶、ＦＰＧＡ、またはその他）は、オンザフライで計算ユニットおよび関連するクラスタの内外で交換することができ、これらのリソースは他の計算ユニットまたはクラスタに割り当てることができる。一例では、グラフィックス処理リソースは、第１の計算リソース／ＣＰＵによってディスパッチ／編成され、続いてグラフィックス処理ステータス／結果を別の計算ユニット／ＣＰＵに提供できる。別の例では、リソースに障害、ハング、過負荷状態が発生した場合、追加のリソースを計算ユニットおよびクラスタに導入して、リソースを補うことができる。

【0085】

処理リソース（例えば、ＣＰＵ）には、管理プロセッサによる識別およびＰＣＩｅファブリック上の識別に使用するための、一意の識別子を割り当てることができる。オペレーティングシステムおよびアプリケーションなどのユーザ供給ソフトウェアは、ＣＰＵが計算ユニットに追加された後に初期化されるときに必要に応じて処理リソースに展開することができ、ユーザ供給ソフトウェアは、それらのＣＰＵが計算ユニットから削除されるときにＣＰＵから削除できる。ユーザソフトウェアは、管理プロセッサが展開のためにアクセスすることができる記憶システムから展開できる。記憶ドライブ、記憶デバイス、および他の記憶リソースなどの記憶リソースは、計算ユニット／クラスタ間で割り当てられ、細分化できる。これらの記憶リソースは、異なるまたは類似の記憶ドライブまたはデバイスにまたがることができ、任意の数の論理ユニット（ＬＵＮ）、論理ターゲット、分割、または他の論理配置を有することができる。これらの論理配置は、１つ以上のＬＵＮ、ｉＳＣＳＩＬＵＮ、ＮＶＭｅターゲット、または他の論理分割を含むことができる。ミラーリング、ストライプ、独立ディスク冗長アレイ（ＲＡＩＤ、ＲｅｄｕｎｄａｎｔＡｒｒａｙｏｆＩｎｄｅｐｅｎｄｅｎｔＤｉｓｋ）アレイなどの記憶リソースのアレイを使用することができ、または記憶リソース全体で他のアレイ構成を使用することができる。ネットワーク・インターフェース・カードなどのネットワークリソースは、ブリッジまたはスパン技法を使用してクラスタの計算ユニット間で共有できる。グラフィックリソース（例えば、ＧＰＵ）またはＦＰＧＡリソースは、ＰＣＩｅファブリックおよびＰＣＩｅスイッチ上でＮＴ分割またはドメインベースの分割を使用して、クラスタの２つ以上の計算ユニット間で共有できる。

【0086】

図で提供される機能ブロック図、動作シナリオおよびシーケンス、ならびにフロー図は、本開示の新規な態様を実行するための例示的なシステム、環境、および方法論を表す。説明を簡単にするために、本明細書に含まれる方法は、機能図、動作シナリオもしくはシーケンス、またはフロー図の形態であってもよく、一連の動作として説明されてもよいが、いくつかの動作は、それに従って、本明細書に示され説明されているものとは異なる順序で、および／または他の動作と同時に行われ得るため、方法は動作の順序によって限定されないことを理解および認識されたい。例えば、当業者は、方法が状態図などの一連の相互に関連する状態または事象として代替的に表され得ることを理解および認識するであろう。さらに、方法論において例示されたすべての動作が、新規な実装形態のために必要とされるわけではない。

【0087】

本明細書に含まれる説明および図は、最良の選択肢を作成および使用する方法を当業者に教示するための特定の実装形態を示す。本発明の原理を教示する目的で、いくつかの従来の態様は簡略化または省略されている。当業者は、本開示の範囲内に入るこれらの実装形態からの変形を理解するであろう。当業者はまた、上述の特徴を様々な方法で組み合わせて複数の実装形態を形成することができることを理解するであろう。結果として、本発明は、上述の特定の実装形態に限定されず、特許請求の範囲およびそれらの同等物によってのみ限定される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版