(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6880242
(24)【登録日】2021年5月7日
(45)【発行日】2021年6月2日
(54)【発明の名称】ブレークアウトモジュールシステム
(51)【国際特許分類】
G06F 1/16 20060101AFI20210524BHJP
G06F 1/20 20060101ALI20210524BHJP
G06F 1/18 20060101ALI20210524BHJP
【FI】
G06F1/16 311K
G06F1/20 B
G06F1/20 C
G06F1/18 A
【請求項の数】11
【全頁数】18
(21)【出願番号】特願2019-564382(P2019-564382)
(86)(22)【出願日】2018年2月14日
(65)【公表番号】特表2020-507874(P2020-507874A)
(43)【公表日】2020年3月12日
(86)【国際出願番号】US2018018125
(87)【国際公開番号】WO2018152166
(87)【国際公開日】20180823
【審査請求日】2019年9月24日
(31)【優先権主張番号】62/458,887
(32)【優先日】2017年2月14日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】591043064
【氏名又は名称】モレックス エルエルシー
(74)【代理人】
【識別番号】100116207
【弁理士】
【氏名又は名称】青木 俊明
(74)【代理人】
【識別番号】100096426
【弁理士】
【氏名又は名称】川合 誠
(72)【発明者】
【氏名】アウグスト パネラ
(72)【発明者】
【氏名】ダニエル ビー マクゴーアン
(72)【発明者】
【氏名】レイモンド マティカ
(72)【発明者】
【氏名】グレゴリー ビー ワルツ
(72)【発明者】
【氏名】カーク ビー ペロザ
【審査官】
佐賀野 秀一
(56)【参考文献】
【文献】
特開2014−170991(JP,A)
【文献】
特開2007−128498(JP,A)
【文献】
特開2012−227861(JP,A)
【文献】
特開2016−127549(JP,A)
【文献】
特開2016−096225(JP,A)
【文献】
特開2008−251067(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 1/16− 1/18
G06F 1/20
(57)【特許請求の範囲】
【請求項1】
システムであって、
上部及び下部を有するラックサーバと、垂直に配置された複数の計算ノードであって、該複数の計算ノードが、前記上部と下部との間に間隔をおいて配置され、前記ラックサーバが、前記上部と下部との間のほぼ中間に位置付けられた、ラックの中央(MOR)スイッチを更に含み、該MORスイッチが、ポートの第1のセット及びポートの第2のセットを含む、複数の計算ノードと、
前記ポートの第1のセットと前記複数の計算ノードとの間に延在する、複数の第1のパッシブケーブルであって、前記複数の計算ノードのそれぞれが、前記第1のパッシブケーブルのうちの少なくとも1つを介して、前記MORスイッチに接続され、前記複数の第1のパッシブケーブルが、非ゼロ復帰(NRZ)エンコードを使用して、56Gbpsデータレートをサポートするように構成されている、複数の第1のパッシブケーブルと、
前記ラックサーバの上側部分上に位置付けられた、電気−光パネル(EOP)であって、該EOPが、複数のパッシブポートと共に構成されている、電気−光パネル(EOP)と、
前記複数のパッシブポートと前記ポートの第2のセットとの間に延在する、複数の第2のパッシブケーブルと、を備える、システム。
【請求項2】
前記EOPが、複数のアクティブポートを含み、該アクティブポートのそれぞれが、電力及び高速電気信号を提供するように構成されている、請求項1に記載のシステム。
【請求項3】
前記複数のパッシブポートのうちのそれぞれ1つが、前記複数のアクティブポートのうちの1つに接続されている、請求項2に記載のシステム。
【請求項4】
前記複数のパッシブポートのそれぞれが、前記EOP内に位置付けられたスイッチに接続され、前記複数のアクティブポートのそれぞれが、前記スイッチに接続され、該スイッチが、前記アクティブポートと前記パッシブポートとの間で信号を方向付けるように構成されている、請求項2に記載のシステム。
【請求項5】
前記複数のパッシブケーブルのうちの前記パッシブケーブルのそれぞれが、約1.5メートル以下の長さである、請求項1に記載のシステム。
【請求項6】
サーバボックスであって、
前面を有するボックスであって、前記前面が、空気入口、及び前記空気入口から離れて位置付けられた複数のポートを含む、ボックスと、
前記前面に実質的に平行に整列された回路基板であって、該回路基板が、嵌合側及びチップ側、並びに前記空気入口と整列された開口部を有し、複数のコネクタが、前記嵌合側上に取り付けられ、前記ポートと整列され、スイッチチップが、前記チップ側上に取り付けられている、回路基板と、
前記スイッチチップに熱結合された、熱モジュールと、
前記空気入口と整列された空気流マニホルドであって、前記空気流マニホルドが、前記空気入口から空気を、空気経路を通じて前記熱モジュールの上に方向付けるように構成されており、前記空気経路が、前記空気入口から入ってくる空気の方向を変化させる、空気流マニホルドと、を備える、サーバボックス。
【請求項7】
制御面は、前記回路基板に取り付けられ、前記熱モジュールが、前記制御面と前記空気流マニホルドとの間に位置付けられ、その結果、前記空気経路が、前記制御面を介して前記熱モジュールを通過する空気を方向付けるように構成されている、請求項6に記載のサーバボックス。
【請求項8】
電力面が、前記回路基板に取り付けられ、前記熱モジュールが、電力パネルと前記空気流マニホルドとの間に位置付けられ、その結果、前記空気経路が、前記電力面を介して前記熱モジュールを通過する空気を方向付けるように構成されている、請求項6に記載のサーバボックス。
【請求項9】
前記スイッチチップが、前記複数のポート内の前記ポートのそれぞれから10cm以下にある、請求項6に記載のサーバボックス。
【請求項10】
前記ポートが、前記スイッチチップの2つの側面上に配置されている、請求項9に記載のサーバボックス。
【請求項11】
前記ポートが、前記スイッチチップの4つの側面上に配置されている、請求項10に記載のサーバボックス。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願)
本出願は、2017年2月14日に出願された米国仮特許出願第62/458,887号に対する優先権を主張する。
【0002】
(発明の分野)
本開示は、サーバアーキテクチャの分野に関し、より具体的には、サーバルーム内のサーバのラックの構成に関する。
【背景技術】
【0003】
1つの典型的なコンピューティング構成では、クライアント及びサーバが存在する。一般に、クライアント及びサーバは、同じボックス内にあるように、互いに近接して位置付けされてもよく、又はクライアントが1つのボックス内に入れられ、サーバがいくらかの距離をとって離れて位置付けされた別のボックス(多くの場合、別の部屋又は異なる建物、場合によっては、異なる都市又は国又は大陸)内に位置付けされるように、間隔をおいて位置付けされてもよい。クライアント及びサーバが互いに近接して位置付けされたことにより、クライアントとサーバとの間の待ち時間が低くなるが、サーバが複数のクライアント間で共有されることを困難にし、多くの場合、サーバの過少利用をもたらす。加えて、サーバが集中的な計算を実行している場合、より多くの電力がローカルで必要になる(これは、明らかにモバイルデバイスの問題である)。したがって、効率及びコストのために、サーバをサーバファームに設置することが、ますます一般的になっている。
【0004】
ネットワークを介したサービス提供の増加のこの一般的な傾向をサポートするために、並びにサービス提供されたコンピューティングサービスに依存する多数のモバイルデバイスをサポートするために、サーバの使用は実質的に増加している。サーバの数の劇的な増加は、大規模なコンピューティングサービスプロバイダが、サーバで満たされた大規模な施設を設計及び保守する状況につながっている。これらの施設は、サーバファームとして知られることもあり、数百又は数千平方メートルのサーバを収容する場合がある。
【0005】
理解され得るように、そのような施設を管理することは困難なタスクである。このような大規模な施設を有することは、サーバが適切にプロビジョニング、保守、及び交換され得るように、いくつかの論理的な組織の使用を必要とする。機械的ロジスティクスに加えて、計算ロジスティクスも考慮しなければならない。様々なクライアントがサーバへの入力を提供し、サーバはいくつかの量の計算作業(例えば、タスク)を実行し、次いでサーバはクライアントに応答を提供する。アーキテクチャ的に言えば、リソースを効率的に管理して、入力を受信するための帯域幅を確保するために、必要な計算を実行し、出力を提供することは、全体的なワークロードのバランスをとるように構成される必要がある。
【0006】
図1A及び
図1Bは、このような一般的な構成の1つを示す。サーバのラックは、施設内に位置付けされる。各ラックの上部にはスイッチがあり、一般にラックの上部スイッチ又はTORスイッチと呼ばれる。このTORスイッチは、アクティブな光接続を介して、100メートル以上離れ得るいくつかの入力ポイント(スパインと呼ばれることもある)に接続される。TORスイッチはまた、パッシブ銅ケーブルを介して、計算ノード(サーバとして機能することができる)に接続される。
【0007】
1つの一般的な構成は、QSFP型レセプタクルを、TORスイッチ内で使用することである。例えば、QSFPレセプタクルは、TORスイッチとスパインとの間、及びTORスイッチと計算ノートとの間で通信するように構成されている。TORスイッチからスパインに向かうQSFPレセプタクルの場合、QSFPレセプタクルは、電気信号を光信号に変換し、次いで、それらの信号を光ファイバの上で送信する、アクティブ光学モジュールを受容する。TORスイッチと計算ノードとの間の距離がはるかに短いため、TOWスイッチと計算ノードとの間に、安価なパッシブ銅ケーブルを使用することができる。各QSFPコネクタは、4つの双方向チャネルを有し、したがって、QSFPプラグコネクタは、4つのSFP型コネクタ(それぞれ1つの双方向チャネルを有する)に分割される場合がある。したがって、32ポートスイッチでは、8ポートがスパインに向けられ、24ポートが計算ノードに向けられている。理解され得るように、このようなスイッチは、スイッチとスパインとの間の接続のオーバーサブスクリプションを3:1にする。具体的には、スイッチと計算ノードとの間の帯域幅は、スイッチとスパインとの間の帯域幅の3倍である。実際には、そのような比率は、計算ノードを依然として効果的にサポートしつつ、通信チャネルの合理的なバランスのとれた利用をもたらす傾向があり、したがって広く採用されている。
【0008】
しかしながら、現在の構成では問題が存在する。1つの問題は、データレートが、28Gbps〜56Gbps(NRZ符号化を使用)及び112Gbps(PAM4符号化を使用)に増加すると、現在のTORスイッチが現在の構成のサポートに問題を有することである。具体的には、最長ケーブルの長さは約2.5メートルと予想されるため、TORスイッチからラックの下部にある計算ノードへのパッシブケーブルアセンブリは、前方誤り訂正(FEC、forward error correction)を使用しないとサポートが困難になる。FECの使用は、実質的な追加のエネルギーをもたらし、したがって、大規模なサーバファームにおけるエネルギー消費を、実質的に増加させる。加えて、現在のQSFP接続は、より高速のパッシブケーブルリンクをサポートするには不十分である可能性が高い。結果として、特定の個人は、改善されたサーバラック構成を高く評価するであろう。
【発明の概要】
【課題を解決するための手段】
【0009】
複数の計算ノードを提供するためのサーバラックシステムは、ボックスのラックを含み、各ボックスは、1つ以上の計算ノードをサポートする。計算ノード(プロセッサであり得る)は、ラックの中央(MOR、middle of the rack)スイッチに接続されており、それにより、MORスイッチと計算ノードとの間のケーブル長を短くすることができる。MORスイッチは、光ケーブルに直接接続されてもよく、又は電気信号の光信号への変換を可能にする、電気−光パネル(EOP、electrical to optical panel )に接続されてもよい。EOPはスパインと通信し、いくつかの実施形態では、他のEOPと通信してもよい。MORスイッチをEOPと組み合わせて使用することは、改善された熱管理を可能にし、更に隣接するサーバとスパインとの間の通信経路の更なる柔軟性を可能にする。
【図面の簡単な説明】
【0010】
本開示は、例として示され、添付図面に限定されるものではなく、ここにおいて、同様の参照番号は類似の要素を示す。
【0011】
【
図1A】先行技術のサーバラック構成を示す概略図である。
【
図1B】
図1Aに示される先行技術のサーバラック構成を示す別の概略図である。
【
図2A】ラックの中央(MOR)スイッチを有するサーバラックの一実施形態を示す概略図である。
【
図2B】
図2Aに示されるサーバラック構成を示す別の概略図である。
【
図3A】MORスイッチ及び電気−光パネル(EOP)を有するサーバラックの一実施形態を示す概略図である。
【
図3B】
図3Aに示されるサーバラック構成を示す別の概略図である。
【
図4A】MORスイッチ及びEOPを有するサーバラックの別の実施形態を示す概略図である。
【
図4B】
図4Aに示されるサーバラック構成を示す別の概略図である。
【
図5】MORスイッチの一実施形態を示す概略図である。
【
図7】先行技術のスイッチ構成の一実施形態の特徴を示す図である。
【
図8】先行技術のスイッチ構成の一実施形態の特徴を示す図である。
【
図9】先行技術の回路基板構成の特徴を示す図である。
【
図10】MORスイッチの一実施形態を示す概略図である。
【
図13】スイッチチップに隣接する回路基板上に取り付けられたコネクタを示す概略図である。
【
図14】スイッチチップに隣接する回路基板上に取り付けられたコネクタを示す別の概略図である。
【
図15】挿入損失が低減されたMORスイッチの一実施形態を示す概略図である。
【
図16】挿入損失が低減されたスイッチの一実施形態を示す概略図である。
【
図17A】ストレインリリーフブロック構成の一実施形態を示す概略図である。
【
図17B】ストレインリリーフブロック構成の別の実施形態を示す概略図である。
【
図19】スイッチを有するEOPの一実施形態を示す概略図である。
【
図20】2つの隣接するラックサーバの一実施形態を示す概略図である。
【
図21】2つの隣接するラックサーバの一実施形態を示す概略図である。
【
図22】2つの隣接するラックサーバの別の実施形態を示す概略図である。
【
図23】2つの隣接するラックサーバの別の実施形態を示す概略図である。
【
図24】2つの隣接するラックサーバの別の実施形態を示す概略図である。
【発明を実施するための形態】
【0012】
以下の詳細な説明は、例示的な実施形態を説明し、開示される特徴は、明示的に開示された組み合わせ(複数可)に限定されることを意図するものではない。したがって、特に明記しない限り、本明細書で開示される特徴は、簡潔にするために別様に示されていない追加の組み合わせを形成するために、一緒に組み合わされてもよい。
【0013】
図2A及び
図2Bから理解され得るように、サーバラック40の一実施形態が開示される。サーバラック40は、複数のボックス(典型的には、1U又は2Uサイズであるが、他のサイズもまた適切である)を含み、各ボックスはいくつかの計算ノードを提供する。計算ノードは、本質的に不均質又は均質であり得、限定するものではないが、1つ以上のFPGA、CPU、コントローラ、ASIC、DSP及び/又はGPUなどの様々な既知の構造を含み得る。各計算ノードは、いくつかの種類の計算能力を提供するように構成され、異なる計算ノードは、意図される使用に応じて異なる能力を有することができる。
【0014】
理解され得るように、
図2Aに示される構成は、
図1Aの先行技術の設計と同様であるが、ラックの中央(MOR)スイッチ70を含んでいる。このような構成により、MORスイッチ70と計算ノード50との間に延在するケーブル55(好ましくは、パッシブ銅ケーブルであろう)を短くして、ケーブル55の最長の長さが約1.5mになるようにすることができると決定された。このような最大長さにより、サーバラックは前方誤り訂正(FEC)なしで機能できることが期待される。
【0015】
MORスイッチ70は、TORスイッチと共に従来使用されている1つ以上の光ケーブル35(光ケーブルはそれぞれ、1つ以上の光ファイバを含む)を介して、ケーブルプラント30(時々スパインと呼ばれることがあり、特定の施設の編成方法に応じて幅広い構成を有することができる)に接続されている。1つの潜在的な問題は、光ケーブル35が、TORスイッチの位置付近に十分な緩みを含まない場合には、光ケーブル35をMORスイッチ70に延在させることが困難であり、新たな光ケーブルを引く必要があり得ることである。当然のことながら、新たな光ケーブルを引くことは、そのような設計のコスト効果を低減する傾向がある。しかしながら、特定の状況では、
図2Aの構成が実現可能であることが予想される。所望であれば、
図16に示される要素(以下に開示される)などの追加の特徴もまた、MORスイッチ70に追加することができる。
【0016】
サーバファームの電力を大幅に削減できるFECの削除に加えて、正味の効果はケーブル全体の長さを低減することに留意されたい。したがって、描写された設計は、ケーブル部分のコスト削減を提供するべきである。
【0017】
図3A及び
図3Bは、MORスイッチ170を含む、上部140a及び下部140bを有するサーバラック140の別の実施形態を示す。MORスイッチ170は、上部140aと下部140bとの間に位置決めされ、上部140aと下部140bとの間のほぼ中間に位置決めされることが好ましい。図示の実施形態では、MORスイッチ170は、電気−光スイッチを含まない。その代わりに、電気−光パネル(EOP)180がラックの上部上に設けられている。EOP180は、ラックの上部上に位置決めされることが最も望ましいと予想されるが、ラックの上部付近にEOP180を位置決めする(例えば、ラックサーバ内ではあるがラックの上部に隣接して位置付けされる)ことも企図されることに留意されたい。MORスイッチ170は、2メートルより短い(潜在的に約1.5メートル以下である)ケーブル55を用いて、計算ノード50に接続される。MORスイッチ170は、パッシブケーブル(長さ約1.5メートルであり得る)を介して、EOP180に接続され、その際、EOPは、1つ以上の光ケーブル35を介して、ケーブルプラント30に接続されている。
図3Bから理解され得るように、場合によっては、MORスイッチ170内のポートよりも多くの計算ノードが存在する。問題を処理するために、ケーブルは、MORスイッチ170における4Xインターフェースと、計算ノードにおける1Xインターフェースとを含むことができる。計算ノード及びポートの数に応じて、この比は、QSFPコネクタとSFPコネクタの4:1の比とは異なるものに変更することができる。
【0018】
理解され得るように、
図3Aに示される描写された設計の利点のいくつかは、エネルギー消費に関する。パッシブケーブルの長さの低減は、システムがFECなしで高いデータレートをサポートすることを可能にし、好ましくは、方向チャネルごとに少なくとも56Gbpsをサポートすることを可能にし、より好ましくは、方向チャネルごとに112Gbpsをサポートすることを可能にする。更に、EOPの使用は、光学モジュールが著しい量の熱エネルギーを発生させる傾向があるため、改善された熱管理を可能にする。MORスイッチから光モジュールを分離することによって、全ての構成要素を熱的観点から適切に管理することを確実にすることが、はるかに容易になる。
【0019】
図4A及び
図4Bは、
図3A及び
図3Bに示す構成と同様の構成を有する、ラックサーバ240を有する別の実施形態を示す。
図3Aに示す実施形態と同様に、ケーブルプラント30は、光ケーブル35を用いて、EOP280に接続されている。EOP280は、次に、ケーブル257を用いて、MORスイッチ270に接続されている。次いで、MORスイッチ270は、ケーブル255を用いて、計算ノードに接続されている。理解され得るように、主な違いの1つは、QSFP及びSFPコネクタが、次世代コネクタと置き換えられ、したがってケーブル255及びケーブル257が使用されることである。QSFP及びSFPコネクタは数年間使用されてきたが、それらの基本構造は高いデータレートに対して最適以下であり、したがって、非ゼロ復帰(NRZ、non-return to zero)エンコードを使用して56Gbpsデータレートを、またPAM4エンコードを使用して112Gbpsデータレートをサポートするのにより適した、次世代コネクタを使用することがより望ましい。
【0020】
図5は、MORスイッチ170などのMORスイッチのブロック図を示す。典型的には、MORスイッチは1Uボックスとして構成され、そのような構成は企図されるが、全ての場合に必要なわけではない。多数の特徴を追加することができるが、上述のように、この設計の1つの潜在的な利益は、電気−光変換がMORスイッチから移動できることである。これにより、廃熱が大幅に削減され、MORスイッチの冷却がより効果的になる。図示された実施形態には、計算ノードにつながる24個のコネクタポートを含むEOPにつながる8個のコネクタポートがあるが、特に既存のQSFP型コネクタよりもコンパクトな次世代コネクタを使用する場合、他の数の接続が可能である。しかしながら、MORスイッチがスパインに直接接続されることが意図されている場合(例えば、
図2Aに示すように)、アップリンクコネクタは適切に構成され、追加の冷却が必要となる可能性がある。
【0021】
EOP180などのEOPの概略図を
図6に示す。EOPは、比較的効率的に作製することができるが、1つの著しい利益は、廃熱エネルギーをMORスイッチから遠ざけることができる能力である。標準的なスイッチアーキテクチャでは、ポートが送受信機モジュールを受容することが不明であるため、全てのポートに電力が供給される。しかしながら、EOPでは、送受信機モジュールを受け入れることができるポートは既知であり、したがって、送受信機を受容しないポートに電力を供給しないことによって、いくらかの浪費電力を回避することができる。加えて、理解され得るように、集中した熱は、ラック構成で冷却することが難しくなり、スイッチのすぐ隣に光送受信機を設置することは、単一のボックス内の熱負荷を増加させる。図示されたEOPは、電気信号をより長い遷移長さに好適な光信号に変換する廃熱エネルギーを生成する、電気−光モジュールを受け入れるQSFPポートを更に含むことができる。しかしながら、それらをMORスイッチから遠ざけて位置付けすることによって、熱負荷を管理することがより容易になる。当然のことながら、MORスイッチから離れて熱を移動させることにより、MORスイッチの信頼性の向上及び性能の向上も可能になる。また、EOPは電気信号を光信号に直接変換することができ、別個の電気/光送受信機モジュールが不要になることに留意されたい。このような状況では、EOPは、QSFPレセプタクルなどのより従来のポートの代わりに、EOPをケーブルプラント又はスパインに接続することを可能にする、ルーセントコネクタ/物理的接触(LC/PC、Lucent Connector/Physical Contact )コネクタなどの標準的な光ファイバコネクタを含むことができる。
【0022】
図7〜
図9は、従来のスイッチアーキテクチャを示す。具体的には、ポート355は、ボックスの前面上又は前面に設けられ、スイッチングタスクを実行するチップ310を含むチップパッケージ315への接続を提供する、回路基板320上に取り付けられたコネクタによって形成される。動作中、空気は、典型的には、前面330と後面334(側壁332を越える)との間に方向付けられる。このような設計により、チップ310上に取り付けられたヒートシンク312の上を空気が通過する(したがって、熱問題に対処する)ことを可能にするが、チップと外部ポートとの間の物理的距離により、外部ポートのための長いトレース経路を作り出す。既知のように、回路基板は、高周波数信号をかなりの長さにわたってルーティングするのに最適ではなく、図示された設計は、より長い距離を延在するトレースのためのシステムの信号完全性を低下させる。結果として、外部ポートのパフォーマンスは、アセンブリ全体のパフォーマンスを制限する。
【0023】
図10〜
図14は、低コストの回路基板材料の使用を維持しながら、性能の向上を可能にする代替的な実施形態を示す。具体的には、より小さい次世代コネクタを使用することにより、コネクタ436を用いて、ポート435がボックス400の前面430の一部分のみにグループ化されることを可能にする。小型コネクタ436は、嵌合側420a及びチップ側420bを有する回路基板420上に垂直に取り付けられ得、回路基板420は、前面430と実質的に平行になるように配置される。このような構成では、回路基板420は、前面から背面への空気流を直接遮断する。しかしながら、コネクタ436のサイズにより、ポート435をグループ化しても、十分に大きなサイズであり、かつ回路基板420の開口部421と整列する空気入口407を、ボックス400の片側に提供することが可能である。空気入口407は、空気が空気流マニホルド408に流れることを可能にし、空気流マニホルド408は、次に、スイッチングチップ410を冷却するのを助けるために使用される熱モジュール415(例えば、ヒートシンク)にわたる空気経路409に通じるように、空気を方向付ける。理解され得るように、空気経路409は、空気入口407内に方向付けられている空気の方向の変化を提供し、一実施形態では、方向の変化は約90度である。制御面440及び電力面450(どちらも小型回路基板として提供され得る)は、回路基板の一方の側に位置付けられてもよく、その結果、熱モジュール415を通過する空気はまた、冷却を使用することができる各ボード上の任意の構成要素を冷却することができる。一実施形態では、電力面450及び制御面440のうちの1つは、熱モジュール415の上方に位置付けられてもよく、電力面450及び制御面440のうちの別の1つは、(
図12から理解され得るように)ボックス400の側部400aから見たときに、熱モジュール415の下方に位置付けられ得る。
【0024】
ボックスの前面のポート435のサイズ及び配向により、スイッチチップ410をポート435のそれぞれに対してより等距離に位置付けることが可能であり、可能な配置が
図13及び
図14に示されている。ポート435の構成に応じて、スイッチチップ410は、ポートがスイッチチップ410の2つの側面、又は場合によっては最大4つの側面(
図13に示すように)上に位置付けられるように位置付けられ得る。合計距離は、20cm(又はそれ以上)〜約10cm(又はそれ以下)まで低減することができる。その結果、図示された設計は、(スイッチチップと先行技術の設計の対応するコネクタとの間で10cmを超えて延在するトレースと関連付けられた損失のため)他の方法では不適切であろうボード材料を、高いデータレートにより適したものにする可能性がある。
【0025】
図15〜
図17Bは、別の様式で回路基板の損失に伴う問題に対処する、スイッチシステム(MORスイッチ又はTORスイッチとすることができる)の一実施形態で使用することができる特徴を示す。スイッチ170’は、信号を送受信するように構成されたチップ510をサポートする、(任意の所望の好適な材料から形成され得る)回路基板520を含む。コネクタ560は、チップ510に隣接して位置決めされる。ケーブル575は、前面530から延在し、そのケーブルは、コネクタ(任意の所望の構成であり得る)580内で終端する。したがって、理解され得るように、ポートにチップを近づけようと移動するのではなく、コネクタ560はチップ510に隣接して位置決めされ、コネクタ560はケーブルアセンブリに直接接続されている。そのような実施形態では、回路基板520(又は性能の更なる改善のためにコネクタ560が基板に直接取り付けられた場合に基板)からケーブルへの最初の遷移(直接的又は回路基板上に取り外し不可能に取り付けられたコネクタ内の端子の使用を介してのいずれか)を有することが可能である。ケーブル575は、スイッチ170’の前面530から延在し、コネクタ580を介して計算ノードに直接的に接続することができる。
【0026】
理解され得るように、このような構成は、チップ510と、ボックスの前面に差し込まれるケーブル575との間の少なくとも2回の遷移を回避する。各遷移は、ある程度の挿入損失を本質的にもたらし、したがって、図示された設計は、従来の設計と比較して、チップ510とケーブル575の端部上のコネクタ580との間の損失の低減を可能にする。したがって、このような実施形態は、全体的なシステム損失を著しく低減することができる。
【0027】
しかしながら、そのような構成による1つの問題は、ケーブル575が適切なストレインリリーフ保護を有すること(又はケーブルに適用される任意の力が、潜在的にシステムを損傷するコネクタ560に適用されること)を確実にする必要があることである。ケーブル575は、ストレインリリーフブロック570がボックスの前面530を越えたケーブルの並進を防止することにより、前面を過ぎる過度の並進から保護され得る。したがって、示される実施形態は、チップ510(チップパッケージであってもよい)とボード520(基板とすることができる)との間、ボード520とコネクタ560内の端子との間、コネクタ560内の端子とケーブル575内の導体との間、及びケーブル575内の導体とコネクタ580内の端子との間の遷移を可能にし、遷移の数を大幅に低減する。当然のことながら、コネクタ560はまた、損失のわずかな増加だけでなく、可撓性の有意な改善を伴って、チップ510に隣接して位置付けられたボード装着型コネクタに取り付けられるように構成され得る。
【0028】
ストレインリリーフブロック570は、様々な構成を有することができる。例えば、
図17Aに一実施形態が示されており、ここにおいて、ストレインリリーフブロック670は、ケーブル(複数可)675上に成形され、ストレインリリーフブロック670は、前部部材632のスロット633内に挿入され(対応するボックスの前面630を提供することができるか、又は前面の内部に位置付けられ得る)、スロット633内に保持される。ストレインリリーフブロック670が一方向からのみ挿入され得るようにスロット633を構成することによって、保持を提供することができ、その場合、ストレインリリーフブロックがスロット633から抜け出るのを防止するために、カバーを提供することができる。理解され得るように、このような設計により、特定のケーブル(又は複数のケーブルが同じストレインリリーフブロックを共有する場合のケーブルのセット)を除去することを可能にし、その結果、より高いレベルの性能を提供しながら、スイッチが依然として回復可能である。
【0029】
別の実施形態では、複数のケーブル775を、前部部材732の後方に置くように構成されたストレインリリーフブロック770に成形することができる。このような実施形態では、前部部材732のスロット734は、ケーブル775が前部部材732を通じて延在することを可能にする。当然のことながら、単一のケーブル735はまた、各ケーブルが別個のブロックに成形されたように、別個のストレインリリーフブロック770に成形されてもよい。主要な要件は、対応するブロックが十分に大きく、ケーブルに十分に確実に固定され、ケーブルの遠位端にかかる力がストレインリリーフブロック770に効果的に伝達されることを確実にすることである。
図17A及び
図17Bの両方において提供される実施形態では、ストレインリリーフを提供するストレインリリーフブロックは、導電性プラスチックで形成されてもよく、又は好適なEMI保護を提供するのに役立つようにめっきされてもよい。
【0030】
ストレインリリーフの代替的な実施形態は、ケーブル上に2つの要素をクランプさせるように構成され得ることに留意されたい。例えば、別の実施形態(図示せず)では、ボックスの2つの対向する側面が一緒に押圧され、1本以上のワイヤを捕捉することができる。したがって、ストレインリリーフのための広範な可能な構造が可能であり、企図される。
【0031】
図18及び
図19は、EOPの実施形態の概略図を示す。
図18では、各電気ポートは、電気/光送受信機を受容するように構成されたポートに、直接的に接続されている。QSFP型コネクタが示されている(及び比較的一般的である)が、任意の適切なフォームファクタを提供することができることに留意されたい。また、光ケーブルアセンブリが標準的な光コネクタである場合、光ポートは、限定するものではないが、LC/PCコネクタなどの標準の光コネクタポートであり得、
図18のスイッチは、各光コネクタを対応する電気ポートに結合するように構成された、電気−光送受信機(又は送受信機のセット)を含むことができることに留意されたい。
【0032】
理解され得るように、
図18の実施形態と
図19の実施形態の主な違いは、
図19の実施形態が、
図23に示されるような機能を可能にするスイッチを含むことである。加えて、2つのEOP間の通信を可能にするために、いくつかのEOPイースト/ウエスト(E/W、east/west )ポートを提供することができる。ほとんどのサーバラックが他のサーバラックに比較的近接して位置決めされるため、EOP E/Wポートは、電気的であり、かつ電力を供給される必要がなく、したがって、短い接続ケーブルで十分であることが予想される。特定のワークロードが少し離れた2つのEOP間の接続を持つことが理にかなっている場合、EOP E/Wコネクタが、電気/光送受信機モジュールの電源ポート(又は更に内部電気−光信号変換器を備えたLC/PCコネクタなどの純粋な光コネクタとして)を提供するように構成されてもよい。
【0033】
図20から理解され得る1つの問題は、横方向通信(例えば、2つの隣接するサーバラック間の通信)に6ホップかかることであり、ここにおいて、ホップは、2つの媒体間の遷移(光信号から電気信号など)、及び/又はチップ(スイッチチップなど)の通過である。隣接するラック内のサーバ間で横方向に通信することが望まれる状況では、この構造は、著しい機械的遅延を作り出す。
図21〜
図23は、この問題に対処する方法を示す。
図21は、スパインへのリンクのうちの1つをとり、代わりにそれを隣接するEOPにルーティングする。これにより、1ホップの削減が可能になる(ただし、オーバーサブスクリプションを3.4:1の比率に増やすことはできる)。
図22は、オーバーサブスクリプションが依然として3.4:1であるが、隣接するラック内の計算ノード間に3ホップしか存在しない一実施形態を示す。理解され得るように、このような構成は、隣接するサーバ間での待ち時間の低減を可能にし、コンピューティングタスクが高レベルの並列処理の利益を受ける状況、又は両方のラックがコンピューティングプロジェクト上で作業しており、全てのタスクを1つのサーバラックに適合させることができない状況で望ましい場合がある。
【0034】
図23は、追加の柔軟性を提供するが、EOPの複雑性を増加させる。EOPにスイッチを組み込むことにより、所望の3:1のオーバーサブスクリプション比を依然として維持しながら、隣接するサーバ間のホップの数を6に維持することができる。
図23の実施形態の1つの潜在的な有意な利益は、信号のより柔軟なルーティングを可能にすることである。例えば、1つのサーバラックが大量の応答を提供する場合、応答の一部を隣接するEOPに向けることができ、潜在的に、オーバーサブスクリプション比(少なくとも短期間)を、2:1まで下げる可能性がある。当然のことながら、このようなアーキテクチャは、EOP/MORにプログラムされた十分な柔軟性が存在し、及び/又は、ワークロードがこれにより利益を受けるシステムに最も有益である。
【0035】
図24は、提供され得る更なる柔軟性を有する更なる実施形態を示す。理解され得るように、サーバとMORスイッチとの間の接続数は、依然として計算ノードの数と同じであるが(各計算ノードがMORと直接通信することが望ましいため)、隣接するMORスイッチも互いに通信することができる。加えて、隣接するEOPは、互いに通信することができる。ほとんどの場合、Mリンク又はPリンクのいずれかが使用されることが予想されるが(多くの場合、両方は必要ではない)、最大接続性及び柔軟性が望ましい場合には、両方を使用することができる。
【0036】
加えて、2つの隣接するラックサーバの計算ノードは、単一のホップを使用して互いに直接通信することができ、接続N、M、B、P、及びCの数は、様々なシナリオを行うことができるように変更され得る。理解され得るように、このようなシステムは、柔軟性に有意な利益を有する。サーバを直接一緒に接続することにより、追加の計算能力を使用して、最小の待ち時間(1ホップ)でタスクに対処することができる。したがって、結果として、計算ノードを組み合わせることができ、次いで、経路の組み合わせを介して、情報をスパインに送信することができ、利用可能な帯域幅を最大限に活用できる柔軟な構成になる。
【0037】
1つの実施形態では、2NはAに等しくてもよく、そのため1つのサーバラック内の計算ノードのそれぞれは、1ホップ離れた隣接するサーバ内の計算ノードにリンクすることにより、(ラックサーバの両側が同様のラックサーバに囲まれていると仮定して)本質的にパフォーマンスを2倍にすることができる。典型的に、Aリンクの数はBリンクの数より多い(多くの場合、3:1比)ため、図示された構成は、Mリンク(これはBリンクと同じ数のリンクである可能性があるが、MORスイッチで予想される空間の制約を考えると、より少ない量になる可能性が高くなる)を介して、MORスイッチから隣接するMORスイッチに情報を拡散することを可能にする。Mリンク及びPリンクの数が、MORスイッチ及び/又はEOP内の利用可能な空間を容易にするために低く保たれる場合、MリンクとPリンクとの組み合わせを使用して、本質的に1:1の比を提供することができる(したがって、オーバーサブスクリプションは存在しない)。しかしながら、そのような構成は、追加の帯域幅が追加されるときに、計算ノードとスパインとの間の経路に1つ以上のホップを追加するため、このような追加の帯域幅の追加が望ましいかどうかは、計算ノードでの追加パフォーマンスの必要性と対比した、クライアント(スパインの外部にある可能性がある)と計算ノードとの間の待ち時間に対するアプリケーションの感度に依存することに留意されたい。
【0038】
本明細書で提供される開示は、その好ましい実施形態及び例示的な実施形態の観点から特徴を説明する。添付の特許請求の範囲の範囲及び趣旨内での多数の他の実施形態、修正及び変形は、当業者に想起されるであろう。