IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オプレア ダンの特許一覧

特許7212647コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-17
(45)【発行日】2023-01-25
(54)【発明の名称】コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置
(51)【国際特許分類】
   G06F 13/14 20060101AFI20230118BHJP
   G06F 13/38 20060101ALI20230118BHJP
   G06F 3/00 20060101ALI20230118BHJP
   G06F 13/40 20060101ALI20230118BHJP
   G06F 13/36 20060101ALI20230118BHJP
   G06F 1/18 20060101ALI20230118BHJP
   H04L 12/44 20060101ALI20230118BHJP
   H04L 49/111 20220101ALI20230118BHJP
【FI】
G06F13/14 330A
G06F13/38 350
G06F3/00 A
G06F3/00 V
G06F3/00 T
G06F13/38 320Z
G06F13/40 310
G06F13/36 530Z
G06F1/18 E
H04L12/44
H04L49/111
【請求項の数】 4
【外国語出願】
(21)【出願番号】P 2020101405
(22)【出願日】2020-06-11
(62)【分割の表示】P 2016537055の分割
【原出願日】2014-08-29
(65)【公開番号】P2020173822
(43)【公開日】2020-10-22
【審査請求日】2020-06-22
(31)【優先権主張番号】61/871,721
(32)【優先日】2013-08-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】516061399
【氏名又は名称】オプレア ダン
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100176418
【弁理士】
【氏名又は名称】工藤 嘉晃
(72)【発明者】
【氏名】オプレア ダン
【審査官】田名網 忠雄
(56)【参考文献】
【文献】特開平06-035875(JP,A)
【文献】特開2011-141803(JP,A)
【文献】米国特許出願公開第2008/0307082(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 1/00
G06F 1/16-1/18
G06F 3/00
G06F 13/10-13/14
G06F 13/38-13/42
G06F 15/16-15/177
H04L 12/44
H04L 49/111
(57)【特許請求の範囲】
【請求項1】
トーラス又はそれよりも高基数の相互接続構造に実装された互接続ネットワークの配線及び成長を管理する方法であって、
最初に前記相互接続ネットワーク内の1以上の接続を閉じるために、各々に相互接続プラグを有する複数のコネクタを有する受動パッチパネルを実装するステップであって、
前記受動パッチパネルは、受動バックプレーンを含み、
前記受動バックプレーンは、複数のコネクタのフィールドを含み、
前記複数のコネクタのフィールドは、
1以上の次元で相互接続ネットワーク実装ためのコネクタの主フィールド、及び
以上の追加の次元で前記相互接続ネットワークの拡張を可能にするネクタの2のフィールドを含む、ステップと、
前記コネクタの主フィールドにおける1つのコネクタから相互接続プラグを取り外し、前記相互接続プラグを、ノードに取り付けられた接続ケーブルと交換して、前記ノードを前記相互接続ネットワークに追加するステップと、
前記相互接続ネットワークに対する前記ノードの接続性を発見するステップと、
前記相互接続ネットワークのトポロジを発見するステップと、
を含むことを特徴とする方法。
【請求項2】
前記コネクタの2のフィールドにおける1つのコネクタから相互接続プラグを取り外し、前記相互接続プラグを、の受動パッチパネルに取り付けられた接続ケーブルと交換して、1以上の追加の次元で前記相互接続ネットワークを拡張するステップと、
前記相互接続ネットワーク内のノードの接続性を発見するステップと、
前記相互接続ネットワークのトポロジを発見するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
トーラス又はそれよりも高基数の相互接続ネットワークの実装において使用する受動パッチパネルであって、
受動バックプレーンを含み
前記受動バックプレーンは複数のコネクタのフィールドを含み
前記複数のコネクタのフィールドは、
1以上の次元で相互接続ネットワーク実装ためのコネクタの主フィールド、及び
以上の追加の次元で相互接続ネットワークの拡張を可能にするネクタの2のフィールド
を含み、
前記コネクタの主フィールドにおける各コネクタは、最初に前記トーラス又はそれよりも高基数の相互接続ネットワークの1以上の接続を閉じるために、相互接続プラグによって装着され、
前記相互接続プラグの各々は、ノードを前記相互接続ネットワークに追加するために、前記ノードに取り付けられた接続ケーブルによって取り替えることができ、
前記コネクタの2のフィールドにおける各コネクタは、最初に前記トーラス又はそれよりも高基数の相互接続ネットワークの1以上の接続を閉じるために、相互接続プラグによって装着され、
前記相互接続プラグの各々は、1以上の追加の次元で前記相互接続ネットワークを拡張するために、の受動パッチパネルに取り付けられた接続ケーブルによって取り替えることができる、
ことを特徴とする受動パッチパネル。
【請求項4】
サーバ内に収容され、トーラス又はそれよりも高基数の相互接続ネットワークの実装において使用するための、請求項3に記載の受動パッチパネルのコネクタの主フィールドにおける1つコネクタへのケーブルによる接続性を有するPCIエクスプレス(PCIe)カードであって、
PCIインターフェイスと、
ランダムアクセスメモリ(RAM)と読み取り専用メモリ(ROM)を含むプロセッサと、
ローカルスイッチと、
少なくとも1つのPHYインターフェイスと、
少なくとも2次元のトーラス直接相互接続ネットワーク又はそれよりも高基数の相互接続ネットワークの実装を提供するための少なくとも4つのインターフェイスポートと、
を含み、
前記ローカルスイッチは前記相互接続ネットワーク内のPCIeカード間のパケット交換を提供し、
前記PCIeカードは、ポートからPCIへのトラフィック、ヘアピン型トラフィック、及びadd/dropを伴う通過トラフィックをサポートすることができ
ことを特徴とするPCIeカード。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータネットワークトポロジ及びアーキテクチャに関する。具体的には、本発明は、例えばトーラス又はそれよりも高基数配線構造に実装された直接相互接続スイッチの配線及び成長を管理する方法及び装置に関する。
【背景技術】
【0002】
データセンタ(DC)という用語は、一般に膨大な量の構造化ケーブルによって全てが接続された(多くの場合、設備を収容するラックに収容された)大規模コンピュータシステム及び関連するコンポーネントを収容するために使用される施設を意味する。クラウドデータセンタ(CDC)という用語は、一般にエンティティのデータを同様に記憶する他社運用型施設を意味する。
【0003】
ネットワークスイッチは、ネットワークデバイスを通信/処理の目的でリンクするコンピュータネットワーク装置である。換言すれば、スイッチは、スイッチに接続されているいずれかのデバイスからメッセージを受け取り、メッセージの中継先である特定のデバイスにメッセージを送信できる電気通信デバイスである。ネットワークスイッチは、一般にデータの処理及びルーティングを行うマルチポートネットワークブリッジとも呼ばれる。ここでは、ポートは、スイッチと、スイッチが取り付けられたコンピュータ/サーバ/CPUとの間のインターフェイス(ケーブル又はプラグの差し込み口)を意味する。
【0004】
今日、DC及びCDCは、一般にレイヤ2スイッチの組を用いてデータセンタネットワーキングを実装している。レイヤ2スイッチは、同じローカルエリアネットワーク上のノード(例えば、サーバ)間、又はワイドエリアネットワーク内の隣接するノード間でデータを転送するプロトコル層であるレイヤ2というデータリンク層においてデータを処理してルーティングする。一方で、解決すべき主な課題は、非常に多くの(数千もの)ポートを含む超広集約帯域幅(数百TB)を搬送することができ、最低限の構造及び場所しか必要とせず(すなわち、カードラックを含む数多くのキャビネットを収容するための大部屋の必要性を最小限に抑え)、容易に拡張することができ、消費電力の最小化を支援することができる大容量コンピュータネットワークをいかにして構築するかである。従来のネットワークトポロジの実装は、図1に示すように、階層的ツリー構造で組織化された完全に独立したスイッチに基づく。コアスイッチ2は、スイッチィング容量が非常に大きな超高速の少数ポートである。第2層は、多くのポートを含む中容量スイッチである集約スイッチ4を用いて実装され、第3層は、低速でポート数が多く(40/48)低容量のエッジスイッチ6を用いて実装される。通常、エッジスイッチはレイヤ2であり、集約ポートはレイヤ2及び/又はレイヤ3であり、一般にコアスイッチはレイヤ3である。この実装は、あらゆるサーバ8に、図示の例では最大6ホップリンク(コアスイッチ2までの3ホップと、宛先サーバ8までの3つの下りホップ)のサーバ接続性を提供する。また、このような階層構造は、通常、冗長信頼性のために二重化される。例えば、図1を参照すると、二重化されていなければ、右端のエッジスイッチ6が故障した場合、右端のサーバ8との接続性が存在しなくなる。コアスイッチ2が故障すると、データセンタ全体の接続性障害が生じるので、少なくともコアスイッチ2は二重化される。明らかな理由により、この方法には、将来的なDC又はCDCの課題に対処する上で大きな制限がある。例えば、各スイッチが完全に自己完結型であることにより、複雑性、広い床面積利用、ヒューマンエラーが生じやすい複雑なケーブル配線及び手動スイッチの構成/プロビジョニング、並びにエネルギーコストの増加が加わる。
【0005】
一方で、データセンタにおけるスイッチングの拡張性、信頼性、容量及び遅延を改善する多くの試みが行われてきた。例えば、統合制御プレーン(例えば、Juniper Networks社製のQFabricシステムスイッチ、例えば、http://www.juniper.net/us/en/products-services/switching/qfabric-system/を参照されたい)を用いてさらに複雑なスイッチング解決策を実装する努力が行われてきたが、このようなシステムは、依然として従来の階層アーキテクチャを使用し、これを維持するものである。また、システムユーザの数、並びに記憶し、アクセスし、処理すべきデータ数の急激な増加を考えると、コンピュータネットワークシステムの性能要件を決定する際には、処理能力が最も重要な要素となってきている。サーバ性能は絶えず改善されているが、1つのサーバでは、このニーズを満たすほど十分に強力ではない。このことが、並列処理の使用が最重要になってきた理由である。この結果、大部分がnorth-southトラフィックフローであったものが、現在では、最大80%もの多くの事例において主にeast-westトラフィックフローになってきている。このトラフィックフローの変化に関わらず、ネットワークアーキテクチャは、このモデルに最適となるように進化していない。従って、並列処理通信中のCPU間の相互作用速度を決定するのは、依然として(コンピュータノード(サーバ)を相互接続する)通信ネットワークのトポロジである。
【0006】
east-westトラフィック通信を増加させるニーズは、新しいフラットなネットワークアーキテクチャ、例えばトロイダル/トーラスネットワークの形成をもたらした。
トーラス相互接続システムは、並列コンピュータシステムにおいてネットワークノード(サーバ)をメッシュ状に接続するネットワークトポロジである。トーラストポロジは、ノードを2次元、3次元又はそれよりも多くの(N)次元で配置することができ、この配置では、プロセッサ/サーバが最も近い隣接プロセッサ/サーバに接続され、アレイの反対端のプロセッサ/サーバ同士が接続されたアレイとして視覚化することができる。このように、N次元のトーラス構成では、各ノードが2N個の接続を有する(図2に、3Dトーラス相互接続の例を示す)。トーラストポロジにおける各ノードは、短いケーブルを介して隣接ノードに接続されているので、並列処理中のネットワーク遅延が少ない。実際に、トーラストポロジでは、あらゆるノード(サーバ)に最小のホップ数でアクセスすることができる。例えば、3×3×3×4の構造(108ノード)を実装する4次元トーラスでは、any-to-any接続を提供するために必要なホップ数は平均2.5ホップである。残念ながら、大規模トーラスネットワークの実装は、大規模実装の構築に何年も掛かり、ケーブル配線が複雑であり(各ノードにつき2N個の接続)、拡張が必要な場合に変更コストが掛かり面倒となり得るので、DC又はCDCにおける商用展開には実用的でなかった。しかしながら、処理能力のニーズが商業上の欠点を上回る場合には、スーパーコンピュータにおけるトーラストポロジの実装が非常に功を奏してきた。この点、IBM社のBlue Geneスーパーコンピュータは、64個のキャビネットが65,536個のノード(131,072個のCPU)を収容して数ペタフロップの処理能力を提供する3-Dトーラス相互接続ネットワークの例であり(図3の例示を参照)、富士通(Fujitsu)社のPRIMEHPC FX10スーパーコンピュータシステムは、98,304個のノードを含む1,024個のラックに収容された6-Dトーラス相互接続の例である。上記の例は、トーラストポロジに対応するものであるが、他のフラットネットワークトポロジにも等しく適用可能である。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、DC及びCDCでの商用展開にとって有益かつ実用的なシステム及びアーキテクチャを提供することにより、このような先行技術のネットワークトポロジの欠点を克服しようとするものである。
【課題を解決するための手段】
【0008】
本発明は、1つの態様において、トーラス又はそれよりも高基数の相互接続構造に実装された直接相互接続ネットワークの配線及び成長を管理する方法であって、複数のコネクタを有する少なくとも1つのコネクタボードを含む受動パッチパネルのコネクタの各々に相互接続プラグを実装するステップと、コネクタから相互接続プラグを取り外し、プラグを、サーバ内に収容されたPCIeカードに取り付けられた接続ケーブルに交換して、相互接続構造にサーバを追加するステップと、相互接続構造に対するサーバの接続性を発見するステップと、サーバが相互接続構造に追加されたことに基づいて、相互接続構造のトポロジを発見するステップとを含む方法を提供する。
【0009】
本発明は、別の態様において、トーラス又はそれよりも高基数の相互接続の実装において使用する受動パッチパネルであって、トーラス又はそれよりも高基数の相互接続のノード間接続性を収容する受動バックプレーンと、この受動バックプレーンに接続された、複数のコネクタを含む少なくとも1つのコネクタボードとを備えた受動パッチパネルを提供する。受動パッチパネルは、電気パッチパネル、光パッチパネル、又は電気パッチパネルと光パッチパネルとの混成とすることができる。光受動パッチパネルは、同じファイバ上の複数の光波長を組み合わせることができる。少なくとも1つのコネクタボードの複数のコネクタの各々は、必要に応じて電気プラグ又は光プラグとすることができる相互接続プラグを受け入れて、トーラス又はそれよりも高基数のトポロジの連続性を維持することができる。
【0010】
本発明は、さらに別の態様では、トーラス又はそれよりも高基数の相互接続の実装において使用するPCIeカードであって、トーラス又はそれよりも高基数の相互接続のための少なくとも4つの電気又は光ポートと、ローカルスイッチと、RAM及びROMメモリを含むプロセッサと、PCIインターフェイスとを備えたPCIeカードを提供する。ローカルスイッチは、電気スイッチ又は光スイッチとすることができる。PCIeカードは、ポートからPCIへのトラフィック、ヘアピン型トラフィック、及びadd/dropを伴う通過トラフィックをサポートすることができる。PCIeカードは、同じファイバ上の複数の光波長をさらに組み合わせることができる。
【0011】
以下、添付図面を参照しながら本発明の実施形態を一例として説明する。
【図面の簡単な説明】
【0012】
図1】従来のデータセンタネットワークの実装(先行技術)の高水準図である。
図2】8個のノードを有する3次元トーラス相互接続(先行技術)の図である。
図3】トーラスアーキテクチャを用いたIMB社のBlue Gene処理ユニットの階層(先行技術)を示す図である。
図4】本発明の実施形態による3D及び4Dトーラス構造の高水準図である。
図5】ネットワーク相互接続の分かりやすい例としての、本発明の実施形態による36ノード2-Dトーラスの図である。
図6図5に示す2-D構成を3回複製して第3の次元で相互接続した3次元構成を示す図である。
図7図5に示す2-Dトーラスのノード接続性の配線図である。
図8図6に示す3-Dトーラスのノード接続性の配線図である。
図9】本発明の直接相互接続ネットワークのための配線を実装するラックパッチパネルトップ(TPP)の受動バックプレーンを示す図である。
図10】本発明のTPP及び相互接続プラグを示す図である。
図11】非動力式集積回路を用いてコネクタID及びパッチパネルID、並びにTPPに接続されたPCIeカードを識別するTPPの受動バックプレーンの背面図である。
図12】TPPの受動バックプレーンの別の実施形態を示す図である。
図13】本発明の光TPPの実装の高水準図である。
図14】本発明によるTPPの実装を用いたデータセンタサーバラックの高水準図である。
図15】ラックトップスイッチ、及びサーバに収容されたPCIeカードによってノードを実装したトーラストポロジのハイブリッド実装の高水準図である。
図16】本発明によるPCIeカードの実装のブロック図である。
図17図16に示すPCIeカードによってサポートされるパケットトラフィックフローを示す図である。
図18】本発明による光多重波長を用いたPCIeカードのブロック図である。
図19】本発明の受動的光多重波長の実装を有するTPPの高水準図である。
図20a】4Dトーラス構造の配線のためのネットリストを生成する疑似コードを示す図である。
図20b】4Dトーラス構造の配線のためのネットリストを生成する疑似コードを示す図である。
図20c】4Dトーラス構造の配線のためのネットリストを生成する疑似コードを示す図である。
図21】TPPに取り付けられたコネクタを示す図である。
図22】非動力式集積回路を用いてコネクタID及びパッチパネルIDを識別するTPPのコネクタボードの背面図である。
【発明を実施するための形態】
【0013】
本発明は、トーラスメッシュ又はそれよりも高基数の配線を用いて、データセンタ用途のための直接相互接続スイッチングを実装する。このようなアーキテクチャは、単一のスイッチングドメイン内で数万台のサーバを相互接続するために、高性能でフラットなレイヤ2/3ネットワークを提供することができる。
【0014】
図4に示すように、構造全体にわたってパケットルーティングの効率性を高めるために、使用するトーラスは多次元(すなわち、3D、4Dなど)である(ただし、展開によっては単一次元トーラスを使用することもできる)。この点、any-to-any接続のための最小数のホップしか存在しない(例えば、3×3×3×4構造(108ノード)を実装する4次元トーラスでは、any-to-any接続を提供するために平均2.5ホップしか必要としない)。ノード10(サーバ)は、最も近い隣接ノード10(サーバ)及び構造の反対端のノード10(サーバ)に接続されるので、各ノード10(サーバ)は、各次元においてリング接続(12、14、16及び18)の形で接続されているように視覚化することができる。これにより、N次元のトーラス構成では、各ノード10が2N個の接続を有する。リング接続自体は、電気的相互接続又は光学的相互接続、或いは電気的相互接続と光学的相互接続の組み合わせとして実装することができる。
【0015】
しかしながら、このようなトポロジにおいて対処すべき1つの問題点は、既存の実装に影響を与えずにネットワーク内に新たなノードを追加する際に、配線の単純化及び単純性を促すことによって展開の複雑性をいかにして低減するかである。これが本発明の1つの態様であり、本開示は、大型トーラス又はそれよりも高基数の構造を実装する際の配線問題に対処する。
【0016】
図5に、説明を簡単にするために、6×6の36個のノード構成の単純な2Dトーラス配線図を示す。図示のように、この構造は、全体を通じて各接続(12、13)の長さが等しい折り畳み式2Dトーラスである。この図の各ノード10は、サーバ内に収容された(例えば、図16に示す)PCIeスイッチカード41を介して相互接続されたサーバを表す。
【0017】
図6には、図5の2D構成を用いて、ただし3回複製して第3の次元で相互接続して構築した3次元構成を示す。
【0018】
図7は、図5に示す2次元トーラス構造の配線図である。図示の実装では、36個のノード10の各々が、PCIeカード41(図示せず)からのケーブルが差し込まれた時にスイッチ配線を提供する4つの接続部(北(N)、南(S)、東(E)、西(W))を含む(例えば、Molex社又はNational Instruments社などによって供給されている超高密度ケーブル相互接続(VHDCI)コネクタとすることができる)コネクタ21を有する。配線を単純にするために、コネクタ21は、(図10及び図14に示すような)ラックパッチパネルトップ(TPP)31に収容される(図9に示すような)受動バックプレーン200において相互接続される。図9に示す受動バックプレーン200には、7×6の2Dトーラス構成を実装する42個のコネクタ21が実装された(図の中央に点線で示す)主フィールド、第3の次元における拡張のための6つのコネクタ21のグループが2つ実装された(点線で示す)左側のフィールド、及び第4の次元における拡張を可能にするための6つのコネクタ21のグループを2つ含む(点線で示す)右側のフィールドという3つのフィールドを示している。この3D拡張は、TPPからの(PCIeカード41をTPPのコネクタ21に接続するケーブルと同じタイプの)6つのケーブルをサーバの異なるラック33上のTPPに接続することによって実装される。TPPパッチパネルバックプレーンの実装は、必要に応じて変更することもでき、当業者であれば、プリント基板(バックプレーン200)を単純に取り替えることにより、必要に応じて異なるトーラス構造(例えば、5D、6Dなど)を実装するように配線を変更することができる。ラック33内に新たなサーバを追加する際に、従うべき制約又は規則を伴わずに構造を成長させることができるように、小型の相互接続プラグ25を利用することができる。このプラグ25は、TPPの製造時に全てのコネクタ21に実装することができる。このようにして、最初に全てのリング接続を閉じ、必要に応じてプラグ25をサーバからのPCIeケーブルに交換することによってトーラス相互接続を構築する。
【0019】
図8は、3次元トーラス構造の配線図である。例えば、図の左上のノードに示す、PCIeケーブルを+X、-X、+Y、-Y、+Z及び-Zの3D構造に取り付けるための6つの接続部に注目されたい。3Dトーラスのケーブル配線に対応できるTPPの実装は、図8に示す配線図に従ってあらゆるコネクタ21を他の全てのコネクタ21に接続するように設計される。
【0020】
図20a~図20cに示す、(3D、5Dなどの実装又はそれ以外の実装に容易に変更できる)4Dトーラス配線を実装するための疑似コードを用いて、TPPの接続性のネットリストを生成する新規の方法について説明する。3Dトーラス(Z,Y,X)では、各ノード10が、リングZ、リングY及びリングXという3つのリングの交点に存在する。ネットワークアーキテクチャの当業者がラック33内の全てのサーバ(最大42個のサーバ、上述した図9の中央部分を参照されたい)を直ちに相互接続したいと望む場合には制約が存在せず、サーバをランダムに配線することができる。この方法では、展開が非常に単純化され、サーバを追加して特別な接続ルールを伴わずにケーブルをTPPに接続すれば、トーラス構造の完全性が維持される。当業者が実装方法を知っているネットワーク管理システムは、TPP及び全ての相互接続されたサーバを含むデータセンタネットワークの完全なイメージを維持し、接続状態及び各ノードに必要な全ての情報を提供する。
【0021】
図11に示すように、(ノードサーバに収容された)各PCIeカード41は、ケーブル36によってTPPに接続される。PCIeカード41をTPPに接続するケーブル36は、8つのポート40(図16を参照)への接続を提供し、管理目的でTPPへの接続も提供する。バックプレーン200は、全てのコネクタ21に取り付けられた非動力式電子デバイス/集積回路(IC)230を含む。PCIeカード41上で動作するソフトウェアは、PCIeカード41の接続先のコネクタIDを取得するためにデバイス230に問い合わせを行う。コネクタに取り付けられた全てのデバイス230は、全てのコネクタを一意に識別する受動抵抗器の組み合わせを使用する。
【0022】
電子デバイス240を用いて、インストール時にプログラムすることができるTPP識別機構(パッチパネルID)も実装される。デバイス240のローカル永続メモリは、製造日、バージョン、構成及びIDなどの他の情報を保持することもできる。PCIeカードに対するデバイス240の接続性は、ソフトウェアによる要求時にこれらの情報の転送を可能にする。
【0023】
ソフトウェアは、カードの初期化時にIC230に電力を加えてコネクタ21のIDを読み取る。実用的な実装には、電力及び接地のための2つの接続、並びに「1-Wire」技術を用いてコネクタ21のIDを読み取るための第3の接続という配線接続が必要である。
【0024】
インストール時に管理ソフトウェアをプログラムされたパッチパネルIDも、IC230と同じ配線を用いて同様に読み取ることができる。非動力式デバイス240は、ソフトウェアの制御下で読み取り/書き込みトランザクションをサポートできる不揮発性メモリを有する。IC240は、製造情報、TPPバージョン、及びTPPのIDを保持することができる。
【0025】
図12に、単独のプリント基板26をバックプレーンとして使用する別の受動パッチパネルの実装オプションを示す。この実装は、ラック内のサーバの数を大幅に増やし、コネクタ/配線の選択の柔軟性をもたらすこともできる。
【0026】
コネクタ21を支持するプリント基板23は、大容量コネクタ22を介してバックプレーン26に接続される。プリント基板24も大容量コネクタ22を有し、やはりバックプレーン26に接続されてコネクタボード23への接続性を提供する。
【0027】
ボード24上の大容量コネクタ21は、TPPラック33をラック33に相互接続するために使用することができる。
【0028】
バックプレーン26には、直接相互接続配線が実装される。(様々な理由で)配線を変更する場合には、変更すべき唯一のデバイスは常にバックプレーン26である。例えば、超大型トーラスの実装に変更が必要な場合(例えば、10,000台のサーバ構成では、最も効率的な4Dトーラスは、6×7×16×15の使用を試みることではなく10×10×10×10構成であり、160,000台のサーバ展開では、最も効率的な構成は20×20×20×20構成である)、コネクタボード23及び24を同じように維持しながら単純にバックプレーン26を変更することにより、これらの構成を収容することができる。
【0029】
図13に、光学的パッチパネルの実装を示す。このような実装は、図5又は図6に示す配線図(2D又は3Dトーラス)のようにポート間ファイバ相互接続を前提とする。ボード28及び29上の光コネクタは、光ファイバ27(例えば、PCB又はバックプレーン上で高密度の光ルーティングを行うMolex社製の高密度FlexPlane光回路)を用いて相互接続される。光TPPは、製造時にファイバ接続されることが好ましく、光プラグ250は、製造中にTPPに装着されるべきである。コネクタ及び光プラグ250は、低損失であることが好ましい。コネクタの光損失は、コネクタタイプ(例えば、コリメーションに微小光学レンズを使用しているか否か)及び波長(例えば、Cバンドにおけるシングルモードファイバでは、1340nmにおけるマルチモードファイバよりも光損失の導入が少ない)によって決まる。
【0030】
図19に、光TPPの別の実装オプションを示す。この実装は、光波長多重を用いて物理的接続部(ファイバ)の数を劇的に低減する。TPPに追加される新たなコンポーネントは、同じファイバ上で複数の光波長を組み合わせる受動光マルチプレクサ-デマルチプレクサ220である。ファイバ27は、マルチプレクサ-デマルチプレクサ220の出力を相互接続して、光学的直接相互接続トーラス構造を実装する。(TPP間で)異なる2つのラックを接続するために、コネクタ222を使用する。この実装は、図18に示すようなPCIeカード41の修正バージョンを必要とする。カード41は、光マルチプレクサ-デマルチプレクサ220と、異なる波長における光送信機225と、光受信機224とを含む。
【0031】
TPPは、電気/光のハイブリッド実装として展開することもできる。このような場合、トーラスノードは、光ポート及び電気ポートを有するようになる。通常、ハイブリッド実装は、超大規模データセンタへの接続を行うために使用される。ラックレベルにおいて電気的接続を使用し、全てのラック間相互接続又は地理的に分散したデータセンタ相互接続において光接続を使用することもできる。電気ケーブルは、しばしば低速接続(例えば、1Gbps又はそれよりも低速の10/100Mbps)に使用される。高速の接続(例えば、10Gbps)には、特別な電気ケーブルを使用することができる。高速の相互接続ネットワークは、到達距離が長く超高速(例えば、100Gbps又は400Gbps)をサポートできるという理由で光伝送を使用することができる。
【0032】
図15に、コンピュータサーバ及びストレージサーバのハイブリッド構成を実装するのに適したトーラス構造においてラックトップ(ToR)スイッチ38とPCIeカード41ベースのサーバ相互接続とを用いた組み合わせ展開を示す。PCIe41ベースの実装は、サーバ内のPCIポートが固定スイッチポート帯域幅よりも実質的に高い帯域幅(例えば、1Gbps又は10Gbps)に対応できるので、add/drop帯域幅が高いという利点を有する。4Dトーラスの実装をサポートするPCIeカード41は、トーラスリンクの相互接続帯域幅の最大8倍に対応することができる。
【0033】
ToRスイッチ38は、通常のレイヤ2イーサネット(登録商標)スイッチである。このスイッチは、ToRスイッチがトーラスノードであるトーラス構成において、サーバへの接続及び他のToRスイッチへの接続を提供する。本発明のこの実施形態によれば、TPP31の修正バージョンをさらに用いて、ToRスイッチ38とPCIeカード41とが相互接続される。
【0034】
図16は、本発明のPCIeカードの実装のブロック図である。このカードは、マルチポートネットワークインターフェイスカード(NIC)と見なすことができる。PCIeカード41は、RAM47及びROM48メモリを含むプロセッサ46と、パケットスイッチ44と、イーサネットPHYインターフェイスデバイス45とを含む。図示のカード41は、PCIe接続部42及び8個のインターフェイスポート40を有しており、すなわち図示のカードは、最大4次元のトーラス直接相互接続ネットワークの実装を可能にすることができる。
【0035】
図17に、カード41によってサポートされるパケットトラフィックフローを示す。各ポート40は、PCIポート42にアクセスすることができる。従って、(400によって示すような)ポートからPCIへのトラフィックでは、ポート40の総数を8とした場合、総帯域幅はポート容量の8倍である。ポートの数は、トーラスメッシュの接続性を決定する。8ポートPCIeカードの実装は、最大4次元のトーラス(x+、x-、y+、y-、z+、z-、及びw+、w-)を可能にする。
【0036】
カード41によってサポートされる第2のタイプのトラフィックは、(410によって示すような)ヘアピン型トラフィックである。このトラフィックは、1つのポートから別のポートにトラフィックが切り替えられ、トラフィックが単純にノードを通過する場合に生じる。カード41によってサポートされる第3のタイプのトラフィックは、(420によって示すような)add/dropを伴う通過トラフィックである。このトラフィックは、1つのポートからの入力トラフィックの一部がPCIポートに流れ、一部が別のポートに向け直される場合、或いは入力トラフィックがPCIポートからのトラフィックと融合して別のポートに向け直される場合に生じる。
【0037】
これらの通過トラフィック及びadd/dropトラフィックの能力により、各ノードをトラフィックadd/dropノードとすることができる直接相互接続ネットワークが実装される。
【符号の説明】
【0038】
33 ラック
38 ToRスイッチ
41 PCIeスイッチカード
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20a
図20b
図20c
図21
図22