特許7373579 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ デジラム　コーポレーションの特許一覧

特許7373579並べ替えリングネットワーク相互接続型コンピューティングアーキテクチャ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-25

(45)【発行日】2023-11-02

(54)【発明の名称】並べ替えリングネットワーク相互接続型コンピューティングアーキテクチャ

(51)【国際特許分類】

G06F 15/173 20060101AFI20231026BHJP

【ＦＩ】

G06F15/173 682

G06F15/173 683B

G06F15/173 673

【請求項の数】 19

(21)【出願番号】P 2021552892

(86)(22)【出願日】2020-03-07

(65)【公表番号】

(43)【公表日】2022-04-27

(86)【国際出願番号】 US2020021601

(87)【国際公開番号】W WO2020185634

(87)【国際公開日】2020-09-17

【審査請求日】2022-05-24

(31)【優先権主張番号】16/353,198

(32)【優先日】2019-03-14

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】519182279

【氏名又は名称】デジラムコーポレーション

(74)【代理人】

【識別番号】110001379

【氏名又は名称】弁理士法人大島特許事務所

(72)【発明者】

【氏名】タム、キット・エス

【審査官】坂東博司

(56)【参考文献】

【文献】特開昭５８－００４４２７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／０１９５３２１（ＵＳ，Ａ１）

【文献】特表２０１６－５０２７００（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０１４５８５０（ＵＳ，Ａ１）

【文献】特表２０１９－５３６３９９（ＪＰ，Ａ）

【文献】特開平０９－０５４７６２（ＪＰ，Ａ）

【文献】特開平０９－１６０８９３（ＪＰ，Ａ）

【文献】特開２０１２－２５２４９０（ＪＰ，Ａ）

【文献】特開２００６－０１２１３３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／０２０１１７１（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１４／０２０１４４３（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１５／１７３

(57)【特許請求の範囲】

【請求項1】

複数のコンピューティングスライスであって、その各々が、複数のコンピュートエンジンと、複数のメモリバンクと、通信ノードと、第１レベル相互接続構造とを含み、前記第１レベル相互接続構造は、前記複数のコンピュートエンジン、前記複数のメモリバンク、および前記通信ノードの各々を互いに接続する、該複数のコンピューティングスライスと、
第２レベル相互接続構造であって、複数の双方向ソースシンクロナスリングネットワークを有する並べ替えリングネットワークを含み、前記複数の双方向ソースシンクロナスリングネットワークの各々が、リング状に接続された複数のデータ伝送機構を含み、前記複数のコンピューティングスライスの前記通信ノードの各々が、前記複数の双方向ソースシンクロナスリングネットワークの各々における前記複数のデータ伝送機構のうちの１つのデータ伝送機構に接続される、該第２レベル相互接続構造と、
第２レベル相互接続構造に接続された前記第１のネットワーク通信ノードであって、前記第１のネットワーク通信ノードは、前記第２レベル相互接続構造の前記複数の双方向ソースシンクロナスリングネットワークの各々における前記複数のデータ伝送機構のうちの１つのデータ伝送機構に接続される、該第１のネットワーク通信ノードと、
を備える、コンピュータアーキテクチャ。

【請求項2】

前記第１レベル相互接続構造の各々は、複数の双方向ソースシンクロナスリングネットワークを有するスライスレベル並べ替えリングネットワークを含み、前記複数の双方向ソースシンクロナスリングネットワークの各々が、リング状に接続された複数のデータ伝送機構を含み、前記複数のコンピューティングスライスのなかの対応する１つの前記複数のコンピュートエンジン、前記複数のメモリバンク、および前記通信ノードの各々は、前記スライスレベル並べ替えリングネットワークの前記複数の双方向ソースシンクロナスリングネットワークの各々における前記複数のデータ伝送機構のうちの１つのデータ伝送機構に接続される、請求項１に記載のコンピュータアーキテクチャ。

【請求項3】

前記第１レベル相互接続構造の各々は、前記複数のコンピューティングスライスのなかの対応する１つの前記複数のコンピュートエンジン、前記複数のメモリバンク、および前記通信ノードに接続されたクロスバースイッチを含む、請求項１に記載のコンピュータアーキテクチャ。

【請求項4】

前記第１レベル相互接続構造の各々は、前記複数のコンピューティングスライスのなかの対応する１つの前記複数のコンピュートエンジン、前記複数のメモリバンク、および前記通信ノードに接続されたリングネットワークを含む、請求項１に記載のコンピュータアーキテクチャ。

【請求項5】

前記第２レベル相互接続構造に接続され、前記複数の双方向ソースシンクロナスリングネットワークの各々における前記複数のデータ伝送機構のうちの１つのデータ伝送機構に接続されたメモリインタフェース通信ノードと、
前記メモリインタフェース通信ノードに接続されたメモリデバイスと、を更に備える、請求項１に記載のコンピュータアーキテクチャ。

【請求項6】

前記メモリデバイスは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイスである、請求項５に記載のコンピュータアーキテクチャ。

【請求項7】

前記第１のネットワーク通信ノードに接続されたシステムレベル相互接続構造を更に備える、請求項１に記載のコンピュータアーキテクチャ。

【請求項8】

前記システムレベル相互接続構造は、第３レベル相互接続構造に接続された複数のネットワーク通信ノードを備え、
前記複数のネットワーク通信ノードのうちの第１の通信ノードは、前記第１のネットワーク通信ノードに接続される、請求項７に記載のコンピュータアーキテクチャ。

【請求項9】

前記複数のネットワーク通信ノードのうちの第２の通信ノードに接続されたホストシステムプロセッサを更に備える、請求項８に記載のコンピュータアーキテクチャ。

【請求項10】

前記複数のネットワーク通信ノードのうちの第３の通信ノードに接続されたシステムメモリを更に備える、請求項９に記載のコンピュータアーキテクチャ。

【請求項11】

前記第３レベル相互接続構造は、各々がリング状に接続された複数のデータ伝送機構を含む複数の双方向ソースシンクロナスリングネットワークを有するシステムレベル並べ替えリングネットワークを含み、
前記複数のネットワーク通信ノードの各々は、前記システムレベル並べ替えリングネットワークの前記複数の双方向ソースシンクロナスリングネットワークの各々における前記複数のデータ伝送機構のうちの１つのデータ伝送機構に接続される、請求項８に記載のコンピュータアーキテクチャ。

【請求項12】

前記第３レベル相互接続構造は、前記複数のネットワーク通信ノードに接続されたクロスバースイッチを含む、請求項８に記載のコンピュータアーキテクチャ。

【請求項13】

前記第３レベル相互接続構造は、前記複数のネットワーク通信ノードに接続されたリングネットワークを含む、請求項８に記載のコンピュータアーキテクチャ。

【請求項14】

第２の複数のコンピューティングスライスであって、その各々が、第２の複数のコンピュートエンジンと、第２の複数のメモリバンクと、第２の通信ノードと、第２の第１レベル相互接続構造とを含み、前記第２の第１レベル相互接続構造は、前記第２の複数のコンピュートエンジン、前記第２の複数のメモリバンク、および前記第２の通信ノードの各々を互いに接続する、該第２の複数のコンピューティングスライスと、
第２の第２レベル相互接続構造であって、各々がリング状に接続された第２の複数のデータ伝送機構を含む第２の複数の双方向ソースシンクロナスリングネットワークを有する第２の並べ替えリングネットワークを含み、前記第２の複数のコンピューティングスライスの前記第２の通信ノードの各々が、前記第２の複数の双方向ソースシンクロナスリングネットワークの各々における前記第２の複数のデータ伝送機構のうちの１つの第２のデータ伝送機構に接続される、該第２の第２レベル相互接続構造と、
前記第２の第２レベル相互接続構造に接続された第２のネットワーク通信ノードであって、前記第２の第２レベル相互接続構造の前記第２の複数の双方向ソースシンクロナスリングネットワークの各々における前記第２の複数のデータ伝送機構のうちの１つの第２のデータ伝送機構に接続され、前記システムレベル相互接続構造に接続された、該第２のネットワーク通信ノードと、
を更に備える、請求項８に記載のコンピュータアーキテクチャ。

【請求項15】

前記通信ノードの各々は、他の通信ノードの各々への通信経路を含み、
前記通信経路の各々は、隣接するデータ伝送機構間の１ホップ経路を含む、請求項１に記載のコンピュータアーキテクチャ。

【請求項16】

前記複数のデータ伝送機構のうちの互いに隣接するデータ伝送機構の固有のペアが、前記通信ノードの各ペア間の通信経路を提供する、請求項１に記載のコンピュータアーキテクチャ。

【請求項17】

前記複数の双方向ソースシンクロナスリングネットワークは、第１のクロックドメインで動作し、
前記複数のコンピュートエンジンおよび前記複数のメモリバンクは、前記第１のクロックドメインとは異なる第２のクロックドメインで動作する、請求項１に記載のコンピュータアーキテクチャ。

【請求項18】

前記複数のコンピューティングスライスおよび前記第２レベル相互接続構造は、同じ半導体チップ上に位置する、請求項１に記載のコンピュータアーキテクチャ。

【請求項19】

前記通信ノードの各々は、前記複数の双方向ソースシンクロナスリングネットワークにおいて他の前記通信ノードとは異なる位置を有する、請求項１に記載のコンピュータアーキテクチャ。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、参照によって本明細書に組み込まれる、２０１９年３月１４日に出願された、「ＰｅｒｍｕｔａｔｅｄＲｉｎｇＮｅｔｗｏｒｋＩｎｔｅｒｃｏｎｎｅｃｔｅｄＣｏｍｐｕｔｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅ」と題された米国特許出願第１６／３５３，１９８号への優先権を主張するものである。

【0002】

（技術分野）
本発明は、１または複数の並べ替えリングネットワークを用いて様々なコンピュートエンジンを接続するコンピュータアーキテクチャに関する。より具体的には、本発明は、スケーリング可能、広帯域幅、低レイテンシのポイントツーポイントマルチチップ通信解決策を提供する複数の相互接続型並べ替えリングネットワークを用いるコンピューティングアーキテクチャに関する。

【背景技術】

【0003】

図１は、複数のプロセッサチップ１０１～１０２、チップ間相互接続１０５、およびＤＲＡＭデバイス１１１～１１２を含む、従来のＣＰＵアーキテクチャのブロック図である。プロセッサチップ１０１および１０２の各々は、それぞれ複数のプロセッサコアＣ_０１～Ｃ_０ＮおよびＣ_１１～Ｃ_１Ｎを含む。プロセッサコアの各々は、レジスタファイルおよび演算論理装置（ＡＬＵ）、第１レベルキャッシュメモリＬ１、および第２レベルキャッシュメモリＬ２を含む。プロセッサチップ１０１および１０２の各々は、それぞれ複数の第３レベル（Ｌ３）キャッシュメモリ１２１および１２２、およびそれぞれキャッシュコヒーレンス相互接続論理１３１および１３２も含む。

【0004】

一般に、第１レベルキャッシュメモリＬ１は、高速データアクセス（１～２サイクル）を可能にするが、比較的小さい。第２レベルキャッシュメモリＬ２は、より緩慢なデータアクセス（５～６サイクル）を示すが、第１レベルキャッシュメモリよりも大きい。プロセッサコアＣ_０１～Ｃ_０ＮおよびＣ_１１～Ｃ_１Ｎの各々は、独自の専用第１レベルキャッシュメモリＬ１および第２レベルキャッシュメモリＬ２を有する。チップ１０１上のプロセッサコアＣ_０１～Ｃ_０Ｎの各々は、キャッシュコヒーレンス相互接続論理１３１を介して、複数のレベル３（Ｌ３）キャッシュメモリ１２１にアクセスする。同様に、チップ１０２上のプロセッサコアＣ_１１～Ｃ_１Ｎの各々は、キャッシュコヒーレンス相互接続論理１３２を介して、複数のレベル３（Ｌ３）キャッシュメモリ１２２にアクセスする。したがって、各チップ上の複数のプロセッサコアは、同じチップ上の複数のレベル３（Ｌ３）キャッシュメモリを共有する。

【0005】

チップ１０１上のプロセッサコアＣ_０１～Ｃ_０Ｎの各々は、キャッシュコヒーレンス相互接続論理１３１を介してＤＲＡＭ１１１にアクセスする。同様に、チップ１０２上のプロセッサコアＣ_１１～Ｃ_１Ｎの各々は、キャッシュコヒーレンス相互接続論理１３２を介してＤＲＡＭ１１２にアクセスする。

【0006】

キャッシュコヒーレンス相互接続論理１３１は、プロセッサコアＣ_０１～Ｃ_０Ｎの全てが、レベル３（Ｌ３）キャッシュ１２１の同じエントリで同じデータを見ることを確実にする。キャッシュコヒーレンス相互接続論理１３１は、プロセッサコアＣ_０１～Ｃ_０Ｎの複数が、レベル３（Ｌ３）キャッシュ１２１の同じエントリによって格納されたデータを更新しようと試みる、あらゆる「複数ライタ」問題を解消する。レベル３（Ｌ３）キャッシュ１２１内のデータを変更しようと望むプロセッサコアＣ_０１～Ｃ_０Ｎのいずれかは、最初に、キャッシュコヒーレンス相互接続論理１３１からの許可を得る必要がある。この許可を得ることは、望ましくない点として、長時間を要し、複雑なメッセージ交換の実行を伴う。キャッシュコヒーレンス相互接続論理１３１は、ＤＲＡＭ１１１から読み取られ／ＤＲＡＭ１１１に書き込まれたデータのコヒーレンスも確実にする。

【0007】

キャッシュコヒーレンス相互接続論理１３２は、同様に、Ｌ３キャッシュ１２２によって格納され、ＤＲＡＭ１１２から読み取られ／ＤＲＡＭ１１２に書き込まれたデータのコヒーレンスを確実にする。

【0008】

チップ間相互接続論理１０５は、プロセッサチップ１０１～１０２間の通信を可能にし、この論理１０５は、チップ境界を跨ぐ際に必要なプロトコル変更を処理する。

【0009】

図１によって示すように、従来のＣＰＵアーキテクチャ１００は、キャッシュ階層を有する複数のキャッシュレベル（Ｌ１、Ｌ２、およびＬ３）を実装する。高レベルのキャッシュメモリは、比較的小容量および比較的高いアクセス速度を有し（たとえばＳＲＡＭ）、低レベルのキャッシュメモリは、比較的大容量および比較的低いアクセス速度を有する（たとえばＤＲＡＭ）。キャッシュコヒーレンスプロトコルは、様々なキャッシュレベルにわたりデータコヒーレンスを維持することを必要とする。キャッシュ階層は、専用の一次（Ｌ１およびＬ２）キャッシュの使用、キャッシュコヒーレンスポリシによって制御される複数のアクセス、および様々な物理ネットワークを跨いで（たとえばプロセッサチップ１０１と１０２との間で）必要なデータ横断により、複数の異なるプロセッサコアＣ_０１～Ｃ_０ＮおよびＣ_１１～Ｃ_１Ｎ間でデータを共有することを困難にする。

【0010】

キャッシュ階層は、今後データがアクセスされる場合の長レイテンシアクセスを回避するために、高レベルキャッシュが低レベルキャッシュから移されたキャッシュラインを保持するように、時間的および空間的局所性の原理に基づく。ただし、（多数のニューラルネットワークデータセットの場合のように）データセット内に最小限の空間的および時間的局所性しかない場合、レイテンシは増加し、有用なメモリ場所のサイズは低減され、不必要なメモリアクセスの数が増加する。

【0011】

従来の（たとえばアーキテクチャ１００などの）ＣＰＵアーキテクチャのハードウェアは、共有メモリプログラミングモデルのために最適化される。このモデルにおいて、複数のコンピュートエンジンは、キャッシュコヒーレンスプロトコルを用いてメモリ共有を介して通信する。しかし、これらの従来のＣＰＵアーキテクチャは、一般に（冗長なメモリ読取りおよび書込み動作ならびに長レイテンシを示す）ニューラルネットワークの順方向伝搬によって実装される生産者消費者実行モデルをサポートするために最も効率の良い方法ではない。生産者消費者実行モデルにおいて、生産者から消費者へのダイレクトメッセージの受渡しが、より効率的である。対照的に、共有メモリプログラミングモデルにおいて、プロセッサコアＣ_０１～Ｃ_０ＮおよびＣ_１１～Ｃ_１Ｎ間での直接通信に関するハードウェアサポートは存在しない。共有メモリプログラミングモデルは、メッセージ受渡しプログラミングモデルを構築するためにソフトウェアに依拠する。

【0012】

共有メモリプログラミングモデルのために最適化された従来のＣＰＵアーキテクチャ１００の各レベルにおける通信チャネルは、サービス提供されているサブシステムのために高度に特殊化および最適化される。たとえば、（１）データキャッシュとＡＬＵ／レジスタファイルとの間の、（２）異なるレベルのキャッシュ間の、（３）ＤＲＡＭチャネルへの、および（４）チップ間相互接続１０５内の、特殊化相互接続システムが存在する。これらの相互接続システムの各々は、独自のプロトコルおよび速度で動作する。その結果、これらのチャネルを跨いで通信するために必要とされる多大なオーバヘッドが存在する。これは、大量のデータへのアクセスを必要とするタスク（たとえば、タスクを実行するために複数のコンピューティングエンジンを用いる大次元行列乗算）を高速化しようと試みる際、著しい非効率性を招く。

【0013】

クロスバースイッチおよび単純なリングネットワークは、上述した特殊化相互接続システムを実装するために一般的に用いられる。しかし、これらの相互接続構造の速度、電力効率、およびスケーラビリティは、制限される。

【発明の概要】

【発明が解決しようとする課題】

【0014】

上述したように、従来のＣＰＵアーキテクチャは、ニューラルネットワークおよび機械学習アプリケーションの実装において、いくつかの固有の欠点を有する。したがって、ニューラルネットワーク／機械学習アプリケーションにおいてより効率的にデータを処理することができる改善されたコンピューティングシステムアーキテクチャを有することが望ましい。また、複数のチップ間でのキャッシュコヒーレンスプロトコルを必要とせず、複数のチップに広がることが可能な改善されたネットワークトポロジを有することが望ましい。重ねて、そのようなマルチチップ通信システムが容易にスケーリング可能であり、多数の異なるチップ間の通信を提供することが可能であれば、望ましい。
したがって、本発明の目的は、ニューラルネットワーク／機械学習アプリケーションにおいてより効率的にデータを処理することができる改善されたコンピューティングシステムアーキテクチャを提供することである。本発明の別の目的は、複数のチップ間でのキャッシュコヒーレンスプロトコルを必要とせず、複数のチップに広がることが可能な改善されたネットワークトポロジを提供することである。本発明の更に別の目的は、容易にスケーリング可能であり、多数の異なるチップ間の通信を提供することが可能なマルチチップ通信システムを提供することである。

【課題を解決するための手段】

【0015】

したがって、本発明は、各々が複数のコンピュートエンジンと、複数のメモリバンクと、通信ノードと、第１レベル相互接続構造とを含む複数のコンピューティングスライスを含むコンピュータアーキテクチャを提供する。第１レベル相互接続構造は、複数のコンピュートエンジン、複数のメモリバンク、および通信ノードの各々を接続する。第１レベル相互接続は、コンピュートエンジンの各々が、同じコンピューティングスライス内でメモリバンクの各々にアクセスすることを可能にする。１つの実施形態において、第１レベル相互接続構造は、並べ替えリングネットワークである。ただし、他の実施形態において、第１レベル相互接続構造は、たとえばクロスバースイッチまたは単純なリングネットワークなどの他の構造を用いて実装され得る。

【0016】

このコンピュータアーキテクチャは、並べ替えリングネットワークを含む第２レベル相互接続構造も含む。本明細書で定義するように、並べ替えリングネットワークは、各々が複数のデータ伝送機構を含む複数の双方向ソースシンクロナスリングネットワークを含む。複数のコンピューティングスライスの各通信ノードは、複数の双方向ソースシンクロナスリングネットワークの各々におけるデータ伝送機構の１つに接続される。第２レベル相互接続構造は、第２レベル相互接続構造に接続されたコンピューティングスライスの各々の間のアクセスを可能にする。

【0017】

このコンピュータアーキテクチャは、第２レベル相互接続構造に接続されたメモリインタフェース通信ノードを更に含んでよく、メモリインタフェース通信ノードは、第２レベル相互接続構造の複数の双方向ソースシンクロナスリングネットワークの各々におけるデータ伝送機構の１つに接続される。この実施形態において、外部メモリデバイス（たとえばＤＲＡＭデバイス）は、メモリインタフェース通信ノードに接続される。

【0018】

このコンピュータアーキテクチャは、第２レベル相互接続構造に接続された第１のネットワーク通信ノードを更に含んでよく、第１のネットワーク通信ノードは、第２レベル相互接続構造の複数の双方向ソースシンクロナスリングネットワークの各々におけるデータ伝送機構の１つに接続される。この実施形態において、第１のネットワーク通信ノードは、システムレベル相互接続構造に接続される。

【0019】

システムレベル相互接続構造は、第３レベル相互接続構造に接続された複数のネットワーク通信ノードを含んでよい。これらの複数のネットワーク通信ノードのうちの第１のネットワーク通信ノードは、第１のネットワーク通信ノードに接続され得る。これらの複数のネットワーク通信ノードのうちの第２のネットワーク通信ノードは、ホストシステムプロセッサに接続され得る。これらの複数のネットワーク通信ノードのうちの第３のネットワーク通信ノードは、システムメモリに接続され得る。これらの複数のネットワーク通信ノードのうちの第４のネットワーク通信ノードは、他の複数のコンピューティングスライスに接続される他の第２レベル相互接続構造に接続され得る。第３レベル相互接続構造は、並べ替えリングネットワークによって、またはたとえばクロスバースイッチまたは単純なリングネットワークなどの他の構造によって実装され得る。

【0020】

有利な点として、第１、第２、および第３レベル相互接続構造が全て並べ替えリングネットワークを用いて実装された場合、メッセージおよびデータは、単一のメッセージングプロトコルを用いてコンピュータアーキテクチャ上で送信／受信され得る。アドレスマッピングは、デバイス（たとえばコンピュートエンジン、メモリバンク、ＤＲＡＭデバイス）の各々が、コンピュータアーキテクチャ内の固有のアドレスを有することを確実にする。

【0021】

特定の実施形態において、第２レベル相互接続構造および対応する複数のコンピューティングスライスは、同じ半導体チップ上に製造される。

【0022】

本発明は、以下の説明および図面を考慮して、より深く理解される。

【図面の簡単な説明】

【0023】

【図1】共有メモリプログラミングモデルのために最適化された従来のコンピュータアーキテクチャのブロック図である。

【図2】本発明の１つの実施形態に係る、複数のコンピュートエンジンおよびメモリデバイスを接続するために並べ替えリングネットワークを用いるコンピュータアーキテクチャのブロック図である。

【図3】本発明の１つの実施形態に係る、図２のコンピュータアーキテクチャの変形図である。

【図4】本発明の１つの実施形態に係る、図２～３のコンピュータアーキテクチャにおいて用いられる第１レベル並べ替えリングネットワークのブロック図である。

【図5】本発明の１つの実施形態に係る、図４の第１レベル並べ替えリングネットワークの４つの通信チャネルの相互接続マトリックスである。

【図6】本発明の１つの実施形態に係る、図４の並べ替えリングネットワークにおけるトラフィックの流れを定めるルート指定表である。

【図7】本発明の代替実施形態に係るコンピュータアーキテクチャのブロック図である。

【図8】本発明の他の代替実施形態に係るコンピュータアーキテクチャのブロック図である。

【発明を実施するための形態】

【0024】

本発明は、機械学習コンピューティングシステムの相互接続システムのためのより良い解決策を提供するために、並べ替えリングネットワーク（ＰＲＮ）アーキテクチャを用いる。ＰＲＮアーキテクチャは、異なるチップ上の（および同一チップ上の）コンピュートエンジンが共通の通信プロトコルを用いて互いに直接通信することを可能にするフラットメモリ階層を含む。相互接続システムは、非キャッシュコヒーレントである。１つの実施形態において、相互接続システムは、単一の相互接続構造（すなわち、複数の並べ替えリングネットワーク）を用いる。

【0025】

代替実施形態において、ＰＲＮ構造は、（たとえば、同一チップ上の複数のコンピューティングスライスを接続するために）相互接続構造内の特定の場所でのみ用いられる。

【0026】

図２は、本発明の１つの実施形態に係るコンピュータシステム２００のブロック図である。コンピュータシステム２００は、複数のプロセッサチップ２０１～２０４、ホストプロセッサシステム２０５、システムメモリ２０６、システムレベル相互接続チップ２１０、およびＤＲＡＭデバイス２１１～２１４を含む。４つのプロセッサチップ２０１～２０４のみが図２に示されるが、コンピュータシステム２００は、他の実施形態において、他の数のプロセッサチップを含むように容易に変更され得ることが理解される。また、プロセッサチップ２０１のみが図２において詳しく示されるが、プロセッサチップ２０２～２０４は、説明される実施形態において、プロセッサチップ２０１と同じ内部要素を含むことが理解される。代替実施形態において、プロセッサチップ２０１～２０４は、後述する説明に従って、様々な数のコンピューティングスライス、コンピュートエンジン、および／またはメモリバンクを含んでよい。

【0027】

図示した実施形態において、プロセッサチップ２０１は、コンピューティングスライス１、２、３、および４、および並べ替えリングネットワーク（ＰＲＮ）ベースの相互接続構造２１を含む。４つのスライスが図２に示されるが、他の実施形態において、他の数のスライスがプロセッサチップ２０１に含まれ得ることが理解される。各スライスは、複数のコンピュートエンジン、複数のメモリバンク、通信ノード、および第１レベルＰＲＮベース相互接続構造を含む。より具体的には、スライス１、２、３、および４は、それぞれコンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４、それぞれメモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４、それぞれ第１レベルＰＲＮベース相互接続構造１１、１２、１３、および１４、およびそれぞれ通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４を含む。コンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４の各々は、複数のコンピュートエンジン（たとえばローカルプロセッサ）を含む。コンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４の各々は、図示した例において４つのコンピュートエンジンを含む。ただし、他の実施形態において、各コンピュートエンジンセット内に他の数のコンピュートエンジンが含まれ得ることが理解される。同様に、メモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４の各々は、複数のメモリバンクを含む。メモリバンクセットの各々は、図示した例において４つのメモリバンクを含む。ただし、他の実施形態において、各メモリバンク内に他の数のメモリバンクが含まれ得ることが理解される。１つの実施形態において、メモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４内のメモリバンクの各々は、比較的高速のメモリアクセスが実施されることを可能にするスタティックランダムアクセスメモリ（ＳＲＡＭ）である。

【0028】

コンピューティングスライス１、２、３、および４の各々において、対応する第１レベルＰＲＮベース相互接続構造１１、１２、１３、および１４は、対応するコンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４と、対応するメモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４とを接続する。これにより、コンピュートエンジンの各々は、対応する第１レベルＰＲＮベース相互接続構造を用いて、同一スライス内でメモリバンクの各々にアクセスすることができる。たとえば、コンピューティングスライス１のコンピュートエンジンセットＣＥ_１内の４つのコンピュートエンジンの各々は、スライス１の対応する第１レベルＰＲＮベース相互接続構造１１を介して、コンピューティングスライス１のメモリバンクセットＭ_１の４つのメモリバンクの各々にアクセスすることができる。

【0029】

第１レベルＰＲＮベース相互接続構造１１、１２、１３、および１４は、対応するスライス１、２、３、および４において対応する通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４にも接続される。後に詳しく説明するように、通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４は、対応する第１レベルＰＲＮベース相互接続構造１１、１２、１３、および１４と、第２レベルＰＲＮベース相互接続構造２１との間で、メッセージおよびデータを受け渡す。

【0030】

この構成により、プロセッサチップ２０１上のコンピュートエンジンの各々は、第１レベルＰＲＮベース相互接続構造１１～１４および（必要に応じて）第２レベルＰＲＮベース相互接続構造２１を用いて、プロセッサチップ２０１上のメモリバンクの各々にアクセスすることができる。たとえば、コンピューティングスライス１のコンピュートエンジンセットＣＥ_１内のコンピュートエンジンの各々は、コンピューティングスライス１の対応する第１レベルＰＲＮベース相互接続構造１１、通信ノードＣＮ_１、第２レベルＰＲＮベース相互接続構造２１、通信ノードＣＮ_４、およびコンピューティングスライス４の第１レベルＰＲＮベース相互接続構造１４を含む経路を介して、スライス４のメモリバンクセットＭ_４のメモリバンクの各々にアクセスすることができる。

【0031】

またこの構成は、プロセッサチップ２０１上のコンピュートエンジンの各々が、第１レベルＰＲＮベース相互接続構造１１～１４および（必要に応じて）第２レベルＰＲＮベース相互接続構造２１を用いて、プロセッサチップ２０１上の他のコンピュートエンジンの各々と通信することも可能にする。たとえば、コンピューティングスライス２のコンピュートエンジンセットＣＥ_２内のコンピュートエンジンの各々は、スライス２の対応する第１レベルＰＲＮベース相互接続構造１２、通信ノードＣＮ_２、第２レベルＰＲＮベース相互接続構造２１、通信ノードＣＮ_３、およびスライス３の第１レベルＰＲＮベース相互接続構造１３を含む経路を介して、コンピューティングスライス３のコンピュートエンジンセットＣＥ_３内のコンピュートエンジンの各々と通信することができる。

【0032】

第２レベルＰＲＮベース相互接続構造２１は、メモリインタフェース通信ノードＣＮ_５を介して外部ＤＲＡＭ２１１にも接続される。この構成により、プロセッサチップ２０１のコンピュートエンジンの各々は、第１レベルＰＲＮベース相互接続構造１１～１４および第２レベルＰＲＮベース相互接続構造２１を介して、ＤＲＡＭ２１１にアクセスすることができる。たとえば、コンピューティングスライス１のコンピュートエンジンセットＣＥ_１内のコンピュートエンジンの各々は、コンピューティングスライス１の対応する第１レベルＰＲＮベース相互接続構造１１、通信ノードＣＮ_１、第２レベルＰＲＮベース相互接続構造２１、および通信ノードＣＮ_５を含む経路を介して、ＤＲＡＭ２１１にアクセスすることができる。

【0033】

図２のコンピュータシステム２００は、システムレベル相互接続チップ２１０上に製造された第３レベルＰＲＮベース相互接続構造３１も含む。第３レベルＰＲＮベース相互接続構造３１は、チップ２１０において複数の通信ノードＣＮ_１１～ＣＮ_１６に接続される。後に詳しく説明するように、第３レベルＰＲＮベース相互接続構造３１は、通信ノードＣＮ_１１～ＣＮ_１６の間でのメッセージおよびデータの送信を可能にする。通信ノードＣＮ_１１、ＣＮ_１２、ＣＮ_１３、およびＣＮ_１４は、それぞれプロセッサチップ２０１、２０２、２０３、および２０４に接続される。通信ノードＣＮ_１５およびＣＮ_１６は、それぞれホストシステムプロセッサ２０５およびシステムメモリ２０６に接続される。

【0034】

システムレベル相互接続チップ２１０は、ホストシステムプロセッサ２０５、システムメモリ２０６、およびプロセッサチップ２０１～２０４の各々の間でのデータおよびメッセージの送信を可能にする。より具体的には、ホストプロセッサ２０５は、プロセッサチップ２０１～２０４上のコンピュートエンジンのいずれか、またはプロセッサチップ２０１～２０４上のメモリバンクのいずれかと通信することができる。たとえば、ホストプロセッサ２０５は、通信ノードＣＮ_１５、第３レベルＰＲＮベース相互接続構造３１、ネットワーク通信ノードＣＮ_１１およびＣＮ_６、第２レベルＰＲＮベース相互接続構造２１、通信ノードＣＮ_１、および第１レベルＰＲＮベース相互接続構造１１を含む経路を介して、コンピューティングスライス１のコンピュートエンジンセットＣＥ_１内のコンピュートエンジン（またはコンピューティングスライス１のメモリバンクセットＭ_１のメモリバンク）にアクセスすることができる。

【0035】

ホストプロセッサ２０５は、ＤＲＡＭ２１１～２１４のいずれかと通信することもできる。たとえば、ホストプロセッサ２０５は、通信ノードＣＮ_１５、第３レベルＰＲＮベース相互接続構造３１、ネットワーク通信ノードＣＮ_１１およびＣＮ_６、第２レベルＰＲＮベース相互接続構造２１、および通信ノードＣＮ_５を含む経路を介して、ＤＲＡＭ２１１にアクセスすることができる。ホストプロセッサ２０５は、それぞれプロセッサチップ２０２～２０４内の同様の経路を介して、ＤＲＡＭ２１２～２１４にアクセスすることができる。

【0036】

ホストプロセッサ２０５は、通信ノードＣＮ_１５、第３レベルＰＲＮベース相互接続構造３１、および通信ノードＣＮ_１６を含む経路を介して、システムメモリ２０６と通信することもできる。

【0037】

加えて、プロセッサチップ２０１～２０４のいずれかにおけるコンピュートエンジンの各々は、他のプロセッサチップ２０１～２０４のいずれかにおけるコンピュートエンジンまたはメモリバンクのいずれか、ならびにこれら他のプロセッサチップに接続されたＤＲＡＭ２１１～２１４と通信することができる。

【0038】

１つの実施形態によると、プロセッサチップ２０１～２０４に位置する様々なメモリバンク、コンピュートエンジン、および通信ノード、ＤＲＡＭ２１１～２１４、ホストシステム２０５、システムメモリ２０６、およびシステムレベル相互接続チップ２１０上の通信ノードＣＮ_１１～ＣＮ_１６は、固有のシステムアドレスを割り当てられており、それによって、これらのシステム要素の各々は、他のシステム要素のいずれかによって容易にアクセスされ（その結果、それらと通信する）ことが可能である。

【0039】

図３は、プロセッサチップ２０２を詳しく示す、ＰＲＮベースのコンピュータシステム２００のブロック図である。プロセッサチップ２０１および２０２内の同様の要素は、同様の参照番号で符号付けされる。したがって、プロセッサチップ２０２は、それぞれメモリバンクセットＭ_１´、Ｍ_２´、Ｍ_３´、およびＭ_４´、それぞれコンピュートエンジンセットＣＥ_１´、ＣＥ_２´、ＣＥ_３´、およびＣＥ_４´、それぞれ第１レベルＰＲＮベース相互接続構造１１´、１２´、１３´、および１４´、およびそれぞれ通信ノードＣＮ_１´、ＣＮ_２´、ＣＮ_３´、およびＣＮ_４´を含むコンピューティングスライス１´、２´、３´、および４´を含む。プロセッサチップ２０２は、第２レベルＰＲＮベース相互接続構造２１´、それぞれＤＲＡＭ２１２およびネットワーク通信ノードＣＮ_１２´に接続されたメモリインタフェース通信ノードＣＮ_５´およびネットワーク通信ノードＣＮ_６´も含む。

【0040】

この構成により、（プロセッサチップ２０１の）コンピュートエンジンセットＣＥ_１内のコンピュートエンジンの各々は、第１レベルＰＲＮベース相互接続構造１１、通信ノードＣＮ_１、第２レベルＰＲＮベース相互接続構造２１、ネットワーク通信ノードＣＮ_６およびＣＮ_１１、第３レベルＰＲＮベース相互接続構造３１、ネットワーク通信ノードＣＮ_１２およびＣＮ_６´、第２レベルＰＲＮベース相互接続構造２１´、通信ノードＣＮ_３´、および第１レベルＰＲＮベース相互接続構造１３´を含む経路を介して、（プロセッサチップ２０２の）コンピュートエンジンセットＣＥ_３´内のコンピュートエンジンの各々にアクセスすることができる。同様に、（プロセッサチップ２０１の）コンピュートエンジンセットＣＥ_１内のコンピュートエンジンの各々は、同じ経路を用いて、（プロセッサチップ２０２の）メモリバンクセットＭ_３´内のメモリバンクの各々にアクセスすることができる。

【0041】

この構成は、各プロセッサチップのコンピュートエンジンの各々が、他のプロセッサチップに接続されたＤＲＡＭにアクセスすることも可能にする。たとえば、（プロセッサチップ２０１の）スライス１のコンピュートエンジンセットＣＥ_１内のコンピュートエンジンの各々は、スライス１の対応する第１レベルＰＲＮベース相互接続構造１１、通信ノードＣＮ_１、第２レベルＰＲＮベース相互接続構造２１、通信ノードＣＮ_６およびＣＮ_１１、第３レベルＰＲＮベース相互接続構造３１、通信ノードＣＮ_１２およびＣＮ_６´、第２レベルＰＲＮベース相互接続構造２１´、および通信ノードＣＮ_５´を含む経路を介して、（プロセッサチップ２０２に接続された）ＤＲＡＭ２１２にアクセスすることができる。

【0042】

上述したように、ＰＲＮＡ相互接続型コンピュータシステム２００は、スライスレベル、チップレベル、およびシステムレベルを含む３つのレベルの階層を有し、各レベルは、その物理構造境界によって定められる。

【0043】

コンピューティングスライス１～４（およびコンピューティングスライス１´～４´）によって表されるスライスレベルは、コンピュータシステム２００の基礎構造ブロックである。各コンピューティングスライスは、それ自体が、ホストシステムプロセッサ２０５と第１レベルＰＲＮベース相互接続構造との間のブリッジを介して小規模機械学習プロセッサとして実装され得る。

【0044】

プロセッサチップ２０１～２０４によって表されるチップレベルは、複数のコンピューティングスライスおよび対応する第２レベルＰＲＮベース相互接続構造を含む、ダイ上に含まれたサブシステムによって画定される。各プロセッサチップは、ホストシステムプロセッサ２０５と第２レベルＰＲＮベース相互接続構造との間のブリッジを介して中規模機械学習システムとして実装され得る。

【0045】

ホストシステムプロセッサ２０５を含むシステムレベルは、複数のプロセッサチップおよびシステムレベル相互接続チップ２１０上に構築される。プロセッサチップ２０１～２０４は、システムレベル相互接続チップ２１０を介して通信する。システムレベル相互接続チップ２１０によって実装される第３レベルＰＲＮベース相互接続構造３１は、有利な点として、広帯域幅、低レイテンシ、および高電力効率で動作する。並べ替えリングネットワークを用いて第１、第２、および第３レベル相互接続構造を実装することにより、システム全体で同じ通信プロトコルが維持され得る。これにより、システム全体での共有メモリおよびメッセージ受渡しプロトコルが大幅に簡略化される。上述したように、コンピュータシステム２００は、任意のコンピュートエンジンが、ＰＲＮベース相互接続構造を介してシステム２００内の全てのメモリバンクセット（たとえばメモリバンクセットＭ１～Ｍ４およびＭ１´～Ｍ４´）および全てのＤＲＡＭ（たとえばＤＲＡＭ２１１～２１４）にアクセスすることを可能にする。したがって、コンピュータシステム２００は、融通性の高い共有メモリコンピューティングシステムである。

【0046】

また、コンピュータシステム２００の全てのコンピュートエンジンは、ＰＲＮベース相互接続構造を介して互いに直接通信することができる。有利な点として、異なるコンピューティングスライスまたはチップのコンピュートエンジン間で交換されたメッセージを変換するためにソフトウェアサポートが必要ではないため、高効率なメッセージ受渡しコンピューティングシステムがもたらされる。

【0047】

図２および図３のレベル１、レベル２、およびレベル３のＰＲＮ相互接続構造を実装するために用いられたＰＲＮベース相互接続構造は、参照によってその全体が組み込まれる、共同所有の同時係属米国公開特許出願第２０１８／０１４５８５０号において詳しく説明される。様々な実施形態に係るコンピュータシステム２００におけるＰＲＮ相互接続構造の使用は、後に詳しく説明される。

【0048】

図４は、本発明の１つの実施形態に係る、第１レベル並べ替えリングネットワーク１１のブロック図である。コンピュータシステム２００の他の第１レベル並べ替えリングネットワーク（たとえば並べ替えリングネットワーク１２～１４および１１´～１４´）は、第１レベル並べ替えリングネットワーク１１と同一であってよい。図示した実施形態において、第１レベル並べ替えリングネットワーク１１は、４つの双方向ソースシンクロナスリングネットワーク４０１、４０２、４０４、および４０４を含む。リングネットワーク４０１～４０４の各々は、通信チャネルとしての機能を果たす。図示した並べ替えリングネットワーク１１は、９つの通信ノード（すなわち通信ノードＣＮ_１、コンピュートエンジンセットＣＥ_１のコンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、およびメモリバンクセットＭ_１のメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄ）および４つの通信チャネル４０１～４０４を含むが、他の実施形態において、他の数の通信ノードおよび通信チャネルが用いられ得ることが理解される。一般に、第１レベル並べ替えリングネットワーク１１内の通信ノードの数は、値Ｎで識別され、第１レベル並べ替えリングネットワーク１１内の双方向リングネットワークの数は、値Ｍで識別される。通信チャネルの数（Ｍ）は、通信ネットワークの帯域幅要件と通信ネットワークのエリア電力制約との適当なトレードオフをもたらすように選択される。

【0049】

通信チャネル４０１～４０４の各々は、双方向リンク（相互接続）によって接続された複数のデータ伝送機構を含む。より具体的には、通信チャネル４０１は、９つのデータ伝送機構Ａ０～Ａ８を含み、通信チャネル４０２は、９つのデータ伝送機構Ｂ０～Ｂ８を含み、通信チャネル４０３は、９つのデータ伝送機構Ｃ０～Ｃ８を含み、通信チャネル４０４は、９つのデータ伝送機構Ｄ０～Ｄ８を含む。通信チャネル４０１の双方向リンクは、リング内のデータ伝送機構Ａ０～Ａ８を結ぶ実線で示される。通信チャネル４０２の双方向リンクは、リング内のデータ伝送機構Ｂ０～Ｂ８を結ぶ長破線で示される。通信チャネル４０３の双方向リンクは、リング内のデータ伝送機構Ｃ０～Ｃ８を結ぶ点線で示される。通信チャネル４０４の双方向リンクは、リング内のデータ伝送機構Ｄ０～Ｄ８を結ぶ短破線で示される。双方向リンクは、時計回りおよび反時計回りの両方でのデータおよびクロック信号の同時送信を可能にする。

【0050】

一般に、データ伝送機構Ａ０～Ａ８、Ｂ０～Ｂ８、Ｃ０～Ｃ８、およびＤ０～Ｄ８の各々は、９つの通信ノードと通信チャネル４０１～４０４との間のデータ転送を可能にする。

【0051】

一般に、通信チャネル４０１～４０４の各々は、マスタクロック信号を受信するために接続される。したがって、図４の例において、通信チャネル４０１、４０２、４０３、および４０４は、それぞれマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤを受信するために接続される。図示した実施形態において、データ伝送機構Ａ０、Ｂ０、Ｃ０、およびＤ０が、それぞれマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤを受信するために接続され得る。ただし、他の実施形態において、通信チャネル４０１、４０２、４０３、および４０４内の他のデータ伝送機構が、それぞれマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤを受信するために接続され得る。４つの個別のマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤが例示されたが、マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤの各々は、単一のマスタクロック信号から導出され得ることが理解される。説明される実施形態において、マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤの各々は、同じ周波数を有する。

【0052】

マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤを生成するために、従来のクロック生成回路（たとえば位相ロックループ回路）が用いられ得る。説明される実施形態において、マスタクロック信号は、約５ＧＨｚ以上の周波数を有してよい。ただし、マスタクロック信号は、他の実施形態において、他の周波数を有し得ることが理解される。マスタクロック信号の周波数および電圧は、リングネットワークアーキテクチャの帯域幅需要および電力最適化に基づいてスケーリングされ得る。図示した実施形態において、データ伝送機構Ａ０、Ｂ０、Ｃ０、およびＤ０は、それぞれマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤを受信する。他のデータ伝送機構の各々は、隣接するデータ伝送機構から、自身のクロック信号を受信する。すなわち、マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤは、連続して、それぞれ通信チャネル４０１、４０２、４０２、および４０４のデータ伝送機構の各々へ効率的に送信される。

【0053】

通信チャネル４０１、４０２、４０３、および４０４の各々は、それぞれ自身の対応するマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤに関してソースシンクロナス方式で動作する。

【0054】

一般に、各データ伝送機構は、２つの経路で出力メッセージを送信してよい。第１の経路において、上流のデータ伝送機構によって受信されたメッセージは、下流のデータ伝送機構へ転送される（たとえば、データ伝送機構Ａ０は、時計回りの経路において、下流のデータ伝送機構Ａ８から受信したメッセージを上流のデータ伝送機構Ａ１へ転送してよく、または、データ伝送機構Ａ０は、反時計回りの経路において、下流のデータ伝送機構Ａ１から受信したメッセージを上流のデータ伝送機構Ａ８へ転送してよい）。第２の経路において、データ伝送機構に接続された通信ノードによって提供されたメッセージは、下流のデータ伝送機構にルート指定される（たとえば、データ伝送機構Ａ０は、コンピュートエンジンセットＣＥ_１Ａから受信したメッセージを、時計回りの経路において下流のデータ伝送機構Ａ１へ、または反時計回りの経路において下流のデータ伝送機構Ａ８へ転送してよい）。また、第２の経路において、データ伝送機構によって受信されたメッセージは、アドレス指定された通信ノードにルート指定される（たとえば、データ伝送機構Ａ０は、時計回りの経路において下流のデータ伝送機構Ａ８から受信したメッセージをコンピュートエンジンセットＣＥ_１Ａへ転送してよく、反時計回りの経路において下流のデータ伝送機構Ａ０から受信したメッセージをコンピュートエンジンセットＣＥ_１Ａへ転送してよい）。留意すべき点として、データ伝送機構間でクロック信号およびメッセージを送信するために用いられるワイヤおよびバッファは、セットアップおよびホールド時間ロスを最小限にするために、高度に等化および平衡化される。

【0055】

クロック信号経路およびメッセージバスは、ウェーブパイプラインシステムとして動作し、データ伝送機構間で送信されるメッセージは、クロック信号経路上で送信されたクロック信号を用いてソースシンクロナス方式で受信側データ伝送機構にラッチされる。このようにすると、メッセージは、データ伝送機構間で、マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤの周波数で送信され、データ伝送機構間の高速データ転送が可能となる。

【0056】

ポイントツーポイントソースシンクロナス通信が実施されることにより、クロック信号線構造およびメッセージバス構造のワイヤおよびバッファ遅延が通信チャネル４０１～４０４の動作周波数を低下させることはない。

【0057】

データ伝送機構が比較的単純な設計を有することにより、並べ替えリングネットワーク１１におけるメッセージの送信は、比較的高い周波数で行われ得る。通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄは典型的には、より複雑な設計を含み、マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤの周波数よりも緩慢な周波数で動作し得る。

【0058】

留意すべき点として、通信チャネル４０１～４０４の環状構成は、発信源のデータ伝送機構Ａ０、Ｂ０、Ｃ０、およびＤ０（マスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤを受信するデータ伝送機構）によって受信されるメッセージが、それぞれマスタクロック信号ＣＫＡ、ＣＫＢ、ＣＫＣ、およびＣＫＤに再同期されなければならないことを必須とする。１つの実施形態において、再同期回路（不図示）は、下流のデータ伝送機構から受信した入来クロック信号に応答して、第１のフリップフロップに入来メッセージをラッチすることによって、この同期動作を行う。この第１のフリップフロップの出力において提供されたメッセージは、その後、マスタクロック信号（たとえばＣＫＡ）に応答して、第２のフリップフロップにラッチされる。第２のフリップフロップは、同期化メッセージを発信源のデータ伝送機構（たとえばデータ伝送機構Ａ０）へ提供する。この同期化メッセージは、マスタクロック信号（ＣＫＡ）に応答して、発信源のデータ伝送機構（Ａ０）に格納される。

【0059】

ここで、第１レベル並べ替えリングネットワーク１１のトポグラフィに戻ると、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、およびメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄの各々は、４つの通信チャネル４０１～４０４の各々におけるデータ伝送機構Ａ０～Ａ８、Ｂ０～Ｂ８、Ｃ０～Ｃ８、およびＤ０～Ｄ８の固有の１つに接続される。たとえば、コンピュートエンジンＣＥ_１Ａは、通信チャネル４０１内のデータ伝送機構Ａ０、通信チャネル４０２内のデータ伝送機構Ｂ８、通信チャネル４０３内のデータ伝送機構Ｃ７、および通信チャネル４０４内のデータ伝送機構Ｄ６に接続される。以下の表１は、１つの実施形態に従って、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄと、データ伝送機構Ａ０～Ａ８、Ｂ０～Ｂ８、Ｃ０～Ｃ８、およびＤ０～Ｄ８との間の接続を定める。留意すべき点として、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、およびメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄと、データ伝送機構Ａ０～Ａ８、Ｂ０～Ｂ８、およびＣ０～Ｃ８との間の物理接続は、明確性のために図４には明示されない。

【0060】

【表1】

【0061】

図５は、４つの通信チャネル４０１～４０４の相互接続マトリックス５００を提供するために表１のデータを並べ替えるものであり、相互接続マトリックス５００は、通信チャネル４０１～４０４の各々におけるデータ伝送機構によって順序付けされる。この相互接続マトリックス５００は、通信チャネル４０１～４０４の各々における、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄの間のホップ数の決定を容易にする。留意すべき点として、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄは、４つの通信チャネル４０１～４０４において異なる相対位置を有するデータ伝送機構に接続される。後に詳しく説明するように、この構成は、通信ノード間のメッセージの多様かつ効率的なルート指定を可能にする。

【0062】

図６は、本実施形態に係る、並べ替えリングネットワーク１１を介した、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄの間のトラフィックの流れを定めるルート指定表６００である。たとえば、通信ノードＣＮ_１およびコンピュートエンジンＣＥ_１Ａは、通信チャネル４０４においてデータ伝送機構Ｄ５とＤ６との間の経路を用いて通信する。この経路に沿ったホップ数は、通信チャネル４０４において通過するセグメントの数によって定められる。データ伝送機構Ｄ５およびＤ６は通信チャネル４０４において隣り合う（すなわち、データ伝送機構Ｄ５とＤ６との間に１つのセグメントが存在する）ので、通信ノードＣＮ_１とコンピュートエンジンＣＥ_１Ａとの間の通信経路は、１ホップ（１Ｈ）で構成される。

【0063】

ルート指定表６００によって示されるように、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄの間の全ての関連通信経路は、固有の１ホップ通信経路を含む。また他の実施形態において、通信ノードＣＮ_１、コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄの１または複数のペア間に、複数の通信経路が提供され得る。他の実施形態において、異なる通信ノードペアが、同じ通信経路を共有してよい。

【0064】

データ伝送機構Ａ０～Ａ８、Ｂ０～Ｂ８、Ｃ０～Ｃ８、およびＤ０～Ｄ８の間の通信は、ソースシンクロナスネットワークによって可能な最も高い周波数で動作する。この周波数は、通信ノードの数および通信チャネルの数がスケールアップしても低下しない。通信チャネル４０１～４０４の各々は、初期化、仲裁、流れ制御、およびエラー処理のための規定を含むことが理解される。１つの実施形態において、これらの規定は、確立した技術を用いて提供される。

【0065】

コンピュートエンジンＣＥ_１Ａ、ＣＥ_１Ｂ、ＣＥ_１Ｃ、およびＣＥ_１Ｄ、ならびにメモリバンクＭ_１Ａ、Ｍ_１Ｂ、Ｍ_１Ｃ、およびＭ_１Ｄの各々は、ルート指定表６００に従って、並べ替えリングネットワーク１１上で（データを含み得る）メッセージを送信する。たとえば、コンピュートエンジンＣＥ_１Ａは、通信チャネル４０４を用いてメモリバンクＭ_１Ｃへデータ要求メッセージを送信してよい。より具体的には、コンピュートエンジンＣＥ_１Ａは、データ伝送機構Ｃ７の時計回り送信経路へデータ要求メッセージを送信してよい。このデータ要求メッセージは、データ伝送機構Ｃ８およびメモリバンクＭ_１Ｃをアドレス指定する。データ要求メッセージを受信すると、データ伝送機構Ｃ８は、データ要求メッセージがメモリバンクＭ_１Ｃをアドレス指定することを決定し、メモリバンクＭ_１Ｃへデータ要求メッセージを転送する。データ要求メッセージを処理した後、メモリバンクＭ_１Ｃは、データ伝送機構Ｃ８の反時計回り送信経路へデータ応答メッセージを送信してよい。このデータ応答メッセージは、データ伝送機構Ｃ７およびコンピュートエンジンＣＥ_１Ａをアドレス指定する。データ応答メッセージを受信すると、データ伝送機構Ｃ７は、データ応答メッセージがコンピュートエンジンＣＥ_１Ａをアドレス指定することを決定し、コンピュートエンジンＣＥ_１Ａへデータ応答メッセージを転送する。

【0066】

メッセージは、通信ノードＣＮ_１を介して並べ替えリングネットワーク１１の内外へ送信され得る。たとえば、スライス１のコンピュートエンジンＣＥ_１Ａは、通信チャネル４０４を用いて、コンピューティングスライス２のメモリバンクＭ_２Ａへデータ要求メッセージを送信してよい。より具体的には、コンピュートエンジンＣＥ_１Ａは、データ伝送機構Ｄ６の反時計回りの送信経路へデータ要求メッセージを送信してよい。このデータ要求メッセージは、データ伝送機構Ｄ５および通信ノードＣＮ_１（ならびにコンピューティングスライス２の通信ノードＣＮ_２およびコンピューティングスライス２内のメモリバンクＭ_２Ａ）をアドレス指定する。データ要求メッセージを受信すると、データ伝送機構Ｄ５は、データ要求メッセージが通信ノードＣＮ_１をアドレス指定することを決定し、通信ノードＣＮ_１へデータ要求メッセージを転送する。応答して、通信ノードＣＮ_１は、データ要求メッセージがコンピューティングスライス２内の通信ノードＣＮ_２をアドレス指定することを決定し、（第２レベルＰＲＮ相互接続２１によって実装されるルート指定表を用いて）第２レベルＰＲＮ相互接続２１においてデータ要求メッセージを転送する。留意すべき点として、第２レベルＰＲＮ相互接続２１は、通信ノードＣＮ_１～ＣＮ_６の間でメッセージをルート指定するために、第１レベルＰＲＮ相互接続１１と同様のＰＲＮ構造を用いる。留意すべき点として、第２レベルＰＲＮ相互接続２１の実施は、第２レベルＰＲＮ相互接続２１によってサービス提供される通信ノードの異なる数により、第１レベルＰＲＮ相互接続１１の実装とは異なり得る（たとえば、異なる数の通信チャネル、異なるルート指定表）。１つの実施形態によると、第２レベルＰＲＮベース相互接続構造２１は、３つの通信チャネル（すなわち、３つの双方向リングネットワーク）を含み、各通信チャネルは、６つのデータ伝送機構を含む。この実施形態において、通信ノードＣＮ_１～ＣＮ_６の各々は、３つの通信チャネルの各々におけるデータ伝送機構の対応する１つに接続される。

【0067】

通信ノードＣＮ_２に関連するデータ伝送機構は、第２レベルＰＲＮ相互接続２１において送信されたデータ要求メッセージを受信し、データ要求メッセージが通信ノードＣＮ_２をアドレス指定することを決定し、通信ノードＣＮ_２へデータ要求メッセージを転送する。応答して、通信ノードＣＮ_２は、データ要求メッセージがコンピューティングスライス２内のメモリバンクＭ_２Ａをアドレス指定することを決定し、（第１レベルＰＲＮ相互接続１２によって実装されるルート指定表を用いて）第１レベルＰＲＮ相互接続１２においてデータ要求メッセージを転送する。留意すべき点として、第１レベルＰＲＮ相互接続１２は、通信ノードＣＮ_２、（コンピュートエンジンセットＣＥ_２の）コンピュートエンジンＣＥ_２Ａ、ＣＥ_２Ｂ、ＣＥ_２Ｃ、ＣＥ_２Ｄ、ならびに（メモリバンクセットＭ_２の）メモリバンクＭ_２Ａ、Ｍ_２Ｂ、Ｍ_２Ｃ、およびＭ_２Ｄの間でメッセージをルート指定するために第１レベルＰＲＮ相互接続１１と同様のＰＲＮ構造を用いる。

【0068】

メモリバンクＭ_２Ａに関連するデータ伝送機構は、第１レベルＰＲＮ相互接続１２において送信されたデータ要求メッセージを受信し、データ要求メッセージがメモリバンクＭ_２Ａをアドレス指定することを決定し、メモリバンクＭ_２Ａへデータ要求メッセージを転送する。メモリバンクＭ_２Ａは、その後、データ要求メッセージに応答してよい。たとえば、メモリバンクＭ_２Ａは、格納されたデータ値を取得し、このデータ値を、データ応答メッセージを用いてコンピュートエンジンＣ_１Ａへ返信してよい。このデータ応答メッセージは、元のデータ要求メッセージの逆経路を用いてコンピュートエンジンＣ_１Ａへ送信される。

【0069】

１つの実施形態によると、第３レベルＰＲＮベース相互接続構造３１は、３つの通信チャネル（すなわち、３つの双方向リングネットワーク）を含み、各通信チャネルは、６つのデータ伝送機構を含む。この実施形態において、通信ノードＣＮ_１１～ＣＮ_１６の各々は、３つの通信チャネルの各々におけるデータ伝送機構の対応する１つに接続される。

【0070】

上述したフラットコンピュータアーキテクチャおよびメッセージングシステムを用いて、メッセージは、メッセージングプロトコルの変更を必要とせず、第１、第２、および第３レベルＰＲＮ相互接続構造を介して、コンピュータシステム２００の様々な要素のいずれかの間で送信され得る。１つの実施形態によると、コンピュータシステム２００の要素の各々は、固有の（システム）アドレスを割り当てられる。このようなシステム２００の様々な要素のアドレスマッピングにより、これらの要素は、第１、第２、および第３レベルＰＲＮ相互接続構造にわたり一貫してアクセスされることが可能である。留意すべき点として、コンピュータシステム２００は、コンピューティングスライス内のメモリバンク、ＤＲＡＭ２１１～２１４、またはシステムメモリ２０６によって格納されたデータのコヒーレンスを明確に確実にするものではないため、非コヒーレントなシステムである。代わりに、ユーザは、所望の方法で、これらのメモリによって格納されたデータを制御することを要求される。したがって、コンピュータシステム２００は、たとえばニューラルネットワークの順方向伝搬によって実装されるモデルなどの生産者消費者実行モデルを実装するために適している。すなわち、コンピュータシステム２００は、ニューラルネットワーク／機械学習アプリケーションにおいて効率的にデータを処理することができる。コンピュータシステム２００の改善されたネットワークトポロジは、有利な点として、複数のチップ間でのキャッシュコヒーレンスプロトコルを必要とせず、複数のチップに広がることができる。したがってコンピュータシステム２００は、容易にスケーリング可能であり、多数の異なるチップ間の通信を提供することができる。

【0071】

上述した実施形態において、第１レベル相互接続構造１１、第２レベル相互接続構造２１、および第３レベル相互接続構造３１は全て、双方向ソースシンクロナス並べ替えリングネットワークを用いて実装される。ただし、本発明の代替実施形態において、第１レベル相互接続構造は、非ＰＲＮベースの構造を用いて実装され得る。

【0072】

図７は、本発明の代替実施形態に係るコンピュータシステム７００のブロック図である。コンピュータシステム７００はコンピュータシステム２００と同様であるため、図７および図２における同様の要素は、同様の参照番号で符号付けされる。したがって、コンピュータシステム７００は、複数のプロセッサチップ７０１～７０４、ホストプロセッサシステム２０５、システムメモリ２０６、システムレベル相互接続チップ２１０、およびＤＲＡＭデバイス２１１～２１４を含む。４つのプロセッサチップ７０１～７０４のみが図７に示されるが、コンピュータシステム７００は、他の実施形態において、他の数のプロセッサチップを含むように容易に変更され得ることが理解される。また、プロセッサチップ７０１のみが図７において詳しく示されるが、プロセッサチップ７０２～７０４は、説明される実施形態において、プロセッサチップ７０１と同じ（または同様の）内部要素を含むことが理解される。後に詳しく説明するように、プロセッサチップ７０１は、プロセッサチップ２０１の第１レベルＰＲＮベース相互接続構造１１～１４の代わりに、単純なネットワーク相互接続構造７１１～７１４を用いる。単純なネットワーク相互接続構造７１１～７１４は、たとえば、クロスバースイッチベースの相互接続構造、または単純なリングネットワークであってよい。

【0073】

図示した実施形態において、プロセッサチップ７０１は、第２レベル並べ替えリングネットワーク相互接続構造２１に接続された４つのコンピューティングスライス７１、７２、７３、および７４を含む。４つのコンピューティングスライスが図７に示されるが、他の実施形態において、他の数のコンピューティングスライスがプロセッサチップ７０１上に含まれ得ることが理解される。各コンピューティングスライスは、複数のコンピュートエンジン、複数のメモリバンク、通信ノード、および単純なネットワーク相互接続構造を含む。より具体的には、スライス７１、７２、７３、および７４は、それぞれコンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４、それぞれメモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４、それぞれ単純なネットワーク相互接続構造７１１、７１２、７１３、および７１４、ならびにそれぞれ通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４を含む。コンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４ならびにメモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４は、図２および図３に関連して詳しく上述される。

【0074】

スライス７１、７２、７３、および７４の各々において、対応する単純なネットワーク相互接続構造７１１、７１２、７１３、および７１４は、対応するコンピュートエンジンセットＣＥ_１、ＣＥ_２、ＣＥ_３、およびＣＥ_４と、対応するメモリバンクセットＭ_１、Ｍ_２、Ｍ_３、およびＭ_４とを接続する。これにより、コンピュートエンジンの各々は、対応する単純なネットワークを用いて、同じスライス内のメモリバンクの各々にアクセスすることができる。

【0075】

単純なネットワーク相互接続構造７１１、７１２、７１３、および７１４は、対応するコンピューティングスライス７１、７２、７３、および７４内の対応する通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４にも接続される。通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４は、上述した方法で、第２レベルＰＲＮベース相互接続構造２１に接続される。通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４は、対応する単純なネットワーク相互接続構造７１１、７１２、７１３、および７１４と、第２レベルＰＲＮベース相互接続構造２１との間でメッセージおよびデータを受け渡す。留意すべき点として、単純なネットワーク相互接続構造７１１、７１２、７１３、および７１４と、対応する通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４との間で送信されるメッセージは、受信側システムと一致するプロトコルに変換される必要がある。そのような変換は、単純なネットワーク相互接続構造７１１～７１４内のインタフェース、または通信ノードＣＮ_１、ＣＮ_２、ＣＮ_３、およびＣＮ_４内のインタフェースによって実施され得る。このプロトコル変換は、コンピュータシステム７００の動作を複雑化するが、各コンピューティングスライスにおける単純なネットワーク相互接続構造の使用を可能にし、コンピューティングスライス７１～７４の必要なレイアウトエリアを低減し得る。

【0076】

本発明の他の実施形態において、（上記図７において、第１レベルＰＲＮベース相互接続構造１１～１４の代わりに単純なネットワーク構造７１１～７１４が用いられたのと同様に）第３レベルＰＲＮベース相互接続構造３１の代わりに、たとえばクロスバースイッチベースの相互接続構造または単純なリングネットワークなどの単純なネットワーク相互接続構造が用いられる。図８は、上述したように、システムレベル相互接続チップ８１０において第３レベルＰＲＮベース相互接続構造３１の代わりに単純なネットワーク相互接続構造８１が用いられる、この代替実施形態に係るコンピュータシステム８００のブロック図である。たとえばクロスバースイッチベースの相互接続構造または単純なリングネットワークを含み得る単純なネットワーク相互接続構造８１は、通信ノードＣＮ_１１～ＣＮ_１６の間の接続を提供する。留意すべき点として、プロセッサチップ７０１～７０４、ホストプロセッサシステム２０５、およびシステムメモリ２０６と、対応する通信ノードＣＮ_１１、ＣＮ_１２、ＣＮ_１３、ＣＮ_１４、ＣＮ_１５、およびＣＮ_１６との間で送信されるメッセージは、受信側システムと一致するプロトコルに変換される必要がある。そのような変換は、単純なネットワーク相互接続構造８１内のインタフェース、または通信ノードＣＮ_１１～ＣＮ_１６内のインタフェースによって実施され得る。このプロトコル変換は、コンピュータシステム８００の動作を複雑化するが、システムレベル相互接続チップ８１０における単純なネットワーク相互接続構造の使用を可能にする。

【0077】

システムレベル相互接続チップ８１０の単純なネットワーク相互接続構造８１は、単純なネットワーク相互接続構造７１１～７１３を有するコンピューティングスライス７１～７４と組み合わせて示されるが、システムレベル相互接続チップ８１０の単純なネットワーク相互接続構造８１は、図２によって示したように、第１レベルＰＲＮベース相互接続構造１１～１４を有するコンピューティングスライス１～４と組み合わせて用いられてもよいことが理解される。

【0078】

双方向ソースシンクロナス並べ替えリングネットワークとともに第１および第３レベル相互接続構造が実装される（図２Ａ～２Ｂ）べきか、たとえばクロスバースイッチまたは単純なリングネットワークなどの単純なネットワーク相互接続構造が実装される（図７～８）べきかを決定するために、いくつかの要因が用いられ得る。並べ替えリングネットワークは、単純な単一リングネットワークよりも良好な性能を提供する（が、より大きなレイアウトエリアを必要とする）。並べ替えリングネットワークはまた、一般に、クロスバースイッチよりも良好な性能を提供する（かつ、より大きなレイアウトエリアを必要とし得る）。一般に、相互接続構造によって接続される通信ノードが多いほど、単一リングネットワークまたはクロスバースイッチではなく並べ替えリングネットワークを用いることが（レイアウトエリアおよび性能の観点で）効率的になる。１つの実施形態によると、接続される通信ノードの数が４以上である場合、並べ替えリングネットワークが用いられる。

【0079】

本発明は、いくつかの実施形態に関して説明されたが、本発明は、開示された実施形態に限定されることなく、当業者には明らかである様々な変更が可能であることが理解される。したがって、本発明は、以下の特許請求の範囲によってのみ限定される。

【図1】