特許7551731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グラフコアー　リミテッドの特許一覧

特許7551731２つの組み込みリングを有するネットワークコンピュータ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
1A
1B
1C
1D
2
3A
3B
4A
4B
4C
4D
4E
5A
5B
6A
6B
7A
7B
8A
8B
8C
8D

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-06

(45)【発行日】2024-09-17

(54)【発明の名称】２つの組み込みリングを有するネットワークコンピュータ

(51)【国際特許分類】

G06F 15/173 20060101AFI20240909BHJP

【ＦＩ】

G06F15/173 660C

G06F15/173 683

【請求項の数】 30

(21)【出願番号】P 2022507331

(86)(22)【出願日】2021-03-24

(65)【公表番号】

(43)【公表日】2022-10-14

(86)【国際出願番号】 EP2021057558

(87)【国際公開番号】W WO2021191271

(87)【国際公開日】2021-09-30

【審査請求日】2022-02-04

(31)【優先権主張番号】2004430.1

(32)【優先日】2020-03-26

(33)【優先権主張国・地域又は機関】GB

(31)【優先権主張番号】2006402.8

(32)【優先日】2020-04-30

(33)【優先権主張国・地域又は機関】GB

【前置審査】

(73)【特許権者】

【識別番号】518371892

【氏名又は名称】グラフコアーリミテッド

【氏名又は名称原語表記】ＧｒａｐｈｃｏｒｅＬｉｍｉｔｅｄ

【住所又は居所原語表記】１１－１９ＷｉｎｅＳｔｒｅｅｔ，Ｂｒｉｓｔｏｌ，ＢＳ１２ＰＨ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ

(74)【代理人】

【識別番号】100169904

【弁理士】

【氏名又は名称】村井康司

(74)【代理人】

【識別番号】100221372

【弁理士】

【氏名又は名称】岡崎信治

(72)【発明者】

【氏名】サイモンノウルズ

【審査官】三坂敏夫

(56)【参考文献】

【文献】米国特許出願公開第２０１９／００４５００３（ＵＳ，Ａ１）

【文献】特開２００４－１１８８５５（ＪＰ，Ａ）

【文献】特開２００６－２１５８１６（ＪＰ，Ａ）

【文献】特開平０６－２９０１５８（ＪＰ，Ａ）

【文献】国際公開第２０１２／０４２６５８（ＷＯ，Ａ１）

【文献】CARLO H. SEQUIN，Doubly twisted torus networks for VLSI processor arrays，ISCA'81:Proceedings of the 8th annual symposium on Computer Architecture，米国，ACM，1981年05月12日，Pages 471-480

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１５／１６－１５／１７７

(57)【特許請求の範囲】

【請求項1】

相互接続されたノードの複数の層が軸に沿って配置される構成で配置された複数の相互接続された処理ノードを含むコンピュータであって、
各層は、隣接する処理ノードの各ペア間の少なくともそれぞれの層内リンクにより非軸方向リング状に接続された少なくとも４つの処理ノードを含み、
各層内の前記少なくとも４つの処理ノードの各々は、層間リンクにより、１つ以上の隣接する層内の対応するノードに接続され、
前記コンピュータは、前記構成において、２つの組み込み１次元経路を提供し、前記２つの組み込み１次元経路の各々を周回してデータを送信するようにプログラムされ、各組み込み１次元経路は、前記２つの組み込み１次元経路がリンクを共有することなく同時に動作するように、前記コンピュータの全ての処理ノードを使用し、
各層内の処理ノードの数よりも多い数の、前記軸に沿って配置された層を含む、
コンピュータ。

【請求項2】

相互接続されたノードの複数の層が軸に沿って配置される構成で配置された複数の相互接続された処理ノードを含むコンピュータであって、
各層は、隣接する処理ノードの各ペア間の少なくともそれぞれの層内リンクにより非軸方向リング状に接続された少なくとも４つの処理ノードを含み、
各層内の前記少なくとも４つの処理ノードの各々は、層間リンクにより、１つ以上の隣接する層内の対応するノードに接続され、
前記コンピュータは、前記構成において、２つの組み込み１次元経路を提供し、前記２つの組み込み１次元経路の各々を周回してデータを送信するようにプログラムされ、各組み込み１次元経路は、前記２つの組み込み１次元経路がリンクを共有することなく同時に動作するように、前記コンピュータの全ての処理ノードを使用し、
各層内のノードの数と同じ数の、前記軸に沿って配置された層を含む、
コンピュータ。

【請求項3】

前記構成は、前記複数の層の接続された対応するノードが少なくとも４つの軸方向リングを形成する環状構成である、請求項１又は２に記載のコンピュータ。

【請求項4】

前記複数の層は、第１及び第２の末端層と、前記第１及び第２の末端層間の少なくとも１つの中間層とを含み、
前記第１の末端層内の各処理ノードは、前記第１の末端層内において、隣接するノードに加えて非隣接ノードに接続され、
前記第２の末端層内の各処理ノードは、前記第２の末端層内において、隣接するノードに加えて非隣接ノードに接続される、請求項１又は２に記載のコンピュータ。

【請求項5】

各処理ノードは、それぞれの層内及び層間リンクにおいて、前記処理ノードの前記層内及び層間リンクの各々で同じ帯域幅にてデータを出力するように構成される、請求項１～４のいずれか一項に記載のコンピュータ。

【請求項6】

前記複数の層の各層は、４つのノードを有する、請求項１～５のいずれか一項に記載のコンピュータ。

【請求項7】

前記層内及び層間リンクは、前記処理ノード間の固定接続を含む、請求項１～６のいずれか一項に記載のコンピュータ。

【請求項8】

前記層間及び層内リンクの少なくとも１つは、前記処理ノードの１つを複数の他の処理ノードの１つに選択的に接続するように動作可能なスイッチング回路を含む、請求項１～６のいずれか一項に記載のコンピュータ。

【請求項9】

前記第１の末端層内の処理ノードの前記層間及び層内リンクの少なくとも１つは、前記処理ノードを前記第２の末端層内のその対応するノードから切り離し、それを前記第１の末端層内の非隣接ノードに接続するように動作可能なスイッチング回路を含む、請求項４に記載のコンピュータ。

【請求項10】

前記第１の末端層内の処理ノードの前記層間リンクの少なくとも１つは、前記処理ノードを前記第１の末端層内の隣接するノードから切り離し、それを前記第２の末端層内の対応するノードに接続するように動作可能なスイッチング回路を含む、請求項４に記載のコンピュータ。

【請求項11】

各組み込み１次元経路は、前記層間リンクの１つと前記層内リンクの１つとの交互のシーケンスを含む、請求項１～１０のいずれか一項に記載のコンピュータ。

【請求項12】

各１次元組み込み経路は、各１次元経路内の全ての層で同じである方向において各層内で辿られる処理ノードのシーケンスを含む、請求項１～１１のいずれか一項に記載のコンピュータ。

【請求項13】

各１次元組み込み経路は、各１次元経路内の連続的な層で異なる方向において各層内で辿られる処理ノードのシーケンスを含む、請求項１～１１のいずれか一項に記載のコンピュータ。

【請求項14】

非軸方向リング状に接続された４つの処理ノードをそれぞれ有する６つの層を含む、請求項１又は請求項１に従属する請求項３～１３のいずれか一項に記載のコンピュータ。

【請求項15】

非軸方向リング状に接続された８つの処理ノードをそれぞれ有する８つの層を含む、請求項２又は請求項２に従属する請求項３～１３のいずれか一項に記載のコンピュータ。

【請求項16】

リング状に接続された４つの処理ノードをそれぞれ有する８つの層を含む、請求項１又は請求項１に従属する請求項３～１３のいずれか一項に記載のコンピュータ。

【請求項17】

リング状に接続された４つの処理ノードをそれぞれ有する４つの層を含む、請求項２又は請求項２に従属する請求項３～１３のいずれか一項に記載のコンピュータ。

【請求項18】

各処理ノードは、前記処理ノードの対応する部分ベクトルをフラグメントに分割し、前記データを、連続的なフラグメントの形式で各組み込み１次元経路を周回して送信するようにプログラムされる、請求項１～１７のいずれか一項に記載のコンピュータ。

【請求項19】

各経路を論理リングの組として動作させるようにプログラムされ、前記連続的なフラグメントは、同時送信ステップで各論理リングを周回して送信される、請求項１８に記載のコンピュータ。

【請求項20】

各処理ノードは、２つのリンクの各々でそれぞれのフラグメントを同時に出力するように構成され、前記リンクの各々で出力される前記フラグメントは同じサイズを有する、請求項１８又は１９に記載のコンピュータ。

【請求項21】

各処理ノードは、複数の入力フラグメントを複数の局所的に保存されたフラグメントと共に集約するように構成される、請求項１８～２０のいずれか一項に記載のコンピュータ。

【請求項22】

各処理ノードは、その層内及び層間リンクの各々において、完全に集約されたフラグメントをＡｌｌｒｅｄｕｃｅコレクティブのＡｌｌｇａｔｈｅｒフェーズで同時に送信するように構成される、請求項２１に記載のコンピュータ。

【請求項23】

軸に沿って配置された複数の層を有する構成で接続された複数の処理ノードを含むコンピュータで並列に実行されるプログラムの組を生成する方法であって、
各層は、隣接する処理ノードの各ペア間のそれぞれの層内リンクにより、非軸方向リング状に接続された少なくとも４つの処理ノードを含み、
各層内の処理ノードは、層間リンクにより、隣接する層内の対応するノードに接続され、各層内の処理ノードの数よりも多い数の、前記軸に沿って配置された層を含み、前記方法は、
各プログラムについて、前記プログラムを実行する前記処理ノードからデータが送信されるデータ送信段階を定義するための少なくとも１つのデータ送信命令を生成するステップであって、前記データ送信命令は、前記データ送信段階で前記処理ノードからデータが送信される出力リンクを定義するリンク識別子を含む、ステップと、
前記構成によって提供される２つの組み込み１次元経路の各々を周回してデータを送信するために前記リンク識別子を決定するステップであって、各組み込み１次元経路は、前記組み込み１次元論理経路がリンクを共有することなく同時に動作するように、前記コンピュータの全ての処理ノードを使用する、ステップと、
を含む、方法。

【請求項24】

軸に沿って配置された複数の層を有する構成で接続された複数の処理ノードを含むコンピュータで並列に実行されるプログラムの組を生成する方法であって、
各層は、隣接する処理ノードの各ペア間のそれぞれの層内リンクにより、非軸方向リング状に接続された少なくとも４つの処理ノードを含み、
各層内の処理ノードは、層間リンクにより、隣接する層内の対応するノードに接続され、各層内のノードの数と同じ数の、前記軸に沿って配置された層を含み、前記方法は、
各プログラムについて、前記プログラムを実行する前記処理ノードからデータが送信されるデータ送信段階を定義するための少なくとも１つのデータ送信命令を生成するステップであって、前記データ送信命令は、前記データ送信段階で前記処理ノードからデータが送信される出力リンクを定義するリンク識別子を含む、ステップと、
前記構成によって提供される２つの組み込み１次元経路の各々を周回してデータを送信するために前記リンク識別子を決定するステップであって、各組み込み１次元経路は、前記組み込み１次元論理経路がリンクを共有することなく同時に動作するように、前記コンピュータの全ての処理ノードを使用する、ステップと、
を含む、方法。

【請求項25】

各プログラムは、前記データの送信ステップで使用されない層間及び層内リンクのいずれも無効化するための１つ以上の命令を含む、請求項２３又は２４に記載の方法。

【請求項26】

各プログラムは、前記プログラムが実行される前記処理ノードのそれぞれの部分ベクトルをフラグメントに分割し、それぞれに定義されたリンクを介して連続的なフラグメントの形式で前記データを送信するための１つ以上の命令を含む、請求項２３～２５のいずれかに記載の方法。

【請求項27】

軸に沿って配置された複数の層を有する構成で接続された複数の処理ノードを含むコンピュータでプログラムの組を並列に実行する方法であって、
各層は、隣接する処理ノードの各ペア間の層内リンクにより、非軸方向リング状に接続された少なくとも４つの処理ノードを含み、
各層内の処理ノードは、層間リンクにより、それぞれの隣接する層内のそれぞれの対応するノードに接続され、各層内の処理ノードの数よりも多い数の、前記軸に沿って配置された層を含み、前記方法は、
各プログラムにおいて、前記プログラムを実行する前記処理ノードからデータが送信されるデータ送信段階を定義するための少なくとも１つのデータ送信命令を実行するステップであって、前記データ送信命令は、前記データ送信段階でデータが送信される出力リンクを定義するリンク識別子を含む、ステップを含み、
前記リンク識別子は、２つの組み込み１次元経路の各々を周回してデータを送信するために決定されており、各論理リングは、前記組み込み１次元経路がリンクを共有することなく同時に動作するように、前記コンピュータの全ての処理ノードを使用する、
方法。

【請求項28】

軸に沿って配置された複数の層を有する構成で接続された複数の処理ノードを含むコンピュータでプログラムの組を並列に実行する方法であって、
各層は、隣接する処理ノードの各ペア間の層内リンクにより、非軸方向リング状に接続された少なくとも４つの処理ノードを含み、
各層内の処理ノードは、層間リンクにより、それぞれの隣接する層内のそれぞれの対応するノードに接続され、各層内のノードの数と同じ数の、前記軸に沿って配置された層を含み、前記方法は、
各プログラムにおいて、前記プログラムを実行する前記処理ノードからデータが送信されるデータ送信段階を定義するための少なくとも１つのデータ送信命令を実行するステップであって、前記データ送信命令は、前記データ送信段階でデータが送信される出力リンクを定義するリンク識別子を含む、ステップを含み、
前記リンク識別子は、２つの組み込み１次元経路の各々を周回してデータを送信するために決定されており、各論理リングは、前記組み込み１次元経路がリンクを共有することなく同時に動作するように、前記コンピュータの全ての処理ノードを使用する、
方法。

【請求項29】

データ送信ステップで前記データを送信するステップを含み、処理ノードの各リンクは、各データ送信ステップにおいて、前記処理ノードの他のリンクと同じ帯域幅を有する、請求項２３～２８のいずれか一項に記載の方法。

【請求項30】

データ送信ステップでデータを送信するようにプログラムされ、それにより、処理ノードの各リンクは、各データ送信ステップにおいて前記処理ノードの他のリンクと同じ帯域幅を有する、請求項１～２２のいずれか一項に記載のコンピュータ。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、特に、但し非限定的に、データ交換及び機械学習／人工知能用途を最適化するための、コンピュータ内で接続された処理ノード間のデータの交換に関する。

【背景技術】

【0002】

コレクティブとは、コンピュータ内でデータを処理する際に共通して使用されるルーチンである。これらは、複数の異なる処理間でのデータの共有及び処理を可能にするルーチンであり、処理は、同じ処理ノード又は異なる処理ノードで動作し得る。例えば、ある処理がデータ記憶装置からデータを読み出す場合、「ブロードキャスト」処理を用いてそのデータを他の処理と共有することができる。別の例は、特定の機能の結果を複数の処理で必要とする場合である。「集約（ｒｅｄｕｃｔｉｏｎ）」は、複数の処理の各々からのデータ値に計算機能の適用を要求した結果である。「Ｇａｔｈｅｒ」及び「ｓｃａｔｔｅｒ」コレクティブは、複数のデータ項目を扱う。特定のコレクティブは、機械学習処理用途で一層重要になっている。

【0003】

ＭＰＩ（メッセージ通信インターフェース）は、多くの並列コンピューティングアーキテクチャに適用可能なメッセージ通信標準である。ＭＰＩは、機械学習に適用可能な多くのコレクティブを定義する。２つのそのようなコレクティブは、「Ｒｅｄｕｃｅ」及び「Ａｌｌｒｅｄｕｃｅ」と称される。ｒｅｄｕｃｅ動作は、異なるソース処理からの複数のデータ値に作用する計算機能の結果が単一の受信処理で提供されることを可能にする。受信処理は、ソース処理の１つであり得ることに留意されたい。Ａｌｌｒｅｄｕｃｅコレクティブは、複数のソース処理からのデータ値を集約して、（集約（ｒｅｄｕｃｅ）された結果の受信処理として動作する）全てのソース処理に結果を配信する。Ｒｅｄｕｃｅ又はＡｌｌｒｅｄｕｃｅ動作のいずれかについて、集約機能は、最大値又は最小値をとる任意の所望の組み合わせ機能、例えば合算などであり得る。ＭＰＩ標準によれば、Ａｌｌｒｅｄｕｃｅコレクティブは、全てのソース処理からのデータ値をｒｅｄｕｃｅコレクティブで（例えば、複数の処理の１つにおいて）集約し、次いで各ソース処理に結果をブロードキャストすることにより実行され得る。

【0004】

図１は、ニューラルネットワークを訓練する分散アーキテクチャの概略ブロック図である。訓練データのソース１００が提供される。これは、訓練データを、訓練されているニューラルネットワークモデルに適用可能な状態に維持することができるデータベース又は他の任意の種類のデータ記憶装置であり得る。ニューラルネットワークモデルによる処理自体が複数の処理ユニット１１０ａ、１１０ｂ、１１０ｃ等にわたり分散される。図１には、３つのユニットのみを示しているが、任意の数の処理ユニットが使用され得ることが容易に認識されるであろう。各処理ユニット１１０ａ、１１０ｂ、１１０ｃが訓練データソース１００から訓練データのバッチを受信する。各処理ユニット１００ａ、１００ｂ、１００ｃは、モデルを定義するパラメータの組１１２ａ、１１２ｂ、１１２ｃを保持する。訓練データの入力バッチは、計算機能１１４のパラメータの現在の組を用いて処理され、計算機能の結果を用いて、元のパラメータと、訓練データのバッチ及びパラメータの現在の組に対して計算機能を適用した結果としての新たなパラメータとの差違を表すいわゆるデルタを生成する。多くのニューラルネットワークにおいて、これらのパラメータは、「重み」と呼ばれ、そのため、デルタ値は、「デルタ重み」と称される。図１において、重みは、１１２ａ、１１２ｂ、１１２ｃと表示され、デルタ重みは、１１６ａ、１１６ｂ、１１６ｃと表示される。実際には、重み及びデルタ重みは、処理ユニットからアクセス可能な適当な記憶装置に保存されることが認識されるであろう。重み及びデルタ重みをローカルメモリに保持することができる場合、訓練処理の効率が向上する。

【0005】

図１のアーキテクチャの目的は、３つの別々のモデルを訓練するのではなく、単一のモデルを分散的に訓練することである。従って、目的は、モデルパラメータ（又は重み）を各処理ユニット内の単一の共通の組に収束させることである。任意の特定の重みの組から始まり、各処理ユニットで受信された訓練データのバッチが同じでないと仮定すると、各処理ユニットの各計算機能により生成されるデルタ重みに変動があろうことは、明らかである。従って、必要とされるのは、バッチ化された訓練データの各反復後に複数の処理ユニットにわたりデルタ重みを組み合わせ且つ分散させる方法である。これは、図１に概略的に示されており、組み合わせ関数１１８は、各処理ユニットからデルタ重みを受信しており、デルタ重みを集約する平均化関数等の数学関数を実行する。組み合わせ関数１１８の出力は、次いで、各処理ユニット内の結合回路１２０ａ、１２０ｂ及び１２０ｃにそれぞれフィードバックされる。従って、新たな重みの組は、元の重みと、組み合わせ関数１１８からの組み合わされた出力との組み合わせとして生成され、新たな重み１１８ａ、１１８ｂ、１１８ｃは、局所メモリに戻されて保存される。次いで、訓練データの次のバッチが各処理ユニットに供給され、処理が複数回反復される。処理ユニットの開始重みが同じである場合、各反復後に同じ新たな値に再びリセットされることが明らかである。上記は、Ａｌｌｒｅｄｕｃｅ機能が特に有用な例であることが容易に分かるであろう。デルタ重みは、組み合わせ関数１１８ａに供給され、そこで集約され、次いで集約された形式で各処理ユニットに戻されて、元の重みと組み合わされ得る。

【0006】

図１Ａは、Ａｌｌｒｅｄｕｃｅコレクティブが６つの処理ノードＮ_０・・・Ｎ_５の直線的に接続されたトポロジとしてどのように実装され得るかを示す概略図である。これらの処理ノードは、図１の処理ユニットに対応し得、組み合わせ関数がノード間で分散されるため、図１のような共通の組み合わせノードがなくなる。処理ノードは、各処理ノードが「順方向」リンクＬ_Ｆ及び「逆方向」リンクＬ_Ｂによって隣接ノードに接続されるライン構成で接続されて示されている。この図に示すように、方向語句が示唆するように、順方向リンクは、処理ノードを図１Ａの左から右に接続し、逆方向リンクは、処理ノードを図１Ａの右から左に接続する。各処理ノードは、２００として指定された処理能力及び２０２として指定された記憶能力を有する。処理能力及び記憶能力は、非常に多くの方法のいずれかで実装され得る。１つの特定の具体例において、処理ノードは、個々のタイルがその処理能力及び付随するメモリ機能を有する複数のタイルを含み得る。各処理ノードは、それがリンクＬ_Ｆ／Ｌ_Ｂを介して隣接するものに接続されることを可能にする１つ以上のリンクインターフェースも有する。

【0007】

Ａｌｌｒｅｄｕｃｅコレクティブの実装を理解するために、第１のノードＮ_０が、Δ０と表示された「部分」ベクトルを生成していると仮定する。「部分」とは、デルタ重みの配列、例えばベクトル又はテンソルを含むデータ構造であり得る。部分ベクトルは、各々が処理ノードに対する計算に対応する複数の部分の配列である。各「部分」は、デルタ重みの組であり得る。部分は、Ａｌｌｒｅｄｕｃｅコレクティブ内で直ちに交換可能であるように記憶能力２０２に保存される。単純な「ストリーミング」ラインＡｌｌｒｅｄｕｃｅアルゴリズムにおいて、順方向リンクは、「集約（ｒｅｄｕｃｅ）」に使用され、逆方向リンクは、「ブロードキャスト」に使用される。アルゴリズムは、一端の処理ノードＮ_０（図１Ａの左側ノード）において、その隣接するノードＮ_１にその部分Δ０を送信することから始まる。ノードにおいて、入力部分（この場合にはΔ０）は、処理ノードＮ_１における計算機能２００により生成された対応する部分Δ１だけ集約される。次いで、この集約（図１ＡではＡＤＤ機能として示す）の結果は、処理ノードＮ_１から次の接続ノードＮ_２に送られる。以下に詳述するように、ＡＤＤ機能は、部分の集約に使用され得る任意の組み合わせ機能で代替することができる。処理は、図１ＡにＮ_５で示す最後の処理ノードにおいて部分の集約が完了するまで各処理ノードで行われる。この時点において、集約結果（Δの和）は、逆方向リンクＬ_Ｂを介して各処理ノードに返送される。集約結果は、各ノードで受信され、そのノードのメモリ機能に保存され、その後、次のノードにも送信される。このように、各処理ノードは、集約結果で終了する。

【0008】

図１Ｂは、集約及びブロードキャストフェーズのタイミング図を示す。処理ノードは、１つ前のノードから入力データを受信するまで、集約結果を次のノードに送信できないことに留意されたい。従って、順方向リンクの各出力送信のために、Δ_Ｒと表記する固有の待ち時間が存在する。

【0009】

更に、逆方向リンクは、完全に集約された結果が終点ノードで取得されるまでブロードキャストに使用されない。しかし、パイプライン効果に起因して部分ベクトルが大きい場合、そのノードがその部分のデータ項目の送信を終了するよりもかなり前に、各ノードでの部分ベクトルからの第１の部分の集約である結果の先頭データ項目が始点ノードに戻るため、全ての順方向及び逆方向リンクで動作が相当重なり合う可能性がある。

【0010】

若干の改良であるこのアルゴリズムの変更形態では、線の各終端の処理ノードは、集約が中央ノードで完了した状態で自らの部分の中央ノードに送信を開始することができる。その場合、結果は、ブロードキャストされて終点ノードに戻される。このシナリオでは、順方向及び逆方向リンクの両方において、例えばノードＮ_２で移動方向が反転されることに留意されたい。（順方向及び逆方向リンクの両方において最終ノードＮ_５を第１のノードＮ_０に接続することにより）線が閉じてリングとした場合、パイプラインアルゴリズムは、集約及びブロードキャストを同じ方向に直列化できるため、双方向リンクによって形成された２つの論理リングは、それぞれ独立して、データの半分に対して作用することができる。すなわち、各部分ベクトルは、二分割され、第１の半分ΔＡは、順方向リンクで集約され（図１Ａのように）、Ｎ_５とＮ_０との間で接続レッグにブロードキャストされる。ベクトルΔＢの他の半分は、逆方向リンクで集約され、次いで逆方向リンクの接続リングにブロードキャストされ、それにより、各ノードがＡｌｌｒｅｄｕｃｅ結果のコピーを受信する。

【0011】

図１Ｄは、順方向及び逆方向リンクに対応するタイミング図を示す。

【0012】

図１Ｃ及び１Ｄに示す１次元リングの原理は、円環（ｔｏｒｕｓｏｒｔｒｏｉｄ）接続されたコンピュータのような２次元リングに拡張可能である。

【0013】

２次元でリングを用いる代替方式は、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒコレクティブを用いて、Ａｌｌｒｅｄｕｃｅに続いてＡｌｌｇａｔｈｅｒコレクティブを実行することである。ＮｉｋｈｉｌＪａｉｎ及びＹｏｇｉｓｈＳａｂｈａｒｗａｌによる論文「ＯｐｔｉｍａｌＢｕｃｋｅｔＡｌｇｏｒｉｔｈｍｓｆｏｒＬａｒｇｅＭＰＩＣｏｌｌｅｃｉｖｅｓｏｎＴｏｒｕｓＩｎｔｅｒｃｏｎｎｅｃｔｓ」（ＩＣＳ’，Ｊｕｎｅ２－４，Ｔｓｕｋｕｂａ）は、円環相互接続プロセッサ内の処理ノード間の双方向リンクを仮定した、Ａｌｌｇａｔｈｅｒ、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒ及びＡｌｌｒｅｄｕｃｅコレクティブのためのバケットに基づくアルゴリズムを提示している。このアプローチは、各ステップで扱われる複数のデータ値（フラグメント）が存在することに基づいて動作する。これらのフラグメントは、上述のように部分ベクトル内の部分であり得る。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒコレクティブにおいて、各処理は、初期部分ベクトルから開始される。ここでの処理への言及は、処理ノードで実行される処理への言及であると仮定する。部分ベクトルは、複数の要素又はフラグメントに分割することができる。全ての処理の対応する要素が集約され、これらの集約要素は、次いで、複数の処理にわたり分散される。Ａｌｌｇａｔｈｅｒコレクティブにおいて、他の処理が他の全ての処理から全ての要素を受信する。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒコレクティブは、全ての部分を集約し、各集約を各ノードに保存する（図２を参照されたい）。Ａｌｌｒｅｄｕｃｅコレクティブは、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒコレクティブに続いて、Ａｌｌｇａｔｈｅｒコレクティブ動作を実行することにより実行され得る。

【0014】

Ｊａｉｎの論文で議論されているように、円環相互接続は、分散メモリスーパーコンピュータのための魅力的な相互接続アーキテクチャである。上記の議論において、コレクティブを処理間通信に関連して説明してきた。分散スーパーコンピュータにおいて、処理ノードは、相互接続され、各処理ノードは、コレクティブに関する１つ以上の処理に対して応答的であり得る。円環相互接続は、Ｎ次元配列に構成された処理ノードを有する一種のメッシュ相互接続であり、各ノードは、最も近い隣接ノードに接続され、配列の両端縁の対応するノードも接続される。双方向通信リンクは、相互接続された処理ノード間に存在し得る。

【0015】

Ｊａｉｎ及びＳａｂｈａｒｗａｌによる上述の論文で議論されたコレクティブを実行するアルゴリズムは、円環接続されたアーキテクチャに適用される。これにより、コレクティブは、異なる次元のリング内でベクトルの異なるフラグメントを同時に処理することができるため、処理帯域幅が効率的になる。しかし、本発明者は、この分野で肯定されている見解にもかかわらず、Ｊａｉｎ及びＳａｂｈａｒｗａｌが提示した技術が対称又は非対称の円環に最適でないと判断した。対称な円環は、非軸方向リング内のノードの数が円環の軸方向リング内のノードの数に一致する円環であることが理解される。非対称の円環は、非軸方向リング内のノードの数が軸方向リング内のノードの数に一致しない円環であることが理解される。いずれの場合にも、軸方向リングの数が非軸方向リング内のノードの数に等しいことに留意されたい。

【発明の概要】

【発明が解決しようとする課題】

【0016】

本開示の目的は、特に、但し非限定的に、機械学習における処理機能に用いるための、Ａｌｌｒｅｄｕｃｅ機能などのコレクティブを実行するための改良されたトポロジ及び方法を提示することである。

【課題を解決するための手段】

【0017】

本発明の実施形態がＡｌｌｒｅｄｕｃｅ機能等のコレクティブの観点から記述されるが、本明細書に記述する改良されたトポロジ及び方法は、より広い応用を有することが認識されるであろう。

【0018】

本発明の一態様によれば、軸に沿って配置された複数の層を有する構成で配置された複数の相互接続された処理ノードを含むコンピュータであって、各層は、隣接する処理ノードの各ペア間のそれぞれの層内リンクによりリング状に接続された少なくとも４つの処理ノードを含み、各層内の処理ノードは、層間リンクにより、１つ以上の隣接する層内の対応するノードに接続され、コンピュータは、２つの組み込み１次元経路を周回してデータを送信するようにプログラムされ、各論理経路は、組み込み１次元経路がリンクを共有することなく同時に動作するように、コンピュータの全ての処理ノードを使用する、コンピュータが提供される。

【0019】

本発明の別の態様によれば、相互接続されたノードの複数の層が軸に沿って配置される構成で配置された複数の相互接続された処理ノードを含むコンピュータであって、各層は、隣接する処理ノードの各ペア間の少なくともそれぞれの層内リンクにより、非軸方向リング状に接続された少なくとも４つの処理ノードを含み、各層内の少なくとも４つの処理ノードの各々は、それぞれの層間リンクにより、１つ以上の隣接する層内のそれぞれの対応するノードに接続され、コンピュータは、その構成において、２つの組み込み１次元経路を提供し、且つ２つの組み込み１次元経路の各々を周回してデータを送信するようにプログラムされ、各組み込み１次元経路は、２つの組み込み１次元経路がリンクを共有することなく同時に動作するように、コンピュータの全ての処理ノードを使用する、コンピュータが提供される。

【0020】

本発明の複数の実施形態は、単独で又は組み合わせて以下の１つ以上を提供することができる。
複数の層は、第１及び第２の末端層と、第１及び第２の末端層間の少なくとも１つの中間層とを含み、第１の末端層の各処理ノードは、第２の末端層内の処理ノードの対応する１つに接続される、コンピュータ。
構成は、複数の層の対応するノードが少なくとも４つの軸方向リングを形成する円環構成である、請求項１に記載のコンピュータ。
複数の層は、第１及び第２の末端層と、第１及び第２の末端層間の少なくとも１つの中間層とを含み、第１の末端層内の各処理ノードは、第１の末端層内において、隣接するノードに加えて非隣接ノードに接続され、第２の末端層内の各処理ノードは、第２の末端層内において、隣接するノードに加えて非隣接ノードに接続される、コンピュータ。
各処理ノードは、それぞれの層内及び層間リンクにおいて、処理ノードの層内及び層間リンクの各々で同じ帯域幅にてデータを出力するように構成される、コンピュータ。
複数の層の各層は、正確に４つのノードを有する、コンピュータ。
各層内の処理ノードの数よりも多い数の、軸に沿って配置された層を含むコンピュータ。
各層内のノードの数と同じ数の、軸に沿って配置された層を含むコンピュータ。
層内及び層間リンクは、処理ノード間の固定接続を含む、コンピュータ。
層間及び層内リンクの少なくとも１つは、処理ノードの１つを複数の他の処理ノードの１つに選択的に接続するように動作可能なスイッチング回路を含む、コンピュータ。
第１の末端層内の処理ノードの層間及び層内リンクの少なくとも１つは、処理ノードを第２の末端層内のその対応するノードから切り離し、それを第１の末端層内の非隣接ノードに接続するように動作可能なスイッチング回路を含む、コンピュータ。
第１の末端層内の処理ノードの層間リンクの少なくとも１つは、処理ノードを第１の末端層内の隣接するノードから切り離し、それを第２の末端層内の対応するノードに接続するように動作可能なスイッチング回路を含む、コンピュータ。
各組み込み１次元経路は、層間リンクの１つと層内リンクの１つとの交互のシーケンスを含む、コンピュータ。
各１次元経路内の全ての層で同じである送信方向において各層でデータを送信するようにプログラムされるコンピュータ。
各１次元組み込み経路は、各１次元経路内の全ての層で同じである各層内で辿られる処理ノードのシーケンスを含む、いずれかの先行する請求項に記載のコンピュータ。
各１次元経路を周回する連続的な送信層で異なる送信方向において各層でデータを送信するようにプログラムされるコンピュータ。
各１次元組み込み経路は、各１次元経路内の連続的な層で異なる方向において各層内で辿られる処理ノードのシーケンスを含む、請求項１～１２のいずれか一項に記載のコンピュータ。
リング状に接続された４つの処理ノードをそれぞれ有する６つの層を含むコンピュータ。
リング状に接続された８つの処理ノードをそれぞれ有する８つの層を含むコンピュータ。
リング状に接続された４つの処理ノードをそれぞれ有する８つの層を含むコンピュータ。
リング状に接続された４つの処理ノードをそれぞれ有する４つの層を含むコンピュータ。
処理ノードが接続される各層のリングは、非軸方向である、コンピュータ。
各処理ノードは、処理ノードの対応する部分ベクトルをフラグメントに分割し、データを、連続的なフラグメントの形式で各１次元経路を周回して送信するようにプログラムされる、コンピュータ。
各経路を論理リングの組として動作させるようにプログラムされ、連続的なフラグメントは、同時送信ステップで各論理リングを周回して送信される、コンピュータ。
処理ノードの各リンクは、各データの送信ステップにおいて他のリンクと同じ帯域幅を有し、すなわち対称な帯域幅を有する、コンピュータ。
各処理ノードは、２つのリンクの各々でそれぞれのフラグメントを同時に出力するように構成され、リンクの各々で出力されるフラグメントは、同じ又はほぼ同じサイズを有する、コンピュータ。
各処理ノードは、複数の入力フラグメントを複数の局所的に保存されたフラグメントと共に集約するように構成される、コンピュータ。
各処理ノードは、その層内及び層間リンクの各々において、完全に集約されたフラグメントをＡｌｌｒｅｄｕｃｅコレクティブのＡｌｌｇａｔｈｅｒフェーズで同時に送信するように構成される、コンピュータ。

【0021】

本発明の別の態様は、軸に沿って配置された複数の層を有する構成で接続された複数の処理ノードを含むコンピュータで並列に実行されるプログラムの組を生成する方法であって、各層は、隣接する処理ノードの各ペア間のそれぞれの層内リンクにより、非軸方向リング状に接続された少なくとも４つの処理ノードを含み、各層内の処理ノードは、層間リンクにより、隣接する層内の対応するノードに接続され、本方法は、
各プログラムについて、そのプログラムを実行する処理ノードからデータが送信されるデータ送信段階を定義するための少なくとも１つのデータ送信命令を生成するステップであって、データ送信命令は、そのデータ送信段階でその処理ノードからデータが送信される出力リンクを定義するリンク識別子を含む、ステップと、
構成によって提供される２つの組み込み１次元経路の各々を周回してデータを送信するためにリンク識別子を決定するステップであって、各経路は、組み込み１次元論理経路がリンクを共有することなく同時に動作するように、コンピュータの全ての処理ノードを使用する、ステップと、
を含む、方法を提供する。

【0022】

方法のいくつかの実施形態において、各プログラムは、データの送信ステップで使用されないその層間及び層内リンクのいずれも無効化するための１つ以上の命令を含む。

【0023】

方法のいくつかの実施形態において、各プログラムは、そのプログラムが実行される処理ノードのそれぞれの部分ベクトルをフラグメントに分割し、それぞれに定義されたリンクを介して連続的なフラグメントの形式でデータを送信するための１つ以上の命令を含む。

【0024】

いくつかの実施形態において、処理ノードの各リンクは、各データ送信ステップにおいて、その処理ノードの他のリンクと同じ帯域幅を有し、すなわち、構成は、対称な帯域幅にて動作する。

【0025】

本発明の更なる態様は、軸に沿って配置された複数の層を有する構成で接続された複数の処理ノードを含むコンピュータでプログラムの組を並列に実行する方法であって、各層は、隣接する処理ノードの各ペア間の層内リンクにより、リング状に接続された少なくとも４つの処理ノードを含み、各層内の処理ノードは、層間リンクにより、隣接する層内の対応するノードに接続され、本方法は、
各プログラムにおいて、そのプログラムを実行する処理ノードからデータが送信されるデータ送信段階を定義するための少なくとも１つのデータ送信命令を実行するステップであって、データ送信命令は、そのデータ送信段階でデータが送信される出力リンクを定義するリンク識別子を含む、ステップを含み、
リンク識別子は、２つの組み込み１次元経路の各々を周回してデータを送信するために決定されており、各論理リングは、組み込み１次元経路がリンクを共有することなく同時に動作するように、コンピュータの全ての処理ノードを使用する、方法を提供する。

【0026】

ここで、本発明のよりよい理解のため、本発明がどのように実施されるかを示すために添付の図面を例として参照する。

【図面の簡単な説明】

【0027】

【図1】ニューラルネットの分散訓練を示す概略図である。

【図1A】簡単な「ストリーミング」ラインＡｌｌｒｅｄｕｃｅアルゴリズムを実行する一連の処理ノードを示す概略図である。

【図1B】「ストリーミング」ラインＡｌｌｒｅｄｕｃｅアルゴリズムのタイミング図である。

【図1C】リングに接続された終点ノードを有するラインの概略図である。

【図1D】リングＡｌｌｒｅｄｕｃｅアルゴリズムのタイミング図である。

【図2】ｒｅｄｕｃｅ－ｓｃａｔｔｅｒステップに続いて、ＡｌｌｇａｔｈｅｒステップによるＡｌｌｒｅｄｕｃｅ関数の実行を示す概略図である。

【図3A】バケットに基づくＡｌｌｒｅｄｕｃｅアルゴリズムを示す。

【図3B】バケットに基づくＡｌｌｒｅｄｕｃｅアルゴリズムを示す。

【図4A】２つの同型リングが組み込まれた４×６トロイド形式のコンピュータネットワークを示す。

【図4B】一実施形態による同型組み込みリングを示す。

【図4C】一実施形態による同型組み込みリングを示す。

【図4D】図４Ａのコンピュータネットワークの２つの組み込みリングの一方を示す３次元図である。

【図4E】図４Ａのコンピュータネットワークの２つの組み込みリングのもう一方を示す３Ｄ概略図である。

【図5A】円環状に接続された４×４コンピュータネットワークに組み込み可能な２つの同型組み込みリングを示す。

【図5B】円環状に接続された４×４コンピュータネットワークに組み込み可能な２つの同型組み込みリングを示す。

【図6A】円環状に接続された４×８コンピュータネットワークの２つの同型組み込みリングの各々を示す。

【図6B】円環状に接続された４×８コンピュータネットワークの２つの同型組み込みリングを示す。

【図7A】円環状に接続された８×８コンピュータネットワークに組み込み可能な２つの同型リングの各々を示す。

【図7B】円環状に接続された８×８コンピュータネットワークに組み込み可能な２つの同型リングを示す。

【図8A】４×６斜め閉角柱形式のコンピュータネットワークを示す。

【図8B】図８Ａのネットワークに組み込まれた２つの同型リングを示す。

【図8C】図８Ａのネットワークに組み込まれた２つの同型リングを示す。

【図8D】図８Ａのコンピュータネットワークの２つの組み込みリングの一方を示す３次元図である。

【発明を実施するための形態】

【0028】

本発明の態様は、学習機械の動作負荷のアクセラレータとして機能するように設計されたマルチタイルプロセッサに関連して開発された。アクセラレータは、複数の相互接続された処理ノードを含む。各処理ノードは、単一のマルチタイルチップ、複数のチップのパッケージ又は複数のパッケージのラックであり得る。本明細書における目的は、決定論的（反復可能）な計算で極めて効率的な機械を考案することである。処理ノードは、コレクティブ、特に、但し非限定的にブロードキャスト（ｂｒｏａｄｃａｓｔ）及びＡｌｌｒｅｄｕｃｅを効率的に実行可能にするように相互接続される。しかし、本明細書に記述する本発明の実施形態は、他の用途を有し得ることに留意されたい。

【0029】

分散処理を用いてニューラルネットワークを訓練する際の１つの特定の応用は、モデルを更新することである。これに関連して、分散処理は、チップ若しくはパッケージ又はラック等の異なる物理的実体である複数の処理ノードを利用する。すなわち、処理ノード間のデータの送信では、物理リンクを介してメッセージを交換する必要がある。

【0030】

機械学習専用のトポロジを開発する際の課題は、高性能コンピューティング（ＨＰＣ）ネットワークの一般的な分野の課題と異なる。ＨＰＣネットワークは、通常、オンデマンド非同期全対全個人向け通信に重点が置かれ、そのため、動的ルーティング及び帯域幅の過剰供給が通常行われる。帯域幅の提供よりも待ち時間を短縮する目的のため、余剰帯域幅がＨＰＣネットワークに供給される場合がある。動作中の通信リンクの過剰な供給は、電力を浪費して計算性能に影響する恐れがある。今日計算に用いられる最も一般的な種類のリンクは、データ送信に使用されるか否かに関わらず、動作中に電力を消費する。

【0031】

本発明者は、特にＭＬ作業負荷に適合され、ＭＬ作業負荷の以下の属性に対処する機械トポロジを開発した。本実施形態は、ｍ×ｎコンピュータネットワークに２つのリングが組み込まれる異なる構造を提供し、ここで、ｍは、ネットワークの複数の層の各々におけるノードの数であり、ｎは、層の数であり、各リングは、ネットワーク内の全てのノードを辿る。

【0032】

ＭＬ動作負荷において、チップ間通信は、現在、ブロードキャスト及びＡｌｌｒｅｄｕｃｅコレクティブが主流となっている。ブロードキャストコレクティブは、ｓｃａｔｔｅｒコレクティブに続いてＡｌｌｇａｔｈｅｒコレクティブにより実行可能であり、Ａｌｌｒｅｄｕｃｅコレクティブは、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒコレクティブに続いてＡｌｌｇａｔｈｅｒコレクティブにより実行可能である。この前提において、チップ間という用語は、外部通信リンクを介して接続された処理ノード間のあらゆる通信を指す。上述のように、これらの処理ノードは、チップ、パッケージ又はラックであり得る。

【0033】

通信リンクは、印刷回路基板のチップ間又は異なる印刷回路基板のチップ間であり得ることに留意されたい。

【0034】

動作負荷は、個々の知能処理装置（ＩＰＵ）機械内で全対全通信が基本的にチップ間であるようにコンパイル可能である。

【0035】

Ａｌｌｒｅｄｕｃｅコレクティブは、上述の通りであり、図２に示されている。図２は、開始状態Ｓ１における４つのノードの各々の部分値の組、すなわち「部分」ベクトルＰ_０、Ｐ_１、Ｐ_２、Ｐ_３を示す。これに関連して、ノードとは、複数の処理ノードのネットワークにおける処理ノードである。各ノードＮ_０、Ｎ_１、Ｎ_２、Ｎ_３は、対応してマークされた（大きいひし形格子、幅広の下向き斜め縞、大きい正方形格子、幅広の上向き斜め縞）４つの「対応する」部分を有することに留意されたい。すなわち、各部分は、例えば、Ｐ_０（ｎ）のベクトルにおけるノードｎが、Ｐ_０（ｎ＋１）のベクトルにおけるノードｎ＋１と同じ位置を有するように、自らの部分ベクトルに位置を有する。添え字（ｎ）は、部分が存在するノードを示すために使用され、従って、Ｐ_０（０）は、ノードＮ０の部分Ｐ_０である。ｒｅｄｕｃｅ－ｓｃａｔｔｅｒパスにおいて、対応する部分は、集約され、集約は、複数ノードの１つに施される。例えば、部分Ｐ_０（０）、Ｐ_０（１）、Ｐ_０（２）、Ｐ_０（３）は、（ｒ_０に）集約されてノードＮ_０に置かれる。同様に、部分Ｐ_１（０）、Ｐ_１（１）、Ｐ_１（２）及びＰ_１（３）は、（ｒ_１に）集約されてノードＮ_１に置かれる。以下同様であり、中間状態Ｓ２において、各ノードは、複数の集約ｒ_０、ｒ_１、ｒ_２及びｒ_３の１つを施される。説明したように、集約は、任意の組み合わせ関数ｆ（Ｐｉ０）であり得、これは、独立演算子（例えば、最大化）又は関連演算子＝Ｐ１（０）＊Ｐ１（１）＊Ｐ１（２）＊Ｐ１（３）を含み得る。

【0036】

次いで、Ａｌｌｇａｔｈｅｒパスにおいて、各集約が全てのノードに施されて状態Ｓ３を起動させ、ここで、各ノードに４つの集約の全てが施される。Ｓ１において、「対応する」部分、例えばＰ_０（０）、Ｐ_０（１）、Ｐ_０（２）及びＰ_０（３）が全て異なり得るのに対し、状態Ｓ３では、各集約、例えばｒ_０が全てのノードに対して同じであるが、但しｒ_ｉ＝ｆ｛（Ｐ_ｉ（０）、Ｐ_ｉ（１）、Ｐ_ｉ（２）及びＰ_ｉ（３））｝であることに留意されたい。機械学習において、部分Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３の組は、ベクトルである。部分（例えば、更新された重み）のベクトルが訓練中にモデルの各パスに生成される。状態Ｓ３における各ノード上のひし形格子、下向き斜め縞、正方形格子、上向き斜め縞によって示される集約ｒ_０、ｒ_１、ｒ_２、ｒ_３は、完全集約ベクトル、すなわち「結果」又は完全に集約された部分のベクトルである。機械学習に関連して、各部分は、モデルのパラメータに対する更新デルタであり得る。代替的に、各部分は、（本明細書で詳述しない構成での）更新されたパラメータであり得る。

【0037】

図３Ａ及び３Ｂは、６つの「仮想」リングを仮定するｒｅｄｕｃｅ－ｓｃａｔｔｅｒ／Ａｌｌｇａｔｈｅｒのための、バケットに基づくアルゴリズムを示す。これらは、本明細書において「論理」リングとも称される。図３Ａは、複数の仮想リングにおける部分の集約を示す概略図である。各部分は、６つのフラグメントに分割される。図３Ａにおいて、大文字Ｒ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌは、それぞれハッチングされたひし形格子、上向き斜め縞、正方形格子、水平縞、下向き斜め縞、垂直縞で示す各ノードで保存された部分の異なるフラグメントを指す。文字は、互いに集約対象であり、フラグメントの「仮想」又は「論理」リングを定義する対応するフラグメントを示す。図３Ａを参照すると、各々の部分Ｐ_０、Ｐ_１、Ｐ_２、Ｐ_３及びＰ４における「Ｒ」フラグメントは、結果ベクトル（ＲΣ）の単一のフラグメントに集約される。Ｙ、Ｇ、Ｂ、Ｐ及びＬフラグメントも同様である。

【0038】

図３Ｂは、Ａｌｌｒｅｄｕｃｅ処理の各ステップにおけるデータ交換及び計算を示す、横軸に時間を取ったタイミング図を示す。図３Ａ及びＢにおいて、Ａｌｌｒｅｄｕｃｅ処理は、ｒｅｄｕｃｅ－ｓｃａｔｔｅｒフェーズに続いてＡｌｌｇａｔｈｅｒフェーズにより実現される。

【0039】

図３Ｂにおいて、各フラグメントを以下のように異なるハッチングで示している：Ｒ－ひし形格子、Ｙ－上向き斜め縞、Ｇ－正方形格子、Ｂ－水平縞、Ｐ－下向き斜め縞、Ｌ－縦縞。

【0040】

図３Ａ及び３Ｂにおける表記は、以下の通りである。部分は、それぞれＰ_０、Ｐ_１、Ｐ_２、Ｐ_３、Ｐ_４、Ｐ_５として示される。処理の開始時点において、各部分は、各ノードＮ_０、Ｎ_１、Ｎ_２、Ｎ_３、Ｎ_４、Ｎ_５に保存される。各フラグメントは、各々が集約されると考えられる仮想リング内でのフラグメントの定義及び位置に応じて表示される。例えば、ＲＡ_０は、ノードＮ_０－Ｎ_１－Ｎ_２－Ｎ_３－Ｎ_４－Ｎ_０によって形成された仮想リングの先頭フラグメントであるため、部分Ｐ_０のＲフラグメントを示す。

【0041】

ＲＡ_１は、その仮想リングで２番目の位置にあるノードＮ_１のＲフラグメントを示す。ＹＡ_０は、ノードＮ_１のＹフラグメントを示す。添え字「０」は、その仮想リングの先頭フラグメントであることを示し、Ｙ－リングは、Ｎ_１－Ｎ_２－Ｎ_３－Ｎ_４－Ｎ_０－Ｎ_１である。特に、Ａの添え字が仮想リングを反映し、物理ノード（又は部分）に対応しないことに留意されたい。図３Ａは、順方向リンクの仮想リングのみを示すことに留意されたい。図３Ｂは、逆方向リンクで均等な処理が行われることを示し、フラグメントをＢで示す。

【0042】

ステップ１において、各仮想リングの先頭フラグメント（Ａ０）がそのノードから次の隣接ノードに移送され、そのノードで対応するフラグメントにより集約される。すなわち、ＲＡ_０は、Ｎ０からＮ１まで移動して、Ｒ（Ａ０＋Ａ１）に集約される。再び、ここでは記号「＋」は、任意の組み合わせ関数の省略形として使用される。同じステップで各仮想リングの１０のＡ０フラグメントが同時に送信されることに留意されたい。すなわち、Ｎ_１とＮ_２との間のリンクは、ＹＡ_０の送信に使用され、Ｎ_２とＮ_３との間のリンクは、ＧＡ_０の送信に使用され、以下同様である。次のステップでは、対応する集約フラグメントが順方向リンクを介して次の隣接ノードに送信される。例えば、Ｒ（Ａ０＋Ａ１）がＮ_１からＮ_２に送信され、Ｙ（Ａ０＋Ａ１）がＮ_２からＮ_３に送信される。明快さのため、図３Ａで１５の全てのフラグメントに番号が付与されておらず、全ての送信に番号が付与されていないことに留意されたい。フラグメント及び数の完全な組を図３Ｂに示す。本処理は、５ステップで実行される。５ステップ後、各ノードで全てのフラグメントが集約される。第５のステップの終了時点において、集約は、そのフラグメントの対応する各リングの最後のノードで行われる。例えば、Ｒ集約は、ノードＮ_５で行われる。

【0043】

Ａｌｌｇａｔｈｅｒフェーズの開始は、各仮想リングの最後から最初のノードへの送信により始まる。従って、Ｒフラグメントの最後の集約は、Ａｌｌｇａｔｈｅｒフェーズの第１のステップの準備ができているノードＮ_５で終了する。Ｙフラグメントの最後の集約は、対応してノードＮ_０で終了する。Ａｌｌｇａｔｈｅｒフェーズの次のステップでは、集約されたフラグメントは、自らの次の隣接ノードに再び送信される。従って、完全に集約されたＲフラグメントは、現在、Ｎ_２にも存在し、完全に集約されたＹフラグメントは、現在、Ｎ_３にも存在し、以下同様である。このように、各ノードは、Ａｌｌｇａｔｈｅｒフェーズの終了時点において、部分ベクトルの全てのフラグメントＲ、Ｙ、Ｇ、Ｂ、Ｐ、Ｌが完全に集約された状態となって終了する。

【0044】

アルゴリズムの実行が効果的であるのは、集約に必要な計算をパイプライン待ち時間に覆い隠すことができる場合である。本発明者は、Ａｌｌｒｅｄｕｃｅの実行のためにコンピュータ内に適当なリングを形成する際、リングの循環がリング内の各ノードを１回のみ辿る場合に最も効率的であることを認識している。

【0045】

従って、双方向リンク（図１Ａ）を有するラインによって形成された自然のリングは、最も効率的なリングではない。

【0046】

ここで、Ａｌｌｒｅｄｕｃｅコレクティブを実行するために、処理ノード間で部分及び結果の効率的な受け渡しを可能にする処理ノードの相互接続されたネットワークの改良されたトポロジについて記述する。

【0047】

図４Ａは、複数の処理ノードが接続されたトポロジを示す概略図である。図４Ａでは、円環状に接続される２４の処理ノードがあるが、本原理は、いくつかが以下の記述で例示される異なる数のノードに拡張され得ることが理解されるであろう。更に、本明細書に記述する原理は、後述するように、斜め閉正方形角柱の異なるトポロジに拡張できる。これらの原理を採用する他の構成も想到される。各処理ノードは、参照が容易であるように番号でラベル付けされる。以下の記述において、ノードを指す際に添え字Ｎが付される。例えば、Ｎ０は、左上の処理ノードを表す。処理ノードは、後述する方法でリンクによって接続される。各リンクは、双方向、すなわちリンクを介して両方向にデータを伝送することができる。リンクは、この双方向機能が同時に行われる（すなわち、リンクが両方向に同時に利用され得る）ように動作することができる。物理的相互接続性及び論理的接続性があることに留意されたい。論理的接続性は、２つの連続的な組み込みリングの形成に用いられる。本明細書において、組み込みリングは、「経路」とも称されることに留意されたい。これらの用語は、交換可能であるが、用語「仮想リング」は、複数のフラグメントが各組み込みリング又は経路上の仮想リングで動作し得る、既に上で概説したシナリオのために準備されることを認識することが重要である。いくつかの実施形態において、各組み込みリング（又は経路）は、２つの方向に動作することができる。最初に、物理的接続性について記述する。処理ノードは、円環構成で接続される。ｙ軸に沿った処理ノードは、単一の双方向リンクによってその隣接するノードにそれぞれ接続される。明快さのため、図４Ａで全てのリンクがラベル付けされるわけではない。しかし、ノードＮ０からのリンクを示す。リンクＬ０４は、処理ノードＮ０をｙ軸方向においてその下にある処理ノードＮ４に結合する。「下」とは、コンピュータネットワークの特定の向きを意味することに留意されたい。実際には、コンピュータネットワークでは、向きが示唆されず、いかなる向きの記述も、図面を参照する際の説明のために過ぎない。ネットワークは、ｙ軸に沿って編成された複数の層を含む。各層には、各々の双方向リンクによってリング状に接続された４つの処理ノードがある。各層のリングは、ｙ軸に沿って延びないため、非軸方向と考えられる。例えば、処理ノードＮ０は、その層内で自らを一方の隣接するノードに接続するリンクＬ０１を有する。ノードＮ０は、層内で自らを他方の隣接するノードＮ３に接続するリンクＬ０３も有する。円環構造は、「末端」層内の対応する処理ノードが双方向リンクにより接続されることで完成する。用語「末端」は、図面の参照に便利であることに留意されたい。実際、トロイドにおいて、隣接する層の対応する接続されたノードは、連続的な軸方向リングを形成する。例えば、第１の末端層内のノードＮ０は、リンクＬ０２０により第２の末端層内のノードＮ２０に接続される。図面において、末端層は、中間層（ノードＮ４～Ｎ７、Ｎ８～Ｎ１１、Ｎ１２～Ｎ１５及びＮ１６～Ｎ１９により形成されたものと（これらが対応する処理ノードと共に接続されることにより）区別されることに留意されたい。実際には、これらは、連続的なリングの一部であろう。

【0048】

図４Ａに示すリンクは、異なる方法で実装され得る。いくつかの特定の例について以下に述べる。しかし、各リンクが単一の物理リンク構造であり、その物理リンク構造を介して双方向通信経路を提供できることに特に留意されたい。代替的に、リンク構造の各方向は、別々の物理的実装であり得る。リンクが固定リンクであり得ることにも留意されたい。すなわち、リンクは、２つの処理ノードを互いに接続する場合、ネットワークが構築及び設定された後に所定位置に固定される。代替的に、リンクは、ネットワークが構築された後、その接続性を変更可能にするスイッチング回路に装着されるか又はそれを含み得る。

【0049】

本明細書に記述する新たな原理によれば、図４Ａに示す物理的接続性により、２つの論理的組み込みリング（各リングは双方向性を有してもよい）をネットワークに組み込むことが可能になる。図４Ｂは、そのような第１のリングＲ１を示す。明快さのため、図４Ｂで全てのノードに参照番号を付すわけではないが、これらは、図４Ａに示すものと同じノードであることが認識されるであろう。図４ＢのリングＲ１は、データが送信され得る１つの連続的な経路内の以下のノードを通して延びる。リングＲ１は、ノードＮ０→Ｎ１→Ｎ５→Ｎ６→Ｎ１０→Ｎ１１→Ｎ１５→Ｎ１２→Ｎ１６→Ｎ１７→Ｎ２１→Ｎ２２→Ｎ２→Ｎ３→Ｎ７→Ｎ４→Ｎ８→Ｎ９→Ｎ１３→Ｎ１４→Ｎ１８→Ｎ１９→Ｎ２３→Ｎ２０→Ｎ０に戻るノードのシーケンスを通して延びる。リングＲ２は、Ｎ０→Ｎ３→Ｎ２３→Ｎ２２→Ｎ１８→Ｎ１７→Ｎ１３→Ｎ１２→Ｎ８→Ｎ１１→Ｎ７→Ｎ６→Ｎ２→Ｎ１→Ｎ２１→Ｎ２０→Ｎ１６→Ｎ１９→Ｎ１５→Ｎ１４→Ｎ１０→Ｎ９→Ｎ５→Ｎ４で各ノードを順次辿ってＮ０に戻るように延びる。

【0050】

各リングは、全て２４の処理ノードを含む。同じリングで使用されるリンクがないため、２つのリングが同時に使用できることにも留意されたい。従って、処理ノード間のいずれの単独の経路でも衝突がない。これは、本明細書では、リング間で共有された接続がないと言われる。これらのリングは、それぞれ同じ長さを有し、同じ数の処理ノードを通過するため、同型リングと称される。

【0051】

図４Ｄは、リングＲ１を示す３次元概略図を示す。他方のリングもｙ軸の周りで９０度回転すれば同じであることに留意されたい。先に述べたＡｌｌｒｅｄｕｃｅリングアルゴリズムをプログラムが実行する際の、図４Ｄに示す構造の使用を考える。各ノードは、

【数1】

サイズのフラグメントを出力し、ここで、ｎは、ノードの数であり、ｖは、特定のフェーズでｒｅｄｕｃｅ－ｓｃａｔｔｅｒ又はＡｌｌｇａｔｈｅｒされるデータ構造のサイズである。開始時点において、ｖは、部分ベクトルのサイズである。フラグメントの数は、リングを周回する各ステップの実行前のリング内のノードの数に等しい。ほとんどの実施形態では、各フラグメントは、同じサイズを有する。しかし、例えば、ベクトルの成分の数が均一に割り切れない、フラグメントのサイズが僅かに異なるシナリオもあり得る。その場合、これらは、ほぼ同じサイズ、すなわち除数に応じて１又は２つの成分が異なり得る。上述のＪａｉｎの論文に記載される構造と比較して、各リングが全てのノードを通過し、全てのリンクが常に使用されることに留意されたい。各処理ノードは、自らのデータを４つのリンクで同時に出力することができ、全帯域幅を利用するように構成され得る。すなわち、ノードの帯域幅をＢとすると、各リンクでの帯域幅はＢ／４である。これは、各処理ノードで対称に帯域幅が利用されている。図４Ｄに示すネットワークの第１の末端層のリンクＬ０１に沿ってＮ０からＮ１まで送信されるデータを考える。矢印は、このデータ送信方向を示す。既に述べたように、リングが逆方向にもデータを送信する可能性がある。しかし、矢印が示す順方向を考慮すると、経路内の次のステップは、ノードＮ１からノードＮ５である。従って、経路は、Ｎ０からＮ１への層内リンク及びＮ１からＮ５への層間リンクを使用する。経路内の次のステップは、（Ｎ５からＮ６への）層内リンクに続いて、Ｎ６からＮ１０への層間リンクである。従って、経路は、層内リンク及び層間リンクの連続的なシーケンスを含む。各層において、ノードは、２つの方向、すなわち時計回り及び反時計回りのいずれか一方で辿られ得る。図４Ｄにおいて、矢印は、ノードが第１の末端層で時計回りに辿られることを示す。同様に、ノードは、次の中間層及び全ての後続層において時計回りに辿られる。

【0052】

しかし、上述の通りである必要はないことに留意されたい。すなわち、特定の層を周回してノードを辿る方向は、各層で同じであるか又は各層で異なり得る。いくつかの実施形態では、各層で同じであり得、他の実施形態では、異なる層、例えば連続的な層で異なり得る。リンクが同時に双方向性を有する場合、各経路を周回するいずれの方向にもデータが送信され得ることに留意されたい。以下の記載は、各組み込み経路内でノードを辿るシーケンスを説明するためにデータ送信の一方向を説明する。例えば、図４Ｅの実施形態において、リング内でデータがノードＮ０からノードＮ１、更にノードＮ５に送信され、次いで中間層内の層内リンクに沿って反時計回りに送信される。データは、次いで、層間リンクを通過して次の中間層に、次いで時計回りの方向に次の中間層内の層内リンクに通過する。

【0053】

対称な帯域幅の利用が対称及び非対称の両方の構造で実現できることが明らかになるであろう。ここで、構成の対称性は、構成の層の数に対する層内の処理ノードの相対的な数として定義される。

【0054】

図５Ａ及び５Ｂは、４×４ネットワーク構成の２つの組み込み経路を示す。図５Ａ及び５Ｂのノード番号は、図４Ａのネットワーク構成（上から４行）から取られている。これは、例示的に過ぎない。図４Ａの４×６構成のノードを切り離して再接続することにより、４×４構成を提供することが可能であり、この場合、ノードは、一致するであろう。しかし、そのノードで４×４構成を構築することも可能である。図５Ａ及び５Ｂのノード間の相互接続は、それぞれ構成の２つの組み込み経路を示す。

【0055】

図６Ａ及び６Ｂは、４×８ネットワーク構成の２つの組み込み経路を示す。ノード番号は、図４Ａの番号と同じであり、一番下の２行にノードＮ２４～Ｎ３１が追加される。既に述べたように、図４Ａの４×６構成を拡張して、図６Ａ及び６Ｂに示すような４×８構成を構築できるが、そのネットワークノードから４×８構成を構築することも可能である。

【0056】

図６Ａ及び６Ｂの各々のノード間相互接続は、構成の２つの組み込み経路の各々を表す。

【0057】

図７Ａ及び７Ｂを参照すると、８×８ネットワーク構成の２つの組み込み経路が示されている。図７Ａ及び７Ｂのノードは、図６Ａのノードに従ってラベル付けされ、構成に更なる４列のノードＮ３２～Ｎ６３が追加される。ノードを追加することにより、図６Ａの構成を拡張して、図７Ａ及び７Ｂに示す構成を構築することが可能である。代替的に、図７Ａ及び７Ｂの構成をその元のノードから構築することもできる。

【0058】

図７Ａ及び７Ｂの各々のノード間相互接続は、それぞれネットワーク構成の２つの組み込みリングを示す。

【0059】

図８Ａは、４×６斜め正方形角柱状に配置された２４の処理ノードのコンピュータネットワークの別の実施形態を示す。コンピュータネットワークは、図４Ａに示す円環構造と類似している。しかし、いくつかの差違がある。ノードは、再び、軸に沿って配置された連続的な層内に配置され、各層は、処理ノード間の各接続によってリング状に接続された４つのノードを含む。リンクの構造及び挙動は、図４Ａに関して上で述べた通りであり得る。対応する処理ノードは、各々の層リンクにより、次の層内でその隣接するノードにそれぞれ接続される。図８Ａでは、図４Ａのノードと区別するためにノードがＮ’１、Ｎ’２等と表記されることに留意されたい。しかし、実際には、処理ノードは、図４Ａのノードと同種の処理ノードであり得る。

【0060】

図８Ａのネットワークの構造は、末端層のノードが接続される方法が図４Ａの構造と異なる。図４Ａにおいて、末端層の各ノードは、他方の末端層内で自らに対応するノードに接続される。これが円環を形成する。対照的に、図８Ａでは、第１の末端層内の斜めに対向する処理ノードが互いに接続される。すなわち、ノードＮ’０は、ノードＮ’２に接続され、Ｎ’１は、ノードＮ’３に接続される。

【0061】

対応して、他方の末端層内において、ノードＮ’２０は、ノードＮ’２２に接続され、ノードＮ’２１は、ノードＮ’２３に接続される。

【0062】

図８Ａのネットワークは、図８Ｂ及び８Ｃにそれぞれ示すように、２つの同型リングＲ’１及びＲ’２を組み込むように構成され得る。リングＲ’１は、ノードＮ’０→Ｎ’１→Ｎ’５→Ｎ’４→Ｎ’８→Ｎ’９→Ｎ’１３→Ｎ’１２→Ｎ’１６→Ｎ’１７→Ｎ’２１→Ｎ’２０→Ｎ’２３→Ｎ’１９→Ｎ’１８→Ｎ’１４→Ｎ’１５→Ｎ’１１→Ｎ’１０→Ｎ’６→Ｎ’７→Ｎ’３→Ｎ’２を通過してＮ’０に戻る。

【0063】

リングＲ’２は、ノードＮ’０からＮ’３→Ｎ’１→Ｎ’２→Ｎ’６→Ｎ’５→Ｎ’９→Ｎ’１０→Ｎ’１４→Ｎ’１３→Ｎ’１７→Ｎ’１８→Ｎ’２２→Ｎ’２１→Ｎ’２３→Ｎ’２０→Ｎ’１６→Ｎ’１９→Ｎ’１５→Ｎ’１２→Ｎ’８→Ｎ’１１→Ｎ’７→Ｎ’４→Ｎ’０まで延びる。

【0064】

ここでもまた、明快さのため、図８Ｂ及び８Ｃで全てのリンクがラベル付けされるわけではないことに留意されたい。

【0065】

図４Ａに示すネットワークと同様に、各処理ノードの帯域幅は、対称的である。例えば、処理ノードＮ’３を考える。これは、４つのリンクを有し、その各々での帯域幅はＢ／４であり、ここで、Ｂは、総ノード帯域幅である。

【0066】

図８Ｄは、リングＲ’_１を示す概略３次元図である。他方のリングもｙ軸の周りで９０度回転すれば同じである。ここでもまた、リンクの矢印は、リングに沿った方向へのデータ送信の方向を示す。データは、逆方向に送信され得る。この場合、データは、Ｎ’０からノードＮ’１に、斜め接続リンクを介してノードＮ’３に、次いで層内で時計回りにノードＮ’４に送信される。データは、次いで、層間リンクを介して次の層に、層間リンク内に延びて次の層に接続する前に、その層に沿って層内リンクを反時計回りに送信される。従って、ここでもまた、経路は、連続的な層内及び層間リンクを含む。次の層において、データが時計回りの方向に送信される状態を示す。しかし、図４Ａのリングと同様に、層を周回してノードを辿り得る方向が変わり得ることに留意されたい。例えば、これは、全ての層で同じであるか又は異なる層で異なり得る。

【0067】

追加的な処理ノードを追加することにより、コンピュータの能力を拡張することができる。これらは、ｙ軸方向の追加的な層又はｘ軸方向の各層の追加ノードの形式で追加され得る。ここで、ｘ軸という用語を用いるが、これは、先に述べた「非軸方向」リングを指すことに留意されたい。これを行うため、処理ノードの相互接続性を変更することができる。例えば、図４Ａを参照して、一番下の末端層に追加された更なる層の追加を考える。ノードＮ２０、Ｎ２１、Ｎ２２、Ｎ２３からのリンクは、切り離され、追加的な層内の対応する処理ノードにそれぞれ接続される。これらのノードは、図４Ａに示していないが、原理は、明らかであろう。追加ノードは、次いで、最上末端層Ｎ０、Ｎ１，Ｎ２、Ｎ３に接続し直すリンクを有することになる。追加的な処理ノード間の層内リンクは、更なる処理ノードをリングにおいて接続する。構成の残りの部分の接続性は、同じままであることに留意されたい。

【0068】

円環構成は、斜め閉正方形角柱として再接続することができる。これを実現するために、末端層を互いに接続するリンクが切り離される。図４Ａを参照すると、リンクＬ０２０が切り離され、代わりにノードＮ０及びＮ２間に接続される。ノードＮ２３及びＮ３間に延びるリンクが切り離され、代わりにノードＮ３がノードＮ１に接続される。同様に、下部末端層において、ノードＮ２３がノードＮ２１に接続され、ノードＮ２２がノードＮ２０に接続される。

【0069】

従って、これらのリンクを再接続することにより、斜め閉正方形角柱を円環から生成することができる。

【0070】

本明細書に記述するいくつかの実施形態において、コンピュータネットワークは、４×ｎ構造を有し、ここで、４は、各層内の処理ノードの数を表し、ｎは、層の数を表す。それぞれの場合、２つの同型データ送信リングが組み込まれ、各々がネットワークの全ての処理ノードを通過する。

【0071】

各処理ノードで対称的な帯域幅の利用がある。すなわち、処理ノードからの各リンクは、その処理ノードからの他のリンクと同じ帯域幅を利用する。

【0072】

２つの組み込み同型リングは、全ての帯域幅を使用し、２つのリングでリンクが共有されることはない。すなわち、各リングは、リンクの共有がないため、完全なリンク帯域幅を有することが可能になる。

【0073】

上述のように、一実施形態において、コンピュータネットワークは、固定された構成に有線接続される。他の実施形態では、リンクは、切り替え可能である。すなわち、各リンクは、スイッチに取り付けられるか、又はリンクの一部を形成するスイッチを有し得る。特に、最上層及び最下層におけるリンクが切り替え可能である場合、これらを用いてネットワークを拡張するか、又は円環若しくは斜め角柱を切り替えることができる。導線を手動で切り離すことにより、固定的に有線接続された構造間で切り替えることができることに留意されたい。スイッチを用いる場合、構成間で自動的に切り替えることができる。

【0074】

斜め閉正方形角柱構成には、処理ノード間で必要とされる最大ケーブル長を円環よりも短くできるという利点がある。同じ層内の処理ノード間を閉じるために必要なケーブル長（図８Ａの最上及び最下端層は、円環構成のように最上末端層内のノードを最下端層内のノードに接続するのに必要な「巻き付け」リンクよりも短いことが直ちに分かる。しかしながら、折り畳み構造を採用することにより、トロイド内のケーブル長を短縮することができる。

【0075】

しかし、円環構成には、任意の２つの処理ノード間でのデータ交換の最悪ケースの経路が斜め閉角柱の場合よりも短いという利点がある。

【0076】

ネットワークは、異なる方法で誤り耐性化（ｆａｕｌｔｔｏｌｅｒａｎｔ）できることに留意されたい。例えば、処理ノード間で各リンク経路に２つの物理リンクを設けることができる。

【0077】

別の例では、各物理リンクは、リンクがそのリンクの１つのレーン上の不具合に自動的に適合するように、（例えば、ＰＣＩＥｘｐｒｅｓｓの場合に）複数のレーンを有し得る。リンクは、より緩慢に動作する場合があるが、それでも動作し続ける。

【0078】

各々が構造の全ての処理ノードを通過する２つのリングを構造内に組み込むことにより、（例えば、破損リンクに起因して）１つのリングが完全に故障しても他の処理リングが依然として動作位置にあり得ることに留意されたい。Ａｌｌｒｅｄｕｃｅ等の機械学習アルゴリズムを実装することに関連して、１つのリングの動作により、ある量のデータをＡｌｌｒｅｄｕｃｅ動作に依然として提供することができる。一部の訓練状況では、これは、故障しているリングが修理できるまでアルゴリズムの進行中の動作を支援するのに十分である。

【0079】

各ノードは、処理を実行又は機能を計算することができる。各ノードは、単一のプロセッサとして実装することができる。しかし、各ノードが単一のチップ又はチップのパッケージとして実装され、各チップが複数のプロセッサを含む可能性がより高い。個々のノードの各々を具現化する多くの異なる方法がある。一例において、ノードは、出願番号英国特許出願公開第１８１６８９１．４号明細書、英国特許出願公開第１８１６８９２．２号明細書、英国特許出願公開第１７１７２９９．０号明細書の英国出願に記載される種類の知能処理ユニットで構成され得、その内容は、参照により本明細書に援用される。しかし、本明細書に記載する技術は、ノードを構成する任意の種類のプロセッサに使用され得る。本明細書で概説するのは、機械学習モデルで有用な特定の交換パターンを実行するために効率的にデータを交換する方法である。更に、リンクは、任意の適当な方法で具現化できる。リンクが双方向性であることが有利であり、同時に両方向で動作可能であることが好適であるが、これは、必須条件ではない。通信リンクの１つの特定のカテゴリは、リンクを介して搬送されるデータの量又はそのデータの搬送に費やした時間から独立した電力要件を有するＳＥＲＤＥＳリンクである。ＳＥＲＤＥＳは、シリアライザ／デシリアライザの略語であり、そのようなリンクは、公知である。このようなリンクの導線を介して信号を送信するには、信号を生成するために導線に電力を印加して電圧を変化させる必要がある。ＳＥＲＤＥＳリンクには、電力を導線に印加し続けて特定の電圧レベルに維持して、その電圧レベルの変動（０～印加電圧レベルの変動）により信号が搬送されるようにするという特徴がある。従って、使用されるか否かに関わらず、ＳＥＲＤＥＳリンクの帯域幅容量を維持するのに固定電力が存在する。ＳＥＲＤＥＳリンクは、各終端において、リンク層装置を銅線等の物理リンクに接続する回路により実装される。この回路は、ＰＨＹ（物理層）と称される場合がある。ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）は、高速コンピュータを接続するためのインターフェース基準である。

【0080】

リンクが使用されない間、電力を殆ど消費しないように動的に無効化することが可能である。しかし、機械学習アプリケーションの起動時間及び非決定論的性質では、一般にプログラム実行中の動的起動が問題となる。その結果、本発明者は、チップ間リンクの電力消費がいずれの特定の構成でも本質的に一定であり、従って、最良の最適化が、チップ間トラフィックを可能な限りＩＰＵ動作と同期状態に維持することにより、物理リンクの利用率を最大化することであるとの事実を利用することがより良好であり得ると判断した。

【0081】

ＳＥＲＤＥＳＰＨＹは、全二重（すなわち、毎秒１６ＧビットのＰＨＹは、各方向に同時に毎秒１６Ｇビットをサポートする）であるため、全リンクの帯域幅の利用は、バランスが取れた双方向トラフィックを示唆する。更に、直接チップ間通信の使用は、スイッチ経由等の間接通信と比較して重要な利点があることに留意されたい。直接チップ間通信は、スイッチ方式の通信よりも電力効率がより高い。

【0082】

考慮すべき別の要因として、ノード間の帯域幅の要件がある。１つの目的は、ノード間通信を、分散機械学習の各ノードで実行される計算で覆い隠すのに十分な帯域幅を得ることである。

【0083】

機械学習用マシンアーキテクチャを最適化する場合、必要とされる帯域幅の尺度としてＡｌｌｒｅｄｕｃｅコレクティブを用いることができる。Ａｌｌｒｅｄｕｃｅコレクティブの一例を、モデル平均化のためのパラメータ更新の扱いに関して上記に示した。他の複数の例では、勾配平均化及び基準の計算が含まれる。

【0084】

一例として、残差学習ネットワークのＡｌｌｒｅｄｕｃｅ要件を考慮することができる。残差学習ネットワークは、深い畳み込みニューラルネットワークのクラスである。深い畳み込みのニューラルネットワークにおいて、複数の層を用いて各層内の各々の特徴を学習する。残差学習において、特徴の代わりに残差が学習され得る。ＲｅｓＮｅｔとして知られる特定の残差学習ネットワークは、ネットワークの異なる層間の直接接続を実行する。このような残差ネットワークの訓練は、ある状況では従来の深い畳み込みニューラルネットワークよりも容易であり得ることが示されている。

【0085】

ＲｅｓＮｅｔ５０は、５０層の残差ネットワークである。ＲｅｓＮｅｔ５０は、２５Ｍの重みを有するため、単位置浮動小数点形式Ｆ１６の全ての重み勾配のＡｌｌｒｅｄｕｃｅが５０メガバイトの部分を含む。帯域幅の要件を例示するために、１つの完全なＡｌｌｒｅｄｕｃｅが完全なバッチ毎に必要であると仮定する。これは、勾配のＡｌｌｒｅｄｕｃｅである可能性が高い（しかし、必須ではない）。これを実現するには、各ノードは、完全な集約毎に１００メガビットを出力しなければならない。ＲｅｓＮｅｔ５０は、訓練用画像毎に２５０ギガフロップスを必要とする。処理ノード毎のサブバッチサイズが１６画像である場合、各プロセッサは、各Ａｌｌｒｅｄｕｃｅコレクティブに対して４００ギガフロップスを実行する。プロセッサが毎秒１００テラフロップを達成した場合、Ａｌｌｒｅｄｕｃｅ通信との計算の並列性を維持するには、全てのリンク間で毎秒約２５ギガビットが必要とされる。プロセッサ毎のサブバッチが８画像である場合、より小さいバッチを処理するのに要する毎秒テラフロップ数が少なくて済むため、部分的に緩和されて、必要な帯域幅は、名目的に２倍になる。

【0086】

各々がサイズｍメガバイト（集約サイズに等しい）である部分から始まるｐ個のプロセッサ間でのＡｌｌｒｅｄｕｃｅコレクティブの実行は、リンクを介して少なくとも２ｍ・（ｐ－１）メガバイトの送信を必要とする。従って、各プロセッサが、同時送信可能なｌリンクを有する場合、漸近的最短集約時間は、２ｍ・（ｐ－１）・（ｐ－１）／（ｐ・ｌ）である。

【0087】

上述の概念及び技術は、いくつかの異なる例で用いることができる。

【0088】

一例において、コンピュータとして使用するために固定構成が提供される。本例において、複数の処理ノードは、上述の各種の実施形態で記述及び図示したように相互接続される。このような構成では、本質的な層内及び層間リンクのみが処理ノード間に配置される。

【0089】

固定構成は、その構成の処理ノードの厳密な数で構築され得る。代替的に、それは、より大きい構造から分割することにより提供され得る。すなわち、積層に配置された処理ノードの組が提供され得る。各積層内の処理ノードは、隣接する積層内の対応する処理ノードへの層間リンク及び層内の隣接する処理ノード間の層内リンクを有し得る。

【0090】

所望の数の積層の固定構成は、積層の元の組の指定された積層内の各層間リンクを切り離し、それを、指定された積層内の隣接する処理ノードに接続して層内リンクを提供することにより得られる。このように、積層の元の組の指定された積層に構造の第１及び第２の末端層の１つを形成することができる。複数の層の元の組は、このように複数の固定構造に分割できることに留意されたい。

【0091】

層間及び層内リンクは、上述のように適当なバス又は導線により提供される物理リンクである。１つの具体例において、各処理ノードから、自らを別の処理ノードに接続する複数の導線の組が延びる。これは、例えば、１つ以上の物理的導線が接続された１つ以上のポートを有する各処理ノードの１つ以上のインターフェースにより行うことができる。

【0092】

別の具体例において、リンクは、オンボード導線により構成され得る。例えば、単一の基板がチップのグループ、例えば４つのチップを支持することができる。各チップは、他のチップに接続可能なポートとのインターフェースを有する。所定の方法に従って基板に導線をはんだ付けすることにより、チップ間の接続を形成することができる。本明細書に記述する概念及び技術は、印刷回路基板のチップ間に予めはんだ付けされるリンクの利用率を最大化するため、特にこの状況で有用であることに留意されたい。

【0093】

いくつかの実施形態に関して記載した概念及び技術は、切り替え不可能なリンクの最適使用を可能にするため、特に有用であろう。ノード間の固定された切り替え不可能なリンクを使用して、本明細書に記載したように処理ノードを接続することにより構成を構築することができる。いくつかの具体例において、このようなリンクを使用しない場合、処理ノード間に更なるリンクを提供する必要がない。

【0094】

この構成を用いるために、並列プログラムの組が生成される。並列プログラムの組は、ノードレベルプログラム、すなわち構成内の特定の処理ノードに対して作用するように指定されたプログラムを含む。特定の構成に作用する並列プログラムの組は、コンパイラにより生成することができる。特定のデータの各データ送信ステップで使用するリンクを正しく定義するノードレベルプログラムを生成することは、コンパイラが担当する。これらのプログラムは、リンク識別子を用いて、送信ステージで使用されるリンクを識別する、そのデータ送信ステージでデータ送信を実行するための１つ以上の命令を含む。例えば、処理ノードは、いずれの１つの時点でも４つ（リンクが同時に双方向性である場合にはその２倍）の有効リンクを有し得る。リンク識別子は、その送信ステージのためのデータ項目に対して正しいリンクを選択させる。各処理ノードがその隣接するノードの動作について不可知であり得、すなわち、交換動作は、交換ステージ毎に予めコンパイルされることに留意されたい。

【0095】

リンクを切り替える必要もなく、すなわちデータ項目を送信時点で動的にルーティングするか又はリンクの接続性を変える必要がないことにも留意されたい。しかし、スイッチは、上述のようにいくつかの実施形態で提供することができる。

【0096】

上述のように、本明細書に記述するコンピュータネットワークの構成は、計算の並列性を強化するものである。これに関連して、並列性は、並列に実行する、例えば上述のように人工知能モデルを分散的に訓練することを意図されたノードレベルプログラムを構成の処理ノードにロードすることにより実現される。しかし、これは、本明細書に記載した構成により可能にされる並列性の１つの応用例に過ぎないことが容易に認識されるであろう。並列性を実現する１つのスキームは、「バルク同期並列（ｂｕｌｋｓｙｎｃｈｒｏｎｏｕｓｐａｒａｌｌｅｌ）」（ＢＳＰ）計算として知られる。ＢＳＰプロトコルによれば、各処理ノードは、計算フェーズ及び計算フェーズに続いて交換フェーズを実行する。計算フェーズ実行中、各処理ノードは、その計算タスクを局所的に実行するが、計算の結果を他の処理ノードと交換しない。交換フェーズにおいて、各処理ノードは、先行計算フェーズからの計算結果を構成の他の処理ノードと交換することが許容される。この構成で交換フェーズが完了するまで、新たな計算フェーズは開始されない。この形式のＢＳＰプロトコルにおいて、バリア同期化は、計算フェーズから交換フェーズに遷移するか若しくは交換フェーズから計算フェーズに遷移する分岐点又はその両方で行われる。

【0097】

本実施形態において、交換フェーズが開始された場合、各処理ノードは、コンパイラにより、その交換フェーズのために決定されたリンク識別子を用いて、その隣接するノードとデータを交換するための命令を実行する。交換フェーズの性質は、上記したＭＰＩメッセージ受け渡し標準を用いて決定することができる。例えば、Ａｌｌｒｅｄｕｃｅコレクティブ等のコレクティブをライブラリから取り出すことができる。このように、コンパイラは、部分ベクトルが送信される（または、部分ベクトルの各フラグメントが送信される）リンクを制御する予めコンパイルされたノードレベルプログラムを有する。

【0098】

他の同期化プロトコルを用い得ることは、容易に明らかになるであろう。

【0099】

特定の実施形態について記載してきたが、開示する技術の他の応用及び変型形態は、本明細書の開示をもって当業者に明らかになるであろう。本開示の範囲は、記載した実施形態ではなく、添付の請求項のみによって限定される。

【図1】