特許7503198 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グラフコアー　リミテッドの特許一覧

特許7503198ハードウェアオートローダ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-11

(45)【発行日】2024-06-19

(54)【発明の名称】ハードウェアオートローダ

(51)【国際特許分類】

G06F 21/57 20130101AFI20240612BHJP

【ＦＩ】

G06F21/57 350

【請求項の数】 17

(21)【出願番号】P 2023501865

(86)(22)【出願日】2021-05-10

(65)【公表番号】

(43)【公表日】2023-08-08

(86)【国際出願番号】 EP2021062334

(87)【国際公開番号】W WO2022012800

(87)【国際公開日】2022-01-20

【審査請求日】2023-01-12

(31)【優先権主張番号】2010816.3

(32)【優先日】2020-07-14

(33)【優先権主張国・地域又は機関】GB

(73)【特許権者】

【識別番号】518371892

【氏名又は名称】グラフコアーリミテッド

【氏名又は名称原語表記】ＧｒａｐｈｃｏｒｅＬｉｍｉｔｅｄ

【住所又は居所原語表記】１１－１９ＷｉｎｅＳｔｒｅｅｔ，Ｂｒｉｓｔｏｌ，ＢＳ１２ＰＨ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ

(74)【代理人】

【識別番号】100169904

【弁理士】

【氏名又は名称】村井康司

(74)【代理人】

【識別番号】100221372

【弁理士】

【氏名又は名称】岡崎信治

(72)【発明者】

【氏名】ダニエルジョンペルハムウィルキンソン

【審査官】宮司卓佳

(56)【参考文献】

【文献】特開２０１０－０７３１９３（ＪＰ，Ａ）

【文献】国際公開第０１／０２７７５３（ＷＯ，Ａ２）

【文献】米国特許出願公開第２０１７／００８３７０７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１６／０１９６１９３（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１０／０２８７４２４（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ２１／５７

(57)【特許請求の範囲】

【請求項1】

複数のプロセッサを含む集積回路であって、前記複数のプロセッサのそれぞれは、
アプリケーションデータと、実行可能アプリケーション命令のセットと、を記憶するための少なくとも１つのメモリと、
少なくとも１つ実行ユニットと、
を含み、
前記集積回路は、実行可能ブート命令のセットを含むメモリを含むハードウェアモジュールを含み、前記ハードウェアモジュールは、信頼されたソフトウェアによる実行時、前記実行可能ブート命令のセットを、前記集積回路の相互接続部を介して前記複数のプロセッサの少なくともいくつかに発信させるように構成されたプロセッシング回路を含み、
前記複数のプロセッサの前記少なくともいくつかにおいて、前記少なくとも１つの実行ユニットは、
受信された実行可能ブート命令のセットを実行して、前記集積回路の外部にある少なくとも１つのメモリに対して、前記実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させることと、
前記実行可能アプリケーション命令のセットを実行して、前記アプリケーションデータを使用して演算を実行することと、
を行うように構成される、集積回路。

【請求項2】

前記複数のプロセッサの少なくともいくつかにおいて、
受信された実行可能ブート命令のセットを実行することは、前記集積回路のそれぞれのプロセッサの識別子に応じて外部メモリのアドレスを演算することを含み、
前記読み取り要求を発行させることは、前記外部メモリにおける演算されたアドレスから前記実行可能アプリケーション命令のセットをフェッチするための前記読み取り要求を発行させることを含む、請求項１に記載の集積回路。

【請求項3】

前記ハードウェアモジュールは、前記実行可能ブート命令のセットによって占有されていないメモリ空間を消去させるための１つ又は複数の書き込み要求を前記複数のプロセッサの少なくともいくつかに発信させるように構成されたプロセッシング回路を含む、請求項１又は２に記載の集積回路。

【請求項4】

前記複数のプロセッサの少なくともいくつかにおいて、少なくとも１つの実行ユニットは、前記実行可能アプリケーション命令のそれぞれのセットの実行中に生成されたチェックポイントデータを、書き込み要求において、前記集積回路の外部にあるストレージに発信させるように配置される、請求項１～３のいずれか一項に記載の集積回路。

【請求項5】

前記ハードウェアモジュールの前記プロセッシング回路は、生成されたチェックポイントデータを発信させることに続いて、前記実行可能ブート命令のセットを、前記集積回路の相互接続部を介して前記複数のプロセッサの少なくともいくつかに再び発信させるように構成され、
前記複数のプロセッサの少なくともいくつかにおいて、少なくとも１つの実行ユニットは、その後、
受信された実行可能ブート命令のセットを実行して、前記集積回路の外部にある前記メモリに対して、前記実行可能アプリケーション命令のセットと、前記チェックポイントデータを含む更なるアプリケーションデータのセットと、をフェッチするための読み取り要求を発行させることと、
前記実行可能アプリケーション命令のセットを実行して、前記チェックポイントデータの値を使用して演算を実行することと、
を行うように構成される、請求項４に記載の集積回路。

【請求項6】

更なるアプリケーションデータのセットは、インバリアントデータのセットを含み、前記インバリアントデータは、前記チェックポイントデータの発信前にフェッチされた前記アプリケーションデータの一部であり、
更なるアプリケーションデータのセットは、前記チェックポイントデータの発信前にフェッチされた前記アプリケーションデータの一部であるバリアントデータの代わりに、前記チェックポイントデータを含む、請求項５に記載の集積回路。

【請求項7】

前記複数のプロセッサの前記少なくともいくつかにおいて、少なくとも１つ実行ユニットは、前記実行可能アプリケーション命令のセットを実行して、前記集積回路の外部にある少なくとも１つのメモリから前記アプリケーションデータの少なくとも一部をロードするように構成される、請求項１～６のいずれか一項に記載の集積回路。

【請求項8】

前記複数のプロセッサの前記少なくともいくつかにおいて、少なくとも１つ実行ユニットは、受信された実行可能ブート命令のセットを実行して、前記集積回路の外部にある少なくとも１つのメモリに対して、前記アプリケーションデータの少なくとも一部をフェッチするための読み取り要求を発行させるように構成される、請求項１～７のいずれか一項に記載の集積回路。

【請求項9】

前記ハードウェアモジュールは、前記実行可能ブート命令のセットを記憶するように構成された揮発性メモリを含み、
前記ハードウェアモジュールの前記プロセッシング回路は、前記集積回路のリセットに続いて、
前記集積回路の外部にあるデバイスから前記実行可能ブート命令のセットを受信することと、
受信された実行可能ブート命令のセットを前記揮発性メモリに記憶することと、
を行うように構成される、請求項１～８のいずれか一項に記載の集積回路。

【請求項10】

前記集積回路の外部にあるデバイスから前記実行可能ブート命令のセットを受信することは、ＪＴＡＧインターフェースを介して前記実行可能ブート命令のセットを受信することを含む、請求項９に記載の集積回路。

【請求項11】

前記ハードウェアモジュールは、前記実行可能ブート命令のセットを記憶するように構成された不揮発性メモリを含む、請求項１～７のいずれか一項に記載の集積回路。

【請求項12】

前記ハードウェアモジュールの前記メモリは、実行可能ブート命令の複数のセットを記憶するように構成され、
前記プロセッシング回路は、前記実行可能ブート命令の複数のセットのそれぞれを前記集積回路の前記プロセッサのサブセットに発信させるように構成される、請求項１～１１のいずれか一項に記載の集積回路。

【請求項13】

請求項１～１２のいずれか一項に記載の集積回路と、
前記集積回路の外部にある前記メモリを含むデータ提供システムと、
を含むデータプロセッシングシステム。

【請求項14】

前記データ提供システムは、前記データ提供システムにおいて、前記集積回路からの同期要求を受信することに応じて、プロセッサのグループのためのアプリケーションデータを、前記集積回路の外部にある前記メモリにロードさせるように構成された少なくとも１つのプロセッサを含む、請求項１３に記載のデータプロセッシングシステム。

【請求項15】

前記データ提供システムの少なくとも１つのプロセッサは、前記集積回路から受信された前記プロセッサのグループの識別子に応じた配置において、前記集積回路の外部にある前記メモリに前記アプリケーションデータを配置するように構成される、請求項１３に記載のデータプロセッシングシステム。

【請求項16】

複数のプロセッサを含む集積回路において実行される方法であって、
前記集積回路のハードウェアモジュールに実行可能ブート命令のセットを記憶することと、
信頼されたソフトウェアによる実行時、前記実行可能ブート命令のセットを、前記集積回路の相互接続部を介して前記複数のプロセッサの少なくともいくつかに発信させるように前記ハードウェアモジュールのプロセッシング回路を設定することと、
前記複数のプロセッサの少なくともいくつかにおいて、受信された実行可能ブート命令のセットを実行して、前記集積回路の外部にあるメモリに対して、実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させることと、
前記実行可能アプリケーション命令のセットを実行して、アプリケーションデータを使用して演算を実行することと、
を含む方法。

【請求項17】

複数のプロセッサを含む集積回路のハードウェアモジュールのプロセッシング回路に方法を実行させるコンピュータ実行可能命令を含むコンピュータプログラムであって、前記方法は、
前記集積回路の前記ハードウェアモジュールに実行可能ブート命令のセットを記憶することと、
信頼されたソフトウェアによる実行時、前記実行可能ブート命令のセットを、前記集積回路の相互接続部を介して前記複数のプロセッサの少なくともいくつかに発信させるように前記ハードウェアモジュールのプロセッシング回路を設定することと、
を含み、
前記実行可能ブート命令は、前記複数のプロセッサの少なくともいくつかにおいて実行されると、アプリケーションデータを使用して演算を実行するために、前記集積回路の外部にあるメモリに対して、前記複数のプロセッサの少なくともいくつかにおいて実行するための実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させるように構成される、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、集積回路の複数のプロセッサへのアプリケーションの提供に関する。

【背景技術】

【0002】

大規模並列演算を実行する場合、複数のプロセッサを含むプロセッシングユニットは、単一の集積回路（すなわちチップ）上に設けられ得る。プロセッサのそれぞれは、アプリケーションデータのセット、例えばアプリケーションのための入力変数を用いて実行可能アプリケーション命令のセットを実行することにより、アプリケーションのための演算を実行するように構成される。

【0003】

複数のプロセッサを含むプロセッシングユニットの使用法の一例は、機械学習アルゴリズム、例えば深層ニューラルネットワークに関連して見られる。機械知能の技術分野の当業者によく知られているように、機械知能アルゴリズムは、「知識モデル」に基づいており、知識モデルは、複数の相互に接続されたノードのグラフによって表され得る。各ノードは、そのノードの入力の関数を表す。いくつかのノードは、グラフへの入力を受け取り、いくつかのノードは、１つ又は複数の他のノードからの入力を受け取る一方、いくつかのノードの出力は、他のノードの入力を形成し、いくつかのノードの出力は、グラフの出力を提供する（及びいくつかの場合、所与のノードは、グラフへの入力、グラフからの出力及び他のノードへの接続部のすべてさえ有し得る）。更に、各ノードにおける関数は、１つ又は複数のそれぞれのパラメータ、すなわち重み及びバイアスによってパラメータ化される。

【0004】

通常、各ノードで実行される処理の少なくともいくつかは、グラフ内の他のノードのいくつか又はすべてとは独立に実行され得るため、巨大グラフは、並行処理及び／又は並列処理の優れた機会を提供する。コンピュータ内の各プロセッサは、異なるノードに関連付けられた処理を行うために使用され得る。このようにして、複数のプロセッサは、まとめて単一のニューラルネットワークの訓練又は演算を行うために使用され得る。

【0005】

機械学習モデルに関連付けられた処理は、演算フェーズと訓練フェーズとに分割され得る。訓練フェーズでは、入力データのセットは、機械学習モデルの状態を規定するデータを用いて、機械学習モデルの出力値を生成するように処理される。機械学習モデルの状態を規定するデータは、モデルのいずれのノードが連結されているかを示した情報と、追加的に訓練中に変化するモデルパラメータ（例えば、重み及びバイアスを含む）とを含む。訓練中に得られた出力値のセットがラベルのセットに対して比較され、モデルパラメータは、入力値のセットからラベルをより正確に再現するようにモデルを調整するために更新される。機械学習モデルが訓練されると、演算フェーズにおいて、入力データのセットは、訓練において取得された調整されたパラメータを用いて出力値を生成するように処理される。

【0006】

機械学習モデルの演算フェーズ及び訓練フェーズにおいて使用される様々なデータのセット、すなわち入力データ、ノード間の連結を規定する情報、モデルパラメータ及びラベルは、機械学習モデルの訓練及び／又は演算を実施するために１つ又は複数のプロセッサによって処理されるアプリケーションデータを構成する。このアプリケーションデータを用いて演算を実施するために、マルチプロセッサシステムは、実行可能命令のセットをロードされなければならない。マルチプロセッサシステムに実行可能命令のセットをロードすることは、機械学習に関連して生じる要件であるが、機械学習関連に限定されるものではなく、他のタイプのアプリケーションに関連して生じることもある。

【発明の概要】

【発明が解決しようとする課題】

【0007】

マルチプロセッサ集積回路に実行可能命令のセットをロードする場合、１つの課題は、信頼できない命令及びデータがプロセッサのそれぞれにロードされることを阻止することである。悪意のある第三者が各プロセッサのストレージにアクセスした場合、この第三者は、プロセッサにソフトウェアをインストールすることが可能になり、テナントがプロセッサに提供した真正のアプリケーションデータへのアクセスを得ることが可能になり得る。真正のアプリケーション命令及びデータは、多くの場合、機密であり、悪意のある第三者から秘匿されるべきである。したがって、信頼されたアプリケーション命令のみが外部ストレージからプロセッサのそれぞれのメモリに移動されることを確保する必要がある。

【課題を解決するための手段】

【0008】

第１の態様によれば、複数のプロセッサを含む集積回路であって、複数のプロセッサのそれぞれは、アプリケーションデータと、実行可能アプリケーション命令のセットとを記憶するための少なくとも１つのメモリと、少なくとも１つ実行ユニットとを含み、集積回路は、実行可能ブート命令のセットを含むメモリを含むハードウェアモジュールを含み、ハードウェアモジュールは、実行可能ブート命令のセットを、集積回路の相互接続部を介して複数のプロセッサの少なくともいくつかに発信（ｄｉｓｐａｔｃｈ）させるように構成されたプロセッシング回路を含み、複数のプロセッサの少なくともいくつかにおいて、少なくとも１つの実行ユニットは、受信された実行可能ブート命令のセットを実行して、集積回路の外部にある少なくとも１つのメモリに対して、実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させることと、実行可能アプリケーション命令のセットを実行して、アプリケーションデータを使用して演算を実施することとを行うように構成される、集積回路が提供される。

【0009】

マルチプロセッサ集積回路には、信頼されたソフトウェアによってプロセッサのセットのそれぞれにブートローダを提供するように構成されたハードウェアモジュールが設けられる。そうすることにより、プロセッサのそれぞれは、信頼されたブートローダを安全に提供される。信頼されたブートローダは、プロセッサのそれぞれが、正しいアプリケーション命令を記憶する外部メモリロケーションに対する読み取り要求を発行することを確保するために使用される。これにより、悪意のある第三者によって提供されたソフトウェアであり得る誤った命令をプロセッサが読み取ることが阻止される。したがって、集積回路のセキュリティが改善される。追加的に、この技法は、アプリケーションの高速ブートを実現するという利点を有する。

【0010】

いくつかの実施形態では、複数のプロセッサの少なくともいくつかにおいて、受信された実行可能ブート命令のセットを実行することは、集積回路のそれぞれのプロセッサの識別子に応じて外部メモリのアドレスを演算することを含み、読み取り要求を発行させることは、外部メモリにおける演算されたアドレスから実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させることを含む。

【0011】

いくつかの実施形態では、ハードウェアモジュールは、実行可能ブート命令のセットによって占有されていないメモリ空間を消去させるための１つ又は複数の書き込み要求を複数のプロセッサの少なくともいくつかに発信させるように構成されたプロセッシング回路を含む。

【0012】

いくつかの実施形態では、複数のプロセッサの少なくともいくつかにおいて、少なくとも１つ実行ユニットは、実行可能命令のそれぞれのセットの実行中に生成されたチェックポイントデータを、書き込み要求において、集積回路の外部にあるストレージに発信させるように配置される。

【0013】

いくつかの実施形態では、ハードウェアモジュールのプロセッシング回路は、生成されたチェックポイントデータを発信させることに続いて、実行可能ブート命令のセットを、集積回路の相互接続部を介して複数のプロセッサの少なくともいくつかに再び発信させるように構成され、複数のプロセッサの少なくともいくつかにおいて、少なくとも１つの実行ユニットは、その後、受信された実行可能ブート命令のセットを実行して、集積回路の外部にあるメモリに対して、実行可能アプリケーション命令のセットと、チェックポイントデータを含む更なるアプリケーションデータのセットと、をフェッチするための読み取り要求を発行させることと、実行可能アプリケーション命令のセットを実行して、チェックポイントデータの値を使用して演算を実行することとを行うように構成される。

【0014】

いくつかの実施形態では、更なるアプリケーションデータのセットは、インバリアントデータのセットを含み、インバリアントデータは、チェックポイントデータの発信前にフェッチされたアプリケーションデータの一部であり、更なるアプリケーションデータのセットは、チェックポイントデータの発信前にフェッチされたアプリケーションデータの一部であるバリアントデータの代わりに、チェックポイントデータを含む。

【0015】

いくつかの実施形態では、複数のプロセッサの少なくともいくつにおいて、少なくとも１つ実行ユニットは、実行可能アプリケーション命令のそれぞれのセットを実行して、集積回路の外部にある少なくとも１つのメモリからアプリケーションデータの少なくとも一部をロードするように構成される。

【0016】

いくつかの実施形態では、複数のプロセッサの少なくともいくつかにおいて、少なくとも１つ実行ユニットは、受信された実行可能ブート命令のセットを実行して、集積回路の外部にある少なくとも１つのメモリに対して、アプリケーションデータの少なくとも一部をフェッチするための読み取り要求を発行させるように構成される。

【0017】

いくつかの実施形態では、ハードウェアモジュールは、実行可能ブート命令のセットを記憶するように構成された揮発性メモリを含み、ハードウェアモジュールのプロセッシング回路は、集積回路のリセットに続いて、集積回路の外部にあるデバイスから実行可能ブート命令のセットを受信することと、受信された実行可能ブート命令のセットを揮発性メモリに記憶することとを行うように構成される。

【0018】

いくつかの実施形態では、集積回路の外部にあるデバイスから実行可能ブート命令のセットを受信することは、ＪＴＡＧインターフェースを介して実行可能ブート命令のセットを受信することを含む。

【0019】

いくつかの実施形態では、ハードウェアモジュールは、実行可能ブート命令のセットを記憶するように構成された不揮発性メモリを含む。

【0020】

いくつかの実施形態では、ハードウェアモジュールのメモリは、実行可能ブート命令の複数のセットを記憶するように構成され、プロセッシング回路は、実行可能ブート命令の複数のセットのそれぞれを集積回路のプロセッサのサブセットに発信させるように構成される。

【0021】

第２の態様によれば、第１の態様による集積回路と、集積回路の外部にあるメモリを含むデータ提供システムとを含むデータプロセッシングシステムが提供される。

【0022】

いくつかの実施形態では、データ提供システムは、データ提供システムにおいて、集積回路からの同期要求を受信することに応じて、プロセッサのグループのためのアプリケーションデータを、集積回路の外部にあるメモリにロードさせるように構成された少なくとも１つのプロセッサを含む。

【0023】

いくつかの実施形態では、データ提供システムの少なくとも１つのプロセッサは、集積回路から受信されたプロセッサのグループの識別子に応じた配置において、集積回路の外部にあるメモリにアプリケーションデータを配置するように構成される。

【0024】

第３の態様によれば、複数のプロセッサを含む集積回路において実行される方法であって、集積回路のハードウェアモジュールに実行可能ブート命令のセットを記憶することと、実行可能ブート命令のセットを、集積回路の相互接続部を介して複数のプロセッサの少なくともいくつかに発信させることと、複数のプロセッサの少なくともいくつかにおいて、受信された実行可能ブート命令のセットを実行して、集積回路の外部にあるメモリに対して、実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させることと、実行可能アプリケーション命令のセットを実行して、アプリケーションデータを使用して演算を実行することと、を含む方法が提供される。

【0025】

第４の態様によれば、複数のプロセッサを含む集積回路のハードウェアモジュールのプロセッシング回路に方法を実行させるコンピュータ実行可能命令を含むコンピュータプログラムであって、本方法は、集積回路のハードウェアモジュールに実行可能ブート命令のセットを記憶することと、実行可能ブート命令のセットを、集積回路の相互接続部を介して複数のプロセッサの少なくともいくつかに発信させることと、複数のプロセッサの少なくともいくつかにおいて、受信された実行可能ブート命令のセットを実行して、集積回路の外部にあるメモリに対して、実行可能アプリケーション命令のセットをフェッチするための読み取り要求を発行させることと、実行可能アプリケーション命令のセットを実行して、アプリケーションデータを使用して演算を実施することとを含む、コンピュータプログラムが提供される。

【0026】

第５の態様によれば、第４の態様によるコンピュータプログラムを記憶する非一時的コンピュータ可読媒体が提供される。

【0027】

ここで、本発明をよりよく理解するために、また本発明がどのように実施され得るかを示すために添付の図面を例として参照する。

【図面の簡単な説明】

【0028】

【図1】マルチタイルプロセッサの概略図である。

【図2】マルチタイルプロセッサ内の演算フェーズ及び交換フェーズを示す概略図である。

【図3】バルク同期並列システムにおけるデータの交換を示す。

【図4】タイルからデータパケットを外部チップに送信するための構成を示す。

【図5A】一実施形態によるチップのタイルへのセカンダリブートローダコードの配信を示す。

【図5B】更なる実施形態によるチップのタイルへのセカンダリブートローダコードの配信を示す。

【図6】プロセッサメモリにおけるデータのレイアウトの一例を示す。

【図7】同期要求及び確認応答の伝播を示す。

【図8】タイルによる外部メモリからのアプリケーションデータの読み取りを示す。

【図9】タイルによるアプリケーションデータのチェックポインティングを示す。

【図10】例示的なプロセッサの概略ブロック図である。

【発明を実施するための形態】

【0029】

本出願の実施形態は、プロセッシングユニットのプロセッサにアプリケーション命令を安全に配信するための新しい装置及び方法に関する。プロセッシングユニットは、集積回路の一部として形成され、その独自の実行ユニットと、アプリケーションデータ及び実行可能アプリケーション命令を記憶するためのストレージとをそれぞれ有する複数のプロセッサ（タイルと呼ぶ）を含む。集積回路は、タイルの少なくともいくつかにブートローダ命令のセット（本明細書ではセカンダリブートローダと呼ぶ）を配信するように構成されるハードウェアモジュール（本明細書ではオートローダと呼ぶ）を含む。タイルのそれぞれは、したがって、受信されたセカンダリブートローダの命令を実行し、それにより、各タイルは、集積回路の外部にあるメモリからアプリケーション命令を読み取るための読み取り要求を発行する。各タイルは、その後、アプリケーションを実行するために、受信されたアプリケーション命令を使用してアプリケーションデータに対して演算を実行する。アプリケーションデータは、セカンダリブートローダの実行によってロードされ得るか、又はアプリケーション命令自体の実行によってロードされ得る変数を含む。

【0030】

セカンダリブートローダ命令と、セカンダリブートローダ命令をタイルに転送するようにオートローダのプロセッシング回路を設定するために使用されるソフトウェアとの両方とも信用される。これにより、これらの両方は、セキュリティポリシーを実行するために、この場合、悪意のあるコードがタイルにロードされるのを阻止することを実行するために信頼され得ることを意味する。ロードされるアプリケーション命令を提供するシステム（説明される実施形態ではホストである）は、信用されておらず、信用されたセカンダリブートローダを使用することなしには、タイルに正しいアプリケーション命令を提供するために信頼することができない。

【0031】

本出願の実施形態は、本発明者らによる先の米国特許出願公開第１５／８８６３１５号明細書に記載されたインテリジェンスプロセッシングユニット（ＩＰＵ）を使用して実施され得、この米国特許出願の内容は、参照により組み込まれる。これらのＩＰＵのそれぞれが単一の集積回路上に形成される。しかしながら、本発明は、ＩＰＵに限定されるものではなく、他のタイプのプロセッシングユニットで実施され得る。

【0032】

例示的なプロセッシングユニット２が図１に更に示され、図１は、マルチタイルプロセッシングユニット２の一例を示す。プロセッシングユニット２は、複数のプロセッサタイル４のアレイ６と、タイル４間を接続する相互接続部３４とを含む。プロセッシングユニット２は、同じＩＣパッケージにパッケージ化された複数のダイの１つとして単独で実施され得る。相互接続部３４は、本明細書では、タイル４がデータを交換できるようにするためのものであるため、「交換ファブリック」３４とも呼ばれ得る。各タイル４は、実行ユニット及びメモリのそれぞれのインスタンスを含む。例えば、例示として、プロセッシングユニット２は、数百のオーダー又は更に千を超えるタイル４を含み得る。完全を期するため、本明細書で言及される「アレイ」は、必ずしも特定の次元数又は物理的なレイアウトのタイル４を意味するとは限らないことにも留意されたい。

【0033】

実施形態では、各プロセッシングユニット２は、プロセッシングユニット２を１つ又は複数の他のプロセッシングユニット（例えば、同じプロセッシングユニット２の１つ又は複数の他のインスタンス）に接続できるようにする１つ又は複数の外部リンク８も含む。これらの外部リンク８は、プロセッシングユニット２をホストシステムに接続するための１つ又は複数のプロセッサ－ホスト間リンク並びに／或いは同じＩＣパッケージ若しくはカード上又は異なるカード上のプロセッシングユニット２の１つ又は複数の他のインスタンスと一緒に接続するための１つ又は複数のプロセッサ間リンクのいずれか１つ又は複数を含み得る。プロセッシングユニット２の複数のインスタンスは、プロセッシングユニット間リンクによってカードに一緒に接続され得る。プロセッシングユニット２は、プロセッシングユニット２によって処理されるアプリケーションデータの形態において、プロセッシングユニット２に接続された外部メモリからのワークを受信する。

【0034】

相互接続部３４は、アレイ６内の異なるタイル４が互いに通信することを可能にするように構成される。しかしながら、同じタイル４上のスレッド間に依存性が潜在的に存在するのと同様に、アレイ６内の異なるタイル４上で稼働するプログラムの部分間の依存性も存在し得る。したがって、依存するデータよりも先に実行中のあるタイル４上のコードが、別のタイル４上の別のコードによって利用可能になることを阻止する技法が必要とされる。

【0035】

プロセッシングユニット２上のタイル４間の通信は、時間決定論的に行われる。しかしながら、他の形態のタイル間交換も可能である。アレイ６内の異なるタイル４上で稼働するプログラムの部分間に依存性が存在し得る。すなわち、あるタイル４上の処理データは、別のタイル４からの結果に依存し得る（例えば、別のタイルに左右される結果を提供し得る）。したがって、依存するデータよりも先に実行中のあるタイル４上のコードが、別のタイル４上の別のコードによって利用可能になることを阻止する技法が必要とされる。

【0036】

ＡＩ及びデータサイエンスの並列プログラミングモデルは、通常、演算、バリア及び交換の３つのフェーズの反復実行モデルをたどる。ここで示唆されているのは、プロセッサへの及びプロセッサからのデータ転送が、通常、プロセッサ間及び各プロセッサと外部ストレージとの間のデータ一貫性を提供するためにバリアに依存することである。一般に使用されるデータ一貫性モデルは、バルク同期並列（ＢＳＰ）、ステイル同期並列（ＳＳＰ）及び非同期である。本明細書で説明される実施形態は、ＢＳＰモデルを使用するが、代替として他の同期モデルを利用できることが明らかであろう。

【0037】

図２及び図３を参照すると、図２及び図３は、ＢＳＰ交換スキームの実装形態を示し、各タイル４は、交互サイクルで演算フェーズ３３と交換フェーズ３２とを行い、演算フェーズ３３と交換フェーズ３２とは、タイル間でバリア同期３０によって相互に分離される。図２及び図３に示す場合、バリア同期は、各演算フェーズ３３と、それに続く交換フェーズ３２との間に配置される。演算フェーズ３３では、各タイル４は、タイル上でローカルに１つ又は複数の演算タスクを行うが、他のいかなるタイル４もこれらの演算の結果を通信しない。交換フェーズ３２では、各タイル４は、先行する演算フェーズからの演算の１つ又は複数の結果を１つ若しくは複数の他のタイルに及び／又は１つ若しくは複数の他のタイルから交換することができるが、そのタスクが依存性を有するデータを他のタイル４から受信するまで新しい演算を実施しない。それは、先行する演算フェーズにおいて演算されたもの以外のデータを他のタイルに送信することもしない。交換フェーズ３２において、内部制御関連動作などの他の動作が実行され得ることは、排除されない。タイルグループの外部の通信は、ＢＳＰメカニズムを任意に利用できるが、代替として、ＢＳＰを利用せずに、それ自体の他の何らかの同期メカニズムを代わりに使用することができる。

【0038】

ＢＳＰの原理によれば、バリア同期３０は、演算フェーズ３３から交換フェーズ３２に移行する接合点若しくは交換フェーズ３２から演算フェーズ３３に移行する接合点又はそれらの両方に配置される。すなわち、（ａ）グループのいずれかのタイルが次の交換フェーズ３２に進めるようになる前に、すべてのタイル４がそれらのそれぞれの演算フェーズ３３を完了する必要があるか、（ｂ）グループのいずれかのタイルが次の演算フェーズ３３に進めるようになる前に、グループのすべてのタイル４がそれらのそれぞれの交換フェーズ３２を完了する必要があるか、又は（ｃ）これらの条件の両方が実施されるかのいずれかである。３つのすべての変形形態では、フェーズを交互に行うのは、個々のタイルであり、同期するのは、アセンブリ全体である。次いで、交換フェーズと演算フェーズとのシーケンスは、複数回の反復にわたって繰り返され得る。ＢＳＰの用語では、交換フェーズ及び演算フェーズの各反復は、「スーパーステップ」と呼ばれる場合がある（ただし、文献上、この用語が常に一貫して使用されるとは限らないことに留意されたい。すなわち、個々の交換フェーズ及び演算フェーズのそれぞれが個別にスーパーステップと呼ばれる場合があるのに対して、本明細書で採用される用語のように、交換フェーズ及び演算フェーズが合わせてスーパーステップと呼ばれる場合もある）。

【0039】

また、同じプロセッシングユニット２又は異なるプロセッシングユニット上のタイル４の複数の異なる独立したグループは、互いに非同期的に動作する別個のＢＳＰグループを形成でき、演算、同期及び交換のＢＳＰサイクルは、所定の各グループ内でのみ課されるが、各グループは、他のグループとは独立にそれを行うことも排除されないことに留意されたい。すなわち、マルチタイルアレイ６は、それぞれが他のそのようなグループとは独立且つ非同期的に動作する複数の内部同期するグループを含み得る（後に詳述する）。いくつかの実施形態では、後に詳述するように、同期及び交換の階層的分類がある。

【0040】

図３は、（ａ）演算フェーズ３３から交換フェーズ３２へのバリア同期（上記を参照されたい）が課される場合における、アレイ６内のタイルのいくつか又はすべてのグループ４ｉ、４ｉｉ、４ｉｉｉ間で実装されるようなＢＳＰ原理を示す。この構成では、いくつかの他のタイルが依然として交換を行っている間、いくつかのタイル４が演算３３を開始できることに留意されたい。

【0041】

プロセッシングユニット２のタイル４間の通信は、時間決定論的に行われ、データパケットは、ヘッダなしで送信される。これについては、本発明者らによる先の出願である米国特許出願公開第１５／８８６３１５号明細書で説明されている。

【0042】

図４は、タイルから、プロセッシングユニット２の外部にある送信先にデータパケットを送信するための例示的なメカニズムを示す。このメカニズムは、非時間決定論的なメカニズムである。メカニズムは、外部の相互接続部７２における専用ハードウェアロジックで実装される。データは、パケットの形態で外部の相互接続部７２を介して送信される。内部の相互接続部３４を介して送信されるパケットと異なり、これらのパケットは、ヘッダを有する。これは、送信の順序が変更され得ることから、パケットヘッダに送信先アドレスが存在する必要があるためである。外部の相互接続部７２は、データパケットのヘッダに応じて異なるプロセッサ間でデータパケットを静的にルーティングするためのルーティングテーブルを含む。

【0043】

物理層では、相互接続メカニズムは、損失を有するが、トランザクション層では、リンク層のアーキテクチャに起因して、メカニズムは、損失を有さない。すなわち、パケットの受信が確認応答されない場合、それは、相互接続部７２のハードウェアによって自動的に再送信される。しかしながら、損失及びデータリンク層での再送信の可能性は、外部の相互接続部７２を介するデータパケットの伝達が時間決定論的ではないことを意味する。更に、所与の交換のすべてのパケットは、一緒に到着する場合も、時間差がある場合もあり、またいかなる順序でもあり得るため、外部の相互接続部は、フロー制御及びキューイングを必要とする。更に、相互接続部は、ビットロックを維持するために十分なデータ信号遷移を有する受信データストリームからクロックを推論するために、クロックデータリカバリ（ＣＤＲ）技術を使用することができる。この推論されるクロックは、送信側のクロックに知られていない位相関係のものであり、したがって非決定論的であることの更なる根拠を表す。

【0044】

図示のように、外部の相互接続部７２は、外部の交換ブロック（ＸＢ）７８を含む。コンパイラは、外部の交換要求（ＸＲＥＱ）を交換ブロック７８に送信する（動作Ｓ１）ためにタイル４の１つを指名する。ＸＲＥＱは、１つ又は複数の制御パケットを含むメッセージであり、送信するためのデータパケット（コンテンツ）をいずれのタイル４が有するかを示す。これは、図４においてチェックマーク及びバツ印によって概略的に示されている。例示的なシナリオとして、チェックマークが付けられたものは、外部に送信するデータパケットを有するものであり、バツ印が付けられたものは、外部に送信するデータパケットを有さないものである。動作Ｓ２では、交換ブロック７８は、交換オン（ＸＯＮ）制御パケットを、外部に送信するデータを有する最初のタイル４に送信する。これにより、最初のタイルは、外部の相互接続部７２を介して関連送信先へのそのパケットの送信を開始する（動作Ｓ３）。外部の相互接続部で最初のタイルから受信されたデータパケットは、外部の相互接続部７２内のルーティングテーブルを使用して送信先に静的にルーティングされる。ＸＢ７８が相互接続部にパケットを送信し続けることができない場合には常に（例えば、相互接続部における以前のパケット損失及び再送信又は他の多くのＸＢ及びタイルによる外部の相互接続部の過度のサブスクリプションに起因して）、ＸＢ７８キューがオーバフローする前に、ＸＢ７８は、交換オフ（ＸＯＦＦ）をそのタイル４に送信する。輻輳が解消され、ＸＢ７８が再びそのキューの十分な空間を得た時点で、ＸＢ７８は、ＸＯＮをタイル４に送信し、そのコンテンツの送信の継続を可能にする。このタイル４がその最後のデータパケットを送信すると、動作Ｓ４において、交換ブロック７８は、交換オフ（ＸＯＦＦ）制御パケットをこのタイル４に送信し、次いで動作Ｓ５において、別のＸＯＮを、送信するためのデータパケットを有する次のタイル４に送信するなどである。ＸＯＮ及びＸＯＦＦのシグナリングは、外部の交換ブロック７８の形態の専用ハードウェアロジックにおいて、ハードウェアメカニズムとして実装される。

【0045】

図４では、単一の交換ブロック７８のみが示されているが、複数の異なる交換ブロックが存在し、交換ブロックのそれぞれがプロセッシングユニット２のタイル４のサブセットにサービスし得る。一実装態様では、例えば、プロセッシングユニット２が形成される集積回路は、８つの交換ブロックを含み、交換ブロックのそれぞれは、プロセッシングユニット内のタイル４の８分の１に対して、図４に示す機能を行う。

【0046】

プロセッサタイル４のそれぞれは、プロセッシング回路とメモリとを含む。いくつかの例示的な実施形態では、プロセッシング回路は、マルチスレッドプロセッサ１０である。図１０は、本開示の実施形態によるプロセッサタイル４の一例を示す。プロセッサタイル４は、バレルスレッドプロセッサの形態のマルチスレッドプロセッサ１０と、ローカルメモリ１１（すなわち、マルチタイルアレイの場合には同じタイル上又は単一プロセッサチップの場合には同じチップ上）とを含む。バレルスレッドプロセッサ１０は、パイプラインの実行時間が、インターリーブされた時間スロットの繰り返しシーケンス（そのそれぞれが所定のスレッドによって占有され得る）に分割されるタイプのマルチスレッドプロセッサ１０である。これは、直後に詳述する。メモリ１１は、命令メモリ１２と、データメモリ２２（異なるアドレス可能メモリユニット又は同じアドレス可能メモリユニットの異なる領域において実装され得る）とを含む。命令メモリ１２は、プロセッシングユニット１０によって実行される機械語を記憶し、データメモリ２２は、実行コードによって処理されるデータと、実行コードによって（例えば、そのような処理の結果として）出力されたデータとの両方を記憶する。

【0047】

メモリ１２は、プログラムの様々な複数の異なるスレッドを記憶し、各スレッドは、特定の１つ又は複数のタスクを行うための命令の対応するシーケンスを含む。本明細書で言及される命令は、単一のオペコード及びゼロ以上のオペランドから構成される機械語命令（すなわちプロセッサの命令セットの基本命令の１つのインスタンス）を意味することに留意されたい。

【0048】

プロセッサ１０内では、命令メモリ１２からのスレッドの複数の異なるスレッドは、単一の実行パイプライン１３を通してインターリーブされ得る（ただし、典型的には、命令メモリに記憶された全スレッドのサブセットのみが全プログラムの任意の所与のポイントにおいてインターリーブされ得る）。マルチスレッドプロセッサ１０は、それぞれが並列に実行される複数のスレッドの異なるそれぞれのスレッドの状態（コンテキスト）を表すように構成された複数のコンテキストレジスタファイル２６と、並列に実行されるスレッドに共通の共有実行パイプライン１３と、インターリーブ方式、好ましくはラウンドロビン方式で共有パイプラインを通して実行するための並列スレッドをスケジューリングするためのスケジューラ２４とを含む。プロセッサ１０は、複数のスレッドに共通の共有命令メモリ１２と、これも複数のスレッドに共通の共有データメモリ２２とに接続される。

【0049】

実行パイプライン１３は、フェッチステージ１４と、復号ステージ１６と、命令セットアーキテクチャによって定義されるような算術及び論理演算、アドレス演算、ロード及びストア操作並びに他の動作を実行することができる実行ユニットを含む実行ステージ１８とを含む。コンテキストレジスタファイル２６のそれぞれは、それぞれのスレッドのプログラム状態を表すそれぞれのレジスタのセットを含む。

【0050】

図５Ａを参照すると、図５Ａは、集積回路５１を示し、集積回路５１では、セカンダリブートローダコードが集積回路５１の複数のタイル４に配信される。集積回路５１は、上で論じたプロセッシングユニット２を含む。集積回路５１は、本明細書ではオートローダ５２と呼ばれるハードウェアモジュール５２も含む。オートローダ５２は、集積回路５１のためのプライマリブートローダとなるように定義される。オートローダ５２は、複数のタイル４にセカンダリブートローダを提供し、タイルメモリの残りの領域を消去する機能を行う。

【0051】

オートローダ５２は、外部ストレージからアプリケーション命令をフェッチするためにタイル４によって実行可能な１つ又は複数のセットの命令を記憶するメモリ５３を含む。１つ又は複数のセットのブート命令のそれぞれは、セカンダリブートローダ又はセカンダリブートローダイメージと呼ばれる。同じセカンダリブートローダが複数の異なるタイル４にロードされる。いくつかの場合、プロセッシングユニット２内のすべてのタイル４に同じセカンダリブートローダがロードされ得る。他の場合、第１のセカンダリブートローダは、第１のセットのタイル４にロードされる一方、１つ又は複数の更なるブートローダは、プロセッシングユニット２内の他のタイル４にロードされ得る。いくつかの場合、いくつかのタイル４は、セカンダリブートローダを受信しない。セカンダリブートローダを受信しないタイル４は、外部メモリからアプリケーション命令をフェッチしない。

【0052】

セカンダリブートローダをタイル４の１つに送達するために、オートローダ５２のプロセッシング回路５４は、メモリ５３からセカンダリブートローダをロードし、セカンダリブートローダを処理して、１つ又は複数のデータパケットを生成する。１つ又は複数のデータパケットは、１つ又は複数のパケットの１つ又は複数のペイロードにセカンダリブートローダコードを含む。１つ又は複数のデータパケットのそれぞれは、当該パケットのヘッダに、セカンダリブートローダの発信先である関連するタイル４の識別子を含む。ヘッダは、識別されたタイルのメモリにおけるセカンダリブートローダを書き込む位置を示す、タイルメモリにおけるアドレスも含む。プロセッシング回路５４は、集積回路５１の相互接続部を介して、関連する１つ又は複数のデータパケットを交換ブロック７８に発信する。交換ブロック７８は、プロセッシングユニット２の相互接続部を介して関連するタイル４に送信するために、適切なフォーマットにパケットを変換する。交換ブロック７８は、１つ又は複数のデータパケットを、１つ又は複数のヘッダのアドレスで示されるタイル４に発信する。１つ又は複数のデータパケットを受信すると、タイル４のプロセッシング回路は、データパケットを処理してセカンダリブートローダコードを抽出し、セカンダリブートローダコードをメモリに記憶する。

【0053】

オートローダ５２は、集積回路５１内のタイル４の異なるサブセットにセカンダリブートローダコードを書き込むように構成可能である。例えば、タイル４は、３２個の異なるサブセットに分割され、オートローダ５２は、コンフィギュレーションレジスタにおいて、それがセカンダリブートローダを提供するサブセットをプログラムされ得る。タイルのサブセットにセカンダリブートローダを発信した場合、オートローダ５２は、このサブセットにおける各タイル４に対して、サブセット内の各タイル４のメモリにおけるロケーションへのセカンダリブートローダの第１の部分の書き込みを発行し得る。次いで、オートローダ５２は、今度はインクリメントされたタイルアドレスに書き込むことにより、タイルのサブセットにわたって再びループする。オートローダ５２は、このサブセットにおける各タイル４のメモリにおける次の空きロケーションにセカンダリブートローダの第２の部分を書き込む。オートローダ５２は、ブートローダがサブセットにおけるすべてのタイル４に書き込まれるまで、このように継続する。

【0054】

図６を参照すると、図６は、メモリ１１内にフェッチされたデータ及び命令のタイルメモリ１１におけるレイアウトの一例を示す。メモリ１１は、物理的に連続したメモリ空間である必要はない。メモリ１１の第１の部分は、予約領域である。セカンダリブートローダは、予約領域の一部を占有し、予約領域の残りの部分は、データ又はコードを含まず、すなわちブランクである。実施形態では、予約領域は、１６ＫＢであり、セカンダリブートローダは、予約領域の約１ＫＢを占有する。予約領域以外では、メモリ１１は、外部メモリから取得されたアプリケーション命令及びデータを記憶するために使用され得るメモリ空間を含む。

【0055】

タイル４へのセカンダリブートローダの書き込みに続いて、オートローダ５２は、残りのタイルメモリ１１を消去するように構成される。このようにしてタイルメモリ１１をリセットすることにより、リセット又はパワーサイクル後も残存している、プロセッシングユニット２の以前のテナントに属するデータが削除される。オートローダ５２は、セカンダリブートローダコードが占有する空間以外のすべてのタイルメモリの空間に書き込むための書き込みパケットを発信することにより、この消去を行う。デこの発信されるパケットは、オートローダ５２によってセカンダリブートローダをタイルメモリに書き込むために発信されるパケットと同じタイプのパケットであるが、タイルメモリ１１に書き込むセカンダリブートローダのコードを含む代わりに、パケットは、パケットヘッダにおいて示されるタイルメモリ１１の位置に書き込むゼロのシーケンスを含む。したがって、オートローダ５２は、セカンダリブートローダコードが書き込まれる複数のタイル４のそれぞれについて、タイルメモリ１１におけるセカンダリブートローダを含まない他の位置にゼロを書き込むための一連のパケットを発信する。

【0056】

上述のように、セカンダリブートローダは、プロセッシングユニット２内のすべてのタイル４に書き込まれるとは限らない。したがって、セカンダリブートローダが書き込まれないタイル４について、オートローダ５２は、タイルメモリ１１のすべてにゼロを書き込む。メモリ１１全体がブランクであるこれらのタイル４は、アプリケーションの処理中に使用されない。

【0057】

オートローダ５２が行うタイルメモリ１１の消去により、セカンダリブートローダを受信したタイル４のそれぞれは、そのセカンダリブートローダの実行を開始する。

【0058】

図５Ａに示す実施形態では、オートローダ５２は、集積回路５１の外部にあるデバイス５５から１つ又は複数のセカンダリブートローダを受信する。本明細書では、デバイス５５は、インテリジェント暗号ユニット（ＩＣＵ）と呼ばれる。ＩＣＵ５５は、フラッシュメモリなどの不揮発性メモリを含むか、又は不揮発性メモリに関連付けられる。一方、オートローダメモリ５３は、ＳＲＡＭなどの揮発性メモリである。したがって、ＩＣＵ５５に関連付けられた不揮発性メモリは、集積回路５１のパワーダウン及び再起動後に１つ又は複数のセカンダリブートローダがタイル４で利用可能となるように、１つ又は複数のセカンダリブートローダを記憶する。集積回路５１が再起動すると、ＩＣＵ５５は、１つ又は複数のセカンダリブートローダを集積回路５１のオートローダ５２に提供する。ＩＣＵ５５は、１つ又は複数のセカンダリブートローダを集積回路５１に提供するために、インターフェースを介して連続的に書き込みを行う。ＩＣＵ５５は、集積回路５１のＪＴＡＧインターフェースを介して１つ又は複数のセカンダリブートローダをオートローダ５２に提供する。次いで、１つ又は複数のセカンダリブートローダは、タイル４に提供される前に、オートローダ５２の揮発性メモリ５３に記憶される。

【0059】

ＩＣＵ５５がメモリ５３にセカンダリブートローダコードの書き込みを提供するインターフェースは、オートローダ５２がタイル４のメモリに書き込むことができるオンチップ相互接続部と比較して高レイテンシである。したがって、ＩＣＵ５５自体がタイル４のそれぞれにブートローダコードを個別に書き込むと遅くなる。ＩＣＵ５５がブートローダコードをオートローダ５２に書き込み、オートローダが高速オンチップ相互接続部を介してそのブートローダコードを複数の異なるタイル４に提供することにより、かなりの効率向上が実現される。

【0060】

図５Ｂを参照すると、図５Ｂは、集積回路の代替的な例５１ａを示す。この場合、集積回路５１ａは、ＣＣＵ５６を含む。ＣＣＵ５６は、オートローダとして機能し、メモリ５３ａとプロセッシング回路５４ａとを含む。メモリ５３ａは、メモリ５３に関して上で論じたのと同じ機能を行い、すなわち、メモリ５３ａは、複数のタイル４に配信されるセカンダリブートローダを記憶する。プロセッシング回路５４ａは、セカンダリブートローダを複数のタイル４に配信させる命令を実行し、タイルメモリを消去することを含む、プロセッシング回路５４について上で論じたのと同じ機能を行う。プロセッシング回路５４ａは、信頼されたソフトウェアにより、セカンダリブートローダをタイル４のメモリに書き込むための書き込み要求を発行するように構成される。メモリ５３ａは、集積回路５１ａがパワーダウンした場合、セカンダリブートローダコードがメモリ５３ａから失われないように、セカンダリブートローダを記憶するように構成された不揮発性メモリ５３ａを含む。したがって、本実施形態では、ＩＣＵ５５などの外部デバイスがセカンダリブートローダコードを記憶し、これを集積回路５１ａに提供することは必要でない。

【0061】

図５Ｂに示す他の要素は、図５Ａに示す対応する要素と同じように動作する。

【0062】

図７及び図８を参照すると、図７及び図８は、セカンダリブートローダが複数のタイル４に書き込まれると、アプリケーション命令が外部メモリ７０からどのように取得されるかを示す。

【0063】

外部メモリ７０は、この例では、ホストシステム７１の一部であるとして示されている。しかしながら、他の例では、システム７１は、集積回路５１をホストシステムにインターフェースさせるゲートウェイであり得る。システム７１は、外部メモリ７０を含む他のタイプのシステムであり得る。

【0064】

システム７１は、メモリ７０からアプリケーション命令をロードするための少なくとも１つのプロセッサ７１１を含む。少なくとも１つのプロセッサ７１１は、コンピュータ可読命令を実行するように構成されたプロセッサであり得る。

【0065】

セカンダリブートローダを含むタイル４は、それぞれが別個の交換フェーズにおいてそれらのそれぞれのアプリケーション命令を取得する異なる同期グループに分割される。集積回路５１におけるすべてのタイル４に対して、４つの異なる同期グループが存在し得る。タイル４が自らの属する同期グループを識別し得る方法は、様々に存在する。いくつかの場合、異なるセカンダリブートローダコードは、異なる同期グループに属するタイル４に発信され得る。他の場合、同じセカンダリブートローダコードは、異なる同期グループに属するタイルに発信され得るが、セカンダリブートローダコードは、各タイル４において実行されると、タイル４のタイルＩＤを用いて、そのタイル４がいずれの同期グループに属しているかを判定する。

【0066】

タイル４の第１の同期グループのタイル４は、それぞれ、交換ブロック７８に対する同期要求７３を発行する。各同期要求７３は、要求の発行元であるタイル４が属する同期グループの指示を含むか又はその前にある。交換ブロック７８は、その同期グループに対して予期される同期要求７３の数の指示を記憶する。交換ブロック７８は、同期要求７３を受信し、いつその同期グループに対する予期される同期要求７３の数を受信したかを判定する。予期される同期要求７３の数を受信すると、交換ブロックは、これらの同期要求を同期要求７４に集約し、インターフェース７５を介して送信する。インターフェース７５は、集積回路５１の相互接続部を介して送信するためのパケットの形態の受信された同期要求を、システム７１に送信するためのＰＣＩｅパケットに変換する。

【0067】

同期要求７４を受信すると、システム７１は、同期要求７３を発行した同期グループに属するタイル４に送達するために、アプリケーション命令をメモリ７０にロードする。同期要求７４は、自らが関連する同期グループの指示を含む。システム７１は、同期グループの指示に応じて、その同期グループのタイル４が必要とするアプリケーション命令をメモリ７０にロードする。命令は、ストレージ７１０からメモリ７０にロードされる。ストレージ７１０は、データ提供システム７１の一部であり得るか、又はシステム７１とは別個のものであり得る。したがって、メモリ７０は、関連するタイル４によってフェッチされる前に命令が予めロードされるデータ転送メモリであると理解できる。

【0068】

メモリ７０は、複数の異なるアドレス空間又はバッファに配置され、そこからデータがタイルによって読み取られる。これらのアドレス空間のそれぞれは、異なるデータストリームに対応し、これがタイルによって読み取られる。アドレス空間は、連続したメモリ空間である必要はなく、仮想バッファであり得る。

【0069】

タイル４に転送するためのアプリケーション命令のメモリ７０へのロードが完了すると、システム７１は、同期確認応答７６を発行し、これが交換ブロック７８に返される。交換ブロック７８は、同期確認応答７６を受信することに応じて、同期グループにおけるすべてのタイル４に対して同期確認応答７９を発信する。

【0070】

図８を参照すると、図８は、プロセッシングユニット２のタイル４に同期確認応答７９を返した後に行われるステップを示す。同期確認応答を受信した後、各タイル４は、読み取り要求パケットを送信するために、交換ブロック７８からのコントロールを受信するのを待つ。これは、図４に関連して上で述べた説明に従って行われる。同期グループにおけるタイル４のそれぞれは、読み取り要求８１を交換ブロックの７８に発信する。図示を簡単にするために、図８では、１つのタイル４から発信される１つの読み取り要求８１のみが示されている。交換ブロック７８は、読み取り要求８１をインターフェース７５に渡す。読み取り要求８１は、インターフェース７５によってＰＣＩｅ読み取り要求に変換される。インターフェース７５は、読み取り要求８１をシステム７１に渡す。各読み取り要求８１は、メモリ７０におけるアドレスのうち、目標としているアドレスの指示を含む。システム７１のプロセッサは、読み取り要求８１に応じて、読み取り要求８１で指示された位置においてメモリ７０から読み取られたデータを含む１つ又は複数のデータパケット８２を生成する。これらの１つ又は複数の生成されたデータパケット８２は、読み取りコンプリーションと呼ばれる。１つ又は複数の読み取りコンプリーション８２は、システム７１によって集積回路５１に返される。１つ又は複数の読み取りコンプリーション８２は、交換ブロック７８において受信され、交換ブロック７８は、読み取りコンプリーションを読み取り要求８１の発信元のタイル４に提供する。次いで、コントロールは、同期グループにおける次のタイル４に渡され、次のタイル４は、メモリ７０における特定のロケーションから読み取るためのその読み取り要求を発行し、それに応じて１つ又は複数のコンプリーションを受信する。

【0071】

同期グループ内の各タイル４がメモリ７０からそのアプリケーション命令を読み取った後、次いで別の同期グループのタイル４が同期要求を発行し、この同期要求は、交換ブロックによって集約され、システム７１に提供される。システム７１は、この次の同期要求の受信に応じて、対応する同期グループのタイル４に送達するために、関連するアプリケーション命令をメモリ７０にロードする。次いで、システム７１は、集積回路５１に同期確認応答を返し、これによりメモリ７０から読み取るための読み取り要求を同期グループのタイル４に発行させる。

【0072】

同期要求／確認応答及びメモリ７０からの読み取りのプロセスは、セカンダリブートローダを有するタイル４のすべてがメモリ７０からそれらのアプリケーション命令をロードするまで継続される。

【0073】

メモリ７０からアプリケーション命令をロードするタイル４のそれぞれは、そのタイル４におけるストレージ（メモリ１１と異なる）に記憶されているそのタイル４のタイル識別子（タイルＩＤ）を用いて、読み取られるアドレスを決定する。複数のタイル４は、同じセカンダリブートローダを受信するため、セカンダリブートローダは、タイルＩＤに応じたメモリ７０における位置から命令をロードするように構成される。セカンダリブートローダは、実行されるタイルのＩＤに応じて、メモリ７０から読み取るアドレスを演算する。

【0074】

上述のように、アプリケーション命令は、タイルによって実行されて、アプリケーションデータ、例えば変数を使用して演算を実行する。このアプリケーションデータは、アプリケーション命令と同時に且つ同じ方法において、すなわちホスト７１のメモリ７０からデータをロードするための読み取り要求を発行するセカンダリブートローダ命令を実行することにより、タイル４にロードされ得る。追加的又は代替的に、アプリケーションデータは、ホスト７１のメモリ７０からアプリケーションデータをロードするための読み取り要求を発行するために、アプリケーション命令を実行するタイル４自体によってロードされ得る。特に、セカンダリブートローダ命令は、アプリケーションデータのインバリアント部分、例えば機械学習モデルのハイパーパラメータをロードするための読み取り要求を発行するために使用され得る一方、アプリケーション命令は、データのバリアント部分、例えば機械学習モデルの訓練データをロードするための読み取り要求を発行するために使用され得る。

【0075】

アプリケーションの実行中、プロセッシングユニット２上で実行中のアプリケーションが故障し、ある時点から再開する必要がある場合、タイル４に読み戻すことができる特定のデータをチェックポイントすることが望ましい場合がある。セカンダリブートローダは、チェックポイントデータをロードするために使用され得る。

【0076】

アプリケーションがプロセッシングユニット２で実行される場合、タイルメモリ１１において保持されるアプリケーションデータの一部が変更される。タイルメモリ１１において保持されているアプリケーションデータは、バリアントデータとインバリアントデータとに分割される。バリアントデータは、ニューラルネットワークの重みなど、アプリケーションの実行時に変更される変数を含む。インバリアントデータは、ニューラルネットワークのいずれのノードが連結されているかを定義するデータなど、アプリケーションの実行中に変化しないデータを含む。

【0077】

アプリケーションのチェックポイントを行うために、タイルのグループは、システム５１にデータを書き込むための書き込みを発行する前に、図７に示すのと同様の方法で同期要求を発行する。プロセッシングユニット２のタイル４は、実行中に生成したバリアントデータを含む書き込みを発行する。

【0078】

図９を参照すると、図９は、集積回路５１のタイル４によるシステム７１がアクセス可能なストレージ７０へのチェックポイントデータの書き込みを示す。書き込み９１は、タイル４によって発行される１つ又は複数のデータパケット９１を含む。１つ又は複数のデータパケット９１は、ストレージ７１０に書き込まれるチェックポイントデータを含む。書き込みは、システム７１に提供される。システム７１の少なくとも１つのプロセッサ７１１は、チェックポイントデータをストレージ７１０に書き込ませる。チェックポイントデータは、受信された書き込みの送信元のタイル４に関連付けられていると識別される。集積回路５１の他のタイル４も同様にそのバリアントデータの書き込みを提供し、それは、ストレージ７１０に書き込まれる。

【0079】

後の時点において、集積回路５１のタイル４が、チェックポイントされたデータをロードする必要があるとき（例えば、アプリケーションの実行に失敗したため）、セカンダリブートローダは、図５Ａ／図５Ｂに関連して上で論じたように、オートローダによってこれらのタイル４にロードされる。タイルメモリの残りの領域は、論じたように消去される。次いで、タイル４は、同期要求を発行し、これが集約され、システム７１に提供される。同期要求の受信に応じて、システム７１は、アプリケーションデータをストレージ７１０からメモリ７０にロードさせる。アプリケーションの初期起動時と異なり、この場合のストレージ７１０からのアプリケーションデータのロードは、タイル４によって書き込まれたチェックポイントデータのロードを含む。メモリ７０にロードされたアプリケーションデータは、タイル４によってストレージ７１０に書き込まれたバリアントデータであるチェックポイントデータと、追加的に、先にロードされたインバリアントデータとの両方を含む。システム７１は、メモリ７０にロードされた最初のアプリケーションデータに用いられたレイアウトと同じレイアウトにおいて、アプリケーションデータをメモリ７０に配置させる。したがって、初期のアプリケーションデータをロードするためにタイル４によって使用された同じセカンダリブートローダは、チェックポイントデータを含むアプリケーションデータをロードするためにも使用され得る。いくつかの場合、必要に応じて、チェックポイントされたアプリケーションデータのロードに使用されるセカンダリブートローダは、アプリケーション命令を初期にロードするのに使用されるセカンダリブートローダと異なり得る。

【0080】

システム７１が、チェックポイントデータを含むアプリケーションデータをメモリ７０にロードすると、システム７１は、確認応答を送信し、これは、同期要求を発行したタイル４に送信される。次いで、タイル４は、メモリ７０に対して、メモリ７０からチェックポイントデータを含むアプリケーションデータを読み取るための読み取り要求を発行する。チェックポイントデータを含むアプリケーションデータのこの読み取りは、図８に関連して上で論じたようなアプリケーション命令の初回読み取りと同じメカニズムを用いて行われる。タイル４が、チェックポイントデータを含むデータを読み取ると、タイル４は、チェックポイントを取った時点からアプリケーションの実行を再び開始する。

【0081】

上記の実施形態は、単なる例として説明されたに過ぎないことを理解されたい。

【図1】