特表2024-531402 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザイリンクス　インコーポレイテッドの特許一覧

特表2024-531402データ処理アレイとともに使用するための多数のオーバーレイ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10A
10B
10C
11
12A
12B
12C
13
14
15
16A
16B
16C
16D
16E
16F
16G
16H
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-29

(54)【発明の名称】データ処理アレイとともに使用するための多数のオーバーレイ

(51)【国際特許分類】

G06F 9/50 20060101AFI20240822BHJP

【ＦＩ】

G06F9/50 150Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024510377

(86)(22)【出願日】2022-08-15

(85)【翻訳文提出日】2024-02-19

(86)【国際出願番号】 US2022074960

(87)【国際公開番号】W WO2023023480

(87)【国際公開日】2023-02-23

(31)【優先権主張番号】63/235,319

(32)【優先日】2021-08-20

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/235,532

(32)【優先日】2021-08-20

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591025439

【氏名又は名称】ザイリンクスインコーポレイテッド

【氏名又は名称原語表記】ＸＩＬＩＮＸＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】オズグル，バリス

(72)【発明者】

【氏名】クラーク，デイビッド

(72)【発明者】

【氏名】マッコルガン，ピーター

(72)【発明者】

【氏名】ミュンツ，ステファン

(72)【発明者】

【氏名】スチュアート，ディラン

(72)【発明者】

【氏名】ドゥアルテ，ペドロ・ミゲル・パロラ

(72)【発明者】

【氏名】ノゲラ・セラ，フアン・ホタ

(57)【要約】

データ処理アレイとともに多数のオーバーレイを使用することは、データ処理アレイ内にアプリケーションをロードすることを含む。データ処理アレイは、プロセッサを各々有する複数の計算タイルを含む。アプリケーションは、プロセッサによって実行可能なカーネルを指定し、データを複数の計算タイルに伝達するストリームチャネルを実現する。アプリケーションのランタイム中に、複数のオーバーレイが、データ処理アレイ内に順次実現される。各オーバーレイは、ストリームチャネルを介して、データ処理アレイ内にデータ移動の異なるモードを実現する。実現された各オーバーレイに対して、それぞれのデータ移動のモードに基づいてデータを複数の計算タイルに移動させることによって、ワークロードが実行される。

【特許請求の範囲】

【請求項1】

方法であって、
プロセッサを各々有する複数の計算タイルを含むデータ処理アレイ内にアプリケーションであって、
前記アプリケーションが、前記プロセッサによって実行可能なカーネルを指定し、データを前記複数の計算タイルに伝達するストリームチャネルを実現する、アプリケーションをロードすることと、
前記アプリケーションのランタイム中に、前記データ処理アレイ内に複数のオーバーレイであって、各オーバーレイが、前記ストリームチャネルを介して、前記データ処理アレイ内にデータ移動の異なるモードを実現する、複数のオーバーレイを順次実現することと、
実現された各オーバーレイに対して、前記それぞれのデータ移動のモードに基づいて、データを前記複数の計算タイルに移動させることによって、ワークロードを実行することと、を含む、方法。

【請求項2】

前記複数のオーバーレイが、異なるカーネルを前記計算タイルにロードするか、又は前記ストリームチャネルを修正する、異なるアプリケーションを前記データ処理アレイにロードすることなく、前記アプリケーションのための前記データ処理アレイ内に実現される、請求項１に記載の方法。

【請求項3】

前記データ処理アレイが、前記複数の計算タイルのサブセットを各々含む複数のパーティションに細分されており、各パーティションが、異なるアプリケーションを同時に実行し、前記パーティションによって実行される前記アプリケーションに特有の複数の異なるオーバーレイを順次実現するように適合されている、請求項１に記載の方法。

【請求項4】

複数のオーバーレイを順次実現することが、
第１の行列乗算演算を含む第１のワークロードを実行するために、前記複数のオーバーレイのうちの第１のオーバーレイを用いて前記データ処理アレイを設定することと、
第２の行列乗算演算を含む第２のワークロードを実行するために、前記複数のオーバーレイのうちの第２のオーバーレイを用いて前記データ処理アレイを設定することと、を含み、
前記第１の行列乗算演算及び前記第２の行列乗算演算が、異なる次元のものである、請求項１に記載の方法。

【請求項5】

前記アプリケーションが、ニューラルネットワークを実現し、前記ニューラルネットワークの各レイヤが、前記複数のオーバーレイのうちの１つにマッピングされており、前記複数のオーバーレイのうちの異なるオーバーレイが、経時的にロードされて、前記ニューラルネットワークのそれぞれのレイヤを実現する、請求項１に記載の方法。

【請求項6】

各オーバーレイが、ストリームチャネルへのバッファの異なるマッピングを指定する、請求項１に記載の方法。

【請求項7】

各オーバーレイの前記データ移動のモードが、前記ストリームチャネルを介して伝達される特徴マップの数及び重みの数によって特徴付けられている、請求項１に記載の方法。

【請求項8】

複数のオーバーレイを順次実現することが、
各オーバーレイに対して、前記ストリームチャネルへのバッファの異なるマッピングを用いて複数のダイレクトメモリアクセス回路をプログラムすることを含む、請求項１に記載の方法。

【請求項9】

前記複数のオーバーレイのうちの選択されたオーバーレイに対して、前記複数の計算タイルのうちの選択された計算タイルに、ランタイムパラメータを提供することを更に含み、前記ランタイムパラメータが、前記選択された計算タイルによって実行されるカーネルの動作パラメータを設定する、請求項１に記載の方法。

【請求項10】

前記選択されたオーバーレイが、前記アプリケーションの特定のレイヤに対応し、前記ランタイムパラメータが、前記選択されたオーバーレイによって実現される前記特定のレイヤの少なくとも１つの次元を指定する、請求項９に記載の方法。

【請求項11】

前記ランタイムパラメータが、前記選択された計算タイルによって実行される前記カーネルの関数を選択的に有効化する、請求項９に記載の方法。

【請求項12】

前記複数のオーバーレイのうちの選択されたオーバーレイに対して、前記複数の計算タイルのうちの選択された計算タイルに、ランタイムパラメータを提供することを更に含み、前記ランタイムパラメータが、実行のために前記選択された計算タイルの複数のカーネルからカーネルを選択する、請求項１に記載の方法。

【請求項13】

システムであって、
集積回路内に配置されたデータ処理アレイであって、前記データ処理アレイが、プロセッサを各々有する複数の計算タイルを含む、データ処理アレイを備え、
前記データ処理アレイが、アプリケーションを実行するように構成されており、前記アプリケーションが、前記プロセッサによって実行可能なカーネルと、データを前記複数の計算タイルに伝達するストリームチャネルと、を指定し、
前記アプリケーションのランタイム中に、前記データ処理アレイが、複数の異なるオーバーレイを実現するように適合されており、各オーバーレイが、ワークロードを実行するために、前記ストリームチャネルを介して、前記データ処理アレイ内にデータ移動の異なるモードを実現する、システム。

【請求項14】

前記アプリケーションが、ニューラルネットワークを実現し、前記ニューラルネットワークの各レイヤが、前記複数のオーバーレイのうちの１つにマッピングされており、前記複数のオーバーレイのうちの異なるオーバーレイが、経時的にロードされて、前記ニューラルネットワークのそれぞれのレイヤを実現する、請求項１３に記載のシステム。

【請求項15】

前記複数のオーバーレイのうちの第１のオーバーレイが、第１の行列乗算演算を含む第１のワークロードを実行するように、前記データ処理アレイを設定し、
前記複数のオーバーレイのうちの第２のオーバーレイが、第２の行列乗算演算を含む第２のワークロードを実行するように、前記データ処理アレイを設定し、
前記第１の行列乗算演算及び前記第２の行列乗算演算が、異なる次元のものである、請求項１３に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年８月２０日に出願された米国特許仮出願第６３／２３５，３１９号、及び２０２１年８月２０日に出願された米国特許仮出願第６３／２３５，５３２号の利益を主張し、これらの両方は、参照によりその全体が本明細書に組み込まれる。

【0002】

本開示は、集積回路（integrated circuit、ＩＣ）に関し、より具体的には、ＩＣ内に実装されたデータ処理アレイで多数のオーバーレイを使用することに関する。本開示はまた、１つ以上のアレイコントローラを使用して、データ処理アレイの動作を制御することに関する。

【背景技術】

【0003】

集積回路（ＩＣ）は、ますます洗練されたコンピューティングアーキテクチャを提供するために、時間とともに進化してきた。いくつかのＩＣは、単一のプロセッサを含むコンピューティングアーキテクチャを利用するが、他のＩＣは、多数のプロセッサを含む。更に、他のＩＣは、アレイに配列された多数のプロセッサを含む。そのようなＩＣは、単一プロセッサアーキテクチャの能力及びマルチコアプロセッサアーキテクチャさえもはるかに超える、かなりの計算能力並びに高度な並列性を提供することが可能である。

【発明の概要】

【0004】

１つ以上の例示的な実装形態では、方法は、データ処理アレイ内にアプリケーションをロードすることを含む。データ処理アレイは、プロセッサを各々有する複数の計算タイルを含む。アプリケーションは、プロセッサによって実行可能なカーネルを指定し、データを複数の計算タイルに伝達するストリームチャネルを実現する。本方法は、アプリケーションのランタイム中に、データ処理アレイ内に複数のオーバーレイを順次実現することを含む。各オーバーレイは、ストリームチャネルを介して、データ処理アレイ内にデータ移動の異なるモードを実現する。本方法は、実現された各オーバーレイに対して、それぞれのデータ移動のモードに基づいて、データを複数の計算タイルに移動させることによって、ワークロードを実行することを含む。

【0005】

一態様では、複数のオーバーレイは、異なるカーネルを計算タイルにロードするか、又はストリームチャネルを修正する、異なるアプリケーションをデータ処理アレイにロードすることなく、アプリケーションのためのデータ処理アレイ内に実現される。

【0006】

別の態様では、データ処理アレイは、複数の計算タイルのサブセットを各々含む複数のパーティションに細分されている。各パーティションは、異なるアプリケーションを同時に実行し、パーティションによって実行されるアプリケーションに特有の複数の異なるオーバーレイを順次実現するように適合されている。

【0007】

別の態様では、複数のオーバーレイを順次実現することは、第１の行列乗算演算を含む第１のワークロードを実行するように、複数のオーバーレイのうちの第１のオーバーレイを用いてデータ処理アレイを設定することと、第２の行列乗算演算を含む第２のワークロードを実行するように、複数のオーバーレイのうちの第２のオーバーレイを用いてデータ処理アレイを設定することとを含む。第１の行列乗算演算及び第２の行列乗算演算は、異なる次元のものである。

【0008】

別の態様では、アプリケーションは、ニューラルネットワークを実現する。ニューラルネットワークの各レイヤは、複数のオーバーレイのうちの１つにマッピングされている。複数のオーバーレイのうちの異なるオーバーレイは、経時的にロードされて、ニューラルネットワークのそれぞれのレイヤを実現する。

【0009】

別の態様では、各オーバーレイは、ストリームチャネルへのバッファの異なるマッピングを指定する。

【0010】

別の態様では、各オーバーレイのデータ移動のモードは、ストリームチャネルを介して伝達される特徴マップの数及び重みの数によって特徴付けられている（例えば、指定する）。例えば、オーバーレイは、ストリームチャネルのうちの特定のものを介して送信されるべき特定の重み及び特徴マップを指定する。

【0011】

別の態様では、複数のオーバーレイを順次実現することは、各オーバーレイに対して、ストリームチャネルへのバッファの異なるマッピングを用いて複数のダイレクトメモリアクセス回路をプログラムすることを含む。

【0012】

別の態様では、本方法は、複数のオーバーレイのうちの選択されたオーバーレイに対して、複数の計算タイルのうちの選択された計算タイルに、ランタイムパラメータを提供することを含む。ランタイムパラメータは、選択された計算タイルによって実行されるカーネルの動作パラメータを設定する。

【0013】

別の態様では、選択されたオーバーレイは、アプリケーションの特定のレイヤに対応する。ランタイムパラメータは、選択されたオーバーレイによって実現される特定のレイヤの少なくとも１つの次元を指定する。

【0014】

別の態様では、ランタイムパラメータは、選択された計算タイルによって実行されるカーネルの関数を選択的に有効化する。

【0015】

別の態様では、本方法は、複数のオーバーレイのうちの選択されたオーバーレイに対して、複数の計算タイルのうちの選択された計算タイルに、ランタイムパラメータを提供することを含む。ランタイムパラメータは、実行のために選択された計算タイルの複数のカーネルからカーネルを選択する。

【0016】

１つ以上の例示的な実装形態では、システムは、集積回路内に配置されたデータ処理アレイを含む。データ処理アレイは、プロセッサを各々有する複数の計算タイルを含む。データ処理アレイは、アプリケーションを実行するように構成されている。アプリケーションは、プロセッサによって実行可能なカーネルと、データを複数の計算タイルに伝達するストリームチャネルと、を指定する。アプリケーションのランタイム中に、データ処理アレイは、複数の異なるオーバーレイを実現するように適合されている。各オーバーレイは、ワークロードを実行するように、ストリームチャネルを介して、データ処理アレイ内にデータ移動の異なるモードを実現する。

【0017】

一態様では、アプリケーションは、ニューラルネットワークを実現し、ニューラルネットワークの各レイヤは、複数のオーバーレイのうちの１つにマッピングされている。複数のオーバーレイのうちの異なるオーバーレイは、経時的にロードされて、ニューラルネットワークのそれぞれのレイヤを実現する。

【0018】

別の態様では、各オーバーレイは、ストリームチャネルへのバッファの異なるマッピングを指定する。

【0019】

別の態様では、各オーバーレイのモードは、ストリームチャネルを介して伝達される特徴マップの数及び重みの数によって特徴付けられている。

【0020】

別の態様では、複数のオーバーレイのうちの選択されたオーバーレイに対して、複数の計算タイルのうちの選択された計算タイルに提供されるランタイムパラメータは、選択された計算タイルによって実行されるカーネルの動作パラメータを設定する。

【0021】

別の態様では、選択されたオーバーレイは、アプリケーションの特定のレイヤに対応する。ランタイムパラメータは、選択されたオーバーレイによって実現される特定のレイヤの１つ以上の次元を指定する。

【0022】

別の態様では、選択されたオーバーレイは、アプリケーションの特定のレイヤに対応する。ランタイムパラメータは、選択された計算タイルによって実行されるカーネルの関数を選択的に有効化する。

【0023】

別の態様では、複数のオーバーレイのうちの第１のオーバーレイは、第１の行列乗算演算を含む第１のワークロードを実行するように、データ処理アレイを設定する。複数のオーバーレイのうちの第２のオーバーレイは、第２の行列乗算演算を含む第２のワークロードを実行するように、データ処理アレイを設定する。第１の行列乗算演算及び第２の行列乗算演算は、異なる次元のものである。

【0024】

１つ以上の例示的な実装形態では、集積回路は、プロセッサを各々有する複数の計算タイルを含むデータ処理アレイを含む。集積回路は、データ処理アレイに結合されたアレイコントローラを含む。アレイコントローラは、アプリケーションを実行するためにデータ処理アレイの複数の計算タイルを設定するように適合されている。アプリケーションは、プロセッサによって実行可能なカーネルと、データを複数の計算タイルに伝達するストリームチャネルと、を指定する。アレイコントローラは、アプリケーションを用いて設定されるデータ処理アレイによって、ワークロードの実行を開始するように構成されている。

【0025】

１つ以上の例示的な実装形態では、集積回路は、データ処理アレイを含む。データ処理アレイは、プロセッサを各々有する複数の計算タイルを含む。データ処理アレイは、複数の計算タイルの第１のサブセットを含む第１のパーティションと、複数の計算タイルの第２のサブセットを含む第２のパーティションとに細分されている。集積回路は、第１のアプリケーションを実行するために第１のパーティションを設定するように適合された第１のアレイコントローラを含む。第１のアプリケーションは、第１のパーティションのプロセッサによって実行可能なカーネルと、第１のパーティションの複数の計算タイルの第１のサブセットにデータを伝達するストリームチャネルと、を指定する。集積回路は、第２のアプリケーションを実行するために第２のパーティションを設定するように適合された第２のアレイコントローラを含む。第２のアプリケーションは、第２のパーティションのプロセッサによって実行可能なカーネルと、第２のパーティションの複数の計算タイルの第２のサブセットにデータを伝達するストリームチャネルと、を指定する。第１のアレイコントローラ及び第２のアレイコントローラは各々、それぞれのパーティション内のワークロードの実行を開始するように構成されている。

【0026】

この概要のセクションは、単に特定の概念を導入するために提供され、特許請求される主題の任意の重要な又は本質的な特徴を特定するためには提供されない。本発明の構成の他の特徴は、添付図面及び以下の詳細な説明から明らかになるであろう。

【0027】

本発明の構成は、例として添付図面に例解されている。しかしながら、図面は、本発明の構成を、示される特定の実装形態のみに限定するものと解釈されるべきではない。以下の詳細な説明を検討し、図面を参照すると、種々の態様及び利点が明らかになるであろう。

【図面の簡単な説明】

【0028】

【図1】データ処理（data processing、ＤＰ）アレイを含む例示的なシステムを例解する。

【図2】ＤＰアレイ用のアプリケーションを生成するための実装フローの例を例解する。

【図3】ＤＰアレイの例示的な実装形態を例解する。

【図4】ＤＰアレイの計算タイルの例示的な実装形態を例解する。

【図5】ＤＰアレイのメモリタイル例示的な実装形態を例解する。

【図6】ＤＰアレイのインターフェースタイルの例示的な実装形態を例解する。

【図7】ＤＰアレイの計算タイル間のカスケード接続性の例を例解する。

【図8】計算タイルが、別の計算タイルへのカスケード接続を使用せずに動作するように構成されている例を例解する。

【図9】計算タイルが、カスケード接続を使用して動作するように構成されている例を例解する。

【図10A】例示的なオーバーレイの特定の動作特徴を例解する。

【図10B】例示的なオーバーレイの特定の動作特徴を例解する。

【図10C】例示的なオーバーレイの特定の動作特徴を例解する。

【図11】ＤＰアレイのパーティションのためのアプリケーションを設定するために使用される例示的なオーバーレイの属性を例解する表である。

【図12A】異なるオーバーレイ実装形態を伴うアプリケーションによって実現される入力ストリームチャネルの例を例解する。

【図12B】異なるオーバーレイ実装形態を伴うアプリケーションによって実現される入力ストリームチャネルの例を例解する。

【図12C】異なるオーバーレイ実装形態を伴うアプリケーションによって実現される入力ストリームチャネルの例を例解する。

【図13】アプリケーションによって実現される出力ストリームチャネルの例を例解する。

【図14】図１のシステムの特定の動作特徴を例解する方法の例を例解する。

【図15】ＤＰアレイが、各々がアレイコントローラによって制御される多数のパーティションを含む例を例解する。

【図16A】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16B】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16C】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16D】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16E】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16F】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16G】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図16H】ＤＰアレイ及び１つ以上のアレイコントローラを含むＩＣのための異なる例示的なアーキテクチャを例解する。

【図17】ＤＰアレイ及びアレイコントローラを含むＩＣの動作の例示的な方法を例解する。

【図18】アレイコントローラの追加の動作特徴を例解する。

【図19】本明細書で説明する本発明の構成で使用するためのデータ処理システムの例示的な実装形態を例解する。

【発明を実施するための形態】

【0029】

本開示は、集積回路（ＩＣ）に関し、ＩＣ内に実装されたデータ処理（ＤＰ）アレイで多数のオーバーレイを使用することに関する。本開示はまた、１つ以上のアレイコントローラを使用して、ＤＰアレイの動作を制御することに関する。

【0030】

ＤＰアレイは、タイルと称される複数の回路ブロックを含む。タイルは、計算タイル並びにインターフェースタイル及び／又は計算タイル、インターフェースタイル、並びにメモリタイルの混合を含み得る。ＤＰアレイは、「アプリケーション」と称される設定データをＤＰアレイにロードすることによって所望の計算活動を実行するように、設定可能である。アプリケーションを用いて設定されると、ＤＰアレイは、計算活動を実行することができる。

【0031】

一態様では、ＤＰアレイにロードされたアプリケーションは、計算タイルによって実行可能である複数のカーネルを指定する。例えば、アプリケーションは、計算タイルのうちの特定のものによって実行されることになる特定のカーネル、例えば、計算タイルへのカーネルのマッピングを指定し得る。アプリケーションはまた、ＤＰアレイのタイルを通信可能にリンクする複数のストリームチャネルを実現する設定データを指定し得る。

【0032】

ＤＰアレイにアプリケーションを実行すると、異なるオーバーレイをＤＰアレイに実現してアプリケーションを実行し得る。実現される各オーバーレイは、ＤＰアレイ内のデータ移動のモードを指定する。すなわち、各オーバーレイは、ＤＰアレイのタイル間のデータ移動のモードを指定する。例えば、各オーバーレイは、アプリケーションによって実現されるストリームチャネルを介して、それぞれの計算タイルに提供されるべき特定のデータ項目を指定する。データ項目は、特徴マップ及び／又は重みを含み得る。

【0033】

一態様では、アプリケーションは、マルチレイヤアプリケーションである。アプリケーションの異なるレイヤは、異なるオーバーレイをＤＰアレイにロードすることによって実現され得る。ＤＰアレイ内に実現される各オーバーレイについて、１つ以上のランタイムパラメータが、オーバーレイによって実現されるアプリケーションの特定のレイヤにオーバーレイを更に適合させるために、ＤＰアレイのタイルに提供され得る。アプリケーション、オーバーレイ、及び１つ以上のランタイムパラメータを用いて設定されるＤＰアレイは、アプリケーションのレイヤのワークロードを実行することが可能である。一般に、「ワークロード」という用語は、マルチレイヤアプリケーションの特定のレイヤの入力データを処理するのに必要な動作を実行することを指す。

【0034】

静的又は固定回路アーキテクチャとは異なり、ＤＰアレイの設定可能性は、ＤＰアレイが経時的に異なるワークロード（例えば、レイヤ）に適応することを可能にする。ＤＰアレイは、異なるアプリケーションをロードすることによってＤＰアレイを再設定することを必要とせずに、異なるレイヤに適合されている。例解の目的で、ＤＰアレイが１つ以上の行列乗算演算を実行するように、使用される例を検討する。行列乗算演算は、機械学習、画像処理、コンピュータビジョン、仮想現実及び／又は拡張現実、並びに遺伝分析を含むが、それらに限定されない、多くの異なる計算コンテキストにおいて利用されている。例えば、機械学習の場合、ニューラルネットワークの異なるレイヤは、異なるレイヤで演算される行列が異なる次元を有する異なる行列乗算演算を実行し得る。これらの異なるレイヤを実現するために固定又は静的回路アーキテクチャを使用するとき、その回路アーキテクチャは、特定のレイヤの行列乗算演算を効率的に実行し得るが、異なる次元の他の異なるレイヤの行列乗算演算はあまり効率的ではない。これは、行列乗算演算を含まない他のタイプのワークロードにも当てはまる。

【0035】

本開示内で説明される本発明の構成によれば、ＤＰアレイは、様々な異なるワークロードを効率的に実行するように、経時的に適合され得る。ＤＰアレイは、特定のアプリケーションを実行するように構成され得る。ランタイム時にアプリケーションの異なるレイヤを実現するために、異なるオーバーレイが経時的にロードされ得る。各オーバーレイは、オーバーレイがマッピングされるアプリケーションの特定のレイヤを実現するのに適した、ＤＰアレイにおけるデータ移動の特定のモードを実現し得る。オーバーレイのための異なるランタイムパラメータもロードされ得、ランタイムパラメータは、アプリケーションの各レイヤに特有であり得る。

【0036】

前の行列乗算の例を検討する。ＤＰアレイには、行列乗算演算を実行するように、適合されたカーネルを含むアプリケーションがロードされ得る。アプリケーションは更に、ＤＰアレイに実現されたストリームチャネルを指定する。アプリケーションの異なるレイヤに対応する異なる行列乗算演算（例えば、異なる次元の行列乗算）を効率的に実行するために、アプリケーションを用いて設定されるＤＰアレイを適応させるように、異なるオーバーレイ及びランタイムパラメータが、経時的にＤＰアレイにロードされ得る。各オーバーレイの特定の動作特徴及び計算タイルによって実行されているカーネルは、ランタイムパラメータのローディングを通じてレイヤごとのベースで変更され得る。一態様では、ランタイムパラメータは、所与のオーバーレイによって実現されているレイヤの特定の次元を指定し得る。

【0037】

アプリケーションをロードすることは、無視できない数のクロックサイクルを必要とし得る。比較すると、アプリケーションの特定のレイヤを実現するためにオーバーレイ及び対応するランタイムパラメータをロードすることは、著しくより少ない時間（例えば、より少ないクロックサイクル）を消費する。本明細書で説明されるアプリケーションオーバーレイパラダイムを利用することによって、ＤＰアレイは、ＤＰアレイを継続的に再設定する必要なく、アプリケーションの異なるレイヤを効率的に実現するように適合され得る。すなわち、ＤＰアレイは、ＤＰアレイを継続的に再設定されている間アイドル状態にさせる、アプリケーションの各レイヤに対して異なるアプリケーションをロードすることを必要とせずに、１つのレイヤから次のレイヤに適合され得、それによって計算効率及びスループットを低減する。

【0038】

場合によっては、アプリケーション、オーバーレイ、及びランタイムパラメータのローディングを制御し、ＤＰアレイのためのワークロードを開始することは、かなりの計算リソースを必要とする。これらの動作は、そのような責任を課されたプロセッサのためにかなりの量のクロックサイクルを消費し、プロセッサが他の関数を実行するか、又は他のアプリケーションを実行するために利用可能なクロックサイクルをほとんど残さないことがある。したがって、１つ以上の例示的な実装形態では、ＤＰアレイによって提供されるかなりの計算能力を利用するために、１つ以上のアレイコントローラが、ＤＰアレイと同じＩＣに含まれ得る。アレイコントローラは、ＤＰアレイの動作を制御するために専用であり得る。

【0039】

アレイコントローラを含むことにより、ＤＰアレイの円滑かつ効率的な動作が保証される。例えば、アレイコントローラは、ＤＰアレイの管理専用であり、他の非ＤＰアレイ関連動作とのマルチタスクを試みていないので、アレイコントローラは、より高いデータスループットを達成するためにＤＰアレイをビジー状態に保つことができる。アレイコントローラを含むことはまた、ＩＣ内に配置されるかＩＣの外部に配置されるかにかかわらず、他のプロセッサをＤＰアレイ関連の制御動作を実行することから解放し、その結果、そのようなプロセッサは他のタスクを実行し得る。

【0040】

プログラマブルロジックを含むＩＣアーキテクチャの場合、アレイコントローラのうちの１つ以上は、プログラマブルロジックで実装され得る。他の例では、プログラマブルロジックを含むＩＣアーキテクチャの場合、１つ以上のアレイコントローラは、プログラマブルロジックで実装され得、一方、１つ以上の他のアレイコントローラは、ハードワイヤード回路ブロックとして実装され得る。更に他の例では、プログラマブルロジックを含まないＩＣアーキテクチャの場合、アレイコントローラは、ハードワイヤード回路ブロックとして実装され得る。アレイコントローラはまた、プログラマブルロジックを含むＩＣ内のハードワイヤード回路ブロックとして実装され得ることを理解されたい。本発明の構成の更なる態様は、図を参照して以下に説明される。

【0041】

図１は、例示的なシステム１００を例解する。本例では、システム１００は、ＤＰアレイ１０２、アレイコントローラ１０６、相互接続１０８、並びに１つ以上のサブシステム１１２、１１４、１１８、及び／又は１２０を含む。ＤＰアレイ１０２は、アレイインターフェース１０４を含む。

【0042】

１つ以上の例示的な実装形態では、システム１００は、集積回路（ＩＣ）として実装される。システム１００は、単一のＩＣパッケージ内に実装され得る。一態様では、システム１００は、単一のＩＣパッケージ内に配置された単一のダイを使用して実装される。別の態様では、システム１００は、単一のＩＣパッケージ内に配置された２つ以上の相互接続されたダイを使用して実装される。

【0043】

ＤＰアレイ１０２は、タイルと称される複数の異なるタイプの回路ブロックから形成される。タイルは、計算タイル、メモリタイル、及び／又はインターフェースタイルを含み得る。考察の目的で、「アレイタイル」という用語は、本明細書では、計算タイル、又は計算タイル及びメモリタイルの混合を指すために使用される。計算タイル及びメモリタイルは、ハードワイヤードであり、プログラム可能である。アレイインターフェース１０４は、「インターフェースタイル」と称される複数の回路ブロックを含む。インターフェースタイルは、ＤＰアレイ１０２のアレイタイルをＤＰアレイ１０２の外部の回路と通信可能にリンクする。インターフェースタイルは、ハードワイヤードでプログラム可能である。

【0044】

アレイコントローラ１０６は、ＤＰアレイ１０２及び／又はアレイインターフェース１０４に通信可能にリンクされている。アレイコントローラ１０６は、直接及び／又は相互接続１０８を介して、ＤＰアレイ１０２及び／又はアレイインターフェース１０４に結合され得る。一態様では、アレイコントローラ１０６は、ＤＰアレイ１０２を設定すること、及びＤＰアレイ１０２の動作を制御することに専用である。すなわち、アレイコントローラ１０６は、ＤＰアレイ１０２の設定及び／又は制御に関する関数のみを実行する。アレイコントローラ１０６は、ステートマシンとして、又はプログラムコードを実行することが可能なプロセッサとして実装され得る。一例では、アレイコントローラ１０６は、ハードワイヤード回路ブロックとして実装される。別の例では、アレイコントローラ１０６は、プログラマブルロジックを使用して実装される。１つ以上の例示的な実装形態では、アレイコントローラ１０６は省略され得る。その場合、サブシステム１１２～１２０のうちの１つとして実装され得るプロセッサは、アレイコントローラ１０６に起因する動作を実行し得る。代替として、システム１００の外部のプロセッサが、アレイコントローラ１０６に起因する動作を実行し得る。

【0045】

相互接続１０８は、アレイインターフェース１０４、アレイコントローラ１０６、及びサブシステム１１２～１２０のうちの１つ以上に結合される。相互接続１０８は、オンチップ相互接続として実装され得る。オンチップ相互接続の一例は、高度なマイクロコントローラバスアーキテクチャ（Advanced Microcontroller Bus Architecture、ＡＭＢＡ）拡張可能インターフェース（eXtensible Interface、ＡＸＩ）バスである。ＡＸＩバスは、回路ブロック及び／又はシステム間のオンチップ接続を確立する際に使用するための埋め込みマイクロコントローラバスインターフェースである。相互接続１０８の他の例示的な実装形態は、限定はしないが、他のバス、クロスバー、ネットワークオンチップ（Network-on-Chip、ＮｏＣ）などを含み得る。例解の目的で、相互接続１０８は、１つ以上のメモリに対する読み取り及び／又は書き込みが可能であるメモリコントローラを含むか、又はそれに結合され得る。

【0046】

サブシステム１１２～１２０は、様々な異なるタイプの電子サブシステム及び／又は回路のいずれかを表し得る。例解の目的で、サブシステム１１２～１２０の例は、プロセッサ又はプロセッサシステム、プログラマブルロジック、ハードワイヤード回路ブロック（例えば、特定用途向け回路ブロック）、メモリなどの任意の組み合わせを含み得るが、これらに限定されない。図１の例に例解されたサブシステムの数は、例解の目的であることを理解されたい。システム１００は、示されたものよりも多い又は少ないサブシステムを含み得る。システム１００のいくつかの例示的な実装形態は、例えば、ＤＰアレイ１０２のみ、又はＤＰアレイ１０２及び１つ以上のアレイコントローラ１０６のみを含み得る。

【0047】

サブシステム１１２～１２０のうちの１つとして実装されるプロセッサは、コンピュータ可読命令を実行することが可能である。一例では、プロセッサは、ハードワイヤードプロセッサとして実装される。別の例では、プロセッサは、プログラマブルロジックを使用するソフトプロセッサとして実装される。プロセッサがサブシステム１１２～１２０のうちの１つとして実装される場合には、アレイコントローラ１０６は省略され得る。その場合、プロセッサは、ＤＰアレイ１０２を設定し、ＤＰアレイ１０２の動作を制御するようにプログラムされ得る。

【0048】

別の態様では、プロセッサは、ＤＰアレイ１０２を含むＩＣの外部にあり得る。その場合、プロセッサは、ＤＰアレイ１０２を含むＩＣに通信可能にリンクされる別のデータ処理システム（例えば、ホストコンピュータ）の一部であり得る。プロセッサが、ホストコンピュータの一部として含まれる場合、プロセッサは、アレイコントローラ１０６の動作を制御するためにアレイコントローラ１０６と通信し得る。一態様では、プロセッサは、ＤＰアレイ１０２の動作を制御するためにアレイコントローラ１０６によって実行されるランタイムデータを書き込み得る。アレイコントローラ１０６が省略される例示的な実装形態では、ＤＰアレイ１０２の動作を制御するために使用される特定のプロセッサは、外部であるか、又はサブシステム１１２～１２０のうちの１つの内部に実装されるかにかかわらず、ＤＰアレイ１０２を制御するために専用である場合又は専用でない場合がある。

【0049】

一例では、サブシステム１１２～１２０のうちの１つ以上は、メモリとして実装され得る。メモリは、ランダムアクセスメモリ（random-access memory、ＲＡＭ）として実装され得る。一例では、メモリは、高帯域幅メモリ（High Bandwidth Memory、ＨＢＭ）として実装され得る。例えば、メモリは、ＤＰアレイ１０２と同じダイ上に、又は同じＩＣパッケージ内の異なるダイ上に実装されたＲＡＭ回路（例えば、ＨＢＭ）であり得る。別の態様では、１つ以上のメモリが、ＤＰアレイ１０２を含むＩＣの外部に実装され得る。

【0050】

１つ以上の例示的な実装形態では、アレイコントローラ１０６、相互接続１０８、及びサブシステム１１２～１２０のうちの１つ以上又は全てなどの、システム１００の特定の要素は、任意選択的であり、省略され得る。

【0051】

図２は、ＤＰアレイ用のアプリケーションを生成するための実装フロー２００の例を例解する。図２の実装フロー２００は、データ処理システムによって実行又は実現され得る。実装フロー２００を実行することが可能であるデータ処理システムの例は、図１９に関連して説明される。

【0052】

図２の例では、アプリケーション２０２は、コンパイラ２０４に提供され得る。アプリケーション２０２は、ソースコードで指定され得る。１つ以上の例では、アプリケーション２０２は、Ｃ及び／又はＣ＋＋などの高水準プログラミング言語で指定される。１つ以上の例では、アプリケーション２０２は、ＤＰアレイ１０２の計算タイルによってコンパイル及び実行される１つ以上のカーネルを指定するデータフローグラフとして指定され得る。

【0053】

一般に、コンパイラ２０４は、ＤＰアレイ１０２（例えば、そこに含まれる計算タイル）によって実行され得るアプリケーションの実行可能バージョンを生成することが可能である。コンパイラ２０４はまた、ＤＰアレイ１０２の動作を制御するためにアレイコントローラ１０６又は他のプロセッサによって実行可能な制御アプリケーションを生成することが可能である。制御アプリケーションを実行する際に、アレイコントローラ１０６は、アプリケーション、アプリケーションのオーバーレイ、及びアプリケーションのレイヤのランタイムパラメータをロードすることが可能である。制御アプリケーションを実行する際に、アレイコントローラ１０６はまた、アプリケーション、オーバーレイ、及びランタイムパラメータを用いて設定されるように、ＤＰアレイ１０２内のワークロードを開始することが可能である。

【0054】

１つ以上の例示的な実装形態では、アプリケーション２０２は、マルチレイヤアプリケーションである。一例では、アプリケーション２０２は、ニューラルネットワークとして実現される。別の例では、アプリケーション２０２は、機械学習モデルとして実現され得る。アプリケーション２０２によって実現され得る異なるタイプの機械学習モデルの例は、畳み込みニューラルネットワーク（Convolutional Neural Network、ＣＮＮ）、長・短期記憶（Long-Short Term Memory、ＬＳＴＭ）ネットワーク、深層学習推奨モデル（Deep Learning Recommendation Model、ＤＬＲＭ）などを含み得るが、これらに限定されない。

【0055】

一態様では、各異なるタイプの機械学習モデルは、異なるアプリケーションとして指定され得、ここで、アプリケーションは、実現されている機械学習モデルに特有のカーネルを使用して構築される。カーネルは、ＤＰアレイ１０２の計算タイルによって実行され得る実行可能プログラムコードを指す。カーネルは、特定のタイプの機械学習モデルに合わせて調整されるが、各カーネルは、カーネルの特定の動作特徴がランタイムパラメータの使用を通してランタイム時に変更又は設定され得るという意味で、一般化され得る。したがって、アプリケーション２０２によって実現される機械学習モデルのタイプに応じて、アプリケーション２０２は、異なるタイプのカーネルを利用する。加えて、１つ以上の例示的な実装形態では、多数のカーネルが、同じ計算タイルにロードされ得る。その場合に実行される特定のカーネル又は複数のカーネルは、所与の計算タイルにおいて、アプリケーション２０２のためにレイヤごとのベースで選択され得る。

【0056】

本開示内では、カーネルは、１つ以上の関数を表す。いくつかの構成では、カーネルは、複数の異なる関数を含む。他の構成では、プログラムコードは、異なる関数が異なる（例えば、多数の）カーネルとして実現されるように構成されている。いずれの場合も、ランタイムパラメータは、カーネルの１つ以上の動作パラメータを設定することが可能である。場合によっては、設定は、カーネルの１つ以上の関数を選択的に有効化／無効化し、それにより、関数が実行されるか又は実行されない。場合によっては、ランタイムパラメータは、実行のために複数のそのような関数／カーネルから特定の関数又はカーネルを選択し得る。

【0057】

図２の例では、アプリケーション２０２は、複数のレイヤ１～Ｍを指定し得る。例として、アプリケーション２０２の各レイヤ１～Ｍは、レイヤによって実行されるワークロードと称される動作の特定のセットに対応し得る。一例では、各レイヤは、実行される特定の行列乗算演算を指定し得る。異なるレイヤは、一緒に乗算される行列の異なる次元を有し得る。例えば、レイヤ１～Ｍによって乗算される行列は、１つのレイヤから次のレイヤへ異なる数の列及び／又は異なる数の行を有し得る。例えば、異なる次元の行列を乗算する２つの行列乗算演算は、異なる行列乗算演算とみなされ得る。

【0058】

アプリケーション２０２の各レイヤは、実行されるべき１つ以上の特定の関数を含み得る。アプリケーション２０２の異なるレイヤにおいて実行され得る異なる関数の例は、畳み込み、一般行列乗算（General Matrix Multiply、ＧＥＭＭ）、整流化線形ユニット（Rectified Linear Unit、ＲｅＬＵ）、バッチ正規化、又は機械学習及び／若しくはニューラルネットワークの分野において一般に知られている他の関数を含むことができるが、これらに限定されない。

【0059】

例解的かつ非限定的な例として、アプリケーション２０２がＣＮＮを実現する場合を検討する。ＣＮＮは、異なるレイヤ１～Ｍを含み得、異なるレイヤは、画像のピクセルの異なる列及び行を処理する異なる次元を有する。更に、例解の目的で、アプリケーション２０２のレイヤ１は、二次元（2-dimensional、２Ｄ）畳み込みレイヤであり得る。アプリケーション２０２のレイヤ２は、バッチ正規化を伴う２Ｄ畳み込みレイヤであり得る。アプリケーション２０２のレイヤＭは、ＲｅＬＵを用いた２Ｄ畳み込みレイヤであり得る。例示的なアプリケーション及びレイヤは、例解の目的で提供され、限定ではない。

【0060】

コンパイラ２０４は、アプリケーション２０２及び１つ以上のオーバーレイ２０６を受け取ることが可能である。一態様では、オーバーレイ２０６の各々は、アプリケーション２０２（例えば、特定の機械学習モデル）のレイヤ（又はレイヤの一部分）を実現するために、データがＤＰアレイ１０２のタイルの間でどのように移動すべきかについての事前構築された定義であり得る。一般に、オーバーレイ２０６は、アプリケーション２０２によって実現される特定のタイプの機械学習モデルに利用可能な全ての可能なオーバーレイを表す。例えば、各オーバーレイ２０６は、ＤＰアレイ１０２において実現されるようなアプリケーションのためのデータ移動の異なるモードを指定し得る。データ移動のモードは、コンパイルされたアプリケーション２０２によってＤＰアレイ１０２に実現されたストリームチャネルを使用する。すなわち、アプリケーション２０２によって確立されたストリームチャネルは、データ移動の異なるモードがオーバーレイ２０６のうちの異なるものを使用して経時的に実現される間、適所に留まり得る。各オーバーレイは、アプリケーション２０２に対して同じストリームチャネル実現を使用する。

【0061】

一態様では、オーバーレイは、様々なストリームチャネル上で伝達される入力データのタイプを指示することによって、ストリームチャネルを介して、データ移動を指定し得る。異なるタイプの入力データの例には、特徴マップ及び重みが含まれる。いくつかのストリームチャネルは、特徴マップを伝達し得、一方、他のストリームチャネルは、重みを伝達する。一態様では、各オーバーレイ２０６は、所与の機械学習モデルの特定のレイヤを実現する、例えば、効率的に実現する、ために必要とされるＤＰアレイ１０２の異なるタイル間の論理接続として、ストリームチャネルを定義する。例示的なオーバーレイ２０６及びオーバーレイによって実現されるデータ移動の対応するモードは、図８の例に更に例解されている。

【0062】

したがって、本開示内で定義されるように、「オーバーレイ」という用語は、そこに実行されるアプリケーションのランタイム中にＤＰアレイに提供されるデータを意味し、データは、アプリケーションの特定のレイヤを実現するために、ＤＰアレイの少なくとも一部におけるデータ移動のモードを定義する。

【0063】

アプリケーション２０２がＣＮＮタイプの機械学習モデルを指定する例を続けると、各オーバーレイ２０６は、ＤＰアレイ１０２内のそのような機械学習モデルのレイヤを実現するために、ＣＮＮタイプの機械学習モデルのために事前構築される。一態様では、各オーバーレイ２０６は、特定の形状を有するアプリケーション２０２のレイヤのデータを処理するのに適している。本例では、オーバーレイ２０６－１は、正方形のレイヤのデータを効率的に処理することが可能である。オーバーレイ２０６－２は、背の高い長方形のレイヤのデータを効率的に処理することが可能である。オーバーレイ２０６－Ｎは、幅の広い長方形のレイヤのデータを効率的に処理することが可能である。したがって、この例では、オーバーレイ２０６は、特定の寸法を有するレイヤを処理することに限定されないが、これも当てはまる場合があり得、むしろ、特定の形状のレイヤを扱うことが意図される。所与のタイプのアプリケーションのためのより少ない又はより多いオーバーレイが、本明細書に説明されるような形状又は異なる形状のために作成され得ることを理解されたい。

【0064】

コンパイラ２０４は、利用可能な事前構築されたオーバーレイ２０６をアプリケーション２０２のレイヤ１～Ｍと比較して、アプリケーション２０２のレイヤ１～Ｍへのオーバーレイ２０６のマッピングを決定することが可能である。オーバーレイ２０６は、アプリケーション２０２のタイプに特有である。オーバーレイ２０６はまた、ＤＰアレイ１０２のアーキテクチャに特有であり得る。例えば、アプリケーション２０２が、異なるタイプの機械学習モデルを実現する場合、コンパイラ２０４がアプリケーションのレイヤにマッピングするために利用可能な事前構築されたオーバーレイは、異なる。利用可能なオーバーレイは、実現されている特定のタイプの機械学習モデルに必要とされる特定のタイプのデータ移動を実現するのに適している。したがって、コンパイラ２０４によるマッピングにおいて使用されるオーバーレイ２０６は、アプリケーション２０２によって実現される特定のタイプの機械学習モデルのために事前構築されたオーバーレイのみを含む。

【0065】

一態様では、コンパイラ２０４は、各レイヤの形状を決定することによって、オーバーレイ２０６をアプリケーション２０２のレイヤ１～Ｍにマッピングすることが可能である。形状は、レイヤの特定の重み又は重み行列によって与えられ得る。コンパイラ２０４は、各レイヤの形状を、決定された形状のレイヤ上で動作するのに適した特定のオーバーレイ２０６（例えば、オーバーレイ２０６の形状）に一致させることが可能である。オーバーレイをレイヤにマッピングするために同じ形状及び／又は形状の類似性が使用されるが、別の態様では、コンパイラ２０４は、各レイヤの寸法を決定し、そのレイヤを、形状のプロキシとして使用され得る寸法に基づいて、そのレイヤに適した特定の（例えば、１つの）オーバーレイ２０６にマッピングすることが可能である。形状に従ってオーバーレイ２０６をレイヤ１～Ｍにマッピングすることによって、マッピングされたオーバーレイを使用してアプリケーション２０２の各レイヤを実現する際にＤＰアレイ１０２によって達成されるデータスループットは、増加又は最適化され得る。

【0066】

オーバーレイ２０６は、図２の例では１対１のベースでアプリケーション２０２のレイヤに対応するように見えるが、そうである必要はない。すなわち、コンパイラ２０４は、アプリケーションをコンパイルするために利用可能である異なるタイプの機械学習モデルのための複数の事前構築されたオーバーレイ２０６へのアクセスを有し得るか、又はそれを含み得る。オーバーレイ２０６の数は、コンパイルされているアプリケーションのレイヤの数よりも多く又は少なくあり得る。

【0067】

コンパイラ２０４は、アプリケーション２０８として示されたアプリケーション２０２の実行可能バージョンを生成することが可能である。アプリケーション２０８は、ＤＰアレイ１０２によって実行可能である。例えば、アプリケーション２０８は、ＤＰアレイ１０２の計算タイルのうちの特定のタイルによって実行されるカーネルの実行可能バージョンを指定する。この点に関して、アプリケーション２０８は、カーネルを指定するだけでなく、どの計算タイルが各それぞれのカーネルを実行するかも指定し得る。一態様では、アプリケーション２０８は、単一の、又は同じカーネルを利用し、アプリケーション２０８を実行するために使用される各計算タイルは、カーネルのインスタンスを実行する。カーネルは、複数の異なる、かつ選択可能な関数を含み得る。他の例では、アプリケーション２０８を実行するために使用される各計算タイルは、複数の又は異なるカーネルのセットの各々のインスタンスを実行する。アプリケーション２０８を実行する各計算タイルによって実行されるカーネルインスタンスのセットは、同じであり得るか、又は１つの計算タイルから別の計算タイルへ異なり得る。アプリケーション２０８の一部として、コンパイラ２０４はまた、ＤＰアレイ１０２にロードされたときに、データを伝達するＤＰアレイ１０２内のストリームチャネルを実現する設定データも生成する。アプリケーション２０８はまた、ＤＰアレイ１０２の様々なメモリのための初期化データを指定し得る。

【0068】

上で述べられるように、コンパイラ２０４はまた、アレイコントローラ１０６によって実行可能である制御アプリケーション２１４を生成することが可能である。制御アプリケーション２１４は、マッピング２１０及びランタイムパラメータ２１２を含むことができる。マッピング２１０は、アプリケーション２０８の実行（例えば、ランタイム）中に、アプリケーション２０８のレイヤ１～Ｍの各々についてどのオーバーレイ２０６を使用するかを指定する。ランタイムパラメータ２１２は、アプリケーション２０８のレイヤ１～Ｍのうちの１つ以上又は各々に対して生成され得る。すなわち、ランタイムパラメータ２１２は、レイヤ固有である。更に、ランタイムパラメータ２１２は、特定の計算タイルに特有であり得る。一般に、ランタイムパラメータ２１２は、ランタイム中にＤＰアレイ１０２の異なる計算タイルに提供されて、実行のためのカーネルに構成され得る。例えば、ランタイムパラメータ２１２は、実行のために特定のカーネルを選択し得、及び／又は実行するカーネルの特定の関数を有効化及び／若しくは無効化し得る（例えば、計算タイルによって実行されている様々なカーネルのいずれかの実行フローの変更を達成する）。ランタイムパラメータに関する更なる詳細は、以下でより詳細に説明される。

【0069】

一態様では、制御アプリケーション２１４は、ランタイム中にアプリケーション２０８の異なるレイヤに関するオーバーレイ２０６及びランタイムパラメータ２１２の実装を開始するアレイコントローラ１０６が従うスケジュールを指定し得る。スケジュールは更に、実行されるべき特定のタスクと、ランタイム中にアプリケーション２０８の様々なレイヤのワークロードを開始するためのタスクの順序付けとを指定し得る。

【0070】

ＤＰアレイ１０２においてアプリケーションを実行する際に、アレイコントローラ１０６は、アプリケーション２０８を計算タイルのプログラムメモリにロードし、アプリケーション２０８の設定データを制御レジスタにロードして、ストリームチャネルを実現するようにストリームスイッチを設定し、ＤＰアレイ１０２のメモリを初期化することが可能である。制御アプリケーション２１４を実行する際に、アレイコントローラ１０６は、異なるオーバーレイを実現し、指定されたスケジュールごとにランタイム中にアプリケーション２０８のためにＤＰアレイ１０２にランタイムパラメータをロードすることが可能である。更に、アレイコントローラ１０６は、制御アプリケーション２１４を実行する際に、スケジュールごとに経時的にアプリケーション２０８の異なるレイヤに対応するアプリケーション２０８のためのワークロードを開始する。

【0071】

本開示内では、ＤＰアレイ１０２においてアプリケーションをロードし、実行することに言及する。ＤＰアレイ１０２は、１つ、２つ、若しくはそれを上回るパーティション（各パーティションは、１つ以上の計算タイル及び１つ以上のインターフェースタイルを含み得る）、又は、１つ以上の計算タイル、１つ以上のメモリタイル、及び１つ以上のインターフェースタイルの組み合わせに細分され得ることを理解されたい。各パーティションは、他のパーティションから独立して動作することが可能であり、その結果、各パーティションは、異なるアプリケーションを実行し得、かつ他のパーティションと同時に実行し得る。したがって、本開示内で、ＤＰアレイ１０２のパーティションにおいてアプリケーションをロード、実行、若しくは実現すること、オーバーレイをロードすること、ランタイムパラメータをロードすること、及び／又はワークロードを実行することへの言及は、ＤＰアレイ１０２全体が単一のパーティションとして見られ、そのような動作が単一のパーティションに対して実行される場合、又はＤＰアレイ１０２が２つ以上のより小さいパーティションに細分され、動作が１つ以上のアレイコントローラの制御下で独立して２つ以上のより小さいパーティションの各々に対して実行される場合に言及し得る。

【0072】

図３は、ＤＰアレイ１０２の例示的な実装形態を例解する。本例では、ＤＰアレイ１０２は、計算タイル３０２、メモリタイル３０６、及びインターフェースタイル３０４を含む。インターフェースタイル３０４は、アレイインターフェース１０４の一部である。本例では、計算タイル３０２及びメモリタイル３０６は、複数の行及び列を有するグリッドに配列されている。インターフェースタイル３０４は、行に配列され、個々のインターフェースタイル３０４は、ＤＰアレイ１０２のグリッド構成の列と整列されている。計算タイル３０２は、計算タイル３０２－１、３０２－２、３０２－３、３０２－４、３０２－５、３０２－６、３０２－７、３０２－８、３０２－９、３０２－１０、３０２－１１、３０２－１２、３０２－１３、３０２－１４、３０２－１５、３０２－１６、３０２－１７、及び３０２－１８を含む。インターフェースタイル３０４は、インターフェースタイル３０４－１、３０４－２、３０４－３、３０４－４、３０４－５、及び３０４－６を含む。メモリタイル３０６は、メモリタイル３０６－１、３０６－２、３０６－３、３０６－４、３０６－５、及び３０６－６を含む。本例では、各タイルは、左（西）、右（東）、上（北）、及び下（南）に隣接するタイルに、そのようなタイルがそのような位置に位置する場合に結合される。

【0073】

図３の例は、例解のみを目的として提供されている。所与の列及び／又は行内のタイルの数、ＤＰアレイ１０２及び／又はアレイインターフェース１０４に含まれるタイルの数、列及び／又は行内のタイルタイプ（例えば、メモリ及び計算タイル）のシーケンス又は順序は、例解を目的としたものであり、限定ではない。様々な数のタイル、行、列、タイルタイプの混合などを有する他の構成が含まれ得る。例えば、図３の行は、タイルタイプに関して同種であるが、列は、同種ではない。他の構成では、行は、タイルタイプに関して異種であるが、列は、同種であり得る。更に、メモリタイル３０６の追加の行が、ＤＰアレイ１０２に含まれ得る。メモリタイル３０６のそのような行は、計算タイル３０２の行を介在させることなく一緒にグループ化され得るか、又は計算タイル３０２の行が、メモリタイル３０６の行若しくは行のグループの間に介在するように、ＤＰアレイ１０２全体にわたって分散され得る。

【0074】

ＤＰアレイ１０２の別の例示的な実装形態では、メモリタイル３０６は、計算タイル３０２の最下行がインターフェースタイル３０４に直接結合するように省略され得る。例えば、メモリタイル３０６が省略されると、インターフェースタイル３０４－１は、計算タイル３０２－３などに直接接続することになる。そのような場合、本明細書で説明される様々な例示的な実装形態は、メモリタイル３０６の代わりに、メモリ（例えば、サブシステム１１２～１２０のうちの１つ）からデータを読み取り、メモリにデータを書き込み得る。しかしながら、メモリタイル３０６を含むことは、ＤＰアレイ１０２の外部のＲＡＭからデータを継続的に読み取る、及び／又はＲＡＭにデータを書き込む必要なく、データが計算タイル３０２のより近くに記憶され得るという点で、ＤＰアレイ１０２のデータスループットを増加させ得る。

【0075】

図４は、計算タイル３０２の例示的な実装形態を例解する。図４の例は、計算タイル３０２の特定のアーキテクチャ上の特徴を例解するために提供されており、一般に、ＤＰアレイ１０２の形態又は計算タイル３０２のアーキテクチャを限定するものとしてではない。構成要素及び／又はタイル間のいくつかの接続は、例解を容易にするために省略されている。

【0076】

本例では、各計算タイル３０２は、コア４０２、ＲＡＭ４０４、ストリームスイッチ４０６、メモリマップドスイッチ４０８（例えば、図では「ＭＭ」スイッチと略記される）、制御レジスタ４１４、及びダイレクトメモリアクセス（direct memory access、ＤＭＡ）回路４３４を含む。コア４０２は、プロセッサ４２０及びプログラムメモリ４２２を含む。制御レジスタ４１４は、計算タイル３０２に含まれる様々な構成要素の動作を制御するために、メモリマップドスイッチ４０８によって書き込まれ得る。示されていないが、計算タイル３０２の各メモリ構成要素（例えば、プログラムメモリ４２２、制御レジスタ４１４、及びＲＡＭ４０４）は、設定及び／又は初期化の目的で、メモリマップドスイッチ４０８を介して読み取られ、及び／又は書き込まれ得る。

【0077】

プロセッサ４２０は、種々の異なるプロセッサタイプのうちのいずれかであり得る。一態様では、プロセッサ４２０は、ベクトルプロセッサとして実装される。別の例では、プロセッサ４２０は、スカラプロセッサとして実装され得る。別の例では、プロセッサ４２０は、ベクトルプロセッサ及びスカラプロセッサを含み得る。プログラムメモリ４２２は、例えば、アプリケーションをロードすることによって、「カーネル」と称される実行可能命令でロードされ得る。各計算タイル３０２は、プロセッサ４２０によってプログラムメモリ４２２に記憶されたカーネルの実行を通じて、データ処理動作を実行し、大量のデータに対して動作することが可能である。

【0078】

各コア４０２、例えばプロセッサ４２０は、メモリインターフェース４３２を通して同じ計算タイル３０２内に位置するＲＡＭ４０４へ直接接続される。本開示内では、メモリインターフェースがＲＡＭにアクセスするために同じタイル内の回路によって使用されるとき、メモリインターフェースは、「ローカルメモリインターフェース」と称される。メモリインターフェース４３２－１は、同じタイル内のプロセッサ４２０が、メモリインターフェースを利用してＲＡＭ４０４にアクセスするので、ローカルメモリインターフェースの例である。比較すると、ＲＡＭ４０４にアクセスするためにタイルの外部の回路によって使用されるメモリインターフェースは、隣接メモリインターフェースと称される。メモリインターフェース４３２－２、４３２－３、及び／又は４３２－４は、そのようなメモリインターフェースは、ＲＡＭ４０４にアクセスするために他の隣接するタイル内の回路によって使用されるので、隣接メモリインターフェースの例である。

【0079】

したがって、各プロセッサ４２０は、そのようなメモリインターフェースに向けられた標準読み取り及び書き込み動作を介して、同じ計算タイル３０２内のＲＡＭ４０４及び隣接タイル内の１つ以上の他のＲＡＭ４０４にアクセス（例えば、読み取り及び／又は書き込み）することが可能である。ＲＡＭ４０４は、アプリケーションデータを記憶するように構成されている。ＲＡＭ４０４は、設定及び／又は初期化の目的のために、メモリマップドスイッチ４０８を介して読み取られ、及び／又は書き込まれ得る。ＲＡＭ４０４は、ランタイム中にプロセッサ４２０によって、及び／又はＤＭＡ回路４３４によって読み取られ、及び／又は書き込まれ得る。

【0080】

ＤＭＡ回路４３４は、同じ計算タイル３０２内に位置するＲＡＭ４０４にデータを読み書きすることが可能である。ＤＭＡ回路４３４は、計算タイル３０２の外部のソースからストリームスイッチ４０６を介してデータを受信し、そのようなデータをＲＡＭ４０４に記憶し得る。ＤＭＡ４３４は、ＲＡＭ４０４からデータを読み取り、計算タイル３０２の外部の１つ以上の他の宛先に伝達するために、データをストリームスイッチ４０６に出力し得る。

【0081】

各コア４０２、例えば、プロセッサ４２０は、メモリインターフェースを介して、（例えば、北、南、東、及び／又は西方向に）隣接する計算タイル３０２内に位置するＲＡＭ４０４に直接接続され得る。したがって、プロセッサ４２０は、ストリームスイッチ４０６を介して読み取り又は書き込みトランザクションを開始することなく、かつ／又はＤＭＡ回路４３４を使用することなく、プロセッサ４２０が同じ計算タイル３０２内に位置するＲＡＭ４０４にアクセスすることができるのと同じ様態で、そのような他の隣接するＲＡＭ４０４に直接アクセスし得る。例解的な例として、計算タイル３０２－５のプロセッサ４２０は、ストリームスイッチ４０６を介して及び／又はＤＭＡ回路４３４を使用して読み取り又は書き込みトランザクションをサブミットすることなく、計算タイル３０２－５、３０２－２、３０２－４、及び３０２－６内に位置するＲＡＭ４０４への読み取り及び／又は書き込みを行うことができる。しかしながら、プロセッサ４２０は、ストリームスイッチ４０６及びＤＭＡ回路４３４を介して、任意の他の計算タイル３０２及び／又はメモリタイル３０６のＲＡＭ４０４への読み取り及び書き込みトランザクションを開始し得ることを理解されたい。

【0082】

プロセッサ４２０はまた、プロセッサ４２０の内部レジスタ（例えば、累積レジスタ）に記憶されたデータの他のプロセッサ４２０との直接共有を可能にする、（例えば、北、南、東、及び／又は西方向の）隣接コアのプロセッサ４２０への、カスケード接続（図示せず）と称される直接接続を含み得る。これは、１つのプロセッサ４２０の１つ以上の内部レジスタに記憶されたデータが、最初にそのようなデータをＲＡＭ４０４に書き込むことなく、及び／又はＤＭＡ回路４３４を使用して、そのようなデータを、ストリームスイッチ４０６を介して伝達することなく、異なるプロセッサ４２０の１つ以上の内部レジスタへ直接伝達され得ることを意味する。

【0083】

図４の例では、アレイコントローラ１０６によるＤＰアレイ１０２内のアプリケーション２０８のローディングは、計算タイル３０２のそれぞれのプログラムメモリ４２２内のカーネルの実行可能プログラムコードをロードする。ストリームスイッチ４０６などの計算タイル３０２の他の構成要素の動作は、ストリームチャネル（例えば、論理接続）を実現するために、アプリケーション２０８の設定データを制御レジスタ４１４にロードすることによって制御され得る。異なるオーバーレイ２０６は、アプリケーション２０８の異なるレイヤを実現するためにストリームチャネルを介して、データ移動の異なるモードを実現するためにロードされ得る。

【0084】

ランタイムパラメータ２１２は、アレイコントローラ１０６によってＲＡＭ４０４にロードされ得る。すなわち、プロセッサ４２０によって実行されるカーネルは、プロセッサ４２０に、ランタイムパラメータ２１２を記憶するために確保され得るＲＡＭ４０４の特定のエリアからランタイムパラメータ２１２の値を読み取らせる命令を含み得る。ＲＡＭ４０４に記憶され得る任意のランタイムパラメータ２１２の値に基づいて、計算タイル３０２によって実行されるカーネルが設定され得る。例えば、カーネルの実行は、あるランタイムパラメータ２１２をロードすることによって変更され得る。別の態様では、プロセッサ４２０は、ＲＡＭ４０４から読み取られたランタイムパラメータ２１２に基づいて実行されるべき特定のカーネル又はカーネルの関数を選択する関数を実行し得る。１つの計算タイル３０２のＲＡＭ４０４にロードされた特定のランタイムパラメータは、別の異なる計算タイル３０２の別のＲＡＭ４０４にロードされたランタイムパラメータ（もしあれば）とは異なり得ることを理解されたい。ランタイムパラメータ２１２は、実行されるアプリケーション２０８の各レイヤに対して変更され得る。

【0085】

例解の目的で、アプリケーション２０８がＣＮＮを実現する前の例を検討する。１つのレイヤのランタイムパラメータ２１２は、特定の行列乗算演算を実行するように、プロセッサ４２０によって実行されるカーネルを設定し得る。例えば、ランタイムパラメータは、実行されるべき行列乗算演算の次元を指定し得る。別の例では、ランタイムパラメータ２１２は、実行されるカーネル又は実行される異なるカーネルの特定の関数を指定し得る。例えば、第１のレイヤのランタイムパラメータ２１２は、レイヤの次元と、畳み込み演算が実行されるべきであることとを示し得る。異なるレイヤのためにロードされたランタイムパラメータ２１２は、レイヤの異なる次元と、畳み込み及びバッチ正規化が実行されるべきであることとを指定し得る。更に異なるレイヤのためにロードされたランタイムパラメータ２１２は、レイヤの次元と、畳み込み及びＲｅＬＵが実行されるべきであることとを指定し得る。この例では、異なる関数、例えば、畳み込み、バッチ正規化、及びＲｅＬＵは、そのレイヤのためにロードされた特定のランタイムパラメータ２１２に基づいて選択的に実行され得る一般的なＣＮＮカーネルの異なる関数として実現され得る。すなわち、ランタイムパラメータ２１２は、特定の関数を実行するようにカーネルを設定する。別の例では、異なる関数は、実行のために選択され、ランタイムパラメータ２１２によって設定される異なるカーネルとして実現され得る。

【0086】

図５は、メモリタイル３０６の例示的な実装形態を例解する。図５の例は、メモリタイル３０６の特定のアーキテクチャ上の特徴を例解するために提供されており、一般に、ＤＰアレイ１０２の形態又はメモリタイル３０６のアーキテクチャを限定するものとしてではない。構成要素及び／又はタイル間のいくつかの接続は、例解を容易にするために省略されている。

【0087】

各メモリタイル３０６は、ＤＭＡ回路５０２、ＲＡＭ５０４、ストリームスイッチ５０６、メモリマップドスイッチ５０８、及び／又は制御レジスタ５１４を含む。制御レジスタ５１４は、メモリタイル３０６に例解された様々な構成要素の動作を制御するために、メモリマップドスイッチ５０８によって書き込まれ得る。示されていないが、メモリタイル３０６の各メモリ構成要素（例えば、ＲＡＭ５０４及び制御レジスタ５１４）は、設定及び／又は初期化の目的で、メモリマップドスイッチ５０８を介して読み取られ、及び／又は書き込まれ得る。

【0088】

メモリタイル３０６の各ＤＭＡ回路５０２は、ローカルメモリインターフェース５３２－１を介して同じメモリタイル３０６内のＲＡＭ５０４に結合され、他の隣接するメモリタイル３０６の１つ以上のＲＡＭ５０４に結合され得る。図５の例では、各ＤＭＡ回路５０２は、ローカルメモリインターフェース５３２－１を介して同じメモリタイル３０６内に含まれるＲＡＭ５０４にアクセスする（例えば、読み取る及び／又は書き込む）ことが可能である。ＲＡＭ５０４は、隣接メモリインターフェース５３２－２及び５３２－３を含み、これらを通して、東及び西のメモリタイル３０６のＤＭＡ回路は、ＲＡＭ５０４にアクセスし得る。例えば、メモリタイル３０６－２のＤＭＡ回路５０２は、メモリタイル３０６－１のＲＡＭ５０４及び／又はメモリタイル３０６－３のＲＡＭ５０４にアクセスし得る。この例におけるＤＭＡ回路５０２は、そのような他のメモリタイルのＲＡＭの隣接メモリインターフェースによって、隣接するメモリタイル３０６のＲＡＭを読み取り及び／又は書き込み得る。ＤＭＡ回路５０２は、ＲＡＭ５０４から読み取られたデータをストリームスイッチ４０６上に置き、ストリームスイッチを介して受信されたデータをＲＡＭ５０４に書き込み得る。

【0089】

図４の例と同様に、メモリマップドスイッチ５０８は、メモリタイル３０６の設定及び初期化の目的で使用され、ストリームスイッチ５０６は、ランタイム中にデータを伝達するために使用される。一態様では、ＲＡＭ５０４は、アプリケーション２０８をＤＰアレイ１０２にロードするプロセスの一部として初期化され得る。アプリケーション２０８をロードすることはまた、ストリームスイッチ５０６を設定してストリームチャネルを実現する制御レジスタ５１４に設定データをロードする。図２に関連して説明された異なるオーバーレイ２０６は、データ移動の特定のモードを実現するためにロードされ得る。

【0090】

本明細書で説明される例では、特定のタイルは、メモリマップドスイッチ、ストリームスイッチ、及び／又はＤＭＡ回路などの、１つ以上の共通又は同様の構成要素を含み得る。しかしながら、メモリタイル３０６は、概して、その中に含まれる処理要素（例えば、プロセッサ４２０）の欠如によって特徴付けられることを理解されたい。

【0091】

図６は、インターフェースタイル３０４の例示的な実装形態を例解する。図６の例は、インターフェースタイル３０４の特定のアーキテクチャ上の特徴を例解するために提供されており、ＤＰアレイ１０２の形態を限定するものとしてではない。構成要素及び／又はタイル間のいくつかの接続は、例解を容易にするために省略されている。

【0092】

本例では、各インターフェースタイル３０４は、ＤＭＡ回路６０２、１つ以上のインターフェース６０４、ストリームスイッチ６０６、メモリマップドスイッチ６０８、及び制御レジスタ６１４を含む。他の例示的な実装形態では、全てのインターフェースタイル３０４が、ＤＭＡ回路６０２を含むわけではない。アレイインターフェース１０４は、相互接続１０８によって、ＤＰアレイ１０２のアレイタイルとシステム１００の他の回路との間のインターフェースとして動作する。図６の例では、インターフェースタイル３０４は、メモリタイル３０６に結合する。他の例示的な実装形態では、インターフェースタイル３０４は、ＤＰアレイ１０２がメモリタイル３０６を含むかどうか、及び／又はＤＰアレイ１０２内のそのようなメモリタイル３０６の場所に応じて、計算タイル３０２に結合する。相互接続１０８を通して、インターフェースタイル３０４は、システム１００内及び／又はシステムの外部の１つ以上の他の回路に結合することが可能である。そのような他の回路は、１つ以上のハードワイヤード回路及び／又はサブシステム、プログラマブルロジックで実装された回路及び／又はサブシステムなどを含み得る。

【0093】

図６の例では、インターフェース６０４は、他のシステム及び／又はシステムの回路に接続することが可能である。例解の目的で、インターフェース６０４は、ＮｏＣ、プログラマブルロジック、埋め込みプロセッサ及び／若しくはプロセッサシステム（ＤＰアレイ１０２から独立した）、ＩＣに埋め込まれたプラットフォーム管理コントローラ、並びに／又はＩＣ内の１つ以上の他のハードワイヤード回路ブロック（例えば、ＡＳＩＣブロック）に結合することが可能である。例えば、インターフェース６０４は、アレイコントローラ１０６及び／又はサブシステム１１２～１２０のうちの１つ以上への直接接続を含むか又は提供し得る。別の構成では、インターフェース６０４は、ＤＰアレイ１０２と同じパッケージ内に位置するが、パッケージ内の異なるダイ内に実装された回路及び／又はシステムと通信するように構成され得る。更に別の構成では、インターフェース６０４は、ＤＰアレイ１０２を含むＩＣの外部に位置する回路及び／又はシステムと（例えば、パッケージの外部の回路及び／又はシステムへ）通信するように構成され得る。

【0094】

インターフェースタイル３０４は、ストリームスイッチ６０６を介したアプリケーションランタイムデータであっても、又はメモリマップドスイッチ６０８を介したアプリケーションであっても、データを、相互接続１０８を介して受信される、及び／又はそのようなデータを、相互接続１０８を介して他の回路に送出する際に、各それぞれのインターフェースタイル３０４の上に位置するアレイタイルに伝達することが可能である。更に、インターフェースタイル３０４は、メモリマップドスイッチ６０８によって各それぞれのインターフェースタイル３０４の制御レジスタ６１４にアプリケーション（例えば、設定データを含む）をロードすることによって設定可能である。例えば、アレイコントローラ１０６は、設定データを制御レジスタ６１４に書き込み得る。

【0095】

集合的に考えると、ＤＰアレイ１０２内では、ストリームスイッチ（４０６、５０６、及び６０６）は、（アプリケーション自体と区別された）アプリケーションランタイムデータを伝達することが可能であるストリームネットワークを形成する。アプリケーションランタイムデータは、アプリケーションのランタイム中にＤＰアレイ１０２のアレイタイル（例えば、計算タイル３０２）によって受信され、操作され、又は生成（例えば、出力）されるデータを含む。アプリケーションランタイムデータは、一般に、ランタイム中に、ＲＡＭ４０４及びＲＡＭ５０４に記憶され、アプリケーションによって設定されたストリームスイッチによって実現されるストリームチャネルを介して伝達される。集合的に考えると、メモリマップドスイッチ（４０８、５０８、及び６０８）は、アプリケーションがＤＰアレイ１０２にロードされ得るメモリマップドネットワークを形成する。一態様では、オーバーレイ２０６及び／又はランタイムパラメータ２１２は、メモリマップドネットワークを介して伝達され得る。別の態様では、オーバーレイ２０６及び／又はランタイムパラメータ２１２は、ストリームネットワークを介して伝達され得る。ワークロードを開始するタスクは、メモリマップドネットワークを介して（例えば、ＤＭＡ回路４３４、５０２、及び／又は６０２に）伝達され得る。別の態様では、タスクは、ストリームネットワークを介して伝達され得る。

【0096】

ＤＰアレイ１０２を参照すると、タイルの制御レジスタ（４１４、５１４、及び６１４）に書き込まれる設定データはまた、タイルのストリームスイッチが回線交換ストリーム相互接続として動作するか、又はパケット交換ストリーム相互接続として動作するかを制御し得る。回線交換ストリーム相互接続は、ＤＰアレイ１０２のタイル間の高帯域幅通信に好適なポイントツーポイントの専用ストリームを実現することが可能である。パケット交換ストリーム相互接続により、ストリームを共有して、多数の論理ストリームを１つの物理チャネル上に時間多重化して、中帯域幅通信を行うことができる。したがって、ストリームスイッチは、アプリケーションデータが伝達され得るパケット交換ストリームネットワークを実現するように構成され得る。

【0097】

図７は、計算タイル３０２間のカスケード接続性の例を例解する。例解の目的で、ＤＰアレイ１０２の計算タイル３０２のサブセットのみが例解されている。本例では、コア４０２のプロセッサ４２０は、隣接するコア４０２の１つ以上の他のプロセッサ４２０に直接接続され得る。プロセッサ４２０間の直接接続は、本明細書では「カスケード接続」と称され、図７の例では「ＣＣ」と標識されている。カスケード接続は、ＲＡＭ４０４、５０４及び／又はストリームスイッチを介したデータを共有することから独立して動作可能である。図７の例では、各プロセッサ４２０は、カスケード接続を介して隣接するプロセッサ４２０に結合されている。他の例では、プロセッサ４２０は、複数のカスケード接続を介して他のプロセッサに接続され得る。

【0098】

各カスケード接続は、プロセッサによって、出力のカスケード接続又は入力のカスケード接続とみなされ得る。例えば、計算タイル３０２－６のプロセッサ４２０の観点から、計算タイル３０２－３から計算タイル３０２－６へのカスケード接続は、入力のカスケード接続と称され得る。計算タイル３０２－６のプロセッサ４２０の観点から、計算タイル３０２－６から右側に隣接する計算タイルへのカスケード接続は、出力のカスケード接続と称され得る。

【0099】

各カスケード接続は、マルチビットデータストリーム（例えば、並列で最大数百ビット）を１つのプロセッサ４２０から別のプロセッサに伝達し得る。一態様では、カスケード接続は、プロセッサ４２０内の累積レジスタの内容を出力し、その内容、例えば、クロックサイクルごとに多数のビット、を隣接するプロセッサ４２０の別の内部レジスタに伝達することができる。受信レジスタは、受信プロセッサ４２０内の累積レジスタに供給するか、又はそれに結合され得る。累積レジスタは、プロセッサの演算中に生成された中間値を保持することができる一時記憶場所として働く、プロセッサに含まれるレジスタの一種である。演算の中間結果は、累積レジスタに漸進的に書き込まれ、以前の値を上書きし得る。上で述べられるように、各カスケード接続は、最初にデータをＲＡＭに記憶することなく、又はストリームスイッチ及び／又はＤＭＡ回路を利用することなく、データを１つのプロセッサ４２０から別のプロセッサ４２０に直接伝達することを可能にする。

【0100】

各カスケード接続は、データが１つのプロセッサ４２０から別のプロセッサへカスケード接続上で伝搬されるように独立して有効化され得るか、又はデータがカスケード接続上で伝搬されないように無効化され得る。一態様では、各カスケード接続は、それぞれのプロセッサ４２０によって実行されるカーネルのプログラムコードに基づいて選択的に有効化され得る。すなわち、カーネルのプログラムコードは、プロセッサ４２０に、出力のカスケード接続にデータを書き込ませるか、又は入力のカスケード接続からデータを読み取らせる命令を含み得る。これらの命令は、所与のプロセッサ４２０に、カスケード接続からデータを読み取るため、及び／又はカスケード接続にデータを書き込むための関数を実行させるオーバーレイ２０６のための好適なランタイムパラメータ２１２を書き込むことによって実行又はスキップされ得る。

【0101】

別の例では、ランタイムパラメータ２１２は、カーネルを実行する際にプロセッサ４２０によって使用されるアドレス指定を指定するために使用され得る。例えば、ランタイムパラメータ２１２は、プロセッサが、ＤＭＡ回路及びストリームスイッチを介して、同じ計算タイル内のＲＡＭ４０４に、特定の隣接するＲＡＭ４０４に、及び／又は別のメモリに書き込むように、アドレス指定をシフトするために使用され得る。このようにして、ＤＰアレイ１０２内のデータの移動は、アプリケーション２０８のランタイム中にロードされるそれぞれのオーバーレイ２０６のための適切なランタイムパラメータ２１２をロードすることによって更に修正され得る。

【0102】

別の例では、ランタイムパラメータ２１２は、入力の及び／又は出力のカスケード接続を使用して通信するように構成された計算タイル３０２において実行するカーネルを選択するか、又は機能的に類似若しくは同じであり得るが、カスケード接続を利用しない異なるカーネルを選択し得る。

【0103】

図８は、計算タイル３０２－１が、別の計算タイルへのカスケード接続を使用せずに動作するように構成されている例を例解する。図８に例解された構成は、オーバーレイ及び任意選択的にランタイムパラメータをＤＰアレイ１０２にロードすることによって実現され得る。考察の目的で、カスケード接続を利用しないオーバーレイは、本明細書では「非カスケードオーバーレイ」と称される。同様に、非カスケードオーバーレイによってＤＰアレイ１０２において実現される動作モードは、「非カスケードモード」と称され得る。非カスケードモードでは、計算タイル３０２のプロセッサ４２０は、カスケード接続によって通信しない。

【0104】

図８の例では、非カスケードオーバーレイを使用して、計算タイル３０２は、行列乗算演算を実行するように、構成されている。他の例では、計算タイル３０２は、他のタイプの演算を実行し得る。例解の目的で、ＤＰアレイ１０２は、行列Ｃを生成するために行列Ａ及びＢを乗算するために使用される。非カスケードモードにおけるＤＰアレイ１０２のパーティションの各計算タイル３０２は、行列Ｃの１つの要素を生成するように構成されている。

【0105】

本例では、計算タイル３０２－１は、行列Ａの第１行と行列Ｂの第１列とのドット積を生成して、要素Ｃ_００を生成する。すなわち、計算タイル３０２－１は、（Ａ_００×Ｂ_００）＋（Ａ_０１×Ｂ_１０）を計算するようにプログラムされる。図８の例では、要素Ａ_００、Ｂ_００、Ａ_０１、及びＢ_１０は、アプリケーションの一部としてストリームネットワーク内に実現された１つ以上の入力ストリームチャネルを介して計算タイル３０２－１に提供される。

【0106】

したがって、８つの計算タイルを有するＤＰアレイ（又はそのパーティション）は、８つの出力要素を並列に生成することが可能である。非カスケードオーバーレイを使用するこの構成では、ＤＰアレイ１０２は、４つの計算タイル３０２を使用して、行列Ｃを並列に計算することが可能である。４つの計算タイル３０２の各々は、行列Ｃの要素Ｃ_００、Ｃ_０１、Ｃ_１０、及びＣ_１１のうちの１つを並列に計算する。

【0107】

図９は、計算タイル３０２－１及び３０２－２が、カスケード接続を使用して動作するように構成されている例を例解する。図９に例解された構成は、オーバーレイ及び任意選択的にランタイムパラメータをＤＰアレイ１０２にロードすることによって実現され得る。考察の目的で、１つ以上のカスケード接続を利用するオーバーレイは、本明細書では「カスケードオーバーレイ」と称される。同様に、カスケードオーバーレイによって実現される動作モードは、選択された計算タイル３０２のプロセッサ４２０がカスケード接続によって通信する「カスケードモード」と称され得る。場合によっては、選択されたプロセッサ４２０は、カスケード接続のみを使用して通信し得、他の場合には、そのようなプロセッサは、カスケード接続とストリームチャネル（例えば、ストリームネットワーク）との組み合わせを使用して通信し得ることを理解されたい。

【0108】

図９の例では、カスケードオーバーレイを使用して、計算タイル３０２は、行列乗算演算を実行するように、構成されている。他の例では、計算タイル３０２は、他の演算を実行し得る。例解の目的で、ＤＰアレイ１０２は、行列Ｃを生成するために行列Ａ及びＢを乗算するために使用される。図９の例では、計算タイル３０２の対は、行列Ｃの１つの要素を生成するために協働して動作する。図９は、計算タイル３０２－１及び計算タイル３０２－２のプロセッサ４２０がカスケード接続によって結合されていることを示す。したがって、計算タイル３０２－２は、Ａ_００×Ｂ_００を計算することができ、一方、計算タイル３０２－１は、Ａ_０１×Ｂ_１０を計算し、積を合計することができる。

【0109】

例えば、Ａ_００及びＢ_００は、ストリームネットワーク内に実現された１つ以上の入力ストリームチャネルを介してタイル３０２－２を計算するために提供されている。要素Ａ_０１及びＢ_１０は、ストリームネットワーク内に実現された１つ以上の入力ストリームチャネルを介してタイル３０２－１を計算するために提供されている。Ａ_００×Ｂ_００の結果は、計算タイル３０２－２のプロセッサ４２０の累積レジスタから、計算タイル３０２－１のプロセッサ４２０へのカスケード接続を介して出力され得る。次いで、計算タイル３０２－１のプロセッサ４２０は、Ａ_０１×Ｂ_１０を計算し、２つの積を合計する。

【0110】

図９の構成は、図８の例よりも短い時間で（例えば、より少ないクロックサイクルを使用して）行列Ｃの要素Ｃ_００を計算することが可能であるが、行列Ｃの各要素を計算するために１つではなく２つの計算タイル３０２を利用する。したがって、図９のカスケードモードを使用する８つの計算タイルを有するＤＰアレイは、８個ではなく４個の要素を同時に生成することができる。計算タイル３０２のカスケード接続された各対は、図８の例からの１つの計算ユニットよりも少ないクロックサイクルを使用して、出力要素を計算することが可能である。この構成では、カスケードオーバーレイを使用して、行列Ｃを計算することは、ＤＰアレイ１０２の８つ全ての計算タイルを使用して並列に実行され得、ここで、２つのカスケード接続された計算タイルの各セットは、Ｃ_００、Ｃ_０１、Ｃ_１０、及びＣ_１１のうちの１つを並列に計算する。

【0111】

１つ以上の例示的な実装形態では、カスケード接続は、非カスケードカーネルを実行する計算タイル３０２のプロセッサ４２０によって無効化され得る。非カスケードカーネルは、プロセッサ４２０にカスケード接続からデータを読み取らせるか、又はカスケード接続にデータを書き込ませるどんなプログラミング又は命令も含まないカーネルである。同様に、カスケード接続は、カスケードカーネルを実行する計算タイル３０２のプロセッサ４２０によって有効化され得る。カスケードカーネルは、プロセッサ４２０にカスケード接続からデータを読み取らせるか、又はカスケード接続にデータを書き込ませるプログラミング又は命令を含むカーネルである。

【0112】

例えば、１つ以上の例示的な実装形態では、各オーバーレイは、所望の接続性及び／又は機能性を達成するために各計算タイル３０２によって実行されるべき特定のカーネルを指定し得る。ＤＰアレイ１０２の初期設定時に、各プログラムメモリ４２２は、１つ以上の異なるカーネルでロードされ得る。同じ計算タイル３０２内のプロセッサ４２０によって実行されるとき、各カーネルは、カスケード接続が使用されるべきかどうかを指示する。この例では、カーネルは、カスケード接続を使用する第１のタイプ、又はカスケード接続を使用しない第２のタイプのものであり得る。カスケード接続を使用する第１のタイプのカーネルのうち、１つ以上のカーネルは、カスケード接続からデータを読み取るように構成され得（例えば、読み取りカスケードカーネル）、１つ以上のカーネルは、カスケード接続にデータを書き込むように構成され得（例えば、書き込みカスケードカーネル）、１つ以上のカーネルは、カスケード接続からデータを読み取り、カスケード接続にデータを書き込むために利用可能であり得る。アクティブ化カーネルと称される、別のタイプのカーネルがまた、プログラムメモリ４２２に含まれ得る。アクティブ化カーネルは、選択されたアクティブ化関数を実行し得る。一態様では、アクティブ化カーネルは、整流化線形（ＲｅＬＵ）アクティブ化関数を実行し得る。アクティブ化カーネルは、他のアクティブ化関数を実行し得ることを理解されたい。一例では、実行される特定のカーネル（例えば、カスケード及び／若しくは非カスケード、並びに／又は実行される特定のアクティブ化関数）は、ランタイムパラメータ２１２によって指定され得る。

【0113】

図７の例を参照すると、カスケードモードにおいて有効化されたカスケード接続によって接続された計算タイルは、実行のための適切なカーネルを選択することによって互いに協調して動作し得る。例えば、計算タイル３０２－３は、データを計算タイル３０２－６に送信するためにカスケード接続にデータを書き込む、書き込みカスケードカーネルを実行し得る。計算タイル３０２－６は、カスケード接続からデータを読み取って計算タイル３０２－３からデータを受信する、読み取りカスケードカーネルを実行し得、以下同様である。

【0114】

図９の例を再び参照すると、計算タイル３０２－２によって実行される書き込みカスケードカーネルは、（Ａ_００×Ｂ_００）を計算し、その結果をカスケード接続に書き込み得る。計算タイル３０２－１によって実行される読み取りカスケードカーネルは、入力のカスケード接続から結果を読み取り、（Ａ_０１×Ｂ_１０）を計算し、結果を合計することが可能である。

【0115】

図１０Ａ、図１０Ｂ、及び図１０Ｃは、例示的なオーバーレイの特定の動作特徴を例解する。図１０Ａ、図１０Ｂ、及び図１０Ｃは、異なるオーバーレイによって実現される論理接続性の例を例解する。図１０Ａ、図１０Ｂ、及び図１０Ｃの例では、Ａ項は特徴マップを表し、一方、Ｂ項は重みを表す。Ｃ項は、計算タイル３０２の演算によって生成される出力データ項目を表す。図１０Ａ、図１０Ｂ、及び図１０Ｃの例では、オーバーレイは、４つの計算タイル３０２を使用して実現されている。例えば、アプリケーションを実行するために使用されるパーティションは、４つの計算タイルを含む。

【0116】

図１０Ａは、オーバーレイ及び対応するデータ移動のモードの例示的な実装形態を例解する。図１０Ａの例では、例解されたオーバーレイは、重みのブロードキャストによって特徴付けられている。「ブロードキャスト」という用語は、選択された（例えば、単一の）チャネルを介して多数の異なるエンドポイント又は宛先に同じデータ項目を伝達することを指す。本例では、重みは、単一のストリームチャネルを介して４つの計算タイル３０２の各々にブロードキャストされる。示されるように、重みＢ_００は、最初に各計算タイル３０２にブロードキャストされる。重みは、やはり計算タイルに提供される特徴マップ（Ａ）との行列乗算演算の一部として使用される。特徴マップが提供されるストリームチャネルは、例解されていない。明らかに、図１０Ａに例解された計算タイル３０２の各々は、異なる特徴マップを受信するので、４つのストリームチャネルが、特徴マップを伝達するために必要とされる（例えば、例解された計算タイル３０２の各々に１つのストリームチャネル）。図１０Ａの例では、計算タイル３０２間にカスケード接続は利用されていない。

【0117】

この例では、各計算タイル３０２は、同じ重み及び異なる特徴マップを受け取る。例えば、計算タイル３０２－２は、最初にＡ_００及びＢ_００を受信し、計算タイル３０２－１は、最初にＡ_１０及びＢ_００を受信し、計算タイル３０２－３は、最初にＡ_２０及びＢ_００を受信し、計算タイル３０２－６は、最初にＡ_３０及びＢ_００を受信する。計算タイル３０２の各々は、行列乗算演算を実行する。その後、重みＢ_１０が、４つの計算タイルの各々にブロードキャストされる。計算タイル３０２－２は、Ａ_０１及びＢ_１０を受信し、計算タイル３０２－１は、Ａ_１１及びＢ_１０を受信し、計算タイル３０２－３は、Ａ_２１及びＢ_１０を受信し、計算タイル３０２－６は、Ａ_３１及びＢ_１０を受信する。次いで、各計算タイル３０２は、行列乗算演算を実行する。各計算タイル３０２は、２つの行列乗算演算の結果を合計し、その合計を出力することが可能である。

【0118】

図１０Ｂは、オーバーレイ及び対応するデータ移動のモードの別の例示的な実装形態を例解する。図１０Ｂの例では、例解されたオーバーレイは、特徴マップのブロードキャストによって特徴付けられている。特徴マップは、４つの計算タイル３０２の各々にブロードキャストされている。特徴マップは、単一のストリームチャネルを介してブロードキャストされ得る。示されるように、特徴マップＡ_００は、最初に各計算タイル３０２にブロードキャストされる。特徴マップは、やはり計算タイルに提供される重みとの行列乗算演算の一部として使用される。重みが提供されるストリームチャネルは、例解されていない。明らかに、図１０Ｂに例解された計算タイル３０２の各々は、異なる重みを受信するので、４つのストリームチャネルが、重みを伝達するために必要とされる（例えば、例解された計算タイル３０２の各々に１つ）。この例では、各計算タイル３０２は、同じ特徴マップ及び異なる重みを受信する。例えば、計算タイル３０２－２は、最初にＡ_００及びＢ_００を受信し、計算タイル３０２－１は、最初にＡ_００及びＢ_０１を受信し、計算タイル３０２－３は、最初にＡ_００及びＢ_０２を受信し、計算タイル３０２－６は、最初にＡ_００及びＢ_０３を受信する。計算タイル３０２の各々は、行列乗算演算を実行する。その後、計算タイル３０２－２は、Ａ_０１及びＢ_１０を受信し、計算タイル３０２－１は、Ａ_０１及びＢ_１１を受信し、計算タイル３０２－３は、Ａ_０１及びＢ_１２を受信し、計算タイル３０２－６は、Ａ_０１及びＢ_１３を受信する。各計算タイル３０２は、行列乗算演算を実行することが可能である。各計算タイル３０２は、２つの行列乗算演算の結果を合計し、その合計を出力することが可能である。

【0119】

図１０Ｃは、オーバーレイ及び対応するデータ移動のモードの別の例示的な実装形態を例解する。図１０Ｃの例では、例解されたオーバーレイは、多数の重みのブロードキャストによって特徴付けられている。第１の重みは、１つのストリームチャネルを介して２つの異なる計算タイルにブロードキャストされている。第２の重みは、１つのストリームチャネルを介して２つの異なる計算タイルにブロードキャストされている。第１のストリームチャネルは、計算タイル３０２－２及び３０２－３に重みＢ_００をブロードキャストし、一方、第２、かつ異なるストリームチャネルは、計算タイル３０２－１及び３０２－６に重みＢ_１０を併行してブロードキャストする。この例では、２つの計算タイル３０２が使用されて、２つの行列乗算演算及び合計を実行し、それにより、より高速な演算（より高いスループット）を有するより多数の計算タイルの使用をもたらす。

【0120】

図１０Ｃの例では、計算タイル３０２－２は、Ａ_００×Ｂ_００の行列乗算演算を実行する。結果は、カスケード接続を介して計算タイル３０２－１に渡される。計算タイル３０２－１は、Ａ_０１及びＢ_１０の行列乗算演算を実行する。計算タイル３０２－１は、２つの行列乗算結果を合計し、結果として生じる合計を出力する。計算タイル３０２－３は、Ａ_１０×Ｂ_００の行列乗算演算を実行する。結果は、カスケード接続を介して計算タイル３０２－６に渡される。計算タイル３０２－６は、Ａ_１１及びＢ_１０の行列乗算演算を実行する。計算タイル３０２－６は、２つの行列乗算結果を合計し、結果として生じる合計を出力する。

【0121】

図１０Ａ、図１０Ｂ、及び図１０Ｃの例は、異なるオーバーレイが、ＤＰアレイ１０２のパーティション内に実現された所与のアプリケーションのためのデータ移動の異なるモードをどのように実現し得るかを例解する。例えば、図１０Ａ及び図１０Ｂの例では、計算タイルは各々、結果として生じるＣ行列の要素を生成する。図１０Ｃの例では、２つの計算タイルが、結果として生じるＣ行列の１つの要素を計算するために使用される。図１０Ｃの例は、アレイＣの４つの要素を生成するために、図１０Ａ及び図１０Ｂの例の２倍の数の計算タイルを必要とするが、より大きなデータスループット（例えば、行列Ｃの要素がより少ないクロックサイクルで計算され得るという点でより大きな計算速度）を提供する。各異なるオーバーレイは、特定の形状を有するレイヤを実現するのに適し得る。

【0122】

図１１は、ＤＰアレイ１０２のパーティションのためのアプリケーションを設定するために使用される例示的なオーバーレイの属性を例解する表１１００である。図１１の例では、各オーバーレイ０、１、及び２は、ＤＰアレイ１０２内の、又はＤＰアレイ１０２のパーティション内のデータ移動の特定のモードを実現する。各オーバーレイは、示されたパラメータに基づいてデータ移動のモードを指定する。

【0123】

本例では、「カスケード」列は、オーバーレイがカスケード接続を利用するかどうかを示す。「ＩＦＭストリーム」列（「ＩＦＭ」は「入力特徴マップ」を表す）は、アプリケーションによって作成されたストリームチャネルを介して、オーバーレイを実現する特定の計算タイル３０２に送信される異なる特徴マップの数を指定する。特徴マップは、同時に送信され得る。「Ｗストリーム」列は、オーバーレイを実現する特定の計算タイル３０２へのアプリケーションによって作成されたストリームチャネルを介して提供される、異なる重みの数を指定する。重みは、同時に送信され得る。

【0124】

したがって、図１１の例では、オーバーレイ０は、モード０と称されるデータ移動のモードを実現する。モード０において、「ＩＦＭストリーム」パラメータの４は、４つの異なる特徴マップがストリームチャネルを介して伝達されることを示す。「Ｗストリーム」パラメータの２は、２つの異なる重みがストリームチャネルを介して伝達されることを示す。モード０は、カスケードパラメータによって示されるように、非カスケードモードである。

【0125】

図１１の例では、オーバーレイ１は、モード１と称されるデータ移動のモードを実現する。モード１において、「ＩＦＭストリーム」パラメータの２は、２つの異なる特徴マップがストリームチャネルを介して伝達されることを示す。「Ｗストリーム」パラメータの４は、４つの異なる重みがストリームチャネルを介して伝達されることを示す。モード１は、カスケードパラメータによって示されるように、非カスケードモードである。

【0126】

図１１の例では、オーバーレイ２は、モード２と称されるデータ移動のモードを実現する。モード２において、「ＩＦＭストリーム」パラメータの４は、４つの異なる特徴マップがストリームチャネルを介して伝達されることを示す。「Ｗストリーム」パラメータの４は、４つの異なる重みがストリームチャネルを介して伝達されることを示す。モード２は、カスケードパラメータによって示されるように、カスケードモードである。

【0127】

図１２Ａは、アプリケーションによって実現されるストリームチャネルの例と、ストリームチャネルを使用するオーバーレイ０の実装形態とを例解する。図１２Ａの例では、特徴マップ及び重みを計算タイル３０２に伝達するために使用される異なるストリームチャネルが、ストリームチャネル０、１、２、３、４、５、６、及び７として描写されている。本例では、ストリームチャネルが、データを計算タイル３０２に提供しているので、ストリームチャネルは「入力」ストリームチャネルとみなされる。ストリームチャネル０～７は、特徴マップ及び重みをそれぞれの計算タイル３０２に伝達する。実現されている特定のオーバーレイは、どのストリームチャネルがどの特定の重みを伝達し、どのストリームチャネルがどの特定の特徴マップを伝達するかを定義する。

【0128】

例解及び便宜の目的で、図１２Ａ、図１２Ｂ、及び図１２Ｃでは、タイルは再付番されている。更に、ＤＰアレイ１０２又はそのパーティションは、この例では８つの計算タイルと２つのメモリタイルとを含む。

【0129】

図１２Ａの例では、異なるデータ項目（例えば、特徴マップ及び／又は重み）は、メモリタイル３０６内に位置する異なるバッファから様々なストリームチャネルにデータ項目を供給することによって、様々なストリームチャネル０～７を介して提供され得る。すなわち、特定のバッファを特定のストリームチャネルに接続することによって、ストリームチャネルは、そのバッファに含まれるデータ項目のタイプを伝達する。考察されるように、メモリタイル３０６が省略される場合、データは、オンチップメモリであろうとオフチップメモリであろうと、他のメモリに記憶された他のバッファからストリームチャネル０～７に供給され得る。

【0130】

図１２Ａの例では、４つの異なる特徴マップが、２つの異なる重みとともに伝達されている。４つの異なるストリームチャネルの各々は、異なる特徴マップ（Ｆ０、Ｆ１、Ｆ２、及びＦ３）を伝達する。メモリタイル３０６－１のＲＡＭ５０４は、バッファＢ０、Ｂ１、及びＢ２を含む。メモリタイル３０６－２のＲＡＭ５０４は、バッファＢ３、Ｂ４、及びＢ５を含む。バッファＢ０は、特徴マップＦ０を記憶する。バッファＢ１は、特徴マップＦ１を記憶する。バッファＢ２は、重みＷ０を記憶する。バッファＢ３は、重みＷ１を記憶する。バッファＢ４は、特徴マップＦ２を記憶する。バッファＢ５は、特徴マップＦ３を記憶する。

【0131】

図１２Ａの例では、バッファ０は、ストリームチャネル０に供給する。ストリームチャネル０は、特徴マップＦ０を計算タイル３０２－１及び３０２－２の各々に伝達するように構成されている。バッファ１は、ストリームチャネル１に供給する。ストリームチャネル１は、特徴マップＦ１を計算タイル３０２－３及び３０２－４の各々にブロードキャストするように構成されている。ストリームチャネル２は、バッファＢ２からデータが供給される。ストリームチャネル２は、重みＷ０を計算タイル３０２－１及び３０２－６の各々にブロードキャストするように構成されている。ストリームチャネル３は、バッファＢ２からデータが供給される。ストリームチャネル３は、重みＷ０を計算タイル３０２－３及び３０２－８の各々にブロードキャストするように構成されている。ストリームチャネル４は、バッファＢ３からデータが供給される。ストリームチャネル４は、重みＷ１を計算タイル３０２－２及び３０２－５の各々に伝達するように構成されている。ストリームチャネル５は、バッファＢ３からデータが供給される。ストリームチャネル５は、重みＷ１を計算タイル３０２－４及び３０２－７の各々にブロードキャストするように構成されている。ストリームチャネル６は、バッファＢ４からデータが供給される。ストリームチャネル６は、特徴マップＦ２を計算タイル３０２－６及び３０２－５の各々に伝達するように構成されている。ストリームチャネル７は、バッファＢ５からデータが供給される。ストリームチャネル７は、特徴マップＦ３を計算タイル３０２－８及び３０２－７の各々に伝達するように構成されている。

【0132】

図１２Ａの例では、各ストリームチャネルに提供される特定のデータ項目、例えば、特定の特徴マップ及び／又は重みは、メモリタイル３０６の設定、より具体的には、各それぞれのストリームチャネルにデータを供給するために使用されるメモリ内の特定のバッファ（Ｂ０、Ｂ１、Ｂ２、Ｂ３、Ｂ４、及びＢ５）に依存する。オーバーレイは、それぞれのタイル（例えば、この例ではメモリタイル３０６及び計算タイル３０２）内のＤＭＡ回路を設定することによって、バッファからストリームチャネルへのペアリングを指示する。

【0133】

オーバーレイ０は、メモリタイル３０６のＤＭＡ回路を、特定のバッファからストリームチャネルへのマッピングを用いてプログラムするアレイコントローラ１０６によって、ＤＰアレイ１０２のパーティション内に実現され得る。別の態様では、データがメモリタイル３０６以外のメモリから得られる場合、データを計算タイル３０２に提供するために他のメモリにアクセスするインターフェースタイル３０４などの他のタイルのＤＭＡ回路が、特定のバッファからストリームチャネルへのマッピングを用いてプログラムされ得る。アレイコントローラ１０６は、例えば、データを適切なＤＭＡ回路に書き込んで、示されたストリームチャネルへのバッファのマッピングを作成することによって、図１２Ａのオーバーレイ０を実現する。更に、バッファＢ０～Ｂ５は、アプリケーションのレイヤ（例えば、オーバーレイ）を実現するためにそのようなデータを移動させるように、インターフェースタイル３０４及び／又はメモリタイル３０６のＤＭＡ回路をプログラムするアレイコントローラ１０６によって、他のメモリからメモリタイル３０６に移動され得る。

【0134】

各計算タイル３０２のそれぞれのプロセッサ４２０において実行される特定のカーネル及び／又はその関数は、異なるストリームチャネルを介して受信されたデータを正しく処理するために必要な実行可能命令を提供する。ストリームチャネルを介して提供されるデータは、１つのオーバーレイから別のオーバーレイに変化し得るが、実現される各オーバーレイのそれぞれの計算タイルに適切なランタイムパラメータ２１２を提供することによって、そのようなカーネルの設定に基づいて、様々な計算タイル３０２において実行される特定のカーネル及び／又は関数も変化し得る。各計算タイル３０２に提供されるランタイムパラメータ２１２は、その中のプロセッサ４２０によって実行されるカーネルが、使用される対応するオーバーレイに基づいて実現されている特定のレイヤに対する任意の計算を実行する際に、受信されたデータを正しく解釈し適用することを確実にする。

【0135】

１つ以上の他の例示的な実装形態では、各オーバーレイは、それぞれの計算タイルにおいて実行されるカーネルを選択し得、ランタイムパラメータ２１２は、そのようなカーネルを設定し得る。

【0136】

図１２Ａの例では、各計算タイル３０２は、図１３において例解される出力ストリームチャネルを介して結果を出力する。計算タイル３０２のうちの１つ以上はまた、非カスケードカーネルの実行に続いてアクティブ化カーネルを実行するように構成され得る。

【0137】

図１２Ｂは、アプリケーションによって実現されるストリームチャネルの例と、ストリームチャネルを使用するオーバーレイ１の実装形態とを例解する。図１２Ｂにおいて例解されるストリームチャネルは、入力ストリームチャネルである。図１２Ｂの例では、ストリームチャネル０～７は、図１２Ａに関連して説明したものと同じである。すなわち、図１２Ａ及び図１２Ｂは、同じアプリケーションによって実現されるストリームチャネルを例解し、異なるオーバーレイが実現されるときに適所に留まり得る。したがって、図１２Ｂの例では、各ストリームチャネル０～７は、図１２Ａの例におけるものと同じ計算タイル３０２にデータを提供する。

【0138】

図１２Ｂの例では、異なるデータ項目（例えば、特徴マップ及び／又は重み）は、メモリタイル３０６内に位置する異なるバッファから様々なストリームチャネルにデータ項目を供給することによって、様々なストリームチャネル０～７を介して提供され得る。すなわち、特定のバッファを特定のストリームチャネルに接続することによって、ストリームチャネルは、そのバッファに含まれるデータ項目のタイプを伝達する。考察されるように、メモリタイル３０６が省略される場合、データは、オンチップメモリであろうとオフチップメモリであろうと、他のメモリに記憶された他のバッファからストリームチャネル０～７に供給され得る。

【0139】

図１２Ｂの例では、２つの異なる特徴マップが、４つの異なる重みとともに伝達されている。メモリタイル３０６－１のＲＡＭ５０４は、バッファＢ０、Ｂ１、及びＢ２を含む。メモリタイル３０６－２のＲＡＭ５０４は、バッファＢ３、Ｂ４、及びＢ５を含む。バッファＢ０は、特徴マップＦ０を記憶する。バッファＢ１は、重みＷ０を記憶する。バッファＢ２は、重みＷ１を記憶する。バッファＢ３は、重みＷ２を記憶する。バッファＢ４は、重みＷ３を記憶する。バッファＢ５は、特徴マップＦ１を記憶する。

【0140】

図１２Ｂの例では、４つのストリームチャネルが、特徴マップを伝達するために使用されている。４つのストリームチャネルのうちの２つの第１のペアは、同じ特徴マップ（例えば、Ｆ０）を伝達する。４つのストリームチャネルのうちの２つの第２のペアは、同じ特徴マップ（例えば、Ｆ１）を伝達するが、第１のペアのストリームチャネルによって伝達される特徴マップとは異なる特徴マップを伝達する。４つのストリームチャネルは、４つの異なる重みを伝達するために使用される。

【0141】

図１２Ｂの例では、バッファ０は、ストリームチャネル０及び１に供給する。ストリームチャネル０及び１が同じバッファからデータを供給されると、各々が、同じデータを伝達し、この場合は特徴マップＦ０である。ストリームチャネル０は、特徴マップＦ０を計算タイル３０２－１及び３０２－２の各々にブロードキャストするように構成されている。ストリームチャネル１は、特徴マップＦ０を計算タイル３０２－３及び３０２－４の各々にブロードキャストするように構成されている。ストリームチャネル２は、バッファＢ１からデータが供給される。ストリームチャネル２は、重みＷ０を計算タイル３０２－１及び３０２－６の各々にブロードキャストするように構成されている。ストリームチャネル３は、バッファＢ２からデータが供給される。ストリームチャネル３は、重みＷ１を計算タイル３０２－３及び３０２－８の各々にブロードキャストするように構成されている。ストリームチャネル４は、バッファＢ３からデータが供給される。ストリームチャネル４は、重みＷ２を計算タイル３０２－２及び３０２－５の各々にブロードキャストするように構成されている。ストリームチャネル５は、バッファＢ４からデータが供給される。ストリームチャネル５は、重みＷ３を計算タイル３０２－４及び３０２－７の各々にブロードキャストするように構成されている。ストリームチャネル６及びストリームチャネル７は、同じバッファＢ５からデータが供給される。ストリームチャネル６は、特徴マップＦ１を計算タイル３０２－６及び３０２－５の各々にブロードキャストするように構成されている。ストリームチャネル７は、特徴マップＦ１を計算タイル３０２－８及び３０２－７の各々にブロードキャストするように構成されている。

【0142】

図１２Ｂの例では、特徴マップＦ０及びＦ１並びに重みＷ０、Ｗ１、Ｗ２、及びＷ３が、メモリタイル３０６から計算タイル３０２に提供される。各ストリームチャネルに提供される特定のデータ項目、例えば、特定の特徴マップ及び／又は重みは、メモリタイル３０６の設定、より具体的には、各それぞれのストリームチャネルにデータを供給するために使用されるメモリ内の特定のバッファ（Ｂ０、Ｂ１、Ｂ２、Ｂ３、Ｂ４、及びＢ５）に依存する。オーバーレイは、それぞれのタイル（例えば、この例ではメモリタイル３０６）内のＤＭＡ回路を設定することによって、バッファからストリームチャネルへのペアリングを指示する。

【0143】

オーバーレイ１は、メモリタイル３０６のＤＭＡ回路を、特定のバッファからストリームチャネルへのマッピングを用いてプログラムするアレイコントローラ１０６によって、ＤＰアレイ１０２のパーティション内に実現され得る。別の態様では、データがメモリタイル３０６以外のメモリから得られる場合、データを計算タイル３０２に提供するために他のメモリにアクセスするインターフェースタイル３０４などの他のタイルのＤＭＡ回路が、特定のバッファからストリームチャネルへのマッピングを用いてプログラムされ得る。アレイコントローラ１０６は、例えば、データを適切なＤＭＡ回路に書き込んで、示されたストリームチャネルへのバッファのマッピングを作成し、例解されるようにメモリタイル３０６内にバッファを作成するためにデータを移動させることによって、図１０Ｂのオーバーレイ１を実現する。

【0144】

【0145】

【0146】

図１２Ｂの例では、各計算タイル３０２は、図１３において例解される出力ストリームチャネルを介して結果を出力する。計算タイル３０２のうちの１つ以上はまた、非カスケードカーネルの実行に続いてアクティブ化カーネルを実行するように構成され得る。

【0147】

図１２Ｃは、アプリケーションによって実現されるストリームチャネルの例と、ストリームチャネルを使用するオーバーレイ２の実装形態と、を例解する。図１２Ｃにおいて例解されるストリームチャネルは、入力ストリームチャネルである。図１２Ｃの例では、ストリームチャネル０～７は、図１２Ａ及び図１２Ｂに関連して説明したものと同じである。すなわち、図１２Ａ、図１２Ｂ、及び図１２Ｃは、同じアプリケーションによって実現されるストリームチャネルを例解し、異なるオーバーレイが実現されるときに適所に留まり得る。したがって、図１２Ｃの例では、各ストリームチャネル０～７は、図１２Ｂの例におけるものと同じ計算タイル３０２にデータを提供する。

【0148】

図１２Ｃの例では、４つの異なる特徴マップが、４つの異なる重みとともに伝達されている。メモリタイル３０６－１のＲＡＭ５０４は、バッファＢ０、Ｂ１、Ｂ２、及びＢ３を含む。メモリタイル３０６－２のＲＡＭ５０４は、バッファＢ４、Ｂ５、Ｂ６、及びＢ７を含む。バッファＢ０は、特徴マップＦ０を記憶する。バッファＢ１は、特徴マップＦ１を記憶する。バッファＢ２は、重みＷ０を記憶する。バッファＢ３は、重みＷ１を記憶する。バッファＢ４は、重みＷ２を記憶する。バッファＢ５は、重みＷ３を記憶する。バッファＢ６は、特徴マップＦ２を記憶する。バッファＢ７は、特徴マップＦ３を記憶する。

【0149】

上で述べられるように、オーバーレイ２は、カスケードモードを実現するカスケードオーバーレイである。図１２Ｃの例では、計算タイル３０２の選択されたプロセッサ４２０は、カスケード接続を使用して接続され、例えば、通信するように構成されている。カスケードモードでは、カスケード接続、例えば、カスケード接続のうちの少なくとも選択されたもの、が有効化される。すなわち、カスケード接続のうちの有効化されたものは、データを渡すことができる。図１２Ｃの例は、垂直カスケード接続（例えば、同じ列内のプロセッサ間のカスケード接続）を利用するが、カスケード接続は、実現される特定のＤＰアレイアーキテクチャ及びオーバーレイに従って、水平に（行方向に）及び／又は垂直に（列方向に）走り得ることを理解されたい。

【0150】

カスケード接続が有効化される例は、ランタイムパラメータ２１２によって、出力のカスケード接続にデータを書き込むように設定されたカーネル及び／又は関数と、ランタイムパラメータ２１２によって、入力のカスケード接続からデータを読み取るように構成された同じカスケード接続に結合された別のプロセッサ４２０内の別のカーネル及び／又は関数と、を実行する、計算タイル３０２のプロセッサ４２０によるものである。図１２Ｃの例では、カスケード接続された計算タイルの対は、計算タイル（３０２－１及び３０２－３）、（３０２－２及び３０２－４）、（３０２－５及び３０２－７）、並びに（３０２－６及び３０２－８）である。

【0151】

図１２Ｃの例では、アプリケーションのためのオーバーレイ２を実現するように構成されており、ストリームチャネル０～７の各々は、メモリタイル３０６に記憶された異なるバッファからデータを供給されている。図１２Ｃの例では、ストリームチャネル０～７の各々は、バッファＢ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、及びＢ７のそれぞれ１つからデータを供給されている。図１２Ｃの例では、４つのストリームチャネルが４つの異なる特徴マップを伝達するために使用され、４つのストリームチャネルが４つの異なる重みを伝達するために使用されている。

【0152】

その結果、ストリームチャネル０は、特徴マップＦ０を計算タイル３０２－１及び３０２－２の各々にブロードキャストするように構成されている。ストリームチャネル１は、特徴マップＦ１を計算タイル３０２－３及び３０２－４の各々にブロードキャストするように構成されている。ストリームチャネル２は、重みＷ０を計算タイル３０２－１及び３０２－６の各々にブロードキャストするように構成されている。ストリームチャネル３は、重みＷ１を計算タイル３０２－３及び３０２－８の各々にブロードキャストするように構成されている。ストリームチャネル４は、重みＷ２を計算タイル３０２－２及び３０２－５の各々にブロードキャストするように構成されている。ストリームチャネル５は、重みＷ３を計算タイル３０２－４及び３０２－７の各々にブロードキャストするように構成されている。ストリームチャネル６は、特徴マップＦ２を計算タイル３０２－５及び３０２－６の各々にブロードキャストするように構成されている。ストリームチャネル７は、特徴マップＦ３を計算タイル３０２－７及び３０２－８の各々にブロードキャストするように構成されている。

【0153】

オーバーレイ２は、メモリタイル３０６のＤＭＡ回路を、特定のバッファからストリームチャネルへのマッピングを用いてプログラムするアレイコントローラ１０６によって、ＤＰアレイ１０２のパーティション内に実現され得る。別の態様では、データがメモリタイル３０６以外のメモリから得られる場合、データを計算タイル３０２に提供するために他のメモリにアクセスするインターフェースタイル３０４などの他のタイルのＤＭＡ回路が、特定のバッファからストリームチャネルへのマッピングを用いてプログラムされ得る。アレイコントローラ１０６は、例えば、ストリームチャネルへのバッファのマッピングを作成するために適切なＤＭＡ回路にデータを書き込むことによって、図１２Ｃのオーバーレイ２を実現し、図１２Ｃの例に例解されたバッファを作成する。

【0154】

【0155】

【0156】

図１２Ａ、図１２Ｂ、及び図１２Ｃの例は、オーバーレイをＤＰアレイのパーティションにロードすることによって、異なるデータが、パーティションのタイル全体に分散され、それによって、タイル間のデータ移動の異なるモードが達成され得ることを例解する。データ移動の異なるモードは、少なくとも、確立されたストリームチャネルのうちの異なるものを通して異なる重み及び／又は特徴マップを送信することのおかげで達成され得る。これは、データ移動の異なるモードが同じアプリケーションに対して実現されることを可能にする。すなわち、計算タイル及び特定のストリームチャネルによって実行されるカーネルを指定する所与のアプリケーションについて、ＤＰアレイ１０２を再設定することなく、異なるモードが実現され得る。

【0157】

図１３は、アプリケーションによって実現されるストリームチャネルの別の例を例解する。図１３の例は、アプリケーションのための出力ストリームチャネルを例解する。すなわち、図１３に例解されるストリームチャネルは、図１２Ａ、図１２Ｂ、及び図１２Ｃにおいて参照される同じアプリケーションによって実現されて、説明された異なるオーバーレイについて例解されたパーティションの計算タイル３０２からデータを出力し得る。

【0158】

図１３の例では、ストリームチャネル（例えば、出力ストリームチャネル）０、１、２、３、及び４が実現されている。出力ストリームチャネルは、先で説明される入力ストリームチャネルと同様に、パーティションに含まれる様々なタイルのストリームスイッチを設定することによって実現され得る。本例では、ストリームチャネル０は、計算タイル３０２－１及び３０２－２によって生成された出力データ項目（例えば、Ｃ）を、メモリタイル３０６－１（又は考察されるような他のメモリ）に伝達する。ストリームチャネル１は、計算タイル３０２－３及び３０２－４によって生成された出力データ項目をメモリタイル３０６－１に伝達する。ストリームチャネル２は、計算タイル３０２－５及び３０２－６によって生成された出力データ項目をメモリタイル３０６－２に伝達する。ストリームチャネル３は、計算タイル３０２－７及び３０２－８によって生成された出力データ項目をメモリタイル３０６－２に伝達する。

【0159】

カスケードオーバーレイが使用される場合、カスケード接続された計算タイル３０２のセットの端部（例えば、宛先タイル）に位置するストリームチャネルが、使用され得る。例えば、破線で示されたストリームチャネル（０及び３）は、使用されない。それよりも、ストリームチャネル１及び２が、計算タイル３０２－３、３０２－４、３０２－７、及び３０２－８によって生成された出力データ項目をメモリタイル３０６－１及び３０６－２に伝達するために使用される。

【0160】

１つ以上の他の例示的な実装形態では、図１３に例解される計算タイル３０２内で実行されるカーネルは、出力データ項目がどこに向けられるか、又は書き込まれるかを指示するためにランタイムパラメータを使用して設定され得る。カーネルは、ランタイムパラメータによって、各オーバーレイに対して適切なアドレス（例えば、特定のストリームスイッチ又は出力のカスケードインターフェース）にデータを書き込むように構成され得る。例えば、非カスケードオーバーレイを実現している間、計算タイル３０２－１によって実行されるカーネルは、出力を出力ストリームチャネル０に向ける。計算タイル３０２－３によって実行されるカーネルは、出力を出力ストリームチャネル１に向ける。比較として、カスケードオーバーレイを実現するとき、計算タイル３０２－１によって実行されるカーネルは、カスケード接続を介して、計算タイル３０２－３に出力を向ける。計算タイル３０２－３によって実行されるカーネルは、出力を出力ストリームチャネル１に向ける。

【0161】

この開示内では、異なるオーバーレイが説明されている。２つを超える計算タイル３０２をリンクするために１つを超えるカスケード接続を使用する他のオーバーレイが実現され得ることを理解されたい。すなわち、本明細書に例解されるカスケードモードは、２つの計算タイル３０２のコンピューティングクラスタを使用して作成されるが、他の構成では、カスケード接続によってリンクされた３つ、４つ、又はそれを超える計算タイル３０２のコンピューティングクラスタが形成され得る。更に、ＤＰアレイ１０２のパーティションは、アプリケーションをロードし、実行されているアプリケーションの異なるレイヤに対応するオーバーレイを経時的に順次ロードすることによって設定され得る。これにより、パーティションは、レイヤのサイズがパーティションよりも大きい場合に、アプリケーションの所与のレイヤのワークロードを全体又は部分的に反復的な様態で実行することが可能になる。パーティションによって実行される任意の行列乗算演算の次元は、例解されたものから、特に１つのワークロード（例えば、オーバーレイ／モード）から別のワークロードに変化し得ることを理解されたい。

【0162】

図１４は、図１のシステム１００の特定の動作特徴を例解する方法１４００の例を例解する。例解の目的で、アレイコントローラ１０６は、方法１４００に関連して説明した動作を実行することが可能である。他の例示的な実装形態では、プロセッサが、アレイコントローラ１０６に起因する動作を実行し得ることを理解されたい。更に、他の例示的な実装形態では、プロセッサは、ＤＰアレイ１０２の動作を制御するために、アレイコントローラ１０６に命令を提供することが可能である。

【0163】

図１４の例では、ＤＰアレイ１０２のパーティションが参照される。考察されるように、パーティションは、ＤＰアレイ１０２の全体、又はＤＰアレイ１０２のタイルのサブセットを包含し得る。方法１４００は、いずれかのタイプのパーティションに対して実行され得る。更に、アレイコントローラは、同時に動作する多数のパーティションについて図１４の動作を実行し得る。他の例示的な実装形態では、図１４に関連して説明される動作は、各々が異なるアプリケーションを実行する異なるパーティションを制御するために同時に動作する２つ以上の異なるアレイコントローラによって実行され得る。各パーティションは、パーティションが同じアレイコントローラの制御下にあるか、又は異なるアレイコントローラの制御下にあるかにかかわらず、他とは独立して動作し得る。

【0164】

ブロック１４０２において、アレイコントローラ１０６は、アプリケーションをＤＰアレイ１０２のパーティションにロードする。ＤＰアレイ１０２は、プロセッサを各々有する複数の計算タイルを含む。アプリケーションは、プロセッサによって実行可能なカーネルを指定し、データを複数の計算タイルに伝達するストリームチャネル（例えば、入力ストリームチャネル）を実現する。アプリケーションはまた、出力ストリームチャネルを実現する。

【0165】

例えば、アプリケーションをＤＰアレイ１０２にロードすることは、ＤＰアレイ１０２のパーティションの初期設定を実行する。ブロック１４０２を実行する際、アレイコントローラ１０６は、実行可能なカーネルをパーティションの計算タイル３０２のプログラムメモリ４２２にロードし、パーティションの任意のメモリ（例えば、計算タイル３０２のＲＡＭ４０４及び／又はメモリタイル３０６のＲＡＭ５０４）を初期化し、設定データを制御レジスタ４１４、５１４、及び／又は６１４にロードすることによってストリームチャネルを実現することが可能である。初期化データ及び設定データを含むアプリケーションのロードは、タイルのメモリマップドスイッチから形成されるメモリマップドネットワークを介してそのようなデータを書き込むアレイコントローラ１０６によって実行され得る。

【0166】

ブロック１４０４において、アレイコントローラ１０６は、ＤＰアレイ１０２のパーティションによって実行されるアプリケーションのレイヤに対応するオーバーレイをロードすることが可能である。

【0167】

一態様では、各オーバーレイは、アプリケーションによって実現されるストリームチャネルへのバッファの異なるマッピングを指定する。各バッファは、特定のデータタイプ（例えば、特徴マップ又は重み）を含み得る。更に、各バッファは、データタイプの特定の要素を含み得る。１つ以上の例では、複数のオーバーレイのうちの選択されたオーバーレイを実現することは、ストリームチャネルのうちの選択されたものを介して特定のバッファから計算タイルのうちの選択されたものにデータを伝達するように複数のＤＭＡ回路をプログラムするアレイコントローラ１０６によって実行される。

【0168】

別の態様では、各オーバーレイのデータ移動のモードは、ストリームチャネルを介して伝達される入力特徴マップの数及び重みの数によって特徴付けられている。

【0169】

一態様では、複数のオーバーレイを順次実現することは、各オーバーレイに対して、ストリームチャネルへのバッファの異なるマッピングを用いて複数のＤＭＡ回路をプログラムすることを含む。一例として、選択されたオーバーレイは、ストリームチャネルのうちの選択されたものを介して特定のバッファから計算タイルのうちの選択されたものにデータを伝達するように複数のＤＭＡ回路をプログラムすることによって、アプリケーションのためのパーティション内に実現され得る。

【0170】

別の態様では、複数のオーバーレイを順次実現することは、ストリームチャネルにマッピングされる様々なバッファをセットアップすることを含む。アレイコントローラ１０６は、インターフェースタイル３０４及び／又はメモリタイル３０６のＤＭＡ回路をプログラムすることによって、例えば、正しいデータを含むようにストリームチャネルにマッピングされた様々なバッファを作成するために、データを移動させることが可能である。

【0171】

一態様では、アプリケーションは、ニューラルネットワークを実現する。ニューラルネットワークの各レイヤは、複数のオーバーレイのうちの１つにマッピングされている。複数のオーバーレイのうちの異なるオーバーレイは、経時的にロードされて、ニューラルネットワークのそれぞれのレイヤを実現する。

【0172】

一例では、アレイコントローラ１０６は、メモリに記憶されたスケジュールを指定する制御アプリケーションを実行することが可能である。スケジュールは、パーティションに実現されたアプリケーションによって実行されるワークロードを指定する。ワークロードは、コンパイラ２０４によって生成され得る。スケジュールは、アプリケーションが一連のワークロードを実行するために（例えば、アプリケーションのレイヤを実現し、各レイヤのワークロードを実行するために）、ロードされる一連のオーバーレイの一部としてどのオーバーレイがロードされるかを指定し得る。別の態様では、ホストプロセッサなどの別のプロセッサが、ＤＰアレイ１０２のパーティション内の特定のオーバーレイのローディングを開始するようにアレイコントローラ１０６に命令し得る。その場合、他のプロセッサは、アレイコントローラ１０６によってＤＰアレイ１０２に実現されるべきオーバーレイのスケジュール又はシーケンスを指示する。

【0173】

ブロック１４０６において、アレイコントローラ１０６は、ランタイムパラメータを、ブロック１４０４においてロードされたオーバーレイのパーティションにロードする。アプリケーションの各レイヤは、ランタイムパラメータのセットに関連付けられ得る。ランタイムパラメータは、計算タイル固有であり得る。ランタイムパラメータは、実行のために様々なカーネルを設定する。したがって、ブロック１４０６において、アレイコントローラ１０６は、ブロック１４０４においてパーティションにロードされたオーバーレイによって実現されているレイヤのためのランタイムパラメータを選択し、ランタイムパラメータを計算タイル３０２のＲＡＭ４０４にロードする。ロードされているランタイムパラメータは、ＤＰアレイ１０２のパーティションの１つ以上の選択された計算タイル又は全ての計算タイルのためのものであり得る。

【0174】

一態様では、アレイコントローラ１０６は、複数のオーバーレイのうちの選択されたオーバーレイに対して、複数の計算タイルのうちの選択された計算タイルに、ランタイムパラメータを提供することが可能である。ランタイムパラメータは、選択された計算タイルによって実行されるカーネルの演算パラメータを設定する。例えば、ランタイムパラメータは、選択された計算タイルのプロセッサによって、その中に記憶されたカーネルを実行する際に使用されて、選択された計算タイルの演算特徴を変更する。しかしながら、ロードされるランタイムパラメータは、ＤＰアレイ１０２のパーティションの１つ以上の選択された計算タイル又は全ての計算タイルに対するものであり得ることを理解されたい。

【0175】

一態様では、選択された計算タイルに対するランタイムパラメータは、選択された計算タイルによって実行されるカーネルの実行フローを変更することが可能である。例えば、カーネルは、ランタイムパラメータから値を読み取り、読み取られた値に基づいて、特定の関数を選択的に実行する（例えば、特定の関数を実行する、及び／又は特定の関数の実行をスキップする）ように構成され得る。したがって、異なるランタイムパラメータが、異なるレイヤのランタイム中にＤＰアレイのパーティションにロードされると、アプリケーションのカーネルの関数及び／又はランタイム挙動が修正され得る。

【0176】

これは、各カーネルが、実現されている異なるレイヤに対して読み取られた特定のランタイムパラメータ値に基づいて、かつ各レイヤに対して使用されるオーバーレイに従って、異なる演算を実行することを可能にする。例えば、アプリケーションの異なるレイヤは、行列乗算、畳み込み、バッチ正規化、ＲｅＬＵ、他のアクティブ化関数、又は他の演算などの異なる関数を利用し得る。オーバーレイのためにロードされたランタイムパラメータは、カーネル又は異なるカーネルにおいて利用可能な関数のうちのどれが、所与のオーバーレイのために計算タイルごとのベースで実行されるべきかを指定し得る。ランタイムパラメータは、カーネルに、例えば、アクティブ化関数を実行させ得るか、又はランタイムパラメータの値に依存しない場合がある。

【0177】

したがって、各カーネルによって実行される特定の関数は、計算タイルにロードされたランタイムパラメータに依存し得、ロードされた特定のランタイムパラメータに基づいて１つのレイヤから別のレイヤに変化し得る。したがって、例解の目的で、カスケード接続構成内の最後の計算タイル３０２は、アクティブ化関数を実行するように命令され得るが、カスケード接続構成内の他の計算タイル３０２は、アクティブ化関数を実行しない場合がある。

【0178】

１つ以上の例では、ランタイムパラメータは、選択された計算タイルと複数の計算タイルのうちの少なくとも１つの他の計算タイルとの間のカスケード接続をアクティブ化又は非アクティブ化することが可能である。例えば、ランタイムパラメータは、選択された計算タイルのプロセッサに、出力のカスケード接続に書き込むことによって別の計算タイルにデータを提供させ得るか、又は入力のカスケード接続から読み取ることによって別の計算タイルからデータを受信させ得る。

【0179】

一例では、オーバーレイは、アプリケーションの特定のレイヤに対応する。その場合、各レイヤについて、ランタイムパラメータは、そのレイヤのパーティションにロードされたオーバーレイを使用して実現される特定のレイヤの１つ以上の次元を指定する。例えば、ランタイムパラメータは、処理されるべき行列の行の数又は処理されるべき行列の列の数のうちの少なくとも１つを指定し得る。

【0180】

１つ以上の例示的な実装形態では、ランタイムパラメータは、カーネルに、ＤＰアレイ１０２内の特定の場所（例えば、メモリ）からの読み取り及び／又はそれへの書き込みを行わせ得る。例えば、ランタイムパラメータは、カーネルに、ローカルＲＡＭ４０４、隣接する計算ユニットの特定のＲＡＭ４０４、及び／又は特定のメモリタイル３０６のＲＡＭ５０４からの読み取り及び／又はそれらへの書き込みを行わせ得る。

【0181】

別の態様では、ランタイムパラメータは、それぞれの計算タイル内で実行されるべき計算タイル内の複数のカーネルのうちの特定のカーネルを指定又は選択し得る。他の態様では、オーバーレイは、それぞれのカーネルを設定するランタイムパラメータを用いて実行されるべきカーネルを指定し得る。

【0182】

ブロック１４０８において、ＤＰアレイ１０２のパーティションは、アプリケーションによって、かつオーバーレイ及びランタイムパラメータに基づいて設定されたワークロードを実行する。ワークロードを完了したことに応答して、方法１４００は、ブロック１４０４にループバックし得、アレイコントローラ１０６は、アプリケーションの異なるレイヤのために新たにプロセスを開始することが可能である。

【0183】

例えば、一態様では、アレイコントローラ１０６は、アプリケーションの次のレイヤを実現する際に、そのレイヤのためのＤＰアレイ１０２のパーティションに異なるオーバーレイをロードする。その場合、アレイコントローラ１０６は、継続し、異なるオーバーレイのためのランタイムパラメータをロードし得る。別の態様では、次のレイヤのために使用されるべきオーバーレイは、アプリケーションの前のレイヤのために使用された同じオーバーレイであり得る。その場合、アレイコントローラ１０６は、オーバーレイをロードされたままにし、ブロック１４０６に進み得る。ランタイムパラメータは、同じである場合又は同じでない場合がある。

【0184】

方法１４００は、アプリケーションのランタイム中に、複数のオーバーレイがＤＰアレイ１０２のパーティション内に順次実現されることを例解する。各オーバーレイは、ストリームチャネルを使用して、ＤＰアレイ１０２におけるデータ移動の異なるモードを実現する。上で述べられるように、各オーバーレイは、パーティション内のアプリケーションの特定のレイヤを実現するために使用され得る。実現された各オーバーレイ（例えば、レイヤ）に対して、ワークロードは、それぞれのデータ移動のモードに基づいてデータを複数の計算タイルに移動させることによって、実行され得る。

【0185】

例えば、複数のオーバーレイを順次実現することは、第１の行列乗算演算を含む第１のワークロードを実行するために、複数のオーバーレイのうちの第１のオーバーレイを実現することを含むことができる。複数のオーバーレイのうちの第２のオーバーレイは、第２の行列乗算演算を含む第２のワークロードを実行するように、実現することができる。第１の行列乗算演算及び第２の行列乗算演算は、異なる次元のものであり得る。一態様では、データを伝達する目的で特定のバッファを入力ストリームチャネルにリンクすることは、オーバーレイのローディングによって設定され得る。すなわち、入力ストリームチャネルは、特定のタイルへの接続性に関して確立され得るが、各そのような入力ストリームチャネルが、タイルに提供するデータを得るバッファは、ＤＰアレイ１０２にロードされるオーバーレイによって決定される。

【0186】

異なるカーネルを計算タイルにロードするか、又はストリームチャネルを修正する、異なるアプリケーションをＤＰアレイ１０２にロードすることなく、異なるオーバーレイ及びランタイムパラメータがＤＰアレイ１０２のパーティションにロードされ得るので、アプリケーションの異なるレイヤは、パーティション内に実現され得る。

【0187】

考察されるように、ＤＰアレイ１０２は、複数のパーティションに細分され得る。各パーティションは、複数の計算タイルのサブセットを含み得る。各パーティションは、異なるアプリケーションを同時に実行し、パーティションによって実行されるアプリケーションに特有の複数の異なるオーバーレイを順次実現するように適合されている。

【0188】

この開示内で説明される本発明の構成は、機械学習又は他の階層化アプリケーションの異なるレイヤを実現するようにＤＰアレイを適応させるための効率的かつ柔軟な技法を提供する。オーバーレイをロードすることと比較して、アプリケーションをロードすることは、アプリケーションのサイズ（例えば、カーネル及び設定データを含む）が、オーバーレイ及び／又はランタイムパラメータのサイズと比較して大きいので、時間がかかり得る。したがって、アプリケーションは、開始時にロードされ、オーバーレイ及びランタイムパラメータのロードを通して異なるワークロードに適応され得る。レイヤごとに（例えば、レイヤごとに新しいアプリケーションを用いて）ＤＰアレイのパーティション全体を再設定しようと試みた場合、ＤＰアレイは、継続した再設定を受けてかなりのクロックサイクルを失うことになる。特定の要素を、例えば、アプリケーションとデータ移動とを、分離することによって、ＤＰアレイは、再設定のための実質的なタイミングペナルティを被ることなく、アプリケーションの異なるレイヤに適合され得る。更に、ＤＰアレイは、アプリケーションのそれぞれのレイヤの各々に対して、より計算効率の良い様態で動作する。

【0189】

１つ以上の他の例示的な実装形態では、ＤＰアレイにロードされたアプリケーションは、多数のカーネルを計算タイルのＲＡＭ４０４にロードさせることができる。その場合、ランタイムパラメータを使用して、各オーバーレイに対して実行される特定のカーネルを選択し得、各カーネルは、ロードされるオーバーレイのデータ移動に適合されている。したがって、所与の計算タイル３０２に対する実行のために選択された特定のカーネルは、異なる計算タイル３０２に対する実行のために選択された特定のカーネルとは異なり得る。

【0190】

一態様では、アレイコントローラ１０６は、様々なＤＭＡ回路４３４、５０２、６０２のタスクキューにタスクを提供して、ＤＰアレイ１０２に、及びＤＰアレイ１０２から、データを移動させることが可能である。一例では、各タスクが完了すると、ＤＭＡ回路は、タスクが完了したという通知を生成することができ、それによって、アレイコントローラ１０６が、ＤＰアレイ１０２によって実行されるワークロードの進行を追跡することを可能にする。

【0191】

考察されるように、オーバーレイは、ＤＰアレイ１０２において確立された入力ストリームチャネルにデータを供給するために使用される特定の入力バッファ、及び／又は出力ストリームチャネルからデータを受信するための特定の出力バッファを指定する。指定された入力及び／又は出力バッファは、オーバーレイごとに異なり得る。

【0192】

図１５は、ＤＰアレイ１０２が、アレイコントローラ１０６によって各々制御される多数のパーティションを含む例を例解する。図１５の例では、ＤＰアレイ１０２は、複数のパーティション１５０２、１５０４にパーティショニングされている。各パーティション１５０２、１５０４は、１つ以上の計算タイル３０２、任意選択的に１つ以上のメモリタイル３０４（例えば、ＤＰアレイ１０２に含まれる場合）、及び１つ以上のインターフェースタイル３０６を含む。

【0193】

図１５の例では、単一のアレイコントローラ１０６が、多数のパーティションの動作を制御することが可能である。パーティション１５０２、１５０４の各々は、アレイコントローラ１０６の制御下ではあるが、互いに独立して動作することが可能である。したがって、パーティション１５０２は、１つのアプリケーションを実行し得、一方、例えば、同時に、パーティション１５０４は、異なるアプリケーションを実行する。アレイコントローラ１０６は、アプリケーションをロードすること、オーバーレイをロードすること、ランタイムパラメータをロードすること、及びアプリケーションのレイヤに対するワークロードを開始することに関して、各パーティションを制御することが可能である。

【0194】

図１６Ａ、図１６Ｂ、図１６Ｃ、図１６Ｄ、図１６Ｅ、図１６Ｆ、及び図１６Ｇは、ＤＰアレイ１０２及びアレイコントローラ１０６を含むＩＣのための異なる例示的なアーキテクチャを例解する。図１６Ａの例では、ＩＣは、アレイコントローラ１０６を実装するために使用されるプログラマブルロジック１６０２を含む。一態様では、アレイコントローラ１０６は、ステートマシン回路として実装され得る。別の例では、アレイコントローラ１０６は、ソフトプロセッサとして実装され得る。ソフトプロセッサは、プログラマブルロジック１６０２を使用して、形成又は実装されるプロセッサ、例えば、プログラムコードを実行することができる回路を指す。

【0195】

１つ以上の例では、アレイコントローラ１０６は、メモリ（図示せず）からの制御アプリケーション２１４を実行して、ＤＰアレイ１０２の動作を制御し得る。別の例示的な実装形態では、アレイコントローラ１０６は、プロセッサ１６０４の制御下で動作し得る。プロセッサ１６０４は、ハードワイヤードプロセッサとして実装され得る。

【0196】

図１６Ｂの例は、アレイコントローラ１０６がハードワイヤード回路ブロックとして実装され得ることを除いて、図１６Ａに関連して説明したように実質的に動作し得る。一態様では、アレイコントローラ１０６は、ステートマシン回路として実装され得る。別の例では、アレイコントローラ１０６は、プログラムコードを実行することができるプロセッサとして実装され得る。

【0197】

図１６Ｃの例では、２つ以上のアレイコントローラが実装され、アレイコントローラ１０６－１及びアレイコントローラ１０６－２として示されている。一例では、アレイコントローラ１０６－１及び１０６－２の両方が、プログラマブルロジック１６０２内に実装されている。一態様では、アレイコントローラ１０６－１は、ＤＰアレイ１０２のタイルの特定のサブセット、例えばパーティション１５０２、を割り振られるか、又は割り当てられ得、一方、アレイコントローラ１０６－２は、ＤＰアレイ１０２のタイルの別の重複しないサブセット、例えばパーティション１５０４、を割り振られ得る。例えば、ＤＰアレイ１０２を列１～Ｎのグリッドとして見ると、アレイコントローラ１０６－１は、列１～（Ｍ－１）内のタイルを制御し得、一方、アレイコントローラ１０６－２は、列Ｍ～Ｎ内のタイルを制御し得、ここでＭ及びＮは整数であり、Ｍ＜Ｎである。一態様では、タイルの各サブセットは、他のパーティションから独立しているパーティションとみなされ得る。各パーティションは、その中で異なるアプリケーションを実行及び実行し得、他のパーティションから完全に独立して制御され得る。本明細書で提供される例における異なるパーティション内のタイル及びストリームチャネルは、互いに分離されている。

【0198】

１つ以上の例では、図１６Ｃの各アレイコントローラ１０６－１及び１０６－２は、メモリ（図示せず）からのそれ自体の制御アプリケーション２１４を実行して、ＤＰアレイ１０２のそれぞれのパーティションの動作を制御し得る。別の例示的な実装形態では、アレイコントローラ１０６－１及び１０６－２は、プロセッサ１６０４の制御下で動作し得る。プロセッサ１６０４は、ハードワイヤードプロセッサとして、又はソフトプロセッサとして実装され得る。いずれの場合も、プロセッサ１６０４は、アレイコントローラ１０６－１及び１０６－２の各々を独立して制御して、各それぞれのアレイコントローラによって制御されるパーティションの独立した動作を果たすことができる。例えば、プロセッサ１６０４は、アレイコントローラ１０６－１及び１０６－２によってアクセス可能なメモリに制御アプリケーション２１４を書き込み得る。

【0199】

図１６Ｄの例は、アレイコントローラ１０６－１及びアレイコントローラ１０６－２が、各々ハードワイヤード回路ブロックとして実装され得ることを除いて、実質的に図１６Ｃに関連して説明されたように動作し得る。アレイコントローラは、ステートマシン回路として、又はプログラムコードを実行することができるプロセッサとして実装され得る。

【0200】

１つ以上の他の例示的な実装形態では、図１６Ｃ及び／又は図１６Ｄのアレイコントローラ１０６－１は、プログラマブルロジック１６０２を使用して（例えば、ステートマシン回路又はソフトプロセッサとして）実装され得、一方、アレイコントローラ１０６－２は、ステートマシン回路又はプロセッサを実装するハードワイヤード回路ブロック（例えば、ＡＳＩＣブロック）として実装される。

【0201】

図１６Ｅの例では、プロセッサ１６０４は、ＩＣに実装又は組み込まれていない。例えば、プロセッサ１６０４は、ｘ８６タイプのプロセッサ、又は別の命令セットアーキテクチャを有する別のタイプのプロセッサとして実装され得る。プロセッサ１６０４は、ＩＣが通信可能にリンクされる別のデータ処理システム内に配置され得るか、又はその一部であり得る。

【0202】

１つ以上の例では、各アレイコントローラ１０６－１及び１０６－２は、メモリ（図示せず）からのそれ自体の制御アプリケーション２１４を実行して、ＤＰアレイ１０２のそれぞれのパーティションの動作を制御し得る。別の例示的な実装形態では、アレイコントローラ１０６－１及び１０６－２は、プロセッサ１６０４の制御下で動作し得る。本明細書で説明される様々な例では、プロセッサの制御下で動作するアレイコントローラは、プロセッサ１６０４が、アレイコントローラによって実行される制御アプリケーション２１４を、実行のためにアレイコントローラ１０６によってアクセス可能なメモリに書き込むことを含み得る。

【0203】

図１６Ｅの例では、ＩＣは、プログラマブルロジックを含まない。したがって、アレイコントローラ１０６－１及び１０６－２は、ハードワイヤード回路ブロック（例えば、ＡＳＩＣ回路ブロック）として実装され得る。図１６Ｅの例では、アレイコントローラ１０６－１及び／又は１０６－２は、ハードワイヤードステートマシン回路又はハードワイヤードプロセッサとして実装され得る。

【0204】

図１６Ｆの例は、ＩＣがプログラマブルロジック１６０２を含むことを除いて、図１６Ｅに関連して説明したように実質的に動作し得る。したがって、アレイコントローラ１０６－１及び／又は１０６－２の一方又は両方は、ステートマシンとしてであっても、又はソフトプロセッサとしてであっても、プログラマブルロジックを使用して実装され得る。

【0205】

図１６Ｇの例では、ＩＣアーキテクチャは、ハードワイヤード回路ブロック（例えば、ＡＳＩＣブロック）として実装される単一のアレイコントローラ１０６を含む。アレイコントローラ１０６は、ハードワイヤードステートマシン回路又はハードワイヤードプロセッサとして実装され得る。単一のアレイコントローラは、制御アプリケーション２１４の実行を通じてＤＰアレイ１０２の２つ以上のパーティション（例えば、パーティション１５０２、１５０４）を制御し得る。

【0206】

図１６Ｈの例では、ＩＣアーキテクチャは、プログラマブルロジック１６０２を含む。図１６Ｈの例では、ＩＣは、プログラマブルロジック１６０２を使用して実装される単一のアレイコントローラ１０６を含む。アレイコントローラ１０６は、ステートマシン回路又はソフトプロセッサとして実装され得る。単一のアレイコントローラは、制御アプリケーション２１４の実行を通じてＤＰアレイ１０２の２つ以上のパーティション（例えば、パーティション１５０２、１５０４）を制御し得る。

【0207】

図１６Ａ、図１６Ｂ、図１６Ｃ、図１６Ｄ、図１６Ｅ、図１６Ｆ、図１６Ｇ、及び図１６Ｈの例では、示されたアレイコントローラ１０６の特定の数は、例解の目的で提供されている。ＤＰアレイ１０２を制御するために、１つ、２つ、又はそれ以上のアレイコントローラ１０６が、ＩＣ内に含まれ得る。一態様では、複数のアレイコントローラ１０６は、ＤＰアレイ１０２内に実現されたパーティションと１対１のベースで対応する。例えば、各アレイコントローラ１０６は、ＤＰアレイ１０２の特定のパーティションを制御するために専用化され得る。各アレイコントローラ１０６は、アプリケーションのローディング、オーバーレイ及びランタイムパラメータのローディング、並びにＤＰアレイ１０２のそれぞれのパーティションに対するワークロードの開始を制御し得る。他の例では、アレイコントローラ対パーティション比は、１対１である必要はない。

【0208】

ワークロードを開始する際に、アレイコントローラ１０６は、バッファから処理される入力データ（例えば、特徴マップ及び重み）を指定するように制御されているＤＰアレイ１０２のパーティションに、ポインタ（例えば、メモリアドレス）を提供することが可能である。各アレイコントローラ１０６は更に、制御情報を提供することができる。一態様では、アレイコントローラ１０６は、それぞれのパーティション内のタイルの様々なＤＭＡ回路に、タスクを書き込むことが可能である。例解の目的で、タスクは、バッファ記述子、ポインタ、及び／又は制御データを指定し得る。例えば、タスクは、バッファを作成するためにＤＭＡ回路にデータを移動させ、特定のバッファを特定のストリームチャネルにマッピングするようにＤＭＡ回路をプログラムし、及び／又はデータ項目を計算タイル３０２に提供するためにデータへのポインタを指定し得る。例えば、各ＤＭＡ回路は、１つ以上のタスクキューを含み得る。アレイコントローラ１０６は、制御アプリケーション２１４を実行する一部として、これらのタスクキューにタスクを書き込み得る。例解的かつ非限定的な例として、アレイコントローラ１０６は、データの移動を果たすために、本明細書で説明する様々な通信機構（例えば、メモリマップドスイッチ及び／若しくはストリームスイッチ、直接接続経由、及び／又はインターフェースタイル３０４のインターフェース６０４への接続経由）を介して、タスク、例えば、プログラミング、をＤＭＡ回路に書き込むことができる。例えば、アレイコントローラ１０６は、バッファ記述子又は他のデータをＤＭＡ回路に書き込むことによってオーバーレイを実現し得る。

【0209】

例解の目的で、図１０Ｂの例を参照すると、アレイコントローラ１０６は、メモリタイル３０６内にバッファを作成し得る。アレイコントローラ１０６は、ＤＭＡ回路がストリームチャネルを介してＡ_００を計算タイル３０２－２に転送するように、Ａ_００のアドレスを指定するポインタをメモリタイル３０６のＤＭＡ回路に提供し得る。同様に、アレイコントローラ１０６は、Ａ_０１のアドレスを指定する別のポインタをメモリタイル３０６のＤＭＡ回路に提供することができ、その結果、ＤＭＡ回路は、ストリームチャネルを介してＡ_０１を計算タイル３０２－２に転送する。アレイコントローラ１０６は、パーティションが、使用されるオーバーレイに基づいて正しい動作シーケンスを使用して、所与のレイヤごとにワークロードを実行し得るように、例解された様々なデータ項目を伝達するためのポインタを継続的に提供することが可能である。

【0210】

本明細書で説明される機能性を実行する際に、コントローラ１０６は、ＩＣ自体に埋め込まれているか、又はＩＣの外部に実装され、ホストデータ処理システム内に位置するかにかかわらず、他のプロセッサに課されるワークロードを軽減する。ＤＰアレイ１０２のサイズは、例解の目的で、本明細書に開示される例示的な図では比較的小さいが、ＤＰアレイ１０２は、様々な設定で何百ものタイルを含み得る。したがって、ＤＰアレイ１０２を全容量で、又はほぼ全容量で動作させ続けるために必要とされるデータ転送及びデータ移動動作の数は、重要であり得る。１つ以上のアレイコントローラ１０６を含むことにより、他のプロセッサのかなりの処理リソース（例えば、クロックサイクル）が解放される。更に、ＤＰアレイ１０２と同じＩＣ上にそのようなコントローラを含むことは、より効率的な動作及びより大きなデータスループットを容易にする。

【0211】

１つ以上の例示的な実装形態では、アレイコントローラ１０６は、計算タイル３０２、インターフェースタイル３０４、及びメモリタイル３０６の動作を制御することが可能である。いくつかの構成では、アレイコントローラ１０６は、計算タイル３０２の動作を制御しない場合がある。例えば、計算タイル３０２は、計算タイル３０２のそれぞれのプロセッサ４２０によって実行されるカーネルの制御下で動作し得る。上で述べられるように、計算タイル３０２によって提供されるランタイムパラメータは、カーネルの機能性を変化させ得る。１つ以上の他の例示的な実装形態では、アレイコントローラ１０６は、計算タイル３０２、インターフェースタイル３０４、及びメモリタイル３０６の動作を制御し得る。

【0212】

図１７は、ＤＰアレイ１０２を含むＩＣの動作の例示的な方法１７００を例解する。方法１７００は、ＤＰアレイ１０２を使用してワークロードを実行するためにアレイコントローラ１０６によって実行される様々な動作を例解する。

【0213】

ブロック１７０２において、アレイコントローラ１０６は、アプリケーションをＤＰアレイ１０２のパーティションにロードする。アプリケーションは、計算タイル３０２によって実行可能である複数のカーネルを含む。より具体的には、カーネルは、計算タイル３０２のプロセッサ４２０によって実行可能である。考察されるように、アプリケーションは、カーネルをパーティションの計算タイルにロードし、パーティションのメモリを初期化し、データを計算タイルに伝達し、計算タイルからデータを出力するためのストリームチャネル（例えば、入力及び出力ストリームチャネル）を実現する。

【0214】

ブロック１７０４において、アレイコントローラ１０６は、パーティション内のアプリケーションのレイヤを実現するためにオーバーレイをロードする。アレイコントローラ１０６はまた、レイヤのためのランタイムパラメータをロードする。

【0215】

ブロック１７０６において、アレイコントローラ１０６は、アプリケーション、オーバーレイ、及びランタイムパラメータによって設定されたパーティション内のワークロードを開始する。アレイコントローラ１０６は、タイルのＤＭＡ回路にタスクを書き込むことによってワークロードを開始することが可能である。制御アプリケーションによって指定されるタスクは、レイヤ及び各レイヤを実現するために必要な動作を順序付ける。タスクは、データを移動してバッファを作成し得る。タスクは、バッファに含まれるデータ、例えば、特徴マップ及び重み、のアドレスを指定して、ストリームチャネルのそれぞれを介して、データを計算タイルに伝達し得る。タスクは、計算タイルによって生成されたデータを書き込む際に使用される出力バッファへのポインタを指定し得る。

【0216】

１つ以上の例示的な実装形態では、アレイコントローラ１０６によって実行される命令は、コンパイラ２０４によって事前生成され得る。命令は、マッピング２１０及びランタイムパラメータ２１２を含み、本明細書で説明されるスケジュールを指定する制御アプリケーション２１４として具現化され得る。アレイコントローラ１０６は、アプリケーションを実行し、本明細書で説明される様々な動作を実行するために、ランタイム時に命令を実行することが可能である。

【0217】

別の態様では、制御アプリケーション２１４のスケジュールは、オーバーレイ及びランタイムパラメータでプログラムされたアプリケーションを実行する際に、各パーティションが、所与のレイヤを完了するために反復する回数を指定する。すなわち、場合によっては、パーティションは、ループを実行することを必要とせずに、アプリケーションのレイヤ全体を実現することが可能であり得る。他の場合には、レイヤは、セクションに分割され、パーティションは、レイヤのワークロードを完了するために、複数回（例えば、セクションの数に対応して）反復される。コンパイラ２０４によって生成される制御アプリケーションは、実行されているアプリケーションの異なるレイヤに対する各パーティションの動作のこの態様を制御することを理解されたい。

【0218】

ブロック１７０６の後、方法１７００は、ブロック１７０４にループバックして、更なるワークロードの処理を継続することができる。したがって、アレイコントローラは、ポインタ及び／又は制御情報をＤＰアレイ１０２に提供することによって、アプリケーション、オーバーレイ、ランタイムパラメータのパーティション及びシーケンスワークロードへのローディングを制御することが可能である。

【0219】

ＤＰアレイ１０２が、複数のパーティションにパーティショニングされ、複数のコントローラ１０６を含む１つ以上の他の例示的な実装形態では、各コントローラは、ＤＰアレイ１０２の特定のパーティションの制御に専用であり得る。そのような場合、各コントローラは、ＤＰアレイ１０２のパーティションを独立して制御することが可能である。例えば、各アレイコントローラ１０６は、そのアレイコントローラによって制御されるパーティションに関して、図１７に関連して本明細書で説明される動作を実行することが可能である。したがって、ＤＰアレイ１０２は、その中の多数のアプリケーションを独立して実行し得、各アプリケーションは、異なるアレイコントローラ１０６によって制御される異なるパーティション内で実行する。

【0220】

更に、各アレイコントローラ１０６はまた、そのコントローラによって制御されるパーティションに関して、図１７に関連して本明細書で説明される動作を実行することが可能である。したがって、各パーティションは、そのパーティションのための特定のアレイコントローラの制御下で、経時的に異なるオーバーレイを実現し得る。各パーティションによって実現されるオーバーレイは、各それぞれのパーティションによって実行されるアプリケーションに基づいて異なる。これは、ポインタ及び／又は制御情報を提供することによって、アプリケーション、オーバーレイ、ランタイムパラメータのローディング、及びワークロードの順序付けを制御するために、各パーティションが、独立して、かつ専用アレイコントローラ１０６とともに動作することを可能にする。

【0221】

図１８は、アレイコントローラ１０６の追加の動作特徴を例解する。図１８の例では、アレイコントローラ１０６は、アレイインターフェース１０４にタスク１８０２を発行することが可能である。アレイコントローラ１０６は更に、計算タイル３０２によって実行された特定のタスクが実行を完了したときの通知１８０４を受信することが可能である。一態様では、アレイコントローラ１０６によって受信された通知は、メモリマップドスイッチを介して、ストリームスイッチを介して、及び／又は割り込みを発行する特定のタイル若しくは構成要素をアレイコントローラ１０６と結合する別のインターフェースを通して提供される割り込みとして、受信され得る。

【0222】

このようにして、アレイコントローラ１０６は、ＤＰアレイ１０２にタスクを提供し続けることが可能であり、その結果、ＤＰアレイ１０２、又はＤＰアレイ１０２内の複数のパーティションは、ホストプロセッサの（例えば、ホストコンピュータからの）介入又は関与を伴わずに、継続的に動作し得る。例解的かつ非限定的な例として、アレイコントローラ１０６は、インターフェースタイル３０４及び／又はメモリタイル３０６のＤＭＡ回路間のデータ転送を開始して、データを計算タイル３０２に提供し、計算タイル３０２によって生成されたデータを受信することが可能である。アレイコントローラ１０６は、ＤＭＡ回路のタスクキュー内にタスクを記憶し続けることが可能であり、その結果、このようなＤＭＡ回路は、処理すべきタスクが残っている限り、継続的に動作し得る。

【0223】

図１９は、データ処理システム１９００の例示的な実装形態を例解する。本明細書で定義される場合、「データ処理システム」という用語は、データを処理するように構成された１つ以上のハードウェアシステムを意味し、各ハードウェアシステムは、少なくとも１つのプロセッサ及びメモリを含み、プロセッサは、実行時に動作を開始するコンピュータ可読命令でプログラムされている。データ処理システム１９００は、プロセッサ１９０２、メモリ１９０４、及びメモリ１９０４を含む様々なシステム構成要素をプロセッサ１９０２に結合するバス１９０６を含むことができる。

【0224】

プロセッサ１９０２は、１つ以上のプロセッサとして実装され得る。一例では、プロセッサ１９０２は、中央処理ユニット（central processing unit、ＣＰＵ）として実装される。プロセッサ１９０２は、プログラムコードに含まれる命令を実行することができる１つ以上の回路として実装され得る。回路は、集積回路であり得るか、又は集積回路に埋め込まれ得る。プロセッサ１９０２は、複合命令セットコンピュータアーキテクチャ（complex instruction set computer architecture、ＣＩＳＣ）、縮小命令セットコンピュータアーキテクチャ（reduced instruction set computer architecture、ＲＩＳＣ）、ベクトル処理アーキテクチャ、又は他の既知のアーキテクチャを使用して実装され得る。例示的なプロセッサは、ｘ８６タイプのアーキテクチャ（ＩＡ－３２、ＩＡ－６４など）を有するプロセッサ、パワーアーキテクチャ（Power Architecture）、ＡＲＭプロセッサなどを含むが、これらに限定されない。

【0225】

バス１９０６は、様々な通信バス構造のいずれかのうちの１つ以上を表す。限定ではなく例として、バス１９０６は、ペリフェラルコンポーネントインターコネクトエクスプレス（Peripheral Component Interconnect Express、ＰＣＩｅ）バスとして実装され得る。データ処理システム１９００は、通常、様々なコンピュータシステム可読媒体を含む。そのような媒体は、コンピュータ可読揮発性並びに不揮発性媒体及びコンピュータ可読リムーバブル並びに非リムーバブル媒体を含み得る。

【0226】

メモリ１９０４は、ランダムアクセスメモリ（ＲＡＭ）１９０８及び／又はキャッシュメモリ１９１０などの揮発性メモリの形態のコンピュータ可読媒体を含むことができる。データ処理システム１９００はまた、他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータ記憶媒体を含むことができる。例として、ストレージシステム１９１２は、非リムーバブルの不揮発性磁気及び／又はソリッドステート媒体（図示せず、典型的には「ハードドライブ」と呼ばれる）から読み取り、それに書き込むために提供され得る。示されていないが、リムーバブルの不揮発性磁気ディスク（例えば、「フロッピー（登録商標）ディスク」）から読み取り、それに書き込むための磁気ディスクドライブ、及びＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、又は他の光媒体などのリムーバブルの不揮発性光ディスクから読み取り、それに書き込むための光ディスクドライブが、提供され得る。そのような場合、各々は、１つ以上のデータ媒体インターフェースによってバス１９０６に接続され得る。メモリ１９０４は、少なくとも１つのコンピュータプログラム製品の例である。

【0227】

メモリ１９０４は、プロセッサ１９０２によって実行可能であるコンピュータ可読プログラム命令を記憶することが可能である。例えば、コンピュータ可読プログラム命令は、オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムコード、及びプログラムデータを含むことができる。プロセッサ１９０２は、コンピュータ可読プログラム命令を実行する際に、コンピュータに起因する本明細書で説明される様々な動作を実行することが可能である。データ処理システム１９００によって使用され、生成され、及び／又は演算されるデータ項目は、データ処理システム１９００によって使用されるときに機能性を与える機能データ構造であることを理解されたい。本開示内で定義されるように、「データ構造」という用語は、物理メモリ内のデータのデータモデルの編成の物理的実装を意味する。したがって、データ構造は、メモリ内の特定の電気的又は磁気的構造要素から形成される。データ構造は、プロセッサを使用して実行されるアプリケーションプログラムによって使用されるように、メモリに記憶されたデータに物理的編成を課す。

【0228】

データ処理システム１９００は、バス１９０６に通信可能にリンクされた１つ以上の入力／出力（Input/Output、Ｉ／Ｏ）インターフェース１９１８を含み得る。Ｉ／Ｏインターフェース１９１８は、データ処理システム１９００が、１つ以上の外部デバイスと通信すること、並びに／又はローカルエリアネットワーク（local area network、ＬＡＮ）、ワイドエリアネットワーク（wide area network、ＷＡＮ）、及び／若しくはパブリックネットワーク（例えば、インターネット）などの１つ以上のネットワークを介して通信することを可能にする。Ｉ／Ｏインターフェース１９１８の例としては、ネットワークカード、モデム、ネットワークアダプタ、ハードウェアコントローラなどが挙げられ得るが、これらに限定されない。外部デバイスの例としては、ユーザがデータ処理システム１９００と対話することを可能にするデバイス（例えば、ディスプレイ、キーボード、及び／又はポインティングデバイス）及び／又はアクセラレータカードなどの他のデバイスも挙げられ得る。

【0229】

データ処理システム１９００は、１つの例示的な実装形態にすぎない。データ処理システム１９００は、スタンドアロンデバイスとして（例えば、ユーザコンピューティングデバイス又はサーバとして、ベアメタルサーバとして）、クラスタ（例えば、２つ以上の相互接続されたコンピュータ）において、又は通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散クラウドコンピューティング環境において（例えば、クラウドコンピューティングノードとして）実行することができる。分散クラウドコンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカル及びリモートの両方のコンピュータシステム記憶媒体内に位置し得る。

【0230】

図１９の例は、本明細書で説明する例示的な実装形態の使用又は機能性の範囲に関していかなる限定も示唆するものではない。データ処理システム１９００は、この開示内で説明される様々な動作を実行することができるコンピュータハードウェアの例である。この点に関して、データ処理システム１９００は、実装されるデバイス及び／又はシステムの特定のタイプに応じて、示されるよりも少ない構成要素、又は図１９に例解されない追加の構成要素を含み得る。含まれる特定のオペレーティングシステム及び／又はアプリケーションは、含まれるＩ／Ｏデバイスのタイプと同様に、デバイス及び／又はシステムタイプに従って変化し得る。更に、例解的な構成要素のうちの１つ以上は、別の構成要素に組み込まれ得るか、又は別の構成要素の一部を形成し得る。例えば、プロセッサは、少なくとも何らかのメモリを含み得る。

【0231】

データ処理システム１９００は、図２の例に例解されたソフトウェアフレームワークを実行することができるコンピュータの例である。データ処理システム１９００はまた、ＤＰアレイを有する本明細書で説明されるようなＩＣ又はシステムに通信可能にリンクされ得るコンピュータの例であり、データ処理システム１９００は、ＩＣ／システムをアクセラレータとして使用する。例えば、プロセッサ１９０２は、「ホストプロセッサ」であり得る。

【0232】

本開示は、新規の特徴を定義する特許請求の範囲で終わるが、本開示内で説明される種々の特徴は、図面と併せて説明を検討することからより良好に理解されると考えられる。本明細書において説明されるプロセス、機械、製造、及びそれらの任意の変形例は、例解の目的で提供される。本開示内で説明される特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、単に、特許請求の範囲のための基礎として、及び事実上任意の適切に詳述された構造において説明される特徴を種々に採用するように当業者に教示するための代表的な基礎として解釈されるべきである。更に、本開示内で使用される用語及び句は、限定することを意図するものではなく、説明される特徴の理解可能な説明を提供することを意図するものである。

【0233】

例解を簡単かつ明確にするために、図に示される要素は、必ずしも縮尺どおりに描かれているわけではない。例えば、要素のうちのいくつかの寸法は、明確にするために、他の要素に対して誇張されている場合がある。更に、適切であるとみなされる場合、参照番号は、対応する、類似する、又は同様の特徴を示すために、図の間で繰り返される。

【0234】

本明細書で定義される場合、単数形の「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈上別途明白に示さない限り、複数形も同様に含むことが意図される。

【0235】

本明細書で定義される場合、「少なくとも１つ」、「１つ以上」、及び「及び／又は」という用語は、明示的に別段に言明しない限り、動作において連言的及び選言的の両方であるオープンエンド表現である。例えば、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」、「Ａ、Ｂ、又はＣのうちの少なくとも１つ」、「Ａ、Ｂ、及びＣのうちの１つ以上」、「Ａ、Ｂ、又はＣのうちの１つ以上」、並びに「Ａ、Ｂ、及び／又はＣ」という表現の各々は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢの組み合わせ、Ａ及びＣの組み合わせ、Ｂ及びＣの組み合わせ、又はＡ、Ｂ及びＣの組み合わせを意味する。

【0236】

本明細書で定義される場合、「自動的に」という用語は、人間の介入がないことを意味する。本明細書で定義される場合、「ユーザ」という用語は人間を意味する。

【0237】

本明細書で定義される場合、「コンピュータ可読記憶媒体」という用語は、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラムコードを含有又は記憶する記憶媒体を意味する。本明細書で定義される場合、「コンピュータ可読記憶媒体」は、それ自体は一時的な伝搬信号ではない。コンピュータ可読記憶媒体は、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述の任意の好適な組み合わせであることができるが、これらに限定されない。本明細書で説明される様々な形態のメモリは、コンピュータ可読記憶媒体の例である。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ＲＡＭ、読み取り専用メモリ（read-only memory、ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（erasable programmable read-only memory、ＥＰＲＯＭ又はフラッシュメモリ）、電子的消去可能プログラマブル読み取り専用メモリ（electronically erasable programmable read-only memory、ＥＥＰＲＯＭ）、スタティックランダムアクセスメモリ（static random-access memory、ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（portable compact disc read-only memory、ＣＤ－ＲＯＭ）、デジタル多用途ディスク（digital versatile disk、ＤＶＤ）、メモリスティック、フロッピーディスクなどを含み得る。

【0238】

本明細書で定義される場合、「場合」という用語は、文脈に応じて、「ときに」又は「際に」又は「に応答して」又は「に応じて」を意味する。したがって、「～と決定された場合」又は「［記載される条件又はイベント］が検出された場合」という句は、文脈に応じて、「～と決定した際」若しくは「～と決定したことに応答して」、又は「［記載される条件又はイベント］を検出した際」若しくは「［記載される条件又はイベント］を検出したことに応答して」又は「［記載される条件又はイベント］を検出したことに応じて」を意味すると解釈され得る。

【0239】

本明細書で定義される場合、「に応じて」という用語及び上で説明されるような類似の文言、例えば、「場合」、「ときに」、又は「際に」は、アクション又はイベントに容易に応答又は反応することを意味する。応答又は反応は自動的に実行される。したがって、第２のアクションが第１のアクションに「応じて」実行される場合、第１のアクションの発生と第２のアクションの発生との間に因果関係がある。「に応じて」という用語は、因果関係を示す。

【0240】

本明細書で定義される場合、「プロセッサ」という用語は、プログラムコードに含まれる命令を実行することができる少なくとも１つの回路を意味する。回路は、集積回路であり得るか、又は集積回路に埋め込まれ得る。

【0241】

本明細書で定義される場合、「実質的に」という用語は、列挙された特性、パラメータ、又は値が、正確に達成される必要はないが、例えば、公差、測定誤差、測定精度制限、及び当業者に公知の他の要因を含む偏差又は変動が、特性が提供することが意図された効果を排除しない量で生じ得ることを意味する。

【0242】

第１、第２などの用語は、様々な要素を説明するために本明細書で使用され得る。これらの要素は、これらの用語によって限定されるべきではない。なぜなら、これらの用語は、別段に言明しない限り、又は文脈が明らかにそうでないことを示さない限り、１つの要素を別の要素から区別するために使用されるにすぎないからである。

【0243】

いくつかの代替的な実装形態では、ブロックにおいて述べられる動作は、図において述べられる順序から外れて発生する場合がある。例えば、連続して示される２つのブロックは、実質的に同時に実行され得るか、又はブロックは、関与する機能性に応じて、時には逆の順序で実行され得る。他の例では、ブロックは、一般に数字の昇順で実行され得、更に他の例では、１つ以上のブロックは、様々な順序で実行され得、結果は、記憶され、後続のブロック又は直後に続かない他のブロックにおいて利用される。ブロック図及び／又はフローチャート例解図の各ブロック、並びにブロック図及び／又はフローチャート例解図におけるブロックの組み合わせは、指定された関数若しくは行為を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを行う、専用ハードウェアベースのシステムによって実装され得ることにも留意されよう。

【図1】