特表2022-548114 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ サンバノヴァシステムズ，インク．の特許一覧

特表2022-548114ユーザ仕様に基づく再構成可能アーキテクチャ上でのオペレーション・ユニット・グラフの効率的な実行

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19A
19B
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-11-16

(54)【発明の名称】ユーザ仕様に基づく再構成可能アーキテクチャ上でのオペレーション・ユニット・グラフの効率的な実行

(51)【国際特許分類】

G06F 15/80 20060101AFI20221109BHJP

G06F 30/34 20200101ALI20221109BHJP

G06F 30/327 20200101ALI20221109BHJP

H03K 19/17704 20200101ALI20221109BHJP

G06N 3/063 20060101ALI20221109BHJP

G06F 115/10 20200101ALN20221109BHJP

【ＦＩ】

G06F15/80

G06F30/34

G06F30/327

H03K19/17704

G06N3/063

G06F115:10

【審査請求】未請求

【予備審査請求】有

(21)【出願番号】P 2022516603

(86)(22)【出願日】2020-09-10

(85)【翻訳文提出日】2022-05-02

(86)【国際出願番号】 US2020050220

(87)【国際公開番号】W WO2021055234

(87)【国際公開日】2021-03-25

(31)【優先権主張番号】16/572,516

(32)【優先日】2019-09-16

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡＳＣＲＩＰＴ

２．ＪＡＶＡ

３．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】521220493

【氏名又は名称】サンバノヴァシステムズ，インク．

【氏名又は名称原語表記】ＳＡＭＢＡＮＯＶＡＳＹＳＴＥＭＳ，ＩＮＣ．

【住所又は居所原語表記】Ｓｕｉｔｅ１０３２１００ＧｅｎｇＲｏａｄＰａｌｏＡｌｔｏ，Ｃａｌｉｆｏｒｎｉａ９４３０３ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100114476

【弁理士】

【氏名又は名称】政木良文

(72)【発明者】

【氏名】チェン，ズオ

(72)【発明者】

【氏名】ジャイラス，サムティ

【テーマコード（参考）】

5B146

5J042

【Ｆターム（参考）】

5B146AA22

5B146GA01

5B146GA02

5B146GC02

5J042BA04

5J042DA04

(57)【要約】

開示された技術は、目標アーキテクチャを有する再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフを効率的に実行することに関する。特に、開示された技術は、再構成可能データ・プロセッサの目標アーキテクチャに固有のアーキテクチャ上のヒントをユーザから受け取り、アーキテクチャ上のヒントによって指定されたオペレーション・ユニットのパターンのインスタンスを検出するためにオペレーション・ユニット・グラフをスキャンし、オペレーション・ユニット・グラフ内のオペレーション・ユニットを統合されたオペレーション・ユニット・ブロックに融合し、それによって融合されたオペレーション・ユニット・グラフを生成することによって、オペレーション・ユニット・グラフを実行するのに必要な再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットの数を低減することに関する。
【選択図】図２

【特許請求の範囲】

【請求項1】

目標アーキテクチャを有する再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフを効率的に実行するコンピュータにより実施される方法であって、
前記再構成可能データ・プロセッサの前記目標アーキテクチャに固有のアーキテクチャ上のヒントを、ユーザから受け取ることにより、前記オペレーション・ユニット・グラフを実行するために必要とされる前記再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットの数を減少させること、
但し、前記アーキテクチャ上のヒントは、
前記再構成可能データ・プロセッサの前記物理演算ユニット及び／または前記物理メモリ・ユニット上で第１のオペレーション・ユニットのパターンを実行するときに、前記第１のオペレーション・ユニットを融合することを要求し、
パターン内の前記第１のオペレーション・ユニットを第１のノードとして指定し、
前記パターン内の前記第１のオペレーション・ユニット間の第１のデータフローを第１のエッジとして指定し、且つ、
前記パターン内の前記第１のオペレーション・ユニット間の融合を指示するものであり、
前記オペレーション・ユニット・グラフをスキャンして、前記アーキテクチャ上のヒントによって指定された前記第１のオペレーション・ユニットの前記パターンのインスタンスを検出すること、これは、前記オペレーション・ユニット・グラフ内の第２のノード及び第２のエッジを、前記アーキテクチャ上のヒント内の前記第１のノード及び前記第１のエッジと適合させることと、パターン・マッチングを検出することとを含み、
前記オペレーション・ユニット・グラフ内の前記第２のノードと前記第２のエッジのオペレーション・ユニットを統合されたオペレーション・ユニット・ブロックに融合し、融合されたオペレーション・ユニット・グラフを生成すること、
前記再構成可能データ・プロセッサの前記物理演算ユニット及び／または前記物理メモリ・ユニットを前記融合されたオペレーション・ユニット・グラフにアロケーティングすること、及び、
前記アロケーティングに基づいて前記再構成可能データ・プロセッサ上で前記融合されたオペレーション・ユニット・グラフを実行すること、
を含む方法。

【請求項2】

前記アーキテクチャ上のヒントが、前記パターン内の第１の出力オペレーション・ユニットを第１の出力ノードとして指定する請求項１に記載の方法。

【請求項3】

前記アーキテクチャ上のヒントによって指定された前記第１の出力ノードを前記オペレーション・ユニット・グラフ内の第２の出力ノードと適合させることによって前記パターン・マッチングを検出すること、及び、
前記オペレーション・ユニット・グラフ内の前記第２の出力ノードから始めて、前記オペレーション・ユニット・グラフ内の前記第２のノード及び前記第２のエッジが前記アーキテクチャ上のヒント内の前記第１のノード及び前記第１のエッジと適合することを決定するために前記オペレーション・ユニット・グラフをトラバースすること、
を更に含む請求項２に記載の方法。

【請求項4】

前記トラバースが上向きトラバースである請求項３に記載の方法。

【請求項5】

前記統合されたオペレーション・ユニット・ブロックに融合されるが、前記統合されたオペレーション・ユニット・ブロックの外側にある前記オペレーション・ユニット・グラフの別のオペレーション・ユニットへのデータフローを有する前記オペレーション・ユニット・グラフのオペレーション・ユニットを識別すること、
前記識別されたオペレーション・ユニット及びそのデータフローを複製し、前記識別されたオペレーション・ユニット及びそのデータフローに入力を提供する前記統合されたオペレーション・ユニット・ブロック内の任意の他のオペレーション・ユニットを複製すること、及び、
前記統合されたオペレーション・ユニット・ブロック及び前記複製されたオペレーション・ユニット及びデータフローを有する前記オペレーション・ユニット・グラフに基づいて、前記アロケーティング及び前記実行を行うこと、
を更に含む請求項１に記載の方法。

【請求項6】

前記アーキテクチャ上のヒントが、パターン・グラフに翻訳するノードとエッジのリストとして表現される請求項１に記載の方法。

【請求項7】

目標アーキテクチャを有する再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフを効率的に実行するコンピュータ・プログラム命令を備えた非一時的コンピュータ可読記憶媒体であって、
前記命令がプロセッサで実行されると実施される方法が、
前記再構成可能データ・プロセッサの前記目標アーキテクチャに固有のアーキテクチャ上のヒントを、ユーザから受け取ることにより、前記オペレーション・ユニット・グラフを実行するために必要とされる前記再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットの数を減少させること、
但し、前記アーキテクチャ上のヒントは、
前記再構成可能データ・プロセッサの前記物理演算ユニット及び／または前記物理メモリ・ユニット上で第１のオペレーション・ユニットのパターンを実行するときに、前記第１のオペレーション・ユニットを融合することを要求し、
パターン内の前記第１のオペレーション・ユニットを第１のノードとして指定し、
前記パターン内の前記第１のオペレーション・ユニット間の第１のデータフローを第１のエッジとして指定し、且つ、
前記パターン内の第１のオペレーション・ユニット間の融合を指示するものであり、
前記オペレーション・ユニット・グラフをスキャンして、前記アーキテクチャ上のヒントによって指定された前記第１のオペレーション・ユニットの前記パターンのインスタンスを検出すること、これは、前記オペレーション・ユニット・グラフ内の第２のノード及び第２のエッジを、前記アーキテクチャ上のヒント内の前記第１のノード及び前記第１のエッジと適合させることと、パターン・マッチングを検出することとを含み、
前記オペレーション・ユニット・グラフ内の前記第２のノードと前記第２のエッジのオペレーション・ユニットを統合されたオペレーション・ユニット・ブロックに融合し、融合されたオペレーション・ユニット・グラフを生成すること、
前記再構成可能データ・プロセッサの前記物理演算ユニット及び／または前記物理メモリ・ユニットを前記融合されたオペレーション・ユニット・グラフにアロケーティングすること、及び、
前記アロケーティングに基づいて前記再構成可能データ・プロセッサ上で前記融合されたオペレーション・ユニット・グラフを実行すること、
を含む非一時的コンピュータ可読記憶媒体。

【請求項8】

前記アーキテクチャ上のヒントが、前記パターン内の第１の出力オペレーション・ユニットを第１の出力ノードとして指定する請求項７に記載の非一時的コンピュータ可読記憶媒体。

【請求項9】

【請求項10】

前記トラバースが上向きトラバースである請求項９に記載の非一時的コンピュータ可読記憶媒体。

【請求項11】

【請求項12】

前記アーキテクチャ上のヒントが、パターン・グラフに翻訳するノードとエッジのリストとして表現される請求項７に記載の非一時的コンピュータ可読記憶媒体。

【請求項13】

目標アーキテクチャを有する再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフを効率的に実行するコンピュータ・プログラム命令がロードされているメモリに接続された１または複数のプロセッサを含むシステムであって、
前記命令がプロセッサで実行されると実施されるアクションが、
前記再構成可能データ・プロセッサの前記目標アーキテクチャに固有のアーキテクチャ上のヒントを、ユーザから受け取ることにより、前記オペレーション・ユニット・グラフを実行するために必要とされる前記再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットの数を減少させること、
但し、前記アーキテクチャ上のヒントは、
前記再構成可能データ・プロセッサの前記物理演算ユニット及び／または前記物理メモリ・ユニット上で第１のオペレーション・ユニットのパターンを実行するときに、前記第１のオペレーション・ユニットを融合することを要求し、
パターン内の前記第１のオペレーション・ユニットを第１のノードとして指定し、
前記パターン内の前記第１のオペレーション・ユニット間の第１のデータフローを第１のエッジとして指定し、且つ、
前記パターン内の第１のオペレーション・ユニット間の融合を指示するものであり、
前記オペレーション・ユニット・グラフをスキャンして、前記アーキテクチャ上のヒントによって指定された前記第１のオペレーション・ユニットの前記パターンのインスタンスを検出すること、これは、前記オペレーション・ユニット・グラフ内の第２のノード及び第２のエッジを、前記アーキテクチャ上のヒント内の前記第１のノード及び前記第１のエッジと適合させることと、パターン・マッチングを検出することとを含み、
前記オペレーション・ユニット・グラフ内の前記第２のノードと前記第２のエッジのオペレーション・ユニットを統合されたオペレーション・ユニット・ブロックに融合し、融合されたオペレーション・ユニット・グラフを生成すること、
前記再構成可能データ・プロセッサの前記物理演算ユニット及び／または前記物理メモリ・ユニットを前記融合されたオペレーション・ユニット・グラフにアロケーティングすること、及び、
前記アロケーティングに基づいて前記再構成可能データ・プロセッサ上で前記融合されたオペレーション・ユニット・グラフを実行すること、
を含むシステム。

【請求項14】

前記アーキテクチャ上のヒントが、前記パターン内の第１の出力オペレーション・ユニットを第１の出力ノードとして指定する請求項１３に記載のシステム。

【請求項15】

【請求項16】

前記トラバースが上向きトラバースである請求項１５に記載のシステム。

【請求項17】

【請求項18】

前記アーキテクチャ上のヒントが、パターン・グラフに翻訳するノードとエッジのリストとして表現される請求項１３に記載のシステム。

【発明の詳細な説明】

【優先出願】

【0001】

本出願は、米国特許出願第１６／５７２，５２７号（発明の名称「再構成可能アーキテクチャのための性能見積ベースのリソース・アロケーション」、２０１９年９月１６日出願（代理人整理番号ＳＢＮＶ１０１６－２））に関連する。本関連出願は全ての目的のために参照により組み込まれる。

【技術分野】

【0002】

本技術は、再構成可能アーキテクチャ上でオペレーション・ユニット・グラフを効率的に実行することに関し、特に、粗粒度再構成可能アーキテクチャ及び他の分散実行システム上でのディープ・ニューラル・ネットワークの効率的な実行に適用することができる。

【合体資料】

【0003】

以下の文献は、ここに完全に記載されているかの如く、全ての目的のために参照により本出願に組み込まれる。

【0004】

Koeplinger et al., "Spatial: A Language And Compiler For Application Accelerators," Proceedings Of The 39th ACM SIGPLAN Conference On Programming Language Design And Implementation (PLDI), Proceedings of the 43rd International Symposium on Computer Architecture, 2018;

【0005】

Prabhakar, et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns," ISCA '17, June 24-28, 2017, Toronto, ON, Canada;

【0006】

２０１９年１月３日出願の米国特許出願番号１６／２３９，２５２、発明の名称「再構成可能データ・プロセッサの仮想化」（代理人整理番号ＳＢＮＶ１０００－１）；

【0007】

２０１８年１１月２１日出願の米国特許出願番号１６／１９７，８２６、発明の名称「再構成可能データ・プロセッサの構成ロード」，（代理人整理番号ＳＢＮＶ１００１－１Ａ）；

【0008】

２０１８年１１月２１日出願の米国特許出願番号１６／１９８，０８６、発明の名称「再構成可能データ・プロセッサの構成アンロード」、（代理人整理番号ＳＢＮＶ１００１－１Ｂ）；

【0009】

２０１９年１月２９日出願の米国特許出願番号１６／２６０，５４８、発明の名称「正規行列／転置読込とその再構成可能データ・プロセッサ」（代理人整理番号ＳＢＮＶ１００５－１）；

【0010】

２０１９年８月８日出願の米国特許出願番号１６／５３６，１９２、発明の名称「再構成可能アーキテクチャのコンパイラ・フロー・ロジック」（代理人整理番号ＳＢＮＶ１００６－１）；

【0011】

２０１９年５月９日出願の米国特許出願番号１６／４０７，６７５、発明の名称「制御フローバリア及び再構成可能データ・プロセッサ」（代理人整理番号ＳＢＮＶ１００７－１）；及び

【0012】

２０１９年７月８日出願の米国特許出願番号１６／５０４，６２７、発明の名称「再構成可能データ・プロセッサの静止」（代理人整理番号ＳＢＮＶ１００８－１）。

【背景技術】

【0013】

このセクションで議論される主題は、単にこのセクションで言及された結果として、先行技術であると仮定されるべきではない。同様に、このセクションで言及された、または背景として提供される主題に関連する問題は、先行技術において以前に認識されたと仮定されるべきではない。このセクションの主題は単に、請求項に記載された技術の実施態様に対応することができる、様々な手法を表しているに過ぎない。

【0014】

フィールド・プログラマブル・ゲートアレイＦＰＧＡを含む再構成可能プロセッサは、コンピュータ・プログラムを実行する汎用プロセッサを使用して達成され得るものよりも効率的または高速に様々な機能を実装するように構成され得る。いわゆる粗粒度再構成可能アーキテクチャ（ＣＧＲＡ）が開発されており、このアーキテクチャでは、アレイ内の構成可能ユニットが、典型的なより細粒度のＦＰＧＡで使用されるよりも複雑であり、様々なクラスの機能のより高速またはより効率的な実行を可能にすることができる。例えば、機械学習及び人工知能作業負荷のためのエネルギー効率のよいアクセラレータの実施態様を可能にすることができるＣＧＲＡが提案されている。Prabhakar, et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns"、ISCA '17, June 24-28, 2017, Toronto, ON, Canadaを参照されたい。

【0015】

ＣＧＲＡは、性能、電力、またはエネルギー効率が最優先の場合、極めて魅力的なプラットフォームである。ＣＧＲＡは、再構成可能な相互接続ファブリックを使用して、あるトポロジ内で相互接続される粗粒度の再構成可能な演算要素及びメモリ要素の構成である。これは、アーキテクチャ内の再構成可能コンポーネントがＦＰＧＡ等のアーキテクチャで一般に見られる細粒度のビットレベル粒度とは対照的に、命令、ワード、及びワードのベクトル等のより粗い粒度で動作するため、粗粒度再構成可能と呼ばれる。ＣＧＲＡにおけるプログラマブル・データ及び制御パスは、再構成可能な演算及びメモリ・コンポーネントをカスタマイズされ、深くネストされた、階層的なパイプラインに接続することによって、アプリケーションにおけるネストされた並列性を利用するために、それらを自然に適合させる。

【0016】

最新のアプリケーションは、しばしば、幾つかのレベルのネストされたループレベルを有し、複数のレベルのネスティングにおける並列性を含む。このような深くネストされたループの場合、最も内側のループの本体のみに焦点を当てる従来のループ・パイプライン化方法では、しばしば、不十分な並列性を利用し、その結果、不十分なハードウェア利用の一因となり、性能、電力、またはエネルギー効率が悪くなる。

【0017】

オペレーションの並列性を指示するユーザ指定のアーキテクチャ上のヒントに基づいて、ＣＧＲＡの再構成可能素子上でオペレーションの実行を加速することができる。並列化とハードウェア使用率が改善される可能性がある。

【図面の簡単な説明】

【0018】

図面において、同様の参照符号は一般に、様々な表示を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示される技術の原理を示すことに概して重点が置かれる。以下の記載において、開示される技術の様々な実施態様が、以下の図面に関連して説明される。

【0019】

【図1】ホスト、メモリ、及び、構成可能ユニットのアレイを備える再構成可能データ・プロセッサを含むシステムを示すシステム図である。

【0020】

【図2】再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフを効率的に実行するために融合を使用する一実施態様である。

【0021】

【図3】ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）で記述されたパターン・グラフであり、ユーザ指定のアーキテクチャ上のヒントの例である。

【0022】

【図4】ＪＳＯＮで記述されたパターン・グラフであり、ユーザ指定のアーキテクチャ上のヒントの別の例である。

【0023】

【図5】開示された技術の一実施態様による融合アルゴリズムを示す。

【0024】

【図6】図５の融合アルゴリズムによって構成されるオペレーション・ユニットのパターンの一例を示す。

【0025】

【図7】開示された技術の一実施態様によるパターン・マッチング（適合したサブグラフ）を見つけるサンプル・コードである。

【0026】

【図8】複製のための選択の一実施態様を示す。

【0027】

【図9】複製の一実施態様を示す。

【0028】

【図10】図６の融合アルゴリズムを、ＲｅｓＮｅｔ５０のオペレーション・ユニット・グラフに適用する一例を示す。

【0029】

【図11】結果として得られる融合されたＲｅｓＮｅｔ５０のオペレーション・ユニット・グラフを示す。

【0030】

【図12】性能見積を使用して、再構成可能データ・プロセッサの利用可能な物理演算ユニット及び／または物理メモリ・ユニットを、融合されたオペレーション・ユニット・グラフのオペレーション・ユニットに、その実行のために割り当てる一実施態様を示す。

【0031】

【図13】再構成可能データ・プロセッサ上で融合されたオペレーション・ユニット・グラフを実行する性能見積を生成するために使用されるバイナリ・サーチ・アルゴリズムの一実施態様を示す。

【0032】

【図14】再構成可能データ・プロセッサ上の融合されたオペレーション・ユニット・グラフのパイプライン演算ロードを処理するのに必要な再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数を決定するリソース決定機能の一実施態様を示す。

【0033】

【図15】融合されたオペレーション・ユニット・グラフの特定の加算オペレーション・ユニットのステージ演算ロードを決定する一例を示す。

【0034】

【図16】融合されたオペレーション・ユニット・グラフの特定の行列乗算オペレーション・ユニットのステージ演算ロードを決定する別の例を示す。

【0035】

【図17】開示された技術の一実施態様に従って、性能見積が決定される例示的なオペレーション・ユニット・グラフを示す。

【0036】

【図18】開示された技術の一実施態様に従って、図１８のオペレーション・ユニット・グラフの異なるオペレーション・ユニットについて決定されたステージ演算処理時間を示す図である。

【0037】

【図19A】図１の再構成可能データ・プロセッサにおいて使用可能なタイル及びアレイ・レベル・ネットワークの簡略図である。

【図19B】アレイ・レベル・ネットワーク内の素子を接続する例示的なスイッチ・ユニットを示す。

【0038】

【図20】例示的な構成ユニットを示すブロック図である。

【発明を実施するための形態】

【0039】

以下の議論は、当業者が開示された技術を作成し、使用することを可能にするために提示され、特定の用途及びその要件との関連で提供される。開示された実施態様に対する種々の変形は、当業者には容易に明らかであり、本明細書で規定された全般的な原理は、開示された技術の趣旨及び範囲から逸脱することなく、他の実施態様及びアプリケーションに適用され得る。従って、開示された技術は、示された実施態様に限定されることを意図するものではなく、本明細書で開示された原理及び特徴と一致する最も広い範囲が与えられるべきである。
［再構成可能データ・プロセッサ］

【0040】

図１は、ホスト１２０、メモリ１４０、及び再構成可能データ・プロセッサ１１０を含むシステムを示すシステム図である。図１の例に示すように、再構成可能データ・プロセッサ１１０は、構成可能ユニットのアレイ１９０と、構成ロード／アンロード・コントローラ１９５とを含む。本明細書で使用される「構成ロード／アンロード・コントローラ」という語句は、構成ロード・コントローラと構成アンロード・コントローラとの組合せを指す。構成ロード・コントローラ及び構成アンロード・コントローラは別個のロジック及びデータ・パス・リソースを使用して実装されてもよく、または特定の実施形態に適合するように、共用ロジック及びデータ・パス・リソースを使用して実装されてもよい。幾つかの実施形態では、システムが本明細書で説明するタイプの構成ロード・コントローラのみを含むことができる。幾つかの実施形態では、システムが本明細書で説明するタイプの構成アンロード・コントローラのみを含むことができる。

【0041】

構成可能ユニットのアレイ１９０の構成は、ビットストリームまたはビット・ファイルとも呼ばれる構成ファイルを作成するための、コンパイラ（図示せず）による構成記述のコンパイル、構成ファイルをアレイ１９０上の構成可能ユニットに分配することを伴う。一実施形態では、コンパイラがアプリケーション・プログラムからビット・ファイルへの変換を提供する。

【0042】

プロセッサ１１０は、ホスト１２０に接続された外部Ｉ／Ｏインタフェース１３０と、メモリ１４０に接続された外部Ｉ／Ｏインタフェース１５０とを含む。Ｉ／Ｏインタフェース１３０，１５０は、バス・システム１１５を介して、構成可能ユニットのアレイ１９０と構成ロード／アンロード・コントローラ１９５に接続する。バス・システム１１５は、データの１つのチャンクを搬送するバス幅を有してもよく、本例ではバス幅は１２８ビットとすることができる（全体を通した１２８ビットへの言及は、より一般的にはチャンク・サイズの一例と見なすことができる）。一般に、構成ファイルのチャンクはビット数Ｎのデータを有することができ、バス・システムはＮビットのデータを１つのバスサイクルで転送するように構成することができ、ここで、Ｎは、任意の実用的なバス幅である。分散シーケンスで分配されるサブファイルは、１つのチャンク、または特定の実施形態に適した他の量のデータを含むことができる。手順は、本明細書では、各々が１つのデータのチャンクから成るサブファイルを使用して説明される。もちろん、この技術は、例えば、２つのバスサイクルに分配された２つのチャンクを含むサブファイルを含む、異なるサイズのサブファイルを分配するように構成することができる。

【0043】

構成ファイルを用いて構成可能ユニットのアレイ１９０内の構成可能ユニットを構成するために、ホスト１２０は、再構成可能データ・プロセッサ１１０内のインタフェース１３０、バス・システム１１５、及びインタフェース１５０を介して、構成ファイルをメモリ１４０に送信することができる。ホスト１２０は、バス・システム１２５を介してインタフェース１３０に接続する。メモリ１４０は、バス・システム１２５を介してインタフェース１５０に接続する。構成ファイルは、構成可能プロセッサ１１０外のデータパス内を含む特定のアーキテクチャに適するように、多くの方法でロードされ得る。構成ファイルは、メモリ・インタフェース１５０を介してメモリ１４０から検索することができる。次いで、構成ファイルのチャンクは、本明細書で説明するように分配シーケンスで、再構成可能データ・プロセッサ１１０における構成可能ユニットのアレイ１９０内の構成可能ユニットに送信することができる。

【0044】

外部クロック発生器１７０または他のクロック信号源は、構成可能ユニットのアレイ１９０、バス・システム１１５、及び外部データＩ／Ｏインタフェースを含む、再構成可能データ・プロセッサ１１０内の素子にクロック信号１７５またはクロック信号を供給することができる。
［融合］

【0045】

図２は、再構成可能データ・プロセッサ１００上でオペレーション・ユニット・グラフ２０４を効率的に実行するために融合２００を使用する一実施態様である。フューザ２１４は、オペレーション・ユニット・グラフ２０４、アーキテクチャ上のヒント２０２、及びアーキテクチャ仕様２１２を入力として受け取り、融合されたオペレーション・ユニット・グラフ２２４を生成する。

【0046】

オペレーション・ユニット・グラフ２０４は、Ｃ、Ｃ＋＋、Ｊａｖａ、Ｐｙｔｈｏｎ、またはＳｐａｔｉａｌ等のプログラミング言語で書かれたアプリケーション・プログラムまたはソース・コードである。例えば、オペレーション・ユニット・グラフ２０４は、各レイヤが異なるプロパティを有する幾つかのネストされたループを含むように、様々なサイズ及びデータタイプの幾つかのレイヤを用いて畳み込みニューラルネットワーク（ＣＮＮ）処理を実施することができる。例えば、オペレーション・ユニット・グラフ２０４は、入力及び重み付けにアクセスするためのメモリ・オペレーションと、行列乗算を実行するための浮動小数点演算とを含むことができる。別の例として、オペレーション・ユニット・グラフ２０４は、次のレイヤの出力を生成するために、前のレイヤからの入力値に次のレイヤの重みをロードして乗算する、高い反復カウントを有するネストされたループ、及びループ本体を含むことができる。オペレーション・ユニット・グラフ２０４は、粗粒度パイプライン化を使用して利用することのできる最も外側のループ本体のループレベルの並列性を有する。これは、ループ展開、ＳＩＭＤベクトル化、及びパイプライン化を使用して同様に利用できる、最も内側のループ本体の命令レベルの並列性を有する。

【0047】

ループに関して、ループ本体に直接ネストされたループは、外側親ループの子ループと呼ばれる。ループは、子を持たない場合、即ち、その本体内にネストされたループがない場合、最も内側のループと呼ばれる。ループは、親を有さない場合、即ち、別のループの本体内にネストされていない場合、最も外側のループである。不完全にネストされたループは、非ループ文（例えば、基本演算、論理演算、関係演算のオペレーション）と１または複数の子ループが混在した本文を持つ。不完全にネストされたループにおける並列性は、任意のまたは全てのループレベルにおいて、及びループ本体を含むオペレーションにおいて利用することができる。並列性は、細粒度及び粗粒度パイプラインの並列性、データの並列性、及びタスクの並列性等の複数の形式で発生する。

【0048】

オペレーション・ユニット・グラフ２０４の実例として以下が含まれる：
・ AlexNet
・ ResNet
・ Inception
・ WaveNet
・ PixelCNN
・ GoogLeNet
・ ENet
・ U-Net
・ BN-NIN
・ VGG
・ LeNet
・ DeepSEA
・ DeepChem
・ DeepBind
・ DeepMotif
・ FIDDLE
・ DeepLNC
・ DeepCpG
・ DeepCyTOF
・ SPINDLE

【0049】

アーキテクチャ上のヒント２０２は、ＪＳＯＮ、Ｃ、Ｃ＋＋、Ｊａｖａ、Ｐｙｔｈｏｎ、またはＳｐａｔｉａｌ等の高レベル言語を使用して、アプリケーション開発者及びシステム・アーキテクト等のユーザによって指定される。Koeplinger et al., "Spatial: A Language And Compiler For Application Accelerators," Proceedings Of The 39th ACM SIGPLAN Conference On Programming Language Design And Implementation (PLDI), Proceedings of the 43rd International Symposium on Computer Architecture, 2018を参照されたい。

【0050】

図３及び図４は、ＪＳＯＮで書かれたアーキテクチャ上のヒント２０２の例を示す。アーキテクチャ上のヒント２０２は、再構成可能データ・プロセッサ１００の物理演算ユニット及び／または物理メモリ・ユニット上で第１のオペレーション・ユニットのパターンを実行するときに、第１のオペレーション・ユニットを融合することを要求する。また、アーキテクチャ上のヒント２０２は、パターン内の第１の演算ユニットを第１のノードとして指定し、パターン内の第１の演算ユニット間の第１のデータフローを第１のエッジとして指定する。更に、アーキテクチャ上のヒント２０２は、パターン内の第１のオペレーション・ユニット（例えば、３２２、３３２、３４２、２５２、４２２）間の融合を指示する。

【0051】

一実施態様では、アーキテクチャ上のヒント２０２が、再構成可能データ・プロセッサ１００の１つの物理演算ユニット上で実行可能な１つのオペレーションに融合されるノード・パターンのリストを記述する。幾つかの実施態様では、各ノード・パターンは、ノードのリスト（それらの汎用一意識別子（ＵＵＩＤ）とオペレーション・タイプ）、ノードが如何に接続されているかを記述するエッジ（即ち、各ノードの入力のリスト）、及び融合されたノードのオペレーション・タイプで構成される。

【0052】

パターン・グラフ３００は、アーキテクチャ上のヒント２０２の一例である。パターン・グラフ３００は、（１）２次元（２Ｄ）畳み込みオペレーション・ユニット（Ｃｏｎｖ２Ｄ）、（２）バッチ正規化オペレーション・ユニット（ＢａｔｃｈＮｏｒｍ）、及び（３）正規化線形ユニット（ＲｅＬＵ）オペレーション・ユニットの３つの演算ユニット（Ｃｏｎｖ２ＤＢＮＲｅｌｕ）の融合３２２を要求する。パターン・グラフ３００は、これら３つのオペレーション・ユニットをノード３０２として指定し、これら３つのオペレーション・ユニット間のデータフローをエッジ３１２として指定する。

【0053】

パターン・グラフ３００は、また、(１）２Ｄ畳み込みオペレーション・ユニット、及び、（２）バッチ正規化オペレーション・ユニットの２つのオペレーション・ユニット（Ｃｏｎｖ２ＤＢＮ)の融合３３２を要求する。パターン・グラフ３００は、また、（１）２Ｄ畳み込みオペレーション・ユニット、及び、（２）ＲｅＬＵオペレーション・ユニットの２つのオペレーション・ユニット（Ｃｏｎｖ２ＤＲｅｌｕ）の融合３４２を要求する。パターン・グラフ３００は、また、（１）乗算オペレーション・ユニット（Ｍｍ）、及び、（２）加算オペレーション・ユニット（Ａｄｄ）の２つのオペレーション・ユニット（Ａｄｄｍｍ）の融合３５２を要求する。

【0054】

パターン・グラフ４００は、非シーケンシャル・パターンに対するアーキテクチャ上のヒント２０２の別の例である。パターン・グラフ４００は、（１）第１の２Ｄ畳み込みオペレーション・ユニット、（２）第１のバッチ正規化オペレーション・ユニット、（３）第２の２Ｄ畳み込みオペレーション・ユニット、（４）第２のバッチ正規化オペレーション・ユニット、（５）加算オペレーション・ユニットの５つのオペレーション・ユニット（Ｃｏｎｖ２ＤＢＮＡｄｄ）の融合４２２を要求する。パターン・グラフ４００は、これら５つのオペレーション・ユニットをノード４０２として指定し、これら５つのオペレーション・ユニット間のデータフローをエッジ４１２として指定する。ここで、再構成可能データ・プロセッサ１００の１つの物理演算ユニットは、データの２つのセットに対して２Ｄ畳み込みオペレーションとバッチ正規化を行い、その結果を加算する。

【0055】

フューザ２１４は、再構成可能データ・プロセッサ１００の目標アーキテクチャを考慮して融合を実行する。目標アーキテクチャは、アーキテクチャ仕様２１２において規定され、ユーザによって提供される。一実施態様では、アーキテクチャ上のヒント２０２が再構成可能データ・プロセッサ１００の目標アーキテクチャに固有である。

【0056】

図６は、開示された技術の一実施態様による融合アルゴリズム５００を示す。一実施態様では、融合アルゴリズム５００がフューザ２１４によって実施される。

【0057】

オペレーション５０２において、融合アルゴリズム５００は、ユーザ指定のアーキテクチャ上のヒント２０２に基づいて「オペレーション・ユニットのパターン」を構築する。オペレーション・ユニットのパターン内のノードは制御構造、データ・オペレーション、及びメモリ・アロケーションを表し、エッジは、データ及び効果依存性を表す。オペレーション・ユニットのパターンは分岐、ループ、関数呼び出し、及び制御依存性の他の変形をサポートする。一実施態様では、オペレーション・ユニットのそれぞれのパターンが複数入力を有することができるが、１つの出力のみを有することができる。出力ノードは、"node_pattern_output"と呼ばれる。図６は、加算出力ノード６２２（node_pattern_output）と共に、２Ｄ畳み込みノード６０２，６０４及びバッチ正規化ノード６１２，６１４を有するオペレーション・ユニットのパターンの一例６００を示す。

【0058】

アクション５１２において、融合アルゴリズム５００は融合されていないオペレーション・ユニット・グラフ２０４内の、オペレーション・ユニットのパターンの出力ノード（例えば、加算出力ノード６２２）に適合するノードを見つける。この融合されていないオペレーション・ユニット・グラフ２０４内の適合したノードを"node_matched_output"と呼ぶ

【0059】

アクション５２２において、融合アルゴリズム５００は、並列に、node_pattern_outputから、及び、node_matched_outputから上方へトラバースし、オペレーション・ユニットのパターン内の全てのノードがアクセスされるまで、全ての対応するノードが適合するかどうかをチェックする。全てのノードが適合する場合、「適合したサブグラフ」が見つかる。適合したサブグラフが見つからない場合、融合アルゴリズム５００はアクション５１２に戻る。

【0060】

一実施態様では、アクション５２２は検出器７１４によって実行され、検出器は、順々にスキャナ７０２とマッチャー７１２を備える。アクション５２２を具体化するサンプル・コード７２４は、７００のパターン・マッチング（適合したサブグラフ）を見つけるために、図７にも提供される。スキャナ７０２は。融合されていないオペレーション・ユニット・グラフ２０４をスキャンして、アーキテクチャ上のヒント２０２によって指定された第１のオペレーション・ユニット（例えば、３２２、３３２、３４２、２５２、４２２）のパターンのインスタンスを検出する。マッチャー７１２は、オペレーション・ユニット・グラフ２０４内の第２のノード及び第２のエッジを、アーキテクチャ上のヒント２０２内の第１のノード及び第１のエッジと適合させ、パターン・マッチング（適合したサブグラフ）を検出する。

【0061】

一実施態様では、アクション５２２は、アーキテクチャ上のヒント２０２によって指定された第１の出力ノードをオペレーション・ユニット・グラフ２０４内の第２の出力ノードと適合させることによってパターン・マッチングを検出することと、オペレーション・ユニット・グラフ２０４内の第２の出力ノードから始めて、オペレーション・ユニット・グラフ２０４をトラバースして、オペレーション・ユニット・グラフ２０４内の第２のノード及び第２のエッジがアーキテクチャ上のヒント２０２内の第１のノード及び第１のエッジとマッチングすることを決定することとを含む。一実施態様では、トラバースは上向きトラバースである。

【0062】

アクション５３２で、融合アルゴリズム５００は、適合したサブグラフ内の中間ノードが適合したサブグラフの外側を指す接続を有する場合に、その適合したサブグラフの一部を複製する統合されたオペレーション・ユニット・ブロック８１４は、２Ｄ畳み込みユニット（Ｃｏｎｖ２Ｄ）８１２、バッチ正規化オペレーション・ユニット（ＢａｔｃｈＮｏｒｍ）８２４、及びＲｅＬＵオペレーション・ユニット（ＲｅＬＵ）８３４を備える。ここで、Ｃｏｎｖ２Ｄ８１２及びＢａｔｃｈＮｏｒｍ８２４の中間結果は、加算オペレーション・ユニット（Ａｄｄ）８４２への入力として、統合されたオペレーション・ユニット・ブロック８１４の外部で必要とされる。これは、ノード融合後の正確さを保証するために、幾つかのノードの複製を必要とする。

【0063】

一実施態様では、適合したサブグラフ（即ち、統合されたオペレーション・ユニット・ブロック）の中間ノードを接続する任意のコネクションについて、統合されたオペレーション・ユニット・ブロック内の中間ノード並びにその先祖の全てが複製される。統合されたオペレーション・ユニット・ブロック８１４の場合、そのような中間ノードは、Ｃｏｎｖ２Ｄ８１２及びＢａｔｃｈＮｏｒｍ８２４である。

【0064】

図９は、識別されたオペレーション・ユニット（例えば、Ｃｏｎｖ２Ｄ８１２Ａ、Ｃｏｎｖ２Ｄ８１２Ｂ、ＢａｔｃｈＮｏｒｍ８２４）及びそのデータフローを複製し（９００）、識別されたオペレーション・ユニット（例えば、ＢａｔｃｈＮｏｒｍ８２４）及びそのデータフローに入力を提供する統合されたオペレーション・ユニット・ブロック８１４内の任意の他のオペレーション・ユニット（例えば、Ｃｏｎｖ２Ｄ８１２Ａ）を複製することを示す。

【0065】

アクション５４２で、融合アルゴリズム５００は、アーキテクチャ上のヒント２０２によって指定されたように、適合したサブグラフを融合されたノードで置き換える。一実施態様では、フューザ２１４が、オペレーション・ユニット・グラフ２０４内の第２のノードと第２のエッジとを統合されたオペレーション・ユニット・ブロックに融合して、融合されたオペレーション・ユニット・グラフ２２４を生成する。

【0066】

アロケータ２３４は、再構成可能データ・プロセッサ１００の物理演算ユニット及び／または物理メモリ・ユニットを融合されたオペレーション・ユニット・グラフ２２４にアロケーティングする。

【0067】

エグゼキュータ２４４は、該アロケーティングに基づいて、再構成可能データ・プロセッサ１００上で融合されたオペレーション・ユニット・グラフ２２４を実行する。
［ＲｅｓＮｅｔ５０の融合例］

【0068】

図１０は、図６の融合アルゴリズムをＲｅｓＮｅｔ５０のオペレーション・ユニット・グラフ１０００に適用する一例を示す。融合アルゴリズム５００は、Ｃｏｎｖ２Ｄオペレーション・ユニット１００２、ＢａｔｃｈＮｏｒｍオペレーション・ユニット１０１２、Ｃｏｎｖ２Ｄオペレーション・ユニット１０２２、ＢａｔｃｈＮｏｒｍオペレーション・ユニット１０３２、及びＡｄｄオペレーション・ユニット１０４２を含む適合したサブグラフを、それらのデータフロー（点線の矢印として示される）と共に識別する。

【0069】

図１１は、得られた融合されたＲｅｓＮｅｔ５０のオペレーション・ユニット・グラフ１１００を、統合されたオペレーション・ユニット・ブロック１１０２（即ち、融合されたブロック）と共に示す。
［性能見積］

【0070】

開示された技術は、再構成可能データ・プロセッサ１００上でオペレーション・ユニット・グラフを実行するための性能見積を生成する。オペレーション・ユニット・グラフは、融合されたオペレーション・ユニット・グラフ２２４とすることができる。一実施態様では、性能見積は、再構成可能データ・プロセッサ１００の利用可能な物理演算ユニット及び／または物理メモリ・ユニットをオペレーション・ユニット・グラフのオペレーション・ユニットにアロケーティングするために使用される。

【0071】

図１２は、性能見積１２００を使用して、再構成可能データ・プロセッサ１００の利用可能な物理演算ユニット及び／または物理メモリ・ユニットを、融合されたオペレーション・ユニット・グラフ２２４のオペレーション・ユニットに、その実行のためにアロケーティングする一実施態様を示す。

【0072】

性能見積器１２０２は、融合されたオペレーション・ユニット・グラフ２２４を入力として受け取り、出力として性能見積１２６２を生成する。一実施態様では、性能見積１２６２を使用して、再構成可能データ・プロセッサ１００の利用可能な物理演算ユニット及び／または物理メモリ・ユニットを融合されたオペレーション・ユニット・グラフ２２４のオペレーション・ユニットにアロケーティングし、次いで、再構成可能データ・プロセッサ１００上で融合されたオペレーション・ユニット・グラフ２２４を実行する。

【0073】

幾つかの実施態様では、ビジュアライザ１２７２が、表示用の性能見積１２６２を生成する。視覚化は、融合されたオペレーション・ユニット・グラフ２２４が再構成可能データ・プロセッサ１００によってどの程度効率的に実行されるかを伝えるために使用することができる。視覚化は、比較分析に使用して、融合されたオペレーション・ユニット・グラフ２２４の性能見積をオペレーション・ユニット・グラフ２０４の性能見積と比較することができる。視覚化は、第１の融合されたオペレーション・ユニット・グラフの性能見積と第２の融合されたオペレーション・ユニット・グラフの性能見積を比較する比較分析に使用することができる。視覚化は、第１のオペレーション・ユニット・グラフの性能見積を第２のオペレーション・ユニット・グラフの性能見積と比較するための比較分析に使用することができる。

【0074】

性能見積器１２０２は、サーチャー１２１２と、パイプライン・リソース決定器１２２２と、ステージ待ち時間決定器１２３２と、ステージ・リソース決定器１２４２と、性能見積計算器１２５２とを備える。

【0075】

一実施態様では、性能見積１２６２は、再構成可能データ・プロセッサ１００上で融合されたオペレーション・ユニット・グラフ２２４を実行するスループット及び待ち時間を識別する。理想的なケースでは、チップ（再構成可能データ・プロセッサ１００）の使用率は１００％で、これは次のように定式化できる：

ここで、GRAPH FLOPは、融合されたオペレーション・ユニット・グラフ２２４における浮動小数点演算の総数であり、CHIP FLOPSは、１秒当たりにチップ（再構成可能データ・プロセッサ１００）によって処理可能な浮動小数点演算の最大数である。

【0076】

チップ（再構成可能データ・プロセッサの１００）の１００％使用率が、（例えば、ソフトウェアやハードウェアの制約のために）達成されない場合、：

但し、ηは平均チップ使用率である。

【0077】

ここで、ηは再構成可能データ・プロセッサ１００のアーキテクチャ、融合されたオペレーション・ユニット・グラフ２２４、及び／または融合されたオペレーション・ユニット・グラフ２２４の入力次元に依存する数字であり、従って、容易に見積もることができない。更に、特定のオペレーション・ユニット・グラフについては、再構成可能データ・プロセッサ１００の異なる物理演算ユニット及び／または物理メモリ・ユニットの使用率も異なってくる可能性があり、これは特定の物理演算ユニットまたは物理メモリ・ユニット上で実行されるオペレーション及びデータ・サイズに依存する。例えば、畳み込みを実行する物理演算ユニットは非常に高い使用率を達成することができ、一方、加算を実行する物理演算ユニットは、使用率が低くなり得る。これらの変数は正確な性能見積を困難にする。
［バイナリ・サーチ］

【0078】

図１３は、再構成可能データ・プロセッサ１００上で融合されたオペレーション・ユニット・グラフ２２４を実行する性能見積１２６２を生成するために使用されるバイナリ・サーチ・アルゴリズム１３００の一実施態様を示す。

【0079】

サーチャー１２１２は、バイナリ・サーチ・アルゴリズム１３００による反復処理を使用して、融合されたオペレーション・ユニット・グラフ２２４のオペレーション・ユニットを実行するのに必要な汎用ステージ演算処理時間（"stage_latency"）を決定する。一実施態様では、サーチャー１２１２は、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲の下限（"stage_latency_low"）及び上限（"stage_latency_high"）を初期化する。

【0080】

一実施態様では、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）は、再構成可能データ・プロセッサ１００の最大使用率（例えば、１００％使用率）に基づくことができる。これは、アクション１３０２において具体化される。

【0081】

一実施態様では、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲上限（"stage_latency_high"）は、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）と最小使用ファクタの乗算に基づくことができる。幾つかの実施態様では、最小使用ファクタが１００であるため、最小使用率は１％である。他の実施態様では、サーチ範囲上限（"stage_latency_high"）の初期値は、サーチ範囲下限（"stage_latency_low"）の１０００倍に設定されており、これはまた、０．１％使用率に等しくなる。これも、アクション１３０２において具体化される。

【0082】

次に、サーチャー１２１２は評価のために、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）とサーチ範囲上限（"stage_latency_high"）間の中間ステージ演算処理時間を選択する。一実施態様では、中間ステージの演算処理時間は、汎用ステージの演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）とサーチ範囲上限（"stage_latency_high"）の平均（"stage_latency_average"）にすることができる。これは、アクション１３１２において具体化される。

【0083】

次に、パイプライン・リソース決定器１２２２は、再構成可能データ・プロセッサ１００上の融合されたオペレーション・ユニット・グラフ２２４のパイプライン演算ロードを処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数１４３２（"total_PCUs"）を決定する。
［ステージ演算ロード］

【0084】

図１４を参照すると、融合されたオペレーション・ユニット・グラフ２２４の各オペレーション・ユニット（"for node in fused_graph"）に対して、ステージ待ち時間決定器１２３２は、リソース決定機能（例えば、"get_graph_PCUs"１４０２）を使用して、リソース決定１４００を実行し、１つの物理演算ユニットのみ及び／または１つの物理メモリ・ユニットのみを使用して融合されたオペレーション・ユニット・グラフ２２４のオペレーション・ユニットのそれぞれ１つのステージ演算ロード１４２４（"node.get_flop()"）を処理するのに必要な特定のステージ演算処理時間１４１４（"node_latency_with_one_PCU"）を決定する。

【0085】

オペレーション・ユニットのそれぞれ１つのステージ演算ロード１４２４（"node.get_flop()"）は、オペレーション・ユニットのそれぞれ１つを実行するのに必要な浮動小数点演算（ＦＬＯＰ）の総数を意味するが、そのオペレーション・タイプ、入力次元、及び出力次元によって決定される。

【0086】

例えば、図１５では、加算オペレーション・ユニットについてのステージ演算ロード１５００が、出力サイズの関数としてＦＬＯＰ１５０２の総数を先ず計算することによって決定される。即ち、１回のオペレーションで１つの出力数が生成される。次いで、テンソル形状に基づいて入力サイズ１５１２が計算される。

【0087】

再構成可能データ・プロセッサ１００の一実施態様では、物理演算ユニットは３２のレーン及び６つのステージを有し、全体で１９６（３２×６）の算術論理ユニット（ＡＬＵ）を有する。各ＡＬＵは、１サイクル当たり２つの演算を実行することができ、１サイクルで１つの乗算と加算を終了することができる。これは"n_passes"１５２２として具体化される。

【0088】

加算オペレーション・ユニットは１ステージしか使用できないので、"/ config.PCU_N_STAGES"パラメータ１５３６は、"PCU_utilization"計算式１５３２に含まれる。ＰＣＵ使用率計算１５３２の他の構成要素１５３４は、加算が全てのレーンを活用することができない可能性があることによるものである。例えば、３２個の数字に３２個の数字を追加すると、３２個のレーンを（並列に）活用できる。しかし、４０個の数字があれば、最初に３２個の数字をロードし、次に８個の数字をロードし、従って、使用率に（４４／６４）が乗算される。

【0089】

別の例では、図１６において、行列乗算オペレーション・ユニットのステージ演算ロード１６００が、先ず、出力サイズＭ×Ｎの関数としてＦＬＯＰ１６０２の総数を先ず計算することによって決定される、即ち、出力要素毎に、Ｋ回の乗算及び加算オペレーションを行う必要があり、従って、総ＦＬＯＰはＭ×Ｎ×（Ｋ×２）である。

【0090】

１つの物理演算ユニットを使用して、１６１２で具体化されるように、Ｍ次元の３２レーンにわたって並列化し、Ｎ次元の６つのステージにわたって並列化することができる。従って、Ｍ＝６４、Ｋ＝１００、Ｎ＝１２であれば、第１の行列を２つの３２×１００のチャンクに分割し、第２の行列を２つの２００×６のチャンクに分割することによって、１００％の使用率１６２２を達成することができる。しかし、Ｍ＝１６、Ｋ＝１００、Ｎ＝３の場合、２５％の使用率１６２２しか得ることができない。
［ステージ演算処理時間］

【0091】

最後に、特定ステージ演算処理時間１４１４（"node_latency_with_one_PCU"）は、１つの物理演算ユニットのみ及び／または１つの物理メモリ・ユニットのみの使用率と能力との比率として決定される（後者は特定のプロセッサ／チップ／ハードウェアに対して定数とすることができる）。
［ステージ・リソース］

【0092】

ステージ・リソース決定器１２４２は、特定ステージ演算処理時間１４１４（"node_latency_with_one_PCU"）を中間ステージ演算処理時間１４３４（例えば、"stage_latency_average"）で除算することによって、オペレーション・ユニットのそれぞれ１つのステージ演算ロード１４２４（"node.get_flop()"）を処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのステージ数１４３２（"node_PCUs"）を決定する。

【0093】

一実施態様では、ステージ・リソース決定器１２４２が、ステージ演算処理時間１４１４（"node_latency_with_one_PCU"）を中間ステージ演算処理時間１４３２（例えば"stage_latency_average"）で除算した結果である整数に切り上げることによって、ステージ演算ロード１４２４（"node.get_flop()"）を処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのステージ数１４３２（"node_PCUs"）を決定する。これは、天井関数１４３３によって具体化される。
［パイプライン・リソース］

【0094】

パイプライン・リソース決定器１２２２はオペレーション・ユニットのそれぞれについて物理演算ユニット及び／または物理メモリ・ユニットのステージ数１４３２（"node_PCUs"）を合計し、物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数１４４２（"total_PCUs"）を生成する。これも、図１３のアクション１３１２において具体化される。

【0095】

一実施態様では、ノード毎に、１つのＰＣＵのみが使用される場合、先ず、その待ち時間を計算した。これは、各オペレーション（例えば、Ｃｏｎｖ、Ａｄｄ）のモデリングを有するノード・ライブラリを構築することを必要とし、その結果、入力及び出力サイズが与えられると、ＦＬＯＰ及び各オペレーションの使用率を演算する方法が分かる。次に、この待ち時間（１つのＰＣＵを有する）と目標ｓｔａｇｅ＿ｌａｔｅｎｃｙとの間の比率を調べて、このオペレーションを並列化するのに必要なＰＣＵの数を決定する。グラフの合計ＰＣＵは、各ノードにアロケーティングされたＰＣＵの合計になる。
［反復］

【0096】

次に、サーチャー１２１２は汎用ステージ演算処理時間（"stage_latency"）の新しいサーチ範囲下限（"stage_latency_low"）及びサーチ範囲上限（"stage_latency_high"）を反復的に初期化し、次の反復における評価のために、前の反復における前の中間ステージ演算処理時間に対して生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数１４３２（"total_PCUs"）が、利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）よりも低いか高いかを考慮して、汎用ステージ演算処理時間（"stage_latency"）の新しいサーチ範囲下限及びサーチ範囲上限間の新しい中間ステージ演算処理時間を選択する。これは、アクション１３２２において具体化される。

【0097】

一実施態様では、前の反復における前の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数１４３２（"total_PCUs"）が利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）よりも低い場合、サーチャー１２１２は、次の反復のための新しいサーチ範囲上限（"stage_latency_high"）を前の中間ステージ演算処理時間（例えば、"stage_latency_average"）として設定する。これは、動作１３２４において具体化される。

【0098】

一実施態様では、前の反復における前の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数１４３２（"total_PCUs"）が利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）よりも高い場合、サーチャー１２１２は、次の反復のための新しいサーチ範囲下限（"stage_latency_low"）を前の中間ステージ演算処理時間（例えば、"stage_latency_average"）として設定する。これは、アクション１３３２において具体化される。

【0099】

一実施態様では、各反復でサーチ範囲の上限と下限の中間点（stage_latency_average）を選択し、get_graph_PCUs関数の呼び出しを介して、このようなステージ待ち時間を実現するのに必要な合計ＰＣＵの見積りを取得する。ＰＣＵの合計数が利用可能なＰＣＵを超える場合は、ステージ待ち時間を増やす必要がある(stage_latency_low = stage_latency_average)。それ以外の場合は、性能を更に向上させるために費やす演算リソースが増えるため、ステージ待ち時間の削減を試みる(stage_latency_high = stage_latency_average)。
［終了］

【0100】

サーチャー１２１２は、現在の反復における現在の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数１４３２（"total_PCUs"）が収束基準を満たす場合、反復初期化及び選択を終了する。一実施態様では、サーチ範囲上限とサーチ範囲下限間の差異が閾値未満になるとき、収束基準が生じる。これは、アクション１３４２において具体化される。一実施態様では、サーチャー１２１２がサーチ範囲上限とサーチ範囲下限間の差異が閾値を上回る限り、反復初期化及び選択を継続する。
［スループット及び待ち時間］

【0101】

性能見積計算器１２５２は、現在の中間ステージ演算処理時間の逆関数としてパイプライン・スループットを計算し、ステージ演算処理時間に融合されたオペレーション・グラフ２２４内のオペレーション・ユニットの数（"graph depth"）を乗算することによってグラフ待ち時間を計算する。これは、アクション１３４４において具体化される。
［汎用性能見積例］

【0102】

図１７は、開示された技術の一実施態様に従って、性能見積が決定される例示的なオペレーション・ユニット・グラフ１７００を示す。

【0103】

空間アーキテクチャでは、ノード・オペレーションはパイプライン化される。言い換えれば、各ノードはパイプライン内のステージであり、パイプラインの長さはグラフの深さである。例えば、オペレーション・ユニット・グラフ１７００では、パイプライン内に５つのノード／ステージ／オペレーション・ユニットがある。第２のオペレーション「Ａｄｄ１」にアロケーティングされたＰＣＵがｎ番目のサンプルに加算を適用している間、第１のオペレーション「Ｃｏｎｖ１」１７０２のＰＣＵはｎ＋１番目のサンプルに対して畳み込みを実行している（また、Ｃｏｎｖ２はｎ－１番目のサンプルに対するオペレーション等である）。

【0104】

図１８は、開示された技術の１つの実施態様に従った、図１７のオペレーション・ユニット・グラフ１７００の異なるオペレーション・ユニット１７０２、１７１２、１７２２、１７３２、及び１７４２について決定されたステージ演算処理時間１８００を図示する。列１８０２及び１８１２内の値は、１つのＰＣＵ及び／またはＰＣＵのみがそれぞれのノード／オペレーション・ユニット／ステージにアロケーティングされる場合に考慮される、同様に命名されたセクションにおいて上述されたステージ演算ロード及びステージ演算処理時間の実施形態に基づいて決定される。

【0105】

ここで、４０台の利用可能なＰＣＵ(available_PCUs)があると仮定する。ステージ待ち時間の現在のサーチ範囲を４ｕｓ(stage_latency_low)及び１２ｕｓ(stage_latency_high)と仮定する。中間点を（４＋１２）／２＝８ｕｓ(stage_latency_average)とする。Ｃｏｎｖ１１７０２が８ｕｓを達成するためには、２００／８＝２５通りに並列化する必要がある。従って、Ｃｏｎｖ１１７０２に２５個のＰＣＵを割り当てる。同様に、Ａｄｄ１１７１２にｃｅｉｌ（１８／８）＝３ＰＣＵを、Ｃｏｎｖ２１７２２にｃｅｉｌ（１１０／８）＝１４ＰＣＵを、Ａｄｄ２１７３２にｃｅｉｌ（９／８）＝２ＰＣＵを、ＭＭ１７４２にｃｅｉｌ（５０／８）＝７ＰＣＵを割り当てる。使用されるＰＣＵの合計は、２５＋３＋１４＋２＋７＝５１（total_PCUs）で、使用可能な４０（available_PCUs）よりも大きくなる。

【0106】

従って、stage_latency_low ＝８ｕｓとすることによって、ステージ待ち時間を増加させ、試みる次の中間点は（８＋１２）／２＝１０ｕｓとなる。バイナリ・サーチ・アルゴリズム１３００は最終的に、最適ステージ待ち時間として１１ｕｓに収束する。これに基づいて、見積もられたスループットは、１／１１ｕｓ＝９０，９０９サンプル／ｓである。グラフ待ち時間は１１ｕｓ×５＝５５ｕｓである。
［再構成可能タイル］

【0107】

図１９Ａは、図１の再構成可能データ・プロセッサにおいて使用可能なタイル及びアレイ・レベル・ネットワークの簡略図１９００である。図１９Ｂは、アレイ・レベル・ネットワークにおける素子を接続する例示的なスイッチ・ユニットを示す。この例では、構成可能ユニット３００のアレイが複数のタイプの構成可能ユニットを含む。この例における構成可能ユニットのタイプは、パターン演算ユニット（ＰＣＵ）、パターン・メモリ・ユニット（ＰＭＵ）、スイッチ・ユニット（Ｓ）、及びアドレス生成及び結合ユニット（それぞれ２つのアドレス生成器ＡＧ及び共用ＣＵを含む）を含む。これらのタイプの構成可能ユニットの機能の例については、「Prabhakar et al., "Plasticine: A Reconfigurable Architecture For Parallel Patterns", ISCA '17, June 24-28, 2017, Toronto, ON, Canada」を参照されたく、また、上記文献は本明細書に完全に記載されているかのように参照により組み込まれる。

【0108】

これらの構成可能ユニットのそれぞれは、プログラムを実行するためのセットアップまたはシーケンスの何れかを表すレジスタまたはフリップフロップのセットを備える構成ストアを含み、ネストされたループの数、各ループ・イテレータの限界、各ステージに対して実行される命令、オペランドのソース、及び、入力及び出力インタフェースのネットワーク・パラメータを含むことができる。

【0109】

更に、これらの構成可能ユニットのそれぞれは、ネストされたループまたは他のものにおける進行を追跡するために使用される状態を記憶するレジスタまたはフリップフロップのセットを備える構成ストアを含む。構成ファイルは、プログラムを実行する各構成要素の初期構成または開始状態を表すビットストリームを含む。このビットストリームは、ビット・ファイルと呼ばれる。プログラム・ロードは、ビット・ファイルの内容に基づいて構成可能ユニットのアレイ１９０に構成ストアをセットアップし、全ての構成要素がプログラム（つまり、マシン）を実行できるようにする処理である。また、プログラム・ロードは、全てのＰＭＵメモリのロードを必要とすることもある。

【0110】

アレイ・レベル・ネットワークは、アレイ内の構成可能ユニットを相互接続するリンクを含む。アレイ・レベル・ネットワーク内のリンクは、１以上の物理バスを含み、この場合では、チャンクレベル・ベクトル・バス（例えば、１２８ビットのデータ）、ワードレベル・スカラバス（例えば、３２ビットのデータ）、及び、複数ビットレベルの制御バスの３種類の物理バスを含む。例えば、スイッチ・ユニット１９１１と１９１２との間の相互接続１９２１は、１２８ビットのベクトル・バス幅を有するベクトル・バス相互接続と、３２ビットのスカラ・バス幅を有するスカラ・バス相互接続と、制御バス相互接続とを含む。

【0111】

３種類の物理バスは、転送されるデータの粒度が異なる。一実施形態では、ベクトル・バスがそのペイロードとして１６バイト（＝１２８ビット）のデータを含むチャンクを搬送することができる。スカラ・バスは３２ビットのペイロードを持つことができ、スカラ・オペランドまたは制御情報を搬送することができる。制御バスは、トークン及び他の信号等の制御ハンドシェイクを搬送することができる。ベクトル・バスとスカラ・バスはパケット交換が可能であり、各パケットの宛先を示すヘッダと、パケットが順不同で受信されたときにファイルを再構成するために使用できるシーケンス番号等のその他の情報を含む。各パケットヘッダには、宛先スイッチ・ユニットの地理的座標（例：アレイ内の行と列）を識別する宛先識別子と、宛先ユニットに到達するために使用される宛先スイッチ上のインタフェースを識別するインタフェース識別子（例：北、南、東、西等）を含めることができる。制御ネットワークは、例えば、デバイス内のタイミング回路に基づいて切り換えられた回路であり得る。設定ロード／アンロード・コントローラは、１２８ビットの構成データのチャンク毎にヘッダを生成できる。ヘッダは、ヘッダ・バス上で、構成可能ユニットのアレイ１９０内の各構成可能ユニットに送信される。

【0112】

一例では、１２８ビットのデータのチャンクが、構成可能ユニットへのベクトル入力としてチャンクを提供するベクトル・バス上で送信される。ベクトル・バスには、１２８本のペイロードラインと、一組のヘッダラインを含めることができる。ヘッダには、チャンク毎に、シーケンスＩＤを含めることができ、それは、以下を含み得る：

【0113】

チャンクがスクラッチパッド・メモリまたは構成ストアデータであることを示すビット。
・チャンク番号を形成するビット。
・列識別子を示すビット。
・行識別子を示すビット。
・構成要素識別子を示すビット。

【0114】

ロード・オペレーションの場合、構成ロード・コントローラは、Ｎ－１から０までの順序で、Ｎ個のチャンクを構成可能ユニットに送信することができる。この例では、６つのチャンクが、チャンク５－＞チャンク４－＞チャンク３－＞チャンク２－＞チャンク１－＞チャンク０の最上位ビット・ファーストの順序で送信される（この最上位ビット・ファーストの順序は、チャンク５がアレイ構成ロード・コントローラからの分配シーケンスのラウンド０に分配されることに注意する）。アンロード・オペレーションの場合、構成アンロード・コントローラは、順序のアンロード・データをメモリに書き出すことができる。ロード・オペレーション及びアンロード・オペレーションの両方について、構成可能ユニット内の構成データ・ストア内の構成シリアル・チェーン内のシフトは、ＬＳＢ(最下位ビット）からＭＳＢ(最上位ビット）へ、またはＭＳＢアウト・ファーストである。

【0115】

図１９Ｂは、アレイ・レベル・ネットワーク内の素子を接続する例示的なスイッチ・ユニットを示す。図１９Ｂの例に示すように、スイッチ・ユニットは、８つのインタフェースを有することができる。スイッチ・ユニットの北、南、東、及び西インタフェースは、スイッチ・ユニット間の接続に使用される。スイッチ・ユニットの北東、南東、北西、及び南西インタフェースはそれぞれ、ＰＣＵまたはＰＭＵインスタンスへの接続を行うために使用される。各タイル象限内の２つのスイッチ・ユニットのセットは、複数のアドレス生成（ＡＧ）ユニットと、複数のアドレス生成ユニットに接続された結合ユニット（ＣＵ）とを含むアドレス生成及び結合ユニット（ＡＧＣＵ）への接続を有する。結合ユニット（ＣＵ）はＡＧ間を調停し、メモリ・リクエストを処理する。スイッチ・ユニットの８つのインタフェースのそれぞれは、ベクトル・インタフェース、スカラ・インタフェース、及び、ベクトル・ネットワーク、スカラ・ネットワーク、及び制御ネットワークと通信するための制御インタフェースを含むことができる。

【0116】

構成後のマシンの実行中に、データは、アレイ・レベル・ネットワーク上の１以上のスイッチ・ユニットのベクトル・バス及びベクトル・インタフェースを使用して、１以上のユニットスイッチ及びユニットスイッチ間の１以上のリンクを介して構成可能ユニットに送信することができる。

【0117】

本明細書で説明される一実施形態では、タイルの構成前に、構成ファイルまたはビット・ファイルを、同じベクトル・バスを使用して構成ロード・コントローラから、アレイ・レベル・ネットワーク上の１以上のスイッチ・ユニットのベクトル・バス及びベクトル・インタフェースを使用して、１以上のユニットスイッチと、ユニットスイッチ間の１以上のリンクとを介して、構成可能ユニットに送信することができる。例えば、構成可能ユニットＰＭＵ１９４１に特有のユニットファイル内の構成データのチャンクは、構成ロード／アンロード・コントロ－ラ１９０１からＰＭＵ１９４１に、構成ロード・アンロード・コントローラ１９０１とスイッチ・ユニット１９１１の西（Ｗ）ベクトル・インタフェースとの間のリンク１９２０、スイッチ・ユニット１９１１、及びスイッチ・ユニット１９１１の南東（ＳＥ）ベクトル・インタフェースとＰＭＵ１９４１との間のリンク１９３１を介して、送信することができる。

【0118】

この例では、ＡＧＣＵの１つは、構成ロード／アンロード・コントローラ（例えば、１９０１）を含むマスタＡＧＣＵとなるように構成される。マスタＡＧＣＵは、ホスト（１２０、図１）がバス・システムを介してマスタＡＧＣＵにコマンドを送信できるレジスタを実装する。マスタＡＧＣＵは、タイル内の構成可能ユニットのアレイに対するオペレーションを制御し、レジスタへの書き込みを通じてホストから受信したコマンドに基づいて、タイルの状態を追跡するプログラム制御ステート・マシンを実装する。状態遷移毎に、マスタＡＧＣＵは、デイジー・チェーン接続されたコマンド・バスを介してタイル上の全ての構成要素にコマンドを発行する（図１９Ａ）。コマンドには、タイル内の構成可能ユニットのアレイで構成可能ユニットをリセットするプログラム・リセット・コマンドと、構成可能ユニットに構成ファイルをロードするプログラム・ロード・コマンドが含まれる。

【0119】

マスタＡＧＣＵの構成ロード・コントローラは、メモリから構成ファイルを読み取り、タイルの全ての構成可能ユニットに構成データを送信する。マスタＡＧＣＵは、好ましくはトップ・レベル・ネットワークの最大スループットでメモリから構成ファイルを読み取ることができる。メモリから読み出されたデータは、マスタＡＧＣＵによって、本明細書で説明する分散シーケンスに従って、アレイ・レベル・ネットワーク上のベクトル・インタフェースを介して、対応する構成可能ユニットに送信される。

【0120】

一実施形態では、構成可能ユニット内のワイヤリング要求を削減できる方法で、構成要素において構成ロード処理でロードされるか、または構成アンロード処理でアンロードされるユニットファイルを保持する構成レジスタ及びステータス・レジスタは、シリアル・チェーンで接続でき、シリアル・チェーンを介してビットをシフトする処理を通じてロードできる。幾つかの実施形態では、並列または直列に配置された２以上のシリアル・チェーンがあってもよい。構成可能ユニットが、例えば、１つのバスサイクルで１２８ビットの構成データをマスタＡＧＣＵから受信すると、構成可能ユニットは、このデータを、１サイクル当たり１ビットのレートで、そのシリアル・チェーンを介してシフトする。ここで、シフトサイクルは、バスサイクルと同じレートで実行することができる。構成可能ユニットが、ベクトル・インタフェースを介して受信された１２８ビットのデータを有する１２８の構成ビットをロードするのに、１２８シフトサイクルを要する。１２８ビットの構成データは、チャンクと呼ばれる。構成可能ユニットは、その全ての構成ビットをロードするために複数チャンクのデータを必要とすることがある。

【0121】

構成可能ユニットは、複数のメモリ・インタフェース（１５０、図１）を介してメモリとインタフェースする。メモリ・インタフェースのそれぞれには、幾つかのＡＧＣＵを使用してアクセスできる。各ＡＧＣＵは、オフチップ・メモリのリクエストを生成するための再構成可能データパスを含む。各ＡＧＣＵには、送信するコマンド、データ、及び、オフチップ・メモリからの受信応答をバッファするためのＦＩＦＯ（データを編成するための先入先出バッファ）が含まれている。

【0122】

ＡＧＣＵ内のアドレス生成器ＡＧは、高密度（デンス）または低密度（スパース）の何れかであるメモリコマンドを生成することができる。高密度リクエストは、連続するオフチップ・メモリ領域をバルク転送するために使用することができ、構成可能ユニットのアレイ内の構成可能ユニットとの間でデータのチャンクを読み出しまたは書き込みするために使用することができる。高密度リクエストは、ＡＧＣＵ内の結合ユニット（ＣＵ）によって複数のオフチップ・メモリ・バースト要求に変換することができる。低密度リクエストは、アドレスのストリームを結合ユニットにエンキューできる。結合ユニットは、結合キャッシュを使用して、発行されたオフチップ・メモリ・リクエスト上のメタデータを維持し、同じオフチップ・メモリ・リクエストに属する低密度アドレスを組み合わせて、発行されたオフチップ・メモリ・リクエストの数を最小化することができる。
［再構成可能ユニット］

【0123】

図２０は、パターン演算ユニット（ＰＣＵ）等の例示的な構成可能ユニット２０００を示すブロック図である。本明細書の文脈において、ＰＣＵは物理演算ユニットに対応する。構成可能ユニットのアレイ内の構成可能ユニットは、対応する構成可能ユニットに特有の構成データの複数のチャンク（または他のサイズのサブファイル）を含むユニットファイルを格納するための構成データ・ストア２０２０（例えば、シリアル・チェーン）を含む。構成可能ユニットのアレイ内の構成可能ユニットはそれぞれ、ユニット構成ロード処理を実行するために、ライン２０２２を介して構成データ・ストア２０２０に接続されたユニット構成ロード・ロジック２０４０を含む。ユニット構成ロード処理は、バス・システム（例えば、ベクトル入力）を介して、構成可能ユニットに特有のユニットファイルのチャンクを受信することと、受信したチャンクを構成可能ユニットの構成データ・ストア２０２０にロードすることとを含む。

【0124】

この例での複数の構成可能ユニット内の構成可能ユニットにおける構成データ・ストアは、ラッチのシリアル・チェーンを備え、ラッチは構成可能ユニット内のリソースの構成を制御するビットを格納する。構成データ・ストアのシリアル・チェーンには、構成データ用のシフト・レジスタ・チェーンと、直列に接続された状態情報及びカウンタ値用の第２のシフト・レジスタ・チェーンを含めることができる。

【0125】

構成可能ユニットは、スカラ入力／出力、ベクトル入力／出力、及び制御入力／出力の３つの対応する入力及び出力（ＩＯ）のセットを使用して、スカラ・バス、ベクトル・バス、及び制御バスとインタフェースすることができる。スカラＩＯは、データの単一ワード（３２ビット等）の通信に使用できる。ベクトルＩＯは、ユニット構成ロード処理において構成データを受信し、構成後のオペレーション中に複数のＰＣＵ間の長いパイプラインを介してデータを送受信するような場合に、データのチャンク（例えば、１２８ビット）を通信するために使用することができる。制御ＩＯを使用して、構成可能ユニットの実行の開始または終了等の制御信号を通信することができる。制御入力は制御ブロック２０７０によって受信され、制御出力は制御ブロック２０７０によって供給される。

【0126】

各ベクトル入力は、１以上のベクトルＦＩＦＯを含むことのできるベクトルＦＩＦＯブロック２０６０内のベクトルＦＩＦＯを使用してバッファリングされる。各スカラ入力は、スカラＦＩＦＯ２０５０を使用してバッファリングされる。入力ＦＩＦＯを使用することで、データのプロデューサとコンシューマ間のタイミングを切り離し、入力遅延不整合に対してロバストにすることによって、構成可能ユニット間の制御ロジックを単純化する。

【0127】

入力構成データ２０１０は、ベクトル入力としてベクトルＦＩＦＯに供給され、次いで構成データ・ストア２０２０に転送される。出力構成データ２０３０は、ベクトル出力を使用して構成データ・ストア２０２０からアンロードすることができる。

【0128】

ＣＧＲＡは、ロード／アンロード・コマンドが完了した時を示すために、デイジー・チェーン接続された完了バスを使用する。マスタＡＧＣＵは、デイジー・チェーン接続されたコマンド・バスを介して、プログラム・ロード及びアンロード・コマンドを構成可能ユニットのアレイ内の構成可能ユニットに送信する。図２０の例に示すように、デイジー・チェーン接続された完了バス２０９１及びデイジー・チェーン接続されたコマンド・バス２０９２は、ユニット構成ロード・ロジック２０４０と通信するデイジー・チェーン・ロジック２０９３に接続されている。デイジー・チェーン・ロジック２０９３は、以下に説明するように、ロード完了状態ロジックを含むことができる。デイジー・チェーン接続された完了バスについては、以下で更に説明する。コマンド・バス及び完了バスの他のトポロジも明らかに可能であるが、ここでは説明しない。

【0129】

構成可能ユニットは、ブロック２０８０内に複数の再構成可能データパスを含む。構成可能ユニット内のデータパスは、マルチステージ（ステージ１・・・ステージＮ）、再構成可能ＳＩＭＤ（単一命令、マルチデータ）パイプラインとして編成することができる。構成可能ユニットの構成シリアル・チェーンにプッシュされるデータのチャンクには、構成可能ユニットの各データパスの各ステージの構成データが含まれる。構成データ・ストア２０２０内の構成シリアル・チェーンは、ライン２０２１を介してブロック２０８０内の複数のデータパスに接続される。

【0130】

本明細書の文脈において、パターン・メモリ・ユニット（ＰＭＵ）は物理メモリ・ユニットに対応する。ＰＭＵは、ＰＣＵで使用されるバス・インタフェースと共に、アドレス計算用の再構成可能データパスに連結されたスクラッチパッド・メモリを含むことができる。ＰＭＵは、再構成可能ユニットのアレイ全体にオンチップメモリを分配するために使用することができる。一実施形態では、ＰＭＵ内のメモリ内のアドレス計算がＰＭＵデータパス上で実行され、コア演算がＰＣＵ内で実行される。各ＰＭＵには、主にアドレス計算を目的としたリ再構成データパスと結合したプログラマ管理スクラッチパッド・メモリと、プログラムで必要とされるその他の演算オペレーションが含まれている。ＰＭＵは、アレイ１９０全体にオンチップメモリを配分するために使用される。アレイ・アーキテクチャは、メモリ・アドレス計算に関係するオペレーションと、アプリケーションの基礎となるコア演算を区別する。アドレス計算はＰＭＵデータパス上で実行され、コア演算はＰＣＵ内で実行される。幾つかの観察が、この設計選択を動機付けている：（ｉ）アドレス計算はＰＣＵ内のＡＬＵよりも単純なＡＬＵを必要とする単純なスカラ計算を伴う；（ｉｉ）アドレス計算のために複数のレーンを使用することは、大抵のオンチップ・アクセス・パターンにとってしばしば不必要である；及び（ｉｉｉ）ＰＣＵ内でアドレス計算を実行することは、ＰＣＵステージ及び出力リンクを占有し、ＰＣＵの利用不足につながり得る、ＰＣＵからＰＭＵへのアドレスのルーティングを必要とする。

【0131】

ＰＣＵ及びＰＭＵ（まとめて「ユニット」）は、ワードレベル・スカラ相互接続、複数ワードレベル・ベクトル相互接続、及びビットレベル制御相互接続の３種類の相互接続と通信する。構成可能ユニットのアレイ１９０は、複数ＤＤＲチャンネルを通じてＤＲＡＭとインタフェースする。各チャネルは、複数のアドレス・ストリーム間で調停する関連アドレス管理ユニットを有し、ＤＲＡＭアクセスを最小化するために複数の未処理メモリ要求とアドレス結合をサポートするバッファから構成される。ローカル・アドレス計算はＰＭＵで行われ、ＤＲＡＭアドレス計算はＤＲＡＭアドレス管理ユニットで行われ、残りのデータ演算はＰＣＵで行われる。スクラッチパッドは、ＰＣＵレーンの数に一致する複数のＳＲＡＭバンクで構築される。スクラッチパッド周辺のアドレス・デコーディング・ロジックは様々なアクセス・パターンをサポートするために、幾つかのバンキング・モードで動作するように構成され得る。ストライド・バンキング・モードは、高密度データ構造上にしばしば見られる線形アクセス・パターンをサポートする。ＦＩＦＯモードはストリーミング・アクセスをサポートする。ライン・バッファ・モードは、スライディング・ウィンドウに似たアクセス・パターンを捕捉する。コンテンツが全てのメモリ・バンクにわたって複製される複製モードは、並列化されたオンチップ収集オペレーションをサポートするために、複数読み出しアドレス・チャネルを提供する。

【0132】

ＰＣＵは、アプリケーションにおける最も内側の並列パターンを実行するように設計される。ＰＣＵデータパスは、マルチステージ再構成可能ＳＩＭＤパイプラインとして編成することができる。この設計は、各ＰＣＵが高い演算密度を達成することを可能にし、レーンにわたるループレベル並列性とステージにわたるパイプライン並列性の両方を利用する。各ＳＩＭＤレーンの各ステージは、機能ユニット（ＦＵ）及び関連するパイプライン・レジスタ（ＰＲ）で構成される。ＦＵは、例えば、浮動小数点演算や整数演算のサポートを含み、３２ビットワードレベルの算術演算やバイナリ演算を実行する。単一のパイプライン・ステージ内のＦＵは、ＳＩＭＤで動作するので、各ステージは、単一の構成レジスタのみを必要とする。各ＦＵからの結果は、その関連するレジスタに書き込まれる。各レーンのＰＲは、同じレーン内のステージ間でライブ値が伝播することを可能にするために、パイプライン・ステージにわたって一緒に連鎖する。ＦＵ間のクロス・レーン通信は、２つのタイプのＰＣＵ内ネットワーク、即ち、複数のレーンからの値を単一のスカラに低減することを可能にする縮小ツリー・ネットワークと、ステンシル・アプリケーションでの再利用を活用するために、ステージにわたるスライディング・ウィンドウとしてＰＲを使用することを可能にするシフト・ネットワークとを使用して、捕捉される。どちらのネットワークも、ハードウェアのオーバーヘッドを最小限に抑えるために、ＰＲ内で専用レジスタを使用する。

【0133】

ＰＣＵは、スカラ、ベクトル、及び制御の３種類の入力及び出力（ＩＯ）を使用してグローバル相互接続とインタフェースする。スカラＩＯは、畳み込みの結果等、データの単一ワードを通信するために使用される。各ベクトルＩＯは、ＰＣＵ内のレーン当たり１ワードの通信を可能にし、ＰＭＵ内のスクラッチパッドへの読み出し及び書き込み、及び複数のＰＣＵ間の長いパイプラインを介した中間データの伝送等の場合に使用される。各ベクトル及びスカラ入力は小さなＦＩＦＯを使用してバッファリングされる。入力ＦＩＦＯを使用することは、データのプロデューサとコンシューマとを切り離し、入力遅延不整合に対してロバストにすることによってＰＣＵ間制御ロジックを単純化する。制御ＩＯは、ＰＣＵの実行の開始または終了等の制御信号を通信するために、または背圧を示すために使用される。

【0134】

カウンタの再構成可能チェーンは、実行を調整するために、パターン反復インデックス及び制御信号を生成する。ＰＣＵの実行は、制御ブロックがカウンタの１つをイネーブルにするときに開始する。アプリケーションの制御及びデータ依存性に基づいて、制御ブロックは、ＰＣＵの実行をトリガするために、ローカルＦＩＦＯ及びグローバル制御入力の両方からの複数の制御信号を結合するように構成することができる。制御ブロックは、ステートマシンのための再構成可能な組合せ論理及びプログラミング可能なアップダウン・カウンタを使用して実装される。

【0135】

バンキングは、演算スループットを維持するために複数のＳＩＭＤユニットに供給するのに重要であるのと同様に、Ｎバッファリング、または一般化された二重バッファリングは、粗粒度パイプラインをサポートするためにも重要である。例として、ＲｅｓＮｅｔのスキップ接続と、各レイヤの出力を保持するバッファは、Ｎバッファリングを使用して実現される。ＰＭＵスクラッチパッドは、説明したバンキング・モードの何れかを有するＮバッファとして動作するように構成することができる。Ｎバッファは、各ＳＲＡＭバンクのアドレス空間をＮ個の互いに素な領域に区分化することによって実現される。書き込み及び読み出し状態情報を使用して、適切なオフセットが各バンクのローカル・アドレスに追加され、正しいデータにアクセスする。

【0136】

プログラマブル・カウンタ・チェーン及び制御ブロックは、ＰＣＵと同様にＰＭＵ実行をトリガする。各ＰＭＵには通常、プロデューサ・パターンからの書き込みアドレス計算ロジックと、コンシューマ・パターンからの読み出しアドレス計算ロジックが含まれる。ローカルＦＩＦＯ及び外部制御入力の状態に基づいて、制御ブロックは、適切なカウンタを有効にすることによって、書き込みアドレス計算、読み出しアドレス計算、またはその両方をトリガするように構成できる。
［特定の実施態様］

【0137】

一実施態様では、目標アーキテクチャを有する再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフを効率的に実行するコンピュータにより実施される方法が開示される。該方法は、オペレーション・ユニット・グラフを実行するために必要とされる再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットの数を減少させることを含む。

【0138】

該方法は、ユーザから、再構成可能データ・プロセッサの目標アーキテクチャに固有のアーキテクチャ上のヒントを受け取ることを含む。アーキテクチャ上のヒントは、再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニット上で第１のオペレーション・ユニットのパターンを実行するときに、第１のオペレーション・ユニットを融合することを要求し、パターン内の第１のオペレーション・ユニットを第１のノードとして指定し、パターン内の第１のオペレーション・ユニット間の第１のデータフローを第１のエッジとして指定し、パターン内の第１のオペレーション・ユニット間の融合を指示する。

【0139】

該方法は、オペレーション・ユニット・グラフをスキャンして、アーキテクチャ上のヒントによって指定された第１のオペレーション・ユニットのパターンのインスタンスを検出することを含む。これは、更に、オペレーション・ユニット・グラフ内の第２のノード及び第２のエッジを、アーキテクチャ上のヒント内の第１のノード及び第１のエッジと適合させることと、パターン・マッチングを検出することとを含む。

【0140】

該方法は、オペレーション・ユニット・グラフ内の第２のノードと第２のエッジのオペレーション・ユニットとを統合されたオペレーション・ユニット・ブロックに融合し、融合されたオペレーション・ユニット・グラフを生成することを含む。

【0141】

該方法は、再構成可能データ・プロセッサの物理演算ユニット及び／または物理メモリ・ユニットを融合されたオペレーション・ユニット・グラフにアロケーティングすることを含む。

【0142】

該方法は、該アロケーティングに基づいて再構成可能データ・プロセッサ上で融合されたオペレーション・ユニット・グラフを実行することを含む。

【0143】

他の実施態様のために特定の実施態様のセクションで論じられた特徴の各々は、この実施態様に同様に適用される。上述したように、他の全ての特徴は、ここでは繰り返されず、参照により繰り返されると考えられるべきである。読者は、これらの実施態様で特定された特徴が他の実施態様で特定された基本特徴の集合と如何にして容易に組み合わせられるかを理解するであろう。

【0144】

アーキテクチャ上のヒントは、パターン内の第１の出力オペレーション・ユニットを第１の出力ノードとして指定する。

【0145】

該方法は、アーキテクチャ上のヒントによって指定された第１の出力ノードをオペレーション・ユニット・グラフ内の第２の出力ノードと適合させることによってパターン・マッチングを検出することと、オペレーション・ユニット・グラフ内の第２の出力ノードから始めて、オペレーション・ユニット・グラフ内の第２のノード及び第２のエッジがアーキテクチャ上のヒント内の第１のノード及び第１のエッジと適合することを決定するためにオペレーション・ユニット・グラフをトラバースすることとを含む。一実施態様では、トラバースは上向きトラバースである。

【0146】

該方法は、統合されたオペレーション・ユニット・ブロックに融合されるが、統合されたオペレーション・ユニット・ブロックの外側にあるオペレーション・ユニット・グラフの別のオペレーション・ユニットへのデータフローを有するオペレーション・ユニット・グラフのオペレーション・ユニットを識別することと、識別されたオペレーション・ユニット及びそのデータフローを複製することと、識別されたオペレーション・ユニット及びそのデータフローに入力を提供する統合されたオペレーション・ユニット・ブロック内の任意の他のオペレーション・ユニットを複製することと、統合されたオペレーション・ユニット・ブロック及び複製されたオペレーション・ユニット及びデータフローを有するオペレーション・ユニット・グラフに基づいて、前記アロケーティング及び前記実行を行うことを含む。

【0147】

一実施態様では、アーキテクチャ上のヒントがパターン・グラフに翻訳するノードとエッジのリストとして表現される。

【0148】

このセクションで説明された方法の他の実施態様は、上述の方法の何れかを実行するためにプロセッサによって実行可能な命令を格納する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明された方法の更に別の実施態様は、上述の方法の何れかを実行するために、該メモリ内に記憶された命令を実行するように動作可能なメモリ及び１または複数のプロセッサを含むシステムを含むことができる。

【0149】

再構成可能データ・プロセッサの利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）を、その実行のためにオペレーション・ユニット・グラフのオペレーション・ユニットにアロケーティングするコンピュータにより実施される方法を開示する。

【0150】

該方法は、オペレーション・ユニット・グラフのオペレーション・ユニットを実行するのに必要な汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）及びサーチ範囲上限（"stage_latency_high"）を初期化することを含む。

【0151】

該方法は、評価のために、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）とサーチ範囲上限（"stage_latency_high"）の間の中間ステージ演算処理時間（"stage_latency_average"等）を選択することを含む。

【0152】

該方法は、再構成可能データ・プロセッサ上のオペレーション・ユニット・グラフのパイプライン演算ロードを処理するために必要とされる物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数（"total_PCUs"）を決定することを含む。

【0153】

該方法は、オペレーション・ユニット・グラフのオペレーション・ユニット（"for node in fused_graph"）の各々について、１つの物理演算ユニット及び／または１つの物理メモリ・ユニットのみを使用して、オペレーション・ユニットのそれぞれ１つのステージ演算ロード（"node.get_flop()"）を処理するのに必要な特定のステージ演算処理時間（"node_latency_with_one_PCU"）を決定し、特定のステージ演算処理時間（"node_latency_with_one_PCU"）を中間ステージ演算処理時間（例えば"stage_latency_average"）で除算することによって、オペレーション・ユニットのそれぞれ１つのステージ演算ロード（"node.get_flop()"）を処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのステージ数（"node_PCUs"）を決定することを含む。

【0154】

該方法は、各オペレーション・ユニットの物理演算ユニット及び／または物理メモリ・ユニットのステージ数（"node_PCUs"）を合計することと、物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数（"total_PCUs"）を生成することとを含む。

【0155】

該方法は、反復的に、汎用ステージ演算処理時間（"stage_latency"）の新しいサーチ範囲下限（"stage_latency_low"）及びサーチ範囲上限（"stage_latency_high"）を初期化し、次の反復における評価のために、前の反復における前の中間ステージ演算処理時間に対して生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数（"total_PCUs"）が、利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）よりも低いか高いかを考慮して、汎用ステージ演算処理時間の新しいサーチ範囲下限及びサーチ範囲上限間の新しい中間ステージ演算処理時間を選択することを含む。

【0156】

該方法は、現在の反復における現在の中間ステージ演算処理時間に対して生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数が収束基準を満たす場合、反復初期化及び選択を終了することを含む。

【0157】

該方法は、現在の中間ステージ演算処理時間に基づいて、利用可能な物理演算ユニット及び／または物理メモリ・ユニットをオペレーション・ユニット・グラフのオペレーション・ユニットにアロケーティングすることを含む。

【0158】

該方法は、該アロケーティングに基づいて、再構成可能データ・プロセッサ上でオペレーション・ユニット・グラフのオペレーション・ユニットを実行することを含む。

【0159】

【0160】

一実施態様では、収束基準は、サーチ範囲上限とサーチ範囲下限間の差異が閾値未満であるときに発生し得る。

【0161】

一実施態様では、汎用ステージ演算処理時間のサーチ範囲下限が再構成可能データ・プロセッサの最大使用率に基づくことができ、オペレーション・ユニット・グラフのパイプライン演算ロードを再構成可能データ・プロセッサの総処理能力で除算することによって決定することができる。

【0162】

一実施態様では、オペレーション・ユニット・グラフのパイプライン演算ロードがオペレーション・ユニット・グラフを実行するのに必要な浮動小数点演算の総数（ＦＬＯＰ）によって決定することができる。

【0163】

一実施態様において、再構成可能データ・プロセッサの総処理能力は、再構成可能データ・プロセッサによって毎秒実行可能なＦＬＯＰ（ＦＬＯＰ／ｓ）の最大数によって決定することができる。

【0164】

一実施態様では、汎用ステージ演算処理時間のサーチ範囲上限が、汎用ステージ演算処理時間のサーチ範囲下限に最小使用ファクタを乗算することに基づくことができる。幾つかの実施態様では、最小使用ファクタは１００である。

【0165】

一実施態様では、該方法がサーチ範囲上限とサーチ範囲下限間の差異が閾値を上回る限り、反復初期化と選択を継続することを含む。

【0166】

一実施態様では、中間ステージ演算処理時間は、汎用ステージ演算処理時間（"stage_latency"）のサーチ範囲下限（"stage_latency_low"）とサーチ範囲上限（"stage_latency_high"）の平均（"stage_latency_average"）とすることができる。

【0167】

一実施態様では、前の反復における前の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数が利用可能な物理演算ユニット及び／または物理メモリ・ユニットよりも低い場合、該方法は、前の中間ステージ演算処理時間として、次の反復のための新しいサーチ範囲上限を設定することを含む。

【0168】

一実施態様では、前の反復における前の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数が利用可能な物理演算ユニット及び／または物理メモリ・ユニットよりも高い場合、該方法は、前の中間ステージ演算処理時間として、次の反復のための新しいサーチ範囲下限を設定することを含む。

【0169】

一実施態様では、オペレーション・ユニットのそれぞれ１つを実行するのに必要な浮動小数点演算（ＦＬＯＰ）の総数を意味する、オペレーション・ユニットのそれぞれ１つのステージ演算ロードは、そのオペレーション・タイプ、入力次元、及び出力次元によって決定される。

【0170】

一実施態様では、該方法は、ステージ演算処理時間を中間ステージ演算処理時間で除算した結果を整数に切り上げることによって、ステージ演算ロードを処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのステージ数を決定することを含む。

【0171】

一実施態様では、該方法は、現在の中間ステージ演算処理時間に基づいてスループット値を決定することを含む。

【0172】

一実施態様では、該方法は、オペレーション・ユニット・グラフのオペレーション・ユニットの数を現在の中間ステージ演算処理時間と乗算することに基づいて、オペレーション・ユニット・グラフを実行するのに必要なパイプライン演算処理時間を決定することを含む。

【0173】

一実施態様では、該方法は、ステージ演算処理時間がオペレーション・ユニット・グラフの他のほとんどのオペレーション・ユニットよりも相対的に長いオペレーション・ユニット・グラフのオペレーション・ユニットを選択することと、追加の利用可能な物理演算ユニット及び／または物理メモリ・ユニットを選択されたオペレーション・ユニットにアロケーティングすることとを含む。

【0174】

一実施態様では、アロケーティングの結果、オペレーション・ユニット・グラフのそれぞれのオペレーション・ユニットは、実質的に適合するステージ演算処理時間を有することとなる。

【0175】

一実施態様では、オペレーション・ユニット・グラフは、少なくとも１つの融合されたオペレーション・ユニットを有する融合されたオペレーション・ユニット・グラフとすることができる。

【0176】

一実施態様では、オペレーション・ユニット・グラフは、ディープ・ニューラル・ネットワークとすることができる。

【0177】

一実施態様では、該方法は、収束基準を満たす現在の反復における現在の中間ステージ演算処理時間を視覚化するデータ、現在の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数、１つの物理演算ユニットのみ及び／または１つの物理メモリ・ユニットのみを使用して、オペレーション・ユニットのそれぞれの１つのステージ演算ロードを処理するのに必要なステージ演算処理時間、及び／または、オペレーション・ユニットのそれぞれ１つのステージ演算ロードを処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのステージ数を、表示用に生成することを含む。

【0178】

一実施態様では、該方法は、現在の中間ステージ演算処理時間に基づいて決定されたスループット値を視覚化するデータを表示用に生成することを含む。

【0179】

一実施態様では、オペレーション・ユニット・グラフを実行するのに必要なパイプライン演算処理時間を視覚化するデータを、表示用に生成することを含む。

【0180】

一実施態様では、該方法は、オペレーション・ユニット・グラフの各オペレーション・ユニットにそれぞれアロケーティングされた利用可能な物理演算ユニット及び／または物理メモリ・ユニットを視覚化するデータを、表示用に生成することを含む。

【0181】

一実施態様では、反復的な初期化及び選択は、バイナリ・サーチに基づいている。

【0182】

【0183】

再構成可能データ・プロセッサの利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）を、その実行のためにオペレーション・ユニット・グラフのオペレーション・ユニットにアロケーティングするコンピュータにより実施される方法が開示される。

【0184】

該方法は、オペレーション・ユニット・グラフのオペレーション・ユニットを実行するのに必要な汎用ステージ演算処理時間のサーチ範囲下限（"stage_latency_low"）及びサーチ範囲上限（"stage_latency_high"）を初期化することを含む。

【0185】

該方法は、評価のために、汎用ステージ演算処理時間のサーチ範囲下限（"stage_latency_low"）とサーチ範囲上限（"stage_latency_high"）間の中間ステージ演算処理時間（"stage_latency_average"等）を選択することを含む。

【0186】

該方法は、再構成可能データ・プロセッサ上のオペレーション・ユニット・グラフのパイプライン演算ロードを処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数（"total_PCUs"、"get_graph_PCUs"）を決定することを含む。

【0187】

該方法は、反復的に、汎用ステージ演算処理時間の新しいサーチ範囲下限とサーチ範囲上限を初期化し、次の反復における評価のために、前の反復における前の中間ステージ演算処理時間のために生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数が、利用可能な物理演算ユニット及び／または物理メモリ・ユニット（available_PCUs）よりも低いか、または高いかを考慮に入れて、汎用ステージ演算処理時間の新しいサーチ範囲下限とサーチ範囲上限間の新しい中間ステージ演算処理時間を選択することを含む。

【0188】

該方法は、現在の反復における現在の中間ステージ演算処理時間に対して生成された物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数が収束基準を満たす場合、該反復初期化と該選択を終了することとを含む。

【0189】

【0190】

該方法は、オペレーション・ユニット・グラフのオペレーション・ユニット（"for node in fused_graph"）の各々について、１つの物理演算ユニットのみ及び／または１つの物理メモリ・ユニットのみを使用してオペレーション・ユニットのそれぞれ１つのステージ演算ロード（"node.get_flop()"）を処理するのに必要な特定のステージ演算処理時間（"node_latency_with_one_PCU"）を決定し、特定のステージ演算処理時間（"node_latency_with_one_PCU"）を中間ステージ演算処理時間（"stage_latency"、例えば"stage_latency_average"）で除算することによって、オペレーション・ユニットのそれぞれ１つのステージ演算ロード（"node.get_flop()"）を処理するのに必要な物理演算ユニット及び／または物理メモリ・ユニットのステージ数（"node_PCUs"）を決定することを含む。

【0191】

該方法は、オペレーション・ユニットのそれぞれにおける物理演算ユニット及び／または物理メモリ・ユニットのステージ数（"node_PCUs"）を合計することと、物理演算ユニット及び／または物理メモリ・ユニットのパイプライン数を生成することとを含む。

【0192】

【0193】

【0194】

【0195】

前述の説明は、開示された技術の作成及び使用を可能にするために提示されている。開示された実施態様に対する種々の変形は明らかであり、本明細書で規定された全般的な原理は、開示された技術の趣旨及び範囲から逸脱することなく、他の実施態様及びアプリケーションに適用され得る。従って、開示された技術は、示された実施態様に限定されることを意図するものではなく、本明細書で開示された原理及び特徴と一致する最も広い範囲が与えられるべきである。開示された技術の範囲は、添付の特許請求の範囲によって規定される。

【図1】