特許7595587 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザイリンクス　インコーポレイテッドの特許一覧

特許7595587異種マルチコアアーキテクチャのコンパイルフロー

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
9C
9D
10
11
12
13
14
15
16
17A
17B
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-28

(45)【発行日】2024-12-06

(54)【発明の名称】異種マルチコアアーキテクチャのコンパイルフロー

(51)【国際特許分類】

G06F 30/34 20200101AFI20241129BHJP

G06F 15/78 20060101ALI20241129BHJP

G06F 15/80 20060101ALI20241129BHJP

G06F 15/173 20060101ALI20241129BHJP

G06F 30/347 20200101ALI20241129BHJP

G06F 115/02 20200101ALN20241129BHJP

【ＦＩ】

G06F30/34

G06F15/78 530

G06F15/78 560

G06F15/80

G06F15/173 681

G06F15/173 665D

G06F30/347

G06F115:02

【請求項の数】 13

(21)【出願番号】P 2021569551

(86)(22)【出願日】2020-05-07

(65)【公表番号】

(43)【公表日】2022-07-27

(86)【国際出願番号】 US2020031951

(87)【国際公開番号】W WO2020236436

(87)【国際公開日】2020-11-26

【審査請求日】2023-04-14

(31)【優先権主張番号】16/420,881

(32)【優先日】2019-05-23

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591025439

【氏名又は名称】ザイリンクスインコーポレイテッド

【氏名又は名称原語表記】ＸＩＬＩＮＸＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】シバラマン，ムクンド

(72)【発明者】

【氏名】グプタ，シャイル・アディティア

(72)【発明者】

【氏名】サストリー，アケッラ

(72)【発明者】

【氏名】スレンダラン，リシ

(72)【発明者】

【氏名】ジェイムズ－ロックスビー，フィリップ・ビィ

(72)【発明者】

【氏名】ベイリス，サミュエル・アール

(72)【発明者】

【氏名】カタイル，ビノッド・ケイ

(72)【発明者】

【氏名】アグラワル，アジト・ケイ

(72)【発明者】

【氏名】ウィッティヒ，ラルフ・デー

【審査官】松浦功

(56)【参考文献】

【文献】国際公開第２０１９／０６５３０２（ＷＯ，Ａ１）

【文献】特表２００５－５１６４３２（ＪＰ，Ａ）

【文献】特表２０１６－５３６６９２（ＪＰ，Ａ）

【文献】特表２００２－５０８１０２（ＪＰ，Ａ）

【文献】米国特許出願公開第２００７／０１５７１６６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１７／０２６２５６７（ＵＳ，Ａ１）

【文献】米国特許第０７３９４２８８（ＵＳ，Ｂ１）

【文献】国際公開第２０１３／０６３４８６（ＷＯ，Ａ１）

【文献】BRILLU, Romain et al.，FlexTiles: a globally homogeneous but locally heterogeneous manycore architecture，RAPIDO '14: Proceedings of the 6th Workshop on Rapid Simulation and Performance Evaluation: Methods and Tools [online]，ACM，2014年01月22日，[検索日 2024.05.14]，インターネット，ＵＲＬ：https://dl.acm.org/doi/abs/10.1145/2555486.2555489

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３０／３０－３０／３９８

Ｇ０６Ｆ１５／７８

Ｇ０６Ｆ１５／８０

Ｇ０６Ｆ１５／１７３

ＧｏｏｇｌｅＳｃｈｏｌａｒ

(57)【特許請求の範囲】

【請求項1】

コンピュータが、データ処理エンジン（ＤＰＥ）アレイを有するシステムオンチップ（ＳＯＣ）のアプリケーションを実装するために実行する方法であって、
前記コンピュータが、
前記アプリケーションのグラフ表現を決定するステップであって、前記グラフ表現は、前記アプリケーションのカーネルを表すノード、および、前記カーネル間の通信を表すエッジを含む、グラフ表現を決定するステップと、
前記グラフ表現に基づいて、前記カーネルを前記ＤＰＥアレイのＤＰＥにマッピングし、前記カーネルのデータ構造を前記ＤＰＥアレイ内のメモリにマッピングするステップと、
ＤＰＥと前記ＳＯＣのプログラマブルロジック内に構成された前記アプリケーションの回路との間の通信チャネルをルーティングするステップと、
前記マッピングおよび前記ルーティングの結果に基づいて前記アプリケーションを実装するために前記ＳＯＣをプログラミングするための実装データを生成するステップと、
前記マッピングするステップの前に、グラフ表現を決定してカーネルをグループにクラスタ化するステップと、
を実行することを含み、
前記マッピングするステップは、カーネルの少なくとも１つのクラスタを前記ＤＰＥアレイ内の１つのＤＰＥにマッピングするステップを含む、方法。

【請求項2】

前記マッピングするステップの前に、前記カーネルのうちの１つまたは複数のコードを最適化するステップと、
前記ＤＰＥアレイにおけるＤＰＥ－ＤＰＥ間通信のためにロックを配分するステップと
を含む、請求項１に記載の方法。

【請求項3】

前記マッピングするステップは、
前記データ構造を、前記ＤＰＥ内のメモリバンクおよびＤＰＥ間のダイレクトメモリアクセス（ＤＭＡ）ストリームのうちの少なくとも１つにマッピングするステップを含む、請求項１に記載の方法。

【請求項4】

プロセッサによって実行されると、データ処理エンジン（ＤＰＥ）アレイを有するシステムオンチップ（ＳＯＣ）のアプリケーションを実装する方法を前記プロセッサに実行させる命令を格納している非一時的コンピュータ可読媒体であって、前記方法は、
前記アプリケーションのグラフ表現を決定するステップであって、前記グラフ表現は、前記アプリケーションのカーネルを表すノード、および、前記カーネル間の通信を表すエッジを含む、ステップと、
前記グラフ表現に基づいて、前記カーネルを前記ＤＰＥアレイのＤＰＥにマッピングし、前記カーネルのデータ構造を前記ＤＰＥアレイ内のメモリにマッピングするステップと、
ＤＰＥと前記ＳＯＣのプログラマブルロジック内に構成された前記アプリケーションの回路との間の通信チャネルをルーティングするステップと、
前記マッピングおよび前記ルーティングの結果に基づいて前記アプリケーションを実装するために前記ＳＯＣをプログラミングするための実装データを生成するステップと
を含み、
前記マッピングするステップの前に、グラフ表現を決定してカーネルをグループにクラスタ化するステップをさらに含み、
前記マッピングするステップは、カーネルの少なくとも１つのクラスタを前記ＤＰＥアレイ内の１つのＤＰＥにマッピングするステップを含む、非一時的コンピュータ可読媒体。

【請求項5】

前記マッピングするステップの前に、前記カーネルのうちの１つまたは複数のコードを最適化するステップをさらに含む、請求項４に記載の非一時的コンピュータ可読媒体。

【請求項6】

前記マッピングするステップは、
前記データ構造を、前記ＤＰＥ内のメモリバンクおよびＤＰＥ間のダイレクトメモリアクセス（ＤＭＡ）ストリームのうちの少なくとも１つにマッピングするステップを含む、請求項４に記載の非一時的コンピュータ可読媒体。

【請求項7】

前記ＤＰＥアレイにおけるＤＰＥ－ＤＰＥ間通信のためにロックを配分するステップをさらに含む、請求項４に記載の非一時的コンピュータ可読媒体。

【請求項8】

前記実装データを生成する前記ステップは、
前記カーネルのうちの１つまたは複数を実装するための各ＤＰＥのためのコードを生成するステップを含む、請求項４に記載の非一時的コンピュータ可読媒体。

【請求項9】

前記実装データを生成する前記ステップは、
前記ＤＰＥアレイ内のダイレクトメモリアクセス（ＤＭＡ）およびスイッチ回路を構成するための制御コードを生成するステップを含む、請求項４に記載の非一時的コンピュータ可読媒体。

【請求項10】

コンピュータシステムであって、
プログラムコードを格納するように構成されたメモリと、
データ処理エンジン（ＤＰＥ）アレイを有するシステムオンチップ（ＳＯＣ）のアプリケーションを実装するために、前記プログラムコードを実行するように構成されたプロセッサとを備え、前記プロセッサは、
前記アプリケーションのグラフ表現を決定するステップであって、前記グラフ表現は、前記アプリケーションのカーネルを表すノード、および、前記カーネル間の通信を表すエッジを含む、ステップと、
前記グラフ表現に基づいて、前記カーネルを前記ＤＰＥアレイのＤＰＥにマッピングし、前記カーネルのデータ構造を前記ＤＰＥアレイ内のメモリにマッピングするステップと、
ＤＰＥと前記ＳＯＣのプログラマブルロジック内に構成された前記アプリケーションの回路との間の通信チャネルをルーティングするステップと、
前記マッピングおよび前記ルーティングの結果に基づいて前記アプリケーションを実装するために前記ＳＯＣをプログラミングするための実装データを生成するステップと、
を実行し、
前記マッピングするステップの前に、グラフ表現を決定してカーネルをグループにクラスタ化するステップをさらに含み、
前記マッピングするステップは、カーネルの少なくとも１つのクラスタを前記ＤＰＥアレイ内の１つのＤＰＥにマッピングするステップを含む、コンピュータシステム。

【請求項11】

前記マッピングするステップは、前記データ構造を前記ＤＰＥ内のメモリバンクおよびＤＰＥ間のダイレクトメモリアクセス（ＤＭＡ）ストリームのうちの少なくとも１つにマッピングするステップを含む、請求項１０に記載のコンピュータシステム。

【請求項12】

前記マッピングするステップの前に、前記カーネルのうちの１つまたは複数のコードを最適化するステップをさらに含む、請求項１０に記載のコンピュータシステム。

【請求項13】

前記データを生成する前記ステップは、
各ＤＰＥが前記カーネルのうちの１つまたは複数を内部に実装するためのコードを生成するステップと、
前記ＤＰＥアレイ内のダイレクトメモリアクセス（ＤＭＡ）およびスイッチ回路を構成するための制御コードを生成するステップと
を含む、請求項１０に記載のコンピュータシステム。

【発明の詳細な説明】

【技術分野】

【0001】

技術分野
本開示の例は、一般に、電子回路設計に関し、特に、異種マルチコアアーキテクチャのコンパイルフローに関する。

【背景技術】

【0002】

背景
プロセッサ、システムオンチップ（ＳｏＣ）、および特定用途向け集積回路（ＡＳＩＣ）は、デジタル信号の処理、暗号化の実行、ソフトウェアアプリケーションの実行、グラフィックスのレンダリングなどの計算作業を実行するための複数のコアを含むことができる。多くのマルチコアアーキテクチャがあるが、これらのアーキテクチャのコンパイラはいずれも、異種アーキテクチャ、特に再構成可能／プログラマブルロジックに結合されたマルチコアプロセッサ（フィールドプログラマブルゲートアレイ（ＦＰＧＡ）ファブリックなど）に直接対応していない。さらに、既存のコンパイラは、計算カーネルのプロセッサコアへのマッピング、データ構造のメモリバンクへのマッピング、ならびに、プロセッサコア間、および、プロセッサコアとプログラマブルロジックとの間のストリームデータおよびダイレクトメモリアクセス（ＤＭＡ）データのルーティングを解決しない。

【発明の概要】

【課題を解決するための手段】

【0003】

概要
異種マルチコアアーキテクチャのコンパイルフローに関連する技法について説明する。一例では、データ処理エンジン（ＤＰＥ）アレイを有するシステムオンチップ（ＳＯＣ）のアプリケーションを実装する方法は、アプリケーションのグラフ表現を決定することであって、グラフ表現は、アプリケーションのカーネルを表すノード、および、カーネル間の通信を表すエッジを含む、グラフ表現を決定することと、グラフに基づいて、カーネルをＤＰＥアレイのＤＰＥにマッピングし、カーネルのデータ構造をＤＰＥアレイ内のメモリにマッピングすることと、ＤＰＥとＳＯＣのプログラマブルロジック内に構成されたアプリケーションの回路との間の通信チャネルをルーティングすることと、マッピングおよびルーティングの結果に基づいてアプリケーションを実装するためにＳＯＣをプログラミングするための実装データを生成することとを含む。

【0004】

別の例では、プロセッサによって実行されると、データ処理エンジン（ＤＰＥ）アレイを有するシステムオンチップ（ＳＯＣ）のアプリケーションを実装する方法をプロセッサに実行させる命令を格納されている非一時的コンピュータ可読媒体であって、方法は、アプリケーションのグラフ表現を決定することであって、グラフ表現は、アプリケーションのカーネルを表すノード、および、カーネル間の通信を表すエッジを含む、グラフ表現を決定することと、グラフに基づいて、カーネルをＤＰＥアレイのＤＰＥにマッピングし、カーネルのデータ構造をＤＰＥアレイ内のメモリにマッピングすることと、ＤＰＥとＳＯＣのプログラマブルロジック内に構成されたアプリケーションの回路との間の通信チャネルをルーティングすることと、マッピングおよびルーティングの結果に基づいてアプリケーションを実装するためにＳＯＣをプログラミングするための実装データを生成することとを含む。

【0005】

別の例では、コンピュータシステムは、プログラムコードを格納するように構成されたメモリと、プログラムコードを実行するように構成されたプロセッサであって、プログラムコードは、アプリケーションのグラフ表現を決定することであって、グラフ表現は、アプリケーションのカーネルを表すノード、および、カーネル間の通信を表すエッジを含む、グラフ表現を決定することと、グラフに基づいて、カーネルをＤＰＥアレイのＤＰＥにマッピングし、カーネルのデータ構造をＤＰＥアレイ内のメモリにマッピングすることと、ＤＰＥとＳＯＣのプログラマブルロジック内に構成されたアプリケーションの回路との間の通信チャネルをルーティングすることと、マッピングおよびルーティングの結果に基づいてアプリケーションを実装するためにＳＯＣをプログラミングするための実装データを生成することとによって、データ処理エンジン（ＤＰＥ）アレイを有するシステムオンチップ（ＳＯＣ）のアプリケーションを実装するためのものである、プロセッサとを備える。

【0006】

これらおよび他の態様は、以下の詳細な説明を参照して理解することができる。
図面の簡単な説明
上に列挙された特徴を詳細に理解することができるように、上で簡単に要約されたより詳細な説明は、例示的な実施態様を参照することによって得ることができ、そのいくつかは添付の図面に示されている。ただし、添付の図面は典型的な実施態様例のみを示しており、そのため、その範囲を限定するものとは考えられないことに留意されたい。

【図面の簡単な説明】

【0007】

【図1】一例によるシステムオンチップ（ＳｏＣ）のブロック図である。

【図2】一例によるタイル回路を示すブロック図である。

【図3】一例による図２のタイル回路をより詳細に示すブロック図である。

【図4】一例による相互接続回路を示すブロック図である。

【図5】一例による回路設計システムの一例を示すブロック図である。

【図6】一例によるターゲットプラットフォームのアプリケーションの実装を示すブロック図である。

【図7】一例によるアプリケーションを示すブロック図である。

【図8】一例によるデータ処理エンジン（ＤＰＥ）アレイコンパイラを示すブロック図である。

【図9A】一例による、ＤＰＥアレイを標的とするアプリケーションの一部分の例示的な有向グラフ表現を示すブロック図である。

【図9B】一例による、ＤＰＥアレイを標的とするアプリケーションの一部分の例示的な有向グラフ表現を示すブロック図である。

【図9C】一例による、ＤＰＥアレイを標的とするアプリケーションの一部分の例示的な有向グラフ表現を示すブロック図である。

【図9D】一例による、ＤＰＥアレイを標的とするアプリケーションの一部分の例示的な有向グラフ表現を示すブロック図である。

【図10】一例による、ＤＰＥアレイ内の有向グラフの配置およびルーティングを示すブロック図である。

【図11】一例による、ＳＯＣのデータ処理エンジンアレイのコードおよび構成データを生成する方法を示す流れ図である。

【図12】一例による、データ処理エンジン間でアプリケーション内のカーネルをパーティショニングする方法を示す流れ図である。

【図13】一例による、カーネルをパーティションに割り当てる方法を示す流れ図である。

【図14】一例による、カーネルおよびカーネルクラスタをＤＰＥにマッピングする方法を示す流れ図である。

【図15】異種マルチコアアーキテクチャのアプリケーションを実装する際のＦＩＦＯ挿入の方法を示す流れ図である。

【図16】一例による処理システムを示すブロック図である。

【図17A】一例による図１６の処理システムの実施態様を示すブロック図である。

【図17B】別の例による図１６の処理システムの実施態様を示すブロック図である。

【図18】一例による、ＦＩＦＯを配置する方法を示す流れ図である。

【図19】一例による、ＤＰＥアレイにマッピングされたアプリケーションをルーティングする方法を示す流れ図である。

【図20】図１に示されるＳｏＣの一実施態様として使用することができる、一例によるプログラム可能なＩＣを示すブロック図である。

【図21】一例による、図２０のプログラマブルＩＣのフィールドプログラマブルゲートアレイ（ＦＰＧＡ）実施態様を示す図である。

【発明を実施するための形態】

【0008】

理解を容易にするために、可能な場合は、図に共通する同一の要素を示すために同一の参照符号が使用されている。一例の要素は、他の例に有益に組み込まれ得ることが企図される。

【0009】

詳細な説明
以下、図を参照して様々な特徴を説明する。図は原寸に比例して描かれている場合と描かれていない場合があり、同様の構造または機能の要素は、図全体を通して同様の参照符号によって表されていることに留意すべきである。これらの図は、機能の説明を容易にすることのみを目的としていることに留意すべきである。これらの図は、クレームされた発明の網羅的な説明として、または特許請求されている発明の範囲の限定として意図されたものではない。さらに、図示された例は、示されたすべての態様または利点を有する必要はない。特定の例に関連して説明される態様または利点は、必ずしもその例に限定されるものではなく、そのように図示されていないか、またはそのように明示的に説明されていない場合でも、他の任意の例において実施することができる。

【0010】

本明細書において記載されている技法は、システムオンチップ（ＳＯＣ）のマルチコアアーキテクチャのアプリケーションのグラフベースのプログラム記述を取得し、アプリケーションをマルチコアアーキテクチャにコンパイルして、各コアの実行バイナリおよびプログラム可能な構成要素の構成コードを生成するプロセスを提供する。コンパイルステップは、入力グラフ記述を内部表現に変換することと、コード分析および最適化を実行することと、グループ化すべき計算カーネルを識別すること（クラスタリングなど）と、これらのグループを特定のデータ処理エンジン（コアなど）にマッピングし、カーネルによって使用されるデータ構造をローカルメモリにマッピングすることとを含む。コンパイルステップは、ストリームスイッチを介してデータ処理エンジン間で、ならびに、プログラマブルロジックへと、および、プログラマブルロジックから、ストリームおよびダイレクトメモリアクセス（ＤＭＡ）データをルーティングすることをさらに含む。コンパイルステップは、各データ処理エンジンの実行を調整するラッパーコードを生成することと、ＤＭＡおよびストリームスイッチの構成コードを生成することと、アプリケーションを制御するために処理システムによって実行するためのプログラムを生成することとをさらに含む。これらおよびさらなる態様は、図面に関して下記に説明される。

【0011】

図１は、一例によるデータ処理エンジン（ＤＰＥ）アレイ１０５を含むデバイス１００のブロック図である。例では、デバイス１００は、システムオンチップ（ＳｏＣ）タイプのデバイスである。一般に、ＳｏＣとは、互いに相互作用することが可能な２つ以上のサブシステムを含むＩＣを指す。一例として、ＳｏＣは、プログラムコードを実行するプロセッサと、１つまたは複数の他の回路とを含み得る。他の回路は、ハードワイヤード回路、プログラム可能な回路、他のサブシステム、および／またはそれらの任意の組み合わせとして実装され得る。回路は、互いに、および／またはプロセッサと協調して動作することができる。ＤＰＥアレイ１０５は、デバイス１００内の格子、クラスタ、または格子縞パターンに配置構成され得る複数のデータ処理エンジン（ＤＰＥ）１１０を含む。図１は、行および列を有する２ＤアレイにＤＰＥ１１０を配置構成することを示しているが、例は、この配置構成に限定されない。さらに、アレイ１０５は、任意のサイズであり得、ＤＰＥ１１０によって形成された任意の数の行および列を有することができる。

【0012】

一実施形態では、ＤＰＥ１１０は同一である。すなわち、各ＤＰＥ１１０（タイルまたはブロックとも呼ばれる）は、同じハードウェア構成要素または回路を有し得る。さらに、本明細書の例は、ＤＰＥ１１０に限定されない。代わりに、デバイス１００は、任意の種類の処理要素またはデータ処理エンジンのアレイを含むことができる。さらに、ＤＰＥ１１０は、１つまたは複数の特殊なタスクを実行するための暗号化エンジンまたは他の特殊なハードウェアであり得る。したがって、ＤＰＥ１１０は、一般に、データ処理エンジンと呼ぶことができる。

【0013】

図１では、アレイ１０５は、すべて同じタイプであるＤＰＥ１１０を含む（例えば、同種アレイ）。しかしながら、別の実施形態では、アレイ１０５は、異なるタイプのエンジンを含み得る。例えば、アレイ１０５は、ＤＰＥ１１０、暗号化エンジン、前進型誤り訂正（ＦＥＣ）エンジンなどを含み得る。アレイ１０５が同種であるかまたは異種であるかに関係なく、ＤＰＥ１１０は、下記により詳細に説明するように、ＤＰＥ１１０がメモリモジュールを共有することを可能にする、隣接ＤＰＥ１１０内のメモリモジュールへの接続を含むことができる。

【0014】

一実施形態では、ＤＰＥ１１０は、非プログラマブルロジックから形成されている、すなわち、ハード化されている。そうすることの１つの利点は、ＤＰＥ１１０内にハードウェア要素を形成するためにプログラマブルロジックを使用することと比較して、ＤＰＥ１１０がデバイス１００内で占めるスペースをより少なくすることができることである。すなわち、ハード化または非プログラマブルロジックを使用して、プログラムメモリ、命令フェッチ／復号ユニット、固定小数点ベクトルユニット、浮動小数点ベクトルユニット、算術論理演算ユニット（ＡＬＵ）、乗加算器（ＭＡＣ）などのＤＰＥ１１０内のハードウェア要素を形成することによって、デバイス１００内のアレイ１０５のフットプリントを大幅に削減することができる。ＤＰＥ１１０はハード化され得るが、これは、ＤＰＥ１１０がプログラム可能でないことを意味するものではない。すなわち、ＤＰＥ１１０は、デバイス１００の電源がオンにされたとき、または再起動されたときに、異なる機能またはタスクを実行するように構成することができる。

【0015】

ＤＰＥアレイ１０５はまた、ＤＰＥ１１０とデバイス１００内の他のハードウェア構成要素との間の通信インターフェースとして機能するＳＯＣインターフェースブロック１１５を含む。この例では、デバイス１００は、ＳｏＣインターフェースブロック１１５に通信可能に結合されたネットワークオンチップ（ＮｏＣ）１２０を含む。図示されていないが、ＮｏＣ１２０は、デバイス１００内の様々な構成要素が互いに通信することを可能にするために、デバイス１００全体を通じて延在することができる。例えば、物理的な実装では、ＤＰＥアレイ１０５は、デバイス１００を形成する集積回路の右上部分に配置され得る。しかしながら、それにもかかわらず、ＮｏＣ１２０を使用して、アレイ１０５は、デバイス１００全体を通じた異なるロケーションに配置され得る、例えば、プログラマブルロジック（ＰＬ）１２０、プロセッササブシステム（ＰＳ）１３０、または入力／出力（Ｉ／Ｏ）１３５などの様々なサブシステムと通信することができる。

【0016】

ＤＰＥ１１０とＮｏＣ１２０との間のインターフェースを提供することに加えて、ＳｏＣインターフェースブロック１１５はまた、ＰＬ１２２内の通信ファブリックへの直接接続を提供することができる。一実施形態では、ＳｏＣインターフェースブロック１１５は、ＤＰＥ１１０をＮｏＣ１２０およびデバイス１００内のアレイ１０５の近くに配置されたＰＬ１２２に通信可能に結合するための別個のハードウェア構成要素を含む。

【0017】

図１は、ＰＬ１２２の１つのブロックを示しているが、デバイス１００は、デバイス１００内の異なるロケーションに配置することができるＰＬ１２２の複数のブロック（構成論理ブロックとも呼ばれる）を含み得る。例えば、デバイス１００は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）を形成するハードウェア要素を含み得る。しかしながら、他の実施形態では、デバイス１００は、ＰＬ１２２を一切含まなくてもよく、例えば、デバイス１００は、ＡＳＩＣである。

【0018】

図２は、一例によるＤＰＥ１１０を示すブロック図である。ＤＰＥ１１０は、上で説明され、図１に示されているように、ＤＰＥアレイ内のＤＰＥを実装するために使用することができる。ＤＰＥ１１０は、コア２０２、メモリ２０４、ＤＰＥ相互接続２０９、およびサポート回路２１４を含む。ＤＰＥ相互接続２０９は、ストリーミング相互接続２１０およびメモリマップ（ＭＭ）相互接続２１２を含む。一例では、サポート回路２１４は、デバッグ／トレース／プロファイル回路２１６、ハードウェア（ＨＷ）同期回路（「ＨＷロック２１８」）、およびダイレクトメモリアクセス（ＤＭＡ）回路（「ＤＭＡ２２０」）を含む。メモリ２０４は、プログラムメモリ（「ＰＭ２０６」）およびデータメモリ（「ＤＭ２０８」）を含む。

【0019】

コア２０２は、ＰＭ２０６に格納された命令（複数可）に従ってデータを処理するための１つまたは複数の計算ユニットを含む。一例では、コア２０２は、超長命令語（ＶＬＩＷ）プロセッサ、単一命令複数データ（ＳＩＭＤ）もしくはベクトルプロセッサ、またはＶＬＩＷＳＩＭＤ／ベクトルプロセッサを含む。一例では、ＰＭ２０６はコア２０２にプライベートである（例えば、ＰＭ２０６は、ＤＰＥ２００内のコア２０２によって使用するためにのみ命令（複数可）を格納する）。一例では、ＰＭ２０６は、シングルポートランダムアクセスメモリ（ＲＡＭ）を含む。ＰＭ２０６は、命令の構成およびロードのために、ＭＭ相互接続２１２に結合することができる。一例では、ＰＭ２０６は、パリティ、誤り訂正符号（ＥＣＣ）保護および報告、またはパリティとＥＣＣの両方をサポートする。例えば、ＰＭ２０６は、９ビットＥＣＣをサポートすることができ、プログラム命令（例えば、１２８ビット）における１ビットエラーまたは２ビットエラーを訂正することができる。

【0020】

コア２０２は、ストリーミング相互接続２１０に直接結合されて、入力ストリーム（複数可）を受信し、および／または出力ストリーム（複数可）を提供することができる。さらに、コア２０２は、ＤＰＥ２００内のＤＭ２０８に対してデータを読み書きすることができる。下記にさらに説明するように、ＤＰＥ２００のコア２０２は、１つまたは複数の隣接するタイル回路（例えば、北側、南側、東側、および西側の隣接するタイル回路）のＤＭにアクセスすることもできる。一例では、下記にさらに説明するように、コア２０２はまた、アキュムレータ出力を転送するための、１つまたは複数の隣接タイル内のデータ処理エンジンとの直接接続部（例えば、入力および出力カスケード接続部（複数可））を含むことができる。一例では、コア２０２は、ＤＰＥ２００内のＤＭ２０８および隣接するタイル（複数可）内の他のＤＭ（複数可）を、メモリの１つの連続したブロックとして見る。コア２０２はまた、ＨＷロック２１８へのインターフェースおよびデバッグ／トレース／プロファイル回路２１６へのインターフェースを含むことができる。デバッグ／トレース／プロファイル回路２１６は、トレース、デバッグ、および／またはプロファイル回路を含むことができる。

【0021】

ＭＭ相互接続２１２は、構成要素間のアドレストランザクションを使用してデータを送信するように構成されたＡＸＩメモリマップ相互接続などであり得る。一例では、ＭＭ相互接続２１２は、ＤＰＥ２００の構成、制御、およびデバッグ機能のために使用される。ＭＭ相互接続２１２は、アドレスに基づいてトランザクションをルーティングする１つまたは複数のスイッチを含む。回路は、ＭＭ相互接続２１２を使用して、メモリ２０４、コア２０２、ＤＭＡ２２０、およびＤＰＥ２００内の構成レジスタにアクセスすることができる。

【0022】

ストリーミング相互接続２１０は、構成要素間でストリーミングデータを送信するように構成された高度拡張可能相互接続（ＡｄｖａｎｃｅｄｅＸｔｅｎｓｉｂｌｅｉｎｔｅｒｃｏｎｎｅｃｔ：ＡＸＩ）ストリーミング相互接続などであり得る。ストリーミング相互接続２１０は、ＤＰＥ２００と外部回路との間でデータを転送するために使用される。ストリーミング相互接続２１０は、データおよび制御の両方のための回路交換メカニズムおよびパケット交換メカニズムの両方をサポートすることができる。

【0023】

一例では、下記にさらに説明するように、ＤＭ２０８は、１つまたは複数のメモリバンク（例えば、ランダムアクセスメモリ（ＲＡＭ）バンク）を含み得る。ＤＭＡ２２０は、ストリーミング相互接続２１０とＤＭ２０８との間に結合される。ＤＭＡ２２０は、データをストリーミング相互接続２１０からＤＭ２０８に移動させ、データをＤＭ２０８からストリーミング相互接続２１０に移動させるように構成される。このようにして、外部回路（例えば、プログラマブル論理内に構成された回路またはＩＣの埋め込み処理システム内の回路）は、ＤＭＡを使用してストリーミング相互接続２１０を介してＤＭ２０８に対してデータを読み書きすることができる。ＤＭＡ２２０は、ＭＭ相互接続２１２および／またはストリーミング相互接続２１０を介して制御され得る。一例では、ＤＭ２０８は、パリティ、誤り訂正符号（ＥＣＣ）保護および報告、またはパリティとＥＣＣの両方をサポートする。例えば、ＤＭ２０８は、９ビットＥＣＣ（例えば、１２８ビットデータ）をサポートすることができる。

【0024】

ＨＷロック２１８は、コア２０２、別のタイル内の別のデータ処理エンジン、またはＤＭＡ２２０によるアクセスのためにＤＭ２０８の特定のメモリバンクをロックするために使用されてもよい。ＨＷロック２１８は、隣接し合うタイル内の隣接し合うデータ処理エンジン間、コア２０２とＤＭＡ２２０との間、およびコア２０２と外部回路（例えば、外部プロセッサ）との間に同期をもたらす。ＨＷロック２１８はまた、１つまたは複数のメモリバンクに格納され得るかまたは単一のメモリバンクの一部分に格納され得る、ＤＭ２０８内の特定のバッファをロックするために使用することもできる。デバッグ／トレース／プロファイル回路２１６は、デバッグ機能、トレース機能およびプロファイル機能を提供するように構成される。デバッグ／トレース／プロファイル回路２１６は、ＤＰＥ２００内の回路によって生成されるイベントをトレースすることができる。デバッグ／トレース／プロファイル回路２１６は、プロファイル機能、例えば、構成可能な実施カウンタを提供することができる。

【0025】

図３は、一例によるＤＰＥ２００をより詳細に示すブロック図である。この例では、ＤＰＥ２００は、コア２０２、メモリモジュール３５１、およびＤＰＥ相互接続２０９を含む。コア２０２は、計算回路２０３およびＰＭ２０６を含む。メモリモジュール３５１は、メモリインターフェース３０２Ｎ、３０２Ｓ、３０２Ｅおよび３０２Ｗ（総称してメモリインターフェースまたは個々に「メモリＩＦ」）、ＲＡＭバンク３１８、ＨＷロック２１８、レジスタ（「レジスタ３０４」）、ＤＭＡインターフェース２０４Ａ、およびＤＭＡインターフェース２２０Ｂを含む。計算回路２０３は、レジスタ（「レジスタ３０６」）を含む。ＤＰＥ相互接続２０９は、ＭＭ相互接続２１２およびストリーミング相互接続２１０（図２に示す）を含む。ＭＭ相互接続２１２およびストリーミング相互接続２１０はともに、ＲＡＭバンク３１８にアクセスすることができる。ＲＡＭバンク３１８は、バンクごとにアービトレーション論理３１９を含む。アービトレーション論理３１９は、どのインターフェース（Ｎ，Ｓ，Ｅ，Ｗ，ＤＭＡ，外部ＰＳなど）がどのバンクにアクセスするかを制御するように構成される。ＤＰＥ相互接続２０９のさらなる詳細は、図４の例に関して下記に議論される。

【0026】

ＤＰＥ相互接続２０９は、西側タイルへのストリーミング接続３１４Ｗと、東側タイルへのストリーミング接続３１４Ｅと、北側タイルへのストリーミング接続３１４Ｎと、南側タイルへのストリーミング接続３１４Ｓとを含む。各ストリーミング接続３１４は、１つまたは複数の独立したストリーミングインターフェース（例えばバス）を含んでおり、これらストリーミングインターフェースの各々は特定のビット幅を有する。ＤＰＥ相互接続２０９はまた、南側タイルからのメモリマップ接続３１２Ｓと、北側タイルへのメモリマップ接続３１２Ｎとを含む。北側および南側のＭＭ接続のみが図示されているが、ＤＰＥ相互接続２０９が、ＭＭ相互接続のための他の構成（例えば、東側から西側、西側から東側、北側から南側など）を含み得ることは理解されたい。ＤＰＥ相互接続２０９が、図３の例に示される以外のストリーミング接続およびメモリマップ接続の他の配置構成を含み得ることは理解されたい。概して、ＤＰＥ相互接続２０９は、少なくとも１つのストリーミング接続３１４と、少なくとも１つのメモリマップ接続３１２とを含む。

【0027】

計算回路２０３は、西側タイル内のメモリ回路への接続３０８Ｗと、南側タイル内のメモリ回路への接続３０８Ｓと、北側タイル内のメモリ回路への接続３０８Ｎと、メモリモジュール３５１への接続３０８Ｅとを含む。計算回路２０３は、ＤＰＥ相互接続２０９へのストリーミングインターフェースを含む。計算回路２０３はまた、西側タイル内のコアからの接続３１０Ａと、東側タイル内のコアへの接続３１０Ｂ（例えば、カスケード接続）とを含む。ＤＰＥが、図３の例に示されるメモリおよびカスケード接続の他の配置構成を含み得ることは理解されたい。概して、計算回路２０３は、少なくとも１つのメモリ接続を含み、少なくとも１つのカスケード接続を含み得る。

【0028】

メモリＩＦ３０２Ｗは、計算回路２０３のメモリ接続３０８Ｅに結合される。メモリＩＦ３０２Ｎは、北側タイル内のデータ処理エンジンのメモリ接続に結合される。メモリＩＦ３０２Ｅは、東側タイル内のデータ処理エンジンのメモリ接続に結合される。メモリＩＦ３０２Ｓは、南側タイル内のデータ処理エンジンのメモリ接続に結合される。メモリＩＦ３０２Ｗ、３０２Ｎ、３０２Ｅ、および３０２ＳはＲＡＭバンク３１８に結合される。ＤＭＡ２２０Ａは、相互接続ストリームへのメモリを処理するためにＤＰＥ相互接続２０９に結合された出力を含む。ＤＭＡ２２０Ｂは、メモリストリームへの相互接続を処理するためにＤＰＥ相互接続２０９に結合された入力を含む。レジスタ３０４およびレジスタ３０６は、ＤＰＥ相互接続２０９に結合されて、（例えば、メモリマップ相互接続を使用して）そこから構成データを受信する。

【0029】

図４は、一例によるＤＰＥ相互接続２０９を示すブロック図である。ＤＰＥ相互接続２０９は、ストリームスイッチ４０２およびＭＭスイッチ４０４を含む。ストリームスイッチ４０２は、西側ストリームインターフェース４０６Ｗ、北側ストリームインターフェース４０６Ｎ、東側ストリームインターフェース４０６Ｅ、および南側ストリームインターフェース４０６Ｓに結合される。西側ストリームインターフェース４０６Ｗは、ストリームを受信して西側タイルのＤＰＥ相互接続に供給する。北側ストリームインターフェース４０６Ｎは、ストリームを受信して北側タイルのＤＰＥ相互接続に供給する。西側ストリームインターフェース４０６Ｗは、ストリームを受信して西側タイルのＤＰＥ相互接続に供給する。南側ストリームインターフェース４０６Ｓは、ストリームを受信して南側タイルのＤＰＥ相互接続に供給する。ＭＭスイッチ４０４は、北側ＭＭインターフェース４０８Ｎおよび南側ＭＭインターフェース４０８Ｓに結合される。北側ＭＭインターフェース４０８Ｎは、北側タイル内のＤＰＥ相互接続に結合される。南側ＭＭインターフェース４０８Ｓは、南側タイル内のＤＰＥ相互接続に結合される。

【0030】

ストリームスイッチ４０２は、先入れ先出し（ＦＩＦＯ）回路（ＦＩＦＯ４１２）およびレジスタ（レジスタ４１０）を含む。ＦＩＦＯ４１２は、ストリームスイッチ４０２を通過するストリームをバッファするように構成される。レジスタ４１０は、ストリームスイッチを通るストリームのルーティングを制御するストリームスイッチ４０２のための構成データを格納する。レジスタ４１０は、ＭＭスイッチ４０４から構成データを受信し得る。ストリームスイッチ４０２は、計算回路２０３への付加的インターフェースと、ＤＭＡ回路２２０への付加的インターフェースとを含み得る。ストリームスイッチ４０２は、制御ストリームを送受信し、（例えば、デバッグ／トレース／プロファイル回路２１６から）トレースストリームを受信することができる。

【0031】

図５は、一例による回路設計システム５００の一例を示すブロック図である。回路設計システム５００は、入出力（ＩＯ）デバイス５１２、ディスプレイ５１４、およびＳＯＣ１００に結合されたコンピュータ５０１を含む。コンピュータ５０１は、中央処理装置（ＣＰＵ）５０２、システムメモリ５０８、様々なサポート回路５０４、ストレージ５２０、およびＩＯインターフェース５０６などのコンピューティングデバイスの従来の構成要素を含むことができるハードウェアプラットフォーム５１８を含む。ＣＰＵ５０２は、１つまたは複数のマイクロプロセッサを含むことができる。ＣＰＵ５０２は、本明細書で説明される１つまたは複数の動作を実行する命令を実行するように構成される。命令は、システムメモリ５０８、ストレージ５２０、またはハードウェアプラットフォーム５１８内の他の任意のメモリ（例えば、キャッシュメモリ）に格納することができる。システムメモリ５０８は、情報を記憶するデバイスを含み、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、またはそれらの組み合わせを含むことができる。ストレージ５２０は、ハードディスク、フラッシュメモリモジュール、ソリッドステートディスク、光ディスクなどのようなローカルストレージデバイスを含む。ストレージ５２０はまた、１つまたは複数のネットワークデータストレージシステムとの通信するように構成されたインターフェースを含むことができる。サポート回路５０４は、従来のキャッシュ、電源、クロック回路、データレジスタ、ＩＯインターフェースなどを含むことができる。ＩＯインターフェース５０６は、当該技術分野で知られているコンピュータ５０１への従来のインターフェースを含む。ＩＯインターフェース５０６は、従来のキーボード、マウスなどを含むことができるＩＯデバイス５１２に結合することができる。ＩＯインターフェース５０６はまた、ＧＵＩ５１６をユーザに提示することができるディスプレイ５１４に結合することができる。

【0032】

コンピュータ５０１は、オペレーティングシステム（ＯＳ）５２２および設計ツール５１０を含むソフトウェアプラットフォームをさらに含む。ＯＳ５２２および設計ツール５１０は、ＣＰＵ５０２によって実行される命令を含む。ＯＳ５２２は、Ｌｉｎｕｘ（登録商標）、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、ＭａｃＯＳ（登録商標）などの既知のオペレーティングシステムを含んでもよい。設計ツール５１０は、ハードウェアプラットフォーム５１８へのインターフェースを提供するＯＳ５２２内で実行されるアプリケーションである。設計ツール５１０の動作は、下記に説明される。本明細書に記載の技術を含むように適合させることができる例示的な設計ツールは、カリフォルニア州サンノゼ所在のＸｉｌｉｎｘ，Ｉｎｃ．から入手可能なＶｉｖａｄｏ（登録商標）設計スイートであるが、他の回路設計ツールも同様に適合させることができる。

【0033】

異種マルチコアアーキテクチャのコンパイラフロー
図６は、一例によるターゲットプラットフォームのアプリケーションの実装を示すブロック図である。設計ツール５１０は、ソフトウェアコンパイラ（「ＳＷコンパイラ６０２」）、ＤＰＥアレイコンパイラ６０４、およびハードウェア設計ツール（「ＨＷ設計ツール６０６」）を含む。設計ツール５１０は、アプリケーション６０８、ユーザ制約６１０、およびハードウェアベースプラットフォーム（「ＨＷベースプラットフォーム６１２」）を受信する。ユーザは、ＳｏＣ１００向けに実装されるアプリケーション６０８を定義する。アプリケーション６０８は、ＰＬ１２２、ＰＳ１３０、およびＤＰＥアレイ１０５にマッピングされる部分を含む。ＳＷコンパイラ６０２は、任意のプログラミング言語（例えば、Ｃ、Ｃ＋＋など）を使用して定義されたソースコードを含むことができる、ＰＳ１３０にマッピングされるアプリケーション６０８の部分をコンパイルするように構成される。ＨＷ設計ツール６０６は、任意のハードウェア記述言語（ＨＤＬ）、レジスタ転送言語（ＲＴＬ）、高位合成（ＨＬＳ）モデル、並列プログラミング言語（例えば、ＳｙｓｔｅｍＣ）などを使用して定義された回路記述を含むことができる、ＰＬ１２２にマッピングされるアプリケーション６０８の部分を実装するように構成される。ＤＰＥアレイコンパイラ６０４は、下記にさらに定義されるＤＰＥアレイ１０５を標的とするアプリケーション６０８の部分をコンパイルするように構成される。

【0034】

図７は、一例によるアプリケーション６０８を示すブロック図である。ユーザは、設計ツール５１０と相互作用して、ＳＯＣ１００を標的とするアプリケーション６０８を定義する。この例では、アプリケーション６０８は、入力回路７０２、カーネル７０４、カーネル７０６、出力回路７０８、および制御ソフトウェア７１０を含む。入力回路７０２は、カーネル７０４に結合され、カーネル７０４にデータを提供する。カーネル７０４は、カーネル７０６に結合され、カーネル７０６にデータを提供する。カーネル７０６は、出力回路７０８に結合され、出力回路７０８にデータを提供する。制御ソフトウェア７１０は、カーネル７０４およびカーネル７０６を制御し、それらにデータを提供する。一般に、アプリケーション６０８は、設計に応じて特定の方法で互いに接続された１つまたは複数の回路、１つまたは複数のカーネル、および制御ソフトウェアを含む。

【0035】

この例では、入力回路７０２は、外部システム／回路と通信し、かつ処理のためにカーネル７０４にデータを提供する構成されたデジタルロジック（および任意選択的にアナログロジック）を含む。入力回路７０２は、ＰＬ１２２にマッピングされる。同様に、出力回路７０８は、外部システム／回路と通信し、かつ処理されたカーネル７０６からのデータを受信するように構成されたデジタルロジック（および任意選択的にアナログロジック）を含む。出力回路７０８は、ＰＬ１２２にマッピングされる。一例では、カーネル７０４および７０６は、データプロセッサのプログラム記述を含む。カーネル７０４および７０６は、ＤＰＥアレイ１０５にマッピングされる。制御ソフトウェア７１０は、カーネル７０４および７０６のためのコントローラのプログラム記述である。一例では、制御ソフトウェア７１０は、ＰＳ１３０にマッピングされる。

【0036】

図６に戻ると、実装データ６１４は、ストリームスイッチ構成コード６１６、ＤＭＡエンジン構成コード６１８、ＰＳバイナリ６２４、ＤＰＥバイナリ６２０、およびＰＬビットストリーム６２２を含む。ＳＷコンパイラ６０２は、ＰＳ１３０（例えば、制御ソフトウェア７１０）を標的とするアプリケーション６０８のソースコードからＰＳバイナリ６２４を生成する。ＰＳバイナリ６２４は、特定のマイクロプロセッサアーキテクチャ（例えば、ｘ８６、ＡＲＭ（登録商標）など）を標的とするように構成される。ＨＷ設計ツール６０６は、ＰＬ１２２（例えば、入力回路７０２および出力回路７０８）を標的とするアプリケーション６０８の部分からＰＬビットストリーム６２２を生成する。ＰＬビットストリーム６２２は、特定のＳＯＣデバイスを標的とする。ＤＰＥアレイコンパイラ６０４は、ＤＰＥアレイ１０５（例えば、カーネル７０４および７０６）を標的とするアプリケーション６０８の部分に基づいて、ストリームスイッチ構成コード６１６、ＤＭＡエンジン構成コード６１８、およびＤＰＥバイナリ６２０を生成する。ストリームスイッチ構成コード６１６は、ＤＰＥ相互接続２０９においてストリームスイッチ４０２をプログラミングするためのデータを含む。ＤＭＡエンジン構成コード６１８は、ＤＰＥ１１０のメモリモジュール３５１においてＤＭＡ回路２２０をプログラミングするためのデータを含む。ＤＰＥバイナリ６２０は、ＤＰＥ１１０のコア２０２内の計算回路２０３によって実行するためのコードを含む。

【0037】

実装出力６１４は、ターゲットプラットフォーム６２６上での実装のために構成されている。ターゲットプラットフォーム６２６は、シミュレーションプラットフォーム（「シミュレーション６２８」）、エミュレーションプラットフォーム（「エミュレーション６３０」）、およびハードウェアプラットフォーム（「ハードウェア６３２」）を含む。ハードウェア６３２は、ＳＯＣ１００を含む。シミュレーションプラットフォーム６２８およびエミュレーションプラットフォーム６３０は、ハードウェア６３２をシミュレート／エミュレートする。

【0038】

図８は、一例によるＤＰＥアレイコンパイラ６０４を示すブロック図である。ＤＰＥアレイコンパイラ６０４は、フロントエンド８０６、マッパ８０８、バックエンド８１０、およびシングルコアコンパイラ８１２を含む。ＤＰＥアレイコンパイラ６０４は、個別の構成要素を有するものとして説明されているが、これらの構成要素の機能は、図８に示される例とは異なる構造においてより多いまたは少ない構成要素を使用して実装することができることを理解されたい。ＤＰＥアレイ１０５を標的とするアプリケーション６０８の部分は、ユーザ定義のグラフ記述８０２およびカーネルソースコード８０４を含む。ユーザ定義のグラフ記述８０２は、構成要素およびそれらの接続性（例えば、入力回路７０２、カーネル７０４および７０６、出力回路７０８、ならびに制御ソフトウェア７１０）を記述する。カーネルソースコード８０４は、ＤＰＥアレイ１０５のＤＰＥ１１０において実装される機能のプログラム記述を提供する。

【0039】

ユーザ定義のグラフ記述８０２は、様々なプログラミング言語（例えば、Ｃ、Ｃ＋＋など）またはデータ構造言語（例えば、ＸＭＬ、ＪＳＯＮなど）を使用して指定することができる。Ｃ＋＋で指定されたユーザ定義のグラフ記述８０２の一例を下記に示す。

【0040】

【表1】

【0041】

上記の例では、無線クラスはグラフ作成プリミティブを有するクラスライブラリ（ｃａｒｄａｎｏ）から導出される。これらのプリミティブを使用して、ユーザ定義のグラフ記述８０２は、計算ノードａ、ｂ、ｃ、ｄ、ｅ、およびｆを定義する。計算ノードａおよびｆは、ＰＬ１２２にマッピングされた回路である。計算ノードｂ、ｃ、ｄ、およびｅは、ＤＰＥアレイ１０５にマッピングされたカーネルである。回路ａは、ＤＭＡストリーミング接続を使用してカーネルｂに接続される。カーネルｂはカーネルｃに接続されており、カーネルｃはカーネルｄに接続されており、カーネルｄはカーネルｅに接続されており、カーネルｅはカーネルｂに接続されており、そのような各接続はＤＰＥ１０５内のメモリブロックを介して行われる。カーネルｄは、ＤＭＡストリーミング接続を介して回路Ｆに接続されている。

【0042】

ユーザ定義のグラフ記述８０２はまた、プラットフォームのトップレベルの記述を含むことができる。例えば、記述は以下のとおりである。

【0043】

【表2】

【0044】

上記の例では、ユーザは無線クラス（ｍｙｇｒａｐｈ）をインスタンス化し、シミュレーションターゲットを設定する。ユーザは、ＰＳ１３０上で実行される制御プログラムを次のように指定することもできる。

【0045】

【表3】

【0046】

上記の例では、ユーザはシミュレーションプラットフォームでのシミュレーションのために、ｍｙｇｒａｐｈを初期化し、ｍｙｇｒａｐｈを実行し、ｍｙｇｒａｐｈを終了する。

【0047】

カーネルソースコード８０４は、ＤＰＥ１１０を標的とする各計算ノード（例えば、上記の例の計算ノードｂ、ｃ、ｄ、およびｅ）のソースコード記述を提供する。カーネルソースコード８０４は、任意のプログラミング言語（例えば、Ｃ、Ｃ＋＋など）を使用して定義することができる。計算ノードｃ（イコライザ）を定義するためのＣ＋＋ソースコードの例を下記に示す。

【0048】

【表4】

【0049】

この例では、計算ノードｃ（イコライザ）は、計算ノードの入力を定義する入力パラメータを有するＣ／Ｃ＋＋関数を使用して実装されている。コードは、実施のスケジューリングを支援するプラグマを含む。コードは、ベクトル化された計算を実行するための組み込み関数と、データにアクセスするためのアプリケーションプログラミングインターフェース（ＡＰＩ）とを含む。

【0050】

フロントエンド８０６は、ユーザ定義のグラフ記述８０２を処理し、内部表現として有向グラフを生成するように構成される。有向グラフでは、ノードは計算ノードを表し、エッジは計算ノード間の接続を表す。マッパ８０８は、デバイス記述８１４に基づいて、ターゲットデバイス内のＤＰＥアレイ１０５の有向グラフを実装するように構成される。マッパ８０８は、計算ノードをグループにパーティショニングし、パーティショニングされた計算ノードをＤＰＥ１１０にマッピングする。バックエンド８１０は、ＤＰＥ１１０とＰＬ１２２内の回路との間の接続をルーティングし、次にシングルコアコンパイラ８１２を呼び出してＤＰＥバイナリを生成し、また、マッパ８０８の出力に基づいてストリームスイッチおよびＤＭＡ構成コードを生成するように構成される。

【0051】

図９Ａ～図９Ｄは、一例による、ＤＰＥアレイ１０５を標的とするアプリケーション６０８の一部分の例示的な有向グラフ表現を示すブロック図である。図１０は、ＤＰＥアレイ１０５内の有向グラフの配置およびルーティングを示すブロック図である。図９Ａ～図９Ｄの有向グラフは、計算ノードａ、ｂ、ｃ、ｄ、ｅ、およびｆを有するユーザ定義のグラフ記述８０２について上で説明した例を表し、ここで、計算ノードａおよびｆは、ＰＬ１２２にマッピングされ、計算ノードｂ、ｃ、ｄ、およびｅは、ＤＰＥアレイ１０５にマッピングされる。図９Ａに示されるように、有向グラフは、ノードＡ９０２、Ｂ９０４、Ｃ９０６、Ｄ９０８、Ｅ９１０、およびＦ９１２を含む。ノードＡはノードＢに接続されており、ノードＢはノードＣに接続されており、ノードＣはノードＤに接続されており、ノードＤはノードＦおよびノードＥに接続されている。図９Ｂ～図９Ｄは、下記にさらに説明するように、マッパ８０８が様々なステップを通じて有向グラフを処理する方法を示している。

【0052】

図１１は、一例による、ＳＯＣ１００のＤＰＥアレイ１０５のコードおよび構成を生成する方法１１００を示す流れ図である。方法１１００は、コンピュータシステム５０１上で実行される設計ツール５１０によって実行される。上記のように、設計ツール５１０は、アプリケーション６０８を処理して、ＳＯＣ１００のコードおよび構成データを生成するように構成される。方法１１００は、ＤＰＥアレイコンパイラ６０４によって実行される。

【0053】

方法１１００は、ステップ１１０２において始まり、ここで、ＤＰＥアレイコンパイラ６０４は、アプリケーション６０８を解析し、設計のユーザ定義のグラフ記述に基づいて有向グラフを生成する。一例では、ＤＰＥアレイコンパイラ６０４は、計算ノード９０２～９１２およびそれらの間の接続を識別する。次に、ＤＰＥアレイコンパイラ６０４は、図９Ａに示されるように、ノードがカーネルであり、エッジが接続であるグラフを形成する。

【0054】

ステップ１１０４において、ＤＰＥアレイコンパイラ６０４は、有向グラフを処理して、データ処理エンジンのコア上で実行することができるグループにカーネルをクラスタ化する。この例では、カーネルは、計算ノードＢ９０４、Ｃ９０６、Ｄ９０８、およびＥ９１０から選択される。すなわち、各ＤＰＥ１１０は、１つまたは複数のカーネルを実行することができ、ＤＰＥアレイコンパイラ６０４は、どのカーネルを組み合わせてグループとして実行することができるかを決定する。図９Ｂに示すように、ＤＰＥアレイコンパイラ６０４は、ノードＢ９０４およびノードＣ９０６を組み合わせてグループ９０５にし、ノードＤ９０８およびノードＥ９１０を組み合わせてグループ９０７にすることができる。

【0055】

ステップ１１０６において、ＤＰＥアレイコンパイラ６０４は、パフォーマンスを改善し、カーネルクラスタのメモリフットプリントを削減するために、最適化のために各カーネルを定義するコードを処理する。ステップ１１０８において、ＤＰＥアレイコンパイラ６０４は、カーネル（または存在する場合はカーネルクラスタ）をＤＰＥアレイ１０５内のＤＰＥ１１０にマッピングする。図１０に示されるように、ノードＢ９０４およびＣ９０６によって表されるカーネルは、１つのＤＰＥのコア２０２－１にマッピングされ、ノードＤ９０８およびＥ９１０によって表されるカーネルは、別のＤＰＥのコア２０２－３にマッピングされる。

【0056】

ステップ１１１０において、ＤＰＥアレイコンパイラ６０４は、カーネルコードにおいて定義されているデータ構造を、対応するＤＰＥ１１０内のローカルメモリバンクに、または非ローカル通信のためのＤＭＡにマッピングする。上記のように、互いに近接しているＤＰＥはメモリバンクを共有することができる。共有メモリを介した通信は、本明細書でさらに説明するように、単一バッファまたは二重バッファにすることができる。ただし、場合によっては、ＤＰＥが別のＤＰＥから十分に離れており、結果、ＤＰＥ上で実行されているカーネルがＤＭＡ通信を必要とすることがある。図９Ｃに示されるように、ノードＡ９０２とＢ９０４との間の通信は、二重バッファ９１４を介して行われる。ノードＢ９０４とノードＣ９０６との間の通信は、単一バッファ９１６を介して行われる。ノードＣ９０６とノードＤ９０８との間の通信は、二重バッファ９１８を介して行われる。ノードＤ９０８とノードＥ９１０との間の通信は、単一バッファ９２０を介して行われる。ノードＥ９１０とノードＢ９０４との間の通信は、二重バッファ９２２を介して行われる。そして、ノードＤ９０８とノードＦ９１２との間の通信は、二重バッファ９２４を介して行われる。図１０に示されるように、バッファ９１４は、メモリモジュール３５１－１内のＲＡＭバンク３１８にマッピングされる。バッファ９１８は、メモリモジュール３５１－２内のＲＡＭバンク３１８にマッピングされる。バッファ９２４は、メモリモジュール３５１－４のＲＡＭバンク３１８にマッピングされる。メモリバッファ９１６、９２０、および９２２は、メモリモジュール３５１－３のＲＡＭバンク３１８にマッピングされる。

【0057】

ステップ１１１２において、ＤＰＥアレイコンパイラ６０４は、ＤＰＥアレイ１０５とＰＬ１２２との間で通信チャネルを配分することができる。これは例えば、ＰＬ１２２（例えば、計算ノードａおよびｆ）内で構成された入出力回路への通信チャネルである。例えば、図１０に示されるように、ノードＡ９０２は、メモリモジュール３５１－１内のＤＭＡ２２０とのＤＭＡ通信向けに構成されている。ノードＦ９１２は、メモリモジュール３５１－４内のＤＭＡ２２０とのＤＭＡ通信向けに構成されている。

【0058】

ステップ１１１４において、ＤＰＥアレイコンパイラ６０４は、カーネル間でコア対コアおよびコア対ＤＭＡ（必要な場合）同期のためにロックを配分する。図９Ｄに示されるように、ＤＰＥアレイコンパイラ６０４は、ノードＡ９０２とＢ９０４との間でロック９２４を配分し、ノードＣ９０６とＤ９０８との間でロック９２８を配分し、ノードＥ９１０とＢ９０４との間でロック９２６を配分し、ノードＤ９０８とＦ９１２との間でロック９３０を配分する。ロック９２４、９２６、９２８、および９３０は、ノード間の二重バッファの同期を提供する。

【0059】

ステップ１１１６において、ＤＰＥアレイコンパイラ６０４は、コア間で、およびストリームスイッチ（例えば、回線および／またはパケット交換）を介してＰＬ１２２から／へのストリームデータ通信をルーティングする。ステップ１１１８において、ＤＰＥアレイコンパイラ６０４は、各ＤＰＥ１１０のラッパーコードを生成し、ラッパーコードをコンパイルして、ＤＰＥバイナリを生成する。ステップ１１２０において、ＤＰＥアレイコンパイラ６０４は、ＤＭＡストリームスイッチを構成するための制御コードを生成する。ステップ１１２２において、ＤＰＥアレイコンパイラ６０４は、データ処理エンジンアレイ内で実行されているカーネルにアクセスして制御するために処理システム上で実行されている制御ソフトウェアのためのアプリケーションプログラミングインターフェース（ＡＰＩ）を生成する。

【0060】

ヒューリスティックパーティショナ
上記の方法１１００において、ＤＰＥアレイコンパイラ６０４は、カーネルを、ＤＰＥ１１０上で実行できるグループにクラスタ化する（ステップ１１０４）。計算上、パーティショニング問題は非多項式（ＮＰ）ハードである。これは、競合を伴うビンパッキングの古典的な問題がパーティショニング問題に還元されることに起因する。本明細書における例では、扱いやすさのために、貪欲なヒューリスティックがパーティショニングアルゴリズムにおいて使用される。グラフベースのプログラミングモデルでは、各カーネルは関連する実行時間比を有し、これは、サイクルバジェットと比較した実行時間の上限を示す。ともにクラスタ化されたカーネルの実行時間比の合計は、１を超えてはならない。さらに、ユーザは、カーネル間のコロケーション制約、またはカーネルの絶対ロケーション制約を指定することもできる。これは、パーティションへのカーネルの配分、および、データ処理エンジンへのカーネル／パーティションのマッピングに影響を与える。以前の取り組みと比較して、本明細書において説明するパーティショニングスキームは、絶対制約、相対制約、および派生制約を含む様々な制約を処理するという点で独特である。また、これらの技法は、パーティションの作成中にいくつかの制約を動的に推測し、結果、実行可能なパーティションからコアへのマッピングを見つけることができる。さらに、これらの技法は、ユーザが、各々が多基準の目的関数を有する種々のパーティショニングヒューリスティックから選択することを可能にする。

【0061】

図１２は、一例による、ＤＰＥ間でアプリケーション内のカーネルをパーティショニングする方法１２００を示す流れ図である。方法１２００は、上記のステップ１１０４の一部として実行することができる。方法１２００は、ステップ１２０２において始まり、ここで、ＤＰＥアレイコンパイラ６０４は、有向グラフ（例えば、上記のステップ１１０２で形成された）を受信する。有向グラフでは、ノードはカーネルであり、エッジはカーネル間のデータフローを表す。ユーザは、特定のカーネルを特定のデータ処理エンジンに配置する必要があるなど、絶対制約を定義することができる。ユーザはまた、特定のカーネルセットを同じデータ処理エンジンに配置する必要があるなど、相対制約を定義することもできる。ステップ１２０４において、ＤＰＥアレイコンパイラ６０４は、ユーザ定義の制約（「ユーザ制約」）に基づいて、いくつかのカーネルを「マクロノード」にグループ化する。この時点で、グラフはノードおよびマクロノードを含み、ノードは単一のカーネルを含み、マクロノードは２つ以上のカーネルを含む。以降、この説明ではノードとマクロノードとを区別せず、ノードおよびカーネルを交換可能に使用する。

【0062】

ステップ１２０６において、ＤＰＥアレイコンパイラ６０４は、それらの実行時間比および重要度に基づいてグラフ内のノードをソートする。これは２つのステップにおいて行われる。まず、ＤＰＥアレイコンパイラ６０４は、静的レベルに基づいてノードをソートして、リストＬ１を作成する。ノードｎの静的レベルは、ｎからグラフ内の任意のシンクへの最大累積実行時間比として計算される。次に、ＤＰＥアレイコンパイラ６０４は、Ｌ１をスキャンして、未探索のノードｍを見つける。ｍをルートとして、深さ優先の探索を優先しながら、逆後行順（ＲＰＯ）トラバーサルを実行する。この説明では、このトラバーサルを深さ優先ＲＰＯと呼ぶ。ＲＰＯトラバーサルにおいて探索されたすべてのノードは、新しいリストＬ２に追加される。次に、新しい未探索ノードがＬ１から選択され、Ｌ１内のすべてのノードが探索されるまでステップ１２０６が繰り返される。ＲＰＯトラバーサルは局所性を活用し、プロデューサ－コンシューマカーネルを同じパーティションに配置する可能性を高め、クリティカルパスが悪化しない可能性を高める。

【0063】

ステップ１２０８において、ＤＰＥアレイコンパイラ６０４は、ソートされたノードを一度に１つずつ処理し、それらを最終的なパーティションに配置する。各ノードは、既存のパーティションまたは新しいパーティションに配置することができる。割り当ては、選択したカーネルと各パーティションの既存のカーネルとの間の制約を決定することによって実行される。例えば、ＤＰＥアレイコンパイラ６０４は、各パーティションの実行時間比を１以下に維持する（例えば、所与のデータ処理エンジンがオーバーコミットにならないようにする）（ステップ１２１０）。したがって、ｂ＿ａ内のカーネルの実行時間比とカーネルｋ＿ａの実行時間比との合計が１を超える場合、カーネルｋ＿ａをパーティションｂ＿ａに割り当てることはできない。

【0064】

別の例では、絶対制約のあるカーネルを有するパーティションは絶対制約を継承する（ステップ１２１２）。したがって、カーネルｋ＿ａが、カーネルを特定のデータ処理エンジンに固定する絶対制約を有し、パーティショニングアルゴリズムがｋ＿ａをパーティションｂ＿ａにマッピングする場合、ｋ＿ａの絶対制約はパーティションｂ＿ａに拡張される。その後、ＤＰＥアレイコンパイラ６０４は、異なるカーネルｋ＿ｂをパーティションｂ＿ａに追加しない。ここで、ｋ＿ｂは、それをｋ＿ａとは異なるデータ処理エンジンにマッピングする絶対制約を有する。

【0065】

別の例では、ＤＰＥアレイコンパイラ６０４は、パーティションがデータ処理エンジンアレイの物理的制約を満たすことを保証する（ステップ１２１４）。例えば、パーティションには、所与のアーキテクチャに対して定義された数を超える入出力ストリームポートを含めることはできない。同じパーティション内の２つのカーネルは、それらの間にストリーム接続、カスケード接続、非同期接続など、特定のタイプの接続を有することはできない。

【0066】

別の例では、ＤＰＥアレイコンパイラ６０４は、パーティショニングプロセス（ステップ１２１６）から生じる任意の動的なロケーション制約をすべて満たす。パーティショニングが進むにつれて、いくつかのロケーション制約が、交差する二重バッファデータエッジを有する２つのパーティション間で動的に発生する可能性がある。このようなパーティションは、アレイ内の隣接するデータ処理エンジンにマッピングされる必要がある場合がある。

【0067】

ステップ１２０８において、パーティショニングアルゴリズムは、すべての制約を追跡し、カーネルをパーティションに割り当てる間、それらを尊重する。制約の競合のためにカーネルを任意の既存のパーティションに追加することができない場合、ＤＰＥアレイコンパイラ６０４は新しいパーティションを作成する。ただし、カーネルを追加することができるパーティションが複数ある場合は、次の２つの可能性がある。（１）ＤＰＥアレイコンパイラ６０４は、既存のパーティションの１つにカーネルを追加することができる、または（２）ＤＰＥアレイコンパイラ６０４は、カーネルを新しいパーティションに追加することができる。第１のオプションは、開かれるパーティションの数を最小限に抑え、これは、消費電力に直接影響する。第２のオプションは、全体的な実行待ち時間を短縮するのに役立つ。ユーザは、異なるアプリケーションに対して異なる目的を有する可能性がある（例えば、電力使用量の削減対実行時間の削減）ため、ＤＰＥアレイコンパイラ６０４は、ユーザに２つの実施態様を提供することができる。（１）可能な場合はいつでも、パーティションの数を最小限に抑える、すなわち、競合のない既存のパーティションの１つにカーネルを追加する。（２）クリティカルパス長を悪化させない場合にのみカーネルを競合のないパーティションに追加する、それ以外の場合は、新しいパーティションが作成される。どちらの場合も、カーネルを複数のパーティションに追加することができるとアルゴリズムが判断した場合、パーティションにまたがる二重バッファエッジの数を最小限に抑えるパーティションが優先される。

【0068】

ステップ１２１８において、設計ツールは、重要度に基づいて、各パーティション内のカーネルの実行順序を決定する。パーティショニング後、各パーティション内のカーネルは順番に実行される。実行待ち時間の増加を回避するために、所与のパーティション内のカーネルは、その重要度に基づいて実行される。

【0069】

パーティショニング問題のいくつかの制約は、整数線形計画（ＩＬＰ）問題として定式化することもできる。これは、ＩＬＰソルバを使用して解決することができる。ただし、すべての制約／目的関数をＩＬＰで効果的に表すことができるわけではなく、解は経時的に指数関数的になる可能性がある。ここで説明するヒューリスティックベースのパーティショナは貪欲であり、したがって、経時的に線形である。パーティショニングは、マッピングと並行して行われる。代替的に、パーティショニングとマッピングとを同時に実行することもできる。

【0070】

図１３は、一例による、カーネルをパーティションに割り当てる方法１３００を示す流れ図である。方法１３００は、上記の方法１２００のステップ１２０８の一部として実行することができる。方法１３００は、ステップ１３０２において開始し、ここで、ＤＰＥアレイコンパイラ６０４は、（例えば、ステップ１２０６から）深さ優先の逆後行順でソートされたノードのセットＰを取得する。ステップ１３０４において、ＤＰＥアレイコンパイラ６０４は、セットＰが空であるか否か（例えば、すべてのカーネルがパーティションに割り当てられているか否か）を決定する。そうである場合、方法１３００は、ステップ１３０６に進み、通信最小化のためにパーティショニング後の最適化を実行する。そうでなければ、方法１３００はステップ１３０８に進む。ステップ１３０８において、ＤＰＥアレイコンパイラ６０４は、ノードｎをセットＰから削除する。ステップ１３１０において、ＤＰＥアレイコンパイラ６０４は、ノードｎを既存のまたは新しいパーティションに割り当てる。

【0071】

特に、ＤＰＥアレイコンパイラ６０４は、ｎを追加することができる既存のパーティションのセットＲを決定する。ステップ１３１２において、ＤＰＥアレイコンパイラ６０４は、ｎと共有されるバッファの降順でパーティションＲをソートする。上記のように、一部のカーネルは他のカーネルとメモリバッファを共有することができる。ステップ１３１４において、ＤＰＥアレイコンパイラ６０４は、ｎとｒのマージが（１）クリティカルパスの悪化、または（２）実行不可能なトポロジ配置をもたらさないように、ソートされたＲの最初のパーティションｒを選択する。

【0072】

ステップ１３１６において、ＤＰＥアレイコンパイラ６０４は、ｒが空であるかどうか（すなわち、ｎのための既存のパーティションがないか）を決定する。そうでない場合、方法１３００は、ステップ１３１８に進み、ここで、ＤＰＥアレイコンパイラ６０４は、ノードｎをパーティションｒとマージし、ノードｎに基づいてパーティションｒのロケーション制約（例えば、ｎに対して定義された任意の絶対制約および／または相対制約）を更新する。ｒが空の場合、方法１３００は、代わりにステップ１３２０に進み、そこで、ＤＰＥアレイコンパイラ６０４は、新しいパーティションを作成し、ｎを新しいパーティションに追加し、ｎに基づいて新しいパーティションのロケーション制約を更新する。方法１３００は、ステップ１３１８またはステップ１３２０のいずれかからステップ１３０４に進み、すべてのノードが処理されるまで繰り返される。

【0073】

マッピング
上記のステップ１１０８で説明したように、ＤＰＥアレイコンパイラ６０４は、カーネルおよびカーネルクラスタをＤＰＥ１１０にマッピングする。マッピングアルゴリズムへの入力は、静的有向グラフ（図９Ｂなど）およびデバイス記述である。マッピングアルゴリズムは、出力として、各カーネルが配置され、カーネル間のバッファが配置され、ＩＯノードがマッピングされるＤＰＥアレイ１０５内の物理的位置を提供する。

【0074】

図１４は、一例による、カーネルおよびカーネルクラスタをＤＰＥ１１０にマッピングする方法１４００を示す流れ図である。方法１４００は、上記の方法１１００のステップ１１０８の一部として実行することができる。方法１４００は、ステップ１４０２において開始し、ここで、ＤＰＥアレイコンパイラ６０４は、カーネル間のブロックベースのデータ移動（例えば、ＤＰＥアレイ１０５内のデータ移動）のためのＤＭＡ通信を導入することなく、カーネル、バッファ、およびＩＯノードをマッピングする第１のパスを実行する。ステップ１４０４において、ＤＰＥアレイコンパイラ６０４は、任意のＤＭＡが必要か否かを決定する。必要でない場合、方法１４００は、ステップ１４１０に進み、終了する。必要である場合、方法１４００はステップ１４０６に進む。

【0075】

ステップ１４０６において、ＤＰＥアレイコンパイラ６０４は、ＤＰＥアレイ１０５内のカーネル間のＤＭＡ通信を提供するために、有向グラフに追加のバッファを挿入する。ステップ１４０８において、ＤＰＥアレイコンパイラ６０４は、ＤＭＡ通信リンクを有するマッピングの第２のパスを実行する。マッピングの第２のパスは、第１のマッピングパスからの解を開始点として使用することができるため、第１のパスよりも高速に実行することができる。したがって、ＤＰＥアレイコンパイラ６０４は、ＤＭＡ通信のために新しく挿入されたバッファを配置するだけでよい。次いで、方法１４００は、ステップ１４１０において終了する。

【0076】

両方のマッピングパス（１４０２および１４０８）は、ヒューリスティックな費用目標を使用してＩＬＰベースの最適化問題を解決する。最適化問題の目標は、（１）データ移動の数を最小限に抑えること、２）メモリの競合を最小限に抑えること、および、３）待ち時間を最小限に抑えることである。

【0077】

データ移動の最適化：ＤＰＥ１１０の各コア２０２は、図３に示すように、すべての基本方位側（北、南、東、西）のメモリモジュール３５１にアクセスすることができる。カーネルをコア２０２にマッピングするとき、ＤＰＥアレイコンパイラ６０４は、カーネルによってアクセスされるすべてのバッファが、特定のコア２０２から直接アクセスされ得るメモリモジュール３５１の１つに配置されることを保証する。異なるコア２０２にマッピングされた２つのカーネルは、２つの異なる方法、すなわち、非ＤＭＡおよびＤＭＡでメモリを介して通信することができる。非ＤＭＡの場合、カーネルはデータをメモリに書き込んでおり、これは別のカーネルによって読み出される。２つのカーネルが、同じメモリモジュール３５１にアクセスすることができるコア２０２にマッピングされる場合、コア２０２間のＤＭＡ通信は必要とされない。ＤＭＡの場合、２つのカーネルは、同じメモリモジュール３５１にアクセスすることができないコア２０２にマッピングされる。そのような場合、カーネル間のバッファは、２つの異なるメモリモジュール３５１に複製され、そのうちの１つは、第１のコア２０２によってアクセスされ得、他方は、第２のコア２０２によってアクセスされ得る。第１のメモリモジュール３５１からのデータは、ＤＭＡを使用してＤＰＥ相互接続２０９を介して第２のメモリモジュール３５１に転送される。非ＤＭＡと比較して、ＤＭＡは、ＤＰＥ相互接続２０９内のルーティングリソースに加えて、２倍のメモリフットプリント、２倍の数のロック、および２つのＤＭＡチャネルを必要とする。

【0078】

ＤＰＥアレイコンパイラ６０４は、各コアの隣接するメモリモジュールのアクセスコストがゼロであり、残りのメモリモジュールのコストがより高いコストモデルを使用して、ＤＰＥアレイ１０５を格子縞アーキテクチャとしてモデル化する。このとき、最適化問題は、最小限のコストでカーネルをコアに、バッファをメモリモジュールにマッピングすることである。この問題は、二次最適化問題として自然に表現可能である。ＤＰＥアレイコンパイラ６０４は、二次問題をＩＬＰ問題に縮小するように機能する。

【0079】

メモリ競合最適化：各メモリモジュール３５１は、ＲＡＭバンク３１８（例えば、ＲＡＭの８つのバンク）を含む。同じサイクルで同じＲＡＭバンクに複数のアクセスがある場合、メモリアクセス競合が発生する。メモリアクセス競合は、以下の種々のタイプ、すなわち、（１）コア内メモリアクセス競合、（２）コア間メモリアクセス競合、（３）コア－ＤＭＡメモリアクセス競合、（４）ＤＭＡ－ＤＭＡメモリアクセス競合に分類することができる。コア内メモリアクセス競合の場合、コアは超長命令語（ＶＬＩＷ）命令を実行する。各ＶＬＩＷ命令は、複数のメモリアクセス命令を有することができる（例えば、最大２つのロードおよび１つのストア）。単一の命令における２つ以上のメモリ動作が同じメモリバンクにアクセスすると、メモリストールが発生し、次にコアストールが発生する。同じサイクルで同じメモリバンクにアクセスする２つ以上の異なるコアは、コア間メモリアクセス競合を引き起こす。コアおよびＤＭＡチャネルが同じサイクルで同じメモリバンクにアクセスすると、コア－ＤＭＡメモリアクセス競合が発生する。複数のＤＭＡチャネルが同じサイクルで同じメモリバンクにアクセスすると、ＤＭＡ－ＤＭＡメモリアクセス競合が発生する。

【0080】

競合を完全に回避することはすべてのアプリケーションで可能であるとは限らないため、ＤＰＥアレイコンパイラ６０４は、ユーザが競合回避および競合最小化設定のセットから選択することを可能にする。ＤＰＥアレイコンパイラ６０４は、ローカルバッファ（例えば、単一のカーネルによってアクセスされるバッファ）と共有バッファ（例えば、複数のカーネルによってアクセスされるバッファ）とを区別し、異なる最適化を実行する。ＤＰＥアレイコンパイラ６０４は、メモリ競合に対処するために二面アプローチ、すなわち、１）競合回避および２）競合最小化をとる。競合回避の場合、データブロックのプロデューサとコンシューマとの間のアクセス競合を回避するために、ＤＰＥアレイコンパイラ６０４は、二重バッファ（例えば、ｐｉｎｇバッファおよびｐｏｎｇバッファ）が異なるＲＡＭバンクにマッピングされることを保証する。同様に、ＤＰＥアレイコンパイラ６０４は、異なるカーネルからのローカルバッファのアクセス間に競合がないことを、それらを異なるバンクに配置することによって保証する。コア内メモリ競合は、単一のカーネルによってアクセスされるすべてのバッファを異なるＲＡＭバンク３１８に配置することによって回避される。

【0081】

競合最小化の場合、問題は、所与のメモリバンクにアクセスしている独立したアクタ（コア、ＤＭＡチャネル）の数を最小化するという問題に還元される。これをＩＬＰ問題としてモデル化すると、コアおよびＤＭＡチャネルの数はｃ×ｒに比例するため、大規模なデバイスではコストがかかる可能性がある。ここで、ｃはデバイスのＤＰＥアレイ１０５の列の数であり、ｒは行の数である。ＤＰＥアレイコンパイラ６０４は、すべてのＤＭＡチャネルを、ｃｘｒｘ４の異なるエンティティではなく、２つの個別のアクタ（リーダおよびライタ）としてモデル化することによって、ＩＬＰ変数の数を低減する技法を採用する。

【0082】

待ち時間最小化：ＦＰＧＡ配置アルゴリズムと同様に、ＤＰＥアレイコンパイラ６０４は、ソースとシンクとの間の距離を最小化することによって、ストリームベースの通信の待ち時間を最小化する。

【0083】

異種マルチコアアーキテクチャにおけるストリームＦＩＦＯ挿入
デッドロック回避およびパフォーマンスのためのＦＩＦＯの決定および挿入は過去に研究されてきたが、主に計算の理論モデル（同期データフロー、カーンプロセスネットワークなど）および高位合成のコンテキストにおいてであった。この問題はマルチプロセッサシステムでは解決されていない。これは主に、弾性ハンドシェイクストリームを使用して互いに通信するようなシステムがほとんどないためである（例えば、ほとんどのマルチプロセッサシステムは、データ通信に共有メモリを使用するか、またはロックステップにおいて作動するシストリックアレイである）。

【0084】

図１５は、異種マルチコアアーキテクチャのアプリケーションを実装する際のＦＩＦＯ挿入の方法１５００を示す流れ図である。方法１５００は、上記の方法１１００のステップ１１０８、１１１０、１１１２、１１１４、および１１１６のいずれかの最中に実行することができる。方法１５００は、ステップ１５０２において開始し、ここで、ＤＰＥアレイコンパイラ６０４は、再収束計算および通信パスに沿ったストリームデータ待ち時間の不一致に起因して、アプリケーションがデッドロックであるかまたはパフォーマンス基準を満たさないかを決定する。障害が発生した場合（ステップ１５０４）、方法１５００はステップ１５０６に進む。障害が発生しなかった場合、方法１５００はステップ１５１６において終了する。ステップ１５０６において、ＤＰＥアレイコンパイラ６０４は、計算および通信パスで識別されたデッドロックおよび／またはパフォーマンス障害を回避するための最小ＦＩＦＯサイズを決定する。一例では、１つまたは複数の最小ＦＩＦＯサイズを事前定義する（例えば、ユーザによって指定する）ことができる。

【0085】

一般的なケースでこれを理論的に分析することは難しく、保守的であり、これによって、ＦＩＦＯが非常に大きくなる可能性がある。したがって、一例では、ＤＰＥアレイコンパイラ６０４は、シミュレーションベースのアプローチを実施する。ＤＰＥアレイコンパイラ６０４は、デッドロック／パフォーマンス障害が回避されるまで、選択されたＦＩＦＯサイズでシステムをシミュレートする（ステップ１５０８）。シミュレーションは、様々な抽象化レベルで行うことができる、すなわち、計算カーネルコードは非時限であり得るが、カーネルは同時に実行され（「カーネルの非時限および同時実行」）、または、カーネルはサイクルが正確にモデル化され得る（「カーネルのサイクルが正確な同時実行」）。

【0086】

ステップ１５０６においてＦＩＦＯサイズが決定されると、ＦＩＦＯは、プロデューサ計算カーネルとコンシューマ計算カーネルとの間のストリームルートに沿って挿入される必要がある（ステップ１５１０）。ＤＰＥアレイ１０５には、２つのオプションがある、すなわち、各ストリームスイッチが、制限されたサイズ（例えば、各々１６語）の２つのＦＩＦＯを有するか、または、ローカルデータメモリがタイルＤＭＡエンジンを介してＦＩＦＯとして使用され得る。ＦＩＦＯサイズが非常に大きい場合は、後者のオプションが必要である。前者のオプションには、プロデューサからコンシューマへのルートに沿ったストリームスイッチの数によって、使用することができるサイズ制限付きのＦＩＦＯの総数が制限されるという１つの問題がある。したがって、指定または決定されたＦＩＦＯサイズの合計を満たすために、ルート自体を人為的に長くする必要がある場合がある。もう１つの問題は、複数のルートがストリームスイッチを共有する可能性があることである。したがって、ルートのストリームスイッチに沿って指定または決定されたＦＩＦＯの長さを分散するヒューリスティックは、そのような共有を考慮する。したがって、ステップ１５１２において、ＤＰＥアレイコンパイラ６０４は、ＤＰＥ相互接続内のＦＩＦＯを選択することができる。加えて、または代替的に、ステップ１５１４において、ＤＰＥアレイコンパイラ６０４は、ローカルメモリにおいてＦＩＦＯをｊ実装することができる。次いで、方法１５００は、ステップ１５１６において終了する。

【0087】

図１６は、一例による処理システム１６００を示すブロック図である。処理システム１６００は、上述のステップ１５０６の結果とすることができる。この例では、処理システム１６００は、データソース１６０２と、複数のＤＰＥ１６０４Ａ～１６０４Ｄ）とを含む。データソース１６０２は、各ＤＰＥ１６０４によって処理されるデータを提供する。ＤＰＥ１６０４は直列に結合される（例えば、ＤＰＥ１６０４Ａ、ＤＰＥ１６０４Ｂ、ＤＰＥ１６０４Ｃ、ＤＰＥ１６０４Ｄによってこの順で形成されたパイプライン）。ステップ１５０６において、ＤＰＥアレイコンパイラ６０４は、データソース１６０２とＤＰＥ１６０４Ａとの間のパスがＦＩＦＯを必要としないこと、データソース１６０２とＤＰＥ１６０４Ｂとの間のパスが深さ１０のＦＩＦＯを必要とすること、データソース１６０２とＤＰＥ１６０４Ｃとの間のパスが深さ２０のＦＩＦＯを必要とすること、および、データソース１６０２とＤＰＥ１６０４Ｄとの間のパスが深さ３０のＦＩＦＯを必要とすることを決定することができる。

【0088】

図１７Ａは、一例による処理システム１６００の実施態様１７００を示すブロック図である。この例では、実施態様１７００は、ノード１７０２、１７０４、および１７０６を含み、それらの各々がＤＰＥ相互接続２０９内のスイッチを表す。実施態様１７００は、最も多いＦＩＦＯリソース（例えば、深さ１０、２０、および３０、合計６０の深さのＦＩＦＯ）を必要とするため、処理システム１６００の最悪の場合の実施態様である。したがって、ステップ１５１０において、ＤＰＥアレイコンパイラ６０４は、下記のアルゴリズムにおいて説明するように、ＦＩＦＯのより効率的な配置を実行することができる。

【0089】

図１７Ｂは、別の例による処理システム１６００の実施態様１７０１を示すブロック図である。図１７Ｂの例では、実施態様１７０１は、深さ１０、１０、および２０、合計深さ４０のＦＩＦＯを含む。実施態様１７０１は、実施態様１７００よりも少ないリソースを使用して処理システム１６００の必要なＦＩＦＯを達成する。

【0090】

図１８は、一例による、ＦＩＦＯを配置する方法１８００を示す流れ図である。方法１８００は、方法１５００のステップ１５１０においてＤＰＥアレイコンパイラ６０４によって実行することができる。方法１８００は、ステップ１８０２において開始し、ＤＰＥアレイコンパイラ６０４がパス順序を決定する。パスは、データソース１６０２とＤＰＥ１６０４との間の１つまたは複数のノードの集合である。一例では、ＤＰＥアレイコンパイラ６０４は、任意の順序において（例えば、左から右へ）パスを処理する。別の例を下記にさらに説明する。ステップ１８０４において、ＤＰＥアレイコンパイラ６０４は、各パスに沿ったノード順序を決定する。一例では、ＤＰＥアレイコンパイラ６０４は、ノード順序をＤＰＥ１６０４からデータソース１６０２に向かうように決定する。別の例を下記にさらに説明する。

【0091】

ステップ１８１０において、ＤＰＥアレイコンパイラ６０４は、処理すべきパスを選択する。ステップ１８１２において、ＤＰＥアレイコンパイラ６０４は、実行可能なＦＩＦＯ配置に達するまで、ノード順序に沿ってＦＩＦＯ要件でエッジに注釈を付ける。場合によっては、ＤＰＥアレイコンパイラ６０４は、ＦＩＦＯ要件を依然として満たしながら実現可能性に達するために可能な限り多くの共通ＦＩＦＯを「リタイム」する（ステップ１８１４）。例えば、データソース１６０２とＤＰＥ１６０４Ｃとの間のパスを考える。このパスを処理するとき、ＤＰＥアレイコンパイラ６０４は、ノード１７０４と１７０６との間に深さ１０のＦＩＦＯを割り当て、ノード１７０６とＤＰＥ１６０４Ｃとの間に深さ１０のＦＩＦＯを割り当てることができる。これは、ＤＰＥ１６０４Ｂおよび１６０４Ｃの両方のＦＩＦＯ要件を満たす。しかしながら、データソース１６０２とＤＰＥ１６０４Ｄとの間のパスを処理するとき、ＤＰＥアレイコンパイラ６０４は、データソース１６０２とノード１７０４との間のＦＩＦＯを０の深さから１０の深さまでリタイムし、ノード１７０４と１７０６との間のＦＩＦＯを１０の深さから０の深さまでリタイムすることができる。結果を図１７Ｂに示す。ＤＰＥアレイコンパイラ６０４は、ＦＩＦＯ要件を満たすようにノード１７０４とＤＰＥ１７０４Ｄとの間の深さ２０のＦＩＦＯを決定する。

【0092】

一例では、ステップ１８０２において、ＤＰＥアレイコンパイラ６０４は、処理されるパスの順序を決定するために全グラフ解析を実行する。ＦＩＦＯを割り当てるために一度に１つのパスを調べる代わりに、ＤＰＥアレイコンパイラ６０４は、ＦＩＦＯ挿入を必要とするすべてのパスを調べることができる。次に、ＤＰＥアレイコンパイラ６０４は、パスに沿ったノードの数に関して、パスのサイズの昇順でパスをソートすることができる（ステップ１８０４）。パスが等しい数のノードを有する場合、ＤＰＥアレイコンパイラ６０４は、パスのＦＩＦＯ深度に基づいて、最小深度から最大深度の順にソートすることができる。

【0093】

一例では、ステップ１８０６において、ＤＰＥアレイコンパイラ６０４は、ステップ１８０４において識別された各パスに沿ってノードを並べ替える。ノードの次数は、ノードがすべてのパスにわたって使用された合計回数として定義される。ＤＰＥアレイコンパイラ６０４は、ノードを次数の昇順にソートすることができる。ＦＩＦＯ判定の前に全グラフ解析およびノード順序付けを実行することによって、方法１８００は、ＤＰＥの近くの深さを更新することが可能であると同時に、共通ＦＩＦＯ深さをデータソースに向かって移動させることができる。さらに、方法１８００は、ＦＩＦＯポートからのブロードキャストを処理することができる。

【0094】

図１７Ａの例では、ＦＩＦＯを必要とする最短パスは、データソース１６０２とＤＰＥ１６０４Ｄとの間である。データソース１６０２とＤＰＥ１６０４Ｂとの間のパスおよびデータソース１６０２と１６０４Ｃとの間のパスは、同じ長さ（例えば、３つのノード）である。しかしながら、データソース１６０２とＤＰＥ１６０４Ｂとの間のパスは、データソース１６０２とＤＰＥ１６０４Ｃとの間のパス（例えば、２０）に対してより浅いＦＩＦＯ深さ（例えば、１０）を有する。したがって、ＤＰＥアレイコンパイラ６０４は、データソース１６０２とＤＰＥ１６０４Ｄとの間のパスを処理し、続いてまずデータソース１６０２とＤＰＥ１６０４Ｂとの間のパスを処理し、最後にデータソース１６０２とＤＰＥ１６０４Ｃとの間のパスを処理することができる。

【0095】

図１７Ａの例では、ノード１７０２は３つのパスの一部であり、ノード１７０４は３つのパスの一部であり、ノード１７０６は２つのパスの一部である。したがって、データソースとＤＰＥ１６０４Ｂおよび１６０４Ｃとの間のパスについて、ノード順序は１７０６、１７０４、および１７０２である。データソース１６０２とＤＰＥ１６０４Ｄとの間のパスについて、ノード順序は１７０４および１７０２である。

【0096】

次に、ＤＰＥアレイコンパイラ６０４は、決定された順序で、各パスについて決定されたノード順序でパスを処理することによってステップ１８１０～１８１６を実行する。結果は図１７Ｂに示されており、これはこの例における前の例（パスソートおよびノード並べ替えなし）からの結果と同じである。しかしながら、実際の例では、得られる解は異なり得る。

【0097】

ＤＰＥアレイ内のコア間の接続のルーティング
ＤＰＥアレイ内のコア間のルーティングは、ＰＬ１２２との通信を必要とするルートにチャネルを貪欲に配分することによって達成することができる。貪欲型ヒューリスティックであるため、この手法は、より大きなグラフをルーティングするとき、または特別な制約を処理する必要があるときに制限を明らかにする。従来の手法は、プログラミングモデルにおける明示的なパケット交換のためのアップサイズ／ダウンサイズ変換およびルーティングを必要とするアーキテクチャ上の制約、パケット交換、およびチャネルの処理をサポートしていない。本明細書では、これらの要件を処理するルーティングのための技法について説明する。

【0098】

以下の用語は、ＤＰＥアレイ１０５にマッピングされたアプリケーションをルーティングするための本明細書に記載のルーティング技法を説明する際に使用するために導入される。ルーティングノード：データのソースもしくは宛先または中間スイッチを表すルーティンググラフ内のノード。ノード容量：ノードを通る最大許容データフローを表す整数。ルーティングエッジ：ルーティングエッジは、ソースから宛先への可能なデータの流れを表す。ルーティンググラフ：ルーティンググラフは、すべての可能なルーティング選択肢を表す。これらの選択肢は、アーキテクチャ切り替え制約、ユーザ定義のシム制約によって課されるルーティング制約、チャネルのアップサイジング／ダウンサイジングの制約、ならびに、明示的なパケット分割およびマージ動作によるプログラマ定義の制約をモデル化する。ネット：ネットは、ルーティンググラフ内のソースノードおよびルーティンググラフ内の複数の宛先を用いた所望のルーティングを表す。ネット利用率：ネットによって必要とされる帯域幅をモデル化する整数。低帯域幅のネットは、スイッチングリソースを共有することによってともにルーティングされ得る。

【0099】

図１９は、一例による、ＤＰＥアレイ１０５にマッピングされたアプリケーションをルーティングする方法１９００を示す流れ図である。方法１９００は、上述の方法１１００のステップ１１１６中に実行することができる。方法１９００は、ステップ１９０２において開始し、ＤＰＥアレイコンパイラ６０４がルーティンググラフを構築する。ＤＰＥアレイコンパイラ６０４は、ＤＰＥアレイ１０５アーキテクチャの記述に基づいてルーティンググラフを構築する。各ストリームスイッチポートは、単一のルーティングノードとしてモデル化される。各ＤＭＡ、制御ポート、およびコアストリームポートは、ルーティングノードとしてモデル化される。スイッチングのための可能な選択は、ノード間のエッジとして表される。アーキテクチャにおいて許容されるすべての可能なスイッチングオプションが、ルーティンググラフにおいてモデル化される。ルーティンググラフを構築するには、ＤＰＥアレイ１０５のアーキテクチャの記述のみが必要である。

【0100】

ステップ１９０４において、ＤＰＥアレイコンパイラ６０４は、ＰＬ接続をモデル化する。ＰＬノードの出力はいずれのシムポートにも接続することができるため、ＤＰＥアレイコンパイラ６０４は、各ＰＬ接続をＰＬソースからシム内のすべてのチャネルへのクロスバー接続としてモデル化する。ユーザがシムチャネルに対して特定の制約を指定する場合、クロスバー接続は、所与のシム制約のセットに特化することができる。

【0101】

ステップ１９０６において、ＤＰＥアレイコンパイラ６０４は、アップサイザ／ダウンサイザ接続をモデル化する。シムアーキテクチャは、より低い周波数で実行されるより高いビット幅のチャネルが、より高い周波数で実行されるより低いビット幅のチャネルに接続されることを可能にする。シムチャネルは固定ビット幅を有し、そのため、いくつかのより高いビット幅のチャネルを実装するには、複数の隣接するシムチャネルを使用する必要がある。このアーキテクチャは、シムチャネルのグループを偶数境界に配分しなければならないという制限をさらに課す。これらの制約は、新しいノードおよびエッジでルーティンググラフを修正することによって組み込まれる。制約は、クロスバー接続を、接続性が制限されたすべてのシムチャネルに置き換えることによって表される。

【0102】

ステップ１９０８において、ＤＰＥアレイコンパイラ６０４は、他の制約をモデル化する。いくつかの制約は、ルーティンググラフにおける接続として容易に表現可能でない。これらは、ネットおよびリソースルートに対する追加のグローバル制約として表される。例えば、アーキテクチャ制約は、４つのパケットスイッチネットがすべてのスイッチポートを通過することを可能にすることであり得る。別の例は、帯域幅利用率が低い場合でも、１つのネットのみがシムチャネルを通過できるようにすることである。早期または後期の明示的なパケット交換ノードのマージは、制約メカニズムを使用して処理される。

【0103】

ステップ１９１０において、ＤＰＥアレイコンパイラ６０４は、充足可能性ソルバ（ＳＡＴソルバ）を呼び出して、アプリケーションをＤＰＥアレイ１０５内でルーティングする。入力仕様グラフが、ルーティングを必要とするネットについて検査される。ネットのソースおよび宛先が識別される。ソースまたは宛先ネットは、ルーティンググラフ内のノードでなければならない。パケット交換を可能にするために、ネット利用率がユーザによって提供される。入力仕様内のすべてのネットが、制約に沿ってＳＡＴソルバに共に渡される。ＳＡＴソルバによって提供される解は、ＤＰＥアレイ１０５のストリームスイッチ（例えば、ストリームスイッチ構成コード６１６）をプログラムするために使用される。

【0104】

図２０は、図１に示されるデバイス１００の一実施態様として使用することができる、一例によるプログラム可能なＩＣ１を示すブロック図である。プログラマブルＩＣ１は、プログラマブルロジック３と、構成ロジック２５と、構成メモリ２６とを含む。プログラマブルＩＣ１は、不揮発性メモリ２７、ＤＲＡＭ２８、および他の回路２９などの外部回路に結合され得る。プログラマブルロジック３は、論理セル３０と、サポート回路３１と、プログラマブル相互接続３２とを含む。論理セル３０は、複数の入力の一般的な論理機能を実装するように構成することができる回路を含む。サポート回路３１は、トランシーバ、入出力ブロック、デジタル信号プロセッサ、メモリなどの専用回路を含む。論理セルおよびサポート回路３１は、プログラマブル相互接続３２を使用して相互接続することができる。論理セル３０をプログラムし、サポート回路３１のパラメータを設定し、プログラマブル相互接続３２をプログラムするための情報は、構成ロジック２５によって構成メモリ２６に記憶される。構成ロジック２５は、不揮発性メモリ２７または任意の他のソース（例えば、ＤＲＡＭ２８、または他の回路２９から）から構成データを取得することができる。いくつかの例では、プログラマブルＩＣ１は処理システム２を含む。処理システム２は、マイクロプロセッサ（複数可）、メモリ、サポート回路、ＩＯ回路などを含むことができる。

【0105】

図２１は、トランシーバ３７、構成可能論理ブロック（「ＣＬＢ」）３３、ランダムアクセスメモリブロック（「ＢＲＡＭ」）３４、入出力ブロック（「ＩＯＢ」）３６、構成・クロッキングロジック（「ＣＯＮＦＩＧ／ＣＬＯＣＫＳ」）４２、デジタル信号処理ブロック（「ＤＳＰ」）３５、特殊入出力ブロック（「Ｉ／Ｏ」）４１（例えば、構成ポートおよびクロックポート）、および、デジタルクロックマネージャ、アナログ／デジタル変換器、システム監視ロジックなどの他のプログラマブルロジック３９を含む、多数の異なるプログラマブルタイルを含むプログラマブルＩＣ１のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）実施態様を示す。ＦＰＧＡはまた、ＰＣＩｅインターフェース４０、アナログ－デジタル変換器（ＡＤＣ）３８などを含むことができる。

【0106】

いくつかのＦＰＧＡでは、各プログラマブルタイルは、図２１の上部に含まれる例によって示されるように、同じタイル内のプログラマブル論理要素の入力および出力端子４８への接続を有する少なくとも１つのプログラマブル相互接続要素（「ＩＮＴ」）４３を含むことができる。各プログラマブル相互接続要素４３はまた、同じタイルまたは他のタイル（複数可）内の隣接するプログラマブル相互接続要素（複数可）の相互接続セグメント４９への接続を含むことができる。各プログラマブル相互接続要素４３はまた、論理ブロック（図示せず）間の一般的なルーティングリソースの相互接続セグメント５０への接続を含むことができる。一般的なルーティングリソースは、相互接続セグメント（例えば、相互接続セグメント５０）のトラックを備える論理ブロック（図示せず）と、相互接続セグメントを接続するためのスイッチブロック（図示せず）との間のルーティングチャネルを含むことができる。一般的なルーティングリソースの相互接続セグメント（例えば、相互接続セグメント５０）は、１つまたは複数の論理ブロックにまたがることができる。プログラマブル相互接続要素４３は、一般的なルーティングリソースと共に、図示のＦＰＧＡのプログラマブル相互接続構造（「プログラマブル相互接続」）を実装する。

【0107】

例示的な実施態様において、ＣＬＢ３３は、ユーザ論理と単一のプログラマブル相互接続要素（「ＩＮＴ」）４３とを実装するようにプログラムすることができる構成可能論理素子（「ＣＬＥ」）４４を含むことができる。ＢＲＡＭ３４は、１つまたは複数のプログラム可能な相互接続要素に加えて、ＢＲＡＭ論理要素（「ＢＲＬ」）４５を含むことができる。典型的には、タイルに含まれる相互接続要素の数は、タイルの高さに依存する。図示の例は、ＢＲＡＭタイルは５つのＣＬＢと同じ高さを有するが、他の数（例えば４つ）も使用することができる。ＤＳＰタイル３５は、適切な数のプログラマブル相互接続要素に加えて、ＤＳＰ論理要素（「ＤＳＰＬ」）４６を含むことができる。ＩＯＢ３６は、例えば、プログラマブル相互接続要素４３の１つのインスタンスに加えて、入出力論理素子（「ＩＯＬ」）４７の２つのインスタンスを含むことができる。当業者には明らかなように、例えばＩ／Ｏ論理素子４７に接続される実際のＩ／Ｏパッドは、典型的には、入出力論理素子４７の領域に限定されない。

【0108】

図示された例では、ダイの中心付近の水平領域（図１２に示す）が、構成、クロック、および他の制御ロジックに使用される。この水平領域または列から延伸する垂直列５１は、ＦＰＧＡの幅全体にわたってクロックおよび構成信号を分配するために使用される。

【0109】

図２１に示されるアーキテクチャを利用するいくつかのＦＰＧＡは、ＦＰＧＡの大部分を構成する規則的な柱状構造を乱す付加的な論理ブロックを含む。追加の論理ブロックは、プログラマブルブロックおよび／または専用ロジックとすることができる。

【0110】

図２１は、例示的なＦＰＧＡアーキテクチャのみを示すことを意図していることに留意されたい。例えば、図２１の上部に含まれる行内の論理ブロックの数、行の相対幅、行の数および順序、行に含まれる論理ブロックのタイプ、論理ブロックの相対サイズ、ならびに、相互接続／論理実施態様は純粋に例示的なものである。例えば、実際のＦＰＧＡでは、ユーザ論理の効率的な実装を容易にするために、ＣＬＢが現れる場所にはどこでも、ＣＬＢの隣接する２つ以上の行が一般に含まれているが、隣接するＣＬＢ行の数はＦＰＧＡの全体サイズによって異なる。

【0111】

上記は特定の例を対象としているが、その基本的な範囲から逸脱することなく他のおよびさらなる例を考案することができ、その範囲は添付の特許請求の範囲によって決定される。

【図1】