特許7668425 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コーナミ、インコーポレイテッドの特許一覧

特許7668425超並列処理アレイのためのキャッシュアーキテクチャ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
2C
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-16

(45)【発行日】2025-04-24

(54)【発明の名称】超並列処理アレイのためのキャッシュアーキテクチャ

(51)【国際特許分類】

G06F 12/0893 20160101AFI20250417BHJP

G06F 12/0842 20160101ALI20250417BHJP

【ＦＩ】

G06F12/0893 111

G06F12/0842

【請求項の数】 19

(21)【出願番号】P 2024538684

(86)(22)【出願日】2024-03-12

(65)【公表番号】

(43)【公表日】2025-04-17

(86)【国際出願番号】 US2024019574

(87)【国際公開番号】W WO2024192030

(87)【国際公開日】2024-09-19

【審査請求日】2024-08-13

(31)【優先権主張番号】18/184,536

(32)【優先日】2023-03-15

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】524239210

【氏名又は名称】コーナミ、インコーポレイテッド

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】フランツ、マーティンアラン、セカンド

【審査官】後藤彰

(56)【参考文献】

【文献】特開２０１４－３８４９４（ＪＰ，Ａ）

【文献】特表２０１１－５１７００３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２２／０３９８１９６（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１２／０８９３

Ｇ０６Ｆ１２／０８４２

(57)【特許請求の範囲】

【請求項1】

グリッド内に配置された同一のコアのアレイのためのキャッシュアーキテクチャであって、
各コアは、前記グリッド内の隣接するコアへの相互接続、メモリ、およびアルゴリズム論理ユニットを含み、
前記キャッシュアーキテクチャは、
計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成された前記アレイの第１コアと、
要求されたデータがキャッシュメモリ内に存在するか否かを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して決定するように構成された前記アレイの第２コアと、
前記キャッシュメモリとして構成された前記アレイの第３コアと、
を含み、
前記第３コアの前記メモリが前記キャッシュメモリとして使用され、
前記キャッシュインデックスから要求された前記データのアドレスが前記第３コアに渡され、要求された前記データを出力する、
キャッシュアーキテクチャ。

【請求項2】

前記第３コアの前記メモリと組み合わせて、前記キャッシュメモリとして構成された前記アレイの第４コアのメモリをさらに含む、請求項１に記載のキャッシュアーキテクチャ。

【請求項3】

外部メモリを管理するように構成された前記アレイの第４コアをさらに含み、
要求された前記データが存在しないとき、要求された前記データが前記外部メモリから前記第３コアに書き込まれる、請求項１に記載のキャッシュアーキテクチャ。

【請求項4】

前記アドレスのサフィックスは、取り出される前記データが前記キャッシュメモリから取り出されるか、または前記外部メモリから取り出されるかを指定するために使用される、請求項３に記載のキャッシュアーキテクチャ。

【請求項5】

前記外部メモリは、高帯域メモリである、請求項３に記載のキャッシュアーキテクチャ。

【請求項6】

前記データは、調整可能なキャッシュライン長を有するキャッシュラインを介して取り出される、請求項１に記載のキャッシュアーキテクチャ。

【請求項7】

前記アレイ内の前記コアの各々は別のコアの対応する第１、第２、および第３チャネルにそれぞれ相互接続され得る前記第１チャネル、第２チャネル、および第３チャネルを有し、
前記第３コアは前記第１チャネル上で要求された前記データのアドレスを受け入れ、前記データが前記外部メモリから書き込まれる場合、要求された前記データを前記第２チャネル上に出力し、前記データが前記キャッシュメモリに記憶されている場合、要求された前記データを前記第３チャネル上に出力する、請求項３に記載のキャッシュアーキテクチャ。

【請求項8】

前記第３コアに結合された前記アレイの第４コアをさらに含み、
前記第４コアは、前記計算動作のために構成された前記アレイ内の前記コアのうちの少なくとも前記１つに要求された前記データを返すように構成される、請求項１に記載のキャッシュアーキテクチャ。

【請求項9】

少なくとも前記１つのコアは、前記計算動作を実行するように構成されていることに応答して、前記キャッシュメモリとして第４コアを構成する、請求項１に記載のキャッシュアーキテクチャ。

【請求項10】

グリッド内に配置されたコアのアレイに対してキャッシュメモリを提供する方法であって、
各コアは前記グリッド内の隣接するコアへの相互接続、メモリ、およびアルゴリズム論理ユニットを含み、
前記方法は、
計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように前記アレイの第１コアを構成し、
要求された前記データがキャッシュメモリ内に存在するかどうかを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して決定するように、前記アレイの第２コアを構成し、
前記アレイの第３コアを前記キャッシュメモリとして構成し、
前記第３コアの前記メモリを前記キャッシュメモリとして使用し、
要求された前記データのアドレスを、前記キャッシュインデックスから前記第３コアに渡して、要求された前記データを出力する、
方法。

【請求項11】

前記第３コアの前記メモリと組み合わせて、前記アレイの第４コアのメモリを前記キャッシュメモリとして構成することをさらに含む、請求項１０に記載の方法。

【請求項12】

第４コアを介して外部メモリを管理し、
要求された前記データが存在しないとき、前記外部メモリから前記第３コアに外部データを書き込む、ことをさらに含む、請求項１０に記載の方法。

【請求項13】

前記アドレスのサフィックスは、取り出される前記データが前記キャッシュメモリから取り出されるか、または前記外部メモリから取り出されるかを指定するために使用される、請求項１２に記載の方法。

【請求項14】

前記外部メモリは、高帯域メモリである、請求項１２に記載の方法。

【請求項15】

前記データは、調整可能なキャッシュライン長を有するキャッシュラインを介して取り出される、請求項１０に記載の方法。

【請求項16】

前記アレイ内の前記コアの各々が別のコアの対応する第１、第２、および第３チャネルにそれぞれ相互接続され得る前記第１チャネル、第２チャネル、および第３チャネルを有し、
前記第３コアが前記第１チャネル上の要求された前記データのアドレスを受け入れ、前記データが前記外部メモリから書き込まれる場合、要求された前記データを前記第２チャネル上に出力し、前記データが前記キャッシュメモリに記憶されている場合、要求された前記データを前記第３チャネル上に出力する、請求項１２に記載の方法。

【請求項17】

前記第３コアに結合された前記アレイの第４コアを介して、前記計算動作のために構成された前記アレイ内の前記コアのうちの少なくとも前記１つに要求された前記データを返すことをさらに含む、請求項１０に記載の方法。

【請求項18】

前記計算動作を実行するように構成されていることに応答して、コアの前記アレイの少なくとも前記１つのコアを介して前記キャッシュメモリとして第４コアを構成することをさらに含む、請求項１０に記載の方法。

【請求項19】

オンチップシステムであって、
高帯域幅メモリと、
相互接続ネットワークに結合されたコアのアレイを含むダイであって、
前記相互接続ネットワークが前記高帯域幅メモリへのアクセスを可能にし、
コアの前記アレイ内の前記コアの各々が、メモリおよびアルゴリズム論理ユニットを含む、ダイと、
を含み、
前記アレイの第１コアは、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成され、
前記アレイの第２コアは、要求された前記データがキャッシュメモリ内に存在するか否かを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して判定するように構成され、
前記アレイの第３コアは、前記キャッシュメモリとして構成され、
前記第３コアの前記メモリは前記キャッシュメモリとして使用され、
前記キャッシュインデックスから要求された前記データのアドレスは前記第３コアに渡され、要求された前記データを出力する、
オンチップシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般にキャッシュに関する。より詳細には、本開示の態様が超並列処理アレイにおいてコアを処理するためのキャッシュを提供するためのアーキテクチャに関する。

【背景技術】

【0002】

コンピューティングシステムは、異なる実行アプリケーションのために構成され得る均質なコアにますます基づいてきている。したがって、そのようなコアは、多くの異なる動作に適応され得、様々な並列プログラミングタスクのために意図され得る。コアは、典型的にはダイ上に製造される。そのようなダイは、必要な処理能力を割り当てるために分割され得るように製造され得る。したがって、そのようなダイによって実行される処理は、プログラム動作を分割するために使用されている多くのコアに依存する。そのような分割の一例は、異なるコアに割り当てられる異なるスレッドを使用する複数のコアをプログラミングするストリーミングモデルであり得る。

【0003】

したがって、そのようなダイは、超並列処理などの異なる動作のために選択的に使用され得るコアのアレイを有する。コアのグループは、そのような異なる動作のために選択される。効率的なレイアウトでは、操作を実行するためにできるだけ近くにあるコアを選択する。レイアウトは、異なる計算機能を実行するようにコアを構成することができる。典型的には、そのような機能が高帯域幅メモリなどのオフチップアクセス可能メモリに記憶されなければならないデータへのアクセスを必要とする。しかしながら、オフチップのメモリにアクセスすることは、多くの場合、時間のかかるタスクであり、それによって、計算タスクの迅速な実行を妨げる。従来のプロセッサは外部メモリからデータを取得した後に、必要なデータをキャッシュメモリに記憶することが多い。このようにして、プロセッサが次回データへのアクセスを必要とするとき、外部メモリへの比較的メモリアクセスを実行するのではなく、キャッシュ内のプロセッサによって迅速にアクセスされ得る。

【0004】

従来のハードウェアキャッシュ設計は、チップ製造中に決定される特定の使用事例に合わせて調整される。したがって、ＣＰＵキャッシュは例えば、ＧＰＵキャッシュとは異なるように動作する。具体的にはＧＰＵキャッシュがグラフィックス処理のための三角レンダリングアクセスパターンのために調整され、一方、ＣＰＵキャッシュは汎用ＣＰＵアクセスパターンのために調整される。しかし、異なるタスクに対して構成可能なコアの均質なアレイでは、特にターゲットを絞ったキャッシュの提供は不可能である。したがって、キャッシュメモリは、一般に計算タスクのために構成されるアレイ内のコアに容易に利用可能ではない。したがって、そのようなコアの動作は、外部メモリへのメモリアクセス動作を実行する継続的な必要性のために妨げられる。

【発明の概要】

【発明が解決しようとする課題】

【0005】

したがって、キャッシュ機能のためにコアのアレイ上にコアを構成するためのアーキテクチャが必要とされている。キャッシュアドレスラインの長さを調整することができるフレキシブルなアーキテクチャが必要とされている。利用可能なキャッシュメモリサイズの量を調整することができるキャッシュアーキテクチャがさらに必要とされている。

【課題を解決するための手段】

【0006】

開示される一例は、グリッド内に配置された同一のコアのアレイのためのキャッシュアーキテクチャである。各コアは、前記グリッド内の隣接するコアへの相互接続、メモリ、およびアルゴリズム論理ユニットを含む。前記キャッシュアーキテクチャは、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成された前記アレイの第１コアを含む。アレイの第２コアは、要求されたデータがキャッシュメモリ内に存在するか否かを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して決定するように構成されている。前記アレイの第３コアは、前記キャッシュメモリとして構成されている。前記第３コアの前記メモリが前記キャッシュメモリとして使用される。前記キャッシュインデックスから要求された前記データのアドレスが前記第３コアに渡され、要求された前記データを出力する。

【0007】

例のさらなる実装は、前記第３コアの前記メモリと組み合わせて、前記キャッシュメモリとして構成された前記アレイの第４コアのメモリをさらに含む。

【0008】

例の別の実装は、外部メモリを管理するように構成された前記アレイの第４コアをさらに含む。要求された前記データが存在しないとき、要求された前記データが前記外部メモリから前記第３コアに書き込まれる。

【0009】

別の実装では、前記アドレスのサフィックスは、取り出される前記データが前記キャッシュメモリから取り出されるか、または前記外部メモリから取り出されるかを指定するために使用される

【0010】

別の実装では、前記外部メモリは、高帯域メモリである。

【0011】

別の実装では、前記データは、調整可能なキャッシュライン長を有するキャッシュラインを介して取り出される。

【0012】

別の実装では、前記アレイ内の前記コアの各々は別のコアの前記対応する第１、第２、および第３チャネルにそれぞれ相互接続され得る第１チャネル、第２チャネル、および第３チャネルを有する。前記第３コアは前記第１チャネル上で要求された前記データのアドレスを受け入れ、前記データが前記外部メモリから書き込まれる場合、要求された前記データを前記第２チャネル上に出力し、前記データが前記キャッシュメモリに記憶されている場合、要求された前記データを前記第３チャネル上に出力する。

【0013】

例の別の実装は、前記第３コアに結合された前記アレイの第４コアをさらに含む。前記第４コアは、計算動作のために構成された前記アレイ内の前記コアのうちの少なくとも前記１つに要求された前記データを返すように構成される。

【0014】

別の例では、少なくとも前記１つのコアは、前記計算機能を実行するように構成されていることに応答して、前記キャッシュメモリとして第４コアを構成する。

【0015】

開示される別の例は、グリッド内に配置されたコアのアレイに対してキャッシュメモリを提供する方法である。各コアは前記グリッド内の隣接するコアへの相互接続、メモリ、およびアルゴリズム論理ユニットを含む。前記アレイの第１コアは、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成されている。前記アレイの第２コアは、要求された前記データがキャッシュメモリ内に存在するかどうかを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して決定するように、構成されている。前記アレイの第３コアは前記キャッシュメモリとして構成されている。前記第３コアの前記メモリは前記キャッシュメモリとして使用される。要求された前記データのアドレスは、前記キャッシュインデックスから前記第３コアに渡され、要求された前記データを出力する。

【0016】

例の別の実装は、前記第３コアの前記メモリと組み合わせて、前記アレイの第４コアのメモリを前記キャッシュメモリとして構成することをさらに含む。

【0017】

例の別の実装は、第４コアを介して外部メモリを管理する。要求された前記データが存在しないとき、前記外部メモリから前記第３コアに前記外部データが書き込まれる。

【0018】

別の実装は、前記アドレスのサフィックスは、取り出される前記データが前記キャッシュメモリから取り出されるか、または前記外部メモリから取り出されるかを指定するために使用される。

【0019】

別の実装では、前記外部メモリは、高帯域メモリである。

【0020】

別の実装では、前記データは、調整可能なキャッシュライン長を有するキャッシュラインを介して取り出される。

【0021】

別の実装は、前記アレイ内の前記コアの各々が別のコアの対応する前記第１、第２、および第３チャネルにそれぞれ相互接続され得る第１チャネル、第２チャネル、および第３チャネルを有する。前記第３コアが前記第１チャネル上の要求された前記データのアドレスを受け入れ、前記データが前記外部メモリから書き込まれる場合、要求された前記データを前記第２チャネル上に出力し、前記データが前記キャッシュメモリに記憶されている場合、要求された前記データを前記第３チャネル上に出力する。

【0022】

例の別の実装は、前記第３コアに結合された前記アレイの第４コアを介して、計算動作のために構成された前記アレイ内の前記コアのうちの少なくとも前記１つに要求された前記データを返すことをさらに含む。

【0023】

例の別の実装は、前記計算機能を実行するように構成されていることに応答して、コアの前記アレイの少なくとも前記１つのコアを介して前記キャッシュメモリとして第４コアを構成することをさらに含む。

【0024】

開示される別の例は、オンチップシステムであり、高帯域幅メモリと、相互接続ネットワークに結合されたコアのアレイを含むダイと、を含む。前記相互接続ネットワークは前記高帯域幅メモリへのアクセスを可能にする。コアの前記アレイ内の前記コアの各々が、メモリおよびアルゴリズム論理ユニットを含む。前記アレイの第１コアは、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成されている。前記アレイの第２コアは、要求された前記データがキャッシュメモリ内に存在するか否かを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して判定するように構成されている。前記アレイの第３コアは、前記キャッシュメモリとして構成されている。前記第３コアの前記メモリは前記キャッシュメモリとして使用されている。前記キャッシュインデックスから要求された前記データのアドレスは要求された前記データを出力するために前記第３コアに渡される。

【0025】

上記の発明の概要は、本開示の各実施形態またはすべての態様を表すことを意図するものではない。むしろ、前述の発明の概要は、本明細書に記載の新規な態様および特徴のいくつかの例を提供するに過ぎない。本開示の上記の特徴および利点、ならびに他の特徴および利点は、添付の図面および添付の特許請求の範囲と関連して、本発明を実施するための代表的な実施形態およびモードの以下の詳細な説明から容易に明らかになるのであろう。

【図面の簡単な説明】

【0026】

【図1A】図１Ａは、各々が複数の処理コアを有する４つのダイを有するチップの図である。

【図1B】図１Ｂは、図１Ａに示されるチップ上のダイのうちの１つの簡略図である。

【図2A】図２Ａは、図１Ｂのダイにおけるコアのアレイのブロック図である。

【図2B】図２Ｂは、図１Ｂのダイにおけるコアアレイの３次元図である。

【図2C】図２Ｃは、様々な動作の実施のための選択に適したコアの配列の３次元図である。

【図3】図３は、図２Ａのコアのアレイのコアのうちの１つのブロック図である。

【図4】図４は、図２Ａのコアのアレイのコアのためのキャッシュへのアクセスを可能にする例示的なキャッシュアーキテクチャのブロック図である。

【図5】図５は、図４のキャッシュアーキテクチャを含むコアアレイの構成例を示すブロック図である。

【図6】図６は、例示的なキャッシュアーキテクチャ上に記憶されたデータにアクセスするプロセスのフロー図である。

【発明を実施するための形態】

【0027】

本開示は、添付の図面を参照して、例示的な実施形態の以下の説明からより良く理解されるであろう。

【0028】

本開示は、様々な修正および代替形態が可能である。いくつかの代表的な実施形態が例として図面に示されており、本明細書で詳細に説明される。しかしながら、本発明は、開示された特定の形態に限定されることを意図するものではないことを理解されたい。むしろ、本開示は、添付の特許請求の範囲によって定義される本発明の趣旨および範囲内に入るすべての修正形態、均等物、および代替形態を網羅するものである。

【0029】

本開示は、添付の図面を参照して、例示的な実施形態の以下の説明からより良く理解されるのであろう。

【0030】

図１Ａは、各々が複数の処理コアを有する４つのダイを有するチップの図である。

【0031】

図１Ｂは、図１Ａに示されるチップ上のダイのうちの１つの簡略図である。

【0032】

図２Ａは、異なる動作の実施のための選択に適した、図１Ｂのダイ内のコアのアレイのブロック図である。

【0033】

図２Ｂは、図１Ｂのダイにおけるコアアレイの３次元図である。

【0034】

図２Ｃは、図１Ｂのコアアレイの３次元図である。

【0035】

図３は、図２Ａのコアのアレイのコアのうちの１つのブロック図である。

【0036】

図４は、図２Ａのコアのアレイのコアのためのキャッシュへのアクセスを可能にする例示的なキャッシュアーキテクチャのブロック図である。

【0037】

図５は、図４のキャッシュアーキテクチャを含むコアアレイの構成例を示すブロック図である。

【0038】

図６は、例示的なキャッシュアーキテクチャ上に記憶されたデータにアクセスするプロセスのフロー図である。

【0039】

【0040】

本発明は、多くの異なる形態で実施することができる。代表的な実施形態が図面に示されており、本明細書において詳細に説明される。本開示は本開示の原理の例または例示であり、本開示の広範な態様を図示の実施形態に限定することを意図するものではない。その限りにおいて、例えば、要約書、概要、および詳細な説明のセクションに開示されているが、特許請求の範囲に明示的に記載されていない要素、および限定は含意、推論、またはその他によって、単独で、または集合的に、特許請求の範囲に組み込まれるべきではない。本発明の詳細な記載のために、特に放棄されない限り、単数は複数を含み、逆もまた同様であり、「含む」という手段を含む。さらに、「約」、「ほぼ」、「実質的に」、「およそ」などの近似語は例えば、「で」、「の近くで」、または「大体」、または「３～５％以内」、または「許容できる製造公差内」、またはそれらの任意の論理的組合せを意味するために本明細書で使用され得る。

【0041】

本開示は、コアの超並列アレイにおいて均質なコアを構成することから作成され得るアーキテクチャを対象とする。例示的なアーキテクチャは、アレイ内の他のコアのためのメモリアクセス、キャッシュアドレス指定、およびキャッシュストレージ機能を実行するように特定のコアを構成する。このように、アーキテクチャは、キャッシュアーキテクチャとして構成されたコアを介して、外部メモリから以前にアクセスされたデータへの迅速なメモリアクセスを可能にする。

【0042】

図１Ａは、４つの同一のダイ１０２、１０４、１０６、および１０８に再分割される例示的なチップ１００を示す。ダイ１０２、１０４、１０６、および１０８の各々は、複数のプロセッサコア、サポート回路、シリアル相互接続、およびシリアルデータ制御サブシステムを含む。たとえば、ダイ１０２、１０４、１０６、および１０８はそれぞれ、異なる通信プロトコルをサポートするために、４，０９６個の処理コアならびにＳＥＲＤＥＳ相互接続レーンを有し得る。ダイ１０２、１０４、１０６、および１０８の間にダイツーダイ並列接続がある。したがって、この実施形態におけるダイ１０２、１０４、１０６、および１０８の各々は、インターラーケン接続点によって相互接続される。チップ１００は、ダイ１０２、１０４、１０６、および１０８のうちの１つ、２つ、または４つすべてが使用されることを可能にするように設計される。未使用のダイに関連するパッケージのピンは、パッケージまたはボードに接続されずに残される。チップ１００と同一の追加のチップがデバイスまたは回路基板に実装され得るので、ダイはスケーラブルである。この例では、チップ１００にはイーサネット（登録商標）ポートなどの単一の通信ポートが設けられている。もちろん、ダイごとに１つまたは複数のポートなど、他のポートが提供されてもよい。

【0043】

図１Ｂは、ダイ１０２の一例のブロック図である。ダイ１０２は、処理コアのフラクタルアレイ１３０を含む。フラクタルアレイ１３０内の処理コアは、システム相互接続１３２を介して互いに相互接続される。コア１３０のアレイ全体が、ダイ１０２およびチップ１００の主要な処理エンジンとして機能する。この例では、フラクタルアレイ１３０内に、グリッドに編成された４，０９６個のコアがある。

【0044】

システム相互接続１３２は、一連のメモリ入力／出力プロセッサ（ＭＩＯＰ）１３４に結合される。システム相互接続１３２は、制御ステータスレジスタ（ＣＳＲ）１３６、ダイレクトメモリアクセス（ＤＭＡ）１３８、割り込みコントローラ（ＩＲＱＣ）１４０、Ｉ２Ｃバスコントローラ１４２、および２つのダイツーダイ相互接続１４４に結合される。２つのダイ間相互接続１４４は、ダイ１０２の処理コア１３０のアレイと、図１Ａの２つの隣接するダイ１０４および１０８との間の通信を可能にする。

【0045】

チップは、外部メモリサブシステムを構成する高帯域メモリ１４８に結合された高帯域メモリコントローラ１４６を含む。また、このチップは、外部通信のためのイーサネット（登録商標）コントローラシステム１５０、インターラーケンコントローラシステム１５２、およびＰＣＩｅコントローラシステム１５４を含む。この例ではコントローラシステム１５０、１５２、および１５４の各々はメディアアクセスコントローラと、物理コーディングサブレイヤ（ＰＣＳ）と、コアとの間のデータのための入力とを有する。それぞれの通信プロトコルシステム１５０、１５２、および１５４のそれぞれの制御装置はそれぞれの通信プロトコルにおけるデータを提供するために、コアとインターフェースする。この実施形態では、インターラーケン制御装置１５２が２つのインターラーケン制御装置と、それぞれのチャネルとを有する。ＳＥＲＤＥＳアロケータ（Ａｌｏｃａｔｏｒ）１５６は、クワッドＭ－ＰＨＹユニット１５８を介して通信システム１５０、１５２、および１５４にＳＥＲＤＥＳラインを割り当てることを可能にする。通信システム１５０、１５２、および１５４のコントローラの各々は、高帯域幅メモリ１４８にアクセスすることができる。

【0046】

この例では、直接相互接続されたコアのアレイ１３０が各タイル内に１６個のコアを有するタイルに編成される。アレイ１３０は、メモリＩＯプロセッサ（ＭＩＯＰ）１３４および高帯域幅メモリコントローラ１４６を介してコアと外部ＤＲＡＭとの間でデータストリームをルーティングするための高帯域幅相互接続を有することによって、メモリネットワークオンチップとして機能する。アレイ１３０は、「ＡｒｒａｙｏｆＣｈｉｐｓ」ブリッジモジュールを介したチップ間通信を含む、離れたコア間の通信をサポートするためのリンクネットワークオンチップ相互接続として機能する。アレイ１３０は、アレイ１３０の全ての構成要素からの致命的なエラーメッセージを捕捉及びフィルタリングするエラーレポータ機能を有する。

【0047】

図２Ａは、図１Ｂのコア１３０のアレイの詳細図である。図２Ｂは、図１Ｂのコア１３０の配列の３次元像である。コア１３０のアレイは、図２Ａに示されるクラスタ２００、２１０、２２０、および２３０などの４つのコアクラスタに編成される。たとえば、クラスタ２００は、コア２０２ａ、２０２ｂ、２０２ｃ、および２０２ｄを含む。コア２０２ａ、２０２ｂ、２０２ｃ、および２０２ｄなどの各クラスタ２００内の４つのコアの各々は、ルータ２０４によって互いに結合される。図２Ｂは、対応するコア２１２ａ～２１２ｄ、２２２ａ～２１２ｄ、および２３２ａ～２３２ｄ、ならびに対応するルータ２１４、２２４、および２３４を有する他のクラスタ２１０、２２０、および２３０を示す。

【0048】

図２Ｂに具体的に示され得るように、この例ではコア２０２ａ、２０２ｂ、２０２ｃ、および２０２ｄの各々は最大４組の３つの相互接続〔Ｌ、Ａ、Ｒ〕を有する。例えば、コア２０２ｄのようなアレイの中心のコアは、各々が４つの隣接するコアのうちの１つに接続された４組の相互接続２４０、２４２、２４４、および２４６を含む。これにより、コア２０２ｂは相互接続２４０を介してコア２０２ｄに接続され、コア２０２ｃは相互接続２４２を介してコア２０２ｄに接続され、コア２１２ｂは相互接続２４４を介してコア２０２ｄに接続され、コア２０２ｃは相互接続２４６を介してコア２０２ｄに接続される。別個のコネクタ２４８が、クラスタ２００のワイヤルータ２０４に結合される。したがって、アレイの中央の各コアは４組の相互接続を有し、一方、コア２０２ｃなどの境界コアは、それぞれのコア２０２ａ、２０２ｄ、および２１２ａに接続される３組の相互接続２５０、２５２、および２４６のみを有する。

【0049】

図２Ｃは、コアアレイ１３０のコアの斜視図である。アレイ上のコアの領域は、行列乗算などのプログラムまたは計算機能を実行する選択されたコアのレイアウトのために選択される。すべてのコアが機能していると仮定すると、プログラム機能のためのコアのレイアウトは、理想的にはできるだけ密にレイアウトされる。そのような理想的なトポロジーは、１００％収率のＭＰＰＡフラクタルアレイチップのためのレイアウトとして定義され得る。しかし、理想的なトポロジレイアウトは、アレイ内に機能不全のコアを含めないように調整される必要がある。

【0050】

図３は、図２Ａのコア２０２ａなどのアレイ１３０内のコアのうちの１つのブロック図である。コア１３０のアレイ内のコアの各々は、算術論理ユニット（ＡＬＵ）または再構成可能算術エンジン３１０、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのメモリ３１２、ならびにプログラムメモリおよび制御モジュール３１４を含む。再構成可能な算術エンジン３１０は、データ操作動作を実行する。プログラムメモリ及び制御モジュール３１４は、データフロープログラムを実行する。各コアは、隣接するコアへの内部接続性データ入力／出力と、コアのアレイ１３０の外側のデバイスへの外部接続性とを含む。この例では、コアが北（Ｎｏｒｔｈ）側の組の相互接続３２０と、東（Ｅａｓｔ）側の組の相互接続３２２と、南（Ｓｏｕｔｈ）側の組の相互接続３２４と、西（Ｗｅｓｔ）側の組の相互接続３２６とを含む４組の相互接続（Ａ、Ｌ、Ｒ）を含む。

【0051】

この例では、コアの各々が（ａ）数値演算、論理演算、および数学演算、（ｂ）データルーティング演算、（ｃ）条件分岐演算、および（ｄ）ブール型、整数型、浮動小数点型、または固定小数点型などの任意のまたはすべてのデータ型におけるすべてのこれらの演算の実装を含む、様々な計算モードのために構成され得る。コアのアレイ内のコアの各々は、数値演算、論理演算、および数学演算、データルーティング演算、条件分岐演算、入力処理、出力処理、および他のコア間の「ワイヤ」（コネクタとしての役割を果たす）などの機能を実行するようにプログラムされ得る。データは、本明細書で説明されるコアとルータ構造との間の相互接続を介して、コア１３０のアレイ内のコア間で交換され得る。データは、ブール型、整数型、浮動小数点型、または固定小数点型などの任意のまたはすべてのデータ型を含むことができる。

【0052】

図４は、コアのアレイ１３０のタイルの１６個のコアから構成される例示的なキャッシュアーキテクチャ４００を示す。アーキテクチャ４００内のコアは、コア１３０のアレイ内の他のコアの計算動作をサポートするためのメモリキャッシュとして機能するように構成される。アレイ１３０内の他のコアはそのようなコア上で実行される計算動作がデータを必要とするときに、コアアーキテクチャ４００にアクセスし得る。データは最初に、図１ＢのＨＢＭ１４８などの外部メモリに記憶され得る。データは、一旦アクセスされると、キャッシュメモリとして構成されるコアアーキテクチャ４００内のコアのセットに記憶される。これにより、構成されたコアによるキャッシュされたデータへの後続のアクセスで、より迅速なアクセスが可能になる。キャッシュアーキテクチャ４００は外部ＨＢＭ１４８よりもアクセスが速い、ダイ上のメモリの小片である。キャッシュアーキテクチャはいくつかのチップ領域を必要とし、したがって、アーキテクチャ４００に専用のコアの数は制限されるべきである。コアのアレイ上の他のコアによって実行される異なるアプリケーションは、異なるデータアクセスパターンを有し得る。例えば、ワードプロセッサメモリアクセスパターンは、３Ｄグラフィックレンダリングエンジンとは異なるように見える。したがって、キャッシュアーキテクチャ４００はキャッシュヒット率およびミス率を調整するために、キャッシュ内に存在するデータを追跡するために使用されるキャッシュライン長およびビットを変更することを可能にする。

【0053】

例示的なキャッシュアーキテクチャ４００は、キャッシュアドレスマネージャ４１２、リターンデータモジュール４１４、高帯域幅メモリ（ＨＢＭ）マネージャ４１６、キャッシュモジュール４１８、およびアドレス作成モジュール４２０を含む５つの一次ブロックを含む。

【0054】

キャッシュアドレスマネージャ４１２は、キャッシュアドレスインデックスを作成および維持するように構成された第１コア４３０と、コア４３０によって維持されたキャッシュアドレスインデックス内のキャッシュアドレスをルックアップするように構成された第２コア４３２とを含む。計算動作のために構成されたコア１３０のアレイ内のコアがメモリからデータを読み取るか、またはメモリにデータを書き込むかのいずれかを必要とするとき、要求は、キャッシュアドレスマネージャ４１２によって受信される。コア４３４は、キャッシュアーキテクチャ４００による要求に対する応答が完了するまで、現在の要求を格納する一定の循環バッファとして構成される。循環バッファ（ＣｉｒｃｕｌａｒＢｕｆｆｅｒ）コア４３４のＬ個の相互接続は、コア４３０のＬ個の相互接続に接続されている。コア４３０によって要求されたデータのキャッシュアドレスインデックスからのキャッシュアドレスは、コア４３０とコア４３２との間のＬ個の相互接続を介してコア４３２に渡される。入力アドレスは、Ｌ個の相互接続上で変更されずに渡される。コア４３０とコア４３２との間のＲ相互接続は、キャッシュされたデータが存在するか否かを決定するための、キャッシュモジュール４１８におけるルックアップのためのインデックスデータである。インデックスデータは、データのキャッシュヒットまたはキャッシュミスに対して設定されたサフィックスビットを有する。コア４３２は、キャッシュアドレスインデックスにおいてコア４３０から受信されたキャッシュアドレスをルックアップするように構成される。キャッシュアドレスインデックス内の各アドレスは、キャッシュアドレスラインの開始である。

【0055】

コア４３０および４３２は、キャッシュモジュール４１８に保持されているデータを追跡するためのアルゴリズムを実施する。要求されているアドレスは、キャッシュモジュール４１８のアドレスのためのテーブル内のキャッシュアドレスインデックスを介してトラッキングロケーションを作成するように操作される。アルゴリズムの目的は、キャッシュモジュール４１８に記憶された最も頻繁にアクセスされるデータを保持することである。アルゴリズムは、異なるアプリケーションのための異なるパターンに対するキャッシュアクセスの最適化を可能にする。したがって、アルゴリズムはキャッシュヒット率およびミス率を調整するために、キャッシュ内に存在するデータを追跡するために使用されるキャッシュライン長およびビットを変更する。例えば、メモリのための３２ビットアドレスの場合、ビット３１はアドレスの上位ビットであり、ビット０はアドレスの最下位ビットである。キャッシュインデックスは、アドレスの異なる順序ビットから作成され得る。例えば、ビット９：０を使用して１０２４エントリキャッシュテーブルを作成することができ、またはビット３１：２２を調べることができる。一般に、より大きいデータはより高い値ビットを有するアドレスインデックスを有するが、比較的小さいデータはより低い値ビットを有するアドレスインデックスを有する。これらは、非常に異なるキャッシュヒット／ミス比を有する。例示的なキャッシュインデックスは、データのアドレスのアドレスフィールド全体にわたって散在するビットから作成され得る。インデックスは、データのアドレスがインデックスのアドレスと一致するかどうかを決定することによって、データがキャッシュモジュール４１８に記憶されているかどうかを決定するために使用され得る。

【0056】

ルックアップされたキャッシュアドレスは、コア４３２とコア４４０との間のＬ個の相互接続を介して、コア４３２からリターンデータモジュール４１４内のコア４４０に渡される。コア４３２とコア４４０との間のＲ相互接続は、キャッシュ内のデータについてヒットまたはミスがあるかどうかについて設定されたサフィックスビット３を有するキャッシュインデックスを通過させる。コア４４０は、サフィックスビット３を読み出すことに基づいて、要求されたデータのキャッシュアドレスがキャッシュモジュール４１８に存在するかどうかを決定するように構成される。サフィックスビットが、データがキャッシュモジュール４１８に記憶されていないことを示すミスであることを示す場合、コア４４０は読み出し要求データ信号を送信するように構成されたコア４４２に、Ｌ個の相互接続上のキャッシュライン長に対するメモリランダムアクセス読み出し要求を送信する。この例ではキャッシュライン長は８バイトであるが、他のキャッシュライン長が使用されてもよい。コア４４２はデータがキャッシュモジュール４１８に記憶されていない場合、図１ＢのＭＩＯＰ１３４およびＨＢＭサブシステム１４６への接続点のために構成されたコアを通してＨＢＭ１４８からデータを取り出すために、ＨＢＭマネージャ４１６に結合される。要求されたデータがキャッシュモジュール４１８に格納されている場合、後述するように、データはキャッシュモジュール４１８から取り出されるように要求される。

【0057】

ＨＢＭマネージャ４１６は、ＨＢＭコントローラ１４６を介して図１ＢのＨＢＭ１４８などのオフチップメモリにメモリ要求を送信するためのワイヤコアとして構成されたコア４５０および４５２を含む。メモリ要求はコア４４２によって生成され、データはＭＩＯＰおよびＨＢＭサブシステムへの接続点のために構成されたコアから返される。要求されたデータは、ＨＢＭマネージャ４１６を介してＨＢＭ１４８から返される。ＨＢＭマネージャ４１６のワイヤ（Ｗｉｒｅ）コア４５０および４５２は、Ｒ相互接続を介して互いに結合される。ＨＢＭから読み出されたデータは、ワイヤコア４５０のＲ相互接続を介して送られる。ワイヤコア４５０のＲ相互接続はバンクアドレステーブルを記憶し、データのためにキャッシュモジュール４１８内にカスケードバンクアドレスを作成するように構成されたコア４５４に結合される。Ｌ個の相互接続内のデータは、データがキャッシュモジュール４１８から読み出されているか、データが書き込まれているかを示すサフィックスビットを含む。コア４５４は、返されたデータを、Ｒ相互接続を介してＨＢＭ１４８からキャッシュモジュール４１８に渡す。コア４５４は、データがＬ相互接続を介して書き込まれる場所に対応するキャッシュモジュール４１８内の作成されたアドレスをキャッシュモジュール４１８に渡す。返されたデータは、キャッシュメモリモジュール４１８に書き込むためのアドレスのストリーミングとマージされる。キャッシュアドレスインデックスは、コア４３０上で更新される。コア４３２は、アドレスをキャッシュインデックスアドレステーブル内のアドレスと比較することによって、要求されたデータがキャッシュモジュール４１８内に存在するかどうかを判定する。データがキャッシュ内にない場合（キャッシュミス）、アドレスインデックスは、キャッシュモジュール４１８に入れられるデータの新しいアドレスに更新される。後続の要求は、キャッシュ内で同じアドレスを見つける（キャッシュヒット）。

【0058】

この例では、キャッシュモジュール４１８がコア４６０および４６２のそれぞれの内部ＲＡＭがキャッシュメモリを構成することを可能にするように構成された２つのコア４６０および４６２を含む。この例では、２つのコア４６０および４６２がそれぞれ４ｋバイトのキャッシュストレージを可能にする。しかしながら、キャッシュモジュール４１８内に、より大きなＲＡＭまたはより多くのコアを有することによって、より多くのキャッシュストレージを利用可能にすることができる。この例では、コア４６０および４６２のＬ個の相互接続がアドレスデータを受け付け、書き込まれたデータがＲ個の相互接続を介して送信または受信され、読み出されたデータがＡ個の相互接続を介して送信または受信される。

【0059】

キャッシュモジュール４１８は、要求されたデータ（キャッシュＲＡＭからの既存のデータ、または外部ＨＢＭからキャッシュＲＡＭに新たに書き込まれたデータ）を、キャッシュ処理結果を出力するように構成されたコア４６４に返す。この例では、データメモリとして構成されたコア４６２からコア４６４へのＬ相互接続において、データにヒットしたか、データにミスしたかを示すサフィックスが渡される。外部ＨＢＭメモリへのデータアクセスを必要とするミスの場合、アクセスされたデータは、Ｒ相互接続を介してコア４６４に渡される。アクセスされたデータは、後続の計算メモリ要求のための利用可能性のためにキャッシュモジュール４１８に書き込まれる。ヒットの場合、キャッシュモジュール４１８からの読み出しデータは、Ａ相互接続を介してコア４６４に渡される。したがって、データはコア４６４から、アーキテクチャ４００へのデータアクセスを要求したコアにルーティングされる。コア４６４は、Ｌ個の相互接続から読み出されたアドレスのヒットまたはミスを示すサフィックスビットに基づいて、データをルーティングするためのＡまたはＲ個の相互接続のいずれかを選択する。

【0060】

この例では特定のコア４６６、４６８、および４８０はテスト目的のために構成される。テスト目的のために、コア４６４は、それぞれのＲ相互接続を介してコア４６６およびコア４６８にデータを渡す。コア４６６は、キャッシュソリューションの出力を期待される出力と比較するように構成される。１の値は、期待される出力値が何であるかに対して、一致に対して設定され、または不一致に対して０の値が設定される。コア４６８はチェックサム演算を実行し、チェックサムが期待されるデータの適切な送信を示すかどうかを決定するように構成される。チェックサムの結果はコア４７０を介して、チェックサムの結果を出力するように構成されたコア４８０に、Ａ相互接続を通過する。チェックサムは比較結果のものである。すべての値は、データ転送の成功を示すために一致することが期待される。コア４６６、４６８、および４８０によって実行されるテスト動作は一般に、アーキテクチャ４００の通常のメモリアクセス動作では採用されない。

【0061】

アドレス戻りモジュール４２０は、キャッシュサフィックスを繰り返すように構成されたコア４７０と、キャッシュアドレスを繰り返すように構成されたコア４７２とを含む。したがって、アドレス戻りモジュール４２０は、キャッシュメモリモジュール４１８を構成するコア４６０および４６２内の位置に対応するアドレスを繰り返す。アドレスは、データがキャッシュヒットであるかキャッシュミスであるかのキャッシュサフィックスビットを含む。一連のアドレスは、キャッシュモジュール４１８からのデータの書き込みまたは読み出しのために繰り返される。繰り返されるアドレスの数は、キャッシュライン長に基づく。この例ではキャッシュライン長は８バイトであり、したがって、この例では例示的な８ｋｂのキャッシュサイズのために最大１Ｋ個のアドレスが作成され得る。リクエストのタイプ（読み取りまたは書き込み）も繰り返される。この例では、サフィックスが、データがキャッシュモジュール４１８のコアのＳＲＡＭから読み出されるか、それともＳＲＡＭに書き込まれるかを決定する。

【0062】

要求されたデータ（読み出しまたは書き込みのいずれかのための）がすでにキャッシュモジュール４１８に記憶されているとコア４４０が判定した場合、コア４４０は、Ｒ相互接続を介してキャッシュサフィックスを繰り返すように構成されたコア４７０にアドレスを送信する。サフィックスビットは、コア４７０からＬ相互接続を介して、データのキャッシュアドレスを繰り返すように構成されたコア４７２に渡される。キャッシュインデックスアドレスは、コア４７０とコア４７２との間のＲ相互接続を介してパスされる。要求されたデータを格納するキャッシュモジュール４１８内のアドレスへのアクセスを可能にするために、サフィックスおよびアドレスの両方がコア４７０および４７２によって繰り返される。この例におけるリード（キャッシュヒット）を示すアドレスおよびサフィックスビットは、コア４５４とコア４７２との間のＬ個の相互接続を介してコア４５４に渡され、キャッシュモジュール４１８にアクセスする。次いで、所望のデータは、ヒットを示すＡ相互接続を介して送信され、要求されたデータがキャッシュモジュール４１８からコア４６４に読み出される。

【0063】

例示的なキャッシュアーキテクチャ４００は、固定セットアップではない。アーキテクチャ４００は、ソフトウェア開発者によって、コアのアレイ１３０内のコアの特定の使用事例および構成に合わせて調整することができる。キャッシュのサイズは、キャッシュモジュール４１８の一部として追加のコアを構成することによって変更することができる。キャッシュに保持されるデータを追跡する方法は、コア４３０によって実行されるインデックス計算を変更することによって変更され得る。キャッシュライン長は、追加のコアをキャッシュモジュール４１８に追加し、追加のコアを収容するためにコア４７０および４７２上のアドレス反復量を変更することによって変更することができる。コア４５４内のバンクアドレステーブルは、キャッシュモジュール４１８内の追加のコアごとにバンクアドレスを有するように更新される。キャッシュライン長は、ＨＢＭメモリ１４８から要求がどのくらい大きいかを決定する。キャッシュラインの長さを変更すると、アプリケーションのパフォーマンスを最適化できる。

【0064】

図５は、図４のキャッシュアーキテクチャを含むコアのアレイの例示的な構成５００のブロック図である。この例では、コアのアレイ１３０が第１計算動作のために構成されたコアの第１セット５１０を含む。コアの第２セット５２０は、第２計算動作のために構成されている。コア５１０および５２０の両方のセットは、上述のコア１３０のアレイ内の相互接続ネットワークを介してルーティングされた読取りおよび書込みメモリ要求を有し得る。コアのアレイ１３０は、コアのアレイ１３０の外部にある高帯域幅メモリ１４８へのアクセスを可能にする。コアの第１セット５１０またはコアの第２セット５２０のいずれかからのメモリアクセス要求は、キャッシュアーキテクチャ４００として働くように構成された１つまたは複数のタイルを含み得るキャッシュアーキテクチャ４００にルーティングされる。要求されたデータがキャッシュアーキテクチャのキャッシュメモリモジュール内で見つかった場合、コア５１０および５２０のそれぞれのセットによって実行されるいずれかの動作のためのデータへのより迅速なアクセスに基づいて、動作実行が合理化される。

【0065】

上記で説明したように、キャッシュアーキテクチャ４００は、利用可能なキャッシュメモリのサイズを増加させるために拡張され得る。アクセスはまた、キャッシュライン長のサイズ決定によって増加され得る。これらのパラメータは、計算動作のために構成されるコアの要件に応じて調整され得る。これらのパラメータはまた、リアルタイムで計算機能のために構成されたコアの動作中に調整され得る。例えば、特定の計算機能がより速いメモリアクセスを必要とする場合、構成されたコアは、キャッシュメモリモジュールのための追加のコアを構成することによって、機能の実行中にキャッシュを拡張することができる。典型的にはアプリケーションが既知のタイプのデータに向けられている場合、キャッシュ設計構成はそのようなデータに向けて調整され得る。プログラムの実行の完了後、キャッシュアーキテクチャのコアは、別の目的のために構成され得る。代替的に、キャッシュアーキテクチャは、別のプログラムを実行する別のコアグループのためのキャッシュとして働くことができる。

【0066】

さらに、キャッシュアーキテクチャのために使用されるコアは、計算動作が変化するか、または計算動作のためのコアのセットがそれ自体で再構成されると、他の目的のために再構成され得る。計算動作のために構成されたコアの各セットは代替的に、キャッシュアーキテクチャ４００と同様の独自の専用キャッシュアーキテクチャを有し得る。

【0067】

図６のフロー図６００は、コアのアレイ内の例示的なキャッシュアーキテクチャを使用してデータにアクセスするプロセスのための例示的な機械可読命令を表す。この例では、機械可読命令が（ａ）プロセッサ、（ｂ）コントローラ、および／または（ｃ）１つまたは複数の他の適切な処理デバイスによる実行のためのアルゴリズムを備える。アルゴリズムは、フラッシュメモリ、ＣＤ－ＲＯＭ、フロッピー（登録商標）ディスク、ハードドライブ、デジタルビデオ（多用途）ディスク（ＤＶＤ）、または他のメモリデバイスなどの有形媒体上に記憶されたソフトウェアで具現化され得る。しかしながら、当業者はアルゴリズム全体および／またはその一部が代替的に、プロセッサ以外のデバイスによって実行され得、および／またはファームウェアもしくは専用ハードウェアにおいてよく知られた方法で具現化され得ることを容易に理解するのであろう（たとえば、それは、特定用途向け集積回路〔ＡＳＩＣ〕、プログラマブル論理デバイス〔ＰＬＤ〕、フィールドプログラマブル論理デバイス〔ＦＰＬＤ〕、フィールドプログラマブルゲートアレイ〔ＦＰＧＡ〕、ディスクリート論理などによって実装され得る）。例えば、インターフェースの構成要素のいずれか又は全ては、ソフトウエア、ハードウエア、及び／又はファームウエアによって実施することができる。また、フローチャートによって表される機械可読命令の一部または全部は、手動で実装され得る。さらに、例示的なアルゴリズムは図６に示すフローチャートを参照して説明されるが、例示的な機械可読命令を実装する多くの他の方法が代替的に使用され得ることを、当業者は容易に諒解されよう。例えば、ブロックの実行順序は変更されてもよく、及び／又は、記載されたブロックの一部は変更、削除、又は組み合わせられてもよい。

【0068】

初期ダイレクトメモリアクセスは計算ユニット（６００）から受信され、計算ユニットは計算動作を実行するように構成されたコアのアレイ１３０のコアのセットであり得る。キャッシュアドレスのセットは、データアクセス要求から決定される（６１２）。次いで、ルーチンは、要求されたデータがキャッシュモジュールに記憶されているかどうかを判定する（６１４）。データがキャッシュ内に見つからない場合、データはＨＢＭなどの外部メモリから要求される（６１６）。次いで、データは外部メモリから取り出される（６１８）。検索されたデータにキャッシュアドレスが割り当てられる（６２０）。次いで、取り出されたデータは、キャッシュ内のアドレスに書き込まれる（６２２）。次いで、データは、要求に応答するために返される（６２４）。

【0069】

データがすでにキャッシュに記憶されている場合（６１４）、ルーチンはデータのアドレスを取り出す（６２６）。アドレスはキャッシュに渡され、要求されたデータがキャッシュから読み出される（６２８）。次いで、要求されたデータは、要求に応答するために出力される（６２４）。

【0070】

本明細書で使用される用語は特定の実施形態のみを説明するためのものであり、本発明を限定することを意図するものではない。本明細書で使用される場合、単数形「１つの」などは文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。さらに、用語「包含する」、「有する」、「持つ」など、またはそれらの変形が詳細な説明および／または特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「含む」と同様である。

【0071】

別途定義されない限り、本明細書で使用されるすべての用語（技術用語および科学用語を含む）は、当業者によって一般に理解されるのと同じ意味を有する。さらに、一般的に使用される辞書で定義される用語などの用語は関連技術の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、本明細書で明示的に定義されない限り、理想化されたまたは過度に形式的な意味で解釈されない。

【0072】

以上、本発明の様々な実施形態について説明したが、これらは例としてのみ提示されたものであり、限定するものではないことを理解されたい。本発明の精神または範囲から逸脱することなく、本明細書の開示に従って、開示された実施形態に対する多数の変更を行うことができる。したがって、本発明の広さおよび範囲は、上述の実施形態のいずれによっても限定されるべきではない。むしろ、本発明の範囲は、以下の特許請求の範囲およびそれらの均等物に従って定義されるべきである。

【0073】

本発明は１つまたは複数の実装、同等の変更、および修正に関して図示および説明されてきたが、本明細書および添付の図面を読んで理解すると、他の当業者には思い浮かぶか、または知られるのであろう。加えて、本発明の特定の特徴はいくつかの実装形態のうちの１つのみに関して開示されている場合があるが、そのような特徴は任意の所与のまたは特定の用途に対して所望され、かつ有利であり得るように、他の実装形態の１つまたは複数の他の特徴と組み合わされてもよい。

【0074】

例示的な実装１は、グリッド内に配置された同一のコアのアレイのためのキャッシュアーキテクチャであって、各コアは、前記グリッド内の隣接するコアへの相互接続、メモリ、およびアルゴリズム論理ユニットを含み、前記キャッシュアーキテクチャは、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成された前記アレイの第１コアと、要求されたデータがキャッシュメモリ内に存在するか否かを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して決定するように構成された前記アレイの第２コアと、前記キャッシュメモリとして構成された前記アレイの第３コアと、を含み、前記第３コアの前記メモリが前記キャッシュメモリとして使用され、前記キャッシュインデックスから要求された前記データのアドレスが前記第３コアに渡され、要求された前記データを出力する。

【0075】

実装２は、前記第３コアの前記メモリと組み合わせて、前記キャッシュメモリとして構成された前記アレイの第４コアのメモリをさらに含む、実装１のキャッシュアーキテクチャであってよい。

【0076】

実装３は、外部メモリを管理するように構成された前記アレイの第４コアをさらに含み、要求された前記データが存在しないとき、要求された前記データが前記外部メモリから前記第３コアに書き込まれる、実装１または２のキャッシュアーキテクチャであってよい。

【0077】

実装４は、前記アドレスのサフィックスは、取り出される前記データが前記キャッシュメモリから取り出されるか、または前記外部メモリから取り出されるかを指定するために使用される、実装３のキャッシュアーキテクチャであってよい。

【0078】

実装５は、前記外部メモリは、高帯域メモリである、実装３に記載のキャッシュアーキテクチャであってよい。

【0079】

実装６は、前記データは、調整可能なキャッシュライン長を有するキャッシュラインを介して取り出される、実装１～５のいずれか１つのキャッシュアーキテクチャであってよい。

【0080】

実装７は、前記アレイ内の前記コアの各々は別のコアの前記対応する第１、第２、および第３チャネルにそれぞれ相互接続され得る第１チャネル、第２チャネル、および第３チャネルを有し、前記第３コアは前記第１チャネル上で要求された前記データのアドレスを受け入れ、前記データが前記外部メモリから書き込まれる場合、要求された前記データを前記第２チャネル上に出力し、前記データが前記キャッシュメモリに記憶されている場合、要求された前記データを前記第３チャネル上に出力する、実装３のキャッシュアーキテクチャであってよい。

【0081】

実装８は、前記第３コアに結合された前記アレイの第４コアをさらに含み、前記第４コアは、計算動作のために構成された前記アレイ内の前記コアのうちの少なくとも前記１つに要求された前記データを返すように構成される、実装１～７のいずれか１つのキャッシュアーキテクチャであってよい。

【0082】

実装９は、少なくとも前記１つのコアは、前記計算機能を実行するように構成されていることに応答して、前記キャッシュメモリとして第４コアを構成する、実装１～８のいずれか１つのキャッシュアーキテクチャであってよい。

【0083】

実装１０は、グリッド内に配置されたコアのアレイに対してキャッシュメモリを提供する方法であって、各コアは前記グリッド内の隣接するコアへの相互接続、メモリ、およびアルゴリズム論理ユニットを含み、前記方法は、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように前記アレイの第１コアを構成し、要求された前記データがキャッシュメモリ内に存在するかどうかを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して決定するように、前記アレイの第２コアを構成し、前記アレイの第３コアを前記キャッシュメモリとして構成し、前記第３コアの前記メモリを前記キャッシュメモリとして使用し、要求された前記データのアドレスを、前記キャッシュインデックスから前記第３コアに渡して、要求された前記データを出力する。

【0084】

実装１１は、前記第３コアの前記メモリと組み合わせて、前記アレイの第４コアのメモリを前記キャッシュメモリとして構成することをさらに含む、実装１０の方法であってよい。

【0085】

実装１２は、第４コアを介して外部メモリを管理し、要求された前記データが存在しないとき、前記外部メモリから前記第３コアに前記外部データを書き込む、ことをさらに含む、実装１０または１１の方法であってよい。

【0086】

実装１３は、前記アドレスのサフィックスは、取り出される前記データが前記キャッシュメモリから取り出されるか、または前記外部メモリから取り出されるかを指定するために使用される、実装１２の方法であってよい。

【0087】

実装１４は、前記外部メモリは、高帯域メモリである、実装１２の方法であってよい。

【0088】

実装１５は、前記データは、調整可能なキャッシュライン長を有するキャッシュラインを介して取り出される、実装１０～１４のいずれか１つの方法であってよい。

【0089】

実装１６は、前記アレイ内の前記コアの各々が別のコアの対応する前記第１、第２、および第３チャネルにそれぞれ相互接続され得る第１チャネル、第２チャネル、および第３チャネルを有し、前記第３コアが前記第１チャネル上の要求された前記データのアドレスを受け入れ、前記データが前記外部メモリから書き込まれる場合、要求された前記データを前記第２チャネル上に出力し、前記データが前記キャッシュメモリに記憶されている場合、要求された前記データを前記第３チャネル上に出力する、実装１２の方法であってよい。

【0090】

実装１７は、前記第３コアに結合された前記アレイの第４コアを介して、計算動作のために構成された前記アレイ内の前記コアのうちの少なくとも前記１つに要求された前記データを返すことをさらに含む、実装１０～１６のいずれか１つの方法であってよい。

【0091】

実装１８は、前記計算機能を実行するように構成されていることに応答して、コアの前記アレイの少なくとも前記１つのコアを介して前記キャッシュメモリとして第４コアを構成することをさらに含む、請求項１０～１７のいずれか１つの方法であってよい。

【0092】

実装１９は、オンチップシステムであって、高帯域幅メモリと、相互接続ネットワークに結合されたコアのアレイを含むダイであって、前記相互接続ネットワークが前記高帯域幅メモリへのアクセスを可能にし、コアの前記アレイ内の前記コアの各々が、メモリおよびアルゴリズム論理ユニットを含む、ダイと、を含み、前記アレイの第１コアは、計算動作を実行するように構成されたコアの前記アレイの少なくとも１つのコアからデータに対するメモリアクセス要求を受信するように構成され、前記アレイの第２コアは、要求された前記データがキャッシュメモリ内に存在するか否かを、前記キャッシュメモリ内のアドレスを含むキャッシュインデックスを介して判定するように構成され、前記アレイの第３コアは、前記キャッシュメモリとして構成され、前記第３コアの前記メモリは前記キャッシュメモリとして使用され、前記キャッシュインデックスから要求された前記データのアドレスは要求された前記データを出力するために前記第３コアに渡される。

【0093】

〔関連出願の相互参照〕
本出願は２０２３年３月１５日に出願された米国特許出願第１８／１８４，５３６号の優先権を主張し、その全体が参照により本明細書に組み込まれる。

【図1A】