特許7551996 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フローコンピューティングオーユーの特許一覧

特許7551996ＴＣＦ対応プロセッサのためのメモリアクセスを処理する方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】ＴＣＦ対応プロセッサのためのメモリアクセスを処理する方法および装置

(51)【国際特許分類】

G06F 9/38 20180101AFI20240910BHJP

G06F 15/173 20060101ALI20240910BHJP

【ＦＩ】

G06F9/38 370X

G06F15/173 665D

【請求項の数】 13

(21)【出願番号】P 2021536026

(86)(22)【出願日】2019-12-20

(65)【公表番号】

(43)【公表日】2022-02-18

(86)【国際出願番号】 EP2019086516

(87)【国際公開番号】W WO2020127868

(87)【国際公開日】2020-06-25

【審査請求日】2022-11-15

(31)【優先権主張番号】18215559.8

(32)【優先日】2018-12-21

(33)【優先権主張国・地域又は機関】EP

(73)【特許権者】

【識別番号】524306187

【氏名又は名称】フローコンピューティングオーユー

【氏名又は名称原語表記】Ｆｌｏｗ－ｃｏｍｐｕｔｉｎｇＯｙ

【住所又は居所原語表記】Ｍａｒｉａ０１，Ｌａｐｉｎｌａｈｄｅｎｋａｔｕ１６，００１８０Ｈｅｌｓｉｎｋｉ，Ｆｉｎｌａｎｄ

(74)【代理人】

【識別番号】100127188

【弁理士】

【氏名又は名称】川守田光紀

(72)【発明者】

【氏名】フォーセルマルッティ

(72)【発明者】

【氏名】ロイヴァイネンユッシ

【審査官】三坂敏夫

(56)【参考文献】

【文献】特表２０１６－５３４４３３（ＪＰ，Ａ）

【文献】国際公開第２０１５／０５９３６２（ＷＯ，Ａ１）

【文献】欧州特許出願公開第０２８０６３６１（ＥＰ，Ａ１）

【文献】FORSELL, Martti et al.，Outline of a Thick Control Flow Architecture，2016 International Symposium on Computer Architecture and High Performance Computing Workshops (SBAC-PADW)，米国，IEEE，2016年10月28日，pages 1-6

【文献】小池敦他，ＧＰＵのための並列計算モデル，電子情報通信学会技術研究報告，一般社団法人電子情報通信学会，2012年10月24日，第112巻第272号，第53頁－第60頁

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／３０－９／３８

Ｇ０６Ｆ１５／１７３

(57)【特許請求の範囲】

【請求項1】

ＴＣＦ対応プロセッサのための共有データメモリアクセスを処理する装置であって、前記装置は、ローカルメモリ（６０２）および関連する制御ロジックを備える少なくとも柔軟なレイテンシ処理ユニット（６０１）を備え、前記ローカルメモリは、共有データメモリアクセス関連データを格納するために提供され、前記装置は、少なくとも１つの命令を含む少なくとも１つのＴＣＦを受信するように構成され、前記少なくとも１つの命令は、少なくとも１つのファイバに関連付けられ、前記柔軟なレイテンシ処理ユニットは、共有データメモリアクセスが前記少なくとも１つの命令によって要求されるかどうか判定することと、
共有データメモリアクセスが要求される場合、共有データメモリアクセス要求を送信することと、
柔軟なレイテンシ処理ユニットを介して、前記共有データメモリアクセス要求への応答が受信されるかどうか、クロックサイクル毎に一度監視することと、
応答が受信されるまで、前記命令の実行の継続を一時停止することと、
共有データメモリアクセスに関連付けられたクロックサイクルの遅延が、実際の要求された共有データメモリアクセスレイテンシによって動的に判定され、少なくとも１クロックサイクルに相当するように、前記応答を受信した後で、前記命令の実行を継続することと、
を行うように構成される、装置。

【請求項2】

前記共有データメモリアクセスは、先入れ先出しの原則を用いて実装される、請求項１に記載の装置。

【請求項3】

前記ローカルメモリ内の複数の命令に関するデータを格納し、もしある場合は、前記応答を受信後、前記命令の受信の順序を考慮して先入れ先出しの原則に従って実行される、各命令の実行を継続するように構成される、請求項２に記載の装置。

【請求項4】

前記装置は、前記ローカルメモリ内の前記少なくとも１つの命令に関するデータを格納するように追加で構成され、前記少なくとも１つの命令に関する前記データは、前記命令を定義するデータおよび／または共有データメモリアクセスを通じてフェッチされる前記命令によって参照されるデータを備える、請求項１～３のいずれか一項に記載の装置。

【請求項5】

前記ＴＣＦは、複数のファイバを備え、各ファイバは、複数の命令を含み、共有データメモリアクセス要求は、前記柔軟なレイテンシ処理ユニットを介して送信され、一連の命令の実行は、それぞれの命令に対するすべてのファイバに関連するすべての共有データメモリ参照が受信されるまで、同様のシーケンスを実行しているすべてのファイバを一時停止する、請求項１～４のいずれか一項に記載の装置。

【請求項6】

前記制御ロジックは、前記ローカルメモリの前に機能的に装置された送信ロジック（６０４）を備え、前記送信ロジックは、共有データメモリがビジーである、および／または前記ローカルメモリが、いっぱいである場合、プロセッサパイプラインの少なくとも一部を一時停止するように構成される、請求項１～５のいずれか一項に記載の装置。

【請求項7】

前記プロセッサパイプラインについては、前記送信ロジックまでもが、一時停止される、請求項６に記載の装置。

【請求項8】

前記制御ロジックは、前記ローカルメモリの後に機能的に装置された受信ロジック（６０６）を備え、前記受信ロジックは、前記応答を受信するまで、プロセッサパイプラインの少なくとも一部を一時停止するように構成される、請求項１～７のいずれか一項に記載の装置。

【請求項9】

前記柔軟なレイテンシ処理ユニットに関連付けられた読み出しユニットおよび／または前記受信ロジックに続く前記プロセッサパイプラインが、一時停止されている、請求項８に記載の装置。

【請求項10】

前記装置は、前記柔軟なレイテンシ処理ユニットの前に論理的に装置された１つ以上の算術論理ユニット（ＡＬＵ）からデータを受信するように構成される、請求項１～９のいずれか一項に記載の装置。

【請求項11】

前記装置は、前記柔軟なレイテンシ処理ユニットの後に論理的に装置された１つ以上の算術論理ユニット（ＡＬＵ）へデータを送信するように構成される、請求項１～１０のいずれか一項に記載の装置。

【請求項12】

２つ以上のＡＬＵが、それらの間でデータを渡すために連鎖されている、請求項１０または１１に記載の装置。

【請求項13】

ＴＣＦ対応プロセッサ内で共有データメモリアクセスを処理する方法であって、少なくとも１つの命令を受信することであって、前記少なくとも１つの命令は、少なくとも１つのファイバに関連付けられた、受信することと、
共有データメモリアクセスが、前記少なくとも１つの命令によって要求されるかどうか判定することと、
共有データメモリアクセスが要求される場合、共有データメモリアクセス要求を送信することと、
柔軟なレイテンシ処理ユニット（６０１）を介して、前記共有データメモリアクセス要求への応答が受信されるかどうか、クロックサイクル毎に一度監視することと、
応答が受信されるまで、前記命令の実行の継続を一時停止することと、
前記共有データメモリアクセスに関連付けられたクロックサイクルの遅延が、実際の要求された共有データメモリアクセスレイテンシによって動的に判定され、少なくとも１クロックサイクルに相当するように、前記応答を受信した後で、前記命令の実行を継続することと、
を含む、方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般的なコンピュータ技術に関する。詳細には、本発明は、プロセッサのメモリアクセスに関する。

【背景技術】

【0002】

マルチスレッド計算を伴うソフトウェアに関連して、多数の並列スレッド間の効率的な連携の組織化は、現在のモデルの制限により、基礎的問題であった。並列の厚い制御フロー（ｐａｒａｌｌｅｌｔｈｉｃｋｃｏｎｔｒｏｌｆｌｏｗｓ）（ＴＣＦ）の概念は、２０１１ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｉｑｕｅｓ
ａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（ＰＤＰＴＡ'１１），ＬａｓＶｅｇａｓ，ＵＳＡの会議録５４０～５４６ページ、２０１１で、Ｖ．Ｌｅｐｐａｎｅｎ、Ｍ．Ｆｏｒｓｅｌｌ、およびＪ－Ｍ．Ｍａｋｅｌａによる、「ＴｈｉｃｋＣｏｎｔｒｏｌＦｌｏｗｓ：ＩｎｔｒｏｄｕｃｔｉｏｎａｎｄＰｒｏｓｐｅｃｔｓ」において解決策として紹介された。厚い制御フロー（スレッドに類似の、ファイバの数の点で）が、プログラムの文または式を実行するとき、ファイバのすべては、同じプログラム要素を同期式に並列に実行すると考えられる。厚い制御フローの概念により、プログラマが、膨大な量の並列スレッドではなく、少数の並列の厚い制御フローの連携に集中することができる。

【0003】

ＴＣＦの概念は、有利なことに、プログラマによって利用され得るが、理論的モデルの柔軟性を支持し、ソフトウェアとハードウェア両方の冗長性を排除し、命令メモリシステムを簡素化するので、追加で、少なくともＴＣＦについていくつかの実装の選択を伴い、従来のスレッドの概念に取って代わる概念が、プロセッサコアにとって有用であり得ることを提案する。

【0004】

ＴＣＦモデル用に書かれたプログラムを実行するためのアーキテクチャ、厚い制御フロープロセッサアーキテクチャ（ＴＰＡ）は、２０１６ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅａｎｄＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇＷｏｒｋｓｈｏｐｓ（ＳＢＡＣ－ＰＡＤＷ），ＬｏｓＡｎｇｅｌｅｓ，ＣＡ，２０１６，ｐｐ．１～６の、Ｍ．Ｆｏｒｓｅｌｌ，Ｊ．ＲｏｉｖａｉｎｅｎおよびＶ．Ｌｅｐｐａｎｅｎによる、「Ｏｕｔｌｉｎｅ
ｏｆａＴｈｉｃｋＣｏｎｔｒｏｌＦｌｏｗＡｒｃｈｉｔｅｃｔｕｒｅ」において前に提案されている。

【0005】

一般的に、ほとんどのプロセッサアーキテクチャは、別個の命令フローからのＰの命令が、Ｐの処理要素で実行される、複数命令列（ＭＩＭＤ）モデルを利用している。これは、自己類似性を含むコードのリソースを浪費している恐れがある。この種のコードに対するより最適な解決策は、Ｐのデータ要素に対する同じ命令が、Ｐの処理ユニットで実行される、単一命令多重データ処理（ＳＩＭＤ）を使用することであろう。ＳＩＭＤは、コスト効率がよく、プログラムが容易で、その実装は低消費電力を特徴とするが、制御された並列処理およびスレッド間の異質を伴うコードを効率的に実行しない。別の問題面は、ＭＩＭＤとＳＩＭＤのアーキテクチャの実装において、ソフトウェアスレッドの数が支持された数を超えるときに、ハードウェアスレッドの数が固定され、負荷をもたらすという事実によって生じる。

【0006】

均質、異質、スレッド数に対して異なる特性を有するコード部に対して適合し、それらを効率的に実行できるように、同じ制御経路を経由して進む均質なスレッド（または、規則的な並行プログラミングとはより無関係の「スレッド」と区別するためＴＣＦに関連して呼ばれ得る「ファイバ」）は、ＴＣＦと呼ばれるエンティティに組み込まれ、ＳＩＭＤ型最適化を利用する可能性として導入され、必要な場合、ＭＩＭＤモデルの多重ストリームを有する可能性を保持する。ＴＣＦモデルは、固定された数のスレッドを提供しないが、アプリケーションの必要に応じて変動し得る所定の厚さを有する複数の制御フローを提供する。

【0007】

並列計算に影響を及ぼす別の問題のセットは、総合通信の配置に関係する。共有メモリアーキテクチャ（ＳＭＡ）では、データとプログラムのパーティション分割は、共有メモリへの複数スレッドによる処理を必要とするデータを配置し、プロセッサにより独立してプログラムを分割することによって通常実行されるので、処理が常にローカルで発生し、プログラマが、それに従ってデータを並べ替えることを担当するメッセージパッシング（ＭＰＡ）アーキテクチャに比較してプログラミングをより簡単にする。ほとんどのＳＭＡは、キャッシュ整合性（したがって、レイテンシ耐性）および同期性の維持を非常に高価にする、複数の相互接続したプロセッサキャッシュペアから成る分散型共有メモリアーキテクチャを使用する。これは、通信集中問題でそれらの性能を破壊さえする場合がある。

【0008】

例えば、上記問題に取り組むため、エミュレートされた共有メモリ（ＥＳＭ）、または共有メモリエミュレートアーキテクチャが導入されている。それらは、一様に共通かつ同期的にアクセス可能な共有メモリに高スループット相互通信ネットワークを介して接続される１式のマルチスレッドプロセッサを組み込む。メモリシステムのレイテンシは、進行中のメモリ参照を重ねることにより隠され、特別低コスト同期化メカニズムが、機械の命令レベルで同期性を保証して確立される。ＥＳＭシステムは、実際のハードウェアアーキテクチャは物理的に分散したメモリを備える場合でも、ユーザに理想的な共有メモリの認識を与える。理論的な見地から、これらのアーキテクチャは、その単純さおよび表現度に起因して、一般に計算問題の固有の並列処理ならびに並列アルゴリズムを実行する性能およびコストを記述し分析するモデルとして使用される抽象的な並列ランダムアクセス機械（ＰＲＡＭ）をエミュレートすることを試す。ＰＲＡＭモデルは、一般に、１式のプロセッサに接続される同じクロックかつ均一の単一ステップのアクセス可能な共有メモリの下で動作する１式のプロセッサを指す。

【0009】

したがって、ＥＳＭは、機械命令の実行、効率的レイテンシ隠蔽、および十分な帯域幅における暗黙の同調性を生み、非常にランダムで同時発生するアクセス作業負荷であってもすべてのメモリ参照をルート決めするので、チップマルチプロセッサ（ＣＭＰ）のプログラム性および性能のスケーラビリティの懸念に対処する実用的技術である。同期の実行は、各グローバルメモリアクセスの後、明確に、プログラマが、実行スレッドを同期する必要がないが、ハードウェアに依存して、それを自動的に処理することができるので、より容易にプログラミングを作成するように考慮される一方で、例えば、ＭＰＡプログラマは、通信を明確に規定すること、サブタスクを同期すること、およびＭＰＡをプログラムしにくくしているスレッド間でデータを記載するおよびパーティション分割をプログラムすることを担当する。共有メモリエミュレーションに付与されるレイテンシ隠蔽は、高スループット計算スキームを利用し、他のスレッドは、スレッドがグローバル共有メモリを参照する間に実行される。スループット計算スキームは、利用可能なスレッドレベル並列処理から抽出された並列性緩みを使用するので、スヌーピングまたはディレクトリベースのキャッシュコヒーレンスメカニズムに依存し、したがって、制限された帯域幅またはディレクトリアクセスの遅延および大量のコヒーレンス維持トラフィックに悩む従来の対称マルチプロセッサおよび不均一メモリアクセス（ＮＵＭＡ）と対照的に、強化されたスケーラビリティを提供するように考慮される。

【0010】

ＴＣＦモデルは、ＥＳＭおよび実装プロセッサアーキテクチャ、すなわち、ＴＣＦ対応プロセッサ、例えば、ＴＰＡにリンクされ得る。これに対して必要な解決策は、従来技術では高レベルで概説されるが、実装の低レベルの詳細は説明されてない。

【0011】

共有メモリレイテンシ補正について、従来技術は、メモリ応答待機パイプラインセグメントを特徴とする。この解決策は、すべての種類の作業負荷に対して固定されたセグメント長を有する。セグメントの長さは、最悪の場合の状況の近くに応じて、設計時間で選択される。この種の解決策は、特に、低メモリ活動性、仕切られた、または場所最適化パターンで実行速度を落とす。

【発明の概要】

【0012】

本発明の目的は、既知の従来技術に関する問題の少なくともいくつかを軽くすることである。本発明の目的は、独立請求項の特徴によって達成され得る。本発明の一実施形態は、ＴＣＦ対応プロセッサ（ＴＣＦ－ａｗａｒｅｐｒｏｃｅｓｓｏｒ）のための共有データメモリアクセスを処理する装置を提供する。装置は、ローカルメモリおよび関連する制御ロジックを備える少なくとも柔軟なレイテンシ処理ユニットを備え、該ローカルメモリは、共有データメモリアクセス関連のデータを格納するために提供される。装置は、少なくとも１つの命令を備える少なくとも１つのＴＣＦを受信するように構成され、少なくとも１つの命令は、少なくとも１つのファイバに関連付けられ、柔軟なレイテンシ処理ユニットは、共有データメモリアクセスが、少なくとも１つの命令によって要求されるかどうかを判定するように構成され、共有データメモリアクセスが要求される場合、共有データメモリアクセス要求を柔軟なレイテンシ処理ユニットを介して送信し、本質的に連続して監視し、共有データメモリアクセス要求に対する応答を受信した場合、応答を受信するまで命令の継続した実行を一時停止し、共有データメモリアクセスに関連付けられた遅延が、実際の要求された共有データメモリアクセスレイテンシによって動的に判定されるように応答を受信した後、命令の実行を継続する。

【0013】

方法はまた、独立請求項１４に従って提供される。

【0014】

本発明の様々な実施形態の有用性を考慮すると、ＴＣＦ対応プロセッサの（メモリ読み取り動作などの）共有メモリアクセスに対する装置および方法は、現在の代替品に比較して、より良好な性能、簡単なプログラム可能性、およびより良好なコスト効率を提供し得るＴＣＦ対応プロセッサの有用な部分を提供することができる。

【0015】

柔軟なレイテンシ処理ユニットは、ローカルメモリおよび制御ロジックを備える機能エンティティを検討され得る。ローカルメモリおよび制御ロジックは、別個の場所に常駐し得る別個の物理的エンティティとして実装され得るか、または共通の物理エンティティとして実装され得る。

【0016】

柔軟なレイテンシ処理ユニットのローカルメモリは、柔軟なレイテンシ処理ユニットによって少なくとも論理的に利用され得るデータメモリを備えてもよく、ローカルメモリは、複数の命令に関するデータを格納することができる。ローカルメモリは、専用メモリであってもよく、またはハードウェア、例えば、制御ロジックを実行するために使用できる、チップなどの何か他の要素に組み込まれてもよい。

【0017】

少なくとも１つの命令は、本発明の実施形態による装置によって受信されてもよく、共有データメモリアクセスが、要求されるかどうか判定することが、１つ以上の識別子、オペランド、命令語、および／または演算コードあるいは当業者には熟知であり得る何かの他の適切な方法を介する認識によって実行されてもよい。

【0018】

柔軟なレイテンシ処理ユニットは、本明細書では、柔軟なレイテンシ補正ユニット（ＦＬＣＵ）と呼ばれてもよい。ＴＣＦ対応プロセッサという用語は、ＴＣＦモデルを実装するすべてのプロセッサおよびＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＮｅｔｗｏｒｋｉｎｇａｎｄＣｏｍｐｕｔｉｎｇ３、１（２０１３）、９８～１１５でのＭ．ＦｏｒｓｅｌｌおよびＶ．Ｌｅｐｐａｎｅｎによる「ＡｎＥｘｔｅｎｄｅｄＰＲＡＭ－ＮＵＭＡＭｏｄｅｌｏｆＣｏｍｐｕｔａｔｉｏｎｆｏｒＴＣＦＰｒｏｇｒａｍｍｉｎｇ」の論文に記載されたような（ＥＳＭ、構成可能なＥＳＭ（ＣＥＳＭ）およびベクトル／ＳＩＭＤを含むがそれに限定されない）その特別なケースを指し、それは、同様のレイテンシ補正メカニズムを使用する。したがって、言い換えると、本発明は、ＴＣＦ対応プロセッサという用語によって包含される、例えば、ＥＳＭ、構成可能なＥＳＭ、およびベクトル／ＳＩＭＤプロセッサのためのメモリアクセスも処理する方法を提供することができる。

【0019】

いくつかの実施形態では、ＦＬＣＵは、パイプラインロジックによって制御される先入れ先出し（ＦＩＦＯ）型ローカルメモリを備えるものとして実装されてもよい。ここで、ＦＩＦＯ型バッファリングを利用して、実装することが容易である、および／またはシリコン面領域に関するより小さい要求を持つが、いまだ高性能を達成するなど、（他のバッファリング技術に比べて）ことによると有利さをもたらすことができる。メモリ参照結果が、任意の順で読み取られ得るものなど、他のバッファリング技術を用いると、バッファリングは、より複雑である場合があり、ことによると、例えば、２つの層を有するアドレス表の使用は、正しいバッファデータを見つけることができるように、順番に使用する必要がある。より複雑なロジックはまた、受信されたメモリ参照が、対応するメモリ参照要求とは異なる順序で実行できる、またはできないことによるその時点で、すべてのリスト化されてないルールが送信されていたことを考慮する他のバッファリングタイプで実装されなければならない。別の態様では、ＦＩＦＯバッファリングは、パイプラインの残りの部分の間、ファイバの順序を維持することができるので、自然に好都合であり得る。

【0020】

いくつかの他の実施形態では、ケースシナリオを使用するが、ＦＩＦＯ以外のいくつかの他のバッファリング技術が使用されてもよい。代替の実施形態では、非ＦＩＦＯ型バッファは、例えば、より速い実行を介して、より高度な性能を達成するなど、いくつかの利点を提供することができる。

【0021】

多くの利点は、完了したメモリ参照のレイテンシにしたがって、ＦＬＣＵローカルメモリ（ここでは、ローカルメモリは、バッファと呼ばれもする）から読み出すことによって達成され得る。命令が、共有メモリ読み出しサブ命令を含まない場合、完了した共有メモリ参照を待つ必要はなく、本質的に連続してＦＬＣＵローカルメモリを読み出すことによって、好ましくはクロックサイクル毎に、パイプラインの次の段階まで、実行は継続され得る。結果として、全体的な性能は、改善され得る。

【0022】

本発明の実施形態では、命令がメモリユニット／ＦＬＣＵまで到達すると、可能な参照を共有データメモリシステムに送信できる。この後、可能な完了した共有データメモリ参照などの命令（命令を定義するデータ）および関連するデータは、ＦＬＣＵローカルメモリ（ＦＬＣＵバッファまたはＦＩＦＯ型バッファリングの場合、ＦＬＣＵ、ＦＩＦＯバッファと呼ばれてもよい）に書き込まれてもよい。ＦＬＣＵローカルメモリの他の側では、ＦＬＣＵローカルメモリから利用可能な最上の命令およびデータは、次の２つのケースにおいて読み込まれてもよい。
１．共有データメモリシステムから要求された応答が到着した。
２．共有データメモリシステムから応答が要求されない。

【0023】

既存の固定メモリ応答待機パイプラインセグメントと比較して、本発明は、上述の条件が、定義済み遅延を待つ特定の必要なしに、可能にするとすぐ、実行の継続を可能にし得る。

【0024】

上記に関連して、装置の一実施形態は、共有データメモリアクセス関連のデータを格納するローカルメモリを備える柔軟なレイテンシ処理ユニット（ＦＬＣＵ）を備え得る。追加で、その装置は、ローカルメモリにおいて少なくとも１つの受信した命令に関するデータを格納するように構成されてもよい。少なくとも１つの命令に関する格納されたデータは、命令を定義するデータおよび／または共有データメモリアクセスを介してことによるとフェッチされるべき命令によって参照されるデータを備えてもよい。

【0025】

一実施形態では、装置は、ローカルメモリにファイバを格納するように構成され得る。すでに開示されたように、命令を定義するデータは、共有データメモリシステムに可能な参照を送信した後、ローカルメモリ（「ＦＬＣＵローカルメモリ」に書き込まれる）に格納されてもよく、一方で、それらはまた、メモリ参照に送信されると同時に、またはメモリ参照に送信する前に、格納されてもよい。完了したメモリ参照は、命令を定義するデータが格納されると同時に、またはそれとは異なるときに、ローカルメモリに格納されてもよい。

【0026】

本発明の実施形態を通して、ステップ（命令の実行に関連した、好ましくは複数のファイバに関連する）は、動的に長さを変動して、実行されてもよい。

【0027】

低活動性および場所最適化アクセスパターンに対してレイテンシを低く維持する能力により、本発明は、潜在的に性能を向上し、サブ機械へのプロセッサのパーティション分割を単純化する。

【0028】

パーティション分割が影響を及ぼし得るケースでは、サブ機械は、柔軟性に加えて、より小さくてもよい。

【0029】

既存の固定メモリ応答待機パイプラインセグメントと比較して、本発明は、条件が、定義済み遅延を待つ特定の必要なしに、可能にするとすぐ、実行の継続を可能にする。

【0030】

本発明を通して可能にされるメモリアクセス方法および装置の実施形態を通して、柔軟／変動する待機または遅延を有するメモリユニットが提供されてもよいが、命令の順序は変更されない。

【0031】

本発明の実施形態を通して、ファイバ実行命令は、メモリ参照が受信されるとすぐ、またはメモリ参照が受信された少なくとも次のクロックサイクルで、本質的にパイプラインに進むことができる。到着するメモリ参照を待つことに対するレイテンシまたは遅延はまた、共有メモリを形成する参照を要求されない場合、実質的に存在しなくてもよい。

【0032】

したがって、本発明は、より速い実行およびことによるとエネルギー使用の減少をもたらす可能性がある。

【0033】

一実施形態では、装置は、柔軟なレイテンシ処理ユニットで構成されてもよく、一方、他の実施形態では装置はまた他のエンティティを備えてもよい。例えば、装置は、１つ以上のプロセッサ、プロセッサコア、キャッシュ、スクラッチパッド、パイプライン構築、および／またはＡＬＵ（算術論理ユニット）を含んでもよく、柔軟なレイテンシ処理ユニットの前または後に論理的に配置されてもよい。

【0034】

一実施形態では、その装置は、プロセッサ内に備えられ得る、または別個のユニットとして実装され得る、メモリユニットとして実現されてもよい。例えば、いくつかのケースでは、装置は、プロセッサとして同じ集積チップ上に組織されてもよい。

【0035】

本文献で提示される例示的な実施形態は、添付の特許請求の範囲の適用に対して制限を提示するように解釈されるものではない。「備える（ｔｏｃｏｍｐｒｉｓｅ）」という動詞は、本文献では、列挙されていない特徴の存在を排除しない非限定的として使用される。従属請求項に列挙された特徴は、別段の指示がない限り、相互に自由に組み合わすことができる。

【0036】

本発明の特性として考えられる新規の特徴は、具体的には添付の特許請求の範囲に記載される。しかし、本発明自体は、その構築およびその演算方法に関して、その追加の目的および利点と一緒に、添付の図面とともに読むときに、特定の例示的な実施形態の以下の説明から最もよく理解されるであろう。

【0037】

本装置の様々な実施形態に関する前に提示された考察は、当業者には理解されるように、必要な変更を加えて、および逆も可能である、本方法の実施形態に柔軟に適用され得る。

【0038】

次に、添付の図面に従って、例示的な実施形態を参照して、本発明をより詳細に説明する。

【図面の簡単な説明】

【0039】

【図1】シリコンプラットフォーム上に共有メモリをエミュレートするための実行可能なスケーラブルなアーキテクチャを示す。

【図2】実行可能なＥＳＭアーキテクチャ、本質的にＣＭＰ、ＥＳＭアーキテクチャの別の表現である。

【図3】ＴＣＦを有する機能を実行する一例を示す。

【図4】ＴＰＡの全体的構造を示す。

【図5】メモリからデータを取得する方法を示す。

【図6】本発明の一実施形態によるメモリからデータを取得する好ましい方法を示す。

【図7】本発明の一実施形態によるメモリからデータを取得する方法の１つの他の例示的な図を示す。

【発明を実施するための形態】

【0040】

最初に、ＥＳＭアーキテクチャを概説する。図１では、シリコンプラットフォーム上に共有メモリをエミュレートするためのスケーラブルなアーキテクチャの高レベルの例示が示される。それは、物理的に分散されるが、論理的に共有された（データ）メモリＭ１、Ｍ２、Ｍ３、…、Ｍｐ１１２に物理的にスケーラブルな高帯域幅相互接続ネットワーク１０８に接続された１式のプロセッサ（コア）Ｐ１、Ｐ２、Ｐ３、…、Ｐｐ１０２を備える。データメモリ１１２に接続するアクティブメモリユニット１１０は、メモリ参照を処理するために利用されるメモリ制御ロジックユニットとみなされてもよい。例えば、アクティブメモリユニット１１０は、複数のメモリ参照が、例えば、マルチ（プレフィックス）演算の間、同じメモリ位置に向けられるケースに関連した計算を管理するように配置される。命令メモリモジュールＩ１、Ｉ２、Ｉ３、…、Ｉｐ１０４は、各プロセッサ１０２にプログラムコードを搬送するように構成される。分散されたメモリベースの実装によって効率的に共有メモリをエミュレートするため、プロセッサ１０２は、Ｔｐ段階の周期的な、交互に配置されたスレッド間パイプライン（Ｔｐ≧ネットワークの平均レイテンシ）を利用してマルチスレッド化される。ＰＲＡＭモデルは、パイプライン内の完全周期が通常単一ＰＲＡＭステップに対応するようにアーキテクチャにリンクされる。マルチスレッド実行のステップの間（全体的なパイプライン、すなわち、実際の実行段階を含むすべてのパイプラインの段階、に関連する）、ＣＭＰの各プロセッサの各スレッドは、多くて１つの共有メモリ参照サブ命令を含む１つの命令を実行する。したがって、ステップは、複数回、少なくともＴｐ＋１クロックサイクル続く。

【0041】

図示のアーキテクチャでは、ステップキャッシュは、データがマルチスレッド実行の継続ステップの終わりまでだけ有効である、一般に連想メモリバッファである。ステップキャッシュの同時アクセスへの主な寄与は、それらが段階的に、各参照メモリ一の第１の参照以外のすべてをフィルタを通して取り除くことである。これにより、ＴｐからＰまで下がった位置毎の要求数を低減して、Ｔｐ≧Ｐと仮定する単一ポートのメモリモジュールでそれらを順次処理できるようにする。スクラッチパッドは、メモリアクセスデータを格納して、ステップキャッシュならびにマルチ演算の実際の内部プロセッサおよびプロセッサ間の計算を処理する最小オンコアおよびオフコアＡＬＵ（算術論理ユニット）の助けを借りてマルチ演算の実施に限定されたステップキャッシュの連想性を維持する、アドレス指定可能メモリバッファである。スクラッチパッドは、ステップキャッシュに結合されて、いわゆる、スクラッチパッドステップキャッシュユニットＳ１、Ｓ２、Ｓ３、…、Ｓｐ１０６を確立してもよい。

【0042】

概説した解決策の１つの基礎的な考えは、実際、交互に配置された方法で効率的に実行され、ネットワークのレイテンシを隠蔽している１式のスレッドを備える各プロセッサコア１０２の割り当て内にある。スレッドはメモリ参照を行うとき、実行されたスレッドは交換され、次のスレッドがそのメモリ要求をすることができ、それが続く。メモリ遅延は、スレッドのメモリ参照の応答が、スレッドが実行に戻される前に、プロセッサコアに到着する場合、発生しない。これは、ネットワークの帯域幅が十分高く、ホットスポットがパイプライン化されたメモリアクセストラフィック内で回避され得ることが要求される。例えば、連続命令間の同期性は、ステップ間の弾性同期波を用いて保証することができる。

【0043】

図２は、２００で、例えば、データメモリモジュール１１２に接続する上述のアクティブメモリユニット１１２Ｂ（ＡＬＵおよびフェッチャを備える）およびスクラッチパッド２０６Ｂを組み込んだ、ＥＳＭ、ＣＭＰアーキテクチャの一例を示す。ネットワーク１０８は、スイッチ１０８Ｂを備える高帯域幅パイプライン化メモリシステムとして機能するメッシュ様相互接続ネットワークであってよい。メモリアクセスレイテンシは、一スレッドが均一にアクセス可能な分散型共有メモリをネットワーク１０８を介して参照している間、他のスレッドを実行することによって隠蔽される。通信する参照およびホットスポットの過密は、高帯域幅（二分割ＢＷ≧Ｐ／４）および分散されたメモリモジュールにわたるメモリ位置のランダム化ハッシングを特徴とする効率的なデッドロックフリー相互通信アーキテクチャで回避できる。命令の実行は、単一ＰＲＡＭステップに対応するステップで行われ、その間に各スレッドは単一命令を実行する。

【0044】

次に、ＴＣＦの概念に移動すると、ＴＣＦモデルは、並列実行の自然な同期性を公開するため類似性を含む計算要素を一緒に詰めて、並列で実行される要素の数を動的に調整するための単純で明白なメカニズムを提供することができる。

【0045】

ＴＣＦモデルは、各計算に対する個別な制御を維持するより、単一の制御によって管理されるデータ並列エンティティへの同じ制御フローを有する均質な計算を組み合わせるプログラムモデルである。結果としてのエンティティは、ＴＣＦと呼ばれ、その構成要素は、ファイバと呼ばれる。ＴＣＦ内のファイバの数は、その厚さと呼ばれる。

【0046】

厚い制御フロー（ファイバの数の点で）が、プログラムの文または式を実行するとき、ファイバのすべては、同じプログラム要素を並列に実行すると考えられる。より正確には、プログラム変数のいくつかは、固有のファイバ式の変数の例があることを概念的に意味する、複製されたファイバ式であり得るとみなされる。複製された変数を使用することに基づく表現はまた、概念的に複製される、すなわち、各ファイバを個別に評価する必要があることを意味する。同様に、文もまた複製されてよい。しかし、厚い制御フローによって実行されたすべての式または文は、複製される必要はなく、こうした非複製（通常の）プログラム要素は、ファイバ式ではなく、厚いフローによって一度自然に評価される／実行されることだけが必要である。したがって、厚いフローが、プログラムの断片にわたって進行するとき、式／文のいくつかは、単一の命令に変換されるのに、複製された物は、命令のセットに変換される。

【0047】

方法の呼出しを考えると、厚さｔを有する制御フローが、方法を呼び出すとき、方法は、各ファイバと一緒に別に呼ばれずに、制御フローは、ｔファイバと１度だけ呼び出す。コールスタックは、各ファイバに繰り返されず、並列制御フローそれぞれに繰り返される。したがってここで、スレッドとしてのファイバの概念は、単に暗黙である。厚いファイバ式の変数は、ファイバ式の実際値を有するアレイ様の構成物である。分岐命令を実行することは、厚い制御フローをいくつかの他のフローに一時的に分割することを意味し得る。

【0048】

ＴＣＦの実行は、１つの命令を一度に行う。ＴＣＦのすべてのファイバが、一命令を実行する間の時間は、ステップと呼ばれる。ＴＣＦの実行は、ＳＩＭＤの実行に類似するが、同時に実行される複数のＴＣＦが存在してもよく、その厚さは、任意に変動してもよい。ＴＣＦモデルは、連続命令間の同期性および厳格なメモリの整合性を保証し、その結果、前に複製された命令によって始められたすべての共有メモリの働きは、現在の演算が起きる前に完了することが保証される。同期化は、ハードウェアではなくソフトウェアによって定義されたステップ毎に起きるので、これにより、ＥＳＭに関する同期化のコストは低減され得る。複数のＴＣＦが存在する場合、それらの相互の実行順序は、厳格に定義されないが、プログラマは、明白なＴＣＦ間同期を介してある順序に従うようにそれらに命令することができる。

【0049】

ＴＣＦの厚さは、際限なくプログラマによって定義され得るので、スレッドの無くなることまたは、ソフトウェアの並列処理をループまたは明白なスレッドを有するハードウェアの並列処理と一致させる必要があることを心配することなく広範囲の本来備わっている計算論的問題の固有の並列処理を表すことは容易である。ループの数を低減することを除き、モデルは、プログラミングをスレッドに関連するインデックス計算を排除することによっても簡素化できる。

【0050】

元来、プログラムは、並列の暗黙スレッドの数で概念的に測定された１つの厚さのフローを有するとみなされる。一方法は、呼出しフローの厚さに関連する厚さを有するとみなされてもよい。フローの厚さを動的に変更するため、一ブロックに対する新しい厚さを設定する厚いブロック文、または実行される文に対する厚さを設定する厚さの文がある。厚いブロック文は、ネストが厚く、通常のブロック文が指示される。厚さＴｏｕｔｅｒの厚いブロックＢｏｕｔｅｒは、厚さＴｉｎｎｅｒの内部厚さブロックＢｉｎｎｅｒを含む。入れ子になったブロックは、ファイバ式ではなくフロー式を実行されるので、フローの厚さを考慮すると、フロー実行内部の厚いブロックは、厚さＴｉｎｎｅｒ（Ｔｏｕｔｅｒ×Ｔｉｎｎｅｒではなく）を有する。実行される文の厚さを設定する文のケースでは、各コードのセグメントの厚さは、明白に指定される。

【0051】

制御文（ｉｆ、ｓｗｉｔｃｈ…）は、図３に示すように、厚い制御フローをいくつかの他のフローに分割することを一時的に意味し得る。２つの連続する命令を含む厚さの第１のブロック３０２は、厚さ２３および８の連続する命令の第２のブロック３０４に続いてもよい。次に、第２のブロック３０４は、２つの並列の第３および第４のブロック３０６および３０８に分割されてもよく、３つの命令の後、分岐命令を有する厚さの内部ブロック１５を有する第３のブロック３０６は、その後、２つの他の内部ブロックに分割され、厚さ１２および３を有する並列分岐をもたらす。並列ブロックは、分割後再度結合されてもよい。

【0052】

厚い制御フローの分割に起因する潜在的に不連続のファイバサブグループ（暗黙スレッドの不連続インデックス）は、実装にはかなりコストがかかると考えられ得る。したがって、各並列分岐は、複数の暗黙スレッドが「選択する」分岐によって決定された厚さを有する入れ子になった厚いブロックとみなされてもよい。ブロックを囲む暗黙スレッドは、分岐命令によって毛一定されたブロック内で継続しない。上記が、所与の厚さを有する複数の経路の並列実行に等しいとき、全体のフローは、制御文を介して正確に１つの経路を選択することを要求され得る。プログラマが、複数の経路を並列で実行したい場合、それに従って複数の制御フローを作成する並列文を与え、それらに厚さを設定する必要がある。現在のフローを複数の並列フローに分割するほか、並列文はまた、文の最後に呼出しフローに戻るフローの暗黙結合を実行してもよい。すべての制御フローのファイバは、動的ＳＩＭＤモデルと同様に共通のプログラムコードを介して同期式に進展することを見ることができる。フローが別個のフローに分割されると、分割フローの進行速度には何も仮定されなくてもよい。すなわち、この意味で、並列フローは、互いに対して非同期式である。しかし、プログラム言語デザイナが望む場合、機械命令レベルで実行を同期式にすることができる。

【0053】

ＴＣＦモデルは、基本的に他の並列プログラミングモデル同様にプログラムされ得るが、モデルの性質は、計算の表記、作用、および／または解釈に密接な関係がある新しい慣例に対する可能性を広げる。これらは、同期並列プログラミング、並列文に対するループの低減、実行中の並列処理の容易な制御、および短いプログラムコードを含み得る。

【0054】

従来技術の論文でより広範囲にわたって概説されたＥＳＭ、ＣＥＳＭおよびベクトル／ＳＩＭＤシステムは、ＴＣＦシステムの単純版とみなされてもよい。ＥＳＭおよび構成可能なＥＳＭのケースでは、ＴＣＦの厚さは、１つであり、またスレッドと呼ばれてもよいが、ベクトル／ＳＩＭＤのケースについては、ＴＣＦは、ベクトルおよびベクトルの要素としてのファイバと呼ばれてもよい。

【0055】

ＴＣＦを用いた機能は、ＴＣＦ対応アーキテクチャがＴＣＦの計算の重複を支持すると仮定すると、ＳＩＭＤアーキテクチャにおける同じ機能より真のＴＣＦ対応アーキテクチャにおいてより速く実行できる。

【0056】

図４は、４００で、厚い制御フロープロセッサアーキテクチャ（ＴＰＡ）の全体的な例示的な構造を示し、ＴＰＡは、ＴＣＦプログラミングモデルをネイティブに実装するアーキテクチャである。命令メモリ（ＩＭ）４０２、プロセッサフロントエンド（ＦＥ）４０４、ローカルメモリ（ＬＭ）４０６、ＴＣＦバッファ（ＴＢ）４０８、プロセッサバックエンドユニット（ＢＥ）４１０複製された登録ブロック（ＲＲ）４１２、および共有メモリモジュール（ＳＭ）４１６が図に示される。ＴＰＡチップマルチプロセッサは、命令メモリモジュール４０２に取り付けられたＦ（超）スカラプロセッサフロントエンド４０４、マルチコアプロセッサ用の従来型メモリシステムとして組織されたローカルメモリ４０６およびＴＣＦバッファ４０８、ならびに通信ネットワーク４１８経由の複製された登録ブロック４１２に取り付けられたＢ並列プロセッサバックエンド４１０および共有メモリモジュール４１６を含み得る。

【0057】

プロセッサフロントエンド４０４は、複数のＴＣＦ間の高速スイッチング、その管理、制御の実行およびその他のコードの共通部品を支持し得る。構造的に、それらは、マルチスレッドスーパースカラプロセッサに似ていてもよいが、スレッドの代わりに、それ自体の登録セットを備えるＴＣＦは、ＴＣＦバッファに保持される。マルチスレッドプロセッサと一緒に使用される用語を模倣して、これは、マルチＴＣＦｉｎｇと呼ばれてもよい。フロントエンド４０４のメモリシステムは、任意のキャッシュコヒーレンス維持を伴う対称マルチプロセッサ（ＳＭＰ）または不均一メモリアクセス（ＮＵＭＡ）規定を利用してネットワークを介して任意に相互接続された、命令メモリ４０２およびローカルデータメモリ４０６を含み得る。これは、現在のマルチコアプロセッサが、比較的小さい修正でフロントエンド４０４として使用できることを示唆する。

【0058】

プロセッサバックエンド４１０は、ファイバ式のデータを備える能率化された共有メモリシステムを支持し、コードの均質並列部分を実行することができる。その構造は、動的ファイバ実行の機能を有するエミュレートされた共有メモリ（ＥＳＭ）パイプラインの構造に類似してもよい。ＥＳＭプロセッサと同様に、それらは、マルチバッファリングを介したスケーラブルなレイテンシ隠蔽、波同期化を介した基礎的同期化コスト削減、および基本単位（ＦＵ）の連鎖を介した改善された低レベル並列処理、例えば、算術理論ユニット（ＡＬＵ）などを使用して、並列実行において高性能化を提供できる。

【0059】

フロントエンド４０４からバックエンド４１０まで情報を送信することおよびその逆も作業展開ネットワークおよびリターンチャネル４２０で処理され得る。作業展開ネットワーク４２０は、ＴＣＦ対応プロセッサのフロントエンド４０４をバックエンド４１０に取り付けることができる。その主目的は、選択されたデータ／オペランドと一緒にバックエンドの機能ユニットに対する演算コードを渡すことである。リターンチャネル４２０は、バックエンドユニット４１０を制御している選択されたバックエンドのデータをフロントエンド４０４に送信する処理を行うことができる。通常、単一フロントエンド４０６によって制御された複数のバックエンドユニット４１０が存在するので、リターンチャネル４２０は、複数のデータ値を渡すことができるか、または代替で、低減して、単一値を取得する。

【0060】

マルチファイバリングにおける考え方は、ファイバの参照がメモリシステムで進行する間に、他のファイバを実行することである。ファイバの数が十分高く、総合通信ネットワークが密でない場合、応答は、ファイバが必要とする前に到着することができる。第１の同期化方法は、ファイバが、実行のステップ内で独立しているという事実を利用し、ステップ毎に一度だけ同期化動作を実行することができる。第２の同期化方法は、メモリ参照を伴う同期化を重複することができてもよい。これらは一緒に、同期化により生じた償却された経費が１／厚さに下落する低コスト同期化波メカニズムを定義する。低レベル並列処理の利用の考え方は、独立した演算を必要として装置を並列に接続するよりオペランドとして装置がその前の結果を使用することができるように連鎖としてＦＵを接続することである。これにより、パイプラインが従属のサブ命令を実行できるようにすることによってＦＵの利用を増加させることができる。

【0061】

フロントエンド４０４とバックエンド４１０との間の相互作用は、ＴＣＦを単一のフロントエンド４０４および重複した方法で複数のフロントエンド４０４に割り当てることによって発生し得る。この種の単一モード二重目的の演算は、二重モードの演算を回避し、ＥＳＭアーキテクチャに存在するそれらの間のオーバヘッドを切り替えることができる。際限のない厚さに対する支持は、パイプライン上に動的にファイバを生成し（または命令を複製する）、ファイバ式のデータを必要に応じて中身を外部のメモリシステムにあふれさせる特別複製登録ブロックに保存することによって実施されてもよい。

【0062】

ＴＰＡアーキテクチャにおける命令の実行は、ＮＵＭＡまたはＥＳＭアーキテクチャのそれとはいくらか異なる。Ｆｎ－ＦＵＮＵＭＡコアは、多くてＦｎ独立（サブ）命令を並列で実行し、Ｆｅ－ＦＵＥＳＭは、交互に配置された方法で、ステップ毎に固定されたスレッドの数に対するＦｅサブ命令まで命令を実行し、ＴＰＡは、交互に配置された方法で、非一定の厚さを備えるＴＣＦの可変数に対してフロントエンドの命令および並列のバックエンドの命令の連続を実行できる。より具体的には、フロントエンドに割り当てられた単一ＴＣＦおよびＴＰＡ内の複数のバックエンドユニットの実行は、以下のように実行され得る。
－ＴＣＦを管理することを担当するフロントエンド４０４は、次のＴＣＦをそのＴＣＦバッファから切り替えて、前の命令で要求された場合、現在のものにすることができる。そうでなければ、現在のＴＣＦが引き続き使用される。その後、フロントエンド４０４は、プログラムカウンタおよび命令メモリによって定義された一連のスカラ命令を実行できる。バックエンド演算を含む命令を満たすとき、それは、そのオペランドと一緒に演算を作業展開ネットワーク４２０を介して関連するバックエンドユニット４１０に送信しようとしてもよい。ネットワークがビジーな場合、フロントエンド４０４は、ＴＣＦに空きがあるまで待機し、その後、明白なＴＣＦ切り替え要求があるまで継続してもよい。
－各関連するバックエンドユニット４１０での実行は、ユニットが空いているかどうかをチェックすることによって開始してもよい。肯定のケースでは、並列演算、オペランド、および作業展開ネットワーク４２０のヘッド要素上の必要なＴＣＦ情報が、すべての関連するバックエンドユニット４１０への実行にフェッチされてもよい。否定のケースでは、作業展開ネットワーク４２０の命令は、並列ユニットが空くのを待つ。
－次に、ＴＣＦは、関連するバックエンドユニット４１０間でできるだけ平等に分割されてよく、バックエンドは、それらが無くなるまで並列にファイバを生成し、処理し始める。
－ファイバの生成の間、各ファイバは、オペランド、ファイバ識別子およびＦＵに対する命令をフロントエンドによって送信されたデータから取得することができるが、ファイバ式中間結果は、複製された登録ブロック４１２からフェッチされる。
－その後、ファイバは、パイプラインを通って伝播されてもよく、バックエンド機能ユニットでサブ命令を実行してもよい。

【0063】

より具体的には、ＴＰＡ命令は、３つのフロントエンドフェーズおよび３つのバックエンドフェーズで実行され得ることが指定されてもよい。
各アクティブフロントエンド４０４について、フェーズは、
Ｆ１．前の命令によって要求された場合、次のＴＣＦをＴＣＦバッファ４０８から選択することと、
Ｆ２．ＮＵＭＡメモリシステムの現在のＴＣＦのＰＣによって指示された（サブ）命令（複数可）をフェッチすることと、
Ｆ３．（サブ）命令（複数可）によって指定された機能ユニットのサブ命令を実行することと、を含んでもよい。メモリサブ命令は、通常ＳＭＰ／ＮＵＭＡメモリシステムに向けられる。命令が、バックエンド部分を含む場合、オペランドを選択し、それらを作業展開ネットワーク４２０を介してフロントエンド４０４に割り当てられたバックエンド４１０に対する部分と共に送信する。対応するサブ命令によって要求された場合、現在のＴＣＦのデータをＴＣＦバッファ４０８に格納し、次のＴＣＦに切り替える。

【0064】

各バックエンド４１０について、フェーズは、
Ｂ１．バックエンド４１０が、前の命令をもはや実行していない場合、次の命令を作業展開ネットワーク４２０からフェッチして、バックエンドで実行されるファイバを決定する。そうでなければ、前の命令を継続して実行する。
Ｂ２．Ｂ１で決定された割り当てに従って、パイプラインされるＴＣＦのファイバを生成する。
Ｂ３．各ファイバについて、以下のことが、行われてもよい。
Ｂ３．１受信されたフロントエンドのデータおよび複製された登録ブロック４１２からオペランドを選択する。
Ｂ３．２バックエンドのサブ命令を実行する。メモリサブ命令は、共有メモリシステムに向けられる。
Ｂ３．３複製された登録ブロックにライトバックし、任意の応答データを作業展開ネットワーク４２０に組み込まれたリターンチャネルを経由してフロントエンド４０４に返信する。

【0065】

フロントエンド４０４のすべてのアクティブなＴＣＦが単一の命令に対して実行された後、ＴＰＡは、共有メモリシステムとの間で同期化を送受信するバックエンド毎に１つの厚さの特別な同期ＴＣＦを発行してもよい。

【0066】

図５は、ＴＣＦアーキテクチャ内のバックエンドユニットで実装され得る共有メモリからデータを取得するための方法を示し、本方法は、本質的に従来技術の解決策ですでに実装されたものに対応する。例えば、ＥＳＭメモリユニットは、前に提示されていて、応答待機キューが使用される。縦線は、プロセッサパイプラインで実行され得る別個のファイバを示してもよく、パイプラインセグメント１は、メモリアクセス処理前のパイプラインの部分を表し、パイプラインセグメント２は、メモリアクセス処理後の少なくとも論理的に位置するパイプラインの部分を表し、メモリアクセス処理は、共有メモリユニットがアクセスされるメモリアクセス段階を指す。送信ロジック５０２は、共有メモリユニットから応答が要求される場合、共有メモリユニットに要求を送信する。メモリアクセス動作は、その動作では、既知のＥＳＭシステムの応答待機キューに本質的に対応する、Ｌ待機段階ＬＣＲ１…ＬＣＲＬを有する、レイテンシ補正登録転送ライン（ＬＣＲＴＬ）を入力することができる。

【0067】

ＬＣＲＴＬは、Ｌが固定されたセグメント長さであってよいように、Ｌ段階レイテンシ補正を有する。例えば、ＥＳＭメモリユニットの応答待機キューに対応して、すべての種類の作業負荷に対するセグメント長さＬは、固定される。セグメントの長さは、ＭＵの設計時間の間、最悪のケースに近いシナリオに従って、選択されてもよい。例えば、応答を受信するには、多くて、ある特定の数のクロックサイクルがかかる可能性があると結論付けられる場合、固定された応答待機時間／セグメント長さとしてこれよりわずかに小さい数のクロックサイクルが選択されてもよい。したがって、いくつかのメモリ参照は、この時間の前に完了するので、おそらく不必要に、すべての種類のメモリ参照は、同じ所定の時間を待つ。共有メモリがビジーな場合、メモリアクセスコマンドパイプラインが、再起動され得るまで、バックエンドパイプライン全体がフリーズする。メモリ参照は、パイプラインナインを進行し、最小Ｌ段階は、すべての作業負荷に対して要求される遅延である。可能な応答がＬＣＲＬによって受信されるかどうか受信ロジック５０４は監視し、そうでない場合、パイプラインを凍結する。

【0068】

図６は、柔軟なレイテンシ補正ユニット（ＦＬＣＵ）６０１本発明の一実施形態によるＴＣＦアーキテクチャに実装され得る共有メモリからデータを取得する好ましい方法を与える。ＦＬＣＵ６０１は、ローカルメモリ６０２を備えてもよく、ここでは、Ｌ要素ＦＬＣＵバッファ６０２および制御ロジックと呼ばれる。ここでＬは、ローカルメモリバッファ６０２の深さ、すなわち、いくつのメモリ参照要求を保持できるか、を指す。Ｌは、任意に選択されてもよいが、実際には、メモリ読み出し要求に対して、好ましくは、通信に対するトラフィックが存在しない状況に対する最大レイテンシより大きいようにＬを決定するのが有利であり得る。

【0069】

制御ロジックは、機能的にローカルメモリ６０２の前に位置する送信ロジック６０４および機能的にローカルメモリ６０２より後に位置する受信ロジック６０６を備えてもよい。

【0070】

少なくとも１つのファイバが実行される場合（ＴＣＦの厚さ≧１）、ＴＣＦモデルは、有利なことに、前のステップで生成された共有メモリ参照現在のステップが始まる前に完了されるように、ステップの同期演算を可能にする。一実施形態では、ＦＬＣＵ６０１は、共有メモリ参照の結果が、現在のステップ中に、ＴＣＦのすべてのファイバに対して利用できるようにできてもよい。

【0071】

命令のステップおよび／または実行の長さは、実際の要求された共有メモリ参照のレイテンシに従って、動的に変動されてもよい。

【0072】

少なくともファイバに関して、共有メモリアクセスは、一実施形態では先入れ先出しの原則を用いて実装されてもよい。すなわち、完了した共有メモリ参照は、ファイバの一連の命令によって呼び出される順序で利用されてもよい。

【0073】

共有メモリがビジーかどうかを送信ロジック６０４は監視してもよく、ビジーな場合、パイプラインを送信ロジック６０４まで凍結する。ＦＣＬＵバッファ６０２が、いっぱいである（すでにＬ要求を保持している）間に読み出される場合、同じクロックサイクルで、新しいデータが、読み出し動作を介して自由な空間に書き込まれてもよい。パイプラインはまた、送信ロジックが、ＦＣＬＵバッファ６０２がいっぱいであることを監視する場合、およびＦＬＣＵ読み出しユニットが凍結されていない場合、送信ロジックまで、凍結されてもよい。単一クロックサイクルの間データの書き込みおよび読み出しができない場合、バッファは、バッファのうちの１つが書き込まれ、別が読み出されるマルチバッファ集団として使用されてもよいことに留意すべきである。

【0074】

特に、ＦＩＦＯ型バッファリングが使用されるとき、メモリ参照は、ＦＬＣＵメモリユニット６０２でアクセスされてもよく、受信ロジック６０６は、メモリ参照が完了したかどうかを、有利なことに毎クロックサイクルで監視してもよい。可能な応答が受信されない場合、ＦＬＣＵバッファ読み出しは、応答が受信されるまで、凍結／停止されてもよい。この停止時間はまた、レイテンシまたは遅延と呼ばれてもよく、したがって、柔軟であってよく、すなわち、要求されたメモリ参照を受信するのにどれだけかかるかに応じて変動する。レイテンシはまた、メモリ参照が要求されない場合、本質的に０であってよい。

【0075】

本発明の実施形態を通して、共有データメモリアクセスに関連付けられた遅延は、例えば、図５のＬＣＲＴＬなどの、例えば、メモリ応答待機パイプラインセグメントまたは予め決定されたレイテンシ登録転送ラインにわたって有利であり得る、実際の要求される共有データメモリアクセスレイテンシによって動的に判定されてもよい。

【0076】

図７は、ＦＩＦＯ型バッファリング（およびしたがって、ここでＦＬＣＵＦＩＦＯバッファ６０２と呼ばれるローカルメモリを含むＦＬＣＵ６０１）およびパイプラインセグメントの例示的な構成要素を備える、本発明によるメモリからデータを取得する方法の１つの他の例示的な図を示す。ＴＣＦが実行されるとき、オペランド選択ロジック７０２は、複製された登録ブロック４１２から各ファイバに関連する要求されたオペランドを取得してもよい。１つ以上のプリメモリＡＬＵ７０４は、メモリアクセス段階の前に論理的に位置付けられてもよいが、メモリアクセス後に配置されるＡＬＵ７０６はまた、追加で付与されてもよい。ライトバックロジック７０８は、複製された登録ブロック４１２に書き込んでもよい。

【0077】

図７の実施形態では、送信ロジック６０４は、共有メモリがビジーか、またはＦＬＣＵ
ＦＩＦＯバッファ６０２が、いっぱいかどうか監視してもよく、いずれのケースも送信ロジック６０４までパイプラインを凍結する。

【0078】

メモリ参照は、ＦＬＣＵＦＩＦＯバッファ６０２でアクセスされてもよく、受信ロジック６０６は、メモリ参照が完了したかどうかを、有利なことに毎クロックサイクルで監視してもよい。可能な応答が受信されない場合、ＦＬＣＵＦＩＦＯバッファ読み出しは、応答が受信されるまで、凍結／停止されてもよい。

【0079】

本発明の実施形態では、ＴＣＦは、例えば、ＥＳＭ、ＣＥＳＭまたはベクトル／ＳＩＭＤに接続するより単純な実装においてさえ、柔軟な、すなわち、メモリの受信ユニットが少なくともいくつかの機能を独立して、例えば、固定された予め決定されたレイテンシ登録転送ライン／メモリ応答待機パイプラインセグメントに依存せずに処理する少なくともケースで、動的な遅延を有するメモリユニットを提供することができる。

【0080】

いくつかの実施形態では、本発明は、メモリ参照が待機される場合、非ＴＣＦプロセッサで利用されてもよく、本発明以外の場合、固定された遅延を有する登録転送ラインが利用される。

【0081】

本発明は、上述の実施形態を参照して上で説明され、本発明のいくつかの利点が論証された。本発明は、これらの実施形態にのみ制限されるものではなく、以下の特許請求の範囲を通して、本発明の精神および範囲内のすべての可能な実施形態を含むことは明らかである。

【0082】

従属請求項に列挙された特徴は、別段の指示がない限り、相互に自由に組み合わすことができる。

【図1】