特表2024-538279 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧 ▶ エーティーアイ・テクノロジーズ・ユーエルシーの特許一覧

特表2024-538279ダイレクトメモリアクセスコマンドのハードウェア管理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-18

(54)【発明の名称】ダイレクトメモリアクセスコマンドのハードウェア管理

(51)【国際特許分類】

G06F 13/28 20060101AFI20241010BHJP

G06F 12/0831 20160101ALI20241010BHJP

【ＦＩ】

G06F13/28 310C

G06F12/0831

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024525409

(86)(22)【出願日】2022-10-28

(85)【翻訳文提出日】2024-06-11

(86)【国際出願番号】 US2022048214

(87)【国際公開番号】W WO2023076591

(87)【国際公開日】2023-05-04

(31)【優先権主張番号】17/515,976

(32)【優先日】2021-11-01

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(71)【出願人】

【識別番号】508301087

【氏名又は名称】エーティーアイ・テクノロジーズ・ユーエルシー

【氏名又は名称原語表記】ＡＴＩＴＥＣＨＮＯＬＯＧＩＥＳＵＬＣ

【住所又は居所原語表記】ＯｎｅＣｏｍｍｅｒｃｅＶａｌｌｅｙＤｒｉｖｅＥａｓｔ，Ｍａｒｋｈａｍ，Ｏｎｔａｒｉｏ，Ｌ３Ｔ７Ｘ６Ｃａｎａｄａ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ジョセフグレイトハウス

(72)【発明者】

【氏名】ショーンケリー

(72)【発明者】

【氏名】アランスミス

(72)【発明者】

【氏名】アンソニーアサロ

(72)【発明者】

【氏名】リンーリンワン

(72)【発明者】

【氏名】ミリンドネムレカール

(72)【発明者】

【氏名】ハリテンジララ

(72)【発明者】

【氏名】フェリックスクーリング

【テーマコード（参考）】

5B205

【Ｆターム（参考）】

5B205KK14

5B205KK16

5B205MM03

(57)【要約】

ＤＭＡ転送コマンドのハードウェア管理のための方法は、第１のＤＭＡエンジン［３１４］によって、ＤＭＡ転送コマンドにアクセスすることと、ＤＭＡ転送コマンドによって要求されたデータ転送の第１の部分を判定することと、を含む。第１のＤＭＡエンジンによるデータ転送の第１の部分の転送は、ＤＭＡ転送コマンドに少なくとも部分的に基づいて開始される。同様に、第２のＤＭＡエンジンによるデータ転送の第２の部分は、ＤＭＡ転送コマンドに少なくとも部分的に基づいて開始される。データ転送の第１の部分及び第２の部分を転送した後、ＤＭＡ転送コマンドによって要求されたデータ転送の完了を知らせる指標が生成される。
【選択図】図３

【特許請求の範囲】

【請求項1】

方法であって、
ＤＭＡ転送コマンドに少なくとも部分的に基づいて、第１のＤＭＡエンジンによるデータ転送の第１の部分の転送を開始することと
前記ＤＭＡ転送コマンドに少なくとも部分的に基づいて、第２のＤＭＡエンジンによる前記データ転送の第２の部分の転送を開始することと、を含む、
方法。

【請求項2】

前記第１のＤＭＡエンジンが、前記ＤＭＡ転送コマンドがシステムメモリ内のＤＭＡバッファに記憶されていることを示すＤＭＡ通知を受信することと、
前記第１のＤＭＡエンジンが、前記ＤＭＡバッファから前記ＤＭＡ転送コマンドをフェッチすることと、を含む、
請求項１の方法。

【請求項3】

前記第１のＤＭＡエンジンによる前記データ転送の前記第１の部分の転送を開始することは、
前記第１のＤＭＡエンジンが、キャッシュプローブ要求をキャッシュメモリに送信することと、
前記キャッシュメモリにおけるキャッシュヒットを示すリターンレスポンスを受信することに基づいて、前記データ転送の前記第１の部分を転送することと、を含む、
請求項２の方法。

【請求項4】

前記第２のＤＭＡエンジンによる前記データ転送の前記第２の部分の転送を開始することは、
前記第２のＤＭＡエンジンが、キャッシュプローブ要求をキャッシュメモリに送信することと、
前記キャッシュメモリにおけるキャッシュミスを示すリターンレスポンスを受信したことに基づいて、オーナーメインメモリから前記データ転送の前記第２の部分を転送することと、を含む、
請求項２又は３の方法。

【請求項5】

前記データ転送の前記第１の部分を判定することは、前記第１のＤＭＡエンジンと前記第２のＤＭＡエンジンとの間で総ＤＭＡ転送サイズをインターリーブすることを含む、
請求項１の方法。

【請求項6】

一次ＤＭＡエンジンにおいて、前記ＤＭＡ転送コマンドを受信し、前記ＤＭＡ転送コマンドを複数のより小さいワークロードに分割することを含む、
請求項１の方法。

【請求項7】

前記一次ＤＭＡエンジンから前記複数のより小さいワークロードのうち何れかを受信することを含む、
請求項６の方法。

【請求項8】

プロセッサデバイスであって、
ベース集積回路（ＩＣ）ダイであって、前記ベースＩＣダイの上に３Ｄ積層された複数の処理積層型ダイチップレットを含み、前記複数の処理積層型ダイチップレットを互いに通信可能に結合するチップ間データファブリックを含む、ベースＩＣダイと、
前記ベースＩＣダイの上に３Ｄ積層された複数のＤＭＡエンジンであって、ＤＭＡ転送コマンドによって要求されたデータ転送の一部を実行するようにそれぞれ構成された複数のＤＭＡエンジンと、を備える、
プロセッサデバイス。

【請求項9】

前記複数のＤＭＡエンジンの各々は、複数の転送エンジンを駆動する単一のコマンドエンジンを含む、
請求項８のプロセッサデバイス。

【請求項10】

前記複数のＤＭＡエンジンの各々は、前記ＤＭＡ転送コマンドがシステムメモリ内のＤＭＡバッファに記憶されていることを示すＤＭＡ通知を受信するように構成されている、
請求項８又は９のプロセッサデバイス。

【請求項11】

前記複数のＤＭＡエンジンのうち第１のＤＭＡエンジンは、第１の処理積層型ダイチップレットに通信可能に結合されたキャッシュメモリにキャッシュプローブ要求を送信し、前記キャッシュメモリにおけるキャッシュヒットを示すリターンレスポンスを受信することに基づいて、前記データ転送の第１の部分を転送するように構成されている、
請求項８のプロセッサデバイス。

【請求項12】

前記複数のＤＭＡエンジンのうち第２のＤＭＡエンジンは、第２の処理積層型ダイチップレットに通信可能に結合されたキャッシュメモリに前記キャッシュプローブ要求を送信し、前記キャッシュメモリにおけるキャッシュミスを示すリターンレスポンスを受信することに基づいて、オーナーメインメモリから前記データ転送の第２の部分を転送するように構成されている、
請求項１１のプロセッサデバイス。

【請求項13】

前記複数のＤＭＡエンジンの各々は、前記複数のＤＭＡエンジン間で総ＤＭＡ転送サイズをインターリーブすることによって、前記データ転送の部分を独立して判定するように構成されている、
請求項８のプロセッサデバイス。

【請求項14】

前記ＤＭＡ転送コマンドを受信し、前記ＤＭＡ転送コマンドを複数のより小さいワークロードに分割するように構成された一次ＤＭＡエンジンを備える、
請求項８のプロセッサデバイス。

【請求項15】

前記一次ＤＭＡエンジンは、前記複数のより小さいワークロードのうち異なるワークロードを前記複数のＤＭＡエンジンの各々に送信するように構成されている、
請求項１４のプロセッサデバイス。

【請求項16】

システムであって、
並列プロセッサマルチチップモジュールに通信可能に結合されたホストプロセッサを備え、
前記並列プロセッサマルチチップモジュールは、
ベース集積回路（ＩＣ）ダイであって、前記ベースＩＣダイの上に３Ｄ積層された複数の処理積層型ダイチップレットを含み、前記複数の処理積層型ダイチップレットを互いに通信可能に結合するチップ間データファブリックを含む、ベースＩＣダイと、
前記ベースＩＣダイの上に３Ｄ積層された複数のＤＭＡエンジンであって、ＤＭＡ転送コマンドによって要求されたデータ転送の一部を実行するようにそれぞれ構成された複数のＤＭＡエンジンと、を備える、
システム。

【請求項17】

前記ＤＭＡ転送コマンドを受信し、前記ＤＭＡ転送コマンドを複数のより小さいワークロードに分割するように構成された一次ＤＭＡエンジンであって、前記複数のより小さいワークロードのうち異なるワークロードを前記複数のＤＭＡエンジンの各々に送信するように構成された一次ＤＭＡエンジンを備える、
請求項１６のシステム。

【請求項18】

前記複数のＤＭＡエンジンの各々は、前記複数のＤＭＡエンジン間で総ＤＭＡ転送サイズをインターリーブすることによって、前記データ転送の部分を独立して判定するように構成されている、
請求項１６又は１７のシステム。

【請求項19】

【請求項20】

【発明の詳細な説明】

【背景技術】

【0001】

システムダイレクトメモリアクセス（ＤＭＡ）エンジンは、コンピュータシステム内のデバイス（例えば、入出力インターフェース及びディスプレイコントローラ）とメモリとの間、又は、メモリ内の異なる位置の間のデータのダイレクトメモリアクセス転送を調整するモジュールである。ＤＭＡエンジンは、多くの場合、中央処理装置（ＣＰＵ）又はグラフィックスプロセッサ（ＧＰＵ）等のプロセッサ上に配置され、プロセッサ上で動作するアプリケーションからコマンドを受信する。コマンドに基づいて、ＤＭＡエンジンは、ＤＭＡソース（例えば、メモリ内に定義された第１のメモリバッファ）からデータを読み出し、ＤＭＡ宛先（例えば、メモリ内に定義された第２のバッファ）にデータを書き込む。

【0002】

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

【図面の簡単な説明】

【0003】

【図1】いくつかの実施形態による、マルチダイプロセッサを実装するコンピューティングシステムのブロック図である。

【図2】いくつかの実施形態による、ＤＭＡコマンドのハードウェア管理を実施するための例示的なコンピューティングシステムの一部のブロック図である。

【図3】いくつかの実施形態による、ＤＭＡコマンドのハードウェア管理を実施するための例示的なマルチプロセッサコンピューティングシステムの一部を示すブロック図である。

【図4】いくつかの実施形態による、キャッシュステータスに基づく転送コマンドのハードウェア管理分割を実施するシステムの一例を示すブロック図である。

【図5】いくつかの実施形態による、転送コマンドのハードウェア管理分割を実施するシステムの別の例を示すブロック図である。

【図6】いくつかの実施形態による、ＤＭＡ転送コマンドのハードウェア管理分割を実行する方法を示すフロー図である。

【発明を実施するための形態】

【0004】

従来のプロセッサは、システムメモリに記憶されたデータのブロックを読み書きするための１つ以上のダイレクトメモリアクセスエンジンを含む。ダイレクトメモリアクセスエンジンは、転送を管理する負担からプロセッサコアを解放する。プロセッサコアからのデータ転送要求に応じて、ダイレクトメモリアクセスエンジンは、計算コードを遅延させることなくデータ転送動作を実行できるように、必要な制御情報を対応するソース及び宛先に提供し、したがって、通信と計算とが時間的に重複することを可能にする。ダイレクトメモリアクセスエンジンが制御情報の形成及び通信を非同期的に処理することにより、プロセッサコアは、データ転送要求の満足（satisfaction）を待っている間に他のタスクを実行するために解放される。

【0005】

分散アーキテクチャは、物理的又は論理的に分離された処理ユニットが高性能相互接続を介して協調的に動作するモノリシック処理アーキテクチャの代替としてますます一般的になってきている。分散アーキテクチャの一例はチップレットアーキテクチャであり、これは、処理ユニットのいくつかの部分をより小さいノードで製造する利点を獲得する一方で、他の部分がより小さいノードの縮小されたスケールから恩恵を受けない場合に、他の部分がより大きい寸法を有するノードで製造されることを可能にする。ダイレクトメモリアクセスエンジンの数は、チップレットベースのシステムで増加する可能性が高い（例えば、同等のモノリシックな非チップレットベースの設計と比較して）。

【0006】

ダイレクトメモリアクセスエンジンの利用を改善することによってシステム性能を向上させるために、図１～図６は、ダイレクトメモリ転送コマンドの処理のためにハードウェア管理による調整を利用するシステム及び方法を示す。様々な実施形態において、ＤＭＡ転送コマンドのハードウェア管理のための方法は、第１のＤＭＡエンジンによって、ＤＭＡ転送コマンドにアクセスすること、及び、ＤＭＡ転送コマンドによって要求されたデータ転送の第１の部分を判定することを含む。第１のＤＭＡエンジンによるデータ転送の第１の部分の転送は、ＤＭＡ転送コマンドに少なくとも部分的に基づいて開始される。同様に、第２のＤＭＡエンジン（すなわち、第１のＤＭＡエンジンとは異なるＤＭＡエンジン）によるデータ転送の第２の部分が、ＤＭＡ転送コマンドに少なくとも部分的に基づいて開始される。データ転送の第１の部分及び第２の部分を転送した後、ＤＭＡ転送コマンドによって要求されたデータ転送の完了を知らせる指標が生成される。このようにして、転送コマンドによって指定された作業がＤＭＡエンジン間で分割されるため、個々のＤＭＡエンジンを大きくしたり、全体的なＤＭＡスループットやデータファブリックの帯域幅使用量を増加させるための機能を追加したりする必要がなく、合計帯域幅使用量が増加する。

【0007】

図１は、いくつかの実施形態による、マルチダイプロセッサを実装するコンピューティングシステム１００の一実施形態のブロック図を示す。様々な実施形態では、コンピューティングシステム１００は、少なくとも１つ以上のプロセッサ１０２Ａ～１０２Ｎと、ファブリック１０４と、入力／出力（input/output、Ｉ／Ｏ）インターフェース１０６と、メモリコントローラ１０８と、ディスプレイコントローラ１１０と、他のデバイス１１２と、を含む。様々な実施形態では、グラフィックス及び他のタイプのワークロードのための命令の実行をサポートするために、コンピューティングシステム１００は、中央処理ユニット（central processing unit、ＣＰＵ）等のホストプロセッサ１１４を含む。様々な実施形態では、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、サーバ、又は、様々な他のタイプのコンピューティングシステム若しくはデバイスのうち何れかを含む。コンピューティングシステム１００の構成要素の数は、いくつかの実施形態において変化することに留意されたい。また、いくつかの実施形態では、コンピューティングシステム１００は、図１に示されていない他の構成要素を含むことにも留意されたい。加えて、他の実施形態では、コンピューティングシステム１００は、図１に示される以外の他の方式で構築される。

【0008】

ファブリック１０４は、コンピューティングシステム１００の構成要素の間で通信するために利用される様々なタイプのプロトコルの何れかに準拠する任意の通信相互接続を表す。ファブリック１０４は、処理ユニット１０２、Ｉ／Ｏインターフェース１０６、メモリコントローラ１０８、ディスプレイコントローラ１１０及び他のデバイス１１２を互いに接続するデータパス、スイッチ、ルータ及び他のロジックを提供する。ファブリック１０４は、コヒーレンシを容易にするために、要求、応答及びデータトラフィック、並びに、プローブトラフィックを処理する。また、ファブリック１０４は、コンピューティングシステム１００の様々な構成要素への割り込み要求ルーティング及び構成アクセスパスを処理する。加えて、ファブリック１０４は、構成要求、応答及び構成データトラフィックを処理する。いくつかの実施形態では、ファブリック１０４は、共有バス構成、クロスバー構成及びブリッジを有する階層バスを含むバスベースである。他の実施形態では、ファブリック１０４は、パケットベースであり、ブリッジ、クロスバー、ポイントツーポイント又は他の相互接続を有する階層である。ファブリック１０４の観点から、コンピューティングシステム１００の他の構成要素は、「クライアント」と呼ばれる。ファブリック１０４は、様々なクライアントによって生成された要求を処理し、その要求を他のクライアントに渡すように構成される。

【0009】

メモリコントローラ１０８は、任意の数及びタイプのメモリデバイスに結合された任意の数及びタイプのメモリコントローラを表す。例えば、メモリコントローラ１０８に結合されたメモリデバイスのタイプは、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体メモリ（Ferroelectric Random Access Memory、ＦｅＲＡＭ）等を含む。メモリコントローラ１０８は、プロセッサ１０２、Ｉ／Ｏインターフェース１０６、ディスプレイコントローラ１１０及び他のデバイス１１２によって、ファブリック１０４を介してアクセス可能である。Ｉ／Ｏインターフェース１０６は、任意の数及びタイプのＩ／Ｏインターフェース（例えば、周辺構成要素相互接続（peripheral component interconnect、ＰＣＩ）バス、ＰＣＩ拡張（PCI-Extended、ＰＣＩ－Ｘ）、ＰＣＩＥ（PCI Express）バス、ギガビットイーサネット（登録商標）（gigabit Ethernet、ＧＢＥ）バス、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ））を表す。様々なタイプの周辺デバイスがＩ／Ｏインターフェース１０６に結合される。そのような周辺デバイスは、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶デバイス、ネットワークインターフェースカード等を含む（が、これらに限定されない）。他のデバイス１１２は、任意の数及びタイプのデバイス（例えば、マルチメディアデバイス、ビデオコーデック）を表す。

【0010】

様々な実施形態において、プロセッサ１０２の各々は、並列プロセッサ（例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（general-purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（Artificial Intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等）である。各並列プロセッサ１０２は、並列プロセッサが単一の半導体集積回路のように使用可能（例えば、アドレス指定可能）となるように、ブリッジチップと共に通信可能に結合された２つ以上のベース集積回路ダイ（図２に関して以下でより詳細に説明される）を含むマルチチップモジュール（例えば、半導体ダイパッケージ）として構築される。本開示で使用される場合、「ダイ」及び「チップ」という用語は、互換的に使用される。当業者は、従来の（例えば、マルチチップではない）半導体集積回路が、ウェハとして又はウェハ内に形成され、後に（例えば、ウェハがダイシングされる場合に）ウェハから分離されるダイ（例えば、シングルチップＩＣ）として製造され、多くの場合、複数のＩＣがウェハ内に同時に製造されることを認識するであろう。ＩＣ及び場合によってはディスクリート回路並びに場合によっては他の構成要素（プリント回路基板、インターポーザ及び場合によっては他のものを含む非半導体パッケージング基板等）は、マルチダイ並列プロセッサ内に組み立てられる。

【0011】

以下の図２～図６に関してより詳細に説明されるように、様々な実施形態では、個々のプロセッサ１０２の各々は、いくつかの実施形態による処理積層型ダイチップレットを使用する１つ以上のベースＩＣダイを含む。ベースダイは、Ｎ個の通信可能に結合されたグラフィックス処理積層型ダイチップレットを含む単一の半導体チップパッケージとして形成される。様々な実施形態において、ベースＩＣダイは、デバイスとメモリとの間（又はメモリ内の異なる位置の間）のデータのＤＭＡ転送を調整する２つ以上のＤＭＡエンジンを含む。様々な実施形態が、例示及び説明を容易にするために、ＣＰＵ及びＧＰＵの特定のコンテキストにおいて以下で説明されるが、本明細書で説明される概念は、加速処理ユニット（accelerated processing unit、ＡＰＵ）、ディスクリートＧＰＵ（discrete GPU、ｄＧＰＵ）、人工知能（ＡＩ）アクセラレータ、他の並列プロセッサ等を含む他のプロセッサにも同様に適用可能であることを認識されたい。

【0012】

図２を参照すると、例示的なコンピューティングシステム２００の部分のブロック図が示されている。いくつかの例では、コンピューティングシステム２００は、図１に関して図示及び説明したように、デバイス１００の一部又は全部を使用して実施される。コンピューティングシステム２００は、少なくとも第１の半導体ダイ２０２を含む。様々な実施形態では、半導体ダイ２０２は、１つ以上のプロセッサ２０４Ａ～２０４Ｎ、入力／出力（Ｉ／Ｏ）インターフェース２０６、ダイ内相互接続２０８、メモリコントローラ２１０、及び、ネットワークインターフェース２１２を含む。他の例では、コンピューティングシステム２００は、更なる構成要素、異なる構成要素を含み、及び／又は、異なる方法で配置される。いくつかの実施形態では、半導体ダイ２０２は、プロセッサが単一の半導体集積回路のように使用され得るように、２つ以上の集積回路（ＩＣ）ダイを含む半導体ダイパッケージとして構成されたマルチチップモジュールである。本開示で使用される場合、「ダイ」及び「チップ」という用語は、互換的に使用され得る。

【0013】

いくつかの実施形態では、プロセッサ２０４Ａ～２０４Ｎの各々は、１つ以上の処理デバイスを含む。一実施形態では、プロセッサ２０４Ａ～２０４Ｎのうち少なくとも１つは、ＣＰＵ等の１つ以上の汎用処理デバイスを含む。いくつかの実施形態では、そのような処理デバイスは、図１に関して図示及び説明したようにプロセッサ１０２を使用して実施される。別の実施形態では、プロセッサ２０４Ａ～２０４Ｎのうち少なくとも１つは、１つ以上の並列プロセッサを含む。並列プロセッサの例には、ＧＰＵ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等が含まれる。

【0014】

Ｉ／Ｏインターフェース２０６は、１つ以上のＩ／Ｏインターフェース（例えば、周辺コンポーネント相互接続（ＰＣＩ）バス、ＰＣＩ拡張（ＰＣＩ－Ｘ）、ＰＣＩＥ（PCI Express）バス、ギガビットイーサネット（登録商標）（ＧＢＥ）バス、ユニバーサルシリアルバス（ＵＳＢ）等）を含む。いくつかの実施形態では、Ｉ／Ｏインターフェース２０６は、図１に関して図示及び説明したように、入力ドライバ１１２及び／又は出力ドライバ１１４を使用して実装される。様々なタイプの周辺デバイスをＩ／Ｏインターフェース２０６に結合することができる。そのような周辺デバイスは、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶デバイス、ネットワークインターフェースカード等を含む（が、これらに限定されない）。いくつかの実施形態では、そのような周辺デバイスは、図１に関して図示及び説明したように、入力装置１０８及び／又は出力装置１１８を使用して実装される。

【0015】

様々な実施形態において、各プロセッサは、１つ以上のレベルのキャッシュを有するキャッシュサブシステムを含む。いくつかの実施形態では、プロセッサ２０４Ａ～２０４Ｎの各々は、コア複合体の複数のプロセッサコア間で共有されるキャッシュ（例えば、レベル３（Ｌ３）キャッシュ）を含む。メモリコントローラ２１０は、ダイ内相互接続２０８を介してアクセス可能等のように、プロセッサ２０４Ａ～２０４Ｎによってアクセス可能な少なくとも１つのメモリコントローラを含む。様々な実施形態において、メモリコントローラ２１０は、任意の適切なタイプのメモリコントローラのうち１つ以上を含む。メモリコントローラの各々は、任意の数及びタイプのメモリデバイス（図示せず）に結合され（又は通信し）、それらへのアクセスを制御する。いくつかの実施形態では、そのようなメモリデバイスは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体メモリ（ＦｅＲＡＭ）、又は、任意の他の適切なメモリデバイスを含む。ダイ内相互接続２０８は、バス、データファブリック等の図２に示すデバイス間の通信に適した任意のコンピュータ通信媒体を含む。

【0016】

図３は、例示的なマルチプロセッサコンピューティングシステム３００の一部を示すブロック図である。システム３００又はその一部は、半導体ダイ２０２（図２に関して図示及び説明したように）及び／又はデバイス１００（図１及び図２に関して図示及び説明したように）の一部又は全部を使用して実装可能である。様々な実施形態において、システム３００は、いくつかの実施形態による処理積層型ダイチップレットを使用するプロセッサマルチチップモジュール３０２を含む。プロセッサマルチチップモジュール３０２は、Ｎ＝３個の通信可能に結合されたグラフィックス処理積層型ダイチップレット３０４を含む単一の半導体チップパッケージとして形成される。図示したように、プロセッサマルチチップモジュール３０２は、第１のグラフィックス処理積層型ダイチップレット３０４Ａ、第２のグラフィックス処理積層型ダイチップレット３０４Ｂ、及び、第３のグラフィックス処理積層型ダイチップレット３０４Ｃを含む。

【0017】

グラフィックス処理積層型ダイチップレット３０４は、例示及び説明を容易にするためにＧＰＵ用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ（図２及び図３を参照してより広範に上述したような）の何れにも適用可能であることを認識されたい。加えて、様々な実施形態では、本明細書で使用される場合、「チップレット」という用語は、限定するものではないが、以下の特性を含む任意のデバイスを指す。つまり、１）チップレットは、完全な問題を解くために使用される計算ロジックの少なくとも一部を含む能動シリコンダイを含む（すなわち、計算ワークロードは、これらの能動シリコンダイの複数にわたって分散される）、２）チップレットは、同じ基板上にモノリシックユニットとして一緒にパッケージ化される、３）プログラミングモデルは、これらの個別の計算ダイ（すなわち、グラフィックス処理積層型ダイチップレット）を単一のモノリシックユニットとして組み合わせるという概念を維持する（すなわち、各チップレットは、計算ワークロードを処理するためにチップレットを使用するアプリケーションに個別のデバイスとして露出されない）。

【0018】

様々な実施形態において、プロセッサマルチチップモジュール３０２は、チップレット間（例えば、第１のグラフィックス処理積層型ダイチップレット３０４Ａ、第２のグラフィックス処理積層型ダイチップレット３０４Ｂ、及び、第３のグラフィックス処理積層型ダイチップレット３０４Ｃの任意の組み合わせの間で）の高帯域幅ダイ間相互接続として動作するチップ間データファブリック３０６を含む。いくつかの実施形態では、プロセッサマルチチップモジュール３０２は、チップレット３０４Ａ～３０４Ｃのそれぞれの上に形成された１つ以上のプロセッサコア３０８（例えば、ＣＰＵ及び／若しくはＧＰＵ、又は、プロセッサコアダイ）を含む。更に、様々な実施形態において、チップレット３０４Ａ～３０４Ｃの各々は、１つ以上のレベルのキャッシュメモリ３１０と、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）モジュール等の外部システムメモリモジュール３１２と通信するための１つ以上のメモリＰＨＹ（図示せず）と、を含む。

【0019】

また、チップレット３０４Ａ～３０４Ｃの各々は、１つ以上のＤＭＡエンジン３１４を含む。様々な実施形態において、１つ以上のＤＭＡエンジン３１４は、システム３００内のデバイスとメモリとの間（又はメモリ内の異なる位置の間）のデータのＤＭＡ転送を調整する。様々な実施形態において、１つ以上のＤＭＡエンジン３１４は、複数のデバイス／アクセラレータ間のデータの移動を調整し、一方、例えばプロセッサコア３０８において他のデータに対して計算が実行される。様々な実施形態において、１つ以上のＤＭＡエンジン３１４は、いくつかの実施形態において、ＤＭＡコントローラ（図示せず）の一部であるが、ＤＭＡエンジン及びＤＭＡコントローラという用語は、本明細書において互換的に使用される。ＤＭＡエンジン３１４は、コマンドに応じて、プロセッサコア３０８の関与なしに、例えば、１つ以上のメモリモジュール３１２との間でデータを転送するように動作する。同様に、ＤＭＡエンジン３１４は、いくつかの実施形態では、チップ内データ転送を実行する。理解されるように、ＤＭＡエンジン３１４は、データ転送を管理する負担からプロセッサコアを解放し、様々な実施形態において、メモリ間データコピー等のソフトウェアからの様々なデータ転送要件を処理するためのグローバルデータ転送エージェントとして使用される。

【0020】

１つ以上のＤＭＡエンジン３１４は、ディスクリプタとしても知られるＤＭＡコマンドによって指定される所望のデータ転送動作を実行するために、アプリケーション／エージェントキュー及びそれぞれのＤＭＡバッファからのコマンドパケットのフェッチ及び復号を提供する。ＤＭＡコマンドには、データ又は命令を含むメモリ位置の転送又は転送を制御するメモリフローコマンド（例えば、メモリの内外にデータを転送するためのｒｅａｄ／ｇｅｔ又はｗｒｉｔｅ／ｐｕｔコマンド）が含まれる。ＤＭＡコマンドディスクリプタは、様々な実施形態において、データ転送動作ごとに、データを読み出すソースアドレス、転送サイズ、及び、データを書き込む宛先アドレスを示す。ディスクリプタは、概して、リンクされたリスト又はチェーンとしてメモリ内に編成され、各ディスクリプタは、実行される次のディスクリプタのメモリ内のアドレスを示すフィールドを含む。様々な実施形態において、ディスクリプタは、有効ビットを有するコマンドの配列であり、コマンドは既知のサイズであり、１つ以上のＤＭＡエンジン３１４は、無効化コマンドに達すると停止する。リスト内の最後のディスクリプタは、「次のディスクリプタ」フィールド内にヌルポインタを有し、それ以上実行されるコマンドがなく、チェーンの終わりに達するとＤＭＡがアイドル状態になるべきであることをＤＭＡエンジンに示す。

【0021】

プロセッサコアからのデータ転送要求に応じて、ＤＭＡエンジン３１４は、データ転送要求が満たされるように、必要な制御情報を対応するソース及び宛先に提供する。ＤＭＡエンジン３１４が制御情報の形成と通信を処理するため、プロセッサコアは、データ転送要求が満たされるのを待っている間、他のタスクを実行できるようになる。様々な実施形態において、ＤＭＡエンジン３１４の各々は、プロセッサコア又はＣＰＵを介さずにメモリ及び／又は周辺入出力（Ｉ／Ｏ）デバイス及びメモリ内の位置の間でデータを転送する１つ以上の専用補助プロセッサを含む。

【0022】

いくつかの実施形態では、ＤＭＡの要求は、プロセッサ３０８のうち１つ以上によって生成されたＤＭＡコマンドを、ＤＭＡバッファ３１６（ＤＭＡ転送コマンドを保持するためのＤＭＡキューとも互換的に呼ばれる）等のメモリマッピングされたＩＯ（ＭＭＩＯ）位置に配置することによって処理される。様々な実施形態において、ＤＭＡバッファは、ＤＭＡエンジン３１４が（例えば、ＤＲＡＭメモリに行く必要なく）ＤＭＡコマンドを読み出すことができるように、読み出し又は書き込み命令が転送されるハードウェア構造である。データ転送動作を実行するために、様々な実施形態において、ＤＭＡエンジン３１４は、ＤＭＡバッファ３１６内のコマンドのシーケンスにアクセスすることによってプロセッサ３０８によって生成された命令（例えば、ＤＭＡ転送コマンド／データ転送要求）を受信する。その後、ＤＭＡエンジン３１４は、処理のためにＤＭＡバッファ３１６からＤＭＡコマンド（ディスクリプタとしても知られる）を取り出す。いくつかの実施形態では、ＤＭＡコマンドは、例えば、直接仮想メモリアクセス（ＤＶＭＡ）及びＩ／Ｏバスアクセスの開始アドレス、並びに、所定の最大値までの転送長を指定する。

【0023】

ＤＭＡバッファ３１６は、説明を容易にするためにチップレット３０４に実装されるものとして図３に示されているが、当業者であれば、ＤＭＡバッファ３１６は、本開示の範囲から逸脱することなく、本明細書に記載のシステム及びデバイスの様々な構成要素において実装可能であることを認識するであろう。例えば、いくつかの実施形態では、ＤＭＡバッファ３１６は、メモリモジュール３１２等のメインメモリ内に構成される。メモリ内のコマンドキューのその位置は、ＤＭＡエンジン３１４が転送コマンドを読み出すために行く場所である。様々な実施形態において、ＤＭＡバッファ３１６は、１つ以上のリングバッファ（例えば、モジュロアドレス指定によってアドレス指定される）として構成される。

【0024】

ＤＭＡエンジン３１４は、バス（図示せず）を介してＤＭＡバッファ３１６からＤＭＡ転送コマンドにアクセスする（又はコマンドを受信する）。受信した命令に基づいて、いくつかの実施形態では、ＤＭＡエンジン３１４は、データファブリック３０６を介して任意のメモリ（例えば、メモリモジュール３１２）からデータを読み出してバッファリングし、データファブリック３０６を介してバッファリングされたデータを任意のメモリに書き込む。いくつかの実施形態では、ＤＭＡソース及びＤＭＡ宛先は、異なるデバイス（例えば、異なるチップレット）上に物理的に配置される。同様に、マルチプロセッサシステムでは、ＤＭＡソース及びＤＭＡ宛先は、場合によっては、異なるプロセッサに関連付けられた異なるデバイスに配置される。そのような場合、ＤＭＡエンジン３１４は、物理アドレスを取得するために仮想アドレスを解決し、ＤＭＡ転送に影響を及ぼすためにリモートｒｅａｄ及び／又はｗｒｉｔｅコマンドを発行する。例えば、様々な実施形態において、受信された命令に基づいて、ＤＭＡエンジン３１４は、ＤＭＡ転送に影響を及ぼす命令を有するメッセージをデータファブリックデバイスに送信する。

【0025】

ＤＭＡ中、１つ以上のプロセッサコア３０８は、ＤＭＡバッファ３１６内のＤＭＡコマンドをキューに入れ、それらの存在をＤＭＡエンジン３１４にシグナリングすることができる。例えば、いくつかの実施形態では、システム３００上で実行されるアプリケーションプログラムは、ＤＭＡデータ転送のチェーンを開始するために、ＤＭＡエンジン（例えば、ＤＭＡバッファ３１６）にアクセス可能なメモリ内のディスクリプタの適切なチェーンを準備する。次いで、プロセッサコア３０８は、チェーン内の最初のディスクリプタのメモリアドレスを示すメッセージ（又は他の通知）をＤＭＡエンジン３１４に送信し、これは、ディスクリプタの実行を開始するためのＤＭＡエンジンへの要求である。通常、アプリケーションはメッセージをＤＭＡエンジンの「ドアベル（doorbell）」、つまりこの目的のために指定された特定のバスアドレスを持つ制御レジスタに送信する。ＤＭＡ実行を開始するためにこのようなメッセージを送信することは、ＤＭＡエンジン３１４の「ドアベルを鳴らす（ringing the doorbell）」として知られている。ＤＭＡエンジン３１４は、第１のディスクリプタを読み出して実行することによって応答する。そして、ディスクリプタが実行されたことをアプリケーションに示すためにディスクリプタのステータスフィールドを更新する。ＤＭＡエンジン３１４は、リンクされたリスト全体を通じて「次」フィールドを辿り、最後のディスクリプタ内のヌルポインタに達するまで、各ディスクリプタを実行されたものとしてマーキングする。最後のディスクリプタを実行した後、ＤＭＡエンジン３１４はアイドル状態になり、実行のための新しいリストを受信する準備が整う。

【0026】

図３に示すような様々な実施形態では、システム３００は、チップ間データファブリック３０６によって互いに接続された２つ以上のアクセラレータを含む。更に、図３に示すように、グラフィックス処理積層型ダイチップレット３０４の構成要素（例えば、１つ以上のプロセッサコア３０８、ＤＭＡエンジン３１４、ＤＭＡバッファ３１６等）は、相互接続３１８（例えば、他の構成要素を介して）を介して互いに通信する。このようにして、相互接続３１８は、マルチプロセッサコンピューティングシステム３００の構成要素間の通信を容易にするデータファブリックの一部を形成する。更に、チップ間データファブリック３０６は、データファブリックの一部も形成する様々な通信可能に結合されたグラフィックス処理積層型ダイチップレット３０４及びＩ／Ｏインターフェース（図示せず）上にデータファブリックを延在する。様々な実施形態において、相互接続３１８は、バス、データファブリック等のように、図３に示されるデバイス間の通信に適した任意のコンピュータ通信媒体を含む。いくつかの実施形態では、相互接続３１８は、説明を容易にするために図３には示されていない他の構成要素に接続され、及び／又は、他の構成要素と通信する。例えば、いくつかの実施形態では、相互接続３１８は、図２に関して図示及び説明したような１つ以上の入力／出力（Ｉ／Ｏ）インターフェース２０６への接続を含む。

【0027】

理解されるように、チップ間データファブリック３０６及び／又は相互接続３１８は、単一のＤＭＡエンジンが利用可能なデータファブリック帯域幅を飽和させることができないような高帯域幅を有することが多い。様々な実施形態において、より詳細に後述するように、システム３００は、ＤＭＡを介したメモリ転送コマンドの処理のために複数のＤＭＡエンジン３１４への転送コマンドのハードウェア管理（すなわち、例えばオペレーティングシステム又はハイパーバイザの一方又は両方を含むシステムソフトウェアアプリケーションによる入力なしにデバイスハードウェアによって媒介される）分割を実行するために、増加した数のＤＭＡエンジン３１４（例えば、図３の実施形態に示すように、チップレット３０４ごとに１つ）を利用する。このようにして、転送コマンドによって指定された作業は、複数のチップレット３０４及びそれらのそれぞれのＤＭＡエンジン３１４にわたって本質的に分割され、それによって、個々のＤＭＡエンジン３１４が全体的なＤＭＡスループット及びデータファブリック帯域幅の使用を増加させるために、より大きくするか又はより多くの機能を有する必要なく、総帯域幅使用量が増加する。

【0028】

動作中、（例えば、ドアベルリング）通知に応じて、ＤＭＡエンジン３１４は、データ転送動作及びパケット転送を実行するために、ＤＭＡバッファ３１６から（関連するパラメータと共に）ＤＭＡ転送コマンドを読み出して実行する。様々な実施形態では、動作パラメータ（例えば、ＤＭＡコマンドパラメータ）は、通常、送信側と受信側の両方について、ベースアドレス、ストライド、要素サイズ及び通信する要素の数である。具体的には、ＤＭＡエンジン３１４は、複数のダイ（例えば、ＭＣＭ３０２）又はチップレット３０４にわたる複数のＤＭＡエンジン３１４が、ＤＭＡ転送パラメータを有するパケットを含む同じ位置を読みように構成される。続いて、以下により詳細に記載されるように、ＤＭＡエンジン３１４は、ハードウェア機構を介して互いに同期及び調整して、ＤＭＡ転送において協働して動作する。様々な実施形態において、ＤＭＡエンジン３１４は、単一のＤＭＡエンジンがＤＭＡ転送の一部のみを実行するように、コマンド転送のハードウェア管理分割を行う。例えば、２つのＤＭＡエンジン３１４間のＤＭＡ転送の分割は、個々のＤＭＡエンジンが他のＤＭＡエンジンと同時に転送の半分を実行しているので、単位時間当たりの帯域幅使用量又はＤＭＡ転送スループットを倍増させる可能性を有する。

【0029】

図４を参照すると、いくつかの実施形態による、キャッシュステータスに基づく転送コマンドのハードウェア管理分割を実施するシステムの一例を示すブロック図が示されている。デバイス４００又はその一部は、半導体ダイ２０２（図２に関して図示及び説明したように、）及び／又はデバイス１００（図１及び図２に関して図示及び説明したように、）の一部又は全部を使用して実装可能である。様々な実施形態において、デバイス４００は、いくつかの実施形態による処理積層型ダイチップレットを使用するベースダイ４０２を含む。ベースダイ４０２は、Ｎ＝２個の通信可能に結合されたグラフィックス処理積層型ダイチップレット４０４を含む単一の半導体チップパッケージとして形成される。図示したように、プロセッサベースダイ４０２は、第１のグラフィックス処理積層型ダイチップレット４０４Ａ及び第２のグラフィックス処理積層型ダイチップレット４０４Ｂを含む。

【0030】

様々な実施形態において、ベースダイ４０２は、チップレット間の高帯域幅ダイ間相互接続（例えば、第１のグラフィックス処理積層型ダイチップレット４０４Ａと第２のグラフィックス処理積層型ダイチップレット４０４Ｂとの間）として動作するチップ間データファブリック４０６を含む。いくつかの実施形態では、ベースダイ４０２は、チップレット４０４Ａ～４０４Ｂのそれぞれの上に形成された１つ以上のプロセッサコア４０８（例えば、ＣＰＵ及び／若しくはＧＰＵ、又は、プロセッサコアダイ）を含む。更に、様々な実施形態において、チップレット４０４Ａ～４０４Ｂの各々は、１つ以上のレベルのキャッシュメモリ４１０と、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）モジュール等の外部システムメモリモジュール４１２と通信するための１つ以上のメモリＰＨＹ（図示せず）と、を含む。全体として考慮すると、複数のチップレット（例えば、チップレット４０４Ａ及び４０４Ｂ）に通信可能に結合されたメインメモリ（例えば、メモリモジュール４１２）及びそれらのローカルキャッシュは、デバイス４００のための共有メモリを形成する。理解されるように、各チップレット４０４は、共有メモリシステム全体の一部への直接的な物理的接続のみを有する。

【0031】

様々な実施形態において、ベースダイ４０２は、ベースダイ４０２の上に配置された２つ以上のＤＭＡエンジン４１４（例えば、第１のＤＭＡエンジン４１４Ａ及び第２のＤＭＡエンジン４１４Ｂ）を含む。様々な実施形態において、ＤＭＡエンジン４１４は、システム４００内のデバイスとメモリとの間（又はメモリ内の異なる位置の間）のデータのＤＭＡ転送を調整する。様々な実施形態において、ＤＭＡエンジン４１４は、複数のデバイス／アクセラレータ間のデータの移動を調整し、一方、例えばプロセッサコア４０８において他のデータに対して計算が実行される。様々な実施形態において、１つ以上のＤＭＡエンジン４１４は、いくつかの実施形態において、ＤＭＡコントローラ（図示せず）の一部であるが、ＤＭＡエンジン及びＤＭＡコントローラという用語は、本明細書において互換的に使用される。ＤＭＡエンジン４１４は、コマンドに応じて、プロセッサコア４０８の関与なしに、例えば、１つ以上のメモリモジュール４１２との間でデータを転送するように動作する。同様に、ＤＭＡエンジン４１４は、いくつかの実施形態では、チップ内データ転送を実行する。

【0032】

グラフィックス処理積層型ダイチップレット３０４は、例示及び説明を容易にするためにＧＰＵ用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ（図２及び図３を参照してより広範に上述したような）の何れにも適用可能であることを認識されたい。更に、ＤＭＡエンジン４１４は、図４において個々のコンピュートチップレットの上部にあるように示されているが、当業者であれば、転送コマンドのハードウェア管理分割が、本開示の範囲から逸脱することなく、様々なシステム位置においてＤＭＡエンジンによって実行され得ることを認識するであろう。例えば、いくつかの実施形態では、ＤＭＡエンジンは、（例えば、図５に関して説明したように）ベースダイの上に置かれる。同様に、システム及びデバイスは、ここではチップレットベースのシステムのコンテキストで説明されているが、転送コマンドのハードウェア管理分割は、モノリシックダイを含む複数のＤＭＡエンジンを含む任意のシステム構成で実行され得る特定のアーキテクチャに限定されないことを当業者は認識するであろう。

【0033】

いくつかの実施形態では、ＤＭＡの要求は、プロセッサ４０８のうち１つ以上によって生成されたＤＭＡコマンド（交換可能にパケットとも呼ばれる）を、ＤＭＡバッファ４１６（交換可能にＤＭＡ転送コマンドを保持するためのＤＭＡキューとも呼ばれる）等のメモリマップＩＯ（ＭＭＩＯ）位置に配置することによって処理される。様々な実施形態において、ＤＭＡバッファ４１６は、ＤＭＡエンジン４１４が（例えば、ＤＲＡＭメモリに行く必要なく）ＤＭＡコマンドを読み出すことができるように、読み出し又は書き込み命令が転送されるハードウェア構造である。データ転送動作を実行するために、様々な実施形態において、ＤＭＡエンジン４１４は、ＤＭＡバッファ４１６内のコマンドのシーケンスにアクセスすることによって、プロセッサ４０８によって生成された命令（例えば、ＤＭＡ転送コマンド／データ転送要求）を受信する。その後、ＤＭＡエンジン４１４は、処理のためにＤＭＡバッファ４１６からＤＭＡコマンド（ディスクリプタとしても知られる）を取り出す。いくつかの実施形態では、ＤＭＡコマンドは、例えば、直接仮想メモリアクセス（ＤＶＭＡ）及びＩ／Ｏバスアクセスの開始アドレス、並びに、所定の最大値までの転送長を指定する。

【0034】

ＤＭＡバッファ４１６は、説明を容易にするためにベースダイ４０２に実装されるものとして図４に示されているが、当業者であれば、ＤＭＡバッファ４１６は、本開示の範囲から逸脱することなく、本明細書に記載のシステム及びデバイスの様々な構成要素において実装可能であることを認識するであろう。例えば、いくつかの実施形態では、ＤＭＡバッファ４１６は、メモリモジュール４１２等のメインメモリ内に構成される。メモリ内のコマンドキューのその位置は、ＤＭＡエンジン４１４が転送コマンドを読み出すために行く場所である。様々な実施形態において、ＤＭＡバッファ４１６は、１つ以上のリングバッファ（例えば、モジュロアドレス指定によってアドレス指定される）として構成される。

【0035】

図４に例示されるように、ＤＭＡエンジン４１４Ａ及び４１４Ｂは、（ＤＭＡバッファ４１６又はシステムメモリモジュール４１２のような）１つ以上のＤＭＡワークロード又はＤＭＡジョブが形成され、メモリに満たされたことを示すＤＭＡ通知４１８を受信する。上述したような様々な実施形態において、ＤＭＡ通知４１８は、メモリ内にＤＭＡディスクリプタが準備されていることを示すドアベルリング又は他の通知器を含む。ＤＭＡ通知４１８の受信に応じて、ＤＭＡエンジン４１４Ａ及び４１４Ｂは、ＤＭＡバッファ４１６からＤＭＡジョブ記述４２０をそれぞれ独立してフェッチする。いくつかの実施形態では、ＤＭＡエンジン４１４がＤＭＡ転送コマンドを取り出すための通信経路は、プロセッサとチップレット４０４との接続のための経路としてＰＣＩＥインターフェース（例えば、図１に関して上述したようなＩ／Ｏインターフェース１０６）を含む。他の実施形態において、ＤＭＡエンジン４１４がＤＭＡ転送コマンドを取り出すための通信経路は、オンダイプロセッサとＤＭＡエンジン４１４との接続のための経路としての内部データファブリック（例えば、図３に関して上述したような相互接続３１８）を含む。

【0036】

同じ位置（すなわち、ＤＭＡバッファ４１６）から同じＤＭＡジョブ記述を独立してフェッチすることに加えて、ＤＭＡエンジン４１４Ａ及び４１４Ｂの各々は、実行すべきＤＭＡ転送コマンドによって要求されるデータ転送の部分を独立して判定する。一実施形態では、ＤＭＡエンジン４１４Ａ及び４１４Ｂの各々は、キャッシュプローブ要求４２２（例えば、読み出しプローブ及び／又は書き込みプローブ）をそれらのそれぞれのチップレット４０４のキャッシュメモリ４１０及びメインメモリ（例えば、メモリモジュール４１２）にブロードキャストすることによって、投機的ＤＭＡ転送を発行する。キャッシュプローブ要求に応じて、各チップレット４０４のキャッシュメモリ４１０及びメインメモリは、要求しているＤＭＡエンジンに１つ以上のリターンレスポンスを返す。例えば、ＤＭＡ読み出しプローブの場合、キャッシュメモリ４１０は、要求されたデータがキャッシュメモリ４１０内で見つかったか否かを示すためにキャッシュヒット又はキャッシュミスを返すことができる。

【0037】

図４に示すように、取り出されたＤＭＡジョブ記述４２０は、物理アドレスＸ及びＹからデータを読み取る単一の転送コマンドである。アドレスＸ及びＹに関連付けられたデータの一部が、第１のグラフィックス処理積層型ダイチップレット４０４Ａのキャッシュメモリ４１０（例えば、Ｌ３又は何らかの最終レベルキャッシュ）に現在存在しているかどうかを判定するために、ＤＭＡエンジン４１４Ａは、メモリモジュール４１２の前にキャッシュプローブ要求４２２をキャッシュメモリ４１０（キャッシュコントローラ［図示せず］を含む）にブロードキャストし、アドレスＸのキャッシュヒット及びアドレスＹのキャッシュミスを示す１つ以上のリターンレスポンスを受信する。アドレスＸ及びＹに関連付けられたデータの一部が、第２のグラフィックス処理積層型ダイチップレット４０４Ｂのキャッシュメモリ４１０に現在存在しているかどうかを判定するために、ＤＭＡエンジン４１４Ｂは、同様に、キャッシュプローブ要求４２２をキャッシュメモリ４１０にブロードキャストし、アドレスＸのキャッシュミス及びアドレスＹのキャッシュミスを示す１つ以上のリターンレスポンスを受信する。

【0038】

様々な実施形態では、プローブは、キャッシュがデータブロックのコピーを有するかどうかを示す応答を要求するために、及び、いくつかの実施形態では、キャッシュがデータブロックを配置すべきキャッシュ状態を示すために、コヒーレンシポイント（例えば、ＤＭＡエンジン４１４において）からコンピュータシステム内の１つ以上のキャッシュに渡されるメッセージを含む。いくつかの実施形態では、ＤＭＡエンジン４１４がその対応するメモリコントローラ（例えば、メモリコントローラによって制御されるメモリ内のアドレス又はアドレス領域に記憶されたデータを求めるメモリ要求）をターゲットとするメモリ要求を受信した場合、ＤＭＡエンジン４１４は、その対応するキャッシュディレクトリに対するルックアップ（例えば、タグベースのルックアップ）を実行して、要求が何れかのキャッシュサブシステムの少なくとも１つのキャッシュラインにキャッシュされたメモリアドレス又は領域をターゲットとするかどうかを判定する。

【0039】

更に、特定の物理アドレスは、メモリモジュール４１２の一箇所にのみ存在する。例えば、チップレットベースのシステムでは、各ダイは、特定の範囲のアドレス（又は特定のアドレスパターンはローカルダイとリモートダイに属する）を有するメモリチャネルに割り当てられるか、そうでなければ物理的に接続される。仮想アドレスから物理アドレスへの変換から、各ＤＭＡエンジン４１４は、ＤＭＡ転送コマンドのアドレスがその物理ダイに接続されているメモリの範囲内にあるかどうかを認識する。ＤＭＡエンジン４１４がＤＭＡ転送コマンドを復号し、データがローカルメモリ内にないと判定した場合、ＤＭＡエンジン４１４は、ＤＭＡジョブのこれらの部分をスキップする。更に、全てのＤＭＡエンジン４１４がこの同じ方法で動作する場合、メモリチャネル全体がカバーされる。

【0040】

図４の例示的な実施形態では、物理アドレスＸ及び物理アドレスＹのデータは、第２のグラフィックス処理積層型ダイチップレット４０４Ｂに直接接続されたメモリモジュール４１２に記憶される。しかしながら、第１のグラフィックス処理積層型ダイチップレット４０４Ａのキャッシュメモリ４１０は、物理アドレスＸに対する要求されたデータを既に含んでいるので、ＤＭＡエンジン４１４Ａは、（異なるチップレットのキャッシュからデータを取り出すこととは対照的に）アドレスＸに関連付けられたデータ転送の部分を実行する。したがって、ＤＭＡエンジン４１４ＡにアドレスＸに関連付けられたデータのＤＭＡ転送を実行させることは、チップ間データファブリック４０６を越えて異なるチップレットのデータ所有メモリモジュール４１２（又はキャッシュ）にアクセスするよりも、よりエネルギーが最適であり、レイテンシがより低い。

【0041】

同様に、キャッシュプローブ要求４２２が第１及び第２のチップレット４０４の両方のキャッシュメモリ４１０においてキャッシュミスをもたらすことに起因して、データ所有キャッシュメモリ４１０のＤＭＡエンジン４１４Ｂは、物理アドレスＹに関連付けられたデータのＤＭＡ転送を実行する。換言すれば、データにより近いＤＭＡエンジン４１４は、ＤＭＡ転送を実行するエンジンである。その後、ＤＭＡエンジン４１４は、割り込み信号をプロセッサコア４０８に送ること等によって、ＤＭＡ転送が完了したことをシグナリングする。このようにして、より近いＤＭＡエンジン４１４によるＤＭＡ転送パケット全体の分割及びＤＭＡ転送の実行（各ＤＭＡエンジンが他のＤＭＡエンジンと並列にその転送を実行する）のハードウェア管理された調整は、ＤＭＡ転送動作が全ての異なるチャネルにわたってメモリからデータを読み出す必要性を回避する（例えば、異なるチップレットに関連付けられたキャッシュメモリ又はＤＲＡＭからデータを読み出すことは、相互接続を通過してエネルギー性能ヒットを取るトラフィックを必要とする）。

【0042】

全てのＤＭＡエンジン４１４がＤＭＡジョブのその部分を完了すると、ＤＭＡジョブが完了したことを示す信号が要求プロセッサに返される。例えば、いくつかの実施形態では、これは、ＤＭＡバッファへの完了を示す値の書き込み、メモリ内の他の何らかの位置への値の書き込み、要求プロセッサへの割り込み等によって達成される。要求プロセッサは、ＤＭＡジョブ全体が完了した場合にのみ通知されるため、ＤＭＡエンジン４１４は、ＤＭＡジョブ完了が、全てのＤＭＡエンジン４１４がＤＭＡジョブのその部分で完了した場合にのみ示されるように、何らかの方法で同期する。いくつかの実施形態では、これは、いくつのＤＭＡエンジンがそれらの部分を完了したかを示すためにＤＭＡバッファ内のカウンタをアトミックにインクリメントすること、メモリ内の同期構造を介して又はファブリック４０６を介したＤＭＡエンジン間の直接メッセージングを介して等の様々な技術によって達成される。

【0043】

以下により詳細に記載されるような他の実施形態において、ＤＭＡエンジンは、転送コマンドのパケットの分割を、（図４に記載されているようなアクセスされるべき物理アドレスを見る代わりに、）データ転送の量及び複数のＤＭＡエンジン間のワークロードのインターリーブに基づいて判定する。

【0044】

図５を参照すると、いくつかの実施形態による、転送コマンドのハードウェア管理分割を実施するシステムの別の例を示すブロック図が示されている。デバイス５００又はその一部は、半導体ダイ２０２（図２に関して図示及び説明したように、）及び／又はデバイス１００（図１及び図２に関して図示及び説明したように、）の一部又は全部を使用して実装可能である。様々な実施形態において、デバイス５００は、いくつかの実施形態による処理積層型ダイチップレットを用いるベースダイ５０２を含む。ベースダイ５０２は、Ｎ＝２個の通信可能に結合されたグラフィックス処理積層型ダイチップレット５０４を含む単一の半導体チップパッケージとして形成される。図示したように、プロセッサベースダイ５０２は、第１のグラフィックス処理積層型ダイチップレット５０４Ａ及び第２のグラフィックス処理積層型ダイチップレット５０４Ｂを含む。

【0045】

様々な実施形態において、ベースダイ５０２は、チップレット間の高帯域幅ダイ間相互接続（例えば、第１のグラフィックス処理積層型ダイチップレット５０４Ａと第２のグラフィックス処理積層型ダイチップレット５０４Ｂとの間）として動作するチップ間データファブリック５０６を含む。いくつかの実施形態では、ベースダイ５０２は、チップレット５０４Ａ～５０４Ｂのそれぞれの上に形成された１つ以上のプロセッサコア５０８（例えば、ＣＰＵ及び／若しくはＧＰＵ、又は、プロセッサコアダイ）を含む。更に、様々な実施形態において、チップレット５０４Ａ～５０４Ｂの各々は、１つ以上のレベルのキャッシュメモリ５１０と、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）モジュール等の外部システムメモリモジュール５１２と通信するための１つ以上のメモリＰＨＹ（図示せず）と、を含む。全体として考慮すると、複数のチップレット（例えば、チップレット５０４Ａ及び５０４Ｂ）に通信可能に結合されたメインメモリ（例えば、メモリモジュール５１２）及びそれらのローカルキャッシュは、デバイス５００のための共有メモリを形成する。理解されるように、各チップレット５０４は、共有メモリシステム全体の一部への直接的な物理的接続のみを有する。

【0046】

様々な実施形態において、ベースダイ５０２は、ベースダイ５０２の上に配置された２つ以上のＤＭＡエンジン５１４（例えば、第１のＤＭＡエンジン５１４Ａ及び第２のＤＭＡエンジン５１４Ｂ）を含む。様々な実施形態において、ＤＭＡエンジン５１４は、システム５００内のデバイスとメモリとの間（又はメモリ内の異なる位置の間）のデータのＤＭＡ転送を調整する。様々な実施形態において、ＤＭＡエンジン５１４は、複数のデバイス／アクセラレータ間のデータの移動を調整し、一方、例えばプロセッサコア５０８において他のデータに対して計算が実行される。

【0047】

様々な実施形態において、１つ以上のＤＭＡエンジン５１４は、いくつかの実施形態において、ＤＭＡコントローラ（図示せず）の一部であるが、ＤＭＡエンジン及びＤＭＡコントローラという用語は、本明細書において互換的に使用される。ＤＭＡエンジン５１４は、コマンドに応じて、プロセッサコア５０８の関与なしに、例えば、１つ以上のメモリモジュール５１２との間でデータを転送するように動作する。同様に、ＤＭＡエンジン５１４は、いくつかの実施形態では、チップ内データ転送を実行する。いくつかの実施形態では、ＤＭＡエンジン５１４は、フロントエンドパケットプロセッサ（図示せず）並びにバックエンドコマンドエンジン及び転送エンジン（図示せず）を含む。転送エンジンは、実際のＤＭＡ転送／データ移動を実行するＤＭＡエンジン５１４の部分であり、コマンドエンジンは、何れの動作を実行すべきかを伝えるために転送エンジンを駆動する。様々な実施形態では、パケットプロセッサは、アドバンストＲＩＳＣマシン（ＡＲＭ）、パイプラインステージがインターロックしないマイクロプロセッサ（ＭＩＰＳ）、シリアルデータプロセッサ（ＳＤＰ）及び／又はバッファ管理、テーブル検索、キュー管理、ファブリック処理、及び、当該技術分野で知られているホスト処理機能を実行することが可能な他のＲＩＳＣコア等の１つ以上の処理エンジンを含む。パケットプロセッサは、様々な実施形態において、ＤＭＡパケットが到着するのを待つマイクロコントローラである。パケットプロセッサは、ＤＭＡパケットを受信して読み出した後、ＤＭＡコントローラのバックエンドをオンにしてデータ転送を行う。

【0048】

様々な実施形態において、バックエンドコマンドエンジンは、他のシステム構成要素がＤＭＡ転送を開始するために通信するマイクロコントローラ（又は他のファームウェア、ステートマシン等）である。いくつかの実施形態では、コマンドエンジンは、複数の転送エンジンを駆動する単一のコマンドエンジンを含む。他の実施形態では、コマンドエンジンは、転送エンジンごとに単一のコマンドエンジンを含む。更に、ＤＭＡエンジン５１４は、コマンドエンジンが何れの動作を実行すべきかについて合意することを可能にするいくつかの分散アルゴリズムを含む。例えば、単一のＤＭＡエンジン５１４が２つのコマンドエンジンを含む場合、各コマンドエンジンは、メモリ内で待機しているパケットがあることをハードウェアによって指示され得る。パケットを読み取った後、コマンドエンジンは、コマンドエンジンバス又は両方のコマンドエンジンがバリア又はロック等のソフトウェア同期を実行することを認識しているメモリ内の特別な位置等の同期機構を介して互いに同期する。様々な実施形態において、両方のコマンドエンジンはパケットを読み取る。その後、両方のコマンドエンジンは、コマンドを読み取り、互いに通信してデータ転送を分割する。理解されるように、コマンドエンジンは、（両方のコマンドエンジンがＤＭＡ転送のそれぞれの部分を実行し終えた後に）要求プロセッサ（例えば、ＣＰＵ又はプロセッサコア５０８）にＤＭＡ転送が完了したことを伝える等のために、様々な場合に互いに同期する。

【0049】

グラフィックス処理積層型ダイチップレット５０４は、例示及び説明を容易にするためにＧＰＵ用語の特定のコンテキストで以下に説明されるが、様々な実施形態において、説明されるアーキテクチャは、本開示の範囲から逸脱することなく、様々なタイプの並列プロセッサ（図２及び図３を参照してより広範に上述したような）の何れにも適用可能であることを認識されたい。更に、ＤＭＡエンジン５１４は、図５においてベースダイ５０２の上部に位置するように示されているが、当業者は、転送コマンドのハードウェア管理分割が、本開示の範囲から逸脱することなく、様々なシステム位置においてＤＭＡエンジンによって実行され得ることを認識するであろう。例えば、いくつかの実施形態では、ＤＭＡエンジンは、（図４に関してより詳細に上述したように）個々のコンピュートチップレットの上に位置する。同様に、システム及びデバイスは、ここではチップレットベースのシステムのコンテキストで説明されているが、転送コマンドのハードウェア管理分割は、モノリシックダイを含む複数のＤＭＡエンジンを含む任意のシステム構成で実行され得る特定のアーキテクチャに限定されないことを当業者は認識するであろう。

【0050】

いくつかの実施形態では、ＤＭＡの要求は、プロセッサ５０８のうち１つ以上によって生成されたＤＭＡコマンド（交換可能にパケットとも呼ばれる）を、ＤＭＡバッファ５１６（交換可能にＤＭＡ転送コマンドを保持するためのＤＭＡキューとも呼ばれる）等のメモリマップＩＯ（ＭＭＩＯ）位置に配置することによって処理される。様々な実施形態において、ＤＭＡバッファは、ＤＭＡエンジン５１４が（例えば、ＤＲＡＭメモリに行く必要なく）ＤＭＡコマンドを読み出すことができるように、読み出し又は書き込み命令が転送されるハードウェア構造である。データ転送動作を実行するために、様々な実施形態において、ＤＭＡエンジン５１４は、命令（例えば、プロセッサ５０８によって生成されたＤＭＡ転送コマンド／データ転送要求）を受信する。例えば、いくつかの実施形態では、ＤＭＡエンジン５１４は、処理のためにＤＭＡバッファ５１６からＤＭＡコマンド（ディスクリプタとしても知られる）を取り出す。

【0051】

ＤＭＡバッファ５１６は、説明を容易にするためにベースダイ５０２に実装されるものとして図５に示されているが、当業者であれば、ＤＭＡバッファ５１６は、本開示の範囲から逸脱することなく、本明細書に記載のシステム及びデバイスの様々な構成要素において実装可能であることを認識するであろう。例えば、いくつかの実施形態では、ＤＭＡバッファ５１６は、メモリモジュール５１２等のメインメモリ内に構成される。メモリ内のコマンドキューのその位置は、ＤＭＡエンジン５１４が転送コマンドを読み出すために行く場所である。

【0052】

図５に例示されるように、いくつかの実施形態において、ＤＭＡエンジン５１４Ａ及び５１４Ｂは、一次ＤＭＡエンジン５２２からＤＭＡジョブ通知５１８（ＤＭＡエンジン５１４Ａへの第１のＤＭＡジョブ通知５１８Ａ及びＤＭＡエンジン５１４Ｂへの第２のＤＭＡジョブ通知５１８Ｂ）を受信する。一次ＤＭＡエンジン５２２は、ＤＭＡジョブのサブミッタ（例えば、サーバ、ＣＰＵ等）と実際のデータ転送を実行する二次／リモートＤＭＡエンジン（例えば、第１のＤＭＡエンジン５１４Ａ及び第２のＤＭＡエンジン５１４Ｂ）との間を仲介する中央エージェントとして動作する。

【0053】

図４に関して上述したようないくつかの実施形態において、一次ＤＭＡエンジン５２２は、第１のＤＭＡジョブ通知５１８Ａ及び第２のＤＭＡジョブ通知５１８Ｂを送信し、これらは同じ信号であり、１つ以上のＤＭＡワークロード又はＤＭＡジョブが形成され、メモリ（ＤＭＡバッファ５１６又はシステムメモリモジュール５１２等）に充填されたことを示す。ＤＭＡ通知５１８の受信に応じて、ＤＭＡエンジン５１４Ａ及び５１４Ｂは、ＤＭＡバッファ５１６からＤＭＡジョブ記述５２０を各々独立してフェッチし、２つ以上の別々のエンティティ（例えば、２つのＤＭＡエンジン５１４Ａ及び５１４Ｂ）が各々同じパケットを読み取り、ＤＭＡ転送をどのように実行するかを独立して判定する分散判定方式でＤＭＡジョブワークロードを分割する。あるいは、他の実施形態において、一次ＤＭＡエンジン５２２は、ＤＭＡジョブ記述子をＤＭＡエンジン５１４Ａ及び５１４Ｂに直接送信し、バッファ５１６からのＤＭＡジョブ記述の取り出しを指示するステップをスキップする。

【0054】

同じ位置（すなわち、ＤＭＡバッファ５１６）から同じＤＭＡジョブ記述を独立してフェッチすることに加えて、ＤＭＡエンジン５１４Ａ及び５１４Ｂの各々は、実行すべきＤＭＡ転送コマンドによって要求されるデータ転送の部分を独立して決定する。例えば、図４に関連してより詳細に記載されているように、ＤＭＡエンジン５１４は、より近いＤＭＡエンジン５１４（例えば、チップレット間相互接続をトラバースすることなく、同一ダイキャッシュ又はローカルＤＲＡＭを介してより近い）によるＤＭＡ転送パケット全体の分割及びＤＭＡ転送の実行（各ＤＭＡエンジンは、他のＤＭＡエンジンと並列にその転送を実行する）に基づいてハードウェア管理による調整を実行する。

【0055】

いくつかの実施形態では、ＤＭＡエンジン５１４は、データ転送量に基づいて転送コマンドのパケットを分割し、複数のＤＭＡエンジン間でワークロードをインターリーブする決定を介して、ハードウェア管理による調整を実行する。例えば、図５に例示されるように、ＤＭＡジョブ記述５２０は、物理アドレスＸから物理アドレスＹへの１０００メガバイトのデータの転送を指示する単一の転送コマンドである。一実施形態において、ＤＭＡエンジン５１４は、それらの間で合計ＤＭＡ転送サイズを等しく分割する。例えば、デバイス５００は、第１のＤＭＡエンジン５１４ＡがグローバルＩＤ＝０を有し、第２のＤＭＡエンジン５１４ＢがグローバルＩＤ＝１を有する２つのＤＭＡエンジンを含む。したがって、デバイス５００のハードウェアは、ハードウェア構成内のＤＭＡエンジンの総数及び相対的な順序を識別する情報を含む。この例では、同じＤＭＡジョブ記述５２０を読み出した後、第１のＤＭＡエンジン５１４Ａ（例えば、グローバルＩＤ＝０）は、最初の５００メガバイトのデータを転送することによってＤＭＡ転送の前半を実行する。同様に、第２のＤＭＡエンジン４１５Ｂ（例えば、グローバルＩＤ＝１）は、第２の５００メガバイトのデータを転送することによって、ＤＭＡ転送の後半を並列に実行する。

【0056】

当業者であれば、転送コマンドワークロードのこの分割は、本明細書に記載の特定の実施形態に限定されず、複数のＤＭＡエンジン間のＤＭＡ転送及びＤＭＡワークロードのインターリーブの任意のハードウェア管理された調整が、本開示の範囲から逸脱することなく実施可能であることを認識するであろう。非限定的な例として、いくつかの実施形態では、ハードウェア管理ＤＭＡワークロード分割の実施形態は、奇数／偶数バイト数分割（例えば、単一バイトベースで）、メモリチャネルアドレッシング、メモリページサイズ、メモリページ位置、完全にインターリーブされていない交互のデータブロック基準、又は、任意の他のタイプのインターリーブを含む。理解されるように、様々な実施形態において、特定のインターリーブのサイズは、システム内の特定の相互接続ハードウェア、メモリ転送サイズ及びキャッシュに依存する。インターリーブタイプ及び何れかのデータ分割タイプの最適化は、特定の実装のためのシステムマイクロアーキテクチャのタイプに応じて可変である。例えば、一実施形態では、インターリーブ分割サイズは、実行する必要があるページ変換の量を減らすために、転送サイズがページ変換サイズと一致するようにページ変換サイズに基づく。別の実施形態において、各ＤＭＡエンジン５１４は、アドレス範囲の代わりに転送される特定量のデータ（例えば、１０００メガバイト）を割り当てられる。例えば、そのような実施形態において、各ＤＭＡエンジン５１４は、他のＤＭＡエンジンと並列に１０００メガバイトのデータを転送し、それによって、ＤＭＡジョブ記述５２０は、物理アドレスＸから物理アドレスＹへの１０００メガバイトのデータの転送を指示する単一の転送コマンドであり、第２のＤＭＡエンジン５１４Ｂがアイドル状態のままである間に第１のＤＭＡエンジン５１４Ａをオンにするだけである。

【0057】

別の実施形態において、ＤＭＡエンジン５１４Ａへの第１のＤＭＡジョブ通知５１８Ａ及びＤＭＡエンジン５１４Ｂ通知への第２のＤＭＡジョブ通知５１８Ｂは、ＤＭＡエンジンがＤＭＡバッファ５１６からＤＭＡジョブ記述５２０をフェッチすべきであることを示すものではない。むしろ、一次ＤＭＡエンジン５２２は、単一のＤＭＡジョブ（例えば、物理アドレスＸから物理アドレスＹへの１０００メガバイトのデータの転送を指示するＤＭＡジョブ記述５２０）を複数のより小さいジョブに分割し、異なるワークロードを各別々のＤＭＡエンジン５１４に個別に送信する。したがって、各二次／リモートＤＭＡエンジンは、元のＤＭＡジョブ記述５２０の一部を見る。

【0058】

この例では、一次ＤＭＡエンジン５２２は、（二次／リモートＤＭＡエンジンとしての）第１のＤＭＡエンジン５１４Ａに、第１の５００メガバイトのデータを転送することによってＤＭＡ転送の前半を実行するように指示する第１のＤＭＡジョブ通知５１８Ａを送信することによって、ＤＭＡジョブ記述５２０を２つのより小さいワークロードに分割する。同様に、一次ＤＭＡエンジン５２２は、第２の５００メガバイトのデータを転送することによってＤＭＡ転送の後半を実行するように（二次／リモートＤＭＡエンジンとして）第２のＤＭＡエンジン５１４Ｂに命令する第２のＤＭＡジョブ通知５１８Ｂを送信する。各個々の二次／リモートＤＭＡエンジンがＤＭＡジョブのそれぞれの部分を終了した後、二次ＤＭＡエンジン５１４は、それらの作業完了を一次ＤＭＡエンジン５２２に通知する。その後、一次ＤＭＡエンジン５２２は、ジョブ全体が完了したことを通信する。

【0059】

この例では、個別のＤＭＡエンジン５１４は、それに送信されるジョブの全体を実行する（例えば、ＤＭＡエンジン５１４は、各ＤＭＡエンジンがワークロードの何れの部分がローカルにそれに適用可能であるかを個別に判定する上述した実施形態とは対照的に、任意の裁量なしにそれに割り当てられたワークロードを実行することによって純粋なダミーとして機能する）。様々な実施形態において、一次ＤＭＡエンジン５２２は、各リモートＤＭＡエンジンに利用可能な作業及び／又は利用可能な帯域幅又は他の処理リソースを割り当てるために一次ＤＭＡエンジンが利用可能なＤＭＡエンジンの数を判定する。

【0060】

図６は、いくつかの実施形態による、ＤＭＡ転送コマンドのハードウェア管理分割を実行する方法６００のブロック図である。例示及び説明を容易にするために、方法６００は、図１～図５のシステム及びデバイスを参照して、それらの例示的なコンテキストにおいて以下で説明される。しかしながら、方法６００は、これらの例示的なコンテキストに限定されず、代わりに、異なる実施形態では、本明細書で提供されるガイドラインを使用して、様々な可能なシステム構成の何れかに対して採用される。

【0061】

方法６００は、ブロック６０２において、第１のＤＭＡエンジンによって、ＤＭＡ転送コマンドにアクセスし、ＤＭＡ転送コマンドによって要求されたデータ転送の第１の部分を判定することによって開始する。例えば、ＤＭＡエンジン４１４に関して図４に示すように、ＤＭＡエンジン４１４Ａ及び４１４Ｂは、（ＤＭＡバッファ４１６又はシステムメモリモジュール４１２のような）１つ以上のＤＭＡワークロード又はＤＭＡジョブが形成され、メモリに満たされたことを示すＤＭＡ通知４１８を受信する。上述したような様々な実施形態において、ＤＭＡ通知４１８は、メモリ内にＤＭＡディスクリプタが準備されていることを示すドアベルリング又は他の通知器を含む。ＤＭＡ通知４１８の受信に応じて、ＤＭＡエンジン４１４Ａ及び４１４Ｂは、ＤＭＡバッファ４１６からＤＭＡジョブ記述４２０をそれぞれ独立してフェッチする。

【0062】

いくつかの実施形態において、ＤＭＡエンジン４１４Ａ及び４１４Ｂの各々は、実行すべきＤＭＡ転送コマンドによって要求されるデータ転送の一部を独立して判定する。一実施形態では、ＤＭＡエンジン４１４Ａ及び４１４Ｂの各々は、キャッシュプローブ要求４２２（例えば、読み出しプローブ及び／又は書き込みプローブ）をそれらのそれぞれのチップレット４０４のキャッシュメモリ４１０及びメインメモリ（例えば、メモリモジュール４１２）にブロードキャストすることによって、投機的ＤＭＡ転送を発行する。キャッシュプローブ要求に応じて、各チップレット４０４のキャッシュメモリ４１０及びメインメモリは、要求しているＤＭＡエンジンに１つ以上のリターンレスポンスを返す。例えば、ＤＭＡ読み出しプローブの場合、キャッシュメモリ４１０は、要求されたデータがキャッシュメモリ４１０内で見つかったか否かを示すためにキャッシュヒット又はキャッシュミスを返すことができる。

【0063】

ＤＭＡエンジン５１４に関して図５に例示されるような他の実施形態において、ＤＭＡエンジン５１４Ａ及び５１４Ｂは、一次ＤＭＡエンジン５２２からＤＭＡジョブ通知５１８（ＤＭＡエンジン５１４Ａへの第１のＤＭＡジョブ通知５１８Ａ及びＤＭＡエンジン５１４Ｂへの第２のＤＭＡジョブ通知５１８Ｂ）を受信する。一次ＤＭＡエンジン５２２は、単一のＤＭＡジョブ（例えば、物理アドレスＸから物理アドレスＹへの１０００メガバイトのデータの転送を指示するＤＭＡジョブ記述５２０）を複数のより小さいジョブに分割し、異なるワークロードを各別々のＤＭＡエンジン５１４に個別に送信する。したがって、各二次／リモートＤＭＡエンジンは、元のＤＭＡジョブ記述５２０の一部を見る。

【0064】

方法６００は、ブロック６０４に続き、ＤＭＡ転送コマンドに少なくとも部分的に基づいて、第１のＤＭＡエンジンによるデータ転送の第１の部分の転送を開始する。例えば、第１のＤＭＡエンジン４１４Ａに関して図４に示すように、アドレスＸ及びＹに関連付けられたデータの一部が第１のグラフィックス処理積層型ダイチップレット４０４Ａのキャッシュメモリ４１０（例えば、Ｌ３又は何らかの最終レベルキャッシュ）に現在存在しているかどうかを判定するために、ＤＭＡエンジン４１４Ａは、メモリモジュール４１２の前にキャッシュプローブ要求４２２をキャッシュメモリ４１０（キャッシュコントローラ［図示せず］を含む）にブロードキャストし、アドレスＸに対するキャッシュヒット及びアドレスＹに対するキャッシュミスを示す１つ以上のリターンレスポンスを受信する。図４の例示的な実施形態では、物理アドレスＸ及び物理アドレスＹに対するデータは、第２のグラフィックス処理積層型ダイチップレット４０４Ｂに直接接続されたメモリモジュール４１２に記憶される。第１のグラフィックス処理積層型ダイチップレット４０４Ａのキャッシュメモリ４１０は、物理アドレスＸに対する要求されたデータを既に含んでいるので、ＤＭＡエンジン４１４Ａは、（異なるチップレットのキャッシュからデータを取り出すこととは対照的に）アドレスＸに関連付けられたデータ転送の部分を実行する。

【0065】

ＤＭＡエンジン５１４に関して図５に例示されるようないくつかの実施形態では、ＤＭＡエンジン５１４は、データ転送量に基づいて転送コマンドのパケットを分割し、複数のＤＭＡエンジン間でワークロードをインターリーブする決定を介して、ハードウェア管理による調整を実行する。例えば、図５に例示されるように、ＤＭＡジョブ記述５２０は、物理アドレスＸから物理アドレスＹへの１０００メガバイトのデータの転送を指示する単一の転送コマンドである。一実施形態において、ＤＭＡエンジン５１４は、それらの間で総ＤＭＡ転送サイズを等しく分割する。例えば、デバイス５００は、第１のＤＭＡエンジン５１４ＡがグローバルＩＤ＝０を有し、第２のＤＭＡエンジン５１４ＢがグローバルＩＤ＝１を有する２つのＤＭＡエンジンを含む。したがって、デバイス５００のハードウェアは、ハードウェア構成内のＤＭＡエンジンの総数及び相対的な順序を識別する情報を含む。この例では、同じＤＭＡジョブ記述５２０を読み出した後、第１のＤＭＡエンジン５１４Ａ（例えば、グローバルＩＤ＝０）は、最初の５００メガバイトのデータを転送することによってＤＭＡ転送の前半を実行する。同様に、第２のＤＭＡエンジン４１５Ｂ（例えば、グローバルＩＤ＝１）は、第２の５００メガバイトのデータを転送することによって、ＤＭＡ転送の後半を並列に実行する。

【0066】

方法６００は、ブロック６０６に続き、ＤＭＡ転送コマンドに少なくとも部分的に基づいて、第２のＤＭＡエンジンによるデータ転送の第２の部分の転送を開始する。例えば、第１のＤＭＡエンジン４１４Ａに関して図４に示すように、アドレスＸ及びＹに関連付けられたデータの一部が第２のグラフィックス処理積層型ダイチップレット４０４Ｂのキャッシュメモリ４１０内に現在存在しているかどうかを判定するために、ＤＭＡエンジン４１４Ｂは、同様に、キャッシュプローブ要求４２２をキャッシュメモリ４１０にブロードキャストし、アドレスＸのキャッシュミス及びアドレスＹのキャッシュミスを示す１つ以上のリターンレスポンスを受信する。キャッシュプローブ要求４２２が第１及び第２のチップレット４０４の両方のキャッシュメモリ４１０においてキャッシュミスをもたらすことにより、データ所有キャッシュメモリ４１０のＤＭＡエンジン４１４Ｂは、物理アドレスＹに関連付けられたデータのＤＭＡ転送を実行する。言い換えれば、データにより近いＤＭＡエンジン４１４は、ＤＭＡ転送を実行するエンジンである。

【0067】

ブロック６０８において、データ転送の第１の部分及び第２の部分を転送した後、ＤＭＡ転送コマンドによって要求されたデータ転送の完了を知らせる指標（指示）が生成される。例えば、図４に例示されるように、ＤＭＡエンジン４１４は、ＤＭＡエンジン４１４間の何らかの形式の同期後にプロセッサコア４０８へ割り込み信号を送信すること等によって、ＤＭＡ転送が完了したことをシグナリングする。同様に、図５に関して、二次ＤＭＡエンジン５１４は、個々の二次／リモートＤＭＡエンジンがＤＭＡジョブのそれぞれの部分を終了した後に、それらの作業完了を一次ＤＭＡエンジン５２２に通知する。その後、一次ＤＭＡエンジン５２２は、ジョブ全体が完了したことを通信する。

【0068】

したがって、本明細書で説明されるように、より近いＤＭＡエンジンによるＤＭＡ転送パケット全体の分割及びＤＭＡ転送の実行（各ＤＭＡエンジンが他のＤＭＡエンジンと並列にその転送を実行する）のハードウェア管理された調整は、ＤＭＡ転送動作が全ての異なるチャネルにわたってメモリからデータを読み出す必要性を回避する（例えば、異なるチップレットに関連付けられたキャッシュメモリ又はＤＲＡＭからデータを読み出すことは、相互接続を通過してエネルギー性能ヒットを取るトラフィックを必要とする）。例えば、当業者は、往復ＤＭＡトラフィックが他のトラフィックと競合し、電力を消費することを認識するであろう。したがって、ＤＭＡコマンドのハードウェア管理分割は、他のトラフィック使用のための電力の低減及び帯域幅の増加をもたらす。

【0069】

本明細書に開示されるように、いくつかの実施形態において、方法は、ＤＭＡ転送コマンドに少なくとも部分的に基づいて、第１のＤＭＡエンジンによるデータ転送の第１の部分の転送を開始すること、及び、ＤＭＡ転送コマンドに少なくとも部分的に基づいて、第２のＤＭＡエンジンによるデータ転送の第２の部分の転送を開始することを含む。一態様において、方法は、第１のＤＭＡエンジンによって、ＤＭＡ転送コマンドがシステムメモリ内のＤＭＡバッファに記憶されていることを示すＤＭＡ通知を受信すること、及び、第１のＤＭＡエンジンによって、ＤＭＡバッファからＤＭＡ転送コマンドをフェッチすることを含む。別の態様では、第１のＤＭＡエンジンによるデータ転送の第１の部分の転送を開始することは、第１のＤＭＡエンジンによって、キャッシュプローブ要求をキャッシュメモリへ送信すること、及び、キャッシュメモリ内のキャッシュヒットを示すリターンレスポンスの受信に基づいて、データ転送の第１の部分を転送することを含む。更に別の態様では、第２のＤＭＡエンジンによるデータ転送の第２の部分の転送を開始することは、第２のＤＭＡエンジンによって、キャッシュプローブ要求をキャッシュメモリへ送信すること、及び、キャッシュメモリ内のキャッシュミスを示すリターンレスポンスの受信に基づいて、オーナー（所有者）メインメモリからデータ転送の第２の部分を転送することを含む。

【0070】

１つの態様では、データ転送の第１の部分を判定することは、第１のＤＭＡエンジンと第２のＤＭＡエンジンとの間で総ＤＭＡ転送サイズをインターリーブすることを更に含む。別の態様では、この方法は、一次ＤＭＡエンジンにおいて、ＤＭＡ転送コマンドを受信することと、ＤＭＡ転送コマンドを複数のより小さなワークロードに分割することと、を含む。更に別の態様では、方法は、一次ＤＭＡエンジンから、複数のより小さいワークロードのうち何れかを受信することを含む。

【0071】

いくつかの実施形態では、プロセッサデバイスは、ベース集積回路（ＩＣ）ダイであって、ベースＩＣダイの上に３Ｄ積層された複数の処理積層型ダイチップレットを含み、処理積層型ダイチップレットを互いに通信可能に結合するチップ間データファブリックを含む、ベースＩＣダイと、ベースＩＣダイの上に３Ｄ積層された複数のＤＭＡエンジンであって、複数のＤＭＡエンジンの各々は、ＤＭＡ転送コマンドによって要求されたデータ転送の一部を実行するように構成されている、ＤＭＡエンジンと、を含む。一態様において、複数のＤＭＡエンジンの各々は、複数の転送エンジンを駆動する単一のコマンドエンジンを含む。別の態様では、複数のＤＭＡエンジンの各々は、ＤＭＡ転送コマンドはシステムメモリ内のＤＭＡバッファに記憶されていることを示すＤＭＡ通知を受信するように構成される。更に別の態様では、複数のＤＭＡエンジンのうち第１のＤＭＡエンジンは、第１の処理積層型ダイチップレットに通信可能に結合されたキャッシュメモリにキャッシュプローブ要求を送信し、キャッシュメモリにおけるキャッシュヒットを示すリターンレスポンスを受信することに基づいて、データ転送の第１の部分を転送するように構成される。更に別の態様では、複数のＤＭＡエンジンのうち第２のＤＭＡエンジンは、第２の処理積層型ダイチップレットに通信可能に結合されたキャッシュメモリにキャッシュプローブ要求を送信し、キャッシュメモリにおけるキャッシュミスを示すリターンレスポンスを受信することに基づいてオーナー（所有者）メインメモリからデータ転送の第２の部分を転送するように構成される。

【0072】

一態様において、複数のＤＭＡエンジンの各々は、複数のＤＭＡエンジン間で総ＤＭＡ転送サイズをインターリーブすることによって、データ転送の部分を独立して判定するように構成される。別の態様では、プロセッサデバイスは、ＤＭＡ転送コマンドを受信し、ＤＭＡ転送コマンドを複数のより小さいワークロードに分割するように構成された一次ＤＭＡエンジンを含む。更に別の態様では、一次ＤＭＡエンジンは、複数のより小さいワークロードのうち異なるワークロードを複数のＤＭＡエンジンの各々に送信するように更に構成される。

【0073】

いくつかの実施形態では、システムは、並列プロセッサマルチチップモジュールに通信可能に結合されたホストプロセッサを備え、並列プロセッサマルチチップモジュールは、ベース集積回路（ＩＣ）ダイであって、ベースＩＣダイの上に３Ｄ積層された複数の処理積層型ダイチップレットを含み、処理積層型ダイチップレットを互いに通信可能に結合するチップ間データファブリックを含む、ベースＩＣダイと、ベースＩＣダイの上に３Ｄ積層された複数のＤＭＡエンジンであって、複数のＤＭＡエンジンの各々は、ＤＭＡ転送コマンドによって要求されたデータ転送の一部を実行するように構成されている、ＤＭＡエンジンと、を含む。一態様において、システムは、ＤＭＡ転送コマンドを受信し、ＤＭＡ転送コマンドを複数のより小さいワークロードに分割するように構成された一次ＤＭＡエンジンであって、複数のより小さいワークロードのうち異なるワークロードを複数のＤＭＡエンジンの各々に送信するように更に構成された一次ＤＭＡエンジンを含む。別の態様では、複数のＤＭＡエンジンの各々は、複数のＤＭＡエンジン間で総ＤＭＡ転送サイズをインターリーブすることによって、データ転送の部分を独立して判定するように構成される。更に別の態様では、複数のＤＭＡエンジンのうち第１のＤＭＡエンジンは、第１の処理積層型ダイチップレットに通信可能に結合されたキャッシュメモリにキャッシュプローブ要求を送信し、キャッシュメモリにおけるキャッシュヒットを示すリターンレスポンスを受信することに基づいて、データ転送の第１の部分を転送するように構成される。更に別の態様では、複数のＤＭＡエンジンのうち第２のＤＭＡエンジンは、第２の処理積層型ダイチップレットに通信可能に結合されたキャッシュメモリにキャッシュプローブ要求を送信し、キャッシュメモリにおけるキャッシュミスを示すリターンレスポンスを受信することに基づいてオーナー（所有者）メインメモリからデータ転送の第２の部分を転送するように構成される。

【0074】

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

【0075】

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

【0076】

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

【0077】

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

【図1】