特表2024-532714 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アップル　インコーポレイテッドの特許一覧

特表2024-532714グラフィックスプロセッサのための論理スロットからハードウェアスロットへのマッピング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7
8
9
10A
10B
10C
11A
11B
12
13
14A
14B
15
16
17
18
19A
19B
20
21
22
23
24
25
26
27
28

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-10

(54)【発明の名称】グラフィックスプロセッサのための論理スロットからハードウェアスロットへのマッピング

(51)【国際特許分類】

G06F 9/50 20060101AFI20240903BHJP

G06F 9/46 20060101ALI20240903BHJP

G06F 9/38 20180101ALI20240903BHJP

G06F 12/084 20160101ALI20240903BHJP

G06F 12/0875 20160101ALI20240903BHJP

G06F 12/0891 20160101ALI20240903BHJP

【ＦＩ】

G06F9/50 150E

G06F9/46 420A

G06F9/38 370X

G06F12/084

G06F12/0875 106

G06F12/0891

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024506912

(86)(22)【出願日】2022-07-20

(85)【翻訳文提出日】2024-02-05

(86)【国際出願番号】 US2022037716

(87)【国際公開番号】W WO2023018529

(87)【国際公開日】2023-02-16

(31)【優先権主張番号】17/399,711

(32)【優先日】2021-08-11

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/399,759

(32)【優先日】2021-08-11

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＥＲＩＬＯＧ

(71)【出願人】

【識別番号】503260918

【氏名又は名称】アップルインコーポレイテッド

【氏名又は名称原語表記】ＡｐｐｌｅＩｎｃ．

【住所又は居所原語表記】ＯｎｅＡｐｐｌｅＰａｒｋＷａｙ，Ｃｕｐｅｒｔｉｎｏ，Ｃａｌｉｆｏｒｎｉａ９５０１４，Ｕ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100094569

【弁理士】

【氏名又は名称】田中伸一郎

(74)【代理人】

【識別番号】100103610

【弁理士】

【氏名又は名称】▲吉▼田和彦

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100139712

【弁理士】

【氏名又は名称】那須威夫

(72)【発明者】

【氏名】ハヴリルアンドリューエム

(72)【発明者】

【氏名】フィッシュウィックスティーヴン

(72)【発明者】

【氏名】ゴットウォルトディヴィッドエイ

(72)【発明者】

【氏名】バウマンベンジャミン

(72)【発明者】

【氏名】テイラーラルフシー

(72)【発明者】

【氏名】ベレスメリッサエル

(72)【発明者】

【氏名】ワイルダームラデン

(72)【発明者】

【氏名】ラバーニランクーヒーアリ

(72)【発明者】

【氏名】マクギャリーファーガスダブリュ

【テーマコード（参考）】

5B013

5B205

【Ｆターム（参考）】

5B013DD05

5B205KK22

5B205MM03

(57)【要約】

開示される技術は、グラフィックスプロセッサにおけるワーク分散に関する。いくつかの実施形態では、装置は、複数の論理スロットと、各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットとを実装する回路を含む。回路は、グラフィックスワークの第１及び第２のセットのための異なる分散規則を決定し、分散規則に基づいて論理スロットを分散ハードウェアスロットにマッピングすることができる。様々な実施形態では、開示される技術は、有利には、様々なサイズのグラフィックスキックのための分散シェーダプロセッサにわたってワークを効率的に分散させることができる。

【特許請求の範囲】

【請求項1】

装置であって、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを、第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上に分散させる、ように構成された制御回路と、を備える装置。

【請求項2】

前記グラフィックスプロセッササブユニットは、複数のサブユニットの複数のグループに編成され、同じグループ内のサブユニットはキャッシュを共有し、
前記第２の分散規則は、グラフィックスワークの前記第２のセットを単一のグループのサブユニットに分散させることを示す、請求項１に記載の装置。

【請求項3】

所与のグループの前記サブユニットは、同じ物理的ダイ上に実装される、請求項２に記載の装置。

【請求項4】

前記第２の分散規則は、グラフィックスワークの前記第２のセットを単一のサブユニットに分散させることを示す、請求項１に記載の装置。

【請求項5】

前記制御回路は、グラフィックスワークの前記第１及び第２のセット内のワーク量に基づいて、前記第１及び第２の分散規則を選択するように構成される、請求項１に記載の装置。

【請求項6】

グラフィックスワークの前記第１のセットは、前記第１の論理スロットに割り当てられた計算キックの第１のカーネルであり、前記計算キックは、少なくとも１つの他のカーネルを含み、前記装置は、前記少なくとも１つの他のカーネルに対して前記第１のカーネルとは異なる分散規則を選択するように構成される、請求項１に記載の装置。

【請求項7】

前記制御回路は、実行されているグラフィックスプログラムによって信号伝達される１つ以上のソフトウェアオーバーライドに基づいて、前記第１の分散規則を決定するように構成される、請求項１に記載の装置。

【請求項8】

前記装置は、以下のタイプのソフトウェアオーバーライド、すなわち、
どのサブユニットがグラフィックスワークの前記第１のセットに利用可能であるかを示すマスク情報と、
指定された分散規則と、
グラフィックスワークの前記第１のセットが展開されるべきサブユニットのグループを示すグループ情報と、
スケジューリングポリシーを示すポリシー情報と、に基づいて前記第１の分散規則を選択するように構成される、請求項７に記載の装置。

【請求項9】

前記グラフィックスプロセッササブユニットは、それぞれの
フラグメント生成回路と、
シェーダコア回路と、
データキャッシュ及びメモリ管理ユニットを含むメモリシステム回路と、
ジオメトリ処理回路と、
分散ワーク負荷分散回路と、を含む、請求項１に記載の装置。

【請求項10】

前記分散ハードウェアスロットは、それぞれの
構成レジスタと、
バッチ待ち行列回路と、
バッチ反復回路と、を含み、
サブユニット内のシェーダ回路は、その複数の分散ハードウェアスロットからワークを受信して実行するように構成される、請求項１に記載の装置。

【請求項11】

論理スロットのための制御回路は、
第１及び第２の分散規則を決定するように構成された制御ストリームプロセッサと、
計算ワークグループのバッチを生成するように構成されたカーネルプロセッサと、
計算ワークグループのバッチをサブユニットに割り当てるように構成されたサブユニット割り当て回路と、を含み、
前記制御回路は、
示された分散規則に基づいてストリームプロセッサを制御するためにハードウェアスロットを割り当てるように構成されたハードウェアスロットリソースアロケータ回路と、
割り当てられたサブユニットへの分散のために、異なる論理スロットからのバッチ間で調停するように構成された論理スロットアービタ回路と、を含む、請求項１に記載の装置。

【請求項12】

前記ハードウェアスロットリソースアロケータ回路は、ハードウェアスロットの状態に基づいてハードウェアスロットを割り当てるように構成され、異なるハードウェアスロットの前記状態は、少なくとも、無効、実行中、空、及びフラッシュを含む、請求項１１に記載の装置。

【請求項13】

前記装置は、
カーネルが割り当てられた１つ以上のサブユニットについてのみキャッシュをフラッシュ及び無効化する第１のタイプのキャッシュフラッシュ無効化動作と、
１つ以上のキャッシュレベルでグラフィックスプロセッササブユニットのセットのための全てのキャッシュをフラッシュ及び無効化する無条件タイプのキャッシュフラッシュ無効化動作と、を実行するように構成される、請求項１に記載の装置。

【請求項14】

前記制御回路は、
複数の論理スロットのスロットのためのそれぞれの保持値であって、保持値は、論理スロットのためのカーネルのステータスを示す、保持値を決定することと、
前記それぞれの保持値のうちの１つ以上に基づいて、第１の優先度レベルを有する論理スロットが、第２のより低い優先度レベルを有する論理スロットに割り当てられたハードウェアスロットを再利用することを可能にすることと、を実行するように更に構成される、請求項１に記載の装置。

【請求項15】

前記制御回路は、
前記第１の論理スロットのための構成レジスタのプログラミングの完了の前に、グラフィックスワークの前記第１のセットの部分を、グラフィックスワークの前記第１のセットに割り当てられた分散ハードウェアスロットであって、前記分散ハードウェアスロットは、グラフィックスワークの前記第１のセットの受信された部分のための待ち行列回路を含む、分散ハードウェアスロットに送信することを実行するように更に構成される、請求項１に記載の装置。

【請求項16】

設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、前記設計情報は、前記回路が、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを、第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上に分散させる、ように構成された制御回路と、を含む、非一時的コンピュータ可読記憶媒体。

【請求項17】

前記グラフィックスプロセッササブユニットは、複数のサブユニットの複数のグループに編成され、同じグループ内のサブユニットはキャッシュを共有し、
前記第２の分散規則は、グラフィックスワークの前記第２のセットを単一のグループのサブユニットに分散させることを示す、請求項１６に記載の非一時的コンピュータ可読記憶媒体。

【請求項18】

前記制御回路は、実行されているグラフィックスプログラムによって信号伝達された１つ以上のソフトウェアオーバーライドに基づいて前記第１の分散規則を決定するように構成され、前記回路は、以下のタイプのソフトウェアオーバーライド、すなわち
どのサブユニットがグラフィックスワークの第１のセットに利用可能であるかを示すマスク情報と、
指定された分散規則と、
グラフィックスワークの第１のセットが展開されるべきサブユニットのグループを示すグループ情報と、
スケジューリングポリシーを示すポリシー情報と、に基づいて前記第１の分散規則を選択するように構成される、請求項１６に記載の非一時的コンピュータ可読記憶媒体。

【請求項19】

【請求項20】

前記複数の論理スロットのスロットに対するそれぞれの保持値であって、前記保持値は、論理スロットのためのカーネルのステータスを示す、保持値を決定することと、
前記それぞれの保持値のうちの１つ以上に基づいて、第１の優先度レベルを有する論理スロットが、第２のより低い優先度レベルを有する論理スロットに割り当てられたハードウェアスロットを再利用することを可能にすることと、
を更に含む、請求項１９に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、概してグラフィックスプロセッサに関し、より詳細には、複数の複製された処理要素を有するグラフィックスプロセッサにおいてグラフィックスワークを分散させるための技術に関する。

【背景技術】

【0002】

増大する計算能力を考慮すると、グラフィックスプロセッシングユニット（ＧＰＵ）は、現在、大規模なワーク負荷のために広く使用されている。ワーク負荷は、例えば、頂点シェーダ、フラグメントシェーダ、及び計算タスクを含み得る。Ｍｅｔａｌ及びＯｐｅｎＣＬなどのＡＰＩは、ソフトウェア開発者に、それらのアプリケーションのためにＧＰＵの計算能力にアクセスするためのインタフェースを与える。近年、ソフトウェア開発者は、アプリケーションのかなりの部分をＧＰＵの使用に移している。

【0003】

プロセス技術が縮小し、ＧＰＵがより強力になるにつれて、それらは多数のシェーダコアを含むことができる。ソフトウェア又はファームウェアは、「キック」と呼ばれる、実行されるべきワーク単位を提供することができる。データマスタ回路（例えば、計算データマスタ、頂点データマスタ、及びピクセルデータマスタ）は、例えば、通信ファブリックを介して、これらのキックからのワークを複数の複製されたシェーダコアに分散させることができる。シェーダの数がスケーリングするにつれて、ワーク分散及びスケジューリング技術は、性能及び電力消費に実質的に影響を及ぼし得る。

【図面の簡単な説明】

【0004】

【図1A】いくつかの実施形態による、例示的なグラフィックス処理動作の概要を示す図である。

【0005】

【図1B】いくつかの実施形態による、例示的なグラフィックスユニットを示すブロック図である。

【0006】

【図2】いくつかの実施形態による、論理スロットを分散ハードウェアスロットにマッピングするように構成された例示的な一次制御回路を示すブロック図である。

【0007】

【図3】いくつかの実施形態による、一次制御回路とＧＰＵハードウェアサブユニットの例示的なグループとを示すブロック図である。

【0008】

【図4】いくつかの実施形態による、論理スロットを分散ハードウェアスロットにマッピングするための３つの例示的な分散モードを示す図である。

【0009】

【図5】いくつかの実施形態による、異なる分散モードを使用する分散ハードウェアへの複数の論理スロットの例示的なマッピングを示す図である。

【0010】

【図6】いくつかの実施形態による、一次制御回路の詳細な例示的要素を示すブロック図である。

【0011】

【図7】いくつかの実施形態による、例示的な分散スロット状態及びカーネル常駐情報を示す図である。

【0012】

【図8】いくつかの実施形態による、論理スロットを分散ｍＧＰＵハードウェアスロットにマッピングするための例示的な方法を示すフロー図である。

【0013】

【図9】いくつかの実施形態による、例示的なソフトウェアオーバーライドフィールドを示す図である。

【0014】

【図10A】いくつかの実施形態による、異なる例示的な分散モードのハードウェアスロット状態に基づいてハードウェアスロットを選択するための例示的な技術を示すフロー図である。

【図10B】いくつかの実施形態による、異なる例示的な分散モードのハードウェアスロット状態に基づいてハードウェアスロットを選択するための例示的な技術を示すフロー図である。

【図10C】いくつかの実施形態による、異なる例示的な分散モードのハードウェアスロット状態に基づいてハードウェアスロットを選択するための例示的な技術を示すフロー図である。

【0015】

【図11A】いくつかの実施形態による、例示的な論理スロット保持ステータス値を示す図である。

【0016】

【図11B】いくつかの実施形態による、ハードウェアスロットを再利用するための例示的な技術を示すフロー図である。

【0017】

【図12】いくつかの実施形態による、例示的なソフトウェア制御ハードウェアスロット保持手順を示すフロー図である。

【0018】

【図13】いくつかの実施形態による、より高い優先度の論理スロットのためのｍＧＰＵ内の例示的な予約済みハードウェアスロットを示す図である。

【0019】

【図14A】いくつかの実施形態による、無条件フィールドをエンコードする例示的なキャッシュフラッシュ無効化コマンドを示す。

【図14B】いくつかの実施形態による、例示的なフラッシュ制御回路を示す。

【0020】

【図15】いくつかの実施形態による、グラフィックスワークのセットによって示される例示的なアフィニティマップを示すブロック図である。

【0021】

【図16】いくつかの実施形態による、アフィニティベースのスケジューリングのための例示的なカーネルウォーカ回路を示すブロック図である。

【0022】

【図17】いくつかの実施形態による、ソフトウェア指示アフィニティに基づくカーネルの例示的な反復を示す図である。

【0023】

【図18】いくつかの実施形態による、例示的なワークシェア制御回路を示すブロック図である。

【0024】

【図19A】いくつかの実施形態による、依存関係追跡及びステータス回路を伴う例示的な論理スロットマネージャを示すブロック図であり、

【図19B】例示的な追跡及びステータスフィールドを示す。

【0025】

【図20】いくつかの実施形態による、キックスロットマネージャのための例示的なレジスタプリフェッチバッファを示す図である。

【0026】

【図21】いくつかの実施形態による、キックスロットマネージャによって処理される上部スロットのための例示的なステートマシンを示す図である。

【0027】

【図22】いくつかの実施形態による、例示的な方法を示すフロー図である。

【図23】いくつかの実施形態による、例示的な方法を示すフロー図である。

【図24】いくつかの実施形態による、例示的な方法を示すフロー図である。

【図25】いくつかの実施形態による、例示的な方法を示すフロー図である。

【0028】

【図26】いくつかの実施形態による、例示的な計算デバイスを示すブロック図である。

【0029】

【図27】いくつかの実施形態による、開示されるシステム及びデバイスの例示的な用途を示す図である。

【0030】

【図28】いくつかの実施形態による、回路設計情報を記憶する例示的なコンピュータ可読媒体を示すブロック図である。

【発明を実施するための形態】

【0031】

本開示は、論理キックスロット及び論理キックスロットから分散ハードウェアへのワークの分散に関する様々な技術を対象とする。図１Ａ－１Ｂは、グラフィックスプロセッサの概要を提供する。図２～図８は、グラフィックス処理のために論理スロットを分散ハードウェアスロットにマッピングする技術の概要を提供する。図９は、マッピングに影響を及ぼし得る例示的なソフトウェアオーバーライドを示す。図１０～図１４は、論理スロットマッピングのコンテキストにおいて、分散モードを実施し、ハードウェアスロットを再利用し、ハードウェアスロットを保持し、論理スロット優先度を提供し、キャッシュフラッシュ動作を処理するための例示的な技術を示す。図１５～図１８は、アフィニティベースのスケジューリングのための例示的な技術を示す。図１９～図２１は、ソフトウェアとインタフェースし、論理スロットを構成するキックスロットマネージャを示す。残りの図は、例示的な方法、システム、アプリケーションなどを示す。様々な実施形態では、開示される技術は、以下で詳細に説明するように、従来の技術に対して、グラフィックスプロセッサの性能を有利に改善するか、又は電力消費を低減することができる。
グラフィックス処理の概要

【0032】

図１Ａを参照すると、グラフィックスデータを処理するための例示的な処理フロー１００を説明するフロー図が示されている。いくつかの実施形態では、変換及び照明手順１１０は、規定された光源ロケーション、反射率などに基づいて、アプリケーションから受信した頂点の照明情報を処理すること、頂点をポリゴン（例えば、三角形）に組み立てること、及びポリゴンを、三次元空間内のポジションに基づいた正しいサイズ及び向きに変換することを伴い得る。クリップ手順１１５は、閲覧可能領域の外側にあるポリゴン又は頂点を廃棄することを伴い得る。ラスタ化手順１２０は、各ポリゴン内にフラグメントを規定し、例えば、ポリゴンの頂点のテクスチャ座標に基づいて、各フラグメントに対して初期色値を割り当てることを伴い得る。フラグメントは、フラグメントが重なり合う画素の属性を指定することができるが、実際の画素属性は、（例えば、フレームバッファ内の）複数のフラグメントを組み合わせること、１つ以上のフラグメントを無視すること（例えば、フラグメントが他のオブジェクトによって覆われている場合）、又はその両方に基づいて決定されてもよい。シェーディング手順１３０は、照明、影、バンプマッピング、透光性などに基づいてピクセル構成要素を変更することを伴い得る。シェーディングされたピクセルは、フレームバッファ１３５内でアセンブルされ得る。最新のＧＰＵは、典型的には、アプリケーション開発者によるシェーディング及び他の処理手順のカスタマイズを可能にするプログラム可能なシェーダを含む。したがって、様々な実施形態において、図１Ａの例示的な要素は、様々な順序で実行されてもよいし、並行して実行されてもよいし、省略されてもよい。追加の処理手順もまた実施されてもよい。

【0033】

ここで図１Ｂを参照すると、いくつかの実施形態による、グラフィックスユニット１５０を示す簡略ブロック図が示されている。図示した実施形態では、グラフィックスユニット１５０は、プログラム可能なシェーダ１６０、頂点パイプ１８５、フラグメントパイプ１７５、テクスチャ処理ユニット（ＴＰＵ）１６５、画像書き込みユニット１７０、及びメモリインタフェース１８０を含む。いくつかの実施形態では、グラフィックスユニット１５０は、複数の実行パイプライン又はインスタンスを用いてグラフィックスデータを並行して処理するように構成され得る、プログラム可能なシェーダ１６０を用いて、頂点データ及びフラグメントデータの両方を処理するように構成される。

【0034】

図示する実施形態において、頂点パイプ１８５は、頂点データを処理するように構成された様々な固定機能ハードウェアを含み得る。頂点パイプ１８５は、頂点処理を調整するために、プログラム可能なシェーダ１６０と通信するように構成されてもよい。図示した実施形態では、頂点パイプ１８５は、更なる処理のために、処理されたデータを、フラグメントパイプ１７５又はプログラム可能なシェーダ１６０に送信するように構成されている。

【0035】

図示する実施形態において、フラグメントパイプ１７５は、画素データを処理するように構成された様々な固定機能ハードウェアを含み得る。フラグメントパイプ１７５は、フラグメント処理を調整するために、プログラム可能なシェーダ１６０と通信するように構成されてもよい。フラグメントパイプ１７５は、頂点パイプ１８５又はプログラム可能なシェーダ１６０からのポリゴンにラスタ化を実行して、フラグメントデータを生成するように構成されてもよい。頂点パイプ１８５及びフラグメントパイプ１７５は、グラフィックスデータにアクセスするために、メモリインタフェース１８０に連結されてもよい（連結は図示されていない）。

【0036】

図示する実施形態において、プログラム可能なシェーダ１６０は、頂点パイプ１８５から頂点データを受信し、フラグメントパイプ１７５及びＴＰＵ１６５からフラグメントデータを受信するように構成されている。プログラム可能なシェーダ１６０は、頂点データの様々な変換及び調整を含み得る、頂点データに対する頂点処理タスクを実行するように構成されてもよい。図示した実施形態におけるプログラム可能なシェーダ１６０は、また、例えば、テクスチャリング及びシェーディングなどの画素データに対するフラグメント処理タスクを実行するように構成される。プログラム可能なシェーダ１６０は、データを並行して処理するために複数の実行パイプラインの複数のセットを含んでもよい。

【0037】

いくつかの実施形態では、プログラム可能なシェーダは、１つ以上の異なるＳＩＭＤグループを並列に実行するように構成されたパイプラインを含む。各パイプラインは、フェッチ、デコード、発行、実行など、所与のクロックサイクルにおいて動作を実行するように構成された様々なステージを含んでもよい。プロセッサ「パイプライン」の概念はよく理解されており、プロセッサが命令に対して実行する「ワーク」を複数のステージに分割する概念を指す。いくつかの実施形態では、命令デコード、ディスパッチ、実行（すなわち、パフォーマンス）、及びリタイアメントは、異なるパイプラインステージの例であってもよい。要素／部分の順序を変えることで、多くの異なるパイプラインアーキテクチャが可能である。様々なパイプラインステージが、１つ以上のプロセッサクロックサイクル中に命令に対してそのような工程を実行し、次いで、命令又は命令に関連する動作を、更なる処理のために他のステージに渡す。

【0038】

「ＳＩＭＤグループ」という用語は、そのよく理解されている意味に従って解釈されることが意図されており、処理ハードウェアが、異なるスレッドのための異なる入力データを使用して同じ命令を並列に処理するスレッドのセットを含む。様々なタイプのコンピュータプロセッサは、ＳＩＭＤ命令を実行するように構成されたパイプラインのセットを含み得る。例えば、グラフィックスプロセッサは、しばしば、関係するスレッドのセットのための命令をＳＩＭＤ方式で実行するように構成されたプログラム可能なシェーダコアを含む。ＳＩＭＤグループのために使用され得る名前の他の例は、ウェーブフロント、クリーク、又はワープを含む。ＳＩＭＤグループは、コンピュータの並列処理能力に基づいていくつかのＳＩＭＤグループに分割され得る、より大きいスレッドグループの一部であり得る。いくつかの実施形態では、各スレッドは、そのスレッドのオペランドをフェッチし、スレッドのセットの他のパイプラインと並行して指定された動作を実行するハードウェアパイプラインに割り当てられる。プロセッサは、複数の別個のＳＩＭＤグループも並列に実行することができるように、多数のパイプラインを有することができることに留意されたい。いくつかの実施形態では、各スレッドは、例えばレジスタファイル内にプライベートオペランドストレージを有する。したがって、レジスタファイルからの特定のレジスタの読み出しは、ＳＩＭＤグループ内の各スレッドに対するレジスタのバージョンを提供することができる。

【0039】

いくつかの実施形態では、複数のプログラム可能なシェーダユニット１６０がＧＰＵに含まれる。これらの実施形態では、グローバル制御回路は、ＧＰＵの異なるサブ部分にワークを割り当てることができ、次に、シェーダパイプラインによって処理されるシェーダコアにワークを割り当てることができる。

【0040】

図示する実施形態において、ＴＰＵ１６５は、プログラム可能なシェーダ１６０からのフラグメント処理タスクをスケジュールするように構成されている。いくつかの実施形態では、ＴＰＵ１６５は、テクスチャデータを事前にフェッチし、（例えば、メモリインタフェース１８０を介して）プログラム可能なシェーダ１６０による更なる処理のために初期の色をフラグメントに割り当てるように構成される。ＴＰＵ１６５は、例えば、正規化された整数形式又は浮動小数点形式のフラグメント構成要素を提供するように構成されてもよい。いくつかの実施形態では、ＴＰＵ１６５は、プログラム可能なシェーダ１６０内の４つの実行パイプラインのグループによって処理されるように２×２フォーマットの４つのグループ（「フラグメントクワッド」）のフラグメントを提供するように構成される。

【0041】

いくつかの実施形態では、画像書き込みユニット（ＩＷＵ）１７０は、画像の処理済みタイルを記憶するように構成され、レンダリングされた画像に対して、表示のために又は記憶のためのメモリに転送される前に動作を実行することができる。いくつかの実施形態では、グラフィックスユニット１５０は、タイルベースの遅延レンダリング（ＴＢＤＲ）を実行するように構成される。タイルベースのレンダリングでは、スクリーン空間の異なる部分（例えば、画素の正方形又は矩形）を、別々に処理することができる。メモリインタフェース１８０は、様々な実施形態において、様々なメモリ階層のうちの１つ以上との通信を容易にすることができる。

【0042】

上述したように、グラフィックスプロセッサは、通常、コンピューティングシステムによって要求される特定のグラフィックス処理動作を実行するように構成された専用回路を含む。これは、例えば、固定関数頂点処理回路、ピクセル処理回路、又はテクスチャサンプリング回路を含み得る。グラフィックスプロセッサはまた、ＧＰＵシェーダコアを使用し得るが、固定機能グラフィックスハードウェアを使用し得ない非グラフィックス計算タスクを実行し得る。一例として、機械学習ワーク負荷（推論、訓練、又は両方を含み得る）は、それらの並列処理能力のために、ＧＰＵに割り当てられることが多い。したがって、ＧＰＵによって実行される計算カーネルは、ＧＰＵシェーダによって実行されるべき機械学習モデルのニューラルネットワーク層又は他の態様を実装するなど、機械学習タスクを指定するプログラム命令を含み得る。いくつかのシナリオでは、非グラフィックスワーク負荷はまた、例えば、元々意図されたものとは異なる目的のために、専用グラフィックス回路を利用し得る。

【0043】

更に、グラフィックスプロセッサを参照して本明細書で説明される様々な回路及び技術は、他の実施形態では他のタイプのプロセッサにおいて実装され得る。他のタイプのプロセッサは、ＣＰＵなどの汎用プロセッサ、又は専用並列処理能力を有する機械学習もしくは人工知能アクセラレータを含んでもよい。これらの他のタイプのプロセッサは、グラフィックス命令を実行するように、又はグラフィックス動作を実行するように構成されなくてもよい。例えば、他のタイプのプロセッサは、典型的なＧＰＵに含まれる固定機能ハードウェアを含まなくてもよい。機械学習アクセラレータは、ニューラルネットワーク層又は機械学習モデルの他の態様を実装することなど、いくつかの動作のための専用ハードウェアを含み得る。概して言えば、メモリ要件、計算能力、電力消費、及び機械学習アクセラレータのプログラム可能性の間には設計上のトレードオフが存在し得る。したがって、異なる実装は、異なる性能目標に焦点を合わせることができる。開発者は、所与の機械学習アプリケーションのための複数の潜在的なハードウェアターゲットの中から、例えば、汎用プロセッサ、ＧＰＵ、及び異なる特殊機械学習アクセラレータの中から選択することができる。
ワーク分散及び論理スロットの概要

【0044】

図２は、いくつかの実施形態による、例示的な一次制御回路及びグラフィックスプロセッササブユニットを示すブロック図である。図示の実施形態では、グラフィックスプロセッサは、一次２１０及びサブユニット２２０Ａ～２２０Ｎを含む。

【0045】

一次制御回路２１０は、例えば、計算データマスタ、頂点データマスタ、又はピクセルデータマスタであってもよい。したがって、いくつかの実施形態では、グラフィックスプロセッサは、同じセットのサブユニットに異なるタイプのワークを送信する一次制御回路２１０の複数のインスタンスを含む。一次制御回路２１０は、インタフェースを介して、ソフトウェア、ファームウェア、又は両方からキックを受信してもよい。本明細書で使用される場合、「ソフトウェア」という用語は、実行可能プログラム命令を広く指し、例えば、ファームウェア、オペレーティングシステム、及びサードパーティアプリケーションを包含する。したがって、本明細書におけるソフトウェアへの様々な言及は、代替的に又は追加的にファームウェアに適用され得ることを理解されたい。一次制御回路２１０は、図示の実施形態では、論理スロットから分散ハードウェアスロットへのマッピング制御回路２１５を含む。制御回路２１５は、（例えば、図４を参照して以下で議論される異なる分散モードに従って）論理スロット（「キックスロット」と称され得る）からグラフィックスプロセッサの全部又は一部上の分散ハードウェアスロットにワークを分散させてもよい。

【0046】

様々な回路が、論理スロットを制御するものとして本明細書で説明される。「論理」という用語は、論理スロットへのワークの割り当てが、割り当てられたワークのグラフィックス命令をどのハードウェアが実際に実行するかを暗示しないことを意味する。制御回路は、論理スロットに関する情報を維持し、実際の実行のために論理スロットからのワークをハードウェアスロットに割り当てるハードウェアを含むことができる。したがって、論理スロットへの最初の割り当て時に、ワークのセットを実行するハードウェアスロットは知られていない。以下で詳細に説明するように、論理スロットは、特に複数のシェーダコアを有するグラフィックスプロセッサにおいて、グラフィックスワークをスケジューリングするとき、性能及び電力消費の点で様々な利点を提供し得る。

【0047】

グラフィックスデータのフレームをレンダリングするために、複数の「キック」が実行され得る。いくつかの実施形態では、キックは、実行されるべき複数のスレッドを含み得る（及びシェーダによって実行されない他のタイプのグラフィックスワークを潜在的に含み得る）単一のコンテキストからのワークの単位である。キックは、（スレッド自体によって指定される以外）のスレッド間のメモリ同期、スレッド間の同時性、又はスレッド間の起動順序に関するいかなる保証も提供しない場合がある。いくつかの実施形態では、キックは、別のキックの結果に依存するものとして識別されてもよく、これは、ハードウェアメモリコヒーレンシのサポートを必要とせずにメモリ同期を可能にし得る。通常、グラフィックスファームウェア又はハードウェアプログラムは、処理のためにワークをパイプライン（複数可）に送信する前に、各キックのための構成レジスタを設定する。多くの場合、キックが開始されると、キックが終了するまで（その時点で結果が階層内の別のレベルに書き込まれ得る）、あるレベルを超えてメモリ階層にアクセスしない。所与のキックについての情報は、対応するグラフィックス動作を完了するために必要とされる、状態情報、実行すべきシェーダプログラム（複数可）のロケーション、バッファ情報、テクスチャデータのロケーション、利用可能なアドレス空間などを含み得る。グラフィックスファームウェア又はハードウェアは、キックをスケジュールし、例えば、キックが完了したときに割り込みを検出することができる。いくつかの実施形態では、グラフィックスユニットの部分は、一度に単一のキックに作用するように構成される。本明細書で詳細に説明するように、追跡スロット（「トップスロット」とも呼ばれる）及び論理キックスロットは、シェーダハードウェアにキックを割り当てる前にキックを制御するために使用され得る。キックは、プロシージャルジオメトリを描画するコマンド、シャドウサンプリング方法を設定するコマンド、メッシュを描画するコマンド、テクスチャを取得するコマンド、生成計算を実行するコマンドなどを含むことができる１つ以上のレンダリングコマンドのセットを含むことができる。キックは、フレームのレンダリング中に様々な段階のうちの１つで実行することができる。レンダリング段階の例は、カメラレンダリング、光レンダリング、投影、テクスチャリング、フラグメントシェーディングなどを含むが、これらに限定されない。キックは、例えば、計算ワーク、頂点ワーク、又はピクセルワークのためにスケジュールされ得る。

【0048】

サブユニット２２０は、いくつかの実施形態では、ＧＰＵの処理能力を高めるために複製され得るスケーリングユニットである。各ＧＰＵサブユニット２２０は、グラフィックスプログラムの命令を独立して処理することが可能であり得る。サブユニット２２０は、図示の実施形態では、それぞれの分散ハードウェアスロット２３０を実装する回路を含む。これらのハードウェアスロットは、本明細書では「ｄＳｌｏｔ」と呼ばれることもある。各サブユニットは、複数のハードウェアスロット２３０を含むことができる。サブユニットは、本明細書では「ｍＧＰＵ」と呼ばれることもある。いくつかの実施形態では、一次制御回路２１０は、論理スロットからのワークを各サブユニット２２０内の多くても１つの分散ハードウェアスロットに割り当てる。いくつかの実施形態では、各サブユニットは、フラグメント生成回路と、シェーダプログラムを実行するように構成されたシェーダコア回路と、メモリシステム回路（１つ以上のキャッシュ及びメモリ管理ユニットを含み得る）と、ジオメトリ処理回路と、分散ワーク負荷分散回路（一次制御回路２１０と協調してワークをシェーダパイプラインに分散させ得る）とを含む。

【0049】

各分散ハードウェアスロットは、割り当てられたキック又はその一部を処理するように構成された様々な回路を含むことができ、構成レジスタ、ワーク待ち行列、待ち行列内のワークを反復するように構成された回路（例えば、計算ワーク項目のバッチ）、コンテキストロード／ストアを順序付ける回路、及びワーク分散追跡回路を含む。各サブユニット２２０は、サブユニット中の分散スロットからワークを受け入れ、パイプラインを使用してワークを実行する複数のシェーダを含み得る。例えば、各シェーダは、各分散ハードウェアスロットのための待ち行列を含むことができ、ワーク優先度に基づいて待ち行列の中からワークを選択することができる。

【0050】

いくつかの実施形態では、所与のサブユニット２２０は、図１の複数のプログラム可能なシェーダ１６０を含む。

【0051】

以下で詳細に説明するように、論理スロットから分散ハードウェアスロットへのマッピング制御回路２１５は、様々なパラメータ、ソフトウェア制御入力などに基づいて、サブユニット２２０にわたってキックを分散させることができる。

【0052】

図３は、いくつかの実施形態による、一次制御回路及びグループ化されたプロセッササブユニットのより詳細な例を示すブロック図である。図示の実施形態では、一次制御回路２１０は、キックスロットマネージャ（ＫＳＭ）３５０と通信し、構成レジスタ３１２を含む。これらの構成レジスタは、セットアップレジスタ及び実行レジスタの両方を含み得る。セットアップフェーズレジスタは、キックを実行するために使用される分散ハードウェアに依存しないグローバル構造であり得るが、実行レジスタはサブユニット構造ごとであり得る。一般に、一次制御回路２１０内に示されているが、構成レジスタは、種々の適切な回路内（例えば、分散制御回路３４０内）に含まれてもよく、異なるスコープを有してもよい（例えば、いくつかのレジスタはブートスコープされてもよく、いくつかは論理スロットに関連付けられてもよく、いくつかは分散スロットに関連付けられてもよい）。いくつかの構成レジスタは共有されてもよく、グローバルレジスタ回路及びサブユニットごとのレジスタ回路の両方に同じ値を設定してもよい。構成レジスタデータは、定義されたフォーマットでメモリに記憶され、取り出され、アンパックされて、所与のキックのための物理構成レジスタをポピュレートすることができる。

【0053】

図示の実施形態では、ｍＧＰＵ３２０Ａ～３２０Ｎはグループ化され、一次制御回路２１０は複数のそのようなグループと通信する。ｍＧＰＵはサブユニット２２０の一例である。ｍＧＰＵ３０５の各グループは、図示の実施形態では、キャッシュ３６０を共有する。これは、例えば、各ｍＧＰＵ３２０がレベル１キャッシュを維持する実施形態では、レベル２キャッシュであり得る。この共有キャッシュは、命令、データ、又はその両方を記憶するために使用され得る。以下で詳細に説明するように、同じグループ３０５に対するデータアフィニティ特性を用いたスケジューリングワークは、キャッシュ効率にとって有益であり得る。いくつかの実施形態では、ｍＧＰＵ３０５の各グループは、例えば、マルチダイ実装において、同じダイ又は半導体基板上に実装される。

【0054】

各ｍＧＰＵ３２０は、図示の実施形態では、一次制御回路２１０からワークを受信し、ｍＧＰＵ内でワークを割り当て、（例えば、通信ファブリックを介して）ワーク完了を一次制御回路２１０に報告し得る分散制御回路を含む。ワークを割り当てる信号は、実行する実際の命令又は操作されるデータを含まなくてもよいが、実行されるプログラム命令のロケーションを識別してもよい。

【0055】

キックスロットマネージャ３５０は、図示の実施形態では、ソフトウェア／ファームウェアインタフェースからキックを受信し、論理スロットへの割り当てのためにキックを一次制御回路２１０に通信するように構成される。キックスロットマネージャ３５０と制御回路との間の例示的な通信は、図６を参照して以下で詳細に説明され、キックスロットマネージャ３５０の詳細な例示的実施形態は、図１９を参照して以下で説明される。

【0056】

以下で詳細に説明される図４及び図５は、いくつかの実施形態による、論理スロットからワークを分散させるために制御回路２１５の実施形態によって実装される技術の例を提供する。

【0057】

図４は、いくつかの実施形態による、３つの例示的な分散モードを示す図である。一般的に、分散モードは分散の幅を示す。図示の例では、各ｍＧＰＵは、３つの分散ハードウェアスロット（ＤＳ０～ＤＳ２）を実装し、２つのグループ（グループ０及びグループ１）は各々、２つのｍＧＰＵ（ｍＧＰＵ０及びｍＧＰＵ１）を含む。ｍＧＰＵごとの様々な数のハードウェアスロット、グループごとのｍＧＰＵ、及びグラフィックスプロセッサごとのグループが、様々な実施形態において実装され得ることに留意されたい。異なる特定の例示的な数の要素を有する実施形態が、説明の目的のために本明細書で論じられるが、これらの例は、本開示の範囲を限定することを意図するものではない。

【0058】

上記で説明したように、３つの例示的なモード全てにおいて、論理スロットは、所与のｍＧＰＵの多くても１つのハードウェアスロットを占有することができる。論理スロットからのワークが分散されるハードウェアスロットは、図４において斜線を用いて示されている。更に、制御回路２１５は、特定の状況において論理対ハードウェアスロットマッピングを動的に調整することができることに留意されたい。論理スロットは、ハードウェアスロットが割り当てられているｍＧＰＵ内の分散制御回路にワークを分散させる。次いで、分散制御回路は、ｍＧＰＵ内のシェーダにワークを分散させることができる。

【0059】

モードＡは、図示の例では、単一ｍＧＰＵ分散モードである。このモードでは、制御回路２１５は、論理スロットから単一のｍＧＰＵ上の単一のハードウェアスロットにワークを割り当てる。

【0060】

モードＢは、図示の例では、単一グループ分散モードである。このモードでは、制御回路２１５は、論理スロットから、ｍＧＰＵのグループ（この例では、グループ０）内の各ｍＧＰＵ上のスロットにワークを割り当てる。

【0061】

モードＣは、図示の例では、より大きなマルチグループ分散モードである。このモードでは、制御回路２１５は、論理スロットから、ｍＧＰＵの複数のグループ（例えば、いくつかの実施形態では、グラフィックスプロセッサ上のあらゆるグループ）の各ｍＧＰＵ内のスロットにワークを割り当てる。

【0062】

制御回路２１５は、以下で詳細に説明される種々の考慮に基づいて、論理スロット（又は、例えば、カーネルのために、論理スロットに割り当てられるキックの一部）のための分散モードを決定してもよい。一般に、制御回路２１５は、一次制御回路が特定の時間に管理しているワーク量に基づいて、ワークのセットのサイズに基づいて、又はその両方に基づいて、分散モードを選択してもよい。更に、ソフトウェアオーバーライド機能は、ソフトウェア又はファームウェアがキックにおけるワークの分散を調整することを可能にし得る。更に、優先度、動的再マッピング、及び再利用技術は、論理からハードウェアスロットマッピングに影響を及ぼす可能性がある。

【0063】

制御回路２１５は、ハードウェアスロット割り当て及び割り当て解除をキックスロットマネージャ３５０に報告してもよく、それは、ソフトウェア又はファームウェアが、現在の論理スロットマッピング（例えば、分散モード、特定のマッピングなど）に関する情報をクエリすることを可能にし得る。

【0064】

なお説明の目的上、グループ／ｍＧＰＵ／ハードウェアスロットレベルの編成が含まれているが、本開示の範囲を限定することは意図していない。いくつかの実施形態では、「グループ」レベルの編成が省略されてもよく、これにより、単一ｍＧＰＵ又は複数ｍＧＰＵの２つの分散モードのみがもたらされ得る。いくつかの実施形態では、追加の分散モード（例えば、単一ｍＧＰＵモード及び単一グループモードに加えて、グループモードの単一グループ及びグループモードの複数グループをもたらし得るグループのグループ）に関連付けられ得る、追加のレベルの編成が実装され得る。

【0065】

図５は、いくつかの実施形態による、複数の論理スロットからの利用可能なハードウェアスロットの例示的な充填を示す図である。図示の実施例では、制御回路２１５は、複数の分散モードを使用して、９つの論理スロット５１０Ａ～５１０Ｉを（４つのｍＧＰＵの４つのグループ内の）４８個の分散スロットにマッピングする。

【0066】

図示の例では、回路２１５は、論理スロット５１０Ａ、５１０Ｄ、５１０Ｇ、及び５１０Ｉに対して単一ｍＧＰＵ分散モードを使用する。例えば、論理スロット５１０Ａは、グループ０のｍＧＰＵ０内の単一の分散スロットＤＳ０を受信する。

【0067】

回路２１５は、論理スロット５１０Ｂ、５１０Ｅ、及び５１０Ｈに対して単一グループ分散モードを使用する。例えば、論理スロット５１０Ｂは、グループ１の各ｍＧＰＵ上で分散スロットＤＳ０を受信する。

【0068】

回路２１５は、論理スロット５１０Ｃ及び５１０Ｆに対して複数グループ分散モードを使用する。例えば、論理スロット５１０Ｃは、図示された各ｍＧＰＵ上の分散スロットを受信する。

【0069】

全てのハードウェアスロットが常に割り当てられるわけではないが、一般的に、利用可能なスロットを充填することは性能を向上させ得ることに留意されたい。論理スロットに割り当てられたキックが完了したとき、別のキックをその論理スロットに割り当てることができ、論理スロットを物理スロットに再マッピングすることができる。
例示的な制御回路

【0070】

図６は、いくつかの実施形態による、制御回路の詳細な例を示すブロック図である。図示の実施形態では、キックスロットマネージャはマッピング制御回路２１５と通信し、マッピング制御回路２１５は、図示の実施形態では、ｄＳｌｏｔリソースアロケータ６２０、制御ストリームプロセッサ（ＣＳＰ）６３０Ａ～６３０Ｎ、カーネルプロセッサ６４０Ａ～６４０Ｎ、ｍＧＰＵ割り当て回路６５０Ａ～６５０Ｎ、及びキックスロットアービタ６６０を含む。いくつかの実施形態では、プロセッサによってサポートされる各論理スロットは、要素６３０、６４０、及び６５０の割り当てられたセットを有する。図６の特定の詳細は計算ワークに関連するが、頂点シェーディング及びピクセルシェーディングなどの他のタイプのワークに同様の技術を使用することができることに留意されたい。

【0071】

キックスロットマネージャ３５０は、図示の実施形態では、キックを論理スロットに割り当て、キック情報を対応する制御ストリームプロセッサ６３０に送信する。制御ストリームプロセッサ６３０は、キックが処理を完了したときにキックスロットマネージャ３５０に通知することができる。

【0072】

制御ストリームプロセッサ６３０は、図示の実施形態では、それらのキックスロットの順序付けを管理し、キックのための制御ストリームをフェッチ及び実行し、キック完了を追跡する。制御ストリームプロセッサ６３０は、カーネル粒度で動作することができる（カーネルは、キックのために制御ストリームからフェッチされ得る）。制御ストリームプロセッサ６３０は、ｄＳｌｏｔリソースアロケータ６２０と通信して、それらの論理スロットのためのｄＳｌｏｔリソースを取得することができる。制御ストリームプロセッサ６３０は、カーネルのための分散モードを決定し、それらの分散モード及び分散されたスロット割り当てを有するカーネルをカーネルプロセッサ６４０に送信するように構成される。

【0073】

ｄＳｌｏｔリソースアロケータ６２０は、いくつかの実施形態では、複数の論理スロットから要求を受信し、ｄＳｌｏｔをカーネルに割り当てる要求を処理するように構成された回路を含む。いくつかの実施形態では、ｄＳｌｏｔリソースアロケータ６２０は、分散モードを選択し、キックの部分に（例えば、カーネル粒度で）ｄＳｌｏｔを割り当てるが、他の粒度も考えられる。いくつかの実施形態では、ｄＳｌｏｔリソースアロケータ６２０は、以下で更に詳細に説明するように、最初にキック優先度に基づいて論理スロットを割り当て、次にキックエージに基づいて割り当てる。例えば、ＤＲＡ６２０は、閾値よりも大きい優先度レベルを有するキックからのカーネルのためにいくつかの分散スロットを予約し得る。

【0074】

カーネルプロセッサ６４０は、図示の実施形態では、一次計算データマスタに含まれる。カーネルプロセッサ６４０は、カーネルからワークグループのバッチを作成し、その分散モード及び分散スロット割り当てを有するバッチをｍＧＰＵ割り当て回路６５０に送信するように構成される。カーネルプロセッサ６４０は、以下で詳細に説明するように、アフィニティ、負荷分散、又はその両方に基づいて、分散のためのバッチを選択することができる。カーネルプロセッサ６４０は、割り当てられたｄＳｌｏｔの指示と、どのｍＧＰＵがカーネルによってターゲットにされることを許可されるかを示すターゲットマスクとを受信することができる。

【0075】

本明細書で使用される場合、グラフィックスコンテキストにおける「計算カーネル」という用語は、グラフィックスプロセッサなどのアクセラレーションハードウェアのためにコンパイルされたルーチンを含む、そのよく理解されている意味に従って解釈されるように意図されている。カーネルは、例えば、ＯｐｅｎＣＬＣなどの別個のプログラム言語によって指定されてもよく、ＯｐｅｎＧＬなどのシェーディング言語で計算シェーダとして書かれてもよく、又は高レベル言語でアプリケーションコードに埋め込まれてもよい。計算カーネルは通常、いくつかのワークグループを含み、ワークグループはいくつかのワークアイテム（スレッドとも呼ばれる）を含む。計算カーネルに関して本明細書で説明する様々な技術は、頂点又はピクセル処理タスクなどの他のタイプのワークに適用され得ることに留意されたい。

【0076】

ｍＧＰＵ割り当て回路６５０は、図示の実施形態では、バッチを受信し、バッチをターゲットｍＧＰＵに送信する。回路６５０は、分散モードの関数であり得る許容可能なｍＧＰＵターゲットのマスクと共にバッチを受信してもよい。そのマスクを使用して、回路６５０は、負荷分散に基づいてｍＧＰＵターゲットを選択することができる。

【0077】

キックスロットアービタ６６０は、図示の実施形態では、宛先ｍＧＰＵに送信するために利用可能なバッチの中から選択する。例えば、キックスロットアービタ６６０は、各サイクルでバッチを送信するために１つ以上の論理キックスロットを選択してもよい。選択されたバッチ（及び実行ステータスに関連付けられた戻り情報）は、通信ファブリックを介して送信され得る。ファブリックは、例えば、２０２１年１月２６日に出願された「ＳｈａｒｅｄＣｏｎｔｒｏｌＢｕｓｆｏｒＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｏｒｓ」という名称の米国特許出願公開第１７／１５８，９４３号に記載されるような制御シグナリング専用であってもよい。

【0078】

図６の回路によって実行される様々な追加の機能は、例えば、動的マッピング、ソフトウェアオーバーライド、優先度、保持技術、再利用技術、キャッシュフラッシュ、及びアフィニティなどの特定の機能を説明するセクションにおいて、以下で詳細に説明される。
カーネルごとのマッピング技術

【0079】

いくつかの実施形態では、計算キックの実行中のカーネルごとのマッピングは、キック粒度では困難であろう動的割り当てを提供し得る（キックを実行する前に、キックがいくつの分散スロットを占有すべきかを決定することは困難であり得る）。上記で簡単に説明したように、制御ストリームプロセッサ６３０及びｄＳｌｏｔリソースアロケータ６２０は、これらの技術を容易にすることができる。

【0080】

図７は、いくつかの実施形態による、例示的な分散スロット状態及びカーネル常駐情報を示す図である。この情報は、動的マッピングを容易にすることができる。

【0081】

ｄｓｌｏｔ＿ｓｔａｔｕｓは、図示の例では、各ｄＳｌｏｔについて維持され、ｄＳｌｏｔが無効であるか、実行中であるか、空であるか、フラッシュしているか、又は保持されているかを示す。無効状態は、ｄＳｌｏｔがどの論理スロットによっても所有されていないことを示す。実行中状態は、ｄＳｌｏｔが論理スロットによって所有され、現在実行中であることを示す。空の状態は、ｄＳｌｏｔが論理スロットによって所有され、実行が終了していることを示す。フラッシュ状態は、キャッシュフラッシュ（例えば、メモリ階層によるフラッシュ無効化）のプロセスにおけるように、ｄＳｌｏｔが論理スロットによって所有されていることを示す。保持状態は、ｄＳｌｏｔが論理スロットによって所有され、カーネルの完了後（例えば、カーネル終了キャッシュフラッシュ無効化後）に、例えば性能データを保存するために保持されていることを示す。これらの状態は説明のために含まれているが、他の実施形態では、他の状態が実装されてもよく、状態が省略されてもよく、又はその両方であってもよいことに留意されたい。

【0082】

ｄｓｌｏｔ＿ｏｗｎｅｒ状態は、図示の例では、各ｄＳｌｏｔについて維持され、ｄＳｌｏｔを所有する論理スロットを示す。どの論理スロットも無効なｄＳｌｏｔを所有していないので、このフィールドは無効状態に関連しない。

【0083】

ｐｅｒ＿ｋｅｒｎｅｌ＿ｒｅｓｉｄｅｎｃｙ状態は、図示の例では、各カーネル及び各ｍＧＰＵについて維持され、カーネルがｍＧＰＵに割り当てられたかどうかを示す。計算ワークのためにカーネルごとに維持される様々な情報は、カーネルを利用しない他のタイプのワークのためのキック又はキックの部分について同様に維持され得ることに留意されたい。

【0084】

図８は、いくつかの実施形態による、キックのカーネルをマッピングするための例示的な方法を示すフロー図である。

【0085】

８１０において、図示の実施形態では、制御回路は、カーネル依存関係がクリアされ、キックに割り当てられた論理スロットがアイドルカーネルプロセッサを有するまで待機する。これにより、先行するカーネルは、キックのための次のカーネルを開始する前に反復を終了することができる。

【0086】

８２０において、図示の実施形態では、ＣＳＰは分散モードを決定し、分散モードを有する要求をＤＲＡ６２０に送信する。

【0087】

８３０において、ＤＲＡ６２０は、分散スロット割り当てで応答する。例示的なＤＲＡアービトレーションアルゴリズムは、以下で詳細に説明される。

【0088】

８４０において、図示の実施例では、一次制御回路は、いくつかの活動を行う。まず、カーネルに対してｄＳｌｏｔが割り当てられた全てのｍＧＰＵに、分散スロット開始メッセージを送信する。次に、どのｄＳｌｏｔが影響を受けているかを示すｄＳｌｏｔマスクを含むレジスタ書き込みコマンドをレジスタコピーユニットに送信する。レジスタコピーユニットは、カーネルのための分散スロットスコープ制御レジスタを書き込む。（レジスタコピーユニットは、キックのための論理スロットスコープ制御レジスタを既に書き込んでいてもよい）。最後に、一次制御回路は、指示されたｍＧＰＵにワークを送信する。ワークは、レジスタコピーユニットによる全てのレジスタ書き込みが完了するまでフェンスされ得ることに留意されたい。

【0089】

一次制御回路は、それが分散させる全てのカーネルの完了ステータスを追跡することもできる。例えば、カーネルが実行していたｄＳｌｏｔが全て実行中から空に移行したときを検出することができる。
ソフトウェアオーバーライド技術の例

【0090】

いくつかの実施形態では、ソフトウェアは、カーネルのデフォルトの分散モードをオーバーライドするための様々な指示を提供することができる。これにより、ソフトウェアは、例えば、重要なワークが単一のｍＧＰＵに割り当てられるリスクを冒すのではなく、重要なワークを並列化することができる。更に、これは、ソフトウェアがカーネルをｍＧＰＵの特定のグループに割り当てることを可能にし得る。

【0091】

図９は、例示的なソフトウェアオーバーライドフィールドを示す図である。ソフトウェア又はファームウェアは、これらのフィールドを調整してカーネル分散を制御することができる。ｍＧＰＵマスクフィールドは、図示の実施形態では、どのｍＧＰＵがこのキックによって使用され得るかを示す。例えば、マスクは、ｍＧＰＵごとにビットを含み得る。これは、ソフトウェアが、キックについて特定のｍＧＰＵを回避又はターゲットにすることを示すことを可能にし得る。分散モードフィールドは、ソフトウェアが分散モードを選択することを可能にする。デフォルト値は、論理スロットのための制御ストリームプロセッサ６３０が分散モードを選択することを可能にし得る。他の値は、制御ストリームプロセッサ６３０が選択したであろうモードにかかわらず（少なくともソフトウェアオーバーライドが有効にされる動作モードにおいて）、制御ストリームプロセッサ６３０によって実装され得る分散モードを指定し得る。デフォルトモードでは、ｍＧＰＵ割り当て回路６５０は、負荷分散に基づいて、ＣＳＰによって柔軟に選択された分散モードに従ってｄＳｌｏｔを選択することができ、他のモードでは、ｍＧＰＵ割り当て回路は、ソフトウェアオーバーライドによって指定された制限に従うことができる。

【0092】

フォースグループフィールドは、ソフトウェアがキックを実行するグループを選択することを可能にする。これは、例えば、単一ｍＧＰＵ又は単一グループ分散モードと共に指定され得る。ポリシーフィールドは、ソフトウェアが、単一ｍＧＰＵ又は単一グループ分散のためのスケジューリングポリシーを指定することを可能にする。図示の例では、ソフトウェアは、「第１のオプション選択」ポリシー（デフォルトであり得る）又はラウンドロビンポリシーを指定することができる。第１のオプション選択ポリシーは、それらのインデックスに従って第１の利用可能な要素（例えば、ｍＧＰＵ又はグループ）を選択することができ、これは、フラグメント化を回避し、他のスライスのためにより連続したｄＳｌｏｔを空けておくことができる。ラウンドロビンポリシーは、リソースの使用をランダム化することができ、選択されたリソースのロケーションを回避して実質的な性能変動を引き起こすことができるが、複数のグループにわたって小さなスライスを分散させることがある。他の実施形態では、様々なポリシーを指定することができる。ソフトウェアオーバーライドフィールドを考慮するアービトレーションの詳細な例は、以下で説明される。
例示的なアービトレーション技術

【0093】

図１０Ａ～図１０Ｃは、いくつかの実施形態による、それぞれの異なる分散モードのためのハードウェアスロットアービトレーションのための例示的な技術を示すフロー図である。開示される技術は、概して、同じ論理スロット内の連続するカーネルを広く分散させることができることに留意されたい（例えば、カーネルＡが、ｍＧＰＵ０内のｄＳｌｏｔを割り当てられた単一ｍＧＰＵカーネルである場合、やはり単一ｍＧＰＵカーネルであるカーネルＢがｍＧＰＵ１内のｄＳｌｏｔに割り当てられることになり、これは、より少ない論理スロットが同時に実行されることを可能にしながら、論理スロットの実行を完了することを優先することができる）。

【0094】

いくつかの実施形態では、ＤＲＡ６２０は、例えば、同じ論理スロットからの後続のカーネルがｄＳｌｏｔ（複数可）を使用することを可能にするために、可能な限りｄＳｌｏｔを空の状態のままにする。これは、キャッシュフラッシュ無効化と、新しく割り当てられたｄＳｌｏｔのための実行構成レジスタの書き込みとを低減し得る。いくつかの実施形態では、別の論理スロットによって所有されている空状態のｄＳｌｏｔは、新しい論理スロットに割り当てられる前に、再利用プロセス（図１１を参照して以下で説明される）を経て、無効に移行しなければならない。

【0095】

一般に、以下で詳細に説明されるように、ＤＲＡ６２０は、カーネルのためのｄＳｌｏｔを選択するために、以下の優先度方式を使用する。最も高い優先度は、論理スロットによって既に所有されている空のｄＳｌｏｔである。これらのｄＳｌｏｔは、書き込まれた制御レジスタを有し、即時実行のために自由である。中程度の優先度は無効なｄＳｌｏｔであり、これは新たに割り当てられ、制御レジスタ書き込みを必要とする可能性があるが、即時実行のためには自由である。最も低い優先度は、分散スロットによって既に所有されている実行中のｄＳｌｏｔである。これらのｄＳｌｏｔは、書き込まれた制御レジスタを有するが、別のカーネルの後ろで待機する必要がある場合がある。

【0096】

図１０Ａは、単一ｍＧＰＵ分散モードのためのアービトレーション方法を示す。１０１０において、図示の実施形態では、ＤＲＡ６２０は、そのフォースグループ及びｍＧＰＵマスクフィールドに基づいて、カーネルのための許容可能なｍＧＰＵのセットを決定する。このセットは、ソフトウェアによって選択されないｍＧＰＵの任意のグループを省いてもよい。

【0097】

１０１２において、図示の実施形態では、ＤＲＡ６２０は、カーネルの論理スロットが既に空状態のｄＳｌｏｔを所有しているｍＧＰＵを選択する。要素１０１２、１０１６、及び１０１８が同点の場合、ＤＲＡ６２０は、ハードウェアリソースを選択するために、決定されたポリシー（例えば、いくつかの実施形態では、デフォルト、ソフトウェア指定、又は単一タイプのポリシー）を使用することに留意されたい。例えば、要素１０１２を満たす複数のｍＧＰＵが存在する場合、ＤＲＡ６２０は、ｍＧＰＵを選択するためにポリシーを適用することができる。１つ以上のｍＧＰＵがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0098】

１０１４において、図示の実施形態では、ＤＲＡ６２０は、論理スロットがまだｄＳｌｏｔを所有していない少なくとも１つの無効なｄＳｌｏｔを有するｍＧＰＵを選択する。１つ以上のｍＧＰＵがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0099】

１０１６において、図示の実施形態では、ＤＲＡ６２０は、最も無効なスロットを有するｍＧＰＵを選択する。１つ以上のｍＧＰＵがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0100】

１０１８において、図示の実施形態では、ＤＲＡ６２０は、論理スロットが実行状態のハードウェアスロットを既に所有しているｍＧＰＵを選択する。１つ以上のｍＧＰＵがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0101】

１０２０において、図示の実施形態では、ＤＲＡ６２０は、再利用手順を試みる。そのような手順の例は、図１１を参照して以下で更に詳細に説明される。再利用が失敗した場合、フローは進む。

【0102】

１０２２において、図示の実施形態では、ＤＲＡ６２０は、割り当て機械を再開し、再調停する。様々な分散モードに対して、再調停は、分散モードを満たすのに十分な数のハードウェアスロットが利用可能になるまで行われてもよい。

【0103】

図１０Ｂは、単一グループ分散モードのためのアービトレーション方法を示す。１０３０において、図示の実施形態では、ＤＲＡ６２０は、図１０Ａの要素１０１０と同様に、許容可能なｍＧＰＵのセットを決定する。

【0104】

１０３２において、図示の実施形態では、ＤＲＡ６２０は、グループ内の全てのｍＧＰＵが、空又は無効状態にあるカーネルの論理スロットによって所有されるｄＳｌｏｔを有するグループを選択する。同点の場合、ＤＲＡ６２０は、無効なｄＳｌｏｔが最も少ないグループを選択する。１つ以上のグループがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0105】

１０３４において、図示の実施形態では、ＤＲＡ６２０は、グループ内の全てのｍＧＰＵが、実行、無効、又は空状態にある論理スロットによって所有されるｄＳｌｏｔを有するグループを選択する。同点の場合、ＤＲＡ６２０は、実行状態のスロットを有するｍＧＰＵが最も少ないグループを選択する。ＤＲＡ６２０は、依然として同点がある場合、ポリシーを適用し得る。１つ以上のグループがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0106】

１０３８及び１０４０において、ｄＲＡ６２０は、上記で説明した要素１０２０及び１０２２と同様に、再利用を試み、次いで割り当て機械を再開し、再調停する。

【0107】

図１０Ｃは、マルチグループ分散モードのためのアービトレーション方法を示す。１０５０において、図示の実施形態では、ＤＲＡ６２０は、ｍＧＰＵマスクに基づいて（この例では全てのグループが使用されるので、フォースグループコマンドに基づくのではなく）許容可能なｍＧＰＵのセットを決定する。

【0108】

１０５２において、図示の実施形態では、ＤＲＡ６２０は、許容可能なｍＧＰＵのセット内の各ターゲットｍＧＰＵについて要素１０５４～１０５８の動作を実行する。１０５４において、ＤＲＡは、空又は実行状態にあるカーネルの論理スロットによって既に所有されているｄＳｌｏｔを選択する。１つ以上のｄＳｌｏｔがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。

【0109】

１０５６において、図示の実施形態では、ＤＲＡ６２０は、無効なｄＳｌｏｔを選択する。１つ以上のｄＳｌｏｔがこれらの基準を満たす場合、それらのうちの１つが選択され、カーネルが終了するまで、その論理スロットに対するアービトレーションが終了する。そうでない場合、フローは進む。１０５８において、図示の実施形態では、ＤＲＡ６２０は再利用を試みる。

【0110】

要素１０５２の動作がカーネルに対する各ｍＧＰＵ内のｄＳｌｏｔの割り当てに成功しなかった場合、フローは１０６０に進み、ＤＲＡ６２０は割り当て機械を再開し、再調停する。

【0111】

上記で説明した様々な技術はソフトウェアオーバーライドフィールドを考慮するが、他の実施形態では、ソフトウェアオーバーライドは実装されなくてもよく、又は特定の動作モードで無効にされてもよいことに留意されたい。その場合、ＤＲＡは、上記で説明したように動作し得るが、ソフトウェアオーバーライドの考慮は省略する。
スロットの再利用

【0112】

いくつかの実施形態では、制御回路は、論理スロットが、別の論理スロットに割り当てられたハードウェアスロットを再利用することを可能にするように構成される。いくつかの実施形態では、より高い優先度の論理スロットのみが、他の論理スロットからハードウェアスロットを再利用することを許可される。論理スロット優先度を実施するための例示的技術が以下で説明されるが、一般に、優先度はソフトウェアによって示され得る。いくつかの実施形態では、空状態にあるハードウェアスロットのみが、別の論理スロットによって再利用されるのに的確である。

【0113】

一般に、制御回路は、ハードウェアスロットを可能な限り長く空の状態に保つことを試み得る。これは、ハードウェアスロットを新しい論理スロットに切り替えるときにキャッシュフラッシュ無効化を実行し、構成レジスタを書き込むオーバーヘッドを回避することができる（ハードウェアスロットを空の状態に保つことは、同じ論理スロットが、ハードウェアスロットを使用するために同じキックから別のカーネルを送信することを可能にすることができ、これはこのオーバーヘッドを回避するからである）。しかしながら、このために、他の重要な論理スロットがそのようなハードウェアスロットを取ることを可能にすることによって、性能を改善することができる。

【0114】

図１１Ａは、いくつかの実施形態による、ハードウェアスロット再利用のために使用される保持信号の例示的な値を示す図である。保持信号は、持続性信号とも称され得る。各ＣＳＰ６３０は、（例えば、ＣＳＰ６３０がそのキックを実行している距離に応じて）そのハードウェアスロットを保持したい範囲を示す保持信号をＤＲＡ６２０に送信することができる。

【0115】

図示の例では、保持信号は３つの値のうちの１つを有するが、他の実施形態では他の値のセットが考えられる。低い値は、論理スロットがキックのための制御ストリーム終端信号に到達したこと、及び処理すべきカーネルがカーネル待ち行列に残っていないことを示す。この場合、論理スロットは、キックのために別のハードウェアスロットを必要としない。中程度の値は、論理スロットが制御ストリーム終端に到達していないが、実行のためにハードウェアスロットを要求する準備ができているカーネルが現在ないことを示す。高い値は、論理スロットが実行のためにハードウェアスロットを要求するカーネルを有することを示す。

【0116】

いくつかの実施形態では、ＤＲＡ６２０は、要求を満たすために十分なハードウェアスロットが再利用され得る場合にのみ、スロットを再利用するように構成される。そうでない場合、再利用の試みは失敗する可能性がある。再利用が成功すると、ＤＲＡ６２０は、そのステートマシンを再開し、論理スロットを再調停する。ＤＲＡ６２０は、任意の再利用されたスロットについてメモリ階層とのキャッシュフラッシュ無効化を開始し得る。これは、それらのスロットをフラッシュ状態に移行させることができるが、それらのスロットは、それらがフラッシュ及び無効状態への移行を終了すると、アービトレーションのために利用可能になることができる。

【0117】

図１１Ｂは、いくつかの実施形態による、別の論理スロットに現在割り当てられている１つ以上のハードウェアスロットを再利用するための例示的技術を示すフロー図である。１１１０において、図示の実施形態では、ＤＲＡ６２０は、全てのｄＳｌｏｔがフラッシュ状態にあることを発見する。それは、ｆｌｕｓｈｉｎｇ＿ｓｅｔ内のｄＳｌｏｔのセットを示すデータ構造を生成し得る。これらのｄＳｌｏｔがカーネルの要求を処理するのに十分である場合、ＤＲＡ６２０は再利用をキャンセルし、フラッシュが終了するのを待つ。そうでない場合、フローは進む。

【0118】

１１２０において、図示の実施形態では、ＤＲＡ６２０は、空にされ、（ａ）コンテキストを記憶しておらず、（ｂ）いかなるフラッシュｄＳｌｏｔも有していない論理スロットによって所有されている全てのｄＳｌｏｔを発見する。それは、このａｌｌｏｗｅｄ＿ｓｅｔ内のｄＳｌｏｔのセットを示すデータ構造を生成し得る。低い保持値を有するａｌｌｏｗｅｄ＿ｓｅｔ内のｄＳｌｏｔがｆｌｕｓｈｉｎｇ＿ｓｅｔ内のｄＳｌｏｔと組み合わされ、要求をサービスするのに十分である場合、ＤＲＡ６２０は、それらのｄＳｌｏｔを再利用し、それらのｄＳｌｏｔに対するキャッシュフラッシュ無効化を開始する。そうでない場合、フローは進む。

【0119】

１１３０において、図示の実施形態では、ＤＲＡ６２０はまず、要求が低優先度論理スロットに対するものであるか高優先度論理スロットに対するものであるかを決定し、それに応じて動作する。他の実施形態では、他の優先度の粒度がサポートされてもよいことに留意されたい。低優先度の要求元に対して、ＤＲＡ６２０は、低優先度論理スロットによって所有される中程度の保持値を有するａｌｌｏｗｅｄ＿ｓｅｔ内のスロットであるスロットのｄｏ＿ｓｅｔを生成する。ＤＲＡ６２０は、ｆｌｕｓｈｉｎｇ＿ｓｅｔとｄｏ＿ｓｅｔの両方にｄＳｌｏｔを見つける。これらのｄＳｌｏｔが要求を処理するのに十分である場合、ＤＲＡ６２０は、これらのｄＳｌｏｔを再利用し、これらのｄＳｌｏｔに対するキャッシュフラッシュ無効化を開始する。そうでない場合、フローは進む。

【0120】

高優先度の要求元に対して、ＤＲＡ６２０は、高優先度論理スロットによって所有される中程度の保持値を有するａｌｌｏｗｅｄ＿ｓｅｔ内のスロットであるスロットのｄｏ＿ｓｅｔを生成する。ＤＲＡ６２０は、ｆｌｕｓｈｉｎｇ＿ｓｅｔとｄｏ＿ｓｅｔの両方にｄＳｌｏｔを見つける。これらのｄＳｌｏｔが要求を処理するのに十分である場合、ＤＲＡ６２０は、これらのｄＳｌｏｔを再利用し、これらのｄＳｌｏｔに対するキャッシュフラッシュ無効化を開始する。そうでない場合、フローは進む。

【0121】

１１４０において、図示の実施形態では、ＤＲＡ６２０は、ａｌｌｏｗｅｄ＿ｓｅｔ内にあり、高い保持値を有し、より低い優先度及びより低いエージを有する論理スロットに属するスロットをｄｏ＿ｓｅｔに追加する。ＤＲＡ６２０は、ｆｌｕｓｈｉｎｇ＿ｓｅｔと更新されたｄｏ＿ｓｅｔの両方にｄＳｌｏｔを見つける。これらのｄＳｌｏｔが要求を処理するのに十分である場合、ＤＲＡ６２０は、これらのｄＳｌｏｔを再利用し、これらのｄＳｌｏｔに対するキャッシュフラッシュ無効化を開始する。そうでない場合、再利用をキャンセルし、アービトレーションを再開することができる。

【0122】

様々な実施形態において、開示される技術は、有利には、現在の論理スロットのためにハードウェアスロットを空に保つこと（オーバーヘッドを回避するため）と、それらのハードウェアスロットが特定のシナリオにおいて他の論理スロットによって再利用されることを依然として可能にすることとの間のバランスを提供し得る。
スロット保持

【0123】

いくつかの実施形態では、制御回路は、スロットを解放するように命令されるまで（例えば、ソフトウェアによって）、論理スロットのためのハードウェアスロットを保持するように構成される。これは、ソフトウェアが、性能レジスタ、メモリ、又はキック実行の影響を受ける他のデータなどの種々のキック情報を照会することを可能にし得る。いくつかの実施形態では、各キックは、論理スロットに対してマッピングされるハードウェアスロットが割り当て解除されるのを待つべきかどうかを示すｒｅｔａｉｎ＿ｓｌｏｔｓフィールド（例えば、ビット）を含む。

【0124】

いくつかの実施形態では、保持されたスロットを有するキックが論理スロットに割り当てられる場合、他のスロットは、優先度にかかわらず、その論理スロットからリソースを再利用することができない。

【0125】

図１２は、いくつかの実施形態による、スロットが保持された状態でキックを処理するために一次制御回路によって実行される例示的な方法を示すフロー図である。この手順は、ソフトウェア通信を可能にするために、ＫＳＭ３５０と通信して実行することができる。１２１０において、図示の実施例では、一次制御回路２１０は、スロットハードウェアスロットが保持されるべきであることを示す、ｒｅｔａｉｎ＿ｓｌｏｔｓフィールドセットを用いてキックを開始する。

【0126】

１２２０において、図示の例では、キックはそのワークを完了し、デバイスはカーネルフラッシュ処理の終了を実行する。ハードウェアスロットは、マッピングされたままである。

【0127】

１２３０において、一次制御回路２１０は、ｋｉｃｋ＿ｄｏｎｅ信号をＫＳＭ３５０に送信する。また、ｄＳｌｏｔを保持状態に移行させる。

【0128】

１２４０において、ソフトウェア又はファームウェアは、キックの影響を受ける性能レジスタ、メモリなどに照会することができる。１２５０において、ＫＳＭ３５０は、ｒｅｌｅａｓｅ＿ｓｌｏｔｓ信号を送信する（例えば、照会が完了したことを示すソフトウェア命令に基づいて）。

【0129】

１２６０において、一次制御回路２１０は、ハードウェアスロットの割り当てを解除するプロセスを完了し、ハードウェアスロットは無効状態に移行し、ここで別の論理スロットに利用可能である。１２７０において、一次制御回路２１０は、割り当て解除メッセージをＫＳＭ３５０に送信し、割り当て解除が完了したことを通知する。

【0130】

いくつかの実施形態では、ハング状態を回避するために、スロットが維持されているキックは、常にマルチグループ分散モードを使用し、完了をブロックすることができない。したがって、保持を伴う論理スロットと保持を伴わない論理スロットとの間で調停するとき、保持を伴う論理スロットは、常に優先度を有することができる。更に、ＫＳＭ３５０は、例えば、ｍＧＰＵごとのｄＳｌｏｔの数に対応する、保持セットを有する論理スロットの閾値数までのみをスケジュールすることができる。いくつかの実施形態では、保持セットを有する全ての論理スロットは、高い優先度に昇格される。
高優先度キックのための予約スロット

【0131】

上記で簡単に説明したように、異なる論理スロットは、例えばソフトウェアによって指定されるような異なる優先度レベルを有することができる。いくつかの実施形態では、所与のｍＧＰＵ上で、ハードウェアスロットのサブセットが、閾値優先度を満たす論理スロット（例えば、２つの優先度レベルを有するシステム内のより高い優先度のスロット）のために予約される。

【0132】

図１３は、ｍＧＰＵのいくつかのハードウェアスロットを示すブロック図である。いくつかの実施形態では、１つ以上のｄＳｌｏｔ（図１３において黒一色で示される）は、高優先度論理スロットのために予約され、１つ以上のｄＳｌｏｔ（図１３において水平陰影で示される）は、全ての論理スロットに利用可能である（及び低優先度論理スロットに利用可能な唯一のハードウェアスロットである）。

【0133】

いくつかの実施形態では、高優先度論理スロットは、他のスロットを使用しようと試みる前に、最初にｍＧＰＵの予約済みハードウェアスロットを使用しようと試みる。他の実施形態では、高優先度論理スロットは、例えばラウンドロビン技術を使用して、ｍＧＰＵの全てのハードウェアスロットを等しく使用しようと試みることができる。

【0134】

いくつかの実施形態では、低優先度論理スロットは、高優先度論理スロットがそれらを使用する機会がない限り、高優先度論理スロットからハードウェアスロットを再利用することを許可されない。

【0135】

様々な実施形態において、開示される優先技術は、ソフトウェアが重要なワークの分散に影響を与えて、あまり重要でないワークからの障害を低減することを有利に可能にし得る。
フラッシュ技術

【0136】

上述のように、キャッシュフラッシュ無効化（ＣＦＩ）は、ハードウェアスロットが新しい論理スロットに割り当てられるたびに実行されてもよい。更に、一次制御回路２１０は、計算キックのために制御ストリームに含まれる任意のＣＦＩを実行しなければならない。しかしながら、ハードウェアスロットはカーネルレベルで動的にマッピングされ得るので、制御ストリームＣＦＩのためにフラッシュすべきハードウェアスロットのセットは決定論的でないことがある。以下の説明は、この現象に対処するための技術を提供する。特に、全ての関連するｍＧＰＵ（例えば、いくつかの実装形態におけるグラフィックスプロセッサ内の全てのｍＧＰＵ）をフラッシュする「無条件」ＣＦＩが導入される。

【0137】

図１４Ａは、いくつかの実施形態による、無条件フィールドを有する例示的なキャッシュフラッシュ無効化コマンドを示す図である。各ＣＦＩは、この例では、「無条件」フィールドを含む。標準（無条件でない）ＣＦＩは、標準ＣＦＩが発行されるときに論理スロットによって所有される全てのハードウェアスロットに適用される。論理スロットが何らかのｍＧＰＵにおいてハードウェアスロットを所有していない場合であっても、無条件ＣＦＩは全てのｍＧＰＵに送信される。

【0138】

図１４Ｂは、いくつかの実施形態による、無条件ＣＦＩを処理するように構成されたｄＳｌｏｔリソースアロケータの一実施形態を示すブロック図である。図示の例では、ＤＲＡ６２０は、カーネルフラッシュ制御レジスタ１３３０の最後と、割り当て解除フラッシュ制御レジスタ１３４０とを含む。いくつかの実施形態では、一次制御回路２１０は、多くとも１つの無条件ＣＦＩが任意の所与の時間に顕著であり得るように、ステートマシンを実装する。論理スロットは、このリソースを調停することができる。

【0139】

カーネルフラッシュ制御レジスタ１３３０は、カーネルの終わりにどのｍＧＰＵをフラッシュすべきかを示すビットのセットを維持することができる。割り当て解除フラッシュ制御レジスタ１３４０は、キックの途中でｄＳｌｏｔ割り当て解除時にどのｍＧＰＵをフラッシュするかを示すビットのセットを維持することができる（これは、カーネルフラッシュの終了によって指定されるビットのサブセットであり得ることに留意されたい）。

【0140】

ＤＲＡ６２０は、ｄＳｌｏｔが割り当て解除されたとき、以下の手順を実装し得る。最初に、ｄＳｌｏｔが、論理スロットのために割り当てられたｄＳｌｏｔを有するグループ内の最後のｍＧＰＵでない場合、ＤＲＡ６２０は、より少数のキャッシュ（例えば、グループによって共有されるＬ２キャッシュではなく、１つ以上のＬ１キャッシュ）を潜在的にフラッシュ無効化することができる割り当て解除フラッシュ制御レジスタ１３４０を使用する。ｄＳｌｏｔがグループの最後のｍＧＰＵ内にある場合、ＤＲＡ６２０は、カーネルフラッシュ制御レジスタ１３３０の最後を使用して、どのキャッシュ（複数可）をフラッシュするかを決定する。

【0141】

様々な実施形態では、開示された技術は、有利には、非決定論的フラッシュ挙動を回避し、キャッシュ効率を改善し、又はその両方を行うことができる。
アフィニティに基づく分散

【0142】

複数のＧＰＵサブユニットがキャッシュ（例えば、グループ３０５のサブユニット３２０Ａ～３２０Ｎ）を共有する実施形態では、制御回路は、同じメモリ領域（複数可）にアクセスするカーネルの部分を、キャッシュを共有するサブユニットにスケジュールすることができる。これは、特に同じキックのカーネル間でキャッシュ効率を改善することができる。

【0143】

いくつかの実施形態では、一次制御回路２１０は、キャッシュなどのリソースを共有するハードウェアのセットに対応し得る、アフィニティ領域のセットを定義する。いくつかの実施形態では、アフィニティ領域とｍＧＰＵのターゲットグループとの間に固定された関係が存在する（ただし、この関係は、カーネルの次元に応じて変動し得る）。一次制御回路２１０は、いくつかのアフィニティマップを記憶する制御レジスタを含んでもよい。各アフィニティマップは、カーネル部分とアフィニティ領域との間の関係を指定することができる。このようにして、各カーネルは、そのメモリアクセスを反映するアフィニティマップを参照することができる（例えば、アフィニティマップを構成し、各カーネルのアフィニティマップを指定することができるソフトウェアによって決定される）。したがって、ソフトウェアは、複数のデータマスタ間で共有することもできる構成レジスタを使用して、潜在的なアフィニティパターンをプログラムすることができる。キック内では、異なるカーネルが異なるアフィニティマップに従って分散され得る。

【0144】

図１５は、いくつかの実施形態による、グラフィックスワークのセット（例えば、計算カーネル）のための例示的なアフィニティ技術を示す図である。図示の実施形態では、グラフィックスワークのセット（例えば、カーネル）は、アフィニティマップ１５２０を指定するアフィニティマップインジケータ１５１５を含む。インジケータは、例えば、アフィニティマップのテーブルへのポインタ又はインデックスであってもよい。アフィニティマップは、カーネルのＮ個の部分に対するｍＧＰＵの対応するターゲットグループ３０５を示す。カーネルの「部分」は、実際にはアフィニティマップ内のフィールドでなくてもよく、エントリのインデックスに基づいて暗示されてもよいことに留意されたい。例えば、アフィニティマップ中の第３のエントリは、カーネルの３／Ｎ番目の部分に対応し得る。デバイスは、複数の異なるアフィニティマップを指定するように構成可能な構成レジスタを含み得る。更に、所与のアフィニティマップは、複数のカーネルによって参照され得る。

【0145】

いくつかの実施形態では、グラフィックスワークのセットの部分をターゲットグループに直接マッピングするのではなく、アフィニティマップは、グラフィックスワークのセットの部分をアフィニティ領域にマッピングし、次いで、アフィニティ領域をハードウェアのセット（例えば、ｍＧＰＵのグループに）にマッピングする間接マッピングを使用してもよい。

【0146】

制御回路は、示されたアフィニティマップに基づいて、グラフィックスワークのセットを分散させてもよい。同じグループをターゲットとするグラフィックスワーク１５１０のセットの複数の部分は、同じグループ／アフィニティ領域に割り当てられてもよい（したがって、グループのｍＧＰＵによって共有されるキャッシュを共有してもよく、これはキャッシュ効率性を向上させることができる）。

【0147】

開示される実施形態は、ｍＧＰＵのグループの粒度でアフィニティを指定するが、アフィニティは、例えば、メモリ階層内の様々なレベルの共有キャッシュを用いて、様々な適切な粒度のいずれかで指定され、実装され得ることに留意されたい。開示される実施形態は、例示的な目的で含まれているが、本開示の範囲を限定することを意図するものではないことに留意されたい。

【0148】

図１６は、いくつかの実施形態による、アフィニティに基づいてカーネルからワークグループのバッチを分散させるように構成された例示的な回路を示すブロック図である。図示の実施形態では、１つの論理スロットのための制御回路は、制御ストリームプロセッサ６３０、一次カーネルウォーカ１６１０、グループウォーカ１６２０Ａ～１６２０Ｎ、グループウォーカアービタ１６３０、ｍＧＰＵ割り当て回路６５０、キックスロットアービタ６６０、及び通信ファブリック１６６０を含む。同様の回路が、デバイスによってサポートされる論理スロットごとにインスタンス化され得る。要素１６１０、１６３０、及び１６４０は、上述したカーネルプロセッサ６４０に含まれてもよく、同様に番号付けされた要素は、図６を参照して上述したように構成されてもよいことに留意されたい。

【0149】

各カーネルは、複数の次元（典型的には三次元）のワークグループに編成することができる。これらのワークグループは、複数のスレッド（ワークアイテムとも呼ばれる）を含むことができる。一次カーネルウォーカ１６１０は、図示の実施形態では、指定されたアフィニティマップに従って、ｍＧＰＵのグループをターゲットとするカーネルの部分を含むアフィニティサブカーネルを提供するためにカーネルを通して反復するように構成される。一次カーネルウォーカ１６１０は、サブカーネルの初期ワークグループの座標を使用して、所与のグループウォーカ１６２０に割り当てられたサブカーネルを示すことができる。図１６の要素間で送信される様々なカーネルデータは、実際のワークを含まなくてもよく、むしろ、例えば、カーネルとの座標を使用して、割り当てられるべきワークのロケーションを示す制御シグナリングであってもよいことに留意されたい。

【0150】

異なる次元を有するカーネルの場合、一次カーネルウォーカ１６１０は、カーネルをＮ個のアフィニティ領域に分割することができる。例えば、アフィニティマップごとにＮ個のアフィニティ領域を有する実施形態では、一次カーネルウォーカ１６１０は、一次元カーネルのためにＮ個の領域全てを使用することができる。二次元カーネルの場合、一次カーネルウォーカ１６１０は、カーネルを

【数1】

個のアフィニティ領域のグリッドによって

【数2】

に分割することができる。三次元カーネルの場合、一次カーネルウォーカ１６１０は、カーネルを長方形のアフィニティ領域に分割することができる（一例として、ｚ次元全体に及ぶ

【数3】

個のアフィニティ領域のグリッドによる

【数4】

【0151】

グループウォーカ１６２０は、図示の実施形態では、それぞれのアフィニティサブカーネルを独立してウォークし、バッチを生成するように構成され、各バッチは１つ以上のワークグループを含む。バッチは、計算ワークがｍＧＰＵにディスパッチされる粒度であってよい。所与のアフィニティサブカーネルは、図１７を参照して以下で詳細に説明するように、複数のスレッド制限付きウォーク順序サブカーネルに分割することができることに留意されたい。カーネルウォーク順序を制御するための様々な技術が、２０２０年９月１１日に出願された米国特許出願公開第１７／０１８，９１３号明細書において論じられており、アフィニティサブカーネルをウォークするためにグループウォーカ１６２０によって使用され得る。

【0152】

グループウォーカアービタ１６３０は、図示の実施形態は、利用可能なバッチ間で調停するように構成され、ｍＧＰＵ割り当て回路６５０は、選択されたバッチをウォーカに割り当てるように構成される。

【0153】

割り当て回路６５０は、ｍＧＰＵマスク及びロードバランシングを使用して、任意のソフトウェアオーバーライドに従ってｍＧＰＵを割り当てることができる。キックスロットアービタ６６０は、準備されたバッチ間を調停し、それらを通信ファブリック１６６０を介してターゲットｍＧＰＵに送信する。通信ファブリック１６６０は、割り当てられたワークの特性を示す制御シグナリングと、ワーク完了を示す追跡シグナリングとを送信するように構成されたワーク負荷分散共有バス（ＷＤＳＢ）であってもよく、これについては、例えば、上記で参照した米国特許出願公開第１７／１５８，９４３号明細書に記載されている。

【0154】

いくつかの実施形態では、デバイスは、例えば、ソフトウェア制御に基づいて、又はある条件下で制御回路を使用して、アフィニティベースのスケジューリングをオフにすることができる。この状況では、一次カーネルウォーカ１６１０は、カーネル全体を単一のグループウォーカ１６２０に割り当てることができる。

【0155】

ｍＧＰＵにおける分散制御回路３４０の各インスタンスは、実行のためにワークグループをシェーダパイプラインに割り当てる前に、受信したバッチを記憶するための入力待ち行列及びバッチ実行待ち行列を含むことができる。

【0156】

図１７は、いくつかの実施形態による、例示的なカーネル反復を示す図である。図示の実施形態では、カーネル１７１０は、複数の部分（１つの次元におけるＭ個の部分及び別の次元におけるＸ個の部分）を含む。これらの部分の各々は、アフィニティサブカーネルと呼ばれてもよく、アフィニティ領域にマッピングされてもよい（複数のアフィニティサブカーネルが同じアフィニティ領域にマッピングされてもよいことに留意されたい）。

【0157】

図示の例では、部分Ａ０は、複数のスレッド制限サブカーネル部分Ａ～Ｎを含む。各アフィニティサブカーネル内で、グループウォーカ１６２０Ａは、米国特許出願公開第１７／０１８，９１３号明細書に記載されているような制限付き反復を使用することができる。図示のように、スレッド制限サブカーネル部分Ａは、通信ファブリック１６６０を介して分散され得るいくつかのバッチに分割される（ここで、バッチ内の各正方形はワークグループを表す）。開示される実施形態では、部分Ａ０からの全てのバッチは、ｍＧＰＵの同じグループに割り当てられてもよい（カーネル１７１０の他の部分もまた、ｍＧＰＵのこのグループを対象としてもよいことに留意されたい）。様々な実施形態において、開示されるアフィニティ技術は、キャッシュ効率を有利に改善することができる。

【0158】

いくつかの実施形態では、アフィニティベースのスケジューリングは、ある状況において、例えば、非同種カーネルに対して、性能を一時的に低下させ得る。例えば、ｍＧＰＵのいくつかのグループは、他のグループがあまり複雑でない部分を終了したときに、カーネルの複雑な部分に対して依然として動作している可能性がある。したがって、いくつかの実施形態では、グラフィックスプロセッサは、例えばカーネルの終わりに、アフィニティベースのスケジューリングをオーバーライドするためにワークスティーリング技術を実装する。これらの実施形態では、カーネルに対してアイドル状態であるｍＧＰＵのグループは、カーネル上でまだ動作しているグループからワークを行うことができ、これは、カーネルの全体的な実行時間を有利に短縮することができる。

【0159】

いくつかの実施形態では、制御回路は、ｍＧＰＵの１つ以上の提供者グループ（例えば、最も多くの仕事が残っているグループ（複数可））を選択し、ある状態にあるｍＧＰＵの他のグループ（例えば、カーネルに対するそれらのワークの全て、又は少なくともそれらの仕事の閾値量を完了した）を、ワーク受容者グループとして選択する。ワーク受容者グループは、提供者グループに割り当てられたアフィニティサブカーネルからバッチを受信することができ、それによって、特定の状況においてアフィニティ技術をオーバーライドする。

【0160】

図１８は、いくつかの実施形態による、ワークシェアリングを容易にするように構成された例示的な回路を示すブロック図である。図示の実施形態では、一次カーネルｍＧＰＵ１６１０は、ｍＧＰＵの各グループをターゲットとするカーネルの残りの部分（例えば、アフィニティサブカーネル）を追跡するように構成された回路１８１０Ａ～１８１０Ｎを含む。例えば、所与のグループが７つのアフィニティサブカーネルによってターゲットとされ、４つのアフィニティサブカーネルを受け取った場合、そのグループについて３つのアフィニティサブカーネルが残っている。

【0161】

ワークシェアリング制御回路１８２０は、図示の実施形態では、回路１８１０によって維持される情報に基づいて、ワーク提供者グループ（複数可）及び受信者グループ（複数可）を選択するように構成される。これらのグループを識別する情報は、図示の実施形態では、回路１８３０及び１８４０に保持される。いくつかの実施形態では、グループは、カーネルのアフィニティマップ内のアフィニティ領域に関連付けられた場合にのみ、ワークを行うのに適格である。いくつかの実施形態では、グループは、カーネルに割り当てられた（アフィニティマップを介して割り当てられた）ワークの全てをディスパッチすると、カーネルに対してワークを行うのに適格であるようになる。

【0162】

いくつかの実施形態では、ワーク提供者グループは、最も後ろにある（ディスパッチするために残っている最大数の部分を有する）グループである。グループがワークを受けるのに適格であるとき、グループは提供者グループにロックオンすることができる。図示のように、一次カーネルウォーカ１６１０は、そのような受信者グループの同期のために状態情報（例えば、アフィニティサブカーネルの座標ベース情報）を送信することができる。

【0163】

提供者用のグループカーネルウォーカ（この例では１６２０Ａ）は、ワークグループのバッチを生成し、その対応するグループ内のｍＧＰＵに、又はワーク需要者グループのいずれかのｍＧＰＵに送信する。適格なｍＧＰＵのセットは、例えば、ｍＧＰＵ割り当て回路６５０が、負荷分散に基づいて適格なｍＧＰＵのセットの中から選択することができるように、グループウォーカ１６２０ＡからのｍＧＰＵマスクによって指定され得る。

【0164】

いくつかの実施形態では、ドネータグループがその現在の部分（例えば、アフィニティサブカーネル）のディスパッチを終了すると、受信側はロック解除され、新しいドネータを選択することができ、プロセスは、カーネル全体がディスパッチされるまで継続することができる。
キックスロットマネージャ回路の例

【0165】

図１９Ａは、いくつかの実施形態による、例示的なキックスロットマネージャを示すブロック図である。図示の実施形態では、キックスロットマネージャ３５０は、ソフトウェアインタフェースを実装し、レジスタコピーエンジン１９１０と、ステータス回路１９２０（例えば、スコアボード）を追跡する依存関係とを含む。図示の実施形態では、キックスロットマネージャ３５０は、メモリインタフェース１９３０、制御レジスタインタフェース１９４０、及び一次制御回路２１０と通信する。

【0166】

いくつかの実施形態では、キックスロットマネージャ３５０は、ソフトウェアがキックを割り当てることができる複数の「トップスロット」を実装する。これらのトップスロットは、本明細書では「追跡スロット」とも呼ばれる。次いで、キックスロットマネージャ３５０は、キック間のソフトウェア指定依存関係を処理し、追跡スロットから一次制御回路２１０内の論理スロットにキックをマッピングし、キック実行ステータスを追跡し、ステータス情報をソフトウェアに提供することができる。いくつかの実施形態では、専用キックスロットマネージャ回路は、ソフトウェア制御の実装と比較して、キックからキックへの移行時間を有利に短縮し得る。

【0167】

レジスタコピーエンジン１９１０は、いくつかの実施形態では、メモリインタフェース１９３０を介してメモリから（例えば、キック構成レジスタのための）レジスタデータを取得し、キックのためにインタフェース１９４０を介して構成レジスタをプログラムするように構成される。いくつかの実施形態では、レジスタコピーエンジン１９１０は、キックのためにシェーダリソースを割り当てる前に、構成レジスタデータを内部バッファ（図１９Ａに明示的に図示せず）にプリフェッチするように構成される。これは、様々な実施形態において、新たなキックを開始するときにキックからキックへの移行時間を短縮し得る。レジスタコピーエンジン１９１０は、メモリインタフェース１９３０を介して制御レジスタデータにアクセスすることができ、制御レジスタインタフェース１９４０を介して制御レジスタに書き込むことができる。

【0168】

いくつかの実施形態では、レジスタコピーエンジン１９１０は、優先度でキックのためのデータをプリフェッチするように構成され、追加のデータを要求する前に、最初に要求されたレジスタデータが取り出されるのを待たなくてもよい（これは、レジスタデータを読み取ることに関連するメモリ待ち時間を吸収し得る）。いくつかの実施形態では、レジスタコピーエンジン１９１０は、適切な分散スロットがプログラムされるように、例えばｍＧＰＵマスクに基づいて、マスクされたブロードキャストレジスタプログラミングをサポートする。いくつかの実施形態では、レジスタコピーエンジン１９１０を使用して制御レジスタをプログラムすることにより、一次ファームウェアプロセッサからワークをオフロードすることができる。

【0169】

いくつかの実施形態では、キックスロットマネージャ３５０は、キックをスケジュールし、キックのための全ての構成レジスタのプログラミングの前に、ワーク割り当て情報を一次制御回路２１０に送信するように構成される。一般に、初期キックスケジューリングはパイプライン化され得る。これは、セットアップフェーズレジスタプログラミング、分散されたスロットを識別する一次制御回路、ワークをキューイングする一次制御回路と並行して制御レジスタをプログラミングするレジスタコピーエンジン１９１０、及び最終制御レジスタが書き込まれた後に開始するキューイングされたワークを含み得る。これは、ダウンストリーム回路がワーク割り当てを受信して待ち行列に入れ、構成レジスタが書き込まれるとすぐに処理を開始することを可能にし、いくつかの実施形態では、キックからキックへの移行時間を更に短縮する。特に、これは、全ての制御レジスタがプログラムされるまで待ち行列ワークを待つことに対して、複数の制御バス横断に関連付けられた待ち時間を節約し得る。

【0170】

依存関係追跡及びステータス回路１９２０は、以下で詳細に説明するように、ソフトウェアから受信した情報を記憶し、ソフトウェアインタフェースを介してステータス情報をソフトウェアに提供することができる。いくつかの実施形態では、追跡スロットは、複数のタイプの一次制御回路（例えば、計算、ピクセル、及び頂点制御回路）によって共有される。他の実施形態では、特定の追跡スロットは、特定のタイプの一次制御回路のために予約されてもよい。

【0171】

図１９Ｂは、いくつかの実施形態による、追跡スロットごとの例示的な追跡及びステータスデータを図示する図である。図示の実施形態では、回路１９２０は、各追跡スロットについて以下の情報、すなわち、識別子、ステータス、データ識別、依存関係、実行データ、及び構成を維持する。これらの例示的なフィールドの各々について、以下で詳細に説明する。いくつかの実施形態では、ステータス及び実行データフィールドは、ソフトウェアによる読み取り専用であり、他のフィールドは、ソフトウェア構成可能である。

【0172】

各追跡スロットは、一意のＩＤを割り当てられ得る。したがって、キックスロットマネージャ３５０は、最大数の追跡スロットをサポートし得る。様々な実施形態では、サポートされる追跡スロットの数は、全ての利用可能な追跡スロットを使用するために十分に小さい非依存キックが並行してスケジュールされ得ることがかなり稀であるように選択され得る。いくつかの実施形態では、サポートされる追跡スロットの数は、サポートされる論理スロットの数よりも多い。

【0173】

ステータスフィールドは、いくつかの実施形態では、スロットの現在の状態及びスロットが有効であるかどうかを示す。このフィールドはまた、適用可能な場合、論理スロットと、追跡スロットに割り当てられた任意の分散スロットとを示し得る。いくつかの実施形態では、ステータスフィールドは、以下のステータス値をサポートする。空、プログラミング完了、レジスタフェッチ開始、親待機、リソース待機、分散スロット待機、実行中、要求停止、割り当て解除、キックスロットマネージャによる待ち行列解除、一次制御回路による待ち行列解除、コンテキストの記憶、及び完了。他の実施形態では、ステータスフィールドは、他の状態、説明される状態のサブセットなどをサポートしてもよい。例示的な状態は、図２１のステートマシンを参照して以下で詳細に説明される。

【0174】

データ識別フィールドは、いくつかの実施形態では、キックのための制御レジスタデータのロケーションを示す。これは、例えば、初期レジスタアドレス及びいくつかの構成レジスタとして指定することができる。また、レジスタコンテキスト識別子を含んでもよい。いくつかの実施形態では、データ識別フィールドは、サンプラ又はメモリアパーチャなど、キックによって使用される他のリソースも示す。これらのリソースのうちのいくつかはハードリソースであってもよく、その結果、キックは、それらが利用可能になるまで進行することができず、一方、他のリソースはソフトリソースであってもよく、キックは、ある状況において、それらなしで、又は要求されたリソースの一部のみを伴って進行し得る。一例として、メモリアパーチャは、ソフトリソースと見なされてもよく、キックは、それらのソフトリソースが利用可能でない場合であっても（潜在的に、要求ソフトウェアに送信された通知を用いて）進行することを許可されてもよい。

【0175】

依存関係フィールドは、いくつかの実施形態では、他のスロット内のキックに対するスロットの任意の依存関係を示す。一例として、回路１９２０は、Ｎ×Ｎ個の行列（ここで、Ｎは追跡スロットの数である）を実装してもよく、各スロットは、スロットが他のスロットに依存するかどうかを示す他の各スロットのエントリを含む。エントリは、他のスロットからのキックが完了するとクリアされてもよい。他の実施形態では、他の技術を使用して依存関係を符号化することができる。キックスロットマネージャ３５０は、示された依存関係に従って追跡スロットを論理スロットに割り当てることができる（例えば、キックが依存する全ての追跡スロットが完了するまでキックを論理スロットに割り当てるのを待つことによって）。依存関係追跡をソフトウェア／ファームウェア制御から専用ハードウェアに移動することは、論理スロットのより効率的な使用を可能にし得、キックからキックへの移行を低減し得る。

【0176】

実行データフィールドは、いくつかの実施形態では、キックの実行ステータスに関する情報を提供する。例えば、このフィールドは、キックが分散スロット上で実行を開始するとき、及びキックが終了するときに、キックを論理スロットに割り当てるためのタイムスタンプを提供することができる。様々な他の性能又はデバッグ情報も同様に示され得る。いくつかの実施形態では、様々な追跡スロット情報が、保持フィールドが設定されたスロットについて保持され、それらのマッピングされたハードウェアリソースも解放されない（潜在的に、論理スロットレベル、分散スロットレベル、又はその両方でステータスレジスタへのアクセスを可能にする）。

【0177】

構成フィールドは、いくつかの実施形態では、スロットを制御する一次制御回路のタイプ（例えば、計算、ピクセル、又は頂点）、スロットの優先度、保持スロット指示、キック割り込み指示の強制終了、又はそれらの任意の組み合わせを示す。この構成フィールドは、例えば、スロットの構成を示すためにソフトウェアによってプログラム可能であり、特定のソフトウェアオーバーライド情報を提供することができる。カーネル割り込みの終了は、グローバルに設定され得るか、又はキックごとにトリガするように（又はキックの閾値数の後にトリガするように）設定され得る。これは、必要なときに割り込み機能を依然として保持しながら、割り込みの処理に費やされるファームウェア時間を（特定の状況において割り込みを省略することによって）有利に短縮することができる。

【0178】

様々な実施形態では、開示される追跡回路は、ソフトウェアが、（例えば、これらのキックの実行を開始、停止、照会、及び修正する能力を用いて）いくつかのキックを並行して処理することを可能にし得る。

【0179】

図２０は、いくつかの実施形態による、例示的なレジスタプリフェッチバッファ構成を示す図である。図示の実施形態では、レジスタはタイプによって編成される（例えば、この例では、全てのセットアップレジスタがバッファの始めにあり、実行レジスタがバッファの終わりにある）。一般的に言えば、セットアップレジスタは、キックが開始する前にキックを構成するために使用され、実行レジスタは、キックの分散実行のために使用される。図示の実施形態では、バッファは、レジスタが位置する構成レジスタ空間内のオフセット及びそのペイロードを示す。

【0180】

プリフェッチされたレジスタデータのこの編成は、有利には、所与のタイプのレジスタのブロックの始め又は終わりに新しいレジスタを保存することを依然として可能にしながら、例えば、キックからキックへのバッファ再利用のために、前のレジスタのオーバーライドを可能にし得る。様々な実施形態では、２つ以上の異なるタイプのレジスタが、そのような技術を容易にするためにタイプによって一緒にグループ化され得る。いくつかの実施形態では、レジスタプリフェッチバッファはＳＲＡＭである。他の実施形態では、レジスタプリフェッチバッファはキャッシュであり、追加のスペースが必要な場合、（例えば、最後に使用されたアルゴリズム又は別の適切な追い出しアルゴリズムに従って）エントリを追い出すことができる。

【0181】

図２１は、いくつかの実施形態による、例示的なキックスロットマネージャ状態を示すステートマシン図である。空状態２１１０から、制御回路は、スロットをキックのために割り当てるためにスロットを有効にするように構成される。スロットのデータがプログラムされたとき（例えば、図１９Ｂを参照して上述した依存関係及び構成）、状態は「プログラミング完了」状態２１１２に移行する。レジスタコピーエンジン１９１０がフェッチ要求を受け入れた後、状態はレジスタフェッチ開始２１１４に移行する（図示の実施形態では、これは、リソースを追跡スロットに割り当てる前のプリフェッチであることに留意されたい）。フェッチが完了したことをレジスタコピーエンジン１９１０が示した後、状態は「親を待つ」状態２１１６に移行する。追跡スロットについて全ての依存関係が満たされると、状態は「リソースを待つ」状態２１１８に移行する。

【0182】

図示のように、状態２１１０～２１１８のいずれかにおいて停止が要求された場合、状態は「ＫＳＭからの待ち行列解除」２１２６に移行する。スロットがリセットされると、状態は空状態２１１０に戻る。例えば、リソースがスロットにまだ割り当てられていないので、状態２１１６は、以下に詳細に説明される他の停止状態よりも実質的に少ない割り当て解除動作を必要とし得ることに留意されたい。

【0183】

リソースが割り当てられると、状態は「ｄＳｌｏｔ待機状態」２１２０に移行し、ＫＳＭは、２１２４において（例えば、一次制御回路からの）制御応答を待つ。ｄＳｌｏｔ（複数可）が割り当てられると、状態は実行状態２１２２に移行する。これらの状態において停止が要求された場合（２１２８に示す）、ＫＳＭは２１３０において制御応答を待つ。キックが停止要求の後に、又は実行状態２１２２から行われた場合、スロットは２１３２で割り当て解除され、キックは２１３８で完了する。

【0184】

状態２１２０又は２１２２において停止が要求され、制御応答２１３０が論理スロットが記憶されていることを示す場合、状態は割り当て解除状態２１３４に移行し、２１４０においてコンテキストが記憶されるのを待ってから、スロットをリセットする。２１３０における制御応答が待ち行列解除を示す場合、状態は割り当て解除２１３６に移行し、次いで、スロットをリセットする前に「一次制御回路から待ち行列解除」２１４２に移行する（これは、状態２１３４及び２１４０に対して、論理スロットのコンテキストストアを必要としない、より優雅な待ち行列解除であり得る）。一般的に言えば、開示される技術は、有利には、一次制御回路が複数のレベルでワークのスケジューリングを一時停止することを可能にし、ファームウェアが安全な様式でハードウェアと相互作用することを可能にし得る。

【0185】

スロットが状態２１３８、２１４０、又は２１４２からリセットされると、キックスロットマネージャは、保持フィールドが設定されているかどうかを判定し、設定されていない場合、空状態２１１０に戻る。保持フィールドが設定されている場合、ＫＳＭは、２１４８で（例えば、ソフトウェア制御に基づいて）割り当てられた論理スロットが割り当て解除されるのを待つ。一般的に言えば、追跡スロットは、明示的に保持されない限り、自動的にリサイクルされ得る。

【0186】

上述したように、依存関係追跡及びステータス回路１９２０は、各スロットの現在の状態をソフトウェアに提供することができる。

【0187】

いくつかの実施形態では、キックスロットマネージャ３５０は、例えば、サポートされる追跡スロットの数の変動を可能にすることによって、複数のＧＰＵサイズにわたってスケーラブルである。（ファームウェア又はソフトウェアによる）追跡スロット、次いで（一次制御回路による）論理スロット、次いで分散スロットの開示される動的階層スケジューリングは、有利には、階層レベルにわたって分散されたスケジューリングインテリジェンスを伴う効率的分散を提供し得る。

【0188】

いくつかの実施形態では、キックスロットマネージャ３５０は、追跡スロットに基づいて１つ以上の電力制御動作を実行するように構成される。例えば、制御回路は、（例えば、クロックゲーティング、電力ゲーティングなどによって）１つ以上の回路の電力状態を低減し得る。多数の追跡スロットを伴ういくつかの実施形態では、制御回路は、他の回路が追跡スロット内で待ち行列に入れられたワークを有するときであっても、他の回路の電力状態を低減することができる。例えば、制御回路は、追跡スロット内にキックを有する場合であっても、ピクセルデータマスタの電力状態を低減することができる。

【0189】

いくつかの実施形態では、スケジュールされた追跡スロットのための第１のアクションは、それが所望よりも低い電力状態にある場合、任意の関連付けられた回路の電力状態の増加である。例えば、制御回路は、ピクセルデータマスタのための電源投入レジスタに書き込むことによって、ピクセルキックを開始してもよい。一般的に言えば、デバイスは、種々のタイプの論理（例えば、キャッシュ、フィルタリング論理、光線追跡回路など）をパワーゲイトし、追跡スロットがその論理を使用するであろうとき、それらの論理ブロックに電力を供給してもよい。いくつかの実施形態では、キックスロットマネージャ３５０は、追跡スロットに割り当てられたキックが１つ以上のタイプの回路を使用するかどうかを示す、各追跡スロットの１つ以上のフラグを維持する。キックスロットマネージャ３５０は、これらの追跡スロットのスケジューリングに応答して、これらのタイプの回路が必要な電力状態を満たすようにさせ得る。
例示的な方法

【0190】

図２２は、いくつかの実施形態による、論理スロットを使用してグラフィックスワークを分散させるための例示的な方法を示すフロー図である。図２２に示す方法は、とりわけ、本明細書で開示するコンピュータ回路、システム、デバイス、要素又は構成要素のいずれかと共に使用することができる。様々な実施形態では、図示の方法要素のいくつかは、同時に実行されてもよく、図示のものとは異なる順序で実行されてもよく、又は省略されてもよい。必要に応じて、追加の方法要素が実行されてもよい。

【0191】

２２１０において、図示の実施形態では、制御回路は、グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当てる。いくつかの実施形態では、回路は複数の論理スロットを実装し、グラフィックスプロセッササブユニットのセットは各々、複数の分散ハードウェアスロットを実装する。いくつかの実施形態では、グラフィックスプロセッササブユニットは、複数のサブユニットの複数のグループに編成され、同じグループ内のサブユニットはキャッシュを共有する。いくつかの実施形態では、所与のグループのサブユニットは、同じ物理的ダイ上に実装される。いくつかの実施形態では、サブユニットは、個別のフラグメント生成回路、シェーダコア回路、データキャッシュ及びメモリ管理ユニットを含むメモリシステム回路、ジオメトリ処理回路、並びに分散ワーク負荷分散回路を含む。いくつかの実施形態では、分散ハードウェアスロットは、それぞれ、構成レジスタ、バッチ待ち行列回路、及びバッチ反復回路を含む。様々な実施形態において、サブユニット内のシェーダ回路は、その複数の分散ハードウェアスロットからワークを受信して実行するように構成される。

【0192】

「グラフィックスプロセッササブユニットのセットが各々、複数の分散ハードウェアスロットを実装する」という記載は、グラフィックスプロセッササブユニットのセットが少なくとも２つのサブユニットを含み、その各々が複数の分散ハードウェアスロットを実装することを意味する。いくつかの実施形態では、デバイスは、必ずしも複数の分散ハードウェアスロットを実装しない追加のグラフィックスプロセッササブユニット（セット内にない）を有してもよい。したがって、「複数の分散ハードウェアスロットを各々実装するグラフィックスプロセッササブユニットのセット」という句は、全ての場合において、デバイス内の全てのサブユニットが複数の分散ハードウェアスロットを実装することを意味するものと解釈されるべきではなく、単に、いくつかの事例においてそうであり、他の事例においてそうではない可能性を提供する。同様の解釈は、用語「各」を使用する本明細書の他の記述に対しても意図される。

【0193】

２２２０において、図示の実施形態では、制御回路は、セット内のグラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの第１のセットのための分散規則を決定する。

【0194】

２２３０において、図示の実施形態では、制御回路は、セット内のグラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの第２のセットのための分散規則を決定する。いくつかの実施形態では、グラフィックスワークの第２のセットに対して決定された分散規則は、グラフィックスワークの第１のセットをサブユニットの単一のグループに分散させることを示す。代替的に、グラフィックスワークの第２のセットに対して決定された分散規則は、グラフィックスワークの第２のセットを単一のサブユニットに分散させることを示し得る。

【0195】

制御回路は、グラフィックスワークの第１及び第２のセット内のワーク量に基づいて、第１及び第２の分散規則を選択してもよい。制御回路は、実行されているグラフィックスプログラムによって信号伝達される１つ以上のソフトウェアオーバーライドに基づいて、第１の分散規則を決定してもよい。これらは、以下のタイプの例示的なソフトウェアオーバーライド、すなわち、どのサブユニットが第１のワークセットに利用可能であるかを示すマスク情報、指定された分散規則、第１のワークセットが展開されるべきサブユニットのグループを示すグループ情報、及びスケジューリングポリシーを示すポリシー情報の任意の適切な組み合わせを含むことができる。いくつかの実施形態では、制御回路は、複数の論理スロットのスロットのためのそれぞれの保持値を決定し、保持値は、論理スロットのためのカーネルのステータスを示す。制御回路は、それぞれの保持値のうちの１つ以上に基づいて、第１の優先度レベルを伴う論理スロットが、第２のより低い優先度レベルを伴う論理スロットに割り当てられたハードウェアスロットを再利用することを可能にしてもよい。

【0196】

グラフィックスワークの第１及び第２のセットは、キックであってもよい。グラフィックスワークの第１及び第２のセットは、同じキック又は異なるキックにおける計算カーネルであってもよい。したがって、いくつかの実施形態では、グラフィックスワークの第１のセットは、第１の論理スロットに割り当てられた計算キックの第１のカーネルであり、計算キックは、少なくとも１つの他のカーネルを含み、装置は、少なくとも１つの他のカーネルに対して第１のカーネルとは異なる分散規則を選択するように構成される。

【0197】

２２４０において、図示の実施形態では、制御回路は、第１の分散規則に基づいて、第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定する。

【0198】

２２５０において、図示の実施形態では、制御回路は、第２の分散規則に基づいて、第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定する。

【0199】

２２６０において、図示の実施形態では、制御回路は、決定されたマッピングに従って、グラフィックスワークの第１及び第２のセットをグラフィックスプロセッササブユニットのうちの１つ以上に分散させる。

【0200】

いくつかの実施形態では、論理スロットのための制御回路は、第１及び第２の分散規則を決定するように構成された制御ストリームプロセッサ（例えば、ＣＳＰ６３０）と、計算ワークグループのバッチを生成するように構成されたカーネルプロセッサ（例えば、回路６４０）と、計算ワークグループのバッチをサブユニットに割り当てるように構成されたサブユニット割り当て回路（例えば、回路６５０）とを含む。いくつかの実施形態では、制御回路は、示された分散規則に基づいてストリームプロセッサを制御するためにハードウェアスロットを割り当てるように構成されたハードウェアスロットリソースアロケータ回路（例えば、回路６２０）と、割り当てられたサブユニットへの分散のために異なる論理スロットからのバッチ間で調停するように構成された論理スロットアービタ回路（例えば、回路６６０）とを含む。いくつかの実施形態では、ハードウェアスロットリソースアロケータ回路は、ハードウェアスロットの状態に基づいてハードウェアスロットを割り当てるように構成される。異なるハードウェアスロットの状態は、少なくとも、例えば、無効、実行中、空、及びフラッシュを含んでもよい。

【0201】

いくつかの実施形態では、デバイスは、複数のタイプのキャッシュフラッシュ無効化動作を実行するように構成され、キャッシュフラッシュ無効化動作は、カーネルが割り当てられた１つ以上のサブユニットについてのみキャッシュをフラッシュ及び無効化する第１のタイプのキャッシュフラッシュ無効化動作と、１つ以上のキャッシュレベルでグラフィックスプロセッササブユニットのセットについて全てのキャッシュをフラッシュ及び無効化する無条件タイプのキャッシュフラッシュ無効化動作とを含み得る。

【0202】

図２３は、いくつかの実施形態による、論理スロットを優先度付けするための例示的な方法を示すフロー図である。図２３に示す方法は、とりわけ、本明細書で開示するコンピュータ回路、システム、デバイス、要素又は構成要素のいずれかと共に使用することができる。様々な実施形態では、図示の方法要素のいくつかは、同時に実行されてもよく、図示のものとは異なる順序で実行されてもよく、又は省略されてもよい。必要に応じて、追加の方法要素が実行されてもよい。

【0203】

２３１０において、図示の実施形態では、制御回路は、ソフトウェア指定グラフィックスワークの第１のセットと、グラフィックスワークの第１のセットのためのソフトウェア指示優先度情報とを受信する。

【0204】

２３２０において、図示の実施形態では、制御回路は、グラフィックスワークの第１のセットを、デバイスによって実装された複数の論理スロットのうちの第１の論理スロットに割り当てる。

【0205】

２３３０において、図示の実施形態では、制御回路は、論理スロットと、デバイスのグラフィックスサブユニットによって実装された分散ハードウェアスロットとの間のマッピングを決定し、マッピングは、優先度が閾値優先度レベルを上回る論理スロットのために、各サブユニットにおける閾値数のハードウェアスロットを予約する。いくつかの実施形態では、論理スロットの第１のサブセットは高優先度スロットであり、残りの論理スロットは低優先度スロットである。これらの実施形態では、制御回路は、ソフトウェア指示優先度情報に基づいて、グラフィックスワークの第１のセットを第１の論理スロットに割り当ててもよい。他の実施形態では、優先度は、様々な他の技術を使用して符号化及び追跡され得る。

【0206】

２３４０において、図示の実施形態では、制御回路は、マッピングのうちの１つに従って、グラフィックスワークの第１のセットをグラフィックスプロセッササブユニットのうちの１つ以上に分散させる。

【0207】

いくつかの実施形態では、制御回路（例えば、分散型スロットリソースアロケータ回路）は、第１のソフトウェア指示優先度レベルを有する論理スロットが、第２のより低い優先度レベルを有する論理スロットに割り当てられたハードウェアスロットを再利用することを可能にする、再利用手順を実行するように構成される。

【0208】

いくつかの実施形態では、グラフィックスワークの第１のセットのためのソフトウェア入力（例えば、スロット保持コマンド）に基づいて、制御回路は、グラフィックスワークの第１のセットのための処理の完了後、第１の論理スロットのための分散ハードウェアスロットのマッピングを維持するように構成される。いくつかの実施形態では、制御回路は、マッピングされた分散スロットを解放することを示すソフトウェア入力の後にのみ、グラフィックスワークの第１のセットのためのマッピングされた分散ハードウェアスロットを別の論理スロットに割り当てる。

【0209】

いくつかの実施形態では、制御回路は、グラフィックスワークの第１のセットのためのステータス情報をソフトウェアに提供する。制御回路は、種々のステータス状態をサポートしてもよく、限定ではないが、依存関係の待機、グラフィックスワークの第１のセットのための構成データの待機、割り当て分散スロットの待機、ハードウェアリソースの待機、空、プログラミング完了、論理スロットの待機、割り当て解除、及び記憶されたコンテキストを含んでもよい。ステータス情報は、例えば、第１の論理スロットを識別し、割り当てられた分散ハードウェアスロットを識別し、又はグラフィックスワークの第１のセットの実行に関連付けられたタイムスタンプ情報を示し得る。

【0210】

制御回路は、優先度情報に加えて、又は優先度情報の代わりに、様々なソフトウェア制御又はオーバーライド機能をサポートすることができ、限定ではないが、セット内のグラフィックスプロセッササブユニットの一部のみに分散させるか、又はセット内のグラフィックスプロセッササブユニットの全てに分散させるかを示す指定された分散規則、グラフィックスワークの第１のセットが展開されるべきサブユニットのグループを示すグループ情報、どのサブユニットがグラフィックスワークの第１のセットに利用可能であるかを示すマスク情報、及びスケジューリングポリシーを示すポリシー情報を含む。

【0211】

いくつかの実施形態では、デバイスは、マッピングのための分散規則を決定するように構成された制御ストリームプロセッサ回路と、ソフトウェア入力、制御ストリームプロセッサ回路からの決定された分散規則、分散スロット状態情報に基づいてマッピングを決定するように構成された分散スロットリソースアロケータ回路とを含む。

【0212】

図２４は、いくつかの実施形態による、アフィニティベースのスケジューリングのための例示的な方法を示すフロー図である。図２４に示す方法は、とりわけ、本明細書で開示するコンピュータ回路、システム、デバイス、要素又は構成要素のいずれかと共に使用することができる。様々な実施形態では、図示の方法要素のいくつかは、同時に実行されてもよく、図示のものとは異なる順序で実行されてもよく、又は省略されてもよい。必要に応じて、追加の方法要素が実行されてもよい。

【0213】

２４１０において、図示の実施形態では、制御回路（例えば、カーネルウォーカ回路）は、グラフィックスワーク（例えば、計算カーネル）のソフトウェア指定されたセットと、グラフィックスプロセッササブユニットのグループへのグラフィックスワークのセットの部分のソフトウェア指示されたマッピングとを受信する。第１のグループのサブユニットは第１のキャッシュを共有することができ、第２のグループのサブユニットは第２のキャッシュを共有することができる。マッピングは、グラフィックスサブユニットの特定のグループを識別してもしなくてもよいことに留意されたい。むしろ、マッピングは、計算カーネルの複数の部分がグラフィックスプロセッササブユニットの同じグループに割り当てられるべきであることを指定することができるが、ハードウェアがグラフィックスプロセッササブユニットのどのグループを実際に割り当てるかを決定することを可能にすることができる。

【0214】

２４２０において、図示の実施形態では、制御回路は、マッピングに基づいて、グラフィックスワークのセットの第１のサブセットをグラフィックスサブユニットの第１のグループに割り当て、グラフィックスワークのセットの第２のサブセットをグラフィックスサブユニットの第２のグループに割り当てる。

【0215】

制御回路は、構成レジスタ内に、グラフィックスワークのセットの部分のグラフィックスプロセッササブユニットのグループへの複数のマッピングを記憶するように構成され得る。

【0216】

カーネルウォーカ回路は、計算カーネルの部分を決定するように構成された一次カーネルウォーカ回路（例えば、図１６の要素１６１０）と、ワークグループのバッチを決定するためにグラフィックスサブユニットの第１のグループに割り当てられた計算カーネルの部分を反復するように構成された第１のグループウォーカ回路（例えば、図１６の要素１６２０）と、ワークグループのバッチを決定するためにグラフィックスサブユニットの第２のグループに割り当てられた計算カーネルの部分を反復するように構成された第２のグループウォーカ回路とを含むことができる。カーネルウォーカ回路は、第１及び第２のグループウォーカ回路によって決定されたワークグループのバッチの中から選択するように構成されたグループウォーカアービトレーション回路（例えば、図１６の要素１６３０）と、グループウォーカアービトレーション回路によって選択されたバッチを、選択されたグループウォーカ回路に対応するサブユニットのグループ内の１つ以上のグラフィックスサブユニットに割り当てるように構成されたサブユニット割り当て回路（例えば、ｍＧＰＵ割り当て回路６５０）とを更に含むことができる。

【0217】

いくつかの実施形態では、デバイスは、計算カーネルのためにそれらの割り当てられた部分の全てをディスパッチしたサブユニットの１つ以上の他のグループのセットを決定し、サブユニットの第１のグループをターゲットとするものとしてマッピングによって示された計算カーネルの少なくとも第１の部分を、サブユニットの１つ以上の他のグループのグループに割り当てるように構成されたワークシェアリング制御回路を含む。

【0218】

いくつかの実施形態では、制御回路は、１つ以上の動作モードにおいて、アフィニティベースのワーク分散を無効にする。制御回路は、一次元カーネル、二次元カーネル、及び三次元カーネルを含む複数の次元の計算カーネルのためのグラフィックスプロセッササブユニットアフィニティマップのグループへの計算カーネルの部分のマッピングをサポートし得る。

【0219】

いくつかの実施形態では、コンピューティングデバイスによって実行可能な命令を記憶した非一時的コンピュータ可読媒体は、計算カーネルと、グラフィックスプロセッササブユニットのグループへの計算カーネルの部分の対応するマッピングとを受信することであって、計算カーネル及びマッピングは命令によって指定され、マッピングは、グラフィックスプロセッササブユニットの所与のグループにマッピングされた計算カーネルの部分のセットに対するキャッシュアフィニティを示す、ことと、マッピングに基づいて、計算カーネルの第１のサブセットをグラフィックスサブユニットの第１のグループに割り当て、計算カーネルの第２のサブセットをグラフィックスサブユニットの第２のグループに割り当てることとを含む動作を実行する。

【0220】

図２５は、いくつかの実施形態による、キックスロットマネージャ動作のための例示的な方法を示すフロー図である。図２５に示す方法は、とりわけ、本明細書で開示するコンピュータ回路、システム、デバイス、要素又は構成要素のいずれかと共に使用することができる。様々な実施形態では、図示の方法要素のいくつかは、同時に実行されてもよく、図示のものとは異なる順序で実行されてもよく、又は省略されてもよい。必要に応じて、追加の方法要素が実行されてもよい。

【0221】

２５１０において、図示の実施形態では、制御回路（例えば、スロットマネージャ回路）は、追跡スロット回路のエントリを使用して、グラフィックスワークのセットのためのソフトウェア指定情報を記憶し、情報は、ワークのタイプ、グラフィックスワークの他のセットへの依存関係、及びグラフィックスワークのセットのためのデータのロケーションを含む。

【0222】

いくつかの実施形態では、追跡スロット回路は、グラフィックスワークのセットに関連付けられた様々な情報を照会するためにソフトウェアアクセス可能である。これは、例えば、グラフィックスワークのセットについてのステータス、グラフィックスワークのセットの実行に関連付けられたタイムスタンプ情報、論理一次スロットを示す情報、及び１つ以上の分散ハードウェアスロットを示す情報を含み得る。いくつかの実施形態では、追跡スロット回路は、グラフィックスワークのセットについて少なくとも以下のステータス状態を示すステータス値をサポートする：空、レジスタフェッチ開始、グラフィックスワークの１つ以上の他のセットの待機、論理スロットリソースの待機、分散ハードウェアスロットリソースの待機、及び実行中。

【0223】

２５２０において、図示の実施形態では、制御回路は、ロケーションから、グラフィックスワークのセットのためのシェーダコアリソースを割り当てる前に、グラフィックスワークのセットのための構成レジスタデータをプリフェッチする。プリフェッチは、グラフィックスワークのセットのための追跡スロットの構成後であるが、制御回路がグラフィックスワークのセットを開始することを決定する前（例えば、その全ての依存関係が満たされる前）に行われ得ることに留意されたい。制御回路は、プリフェッチをいつ開始するかを決定するための種々の基準を利用してもよい。プリフェッチは、共有メモリ（制御回路の複数のインスタンス間で共有され得るか、非ＧＰＵプロセッサと共有され得るか、又はその両方であり得る）からスロットマネージャ回路のＳＲＡＭメモリ要素に実行されてもよい。

【0224】

いくつかの実施形態では、制御回路は、構成レジスタのプログラミングの完了前に、グラフィックスワークのセットの部分を、グラフィックスワークのセットに割り当てられたハードウェアスロットに送信する。ハードウェアスロットは、グラフィックスワークのセットの受信された部分のための待ち行列回路を含んでもよい。

【0225】

２５３０において、図示の実施形態では、制御回路は、プリフェッチされたデータを使用して、グラフィックスワークのセットのための構成レジスタをプログラムする。構成レジスタは、グラフィックスワークのセットのプロパティ、グラフィックスワークのセットのためのデータのロケーション、グラフィックスワークのセットを処理するためのパラメータなどを指定することができる。構成レジスタは、グラフィックスワークのセットによって処理されるデータを記憶するデータレジスタとは異なる場合がある。

【0226】

２５４０において、図示の実施形態では、制御回路は、依存関係に従って、グラフィックスプロセッサ回路によるグラフィックスワークのセットの処理を開始する。制御回路は、グラフィックスワークのセットを論理一次スロットに割り当て（構成レジスタデータの少なくとも一部は、論理一次スロットの構成レジスタのためのものであってもよい）、論理スロットを１つ以上の分散ハードウェアスロットに割り当ててもよい（構成レジスタデータの少なくとも一部は、１つ以上の分散ハードウェアスロットの構成レジスタのためのものであってもよい）。

【0227】

いくつかの実施形態では、制御回路は、追跡スロット回路のエントリからグラフィックスワークのセットを開始すると共に、グラフィックスワークのセットに関する情報に基づいて、グラフィックスワークのセットに関連付けられた１つ以上の回路に対して、低電力モードから高電力モードへの増加を開始するように構成される。

【0228】

いくつかの実施形態では、グラフィックス命令は、グラフィックスワークのセットについての情報（例えば、ワークのタイプ、グラフィックスワークの他のセットへの依存関係、及びグラフィックスワークのセットについてのデータのロケーションを示す）を記憶することを指定し、追跡スロット回路に問い合わせて、グラフィックスワークのセットについてのステータス情報（例えば、空、レジスタフェッチ開始、グラフィックスワークの１つ以上の他のセットの待機、論理スロットリソースの待機、分散ハードウェアスロットリソースの待機、及び実行中、グラフィックスワークのセットの実行に関連付けられたタイムスタンプ情報、割り当てられた論理一次スロットを示す情報、及び割り当てられた分散ハードウェアスロットを示す情報の中からのステータス）を決定する。

【0229】

いくつかの実施形態では、グラフィックスワークのセットに対する停止コマンドに応答して、制御回路は、追跡スロットの現在のステータスに応じて異なる動作を実行するように構成される。例えば、制御回路は、論理一次スロットが割り当てられていないという決定に応答して、追跡スロット回路のエントリをリセットしてもよい。別の例として、制御回路は、論理一次スロットが割り当てられたという決定に応答して、論理一次スロットの割り当てを解除し、追跡スロット回路のエントリをリセットしてもよい。更に別の例として、制御回路は、１つ以上の分散ハードウェアスロットが割り当てられているという決定に応答して、１つ以上のコンテキストスイッチ動作を行い、１つ以上の分散ハードウェアスロットの割り当てを解除し、論理一次スロットの割り当てを解除し、追跡スロット回路のエントリをリセットしてもよい。
例示的なデバイス

【0230】

次に図２６を参照すると、デバイス２６００の例示的な実施形態を示すブロック図が示されている。いくつかの実施形態では、デバイス２６００の要素は、システムオンチップ内に含まれてもよい。いくつかの実施形態では、デバイス２６００は、バッテリ駆動され得るモバイルデバイスに含まれてもよい。したがって、デバイス２６００による電力消費は重要な設計考慮事項であり得る。図示した実施形態では、デバイス２６００は、ファブリック２６１０、コンピュートコンプレックス２６２０、入力／出力（Ｉ／Ｏ）ブリッジ２６５０、キャッシュ／メモリコントローラ２６４５、グラフィックスユニット２６７５、及びディスプレイユニット２６６５を含む。いくつかの実施形態では、図示した構成要素に加えて、又はその代わりに、デバイス２６００は、ビデオプロセッサエンコーダ及びデコーダ、画像処理要素又は認識要素、コンピュータビジョン要素などの他の構成要素（図示せず）を含んでもよい。

【0231】

ファブリック２６１０は、様々な相互接続、バス、ＭＵＸ、コントローラなどを含んでもよく、デバイス２６００の様々な要素間の通信を容易にするように構成されてもよい。いくつかの実施形態では、ファブリック２６１０の部分は、様々な異なる通信プロトコルを実装するように構成されてもよい。他の実施形態では、ファブリック２６１０は単一の通信プロトコルを実装してもよく、ファブリック２６１０に連結される要素は単一の通信プロトコルからその他の通信プロトコルに内部で変換してもよい。

【0232】

図示する実施形態では、コンピュートコンプレックス２６２０は、バスインタフェースユニット（ＢＩＵ）２６２５、キャッシュ２６３０、並びにコア２６３５及びコア２６４０を含む。様々な実施形態では、コンピュートコンプレックス２６２０は、様々な数のプロセッサ、プロセッサコア及びキャッシュを含んでもよい。例えば、コンピュートコンプレックス２６２０は、１、２又は４個のプロセッサコア、又は任意の他の好適な数を含んでもよい。一実施形態では、キャッシュ２６３０は、セットアソシエイティブＬ２キャッシュである。いくつかの実施形態では、コア２６３５及び２６４０は、内部命令及び／又はデータキャッシュを含み得る。いくつかの実施形態では、ファブリック２６１０、キャッシュ２６３０、又はデバイス２６００内の他の場所のコヒーレンシユニット（図示せず）は、デバイス２６００の様々なキャッシュ間のコヒーレンシを維持するように構成されてもよい。ＢＩＵ２６２５は、コンピュートコンプレックス２６２０とデバイス２６００の他の要素との間の通信を管理するように構成されてもよい。コア２６３５及びコア２６４０などのプロセッサコアは、オペレーティングシステム命令及びユーザアプリケーション命令を含み得る特定の命令セットアーキテクチャ（ＩＳＡ）の命令を実行するように構成されてもよい。

【0233】

キャッシュ／メモリコントローラ２６４５は、ファブリック２６１０と１つ以上のキャッシュ及び／又はメモリとの間のデータの転送を管理するように構成されてもよい。例えば、キャッシュ／メモリコントローラ２６４５は、Ｌ３キャッシュに連結されてもよく、これは次にシステムメモリに連結されてもよい。他の実施形態では、キャッシュ／メモリコントローラ２６４５は、メモリに直接結合されてもよい。いくつかの実施形態では、キャッシュ／メモリコントローラ２６４５は、１つ以上の内部キャッシュを含み得る。

【0234】

本明細書で使用するとき、用語「連結された」は、要素間の１つ以上の接続を示すことができ、連結は介在要素を含んでもよい。例えば、図２６では、グラフィックスユニット２６７５は、ファブリック２６１０及びキャッシュ／メモリコントローラ２６４５を介してメモリに「連結されている」と記載されてもよい。対照的に、図２６の図示する実施形態では、介在要素が存在しないため、グラフィックスユニット２６７５はファブリック２６１０に「直接結合されている」。

【0235】

グラフィックスユニット２６７５は、１つ以上のプロセッサ、例えば１つ以上のグラフィックスプロセッシングユニット（ＧＰＵ）を含んでもよい。グラフィックスユニット２６７５は、例えば、ＯＰＥＮＧＬ（登録商標）、Ｍｅｔａｌ、又はＤＩＲＥＣＴ３Ｄ（登録商標）命令などの、グラフィックス指向の命令を受信することができる。グラフィックスユニット２６７５は、特化したＧＰＵ命令を実行してもよいし、受信したグラフィックス指向の命令に基づいて他の動作を実行してもよい。グラフィックスユニット２６７５は一般的に、大ブロックのデータを並行して処理するように構成されてもよく、ディスプレイに出力するためにフレームバッファに画像を構築してもよく、ディスプレイは、デバイスに含まれてもよく、又は別個のデバイスであってもよい。グラフィックスユニット２６７５は、１つ以上のグラフィックス処理パイプラインに変換、照明、三角形、及びレンダリングのエンジンを含んでもよい。グラフィックスユニット２６７５は、表示画像のための画素情報を出力することができる。様々な実施形態では、グラフィックスユニット２６７５は、グラフィックスプログラムを実行するように構成された高並列実行コアを含むことができるプログラム可能なシェーダ回路を含んでもよく、それは、画素タスク、頂点タスク、及び計算タスク（グラフィックス関連であっても、そうでなくてもよい）を含んでもよい。

【0236】

いくつかの実施形態では、グラフィックスユニット２６７５は、追跡スロット、論理スロット、分散ハードウェアスロットなどを実装する様々な開示された回路を含む。

【0237】

ディスプレイユニット２６６５は、フレームバッファからデータを読み取り、表示のための画素値のストリームを提供するように構成されてもよい。ディスプレイユニット２６６５は、いくつかの実施形態では、ディスプレイパイプラインとして構成することができる。加えて、ディスプレイユニット２６６５は、出力フレームを生成するように複数のフレームをブレンドするように構成されてもよい。更に、ディスプレイユニット２６６５は、ユーザディスプレイ（例えば、タッチスクリーン又は外部ディスプレイ）に結合するための１つ以上のインタフェース（例えば、ＭＩＰＩ（登録商標）又は埋め込みディスプレイポート（ｅＤＰ））を含んでもよい。

【0238】

Ｉ／Ｏブリッジ２６５０は、例えば、ユニバーサルシリアルバス（ＵＳＢ）通信、セキュリティ、オーディオ、及び／又は低電力常時オン機能を実装するように構成された様々な要素を含み得る。Ｉ／Ｏブリッジ２６５０はまた、例えば、パルス幅変調（ＰＷＭ）、汎用入出力（ＧＰＩＯ）、シリアル周辺インタフェース（ＳＰＩ）、及びインターインテグレーテッドサーキット（Ｉ２Ｃ）などのインタフェースを含んでもよい。様々なタイプの周辺機器及びデバイスは、Ｉ／Ｏブリッジ２６５０を介してデバイス２６００に連結されてもよい。

【0239】

いくつかの実施形態では、デバイス２６００は、ファブリック２６１０又はＩ／Ｏブリッジ２６５０に接続され得るネットワークインタフェース回路（明示的に図示せず）を含む。ネットワークインタフェース回路は、有線、無線、又はその両方であり得る様々なネットワークを介して通信するように構成され得る。例えば、ネットワークインタフェース回路は、有線ローカルエリアネットワーク、無線ローカルエリアネットワーク（例えば、ＷｉＦｉを介して）、又は広域ネットワーク（例えば、インターネット又は仮想プライベートネットワーク）を介して通信するように構成されてもよい。いくつかの実施形態では、ネットワークインタフェース回路は、１つ以上の無線アクセス技術を使用する１つ以上のセルラーネットワークを介して通信するように構成される。いくつかの実施形態では、ネットワークインタフェース回路は、デバイス間通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷｉＦｉＤｉｒｅｃｔ）などを使用して通信するように構成される。様々な実施形態では、ネットワークインタフェース回路は、様々なタイプの他のデバイス及びネットワークへの接続性をデバイス２６００に提供してもよい。
例示的な用途

【0240】

ここで図２７を参照すると、上述の回路、デバイス、又はシステムのいずれかを含み得る様々なタイプのシステムが示されている。本明細書で説明する技術のうちの１つ以上を組み込むか、又は別様に利用することができるシステム又はデバイス２７００は、広範囲のエリアで利用され得る。例えば、システム又はデバイス２７００は、デスクトップコンピュータ２７１０、ラップトップコンピュータ２７２０、タブレットコンピュータ２７３０、セルラーもしくは携帯電話２７４０、又はテレビ２７５０（又はテレビに連結されたセットトップボックス）などのシステムのハードウェア一部として利用され得る。

【0241】

同様に、開示された要素は、スマートウォッチ又は健康監視デバイスなどのウェアラブルデバイス２７６０において利用され得る。スマートウォッチは、多くの実施形態において、様々な異なる機能、例えば、電子メールへのアクセス、セルラーサービス、カレンダー、健康監視などを実装し得る。ウェアラブルデバイスはまた、ユーザのバイタルサインの監視、接触追跡などの疫学機能の実行、緊急医療サービスへの通信の提供などの健康監視機能のみを実行するように設計されてもよい。首に装着されるデバイス、人体に埋め込み可能なデバイス、拡張及び／又は仮想現実に基づくものなどのコンピュータ生成現実体験を提供するように設計された眼鏡又はヘルメットなどを含む、他のタイプのデバイスも考えられる。

【0242】

システム又はデバイス２７００はまた、様々な他のコンテキストにおいて使用され得る。例えば、システム又はデバイス２７００は、クラウドベースサービス２７７０を実装する専用サーバ又は共有ハードウェアなどのサーバコンピュータシステムのコンテキストにおいて利用されてもよい。更に、システム又はデバイス２７００は、冷蔵庫、サーモスタット、セキュリティカメラなど、家庭で一般に見られるデバイス２７８０を含む、広範な専用の日常デバイスにおいて実装され得る。そのようなデバイスの相互接続は、「モノのインターネット」（ＩｏＴ）と呼ばれることが多い。要素はまた、様々な輸送形態で実装されてもよい。例えば、システム又はデバイス２７００は、様々なタイプの車両２７９０の制御システム、誘導システム、娯楽システムなどにおいて使用され得る。

【0243】

図２７に示される用途は、単なる例示であり、開示されるシステム又はデバイスの潜在的な将来の用途を限定することを意図するものではない。他の例示的な用途は、ポータブルゲームデバイス、音楽プレーヤ、データ記憶デバイス、無人航空機などを含むが、これらに限定されない。
例示的なコンピュータ可読媒体

【0244】

本開示は、様々な例示的な回路について上記により詳細に説明した。本開示は、そのような回路を含む実施形態だけでなく、そのような回路を指定する設計情報を含むコンピュータ可読記憶媒体もまた網羅することが意図される。したがって、本開示は、開示された回路を含む装置だけでなく、開示された回路を含むハードウェア（例えば、集積回路）を生成するように構成された製造システムによって認識されるフォーマットで回路を指定する記憶媒体も網羅する特許請求の範囲を支持することを意図する。そのような記憶媒体に対する特許請求の範囲は、例えば、回路設計物を生成するが、それ自体は設計物を製造しない実在物を網羅することを意図する。

【0245】

図２８は、いくつかの実施形態による、回路設計情報を記憶する例示的な非一時的コンピュータ可読記憶媒体を示すブロック図である。図示した実施形態では、半導体製造システム２８２０は、非一時的コンピュータ可読媒体２８１０に記憶された設計情報２８１５を処理し、設計情報２８１５に基づいて集積回路２８３０を製造するように構成されている。

【0246】

非一時的コンピュータ可読記憶媒体２８１０は、様々な適切な種類のメモリデバイス又は記憶デバイスのいずれかを含んでもよい。非一時的コンピュータ可読記憶媒体２８１０は、インストール媒体、例えば、ＣＤ－ＲＯＭ、フロッピーディスク又はテープデバイス、ＤＲＡＭ、ＤＤＲＲＡＭ、ＳＲＡＭ、ＥＤＯＲＡＭ、ＲａｍｂｕｓＲＡＭなどの、コンピュータシステムメモリ又はランダムアクセスメモリ、フラッシュ、磁気媒体、例えばハードドライブ、又は光記憶装置などの、不揮発性メモリ、レジスタ、又はその他の類似の種類のメモリ要素などであってもよい。非一時的コンピュータ可読記憶媒体２８１０は、他の種類の非一時的メモリ、又はそれらの組み合わせも含んでもよい。非一時的コンピュータ可読記憶媒体２８１０は、異なるロケーション、例えば、ネットワークを通じて接続されている異なるコンピュータシステムに存在し得る２つ以上の記憶媒体を含んでもよい。

【0247】

設計情報２８１５は、ＶＨＤＬ、Ｖｅｒｉｌｏｇ、ＳｙｓｔｅｍＣ、ＳｙｓｔｅｍＶｅｒｉｌｏｇ、ＲＨＤＬ、Ｍ、ＭｙＨＤＬなど（これらに限定されない）のハードウェア記述言語を含む様々な適切なコンピュータ言語のいずれかを使用して指定され得る。設計情報２８１５は、集積回路２８３０の少なくとも一部を製造するために半導体製造システム２８２０によって使用可能であり得る。設計情報２８１５のフォーマットは、少なくとも１つの半導体製造システム２８２０によって認識され得る。いくつかの実施形態では、設計情報２８１５はまた、集積回路２８３０の合成、レイアウト、又はその両方を指定する１つ以上のセルライブラリを含んでもよい。いくつかの実施形態では、設計情報は、セルライブラリ要素及びそれらの接続性を指定するネットリストの形態で、全体的に又は部分的に指定される。設計情報２８１５は、単独で、対応する集積回路の製造に十分な情報を含んでもよいし、含まなくてもよい。例えば、設計情報２８１５は、製造される回路要素を指定してもよいが、それらの物理的レイアウトを指定しなくてもよい。この場合、設計情報２８１５は、指定された回路を実際に製造するためにレイアウト情報と組み合わされる必要があり得る。

【0248】

集積回路２８３０は、様々な実施形態において、メモリ、アナログ又は混合信号回路などの１つ以上のカスタムマクロセルを含むことができる。そのような場合、設計情報２８１５は、含まれるマクロセルに関連する情報を含んでもよい。このような情報としては、限定するものではないが、回路図キャプチャデータベース、マスク設計データ、行動モデル、及びデバイス又はトランジスタレベルネットリストが挙げられる。本明細書で使用するとき、マスク設計データは、グラフィックスデータシステム（ＧＤＳＩＩ）、又は任意の他の好適なフォーマットに従ってフォーマットされてもよい。

【0249】

半導体製造システム２８２０は、集積回路を製造するように構成された様々な適切な要素のうちのいずれかを含んでもよい。これは、例えば、半導体材料を堆積させること（例えば、ウェハ上に、これはマスキングを含み得る）と、材料を除去すること、堆積された材料の形状を変更すること、材料を改質すること（例えば、材料をドープすることによって、又は紫外線処理を使用して誘電率を変更することによって）、などのための要素を含んでもよい。半導体製造システム２８２０はまた、正しい動作のために製造された回路の様々な試験を実行するように構成されてもよい。

【0250】

様々な実施形態では、集積回路２８３０は、設計情報２８１５によって指定された回路設計に従って動作するように構成されており、これは、本明細書に記載した機能のいずれかを実行することを含んでもよい。例えば、集積回路２８３０は、図１Ｂ、図２～３、図６、図１４Ｂ、図１６、図１８、図１９Ａ、及び図２６に示される様々な要素のいずれかを含み得る。更に、集積回路２８３０は、他の構成要素と共に本明細書に記載された様々な機能を実行するように構成されてもよい。更に、本明細書に記載された機能は、複数の接続された集積回路によって実行されてもよい。
例示的な実施形態

【0251】

以下の番号付けされた条項は、本明細書に開示される様々な非限定的な実施形態を示す。
セットＡ
Ａ１．装置であって、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを、第１及び第２の論理スロットに割り当て、
セット内のグラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの第１のセットのための第１の分散規則を決定し、
セット内のグラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの第２のセットのための第２の分散規則を決定し、
第１の分散規則に基づいて、第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
第２の分散規則に基づいて、第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
決定されたマッピングに従って、グラフィックスワークの第１及び第２のセットをグラフィックスプロセッササブユニットのうちの１つ以上に分散させる、ように構成された制御回路と、を備える装置。
Ａ２．グラフィックスプロセッササブユニットは、複数のサブユニットの複数のグループに編成され、同じグループ内のサブユニットはキャッシュを共有し、
第２の分散規則は、グラフィックスワークの第２のセットを単一のグループのサブユニットに分散させることを示す、セットＡ内のいずれかの前の条項の装置。
Ａ３．所与のグループのサブユニットは、同じ物理的ダイ上に実装される、セットＡ内のいずれかの前の条項の装置。
Ａ４．第２の分散規則は、グラフィックスワークの第２のセットを単一のサブユニットに分散させることを示す、セットＡ内のいずれかの前の条項の装置。
Ａ５．制御回路は、グラフィックスワークの第１及び第２のセット内のワーク量に基づいて、第１及び第２の分散規則を選択するように構成される、セットＡ内のいずれかの前の条項の装置。
Ａ６．グラフィックスワークの第１のセットは、第１の論理スロットに割り当てられた計算キックの第１のカーネルであり、計算キックは、少なくとも１つの他のカーネルを含み、装置は、少なくとも１つの他のカーネルに対して第１のカーネルとは異なる分散規則を選択するように構成される、セットＡ内のいずれかの前の条項の装置。
Ａ７．制御回路は、実行されているグラフィックスプログラムによって信号伝達される１つ以上のソフトウェアオーバーライドに基づいて、第１の分散規則を決定するように構成される、セットＡ内のいずれかの前条項の装置。
Ａ８．装置は、以下のタイプのソフトウェアオーバーライド、すなわち、
どのサブユニットがグラフィックスワークの第１のセットに利用可能であるかを示すマスク情報と、
指定された分散規則と、
グラフィックスワークの第１のセットが展開されるべきサブユニットのグループを示すグループ情報と、
スケジューリングポリシーを示すポリシー情報と、に基づいて第１の分散規則を選択するように構成される、セットＡ内のいずれかの前の条項の装置。
Ａ９．グラフィックスプロセッササブユニットは、それぞれの
フラグメント生成回路と、
シェーダコア回路と、
データキャッシュ及びメモリ管理ユニットを含むメモリシステム回路と、
ジオメトリ処理回路と、
分散ワーク負荷分散回路と、を含む、セットＡ内のいずれかの前の条項の装置。
Ａ１０．分散ハードウェアスロットは、それぞれの
構成レジスタと、
バッチ待ち行列回路と、
バッチ反復回路と、を含み、
サブユニット内のシェーダ回路は、その複数の分散ハードウェアスロットからワークを受信して実行するように構成される、セットＡ内のいずれかの前の条項の装置。
Ａ１１．論理スロットのための制御回路は、
第１及び第２の分散規則を決定するように構成された制御ストリームプロセッサと、
計算ワークグループのバッチを生成するように構成されたカーネルプロセッサと、
計算ワークグループのバッチをサブユニットに割り当てるように構成されたサブユニット割り当て回路と、を含み、
制御回路は、
示された分散規則に基づいてストリームプロセッサを制御するためにハードウェアスロットを割り当てるように構成されたハードウェアスロットリソースアロケータ回路と、
割り当てられたサブユニットへの分散のために、異なる論理スロットからのバッチ間で調停するように構成された論理スロットアービタ回路と、を含む、セットＡ内のいずれかの前の条項の装置。
Ａ１２．ハードウェアスロットリソースアロケータ回路は、ハードウェアスロットの状態に基づいてハードウェアスロットを割り当てるように構成され、異なるハードウェアスロットの状態は、少なくとも、無効、実行中、空、及びフラッシュを含む、セットＡ内のいずれかの前の条項の装置。
Ａ１３．装置は、
カーネルが割り当てられた１つ以上のサブユニットについてのみキャッシュをフラッシュ及び無効化する第１のタイプのキャッシュフラッシュ無効化動作と、
１つ以上のキャッシュレベルでグラフィックスプロセッササブユニットのセットのための全てのキャッシュをフラッシュ及び無効化する無条件タイプのキャッシュフラッシュ無効化動作と、を実行するように構成される、セットＡ内のいずれかの前の条項の装置。
Ａ１４．制御回路は、
複数の論理スロットのスロットのためのそれぞれの保持値であって、保持値は、論理スロットのためのカーネルのステータスを示す、保持値を決定することと、
それぞれの保持値のうちの１つ以上に基づいて、第１の優先度レベルを有する論理スロットが、第２のより低い優先度レベルを有する論理スロットに割り当てられたハードウェアスロットを再利用することを可能にすることと、を実行するように更に構成される、セットＡ内のいずれかの前の条項の装置。
Ａ１５．制御回路は、
第１の論理スロットのための構成レジスタのプログラミングの完了の前に、グラフィックスワークの第１のセットの部分を、グラフィックスワークの第１のセットに割り当てられた分散ハードウェアスロットであって、分散ハードウェアスロットは、グラフィックスワークの第１のセットの受信された部分のための待ち行列回路を含む、分散ハードウェアスロットに送信することを実行するように更に構成される、セットＡ内のいずれかの前の条項の装置。
Ａ１６．セットＡ内のいずれかの前の条項の装置が実行するように構成される動作の任意の組み合わせを含む、方法。
Ａ１７．設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、設計情報は、回路が、
条項Ａ１～Ａ１５に記載の要素の任意の組み合わせを含むことを指定する、非一時的コンピュータ可読記憶媒体。
セットＢ
Ｂ１．装置であって、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットと、
制御回路であって、
ソフトウェア指定グラフィックスワークの第１のセットと、グラフィックスワークの第１のセットのためのソフトウェア指示優先度情報とを受信し、
グラフィックスワークの第１のセットを第１の論理スロットに割り当て、
論理スロットと分散ハードウェアスロットとの間のマッピングであって、マッピングは、優先度が閾値優先度レベルを超える論理スロットのために、各サブユニットにおける閾値数のハードウェアスロットを予約する、マッピングを決定し、
マッピングのうちの１つに従って、グラフィックスワークの第１のセットをグラフィックスプロセッササブユニットのうちの１つ以上に分散させるように構成される、制御回路と、を備える、装置。
Ｂ２．第１のセットのグラフィックスワークのためのソフトウェア入力に基づいて、制御回路が、
グラフィックスワークの第１のセットのための処理の完了後に、第１の論理スロットのための分散ハードウェアスロットのマッピングを維持し、
マッピングされた分散スロットを解放することを示すソフトウェア入力の後にのみ、グラフィックスワークの第１のセットのためのマッピングされた分散ハードウェアスロットを別の論理スロットに割り当てる、ように構成される、セットＢ内のいずれかの前の条項の装置。
Ｂ３．論理スロットの第１のサブセットは高優先度スロットであり、残りの論理スロットは低優先度スロットであり、制御回路は、ソフトウェア指示優先度情報に基づいて、グラフィックスワークの第１のセットを第１の論理スロットに割り当てるように構成される、セットＢ内のいずれかの前の条項の装置。
Ｂ４．制御回路は、グラフィックスワークの第１のセットのためのステータス情報をソフトウェアに提供するように構成される、セットＢ内のいずれかの前の条項の装置。
Ｂ５．制御回路は、少なくとも以下のステータス状態、すなわち、
従属関係の待機と、
グラフィックスワークの第１のセットのための構成データの待機と、
割り当て分散スロットの待機と、をサポートする、セットＢ内のいずれかの前の条項の装置。
Ｂ６．ステータス情報は、
第１の論理スロットの識別と、
割り当てられた分散ハードウェアスロットの識別と、
グラフィックスワークの第１のセットの実行に関連付けられたタイムスタンプ情報と、を含む、セットＢ内のいずれかの前の条項の装置。
Ｂ７．制御回路は、以下のタイプのソフトウェアオーバーライド、すなわち、
セット内のグラフィックスプロセッササブユニットの一部のみに分散させるか、セット内のグラフィックスプロセッササブユニットの全てに分散させるかを示す指定された分散規則と、
グラフィックスワークの第１のセットが展開されるべきサブユニットのグループを示すグループ情報と、に基づいてマッピングを決定するように構成される、セットＢ内のいずれかの前の条項の装置。
Ｂ８．制御回路は、以下の追加のタイプのソフトウェアオーバーライド、すなわち、
どのサブユニットがグラフィックスワークの第１のセットに利用可能であるかを示すマスク情報と、
スケジューリングポリシーを示すポリシー情報と、に基づいてマッピングを決定するように構成される、セットＢ内のいずれかの前の条項の装置。
Ｂ９.
マッピングのための分散規則を決定するように構成された制御ストリームプロセッサ回路と、
分散型スロットリソースアロケータ回路であって、
ソフトウェア入力と、
制御ストリームプロセッサ回路からの決定された分散規則と、
分散スロット状態情報と、に基づいてマッピングを決定するように構成される分散型スロットリソースアロケータ回路と、を更に備える、セットＢ内のいずれかの前の条項の装置。
Ｂ１０．分散型スロットリソースアロケータ回路は、第１のソフトウェア指示優先度レベルを有する論理スロットが、第２のより低い優先度レベルを有する論理スロットに割り当てられたハードウェアスロットを再利用することを可能にする、再利用手順を実行するように構成される、セットＢ内のいずれかの前の条項の装置。
Ｂ１１．セットＢ内のいずれかの前の条項の装置が実行するように構成される動作の任意の組み合わせを含む、方法。
Ｂ１２．設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、設計情報は、回路が、
条項Ｂ１～Ｂ１０に記載の要素の任意の組み合わせを含むことを指定する、非一時的コンピュータ可読記憶媒体。
セットＣ
Ｃ１．装置であって、
グラフィックスプロセッササブユニットの第１及び第２のグループであって、サブユニットの第１のグループが第１のキャッシュを共有し、サブユニットの第２のグループが第２のキャッシュを共有する、グラフィックスプロセッササブユニットの第１及び第２のグループと、
分散回路であって、
グラフィックスワークのソフトウェア指定されたセットと、グラフィックスプロセッササブユニットのグループへのグラフィックスワークのセットの部分のソフトウェア指示マッピングとを受信し、
マッピングに基づいて、グラフィックスワークのセットの第１のサブセットをグラフィックスサブユニットの第１のグループに割り当て、グラフィックスワークのセットの第２のサブセットをグラフィックスサブユニットの第２のグループに割り当てるように構成される、分散回路と、を備える、装置。
Ｃ２．構成レジスタ内に、グラフィックスワークのセットの部分のグラフィックスプロセッササブユニットのグループへの複数のマッピングを記憶するように構成される制御回路を含む、セットＣ内のいずれかの前の条項の装置。
Ｃ３．グラフィックスワークのセットは計算カーネルである、セットＣ内のいずれかの前の条項の装置。
Ｃ４．分散回路は、
計算カーネルの部分を決定するように構成された一次カーネルウォーカ回路と、
グラフィックスサブユニットの第１のグループに割り当てられた計算カーネルの部分を反復してワークグループのバッチを決定するように構成された第１のグループウォーカ回路と、
グラフィックスサブユニットの第２のグループに割り当てられた計算カーネルの部分を反復してワークグループのバッチを決定するように構成された第２のグループウォーカ回路と、を含む、セットＣ内のいずれかの前の条項の装置。
Ｃ５．分散回路は、
第１及び第２のグループウォーカ回路によって決定されたワークグループのバッチの中から選択するように構成されたグループウォーカアービトレーション回路と、
グループウォーカアービトレーション回路によって選択されたバッチを、選択されたグループウォーカ回路に対応するサブユニットのグループ内の１つ以上のグラフィックスサブユニットに割り当てるように構成されたサブユニット割り当て回路と、を更に含む、セットＣ内のいずれかの前の条項の装置。
Ｃ６.
ワークシェアリング制御回路であって、
グラフィックスワークのセットのために割り当てられた部分の全てをディスパッチしたサブユニットの１つ以上の他のグループのセットを決定し、
サブユニットの第１のグループをターゲットとするものとしてマッピングによって示されたグラフィックスワークのセットの少なくとも第１の部分を、１つ以上の他のグループのサブユニットのうちの１つのグループに割り当てるように構成される、ワークシェアリング回路を更に含む、セットＣ内のいずれかの前の条項の装置。
Ｃ７．装置は、一次元、二次元、及び三次元を含む複数の次元のためのグラフィックスプロセッササブユニットアフィニティマップのグループへのグラフィックスワークのセットの部分のマッピングをサポートする、セットＣ内のいずれかの前の条項の装置。
Ｃ８.
複数の論理スロットを実装する回路であって、第１及び第２のグループ内のサブユニットのセットは各々、複数の分散ハードウェアスロットを実装する、回路と、
制御回路であって、
グラフィックスワークのセットを第１の論理スロットに割り当て、
セット内のグラフィックスプロセッササブユニットの全てに分散させるか、グラフィックスプロセッササブユニットの一部のみに分散させるかを示す、グラフィックスワークのセットのための分散規則を決定し、
分散規則に基づいて、及びグラフィックスワークのセットの部分のグラフィックスプロセッササブユニットのグループへのマッピングに基づいて、第１の論理スロットと１つ以上の分散ハードウェアスロットのそれぞれのセットとの間のマッピングを決定するように構成される、制御回路と、を更に備える、セットＣ内のいずれかの前の条項の装置。
Ｃ９．コンピューティングデバイスによって実行可能である命令を記憶した非一時的コンピュータ可読媒体であって、
グラフィックスワークのセットと、
グラフィックスワークのセットの部分のグラフィックスプロセッササブユニットのグループへの対応するマッピングであって、グラフィックスワークのセット及びマッピングは命令によって指定され、マッピングは、グラフィックスプロセッササブユニットの所与のグループにマッピングされたグラフィックスワークのセットの部分のセットに対するキャッシュアフィニティを示す、マッピングとを受信することと、
マッピングに基づいて、グラフィックスワークのセットの第１のサブセットをグラフィックスサブユニットの第１のグループに割り当て、グラフィックスワークのセットの第２のサブセットをグラフィックスサブユニットの第２のグループに割り当てることと、を含む動作を実行する、非一時的コンピュータ可読媒体。
Ｃ１０．動作は、１つ以上の動作モードにおいてアフィニティベースのワーク分散を無効化することを更に含む、セットＣ内のいずれかの前の条項の非一時的コンピュータ可読媒体。
Ｃ１１．動作は、複数の異なるマッピングに基づいて、グラフィックスワークのセットのサブセットをグラフィックスサブユニットのグループに割り当てることを含み、複数の異なるマッピングは、グラフィックスワークのセットの少なくとも２つの次元のためのマッピングを含む、セットＣ内のいずれかの前の条項の非一時的コンピュータ可読媒体。
Ｃ１２．コンピューティングデバイスは、複数の論理スロットを実装するグラフィックス回路を含み、第１及び第２のグループ内のサブユニットが各々、複数の分散ハードウェアスロットを実装し、動作は、論理スロットと、グラフィックスワークのセットのための１つ以上の分散ハードウェアスロットのそれぞれのセットとの間のマッピングを少なくとも部分的に制御するために、１つ以上のソフトウェアオーバーライドを指定することを更に含む、セットＣ内のいずれかの前の条項の非一時的コンピュータ可読媒体。
Ｃ１３．１つ以上のソフトウェアオーバーライドは、
どのサブユニットがグラフィックスワークのセットに利用可能であるかを示すマスク情報と、
分散幅を示す指定された分散規則と、
グラフィックスワークのセットが展開されるべきサブユニットのグループを示すグループ情報と、
スケジューリングポリシーを示すポリシー情報と、の少なくとも１つを含む、セットＣ内のいずれかの前の条項の非一時的コンピュータ可読媒体。
Ｃ１４．セットＣ内のいずれかの前の条項の動作の任意の組み合わせを含む、方法。
Ｃ１５．設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、設計情報は、回路が、
条項Ｃ１～Ｃ８に記載された要素の任意の組み合わせを含むことを指定する、非一時的コンピュータ可読記憶媒体。
セットＤ
Ｄ１．装置であって、
グラフィックスプロセッサ回路と、
複数の追跡スロットのエントリを実装する追跡スロット回路と、
スロットマネージャ回路であって、
追跡スロット回路のエントリを使用して、グラフィックスワークのセットのためのソフトウェア指定情報であって、情報は、ワークのタイプ、グラフィックスワークの他のセットへの依存関係、及びグラフィックスワークのセットのためのデータのロケーションを含む、情報を記憶し、
ロケーションから、グラフィックスワークのセットのためのシェーダコアリソースを割り当てる前に、グラフィックスワークのセットのための構成レジスタデータをプリフェッチする、ように構成される、スロットマネージャ回路と、
制御回路であって、
プリフェッチされたデータを使用してグラフィックスワークのセットのためのプログラム構成レジスタをプログラムし、
依存関係に従って、グラフィックスプロセッサ回路によるグラフィックスワークのセットの処理を開始する、ように構成される、制御回路と、を備える、装置。
Ｄ２．制御回路は、
構成レジスタのプログラミングが完了する前に、グラフィックスワークのセットの部分を、グラフィックスワークのセットに割り当てられたハードウェアスロットであって、ハードウェアスロットは、グラフィックスワークのセットの受信された部分のための待ち行列回路を含む、ハードウェアスロットに送信するように更に構成される、セットＤ内のいずれかの前の条項の装置。
Ｄ３．制御回路は、
グラフィックスワークのセットを論理一次スロットに割り当てることであって、構成レジスタデータの少なくとも一部は、論理一次スロットの構成レジスタのためのものである、割り当てることと、
論理スロットを１つ以上の分散ハードウェアスロットに割り当てることであって、構成レジスタデータの少なくとも一部は、１つ以上の分散ハードウェアスロットの構成レジスタのためのものである、割り当てることと、を実行するように構成される、セットＤ内のいずれかの前の条項の装置。
Ｄ４．グラフィックスワークのセットに対する停止コマンドに応答して、スロットマネージャ回路は、
論理一次スロットが割り当てられていないという決定に応答して、追跡スロット回路のエントリをリセットし、
論理一次スロットが割り当てられたという決定に応答して、論理一次スロットの割り当てを解除し、追跡スロット回路のエントリをリセットし、
１つ以上の分散ハードウェアスロットが割り当てられているという決定に応答して、１つ以上のコンテキストスイッチ動作を行い、１つ以上の分散ハードウェアスロットの割り当てを解除し、論理一次スロットの割り当てを解除し、追跡スロット回路のエントリをリセットする、ように構成される、セットＤ内のいずれかの前の条項の装置。
Ｄ５．追跡スロット回路内のエントリは、
グラフィックスワークのセットのステータスと、
グラフィックスワークのセットの実行に関連付けられたタイムスタンプ情報と、
論理一次スロットを示す情報と、
１つ以上の分散ハードウェアスロットを示す情報と、を照会するためにソフトウェアアクセス可能である、セットＤ内のいずれかの前の条項の装置。
Ｄ６．追跡スロット回路は、グラフィックスワークのセットについて少なくとも以下のステータス状態、すなわち、空、レジスタフェッチ開始、グラフィックスワークの１つ以上の他のセットの待機、論理スロットリソースの待機、分散ハードウェアスロットリソースの待機、及び実行中を示すステータス値をサポートする、セットＤ内のいずれかの前の条項の装置。
Ｄ７．スロットマネージャ回路は、追跡スロット回路のエントリからグラフィックスワークのセットを開始すると共に、グラフィックスワークのセットに関する情報に基づいて、グラフィックスワークのセットに関連付けられた１つ以上の回路に対して、低電力モードから高電力モードへの増加を開始するように構成される、セットＤ内のいずれかの前の条項の装置。
Ｄ８．プリフェッチは、共有メモリからスロットマネージャ回路のＳＲＡＭメモリ要素へと実行される、セットＤ内のいずれかの前の条項の装置。
Ｄ９．プリフェッチは、共有メモリからキャッシュへと実行される、セットＤ内のいずれかの前の条項の装置。
Ｄ１０．スロットマネージャ回路は、グラフィックスワークのセットが第１の共有リソース及び第２の共有リソースを使用することを決定するように構成され、
第１の共有リソースについて、スロットマネージャ回路は、第１の共有リソースが利用可能になるまでグラフィックスワークのセットを停止するように構成され、
第２の共有リソースについて、スロット管理回路は、第２の共有リソースが利用可能になる前にグラフィックスワークのセットが進行することを可能にし、第２の共有リソースが利用可能になる前にグラフィックスワークのセットが進行したことを報告するように構成される、セットＤ内のいずれかの前の条項の装置。
Ｄ１１．セットＤ内のいずれかの前の条項の装置が実行するように構成される動作の任意の組み合わせを含む、方法。
Ｄ１２．設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、設計情報は、回路が、
条項Ｄ１～Ｄ１０に記載された要素の任意の組み合わせを含むことを指定する、非一時的コンピュータ可読記憶媒体。

【0252】

本明細書で使用する「．．．ように構成された回路の設計を指定する設計情報」という形態の語句は、その要素が満たされるために対象の回路が作製されなければならないことを意味するものではない。むしろ、この語句は、設計情報には、製造されると、指示されたアクションを実行するように構成されるか、又は指定された構成要素を含む回路について記載されていることを示す。
^***

【0253】

本開示は、「一実施形態」又は「実施形態」のグループ（例えば、「いくつかの実施形態」又は「様々な実施形態」）への言及を含む。実施形態は、開示された概念の異なる実装形態又は例である。「一実施形態」、「一実施形態」、「特定の実施形態」などへの言及は、必ずしも同じ実施形態を指すものではない。具体的に開示されたものを含む多数の可能な実施形態、並びに本開示の趣旨又は範囲内にある修正又は代替が企図される。

【0254】

本開示は、開示された実施形態から生じ得る潜在的な利点を論じることができる。これらの実施形態の全ての実装形態は、必然的に、潜在的な利点のいずれか又は全てを示す。特定の実装形態について利点が実現されるかどうかは、多くの要因に依存し、そのいくつかは本開示の範囲外である。実際、特許請求の範囲内にある実装形態が、任意の開示された利点のいくつか又は全てを発揮しない場合がある理由は多く存在する。例えば、特定の実装形態は、開示された実施形態のうちの１つと併せて、１つ以上の開示された利点を無効にする又は減少させる、本開示の範囲外の他の回路を含み得る。更に、特定の実装形態（例えば、実装技術又はツール）の次善の設計実行もまた、開示された利点を無効にする又は減少させ得る。熟練した実行を想定しても、利点の実現は、実装形態が展開される環境状況などの他の要因に依然として依存し得る。例えば、特定の実装形態に供給される入力は、本開示で対処される１つ以上の問題が特定の機会に生じるのを防止することができ、その結果、その解決策の恩恵が実現されない可能性がある。起こり得る本開示の外部要因の存在を考慮すると、本明細書に記載される任意の潜在的な利点は、侵害を実証するために満たされなければならない請求項の限定として解釈されるべきではないことが明確に意図される。むしろ、そのような潜在的な利点の識別は、本開示の利益を有する設計者に利用可能な改善のタイプを例示することが意図される。そのような利点は、許容可能に記載されていること（例えば、特定の利点が「生じ得る」という記載）は、そのような利点が実際に実現され得るかどうかに関する疑念を伝えることを意図するものではなく、そのような利点の実現が、多くの場合、追加の要因に依存するという技術的現実を認識することを意図するものである。

【0255】

特に明記しない限り、実施形態は非限定的である。すなわち、開示された実施形態は、単一の実施例のみが特定の特徴に関して説明されている場合でも、本開示に基づいて作成される特許請求の範囲を限定することを意図するものではない。開示された実施形態は、それに反する記述が本開示に存在しない場合、限定的ではなく例示的であることが意図される。上記の記載は、開示される実施形態だけでなく、本開示による恩恵を受ける当業者にとって明らかとなるであろう代替物、修正例、及び均等物を網羅する請求項を可能にすることが意図される。

【0256】

例えば、本出願の特徴は、任意の好適な様式で組み合わせることができる。したがって、このような特徴の組み合わせのいずれに対しても、本願（又は、本願に対する優先権を主張する出願）の審査手続き中に、新しい特許請求を策定し得る。特に、添付の特許請求の範囲を参照すると、従属請求項からの特徴は、他の独立請求項に従属する請求項を含め、適宜、他の従属請求項の特徴と組み合わせることができる。同様に、それぞれの独立請求項からの特徴は、適宜組み合わせることができる。

【0257】

したがって、添付の従属請求項は、それぞれが単一の他の請求項に従属するように作成され得るが、追加の従属も企図される。本開示と一致する従属項における特徴の任意の組み合わせが企図され、本出願又は別の出願で特許請求され得る。要約すると、組み合わせは、添付の特許請求の範囲に具体的に列挙されるものに限定されない。

【0258】

適宜、１つのフォーマット又は法定種類（例えば、装置）で作成される請求項はまた、別のフォーマット又は法定種類（例えば、方法）の対応する請求項をサポートするように意図されることが企図される。
^***

【0259】

本開示は法的文書であるため、様々な用語及び語句は、行政及び司法的解釈の対象となり得る。以下の段落、並びに本開示を通じて提供される定義は、本開示に基づいて作成された特許請求の範囲をどのように解釈するかにおいて使用されることを公的に通知する。

【0260】

単数形のアイテム（すなわち、「ａ」、「ａｎ」、又は「ｔｈｅ」が先行する名詞又は名詞句）への言及は、文脈上特に明示されない限り、「１つ以上」を意味することを意図している。したがって、特許請求の範囲における「アイテム」への言及は、文脈を伴わずに、アイテムの追加のインスタンスを排除するものではない。「複数の」アイテムは、２つ以上のアイテムのセットを指す。

【0261】

「ｍａｙ」という語は、本明細書では許容の意味（すなわち、可能性を有する、可能である）で使用されており、義務の意味で使用されていない（すなわち、必須ではない）。

【0262】

「含む（comprising）」及び「含む（including）」という用語及びその形態は、オープンエンドであり、「限定されるものではないが、含む」を意味する。

【0263】

「又は」という用語が、選択肢のリストに関して本開示で使用される場合、文脈上特に明示されない限り、包括的な意味で使用されることが一般に理解されるであろう。したがって、「ｘ又はｙ」の列挙は、「ｘもしくはｙ、又はその両方」と同等であり、したがって、１）ｘであるがｙではない、２）ｙであるがｘではない、及び３）ｘとｙの両方、を包含する。一方、「ｘ又はｙのいずれかであるが、両方ではない」という語句は、「又は」が排他的な意味で使用されていることを明確にする。

【0264】

「ｗ、ｘ、ｙ、ｚ、又はそれらの任意の組み合わせ」、又は「．．．ｗ、ｘ、ｙ、及びｚのうちの少なくとも１つ」の列挙は、セット内の要素の総数までの単一要素を含む全ての可能性を網羅することを意図している。例えば、セット［ｗ，ｘ，ｙ，ｚ］の場合、これらの表現は、セットの任意の単一要素（例えば、ｗであるが、ｘ、ｙ、又はｚではない）、任意の２つの要素（例えば、ｗ及びｘであるが、ｙ又はｚではない）、任意の３つの要素（例えば、ｗ、ｘ、及びｙであるが、ｚではない）、及び４つ全ての要素を網羅する。したがって、「．．．ｗ、ｘ、ｙ、及びｚのうちの少なくとも１つ」という語句は、セット［ｗ、ｘ、ｙ、ｚ］の少なくとも１つの要素を指し、それによって、この要素のリストにおける全ての可能な組み合わせを網羅する。この語句は、ｗの少なくとも１つのインスタンス、ｘの少なくとも１つのインスタンス、ｙの少なくとも１つのインスタンス、及びｚの少なくとも１つのインスタンスが存在する必要があると解釈されるべきではない。

【0265】

本開示において、様々な「ラベル」は、名詞又は名詞句に先行し得る。文脈上特に明示されない限り、特徴（例えば、「第１の回路」、「第２の回路」、「特定の回路」、「所与の回路」など）に使用される様々なラベルは、特徴の異なる例を指す。更に、特徴に適用されるとき、「第１」、「第２」、及び「第３」というラベルは、特に明記しない限り、任意のタイプの順序（例えば、空間、時間、論理など）を意味するものではない。

【0266】

本明細書で使用する「～に基づいて」という語句は、判定に影響を及ぼす１つ以上の要因を記述するために使用される。この用語は、追加の要因が決定に影響を及ぼすことがある可能性を除外しない。すなわち、決定は、指定された要因のみに基づくか、又は、指定された要因並びに他の指定されていない要因に基づき得る。「Ｂに基づいてＡを判定する」という語句を検討する。この語句により、Ｂは、Ａを判定するために使用されるか、又はＡの判定に影響を及ぼす要因であることが特定される。この語句は、Ａの判定が、Ｃなど、何らかの他の要因にも基づき得ることを除外しない。この語句は、ＡがＢのみに基づいて決定される一実施形態をも網羅することを意図している。本明細書で使用する「～に基づいて」という語句は、「～に少なくとも部分的に基づいて」という語句と同義である。

【0267】

「に応じて」及び「に応答して」という語句は、効果をトリガする１つ以上の要因を記載する。この語句は、追加の要因が、特定の要因と共に、又は指定された要因とは無関係に、効果に影響を及ぼす、又はそうでなければ効果をトリガする可能性を排除するものではない。すなわち、効果は、これらの要因のみに応じてもよいし、指定された要因並びに他の指定されていない要因に応じてもよい。「Ｂに応じてＡを実行する」という語句を検討する。この語句により、Ｂは、Ａの実行をトリガする、又はＡについての特定の結果をトリガする要因である。この語句は、Ａの実行が、Ｃなど、他の要因にも応じ得ることを除外しない。この語句はまた、Ａを実行することがＢ及びＣに共に応答し得ることを除外しない。この語句は、ＡがＢに応じてのみ実行される一実施形態も対象として含むことを意図している。本明細書で使用するとき、「～に応答して」という語句は、「～に少なくとも部分的に応答して」という語句と同義である。同様に、「に応じて」という語句は、「少なくとも部分的に応じて」という語句と同義である。
^***

【0268】

本開示内で、（「ユニット」、「回路」、他の構成要素などと様々に呼ばれることがある）様々な実在物は、１つ以上のタスク又は動作を実施するように「構成されている（configured）」ものとして記述又は主張されることがある。［１つ以上のタスクを実施する］ように構成されている［エンティティ］というこの表現は、本明細書では構造（すなわち、物理的なもの）を指すために使用される。より具体的には、この表現は、この構造が動作中に１つ以上のタスクを実施するように配置されたことを示すために使用される。構造は、その構造が現在動作していない場合でも、何らかのタスクを実施する「ように構成されている」と述べられることがある。このように、何らかのタスクを実施するように「構成されている」ものとして記述又は説明されるエンティティは、デバイス、回路、プロセッサユニットとタスクを実行するように実行可能なプログラム命令を記憶したメモリとを有するシステムなどの物理的なものを指す。この語句は、本明細書では無形のものを指すために使用されない。

【0269】

場合によっては、様々なユニット／回路／構成要素を、タスク又は動作のセットを実行するものとして本明細書で説明することができる。具体的に記載されていない場合でも、それらのエンティティがそれらのタスク／動作を実行するように「構成されている」ことが理解される。

【0270】

「～ように構成されている」という用語は、「～ように構成可能な」を意味することを意図していない。例えば、プログラムされていないＦＰＧＡは、特定の機能を実行するように「構成されている」と見なされない。しかしながら、このプログラムされていないＦＰＧＡは、その機能を実行するように「構成可能」であり得る。適切なプログラミング後、ＦＰＧＡは次いで、特定の機能を実行するように「構成されている」と言うことができる。

【0271】

本開示に基づく米国特許出願の目的のために、構造が１つ以上のタスクを実行するように「構成されている」と特許請求の範囲に記載することは、その請求要素について、米国特許法第１１２条（ｆ）項を援用することを明示的に意図していない。出願人が本開示に基づき、米国特許出願の審査過程中に第１１２条（ｆ）項を援用することを望む場合、それは、［機能を実行する］「ための手段」を使用して請求項の要素を説明することになる。

【0272】

本開示には、様々な「回路」が記載され得る。これらの回路又は「回路構成」は、組み合わせ論理、クロック記憶デバイス（例えば、フリップフロップ、レジスタ、ラッチなど）、有限状態機械、メモリ（例えば、ランダムアクセスメモリ、埋め込み動的ランダムアクセスメモリ）、プログラマブルロジックアレイなどの様々なタイプの回路要素を含むハードウェアを構成する。回路は、カスタム設計されてもよいし、又は標準的なライブラリから取得されてもよい。様々な実装形態では、回路構成は、必要に応じて、デジタル構成要素、アナログ構成要素、又は両方の組み合わせを含むことができる。特定のタイプの回路は、一般に「ユニット」（例えば、復号ユニット、算術論理ユニット（ＡＬＵ）、機能ユニット、メモリ管理ユニット（ＭＭＵ）など）と称され得る。そのようなユニットはまた、回路又は回路構成を指す。

【0273】

図面に示され、本明細書に記載されている、開示された回路／ユニット／構成要素及び他の要素は、前述の段落に記載されているものなどのハードウェア要素を含む。多くの場合、特定の回路内のハードウェア要素の内部配置は、その回路の機能を説明することによって指定され得る。例えば、特定の「復号ユニット」は、「命令のオペコードを処理し、複数の機能ユニットのうちの１つ以上に命令をルーティングする」機能を実行することと説明され得、これは、復号ユニットがこの機能を実行するように「構成されている」ことを意味する。この機能の明細は、コンピュータ技術の当業者に対して、回路の可能な構造のセットを暗示するのに十分である。

【0274】

様々な実施形態では、前の段落で論じられるように、回路、ユニット、及びその他の要素は、それらが実行するように構成されている機能又は動作によって定義され得る。そのような回路／ユニット／構成要素の互いに対する配置、及びそれらが相互作用する方法は、最終的に集積回路内で製造されるか、又はＦＰＧＡにプログラムされるハードウェアのマイクロアーキテクチャ定義を生成して、マイクロアーキテクチャ定義の物理的実装形態を形成する。したがって、マイクロアーキテクチャ定義は、多くの物理的実装形態が導出され得る構造として当業者によって認識され、その実装形態の全てが、マイクロアーキテクチャ定義によって説明されるより広い構造に属する。すなわち、本開示に従って提供されるマイクロアーキテクチャ定義を提示された当業者は、過度の実験を伴わずに、通常の技術を用いて、回路／ユニット／構成要素の説明を、Ｖｅｒｉｌｏｇ又はＶＨＤＬなどのハードウェア記述言語（ＨＤＬ）にコードすることによって構造を実装し得る。ＨＤＬ記述は、多くの場合、機能的であり得るように見える様式で表現される。しかし、この分野の当業者にとっては、このＨＤＬ記述は、回路、ユニット、又は構成要素の構造を次のレベルの実装詳細に変換するのに使用される方法である。そのようなＨＤＬ記述は、挙動コード（典型的には合成可能ではない）、レジスタ転送言語（ＲＴＬ）コード（挙動コードとは対照的に、典型的には合成可能である）、又は構造コード（例えば、論理ゲート及びそれらの接続を指定するネットリスト）の形態をとり得る。ＨＤＬ記述は、所与の集積回路製造技術のために設計されたセルのライブラリに対して合成されてもよく、タイミング、電力、及び他の理由のために修正されて、結果としてファウンドリに送信することができる最終設計データベースとなり、マスクを生成し、最終的に集積回路を製造することができる。いくつかのハードウェア回路又はその一部も、回路図エディタでカスタム設計して、合成された回路と共に集積回路設計に取り込むことができる。集積回路は、トランジスタ及び他の回路要素（例えば、コンデンサ、抵抗、インダクタなどの受動要素）、並びにトランジスタと回路要素との間のインターコネクトを更に含むことができる。いくつかの実施形態は、ハードウェア回路を実現するために一体的に接続された複数の集積回路を実装することができ、及び／又は、いくつかの実施形態では、個別の要素を使用することができる。あるいは、ＨＤＬ設計は、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）などのプログラム可能な論理アレイに統合してもよく、ＦＰＧＡに実装してもよい。この回路グループの設計とこれらの回路の後続の低位実装との間のこの切り離しは、一般に、このプロセスは回路実装プロセスの異なる段階で実行されるため、回路又は論理設計者が、回路がどのように構成されているかの説明以外に、低位実装形態のための特定の構造セットを全く指定しないというシナリオをもたらす。

【0275】

回路要素の多くの異なる低位の組み合わせを使用して、回路の同じ仕様を実装することができるという事実は、その回路に多数の等価構造をもたらす。上記のように、これらの低位回路実装形態は、製造技術の変化、集積回路を製造するために選択されるファウンドリ、特定のプロジェクトに提供されるセルのライブラリなどに応じて変化し得る。多くの場合、これらの異なる実装形態を生成するための異なる設計ツール又は方法によって行われる選択は、任意であり得る。

【0276】

更に、所与の実施形態の場合、回路の特定の機能仕様の単一の実装形態が、多数のデバイス（例えば、数百万個のトランジスタ）を含むことは一般的である。したがって、この絶対量の情報により、膨大な量の同等の可能な実装形態は言うまでもなく、単一の実施形態を実装するために使用される低位構造を完全に列挙することは非現実的である。この理由のために、本開示は、業界で用いられる機能的な省略を使用して、回路の構造を説明する。

【図1A】

【図1B】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10A】

【図10B】

【図10C】

【図11A】

【図11B】

【図12】

【図13】

【図14A】

【図14B】

【図15】

【図16】

【図17】

【図18】

【図19A】

【図19B】

【図20】

【図21】

【図22】

【図23】

【図24】

【図25】

【図26】

【図27】

【図28】

【手続補正書】

【提出日】2024-02-05

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

グラフィックスプロセッサを備える装置であって、前記グラフィックスプロセッサは、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、グラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上の前記ワーク待ち行列回路に分散させるように構成され、
前記グラフィックスプロセッササブユニットは、それらの個別のシェーダプロセッサ回路を使用して、前記分散された第１のグラフィックスワーク及びグラフィックスワークのセットを実行するように構成される、制御回路と、を含む、装置。

【請求項2】

【請求項3】

所与のグループの前記サブユニットは、同じ物理的ダイ上に実装される、請求項２に記載の装置。

【請求項4】

前記第２の分散規則は、グラフィックスワークの前記第２のセットを単一のサブユニットに分散させることを示す、請求項１に記載の装置。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

前記グラフィックスプロセッササブユニットは、それぞれの
フラグメント生成回路と、
データキャッシュ及びメモリ管理ユニットを含むメモリシステム回路と、
ジオメトリ処理回路と、
分散ワーク負荷分散回路と、を更に含む、請求項１に記載の装置。

【請求項10】

前記分散ハードウェアスロットは、それぞれの
バッチ待ち行列回路と、
バッチ反復回路と、を更に含む、請求項１に記載の装置。

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、前記設計情報は、前記回路が、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッサのグラフィックスプロセッササブユニットのセットであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、グラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上の前記ワーク待ち行列回路に分散させるように構成され、
前記グラフィックスプロセッササブユニットは、それらの個別のシェーダプロセッサ回路を使用して、前記分散された第１のグラフィックスワーク及びグラフィックスワークのセットを実行するように構成される、制御回路と、を含む、非一時的コンピュータ可読記憶媒体。

【請求項17】

【請求項18】

【請求項19】

方法であって、
グラフィックスプロセッサの制御回路によって、グラフィックスワークの第１及び第２のセットを、複数の論理スロットを実装する回路の第１及び第２の論理スロットに割り当てることと、
前記制御回路によって、各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセット内の全てのグラフィックスプロセッササブユニットに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定することであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、決定することと、
前記制御回路によって、前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定することと、
前記制御回路によって、前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定することと、
前記制御回路によって、前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定することと、及び
前記制御回路によって、前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上に分散させることと、
前記グラフィックスプロセッササブユニットによって、それらの個別のシェーダプロセッサ回路を使用して、前記分散された第１のグラフィックスワーク及びグラフィックスワークのセットを実行することと、を含む、方法。

【請求項20】

【手続補正書】

【提出日】2024-04-19

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

グラフィックスプロセッサを備える装置であって、前記グラフィックスプロセッサは、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、グラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上の前記ワーク待ち行列回路に分散させるように構成され、
前記グラフィックスプロセッササブユニットは、それらの個別のシェーダプロセッサ回路を使用して、前記分散されたグラフィックスワークの第１及び第２のセットを実行するように構成される、制御回路と、を含む、装置。

【請求項2】

【請求項3】

所与のグループの前記サブユニットは、同じ物理的ダイ上に実装される、請求項２に記載の装置。

【請求項4】

前記第２の分散規則は、グラフィックスワークの前記第２のセットを単一のサブユニットに分散させることを示す、請求項１に記載の装置。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

前記グラフィックスプロセッササブユニットは、それぞれの
フラグメント生成回路と、
シェーダプロセッサ回路と、
データキャッシュ及びメモリ管理ユニットを含むメモリシステム回路と、
ジオメトリ処理回路と、
分散ワーク負荷分散回路と、を含む、請求項１に記載の装置。

【請求項10】

前記分散ハードウェアスロットは、それぞれの
バッチ待ち行列回路と、
バッチ反復回路と、を含み、
サブユニットにおける前記シェーダプロセッサ回路は、その複数の分散ハードウェアスロットからのワークを受信して実行するように構成されている、請求項１に記載の装置。

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、前記設計情報は、前記回路が、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、グラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上の前記ワーク待ち行列回路に分散させるように構成され、
前記グラフィックスプロセッササブユニットは、それらの個別のシェーダプロセッサ回路を使用して、前記分散されたグラフィックスワークの第１及び第２のセットを実行するように構成される、制御回路と、を含む、非一時的コンピュータ可読記憶媒体。

【請求項17】

【請求項18】

【請求項19】

方法であって、
グラフィックスプロセッサの制御回路によって、グラフィックスワークの第１及び第２のセットを、複数の論理スロットを実装する前記グラフィックスプロセッサにおける回路の第１及び第２の論理スロットに割り当てることと、
前記制御回路によって、各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセット内の全てのグラフィックスプロセッササブユニットに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定することであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、決定することと、
前記制御回路によって、前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定することと、
前記制御回路によって、前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定することと、
前記制御回路によって、前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定することと、及び
前記制御回路によって、前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上のワーク待ち行列回路に分散させることと、
前記グラフィックスプロセッササブユニットによって、それらの個別のシェーダプロセッサ回路を使用して、前記分散されたグラフィックスワークの第１及び第２のセットを実行することと、を含む、方法。

【請求項20】

【手続補正書】

【提出日】2024-08-02

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

グラフィックスプロセッサを備える装置であって、前記グラフィックスプロセッサは、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、グラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上の前記ワーク待ち行列回路に分散させるように構成され、
前記グラフィックスプロセッササブユニットは、それらの個別のシェーダプロセッサ回路を使用して、前記分散されたグラフィックスワークの第１及び第２のセットを実行するように構成される、制御回路と、を含む、装置。

【請求項2】

【請求項3】

所与のグループの前記サブユニットは、同じ物理的ダイ上に実装される、請求項２に記載の装置。

【請求項4】

前記第２の分散規則は、グラフィックスワークの前記第２のセットを単一のサブユニットに分散させることを示す、請求項１に記載の装置。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

設計に従って回路を生成するために設計情報を使用するように構成された半導体製造システムによって認識されるフォーマットでハードウェア集積回路の少なくとも一部の設計を指定する設計情報を記憶した非一時的コンピュータ可読記憶媒体であって、前記設計情報は、前記ハードウェア集積回路が、
複数の論理スロットを実装する回路と、
各々が複数の分散ハードウェアスロットを実装するグラフィックスプロセッササブユニットのセットであって、
所与の分散ハードウェアスロットは、グラフィックスワークを記憶するように構成されたワーク待ち行列回路と、前記記憶されたグラフィックスワークに対応する構成レジスタとを含み、
所与のグラフィックスプロセッササブユニットは、前記サブユニットの複数の分散ハードウェアスロット内に記憶されたグラフィックスワークによって指定される命令を実行するように構成されたシェーダプロセッサ回路を含む、グラフィックスプロセッササブユニットのセットと、
制御回路であって、
グラフィックスワークの第１及び第２のセットを第１及び第２の論理スロットに割り当て、
前記セット内の前記グラフィックスプロセッササブユニットの全てに分散させることを示す、グラフィックスワークの前記第１のセットのための第１の分散規則を決定し、
前記セット内の前記グラフィックスプロセッササブユニットの全てよりも少ない数に分散させることを示す、グラフィックスワークの前記第２のセットのための第２の分散規則を決定し、
前記第１の分散規則に基づいて、前記第１の論理スロットと１つ以上の分散ハードウェアスロットの第１のセットとの間のマッピングを決定し、
前記第２の分散規則に基づいて、前記第２の論理スロットと１つ以上の分散ハードウェアスロットの第２のセットとの間のマッピングを決定し、
前記決定されたマッピングに従って、前記グラフィックスワークの第１及び第２のセットを前記グラフィックスプロセッササブユニットのうちの１つ以上の前記ワーク待ち行列回路に分散させるように構成され、
前記グラフィックスプロセッササブユニットは、それらの個別のシェーダプロセッサ回路を使用して、前記分散されたグラフィックスワークの第１及び第２のセットを実行するように構成される、制御回路と、を含む、ことを指定する、非一時的コンピュータ可読記憶媒体。

【請求項17】

【請求項18】

前記制御回路は、実行されているグラフィックスプログラムによって信号伝達された１つ以上のソフトウェアオーバーライドに基づいて前記第１の分散規則を決定するように構成され、前記制御回路は、以下のタイプのソフトウェアオーバーライド、すなわち
どのサブユニットがグラフィックスワークの第１のセットに利用可能であるかを示すマスク情報と、
指定された分散規則と、
グラフィックスワークの第１のセットが展開されるべきサブユニットのグループを示すグループ情報と、
スケジューリングポリシーを示すポリシー情報と、に基づいて前記第１の分散規則を選択するように構成される、請求項１６に記載の非一時的コンピュータ可読記憶媒体。

【請求項19】

【請求項20】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版