特表2025-503426 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧 ▶ エーティーアイ・テクノロジーズ・ユーエルシーの特許一覧

特表2025-503426ディスパッチのためのキャッシュブロッキング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-02-04

(54)【発明の名称】ディスパッチのためのキャッシュブロッキング

(51)【国際特許分類】

G06F 9/52 20060101AFI20250128BHJP

G06F 12/0842 20160101ALI20250128BHJP

G06F 12/0875 20160101ALI20250128BHJP

G06F 12/0877 20160101ALI20250128BHJP

G06F 9/38 20180101ALI20250128BHJP

【ＦＩ】

G06F9/52 150A

G06F12/0842

G06F12/0875 106

G06F12/0877 107

G06F9/38 370A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024535508

(86)(22)【出願日】2022-12-20

(85)【翻訳文提出日】2024-07-10

(86)【国際出願番号】 US2022053566

(87)【国際公開番号】W WO2023129435

(87)【国際公開日】2023-07-06

(31)【優先権主張番号】17/564,474

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(71)【出願人】

【識別番号】508301087

【氏名又は名称】エーティーアイ・テクノロジーズ・ユーエルシー

【氏名又は名称原語表記】ＡＴＩＴＥＣＨＮＯＬＯＧＩＥＳＵＬＣ

【住所又は居所原語表記】ＯｎｅＣｏｍｍｅｒｃｅＶａｌｌｅｙＤｒｉｖｅＥａｓｔ，Ｍａｒｋｈａｍ，Ｏｎｔａｒｉｏ，Ｌ３Ｔ７Ｘ６Ｃａｎａｄａ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】サウラブシャルマ

(72)【発明者】

【氏名】ハシェムハシェミ

(72)【発明者】

【氏名】パーヴォペッシ

(72)【発明者】

【氏名】ミカツオミ

(72)【発明者】

【氏名】ジャンパオロトマージ

(72)【発明者】

【氏名】ジェレミールカーチ

(72)【発明者】

【氏名】グエンナディリグール

【テーマコード（参考）】

5B013

5B205

【Ｆターム（参考）】

5B013DD01

5B205KK22

5B205LL15

(57)【要約】

処理システム［１００］は、ワークアイテムの連続ディスパッチ［１３５］を部分［１４５］に分割する。連続ディスパッチは、バリア［２０２］、［２０４］によって互いに分離され、各バリアは、後続のディスパッチのワークアイテムが実行を開始するためには、前のディスパッチのワークアイテムが実行を完了しなければならないことを示す。いくつかの実施形態では、処理システムは、第１のディスパッチの部分の実行を、第１のディスパッチによって生成されたデータを消費する後続のディスパッチの部分とインターリーブする。それによって、処理システムは、後続のコンシューマ（又はコンシューマ／プロデューサ）ディスパッチのためにデータ局所性を保ち、処理効率を容易にしながら、プロデューサディスパッチによってローカルキャッシュ［１２０］に書き込まれるデータの量を低減する。
【選択図】図２

【特許請求の範囲】

【請求項1】

方法であって、
データをキャッシュに書き込むワークアイテムの第１のディスパッチの第１の部分を実行することであって、前記第１のディスパッチは、第１の複数の部分を含み、前記第１のディスパッチの前記第１の部分によって前記キャッシュに書き込まれるデータの量は、前記キャッシュの記憶容量を超えない、ことと、
前記ワークアイテムの前記第１のディスパッチの前記第１の部分が実行を完了したことに応じて、前記第１のディスパッチの前記第１の部分によって前記キャッシュに書き込まれたデータを読み取るワークアイテムの第２のディスパッチの第１の部分を実行することであって、前記第２のディスパッチは、第２の複数の部分を含む、ことと、を含む、
方法。

【請求項2】

前記ワークアイテムの前記第２のディスパッチの前記第１の部分が実行を完了したことに応じて、前記第１のディスパッチの前記第１の部分及び前記第２のディスパッチの前記第１の部分のうち少なくとも１つによって前記キャッシュに書き込まれたデータを読み取るワークアイテムの第３のディスパッチの第１の部分を実行することであって、前記第３のディスパッチは、第３の複数の部分を含む、ことを含む、
請求項１の方法。

【請求項3】

前記ワークアイテムの前記第２のディスパッチの前記第１の部分が実行を完了したことに応じて、データを前記キャッシュに書き込む前記ワークアイテムの前記第１のディスパッチの第２の部分を実行することを含む、
請求項１の方法。

【請求項4】

前記ワークアイテムの前記第１のディスパッチの前記第２の部分が実行を完了したことに応じて、前記第１のディスパッチの前記第１の部分及び前記第１のディスパッチの前記第２の部分のうち少なくとも１つによって前記キャッシュに書き込まれたデータを読み取る前記ワークアイテムの前記第２のディスパッチの第２の部分を実行することを含む、
請求項３の方法。

【請求項5】

前記ワークアイテムの前記第１のディスパッチの前記第１の部分は、前記ワークアイテムの前記第２のディスパッチの前記第１の部分よりも大きい、
請求項１の方法。

【請求項6】

前記ワークアイテムの前記第１のディスパッチを前記第１の複数の部分に分割することと、
前記ワークアイテムの前記第２のディスパッチを前記第２の複数の部分に分割することと、を含む、
請求項１の方法。

【請求項7】

前記第１の複数の部分及び前記第２の複数の部分は、不均等なサイズである、
請求項１の方法。

【請求項8】

方法であって、
データをキャッシュに書き込むワークアイテムの第１のディスパッチを第１の複数の部分に分割することと、
前記第１のディスパッチによって書き込まれたデータを前記キャッシュから読み取るワークアイテムの第２のディスパッチを第２の複数の部分に分割することと、
前記第１の複数の部分の実行を前記第２の複数の部分の実行とインターリーブすることと、を含む、
方法。

【請求項9】

前記第１のディスパッチ及び前記第２のディスパッチのうち少なくとも１つによって書き込まれたデータを前記キャッシュから読み取るワークアイテムの第３のディスパッチを第３の複数の部分に分割することと、
前記第３の複数の部分の実行を、前記第１の複数の部分の実行及び前記第２の複数の部分の実行とインターリーブすることと、を含む、
請求項８の方法。

【請求項10】

前記第１の複数の部分のうち第１の部分は、前記第２の複数の部分のうち第１の部分よりも大きい、
請求項８又は９の方法。

【請求項11】

前記第１の複数の部分のうち前記第１の部分によって前記キャッシュに書き込まれるデータの量は、前記キャッシュの記憶容量を超えない、
請求項１０の方法。

【請求項12】

前記第１の複数の部分及び前記第２の複数の部分は、不均等なサイズである、
請求項８の方法。

【請求項13】

インターリーブすることは、
前記第１の複数の部分のうち第１の部分を実行することと、
前記第１の複数の部分のうち前記第１の部分が実行を完了したことに応じて、前記第２の複数の部分のうち第１の部分を実行することと、を含む、
請求項８の方法。

【請求項14】

デバイスであって、
キャッシュと、
プロセッサと、を備え、
前記プロセッサは、
データを前記キャッシュに書き込むワークアイテムの第１のディスパッチの第１の部分を実行することであって、前記第１のディスパッチは、第１の複数の部分を含み、前記第１のディスパッチの前記第１の部分によって前記キャッシュに書き込まれるデータの量は、前記キャッシュの記憶容量を超えない、ことと、
前記ワークアイテムの前記第１のディスパッチの前記第１の部分が実行を完了したことに応じて、前記第１のディスパッチの前記第１の部分によって前記キャッシュに書き込まれたデータを読み取るワークアイテムの第２のディスパッチの第１の部分を実行することであって、前記第２のディスパッチは、第２の複数の部分を含む、ことと、
を行うように構成されている、
デバイス。

【請求項15】

前記プロセッサは、
前記ワークアイテムの前記第２のディスパッチの前記第１の部分が実行を完了したことに応じて、前記第１のディスパッチの前記第１の部分及び前記第２のディスパッチの前記第１の部分のうち少なくとも１つによって前記キャッシュに書き込まれたデータを読み取るワークアイテムの第３のディスパッチの第１の部分を実行することであって、前記第３のディスパッチは、第３の複数の部分を含む、ことを行うように構成されている、
請求項１４のデバイス。

【請求項16】

前記プロセッサは、
前記ワークアイテムの前記第２のディスパッチの前記第１の部分が実行を完了したことに応じて、データを前記キャッシュに書き込む前記ワークアイテムの前記第１のディスパッチの第２の部分を実行することを行うように構成されている、
請求項１４のデバイス。

【請求項17】

前記プロセッサは、
前記ワークアイテムの前記第１のディスパッチの前記第２の部分が実行を完了したことに応じて、前記第１のディスパッチの前記第１の部分及び前記第１のディスパッチの前記第２の部分のうち少なくとも１つによって前記キャッシュに書き込まれたデータを読み取る前記ワークアイテムの前記第２のディスパッチの第２の部分を実行することを行うように構成されている、
請求項１６のデバイス。

【請求項18】

前記ワークアイテムの前記第１のディスパッチの前記第１の部分は、前記ワークアイテムの前記第２のディスパッチの前記第１の部分よりも大きい、
請求項１４のデバイス。

【請求項19】

前記プロセッサは、
前記ワークアイテムの前記第１のディスパッチを前記第１の複数の部分に分割することと、
前記ワークアイテムの前記第２のディスパッチを前記第２の複数の部分に分割することと、
を行うように構成されている、
請求項１４のデバイス。

【請求項20】

前記第１の複数の部分及び前記第２の複数の部分は、不均等なサイズである、
請求項１４のデバイス。

【発明の詳細な説明】

【背景技術】

【0001】

グラフィックス処理ユニット（Graphics Processing Unit、ＧＰＵ）及び他のマルチスレッド処理ユニット等の並列処理ユニットは、典型的には、複数のデータセットに対して単一のプログラムの複数のインスタンスを同時に実行する複数の処理要素（プロセッサコア又は計算ユニットとも称される）を実装する。例えば、処理要素は、単一命令複数データ（Single-Instruction-Multiple-Data、ＳＩＭＤ）プロトコルを実装して、複数のプロセッサコアを使用して複数のデータセットに対して同じ命令を同時に実行することができる。

【0002】

階層実行モデルは、異なるデータセットを使用して実行される命令のカーネルを定義する。例えば、例を挙げるとディスプレイのピクセルに対応するワークアイテム（本明細書ではスレッド又はストリームとも呼ばれる）のグリッドのディスパッチは、並列処理ユニットのキャッシュに記憶されたデータセットにアクセスする。サーフェス又はテクスチャ等のいくつかのデータセットは、連続ディスパッチによって修正され、読み取られる。例えば、プロデューサディスパッチと呼ばれる第１のディスパッチは、データをキャッシュに書き込み、コンシューマ／プロデューサディスパッチと呼ばれる後続のディスパッチは、プロデューサディスパッチによって書き込まれたデータを読み取り、修正する。コンシューマディスパッチは、前のディスパッチによって書き込まれたデータを読み取る。しかしながら、キャッシュに記憶することができるデータの量はキャッシュのサイズによって制約され、プロデューサディスパッチによって生成されるデータの量はしばしばキャッシュの記憶容量を超え、キャッシュの「スラッシング（thrashing）」をもたらす。このようなデータは、後続のディスパッチによって読み取ることができる前にキャッシュから追い出される（エビクトされる）ことが多い。

【発明の概要】

【課題を解決するための手段】

【0003】

一例では、方法は、データをキャッシュに書き込むワークアイテムの第１のディスパッチの第１の部分を実行することを含み、第１のディスパッチは、第１の複数の部分を含む。第１のディスパッチの第１の部分によってキャッシュに書き込まれるデータの量は、キャッシュの記憶容量を超えない。ワークアイテムの第１のディスパッチの第１の部分が実行を完了したことに応じて、本方法は、第１のディスパッチの第１の部分によってキャッシュに書き込まれたデータを読み取るワークアイテムの第２のディスパッチの第１の部分を実行することを更に含み、第２のディスパッチは、第２の複数の部分を含む。

【0004】

いくつかの例では、方法は、ワークアイテムの第２のディスパッチの第１の部分が実行を完了したことに応じて、第１のディスパッチの第１の部分及び第２のディスパッチの第１の部分のうち少なくとも１つによってキャッシュに書き込まれたデータを読み取るワークアイテムの第３のディスパッチの第１の部分を実行することを更に含む。第３のディスパッチは、第３の複数の部分を含む。いくつかの例では、方法は、ワークアイテムの第２のディスパッチの第１の部分が実行を完了したことに応じて、キャッシュにデータを書き込むワークアイテムの第１のディスパッチの第２の部分を実行することを更に含む。

【0005】

方法は、いくつかの例において、ワークアイテムの第１のディスパッチの第２の部分が実行を完了したことに応じて、第１のディスパッチの第１の部分及び第１のディスパッチの第２の部分のうち少なくとも１つによってキャッシュに書き込まれたデータを読み取るワークアイテムの第２のディスパッチの第２の部分を実行することを更に含む。いくつかの例では、ワークアイテムの第１のディスパッチの第１の部分は、ワークアイテムの第２のディスパッチの第１の部分よりも大きい。

【0006】

いくつかの例では、方法は、ワークアイテムの第１のディスパッチを第１の複数の部分に分割することと、ワークアイテムの第２のディスパッチを第２の複数の部分に分割することと、を更に含む。いくつかの例では、第１の複数の部分及び第２の複数の部分は、不均等なサイズである。

【0007】

別の例では、方法は、データをキャッシュに書き込むワークアイテムの第１のディスパッチを第１の複数の部分に分割することと、第１のディスパッチによって書き込まれたデータをキャッシュから読み取るワークアイテムの第２のディスパッチを第２の複数の部分に分割することと、第１の複数の部分の実行を第２の複数の部分の実行とインターリーブすることと、を含む。いくつかの例では、方法は、第１のディスパッチ及び第２のディスパッチのうち少なくとも１つによって書き込まれたデータをキャッシュから読み取るワークアイテムの第３のディスパッチを第３の複数の部分に分割することと、第３の複数の部分の実行を、第１の複数の部分の実行及び第２の複数の部分の実行とインターリーブすることと、を更に含む。

【0008】

いくつかの例では、第１の複数の部分の第１の部分は、第２の複数の部分の第１の部分よりも大きい。いくつかの例では、第１の複数の部分の第１の部分によってキャッシュに書き込まれるデータの量は、キャッシュの記憶容量を超えない。いくつかの例では、第１の複数の部分及び第２の複数の部分は、不均等なサイズである。いくつかの例では、インターリーブすることは、第１の複数の部分の第１の部分を実行することと、第１の複数の部分の第１の部分が実行を完了したことに応じて、第２の複数の部分の第１の部分を実行することと、を含む。

【0009】

別の例では、デバイスは、キャッシュと、キャッシュにデータを書き込むワークアイテムの第１のディスパッチの第１の部分を実行するように構成されたプロセッサと、を含み、第１のディスパッチは、第１の複数の部分を含み、第１のディスパッチの第１の部分によってキャッシュに書き込まれるデータの量は、キャッシュの記憶容量を超えない。プロセッサは、ワークアイテムの第１のディスパッチの第１の部分が実行を完了したことに応じて、第１のディスパッチの第１の部分によってキャッシュに書き込まれたデータを読み取るワークアイテムの第２のディスパッチの第１の部分を実行するように構成されており、第２のディスパッチは第２の複数の部分を含む。

【0010】

いくつかの例では、プロセッサは、ワークアイテムの第２のディスパッチの第１の部分が実行を完了したことに応じて、第１のディスパッチの第１の部分及び第２のディスパッチの第１の部分のうち少なくとも１つによってキャッシュに書き込まれたデータを読み取るワークアイテムの第３のディスパッチの第１の部分を実行するように更に構成されており、第３のディスパッチは第３の複数の部分を含む。プロセッサは、いくつかの例では、ワークアイテムの第２のディスパッチの第１の部分が実行を完了したことに応じて、キャッシュにデータを書き込むワークアイテムの第１のディスパッチの第２の部分を実行するように更に構成されている。

【0011】

いくつかの例では、プロセッサは、ワークアイテムの第１のディスパッチの第２の部分が実行を完了したことに応じて、第１のディスパッチの第１の部分及び第１のディスパッチの第２の部分のうち少なくとも１つによってキャッシュに書き込まれたデータを読み取るワークアイテムの第２のディスパッチの第２の部分を実行するように更に構成されている。ワークアイテムの第１のディスパッチの第１の部分は、いくつかの例では、ワークアイテムの第２のディスパッチの第１の部分よりも大きい。

【0012】

いくつかの例では、プロセッサは、ワークアイテムの第１のディスパッチを第１の複数の部分に分割し、ワークアイテムの第２のディスパッチを第２の複数の部分に分割するように更に構成されている。いくつかの例では、第１の複数の部分及び第２の複数の部分は不均等なサイズである。

【0013】

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

【図面の簡単な説明】

【0014】

【図1】いくつかの実施形態による、連続ディスパッチを部分に分割し、部分の実行をインターリーブするように構成された処理システムのブロック図である。

【図2】いくつかの実施形態による、連続ディスパッチを部分にパーティション分割し、パーティション間にバリアを挿入して部分の実行をインターリーブするディスパッチパーティション及びインターリービングモジュールのブロック図である。

【図3】いくつかの実施形態による、連続ディスパッチのインターリーブされた部分の実行の反復を示す図である。

【図4】いくつかの実施形態による、連続ディスパッチのインターリーブされた部分の開始位置を示す図である。

【図5】いくつかの実施形態による、連続ディスパッチのインターリーブされた部分の開始位置を示す図である。

【図6】いくつかの実施形態による、連続ディスパッチを部分に分割し、部分の実行をインターリーブする方法を示すフロー図である。

【発明を実施するための形態】

【0015】

並列処理ユニットのプロセッサコアは、空間的及び／又は時間的データ局所性がディスパッチ内及びディスパッチ間に存在するように、同じデータセットに連続的にアクセスするワークアイテムのディスパッチを実行することが多い。例示のために、ワークアイテムの一連のディスパッチに添付されるテクスチャ等のサーフェスが、連続するレンダリングパス又はノイズ除去パスにおいて読み取られる。例えば、シーン内のオブジェクトをレンダリングするピクセルに対応するワークアイテムの第１のディスパッチはグローバルイルミネーションを生成し、ワークアイテムの第２のディスパッチはシャドーイングを生成するか又はフィルタリングを実施する。第１のディスパッチ及び第２のディスパッチの両方は、ピクセルにマッピングする同じテクスチャデータを必要とする。いくつかの場合には、第１のディスパッチのワークアイテムは、リードアフターライト局所性（read-after-write locality）と呼ばれるものにおけるテクスチャとして後続のディスパッチのワークアイテムによって消費される、順序付けられていないアクセスビュー（unordered access view、ＵＡＶ）バッファ又はレンダリングターゲット等のデータを生成する。

【0016】

命令を実行する過程で、並列処理ユニットのプロセッサコアは、プロセッサコアによって開始されるアクセスが比較的迅速に且つ比較的低いエネルギー消費で実施されるローカルキャッシュに又はプロセッサコアによって開始されるアクセスが比較的ゆっくり且つ比較的高いエネルギー消費で実施されるメモリ階層のより遠隔のレベルに記憶されたデータにアクセスする。典型的には、そのデータがメモリ階層内でプロセッサコアに近接して記憶されるほど、プロセッサコアによってより迅速且つエネルギー効率的にアクセスされる。処理効率を向上させるために、いくつかの処理システムは、データが近い将来にプロセッサコアによって再びアクセスされることを期待して、アクセスのために最近要求されたデータをプロセッサコアにより近いメモリ階層のレベルに移動させ、最近アクセスされていないデータをメモリ階層のより遠隔のレベルに移動させるメモリ管理プロトコルを実装する。

【0017】

後続のコンシューマ（又はコンシューマ／プロデューサ）ディスパッチが前のプロデューサディスパッチによって生成されたデータを消費するワークアイテムの連続ディスパッチの場合、プロデューサディスパッチによって生成されたデータを、コンシューマディスパッチによってアクセス可能なローカルキャッシュに記憶することにより、プロセッサコアによる比較的迅速なアクセスが容易になる。しかしながら、多くの場合、プロデューサディスパッチによって生成されるデータの量は、ローカルキャッシュの記憶容量を超え、その結果、メモリ階層のより遠隔のレベルへのデータの追い出しが生じ、後続のコンシューマディスパッチによる処理のために、そこからデータをフェッチしなければならない。

【0018】

後続のコンシューマ（又はコンシューマ／プロデューサ）ディスパッチのためにデータ局所性を保ちながら、プロデューサディスパッチによってローカルキャッシュに書き込まれるデータの量を低減するために、処理システムは、ワークアイテムの連続ディスパッチを部分に分割する。連続ディスパッチは、バリアによって互いに分離され、各バリアは、後続のディスパッチのワークアイテムが実行を開始するためには、前のディスパッチのワークアイテムが実行を完了しなければならないことを示す。いくつかの実施形態では、処理システムは、第１のプロデューサディスパッチ（第１のディスパッチと呼ばれる）を有限個の部分に分割し、第１の部分（２次元（２－Ｄ）ディスパッチについては（０，０）の開始位置、又は、３次元（３－Ｄ）ディスパッチについては（０，０，０）の開始位置を有する）は、第１の部分によって書き込まれたデータがローカル（最下位レベル）キャッシュの記憶容量を超えないようなサイズにされる。いくつかの実施形態では、第１のプロデューサディスパッチの部分は、等しいサイズである。他の実施形態では、第１のプロデューサディスパッチの部分は不均等なサイズにされる。例えば、第１のディスパッチの第１の部分は、第１のディスパッチの他の部分よりも大きいサイズである。

【0019】

処理システムは、第１のプロデューサディスパッチの直後に続き、第１のプロデューサディスパッチによって生成されたデータを消費するコンシューマ／プロデューサ又はコンシューマディスパッチ（第２のディスパッチと呼ばれる）を有限個の部分に分割する。コンシューマディスパッチがプロデューサディスパッチの以前に実行された部分によって生成された正しい（意図された）データを消費するようにコヒーレンシを保証するために、処理システムは、プロデューサディスパッチ部分が実行を完了するまでコンシューマディスパッチ部分が実行しないことを保証するために、部分間にバリアを挿入する。

【0020】

いくつかの実施形態では、第２のディスパッチの部分は等しいサイズである。他の実施形態では、第２のディスパッチの部分は不均等なサイズにされる。例えば、いくつかの実施形態において、処理システムは、第２のディスパッチの第１の部分（２次元（２－Ｄ）ディスパッチについては（０，０）の開始位置、又は、３次元（３－Ｄ）ディスパッチについては（０，０，０）の開始位置を有する）を、第２のディスパッチの第１の部分のワークアイテムが、第１のディスパッチの第１の部分の隣接するワークアイテムによって生成されたデータにアクセスして、例えばフィルタリング又は平均化を実施するように第１のディスパッチの第１の部分よりも小さくなるサイズにする。

【0021】

処理システムは、依存関係の性質（すなわち、依存関係が単純であるか複雑であるか）にかかわらず、一連の依存ディスパッチを同じ数の部分（すなわち、ブロック又はタイル）に分割する。プロデューサディスパッチのための部分サイズは、コンシューマディスパッチのための部分サイズとは異なり得る。しかしながら、プロデューサディスパッチとコンシューマディスパッチとの間の部分の数は同じままである。これにより、処理システムは、効率的な方法で部分間にバリアを配置することができる。

【0022】

処理効率を促進するために、いくつかの実施形態では、処理システムは、第１のディスパッチの部分の実行を、第１のディスパッチによって生成されたデータを消費する後続のディスパッチの部分とインターリーブする。例えば、いくつかの実施形態において、処理システムは、第１のディスパッチの第１の部分と、それに続く第２のディスパッチの第１の部分と、それに続く第１のディスパッチの第２の部分と、それに続く第２のディスパッチの第２の部分と、を実行する。ディスパッチの部分の実行をインターリーブすることによって、処理システムは、計算ユニット間で作業負荷のバランスをとる。

【0023】

図１は、いくつかの実施形態による、連続ディスパッチを部分に分割し、部分の実行をインターリーブするように構成された処理システム１００を示す。処理システム１００は、いくつかの実施形態による、ディスプレイ１７５に出力するように意図された視覚画像を創出するためのグラフィック処理ユニット（ＧＰＵ）等の並列処理ユニット１１０を含む。並列プロセッサは、単一の命令を複数のデータ又はスレッドに対して並列に実行することができるプロセッサである。並列プロセッサの例は、グラフィックス、機械知能又は計算動作を実行するためのグラフィックス処理ユニット（ＧＰＵ）、超並列プロセッサ、単一命令複数データ（ＳＩＭＤ）アーキテクチャプロセッサ、及び、単一命令複数スレッド（single instruction multiple thread、ＳＩＭＴ）アーキテクチャプロセッサ等のプロセッサを含む。いくつかの実施形態では、並列プロセッサは、コンピュータの一部として含まれる個別のデバイスである。高度プロセッサユニット等の他の実施形態では、並列プロセッサは、中央プロセッサユニット（central processor unit、ＣＰＵ）等のホストプロセッサと共に単一のデバイスに含まれる。以下の説明は、例示の目的でグラフィックス処理ユニット（ＧＰＵ）を使用するが、以下に説明される実施形態は、他のタイプの並列プロセッサに適用可能である。

【0024】

処理システム１００は、メモリ１５０を含む。メモリ１５０のいくつかの実施形態は、ダイナミックランダムアクセスメモリ（dynamic random access memory、ＤＲＡＭ）として実装される。しかしながら、メモリ１５０は、スタティックランダムアクセスメモリ（static random access memory、ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装することもできる。図示された実施形態では、並列処理ユニット１１０は、バス１６０上でメモリ１５０と通信する。しかしながら、並列処理ユニット１１０のいくつかの実施形態は、直接接続で、又は、他のバス、ブリッジ、スイッチ、ルータ等を介して、メモリ１５０と通信する。並列処理ユニット１１０は、メモリ１５０に記憶された命令を実行し、並列処理ユニット１１０は、実行された命令の結果等の情報をメモリ１５０に記憶する。例えば、メモリ１５０は、並列処理ユニット１１０によって実行されるアプリケーション１５５から命令のコピーを記憶することができる。並列処理ユニット１１０のいくつかの実施形態は、命令を同時に又は並列に独立して実行する複数のプロセッサコア（計算ユニットと呼ばれる）１１５を含む。

【0025】

処理システム１００は、概して、アプリケーション１５５等の命令セット（例えばコンピュータプログラム）を実行して、電子デバイスのための指定されたタスクを実行するように構成されている。そのようなタスクの例は、電子デバイスの動作のアスペクトを制御すること、ユーザに情報を表示して、特定のユーザエクスペリエンスを提供すること、他の電子デバイスと通信すること等を含む。したがって、異なる実施形態では、処理システム１００は、デスクトップコンピュータ、ラップトップコンピュータ、サーバ、ゲームコンソール、タブレット、スマートフォン等の多数のタイプの電子デバイスのうち何れかで採用されている。処理システム１００は、図１に示されるよりも多い又は少ない構成要素を含み得ることを理解されたい。例えば、処理システム１００は、１つ以上の入力インターフェース、不揮発性ストレージ、１つ以上の出力インターフェース、ネットワークインターフェース、及び、１つ以上のディスプレイ又はディスプレイインターフェースを更に含み得る。

【0026】

処理システム１００は、命令を実行するための中央処理ユニット（ＣＰＵ）１０５を含む。ＣＰＵ１０５のいくつかの実施形態は、同時に又は並列に命令を独立して実行する複数のプロセッサコア（明確化のために図示せず）を含む。また、ＣＰＵ１０５は、バス１６０に接続され、したがって、バス１６０を介して並列処理ユニット１１０及びメモリ１５０と通信する。ＣＰＵ１０５は、メモリ１５０に記憶されたアプリケーション１５５のためのプログラムコード等の命令を実行し、ＣＰＵ１０５は、実行された命令の結果等の情報をメモリ１５０に記憶する。また、ＣＰＵ１０５は、並列処理ユニット１１０にドローコールを発行することによって、グラフィックス処理を開始することができる。ドローコールは、ＣＰＵ１０５によって生成され、並列処理ユニット１１０がフレーム内のオブジェクト（又はオブジェクトの一部分）をレンダリングするように命令するために並列処理ユニット１１０に送信されるコマンドである。ドローコールのいくつかの実施形態は、オブジェクト又はその部分をレンダリングするために、並列処理ユニット１１０によって使用されるテクスチャ、状態、シェーダ、レンダリングオブジェクト、バッファ等を定義する情報を含む。並列処理ユニット１１０は、オブジェクトをレンダリングして、ディスプレイ１７５に提供されるピクセルの値を生成し、ディスプレイ１７５は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。

【0027】

いくつかの実施形態では、レンダリングされる各フレームは、複数のパスにおいて、並列処理ユニット１１０のグラフィックスパイプラインによって処理される。例えば、シーンのジオメトリに対する第１のパス中に、ピクセル単位の照明を計算するために必要な属性のみがＧバッファに書き込まれる。第２のパス中、グラフィックスパイプラインは、拡散及びスペキュラ照明データのみを出力する。グラフィックスパイプラインを通るフレームの第３のパスでは、グラフィックスパイプラインは、バックライトデータを読み取り、最終ピクセル単位シェーディングを出力する。したがって、マルチパスレンダリングでは、フレームのシーン及び関連付けられたオブジェクトが複数回レンダリングされる。オブジェクトが描かれる毎に、グラフィックスパイプラインは、オブジェクトの外観の追加のアスペクトを計算し、追加のアスペクトを以前の結果と組み合わせる。フレーム又はフレームのオブジェクトがグラフィックスパイプラインによってレンダリングされる毎に、レンダリングパスと称される。

【0028】

入力／出力（Input/Output、Ｉ／Ｏ）エンジン１７０は、ディスプレイ１７５に関連付けられた入力又は出力動作、及び、キーボード、マウス、プリンタ、外部ディスク等のような処理システム１００の他の要素を扱う。Ｉ／Ｏエンジン１７０は、Ｉ／Ｏエンジン１７０が並列処理ユニット１１０、メモリ１５０又はＣＰＵ１０５と通信するようにバス１６０に結合される。図示された実施形態では、Ｉ／Ｏエンジン１７０は、コンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）等の外部記憶媒体１８０に記憶された情報を読み取るように構成されている。外部記憶媒体１８０は、ビデオゲーム等のアプリケーションを実行するために使用されるプログラムコードを表す情報を記憶する。外部記憶媒体１８０上のプログラムコードは、並列処理ユニット１１０又はＣＰＵ１０５によって実行される命令のコピーを形成するためにメモリ１５０に書き込むことができる。

【0029】

いくつかの実施形態では、並列処理ユニット１１０は、ドローコールに応じて異なるプリミティブを同時に処理するように構成された複数の段階（ステージ）を含むグラフィックスパイプライン（明確化のために図１には図示せず）を実装する。並列処理ユニット１１０内のグラフィックスパイプラインの段階は、ビデオゲーム等のアプリケーションによって生成された異なるプリミティブを同時に処理することができる。ジオメトリがグラフィックスパイプラインに提示される場合、ハードウェア状態設定は、グラフィックスパイプラインの状態を定義するように選択される。状態の例としては、シーンのレンダリングに使用される、ラスタライザ状態、ブレンド状態、深度ステンシル状態、提示されたジオメトリのプリミティブトポロジタイプ、及び、シェーダ（例えば、頂点シェーダ、ドメインシェーダ、ジオメトリシェーダ、ハルシェーダ、ピクセルシェーダ等）が挙げられる。グラフィックスパイプライン状態に実装されるシェーダは、対応するバイトコードによって表される。場合によっては、グラフィックスパイプライン状態を表す情報をハッシュ又は圧縮して、グラフィックスパイプライン状態のより効率的な表現を提供する。

【0030】

ドライバ１６５は、アプリケーション１５５から等のより高いレベルのグラフィックコンピューティングプログラムが並列処理ユニット１１０と相互作用することを可能にするコンピュータプログラムである。例えば、ドライバ１６５は、アプリケーション１５５から受信した標準コードを、並列処理ユニット１１０によって理解されるネイティブフォーマットコマンドストリームに変換する。ドライバ１６５は、アプリケーション１５５からの入力が、並列処理ユニット１１０の設定を指示することを可能にする。そのような設定には、レンダリングモード、アンチエイリアシング制御、テクスチャフィルタ制御、バッチビニング制御、及び、遅延ピクセルシェーディング制御の選択が含まれる。

【0031】

ＣＰＵから受信したコマンドのセットを実行するために、並列処理ユニット１１０は、コマンドプロセッサ１２５、ディスパッチユニット１３０、複数の計算ユニット１１５、及び、キャッシュ１２０を含む。コマンドプロセッサ１２５は、ＣＰＵ１０５からコマンドを受信し、受信したコマンドを処理するために準備するように構成されたハードウェアのセットである。例えば、いくつかの実施形態では、コマンドプロセッサ１２５は、受信したコマンドをバッファリングし、受信したコマンドを処理するために１つ以上のキューに編成し、受信したコマンドを復号するか又は他の方法で解釈するための動作等を実施する。

【0032】

ディスパッチユニット１３０は、コマンドプロセッサ１２５から受信したディスパッチコマンド（図示せず）に応じてディスパッチ動作を実施するように構成されたハードウェアのセットである。ディスパッチコマンドに応じて、ディスパッチユニット１３０は、ワークアイテムのグリッドにアクセスし、ワークアイテムのサブセット（例えば、ディスパッチ１３５）を、ウェーブフロントとして処理するために計算ユニット１１５にディスパッチする。ドローコールとは異なり、ディスパッチ１３５は、グラフィックスパイプラインを経由せずに並列処理ユニット１１０によって処理することができる。

【0033】

複数の計算ユニット１１５は、ディスパッチユニット１３０によってディスパッチされたディスパッチ（例えば、ディスパッチ１３５）に対してシェーディング動作を一緒に実施する。異なる実施形態では、計算ユニット１１５は、コマンドプロセッサ１２５から受信されたコマンドに基づいて、ジオメトリ演算、テクスチャ演算、テッセレーション演算、頂点演算、メッシュ演算、プリミティブ演算、レイトレーシング演算、計算演算等、又は、それらの任意の組み合わせを実施する。いくつかの実施形態では、これらの演算を実施するために、計算ユニット１１５の各々は、受信されたディスパッチのワークアイテムを使用して指定された演算を実行するように構成された１つ以上のＳＩＭＤ要素を含む。

【0034】

キャッシュ１２０は、複数の計算ユニット１１５のためのデータを記憶する。したがって、シェーダ動作を実行する過程で、複数の計算ユニット１１５は、キャッシュ１２０に対してデータを記憶し、取り出す。記憶され、取り出されたデータは、処理されている特定のワークアイテムに基づく。例えば、いくつかの実施形態では、ディスパッチ１３５の各ワークアイテムは、画像の個々のピクセルに対応し、キャッシュ１２０は、ディスパッチ１３５に含まれる個々のピクセルごと、又は、個々のピクセルのサブセットごとのデータ（例えば、テクスチャ値）を記憶する。いくつかの実施形態では、並列処理ユニット１１０は、複数のキャッシュレベル及びシステムメモリ１５０を有するメモリ階層に関連付けられ、キャッシュ１２０は、複数のキャッシュレベルのうち何れかを表す。

【0035】

ディスパッチ間のデータ局所性を活用するキャッシュ１２０へのアクセスを容易にするために、並列処理ユニット１１０は、ディスパッチパーティション及びインターリービングモジュール１４０を含む。ディスパッチパーティション及びインターリービングモジュール１４０は、ハードウェア、ファームウェア、ソフトウェア又はそれらの組み合わせで実装することができる。ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ１３５等の連続ディスパッチについてキャッシュ１２０に記憶されたデータの局所性を分析し、キャッシュ１２０に記憶されたデータのデータ局所性と、アプリケーション１５５のワークアイテムによって生成されたデータを記憶するためのキャッシュ１２０の記憶容量と、に基づいて、ディスパッチを有限個の部分１４５にパーティション分割する。例えば、ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ１３５によって生成されたデータが後続のディスパッチ（図示せず）によって消費されることになり、且つ、キャッシュ１２０の記憶容量を超えるであろうと判定した場合、いくつかの実施形態では、ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ１３５及び後続のディスパッチを有限個の部分１４５に分割する。ディスパッチ１３５を、キャッシュ１２０内に収まるデータを生成する部分１４５にパーティション分割することによって、ディスパッチパーティション及びインターリービングモジュール１４０は、キャッシュ１２０への後続アクセスに必要なデータが後続アクセス時にキャッシュ１２０内に依然として存在する確率を増加させ、したがって、キャッシュ１２０におけるヒット率を増加させ、ディスパッチ間のレイテンシを減少させる。

【0036】

いくつかの実施形態において、ディスパッチパーティション及びインターリービングモジュール１４０は、プロデューサディスパッチの一部からのデータを消費するディスパッチの一部のワークアイテムが実行を開始する前に、プロデューサディスパッチの一部の全てのワークアイテムが実行を完了するのを保証するために、異なるディスパッチからの部分１４５の間にバリアを挿入する。ディスパッチパーティション及びインターリービングモジュール１４０は、プロデューサ及びコンシューマディスパッチ１３５のワークアイテムを実行する計算ユニット１１５の作業負荷のバランスをとるために、ディスパッチ１３５の部分１４５の実行をインターリーブする。

【0037】

図２は、いくつかの実施形態による、連続ディスパッチを部分にパーティション分割し、パーティション間にバリアを挿入して部分の実行をインターリーブするディスパッチパーティション及びインターリービングモジュール１４０のブロック図２００である。図示した例では、ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチパーティション及びインターリービングモジュール１４０がデータ局所性を有するものとして、且つ、キャッシュ１２０の容量を超えるデータを生成するものとして識別する３つのディスパッチ、ディスパッチ－１２１０、ディスパッチ－２２２０、ディスパッチ－３２３０を受信する。ディスパッチ－１２１０は、アプリケーション１５５によって挿入されたバリア２０２によってディスパッチ－２２２０から分離される。同様に、ディスパッチ－２２２０は、アプリケーション１５５によって挿入されたバリア２０４によってディスパッチ－３２３０から分離される。バリア２０２、２０４は、第２のディスパッチの実行が開始するためには、第１のディスパッチが実行を完了しなければならないことを示す。

【0038】

ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ－１２１０、ディスパッチ－２２２０、ディスパッチ－３２３０のそれぞれを２つの部分に分割する。したがって、ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ－１２１０を部分１－０２１１及び部分１－１２１２に分割する。ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ－２２２０を部分２－０２２１及び部分２－１２２２に分割し、ディスパッチ－３２３０を部分３－０２３１及び部分３－１２３２に分割する。いくつかの実施形態では、各ディスパッチの部分は等しいサイズであり、他の実施形態では、各ディスパッチの部分は不均等なサイズである。

【0039】

ディスパッチパーティション及びインターリービングモジュール１４０は、部分をインターリーブし、部分間にバリアを挿入して、バリアによって第２の部分から分離された第１の部分が、第２の部分が実行を開始する前に実行を完了することを確実にする。図示された例では、ディスパッチパーティション及びインターリービングモジュール１４０は、以下のように部分をインターリーブする：実行する第１の部分は、部分１－０２１１であり、その後にバリア２５０が続く。部分１－０２１１が実行を完了した後、部分２－０２２１が実行される。バリア２５２は、部分２－０２２１を次の部分である部分３－０２３１から分離する。したがって、部分２－０２２１は、部分３－０２３１が実行される前に実行を完了する。部分３－０２３１は、部分１－１２１２が実行を開始する前に部分３－０２３１が実行を完了しなければならないように、バリア２５４によって次の部分である部分１－１２１２から分離される。バリア２５６は、部分２－１２２２が実行される前に部分１－１２１２が実行を完了しなければならないように、部分１－１２１２を次の部分である部分２－１２２２から分離する。最後の部分である部分３－１２３２は、バリア２５８によって部分２－１２２２から分離される。したがって、部分２－１２２２は、部分３－１２３２が実行される前に実行を完了しなければならない。ディスパッチ２１０、２２０、２３０を、キャッシュ１２０の記憶容量を超えないデータを生成するサイズの部分に分割することによって、ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ２１０、２２０、２３０がキャッシュ１２０をスラッシングすることを防止する。更に、実行のために部分をインターリーブすることによって、ディスパッチパーティション及びインターリービングモジュール１４０は、他の計算ユニット１１５がディスパッチ２１０、２２０、２３０の部分のワークアイテムを実行している間、アイドルとなる計算ユニット１１５がより少なくなるように、計算ユニット１１５にわたって作業負荷をバランスさせる。

【0040】

図３は、いくつかの実施形態による、連続ディスパッチのインターリーブされた部分の実行の反復を示す図３００である。図示した例では、図２の３つのディスパッチ２１０、２２０、２３０の各々は、４つの部分に分割されている。したがって、ディスパッチ－１２１０は、部分１－０２１１、部分１－１２１２、部分１－２２１３、及び、部分１－３２１４に分割されている。ディスパッチ－２２２０は、部分２－０２２１、部分２－１２２２、部分２－２２２３、及び、部分２－３２２４に分割されている。ディスパッチ－３２３０は、部分３－０２３１、部分３－１２３２、部分３－２２３３、及び、部分３－３２３４に分割されている。ディスパッチ－１２１０は、後続のディスパッチによる消費のためのデータを生成するプロデューサディスパッチである。ディスパッチ－２２２０は、ディスパッチ－１２１０によって生成されたデータを消費し、後続のディスパッチによる消費のためのデータを生成するコンシューマ／プロデューサディスパッチである。ディスパッチ－３２３０は、以前のディスパッチ２１０、２２０によって生成されたデータを消費するコンシューマディスパッチである。

【0041】

ディスパッチ２１０、２２０、２３０の部分は、反復０３０２から開始する６回の反復で実行される。反復０３０２において、プロデューサディスパッチ－１２１０の部分１－０２１１が実行される。いくつかの実施形態では、部分１－０は、プロデューサディスパッチ－１２１０の他の部分より大きく、コンシューマ／プロデューサディスパッチ－２２２０及びコンシューマディスパッチ－３２３０の部分より大きくなるようなサイズにされる。反復１３０４では、プロデューサディスパッチ－１２１０の部分１－１２１２と、コンシューマ／プロデューサディスパッチ－２２２０の部分２－０２２１とが実行される。部分２－０２２１は、部分１－０２１１によって生成されたデータを消費するので、部分１－０２１１の実行が反復０３０２において完了した後に、部分２－０２２１が反復１３０４において実行される。

【0042】

反復２３０６では、プロデューサディスパッチ－１２１０の部分１－２２１３、コンシューマ／プロデューサディスパッチ－２２２０の部分２－１２２２、及び、コンシューマディスパッチ－３２３０の部分３－０２３１が実行される。部分２－１２２２は、部分１－１２１２によって生成されたデータを消費するので、反復１３０４において部分１－１２１２の実行が完了した後に、部分２－１２２２が反復２３０６において実行される。同様に、部分３－０２３１は、部分２－０２２１によって生成されたデータを消費するので、反復１３０４における部分２－０２２１の実行後に、部分３－０２３１が反復２３０６において実行される。

【0043】

反復３３０８では、プロデューサディスパッチ－１２１０の部分１－３２１４、コンシューマ／プロデューサディスパッチ－２２２０の部分２－２２２３、及び、コンシューマディスパッチ－３２３０の部分３－１２３２が実行される。部分２－２２２３は、部分１－２２１３によって生成されたデータを消費するので、部分１－２２１３の実行が反復２３０６において完了した後に、部分２－２２２３が反復３３０８において実行される。同様に、部分３－２２３２は、部分２－１２２２によって生成されたデータを消費するので、反復２３０６における部分２－１２２２の実行後に、部分３－１２３２が反復３３０８において実行される。

【0044】

反復４３１０では、コンシューマ／プロデューサディスパッチ－２２２０の部分２－３２２４及びコンシューマディスパッチ－３２３０の部分３－２２３３が実行される。部分２－３２２４は、部分１－３２１４によって生成されたデータを消費するので、部分１－３２１４の実行が反復３３０８において完了した後に、部分２－３２２４が反復４３１０において実行される。同様に、部分３－２２３３は、部分２－２２２３によって生成されたデータを消費するので、反復３３０８における部分２－２２２３の実行後に、部分３－２２３３が反復４３１０において実行される。

【0045】

反復５３１２では、コンシューマディスパッチ－３２３０の部分３－３２３４が実行される。部分３－３２３４は、部分２－３２３４によって生成されたデータを消費するので、反復４３１０における部分２－３２２４の実行後に、部分３－３２３４が反復５３１２において実行される。複数の部分を並列にインターリーブ及び実行することによって、ディスパッチパーティション及びインターリービングモジュール１４０は、部分の間にバリア（例えば、バリア２５０、２５２、２５４、２５６、２５８）を挿入することによって被る任意の性能ペナルティを緩和する。

【0046】

図４は、いくつかの実施形態による、連続ディスパッチのインターリーブされた部分の相対開始位置を示す図４００である。「単純マッピング」と呼ばれる図示された実施形態では、ディスパッチ２１０、２２０、２３０の部分は等しいサイズであり、同じ開始位置を共有する。例えば、図示された実施形態において、部分１－０２１１、２－０２２１、及び、３－０２３１は、同じブロック寸法及び開始位置を使用する。

【0047】

時間Ｔ１において、部分１－０２１１は、ワークアイテムのグリッドの左上隅の開始位置で実行される。時間Ｔ２において、部分１－０２１１及び１－１２１２が実行される。部分１－１２１２は、ワークアイテムのグリッドの上部中央に開始位置を有し、部分１－０２１１が水平軸上で終了する場所から開始する。部分１－０２１１及び１－１２１２は両方ともディスパッチ－１２１０の部分であるので、それらの間にバリアがなく、それらは重複する実行を有することができる。時間Ｔ３において、部分２－０２２１及び１－１２１２が実行され、部分２－０２２１の開始位置は、ワークアイテムのグリッドの左上隅にある。部分２－０２２１は、部分２－０２２１が消費するデータを生成する部分１－０２１１と同じサイズ及び開始位置を有する。部分２－０２２１は、部分１－１２１２によって生成されたデータを消費しないので、部分２－０２２１及び部分１－１２１２は、重複する実行を有することができる。

【0048】

時間Ｔ４において、部分２－０２２１、１－１２１２、１－２２１３が実行される。部分１－２２１３は、ワークアイテムのグリッドの中央左に開始位置を有し、部分１－０２１１が垂直軸上で終了する場所から開始し、ワークアイテムのグリッドの底部で終了する。時間Ｔ５において、部分２－０２２１、２－１２２２、１－２２１３が実行される。部分２－１２２２は、部分２－１２２２が消費するデータを生成する部分１－１２１２と同じサイズ及び開始位置を有する。時間Ｔ６において、部分３－０２３１、２－１２２２、１－２２１３が実行される。部分３－０２３１は、部分３－０２３１が消費するデータを生成する部分２－０２２１と同じサイズ及び開始位置を有する。

【0049】

時間Ｔ７において、部分３－０２３１、２－１２２２、１－２２１３、１－３２１４が実行される。部分１－３２１４は、ワークアイテムのグリッドの中央に開始位置を有し、部分１－２２１３が水平軸上で終了し、部分２－１２２２が垂直軸上で終了する場所から開始し、ワークアイテムのグリッドの右下で終了する。時間Ｔ８において、部分３－０２３１、２－１２２２、２－２２２３、１－３２１４が実行される。部分２－２２２３は、部分２－２２２３が消費するデータを生成する部分１－２２１３と同じサイズ及び開始位置を有する。時間Ｔ９において、部分３－０２３１、３－１２３２、２－２２２３、１－３２１４が実行される。部分３－１２３２は、部分３－１２３２が消費するデータを生成する部分２－１２２２と同じサイズ及び開始位置を有する。

【0050】

時刻Ｔ１０において、部分３－１２３１、３－１２３２、２－２２２３、２－３２２４が実行される。部分２－３２２４は、部分２－３２２４が消費するデータを生成する部分１－３２１４と同じサイズ及び開始位置を有する。時間Ｔ１１において、部分３－０２３１、３－１２３２、３－２２３３、２－３２２４が実行される。部分３－２２３３は、部分３－２２３３が消費するデータを生成する部分２－２２２３と同じサイズ及び開始位置を有する。時間Ｔ１２において、部分３－０２３１、３－１２３２、３－２２３３、３－３２３４が実行される。部分３－３２３４は、部分３－３２３４が消費するデータを生成する部分２－３２２４と同じサイズ及び開始位置を有する。

【0051】

図５は、いくつかの実施形態による、連続ディスパッチのインターリーブされた部分の相対開始位置を示す図４００である。図示された実施形態では、ディスパッチ２１０、２２０、２３０の対応する部分は、全て均等なサイズではなく、常に同じ開始位置を共有するわけではない。図示した例では、ディスパッチ－３２３０がコンシューマディスパッチであるので、ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ－３２３０を、図４に示す単純なマッピングシナリオと同じ開始位置を有する４つの等しいサイズの部分、部分３－０２３１、３－１２３２、３－２２３３、３－３２３４に分割する。ワークアイテムのグリッドの第１の行及び列で開始するディスパッチ－２２２０の部分は、ディスパッチ－３２３０の対応する部分と比較してより広く且つより高く、ワークアイテムのグリッドの第１の行及び列で開始するディスパッチ－１２１０の部分は、ディスパッチ－２２２０の対応する部分と比較してより広く且つより高い。

【0052】

いくつかの実施形態では、残りの行及び列について、ディスパッチ－１２１０及びディスパッチ－２２２０の部分の寸法は、最後の行及び列を除いて、ディスパッチ－３２３０の部分と同一である。最後の行及び列について、ディスパッチ－１２１０及びディスパッチ－２２２０の部分の寸法は、それぞれディスパッチ－１２１０及びディスパッチ－２２２０の寸法にクランプされる。ディスパッチパーティション及びインターリービングモジュール１４０は、ディスパッチ－１２１０及びディスパッチ－２２２０の部分の第１の行及び第１の列の寸法に追加された同じワークアイテム（スレッドグループ）の量を開始位置に追加することによって、ディスパッチ－１２１０及びディスパッチ－２２２０の残りの部分（すなわち、部分１－１２１２、１－２２１３、１－３２１４、２－１２２２、２－２２２３、２－３２３４）の開始位置を計算する。プロデューサディスパッチの部分をコンシューマディスパッチの対応する部分よりも大きくなるようなサイズにし、部分の開始位置をオフセットすることによって、ディスパッチパーティション及びインターリービングモジュール１４０は、コンシューマディスパッチのワークアイテムが、プロデューサディスパッチの隣接するワークアイテムによって生成されたデータにアクセスすることを可能にし、したがって、フィルタリング又は平均化等の動作を実施することができる。

【0053】

時間Ｔ１において、部分１－０２１１は、ワークアイテムのグリッドの左上隅の開始位置で実行される。時間Ｔ２において、部分１－０２１１及び１－１２１２が実行される。部分１－１２１２は、ワークアイテムのグリッドの上部中央の右に開始位置を有し、部分１－０２１１が水平軸上で終了する場所から開始する。部分１－０２１１及び１－１２１２は両方ともディスパッチ－１２１０の部分であるので、それらの間にバリアがなく、それらは重複する実行を有することができる。時間Ｔ３において、部分２－０２２１及び１－１２１２が実行され、部分２－０２２１の開始位置は、ワークアイテムのグリッドの左上隅にある。部分２－０２２１は、部分２－０２２１が消費するデータを生成する部分１－０２１１よりも小さく、部分２－０のワークアイテムが、部分１－０２１１の対応するワークアイテムの隣接データに対して演算を実行することを可能にする。部分２－０２２１は、部分１－１２１２によって生成されたデータを消費しないので、部分２－０２２１及び部分１－１２１２は、重複する実行を有することができる。

【0054】

時間Ｔ４において、部分２－０２２１、１－１２１２、１－２２１３が実行される。部分１－２２１３は、ワークアイテムのグリッドの左下に開始位置を有し、部分１－０２１１が垂直軸上で終了する場所から開始し、ワークアイテムのグリッドの底部で終了する。時間Ｔ５において、部分２－０２２１、２－１２２２、１－２２１３が実行される。部分２－１２２２は、部分１－０２１１及び１－１２１２と部分的に重複する。部分２－１２２２は、部分２－１２２２が消費するデータを生成する部分１－１２１２よりも短く広い。時間Ｔ６において、部分３－０２３１、２－１２２２、１－２２１３が実行される。部分３－０２３１は、部分３－０２３１が消費するデータを生成する部分２－０２２１と同じ開始位置を有し、部分２－０２２１よりも小さい。

【0055】

時間Ｔ７において、部分３－０２３１、２－１２２２、１－２２１３、１－３２１４が実行される。部分１－３２１４は、ワークアイテムのグリッドの右下隅に開始位置を有し、部分１－２２１３が水平軸上で終了し、部分２－１２２２が垂直軸上で終了する場所から開始し、ワークアイテムのグリッドの右下で終了する。時間Ｔ８において、部分３－０２３１、２－１２２２、２－２２２３、１－３２１４が実行される。部分２－２２２３は、部分２－２２２３が消費するデータを生成する部分１－２２１３よりも高く、狭い。時間Ｔ９において、部分３－０２３１、３－１２３２、２－２２２３、１－３２１４が実行される。部分３－１２３２は、部分３－１２３２が消費するデータを生成する部分２－１２２２よりも広く、短い。

【0056】

時刻Ｔ１０において、部分３－１２３１、３－１２３２、２－２２２３、２－３２２４が実行される。部分２－３２２４は、部分２－３２２４が消費するデータを生成する部分１－３２１４よりも高く、広い。時間Ｔ１１において、部分３－０２３１、３－１２３２、３－２２３３、２－３２２４が実行される。部分３－２２３３は、部分３－２２３３が消費するデータを生成する部分２－２２２３よりも高く、狭い。時間Ｔ１２において、部分３－０２３１、３－１２３２、３－２２３３、３－３２３４が実行される。部分３－３２３４は、部分３－３２３４が消費するデータを生成する部分２－３２２４よりも高く、広い。先に述べたように、部分３－０２３１、３－１２３２、３－２２３３、３－３２３４は、それらのソースディスパッチのように等しいサイズであり、ディスパッチ－３２３０は、後続のディスパッチのためのデータを生成しないコンシューマディスパッチである。

【0057】

図６は、いくつかの実施形態による、連続ディスパッチを部分に分割し、部分の実行をインターリーブするための方法６００を示すフロー図である。いくつかの実施形態では、方法６００は、図１に示される処理システム１００等の処理システムによって実施される。ブロック６０２において、ディスパッチパーティション及びインターリービングモジュール１４０は、コンシューマ／プロデューサ依存性を有する連続ディスパッチのプロデューサディスパッチが、キャッシュ１２０の記憶容量を超えるデータを生成すると判定する。ディスパッチパーティション及びインターリービングモジュール１４０は、プロデューサディスパッチ（例えば、ディスパッチ－１２１０）を部分（例えば、部分１－０２１１、１－１２１２、１－２２１３、１－３２１４）に分割する。いくつかの実施形態では、部分は等しいサイズを有し、他の実施形態では、部分は不均等なサイズであり、第１の部分（例えば、部分１－０２１１）は、残りの部分よりも大きい。ブロック６０４において、ディスパッチパーティション及びインターリービングモジュール１４０は、コンシューマ／プロデューサディスパッチ（例えば、ディスパッチ－２２２０）を部分（例えば、部分２－０２２１、２－１２２２、２－２２２３、２－３２２４）に分割する。いくつかの実施形態では、部分は等しいサイズを有し、他の実施形態では、部分は不均等なサイズであり、第１の部分（例えば、部分２－０２２１）は、部分２－０２２１によって消費されるデータを生成する対応する部分１－０２１１よりも小さい。

【0058】

ブロック６０６において、ディスパッチパーティション及びインターリービングモジュール１４０は、コンシューマディスパッチ（例えば、ディスパッチ－３２３０）を部分（例えば、部分３－０２３１、３－１２３２、３－２２３３、３－３２３４）に分割する。いくつかの実施形態では、部分は等しいサイズを有し、他の実施形態では、部分は不均等なサイズであり、第２の部分（例えば、部分３－０２３１）は、部分３－０２３１によって消費されるデータを生成する対応する部分１－０２２１よりも小さい。ブロック６０８において、ディスパッチパーティション及びインターリービングモジュール１４０は、各ディスパッチの各部分の開始位置を決定する。部分が等しいサイズである実施形態では、各ディスパッチの各々対応する部分は、同じ開始位置を有する（すなわち、部分１－０２１１、２－０２２１及び３－０２３１は同じ開始位置を有し、部分１－１２１２、２－１２２２及び３－１２３２は同じ開始位置を有し、部分１－２２１３、２－２２２３及び３－２２３３は同じ開始位置を有し、部分１－３２１４、２－３２２４及び３－３２３４は同じ開始位置を有する）。部分が不均等なサイズである実施形態では、各ディスパッチの最初の部分以外の各コンシューマ／プロデューサ又はコンシューマディスパッチの各々対応する部分は、データを消費するプロデューサディスパッチの開始位置からオフセットされた開始位置を有する。

【0059】

ブロック６１０において、ディスパッチパーティション及びインターリービングモジュール１４０は、プロデューサ、プロデューサ／コンシューマ、及び、コンシューマディスパッチの部分の実行をインターリーブする。例えば、ディスパッチパーティション及びインターリービングモジュール１４０は、計算ユニット１１５のうち１つ以上における実行のために、ディスパッチ－１２１０の第１の部分（部分１－０２１１）をスケジュールする。部分１－０２１１が実行を完了したことに応じて、ディスパッチパーティション及びインターリービングモジュール１４０は、計算ユニット１１５のうち１つ以上における実行のために、ディスパッチ－２２２０の第１の部分（部分２－０２２１）をスケジュールする。部分２－０２２１が実行を完了したことに応じて、ディスパッチパーティション及びインターリービングモジュール１４０は、計算ユニット１１５のうち１つ以上における実行のために、ディスパッチ－３２３０の第１の部分（部分３－０２３１をスケジュールする。部分３－０２３１が実行を完了したことに応じて、ディスパッチパーティション及びインターリービングモジュール１４０は、計算ユニット１１５のうち１つ以上における実行のために、ディスパッチ－１２１０の第２の部分（部分１－１２１２）をスケジュールする。ディスパッチパーティション及びインターリービングモジュール１４０は、最後のコンシューマディスパッチが実行を完了するまで、ディスパッチの部分のスケジューリングを継続し、各部分のディスパッチを交互に行う。

【0060】

いくつかの実施形態では、上記の装置及び技術は、図１～図５を参照して上述した処理システム等の１つ以上の集積回路（integrated circuit、ＩＣ）デバイス（集積回路パッケージ又はマイクロチップとも呼称される）を含むシステムに実装されている。電子設計自動化（electronic design automation、ＥＤＡ）及びコンピュータ支援設計（computer aided design、ＣＡＤ）ソフトウェアツールは、これらのＩＣデバイスの設計及び製造に使用することができる。これらの設計ツールは、典型的には、１つ以上のソフトウェアプログラムとして表される。１つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計するか又は適応させるためのプロセスの少なくとも一部を実行するために、１つ以上のＩＣデバイスの回路を表すコードで動作するようにコンピュータシステムを操作するための、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含み得る。設計ツール又は製造ツールを表すソフトウェア命令は、典型的には、コンピューティングシステムにアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ＩＣデバイスの設計又は製造の１つ以上の段階を表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶され、そこからアクセスされる。

【0061】

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

【0062】

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

【0063】

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

【0064】

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

【図1】