特表2025-501026 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧 ▶ エーティーアイ・テクノロジーズ・ユーエルシーの特許一覧

特表2025-501026グラフィックス破棄エンジン

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-16

(54)【発明の名称】グラフィックス破棄エンジン

(51)【国際特許分類】

G06F 9/38 20180101AFI20250108BHJP

【ＦＩ】

G06F9/38 380Z

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024536025

(86)(22)【出願日】2022-11-23

(85)【翻訳文提出日】2024-07-18

(86)【国際出願番号】 US2022080402

(87)【国際公開番号】W WO2023129776

(87)【国際公開日】2023-07-06

(31)【優先権主張番号】17/562,653

(32)【優先日】2021-12-27

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＥＲＩＬＯＧ

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(71)【出願人】

【識別番号】508301087

【氏名又は名称】エーティーアイ・テクノロジーズ・ユーエルシー

【氏名又は名称原語表記】ＡＴＩＴＥＣＨＮＯＬＯＧＩＥＳＵＬＣ

【住所又は居所原語表記】ＯｎｅＣｏｍｍｅｒｃｅＶａｌｌｅｙＤｒｉｖｅＥａｓｔ，Ｍａｒｋｈａｍ，Ｏｎｔａｒｉｏ，Ｌ３Ｔ７Ｘ６Ｃａｎａｄａ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】クリストファージェイ．ブレナン

(72)【発明者】

【氏名】ランディーウェインラムジー

(72)【発明者】

【氏名】ニシャンクパータク

(72)【発明者】

【氏名】リッキーワイヨングウ

(72)【発明者】

【氏名】ジムシェドミルザ

(72)【発明者】

【氏名】アンソニーチャン

【テーマコード（参考）】

5B013

【Ｆターム（参考）】

5B013EE10

(57)【要約】

グラフィックスパイプラインにおいて破棄エンジンを実装するためのシステム、装置及び方法が開示される。システムは、プリミティブのセットの各プリミティブの頂点についての属性データを生成するシェーダを起動するジオメトリエンジンを有するグラフィックスパイプラインを含む。属性データは、ピクセルシェーダによって消費され、各ピクセルシェーダは、ピクセルシェーダがもはや属性データを必要としない場合に、割り当て解除メッセージを生成する。破棄エンジンは、複数のピクセルシェーダから割り当て解除を収集し、属性データがもはや必要とされない場合を判定する。属性のブロックが全ての潜在的なピクセルシェーダコンシューマによって消費されると、破棄エンジンは、属性の所定のブロックを割り当て解除する。破棄エンジンは、属性データを無効化し、メモリに書き戻すことができないように、破棄コマンドをキャッシュに送信する。
【選択図】図５

【特許請求の範囲】

【請求項1】

装置であって、
プリミティブのセットの各プリミティブの頂点の属性データを記憶するように構成されたキャッシュと、
前記属性データを消費するためにピクセルシェーダを実行するように構成された複数の計算ユニットと、
破棄エンジンと、を備え、
前記破棄エンジンは、
前記ピクセルシェーダによって生成された属性割り当て解除メッセージを追跡することと、
属性データの所定のブロックが対応するピクセルシェーダによって消費された場合を判定したことに応じて、破棄コマンドを前記キャッシュに伝達することと、
を行うように構成されている、
装置。

【請求項2】

前記キャッシュは、前記破棄コマンドの受信に応じて、前記キャッシュ内の前記属性データの所定のブロックを無効化するように構成されている、
請求項１の装置。

【請求項3】

前記キャッシュは、前記破棄コマンドの受信に応じて、前記属性データの所定のブロックが別のレベルのキャッシュ又はメモリに書き込まれるのを防止するように構成されている、
請求項２の装置。

【請求項4】

前記破棄エンジンは、属性データの異なる範囲についてのエントリを有する破棄テーブルを維持するように構成されている、
請求項１の装置。

【請求項5】

前記破棄エンジンは、
属性データの所定の範囲を消費している最も古いピクセルシェーダを追跡することと、
前記最も古いピクセルシェーダの識別子（ＩＤ）を、前記属性データの所定の範囲に対応する所定のエントリに記憶することと、
を行うように構成されている、
請求項４の装置。

【請求項6】

前記破棄エンジンは、
ビン完了信号を受信することと、
前記ビン完了信号からピクセルシェーダＩＤを取得することであって、前記ピクセルシェーダＩＤは、前記ビンを処理した最も若いピクセルシェーダを識別する、ことと、
前記ビン完了信号から取得された前記ピクセルシェーダＩＤよりも高いＩＤを有するピクセルシェーダに対応するエントリについて前記破棄テーブルを検索することと、
前記ビン完了信号から取得された前記ピクセルシェーダＩＤよりも高いＩＤを有するエントリに対応する属性データの範囲に対する破棄コマンドを生成及び伝達することと、
を行うように構成されている、
請求項５の装置。

【請求項7】

前記破棄エンジンは、
ビン完了信号を受信することと、
前記ビン完了信号からビンＩＤを取得することであって、前記ビンＩＤは、処理されたばかりの所定のビンを識別する、ことと、
前記ビン完了信号から取得された前記ビンＩＤに対応するエントリについて前記破棄テーブルを検索することと、
前記ビン完了信号から取得された前記ビンＩＤと同じビンＩＤを有するエントリに対応する属性データの範囲に対する破棄コマンドを生成及び伝達することと、
を行うように構成されている、
請求項５の装置。

【請求項8】

方法であって、
破棄エンジンが、複数のピクセルシェーダによって生成された属性割り当て解除メッセージを追跡することと、
属性データの所定のブロックが対応するピクセルシェーダによって消費された場合を判定したことに応じて、破棄コマンドを１つ以上のキャッシュに伝達することと、を含む、
方法。

【請求項9】

前記破棄コマンドの受信に応じて、所定のキャッシュ内の前記属性データの所定のブロックを無効化することを含む、
請求項８の方法。

【請求項10】

前記破棄コマンドの受信に応じて、前記属性データの所定のブロックが別のレベルのキャッシュ又はメモリに書き込まれるのを防止することを含む、
請求項９の方法。

【請求項11】

属性データの異なる範囲についてのエントリを有する破棄テーブルを維持することを含む、
請求項８の方法。

【請求項12】

属性データの所定の範囲を消費している最も古いピクセルシェーダを追跡することと、
前記最も古いピクセルシェーダの識別子（ＩＤ）を、前記属性データの所定の範囲に対応する所定のエントリに記憶することと、を含む、
請求項１１の方法。

【請求項13】

ビン完了信号を受信することと、
前記ビン完了信号からピクセルシェーダＩＤを取得することであって、前記ピクセルシェーダＩＤは、前記ビンを処理した最も若いピクセルシェーダを識別する、ことと、
前記ビン完了信号から取得された前記ピクセルシェーダＩＤよりも高いＩＤを有するピクセルシェーダに対応するエントリについて前記破棄テーブルを検索することと、
前記ビン完了信号から取得された前記ピクセルシェーダＩＤよりも高いＩＤを有するエントリに対応する属性データの範囲に対する破棄コマンドを生成及び伝達することと、を含む、
請求項１２の方法。

【請求項14】

ビン完了信号を受信することと、
前記ビン完了信号からビンＩＤを取得することであって、前記ビンＩＤは、処理されたばかりの所定のビンを識別する、ことと、
前記ビン完了信号から取得された前記ビンＩＤに対応するエントリについて前記破棄テーブルを検索することと、
前記ビン完了信号から取得された前記ビンＩＤと同じビンＩＤを有するエントリに対応する属性データの範囲に対する破棄コマンドを生成及び伝達することと、を含む、
請求項１２の方法。

【請求項15】

システムであって、
キャッシュと、
破棄エンジンと、を備え、
前記破棄エンジンは、
複数のピクセルシェーダによって生成された属性割り当て解除メッセージを追跡することと、
属性データの所定のブロックが対応するピクセルシェーダによって消費された場合を判定したことに応じて、破棄コマンドを前記キャッシュに伝達することと、
を行うように構成されている、
システム。

【請求項16】

前記キャッシュは、前記破棄コマンドの受信に応じて、前記キャッシュ内の前記属性データの所定のブロックを無効化するように構成されている、
請求項１５のシステム。

【請求項17】

前記キャッシュは、前記破棄コマンドの受信に応じて、前記属性データの所定のブロックが別のレベルのキャッシュ又はメモリに書き込まれるのを防止するように構成されている、
請求項１６のシステム。

【請求項18】

前記破棄エンジンは、属性データの異なる範囲についてのエントリを有する破棄テーブルを維持するように構成されている、
請求項１５のシステム。

【請求項19】

前記破棄エンジンは、
属性データの所定の範囲を消費している最も古いピクセルシェーダを追跡することと、
前記最も古いピクセルシェーダの識別子（ＩＤ）を、前記属性データの所定の範囲に対応する所定のエントリに記憶することと、
を行うように構成されている、
請求項１５のシステム。

【請求項20】

【発明の詳細な説明】

【背景技術】

【0001】

（関連技術の説明）
三次元（three-dimensional、３－Ｄ）グラフィックスは、多くの場合に、プログラマブルシェーダ及び固定機能ハードウェアブロックのシーケンスで形成されたグラフィックスパイプラインを使用して処理される。例えば、フレーム内で視認可能なオブジェクトの３－Ｄモデルは、ユーザに表示されるためのピクセルの値を生成するようにグラフィックスパイプラインで処理された三角形、他の多角形又はパッチのセットによって表すことができる。三角形、他の多角形及びパッチは、まとめてプリミティブと称される。

【0002】

典型的なグラフィックスパイプラインでは、スレッドと称され得るワークアイテムのシーケンスが最終結果を出力するように処理される。各処理要素は、着信データを処理するために、特定のワークアイテムのそれぞれのインスタンス化を実行する。ワークアイテムは、計算ユニット上で呼び出されるカーネルの並列実行の集合のうち何れかである。ワークアイテムは、グローバルＩＤ及びローカルＩＤによって集合内で他の実行から区別される。本明細書で使用される場合、「計算ユニット」という用語は、複数のワークアイテムの同期実行を実施する処理要素（例えば、単一命令複数データ（single-instruction, multiple-data、ＳＩＭＤ）ユニット）の集合として定義される。計算ユニット当たりの処理要素の数は、実施形態ごとに異なり得る。計算ユニット上で一緒に同時に実行されるワークグループ内のワークアイテムのサブセットは、ウェーブフロント（wavefront）、ワープ（warp）又はベクトルと称され得る。ウェーブフロントの幅（width）は、計算ユニットのハードウェアの特性である。

【0003】

グラフィックス処理パイプラインは、頂点位置及び属性の変換、ピクセル色の計算等のような個々のタスクを実施するいくつかのステージを含む。これらのタスクの多くは、パイプラインを横断するウェーブフロントの個々のワークアイテムに対する処理要素の集合によって並列に実施される。グラフィックス処理パイプラインは、絶えず更新及び改善されている。

【0004】

本明細書に説明される方法及び機構の利点は、添付の図面と併せて以下の説明を参照することによってより良好に理解され得る。

【図面の簡単な説明】

【0005】

【図1】コンピューティングシステムの一実施形態のブロック図である。

【図2】ＧＰＵの一実施形態のブロック図である。

【図3】計算ユニットの一実施形態のブロック図である。

【図4】破棄エンジン（discard engine）の一実施形態のブロック図である。

【図5】破棄エンジンを動作させるための方法の一実施形態を示す一般化されたフロー図である。

【図6】破棄テーブルを管理するための方法の一実施形態を示す一般化されたフロー図である。

【図7】破棄コマンドを生成するための方法の一実施形態を示す一般化されたフロー図である。

【図8】破棄コマンドを生成するための方法の別の実施形態を示す一般化されたフロー図である。

【図9】順序付けられた破棄コマンド生成スキームを実施するための方法の一実施形態を示す一般化されたフロー図である。

【発明を実施するための形態】

【0006】

以下の説明では、本明細書に提示される方法及び機構の十分な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、当業者は、様々な実施形態が、これらの具体的な詳細なしに実施され得ることを認識すべきである。いくつかの場合では、本明細書において説明されるアプローチを不明瞭にすることを避けるために、周知の構造、構成要素、信号、コンピュータプログラム命令及び技術が詳細に示されていない。説明を簡単且つ明確にするために、図に示される要素は、必ずしも縮尺どおりに描かれているわけではないことが理解されよう。例えば、いくつかの要素の寸法は、他の要素に対して誇張されている場合がある。

【0007】

グラフィックスパイプラインにおいて破棄エンジンを実装するための様々なシステム、装置及び方法が本明細書で開示される。一実施形態では、システムは、プリミティブのセットの各プリミティブの頂点についての属性データを生成するシェーダを起動するジオメトリエンジンを有するグラフィックスパイプラインを含む。属性データは、ピクセルシェーダによって消費され、各ピクセルシェーダは、ピクセルシェーダがもはや属性データを必要としない場合に、属性割り当て解除メッセージを生成する。破棄エンジンは、複数のピクセルシェーダから割り当て解除を収集し、属性データがもはや必要とされない場合を判定する。属性のブロックが全ての潜在的なピクセルシェーダコンシューマによって消費されると、破棄エンジンは、属性の所定のブロックを割り当て解除する。破棄エンジンは、属性データを無効化し、メモリに書き戻すことができないように、破棄コマンドをキャッシュに送信する。

【0008】

図１を参照すると、コンピューティングシステム１００の一実施形態のブロック図が示されている。一実施形態では、コンピューティングシステム１００は、少なくとも、プロセッサ１０５Ａ～１０５Ｎ、入力／出力（input/output、Ｉ／Ｏ）インターフェイス１２０、バス１２５、メモリコントローラ１３０、ネットワークインターフェイス１３５、メモリデバイス１４０、ディスプレイコントローラ１５０、及び、ディスプレイ１５５を含む。他の実施形態では、コンピューティングシステム１００は、他の構成要素を含み、及び／又は、コンピューティングシステム１００は、別様に配置される。プロセッサ１０５Ａ～１０５Ｎは、システム１００に含まれる任意の数のプロセッサを表す。

【0009】

一実施形態では、プロセッサ１０５Ａは、中央処理ユニット（central processing unit、ＣＰＵ）等の汎用プロセッサである。この実施形態では、プロセッサ１０５Ａは、システム１００内の他のプロセッサの１つ以上と通信するための及び／又はそれらのプロセッサの１つ以上の動作を制御するためのドライバ１１０（例えば、グラフィックスドライバ）を実行する。一実施形態では、プロセッサ１０５Ｎは、データを処理し、ワークロードの並列処理を実行し、ディスプレイコントローラ１５０がディスプレイ１５５を駆動するためのピクセルをレンダリングし及び／又は他のワークロードを実行するグラフィックス処理ユニット（graphics processing unit、ＧＰＵ）等の高度並列アーキテクチャを有するデータ並列プロセッサである。

【0010】

ＧＰＵは、ビデオゲームアプリケーション等のエンドユーザアプリケーションから必要とされるグラフィックス処理タスクを実行することができる。また、ＧＰＵは、グラフィックスに関連しない他のタスクを実行するためにもますます使用されている。システム１００に含まれ得る他のデータ並列プロセッサには、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）及び特定用途向け集積回路（application specific integrated circuit、ＡＳＩＣ）等が含まれる。いくつかの実施形態では、プロセッサ１０５Ａ～１０５Ｎは、複数のデータ並列プロセッサを含む。

【0011】

いくつかの実施形態では、プロセッサ１０５Ａ上で実行するアプリケーションは、グラフィックスアプリケーションプログラミングインターフェイス（graphics application programming interface、ＡＰＩ）を利用して、ユーザモードドライバ１１０（又は同様のＧＰＵドライバ）を呼び出す。一実施形態において、ユーザモードドライバ１１０は、表示可能なグラフィックス画像に１つ以上のグラフィックスプリミティブをレンダリングするために、ＧＰＵに１つ以上のコマンドを発行する。ユーザモードドライバ１１０にアプリケーションによって発行されたグラフィックス命令に基づいて、ユーザモードドライバ１１０は、グラフィックスのレンダリングを実施するためにＧＰＵの１つ以上の動作を指定する１つ以上のグラフィックスコマンドを生成する。いくつかの実施形態では、ユーザモードドライバ１１０は、ＣＰＵ上で動作しているアプリケーションの一部である。例えば、ユーザモードドライバ１１０は、ＣＰＵ上で動作しているゲームアプリケーションの一部であり得る。一実施形態では、ドライバ１１０がカーネルモードドライバである場合、ドライバ１１０は、ＣＰＵ上で動作しているオペレーティングシステム（operating system、ＯＳ）の一部である。

【0012】

メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎによってアクセス可能な任意の数及び種類のメモリコントローラを表す。メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎから分離されているものとして示されているが、これは、あくまで想定される一実施形態を表すことを理解されたい。他の実施形態では、メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎのうち１つ以上の中に埋め込むことができる。メモリコントローラ１３０は、任意の数及び種類のメモリデバイス１４０に結合される。

【0013】

メモリデバイス１４０は、メモリ及び／又は記憶素子を含む任意の数及び種類のデバイスを表す。例えば、メモリデバイス１４０内のメモリの種類は、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体ランダムアクセスメモリ（Ferroelectric Random Access Memory、ＦｅＲＡＭ）等を含む。メモリデバイス１４０は、アプリケーション用のプログラム命令の第１セット、ドライバ構成要素用のプログラム命令の第２セット等を含むことができるプログラム命令１４５を記憶する。代替的に、プログラム命令１４５又はその一部は、プロセッサ１０５Ａ及び／又はプロセッサ１０５Ｎの近くにあるメモリ又はキャッシュデバイスに記憶され得る。

【0014】

Ｉ／Ｏインターフェイス１２０は、任意の数及び種類のＩ／Ｏインターフェイス（例えば、周辺構成要素相互接続（peripheral component interconnect、ＰＣＩ）バス、ＰＣＩ－Ｅｘｔｅｎｄｅｄ（PCI-Extended、ＰＣＩ－Ｘ）、ＰＣＩＥ（ＰＣＩＥｘｐｒｅｓｓ）バス、ギガビットイーサネット（登録商標）（gigabit Ethernet、ＧＢＥ）バス、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ））を表す。様々な種類の周辺デバイス（図示せず）がＩ／Ｏインターフェイス１２０に結合される。かかる周辺デバイスには、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他の種類のゲームコントローラ、メディア記録デバイス、及び、外部記憶デバイス等が含まれる（ただし、これらに限定されない）。ネットワークインターフェイス１３５は、ネットワークにわたってネットワークメッセージを受信及び送信することができる。

【0015】

様々な実施形態では、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、ゲームコンソール、サーバ、ストリーミングデバイス、ウェアラブルデバイス、又は、様々な他の種類のコンピューティングシステム若しくはデバイスの何れかである。コンピューティングシステム１００の構成要素の数は、実施形態ごとに異なることに留意されたい。例えば、他の実施形態では、図１で示される数よりも多い又は少ない各構成要素が存在する。また、他の実施形態では、コンピューティングシステム１００は、図１に示されていない他の構成要素を含むことにも留意されたい。加えて、他の実施形態では、コンピューティングシステム１００は、図１に示される以外の他の方式で構造化される。

【0016】

図２に目を向けると、ＧＰＵ２００の一実施形態のブロック図が示されている。一実施形態では、コマンドプロセッサ２１０は、ホストプロセッサ（例えば、図１のプロセッサ１０５Ａ）から受信されたコマンドを処理する。また、コマンドプロセッサ２１０は、受信されたコマンドを実行するために、ＧＰＵ２００を正しい状態に設定する。様々な実施形態では、受信されたコマンドは、ＧＰＵ２００に、ビデオゲームアプリケーション、動画又は他のアプリケーションの様々なシーンをレンダリングさせることが意図されている。コマンドプロセッサ２１０から受信したコマンドに基づいて、ジオメトリエンジン２２０は、レンダリングされているシーンのトポロジ（例えば、点、線、三角形）及び接続性に従って、インデックスを処理する。例えば、一実施形態では、ジオメトリエンジン２２０は、三次元（３Ｄ）オブジェクトを表す四辺形プリミティブ又は三角形プリミティブに基づいて、メッシュを処理する。この例では、ジオメトリエンジン２２０は、固定関数演算を使用して（キャッシュ／メモリ２７５に記憶された）バッファから頂点を読み出し、メッシュジオメトリを形成し、パイプラインワークアイテムを生成する。

【0017】

ジオメトリエンジン２２０は、任意の数のシェーダプロセッサ入力（shader processor inputs、ＳＰＩ）２３０Ａ～２３０Ｎに結合され、その数は、実施形態に従って変化する。ＳＰＩ２３０Ａ～２３０Ｎは、ウェーブフロントを生成するのに十分なワークアイテムが受信されるまでワークアイテムを蓄積し、次いで、ＳＰＩ２３０Ａ～２３０Ｎは、それぞれ、計算ユニット２４０Ａ～２４０Ｎ上でウェーブフロントを起動する。実施形態に応じて、ウェーブフロントは、３２個のワークアイテム、６４個のワークアイテム、又は、何らかの他の数のワークアイテムを含むことができる。「ワークアイテム」及び「スレッド」という用語は、本明細書において互換的に使用することができることに留意されたい。

【0018】

計算ユニット２４０Ａ～２４０Ｎは、シェーダプログラムを実行して、ＳＰＩ２３０Ａ～２３０Ｎから受信したウェーブフロントを処理する。一実施形態では、ジオメトリフロントエンドが、シーンの三次元（３Ｄ）モデルを表すパッチ等の高次プリミティブに対して動作する頂点シェーダ及びハルシェーダを含む。この実施形態では、ジオメトリフロントエンドは、より高次のプリミティブからより低次のプリミティブを生成するシェーダに高次プリミティブを提供する。次いで、より低次のプリミティブは、ピクセルエンジンによって処理される前に複製、シェーディング及び／又は細分化される。ピクセルエンジンは、プリミティブに対してカリング、ラスタ化、深度テスト、カラーブレンディング等を実行して、表示のためのフラグメント又はピクセルを生成する。他の実施形態では、他の種類及び／又はシーケンスのシェーダが、パイプラインを横断する様々なウェーブフロントを処理するために用いられる。

【0019】

計算ユニット２４０Ａ～２４０Ｎは、シェーダプログラムの実行中にキャッシュ／メモリ２７５から読み出し、キャッシュ／メモリ２７５に書き込む。例えば、一実施形態では、ジオメトリエンジン２２０は、リングバッファ２８５に書き込まれる属性データを生成するシェーダを計算ユニット２４０Ａ～２４０Ｎ上で起動する。属性データは、頂点に関連付けられた任意の非位置データを含むことができる。例えば、属性データは、色、テクスチャ、半透明性、表面法線等を含むことができるが、これらに限定されない。後の時点で、計算ユニット２４０Ａ～２４０Ｎ上で起動されたピクセルシェーダは、リングバッファ２８５からの属性データを消費する。同じ属性データにアクセスする必要がある複数のピクセルが存在する可能性があり、したがって、属性データを破棄することができる場合を追跡するために、破棄エンジン２３５は、ピクセルシェーダからの割り当て解除を追跡する。属性の所定のブロックがそのコンシューマの全てによって消費されると、破棄エンジン２３５は、属性の所定のブロックのアドレス範囲を有する破棄コマンドをキャッシュ２７５に送信する。破棄コマンドの受信に応じて、キャッシュ２７５は、対応するデータを無効化し、他のキャッシュレベル及び／又はメモリへのダーティデータのライトバックを防止する。

【0020】

シェーダエクスポートユニット２５０Ａ～２５０Ｎが、計算ユニット２４０Ａ～２４０Ｎからの出力を管理し、プリミティブアセンブラ２６０Ａ～２６０Ｎ又はバックエンド２８０の何れかに出力を転送する。例えば、一実施形態では、シェーダエクスポートユニット２５０Ａ～２５０Ｎは、変換後に頂点の位置をエクスポートする。プリミティブアセンブラ２６０Ａ～２６０Ｎは、プリミティブにまたがる頂点を蓄積して接続し、プリミティブを、ラスタ化を実施するスキャンコンバータ２７０Ａ～２７０Ｎに渡す。プリミティブアセンブラ２６０Ａ～２６０Ｎは、視認可能ではないプリミティブのカリングも実施する。スキャンコンバータ２７０Ａ～２７０Ｎは、何れのピクセルがプリミティブによってカバーされるかを判定し、ピクセルデータをＳＰＩ２３０Ａ～２３０Ｎに転送し、次いで、ＳＰＩ２１０Ａ～２３０Ｎは、計算ユニット２４０Ａ～２４０Ｎ上でピクセルシェーダウェーブフロントを起動する。

【0021】

図３を参照すると、計算ユニット３００の一実施形態のブロック図が示されている。一実施形態では、計算ユニット３００は、少なくともＳＩＭＤ３１０Ａ～３１０Ｎ、シーケンサ３０５、命令バッファ３４０、及び、ローカルデータシェア（local data share、ＬＤＳ）３５０を含む。計算ユニット３００は、図を不明瞭にすることを避けるために図３に示されていない他の構成要素を含み得ることに留意されたい。一実施形態では、（図２の）計算ユニット２４０Ａ～２４０Ｎは、計算ユニット３００の構成要素を含む。

【0022】

一実施形態では、計算ユニット３００は、任意の数のウェーブフロント上でカーネルの命令を実行する。これらの命令は、命令バッファ３４０に記憶され、シーケンサ３０５によってＳＩＭＤ３１０Ａ～３１０Ｎ上での実行のためにスケジュールされる。一実施形態では、ウェーブフロントの幅は、ＳＩＭＤ３１０Ａ～３１０Ｎ内のレーン３１５Ａ～３１５Ｎ、３２０Ａ～３２０Ｎ、３２５Ａ～３２５Ｎ上内のレーンの数と一致する。ＳＩＭＤ３１０Ａ～３１０Ｎの各レーン３１５Ａ～３１５Ｎ、３２０Ａ～３２０Ｎ、３２５Ａ～３２５Ｎは、「実行ユニット」又は「処理要素」とも称され得る。

【0023】

一実施形態では、ＧＰＵ３００は、いくつかのワークアイテムを有するウェーブフロントのための複数の命令を受信する。ワークアイテムがＳＩＭＤ３１０Ａ～３１０Ｎ上で実行される場合、各ワークアイテムには、ベクトル汎用レジスタ（vector general purpose register、ＶＧＰＲ）３３０Ａ～３３０Ｎ、スカラ汎用レジスタ（scalar general purpose register、ＳＧＰＲ）３３５Ａ～３３５Ｎ、及び、ローカルデータシェア（local data share、ＬＤＳ）３５０の対応する部分が割り当てられる。「Ｎ」という文字は、本明細書において様々な構造の隣に表示される場合に、その構造についての任意の数の要素（例えば、任意の数のＳＩＭＤ３１０Ａ～３１０Ｎ）を概して示すことを意味することに留意されたい。加えて、「Ｎ」という文字を使用する図３内の異なる参照（例えば、ＳＩＭＤ３１０Ａ～３１０Ｎ及びレーン３１５Ａ～３１５Ｎ）は、等しい数の異なる要素が提供されることを示すように意図されていない（例えば、ＳＩＭＤ３１０Ａ～３１０Ｎの数は、レーン３１５Ａ～３１５Ｎの数と異なり得る）。

【0024】

図４に目を向けると、破棄エンジン４３０の一実施形態のブロック図が示されている。図４に示されるように、破棄エンジン４３０は、ピクセルシェーダ４１０及びキャッシュ４２０に結合されている。ピクセルシェーダ４１０は、任意の数のピクセルシェーダを表す。実行中、ピクセルシェーダ４１０は、キャッシュ４２０から属性データ４２５を消費する。所定のピクセルシェーダ４１０が対応する属性データの消費を完了すると、所定のピクセルシェーダ４１０は、割り当て解除メッセージを破棄エンジン４３０に送信する。

【0025】

一実施形態では、破棄エンジン４３０は、テーブル４４０を使用してピクセルシェーダ４１０からの割り当て解除メッセージを追跡する。一実施形態では、テーブル４４０内の各エントリは、属性アドレス範囲フィールド４５０、最も古いピクセルシェーダコンシューマの識別子（identifier、ＩＤ）フィールド４６０、受信された割り当て解除の数フィールド４７０、ビンＩＤ４８０、及び、任意の数の他のフィールドを含む。他の実施形態では、テーブル４４０内の各エントリは、他の好適な様式で構造化され及び／又は他のフィールドを含むことができる。破棄エンジン４３０は、所定の属性範囲がそのコンシューマの全てによって消費されていると判定すると、破棄エンジン４３０は、所定の属性範囲に関する破棄コマンドをキャッシュ４２０に送信する。破棄コマンドの受信に応じて、キャッシュ４２０は、対応するデータを無効化し、ダーティデータのライトバックを防止し、これは、メモリ帯域幅使用量を低減するのに役立つ。

【0026】

図５を参照すると、破棄エンジンを動作させるための方法５００の一実施形態が示されている。説明の目的で、この実施形態におけるステップ及び図６～図８のステップが順番に示されている。しかしながら、説明される方法の様々な実施形態では、記載された要素の１つ以上が、示されたものとは異なる順序で同時に実行されるか、又は、完全に省略されることに留意されたい。必要に応じて、他の追加の要素も実行される。本明細書に説明される様々なシステム又は装置の何れも、方法５００（及び、方法６００～８００）を実施するように構成されている。

【0027】

ジオメトリエンジンは、属性データを生成するシェーダを起動する（ブロック５０５）。属性データは、生成された後、１つ以上のキャッシュに記憶される（ブロック５１０）。後の時点で、属性データを消費するピクセルシェーダが起動される（ブロック５１５）。ピクセルシェーダは、属性データの部分を消費することに応じて、割り当て解除メッセージを破棄エンジンに送信する（ブロック５２０）。破棄エンジンは、割り当て解除メッセージを収集し、属性データの所定の部分がその対応するピクセルシェーダコンシューマの全てによって消費されている場合を追跡する（ブロック５２５）。破棄エンジンは、属性データの対応する部分をキャッシュから破棄することができる場合に破棄コマンドを１つ以上のキャッシュに送信する（ブロック５３０）。割り当て解除コマンドの受信に応じて、キャッシュは、対応する属性データを無効化し、より低いキャッシュレベル及び／又はメモリへのライトバックを防止する（ブロック５３５）。ブロック５３５の後、方法５００は終了する。

【0028】

図６に目を向けると、破棄テーブルを管理するための方法６００の一実施形態が示されている。破棄エンジン（例えば、図４の破棄エンジン４３０）が、ピクセルシェーダから属性データの所定の範囲に対する割り当て解除メッセージを受信する（ブロック６０５）。割り当て解除メッセージの受信に応じて、破棄エンジンは、属性データの所定の範囲に対応するエントリについて破棄テーブル（例えば、破棄テーブル４４０）を検索する（ブロック６１０）。一実施形態では、破棄エンジンは、所定の範囲のメモリアドレスに基づいて属性データの所定の範囲を検索する。別の実施形態では、破棄エンジンは、属性データの所定の範囲のピクセル座標に基づいて属性データの所定の範囲を検索する。

【0029】

次に、破棄エンジンは、一致するエントリの受信された割り当て解除の数フィールド内のカウントをインクリメントする（ブロック６１５）。また、破棄エンジンは、割り当て解除メッセージを生成したピクセルシェーダが、エントリの最も古いピクセルシェーダコンシューマフィールドにＩＤが記憶されているピクセルシェーダよりも古いかどうかを判定する（ブロック６２０）。一実施形態では、破棄エンジンは、ピクセルシェーダのＩＤに基づいて、何れのピクセルシェーダがより古いかを判定し、より小さいＩＤは、より大きいＩＤよりも古いと考えられる。別の実施形態では、破棄エンジンは、他の技術を使用して、ピクセルシェーダの相対年数（relative age）を判定する。

【0030】

割り当て解除メッセージを生成したピクセルシェーダが、エントリの最も古いピクセルシェーダコンシューマフィールドにＩＤが記憶されているピクセルシェーダよりも古い場合（条件ブロック６２５：「はい」）、ピクセルシェーダは、一致するエントリの最も古いピクセルシェーダコンシューマフィールド内の既存のＩＤを、割り当て解除メッセージを生成したピクセルシェーダのＩＤで置き換える（ブロック６３０）。そうではなく、割り当て解除メッセージを生成したピクセルシェーダが、そのＩＤがエントリの最も古いピクセルシェーダコンシューマフィールドに記憶されているピクセルシェーダよりも若い場合（条件ブロック６２５：「いいえ」）、一致するエントリの最も古いピクセルシェーダコンシューマフィールドは、同じままである（ブロック６３５）。ブロック６３０及び６３５の後、方法６００は終了する。

【0031】

図７を参照すると、破棄コマンドを生成するための方法７００の一実施形態が示されている。破棄エンジン（例えば、図４の破棄エンジン４３０）は、処理されている所定のビンについて、シェーダプロセッサ入力（shader processor input、ＳＰＩ）（例えば、図２のＳＰＩ２３０Ａ）からビン完了信号を受信する（ブロック７０５）。本明細書で使用される場合、「ビン」という用語は、画面空間の領域として定義される。一実施形態では、画面空間は、複数の矩形領域又はビンに分割される。破棄エンジンは、ビン完了信号からピクセルシェーダＩＤを取り出し、ピクセルシェーダＩＤは、ビンを処理した最も若いピクセルシェーダを識別する（ブロック７１０）。次に、破棄エンジンは、ビン完了信号から取り出されたピクセルシェーダＩＤよりも高いＩＤを有するピクセルシェーダに対応するエントリについて、破棄テーブル（例えば、破棄テーブル４４０）を検索する（ブロック７１５）。次いで、破棄エンジンは、ビン完了信号から取り出されたピクセルシェーダＩＤよりも高いＩＤを有するエントリに対応する属性データの範囲に対する破棄コマンドを生成及び伝達する（ブロック７２０）。ブロック７２０の後、方法７００は終了する。

【0032】

図８に目を向けると、破棄コマンドを生成するための方法８００の別の実施形態が示されている。破棄エンジン（例えば、図４の破棄エンジン４３０）は、プリミティブの所定のビンについて、シェーダプロセッサ入力（ＳＰＩ）（例えば、図２のＳＰＩ２３０Ａ）からビン完了信号を受信する（ブロック８０５）。破棄エンジンは、ビン完了信号からビンＩＤを取り出し、ビンＩＤは、ピクセルシェーダによって処理されたばかりのビンを識別する（ブロック８１０）。次に、破棄エンジンは、ビン完了信号から取り出されたビンＩＤに対応するエントリについて、破棄テーブル（例えば、破棄テーブル４４０）を検索する（ブロック８１５）。次いで、破棄エンジンは、ビン完了信号から取り出されたビンＩＤと同じビンＩＤを有するエントリに対応する属性データの範囲に対する破棄コマンドを生成及び伝達する（ブロック８２０）。ブロック８２０の後、方法８００は終了する。

【0033】

図９を参照すると、順序付けられた破棄コマンド生成スキームを実施するための方法９００の一実施形態が示されている。破棄エンジン（例えば、図４の破棄エンジン４３０）は、ピクセルシェーダごとに割り当て解除カウンタを維持する（ブロック９０５）。割り当て解除メッセージが破棄エンジンによって受信されると、破棄エンジンは、割り当て解除メッセージを生成した特定のピクセルシェーダに対応する所定の割り当て解除カウンタをインクリメントする（ブロック９１０）。破棄エンジンは、各ピクセルシェーダのカウンタを監視する（ブロック９１５）。ピクセルシェーダの全てについてカウンタが０より大きい場合（条件ブロック９２０：「はい」）、これは、全てのピクセルシェーダが属性データの最も古いグループで完了したことを意味し、したがって、破棄エンジンは、属性データの最も古いグループについての破棄コマンドを１つ以上のキャッシュに送信する（ブロック９２５）。次に、破棄エンジンは、各カウンタをデクリメントする（ブロック９３０）。ブロック９３０の後、方法９００は、ブロック９１０に戻る。属性データの最も古いグループが依然として使用中であることを示す、ピクセルシェーダの何れかについて、何れかのカウンタが依然として０である場合（条件ブロック９２０：「いいえ」）、方法９００は、ブロック９１０に戻る。

【0034】

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、本明細書に説明される方法及び／又は機構を実装する。例えば、汎用又は専用プロセッサによって実行可能なプログラム命令が企図される。様々な実施形態では、そのようなプログラム命令は、高レベルプログラミング言語によって表される。他の実施形態では、プログラム命令は、高レベルプログラミング言語からバイナリ、中間又は他の形態にコンパイルされる。代替的に、ハードウェアの挙動又は設計を説明するプログラム命令が書かれる。そのようなプログラム命令は、Ｃ等の高レベルプログラミング言語によって表される。代替的に、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（hardware design language、ＨＤＬ）が使用される。様々な実施形態では、プログラム命令は、様々な非一時的なコンピュータ可読記憶媒体の何れかに記憶される。記憶媒体は、プログラム実行のためにプログラム命令をコンピューティングシステムに提供するために、使用中にコンピューティングシステムによってアクセス可能である。一般的に言えば、そのようなコンピューティングシステムは、少なくとも１つ以上のメモリと、プログラム命令を実行するように構成された１つ以上のプロセッサと、を含む。

【0035】

上述した実施形態は、実施形態の非限定的な例にすぎないことを強調すべきである。上記の開示が十分に理解されると、多数の変形及び修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形及び修正を包含すると解釈されることが意図されている。

【図1】