特開2022-151634 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル　コーポレイションの特許一覧

特開2022-151634プロセッサ内の遅延を低減するテッセレーション再分配

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
3A
3B
3C
4
5A
5B
6
7
8
9A
9B
10
11A
11B
11C
11D
12
13A
13B
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022151634

(43)【公開日】2022-10-07

(54)【発明の名称】プロセッサ内の遅延を低減するテッセレーション再分配

(51)【国際特許分類】

G06T 15/00 20110101AFI20220929BHJP

G06T 17/20 20060101ALI20220929BHJP

【ＦＩ】

G06T15/00 501

G06T17/20

【審査請求】未請求

【請求項の数】25

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022021745

(22)【出願日】2022-02-16

(31)【優先権主張番号】17/211,095

(32)【優先日】2021-03-24

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＨＤＭＩ

３．Ｄｉｒｅｃｔ３Ｄ

４．ＯｐｅｎＧＬ

(71)【出願人】

【識別番号】593096712

【氏名又は名称】インテルコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】アマンディープシン

(72)【発明者】

【氏名】アーサーハンタージュニア

(72)【発明者】

【氏名】アビナヴシュリヴァスタヴァ

(72)【発明者】

【氏名】ラシュミアガルワル

(72)【発明者】

【氏名】モヒートチョラディア

【テーマコード（参考）】

5B080

【Ｆターム（参考）】

5B080AA13

5B080AA14

5B080AA15

5B080AA17

5B080BA00

5B080BA03

5B080CA01

5B080CA03

5B080CA04

5B080FA01

5B080FA02

5B080FA03

5B080FA08

5B080GA02

5B080GA22

(57)【要約】（修正有）

【課題】プロセッサ内の遅延を低減するテッセレーション再分配を行う。
【解決手段】処理システム１００において、プロセッサは、別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設ける。フロントエンドは、パッチカリング及び送信を実行し、バックエンドは、フロントエンドからのパッチ受信及びテッセレーションを実行し、再分配バスを用いてバックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設け、フロントエンドから並列に、分配のためにマークされたパッチを受信し、テッセレーション再分配エンジンはパッチを順に処理し、フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、テッセレーション再分配中央エンジンにより、同期バリアパケットをバックエンドへブロードキャストして、バックエンドのうちの１つにテッセレーション作業をローカルに処理させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

機器であって、
プロセッサを含み、前記プロセッサは、
別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設け、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行し、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設け、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信し、前記テッセレーション再分配中央エンジンは前記パッチ送信を順に処理し、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストして、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、
機器。

【請求項2】

前記同期バリアパケットは、前記同期バリアパケットに対応する前記バックエンドのうちの前記１つに、前記バックエンドのうちの前記１つに対応する中間記憶から前記テッセレーション作業を読み出させ、前記バックエンドのうちの前記１つは、前記中間記憶から読み出した前記テッセレーション作業に対して前記パッチテッセレーションを実行する、請求項１に記載の機器。

【請求項3】

前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、請求項２に記載の機器。

【請求項4】

前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、請求項２に記載の機器。

【請求項5】

前記フロントエンドは、ローカル処理のためにマークされたテッセレーション作業を前記中間記憶へプッシュする、請求項２に記載の機器。

【請求項6】

前記並列相互接続ジオメトリ固定機能ユニットの各々は、対応する中間記憶を含む、請求項１に記載の機器。

【請求項7】

前記並列相互接続ジオメトリ固定機能ユニットの各々は、前記対応するバックエンドの各々に前記中間記憶又は前記再分配バスのいずれからのテッセレーション作業を処理するかを示す制御信号を切り換える選択回路を含む、請求項６に記載の機器。

【請求項8】

前記テッセレーション再分配中央エンジンは、前記フロントエンドから受信した分配のためにマークされた前記パッチ送信をキューに入れ、キューに入れられた前記パッチ送信を順番に処理し、前記順番は前記並列相互接続ジオメトリ固定機能ユニットの決定されたシーケンスにより定められる、請求項１に記載の機器。

【請求項9】

前記プロセッサは、グラフィック処理ユニット（GPU）である、請求項１に記載の機器。

【請求項10】

前記機器は、単一命令複数データ（SIMD）マシン又は単一命令複数スレッド（SIMT）マシンのうちの少なくとも１つである、請求項１に記載の機器。

【請求項11】

方法であって、
プロセッサにより、別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設けるステップであって、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行する、ステップと、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて、前記並列相互接続ジオメトリ固定機能ユニットの前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設けるステップと、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信するステップであって、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理する、ステップと、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストするステップであって、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、ステップと、
を含む方法。

【請求項12】

【請求項13】

前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、請求項１２に記載の方法。

【請求項14】

前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、請求項１２に記載の方法。

【請求項15】

前記並列相互接続ジオメトリ固定機能ユニットの各々は、対応する中間記憶を含み、前記並列相互接続ジオメトリ固定機能ユニットの各々は、前記対応するバックエンドの各々に前記中間記憶又は前記再分配バスのいずれからのテッセレーション作業を処理するかを示す制御信号を切り換える選択回路を含む、請求項１１に記載の方法。

【請求項16】

前記テッセレーション再分配中央エンジンにより、前記フロントエンドから受信した分配のためにマークされた前記パッチ送信をキューに入れるステップと、
前記テッセレーション再分配中央エンジンにより、キューに入れられた前記パッチ送信を順番に処理するステップであって、前記順番は前記並列相互接続ジオメトリ固定機能ユニットの決定されたシーケンスにより定められる、ステップと、
を更に含む請求項１１に記載の方法。

【請求項17】

プロセッサ内の遅延を低減するテッセレーション再分配を行うシステムであって、
メモリと、複数のGPUの１つ以上のプロセッサと、を含み、
前記１つ以上のプロセッサは、
前記メモリに通信可能に結合され、
別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設け、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行し、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設け、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信し、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理し、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストして、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、
システム。

【請求項18】

【請求項19】

前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、請求項１７又は１８に記載のシステム。

【請求項20】

前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、請求項１７～１９のいずれかに記載のシステム。

【請求項21】

前記フロントエンドは、ローカル処理のためにマークされたテッセレーション作業を前記中間記憶へプッシュする、請求項１７～２０のいずれかに記載のシステム。

【請求項22】

前記並列相互接続ジオメトリ固定機能ユニットの各々は、対応する中間記憶を含む、請求項１７～２１のいずれかに記載のシステム。

【請求項23】

前記並列相互接続ジオメトリ固定機能ユニットの各々は、前記対応するバックエンドの各々に前記中間記憶又は前記再分配バスのいずれからのテッセレーション作業を処理するかを示す制御信号を切り換える選択回路を含む、請求項１７～２２のいずれかに記載のシステム。

【請求項24】

複数の命令を含む少なくとも１つの機械可読媒体であって、前記命令は、コンピューティング装置上で実行されることに応答して、該コンピューティング装置に請求項１１～１６のいずれか一項に記載の方法を実行させる、機械可読媒体。

【請求項25】

プロセッサ内の遅延を低減するテッセレーション再分配を行う機器であって、請求項１１～１６のいずれか一項に記載の方法を実行する手段を含む機器。

【発明の詳細な説明】

【技術分野】

【0001】

本願明細書は、概して、データ処理に関し、特に、プロセッサ内の遅延を低減するテッセレーション再分配に関する。

【背景技術】

【0002】

現在の並列グラフィックデータ処理は、例えば線形補間、テッセレーション、ラスタライズ、テクスチャマッピング、深さテスト、等のようなグラフィックデータに対する特定の演算を実行するために開発されたシステム及び方法を含む。伝統的に、グラフィックプロセッサは、グラフィックデータを処理するために固定機能計算ユニットを使用するが、最近は、グラフィック処理の部分はプログラマブルにされ、そのようなプロセッサは頂点及びフラグメントデータを処理する様々な演算をサポートできるようになっている。

【0003】

更に性能を向上するために、グラフィックプロセッサは、標準的に、グラフィックパイプラインの異なる部分を通じて可能な限り多くのグラフィックデータを並列に処理しようとするパイプラインのような処理技術を実施する。単一命令複数データ（single instruction, multiple data (SIMD)）又は単一命令複数スレッド（single instruction, multiple thread (SIMT)）アーキテクチャを有する並列グラフィックプロセッサは、グラフィックパイプラインの中で並列処理の量を最大化するよう設計される。SIMDアーキテクチャでは、複数の処理要素を有するコンピュータが、複数のデータポイントに対して同時に同じ演算を実行しようとする。SIMTアーキテクチャでは、並列スレッドのグループが、処理効率を向上するために、可能な限り頻繁にプログラム命令を同期して一緒に実行しようとする。

【0004】

グラフィック処理ユニット（graphics processing unit (GPU)）における競争力のあるジオメトリ処理性能を提供することは、標準的に、複数の、並列の、同時のジオメトリ処理固定機能パイプライン（geometry processing fixed-function pipeline (GPP)）に関連する。これらのGPP（時に、SMM、ジオメトリ及び設定固定機能パイプライン、又はプレテッセレーション及びポストテッセレーションパイプラインとも呼ばれる）は、OpenGLレンダリングパイプライン（rendering pipeline (RP)）におけるプログラマブルシェーダ及び固定機能ステージの混合を含む。コンピュータグラフィックでは、テッセレーションは、シーン内のオブジェクトを表す多角形のデータセット（頂点セットとも呼ばれる）を管理し、及びそれらをレンダリングのために適切な構造に分割するために使用される。リアルタイムグラフィックに対するテッセレーションの利点は、制御パラメータ（例えば、カメラ距離）に基づき３D多角形メッシュ及びそのシルエットエッジから詳細を動的に加算及び減算できることである。テッセレーションは、パッチプリミティブ（primitive）（「オブジェクト」とも呼ばれる）を細分化し、その頂点の頂点値を計算することを含む。テッセレーション制御シェーダは、テッセレーション係数を指定することにより、実行すべきテッセレーションの量を決定してよい。パッチ当たりの頂点の数は、アプリケーションレベルで定義されてよい。パッチオブジェクトは、三角形又は四角形（正方形）であってよい。

【0005】

テッセレーションは、入力パッチプリミティブに関連するパラメータドメインを三角形プリミティブに細分化し、（それらの三角形プリミティブの角と一致する）テッセレーション済みドメイン点における頂点を計算することを含む。入力パッチプリミティブは、三角形又は四角形パラメータドメインに関連してよい。テッセレーション制御シェーダは、パッチ毎にテッセレーション係数のセットを指定することにより、ドメインがどれ位細かく三角形に細分化されるかを決定してよい。テッセレーション評価シェーダは、続いて、入力パッチプリミティブに関連する入力制御点のセット及びテッセレーション済みドメイン点におけるドメインパラメータを用いて、頂点値を計算してよい。パッチプリミティブに関連する入力制御点の数は、アプリケーションレベルで定義されてよい。

【0006】

並列レンダリンググラフィックアーキテクチャにおける問題は、厳格な順序通りの３次元（３D）パイプラインレンダリングモデルを維持しながら、どれだけ並列GPP及びレンダリング及びラスタライズパイプライン（RP）を利用するかである。関連する主な課題は、アプリケーションにより供給される「オブジェクト空間」ジオメトリプリミティブの、レンダリング処理中のレンダリングされる画像への任意のマッピングである。ここで、「Sort-Middle」アーキテクチャが、業界により効果的に利用されている。この方式では、GPUは、先ず、並列GPPにより、完全なジオメトリ処理を、オブジェクト空間プリミティブの任意に分散したサブセット（「バッチ」）に対して実行する。結果として生じるスクリーン空間プリミティブは、次に正しくレンダリングされ（つまり、時間的にソートされ）、各PRの所有するスクリーン空間領域に基づき、ラスタライズクロスバーによりRPに分配される。

【0007】

設計においてGPPの数（N）を増大することは、標準的に、ラスタライズクロスバーへ出力するためにGPPが「その順番を待つ」間に、十分なGPP出力バッファを提供するために、各GPPの出力でより深いバッファを利用する。ここで、GPP出力バッファは、他の（N-１）個のGPPがそれらのバッチをクロスバーへ排出するのに要する平均時間に合わせてサイズが決定される可能性がある。十分なバッファが提供されない場合、「順番を待っている」GPPは排出されないために直ぐに停止になり、順番になるとGPP処理レート（これはクロスバーレートより遅い）でクロスバーへ出力するので、全体のジオメトリスループットは、単一GPPのスループットにまで低下する傾向がある。

【図面の簡単な説明】

【0008】

本実施形態の上記の特徴を詳細に理解できるように、上記で簡単に要約された実施形態のより具体的な説明は、実施形態を参照することによって得ることができ、そのいくつかは添付の図面に示される。しかしながら、添付の図面は、単に標準的な実施形態を示し、従って本願の範囲の限定と考えられるべきではないことに留意する。

【0009】

【図1】処理システムのブロック図である。

【0010】

【図2A】コンピューティングシステム及びグラフィックプロセッサを示す。

【図2B】コンピューティングシステム及びグラフィックプロセッサを示す。

【図2C】コンピューティングシステム及びグラフィックプロセッサを示す。

【図2D】コンピューティングシステム及びグラフィックプロセッサを示す。

【0011】

【図3A】は、追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図を示す。

【図3B】は、追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図を示す。

【図3C】は、追加のグラフィックプロセッサ及び計算アクセラレータアーキテクチャのブロック図を示す。

【0012】

【図4】グラフィックプロセッサのグラフィック処理エンジンのブロック図である。

【0013】

【図5A】グラフィックプロセッサコアの中で利用される処理要素のアレイを含むスレッド実行ロジックを示す。

【図5B】グラフィックプロセッサコアの中で利用される処理要素のアレイを含むスレッド実行ロジックを示す。

【0014】

【図6】追加の実行ユニットを示す。

【0015】

【図7】グラフィックプロセッサ命令フォーマットを示すブロック図である。

【0016】

【図8】追加グラフィックプロセッサアーキテクチャのブロック図である。

【0017】

【図9A】グラフィックプロセッサコマンドフォーマット及びコマンドシーケンスを示す。

【図9B】グラフィックプロセッサコマンドフォーマット及びコマンドシーケンスを示す。

【0018】

【図10】データ処理システムの例的なグラフィックソフトウェアアーキテクチャを示す。

【0019】

【図11A】IPコア開発システムを示すブロック図である。

【0020】

【図11B】集積回路パッケージ組立体の断面側面図を示す。

【0021】

【図11C】基板（例えば、基本ダイ）に接続されるハードウェアロジックチップレットの複数のユニットを含むパッケージ組立体を示す。

【0022】

【図11D】相互交換可能なチップレットを含むパッケージ組立体を示す。

【0023】

【図12】例示的なシステムオンチップ集積回路を示すブロック図である。

【0024】

【図13A】SoC内で使用するための例示的なグラフィックプロセッサを示すブロック図である。

【図13B】SoC内で使用するための例示的なグラフィックプロセッサを示すブロック図である。

【0025】

【図14】実施形態による、遅延を低減するテッセレーション再分配のための固定機能テッセレーションステージを有する集積回路グラフィックプロセッサを示すブロック図である。

【0026】

【図15】実施形態による、遅延を低減するテッセレーション再分配のためのテッセレーションエンジンを有するテッセレーション再分配システムを示すブロック図である。

【0027】

【図16】プロセッサ内の遅延を低減するテッセレーション再分配のための方法の実施形態を示すフロー図である。

【0028】

【図17】プロセッサ内の遅延を低減するテッセレーション再分配を実行するテッセレーションエンジンフロントエンド（TEFE）のための方法の実施形態を示すフロー図である。

【0029】

【図18】プロセッサ内の遅延を低減するテッセレーション再分配を実行するテッセレーションエンジンバックエンド（TEBE）のための方法の実施形態を示すフロー図である。

【発明を実施するための形態】

【0030】

グラフィック処理ユニット（graphics processing unit (GPU)）は、ホスト／プロセッサコアに通信可能に結合されて、例えば、グラフィック演算、機械学習演算、パターン分析演算、及び／又は種々の汎用GPU（general-purpose GPU (GPGPU)）機能を加速させる。GPUは、バス又は別の相互接続（例えば、PCIe又はNVLinkのような高速相互接続）を介してホストプロセッサ／コアに通信可能に結合されてよい。代替として、GPUは、コアと同じパッケージ又はチップに統合され、内部プロセッサバス／相互接続（つまり、パッケージ又はチップの内部にある）を介してコアに通信可能に結合されてよい。GPUが接続される方法に拘わらず、プロセッサコアは、作業記述子に含まれるコマンド／命令のシーケンスの形式で、GPUに作業を割り当ててよい。GPUは、次に、これらのコマンド／命令を効率的に処理するために、専用回路／ロジックを使用する。

【0031】

以下の説明では、より完全な理解を提供するために、多くの特定の詳細が説明される。しかしながら、当業者には、本願明細書に記載される実施形態がこれらの特定の詳細のうちの１つ以上を有しないで実行されてよいことが明らかである。他の例では、本発明の実施形態の詳細を不明瞭にすることを回避するために、よく知られた特徴は説明されない。

【0032】

＜システム概要＞
図１は、実施形態による処理システム１００のブロック図である。システム１００は、単一プロセッサのデスクトップシステム、マルチプロセッサのワークステーションシステム、又は多数のプロセッサ１０２又はプロセッサコア１０７を有するサーバシステムで使用されてよい。一実施形態では、システム１００は、ローカル又はワイドエリアネットワークへの有線又は無線接続を備えるモノのインターネット（ＩｏＴ）内のような、モバイル、ハンドヘルド、又は埋め込み型装置で使用するためのシステムオンチップ（system-on-a-chip：SoC）集積回路の中に組み込まれた処理プラットフォームである。

【0033】

一実施形態では、システム１００は、サーバに基づくゲームプラットフォーム、ゲーム及びメディアコンソールを含むゲームコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソール、又はオンラインゲームコンソールを含み、それに結合され、又はその中に統合され得る。幾つかの実施形態では、システム１００は、携帯電話機、スマートフォン、タブレットコンピューティング装置、又は低い内部記憶容量を備えるラップトップのようなモバイルインターネット接続装置の部分である。処理システム１００は、現実世界の視覚、聴覚、又は触覚経験を補強するために、或いはテキスト、音声、グラフィック、ビデオ、ホログラフ画像又はビデオ、又は触覚フィードバックを提供するために、視覚、聴覚又は触覚出力を提供する拡張現実（AR）又は仮想現実（VR）機能により拡張された、スマートウォッチウェアラブル装置、スマート眼鏡又は衣服のようなウェアラブル装置、他の拡張現実（AR）装置又は他の仮想現実（VR）装置も含み、それに結合され、又はその中に統合され得る。幾つかの実施形態では、処理システム１００は、テレビジョン又はセットトップボックスを含み又はその部分である。一実施形態では、システム１００は、バス、トラクター、トレーラー、自動車、モータ又は電動自転車、飛行機又はグライダー（又はそれらの任意の組み合わせ）のような自動走行車両を含み、それに結合され、又はその中に統合され得る。自動走行車両は、システム１００を使用して、車両の周囲の検知された環境を処理してよい。

【0034】

幾つかの実施形態では、１つ以上のプロセッサ１０２は、それぞれ、実行されるとシステム又はユーザソフトウェアのための動作を実行する命令を処理する１つ以上のプロセッサコア１０７を含む。幾つかの実施形態では、１つ以上のプロセッサコア１０７のうちの少なくとも１つは、特定命令セット１０９を処理するよう構成される。幾つかの実施形態では、命令セット１０９は、CISC（Complex Instruction Set Computing）、RISC（Reduced Instruction Set Computing）、又はＶＬＩＷ（Very Long Instruction Word）による計算を実現してよい。１つ以上のプロセッサコア１０７は、他の命令セットのエミュレーションを促進するための命令を含み得る異なる命令セット１０９を処理してよい。プロセッサコア１０７は、DSP（Digital Signal Processor）のような他の処理装置も含んでよい。

【0035】

幾つかの実施形態では、プロセッサ１０２は、キャッシュメモリ１０４を含む。アーキテクチャに依存して、プロセッサ１０２は、単一内部キャッシュまたは複数レベルの内部キャッシュを有し得る。幾つかの実施形態では、キャッシュメモリは、プロセッサ１０２の種々のコンポーネントの間で共有される。幾つかの実施形態では、プロセッサ１０２は、知られいているキャッシュコヒーレンシ技術を用いてプロセッサコア１０７の間で共有されてよい外部キャッシュ（例えば、レベル３（L３）キャッシュまたは最終レベルキャッシュ（Last Level Cache：LLC）（図示しない））も使用する。レジスタファイル１０６は、プロセッサ１０２に追加で含まれてよく、異なるデータ型を格納するための異なる種類のレジスタを含んでよい（例えば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタレジスタ）。幾つかのレジスタは、汎用レジスタであってよく、他のレジスタはプロセッサ１０２の設計に固有であってよい。

【0036】

幾つかの実施形態では、１つ以上のプロセッサ１０２は、プロセッサ１０２とシステム１００内の他のコンポーネントとの間でアドレス、データ、又は制御信号のような通信信号を送信するために１つ以上のインタフェースバス１１０に結合される。インタフェースバス１１０は、一実施形態では、DMI（Direct Media Interface）バスのバージョンのようなプロセッサバスであり得る。しかしながら、プロセッサバスは、DMIバスに限定されず、１つ以上の周辺機器相互接続バス（例えば、PCI、PCI Express）、メモリバス、又は他の種類のインタフェースバスを含んでよい。一実施形態では、プロセッサ１０２は、統合メモリ制御部１１６、及びプラットフォーム制御ハブ１３０を含む。メモリ制御部１１６は、メモリ装置とシステム１００の他のコンポーネントとの間の通信を促進し、一方で、プラットフォーム制御バス（platform controller hub：PCH）１３０は、ローカルI/Oバスを介してI/O装置への接続を提供する。

【0037】

メモリ装置１２０は、DRAM（dynamic random-access memory）装置、SRMA（static random-access memory）装置、フラッシュメモリ装置、位相変化メモリ装置、又はプロセスメモリとして機能するために適切な性能を有する何らかの他のメモリ装置であり得る。一実施形態では、メモリ装置１２０は、システム１００のシステムメモリとして動作し、１つ以上のプロセッサ１０２がアプリケーション又はプロセスを実行するときに使用するために、データ１２２及びメモリ１２１を格納し得る。メモリ制御部１１６は、グラフィック及びメディア動作を実行するために、プロセッサ１０２内の１つ以上のグラフィックプロセッサ１０８と通信し得る任意的な外部グラフィックプロセッサ１１８とも結合する。幾つかの実施形態では、グラフィック、メディア、及び又は計算動作は、グラフィック、メディア、又は計算動作の専用セットを実行するよう構成され得るコプロセッサであるアクセラレータ１１２により支援されてよい。例えば、一実施形態では、アクセラレータ１１２は、機械学習又は計算動作を最適化するために使用される行列乗算アクセラレータである。一実施形態では、アクセラレータ１１２は、グラフィックプロセッサ１０８と共同して光線追跡動作を実行するために使用され得る光線追跡アクセラレータである。一実施形態では、外部アクセラレータ１１９は、アクセラレータ１１２ｎ代わりに又はそれと共同して使用されてよい。

【0038】

幾つかの実施形態では、ディスプレイ装置１１１は、プロセッサ１０２に接続できる。ディスプレイ装置１１１は、モバイル電子装置又はラップトップ装置又はディスプレイインタフェース（例えば、DisplayPort等）を介して取り付けられた外部ディスプレイ装置内のような、内部ディスプレイ装置の１つ以上であり得る。一実施形態では、ディスプレイ装置１１１は、仮想現実（VR）アプリケーション又は拡張現実（AR）アプリケーションで使用する立体ディスプレイのようなHMD（head mounted display）であり得る。

【0039】

幾つかの実施形態では、プラットフォーム制御ハブ１３０は、周辺機器がメモリ装置１２０及びプロセッサ１０２に高速I/Oバスを介して接続することを可能にする。I/O周辺機器は、限定ではないが、音声制御部１４６、ネットワーク制御部１３４、ファームウェアインタフェース１２８、無線トランシーバ１２６、タッチセンサ１２５、データ記憶装置１２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、NAND、３D NAND、３D XPoint、等）を含む。データ記憶装置１２４は、記憶インタフェース（例えば、ＳＡＴＡ）を介して、又は周辺機器コンポーネント相互接続バス（例えばPCI、PCI Express）のような周辺機器バスを介して、接続できる。タッチセンサ１２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含み得る。無線トランシーバ１２６は、Ｗｉ－Fｉトランシーバ、Bluetoothトランシーバ、又は３G、４G、５G、又はLTE（Long-Term Evolution）トランシーバのようなモバイルネットワークトランシーバであり得る。ファームウェアインタフェース１２８は、システムファームウェアとの通信を可能にし、例えばUEFI（unified extensible firmware interface）であり得る。ネットワーク制御部１３４は、有線ネットワークへのネットワーク接続を可能にできる。幾つかの実施形態では、高性能ネットワーク制御部（図示しない）は、インタフェースバス１１０と結合する。音声制御部１４６は、一実施形態では、マルチチャネル高分解能音声制御部である。幾つかの実施形態では、システム１００は、レガシー（例えば、PS/２（Personal System ２））をシステムに結合する光レガシーI/O制御部１４０を含む。プラットフォーム制御ハブ１３０は、キーボード及びマウス１４３の結合、カメラ１４４、又は他のUSB入力装置のような、１つ以上のUSB（Universal Serial Bus）制御部１４２接続入力装置にも接続できる。

【0040】

システム１００は、例示的に示され、限定的ではなく、異なる方法で構成される他の種類のデータ処理システムも使用されてよいことが理解される。例えば、メモリ制御部１１６及びプラットフォーム制御ハブ１３０のインスタンスは、外部グラフィックプロセッサ１１８のような個別外部グラフィックプロセッサに統合されてよい。一実施形態では、プラットフォーム制御ハブ１３０及び／又はメモリ制御部１１６は、１つ以上のプロセッサ１０２の外部にあってよい。例えば、システム１００は、プロセッサ１０２と通信するシステムチップセット内のメモリ制御ハブ及び周辺機器制御は部として構成されてよい、外部メモリ制御部１１６及びプラットフォーム制御ハブ１３０を含み得る。

【0041】

例えば、CPU、メモリ、及び他のコンポーネントのようなコンポーネントの配置された回路基板（「スレッド（sled）」）は、熱性能の向上のために設計される。幾つかの例では、プロセッサのような処理コンポーネントは、スレッドの上側に配置され、DIMMのような近くのメモリはスレッドの下側に配置される。この設計により提供される向上した気流の結果、コンポーネントは、標準的なシステムより、高い周波数及び高い電力レベルで動作し、それにより性能を向上する。さらに、スレッドは、ラック内の電力及びデータ通信ケーブルと盲目的に嵌合するよう構成され、それにより、それらの素早く取り外し、アップグレードし、再インストールし、及び／又は交換するための能力を向上する。同様に、プロセッサ、アクセラレータ、メモリ、及びデータ記憶ドライブのようなスレッド上に配置された個別コンポーネントは、互いにより遠くに離されることにより、簡単にアップグレードされるよう構成される。説明のための実施形態では、コンポーネントは、さらに、それらの真正さを証明するためにハードウェアアテステーション（attestation）機能を含む。

【0042】

データセンタは、Ethernet及びOmni-Pathを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（「ファブリック（fabric）」）を利用できる。スレッドは、標準的なより対線ケーブル（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６、等）より高い帯域幅及びより低い遅延を提供する光ファイバを介してスイッチに結合できる。高い帯域幅、低い遅延の相互接続及びネットワークアーキテクチャにより、データセンタは、使用中、メモリ、アクセラレータ（例えば、GPU、グラフィックアクセラレータ、FPGA、ASIC、ニューラルネットワーク、及び／又は人工知能アクセラレータ、等）、物理的に非集合型のデータ記憶ドライブのようなリソースをプールし、それらを計算リソース（例えば、プロセッサ）に提供してよく、計算リソースがプールされたリソースに、まるで該リソースがローカルにあるかのようにアクセスできるようにする。

【0043】

電力供給または電源は、電圧及び／又は電流をシステム１００又はここに記載の任意のコンポーネント又はシステムに提供できる。一例では、電源は、壁付きコンセントに差し込むためのAC-DC（交流から直流への）アダプタを含む。このようなAC電力は、継続可能なエネルギ（例えば、太陽電力）電源であり得る。一例では、電源は、外部AC-DC変換器のようなDC電源を含む。一例では、電力供給又は電源は、充電場の近くを介して充電する無線充電ハードウェアを含む。一例では、電源は、内部バッテリ、交流源、動きに基づく電源、太陽電池、又は燃料電池を含み得る。

【0044】

図２A～２Dは、ここに記載の実施形態により提供されるコンピューティングシステム及びグラフィックプロセッサを示す。本願明細書の任意の他の図の要素と同じ参照符号（又は名称）を有する図２A～２Dの要素は、本願明細書の他の場所に記載されたものと同様の任意の方法で動作し又は機能し得るが、このようなものに限定されない。

【0045】

図２Aは、１つ以上のプロセッサコア２０２A～２０２N、統合メモリ制御部２１４、及び統合グラフィックプロセッサ２０８を有するプロセッサ２００の一実施形態のブロック図である。プロセッサ２００は、破線ボックスで表される最大で追加コア２０２Nまでの及びそれを含む追加コアを含み得る。プロセッサコア２０２A～２０２Nの各々は、１つ以上の内部キャッシュユニット２０４A～２０４Nを含む。幾つかの実施形態では、各プロセッサコアは、１つ以上の共有キャッシュユニット２０６へのアクセスも有する。内部キャッシュユニット２０４A～２０４N及び共有キャッシュユニット２０６は、プロセッサ２００内のキャッシュメモリ階層構造を表す。キャッシュメモリ階層構造は、各プロセッサコア内の少なくとも１つのレベルの命令及びデータキャッシュ、及びレベル２（L２）、レベル３（L３）、レベル４（L４）、又は他のレベルのキャッシュのような１つ以上のレベルの共有中間キャッシュを含んでよい。ここで、外部メモリの前の最高レベルのキャッシュは、LLCとして分類される。幾つかの実施形態では、キャッシュコヒーレンシロジックは、種々のキャッシュユニット２０６及び２０４A～２０４Nの間でコヒーレンシを維持する。

【0046】

幾つかの実施形態では、プロセッサ２００は、１つ以上のバス制御ユニット２１６及びシステムエージェントコア２１０のセットも含んでよい。１つ以上のバス制御ユニット２１６は、１つ以上のPCI又はPCI Expressバスのような周辺機器バスのセットを管理する。システムエージェントコア２１０は、種々のプロセッサコンポーネントのために管理機能を提供する。幾つかの実施形態では、システムエージェントコア２１０は、種々の外部メモリ装置（図示しない）を管理するために、１つ以上の統合メモリ制御部２１４を含む。

【0047】

幾つかの実施形態では、プロセッサコア２０２A～２０２Nのうちの１つ以上は、同時マルチスレッドのサポートを含む。このような実施形態では、システムエージェントコア２１０は、マルチスレッド処理の間に、コア２０２A～２０２Nを調整し及び動作するためのコンポーネントを含む。システムエージェントコア２１０は、プロセッサコア２０２A～２０２N及びグラフィックプロセッサ２０８の電力状態を調整するためのロジック及びコンポーネントを含む電力制御ユニット（power control unit：PCU）を更に含んでよい。

【0048】

幾つかの実施形態では、プロセッサ２００は、グラフィック処理動作を実行するためにグラフィックプロセッサ２０８を更に含む。幾つかの実施形態では、グラフィックプロセッサ２０８は、共有キャッシュユニット２０６のセットと、１つ以上の統合メモリ制御部２１４を含むシステムエージェントコア２１０と、に結合する幾つかの実施形態では、システムエージェントコア２１０は、１つ以上の結合されたディスプレイへのグラフィックプロセッサ出力を駆動するために、ディスプレイ制御部２１１も含む。幾つかの実施形態では、ディスプレイ制御部２１１は、少なくとも１つの相互接続を介してグラフィックプロセッサと結合される個別モジュールも含んでよく、又はグラフィックプロセッサ２０８内に統合されてよい。

【0049】

幾つかの実施形態では、リングに基づく相互接続ユニット２１２が、プロセッサ２００の内部コンポーネントを結合するために使用される。しかしながら、ポイントツーポイント相互接続、切り替え相互接続、又は従来よく知られている技術を含む他の技術のような、代替の相互接続ユニットが使用されてよい。幾つかの実施形態では、グラフィックプロセッサ２０８は、I/Oリンク２１３を介してリング相互接続２１２に結合する。

【0050】

例的なI/Oリンク２１３は、種々のプロセッサコンポーネントとｅDRAMモジュールのような高性能内蔵メモリモジュール２１８との間の通信を促進するパッケージI/O相互接続を含む複数の種類のI/O相互接続のうちの少なくとも１つを表す。幾つかの実施形態では、プロセッサコア２０２A～２０２N及びグラフィックプロセッサ２０８の各々は、共有最終レベルキャッシュ（Last Level Cache）として内蔵メモリモジュール２１８を使用できる。

【0051】

幾つかの実施形態では、プロセッサコア２０２A～２０２Nは、同じ命令セットアーキテクチャを実行する同種コアである。別の実施形態では、プロセッサコア２０２A～２０２Nは、命令セットアーキテクチャの観点から異種であり、プロセッサコア２０２A～２０２Nのうちの１つ以上が第１命令セットを実行し、一方で、他のコアのうちの少なくとも１つが第１命令セットのサブセットまたは異なる命令セットを実行する。一実施形態では、プロセッサコア２０２A～２０２Nは、マイクロアーキテクチャの観点から異種であり、１つ以上のコアが相対的に高い電力消費結合を有し、１つ以上のパワーコアがより低い電力消費を有する。一実施形態では、プロセッサコア２０２A～２０２Nは、計算能力の観点から異種である。さらに、プロセッサ２００は、１つ以上のチップ上に、又は他のコンポーネントに加えて図示のコンポーネントを有するSoC集積回路として実装できる。

【0052】

図２Bは、本願明細書に記載の幾つかの実施形態による、グラフィックプロセッサコア２１９のハードウェアロジックのブロック図である。本願明細書の任意の他の図の要素と同じ参照符号（又は名称）を有する図２Bの要素は、本願明細書の他の場所に記載されたものと同様の任意の方法で動作し又は機能し得るが、このようなものに限定されない。グラフィックプロセッサコア２１９は、時に、コアスライスと呼ばれ、モジュール式グラフィックプロセッサ内の１又は複数のグラフィックコアであり得る。グラフィックプロセッサコア２１９は、１つのグラフィックコアスライスの例であり、本願明細書に記載のグラフィックプロセッサは、目標電力及び性能エンベロープに基づき複数のグラフィックコアスライスを含んでよい。各グラフィックプロセッサコア２１９は、汎用及び固定機能ロジックのモジュール式ブロックを含む、サブスライスとも呼ばれる複数のサブコア２２１A～２２１Fに結合された固定機能ブロック２３０を含み得る。

【0053】

幾つかの実施形態では、固定機能ブロック２３０は、例えば低性能及び／又は低電力グラフィックプロセッサ実装において、グラフィックプロセッサコア２１９内の全てのサブコアにより共有可能なジオメトリ／固定機能パイプライン２３１を含む。種々の実施形態では、ジオメトリ／固定機能パイプライン２３１は、３D固定機能パイプライン（例えば、後述する図３及び図４のような３Dパイプライン３１２）、ビデオフロントエンドユニット、スレッド生成部（spawner）及びスレッドディスパッチャ（dispatcher）、及び統合リターンバッファ（例えば、後述する図４の統合リターンバッファ４１８）を管理する統合リターンバッファマネジャを含む。

【0054】

一実施形態では、固定機能ブロック２３０は、グラフィックSoCインタフェース２３２、グラフィックマイクロコントローラ２３３、及びメディアパイプライン２３４も含む。グラフィックSoCインタフェース２３２は、グラフィックプロセッサコア２１９とシステムオンチップ集積回路内の他のプロセッサコアとの間のインタフェースを提供する。グラフィックマイクロコントローラ２３３は、スレッドディスパッチャ、スケジューリング、及び先取り（pre-emption）を含む、グラフィックプロセッサコア２１９の種々の機能を管理するよう構成可能なプログラマブルサブプロセッサである。メディアパイプライン２３４（例えば、FIG３及びFIG４のメディアパイプライン３１６）は、画像及びビデオデータを含むマルチメディアデータの復号、符号化、前処理、及び／又は後処理を促進するためのロジックを含む。メディアパイプライン２３４は、サブコア２２１A～２２１F内の計算又はサンプリングロジックへの要求により、メディア動作を実施する。

【0055】

一実施形態では、SoCインタフェース２３２は、グラフィックプロセッサコア２１９が汎用アプリケーションプロセッサコア（例えばCPU）、及び／又は、共有最終レベルキャッシュメモリ、システムRAM及び／又は内蔵オンチップまたはオンパッケージDRAMを含むメモリ階層構造要素を含むSoC内の他のコンポーネントと通信することを可能にする。SoCインタフェース２３２は、カメラ画像パイプラインのようなSoC内の固定機能装置と通信することも可能にし、グラフィックプロセッサコア２１９とSoC内のCPUとの間で共有され得るグローバルメモリアトミックの使用及び／又はその実装を可能にする。SoCインタフェース２３２は、グラフィックプロセッサコア２１９のための電力管理制御も実装でき、グラフィックコア２１９のクロックドメインとSoC内の他のクロックドメインとの間のインタフェースを可能にする。一実施形態では、SoCインタフェース２３２は、コマンド及び命令をグラフィックプロセッサ内の１つ以上のグラフィックコアの各々に提供するよう構成されるコマンドストリーマ及びグローバルスレッドディスパッチャからのコマンドバッファの受信を可能にする。コマンド及び命令は、メディア動作が実行されるとき、メディアパイプライン２３４に、又はグラフィック処理動作が実行されるとき、ジオメトリ及び固定機能パイプライン（例えば、ジオメトリ及び固定機能パイプライン２３１、ジオメトリ及び固定機能パイプライン２３７）に、ディスパッチされ得る。

【0056】

グラフィックマイクロコントローラ２３３は、グラフィックプロセッサコア２１９のための種々のスケジューリング及び管理タスクを実行するよう構成され得る。一実施形態では、グラフィックマイクロコントローラ２３３はサブコア２２１A～２２１F内の、実行ユニット（EU）アレイ２２１A～２２１F、２２４A～２２４F内の種々のグラフィック並列エンジンに対してグラフィック及び／又は計算作業負荷スケジューリングを実行できる。このスケジューリングモデルでは、グラフィックプロセッサコア２１９を含むSoCのCPUコア上で実行するホストソフトウェアは、複数のグラフィックプロセッサドアベル（doorbell）のうちの１つに作業負荷を提出でき、これは、適切なグラフィックエンジン上のスケジューリング動作を呼び出す。スケジューリング動作は、次に実行するべき作業負荷を決定し、作業負荷をコマンドストリーマに提出し、エンジン上で実行している既存の作業負荷を先取りし（pre-empting）、作業負荷の進捗を監視し、作業負荷が完了するとホストソフトウェアに通知することを含む。一実施形態では、グラフィックマイクロコントローラ２３３は、グラフィックプロセッサコア２１９に対して低電力又はアイドル状態を促進することもでき、グラフィックプロセッサコア２１９に、オペレーティングシステム及び／又はシステム上のグラフィックドライバソフトウェアと独立に低電力状態遷移に渡りグラフィックプロセッサコア２１９内のレジスタを節約し及び復旧する能力を提供する。

【0057】

グラフィックプロセッサコア２１９は、図示のサブコア２２１A～２２１Fより多くの又はそれより少ない、最大N個のモジュール式サブコアを有してよい。N個のサブコアの各セットについて、グラフィックプロセッサコア２１９は、共有機能ロジック２３５、共有及び／又はキャッシュメモリ２３６、ジオメトリ／固定機能パイプライン２３７、並びに種々のグラフィック及び計算処理動作を加速するための追加固定機能ロジック２３８も含み得る。共有機能ロジック２３５は、グラフィックプロセッサコア２１９内の各N個のサブコアにより共有可能な、FIG４の共有機能ロジック４２０に関連付けられたロジック（例えば、サンプラ、算術、及び／又はスレッド間通信ロジック）を含み得る。共有及び／又キャッシュメモリ２３６は、グラフィックプロセッサコア２１９内のN個のサブコア２２１A～２２１Fのセットのための最終レベルキャッシュになることができ、複数のサブコアによりアクセス可能な共有メモリとしても機能できる。ジオメトリ／固定機能パイプライン２３７は、固定機能ブロック２３０内のジオメトリ／固定機能パイプライン２３１の代わりに含まれ、同じ又は同様のロジックユニットを含むことができる。

【0058】

一実施形態では、グラフィックプロセッサコア２１９は、グラフィックプロセッサコア２１９による使用のための種々の固定機能加速ロジックを含み得る追加固定機能ロジック２３８を含む。一実施形態では、追加固定機能ロジック２３８は、位置のみのシェーディングで使用するための追加ジオメトリパイプラインを含む。位置のみのシェーディングでは、２つのジオメトリパイプライン：ジオメトリ／固定機能パイプライン２３８、２３１内の完全なジオメトリパイプラインと、追加固定機能ロジック２３８内に含まれてよい追加ジオメトリパイプラインであるカル（cull）パイプラインと、が存在する。一実施形態では、カルパイプラインは、完全なジオメトリパイプラインの細分化されたバージョンである。完全なパイプライン及びカルパイプラインは、同じアプリケーションの異なるインスタンスを実行でき、各インスタンスは別個のコンテキストを有する。位置のみのシェーディングは、破棄される三角形の長いカルランを隠すことができ、幾つかのインスタンスにおけるよりも早くシェーディングを完成させる。例えば、一実施形態では、追加固定機能ロジック２３８内のカルパイプラインロジックは、主アプリケーションと並列に位置シェーダを実行でき、通常、完全なパイプラインより速く結果を生成する。これは、カルパイプラインが、フレームバッファに対してピクセルのラスタライズ及びレンダリングを実行せずに、頂点の位置属性のみをフェッチしシェーディングするからである。カルパイプラインは、生成されたな結果を用いて、三角形がカリングされるか否かにかかわらず、全ての三角形の可視情報を計算することができる。完全なパイプラインは（これは、本例では、再生パイプラインと呼ばれてよい）、可視情報を消費して、カリングされた三角形をスキップして、最終的にラスタライズ段階に渡される可視三角形のみをシェーディングできる。

【0059】

一実施形態では、追加行程機能ロジック２３８は、機械学習トレーニングまたは推定の最適化を含む実装のために、固定機能行列乗算ロジックのような機械学習加速ロジックも含み得る。

【0060】

各グラフィックサブコア２２１A～２２１F内には、グラフィックパイプライン、メディアパイプライン、又はシェーダプログラムによる要求に応答して、グラフィック、メディア、及び計算動作を実行するために使用され得る実行リソースのセットが含まれる。グラフィックサブコア２２１A～２２１Fは、複数のEUアレイ２２２A～２２２F、２２４A～２２４F、スレッドディスパッチ及びスレッド間通信（thread dispatch and inter-thread communication：TD/IC）ロジック２２３A～２２３F、３D（例えばテクスチャ）サンプラ２２５A～２２５F、メディアサンプラ２０６A～２０６F、シェーダプロセッサ２２７A～２２７F、及び共有ローカルメモリ（shared local memory：SLM）２２８A～２２８Fを含む。EUアレイ２２２A～２２２F、２２４A～２２４Fはそれぞれ、グラフィック、メディア、又は計算シェーダプログラムを含むグラフィック、メディア、又は計算動作のサービス中に浮動小数点及び整数／固定小数点ロジック動作を実行可能な汎用グラフィック処理ユニットである複数の実行ユニットを含む。TD/ICロジック２２３A～２２３Fは、サブコア内の実行ユニットのために、ローカルスレッドディスパッチ及びスレッド制御動作を実行し、サブコアの実行ユニット上で実行しているスレッド間の通信を促進する。３Dサンプラ２２５A～２２５Fは、テクスチャ又は他の３Dグラフィック関連データをメモリへと読み出すことができる。３Dサンプラは、構成されたサンプル状態及び所与のテクスチャに関連付けられたテクスチャフォーマットに基づき、異なる方法でテクスチャデータを読み出すことができる。メディアサンプラ２０６A～２０６Fは、メディアデータに関連付けられた種類及びフォーマットに基づき、同様のリード動作を実行できる。一実施形態では、各グラフィックサブコア２２１A～２２１Fは、代替として、統合３D及びメディアサンプラを含み得る。サブコア２２１A～２２１Fの各々の中の実行ユニット上で実行しているスレッドは、各サブコア内の共有ローカルメモリ２２８A～２２８Fを利用して、スレッドグループ内で実行しているスレッドがオンチップメモリの共通プールを使用して実行できるようにできる。

【0061】

図２Cは、マルチコアグループ２４０A～２４０Nに構成されたグラフィック処理リソースの専用セットを含むグラフィック処理ユニット（GPU）２３９を示す。単一のマルチコアグループ２４０Ａのみの詳細が提供されるが、他のマルチコアグループ２４０B～２４０Nはグラフィック処理リソースの同じ又は同様のセットを備えられてよいことが理解される。

【0062】

図示のように、マルチコアグループ２４０Ａは、グラフィックコアのセット２４３、テンソルコアのセット２４４、及び光線追跡コアのセット２４５を含んでよい。スケジューラ／ディスパッチャ２４１は、種々のコア２４３、２４４、２４５での実行のためにグラフィックスレッドをスケジューリングしディスパッチする。レジスタファイルのセット２４２は、グラフィックスレッドを実行するとき、コア２４３、２４４、２４５により使用されるオペランド値を格納する。これらは、例えば、整数値を格納する整数レジスタ、浮動小数点値を格納する浮動小数点レジスタ、パックされたデータ要素（整数及び／又は浮動小数点データ要素）を格納するベクトルレジスタ、及びテンソル／行列値を格納するタイルレジスタを含んでよい。一実施形態では、タイルレジスタは、ベクトルレジスタの結合されたセットとして実装される。

【0063】

１つ以上の結合されたレベル１（L１）キャッシュ及び共有メモリユニット２４７は、テクスチャデータ、頂点データ、ピクセルデータ、光線データ、境界ボリュームデータ、等のようなグラフィックデータを各マルチコアグループ２４０Ａ内にローカルに格納する。１つ以上のテクスチャユニット２４７は、テクスチャマッピング及びサンプリングのようなテクスチャ動作を実行するためにも使用できる。マルチコアグループ２４０A～２４０Nの全部又はサブセットにより共有されるレベル２（L２）キャッシュ２５３は、複数の同時グラフィックスレッドのためのグラフィックデータ及び／又は命令を格納する。図示のように、L２キャッシュ２５３は、複数のマルチコアグループ２４０A～２４０Nに渡り共有されてよい。１つ以上のメモリ制御部２４８は、システムメモリ（例えばDRAM）及び／又は専用グラフィックメモリ（例えばGDDR６メモリ）であってよいメモリ２４９にGPU２３９を結合する。

【0064】

入力／出力（I/O）回路２５０は、デジタル信号プロセッサ（DSP）、ネットワーク制御部、又はユーザ入力装置のような１つ以上のI/O装置２５２にGPU２３９を結合する。オンチップ相互接続は、I/O装置２５２をGPU２３９及びメモリ２４９に結合するために使用されてよい。I/O回路２５０の１つ以上のI/Oメモリ管理ユニット（I/O memory management unit：IOMMU）２５１は、I/O装置２５２をシステムメモリ２４９に直接結合する。一実施形態では、IOMMU２５１は、仮想アドレスをシステムメモリ２４９内の物理アドレスにマッピングするために、ページテーブルの複数のセットを管理する。本実施形態では、I/O装置２５２、CPU２４６、及びGPU２３９は、同じ仮想アドレス空間を共有してよい。

【0065】

一実装では、IOMMU２５１は、仮想化をサポートする。この場合、IOMMU３７７０は、ゲスト／グラフィック仮想アドレスを、ゲスト／グラフィック物理アドレスにマッピングする第１ページテーブルセット、及びゲスト／グラフィック物理アドレスを（例えばシステムメモリ２４９内の）システム／ホスト物理アドレスにマッピングする第２ページテーブルセットを管理してよい。第１及び第２ページテーブルセットの各々の基本アドレスは、制御レジスタに格納され、コンテキストスイッチでスワップアウトされてよい（例えば、その結果、新しいコンテキストが、関連するページテーブルセットへのアクセスを提供される）。図２Cに図示しないが、コア２４３、２４４、２４５及び／又はマルチコアグループ２４０A～２４０Nの各々は、ゲスト仮想トランスレーションをゲスト物理トランスレーションへ、ゲスト物理トランスレーションをホスト物理トランスレーションへ、及びゲスト仮想トランスレーションをホスト物理トランスレーションへキャッシュするトランスレーションルックアサイドバッファ（translation lookaside buffer：TLB）を含んでよい。

【0066】

一実施形態では、CPU２４６、GPU２３９、及びI/O装置２５２は、単一の半導体チップ及び／又はチップパッケージに統合される。図示のメモリ２４９は、同じチップに統合されてよく、又はオフチップインタフェースを介してメモリ制御部２４８に結合されてよい。一実装では、メモリ２４９は、同じ仮想アドレス空間を他の物理システムレベルメモリとして共有するGDDR６メモリを含むが、は、本願明細書で議論原理はこの特定の実装に限定されない。

【0067】

一実施形態では、テンソルコア２４４は、深層学習動作を実行するために使用される基本的計算動作である行列演算を実行するよう特に設計された複数の実行ユニットを含む。例えば、同時行列乗算演算は、ニューラルネットワークトレーニング及び推定のために使用されてよい。テンソルコア２４４は、単一精度浮動小数点（例えば３２ビット）、半精度浮動小数点（例えば１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、半バイト（４ビット）を含む種々のオペランド精度を用いて、行列処理を実行してよい。一実施形態では、ニューラルネットワーク実装は、各レンダリングされたシーンの特徴を抽出し、場合によっては複数のフレームからの詳細を結合して、高品質な最終画像を構成する。

【0068】

深層学習実装では、並列行列乗算作業は、テンソルコア２４４上での実行のためにスケジューリングされてよい。ニューラルネットワークのトレーニングは、特に、相当数の行列ドット積演算を利用とする。N×N×N行列乗算の内積式を処理するために、テンソルコア２４４は、少なくともN個のドット積処理要素を含んでよい。行列乗算を開始する前に、１つの行列全体が、タイルレジスタにロードされ、第２行列の少なくとも１つの列がN個のサイクルの各サイクルでロードされる。各サイクルに、処理されるN個のドット積がある。

【0069】

行列要素は、１６ビットワード、８ビットバイト（例えばＩNＴ８）、及び４ビット半バイト（例えばＩNＴ４）を含む特定の実装に依存して、異なる精度で格納されてよい。異なる精度モードが、テンソルコア２４４について指定されて、最も効率的な精度が異なる作業負荷（例えば、バイト及び半バイトへの量子化に耐え得る推定作業負荷）に対して使用されることを保証してよい。

【0070】

一実施形態では、光線追跡コア２４５は、リアルタイム光線追跡及び非リアルタイム光線追跡実装の両方の光線追跡動作を加速する。特に、光線追跡コア２４５は、境界ボリューム階層構造（bounding volume hierarchy：BVH）を用いて光線トラバースを実行し及び光線とBVHボリューム内に閉じ込められたプリミティブとの間の交差（intersection）を識別する光線トラバース／交差回路を含む。光線追跡コア２４５は、（例えばＺバッファ又は同様の構成を用いて）深さテスト及びカリングを実行する回路も含んでよい。一実施形態では、光線追跡コア２４５は、少なくとも一部がテンソルコア２４４上で実行されてよい本願明細書に記載される画像ノイズ除去技術と共同して、トラバース及び交差動作を実行する。例えば、一実施形態では、テンソルコア２４４は、光線追跡コア２４５により生成されたフレームのノイズ除去を実行するために、深層学習ニューラルネットワークを実装する。しかしながら、CPU２４６、グラフィックコア２４３、及び／又は光線追跡コア２４５は、ノイズ除去及び／又は深層学習アルゴリズムの全部又は一部を実装してもよい。

【0071】

さらに、上述のように、ノイズ除去への分散型アプローチが利用されてよく、ここで、GPU２３９は、ネットワーク又は高速相互接続を介して他のコンピューティング装置に結合されるコンピューティング装置の中にある。本実施形態では、相互接続されたコンピューティング装置は、ニューラルネットワーク学習／トレーニングデータを共有して、システム全体が異なる種類の画像フレーム及び／又は異なるグラフィックアプリケーションのためにノイズ除去を実行するために学習する速度を向上する。

【0072】

一実施形態では、光線追跡コア２４５は、全てのBVHトラバース及び光線プリミティブ交差を処理して、グラフィックコア２４３が光線当たり数千個もの命令により過負荷になることを防ぐ。一実施形態では、各光線追跡コア２４５は、（例えばトラバース動作のために）境界ボックステストを実行する第１専用回路セットと、（例えばトラバースされた光線を交差する）光線三角形交差テストを実行する第２専用回路セットと、を含む。したがって、一実施形態では、マルチコアグループ２４０Ａは、単に光線プローブを出すことができ、光線追跡コア２４５は、光線トラバース及び交差を独立に実行してヒットしたデータ（例えば、ヒット、ヒット無し、複数のヒット、等）をスレッドコンテキストに返す。他のコア２４３、２４４は、他のグラフィック又は計算作業を実行するために自由にされ、その間、光線追跡コア２４５は、トラバース及び交差動作を実行する。

【0073】

一実施形態では、各光線追跡コア２４５は、BVHテスト動作を実行するためのトラバースユニットと、光線プリミティブ交差テストを実行する交差ユニットと、を含む。交差ユニットは、「ヒット」、「ヒット無し」、又は「複数ヒット」応答を生成し、適切なスレッドに提供する。トラバース及び交差動作の間、他のコア（例えば、グラフィックコア２４３及びテンソルコア２４４）の実行リソースは、他の形式のグラフィック作業を実行するために自由にされる。

【0074】

後述する１つの特定の実施形態では、ハイブリッドラスタライズ／光線追跡アプローチが使用され、作業がグラフィックコア２４３と光線追跡コア２４５との間で分散される。

【0075】

一実施形態では、光線追跡コア２４５（及び／又は他のコア２４３、２４４）は、DispatchRaysコマンド及び光線生成、最近接ヒット、任意のヒット、及びミスシェーダを含みオブジェクト毎にシェーダ及びテクスチャのセットの割り当てを可能にするMicrosoftのDirectX Ray Tracing（DXR）のような光線追跡命令セットのためのハードウェアサポートを含む。光線追跡コア２４５、グラフィックコア２４３、及びテンソルコア２４４によりサポートされ得る別の光線追跡プラットフォームは、Vulkan１．１．８５である。しかしながら、は、本願明細書で議論原理は、任意の特定の光線追跡ＩＳＡに限定されないことに留意する。

【0076】

一般に、種々のコア２４５、２４４、２４３は、光線生成、最近接ヒット、任意のヒット、光線プリミティブ交差、プリミティブ毎及び下位構造境界ボックス構成、ミス（miss）、ビジット（visit）、及び例外（exception）のための命令／関数を含む光線追跡命令セットをサポートしてよい。より具体的には、一実施形態は、以下の機能を実行するために光線追跡命令を含む。

【0077】

光線生成（Ray Generation）：光線生成命令は、ピクセル、サンプル、又は他のユーザ定義作業割り当て毎に、実行されてよい。

【0078】

最近接ヒット（Closest Hit）：最近接ヒット命令は、光線のシーン内のプリミティブとの最近接交差点の位置を特定するために実行されてよい。

【0079】

任意のヒット（Any Hit）：任意のヒット命令は、光線とシーン内のプリミティブとの間の複数の交差を識別して、場合によっては新しい最近接交差点を識別する。

【0080】

交差（Intersection）：交差命令は、光線プリミティブ交差テストを実行し、結果を出力する。

【0081】

プリミティブ毎の境界ボックス構成（Per-primitive Bounding box Construction）：この命令は、（例えば、新しいBVH又は他の加速データ構造を構築するとき）所与のプリミティブ又はプリミティブ群の周囲に境界ボックスを構築する。

【0082】

ミス（Miss）：光線がシーン内の全てのジオメトリ又はシーンの特定の領域を避ける（miss）ことを示す。

【0083】

ビジット（Visit）：光線がトラバースする子ボリュームを示す。

【0084】

例外（Exceptions）：種々の種類の例外処理（例えば、種々のエラー状態について呼び出される）を含む。

【0085】

図２Dは、本願明細書に記載の実施形態に従いグラフィックプロセッサ及び／又は計算アクセラレータとして構成できる汎用グラフィック処理ユニット（general purpose graphics processing unit：GPGPU）２７０のブロック図である。GPGPU２７０は、ホストプロセッサ（例えば１つ以上のCPU２４６）及びメモリ２７１、２７２と、１つ以上のシステム及び／又はメモリバスを介して相互接続できる。一実施形態では、メモリ２７１は、１つ以上のCPU２４６により共有されてよいシステムメモリであり、メモリ２７２は、GPGPU２７０に専用の装置メモリである。一実施形態では、GPGPU２７０内のコンポーネント及び装置メモリ２７２は、１つ以上のCPU２４６によりアクセス可能なメモリアドレスにマッピングされてよい。メモリ２７１及び２７２へのアクセスは、メモリ制御部２６８により促進されてよい。一実施形態では、メモリ制御部２６８は、内部直接メモリアクセス（direct memory access：DMA）制御部２６９を含み、又はその他の場合にDMA制御部により実行され得る動作を実行するためのロジックを含み得る。

【0086】

GPGPU２７０は、少なくとも一部がキャッシュメモリとしてパーティションされてもよいL２キャッシュ２５３、L１キャッシュ２５４、命令キャッシュ２５５、及び共有メモリ２５６を含む複数のキャッシュメモリを含む。GPGPU２７０は、複数の計算ユニット２６０A～２６０Nも含む。各計算ユニット２６０A～２６０Nは、ベクトルレジスタのセット２６１、スカラレジスタ２６２、ベクトル論理ユニット２６３、及びスカラ論理ユニット２６４を含む。計算ユニット２６０A～２６０Nは、ローカル共有メモリ２５６及びプログラムカウンタ２６６も含み得る。計算ユニット２６０A～２６０Nは、GPGPU２７０上で実行するカーネル又はシェーダプログラムの実行中に変化しない定数データを格納するために使用できる定数キャッシュ２６７に結合できる。一実施形態では、定数キャッシュ２６７は、スカラデータキャッシュであり、キャッシュされたデータは、スカラレジスタ２６２内に直接フェッチできる。

【0087】

動作中、１つ以上のCPU２４６は、アクセス可能なアドレス空間にマッピングされたコマンドをGPGPU２７０内のレジスタ又はメモリに書き込むことができる。コマンドプロセッサ２５７は、レジスタ又はメモリからコマンドを読み出し、これらのコマンドがGPGPU２７０内でどのように処理されるかを決定できる。スレッドディスパッチャ２５８は、次に、これらのコマンドを実行するために計算ユニット２６０A～２６０Nにスレッドをディスパッチするために使用できる。各計算ユニット２６０A～２６０Nは、他の計算ユニットと独立にスレッドを実行できる。さらに、各計算ユニット２６０A～２６０Nは、条件付き計算を独立して構成されることができ、計算結果を条件付きでメモリに出力できる。コマンドプロセッサ２５７は、提出されたコマンドが完了すると、１つ以上のCPU２４６に割り込みできる。

【0088】

図３A～３Cは、本願明細書に記載される実施形態により提供される追加のグラフィックプロセッサ及び計算アクセラレータのブロック図を示す。本願明細書の任意の他の図の要素と同じ参照符号（又は名称）を有する図２A～２Dの要素は、本願明細書の他の場所に記載されたものと同様の任意の方法で動作し又は機能し得るが、このようなものに限定されない。

【0089】

図３Aは、個別グラフィック処理ユニットであってよい又は複数の処理コア又は限定ではないがメモリ装置若しくはネットワークインタフェースのような他の半導体装置を統合されたグラフィックプロセッサであってよいグラフィックプロセッサ３００のブロック図である。幾つかの実施形態では、グラフィックプロセッサは、メモリマッピングされたI/Oインタフェースを介してグラフィックプロセッサ上のレジスタと、及びプロセッサメモリ内に置かれたコマンドと、通信する。幾つかの実施形態では、グラフィックプロセッサ３００は、メモリにアクセスするためにメモリインタフェース３１４を含む。メモリインタフェース３１４は、ローカルメモリ、１つ以上の内部キャッシュ、１つ以上の共有外部キャッシュ、及び／又はシステムメモリへのインタフェースであり得る。

【0090】

幾つかの実施形態では、グラフィックプロセッサ３００は、ディスプレイ出力データをディスプレイ装置３１８へと駆動するディスプレイ制御部３０２も含む。ディスプレイ制御部３０２は、ディスプレイのための１つ以上のオーバレイ平面のための及びビデオ又はユーザインタフェース要素の複数のレイヤの合成のためのハードウェアを含む。ディスプレイ装置３１８は、内部または外部ディスプレイ装置であり得る。一実施形態では、ディスプレイ装置３１８は、仮想現実（VR）ディスプレイ装置又は拡張現実（AR）ディスプレイ装置のような頭部搭載ディスプレイ装置である。幾つかの実施形態では、グラフィックプロセッサ３００は、限定ではないがMPEG２のようなMPEG（Moving Picture Experts Group）フォーマット、H.２６４／MPEG－４ AVC、H.２６５／HEVCのようなAVC（Advanced Video Coding）フォーマット、AOMedia（Alliance for Open Media）VP８、VP９、並びにSMPTE（Society of Motion Picture & Television Engineers）４２１M/VC-１、及びJPEGのようなJPEG（Joint Photographic Experts Group）フォーマット、及びMJPEG（Motion JPEG）フォーマットを含む１つ以上のメディア符号化フォーマットに、それらへ、又はそれらの間でメディアを符号化し、復号し、又は変換するためのビデオコーデックエンジン３０６を含む。

【0091】

幾つかの実施形態では、グラフィックプロセッサ３００は、例えばビット境界ブロック転送を含む２次元（２D）ラスタライズ動作を実行するためのブロック画像転送（block image transfer：BLIT）エンジン３０４を含む。しかしながら、一実施形態では、２Dグラフィック動作は、グラフィック処理エンジン（graphics processing engine：GPE）３１０の１つ以上のコンポーネントを用いて実行される。幾つかの実施形態では、GPE３１０は、３次元（３D）グラフィック動作及びメディア動作を含むグラフィック動作を実行するための計算エンジンである。

【0092】

幾つかの実施形態では、GPE３１０は、３Dプリミティブ形状（例えば、長方形、三角形、等）に作用する処理関数を用いて３次元画像及びシーンをレンダリングするような、３D動作を実行する３Dパイプライン３１２を含む。３Dパイプライン３１２は、要素内の種々のタスク及び／又は３D／メディアサブシステム３１５への実行スレッドの生成を実行するプログラマブル及び固定関数要素を含む。３Dパイプライン３１２は、メディア動作を実行するために使用できるが、GPE３１０の実施形態は、ビデオ後処理及び画像拡張のようなメディア動作を実行するために特に使用されるメディアパイプライン３１６も含む。

【0093】

幾つかの実施形態では、メディアパイプライン３１６は、ビデオコーデックエンジン３０６の代わりに又はそれを代表してビデオ復号加速化、ビデオデインターレース、及びビデオ符号化加速化のような１つ以上の特定メディア動作を実行する固定機能又はプログラマブル論理ユニットを含む。幾つかの実施形態では、メディアパイプライン３１６は、３D／メディアサブシステム３１５上で実行するためにスレッドを生成するスレッド生成ユニットを更に含む。生成されたスレッドは、３D／メディアサブシステム３１５に含まれる１つ以上のグラフィック実行ユニット上でメディア動作のための計算を実行する。

【0094】

幾つかの実施形態では、３D／メディアサブシステム３１５は、３Dパイプライン３１２及びメディアパイプライン３１６により生成されたスレッドを実行するロジックを含む。一実施形態では、パイプラインは、スレッド実行要求を、３D／メディアサブシステム３１５へ送信する。３D／メディアサブシステム３１５は、利用可能なスレッド実行リソースへの種々の要求を調停し及びディスパッチするスレッドディスパッチロジックを含む。実行リソースは、３D及びメディアスレッドを処理するために、グラフィック実行ユニットのアレイを含む。幾つかの実施形態では、３D／メディアサブシステム３１５は、スレッド命令及びデータのための１つ以上の内部キャッシュを含む。幾つかの実施形態では、サブシステムは、スレッド間でデータを共有するため及び出力データを格納するために、レジスタ及びアドレス可能メモリを含む共有メモリも含む。

【0095】

図３Bは、本願明細書に記載の実施形態による、タイルアーキテクチャを有するグラフィックプロセッサ３２０を示す。一実施形態では、グラフィックプロセッサ３２０は、グラフィックエンジンタイル３１０A～３１０D内に図３Aのグラフィック処理エンジン３１０の複数のインスタンスを有するグラフィック処理エンジンクラスタ３２２を含む。各グラフィックエンジンタイル３１０A～３１０Dは、タイル相互接続３２３A～３２３Fのセットを介して相互接続できる。各グラフィックエンジンタイル３１０A～３１０Dは、メモリ相互接続３２５A～３２５Dを介して、メモリモジュール又はメモリ装置３２６A～３２６Dにも接続できる。メモリ装置３２６A～３２６Dは、任意のグラフィックメモリ技術を使用できる。例えば、メモリ装置３２６A～３２６Dが、GDDR（graphics double data rate）メモリであってよい。メモリ装置３２６A～３２６Dは、一実施形態では、それらのそれぞれのグラフィックエンジンタイル３１０A～３１０Dと共にダイの上にある高帯域幅メモリ（high-bandwidth memory：HBM）モジュールである。一実施形態では、メモリ装置３２６A～３２６Dは、それらそれぞれのグラフィックエンジンタイル３１０A～３１０Dの一番上にスタックされ得るスタック型メモリ装置である。一実施形態では、各グラフィックエンジンタイル３１０A～３１０D及び関連するメモリ３２６A～３２６Dは、図１１B～１１Dにおいて詳述される基本ダイ又はベース基板に結合される個別チップレット（chiplet）上に存在する。

【0096】

グラフィックプロセッサ３２０は、メモリ装置３２６A～３２６Dが関連するグラフィックエンジンタイル３１０A～３１０Dに結合される不均一メモリアクセス（non-uniform memory access (NUMA)）システムにより構成されてよい。所与のメモリ装置は、それが直接接続されていないタイル以外のグラフィックエンジンタイルによりアクセスされてよい。しかしながら、メモリ装置３２６A～３２６Dへのアクセス遅延は、ローカルタイルにアクセスするとき最も小さくなり得る。一実施形態では、キャッシュコヒーレントNUMA（cache coherent NUMA (ccNUMA)）システムは、タイル相互接続３２３A～３２３Fを使用して、グラフィックエンジンタイル３１０A～３１０D内のキャッシュ制御部間の通信を可能にし、１つより多くのキャッシュが同じメモリ位置を格納しているとき、一貫したメモリイメージを保つ。

【0097】

グラフィック処理エンジンクラスタ３２２は、オンチップ又はオンパッケージファブリック相互接続３２４と接続できる。ファブリック相互接続３２４は、グラフィックエンジンタイル３１０A～３１０Dと、ビデオコーデック３０６及び１つ以上のコピーエンジン３０４のようなコンポーネントとの間の通信を可能にする。コピーエンジン３０４は、メモリ装置３２６A～３２６D及びグラフィックプロセッサ３２０の外部にあるメモリ（例えばシステムメモリ）から／へ／間でデータを移動させるために使用できる。ファブリック相互接続３２４は、グラフィックエンジンタイル３１０A～３１０Dを相互接続するためにも使用できる。グラフィックプロセッサ３２０は、任意で、外部ディスプレイ装置３１８との接続を可能にするために、ディスプレイ制御部３０２を含んでよい。グラフィックプロセッサは、グラフィック又は計算アクセラレータとして構成されてもよい。アクセラレータ構成では、ディスプレイ制御部３０２及びディスプレイ装置３１８は省略されてよい。

【0098】

グラフィックプロセッサ３２０は、ホストインタフェース３２８を介してホストシステムに接続できる。ホストインタフェース３２８は、グラフィックプロセッサ３２０、システムメモリ、及び／又は他のシステムコンポーネントの間の通信を可能にできる。ホストインタフェース３２８は、例えば、PCI Expressバス又は別の種類のホストシステムインタフェースであり得る。

【0099】

図３Cは、本願明細書に記載の実施形態による計算アクセラレータ３３０を示す。計算アクセラレータ３３０は、図３Bのグラフィックプロセッサ３２０とアーキテクチャ上の類似点を含み、計算加速化のために最適化されている。計算エンジンクラスタ３３２は、並列又はベクトルに基づく汎用計算演算のために最適化された実行ロジックを含む計算エンジンタイル３４０A～３４０Dのセットを含み得る。幾つかの実施形態では、計算エンジンタイル３４０A～３４０Dは、固定機能グラフィック処理ロジックを含まないが、一実施形態では、計算エンジンタイル３４０A～３４０Dのうちの１つ以上がメディア加速化を実行するためのロジックを含み得る。計算エンジンタイル３４０A～３４０Dは、メモリ相互接続３２５A～３２５Dを介してメモリ３２６A～３２６Dに接続できる。メモリ３２６A～３２６D及びメモリ相互接続３２５A～３２５Dは、グラフィックプロセッサ３２０におけるものと同様の技術であってよく、又は異なり得る。グラフィック計算エンジンタイル３４０A～３４０Dは、タイル相互接続３２３A～３２３Fを介して相互接続することもでき、ファブリック相互接続３２４と接続され及び／又はそれにより相互接続されてよい。一実施形態では、計算アクセラレータ３３０は、装置ワイドなキャッシュとして構成され得る大きなL３キャッシュ３３６を含む。計算アクセラレータ３３０は、図３Bのグラフィックプロセッサ３２０と同様の方法で、ホストインタフェース３２８を介してホストプロセッサ及びメモリとも接続できる。

【0100】

＜グラフィック処理エンジン＞
図４は、幾つかの実施形態によるグラフィックプロセッサのグラフィック処理エンジン４１０のブロック図である。一実施形態では、グラフィック処理エンジン（graphics processing engine：GPE）４１０は、図３Aに示したGPE３１０のバージョンであり、図３Bのグラフィックエンジンタイル３１０A～３１０Fを表してもよい。本願明細書の任意の他の図の要素と同じ参照符号（又は名称）を有する図４の要素は、本願明細書の他の場所に記載されたものと同様の任意の方法で動作し又は機能し得るが、このようなものに限定されない。例えば、図３Aの３Dパイプライン３１２及びメディアパイプライン３１６が示される。メディアパイプライン３１６は、GPE４１０の幾つかの実施形態では任意であり、GPE４１０内に明示的に含まれなくてよい。例えば、少なくとも一実施形態では、個別メディア及び／又は画像プロセッサがGPE４１０に結合される。

【0101】

幾つかの実施形態では、GPE４１０は、コマンドストリームを３Dパイプライン３１２及び／又はメディアパイプライン３１６に提供するコマンドストリーマ４０３に結合し又はそれを含む。幾つかの実施形態では、コマンドストリーマ４０３は、システムメモリ又は内部キャッシュメモリ及び共有キャッシュメモリのうちの１つ以上であり得るメモリに結合される。幾つかの実施形態では、コマンドストリーマ４０３は、メモリからコマンドを受信し、該コマンドを３Dパイプライン３１２及び／又はメディアパイプライン３１６へ送信する。コマンドは、３Dパイプライン３１２及びメディアパイプライン３１６のためにコマンドを格納するリングバッファからフェッチされた指示である。一実施形態では、リングバッファは、複数のコマンドのバッチを格納するバッチコマンドバッファを更に含み得る。３Dパイプライン３１２のためのコマンドは、限定ではないが、３Dパイプライン３１２のための頂点及びジオメトリデータ、及び／又はメディアパイプライン３１６のための画像データ及びメモリオブジェクトのような、メモリに格納されたデータへの参照も含み得る。３Dパイプライン３１２及びメディアサブシステム３１６は、それぞれのパイプライン内のロジックにより動作を実行することにより、マス亜１つ以上の実行スレッドをグラフィックコアアレイ４１４にディスパッチすることにより、コマンド及びデータを処理する。一実施形態では、グラフィックコアアレイ４１４は、グラフィックコアの１つ以上のブロック（例えば、グラフィックコア４１５Ａ、グラフィックコア４１５B）を含む。各ブロックは、１つ以上のグラフィックコアを含む。各グラフィックコアは、グラフィック及び計算動作を実行する汎用及びグラフィック専用実行ロジック、並びに、固定機能テクスチャ処理及び／又は機械学習及び人工知能加速ロジックを含むグラフィック実行リソースのセットを含む。

【0102】

種々の実施形態では、３Dパイプライン３１２は、命令を処理し及び実行スレッドをグラフィックコアアレイ４１４にディスパッチすることにより、頂点シェーダ、ジオメトリシェーダ、ピクセルシェーダ、フラグメントシェーダ、計算シェーダ、又は他のシェーダプログラムのような１つ以上シェーダプログラムを処理する固定機能及びプログラマブルロジックを含み得る。グラフィックコアアレイ４１４は、これらのシェーダプログラムを処理する際に使用するための実行リソースの統合されたブロックを提供する。グラフィックコアアレイ４１４のグラフィックコア４１５A～４１４B内の多目的実行ロジック（例えば、実行ユニット）は、種々の３D APIシェーダ言語に対するサポートを含み、複数のシェーダに関連付けられた複数の同時実行スレッドを実行できる。

【0103】

幾つかの実施形態では、グラフィックコアアレイ４１４は、ビデオ及び／又は画像処理のようなメディア機能を実行するために実行ロジックを含む。一実施形態では、実行ユニットは、グラフィック処理動作に加えて、並列汎用計算動作を実行する汎用ロジックを含む。汎用ロジックは、図１のプロセッサコア１０７又は図２Aにおけるようなコア２０２A～２０２N内の汎用ロジックと並列に又はそれと関連して、処理動作を実行できる。

【0104】

グラフィックコアアレイ４１４上で実行するスレッドにより生成された出力データは、統合リターンバッファ（URB）４１８内のメモリにデータを出力し得る。URB４１８は、複数のスレッドのデータを格納できる。幾つかの実施形態では、URB４１８は、グラフィックコアアレイ４１４上で実行する異なるスレッド間でデータを送信するために使用されてよい。幾つかの実施形態では、URB４１８は、グラフィックコアアレイ上のスレッドと共有機能ロジック４２０内の固定機能ロジックとの間の同期化のために更に使用されてよい。

【0105】

幾つかの実施形態では、グラフィックコアアレイ４１４は、スケーラブルである。その結果、アレイは可変数のグラフィックコアを含み、各グラフィックコアは、GPE４１０の目標パワー及び性能レベルに基づき可変数の実行ユニットを有する。一実施形態では、実行リソースは、動的にスケーラブルである。その結果、実行リソースは有効又は無効にされてよい。

【0106】

グラフィックコアアレイ４１４は、グラフィックコアアレイ内のグラフィックコアの間で共有される複数のリソースを含む共有機能ロジック４２０に結合する。共有機能ロジック４２０内の共有機能は、グラフィックコアアレイ４１４に専用補足機能を提供するハードウェア論理ユニットである。種々の実施形態では、共有機能ロジック４２０は、限定ではないが、サンプラ４２１、算術４２２、及びスレッド間通信（inter-thread communication：ITC）４２３ロジックを含む。さらに、幾つかの実施形態は、共有機能ロジック４２０内に１つ以上のキャッシュ４２５を実装する。

【0107】

共有機能は、少なくとも、所与の専用機能がグラフィックコアアレイ４１４内に含むために不十分である場合に実装される。代わりに、この専用機能の単一のインスタンス化が、共有機能ロジック４２０内に独立型エンティティとして実装され、グラフィックコアアレイ４１４内の実行リソースの間で共有される。グラフィックコアアレイ４１４の間で共有される、グラフィックコアアレイ４１４内に含まれる機能の正確なセットは、実施形態により変化する。幾つかの実施形態では、グラフィックコアアレイ４１４により広範囲に渡り使用される共有機能ロジック４２０内の特定の共有機能は、グラフィックコアアレイ４１４内の共有機能ロジック４１６に含まれてよい。種々の実施形態では、グラフィックコアアレイ４１４内の共有機能ロジック４１６は、共有機能ロジック４２０内の一部の又は全部のロジックを含み得る。一実施形態では、共有機能ロジック４２０内の全部の論理要素は、グラフィックコアアレイ４１４の共有機能ロジック４１６内で複製されてよい。一実施形態では、共有機能ロジック４２０は、グラフィックコアアレイ４１４内の共有機能ロジック４１６の方を選んで、取り除かれる。

【0108】

＜実行ユニット＞
図５A～５Bは、本願明細書に記載の実施形態によるグラフィックプロセッサコアの中で利用される処理要素のアレイを含むスレッド実行ロジック５００を示す。本願明細書の任意の他の図の要素と同じ参照符号（又は名称）を有する図５A～５Bの要素は、本願明細書の他の場所に記載されたものと同様の任意の方法で動作し又は機能し得るが、このようなものに限定されない。図５A～５Bは、図２Bの各サブコア２２１A～２２１Fと共に示されたハードウェアロジックを表してよいスレッド実行ロジック５００の概略を示す。図５Aは、汎用グラフィックプロセッサ内の実行ユニットを表し、図５Bは、計算アクセラレータ内で使用され得る実行ユニットを表す。

【0109】

図５Aに示すように、幾つかの実施形態では、スレッド実行ロジック５００は、シェーダプロセッサ５０２、スレッドディスパッチャ５０４、命令キャッシュ５０６、複数の実行ユニット５０８A～５０８Nを含むスケーラブル実行ユニットアレイ、サンプラ５１０、共有ローカルメモリ５１１、データキャッシュ５１２、及びデータポート５１４を含む。一実施形態では、スケーラブル実行ユニットアレイは、作業負荷の計算要件に基づき、１つ以上の実行ユニット（例えば、実行ユニット５０８Ａ、５０８B、５０８C、５０８D～５０８N－１、及び５０８Nのうちのいずれか）を有効又は無効にすることにより、動的にスケーリング可能である。一実施形態では、含まれるコンポーネントは、コンポーネントの各々にリンクする相互接続ファブリックを介して相互接続される。幾つかの実施形態では、スレッド実行ロジック５００は、命令キャッシュ５０６、データポート５１４、サンプラ５１０、及び実行ユニット５０８A～５０８Nのうちの１つ以上を通じて、システムメモリ又はキャッシュメモリのようなメモリへの１つ以上の接続を含む。幾つかの実施形態では、各実行ユニット（例えば５０８Ａ）は、各スレッドと並列に複数のデータ要素を処理しながら複数の同時ハードウェアスレッドを実行可能な独立型プログラマブル汎用計算ユニットである。種々の実施形態では、実行ユニット５０８A～５０８Nのアレイは、任意の数の個別実行ユニットを含むようにスケーラブルである。

【0110】

幾つかの実施形態では、実行ユニット５０８A～５０８Nは、主に、シェーダプログラムを実行するために使用される。シェーダプロセッサ５０２は、種々のシェーダプログラムを処理し、シェーダプログラムに関連付けられた実行スレッドをスレッドディスパッチャ５０４を介してディスパッチする。一実施形態では、スレッドディスパッチャは、グラフィック及びメディアパイプラインからのスレッド開始要求を調停し、実行ユニット５０８A～５０８N内の１つ以上の実行ユニット上に要求されたスレッドをインスタンス化するためのロジックを含む。例えば、ジオメトリパイプラインは、頂点、テッセレーション、又はジオメトリシェーダを、処理のためにスレッド実行ロジックにディスパッチできる。幾つかの実施形態では、スレッドディスパッチャ５０４は、実行シェーダプログラムからのランタイムスレッド生成要求も処理できる。

【0111】

幾つかの実施形態では、実行ユニット５０８A～５０８Nは、多くの標準的３Dグラフィックシェーダ命令のためのネイティブサポートを含む命令セットをサポートする。その結果、グラフィックライブラリ（例えば、Direct ３D及びOpenGL）からのシェーダプログラムは最小限の変換で実行される。実行ユニットは、頂点及びジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、ピクセルシェーダ、フラグメントシェーダ）、及び汎用処理（例えば、計算及びメディアシェーダ）をサポートする。実行ユニット５０８A～５０８Nの各々は、SIMD（multi-issue single instruction multiple data）実行が可能であり、マルチスレッド動作は、より高い遅延メモリアクセスにもかかわらず、効率的な実行環境を可能にする。各実行ユニット内の各ハードウェアスレッドは、専用高帯域幅レジスタファイル及び関連する独立スレッド状態を有する。実行は、整数、単及び倍精度浮動小数点演算、SIMDブランチ能力、論理演算、超越（transcendental）演算、及びだの多種多様な演算の可能なパイプラインに対するクロック毎の複数命令（multi-issue per clock）である。メモリ又は共有機能のうちの１つからのデータを待つ間、実行ユニット５０８A～５０８N内の従属ロジックは、必要なデータが返されるまで、待機中スレッドをスリープさせる。待機中スレッドがスリープしている間、ハードウェアリソースは、処理中の他のスレッドに捧げられてよい。例えば、頂点シェーダ動作に関連付けられた遅延の間、実行ユニットは、ピクセルシェーダ、フラグメントシェーダ、又は異なる頂点シェーダを含む別の種類のシェーダプログラムのために動作を実行できる。種々の実施形態は、SIMDの使用の代わりとして、又はSIMDの使用に加えて、SIMT（Single Instruction Multiple Thread）の使用による実行を使用するよう適用できる。SIMDコアまたは動作への言及は、SIMTにも適用でき、又はSIMTと組み合わせてSIMDに適用できる。

【0112】

実行ユニット５０８A～５０８Nの中の各実行ユニットは、データ要素のアレイで動作する。データ要素の数は、命令の「実行サイズ」又はチャネル数である。実行チャネルは、命令の中のデータ要素アクセス、マスキング、及びフロー制御の論理実行ユニットである。チャネルの数は、特定のグラフィックプロセッサの物理ALU（Arithmetic Logic Unit）又はFPU（Floating Point Unit）の数と独立であってよい。幾つかの実施形態では、実行ユニット５０８A～５０８Nは、整数及び浮動小数点データ型をサポートする。

【0113】

実行ユニット命令セットは、SIMD命令を含む。種々のデータ要素は、パックされたデータ型としてレジスタに格納でき、実行ユニットは、要素のデータサイズに基づき種々の要素を処理する。例えば、２５６ビット幅のベクトルに対して動作するとき、２５６尾とｔのベクトルはレジスタに格納され、実行ユニットは、４個の別個の５４ビットのパックされたデータ要素（QW（Quad-Word）サイズデータ要素）、８個の別個の３２ビットのパックされたデータ要素（DW（Double Word）サイズデータ要素）、１６個の別個の１６ビットのパックされたデータ要素（W（ Word）サイズデータ要素）、又は３２個の別個の８ビットのパックされたデータ要素（B（Byte）サイズデータ要素）としての該ベクトルに対して動作する。しかしながら、異なるベクトル幅及びレジスタサイズが可能である。

【0114】

一実施形態では、１つ以上の実行ユニットは、結合EUに共通であるスレッド制御ロジック（５０７A～５０７N）を有する結合実行ユニット５０９A～５０９Nへと結合できる。複数のEUは、EUグループへと結合できる。結合EUグループの中の各EUは、別個のSIMDハードウェアスレッドを実行するよう構成できる。結合EUグループの中のEUの数は、実施形態に従い変化し得る。さらに、種々のSIMD幅がEU毎に実行でき、限定ではないが、SIMD８、SIMD１６、及びSIMD３２を含む。各結合グラフィック実行ユニット５０９A～５０９Nは、少なくとも２つの実行ユニットを含む。例えば、結合実行ユニット５０９Ａは、第１EU５０８Ａ、第２EU５０８B、及び、第１EU５０８Ａ及び第２EU５０８Bに共通である第３スレッド制御ロジック５０７Ａを含む。スレッド実行ロジック５０７Ａは、結合グラフィック実行ユニット５０９Ａ上で実行されるスレッドを制御して、結合実行ユニット５０９A～５０９N内の各EUが共通命令ポインタレジスタを用いて実行できるようにする。

【0115】

１つ以上の内部命令キャッシュ（例えば５０６）は、実行ユニットのためのスレッド命令をキャッシュするために、スレッド実行ロジック５００に含まれる。幾つかの実施形態では、１つ以上のデータキャッシュ（例えば５１２）は、スレッド実行中にスレッドデータをキャッシュするために含まれる。実行ロジック５００上で実行しているスレッドは、共有ローカルメモリ５１１に、明示的に管理されるデータも格納できる。幾つかの実施形態では、サンプラ５１０は、３D動作のためのテクスチャサンプリング及びメディア動作のためのメディアサンプリングを提供するために含まれる。幾つかの実施形態では、サンプラ５１０は、サンプリングされたデータを実行ユニットに提供する前にサンプリング処理の間にテクスチャ又はメディアデータを処理するために、専用テクスチャ又はメディアサンプリング機能を含む。

【0116】

実行中、グラフィック及びメディアパイプラインは、スレッド開始要求をスレッド実行ロジック５００へスレッド生成及びディスパッチロジックを介して送信する。ジオメトリオブジェクトのグループが処理されピクセルデータへとラスタライズされると、シェーダプロセッサ５０２内のピクセルプロセッサロジック（例えば、ピクセルシェーダロジック、フラグメントシェーダロジック、等）は、出力情報を更に計算し、及び出力面（例えば、色バッファ、深さバッファ、ステンシルバッファ、等）に結果を書き込むために呼び出される。幾つかの実施形態では、ピクセルシェーダ又はフラグメントシェーダは、ラスタライズされたオブジェクトに渡り補間されるべき種々の頂点属性の値を計算する。幾つかの実施形態では、シェーダプログラム５０２内のピクセルプロセッサロジックは、次に、API（application programming interface）により供給されるピクセルまたはフラグメントシェーダプログラムを実行する。シェーダプログラムを実行するために、シェーダプロセッサ５０２は、スレッドディスパッチャ５０４により実行ユニット（例えば５０８Ａ）に、スレッドをディスパッチする。幾つかの実施形態では、シェーダプロセッサ５０２は、サンプラ５１０内のテクスチャサンプリングロジックを使用して、メモリに格納されたテクスチャマップの中のテクスチャデータにアクセスする。テクスチャデータ及び入力ジオメトリデータに対する算術演算は、各ジオメトリフラグメントのピクセル色データを計算し、又は将来の処理から１つ以上のピクセルを破棄する。

【0117】

幾つかの実施形態では、データポート５１４は、グラフィックプロセッサ出力パイプライン上の将来の処理のために処理済みデータをメモリへ出力するために、スレッド実行ロジック５００にメモリアクセスメカニズムを提供する。幾つかの実施形態では、データポート５１４は、データポートによるメモリアクセスのためにデータをキャッシュするために、１つ以上のキャッシュメモリ（例えば、データキャッシュ５１２）を含みまたはそれに結合する。

【0118】

一実施形態では、実行ロジック５００は、光線追跡加速化機能を提供できる光線追跡部５０５も含み得る。光線追跡部５０５は、光線生成のための命令／関数を含む光線追跡命令セットをサポートできる。光線追跡命令セットは、図２Cの光線追跡コア２４５によりサポートされる光線追跡命令セットと同様であり又は異なり得る。

【0119】

図５Bは、実施形態により実行ユニット５０８の例示的な内部の詳細を示す。グラフィック実行ユニット５０８は、命令フェッチユニット５３７、汎用レジスタファイルアレイ（general register file array：GRF）５２４、アーキテクチャレジスタファイルアレイ（architectural register file array：ARF）５２６、スレッド調停部５２２、送信ユニット５３０、ブランチユニット５３２、SIMD浮動小数点ユニット（floating point units：FPU）５３４、及び一実施形態では、専用レジスタSIMD ALU５３５のセットを含み得る。GRF５２４及びARF５２６は、汎用レジスタファイル、及びグラフィック実行ユニット５０８の中でアクティブであってよい各々の同時ハードウェアスレッドに関連付けられたアーキテクチャレジスタファイルのセットを含む。一実施形態では、スレッドアーキテクチャ状態毎に、ARF２５６が維持され、一方で、スレッド実行中に使用されるデータはGRF５２４に格納される。各スレッドの命令ポインタを含む、各スレッドの実行状態は、ARF２５６内のスレッド固有レジスタに保持され得る。

【0120】

一実施形態では、グラフィック実行ユニット５０８は、SMT（Simultaneous Multi-Threading）及びきめ細かいIMT（Interleaved Multi-Threading）の結合であるアーキテクチャを有する。アーキテクチャは、同時スレッドの目標数及び実行ユニット当たりのレジスタ数に基づき、設計時に微調整可能なモジュール式構成を有する。ここで、実行ユニットリソースは、複数の同時スレッドを実行するために使用されるロジックに渡り分割される。グラフィック実行ユニット５０８により実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドが各ハードウェアスレッドに割り当て可能である。

【0121】

一実施形態では、グラフィック実行ユニット５０８は、それぞれが異なる命令であってよい複数の命令を同時に発行（co-issue）できる。グラフィック実行ユニットスレッド５０８のスレッド調停部５２２は、送信ユニット５３０、ブランチユニット５３２、又はSIMD FPU５３４のうちの１つに、実行のために命令をディスパッチできる。各実行スレッドは、GRF５２４内の１２８個の汎用レジスタにアクセスできる。ここで、各レジスタは、３２ビットのデータ要素のSIMD８要素ベクトルとしてアクセス可能な、３２バイトを格納できる。一実施形態では、各実行ユニットスレッドは、GRF５２４内の４Ｋバイトへのアクセスを有するが、実施形態はこれに限定されず、他の実施形態では、より多くの又は少ないレジスタリソースが設けられてよい。一実施形態では、グラフィック実行ユニット５０８は、計算動作を独立して実行できる７個のハードウェアスレッドにパーティションされる。しかしながら、実行ユニット当たりのスレッド数も、実施形態に従い変化し得る例えば、一実施形態では、最大１６個のハードウェアスレッドがサポートされる。一実施形態では、７個のスレッドは４Ｋバイトにアクセスしてよく、GRF５２４は全部で２８Ｋバイトを格納できる。１６個のスレッドは４Ｋバイトにアクセスしてよく、GRF５２４は全部で６４Ｋバイトを格納できる。柔軟なアドレッシングモードは、効率的に幅広なレジスタを構築するために又はストライド（stride）された長方形ブロックデータ構造を表すために、レジスタが一緒にアドレスされることを許容できる。

【0122】

一実施形態では、メモリ動作、サンプラ動作、及び他のより長い遅延のシステム通信は、メッセージ通過送信ユニット５３０により実行される「送信」命令によりディスパッチされる。一実施形態では、ブランチ命令は、SIMダイバージェンス及び最終コンバージェンスを促進するために、専用ブランチユニット５３２へディスパッチされる。

【0123】

一実施形態では、グラフィック実行ユニット５０８は、浮動小数点演算を実行するために、１つ以上のSIMD浮動小数点ユニット（FPU）５３４を含む。一実施形態では、FPU５３４は、整数計算もサポートする。一実施形態では、FPU５３４は、最大Ｍ個の３２ビット浮動小数点（又は整数）演算をSIMD実行し、又は最大２Ｍ個の１６ビット整数又は１６ビット浮動小数点演算をSIMD実行できる。一実施形態では、FPUのうちの少なくとも１つは、高スループットの超越（transcendental）数学関数及び倍精度５４ビット浮動小数点をサポートするために、拡張計算能力を提供する。幾つかの実施形態では、８ビット整数SIMD ALU５３５のセットも存在し、機械学習計算に関連付けられた動作を実行するために特に最適化されてよい。

【0124】

幾つかの実施形態では、グラフィック実行ユニット５０８の複数のインスタンスのアレイは、グラフィックサブコアグループ（例えばサブスライス）の中でインスタンス化できる。拡張性のために、製品アーキテクチャは、サブコアグループ値の正確な数の実行ユニットを選択できる。一実施形態では、実行ユニット５０８は、複数の実行チャネルに跨がり命令を実行できる。更なる実施形態では、グラフィック実行ユニット５０８上で実行される各スレッドは、異なるチャネル上で実行される。

【0125】

図６は、一実施形態による追加実行ユニット６００を示す。実行ユニット６００は、例えば、図３Cのような計算エンジンタイル３４０A～３４０Dで使用するための計算最適化実行ユニットであってよいが、これは限定ではない。実行ユニット６００の変形が、図３Bのグラフィックエンジンタイル３１０A～３１０Dで使用されてもよい。一実施形態では、実行ユニット６００は、スレッド制御ユニット６０１、スレッド状態ユニット６０２、命令フェッチ／プリフェッチユニット６０３、及び命令復号ユニット６０４を含む。実行ユニット６００は、実行ユニット内のハードウェアスレッドに割り当て可能なレジスタを格納するレジスタファイル６０６を更に含む。実行ユニット６００は、送信ユニット６０７及びブランチユニット６０８を更に含む。一実施形態では、送信ユニット６０７及びブランチユニット６０８は、図５Bのグラフィック実行ユニット５０８の送信ユニット５３０及びブランチユニット５３２と同様に動作できる。

【0126】

実行ユニット６００は、複数の異なる種類の機能ユニットを含む計算ユニット６１０も含む。一実施形態では、計算ユニット６１０は、算術ロジックユニットのアレイを含むALUユニット６１１を含む。ALUユニット６１１は、６４ビット、３２ビット、及び１６ビット整数及び浮動小数点演算を実行するよう構成できる。整数及び浮動小数点演算は、同時に実行されてよい。計算ユニット６１０は、シストリック（systolic）アレイ６１２及び算術ユニット６１３も含み得る。シストリックアレイ６１２は、ベクトル又は他のデータ並列演算をシストリック方式で実行するために使用できるＷ幅及びD深さのデータ処理ユニットネットワークを含む。一実施形態では、シストリックアレイ６１２は、行列ドット積演算のような行列演算を実行するよう構成できる。一実施形態では、シストリックアレイ６１２は、１６ビット浮動小数点演算、及び８ビット及び４ビット整数演算をサポートする。一実施形態では、シストリックアレイ６１２は、機械学習動作を加速化するよう構成できる。このような実施形態では、シストリックアレイ６１２は、ｂ浮動小数点（bfloat）１６ビット浮動小数点フォーマットをサポートするよう構成できる。一実施形態では、算術ユニット６１３は、ALUユニット６１１より効率的且つ低電力の方法で、算術演算の固有サブセットを実行するために含まれ得る。算術ユニット６１３は、他の実施形態により提供されたグラフィック処理エンジンの共有機能ロジックの中に見られる算術ロジックの変形を含み得る（例えば、図４の共有機能ロジック４２０の算術ロジック４２２）。一実施形態では、算術ユニット６１３は、３２ビット及び６４ビット浮動小数点演算を実行するよう構成できる。

【0127】

スレッド制御ユニット６０１は、実行ユニット内のスレッドの実行を制御するためのロジックを含む。スレッド制御ユニット６０１は、実行ユニット６００内のスレッドの実行を開始し、停止し、及び先取り（preempt）するためのスレッド調停ロジックを含み得る。スレッド状態ユニット６０２は、実行ユニット６００上で実行するよう割り当てられたスレッドのスレッド状態を格納するために使用できる。実行ユニット６００内のスレッド状態を格納することは、これらのスレッドがブロックされ又はアイドルになったとき、スレッドの高速な先取りを可能にする。命令フェッチ／プリフェッチユニット６０３は、上位レベルの実行ロジック（例えば、図５Aの命令キャッシュ５０６）から命令をフェッチできる。命令フェッチ／プリフェッチユニット６０３は、現在実行中のスレッドの分析に基づき、命令キャッシュにロードされるべき命令に対するプリフェッチ要求も発行できる。命令復号ユニット６０４は、計算ユニットにより実行されるべき命令を復号するために使用できる。一実施形態では、命令復号ユニット６０４は、複雑な命令を成分マイクロ演算に復号するために２次デコーダとして使用できる。

【0128】

実行ユニット６００は、実行ユニット６００上で実行しているハードウェアスレッドにより使用可能なレジスタファイル６０６を更に含む。レジスタファイル６０６内のレジスタは、実行ユニット６００の計算ユニット６１０内の複数の同時スレッドを実行するために使用されるロジックに渡り分割できる。グラフィック実行ユニット６００により実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドが各ハードウェアスレッドに割り当て可能である。レジスタファイル６０６のサイズは、サポートされるハードウェアスレッドの数に基づき、実施形態により変化し得る。一実施形態では、レジスタの名称変更は、ハードウェアスレッドにレジスタを動的に割り当てるために使用されてよい。

【0129】

図７は、幾つかの実施形態によるグラフィックプロセッサ命令フォーマット７００を示すブロック図である。１つ以上の実施形態では、グラフィックプロセッサ実行ユニットは、複数のフォーマットの命令を有する命令セットをサポートする。実線ボックスは、通常、実行ユニット命令に含まれるコンポーネントを示し、破線は、任意の又は命令のサブセットにのみ含まれるコンポーネントを含む。幾つかの実施形態では、記載された及び図示された命令フォーマット７００は、命令が処理されると命令復号から生じるマイクロ演算と反対に、それらが実行ユニットに供給される命令であるという点で、マクロ命令である。

【0130】

幾つかの実施形態では、グラフィックプロセッサ実行ユニットは、本来、１２８ビット命令フォーマット７１０の命令をサポートする。６４ビットのコンパクト命令フォーマット７３０は、選択された命令、命令オプション、及びオペランドの数に基づき、幾つかの命令で利用可能である。本来の（native）１２８ビット命令フォーマット７１０は、全ての命令オプションへのアクセスを提供し、幾つかのオプション及び動作は、６４ビットフォーマット７３０において制限される。６４ビットフォーマット７３０で利用可能なネイティブ命令は、実施形態により変化する。幾つかの実施形態では、命令は、部分的にインデックスファイル７１３の中のインデックス値のセットを用いて小型化される。実行ユニットハードウェアは、インデックス値に基づき小型化テーブルのセットを参照し、小型化テーブルの出力を用いて、１２８ビット命令フォーマット７１０のネイティブ命令を再構成する。他のサイズ及びフォーマットの命令が使用できる。

【0131】

各フォーマットについて、命令オペコード７１２は、実行ユニットが実行すべき動作を定義する。実行ユニットは、各オペランドの複数のデータ要素に渡り、各命令を並行して実行する。例えば、加算（add）命令に応答して、実行ユニットは、テクスチャ要素またはピクチャ要素を表す各色チャネルに渡り同時加算演算を実行する。デフォルトで、実行ユニットは、オペランドの全てのデータチャネルに渡り、各命令を実行する。幾つかの実施形態では、命令制御フィールド７１４は、チャネル選択（例えば、予測）及びデータチャネル順（例えば、スウィズル）のような、特定の実行オプションに対する制御を有効にする。１２８ビット命令フォーマット７１０の命令では、実行サイズ（exec-size）フィールド７１６は、並列に実行されるデータチャネルの数を制限する。幾つかの実施形態では、実行サイズフィールド７１６は、６４ビット小型命令フォーマット７３０での使用のために利用できない。

【0132】

幾つかの実行ユニット命令は、２個のソースオペランド、src０７２０、src１７２２と、１個の宛先７１８と、を含む最大３個のオペランドを有する。幾つかの実施形態では、実行ユニットは、宛先のうちの１つが暗示される２重宛先命令をサポートする。データ操作命令は、第３ソースオペランド（例えば、SRC２７２４）を有することができ、命令オペコード７１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令と共に渡される中間（例えば、ハードコード）値であり得る。

【0133】

幾つかの実施形態では、１２８ビット命令フォーマット７１０は、例えば直接レジスタアドレスモード又は間接レジスタアドレスモードが使用されるかを指定するアクセス／アドレスモードフィールド７２６を含む。直接レジスタアドレスモードが使用されるとき、１つ以上のオペランドのレジスタアドレスは、命令の中のビットにより直接提供される。

【0134】

幾つかの実施形態では、１２８ビット命令フォーマット７１０は、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド７２６を含む。一実施形態では、アクセスモードは、命令のデータアクセスアライメントを定めるために使用される。幾つかの実施形態は、１６バイトに揃えられたアクセスモード及び１バイトに揃えられたアクセスモードを含むアクセスモードをサポートする。ここで、アクセスモードのバイトアライメントは、命令オペランドのアクセスアライメントを決定する。例えば、第１モードでは、命令は、送信元及び宛先オペランドのためにバイトに揃えられたアドレッシングを使用してよく、第２モードでは、命令は、全ての送信元及び宛先オペランドのために１６バイトに揃えられたアドレッシングを使用してよい。

【0135】

一実施形態では、アクセス／アドレスモードフィールド７２６のアドレスモード部分は、命令が直接又は間接アドレッシングを使用すべきかを決定する。直接レジスタアドレッシングモードが使用されるとき、命令の中のビットは、１つ以上のオペランドのレジスタアドレスを直接提供する。間接レジスタアドレッシングモードが使用されるとき、１つ以上のオペランドのレジスタアドレスは、アドレスレジスタ値及び命令の中のアドレス中間フィールドに基づき計算されてよい。

【0136】

幾つかの実施形態では、命令は、オペコード７１２のビットフィールドに基づきグループ化され、オペコードデコーダ７４０を簡略化する。８ビットオペコードでは、ビット４、５、及び６は、実行ユニットがオペコードのタイプを決定することを可能にする。図示の詳細なオペコードグループ化は単に一例である。幾つかの実施形態では、移動（move）及び論理（logic）オペコードグループ７２４は、データ移動及び論理命令（例えば、移動（mov）、比較（comp））を含む。幾つかの実施形態では、移動及び論理グループ７４２は、５個の最上位ビット（most significant bits：MSB）を共有し、移動（mov）命令は００００xxxxbの形式であり、論理命令は０００１xxxxbの形式である。フロー制御命令グループ７４４（例えば、call、ジャンプ（jmp））は、００１０xxxxb（例えば、０ｘ２０）の形式の命令を含む。種々雑多な命令グループ７４６は、００１１xxxxb（例えば、ox３０）の形式の同期命令（例えば、待機（wait）、送信）を含む。並列算術命令グループ７４８は、０１００xxxxb（例えば、０ｘ４０）の形式のコンポーネント関連の計算命令（例えば、加算、乗算（mul））を含む。並列算術グループ７４８は、データチャネルに渡り並列に、計算演算を実行する。ベクトル算術グループ７５０は、０１０１xxxxb（例えば、０x５０）の形式の計算命令（例えば、dp４）を含む。ベクトル算術グループは、ベクトルオペランドに対するドット積計算のような計算を実行する。図示のオペコードデコード７４０は一実施形態では、実行ユニットのどの部分が復号済み命令を実行するために使用されるかを決定するために使用できる。例えば、幾つかの命令は、シストリックアレイにより実行されるシストリック命令として設計されてよい。光線追跡命令（図示しない）のような他の命令は、実行ユニットのスライス又はパーティション内の光線追跡コア又は光線追跡ロジックへとルーティングできる。

【0137】

＜グラフィックパイプライン＞

図８は、グラフィックプロセッサ８００の別の実施形態のブロック図である。本願明細書の任意の他の図の要素と同じ参照符号（又は名称）を有する図８の要素は、本願明細書の他の場所に記載されたものと同様の任意の方法で動作し又は機能し得るが、このようなものに限定されない。

【0138】

幾つかの実施形態では、グラフィックプロセッサ８００は、ジオメトリパイプライン８２０、メディアパイプライン８３０、ディスプレイエンジン８４０、スレッド実行ロジック８５０、及びレンダ出力パイプライン８７０を含む。幾つかの実施形態では、グラフィックプロセッサ８００は、１つ以上の汎用処理コアを含むマルチコア処理システム内のグラフィックプロセッサである。グラフィックプロセッサは、１つ以上の制御レジスタ（図示しない）へのレジスタ書き込みにより、又はリング相互接続８０２を介してグラフィックプロセッサ８００へと発行されるコマンドにより、制御される。幾つかの実施形態では、リング相互接続８０２は、グラフィックプロセッサ８００を、他のグラフィックプロセッサ又は汎用プロセッサのような他の処理コンポーネントに結合する。リング相互接続８０２からのコマンドは、ジオメトリパイプライン８２０又はメディアパイプライン８３０の個別コンポーネントに命令を供給するコマンドストリーマ８０３により解釈される。

【0139】

幾つかの実施形態では、コマンドストリーマ８０３は、メモリから頂点データを読み出してコマンドストリーマ８０３により提供された得頂点処理コマンドを実行する頂点フェッチャー８０５の動作を指示する。幾つかの実施形態では、頂点フェッチャー８０５は、頂点データを頂点シェーダ８０７に提供する。頂点シェーダ８０７は、座標空間変換及び各頂点に照明（lighting）演算を実行する。幾つかの実施形態では、頂点フェッチャー８０５及び頂点シェーダ８０７は、スレッドディスパッチャ８３１を介して実行ユニット８５２A～８５２Bへ実行スレッドをディスパッチすることにより、頂点処理命令を実行する。

【0140】

幾つかの実施形態では、実行ユニット８５２A～８５２Bは、グラフィック及びメディア動作を実行するための命令セットを有するベクトルプロセッサのアレイである。幾つかの実施形態では、実行ユニット８５２A～８５２Bは、各アレイに専用の又はアレイ間で共有される付属L１キャッシュ８５１を有する。キャッシュは、データキャッシュ、命令キャッシュ、又は異なるパーティションにデータ及び命令を含むようパーティションされた単一のキャッシュとして構成できる。

【0141】

幾つかの実施形態では、ジオメトリパイプライン８２０は、３Dオブジェクトのハードウェアにより加速化されたテッセレーションを実行するテッセレーションコンポーネントを含む。幾つかの実施形態では、プログラマブルハル（hull）シェーダ８１１は、テッセレーション動作を構成する。プログラマブルドメインシェーダ８１７は、テッセレーション出力のバックエンド評価を提供する。テッセレータ８１３は、ハルシェーダ８１１の指示で動作し、ジオメトリパイプライン８２０への入力として提供される粗ジオメトリモデルに基づき詳細ジオメトリオブジェクトのセットを生成する専用ロジックを含む。幾つかの実施形態では、テッセレーションが使用されない場合、テッセレーションコンポーネント（例えば、ハルシェーダ８１１、テッセレータ８１３、及びドメインシェーダ８１７）は、バイパスできる。テッセレーションコンポーネントは、頂点シェーダ８０７から受信したデータに基づき動作できる。

【0142】

幾つかの実施形態では、完全なジオメトリオブジェクトは、実行ユニット８５２A～８５２Bへとディスパッチされた１つ以上のスレッドを介してジオメトリシェーダ８１９により処理でき、又はクリッパ８２９に直接進むことができる。幾つかの実施形態では、ジオメトリシェーダは、ジオメトリパイプラインの前の段階におけるような頂点又は頂点のパッチではなく、ジオメトリオブジェクト全体に対して動作する。テッセレーションが無効にされた場合、ジオメトリシェーダ８１９は、頂点シェーダ８０７から入力を受信する。幾つかの実施形態では、ジオメトリシェーダ８１９は、テッセレーションユニットが無効にされた場合、ジオメトリテッセレーションを実行するようジオメトリシェーダプログラムによりプログラム可能である。

【0143】

ラスタライズの前に、クリッパ８２９は、頂点データを処理する。クリッパ８２９は、固定機能クリッパ、又はクリッピング及びジオメトリ機能を有するプログラマブルクリッパであってよい。幾つかの実施形態では、レンダ出力パイプライン８７０内のラスタライザ及び深さテストコンポーネント８７３は、ジオメトリオブジェクトをピクセル毎の表現に変換するために、ピクセルシェーダをディスパッチする。幾つかの実施形態では、ピクセルシェーダロジックは、スレッド実行ロジック８５０に含まれる。幾つかの実施形態では、アプリケーションは、ラスタライザ及び深さテストコンポーネント８７３をバイパスし、ストリーム出力ユニット８２３を介してラスタライズされていない頂点データにアクセスできる。

【0144】

グラフィックプロセッサ８００は、相互接続バス、相互接続ファブリック、又はプロセッサの主張コンポーネントの間でデータ及びメッセージを渡すことを可能にする何らかの他の相互接続メカニズムを有する。幾つかの実施形態では、実行ユニット８５２A～８５２B及び関連する論理ユニット（例えば、L１キャッシュ８５１、サンプラ８５４、テクスチャキャッシュ８５８、等）は、メモリアクセスを実行し及びプロセッサのレンダ出力パイプラインと通信するために、データポート８５６を介して相互接続する。幾つかの実施形態では、サンプラ８５４、キャッシュ８５１、８５８、及び実行ユニット８５２A～８５２Ｂは、それぞれ、別個のメモリアクセスパスを有する。一実施形態では、テクスチャキャッシュ８５８は、サンプラキャッシュとしても構成され得る。

【0145】

幾つかの実施形態では、レンダ出力パイプライン８７０は、頂点に基づくオブジェクトを関連するピクセルに基づく表現に変換するラスタライザ及び深さテストコンポーネント８７３を含む。幾つかの実施形態では、ラスタライザロジックは、固定機能三角形及び線ラスタライズを実行するために、ウインドウ化／マスク化（windower／masker）ユニットを含む。関連するレンダキャッシュ８７８及び深さキャッシュ８７９は、幾つかの実施形態でも利用可能である。ピクセル動作コンポーネント８７７は、ピクセルに基づく演算をデータに対して実行する。しかしながら、幾つかのインスタンスでは、２D動作に関連付けられたピクセル動作（例えば、ブレンディング（blending）によるビットブロック画像転送）が、２Dエンジン８４１により実行され、又はオーバレイ表示面を用いてディスプレイ制御部８４３により表示のときに代用される。幾つかの実施形態では、共有L３キャッシュ８７５は、全てのグラフィックコンポーネントに利用可能であり、メインシステムメモリの使用を伴わずに、データの共有を可能にする。

【0146】

幾つかの実施形態では、グラフィックプロセッサメディアパイプライン８３０は、メディアエンジン８３７及びビデオフロントエンド８３４を含む。幾つかの実施形態では、ビデオフロントエンド８３４は、コマンドストリーマ８０３からパイプラインコマンドを受信する。幾つかの実施形態では、メディアパイプライン８３０は、個別コマンドストリーマを含む。幾つかの実施形態では、ビデオフロントエンド８３４は、コマンドをメディアエンジン８３７へ送信する前に、メディアコマンドを処理する。幾つかの実施形態では、メディアエンジン８３７は、スレッドディスパッチャ８３１を介してスレッド実行ロジック８５０へディスパッチするために、スレッドを生成するスレッド生成機能を含む。

【0147】

幾つかの実施形態では、グラフィックプロセッサ８００は、ディスプレイエンジン８４０を含む。幾つかの実施形態では、ディスプレイエンジン８４０は、プロセッサ８００の外部にあり、リング相互接続８０２、又は何らかの他の相互接続バス若しくはファブリックを介してグラフィックプロセッサに結合する。幾つかの実施形態では、ディスプレイエンジン８４０は、２Dエンジン８４１及びディスプレイ制御部８４３を含む。幾つかの実施形態では、ディスプレイエンジン８４０は、３Dパイプラインと独立に動作可能な専用ロジックを含む。幾つかの実施形態では、ディスプレイ制御部８４３は、ディスプレイ装置（図示しない）に結合する。ディスプレイ装置は、ラップトップコンピュータにおけるようなシステム内蔵ディスプレイ装置、又はディスプレイ装置コネクタを介して取り付けられる外部ディスプレイ装置であってよい。

【0148】

幾つかの実施形態では、ジオメトリパイプライン８２０及びメディアパイプライン８３０は、複数のグラフィック及びメディアプログラミングインタフェースに基づき動作を実行するよう構成可能であり、任意の１つのAPI（application programming interface）に固有ではない。幾つかの実施形態では、グラフィックプロセッサのためのドライバソフトウェアは、特定のグラフィック又はメディアライブラリに固有のAPI呼び出しを、グラフィックプロセッサにより処理可能なコマンドに変換する。幾つかの実施形態では、OpenGL（Open Graphics Library）、OpenCL（Open Computing Language）、及び／又はVulkanグラフィック及び計算APIのためのサポートが提供され、これら全てはＫｈｒｏｎｏｓＧｒｏｕｐから提供される。幾つかの実施形態では、Microsoft CorporationのDirect３Dライブラリのためのサポートも提供されてよい。幾つかの実施形態では、これらのライブラリの組み合わせがサポートされてよい。OpenCV（Open Source Computer Vision Library）のためのサポートも提供されてよい。互換性のある３Dパイプラインを有する将来のAPIも、作用来のAPIのパイプラインからグラフィックプロセッサのパイプラインへのマッピングを行うことができるならば、サポートされ得る。

【0149】

＜グラフィックパイプラインプログラミング＞
図９Aは、幾つかの実施形態によるグラフィックプロセッサコマンドフォーマット９００を示すブロック図である。図９Bは、一実施形態によるグラフィックプロセッサコマンドシーケンス９１０を示すブロック図である。図９Aの実線ボックスは、通常、グラフィックコマンドに含まれるコンポーネントを示し、破線は、任意の又はグラフィックコマンドのサブセットにのみ含まれるコンポーネントを含む。図９Aの例的なグラフィックプロセッサコマンドフォーマット９００は、クライアント９０２、コマンド演算コード（オペコード）９０４、及びコマンドのためのデータ９０６を識別するためのデータフィールドを含む。サブオペコード９０５及びコマンドサイズ９０８も、幾つかのコマンドに含まれる。

【0150】

幾つかの実施形態では、クライアント９０２は、コマンドデータを処理するグラフィック装置のクライアントユニットを指定する。幾つかの実施形態では、グラフィックプロセッサコマンドパーサは、各コマンドのクライアントフィールドを調べて、コマンドの更なる処理を条件付け（condition）、コマンドデータを適切なクライアントユニットへルーティングする。幾つかの実施形態では、グラフィックプロセッサクライアントユニットは、メモリインタフェースユニット、レンダユニット、２Dユニット、３Dユニット、及びメディアユニットを含む。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有する。コマンドがクライアントユニットにより受信されると、クライアントユニットは、オペコード９０４、及び存在する場合にはサブオペコード９０５を読み出し、実行すべき動作を決定する。クライアントユニットは、データフィールド９０６内の情報を用いてコマンドを実行する。幾つかのコマンドについては、コマンドのサイズを指定するために、明示的なコマンドサイズ９０８が期待される。幾つかの実施形態では、コマンドパーサは、コマンドオペコードに基づき、コマンドのうちの少なくとも幾つかのサイズを自動的に決定する。幾つかの実施形態では、コマンドは、ダブルワードの複数倍により揃えられる。他のコマンドフォーマットが使用できる。

【0151】

図９Bのフロー図は、例的なグラフィックプロセッサコマンドシーケンスを示す。幾つかの実施形態では、グラフィックプロセッサの一実施形態を特徴付けるデータ処理システムのソフトウェア又はファームウェアは、グラフィック動作のセットを設定し、実行し、及び終了するために示されるコマンドシーケンスのバージョンを使用する。例示的なコマンドシーケンスが、単に説明の目的で、示され説明され、実施形態は、これらの特定のコマンドに又はこのコマンドシーケンスに限定されない。さらに、コマンドは、コマンドシーケンスの中のコマンドのバッチとして発行されてよい。その結果、グラフィックプロセッサは、少なくとも部分的に同時にコマンドのシーケンスを処理する。

【0152】

幾つかの実施形態では、グラフィックプロセッサコマンドシーケンス９１０は、パイプラインフラッシュコマンド９１２により開始してよく、任意のアクティブなグラフィックパイプラインに、パイプラインの現在保留中のコマンドを完了させる。幾つかの実施形態では、３Dパイプライン９２２及びメディアパイプライン９２４は、同時に動作しない。パイプラインフラッシュは、アクティブなグラフィックパイプラインに任意の保留中のコマンドを完了させるために実行される。パイプラインフラッシュに応答して、グラフィックプロセッサのためのコマンドパーサは、アクティブな描画エンジンが保留中の動作を完了し、関連するリードキャッシュが無効にされるまで、コマンド処理を一時停止する。任意で、「ダーティ（dirty）」とマークされたレンダキャッシュの中の任意のデータは、メモリにフラッシュされ得る。幾つかの実施形態では、パイプラインフラッシュコマンド９１２は、パイプライン同期化のために、又はグラフィックプロセッサを低電力状態に置く前に、使用できる。

【0153】

幾つかの実施形態では、パイプライン選択コマンド９１３は、コマンドシーケンスがグラフィックプロセッサを利用してパイプライン間で明示的に切り替えるとき、使用される。幾つかの実施形態では、パイプライン選択コマンド９１３は、コンテキストが両方のパイプラインのためのコマンドを発行するべきではない限り、パイプラインコマンドを発行する前に、実行コンテキスト内で１回利用される。幾つかの実施形態では、パイプラインフラッシュコマンド９１２は、パイプライン選択コマンド９１３を介してパイプライン切り替えの直前に利用される。

【0154】

幾つかの実施形態では、パイプライン制御コマンド９１４は、動作のためにグラフィックパイプラインを構成し、３Dパイプライン及びメディアパイプライン９２４をプログラムするために使用される。幾つかの実施形態では、パイプライン制御コマンド９１４は、アクティブなパイプラインのパイプライン状態を構成する。一実施形態では、パイプライン制御コマンド９１４は、パイプライン同期化のために、及びコマンドのバッチを処理する前にアクティブなパイプライン内の１つ以上のキャッシュメモリからのデータを削除する（clear）ために、使用される。

【0155】

幾つかの実施形態では、リターンバッファ状態コマンド９１６は、データを書き込むよう、それぞれのパイプラインのリターンバッファのセットを構成するために使用される。幾つかのパイプライン動作は、処理中に動作が中間データを書き込む１つ以上のリターンバッファの割り当て、選択、又は構成を利用する。幾つかの実施形態では、グラフィックプロセッサは、出力データを格納するために及びスレッド間通信を実行するためにも、１つ以上のリターンバッファを使用する。幾つかの実施形態では、リターンバッファ状態９１６は、パイプライン動作のセットのために使用するリターンバッファのサイズ及び数を選択することを含む。

【0156】

コマンドシーケンスの中の残りのコマンドは、動作のためのアクティブなパイプラインに基づき異なる。パイプライン決定９０２に基づき、コマンドシーケンスは、３Dパイプライン状態９３０で開始する３Dパイプライン９２２、又はメディアパイプライン状態９４０で開始するメディアパイプライン９２４に合わせられる。

【0157】

３Dパイプライン状態９３０を構成するためのコマンドは、頂点バッファ状態、条店要素状態、一定色状態、深さバッファ状態、及び３Dプリミティブコマンドが処理される前に構成されるべき他の状態変数のためのコマンドを設定する３D状態設定コマンドを含む。これらのコマンドの値は、少なくとも部分的に使用中の特定の３D APIに基づき決定される。幾つかの実施形態では、３Dパイプライン状態９３０コマンドは、特定のパイプライン要素を、これらの要素が使用されない場合に、選択的に無効化し又はバイパスすることもできる。

【0158】

幾つかの実施形態では、３Dプリミティブ９３２コマンドは、３Dパイプラインにより処理されるべき３Dプリミティブを提出するために使用される。３Dプリミティブ９３２コマンドを介してグラフィックプロセッサに渡されるコマンド及び関連付けられたパラメータは、グラフィックパイプラインの中の頂点フェッチ機能へ転送される。頂点フェッチ機能は、３Dプリミティブ９３２コマンドデータを使用して、頂点データ構造を生成する。頂点データ構造は、１つ以上のリターンバッファに格納される。幾つかの実施形態では、３Dプリミティブ９３２コマンドは、頂点シェーダを介して３Dプリミティブに対する頂点動作を実行するために使用される。頂点シェーダを処理するために、３Dパイプライン９２２は、シェーダ実行スレッドをグラフィックプロセッサ実行ユニットへとディスパッチする。

【0159】

幾つかの実施形態では、３Dパイプライン９２２は、実行９３４コマンド又はイベントによりトリガされる。幾つかの実施形態では、レジスタ書き込みは、コマンド実行をトリガする。幾つかの実施形態では、実行は、コマンドシーケンスの中の「go」又は「kick」コマンドによりトリガされる。一実施形態では、コマンド実行は、グラフィックパイプラインを通じてコマンドシーケンスをフラッシュするために、パイプライン同期化コマンドを用いてトリガされる。３Dパイプラインは、３Dプリミティブに対してジオメトリ処理を実行する。動作が完了すると、結果として生じたジオメトリオブジェクトは、ラスタライズされ、ピクセルエンジンは結果として生じたピクセルを着色する。ピクセルシェーディングを制御する追加コマンド及びピクセルバックエンド動作も、これらの動作のために含まれてよい。

【0160】

幾つかの実施形態では、グラフィックプロセッサコマンドシーケンス９１０は、メディア動作を実行するとき、メディアパイプライン９２４を辿る。通常、メディアパイプライン９２４の固有の使用及びプログラミング方法は、実行されるべきメディア又は計算動作に依存する。固有のメディア復号動作は、メディア復号の間にメディアパイプラインへとオフロードされてよい。幾つかの実施形態では、メディアパイプラインはバイパスされることもでき、メディア復号は、１つ以上の汎用処理コアにより提供されるリソースを用いて全体又は部分的に実行され得る。一実施形態では、メディアパイプラインは、GPGPU（general-purpose graphics processor unit）動作のための要素も含む。ここで、グラフィックプロセッサは、グラフィックプリミティブのレンダリングに明示的に関連しない計算シェーダプログラムを使用して、SIMDベクトル動作を実行するために使用される。

【0161】

幾つかの実施形態では、メディアパイプライン９２４は、３Dパイプライン９２２と同様の方法で構成される。メディアパイプライン状態９４０を構成するためのコマンドセットは、メディアオブジェクトコマンド９４２の前にディスパッチされコマンドキューに配置される。幾つかの実施形態では、メディアパイプライン状態９４０のためのコマンドは、メディアオブジェクトを処理するために使用されるメディアパイプライン要素を構成するためのデータを含む。これは、符号化又は復号フォーマットのような、メディアパイプライン内のビデオ復号及びビデオ符号化ロジックを構成するためのデータを含む。幾つかの実施形態では、メディアパイプライン状態９４０のためのコマンドは、状態設定のバッチを含む「間接」状態要素への１つ以上のポインタの使用もサポートする。

【0162】

幾つかの実施形態では、メディアオブジェクトコマンド９４２は、メディアパイプラインによる処理のために、メディアオブジェクトへのポインタを提供する。メディアオブジェクトは、処理されるべきビデオデータを含むメモリバッファを含む。幾つかの実施形態では、全てのメディアパイプライン状態は、メディアオブジェクトコマンド９４２を発行する前に有効でなければならない。パイプライン状態が構成され、メディアオブジェクトコマンド９４２がキューイングされると、メディアパイプライン９２４は、実行コマンド９４４又は等価な実行イベント（例えば、レジスタ書き込み）を介してトリガされる。メディアパイプライン９２４からの出力は、次に、３Dパイプライン９２２又はメディアパイプライン９２４により提供される動作により後処理されてよい。幾つかの実施形態では、GPGPU動作は、メディア動作と同様に構成され実行される。

【0163】

＜グラフィックソフトウェアアーキテクチャ＞
図１０は、幾つかの実施形態によるデータ処理システム１０００の例的なグラフィックソフトウェアアーキテクチャを示す。幾つかの実施形態では、ソフトウェアアーキテクチャは、３Dグラフィックアプリケーション１０１０、オペレーティングシステム１０２０、及び少なくとも１つのプロセッサ１０３０を含む。幾つかの実施形態では、プロセッサ１０３０は、グラフィックプロセッサ１０３２及び１つ以上の汎用プロセッサコア１０３４を含む。グラフィックアプリケーション１０１０及びオペレーティングシステム１０２０は、それぞれ、データ処理システムのシステムメモリ１０５０の中で実行する。

【0164】

幾つかの実施形態では、３Dグラフィックアプリケーション１０１０は、シェーダ命令１０１２を含む１つ以上のシェーダプログラムを含む。シェーダ言語命令は、Direct３DのHLSL（High-Level Shader Language）、GLSL（OpenGL Shader Language）等のような高レベルシェーダ言語であってよい。アプリケーションは、汎用プロセッサコア１０３４による実行に適した機械語の実行可能命令１０１４も含む。アプリケーションは、頂点データにより定められるグラフィックオブジェクト１０１６も含む。

【0165】

幾つかの実施形態では、オペレーティングシステム１０２０は、Microsoft CorporationのMicrosoft（登録商標）Windows（登録商標）オペレーティングシステム、独自UNIX（登録商標）様オペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を使用するオープンソースUNIX（登録商標）様オペレーティングシステムである。オペレーティングシステム１０２０は、Direct３D API、OpenGL API、又はVulkan APIのようなグラフィックAPI１０２２をサポートできる。Direct３D APIが使用されているとき、オペレーティングシステム１０２０は、HLSLの任意のシェーダ命令１０１２を低レベルのシェーダ言語にコンパイルするために、フロントエンドコンパイラ１０２４を使用する。コンパイルは、JIT（just-in-time）コンパイルであってよく、又はアプリケーションはシェーダプレコンパイルを実行できる。幾つかの実施形態では、高レベルシェーダは、３Dグラフィックアプリケーション１０１０のコンパイル中に、低レベルシェーダにコンパイルされる。幾つかの実施形態では、シェーダ命令１０１２は、Vulkan APIにより使用されるSPIR（Standard Portable Intermediate Representation）のバージョンのような中間形式で提供される。

【0166】

幾つかの実施形態では、ユーザモードグラフィックドライバ１０２６は、シェーダ命令１０１２をハードウェア固有表現に変換するためのバックエンドシェーダコンパイラ１０２７を含む。OpenGL APIが使用されているとき、GLSL高レベル言語のシェーダ命令１０１２は、コンパイルのためにユーザモードグラフィックドライバ１０２６に渡される。幾つかの実施形態では、ユーザモードグラフィックドライバ１０２６は、オペレーティングシステムカーネルモード機能１０２８を使用して、カーネルモードグラフィックドライバ１０２９と通信する。幾つかの実施形態では、カーネルモードグラフィックドライバ１０２９は、コマンド及び命令をディスパッチするために、グラフィックプロセッサ１０３２と通信する。

【0167】

＜ＩＰコア実装＞
少なくとも１つの実施形態の１つ以上の態様は、プロセッサのような集積回路内のロジックを表す及び／又は定める機械可読媒体（本願明細書ではコンピュータ可読媒体または非一時的コンピュータ可読媒体とも呼ばれる）に格納された代表的コードにより実装されてよい。例えば、機械可読媒体は、プロセッサ内の種々のロジックを表す命令を含んでよい。機械により読み取られると、命令は、機械に、本願明細書に記載の技術を実行するようにさせてよい。このような表現は、「IPコア」として知られ、集積回路の構造を記述するハードウェアモデルのような、有形の機械可読媒体に格納され得る集積回路のためのロジックの再利用可能ユニットである。ハードウェアモデルは、ハードウェアモデルを集積回路を製造する製造機械にロードする種々の顧客又は製造設備に供給されてよい。集積回路は、回路が本願明細書に記載の実施形態のうちのいずれかに関連して記載された動作を実行するように製造されてよい。

【0168】

図１１Aは、一実施形態による動作を実行するための集積回路を製造するために使用され得る例示的なIPコア開発システム１１００を示すブロック図である。IPコア開発システム１１００は、より大きな設計に組み込むことができ又は集積回路全体（例えばSOC集積回路）を構成するために使用可能なモジュール式の再利用可能な設計を生成するために使用されてよい。設計設備１１３０は、高レベルプログラミング言語（例えば、C/C++）でIPコア設計のソフトウェアシミュレーション１１１０を生成できる。ソフトウェアシミュレーション１１１０は、シミュレーションモデル１１１２を用いてIPコアの振る舞いを設計し、テストし、及び検証するために使用できる。シミュレーションモデル１１１２は、機能、振る舞い、及び／又はタイミングシミュレーションを含んでよい。RTL（register transfer level）設計１１１５は、次に、シミュレーションモデル１１１２から生成され又は合成され得る。RTL設計１１１５は、モデル化されたデジタル信号を用いて実行される関連するロジックを含むハードウェアレジスタ間のデジタル信号のフローをモデル化する集積回路の振る舞いの抽象である。RTL設計１１１５に加えて、論理レベル又はトランジスタレベルの低レベル設計も生成され、設計され、又は合成されてよい。したがって、初期設計及びシミュレーションの特定の詳細は変化してよい。

【0169】

RTL設計１１１５又は均等物は、設計設備によりハードウェアモデル１１２０に更に合成されてよい。ハードウェアモデル１１２０は、ハードウェア記述言語（HDL）又は何らかの他の物理設計データの表現であってよい。HDLは、IPコア設計を検証するために更にシミュレートされ又はテストされてよい。IPコア設計は、不揮発性メモリ１１４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いて第三者製造設備１１６５への分配のために格納できる。代替として、IPコア設計は、有線接続１１５０又は無線接続１１６０を介して（例えばインターネットを介して）送信されてよい。製造設備１１６５は、次に、IPコア設計に少なくとも部分的に基づく集積回路を製造してよい。製造された集積回路は、本願明細書に記載の少なくとも１つの実施形態に従う動作を実行するよう構成できる。

【0170】

図１１Bは、本願明細書に記載の幾つかの実施形態による、集積回路パッケージ部品１１７０の側面断面図を示す。集積回路パッケージ部品１１７０は、本願明細書に記載のような１つ以上のプロセッサ又はアクセラレータ装置の一実装を示す。パッケージ部品１１７０は、基板１１８０に接続されたハードウェアロジック１１７２、１１７４の複数のユニットを含む。ロジック１１７２、１１７４は、少なくとも部分的に構成可能ロジック又は固定機能ロジックハードウェアに実装されてよく、本願明細書に記載のプロセッサコア、グラフィックプロセッサ、又は他のアクセラレータ装置のうちのいずれかの１つ以上の部分を含み得る。ロジック１１７２、１１７４の各ユニットは、半導体ダイの中に実装され、相互接続構造１１７３を介して基板１１８０に結合され得る。相互接続構造１１７３は、ロジック１１７２、１１７４と基板１１８０との間で電気信号をルーティングするよう構成されてよく、限定ではないがバンプ又はピラーのような相互接続構造を含み得る。幾つかの実施形態では、相互接続構造１１７３は、例えば、ロジック１１７２、１１７４の動作に関連付けられた入力／出力（I/O）信号及び／又は電力又はグランド信号のような電気信号をルーティングするよう構成されてよい。幾つかの実施形態では、基板１１８０は、樹脂に基づく積層基板である。基板１１８０は、他の実施形態では、他の適切な種類の基板を含んでよい。パッケージ部品１１７０は、パッケージ相互接続１１８３を介して他の電気装置に接続され得る。パッケージ相互接続１１８３は、電気信号をマザーボード、他のチップセット、又はマルチチップモジュールのような他の電気装置へルーティングするために、基板１１８０の表面に結合されてよい。

【0171】

幾つかの実施形態では、ロジック１１７２、１１７４のユニットは、ロジック１１７２、１１７４の間で電気信号をルーティングするよう構成されるブリッジ１１８２に電気的に結合される。ブリッジ１１８２は、電気信号のルートを提供する高密度相互接続構造であってよい。ブリッジ１１８２は、ガラス又は適切な半導体材料からなるブリッジ基板を含んでよい。電気的ルーティング機能は、ロジック１１７２、１１７４の間のチップ間接続を提供するためにブリッジ基板上に形成できる。

【0172】

１つのロジックユニット１１７２、１１７４、及びブリッジ１１８２が示されるが、本願明細書に記載の実施形態は、より多くの又は少ないロジックユニットを１つ以上のダイの上に含んでよい。１つ以上のダイは、ゼロ個以上のブリッジにより接続されてよく、ロジックが単一のダイに含まれるとき、ブリッジ１１８２が排除されてよい。代替として、複数のダイまたはロジックユニットは、１つ以上のブリッジにより接続され得る。さらに、複数の論理ユニット、ダイ、及びブリッジが、３次元構成を含む他の可能な構成で一緒に接続できる。

【0173】

図１１Cは、基板１１８０（例えば、基本ダイ）に接続されるハードウェアロジックチップレットの複数のユニットを含むパッケージ部品１１９０を示す。本願明細書に記載のようなグラフィック処理ユニット、並列プロセッサ、及び／又は計算アクセラレータは、個別に製造される多様なシリコンチップレットで構成され得る。この文脈では、チップレットは、他のチップレットとより大きなパッケージに組み立てることのできる個別ロジックユニットを含む少なくとも部分的にパッケージされた集積回路である。異なるIPコアロジックを有するチップレットの多様なセットは、単一の装置へと組み立て可能である。さらに、チップレットは、アクティブインタポーザ技術を用いて基本ダイ又は基本チップレットへと主席可能である。本願明細書に記載の概念は、GPU内の異なる形式のIPの間の相互接続及び通信を可能にする。IPコアは、異なるプロセス技術を用いて製造でき、製造中に構成できる。これは、特に幾つかの種類のIPを有する大規模SoC上の複数のIPを、同じ製造プロセスにまとめることの複雑性を回避する。複数のプロセス技術の使用を可能にすることは、市場に出るまでの時間を改善し、複数の製品ＳＫＵを生成するためのコスト効率の良い方法を提供する。さらに、非集中型IPは、独立に電力制御されるよう更に変更可能であり、所与の作業負荷で使用されていないコンポーネントは、電力をオフにでき、電力消費全体を低減する。

【0174】

ハードウェアロジックチップレットは、専用ハードウェアロジックチップレット１１７２、ロジック又はI/Oチップレット１１７４、及び／又はメモリチップレット１１７５を含み得る。ハードウェアロジックチップレット１１７２、及びロジック又はI/Oチップレット１１７４は、少なくとも部分的に構成可能ロジック又は固定機能ロジックハードウェアに実装されてよく、本願明細書に記載のプロセッサコア、グラフィックプロセッサ、並列プロセッサ、又は他のアクセラレータ装置のうちのいずれかの１つ以上の部分を含み得る。メモリチップレット１１７５は、DRAM（例えば、GDDR、HBM）メモリ又はキャッシュ（SRMA）メモリであり得る。

【0175】

各チップレットは、個別半導体ダイとして製造され、相互接続構造１１７３を介して基板１１８０に結合され得る。相互接続構造１１７３は、種々のチップレット及び基板１１８０内のロジックの間の電気信号をルーティングするよう構成されてよい。相互接続構造１１７３は、限定ではないがバンプ又はピラーのような相互接続を含み得る。幾つかの実施形態では、相互接続構造１１７３は、例えば、ロジック、I/O及びメモリチップレットの動作に関連付けられた入力／出力（I/O）信号及び／又は電力又はグランド信号のような電気信号をルーティングするよう構成されてよい。

【0176】

幾つかの実施形態では、基板１１８０は、樹脂に基づく積層基板である。基板１１８０は、他の実施形態では、他の適切な種類の基板を含んでよい。パッケージ部品１１９０は、パッケージ相互接続１１８３を介して他の電気装置に接続され得る。パッケージ相互接続１１８３は、電気信号をマザーボード、他のチップセット、又はマルチチップモジュールのような他の電気装置へルーティングするために、基板１１８０の表面に結合されてよい。

【0177】

幾つかの実施形態では、ロジック又はI/Oチップレット１１７４及びメモリチップレット１１７５は、ロジック又はI/Oチップレット１１７４及びメモリチップレット１１７５の間の電気信号をルーティングするよう構成されるブリッジ１１８７を介して電気的に結合され得る。ブリッジ１１８７は、電気信号のルートを提供する高密度相互接続構造であってよい。ブリッジ１１８７は、ガラス又は適切な半導体材料からなるブリッジ基板を含んでよい。電気的ルーティング機能は、ロジック又はI/Oチップレット１１７４及びメモリチップレット１１７５の間のチップ間接続を提供するためにブリッジ基板上に形成できる。ブリッジ１１８７は、シリコンブリッジ又は相互接続ブリッジとも呼ばれてよい。例えば、ブリッジ１１８７は、幾つかの実施形態では、EMIB（Embedded Multi-die Interconnect Bridge）である。幾つかの実施形態では、ブリッジ１１８７は、単に、あるチップレットから別のチップレットへの直接接続であってよい。

【0178】

基板１１８０は、I/O１１９１、キャッシュメモリ１１９２、及び他のハードウェアロジック１１９３のためのハードウェアコンポーネントを含み得る。ファブリック１１８５は、基板１１８０内の種々のロジックチップレット及びロジック１１９１、１１９３の間の通信を可能にするために、基板１１８０内に埋め込まれ得る。一実施形態では、I/O１１９１、ファブリック１１８５、キャッシュ、ブリッジ、及び他のハードウェアロジック１１９３は、基板１１８０の上に積層された基本ダイに統合され得る。ファブリック１１８５は、ネットワークオンチップ相互接続、又はパッケージ組立体のコンポーネント間でデータパケットを切り換える別の形式のパケット交換ファブリックであってよい。

【0179】

種々の実施形態では、パッケージ部品１１９０は、ファブリック１１８５又は１つ以上のブリッジ１１８７により相互接続されるより少数の又は多数のコンポーネント及びチップレットを含み得る。パッケージ部品１１９０内のチップレットは、３D又は２．５D構成で構成されてよい。通常、ブリッジ構造１１８７は、例えば、ロジック又はI/Oチップレット及びメモリチップレットの間のポイントツーポイント相互接続を促進するために使用されてよい。ファブリック１１８５は、種々のロジック及び／又はI/Oチップレット（例えば、チップレット１１７２、１１７４、１１９１、１１９３）を他のロジック及び／又はI/Oチップレットと相互接続するために使用され得る。一実施形態では、基板内のキャッシュメモリ１１９２は、パッケージ部品１１９０のグローバルキャッシュ、分散型グローバルキャッシュの部分、又はファブリック１１８５のための専用キャッシュとして動作できる。

【0180】

図１１Dは、一実施形態による、相互接続可能なチップレット１１９５を含むパッケージ部品１１９４を示す。相互接続可能なチップレット１１９５は、１つ以上の基本チップレット１１９６、１１９８上の標準化スロットの中に組み立てることができる。基本チップレット１１９６、１１９８は、本願明細書に記載の他のブリッジ相互接続と同様であり例えばEMIBであってよいブリッジ相互接続１１９７を介して結合できる。メモリチップレットは、ブリッジ相互接続を介してロジック又はI/Oチップレットにも接続され得る。I/O及びロジックチップレットは、相互接続ファブリックを介して通信できる。基本チップレットは、それぞれ、ロジック又はI/O又はメモリ／キャッシュのうちの１つのための標準化フォーマットの１つ以上のスロットをサポートできる。

【0181】

一実施形態では、SRMA及び電力分配回路は、基本チップレットの上にスタックされる相互接続可能なチップレット１１９５と異なるプロセス技術を使用して製造され得る基本チップレット１１９６、１１９８のうちの１つ以上の中に製造され得る。例えば、基本チップレット１１９６、１１９８は、より大規模なプロセス技術を用いて製造でき、一方で、相互接続可能なチップレットは、より小規模なプロセス技術を用いて製造できる。相互接続可能なチップレット１１９５のうちの１つ以上は、メモリ（例えば、DRAM）チップレットであってよい。パッケージ部品１１９４を使用する製品について目標とされる電力、及び／又は性能に基づき、パッケージ部品１１９４のために異なるメモリア密度が選択できる。さらに、異なる数の基本ユニット種類を有するロジックチップレットが、製品について目標とされる電力及び／又は性能に基づき、組み立て時に選択できる。さらに、異なる種類のIPロジックコアを含むチップレットは、相互接続可能なチップレットスロットに挿入でき、異なる技術のIPブロックを混合し及び調和させることのできるハイブリッドプロセッサ設計を可能にする。

【0182】

＜例的なシステムオンチップ集積回路＞
図１２～１３Bは、本願明細書に記載される種々の実施形態による、１つ以上のIPコアを用いて製造され得る例示的な集積回路及び関連グラフィックプロセッサを示す。図示のものに加えて、追加グラフィックプロセッサ／コア、周辺機器インタフェースプロセッサ／コア、又は汎用プロセッサコアを含む他のロジック及び回路が含まれてよい。

【0183】

図１２は、一実施形態による、１つ以上のIPコアを用いて製造され得る例的なシステムオンチップ集積回路１２００を示すブロック図である。例的な集積回路１２００は、１つ以上のアプリケーションプロセッサ１２０５（例えば、CPU）、少なくとも１つのグラフィックプロセッサ１２１０を含み、更に画像プロセッサ１２１５及び／又はビデオプロセッサ１２２０を含んでよく、これらのうちのいずれかは、同じ又は複数の異なる設計設備からのモジュール式IPコアであってよい。集積回路１２００は、USB制御部１２２５、UART制御部１２３０、SPI/SDIO制御部１２３５、及びI２S/I２C制御部１２４０を含む周辺機器又はバスロジックを含む。さらに、集積回路は、HDMI（high-definition multimedia interface）制御部１２５０及びMIPI（mobile industry processor interface）ディスプレイインタフェース１２５５のうちの１つ以上に結合されたディスプレイ装置１２４５を含む。記憶装置は、フラッシュメモリ及びフラッシュメモリ制御部を含むフラッシュメモリサブシステム１２６０により提供されてよい。メモリインタフェースは、ＳDRAM又はSRAMメモリ装置へのアクセスのためにメモリ制御部１２６５により提供されてよい。幾つかの集積回路は、内蔵セキュリティエンジン１２７０を更に含む。

【0184】

図１３A～１３Bは、本願明細書に記載の実施形態による、SoC内で使用するための例的なグラフィックプロセッサを示すブロック図である。図１３Aは、一実施形態による、１つ以上のIPコアを用いて製造され得るシステムオンチップ集積回路の例的なグラフィックプロセッサ１３１０を示す。図１３Bは、一実施形態による、１つ以上のIPコアを用いて製造され得るシステムオンチップ集積回路の追加の例的なグラフィックプロセッサ１３４０を示す。図１３Aのグラフィックプロセッサ１３１０は、低電力グラフィックプロセッサコアの一例である。図１３Bのグラフィックプロセッサ１３４０は、高電力グラフィックプロセッサコアの一例である。グラフィックプロセッサ１３１０、１３４０の各々は、図１２のグラフィックプロセッサ１２１０の変形であり得る。

【0185】

図１３Aに示すように、グラフィックプロセッサ１３１０は、頂点プロセッサ１３０５及び１つ以上のグラフメントプロセッサ１３１５A～１３１５N（例えば、１３１５Ａ、１３１５B、１３１５C、１３１５D～１３１５N－１、１３１５N）を含む。グラフィックプロセッサ１３１０は、個別ロジックにより異なるシェーダプログラムを実行できる。その結果、頂点プロセッサ１３０５は、頂点シェーダプログラムの動作を実行するために最適化され、一方で、１つ以上のフラグメントプロセッサ１３１５A～１３１５Nは、フラグメント又はピクセルシェーダプログラムのフラグメント（例えば、ピクセル）シェーディング動作を実行する。頂点プロセッサ１３０５は、３Dグラフィックパイプラインの頂点処理段階を実行し、プリミティブ及び頂点データを生成する。フラグメントプロセッサ１３１５A～１３１５Nは、頂点プロセッサ１３０５により生成されたプリミティブ及び頂点データを使用して、ディスプレイ装置で表示されるフレームバッファを生成する。一実施形態では、フラグメントプロセッサ１３１５A～１３１５Nは、Direct３D APIにおいて提供されるようなピクセルシェーダプログラムと同様の動作を実行するために使用されてよい、OpenGL APIにおいて提供されるようなフラグメントシェーダプログラムを実行するために最適化される。

【0186】

グラフィックプロセッサ１３１０は、１つ以上のメモリ管理ユニット（memory management unit：MMU）１３２０A～１３２０B、キャッシュ１３２５A～１３２５B、及び回路相互接続１３３０A～１３３０Bを更に含む。１つ以上のMMU１３２０A～１３２０Bは、仮想から物理へのアドレスマッピングを、１つ以上のキャッシュ１３２５A～１３２５Bに格納された頂点又は画像／テクスチャデータに加えてメモリに格納された頂点又は画像／テクスチャデータを参照し得る頂点プロセッサ１３０５及び／又はフラグメントプロセッサ１３１５A～１３１５Nを含むグラフィックプロセッサ１３１０に提供する。一実施形態では、１つ以上のMMU１３２０A～１３２０Bは、図１２の１つ以上のアプリケーションプロセッサ１２０５、画像プロセッサ１２１５、及び／又はビデオプロセッサ１２２０に関連付けられた１つ以上のMMUを含む、システム内の他のMMUと同期化されてよい。その結果、各プロセッサ１２０５～１２２０は、共有又は統合仮想メモリシステムに参加できる。１つ以上の回路相互接続１３３０A～１３３０Bは、グラフィックプロセッサ１３１０が実施形態に従いSoC内の他のIPコアとSoCの内部バスを介して又は直接接続を介して相互作用することを可能にする。

【0187】

図１３Bに示すように、グラフィックプロセッサ１３４０は、図１３Aの１つ以上のMMU１３２０A～１３２０B、キャッシュ１３２５A～１３２５B、及びグラフィックプロセッサ１３１０の回路相互接続１３３０A～１３３０Bを含む。グラフィックプロセッサ１３４０は、統一シェーダコアアーキテクチャを提供する１つ以上のシェーダコア１３５５A～１３５５N（例えば、１４５５Ａ、１３５５B、１３５５C、１３５５D、１３５５E、１３５５F～１３５５N－１、１３５５N）を含む。統一シェーダコアアーキテクチャでは、単一のコア又は種類又はコアが、頂点シェーダ、フラグメントシェーダ、及び／又は計算シェーダを実装するためのシェーダプログラムコードを含む全ての種類のプログラマブルシェーダコードを実行できる。存在するシェーダコアの正確な数は、実施形態及び実装の間で変化し得る。さらに、グラフィックプロセッサ１３４０は、実行スレッドを１つ以上のシェーダコア１３５５A～１３５５Nにディスパッチするスレッドディスパッチャとして動作するコア間タスクマネジャ１３４５、及びタイルに基づくレンダリングのためのタイリング動作を加速化するタイリングユニット１３５８を含む。タイルに基づくレンダリングでは、シーンのレンダリング動作は、画像空間において細分化され、例えばシーン内のローカル空間コヒーレンスを利用し、又は内部キャッシュの使用を最適化する。

【0188】

幾つかの実施形態では、処理リソースは、処理要素（例えば、本願明細書に記載されるようなGPU内のグラフィックプロセッサ又はグラフィックプロセッサ構造（例えば、並列処理ユニット、グラフィック処理エンジン、マルチコアグループ、計算ユニット、グラフィックコアネクストの計算ユニット）に関連する、GPGPUコア、光線追跡コア、テンソルコア、実行リソース、実行ユニット（execution unit (EU)）、ストリームプロセッサ、ストリーミングマルチプロセッサ（streaming multiprocessor (SM)）、グラフィックマルチプロセッサ）を表す。例えば、処理リソースは、グラフィックマルチプロセッサのGPGPUコア又はテンソル／光線追跡コア、グラフィックマルチプロセッサの光線追跡コア、テンソルコア、又はGPGPUコア、グラフィックマルチプロセッサの実行リソース、マルチコアグループのGFXコア、テンソルコア、又は光線追跡コアのうちの１つ、計算ユニットのベクトル論理ユニット又はスカラ論理ユニットのうちの１つ、EUアレイを有する実行ユニット又はEUアレイ、実行ロジックの実行ユニット、及び／又は実行ユニット、のうちの１つであってよい。処理リソースは、例えば、グラフィック処理エンジン、処理クラスタ、GPGPU、GPGPU、グラフィック処理エンジン、グラフィック処理エンジンクラスタ、及び／又はグラフィック処理エンジン内の実行リソースであってもよい。処理リソースは、グラフィックプロセッサ内の処理リソース、グラフィックプロセッサ、及び／又はグラフィックプロセッサであってもよい。

【0189】

＜処理の遅延を低減するテッセレーション再分配＞
並列コンピューティングは、多数の計算または処理の実行が独自に実行される種類の計算である。並列コンピューティングは、限定ではないがSIMD又はSIMTを含む多様な形式であり得る。SIMDは、複数の処理要素を有するコンピュータが、複数のデータポイントに対して同時に同じ演算を実行することを表す。一例では、上述の図５A～５BはSIMDを表し、EU、FPU、及びALUの観点で汎用プロセッサに実装される。一般的なSIMDマシンでは、データは、レジスタにパッケージされ、各レジスタはチャネルのアレイを含む。命令は、レジスタのチャネルnで見付かったデータ、及び別のレジスタの同じチャネルで見付かったデータに対して作用する。SIMDマシンは、命令の単一のシーケンスが大容量データに同時に適用できる分野で有利である。例えば、一実施形態では、グラフィックプロセッサ（例えば、GPGPU、GPU、等）は、計算シェーダプログラムを用いて、SIMDベクトル演算を実行するために使用できる。

【0190】

種々の実施形態は、SIMDの使用の代わりとして、又はSMIDの使用に加えて、SMIT（Single Instruction Multiple Thread）の使用による実行を使用するよう適用できる。SIMDコアまたは動作への言及は、SIMTにも適用でき、又はSIMTと組み合わせてSIMDに適用できる。以下の説明は、SIMDマシンの観点で議論される。しかしながら、本願明細書における実施形態は、SIMDコンテキストだけに限定されず、例えばSIMTのような他の並列コンピューティングの枠組みに適用されてよい。議論及び説明を容易にするために、以下の説明は、概して、SIMD実装に焦点を当てる。しかしながら、実施形態は、記載される技術及び方法に変更を伴わずに、SIMTマシンに同様に適用できる。SIMTマシンに関して、シストリックアレイに命令を提供するために及びSIMTマシン上で命令を実行するために、以下に議論するものと同様のパターンに従うことができる。他の種類の並列コンピューティングマシンも、同様に本願明細書に記載の実施形態を利用してよい。

【0191】

前述のように、グラフィック処理ユニット（graphics processing unit (GPU)）における競争力のあるジオメトリ処理性能を提供することは、標準的に、複数の、並列の、同時のジオメトリ処理固定機能パイプライン（geometry processing fixed-function pipeline (GPP)）に関連する。これらのGPP（時に、SMM、ジオメトリ及び設定固定機能パイプライン、又はプレテッセレーション及びポストテッセレーションパイプラインとも呼ばれる）は、OpenGLレンダリングパイプライン（rendering pipeline (RP)）におけるプログラマブルシェーダ及び固定機能ステージの混合を含む。コンピュータグラフィックでは、テッセレーションは、シーン内のオブジェクトを表す多角形のデータセット（頂点セットとも呼ばれる）を管理し、及びそれらをレンダリングのために適切な構造に分割するために使用される。リアルタイムグラフィックに対するテッセレーションの利点は、制御パラメータ（例えば、カメラ距離）に基づき３D多角形メッシュ及びそのシルエットエッジから詳細を動的に加算及び減算できることである。テッセレーションは、パッチプリミティブ（primitive）（「オブジェクト」とも呼ばれる）を細分化し、その頂点の頂点値を計算することを含む。テッセレーション制御シェーダは、テッセレーション係数を指定することにより、実行すべきテッセレーションの量を決定してよい。パッチ当たりの頂点の数は、アプリケーションレベルで定義されてよい。パッチオブジェクトは、三角形又は四角形（正方形）であってよい。

【0192】

【0193】

【0194】

【0195】

GPUのテッセレーション処理レートは、ローカル（オンダイ、on-die）テッセレーション作業再分配を用いて向上できる。テッセレーション作業再分配は、大規模なオンダイバッファを回避でき、分配がローカルであるので、オフチップメモリアクセスの使用により発生する性能及び電力ペナルティも回避できる。プレテッセレーション結果をメモリに書き込み、続いてそれらの結果をテッセレーションパイプラインに渡り再分配する代わりに、テッセレーション再分配能力が利用されて、オフチップメモリ帯域幅を消費することなく、GPPのテッセレーションステージに渡りパッチを直接分配する。

【0196】

テッセレーション作業再分配の既存のアプローチは、テッセレーションエンジン（tessellation engine (TE)）を通信可能に結合するテッセレーション再分配バス（tessellation redistribution bus (TRB)）を用いるGPP通信におけるＴTEに関連し得る。ここで、TRBは、順序を維持しながら、テッセレーション作業の並列GPPへの再分配をサポートする。GPP内のTEに制御を渡してTRBの制御を可能にするために、テッセレーション分配中央エンジン（tessellation distribution centralengine (TED)）も利用される。TEはTEDと通信し、テッセレーション作業をTEDへ送信し、及びTRBを解放し、その間、TRBを制御すべき次のGPPに関する情報を渡すことを含む。

【0197】

しかしながら、既存のアプローチでは、TEDは、（GPP内に存在する）個々のTEから物理的に離れて配置され得る。あるGPPから別のGPPへ制御を渡すことに関連する、又は（TEで次のテッセレーション作業自体を処理する前に）前のテッセレーション作業が再分配のために分配されるべきTEDへ送信されるのを待っているTEに関連する通信は、長いパスを含み、遅延をもたらす。これらの長いパス及び遅延は、GPPに渡りアイドル時間を生じる。

【0198】

例えば、TEからTEDへのラウンドトリップ遅延は、１つのGPPから別のGPPへの切り替えの間に、ストリーミングにとって許されない。そのようなストリーミングは、例えば、TEが、TE自身により実行されるべきテッセレーション作業とインタリーブされたTEDによる再分配のためにマークされたテッセレーション作業を有するとき、生じることができない。この問題は、TEが分配のためにマークされたテッセレーション作業とTEにおいてローカルに処理されるようマークされたテッセレーション作業との間で頻繁に切り換えられるとき、増大する。従って、TRBの制御を有するTEが、TEにおいてローカルに処理されるべきテッセレーション作業が続く（TEDへ）分配されるべきテッセレーション作業を有する度に、又はその逆の度に、アイドル期間が増大し得る。これは、テッセレーション作業再分配の既存のアプローチにおちえ、GPPの全体的な利用率の低下をもたらし性能損失を生じる。

【0199】

実施形態は、プロセッサにおける遅延を低減するテッセレーション再分配を提供することにより、上述の欠点を解決する。実施形態のテッセレーション再分配は、GPPのTEからTEDへの相互作用を、TEフロントエンド（TE front end (TEFE)）からTEDへの相互作用と、TEバックエンド（TE back end (TEBE)）からTEDへの相互作用とに分ける。幾つかの実施形態では、TEDと相互作用する全部のGPPの各TEFEは、TEDへ並列にパケットを送信でき、その間、TEDはそのようなパケットを順に処理する。本願明細書の実施形態は、TEとTEDとの間の分配バリアに基づく動機を更に導入して、テッセレーション作業のパイプライン処理を可能にする。

【0200】

実施形態は、合理化された方法で全部のGPPに渡りテッセレーション作業をスケジューリングし及び各GPP内でそのようなスケジューリングに関連する切り替えペナルティを回避することにより、GPUのようなプロセッサ内の遅延を低減し、テッセレーション作業再分配を実施するGPPに渡るプロセッサ性能を向上するという技術的利点を提供する。実施形態によりTEDとの間とTEDとの間の長いパスに関連する遅延が低減されるので、実施形態は、大規模なSoC又はマルチダイプロセッサ内の追加GPPを追加するとき、テッセレーション作業再分配のスケーラビリティを提供する。

【0201】

図１４は、実施形態による、遅延を低減するテッセレーション再分配のための固定機能テッセレーションステージを有する集積回路グラフィックプロセッサ１４００を示すブロック図である。十層では、グラフィックプロセッサ１４００は、図１～１３に関して本願明細書で説明された例示的なGPGPU及び／又はGPUのようなGPGPU又はGPUを含んでよい。

【0202】

図１４に示されるグラフィックプロセッサ１４００は、パッチカリング及びパッチ送信を実行するテッセレーションフロントエンド（TEFE）論理回路１４１０A～１４１０N（集合的にTEFE１４１０と呼ばれる）と、パッチ受信及びパッチテッセレーションを実行するテッセレーションバックエンド（TEBE）論理回路１４１５A～１４１５N（集合的にTEBE１４１５と呼ばれる）と、に分割される１つ以上の固定機能テッセレーションステージを含んでよい。GPPのテッセレーションエンジン（tessellation engine (TE)）は、TEFE１４１０とTEBE１４１５との組合せを含んでよい。例えば、グラフィックプロセッサ１４００のGPPの第１TEはTEFE１１４１０A及びTEBE１１４１５Aを含んでよく、グラフィックプロセッサ１４００の第２GPPの第２TEはTEFE２１４１０B及びTEBE２１４１５Bを含んでよく、以下同様に、N番目のTEはTEFEN １４１０N及びTEBEN １４１５Nを含む。テッセレーション再分配バス（tessellation redistribution bus (TRB)）１４２０及びテッセレーション再分配中央エンジン（tessellation redistribution central engine (TED)）１０４０の組合せは、ソースGPPのTEFE１１４０１から１つ以上の宛先GPPのTEBE１４１５へのパッチ再分配を実行する。

【0203】

GPPは、素子のフロアプラン内の位置のような基準に基づき、シーケンシャルGPP識別子（ID）を割り当てられることができる。或いは、ＧＰＰ IDは、例えば、装置リセットの後にプログラマブルな値とともにロードされてよい。各GPPは、そのGPPIDを認識してよい。一実装によると、これらのGPPIDは、GPPのシーケンシャル順序を確立し、この順序は、最高番号を付されたGPPから最低番号を付されたGPPまでを包含してGPP IDのサイクルを形成する。しかしながら、他の順序付け方式も実装できる。

【0204】

実装では、TEFE１４１０、TEBE１４１５、TRB１４２０、及びTED１４４０の１つ以上又は部分は、実行ユニット（execution unit (EU)）のような処理リソースにより実装できる。EUのような処理リソースは、例えば、プログラマブルロジック機能の広範なアレイを提供し得るロジックコア又は複数のコアのようなプログラマブルロジック又は回路を含んでよい。実装では、TEFE１４１０、TEBE１４１５、TRB１４２０、及びTED１４４０の１つ以上又はその部分は、固定機能回路等のような専用ハードウェアにより実装される。固定機能回路は、専用ロジック又は回路を含んでよく、固定目的または機能の専用ロジックへマッピングし得る固定機能エントリポイントのセットを提供してよい。

【0205】

プロセッサ１４００により提供されるテッセレーション再分配は、各パッチ及びGPPが可変量の作業を導入する可能性あるので、テッセレーションの前にTEのバランスを取り直すことにより、利得を提供すると期待される。作業の順序を維持するために、TEFE１４１０とTEBE１４１５との間でTED１４４０を通じて同期通信が利用される。前述のように、大規模GPUの場合には、TEFE１４１０からTED１４４０まで、及びTED１４４０からTEBE１４１５までの遅延が重要であり得る。これは、頻繁な切り替えが利用される場合、性能損失を生じ得る。また、TEFE１４１０が、ローカルで処理できるテッセレーション作業のバッチを有する場合、そのバッチ自体を処理しながら、TED１４４０へ（次のTEの情報を有する）制御パケットを送信する能力を有する。ここでも、この制御パケットがTED１４４０に可能な限り直ぐに到達する場合には、性能が向上できる。

【0206】

幾つかの実施形態では、プロセッサ１４００により提供されるテッセレーション再分配は、TED１４４０と相互作用する全部のGPPの各TEFE１４１０が、TED１４４０へ並列にパケットを送信することを可能にする。パケットはTED１４４０において並列に受信され得るが、TED１４４０は、GPPの処理の順序を定めるシーケンスに従い、そのようなパケットを順に処理する。実施形態では、TEFE１４１０A～１４１０Nのうちの１つ以上は、分配のためにマークされたテッセレーション作業を有してよい。分配のためにマークされたテッセレーション作業を有するこれらのTEFE１４１０A～１４１０Nは、互いに並列にTED１４４０と通信できる。TED１４４０は、各TEFE１４１０A～１４１０Nからのトラフィックを順に処理する責任がある。従来のアプローチでは、TEFE１４１０は、TED１４４０が特定のTEFE１４１０からの通信を受信する準備ができているという信号が受信されるまで、待機する必要があった。これに対して、実施形態は、TEFE１４１０がTED１４４０へテッセレーション作業を送信することを可能にし、TED１４４０が遵守するTEFEシーケンス順序でTEFE１４１０の順番を待つ必要がない。

【0207】

幾つかの実装では、TED１４４０は、TEFE１４１０から受信された分配のためにマークされた受信したパッチ送信（例えば、テッセレーション作業）をキューに入れるために使用されるキューのような記憶構造を含んでよい。TEFE１４１０は、シーケンシャル順序で、キューに入れられたパッチ送信を処理してよい。このシーケンシャル順序は、並列相互接続ジオメトリ固定機能ユニットの決定されたシーケンスにより定義される。

【0208】

実施形態は、TE（TEFE１４１０及びTEBE１４１５を含む）とTED１４４０との間の分配バリアに基づく同期を更に提供して、テッセレーション作業のパイプライン処理を可能にする。選択回路１４３０A～１４３０N（例えば、マルチプレクサ（mux））は、TEBE１４１５A～１４１５Nによるテッセレーション作業の処理を管理する制御ロジックとして、各TEにより実装されてよい。TED１４４０から来るパッチトラフィックとTEFE１４１０から直接来るパッチトラフィックとの間の切り替えのための選択線１４３５A～１４３５Nは、TEFE１４１０からTED１４４０への通信、及びTED１４４０からTEBE１４１５への通信を利用する。

【0209】

幾つかの実施形態では、TED１４４０へ分配のためにマークされたテッセレーション作業を送信することに続き、TEFE１４１０がローカル処理のためにマークされた（例えば、TEBE１４１５に直接送信されるべき）追加テッセレーション作業を受信した場合、TEFE１４１０は、ローカル処理のためにマークされたこのテッセレーション作業を、TEBE１４１５がこの作業を処理する前に同期バリアパケットがTED１４４０から受信されるのを待機すべきであることを示すマーカと共に、中間記憶（例えば、先入れ先出し（first in first out (FIFO)）キュー）へとプッシュできる。

【0210】

そのようなテッセレーション作業が中間記憶へ送信されるとき（例えば、その間、他のテッセレーション作業はTED１４４０への分配を保留される）、TEFE１４１０も、TED１４４０へ同期バリアパケットを送信する。同期バリアパケットは、TED１４４０により受信され処理されると、TED１４４０により全部のTEBE１４１５へブロードキャストされ得る。この同期バリアパケットは、それ自体のTEFE１４１０に対応するTEBE１４１５により受信され、その間、他のTEBE１４１５はそれをドロップする。一実装では、同期バリアパケットは、同期バリアパケットを生じたTEの識別子（ID）を含む。TEBE１４１５は、同期バリアパケット内のこのIDを利用して、同期バリアパケットを処理するか又は同期バリアパケットをドロップするかを決定できる。

【0211】

TEBE１４１５の動作に関して、TEBE１４１５は、TED１４４０からの通信を待機する。TEBE１４１５は、TEBE１４１５の実行できるTED１４４０からの作業を受信するか、又はTEBE１４１５は、TEFE１４１０から直接来るトラフィックを自身が処理できることを示す制御コマンドを受信する。更に、TEBE１４１５は、自身が同期バリアパケットを待機すべきであることを示すマーカを有するTEFE１４１０からの作業を受信すると、TEBE１４１５が同期バリアパケットを受信するまで、TED１４４０から作業又は制御パケットを読み出すことができる。TEBE１４１５は、TEBE１４１５がローカルトラフィックを処理すべきであると示すTED１４４０からの通信を受信すると、TEFE１４１０から中間記憶へと転送された作業の完全なバッチを処理し始める。

【0212】

幾つかの実装では、TEFE１４１０により処理されるバッチの中のテッセレーション作業の全部がローカルに処理されるべきであるとマークされている場合、TEFE１４１０は、制御サイクルをTED１４４０へ直ちに送信できる。また、TEFE１４１０は、ローカルとマークされた複数のそのようなバッチを連続して有してよく、TEFE１４１０は、バッチに対応する制御サイクルの数をTED１４４０へ直ちに送信できる。ステップ７では、TEFE１４１０は、作業を中間記憶（例えば、ローカルFIFOキュー）へと移動し始めることができる。

【0213】

図１５は、実施形態による、遅延を低減するテッセレーション再分配のためのテッセレーションエンジンを有するテッセレーション再分配システム１５００を示すブロック図である。一実装では、テッセレーション再分配システム１５００は、図１～１３に関して本願明細書で説明された例示的なGPGPU及び／又はGPUのようなGPGPU又はGPUを含んでよい。一実装では、テッセレーション再分配システム１５００は、TRB１５５０に通信可能に結合され（TEDと通信する）、TEFE１５１０及びTEBE５１５を有するテッセレーションエンジン１５０５を含む。TEFE１５１０及びTEBE１５１５は、それぞれ、図１４に関して説明したTEFE１４１０A～N及びTEBE１４１５A～Nと同じであってよい。TRB１５５０は、図１４に関して説明したTRB１４２０と同じであってよい。

【0214】

図示のように、TE１５０５は、TEFE１５１０、フロントエンドパッチ制御選択回路１５２０、中間記憶１５３０、バックエンドパッチ制御選択回路１５４０、TEBE１５１５、分配記憶１５７０、及び分配回路１５６０を含んでよい。TE１５０５は、本願明細書に記載されたものより多くの又は少ないコンポーネントを含んでよい。一実装では、フロントエンドパッチ制御選択回路１５２０、バックエンドパッチ制御選択回路１５４０、及び／又は、分配回路１５６０は、それぞれ、有限状態機械（finite state machine (FSM)）を実装してよい。フロントエンドパッチ制御選択回路１５２０は、前述のように、TRB１５５０により、TEDへの順方向送信を管理してよい。

【0215】

本願明細書の実施形態では、フロントエンドパッチ制御選択回路１５２０は、TEFE１５１０から受信されると直ぐにパッチ送信をTRB１５５０を介してTEDへ転送してよく、そのようなパッチ送信を転送するようTEDから信号を受信するのを待たない。これらの転送されたパッチ送信は、決定された順序に従い後に処理するために、TEDによりキューに入れられる。

【0216】

幾つかの実装では、中間記憶１５３０は、フロントエンドパッチ制御選択回路１５２０により中間記憶１５３０にプッシュされた（例えば、ローカル処理のためにマークされた）ローカルテッセレーション作業を受信してよい。一実装では、中間記憶１５３０は、TE１５０５のローカルFIFOであってよい。図１４に関して議論したように、中間記憶にプッシュされるテッセレーション作業は、同期バリアビットによりマークされてよい。該ビットは、そのような作業が、TEFE１５１０（又は幾つかの実装ではフロントエンドパッチ制御選択回路１５２０）によりTEDへ送信された同期バリアパケットに関連することを示す。

【0217】

バックエンドパッチ制御選択回路１５４０は、制御信号（例えば、図１４に関して説明したmux１４３０A～Nのようなmuxの制御選択線）を、TEFE１４１０／フロントエンドパッチ制御選択回路１５２０から受信したメッセージ及び（例えば、後述する分配回路１５６０を介して）TEDから受信したメッセージに基づき管理する。バックエンドパッチ制御選択回路１５４０は受信したメッセージに基づき制御信号をトグル（toggle）させて、TEBE１５１５に、中間記憶１５３０から又は分配記憶１５７０を介してTEDから受信したテッセレーション作業を処理させてよい。

【0218】

幾つかの実装では、分配記憶１５７０は、TEDにより送信されたテッセレーション作業を受信し格納するFIFOキューであってよい。分配回路１５６０は、（TRB１５５０を介して）TEDにより送信された、同期バリアパケットのような制御メッセージを受信し処理するよう動作してよい。例えば、分配回路１５６０はTE１５０５に対応するIDを有するTEDによりブロードキャストされた同期バリアパケットを受け付け渡し、その間に、TE１５０５のIDを含まない同期バリアパケットをドロップする、FSMを実装してよい。分配回路１５６０は、TEにより分配されたテッセレーション作業を、TEBE１５１５による後の処理のために、分配記憶１５７０にプッシュさせてよい。上述のように、TEBE１５１５は、TEBE１５１５にテッセレーション作業を処理することを開始させる、バックエンドパッチ制御選択回路からの制御信号に応答して、分配記憶１５７０から作業を取得し処理する。

【0219】

図１６は、プロセッサ内の遅延を低減するテッセレーション再分配のための方法の実施形態を示すフロー図である。方法１６００は、ハードウェアを含み得る処理ロジック（例えば、回路、専用ロジック、プログラマブルロジック、等）、ソフトウェア（例えば、処理装置上で実行する命令）、又はそれらの組み合わせにより実行されてよい。方法１６００の処理は、表現の簡単及び明確性のために線形シーケンスで示される。しかしながら、それらのうちの任意の数が並列に、非同期に、又は異なる順序で実行できると考えられる。更に、簡単、明確性、及び理解を容易にするために、図１～１７を参照して議論されるコンポーネント及び処理の多くは、以下に繰り返され又は議論されない。一実装では、図１４のプロセッサ１４００のようなプロセッサ、又は図１５のテッセレーションエンジン（TE）１５０５を含むプロセッサは、方法１６００を実行してよい。

【0220】

方法１６００は、処理ブロック１６１０で開始し、処理装置は、別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを提供してよい。一実装では、フロントエンドはパッチカリング及び送信を実行し、バックエンドはフロントエンドからのパッチ受信及びパッチテッセレーションを実行する。処理ブロック１６２０で、処理装置はテッセレーション再分配中央エンジンを提供し、フロントエンドとバックエンドとの間に設けられた再分配バスを用いて、バックエンドの間でパッチを再分配する。

【0221】

続いて、処理ブロック１６３０で、処理装置は、テッセレーション再分配中央エンジンにより、分配のためにマークされたパッチ送信をフロントエンドから並列に受信してよい。一実装では、テッセレーション再分配エンジンは、パッチ送信を順に処理する。最後に、処理ブロック１６４０で、処理装置は、フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、テッセレーション再分配中央エンジンによりブロードキャストしてよい。一実装では、バックエンドへの同期バリアパケットは、バックエンドのうちの１つに、テッセレーション作業をローカルに処理させる。

【0222】

図１７は、プロセッサ内の遅延を低減するテッセレーション再分配を実行するTEFEの方法１７００の実施形態を示すフロー図である。方法１７００は、ハードウェアを含み得る処理ロジック（例えば、回路、専用ロジック、プログラマブルロジック、等）、ソフトウェア（例えば、処理装置上で実行する命令）、又はそれらの組み合わせにより実行されてよい。方法１７００の処理は、表現の簡単及び明確性のために線形シーケンスで示される。しかしながら、それらのうちの任意の数が並列に、非同期に、又は異なる順序で実行できると考えられる。更に、簡単、明確性、及び理解を容易にするために、図１～１７を参照して議論されるコンポーネント及び処理の多くは、以下に繰り返され又は議論されない。一実装では、図１４のTEFE１４１０又は図１５のTEFE１５１０のような、プロセッサのTEFEが、方法１７００を実行してよい。

【0223】

方法１７００は、処理ブロック１７１０で開始し、処理装置が、TEFE１４１０からにおいて、テッセレーションエンジンによる処理のためのパッチを受信してよい。処理ブロック１７２０で、TEFEは、パッチがカリングされるべきであると決定することに応答して、パッチを破棄してよい。

【0224】

次に、決定ブロック１７３０で、TEFEは、パッチがローカルに処理されるかどうかを決定してよい。そうである場合、方法１７００は、処理ブロック１７４０へ進み、TEFEは、テッセレーションエンジンの中間記憶へパッチを送信し、中間記憶内のパッチに対応するエントリ内の同期バリアビットをマークしてよい。続いて、処理ブロック１７５０で、TEFEは、テッセレーションエンジンのIDを有する同期バリアパケットを、テッセレーション再分配中央エンジンへ送信してよい。

【0225】

他方で、決定ブロック１７３０で、TEFE１４１０からが、パッチはローカルに処理されないと決定した場合（例えば、TEDへの分配のためにマークされている）、方法１７００は、処理ブロック１７６０へ進んでよい。処理ブロック１７６０で、TEFEは、再分配バスを介して、テッセレーション再分配中央エンジンへパッチを送信してよい。

【0226】

図１８は、プロセッサ内の遅延を低減するテッセレーション再分配を実行するTEBEの方法１８００の実施形態を示すフロー図である。方法１８００は、ハードウェアを含み得る処理ロジック（例えば、回路、専用ロジック、プログラマブルロジック、等）、ソフトウェア（例えば、処理装置上で実行する命令）、又はそれらの組み合わせにより実行されてよい。方法１８００の処理は、表現の簡単及び明確性のために線形シーケンスで示される。しかしながら、それらのうちの任意の数が並列に、非同期に、又は異なる順序で実行できると考えられる。更に、簡単、明確性、及び理解を容易にするために、図１～１７を参照して議論されるコンポーネント及び処理の多くは、以下に繰り返され又は議論されない。一実装では、図１４のTEBE１４１５又は図１５のTEBE１５１５のような、プロセッサのTEBEが、方法１８００を実行してよい。

【0227】

方法１８００は、処理ブロック１８１０で開始し、処理装置は、TEBEで、パッチに関連する同期バリアパケットを示すマーカを有するテッセレーションエンジンでローカルに処理するためにマークされたパッチを受信してよい。一実装では、パッチは、テッセレーションエンジンの中間記憶に維持される。処理ブロック１８２０で、TEBEは、テッセレーション再分配中央エンジンからの同期バリアパケット又は制御パケットによりマークされていない作業をフロントエンドから読み出し、その間、受信したパッチは中間記憶に保持される。

【0228】

続いて、処理ブロック１８３０で、TEBEは、テッセレーション再分配中央エンジンから、テッセレーションエンジンのIDによりマークされた同期バリアパケットを受信してよい。最後に、処理ブロック１８４０で、TEBEは、同期バリアパケットを受信することに応答して、中間記憶からのパッチを処理してよい。

【0229】

以下の例は、更なる実施形態に関連する。例１は、プロセッサ内の遅延を低減するテッセレーション再分配を行う機器である。
（例１）機器であって、
プロセッサを含み、前記プロセッサは、
別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設け、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行し、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設け、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信し、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理し、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストして、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、機器。

【0230】

（例２）任意で、前記同期バリアパケットは、前記同期バリアパケットに対応する前記バックエンドのうちの前記１つに、前記バックエンドのうちの前記１つに対応する中間記憶から前記テッセレーション作業を読み出させ、前記バックエンドのうちの前記１つは、前記中間記憶から読み出した前記テッセレーション作業に対して前記パッチテッセレーションを実行する、例１に記載の機器。

【0231】

（例３）任意で、前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、例１又は２に記載の機器。

【0232】

（例４）任意で、前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、例１～３のいずれかに記載の機器。

【0233】

（例５）任意で、前記フロントエンドは、ローカル処理のためにマークされたテッセレーション作業を前記中間記憶へプッシュする、例１～４のいずれかに記載の機器。

【0234】

（例６）任意で、前記並列相互接続ジオメトリ固定機能ユニットの各々は、対応する中間記憶を含む、例１～５のいずれかに記載の機器。

【0235】

（例７）任意で、前記並列相互接続ジオメトリ固定機能ユニットの各々は、前記対応するバックエンドの各々に前記中間記憶又は前記再分配バスのいずれからのテッセレーション作業を処理するかを示す制御信号を切り換える選択回路を含む、例１～６のいずれかに記載の機器。

【0236】

（例８）任意で、前記テッセレーション再分配中央エンジンは、前記フロントエンドから受信した分配のためにマークされた前記パッチ送信をキュー入れ、キューに入れられた前記パッチ送信を順番に処理し、前記順番は前記並列相互接続ジオメトリ固定機能ユニットの決定されたシーケンスにより定められる、例１～７のいずれかに記載の機器。

【0237】

（例９）任意で、前記プロセッサはグラフィック処理ユニット（GPU）を含む、例１～８のいずれかに記載の機器。

【0238】

（例１０）任意で、前記機器は、単一命令複数データ（SIMD）マシン又は単一命令複数スレッド（SIMT）マシンのうちの少なくとも１つである、例１～９のいずれかに記載の機器。

【0239】

（例１１）プロセッサ内の遅延を低減するテッセレーション再分配を行う方法であって、
プロセッサにより、別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設けるステップであって、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行する、ステップと、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて、前記並列相互接続ジオメトリ固定機能ユニットの前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設けるステップと、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信するステップであって、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理する、ステップと、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストするステップであって、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、ステップと、
を含む方法。

【0240】

（例１２）任意で、前記同期バリアパケットは、前記同期バリアパケットに対応する前記バックエンドのうちの前記１つに、前記バックエンドのうちの前記１つに対応する中間記憶から前記テッセレーション作業を読み出させ、前記バックエンドのうちの前記１つは、前記中間記憶から読み出した前記テッセレーション作業に対して前記パッチテッセレーションを実行する、例１１に記載の方法。

【0241】

（例１３）任意で、前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、例１１又は１２に記載の機器。

【0242】

（例１４）任意で、前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、例１１～１３のいずれかに記載の機器。

【0243】

（例１５）任意で、前記並列相互接続ジオメトリ固定機能ユニットの各々は、対応する中間記憶を含み、前記並列相互接続ジオメトリ固定機能ユニットの各々は、前記対応するバックエンドの各々に前記中間記憶又は前記再分配バスのいずれからのテッセレーション作業を処理するかを示す制御信号を切り換える選択回路を含む、例１１～１４のいずれかに記載の方法。

【0244】

（例１６）任意で、前記テッセレーション再分配中央エンジンにより、前記フロントエンドから受信した分配のためにマークされた前記パッチ送信をキューに入れるステップと、
前記テッセレーション再分配中央エンジンにより、キューに入れられた前記パッチ送信を順番に処理するステップであって、前記順番は前記並列相互接続ジオメトリ固定機能ユニットの決定されたシーケンスにより定められる、ステップと、
を更に含む例１１～１５に記載の方法。

【0245】

例１７は、プロセッサ内の遅延を低減するテッセレーション再分配を行うための非一時的コンピュータ可読媒体である。
（例１７）命令を有することのできる非一時的コンピュータ可読媒体であって、前記命令は、１つ以上のプロセッサにより実行されると、該プロセッサに、
別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設けさせ、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行し、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて、前記並列相互接続ジオメトリ固定機能ユニットの前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設けさせ、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信させ、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理し、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストさせ、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、非一時的コンピュータ可読媒体。

【0246】

（例１８）任意で、前記同期バリアパケットは、前記同期バリアパケットに対応する前記バックエンドのうちの前記１つに、前記バックエンドのうちの前記１つに対応する中間記憶から前記テッセレーション作業を読み出させ、前記バックエンドのうちの前記１つは、前記中間記憶から読み出した前記テッセレーション作業に対して前記パッチテッセレーションを実行する、例１７に記載の非一時的コンピュータ可読媒体。

【0247】

（例１９）任意で、前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、例１７又は１８に記載の非一時的コンピュータ可読媒体。

【0248】

（例２０）任意で、前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、例１７～１９のいずれかに記載の非一時的コンピュータ可読媒体。

【0249】

例２１は、プロセッサ内の遅延を低減するテッセレーション再分配を行うシステムである。
（例２１）システムであって、
メモリと、複数のGPUの１つ以上のプロセッサと、を含み、
前記１つ以上のプロセッサは、
前記メモリに通信可能に結合され、
別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設け、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行し、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設け、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信し、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理し、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストして、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、
システム。

【0250】

（例２２）任意で、前記同期バリアパケットは、前記同期バリアパケットに対応する前記バックエンドのうちの前記１つに、前記バックエンドのうちの前記１つに対応する中間記憶から前記テッセレーション作業を読み出させ、前記バックエンドのうちの前記１つは、前記中間記憶から読み出した前記テッセレーション作業に対して前記パッチテッセレーションを実行する、例２１に記載のシステム。

【0251】

（例２３）任意で、前記同期バリアパケットは、前記同期バリアパケットを生じた前記並列相互接続ジオメトリ固定機能ユニットの識別子（ID）を含み、前記バックエンドは、前記IDを利用して、前記同期バリアパケットを処理するか又は前記同期バリアパケットをドロップするかを決定する、例２１又は２２に記載のシステム。

【0252】

（例２４）任意で、前記中間記憶は、先入れ先出し（FIFO）キューであり、前記FIFOキューの各エントリは、前記同期バリアパケットに関連付けられるエントリに格納されたテッセレーション作業に応答して設定される同期バリアビットを含む、例２１～２３のいずれかに記載のシステム。

【0253】

（例２５）任意で、前記フロントエンドは、ローカル処理のためにマークされたテッセレーション作業を前記中間記憶へプッシュする、例２１～２４のいずれかに記載のシステム。

【0254】

（例２６）任意で、前記並列相互接続ジオメトリ固定機能ユニットの各々は、対応する中間記憶を含む、例２１～２５のいずれかに記載のシステム。

【0255】

（例２７）任意で、前記並列相互接続ジオメトリ固定機能ユニットの各々は、前記対応するバックエンドの各々に前記中間記憶又は前記再分配バスのいずれからのテッセレーション作業を処理するかを示す制御信号を切り換える選択回路を含む、例２１～２６のいずれかに記載のシステム。

【0256】

（例２８）任意で、前記テッセレーション再分配中央エンジンは、前記フロントエンドから受信した分配のためにマークされた前記パッチ送信をキュー入れ、キューに入れられた前記パッチ送信を順番に処理し、前記順番は前記並列相互接続ジオメトリ固定機能ユニットの決定されたシーケンスにより定められる、例２１～２７のいずれかに記載のシステム。

【0257】

（例２９）任意で、前記プロセッサはグラフィック処理ユニット（GPU）を含む、例２１～２８のいずれかに記載のシステム。

【0258】

（例３０）任意で、前記機器は、単一命令複数データ（SIMD）マシン又は単一命令複数スレッド（SIMT）マシンのうちの少なくとも１つである、例２１～２９のいずれかに記載のシステム。

【0259】

（例３１）プロセッサ内の遅延を低減するテッセレーション再分配を行う機器であって、
別個のフロントエンド及びバックエンドを有する並列相互接続ジオメトリ固定機能ユニットを設ける手段であって、前記フロントエンドはパッチカリング及び送信を実行し、前記バックエンドは前記フロントエンドからのパッチ受信及びパッチテッセレーションを実行する、手段と、
前記フロントエンドと前記バックエンドとの間に設けられた再分配バスを用いて、前記並列相互接続ジオメトリ固定機能ユニットの前記バックエンドの間でパッチを再分配するテッセレーション再分配中央エンジンを設ける手段と、
前記テッセレーション再分配中央エンジンにより前記フロントエンドから並列に、分配のためにマークされたパッチ送信を受信する手段であって、前記テッセレーション再分配エンジンは前記パッチ送信を順に処理する、手段と、
前記フロントエンドのうちの１つから同期バリアパケットを受信することに応答して、前記テッセレーション再分配中央エンジンにより、前記同期バリアパケットを前記バックエンドへブロードキャストする手段であって、前記バックエンドのうちの１つにテッセレーション作業をローカルに処理させる、手段と、
を含む機器。

【0260】

（例３２）任意で、前記機器は例１２～１６のいずれかに記載の方法を実行するよう更に構成される、例３１に記載の機器。

【0261】

（例３３）複数の命令を含む少なくとも１つの機械可読媒体であって、前記命令は、コンピューティング装置上で実行されることに応答して、該コンピューティング装置に例１１～１６のいずれか一項に記載の方法を実行させる、機械可読媒体。

【0262】

（例３４）プロセッサ内の遅延を低減するテッセレーション再分配を行う機器であって、例１１～１６のいずれか一項に記載の方法を実行するよう構成される機器。

【0263】

（例３５）プロセッサ内の遅延を低減するテッセレーション再分配を行う機器であって、例１１～１６のいずれか一項に記載の方法を実行する手段を含む機器。例における具体的事項は、１つ以上の実施形態のどこで使用されてもよい。

【0264】

前述の説明及び図面は、限定的意味ではなく説明的意味で考えられるべきである。当業者は、種々の変形及び変更が、添付の特許請求の範囲に記載された広範な精神及び特徴の範囲から逸脱することなく、本願明細書に記載された実施形態に対して行われ得ることを理解する。

【符号の説明】

【0265】

１００処理システム
１０２プロセッサ
１０４キャッシュ
１０６レジスタファイル
１０７プロセッサコア
１０８グラフィックプロセッサ
１０９命令セット
１１０インタフェースバス
１１１ディスプレイ装置
１１２アクセラレータ
１１６メモリ制御部
１１８外部グラフィックプロセッサ
１１９外部アクセラレータ
１２０メモリ装置
１２１命令
１２２データ
１２４データ記憶装置
１２５タッチセンサ
１２６無線トランシーバ
１２８ファームウェアインタフェース
１３０プラットフォーム制御ハブ
１３４ネットワーク制御部
１４０レガシーI/O制御部
１４２ USB制御部
１４３キーボード／マウス
１４４カメラ
１４６オーディオ制御部

【図1】