特開2024-41826 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特開2024-41826ハイブリッド浮動小数点フォーマットのドット積累算命令を有するグラフィックスプロセッサ及びグラフィックス処理ユニット

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
3A
3B
3C
4A
4B
4C
4D
4E
4F
5
6
7
8
9A
9B
10
11
12
13
14
15A
15B
15C
16A
16B
16C
17
18A
18B
19
20
21
22A
22B
23
24A
24B
24C
24D
25
26A
26B
27
28
29

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024041826

(43)【公開日】2024-03-27

(54)【発明の名称】ハイブリッド浮動小数点フォーマットのドット積累算命令を有するグラフィックスプロセッサ及びグラフィックス処理ユニット

(51)【国際特許分類】

G06T 15/06 20110101AFI20240319BHJP

G06T 1/20 20060101ALI20240319BHJP

G06F 17/16 20060101ALI20240319BHJP

G06F 9/38 20180101ALI20240319BHJP

【ＦＩ】

G06T15/06

G06T1/20 B

G06T1/20 C

G06F17/16 M

G06F9/38 370C

G06F9/38 370A

【審査請求】有

【請求項の数】16

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023223711

(22)【出願日】2023-12-28

(62)【分割の表示】P 2022104265の分割

【原出願日】2020-03-14

(31)【優先権主張番号】62/819,337

(32)【優先日】2019-03-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/819,361

(32)【優先日】2019-03-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/819,435

(32)【優先日】2019-03-15

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】591003943

【氏名又は名称】インテル・コーポレーション

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】マイユラン、スブラマニアム

(72)【発明者】

【氏名】マーワハ、シュブラ

(72)【発明者】

【氏名】ガーグ、アシュトシュ

(72)【発明者】

【氏名】パル、スプラティム

(72)【発明者】

【氏名】パーラ、ジョージ

(72)【発明者】

【氏名】グラム、チャンドラ

(72)【発明者】

【氏名】ジョージ、ヴァルギース

(72)【発明者】

【氏名】スターキー、ダリン

(72)【発明者】

【氏名】ルエー、グエイ－ユアン

(57)【要約】（修正有）

【課題】ハイブリッド浮動小数点フォーマットのドット積累算命令を有するグラフィックスプロセッサ及びグラフィックス処理ユニットを提供する。
【解決手段】並列プロセッサであるグラフィックスマルチプロセッサが、命令をディスパッチする命令ユニットと、命令ユニットに結合された処理リソースである機能ユニットやＦＰＵなどと、を有する。処理リソースは、命令ユニットからドット積累算命令を受信して、Ｂｆｌｏａｔ１６数値（ＢＦ１６）フォーマットを用いてドット積累算命令を処理する。
【選択図】図２Ｄ

【特許請求の範囲】

【請求項1】

並列処理操作を行う複数の処理リソースを含む第１処理クラスタであって、前記並列処理操作は、レイトレーシング操作及び行列乗算演算を含み、前記複数の処理リソースは、データ相互接続を介して相互接続され、前記レイトレーシング操作を行うレイトレーシング回路及び前記行列乗算演算を行う第１行列処理回路を含む、第１処理クラスタと、
前記第１処理クラスタに結合された第２処理クラスタであって、前記第２処理クラスタは、前記行列乗算演算と関連した浮動小数点演算を行う浮動小数点ユニットを含む第２行列処理回路を含み、前記浮動小数点ユニットは、Ｂｆｌｏａｔ１６（ＢＦ１６）フォーマットを用いて命令を処理するように構成され、乗算器は第２ソースオペランドと第３ソースオペランドとを乗算し、累算器は前記乗算器からの出力と第１ソースオペランドとを加算する、第２処理クラスタと、
を備えるグラフィックスプロセッサ。

【請求項2】

前記命令は前記乗算器に、前記ＢＦ１６フォーマットを有する第２ソースオペランドと第３ソースオペランドとを乗算させ、前記累算器は前記乗算器からの出力と第１ソースオペランドとを加算する、請求項１に記載のグラフィックスプロセッサ。

【請求項3】

前記第１ソースオペランドは単精度浮動小数点フォーマットを有し、前記第２ソースオペランド及び前記第３ソースオペランドは前記ＢＦ１６フォーマットを有する、請求項２に記載のグラフィックスプロセッサ。

【請求項4】

前記レイトレーシング回路は、前記第１処理クラスタの処理リソースから受信した要求に応答して前記レイトレーシング操作を行うように構成される、請求項１に記載のグラフィックスプロセッサ。

【請求項5】

前記第１行列処理回路及び前記第２行列処理回路のそれぞれは、シストリックアレイを含む、請求項１に記載のグラフィックスプロセッサ。

【請求項6】

グラフィックス処理ユニット（ＧＰＵ）の命令キャッシュから第１命令をフェッチする段階であって、前記第１命令は、複数のオペランドを有する単一命令複数データ（ＳＩＭＤ）命令であり、前記複数のオペランドの少なくとも１つは、Ｂｆｌｏａｔ１６（ＢＦ１６）数値フォーマットであり、前記複数のオペランドは、第１ソースオペランド、第２ソースオペランド、及び第３ソースオペランドを含み、前記第１ソースオペランドは単精度浮動小数点フォーマットを有し、前記第２ソースオペランド及び前記第３ソースオペランドは前記ＢＦ１６数値フォーマットを有し、前記ＧＰＵは、前記命令キャッシュと結合された共有メモリと、前記共有メモリ及び前記命令キャッシュと結合された回路とを含む、フェッチする段階と、
前記第１命令に応答して、１ワープのスレッドを前記ＧＰＵの処理リソースにディスパッチする段階であって、前記処理リソースは、行列演算を加速させるハードウェアを含む第１コア、及び前記命令のスレッドを実行するように構成された第２コアを含む、ディスパッチする段階と、
前記第２コアを用いて前記第１命令の前記スレッドを実行する段階であって、前記第１命令の前記スレッドを実行する段階は、前記第２ソースオペランドの要素と前記第３ソースオペランドの要素とを乗算し、前記乗算の結果に前記第１ソースオペランドの要素を加算する段階を含む、実行する段階と
を備える方法。

【請求項7】

前記方法はさらに、前記第１コアを介して、前記ＢＦ１６数値フォーマットを有する入力に対して並列行列乗算演算を行う段階を備え、前記並列行列乗算演算は、第２命令に応答して行われ、前記第２命令は、前記第１命令と同時に実行される、請求項６に記載の方法。

【請求項8】

前記処理リソースは、単一命令複数スレッド（ＳＩＭＴ）マルチプロセッサであり、前記方法は、前記１ワープのスレッドを前記ＳＩＭＴマルチプロセッサにディスパッチする段階を備える、請求項７に記載の方法。

【請求項9】

前記ＳＩＭＴマルチプロセッサは、レイトレーシング操作を加速させる第３コアを含み、前記方法はさらに、前記第３コアを介して、前記第１命令及び前記第２命令の実行と並行してレイトレーシング操作を加速させる段階を備える、請求項８に記載の方法。

【請求項10】

前記方法はさらに、前記ＳＩＭＴマルチプロセッサの外部にあり且つ前記ＳＩＭＴマルチプロセッサと結合されたテクスチャ処理回路を介して、テクスチャ処理操作を行う段階を備える、請求項８に記載の方法。

【請求項11】

前記方法はさらに、前記第１命令に基づいて、前記第２コアを介してドット積演算を行う段階を備える、請求項８に記載の方法。

【請求項12】

前記方法はさらに、第３命令に基づいて、前記第１コアを介してドット積演算を行う段階を備える、請求項８に記載の方法。

【請求項13】

命令を格納するように構成されるメモリデバイスと、
前記メモリデバイスと結合されたグラフィックスプロセッサであって、
並列処理操作を行う複数の処理リソースを含む第１処理クラスタであって、前記並列処理操作は、レイトレーシング操作及び行列乗算演算を含み、前記複数の処理リソースは、データ相互接続を介して相互接続され、前記レイトレーシング操作を行うレイトレーシング回路及び前記行列乗算演算を行う第１行列処理回路を含む、第１処理クラスタと、
前記第１処理クラスタに結合された第２処理クラスタであって、前記第２処理クラスタは、前記行列乗算演算と関連した浮動小数点演算を行う浮動小数点ユニットを含む第２行列処理回路を含み、前記浮動小数点ユニットは、Ｂｆｌｏａｔ１６（ＢＦ１６）フォーマットを用いて命令を処理するように構成され、乗算器は第２ソースオペランドと第３ソースオペランドとを乗算し、累算器は前記乗算器からの出力と第１ソースオペランドとを加算する、第２処理クラスタと、
を有する前記グラフィックスプロセッサと、
を備えるデータ処理システム。

【請求項14】

前記命令は前記乗算器に、前記ＢＦ１６フォーマットを有する第２ソースオペランドと第３ソースオペランドとを乗算させ、前記累算器は前記乗算器からの出力と第１ソースオペランドとを加算する、請求項１３に記載のデータ処理システム。

【請求項15】

前記第１ソースオペランドは単精度浮動小数点フォーマットを有し、前記第２ソースオペランド及び前記第３ソースオペランドは前記ＢＦ１６フォーマットを有する、請求項１４に記載のデータ処理システム。

【請求項16】

前記レイトレーシング回路は、前記第１処理クラスタの処理リソースから受信した要求に応答して前記レイトレーシング操作を行うように構成される、請求項１３に記載のデータ処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本願は、以下の仮出願に関連しており、米国特許法第１１９条（ｅ）の定めにより、ＡｂｈｉｓｈｅｋＡｐｐｕらによる２０１９年３月１５日出願の「グラフィックス処理」と題する米国仮出願第６２／８１９，３３７号（代理人整理番号ＡＣ０２７１－Ｚ）、ＬａｋｓｈｍｉｎａｒａｙａｎａｎＳｔｒｉｒａｍａｓｓａｒｍａらによる２０１９年３月１５日出願の「グラフィックスデータ処理」と題する同第６２／８１９，４３５号（代理人整理番号ＡＣ０２８５－Ｚ）、及びＳｕｂｒａｍａｎｉａｍＭａｉｙｕｒａｎらによる２０１９年３月１５日出願の「キャッシュアクセス遅延を減らすためのシステム及びキャッシュ分割方法」と題する同第６２／８１９，３６１号（代理人整理番号ＡＣ０２８６－Ｚ）による利益と優先権とを主張し、これらの仮出願全ての内容は参照により本明細書に組み込まれている。

【0002】

本開示は概してデータ処理に関連しており、より具体的には、汎用グラフィックス処理ユニットによるデータ処理に関連している。

【背景技術】

【0003】

現在の並列グラフィックスデータ処理には、グラフィックスデータに対して特定の操作を行うために開発されたシステム及び方法、例えば、線形補間、テセレーション、ラスタライズ、テクスチャマッピング、デプステストなどが含まれている。これまで、グラフィックスプロセッサが固定機能計算ユニットを用いてグラフィックスデータを処理していたが、最近では、グラフィックスプロセッサの一部がプログラム可能になっており、そのようなプロセッサは、頂点データ及びフラグメントデータを処理する幅広い操作をサポートすることができる。

【0004】

さらに、性能を高めるために、グラフィックスプロセッサは通常、グラフィックスパイプラインの様々な部分の全体にわたって可能な限り多くのグラフィックスデータを並列に処理しようと試みるパイプライン化などの処理技法を実装している。単一命令複数スレッド（ＳＩＭＴ）アーキテクチャを備えた並列グラフィックスプロセッサでは、グラフィックスパイプラインでの並列処理の量を最大化するように設計されている。ＳＩＭＴアーキテクチャでは、処理効率を高めるために、並列スレッドのグループがプログラム命令を可能な限り頻繁に一緒に同期して実行しようと試みている。ＳＩＭＴアーキテクチャのソフトウェア及びハードウェアの概要については、「ＣＵＤＡＰｒｏｇｒａｍｍｉｎｇ」（ＳｈａｎｅＣｏｏｋ著、２０１３年）の第３章、３７～５１ページで確認できる。

【図面の簡単な説明】

【0005】

本実施形態の上述した各機能を詳細に理解できるような方式で、上記に簡単に要約した実施形態のより具体的な説明が、これらの実施形態を参照することにより行われてよく、その一部が添付図面に図示されている。しかしながら、これらの添付図面は代表的な実施形態を図示しているだけであり、したがって、その範囲の限定とみなすべきではないことに留意されたい。

【0006】

【図1】本明細書で説明される実施形態の１つ又は複数の態様を実装するように構成されたコンピュータシステムを示すブロック図である。

【0007】

【図2A】並列プロセッサの各コンポーネントを示している。

【図2B】並列プロセッサの各コンポーネントを示している。

【図2C】並列プロセッサの各コンポーネントを示している。

【図2D】並列プロセッサの各コンポーネントを示している。

【0008】

【図3A】グラフィックスマルチプロセッサ及びマルチプロセッサベースのＧＰＵに関するブロック図である。

【図3B】グラフィックスマルチプロセッサ及びマルチプロセッサベースのＧＰＵに関するブロック図である。

【図3C】グラフィックスマルチプロセッサ及びマルチプロセッサベースのＧＰＵに関するブロック図である。

【0009】

【図4A】複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合されている例示的なアーキテクチャを示している。

【図4B】複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合されている例示的なアーキテクチャを示している。

【図4C】複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合されている例示的なアーキテクチャを示している。

【図4D】複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合されている例示的なアーキテクチャを示している。

【図4E】複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合されている例示的なアーキテクチャを示している。

【図4F】複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合されている例示的なアーキテクチャを示している。

【0010】

【図5】グラフィックス処理パイプラインを示している。

【0011】

【図6】機械学習のソフトウェアスタックを示している。

【0012】

【図7】汎用グラフィックス処理ユニットを示している。

【0013】

【図8】マルチＧＰＵコンピュータ処理システムを示している。

【0014】

【図9A】例示的なディープニューラルネットワークの各層を示している。

【図9B】例示的なディープニューラルネットワークの各層を示している。

【0015】

【図10】例示的な再帰型ニューラルネットワークを示している。

【0016】

【図11】ディープニューラルネットワークの訓練及び展開を示している。

【0017】

【図12】分散型学習を示すブロック図である。

【0018】

【図13】訓練済みのモデルを用いた推論を行うのに好適な、例示的な推論用システムオンチップ（ＳｏＣ）を示している。

【0019】

【図14】処理システムのブロック図である。

【0020】

【図15A】コンピュータ処理システム及びグラフィックスプロセッサを示している。

【図15B】コンピュータ処理システム及びグラフィックスプロセッサを示している。

【図15C】コンピュータ処理システム及びグラフィックスプロセッサを示している。

【0021】

【図16A】別のグラフィックスプロセッサのアーキテクチャに関するブロック図を示している。

【図16B】別のグラフィックスプロセッサのアーキテクチャに関するブロック図を示している。

【図16C】別のコンピュートアクセラレータのアーキテクチャに関するブロック図を示している。

【0022】

【図17】グラフィックスプロセッサのグラフィックス処理エンジンに関するブロック図である。

【0023】

【図18A】グラフィックスプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジックを示している。

【図18B】グラフィックスプロセッサコアで使用される処理要素のアレイを含むスレッド実行ロジックを示している。

【0024】

【図19】別の実行ユニットを示している。

【0025】

【図20】グラフィックスプロセッサの命令フォーマットを示すブロック図である。

【0026】

【図21】別のグラフィックスプロセッサのアーキテクチャに関するブロック図である。

【0027】

【図22A】グラフィックスプロセッサコマンドフォーマットを示している。

【図22B】グラフィックスプロセッサコマンドシーケンスを示している。

【0028】

【図23】データ処理システム用の例示的なグラフィックスソフトウェアアーキテクチャを示している。

【0029】

【図24A】ＩＰコア開発システムを示すブロック図である。

【0030】

【図24B】集積回路パッケージアセンブリの垂直断面図を示している。

【0031】

【図24C】基板（例えば、ベースダイ）に接続された複数のハードウェアロジックチップレットのユニットを含むパッケージアセンブリを示している。

【0032】

【図24D】交換可能なチップレットを含むパッケージアセンブリを示している。

【0033】

【図25】例示的なシステムオンチップ集積回路を示すブロック図である。

【0034】

【図26A】ＳｏＣ内で用いる例示的なグラフィックスプロセッサを示すブロック図である。

【図26B】ＳｏＣ内で用いる例示的なグラフィックスプロセッサを示すブロック図である。

【0035】

【図27】処理リソース（例えば、機能ユニット、ＦＰＵ）でＢＦ１６フォーマットのＤＰ２Ａ命令を実行するための、１つの実施形態による回路２７００に関するブロック図を示している。

【0036】

【図28】ＦＰＵでＢＦ１６フォーマットのＤＰ２Ａ命令を実行するための、別の実施形態による回路２８００に関するブロック図を示している。

【0037】

【図29】ＦＰＵでＢＦ１６フォーマットのＤＰ２Ａ命令を実行するための、１つの実施形態による回路２９００に関するブロック図を示している。

【発明を実施するための形態】

【0038】

グラフィックス処理ユニット（ＧＰＵ）がホスト／プロセッサコアに通信可能に結合され、例えば、グラフィックス操作、機械学習操作、パターン分析操作、及び／又は汎用ＧＰＵ（ＧＰＧＰＵ）の様々な機能が加速される。ＧＰＵは、バス又は別の相互接続（例えば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）によって、ホストプロセッサ／コアに通信可能に結合されてよい。あるいは、ＧＰＵは、当該コアと同じパッケージ又はチップに統合されて、内蔵プロセッサバス／相互接続によって（つまり、パッケージ又はチップの内部にある）コアに通信可能に結合されてよい。ＧＰＵが接続される方式に関係なく、プロセッサコアは、作業記述子に含まれるコマンド／命令のシーケンスの形で、ＧＰＵに作業を割り当ててよい。ＧＰＵは次いで、これらのコマンド／命令を効率的に処理するのに専用回路／ロジックを用いる。

【0039】

以下の説明では、より十分な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、これらの具体的な詳細のうちの１つ又は複数がなくても、本明細書で説明される実施形態は実施され得ることが、当業者には明らかであろう。他の例では、本実施形態の詳細を不明瞭にしないように、よく知られた特徴を説明していない。
［システム概要］

【0040】

図１は、本明細書で説明される実施形態の１つ又は複数の態様を実装するように構成されたコンピュータ処理システム１００を示すブロック図である。コンピュータ処理システム１００は、１つ又は複数のプロセッサ１０２と、メモリハブ１０５を含み得る相互接続経路を介して通信するシステムメモリ１０４とを有する処理サブシステム１０１を含む。メモリハブ１０５は、チップセットコンポーネント内の別個のコンポーネントであってもよく、１つ又は複数のプロセッサ１０２に統合されてもよい。メモリハブ１０５は、通信リンク１０６を介してＩ／Ｏサブシステム１１１に結合されている。Ｉ／Ｏサブシステム１１１は、コンピュータ処理システム１００が１つ又は複数の入力デバイス１０８から入力を受信するのを可能にし得るＩ／Ｏハブ１０７を含む。さらに、Ｉ／Ｏハブ１０７は、１つ又は複数のプロセッサ１０２に含まれ得るディスプレイコントローラが１つ又は複数の表示デバイス１１０Ａに出力を供給するのを可能にできる。１つの実施形態において、Ｉ／Ｏハブ１０７に結合された１つ又は複数の表示デバイス１１０Ａは、ローカルの、内蔵型の、又は埋め込み型の表示デバイスを含んでよい。

【0041】

処理サブシステム１０１は、例えば、バス又は他の通信リンク１１３を介してメモリハブ１０５に結合された１つ又は複数の並列プロセッサ１１２を含む。通信リンク１１３は、任意の数の規格ベースの通信リンク技術又はプロトコル（限定されることはないが、ＰＣＩＥｘｐｒｅｓｓなど）のうちの１つであってもよく、ベンダ固有の通信インタフェース又は通信ファブリックであってもよい。１つ又は複数の並列プロセッサ１１２は、計算に重点を置いた、多数の処理コア及び／又は処理クラスタを含むことができる並列又はベクトル処理システム（多数のコアを統合した（ｍａｎｙｉｎｔｅｇｒａｔｅｄｃｏｒｅ：ＭＩＣ）プロセッサなど）を形成してよい。例えば、１つ又は複数の並列プロセッサ１１２は、Ｉ／Ｏハブ１０７を介して結合された１つ又は複数の表示デバイス１１０Ａのうちの１つにピクセルを出力できるグラフィックス処理サブシステムを形成する。１つ又は複数の並列プロセッサ１１２は、１つ又は複数の表示デバイス１１０Ｂへの直接的な接続を可能にするディスプレイコントローラ及びディスプレイインタフェース（不図示）も含んでよい。

【0042】

Ｉ／Ｏサブシステム１１１では、システムストレージユニット１１４がＩ／Ｏハブ１０７に接続して、コンピュータ処理システム１００にストレージメカニズムを提供できる。Ｉ／Ｏスイッチ１１６が、インタフェースメカニズムを提供するのに用いられ、Ｉ／Ｏハブ１０７と、このプラットフォームに統合され得るネットワークアダプタ１１８及び／又は無線ネットワークアダプタ１１９などの他のコンポーネントと、１つ又は複数のアドインデバイス１２０を介して追加され得る様々な他のデバイスとの接続を可能にしてよい。アドインデバイス１２０は、例えば、１つ又は複数の外付けグラフィックスプロセッサデバイス及び／又はコンピュートアクセラレータも含んでよい。ネットワークアダプタ１１８は、イーサネット（登録商標）アダプタであっても、別の有線ネットワークアダプタであってもよい。無線ネットワークアダプタ１１９は、Ｗｉ－Ｆｉ（登録商標）ネットワークデバイス、Ｂｌｕｅｔｏｏｔｈ（登録商標）ネットワークデバイス、近距離無線通信（ＮＦＣ）ネットワークデバイス、あるいは１つ又は複数の無線機を含む他のネットワークデバイスのうちの１つ又は複数を含んでよい。

【0043】

コンピュータ処理システム１００は、ＵＳＢポート接続又は他のポート接続、光学ストレージドライブ、及びビデオキャプチャデバイスなどを含む明示的に示されていない他のコンポーネントを含んでよく、Ｉ／Ｏハブ１０７にも接続されてよい。図１の様々なコンポーネントを相互接続する通信経路が、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）ベースのプロトコル（例えば、ＰＣＩ－Ｅｘｐｒｅｓｓ）などの任意の好適なプロトコル、あるいはＮＶ－Ｌｉｎｋ高速相互接続などの任意の他のバス又はポイントツーポイント通信インタフェース及び／若しくはプロトコル、又は当技術分野で知られている相互接続プロトコルを用いて実装されてよい。

【0044】

１つ又は複数の並列プロセッサ１１２は、グラフィックス及び映像の処理に最適化された回路（例えば、ビデオ出力回路を含む）を組み込んでよく、グラフィックス処理ユニット（ＧＰＵ）を構成する。代替的に又は追加的に、１つ又は複数の並列プロセッサ１１２は、汎用処理に最適化された回路を組み込んでよく、それと共に、本明細書でより詳細に説明される基礎的な計算アーキテクチャを保持する。コンピュータ処理システム１００の各コンポーネントは、単一の集積回路上にある１つ又は複数の他のシステム要素と統合されてよい。例えば、１つ又は複数の並列プロセッサ１１２、メモリハブ１０５、プロセッサ１０２、及びＩ／Ｏハブ１０７は、システムオンチップ（ＳｏＣ）型集積回路に統合されてよい。あるいは、コンピュータ処理システム１００の各コンポーネントは、単一のパッケージに統合されて、システムインパッケージ（ＳＩＰ）構成を形成してよい。１つの実施形態では、コンピュータ処理システム１００のコンポーネントの少なくとも一部がマルチチップモジュール（ＭＣＭ）に統合されてよく、当該マルチチップモジュールは、他のマルチチップモジュールと相互接続されてモジュール式コンピュータ処理システムになり得る。

【0045】

本明細書に示されるコンピュータ処理システム１００は例示であり、変形及び修正があり得ることが理解されるであろう。ブリッジの数及び配置、プロセッサ１０２の数、並びに並列プロセッサ１１２の数を含む接続トポロジは、要求通りに修正されてよい。例えば、システムメモリ１０４は、ブリッジを通じてではなく、プロセッサ１０２に直接的に接続されてよく、他のデバイスはメモリハブ１０５及びプロセッサ１０２を介してシステムメモリ１０４と通信する。他の代替トポロジにおいて、並列プロセッサ１１２は、メモリハブ１０５ではなくＩ／Ｏハブ１０７に、あるいは１つ又は複数のプロセッサ１０２のうちの１つに直接的に接続される。他の実施形態において、Ｉ／Ｏハブ１０７及びメモリハブ１０５は単一のチップに統合されてよい。プロセッサ１０２の２つ又はそれより多くのセットを複数のソケットを介して取り付けることも可能であり、これらのソケットは、並列プロセッサ１１２の２つ又はそれより多くのインスタンスと結合できる。

【0046】

本明細書に示される特定のコンポーネントの一部は任意的であり、コンピュータ処理システム１００の全ての実装形態に含まれなくてもよい。例えば、任意の数のアドインカード又は周辺機器がサポートされてもよく、いくつかのコンポーネントが除外されてもよい。さらに、いくつかのアーキテクチャが、図１に示すものと同様のコンポーネントに異なる用語を用いてもよい。例えば、メモリハブ１０５は、いくつかのアーキテクチャではノースブリッジと呼ばれることがあり、Ｉ／Ｏハブ１０７はサウスブリッジと呼ばれることがある。

【0047】

図２Ａは、並列プロセッサ２００を示している。並列プロセッサ２００は、本明細書で説明されるＧＰＵ又はＧＰＧＰＵなどであってよい。並列プロセッサ２００の様々なコンポーネントは、プログラム可能型プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの１つ又は複数の集積回路デバイスを用いて実装されてよい。図示されている並列プロセッサ２００は、図１に示す並列プロセッサ１１２であっても、そのうちの１つであってもよい。

【0048】

並列プロセッサ２００は並列処理ユニット２０２を含む。並列処理ユニットは、並列処理ユニット２０２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット２０４を含む。Ｉ／Ｏユニット２０４は、他のデバイスに直接的に接続されてよい。例えば、Ｉ／Ｏユニット２０４は、メモリハブ１０５などのハブ又はスイッチインタフェースの使用を介して他のデバイスと接続する。メモリハブ１０５とＩ／Ｏユニット２０４との接続によって、通信リンク１１３が形成される。並列処理ユニット２０２において、Ｉ／Ｏユニット２０４はホストインタフェース２０６及びメモリクロスバー２１６と接続する。ホストインタフェース２０６は処理操作の実行を対象とするコマンドを受信し、メモリクロスバー２１６はメモリ操作の実行を対象とするコマンドを受信する。

【0049】

ホストインタフェース２０６がＩ／Ｏユニット２０４を介してコマンドバッファを受信すると、ホストインタフェース２０６は、これらのコマンドを実行するための作業操作をフロントエンド２０８に送ることができる。１つの実施形態において、フロントエンド２０８は、コマンド又は他の作業項目を処理クラスタアレイ２１２に配分するように構成されているスケジューラ２１０と結合する。スケジューラ２１０は、処理クラスタアレイ２１２の処理クラスタにタスクが配分される前に必ず、処理クラスタアレイ２１２が適切に構成され且つ有効状態になるようにする。スケジューラ２１０は、マイクロコントローラ上で実行するファームウェアロジックによって実装されてよい。マイクロコントローラで実装されるスケジューラ２１０は、複雑なスケジューリングと作業配分操作とを粗粒度及び細粒度で行い、処理アレイ２１２上で実行しているスレッドの速やかなプリエンプション及びコンテキスト切り替えを可能にするように構成可能である。ホストソフトウェアは、複数のグラフィックス処理ドアベルのうちの１つを介して、処理アレイ２１２に対してスケジューリングするワークロードを確かめられることが好ましい。ワークロードは次に、スケジューラマイクロコントローラ内のスケジューラ２１０のロジックにより、処理アレイ２１２全体に自動的に配分されてよい。

【0050】

処理クラスタアレイ２１２は、「Ｎ個」までの処理クラスタ（例えば、クラスタ２１４Ａ、クラスタ２１４Ｂ、…、クラスタ２１４Ｎ）を含んでよい。処理クラスタアレイ２１２の各クラスタ２１４Ａ～２１４Ｎは、多数の同時スレッドを実行できる。スケジューラ２１０は、プログラム又は計算のタイプごとに発生するワークロードに応じて変わり得る様々なスケジューリングアルゴリズム及び／又は作業配分アルゴリズムを用いて、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎに作業を割り当てることができる。スケジューリングは、スケジューラ２１０によって動的に処理されてもよく、処理クラスタアレイ２１２による実行のために構成されたプログラムロジックのコンパイル時に、コンパイラロジックによって部分的に支援されてもよい。必要に応じて、処理クラスタアレイ２１２の個々のクラスタ２１４Ａ～２１４Ｎが、異なるタイプのプログラムを処理するために、又は異なるタイプの計算を行うために割り当てられてよい。

【0051】

処理クラスタアレイ２１２は、様々なタイプの並列処理操作を行うように構成されてよい。例えば、クラスタアレイ２１２は、汎用並列コンピュート操作を行うように構成されている。例えば、処理クラスタアレイ２１２は、ビデオデータ及び／又はオーディオデータのフィルタリング、物理演算を含むモデリング操作の実行、及びデータ変換の実行を含む処理タスクを実行するロジックを含んでよい。

【0052】

処理クラスタアレイ２１２は、並列グラフィックス処理操作を行うように構成されている。並列プロセッサ２００がグラフィックス処理操作を行うように構成されているそのような実施形態において、処理クラスタアレイ２１２は、そのようなグラフィックス処理操作の実行をサポートする別のロジックを含んでよく、そのようなロジックには、限定されることはないが、テクスチャ操作を行うテクスチャサンプリングロジック、並びにテセレーションロジック及び他の頂点処理ロジックが含まれる。さらに、処理クラスタアレイ２１２は、グラフィックス処理関連のシェーダプログラムを実行するように構成されてよく、そのようなシェーダプログラムには、限定されることはないが、頂点シェーダ、テセレーションシェーダ、ジオメトリシェーダ、及びピクセルシェーダなどがある。並列処理ユニット２０２は、Ｉ／Ｏユニット２０４を介して処理のために、システムメモリからデータを転送できる。処理する際、転送されたデータは処理中にオンチップメモリ（例えば、並列プロセッサメモリ２２２）に格納され、次いでシステムメモリにライトバックされてよい。

【0053】

並列処理ユニット２０２を用いてグラフィックス処理を行う実施形態において、スケジューラ２１０は、処理ワークロードをほぼ等しいサイズの複数のタスクに分割して、処理クラスタアレイ２１２の複数のクラスタ２１４Ａ～２１４Ｎにグラフィックス処理操作をより効果的に配分できるように構成されてよい。これらの実施形態のいくつかでは、処理クラスタアレイ２１２の一部が、異なるタイプの処理を行うように構成されてよい。例えば、レンダリングされた表示用の画像を生成するために、第１部分が頂点シェーディング及びトポロジ生成を行うように構成されてよく、第２部分がテセレーション及びジオメトリシェーディングを行うように構成されてよく、第３部分がピクセルシェーディング又は他のスクリーン空間操作を行うように構成されてよい。クラスタ２１４Ａ～２１４Ｎのうちの１つ又は複数によって生成される中間データがバッファに格納され、当該中間データがさらなる処理のためにクラスタ２１４Ａ～２１４Ｎに送られることを可能にしてよい。

【0054】

動作に際して、処理クラスタアレイ２１２は、実行される処理タスクをスケジューラ２１０を介して受信でき、スケジューラ２１０は、処理タスクを定めるコマンドをフロントエンド２０８から受信する。グラフィックス処理操作では、処理タスクが、処理されるデータ（例えば、サーフェス（パッチ）データ、プリミティブデータ、頂点データ、及び／又はピクセルデータ）のインデックス、並びにデータがどのように処理されるのか（例えば、どのプログラムが実行されるのか）を定める状態パラメータ及びコマンドを含んでよい。スケジューラ２１０は、当該タスクに対応するインデックスをフェッチするように構成されてもよく、このインデックスをフロントエンド２０８から受信してもよい。フロントエンド２０８は、受信コマンドバッファ（例えば、バッチバッファ、プッシュバッファなど）により指定されるワークロードが開始される前に必ず、処理クラスタアレイ２１２が有効状態になるように構成されるように構成されてよい。

【0055】

並列処理ユニット２０２の１つ又は複数のインスタンスのそれぞれは、並列プロセッサメモリ２２２と結合できる。並列プロセッサメモリ２２２は、メモリクロスバー２１６を介してアクセスされてよく、当該メモリクロスバーは処理クラスタアレイ２１２及びＩ／Ｏユニット２０４からメモリ要求を受信できる。メモリクロスバー２１６は、並列プロセッサメモリ２２２にメモリインタフェース２１８を介してアクセスできる。メモリインタフェース２１８は、それぞれが並列プロセッサメモリ２２２の一部（例えば、メモリユニット）に結合できる複数のパーティションユニット（例えば、パーティションユニット２２０Ａ、パーティションユニット２２０Ｂ、…、パーティションユニット２２０Ｎ）を含んでよい。第１パーティションユニット２２０Ａが、対応する第１メモリユニット２２４Ａを有し、第２パーティションユニット２２０Ｂが、対応するメモリユニット２２４Ｂを有し、第Ｎパーティションユニット２２０Ｎが、対応する第Ｎメモリユニット２２４Ｎを有するように、パーティションユニット２２０Ａ～２２０Ｎの数はメモリユニットの数と等しくなるように構成されてよい。他の実施形態において、パーティションユニット２２０Ａ～２２０Ｎの数は、メモリデバイスの数と等しくなくてもよい。

【0056】

メモリユニット２２４Ａ～２２４Ｎは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、又はグラフィックスダブルデータレート（ＧＤＤＲ）メモリを含む同期式グラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）などのグラフィックスランダムアクセスメモリを含む様々なタイプのメモリデバイスを含んでよい。必要に応じて、メモリユニット２２４Ａ～２２４Ｎは、限定されることはないが、高帯域幅メモリ（ＨＢＭ）を含む３Ｄスタックメモリも含んでよい。当業者であれば、メモリユニット２２４Ａ～２２４Ｎの具体的な実装形態は様々であってよく、様々な従来方式のうちの１つから選択されてよいことを理解するであろう。フレームバッファ又はテクスチャマップなどのレンダーターゲットがメモリユニット２２４Ａ～２２４Ｎの全体に格納され、パーティションユニット２２０Ａ～２２０Ｎが、各レンダーターゲットの一部を並列に書き込み、並列プロセッサメモリ２２２の利用可能な帯域幅を効率的に用いることを可能にしてよい。いくつかの実施形態では、並列プロセッサメモリ２２２のローカルインスタンスが、ローカルキャッシュメモリと併用してシステムメモリを利用する統合メモリ方式を優先して除外されてよい。

【0057】

必要に応じて、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎのうちのいずれか１つが、並列プロセッサメモリ２２２内のメモリユニット２２４Ａ～２２４Ｎのうちのいずれかに書き込まれるデータを処理する能力を有する。メモリクロスバー２１６は、各クラスタ２１４Ａ～２１４Ｎの出力を任意のパーティションユニット２２０Ａ～２２０Ｎ又は別のクラスタ２１４Ａ～２１４Ｎに転送するように構成されてよく、このパーティションユニット又は別のクラスタは、出力に対して別の処理操作を行うことができる。各クラスタ２１４Ａ～２１４Ｎは、メモリクロスバー２１６を通じてメモリインタフェース２１８と通信して、様々な外付けメモリデバイスとの間で読み出し又は書き込みを行うことができる。メモリクロスバー２１６を有する実施形態のうちの１つにおいて、メモリクロスバー２１６は、Ｉ／Ｏユニット２０４と通信するためのメモリインタフェース２１８への接続と、並列プロセッサメモリ２２２のローカルインスタンスへの接続とを有し、異なる処理クラスタ２１４Ａ～２１４Ｎ内の処理ユニットが並列処理ユニット２０２のローカルではないシステムメモリ又は他のメモリと通信することを可能にする。一般に、メモリクロスバー２１６は、例えば、クラスタ２１４Ａ～２１４Ｎとパーティションユニット２２０Ａ～２２０Ｎとの間のトラフィックストリームを分離するのに仮想チャネルを用いることができてよい。

【0058】

並列プロセッサ２００には並列処理ユニット２０２の１つのインスタンスが示されているが、並列処理ユニット２０２の任意の数のインスタンスが含まれてよい。例えば、並列処理ユニット２０２の複数のインスタンスを１つのアドインカードに設けることができ、複数のアドインカードを相互接続することができる。並列処理ユニット２０２の個々のインスタンスは、個々のインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサメモリ、及び／又は他の構成上の違いを有していても、相互に連動するように構成されてよい。必要に応じて、並列処理ユニット２０２の一部のインスタンスが他のインスタンスよりも高精度の浮動小数点ユニット２６４を含んでよい。並列処理ユニット２０２又は並列プロセッサ２００の１つ又は複数のインスタンスを組み込むシステムが、様々な構成及びフォームファクタで実現されてよく、このシステムには、限定されることはないが、デスクトップ、ラップトップ、ハンドヘルド型パーソナルコンピュータ、サーバ、ワークステーション、ゲームコンソール、及び／又は埋め込みシステムが含まれる。

【0059】

図２Ｂは、パーティションユニット２２０のブロック図である。パーティションユニット２２０は、図２Ａに示すパーティションユニット２２０Ａ～２２０Ｎのうちの１つのインスタンスであってよい。図示されているように、パーティションユニット２２０は、Ｌ２キャッシュ２２１、メタデータ（例えば、コントロールサーフェスアップデート、圧縮値）を格納するメタデータキャッシュ２２４、フレームバッファインタフェース２２５、及びＲＯＰ２２６（ラスタ操作ユニット）を含む。Ｌ２キャッシュ２２１は、メモリクロスバー２１６及びＲＯＰ２２６から受信するロード操作及びストア操作を行うように構成された読み出し／書き込みキャッシュである。読み出しミス及び緊急のライトバック要求が、処理のためにＬ２キャッシュ２２１によってフレームバッファインタフェース２２５に出力される。これらのアップデートも、処理のためにフレームバッファインタフェース２２５を介してフレームバッファに送信されてよい。１つの実施形態において、フレームバッファインタフェース２２５は、図２Ａに示すメモリユニット２２４Ａ～２２４Ｎなどの、並列プロセッサメモリ内の（例えば、並列プロセッサメモリ２２２内の）複数のメモリユニットのうちの１つとインタフェースで接続する。パーティションユニット２２０も、追加的に又は代替的に、並列プロセッサメモリ内の複数のメモリユニットのうちの１つとメモリコントローラ（不図示）を介してインタフェースで接続してよい。

【0060】

グラフィックスアプリケーションでは、ＲＯＰ２２６は、ステンシル、ｚテスト、及びブレンディングなどのラスタ操作を行う処理ユニットである。ＲＯＰ２２６は次いで、グラフィックスメモリに格納されている処理済みのグラフィックスデータを出力する。いくつかの実施形態において、ＲＯＰ２２６は、メモリに書き込まれるデプスデータ及びカラーデータを圧縮し且つメモリから読み出されたデプスデータ又はカラーデータを復元する圧縮ロジックを含む。圧縮ロジックは、複数の圧縮アルゴリズムのうちの１つ又は複数を利用する可逆圧縮ロジックであってよい。ＲＯＰ２２６により行われる圧縮のタイプは、圧縮されるデータの統計的特性に基づいて異なってよい。例えば、１つの実施形態では、デプスデータ及びカラーデータに対してデルタカラー圧縮がタイルごとに行われる。

【0061】

ＲＯＰ２２６は、パーティションユニット２２０に含まれる代わりに、各処理クラスタ（例えば、図２Ａのクラスタ２１４Ａ～２１４Ｎ）に含まれてもよい。そのような実施形態では、ピクセルデータの読み出し要求及び書き込み要求が、ピクセルフラグメントデータの代わりに、メモリクロスバー２１６によって送られる。処理済みのグラフィックスデータは、図１に示す１つ又は複数の表示デバイス１１０のうちの１つなどの表示デバイスに表示され、プロセッサ１０２によるさらなる処理のために送られても、図２Ａに示す並列プロセッサ２００内の複数の処理エンティティのうちの１つによるさらなる処理のために送られてもよい。

【0062】

図２Ｃは、並列処理ユニット内の処理クラスタ２１４のブロック図である。例えば、処理クラスタは、図２Ａに示す処理クラスタ２１４Ａ～２１４Ｎのうちの１つのインスタンスである。処理クラスタ２１４は、多くのスレッドを並列に実行するように構成されてよく、「スレッド」という用語は、特定のセットの入力データに対して実行される特定のプログラムのインスタンスを意味する。必要に応じて、複数の独立した命令ユニットを提供するのではなく、単一命令複数データ（ＳＩＭＤ）型の命令発行技法が、多数のスレッドの並列実行をサポートするのに用いられてよい。あるいは、複数の処理クラスタのそれぞれにある処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを用いて、単一命令複数スレッド（ＳＩＭＴ）技法が、通常、同期した多数のスレッドの並列実行をサポートするのに用いられてよい。全ての処理エンジンが通常全く同じ命令を実行するＳＩＭＤ実行方式とは異なり、ＳＩＭＴ実行では、個々のスレッドが所与のスレッドプログラムによって分岐実行パスをより容易にたどることが可能になる。当業者であれば、ＳＩＭＤ処理方式が、ＳＩＭＴ処理方式の機能的サブセットを表していることを理解するであろう。

【0063】

処理クラスタ２１４の操作が、処理タスクをＳＩＭＴ並列プロセッサに配分するパイプラインマネージャ２３２を介して制御されてよい。パイプラインマネージャ２３２は、図２Ａのスケジューラ２１０から命令を受信し、これらの命令の実行をグラフィックスマルチプロセッサ２３４及び／又はテクスチャユニット２３６を介して管理する。図示されたグラフィックスマルチプロセッサ２３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかしながら、異なるアーキテクチャの様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ２１４に含まれてもよい。グラフィックスマルチプロセッサ２３４の１つ又は複数のインスタンスが、処理クラスタ２１４に含まれてもよい。グラフィックスマルチプロセッサ２３４はデータを処理することができ、データクロスバー２４０が、処理済みのデータを、他のシェーダユニットを含む複数の考え得る送信先のうちの１つに配分するのに用いられてよい。パイプラインマネージャ２３２は、データクロスバー２４０を介して配分される処理済みのデータの送信先を指定することで、処理済みのデータの配分を容易にすることができる。

【0064】

処理クラスタ２１４内の各グラフィックスマルチプロセッサ２３４は、全く同じセットの機能実行ロジック（例えば、算術論理ユニット、ロードストアユニットなど）を含んでよい。機能実行ロジックは、前の命令が完了する前に新たな命令を発行できるパイプライン方式で構成されてよい。機能実行ロジックは、整数及び浮動小数点算術、比較演算、ブール演算、ビットシフト、及び様々な代数関数の計算を含む様々な演算をサポートする。同じ機能ユニットのハードウェアを活用すれば、様々な演算を行うことができ、また、機能ユニットのあらゆる組み合わせが存在し得る。

【0065】

処理クラスタ２１４に送られる命令は、スレッドを構成する。並列処理エンジンのセット全体で実行するスレッドのセットが、スレッドグループである。スレッドグループは、異なる入力データに対して同じプログラムを実行する。スレッドグループ内の各スレッドは、グラフィックスマルチプロセッサ２３４内の異なる処理エンジンに割り当てられてよい。スレッドグループは、グラフィックスマルチプロセッサ２３４内の処理エンジンの数よりも少ないスレッドを含んでよい。スレッドグループが処理エンジンの数よりも少ないスレッドを含んでいる場合、これらの処理エンジンのうちの１つ又は複数が、スレッドグループの処理サイクル中に休止していてもよい。スレッドグループは、グラフィックスマルチプロセッサ２３４内の処理エンジンの数より多くのスレッドも含んでよい。スレッドグループがグラフィックスマルチプロセッサ２３４内の処理エンジンの数より多くのスレッドを含む場合、連続したクロックサイクルにわたって処理を実行できる。必要に応じて、グラフィックスマルチプロセッサ２３４で複数のスレッドグループが同時に実行されてもよい。

【0066】

グラフィックスマルチプロセッサ２３４は、ロード操作及びストア操作を行うための内蔵キャッシュメモリを含んでよい。必要に応じて、グラフィックスマルチプロセッサ２３４は内蔵キャッシュなしで済ませ、処理クラスタ２１４内のキャッシュメモリ（例えば、Ｌ１キャッシュ２４８）を用いることができる。各グラフィックスマルチプロセッサ２３４は、全ての処理クラスタ２１４に共有され且つスレッド間でデータを転送するのに用いられ得る、パーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）内のＬ２キャッシュにもアクセスできる。グラフィックスマルチプロセッサ２３４は、オフチップグローバルメモリにもアクセスしてよく、このメモリはローカル並列プロセッサメモリ及び／又はシステムメモリのうちの一方又は両方を含んでよい。並列処理ユニット２０２の外部にある任意のメモリが、グローバルメモリとして用いられてよい。処理クラスタ２１４がグラフィックスマルチプロセッサ２３４の複数のインスタンスを含む実施形態では、Ｌ１キャッシュ２４８に格納され得る共通の命令及びデータを共有できる。

【0067】

各処理クラスタ２１４は、仮想アドレスを物理アドレスにマッピングするように構成されたＭＭＵ（メモリ管理ユニット）２４５を含んでよい。他の実施形態では、ＭＭＵ２４５の１つ又は複数のインスタンスが、図２Ａのメモリインタフェース２１８に存在してよい。ＭＭＵ２４５は、仮想アドレスをタイルの物理アドレス及び必要に応じてキャッシュラインインデックスにマッピングするのに用いられるページテーブルエントリ（ＰＴＥ）のセットを含む。ＭＭＵ２４５は、グラフィックスマルチプロセッサ２３４又はＬ１キャッシュ又は処理クラスタ２１４に存在し得るアドレス変換ルックアサイドバッファ（ＴＬＢ）若しくはキャッシュを含んでよい。物理アドレスが処理されて、サーフェスデータアクセスの局所性が配分され、パーティションユニット間で効率的なリクエストインタリーブを可能にする。キャッシュラインインデックスは、キャッシュラインの要求がヒットなのかミスなのかを判定するのに用いられてよい。

【0068】

グラフィックスアプリケーション及びコンピュータ処理アプリケーションにおいて、処理クラスタ２１４は、テクスチャマッピング操作を行うための、例えば、テクスチャサンプル位置の決定、テクスチャデータの読み出し、及びテクスチャデータのフィルタリングを行うためのテクスチャユニット２３６に各グラフィックスマルチプロセッサ２３４が結合されるように構成され得る。テクスチャデータは、内蔵テクスチャＬ１キャッシュ（不図示）から、又はいくつかの実施形態ではグラフィックスマルチプロセッサ２３４内のＬ１キャッシュから読み出され、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサメモリ、又はシステムメモリからフェッチされる。各グラフィックスマルチプロセッサ２３４は、処理済みのタスクをデータクロスバー２４０に出力し、さらなる処理のために処理済みのタスクを別の処理クラスタ２１４に提供するか、又は処理済みのタスクをメモリクロスバー２１６を介してＬ２キャッシュ、ローカル並列プロセッサメモリ、又はシステムメモリに格納する。プリＲＯＰ２４２（プリラスタ操作ユニット）が、グラフィックスマルチプロセッサ２３４からデータを受信し、データをＲＯＰユニットに送るように構成されており、ＲＯＰユニットは、本明細書で説明したパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）と共に配置されてよい。プリＲＯＰ２４２ユニットは、カラーブレンディングの最適化を行い、ピクセルカラーデータを編成し、アドレス変換を行うことができる。

【0069】

本明細書で説明されるコアアーキテクチャは例示であり、変形及び修正があり得ることが理解されるであろう。任意の数の処理ユニット、例えば、グラフィックスマルチプロセッサ２３４、テクスチャユニット２３６、プリＲＯＰ２４２などが、処理クラスタ２１４に含まれてよい。さらに、１つの処理クラスタ２１４しか示されていないが、本明細書で説明される並列処理ユニットは、処理クラスタ２１４の任意の数のインスタンスを含んでよい。必要に応じて、各処理クラスタ２１４は、別個の異なる処理ユニット、Ｌ１キャッシュなどを用いて、他の処理クラスタ２１４から独立して動作するように構成されてよい。

【0070】

図２Ｄは、グラフィックスマルチプロセッサ２３４の一例を示しており、ここでは、グラフィックスマルチプロセッサ２３４は処理クラスタ２１４のパイプラインマネージャ２３２と結合する。グラフィックスマルチプロセッサ２３４は、限定されることはないが、命令キャッシュ２５２、命令ユニット２５４、アドレスマッピングユニット２５６、レジスタファイル２５８、１つ又は複数の汎用グラフィックス処理ユニット（ＧＰＧＰＵ）コア２６２、及び１つ又は複数のロード／ストアユニット２６６を含む実行パイプラインを有する。ＧＰＧＰＵコア２６２及びロード／ストアユニット２６６は、メモリ及びキャッシュ相互接続２６８を介して、キャッシュメモリ２７２及び共有メモリ２７０に結合されている。グラフィックスマルチプロセッサ２３４はさらに、行列演算及び／又はレイトレーシング操作を加速させるハードウェアロジックを含むテンソル及び／又はレイトレーシングコア２６３を含んでよい。

【0071】

命令キャッシュ２５２は、パイプラインマネージャ２３２から、実行する一連の命令を受信してよい。これらの命令は命令キャッシュ２５２にキャッシュされ、命令ユニット２５４による実行のためにディスパッチされる。命令ユニット２５４は、スレッドグループ（例えば、ワープ）として命令をディスパッチでき、スレッドグループの各スレッドがＧＰＧＰＵコア２６２内の様々な実行ユニットに割り当てられる。命令は、統合アドレス空間内のアドレスを指定することで、ローカルアドレス空間、共有アドレス空間、又はグローバルアドレス空間のうちのいずれかにアクセスできる。アドレスマッピングユニット２５６は、統合アドレス空間内のアドレスを、ロード／ストアユニット２６６がアクセスできる別のメモリアドレスに変換するのに用いられてよい。

【0072】

レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４の機能ユニットにレジスタのセットを提供する。レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４の機能ユニット（例えば、ＧＰＧＰＵコア２６２、ロード／ストアユニット２６６）のデータパスに接続されたオペランド用一時記憶を提供する。レジスタファイル２５８は、各機能ユニットがレジスタファイル２５８の専用部分に割り当てられるように、各機能ユニットに分割されてよい。例えば、レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４が実行する様々なワープに分割されてよい。

【0073】

これらのＧＰＧＰＵコア２６２はそれぞれ、グラフィックスマルチプロセッサ２３４の命令を実行するのに用いられる機能ユニット（例えば、浮動小数点ユニット２６４（ＦＰＵ）及び／又は整数算術論理ユニット（ＡＬＵ））を含んでよい。いくつかの実装形態において、ＧＰＧＰＵコア２６２は、別の場合にはテンソル及び／又はレイトレーシングコア２６３内に存在し得るハードウェアロジックを含んでよい。これらのＧＰＧＰＵコア２６２はアーキテクチャが同様であってもよく、アーキテクチャが異なっていてもよい。例えば、１つの実施形態では、ＧＰＧＰＵコア２６２の第１部分が単精度ＦＰＵ及び整数ＡＬＵを含み、ＧＰＧＰＵコアの第２部分が倍精度ＦＰＵを含む。必要に応じて、ＦＰＵは、浮動小数点算術用のＩＥＥＥ７５４－２００８規格を実装できる、又は可変精度の浮動小数点算術を可能にできる。グラフィックスマルチプロセッサ２３４はさらに、長方形コピー操作又はピクセルブレンディング操作などの特定の機能を行う１つ又は複数の固定機能ユニット又は特殊機能ユニットを含んでよい。複数のＧＰＧＰＵコアのうちの１つ又は複数も、固定機能ロジック又は特殊機能ロジックを含んでよい。

【0074】

ＧＰＧＰＵコア２６２は、データの複数のセットに対して単一命令を実行できるＳＩＭＤロジックを含んでよい。必要に応じて、ＧＰＧＰＵコア２６２は、ＳＩＭＤ４命令、ＳＩＭＤ８命令、及びＳＩＭＤ１６命令を物理的に実行でき、ＳＩＭＤ１命令、ＳＩＭＤ２命令、及びＳＩＭＤ３２命令を論理的に実行できる。ＧＰＧＰＵコア用のＳＩＭＤ命令は、コンパイル時にシェーダコンパイラによって生成されてもよく、単一プログラム複数データ（ＳＰＭＤ）アーキテクチャ又はＳＩＭＴアーキテクチャ用に記述されコンパイルされたプログラムを実行するときに自動的に生成されてもよい。ＳＩＭＴ実行モデル用に構成されたプログラムの複数のスレッドが、１つのＳＩＭＤ命令によって実行されてよい。例えば、１つの実施形態では、同じ又は同様の操作を行う８個のＳＩＭＴスレッドが、１つのＳＩＭＤ８論理ユニットによって並列に実行されてよい。

【0075】

メモリ及びキャッシュ相互接続２６８は、グラフィックスマルチプロセッサ２３４の各機能ユニットをレジスタファイル２５８及び共有メモリ２７０に接続する相互接続ネットワークである。例えば、メモリ及びキャッシュ相互接続２６８は、ロード／ストアユニット２６６が共有メモリ２７０とレジスタファイル２５８との間でロード操作及びストア操作を行うのを可能にするクロスバー相互接続である。レジスタファイル２５８はＧＰＧＰＵコア２６２と同じ周波数で動作できるので、ＧＰＧＰＵコア２６２とレジスタファイル２５８との間のデータ転送遅延が非常に低い。共有メモリ２７０は、グラフィックスマルチプロセッサ２３４内の機能ユニットで実行するスレッド間の通信を可能にするのに用いられてよい。キャッシュメモリ２７２は、例えば、機能ユニットとテクスチャユニット２３６との間で通信されるテクスチャデータをキャッシュするデータキャッシュとして用いられてよい。共有メモリ２７０も、プログラム管理キャッシュとして用いられてよい。ＧＰＧＰＵコア２６２で実行するスレッドは、キャッシュメモリ２７２に格納される自動的にキャッシュされるデータに加えて、データを共有メモリにプログラムで格納できる。

【0076】

図３Ａ～図３Ｃは、複数の実施形態による別のグラフィックスマルチプロセッサを示している。図３Ａ～図３Ｂはグラフィックスマルチプロセッサ３２５、３５０を示している。これらは、図２Ｃのグラフィックスマルチプロセッサ２３４に関連しており、そのうちの１つの代わりに用いられてよい。したがって、グラフィックスマルチプロセッサ２３４と組み合わせたあらゆる機能のここでの開示は、グラフィックスマルチプロセッサ３２５、３５０との対応する組み合わせも開示するが、そのように限定されることはない。図３Ｃは、グラフィックスマルチプロセッサ３２５、３５０に対応するマルチコアグループ３６５Ａ～３６５Ｎに配置される専用のグラフィックス処理リソースのセットを含むグラフィックス処理ユニット（ＧＰＵ）３８０を示している。図示されたグラフィックスマルチプロセッサ３２５、３５０、及びマルチコアグループ３６５Ａ～３６５Ｎは、多数の実行スレッドの同時実行ができるストリーミングマルチプロセッサ（ＳＭ）であってよい。

【0077】

図３Ａのグラフィックスマルチプロセッサ３２５は、図２Ｄのグラフィックスマルチプロセッサ２３４と比べて、実行リソースユニットの複数の別のインスタンスを含む。例えば、グラフィックスマルチプロセッサ３２５は、命令ユニット３３２Ａ～３３２Ｂ、レジスタファイル３３４Ａ～３３４Ｂ、及びテクスチャユニット３４４Ａ～３４４Ｂという複数のインスタンスを含んでよい。グラフィックスマルチプロセッサ３２５は、グラフィックス実行ユニット又はコンピュート実行ユニット（例えば、ＧＰＧＰＵコア３３６Ａ～３３６Ｂ、テンソルコア３３７Ａ～３３７Ｂ、レイトレーシングコア３３８Ａ～３３８Ｂ）の複数のセット、及びロード／ストアユニット３４０Ａ～３４０Ｂの複数のセットも含む。実行リソースユニットは、共通の命令キャッシュ３３０、テクスチャ及び／又はデータキャッシュメモリ３４２、並びに共有メモリ３４６を有する。

【0078】

様々なコンポーネントは、相互接続ファブリック３２７を介して通信することができる。相互接続ファブリック３２７は、グラフィックスマルチプロセッサ３２５の様々なコンポーネント間の通信を可能にする１つ又は複数のクロスバースイッチを含んでよい。相互接続ファブリック３２７は、別個の高速ネットワークファブリック層であってもよく、この層の上に、グラフィックスマルチプロセッサ３２５の各コンポーネントがスタックされる。グラフィックスマルチプロセッサ３２５の各コンポーネントは、相互接続ファブリック３２７を介して遠隔コンポーネントと通信する。例えば、ＧＰＧＰＵコア３３６Ａ～３３６Ｂ、３３７Ａ～３３７Ｂ、及び３３８Ａ～３３８Ｂはそれぞれ、相互接続ファブリック３２７を介して共有メモリ３４６と通信できる。相互接続ファブリック３２７は、グラフィックスマルチプロセッサ３２５内の通信を調停して、コンポーネント間の公平な帯域幅割り当てを確保できる。

【0079】

図３Ｂのグラフィックスマルチプロセッサ３５０は、実行リソース３５６Ａ～３５６Ｄの複数のセットを含み、実行リソースの各セットは、図２Ｄ及び図３Ａに示されているように、複数の命令ユニット、レジスタファイル、ＧＰＧＰＵコア、及びロードストアユニットを含む。実行リソース３５６Ａ～３５６Ｄは、命令キャッシュ３５４及び共有メモリ３５３を共有しながら、テクスチャ操作用のテクスチャユニット３６０Ａ～３６０Ｄと連携して動作することができる。例えば、実行リソース３５６Ａ～３５６Ｄは、命令キャッシュ３５４及び共有メモリ３５３、並びにテクスチャ及び／又はデータキャッシュメモリ３５８Ａ～３５８Ｂの複数のインスタンスを共有できる。様々なコンポーネントは、図３Ａの相互接続ファブリック３２７と同様の相互接続ファブリック３５２を介して通信できる。

【0080】

当業者であれば、図１、図２Ａ～図２Ｄ、及び図３Ａ～図３Ｂで説明したアーキテクチャは、本実施形態の範囲に関して記述的であり、限定しているわけではないことを理解するであろう。したがって、本明細書で説明される技法は、適切に構成されたあらゆる処理ユニットに実装されてよい。そのような処理ユニットは、限定されることはないが、１つ又は複数のモバイルアプリケーションプロセッサ、マルチコア中央演算処理装置（ＣＰＵ）を含む１つ又は複数のデスクトップ用若しくはサーバ用ＣＰＵ、図２Ａの並列処理ユニット２０２などの１つ又は複数の並列処理ユニット、及び１つ又は複数のグラフィックスプロセッサ若しくは専用処理ユニットを、本明細書で説明される実施形態の範囲から逸脱することなく含む。

【0081】

本明細書で説明される並列プロセッサ又はＧＰＧＰＵは、グラフィックス操作、機械学習操作、パターン分析操作、及び汎用ＧＰＵ（ＧＰＧＰＵ）の様々な機能を加速するホスト／プロセッサコアに通信可能に結合されてよい。ＧＰＵは、バス又は他の相互接続（例えば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）によってホストプロセッサ／コアに通信可能に結合されてよい。他の実施形態において、ＧＰＵはコアと同じパッケージ又はチップに統合されて、内蔵プロセッサバス／相互接続によって（つまり、パッケージ又はチップの内部で）コアに通信可能に結合されてよい。ＧＰＵが接続される方式に関係なく、プロセッサコアは、作業記述子に含まれるコマンド／命令のシーケンスの形で、ＧＰＵに作業を割り当ててよい。ＧＰＵは次いで、これらのコマンド／命令を効率的に処理するのに専用回路／ロジックを用いる。

【0082】

図３Ｃは、マルチコアグループ３６５Ａ～３６５Ｎに配置された専用のグラフィックス処理リソースのセットを含むグラフィックス処理ユニット（ＧＰＵ）３８０を示している。１つのマルチコアグループ３６５Ａだけの詳細が提供されているが、その他のマルチコアグループ３６５Ｂ～３６５Ｎも同じ又は同様のグラフィックス処理リソースのセットを備えてよいことが理解されるであろう。マルチコアグループ３６５Ａ～３６５Ｎに関して説明される詳細が、本明細書で説明されるあらゆるグラフィックスマルチプロセッサ２３４、３２５、３５０にも適用されてよい。

【0083】

図示されているように、マルチコアグループ３６５Ａがグラフィックスコア３７０のセット、テンソルコア３７１のセット、及びレイトレーシングコア３７２のセットを含んでよい。スケジューラ／ディスパッチャ３６８が、様々なコア３７０、３７１、３７２で実行するグラフィックススレッドをスケジューリングして、ディスパッチする。コア３７０、３７１、３７２がグラフィックススレッドを実行するときに用いるオペランド値を、レジスタファイル３６９のセットが格納する。これらのレジスタファイルは、例えば、整数値を格納する整数レジスタ、浮動小数点値を格納する浮動小数点レジスタ、パックドデータ要素（整数データ要素及び／又は浮動小数点データ要素）を格納するベクトルレジスタ、及びテンソル／行列値を格納するタイルレジスタを含んでよい。タイルレジスタは、組み合わされたベクトルレジスタのセットとして実装されてよい。

【0084】

組み合わされた１つ又は複数のレベルキャッシュ１（Ｌ１）及び共有メモリユニット３７３が、テクスチャデータ、頂点データ、ピクセルデータ、レイデータ、バウンディングボリュームデータなどのグラフィックスデータを、各マルチコアグループ３６５Ａにローカルに格納する。１つ又は複数のテクスチャユニット３７４が、テクスチャマッピング及びサンプリングなどのテクスチャ操作を行うのにも用いられてよい。マルチコアグループ３６５Ａ～３６５Ｎの全て又はそのサブセットにより共有されるレベル２（Ｌ２）キャッシュ３７５が、複数の同時グラフィックススレッド用のグラフィックスデータ及び／又は命令を格納する。図示されているように、Ｌ２キャッシュ３７５は、複数のマルチコアグループ３６５Ａ～３６５Ｎ全体で共有されてよい。１つ又は複数のメモリコントローラ３６７が、ＧＰＵ３８０を、システムメモリ（例えば、ＤＲＡＭ）及び／又は専用グラフィックスメモリ（例えば、ＧＤＤＲ６メモリ）であってよいメモリ３６６に結合する。

【0085】

入力／出力（Ｉ／Ｏ）回路３６３が、ＧＰＵ３８０を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力デバイスなどの１つ又は複数のＩ／Ｏデバイス３６２に結合する。オンチップ相互接続が、Ｉ／Ｏデバイス３６２をＧＰＵ３８０及びメモリ３６６に結合するのに用いられてよい。Ｉ／Ｏ回路３６３の１つ又は複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）３６４が、Ｉ／Ｏデバイス３６２をシステムメモリ３６６に直接的に結合する。必要に応じて、ＩＯＭＭＵ３６４は、仮想アドレスをシステムメモリ３６６の物理アドレスにマッピングするページテーブルの複数のセットを管理する。Ｉ／Ｏデバイス３６２、ＣＰＵ３６１、及びＧＰＵ３８０は次いで、同じ仮想アドレス空間を共有してよい。

【0086】

ＩＯＭＭＵ３６４の１つの実装形態において、ＩＯＭＭＵ３６４は仮想化をサポートしている。この場合、ＩＯＭＭＵ３６４は、ゲスト／グラフィックス仮想アドレスをゲスト／グラフィックス物理アドレスにマッピングする第１のページテーブルのセットと、ゲスト／グラフィックス物理アドレスを（例えば、システムメモリ３６６内の）システム／ホスト物理アドレスにマッピングする第２のページテーブルのセットとを管理してよい。第１及び第２のページテーブルのセットのそれぞれのベースアドレスが、制御レジスタに格納され、コンテキストスイッチでスワップアウトされてよい（例えば、その結果、新たなコンテキストが関連するページテーブルのセットへのアクセスを提供される）。図３Ｃには図示されていないが、コア３７０、３７１、３７２、及び／又はマルチコアグループ３６５Ａ～３６５Ｎのそれぞれは、ゲスト仮想とゲスト物理との変換、ゲスト物理とホスト物理との変換、及びゲスト仮想とホスト物理との変換をキャッシュするための変換ルックアサイドバッファ（ＴＬＢ）を含んでよい。

【0087】

ＣＰＵ３６１、ＧＰＵ３８０、及びＩ／Ｏデバイス３６２は、単一の半導体チップ及び／又はチップパッケージに統合されてよい。図示されているメモリ３６６は、同じチップに統合されてもよく、オフチップインタフェースを介してメモリコントローラ３６７に結合されてもよい。１つの実装形態において、メモリ３６６は、他の物理システムレベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本明細書で説明される基本的原理はこの特定の実装形態に限定されることはない。

【0088】

テンソルコア３７１は、特に行列演算を行うように設計された複数の実行ユニットを含んでよく、行列演算は、深層学習操作を行うのに用いられる基本的なコンピュート操作である。例えば、同時行列乗算演算がニューラルネットワークの訓練及び推論に用いられてよい。テンソルコア３７１は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、及びハーフバイト（４ビット）を含む様々なオペランド精度を用いて行列処理を行ってよい。例えば、ニューラルネットワークの実装形態が、レンダリングされた各シーンの特徴点を抽出し、場合によっては複数のフレームの詳細な情報を組み合わせ、高品質の最終画像を構築する。

【0089】

深層学習の実装形態では、並列行列乗算作業が、テンソルコア３７１で実行するためにスケジューリングされてよい。ニューラルネットワークの訓練は、具体的には、多くの行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎ行列乗算の内積式を処理するために、テンソルコア３７１は、少なくともＮ個のドット積処理要素を含んでよい。行列乗算を開始する前に、１つの行列全体がタイルレジスタにロードされ、第２行列の少なくとも１つの列がＮ回のサイクルのサイクルごとにロードされる。サイクルごとに、Ｎ個のドット積が処理される。

【0090】

行列要素が、特定の実装形態に応じて、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）、及び４ビットハーフバイト（例えば、ＩＮＴ４）を含む様々な精度で格納されてよい。異なるワークロード（例えば、バイト及びハーフバイトへの量子化を許容できる推論ワークロードなど）に最も効率的な精度が必ず用いられるように、異なる精度モードがテンソルコア３７１に指定されてよい。

【0091】

レイトレーシングコア３７２は、リアルタイムのレイトレーシング及び非リアルタイムのレイトレーシングの両方の実装形態のために、レイトレーシング操作を加速させてよい。具体的には、レイトレーシングコア３７２は、バウンディングボリューム階層（ＢＶＨ）を用いてレイトラバーサルを行い、且つＢＶＨボリュームで囲まれたレイとプリミティブとの交差を識別するための、レイトラバーサル／交差回路を含んでよい。レイトレーシングコア３７２は、（例えば、Ｚバッファ又は同様の構成を用いて）デプステスト及びカリングを行うための回路も含んでよい。１つの実装形態において、レイトレーシングコア３７２は、本明細書で説明される画像ノイズ除去技法を併用してトラバーサル操作及び交差操作を行い、その少なくとも一部がテンソルコア３７１で実行されてよい。例えば、テンソルコア３７１は、深層学習ニューラルネットワークを実装して、レイトレーシングコア３７２が生成するフレームのノイズ除去を行ってよい。しかしながら、ＣＰＵ３６１、グラフィックスコア３７０、及び／又はレイトレーシングコア３７２も、ノイズ除去アルゴリズム及び／又は深層学習アルゴリズムの全部又は一部を実装してよい。

【0092】

さらに、上述したように、ノイズ除去への分散型手法が使用されてもよく、ここでは、ネットワーク又は高速相互接続によって他のコンピュータ処理デバイスに結合されるコンピュータ処理デバイス内にＧＰＵ３８０がある。この分散型手法において、相互接続されたコンピュータ処理デバイスは、ニューラルネットワークの学習／訓練データを共有して、システム全体が異なるタイプの画像フレーム及び／又は異なるグラフィックスアプリケーションのノイズ除去を行うことを学習する速度を向上させてよい。

【0093】

レイトレーシングコア３７２は、全てのＢＶＨトラバーサル及び／又はレイ－プリミティブ間交差を処理して、グラフィックスコア３７０がレイ当たり数千の命令で過負荷になるのを防いでよい。例えば、各レイトレーシングコア３７２は、（例えばトラバーサル操作のために）バウンディングボックステストを行う第１の専用回路のセット、及び／若しくはレイ－三角形間交差テストを行う（例えば、トラバースされたレイを交差させる）第２の専用回路のセットを含む。したがって例えば、マルチコアグループ３６５Ａは単にレイプローブを起動すればよく、レイトレーシングコア３７２はレイトラバーサル及び交差を独立して行い、ヒットデータ（例えば、ヒット、ヒットなし、複数のヒットなど）をスレッドコンテキストに返す。他のコア３７０、３７１は、レイトレーシングコア３７２がトラバーサル操作及び交差操作を行う間、他のグラフィックス作業又はコンピュート作業を行うために解放される。

【0094】

必要に応じて、各レイトレーシングコア３７２は、ＢＶＨテスト操作を行うトラバーサルユニット及び／又はレイ－プリミティブ間交差テストを行う交差ユニットを含んでよい。交差ユニットは、「ヒット」応答、「ヒットなし」応答、又は「複数のヒット」応答を生成し、それを適切なスレッドに提供する。トラバーサル操作及び交差操作の際に、他のコアの実行リソース（例えば、グラフィックスコア３７０及びテンソルコア３７１）は、他の形式のグラフィックス作業を行うために解放される。

【0095】

後述される１つの任意的な実施形態では、ハイブリッドラスタライズ／レイトレーシング手法が用いられ、ここでは、グラフィックスコア３７０とレイトレーシングコア３７２との間で作業が配分される。

【0096】

レイトレーシングコア３７２（及び／又は他のコア３７０、３７１）は、ＤｉｓｐａｔｃｈＲａｙｓコマンドを含むＭｉｃｒｏｓｏｆｔ（登録商標）のＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）などのレイトレーシング命令セット用のハードウェアサポート、並びにレイ生成シェーダ、最も近いヒットシェーダ、任意のヒットシェーダ、及びミスシェーダを含んでよく、これらによって、オブジェクトごとに一意のシェーダ及びテクスチャのセットを割り当てるのが可能になる。レイトレーシングコア３７２、グラフィックスコア３７０、及びテンソルコア３７１によってサポートされ得る別のレイトレーシングプラットフォームが、Ｖｕｌｋａｎ１．１．８５である。しかしながら、本明細書で説明される基本的原理が、任意の特定のレイトレーシングＩＳＡに限定されることはないことに留意されたい。

【0097】

一般に、様々なコア３７２、３７１、３７０は、レイ生成、最も近いヒット、任意のヒット、レイ－プリミティブ間交差、プリミティブごと且つ階層的なバウンディングボックス構築、ミス、ビジット、及び例外のうちの１つ又は複数の命令／機能を含むレイトレーシング命令セットをサポートしてよい。より具体的には、好ましい実施形態が、以下に挙げる諸機能のうちの１つ又は複数を行うレイトレーシング命令を含む。

【0098】

レイ生成：レイ生成命令は、ピクセルごと、サンプルごと、又は他のユーザ定義型作業割り当てごとに実行されてよい。

【0099】

最も近いヒット：最も近いヒット命令は、シーン内のレイとプリミティブとの最も近い交点を特定するために実行されてよい。

【0100】

任意のヒット：任意のヒット命令は、シーン内のレイとプリミティブとの複数の交点を識別し、場合によっては、新たな最も近い交点を識別する。

【0101】

交差：交差命令は、レイ－プリミティブ間交差テストを行い、結果を出力する。

【0102】

プリミティブごとのバウンディングボックス構築：この命令は、（例えば、新たなＢＶＨ又は他のアクセラレーションデータ構造を形成するときに）所与のプリミティブ又はプリミティブのグループの周囲にバウンディングボックスを形成する。

【0103】

ミス：シーン内又はシーンの指定領域内の全てのジオメトリに、レイが当たらなかったことを示す。

【0104】

ビジット：レイがトラバースする子ボリュームを示す。

【0105】

例外：（例えば、様々なエラー条件に対して呼び出される）様々なタイプの例外ハンドラを含む。
［ＧＰＵ－ホストプロセッサ間相互接続の技法］

【0106】

図４Ａは、複数のＧＰＵ４１０～４１３、例えば、図２Ａに示す並列プロセッサ２００などが、高速リンク４４０Ａ～４４０Ｄ（例えば、バス、ポイントツーポイント相互接続など）によって複数のマルチコアプロセッサ４０５～４０６に通信可能に結合されている例示的なアーキテクチャを示す。高速リンク４４０Ａ～４４０Ｄは、実装形態に応じて、４ＧＢ／ｓ、３０ＧＢ／ｓ、８０ＧＢ／ｓ、又はそれより高い通信スループットをサポートしてよい。限定されることはないが、ＰＣＩｅ４．０又は５．０及びＮＶＬｉｎｋ２．０を含む様々な相互接続プロトコルが用いられてよい。しかしながら、本明細書で説明される基本的原理は、任意の特定の通信プロトコル又はスループットに限定されることはない。

【0107】

ＧＰＵ４１０～４１３のうちの２つ又はそれより多くが、高速リンク４４２Ａ～４４２Ｂによって相互接続されてよく、これらの高速リンクは、高速リンク４４０Ａ～４４０Ｄに用いられるものと同じ又は異なるプロトコル／リンクを用いて実装されてよい。同様に、マルチコアプロセッサ４０５～４０６のうちの２つ又はそれより多くが、２０ＧＢ／ｓ、３０ＧＢ／ｓ、１２０ＧＢ／ｓ、又はそれより高速で動作する対称型マルチプロセッサ（ＳＭＰ）バスであってよい高速リンク４４３によって接続されてよい。あるいは、図４Ａに示す様々なシステムコンポーネント間の通信は全て、同じプロトコル／リンクを用いて（例えば、共通の相互接続ファブリックによって）実現されてよい。しかしながら、すでに述べたように、本明細書で説明される基本的原理は、任意の特定のタイプの相互接続技術に限定されることはない。

【0108】

各マルチコアプロセッサ４０５～４０６は、メモリ相互接続４３０Ａ～４３０Ｂを介してそれぞれプロセッサメモリ４０１～４０２に通信可能に結合されてよく、各ＧＰＵ４１０～４１３は、ＧＰＵメモリ相互接続４５０Ａ～４５０ＤによってそれぞれＧＰＵメモリ４２０～４２３に通信可能に結合されている。メモリ相互接続４３０Ａ～４３０Ｂ及び４５０Ａ～４５０Ｄは、同じ又は異なるメモリアクセス技術を利用してよい。例として且つ限定ではなく、プロセッサメモリ４０１～４０２及びＧＰＵメモリ４２０～４２３は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）（スタックＤＲＡＭを含む）、グラフィックスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、又は高帯域幅メモリ（ＨＢＭ）などの揮発性メモリであってよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってよい。例えば、これらのメモリの一部は、揮発性メモリであってもよく、別の部分は（例えば、２つのレベルのメモリ（２ＬＭ）階層を用いる）不揮発性メモリであってよい。

【0109】

後述するように、様々なプロセッサ４０５～４０６及びＧＰＵ４１０～４１３は、特定のメモリ４０１～４０２、４２０～４２３にそれぞれ物理的に結合されてよいが、統合メモリアーキテクチャが実装されてよく、このアーキテクチャでは、同じ仮想システムのアドレス空間（「実効アドレス」空間とも呼ばれる）が様々な物理メモリの全てに配分される。例えば、プロセッサメモリ４０１～４０２はそれぞれ、６４ＧＢのシステムメモリアドレス空間を含んでよく、ＧＰＵメモリ４２０～４２３はそれぞれ、３２ＧＢのシステムメモリアドレス空間を含んでよい（この例では、アドレス指定可能なメモリが合計２５６ＧＢになる）。

【0110】

図４Ｂは、マルチコアプロセッサ４０７とグラフィックスアクセラレーションモジュール４４６との相互接続についての別の任意的な詳細情報を示している。グラフィックスアクセラレーションモジュール４４６は、高速リンク４４０を介してプロセッサ４０７に結合されているラインカードに統合された１つ又は複数のＧＰＵチップを含んでよい。あるいは、グラフィックスアクセラレーションモジュール４４６は、プロセッサ４０７として同じパッケージ又はチップに統合されてもよい。

【0111】

示されているプロセッサ４０７は、複数のコア４６０Ａ～４６０Ｄを含み、それぞれのコアが、変換ルックアサイドバッファ４６１Ａ～４６１Ｄと１つ又は複数のキャッシュ４６２Ａ～４６２Ｄとを有する。これらのコアは、命令を実行しデータを処理する様々な他のコンポーネントを含んでよい。これらの他のコンポーネント（例えば、命令フェッチユニット、分岐予測ユニット、デコーダ、実行ユニット、リオーダバッファなど）は、本明細書で説明されるコンポーネントの基本的原理を不明瞭にするのを回避するために図示されていない。キャッシュ４６２Ａ～４６２Ｄは、レベル１（Ｌ１）キャッシュとレベル２（Ｌ２）キャッシュとを有してよい。さらに、１つ又は複数の共有キャッシュ４５６が、キャッシュ階層に含まれ、コア４６０Ａ～４６０Ｄのセットによって共有されてよい。例えば、プロセッサ４０７の１つの実施形態が２４個のコアを含み、各コアが独自のＬ１キャッシュ、１２個の共有Ｌ２キャッシュ、及び１２個の共有Ｌ３キャッシュを有する。この実施形態では、Ｌ２キャッシュ及びＬ３キャッシュのうちの一方が、２つの隣接コアによって共有されている。プロセッサ４０７及びグラフィックスアクセラレータ統合モジュール４４６は、システムメモリ４４１と接続している。このシステムメモリは、プロセッサメモリ４０１～４０２を含んでもよい。

【0112】

様々なキャッシュ４６２Ａ～４６２Ｄ、４５６及びシステムメモリ４４１に格納されたデータ及び命令の一貫性が、コヒーレンスバス４６４によるコア間通信によって維持されている。例えば、各キャッシュは、それぞれに関連づけられたキャッシュコヒーレンシロジック／回路を有し、特定のキャッシュラインに対する読み出し又は書き込みの検出に応答して、コヒーレンスバス４６４で通信してよい。１つの実装形態では、キャッシュスヌーピングプロトコルが、キャッシュアクセスをスヌープするためにコヒーレンスバス４６４で実装されている。キャッシュスヌーピング／コヒーレンシ技法は、当業者によく理解されており、本明細書で説明される基本的原理を不明瞭にするのを回避するために、ここでは詳細に説明しない。

【0113】

グラフィックスアクセラレーションモジュール４４６をコヒーレンスバス４６４に通信可能に結合するプロキシ回路４２５が設けられてよく、このプロキシ回路は、グラフィックスアクセラレーションモジュール４４６が、これらのコアのピアとして、キャッシュコヒーレンスプロトコルに加わることを可能にする。具体的には、インタフェース４３５が高速リンク４４０（例えば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）によるプロキシ回路４２５への接続機能を提供し、インタフェース４３７がグラフィックスアクセラレーションモジュール４４６を高速リンク４４０に接続する。

【0114】

１つの実装形態では、アクセラレータ統合回路４３６が、グラフィックスアクセラレーションモジュール４４６の複数のグラフィックス処理エンジン４３１、４３２、Ｎに代わって、キャッシュ管理サービス、メモリアクセスサービス、コンテキスト管理サービス、及び割り込み管理サービスを提供する。グラフィックス処理エンジン４３１、４３２、Ｎはそれぞれ、別個のグラフィックス処理ユニット（ＧＰＵ）を有してよい。あるいは、グラフィックス処理エンジン４３１、４３２、Ｎは、グラフィックス実行ユニット、メディア処理エンジン（例えば、ビデオエンコーダ／デコーダ）、サンプラ、及びブリットエンジンなどの異なるタイプのグラフィックス処理エンジンをＧＰＵに含んでよい。言い換えれば、グラフィックスアクセラレーションモジュールは、複数のグラフィックス処理エンジン４３１～４３２、Ｎを有するＧＰＵであってもよく、グラフィックス処理エンジン４３１～４３２、Ｎは共通のパッケージ、ラインカード、又はチップに統合された個々のＧＰＵであってもよい。

【0115】

アクセラレータ統合回路４３６は、仮想－物理間のメモリ変換（実効－実間のメモリ変換とも呼ばれる）などの様々なメモリ管理機能を実行するためのメモリ管理ユニット（ＭＭＵ）４３９、及びシステムメモリ４４１にアクセスするためのメモリアクセスプロトコルを含んでよい。ＭＭＵ４３９は、仮想／実効アドレスと物理／実アドレスとの間の変換をキャッシュするための変換ルックアサイドバッファ（ＴＬＢ）（不図示）も含んでよい。１つの実装形態では、グラフィックス処理エンジン４３１～４３２、Ｎによる効率的なアクセスのために、キャッシュ４３８がコマンド及びデータを格納する。キャッシュ４３８及びグラフィックスメモリ４３３～４３４、Ｍに格納されているデータは、コアキャッシュ４６２Ａ～４６２Ｄ、４５６及びシステムメモリ４４１と一貫性が保持されてよい。すでに述べたように、これは、キャッシュ４３８及びメモリ４３３～４３４、Ｍに代わって、キャッシュコヒーレンシメカニズムに加わるプロキシ回路４２５によって実現されてよい（例えば、プロセッサキャッシュ４６２Ａ～４６２Ｄ、４５６のキャッシュラインの修正／アクセスに関連したアップデートをキャッシュ４３８に送信する、またキャッシュ４３８からアップデートを受信する）。

【0116】

レジスタ４４５のセットが、グラフィックス処理エンジン４３１～４３２、Ｎにより実行されるスレッドのコンテキストデータを格納し、コンテキスト管理回路４４８がスレッドコンテキストを管理する。例えば、コンテキスト管理回路４４８は、コンテキスト切り替え時に、様々なスレッドのコンテキストを保存し復元する保存操作及び復元操作を行ってよい（例えば、グラフィックス処理エンジンが第２スレッドを実行できるように、第１スレッドが保存され、第２スレッドが格納される）。例えば、コンテキストスイッチでは、コンテキスト管理回路４４８は、現在のレジスタ値をメモリの（例えば、コンテキストポインタで識別される）指定領域に格納してよい。コンテキスト管理回路は次に、コンテキストに戻るときにレジスタ値を復元してよい。割り込み管理回路４４７が、例えば、システムデバイスから割り込みを受信し、受信した割り込みを処理してよい。

【0117】

１つの実装形態では、グラフィックス処理エンジン４３１からの仮想／実効アドレスが、ＭＭＵ４３９によって、システムメモリ４４１の実／物理アドレスに変換される。必要に応じて、アクセラレータ統合回路４３６は、複数の（例えば、４個、８個、１６個の）グラフィックスアクセラレータモジュール４４６及び／又は他のアクセラレータデバイスをサポートする。グラフィックスアクセラレータモジュール４４６は、プロセッサ４０７で実行される単一アプリケーションに特化されてもよく、複数のアプリケーション間で共有されてもよい。必要に応じて、グラフィックス処理エンジン４３１～４３２、Ｎのリソースが複数のアプリケーション又は仮想マシン（ＶＭ）と共有される仮想化グラフィックス実行環境が提供される。これらのリソースは、ＶＭ及び／又はアプリケーションに関連づけられた処理要件及び優先度に基づいて、異なるＶＭ及び／又はアプリケーションに割り当てられる「スライス」に細分化されてよい。

【0118】

したがって、アクセラレータ統合回路４３６はグラフィックスアクセラレーションモジュール４４６にとってシステムへのブリッジの機能を果たし、アドレス変換サービス及びシステムメモリキャッシュサービスを提供する。１つの実施形態では、ブリッジ機能を容易にするために、アクセラレータ統合回路４３６は、共有Ｉ／Ｏ４９７（例えば、ＰＣＩｅ、ＵＳＢ）、並びに電圧、クロッキング、性能、熱、及びセキュリティのシステム制御を可能にするハードウェアも含んでよい。共有Ｉ／Ｏ４９７は、別個の物理接続を利用してもよく、高速リンク４４０を通ってもよい。さらに、アクセラレータ統合回路４３６は、グラフィックス処理エンジンの仮想化、割り込み、及びメモリ管理を管理するホストプロセッサに仮想化機能を提供してもよい。

【0119】

グラフィックス処理エンジン４３１～４３２、Ｎのハードウェアリソースは、ホストプロセッサ４０７から見える実アドレス空間に明示的にマッピングされるため、あらゆるホストプロセッサが、実効アドレス値を用いてこれらのリソースを直接的にアドレス指定できる。アクセラレータ統合回路４３６の１つの任意的な機能がグラフィックス処理エンジン４３１～４３２、Ｎの物理的分離であり、これによりシステムには、グラフィックス処理エンジンが独立したユニットに見える。

【0120】

１つ又は複数のグラフィックスメモリ４３３～４３４、Ｍがそれぞれ、グラフィックス処理エンジン４３１～４３２、Ｎのそれぞれに結合されてよい。グラフィックスメモリ４３３～４３４、Ｍは、グラフィックス処理エンジン４３１～４３２、Ｎのそれぞれによって処理される命令及びデータを格納する。グラフィックスメモリ４３３～４３４、Ｍは、ＤＲＡＭ（スタックＤＲＡＭを含む）、ＧＤＤＲメモリ（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、若しくはＨＢＭなどの揮発性メモリであってもよく、且つ／又は３ＤＸＰｏｉｎｔ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。

【0121】

高速リンク４４０によるデータトラフィックを減らすために、バイアス技法を用いて、グラフィックスメモリ４３３～４３４、Ｍに格納されたデータが、必ずグラフィックス処理エンジン４３１～４３２、Ｎによって最も頻繁に用いられ、また好ましくは、コア４６０Ａ～４６０Ｄによって用いられない（少なくとも頻繁に用いられない）データになるようにしてよい。同様に、このバイアスメカニズムは、コア（好ましくは、グラフィックス処理エンジン４３１～４３２、Ｎではない）が必要とするデータを、コアのキャッシュ４６２Ａ～４６２Ｄ、４５６及びシステムメモリ４４１に保持しようと試みる。

【0122】

図４Ｃに示す変形例によれば、アクセラレータ統合回路４３６はプロセッサ４０７に統合されている。グラフィックス処理エンジン４３１～４３２、Ｎは、インタフェース４３７及びインタフェース４３５（これらのインタフェースは、ここでも、任意の形式のバス又はインタフェースプロトコルを利用してよい）を介して、アクセラレータ統合回路４３６に対して高速リンク４４０で直接的に通信する。アクセラレータ統合回路４３６は、図４Ｂに関して説明したのと同じ操作を行ってよいが、コヒーレンシバス４６４及びキャッシュ４６２Ａ～４６２Ｄ、４５６に近接していることを考慮すると、スループットが高くなる可能性がある。

【0123】

説明した実施形態は、専用プロセスプログラミングモデル（グラフィックスアクセラレーションモジュール仮想化なし）及び共有プログラミングモデル（仮想化あり）を含む異なるプログラミングモデルをサポートしてよい。後者は、アクセラレータ統合回路４３６により制御されるプログラミングモデルと、グラフィックスアクセラレーションモジュール４４６により制御されるプログラミングモデルとを含んでよい。

【0124】

専用プロセスモデルの実施形態において、グラフィックス処理エンジン４３１～４３２、Ｎは、単一オペレーティングシステムの下での単一アプリケーション又はプロセスに特化されてよい。単一アプリケーションは、他のアプリケーション要求をグラフィックスエンジン４３１～４３２、Ｎに送り、ＶＭ／パーティションの中に仮想化を提供することができる。

【0125】

専用プロセスプログラミングモデルでは、グラフィックス処理エンジン４３１～４３２、Ｎは、複数のＶＭ／アプリケーションパーティションによって共有されてよい。共有モデルは、グラフィックス処理エンジン４３１～４３２、Ｎを仮想化して、各オペレーティングシステムがアクセスできるようにするシステムハイパーバイザを必要とする。ハイパーバイザのない単一パーティションシステムの場合、グラフィックス処理エンジン４３１～４３２、Ｎはオペレーティングシステムが所有する。どちらの場合も、オペレーティングシステムはグラフィックス処理エンジン４３１～４３２、Ｎを仮想化して、各プロセス又は各アプリケーションへのアクセスを提供できる。

【0126】

共有プログラミングモデルでは、グラフィックスアクセラレーションモジュール４４６又は個々のグラフィックス処理エンジン４３１～４３２、Ｎは、プロセスハンドルを用いてプロセス要素を選択する。このプロセス要素は、システムメモリ４４１に格納され、本明細書で説明された実効アドレス－実アドレス間変換技法を用いてアドレス指定可能になってよい。プロセスハンドルは、そのコンテキストをグラフィックス処理エンジン４３１～４３２、Ｎに登録する（すなわち、プロセス要素をプロセス要素リンクリストに追加するシステムソフトウェアを呼び出する）ときにホストプロセスに提供される、実装形態に固有の値であってよい。プロセスハンドルの下位１６ビットは、プロセス要素リンクリスト内のプロセス要素のオフセットであってよい。

【0127】

図４Ｄは、例示的なアクセラレータ統合スライス４９０を示している。本明細書で用いる場合、「スライス」が、アクセラレータ統合回路４３６の処理リソースの指定部分を含む。システムメモリ４４１内のアプリケーション実効アドレス空間４８２が、プロセス要素４８３を格納する。プロセス要素４８３は、プロセッサ４０７で実行されるアプリケーション４８０からのＧＰＵ呼び出し４８１に応答して格納されてよい。プロセス要素４８３は、対応するアプリケーション４８０のプロセス状態を含む。プロセス要素４８３に含まれている作業記述子（ＷＤ）４８４が、アプリケーションにより要求される１つのジョブであってよく、ジョブのキューを指すポインタを含んでもよい。後者の場合では、ＷＤ４８４は、アプリケーションのアドレス空間４８２にあるジョブリクエストキューを指すポインタである。

【0128】

グラフィックスアクセラレーションモジュール４４６及び／又は個々のグラフィックス処理エンジン４３１～４３２、Ｎは、システム内のプロセスの全て又はサブセットによって共有されてよい。例えば、本明細書で説明される技術は、プロセス状態を設定し、ＷＤ４８４をグラフィックスアクセラレーションモジュール４４６に送信してジョブを仮想化環境で開始するためのインフラストラクチャを含んでよい。

【0129】

１つの実装形態において、専用プロセスプログラミングモデルは実装形態に固有である。このモデルでは、単一のプロセスが、グラフィックスアクセラレーションモジュール４４６又は個々のグラフィックス処理エンジン４３１を所有する。グラフィックスアクセラレーションモジュール４４６が単一のプロセスによって所有されているため、ハイパーバイザは、所有するパーティションのアクセラレータ統合回路４３６を初期化し、オペレーティングシステムは、グラフィックスアクセラレーションモジュール４４６が割り当てられたときに、所有するプロセスのアクセラレータ統合回路４３６を初期化する。

【0130】

動作時には、アクセラレータ統合スライス４９０内のＷＤフェッチユニット４９１が、グラフィックスアクセラレーションモジュール４４６の複数のグラフィックス処理エンジンのうちの１つによって行われる作業の標識を含む次のＷＤ４８４をフェッチする。図示されているように、ＷＤ４８４からのデータがレジスタ４４５に格納され、ＭＭＵ４３９、割り込み管理回路４４７、及び／又はコンテキスト管理回路４４８によって用いられてよい。例えば、ＭＭＵ４３９は、ＯＳ仮想アドレス空間４８５内のセグメント／ページテーブル４８６にアクセスするためのセグメント／ページウォーク回路を含んでよい。割り込み管理回路４４７は、グラフィックスアクセラレーションモジュール４４６から受信した割り込みイベント４９２を処理してよい。グラフィックス操作を行うときに、グラフィックス処理エンジン４３１～４３２、Ｎにより生成される実効アドレス４９３が、ＭＭＵ４３９によって実アドレスに変換される。

【0131】

同じレジスタ４４５のセットは、グラフィックス処理エンジン４３１～４３２、Ｎ及び／又はグラフィックスアクセラレーションモジュール４４６ごとに複製されてよく、ハイパーバイザ又はオペレーティングシステムによって初期化されてよい。複製されたこれらのレジスタのそれぞれは、アクセラレータ統合スライス４９０に含まれてよい。ハイパーバイザによって初期化され得る例示的なレジスタが、表１に示されている。

【表1】

【0132】

オペレーティングシステムによって初期化され得る例示的なレジスタが、表２に示されている。

【表2】

【0133】

各ＷＤ４８４は、特定のグラフィックスアクセラレーションモジュール４４６及び／又はグラフィックス処理エンジン４３１～４３２、Ｎに固有のものであってよい。ＷＤ４８４は、グラフィックス処理エンジン４３１～４３２、Ｎがその作業を行うのに必要な全ての情報を含む、又は完了すべき作業のコマンドキューをアプリケーションがセットアップしたメモリ位置を指すポインタであってよい。

【0134】

図４Ｅは、共有モデルの別の任意的な詳細情報を示している。ここには、プロセス要素リスト４９９が格納されているハイパーバイザ実アドレス空間４９８が含まれている。ハイパーバイザ実アドレス空間４９８は、オペレーティングシステム４９５のためにグラフィックスアクセラレーションモジュールエンジンを仮想化するハイパーバイザ４９６を介してアクセス可能である。

【0135】

共有プログラミングモデルは、システム内のパーティションの全て又はサブセットからのプロセスの全て又はサブセットがグラフィックスアクセラレーションモジュール４４６を用いるのを可能にする。グラフィックスアクセラレーションモジュール４４６が複数のプロセス及びパーティションによって共有されるプログラミングモデルには、タイムスライス共有型と、グラフィックス指向共有型という２つのモデルがある。

【0136】

このモデルでは、システムハイパーバイザ４９６がグラフィックスアクセラレーションモジュール４４６を所有し、その機能を全てのオペレーティングシステム４９５で利用できるようにする。システムハイパーバイザ４９６による仮想化をサポートするグラフィックスアクセラレーションモジュール４４６では、グラフィックスアクセラレーションモジュール４４６は以下に挙げる要件に従ってよい。１）アプリケーションのジョブリクエストは自律的でなければならない（すなわち、その状態はジョブ間で維持される必要はない）、又はグラフィックスアクセラレーションモジュール４４６はコンテキスト保存及び復元メカニズムを提供しなければならない。２）アプリケーションのジョブリクエストは、あらゆる変換フォルトを含む一定の時間で完了することがグラフィックスアクセラレーションモジュール４４６により保証されている、又はグラフィックスアクセラレーションモジュール４４６はジョブの処理をプリエンプトする機能を提供する。３）グラフィックスアクセラレーションモジュール４４６は、指向共有プログラミングモデルで動作する場合、プロセスの公平性が保証されなければならない。

【0137】

共有モデルの場合、アプリケーション４８０は、グラフィックスアクセラレーションモジュール４４６のタイプ、作業記述子（ＷＤ）、権限マスクレジスタ（ＡＭＲ）値、及びコンテキスト保存／復元領域ポインタ（ＣＳＲＰ）でオペレーティングシステム４９５のシステムコールを行うことが必要とされてよい。グラフィックスアクセラレーションモジュール４４６のタイプは、システムコールの対象アクセラレーション機能を示す。グラフィックスアクセラレーションモジュール４４６のタイプはシステム固有の値であってよい。ＷＤは具体的にはグラフィックスアクセラレーションモジュール４４６用にフォーマットされており、グラフィックスアクセラレーションモジュール４４６のコマンド、ユーザ定義型構造を指す実効アドレスポインタ、コマンドのキューを指す実効アドレスポインタ、又はグラフィックスアクセラレーションモジュール４４６により行われる作業を示す任意の他のデータ構造の形であってよい。１つの実施形態において、ＡＭＲ値は、現在のプロセスに用いるＡＭＲ状態である。オペレーティングシステムに送られる値は、ＡＭＲを設定するアプリケーションと同様である。アクセラレータ統合回路４３６及びグラフィックスアクセラレーションモジュール４４６の実装形態がユーザ権限マスクオーバーライドレジスタ（ＵＡＭＯＲ）をサポートしていない場合、オペレーティングシステムは、ハイパーバイザコールでＡＭＲを送る前に、現在のＵＡＭＯＲ値をＡＭＲ値に適用してよい。ハイパーバイザ４９６は必要に応じて、ＡＭＲをプロセス要素４８３に配置する前に、現在の権限マスクオーバーライドレジスタ（ＡＭＯＲ）値を適用してよい。ＣＳＲＰは、グラフィックスアクセラレーションモジュール４４６がコンテキスト状態を保存し復元する、アプリケーションのアドレス空間４８２内のある領域の実効アドレスを含む複数のレジスタ４４５のうちの１つであってよい。このポインタは、ジョブ間で状態を保存する必要がない場合、又はジョブがプリエンプトされているときには任意的である。コンテキスト保存／復元領域は、ピン留めされたシステムメモリであってよい。

【0138】

オペレーティングシステム４９５は、システムコールを受信すると、アプリケーション４８０が登録済みであり、且つグラフィックスアクセラレーションモジュール４４６を用いる権限を与えられていることを確認してよい。オペレーティングシステム４９５は次いで、表３に示す情報を用いてハイパーバイザ４９６を呼び出す。

【表3】

【0139】

ハイパーバイザ４９６は、ハイパーバイザコールを受信すると、オペレーティングシステム４９５が登録済みであり、且つグラフィックスアクセラレーションモジュール４４６を用いる権限を与えられていることを確認してよい。ハイパーバイザ４９６は次いで、対応するグラフィックスアクセラレーションモジュール４４６のタイプに関するプロセス要素リンクリストに、プロセス要素４８３を入れる。プロセス要素は、表４に示す情報を含んでよい。

【表4】

【0140】

ハイパーバイザは、アクセラレータ統合スライス４９０の複数のレジスタ４４５を初期化してよい。

【0141】

図４Ｆに示されているように、１つの任意的な実装形態では、物理プロセッサメモリ４０１～４０２及びＧＰＵメモリ４２０～４２３にアクセスするのに用いられる共通の仮想メモリアドレス空間を介してアドレス指定可能な統合メモリが使用されている。この実装形態では、ＧＰＵ４１０～４１３で実行される操作が、同じ仮想／実効メモリアドレス空間を利用して、プロセッサメモリ４０１～４０２にアクセスし、その逆も同様である。これにより、プログラミング性が簡略化される。仮想／実効アドレス空間の第１部分がプロセッサメモリ４０１に、第２部分が第２プロセッサメモリ４０２に、第３部分がＧＰＵメモリ４２０にといったように割り当てられてよい。これにより、仮想／実効メモリ空間全体（実効アドレス空間と呼ばれることがある）がプロセッサメモリ４０１～４０２及びＧＰＵメモリ４２０～４２３のそれぞれに配分され、当該メモリにマッピングされた仮想アドレスを用いて、任意のプロセッサ又はＧＰＵが任意の物理メモリにアクセスするのが可能になる。

【0142】

ＭＭＵ４３９Ａ～４３９Ｅのうちの１つ又は複数に含まれるバイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅが提供されてよい。このバイアス／コヒーレンス管理回路は、ホストプロセッサ（例えば、４０５）とＧＰＵ４１０～４１３のキャッシュとの間のキャッシュコヒーレンスを確保し、特定のタイプのデータが格納されるべき物理メモリを示すバイアス技法を実現する。バイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅの複数のインスタンスが図４Ｆに示されているが、バイアス／コヒーレンス回路は、１つ又は複数のホストプロセッサ４０５のＭＭＵ内及び／又はアクセラレータ統合回路４３６内に実装されてよい。

【0143】

ＧＰＵ付属メモリ４２０～４２３は、システムメモリの一部としてマッピングされ、共有仮想メモリ（ＳＶＭ）技術を用いてアクセスされてよいが、フルシステムのキャッシュコヒーレンスと関連した典型的な性能上の欠点を被ることはない。煩わしいキャッシュコヒーレンスオーバヘッドのないシステムメモリとしてアクセスされるＧＰＵ付属メモリ４２０～４２３の能力は、ＧＰＵオフロードにとって有益な動作環境を提供する。この構成によって、従来型Ｉ／ＯのＤＭＡデータコピーのオーバヘッドを伴わずに、ホストプロセッサ４０５のソフトウェアがオペランドをセットアップし、計算結果にアクセスすることが可能になる。そのような一般的なコピーは、単純なメモリアクセスと比べて全く効率の悪いドライバコール、割り込み、及びメモリマップドＩ／Ｏ（ＭＭＩＯ）アクセスを必要とする。同時に、キャッシュコヒーレンスオーバヘッドを伴わずにＧＰＵ付属メモリ４２０～４２３にアクセスする能力は、オフロードされた計算の実行時間にとって非常に重要になり得る。大量のストリーミング書き込みメモリトラフィックがある場合、例えば、キャッシュコヒーレンスオーバヘッドがＧＰＵ４１０～４１３に見える効果的な書き込み帯域幅を大幅に減らす可能性がある。オペランドセットアップの効率、結果アクセスの効率、及びＧＰＵ計算の効率は全て、ＧＰＵオフロードの有効性を判断する際の一因となる。

【0144】

ＧＰＵバイアスとホストプロセッサバイアスとの間の選択が、バイアストラッカーデータ構造によって決定されてよい。バイアステーブルが用いられてよく、例えばこれは、ＧＰＵ付属メモリページごとに１ビット又は２ビットを含むページグラニュラ構造であってよい（つまり、メモリページの粒度で制御される）。バイアステーブルは、（例えば、バイアステーブルの頻繁に／最近用いられたエントリをキャッシュする）バイアスキャッシュがＧＰＵ４１０～４１３にあってもなくても、１つ又は複数のＧＰＵ付属メモリ４２０～４２３のスチールされたメモリ領域に実装されてよい。あるいは、バイアステーブル全体は、ＧＰＵ内に維持されてよい。

【0145】

１つの実装形態において、ＧＰＵ付属メモリ４２０～４２３への各アクセスに関連づけられたバイアステーブルエントリは、ＧＰＵメモリに実際にアクセスする前にアクセスされ、以下に挙げる操作が生じる。まず、ＧＰＵバイアスで各ＧＰＵのページを見つけるという、ＧＰＵ４１０～４１３からのローカル要求が、対応するＧＰＵメモリ４２０～４２３に直接的に転送される。ＧＰＵからの、ホストバイアスでページを見つけるというローカル要求は、（例えば、上述した高速リンクによって）プロセッサ４０５に転送される。必要に応じて、ホストプロセッサバイアスで要求されたページを見つけるという、プロセッサ４０５の要求が、通常のメモリ読み出しのように要求を完了する。あるいは、ＧＰＵバイアスページを対象とする要求がＧＰＵ４１０～４１３に転送されてもよい。ＧＰＵは次いで、ホストプロセッサバイアスが当該ページを現在用いていない場合には、当該ページをホストプロセッサバイアスに移行してよい。

【0146】

ページのバイアス状態は、ソフトウェアベースのメカニズム、ハードウェアに支援されたソフトウェアベースのメカニズム、又は限られた組み合わせの場合には完全にハードウェアベースのメカニズムのいずれかによって変更されてよい。

【0147】

バイアス状態を変更する１つのメカニズムが、ＡＰＩコール（例えば、ＯｐｅｎＣＬ）を使用し、次にＡＰＩコールはＧＰＵのデバイスドライバを呼び出し、次にデバイスドライバは、バイアス状態を変更すること、移行によっては、キャッシュフラッシュ操作をホストで行うことをＧＰＵに指示するメッセージをＧＰＵに送信する（又はコマンド記述子をキューに加える）。キャッシュフラッシュ操作は、ホストプロセッサ４０５バイアスからＧＰＵバイアスに移行するのに必要とされるが、逆方向の移行には必須ではない。

【0148】

キャッシュコヒーレンシは、ホストプロセッサ４０５がキャッシュできないＧＰＵバイアスページを一時的にレンダリングすることにより維持されてよい。これらのページにアクセスするために、プロセッサ４０５は、ＧＰＵ４１０にアクセスを要求してよく、ＧＰＵは、実装形態に応じて、すぐにアクセスを許可してもしなくてもよい。したがって、ホストプロセッサ４０５とＧＰＵ４１０との間の通信を減らすために、ＧＰＵバイアスページが、ホストプロセッサ４０５ではなくＧＰＵが必要とするページであることを確実にするのが有益であり、逆の場合も同様である。
［グラフィックス処理パイプライン］

【0149】

図５は、グラフィックス処理パイプライン５００を示している。図２Ｄにあるようなグラフィックスマルチプロセッサ２３４、図３Ａのグラフィックスマルチプロセッサ３２５、図３Ｂのグラフィックスマルチプロセッサ３５０などのグラフィックスマルチプロセッサが、図示されたグラフィックス処理パイプライン５００を実装できる。グラフィックスマルチプロセッサは、本明細書で説明された、図２Ａの並列プロセッサ２００などの並列処理サブシステムに含まれてよい。並列プロセッサ２００は、図１の並列プロセッサ１１２に関連していてよく、これらのうちの１つの代わりに用いられてよい。様々な並列処理システムは、本明細書で説明された並列処理ユニット（例えば、図２Ａの並列処理ユニット２０２）の１つ又は複数のインスタンスによってグラフィックス処理パイプライン５００を実装できる。例えば、シェーダユニット（例えば、図２Ｃのグラフィックスマルチプロセッサ２３４）が、頂点処理ユニット５０４、テセレーション制御処理ユニット５０８、テセレーション評価処理ユニット５１２、ジオメトリ処理ユニット５１６、及びフラグメント／ピクセル処理ユニット５２４のうちの１つ又は複数の機能を実行するように構成されてよい。データアセンブラ５０２、プリミティブアセンブラ５０６、５１４、５１８、テセレーションユニット５１０、ラスタライザ５２２、及びラスタ操作ユニット５２６の各機能も、処理クラスタ（例えば、図２Ａの処理クラスタ２１４）及び対応するパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）の中にある他の処理エンジンによって実行されてよい。グラフィックス処理パイプライン５００は、１つ又は複数の機能に専用処理ユニットを用いて実装されてもよい。グラフィックス処理パイプライン５００の１つ又は複数の一部が、汎用プロセッサ（例えば、ＣＰＵ）内の並列処理ロジックによって実行されることも可能である。必要に応じて、グラフィックス処理パイプライン５００の１つ又は複数の一部が、メモリインタフェース５２８を介してオンチップメモリ（例えば、図２Ａにあるような並列プロセッサメモリ２２２）にアクセスできる。メモリインタフェース５２８は、図２Ａのメモリインタフェース２１８のインスタンスであってよい。グラフィックスプロセッサパイプライン５００は、図３Ｃにあるようなマルチコアグループ３６５Ａによって実装されてもよい。

【0150】

データアセンブラ５０２は、サーフェス及びプリミティブの頂点データを収集し得る処理ユニットである。データアセンブラ５０２は次に、頂点属性を含む頂点データを頂点処理ユニット５０４に出力する。頂点処理ユニット５０４は、頂点シェーダプログラムを実行するプログラム可能型実行ユニットであり、頂点シェーダプログラムにより指定されるように頂点データのライティング及び変換を行う。頂点処理ユニット５０４は、頂点データを処理する際に用いるために、キャッシュ、ローカルメモリ、又はシステムメモリに格納されているデータを読み出し、頂点データをオブジェクトベースの座標表現からワールド空間座標空間又は規格化されたデバイス座標空間に変換するようにプログラミングされてよい。

【0151】

プリミティブアセンブラ５０６の第１インスタンスが頂点処理ユニット５０４から頂点属性を受信する。プリミティブアセンブラ５０６は、格納された頂点属性を必要に応じて読み出し、テセレーション制御処理ユニット５０８による処理のためにグラフィックスプリミティブを構築する。グラフィックスプリミティブは、様々なグラフィックス処理のアプリケーションプログラミングインタフェース（ＡＰＩ）によりサポートされる三角形、線分、点、パッチなどを含む。

【0152】

テセレーション制御処理ユニット５０８は、入力された頂点をジオメトリックパッチの制御点として扱う。これらの制御点は、パッチの入力表現（例えば、パッチのベース）から、テセレーション評価処理ユニット５１２によるサーフェス評価に用いるのに好適な表現に変換される。テセレーション制御処理ユニット５０８は、ジオメトリックパッチのエッジのテセレーション係数も計算できる。テセレーション係数は、単一のエッジに適用され、当該エッジに関連づけられた視点依存レベルの詳細情報を定量化する。テセレーションユニット５１０が、パッチのエッジのテセレーション係数を受信し、当該パッチを線プリミティブ、三角形プリミティブ、又は四辺形プリミティブなどの複数のジオメトリックプリミティブにテセレートするように構成されており、これらのプリミティブはテセレーション評価処理ユニット５１２に送られる。テセレーション評価処理ユニット５１２は、細分化されたパッチのパラメータで表示された座標を処理し、ジオメトリックプリミティブに関連づけられた頂点ごとに、サーフェス表現及び頂点属性を生成する。

【0153】

プリミティブアセンブラ５１４の第２インスタンスが、テセレーション評価処理ユニット５１２から頂点属性を受信し、格納された頂点属性を必要に応じて読み出し、ジオメトリ処理ユニット５１６による処理のためにグラフィックスプリミティブを構築する。ジオメトリ処理ユニット５１６は、ジオメトリシェーダプログラムを実行して、プリミティブアセンブラ５１４から受信したグラフィックスプリミティブを、ジオメトリシェーダプログラムにより指定されるように変換するプログラム可能型実行ユニットである。ジオメトリ処理ユニット５１６は、グラフィックスプリミティブを１つ又は複数の新たなグラフィックスプリミティブに細分化し、新たなグラフィックスプリミティブをラスタライズするのに用いられるパラメータを計算するようにプログラミングされてよい。

【0154】

ジオメトリ処理ユニット５１６は、ジオメトリストリームに要素を追加する又はジオメトリストリームの要素を削除することが可能であってよい。ジオメトリ処理ユニット５１６は、新たなグラフィックスプリミティブを指定するパラメータ及び頂点をプリミティブアセンブラ５１８に出力する。プリミティブアセンブラ５１８は、ジオメトリ処理ユニット５１６からパラメータ及び頂点を受信し、ビューポートスケーリング・カリング・クリッピングユニット５２０による処理のためにグラフィックスプリミティブを構築する。ジオメトリ処理ユニット５１６は、ジオメトリデータを処理する際に用いるために、並列プロセッサメモリ又はシステムメモリに格納されているデータを読み出す。ビューポートスケーリング・カリング・クリッピングユニット５２０は、クリッピング、カリング、及びビューポートスケーリングを行い、処理されたグラフィックスプリミティブをラスタライザ５２２に出力する。

【0155】

ラスタライザ５２２は、デプスカリング及び他のデプスベースの最適化を行うことができる。ラスタライザ５２２は、新たなグラフィックスプリミティブに対してスキャンコンバージョンも行い、フラグメントを生成して、これらのフラグメント及び関連するカバレッジデータをフラグメント／ピクセル処理ユニット５２４に出力する。フラグメント／ピクセル処理ユニット５２４は、フラグメントシェーダプログラム又はピクセルシェーダプログラムを実行するように構成されているプログラム可能型実行ユニットである。フラグメント／ピクセル処理ユニット５２４は、ラスタライザ５２２から受信したフラグメント又はピクセルを、フラグメントシェーダプログラム又はピクセルシェーダプログラムにより指定されるように変換する。例えば、フラグメント／ピクセル処理ユニット５２４は、限定されることはないが、テクスチャマッピング、シェーディング、ブレンディング、テクスチャ補正、及びパースペクティブ補正を含む操作を行い、ラスタ操作ユニット５２６に出力されるシェーディング済みのフラグメント又はピクセルを生成するようにプログラミングされてよい。フラグメント／ピクセル処理ユニット５２４は、フラグメントデータを処理するときに用いるために、並列プロセッサメモリ又はシステムメモリのいずれかに格納されているデータを読み出すことができる。フラグメントシェーダプログラム又はピクセルシェーダプログラムは、処理ユニットに設定されたサンプリングレートに応じて、サンプル、ピクセル、タイル、又は他の粒度でシェーディングするように構成されてよい。

【0156】

ラスタ操作ユニット５２６は、限定されることはないが、ステンシル、ｚテスト、及びブレンディングなどを含むラスタ操作を行い、グラフィックスメモリ（例えば、図２Ａにあるような並列プロセッサメモリ２２２及び／又は図１にあるようなシステムメモリ１０４）に格納されるように、１つ又は複数の表示デバイス１１０に表示されるように、あるいは１つ又は複数のプロセッサ１０２若しくは並列プロセッサ１１２のうちの一方によるさらなる処理のために、処理済みのグラフィックスデータとしてピクセルデータを出力する処理ユニットである。ラスタ操作ユニット５２６は、メモリに書き込まれるｚデータ又はカラーデータを圧縮し、メモリから読み出したｚデータ又はカラーデータを復元するように構成されてよい。
［機械学習の概要］

【0157】

上述したアーキテクチャは、機械学習モデルを用いて訓練及び推論操作を行うのに適用されてよい。機械学習は、多くの種類のタスクを解決することに成功してきた。機械学習アルゴリズム（例えば、ニューラルネットワーク）を訓練し使用するときに生じる計算は、効率的な並列の実装形態にもともと適している。したがって、汎用グラフィックス処理ユニット（ＧＰＧＰＵ）などの並列プロセッサが、ディープニューラルネットワークの実用的な実装形態において重要な役割を果たしてきた。単一命令複数スレッド（ＳＩＭＴ）アーキテクチャを備えた並列グラフィックスプロセッサが、グラフィックスパイプラインでの並列処理量を最大化するように設計されている。ＳＩＭＴアーキテクチャでは、並列スレッドのグループが、プログラム命令を可能な限り頻繁に一緒に同期して実行し、処理効率を上げようと試みている。並列機械学習アルゴリズムの実装形態によりもたらされる効率によって、高容量ネットワークの使用が可能になり、これらのネットワークを大規模なデータセットで訓練することが可能になる。

【0158】

機械学習アルゴリズムとは、データのセットに基づいて学習できるアルゴリズムである。例えば、機械学習アルゴリズムは、データセット内の高次の抽象概念をモデル化するように設計されてよい。例えば、与えられた入力がいくつかのカテゴリのうちのどれに属するかを判定するのに画像認識アルゴリズムを用いることができ、入力が与えられると回帰アルゴリズムが数値を出力することができ、変換されたテキストを生成するあるいはテキスト読み上げ及び／又は音声認識を行うのにパターン認識アルゴリズムを用いることができる。

【0159】

機械学習アルゴリズムの例示的なタイプが、ニューラルネットワークである。多くのタイプのニューラルネットワークがある中で、単純なタイプのニューラルネットワークがフィードフォワード型ネットワークである。フィードフォワード型ネットワークは、ノードが層状に配置されている非巡回グラフとして実装されてよい。通常、フィードフォワード型ネットワークトポロジは、少なくとも１つの隠れ層によって分離されている入力層と出力層とを含む。隠れ層は、入力層が受信した入力を、出力層で出力を生成するのに役立つ表現に変換する。ネットワークノードは、隣接する層のノードにエッジを介して全結合されているが、各層内のノード間にはエッジがない。フィードフォワード型ネットワークの入力層のノードで受信されたデータが、各層を接続する各エッジにそれぞれ関連づけられた係数（「重み」）に基づいて、ネットワーク内の続く各層のノードの状態を計算する活性化関数を介して、出力層のノードに伝搬される（つまり、「フィードフォワード」される）。実行されるアルゴリズムによって表される特定のモデルに応じて、ニューラルネットワークアルゴリズムからの出力は様々な形式をとることができる。

【0160】

機械学習アルゴリズムを用いて特定の問題をモデル化できるようになる前に、当該アルゴリズムは訓練データセットを用いて訓練される。ニューラルネットワークの訓練には、ネットワークトポロジを選択すること、ネットワークによりモデル化された問題を表している訓練データのセットを使用すること、及び訓練データセットの全てのインスタンスに対してネットワークモデルが最小誤差で実行するまで重みを調整することが必要になる。例えば、ニューラルネットワークに対する教師あり学習の訓練プロセスにおいて、訓練データセット内のインスタンスを表す入力に応答してネットワークにより生成される出力は、当該インスタンスの「正解」ラベル付き出力と比較され、当該出力とラベル付き出力との差を表す誤差信号が計算され、当該誤差信号がネットワークの各層を通って逆伝搬されるときに、誤差を最小限に抑えるように、接続と関連づけられた重みが調整される。ネットワークは、訓練データセットの各インスタンスから生成される出力のそれぞれに対する誤差が最小になると、「訓練済み」とみなされる。

【0161】

機械学習アルゴリズムの精度は、アルゴリズムを訓練するのに用いられるデータセットの品質に大きく影響され得る。訓練プロセスは計算集約的になる可能性があり、従来の汎用プロセッサでは多大な時間を必要とし得る。したがって、並列処理ハードウェアが、多くのタイプの機械学習アルゴリズムを訓練するのに用いられている。これは、ニューラルネットワークで係数を調整する際に行われる計算が並列の実装形態にもともと適しているため、ニューラルネットワークの訓練を最適化するのに特に役立つ。具体的には、多くの機械学習アルゴリズム及びソフトウェアアプリケーションが、汎用グラフィックス処理デバイス内の並列処理ハードウェアを利用するように適合されている。

【0162】

図６は、機械学習のソフトウェアスタック６００を一般化した図である。機械学習アプリケーション６０２が、訓練データセットを用いてニューラルネットワークを訓練するように、又は訓練したディープニューラルネットワークを用いてマシンインテリジェンスを実装するように構成されてよい。機械学習アプリケーション６０２は、ニューラルネットワーク用の訓練及び推論機能、並びに／又はニューラルネットワークを展開する前に訓練するのに用いられ得る特殊なソフトウェアを含んでよい。機械学習アプリケーション６０２は、限定されることはないが、画像認識、マッピング及び位置測定、自律航法、音声合成、医用画像、又は言語変換を含むあらゆるタイプのマシンインテリジェンスを実装できる。

【0163】

機械学習アプリケーション６０２のハードウェアアクセラレーションが、機械学習フレームワーク６０４によって可能になり得る。機械学習フレームワーク６０４は、機械学習プリミティブのライブラリを提供できる。機械学習プリミティブは、機械学習アルゴリズムによって一般的に行われる基本的演算である。機械学習フレームワーク６０４がないと、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連した、中心となる計算ロジックを作成して最適化し、新たな並列プロセッサが開発されると、この計算ロジックを最適化し直すことが必要になるであろう。その代わりに、機械学習アプリケーションは、機械学習フレームワーク６０４により提供されるプリミティブを用いて必要な計算を行うように構成されてよい。例示的なプリミティブには、テンソル畳み込み、活性化関数、及びプーリングが含まれ、これらは、畳み込みニューラルネットワーク（ＣＮＮ）を訓練する際に行われる計算操作である。機械学習フレームワーク６０４は、多くの機械学習アルゴリズムにより行われる、行列演算及びベクトル演算などの、基本的な線形代数サブプログラムを実装するためのプリミティブも提供できる。

【0164】

機械学習フレームワーク６０４は、機械学習アプリケーション６０２から受信した入力データを処理し、コンピュートフレームワーク６０６への適切な入力を生成することができる。コンピュートフレームワーク６０６は、ＧＰＧＰＵドライバ６０８に提供される基礎的な命令を抽象化して、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０のアーキテクチャに関する詳しい知識を有することを必要とせずに、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０を介してハードウェアアクセラレーションを活用できることを可能にすることができる。さらに、コンピュートフレームワーク６０６によって、ＧＰＧＰＵハードウェア６１０の様々なタイプ及び世代にわたり、機械学習フレームワーク６０４のハードウェアアクセラレーションが可能になり得る。
［ＧＰＧＰＵ機械学習アクセラレーション］

【0165】

図７は汎用グラフィックス処理ユニット７００を示しており、これは、図２Ａの並列プロセッサ２００であっても、図１の並列プロセッサ１１２であってもよい。汎用処理ユニット（ＧＰＧＰＵ）７００は、ディープニューラルネットワークの訓練と関連した計算ワークロードのタイプを処理する点で特に効率的であるように構成されよい。さらに、ＧＰＧＰＵ７００は、マルチＧＰＵクラスタを作成して、特にディープニューラルネットワークの訓練速度を向上させるために、ＧＰＧＰＵの他のインスタンスに直接的に接続されてよい。

【0166】

ＧＰＧＰＵ７００は、ホストプロセッサとの接続を可能にするホストインタフェース７０２を含む。ホストインタフェース７０２は、ＰＣＩＥｘｐｒｅｓｓインタフェースであってよい。しかしながら、ホストインタフェースは、ベンダ固有の通信インタフェース又は通信ファブリックであってもよい。ＧＰＧＰＵ７００はホストプロセッサからコマンドを受信し、グローバルスケジューラ７０４を用いて、これらのコマンドと関連づけられた実行スレッドを処理クラスタ７０６Ａ～７０６Ｈのセットに配分する。処理クラスタ７０６Ａ～７０６Ｈはキャッシュメモリ７０８を共有する。キャッシュメモリ７０８は、処理クラスタ７０６Ａ～７０６Ｈ内のキャッシュメモリに対して、高次のキャッシュとしての機能を果たしてよい。図示された処理クラスタ７０６Ａ～７０６Ｈは、図２Ａにあるような処理クラスタ２１４Ａ～２１４Ｎに対応してよい。

【0167】

ＧＰＧＰＵ７００は、メモリコントローラ７１２Ａ～７１２Ｂのセットを介して処理クラスタ７０６Ａ～Ｈに結合されたメモリ７１４Ａ～Ｂを含む。メモリ７１４Ａ～７１４Ｂは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）又はグラフィックスランダムアクセスメモリを含む様々なタイプのメモリデバイス、例えば、グラフィックスダブルデータレート（ＧＤＤＲ）メモリを含む同期式グラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）などを含んでよい。メモリ７１４Ａ～７１４Ｂは、限定されることはないが、高帯域幅メモリ（ＨＢＭ）を含む３Ｄスタックメモリも含んでよい。

【0168】

処理クラスタ７０６Ａ～７０６Ｈのそれぞれは、図２Ｄのグラフィックスマルチプロセッサ２３４、図３Ａのグラフィックスマルチプロセッサ３２５、図３Ｂのグラフィックスマルチプロセッサ３５０などのグラフィックスマルチプロセッサのセットを含んでもよく、図３Ｃにあるようなマルチコアグループ３６５Ａ～３６５Ｎを含んでもよい。コンピュートクラスタのグラフィックスマルチプロセッサは、機械学習計算に適した精度の範囲で計算操作を行うことができる複数のタイプの整数論理ユニット及び浮動小数点論理ユニットを含む。例えば、処理クラスタ７０６Ａ～７０６Ｈのそれぞれにある浮動小数点ユニット２６４の少なくともあるサブセットが、１６ビット又は３２ビット浮動小数点演算を行うように構成されてよく、浮動小数点ユニット２６４の別のサブセットが６４ビット浮動小数点演算を行うように構成されてよい。

【0169】

ＧＰＧＰＵ７００の複数のインスタンスが、コンピュートクラスタとして動作するように構成されてよい。同期及びデータ交換のためにコンピュートクラスタにより用いられる通信メカニズムは、実施形態によって様々である。例えば、ＧＰＧＰＵ７００の複数のインスタンスは、ホストインタフェース７０２で通信する。１つの実施形態において、ＧＰＧＰＵ７００は、ＧＰＧＰＵの他のインスタンスへの直接的な接続を可能にするＧＰＵリンク７１０にＧＰＧＰＵ７００を結合するＩ／Ｏハブ７０９を含む。ＧＰＵリンク７１０は、ＧＰＧＰＵ７００の複数のインスタンス間の通信及び同期を可能にする専用のＧＰＵ間ブリッジに結合されてよい。必要に応じて、ＧＰＵリンク７１０は、データを送受信する高速相互接続を用いて、他のＧＰＧＰＵ又は並列プロセッサに結合する。ＧＰＧＰＵ７００の複数のインスタンスは、別個のデータ処理システムに配置され、ホストインタフェース７０２を介してアクセス可能なネットワークデバイスを介して通信してよい。ＧＰＵリンク７１０は、ホストインタフェース７０２に加えて又はその代用として、ホストプロセッサへの接続を可能にするように構成されてよい。

【0170】

図示されたＧＰＧＰＵ７００の構成はニューラルネットワークを訓練するように構成されてよいが、ＧＰＧＰＵ７００の代替構成が、高性能又は低電力推論プラットフォームに展開するように構成されてよい。ある推論構成において、ＧＰＧＰＵ７００は、訓練構成と比べてより少ない数の処理クラスタ７０６Ａ～７０６Ｈを含む。さらに、メモリ７１４Ａ～７１４Ｂと関連したメモリ技術が、推論構成と訓練構成とで異なってよい。１つの実施形態において、ＧＰＧＰＵ７００の推論構成は、特定の命令の推論をサポートできる。例えば、ある推論構成が、１つ又は複数の８ビット整数ドット積命令のサポートを提供でき、この命令は、展開されたニューラルネットワークの推論操作時によく用いられる。

【0171】

図８は、マルチＧＰＵコンピュータ処理システム８００を示している。マルチＧＰＵコンピュータ処理システム８００は、ホストインタフェーススイッチ８０４を介して複数のＧＰＧＰＵ８０６Ａ～８０６Ｄに結合されるプロセッサ８０２を含んでよい。ホストインタフェーススイッチ８０４は、プロセッサ８０２をＰＣＩＥｘｐｒｅｓｓバスに結合するＰＣＩＥｘｐｒｅｓｓスイッチデバイスであってよく、ＰＣＩＥｘｐｒｅｓｓバスによって、プロセッサ８０２はＧＰＧＰＵ８０６Ａ～８０６Ｄのセットと通信できる。複数のＧＰＧＰＵ８０６Ａ～８０６Ｄのそれぞれは、図７のＧＰＧＰＵ７００のインスタンスであってよい。ＧＰＧＰＵ８０６Ａ～８０６Ｄは、高速ポイントツーポイントＧＰＵ間リンク８１６のセットを介して相互接続できる。高速ＧＰＵ間リンクは、図７にあるようなＧＰＵリンク７１０などの専用ＧＰＵリンクを介して、ＧＰＧＰＵ８０６Ａ～８０６Ｄのそれぞれに接続できる。Ｐ２ＰのＧＰＵリンク８１６によって、プロセッサ８０２が接続されるホストインタフェースバスによる通信を必要とすることなく、ＧＰＧＰＵ８０６Ａ～８０６Ｄのそれぞれの間で直接的な通信が可能になる。Ｐ２ＰのＧＰＵリンクを対象とするＧＰＵ間トラフィックで、ホストインタフェースバスは依然として、システムメモリアクセスに利用できる、又はマルチＧＰＵコンピュータ処理システム８００の他のインスタンスとの、例えば１つ又は複数のネットワークデバイスを介した通信に利用できる。図８ではＧＰＧＰＵ８０６Ａ～Ｄがホストインタフェーススイッチ８０４を介してプロセッサ８０２に接続しているが、プロセッサ８０２は代替的に、Ｐ２ＰのＧＰＵリンク８１６への直接的なサポートを含み、ＧＰＧＰＵ８０６Ａ～８０６Ｄに直接的に接続してよい。
［機械学習ニューラルネットワークの実装形態］

【0172】

本明細書で説明するコンピュータ処理アーキテクチャは、機械学習向けニューラルネットワークの訓練及び展開に特に適しているタイプの並列処理を行うように構成されてよい。ニューラルネットワークは、グラフ関係を有する機能のネットワークとして一般化されてよい。当技術分野でよく知られているように、機械学習に用いられるニューラルネットワークの実装形態には様々なタイプがある。１つの例示的なタイプのニューラルネットワークが、前述したように、フィードフォワード型ネットワークである。

【0173】

別の例示的なタイプのニューラルネットワークが、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、既知のグリッド状トポロジを有する画像データなどのデータを処理するために特化されたフィードフォワード型ニューラルネットワークである。したがって、ＣＮＮはコンピュータビジョン及び画像認識のアプリケーションによく用いられているが、音声・言語処理などの他のタイプのパターン認識にも用いられてよい。ＣＮＮ入力層内の各ノードは、「フィルタ」（網膜に見られる受容野から発想を得た特徴検出器）のセットに編成されており、フィルタの各セットの出力は、ネットワークの続く各層のノードに伝搬される。ＣＮＮの計算は、畳み込み数学演算を各フィルタに適用して、そのフィルタの出力を生成することを含む。畳み込みとは、２つの関数によって行われる、第３の関数を生成するための特殊な種類の数学演算であり、第３の関数は、２つの元の関数のうちの一方の修正版である。畳み込みネットワークの用語では、畳み込みに対する第１の関数は入力と呼ばれてよく、第２の関数は畳み込みカーネルと呼ばれてよい。出力は、特徴マップと呼ばれてよい。例えば、畳み込み層への入力は、入力画像の様々な色成分を規定するデータの多次元配列であってよい。畳み込みカーネルは、パラメータの多次元配列であってよく、これらのパラメータは、ニューラルネットワークの訓練プロセスによって適合される。

【0174】

再帰型ニューラルネットワーク（ＲＮＮ）は、層間のフィードバック結合を含むフィードフォワード型ニューラルネットワークの仲間である。ＲＮＮは、ニューラルネットワークの異なる部分にわたってパラメータデータを共有することで、シーケンシャルデータのモデリングを可能にする。ＲＮＮのアーキテクチャはサイクルを含む。ＲＮＮからの出力データの少なくとも一部がシーケンスの次の入力を処理するためのフィードバックとして用いられるため、サイクルは、変数の現在の値が将来の時点でその変数自体の値に与える影響を表す。この特徴によって、ＲＮＮは、言語データが構成され得る可変性に起因して、言語処理にとって特に役立つことになる。

【0175】

後述される図は、例示的なフィードフォワード型、ＣＮＮ型、及びＲＮＮ型ネットワークを示しており、併せてそれぞれのタイプのネットワークをそれぞれ訓練して展開するための一般的なプロセスも説明している。これらの説明は本明細書で説明される任意の特定の実施形態に関して例示的且つ非限定的であり、示される概念は概してディープニューラルネットワーク及び機械学習技法に一般に適用され得ることが理解されるであろう。

【0176】

上述した例示的なニューラルネットワークは、深層学習を行うのに用いられてよい。深層学習とは、ディープニューラルネットワークを用いる機械学習である。深層学習に用いられるディープニューラルネットワークは、複数の隠れ層で構成される人工ニューラルネットワークであり、隠れ層を１つしか含まない浅いニューラルネットワークとは異なる。深いニューラルネットワークほど、訓練は概して計算集約的になる。しかしながら、さらなるネットワークの隠れ層によって、浅い機械学習技法と比べて出力誤差の減少をもたらす多段式パターン認識が可能になる。

【0177】

深層学習に用いられるディープニューラルネットワークは通常、数学モデルを表すバックエンドネットワークに結合された、特徴認識を行うためのフロントエンドネットワークを含み、この数学モデルは、当該モデルに提供される特徴表現に基づいて、複数の操作（例えば、物体分類、音声認識など）を行うことができる。深層学習によって、手作りの特徴処理をモデルに対して行うことを必要とせずに、機械学習の実行が可能になる。その代わりに、ディープニューラルネットワークは入力データ内の統計的構造又は相関関係に基づいて特徴を学習できる。学習済みの特徴は、検出された特徴を出力にマッピングできる数学モデルに提供されてよい。ネットワークによって用いられる数学モデルは概して、実行される特定のタスクに特化されており、異なるモデルが異なるタスクを実行するのに用いられることになる。

【0178】

ニューラルネットワークが構築されると、特定のタスクを行うネットワークを訓練するために、当該ネットワークに学習モデルが適用されてよい。学習モデルは、ネットワークの出力誤差を減らすためにモデル内の重みをどのように調整するかを示している。誤差の逆伝搬が、ニューラルネットワークの訓練に用いられる一般的な方法である。入力ベクトルが、処理のためにネットワークに提供される。ネットワークの出力は、損失関数を用いて所望の出力と比較され、出力層の複数のニューロンのそれぞれに対して誤差値が計算される。誤差値は次に、各ニューロンが元の出力への寄与をほぼ表す相関誤差値を有するまで、逆方向に伝搬される。ネットワークは次いで、これらの誤差から、確率的勾配降下アルゴリズムなどのアルゴリズムを用いて学習し、ニューラルネットワークの重みを更新してよい。

【0179】

図９Ａ～図９Ｂは、例示的な畳み込みニューラルネットワークを示している。図９Ａは、ＣＮＮ内の様々な層を示している。図９Ａに示すように、画像処理をモデル化するのに用いられる例示的なＣＮＮが、入力画像の赤、緑、及び青（ＲＧＢ）の成分を示す入力９０２を受信してよい。入力９０２は、複数の畳み込み層（例えば、畳み込み層９０４、畳み込み層９０６）により処理されてよい。複数の畳み込み層からの出力は、必要に応じて、全結合層９０８のセットにより処理されてよい。フィードフォワード型ネットワークについて前述したように、全結合層内のニューロンが、前の層の全ての活性化に対して全結合している。全結合層９０８からの出力は、ネットワークから出力結果を生成するのに用いられてよい。全結合層９０８内の活性化は、畳み込みの代わりに行列乗算を用いて計算されてよい。全てのＣＮＮ実装形態が全結合層９０８を利用するわけではない。例えば、いくつかの実装形態では、畳み込み層９０６がＣＮＮの出力を生成してよい。

【0180】

畳み込み層は、全結合層９０８に見られる一般的なニューラルネットワーク構成とは異なり、疎に結合されている。一般的なニューラルネットワーク層は、全ての出力ユニットが全ての入力ユニットとやり取りできるように、全結合されている。しかしながら図示されているように、フィールド内の畳み込みの出力は（フィールド内の各ノードのそれぞれの状態値の代わりに）次の層のノードに入力されるため、畳み込み層は疎に結合されている。畳み込み層に関連づけられたカーネルは畳み込み演算を行い、その出力は次の層に送信される。畳み込み層内で行われる次元削減は、ＣＮＮが大画像の処理に拡張するのを可能にする１つの態様である。

【0181】

図９Ｂは、ＣＮＮの畳み込み層内の例示的な計算ステージを示している。ＣＮＮの畳み込み層への入力９１２は、畳み込み層９１４の３つのステージで処理されてよい。この３つのステージは、畳み込みステージ９１６、検出器ステージ９１８、及びプーリングステージ９２０を含んでよい。次に畳み込み層９１４は、続く畳み込み層にデータを出力してよい。ネットワークの最後の畳み込み層は、出力特徴マップデータを生成しても、全結合層に入力を提供して、例えばＣＮＮへの入力の分類値を生成してもよい。

【0182】

畳み込みステージ９１６では、いくつかの畳み込みを並列に行って、線形活性化のセットを生成する。畳み込みステージ９１６は、アフィン変換を含んでよく、これは並進を加えた線形変換に指定され得る任意の変換である。アフィン変換は、回転、並進、スケーリング、及びこれらの変換の組み合わせを含む。畳み込みステージは、入力の特定の領域に結合されている機能（例えば、ニューロン）の出力を計算する。この領域は、ニューロンと関連づけられたローカル領域と決定されてよい。ニューロンは、ニューロンの重みと、ニューロンが結合されている、ローカル入力内の領域とのドット積を計算する。畳み込みステージ９１６からの出力は、畳み込み層９１４の続く各ステージによって処理される線形活性化のセットを規定する。

【0183】

線形活性化は、検出器ステージ９１８により処理されてよい。検出器ステージ９１８では、各線形活性化が非線形活性化関数で処理される。非線形活性化関数は、畳み込み層の受容野に影響を与えることなく、ネットワーク全体の非線形特性を改善する。いくつかのタイプの非線形活性化関数が用いられてよい。１つの特定のタイプが正規化線形ユニット（ＲｅＬＵ）であり、これは、ｆ（ｘ）＝ｍａｘ（０，ｘ）と定義された活性化関数を用い、活性化を０で分けることになる。

【0184】

プーリングステージ９２０は、畳み込み層９０６の出力を近くの出力の要約統計量と置き換えるプーリング関数を用いる。プーリング関数は、入力に対する小さい並進がプールされた出力を変えないように、ニューラルネットワークに並進不変性を導入するのに用いられてよい。局所的な並進に対する不変性は、入力データ内の特徴の存在が当該特徴の正確な位置より重要になるシナリオで役立ち得る。最大プーリング、平均プーリング、及びＬ２ノルムプーリングを含む様々なタイプのプーリング関数が、プーリングステージ９２０で用いられてよい。さらに、いくつかのＣＮＮ実装形態は、プーリングステージを含まない。その代わりに、そのような実装形態は、これまでの畳み込みステージと比べてストライドを増やした別の畳み込みステージを代用している。

【0185】

次いで畳み込み層９１４からの出力は、次の層９２２によって処理されてよい。次の層９２２は、別の畳み込み層であっても、全結合層９０８のうちの１つであってもよい。例えば、図９Ａの第１畳み込み層９０４は、第２畳み込み層９０６に出力してよく、第２畳み込み層は、全結合層９０８の第１層に出力してよい。

【0186】

図１０は、例示的な再帰型ニューラルネットワーク１０００を示している。再帰型ニューラルネットワーク（ＲＮＮ）では、ネットワークの前の状態がネットワークの現在の状態の出力に影響を与える。ＲＮＮは、様々な機能を用いて、様々なやり方で構築されてよい。ＲＮＮの使用は概して、数学モデルを用いて前のシーケンスの入力に基づいて将来を予測することを中心に展開する。例えば、ＲＮＮを用いて、前のシーケンスのワードが与えられると、次のワードを予測する統計的言語モデルを実行してよい。図示されたＲＮＮ１０００は、入力ベクトルを受信する入力層１００２、再帰関数を実装する隠れ層１００４、前の状態の「記憶」を可能にするフィードバックメカニズム１００５、及び結果を出力する出力層１００６を有するものとして説明されてよい。ＲＮＮ１０００は、時間ステップに基づいて動作する。所与の時間ステップでのＲＮＮの状態は、前の時間ステップに基づき、フィードバックメカニズム１００５を介して影響を受ける。所与の時間ステップでは、隠れ層１００４の状態が、前の状態と、現在の時間ステップでの入力とによって定められる。第１時間ステップでの初期入力（Ｘ_１）が、隠れ層１００４により処理されてよい。第２入力（Ｘ_２）が、初期入力（Ｘ_１）の処理時に決定された状態情報を用いて、隠れ層１００４により処理されてよい。所与の状態が、ｓ_ｔ＝ｆ（Ｕｘ_ｔ＋Ｗｓ_ｔ－１）として計算されてよく、ここで、Ｕ及びＷはパラメータ行列である。関数ｆは一般に、双曲線正接関数（Ｔａｎｈ）又は正規化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）の変形などの非線形性である。しかしながら、隠れ層１００４で用いられる特定の数学関数は、ＲＮＮ１０００の特定の実装形態の詳細に応じて異なってよい。

【0187】

説明した基本的なＣＮＮ型ネットワーク及びＲＮＮ型ネットワークに加えて、これらのネットワークに対する変形が可能になり得る。１つの例示的なＲＮＮ変形が、長短期記憶（ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、長いシーケンスの言語を処理するのに必要になり得る長期依存を学習できる。ＣＮＮの変形が畳み込みディープビリーフネットワークである。これは、ＣＮＮと同様の構造を有し、ディープビリーフネットワークと同様の方式で訓練される。ディープビリーフネットワーク（ＤＢＮ）とは、複数層の確率（ランダム）変数で構成された敵対的生成ニューラルネットワークである。ＤＢＮは、貪欲な教師なし学習を用いて層ごとに訓練されてよい。次に、ＤＢＮの学習済みの重みが、ニューラルネットワークにとって最適な重みの初期セットを決定することにより、事前訓練ニューラルネットワークを提供するのに用いられてよい。

【0188】

図１１は、ディープニューラルネットワークの訓練及び展開を示している。あるタスクのために所与のネットワークが構築されると、ニューラルネットワークは、訓練データセット１１０２を用いて訓練される。様々な訓練フレームワーク１１０４が、訓練プロセスのハードウェアアクセラレーションを可能にするために開発されてきた。例えば、図６の機械学習フレームワーク６０４は、訓練フレームワーク６０４として構成されてよい。訓練フレームワーク６０４は、訓練前のニューラルネットワーク１１０６に接続し、訓練済みのニューラルネット１１０８を生成するために、本明細書で説明した並列処理リソースを用いて訓練前のニューラルネットを訓練するのを可能にしてよい。

【0189】

訓練プロセスを開始するために、ランダムに、又はディープビリーフネットワークを用いて事前訓練することで、初期重みが選択されてよい。次に訓練サイクルが、教師あり方式又は教師なし方式のいずれかで行われてよい。

【0190】

教師あり学習とは、訓練データセット１１０２が入力に対する所望の出力と組み合わされた入力を含む場合、又は訓練データセットが既知の出力を有する入力を含み、ニューラルネットワークの出力が手動で格付けされる場合などに、訓練が仲介オペレーションとして行われる学習方法である。ネットワークは入力を処理し、得られた出力を、期待される出力又は所望の出力のセットと比較する。次に誤差は、システムを通じて後方に伝搬される。訓練フレームワーク１１０４は、訓練前のニューラルネットワーク１１０６を制御する重みを調整するように調整できる。訓練フレームワーク１１０４は、訓練前のニューラルネットワーク１１０６が、既知の入力データに基づいて、正解を生成するのに好適なモデルに向かってどの程度収束しているかを監視するツールを提供できる。ニューラルネットワークにより生成される出力を改善するためにネットワークの重みが調整されると、訓練プロセスが繰り返し行われる。ニューラルネットワークが、訓練済みのニューラルネット１１０８と関連づけられた統計的に所望の精度に達するまで、訓練プロセスは継続してよい。次いで、訓練済みのニューラルネットワーク１１０８は、新たなデータ１１１２の入力に基づいて推論結果１１１４を生成する任意の数の機械学習操作を実装するために展開されてよい。

【0191】

教師なし学習とは、ネットワークがラベルなしデータを用いて自ら訓練を試みる学習方法である。したがって教師なし学習の場合、訓練データセット１１０２は、関連づけられた出力データを何も持たない入力データを含むことになる。訓練前のニューラルネットワーク１１０６は、ラベルなし入力のグループ分けを学習でき、個々の入力がどれだけデータセット全体に関連しているかを判定できる。教師なし訓練は、自己組織化マップを生成するのに用いられてよく、これは、データの次元を削減する際に役立つ操作を実行できる訓練済みのニューラルネットワーク１１０８の一種である。教師なし訓練は、異常検出を行うのにも用いられてよく、これにより、データの通常のパターンから外れた入力データセット内のデータ点を識別するのが可能になる。

【0192】

教師あり訓練及び教師なし訓練の変形も使用されてよい。半教師あり学習とは、訓練データセット１１０２が同じ配分のラベル付きデータとラベルなしデータとの組み合わせを含む技法である。インクリメンタル学習とは、教師あり学習の変形であり、ここでは、入力データを継続的に用いて、モデルをさらに訓練する。インクリメンタル学習によって、訓練済みのニューラルネットワーク１１０８が、初期訓練時にネットワークに教え込まれた知識を忘れずに、新たなデータ１１１２に適合することが可能になる。

【0193】

教師ありであっても、教師なしであっても、特にディープニューラルネットワークの訓練プロセスは、単一コンピュートノードにとって過度に計算集約的かもしれない。単一コンピュートノードを用いる代わりに、分散型ネットワークの計算ノードを用いて、訓練プロセスを加速することができる。

【0194】

図１２は、分散型学習を示すブロック図である。分散型学習とは、複数の分散型コンピュータ処理ノードを用いて、ニューラルネットワークの教師あり訓練または教師なし訓練を行う訓練モデルである。分散型計算ノードはそれぞれ、１つ又は複数のホストプロセッサと、図７にあるような高度に並列化された汎用グラフィックス処理ユニット７００などの複数の汎用処理ノードのうちの１つ又は複数とを含んでよい。図示されているように、分散型学習は、モデル並列処理１２０２、データ並列処理１２０４、又はモデル及びデータ並列処理の組み合わせ１２０６で行われてよい。

【0195】

モデル並列処理１２０２では、分散型システム内の異なる計算ノードが、単一ネットワークの異なる部分の訓練計算を行うことができる。例えば、ニューラルネットワークの各層は、分散型システムの異なる処理ノードにより訓練されてよい。モデル並列処理の利点には、特に大規模モデルに拡張する能力が含まれる。ニューラルネットワークの異なる層と関連づけられた複数の計算を分割することで、全ての層の重みが単一計算ノードのメモリに収まらない超大規模ニューラルネットワークの訓練が可能になる。いくつかの例では、大規模ニューラルネットワークの教師なし訓練を行う際に、モデル並列処理が特に役立ち得る。

【0196】

データ並列処理１２０４では、分散型ネットワークの個々のノードがモデルの完全なインスタンスを有し、各ノードがデータの異なる部分を受信する。次に、個々のノードからの結果が組み合わされる。データ並列処理には様々な手法が可能であるが、データ並列訓練手法は全て、結果を組み合わせ、各ノード間でモデルパラメータを同期させる技法が必要になる。データを組み合わせるための例示的な手法には、パラメータ平均化と更新ベースのデータ並列処理とが含まれる。パラメータ平均化では、訓練データのサブセットで各ノードを訓練し、グローバルパラメータ（例えば、重み、バイアス）を各ノードからのパラメータの平均に設定する。パラメータ平均化では、パラメータデータを維持する中央パラメータサーバを用いる。更新ベースのデータ並列処理は、パラメータを各ノードからパラメータサーバに転送する代わりにモデル化の更新情報が転送されること以外は、パラメータ平均化と同様である。さらに、更新ベースのデータ並列処理は、分散方式で行われてもよく、この場合、更新情報は圧縮されてノード間で転送される。

【0197】

モデルとデータの同時並列処理１２０６が、例えば、各計算ノードが複数のＧＰＵを含む分散型システムで行われてよい。各ノードはモデルの完全なインスタンスを有してよく、各ノード内の独立したＧＰＵがモデルの異なる部分を訓練するのに用いられる。

【0198】

分散型訓練では、単一の機械での訓練と比べてオーバヘッドが増加している。しかしながら、本明細書で説明した並列プロセッサ及びＧＰＧＰＵはそれぞれ、分散型訓練のオーバヘッドを減らすための様々な技法を実装することができ、その技術には、高帯域幅ＧＰＵ間データ転送及び加速型リモートデータ同期を可能にする技法が含まれる。
［例示的な機械学習アプリケーション］

【0199】

機械学習は、限定されることはないが、コンピュータビジョン、自動運転、ナビゲーション、音声認識、及び言語処理を含む様々な技術的問題を解決するのに適用され得る。コンピュータビジョンは、これまで機械学習アプリケーションの最も活発な研究領域のうちの１つである。コンピュータビジョンアプリケーションは、顔認識などの人の視覚能力を再現することから、視覚能力の新たなカテゴリを作成することまで多岐にわたる。例えば、コンピュータビジョンアプリケーションは、映像に見える物体に生じた振動から音波を認識するように構成されてよい。並列プロセッサによる加速型機械学習によって、これまでに実現可能だったものより著しく規模が大きい訓練データセットを用いてコンピュータビジョンアプリケーションを訓練することができ、また低電力並列プロセッサを用いて推論システムを展開することができる。

【0200】

並列プロセッサによる加速型機械学習は、車線や道路標識の認識、障害物回避、ナビゲーション、及び運転制御を含む自動運転アプリケーションを有する。加速型機械学習技法は、特定の訓練入力に対する適切な応答を定めたデータセットに基づいて、運転モデルを訓練するのに用いてよい。本明細書で説明された並列プロセッサは、自動運転ソリューションに用いられる複雑さを増すニューラルネットワークの速やかな訓練を可能にし、また自律走行車に組み込むのに好適なモバイルプラットフォームへの低電力推論プロセッサの展開を可能にし得る。

【0201】

並列プロセッサ加速型ディープニューラルネットワークは、自動音声認識（ＡＳＲ）への機械学習の取り組みを可能にした。ＡＳＲは、入力音響シーケンスが与えられると、最も可能性の高い言語シーケンスを計算する機能の創出を含む。ディープニューラルネットワークを用いる加速型機械学習は、ＡＳＲに以前から用いられている隠れマルコフモデル（ＨＭＭ）及び混合ガウスモデル（ＧＭＭ）の交換を可能にした。

【0202】

並列プロセッサ加速型機械学習は、自然言語処理の加速にも用いられてよい。自動学習手順では、統計的推論アルゴリズムを利用して、誤った入力又は未知の入力に対してロバストなモデルを生成できる。例示的な自然言語プロセッサアプリケーションは、人の言語間の自動機械翻訳を含む。

【0203】

機械学習に用いられる並列処理プラットフォームは、訓練プラットフォームと展開プラットフォームとに分割されてよい。訓練プラットフォームは一般に、高度に並列化されており、マルチＧＰＵシングルノード訓練及びマルチノードマルチＧＰＵ訓練を加速させる最適化を含む。訓練に適した例示的な並列プロセッサには、図７の汎用グラフィックス処理ユニット７００と、図８のマルチＧＰＵコンピュータ処理システム８００とが含まれている。一方、展開機械学習プラットフォームは一般に、カメラ、自律型ロボット、及び自律走行車などの製品に使用するのに好適な低電力並列プロセッサを含む。

【0204】

図１３は、訓練済みのモデルを用いた推論を行うのに好適な、例示的な推論用システムオンチップ（ＳｏＣ）１３００を示している。ＳｏＣ１３００は、メディアプロセッサ１３０２、ビジョンプロセッサ１３０４、ＧＰＧＰＵ１３０６、及びマルチコアプロセッサ１３０８を含む処理コンポーネントを一体化することができる。ＧＰＧＰＵ１３０６は、本明細書で説明したＧＰＧＰＵ７００などのＧＰＧＰＵであってよく、マルチコアプロセッサ１３０８は、マルチコアプロセッサ４０５～４０６などの本明細書で説明したマルチコアプロセッサであってよい。ＳｏＣ１３００はさらに、これらの処理コンポーネントのそれぞれがアクセス可能な共有オンチップデータプールを可能にできるオンチップメモリ１３０５を含んでよい。各処理コンポーネントは、自律走行車及び自律型ロボットを含む様々な機械学習プラットフォームへの展開を可能にする低電力動作用に最適化されてよい。例えば、ＳｏＣ１３００の１つの実装形態が、自律走行車のメイン制御システムの一部として用いられてよい。ＳｏＣ１３００が自律走行車に用いられるように構成されている場合、ＳｏＣは、展開管轄機関の関連する機能的な安全基準を順守するように設計され且つ構成されている。

【0205】

動作に際して、メディアプロセッサ１３０２及びビジョンプロセッサ１３０４は、コンピュータビジョンのオペレーションを加速させるために、連携して働くことができる。メディアプロセッサ１３０２は、複数の高解像度（例えば、４Ｋ、８Ｋ）ビデオストリームの低遅延デコードを可能にし得る。デコードされたビデオストリームは、オンチップメモリ１３０５のバッファに書き込まれてよい。ビジョンプロセッサ１３０４は次に、デコードされたビデオを解析し、訓練済み画像認識モデルを用いたフレーム処理の準備として、デコードされたビデオのフレームに対して予備処理操作を行ってよい。例えば、ビジョンプロセッサ１３０４は、高解像度ビデオデータに対して画像認識を行うのに用いられるＣＮＮ用畳み込み演算を加速させることができ、バックエンドモデル計算がＧＰＧＰＵ１３０６により行われる。

【0206】

マルチコアプロセッサ１３０８は、メディアプロセッサ１３０２及びビジョンプロセッサ１３０４により行われるデータ転送及び共有メモリ操作の順序付け及び同期を支援する制御ロジックを含んでよい。マルチコアプロセッサ１３０８は、ＧＰＧＰＵ１３０６の推論計算能力を利用できるソフトウェアアプリケーションを実行するアプリケーションプロセッサとしても機能することができる。例えば、ナビゲーション及び運転ロジックの少なくとも一部が、マルチコアプロセッサ１３０８で実行するソフトウェアに実装されてよい。そのようなソフトウェアは、計算ワークロードをＧＰＧＰＵ１３０６に直接的に発行することができる、又は計算ワークロードはマルチコアプロセッサ１３０８に発行されてよい。マルチコアプロセッサはこれらの操作の少なくとも一部をＧＰＧＰＵ１３０６にオフロードすることができる。

【0207】

ＧＰＧＰＵ１３０６は、汎用グラフィックス処理ユニット７００内の低電力構成の処理クラスタ７０６Ａ～７０６Ｈなどのコンピュートクラスタを含んでよい。ＧＰＧＰＵ１３０６内のコンピュートクラスタは、訓練済みのニューラルネットワーク上で推論計算を行うように特に最適化された命令をサポートできる。例えば、ＧＰＧＰＵ１３０６は、８ビット及び４ビットの整数ベクトル演算などの低精度計算を行う命令をサポートできる。
［別のシステム概要］

【0208】

図１４は、処理システム１４００のブロック図である。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図１４の要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様な方式で動作又は機能でき、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。システム１４００は、単一プロセッサのデスクトップシステム、マルチプロセッサのワークステーションシステム、又は多数のプロセッサ１４０２若しくはプロセッサコア１４０７を有するサーバシステムに用いられてよい。システム１４００は、モバイルデバイス、ハンドヘルドデバイス、又は埋め込み型デバイスに使用されるシステムオンチップ（ＳｏＣ）集積回路に組み込まれた、例えば、ローカルエリアネットワーク又はワイドエリアネットワークへの有線接続機能又は無線接続機能を備えた「モノのインターネット」（ＩｏＴ）デバイスなどに組み込まれた処理プラットフォームであってよい。

【0209】

システム１４００は、図１のコンポーネントと対応するコンポーネントを有する処理システムであってよい。例えば、異なる構成において、プロセッサ１４０２又はプロセッサコア１４０７が、図１のプロセッサ１０２と対応してよい。グラフィックスプロセッサ１４０８が、図１の並列プロセッサ１１２と対応してよい。外付けグラフィックスプロセッサ１４１８が、図１の複数のアドインデバイス１２０のうちの１つであってよい。

【0210】

システム１４００は、サーバベースのゲームプラットフォーム、ゲーム及びメディアコンソールを含むゲームコンソール、携帯型ゲームコンソール、ハンドヘルド型ゲームコンソール、又はオンラインゲームコンソールを含んでも、これらと結合しても、これらに統合されてもよい。システム１４００は、携帯電話、スマートフォン、タブレット型コンピュータ処理デバイス、又は内蔵記憶容量が低いラップトップなどの携帯型インターネット接続デバイスの一部であってよい。処理システム１４００は、スマートウォッチウェアラブルデバイスなどのウェアラブルデバイス、現実世界の視覚体験、音声体験、若しくは触覚体験を補助する視覚出力、音声出力、若しくは触覚出力を提供するか、そうでない場合には、テキスト、音声、グラフィックス、映像、ホログラフィ像若しくはホログラフィ映像、若しくは触覚フィードバックを提供する拡張現実（ＡＲ）機能若しくは仮想現実（ＶＲ）機能で拡充されたスマートアイウェア若しくは衣類、他の拡張現実（ＡＲ）デバイス、又は他の仮想現実（ＶＲ）デバイスも含んでよく、それらと結合してもよく、又はそれらに統合されてもよい。処理システム１４００は、テレビ又はセットトップボックス機器の一部を含んでも、その一部であってもよい。システム１４００は、バス、トラクタトレーラ、自動車、モータ駆動又は電動のオートバイ、飛行機若しくはグライダ（又はこれらの任意の組み合わせ）などの自動運転乗り物に含まれても、これらと結合しても、これらに統合されてもよい。自動運転乗り物は、システム１４００を用いて、当該乗り物の周囲で検知された環境を処理してよい。

【0211】

１つ又は複数のプロセッサ１４０２は、実行されるとシステム又はユーザソフトウェアのオペレーションを行う命令を処理する１つ又は複数のプロセッサコア１４０７を含んでよい。１つ又は複数のプロセッサコア１４０７のうちの最も小さいものは、特定の命令セット１４０９を処理するように構成されてよい。命令セット１４０９は、複合命令セットによるコンピュータ処理（ＣＩＳＣ）、縮小命令セットによるコンピュータ処理（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）によるコンピュータ処理を容易にしてよい。１つ又は複数のプロセッサコア１４０７は、別の命令セット１４０９を処理してよく、この命令セットは、他の命令セットのエミュレーションを容易にする命令を含んでよい。プロセッサコア１４０７は、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスも含んでよい。

【0212】

プロセッサ１４０２は、キャッシュメモリ１４０４を含んでよい。アーキテクチャに応じて、プロセッサ１４０２は、単一の内蔵キャッシュ又は複数レベルの内蔵キャッシュを有してよい。いくつかの実施形態において、キャッシュメモリは、プロセッサ１４０２の様々なコンポーネントの間で共有される。いくつかの実施形態において、プロセッサ１４０２は、外付けキャッシュ（例えば、レベル３（Ｌ３）キャッシュ又はラストレベルキャッシュ（ＬＬＣ））（不図示）も用いる。この外付けキャッシュは、既知のキャッシュコヒーレンシ技法を用いて複数のプロセッサコア１４０７の間で共有されてよい。レジスタファイル１４０６がさらに、プロセッサ１４０２に含まれてよく、このレジスタファイルは異なるタイプのデータを格納するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、及び命令ポインタレジスタ）を含んでよい。一部のレジスタは汎用レジスタであってよく、他のレジスタはプロセッサ１４０２の方式に固有であってよい。

【0213】

１つ又は複数のプロセッサ１４０２は、アドレス信号、データ信号、又は制御信号などの通信信号をプロセッサ１４０２とシステム１４００の他のコンポーネントとの間で伝送する１つ又は複数のインタフェースバス１４１０に結合されてよい。これらの実施形態のうちの１つでは、インタフェースバス１４１０は、ダイレクトメディアインタフェース（ＤＭＩ）バスのあるバージョンなどのプロセッサバスであってよい。しかしながら、プロセッサバスはＤＭＩバスに限定されることはなく、１つ又は複数のペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）、メモリバス、又は他のタイプのインタフェースバスを含んでよい。例えば、プロセッサ１４０２は、統合メモリコントローラ１４１６及びプラットフォームコントローラハブ１４３０を含んでよい。メモリコントローラ１４１６は、メモリデバイスとシステム１４００の他のコンポーネントとの間の通信を容易にし、プラットフォームコントローラハブ（ＰＣＨ）１４３０は、ローカルのＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

【0214】

メモリデバイス１４２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイス、又はプロセスメモリとしての機能を果たすのに好適な性能を有する何らかの他のメモリデバイスであってよい。メモリデバイス１４２０は、例えば、システム１４００のシステムメモリとして動作し、１つ又は複数のプロセッサ１４０２がアプリケーション又はプロセスを実行するときに用いるデータ１４２２及び命令１４２１を格納してよい。メモリコントローラ１４１６は、任意的な外付けグラフィックスプロセッサ１４１８とも結合し、この外付けグラフィックスプロセッサは、グラフィックス操作及びメディア操作を行うために、プロセッサ１４０２の１つ又は複数のグラフィックスプロセッサ１４０８と通信してよい。いくつかの実施形態では、グラフィックス操作、メディア操作、及び／又はコンピュート操作が、特殊なセットのグラフィックス操作、メディア操作、又はコンピュート操作を行うように構成され得るコプロセッサであるアクセラレータ１４１２によって支援されてよい。例えば、アクセラレータ１４１２は、機械学習操作又はコンピュート操作を最適化するのに用いられる行列乗算アクセラレータであってよい。アクセラレータ１４１２は、グラフィックスプロセッサ１４０８と連携してレイトレーシング操作を行うのに用いられ得るレイトレーシングアクセラレータであってよい。１つの実施形態では、外付けアクセラレータ１４１９が、アクセラレータ１４１２の代わりに又はこれと連携して用いられてよい。

【0215】

プロセッサ１４０２に接続できる表示デバイス１４１１が提供されてよい。表示デバイス１４１１は、携帯型電子機器若しくはラップトップデバイスにあるような内蔵表示デバイス、又はディスプレイインタフェース（例えば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられた外付け表示デバイスのうちの一方又は両方であってよい。表示デバイス１４１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションに用いる立体表示デバイスなどのヘッドマウントディスプレイ（ＨＭＤ）であってよい。

【0216】

プラットフォームコントローラハブ１４３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリデバイス１４２０及びプロセッサ１４０２に接続するのを可能にしてよい。Ｉ／Ｏ周辺機器は、限定されることはないが、オーディオコントローラ１４４６、ネットワークコントローラ１４３４、ファームウェアインタフェース１４２８、無線送受信機１４２６、タッチセンサ１４２５、データ記憶装置１４２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔなど）を含む。データ記憶装置１４２４は、ストレージインタフェース（例えば、ＳＡＴＡ）を介して、又はペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）などのペリフェラルバスを介して接続できる。タッチセンサ１４２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含んでよい。無線送受信機１４２６は、Ｗｉ－Ｆｉ送受信機、Ｂｌｕｅｔｏｏｔｈ（登録商標）送受信機、又は３Ｇ、４Ｇ、５Ｇ、若しくはロングタームエボリューション（ＬＴＥ）送受信機などの移動体ネットワーク送受信機であってよい。ファームウェアインタフェース１４２８は、システムファームウェアとの通信を可能にし、例えば、統合拡張ファームウェアインタフェース（ＵＥＦＩ）であってよい。ネットワークコントローラ１４３４は、有線ネットワークへのネットワーク接続を可能にし得る。いくつかの実施形態では、高性能ネットワークコントローラ（不図示）がインタフェースバス１４１０と結合する。オーディオコントローラ１４４６は、マルチチャネルのハイディフィニションオーディオコントローラであってよい。これらの実施形態のいくつかにおいて、システム１４００は、レガシー（例えば、パーソナルシステム／２（ＰＳ／２））デバイスをシステムに結合するための任意的なレガシーＩ／Ｏコントローラ１４４０を含む。プラットフォームコントローラハブ１４３０は、キーボード及びマウス１４４３の組み合わせ、カメラ１４４４、又は他のＵＳＢ入力デバイスなどの入力デバイスを接続するための、１つ又は複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４４２にも接続できる。

【0217】

違うように構成されている他のタイプのデータ処理システムも用いられてよいので、示されているシステム１４００は、例示的であって限定しているわけではないことが理解されるであろう。例えば、メモリコントローラ１４１６及びプラットフォームコントローラハブ１４３０のインスタンスが、外付けグラフィックスプロセッサ１４１８などの別個の外付けグラフィックスプロセッサに統合されてよい。プラットフォームコントローラハブ１４３０及び／又はメモリコントローラ１４１６は、１つ又は複数のプロセッサ１４０２の外部にあってよい。例えば、システム１４００は、外付けのメモリコントローラ１４１６及びプラットフォームコントローラハブ１４３０を含んでよく、これらは、プロセッサ１４０２と通信するシステムチップセット内のメモリコントローラハブ及びペリフェラルコントローラハブとして構成されてよい。

【0218】

例えば、ＣＰＵ、メモリ、及び他のコンポーネントなどの各コンポーネントが配置された回路基板（「スレッド」）が用いられてよく、熱性能を高めるように設計されてよい。プロセッサなどの処理コンポーネントがスレッドの表面側に配置されてよく、ＤＩＭＭなどのニアメモリがスレッドの裏面側に配置される。この方式でもたらされる気流改善の結果として、各コンポーネントは代表的なシステムのものより高い周波数及び高い電力レベルで動作することができ、これにより、性能が向上する。さらにスレッドは、ラック内の電力ケーブル及びデータ通信ケーブルと簡単に連結するように構成されているので、スレッドを素早く取り外す、アップグレードする、再取り付けする、且つ／又は交換する能力が改善される。同様に、スレッドに配置されるプロセッサ、アクセラレータ、メモリ、及びデータストレージドライブなどの個々のコンポーネントが、互いとの空間を広げることにより、容易にアップグレードされるように構成されている。例示の実施形態において、これらのコンポーネントはさらに、その真正性を証明するハードウェア認証機能を含む。

【0219】

データセンタでは、イーサネット（登録商標）及びオムニパスを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（「ファブリック」）が利用できる。スレッドは、光ファイバを介してスイッチに結合されてよく、光ファイバにより、代表的なツイストペアケーブル（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６など）より高い帯域幅及び低い遅延がもたらされる。高帯域幅低遅延の相互接続及びネットワークアーキテクチャにより、データセンタは、使用時には、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィックスアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワーク、及び／又は人工知能アクセラレータなど）、及び物理的に分解されているデータストレージドライブなどのリソースをプールし、必要に応じてこれらのリソースをコンピュートリソース（例えば、プロセッサ）に提供して、プールされたリソースがローカルにあるかのように、コンピュートリソースがこれらのリソースにアクセスできるようにしてよい。

【0220】

電力供給装置又は電源が、システム１４００又は本明細書で説明される任意のコンポーネント若しくはシステムに電圧及び／又は電流を供給してよい。１つの例では、電力供給装置は、壁コンセントに差し込むＡＣ／ＤＣ（交流／直流）アダプタを含む。そのようなＡＣ電源は、再生可能エネルギー（例えば、太陽光発電）電源であってよい。１つの例では、電源は、外付けのＡＣ／ＤＣコンバータなどのＤＣ電源を含む。電源又は電力供給装置は、充電場に近づけることによって充電する無線充電ハードウェアも含んでよい。電源は、内蔵バッテリ、交流電源、モーションベースの電源、太陽電池電源、又は燃料電池電源を含んでよい。

【0221】

図１５Ａ～図１５Ｃは、コンピュータ処理システム及びグラフィックスプロセッサを示している。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図１５Ａ～図１５Ｃの要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。

【0222】

図１５Ａはプロセッサ１５００のブロック図であり、このプロセッサは、複数のプロセッサ１４０２のうちの１つの変形であってよく、また複数のプロセッサ１４０２のうちの１つの代わりに用いられてよい。したがって、ここでのプロセッサ１５００と組み合わせた任意の特徴の開示も、プロセッサ１４０２との対応する組み合わせを開示しているが、そのように限定されることはない。プロセッサ１５００は、１つ又は複数のプロセッサコア１５０２Ａ～１５０２Ｎ、統合メモリコントローラ１５１４、及び統合グラフィックスプロセッサ１５０８を有してよい。統合グラフィックスプロセッサ１５０８を除外した場合、プロセッサを含むシステムは、グラフィックスプロセッサデバイスをシステムチップセット内に含むか、又はシステムバスを介して結合されることになる。プロセッサ１５００は、破線枠で表される追加のコア１５０２Ｎまで（これを含めて）追加のコアを含んでよい。プロセッサコア１５０２Ａ～１５０２Ｎのそれぞれは、１つ又は複数の内蔵キャッシュユニット１５０４Ａ～１５０４Ｎを含む。いくつかの実施形態では、各プロセッサコア１５０２Ａ～１５０２Ｎは、１つ又は複数の共有キャッシュユニット１５０６にもアクセスできる。内蔵キャッシュユニット１５０４Ａ～１５０４Ｎ及び共有キャッシュユニット１５０６は、プロセッサ１５００内のキャッシュメモリ階層を表している。キャッシュメモリ階層は、各プロセッサコア内に少なくとも１つのレベルの命令及びデータキャッシュと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、又は他のレベルのキャッシュなどの１つ又は複数のレベルの共有中間レベルキャッシュとを含んでよく、外付けメモリの前の最高レベルのキャッシュがＬＬＣとして分類される。いくつかの実施形態では、キャッシュコヒーレンシロジックが、様々なキャッシュユニット１５０６及び１５０４Ａ～１５０４Ｎの間の一貫性を維持する。

【0223】

プロセッサ１５００は、１つ又は複数のバスコントローラユニット１５１６のセット、及びシステムエージェントコア１５１０も含んでよい。１つ又は複数のバスコントローラユニット１５１６は、１つ又は複数のＰＣＩバス又はＰＣＩＥｘｐｒｅｓｓバスなどのペリフェラルバスのセットを管理する。システムエージェントコア１５１０は、様々なプロセッサコンポーネントに管理機能を提供する。システムエージェントコア１５１０は、様々な外付けメモリデバイス（不図示）へのアクセスを管理する１つ又は複数の統合メモリコントローラ１５１４を含んでよい。

【0224】

例えば、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１つ又は複数が、同時マルチスレッディング用のサポートを含んでよい。システムエージェントコア１５１０は、マルチスレッド処理時に、コア１５０２Ａ～１５０２Ｎを調整し且つ動作させるためのコンポーネントを含む。システムエージェントコア１５１０は、電力制御ユニット（ＰＣＵ）をさらに含んでよく、この電力制御ユニットは、プロセッサコア１５０２Ａ～１５０２Ｎ及びグラフィックスプロセッサ１５０８の電力状態を調節するロジック及びコンポーネントを含む。

【0225】

プロセッサ１５００は、グラフィックス処理操作を実行するグラフィックスプロセッサ１５０８をさらに含んでよい。これらの実施形態のいくつかにおいて、グラフィックスプロセッサ１５０８は、共有キャッシュユニット１５０６のセットと、１つ又は複数の統合メモリコントローラ１５１４を含むシステムエージェントコア１５１０と結合する。システムエージェントコア１５１０は、１つ又は複数の結合されたディスプレイへのグラフィックスプロセッサの出力を駆動するディスプレイコントローラ１５１１も含んでよい。ディスプレイコントローラ１５１１は、少なくとも１つの相互接続を介してグラフィックスプロセッサと結合された別個のモジュールであってもよく、グラフィックスプロセッサ１５０８に統合されてもよい。

【0226】

リングベースの相互接続ユニット１５１２が、プロセッサ１５００の内蔵コンポーネントを結合するのに用いられてよい。しかしながら、ポイントツーポイント相互接続、交換型相互接続、又は当技術分野でよく知られた技法を含む他の技法などの代替相互接続ユニットが用いられてよい。リングベースの相互接続１５１２を用いたこれらの実施形態のいくつかでは、グラフィックスプロセッサ１５０８は、Ｉ／Ｏリンク１５１３を介してリングベースの相互接続１５１２と結合する。

【0227】

例示的なＩ／Ｏリンク１５１３は、様々なプロセッサコンポーネントと、ｅＤＲＡＭモジュールなどの高性能埋め込み型メモリモジュール１５１８との間の通信を容易にするオンパッケージＩ／Ｏ相互接続を含む複数の様々なＩ／Ｏ相互接続のうちの少なくとも１つを表している。必要に応じて、プロセッサコア１５０２Ａ～１５０２Ｎ及びグラフィックスプロセッサ１５０８のそれぞれは、共有ラストレベルキャッシュとして埋め込み型メモリモジュール１５１８を用いてよい。

【0228】

プロセッサコア１５０２Ａ～１５０２Ｎは、例えば、同じ命令セットアーキテクチャを実行する同種のコアであってよい。あるいは、プロセッサコア１５０２Ａ～１５０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）に関して異種であり、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１つ又は複数が第１命令セットを実行し、その他のコアのうちの少なくとも１つが第１命令セットのサブセット又は別の命令セットを実行する。プロセッサコア１５０２Ａ－１５０２Ｎは、マイクロアーキテクチャに関して異種であってよく、ここでは、電力消費が比較的高い１つ又は複数のコアが、電力消費が低い１つ又は複数の電力コアと結合する。別の例として、プロセッサコア１５０２Ａ～１５０２Ｎは、計算能力に関して異種である。さらに、プロセッサ１５００は、１つ又は複数のチップに実装されてもよく、例示したコンポーネントを他のコンポーネントの他に有するＳｏＣ集積回路として実装されてもよい。

【0229】

図１５Ｂは、本明細書で説明したいくつかの実施形態によるグラフィックスプロセッサコア１５１９のハードウェアロジックのブロック図である。グラフィックスプロセッサコア１５１９は、コアスライスと呼ばれることがあり、モジュール式グラフィックスプロセッサ内の１つ又は複数のグラフィックスコアであってよい。グラフィックスプロセッサコア１５１９は、典型的な１つのグラフィックスコアスライスであり、本明細書で説明されたグラフィックスプロセッサが、目標電力及び性能エンベロープに基づいて複数のグラフィックスコアスライスを含んでよい。各グラフィックスプロセッサコア１５１９は、サブスライスとも呼ばれる複数のサブコア１５２１Ａ～１５２１Ｆと結合した固定機能ブロック１５３０を含んでよく、この固定機能ブロックは汎用機能ロジック及び固定機能ロジックのモジュール式ブロックを含む。

【0230】

固定機能ブロック１５３０は、例えば、低性能及び／又は低電力のグラフィックスプロセッサの実装形態において、グラフィックスプロセッサコア１５１９内の全てのサブコアが共有できるジオメトリ／固定機能パイプライン１５３１を含んでよい。ジオメトリ／固定機能パイプライン１５３１は、３Ｄ固定機能パイプライン（例えば、後述される図１６Ａにあるような３Ｄパイプライン１６１２）、ビデオフロントエンドユニット、スレッドスポーナ及びスレッドディスパッチャ、並びに統合リターンバッファ（例えば後述されるような、図１７の統合リターンバッファ１７１８）を管理する統合リターンバッファマネージャを含んでよい。

【0231】

固定機能ブロック１５３０は、グラフィックスＳｏＣインタフェース１５３２、グラフィックスマイクロコントローラ１５３３、及びメディアパイプライン１５３４も含んでよい。グラフィックスＳｏＣインタフェース１５３２は、グラフィックスプロセッサコア１５１９と、システムオンチップ集積回路内の他のプロセッサコアとの間のインタフェースを供給する。グラフィックスマイクロコントローラ１５３３は、スレッドディスパッチ、スケジューリング、及びプリエンプションを含む、グラフィックスプロセッサコア１５１９の様々な機能を管理するように構成可能なプログラム可能型サブプロセッサである。メディアパイプライン１５３４（例えば、図１６Ａ及び図１７のメディアパイプライン１６１６）は、画像データ及びビデオデータを含むマルチメディアデータのデコード、エンコード、前処理、及び／又は後処理を容易にするロジックを含む。メディアパイプライン１５３４は、サブコア１５２１～１５２１Ｆ内のコンピュートロジック又はサンプリングロジックへの要求によってメディア操作を行う。

【0232】

ＳｏＣインタフェース１５３２によって、グラフィックスプロセッサコア１５１９は汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）及び／又はＳｏＣ内の他のコンポーネント（共有ラストレベルキャッシュメモリ、システムＲＡＭ、及び／又は埋め込み型オンチップ若しくはオンパッケージＤＲＡＭなどのメモリ階層要素を含む）と通信することが可能になり得る。ＳｏＣインタフェース１５３２は、カメライメージングパイプラインなどの、ＳｏＣ内の固定機能デバイスとの通信も可能にしてよく、グラフィックスプロセッサコア１５１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミックスの使用を可能にする且つ／又はグローバルメモリアトミックスを実装する。ＳｏＣインタフェース１５３２は、グラフィックスプロセッサコア１５１９の電力管理制御も行い、グラフィックスコア１５１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインタフェースを可能にすることができる。必要に応じて、ＳｏＣインタフェース１５３２は、グラフィックスプロセッサ内の１つ又は複数のグラフィックスコアのそれぞれにコマンド及び命令を提供するように構成されたコマンドストリーマ及びグローバルスレッドディスパッチャからの、コマンドバッファの受信を可能にする。コマンド及び命令は、メディア操作が行われるときに、メディアパイプライン１５３４にディスパッチされてよく、又はグラフィックス処理操作が行われるときに、ジオメトリ及び固定機能パイプライン（例えば、ジオメトリ及び固定機能パイプライン１５３１、ジオメトリ及び固定機能パイプライン１５３７）にディスパッチされてよい。

【0233】

グラフィックスマイクロコントローラ１５３３は、グラフィックスプロセッサコア１５１９の様々なスケジューリング及び管理タスクを行うように構成されてよい。１つの構成では、グラフィックスマイクロコントローラ１５３３は、例えば、サブコア１５２１Ａ～１５２１Ｆ内の実行ユニット（ＥＵ）アレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ内の様々なグラフィックス並列エンジンでグラフィックス及び／又はコンピュートワークロードスケジューリングを行ってよい。このワークロードスケジューリングでは、グラフィックスプロセッサコア１５１９を含むＳｏＣのＣＰＵコアで実行するホストソフトウェアが、複数のグラフィックスプロセッサドアベルのうちの１つにワークロードを投入してよい。このドアベルは、適切なグラフィックスエンジン上にスケジューリング操作を呼び出す。スケジューリング操作は、どのワークロードを次に実行するかを決定すること、ワークロードをコマンドストリーマに投入すること、あるエンジンで実行される既存のワークロードをプリエンプトすること、ワークロードの進捗を監視すること、ワークロードが完了したときにホストソフトウェアに通知することを含む。必要に応じて、グラフィックスマイクロコントローラ１５３３はまた、グラフィックスプロセッサコア１５１９の低電力状態又は休止状態を促進し、システム上のオペレーティングシステム及び／又はグラフィックスドライバソフトウェアから独立して、低電力状態移行中にグラフィックスプロセッサコア１５１９内のレジスタを保存し復元する能力をグラフィックスプロセッサコア１５１９に提供してよい。

【0234】

グラフィックスプロセッサコア１５１９は、図示されているサブコア１５２１Ａ～１５２１Ｆより多くても少なくてもよく、Ｎ個のモジュール式サブコアまで有してよい。Ｎ個のサブコアのセットごとに、グラフィックスプロセッサコア１５１９は、様々なグラフィックス処理操作及びコンピュート処理操作を加速させるために、共有機能ロジック１５３５、共有及び／又はキャッシュメモリ１５３６、ジオメトリ／固定機能パイプライン１５３７、並びに別の固定機能ロジック１５３８も含んでよい。共有機能ロジック１５３５は、図１７の共有機能ロジック１７２０と関連する論理ユニット（例えば、サンプラロジック、数学ロジック、及び／又はスレッド間通信ロジック）を含んでよく、この論理ユニットは、グラフィックスプロセッサコア１５１９内のそれぞれのＮ個のサブコアにより共有され得る。共有及び／又はキャッシュメモリ１５３６は、グラフィックスプロセッサコア１５１９内のＮ個のサブコア１５２１Ａ～１５２１Ｆのセットに対するラストレベルキャッシュであってよく、複数のサブコアがアクセス可能な共有メモリとしての機能も果たすことができる。ジオメトリ／固定機能パイプライン１５３７は、固定機能ブロック１５３０内のジオメトリ／固定機能パイプライン１５３１の代わりに含まれてよく、同じ又は同様の論理ユニットを含んでよい。

【0235】

グラフィックスプロセッサコア１５１９は、グラフィックスプロセッサコア１５１９が用いるための様々な固定機能アクセラレーションロジックを含み得る別の固定機能ロジック１５３８を含んでよい。必要に応じて、別の固定機能ロジック１５３８は、位置限定シェーディングに用いるための別のジオメトリパイプラインを含む。位置限定シェーディングには２つのジオメトリパイプライン、つまり、ジオメトリ／固定機能パイプライン１５３８、１５３１内のフルジオメトリパイプラインと、カリングパイプラインとが存在し、カリングパイプラインは、別の固定機能ロジック１５３８内に含まれ得る別のジオメトリパイプラインである。例えば、カリングパイプラインは、フルジオメトリパイプラインの機能縮小版であってよい。フルパイプライン及びカリングパイプラインは、同じアプリケーションの個々のインスタンスを実行でき、各インスタンスは別個のコンテキストを有する。位置限定シェーディングは、破棄された三角形の長いカリング工程を隠すことができ、いくつかの例ではシェーディングを早く完了させることができる。例えば、別の固定機能ロジック１５３８内のカリングパイプラインロジックは、複数の位置シェーダをメインアプリケーションと並行して実行でき、通常、フルパイプラインより速く重要な結果を生成する。これは、カリングパイプラインが、ラスタライズ及びフレームバッファへのピクセルのレンダリングを行うことなく、頂点の位置属性だけをフェッチしてシェーディングするからである。カリングパイプラインは、生成された重要な結果を用いて、全ての三角形の可視性情報を、これらの三角形がカリングされているかどうかに関係なく計算できる。フルパイプライン（このインスタンスは再生パイプラインと呼ばれることがある）は、可視性情報を使って、カリングされた三角形をスキップし、最終的にラスタライズ段階に送られる可視三角形だけをシェーディングすることができる。

【0236】

必要に応じて、別の固定機能ロジック１５３８は、機械学習の訓練又は推論の最適化を含む実装形態のために、固定機能行列乗算ロジックなどの機械学習アクセラレーションロジックも含んでよい。

【0237】

各グラフィックスサブコア１５２１Ａ～１５２１Ｆには、グラフィックスパイプライン、メディアパイプライン、又はシェーダプログラムの要求に応答して、グラフィックス操作、メディア操作、及びコンピュート操作を行うのに用いられ得る実行リソースのセットが含まれている。グラフィックスサブコア１５２１Ａ～１５２１Ｆは、複数のＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ、スレッドディスパッチ及びスレッド間通信（ＴＤ／ＩＣ）ロジック１５２３Ａ～１５２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラ１５２５Ａ～１５２５Ｆ、メディアサンプラ１５０６Ａ～１５０６Ｆ、シェーダプロセッサ１５２７Ａ～１５２７Ｆ、並びに共有ローカルメモリ（ＳＬＭ）１５２８Ａ～１５２８Ｆを含む。ＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆはそれぞれ、複数の実行ユニットを含み、これらの実行ユニットは、グラフィックス操作、メディア操作、又はコンピュート操作のサービスにおいて、浮動小数点及び整数／固定小数点の論理演算を行うことができ、グラフィックスシェーダプログラム、メディアシェーダプログラム、又はコンピュートシェーダプログラムを含む、汎用グラフィックス処理ユニットである。ＴＤ／ＩＣロジック１５２３Ａ～１５２３Ｆは、サブコア内の実行ユニットのためにローカルスレッドディスパッチ操作及びスレッド制御操作を行い、サブコアの実行ユニットで実行するスレッド間の通信を促進する。３Ｄサンプラ１５２５Ａ～１５２５Ｆは、テクスチャ又は他の３Ｄグラフィックス関連のデータをメモリに読み出すことができる。３Ｄサンプラは、構成されたサンプリング状態と所与のテクスチャと関連づけられたテクスチャフォーマットとに基づいて、テクスチャデータを別々に読み出すことができる。メディアサンプラ１５０６Ａ～１５０６Ｆは、メディアデータと関連づけられたタイプ及びフォーマットに基づいて、同様の読み出し操作を行うことができる。例えば、各グラフィックスサブコア１５２１Ａ～１５２１Ｆは、統合３Ｄ及びメディアサンプラを交互に含んでよい。サブコア１５２１Ａ～１５２１Ｆのそれぞれに含まれる実行ユニットで実行されるスレッドは、各サブコア内の共有ローカルメモリ１５２８Ａ～１５２８Ｆを利用して、スレッドグループ内で実行されるスレッドがオンチップメモリの共通プールを用いて実行されることを可能にし得る。

【0238】

図１５Ｃは、グラフィックスプロセッサとして、例えば、本明細書で説明した実施形態によるグラフィックスプロセッサ１５０８及び／又はコンピュートアクセラレータとして構成され得る汎用グラフィックス処理ユニット（ＧＰＧＰＵ）１５７０のブロック図である。ＧＰＧＰＵ１５７０は、１つ又は複数のシステムバス及び／又はメモリバスを介して、ホストプロセッサ（例えば、１つ又は複数のＣＰＵ１５４６）及びメモリ１５７１、１５７２と相互接続することができる。メモリ１５７１は、１つ又は複数のＣＰＵ１５４６と共有され得るシステムメモリであってよく、メモリ１５７２は、ＧＰＧＰＵ１５７０に専用のデバイスメモリである。例えば、ＧＰＧＰＵ１５７０及びデバイスメモリ１５７２内の各コンポーネントは、１つ又は複数のＣＰＵ１５４６がアクセス可能なメモリアドレスにマッピングされてよい。メモリ１５７１および１５７２へのアクセスが、メモリコントローラ１５６８を介して促進されてよい。メモリコントローラ１５６８は、内蔵ダイレクトメモリアクセス（ＤＭＡ）コントローラ１５６９を含んでよく、そうでない場合には、ＤＭＡコントローラにより行われる操作を行うロジックを含んでよい。

【0239】

ＧＰＧＰＵ１５７０は、Ｌ２キャッシュ１５５３、Ｌ１キャッシュ１５５４、命令キャッシュ１５５５、及び共有メモリ１５５６を含む複数のキャッシュメモリを含み、そのうちの少なくとも一部は、キャッシュメモリとしても分割されてよい。ＧＰＧＰＵ１５７０は、複数のコンピュートユニット１５６０Ａ～１５６０Ｎも含む。各コンピュートユニット１５６０Ａ～１５６０Ｎは、ベクトルレジスタ１５６１、スカラレジスタ１５６２、ベクトル論理ユニット１５６３、及びスカラ論理ユニット１５６４のセットを含む。コンピュートユニット１５６０Ａ～１５６０Ｎは、ローカル共有メモリ１５６５及びプログラムカウンタ１５６６も含んでよい。コンピュートユニット１５６０Ａ～１５６０Ｎは、定数データを格納するのに用いられ得る定数キャッシュ１５６７と結合してよく、定数データは、ＧＰＧＰＵ１５７０で実行されるカーネル又はシェーダプログラムの実行時に変わらないデータである。定数キャッシュ１５６７はスカラデータキャッシュであってよく、キャッシュされたデータは、スカラレジスタ１５６２に直接的にフェッチされてよい。

【0240】

動作に際して、１つ又は複数のＣＰＵ１５４６は、アクセス可能なアドレス空間にマッピングされているＧＰＧＰＵ１５７０内のレジスタ又はメモリにコマンドを書き込むことができる。コマンドプロセッサ１５５７は、コマンドをレジスタ又はメモリから読み出し、これらのコマンドをＧＰＧＰＵ１５７０でどのように処理するかを決定できる。次に、スレッドディスパッチャ１５５８を用いて、これらのコマンドを実行するコンピュートユニット１５６０Ａ～１５６０Ｎにスレッドをディスパッチしてよい。各コンピュートユニット１５６０Ａ～１５６０Ｎは、その他のコンピュートユニットから独立してスレッドを実行できる。さらに、各コンピュートユニット１５６０Ａ～１５６０Ｎは条件付き計算用に独立して構成されてよく、計算結果をメモリに条件付きで出力できる。コマンドプロセッサ１５５７は、投入されたコマンドが完了すると、１つ又は複数のＣＰＵ１５４６を中断できる。

【0241】

図１６Ａ～図１６Ｃは、本明細書で説明した、例えば、図１５Ａ～図１５Ｃによる実施形態により提供される別のグラフィックスプロセッサ及びコンピュートアクセラレータアーキテクチャのブロック図を示している。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図１６Ａ～図１６Ｃの要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。

【0242】

図１６Ａは、グラフィックスプロセッサ１６００のブロック図であり、このグラフィックスプロセッサは、別個のグラフィックス処理ユニットであってもよく、複数の処理コア又は他の半導体デバイス（限定されることはないが、メモリデバイス又はネットワークインタフェースなど）と一体化されたグラフィックスプロセッサであってもよい。グラフィックスプロセッサ１６００は、グラフィックスプロセッサ１５０８の変形であってもよく、グラフィックスプロセッサ１５０８の代わりに用いられてもよい。したがって、グラフィックスプロセッサ１５０８と組み合わせた任意の特徴のここでの開示は、グラフィックスプロセッサ１６００との対応する組み合わせも開示しているが、そのように限定されることはない。グラフィックスプロセッサは、グラフィックスプロセッサ上のレジスタへのメモリマップドＩ／Ｏインタフェースを介して、且つプロセッサメモリに配置されたコマンドを用いて通信してよい。グラフィックスプロセッサ１６００は、メモリにアクセスするメモリインタフェース１６１４を含んでよい。メモリインタフェース１６１４は、ローカルメモリ、１つ又は複数の内蔵キャッシュ、１つ又は複数の共有外付けキャッシュ、及び／又はシステムメモリへのインタフェースであってよい。

【0243】

必要に応じて、グラフィックスプロセッサ１６００は、表示デバイス１６１８への出力データの表示を駆動するディスプレイコントローラ１６０２も含む。ディスプレイコントローラ１６０２は、複数層のビデオインタフェース要素又はユーザインタフェース要素の表示及び合成に用いる１つ又は複数のオーバーレイ平面用のハードウェアを含む。表示デバイス１６１８は、内蔵表示デバイスでも外付け表示デバイスでもよい。１つの実施形態において、表示デバイス１６１８は、仮想現実（ＶＲ）表示デバイス又は拡張現実（ＡＲ）表示デバイスなどの、ヘッドマウントディスプレイデバイスである。グラフィックスプロセッサ１６００は、１つ又は複数のメディアエンコードフォーマットとの間でメディアをエンコード、デコード、又はトランスコードするビデオコーデックエンジン１６０６を含んでよい。これらのフォーマットは、限定されることはないが、ムービングピクチャエキスパーツグループ（ＭＰＥＧ）フォーマット（ＭＰＥＧ－２など）、高度なビデオコーディング（ＡＶＣ）フォーマット（Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、Ｈ．２６５／ＨＥＶＣなど）、アライアンスフォーオープンメディア（ＡＯＭｅｄｉａ）のＶＰ８、ＶＰ９、並びに米国映画テレビ技術者協会（ＳＭＰＴＥ）の４２１Ｍ／ＶＣ－１、及びジョイントフォトグラフィックエキスパーツグループ（ＪＰＥＧ）フォーマット（ＪＰＥＧフォーマット、モーションＪＰＥＧ（ＭＪＰＥＧ）フォーマットなど）を含む。

【0244】

グラフィックスプロセッサ１６００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ操作を行うための、ブロック画像転送（ＢＬＩＴ）エンジン１６０４を含んでよい。しかしながら、代替的に、２Ｄグラフィックス操作が、グラフィックス処理エンジン（ＧＰＥ）１６１０の１つ又は複数のコンポーネントを用いて行われてよい。いくつかの実施形態において、ＧＰＥ１６１０は、３次元（３Ｄ）のグラフィックス操作及びメディア操作を含むグラフィックス操作を実行するためのコンピュートエンジンである。

【0245】

ＧＰＥ１６１０は、３Ｄプリミティブ形状（例えば、長方形、三角形など）に作用する処理機能を用いて、３次元画像及びシーンのレンダリングなどの３Ｄ操作を行うための３Ｄパイプライン１６１２を含んでよい。３Ｄパイプライン１６１２は、要素内の様々なタスクを行う且つ／又は３Ｄ／メディアサブシステム１６１５への実行スレッドを生成するプログラム可能要素及び固定機能要素を含む。メディア操作を行うのに３Ｄパイプライン１６１２を用いてよいが、ＧＰＥ１６１０の一実施形態が、ビデオ後処理及び画像強調などのメディア操作を行うのに特に用いられるメディアパイプライン１６１６も含む。

【0246】

メディアパイプライン１６１６は、ビデオコーデックエンジン１６０６の代わりに又はこれに代わって、ビデオデコードアクセラレーション、ビデオデインタレース、及びビデオエンコードアクセラレーションなどの、１つ又は複数の特殊なメディア操作を行う固定機能論理ユニット又はプログラム可能型論理ユニットを含んでよい。メディアパイプライン１６１６はさらに、３Ｄ／メディアサブシステム１６１５で実行するスレッドを生成するスレッド生成ユニットを含んでよい。生成されたスレッドは、３Ｄ／メディアサブシステム１６１５に含まれる１つ又は複数のグラフィックス実行ユニットでメディア操作用の計算を行う。

【0247】

３Ｄ／メディアサブシステム１６１５は、３Ｄパイプライン１６１２及びメディアパイプライン１６１６により生成されたスレッドを実行するためのロジックを含んでよい。これらのパイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム１６１５に送信してよく、この３Ｄ／メディアサブシステムは、様々な要求を調停して、利用できるスレッド実行リソースにそれらの要求をディスパッチするためのスレッドディスパッチロジックを含む。実行リソースは、３Ｄスレッド及びメディアスレッドを処理するためのグラフィックス実行ユニットのアレイを含む。３Ｄ／メディアサブシステム１６１５は、スレッド命令及びデータ用の１つ又は複数の内蔵キャッシュを含んでよい。さらに、３Ｄ／メディアサブシステム１６１５は、レジスタ及びアドレス指定可能なメモリを含む、スレッド間でデータを共有し且つ出力データを格納するための共有メモリも含んでよい。

【0248】

図１６Ｂは、グラフィックスプロセッサ１６００の変形であるグラフィックスプロセッサ１６２０を示しており、グラフィックスプロセッサ１６２０は、グラフィックスプロセッサ１６００の代わりに用いられてよく、その逆も同様である。したがって、グラフィックスプロセッサ１６００と組み合わせた任意の特徴のここでの開示は、グラフィックスプロセッサ１６２０との対応する組み合わせも開示しているが、そのように限定されることはない。グラフィックスプロセッサ１６２０は、本明細書で説明される実施形態によるタイル型アーキテクチャを有する。グラフィックスプロセッサ１６２０は、図１６Ａのグラフィックス処理エンジン１６１０の複数のインスタンスをグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄ内に有するグラフィックス処理エンジンクラスタ１６２２を含んでよい。各グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄは、タイル相互接続１６２３Ａ～１６２３Ｆのセットを介して相互接続されてよい。各グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄは、メモリ相互接続１６２５Ａ～１６２５Ｄを介してメモリモジュール又はメモリデバイス１６２６Ａ～１６２６Ｄにも結合されてよい。メモリデバイス１６２６Ａ～１６２６Ｄは、任意のグラフィックスメモリ技術を使用できる。例えば、メモリデバイス１６２６Ａ～１６２６Ｄは、グラフィックスダブルデータレート（ＧＤＤＲ）メモリであってよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それぞれのグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄとオンダイになり得る高帯域幅メモリ（ＨＢＭ）モジュールであってよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それぞれのグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄの上に積層され得るスタック型メモリデバイスであってよい。各グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄ及び関連するメモリ１６２６Ａ～１６２６Ｄは、別個のチップレットに存在してよく、このチップレットは、図２４Ｂ～図２４Ｄにさらに詳細に説明されるように、ベースダイ又はベース基板に接合されている。

【0249】

グラフィックスプロセッサ１６２０は、メモリデバイス１６２６Ａ～１６２６Ｄが関連グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄと結合されている不均一メモリアクセス（ＮＵＭＡ）システムで構成されてよい。所与のメモリデバイスが、当該メモリデバイスが直接的に結合されているタイル以外のグラフィックスエンジンタイルによりアクセスされてよい。しかしながら、メモリデバイス１６２６Ａ～１６２６Ｄへのアクセス遅延が、ローカルタイルにアクセスすると最も低くなり得る。１つの実施形態では、キャッシュコヒーレントＮＵＭＡ（ｃｃＮＵＭＡ）システムが可能になる。このシステムは、タイル相互接続１６２３Ａ～１６２３Ｆを用いて、１つより多くのキャッシュが同じメモリ位置を格納すると、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄ内のキャッシュコントローラ間の通信が一貫したメモリイメージの保持を可能にする。

【0250】

グラフィックス処理エンジンクラスタ１６２２は、オンチップ又はオンパッケージのファブリック相互接続１６２４と接続することができる。ファブリック相互接続１６２４は、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄと、ビデオコーデック１６０６及び１つ又は複数のコピーエンジン１６０４などのコンポーネントとの通信を可能にすることができる。コピーエンジン１６０４は、メモリデバイス１６２６Ａ～１６２６Ｄとの間で、またメモリデバイス１６２６Ａ～１６２６Ｄとグラフィックスプロセッサ１６２０の外部にあるメモリ（例えば、システムメモリ）との間でデータを移動するのに用いられてよい。ファブリック相互接続１６２４は、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄを相互接続するのにも用いられてよい。グラフィックスプロセッサ１６２０は、必要に応じて、外付け表示デバイス１６１８との接続を可能にするディスプレイコントローラ１６０２を含んでよい。グラフィックスプロセッサは、グラフィックスアクセラレータ又はコンピュートアクセラレータとしても構成されてよい。アクセラレータ構成では、ディスプレイコントローラ１６０２及び表示デバイス１６１８が省略されてよい。

【0251】

グラフィックスプロセッサ１６２０は、ホストインタフェース１６２８を介してホストシステムに接続できる。ホストインタフェース１６２８は、グラフィックスプロセッサ１６２０、システムメモリ、及び／又は他のシステムコンポーネントの間の通信を可能にし得る。ホストインタフェース１６２８は、例えば、ＰＣＩＥｘｐｒｅｓｓバス又は別のタイプのホストシステムインタフェースであってよい。

【0252】

図１６Ｃは、本明細書で説明される実施形態によるコンピュートアクセラレータ１６３０を示している。コンピュートアクセラレータ１６３０は、図１６Ｂのグラフィックスプロセッサ１６２０とアーキテクチャ上の類似点を含んでよく、コンピュートアクセラレーション用に最適化されている。コンピュートエンジンクラスタ１６３２が、並列又はベクトルベースの汎用コンピュート操作用に最適化されている実行ロジックを含むコンピュートエンジンタイル１６４０Ａ～１６４０Ｄのセットを含んでよい。コンピュートエンジンタイル１６４０Ａ～１６４０Ｄは、固定機能グラフィックス処理ロジックを含まなくてもよいが、いくつかの実施形態では、コンピュートエンジンタイル１６４０Ａ～１６４０Ｄのうちの１つ又は複数がメディアアクセラレーションを行うロジックを含んでよい。コンピュートエンジンタイル１６４０Ａ～１６４０Ｄは、メモリ相互接続１６２５Ａ～１６２５Ｄを介してメモリ１６２６Ａ～１６２６Ｄに接続できる。メモリ１６２６Ａ～１６２６Ｄ及びメモリ相互接続１６２５Ａ～１６２５Ｄは、グラフィックスプロセッサ１６２０に見られるのと同様の技術であってもよく、異なっていてもよい。グラフィックスコンピュートエンジンタイル１６４０Ａ～１６４０Ｄは、タイル相互接続１６２３Ａ～１６２３Ｆのセットを介して相互接続されてもよく、ファブリック相互接続１６２４で接続される且つ／又はファブリック相互接続１６２４により相互接続されてもよい。１つの実施形態において、コンピュートアクセラレータ１６３０はデバイス全体のキャッシュとして構成され得る大規模なＬ３キャッシュ１６３６を含む。コンピュートアクセラレータ１６３０は、図１６Ｂのグラフィックスプロセッサ１６２０と同様の方式で、ホストインタフェース１６２８を介してホストプロセッサ及びメモリにも接続できる。
［グラフィックス処理エンジン］

【0253】

図１７は、いくつかの実施形態によるグラフィックスプロセッサのグラフィックス処理エンジン１７１０のブロック図である。グラフィックス処理エンジン（ＧＰＥ）１７１０は、図１６Ａに示すＧＰＥ１６１０のあるバージョンであってよく、図１６Ｂのグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄも表してよい。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図１７の要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。例えば、図１６Ａの３Ｄパイプライン１６１２及びメディアパイプライン１６１６は、図１７にも示されている。メディアパイプライン１６１６はＧＰＥ１７１０のいくつかの実施形態では任意的であり、ＧＰＥ１７１０に明示的に含まれていなくてもよい。例えば、少なくとも１つの実施形態では、別個のメディア及び／又はイメージプロセッサがＧＰＥ１７１０に結合されている。

【0254】

ＧＰＥ１７１０は、コマンドストリーマ１７０３と結合しても、これを含んでもよく、このコマンドストリーマは、３Ｄパイプライン１６１２及び／又はメディアパイプライン１６１６にコマンドストリームを提供する。代替的に又は追加的に、コマンドストリーマ１７０３は、統合リターンバッファ１７１８に直接的に結合されてよい。統合リターンバッファ１７１８は、グラフィックスコアアレイ１７１４に通信可能に結合されてよい。必要に応じて、コマンドストリーマ１７０３はメモリと結合され、このメモリは、システムメモリであっても、内蔵キャッシュメモリ及び共有キャッシュメモリのうちの一方又は両方であってもよい。コマンドストリーマ１７０３は、メモリからコマンドを受信してよく、このコマンドを３Ｄパイプライン１６１２及び／又はメディアパイプライン１６１６に送信する。コマンドはリングバッファからフェッチされる指示であり、リングバッファは３Ｄパイプライン１６１２及びメディアパイプライン１６１６用のコマンドを格納する。リングバッファはさらに、複数のコマンドのバッチを格納するバッチコマンドバッファを含んでよい。３Ｄパイプライン１６１２用のコマンドは、限定されることはないが、３Ｄパイプライン１６１２用の頂点及びジオメトリデータ、並びに／又はメディアパイプライン３１６用の画像データ及びメモリオブジェクトなどの、メモリに格納されたデータへの参照も含んでよい。３Ｄパイプライン１６１２及びメディアパイプライン１６１６は、それぞれのパイプライン内のロジックを介して操作を行うことによって、又は１つ又は複数の実行スレッドをグラフィックスコアアレイ１７１４にディスパッチすることによって、コマンド及びデータを処理する。グラフィックスコアアレイ１７１４は、グラフィックスコア（例えば、グラフィックスコア１７１５Ａ、グラフィックスコア１７１５Ｂ）の１つ又は複数のブロックを含んでよく、各ブロックは１つ又は複数のグラフィックスコアを含む。各グラフィックスコアは、グラフィックス操作及びコンピュート操作を行うための汎用及びグラフィックス固有の実行ロジック、並びに固定機能テクスチャ処理及び／又は機械学習及び人工知能アクセラレーションロジックを含むグラフィックス実行リソースのセットを含む。

【0255】

様々な実施形態において、３Ｄパイプライン１６１２は、命令を処理して、実行スレッドをグラフィックスコアアレイ１７１４にディスパッチすることにより、１つ又は複数のシェーダプログラムを処理する固定機能ロジック及びプログラム可能型ロジックを含んでよく、これらのシェーダプログラムは、頂点シェーダ、ジオメトリシェーダ、ピクセルシェーダ、フラグメントシェーダ、コンピュートシェーダ、又は他のシェーダプログラムなどである。グラフィックスコアアレイ１７１４は、これらのシェーダプログラムを処理する際に用いる実行リソースの統合ブロックを提供する。グラフィックスコアアレイ１７１４のグラフィックスコア１７１５Ａ～１７１５Ｂ内の多目的実行ロジック（例えば、実行ユニット）が、様々な３ＤＡＰＩシェーダ言語のサポートを含み、複数のシェーダに関連した複数の同時実行スレッドを実行できる。

【0256】

グラフィックスコアアレイ１７１４は、映像処理及び／又は画像処理などのメディア機能を行う実行ロジックを含んでよい。実行ユニットは、グラフィックス処理操作に加えて、並列汎用計算操作を行うようにプログラム可能な汎用ロジックを含んでよい。汎用ロジックは、図１４のプロセッサコア１４０７又は図１５Ａにあるようなコア１５０２Ａ～１５０２Ｎ内の汎用ロジックと並列に又はこれと併用して処理操作を行うことができる。

【0257】

グラフィックスコアアレイ１７１４で実行するスレッドにより生成される出力データが、統合リターンバッファ（ＵＲＢ）１７１８内のメモリにデータを出力できる。ＵＲＢ１７１８は、複数のスレッドのデータを格納できる。ＵＲＢ１７１８は、グラフィックスコアアレイ１７１４で実行する個々のスレッド間でデータを送信するのに用いられてよい。ＵＲＢ１７１８はさらに、グラフィックスコアアレイ１７１４上のスレッドと、共有機能ロジック１７２０内の固定機能ロジックとの間の同期に用いられてよい。

【0258】

必要に応じて、グラフィックスコアアレイ１７１４はスケーラブルであってよく、このアレイは可変数のグラフィックスコアを含み、それぞれは、ＧＰＥ１７１０の目標電力及び性能レベルに基づいて可変数の実行ユニットを有する。実行リソースは、動的にスケーラブルであってよく、実行リソースは必要に応じて有効になっても無効になってもよい。

【0259】

グラフィックスコアアレイ１７１４は、グラフィックスコアアレイ内のグラフィックスコア間で共有される複数のリソースを含む共有機能ロジック１７２０と結合する。共有機能ロジック１７２０内の共有機能は、特殊な補助的機能をグラフィックスコアアレイ１７１４に提供するハードウェア論理ユニットである。様々な実施形態において、共有機能ロジック１７２０は、限定されることはないが、サンプラロジック１７２１、数学ロジック１７２２、及びスレッド間通信（ＩＴＣ）ロジック１７２３を含む。さらに、共有機能ロジック１７２０内の１つ又は複数のキャッシュ１７２５が実装されてもよい。

【0260】

少なくとも所与の専門機能の要求がグラフィックスコアアレイ１７１４内に含めるのに不十分な場合、共有機能が実装される。その代わりに、この専門機能の単一のインスタンス化が独立型エンティティとして共有機能ロジック１７２０に実装され、グラフィックスコアアレイ１７１４内の実行リソースの間で共有される。グラフィックスコアアレイ１７１４の間で共有され、グラフィックスコアアレイ１７１４に含まれる正確な機能のセットは、実施形態によって異なる。グラフィックスコアアレイ１７１４によって広く用いられている共有機能ロジック１７２０内の特定の共有機能が、グラフィックスコアアレイ１７１４内の共有機能ロジック１７１６に含まれてよい。必要に応じて、グラフィックスコアアレイ１７１４内の共有機能ロジック１７１６は、共有機能ロジック１７２０内の一部又は全部のロジックを含んでよい。共有機能ロジック１７２０内の全てのロジック要素は、グラフィックスコアアレイ１７１４の共有機能ロジック１７１６に複製されてよい。あるいは、共有機能ロジック１７２０は、グラフィックスコアアレイ１７１４内の共有機能ロジック１７１６を優先して除外される。
［実行ユニット］

【0261】

図１８Ａ～図１８Ｂは、本明細書で説明される実施形態によるグラフィックスプロセッサコアに使用される処理要素のアレイを含むスレッド実行ロジック１８００を示している。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図１８Ａ～図１８Ｂの各要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。図１８Ａ～図１８Ｂは、スレッド実行ロジック１８００の概要を示しており、このスレッド実行ロジックは、図１５Ｂの各サブコア１５２１Ａ～１５２１Ｆと共に図示されたハードウェアロジックを表してよい。図１８Ａは、汎用グラフィックスプロセッサ内の実行ユニットを表しており、図１８Ｂは、コンピュートアクセラレータで用いられ得る実行ユニットを表している。

【0262】

図１８Ａに図示されているように、スレッド実行ロジック１８００が、シェーダプロセッサ１８０２、スレッドディスパッチャ１８０４、命令キャッシュ１８０６、複数の実行ユニット１８０８Ａ～１８０８Ｎを含むスケーラブルな実行ユニットアレイ、サンプラ１８１０、共有ローカルメモリ１８１１、データキャッシュ１８１２、及びデータポート１８１４を含んでよい。必要に応じて、スケーラブルな実行ユニットアレイは、ワークロードの計算要件に基づいて、１つ又は複数の実行ユニット（例えば、実行ユニット１８０８Ａ、１８０８Ｂ、１８０８Ｃ、１８０８Ｄ、…、１８０８Ｎ－１、及び１８０８Ｎのうちのいずれか）を有効または無効にすることによって動的にスケーリングできる。含まれているコンポーネントは、これらのコンポーネントのそれぞれに接続する相互接続ファブリックを介して相互接続されてよい。スレッド実行ロジック１８００は、命令キャッシュ１８０６、データポート１８１４、サンプラ１８１０、及び実行ユニット１８０８Ａ～１８０８Ｎのうちの１つ又は複数を通って、システムメモリ又はキャッシュメモリなどのメモリへの１つ又は複数の接続を含んでよい。各実行ユニット（例えば、１８０８Ａ）は、複数のデータ要素をスレッドごとに並列に処理しながら、複数の同時ハードウェアスレッドを実行できる独立型のプログラム可能な汎用計算ユニットであってよい。様々な実施形態において、実行ユニット１８０８Ａ～１８０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

【0263】

実行ユニット１８０８Ａ～１８０８Ｎは、主にシェーダプログラムを実行するのに用いられてよい。シェーダプロセッサ１８０２が、様々なシェーダプログラムを処理し、そのシェーダプログラムと関連づけられた実行スレッドを、スレッドディスパッチャ１８０４を介してディスパッチしてよい。スレッドディスパッチャは、グラフィックスパイプライン及びメディアパイプラインからのスレッド開始要求を調停して、要求されたスレッドを１つ又は複数の実行ユニット１８０８Ａ～１８０８Ｎでインスタンス化するためのロジックを含んでよい。例えば、ジオメトリパイプラインが、処理のために、頂点シェーダ、テセレーションシェーダ、又はジオメトリシェーダをスレッド実行ロジックにディスパッチしてよい。必要に応じて、スレッドディスパッチャ１８０４は、実行しているシェーダプログラムからのランタイムスレッド生成要求も処理できる。

【0264】

実行ユニット１８０８Ａ～１８０８Ｎは、多くの標準的な３Ｄグラフィックスシェーダ命令用のネイティブサポートを含む命令セットをサポートしてよく、これにより、グラフィックスライブラリ（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダプログラムが最小限の変換で実行されることになる。実行ユニットは、頂点及びジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、ピクセルシェーダ、フラグメントシェーダ）、並びに汎用処理（例えば、コンピュートシェーダ及びメディアシェーダ）をサポートする。実行ユニット１８０８Ａ～１８０８Ｎのそれぞれは、単一命令複数データ（ＳＩＭＤ）実行の複数発行が可能であり、マルチスレッドオペレーションによって、高遅延のメモリアクセスにもかかわらず効率的な実行環境が可能になる。各実行ユニット内の各ハードウェアスレッドは、専用の高帯域幅レジスタファイル及び関連する独立したスレッド状態を有する。実行は、整数演算、単精度及び倍精度の浮動小数点演算、ＳＩＭＤ分岐機能、論理演算、超越演算、及び他の雑演算ができるパイプラインへの、クロックごとの複数発行である。メモリ又は複数の共有機能のうちの１つからのデータを待つ間、実行ユニット１８０８Ａ～１８０８Ｎ内の依存関係ロジックによって、待機中のスレッドが、要求したデータが戻ってくるまでスリープ状態になる。待機中のスレッドがスリープ状態にある間、ハードウェアリソースが他のスレッドの処理に当てられてよい。例えば、頂点シェーダ演算と関連した遅延の際に、実行ユニットが、ピクセルシェーダ、フラグメントシェーダ、又は別のタイプのシェーダプログラム（図２１に示す頂点シェーダ２１０７などの別の頂点シェーダを含む）の操作を行うことができる。様々な実施形態が、ＳＩＭＤの使用の代替として又はＳＩＭＤの使用に加えて、単一命令複数スレッド（ＳＩＭＴ）の使用による実行を用いるのに適用されてよい。ＳＩＭＤコア又は演算への言及が、ＳＩＭＴにも適用されてよく、又はＳＩＭＴと組み合わせたＳＩＭＤに適用されてもよい。

【0265】

実行ユニット１８０８Ａ～１８０８Ｎ内の各実行ユニットは、データ要素の配列を処理する。データ要素の数は、「実行サイズ」又は命令に対するチャネルの数である。実行チャネルが、データ要素アクセス、マスキング、及び命令内のフロー制御に関する実行の論理ユニットである。チャネルの数は、特定のグラフィックスプロセッサ用の物理算術論理ユニット（ＡＬＵ）、浮動小数点ユニット（ＦＰＵ）、又は他の論理ユニット（例えば、テンソルコア、レイトレーシングコアなど）の数と無関係でよい。さらに、実行ユニット１８０８Ａ～１８０８Ｎは、整数データ型及び浮動小数点データ型をサポートしてよい。

【0266】

実行ユニット命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素は、パックドデータ型としてレジスタに格納されてよく、実行ユニットは、これらの要素のデータサイズに基づいて様々な要素を処理することになる。例えば、２５６ビット幅のベクトルを処理する場合、このベクトルの２５６ビットはレジスタに格納されており、実行ユニットは、４個の別個の６４ビットパックドデータ要素（クアッドワード（ＱＷ）サイズのデータ要素）、８個の別個の３２ビットパックドデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６個の別個の１６ビットパックドデータ要素（ワード（Ｗ）サイズのデータ要素）、又は３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）としてベクトルを処理する。しかしながら、別のベクトル幅及びレジスタサイズがあり得る。

【0267】

必要に応じて、１つ又は複数の実行ユニットを組み合わせて、融合実行ユニット１８０９Ａ～１８０９Ｎにすることができ、この融合実行ユニットは各ＥＵに共通のスレッド制御ロジック（１８０７Ａ～１８０７Ｎ）を有する。複数のＥＵを融合して、ＥＵグループにすることもできる。融合ＥＵグループ内の各ＥＵは、別個のＳＩＭＤハードウェアスレッドを実行するように構成されてよい。融合ＥＵグループ内のＥＵの数は、実施形態に従って異なってよい。さらに、ＥＵごとに様々なＳＩＭＤ幅を実行することができ、この幅は、限定されることはないが、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２を含む。それぞれの融合グラフィックス実行ユニット１８０９Ａ～１８０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット１８０９Ａは、第１のＥＵ（１８０８Ａ）と、第２のＥＵ（１８０８Ｂ）と、第１のＥＵ（１８０８Ａ）及び第２のＥＵ（１８０８Ｂ）に共通のスレッド制御ロジック１８０７Ａとを含む。スレッド制御ロジック１８０７Ａは、融合グラフィックス実行ユニット１８０９Ａで実行されるスレッドを制御し、融合実行ユニット１８０９Ａ～１８０９Ｎ内の各ＥＵが共通命令ポインタレジスタを用いて実行することを可能にする。

【0268】

１つ又は複数の内蔵命令キャッシュ（例えば、１８０６）が、実行ユニットのスレッド命令をキャッシュするために、スレッド実行ロジック１８００に含まれている。１つ又は複数のデータキャッシュ（例えば、１８１２）が、スレッド実行時のスレッドデータをキャッシュするために、スレッド実行ロジック１８００に含まれてよい。実行ロジック１８００で実行するスレッドも、明示的に管理されたデータを共有ローカルメモリ１８１１に格納できる。サンプラ１８１０が、３Ｄ操作用のテクスチャサンプリング、及びメディア操作のメディアサンプリングを提供するために含まれてよい。サンプラ１８１０は、サンプリングしたデータを実行ユニットに提供する前に、サンプリング工程でテクスチャデータ又はメディアデータを処理するための、特殊なテクスチャサンプリング機能またはメディアサンプリング機能を含んでよい。

【0269】

実行時に、グラフィックスパイプライン及びメディアパイプラインは、スレッド生成及びディスパッチロジックを介して、スレッド実行ロジック１８００にスレッド開始要求を送信する。ジオメトリックオブジェクトのグループが処理されてピクセルデータにラスタライズされると、シェーダプロセッサ１８０２内のピクセルプロセッサロジック（例えば、ピクセルシェーダロジック、フラグメントシェーダロジックなど）が呼び出されて、出力情報がさらに計算され、結果が出力サーフェス（例えば、カラーバッファ、デプスバッファ、ステンシルバッファなど）に書き込まれることになる。ピクセルシェーダ又はフラグメントシェーダは、ラスタライズされたオブジェクト全体に補間されることになる様々な頂点属性の値を計算してよい。シェーダプロセッサ１８０２内のピクセルプロセッサロジックは次に、アプリケーションプログラミングインタフェース（ＡＰＩ）により供給されるピクセルシェーダプログラム又はフラグメントシェーダプログラムを実行してよい。シェーダプログラムを実行するために、シェーダプロセッサ１８０２は、スレッドディスパッチャ１８０４を介して、実行ユニット（例えば、１８０８Ａ）にスレッドをディスパッチする。シェーダプロセッサ１８０２は、サンプラ１８１０内のテクスチャサンプリングロジックを用いて、メモリに格納されたテクスチャマップ内のテクスチャデータにアクセスしてよい。テクスチャデータ及び入力ジオメトリデータに対する算術演算によって、ジオメトリックフラグメントごとにピクセルカラーデータが計算される、あるいは１つ又は複数のピクセルがさらなる処理から破棄される。

【0270】

さらに、データポート１８１４は、メモリアクセスメカニズムをスレッド実行ロジック１８００に提供し、処理済みのデータをグラフィックスプロセッサの出力パイプラインでのさらなる処理のためにメモリに出力してよい。データポート１８１４は、データポート１８１４を介してメモリアクセス用のデータをキャッシュする１つ又は複数のキャッシュメモリ（例えば、データキャッシュ１８１２）を含んでも、これに結合してもよい。

【0271】

必要に応じて、実行ロジック１８００は、レイトレーシングアクセラレーション機能を提供できるレイトレーサ１８０５も含んでよい。レイトレーサ１８０５は、レイ生成用の命令／機能を含むレイトレーシング命令セットをサポートできる。このレイトレーシング命令セットは、図３Ｃのレイトレーシングコア３７２によってサポートされるレイトレーシング命令セットと同様であっても、異なっていてもよい。

【0272】

図１８Ｂは、実行ユニット１８０８の例示的な内部詳細を示している。グラフィックス実行ユニット１８０８が、命令フェッチユニット１８３７、汎用レジスタファイルアレイ（ＧＲＦ）１８２４、アーキテクチャレジスタファイルアレイ（ＡＲＦ）１８２６、スレッドアービタ１８２２、送信ユニット１８３０、分岐ユニット１８３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４のセット、及び必要に応じて専用の整数ＳＩＭＤのＡＬＵ１８３５のセットを含んでよい。ＧＲＦ１８２４及びＡＲＦ１８２６は、グラフィックス実行ユニット１８０８で有効になり得るそれぞれの同時ハードウェアスレッドと関連づけられた汎用レジスタファイル及びアーキテクチャレジスタファイルのセットを含む。スレッドごとに、アーキテクチャの状態がＡＲＦ１８２６に維持されてよく、スレッド実行時に用いられるデータがＧＲＦ１８２４に格納される。各スレッドの実行状態は、スレッドごとに命令ポインタを含んでおり、ＡＲＦ１８２６内のスレッド固有のレジスタに保持されてよい。

【0273】

グラフィックス実行ユニット１８０８は、同時マルチスレッディング（ＳＭＴ）と細粒度インタリーブ型マルチスレッディング（ＩＭＴ）とを組み合わせたアーキテクチャを有してよい。このアーキテクチャは、実行ユニットごとの目標とする同時スレッドの数及びレジスタの数に基づいて、設計時に微調整可能なモジュール式構成を有してよく、実行ユニットのリソースは、複数の同時スレッドを実行するのに用いられるロジック全体に分割される。グラフィックス実行ユニット１８０８により実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されることはなく、複数の論理スレッドを各ハードウェアスレッドに割り当てることができる。

【0274】

必要に応じて、グラフィックス実行ユニット１８０８は複数の命令を同時発行でき、これらの命令はそれぞれ異なる命令であってよい。グラフィックス実行ユニットスレッド１８０８のスレッドアービタ１８２２は、送信ユニット１８３０、分岐ユニット１８３２、又はＳＩＭＤ型ＦＰＵ１８３４のうちの１つに命令を実行のためにディスパッチできる。各実行スレッドは、ＧＲＦ１８２４内の１２８個の汎用レジスタにアクセスできる。各レジスタは、３２ビットデータ要素のＳＩＭＤ８－要素ベクトルとしてアクセス可能な３２バイトを格納できる。各実行ユニットスレッドは、ＧＲＦ１８２４の４Ｋバイトにアクセスできてよいが、実施形態がそのように限定されることはなく、もっと多い又は少ないレジスタリソースが他の実施形態で提供されてもよい。グラフィックス実行ユニット１８０８は、計算操作を独立して実行できる７個のハードウェアスレッドに分割されてよいが、実行ユニットごとのスレッドの数も、実施形態に従って異なってよく、例えば、１６個までのハードウェアスレッドがサポートされてよい。７個のスレッドが４Ｋバイトにアクセスしてよい例示的な実施形態では、ＧＲＦ１８２４は合計２８Ｋバイトを格納できる。１６個のスレッドが４Ｋバイトにアクセスしてよい別の例示的な実施形態では、ＧＲＦ１８２４は合計６４Ｋバイトを格納できる。しかしながら、実行ユニットごとのスレッドの数は、これらの例に限定されることはなく、所与の数より多くても少なくてもよい。柔軟なアドレス指定方式によって、複数のレジスタが一緒にアドレス指定されて、効果的に広範囲のレジスタを構築する又はストライド矩形ブロックデータ構造を表すことが可能になり得る。

【0275】

追加的に又は代替的に、メモリ操作、サンプラ操作、及び他の長遅延システム通信が、メッセージ伝達送信ユニット１８３０により実行される「送信」命令を介してディスパッチされてよい。分岐命令が、ＳＩＭＤの発散及び最終的な収束を促進するために、専用の分岐ユニット１８３２にディスパッチされてよい。

【0276】

グラフィックス実行ユニット１８０８は、浮動小数点演算を行うための１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４を含んでよい。ＦＰＵ１８３４は、整数計算もサポートしてよい。いくつかの例では、ＦＰＵ１８３４は、Ｍ個までの３２ビット浮動小数点（又は整数）演算をＳＩＭＤで実行できる、又は２Ｍ個までの１６ビット整数演算若しくは１６ビット浮動小数点演算をＳＩＭＤで実行できる。必要に応じて、ＦＰＵのうちの少なくとも１つが、高スループットの超越数学関数及び倍精度１８４ビット浮動小数点をサポートするための拡張数学機能を提供する。８ビット整数ＳＩＭＤ型ＡＬＵ１８３５のセットも存在してよく、これは具体的には、機械学習計算と関連する演算を行うために最適化されてよい。

【0277】

必要に応じて、グラフィックス実行ユニット１８０８の複数のインスタンスのアレイが、グラフィックスサブコアグループ（例えば、サブスライス）にインスタンス化されてよい。拡張性については、製品設計者がサブコアグループごとに正確な数の実行ユニットを選択できる。実行ユニット１８０８は、複数の実行チャネル全体にわたって命令を実行してよい。さらに、グラフィックス実行ユニット１８０８で実行される各スレッドは、異なるチャネルで実行されてもよい。

【0278】

図１９は、さらなる例示的な実行ユニット１９００を示している。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図１９の各要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。実行ユニット１９００は、例えば、図１６Ｃにあるようなコンピュートエンジンタイル１６４０Ａ～１６４０Ｄに用いるためのコンピュート最適化実行ユニットであってよいが、そのように限定されることはない。実行ユニット１９００は、図１６Ｂにあるようなグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄにも用いられてよい。実行ユニット１９００は、スレッド制御ユニット１９０１、スレッド状態ユニット１９０２、命令フェッチ／プリフェッチユニット１９０３、及び命令デコードユニット１９０４を含んでよい。実行ユニット１９００はさらに、実行ユニット内のハードウェアスレッドに割り当てられ得るレジスタを格納するレジスタファイル１９０６を含んでよい。実行ユニット１９００はさらに、送信ユニット１９０７及び分岐ユニット１９０８を含んでよい。送信ユニット１９０７及び分岐ユニット１９０８は、図１８Ｂのグラフィックス実行ユニット１８０８の送信ユニット１８３０及び分岐ユニット１８３２と同様に動作してよい。

【0279】

実行ユニット１９００は、複数の異なるタイプの機能ユニットを含むコンピュートユニット１９１０も含んでよい。コンピュートユニット１９１０は、算術論理ユニットのアレイを含むＡＬＵユニット１９１１も含んでよい。ＡＬＵユニット１９１１は、６４ビット、３２ビット、及び１６ビットの整数及び浮動小数点演算を行うように構成されてよい。整数及び浮動小数点演算は同時に行われてよい。コンピュートユニット１９１０は、シストリックアレイ１９１２及び数学ユニット１９１３も含んでよい。シストリックアレイ１９１２は、ベクトル演算又は他のデータ並列操作をシストリック方式で行うのに用いられ得るデータ処理ユニットの横Ｗ×縦Ｄのネットワークを含む。シストリックアレイ１９１２は、行列ドット積演算などの行列演算を行うように構成されてよい。シストリックアレイ１９１２は、１６ビット浮動小数点演算、並びに８ビット及び４ビットの整数演算をサポートしてよい。シストリックアレイ１９１２は、機械学習操作を加速させるように構成されてよい。シストリックアレイ１９１２は、Ｂｆｌｏａｔ１６、つまり１６ビット浮動小数点フォーマットをサポートするように構成されてよい。数学ユニット１９１３が含まれてよく、これは、当時のＡＬＵユニット１９１１より効率的な低電力方式で、数学演算の特定のサブセットを実行する。数学ユニット１９１３は、説明した他の実施形態により提供されるグラフィックス処理エンジンの共有機能ロジックに見られる数学ロジック、例えば、図１７の共有機能ロジック１７２０の数学ロジック１７２２を含んでよい。数学ユニット１９１３は、３２ビット及び６４ビット浮動小数点演算を行うように構成されてよい。

【0280】

スレッド制御ユニット１９０１は、実行ユニット内のスレッドの実行を制御するロジックを含む。スレッド制御ユニット１９０１は、実行ユニット１９００内のスレッドの実行を開始する、中断する、プリエンプトするためのスレッド調停ロジックを含んでよい。スレッド状態ユニット１９０２は、実行ユニット１９００で実行するように割り当てられたスレッドのスレッド状態を格納するのに用いられてよい。スレッド状態を実行ユニット１９００に格納すると、スレッドが遮断されるか休止状態になったときに、スレッドの速やかなプリエンプションが可能になる。命令フェッチ／プリフェッチユニット１９０３は、高次の実行ロジックの命令キャッシュ（例えば、図１８Ａにあるような命令キャッシュ１８０６）から命令をフェッチしてよい。命令フェッチ／プリフェッチユニット１９０３は、現在実行しているスレッドの分析に基づいて、命令キャッシュにロードされる命令のプリフェッチ要求を発行することもできる。命令デコードユニット１９０４は、コンピュートユニットにより実行される命令をデコードするのに用いられてよい。命令デコードユニット１９０４は、複合命令を構成マイクロ演算にデコードする二次デコーダとして用いられてよい。

【0281】

実行ユニット１９００はさらに、実行ユニット１９００で実行するハードウェアスレッドにより用いられ得るレジスタファイル１９０６を含む。レジスタファイル１９０６内のレジスタが、実行ユニット１９００のコンピュートユニット１９１０内で複数の同時スレッドを実行するのに用いられるロジック全体にわたって分割されてよい。グラフィックス実行ユニット１９００により実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されることはなく、複数の論理スレッドを各ハードウェアスレッドに割り当てることができる。レジスタファイル１９０６のサイズは、サポートされるハードウェアスレッドの数に基づいて、実施形態によって異なってよい。レジスタリネーミングが、レジスタをハードウェアスレッドに動的に割り当てるのに用いられてよい。

【0282】

図２０は、グラフィックスプロセッサの命令フォーマット２０００を示すブロック図である。グラフィックスプロセッサ実行ユニットは、複数のフォーマットの命令を有する命令セットをサポートする。実線枠は、実行ユニット命令に一般に含まれているコンポーネントを示しており、破線には、任意的なコンポーネント又は命令のサブセットにしか含まれていないコンポーネントが含まれている。説明し図示した命令フォーマット２０００はマクロ命令であり、実行ユニットに供給される命令であるという点で、命令が処理されると命令デコードによって生じるマイクロ演算とは異なる。

【0283】

本明細書で説明したグラフィックスプロセッサ実行ユニットは、１２８ビット命令フォーマット２０１０の命令をネイティブにサポートしてよい。６４ビット圧縮命令フォーマット２０３０が、選択した命令、命令オプション、及びオペランドの数に基づいて、一部の命令に利用可能である。ネイティブの１２８ビット命令フォーマット２０１０は、全ての命令オプションへのアクセスを提供し、一部のオプション及び操作が６４ビットフォーマット２０３０に制限される。６４ビットフォーマット２０３０で利用可能なネイティブ命令は、実施形態ごとに異なる。この命令は、インデックスフィールド２０１３内のインデックス値のセットを用いて部分的に圧縮されている。実行ユニットハードウェアは、インデックス値に基づいて圧縮表のセットを参照し、圧縮表の出力を用いて、ネイティブ命令を１２８ビット命令フォーマット２０１０に再構築する。他のサイズ及びフォーマットの命令が用いられてもよい。

【0284】

フォーマットごとに、実行ユニットが行う操作を命令オペコード２０１２が定める。実行ユニットは、各オペランドの複数のデータ要素全体にわたって各命令を並列に実行する。例えば、加算命令に応答して、実行ユニットは、テクスチャ要素又はピクチャ要素を表す各カラーチャネルで同時加算演算を行う。デフォルトで、実行ユニットは、オペランドの全てのデータチャネルで各命令を行う。命令制御フィールド２０１４によって、チャネル選択（例えば、予測）及びデータチャネル順序（例えば、スウィズル）など特定の実行オプションの制御を可能にしてよい。１２８ビット命令フォーマット２０１０の命令では、実行サイズフィールド２０１６が並列に実行されるデータチャネルの数を限定する。実行サイズフィールド２０１６は、６４ビット圧縮命令フォーマット２０３０での使用に利用できなくてもよい。

【0285】

いくつかの実行ユニット命令は、オペランドを３つまで有し、これらのオペランドには、２つのソースオペランドであるソース０（２０２０）、ソース１（２０２２）と、１つのデスティネーション２０１８とが含まれる。実行ユニットは、デュアルデスティネーション命令をサポートしてよく、これらのデスティネーションのうちの１つは示唆される。データ操作命令が第３ソースオペランド（例えば、ソース２（２０２４））を有してよく、命令オペコード２０１２がソースオペランドの数を決定する。命令の最後のソースオペランドが、その命令と共に送られるイミディエイト（例えば、ハードコーディングされた）値であってよい。

【0286】

１２８ビット命令フォーマット２０１０は、例えば、直接的レジスタアドレス指定モードが用いられるのか、間接的レジスタアドレス指定モードが用いられるのかを指定するアクセス／アドレスモードフィールド２０２６を含んでよい。直接的レジスタアドレス指定モードが用いられる場合、１つ又は複数のオペランドのレジスタアドレスは、命令内のビットによって直接的に提供される。

【0287】

１２８ビット命令フォーマット２０１０は、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド２０２６も含んでよい。アクセスモードは、命令のデータアクセスアライメントを規定するのに用いられてよい。１６バイト単位でアライメントされるアクセスモードと１バイト単位でアライメントされるアクセスモードとを含むアクセスモードがサポートされてよく、アクセスモードのバイトアライメントは、命令オペランドのアクセスアライメントを決定する。例えば、第１モードの場合、命令はバイト単位でアライメントされるアドレス指定をソースオペランド及びデスティネーションオペランドに用いてよく、第２モードの場合、命令は１６バイト単位でアライメントされるアドレス指定を全てのソースオペランド及びデスティネーションオペランドに用いてよい。

【0288】

アクセス／アドレスモードフィールド２０２６のアドレスモード部分は、命令が直接的アドレス指定を用いるのか、間接的アドレス指定を用いるのかを決定してよい。直接的レジスタアドレス指定モードが用いられる場合、命令内のビットによって、１つ又は複数のオペランドのレジスタアドレスが直接的に提供される。間接的レジスタアドレス指定モードが用いられる場合、１つ又は複数のオペランドのレジスタアドレスは、アドレスレジスタの値と命令内のアドレスイミディエイトフィールドとに基づいて計算されてよい。

【0289】

命令は、オペコードデコード２０４０を簡略化するために、オペコード２０１２ビットフィールドに基づいてまとめられてよい。８ビットオペコードの場合、ビット４、５、及び６によって、実行ユニットがオペコードのタイプを判定することが可能になる。まさにこの示されているオペコードグループは、単なる一例にすぎない。移動／論理オペコードグループ２０４２が、データ移動命令及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含んでよい。移動／論理グループ２０４２は、５つの最上位ビット（ＭＳＢ）を共有してよく、移動（ｍｏｖ）命令は００００ｘｘｘｘｂの形であり、論理命令は０００１ｘｘｘｘｂの形である。フロー制御命令グループ２０４４（例えば、コール、ジャンプ（ｊｍｐ））が、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形の命令を含む。雑命令グループ２０４６が、００１１ｘｘｘｘｂ（例えば、０ｘ３０）の形の同期命令（例えば、待機、送信）を含む複数の命令の組み合わせを含む。並列数学命令グループ２０４８が、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形で、コンポーネントごとの算術命令（例えば、加算、乗算（ｍｕｌ））を含む。並列数学グループ２０４８は、データチャネル全体で並列に算術演算を行う。ベクトル数学グループ２０５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形で、算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトルオペランドに対してドット積計算などの算術を行う。示されたオペコードデコード２０４０は、１つの実施形態において、デコードされた命令を実行するのに実行ユニットのどの部分を用いるのかを決定するのに用いられてよい。例えば、いくつかの命令が、シストリックアレイで実行されるシストリック命令に指定されてよい。レイトレーシング命令（不図示）などの他の命令が、実行ロジックのスライス又はパーティション内のレイトレーシングコア又はレイトレーシングロジックに送られてよい。
［グラフィックスパイプライン］

【0290】

図２１は、別の実施形態によるグラフィックスプロセッサ２１００のブロック図である。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図２１の各要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。

【0291】

グラフィックスプロセッサ２１００は、異なるタイプのグラフィックス処理パイプライン、例えば、ジオメトリパイプライン２１２０、メディアパイプライン２１３０、ディスプレイエンジン２１４０、スレッド実行ロジック２１５０、及びレンダー出力パイプライン２１７０などを含んでよい。グラフィックスプロセッサ２１００は、１つ又は複数の汎用処理コアを含むマルチコア処理システム内のグラフィックスプロセッサであってよい。このグラフィックスプロセッサの制御は、１つ又は複数の制御レジスタ（不図示）へのレジスタ書き込みによって、又はリング相互接続２１０２を介してグラフィックスプロセッサ２１００に発行されるコマンドを介して行われてよい。リング相互接続２１０２は、グラフィックスプロセッサ２１００を他の処理コンポーネント（他のグラフィックスプロセッサ又は汎用プロセッサなど）に結合してよい。リング相互接続２１０２からのコマンドは、コマンドストリーマ２１０３で翻訳され、このコマンドストリーマは、ジオメトリパイプライン２１２０又はメディアパイプライン２１３０の個々のコンポーネントに命令を供給する。

【0292】

コマンドストリーマ２１０３は、頂点フェッチャ２１０５のオペレーションを指示してよい。この頂点フェッチャは、メモリから頂点データを読み出して、コマンドストリーマ２１０３により供給される頂点処理コマンドを実行する。頂点フェッチャ２１０５は、頂点シェーダ２１０７に頂点データを供給してよく、この頂点シェーダは座標空間変換及びライティング演算を各頂点に対して行う。頂点フェッチャ２１０５及び頂点シェーダ２１０７は、スレッドディスパッチャ２１３１を介して実行ユニット２１５２Ａ～２１５２Ｂに実行スレッドをディスパッチすることで頂点処理命令を実行してよい。

【0293】

実行ユニット２１５２Ａ～２１５２Ｂは、グラフィックス操作及びメディア操作を行うための命令セットを有するベクトルプロセッサのアレイであってよい。実行ユニット２１５２Ａ～２１５２Ｂは、各アレイに特有であるか又はアレイ間で共有される付属Ｌ１キャッシュ２１５１を有してよい。このキャッシュは、データキャッシュ、命令キャッシュ、又はデータ及び命令を別のパーティションに含むように分割されている１つのキャッシュとして構成されてよい。

【0294】

ジオメトリパイプライン２１２０が、３Ｄオブジェクトのハードウェア加速型テセレーションを行うテセレーションコンポーネントを含んでよい。プログラム可能型ハルシェーダ２１１１が、テセレーション操作を構成してよい。プログラム可能型ドメインシェーダ２１１７が、テセレーション出力のバックエンド評価を提供してよい。テセレータ２１１３が、ハルシェーダ２１１１の指示で動作し、ジオメトリパイプライン２１２０への入力として供給される粗いジオメトリックモデルに基づいて、詳細なジオメトリックオブジェクトのセットを生成する専用ロジックを含んでよい。さらに、テセレーションが用いられない場合、テセレーションコンポーネント（例えば、ハルシェーダ２１１１、テセレータ２１１３、ドメインシェーダ２１１７）を飛ばすことができる。

【0295】

ジオメトリックオブジェクト全体が、実行ユニット２１５２Ａ～２１５２Ｂにディスパッチされる１つ又は複数のスレッドを介して、ジオメトリシェーダ２１１９により処理されてよく、又はクリッパ２１２９に直接的に進むことができる。ジオメトリシェーダは、グラフィックスパイプラインの前のステージにあるような頂点又は頂点のパッチではなく、ジオメトリックオブジェクト全体を処理してよい。テセレーションが無効である場合、ジオメトリシェーダ２１１９は、頂点シェーダ２１０７から入力を受信する。ジオメトリシェーダ２１１９は、テセレーションユニットが無効である場合、ジオメトリシェーダプログラムがジオメトリテセレーションを行うようにプログラム可能であってよい。

【0296】

ラスタライズの前に、クリッパ２１２９が頂点データを処理する。クリッパ２１２９は、固定機能クリッパであっても、クリッピング機能及びジオメトリシェーダ機能を有するプログラム可能型クリッパであってもよい。レンダー出力パイプライン２１７０内のラスタライザ及びデプステストコンポーネント２１７３が、ジオメトリックオブジェクトをピクセルごとの表現に変換するピクセルシェーダをディスパッチしてよい。ピクセルシェーダロジックは、スレッド実行ロジック２１５０に含まれてよい。必要に応じて、アプリケーションが、ラスタライザ及びデプステストコンポーネント２１７３を飛ばし、ストリームアウトユニット２１２３を介してラスタライズ前の頂点データにアクセスできる。

【0297】

グラフィックスプロセッサ２１００は、相互接続バス、相互接続ファブリック、又はプロセッサの主なコンポーネントの間でデータ及びメッセージ送ることができるいくつかの他の相互接続メカニズムを有する。いくつかの実施形態では、実行ユニット２１５２Ａ～２１５２Ｂ及び関連する論理ユニット（例えば、Ｌ１キャッシュ２１５１、サンプラ２１５４、テクスチャキャッシュ２１５８など）がデータポート２１５６を介して相互接続して、メモリアクセスを行い且つプロセッサのレンダー出力パイプラインコンポーネントと通信する。サンプラ２１５４、キャッシュ２１５１、２１５８、及び実行ユニット２１５２Ａ～２１５２Ｂがそれぞれ、別個のメモリアクセスパスを有してよい。必要に応じて、テクスチャキャッシュ２１５８は、サンプラキャッシュとしても構成されてよい。

【0298】

レンダー出力パイプライン２１７０は、頂点ベースのオブジェクトを関連するピクセルベースの表現に変換するラスタライザ及びデプステストコンポーネント２１７３を含んでよい。ラスタライザロジックは、固定機能による三角形及び線のラスタライズを行うウィンドワー／マスカーユニットを含んでよい。関連するレンダーキャッシュ２１７８及びデプスキャッシュ２１７９も、いくつかの実施形態で利用可能である。ピクセル操作コンポーネント２１７７が、データに対してピクセルベースの操作を行うが、いくつかの例では、２Ｄ操作と関連したピクセル操作（例えば、ブレンディングを伴うビットブロック画像転送）が２Ｄエンジン２１４１によって行われるか、又はオーバーレイ表示プレーンを用いるディスプレイコントローラ２１４３で表示時に代用される。共有Ｌ３キャッシュ２１７５が、全てのグラフィックスコンポーネントに利用可能であってよく、これにより、メインシステムメモリを用いずにデータの共有が可能になる。

【0299】

グラフィックスプロセッサのメディアパイプライン２１３０は、メディアエンジン２１３７とビデオフロントエンド２１３４とを含んでよい。ビデオフロントエンド２１３４は、コマンドストリーマ２１０３からパイプラインコマンドを受信してよい。メディアパイプライン２１３０は、別個のコマンドストリーマを含んでよい。ビデオフロントエンド２１３４は、メディアコマンドを処理してから、このコマンドをメディアエンジン２１３７に送信してよい。メディアエンジン２１３７は、スレッドディスパッチャ２１３１を介してスレッド実行ロジック２１５０にディスパッチするスレッドを生成するスレッド生成機能を含んでよい。

【0300】

グラフィックスプロセッサ２１００は、ディスプレイエンジン２１４０を含んでよい。このディスプレイエンジン２１４０は、プロセッサ２１００の外部にあってもよく、リング相互接続２１０２又は何らかの他の相互接続バス若しくはファブリックを介して、グラフィックスプロセッサと結合してもよい。ディスプレイエンジン２１４０は、２Ｄエンジン２１４１とディスプレイコントローラ２１４３とを含んでよい。ディスプレイエンジン２１４０は、３Ｄパイプラインから独立して動作可能な専用ロジックを含んでよい。ディスプレイコントローラ２１４３は、表示デバイス（不図示）と結合してよい。この表示デバイスは、ラップトップコンピュータにあるようなシステム一体型表示デバイスであっても、表示デバイスコネクタを介して取り付けられる外付け表示デバイスであってもよい。

【0301】

ジオメトリパイプライン２１２０及びメディアパイプライン２１３０は、複数のグラフィックス及びメディアプログラミングインタフェースに基づいてオペレーションを行うように構成可能であってよく、任意の１つのアプリケーションプログラミングインタフェース（ＡＰＩ）に固有のものではない。グラフィックスプロセッサのドライバソフトウェアが、特定のグラフィックス又はメディアライブラリに固有のＡＰＩコールを、グラフィックスプロセッサが処理できるコマンドに変換してよい。オープングラフィックスライブラリ（ＯｐｅｎＧＬ）、オープンコンピューティング言語（ＯｐｅｎＣＬ）、及び／又はＶｕｌｋａｎグラフィックス及びコンピュートＡＰＩには全て、クロノスグループからサポートが提供され得る。Ｄｉｒｅｃｔ３Ｄライブラリにも、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎからサポートが提供され得る。これらのライブラリの組み合わせがサポートされてもよい。オープンソースコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）にもサポートが提供され得る。将来のＡＰＩのパイプラインからグラフィックスプロセッサのパイプラインへのマッピングを行うことができれば、互換性のある３Ｄパイプラインを含めた将来のＡＰＩもサポートされるであろう。
［グラフィックスパイプラインのプログラミング］

【0302】

図２２Ａは、グラフィックス処理パイプライン、例えば、図１６Ａ、図１７、図２１とともに本明細書で説明されたパイプラインなどをプログラミングするのに用いられるグラフィックスプロセッサコマンドフォーマット２２００を示すブロック図である。図２２Ｂは、一実施形態によるグラフィックスプロセッサコマンドシーケンス２２１０を示すブロック図である。図２２Ａの実線枠は、グラフィックスコマンドに一般に含まれているコンポーネントを示しており、破線には、任意的なコンポーネント又はグラフィックスコマンドのサブセットにしか含まれていないコンポーネントが含まれている。図２２Ａの例示的なグラフィックスプロセッサコマンドフォーマット２２００は、コマンドのクライアント２２０２、コマンドオペレーションコード（オペコード）２２０４、及びデータ２２０６を識別するデータフィールドを含む。サブオペコード２２０５及びコマンドサイズ２２０８も、いくつかのコマンドに含まれている。

【0303】

クライアント２２０２は、コマンドデータを処理するグラフィックスデバイスのクライアントユニットを指定してよい。グラフィックスプロセッサコマンドパーサが、各コマンドのクライアントフィールドを検査し、コマンドのさらなる処理を条件づけて、コマンドデータを適切なクライアントユニットに送ってよい。グラフィックスプロセッサクライアントユニットは、メモリインタフェースユニット、レンダーユニット、２Ｄユニット、３Ｄユニット、及びメディアユニットを含んでよい。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有してよい。コマンドがクライアントユニットにより受信されると、クライアントユニットはオペコード２２０４及び、もし存在するならばサブオペコード２２０５を読み出し、実行する操作を決定する。クライアントユニットは、データフィールド２２０６内の情報を用いてコマンドを実行する。いくつかのコマンドでは、明示的なコマンドサイズ２２０８が、コマンドのサイズを指定すると期待されている。コマンドパーサは、コマンドの少なくとも一部のサイズをコマンドオペコードに基づいて自動的に決定してよい。コマンドが、ダブルワードの倍数でアライメントされてよい。他のコマンドフォーマットも用いられてよい。

【0304】

図２２Ｂのフロー図は、例示的なグラフィックスプロセッサコマンドシーケンス２２１０を示している。例示的なグラフィックスプロセッサを特徴づける、データ処理システムのソフトウェア又はファームウェアが、示されているコマンドシーケンスのあるバージョンを使用して、グラフィックス操作のセットをセットアップし、実行し、終了してよい。サンプルコマンドシーケンスが、例示のみを目的として示され且つ説明されるが、これらの特定のコマンド又はこのコマンドシーケンスに限定されることはない。さらに、グラフィックスプロセッサが少なくとも部分的に同時にコマンドのシーケンスを処理することになるように、コマンドはコマンドシーケンス内のコマンドのバッチとして発行されてよい。

【0305】

グラフィックスプロセッサコマンドシーケンス２２１０は、パイプライン用に現在保留しているコマンドを、任意の有効なグラフィックスパイプラインに完了させるためのパイプラインフラッシュコマンド２２１２から始まってよい。必要に応じて、３Ｄパイプライン２２２２とメディアパイプライン２２２４とが、同時に動作しなくてもよい。パイプラインフラッシュは、あらゆる保留中のコマンドを、有効なグラフィックスパイプラインに完了させるために行われる。パイプラインフラッシュに応答して、グラフィックスプロセッサのコマンドパーサは、有効な描画エンジンが保留中のオペレーションを完了して、関連するリードキャッシュが無効になるまで、コマンド処理を中断することになる。必要に応じて、「ダーティ」と示されたレンダーキャッシュ内の任意のデータがメモリにフラッシュされてよい。パイプラインフラッシュコマンド２２１２は、パイプライン同期に用いられても、グラフィックスプロセッサを低電力状態に置く前に用いられてもよい。

【0306】

コマンドシーケンスがパイプラインを明示的に切り替えるのにグラフィックスプロセッサを必要とするときに、パイプライン選択コマンド２２１３が用いられてよい。コンテキストが両方のパイプラインにコマンドを発行しない限り、パイプライン選択コマンド２２１３が、パイプラインコマンドを発行する前に実行コンテキスト内で一度しか必要とされなくてもよい。パイプラインがパイプライン選択コマンド２２１３を介して切り替わる直前に、パイプラインフラッシュコマンド２２１２が必要とされてよい。

【0307】

パイプライン制御コマンド２２１４が、オペレーションのためにグラフィックスパイプラインを構成してよく、３Ｄパイプライン２２２２及びメディアパイプライン２２２４をプログラムするのに用いられてよい。パイプライン制御コマンド２２１４は、有効なパイプライン用のパイプライン状態を構成してよい。パイプライン制御コマンド２２１４は、パイプライン同期に用いられてよく、コマンドのバッチを処理する前に、有効なパイプライン内の１つ又は複数のキャッシュメモリからデータを削除するのに用いられてよい。

【0308】

リターンバッファ状態コマンド２２１６が、それぞれのパイプラインがデータを書き込むための、リターンバッファのセットを構成するのに用いられてよい。いくつかのパイプラインオペレーションでは、各オペレーションが処理中に中間データを書き込む１つ又は複数のリターンバッファの割り当て、選択、又は構成が必要となる。グラフィックスプロセッサも、出力データを格納し、またスレッド間通信を行うために、１つ又は複数のリターンバッファを用いてよい。リターンバッファ状態コマンド２２１６は、パイプラインオペレーションのセットに用いるリターンバッファのサイズ及びその数を選択することを含んでよい。

【0309】

コマンドシーケンス内のその他のコマンドは、オペレーション用の有効なパイプラインに基づいて異なる。コマンドシーケンスは、パイプライン決定２２２０に基づいて、３Ｄパイプライン状態２２３０から始まる３Ｄパイプライン２２２２、又はメディアパイプライン状態２２４０で始まるメディアパイプライン２２２４に合わせてある。

【0310】

３Ｄパイプライン状態２２３０を構成するコマンドは、頂点バッファ状態、頂点要素状態、コンスタントカラー状態、デプスバッファ状態、及び３Ｄプリミティブコマンドが処理される前に構成される他の状態変数の３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。３Ｄパイプライン状態２２３０のコマンドは、特定のパイプライン要素を、これらの要素が使われない場合には、選択的に無効にするか又は飛ばすこともでき得る。

【0311】

３Ｄプリミティブ２２３２のコマンドが、３Ｄパイプラインで処理される３Ｄプリミティブを投入するのに用いられてよい。３Ｄプリミティブ２２３２のコマンドを介してグラフィックスプロセッサに送られるこれらのコマンド及び関連するパラメータが、グラフィックスパイプライン内の頂点フェッチ機能に転送される。頂点フェッチ機能は、３Ｄプリミティブ２２３２コマンドデータを用いて頂点データ構造を生成する。頂点データ構造は、１つ又は複数のリターンバッファに格納される。３Ｄプリミティブ２２３２のコマンドは、頂点シェーダを介して３Ｄプリミティブに対して頂点操作を行うのに用いられてよい。頂点シェーダを処理するために、３Ｄパイプライン２２２２がシェーダ実行スレッドをグラフィックスプロセッサ実行ユニットにディスパッチする。

【0312】

３Ｄパイプライン２２２２は、実行２２３４のコマンド又はイベントでトリガーされてよい。レジスタが、トリガーコマンド実行を書き込んでよい。実行が、コマンドシーケンス内の「ゴー（ｇｏ）」コマンド又は「キック（ｋｉｃｋ）」コマンドでトリガーされてよい。グラフィックスパイプラインを通じてコマンドシーケンスをフラッシュするために、コマンド実行がパイプライン同期コマンドを用いてトリガーされてよい。３Ｄパイプラインは、３Ｄプリミティブのジオメトリ処理を行うことになる。オペレーションが完了すると、得られたジオメトリックオブジェクトはラスタライズされ、得られたピクセルにピクセルエンジンが色をつける。ピクセルシェーディング及びピクセルバックエンドオペレーションを制御するための別のコマンドも、これらのオペレーションのために含まれてよい。

【0313】

グラフィックスプロセッサコマンドシーケンス２２１０は、メディア操作を行うときに、メディアパイプライン２２２４のパスをたどることができる。一般に、メディアパイプライン２２２４用のプログラミングの特定の用途又は方式は、行われるメディア操作またはコンピュート操作によって決まる。特定のメディアデコードオペレーションが、メディアデコードの際に、メディアパイプラインにオフロードされてよい。メディアパイプラインは無視されてもよく、メディアデコードが、１つ又は複数の汎用処理コアにより提供されるリソースを全体的に又は部分的に用いて行われてよい。メディアパイプラインは、汎用グラフィックスプロセッサユニット（ＧＰＧＰＵ）オペレーション用の要素も含んでよく、グラフィックスプロセッサは、グラフィックスプリミティブのレンダリングに明示的に関連していない計算シェーダプログラムを用いてＳＩＭＤベクトル演算を行うのに用いられる。

【0314】

メディアパイプライン２２２４は、３Ｄパイプライン２２２２と同様の方式で構成されてよい。メディアパイプライン状態２２４０を構成するコマンドのセットが、メディアオブジェクトコマンド２２４２の前にディスパッチされるか、又はコマンドキューに置かれる。メディアパイプライン状態２２４０用のコマンドが、メディアオブジェクトを処理するのに用いられるメディアパイプライン要素を構成するデータを含んでよい。これには、メディアパイプライン内のビデオデコード及びビデオエンコードロジックを構成する、エンコードフォーマット又はデコードフォーマットなどのデータが含まれる。メディアパイプライン状態２２４０用のコマンドは、状態設定のバッチを含む「間接的」状態要素を指す１つ又は複数のポインタの使用もサポートしてよい。

【0315】

メディアオブジェクトコマンド２２４２は、メディアパイプラインが処理するメディアオブジェクトを指すポインタを供給してよい。メディアオブジェクトは、処理されるビデオデータを含むメモリバッファを含む。必要に応じて、全てのメディアパイプライン状態は、メディアオブジェクトコマンド２２４２を発行する前に有効でなければならない。パイプライン状態が構成されて、メディアオブジェクトコマンド２２４２がキューに入ると、メディアパイプライン２２２４は、実行コマンド２２４４又は等価な実行イベント（例えば、レジスタ書き込み）でトリガーされる。次に、メディアパイプライン２２２４からの出力が３Ｄパイプライン２２２２又はメディアパイプライン２２２４により提供されるオペレーションで後処理されてよい。ＧＰＧＰＵオペレーションが、メディア操作と同様の方式で構成され且つ実行されてよい。
［グラフィックスソフトウェアアーキテクチャ］

【0316】

図２３は、データ処理システム２３００の例示的なグラフィックスソフトウェアアーキテクチャを示している。そのようなソフトウェアアーキテクチャは、３Ｄグラフィックスアプリケーション２３１０と、オペレーティングシステム２３２０と、少なくとも１つのプロセッサ２３３０とを含んでよい。プロセッサ２３３０は、グラフィックスプロセッサ２３３２と、１つ又は複数の汎用プロセッサコア２３３４とを含んでよい。プロセッサ２３３０は、プロセッサ１４０２又は本明細書で説明されるプロセッサのうちのいずれかの変形であってもよい。プロセッサ２３３０は、プロセッサ１４０２又は本明細書で説明されるプロセッサのうちのいずれかの代わりに用いられてよい。したがって、プロセッサ１４０２又は本明細書で説明されるプロセッサのうちのいずれかと組み合わせた任意の特徴の開示は、グラフィックスプロセッサ２３３０との対応する組み合わせも開示しているが、そのように限定されることはない。さらに、本明細書の任意の他の図の要素と同じ又は同様の名称を有する図２３の各要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。グラフィックスアプリケーション２３１０及びオペレーティングシステム２３２０はそれぞれ、データ処理システムのシステムメモリ２３５０で実行される。

【0317】

３Ｄグラフィックスアプリケーション２３１０は、シェーダ命令２３１２を含む１つ又は複数のシェーダプログラムを含んでよい。シェーダ言語命令は、Ｄｉｒｅｃｔ３Ｄの高水準シェーダ言語（ＨＬＳＬ）及びＯｐｅｎＧＬシェーダ言語（ＧＬＳＬ）などの高水準シェーダ言語であってよい。アプリケーションは、汎用プロセッサコア２３３４による実行に好適な機械語の実行可能命令２３１４も含んでよい。アプリケーションは、頂点データで定義されたグラフィックスオブジェクト２３１６も含んでよい。

【0318】

オペレーティングシステム２３２０は、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのＭｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、独自のＵｎｉｘ（登録商標）ライクなオペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を用いるオープンソースのＵｎｉｘライクなオペレーティングシステムであってもよい。オペレーティングシステム２３２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、又はＶｕｌｋａｎＡＰＩなどのグラフィックスＡＰＩ２３２２をサポートしてよい。Ｄｉｒｅｃｔ３ＤＡＰＩが用いられる場合、オペレーティングシステム２３２０は、フロントエンドシェーダコンパイラ２３２４を用いて、ＨＬＳＬの任意のシェーダ命令２３１２を低水準シェーダ言語にコンパイルする。コンパイルは実行時（ＪＩＴ）コンパイルであってよく、又はアプリケーションはシェーダプリコンパイルを実行できる。高水準シェーダは、３Ｄグラフィックスアプリケーション２３１０のコンパイル時に、低水準シェーダにコンパイルされてよい。シェーダ命令２３１２は、ＶｕｌｋａｎＡＰＩにより用いられる標準のポータブル中間表現（ＳＰＩＲ）のあるバージョンなどの中間型で提供されてよい。

【0319】

ユーザモードグラフィックスドライバ２３２６が、シェーダ命令２３１２をハードウェア固有の表現に変換するバックエンドシェーダコンパイラ２３２７を含んでよい。ＯｐｅｎＧＬＡＰＩが用いられる場合、ＧＬＳＬ高水準言語のシェーダ命令２３１２が、コンパイルのためにユーザモードグラフィックスドライバ２３２６に送られる。ユーザモードグラフィックスドライバ２３２６は、オペレーティングシステムのカーネルモード機能２３２８を用いて、カーネルモードグラフィックスドライバ２３２９と通信してよい。カーネルモードグラフィックスドライバ２３２９は、コマンド及び命令をディスパッチするためにグラフィックスプロセッサ２３３２と通信してよい。
［ＩＰコアの実装形態］

【0320】

１つ又は複数の態様が、機械可読媒体に格納された、プロセッサなどの集積回路内のロジックを表す且つ／又は定義する代表コードで実装されてよい。例えば、機械可読媒体は、プロセッサ内の様々なロジックを表す命令を含んでよい。命令は、機械により読み出されると、機械に、本明細書で説明される技法を行うロジックを製造させてよい。そのような表現は、「ＩＰコア」として知られており、集積回路の構造を示すハードウェアモデルとして有形な機械可読媒体に格納され得る、集積回路用ロジックの再利用可能な単位である。ハードウェアモデルは、集積回路を製造する製造機械にハードウェアモデルをロードする様々な顧客または製造施設に供給されてよい。集積回路は、回路が、本明細書で説明される実施形態のうちのいずれかと関連して説明されるオペレーションを行うように、製造されてよい。

【0321】

図２４Ａは、一実施形態によるオペレーションを行う集積回路を製造するのに用いられ得るＩＰコア開発システム２４００を示すブロック図である。ＩＰコア開発システム２４００は、大規模な設計に組み込むことができる、又は集積回路全体（例えば、ＳｏＣ集積回路）を構築するのに用いることができる、モジュール式の再利用可能な設計を生成するのに用いられてよい。設計施設２４３０では、ＩＰコア設計のソフトウェアシミュレーション２４１０を高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）で生成できる。ソフトウェアシミュレーション２４１０は、シミュレーションモデル２４１２を用いてＩＰコアの動作を設計し、テストし、確認するのに用いられてよい。シミュレーションモデル２４１２は、機能シミュレーション、動作シミュレーション、及び／又はタイミングシミュレーションを含んでよい。次に、レジスタ転送レベル（ＲＴＬ）設計２４１５が、シミュレーションモデル２４１２から作成されるか又は合成されてよい。ＲＴＬ設計２４１５は、ハードウェアレジスタ間のデジタル信号の流れをモデル化する、集積回路の動作の抽象化であり、モデル化されたデジタル信号を用いて行われる関連ロジックを含む。ＲＴＬ設計２４１５に加えて、ロジックレベル又はトランジスタレベルでの低水準設計も、作成され、設計され、又は合成されてよい。したがって、初期設計及びシミュレーションの具体的な詳細は異なってもよい。

【0322】

ＲＴＬ設計２４１５又はこれに相当するものはさらに、設計施設でハードウェアモデル２４２０に合成されてよく、このハードウェアモデルは、ハードウェア記述言語（ＨＤＬ）又は物理設計データの何らかの他の表現になっていてよい。ＨＤＬはさらに、ＩＰコア設計を確認するために、シミュレーションされるか、又はテストされてもよい。ＩＰコア設計は、サードパーティの製造施設２４６５に届けるために、不揮発性メモリ２４４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いて格納されてよい。あるいは、ＩＰコア設計は（例えば、インターネットを介して）有線接続２４５０又は無線接続２４６０で送られてもよい。次に製造施設２４６５は、ＩＰコア設計に少なくとも部分的に基づいている集積回路を製造してよい。製造される集積回路は、本明細書で説明される少なくとも１つの実施形態によるオペレーションを行うように構成されてよい。

【0323】

図２４Ｂは、集積回路パッケージアセンブリ２４７０の垂直断面図を示している。集積回路パッケージアセンブリ２４７０は、本明細書で説明される１つ又は複数のプロセッサ又はアクセラレータデバイスの一実装形態を示している。パッケージアセンブリ２４７０は、基板２４８０に接続された複数のハードウェアロジック２４７２、２４７４というユニットを含む。ロジック２４７２、２４７４は、構成可能型ロジックハードウェア又は固定機能ロジックハードウェアに少なくとも部分的に実装されてよく、本明細書で説明されるプロセッサコア、グラフィックスプロセッサ、又は他のアクセラレータデバイスのうちのいずれかの１つ又は複数の部分を含んでもよい。ロジック２４７２、２４７４の各ユニットは、半導体ダイに実装され、相互接続構造２４７３を介して基板２４８０と結合されてよい。相互接続構造２４７３は、ロジック２４７２、２４７４と基板２４８０との間に電気信号を通すように構成されてよく、限定されることはないが、バンプ又はピラーなどの相互接続を含んでもよい。相互接続構造２４７３は、例えば、ロジック２４７２、２４７４の動作と関連した入力／出力（Ｉ／Ｏ）信号及び／又は電源若しくは接地信号などの電気信号を通すように構成されてよい。必要に応じて、基板２４８０はエポキシベースの積層基板であってよい。基板２４８０は、他の適切なタイプの基板も含んでよい。パッケージアセンブリ２４７０は、パッケージ相互接続２４８３を介して他の電気デバイスに接続されてよい。パッケージ相互接続２４８３は、マザーボード、他のチップセット、又はマルチチップモジュールなどの他の電気デバイスに電気信号を送るために、基板２４８０の表面に結合されてよい。

【0324】

ロジック２４７２、２４７４のユニットは、ロジック２４７２と２４７４との間に電気信号を通すように構成されたブリッジ２４８２と電気的に結合されてよい。ブリッジ２４８２は、電気信号のルートを提供する高密度相互接続構造であってよい。ブリッジ２４８２は、ガラス又は好適な半導体材料で構成されたブリッジ基板を含んでよい。電気経路選択構造が、ロジック２４７２と２４７４との間にチップ間接続を提供するために、ブリッジ基板に形成されてよい。

【0325】

ロジック２４７２、２４７４という２つのユニット及び１つのブリッジ２４８２が図示されているが、本明細書で説明される実施形態がもっと多い又は少ない論理ユニットを１つ又は複数のダイに含んでもよい。１つ又は複数のダイは、ブリッジを用いないか又は１つ以上のブリッジで接続されてよい（ロジックが１つのダイに含まれる場合には、ブリッジ２４８２が除外されてもよいため）。あるいは、複数のダイ又はロジックのユニットが、１つ又は複数のブリッジで接続されてよい。さらに、複数の論理ユニット、ダイ、及びブリッジが、３次元構成を含む他の可能な構成で一緒に接続されてもよい。

【0326】

図２４Ｃは、基板２４８０（例えば、ベースダイ）に接続された複数のハードウェアロジックチップレットのユニットを含むパッケージアセンブリ２４９０を示している。本明細書で説明されるグラフィックス処理ユニット、並列プロセッサ、及び／又はコンピュートアクセラレータが、別個に製造される別種のシリコンチップレットで構成されてよい。この文脈において、チップレットとは、複数の別個のロジックのユニットを含む少なくとも部分的にパッケージされた集積回路であって、他のチップレットと共に組み立てられると大型パッケージになり得る集積回路である。異なるＩＰコアロジックを備えたチップレットの多様なセットが、１つのデバイスに組み立てられてよい。さらに、これらのチップレットは、アクティブインターポーザ技術を用いて、ベースダイ又はベースチップレットに統合されてよい。本明細書で説明される概念によって、ＧＰＵ内の異なる形式のＩＰ間での相互接続及び通信が可能になる。これらのＩＰコアは、異なるプロセス技術を用いて製造でき、また製造時に構成することができるので、特にいくつかの種類のＩＰを有する大型ＳｏＣに複数のＩＰを同じ製造プロセスで集積する際の複雑さを回避できる。複数のプロセス技術の使用を可能にすることで、市場投入までの時間が改善され、複数の製品ＳＫＵを作成する費用効果の高いやり方がもたらされる。さらに、分解できるＩＰの方が個別にパワーゲーティングを行うのに適しており、所与のワークロードに使われていないコンポーネントの電源を切ることができるので、全体の電力消費が減少する。

【0327】

ハードウェアロジックチップレットは、専用ハードウェアロジックチップレット２４７２、ロジック又はＩ／Ｏチップレット２４７４、及び／又はメモリチップレット２４７５を含んでよい。ハードウェアロジックチップレット２４７２とロジック又はＩ／Ｏチップレット２４７４とは、構成可能型ロジック又は固定機能ロジックハードウェアに少なくとも部分的に実装されてよく、本明細書で説明されるプロセッサコア、グラフィックスプロセッサ、並列プロセッサ、又は他のアクセラレータデバイスのうちのいずれかの１つ又は複数の部分を含んでもよい。メモリチップレット２４７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリであっても、キャッシュ（ＳＲＡＭ）メモリであってもよい。

【0328】

各チップレットは、別個の半導体ダイとして製造されてよく、相互接続構造２４７３を介して基板２４８０と結合されてよい。相互接続構造２４７３は、様々なチップレットと基板２４８０内のロジックとの間に電気信号を通すように構成されてよい。相互接続構造２４７３は、限定されることはないが、バンプ又はピラーなどの相互接続を含んでよい。いくつかの実施形態において、相互接続構造２４７３は、例えば、ロジック、Ｉ／Ｏ、及びメモリチップレットの動作と関連した入力／出力（Ｉ／Ｏ）信号及び／又は電源若しくは接地信号などの電気信号を通すように構成されてよい。

【0329】

基板２４８０はエポキシベースの積層基板であってよい。しかしながら、基板２４８０はこれに限定されることはなく、他の適切なタイプの基板も含んでよい。パッケージアセンブリ２４９０は、パッケージ相互接続２４８３を介して他の電気デバイスに接続されてよい。パッケージ相互接続２４８３は、マザーボード、他のチップセット、又はマルチチップモジュールなどの他の電気デバイスに電気信号を送るために、基板２４８０の表面に結合されてよい。

【0330】

ロジック又はＩ／Ｏチップレット２４７４とメモリチップレット２４７５とが、ロジック又はＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間に電気信号を通すように構成されたブリッジ２４８７を介して電気的に結合されてよい。ブリッジ２４８７は、電気信号のルートを提供する高密度相互接続構造であってよい。ブリッジ２４８７は、ガラス又は好適な半導体材料で構成されたブリッジ基板を含んでよい。電気経路選択構造が、ロジック又はＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間にチップ間接続を提供するために、ブリッジ基板に形成されてよい。ブリッジ２４８７は、シリコンブリッジ又は相互接続ブリッジとも呼ばれることがある。例えば、ブリッジ２４８７は、埋め込み型マルチダイ相互接続ブリッジ（ＥＭＩＢ）である。あるいは、ブリッジ２４８７は、あるチップレットから別のチップレットへの単なる直接的な接続であってもよい。

【0331】

基板２４８０は、Ｉ／Ｏ２４９１、キャッシュメモリ２４９２、及び他のハードウェアロジック２４９３用のハードウェアコンポーネントを含んでよい。様々なロジックチップレットと基板２４８０内のロジック２４９１、２４９３との間の通信を可能にするために、ファブリック２４８５を基板２４８０に埋め込むことができる。必要に応じて、Ｉ／Ｏ２４９１、ファブリック２４８５、キャッシュ、ブリッジ、及び他のハードウェアロジック２４９３は、基板２４８０の上に層状になっているベースダイに統合されてよい。ファブリック２４８５は、ネットワークオンチップ型相互接続であっても、パッケージアセンブリのコンポーネント間でデータパケットを切り替える別の形式のパケット交換型ファブリックであってもよい。

【0332】

さらに、パッケージアセンブリ２４９０は、ファブリック２４８５又は１つ若しくは複数のブリッジ２４８７で相互接続される、もっと小さい又は大きい数のコンポーネント及びチップレットも含んでよい。パッケージアセンブリ２４９０内のチップレットは、３Ｄ又は２．５Ｄ構成で配置されてよい。一般に、例えば、ロジック又はＩ／Ｏチップレットとメモリチップレットとの間のポイントツーポイント相互接続を容易にするために、ブリッジ構造２４８７が用いられてよい。ファブリック２４８５は、様々なロジック及び／又はＩ／Ｏチップレット（例えば、チップレット２４７２、２４７４、２４９１、２４９３）と、他のロジック及び／又はＩ／Ｏチップレットとを相互接続するのに用いられてよい。基板内のキャッシュメモリ２４９２は、パッケージアセンブリ２４９０のグローバルキャッシュ、分散型グローバルキャッシュの一部、又はファブリック２４８５の専用キャッシュの機能を果たすことができる。

【0333】

図２４Ｄは、一実施形態による、交換可能なチップレット２４９５を含むパッケージアセンブリ２４９４を示している。交換可能なチップレット２４９５は、１つ又は複数のベースチップレット２４９６、２４９８の標準スロットに組み立てられてよい。ベースチップレット２４９６、２４９８は、ブリッジ相互接続２４９７を介して結合されてよく、このブリッジ相互接続は、本明細書で説明した他のブリッジ相互接続と同様であってよく、例えば、ＥＭＩＢであってもよい。メモリチップレットは、ロジック又はＩ／Ｏチップレットにもブリッジ相互接続を介して接続されてよい。Ｉ／Ｏ及びロジックチップレットは、相互接続ファブリックを介して通信できる。ベースチップレットはそれぞれ、ロジック又はＩ／Ｏ、又はメモリ／キャッシュのうちの１つの標準フォーマットによる１つ又は複数のスロットをサポートできる。

【0334】

ＳＲＡＭ及び電源供給回路が、ベースチップレット２４９６、２４９８のうちの一方又は両方に作られてよく、これらの回路は、ベースチップレットの上に積層される交換可能なチップレット２４９５と比べて異なるプロセス技術を用いて作ることができる。例えば、ベースチップレット２４９６、２４９８は、大規模なプロセス技術を用いて作ることができ、交換可能なチップレットは小規模なプロセス技術を用いて作ることができる。交換可能なチップレット２４９５のうちの１つ又は複数が、メモリ（例えば、ＤＲＡＭ）チップレットであってよい。パッケージアセンブリ２４９４を用いる製品を対象とした電力及び／又は性能に基づいて、異なるメモリ密度が、パッケージアセンブリ２４９４のために選択されてよい。さらに、異なる数のタイプの機能ユニットを有するロジックチップレットが、当該製品を対象とした電力及び／又は性能に基づいて、組み立て時に選択されてよい。さらに、異なるタイプのＩＰロジックコアを含むチップレットが、交換可能なチップレットのスロットに挿入されてよく、これにより、異なる技術によるＩＰブロックを組み合わせたりそれに合わせたりできるハイブリッドプロセッサ方式が可能になる。
［例示的なシステムオンチップ集積回路］

【0335】

図２５～図２６Ｂは、１つ又は複数のＩＰコアを用いて作られ得る例示的集積回路及び関連するグラフィックスプロセッサを示している。示されているものに加えて、他のロジック及び回路が含まれてよく、その中には、別のグラフィックスプロセッサ／コア、ペリフェラルインタフェースコントローラ、又は汎用プロセッサコアが含まれる。本明細書の任意の他の図の要素と同じ又は同様の名称を有する図２５～図２６Ｂの各要素は、他の図にあるのと同じ要素を示しており、本明細書のどこか他の箇所で説明したものとして、それと同様の方式で動作又は機能してよく、同じコンポーネントを有してよく、他のエンティティに接続されてよいが、そのように限定されることはない。

【0336】

図２５は、１つ又は複数のＩＰコアを用いて作られ得る例示的なシステムオンチップ集積回路２５００を示すブロック図である。例示的な集積回路２５００は、１つ又は複数のアプリケーションプロセッサ２５０５（例えば、ＣＰＵ）と、少なくとも１つのグラフィックスプロセッサ２５１０とを含み、このグラフィックスプロセッサは、グラフィックスプロセッサ１４０８、１５０８、２５１０の変形であっても、本明細書で説明された任意のグラフィックスプロセッサの変形であってもよく、説明された任意のグラフィックスプロセッサの代わりに用いられてもよい。したがって、グラフィックスプロセッサと組み合わせた任意の特徴のここでの開示は、グラフィックスプロセッサ２５１０との対応する組み合わせも開示しているが、そのように限定されることはない。集積回路２５００はさらに、イメージプロセッサ２５１５及び／又はビデオプロセッサ２５２０を含んでよく、これらのうちのいずれかは、同じ又は複数の異なる設計施設によるモジュール式ＩＰコアであってよい。集積回路２５００は、ＵＳＢコントローラ２５２５、ＵＡＲＴコントローラ２５３０、ＳＰＩ／ＳＤＩＯコントローラ２５３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ２５４０を含むペリフェラルロジック又はバスロジックを含んでよい。さらに、集積回路は、高精細度マルチメディアインタフェース（ＨＤＭＩ（登録商標））コントローラ２５５０及びモバイルインダストリプロセッサインタフェース（ＭＩＰＩ）ディスプレイインタフェース２５５５のうちの一方又は両方に結合された表示デバイス２５４５を含んでよい。記憶装置が、フラッシュメモリ及びフラッシュメモリコントローラを含むフラッシュメモリサブシステム２５６０によって提供されてよい。メモリインタフェースが、ＳＤＲＡＭ又はＳＲＡＭメモリデバイスへのアクセスのために、メモリコントローラ２５６５を介して提供されてよい。いくつかの集積回路がさらに、埋め込み型セキュリティエンジン２５７０を含む。

【0337】

図２６Ａ～図２６Ｂは、本明細書で説明される実施形態による、ＳｏＣ内で用いる例示的なグラフィックスプロセッサを示すブロック図である。グラフィックスプロセッサは、グラフィックスプロセッサ１４０８、１５０８、２５１０、又は本明細書で説明した任意の他のグラフィックスプロセッサの変形であってもよい。グラフィックスプロセッサは、グラフィックスプロセッサ１４０８、１５０８、２５１０、又は本明細書で説明したグラフィックスプロセッサのうちのいずれかの代わりに用いられてよい。したがって、グラフィックスプロセッサ１４０８、１５０８、２５１０、又は本明細書で説明したグラフィックスプロセッサのうちのいずれかと組み合わせた任意の特徴の開示は、図２６Ａ～図２６Ｂのグラフィックスプロセッサとの対応する組み合わせも開示しているが、そのように限定されることはない。図２６Ａは、一実施形態による、１つ又は複数のＩＰコアを用いて作られ得るシステムオンチップ集積回路の例示的なグラフィックスプロセッサ２６１０を示している。図２６Ｂは、一実施形態による、１つ又は複数のＩＰコアを用いて作られ得るシステムオンチップ集積回路の別の例示的なグラフィックスプロセッサ２６４０を示している。図２６Ａのグラフィックスプロセッサ２６１０は、低電力グラフィックスプロセッサコアの一例である。図２６Ｂのグラフィックスプロセッサ２６４０は、より高性能のグラフィックスプロセッサコアの一例である。例えば、グラフィックスプロセッサ２６１０、２６４０のそれぞれは、この段落の初めですでに述べたように、図２５のグラフィックスプロセッサ２５１０の変形であってよい。

【0338】

図２６Ａに示すように、グラフィックスプロセッサ２６１０は、頂点プロセッサ２６０５と、１つ又は複数のフラグメントプロセッサ２６１５Ａ～２６１５Ｎ（例えば、２６１５Ａ、２６１５Ｂ、２６１５Ｃ、２６１５Ｄ、…、２６１５Ｎ－１、及び２６１５Ｎ）を含む。グラフィックスプロセッサ２６１０は、異なるシェーダプログラムを別個のロジックを介して実行できるので、頂点プロセッサ２６０５は、頂点シェーダプログラムのオペレーションを実行するように最適化され、１つ又は複数のフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、フラグメントシェーダプログラム又はピクセルシェーダプログラム用のフラグメント（例えば、ピクセル）シェーディングオペレーションを実行する。頂点プロセッサ２６０５は、３Ｄグラフィックスパイプラインの頂点処理ステージを行い、プリミティブデータ及び頂点データを生成する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、頂点プロセッサ２６０５により生成されるプリミティブデータ及び頂点データを用いて、表示デバイスに表示されるフレームバッファを生成する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、ＯｐｅｎＧＬＡＰＩにおいて提供されたフラグメントシェーダプログラムを実行するように最適化されてよく、ＯｐｅｎＧＬＡＰＩは、Ｄｉｒｅｃｔ３ＤのＡＰＩにおいて提供されたピクセルシェーダプログラムと同様のオペレーションを行うのに用いられてよい。

【0339】

グラフィックスプロセッサ２６１０はさらに、１つ又は複数のメモリ管理ユニット（ＭＭＵ）２６２０Ａ～２６２０Ｂと、キャッシュ２６２５Ａ～２６２５Ｂと、回路相互接続２６３０Ａ～２６３０Ｂとを含む。１つ又は複数のＭＭＵ（２６２０Ａ～２６２０Ｂ）は、頂点プロセッサ２６０５及び／又はフラグメントプロセッサ２６１５Ａ～２６１５Ｎを含むグラフィックスプロセッサ２６１０に仮想－物理アドレスマッピングを提供する。グラフィックスプロセッサ２６１０は、１つ又は複数のキャッシュ２６２５Ａ～２６２５Ｂに格納された頂点データ又は画像／テクスチャデータに加えて、メモリに格納された頂点データ又は画像／テクスチャデータを参照してよい。１つ又は複数のＭＭＵ（２６２０Ａ～２６２０Ｂ）は、図２５の１つ又は複数のアプリケーションプロセッサ２５０５、イメージプロセッサ２５１５、及び／又はビデオプロセッサ２５２０と関連した１つ又は複数のＭＭＵを含むシステム内の他のＭＭＵと同期してよく、これにより、各プロセッサ２５０５～２５２０は、共有又は統合した仮想メモリシステムに加わることができる。グラフィックスプロセッサ２６１０の各コンポーネントは、本明細書で説明した他のグラフィックスプロセッサのコンポーネントと対応してよい。１つ又は複数のＭＭＵ（２６２０Ａ～２６２０Ｂ）は、図２ＣのＭＭＵ２４５と対応してよい。頂点プロセッサ２６０５及びフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、グラフィックスマルチプロセッサ２３４と対応してよい。１つ又は複数の回路相互接続２６３０Ａ～２６３０Ｂによって、グラフィックスプロセッサ２６１０がＳｏＣの内蔵バス、又は直接的な接続のいずれかを介して、実施形態によるＳｏＣ内の他のＩＰコアとインタフェースで接続するのが可能になる。１つ又は複数の回路相互接続２６３０Ａ～２６３０Ｂは、図２Ｃのデータクロスバー２４０と対応してよい。さらに、グラフィックスプロセッサ２６１０の類似したコンポーネントと、本明細書で説明される様々なグラフィックスプロセッサアーキテクチャとの間には、対応関係が見られてよい。

【0340】

図２６Ｂに示すように、グラフィックスプロセッサ２６４０は、図２６Ａに示すグラフィックスプロセッサ２６１０の、１つ又は複数のＭＭＵ（２６２０Ａ～２６２０Ｂ）、キャッシュ２６２５Ａ～２６２５Ｂ、及び回路相互接続２６３０Ａ～２６３０Ｂを含む。グラフィックスプロセッサ２６４０は、１つ又は複数のシェーダコア２６５５Ａ～２６５５Ｎ（例えば、２６５５Ａ、２６５５Ｂ、２６５５Ｃ、２６５５Ｄ、２６５５Ｅ、２６５５Ｆ、…、２６５５Ｎ－１、及び２６５５Ｎ）を含み、これらのシェーダコアによって統合シェーダコアアーキテクチャがもたらされ、このアーキテクチャでは、単一のコア又は単一タイプのコアが、頂点シェーダ、フラグメントシェーダ、及び／又はコンピュートシェーダを実装するためのシェーダプログラムコードを含む全てのタイプのプログラム可能型シェーダコードを実行することができる。存在する正確な数のシェーダコアは、実施形態及び実装形態によって異なってよい。さらに、グラフィックスプロセッサ２６４０は、コア間タスクマネージャ２６４５を含む。これは、タイルベースのレンダリングのタイリング操作を加速させるために、実行スレッドを１つ又は複数のシェーダコア２６５５Ａ～２６５５Ｎ及びタイリングユニット２６５８にディスパッチするスレッドディスパッチャの機能を果たす。ここでは、例えば、シーン内の局所的空間コヒーレンスを利用するために、又は内蔵キャッシュの使用を最適化するために、シーンのレンダリング操作が画像空間において細分化される。シェーダコア２６５５Ａ～２６５５Ｎは、例えば、図２Ｄにあるようなグラフィックスマルチプロセッサ２３４、又は図３Ａ及び図３Ｂのそれぞれグラフィックスマルチプロセッサ３２５、３５０、又は図３Ｃのマルチコアグループ３６５Ａと対応してよい。

【0341】

［ハイブリッド浮動小数点データ型のドット積累算命令を有するグラフィックスプロセッサ］

【0342】

コンピュータは、（バイナリによる）数の科学表現を用い、コンピュータサイエンスでは浮動小数点と呼ばれる。科学表記法では、数字は、仮数と呼ばれる有理数で表され、仮数の後に、この仮数と、何らかの指数を累乗した基数との乗算が続く。コンピュータ用の浮動小数点数値フォーマットは、一般的にｂｉｎａｒｙ３２（又はＦＰ３２）及びｂｉｎａｒｙ６４（又はＦＰ６４）を含む。ここでの数字は、数を表すのに用いられる総桁数を意味しており、ほとんどの桁が仮数部に割り当てられるのは、仮数部によって高精度がもたらされるからである。

【0343】

本様式は、ｂｆｌｏａｔ（ＢＦ１６）フォーマットを用いてドット積を実行する包括的ＤＰ２Ａ命令を含む。これは、行列乗算のような構造をサポートしていない製品に役立つ。

【0344】

Ｂｆｌｏａｔ１６フォーマットは、８個の指数ビットを確保した、３２ビットＩＥＥＥ７５４単精度浮動小数点フォーマットの短縮１６ビットバージョンであるが、仮数の精度を２４ビットから８ビットに減らして、メモリ、帯域幅、及び処理リソースを節約するとともに、依然として同程度を維持している。Ｂｆｌｏａｔ１６フォーマットは主に、機械学習アプリケーション及び近接センサコンピュータ処理アプリケーション用に設計された。この場合、０に近いところでは精度が必要とされるが、最大範囲ではそれほどでもない。

【0345】

［ＢＦ１６データ型のＤＰ２Ａ命令］

【0346】

本発明の実施形態が、Ｂｆｌｏａｔ１６（ＢＦ１６）フォーマットを用いてドット積を実行するために提供される包括的ドット積累算（ＤＰ２Ａ）命令を含む。ＢＦ１６は、半精度浮動小数点数値フォーマット（ＦＰ１６）と単精度浮動小数点数値フォーマット（ＦＰ３２）との中間フォーマットである。ＢＦ１６は、１６ビットのようなＦＰ１６であるが、ＦＰ３２と同じ数の指数ビットを有する。これによって、非正規化数に関する一部のエッジケース以外は、ＢＦ１６とＦＰ３２との間の変換が簡単になる。それぞれの数には１つの符号ビットがある。

【0347】

｜フォーマット｜ビット｜指数部｜小数部｜

【0348】

｜－－－－－－－－＋－－－－－－＋－－－－－－－－－－＋－－－－－－－－－－｜

【0349】

｜ＦＰ３２｜３２｜８｜２３｜

【0350】

｜ＦＰ１６｜１６｜５｜１０｜

【0351】

｜ＢＦ１６｜１６｜８｜７｜

【0352】

ＢＦ１６の精度は、他のフォーマットよりはるかに低く１に近い。ＢＦ１６の指数部は、同じ１６ビットのＦＰ１６と比較すると、広い範囲を有する。

【0353】

１つの実施形態では、ＢＦ１６フォーマットを用いてドット積を実行するために、包括的ＤＰ２Ａ命令が提供される。以下に挙げる命令は、処理リソースの演算の一部（例えば、ＦＰＵ演算の通常部分）である。

【0354】

デスティネーション（出力２７２２）＝ソース０オペランドＦＰ３２＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）

【0355】

図２７は、１つの実施形態による処理リソース（例えば、機能ユニット、ＦＰＵ）で、ＢＦ１６フォーマットのこのＤＰ２Ａ命令を実行するための回路２７００のブロック図を示している。この命令は、通常のＦＰＵ演算の部分になる（シストリックパイプラインではない）。

【0356】

図２Ａの並列プロセッサ２００の処理クラスタ２１４はそれぞれ、浮動小数点ユニット２６４（ＦＰＵ）を含んでよい。図２ＤのＧＰＧＰＵコア２６２はそれぞれ、グラフィックスマルチプロセッサ２３４の命令を実行するのに用いられる浮動小数点ユニット２６４（ＦＰＵ）及び／又は整数算術論理ユニット（ＡＬＵ）を含んでよい。図７の処理クラスタ７０６Ａ～７０６Ｈはそれぞれ、浮動小数点ユニット２６４（ＦＰＵ）を含んでよい。ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４のセットが、図１８Ｂに示されている。

【0357】

ＧＰＧＰＵコア２６２は、データの複数のセットに対して単一命令（例えば、ＢＦ１６フォーマットのＤＰ２Ａ命令）を実行できるＳＩＭＤロジックを含んでよい。必要に応じて、ＧＰＧＰＵコア２６２は、ＳＩＭＤ４命令、ＳＩＭＤ８命令、及びＳＩＭＤ１６命令を物理的に実行でき、またＳＩＭＤ１命令、ＳＩＭＤ２命令、及びＳＩＭＤ３２命令を論理的に実行できる。

【0358】

回路２７００は、それぞれ入力オペランド（例えば、ソース１、ソース２）を乗算する乗算器２７１０及び２７１１（例えば、ＢＦ１６乗算器）を含む。累算器又は加算器２７２０が、第１オペランド（ソース０）と、乗算器２７１０及び２７１１のそれぞれからの出力とを加算する。累算器又は加算器２７２０は、デスティネーション用の出力２７２２を生成する。回路２７００は、ＳＩＭＤの個々のレーンに対して複数回繰り返されてよい。

【0359】

モード機能が設定されると、非正規化操作がＢＦ１６によってサポートされる。非正規化数が０にフラッシュされてよい。

【0360】

別の実施形態では、デスティネーション（出力２７２２）及びソース０オペランドは、ＦＰ１６、ＦＰ３２、又はＢＦ１６の浮動小数点数値フォーマットであってよい。

【0361】

処理リソースが、グラフィックスプロセッサと関連した処理要素（例えば、ＧＰＧＰＵコア、レイトレーシングコア、テンソルコア、実行リソース、実行ユニット（ＥＵ）、ストリームプロセッサ、ストリーミングマルチプロセッサ（ＳＭ）、グラフィックスマルチプロセッサ）、又は本明細書で説明されたＧＰＵ内のグラフィックスプロセッサ構造（例えば、並列処理ユニット、グラフィックス処理エンジン、マルチコアグループ、コンピュートユニット、グラフィックスコアネクストのコンピュートユニット）を表している。例えば、処理リソースは、ＦＰＵを有するＧＰＧＰＵコア２６２のうちの１つ、若しくはグラフィックスマルチプロセッサ２３４のテンソル／レイトレーシングコア２６３、グラフィックスマルチプロセッサ３２５のレイトレーシングコア３３８Ａ～３３８Ｂ、テンソルコア３３７Ａ～３３７Ｂ、若しくはＧＰＧＰＵコア３３６Ａ～３３６Ｂ、グラフィックスマルチプロセッサ３５０の実行リソース３５６Ａ～３５６Ｄ、マルチコアグループ３６５Ａ～３６５ＮのＧＦＸコア３７０、テンソルコア３７１、若しくはレイトレーシングコア３７２のうちの１つ、コンピュートユニット１５０６Ａ～１５０６Ｎのベクトル論理ユニット１５６３若しくはスカラ論理ユニット１５６４のうちの１つ、ＥＵアレイ１５２２Ａ～１５２２Ｆ若しくはＥＵアレイ１５２４Ａ～１５２４Ｆを備えた実行ユニット、実行ロジック１８００の実行ユニット１８０８Ａ～１８０８Ｎ、及び／又は実行ユニット１９００であってよい。処理リソースは、例えば、グラフィックス処理エンジン４３１～４３２、処理クラスタ７０６Ａ～７０６Ｈ、ＧＰＧＰＵ８０６Ａ～８０６Ｄ、ＧＰＧＰＵ１３０６、グラフィックス処理エンジン１６１０、グラフィックス処理エンジンクラスタ１６２２、及び／又はグラフィックス処理エンジン１７１０内の実行リソースであってもよい。処理リソースは、グラフィックスプロセッサ２５１０ｍグラフィックスプロセッサ２６１０、及び／又はグラフィックスプロセッサ２６４０内の処理リソースであってもよい。

【0362】

別の実施形態では、ＢＦ１６フォーマットを用いてドット積を実行するために、包括的ＤＰ２Ａ命令が提供される。以下に挙げる命令は、通常のＦＰＵ演算の一部である。

【0363】

デスティネーション（出力２８２２）＝ソース０オペランドＦＰ３２＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）

【0364】

図２８は、別の実施形態によるＦＰＵにおいてＢＦ１６フォーマットのこのＤＰ２Ａ命令を実行するための回路２８００のブロック図を示している。この命令は、通常のＦＰＵ演算の部分になる（シストリックパイプラインではない）。この命令は、製品が大行列のような構造をサポートしていない場合に役立つ。

【0365】

回路２８００は、それぞれ複数の入力オペランド（例えば、ソース１、ソース２、又は他の入力オペランド）を乗算する乗算器２８１０、２８１１、２８１２（例えば、ＢＦ１６乗算器）を含む。累算器又は加算器２８２０が、第１オペランド（ソース０）と、乗算器２８１０、２８１１、及び２８１２のそれぞれからの出力とを加算する。累算器又は加算器２８２０は、デスティネーション用の出力２８２２を生成する。回路２８００は、ＳＩＭＤの個々のレーンに対して複数回繰り返されてよい。

【0366】

回路２８００は、追加の乗算器又はより少ない乗算器を有するように修正されてよい。

【0367】

［カスケード式ドット積累算］

【0368】

第１ステージの出力が第２ステージの入力として供給されて、回路２７００又は回路２８００が繰り返されてよい。第２ステージの出力が第３ステージの入力として供給され得るといったように繰り返される。

【0369】

１つの実施形態では、ＢＦ１６フォーマットを用いてドット積を実行するために、包括的ＤＰ２Ａ命令が供給される。以下に挙げる命令は、通常のＦＰＵ演算の一部である。

【0370】

デスティネーション（出力２９２２）＝ソース０オペランドＦＰ３２＋（ソース１オペランドＢＦ１６）×ソース２オペランドＢＦ１６）＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）

【0371】

デスティネーション（出力２９６２）＝出力２９２２オペランドＦＰ３２＋（ソース１オペランドＢＦ１６）×ソース２オペランドＢＦ１６）＋（ソース１オペランドＢＦ１６）×（ソース２オペランドＢＦ１６）

【0372】

図２９は、１つの実施形態によるＦＰＵにおいて、ＢＦ１６フォーマットのこのＤＰ２Ａ命令を実行するための回路２９００のブロック図を示している。この命令は、通常のＦＰＵ演算の部分になる（シストリックパイプラインではない）。

【0373】

回路２９００は、第１ステージと第２ステージとを含むが、別のステージも含まれてよい。第１ステージ２９０１は、それぞれ入力オペランド（例えば、ソース１、ソース２）を乗算する乗算器２９１０及び２９１１（例えば、ＢＦ１６乗算器）を含む。第１ステージ２９０１の累算器又は加算器２９２０が、第１オペランド（ソース０）と、乗算器２９１０及び２９１１のそれぞれからの出力とを加算する。累算器又は加算器２９２０は、第１出力２９２２を生成する。

【0374】

第２ステージ２９０２は、それぞれ入力オペランド（例えば、ソース１、ソース２）を乗算する乗算器２９６０及び２９６１（例えば、ＢＦ１６乗算器）を含む。第２ステージ２９０２の累算器又は加算器２９６０が、第１オペランド（出力２９２２）と、乗算器２９６０及び２９６１のそれぞれからの出力とを加算する。累算器又は加算器２９６０は、デスティネーション用の第２出力２９６２を生成する、又は別のステージＮが第２ステージに続いてもよい。

【0375】

多くの方法が最も基本的な形式で説明されているが、本実施形態の基本的な範囲から逸脱することなく、これらの方法のうちのいずれかに工程を追加することも、そこから工程を削除することもでき、説明したメッセージのうちのいずれかに情報を追加することも、そこから情報を引き去ることもできる。多くのさらなる修正及び改造を施し得ることが、当業者には明らかであろう。詳細な実施形態は、概念を限定するために提供されているのではなく、概念を示すために提供されている。これらの実施形態の範囲は、上述した具体的な例によって決定されるのではなく、以下の特許請求の範囲によってのみ決定される。

【0376】

要素「Ａ」が要素「Ｂ」に又はそれと結合されていると言う場合、要素「Ａ」は、要素「Ｂ」に直接的に結合されても、例えば、要素「Ｃ」を通じて間接的に結合されてもよい。コンポーネント、特徴、構造、プロセス、又は特性Ａが、コンポーネント、特徴、構造、プロセス、又は特性Ｂをもたらすと、本明細書又は特許請求の範囲が述べている場合、これが意味するのは、「Ａ」が「Ｂ」の少なくとも部分的な原因であるが、「Ｂ」をもたらすのを助ける少なくとも１つの他のコンポーネント、特徴、構造、プロセス、又は特性も存在し得るということである。コンポーネント、特徴、構造、プロセス、又は特性が、含まれ「得る」、含まれる「かもしれない」、又は含まれる「可能性がある」ことを本明細書が示している場合、この特定のコンポーネント、特徴、構造、プロセス、又は特性が含まれることは必須ではない。本明細書又は特許請求の範囲が「１つ」の要素に言及した場合、これは、説明された複数の要素のうちの１つだけが存在することを意味しているわけではない。

【0377】

１つの実施形態が、１つの実装形態又は実施例である。本明細書における「一実施形態」、「１つの実施形態」、「いくつかの実施形態」、又は「他の実施形態」への言及は、これらの実施形態に関連して説明される特定の機能、構造、又は特性が、必ずしも全ての実施形態ではなく、少なくともいくつかの実施形態に含まれていることを意味している。「一実施形態」、「１つの実施形態」、又は「いくつかの実施形態」が所々に現れるが、必ずしも全てが同じ実施形態を指しているわけではない。例示的な実施形態の前述の説明では、本開示を合理化して様々な新規態様のうちの１つ又は複数の理解を助ける目的で、様々な特徴が１つの実施形態、図、又はその説明に一緒にまとめられていることがあることを理解されたい。しかしながら、この開示方法は、特許請求される実施形態が、各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映しているように、前述の開示された単一の実施形態の全ての特徴に新規態様があるとはいえない。したがって、特許請求の範囲はこれにより本説明に明示的に組み込まれ、各請求項は別個の実施形態として独立している。

【0378】

いくつかの実施形態は、命令をディスパッチする命令ユニットと、命令ユニットに結合された処理リソースとを有するグラフィックスマルチプロセッサを含む実施例１に関連する。処理リソースは、命令ユニットからドット積累算命令を受信して、Ｂｆｌｏａｔ１６数値（ＢＦ１６）フォーマットを用いてドット積累算命令を処理するように構成されている。

【0379】

実施例２は実施例１の主題を含み、ドット積累算命令は、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ソースオペランドと、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算する。

【0380】

実施例３は実施例１～２のいずれかの主題を含み、累算器はデスティネーション用の出力を生成する。

【0381】

実施例４は実施例１～３のいずれかの主題を含み、第１ソースオペランドは単精度浮動小数点フォーマットを有し、第２ソースオペランド及び第３ソースオペランドはＢＦ１６フォーマットを有する。

【0382】

実施例５は実施例１～４のいずれかの主題を含み、第１ソースオペランド及びデスティネーションは、半精度浮動小数点フォーマット、単精度浮動小数点フォーマット、又はＢＦ１６フォーマットである。

【0383】

実施例６は実施例１～５のいずれかの主題を含み、処理リソースは、ＢＦ１６フォーマットを用いてドット積累算命令を実行する浮動小数点ユニット（ＦＰＵ）を有する。

【0384】

実施例７は実施例１～６のいずれかの主題を含み、命令ユニットは単一命令複数データ（ＳＩＭＤ）命令を含む命令をディスパッチする。

【0385】

いくつかの実施形態は、単精度浮動小数点演算用の単精度浮動小数点ユニットと、半精度浮動小数点演算用の半精度浮動小数点ユニットとを有する汎用グラフィックス処理ユニットコア（ＧＰＧＰＵコア）を含む実施例８に関連する。半精度浮動小数点ユニットは、Ｂｆｌｏａｔ１６（ＢＦ１６）フォーマットを用いてドット積累算命令を実行するように構成されている。

【0386】

実施例９は実施例８の主題を含み、ドット積累算命令は、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ソースオペランドと、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算する。

【0387】

実施例１０は実施例８～９のいずれかの主題を含み、累算器はデスティネーション用の出力を生成する。

【0388】

実施例１１は実施例８～１０のいずれかの主題を含み、第１ソースオペランドは単精度浮動小数点フォーマットを有し、第２ソースオペランド及び第３ソースオペランドはＢＦ１６フォーマットを有する。

【0389】

実施例１２は実施例８～１１のいずれかの主題を含み、第１ソースオペランド及びデスティネーションは、半精度浮動小数点フォーマット、単精度浮動小数点フォーマット、又はＢＦ１６フォーマットである。

【0390】

実施例１３は実施例８～１２のいずれかの主題を含み、ドット積累算命令は、第１ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ソースオペランドと、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算して、第１ステージの出力を生成する。

【0391】

実施例１４は実施例８～１２のいずれかの主題を含み、乗算器及び累算器によるＮ個のステージを有するカスケード構成用のドット積累算命令は、第２ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ステージからの出力と、第２ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算する。

【0392】

実施例１５は、並列処理操作を行う第１処理クラスタと、第１処理クラスタに結合された第２処理クラスタとを有する並列処理ユニットを含むいくつかの実施形態に関連する。第１処理クラスタは、浮動小数点演算を行う浮動小数点ユニットを含む。浮動小数点ユニットは、Ｂｆｌｏａｔ１６（ＢＦ１６）フォーマットを用いてドット積累算命令を処理するように構成されている。

【0393】

実施例１６は実施例１５の主題を含み、ドット積累算命令は、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ソースオペランドと、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算する。

【0394】

実施例１７は実施例１５～１６のいずれかの主題を含み、累算器はデスティネーション用の出力を生成する。

【0395】

実施例１８は実施例１５～１７のいずれかの主題を含み、第１ソースオペランドは単精度浮動小数点フォーマットを有し、第２ソースオペランド及び第３ソースオペランドはＢＦ１６フォーマットを有する。

【0396】

実施例１９は実施例１５～１８のいずれかの主題を含み、第１ソースオペランド及びデスティネーションは、半精度浮動小数点フォーマット、単精度浮動小数点フォーマット、又はＢＦ１６フォーマットである。

【0397】

実施例２０は実施例１５～１９のいずれかの主題を含み、ドット積累算命令は、第１ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ソースオペランドと、第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算し、乗算器及び累算器によるＮ個のステージを有するカスケード構成用のドット積累算命令は、第２ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器にそれぞれ、第２ソースオペランドと第３ソースオペランドとを乗算させるとともに、累算器が、第１ステージからの出力と、第２ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算する。

【0398】

実施例２１は実施例１５～２０のいずれかの主題を含み、浮動小数点ユニットは、ＢＦ１６乗算器及び累算器によるＮ個のステージを有するカスケード構成を有する。

【0399】

実施例２２は実施例１５～２１のいずれかの主題を含み、Ｎ個のステージは、第１ステージであって、それぞれ第２ソースオペランドと第３ソースオペランドとを乗算する第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器と、第１ソースオペランドと第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算して、第１ステージの出力を生成する累算器とによる第１ステージと、第２ステージであって、それぞれ第２ソースオペランドと第３ソースオペランドとを乗算する第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器と、第１ステージからの出力と第２ステージの第１のＢＦ１６乗算器及び第２のＢＦ１６乗算器のそれぞれからの出力とを加算する累算器とによる第２ステージとを含む。

【0400】

前述の説明及び図面は、限定的意味ではなく、例示的意味で扱われるべきである。当業者であれば、添付した特許請求の範囲に記載されている本発明のより広範な意図及び範囲から逸脱することなく、本明細書で説明された実施形態に対して、様々な修正及び変更を施してよいことを理解するであろう。
（項目１）
単一命令複数スレッド（ＳＩＭＴ）マルチプロセッサを備えるグラフィックス処理ユニットであって、
前記ＳＩＭＴマルチプロセッサは、
命令キャッシュと、
前記命令キャッシュと結合された共有メモリと、
前記共有メモリ及び前記命令キャッシュと結合された回路であって、前記回路は、
複数のテクスチャユニットと、
行列演算を加速させるハードウェアを含む第１コアと、
第２コアであって、
Ｂｆｌｏａｔ１６（ＢＦ１６）数値フォーマットの複数のオペランドを有する命令を受信することであって、前記複数のオペランドは、第１ソースオペランド、第２ソースオペランド、及び第３ソースオペランドを含み、前記ＢＦ１６数値フォーマットは、８ビットの指数部を有する１６ビットの浮動小数点フォーマットである、受信することと、
前記命令を処理することであって、前記命令を処理することは、前記第２ソースオペランドと前記第３ソースオペランドとを乗算して、前記乗算の結果に前記第１ソースオペランドを加算することを含む、処理することと
を行うように構成された第２コアと
を含む、回路と
を有する、グラフィックス処理ユニット。
（項目２）
前記命令は単一命令複数データ（ＳＩＭＤ）命令である、項目１に記載のグラフィックス処理ユニット。
（項目３）
前記命令によって、前記第２コアは前記加算の結果に正規化線形ユニット関数を適用することになる、項目２に記載のグラフィックス処理ユニット。
（項目４）
前記ＳＩＭＴマルチプロセッサは、前記命令に応答して１ワープのスレッドを実行する、項目１から３のいずれか一項に記載のグラフィックス処理ユニット。
（項目５）
前記ＳＩＭＴマルチプロセッサは、前記第１コアを介して並列行列乗算演算を行い、前記並列行列乗算演算は、前記ＢＦ１６数値フォーマットを有する入力に対して行われる、項目１から４のいずれか一項に記載のグラフィックス処理ユニット。
（項目６）
前記グラフィックス処理ユニットはさらに、レイトレーシング操作を加速させるハードウェアを含む第３コアを備える、項目１から５のいずれか一項に記載のグラフィックス処理ユニット。
（項目７）
前記グラフィックス処理ユニットはさらに、前記ＳＩＭＴマルチプロセッサの外部にあり且つ前記ＳＩＭＴマルチプロセッサと結合されたテクスチャ処理回路を備える、項目１から６のいずれか一項に記載のグラフィックス処理ユニット。
（項目８）
前記命令は前記第２コアにドット積演算を実行させる、項目１から７のいずれか一項に記載のグラフィックス処理ユニット。
（項目９）
グラフィックス処理ユニット（ＧＰＵ）の命令キャッシュから命令をフェッチする段階であって、前記命令はＢｆｌｏａｔ１６（ＢＦ１６）数値フォーマットの複数のオペランドを有し、前記複数のオペランドは、第１ソースオペランド、第２ソースオペランド、及び第３ソースオペランドを含み、前記ＢＦ１６数値フォーマットは８ビットの指数部を有する１６ビットの浮動小数点フォーマットであり、前記ＧＰＵは、前記命令キャッシュと結合された共有メモリと、前記共有メモリ及び前記命令キャッシュと結合された回路とを含む、フェッチする段階と、
前記命令に応答して、１ワープのスレッドを前記ＧＰＵの単一命令複数スレッド（ＳＩＭＴ）マルチプロセッサにディスパッチする段階であって、前記ＳＩＭＴマルチプロセッサは、複数のテクスチャユニット、行列演算を加速させるハードウェアを含む第１コア、及び前記命令のスレッドを実行するように構成された第２コアを含む、ディスパッチする段階と、
前記第２コアを用いて前記命令を処理する段階であって、前記命令を処理する段階は、前記第２ソースオペランドと前記第３ソースオペランドとを乗算し、前記乗算の結果に第１ソースオペランドを加算する段階を含む、処理する段階と
を備える方法。
（項目１０）
前記命令は単一命令複数データ（ＳＩＭＤ）命令である、項目９に記載の方法。
（項目１１）
前記方法はさらに、前記第２コアを介して、前記加算の結果に正規化線形ユニット関数を適用する段階を備える、項目１０に記載の方法。
（項目１２）
前記方法はさらに、前記第１コアを介して、前記ＢＦ１６数値フォーマットを有する入力に対して並列行列乗算演算を行う段階を備える、項目９から１１のいずれか一項に記載の方法。
（項目１３）
前記ＳＩＭＴマルチプロセッサは、レイトレーシング操作を加速させる第３コアを含み、前記方法はさらに、前記第３コアを介して、前記命令の処理と並行してレイトレーシング操作を加速させる段階を備える、項目９から１２のいずれか一項に記載の方法。
（項目１４）
前記方法はさらに、前記ＳＩＭＴマルチプロセッサの外部にあり且つ前記ＳＩＭＴマルチプロセッサと結合されたテクスチャ処理回路を介して、テクスチャ処理操作を行う段階を備える、項目９から１３のいずれか一項に記載の方法。
（項目１５）
前記方法はさらに、前記命令に応答して、前記第２コアを介してドット積演算を行う段階を備える、項目９から１４のいずれか一項に記載の方法。
（項目１６）
メモリデバイスと、
前記メモリデバイスと結合されたグラフィックスプロセッサであって、前記グラフィックスプロセッサは、命令キャッシュ、前記命令キャッシュと結合された共有メモリ、並びに前記共有メモリ及び前記命令キャッシュと結合された回路を含む単一命令複数スレッド（ＳＩＭＴ）マルチプロセッサを有する、グラフィックスプロセッサと
を備えるグラフィックス処理システムであって、
前記回路は、
複数のテクスチャユニットと、
行列演算を加速させるハードウェアを含む第１コアと、
第２コアであって、Ｂｆｌｏａｔ１６（ＢＦ１６）数値フォーマットの複数のオペランドＡ、Ｂ、Ｃ、及びＤを有する命令を受信することであって、前記ＢＦ１６数値フォーマットは、８ビットの指数部を有する１６ビットの浮動小数点フォーマットである、受信することと、前記命令を処理することであって、前記命令を処理することは演算Ｄ＝Ａ×Ｂ＋Ｃを行うことを含む、処理することとを行うように構成された第２コアと
を含む、グラフィックス処理システム。
（項目１７）
前記命令は単一命令複数データ（ＳＩＭＤ）命令である、項目１６に記載のグラフィックス処理システム。
（項目１８）
前記第２コアはさらに、前記演算Ｄ＝Ａ×Ｂ＋Ｃの結果に正規化線形ユニット関数を適用するように構成される、項目１７に記載のグラフィックス処理システム。
（項目１９）
前記ＳＩＭＴマルチプロセッサは、前記命令に応答して１ワープのスレッドを実行する、項目１６から１８のいずれか一項に記載のグラフィックス処理システム。
（項目２０）
前記ＳＩＭＴマルチプロセッサは、前記第１コアを介して並列行列乗算演算を行い、前記並列行列乗算演算は、前記ＢＦ１６数値フォーマットを有する入力に対して行われる、項目１６から１９のいずれか一項に記載のグラフィックス処理システム。
（項目２１）
前記グラフィックス処理システムはさらに、レイトレーシング操作を加速させるハードウェアを含む第３コアを備える、項目１６から２０のいずれか一項に記載のグラフィックス処理システム。
（項目２２）
前記グラフィックス処理システムはさらに、前記ＳＩＭＴマルチプロセッサの外部にあり且つ前記ＳＩＭＴマルチプロセッサと結合されたテクスチャ処理回路を備える、項目１６から２１のいずれか一項に記載のグラフィックス処理システム。
（項目２３）
前記命令は前記第２コアにドット積演算を実行させる、項目１６から２２のいずれか一項に記載のグラフィックス処理システム。
（項目２４）
並列処理操作を行う第１処理クラスタであって、前記並列処理操作は、レイトレーシング操作及び行列乗算演算を含む、第１処理クラスタと、
前記第１処理クラスタに結合された第２処理クラスタであって、前記第１処理クラスタは浮動小数点演算を行う浮動小数点ユニットを含み、前記浮動小数点ユニットは、Ｂｆｌｏａｔ１６（ＢＦ１６）フォーマットを用いて命令を処理するように構成され、ＢＦ１６乗算器は第２ソースオペランドと第３ソースオペランドとを乗算し、累算器は前記ＢＦ１６乗算器からの出力と第１ソースオペランドとを加算する、第２処理クラスタと、
を備える並列処理ユニット。
（項目２５）
前記命令は前記ＢＦ１６乗算器に、前記ＢＦ１６フォーマットを有する第２ソースオペランドと第３ソースオペランドとを乗算させ、前記累算器は前記ＢＦ１６乗算器からの出力と第１ソースオペランドとを加算する、項目２４に記載の並列処理ユニット。
（項目２６）
前記第１ソースオペランドは単精度浮動小数点フォーマットを有し、前記第２ソースオペランド及び前記第３ソースオペランドはＢＦ１６フォーマットを有する、項目２４又は２５に記載の並列処理ユニット。
（項目２７）
項目９から１５のいずれか一項に記載の方法を機械に実行させるプログラム。
（項目２８）
項目２７に記載のプログラムを格納する機械可読記憶媒体。
（項目２９）
項目９から１５のいずれか一項に記載の方法を実行する手段を備える装置。

【図1】