特表2024-514373 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌビディア　コーポレーションの特許一覧

特表2024-514373スクリーン空間可視性を使用するレイ・トレースされた光リサンプリング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4
5
6
7
8
9
10
11
12
13
14
15
16A
16B
17A
17B
18A
18B
18C
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34A
34B
34C
35
36
37
38

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-02

(54)【発明の名称】スクリーン空間可視性を使用するレイ・トレースされた光リサンプリング

(51)【国際特許分類】

G06T 15/06 20110101AFI20240326BHJP

G06T 15/50 20110101ALI20240326BHJP

【ＦＩ】

G06T15/06

G06T15/50

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022529276

(86)(22)【出願日】2022-04-05

(85)【翻訳文提出日】2023-10-04

(86)【国際出願番号】 US2022023526

(87)【国際公開番号】W WO2022221100

(87)【国際公開日】2022-10-20

(31)【優先権主張番号】17/228,420

(32)【優先日】2021-04-12

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＴＥＮＳＯＲＦＬＯＷ

３．ＰＹＴＨＯＮ

４．ＪＡＶＡ

(71)【出願人】

【識別番号】501450960

【氏名又は名称】エヌビディアコーポレーション

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】パンテレーフ、アレクセイユーリエヴィチ

【テーマコード（参考）】

5B080

【Ｆターム（参考）】

5B080AA14

5B080BA03

5B080CA01

5B080CA04

5B080FA02

5B080GA06

5B080GA22

(57)【要約】

画像をレンダリングするための装置、システム、及び技法。少なくとも１つの実施例では、第１の画像領域のために決定された少なくとも１つの可視性パラメータが、第１の画像領域に（たとえば、空間的に及び／又は時間的に）隣接する異なる第２の画像領域のために再使用される。

【特許請求の範囲】

【請求項1】

第１の画像領域のための少なくとも１つの可視性パラメータを記憶するステップであって、１つ又は複数のレイ・トレースされた光サンプルのための前記少なくとも１つの可視性パラメータが、前記第１の画像領域に対応し、前記第１の画像領域に適用されるべき光の第１の量を示す、ステップと、
前記少なくとも１つの可視性パラメータに少なくとも部分的に基づいて、第２の画像領域に適用されるべき光の第２の量を決定するステップであって、前記第２の画像領域が、前記第１の画像領域に、空間的に又は時間的にのうちの少なくとも１つで隣接する、ステップと
を含む、コンピュータ実装方法。

【請求項2】

光の前記第２の量を決定する前に、前記第１の画像領域に関連付けられた第１のエイジ値を記憶するステップと、
前記第２の画像領域が前記第１の画像領域に時間的に隣接するとき、光の前記第２の量を決定した後に第２のエイジ値を決定するステップと、
前記第２のエイジ値を光の前記第２の量に関連付けるステップと
をさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

エイジしきい値と、前記第１のエイジ値又は前記第２のエイジ値のうちの１つとの比較の結果に基づいて、第３の画像領域に適用されるべき光の第３の量を決定するために、前記少なくとも１つの可視性パラメータを使用すべきかどうかを決定するステップ
をさらに含む、請求項２に記載のコンピュータ実装方法。

【請求項4】

光の前記第２の量を決定する前に、前記第１の画像領域に関連付けられた第１の距離値を記憶するステップと、
前記第２の画像領域が、前記第１の画像領域に、時間的に及び空間的にの両方で隣接するとき、光の前記第２の量を決定した後に第２の距離値を決定するステップであって、前記第２の距離値が、前記第１の距離値と、前記第１の画像領域と前記第２の画像領域との間で行われる移動を差し引いている、前記第１の画像領域の第１の画像ロケーションと前記第２の画像領域の第２の画像ロケーションとの間の距離との和に等しい、ステップと
をさらに含む、請求項２に記載のコンピュータ実装方法。

【請求項5】

距離しきい値と、前記第１の距離値又は前記第２の距離値のうちの１つとの比較の結果に基づいて、第３の画像領域に適用されるべき光の第３の量を決定するために、前記少なくとも１つの可視性パラメータを使用すべきかどうかを決定するステップ
をさらに含む、請求項４に記載のコンピュータ実装方法。

【請求項6】

単一の画像が、前記第１の画像領域と前記第２の画像領域とを含み、
前記第２の画像領域が、前記第１の画像領域に空間的に隣接する、
請求項１に記載のコンピュータ実装方法。

【請求項7】

第１の画像が、前記第１の画像領域を含み、
第２の画像が、前記第２の画像領域を含み、
前記第２の画像領域が、前記第１の画像領域に時間的に隣接する、
請求項１に記載のコンピュータ実装方法。

【請求項8】

前記第２の画像領域が、前記第１の画像領域に空間的に隣接する、請求項７に記載のコンピュータ実装方法。

【請求項9】

選択された光サンプルを選択することと、前記第１の画像領域中の可視の表面上のポイントから、前記選択された光サンプルまで、レイをトレースすることと、前記ポイントへの、前記レイに沿って、前記選択された光サンプルによって行われた光寄与を決定することとによって、前記少なくとも１つの可視性パラメータを取得するステップ
をさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項10】

複数の画像領域の各々について第１の光サンプルのセットを選択するステップと、
第２の光サンプルのセットを取得するために、前記複数の画像領域の少なくとも一部分の各々について選択された前記第１の光サンプルのセットを組み合わせるステップと、
前記第２の光サンプルのセットから、前記選択された光サンプルを選択するステップと
をさらに含む、請求項９に記載のコンピュータ実装方法。

【請求項11】

重要度サンプリングが、前記第１の光サンプルのセットを選択するために使用される、請求項１０に記載のコンピュータ実装方法。

【請求項12】

重要度サンプリングが、前記第２の光サンプルのセットから、前記選択された光サンプルを選択するために使用される、請求項１１に記載のコンピュータ実装方法。

【請求項13】

１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサによって実行可能な命令を記憶するための１つ又は複数のメモリと
を備えるシステムであって、前記命令が、前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、少なくとも、
第１の画像領域中の可視の表面上のポイントから、選択された光サンプルまで、レイをトレースさせ、
前記レイに沿って、前記選択された光サンプルによって前記ポイントに寄与された光に少なくとも部分的に基づいて、前記選択された光サンプルに対応し、前記第１の画像領域に適用されるべき光の第１の量を示す少なくとも１つの可視性パラメータを決定させ、
前記少なくとも１つの可視性パラメータに少なくとも部分的に基づいて、前記第１の画像領域に、空間的に又は時間的にのうちの少なくとも１つで隣接する第２の画像領域に適用されるべき光の第２の量を決定させる、
システム。

【請求項14】

前記命令が、前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、少なくとも、
複数の画像領域の各々について第１の光サンプルのセットを選択させ、
第２の光サンプルのセットを取得するために、前記複数の画像領域の少なくとも一部分の各々について選択された前記第１の光サンプルのセットを組み合わせさせ、
前記第２の光サンプルのセットから、前記選択された光サンプルを選択させる、
請求項１３に記載のシステム。

【請求項15】

重要度サンプリングが、前記第１の光サンプルのセットを選択するために使用され、
重要度サンプリングが、前記第２の光サンプルのセットから、前記選択された光サンプルを選択するために使用される、
請求項１４に記載のシステム。

【請求項16】

前記命令が、前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、少なくとも、
光の前記第２の量を決定する前に、前記第１の画像領域に関連付けられた第１のエイジ値を記憶させ、
前記第２の画像領域が前記第１の画像領域に時間的に隣接するとき、光の前記第２の量を決定した後に第２のエイジ値を決定させ、
前記第２のエイジ値を光の前記第２の量に関連付けさせ、
エイジしきい値と前記第２のエイジ値との比較の結果に基づいて、前記第２の画像領域に時間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、前記少なくとも１つの可視性パラメータを使用すべきかどうかを決定させる、
請求項１３に記載のシステム。

【請求項17】

前記命令が、前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、少なくとも、
光の前記第２の量を決定する前に、前記第１の画像領域に関連付けられた第１の距離値を記憶させ、
前記第２の画像領域が、前記第１の画像領域に、時間的に及び空間的にの両方で隣接するとき、光の前記第２の量を決定した後に、前記第１の距離値と、前記第１の画像領域と前記第２の画像領域との間で行われる移動を差し引いている、前記第１の画像領域の第１の画像ロケーションと前記第２の画像領域の第２の画像ロケーションとの間の距離との和に等しい第２の距離値を決定させ、
距離しきい値と前記第２の距離値との比較の結果に基づいて、前記第２の画像領域に空間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、前記少なくとも１つの可視性パラメータを使用すべきかどうかを決定させる、
請求項１３に記載のシステム。

【請求項18】

前記命令が、前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、少なくとも、
光の前記第１の量が適用される前記第１の画像領域と、光の前記第２の量が適用される前記第２の画像領域とを含む画像をレンダリングさせる、
請求項１３に記載のシステム。

【請求項19】

光の前記第１の量と光の前記第２の量とが同等である、請求項１３に記載のシステム。

【請求項20】

命令のセットを記憶した機械可読媒体であって、前記命令のセットが、１つ又は複数のプロセッサによって実施される場合、前記１つ又は複数のプロセッサに、少なくとも、
第１の画像領域のために決定された少なくとも１つの可視性パラメータに少なくとも部分的に基づいて、第２の画像領域に適用されるべき光の第２の量を決定させ、
１つ又は複数のレイ・トレースされた光サンプルのための前記少なくとも１つの可視性パラメータが、前記第１の画像領域に対応し、前記第１の画像領域に適用されるべき光の第１の量を示し、前記第２の画像領域が、前記第１の画像領域に、空間的に又は時間的にのうちの少なくとも１つで隣接する、
機械可読媒体。

【請求項21】

前記命令のセットが、前記１つ又は複数のプロセッサによって実施されるとき、前記１つ又は複数のプロセッサに、少なくとも、
前記第１の画像領域と前記第２の画像領域とを含む画像をレンダリングさせ、
光の前記第１の量が前記第１の画像領域に適用され、光の前記第２の量が前記第２の画像領域に適用される、
請求項２０に記載の機械可読媒体。

【請求項22】

前記命令のセットが、前記１つ又は複数のプロセッサによって実施されるとき、前記１つ又は複数のプロセッサに、少なくとも、
光の前記第２の量を決定する前に、前記第１の画像領域に関連付けられた第１のエイジ値を記憶させ、
前記第２の画像領域が前記第１の画像領域に時間的に隣接するとき、光の前記第２の量を決定した後に第２のエイジ値を決定させ、
前記第２のエイジ値を光の前記第２の量に関連付けさせ、
エイジしきい値と前記第２のエイジ値との比較の結果に基づいて、前記第２の画像領域に時間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、前記少なくとも１つの可視性パラメータを使用すべきかどうかを決定させる、
請求項２０に記載の機械可読媒体。

【請求項23】

前記命令のセットが、前記１つ又は複数のプロセッサによって実施されるとき、前記１つ又は複数のプロセッサに、少なくとも、
光の前記第２の量を決定する前に、前記第１の画像領域に関連付けられた第１の距離値を記憶させ、
前記第２の画像領域が、前記第１の画像領域に、時間的に及び空間的にの両方で隣接するとき、光の前記第２の量を決定した後に、前記第１の距離値と、前記第１の画像領域と前記第２の画像領域との間で行われる移動を差し引いている、前記第１の画像領域の第１の画像ロケーションと前記第２の画像領域の第２の画像ロケーションとの間の距離との和に等しい前記第２の距離値を決定させ、
距離しきい値と前記第２の距離値との比較の結果に基づいて、前記第２の画像領域に空間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、前記少なくとも１つの可視性パラメータを使用すべきかどうかを決定させる、
請求項２０に記載の機械可読媒体。

【請求項24】

前記命令のセットが、前記１つ又は複数のプロセッサによって実施されるとき、前記１つ又は複数のプロセッサに、少なくとも、
選択された光サンプルを選択し、
前記第１の画像領域中の可視の表面上のポイントから、前記選択された光サンプルまで、レイをトレースし、
前記ポイントへの、前記レイに沿って、前記選択された光サンプルによって行われた光寄与を決定する
ことによって、前記少なくとも１つの可視性パラメータを取得させる、
請求項２０に記載の機械可読媒体。

【請求項25】

前記命令のセットが、前記１つ又は複数のプロセッサによって実施されるとき、前記１つ又は複数のプロセッサに、少なくとも、
複数の画像領域の各々について第１の光サンプルのセットを選択させ、
第２の光サンプルのセットを取得するために、前記複数の画像領域の少なくとも一部分の各々について選択された前記第１の光サンプルのセットを組み合わせさせ、
前記第２の光サンプルのセットから、前記選択された光サンプルを選択させる、
請求項２４に記載の機械可読媒体。

【請求項26】

重要度サンプリングが、前記第１の光サンプルのセットを選択するために使用され、
重要度サンプリングが、前記第２の光サンプルのセットから、前記選択された光サンプルを選択するために使用される、
請求項２５に記載の機械可読媒体。

【請求項27】

前記命令のセットが、前記１つ又は複数のプロセッサによって実施されるとき、前記１つ又は複数のプロセッサに、少なくとも、
前記第２の画像領域に関連する前記少なくとも１つの可視性パラメータを記憶させる、
請求項２０に記載の機械可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、その内容の全体がすべての目的のために参照により本明細書に組み込まれる、２０２１年４月１２日に出願された「ＲＡＹ－ＴＲＡＣＥＤＬＩＧＨＴＲＥＳＡＭＰＬＩＮＧＵＳＩＮＧＳＣＲＥＥＮＳＰＡＣＥＶＩＳＩＢＩＬＩＴＹ」と題する米国特許出願第１７／２２８，４２０号の優先権を主張する。

【0002】

少なくとも１つの実施例は、レイ・トレーシングなど、現実的な光シミュレーションを伴う画像レンダリング方法に関する。たとえば、少なくとも１つの実施例は、本明細書で説明される様々な新規の技法を実装する、そのような画像レンダリング方法を実施するために使用されるプロセッサ又はコンピューティング・システムに関する。

【背景技術】

【0003】

レイ・トレーシングは、３次元（「３Ｄ」：ｔｈｒｅｅ－ｄｉｍｅｎｓｉｏｎａｌ）シーンを通る光路をシミュレートする技法である。シーンが複数の表面及び／又は光源を含み得るので、レイ・トレーシングは算出量的に厳しくなり得る。

【図面の簡単な説明】

【0004】

【図1】少なくとも１つの実施例による、画像レンダリング方法を実施するために使用され得るシステムのブロック図である。

【図2A】少なくとも１つの実施例による、シーンの画像をキャプチャする例示的な仮想カメラを示す図である。

【図2B】少なくとも１つの実施例による、シーン中のポイント上に、ポイントによって仮想カメラのほうへ反射される光を照らす光源を示す図である。

【図2C】少なくとも１つの実施例による、シーン中のポイント上に、ポイントによって仮想カメラのほうへ反射される光を照らす最終可視性レイを示す図である。

【図3】少なくとも１つの実施例による、図１のコンピューティング・システムによって実施され得る方法の流れ図である。

【図4】少なくとも１つの実施例による、シーンの２つの連続フレームと、フレーム中の３つのピクセルのために作成された対応するリザーバとを示す図である。

【図5】少なくとも１つの実施例による、コンピューティング・システムが図３の方法を実施するときに実施され得る方法の流れ図である。

【図6】少なくとも１つの実施例による、図３の方法によって作り出された実験出力を示す図である。

【図7】少なくとも１つの実施例による、例示的なデータ・センタを示す図である。

【図8】少なくとも１つの実施例による、処理システムを示す図である。

【図9】少なくとも１つの実施例による、コンピュータ・システムを示す図である。

【図10】少なくとも１つの実施例による、システムを示す図である。

【図11】少なくとも１つの実施例による、例示的な集積回路を示す図である。

【図12】少なくとも１つの実施例による、コンピューティング・システムを示す図である。

【図13】少なくとも１つの実施例による、ＡＰＵを示す図である。

【図14】少なくとも１つの実施例による、ＣＰＵを示す図である。

【図15】少なくとも１つの実施例による、例示的なアクセラレータ統合スライス（ａｃｃｅｌｅｒａｔｏｒｉｎｔｅｇｒａｔｉｏｎｓｌｉｃｅ）を示す図である。

【図16A】少なくとも１つの実施例による、例示的なグラフィックス・プロセッサを示す図である。

【図16B】少なくとも１つの実施例による、例示的なグラフィックス・プロセッサを示す図である。

【図17A】少なくとも１つの実施例による、グラフィックス・コアを示す図である。

【図17B】少なくとも１つの実施例による、ＧＰＧＰＵを示す図である。

【図18A】少なくとも１つの実施例による、並列プロセッサを示す図である。

【図18B】少なくとも１つの実施例による、処理クラスタを示す図である。

【図18C】少なくとも１つの実施例による、グラフィックス・マルチプロセッサを示す図である。

【図19】少なくとも１つの実施例による、グラフィックス・プロセッサを示す図である。

【図20】少なくとも１つの実施例による、プロセッサを示す図である。

【図21】少なくとも１つの実施例による、プロセッサを示す図である。

【図22】少なくとも１つの実施例による、グラフィックス・プロセッサ・コアを示す図である。

【図23】少なくとも１つの実施例による、ＰＰＵを示す図である。

【図24】少なくとも１つの実施例による、ＧＰＣを示す図である。

【図25】少なくとも１つの実施例による、ストリーミング・マルチプロセッサを示す図である。

【図26】少なくとも１つの実施例による、プログラミング・プラットフォームのソフトウェア・スタックを示す図である。

【図27】少なくとも１つの実施例による、図２６のソフトウェア・スタックのＣＵＤＡ実装形態を示す図である。

【図28】少なくとも１つの実施例による、図２６のソフトウェア・スタックのＲＯＣｍ実装形態を示す図である。

【図29】少なくとも１つの実施例による、図２６のソフトウェア・スタックのＯｐｅｎＣＬ実装形態を示す図である。

【図30】少なくとも１つの実施例による、プログラミング・プラットフォームによってサポートされるソフトウェアを示す図である。

【図31】少なくとも１つの実施例による、図２６～図２９のプログラミング・プラットフォーム上で実行するためのコードをコンパイルすることを示す図である。

【図32】少なくとも１つの実施例による、図２６～図２９のプログラミング・プラットフォーム上で実行するためのコードをコンパイルすることをより詳細に示す図である。

【図33】少なくとも１つの実施例による、ソース・コードをコンパイルするより前にソース・コードをトランスレートすることを示す図である。

【図34A】少なくとも１つの実施例による、異なるタイプの処理ユニットを使用してＣＵＤＡソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。

【図34B】少なくとも１つの実施例による、ＣＰＵ及びＣＵＤＡ対応ＧＰＵを使用して、図３４ＡのＣＵＤＡソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。

【図34C】少なくとも１つの実施例による、ＣＰＵ及びＣＵＤＡ非対応（ｎｏｎ－ＣＵＤＡ－ｅｎａｂｌｅｄ）ＧＰＵを使用して、図３４ＡのＣＵＤＡソース・コードをコンパイル及び実行するように構成されたシステムを示す図である。

【図35】少なくとも１つの実施例による、図３４ＣのＣＵＤＡからＨＩＰへのトランスレーション・ツール（ＣＵＤＡ－ｔｏ－ＨＩＰｔｒａｎｓｌａｔｉｏｎｔｏｏｌ）によってトランスレートされた例示的なカーネルを示す図である。

【図36】少なくとも１つの実施例による、図３４ＣのＣＵＤＡ非対応ＧＰＵをより詳細に示す図である。

【図37】少なくとも１つの実施例による、例示的なＣＵＤＡグリッドのスレッドが図３６の異なるコンピュート・ユニットにどのようにマッピングされるかを示す図である。

【図38】少なくとも１つの実施例による、既存のＣＵＤＡコードをＤａｔａＰａｒａｌｌｅｌＣ＋＋コードにどのようにマイグレートするかを示す図である。

【発明を実施するための形態】

【0005】

図１は、コンピューティング・デバイス１０２の、又はコンピューティング・デバイス１０２によってアクセス可能な、メモリ１０６に記憶されたコンピュータ実行可能命令１０４を実行するコンピューティング・デバイス１０２を含む、システム１００の一実例を示す。少なくとも１つの実施例では、コンピュータ実行可能命令１０４のうちの少なくともいくつかは、１つ又は複数の非一時的コンピュータ可読媒体に記憶され得る。コンピューティング・デバイス１０２によって実行されたとき、コンピュータ実行可能命令１０４は、コンピューティング・デバイス１０２に、以下で説明される動作を実施させる。コンピュータ実行可能命令１０４は、３次元（「３Ｄ」）ジオメトリ・モジュール１０８と、画像レンダリング・モジュール１１０とを含み得る。メモリ１０６は、画像レンダリング・モジュール１１０によって使用される、「リザーバ」１１２と呼ばれる複数のデータ構造をも記憶し得る。少なくとも１つの実施例では、コンピューティング・デバイス１０２は、（たとえば、ネットワーク１３０を介して）外部コンピュータ・デバイス１２０と通信し得る。

【0006】

少なくとも１つの実施例では、コンピューティング・デバイス１０２は、データ（たとえば、ネットワークを介して受信されるデータ）のストリームを処理することと、そのデータを１つ又は複数の他のプロセッサ（たとえば、限定はしないが、たとえば、ＧＰＵのメモリ）に直接ダイレクトすることとを行うために最適化されたデータ処理ユニット（「ＤＰＵ」：ｄａｔａｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を含み得る。１つ又は複数の実施例では、ＤＰＵは、ネットワーク・インターフェース・デバイスと統合され得る。

【0007】

コンピューティング・デバイス１０２によって実行されたとき、３Ｄジオメトリ・モジュール１０８は、画像レンダリング・モジュール１１０がシーンの１つ又は複数の画像又はフレームをレンダリングするために必要な情報を取得するために使用され得る。たとえば、３Ｄジオメトリ・モジュール１０８は、人工３Ｄジオメトリを生成するために使用され得る。そのような実施例では、３Ｄジオメトリ・モジュール１０８は、人工３Ｄジオメトリを照明するための１つ又は複数の人工光源を指定するために使用され得る。別の非限定的な実例として、３Ｄジオメトリ・モジュール１０８は、１つ又は複数の画像、ビデオ・セグメントなどから、現実世界３Ｄジオメトリを抽出し得る。そのような実施例では、３Ｄジオメトリ・モジュール１０８は、１つ又は複数の自然光源を抽出し、及び／又は１つ又は複数の人工光源を指定するために使用され得る。随意に、３Ｄジオメトリ・モジュール１０８は、現実世界３Ｄジオメトリを編集し、及び／又は現実世界３Ｄジオメトリに人工３Ｄジオメトリを追加するために使用され得る。３Ｄジオメトリ・モジュール１０８は、画像レンダリング・モジュール１１０によってレンダリングされるべき各画像又はフレームについてのカメラ位置を指定するために使用され得る。したがって、３Ｄジオメトリ・モジュール１０８は、１つ又は複数の表面、（１つ又は複数の）表面を照明するために使用されるべき１つ又は複数の現実世界及び／又は人工光源、並びに画像レンダリング・モジュール１１０によってレンダリングされるべき各フレームについてのカメラ位置を含む、現実世界及び／又は人工３Ｄジオメトリを出力し得る。非限定的な実例として、図２Ａ～図２Ｃは、３Ｄジオメトリ・モジュール１０８を使用して作成された例示的なシーン２００を示す。シーン２００は、第１のオブジェクト２０３の表面２０２と、第２のオブジェクト２０４と、１つ又は複数の光源２０６とを含む。（１つ又は複数の）光源２０６のうちの１つ又は複数は、シーン２００の外側に配置され得るが、シーン２００に光を照らし得る。示されている実例では、（１つ又は複数の）光源２０６は、光源２０６Ａ～２０６Ｃを含む。図２Ａを参照すると、カメラ２０８（たとえば、仮想カメラ）は、シーン２００の少なくとも１つの画像又はフレーム２２０をキャプチャするために、シーン２００に対して配置される。少なくとも１つの実施例では、カメラ２０８は、一連のフレームを含むシーン２００のビデオ・セグメントをキャプチャする。

【0008】

図１を参照すると、コンピューティング・デバイス１０２によって実行されたとき、画像レンダリング・モジュール１１０は、カメラ２０８（図２Ａ～図２Ｃ参照）によってキャプチャされた（１つ又は複数の）フレームをレンダリングする。たとえば、画像レンダリング・モジュール１１０は、レイ・トレーシング又は代替レンダリング技法を実装し得る。図２Ａを参照すると、レイ・トレーシングは、シーン２００を通る光のレイをトレースし、カメラ２０８に可視であるオブジェクト（たとえば、第１のオブジェクト２０３及び第２のオブジェクト２０４）とのそれらの相互作用をシミュレートする。画像レンダリング・モジュール１１０（図１参照）は、複数の（たとえば、潜在的に何百万もの）光源から発生する光をレンダリングするためにレイ・トレーシングにおいて使用される、リザーバ・ベース空間時間的重要度リサンプリング（「ＲｅＳＴＩＲ」：Ｒｅｓｅｒｖｏｉｒ－ｂａｓｅｄＳｐａｔｉｏ－ＴｅｍｐｏｒａｌＩｍｐｏｒｔａｎｃｅＲｅｓａｍｐｌｉｎｇ）法に対する改善を実装し得る。コンピューティング・デバイス１０２（図１参照）によって実行されたとき、画像レンダリング・モジュール１１０は、フレーム２２０の各ピクセルについて、そのピクセルを通したカメラ２０８のロケーションからのカメラ・レイ又は１次レイを生成する。たとえば、図２Ａでは、フレーム２２０のピクセル２２２を通ってカメラ２０８のロケーションから進む１次レイ２１０が示されている。次いで、画像レンダリング・モジュール１１０は、もしあれば、１次レイ２１０によって交差されるカメラ２０８に最も近い表面を識別する。図２Ａに示されている実例では、表面２０２上のポイント２１２が、１次レイ２１０によって当たられるか又は交差され、この交差ポイント２１２は、カメラ２０８に対する１次レイ２１０の最も近い交差である。画像レンダリング・モジュール１１０は、シーン２００中のオブジェクトの少なくともサブセットとの交差について、どれがカメラ２０８に最も近く、したがって、カメラ２０８に可視であるかを決定するために、１次レイ２１０をテストし得る。

【0009】

最も近いオブジェクト（たとえば、表面２０２）が識別された後に、画像レンダリング・モジュール１１０は、交差のポイント２１２における反射された放射輝度を推定し得る。（１つ又は複数の）光源２０６のうちの１つ又は複数は、ポイント２１２が、反射された放射輝度として反射する光を、ポイント２１２上に直接照らし得る。たとえば、図２Ｂを参照すると、ポイント２３２が、矢印Ａ１によって識別された入射方向に沿ってポイント２１２上に光を直接照らす。追加及び／又は代替として、シーン２００中の他の表面が、（１つ又は複数の）光源２０６のうちの１つ又は複数からの光をポイント２１２上に反射し得る。たとえば、ポイント２３４が、矢印Ａ２によって識別された入射方向に沿ってポイント２１２上に、反射された光を直接照らす。しかし、光がどのくらい反射されるかと、（１つ又は複数の）光源２０６の放射輝度とに応じて、ポイント２３２からよりもはるかに少ない光が、ポイント２３４からポイント２１２によって受け取られ得る。したがって、ポイント２３４からの光は、ポイント２１２の反射された放射輝度に対してごくわずかな影響しか有しないことがある。

【0010】

以下の式１は、様々な（１つ又は複数の）光源の個々の寄与を一緒に加算することによって、変数

【数1】

によって表される出射方向（たとえば、出射方向２１４）におけるポイント２１２における直接照明による、変数Ｌによって表される反射された放射輝度を決定するために使用され得る。

【数2】

【0011】

式１は、シーン２００中の（変数Ａによって表される）すべての光放出表面にわたってとられた積分を含む。式１において、変数ｘは、ポイント２１２上に光を照らす、シーン中のポイント（たとえば、ポイント２３２）を表し、変数ｙは、ポイント２１２を表す。表現Ｌ_ｅ（ｘ→ｙ）は、変数ｘによって表されるポイントから、（変数ｙによって表される）ポイント２１２に到達する光の量である。表現Ｌ_ｅ（ｘ→ｙ）は、放射表面から受け取られた光を表すものとして特徴づけられ得る。表現Ｖ（ｘ←→ｙ）は、変数ｘによって表されるポイントと変数ｙによって表されるポイントとの間の相互可視性である。表現Ｇ（ｘ←→ｙ）は、ジオメトリを表し、逆２乗距離とコサイン項とを含み得る。表現

【数3】

は、（変数ｘによって表されるポイントから、変数ｙによって表されるポイント２１２に進む）光の特定のレイが特定の角度において反射（又は散乱）されることになる確率を決定する双方向散乱分布関数（「ＢＳＤＦ」：ｂｉｄｉｒｅｃｔｉｏｎａｌｓｃａｔｔｅｒｉｎｇｄｉｓｔｒｉｂｕｔｉｏｎｆｕｎｃｔｉｏｎ）である。

【0012】

式１は、差分面積ｄＡ_ｘがｄｘとして表現される、式２として簡略化され得る。
Ｌ＝∫_Ａｆ（ｘ）ｄｘ、式２

【数4】

【0013】

式２の値は、積分を近似するためにサンプリングを使用することによって推定され得る。モンテ・カルロ重要度サンプリングなど、１つ又は複数のランダム・サンプリング法が、確率分布関数（「ＰＤＦ」：ｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｆｕｎｃｔｉｏｎ）を使用して、（変数ｙによって表される）ポイント２１２上に光を潜在的に照らす（変数ｘ_ｉによって表される）Ｎ個のサンプル・ロケーションを選択するために使用され得る。たとえば、（１つ又は複数の）ランダム・サンプリング法は、ＰＤＦを使用してレイ方向を選択し得、それは、各々、次いで、初期可視性レイの交差ポイントを見つけるために使用され、初期可視性レイは、ポイント２１２から、選択された方向において進み、シーン２００中の（たとえば、光源２０６Ａの）表面と交差する。いずれの場合も、（変数ｘ_ｉによって表される）サンプル・ロケーションの各々は、潜在的光源又は光サンプルであるものとして特徴づけられ得、関数ｆ（ｘ）は、変数

【数5】

によって表される出射方向（たとえば、出射方向２１４）における（変数ｙによって表される）ポイント２１２における反射された放射輝度への潜在的光源の寄与を決定するものとして特徴づけられ得る。（変数ｘ_ｉによって表される）光サンプルの数Ｎは、ポイント２１２におけるマテリアル（ｍａｔｅｒｉａｌ）に少なくとも部分的に基づいて決定され得る。

【0014】

図２Ｂを参照すると、ＲｅＳＴＩＲ法は、３つの主要な段階を有する。第１の段階において、ＲｅＳＴＩＲ法は、フレーム２２０の各ピクセルについて初期光サンプルのセットを生成するために、（１つ又は複数の）ランダム・サンプリング法を使用する。たとえば、図２Ｂでは、ＲｅＳＴＩＲ法はポイント２１２について初期光サンプルのセット２４０を生成し、それらの光サンプルは、矢印Ａ１～Ａ４によって識別された方向に沿ってポイント２１２上に光を潜在的に直接照らしている。図２Ｂに示されているように、矢印Ａ１及びＡ４によって識別された方向に沿ってポイント２１２上に光を直接照らす初期光サンプルは、それぞれ、光源２０６Ａ及び２０６Ｂにおいて発生する。しかし、矢印Ａ２によって識別された方向に沿ってポイント２１２上に光を直接照らす初期光サンプルは、第２のオブジェクト２０４と交差し、これは、ポイント２１２上に光を反射し得、したがって、光源のように働き得る。矢印Ａ３によって識別された方向に沿ってポイント２１２上に光を直接照らす初期光サンプルは、シーン中の別のオブジェクトと交差しないが、シーン２００の外側の光源から光を提供し得る。したがって、初期光サンプルのうちの少なくともいくつかは、異なる光源に対応し得る。さらに、初期光サンプルのうちのいくつかは、初期光サンプルの他のものよりも、ポイント２１２の周囲の領域に、より多くの光を提供する。

【0015】

モンテ・カルロ重要度サンプリングが使用されるとき、（変数ｘ_ｉによって表される）初期光サンプルの各々の光寄与が、関数ｆ（ｘ_ｉ）の値を、ＰＤＦにおける初期光サンプルの確率と初期光サンプルの数Ｎの両方で除算することによって計算され得る。代替的に、多重重要度サンプリングが使用されて、式１における個々の表現（たとえば、ＢＳＤＦ、放射表面Ｌ_ｅなど）に比例する多重サンプリング・ストラテジーを使用して（変数ｘ_ｉによって表される）初期光サンプルを生成し、初期光サンプルの各々の光寄与を計算し得る。また別の非限定的な実例として、リサンプリングされる重要度サンプリングが使用されて、（変数ｘ_ｉによって表される）初期光サンプルを生成し、初期光サンプルの各々の光寄与を計算し得る。リサンプリングされる重要度サンプリングは、ある分布からサンプルのセットを選択し、次いで、それらの重み付けされたサブセットを、組み込まれている関数ｆ（ｘ_ｉ）により良く一致する別の分布を使用して選択する技法である。

【0016】

複数のリザーバ１１２（図１参照）は、各ピクセルについて、異なる対応するリザーバを含む。第２の段階において、ＲｅＳＴＩＲ法は、各ピクセルについて、関連する光サンプルを取得し、そのピクセルに対応するリザーバに、関連する光サンプルを記憶する。第２の段階において、ＲｅＳＴＩＲ法は、初期光サンプルのうちのどれが各表面について関連するかを「学習する」ために、スクリーン空間において時間及び／又は空間リサンプリングを適用し、各ピクセルについて、そのピクセルに対応するリザーバに、関連する光サンプルを記憶する。特定のピクセルについて、ＲｅＳＴＩＲ法は、空間的に（同じフレームにおいて）及び／又は時間的に（たとえば、過去のフレームにおいて）特定のピクセルに近い他のピクセルに関連付けられたリザーバからの情報を活用し得る。たとえば、図２Ｃを参照すると、ＲｅＳＴＩＲ法は、矢印Ａ１及びＡ４によって識別された方向に沿ってポイント２１２上に光を直接照らす光サンプルが、出射方向２１４におけるポイント２１２についての関連する光サンプルのセット２５０であると決定し得る。活用される情報は、フレーム２２０をレンダリングするために使用されるサンプリング確率を通知する統計値を含み得る（図２Ａ及び図２Ｂ参照）。たとえば、リサンプリングされる重要度サンプリングが使用されるとき、リザーバ１１２は、関連する光サンプルと、それらの関連付けられた重みとを記憶し得る。関連する光サンプルを選択するとき、ＲｅＳＴＩＲ法は、各特定のピクセルについて、いくつかの隣接ピクセルを選択し得る。次いで、ＲｅＳＴＩＲ法は、隣接ピクセルについて取得されたリザーバを、特定のピクセルについて取得されたリザーバと組み合わせ得、これは、追加算出時間がほとんどなしに、ピクセルごとのより大きい数のサンプルを生じる。次いで、ＲｅＳＴＩＲ法は、特定のピクセルについて、（たとえば、リサンプリングされる重要度サンプリングを使用して）この組み合わせられたサンプル・プールから１つ又は複数の関連する光サンプルを選択し得る。したがって、隣接ピクセルについて計算された関連付けられた重みは、特定のピクセルのために使用され得る。ＲｅＳＴＩＲ法の第２の部分は繰り返され得、繰返しの結果は組み合わせられ得る。さらに、第２の部分の結果は、結果を反復的に改善するために、第２の部分の別の反復のための入力として使用され得る。

【0017】

最終的に、第３の段階において、ＲｅＳＴＩＲ法は、第２の部分において選択された関連する光サンプルを使用して、可視表面に陰影を付ける。言い換えれば、第３の段階において、ＲｅＳＴＩＲ法は、各関連する光サンプルについて少なくとも１つの最終可視性レイを生成し、可視表面に光及び／又は影を適用するために（１つ又は複数の）最終可視性レイを使用する。図２Ｃでは、最終可視性レイは、矢印Ａ１及びＡ４によって示されている。

【0018】

カメラ２０８に可視である、シーン２００中の各表面上の各ポイント（たとえば、表面２０２上のポイント２１２）について、ＲｅＳＴＩＲ法は、出射方向（たとえば、カメラ２０８に向かう出射方向２１４）において外側に向かって照らしているポイント（たとえば、ポイント２１２）における反射された放射輝度を決定する。図２Ｂでは、出射方向２１４において照らす推定された反射された放射輝度は、フレーム２２０のピクセル２２２を通過し、フレーム２２０をレンダリングするとき、ピクセル２２２の放射輝度として、画像レンダリング・モジュール１１０（図１参照）によって使用され得る。

【0019】

ＲｅＳＴＩＲ法の最初の２つの段階は、（たとえば、矢印Ａ１～Ａ４によって示されている）初期可視性レイをトレースし、レンダリングされたフレーム２２０におけるノイズ及び／又はバイアスを低減するのを助け得る。これらの初期可視性レイは、ＲｅＳＴＩＲ法の第１の部分及び第２の部分において使用される初期可視性レイが、半透明ジオメトリ及び／又はアルファ・テストされたジオメトリをスキップし得、並びに／或いはシーン２００中のオブジェクトのより粗い表現を使用し得るので、最終可視性レイよりも比較的算出量的にあまりコストがかからないことがある。一方、（図２Ｃ中の矢印Ａ１及びＡ４によって示されている）最終可視性レイは、ＲｅＳＴＩＲ法の第３の段階において使用され、初期可視性レイよりも高い品質のものである必要がある。少なくとも１つの最終可視性レイは、潜在性照らされた表面を含んでいるフレーム２２０中の各ピクセルについてトレースされるべきである。しかし、残念ながら、上述のように、最終可視性レイは、初期可視性レイよりも比較的算出量的にコストがかかり得る。

【0020】

図３は、コンピューティング・デバイス１０２によって実行されたときに画像レンダリング・モジュール１１０（図１参照）によって実施される方法３００の流れ図である。方法３００は、ＲｅＳＴＩＲ法に対する改善として実装され得る。方法３００は、空間的に（同じフレームにおいて）及び／又は時間的に（たとえば、過去のフレームにおいて）、選択されたピクセル（たとえば、ピクセル２２２）に近い他のピクセルについて生成された最終可視性レイを再使用することによって、（たとえば、ＲｅＳＴＩＲ法の第３の部分において）トレースされた最終可視性レイの数を低減する。第１のブロック３０２において、コンピューティング・デバイス１０２（図１参照）は、シーン２００（図２Ａ～図２Ｃ参照）を図示する３Ｄジオメトリを、（たとえば、図１に示されている３Ｄジオメトリ・モジュール１０８から）受信する。次いで、画像レンダリング・モジュール１１０は、ブロック３０４において、コンピューティング・デバイス１０２にフレームを識別させる。ブロック３０６において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２にピクセル（たとえば、ピクセル２２２）を選択させ、選択されたピクセルについてリザーバ４００（図４参照）を作成する。図４は、リザーバ１１２（図１参照）のうちの１つであるリザーバ４００のブロック図を示す。図３を参照すると、説明の目的で、方法３００は、フレーム内のピクセルを１つずつ処理するものとして説明されることになるが、少なくとも１つの実施例では、ピクセルの少なくとも一部分が並列に処理され得る。

【0021】

次に、ブロック３０８において、図２Ａを参照すると、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２（図１参照）に、ブロック３０６（図３参照）において選択されたピクセル（たとえば、ピクセル２２２）について、１次レイ（たとえば、１次レイ２１０）を生成させ、シーン２００中の表面（たとえば、表面２０２）との交差ポイント（たとえば、ポイント２１２）を識別する。

【0022】

ブロック３１０において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に初期光サンプルを生成させる。次いで、ブロック３１２において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２（図１参照）に、ブロック３１０において選択された初期光サンプルのうちの１つ又は複数を、関連する光サンプル４０２（図４参照）として選択させる。図４を参照すると、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２（図１参照）に、任意の関係する統計情報４０４（図４参照）とともに、（１つ又は複数の）関連する光サンプル４０２をリザーバ４００（図４参照）に記憶させる。統計情報４０４は、（１つ又は複数の）関連する光サンプル４０２の各々に関連付けられた重みを含み得る。（１つ又は複数の）関連する光サンプル４０２は、選択されたピクセルについてトレースされた各最終可視性レイを生成するために使用され得る。

【0023】

判定ブロック３１４（図３参照）において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２（図１参照）に、選択されたピクセルに空間的に及び／又は時間的に隣接するピクセルについて、少なくとも１つのリザーバが存在するかどうかを判定させる。たとえば、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、同じフレーム２２０における選択されたピクセルに隣接するピクセルについて、リザーバが作成されたかどうかを決定させ得る。別の非限定的な実例として、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、選択されたピクセルと同じ交差ポイント（たとえば、ポイント２１２）を含む前のフレームにおける隣接ピクセルについて、リザーバが作成されたかどうかを決定させ得る。連続フレームを通してポイントを追跡する任意の方法が、（１つ又は複数の）隣接ピクセルを識別するために使用され得、そのような方法は、よく知られており、詳細に説明されない。たとえば、動きベクトルが、隣り合うフレームのペアについて決定され得る。動きベクトルは、現在フレーム中のポイント２１２を、前のフレーム中の推定された前の位置に投影するために使用され得る。次いで、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、表面２０２及び／又はポイント２１２について、推定された前の位置を含む（たとえば、その位置を中心とする）前のフレーム中のエリアを探索させ得る。したがって、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、フレームを通して表面２０２及び／又はポイント２１２を追跡するために、動きベクトルを使用させ得る。

【0024】

図４を参照すると、リザーバ４００は、フレーム２２０のピクセル２２２に対応する。したがって、リザーバ４００は、シーン２００中の交差ポイント２１２にも対応する。交差ポイント２１２は、後続のフレームにおいて、異なるピクセルにおいて現れ得る。たとえば、後続の画像又はフレーム４２０において、交差ポイント２１２（図２Ａ～図２Ｃ参照）は、ピクセル４２２に（たとえば、２ピクセル右に）移動した。言い換えれば、交差ポイント２１２は、第１のフレーム２２０における第１のピクセル２２２において、及び後続の第２のフレーム４２０における第２のピクセル４２２において現れる。したがって、判定ブロック３１４において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、もしあれば、前のフレーム中の、もしあれば、どの（１つ又は複数の）ピクセルが、選択されたピクセルに対応するかを決定させ得る。

【0025】

図３を参照すると、判定ブロック３１４における判定は、画像レンダリング・モジュール１１０が、コンピューティング・デバイス１０２に、各々リザーバを有する１つ又は複数の隣接ピクセルを識別させるとき、「はい」である。他の場合、判定ブロック３１４における判定は、「いいえ」である。判定ブロック３１４における判定が、「はい」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、方法５００（図５参照）を実施させる。一方、判定ブロック３１４における判定が、「いいえ」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック３１６に進ませる。

【0026】

ブロック３１６において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック３１２において選択された（１つ又は複数の）関連する光サンプルの各々について、最終可視性レイをトレースさせる。次いで、ブロック３１８において、トレースされた各最終可視性レイについて、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、１つ又は複数の可視性パラメータ４１０（図４参照）と、（１つ又は複数の）可視性パラメータ４１０のエイジを示すエイジ値４１２（図４参照）と、（１つ又は複数の）可視性パラメータ４１０が、隣接ピクセルに関連付けられたリザーバから取得されるときに、選択されたピクセルと隣接ピクセルとの間の距離を示す距離値４１４（図４参照）とを、（たとえば、選択されたピクセルに対応するリザーバ４００に）記憶させる。（１つ又は複数の）可視性パラメータ４１０が、時間的に及び／又は空間的に隣接するピクセルに関連付けられたリザーバから取得されなかったので、エイジ値４１２及び距離値４１４は、各々、０に設定される。（１つ又は複数の）可視性パラメータ４１０は、関連する光サンプルによる特定のピクセルへの反射された放射輝度寄与（たとえば、特定のピクセル上に照らされる光又は落とされる影の量）を決定するのに十分な情報を示す及び／又は提供する。したがって、各リザーバは、各関連する光サンプルについて（１つ又は複数の）可視性パラメータを記憶し得る。たとえば、（１つ又は複数の）可視性パラメータ４１０は、ピクセル２２２に適用されるべき陰影又は光の量を示し得る。別の非限定的な実例として、（１つ又は複数の）可視性パラメータ４１０は、ピクセル２２２に適用されるべき色を示し得る。（１つ又は複数の）可視性パラメータ４１０は、３×６ビット・カラーなど、コンパクトなフォーマットにおいて記憶され得る。非限定的な実例として、（１つ又は複数の）可視性パラメータ４１０は、ブール、スカラー、多成分（たとえば、３成分）色などとして記憶され得る。たとえば、（１つ又は複数の）可視性パラメータ４１０がブール値を含むとき、ブール値は、関連する光サンプルが可視であるか否かを示し得る。（１つ又は複数の）可視性パラメータ４１０がスカラー値を含むとき、スカラー値は、グレースケール・フレームにおいて、関連する光サンプルによって生成された単色光の量を示し得る。（１つ又は複数の）可視性パラメータ４１０が多成分値（たとえば、ＲＧＢ値）を含むとき、多成分値は、（たとえば、光が着色ガラスを通過するときの）関連する光サンプルの色を示し得る。別の非限定的な実例として、エイジ値４１２は、フレームの数を示し得る。また別の非限定的な実例として、距離値４１４は、２成分整数ベクトルとして記憶され得る。

【0027】

次に、ブロック３２０において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック３１８において記憶された又は方法５００によって決定された（１つ又は複数の）可視性パラメータ４１０を使用して、選択されたピクセル（たとえば、ピクセル２２２）に陰影を付けさせる。以下で説明されるように、方法５００は、ブロック５１８又はブロック５２０において、（１つ又は複数の）可視性パラメータ４１０を決定し得る。

【0028】

次いで、判定ブロック３２２において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、（１つ又は複数の）可視性パラメータ４１０が、フレーム２２０中のピクセルのすべてについて決定され、それらの対応するリザーバに記憶されたかどうかを判定させる。判定ブロック３２２における判定は、（１つ又は複数の）可視性パラメータがピクセルのすべてについて決定されたとき、「はい」である。他の場合、判定ブロック３２２における判定は、「いいえ」である。判定ブロック３２２における判定が、「いいえ」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック３０６に戻らせ、ここで、コンピューティング・デバイス１０２は、別のピクセルを選択し、ブロック３０８において、そのピクセルのための１次レイを生成する。判定ブロック３２２における判定が、「はい」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、判定ブロック３２４に進ませる。

【0029】

判定ブロック３２４において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、（１つ又は複数の）可視性パラメータ４１０がフレームのすべてについて決定されたかどうかを判定させる。判定ブロック３２４における判定は、（１つ又は複数の）可視性パラメータ４１０がフレームのすべてについて決定されたとき、「はい」である。他の場合、判定ブロック３２４における判定は、「いいえ」である。判定ブロック３２４における判定が「いいえ」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック３０４に戻らせ、そこで、コンピューティング・デバイス１０２は、別のフレーム（たとえば、図４に示されているフレーム４２０）を識別する。一方、判定ブロック３２４における判定が、「はい」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、新しい３Ｄジオメトリを受信するためにブロック３０２に戻らせる。

【0030】

図５は、コンピューティング・デバイス１０２（図１参照）によって実行されたときに画像レンダリング・モジュール１１０（図１参照）によって実施される方法５００の流れ図である。方法５００は、判定ブロック３１４（図３参照）における判定が「はい」であるとき、実施され、これは、コンピューティング・デバイス１０２が、ブロック３０６（図３参照）において選択されたピクセルに隣接するピクセルについて、少なくとも１つのリザーバが空間的に及び／又は時間的に存在すると決定したことを意味する。方法５００は、表面上に落とされる陰影又は影が、やや静的である傾向があり、フレーム間で及び／又は同じフレーム中の空間的に隣接するピクセル間で著しく変化しない傾向があるという直観を使用する。たとえば、図４を参照すると、方法５００（図５参照）は、選択されたピクセルがフレーム４２０中のピクセル４２２であるとき、実施され得る。ピクセル４２２は、同じフレーム４２０中の空間的に隣接するピクセル４３２を有し、リザーバ４３４は、方法３００（図３参照）によって、ピクセル４３２について作成された。ピクセル４２２はまた、前のフレーム２２０中のピクセル２２２に対応する。したがって、ピクセル２２２は、ピクセル４２２の時間的に隣接するピクセルである。さらに、ピクセル２２２は、ピクセル４２２とは異なるピクセル・ロケーション中にあるので、ピクセル２２２は、ピクセル４２２の空間的に隣接するピクセルでもある。リザーバ４００は、ピクセル２２２について作成され、リザーバ４２４が、ブロック３０６において、ピクセル４２２について作成された（図３参照）。

【0031】

第１のブロック５０２において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、隣接ピクセルについて取得されたリザーバに記憶された（１つ又は複数の）関連する光サンプル４０２を、選択されたピクセル（たとえば、ピクセル４２２）について取得されたリザーバに記憶された（１つ又は複数の）関連する光サンプル４０２と組み合わせさせる。これは、追加算出時間がほとんどなしに、より大きい数のサンプルを含む組み合わせられた関連する光サンプルを作成する。画像レンダリング・モジュール１１０はまた、コンピューティング・デバイス１０２に、隣接ピクセルについて取得されたリザーバに記憶された統計情報４０４を、選択されたピクセルについて取得されたリザーバに記憶された統計情報４０４と組み合わせさせ得る。したがって、隣接ピクセルについて計算された統計情報４０４（たとえば、関連付けられた重み）は、選択されたピクセルのために使用され得る。

【0032】

次いで、ブロック５０４において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５０２において取得された組み合わせられた関連する光サンプルから、１つ又は複数の最終の関連する光サンプルを（たとえば、リサンプリングされる重要度サンプリングを使用して）選択することと、選択されたピクセルに対応するリザーバ中の（１つ又は複数の）関連する光サンプル４０２を、（１つ又は複数の）最終の関連する光サンプルと置き換えることとを行わせる。

【0033】

ブロック５０６において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、選択されたピクセルに隣接する隣接ピクセルのうちの１つを選択させ、選択された隣接ピクセルに関連付けられたリザーバから、（１つ又は複数の）可視性パラメータ４１０と、エイジ値４１２と、距離値４１４とを取得する。たとえば、ピクセル２２２が、ブロック５０６において、選択された隣接ピクセルとして選択され得、（１つ又は複数の）可視性パラメータ４１０、エイジ値４１２、及び距離値４１４が、リザーバ４００から取得され得る。別の非限定的な実例として、ピクセル４３２が、ブロック５０６において、選択された隣接ピクセルとして選択され得、（１つ又は複数の）可視性パラメータ４１０、エイジ値４１２、及び距離値４１４が、リザーバ４３４から取得され得る。コンピューティング・デバイス１０２は、ブロック５０６において、（１つ又は複数の）隣接ピクセルのうちの１つを選択するための任意の基準を使用し得る。たとえば、コンピューティング・デバイス１０２は、スクリーン空間において、選択されたピクセルに最も近い隣接ピクセルを選択し得る。別の非限定的な実例として、コンピューティング・デバイス１０２は、隣接ピクセルのうちの２つ又はそれ以上から取得された（１つ又は複数の）可視性パラメータ４１０を組み合わせ（たとえば、平均化し）、ブロック５０６において、（１つ又は複数の）組み合わせられた可視性パラメータを選択し得る。そのような実施例では、隣接ピクセルのリザーバ中の最も大きいエイジ値及び最も大きい距離値が、ブロック５０６において選択され得る。

【0034】

次いで、判定ブロック５０８において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、エイジ値４１２が、ブロック５０６において選択された（１つ又は複数の）可視性パラメータ４１０があまりに古いことを示すかどうかを決定させる。たとえば、判定ブロック５０８において、コンピューティング・デバイス１０２は、ブロック５０６において取得されたエイジ値４１２（図４参照）を、エイジしきい値と比較し得る。判定ブロック５０８における判定は、エイジ値４１２が、ブロック５０６において選択された（１つ又は複数の）可視性パラメータ４１０があまりに古いことを示すとき、「はい」である。他の場合、判定ブロック５０８における判定は、「いいえ」である。たとえば、判定ブロック５０８における判定は、エイジ値４１２がエイジしきい値よりも大きいとき、「はい」であり得、判定ブロック５０８における判定は、エイジ値４１２がエイジしきい値以下であるとき、「いいえ」であり得る。判定ブロック５０８における判定が、「いいえ」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、判定ブロック５１０に進ませる。一方、判定ブロック５０８における判定が、「はい」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５１６に進ませる。

【0035】

判定ブロック５１０において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、距離値４１４が、ブロック５０６において選択された（１つ又は複数の）可視性パラメータ４１０が、選択されたピクセルからあまりに遠く離れて作成されたことを示すかどうかを決定させる。たとえば、判定ブロック５１０において、コンピューティング・デバイス１０２は、ブロック５０６において取得された距離値４１４（図４参照）を、距離しきい値と比較し得る。判定ブロック５１０における判定は、ブロック５０６において選択された（１つ又は複数の）可視性パラメータ４１０が、選択されたピクセルからあまりに遠く離れて作成されたとき、「はい」である。他の場合、判定ブロック５１０における判定は、「いいえ」である。たとえば、判定ブロック５１０における判定は、距離値４１４が距離しきい値よりも大きいとき、「はい」であり得、判定ブロック５１０における判定は、距離値４１４が距離しきい値以下であるとき、「いいえ」であり得る。判定ブロック５１０における判定が、「はい」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５１６に進ませる。

【0036】

ブロック５１６及び５１８は、ブロック３１６及び３１８（図３参照）と実質的に同等である。ブロック５１６において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５０４において選択され、選択されたピクセル（たとえば、ピクセル４２２）に関連付けられたリザーバ（たとえば、リザーバ４２４）に、（１つ又は複数の）関連する光サンプル４０２として記憶された（１つ又は複数の）最終の関連する光サンプルの各々について、最終可視性レイをトレースさせる。次いで、ブロック５１８において、ブロック５１６においてトレースされた各最終可視性レイについて、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、（１つ又は複数の）可視性パラメータ４１０（図４参照）と、エイジ値４１２（図４参照）と、距離値４１４（図４参照）とを、（たとえば、選択されたピクセル４２２に対応するリザーバ４２４に）記憶させる。（１つ又は複数の）可視性パラメータは、作成されたばかりなので、エイジ値及び距離値は、各々、０に設定される。次いで、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、方法３００のブロック３２０（図３参照）に進むことと、ブロック５１８において記憶された（１つ又は複数の）可視性パラメータ４１０を使用して、選択されたピクセル（たとえば、ピクセル４２２）に陰影を付けることとを行わせる。

【0037】

判定ブロック５１０における判定が、「いいえ」であるとき、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５２０に進ませる。ブロック５２０において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５０６において取得された（１つ又は複数の）可視性パラメータ４１０（図４参照）を、リザーバ４２４（図４参照）の（１つ又は複数の）可視性パラメータ４１０として使用させる。たとえば、隣接ピクセルのリザーバは、リザーバ４２４として使用され得る。代替的に、ブロック５０６において取得された（１つ又は複数の）可視性パラメータ４１０は、リザーバ４２４（図４参照）にコピーされ得る。また別の非限定的な実例として、隣接ピクセルのリザーバの（１つ又は複数の）可視性パラメータ４１０へのリンク（たとえば、ポインタ）が、リザーバ４２４に入れられ得る。

【0038】

次いで、ブロック５２２において、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、エイジ値４１２（図４参照）及び／又は距離値４１４（図４参照）を決定させる。エイジ値４１２及び距離値４１４は、それぞれ、時間的に（たとえば、フレーム単位で測定される）及び空間的に（たとえば、スクリーン空間のピクセルなどの単位で測定される）、選択されたピクセルが、（１つ又は複数の）可視性パラメータ４１０（図４参照）がそれについて最初に作成されたピクセルから、どのくらい遠いかを示す。たとえば、図４を参照すると、ピクセル４２２は、ピクセル２２２の２ピクセル右にある。したがって、フレーム４２０がフレーム２２０の直後に発生し、この移動が動きベクトルに起因しない場合、リザーバ４２４のエイジ値４１２は、１フレームとリザーバ４００によって記憶されたエイジ値４１２との和に等しくなり得、リザーバ４２４の距離値４１４は、２ピクセルとリザーバ４００によって記憶された距離値４１４との和に等しくなり得る。上述のように、動きベクトルは、現在フレーム４２０中のポイント２１２を、前のフレーム２２０中の推定された前の位置に投影するために使用され得る。非限定的な実例として、距離値４１４は、動きベクトルに起因する移動と、前のフレーム２２０中のピクセル２２２の位置から減算された、現在フレーム４２０中の選択されたピクセル４２２の位置との和であり得る。したがって、ピクセル２２２が、ピクセル４２２から２０４ピクセル離れているが、動きベクトルが、フレーム４２０とフレーム２２０との間の２００ピクセルの移動を占める場合、距離値４１４は、わずか４ピクセルだけ増加されることになる。一方、選択されたピクセル４２２と同じフレーム４２０中の隣接ピクセル４３２に関連付けられたリザーバ４３４が使用される場合、距離値４１４は、現在フレーム４２０中の選択された隣接ピクセル４３２の位置から、現在フレーム４２０中の選択されたピクセル４２２の位置を減算することによって決定され得る。エイジ値４１２及び／又は距離値４１４を決定した後に、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、方法３００のブロック３２０（図３参照）に進むことと、ブロック５２０における選択されたピクセルに関連付けられた（たとえば、選択されたピクセルのリザーバ４２４に記憶された）（１つ又は複数の）可視性パラメータ４１０を使用して、選択されたピクセル（たとえば、ピクセル４２２）に陰影を付けることとを行わせる。

【0039】

方法５００は、選択されたピクセル（たとえば、ピクセル４２２）について、選択されたピクセル４２２に時間的に及び／又は空間的に隣接するピクセルのリザーバに記憶された（１つ又は複数の）可視性パラメータ４１０（図４参照）を使用すべきかどうかを決定する。たとえば、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、ブロック５０６において取得された（１つ又は複数の）可視性パラメータ４１０を使用すべきかどうかを決定するために、エイジしきい値及び距離しきい値を使用させ得る。非限定的な実例として、エイジしきい値は８フレームであり得、距離しきい値は１６ピクセルであり得る。エイジしきい値も距離しきい値も超えられない場合、コンピューティング・デバイス１０２は、選択されたピクセル４２２についてブロック５０６において取得された（１つ又は複数の）可視性パラメータ４１０を使用し得、リザーバ４２４に記憶されたエイジ値４１２及び距離値４１４を更新することになる。リザーバ４００は、再使用されたものとして特徴づけられ得、次に、選択されたピクセル４２２に関連付けられる。エイジ値４１２及び距離値４１４は、この再使用チェーンの長さを追跡する。一方、エイジしきい値又は距離しきい値のいずれかが超えられる場合、ブロック５１６において、コンピューティング・デバイス１０２は、ポイント２１２から、リザーバ４２４に記憶された（１つ又は複数の）関連する光サンプル４０２の各々まで、新しい最終可視性レイをトレースし、ブロック５１８において、生成された（１つ又は複数の）可視性パラメータ４１０をリザーバ４２４に記憶し、ブロック５１８において、エイジ値４１２及び距離値４１４を０に設定する。言い換えれば、リザーバ４００は、それが、あまりに古いか、又は選択されたピクセル４２２からあまりに遠く離れて作成された、のいずれかであるので、もはや隣接していると見なされない。

【0040】

画像レンダリング・モジュール１１０が、コンピューティング・デバイス１０２に、選択されたピクセル４２２の時間近傍における特定のリザーバによって記憶された（１つ又は複数の）可視性パラメータ４１０を使用させるときはいつでも、画像レンダリング・モジュール１１０は、コンピューティング・デバイス１０２に、リザーバ４２４のエイジ値４１２及び距離値４１４を更新させる。リザーバ４２４のエイジ値４１２は、選択されたピクセル４２２と隣接ピクセル２２２との間のフレーム単位の距離だけ増加される。距離値４１４は、選択されたピクセル４２２のスクリーン・ロケーションと隣接ピクセル２２２のスクリーン・ロケーションとの間の距離－動きベクトルに起因する移動だけ増加される。画像レンダリング・モジュール１１０が、コンピューティング・デバイス１０２に、特定のピクセル４２２の空間近傍における特定のリザーバによって記憶された（１つ又は複数の）可視性パラメータ４１０を使用させるときはいつでも、リザーバ４２４のエイジ値４１２は不変のままであり、リザーバ４２４の距離値４１４は更新される。

【0041】

エイジしきい値及び距離しきい値は、性能と画像品質との間のトレードオフを制御するものとして特徴づけられ得る。図６は、図３の方法３００によって作り出された実験出力を示す。図６を参照すると、実験は、ＲｅＳＴＩＲ法が、約０．９５レイ毎ピクセル（「ｒｐｐ」：ｒａｙｓｐｅｒｐｉｘｅｌ）を約０．９９ｒｐｐまでトレースすることを示した。フレーム６１０及び６１２は、これらの実験によって作り出された。フレーム６１０は、０．９５ｒｐｐをトレースするためのＲｅＳＴＩＲ法を使用して作成されたレンダリングされたフレームを図示する。ＲｅＳＴＩＲ法は、繰り返し実施され、各繰返しが、異なるレンダリングされたフレームを作り出し得る。次いで、レンダリングされたフレームは、得られたフレームを作り出すために、累積され、組み合わせられ（たとえば、平均化され）得る。フレーム６１２は、０．９５ｒｐｐをトレースするためのＲｅＳＴＩＲ法を使用して各々作成された１０００個超のレンダリングされたフレームを累積し、組み合わせることによって作成された、そのような得られたフレームである。

【0042】

さらなる実験は、方法３００（図３参照）が、エイジしきい値が８フレームであり、距離しきい値が１６ピクセルであるとき、画像品質の小さい知覚される低減を伴って、約０．３ｒｐｐをトレースすることを示した。たとえば、影のうちのいくつかは、ややより明るく見え得る。フレーム６２０及び６２２は、これらの実験によって作り出された。フレーム６２０は、０．３ｒｐｐをトレースするための方法３００を使用して作成されたレンダリングされたフレームを図示する。方法３００（図３参照）は、繰り返し実施され、各繰返しが、異なるレンダリングされたフレームを作り出し得る。次いで、レンダリングされたフレームは、得られたフレームを作り出すために、累積され、組み合わせられ（たとえば、平均化され）得る。フレーム６２２は、０．３ｒｐｐをトレースするための方法３００を使用して各々作成された１０００個超のレンダリングされたフレームを累積し、組み合わせることによって作成された、そのような得られたフレームである。

【0043】

追加の実験は、方法３００が、エイジしきい値がなくされ（又は極めて大きい値に設定され）、距離しきい値が２４ピクセルであるとき、約０．１ｒｐｐをトレースし、影のうちのいくつかが著しくよりぼやけて見えることを示した。フレーム６３０及び６３２は、これらの実験によって作り出された。フレーム６３０は、０．１ｒｐｐをトレースするための方法３００を使用して作成されたレンダリングされたフレームを図示する。フレーム６３２は、０．１ｒｐｐをトレースするための方法３００を使用して各々作成された１０００個超のレンダリングされたフレームを累積し、組み合わせることによって作成された、得られたフレームである。

【0044】

ピクセルごとにトレースされる最終可視性レイの数を低減することによって、方法３００（図３参照）は、シーン２００（図２Ａ～図２Ｃ参照）の画像をレンダリングするために必要とされる時間及び／又はコンピュータ・リソースの量を低減し得る。しかし、ピクセルごとにトレースされる最終可視性レイの数を低減することは、得られた画像品質を低減し得る。したがって、エイジしきい値及び距離しきい値は、所望の画像品質とともにコンピュート時間の所望の量を達成するように調整され得る。少なくとも１つの実施例では、フレームをレンダリングするために必要とされる時間の量は、リアルタイム・レイ・トレーシングを可能にするために十分に低減され得る。

【0045】

以下の説明では、少なくとも１つの実施例のより完全な理解を提供するために、多数の具体的な詳細が記載される。ただし、発明概念はこれらの具体的な詳細のうちの１つ又は複数なしに実施され得ることが当業者には明らかであろう。

【0046】

データ・センタ
図７は、少なくとも１つの実施例による、例示的なデータ・センタ７００を示す。少なくとも１つの実施例では、データ・センタ７００は、限定はしないが、データ・センタ・インフラストラクチャ層７１０と、フレームワーク層７２０と、ソフトウェア層７３０と、アプリケーション層７４０とを含む。

【0047】

少なくとも１つの実施例では、図７に示されているように、データ・センタ・インフラストラクチャ層７１０は、リソース・オーケストレータ７１２と、グループ化されたコンピューティング・リソース７１４と、ノード・コンピューティング・リソース（「ノードＣ．Ｒ．」：ｎｏｄｅｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅ）７１６（１）～７１６（Ｎ）とを含み得、ここで、「Ｎ」は、任意のすべての正の整数を表す。少なくとも１つの実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）は、限定はしないが、任意の数の中央処理ユニット（「ＣＰＵ」：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）又は（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（「ＦＰＧＡ」：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ネットワーク・デバイス中のデータ処理ユニット（「ＤＰＵ」）、グラフィックス・プロセッサなどを含む）他のプロセッサ、メモリ・デバイス（たとえば、動的読取り専用メモリ）、ストレージ・デバイス（たとえば、ソリッド・ステート又はディスク・ドライブ）、ネットワーク入力／出力（「ＮＷＩ／Ｏ」：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）、電力モジュール、及び冷却モジュールなどを含み得る。少なくとも１つの実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）の中からの１つ又は複数のノードＣ．Ｒ．は、上述のコンピューティング・リソースのうちの１つ又は複数を有するサーバであり得る。

【0048】

少なくとも１つの実施例では、グループ化されたコンピューティング・リソース７１４は、１つ又は複数のラック（図示せず）内に格納されたノードＣ．Ｒ．の別個のグループ化、又は様々な地理的ロケーション（同じく図示せず）においてデータ・センタ中に格納された多くのラックを含み得る。グループ化されたコンピューティング・リソース７１４内のノードＣ．Ｒ．の別個のグループ化は、１つ又は複数のワークロードをサポートするように構成されるか又は割り振られ得る、グループ化されたコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含み得る。少なくとも１つの実施例では、ＣＰＵ又はプロセッサを含むいくつかのノードＣ．Ｒ．は、１つ又は複数のワークロードをサポートするためのコンピュート・リソースを提供するために１つ又は複数のラック内でグループ化され得る。少なくとも１つの実施例では、１つ又は複数のラックはまた、任意の数の電力モジュール、冷却モジュール、及びネットワーク・スイッチを、任意の組合せで含み得る。

【0049】

少なくとも１つの実施例では、リソース・オーケストレータ７１２は、１つ又は複数のノードＣ．Ｒ．７１６（１）～７１６（Ｎ）及び／又はグループ化されたコンピューティング・リソース７１４を構成するか、又はさもなければ、制御し得る。少なくとも１つの実施例では、リソース・オーケストレータ７１２は、データ・センタ７００のためのソフトウェア設計インフラストラクチャ（「ＳＤＩ」：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティを含み得る。少なくとも１つの実施例では、リソース・オーケストレータ７１２は、ハードウェア、ソフトウェア又はそれらの何らかの組合せを含み得る。

【0050】

少なくとも１つの実施例では、図７に示されているように、フレームワーク層７２０は、限定はしないが、ジョブ・スケジューラ７３２と、構成マネージャ７３４と、リソース・マネージャ７３６と、分散型ファイル・システム７３８とを含む。少なくとも１つの実施例では、フレームワーク層７２０は、ソフトウェア層７３０のソフトウェア７５２、及び／又はアプリケーション層７４０の１つ又は複数のアプリケーション７４２をサポートするためのフレームワークを含み得る。少なくとも１つの実施例では、ソフトウェア７５２又は（１つ又は複数の）アプリケーション７４２は、それぞれ、アマゾン・ウェブ・サービス、ＧｏｏｇｌｅＣｌｏｕｄ、及びＭｉｃｒｏｓｏｆｔＡｚｕｒｅによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含み得る。少なくとも１つの実施例では、フレームワーク層７２０は、限定はしないが、大規模データ処理（たとえば、「ビック・データ」）のために分散型ファイル・システム７３８を利用し得るＡｐａｃｈｅＳｐａｒｋ（商標）（以下「Ｓｐａｒｋ」）など、無料でオープンソースのソフトウェア・ウェブ・アプリケーション・フレームワークのタイプであり得る。少なくとも１つの実施例では、ジョブ・スケジューラ７３２は、データ・センタ７００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含み得る。少なくとも１つの実施例では、構成マネージャ７３４は、ソフトウェア層７３０、並びに大規模データ処理をサポートするためのＳｐａｒｋ及び分散型ファイル・システム７３８を含むフレームワーク層７２０など、異なる層を構成することが可能であり得る。少なくとも１つの実施例では、リソース・マネージャ７３６は、分散型ファイル・システム７３８及びジョブ・スケジューラ７３２をサポートするようにマッピングされたか又は割り振られた、クラスタ化された又はグループ化されたコンピューティング・リソースを管理することが可能であり得る。少なくとも１つの実施例では、クラスタ化された又はグループ化されたコンピューティング・リソースは、データ・センタ・インフラストラクチャ層７１０において、グループ化されたコンピューティング・リソース７１４を含み得る。少なくとも１つの実施例では、リソース・マネージャ７３６は、リソース・オーケストレータ７１２と協調して、これらのマッピングされた又は割り振られたコンピューティング・リソースを管理し得る。

【0051】

少なくとも１つの実施例では、ソフトウェア層７３０中に含まれるソフトウェア７５２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化されたコンピューティング・リソース７１４、及び／又はフレームワーク層７２０の分散型ファイル・システム７３８の少なくとも部分によって使用されるソフトウェアを含み得る。１つ又は複数のタイプのソフトウェアは、限定はしないが、インターネット・ウェブ・ページ検索ソフトウェアと、電子メール・ウイルス・スキャン・ソフトウェアと、データベース・ソフトウェアと、ストリーミング・ビデオ・コンテンツ・ソフトウェアとを含み得る。

【0052】

少なくとも１つの実施例では、アプリケーション層７４０中に含まれる（１つ又は複数の）アプリケーション７４２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化されたコンピューティング・リソース７１４、及び／又はフレームワーク層７２０の分散型ファイル・システム７３８の少なくとも部分によって使用される１つ又は複数のタイプのアプリケーションを含み得る。少なくとも１つ又は複数のタイプのアプリケーションでは、限定はしないが、ＣＵＤＡアプリケーションを含み得る。

【0053】

少なくとも１つの実施例では、構成マネージャ７３４、リソース・マネージャ７３６、及びリソース・オーケストレータ７１２のいずれかが、任意の技術的に実現可能な様式で獲得された任意の量及びタイプのデータに基づいて、任意の数及びタイプの自己修正アクションを実装し得る。少なくとも１つの実施例では、自己修正アクションは、データ・センタ７００のデータ・センタ・オペレータを、不良の恐れのある構成を判定し、十分に利用されていない及び／又は性能の低いデータ・センタの部分を場合によっては回避することから解放し得る。

【0054】

少なくとも１つの実施例では、データ・センタ７００は、システム１００（図１参照）を実装するために使用され得る。たとえば、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０は、グループ化されたコンピューティング・リソース７１４又はノードＣ．Ｒ．のうちの１つ又は複数によって実装され得る。７１６（１）～７１６（Ｎ）及び（１つ又は複数の）そのようなデバイスは、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0055】

コンピュータ・ベースのシステム
以下の図は、限定はしないが、少なくとも１つの実施例を実装するために使用され得る、例示的なコンピュータ・ベースのシステムを記載する。

【0056】

図８は、少なくとも１つの実施例による、処理システム８００を示す。少なくとも１つの実施例では、処理システム８００は、１つ又は複数のプロセッサ８０２と１つ又は複数のグラフィックス・プロセッサ８０８とを含み、単一プロセッサ・デスクトップ・システム、マルチプロセッサ・ワークステーション・システム、或いは多数のプロセッサ８０２又はプロセッサ・コア８０７を有するサーバ・システムであり得る。少なくとも１つの実施例では、処理システム８００は、モバイル・デバイス、ハンドヘルド・デバイス、又は組み込みデバイスにおいて使用するためのシステム・オン・チップ（「ＳｏＣ」：ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）集積回路内に組み込まれた処理プラットフォームである。

【0057】

少なくとも１つの実施例では、処理システム８００は、サーバ・ベースのゲーミング・プラットフォーム、ゲーム・コンソール、メディア・コンソール、モバイル・ゲーミング・コンソール、ハンドヘルド・ゲーム・コンソール、又はオンライン・ゲーム・コンソールを含むことができるか、或いはそれらの内部に組み込まれ得る。少なくとも１つの実施例では、処理システム８００は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス又はモバイル・インターネット・デバイスである。少なくとも１つの実施例では、処理システム８００はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、又は仮想現実デバイスなどのウェアラブル・デバイスを含むことができるか、それらと結合することができるか、又はそれらの内部に組み込まれ得る。少なくとも１つの実施例では、処理システム８００は、１つ又は複数のプロセッサ８０２と、１つ又は複数のグラフィックス・プロセッサ８０８によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。

【0058】

少なくとも１つの実施例では、１つ又は複数のプロセッサ８０２は、各々、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実施する命令を処理するための１つ又は複数のプロセッサ・コア８０７を含む。少なくとも１つの実施例では、１つ又は複数のプロセッサ・コア８０７の各々は、特定の命令セット８０９を処理するように構成される。少なくとも１つの実施例では、命令セット８０９は、複合命令セット・コンピューティング（「ＣＩＳＣ」：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）、縮小命令セット・コンピューティング（「ＲＩＳＣ」：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）、又は超長命令語（「ＶＬＩＷ」：ＶｅｒｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ）を介したコンピューティングを容易にし得る。少なくとも１つの実施例では、プロセッサ・コア８０７は、各々、異なる命令セット８０９を処理し得、命令セット８０９は、他の命令セットのエミュレーションを容易にするための命令を含み得る。少なくとも１つの実施例では、プロセッサ・コア８０７はまた、デジタル信号プロセッサ（「ＤＳＰ」：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）などの他の処理デバイスを含み得る。

【0059】

少なくとも１つの実施例では、プロセッサ８０２はキャッシュ・メモリ（「キャッシュ」）８０４を含む。少なくとも１つの実施例では、プロセッサ８０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。少なくとも１つの実施例では、キャッシュ・メモリは、プロセッサ８０２の様々な構成要素の間で共有される。少なくとも１つの実施例では、プロセッサ８０２はまた、外部キャッシュ（たとえば、レベル３（「Ｌ３」）キャッシュ又はラスト・レベル・キャッシュ（「ＬＬＣ」：ＬａｓｔＬｅｖｅｌＣａｃｈｅ））（図示せず）を使用し、外部キャッシュは、知られているキャッシュ・コヒーレンシ技法を使用してプロセッサ・コア８０７の間で共有され得る。少なくとも１つの実施例では、追加として、レジスタ・ファイル８０６がプロセッサ８０２中に含まれ、レジスタ・ファイル８０６は、異なるタイプのデータを記憶するための異なるタイプのレジスタ（たとえば、整数レジスタ、浮動小数点レジスタ、ステータス・レジスタ、及び命令ポインタ・レジスタ）を含み得る。少なくとも１つの実施例では、レジスタ・ファイル８０６は、汎用レジスタ又は他のレジスタを含み得る。

【0060】

少なくとも１つの実施例では、１つ又は複数のプロセッサ８０２は、アドレス、データ、又は制御信号などの通信信号を、プロセッサ８０２と処理システム８００中の他の構成要素との間で送信するために、１つ又は複数のインターフェース・バス８１０と結合される。少なくとも１つの実施例では、１つの実施例におけるインターフェース・バス８１０は、ダイレクト・メディア・インターフェース（「ＤＭＩ」：ＤｉｒｅｃｔＭｅｄｉａＩｎｔｅｒｆａｃｅ）バスのバージョンなどのプロセッサ・バスであり得る。少なくとも１つの実施例では、インターフェース・バス８１０は、ＤＭＩバスに限定されず、１つ又は複数の周辺構成要素相互接続バス（たとえば、「ＰＣＩ」：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、ＰＣＩＥｘｐｒｅｓｓ（「ＰＣＩｅ」））、メモリ・バス、又は他のタイプのインターフェース・バスを含み得る。少なくとも１つの実施例では、（１つ又は複数の）プロセッサ８０２は、統合されたメモリ・コントローラ８１６と、プラットフォーム・コントローラ・ハブ８３０とを含む。少なくとも１つの実施例では、メモリ・コントローラ８１６は、メモリ・デバイスと処理システム８００の他の構成要素との間の通信を容易にし、プラットフォーム・コントローラ・ハブ（「ＰＣＨ」：ｐｌａｔｆｏｒｍｃｏｎｔｒｏｌｌｅｒｈｕｂ）８３０は、ローカル入力／出力（「Ｉ／Ｏ」：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）バスを介してＩ／Ｏデバイスへの接続を提供する。

【0061】

少なくとも１つの実施例では、メモリ・デバイス８２０は、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」：ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）デバイス、スタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセッサ・メモリとして働くのに好適な性能を有する何らかの他のメモリ・デバイスであり得る。少なくとも１つの実施例では、メモリ・デバイス８２０は、１つ又は複数のプロセッサ８０２がアプリケーション又はプロセスを実行するときの使用のためのデータ８２２及び命令８２１を記憶するために、処理システム８００のためのシステム・メモリとして動作することができる。少なくとも１つの実施例では、メモリ・コントローラ８１６はまた、随意の外部グラフィックス・プロセッサ８１２と結合し、外部グラフィックス・プロセッサ８１２は、グラフィックス動作及びメディア動作を実施するために、プロセッサ８０２中の１つ又は複数のグラフィックス・プロセッサ８０８と通信し得る。少なくとも１つの実施例では、ディスプレイ・デバイス８１１は、（１つ又は複数の）プロセッサ８０２に接続することができる。少なくとも１つの実施例では、ディスプレイ・デバイス８１１は、モバイル電子デバイス又はラップトップ・デバイスの場合のような内部ディスプレイ・デバイス、或いは、ディスプレイ・インターフェース（たとえば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられた外部ディスプレイ・デバイスのうちの１つ又は複数を含むことができる。少なくとも１つの実施例では、ディスプレイ・デバイス８１１は、仮想現実（「ＶＲ」：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）アプリケーション又は拡張現実（「ＡＲ」：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）アプリケーションにおいて使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ（「ＨＭＤ」：ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ）を含むことができる。

【0062】

少なくとも１つの実施例では、プラットフォーム・コントローラ・ハブ８３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリ・デバイス８２０及びプロセッサ８０２に接続することを可能にする。少なくとも１つの実施例では、Ｉ／Ｏ周辺機器は、限定はしないが、オーディオ・コントローラ８４６と、ネットワーク・コントローラ８３４と、ファームウェア・インターフェース８２８と、ワイヤレス・トランシーバ８２６と、タッチ・センサ８２５と、データ・ストレージ・デバイス８２４（たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど）とを含む。少なくとも１つの実施例では、データ・ストレージ・デバイス８２４は、ストレージ・インターフェース（たとえば、ＳＡＴＡ）を介して、或いはＰＣＩ又はＰＣＩｅなどの周辺バスを介して、接続することができる。少なくとも１つの実施例では、タッチ・センサ８２５は、タッチ・スクリーン・センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも１つの実施例では、ワイヤレス・トランシーバ８２６は、Ｗｉ－Ｆｉトランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、或いは３Ｇ、４Ｇ、又はロング・ターム・エボリューション（「ＬＴＥ」：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）トランシーバなどのモバイル・ネットワーク・トランシーバであり得る。少なくとも１つの実施例では、ファームウェア・インターフェース８２８は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（「ＵＥＦＩ」：ｕｎｉｆｉｅｄｅｘｔｅｎｓｉｂｌｅｆｉｒｍｗａｒｅｉｎｔｅｒｆａｃｅ）であり得る。少なくとも１つの実施例では、ネットワーク・コントローラ８３４は、ワイヤード・ネットワークへのネットワーク接続を可能にすることができる。少なくとも１つの実施例では、高性能ネットワーク・コントローラ（図示せず）は、インターフェース・バス８１０と結合する。少なくとも１つの実施例では、オーディオ・コントローラ８４６は、マルチチャネル高精細度オーディオ・コントローラである。少なくとも１つの実施例では、処理システム８００は、レガシー（たとえば、パーソナル・システム２（「ＰＳ／２」：ＰｅｒｓｏｎａｌＳｙｓｔｅｍ２））デバイスを処理システム８００に結合するための随意のレガシーＩ／Ｏコントローラ８４０を含む。少なくとも１つの実施例では、プラットフォーム・コントローラ・ハブ８３０は、キーボードとマウス８４３との組合せ、カメラ８４４、又は他のＵＳＢ入力デバイスなど、１つ又は複数のユニバーサル・シリアル・バス（「ＵＳＢ」：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）コントローラ８４２接続入力デバイスにも接続することができる。

【0063】

少なくとも１つの実施例では、メモリ・コントローラ８１６及びプラットフォーム・コントローラ・ハブ８３０のインスタンスが、外部グラフィックス・プロセッサ８１２などの慎重な外部グラフィックス・プロセッサに組み込まれ得る。少なくとも１つの実施例では、プラットフォーム・コントローラ・ハブ８３０及び／又はメモリ・コントローラ８１６は、１つ又は複数のプロセッサ８０２の外部にあり得る。たとえば、少なくとも１つの実施例では、処理システム８００は、外部のメモリ・コントローラ８１６とプラットフォーム・コントローラ・ハブ８３０とを含むことができ、それらは、（１つ又は複数の）プロセッサ８０２と通信しているシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺コントローラ・ハブとして構成され得る。

【0064】

少なくとも１つの実施例では、処理システム８００は、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、処理システム８００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0065】

図９は、少なくとも１つの実施例による、コンピュータ・システム９００を示す。少なくとも１つの実施例では、コンピュータ・システム９００は、相互接続されたデバイス及び構成要素をもつシステム、ＳＯＣ、又は何らかの組合せであり得る。少なくとも１つの実施例では、コンピュータ・システム９００は、命令を実行するための実行ユニットを含み得るプロセッサ９０２とともに形成される。少なくとも１つの実施例では、コンピュータ・システム９００は、限定はしないが、データを処理するためのアルゴリズムを実施するための論理を含む実行ユニットを採用するための、プロセッサ９０２などの構成要素を含み得る。少なくとも１つの実施例では、コンピュータ・システム９００は、カリフォルニア州サンタクララのＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎから入手可能なＰＥＮＴＩＵＭ（登録商標）プロセッサ・ファミリー、Ｘｅｏｎ（商標）、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅ（商標）及び／又はＳｔｒｏｎｇＡＲＭ（商標）、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、又はＩｎｔｅｌ（登録商標）Ｎｅｒｖａｎａ（商標）マイクロプロセッサなどのプロセッサを含み得るが、（他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するＰＣを含む）他のシステムも使用され得る。少なくとも１つの実施例では、コンピュータ・システム９００は、ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＷＩＮＤＯＷＳ（登録商標）のオペレーティング・システムのあるバージョンを実行し得るが、他のオペレーティング・システム（たとえば、ＵＮＩＸ（登録商標）及びＬｉｎｕｘ（登録商標））、組み込みソフトウェア、及び／又はグラフィカル・ユーザ・インターフェースも使用され得る。

【0066】

少なくとも１つの実施例では、コンピュータ・システム９００は、ハンドヘルド・デバイス及び組み込みアプリケーションなど、他のデバイスにおいて使用され得る。ハンドヘルド・デバイスのいくつかの実例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント（「ＰＤＡ」：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、及びハンドヘルドＰＣを含む。少なくとも１つの実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、ＳｏＣ、ネットワーク・コンピュータ（「ＮｅｔＰＣ」：ｎｅｔｗｏｒｋｃｏｍｐｕｔｅｒ）、セット・トップ・ボックス、ネットワーク・ハブ、ワイド・エリア・ネットワーク（「ＷＡＮ」：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）スイッチ、又は１つ又は複数の命令を実施し得る任意の他のシステムを含み得る。

【0067】

少なくとも１つの実施例では、コンピュータ・システム９００は、限定はしないが、プロセッサ９０２を含み得、プロセッサ９０２は、限定はしないが、コンピュート・ユニファイド・デバイス・アーキテクチャ（「ＣＵＤＡ」：ＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ）（ＣＵＤＡ（登録商標）は、カリフォルニア州サンタクララのＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎによって開発される）プログラムを実行するように構成され得る、１つ又は複数の実行ユニット９０８を含み得る。少なくとも１つの実施例では、ＣＵＤＡプログラムは、ＣＵＤＡプログラミング言語で書かれたソフトウェア・アプリケーションの少なくとも一部分である。少なくとも１つの実施例では、コンピュータ・システム９００は、シングル・プロセッサ・デスクトップ又はサーバ・システムである。少なくとも１つの実施例では、コンピュータ・システム９００は、マルチプロセッサ・システムであり得る。少なくとも１つの実施例では、プロセッサ９０２は、限定はしないが、ＣＩＳＣマイクロプロセッサ、ＲＩＳＣマイクロプロセッサ、ＶＬＩＷマイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は、たとえばデジタル信号プロセッサなど、任意の他のプロセッサ・デバイスを含み得る。少なくとも１つの実施例では、プロセッサ９０２は、プロセッサ・バス９１０に結合され得、プロセッサ・バス９１０は、プロセッサ９０２とコンピュータ・システム９００中の他の構成要素との間でデータ信号を送信し得る。

【0068】

少なくとも１つの実施例では、プロセッサ９０２は、限定はしないが、レベル１（「Ｌ１」）の内部キャッシュ・メモリ（「キャッシュ」）９０４を含み得る。少なくとも１つの実施例では、プロセッサ９０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有し得る。少なくとも１つの実施例では、キャッシュ・メモリは、プロセッサ９０２の外部に存在し得る。少なくとも１つの実施例では、プロセッサ９０２は、内部キャッシュと外部キャッシュの両方の組合せをも含み得る。少なくとも１つの実施例では、レジスタ・ファイル９０６は、限定はしないが、整数レジスタ、浮動小数点レジスタ、ステータス・レジスタ、及び命令ポインタ・レジスタを含む様々なレジスタに、異なるタイプのデータを記憶し得る。

【0069】

少なくとも１つの実施例では、限定はしないが、整数演算及び浮動小数点演算を実施するための論理を含む実行ユニット９０８も、プロセッサ９０２中に存在する。プロセッサ９０２は、いくつかのマクロ命令のためのマイクロコードを記憶するマイクロコード（「ｕコード」）読取り専用メモリ（「ＲＯＭ」：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）をも含み得る。少なくとも１つの実施例では、実行ユニット９０８は、パック命令セット９０９に対処するための論理を含み得る。少なくとも１つの実施例では、パック命令セット９０９を、命令を実行するための関連する回路要素とともに汎用プロセッサ９０２の命令セットに含めることによって、多くのマルチメディア・アプリケーションによって使用される演算が、汎用プロセッサ９０２中のパック・データを使用して実施され得る。少なくとも１つの実施例では、多くのマルチメディア・アプリケーションが、パック・データの演算を実施するためにプロセッサのデータ・バスの全幅を使用することによって加速され、より効率的に実行され得、これは、一度に１つのデータ要素ずつ１つ又は複数の演算を実施するために、プロセッサのデータ・バスにわたってより小さい単位のデータを転送する必要をなくし得る。

【0070】

少なくとも１つの実施例では、実行ユニット９０８はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、ＤＳＰ、及び他のタイプの論理回路において使用され得る。少なくとも１つの実施例では、コンピュータ・システム９００は、限定はしないが、メモリ９２０を含み得る。少なくとも１つの実施例では、メモリ９２０は、ＤＲＡＭデバイス、ＳＲＡＭデバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスとして実装され得る。メモリ９２０は、プロセッサ９０２によって実行され得るデータ信号によって表される（１つ又は複数の）命令９１９及び／又はデータ９２１を記憶し得る。

【0071】

少なくとも１つの実施例では、システム論理チップが、プロセッサ・バス９１０及びメモリ９２０に結合され得る。少なくとも１つの実施例では、システム論理チップは、限定はしないが、メモリ・コントローラ・ハブ（「ＭＣＨ」：ｍｅｍｏｒｙｃｏｎｔｒｏｌｌｅｒｈｕｂ）９１６を含み得、プロセッサ９０２は、プロセッサ・バス９１０を介してＭＣＨ９１６と通信し得る。少なくとも１つの実施例では、ＭＣＨ９１６は、命令及びデータ・ストレージのための、並びにグラフィックス・コマンド、データ及びテクスチャのストレージのための、高帯域幅メモリ経路９１８をメモリ９２０に提供し得る。少なくとも１つの実施例では、ＭＣＨ９１６は、プロセッサ９０２と、メモリ９２０と、コンピュータ・システム９００中の他の構成要素との間でデータ信号をダイレクトし、プロセッサ・バス９１０と、メモリ９２０と、システムＩ／Ｏ９２２との間でデータ信号をブリッジし得る。少なくとも１つの実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供し得る。少なくとも１つの実施例では、ＭＣＨ９１６は、高帯域幅メモリ経路９１８を通してメモリ９２０に結合され得、グラフィックス／ビデオ・カード９１２は、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）相互接続９１４を介してＭＣＨ９１６に結合され得る。

【0072】

少なくとも１つの実施例では、コンピュータ・システム９００は、ＭＣＨ９１６をＩ／Ｏコントローラ・ハブ（「ＩＣＨ」：Ｉ／Ｏｃｏｎｔｒｏｌｌｅｒｈｕｂ）９３０に結合するためのプロプライエタリ・ハブ・インターフェース・バスである、システムＩ／Ｏ９２２を使用し得る。少なくとも１つの実施例では、ＩＣＨ９３０は、ローカルＩ／Ｏバスを介していくつかのＩ／Ｏデバイスに直接接続を提供し得る。少なくとも１つの実施例では、ローカルＩ／Ｏバスは、限定はしないが、周辺機器をメモリ９２０、チップセット、及びプロセッサ９０２に接続するための高速Ｉ／Ｏバスを含み得る。実例は、限定はしないが、オーディオ・コントローラ９２９と、ファームウェア・ハブ（「フラッシュＢＩＯＳ」）９２８と、ワイヤレス・トランシーバ９２６と、データ・ストレージ９２４と、ユーザ入力インターフェース９２５及びキーボード・インターフェースを含んでいるレガシーＩ／Ｏコントローラ９２３と、ＵＳＢなどのシリアル拡張ポート９２７と、ネットワーク・コントローラ９３４とを含み得る。データ・ストレージ９２４は、ハード・ディスク・ドライブ、フロッピー・ディスク・ドライブ、ＣＤ－ＲＯＭデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備え得る。

【0073】

少なくとも１つの実施例では、図９は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示す。少なくとも１つの実施例では、図９は、例示的なＳｏＣを示し得る。少なくとも１つの実施例では、図９に示されているデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はそれらの何らかの組合せで相互接続され得る。少なくとも１つの実施例では、システム９００の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（「ＣＸＬ」：ｃｏｍｐｕｔｅｅｘｐｒｅｓｓｌｉｎｋ）相互接続を使用して相互接続される。

【0074】

少なくとも１つの実施例では、コンピュータ・システム９００は、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、コンピュータ・システム９００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0075】

図１０は、少なくとも１つの実施例による、システム１０００を示す。少なくとも１つの実施例では、システム１０００は、プロセッサ１０１０を利用する電子デバイスである。少なくとも１つの実施例では、システム１０００は、たとえば、限定はしないが、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、１つ又は複数の構内サービス・プロバイダ又はクラウド・サービス・プロバイダに通信可能に結合されたエッジ・デバイス、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、或いは任意の他の好適な電子デバイスであり得る。

【0076】

少なくとも１つの実施例では、システム１０００は、限定はしないが、任意の好適な数又は種類の構成要素、周辺機器、モジュール、又はデバイスに通信可能に結合されたプロセッサ１０１０を含み得る。少なくとも１つの実施例では、プロセッサ１０１０は、Ｉ^２Ｃバス、システム管理バス（「ＳＭＢｕｓ」：ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＢｕｓ）、ロー・ピン・カウント（「ＬＰＣ」：ＬｏｗＰｉｎＣｏｕｎｔ）バス、シリアル周辺インターフェース（「ＳＰＩ」：ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）、高精細度オーディオ（「ＨＤＡ」：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＡｕｄｉｏ）バス、シリアル・アドバンス・テクノロジー・アタッチメント（「ＳＡＴＡ」：ＳｅｒｉａｌＡｄｖａｎｃｅＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）バス、ＵＳＢ（バージョン１、２、３）、又はユニバーサル非同期受信機／送信機（「ＵＡＲＴ」：ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）バスなど、バス又はインターフェースを使用して結合される。少なくとも１つの実施例では、図１０は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示す。少なくとも１つの実施例では、図１０は、例示的なＳｏＣを示し得る。少なくとも１つの実施例では、図１０に示されているデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）又はそれらの何らかの組合せで相互接続され得る。少なくとも１つの実施例では、図１０の１つ又は複数の構成要素は、ＣＸＬ相互接続を使用して相互接続される。

【0077】

少なくとも１つの実施例では、図１０は、ディスプレイ１０２４、タッチ・スクリーン１０２５、タッチ・パッド１０３０、ニア・フィールド通信ユニット（「ＮＦＣ」：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）１０４５、センサ・ハブ１０４０、熱センサ１０４６、エクスプレス・チップセット（「ＥＣ」：ＥｘｐｒｅｓｓＣｈｉｐｓｅｔ）１０３５、トラステッド・プラットフォーム・モジュール（「ＴＰＭ」：ＴｒｕｓｔｅｄＰｌａｔｆｏｒｍＭｏｄｕｌｅ）１０３８、ＢＩＯＳ／ファームウェア／フラッシュ・メモリ（「ＢＩＯＳ、ＦＷフラッシュ」：ＢＩＯＳ／ｆｉｒｍｗａｒｅ／ｆｌａｓｈｍｅｍｏｒｙ）１０２２、ＤＳＰ１０６０、ソリッド・ステート・ディスク（「ＳＳＤ」：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）又はハード・ディスク・ドライブ（「ＨＤＤ」：ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０２０、ワイヤレス・ローカル・エリア・ネットワーク・ユニット（「ＷＬＡＮ」：ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）１０５０、Ｂｌｕｅｔｏｏｔｈユニット１０５２、ワイヤレス・ワイド・エリア・ネットワーク・ユニット（「ＷＷＡＮ」：ＷｉｒｅｌｅｓｓＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）１０５６、全地球測位システム（「ＧＰＳ」：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）１０５５、ＵＳＢ３．０カメラなどのカメラ（「ＵＳＢ３．０カメラ」）１０５４、或いは、たとえばＬＰＤＤＲ３規格において実装された低電力ダブル・データ・レート（「ＬＰＤＤＲ」：ＬｏｗＰｏｗｅｒＤｏｕｂｌｅＤａｔａＲａｔｅ）メモリ・ユニット（「ＬＰＤＤＲ３」）１０１５を含み得る。これらの構成要素は、各々、任意の好適な様式で実装され得る。

【0078】

少なくとも１つの実施例では、上記で説明された構成要素を通して、他の構成要素がプロセッサ１０１０に通信可能に結合され得る。少なくとも１つの実施例では、加速度計１０４１と、周囲光センサ（「ＡＬＳ」：ＡｍｂｉｅｎｔＬｉｇｈｔＳｅｎｓｏｒ）１０４２と、コンパス１０４３と、ジャイロスコープ１０４４とが、センサ・ハブ１０４０に通信可能に結合され得る。少なくとも１つの実施例では、熱センサ１０３９と、ファン１０３７と、キーボード１０３６と、タッチ・パッド１０３０とが、ＥＣ１０３５に通信可能に結合され得る。少なくとも１つの実施例では、スピーカー１０６３と、ヘッドフォン１０６４と、マイクロフォン（「ｍｉｃ」）１０６５とが、オーディオ・ユニット（「オーディオ・コーデック及びクラスｄアンプ」）１０６２に通信可能に結合され得、オーディオ・ユニット１０６２は、ＤＳＰ１０６０に通信可能に結合され得る。少なくとも１つの実施例では、オーディオ・ユニット１０６２は、たとえば、限定はしないが、オーディオ・コーダ／デコーダ（「コーデック」）及びクラスＤ増幅器を含み得る。少なくとも１つの実施例では、ＳＩＭカード（「ＳＩＭ」）１０５７は、ＷＷＡＮユニット１０５６に通信可能に結合され得る。少なくとも１つの実施例では、ＷＬＡＮユニット１０５０及びＢｌｕｅｔｏｏｔｈユニット１０５２などの構成要素、並びにＷＷＡＮユニット１０５６は、次世代フォーム・ファクタ（「ＮＧＦＦ」：ＮｅｘｔＧｅｎｅｒａｔｉｏｎＦｏｒｍＦａｃｔｏｒ）において実装され得る。

【0079】

少なくとも１つの実施例では、システム１０００は、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、システム１０００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0080】

図１１は、少なくとも１つの実施例による、例示的な集積回路１１００を示す。少なくとも１つの実施例では、例示的な集積回路１１００は、１つ又は複数のＩＰコアを使用して作製され得るＳｏＣである。少なくとも１つの実施例では、集積回路１１００は、１つ又は複数のアプリケーション・プロセッサ１１０５（たとえば、ＣＰＵ、ＤＰＵ）、少なくとも１つのグラフィックス・プロセッサ１１１０を含み、追加として、画像プロセッサ１１１５及び／又はビデオ・プロセッサ１１２０を含み得、それらのいずれも、モジュール式ＩＰコアであり得る。少なくとも１つの実施例では、集積回路１１００は、ＵＳＢコントローラ１１２５、ＵＡＲＴコントローラ１１３０、ＳＰＩ／ＳＤＩＯコントローラ１１３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１１４０を含む周辺機器又はバス論理を含む。少なくとも１つの実施例では、集積回路１１００は、高精細度マルチメディア・インターフェース（「ＨＤＭＩ（登録商標）」：ｈｉｇｈ－ｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ）コントローラ１１５０及びモバイル・インダストリ・プロセッサ・インターフェース（「ＭＩＰＩ」：ｍｏｂｉｌｅｉｎｄｕｓｔｒｙｐｒｏｃｅｓｓｏｒｉｎｔｅｒｆａｃｅ）ディスプレイ・インターフェース１１５５のうちの１つ又は複数に結合されたディスプレイ・デバイス１１４５を含むことができる。少なくとも１つの実施例では、フラッシュ・メモリとフラッシュ・メモリ・コントローラとを含むフラッシュ・メモリ・サブシステム１１６０によって、ストレージが提供され得る。少なくとも１つの実施例では、ＳＤＲＡＭ又はＳＲＡＭメモリ・デバイスへのアクセスのために、メモリ・コントローラ１１６５を介してメモリ・インターフェースが提供され得る。少なくとも１つの実施例では、いくつかの集積回路は、追加として、組み込みセキュリティ・エンジン１１７０を含む。

【0081】

少なくとも１つの実施例では、集積回路１１００は、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、集積回路１１００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0082】

図１２は、少なくとも１つの実施例による、コンピューティング・システム１２００を示す。少なくとも１つの実施例では、コンピューティング・システム１２００は、メモリ・ハブ１２０５を含み得る相互接続経路を介して通信する１つ又は複数のプロセッサ１２０２とシステム・メモリ１２０４とを有する処理サブシステム１２０１を含む。少なくとも１つの実施例では、メモリ・ハブ１２０５は、チップセット構成要素内の別個の構成要素であり得るか、又は１つ又は複数のプロセッサ１２０２内に組み込まれ得る。少なくとも１つの実施例では、メモリ・ハブ１２０５は、通信リンク１２０６を介してＩ／Ｏサブシステム１２１１と結合する。少なくとも１つの実施例では、Ｉ／Ｏサブシステム１２１１は、コンピューティング・システム１２００が１つ又は複数の入力デバイス１２０８からの入力を受信することを可能にすることができるＩ／Ｏハブ１２０７を含む。少なくとも１つの実施例では、Ｉ／Ｏハブ１２０７は、１つ又は複数のプロセッサ１２０２中に含まれ得るディスプレイ・コントローラが、１つ又は複数のディスプレイ・デバイス１２１０Ａに出力を提供することを可能にすることができる。少なくとも１つの実施例では、Ｉ／Ｏハブ１２０７と結合された１つ又は複数のディスプレイ・デバイス１２１０Ａは、ローカルの、内部の、又は組み込まれたディスプレイ・デバイスを含むことができる。

【0083】

少なくとも１つの実施例では、処理サブシステム１２０１は、バス又は他の通信リンク１２１３を介してメモリ・ハブ１２０５に結合された１つ又は複数の並列プロセッサ１２１２を含む。少なくとも１つの実施例では、通信リンク１２１３は、限定はしないがＰＣＩｅなど、任意の数の規格ベースの通信リンク技術又はプロトコルのうちの１つであり得るか、或いはベンダー固有の通信インターフェース又は通信ファブリックであり得る。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ１２１２は、メニー・インテグレーテッド・コア・プロセッサなど、多数の処理コア及び／又は処理クラスタを含むことができる、算出に集中した並列又はベクトル処理システムを形成する。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ１２１２は、グラフィックス処理サブシステムを形成し、グラフィックス処理サブシステムは、Ｉ／Ｏハブ１２０７を介して結合された１つ又は複数のディスプレイ・デバイス１２１０Ａのうちの１つにピクセルを出力することができる。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ１２１２はまた、ディスプレイ・コントローラと、１つ又は複数のディスプレイ・デバイス１２１０Ｂへの直接接続を可能にするためのディスプレイ・インターフェース（図示せず）とを含むことができる。

【0084】

少なくとも１つの実施例では、システム・ストレージ・ユニット１２１４は、Ｉ／Ｏハブ１２０７に接続して、コンピューティング・システム１２００のためのストレージ機構を提供することができる。少なくとも１つの実施例では、Ｉ／Ｏハブ１２０７と、プラットフォームに組み込まれ得るネットワーク・アダプタ１２１８及び／又はワイヤレス・ネットワーク・アダプタ１２１９などの他の構成要素、並びに１つ又は複数のアドイン・デバイス１２２０を介して追加され得る様々な他のデバイスとの間の接続を可能にするためのインターフェース機構を提供するために、Ｉ／Ｏスイッチ１２１６が使用され得る。少なくとも１つの実施例では、ネットワーク・アダプタ１２１８は、イーサネット・アダプタ又は別のワイヤード・ネットワーク・アダプタであり得る。少なくとも１つの実施例では、ワイヤレス・ネットワーク・アダプタ１２１９は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、ＮＦＣ、又は１つ又は複数のワイヤレス無線を含む他のネットワーク・デバイスのうちの１つ又は複数を含むことができる。

【0085】

少なくとも１つの実施例では、コンピューティング・システム１２００は、ＵＳＢ又は他のポート接続、光学ストレージ・ドライブ、ビデオ・キャプチャ・デバイスなどを含む、Ｉ／Ｏハブ１２０７にも接続され得る、明示的に示されていない他の構成要素を含むことができる。少なくとも１つの実施例では、図１２中の様々な構成要素を相互接続する通信経路が、ＰＣＩベースのプロトコル（たとえば、ＰＣＩｅ）などの任意の好適なプロトコル、或いはＮＶＬｉｎｋ高速相互接続などの他のバス又はポイントツーポイント通信インターフェース及び／又は（１つ又は複数の）プロトコル、或いは相互接続プロトコルを使用して、実装され得る。

【0086】

少なくとも１つの実施例では、１つ又は複数の並列プロセッサ１２１２は、たとえばビデオ出力回路要素を含むグラフィックス及びビデオ処理のために最適化された回路要素を組み込み、グラフィックス処理ユニット（「ＧＰＵ」：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を構成する。少なくとも１つの実施例では、１つ又は複数の並列プロセッサ１２１２は、汎用処理のために最適化された回路要素を組み込む。少なくとも実施例では、コンピューティング・システム１２００の構成要素は、単一の集積回路上の１つ又は複数の他のシステム要素と統合され得る。たとえば、少なくとも１つの実施例では、１つ又は複数の並列プロセッサ１２１２、メモリ・ハブ１２０５、（１つ又は複数の）プロセッサ１２０２、及びＩ／Ｏハブ１２０７は、ＳｏＣ集積回路に組み込まれ得る。少なくとも１つの実施例では、コンピューティング・システム１２００の構成要素は、システム・イン・パッケージ（「ＳＩＰ」：ｓｙｓｔｅｍｉｎｐａｃｋａｇｅ）構成を形成するために、単一のパッケージに組み込まれ得る。少なくとも１つの実施例では、コンピューティング・システム１２００の構成要素の少なくとも一部分は、マルチチップ・モジュール（「ＭＣＭ」：ｍｕｌｔｉ－ｃｈｉｐｍｏｄｕｌｅ）に組み込まれ得、マルチチップ・モジュールは、他のマルチチップ・モジュールと相互接続されてモジュール式コンピューティング・システムにすることができる。少なくとも１つの実施例では、Ｉ／Ｏサブシステム１２１１及びディスプレイ・デバイス１２１０Ｂは、コンピューティング・システム１２００から省略される。

【0087】

少なくとも１つの実施例では、コンピューティング・システム１２００は、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、コンピューティング・システム１２００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0088】

処理システム
以下の図は、限定はしないが、少なくとも１つの実施例を実装するために使用され得る、例示的な処理システムを記載する。

【0089】

図１３は、少なくとも１つの実施例による、加速処理ユニット（「ＡＰＵ」：ａｃｃｅｌｅｒａｔｅｄｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）１３００を示す。少なくとも１つの実施例では、ＡＰＵ１３００は、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＡＰＵ１３００は、ＣＵＤＡプログラムなど、アプリケーション・プログラムを実行するように構成され得る。少なくとも１つの実施例では、ＡＰＵ１３００は、限定はしないが、コア複合体１３１０と、グラフィックス複合体１３４０と、ファブリック１３６０と、Ｉ／Ｏインターフェース１３７０と、メモリ・コントローラ１３８０と、ディスプレイ・コントローラ１３９２と、マルチメディア・エンジン１３９４とを含む。少なくとも１つの実施例では、ＡＰＵ１３００は、限定はしないが、任意の数のコア複合体１３１０と、任意の数のグラフィックス複合体１３５０と、任意の数のディスプレイ・コントローラ１３９２と、任意の数のマルチメディア・エンジン１３９４とを、任意の組合せで含み得る。説明目的のために、同様のオブジェクトの複数のインスタンスは、オブジェクトを識別する参照番号と、必要な場合にインスタンスを識別する括弧付きの番号とともに、本明細書で示される。

【0090】

少なくとも１つの実施例では、コア複合体１３１０はＣＰＵであり、グラフィックス複合体１３４０はＧＰＵであり、ＡＰＵ１３００は、限定はしないが、単一のチップ上に１３１０及び１３４０を組み込む処理ユニットである。少なくとも１つの実施例では、いくつかのタスクは、コア複合体１３１０に割り当てられ得、他のタスクは、グラフィックス複合体１３４０に割り当てられ得る。少なくとも１つの実施例では、コア複合体１３１０は、オペレーティング・システムなど、ＡＰＵ１３００に関連するメイン制御ソフトウェアを実行するように構成される。少なくとも１つの実施例では、コア複合体１３１０は、ＡＰＵ１３００のマスタ・プロセッサであり、他のプロセッサの動作を制御し、協調させる。少なくとも１つの実施例では、コア複合体１３１０は、グラフィックス複合体１３４０の動作を制御するコマンドを発行する。少なくとも１つの実施例では、コア複合体１３１０は、ＣＵＤＡソース・コードから導出されたホスト実行可能コードを実行するように構成され得、グラフィックス複合体１３４０は、ＣＵＤＡソース・コードから導出されたデバイス実行可能コードを実行するように構成され得る。

【0091】

少なくとも１つの実施例では、コア複合体１３１０は、限定はしないが、コア１３２０（１）～１３２０（４）と、Ｌ３キャッシュ１３３０とを含む。少なくとも１つの実施例では、コア複合体１３１０は、限定はしないが、任意の数のコア１３２０と、任意の数及びタイプのキャッシュとを、任意の組合せで含み得る。少なくとも１つの実施例では、コア１３２０は、特定の命令セット・アーキテクチャ（「ＩＳＡ」：ｉｎｓｔｒｕｃｔｉｏｎｓｅｔａｒｃｈｉｔｅｃｔｕｒｅ）の命令を実行するように構成される。少なくとも１つの実施例では、各コア１３２０はＣＰＵコアである。

【0092】

少なくとも１つの実施例では、各コア１３２０は、限定はしないが、フェッチ／復号ユニット１３２２と、整数実行エンジン１３２４と、浮動小数点実行エンジン１３２６と、Ｌ２キャッシュ１３２８とを含む。少なくとも１つの実施例では、フェッチ／復号ユニット１３２２は、命令をフェッチし、そのような命令を復号し、マイクロ・オペレーションを生成し、整数実行エンジン１３２４と浮動小数点実行エンジン１３２６とに別個のマイクロ命令をディスパッチする。少なくとも１つの実施例では、フェッチ／復号ユニット１３２２は、同時に、あるマイクロ命令を整数実行エンジン１３２４にディスパッチし、別のマイクロ命令を浮動小数点実行エンジン１３２６にディスパッチすることができる。少なくとも１つの実施例では、整数実行エンジン１３２４は、限定はしないが、整数及びメモリ演算を実行する。少なくとも１つの実施例では、浮動小数点エンジン１３２６は、限定はしないが、浮動小数点及びベクトル演算を実行する。少なくとも１つの実施例では、フェッチ復号ユニット１３２２は、整数実行エンジン１３２４と浮動小数点実行エンジン１３２６の両方を置き換える単一の実行エンジンに、マイクロ命令をディスパッチする。

【0093】

少なくとも１つの実施例では、ｉがコア１３２０の特定のインスタンスを表す整数である、各コア１３２０（ｉ）は、コア１３２０（ｉ）中に含まれるＬ２キャッシュ１３２８（ｉ）にアクセスし得る。少なくとも１つの実施例では、ｊがコア複合体１３１０の特定のインスタンスを表す整数である、コア複合体１３１０（ｊ）中に含まれる各コア１３２０は、コア複合体１３１０（ｊ）中に含まれるＬ３キャッシュ１３３０（ｊ）を介して、コア複合体１３１０（ｊ）中に含まれる他のコア１３２０に接続される。少なくとも１つの実施例では、ｊがコア複合体１３１０の特定のインスタンスを表す整数である、コア複合体１３１０（ｊ）中に含まれるコア１３２０は、コア複合体１３１０（ｊ）中に含まれるＬ３キャッシュ１３３０（ｊ）のすべてにアクセスすることができる。少なくとも１つの実施例では、Ｌ３キャッシュ１３３０は、限定はしないが、任意の数のスライスを含み得る。

【0094】

少なくとも１つの実施例では、グラフィックス複合体１３４０は、高度並列様式でコンピュート動作を実施するように構成され得る。少なくとも１つの実施例では、グラフィックス複合体１３４０は、描画コマンド、ピクセル動作、幾何学的算出、及びディスプレイに画像をレンダリングすることに関連する他の動作など、グラフィックス・パイプライン動作を実行するように構成される。少なくとも１つの実施例では、グラフィックス複合体１３４０は、グラフィックに関係しない動作を実行するように構成される。少なくとも１つの実施例では、グラフィックス複合体１３４０は、グラフィックに関係する動作とグラフィックに関係しない動作の両方を実行するように構成される。

【0095】

少なくとも１つの実施例では、グラフィックス複合体１３４０は、限定はしないが、任意の数のコンピュート・ユニット１３５０と、Ｌ２キャッシュ１３４２とを含む。少なくとも１つの実施例では、コンピュート・ユニット１３５０は、Ｌ２キャッシュ１３４２を共有する。少なくとも１つの実施例では、Ｌ２キャッシュ１３４２は区分けされる。少なくとも１つの実施例では、グラフィックス複合体１３４０は、限定はしないが、任意の数のコンピュート・ユニット１３５０と、（ゼロを含む）任意の数及びタイプのキャッシュとを含む。少なくとも１つの実施例では、グラフィックス複合体１３４０は、限定はしないが、任意の量の専用グラフィックス・ハードウェアを含む。

【0096】

少なくとも１つの実施例では、各コンピュート・ユニット１３５０は、限定はしないが、任意の数のＳＩＭＤユニット１３５２と、共有メモリ１３５４とを含む。少なくとも１つの実施例では、各ＳＩＭＤユニット１３５２は、ＳＩＭＤアーキテクチャを実装し、動作を並列に実施するように構成される。少なくとも１つの実施例では、各コンピュート・ユニット１３５０は、任意の数のスレッド・ブロックを実行し得るが、各スレッド・ブロックは、単一のコンピュート・ユニット１３５０上で実行する。少なくとも１つの実施例では、スレッド・ブロックは、限定はしないが、任意の数の実行のスレッドを含む。少なくとも１つの実施例では、ワークグループは、スレッド・ブロックである。少なくとも１つの実施例では、各ＳＩＭＤユニット１３５２は、異なるワープを実行する。少なくとも１つの実施例では、ワープは、スレッドのグループ（たとえば、１６個のスレッド）であり、ここで、ワープ中の各スレッドは、単一のスレッド・ブロックに属し、命令の単一のセットに基づいて、データの異なるセットを処理するように構成される。少なくとも１つの実施例では、ワープ中の１つ又は複数のスレッドを無効にするために、プレディケーションが使用され得る。少なくとも１つの実施例では、レーンはスレッドである。少なくとも１つの実施例では、ワーク・アイテムはスレッドである。少なくとも１つの実施例では、ウェーブフロントはワープである。少なくとも１つの実施例では、スレッド・ブロック中の異なるウェーブフロントは、互いに同期し、共有メモリ１３５４を介して通信し得る。

【0097】

少なくとも１つの実施例では、ファブリック１３６０は、コア複合体１３１０、グラフィックス複合体１３４０、Ｉ／Ｏインターフェース１３７０、メモリ・コントローラ１３８０、ディスプレイ・コントローラ１３９２、及びマルチメディア・エンジン１３９４にわたるデータ及び制御送信を容易にするシステム相互接続である。少なくとも１つの実施例では、ＡＰＵ１３００は、限定はしないが、ファブリック１３６０に加えて又はそれの代わりに、任意の量及びタイプのシステム相互接続を含み得、それは、ＡＰＵ１３００の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１３７０は、任意の数及びタイプのＩ／Ｏインターフェース（たとえば、ＰＣＩ、ＰＣＩ－Ｅｘｔｅｎｄｅｄ（「ＰＣＩ－Ｘ」）、ＰＣＩｅ、ギガビット・イーサネット（「ＧＢＥ」：ｇｉｇａｂｉｔＥｔｈｅｒｎｅｔ）、ＵＳＢなど）を表す。少なくとも１つの実施例では、様々なタイプの周辺デバイスがＩ／Ｏインターフェース１３７０に結合される。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１３７０に結合される周辺デバイスは、限定はしないが、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲーム・コントローラ、メディア記録デバイス、外部ストレージ・デバイス、ネットワーク・インターフェース・カードなどを含み得る。

【0098】

少なくとも１つの実施例では、ディスプレイ・コントローラＡＭＤ９２は、液晶ディスプレイ（「ＬＣＤ」：ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）デバイスなど、１つ又は複数のディスプレイ・デバイス上に画像を表示する。少なくとも１つの実施例では、マルチメディア・エンジン１３９４は、限定はしないが、ビデオ・デコーダ、ビデオ・エンコーダ、画像信号プロセッサなど、マルチメディアに関係する任意の量及びタイプの回路要素を含む。少なくとも１つの実施例では、メモリ・コントローラ１３８０は、ＡＰＵ１３００と統一システム・メモリ１３９０との間のデータ転送を容易にする。少なくとも１つの実施例では、コア複合体１３１０とグラフィックス複合体１３４０とは、統一システム・メモリ１３９０を共有する。

【0099】

少なくとも１つの実施例では、ＡＰＵ１３００は、限定はしないが、１つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ１３８０及びメモリ・デバイス（たとえば、共有メモリ１３５４）を含む、メモリ・サブシステムを実装する。少なくとも１つの実施例では、ＡＰＵ１３００は、限定はしないが、１つ又は複数のキャッシュ・メモリ（たとえば、Ｌ２キャッシュ１４２８、Ｌ３キャッシュ１３３０、及びＬ２キャッシュ１３４２）を含む、キャッシュ・サブシステムを実装し、１つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素（たとえば、コア１３２０、コア複合体１３１０、ＳＩＭＤユニット１３５２、コンピュート・ユニット１３５０、及びグラフィックス複合体１３４０）に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。

【0100】

少なくとも１つの実施例では、ＡＰＵ１３００は、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、ＡＰＵ１３００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0101】

図１４は、少なくとも１つの実施例による、ＣＰＵ１４００を示す。少なくとも１つの実施例では、ＣＰＵ１４００は、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＣＰＵ１４００は、アプリケーション・プログラムを実行するように構成され得る。少なくとも１つの実施例では、ＣＰＵ１４００は、オペレーティング・システムなど、メイン制御ソフトウェアを実行するように構成される。少なくとも１つの実施例では、ＣＰＵ１４００は、外部ＧＰＵ（図示せず）の動作を制御するコマンドを発行する。少なくとも１つの実施例では、ＣＰＵ１４００は、ＣＵＤＡソース・コードから導出されたホスト実行可能コードを実行するように構成され得、外部ＧＰＵは、そのようなＣＵＤＡソース・コードから導出されたデバイス実行可能コードを実行するように構成され得る。少なくとも１つの実施例では、ＣＰＵ１４００は、限定はしないが、任意の数のコア複合体１４１０と、ファブリック１４６０と、Ｉ／Ｏインターフェース１４７０と、メモリ・コントローラ１４８０とを含む。

【0102】

少なくとも１つの実施例では、コア複合体１４１０は、限定はしないが、コア１４２０（１）～１４２０（４）と、Ｌ３キャッシュ１４３０とを含む。少なくとも１つの実施例では、コア複合体１４１０は、限定はしないが、任意の数のコア１４２０と、任意の数及びタイプのキャッシュとを、任意の組合せで含み得る。少なくとも１つの実施例では、コア１４２０は、特定のＩＳＡの命令を実行するように構成される。少なくとも１つの実施例では、各コア１４２０はＣＰＵコアである。

【0103】

少なくとも１つの実施例では、各コア１４２０は、限定はしないが、フェッチ／復号ユニット１４２２と、整数実行エンジン１４２４と、浮動小数点実行エンジン１４２６と、Ｌ２キャッシュ１４２８とを含む。少なくとも１つの実施例では、フェッチ／復号ユニット１４２２は、命令をフェッチし、そのような命令を復号し、マイクロ・オペレーションを生成し、整数実行エンジン１４２４と浮動小数点実行エンジン１４２６とに別個のマイクロ命令をディスパッチする。少なくとも１つの実施例では、フェッチ／復号ユニット１４２２は、同時に、あるマイクロ命令を整数実行エンジン１４２４にディスパッチし、別のマイクロ命令を浮動小数点実行エンジン１４２６にディスパッチすることができる。少なくとも１つの実施例では、整数実行エンジン１４２４は、限定はしないが、整数及びメモリ演算を実行する。少なくとも１つの実施例では、浮動小数点エンジン１４２６は、限定はしないが、浮動小数点及びベクトル演算を実行する。少なくとも１つの実施例では、フェッチ復号ユニット１４２２は、整数実行エンジン１４２４と浮動小数点実行エンジン１４２６の両方を置き換える単一の実行エンジンに、マイクロ命令をディスパッチする。

【0104】

少なくとも１つの実施例では、ｉがコア１４２０の特定のインスタンスを表す整数である、各コア１４２０（ｉ）は、コア１４２０（ｉ）中に含まれるＬ２キャッシュ１４２８（ｉ）にアクセスし得る。少なくとも１つの実施例では、ｊがコア複合体１４１０の特定のインスタンスを表す整数である、コア複合体１４１０（ｊ）中に含まれる各コア１４２０は、コア複合体１４１０（ｊ）中に含まれるＬ３キャッシュ１４３０（ｊ）を介して、コア複合体１４１０（ｊ）中の他のコア１４２０に接続される。少なくとも１つの実施例では、ｊがコア複合体１４１０の特定のインスタンスを表す整数である、コア複合体１４１０（ｊ）中に含まれるコア１４２０は、コア複合体１４１０（ｊ）中に含まれるＬ３キャッシュ１４３０（ｊ）のすべてにアクセスすることができる。少なくとも１つの実施例では、Ｌ３キャッシュ１４３０は、限定はしないが、任意の数のスライスを含み得る。

【0105】

少なくとも１つの実施例では、ファブリック１４６０は、コア複合体１４１０（１）～１４１０（Ｎ）（ここで、Ｎは０よりも大きい整数である）、Ｉ／Ｏインターフェース１４７０、及びメモリ・コントローラ１４８０にわたるデータ及び制御送信を容易にするシステム相互接続である。少なくとも１つの実施例では、ＣＰＵ１４００は、限定はしないが、ファブリック１４６０に加えて又はそれの代わりに、任意の量及びタイプのシステム相互接続を含み得、それは、ＣＰＵ１４００の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１４７０は、任意の数及びタイプのＩ／Ｏインターフェース（たとえば、ＰＣＩ、ＰＣＩ－Ｘ、ＰＣＩｅ、ＧＢＥ、ＵＳＢなど）を表す。少なくとも１つの実施例では、様々なタイプの周辺デバイスが、Ｉ／Ｏインターフェース１４７０に結合される。少なくとも１つの実施例では、Ｉ／Ｏインターフェース１４７０に結合される周辺デバイスは、限定はしないが、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲーム・コントローラ、メディア記録デバイス、外部ストレージ・デバイス、ネットワーク・インターフェース・カードなどを含み得る。

【0106】

少なくとも１つの実施例では、メモリ・コントローラ１４８０は、ＣＰＵ１４００とシステム・メモリ１４９０との間のデータ転送を容易にする。少なくとも１つの実施例では、コア複合体１４１０とグラフィックス複合体１４４０とは、システム・メモリ１４９０を共有する。少なくとも１つの実施例では、ＣＰＵ１４００は、限定はしないが、１つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ１４８０及びメモリ・デバイスを含む、メモリ・サブシステムを実装する。少なくとも１つの実施例では、ＣＰＵ１４００は、限定はしないが、１つ又は複数のキャッシュ・メモリ（たとえば、Ｌ２キャッシュ１４２８及びＬ３キャッシュ１４３０）を含む、キャッシュ・サブシステムを実装し、１つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素（たとえば、コア１４２０及びコア複合体１４１０）に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。

【0107】

少なくとも１つの実施例では、ＣＰＵ１４００は、コンピューティング・デバイス１０２（図１参照）のＣＰＵ及び／又はコンピューティング・デバイス１２０（図１参照）のＣＰＵを実装するために使用され得る。少なくとも１つの実施例では、ＣＰＵ１４００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0108】

図１５は、少なくとも１つの実施例による、例示的なアクセラレータ統合スライス１５９０を示す。本明細書で使用される「スライス」は、アクセラレータ統合回路の処理リソースの指定部分を備える。少なくとも１つの実施例では、アクセラレータ統合回路は、グラフィックス加速モジュール中に含まれる複数のグラフィックス処理エンジンの代わりに、キャッシュ管理、メモリ・アクセス、コンテキスト管理、及び割込み管理サービスを提供する。グラフィックス処理エンジンは、各々、別個のＧＰＵを備え得る。代替的に、グラフィックス処理エンジンは、ＧＰＵ内に、グラフィックス実行ユニット、メディア処理エンジン（たとえば、ビデオ・エンコーダ／デコーダ）、サンプラ、及びｂｌｉｔエンジンなど、異なるタイプのグラフィックス処理エンジンを備え得る。少なくとも１つの実施例では、グラフィックス加速モジュールは、複数のグラフィックス処理エンジンをもつＧＰＵであり得る。少なくとも１つの実施例では、グラフィックス処理エンジンは、共通のパッケージ、ライン・カード、又はチップ上に組み込まれた個々のＧＰＵであり得る。

【0109】

システム・メモリ１５１４内のアプリケーション実効アドレス空間１５８２は、プロセス要素１５８３を記憶する。一実施例では、プロセス要素１５８３は、プロセッサ１５０７上で実行されるアプリケーション１５８０からのＧＰＵ呼出し１５８１に応答して、記憶される。プロセス要素１５８３は、対応するアプリケーション１５８０のプロセス状態を含んでいる。プロセス要素１５８３に含まれているワーク記述子（「ＷＤ」：ｗｏｒｋｄｅｓｃｒｉｐｔｏｒ）１５８４は、アプリケーションによって要求される単一のジョブであり得るか、又はジョブのキューに対するポインタを含んでいることがある。少なくとも１つの実施例では、ＷＤ１５８４は、アプリケーション実効アドレス空間１５８２におけるジョブ要求キューに対するポインタである。

【0110】

グラフィックス加速モジュール１５４６及び／又は個々のグラフィックス処理エンジンは、システム中のプロセスのすべて又はサブセットによって共有され得る。少なくとも１つの実施例では、プロセス状態を設定し、ＷＤ１５８４をグラフィックス加速モジュール１５４６に送出して、仮想化環境中でジョブを開始するためのインフラストラクチャが、含められ得る。

【0111】

少なくとも１つの実施例では、専用プロセス・プログラミング・モデルは、実装固有である。このモデルでは、単一のプロセスが、グラフィックス加速モジュール１５４６又は個々のグラフィックス処理エンジンを所有する。グラフィックス加速モジュール１５４６が単一のプロセスによって所有されるので、ハイパーバイザは、所有パーティションについてアクセラレータ統合回路を初期化し、グラフィックス加速モジュール１５４６が割り当てられたとき、オペレーティング・システムは、所有プロセスについてアクセラレータ統合回路を初期化する。

【0112】

動作時、アクセラレータ統合スライス１５９０中のＷＤフェッチ・ユニット１５９１は、グラフィックス加速モジュール１５４６の１つ又は複数のグラフィックス処理エンジンによって行われるべきであるワークの指示を含む、次のＷＤ１５８４をフェッチする。示されているように、ＷＤ１５８４からのデータは、レジスタ１５４５に記憶され、メモリ管理ユニット（「ＭＭＵ」：ｍｅｍｏｒｙｍａｎａｇｅｍｅｎｔｕｎｉｔ）１５３９、割込み管理回路１５４７、及び／又はコンテキスト管理回路１５４８によって使用され得る。たとえば、ＭＭＵ１５３９の一実施例は、ＯＳ仮想アドレス空間１５８５内のセグメント／ページ・テーブル１５８６にアクセスするためのセグメント／ページ・ウォーク回路要素を含む。割込み管理回路１５４７は、グラフィックス加速モジュール１５４６から受信された割込みイベント（「ＩＮＴ」：ｉｎｔｅｒｒｕｐｔ）１５９２を処理し得る。グラフィックス動作を実施するとき、グラフィックス処理エンジンによって生成された実効アドレス１５９３は、ＭＭＵ１５３９によって実アドレスにトランスレートされる。

【0113】

一実施例では、レジスタ１５４５の同じセットが、各グラフィックス処理エンジン、及び／又はグラフィックス加速モジュール１５４６について複製され、ハイパーバイザ又はオペレーティング・システムによって初期化され得る。これらの複製されたレジスタの各々は、アクセラレータ統合スライス１５９０中に含められ得る。ハイパーバイザによって初期化され得る例示的なレジスタが、表１に示されている。

【表1】

【0114】

オペレーティング・システムによって初期化され得る例示的なレジスタが、表２に示されている。

【表2】

【0115】

一実施例では、各ＷＤ１５８４は、特定のグラフィックス加速モジュール１５４６及び／又は特定のグラフィックス処理エンジンに固有である。ＷＤ１５８４は、ワークを行うためにグラフィックス処理エンジンによって必要とされるすべての情報を含んでいるか、又は、ＷＤ１５８４は、完了されるべきワークのコマンド・キューをアプリケーションが設定したメモリ・ロケーションに対するポインタであり得る。

【0116】

少なくとも１つの実施例では、図１５に示されているシステムは、コンピューティング・デバイス１０２（図１参照）及び／又はコンピューティング・デバイス１２０（図１参照）を実装するために使用され得る。少なくとも１つの実施例では、図１５に示されているシステムは、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0117】

図１６Ａ～図１６Ｂは、少なくとも１つの実施例による、例示的なグラフィックス・プロセッサを示す。少なくとも１つの実施例では、例示的なグラフィックス・プロセッサのうちのいずれかは、１つ又は複数のＩＰコアを使用して作製され得る。示されているものに加えて、少なくとも１つの実施例では、追加のグラフィックス・プロセッサ／コア、周辺インターフェース・コントローラ、又は汎用プロセッサ・コアを含む他の論理及び回路が含まれ得る。少なくとも１つの実施例では、例示的なグラフィックス・プロセッサは、ＳｏＣ内での使用のためのものである。

【0118】

図１６Ａは、少なくとも１つの実施例による、１つ又は複数のＩＰコアを使用して作製され得るＳｏＣ集積回路の例示的なグラフィックス・プロセッサ１６１０を示す。図１６Ｂは、少なくとも１つの実施例による、１つ又は複数のＩＰコアを使用して作製され得るＳｏＣ集積回路の追加の例示的なグラフィックス・プロセッサ１６４０を示す。少なくとも１つの実施例では、図１６Ａのグラフィックス・プロセッサ１６１０は、低電力グラフィックス・プロセッサ・コアである。少なくとも１つの実施例では、図１６Ｂのグラフィックス・プロセッサ１６４０は、より高性能のグラフィックス・プロセッサ・コアである。少なくとも１つの実施例では、グラフィックス・プロセッサ１６１０、１６４０の各々は、図１１のグラフィックス・プロセッサ１１１０の変形態であり得る。

【0119】

少なくとも１つの実施例では、グラフィックス・プロセッサ１６１０は、頂点プロセッサ１６０５と、１つ又は複数のフラグメント・プロセッサ１６１５Ａ～１６１５Ｎ（たとえば、１６１５Ａ、１６１５Ｂ、１６１５Ｃ、１６１５Ｄ～１６１５Ｎ－１、及び１６１５Ｎ）とを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１６１０は、別個の論理を介して異なるシェーダ・プログラムを実行することができ、それにより、頂点プロセッサ１６０５は、頂点シェーダ・プログラムのための動作を実行するように最適化され、１つ又は複数のフラグメント・プロセッサ１６１５Ａ～１６１５Ｎは、フラグメント又はピクセル・シェーダ・プログラムのためのフラグメント（たとえば、ピクセル）シェーディング動作を実行する。少なくとも１つの実施例では、頂点プロセッサ１６０５は、３Ｄグラフィックス・パイプラインの頂点処理段階を実施し、プリミティブ及び頂点データを生成する。少なくとも１つの実施例では、（１つ又は複数の）フラグメント・プロセッサ１６１５Ａ～１６１５Ｎは、頂点プロセッサ１６０５によって生成されたプリミティブ及び頂点データを使用して、ディスプレイ・デバイス上に表示されるフレーム・バッファを作り出す。少なくとも１つの実施例では、（１つ又は複数の）フラグメント・プロセッサ１６１５Ａ～１６１５Ｎは、ＯｐｅｎＧＬＡＰＩにおいて提供されるようなフラグメント・シェーダ・プログラムを実行するように最適化され、ＯｐｅｎＧＬＡＰＩは、Ｄｉｒｅｃｔ３ＤＡＰＩにおいて提供されるようなピクセル・シェーダ・プログラムと同様の動作を実施するために使用され得る。

【0120】

少なくとも１つの実施例では、グラフィックス・プロセッサ１６１０は、追加として、１つ又は複数のＭＭＵ１６２０Ａ～１６２０Ｂと、（１つ又は複数の）キャッシュ１６２５Ａ～１６２５Ｂと、（１つ又は複数の）回路相互接続１６３０Ａ～１６３０Ｂとを含む。少なくとも１つの実施例では、１つ又は複数のＭＭＵ１６２０Ａ～１６２０Ｂは、頂点プロセッサ１６０５及び／又は（１つ又は複数の）フラグメント・プロセッサ１６１５Ａ～１６１５Ｎを含む、グラフィックス・プロセッサ１６１０のための仮想－物理アドレス・マッピングを提供し、それらは、１つ又は複数のキャッシュ１６２５Ａ～１６２５Ｂに記憶された頂点又は画像／テクスチャ・データに加えて、メモリに記憶された頂点又は画像／テクスチャ・データを参照し得る。少なくとも１つの実施例では、１つ又は複数のＭＭＵ１６２０Ａ～１６２０Ｂは、図１１の１つ又は複数のアプリケーション・プロセッサ１１０５、画像プロセッサ１１１５、及び／又はビデオ・プロセッサ１１２０に関連する１つ又は複数のＭＭＵを含む、システム内の他のＭＭＵと同期され得、それにより、各プロセッサ１１０５～１１２０は、共有又は統一仮想メモリ・システムに参加することができる。少なくとも１つの実施例では、１つ又は複数の回路相互接続１６３０Ａ～１６３０Ｂは、グラフィックス・プロセッサ１６１０が、ＳｏＣの内部バスを介して又は直接接続を介してのいずれかで、ＳｏＣ内の他のＩＰコアとインターフェースすることを可能にする。

【0121】

少なくとも１つの実施例では、グラフィックス・プロセッサ１６４０は、図１６Ａのグラフィックス・プロセッサ１６１０の１つ又は複数のＭＭＵ１６２０Ａ～１６２０Ｂと、キャッシュ１６２５Ａ～１６２５Ｂと、回路相互接続１６３０Ａ～１６３０Ｂとを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１６４０は、１つ又は複数のシェーダ・コア１６５５Ａ～１６５５Ｎ（たとえば、１６５５Ａ、１６５５Ｂ、１６５５Ｃ、１６５５Ｄ、１６５５Ｅ、１６５５Ｆ～１６５５Ｎ－１、及び１６５５Ｎ）を含み、１つ又は複数のシェーダ・コア１６５５Ａ～１６５５Ｎは、単一のコア、又はタイプ、又はコアが、頂点シェーダ、フラグメント・シェーダ、及び／又はコンピュート・シェーダを実装するためのシェーダ・プログラム・コードを含むすべてのタイプのプログラマブル・シェーダ・コードを実行することができる統一シェーダ・コア・アーキテクチャを提供する。少なくとも１つの実施例では、シェーダ・コアの数は変動することができる。少なくとも１つの実施例では、グラフィックス・プロセッサ１６４０は、１つ又は複数のシェーダ・コア１６５５Ａ～１６５５Ｎに実行スレッドをディスパッチするためのスレッド・ディスパッチャとして作用するコア間タスク・マネージャ１６４５と、たとえばシーン内のローカル空間コヒーレンスを利用するため、又は内部キャッシュの使用を最適化するために、シーンについてのレンダリング動作が画像空間において下位区分される、タイル・ベースのレンダリングのためのタイリング動作を加速するためのタイリング・ユニット１６５８とを含む。

【0122】

少なくとも１つの実施例では、図１６Ａに示されている例示的なグラフィックス・プロセッサ及び図１６Ｂに示されている例示的なグラフィックス・プロセッサのいずれかは、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0123】

図１７Ａは、少なくとも１つの実施例による、グラフィックス・コア１７００を示す。少なくとも１つの実施例では、グラフィックス・コア１７００は、図１１のグラフィックス・プロセッサ１１１０内に含まれ得る。少なくとも１つの実施例では、グラフィックス・コア１７００は、図１６Ｂの場合のような統一シェーダ・コア１６５５Ａ～１６５５Ｎであり得る。少なくとも１つの実施例では、グラフィックス・コア１７００は、共有命令キャッシュ１７０２と、テクスチャ・ユニット１７１８と、キャッシュ／共有メモリ１７２０とを含み、それらは、グラフィックス・コア１７００内の実行リソースに共通である。少なくとも１つの実施例では、グラフィックス・コア１７００は、複数のスライス１７０１Ａ～１７０１Ｎ、又は各コアについてのパーティションを含むことができ、グラフィックス・プロセッサは、グラフィックス・コア１７００の複数のインスタンスを含むことができる。スライス１７０１Ａ～１７０１Ｎは、ローカル命令キャッシュ１７０４Ａ～１７０４Ｎと、スレッド・スケジューラ１７０６Ａ～１７０６Ｎと、スレッド・ディスパッチャ１７０８Ａ～１７０８Ｎと、レジスタのセット１７１０Ａ～１７１０Ｎとを含むサポート論理を含むことができる。少なくとも１つの実施例では、スライス１７０１Ａ～１７０１Ｎは、追加機能ユニット（「ＡＦＵ」：ａｄｄｉｔｉｏｎａｌｆｕｎｃｔｉｏｎｕｎｉｔ）１７１２Ａ～１７１２Ｎ、浮動小数点ユニット（「ＦＰＵ」：ｆｌｏａｔｉｎｇ－ｐｏｉｎｔｕｎｉｔ）１７１４Ａ～１７１４Ｎ、整数算術論理ユニット（「ＡＬＵ」：ｉｎｔｅｇｅｒａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）１７１６～１７１６Ｎ、アドレス算出ユニット（「ＡＣＵ」：ａｄｄｒｅｓｓｃｏｍｐｕｔａｔｉｏｎａｌｕｎｉｔ）１７１３Ａ～１７１３Ｎ、倍精度浮動小数点ユニット（「ＤＰＦＰＵ」：ｄｏｕｂｌｅ－ｐｒｅｃｉｓｉｏｎｆｌｏａｔｉｎｇ－ｐｏｉｎｔｕｎｉｔ）１７１５Ａ～１７１５Ｎ、及び行列処理ユニット（「ＭＰＵ」：ｍａｔｒｉｘｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）１７１７Ａ～１７１７Ｎのセットを含むことができる。

【0124】

少なくとも１つの実施例では、ＦＰＵ１７１４Ａ～１７１４Ｎは、単精度（３２ビット）及び半精度（１６ビット）の浮動小数点演算を実施することができ、ＤＰＦＰＵ１７１５Ａ～１７１５Ｎは、倍精度（６４ビット）の浮動小数点演算を実施する。少なくとも１つの実施例では、ＡＬＵ１７１６Ａ～１７１６Ｎは、８ビット、１６ビット、及び３２ビットの精度で可変精度整数演算を実施することができ、混合精度演算のために構成され得る。少なくとも１つの実施例では、ＭＰＵ１７１７Ａ～１７１７Ｎも、半精度浮動小数点演算と８ビット整数演算とを含む、混合精度行列演算のために構成され得る。少なくとも１つの実施例では、ＭＰＵ１７１７～１７１７Ｎは、加速汎用行列－行列乗算（「ＧＥＭＭ」：ｇｅｎｅｒａｌｍａｔｒｉｘｔｏｍａｔｒｉｘｍｕｌｔｉｐｌｉｃａｔｉｏｎ）のサポートを可能にすることを含む、ＣＵＤＡプログラムを加速するための様々な行列演算を実施することができる。少なくとも１つの実施例では、ＡＦＵ１７１２Ａ～１７１２Ｎは、三角関数演算（たとえば、サイン、コサインなど）を含む、浮動小数点ユニット又は整数ユニットによってサポートされていない追加の論理演算を実施することができる。

【0125】

少なくとも１つの実施例では、グラフィックス・コア１７００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0126】

図１７Ｂは、少なくとも１つの実施例による、汎用グラフィックス処理ユニット（「ＧＰＧＰＵ」：ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）１７３０を示す。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、高度並列であり、マルチチップ・モジュール上での導入に好適である。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、高度並列コンピュート動作がＧＰＵのアレイによって実施されることを可能にするように構成され得る。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、ＣＵＤＡプログラムのための実行時間を改善するためにマルチＧＰＵクラスタを作成するために、ＧＰＧＰＵ１７３０の他のインスタンスに直接リンクされ得る。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、ホスト・プロセッサとの接続を可能にするためのホスト・インターフェース１７３２を含む。少なくとも１つの実施例では、ホスト・インターフェース１７３２は、ＰＣＩｅインターフェースである。少なくとも１つの実施例では、ホスト・インターフェース１７３２は、ベンダー固有の通信インターフェース又は通信ファブリックであり得る。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、ホスト・プロセッサからコマンドを受信し、グローバル・スケジューラ１７３４を使用して、それらのコマンドに関連する実行スレッドを、コンピュート・クラスタ１７３６Ａ～１７３６Ｈのセットに分散させる。少なくとも１つの実施例では、コンピュート・クラスタ１７３６Ａ～１７３６Ｈは、キャッシュ・メモリ１７３８を共有する。少なくとも１つの実施例では、キャッシュ・メモリ１７３８は、コンピュート・クラスタ１７３６Ａ～１７３６Ｈ内のキャッシュ・メモリのためのより高レベルのキャッシュとして働くことができる。

【0127】

少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、メモリ・コントローラ１７４２Ａ～１７４２Ｂのセットを介してコンピュート・クラスタ１７３６Ａ～１７３６Ｈと結合されたメモリ１７４４Ａ～１７４４Ｂを含む。少なくとも１つの実施例では、メモリ１７４４Ａ～１７４４Ｂは、ＤＲＡＭ、又は、グラフィックス・ダブル・データ・レート（「ＧＤＤＲ」：ｇｒａｐｈｉｃｓｄｏｕｂｌｅｄａｔａｒａｔｅ）メモリを含む同期グラフィックス・ランダム・アクセス・メモリ（「ＳＧＲＡＭ」：ｓｙｎｃｈｒｏｎｏｕｓｇｒａｐｈｉｃｓｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）などのグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。

【0128】

少なくとも１つの実施例では、コンピュート・クラスタ１７３６Ａ～１７３６Ｈは、各々、図１７Ａのグラフィックス・コア１７００などのグラフィックス・コアのセットを含み、グラフィックス・コアのセットは、ＣＵＤＡプログラムに関連する算出に適したものを含む、様々な精度で算出動作を実施することができる複数のタイプの整数及び浮動小数点論理ユニットを含むことができる。たとえば、少なくとも１つの実施例では、コンピュート・クラスタ１７３６Ａ～１７３６Ｈの各々における浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビットの浮動小数点演算を実施するように構成され得、浮動小数点ユニットの異なるサブセットは、６４ビットの浮動小数点演算を実施するように構成され得る。

【0129】

少なくとも１つの実施例では、ＧＰＧＰＵ１７３０の複数のインスタンスは、コンピュート・クラスタとして動作するように構成され得る。コンピュート・クラスタ１７３６Ａ～１７３６Ｈは、同期及びデータ交換のための任意の技術的に実現可能な通信技法を実装し得る。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０の複数のインスタンスは、ホスト・インターフェース１７３２を介して通信する。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、Ｉ／Ｏハブ１７３９を含み、Ｉ／Ｏハブ１７３９は、ＧＰＧＰＵ１７３０を、ＧＰＧＰＵ１７３０の他のインスタンスへの直接接続を可能にするＧＰＵリンク１７４０と結合する。少なくとも１つの実施例では、ＧＰＵリンク１７４０は、ＧＰＧＰＵ１７３０の複数のインスタンス間での通信及び同期を可能にする専用ＧＰＵ－ＧＰＵブリッジに結合される。少なくとも１つの実施例では、ＧＰＵリンク１７４０は、他のＧＰＧＰＵ１７３０又は並列プロセッサにデータを送信及び受信するために高速相互接続と結合する。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０の複数のインスタンスは、別個のデータ処理システムに位置し、ホスト・インターフェース１７３２を介してアクセス可能であるネットワーク・デバイスを介して通信する。少なくとも１つの実施例では、ＧＰＵリンク１７４０は、ホスト・インターフェース１７３２に加えて、又はその代替として、ホスト・プロセッサへの接続を可能にするように構成され得る。少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、ＣＵＤＡプログラムを実行するように構成され得る。

【0130】

少なくとも１つの実施例では、ＧＰＧＰＵ１７３０は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0131】

図１８Ａは、少なくとも１つの実施例による、並列プロセッサ１８００を示す。少なくとも１つの実施例では、並列プロセッサ１８００の様々な構成要素は、プログラマブル・プロセッサ、特定用途向け集積回路（「ＡＳＩＣ」：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、又はＦＰＧＡなど、１つ又は複数の集積回路デバイスを使用して実装され得る。

【0132】

少なくとも１つの実施例では、並列プロセッサ１８００は並列処理ユニット１８０２を含む。少なくとも１つの実施例では、並列処理ユニット１８０２は、並列処理ユニット１８０２の他のインスタンスを含む、他のデバイスとの通信を可能にするＩ／Ｏユニット１８０４を含む。少なくとも１つの実施例では、Ｉ／Ｏユニット１８０４は、他のデバイスに直接接続され得る。少なくとも１つの実施例では、Ｉ／Ｏユニット１８０４は、メモリ・ハブ１８０５など、ハブ又はスイッチ・インターフェースの使用を介して他のデバイスと接続する。少なくとも１つの実施例では、メモリ・ハブ１８０５とＩ／Ｏユニット１８０４との間の接続は、通信リンクを形成する。少なくとも１つの実施例では、Ｉ／Ｏユニット１８０４は、ホスト・インターフェース１８０６及びメモリ・クロスバー１８１６と接続し、ホスト・インターフェース１８０６は、処理動作を実施することを対象とするコマンドを受信し、メモリ・クロスバー１８１６は、メモリ動作を実施することを対象とするコマンドを受信する。

【0133】

少なくとも１つの実施例では、ホスト・インターフェース１８０６が、Ｉ／Ｏユニット１８０４を介してコマンド・バッファを受信したとき、ホスト・インターフェース１８０６は、それらのコマンドを実施するためのワーク動作をフロント・エンド１８０８に向けることができる。少なくとも１つの実施例では、フロント・エンド１８０８はスケジューラ１８１０と結合し、スケジューラ１８１０は、コマンド又は他のワーク・アイテムを処理アレイ１８１２に分散させるように構成される。少なくとも１つの実施例では、スケジューラ１８１０は、処理アレイ１８１２にタスクが分散される前に、処理アレイ１８１２が適切に構成され、有効な状態にあることを確実にする。少なくとも１つの実施例では、スケジューラ１８１０は、マイクロコントローラ上で実行しているファームウェア論理を介して実装される。少なくとも１つの実施例では、マイクロコントローラ実装スケジューラ１８１０は、複雑なスケジューリング及びワーク分散動作を、粗い粒度及び細かい粒度において実施するように構成可能であり、処理アレイ１８１２上で実行しているスレッドの迅速なプリエンプション及びコンテキスト切替えを可能にする。少なくとも１つの実施例では、ホスト・ソフトウェアは、処理アレイ１８１２上でのスケジューリングのためのワークロードを、複数のグラフィックス処理ドアベルのうちの１つを介して証明することができる。少なくとも１つの実施例では、ワークロードは、次いで、スケジューラ１８１０を含むマイクロコントローラ内のスケジューラ１８１０論理によって、処理アレイ１８１２にわたって自動的に分散され得る。

【0134】

少なくとも１つの実施例では、処理アレイ１８１２は、最高「Ｎ」個のクラスタ（たとえば、クラスタ１８１４Ａ、クラスタ１８１４Ｂ～クラスタ１８１４Ｎ）を含むことができる。少なくとも１つの実施例では、処理アレイ１８１２の各クラスタ１８１４Ａ～１８１４Ｎは、多数の同時スレッドを実行することができる。少なくとも１つの実施例では、スケジューラ１８１０は、様々なスケジューリング及び／又はワーク分散アルゴリズムを使用して処理アレイ１８１２のクラスタ１８１４Ａ～１８１４Ｎにワークを割り振ることができ、それらのアルゴリズムは、プログラム又は算出の各タイプについて生じるワークロードに応じて変動し得る。少なくとも１つの実施例では、スケジューリングは、スケジューラ１８１０によって動的に対処され得るか、又は処理アレイ１８１２による実行のために構成されたプログラム論理のコンパイル中に、コンパイラ論理によって部分的に支援され得る。少なくとも１つの実施例では、処理アレイ１８１２の異なるクラスタ１８１４Ａ～１８１４Ｎは、異なるタイプのプログラムを処理するために、又は異なるタイプの算出を実施するために割り振られ得る。

【0135】

少なくとも１つの実施例では、処理アレイ１８１２は、様々なタイプの並列処理動作を実施するように構成され得る。少なくとも１つの実施例では、処理アレイ１８１２は、汎用並列コンピュート動作を実施するように構成される。たとえば、少なくとも１つの実施例では、処理アレイ１８１２は、ビデオ及び／又はオーディオ・データをフィルタリングすること、物理動作を含むモデリング動作を実施すること、及びデータ変換を実施することを含む処理タスクを実行するための論理を含むことができる。

【0136】

少なくとも１つの実施例では、処理アレイ１８１２は、並列グラフィックス処理動作を実施するように構成される。少なくとも１つの実施例では、処理アレイ１８１２は、限定はしないが、テクスチャ動作を実施するためのテクスチャ・サンプリング論理、並びにテッセレーション論理及び他の頂点処理論理を含む、そのようなグラフィックス処理動作の実行をサポートするための追加の論理を含むことができる。少なくとも１つの実施例では、処理アレイ１８１２は、限定はしないが、頂点シェーダ、テッセレーション・シェーダ、ジオメトリ・シェーダ、及びピクセル・シェーダなど、グラフィックス処理関係シェーダ・プログラムを実行するように構成され得る。少なくとも１つの実施例では、並列処理ユニット１８０２は、処理のためにＩ／Ｏユニット１８０４を介してシステム・メモリからデータを転送することができる。少なくとも１つの実施例では、処理中に、転送されたデータは、処理中にオンチップ・メモリ（たとえば、並列プロセッサ・メモリ１８２２）に記憶され、次いでシステム・メモリに書き戻され得る。

【0137】

少なくとも１つの実施例では、並列処理ユニット１８０２がグラフィックス処理を実施するために使用されるとき、スケジューラ１８１０は、処理アレイ１８１２の複数のクラスタ１８１４Ａ～１８１４Ｎへのグラフィックス処理動作の分散をより良く可能にするために、処理ワークロードをほぼ等しいサイズのタスクに分割するように構成され得る。少なくとも１つの実施例では、処理アレイ１８１２の部分は、異なるタイプの処理を実施するように構成され得る。たとえば、少なくとも１つの実施例では、表示のために、レンダリングされた画像を作り出すために、第１の部分は、頂点シェーディング及びトポロジ生成を実施するように構成され得、第２の部分は、テッセレーション及びジオメトリ・シェーディングを実施するように構成され得、第３の部分は、ピクセル・シェーディング又は他のスクリーン空間動作を実施するように構成され得る。少なくとも１つの実施例では、クラスタ１８１４Ａ～１８１４Ｎのうちの１つ又は複数によって作り出された中間データは、中間データがさらなる処理のためにクラスタ１８１４Ａ～１８１４Ｎ間で送信されることを可能にするために、バッファに記憶され得る。

【0138】

少なくとも１つの実施例では、処理アレイ１８１２は、実行されるべき処理タスクをスケジューラ１８１０を介して受信することができ、スケジューラ１８１０は、処理タスクを定義するコマンドをフロント・エンド１８０８から受信する。少なくとも１つの実施例では、処理タスクは、処理されるべきデータのインデックス、たとえば、表面（パッチ）データ、プリミティブ・データ、頂点データ、及び／又はピクセル・データ、並びに、データがどのように処理されるべきであるか（たとえば、どのプログラムが実行されるべきであるか）を定義する状態パラメータ及びコマンドを含むことができる。少なくとも１つの実施例では、スケジューラ１８１０は、タスクに対応するインデックスをフェッチするように構成され得るか、又はフロント・エンド１８０８からインデックスを受信し得る。少なくとも１つの実施例では、フロント・エンド１８０８は、入って来るコマンド・バッファ（たとえば、バッチ・バッファ、プッシュ・バッファなど）によって指定されるワークロードが始動される前に、処理アレイ１８１２が有効な状態に構成されることを確実にするように構成され得る。

【0139】

少なくとも１つの実施例では、並列処理ユニット１８０２の１つ又は複数のインスタンスの各々は、並列プロセッサ・メモリ１８２２と結合することができる。少なくとも１つの実施例では、並列プロセッサ・メモリ１８２２は、メモリ・クロスバー１８１６を介してアクセスされ得、メモリ・クロスバー１８１６は、処理アレイ１８１２並びにＩ／Ｏユニット１８０４からメモリ要求を受信することができる。少なくとも１つの実施例では、メモリ・クロスバー１８１６は、メモリ・インターフェース１８１８を介して並列プロセッサ・メモリ１８２２にアクセスすることができる。少なくとも１つの実施例では、メモリ・インターフェース１８１８は、複数のパーティション・ユニット（たとえば、パーティション・ユニット１８２０Ａ、パーティション・ユニット１８２０Ｂ～パーティション・ユニット１８２０Ｎ）を含むことができ、複数のパーティション・ユニットは、各々、並列プロセッサ・メモリ１８２２の一部分（たとえば、メモリ・ユニット）に結合することができる。少なくとも１つの実施例では、パーティション・ユニット１８２０Ａ～１８２０Ｎの数は、メモリ・ユニットの数に等しくなるように構成され、それにより、第１のパーティション・ユニット１８２０Ａは、対応する第１のメモリ・ユニット１８２４Ａを有し、第２のパーティション・ユニット１８２０Ｂは、対応するメモリ・ユニット１８２４Ｂを有し、第Ｎのパーティション・ユニット１８２０Ｎは、対応する第Ｎのメモリ・ユニット１８２４Ｎを有する。少なくとも１つの実施例では、パーティション・ユニット１８２０Ａ～１８２０Ｎの数は、メモリ・デバイスの数に等しくないことがある。

【0140】

少なくとも１つの実施例では、メモリ・ユニット１８２４Ａ～１８２４Ｎは、ＧＤＤＲメモリを含むＳＧＲＡＭなど、ＤＲＡＭ又はグラフィックス・ランダム・アクセス・メモリを含む、様々なタイプのメモリ・デバイスを含むことができる。少なくとも１つの実施例では、メモリ・ユニット１８２４Ａ～１８２４Ｎは、限定はしないが高帯域幅メモリ（「ＨＢＭ」：ｈｉｇｈｂａｎｄｗｉｄｔｈｍｅｍｏｒｙ）を含む、３Ｄ積層メモリをも含み得る。少なくとも１つの実施例では、並列プロセッサ・メモリ１８２２の利用可能な帯域幅を効率的に使用するために、フレーム・バッファ又はテクスチャ・マップなどのレンダー・ターゲットが、メモリ・ユニット１８２４Ａ～１８２４Ｎにわたって記憶されて、パーティション・ユニット１８２０Ａ～１８２０Ｎが、各レンダー・ターゲットの部分を並列に書き込むことを可能にし得る。少なくとも１つの実施例では、ローカル・キャッシュ・メモリと併せてシステム・メモリを利用する統一メモリ設計に有利なように、並列プロセッサ・メモリ１８２２のローカル・インスタンスが除外され得る。

【0141】

少なくとも１つの実施例では、処理アレイ１８１２のクラスタ１８１４Ａ～１８１４Ｎのうちのいずれか１つは、並列プロセッサ・メモリ１８２２内のメモリ・ユニット１８２４Ａ～１８２４Ｎのいずれかに書き込まれることになるデータを処理することができる。少なくとも１つの実施例では、メモリ・クロスバー１８１６は、各クラスタ１８１４Ａ～１８１４Ｎの出力を、出力に対して追加の処理動作を実施することができる任意のパーティション・ユニット１８２０Ａ～１８２０Ｎに転送するか、又は別のクラスタ１８１４Ａ～１８１４Ｎに転送するように構成され得る。少なくとも１つの実施例では、各クラスタ１８１４Ａ～１８１４Ｎは、様々な外部メモリ・デバイスから読み取るか、又はそれに書き込むために、メモリ・クロスバー１８１６を通してメモリ・インターフェース１８１８と通信することができる。少なくとも１つの実施例では、メモリ・クロスバー１８１６は、Ｉ／Ｏユニット１８０４と通信するためのメモリ・インターフェース１８１８への接続、並びに、並列プロセッサ・メモリ１８２２のローカル・インスタンスへの接続を有し、これは、異なるクラスタ１８１４Ａ～１８１４Ｎ内の処理ユニットが、システム・メモリ、又は並列処理ユニット１８０２にローカルでない他のメモリと通信することを可能にする。少なくとも１つの実施例では、メモリ・クロスバー１８１６は、クラスタ１８１４Ａ～１８１４Ｎとパーティション・ユニット１８２０Ａ～１８２０Ｎとの間でトラフィック・ストリームを分離するために、仮想チャネルを使用することができる。

【0142】

少なくとも１つの実施例では、並列処理ユニット１８０２の複数のインスタンスは、単一のアドイン・カード上で提供され得るか、又は複数のアドイン・カードが相互接続され得る。少なくとも１つの実施例では、並列処理ユニット１８０２の異なるインスタンスは、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサ・メモリ、及び／又は他の構成の差を有する場合でも、相互動作するように構成され得る。たとえば、少なくとも１つの実施例では、並列処理ユニット１８０２のいくつかのインスタンスは、他のインスタンスに対してより高い精度の浮動小数点ユニットを含むことができる。少なくとも１つの実施例では、並列処理ユニット１８０２又は並列プロセッサ１８００の１つ又は複数のインスタンスを組み込んだシステムは、限定はしないが、デスクトップ、ラップトップ、又はハンドヘルド・パーソナル・コンピュータ、サーバ、ワークステーション、ゲーム・コンソール、及び／又は組み込みシステムを含む、様々な構成及びフォーム・ファクタにおいて実装され得る。

【0143】

少なくとも１つの実施例では、並列処理ユニット１８０２又は並列プロセッサ１８００の１つ又は複数のインスタンスは、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0144】

図１８Ｂは、少なくとも１つの実施例による、処理クラスタ１８９４を示す。少なくとも１つの実施例では、処理クラスタ１８９４は、並列処理ユニット内に含まれる。少なくとも１つの実施例では、処理クラスタ１８９４は、図１８の処理クラスタ１８１４Ａ～１８１４Ｎのうちの１つである。少なくとも１つの実施例では、処理クラスタ１８９４は、多くのスレッドを並列で実行するように構成され得、「スレッド」という用語は、入力データの特定のセットに対して実行している特定のプログラムのインスタンスを指す。少なくとも１つの実施例では、複数の独立した命令ユニットを提供することなしに多数のスレッドの並列実行をサポートするために、単一命令複数データ（「ＳＩＭＤ」：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅｄａｔａ）命令発行技法が使用される。少なくとも１つの実施例では、各処理クラスタ１８９４内の処理エンジンのセットに命令を発行するように構成された共通の命令ユニットを使用して、全体的に同期された多数のスレッドの並列実行をサポートするために、単一命令複数スレッド（「ＳＩＭＴ」：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎ，ｍｕｌｔｉｐｌｅｔｈｒｅａｄ）技法が使用される。

【0145】

少なくとも１つの実施例では、処理クラスタ１８９４の動作は、ＳＩＭＴ並列プロセッサに処理タスクを分散させるパイプライン・マネージャ１８３２を介して制御され得る。少なくとも１つの実施例では、パイプライン・マネージャ１８３２は、図１８のスケジューラ１８１０から命令を受信し、グラフィックス・マルチプロセッサ１８３４及び／又はテクスチャ・ユニット１８３６を介してそれらの命令の実行を管理する。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかしながら、少なくとも１つの実施例では、異なるアーキテクチャの様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ１８９４内に含められ得る。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８３４の１つ又は複数のインスタンスは、処理クラスタ１８９４内に含められ得る。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８３４はデータを処理することができ、処理されたデータを、他のシェーダ・ユニットを含む複数の可能な宛先のうちの１つに分散させるために、データ・クロスバー１８４０が使用され得る。少なくとも１つの実施例では、パイプライン・マネージャ１８３２は、データ・クロスバー１８４０を介して分散されることになる処理されたデータのための宛先を指定することによって、処理されたデータの分散を容易にすることができる。

【0146】

少なくとも１つの実施例では、処理クラスタ１８９４内の各グラフィックス・マルチプロセッサ１８３４は、関数実行論理（たとえば、算術論理ユニット、ロード／ストア・ユニット（「ＬＳＵ」：ｌｏａｄ／ｓｔｏｒｅｕｎｉｔ）など）の同一のセットを含むことができる。少なくとも１つの実施例では、関数実行論理は、前の命令が完了する前に新しい命令が発行され得るパイプライン様式で構成され得る。少なくとも１つの実施例では、関数実行論理は、整数及び浮動小数点算術、比較演算、ブール演算、ビット・シフト、及び様々な代数関数の算出を含む様々な演算をサポートする。少なくとも１つの実施例では、異なる演算を実施するために同じ関数ユニット・ハードウェアが活用され得、関数ユニットの任意の組合せが存在し得る。

【0147】

少なくとも１つの実施例では、処理クラスタ１８９４に送信される命令がスレッドを構成する。少なくとも１つの実施例では、並列処理エンジンのセットにわたって実行しているスレッドのセットが、スレッド・グループである。少なくとも１つの実施例では、スレッド・グループは、異なる入力データに対してプログラムを実行する。少なくとも１つの実施例では、スレッド・グループ内の各スレッドは、グラフィックス・マルチプロセッサ１８３４内の異なる処理エンジンに割り当てられ得る。少なくとも１つの実施例では、スレッド・グループは、グラフィックス・マルチプロセッサ１８３４内の処理エンジンの数よりも少ないスレッドを含み得る。少なくとも１つの実施例では、スレッド・グループが処理エンジンの数よりも少ないスレッドを含むとき、処理エンジンのうちの１つ又は複数は、そのスレッド・グループが処理されているサイクル中にアイドルであり得る。少なくとも１つの実施例では、スレッド・グループはまた、グラフィックス・マルチプロセッサ１８３４内の処理エンジンの数よりも多いスレッドを含み得る。少なくとも１つの実施例では、スレッド・グループがグラフィックス・マルチプロセッサ１８３４内の処理エンジンの数よりも多くのスレッドを含むとき、連続するクロック・サイクルにわたって処理が実施され得る。少なくとも１つの実施例では、複数のスレッド・グループが、グラフィックス・マルチプロセッサ１８３４上で同時に実行され得る。

【0148】

少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８３４は、ロード動作及びストア動作を実施するための内部キャッシュ・メモリを含む。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８３４は、内部キャッシュをやめ、処理クラスタ１８９４内のキャッシュ・メモリ（たとえば、Ｌ１キャッシュ１８４８）を使用することができる。少なくとも１つの実施例では、各グラフィックス・マルチプロセッサ１８３４は、パーティション・ユニット（たとえば、図１８Ａのパーティション・ユニット１８２０Ａ～１８２０Ｎ）内のレベル２（「Ｌ２」）キャッシュへのアクセスをも有し、それらのＬ２キャッシュは、すべての処理クラスタ１８９４の間で共有され、スレッド間でデータを転送するために使用され得る。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８３４はまた、オフチップ・グローバル・メモリにアクセスし得、オフチップ・グローバル・メモリは、ローカル並列プロセッサ・メモリ及び／又はシステム・メモリのうちの１つ又は複数を含むことができる。少なくとも１つの実施例では、並列処理ユニット１８０２の外部の任意のメモリが、グローバル・メモリとして使用され得る。少なくとも１つの実施例では、処理クラスタ１８９４は、グラフィックス・マルチプロセッサ１８３４の複数のインスタンスを含み、グラフィックス・マルチプロセッサ１８３４は、共通の命令及びデータを共有することができ、共通の命令及びデータは、Ｌ１キャッシュ１８４８に記憶され得る。

【0149】

少なくとも１つの実施例では、各処理クラスタ１８９４は、仮想アドレスを物理アドレスにマッピングするように構成されたＭＭＵ１８４５を含み得る。少なくとも１つの実施例では、ＭＭＵ１８４５の１つ又は複数のインスタンスは、図１８のメモリ・インターフェース１８１８内に存在し得る。少なくとも１つの実施例では、ＭＭＵ１８４５は、仮想アドレスを、タイル及び随意にキャッシュ・ライン・インデックスの物理アドレスにマッピングするために使用されるページ・テーブル・エントリ（「ＰＴＥ」：ｐａｇｅｔａｂｌｅｅｎｔｒｙ）のセットを含む。少なくとも１つの実施例では、ＭＭＵ１８４５は、アドレス・トランスレーション・ルックアサイド・バッファ（「ＴＬＢ」：ｔｒａｎｓｌａｔｉｏｎｌｏｏｋａｓｉｄｅｂｕｆｆｅｒ）又はキャッシュを含み得、これらは、グラフィックス・マルチプロセッサ１８３４又はＬ１キャッシュ１８４８或いは処理クラスタ１８９４内に存在し得る。少なくとも１つの実施例では、物理アドレスが、表面データ・アクセス・ローカリティを分散させて、パーティション・ユニットの間での効率的な要求インターリーブを可能にするために処理される。少なくとも１つの実施例では、キャッシュ・ライン・インデックスが、キャッシュ・ラインについての要求がヒットであるのかミスであるのかを決定するために使用され得る。

【0150】

少なくとも１つの実施例では、処理クラスタ１８９４は、各グラフィックス・マルチプロセッサ１８３４が、テクスチャ・マッピング動作、たとえば、テクスチャ・サンプル位置を決定すること、テクスチャ・データを読み取ること、及びテクスチャ・データをフィルタリングすることを実施するためのテクスチャ・ユニット１８３６に結合されるように、構成され得る。少なくとも１つの実施例では、テクスチャ・データは、内部テクスチャＬ１キャッシュ（図示せず）から又はグラフィックス・マルチプロセッサ１８３４内のＬ１キャッシュから読み取られ、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリからフェッチされる。少なくとも１つの実施例では、各グラフィックス・マルチプロセッサ１８３４は、処理されたタスクをデータ・クロスバー１８４０に出力して、処理されたタスクを、さらなる処理のために別の処理クラスタ１８９４に提供するか、或いは、処理されたタスクを、メモリ・クロスバー１８１６を介してＬ２キャッシュ、ローカル並列プロセッサ・メモリ、又はシステム・メモリに記憶する。少なくとも１つの実施例では、プレ・ラスタ演算ユニット（「プレＲＯＰ」：ｐｒｅ－ｒａｓｔｅｒｏｐｅｒａｔｉｏｎ）１８４２は、グラフィックス・マルチプロセッサ１８３４からデータを受信し、データをＲＯＰユニットにダイレクトするように構成され、ＲＯＰユニットは、本明細書で説明されるようなパーティション・ユニット（たとえば、図１８のパーティション・ユニット１８２０Ａ～１８２０Ｎ）とともに位置し得る。少なくとも１つの実施例では、プレＲＯＰ１８４２は、色ブレンディングのための最適化を実施し、ピクセル色データを組織化し、アドレス・トランスレーションを実施することができる。

【0151】

少なくとも１つの実施例では、処理クラスタ１８９４は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0152】

図１８Ｃは、少なくとも１つの実施例による、グラフィックス・マルチプロセッサ１８９６を示す。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８９６は、図１８Ｂのグラフィックス・マルチプロセッサ１８３４である。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８９６は、処理クラスタ１８９４のパイプライン・マネージャ１８３２と結合する。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８９６は、限定はしないが、命令キャッシュ１８５２と、命令ユニット１８５４と、アドレス・マッピング・ユニット１８５６と、レジスタ・ファイル１８５８と、１つ又は複数のＧＰＧＰＵコア１８６２と、１つ又は複数のＬＳＵ１８６６とを含む実行パイプラインを有する。ＧＰＧＰＵコア１８６２及びＬＳＵ１８６６は、メモリ及びキャッシュ相互接続１８６８を介してキャッシュ・メモリ１８７２及び共有メモリ１８７０と結合される。

【0153】

少なくとも１つの実施例では、命令キャッシュ１８５２は、実行すべき命令のストリームをパイプライン・マネージャ１８３２から受信する。少なくとも１つの実施例では、命令は、命令キャッシュ１８５２においてキャッシュされ、命令ユニット１８５４による実行のためにディスパッチされる。少なくとも１つの実施例では、命令ユニット１８５４は、命令をスレッド・グループ（たとえば、ワープ）としてディスパッチすることができ、スレッド・グループの各スレッドは、ＧＰＧＰＵコア１８６２内の異なる実行ユニットに割り当てられる。少なくとも１つの実施例では、命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、又はグローバルのアドレス空間のいずれかにアクセスすることができる。少なくとも１つの実施例では、アドレス・マッピング・ユニット１８５６は、統一アドレス空間中のアドレスを、ＬＳＵ１８６６によってアクセスされ得る個別メモリ・アドレスにトランスレートするために使用され得る。

【0154】

少なくとも１つの実施例では、レジスタ・ファイル１８５８は、グラフィックス・マルチプロセッサ１８９６の機能ユニットにレジスタのセットを提供する。少なくとも１つの実施例では、レジスタ・ファイル１８５８は、グラフィックス・マルチプロセッサ１８９６の機能ユニット（たとえば、ＧＰＧＰＵコア１８６２、ＬＳＵ１８６６）のデータ経路に接続された、オペランドのための一時的ストレージを提供する。少なくとも１つの実施例では、レジスタ・ファイル１８５８は、各機能ユニットがレジスタ・ファイル１８５８の専用部分を割り振られるように、機能ユニットの各々の間で分割される。少なくとも１つの実施例では、レジスタ・ファイル１８５８は、グラフィックス・マルチプロセッサ１８９６によって実行されている異なるスレッド・グループ間で分割される。

【0155】

少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２は、各々、グラフィックス・マルチプロセッサ１８９６の命令を実行するために使用されるＦＰＵ及び／又は整数ＡＬＵを含むことができる。ＧＰＧＰＵコア１８６２は、同様のアーキテクチャであることも異なるアーキテクチャであることもある。少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２の第１の部分は、単精度ＦＰＵ及び整数ＡＬＵを含み、ＧＰＧＰＵコア１８６２の第２の部分は、倍精度ＦＰＵを含む。少なくとも１つの実施例では、ＦＰＵは、浮動小数点算術のためのＩＥＥＥ７５４－２００８規格を実装することができるか、又は、可変精度の浮動小数点算術を有効にすることができる。少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８９６は、追加として、矩形コピー動作又はピクセル・ブレンディング動作などの特定の機能を実施するための１つ又は複数の固定機能ユニット又は特別機能ユニットを含むことができる。少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２のうちの１つ又は複数は、固定又は特別機能論理をも含むことができる。

【0156】

少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２は、データの複数のセットに対して単一の命令を実施することが可能なＳＩＭＤ論理を含む。少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２は、ＳＩＭＤ４、ＳＩＭＤ８、及びＳＩＭＤ１６命令を物理的に実行し、ＳＩＭＤ１、ＳＩＭＤ２、及びＳＩＭＤ３２命令を論理的に実行することができる。少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２のためのＳＩＭＤ命令は、シェーダ・コンパイラによるコンパイル時に生成されるか、或いは、単一プログラム複数データ（「ＳＰＭＤ」：ｓｉｎｇｌｅｐｒｏｇｒａｍｍｕｌｔｉｐｌｅｄａｔａ）又はＳＩＭＴアーキテクチャのために書かれ、コンパイルされたプログラムを実行しているときに自動的に生成され得る。少なくとも１つの実施例では、ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行され得る。たとえば、少なくとも１つの実施例では、同じ又は同様の動作を実施する８つのＳＩＭＴスレッドが、単一のＳＩＭＤ８論理ユニットを介して並列に実行され得る。

【0157】

少なくとも１つの実施例では、メモリ及びキャッシュ相互接続１８６８は、グラフィックス・マルチプロセッサ１８９６の各機能ユニットをレジスタ・ファイル１８５８及び共有メモリ１８７０に接続する相互接続ネットワークである。少なくとも１つの実施例では、メモリ及びキャッシュ相互接続１８６８は、ＬＳＵ１８６６が、共有メモリ１８７０とレジスタ・ファイル１８５８との間でロード動作及びストア動作を実装することを可能にするクロスバー相互接続である。少なくとも１つの実施例では、レジスタ・ファイル１８５８は、ＧＰＧＰＵコア１８６２と同じ周波数において動作することができ、したがって、ＧＰＧＰＵコア１８６２とレジスタ・ファイル１８５８との間のデータ転送は、非常に低いレイテンシである。少なくとも１つの実施例では、共有メモリ１８７０は、グラフィックス・マルチプロセッサ１８９６内の機能ユニット上で実行するスレッド間の通信を可能にするために使用され得る。少なくとも１つの実施例では、キャッシュ・メモリ１８７２は、たとえば、機能ユニットとテクスチャ・ユニット１８３６との間で通信されるテクスチャ・データをキャッシュするために、データ・キャッシュとして使用され得る。少なくとも１つの実施例では、共有メモリ１８７０は、キャッシュされる管理されるプログラムとしても使用され得る。少なくとも１つの実施例では、ＧＰＧＰＵコア１８６２上で実行しているスレッドは、キャッシュ・メモリ１８７２内に記憶される自動的にキャッシュされるデータに加えて、データを共有メモリ内にプログラム的に記憶することができる。

【0158】

少なくとも１つの実施例では、本明細書で説明されるような並列プロセッサ又はＧＰＧＰＵは、グラフィックス動作、機械学習動作、パターン分析動作、及び様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速するために、ホスト／プロセッサ・コアに通信可能に結合される。少なくとも１つの実施例では、ＧＰＵは、バス又は他の相互接続（たとえば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速相互接続）を介してホスト・プロセッサ／コアに通信可能に結合され得る。少なくとも１つの実施例では、ＧＰＵは、コアとして同じパッケージ又はチップに集積され、パッケージ又はチップの内部にあるプロセッサ・バス／相互接続を介してコアに通信可能に結合され得る。少なくとも１つの実施例では、ＧＰＵが接続される様式にかかわらず、プロセッサ・コアは、ＷＤ中に含まれているコマンド／命令のシーケンスの形態で、ワークをＧＰＵに割り振り得る。少なくとも１つの実施例では、ＧＰＵは、次いで、これらのコマンド／命令を効率的に処理するための専用回路要素／論理を使用する。

【0159】

少なくとも１つの実施例では、グラフィックス・マルチプロセッサ１８９６は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0160】

図１９は、少なくとも１つの実施例による、グラフィックス・プロセッサ１９００を示す。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、リング相互接続１９０２と、パイプライン・フロント・エンド１９０４と、メディア・エンジン１９３７と、グラフィックス・コア１９８０Ａ～１９８０Ｎとを含む。少なくとも１つの実施例では、リング相互接続１９０２は、グラフィックス・プロセッサ１９００を、他のグラフィックス・プロセッサ又は１つ又は複数の汎用プロセッサ・コアを含む他の処理ユニットに結合する。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、マルチコア処理システム内に組み込まれた多くのプロセッサのうちの１つである。

【0161】

少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、リング相互接続１９０２を介してコマンドのバッチを受信する。少なくとも１つの実施例では、入って来るコマンドは、パイプライン・フロント・エンド１９０４中のコマンド・ストリーマ１９０３によって解釈される。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、（１つ又は複数の）グラフィックス・コア１９８０Ａ～１９８０Ｎを介して３Ｄジオメトリ処理及びメディア処理を実施するためのスケーラブル実行論理を含む。少なくとも１つの実施例では、３Ｄジオメトリ処理コマンドについて、コマンド・ストリーマ１９０３は、コマンドをジオメトリ・パイプライン１９３６に供給する。少なくとも１つの実施例では、少なくともいくつかのメディア処理コマンドについて、コマンド・ストリーマ１９０３は、コマンドをビデオ・フロント・エンド１９３４に供給し、ビデオ・フロント・エンド１９３４はメディア・エンジン１９３７と結合する。少なくとも１つの実施例では、メディア・エンジン１９３７は、ビデオ及び画像後処理のためのビデオ品質エンジン（「ＶＱＥ」：ＶｉｄｅｏＱｕａｌｉｔｙＥｎｇｉｎｅ）１９３０と、ハードウェア加速メディア・データ・エンコード及びデコードを提供するためのマルチ・フォーマット・エンコード／デコード（「ＭＦＸ」：ｍｕｌｔｉ－ｆｏｒｍａｔｅｎｃｏｄｅ／ｄｅｃｏｄｅ）エンジン１９３３とを含む。少なくとも１つの実施例では、ジオメトリ・パイプライン１９３６及びメディア・エンジン１９３７は、各々、少なくとも１つのグラフィックス・コア１９８０Ａによって提供されるスレッド実行リソースのための実行スレッドを生成する。

【0162】

少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、各々が（コア・サブ・スライスと呼ばれることもある）複数のサブ・コア１９５０Ａ～５５０Ｎ、１９６０Ａ～１９６０Ｎを有する、（コア・スライスと呼ばれることもある）モジュール式グラフィックス・コア１９８０Ａ～１９８０Ｎを特徴とするスケーラブル・スレッド実行リソースを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、任意の数のグラフィックス・コア１９８０Ａ～１９８０Ｎを有することができる。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、少なくとも第１のサブ・コア１９５０Ａ及び第２のサブ・コア１９６０Ａを有するグラフィックス・コア１９８０Ａを含む。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、単一のサブ・コア（たとえば、サブ・コア１９５０Ａ）をもつ低電力プロセッサである。少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、各々が第１のサブ・コア１９５０Ａ～１９５０Ｎのセットと第２のサブ・コア１９６０Ａ～１９６０Ｎのセットとを含む、複数のグラフィックス・コア１９８０Ａ～１９８０Ｎを含む。少なくとも１つの実施例では、第１のサブ・コア１９５０Ａ～１９５０Ｎ中の各サブ・コアは、少なくとも、実行ユニット（「ＥＵ」：ｅｘｅｃｕｔｉｏｎｕｎｉｔ）１９５２Ａ～１９５２Ｎ及びメディア／テクスチャ・サンプラ１９５４Ａ～１９５４Ｎの第１のセットを含む。少なくとも１つの実施例では、第２のサブ・コア１９６０Ａ～１９６０Ｎ中の各サブ・コアは、少なくとも、実行ユニット１９６２Ａ～１９６２Ｎ及びサンプラ１９６４Ａ～１９６４Ｎの第２のセットを含む。少なくとも１つの実施例では、各サブ・コア１９５０Ａ～１９５０Ｎ、１９６０Ａ～１９６０Ｎは、共有リソース１９７０Ａ～１９７０Ｎのセットを共有する。少なくとも１つの実施例では、共有リソース１９７０は、共有キャッシュ・メモリ及びピクセル動作論理を含む。

【0163】

少なくとも１つの実施例では、グラフィックス・プロセッサ１９００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0164】

図２０は、少なくとも１つの実施例による、プロセッサ２０００を示す。少なくとも１つの実施例では、プロセッサ２０００は、限定はしないが、命令を実施するための論理回路を含み得る。少なくとも１つの実施例では、プロセッサ２０００は、ｘ８６命令、ＡＭＲ命令、ＡＳＩＣのための特別命令などを含む命令を実施し得る。少なくとも１つの実施例では、プロセッサ２０１０は、カリフォルニア州サンタクララのＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎからの、ＭＭＸ（商標）技術で可能にされたマイクロプロセッサ中の６４ビット幅ＭＭＸレジスタなど、パック・データを記憶するためのレジスタを含み得る。少なくとも１つの実施例では、整数形式と浮動小数点形式の両方で利用可能なＭＭＸレジスタは、ＳＩＭＤ及びストリーミングＳＩＭＤ拡張（「ＳＳＥ」：ｓｔｒｅａｍｉｎｇＳＩＭＤｅｘｔｅｎｓｉｏｎ）命令を伴うパック・データ要素で動作し得る。少なくとも１つの実施例では、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４、ＡＶＸ、又はそれ以上（総称して「ＳＳＥｘ」と呼ばれる）技術に関係する１２８ビット幅ＸＭＭレジスタは、そのようなパック・データ・オペランドを保持し得る。少なくとも１つの実施例では、プロセッサ２０１０は、ＣＵＤＡプログラムを加速するための命令を実施し得る。

【0165】

少なくとも１つの実施例では、プロセッサ２０００は、実行されるべき命令をフェッチし、プロセッサ・パイプラインにおいて後で使用されるべき命令を準備するためのイン・オーダー・フロント・エンド（「フロント・エンド」）２００１を含む。少なくとも１つの実施例では、フロント・エンド２００１は、いくつかのユニットを含み得る。少なくとも１つの実施例では、命令プリフェッチャ２０２６が、メモリから命令をフェッチし、命令を命令デコーダ２０２８にフィードし、命令デコーダ２０２８が命令を復号又は解釈する。たとえば、少なくとも１つの実施例では、命令デコーダ２０２８は、受信された命令を、実行のために「マイクロ命令」又は「マイクロ・オペレーション」と呼ばれる（「マイクロ・オプ」又は「ｕｏｐ」とも呼ばれる）１つ又は複数のオペレーションに復号する。少なくとも１つの実施例では、命令デコーダ２０２８は、命令を、動作を実施するためにマイクロアーキテクチャによって使用され得るオプコード及び対応するデータ並びに制御フィールドに構文解析する。少なくとも１つの実施例では、トレース・キャッシュ２０３０は、復号されたｕｏｐを、実行のためにｕｏｐキュー２０３４においてプログラム順のシーケンス又はトレースにアセンブルし得る。少なくとも１つの実施例では、トレース・キャッシュ２０３０が複雑な命令に遭遇したとき、マイクロコードＲＯＭ２０３２が、動作を完了するために必要なｕｏｐを提供する。

【0166】

少なくとも１つの実施例では、単一のマイクロ・オプにコンバートされ得る命令もあれば、全動作を完了するためにいくつかのマイクロ・オプを必要とする命令もある。少なくとも１つの実施例では、命令を完了するために５つ以上のマイクロ・オプが必要とされる場合、命令デコーダ２０２８は、マイクロコードＲＯＭ２０３２にアクセスして命令を実施し得る。少なくとも１つの実施例では、命令は、命令デコーダ２０２８における処理のために少数のマイクロ・オプに復号され得る。少なくとも１つの実施例では、命令は、動作を達成するためにいくつかのマイクロ・オプが必要とされる場合、マイクロコードＲＯＭ２０３２内に記憶され得る。少なくとも１つの実施例では、トレース・キャッシュ２０３０は、マイクロコードＲＯＭ２０３２からの１つ又は複数の命令を完了するために、エントリ・ポイント・プログラマブル論理アレイ（「ＰＬＡ」：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を参照して、マイクロコード・シーケンスを読み取るための正しいマイクロ命令ポインタを決定する。少なくとも１つの実施例では、マイクロコードＲＯＭ２０３２が命令のためにマイクロ・オプのシーケンシングを終えた後、機械のフロント・エンド２００１は、トレース・キャッシュ２０３０からマイクロ・オプをフェッチすることを再開し得る。

【0167】

少なくとも１つの実施例では、アウト・オブ・オーダー実行エンジン（「アウト・オブ・オーダー・エンジン」）２００３は、実行のために命令を準備し得る。少なくとも１つの実施例では、アウト・オブ・オーダー実行論理は、命令がパイプラインを下り、実行のためにスケジューリングされるときの性能を最適化するために、命令のフローを滑らかにし、それを並べ替えるためのいくつかのバッファを有する。アウト・オブ・オーダー実行エンジン２００３は、限定はしないが、アロケータ／レジスタ・リネーマ２０４０と、メモリｕｏｐキュー２０４２と、整数／浮動小数点ｕｏｐキュー２０４４と、メモリ・スケジューラ２０４６と、高速スケジューラ２００２と、低速／汎用浮動小数点スケジューラ（「低速／汎用ＦＰ（ｆｌｏａｔｉｎｇｐｏｉｎｔ）スケジューラ」）２００４と、単純浮動小数点スケジューラ（「単純ＦＰスケジューラ」）２００６とを含む。少なくとも１つの実施例では、高速スケジューラ２００２、低速／汎用浮動小数点スケジューラ２００４、及び単純浮動小数点スケジューラ２００６は、総称して本明細書では「ｕｏｐスケジューラ２００２、２００４、２００６」とも呼ばれる。アロケータ／レジスタ・リネーマ２０４０は、実行するために各ｕｏｐが必要とする機械バッファ及びリソースを割り振る。少なくとも１つの実施例では、アロケータ／レジスタ・リネーマ２０４０は、レジスタ・ファイルへのエントリ時に論理レジスタをリネームする。少なくとも１つの実施例では、アロケータ／レジスタ・リネーマ２０４０はまた、メモリ・スケジューラ２０４６及びｕｏｐスケジューラ２００２、２００４、２００６の前の、２つのｕｏｐキュー、すなわちメモリ動作のためのメモリｕｏｐキュー２０４２及び非メモリ動作のための整数／浮動小数点ｕｏｐキュー２０４４のうちの１つにおいて、各ｕｏｐのためのエントリを割り振る。少なくとも１つの実施例では、ｕｏｐスケジューラ２００２、２００４、２００６は、ｕｏｐがいつ実行する準備ができるかを、それらの従属入力レジスタ・オペランド・ソースが準備されていることと、それらの動作を完了するためにｕｏｐが必要とする実行リソースの利用可能性とに基づいて、決定する。少なくとも１つの実施例では、少なくとも１つの実施例の高速スケジューラ２００２は、メイン・クロック・サイクルの半分ごとにスケジューリングし得、低速／汎用浮動小数点スケジューラ２００４及び単純浮動小数点スケジューラ２００６は、メイン・プロセッサ・クロック・サイクル当たりに１回スケジューリングし得る。少なくとも１つの実施例では、ｕｏｐスケジューラ２００２、２００４、２００６は、実行のためにｕｏｐをスケジューリングするためにディスパッチ・ポートを調停する。

【0168】

少なくとも１つの実施例では、実行ブロック２０１１は、限定はしないが、整数レジスタ・ファイル／バイパス・ネットワーク２００８と、浮動小数点レジスタ・ファイル／バイパス・ネットワーク（「ＦＰレジスタ・ファイル／バイパス・ネットワーク」）２０１０と、アドレス生成ユニット（「ＡＧＵ」：ａｄｄｒｅｓｓｇｅｎｅｒａｔｉｏｎｕｎｉｔ）２０１２及び２０１４と、高速ＡＬＵ２０１６及び２０１８と、低速ＡＬＵ２０２０と、浮動小数点ＡＬＵ（「ＦＰ」）２０２２と、浮動小数点移動ユニット（「ＦＰ移動」）２０２４とを含む。少なくとも１つの実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２００８及び浮動小数点レジスタ・ファイル／バイパス・ネットワーク２０１０は、本明細書では「レジスタ・ファイル２００８、２０１０」とも呼ばれる。少なくとも１つの実施例では、ＡＧＵ２０１２及び２０１４、高速ＡＬＵ２０１６及び２０１８、低速ＡＬＵ２０２０、浮動小数点ＡＬＵ２０２２、及び浮動小数点移動ユニット２０２４は、本明細書では「実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、及び２０２４」とも呼ばれる。少なくとも１つの実施例では、実行ブロックは、限定はしないが、（ゼロを含む）任意の数及びタイプのレジスタ・ファイル、バイパス・ネットワーク、アドレス生成ユニット、及び実行ユニットを、任意の組合せで含み得る。

【0169】

少なくとも１つの実施例では、レジスタ・ファイル２００８、２０１０は、ｕｏｐスケジューラ２００２、２００４、２００６と、実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、及び２０２４との間に配置され得る。少なくとも１つの実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２００８は、整数演算を実施する。少なくとも１つの実施例では、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２０１０は、浮動小数点演算を実施する。少なくとも１つの実施例では、レジスタ・ファイル２００８、２０１０の各々は、限定はしないが、バイパス・ネットワークを含み得、バイパス・ネットワークは、レジスタ・ファイルにまだ書き込まれていない完了したばかりの結果を、新しい従属ｕｏｐにバイパス又はフォワーディングし得る。少なくとも１つの実施例では、レジスタ・ファイル２００８、２０１０は、互いにデータを通信し得る。少なくとも１つの実施例では、整数レジスタ・ファイル／バイパス・ネットワーク２００８は、限定はしないが、２つの別個のレジスタ・ファイル、すなわち低次３２ビットのデータのための１つのレジスタ・ファイル及び高次３２ビットのデータのための第２のレジスタ・ファイルを含み得る。少なくとも１つの実施例では、浮動小数点命令は、通常、６４～１２８ビット幅のオペランドを有するので、浮動小数点レジスタ・ファイル／バイパス・ネットワーク２０１０は、限定はしないが、１２８ビット幅のエントリを含み得る。

【0170】

少なくとも１つの実施例では、実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、２０２４は、命令を実行し得る。少なくとも１つの実施例では、レジスタ・ファイル２００８、２０１０は、マイクロ命令が実行する必要がある整数及び浮動小数点データ・オペランド値を記憶する。少なくとも１つの実施例では、プロセッサ２０００は、限定はしないが、任意の数及び組合せの実行ユニット２０１２、２０１４、２０１６、２０１８、２０２０、２０２２、２０２４を含み得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ２０２２及び浮動小数点移動ユニット２０２４は、浮動小数点、ＭＭＸ、ＳＩＭＤ、ＡＶＸ及びＳＳＥ、又は他の演算を実行し得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ２０２２は、限定はしないが、除算、平方根、及び剰余マイクロ・オプを実行するための６４ビットずつの浮動小数点デバイダを含み得る。少なくとも１つの実施例では、浮動小数点値を伴う命令は、浮動小数点ハードウェアで対処され得る。少なくとも１つの実施例では、ＡＬＵ演算は、高速ＡＬＵ２０１６、２０１８に渡され得る。少なくとも１つの実施例では、高速ＡＬＵ２０１６、２０１８は、クロック・サイクルの半分の実効レイテンシを伴う高速演算を実行し得る。少なくとも１つの実施例では、低速ＡＬＵ２０２０は、限定はしないが、乗数、シフト、フラグ論理、及びブランチ処理などの長レイテンシ・タイプの演算のための整数実行ハードウェアを含み得るので、ほとんどの複雑な整数演算は低速ＡＬＵ２０２０に進む。少なくとも１つの実施例では、メモリ・ロード／ストア動作は、ＡＧＵ２０１２、２０１４によって実行され得る。少なくとも１つの実施例では、高速ＡＬＵ２０１６、高速ＡＬＵ２０１８、及び低速ＡＬＵ２０２０は、６４ビット・データ・オペランドで整数演算を実施し得る。少なくとも１つの実施例では、高速ＡＬＵ２０１６、高速ＡＬＵ２０１８、及び低速ＡＬＵ２０２０は、１６、３２、１２８、２５６などを含む様々なデータ・ビット・サイズをサポートするために実装され得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ２０２２及び浮動小数点移動ユニット２０２４は、様々なビット幅を有する様々なオペランドをサポートするために実装され得る。少なくとも１つの実施例では、浮動小数点ＡＬＵ２０２２及び浮動小数点移動ユニット２０２４は、ＳＩＭＤ及びマルチメディア命令と併せた１２８ビット幅のパック・データ・オペランドで動作し得る。

【0171】

少なくとも１つの実施例では、ｕｏｐスケジューラ２００２、２００４、２００６は、親ロードが実行し終える前に従属演算をディスパッチする。少なくとも１つの実施例では、ｕｏｐは、プロセッサ２０００において投機的にスケジューリング及び実行され得るので、プロセッサ２０００は、メモリ・ミスに対処するための論理をも含み得る。少なくとも１つの実施例では、データ・キャッシュにおいてデータ・ロードがミスした場合、一時的に不正確なデータをもつスケジューラを通り過ぎたパイプラインにおいて、進行中の従属演算があり得る。少なくとも１つの実施例では、リプレイ機構が、不正確なデータを使用する命令を追跡及び再実行する。少なくとも１つの実施例では、従属演算は、リプレイされる必要があり得、独立した演算は、完了することを可能にされ得る。少なくとも１つの実施例では、プロセッサの少なくとも１つの実施例のスケジューラ及びリプレイ機構はまた、テキスト・ストリング比較演算のための命令シーケンスを捕捉するように設計され得る。

【0172】

少なくとも１つの実施例では、「レジスタ」という用語は、オペランドを識別するための命令の一部として使用され得るオンボード・プロセッサ・ストレージ・ロケーションを指し得る。少なくとも１つの実施例では、レジスタは、（プログラマの視点から見て）プロセッサの外部から使用可能であり得るものであり得る。少なくとも１つの実施例では、レジスタは、特定のタイプの回路に限定されないことがある。むしろ、少なくとも１つの実施例では、レジスタは、データを記憶し、データを提供し、本明細書で説明される機能を実施し得る。少なくとも１つの実施例では、本明細書で説明されるレジスタは、専用物理レジスタ、レジスタ・リネーミングを使用して動的に割り振られる物理レジスタ、専用物理レジスタと動的に割り振られる物理レジスタとの組合せなど、任意の数の異なる技法を使用して、プロセッサ内の回路要素によって実装され得る。少なくとも１つの実施例では、整数レジスタは、３２ビット整数データを記憶する。少なくとも１つの実施例のレジスタ・ファイルは、パック・データのための８つのマルチメディアＳＩＭＤレジスタをも含んでいる。

【0173】

少なくとも１つの実施例では、プロセッサ２０００は、コンピューティング・デバイス１０２（図１参照）のＣＰＵ及び／又はコンピューティング・デバイス１２０（図１参照）のＣＰＵを実装するために使用され得る。少なくとも１つの実施例では、プロセッサ２０００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0174】

図２１は、少なくとも１つの実施例による、プロセッサ２１００を示す。少なくとも１つの実施例では、プロセッサ２１００は、限定はしないが、１つ又は複数のプロセッサ・コア（「コア」）２１０２Ａ～２１０２Ｎと、統合されたメモリ・コントローラ２１１４と、統合されたグラフィックス・プロセッサ２１０８とを含む。少なくとも１つの実施例では、プロセッサ２１００は、破線ボックスによって表される追加プロセッサ・コア２１０２Ｎまでの追加コアを含むことができる。少なくとも１つの実施例では、プロセッサ・コア２１０２Ａ～２１０２Ｎの各々は、１つ又は複数の内部キャッシュ・ユニット２１０４Ａ～２１０４Ｎを含む。少なくとも１つの実施例では、各プロセッサ・コアはまた、１つ又は複数の共有キャッシュ・ユニット２１０６へのアクセスを有する。

【0175】

少なくとも１つの実施例では、内部キャッシュ・ユニット２１０４Ａ～２１０４Ｎと共有キャッシュ・ユニット２１０６とは、プロセッサ２１００内のキャッシュ・メモリ階層を表す。少なくとも１つの実施例では、キャッシュ・メモリ・ユニット２１０４Ａ～２１０４Ｎは、各プロセッサ・コア内の命令及びデータ・キャッシュの少なくとも１つのレベル、及びＬ２、Ｌ３、レベル４（「Ｌ４」）などの共有中間レベル・キャッシュの１つ又は複数のレベル、又はキャッシュの他のレベルを含み得、ここで、外部メモリの前の最高レベルのキャッシュは、ＬＬＣとして分類される。少なくとも１つの実施例では、キャッシュ・コヒーレンシ論理は、様々なキャッシュ・ユニット２１０６及び２１０４Ａ～２１０４Ｎ間でコヒーレンシを維持する。

【0176】

少なくとも１つの実施例では、プロセッサ２１００は、１つ又は複数のバス・コントローラ・ユニット２１１６とシステム・エージェント・コア２１１０とのセットをも含み得る。少なくとも１つの実施例では、１つ又は複数のバス・コントローラ・ユニット２１１６は、１つ又は複数のＰＣＩ又はＰＣＩエクスプレス・バスなどの周辺バスのセットを管理する。少なくとも１つの実施例では、システム・エージェント・コア２１１０は、様々なプロセッサ構成要素のための管理機能性を提供する。少なくとも１つの実施例では、システム・エージェント・コア２１１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するための１つ又は複数の統合されたメモリ・コントローラ２１１４を含む。

【0177】

少なくとも１つの実施例では、プロセッサ・コア２１０２Ａ～２１０２Ｎのうちの１つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも１つの実施例では、システム・エージェント・コア２１１０は、マルチスレッド処理中にプロセッサ・コア２１０２Ａ～２１０２Ｎを協調させ、動作させるための構成要素を含む。少なくとも１つの実施例では、システム・エージェント・コア２１１０は、追加として、電力制御ユニット（「ＰＣＵ」：ｐｏｗｅｒｃｏｎｔｒｏｌｕｎｉｔ）を含み得、ＰＣＵは、プロセッサ・コア２１０２Ａ～２１０２Ｎ及びグラフィックス・プロセッサ２１０８の１つ又は複数の電力状態を調節するための論理及び構成要素を含む。

【0178】

少なくとも１つの実施例では、プロセッサ２１００は、追加として、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ２１０８を含む。少なくとも１つの実施例では、グラフィックス・プロセッサ２１０８は、共有キャッシュ・ユニット２１０６、及び１つ又は複数の統合されたメモリ・コントローラ２１１４を含むシステム・エージェント・コア２１１０と結合する。少なくとも１つの実施例では、システム・エージェント・コア２１１０は、１つ又は複数の結合されたディスプレイへのグラフィックス・プロセッサ出力を駆動するためのディスプレイ・コントローラ２１１１をも含む。少なくとも１つの実施例では、ディスプレイ・コントローラ２１１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサ２１０８と結合された別個のモジュールであり得るか、又はグラフィックス・プロセッサ２１０８内に組み込まれ得る。

【0179】

少なくとも１つの実施例では、プロセッサ２１００の内部構成要素を結合するために、リング・ベースの相互接続ユニット２１１２が使用される。少なくとも１つの実施例では、ポイントツーポイント相互接続、切替え相互接続、又は他の技法などの代替相互接続ユニットが使用され得る。少なくとも１つの実施例では、グラフィックス・プロセッサ２１０８は、Ｉ／Ｏリンク２１１３を介してリング相互接続２１１２と結合する。

【0180】

少なくとも１つの実施例では、Ｉ／Ｏリンク２１１３は、様々なプロセッサ構成要素と、ｅＤＲＡＭモジュールなどの高性能組み込みメモリ・モジュール２１１８との間の通信を容易にするオン・パッケージＩ／Ｏ相互接続を含む、複数の種類のＩ／Ｏ相互接続のうちの少なくとも１つを表す。少なくとも１つの実施例では、プロセッサ・コア２１０２Ａ～２１０２Ｎの各々と、グラフィックス・プロセッサ２１０８とは、共有ＬＬＣとして組み込みメモリ・モジュール２１１８を使用する。

【0181】

少なくとも１つの実施例では、プロセッサ・コア２１０２Ａ～２１０２Ｎは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも１つの実施例では、プロセッサ・コア２１０２Ａ～２１０２Ｎは、ＩＳＡという観点から異種であり、ここで、プロセッサ・コア２１０２Ａ～２１０２Ｎのうちの１つ又は複数は、共通の命令セットを実行し、プロセッサ・コア２１０２Ａ～２１－０２Ｎのうちの１つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも１つの実施例では、プロセッサ・コア２１０２Ａ～２１０２Ｎは、マイクロアーキテクチャという観点から異種であり、ここで、電力消費量が比較的高い１つ又は複数のコアは、電力消費量がより低い１つ又は複数のコアと結合する。少なくとも１つの実施例では、プロセッサ２１００は、１つ又は複数のチップ上に、又はＳｏＣ集積回路として実装され得る。

【0182】

少なくとも１つの実施例では、プロセッサ２１００は、コンピューティング・デバイス１０２（図１参照）のＣＰＵ及び／又はコンピューティング・デバイス１２０（図１参照）のＣＰＵを実装するために使用され得る。少なくとも１つの実施例では、プロセッサ２１００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0183】

図２２は、説明される少なくとも１つの実施例による、グラフィックス・プロセッサ・コア２２００を示す。少なくとも１つの実施例では、グラフィックス・プロセッサ・コア２２００は、グラフィックス・コア・アレイ内に含まれる。少なくとも１つの実施例では、コア・スライスと呼ばれることがあるグラフィックス・プロセッサ・コア２２００は、モジュール式グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアであり得る。少なくとも１つの実施例では、グラフィックス・プロセッサ・コア２２００は、１つのグラフィックス・コア・スライスの例示であり、本明細書で説明されるグラフィックス・プロセッサは、ターゲット電力及び性能エンベロープに基づいて、複数のグラフィックス・コア・スライスを含み得る。少なくとも１つの実施例では、各グラフィックス・コア２２００は、汎用及び固定機能論理のモジュール式ブロックを含む、サブ・スライスとも呼ばれる複数のサブ・コア２２０１Ａ～２２０１Ｆと結合された固定機能ブロック２２３０を含むことができる。

【0184】

少なくとも１つの実施例では、固定機能ブロック２２３０は、たとえば、より低い性能及び／又はより低い電力のグラフィックス・プロセッサ実装形態において、グラフィックス・プロセッサ２２００中のすべてのサブ・コアによって共有され得るジオメトリ／固定機能パイプライン２２３６を含む。少なくとも１つの実施例では、ジオメトリ／固定機能パイプライン２２３６は、３Ｄ固定機能パイプラインと、ビデオ・フロント・エンド・ユニットと、スレッド・スポーナ（ｓｐａｗｎｅｒ）及びスレッド・ディスパッチャと、統一リターン・バッファを管理する統一リターン・バッファ・マネージャとを含む。

【0185】

少なくとも１つの実施例では、固定機能ブロック２２３０はまた、グラフィックスＳｏＣインターフェース２２３７と、グラフィックス・マイクロコントローラ２２３８と、メディア・パイプライン２２３９とを含む。グラフィックスＳｏＣインターフェース２２３７は、グラフィックス・コア２２００と、ＳｏＣ集積回路内の他のプロセッサ・コアとの間のインターフェースを提供する。少なくとも１つの実施例では、グラフィックス・マイクロコントローラ２２３８は、スレッド・ディスパッチと、スケジューリングと、プリエンプションとを含む、グラフィックス・プロセッサ２２００の様々な機能を管理するように構成可能であるプログラマブル・サブ・プロセッサである。少なくとも１つの実施例では、メディア・パイプライン２２３９は、画像及びビデオ・データを含むマルチメディア・データの復号、符号化、前処理、及び／又は後処理を容易にするための論理を含む。少なくとも１つの実施例では、メディア・パイプライン２２３９は、サブ・コア２２０１～２２０１Ｆ内のコンピュート論理又はサンプリング論理への要求を介して、メディア動作を実装する。

【0186】

少なくとも１つの実施例では、ＳｏＣインターフェース２２３７は、グラフィックス・コア２２００が汎用アプリケーション・プロセッサ・コア（たとえば、ＣＰＵ）及び／又はＳｏＣ内の他の構成要素と通信することを可能にし、ＳｏＣ内の他の構成要素は、共有ＬＬＣメモリ、システムＲＡＭ、及び／或いは組み込みオンチップ又はオンパッケージＤＲＡＭなどのメモリ階層要素を含む。少なくとも１つの実施例では、ＳｏＣインターフェース２２３７はまた、カメラ撮像パイプラインなど、ＳｏＣ内の固定機能デバイスとの通信を可能にすることができ、グラフィックス・コア２２００とＳｏＣ内のＣＰＵとの間で共有され得るグローバル・メモリ・アトミックの使用を可能にし、及び／又はそれを実装する。少なくとも１つの実施例では、ＳｏＣインターフェース２２３７はまた、グラフィックス・コア２２００のための電力管理制御を実装し、グラフィック・コア２２００のクロック・ドメインとＳｏＣ内の他のクロック・ドメインとの間のインターフェースを可能にすることができる。少なくとも１つの実施例では、ＳｏＣインターフェース２２３７は、グラフィックス・プロセッサ内の１つ又は複数のグラフィックス・コアの各々にコマンド及び命令を提供するように構成されたコマンド・ストリーマ及びグローバル・スレッド・ディスパッチャからのコマンド・バッファの受信を可能にする。少なくとも１つの実施例では、コマンド及び命令は、メディア動作が実施されるべきであるときにメディア・パイプライン２２３９にディスパッチされ得るか、又は、グラフィックス処理動作が実施されるべきであるときにジオメトリ及び固定機能パイプライン（たとえば、ジオメトリ及び固定機能パイプライン２２３６、ジオメトリ及び固定機能パイプライン２２１４）にディスパッチされ得る。

【0187】

少なくとも１つの実施例では、グラフィックス・マイクロコントローラ２２３８は、グラフィックス・コア２２００のための様々なスケジューリング及び管理タスクを実施するように構成され得る。少なくとも１つの実施例では、グラフィックス・マイクロコントローラ２２３８は、サブ・コア２２０１Ａ～２２０１Ｆ内の実行ユニット（ＥＵ）アレイ２２０２Ａ～２２０２Ｆ、２２０４Ａ～２２０４Ｆ内の様々なグラフィックス並列エンジンに対して、グラフィックスを実施し、及び／又はワークロード・スケジューリングを算出することができる。少なくとも１つの実施例では、グラフィックス・コア２２００を含むＳｏＣのＣＰＵコア上で実行しているホスト・ソフトウェアは、複数のグラフィック・プロセッサ・ドアベルのうちの１つにワークロードをサブミットすることができ、このドアベルが、適切なグラフィックス・エンジンに対するスケジューリング動作を呼び出す。少なくとも１つの実施例では、スケジューリング動作は、どのワークロードを次に稼働すべきかを決定することと、ワークロードをコマンド・ストリーマにサブミットすることと、エンジン上で稼働している既存のワークロードをプリエンプトすることと、ワークロードの進行を監視することと、ワークロードが完了したときにホスト・ソフトウェアに通知することとを含む。少なくとも１つの実施例では、グラフィックス・マイクロコントローラ２２３８はまた、グラフィックス・コア２２００のための低電力又はアイドル状態を促進して、オペレーティング・システム及び／又はシステム上のグラフィックス・ドライバ・ソフトウェアとは無関係に、低電力状態移行にわたってグラフィックス・コア２２００内のレジスタを保存及び復元するアビリティをグラフィックス・コア２２００に提供することができる。

【0188】

少なくとも１つの実施例では、グラフィックス・コア２２００は、示されているサブ・コア２２０１Ａ～２２０１Ｆよりも多い又はそれよりも少ない、Ｎ個までのモジュール式サブ・コアを有し得る。Ｎ個のサブ・コアの各セットについて、少なくとも１つの実施例では、グラフィックス・コア２２００はまた、共有機能論理２２１０、共有及び／又はキャッシュ・メモリ２２１２、ジオメトリ／固定機能パイプライン２２１４、並びに様々なグラフィックスを加速し、処理動作を算出するための追加の固定機能論理２２１６を含むことができる。少なくとも１つの実施例では、共有機能論理２２１０は、グラフィックス・コア２２００内の各Ｎ個のサブ・コアによって共有され得る論理ユニット（たとえば、サンプラ、数理、及び／又はスレッド間通信論理）を含むことができる。共有及び／又はキャッシュ・メモリ２２１２は、グラフィックス・コア２２００内のＮ個のサブ・コア２２０１Ａ～２２０１ＦのためのＬＬＣであり得、また、複数のサブ・コアによってアクセス可能である共有メモリとして働き得る。少なくとも１つの実施例では、ジオメトリ／固定機能パイプライン２２１４は、固定機能ブロック２２３０内のジオメトリ／固定機能パイプライン２２３６の代わりに含まれ得、同じ又は同様の論理ユニットを含むことができる。

【0189】

少なくとも１つの実施例では、グラフィックス・コア２２００は、グラフィックス・コア２２００による使用のための様々な固定機能加速論理を含むことができる追加の固定機能論理２２１６を含む。少なくとも１つの実施例では、追加の固定機能論理２２１６は、位置限定シェーディング（ｐｏｓｉｔｉｏｎｏｎｌｙｓｈａｄｉｎｇ）において使用するための追加のジオメトリ・パイプラインを含む。位置限定シェーディングでは、少なくとも２つのジオメトリ・パイプラインが存在するが、ジオメトリ／固定機能パイプライン２２１６、２２３６内の完全ジオメトリ・パイプライン、並びに選別パイプライン（ｃｕｌｌｐｉｐｅｌｉｎｅ）においてであり、選別パイプラインは、追加の固定機能論理２２１６内に含まれ得る追加のジオメトリ・パイプラインである。少なくとも１つの実施例では、選別パイプラインは、完全ジオメトリ・パイプラインの縮小版である。少なくとも１つの実施例では、完全パイプライン及び選別パイプラインは、アプリケーションの異なるインスタンスを実行することができ、各インスタンスは別個のコンテキストを有する。少なくとも１つの実施例では、位置限定シェーディングは、切り捨てられた三角形の長い選別ランを隠すことができ、これは、いくつかのインスタンスにおいてシェーディングがより早く完了することを可能にする。たとえば、少なくとも１つの実施例では、選別パイプラインは、ピクセルの、フレーム・バッファへのラスタ化及びレンダリングを実施することなしに、頂点の位置属性をフェッチし、シェーディングするので、追加の固定機能論理２２１６内の選別パイプライン論理は、メイン・アプリケーションと並列で位置シェーダを実行することができ、全体的に完全パイプラインよりも速く臨界結果（ｃｒｉｔｉｃａｌｒｅｓｕｌｔ）を生成する。少なくとも１つの実施例では、選別パイプラインは、生成された臨界結果を使用して、すべての三角形について、それらの三角形が選別されているかどうかにかかわらず、可視性情報を算出することができる。少なくとも１つの実施例では、（このインスタンスではリプレイ・パイプラインと呼ばれることがある）完全パイプラインは、可視性情報を消費して、選別された三角形を飛ばして可視三角形のみをシェーディングすることができ、可視三角形は、最終的にラスタ化フェーズに渡される。

【0190】

少なくとも１つの実施例では、追加の固定機能論理２２１６はまた、ＣＵＤＡプログラムを加速するために、固定機能行列乗算論理など、汎用処理加速論理を含むことができる。

【0191】

少なくとも１つの実施例では、各グラフィックス・サブ・コア２２０１Ａ～２２０１Ｆは、実行リソースのセットを含み、実行リソースのセットは、グラフィックス・パイプライン、メディア・パイプライン、又はシェーダ・プログラムによる要求に応答して、グラフィックス動作、メディア動作、及びコンピュート動作を実施するために使用され得る。少なくとも１つの実施例では、グラフィックス・サブ・コア２２０１Ａ～２２０１Ｆは、複数のＥＵアレイ２２０２Ａ～２２０２Ｆ、２２０４Ａ～２２０４Ｆと、スレッド・ディスパッチ及びスレッド間通信（「ＴＤ／ＩＣ」：ｔｈｒｅａｄｄｉｓｐａｔｃｈａｎｄｉｎｔｅｒ－ｔｈｒｅａｄｃｏｍｍｕｎｉｃａｔｉｏｎ）論理２２０３Ａ～２２０３Ｆと、３Ｄ（たとえば、テクスチャ）サンプラ２２０５Ａ～２２０５Ｆと、メディア・サンプラ２２０６Ａ～２２０６Ｆと、シェーダ・プロセッサ２２０７Ａ～２２０７Ｆと、共有ローカル・メモリ（「ＳＬＭ」：ｓｈａｒｅｄｌｏｃａｌｍｅｍｏｒｙ）２２０８Ａ～２２０８Ｆとを含む。ＥＵアレイ２２０２Ａ～２２０２Ｆ、２２０４Ａ～２２０４Ｆは、各々、複数の実行ユニットを含み、複数の実行ユニットは、グラフィックス、メディア、又はコンピュート・シェーダ・プログラムを含むグラフィックス動作、メディア動作、又はコンピュート動作のサービスにおいて浮動小数点及び整数／固定小数点論理演算を実施することが可能なＧＰＧＰＵである。少なくとも１つの実施例では、ＴＤ／ＩＣ論理２２０３Ａ～２２０３Ｆは、サブ・コア内の実行ユニットのためのローカル・スレッド・ディスパッチ及びスレッド制御動作を実施し、サブ・コアの実行ユニット上で実行しているスレッド間の通信を容易にする。少なくとも１つの実施例では、３Ｄサンプラ２２０５Ａ～２２０５Ｆは、テクスチャ又は他の３Ｄグラフィックス関係データをメモリに読み取ることができる。少なくとも１つの実施例では、３Ｄサンプラは、所与のテクスチャに関連する、構成されたサンプル状態及びテクスチャ・フォーマットに基づいて、テクスチャ・データを異なるやり方で読み取ることができる。少なくとも１つの実施例では、メディア・サンプラ２２０６Ａ～２２０６Ｆは、メディア・データに関連するタイプ及びフォーマットに基づいて、同様の読取り動作を実施することができる。少なくとも１つの実施例では、各グラフィックス・サブ・コア２２０１Ａ～２２０１Ｆは、代替的に統一３Ｄ及びメディア・サンプラを含むことができる。少なくとも１つの実施例では、サブ・コア２２０１Ａ～２２０１Ｆの各々内の実行ユニット上で実行しているスレッドは、スレッド・グループ内で実行しているスレッドがオンチップ・メモリの共通のプールを使用して実行することを可能にするために、各サブ・コア内の共有ローカル・メモリ２２０８Ａ～２２０８Ｆを利用することができる。

【0192】

少なくとも１つの実施例では、グラフィックス・プロセッサ２２００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0193】

図２３は、少なくとも１つの実施例による、並列処理ユニット（「ＰＰＵ」：ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）２３００を示す。少なくとも１つの実施例では、ＰＰＵ２３００は、ＰＰＵ２３００によって実行された場合、ＰＰＵ２３００に、本明細書で説明されるプロセス及び技法のいくつか又はすべてを実施させる機械可読コードで構成される。少なくとも１つの実施例では、ＰＰＵ２３００はマルチスレッド・プロセッサであり、マルチスレッド・プロセッサは、１つ又は複数の集積回路デバイス上で実装され、（機械可読命令又は単に命令とも呼ばれる）コンピュータ可読命令を複数のスレッド上で並列に処理するように設計されたレイテンシ隠蔽技法としてマルチスレッディングを利用する。少なくとも１つの実施例では、スレッドは、実行のスレッドを指し、ＰＰＵ２３００によって実行されるように構成された命令のセットのインスタンス化である。少なくとも１つの実施例では、ＰＰＵ２３００は、ＬＣＤデバイスなどのディスプレイ・デバイス上での表示のための２次元（「２Ｄ」）画像データを生成するために３次元（「３Ｄ」）グラフィックス・データを処理するためのグラフィックス・レンダリング・パイプラインを実装するように構成されたＧＰＵである。少なくとも１つの実施例では、ＰＰＵ２３００は、線形代数演算及び機械学習演算などの算出を実施するために利用される。図２３は、単に例示を目的とした例示的な並列プロセッサを示し、少なくとも１つの実施例において実装され得るプロセッサ・アーキテクチャの非限定的な実例として解釈されるべきである。

【0194】

少なくとも１つの実施例では、１つ又は複数のＰＰＵ２３００は、高性能コンピューティング（「ＨＰＣ」：ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ）、データ・センタ、及び機械学習アプリケーションを加速するように構成される。少なくとも１つの実施例では、１つ又は複数のＰＰＵ２３００は、ＣＵＤＡプログラムを加速するように構成される。少なくとも１つの実施例では、ＰＰＵ２３００は、限定はしないが、Ｉ／Ｏユニット２３０６と、フロント・エンド・ユニット２３１０と、スケジューラ・ユニット２３１２と、ワーク分散ユニット２３１４と、ハブ２３１６と、クロスバー（「Ｘバー」：ｃｒｏｓｓｂａｒ）２３２０と、１つ又は複数の汎用処理クラスタ（「ＧＰＣ」：ｇｅｎｅｒａｌｐｒｏｃｅｓｓｉｎｇｃｌｕｓｔｅｒ）２３１８と、１つ又は複数のパーティション・ユニット（「メモリ・パーティション・ユニット」）２３２２とを含む。少なくとも１つの実施例では、ＰＰＵ２３００は、１つ又は複数の高速ＧＰＵ相互接続（「ＧＰＵ相互接続」）２３０８を介してホスト・プロセッサ又は他のＰＰＵ２３００に接続される。少なくとも１つの実施例では、ＰＰＵ２３００は、システム・バス又は相互接続２３０２を介してホスト・プロセッサ又は他の周辺デバイスに接続される。少なくとも１つの実施例では、ＰＰＵ２３００は、１つ又は複数のメモリ・デバイス（「メモリ」）２３０４を備えるローカル・メモリに接続される。少なくとも１つの実施例では、メモリ・デバイス２３０４は、限定はしないが、１つ又は複数のダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイスを含む。少なくとも１つの実施例では、１つ又は複数のＤＲＡＭデバイスは、複数のＤＲＡＭダイが各デバイス内で積層された高帯域幅メモリ（「ＨＢＭ」）サブシステムとして構成され、及び／又は構成可能である。

【0195】

少なくとも１つの実施例では、高速ＧＰＵ相互接続２３０８は、ワイヤ・ベースのマルチ・レーン通信リンクを指し得、ワイヤ・ベースのマルチ・レーン通信リンクは、１つ又は複数のＣＰＵと組み合わせられた１つ又は複数のＰＰＵ２３００をスケーリングし、含めるために、システムによって使用され、ＰＰＵ２３００とＣＰＵとの間のキャッシュ・コヒーレンス、及びＣＰＵマスタリングをサポートする。少なくとも１つの実施例では、データ及び／又はコマンドは、高速ＧＰＵ相互接続２３０８によって、ハブ２３１６を通して、１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニット、及び図２３に明示的に示されていないこともある他の構成要素など、ＰＰＵ２３００の他のユニットに／から送信される。

【0196】

少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、システム・バス２３０２を介して（図２３に示されていない）ホスト・プロセッサから通信（たとえば、コマンド、データ）を送受信するように構成される。少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、システム・バス２３０２を介して直接、又は、メモリ・ブリッジなどの１つ又は複数の中間デバイスを通して、ホスト・プロセッサと通信する。少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、システム・バス２３０２を介してＰＰＵ２３００のうちの１つ又は複数などの１つ又は複数の他のプロセッサと通信し得る。少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、ＰＣＩｅインターフェースを、ＰＣＩｅバスを介した通信のために実装する。少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、外部デバイスと通信するためのインターフェースを実装する。

【0197】

少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、システム・バス２３０２を介して受信されたパケットを復号する。少なくとも１つの実施例では、少なくともいくつかのパケットは、ＰＰＵ２３００に様々な動作を実施させるように構成されたコマンドを表す。少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６は、復号されたコマンドを、コマンドによって指定されるＰＰＵ２３００の様々な他のユニットに送信する。少なくとも１つの実施例では、コマンドは、フロント・エンド・ユニット２３１０に送信され、及び／或いは、ハブ２３１６、又は（図２３に明示的に示されていない）１つ又は複数のコピー・エンジン、ビデオ・エンコーダ、ビデオ・デコーダ、電力管理ユニットなど、ＰＰＵ２３００の他のユニットに送信される。少なくとも１つの実施例では、Ｉ／Ｏユニット２３０６はＰＰＵ２３００の様々な論理ユニット間で及びそれらの間で通信をルーティングするように構成される。

【0198】

少なくとも１つの実施例では、ホスト・プロセッサによって実行されるプログラムは、処理のためにワークロードをＰＰＵ２３００に提供するバッファにおいて、コマンド・ストリームを符号化する。少なくとも１つの実施例では、ワークロードは、命令と、それらの命令によって処理されるべきデータとを含む。少なくとも１つの実施例では、バッファは、ホスト・プロセッサとＰＰＵ２３００の両方によってアクセス（たとえば、読取り／書込み）可能であるメモリ中の領域であり、ホスト・インターフェース・ユニットは、Ｉ／Ｏユニット２３０６によってシステム・バス２３０２を介して送信されるメモリ要求を介して、システム・バス２３０２に接続されたシステム・メモリ中のバッファにアクセスするように構成され得る。少なくとも１つの実施例では、ホスト・プロセッサは、バッファにコマンド・ストリームを書き込み、次いでコマンド・ストリームの開始に対するポインタをＰＰＵ２３００に送信し、それにより、フロント・エンド・ユニット２３１０は、１つ又は複数のコマンド・ストリームに対するポインタを受信し、１つ又は複数のコマンド・ストリームを管理して、コマンド・ストリームからコマンドを読み取り、コマンドをＰＰＵ２３００の様々なユニットにフォワーディングする。

【0199】

少なくとも１つの実施例では、フロント・エンド・ユニット２３１０は、１つ又は複数のコマンド・ストリームによって定義されるタスクを処理するように様々なＧＰＣ２３１８を構成するスケジューラ・ユニット２３１２に結合される。少なくとも１つの実施例では、スケジューラ・ユニット２３１２は、スケジューラ・ユニット２３１２によって管理される様々なタスクに関係する状態情報を追跡するように構成され、状態情報は、ＧＰＣ２３１８のうちのどれにタスクが割り当てられるか、タスクがアクティブであるのか非アクティブであるのか、タスクに関連する優先レベルなどを示し得る。少なくとも１つの実施例では、スケジューラ・ユニット２３１２は、ＧＰＣ２３１８のうちの１つ又は複数上での複数のタスクの実行を管理する。

【0200】

少なくとも１つの実施例では、スケジューラ・ユニット２３１２は、ＧＰＣ２３１８上での実行のためのタスクをディスパッチするように構成されたワーク分散ユニット２３１４に結合される。少なくとも１つの実施例では、ワーク分散ユニット２３１４は、スケジューラ・ユニット２３１２から受信された、スケジューリングされたタスクの数を追跡し、ワーク分散ユニット２３１４は、ＧＰＣ２３１８の各々について、ペンディング・タスク・プール及びアクティブ・タスク・プールを管理する。少なくとも１つの実施例では、ペンディング・タスク・プールは、特定のＧＰＣ２３１８によって処理されるように割り当てられたタスクを含んでいるいくつかのスロット（たとえば、３２個のスロット）を備え、アクティブ・タスク・プールは、ＧＰＣ２３１８によってアクティブに処理されているタスクのためのいくつかのスロット（たとえば、４つのスロット）を備え得、それにより、ＧＰＣ２３１８のうちの１つがタスクの実行を完了したとき、ＧＰＣ２３１８のためのアクティブ・タスク・プールからそのタスクが排除され、ペンディング・タスク・プールからの他のタスクのうちの１つが選択され、ＧＰＣ２３１８上での実行のためにスケジューリングされる。少なくとも１つの実施例では、データ依存性が解決されるのを待っている間など、アクティブ・タスクがＧＰＣ２３１８上でアイドルである場合、アクティブ・タスクがＧＰＣ２３１８から排除され、ペンディング・タスク・プールに戻され、その間に、ペンディング・タスク・プール中の別のタスクが選択され、ＧＰＣ２３１８上での実行のためにスケジューリングされる。

【0201】

少なくとも１つの実施例では、ワーク分散ユニット２３１４は、Ｘバー２３２０を介して１つ又は複数のＧＰＣ２３１８と通信する。少なくとも１つの実施例では、Ｘバー２３２０は、ＰＰＵ２３００の多くのユニットをＰＰＵ２３００の他のユニットに結合する相互接続ネットワークであり、ワーク分散ユニット２３１４を特定のＧＰＣ２３１８に結合するように構成され得る。少なくとも１つの実施例では、ＰＰＵ２３００の１つ又は複数の他のユニットも、ハブ２３１６を介してＸバー２３２０に接続され得る。

【0202】

少なくとも１つの実施例では、タスクはスケジューラ・ユニット２３１２によって管理され、ワーク分散ユニット２３１４によってＧＰＣ２３１８のうちの１つにディスパッチされる。ＧＰＣ２３１８は、タスクを処理し、結果を生成するように構成される。少なくとも１つの実施例では、結果は、ＧＰＣ２３１８内の他のタスクによって消費されるか、Ｘバー２３２０を介して異なるＧＰＣ２３１８にルーティングされるか、又はメモリ２３０４に記憶され得る。少なくとも１つの実施例では、結果は、パーティション・ユニット２３２２を介してメモリ２３０４に書き込まれ得、パーティション・ユニット２３２２は、メモリ２３０４への／からのデータの読取り及び書込みを行うためのメモリ・インターフェースを実装する。少なくとも１つの実施例では、結果は、高速ＧＰＵ相互接続２３０８を介して別のＰＰＵ２３０４又はＣＰＵに送信され得る。少なくとも１つの実施例では、ＰＰＵ２３００は、限定はしないが、ＰＰＵ２３００に結合された別個の個別メモリ・デバイス２３０４の数に等しいＵ個のパーティション・ユニット２３２２を含む。

【0203】

少なくとも１つの実施例では、ホスト・プロセッサはドライバ・カーネルを実行し、ドライバ・カーネルは、ホスト・プロセッサ上で実行している１つ又は複数のアプリケーションがＰＰＵ２３００上での実行のために動作をスケジューリングすることを可能にするアプリケーション・プログラミング・インターフェース（「ＡＰＩ」：ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ）を実装する。少なくとも１つの実施例では、複数のコンピュート・アプリケーションが、ＰＰＵ２３００によって同時に実行され、ＰＰＵ２３００は、複数のコンピュート・アプリケーションに対して、隔離、サービス品質（「ＱｏＳ」：ｑｕａｌｉｔｙｏｆｓｅｒｖｉｃｅ）、及び独立したアドレス空間を提供する。少なくとも１つの実施例では、アプリケーションは、ＰＰＵ２３００による実行のための１つ又は複数のタスクをドライバ・カーネルに生成させる（たとえば、ＡＰＩコールの形態の）命令を生成し、ドライバ・カーネルは、ＰＰＵ２３００によって処理されている１つ又は複数のストリームにタスクを出力する。少なくとも１つの実施例では、各タスクは、ワープと呼ばれることがある関係スレッドの１つ又は複数のグループを備える。少なくとも１つの実施例では、ワープは、並列に実行され得る複数の関係スレッド（たとえば、３２個のスレッド）を備える。少なくとも１つの実施例では、連動スレッドは、タスクを実施するための命令を含み、共有メモリを通してデータを交換する、複数のスレッドを指すことができる。

【0204】

少なくとも１つの実施例では、ＰＰＵ２３００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の少なくとも一部分を実行するために使用され得る。

【0205】

図２４は、少なくとも１つの実施例による、ＧＰＣ２４００を示す。少なくとも１つの実施例では、ＧＰＣ２４００は、図２３のＧＰＣ２３１８である。少なくとも１つの実施例では、各ＧＰＣ２４００は、限定はしないが、タスクを処理するためのいくつかのハードウェア・ユニットを含み、各ＧＰＣ２４００は、限定はしないが、パイプライン・マネージャ２４０２、プレ・ラスタ演算ユニット（「ＰＲＯＰ」：ｐｒｅ－ｒａｓｔｅｒｏｐｅｒａｔｉｏｎ）２４０４、ラスタ・エンジン２４０８、ワーク分散クロスバー（「ＷＤＸ」：ｗｏｒｋｄｉｓｔｒｉｂｕｔｉｏｎｃｒｏｓｓｂａｒ）２４１６、ＭＭＵ２４１８、１つ又は複数のデータ処理クラスタ（「ＤＰＣ」：ＤａｔａＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）２４０６、及びパーツの任意の好適な組合せを含む。

【0206】

少なくとも１つの実施例では、ＧＰＣ２４００の動作は、パイプライン・マネージャ２４０２によって制御される。少なくとも１つの実施例では、パイプライン・マネージャ２４０２は、ＧＰＣ２４００に割り振られたタスクを処理するための１つ又は複数のＤＰＣ２４０６の構成を管理する。少なくとも１つの実施例では、パイプライン・マネージャ２４０２は、グラフィックス・レンダリング・パイプラインの少なくとも一部分を実装するように、１つ又は複数のＤＰＣ２４０６のうちの少なくとも１つを構成する。少なくとも１つの実施例では、ＤＰＣ２４０６は、プログラマブル・ストリーミング・マルチプロセッサ（「ＳＭ」：ｓｔｒｅａｍｉｎｇｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）２４１４上で頂点シェーダ・プログラムを実行するように構成される。少なくとも１つの実施例では、パイプライン・マネージャ２４０２は、ワーク分散ユニットから受信されたパケットを、ＧＰＣ２４００内の適切な論理ユニットにルーティングするように構成され、少なくとも１つの実施例では、いくつかのパケットは、ＰＲＯＰ２４０４中の固定機能ハードウェア・ユニット及び／又はラスタ・エンジン２４０８にルーティングされ得、他のパケットは、プリミティブ・エンジン２４１２又はＳＭ２４１４による処理のためにＤＰＣ２４０６にルーティングされ得る。少なくとも１つの実施例では、パイプライン・マネージャ２４０２は、コンピューティング・パイプラインを実装するように、ＤＰＣ２４０６のうちの少なくとも１つを構成する。少なくとも１つの実施例では、パイプライン・マネージャ２４０２は、ＣＵＤＡプログラムの少なくとも一部分を実行するように、ＤＰＣ２４０６のうちの少なくとも１つを構成する。

【0207】

少なくとも１つの実施例では、ＰＲＯＰユニット２４０４は、ラスタ・エンジン２４０８及びＤＰＣ２４０６によって生成されたデータを、図２３と併せて上記でより詳細に説明されたメモリ・パーティション・ユニット２３２２など、パーティション・ユニット中のラスタ演算（「ＲＯＰ」：ＲａｓｔｅｒＯｐｅｒａｔｉｏｎ）ユニットにルーティングするように構成される。少なくとも１つの実施例では、ＰＲＯＰユニット２４０４は、色ブレンディングのための最適化を実施すること、ピクセル・データを組織化すること、アドレス・トランスレーションを実施することなどを行うように構成される。少なくとも１つの実施例では、ラスタ・エンジン２４０８は、限定はしないが、様々なラスタ演算を実施するように構成されたいくつかの固定機能ハードウェア・ユニットを含み、少なくとも１つの実施例では、ラスタ・エンジン２４０８は、限定はしないが、セットアップ・エンジン、粗いラスタ・エンジン、選別エンジン、クリッピング・エンジン、細かいラスタ・エンジン、タイル合体エンジン、及びそれらの任意の好適な組合せを含む。少なくとも１つの実施例では、セットアップ・エンジンは、変換された頂点を受信し、頂点によって定義された幾何学的プリミティブに関連する平面方程式を生成し、平面方程式は、プリミティブについてのカバレージ情報（たとえば、タイルのためのｘ、ｙカバレージ・マスク）を生成するために粗いラスタ・エンジンに送信され、粗いラスタ・エンジンの出力は選別エンジンに送信され、ｚテストに落ちたプリミティブに関連するフラグメントが選別され、クリッピング・エンジンに送信され、視錐台の外側にあるフラグメントがクリップされる。少なくとも１つの実施例では、クリッピング及び選別を通過したフラグメントは、セットアップ・エンジンによって生成された平面方程式に基づいてピクセル・フラグメントについての属性を生成するために、細かいラスタ・エンジンに渡される。少なくとも１つの実施例では、ラスタ・エンジン２４０８の出力は、ＤＰＣ２４０６内に実装されたフラグメント・シェーダによってなど、任意の好適なエンティティによって処理されるべきフラグメントを含む。

【0208】

少なくとも１つの実施例では、ＧＰＣ２４００中に含まれる各ＤＰＣ２４０６は、限定はしないが、Ｍパイプ・コントローラ（「ＭＰＣ」：Ｍ－ＰｉｐｅＣｏｎｔｒｏｌｌｅｒ）２４１０、プリミティブ・エンジン２４１２、１つ又は複数のＳＭ２４１４、及びそれらの任意の好適な組合せを含む。少なくとも１つの実施例では、ＭＰＣ２４１０は、ＤＰＣ２４０６の動作を制御して、パイプライン・マネージャ２４０２から受信されたパケットを、ＤＰＣ２４０６中の適切なユニットにルーティングする。少なくとも１つの実施例では、頂点に関連するパケットは、頂点に関連する頂点属性をメモリからフェッチするように構成されたプリミティブ・エンジン２４１２にルーティングされ、対照的に、シェーダ・プログラムに関連するパケットは、ＳＭ２４１４に送信され得る。

【0209】

少なくとも１つの実施例では、ＳＭ２４１４は、限定はしないが、いくつかのスレッドによって表されたタスクを処理するように構成されたプログラマブル・ストリーミング・プロセッサを含む。少なくとも１つの実施例では、ＳＭ２４１４はマルチスレッド化され、スレッドの特定のグループからの複数のスレッド（たとえば、３２個のスレッド）を同時に実行するように構成され、ＳＩＭＤアーキテクチャを実装し、スレッドのグループ（たとえば、ワープ）中の各スレッドは、命令の同じセットに基づいてデータの異なるセットを処理するように構成される。少なくとも１つの実施例では、スレッドのグループ中のすべてのスレッドが同じ命令を実行する。少なくとも１つの実施例では、ＳＭ２４１４は、ＳＩＭＴアーキテクチャを実装し、スレッドのグループ中の各スレッドは、命令の同じセットに基づいて、データの異なるセットを処理するように構成されるが、スレッドのグループ中の個々のスレッドは、実行中に発散することを可能にされる。少なくとも１つの実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が、各ワープについて維持されて、ワープ内のスレッドが発散するときのワープ間の同時処理及びワープ内の直列実行を可能にする。別の実施例では、プログラム・カウンタ、コール・スタック、及び実行状態が、各個々のスレッドについて維持されて、すべてのスレッド間、ワープ内及びワープ間での等しい同時処理を可能にする。少なくとも１つの実施例では、実行状態が、各個々のスレッドについて維持され、同じ命令を実行しているスレッドが、より良い効率性のために収束され、並列に実行され得る。ＳＭ２４１４の少なくとも１つの実施例は、図２５と併せてさらに詳細に説明される。

【0210】

少なくとも１つの実施例では、ＭＭＵ２４１８は、ＧＰＣ２４００とメモリ・パーティション・ユニット（たとえば、図２３のパーティション・ユニット２３２２）との間のインターフェースを提供し、ＭＭＵ２４１８は、仮想アドレスから物理アドレスへのトランスレーションと、メモリ保護と、メモリ要求の調停とを提供する。少なくとも１つの実施例では、ＭＭＵ２４１８は、仮想アドレスからメモリ中の物理アドレスへのトランスレーションを実施するための１つ又は複数のトランスレーション・ルックアサイド・バッファ（ＴＬＢ）を提供する。

【0211】

図２５は、少なくとも１つの実施例による、ストリーミング・マルチプロセッサ（「ＳＭ」）２５００を示す。少なくとも１つの実施例では、ＳＭ２５００は、図２４のＳＭ２４１４である。少なくとも１つの実施例では、ＳＭ２５００は、限定はしないが、命令キャッシュ２５０２、１つ又は複数のスケジューラ・ユニット２５０４、レジスタ・ファイル２５０８、１つ又は複数の処理コア（「コア」）２５１０、１つ又は複数の特殊機能ユニット（「ＳＦＵ」：ｓｐｅｃｉａｌｆｕｎｃｔｉｏｎｕｎｉｔ）２５１２、１つ又は複数のＬＳＵ２５１４、相互接続ネットワーク２５１６、共有メモリ／Ｌ１キャッシュ２５１８、及びそれらの任意の好適な組合せを含む。少なくとも１つの実施例では、ワーク分散ユニットは、並列処理ユニット（ＰＰＵ）のＧＰＣ上での実行のためにタスクをディスパッチし、各タスクは、ＧＰＣ内の特定のデータ処理クラスタ（ＤＰＣ）に割り振られ、タスクがシェーダ・プログラムに関連する場合、タスクはＳＭ２５００のうちの１つに割り振られる。少なくとも１つの実施例では、スケジューラ・ユニット２５０４は、ワーク分散ユニットからタスクを受信し、ＳＭ２５００に割り当てられた１つ又は複数のスレッド・ブロックについて命令スケジューリングを管理する。少なくとも１つの実施例では、スケジューラ・ユニット２５０４は、並列スレッドのワープとしての実行のためにスレッド・ブロックをスケジューリングし、各スレッド・ブロックは、少なくとも１つのワープを割り振られる。少なくとも１つの実施例では、各ワープは、スレッドを実行する。少なくとも１つの実施例では、スケジューラ・ユニット２５０４は、複数の異なるスレッド・ブロックを管理して、異なるスレッド・ブロックにワープを割り振り、次いで、複数の異なる連動グループからの命令を、各クロック・サイクル中に様々な機能ユニット（たとえば、処理コア２５１０、ＳＦＵ２５１２、及びＬＳＵ２５１４）にディスパッチする。

【0212】

少なくとも１つの実施例では、「連動グループ」は、通信するスレッドのグループを組織化するためのプログラミング・モデルを指し得、プログラミング・モデルは、スレッドが通信している粒度を開発者が表現することを可能にして、より豊富でより効率的な並列分解の表現を可能にする。少なくとも１つの実施例では、連動起動ＡＰＩは、並列アルゴリズムの実行のためにスレッド・ブロックの間の同期をサポートする。少なくとも１つの実施例では、従来のプログラミング・モデルのＡＰＩは、連動スレッドを同期するための単一の簡単な構築物、すなわちスレッド・ブロックのすべてのスレッドにわたるバリア（たとえば、ｓｙｎｃｔｈｒｅａｄｓ（）関数）を提供する。しかしながら、少なくとも１つの実施例では、プログラマは、スレッド・ブロックよりも小さい粒度においてスレッドのグループを定義し、定義されたグループ内で同期して、集合的なグループ全般にわたる機能インターフェースの形態で、より高い性能、設計のフレキシビリティ、及びソフトウェア再使用を可能にし得る。少なくとも１つの実施例では、連動グループは、プログラマが、サブ・ブロック粒度及びマルチ・ブロック粒度において、スレッドのグループを明示的に定義し、連動グループ中のスレッドに対する同期などの集合的な動作を実施することを可能にする。少なくとも１つの実施例では、サブ・ブロック粒度は、単一スレッドと同じくらい小さい。少なくとも１つの実施例では、プログラミング・モデルは、ソフトウェア境界にわたるクリーンな合成をサポートし、それにより、ライブラリ及びユーティリティ関数が、収束に関して仮定する必要なしにそれらのローカル・コンテキスト内で安全に同期することができる。少なくとも１つの実施例では、連動グループ・プリミティブは、限定はしないが、プロデューサ－コンシューマ並列性、日和見並列性（ｏｐｐｏｒｔｕｎｉｓｔｉｃｐａｒａｌｌｅｌｉｓｍ）、及びスレッド・ブロックのグリッド全体にわたるグローバルな同期を含む、新しいパターンの連動並列性を可能にする。

【0213】

少なくとも１つの実施例では、ディスパッチ・ユニット２５０６は、機能ユニットのうちの１つ又は複数に命令を送信するように構成され、スケジューラ・ユニット２５０４は、限定はしないが、同じワープからの２つの異なる命令が各クロック・サイクル中にディスパッチされることを可能にする２つのディスパッチ・ユニット２５０６を含む。少なくとも１つの実施例では、各スケジューラ・ユニット２５０４は、単一のディスパッチ・ユニット２５０６又は追加のディスパッチ・ユニット２５０６を含む。

【0214】

少なくとも１つの実施例では、各ＳＭ２５００は、少なくとも１つの実施例では、限定はしないが、ＳＭ２５００の機能ユニットにレジスタのセットを提供するレジスタ・ファイル２５０８を含む。少なくとも１つの実施例では、レジスタ・ファイル２５０８は、各機能ユニットがレジスタ・ファイル２５０８の専用部分を割り振られるように、機能ユニットの各々の間で分割される。少なくとも１つの実施例では、レジスタ・ファイル２５０８は、ＳＭ２５００によって実行されている異なるワープ間で分割され、レジスタ・ファイル２５０８は、機能ユニットのデータ経路に接続されたオペランドのための一時的ストレージを提供する。少なくとも１つの実施例では、各ＳＭ２５００は、限定はしないが、複数のＬ個の処理コア２５１０を含む。少なくとも１つの実施例では、ＳＭ２５００は、限定はしないが、多数の（たとえば、１２８個以上の）個別の処理コア２５１０を含む。少なくとも１つの実施例では、各処理コア２５１０は、限定はしないが、完全にパイプライン化された、単精度の、倍精度の、及び／又は混合精度の処理ユニットを含み、これは、限定はしないが、浮動小数点算術論理ユニット及び整数算術論理ユニットを含む。少なくとも１つの実施例では、浮動小数点算術論理ユニットは、浮動小数点算術のためのＩＥＥＥ７５４－２００８規格を実装する。少なくとも１つの実施例では、処理コア２５１０は、限定はしないが、６４個の単精度（３２ビット）浮動小数点コアと、６４個の整数コアと、３２個の倍精度（６４ビット）浮動小数点コアと、８つのテンソル・コアとを含む。

【0215】

少なくとも１つの実施例では、テンソル・コアは、行列演算を実施するように構成される。少なくとも１つの実施例では、１つ又は複数のテンソル・コアは、処理コア２５１０中に含まれる。少なくとも１つの実施例では、テンソル・コアは、ニューラル・ネットワーク訓練及び推論のための畳み込み演算など、深層学習行列算術を実施するように構成される。少なくとも１つの実施例では、各テンソル・コアは、４×４の行列で動作し、行列の積和演算（ｍａｔｒｉｘｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅｏｐｅｒａｔｉｏｎ）Ｄ＝Ａ×Ｂ＋Ｃを実施し、ここで、Ａ、Ｂ、Ｃ、及びＤは４×４の行列である。

【0216】

少なくとも１つの実施例では、行列乗算入力Ａ及びＢは、１６ビットの浮動小数点行列であり、和の行列Ｃ及びＤは、１６ビットの浮動小数点又は３２ビットの浮動小数点行列である。少なくとも１つの実施例では、テンソル・コアは、３２ビットの浮動小数点の和をもつ１６ビットの浮動小数点入力データで動作する。少なくとも１つの実施例では、１６ビットの浮動小数点乗算は、６４個の演算を使用し、結果的に完全精度の積をもたらし、次いで、完全精度の積が、４×４×４の行列乗算についての他の中間積との３２ビット浮動小数点加算を使用して加算される。少なくとも１つの実施例では、これらの小さい要素から築かれる、はるかに大きい２次元又はさらに高次元の行列演算を実施するために、テンソル・コアが使用される。少なくとも１つの実施例では、ＣＵＤＡ－Ｃ＋＋ＡＰＩなどのＡＰＩは、ＣＵＤＡ－Ｃ＋＋プログラムからテンソル・コアを効率的に使用するために、特殊な行列ロード演算、行列積和演算、及び行列ストア演算を公開している。少なくとも１つの実施例では、ＣＵＤＡレベルにおいて、ワープ・レベル・インターフェースは、ワープの３２個のスレッドすべてに及ぶ１６×１６サイズの行列を仮定する。

【0217】

少なくとも１つの実施例では、各ＳＭ２５００は、限定はしないが、特殊関数（たとえば、属性評価、逆数平方根など）を実施するＭ個のＳＦＵ２５１２を含む。少なくとも１つの実施例では、ＳＦＵ２５１２は、限定はしないが、階層ツリー・データ構造をトラバースするように構成されたツリー・トラバーサル・ユニットを含む。少なくとも１つの実施例では、ＳＦＵ２５１２は、限定はしないが、テクスチャ・マップ・フィルタリング動作を実施するように構成されたテクスチャ・ユニットを含む。少なくとも１つの実施例では、テクスチャ・ユニットは、メモリ及びサンプル・テクスチャ・マップからテクスチャ・マップ（たとえば、テクセルの２Ｄアレイ）をロードして、ＳＭ２５００によって実行されるシェーダ・プログラムにおける使用のためのサンプリングされたテクスチャ値を作り出すように構成される。少なくとも１つの実施例では、テクスチャ・マップは、共有メモリ／Ｌ１キャッシュ２５１８に記憶される。少なくとも１つの実施例では、テクスチャ・ユニットは、ミップ・マップ（たとえば、詳細のレベルが異なるテクスチャ・マップ）を使用したフィルタリング動作などのテクスチャ動作を実装する。少なくとも１つの実施例では、各ＳＭ２５００は、限定はしないが、２つのテクスチャ・ユニットを含む。

【0218】

少なくとも１つの実施例では、各ＳＭ２５００は、限定はしないが、共有メモリ／Ｌ１キャッシュ２５１８とレジスタ・ファイル２５０８との間でロード及びストア動作を実装するＮ個のＬＳＵ２５１４を含む。少なくとも１つの実施例では、各ＳＭ２５００は、限定はしないが、相互接続ネットワーク２５１６を含み、相互接続ネットワーク２５１６は、機能ユニットの各々をレジスタ・ファイル２５０８に接続し、ＬＳＵ２５１４をレジスタ・ファイル２５０８及び共有メモリ／Ｌ１キャッシュ２５１８に接続する。少なくとも１つの実施例では、相互接続ネットワーク２５１６はクロスバーであり、クロスバーは、機能ユニットのうちのいずれかをレジスタ・ファイル２５０８中のレジスタのうちのいずれかに接続し、ＬＳＵ２５１４をレジスタ・ファイル２５０８と共有メモリ／Ｌ１キャッシュ２５１８中のメモリ・ロケーションとに接続するように構成され得る。

【0219】

少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２５１８は、ＳＭ２５００とプリミティブ・エンジンとの間及びＳＭ２５００中のスレッド間でのデータ・ストレージ及び通信を可能にするオンチップ・メモリのアレイである。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２５１８は、限定はしないが、１２８ＫＢのストレージ容量を備え、ＳＭ２５００からパーティション・ユニットへの経路中にある。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２５１８は、読取り及び書込みをキャッシュするために使用される。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２５１８、Ｌ２キャッシュ、及びメモリのうちの１つ又は複数は、補助ストアである。

【0220】

少なくとも１つの実施例では、データ・キャッシュと共有メモリ機能性とを単一のメモリ・ブロックに組み合わせることは、両方のタイプのメモリ・アクセスについて改善された性能を提供する。少なくとも１つの実施例では、容量は、共有メモリが容量の半分を使用するように構成され、テクスチャ及びロード／ストア動作が残りの容量を使用することができる場合など、共有メモリを使用しないプログラムによってキャッシュとして使用されるか、又は使用可能である。少なくとも１つの実施例では、共有メモリ／Ｌ１キャッシュ２５１８内の統合は、共有メモリ／Ｌ１キャッシュ２５１８が、データをストリーミングするための高スループット管として機能しながら、同時に高帯域幅及び低レイテンシのアクセスを、頻繁に再使用されるデータに提供することを可能にする。少なくとも１つの実施例では、汎用並列算出のために構成されたとき、グラフィックス処理と比較してより簡単な構成が使用され得る。少なくとも１つの実施例では、固定機能ＧＰＵがバイパスされて、はるかに簡単なプログラミング・モデルを作成する。少なくとも１つの実施例では及び汎用並列算出構成では、ワーク分散ユニットは、スレッドのブロックをＤＰＣに直接割り当て、分散させる。少なくとも１つの実施例では、ブロック中のスレッドは、各スレッドが一意の結果を生成することを確実にするように、計算において一意のスレッドＩＤを使用して、同じプログラムを実行し、ＳＭ２５００を使用してプログラムを実行し、計算を実施し、共有メモリ／Ｌ１キャッシュ２５１８を使用してスレッド間で通信し、ＬＳＵ２５１４を使用して、共有メモリ／Ｌ１キャッシュ２５１８及びメモリ・パーティション・ユニットを通してグローバル・メモリを読み取り、書き込む。少なくとも１つの実施例では、汎用並列算出のために構成されたとき、ＳＭ２５００は、ＤＰＣ上で新しいワークを起動するためにスケジューラ・ユニット２５０４が使用することができるコマンドを書き込む。

【0221】

少なくとも１つの実施例では、ＰＰＵは、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、サーバ、スーパーコンピュータ、スマート・フォン（たとえば、ワイヤレス・ハンドヘルド・デバイス）、ＰＤＡ、デジタル・カメラ、車両、頭部装着型ディスプレイ、ハンドヘルド電子デバイスなどに含まれるか、又はそれらに結合される。少なくとも１つの実施例では、ＰＰＵは、単一の半導体基板上で具体化される。少なくとも１つの実施例では、ＰＰＵは、追加のＰＰＵ、メモリ、ＲＩＳＣＣＰＵ、ＭＭＵ、デジタル－アナログ変換器（「ＤＡＣ」：ｄｉｇｉｔａｌ－ｔｏ－ａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）などの１つ又は複数の他のデバイスとともにＳｏＣ中に含まれる。

【0222】

少なくとも１つの実施例では、ＰＰＵは、１つ又は複数のメモリ・デバイスを含むグラフィックス・カード上に含まれ得る。少なくとも１つの実施例では、グラフィックス・カードは、デスクトップ・コンピュータのマザーボード上のＰＣＩｅスロットとインターフェースするように構成され得る。少なくとも１つの実施例では、ＰＰＵは、マザーボードのチップセット中に含まれる統合されたＧＰＵ（「ｉＧＰＵ」：ｉｎｔｅｇｒａｔｅｄＧＰＵ）であり得る。

【0223】

汎用コンピューティングのためのソフトウェア構築物
以下の図は、限定はしないが、少なくとも１つの実施例を実装するための例示的なソフトウェア構築物を記載する。

【0224】

図２６は、少なくとも１つの実施例による、プログラミング・プラットフォームのソフトウェア・スタックを示す。少なくとも１つの実施例では、プログラミング・プラットフォームは、算出タスクを加速するために、コンピューティング・システム上のハードウェアを活用するためのプラットフォームである。少なくとも１つの実施例では、プログラミング・プラットフォームは、ライブラリ、コンパイラ指令、及び／又はプログラミング言語への拡張を通して、ソフトウェア開発者にとってアクセス可能であり得る。少なくとも１つの実施例では、プログラミング・プラットフォームは、限定はしないが、ＣＵＤＡ、Ｒａｄｅｏｎオープン・コンピュート・プラットフォーム（「ＲＯＣｍ」：ＲａｄｅｏｎＯｐｅｎＣｏｍｐｕｔｅＰｌａｔｆｏｒｍ）、ＯｐｅｎＣＬ（ＯｐｅｎＣＬ（商標）はクロノス・グループ（Ｋｈｒｏｎｏｓｇｒｏｕｐ）によって開発される）、ＳＹＣＬ、又はＩｎｔｅｌＯｎｅＡＰＩであり得る。

【0225】

少なくとも１つの実施例では、プログラミング・プラットフォームのソフトウェア・スタック２６００は、アプリケーション２６０１のための実行環境を提供する。少なくとも１つの実施例では、アプリケーション２６０１は、ソフトウェア・スタック２６００上で起動されることが可能な任意のコンピュータ・ソフトウェアを含み得る。少なくとも１つの実施例では、アプリケーション２６０１は、限定はしないが、人工知能（「ＡＩ」：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）／機械学習（「ＭＬ」：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）アプリケーション、高性能コンピューティング（「ＨＰＣ」）アプリケーション、仮想デスクトップ・インフラストラクチャ（「ＶＤＩ」：ｖｉｒｔｕａｌｄｅｓｋｔｏｐｉｎｆｒａｓｔｒｕｃｔｕｒｅ）、又はデータ・センタ・ワークロードを含み得る。

【0226】

少なくとも１つの実施例では、アプリケーション２６０１及びソフトウェア・スタック２６００は、ハードウェア２６０７上で稼働する。少なくとも１つの実施例では、ハードウェア２６０７は、１つ又は複数のＧＰＵ、ＣＰＵ、ＦＰＧＡ、ＡＩエンジン、及び／又はプログラミング・プラットフォームをサポートする他のタイプのコンピュート・デバイスを含み得る。ＣＵＤＡの場合など、少なくとも１つの実施例では、ソフトウェア・スタック２６００は、ベンダー固有であり、（１つ又は複数の）特定のベンダーからのデバイスのみと互換性があり得る。ＯｐｅｎＣＬの場合など、少なくとも１つの実施例では、ソフトウェア・スタック２６００は、異なるベンダーからのデバイスで使用され得る。少なくとも１つの実施例では、ハードウェア２６０７は、アプリケーション・プログラミング・インターフェース（「ＡＰＩ」）コールを介して算出タスクを実施するためにアクセスされ得るもう１つのデバイスに接続されたホストを含む。少なくとも１つの実施例では、限定はしないが、ＣＰＵ（ただし、コンピュート・デバイスをも含み得る）及びそのメモリを含み得る、ハードウェア２６０７内のホストとは対照的に、ハードウェア２６０７内のデバイスは、限定はしないが、ＧＰＵ、ＦＰＧＡ、ＡＩエンジン、又は他のコンピュート・デバイス（ただし、ＣＰＵをも含み得る）及びそのメモリを含み得る。

【0227】

少なくとも１つの実施例では、プログラミング・プラットフォームのソフトウェア・スタック２６００は、限定はしないが、いくつかのライブラリ２６０３と、ランタイム２６０５と、デバイス・カーネル・ドライバ２６０６とを含む。少なくとも１つの実施例では、ライブラリ２６０３の各々は、コンピュータ・プログラムによって使用され、ソフトウェア開発中に活用され得る、データ及びプログラミング・コードを含み得る。少なくとも１つの実施例では、ライブラリ２６０３は、限定はしないが、事前に書かれたコード及びサブルーチン、クラス、値、タイプ仕様、構成データ、ドキュメンテーション、ヘルプ・データ、並びに／又はメッセージ・テンプレートを含み得る。少なくとも１つの実施例では、ライブラリ２６０３は、１つ又は複数のタイプのデバイス上での実行のために最適化される機能を含む。少なくとも１つの実施例では、ライブラリ２６０３は、限定はしないが、デバイス上で数学、深層学習、及び／又は他のタイプの動作を実施するための機能を含み得る。少なくとも１つの実施例では、ライブラリ２６０３は、ライブラリ２６０３において実装される機能を公開する、１つ又は複数のＡＰＩを含み得る、対応するＡＰＩ２６０２に関連する。

【0228】

少なくとも１つの実施例では、アプリケーション２６０１は、図３１～図３３と併せて以下でより詳細に説明されるように、実行可能コードにコンパイルされるソース・コードとして書かれる。少なくとも１つの実施例では、アプリケーション２６０１の実行可能コードは、少なくとも部分的に、ソフトウェア・スタック２６００によって提供される実行環境上で稼働し得る。少なくとも１つの実施例では、アプリケーション２６０１の実行中に、ホストとは対照的な、デバイス上で稼働する必要があるコードに達し得る。少なくとも１つの実施例では、そのような場合、デバイス上で必須のコードをロード及び起動するために、ランタイム２６０５がコールされ得る。少なくとも１つの実施例では、ランタイム２６０５は、アプリケーションＳ０１の実行をサポートすることが可能である、任意の技術的に実現可能なランタイム・システムを含み得る。

【0229】

少なくとも１つの実施例では、ランタイム２６０５は、（１つ又は複数の）ＡＰＩ２６０４として示されている、対応するＡＰＩに関連する、１つ又は複数のランタイム・ライブラリとして実装される。少なくとも１つの実施例では、そのようなランタイム・ライブラリのうちの１つ又は複数は、限定はしないが、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、及び／又は同期のための機能を含み得る。少なくとも１つの実施例では、メモリ管理機能は、限定はしないが、デバイス・メモリを割り振り、割振り解除し、コピーし、並びにホスト・メモリとデバイス・メモリとの間でデータを転送するための機能を含み得る。少なくとも１つの実施例では、実行制御機能は、限定はしないが、デバイス上で機能（機能がホストからコール可能なグローバル機能であるとき、「カーネル」と呼ばれることがある）を起動し、デバイス上で実行されるべき所与の機能のためのランタイム・ライブラリによって維持されるバッファ中に属性値をセットするための機能を含み得る。

【0230】

少なくとも１つの実施例では、ランタイム・ライブラリ及び対応する（１つ又は複数の）ＡＰＩ２６０４は、任意の技術的に実現可能な様式で実装され得る。少なくとも１つの実施例では、ある（又は任意の数の）ＡＰＩは、デバイスのきめ細かい制御のための機能の低レベルのセットを公開し得るが、別の（又は任意の数の）ＡＰＩは、そのような機能のより高いレベルのセットを公開し得る。少なくとも１つの実施例では、高レベル・ランタイムＡＰＩは、低レベルＡＰＩの上に築かれ得る。少なくとも１つの実施例では、ランタイムＡＰＩのうちの１つ又は複数は、言語依存しないランタイムＡＰＩの上に階層化された言語固有ＡＰＩであり得る。

【0231】

少なくとも１つの実施例では、デバイス・カーネル・ドライバ２６０６は、基礎をなすデバイスとの通信を容易にするように構成される。少なくとも１つの実施例では、デバイス・カーネル・ドライバ２６０６は、（１つ又は複数の）ＡＰＩ２６０４などのＡＰＩ及び／又は他のソフトウェアが依拠する、低レベル機能性を提供し得る。少なくとも１つの実施例では、デバイス・カーネル・ドライバ２６０６は、ランタイムにおいて中間表現（「ＩＲ」：ｉｎｔｅｒｍｅｄｉａｔｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）コードをバイナリ・コードにコンパイルするように構成され得る。少なくとも１つの実施例では、ＣＵＤＡの場合、デバイス・カーネル・ドライバ２６０６は、ハードウェア固有でない並列スレッド実行（「ＰＴＸ」：ＰａｒａｌｌｅｌＴｈｒｅａｄＥｘｅｃｕｔｉｏｎ）ＩＲコードを、（コンパイルされたバイナリ・コードのキャッシングを伴って）ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにコンパイルし得、これは、コードを「ファイナライズする」（ｆｉｎａｌｉｚｉｎｇ）と呼ばれることもある。少なくとも１つの実施例では、そうすることは、ファイナライズされたコードがターゲット・デバイス上で稼働することを許し得、これは、ソース・コードが最初にＰＴＸコードにコンパイルされたとき、存在していないことがある。代替的に、少なくとも１つの実施例では、デバイス・ソース・コードは、デバイス・カーネル・ドライバ２６０６がランタイムにおいてＩＲコードをコンパイルすることを必要とすることなしに、オフラインでバイナリ・コードにコンパイルされ得る。

【0232】

図２７は、少なくとも１つの実施例による、図２６のソフトウェア・スタック２６００のＣＵＤＡ実装形態を示す。少なくとも１つの実施例では、アプリケーション２７０１が起動され得るＣＵＤＡソフトウェア・スタック２７００は、ＣＵＤＡライブラリ２７０３と、ＣＵＤＡランタイム２７０５と、ＣＵＤＡドライバ２７０７と、デバイス・カーネル・ドライバ２７０８とを含む。少なくとも１つの実施例では、ＣＵＤＡソフトウェア・スタック２７００は、ハードウェア２７０９上で実行し、ハードウェア２７０９はＧＰＵを含み得、ＧＰＵは、ＣＵＤＡをサポートし、カリフォルニア州サンタクララのＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎによって開発される。

【0233】

少なくとも１つの実施例では、アプリケーション２７０１、ＣＵＤＡランタイム２７０５、及びデバイス・カーネル・ドライバ２７０８は、それぞれ、図２６と併せて上記で説明された、アプリケーション２６０１、ランタイム２６０５、及びデバイス・カーネル・ドライバ２６０６と同様の機能性を実施し得る。少なくとも１つの実施例では、ＣＵＤＡドライバ２７０７は、ＣＵＤＡドライバＡＰＩ２７０６を実装するライブラリ（ｌｉｂｃｕｄａ．ｓｏ）を含む。少なくとも１つの実施例では、ＣＵＤＡランタイム・ライブラリ（ｃｕｄａｒｔ）によって実装されるＣＵＤＡランタイムＡＰＩ２７０４と同様に、ＣＵＤＡドライバＡＰＩ２７０６は、限定はしないが、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、同期、及び／又はグラフィックス相互運用性のための機能を公開し得る。少なくとも１つの実施例では、ＣＵＤＡドライバＡＰＩ２７０６は、ＣＵＤＡランタイムＡＰＩ２７０４が、暗黙的な初期化、（プロセスに類似する）コンテキスト管理、及び（動的にロードされたライブラリに類似する）モジュール管理を提供することによって、デバイス・コード管理を簡略化するという点で、ＣＵＤＡランタイムＡＰＩ２７０４とは異なる。少なくとも１つの実施例では、高レベルＣＵＤＡランタイムＡＰＩ２７０４とは対照的に、ＣＵＤＡドライバＡＰＩ２７０６は、特にコンテキスト及びモジュール・ローディングに関して、デバイスのよりきめ細かい制御を提供する低レベルＡＰＩである。少なくとも１つの実施例では、ＣＵＤＡドライバＡＰＩ２７０６は、ＣＵＤＡランタイムＡＰＩ２７０４によって公開されないコンテキスト管理のための機能を公開し得る。少なくとも１つの実施例では、ＣＵＤＡドライバＡＰＩ２７０６はまた、言語依存せず、たとえば、ＣＵＤＡランタイムＡＰＩ２７０４に加えて、ＯｐｅｎＣＬをサポートする。さらに、少なくとも１つの実施例では、ＣＵＤＡランタイム２７０５を含む開発ライブラリは、ユーザモードＣＵＤＡドライバ２７０７と（「ディスプレイ」ドライバと呼ばれることもある）カーネルモード・デバイス・ドライバ２７０８とを含むドライバ構成要素とは別個のものと見なされ得る。

【0234】

少なくとも１つの実施例では、ＣＵＤＡライブラリ２７０３は、限定はしないが、数学ライブラリ、深層学習ライブラリ、並列アルゴリズム・ライブラリ、及び／又は信号／画像／ビデオ処理ライブラリを含み得、それらをアプリケーション２７０１などの並列コンピューティング・アプリケーションが利用し得る。少なくとも１つの実施例では、ＣＵＤＡライブラリ２７０３は、とりわけ、線形代数演算を実施するための基本線形代数サブプログラム（「ＢＬＡＳ」：ＢａｓｉｃＬｉｎｅａｒＡｌｇｅｂｒａＳｕｂｐｒｏｇｒａｍｓ）の実装であるｃｕＢＬＡＳライブラリ、高速フーリエ変換（「ＦＦＴ」：ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を算出するためのｃｕＦＦＴライブラリ、及び乱数を生成するためのｃｕＲＡＮＤライブラリなど、数学ライブラリを含み得る。少なくとも１つの実施例では、ＣＵＤＡライブラリ２７０３は、とりわけ、深層ニューラル・ネットワークのためのプリミティブのｃｕＤＮＮライブラリ及び高性能深層学習推論のためのＴｅｎｓｏｒＲＴプラットフォームなど、深層学習ライブラリを含み得る。

【0235】

図２８は、少なくとも１つの実施例による、図２６のソフトウェア・スタック２６００のＲＯＣｍ実装形態を示す。少なくとも１つの実施例では、アプリケーション２８０１が起動され得るＲＯＣｍソフトウェア・スタック２８００は、言語ランタイム２８０３と、システム・ランタイム２８０５と、サンク（ｔｈｕｎｋ）２８０７と、ＲＯＣｍカーネル・ドライバ２８０８とを含む。少なくとも１つの実施例では、ＲＯＣｍソフトウェア・スタック２８００は、ハードウェア２８０９上で実行し、ハードウェア２８０９はＧＰＵを含み得、ＧＰＵは、ＲＯＣｍをサポートし、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。

【0236】

少なくとも１つの実施例では、アプリケーション２８０１は、図２６と併せて上記で説明されたアプリケーション２６０１と同様の機能性を実施し得る。少なくとも１つの実施例では、さらに、言語ランタイム２８０３及びシステム・ランタイム２８０５は、図２６と併せて上記で説明されたランタイム２６０５と同様の機能性を実施し得る。少なくとも１つの実施例では、言語ランタイム２８０３とシステム・ランタイム２８０５とは、システム・ランタイム２８０５が、ＲＯＣｒシステム・ランタイムＡＰＩ２８０４を実装し、異種システム・アーキテクチャ（「ＨＳＡ」：ＨｅｔｅｒｏｇｅｎｅｏｕｓＳｙｓｔｅｍＡｒｃｈｉｔｅｃｔｕｒｅ）ランタイムＡＰＩを利用する、言語依存しないランタイムであるという点で、異なる。少なくとも１つの実施例では、ＨＳＡランタイムＡＰＩは、とりわけ、メモリ管理、カーネルの設計されたディスパッチを介した実行制御、エラー対処、システム及びエージェント情報、並びにランタイム初期化及び停止（ｓｈｕｔｄｏｗｎ）のための機能を含む、ＡＭＤＧＰＵにアクセスし、それと対話するためのインターフェースを公開する、シン（ｔｈｉｎ）・ユーザモードＡＰＩである。少なくとも１つの実施例では、システム・ランタイム２８０５とは対照的に、言語ランタイム２８０３は、ＲＯＣｒシステム・ランタイムＡＰＩ２８０４の上に階層化された言語固有ランタイムＡＰＩ２８０２の実装である。少なくとも１つの実施例では、言語ランタイムＡＰＩは、限定はしないが、とりわけ、ポータビリティのための異種コンピュート・インターフェース（「ＨＩＰ」：ＨｅｔｅｒｏｇｅｎｅｏｕｓｃｏｍｐｕｔｅＩｎｔｅｒｆａｃｅｆｏｒＰｏｒｔａｂｉｌｉｔｙ）言語ランタイムＡＰＩ、異種コンピュート・コンパイラ（「ＨＣＣ」：ＨｅｔｅｒｏｇｅｎｅｏｕｓＣｏｍｐｕｔｅＣｏｍｐｉｌｅｒ）言語ランタイムＡＰＩ、又はＯｐｅｎＣＬＡＰＩを含み得る。特にＨＩＰ言語は、機能的に同様のバージョンのＣＵＤＡ機構をもつＣ＋＋プログラミング言語の拡張であり、少なくとも１つの実施例では、ＨＩＰ言語ランタイムＡＰＩは、とりわけ、メモリ管理、実行制御、デバイス管理、エラー対処、及び同期のための機能など、図２７と併せて上記で説明されたＣＵＤＡランタイムＡＰＩ２７０４の機能と同様である機能を含む。

【0237】

少なくとも１つの実施例では、サンク（ＲＯＣｔ）２８０７は、基礎をなすＲＯＣｍドライバ２８０８と対話するために使用され得るインターフェース２８０６である。少なくとも１つの実施例では、ＲＯＣｍドライバ２８０８は、ＡＭＤＧＰＵドライバとＨＳＡカーネル・ドライバ（ａｍｄｋｆｄ）との組合せである、ＲＯＣｋドライバである。少なくとも１つの実施例では、ＡＭＤＧＰＵドライバは、図２６と併せて上記で説明されたデバイス・カーネル・ドライバ２６０６と同様の機能性を実施する、ＡＭＤによって開発されたＧＰＵのためのデバイス・カーネル・ドライバである。少なくとも１つの実施例では、ＨＳＡカーネル・ドライバは、異なるタイプのプロセッサがハードウェア特徴を介してより効果的にシステム・リソースを共有することを許すドライバである。

【0238】

少なくとも１つの実施例では、様々なライブラリ（図示せず）が、言語ランタイム２８０３より上にＲＯＣｍソフトウェア・スタック２８００中に含まれ、図２７と併せて上記で説明されたＣＵＤＡライブラリ２７０３に対する機能性の類似性を提供し得る。少なくとも１つの実施例では、様々なライブラリは、限定はしないが、とりわけ、ＣＵＤＡｃｕＢＬＡＳの機能と同様の機能を実装するｈｉｐＢＬＡＳライブラリ、ＣＵＤＡｃｕＦＦＴと同様であるＦＦＴを算出するためのｒｏｃＦＦＴライブラリなど、数学、深層学習、及び／又は他のライブラリを含み得る。

【0239】

図２９は、少なくとも１つの実施例による、図２６のソフトウェア・スタック２６００のＯｐｅｎＣＬ実装形態を示す。少なくとも１つの実施例では、アプリケーション２９０１が起動され得るＯｐｅｎＣＬソフトウェア・スタック２９００は、ＯｐｅｎＣＬフレームワーク２９１０と、ＯｐｅｎＣＬランタイム２９０６と、ドライバ２９０７とを含む。少なくとも１つの実施例では、ＯｐｅｎＣＬソフトウェア・スタック２９００は、ベンダー固有でないハードウェア２７０９上で実行する。少なくとも１つの実施例では、ＯｐｅｎＣＬは、異なるベンダーによって開発されたデバイスによってサポートされるので、そのようなベンダーからのハードウェアと相互動作するために、特定のＯｐｅｎＣＬドライバが必要とされ得る。

【0240】

少なくとも１つの実施例では、アプリケーション２９０１、ＯｐｅｎＣＬランタイム２９０６、デバイス・カーネル・ドライバ２９０７、及びハードウェア２９０８は、それぞれ、図２６と併せて上記で説明された、アプリケーション２６０１、ランタイム２６０５、デバイス・カーネル・ドライバ２６０６、及びハードウェア２６０７と同様の機能性を実施し得る。少なくとも１つの実施例では、アプリケーション２９０１は、デバイス上で実行されるべきであるコードをもつＯｐｅｎＣＬカーネル２９０２をさらに含む。

【0241】

少なくとも１つの実施例では、ＯｐｅｎＣＬは、ホストに接続されたデバイスをホストが制御することを可能にする「プラットフォーム」を定義する。少なくとも１つの実施例では、ＯｐｅｎＣＬフレームワークは、プラットフォームＡＰＩ２９０３及びランタイムＡＰＩ２９０５として示されている、プラットフォーム層ＡＰＩ及びランタイムＡＰＩを提供する。少なくとも１つの実施例では、ランタイムＡＰＩ２９０５は、デバイス上でのカーネルの実行を管理するためにコンテキストを使用する。少なくとも１つの実施例では、各識別されたデバイスは、それぞれのコンテキストに関連し得、ランタイムＡＰＩ２９０５は、それぞれのコンテキストを使用して、そのデバイスのために、とりわけ、コマンド・キュー、プログラム・オブジェクト、及びカーネル・オブジェクトを管理し、メモリ・オブジェクトを共有し得る。少なくとも１つの実施例では、プラットフォームＡＰＩ２９０３は、とりわけ、デバイスを選択及び初期化し、コマンド・キューを介してデバイスにワークをサブミットし、デバイスとの間でのデータ転送を可能にするために、デバイス・コンテキストが使用されることを許す機能を公開する。少なくとも１つの実施例では、さらに、ＯｐｅｎＣＬフレームワークは、とりわけ、数学関数とリレーショナル関数と画像処理関数とを含む、様々な組み込み関数（図示せず）を提供する。

【0242】

少なくとも１つの実施例では、コンパイラ２９０４も、ＯｐｅｎＣＬフレームワーク２９１０中に含まれる。少なくとも１つの実施例では、ソース・コードは、アプリケーションを実行するより前にオフラインでコンパイルされるか、又はアプリケーションの実行中にオンラインでコンパイルされ得る。ＣＵＤＡ及びＲＯＣｍとは対照的に、少なくとも１つの実施例におけるＯｐｅｎＣＬアプリケーションは、コンパイラ２９０４によってオンラインでコンパイルされ得、コンパイラ２９０４は、標準ポータブル中間表現（「ＳＰＩＲ－Ｖ」：ＳｔａｎｄａｒｄＰｏｒｔａｂｌｅＩｎｔｅｒｍｅｄｉａｔｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ）コードなど、ソース・コード及び／又はＩＲコードをバイナリ・コードにコンパイルするために使用され得る、任意の数のコンパイラを表すために含まれる。代替的に、少なくとも１つの実施例では、ＯｐｅｎＣＬアプリケーションは、そのようなアプリケーションの実行より前に、オフラインでコンパイルされ得る。

【0243】

少なくとも１つの実施例では、ソフトウェア・スタック２６００は、命令１０４（図１参照）のための実行環境を提供する。少なくとも１つの実施例では、ＣＵＤＡソフトウェア・スタック２７００は、命令１０４のための実行環境を提供する。少なくとも１つの実施例では、ＲＯＣｍソフトウェア・スタック２８００は、命令１０４のための実行環境を提供する。少なくとも１つの実施例では、ＯｐｅｎＣＬソフトウェア・スタック２９００は、命令１０４のための実行環境を提供する。

【0244】

図３０は、少なくとも１つの実施例による、プログラミング・プラットフォームによってサポートされるソフトウェアを示す。少なくとも１つの実施例では、プログラミング・プラットフォーム３００４は、アプリケーション３０００が依拠し得る、様々なプログラミング・モデル３００３、ミドルウェア及び／又はライブラリ３００２、並びにフレームワーク３００１をサポートするように構成される。少なくとも１つの実施例では、アプリケーション３０００は、たとえば、ＭＸＮｅｔ、ＰｙＴｏｒｃｈ、又はＴｅｎｓｏｒＦｌｏｗなど、深層学習フレームワークを使用して実装される、ＡＩ／ＭＬアプリケーションであり得、これは、基礎をなすハードウェア上で加速コンピューティングを提供するために、ｃｕＤＮＮ、ＮＶＩＤＩＡ集合通信ライブラリ（「ＮＣＣＬ」：ＮＶＩＤＩＡＣｏｌｌｅｃｔｉｖｅＣｏｍｍｕｎｉｃａｔｉｏｎｓＬｉｂｒａｒｙ）、及び／又はＮＶＩＤＡディベロッパー・データ・ローディング・ライブラリ（「ＤＡＬＩ（登録商標）」：ＮＶＩＤＡＤｅｖｅｌｏｐｅｒＤａｔａＬｏａｄｉｎｇＬｉｂｒａｒｙ）ＣＵＤＡライブラリなど、ライブラリに依拠し得る。

【0245】

少なくとも１つの実施例では、プログラミング・プラットフォーム３００４は、それぞれ、図２７、図２８、及び図２９と併せて上記で説明された、ＣＵＤＡ、ＲＯＣｍ、又はＯｐｅｎＣＬプラットフォームのうちの１つであり得る。少なくとも１つの実施例では、プログラミング・プラットフォーム３００４は、アルゴリズム及びデータ構造の表現を許す基礎をなすコンピューティング・システムの抽象化である、複数のプログラミング・モデル３００３をサポートする。少なくとも１つの実施例では、プログラミング・モデル３００３は、性能を改善するために、基礎をなすハードウェアの特徴を公開し得る。少なくとも１つの実施例では、プログラミング・モデル３００３は、限定はしないが、ＣＵＤＡ、ＨＩＰ、ＯｐｅｎＣＬ、Ｃ＋＋加速超並列処理（「Ｃ＋＋ＡＭＰ」：Ｃ＋＋ＡｃｃｅｌｅｒａｔｅｄＭａｓｓｉｖｅＰａｒａｌｌｅｌｉｓｍ）、オープン・マルチプロセシング（「ＯｐｅｎＭＰ」：ＯｐｅｎＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）、オープン・アクセラレータ（「ＯｐｅｎＡＣＣ」：ＯｐｅｎＡｃｃｅｌｅｒａｔｏｒｓ）、及び／又はＶｕｌｃａｎコンピュート（ＶｕｌｃａｎＣｏｍｐｕｔｅ）を含み得る。

【0246】

少なくとも１つの実施例では、ライブラリ及び／又はミドルウェア３００２は、プログラミング・モデル３００４の抽象化の実装を提供する。少なくとも１つの実施例では、そのようなライブラリは、コンピュータ・プログラムによって使用され、ソフトウェア開発中に活用され得る、データ及びプログラミング・コードを含む。少なくとも１つの実施例では、そのようなミドルウェアは、プログラミング・プラットフォーム３００４から利用可能なソフトウェア以外にアプリケーションにサービスを提供するソフトウェアを含む。少なくとも１つの実施例では、ライブラリ及び／又はミドルウェア３００２は、限定はしないが、ｃｕＢＬＡＳ、ｃｕＦＦＴ、ｃｕＲＡＮＤ、及び他のＣＵＤＡライブラリ、又は、ｒｏｃＢＬＡＳ、ｒｏｃＦＦＴ、ｒｏｃＲＡＮＤ、及び他のＲＯＣｍライブラリを含み得る。さらに、少なくとも１つの実施例では、ライブラリ及び／又はミドルウェア３００２は、ＧＰＵのための通信ルーチンを提供するＮＣＣＬ及びＲＯＣｍ通信集合ライブラリ（「ＲＣＣＬ」：ＲＯＣｍＣｏｍｍｕｎｉｃａｔｉｏｎＣｏｌｌｅｃｔｉｖｅｓＬｉｂｒａｒｙ）のライブラリ、深層学習加速のためのＭＩＯｐｅｎライブラリ、並びに／又は、線形代数、行列及びベクトル演算、幾何学的変換、数値ソルバー、及び関係するアルゴリズムのための固有（Ｅｉｇｅｎ）ライブラリを含み得る。

【0247】

少なくとも１つの実施例では、アプリケーション・フレームワーク３００１は、ライブラリ及び／又はミドルウェア３００２に依存する。少なくとも１つの実施例では、アプリケーション・フレームワーク３００１の各々は、アプリケーション・ソフトウェアの標準構造を実装するために使用されるソフトウェア・フレームワークである。少なくとも１つの実施例では、上記で説明されたＡＩ／ＭＬ実例に戻ると、ＡＩ／ＭＬアプリケーションは、Ｃａｆｆｅ、Ｃａｆｆｅ２、ＴｅｎｓｏｒＦｌｏｗ、Ｋｅｒａｓ、ＰｙＴｏｒｃｈ、又はＭｘＮｅｔ深層学習フレームワークなど、フレームワークを使用して実装され得る。

【0248】

少なくとも１つの実施例では、３Ｄジオメトリ・モジュール１０８（図１参照）は、実行されたとき、アプリケーション３０００の実装形態であり得る。少なくとも１つの実施例では、画像レンダリング・モジュール１１０（図１参照）は、実行されたとき、アプリケーション３０００の実装形態であり得る。

【0249】

図３１は、少なくとも１つの実施例による、図２６～図２９のプログラミング・プラットフォームのうちの１つの上で実行するためのコードをコンパイルすることを示す。少なくとも１つの実施例では、コンパイラ３１０１は、ホスト・コード並びにデバイス・コードの両方を含むソース・コード３１００を受信する。少なくとも１つの実施例では、コンパイラ３１０１は、ソース・コード３１００を、ホスト上での実行のためのホスト実行可能コード３１０２及びデバイス上での実行のためのデバイス実行可能コード３１０３にコンバートするように構成される。少なくとも１つの実施例では、ソース・コード３１００は、アプリケーションの実行より前にオフラインでコンパイルされるか、又はアプリケーションの実行中にオンラインでコンパイルされるかのいずれかであり得る。

【0250】

少なくとも１つの実施例では、ソース・コード３１００は、Ｃ＋＋、Ｃ、Ｆｏｒｔｒａｎなど、コンパイラ３１０１によってサポートされる任意のプログラミング言語のコードを含み得る。少なくとも１つの実施例では、ソース・コード３１００は、ホスト・コードとデバイス・コードとの混合物を有する単一ソース・ファイル中に含まれ得、その中にデバイス・コードのロケーションが示されている。少なくとも１つの実施例では、単一ソース・ファイルは、ＣＵＤＡコードを含む．ｃｕファイル、又はＨＩＰコードを含む．ｈｉｐ．ｃｐｐファイルであり得る。代替的に、少なくとも１つの実施例では、ソース・コード３１００は、その中でホスト・コードとデバイス・コードとが分離される単一ソース・ファイルではなく、複数のソース・コード・ファイルを含み得る。

【0251】

少なくとも１つの実施例では、コンパイラ３１０１は、ソース・コード３１００を、ホスト上での実行のためのホスト実行可能コード３１０２及びデバイス上での実行のためのデバイス実行可能コード３１０３にコンパイルするように構成される。少なくとも１つの実施例では、コンパイラ３１０１は、ソース・コード３１００を抽象システム・ツリー（ＡＳＴ：ａｂｓｔｒａｃｔｓｙｓｔｅｍｔｒｅｅ）に構文解析することと、最適化を実施することと、実行可能コードを生成することとを含む、動作を実施する。ソース・コード３１００が単一ソース・ファイルを含む、少なくとも１つの実施例では、コンパイラ３１０１は、図３２に関して以下でより詳細に説明されるように、そのような単一ソース・ファイル中でデバイス・コードをホスト・コードから分離し、デバイス・コード及びホスト・コードを、それぞれ、デバイス実行可能コード３１０３及びホスト実行可能コード３１０２にコンパイルし、デバイス実行可能コード３１０３とホスト実行可能コード３１０２とを単一のファイルにおいて互いにリンクし得る。

【0252】

少なくとも１つの実施例では、ホスト実行可能コード３１０２及びデバイス実行可能コード３１０３は、バイナリ・コード及び／又はＩＲコードなど、任意の好適なフォーマットのものであり得る。少なくとも１つの実施例では、ＣＵＤＡの場合、ホスト実行可能コード３１０２は、ネイティブ・オブジェクト・コードを含み得、デバイス実行可能コード３１０３は、ＰＴＸ中間表現のコードを含み得る。少なくとも１つの実施例では、ＲＯＣｍの場合、ホスト実行可能コード３１０２とデバイス実行可能コード３１０３の両方は、ターゲット・バイナリ・コードを含み得る。

【0253】

図３２は、少なくとも１つの実施例による、図２６～図２９のプログラミング・プラットフォームのうちの１つの上で実行するためのコードをコンパイルすることのより詳細な図である。少なくとも１つの実施例では、コンパイラ３２０１は、ソース・コード３２００を受信し、ソース・コード３２００をコンパイルし、実行可能ファイル３２１０を出力するように構成される。少なくとも１つの実施例では、ソース・コード３２００は、ホスト・コードとデバイス・コードの両方を含む、．ｃｕファイル、．ｈｉｐ．ｃｐｐファイル、又は別のフォーマットのファイルなど、単一ソース・ファイルである。少なくとも１つの実施例では、コンパイラ３２０１は、限定はしないが、．ｃｕファイル中のＣＵＤＡコードをコンパイルするためのＮＶＩＤＩＡＣＵＤＡコンパイラ（「ＮＶＣＣ」：ＮＶＩＤＩＡＣＵＤＡｃｏｍｐｉｌｅｒ）、又は．ｈｉｐ．ｃｐｐファイル中のＨＩＰコードをコンパイルするためのＨＣＣコンパイラであり得る。

【0254】

少なくとも１つの実施例では、コンパイラ３２０１は、コンパイラ・フロント・エンド３２０２と、ホスト・コンパイラ３２０５と、デバイス・コンパイラ３２０６と、リンカ３２０９とを含む。少なくとも１つの実施例では、コンパイラ・フロント・エンド３２０２は、ソース・コード３２００中でデバイス・コード３２０４をホスト・コード３２０３から分離するように構成される。少なくとも１つの実施例では、デバイス・コード３２０４は、デバイス・コンパイラ３２０６によってデバイス実行可能コード３２０８にコンパイルされ、デバイス実行可能コード３２０８は、説明されたように、バイナリ・コード又はＩＲコードを含み得る。少なくとも１つの実施例では、別個に、ホスト・コード３２０３は、ホスト・コンパイラ３２０５によってホスト実行可能コード３２０７にコンパイルされる。少なくとも１つの実施例では、ＮＶＣＣの場合、ホスト・コンパイラ３２０５は、限定はしないが、ネイティブ・オブジェクト・コードを出力する汎用Ｃ／Ｃ＋＋コンパイラであり得るが、デバイス・コンパイラ３２０６は、限定はしないが、ＬＬＶＭコンパイラ・インフラストラクチャをフォークし、ＰＴＸコード又はバイナリ・コードを出力する、低レベル仮想機械（「ＬＬＶＭ」：ＬｏｗＬｅｖｅｌＶｉｒｔｕａｌＭａｃｈｉｎｅ）ベースのコンパイラであり得る。少なくとも１つの実施例では、ＨＣＣの場合、ホスト・コンパイラ３２０５とデバイス・コンパイラ３２０６の両方は、限定はしないが、ターゲット・バイナリ・コードを出力するＬＬＶＭベースのコンパイラであり得る。

【0255】

少なくとも１つの実施例では、ソース・コード３２００をホスト実行可能コード３２０７及びデバイス実行可能コード３２０８にコンパイルした後に、リンカ３２０９は、ホスト実行可能コード３２０７とデバイス実行可能コード３２０８とを実行可能ファイル３２１０において互いにリンクする。少なくとも１つの実施例では、ホストのためのネイティブ・オブジェクト・コードと、デバイスのためのＰＴＸ又はバイナリ・コードとは、オブジェクト・コードを記憶するために使用されるコンテナ・フォーマットである、実行可能及びリンク可能フォーマット（「ＥＬＦ」：ＥｘｅｃｕｔａｂｌｅａｎｄＬｉｎｋａｂｌｅＦｏｒｍａｔ）ファイルにおいて互いにリンクされ得る。

【0256】

図３３は、少なくとも１つの実施例による、ソース・コードをコンパイルするより前にソース・コードをトランスレートすることを示す。少なくとも１つの実施例では、ソース・コード３３００は、トランスレーション・ツール３３０１を通して渡され、トランスレーション・ツール３３０１は、ソース・コード３３００を、トランスレートされたソース・コード３３０２にトランスレートする。少なくとも１つの実施例では、コンパイラ３３０３は、図３１と併せて上記で説明されたように、ホスト実行可能コード３１０２及びデバイス実行可能３１０３へのコンパイラ３１０１によるソース・コード３１００のコンパイルと同様であるプロセスにおいて、トランスレートされたソース・コード３３０２をホスト実行可能コード３３０４及びデバイス実行可能コード３３０５にコンパイルするために使用される。

【0257】

少なくとも１つの実施例では、トランスレーション・ツール３３０１によって実施されるトランスレーションは、稼働することが最初に意図された環境とは異なる環境における実行のためにソース３３００を移植するために使用される。少なくとも１つの実施例では、トランスレーション・ツール３３０１は、限定はしないが、ＣＵＤＡプラットフォームを対象とするＣＵＤＡコードを、ＲＯＣｍプラットフォーム上でコンパイル及び実行され得るＨＩＰコードに「ｈｉｐｉｆｙ」するために使用される、ＨＩＰトランスレータを含み得る。少なくとも１つの実施例では、ソース・コード３３００のトランスレーションは、図３４Ａ～図３５と併せて以下でより詳細に説明されるように、ソース・コード３３００を構文解析することと、あるプログラミング・モデル（たとえば、ＣＵＤＡ）によって提供される（１つ又は複数の）ＡＰＩへのコールを、別のプログラミング・モデル（たとえば、ＨＩＰ）によって提供される（１つ又は複数の）ＡＰＩへの対応するコールにコンバートすることとを含み得る。少なくとも１つの実施例では、ＣＵＤＡコードをｈｉｐｉｆｙすることの実例に戻ると、ＣＵＤＡランタイムＡＰＩ、ＣＵＤＡドライバＡＰＩ、及び／又はＣＵＤＡライブラリへのコールは、対応するＨＩＰＡＰＩコールにコンバートされ得る。少なくとも１つの実施例では、トランスレーション・ツール３３０１によって実施される自動トランスレーションは、時々、不完全であり、ソース・コード３３００を完全に移植するために追加の手動の労力を必要とし得る。

【0258】

汎用コンピューティングのためのＧＰＵを構成すること
以下の図は、限定はしないが、少なくとも１つの実施例による、コンピュート・ソース・コードをコンパイル及び実行するための例示的なアーキテクチャを記載する。

【0259】

図３４Ａは、少なくとも１つの実施例による、異なるタイプの処理ユニットを使用してＣＵＤＡソース・コード３４１０をコンパイル及び実行するように構成されたシステム３４００を示す。少なくとも１つの実施例では、システム３４００は、限定はしないが、ＣＵＤＡソース・コード３４１０と、ＣＵＤＡコンパイラ３４５０と、ホスト実行可能コード３４７０（１）と、ホスト実行可能コード３４７０（２）と、ＣＵＤＡデバイス実行可能コード３４８４と、ＣＰＵ３４９０と、ＣＵＤＡ対応ＧＰＵ３４９４と、ＧＰＵ３４９２と、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０と、ＨＩＰソース・コード３４３０と、ＨＩＰコンパイラ・ドライバ３４４０と、ＨＣＣ３４６０と、ＨＣＣデバイス実行可能コード３４８２とを含む。

【0260】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、ＣＵＤＡプログラミング言語の人間が読み取れるコードの集合である。少なくとも１つの実施例では、ＣＵＤＡコードは、ＣＵＤＡプログラミング言語の人間が読み取れるコードである。少なくとも１つの実施例では、ＣＵＤＡプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための機構を含む、Ｃ＋＋プログラミング言語の拡張である。少なくとも１つの実施例では、デバイス・コードは、コンパイルの後にデバイス上で並列に実行可能であるソース・コードである。少なくとも１つの実施例では、デバイスは、ＣＵＤＡ対応ＧＰＵ３４９０、ＧＰＵ３４１９２、又は別のＧＰＧＰＵなど、並列命令処理のために最適化されるプロセッサであり得る。少なくとも１つの実施例では、ホスト・コードは、コンパイルの後にホスト上で実行可能であるソース・コードである。少なくとも１つの実施例では、ホストは、ＣＰＵ３４９０など、連続命令処理のために最適化されるプロセッサである。

【0261】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、限定はしないが、（ゼロを含む）任意の数のグローバル機能３４１２と、（ゼロを含む）任意の数のデバイス機能３４１４と、（ゼロを含む）任意の数のホスト機能３４１６と、（ゼロを含む）任意の数のホスト／デバイス機能３４１８とを含む。少なくとも１つの実施例では、グローバル機能３４１２と、デバイス機能３４１４と、ホスト機能３４１６と、ホスト／デバイス機能３４１８とは、ＣＵＤＡソース・コード３４１０中で混合され得る。少なくとも１つの実施例では、グローバル機能３４１２の各々は、デバイス上で実行可能であり、ホストからコール可能である。少なくとも１つの実施例では、グローバル機能３４１２のうちの１つ又は複数は、したがって、デバイスへのエントリ・ポイントとして働き得る。少なくとも１つの実施例では、グローバル機能３４１２の各々はカーネルである。少なくとも１つの実施例では、及び動的並列処理として知られる技法では、グローバル機能３４１２のうちの１つ又は複数は、カーネルを定義し、カーネルは、デバイス上で実行可能であり、そのようなデバイスからコール可能である。少なくとも１つの実施例では、カーネルは、実行中にデバイス上のＮ（ここで、Ｎは任意の正の整数である）個の異なるスレッドによって並列にＮ回実行される。

【0262】

少なくとも１つの実施例では、デバイス機能３４１４の各々は、デバイス上で実行され、そのようなデバイスからのみコール可能である。少なくとも１つの実施例では、ホスト機能３４１６の各々は、ホスト上で実行され、そのようなホストからのみコール可能である。少なくとも１つの実施例では、ホスト／デバイス機能３４１６の各々は、ホスト上で実行可能であり、そのようなホストからのみコール可能であるホスト・バージョンの機能と、デバイス上で実行可能であり、そのようなデバイスからのみコール可能であるデバイス・バージョンの機能の両方を定義する。

【0263】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、限定はしないが、ＣＵＤＡランタイムＡＰＩ３４０２を介して定義される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＣＵＤＡランタイムＡＰＩ３４０２は、限定はしないが、デバイス・メモリを割り振り、割振り解除し、ホスト・メモリとデバイス・メモリとの間でデータを転送し、複数のデバイスをもつシステムを管理するなどのためにホスト上で実行する、任意の数の機能を含み得る。少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、任意の数の他のＣＵＤＡＡＰＩにおいて指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＣＵＤＡＡＰＩは、ＣＵＤＡコードによる使用のために設計される任意のＡＰＩであり得る。少なくとも１つの実施例では、ＣＵＤＡＡＰＩは、限定はしないが、ＣＵＤＡランタイムＡＰＩ３４０２、ＣＵＤＡドライバＡＰＩ、任意の数のＣＵＤＡライブラリのためのＡＰＩなどを含む。少なくとも１つの実施例では、及びＣＵＤＡランタイムＡＰＩ３４０２に対して、ＣＵＤＡドライバＡＰＩは、より低いレベルのＡＰＩであるが、デバイスのよりきめ細かい制御を提供する。少なくとも１つの実施例では、ＣＵＤＡライブラリの実例は、限定はしないが、ｃｕＢＬＡＳ、ｃｕＦＦＴ、ｃｕＲＡＮＤ、ｃｕＤＮＮなどを含む。

【0264】

少なくとも１つの実施例では、ＣＵＤＡコンパイラ３４５０は、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４を生成するために、入力ＣＵＤＡコード（たとえば、ＣＵＤＡソース・コード３４１０）をコンパイルする。少なくとも１つの実施例では、ＣＵＤＡコンパイラ３４５０はＮＶＣＣである。少なくとも１つの実施例では、ホスト実行可能コード３４７０（１）は、ＣＰＵ３４９０上で実行可能である、入力ソース・コード中に含まれるホスト・コードのコンパイルされたバージョンである。少なくとも１つの実施例では、ＣＰＵ３４９０は、連続命令処理のために最適化される任意のプロセッサであり得る。

【0265】

少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、ＣＵＤＡ対応ＧＰＵ３４９４上で実行可能である、入力ソース・コード中に含まれるデバイス・コードのコンパイルされたバージョンである。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、ＰＴＸコードなどのＩＲコードを含み、これは、デバイス・ドライバによって、特定のターゲット・デバイス（たとえば、ＣＵＤＡ対応ＧＰＵ３４９４）のためのバイナリ・コードに、ランタイムにおいてさらにコンパイルされる。少なくとも１つの実施例では、ＣＵＤＡ対応ＧＰＵ３４９４は、並列命令処理のために最適化され、ＣＵＤＡをサポートする、任意のプロセッサであり得る。少なくとも１つの実施例では、ＣＵＤＡ対応ＧＰＵ３４９４は、カリフォルニア州サンタクララのＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎによって開発される。

【0266】

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０を機能的に同様のＨＩＰソース・コード３４３０にトランスレートするように構成される。少なくとも１つの実施例では、ＨＩＰソース・コード３４３０は、ＨＩＰプログラミング言語の人間が読み取れるコードの集合である。少なくとも１つの実施例では、ＨＩＰコードは、ＨＩＰプログラミング言語の人間が読み取れるコードである。少なくとも１つの実施例では、ＨＩＰプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための、機能的に同様のバージョンのＣＵＤＡ機構を含む、Ｃ＋＋プログラミング言語の拡張である。少なくとも１つの実施例では、ＨＩＰプログラミング言語は、ＣＵＤＡプログラミング言語の機能性のサブセットを含み得る。少なくとも１つの実施例では、たとえば、ＨＩＰプログラミング言語は、限定はしないが、グローバル機能３４１２を定義するための（１つ又は複数の）機構を含むが、そのようなＨＩＰプログラミング言語は、動的並列処理のサポートがないことがあり、したがって、ＨＩＰコードにおいて定義されたグローバル機能３４１２は、ホストからのみコール可能であり得る。

【0267】

少なくとも１つの実施例では、ＨＩＰソース・コード３４３０は、限定はしないが、（ゼロを含む）任意の数のグローバル機能３４１２と、（ゼロを含む）任意の数のデバイス機能３４１４と、（ゼロを含む）任意の数のホスト機能３４１６と、（ゼロを含む）任意の数のホスト／デバイス機能３４１８とを含む。少なくとも１つの実施例では、ＨＩＰソース・コード３４３０は、ＨＩＰランタイムＡＰＩ３４３２において指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＨＩＰランタイムＡＰＩ３４３２は、限定はしないが、ＣＵＤＡランタイムＡＰＩ３４０２中に含まれる機能のサブセットの機能的に同様のバージョンを含む。少なくとも１つの実施例では、ＨＩＰソース・コード３４３０は、任意の数の他のＨＩＰＡＰＩにおいて指定される任意の数の機能への任意の数のコールをも含み得る。少なくとも１つの実施例では、ＨＩＰＡＰＩは、ＨＩＰコード及び／又はＲＯＣｍによる使用のために設計される任意のＡＰＩであり得る。少なくとも１つの実施例では、ＨＩＰＡＰＩは、限定はしないが、ＨＩＰランタイムＡＰＩ３４３２、ＨＩＰドライバＡＰＩ、任意の数のＨＩＰライブラリのためのＡＰＩ、任意の数のＲＯＣｍライブラリのためのＡＰＩなどを含む。

【0268】

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡコード中の各カーネル・コールを、ＣＵＤＡシンタックスからＨＩＰシンタックスにコンバートし、ＣＵＤＡコード中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。少なくとも１つの実施例では、ＣＵＤＡコールは、ＣＵＤＡＡＰＩにおいて指定された機能へのコールであり、ＨＩＰコールは、ＨＩＰＡＰＩにおいて指定された機能へのコールである。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡランタイムＡＰＩ３４０２において指定された機能への任意の数のコールを、ＨＩＰランタイムＡＰＩ３４３２において指定された機能への任意の数のコールにコンバートする。

【0269】

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、テキスト・ベースのトランスレーション・プロセスを実行するｈｉｐｉｆｙ－ｐｅｒｌとして知られるツールである。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ｈｉｐｉｆｙ－ｃｌａｎｇとして知られるツールであり、これは、ｈｉｐｉｆｙ－ｐｅｒｌに対して、ｃｌａｎｇ（コンパイラ・フロント・エンド）を使用してＣＵＤＡコードを構文解析することと、次いで、得られたシンボルをトランスレートすることとを伴う、より複雑でよりロバストなトランスレーション・プロセスを実行する。少なくとも１つの実施例では、ＣＵＤＡコードをＨＩＰコードに適切にコンバートすることは、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０によって実施される修正に加えて、修正（たとえば、手動の編集）を必要とし得る。

【0270】

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、ターゲット・デバイス３４４６を決定し、次いで、ターゲット・デバイス３４４６と互換性があるコンパイラを、ＨＩＰソース・コード３４３０をコンパイルするように構成する、フロント・エンドである。少なくとも１つの実施例では、ターゲット・デバイス３４４６は、並列命令処理のために最適化されるプロセッサである。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、任意の技術的に実現可能な様式でターゲット・デバイス３４４６を決定し得る。

【0271】

少なくとも１つの実施例では、ターゲット・デバイス３４４６が、ＣＵＤＡ（たとえば、ＣＵＤＡ対応ＧＰＵ３４９４）と互換性がある場合、ＨＩＰコンパイラ・ドライバ３４４０は、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２を生成する。少なくとも１つの実施例では、及び図３４Ｂと併せてより詳細に説明されるように、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２は、限定はしないが、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ及びＣＵＤＡランタイム・ライブラリを使用してＨＩＰソース・コード３４３０をコンパイルするようにＣＵＤＡコンパイラ３４５０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２に応答して、ＣＵＤＡコンパイラ３４５０は、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４を生成する。

【0272】

少なくとも１つの実施例では、ターゲット・デバイス３４４６が、ＣＵＤＡと互換性がない場合、ＨＩＰコンパイラ・ドライバ３４４０は、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４を生成する。少なくとも１つの実施例では、及び図３４Ｃと併せてより詳細に説明されるように、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４は、限定はしないが、ＨＣＣヘッダ及びＨＩＰ／ＨＣＣランタイム・ライブラリを使用してＨＩＰソース・コード３４３０をコンパイルするようにＨＣＣ３４６０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＨＣＣコンパイル・コマンド３４４４に応答して、ＨＣＣ３４６０は、ホスト実行可能コード３４７０（２）及びＨＣＣデバイス実行可能コード３４８２を生成する。少なくとも１つの実施例では、ＨＣＣデバイス実行可能コード３４８２は、ＧＰＵ３４９２上で実行可能である、ＨＩＰソース・コード３４３０中に含まれるデバイス・コードのコンパイルされたバージョンである。少なくとも１つの実施例では、ＧＰＵ３４９２は、並列命令処理のために最適化され、ＣＵＤＡと互換性がなく、ＨＣＣと互換性がある、任意のプロセッサであり得る。少なくとも１つの実施例では、ＧＰＵ３４９２は、カリフォルニア州サンタクララのＡＭＤＣｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＧＰＵ３４９２は、ＣＵＤＡ非対応ＧＰＵ３４９２である。

【0273】

単に説明目的のために、ＣＰＵ３４９０及び異なるデバイス上での実行のためにＣＵＤＡソース・コード３４１０をコンパイルするために少なくとも１つの実施例において実装され得る３つの異なるフローが、図３４Ａに図示されている。少なくとも１つの実施例では、直接的ＣＵＤＡフローが、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートすることなしに、ＣＰＵ３４９０及びＣＵＤＡ対応ＧＰＵ３４９４上での実行のためにＣＵＤＡソース・コード３４１０をコンパイルする。少なくとも１つの実施例では、間接的ＣＵＤＡフローが、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートし、次いで、ＣＰＵ３４９０及びＣＵＤＡ対応ＧＰＵ３４９４上での実行のためにＨＩＰソース・コード３４３０をコンパイルする。少なくとも１つの実施例では、ＣＵＤＡ／ＨＣＣフローが、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートし、次いで、ＣＰＵ３４９０及びＧＰＵ３４９２上での実行のためにＨＩＰソース・コード３４３０をコンパイルする。

【0274】

少なくとも１つの実施例において実装され得る直接的ＣＵＤＡフローは、破線及びＡ１～Ａ３とアノテーション付けされた一連のバブルを介して図示されている。少なくとも１つの実施例では、及びＡ１とアノテーション付けされたバブルで図示されているように、ＣＵＤＡコンパイラ３４５０は、ＣＵＤＡソース・コード３４１０と、ＣＵＤＡソース・コード３４１０をコンパイルするようにＣＵＤＡコンパイラ３４５０を構成するＣＵＤＡコンパイル・コマンド３４４８とを受信する。少なくとも１つの実施例では、直接的ＣＵＤＡフローにおいて使用されるＣＵＤＡソース・コード３４１０は、Ｃ＋＋以外のプログラミング言語（たとえば、Ｃ、Ｆｏｒｔｒａｎ、Ｐｙｔｈｏｎ、Ｊａｖａなど）に基づくＣＵＤＡプログラミング言語で書かれる。少なくとも１つの実施例では、及びＣＵＤＡコンパイル・コマンド３４４８に応答して、ＣＵＤＡコンパイラ３４５０は、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４を生成する（Ａ２とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及びＡ３とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４は、それぞれ、ＣＰＵ３４９０及びＣＵＤＡ対応ＧＰＵ３４９４上で実行され得る。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、ＰＴＸコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。

【0275】

少なくとも１つの実施例において実装され得る間接的ＣＵＤＡフローは、点線及びＢ１～Ｂ６とアノテーション付けされた一連のバブルを介して図示されている。少なくとも１つの実施例では、及びＢ１とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０を受信する。少なくとも１つの実施例では、及びＢ２とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートする。少なくとも１つの実施例では、及びＢ３とアノテーション付けされたバブルで図示されているように、ＨＩＰコンパイラ・ドライバ３４４０は、ＨＩＰソース・コード３４３０を受信し、ターゲット・デバイス３４４６がＣＵＤＡ対応であると決定する。

【0276】

少なくとも１つの実施例では、及びＢ４とアノテーション付けされたバブルで図示されているように、ＨＩＰコンパイラ・ドライバ３４４０は、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２を生成し、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２とＨＩＰソース・コード３４３０の両方をＣＵＤＡコンパイラ３４５０に送信する。少なくとも１つの実施例では、及び図３４Ｂと併せてより詳細に説明されるように、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２は、限定はしないが、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ及びＣＵＤＡランタイム・ライブラリを使用してＨＩＰソース・コード３４３０をコンパイルするようにＣＵＤＡコンパイラ３４５０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２に応答して、ＣＵＤＡコンパイラ３４５０は、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４を生成する（Ｂ５とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及びＢ６とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４は、それぞれ、ＣＰＵ３４９０及びＣＵＤＡ対応ＧＰＵ３４９４上で実行され得る。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、ＰＴＸコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。

【0277】

少なくとも１つの実施例において実装され得るＣＵＤＡ／ＨＣＣフローは、実線及びＣ１～Ｃ６とアノテーション付けされた一連のバブルを介して図示されている。少なくとも１つの実施例では、及びＣ１とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０を受信する。少なくとも１つの実施例では、及びＣ２とアノテーション付けされたバブルで図示されているように、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートする。少なくとも１つの実施例では、及びＣ３とアノテーション付けされたバブルで図示されているように、ＨＩＰコンパイラ・ドライバ３４４０は、ＨＩＰソース・コード３４３０を受信し、ターゲット・デバイス３４４６がＣＵＤＡ対応でないと決定する。

【0278】

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４を生成し、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４とＨＩＰソース・コード３４３０の両方をＨＣＣ３４６０に送信する（Ｃ４とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及び図３４と併せてより詳細に説明されるように、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４は、限定はしないが、ＨＣＣヘッダ及びＨＩＰ／ＨＣＣランタイム・ライブラリを使用してＨＩＰソース・コード３４３０をコンパイルするようにＨＣＣ３４６０を構成する。少なくとも１つの実施例では、及びＨＩＰ／ＨＣＣコンパイル・コマンド３４４４に応答して、ＨＣＣ３４６０は、ホスト実行可能コード３４７０（２）及びＨＣＣデバイス実行可能コード３４８２を生成する（Ｃ５とアノテーション付けされたバブルで図示される）。少なくとも１つの実施例では、及びＣ６とアノテーション付けされたバブルで図示されているように、ホスト実行可能コード３４７０（２）及びＨＣＣデバイス実行可能コード３４８２は、それぞれ、ＣＰＵ３４９０及びＧＰＵ３４９２上で実行され得る。

【0279】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０がＨＩＰソース・コード３４３０にトランスレートされた後に、ＨＩＰコンパイラ・ドライバ３４４０は、その後、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０を再実行することなしに、ＣＵＤＡ対応ＧＰＵ３４９４又はＧＰＵ３４９２のいずれかのための実行可能コードを生成するために使用され得る。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートし、ＨＩＰソース・コード３４３０は、次いで、メモリに記憶される。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、次いで、ＨＩＰソース・コード３４３０に基づいてホスト実行可能コード３４７０（２）及びＨＣＣデバイス実行可能コード３４８２を生成するようにＨＣＣ３４６０を構成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、その後、記憶されたＨＩＰソース・コード３４３０に基づいてホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４を生成するようにＣＵＤＡコンパイラ３４５０を構成する。

【0280】

少なくとも１つの実施例では、システム３４００は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の１つ又は複数の部分を作成するために使用され得る。

【0281】

図３４Ｂは、少なくとも１つの実施例による、ＣＰＵ３４９０及びＣＵＤＡ対応ＧＰＵ３４９４を使用して、図３４ＡのＣＵＤＡソース・コード３４１０をコンパイル及び実行するように構成されたシステム３４０４を示す。少なくとも１つの実施例では、システム３４０４は、限定はしないが、ＣＵＤＡソース・コード３４１０と、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０と、ＨＩＰソース・コード３４３０と、ＨＩＰコンパイラ・ドライバ３４４０と、ＣＵＤＡコンパイラ３４５０と、ホスト実行可能コード３４７０（１）と、ＣＵＤＡデバイス実行可能コード３４８４と、ＣＰＵ３４９０と、ＣＵＤＡ対応ＧＰＵ３４９４とを含む。

【0282】

少なくとも１つの実施例では、及び図３４Ａと併せて本明細書で前に説明されたように、ＣＵＤＡソース・コード３４１０は、限定はしないが、（ゼロを含む）任意の数のグローバル機能３４１２と、（ゼロを含む）任意の数のデバイス機能３４１４と、（ゼロを含む）任意の数のホスト機能３４１６と、（ゼロを含む）任意の数のホスト／デバイス機能３４１８とを含む。少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、限定はしないが、任意の数のＣＵＤＡＡＰＩにおいて指定される任意の数の機能への任意の数のコールをも含む。

【0283】

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートする。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０中の各カーネル・コールを、ＣＵＤＡシンタックスからＨＩＰシンタックスにコンバートし、ＣＵＤＡソース・コード３４１０中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。

【0284】

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、ターゲット・デバイス３４４６がＣＵＤＡ対応であると決定し、ＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２を生成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、次いで、ＨＩＰソース・コード３４３０をコンパイルするようにＨＩＰ／ＮＶＣＣコンパイル・コマンド３４４２を介してＣＵＤＡコンパイラ３４５０を構成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、ＣＵＤＡコンパイラ３４５０を構成することの一部として、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ３４５２へのアクセスを提供する。少なくとも１つの実施例では、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ３４５２は、任意の数のＨＩＰＡＰＩにおいて指定された任意の数の機構（たとえば、機能）を、任意の数のＣＵＤＡＡＰＩにおいて指定された任意の数の機構にトランスレートする。少なくとも１つの実施例では、ＣＵＤＡコンパイラ３４５０は、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４を生成するために、ＣＵＤＡランタイムＡＰＩ３４０２に対応するＣＵＤＡランタイム・ライブラリ３４５４と併せて、ＨＩＰからＣＵＤＡへのトランスレーション・ヘッダ３４５２を使用する。少なくとも１つの実施例では、ホスト実行可能コード３４７０（１）及びＣＵＤＡデバイス実行可能コード３４８４は、次いで、それぞれ、ＣＰＵ３４９０及びＣＵＤＡ対応ＧＰＵ３４９４上で実行され得る。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、バイナリ・コードを含む。少なくとも１つの実施例では、ＣＵＤＡデバイス実行可能コード３４８４は、限定はしないが、ＰＴＸコードを含み、ランタイムにおいて特定のターゲット・デバイスのためのバイナリ・コードにさらにコンパイルされる。

【0285】

図３４Ｃは、少なくとも１つの実施例による、ＣＰＵ３４９０及びＣＵＤＡ非対応ＧＰＵ３４９２を使用して、図３４ＡのＣＵＤＡソース・コード３４１０をコンパイル及び実行するように構成されたシステム３４０６を示す。少なくとも１つの実施例では、システム３４０６は、限定はしないが、ＣＵＤＡソース・コード３４１０と、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０と、ＨＩＰソース・コード３４３０と、ＨＩＰコンパイラ・ドライバ３４４０と、ＨＣＣ３４６０と、ホスト実行可能コード３４７０（２）と、ＨＣＣデバイス実行可能コード３４８２と、ＣＰＵ３４９０と、ＧＰＵ３４９２とを含む。

【0286】

【0287】

少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートする。少なくとも１つの実施例では、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０中の各カーネル・コールを、ＣＵＤＡシンタックスからＨＩＰシンタックスにコンバートし、ソース・コード３４１０中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。

【0288】

少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、その後、ターゲット・デバイス３４４６がＣＵＤＡ対応でないと決定し、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４を生成する。少なくとも１つの実施例では、ＨＩＰコンパイラ・ドライバ３４４０は、次いで、ＨＩＰソース・コード３４３０をコンパイルするためにＨＩＰ／ＨＣＣコンパイル・コマンド３４４４を実行するようにＨＣＣ３４６０を構成する。少なくとも１つの実施例では、ＨＩＰ／ＨＣＣコンパイル・コマンド３４４４は、限定はしないが、ホスト実行可能コード３４７０（２）及びＨＣＣデバイス実行可能コード３４８２を生成するためにＨＩＰ／ＨＣＣランタイム・ライブラリ３４５８及びＨＣＣヘッダ３４５６を使用するようにＨＣＣ３４６０を構成する。少なくとも１つの実施例では、ＨＩＰ／ＨＣＣランタイム・ライブラリ３４５８は、ＨＩＰランタイムＡＰＩ３４３２に対応する。少なくとも１つの実施例では、ＨＣＣヘッダ３４５６は、限定はしないが、ＨＩＰ及びＨＣＣのための任意の数及びタイプの相互運用性機構を含む。少なくとも１つの実施例では、ホスト実行可能コード３４７０（２）及びＨＣＣデバイス実行可能コード３４８２は、それぞれ、ＣＰＵ３４９０及びＧＰＵ３４９２上で実行され得る。

【0289】

少なくとも１つの実施例では、システム３４０６は、３Ｄジオメトリ・モジュール１０８（図１参照）及び／又は画像レンダリング・モジュール１１０（図１参照）の１つ又は複数の部分を作成するために使用され得る。

【0290】

図３５は、少なくとも１つの実施例による、図３４ＣのＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０によってトランスレートされた例示的なカーネルを示す。少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、所与のカーネルが解くように設計される全体的な問題を、スレッド・ブロックを使用して独立して解かれ得る比較的粗いサブ問題に区分けする。少なくとも１つの実施例では、各スレッド・ブロックは、限定はしないが、任意の数のスレッドを含む。少なくとも１つの実施例では、各サブ問題は、スレッド・ブロック内のスレッドによって並列に連動して解かれ得る比較的細かい部片に区分けされる。少なくとも１つの実施例では、スレッド・ブロック内のスレッドは、共有メモリを通してデータを共有することによって、及びメモリ・アクセスを協調させるために実行を同期させることによって連動することができる。

【0291】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、所与のカーネルに関連するスレッド・ブロックを、スレッド・ブロックの１次元グリッド、２次元グリッド、又は３次元グリッドに組織化する。少なくとも１つの実施例では、各スレッド・ブロックは、限定はしないが、任意の数のスレッドを含み、グリッドは、限定はしないが、任意の数のスレッド・ブロックを含む。

【0292】

少なくとも１つの実施例では、カーネルは、「＿＿ｇｌｏｂａｌ＿＿」宣言指定子（ｄｅｃｌａｒａｔｉｏｎｓｐｅｃｉｆｉｅｒ）を使用して定義されるデバイス・コード中の関数である。少なくとも１つの実施例では、所与のカーネル・コール及び関連するストリームについてカーネルを実行するグリッドの次元は、ＣＵＤＡカーネル起動シンタックス３５１０を使用して指定される。少なくとも１つの実施例では、ＣＵＤＡカーネル起動シンタックス３５１０は、「ＫｅｒｎｅｌＮａｍｅ＜＜＜ＧｒｉｄＳｉｚｅ，ＢｌｏｃｋＳｉｚｅ，ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ，Ｓｔｒｅａｍ＞＞＞（ＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓ）；」として指定される。少なくとも１つの実施例では、実行構成シンタックスは、カーネル名（「ＫｅｒｎｅｌＮａｍｅ」）とカーネル引数の括弧に入れられたリスト（「ＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓ」）との間に挿入される「＜＜＜．．．＞＞＞」構築物である。少なくとも１つの実施例では、ＣＵＤＡカーネル起動シンタックス３５１０は、限定はしないが、実行構成シンタックスの代わりにＣＵＤＡ起動機能シンタックスを含む。

【0293】

少なくとも１つの実施例では、「ＧｒｉｄＳｉｚｅ」は、タイプｄｉｍ３のものであり、グリッドの次元及びサイズを指定する。少なくとも１つの実施例では、タイプｄｉｍ３は、限定はしないが、符号なし整数ｘ、ｙ、及びｚを含む、ＣＵＤＡ定義構造である。少なくとも１つの実施例では、ｚが指定されない場合、ｚは１にデフォルト設定される。少なくとも１つの実施例では、ｙが指定されない場合、ｙは１にデフォルト設定される。少なくとも１つの実施例では、グリッド中のスレッド・ブロックの数は、ＧｒｉｄＳｉｚｅ．ｘとＧｒｉｄＳｉｚｅ．ｙとＧｒｉｄＳｉｚｅ．ｚとの積に等しい。少なくとも１つの実施例では、「ＢｌｏｃｋＳｉｚｅ」は、タイプｄｉｍ３のものであり、各スレッド・ブロックの次元及びサイズを指定する。少なくとも１つの実施例では、スレッド・ブロックごとのスレッドの数は、ＢｌｏｃｋＳｉｚｅ．ｘとＢｌｏｃｋＳｉｚｅ．ｙとＢｌｏｃｋＳｉｚｅ．ｚとの積に等しい。少なくとも１つの実施例では、カーネルを実行する各スレッドは、組み込み変数（たとえば、「ｔｈｒｅａｄＩｄｘ」）を通してカーネル内でアクセス可能である一意のスレッドＩＤを与えられる。

【0294】

少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３５１０に関して、「ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ」は、静的に割り振られたメモリに加えて、所与のカーネル・コールについてスレッド・ブロックごとに動的に割り振られる共有メモリ中のバイトの数を指定する随意の引数である。少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３５１０に関して、ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅは０にデフォルト設定される。少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３５１０に関して、「Ｓｔｒｅａｍ」は、関連するストリームを指定する随意の引数であり、デフォルト・ストリームを指定するために０にデフォルト設定される。少なくとも１つの実施例では、ストリームは、イン・オーダーで実行する（場合によっては、異なるホスト・スレッドによって発行された）コマンドのシーケンスである。少なくとも１つの実施例では、異なるストリームは、互いに対してアウト・オブ・オーダーで、又は同時に、コマンドを実行し得る。

【0295】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０は、限定はしないが、例示的なカーネル「ＭａｔＡｄｄ」のためのカーネル定義とメイン関数とを含む。少なくとも１つの実施例では、メイン関数は、ホスト上で実行し、限定はしないが、カーネルＭａｔＡｄｄにデバイス上で実行させるカーネル・コールを含む、ホスト・コードである。少なくとも１つの実施例では、及び示されているように、カーネルＭａｔＡｄｄは、Ｎが正の整数である、サイズＮ×Ｎの２つの行列ＡとＢとを加算し、結果を行列Ｃに記憶する。少なくとも１つの実施例では、メイン関数は、ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ変数を１６×１６として定義し、ｎｕｍＢｌｏｃｋｓ変数をＮ／１６×Ｎ／１６として定義する。少なくとも１つの実施例では、メイン関数は、次いで、カーネル・コール「ＭａｔＡｄｄ＜＜＜ｎｕｍＢｌｏｃｋｓ，ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ＞＞＞（Ａ，Ｂ，Ｃ）；」を指定する。少なくとも１つの実施例では、及びＣＵＤＡカーネル起動シンタックス３５１０通りに、カーネルＭａｔＡｄｄは、寸法Ｎ／１６×Ｎ／１６を有する、スレッド・ブロックのグリッドを使用して実行され、ここで、各スレッド・ブロックは、１６×１６の寸法を有する。少なくとも１つの実施例では、各スレッド・ブロックは、２５６個のスレッドを含み、グリッドは、行列要素ごとに１つのスレッドを有するのに十分なブロックで作成され、そのようなグリッド中の各スレッドは、１つのペアワイズ加算を実施するためにカーネルＭａｔＡｄｄを実行する。

【0296】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３４１０をＨＩＰソース・コード３４３０にトランスレートする間、ＣＵＤＡからＨＩＰへのトランスレーション・ツール３４２０は、ＣＵＤＡソース・コード３４１０中の各カーネル・コールを、ＣＵＤＡカーネル起動シンタックス３５１０からＨＩＰカーネル起動シンタックス３５２０にトランスレートし、ソース・コード３４１０中の任意の数の他のＣＵＤＡコールを、任意の数の他の機能的に同様のＨＩＰコールにコンバートする。少なくとも１つの実施例では、ＨＩＰカーネル起動シンタックス３５２０は、「ｈｉｐＬａｕｎｃｈＫｅｒｎｅｌＧＧＬ（ＫｅｒｎｅｌＮａｍｅ，ＧｒｉｄＳｉｚｅ，ＢｌｏｃｋＳｉｚｅ，ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ，Ｓｔｒｅａｍ，ＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓ）；」として指定される。少なくとも１つの実施例では、ＫｅｒｎｅｌＮａｍｅ、ＧｒｉｄＳｉｚｅ、ＢｌｏｃｋＳｉｚｅ、ＳｈａｒｅＭｅｍｏｒｙＳｉｚｅ、Ｓｔｒｅａｍ、及びＫｅｒｎｅｌＡｒｇｕｍｅｎｔｓの各々は、ＨＩＰカーネル起動シンタックス３５２０において、（本明細書で前に説明された）ＣＵＤＡカーネル起動シンタックス３５１０の場合と同じ意味を有する。少なくとも１つの実施例では、引数ＳｈａｒｅｄＭｅｍｏｒｙＳｉｚｅ及びＳｔｒｅａｍは、ＨＩＰカーネル起動シンタックス３５２０では必要とされ、ＣＵＤＡカーネル起動シンタックス３５１０では随意である。

【0297】

少なくとも１つの実施例では、図３５に図示されたＨＩＰソース・コード３４３０の一部分は、カーネルＭａｔＡｄｄにデバイス上で実行させるカーネル・コールを除いて、図３５に図示されたＣＵＤＡソース・コード３４１０の一部分と同一である。少なくとも１つの実施例では、カーネルＭａｔＡｄｄは、カーネルＭａｔＡｄｄがＣＵＤＡソース・コード３４１０において定義される、同じ「＿＿ｇｌｏｂａｌ＿＿」宣言指定子を用いて、ＨＩＰソース・コード３４３０において定義される。少なくとも１つの実施例では、ＨＩＰソース・コード３４３０中のカーネル・コールは、「ｈｉｐＬａｕｎｃｈＫｅｒｎｅｌＧＧＬ（ＭａｔＡｄｄ，ｎｕｍＢｌｏｃｋｓ，ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ，０，０，Ａ，Ｂ，Ｃ）；」であるが、ＣＵＤＡソース・コード３４１０中の対応するカーネル・コールは、「ＭａｔＡｄｄ＜＜＜ｎｕｍＢｌｏｃｋｓ，ｔｈｒｅａｄｓＰｅｒＢｌｏｃｋ＞＞＞（Ａ，Ｂ，Ｃ）；」である。

【0298】

図３６は、少なくとも１つの実施例による、図３４ＣのＣＵＤＡ非対応ＧＰＵ３４９２をより詳細に示す。少なくとも１つの実施例では、ＧＰＵ３４９２は、サンタクララのＡＭＤｃｏｒｐｏｒａｔｉｏｎによって開発される。少なくとも１つの実施例では、ＧＰＵ３４９２は、高度並列様式でコンピュート動作を実施するように構成され得る。少なくとも１つの実施例では、ＧＰＵ３４９２は、描画コマンド、ピクセル動作、幾何学的算出、及びディスプレイに画像をレンダリングすることに関連する他の動作など、グラフィックス・パイプライン動作を実行するように構成される。少なくとも１つの実施例では、ＧＰＵ３４９２は、グラフィックに関係しない動作を実行するように構成される。少なくとも１つの実施例では、ＧＰＵ３４９２は、グラフィックに関係する動作とグラフィックに関係しない動作の両方を実行するように構成される。少なくとも１つの実施例では、ＧＰＵ３４９２は、ＨＩＰソース・コード３４３０中に含まれるデバイス・コードを実行するように構成され得る。

【0299】

少なくとも１つの実施例では、ＧＰＵ３４９２は、限定はしないが、任意の数のプログラマブル処理ユニット３６２０と、コマンド・プロセッサ３６１０と、Ｌ２キャッシュ３６２２と、メモリ・コントローラ３６７０と、ＤＭＡエンジン３６８０（１）と、システム・メモリ・コントローラ３６８２と、ＤＭＡエンジン３６８０（２）と、ＧＰＵコントローラ３６８４とを含む。少なくとも１つの実施例では、各プログラマブル処理ユニット３６２０は、限定はしないが、ワークロード・マネージャ３６３０と、任意の数のコンピュート・ユニット３６４０とを含む。少なくとも１つの実施例では、コマンド・プロセッサ３６１０は、１つ又は複数のコマンド・キュー（図示せず）からコマンドを読み取り、ワークロード・マネージャ３６３０にコマンドを分散させる。少なくとも１つの実施例では、各プログラマブル処理ユニット３６２０について、関連するワークロード・マネージャ３６３０は、プログラマブル処理ユニット３６２０中に含まれるコンピュート・ユニット３６４０にワークを分散させる。少なくとも１つの実施例では、各コンピュート・ユニット３６４０は、任意の数のスレッド・ブロックを実行し得るが、各スレッド・ブロックは、単一のコンピュート・ユニット３６４０上で実行する。少なくとも１つの実施例では、ワークグループは、スレッド・ブロックである。

【0300】

少なくとも１つの実施例では、各コンピュート・ユニット３６４０は、限定はしないが、任意の数のＳＩＭＤユニット３６５０と、共有メモリ３６６０とを含む。少なくとも１つの実施例では、各ＳＩＭＤユニット３６５０は、ＳＩＭＤアーキテクチャを実装し、動作を並列に実施するように構成される。少なくとも１つの実施例では、各ＳＩＭＤユニット３６５０は、限定はしないが、ベクトルＡＬＵ３６５２とベクトル・レジスタ・ファイル３６５４とを含む。少なくとも１つの実施例では、各ＳＩＭＤユニット３６５０は、異なるワープを実行する。少なくとも１つの実施例では、ワープは、スレッドのグループ（たとえば、１６個のスレッド）であり、ここで、ワープ中の各スレッドは、単一のスレッド・ブロックに属し、命令の単一のセットに基づいて、データの異なるセットを処理するように構成される。少なくとも１つの実施例では、ワープ中の１つ又は複数のスレッドを無効にするために、プレディケーションが使用され得る。少なくとも１つの実施例では、レーンはスレッドである。少なくとも１つの実施例では、ワーク・アイテムはスレッドである。少なくとも１つの実施例では、ウェーブフロントはワープである。少なくとも１つの実施例では、スレッド・ブロック中の異なるウェーブフロントは、互いに同期し、共有メモリ３６６０を介して通信し得る。

【0301】

少なくとも１つの実施例では、プログラマブル処理ユニット３６２０は、「シェーダ・エンジン」と呼ばれる。少なくとも１つの実施例では、各プログラマブル処理ユニット３６２０は、限定はしないが、コンピュート・ユニット３６４０に加えて、任意の量の専用グラフィックス・ハードウェアを含む。少なくとも１つの実施例では、各プログラマブル処理ユニット３６２０は、限定はしないが、（ゼロを含む）任意の数のジオメトリ・プロセッサと、（ゼロを含む）任意の数のラスターライザと、（ゼロを含む）任意の数のレンダー・バック・エンドと、ワークロード・マネージャ３６３０と、任意の数のコンピュート・ユニット３６４０とを含む。

【0302】

少なくとも１つの実施例では、コンピュート・ユニット３６４０は、Ｌ２キャッシュ３６２２を共有する。少なくとも１つの実施例では、Ｌ２キャッシュ３６２２は区分けされる。少なくとも１つの実施例では、ＧＰＵメモリ３６９０は、ＧＰＵ３４９２中のすべてのコンピュート・ユニット３６４０によってアクセス可能である。少なくとも１つの実施例では、メモリ・コントローラ３６７０及びシステム・メモリ・コントローラ３６８２は、ＧＰＵ３４９２とホストとの間のデータ転送を容易にし、ＤＭＡエンジン３６８０（１）は、ＧＰＵ３４９２とそのようなホストとの間の非同期メモリ転送を可能にする。少なくとも１つの実施例では、メモリ・コントローラ３６７０及びＧＰＵコントローラ３６８４は、ＧＰＵ３４９２と他のＧＰＵ３４９２との間のデータ転送を容易にし、ＤＭＡエンジン３６８０（２）は、ＧＰＵ３４９２と他のＧＰＵ３４９２との間の非同期メモリ転送を可能にする。

【0303】

少なくとも１つの実施例では、ＧＰＵ３４９２は、限定はしないが、ＧＰＵ３４９２の内部又は外部にあり得る、任意の数及びタイプの直接又は間接的にリンクされた構成要素にわたるデータ及び制御送信を容易にする、任意の量及びタイプのシステム相互接続を含む。少なくとも１つの実施例では、ＧＰＵ３４９２は、限定はしないが、任意の数及びタイプの周辺デバイスに結合される、任意の数及びタイプのＩ／Ｏインターフェース（たとえば、ＰＣＩｅ）を含む。少なくとも１つの実施例では、ＧＰＵ３４９２は、限定はしないが、（ゼロを含む）任意の数のディスプレイ・エンジンと、（ゼロを含む）任意の数のマルチメディア・エンジンとを含み得る。少なくとも１つの実施例では、ＧＰＵ３４９２は、限定はしないが、１つの構成要素に専用であるか又は複数の構成要素の間で共有され得る、任意の量及びタイプのメモリ・コントローラ（たとえば、メモリ・コントローラ３６７０及びシステム・メモリ・コントローラ３６８２）及びメモリ・デバイス（たとえば、共有メモリ３６６０）を含む、メモリ・サブシステムを実装する。少なくとも１つの実施例では、ＧＰＵ３４９２は、限定はしないが、１つ又は複数のキャッシュ・メモリ（たとえば、Ｌ２キャッシュ３６２２）を含む、キャッシュ・サブシステムを実装し、１つ又は複数のキャッシュ・メモリは、各々、任意の数の構成要素（たとえば、ＳＩＭＤユニット３６５０、コンピュート・ユニット３６４０、及びプログラマブル処理ユニット３６２０）に対してプライベートであるか、又は任意の数の構成要素間で共有され得る。

【0304】

図３７は、少なくとも１つの実施例による、例示的なＣＵＤＡグリッド３７２０のスレッドが図３６の異なるコンピュート・ユニット３６４０にどのようにマッピングされるかを示す。少なくとも１つの実施例では、及び単に説明目的のために、グリッド３７２０は、ＢＸ×ＢＹ×１のＧｒｉｄＳｉｚｅと、ＴＸ×ＴＹ×１のＢｌｏｃｋＳｉｚｅとを有する。少なくとも１つの実施例では、グリッド３７２０は、したがって、限定はしないが、（ＢＸ＊ＢＹ）個のスレッド・ブロック３７３０を含み、各スレッド・ブロック３７３０は、限定はしないが、（ＴＸ＊ＴＹ）個のスレッド３７４０を含む。スレッド３７４０は、曲がりくねった矢印（ｓｑｕｉｇｇｌｙａｒｒｏｗ）として図３７に図示されている。

【0305】

少なくとも１つの実施例では、グリッド３７２０は、限定はしないが、コンピュート・ユニット３６４０（１）～３６４０（Ｃ）を含むプログラマブル処理ユニット３６２０（１）にマッピングされる。少なくとも１つの実施例では、及び示されているように、（ＢＪ＊ＢＹ）個のスレッド・ブロック３７３０が、コンピュート・ユニット３６４０（１）にマッピングされ、残りのスレッド・ブロック３７３０が、コンピュート・ユニット３６４０（２）にマッピングされる。少なくとも１つの実施例では、各スレッド・ブロック３７３０は、限定はしないが、任意の数のワープを含み得、各ワープは、図３６の異なるＳＩＭＤユニット３６５０にマッピングされる。

【0306】

少なくとも１つの実施例では、所与のスレッド・ブロック３７３０中のワープは、互いに同期し、関連するコンピュート・ユニット３６４０中に含まれる共有メモリ３６６０を通して通信し得る。たとえば、及び少なくとも１つの実施例では、スレッド・ブロック３７３０（ＢＪ，１）中のワープは、互いに同期し、共有メモリ３６６０（１）を通して通信することができる。たとえば、及び少なくとも１つの実施例では、スレッド・ブロック３７３０（ＢＪ＋１，１）中のワープは、互いに同期し、共有メモリ３６６０（２）を通して通信することができる。

【0307】

図３８は、少なくとも１つの実施例による、既存のＣＵＤＡコードをＤａｔａＰａｒａｌｌｅｌＣ＋＋コードにどのようにマイグレートするかを示す。ＤａｔａＰａｒａｌｌｅｌＣ＋＋（ＤＰＣ＋＋）は、単一アーキテクチャ・プロプライエタリ言語に対するオープンな規格ベースの代替を指し得、これは、開発者が、ハードウェア・ターゲット（ＣＰＵ並びにＧＰＵ及びＦＰＧＡなどのアクセラレータ）にわたってコードを再使用し、また、特定のアクセラレータのためのカスタム調整を実施することを可能にする。ＤＰＣ＋＋は、開発者が精通していることがあるＩＳＯＣ＋＋に従う、同様の及び／又は同一のＣ及びＣ＋＋構築物を使用する。ＤＰＣ＋＋は、データ並列処理及び異種プログラミングをサポートするためにクロノス・グループからの標準ＳＹＣＬを組み込む。ＳＹＣＬは、ＯｐｅｎＣＬの基礎をなす概念、ポータビリティ及び効率に基づく、クロスプラットフォーム抽象化層を指し、これは、異種プロセッサのためのコードが、標準Ｃ＋＋を使用して「単一ソース」スタイルで書かれることを可能にする。ＳＹＣＬは、Ｃ＋＋テンプレート関数が、ホスト・コードとデバイス・コードの両方を含んでおり、ＯｐｅｎＣＬ加速を使用する複雑なアルゴリズムを構築し、次いで、それらを、異なるタイプのデータに関するそれらのソース・コード全体にわたって再使用することができる、単一ソース開発を可能にし得る。

【0308】

少なくとも１つの実施例では、ＤＰＣ＋＋コンパイラは、多様なハードウェア・ターゲットにわたって導入され得るＤＰＣ＋＋ソース・コードをコンパイルするために使用される。少なくとも１つの実施例では、ＤＰＣ＋＋コンパイラは、多様なハードウェア・ターゲットにわたって導入され得るＤＰＣ＋＋アプリケーションを生成するために使用され、ＤＰＣ＋＋互換性ツールは、ＣＵＤＡアプリケーションをＤＰＣ＋＋のマルチプラットフォーム・プログラムにマイグレートするために使用され得る。少なくとも１つの実施例では、ＤＰＣ＋＋ベース・ツール・キットは、多様なハードウェア・ターゲットにわたってアプリケーションを導入するためのＤＰＣ＋＋コンパイラと、ＣＰＵ、ＧＰＵ、及びＦＰＧＡにわたって生産性及び性能を増加させるためのＤＰＣ＋＋ライブラリと、ＣＵＤＡアプリケーションをマルチプラットフォーム・アプリケーションにマイグレートするためのＤＰＣ＋＋互換性ツールと、それらの任意の好適な組合せとを含む。

【0309】

少なくとも１つの実施例では、ＤＰＣ＋＋プログラミング・モデルは、ＤａｔａＰａｒａｌｌｅｌＣ＋＋と呼ばれるプログラミング言語を用いて並列処理を表現するための現代のＣ＋＋特徴を使用することによって、単に、ＣＰＵ及びアクセラレータをプログラムすることに関係する１つ又は複数の態様に対して利用される。ＤＰＣ＋＋プログラミング言語は、ホスト（たとえば、ＣＰＵ）及びアクセラレータ（たとえば、ＧＰＵ又はＦＰＧＡ）のためのコード再使用に対して利用され、単一のソース言語を使用し、実行及びメモリ依存性が明確に通信され得る。ＤＰＣ＋＋コード内でのマッピングは、アプリケーションを移行させて、ワークロードを最も良く加速するハードウェア又はハードウェア・デバイスのセット上で稼働するために、使用され得る。利用可能なアクセラレータを有しないプラットフォーム上でも、デバイス・コードの開発及びデバッギングを簡略化するために、ホストが利用可能であり得る。

【0310】

少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３８０４を生成するために、ＤＰＣ＋＋互換性ツール３８０２への入力として、ＣＵＤＡソース・コード３８００が提供される。少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３８０４は、ＤＰＣ＋＋互換性ツール３８０２によって生成されたインライン・コメントを含み、これは、コーディングと所望の性能への調整とを完了３８０６するために、ＤＰＣ＋＋コードをどのように及び／又はどこで修正すべきかに関して開発者をガイドし、それにより、ＤＰＣ＋＋ソース・コード３８０８を生成する。

【0311】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３８００は、ＣＵＤＡプログラミング言語の人間が読み取れるソース・コードの集合であるか、又はその集合を含む。少なくとも１つの実施例では、ＣＵＤＡソース・コード３８００は、ＣＵＤＡプログラミング言語の人間が読み取れるソース・コードである。少なくとも１つの実施例では、ＣＵＤＡプログラミング言語は、限定はしないが、デバイス・コードを定義し、デバイス・コードとホスト・コードとを区別するための機構を含む、Ｃ＋＋プログラミング言語の拡張である。少なくとも１つの実施例では、デバイス・コードは、コンパイルの後に、デバイス（たとえば、ＧＰＵ又はＦＰＧＡ）上で実行可能であり、デバイスの１つ又は複数のプロセッサ・コア上で実行され得る、又はより並列化可能なワークフローを含み得る、ソース・コードである。少なくとも１つの実施例では、デバイスは、ＣＵＤＡ対応ＧＰＵ、ＧＰＵ、又は別のＧＰＧＰＵなど、並列命令処理のために最適化されるプロセッサであり得る。少なくとも１つの実施例では、ホスト・コードは、コンパイルの後にホスト上で実行可能であるソース・コードである。少なくとも１つの実施例では、ホスト・コード及びデバイス・コードの一部又は全部は、ＣＰＵ及びＧＰＵ／ＦＰＧＡにわたって並列に実行され得る。少なくとも１つの実施例では、ホストは、ＣＰＵなど、連続命令処理のために最適化されるプロセッサである。図３８に関して説明されるＣＵＤＡソース・コード３８００は、本明細書の他の場所で説明されるＣＵＤＡソース・コードに従い得る。

【0312】

少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、ＤＰＣ＋＋ソース・コード３８０８へのＣＵＤＡソース・コード３８００のマイグレーションを容易にするために使用される、実行可能ツール、プログラム、アプリケーション、又は任意の他の好適なタイプのツールを指す。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、既存のＣＵＤＡソースをＤＰＣ＋＋に移植するために使用されるＤＰＣ＋＋ツール・キットの一部として利用可能なコマンド・ライン・ベースのコード・マイグレーション・ツールである。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、ＣＵＤＡアプリケーションの一部又は全部のソース・コードをＣＵＤＡからＤＰＣ＋＋にコンバートし、人間が読み取れるＤＰＣ＋＋３８０４と呼ばれる、少なくとも部分的にＤＰＣ＋＋で書かれる得られたファイルを生成する。少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３８０４は、ユーザ介入がどこで必要であり得るかを示すためにＤＰＣ＋＋互換性ツール３８０２によって生成されるコメントを含む。少なくとも１つの実施例では、ユーザ介入は、ＣＵＤＡソース・コード３８００が、類似するＤＰＣ＋＋ＡＰＩを有しないＣＵＤＡＡＰＩをコールするとき、必要であり、ユーザ介入が必要とされる他の実例は、後でより詳細に説明される。

【0313】

少なくとも１つの実施例では、ＣＵＤＡソース・コード３８００（たとえば、アプリケーション又はそれの部分）をマイグレートするためのワークフローは、１つ又は複数のコンパイル・データベース・ファイルを作成することと、ＤＰＣ＋＋互換性ツール３８０２を使用してＣＵＤＡをＤＰＣ＋＋にマイグレートすることと、マイグレーションを完了し、正当性を確認し、それにより、ＤＰＣ＋＋ソース・コード３８０８を生成することと、ＤＰＣ＋＋アプリケーションを生成するためにＤＰＣ＋＋コンパイラを用いてＤＰＣ＋＋ソース・コード３８０８をコンパイルすることとを含む。少なくとも１つの実施例では、互換性ツールは、Ｍａｋｅｆｉｌｅが実行するときに使用されるコマンドをインターセプトし、それらをコンパイル・データベース・ファイルに記憶する、ユーティリティを提供する。少なくとも１つの実施例では、ファイルは、ＪＳＯＮフォーマットで記憶される。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｔコマンドは、ＭａｋｅｆｉｌｅコマンドをＤＰＣ互換性コマンドにコンバートする。

【0314】

少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄは、ビルド・プロセスをインターセプトして、コンパイル・オプション、マクロ定義（ｍａｃｒｏｄｅｆｓ）、及びインクルード・パス（ｉｎｃｌｕｄｅｐａｔｈｓ）をキャプチャし、このデータをコンパイル・データベース・ファイルに書き込む、ユーティリティ・スクリプトである。少なくとも１つの実施例では、コンパイル・データベース・ファイルは、ＪＳＯＮファイルである。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、コンパイル・データベースを構文解析し、入力ソースをマイグレートするときにオプションを適用する。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄの使用は、随意であるが、Ｍａｋｅ又はＣＭａｋｅベースの環境について大いに推奨される。少なくとも１つの実施例では、マイグレーション・データベースは、コマンドとディレクトリとファイルとを含み、コマンドは、必要なコンパイル・フラグを含み得、ディレクトリは、ヘッダ・ファイルへのパスを含み得、ファイルは、ＣＵＤＡファイルへのパスを含み得る。

【0315】

少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、可能な場合はいつでもＤＰＣ＋＋を生成することによって、ＣＵＤＡで書かれたＣＵＤＡコード（たとえば、アプリケーション）をＤＰＣ＋＋にマイグレートする。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、ツール・キットの一部として利用可能である。少なくとも１つの実施例では、ＤＰＣ＋＋ツール・キットは、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄツールを含む。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｔツールは、ＣＵＤＡファイルをマイグレートするためにコンパイル・コマンドをキャプチャするコンパイル・データベースを作成する。少なくとも１つの実施例では、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｔツールによって生成されたコンパイル・データベースは、ＣＵＤＡコードをＤＰＣ＋＋にマイグレートするためにＤＰＣ＋＋互換性ツール３８０２によって使用される。少なくとも１つの実施例では、非ＣＵＤＡＣ＋＋コード及びファイルは、そのままマイグレートされる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、人間が読み取れるＤＰＣ＋＋３８０４を生成し、これは、ＤＰＣ＋＋互換性ツール３８０２によって生成されたとき、ＤＰＣ＋＋コンパイラによってコンパイルされないことがあり、正しくマイグレートされなかったコードの部分を確認するための追加のプラミング（ｐｌｕｍｂｉｎｇ）を必要とする、ＤＰＣ＋＋コードであり得、開発者によってなど、手動の介入を伴い得る。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、自動的にマイグレートされないことがある追加のコードを開発者が手動でマイグレートするのを助けるために、コード中に埋め込まれたヒント又はツールを提供する。少なくとも１つの実施例では、マイグレーションは、ソース・ファイル、プロジェクト、又はアプリケーションのための１回のアクティビティである。

【0316】

少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８００２は、ＣＵＤＡコードのすべての部分をＤＰＣ＋＋に正常にマイグレートすることが可能であり、単に、生成されたＤＰＣ＋＋ソース・コードの性能を手動で確認及び調整するための随意のステップがあり得る。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、ＤＰＣ＋＋互換性ツール３８０２によって生成されたＤＰＣ＋＋コードを修正するための人間の介入を必要とするか又は利用することなしに、ＤＰＣ＋＋コンパイラによってコンパイルされるＤＰＣ＋＋ソース・コード３８０８を直接生成する。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツールは、コンパイル可能なＤＰＣ＋＋コードを生成し、これは、性能、読みやすさ、維持可能性、他の様々な考慮事項、又はそれらの任意の組合せについて、開発者によって随意に調整され得る。

【0317】

少なくとも１つの実施例では、１つ又は複数のＣＵＤＡソース・ファイルは、少なくとも部分的にＤＰＣ＋＋互換性ツール３８０２を使用してＤＰＣ＋＋ソース・ファイルにマイグレートされる。少なくとも１つの実施例では、ＣＵＤＡソース・コードは、ＣＵＤＡヘッダ・ファイルを含み得る１つ又は複数のヘッダ・ファイルを含む。少なくとも１つの実施例では、ＣＵＤＡソース・ファイルは、＜ｃｕｄａ．ｈ＞ヘッダ・ファイルと、テキストをプリントするために使用され得る＜ｓｔｄｉｏ．ｈ＞ヘッダ・ファイルとを含む。少なくとも１つの実施例では、ベクトル加算カーネルＣＵＤＡソース・ファイルの一部分は、以下のように書かれるか、又は以下に関係し得る。

【数6-1】

【数6-2】

【0318】

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、ＤＰＣ＋＋互換性ツール３８０２は、ＣＵＤＡソース・コードを構文解析し、ヘッダ・ファイルを、適切なＤＰＣ＋＋ヘッダ・ファイル及びＳＹＣＬヘッダ・ファイルと置き換える。少なくとも１つの実施例では、ＤＰＣ＋＋ヘッダ・ファイルは、ヘルパー宣言（ｈｅｌｐｅｒｄｅｃｌａｒａｔｉｏｎ）を含む。ＣＵＤＡでは、スレッドＩＤの概念があり、対応して、ＤＰＣ＋＋又はＳＹＣＬでは、各要素について、ローカル識別子がある。

【0319】

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、初期化される２つのベクトルＡ及びＢがあり、ベクトル加算結果が、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）の一部として、ベクトルＣに入れられる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、ＣＵＤＡコードをＤＰＣ＋＋コードにマイグレートすることの一部として、ワーク要素をインデックス付けするために使用されるＣＵＤＡスレッドＩＤを、ローカルＩＤを介したワーク要素のためのＳＹＣＬ標準アドレッシングにコンバートする。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２によって生成されたＤＰＣ＋＋コードは、たとえば、ｎｄ＿ｉｔｅｍの次元を低減し、それにより、メモリ及び／又はプロセッサ利用率を増加させることによって、最適化され得る。

【0320】

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、メモリ割振りがマイグレートされる。少なくとも１つの実施例では、ｃｕｄａＭａｌｌｏｃ（）は、プラットフォーム、デバイス、コンテキスト、及びキューなど、ＳＹＣＬ概念に依拠して、デバイス及びコンテキストが渡される、統一共有メモリＳＹＣＬコールｍａｌｌｏｃ＿ｄｅｖｉｃｅ（）にマイグレートされる。少なくとも１つの実施例では、ＳＹＣＬプラットフォームは、複数のデバイス（たとえば、ホスト及びＧＰＵデバイス）を有することができ、デバイスは、ジョブがサブミットされ得る複数のキューを有し得、各デバイスは、コンテキストを有し得、コンテキストは、複数のデバイスを有し、共有メモリ・オブジェクトを管理し得る。

【0321】

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、ｍａｉｎ（）関数は、２つのベクトルＡとＢとを互いに加算し、結果をベクトルＣに記憶するための、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）を呼び出すか又はコールする。少なくとも１つの実施例では、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）を呼び出すためのＣＵＤＡコードは、実行のためにカーネルをコマンド・キューにサブミットするためのＤＰＣ＋＋コードによって置き換えられる。少なくとも１つの実施例では、コマンド・グループ・ハンドラｃｇｈは、キューにサブミットされる、データ、同期、及び算出を渡し、ｐａｒａｌｌｅｌ＿ｆｏｒは、ＶｅｃｔｏｒＡｄｄＫｅｒｎｅｌ（）がコールされるワーク・グループ中の、グローバル要素の数及びワーク・アイテムの数についてコールされる。

【0322】

少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、デバイス・メモリをコピーし、次いで、ベクトルＡ、Ｂ、及びＣのためのメモリを解放するためのＣＵＤＡコールが、対応するＤＰＣ＋＋コールにマイグレートされる。少なくとも１つの実施例では、Ｃ＋＋コード（たとえば、浮動小数点変数のベクトルをプリントするための標準ＩＳＯＣ＋＋コード）は、ＤＰＣ＋＋互換性ツール３８０２によって修正されることなしに、そのままマイグレートされる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、加速デバイス上でカーネルを実行するために、メモリ・セットアップ及び／又はホスト・コールのためのＣＵＤＡＡＰＩを修正する。少なくとも１つの実施例では、及び上記で提示されたＣＵＤＡソース・ファイルに関して、（たとえば、コンパイルされ得る）対応する人間が読み取れるＤＰＣ＋＋３８０４は、以下のように書かれるか、又は以下に関係する。

【数7-1】

【数7-2】

【数7-3】

【0323】

少なくとも１つの実施例では、人間が読み取れるＤＰＣ＋＋３８０４は、ＤＰＣ＋＋互換性ツール３８０２によって生成された出力を指し、ある様式又は別の様式で最適化され得る。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２によって生成された人間が読み取れるＤＰＣ＋＋３８０４は、それをより維持可能にすること、性能、又は他の考慮事項のために、マイグレーションの後に開発者によって手動で編集され得る。少なくとも１つの実施例では、開示されるＤＰＣ＋＋などのＤＰＣ＋＋互換性ツール３８００２によって生成されたＤＰＣ＋＋コードは、各ｍａｌｌｏｃ＿ｄｅｖｉｃｅ（）コールのためのｇｅｔ＿ｃｕｒｒｅｎｔ＿ｄｅｖｉｃｅ（）及び／又はｇｅｔ＿ｄｅｆａｕｌｔ＿ｃｏｎｔｅｘｔ（）への繰返しコールを削除することによって最適化され得る。少なくとも１つの実施例では、上記で生成されるＤＰＣ＋＋コードは、３次元のｎｄ＿ｒａｎｇｅを使用し、これは、単一次元のみを使用し、それにより、メモリ使用量を低減するために、再ファクタ化され得る。少なくとも１つの実施例では、開発者は、ＤＰＣ＋＋互換性ツール３８０２によって生成されたＤＰＣ＋＋コードを手動で編集し、統一共有メモリの使用をアクセッサと置き換えることができる。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、それがＣＵＤＡコードをＤＰＣ＋＋コードにどのようにマイグレートするかを変更するためのオプションを有する。少なくとも１つの実施例では、ＤＰＣ＋＋互換性ツール３８０２は、それが、ＣＵＤＡコードを、多数の場合について機能するＤＰＣ＋＋コードにマイグレートするための一般的なテンプレートを使用しているので、冗長である。

【0324】

少なくとも１つの実施例では、ＣＵＤＡからＤＰＣ＋＋へのマイグレーション・ワークフローは、ｉｎｔｅｒｃｅｐｔ－ｂｕｉｌｄスクリプトを使用してマイグレーションの準備をするためのステップと、ＤＰＣ＋＋互換性ツール３８０２を使用してＤＰＣ＋＋へのＣＵＤＡプロジェクトのマイグレーションを実施するためのステップと、完了及び正当性のために、マイグレートされたソース・ファイルを手動で検討及び編集するためのステップと、ＤＰＣ＋＋アプリケーションを生成するために最終ＤＰＣ＋＋コードをコンパイルするためのステップとを含む。少なくとも１つの実施例では、ＤＰＣ＋＋ソース・コードの手動の検討は、限定はしないが、マイグレートされたＡＰＩがエラー・コードを返さないこと（ＣＵＤＡコードは、エラー・コードを返すことができ、エラー・コードは、次いで、アプリケーションよって消費され得るが、ＳＹＣＬは、エラーを報告するために例外を使用し、したがって、エラーを表面化させるためのエラー・コードを使用しない）、ＣＵＤＡコンピュート能力依存論理がＤＰＣ＋＋によってサポートされないこと、ステートメントが削除されないことがあることを含む、１つ又は複数のシナリオにおいて必要とされ得る。少なくとも１つの実施例では、ＤＰＣ＋＋コードが手動の介入を必要とするシナリオは、限定はしないが、エラー・コード論理が（＊，０）コードと置き換えられるか又はコメント・アウトされる、等価なＤＰＣ＋＋ＡＰＩが利用可能でない、ＣＵＤＡコンピュート能力依存論理、ハードウェア依存ＡＰＩ（ｃｌｏｃｋ（））、欠落した特徴、サポートされていないＡＰＩ、実行時間測定論理、組み込みベクトル・タイプ競合に対処すること、ｃｕＢＬＡＳＡＰＩのマイグレーションなどを含み得る。

【0325】

本開示の少なくとも１つの実施例は、以下の条項を考慮して説明され得る。

【0326】

１．（ａ）第１の画像領域のための少なくとも１つの可視性パラメータを記憶するステップであって、１つ又は複数のレイ・トレースされた光サンプルのための少なくとも１つの可視性パラメータが、第１の画像領域に対応し、第１の画像領域に適用されるべき光の第１の量を示す、ステップと、（ｂ）少なくとも１つの可視性パラメータに少なくとも部分的に基づいて、第２の画像領域に適用されるべき光の第２の量を決定するステップであって、第２の画像領域が、第１の画像領域に、空間的に又は時間的にのうちの少なくとも１つで隣接する、ステップとを含む、コンピュータ実装方法。

【0327】

２．光の第２の量を決定する前に、第１の画像領域に関連付けられた第１のエイジ値を記憶するステップと、第２の画像領域が第１の画像領域に時間的に隣接するとき、光の第２の量を決定した後に第２のエイジ値を決定するステップと、第２のエイジ値を光の第２の量に関連付けるステップとをさらに含む、条項１に記載のコンピュータ実装方法。

【0328】

３．エイジしきい値と、第１のエイジ値又は第２のエイジ値のうちの１つとの比較の結果に基づいて、第３の画像領域に適用されるべき光の第３の量を決定するために、少なくとも１つの可視性パラメータを使用すべきかどうかを決定するステップをさらに含む、条項２に記載のコンピュータ実装方法。

【0329】

４．光の第２の量を決定する前に、第１の画像領域に関連付けられた第１の距離値を記憶するステップと、第２の画像領域が、第１の画像領域に、時間的にと空間的にの両方で隣接するとき、光の第２の量を決定した後に第２の距離値を決定するステップであって、第２の距離値が、第１の距離値と、第１の画像領域の第１の画像ロケーションと第２の画像領域の第２の画像ロケーションとの間の距離－第１の画像領域と第２の画像領域との間で行われる移動との和に等しい、ステップとをさらに含む、条項２又は３に記載のコンピュータ実装方法。

【0330】

５．距離しきい値と、第１の距離値又は第２の距離値のうちの１つとの比較の結果に基づいて、第３の画像領域に適用されるべき光の第３の量を決定するために、少なくとも１つの可視性パラメータを使用すべきかどうかを決定するステップをさらに含む、条項４に記載のコンピュータ実装方法。

【0331】

６．単一の画像が、第１の画像領域と第２の画像領域とを含み、第２の画像領域が、第１の画像領域に空間的に隣接する、条項１から５までのいずれか一項に記載のコンピュータ実装方法。

【0332】

７．第１の画像が、第１の画像領域を含み、第２の画像が、第２の画像領域を含み、第２の画像領域が、第１の画像領域に時間的に隣接する、条項１から６までのいずれか一項に記載のコンピュータ実装方法。

【0333】

８．第２の画像領域が、第１の画像領域に空間的に隣接する、条項７に記載のコンピュータ実装方法。

【0334】

９．選択された光サンプルを選択することと、第１の画像領域中の可視の表面上のポイントから、選択された光サンプルまで、レイをトレースすることと、ポイントへの、レイに沿って、選択された光サンプルによって行われた光寄与を決定することとによって、少なくとも１つの可視性パラメータを取得するステップをさらに含む、条項１から８までのいずれか一項に記載のコンピュータ実装方法。

【0335】

１０．複数の画像領域の各々について第１の光サンプルのセットを選択するステップと、第２の光サンプルのセットを取得するために、複数の画像領域の少なくとも一部分の各々について選択された第１の光サンプルのセットを組み合わせるステップと、第２の光サンプルのセットから、選択された光サンプルを選択するステップとをさらに含む、条項９に記載のコンピュータ実装方法。

【0336】

１１．重要度サンプリングが、第１の光サンプルのセットを選択するために使用される、条項１０に記載のコンピュータ実装方法。

【0337】

１２．重要度サンプリングが、第２の光サンプルのセットから、選択された光サンプルを選択するために使用される、条項１１に記載のコンピュータ実装方法。

【0338】

１３．１つ又は複数のプロセッサと、１つ又は複数のプロセッサによって実行可能な命令を記憶するための１つ又は複数のメモリとを備えるシステムであって、命令は、１つ又は複数のプロセッサによって実行されたとき、１つ又は複数のプロセッサに、少なくとも、（ａ）第１の画像領域中の可視の表面上のポイントから、選択された光サンプルまで、レイをトレースすることと、（ｂ）レイに沿って、選択された光サンプルによってポイントに寄与された光に少なくとも部分的に基づいて、少なくとも１つの可視性パラメータを決定することであって、少なくとも１つの可視性パラメータが、選択された光サンプルに対応し、第１の画像領域に適用されるべき光の第１の量を示す、決定することと、（ｃ）少なくとも１つの可視性パラメータに少なくとも部分的に基づいて、第２の画像領域に適用されるべき光の第２の量を決定することであって、第２の画像領域が、第１の画像領域に、空間的に又は時間的にのうちの少なくとも１つで隣接する、決定することとを行わせる、システム。

【0339】

１４．命令が、１つ又は複数のプロセッサによって実行されたとき、１つ又は複数のプロセッサに、少なくとも、複数の画像領域の各々について第１の光サンプルのセットを選択することと、第２の光サンプルのセットを取得するために、複数の画像領域の少なくとも一部分の各々について選択された第１の光サンプルのセットを組み合わせることと、第２の光サンプルのセットから、選択された光サンプルを選択することとを行わせる、条項１３に記載のシステム。

【0340】

１５．重要度サンプリングが、第１の光サンプルのセットを選択するために使用され、重要度サンプリングが、第２の光サンプルのセットから、選択された光サンプルを選択するために使用される、条項１４に記載のシステム。

【0341】

１６．命令は、１つ又は複数のプロセッサによって実行されたとき、１つ又は複数のプロセッサに、少なくとも、光の第２の量を決定する前に、第１の画像領域に関連付けられた第１のエイジ値を記憶することと、第２の画像領域が第１の画像領域に時間的に隣接するとき、光の第２の量を決定した後に第２のエイジ値を決定することと、第２のエイジ値を光の第２の量に関連付けることと、エイジしきい値と第２のエイジ値との比較の結果に基づいて、第２の画像領域に時間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、少なくとも１つの可視性パラメータを使用すべきかどうかを決定することとを行わせる、条項１３から１５までのいずれか一項に記載のシステム。

【0342】

１７．命令は、１つ又は複数のプロセッサによって実行されたとき、１つ又は複数のプロセッサに、少なくとも、（ｉ）光の第２の量を決定する前に、第１の画像領域に関連付けられた第１の距離値を記憶することと、（ｉｉ）第２の画像領域が、第１の画像領域に、時間的にと空間的にの両方で隣接するとき、光の第２の量を決定した後に第２の距離値を決定することであって、第２の距離値が、第１の距離値と、第１の画像領域の第１の画像ロケーションと第２の画像領域の第２の画像ロケーションとの間の距離－第１の画像領域と第２の画像領域との間で行われる移動との和に等しい、決定することと、（ｉｉｉ）距離しきい値と第２の距離値との比較の結果に基づいて、第２の画像領域に空間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、少なくとも１つの可視性パラメータを使用すべきかどうかを決定することとを行わせる、条項１３から１６までのいずれか一項に記載のシステム。

【0343】

１８．命令は、１つ又は複数のプロセッサによって実行されたとき、１つ又は複数のプロセッサに、少なくとも、第１の画像領域と第２の画像領域とを含む画像をレンダリングすることであって、光の第１の量が第１の画像領域に適用され、光の第２の量が第２の画像領域に適用される、レンダリングすることを行わせる、条項１３から１７までのいずれか一項に記載のシステム。

【0344】

１９．光の第１の量と光の第２の量とが同等である、条項１３から１８までのいずれか一項に記載のシステム。

【0345】

２０．１つ又は複数のプロセッサによって実施された場合、１つ又は複数のプロセッサに、少なくとも、第１の画像領域のために決定された少なくとも１つの可視性パラメータに少なくとも部分的に基づいて、第２の画像領域に適用されるべき光の第２の量を決定することであって、１つ又は複数のレイ・トレースされた光サンプルのための少なくとも１つの可視性パラメータが、第１の画像領域に対応し、第１の画像領域に適用されるべき光の第１の量を示し、第２の画像領域が、第１の画像領域に、空間的に又は時間的にのうちの少なくとも１つで隣接する、決定することを行わせる命令のセットを記憶した、機械可読媒体。

【0346】

２１．命令のセットは、１つ又は複数のプロセッサによって実施されたとき、１つ又は複数のプロセッサに、少なくとも、第１の画像領域と第２の画像領域とを含む画像をレンダリングすることであって、光の第１の量が第１の画像領域に適用され、光の第２の量が第２の画像領域に適用される、レンダリングすることを行わせる、条項２０に記載の機械可読媒体。

【0347】

２２．命令のセットは、１つ又は複数のプロセッサによって実施されたとき、１つ又は複数のプロセッサに、少なくとも、光の第２の量を決定する前に、第１の画像領域に関連付けられた第１のエイジ値を記憶することと、第２の画像領域が第１の画像領域に時間的に隣接するとき、光の第２の量を決定した後に第２のエイジ値を決定することと、第２のエイジ値を光の第２の量に関連付けることと、エイジしきい値と第２のエイジ値との比較の結果に基づいて、第２の画像領域に時間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、少なくとも１つの可視性パラメータを使用すべきかどうかを決定することとを行わせる、条項２０又は２１に記載の機械可読媒体。

【0348】

２３．命令のセットは、１つ又は複数のプロセッサによって実施されたとき、１つ又は複数のプロセッサに、少なくとも、（ａ）光の第２の量を決定する前に、第１の画像領域に関連付けられた第１の距離値を記憶することと、（ｂ）第２の画像領域が、第１の画像領域に、時間的にと空間的にの両方で隣接するとき、光の第２の量を決定した後に第２の距離値を決定することであって、第２の距離値が、第１の距離値と、第１の画像領域の第１の画像ロケーションと第２の画像領域の第２の画像ロケーションとの間の距離－第１の画像領域と第２の画像領域との間で行われる移動との和に等しい、決定することと、（ｃ）距離しきい値と第２の距離値との比較の結果に基づいて、第２の画像領域に空間的に隣接する第３の画像領域に適用されるべき光の第３の量を決定するために、少なくとも１つの可視性パラメータを使用すべきかどうかを決定することとを行わせる、条項２０から２２までのいずれか一項に記載の機械可読媒体。

【0349】

２４．命令のセットが、１つ又は複数のプロセッサによって実施されたとき、１つ又は複数のプロセッサに、少なくとも、選択された光サンプルを選択することと、第１の画像領域中の可視の表面上のポイントから、選択された光サンプルまで、レイをトレースすることと、ポイントへの、レイに沿って、選択された光サンプルによって行われた光寄与を決定することとによって、少なくとも１つの可視性パラメータを取得することを行わせる、条項２０から２３までのいずれか一項に記載の機械可読媒体。

【0350】

２５．命令のセットが、１つ又は複数のプロセッサによって実施されたとき、１つ又は複数のプロセッサに、少なくとも、複数の画像領域の各々について第１の光サンプルのセットを選択することと、第２の光サンプルのセットを取得するために、複数の画像領域の少なくとも一部分の各々について選択された第１の光サンプルのセットを組み合わせることと、第２の光サンプルのセットから、選択された光サンプルを選択することとを行わせる、条項２４に記載の機械可読媒体。

【0351】

２６．重要度サンプリングが、第１の光サンプルのセットを選択するために使用され、重要度サンプリングが、第２の光サンプルのセットから、選択された光サンプルを選択するために使用される、条項２５に記載の機械可読媒体。

【0352】

２７．命令のセットが、１つ又は複数のプロセッサによって実施されたとき、１つ又は複数のプロセッサに、少なくとも、第２の画像領域に関連する少なくとも１つの可視性パラメータを記憶することを行わせる、条項２０から２６までのいずれか一項に記載の機械可読媒体。

【0353】

他の変形形態は、本開示の範囲内にある。したがって、開示される技法は、様々な修正及び代替構築が可能であるが、それらのいくつかの例示的な実施例が図面に示され、上記で詳細に説明された。しかしながら、特定の１つ又は複数の開示された形態に本開示を限定する意図はなく、その反対に、添付の特許請求の範囲において定義されるように、開示の趣旨及び範囲に入るすべての修正形態、代替構築、及び等価物を網羅することを意図していることが理解されるべきである。

【0354】

開示される実施例を説明する文脈において（特に、以下の特許請求の範囲の文脈において）「ａ」及び「ａｎ」及び「ｔｈｅ」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「含む、備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、及び「含んでいる（ｃｏｎｔａｉｎｉｎｇ）」という用語は、別段の記載のない限り、オープンエンドの用語（「限定はしないが、～を含む（ｉｎｃｌｕｄｉｎｇ，ｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ，）」を意味する）と解釈されるべきである。「接続される」という用語は、修飾されず、物理的接続を指しているとき、何か介在するものがある場合でも、部分的に又は完全に中に含まれているか、取り付けられるか、又は互いに接合されるものとして解釈されるべきである。本明細書で値の範囲を詳述することは、本明細書に別段の記載のない限り、及び各別個の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に入る各別個の値を個々に参照する簡潔な方法として働くことを単に意図しているにすぎない。「セット」（たとえば、「項目のセット」）又は「サブセット」という用語の使用は、文脈によって別段の記載がないか又は否定されない限り、１つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がないか又は否定されない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すとは限らず、サブセットと、対応するセットとは、等しくなり得る。

【0355】

「Ａ、Ｂ、及びＣのうちの少なくとも１つ」又は「Ａ、Ｂ及びＣのうちの少なくとも１つ」という形態の言い回しなどの結合語は、別段の具体的な記載がないか又はさもなければ文脈によって明確に否定されない限り、別様に、項目、用語などが、Ａ又はＢ又はＣのいずれか、或いはＡとＢとＣとのセットの任意の空でないサブセットであり得ることを提示するために一般に使用される文脈で、理解される。たとえば、３つの部材を有するセットの説明的な実例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」並びに「Ａ、Ｂ及びＣのうちの少なくとも１つ」という結合句は、次のセットのうちのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、そのような結合語は、いくつかの実施例が、Ａのうちの少なくとも１つ、Ｂのうちの少なくとも１つ、及びＣのうちの少なくとも１つの各々が存在することを必要とすることを全体的に暗示するものではない。さらに、別段の記載がないか又は文脈によって否定されない限り、「複数（ｐｌｕｒａｌｉｔｙ）」という用語は、複数である状態を示す（たとえば、「複数の項目（ａｐｌｕｒａｌｉｔｙｏｆｉｔｅｍｓ）」は複数の項目（ｍｕｌｔｉｐｌｅｉｔｅｍｓ）を示す）。複数である項目の数は、少なくとも２つであるが、明示的に、又は文脈によってのいずれかでそのように示されているとき、それよりも多いことがある。さらに、別段の記載がないか又はさもなければ文脈から明らかでない限り、「～に基づいて」という言い回しは、「少なくとも部分的に～に基づいて」を意味し、「～のみに基づいて」を意味しない。

【0356】

本明細書で説明されるプロセスの動作は、本明細書に別段の記載がないか又はさもなければ文脈によって明確に否定されない限り、任意の好適な順序で実施され得る。少なくとも１つの実施例では、本明細書で説明されるプロセス（又はその変形形態及び／又は組合せ）などのプロセスは、実行可能命令で構成された１つ又は複数のコンピュータ・システムの制御下で実施され、１つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行するコード（たとえば、実行可能命令、１つ又は複数のコンピュータ・プログラム、又は１つ又は複数のアプリケーション）として実装される。少なくとも１つの実施例では、コードは、たとえば、１つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形態で、コンピュータ可読記憶媒体に記憶される。少なくとも１つの実施例では、コンピュータ可読記憶媒体は、一時的信号（たとえば、伝搬する一時的な電気又は電磁送信）を除外するが、一時的信号のトランシーバ内の非一時的データ・ストレージ回路要素（たとえば、バッファ、キャッシュ、及びキュー）を含む非一時的コンピュータ可読記憶媒体である。少なくとも１つの実施例では、コード（たとえば、実行可能コード又はソース・コード）は、１つ又は複数の非一時的コンピュータ可読記憶媒体のセットに記憶され、この記憶媒体は、コンピュータ・システムの１つ又は複数のプロセッサによって実行されたときに（たとえば、実行された結果として）、コンピュータ・システムに本明細書で説明される動作を実施させる実行可能命令を記憶している（又は、実行可能命令を記憶するための他のメモリを有する）。非一時的コンピュータ可読記憶媒体のセットは、少なくとも１つの実施例では、複数の非一時的コンピュータ可読記憶媒体を備え、複数の非一時的コンピュータ可読記憶媒体の個々の非一時的記憶媒体のうちの１つ又は複数は、コードのすべてがないが、複数の非一時的コンピュータ可読記憶媒体は、集合的にコードのすべてを記憶している。少なくとも１つの実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的コンピュータ可読記憶媒体は命令を記憶し、メイン中央処理ユニット（「ＣＰＵ」）は命令のいくつかを実行し、グラフィックス処理ユニット（「ＧＰＵ」）は他の命令を実行する。少なくとも１つの実施例では、コンピュータ・システムの異なる構成要素は、別個のプロセッサを有し、異なるプロセッサが命令の異なるサブセットを実行する。

【0357】

したがって、少なくとも１つの実施例では、コンピュータ・システムは、本明細書で説明されるプロセスの動作を単独で又は集合的に実施する１つ又は複数のサービスを実装するように構成され、そのようなコンピュータ・システムは、動作の実施を可能にする適用可能なハードウェア及び／又はソフトウェアで構成される。さらに、本開示の少なくとも１つの実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、分散型コンピュータ・システムが本明細書で説明される動作を実施するように、及び単一のデバイスがすべての動作を実施しないように、異なるやり方で動作する複数のデバイスを備える分散型コンピュータ・システムである。

【0358】

本明細書で提供されるあらゆる実例、又は例示的な言葉（たとえば、「など、などの（ｓｕｃｈａｓ）」）の使用は、本開示の実施例をより明らかにすることのみを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。

【0359】

本明細書で引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることが個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。

【0360】

明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用され得る。これらの用語は、互いに同義語として意図されていないことがあることが理解されるべきである。むしろ、特定の実例では、「接続される」又は「結合される」は、２つ又はそれ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用され得る。「結合される」はまた、２つ又はそれ以上の要素が直接互いに接触していないが、それでもなお互いに連動又は対話することを意味し得る。

【0361】

別段の具体的な記載がない限り、明細書全体を通して、「処理する（ｐｒｏｃｅｓｓｉｎｇ）」、「算出する（ｃｏｍｐｕｔｉｎｇ）」、「計算する（ｃａｌｃｕｌａｔｉｎｇ）」、又は「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」などの用語は、コンピューティング・システムのレジスタ及び／又はメモリ内の、電子的などの物理的な量として表されるデータを、コンピューティング・システムのメモリ、レジスタ又は他のそのような情報ストレージ、送信、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるように操作及び／又は変換する、コンピュータ又はコンピューティング・システム、或いは同様の電子コンピューティング・デバイスのアクション及び／又はプロセスを指すことが諒解され得る。

【0362】

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、その電子データを、レジスタ及び／又はメモリに記憶され得る他の電子データに変換する任意のデバイス、又はデバイスの一部分を指し得る。非限定的な実例として、「プロセッサ」は、ＣＰＵ又はＧＰＵであり得る。「コンピューティング・プラットフォーム」は、１つ又は複数のプロセッサを備え得る。本明細書で使用される「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実施するソフトウェア及び／又はハードウェア・エンティティを含み得る。また、各プロセスは、命令を直列で又は並列で、連続的に又は断続的に行うための複数のプロセスを指し得る。「システム」及び「方法」という用語は、１つ又は複数の方法をシステムが具体化し得、方法がシステムと考えられ得る場合に限り、本明細書において交換可能に使用される。

【0363】

少なくとも１つの実施例では、算術論理ユニットは、結果を作り出すために１つ又は複数の入力をとる組合せ論理回路要素のセットである。少なくとも１つの実施例では、算術論理ユニットは、加算、減算、又は乗算などの数学演算を実装するためにプロセッサによって使用される。少なくとも１つの実施例では、算術論理ユニットは、論理ＡＮＤ／ＯＲ又はＸＯＲなどの論理演算を実装するために使用される。少なくとも１つの実施例では、算術論理ユニットは、ステートレスであり、論理ゲートを形成するように構成された半導体トランジスタなど、物理的切替え構成要素から作られる。少なくとも１つの実施例では、算術論理ユニットは、関連するクロックをもつステートフル論理回路として、内部で動作し得る。少なくとも１つの実施例では、算術論理ユニットは、関連するレジスタ・セット中で維持されない内部状態をもつ非同期論理回路として構築され得る。少なくとも１つの実施例では、算術論理ユニットは、プロセッサの１つ又は複数のレジスタに記憶されたオペランドを組み合わせ、別のレジスタ又はメモリ・ロケーションにプロセッサによって記憶され得る出力を作り出すために、プロセッサによって使用される。

【0364】

少なくとも１つの実施例では、プロセッサによって取り出された命令を処理した結果として、プロセッサは、１つ又は複数の入力又はオペランドを算術論理ユニットに提示し、算術論理ユニットに、算術論理ユニットの入力に提供された命令コードに少なくとも部分的に基づく結果を作り出させる。少なくとも１つの実施例では、プロセッサによってＡＬＵに提供された命令コードは、プロセッサによって実行された命令に少なくとも部分的に基づく。少なくとも１つの実施例では、ＡＬＵにおける組合せ論理は、入力を処理し、プロセッサ内のバス上に置かれる出力を作り出す。少なくとも１つの実施例では、プロセッサは、プロセッサをクロック制御することにより、ＡＬＵによって作り出された結果が所望のロケーションに送出されるように、宛先レジスタ、メモリ・ロケーション、出力デバイス、又は出力バス上の出力ストレージ・ロケーションを選択する。

【0365】

本明細書では、アナログ・データ又はデジタル・データを取得すること、獲得すること、受信すること、或いはそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及し得る。アナログ・データ及びデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、関数コール、又はアプリケーション・プログラミング・インターフェースへのコールのパラメータとしてデータを受信することによってなど、様々なやり方で実現され得る。いくつかの実装形態では、アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、直列又は並列インターフェースを介してデータを転送することによって実現され得る。別の実装形態では、アナログ・データ又はデジタル・データを取得する、獲得する、受信する、又は入力するプロセスは、提供するエンティティから獲得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現され得る。アナログ・データ又はデジタル・データを提供すること、出力すること、送信すること、送出すること、又は提示することにも言及し得る。様々な実例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送出する、又は提示するプロセスは、関数コールの入力又は出力パラメータ、アプリケーション・プログラミング・インターフェース又はプロセス間通信機構のパラメータとしてデータを転送することによって実現され得る。

【0366】

上記の説明は、説明された技法の例示的な実装形態について述べているが、他のアーキテクチャが、説明された機能性を実装するために使用され得、本開示の範囲内にあることが意図される。さらに、説明を目的として、責任の具体的な分散が上記で定義されたが、様々な機能及び責任は、状況に応じて異なるやり方で分散及び分割され得る。

【0367】

さらに、主題は、構造的特徴及び／又は方法論的行為に特有の言語で説明されたが、添付の特許請求の範囲で特許請求される主題は、説明された特有の特徴又は行為に必ずしも限定されるとは限らないことが理解されるべきである。むしろ、特有の特徴及び行為は、特許請求の範囲を実装する例示的な形態として開示される。

【図1】