特表2024-500363 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特表2024-500363デュアルベクトル算術論理ユニット

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-09

(54)【発明の名称】デュアルベクトル算術論理ユニット

(51)【国際特許分類】

G06F 9/30 20180101AFI20231226BHJP

【ＦＩ】

G06F9/30 370

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023535509

(86)(22)【出願日】2021-12-13

(85)【翻訳文提出日】2023-07-11

(86)【国際出願番号】 US2021063132

(87)【国際公開番号】W WO2022132654

(87)【国際公開日】2022-06-23

(31)【優先権主張番号】17/121,354

(32)【優先日】2020-12-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ビンホー

(72)【発明者】

【氏名】ブライアンエンバーリン

(72)【発明者】

【氏名】マークレザー

(72)【発明者】

【氏名】マイケルマントル

【テーマコード（参考）】

5B033

【Ｆターム（参考）】

5B033AA13

5B033AA14

5B033BB02

5B033DB18

5B033DD09

(57)【要約】

処理システム（１００）は、シングル命令複数データ（ＳＩＭＤ）ユニット（２３０）の複数の算術論理ユニット（ＡＬＵ）パイプライン（２３２、２３４）においてウェーブフロント（３０２、３０４）を単一実行サイクルで実行する。ＡＬＵパイプラインの各々は、キャッシュ（２２０）においてベクトル汎用プロセスレジスタ（ＶＧＰＲ）バンク（５１０、５１１、５１２、５１３）から収集されたウェーブフロントオペランドに対して命令（３１０、３１２、３１４）を実行し、バッファ（２３５）においてウェーブフロントに対して実行された命令の結果を出力する、いくつかのＡＬＵを含む。ＶＧＰＲバンクによって供給されるウェーブフロントをキャッシュに記憶することによって、ＶＧＰＲ帯域幅を増加させることなく、より多くのウェーブフロントをＳＩＭＤユニットに利用可能にすることができ、複数のＡＬＵパイプラインが単一実行サイクル中に命令を実行することを可能にする。
【選択図】図２

【特許請求の範囲】

【請求項1】

方法であって、
第１の算術ユニット（ＡＬＵ）パイプライン及び第２のＡＬＵパイプラインを備える実行ユニットにおける実行のために、各ウェーブフロントがいくつかのワークアイテムを含むウェーブフロントのセットをキャッシュに記憶することと、
前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方において、第１の実行サイクルにおいて、前記ウェーブフロントのセットに対してシングル命令又はデュアル命令の何れかを選択的に実行することと、を含む、
方法。

【請求項2】

前記ウェーブフロントのセットをベクトル汎用レジスタ（ＶＧＰＲ）バンクのセットから前記キャッシュに転送することを含む、
請求項１の方法。

【請求項3】

ウェーブフロントのワークアイテムの数は、前記第１のＡＬＵパイプラインのＡＬＵの数に対して前記第２のＡＬＵパイプラインのＡＬＵの数を加えた数に等しく、
前記選択的に実行することは、第１の実行サイクルにおいて、前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方においてシングル命令を実行することを含む、
請求項２の方法。

【請求項4】

前記ウェーブフロントのセットのうち何れかのウェーブフロントの前記ワークアイテムを、前記ＶＧＰＲバンクのセットの間で均等に分配することを含む、
請求項３の方法。

【請求項5】

前記シングル命令又は前記デュアル命令の結果をバッファに記憶することと、
前記結果に依存する命令に応じて、前記シングル命令又は前記デュアル命令の結果を前記バッファから前記キャッシュに転送することと、を含む、
請求項１の方法。

【請求項6】

ウェーブフロントのワークアイテムの数は、前記第１のＡＬＵパイプラインのＡＬＵの数に等しく、
前記選択的に実行することは、第１の実行サイクルにおいて、前記第１のＡＬＵパイプラインにおいて第１のウェーブフロントに対して実行するための第１の命令と、前記第２のＡＬＵパイプラインにおいて第２のウェーブフロントに対して実行するための第２の命令と、を含むデュアル命令を実行することを含む、
請求項１の方法。

【請求項7】

方法であって、
キャッシュに記憶されたウェーブフロントのセットに基づいて、第１の実行サイクルにおいて、複数の算術論理ユニット（ＡＬＵ）を備える第１のＡＬＵパイプライン及び複数のＡＬＵを備える第２のＡＬＵパイプラインの両方において、シングル命令又はデュアル命令の何れかを選択的に実行することを含み、
前記ウェーブフロントのセットのうち第１のウェーブフロントは、前記第１のＡＬＵパイプラインにおけるＡＬＵの数に対して、前記第２のＡＬＵパイプラインにおけるＡＬＵの数を加えた数に等しい数のワークアイテムを含む、
方法。

【請求項8】

前記ウェーブフロントのセットをベクトル汎用レジスタ（ＶＧＰＲ）バンクのセットから前記キャッシュに転送することを含む、
請求項７の方法。

【請求項9】

前記ＶＧＰＲバンクのセットから読み取られた値を前記キャッシュに記憶することを含む、
請求項８の方法。

【請求項10】

前記シングル命令又は前記デュアル命令の結果をバッファに記憶することと、
前記結果に依存する命令に応じて、前記結果を前記バッファから前記キャッシュに転送することと、を含む、
請求項８の方法。

【請求項11】

前記デュアル命令は、前記第１の実行サイクルにおいて、前記第１のＡＬＵパイプラインにおいて第２のウェーブフロントに対して実行するための第１の命令と、前記第２のＡＬＵパイプラインにおいて第３のウェーブフロントに対して実行するための第２の命令と、を含み、
前記ウェーブフロントのセットのうち前記第２のウェーブフロントのワークアイテムの数は、前記第１のＡＬＵパイプラインのＡＬＵの数に等しく、前記第３のウェーブフロントのワークアイテムの数は、前記第２のＡＬＵパイプラインのＡＬＵの数に等しい、
請求項７の方法。

【請求項12】

デバイスであって、
ウェーブフロントの第１のセットを記憶するためのキャッシュであって、各ウェーブフロントはいくつかのワークアイテムを含む、キャッシュと、
第１の算術ユニット（ＡＬＵ）パイプライン及び第２のＡＬＵパイプラインを備える実行ユニットであって、前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方において、第１の実行サイクルにおいて、前記ウェーブフロントの第１のセットに対してシングル命令又はデュアル命令の何れかを選択的に実行する実行ユニットと、を備え、
前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの各々は、複数のＡＬＵを備える、
デバイス。

【請求項13】

ウェーブフロントを前記キャッシュに転送するためのベクトル汎用レジスタ（ＶＧＰＲ）のセットを備える、
請求項１２のデバイス。

【請求項14】

前記シングル命令又は前記デュアル命令からの結果を記憶するためのバッファと、
前記結果に依存する命令に応じて、結果を前記バッファから前記キャッシュに転送するためのコントローラと、を備える、
請求項１２のデバイス。

【請求項15】

前記デュアル命令は、前記第１の実行サイクルにおいて、前記第１のＡＬＵパイプラインにおいて第１のウェーブフロントに対して実行するための第１の命令と、前記第２のＡＬＵパイプラインにおいて第２のウェーブフロントに対して実行するための第２の命令と、を含む、
請求項１２のデバイス。

【請求項16】

第１のウェーブフロントのワークアイテムの数は、前記第１のＡＬＵパイプラインのＡＬＵの数に対して前記第２のＡＬＵパイプラインのＡＬＵの数を加えた数に等しく、
前記実行ユニットは、前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方において、前記第１の実行サイクルにおいて、シングル命令を選択的に実行する、
請求項１２のデバイス。

【発明の詳細な説明】

【背景技術】

【0001】

グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）は、グラフィックス処理タスクを実行するように構成された複雑な集積回路である。例えば、ＧＰＵは、ビデオゲームアプリケーション等のエンドユーザアプリケーションによって必要とされるグラフィックス処理タスクを実行する。また、ＧＰＵは、グラフィックスに関連しない他のタスクを実行するためにもますます使用されている。ＧＰＵにおけるグラフィックス処理等の多くのアプリケーションでは、スレッドとも称される一連のワークアイテムが処理されて最終結果が出力される。多くの現代の並列プロセッサでは、例えば、シングル命令複数データ（single instruction multiple data、ＳＩＭＤ）ユニット内の実行ユニットは、ワークアイテムのセットを同期して実行する。共通プロセスによって生成されるワークアイテムの集合は、ウェーブフロント又はワープと称される。

【0002】

処理中、１つ以上のＳＩＭＤユニットは、複数のウェーブフロントを同時に実行する。複数の算術論理ユニット（arithmetic logic unit、ＡＬＵ）を含む１つ以上のＡＬＵパイプライン等のＳＩＭＤユニットの実行ユニットは、ウェーブフロントを実行して、グラフィックス及びベクトル処理演算を実行する。ウェーブフロントの実行は、ウェーブフロント内の全てのワークアイテムが処理を完了すると終了する。各ウェーブフロントは、同じ命令セットを使用して並列に処理される複数のワークアイテムを含む。場合によっては、ウェーブフロントは、ＳＩＭＤユニットのＡＬＵパイプラインのサブセットにおいて実行されるが、ＳＩＭＤユニットのＡＬＵパイプラインの残りはアイドルである。ウェーブフロント内のワークアイテムの数がＡＬＵパイプライン内のＡＬＵの数を超える場合、ウェーブフロントの実行は２つ以上の実行サイクルに及ぶ。

【0003】

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

【図面の簡単な説明】

【0004】

【図1】いくつかの実施形態による、処理システムのブロック図である。

【図2】いくつかの実施形態による、デュアル算術論理ユニット（ＡＬＵ）パイプライン処理を採用した処理システムの一部のブロック図である。

【図3】いくつかの実施形態による、単一サイクルにおいて、ＳＩＭＤユニットの２つのＡＬＵパイプラインにおいて２つのシングル命令複数データ（ＳＩＭＤ）ＡＬＵ命令を実行するためのデュアル命令を示す図である。

【図4】いくつかの実施形態による、単一サイクルにおいて、ＳＩＭＤユニットの２つのＡＬＵパイプラインにおいてウェーブフロントを実行するためのシングル命令を示す図である。

【図5】いくつかの実施形態による、ベクトル汎用レジスタバンク間でウェーブフロントのワークアイテムをスウィズル（swizzling）することを示す図である。

【図6】いくつかの実施形態による、単一サイクルにおいて、ＳＩＭＤユニットの２つのＡＬＵパイプラインにおいて１つ以上の命令を実行するための方法を示すフロー図である。

【発明を実施するための形態】

【0005】

図１～図６は、単一実行サイクルにおいて、シングル命令複数データ（ＳＩＭＤ）ユニットの複数の算術論理ユニット（ＡＬＵ）パイプラインにおいてウェーブフロントを実行するための技術を示す。ＡＬＵパイプラインお各々は、キャッシュにおいてベクトル汎用レジスタ（vector general purpose register、ＶＧＰＲ）バンクから収集されたウェーブフロント（オペランド）に対して命令を実行するいくつかのＡＬＵ（「レーン」とも称される）を含む。ＡＬＵは、ウェーブフロントに対して実行された命令の結果をバッファに出力する。ＶＧＰＲバンクによって供給されるウェーブフロントをキャッシュに記憶することによって、ＶＧＰＲ帯域幅を増加させることなく、より多くのウェーブフロントをＳＩＭＤユニットに利用可能にすることができ、複数のＡＬＵパイプラインが単一実行サイクル中に命令を実行することを可能にする。コントローラは、後続の命令に対するオペランドである結果をキャッシュに転送する。

【0006】

いくつかの実施形態では、ウェーブフロントは、Ｎ個のワークアイテム又は２Ｎ個のワークアイテムの何れかを含み、各ＡＬＵパイプラインは、Ｎ個のＡＬＵを含む。いくつかの実施形態では、ウェーブフロントは、３２個のワークアイテム（本明細書では「ウェーブ３２」と称される）又は６４個のワークアイテム（本明細書では「ウェーブ６４」と呼ばれる）の何れかを含み、各ＡＬＵパイプラインは３２個のＡＬＵを含む。各ＡＬＵパイプラインにおいて実行される命令は、実行サイクル当たり最大３つのオペランドを必要とする。したがって、いくつかの実施形態では、キャッシュは、２つのＡＬＵパイプラインが単一実行サイクルにおいて単一のウェーブ６４命令又は２つのウェーブ３２命令の何れかを実行することを可能にするために、少なくとも６つのオペランドを記憶するようにサイズ決定される。いくつかの実施形態では、ウェーブフロントのワークアイテムは、ＡＬＵパイプラインにおいてワークアイテムにアクセスするための帯域幅を低減するために、ＶＧＰＲバンク間でスウィズル（swizzled）される。本明細書で説明される技術は、様々な実施形態では、様々な並列プロセッサ（例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（general-purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（artificial intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等）の何れかにおいて利用される。

【0007】

図１は、いくつかの実施形態による、処理システム１００のブロック図である。処理システム１００は、中央処理ユニット（ＣＰＵ）１０２及びグラフィックス処理ユニット（ＧＰＵ）１０４を含む。様々な実施形態では、ＣＰＵ１０２は、１つ以上の単一コアＣＰＵ又はマルチコアＣＰＵを含む。様々な実施形態では、ＧＰＵ１０４は、従来のＣＰＵ、従来のグラフィックス処理ユニット（ＧＰＵ）、及び、これらの組み合わせ等のリソースに関連して、加速された様式で、加速されたグラフィックス処理タスク、データ並列タスク、ネストされたデータ並列タスクに関連付けられた機能及び計算を行う、ハードウェア及び／又はソフトウェアの任意の協働する集合体を含む。図１の実施形態では、処理システム１００は、ＣＰＵ１０２とＧＰＵ１０４とを組み合わせて統一されたプログラミング及び実行環境を提供する単一のシリコンダイ又はパッケージ上に形成される。当該環境により、ＧＰＵ１０４を、いくつかのプログラミングタスクのためにＣＰＵ１０２と同様に流動的に使用できるようになる。その他の実施形態では、ＣＰＵ１０２及びＧＰＵ１０４は、別々に形成され、同じ又は異なる基板上に取り付けられる。処理システム１００は、図１に示すよりも多い又は少ない構成要素を含み得ることを理解されたい。例えば、処理システム１００は、１つ以上の入力インターフェース、不揮発性ストレージ、１つ以上の出力インターフェース、ネットワークインターフェース、及び、１つ以上のディスプレイ又はディスプレイインターフェースを更に含み得る。

【0008】

図１に示すように、処理システム１００は、システムメモリ１０６、オペレーションシステム１０８、通信インフラストラクチャ１１０、及び、１つ以上のアプリケーション１１２を含む。システムメモリ１０６へのアクセスは、システムメモリ１０６に連結されたメモリコントローラ（図示せず）によって管理される。例えば、システムメモリ１０６から読み取るか又はシステムメモリ１０６に書き込むための、ＣＰＵ１０２又はその他のデバイスからの要求は、メモリコントローラによって管理される。いくつかの実施形態では、１つ以上のアプリケーション１１２は、ＣＰＵ１０２においても実行される計算を行うための様々なプログラム又はコマンドを含む。ＣＰＵ１０２は、ＧＰＵ１０４で処理するための選択されたコマンドを送信する。オペレーティングシステム１０８及び通信インフラストラクチャ１１０を、以下でより詳細に論じる。処理システム１００は、デバイスドライバ１１４及び入力／出力メモリ管理ユニット（ＩＯＭＭＵ）１１６等のメモリ管理ユニットを更に含む。処理システム１００の構成要素は、ハードウェア、ファームウェア、ソフトウェア、又は、それらの任意の組み合わせとして実装される。いくつかの実施形態では、処理システム１００は、図１に示されるものに加えて又はそれらとは異なる、１つ以上のソフトウェア構成要素、ハードウェア構成要素及びファームウェア構成要素を含む。

【0009】

処理システム１００内で、システムメモリ１０６は、ＤＲＡＭ（図示せず）等の非永続的メモリを含む。様々な実施形態では、システムメモリ１０６は、処理論理命令、定数値、アプリケーション又はその他の処理論理の一部分の実行中の変数値、又は、その他の所望の情報を記憶する。例えば、様々な実施形態では、ＣＰＵ１０２上の１つ以上の動作を実行するための制御論理の一部は、ＣＰＵ１０２による動作のそれぞれの部分の実行中にシステムメモリ１０６内に存在する。実行中、それぞれのアプリケーション、オペレーティングシステム機能、処理論理コマンド及びシステムソフトウェアは、システムメモリ１０６に存在する。オペレーティングシステム１０８に必須の制御論理コマンドは、通常、実行中にシステムメモリ１０６内に存在する。いくつかの実施形態では、その他のソフトウェアコマンド（例えば、デバイスドライバ１１４を実装するために使用される命令又はコマンドのセット）は、処理システム１００の実行中にシステムメモリ１０６内に存在する。

【0010】

ＩＯＭＭＵ１１６は、マルチコンテキストメモリ管理ユニットである。本発明で使用する場合、コンテキストは、カーネルが実行される環境と、同期及びメモリ管理が定義されるドメインと、を考慮している。コンテキストは、デバイスのセットと、それらのデバイスにアクセス可能なメモリと、対応するメモリプロパティと、メモリオブジェクト上のカーネル（単数又は複数）又は動作の実行をスケジュールするために使用される１つ以上のコマンドキューと、を含む。ＩＯＭＭＵ１１６には、ＧＰＵ１０４等のデバイスに関するメモリページアクセスのために、仮想アドレスから物理的アドレスへの変換を実行するための論理が含まれている。いくつかの実施形態では、ＩＯＭＭＵ１１６は、変換ルックアサイドバッファ（translation lookaside buffer、ＴＬＢ）（図示せず）を含むか、又は、ＴＬＢへのアクセスを有する。ＴＬＢは、コンテンツアドレス指定可能メモリ（content addressable memory、ＣＡＭ）に実装されて、システムメモリ１０６内のデータについて、ＧＰＵ１０４によって行われる要求に対する論理（すなわち、仮想）メモリアドレスから物理メモリアドレスへの変換を加速させる。

【0011】

様々な実施形態では、通信インフラストラクチャ１１０は、処理システム１００の構成要素を相互接続する。通信インフラストラクチャ１１０は、周辺構成要素相互接続（peripheral component interconnect、ＰＣＩ）バス、拡張ＰＣＩ（extended PCI、ＰＣＩ－Ｅ）バス、高度マイクロコントローラバスアーキテクチャ（advanced microcontroller bus architecture、ＡＭＢＡ）バス、高度グラフィックスポート（advanced graphics port、ＡＧＰ）、又は、その他のこのような通信インフラストラクチャ及び相互接続のうち１つ以上を含む（図示せず）。いくつかの実施形態では、通信インフラストラクチャ１１０は、イーサネット（登録商標）ネットワーク又はアプリケーションのデータ転送速度要件を満たす任意のその他の適切な物理的通信インフラストラクチャを含む。通信インフラストラクチャ１１０は、処理システム１００の構成要素を含む、構成要素を相互接続するための機能を含む。

【0012】

デバイスドライバ１１４等のドライバは、相互接続又は通信インフラストラクチャ１１０を介してデバイス（例えば、ＧＰＵ１０４）と通信する。呼び出しプログラムがデバイスドライバ１１４内のルーチンを起動させる場合、デバイスドライバ１１４は、コマンドをデバイスに発行する。デバイスがデータをデバイスドライバ１１４に戻すと、デバイスドライバ１１４は、元の呼び出しプログラムのルーチンを起動させる。概して、デバイスドライバは、任意の必要な非同期に依存するハードウェアインターフェースに必須の割り込み処理を提供するために、ハードウェア依存であり、オペレーティングシステム固有である。いくつかの実施形態では、コンパイラ１２０は、デバイスドライバ１１４内に埋め込まれる。コンパイラ１２０は、処理システム１００による実行に必要なプログラム命令にソースコードをコンパイルする。このようなコンパイル中、コンパイラ１２０は、コンパイルの様々な段階で命令をプログラムするように変換を適用する。その他の実施形態では、コンパイラ１２０は、独立型アプリケーションである。様々な実施形態では、デバイスドライバ１１４は、例えば、ＣＰＵ１０２において実行されるソフトウェア（例えば、アプリケーション１１２）にアプリケーションプログラミングインターフェース（application programming interface、ＡＰＩ）を提供して、ＧＰＵ１０４の様々な機能にアクセスすることによって、ＧＰＵ１０４の動作を制御する。

【0013】

ＣＰＵ１０２は、制御プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は、デジタル信号プロセッサ（ＤＳＰ）のうち１つ以上を含む（図示せず）。ＣＰＵ１０２は、処理システム１００の動作を制御する制御論理の少なくとも一部を実行する。例えば、様々な実施形態では、ＣＰＵ１０２は、オペレーティングシステム１０８、１つ以上のアプリケーション１１２及びデバイスドライバ１１４を実行する。いくつかの実施形態では、ＣＰＵ１０２は、ＣＰＵ１０２を横切る１つ以上のアプリケーション１１２と関連付けられた処理及びＧＰＵ１０４等のその他の処理リソースを分配することによって、１つ以上のアプリケーション１１２の実行を開始及び制御する。

【0014】

ＧＰＵ１０４は、並列処理に特に適しているグラフィックス動作及びその他の動作等の選択された機能のためのコマンド及びプログラムを実行する。ＧＰＵ１０４は、通常、ピクセル操作、幾何学的計算及びディスプレイへの画像のレンダリング等のグラフィックスパイプライン操作を実行するために頻繁に使用される。いくつかの実施形態では、ＧＰＵ１０４は、ＣＰＵ１０２から受信したコマンド又は命令に基づいて、計算処理操作（例えば、ビデオ操作、物理的シミュレーション、計算流体ダイナミクス等のようにグラフィックスとは無関係の操作）を実行する。例えば、そのようなコマンドは、ＧＰＵ１０４の命令セットアーキテクチャ（instruction set architecture、ＩＳＡ）で典型的に定義されていない特別な命令を含む。いくつかの実施形態では、ＧＰＵ１０４は、画像をレンダリング及び表示するための１つ以上のコマンド又は命令とともに、グラフィックス画像を表す画像ジオメトリを受信する。様々な実施形態では、画像ジオメトリは、ニ次元（２Ｄ）又は三次元（３Ｄ）のコンピュータ化されたグラフィックス画像の表現に対応する。

【0015】

様々な実施形態では、ＧＰＵ１０４は、例えば、ＳＩＭＤ実行モデルに従って、その他のＳＩＭＤユニット１２４によってウェーブフロント内のその他のスレッドの実行と同時にスレッドを実行するように各々構成された１つ以上のＳＩＭＤユニット１２４を含む１つ以上の処理コア１２２等の１つ以上の計算ユニットを含む。ＳＩＭＤ実行モデルは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって、同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。処理コア１２２は、シェーダコア又はストリーミングマルチプロセッサ（streaming multi-processor、ＳＭＸ）とも称される。ＧＰＵ１０４に実装される処理コア１２２の数は、設計上自由に選択できる。各処理コア１２２は、スカラ及び／又はベクトル浮動小数点ユニット、算術及び論理ユニット（ＡＬＵ）等の１つ以上の処理要素を含む。様々な実施形態では、処理コア１２２は、逆平方根ユニット及びサイン／コサインユニット等の特殊用途処理ユニット（図示せず）を更に含む。

【0016】

１つ以上の処理コア１２２の各々は、特定のワークアイテムのそれぞれのインスタンス化を実行して入力データを処理し、１つ以上の処理コア１２２における基本的な実行単位は、ワークアイテム（例えば、スレッド）である。各ワークアイテムは、例えば、並列に実行されるコマンドによってデバイス上で起動されたカーネルの並列実行の集合体の単一のインスタンス生成を表す。ワークアイテムは、処理コア１２２において実行されるワークグループの一部として、１つ以上の処理要素において実行される。

【0017】

ＧＰＵ１０４は、単一のＳＩＭＤユニット１２４上の「ウェーブフロント」として同時に実行されるスレッドのグループを含むワークアイテムを発行及び実行する。ウェーブフロントは、ワープ、ベクトル又はスレッドとも互換的に称されてもよい。いくつかの実施形態では、ウェーブフロントは、シェーダプログラムの並列実行のインスタンスを含むが、各ウェーブフロントは、ＳＩＭＤパラダイム（例えば、複数のデータと同じ命令のストリームを実行する１つの命令制御ユニット）に従って単一のＳＩＭＤユニット１２４上で同時に実行される複数のワークアイテムを含む。スケジューラ１２８は、異なる処理コア１２２及びＳＩＭＤユニット１２４上の様々なウェーブフロントのスケジューリング、並びに、ＧＰＵ１０４上の様々なタスクを調整するためのその他の動作の実行に関連する動作を実行するように構成されている。

【0018】

オフチップメモリアクセスに関連するレイテンシを低減するために、様々なＧＰＵアーキテクチャは、例えば、Ｌ１キャッシュ及びローカルデータシェア（local data share、ＬＤＳ）を含むメモリキャッシュ階層（図示せず）を含む。ＬＤＳは、各処理コア１２２専用の高速低レイテンシメモリである。いくつかの実施形態では、ＬＤＳは、ワークグループが割り当て空間内のどこでも書き込むように、フルギャザー／スキャッタモデルである。

【0019】

１つ以上の処理コア１２２によって与えられる並列処理は、ピクセル値計算、頂点変換、テッセレーション、ジオメトリシェーディング操作及びその他のグラフィックス操作等のグラフィックス関連操作に適している。グラフィックス処理パイプライン１３０は、ＣＰＵ１０２からのグラフィックス処理コマンドを受け入れ、これにより、並列で実行するために、１つ以上の処理コア１２２に計算タスクを提供する。ピクセル処理及びその他の並列計算動作等のいくつかのグラフィックスパイプライン操作は、同じコマンドストリーム又は計算カーネルが入力データ要素のストリーム又は集合体に対して実行されることを必要とする。同一の計算カーネルのそれぞれのインスタンスは、このようなデータ要素を並列に処理するために、１つ以上の処理コア１２２における複数のＳＩＭＤユニット１２４上で同時に実行される。本明細書で言及されるように、例えば計算カーネルは、プログラムで宣言され、ＡＰＤ処理コア１２２上で実行される命令を含む関数である。この関数は、カーネル、シェーダ、シェーダプログラム又はプログラムとも称される。

【0020】

単一実行サイクルにおいて、ＳＩＭＤユニット１２４の２つの３２レーンＡＬＵパイプラインにわたって単一のウェーブ６４ウェーブフロント命令又は２つのウェーブ３２ウェーブフロント命令の何れかの処理を容易にするために、処理コア１２２は、ベクトル汎用レジスタ（ＶＧＰＲ）バンクから受信され、且つ、ＳＩＭＤユニット１２４の各々への入力として利用可能なオペランド（ウェーブフロント）の数を拡張するためのキャッシュを含み、これについては以下で図２に関してより詳細に説明する。ウェーブフロントに対してＡＬＵパイプラインによって実行された命令の結果は、バッファ（図示せず）に出力される。コントローラ（図示せず）は、後続の命令に対するオペランドである結果をキャッシュに転送する。

【0021】

様々な実施形態では、処理システム１００は、コンピュータ、ラップトップ、モバイルデバイス、サーバ、又は、様々な他のタイプのコンピューティングシステム若しくはデバイスのうち何れかとすることができる。処理システム１００の構成要素の数は、実施形態ごとに変化し得ることに留意されたい。図１に示されている数より多い又は少ない各構成要素／サブ構成要素が存在することが可能である。また、処理システム１００は、図１に示されていない他の構成要素を含み得ることに留意されたい。加えて、他の実施形態では、処理システム１００は、図１に示されている以外の方法で構築され得る。

【0022】

図２は、いくつかの実施形態による、デュアル算術論理ユニット（ＡＬＵ）パイプライン処理を採用した処理システム１００のＧＰＵ１０４の一部分２００のブロック図である。ＧＰＵ１０４の一部分２００は、２つのＡＬＵパイプライン、ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４を含むＳＩＭＤユニット２３０と、キャッシュ２２０と、を含む。キャッシュ２２０は、ＶＧＰＲバンク２１０、２１１、２１２、２１３のセットからウェーブフロント（オペランド）２２２を受信する。ＳＩＭＤユニット２３０は、命令バッファ２５０からウェーブフロント命令（単に命令とも称される）２５５を受信して、キャッシュ２２０に記憶されたウェーブフロント２２２に対して演算を実行する。実行された命令２５５の結果はバッファ２３５に記憶され、コントローラ２４０は、後続の命令に対するオペランドである結果をキャッシュ２２０及びＶＧＰＲバンク２１０、２１１、２１２、２１３に転送する。

【0023】

ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４の各々は、Ｎ個のＡＬＵを含む。いくつかの実施形態では、ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４の各々は、同じタイプのウェーブフロント命令をサポートし、他の実施形態では、ＡＬＵパイプライン－２２３４は、ＡＬＵパイプライン－１２３２によってサポートされるタイプのウェーブフロント命令のサブセットをサポートする。例えば、いくつかの実施形態では、ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４は、ａとｂとの積を計算し、次いでこの積にｃを加算するために、融合乗算加算（fused multiply add、ＦＭＡ）ウェーブフロント命令をサポートする。

【0024】

ＶＧＰＲバンクのセット、ＶＧＰＲバンク－０２１０、ＶＧＰＲバンク－１２１１、ＶＧＰＲバンク－２２１２、及び、ＶＧＰＲバンク－３２１３（まとめて、ＶＧＰＲバンク２１０～２１３）は、ローカルデータ共有リターンデータ、テクスチャリターンデータ及びＶＧＰＲ初期化入力等の入力をソース（図示せず）から受信し、ウェーブフロントをキャッシュ２２０に提供する。いくつかの実施形態では、キャッシュ２２０は、少なくとも６つのウェーブフロントを記憶するようにサイズ決定され、入力オペランド２２２をＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４に提供するための少なくとも３つの読み取りポート２２４を含む。いくつかの実施形態では、各ＶＧＰＲバンク２１０～２１３は、他のＶＧＰＲバンク２１０～２１３から独立してアクセスされ得る。各ＶＧＰＲバンク２１０～２１３はＮ個のレジスタを含み、Ｎの値は実施形態ごとに異なる。ＶＧＰＲバンク２１０～２１３内のレジスタのサイズも、実施形態に応じて異なる。

【0025】

命令２５５等のベクトルＡＬＵ（Vector ALU、ＶＡＬＵ）命令は、命令バッファ２５０に記憶され、ギャザー命令キュー（図示せず）からＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４に搬送される。ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４は、読み取りポート２２４を介してキャッシュ２２０から命令２５５及びウェーブフロントオペランド２２２を受信し、単一実行サイクルにおいてウェーブフロントオペランド２２２に対して命令２５５によって示されるコマンドを実行する。ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４は、命令２５５からの結果をバッファ２３５に出力する。コントローラ２４０は、バッファ２３５に記憶された結果のうち何れが後続の命令に対するソースオペランドであるかを判定し、ソースオペランドをキャッシュ２２０に転送する。コントローラ２４０は、ハードウェア、ファームウェア、ソフトウェア又はそれらの任意の組み合わせとして実装される。

【0026】

図３は、いくつかの実施形態による、単一サイクルにおいて、シングル命令複数データ（ＳＩＭＤ）ユニットの２つのＡＬＵパイプラインにおいてウェーブフロント３０２、３０４等の１つ以上のウェーブフロントに対して２つの命令を実行するための例示的なデュアル命令３１０の一実施形態３００を示す。図示した例では、ウェーブフロント３０２及びウェーブフロント３０４の各々は、Ｎ個のワークアイテムを有し、Ｎは正の整数であり、Ｎは実施形態ごとに異なる。同様に、ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４の各々は、Ｎ個のレーン（ＡＬＵ）を含む。一実施形態では、Ｎは３２に等しい。

【0027】

デュアル命令３１０は、互いに独立であり、単一サイクル内に１つのウェーブから発行される命令のペア、命令－１３１２及び命令－２３１４を記述する。デュアル命令３１０は、ウェーブフロント３０２、３０４が、ＡＬＵパイプライン２３２、２３４の各々におけるＡＬＵの数と同じ数のワークアイテムを有するという指標を含む。命令－１３１２はＡＬＵパイプライン－１２３２に発行され、命令－２３１４はＡＬＵパイプライン－２２３４に発行される。いくつかの実施形態では、命令－１３１２及び命令－２３１４の各々は、最大２つのＶＧＰＲバンクを使用し、いくつかの実施形態では、命令－１３１２及び命令－２３１４の各々のソースオペランドは、異なるＶＧＰＲバンクを使用する。

【0028】

図４は、いくつかの実施形態による、単一サイクルにおいて、ＳＩＭＤユニットの２つのＡＬＵパイプラインにおいてウェーブフロント４０２を実行するための例示的なシングル命令４１０の一実施形態４００を示す。図示した例では、ウェーブフロント４０２は２＊Ｎ個のワークアイテムを有し、Ｎは正の整数であり、Ｎは実施形態ごとに異なる。一実施形態では、Ｎは３２に等しい。ウェーブフロント４０２の第１の部分は、ワークアイテムＷ_０～Ｗ_Ｎ－１を含み、ウェーブフロント４０２の第２の部分は、ワークアイテムＷ_Ｎ～Ｗ_２Ｎ－１を含む。シングル命令４１０は、ウェーブフロント４０２が、一緒に加算されたＡＬＵパイプライン２３２、２３４の両方におけるＡＬＵの数と同じ数のワークアイテムを有するという指標を含む。さらに、シングル命令４１０は、ワークアイテムＷ_０～Ｗ_Ｎ－１を含む部分等のウェーブフロント４０２の単一部分が、所定の命令サイクルにおいてＡＬＵパイプライン－１２３２のレーンＡＬＵ_０～ＡＬＵ_Ｎ－１上で実行されるように意図されており、ワークアイテムＷ_Ｎ～Ｗ_２Ｎ－１を含む部分等のウェーブフロント４０２の他の部分が、同じ命令サイクルにおいてＡＬＵパイプライン－２２３４のレーンＡＬＵ_Ｎ～ＡＬＵ_２Ｎ－１上で実行されるように意図されていることを示す。

【0029】

一実施形態では、Ｎは３２であり、ウェーブフロント当たりのワークアイテムの数は６４である。他の実施形態では、Ｎは他の値であってもよい。Ｎが３２である実施形態では、ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４の各々は、レーンＡＬＵ_０～ＡＬＵ_Ｎ－１及びＡＬＵ_Ｎ～ＡＬＵ_２Ｎ－１として示される３２個のレーン（又はＡＬＵ）を含む。

【0030】

図５は、いくつかの実施形態による、ベクトル汎用レジスタバンクＶＧＰＲバンク－０５１０、ＶＧＰＲバンク－１５１１、ＶＧＰＲバンク－２５１２、ＶＧＰＲバンク－３５１３（まとめて、ＶＧＰＲバンク５１０～５１３）の間でウェーブフロントのワークアイテムをスウィズルする例の一実施形態５００を示す。単一命令サイクルにおいて、各々がＮ個のレーン（又はＡＬＵ）を含む２つのＡＬＵパイプラインにおける２＊Ｎ個のワークアイテムを含むウェーブフロントの実行を容易にするために、ＶＧＰＲの上半分及び下半分は異なるバンクに配置される。図示した例では、Ｎは３２であり、ウェーブフロント内のワークアイテムの数は６４である。ウェーブフロントの下半分（レーン３１～０に対応する）は、ｂａｎｋ［１：０］＝ＶＧＰＲ［１：０］となるように構成され、ウェーブフロントの上半分（レーン６３～３２に対応する）は、ｂａｎｋ［１：０］＝｛ＶＧＰＲ［１］，～ＶＧＰＲ［０］｝となるようにスウィズルされる（すなわち、スワップされる）。

【0031】

したがって、例えば、Ｖ０（３１～０）はＶＧＰＲバンク－０５１０に位置し、Ｖ０（６３～３２）はＶＧＰＲバンク－１５１１に位置し、Ｖ１（３１～０）はＶＧＰＲバンク－１５１１に位置し、Ｖ１（６３～３２）はＶＧＰＲバンク－０５１０に位置する。同様に、Ｖ２（３１～０）はＶＧＰＲバンク－２５１２に位置し、Ｖ２（６３～３２）はＶＧＰＲバンク－３５１３に位置し、Ｖ３（３１～０）はＶＧＰＲバンク－３５１３に位置し、Ｖ３（６３～３２）はＶＧＰＲバンク－２５１２に位置する。このようにして、ウェーブフロントのワークアイテムは、ＶＧＰＲバンク５１０～５１３の間で等しく分配される。スウィズルすることによってＶＧＰＲバンク間でウェーブフロントのワークアイテムを分配することにより、ソースは６４レーンに対して１サイクルで読み取られることが可能になる。

【0032】

図６は、いくつかの実施形態による、単一サイクルにおいて、ＳＩＭＤユニットの２つのＡＬＵパイプラインにおいて１つ以上の命令を実行するための方法６００を示すフロー図である。方法６００は、図１及び図２の処理システム１００における例示的な実装に関して記述されている。ブロック６０２において、ＳＩＭＤユニット１２４は、命令バッファ２５０から命令２５５を受信する。ブロック６０４において、ＳＩＭＤユニット１２４は、キャッシュ２２０においてオペランドを収集する。ブロック６０６において、ＳＩＭＤユニット１２４は、命令２５５が、２つのＡＬＵパイプライン上で実行するためにデュアル命令であるかシングル命令であるかを判定する。

【0033】

ブロック６０６において、ＳＩＭＤユニット１２４が、命令が命令－１３１２及び命令－２３１４を含むデュアル命令３１０であると判定した場合、方法フローはブロック６０８に続く。ブロック６０８において、ＳＩＭＤユニット１２４は、命令－１３１２をＡＬＵパイプライン－１２３２にルーティングし、命令－２３１４をＡＬＵパイプライン－２２３４にルーティングする。ブロック６１０において、単一命令サイクルにおいてキャッシュ２２０に記憶されたソースオペランドを使用して、ＡＬＵ命令パイプライン－１２３２は命令－１を実行し、命令パイプライン－２２３４は命令－２を実行する。次いで、方法フローはブロック６１６に続く。

【0034】

ブロック６０６において、ＳＩＭＤユニット１２４が、命令がＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４の両方で実行されるシングル命令４１０であると判定した場合、方法フローはブロック６１２に続く。ブロック６１２において、ＧＰＵ１０４は、ＶＧＰＲバンク間でソースオペランドのワークアイテムをスウィズルして、ウェーブフロントが単一命令サイクルでキャッシュ２２０に読み取られ得るようにウェーブフロントを均等に分配する。ブロック６１４において、ＡＬＵパイプライン－１２３２及びＡＬＵパイプライン－２２３４の両方は、単一命令サイクルにおいてキャッシュ２２０に記憶されたソースオペランドを使用して命令４１０を実行する。次いで、方法フローはブロック６１６に続く。

【0035】

ブロック６１６において、ＳＩＭＤユニット１２４は、命令の結果をバッファ２３５に記憶する。ブロック６１８において、コントローラ２４０は、後続の命令に対するソースオペランドである結果をバッファ２３５からキャッシュ２２０及びＶＧＰＲバンク２１０、２１１、２１２、２１３に転送する。次いで、方法フローは、次の命令のためにブロック６０２に戻って続く。

【0036】

いくつかの実施形態では、上記の装置及び技術は、図１～図６を参照して上述した処理システム等の１つ以上の集積回路（integrated circuit、ＩＣ）デバイス（集積回路パッケージ又はマイクロチップとも称される）を含むシステムに実装される。電子設計自動化（electronic design automation、ＥＤＡ）及びコンピュータ支援設計（computer aided design、ＣＡＤ）ソフトウェアツールは、これらのＩＣデバイスの設計及び製造に使用することができる。これらの設計ツールは、典型的には、１つ以上のソフトウェアプログラムとして表される。１つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計するか又は適応させるためのプロセスの少なくとも一部を実行するために、１つ以上のＩＣデバイスの回路を表すコードで動作するようにコンピュータシステムを操作するための、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含み得る。設計ツール又は製造ツールを表すソフトウェア命令は、典型的には、コンピューティングシステムにアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ＩＣデバイスの設計又は製造の１つ以上の段階を表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶され、そこからアクセスされる。

【0037】

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

【0038】

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

【0039】

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

【0040】

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2023-08-15

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

方法であって、
第１の算術ユニット（ＡＬＵ）パイプライン及び第２のＡＬＵパイプラインを備える実行ユニットにおける実行のために、各ウェーブフロントがいくつかのワークアイテムを含むウェーブフロントのセットを、ベクトル汎用レジスタ（ＶＧＰＲ）バンクのセットからキャッシュに転送することと、
前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方において、第１の実行サイクルにおいて、前記ウェーブフロントのセットに対してシングル命令又はデュアル命令の何れかを選択的に実行することと、を含む、
方法。

【請求項2】

ウェーブフロントのワークアイテムの数は、前記第１のＡＬＵパイプラインのＡＬＵの数に対して前記第２のＡＬＵパイプラインのＡＬＵの数を加えた数に等しく、
前記選択的に実行することは、前記第１の実行サイクルにおいて、前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方においてシングル命令を実行することを含む、
請求項１の方法。

【請求項3】

前記ウェーブフロントのセットのうち何れかのウェーブフロントの前記ワークアイテムを、前記ＶＧＰＲバンクのセットの間で均等に分配することを含む、
請求項２の方法。

【請求項4】

前記シングル命令又は前記デュアル命令の結果をバッファに記憶することと、
前記結果に依存する命令に応じて、前記シングル命令又は前記デュアル命令の結果を前記バッファから前記キャッシュに転送することと、を含む、
請求項１～３の何れかの方法。

【請求項5】

【請求項6】

方法であって、
ウェーブフロントのセットをベクトル汎用レジスタ（ＶＧＰＲ）バンクのセットからキャッシュに転送することと、
前記ウェーブフロントのセットに基づいて、第１の実行サイクルにおいて、第１の複数の算術論理ユニット（ＡＬＵ）を備える第１のＡＬＵパイプライン及び第２の複数のＡＬＵを備える第２のＡＬＵパイプラインの両方において、シングル命令又はデュアル命令の何れかを選択的に実行することを含み、
前記ウェーブフロントのセットのうち第１のウェーブフロントは、いくつかのワークアイテムを含む、
方法。

【請求項7】

前記ＶＧＰＲバンクのセットから読み取られた値を前記キャッシュに記憶することを含む、
請求項６の方法。

【請求項8】

前記シングル命令又は前記デュアル命令の結果をバッファに記憶することを含む、
請求項６又は７の方法。

【請求項9】

前記結果に依存する命令に応じて、前記結果を前記バッファから前記キャッシュに転送することを含む、
請求項６～８の何れかの方法。

【請求項10】

【請求項11】

デバイスであって、
ベクトル汎用レジスタ（ＶＧＰＲ）バンクのセットから転送されたウェーブフロントの第１のセットを記憶するためのキャッシュであって、各ウェーブフロントはいくつかのワークアイテムを含む、キャッシュと、
第１の算術ユニット（ＡＬＵ）パイプライン及び第２のＡＬＵパイプラインを備える実行ユニットであって、前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの両方において、第１の実行サイクルにおいて、前記ウェーブフロントの第１のセットに対してシングル命令又はデュアル命令の何れかを選択的に実行する実行ユニットと、を備え、
前記第１のＡＬＵパイプライン及び前記第２のＡＬＵパイプラインの各々は、複数のＡＬＵを備える、
デバイス。

【請求項12】

前記シングル命令又は前記デュアル命令からの結果を記憶するためのバッファを備える、
請求項１１のデバイス。

【請求項13】

前記結果に依存する命令に応じて、結果を前記バッファから前記キャッシュに転送するためのコントローラを備える、
請求項１２のデバイス。

【請求項14】

前記デュアル命令は、前記第１の実行サイクルにおいて、前記第１のＡＬＵパイプラインにおいて第１のウェーブフロントに対して実行するための第１の命令と、前記第２のＡＬＵパイプラインにおいて第２のウェーブフロントに対して実行するための第２の命令と、を含む、
請求項１１～１３の何れかのデバイス。

【請求項15】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版