IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

<>
  • 特許-演算論理回路レジスタの順序付け 図1
  • 特許-演算論理回路レジスタの順序付け 図2
  • 特許-演算論理回路レジスタの順序付け 図3
  • 特許-演算論理回路レジスタの順序付け 図4
  • 特許-演算論理回路レジスタの順序付け 図5
  • 特許-演算論理回路レジスタの順序付け 図6
  • 特許-演算論理回路レジスタの順序付け 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-17
(45)【発行日】2024-05-27
(54)【発明の名称】演算論理回路レジスタの順序付け
(51)【国際特許分類】
   G06F 9/34 20180101AFI20240520BHJP
   G06F 9/38 20180101ALI20240520BHJP
【FI】
G06F9/34 330
G06F9/38 350A
G06F9/38 370A
G06F9/38 370C
【請求項の数】 20
(21)【出願番号】P 2022524020
(86)(22)【出願日】2020-11-24
(65)【公表番号】
(43)【公表日】2023-01-25
(86)【国際出願番号】 US2020061977
(87)【国際公開番号】W WO2021108384
(87)【国際公開日】2021-06-03
【審査請求日】2023-11-02
(31)【優先権主張番号】16/696,108
(32)【優先日】2019-11-26
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】591016172
【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド
【氏名又は名称原語表記】ADVANCED MICRO DEVICES INCORPORATED
(74)【代理人】
【識別番号】100108833
【弁理士】
【氏名又は名称】早川 裕司
(74)【代理人】
【識別番号】100111615
【弁理士】
【氏名又は名称】佐野 良太
(74)【代理人】
【識別番号】100162156
【弁理士】
【氏名又は名称】村雨 圭介
(72)【発明者】
【氏名】ビン ホー
(72)【発明者】
【氏名】ジャーシェン チェン
(72)【発明者】
【氏名】ジャン ファン
【審査官】漆原 孝治
(56)【参考文献】
【文献】米国特許出願公開第2015/0035841(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 9/34
G06F 9/38
(57)【特許請求の範囲】
【請求項1】
処理装置で実行される複数のスレッドについて、第1の演算論理回路(ALU)で処理するための複数のオペランドを受信することと、
前記複数のオペランドを、単精度オペランドを記憶する大きさの複数のレジスタに記憶することと、
複数の実行サイクルにわたって、前記第1のALUで処理するために、前記複数のレジスタから、倍精度オペランドを記憶するように構成された第1のオペランドレジスタへの前記複数のオペランドの提供を順序付けすることと、を含む、
方法。
【請求項2】
前記順序付けすることは、
第1の実行サイクル中に、前記複数のオペランドのうち第1のオペランドの第1の部分を前記第1のオペランドレジスタに記憶することと、
第2の実行サイクル中に、前記複数のオペランドのうち第2のオペランドの第1の部分を、前記複数のレジスタのうち第1のレジスタから前記第1のオペランドレジスタに転送することと、を含む、
請求項1の方法。
【請求項3】
前記順序付けすることは、
前記第1の実行サイクル中に、前記第1のオペランドの第2の部分を、前記複数のレジスタのうち第2のレジスタに記憶することと、
前記第2の実行サイクル中に、前記第2のオペランドの第2の部分を、前記第1のALUで処理するために第2のオペランドレジスタに転送することと、を含む、
請求項2の方法。
【請求項4】
前記第2の実行サイクル中に、前記第1のALUの前記第1のオペランドレジスタ及び前記第2のオペランドレジスタから前記第1のオペランドを読み取ることを含む、
請求項3の方法。
【請求項5】
前記第1のオペランドは倍精度オペランドである、
請求項4の方法。
【請求項6】
前記順序付けすることは、前記第2の実行サイクル中に、第3のオペランドの第1の部分を、前記複数のレジスタのうち第2のレジスタから前記複数のレジスタのうち前記第1のレジスタに転送することを含む、
請求項2の方法。
【請求項7】
前記順序付けすることは、第3の実行サイクル中に、前記第3のオペランドの前記第1の部分を、前記複数のレジスタのうち前記第1のレジスタから前記第1のオペランドレジスタに転送することを含む、
請求項6の方法。
【請求項8】
前記順序付けすることは、前記第2の実行サイクル中に、第4のオペランドの第1の部分を、前記複数のレジスタのうち第3のレジスタから前記複数のレジスタのうち前記第2のレジスタに転送することを含む、
請求項6の方法。
【請求項9】
演算論理回路(ALU)を含む処理ユニットであって、対応する複数のスレッドを実行し、前記複数のスレッドは、前記ALUで処理される複数のオペランドを生成するように実行する、処理ユニットと、
前記複数のオペランドを記憶するように構成された複数のレジスタであって、単精度オペランドを記憶する大きさの複数のレジスタと、
複数の実行サイクルにわたって、前記ALUで処理するために、前記複数のレジスタから、倍精度オペランドを記憶するように構成された第1のオペランドレジスタへの前記複数のオペランドの提供を順序付けするように構成された順序付け制御モジュールと、を備える、
プロセッサ。
【請求項10】
前記順序付け制御モジュールは、
第1の実行サイクル中に、前記複数のオペランドのうち第1のオペランドの第1の部分を前記第1のオペランドレジスタに記憶することと、
第2の実行サイクル中に、前記複数のオペランドのうち第2のオペランドの第1の部分を、前記複数のレジスタのうち第1のレジスタから前記第1のオペランドレジスタに転送することと、
によって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項9のプロセッサ。
【請求項11】
前記順序付け制御モジュールは、
前記第1の実行サイクル中に、前記第1のオペランドの第2の部分を、前記複数のレジスタのうち第2のレジスタに記憶することと、
前記第2の実行サイクル中に、前記第2のオペランドの第2の部分を、前記ALUで処理するために第2のオペランドレジスタに転送することと、
によって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項10のプロセッサ。
【請求項12】
前記ALUは、前記第2の実行サイクル中に、処理するために前記第1のオペランドレジスタ及び前記第2のオペランドレジスタから前記第1のオペランドを読み取るように構成されている、
請求項11のプロセッサ。
【請求項13】
前記第1のオペランドは倍精度オペランドである、
請求項12のプロセッサ。
【請求項14】
前記順序付け制御モジュールは、前記第2の実行サイクル中に、第3のオペランドの第1の部分を、前記複数のレジスタのうち第2のレジスタから前記複数のレジスタのうち前記第1のレジスタに転送することによって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項10のプロセッサ。
【請求項15】
前記順序付け制御モジュールは、第3の実行サイクル中に、前記第3のオペランドの前記第1の部分を、前記複数のレジスタのうち前記第1のレジスタから前記第1のオペランドレジスタに転送することによって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項14のプロセッサ。
【請求項16】
前記順序付け制御モジュールは、前記第2の実行サイクル中に、第4のオペランドの第1の部分を、前記複数のレジスタのうち第3のレジスタから前記複数のレジスタのうち前記第2のレジスタに転送することによって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項14のプロセッサ。
【請求項17】
対応する複数のスレッドを実行する複数のシェーダプロセッサであって、前記複数のスレッドは、複数のオペランドを生成するように実行する、複数のシェーダプロセッサと、
演算論理回路(ALU)と、
前記複数のオペランドを記憶するように構成された複数のレジスタであって、単精度オペランドを記憶する大きさの複数のレジスタと、
複数の実行サイクルにわたって、前記ALUで処理するために、前記複数のレジスタから、倍精度オペランドを記憶するように構成された第1のオペランドレジスタへの前記複数のオペランドの提供を順序付けするように構成された順序付け制御モジュールと、を備える、
グラフィックス処理ユニット(GPU)。
【請求項18】
前記順序付け制御モジュールは、
第1の実行サイクル中に、前記複数のオペランドのうち第1のオペランドの第1の部分を前記第1のオペランドレジスタに記憶することと、
第2の実行サイクル中に、前記複数のオペランドのうち第2のオペランドの第1の部分を、前記複数のレジスタのうち第1のレジスタから前記第1のオペランドレジスタに転送することと、
によって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項17のGPU。
【請求項19】
前記順序付け制御モジュールは、
前記第1の実行サイクル中に、前記第1のオペランドの第2の部分を、前記複数のレジスタのうち第2のレジスタに記憶することと、
前記第2の実行サイクル中に、前記第2のオペランドの第2の部分を、前記ALUで処理するために第2のオペランドレジスタに転送することと、
によって、前記複数のオペランドの提供を順序付けるように構成されている、
請求項18のGPU。
【請求項20】
前記ALUは、前記第2の実行サイクル中に、処理するために前記第1のオペランドレジスタ及び前記第2のオペランドレジスタから前記第1のオペランドを読み取るように構成されている、
請求項19のGPU。
【発明の詳細な説明】
【背景技術】
【0001】
プロセッサは、プロセッサに代わって指定された操作を実行するように特別に設計され、構成された1つ以上の処理ユニットを使用する。例えば、一部のプロセッサは、グラフィックス及びベクトル処理操作を実行するためにグラフィックス処理ユニット(GPU)を採用している。プロセッサの中央処理装置(CPU)は、GPUにコマンドを提供し、GPUのコマンドプロセッサ(CP)は、コマンドを1つ以上の操作にデコードする。1つ以上の演算論理回路(ALU)等のGPUの実行ユニットは、グラフィックス及びベクトル処理操作を実行するための操作を実行する。ALUは、オペランドレジスタを使用して、処理用のオペランドを記憶する。特に、スレッドがGPUで実行されると、スレッドは、オペランドレジスタにオペランドを記憶し、オペコード又は他の制御情報をALUに提供して、オペランドを使用してALUにより実行される数学演算を制御する。多数のオペランドレジスタを使用することにより、GPUは、比較的多数のスレッドの同時実行をサポートすることができる。ただし、このような多数のオペランドレジスタは、電力や回路面積等の処理リソースを大量に消費する。
【0002】
本開示は、添付図面を参照することによってより良好に理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面で同一の符号が使用されている場合、類似又は同一のアイテムを示している。
【図面の簡単な説明】
【0003】
図1】いくつかの実施形態による、オペランドレジスタの1つのセットからオペランドレジスタの別のセットへのオペランドの提供を順序付ける(sequence)ように構成されたグラフィックス処理ユニット(GPU)のブロック図である。
図2】いくつかの実施形態による、図1のGPUのレジスタへのオペランドの提供を示すブロック図である。
図3】いくつかの実施形態による、図1のGPUのオペランドレジスタ及び対応するALUの構成を示すブロック図である。
図4】いくつかの実施形態による、図3のオペランドレジスタでのオペランド提供の例示的な順序付けの一部を示すブロック図である。
図5】いくつかの実施形態による、図4の例示的な順序付けの別の一部を示すブロック図である。
図6】いくつかの実施形態による、図4の例示的な順序付けのさらに別の一部を示すブロック図である。
図7】いくつかの実施形態による、図5の例示的な順序付けのさらに別の一部を示すブロック図である。
【発明を実施するための形態】
【0004】
図1図7は、グラフィックス処理ユニット(GPU)がオペランドレジスタのセットへのオペランドの提供を順序付けし、それによってGPUがオペランドレジスタの少なくとも1つを処理間で共有することを可能にする技術を示す。GPUは、複数の演算論理回路(ALU)を含み、そのうち少なくとも1つのALUは、倍精度演算を実行するように構成されている。さらに、GPUは、単精度オペランドを記憶するように構成されたオペランドレジスタのセットを含む。倍精度演算を要求する複数の実行スレッドの場合、GPUは、対応するオペランドをオペランドレジスタに記憶する。GPUは、オペランドレジスタのセットから指定された倍精度オペランドレジスタへのオペランドの転送を、複数の実行サイクルにわたって順序付けする。各実行サイクル中、倍精度ALUは、倍精度オペランドレジスタに記憶されているオペランドを使用して倍精度演算を実行する。GPUは、このようにレジスタ間のオペランドの提供を順番付けすることにより、複数の処理ブロック(例えば、複数のベクトルシェーダプロセッサ等)が倍精度オペランドレジスタを共有することが可能になり、オペランドレジスタによって消費される回路領域及び電力が削減される。
【0005】
図1は、いくつかの実施形態による、倍精度数学演算のためのオペランド提供の順序付けをサポートするGPU100を示す図である。説明のために、GPU100は、命令セット(例えば、コンピュータプログラム)を実行して、電子デバイスの代わりにタスクを実行するプロセッサの一部である。したがって、異なる実施形態において、GPU100は、デスクトップコンピュータ、ラップトップコンピュータ、サーバ、タブレット、スマートフォン、ゲームコンソール等の電子デバイスの一部である。さらに、GPU100を含むプロセッサは、命令のセットを実行する中央処理装置(CPU)を含む。
【0006】
GPU100は、指定された操作をCPUに代わって実行するように設計され、製造されている。特に、GPU100は、CPUに代わってグラフィックス処理及びベクトル処理操作を実行する。例えば、いくつかの実施形態では、CPUは、命令を実行する過程で、グラフィックス及びベクトル処理操作に関連するコマンドを生成する。CPUは、GPU100にコマンドを提供し、GPU100は、コマンドプロセッサ(図示省略)を使用して、コマンドを、GPU100で実行するための命令セットにデコードする。
【0007】
命令の実行を容易にするために、GPU100は、複数の計算ユニット(例えば、1つ以上の単一命令複数データ(SIMD)ブロック)を含み、各SIMDブロックは、対応する操作のスレッドを実行するように構成されている。いくつかの実施形態では、CPUから受信したコマンドをGPUのコマンドプロセッサがデコードし、コマンドに基づいてSIMDブロックで実行されるスレッドのセットを生成しスケジュールする。各SIMDブロックは、複数のベクトルシェーダプロセッサ(VSP)(例えば、VSP102,103,104)を含む。いくつかの実施形態では、各SIMDブロックは、4つの異なるVSPを含み、それにより、4つの異なるスレッドの同時実行をサポートする。したがって、各計算ユニットに4つのSIMDブロックが含まれ、各SIMDブロックに4つのVSPが含まれているとすると、各計算ユニットは、16スレッドの同時実行をサポートする。
【0008】
実行中、スレッドは、対応するオペランドを使用して実行するための数学演算を生成する。数学演算の実行をサポートするために、GPU100は、オペランドレジスタのセット106(例えば、オペランドレジスタ111,112)及びALUのセット108(例えば、ALU114,116)を含む。オペランドレジスタ106は、数学演算のためのオペランドを記憶し、ALU108は、記憶されたオペランドを使用して数学演算を実行する。特に、数学演算を実行するために、スレッドは、以下でさらに説明するように、対応するオペランドを何れかのオペランドレジスタ106に記憶し、制御情報(図示省略)を何れかのALU108に提供する。制御情報に基づいて、ALUは、記憶されたオペランドを使用して数学演算を実行し、スレッドによる取得のために結果を結果レジスタ(図示省略)に記憶する。
【0009】
本明細書では、説明を明確にするために、各オペランドレジスタ106が単一のブロックとして示されていることを理解されたい。しかしながら、いくつかの実施形態では、各オペランドレジスタ106が複数のオペランドを記憶する。一例が図2に示されており、ALU114のためにオペランドを記憶するオペランドレジスタ111を示している。図示した実施形態では、オペランドレジスタ111は3つのオペランドを記憶し、各オペランドは、対応するスレッドに対して「A」、「B」及び「C」と指定されている。
【0010】
図1に戻ると、この図は、オペランドレジスタ106及びALU108がVSP102~104間で共有されていることを示すことが理解されよう。しかしながら、他の実施形態では、1つ以上のオペランドレジスタ106又は1つ以上のALU108が、個々のVSP専用とされる。したがって、例えば、いくつかの実施形態では、オペランドレジスタ106のサブセットがVSP102に割り当てられ、VSP103には異なるオペランドレジスタのサブセットが割り当てられる。その結果、各VSPは、別のVSPに割り当てられたオペランドレジスタを使用することができない。同様に、いくつかの実施形態では、ALU108のサブセットがVSP102に割り当てられ、VSP103には異なるALU108のサブセットが割り当てられる。その結果、各VSPは、別のVSPに割り当てられたALUに数学演算を割り当てることができない。
【0011】
いくつかの実施形態では、実行中のスレッドによって生成される異なる数学演算のうち少なくともいくつかは、対応するオペランドの精度のレベルを示す、異なる精度に関連付けられている。例えば、いくつかの実施形態では、実行スレッドは、単精度数学演算及び倍精度数学演算を生成し、倍精度オペランド(すなわち、倍精度演算に使用されるオペランド)は、単精度オペランドの2倍の大きさである。オペランドレジスタ106のサブセットの各々は、単精度オペランドを記憶するサイズとされ、一方、オペランドレジスタ106の別のサブセットの各々は、倍精度オペランドを記憶するサイズとされる。いくつかの実施形態では、以下でより詳細に説明するように、オペランドレジスタ106の単精度オペランドレジスタは、倍精度オペランドの一部を記憶し、1つ以上のALU108による処理を待つ間、これらのオペランドを記憶する。
【0012】
ALU108のサブセットの各々は、対応する精度による数学演算を、その精度のオペランドを使用して実行するための回路を含む。したがって、例えば、ALU114には、単精度の数学演算を(単精度のオペランドを使用して)実行する回路が含まれ、ALU116には、倍精度演算を(倍精度のオペランドを使用して)実行する回路が含まれる。いくつかの実施形態では、GPU100で実行されるスレッドは、比較的多数の単精度演算を要求し、比較的少数の倍精度演算を要求することが予想される。したがって、ALU108は、より多数の単精度ALUと、より少数の倍精度ALUと、を含む。さらに、オペランドレジスタ106は、より多数の単精度オペランドレジスタと、倍精度オペランドを記憶するより少数のオペランドレジスタと、を含む。いくつかの実施形態による例を図3に示す。図示した例では、ALU108は、15個の単精度(SP)ALUと、1個の倍精度ALUと、を含む。オペランドレジスタ106は、倍精度ALU116のための倍精度オペランドを記憶する、指定されたオペランドレジスタ321,322である1対のオペランドレジスタと共に、複数の単精度オペランドレジスタを含む。いくつかの実施形態では、オペランドレジスタ321は、倍精度オペランドの「上位」又は最上位ビットを記憶し、オペランドレジスタ322は、倍精度オペランドの「下位」又は最下位ビットを記憶する。いくつかの実施形態では、レジスタ321,322は、1つ以上のSP ALUのための単精度オペランドを異なる時間に記憶する。すなわち、実行されている所定の数値演算の精度に応じて、レジスタ321,322は、1つ以上のSP ALU(例えば、SP ALU323)による処理のための単精度オペランドを記憶するか、DP ALU116による処理のための倍精度のセットを一緒に記憶する。
【0013】
上記のように、多くの場合、GPU100は、比較的多数の単精度演算を実行し、比較的少数の倍精度演算を実行することが予想される。したがって、専用の倍精度レジスタのセットを実行スレッド毎に有するコストを節約するため、GPU100は、レジスタ321,322への倍精度オペランドの順序付け(sequencing)を制御するためのオペランド順序付け制御モジュール110を含む。説明すると、いくつかの実施形態では、オペランドレジスタの少なくともサブセットが接続されており、オペランド順序付け制御モジュール110からの制御信号に応じて、制御信号を受信したオペランドレジスタの各々は、その記憶されたデータを別のオペランドレジスタに転送する。オペランドレジスタ間のデータ転送を制御することにより、オペランド順序付け制御モジュール110は、比較的少数のオペランドレジスタ及び倍精度ALU回路を使用しながら、複数の実行サイクルにわたる複数のスレッドに対する倍精度演算の実行をスケジュールし、それによってGPU100のリソースを節約する。いくつかの実施形態では、オペランド順序付け制御モジュール110は、VSP102~104でのスレッドの実行をスケジュールするGPU100のスケジューラ(図示省略)の一部である。
【0014】
図4図7は、合わせて、いくつかの実施形態による、GPU100が、レジスタ321,322への倍精度オペランドの提供を順序付けする例を示している。図4図7の例は、GPU100の複数の実行サイクルを示している。いくつかの実施形態では、各実行サイクルは、GPU100の動作を同期させるために使用されるクロック(図示省略)の単一のクロックサイクルに対応する。他の実施形態では、各実行サイクルは、複数のクロックサイクルに対応する。図4図7による例示のために、VSP102~104が集合的且つ同時に16個のスレッドを実行し、各スレッドは、DP ALU116で倍精度数値演算が実行されることを必要とする。演算を実行するために、GPUは、オペランドレジスタ106のうち、オペランドレジスタ430~439及びオペランドレジスタ321,322を使用する。いくつかの実施形態では、オペランドレジスタ321,322,430~439の各々は、独立した読み取り及び書き込みポートを含み、その結果、データは、単一の実行サイクル中にオペランドレジスタから読み取られ、オペランドレジスタに書き込まれる。
【0015】
この例では、実行中の各スレッドは、DP ALU116で処理するための倍精度オペランドのセットを1つ提供する。以下でさらに説明するように、各スレッドは、対応する倍精度オペランドを2つの部分(すなわち、倍精度オペランドの最下位ビットを表す下位部分、及び、倍精度オペランドの最上位ビットを表す上位部分)において提供する。したがって、倍精度オペランドがそれぞれ64ビットであるとすると、オペランドの上位部分はオペランドの最上位32ビットであり、オペランドの下位部分はオペランドの最下位32ビットである。
【0016】
図4は、いくつかの実施形態による、CYCLE0及びCYCLE1と呼ぶ、例示的な最初の2つの実行サイクルを示す。CYCLE0の間、GPU100のスケジューラは、スレッド0,4,8,12の倍精度オペランドの下位部分(それぞれ、0L,4L,8L,12Lと呼ぶ。)がオペランドレジスタに読み込まれるように、これらのスレッドの実行をスケジュールする。特に、下位部分のオペランド4Lがオペランドレジスタ430に記憶され、下位部分のオペランド0Lがオペランドレジスタ433に記憶され、下位部分のオペランド8Lがオペランドレジスタ434に記憶され、下位部分のオペランド12Lがオペランドレジスタ437に記憶される。少なくともいくつかの実施形態では、スレッド0,4,8,12の各々は、GPU100の異なるVSPで実行される。
【0017】
CYCLE1の間、オペランド順序付け制御モジュール110は、オペランドレジスタ間でデータを転送するための制御信号を提供する。特に、オペランド0Lがオペランドレジスタ433からオペランドレジスタ321に転送され、オペランド8Lがオペランドレジスタ434からオペランドレジスタ433に転送され、オペランド12Lがオペランドレジスタ437からオペランドレジスタ434に転送される。
【0018】
さらに、CYCLE1の間、スレッド0,4,8,12の倍精度オペランドの上位部分(それぞれ0H,4H,8H,12Hと呼ぶ。)がオペランドレジスタのサブセットに読み込まれる。特に、上位部分のオペランド4Hがオペランドレジスタ432に記憶され、上位部分のオペランド0Hがオペランドレジスタ322に記憶され、上位部分のオペランド8Hがオペランドレジスタ436に記憶され、上位部分のオペランド12Hがオペランドレジスタ439に記憶される。
【0019】
CYCLE1の間、0L,0Hのオペランドが、オペランドレジスタ321,322に記憶され、したがって、DP ALU116による処理可能な状態にある。したがって、CYCLE1の間に、DP ALU116は、スレッド0によって要求された、0L,0Hのオペランドを使用する倍精度演算を開始する。特に、DP ALU116は、0L,0Hオペランドに基づいて、A、B及びCオペランドの上位部分と下位部分を連結し、結果として得られるA、B及びCオペランドを倍精度演算に使用する。
【0020】
図5は、いくつかの実施形態による、例示的な順序付け操作の次の2つのサイクルである、CYCLE2及びCYCLE3と呼ばれるサイクルを示す。CYCLE2の間、オペランド順序付け制御モジュール110は、オペランドレジスタ間でさらにデータを転送するための制御信号を提供する。特に、オペランド4Lがオペランドレジスタ430からオペランドレジスタ433に転送され、オペランド8Lがオペランドレジスタ433からオペランドレジスタ321に転送され、オペランド8Hがオペランドレジスタ436からオペランドレジスタ322に転送され、オペランド12Hがオペランドレジスタ439からオペランドレジスタ436に転送される。したがって、CYCLE2の間、8L,8Hオペランドが、オペランドレジスタ321,322に記憶される。したがって、CYCLE2の間、DP ALU116は、スレッド8によって要求された8L,8Hオペランドを使用する倍精度演算を開始する。
【0021】
CYCLE3の間、前の2つのサイクルと同様に、オペランド順序付け制御モジュール110は、オペランドレジスタ間でデータをさらに転送するための制御信号を提供する。特に、オペランド4Lがオペランドレジスタ433からオペランドレジスタ321に転送され、オペランド4Hがオペランドレジスタ432からオペランドレジスタ322に転送され、オペランド12Lがオペランドレジスタ434からオペランドレジスタ433に転送される。したがって、CYCLE3の間、4L,4Hオペランドがオペランドレジスタ321,322に記憶され、DP ALU116はスレッド4によって要求された4L,4Hオペランドを使用する倍精度演算を開始する。
【0022】
図6は、いくつかの実施形態による、例示的な順序付け操作の次の2つのサイクルである、CYCLE4及びCYCLE5と呼ばれるサイクルを示す。CYCLE4の間、オペランド順序付け制御モジュール110は、オペランドの初期セットのうち最後のものをオペランドレジスタ間で転送するための制御信号を提供する。特に、オペランド12Hがオペランドレジスタ436からオペランドレジスタ322に転送され、オペランド12Lがオペランドレジスタ433からオペランドレジスタ321に転送される。したがって、CYCLE4の間、12L,12Hのオペランドが、オペランドレジスタ321,322に記憶される。したがって、CYCLE4の間、DP ALU116は、スレッド12によって要求された12L,12Hのオペランドを使用する倍精度演算を開始する。
【0023】
さらに、CYCLE4の間、処理するオペランドの次のセットがオペランドレジスタに記憶される。図示するように、スレッド5,1,9,13の倍精度オペランドの下位部分(それぞれ5L,1L,9L,13Lと呼ぶ。)が、オペランドレジスタに読み込まれる。特に、オペランド5Lがオペランドレジスタ430に記憶され、オペランド1Lがオペランドレジスタ433に記憶され、オペランド9Lがオペランドレジスタ434に記憶され、オペランド13Lがオペランドレジスタ437に記憶される。
【0024】
CYCLE5を参照すると、オペランド順序付け制御モジュール110は、オペランドレジスタ間でデータを転送するための制御信号を提供し、その結果、オペランド1Lがオペランドレジスタ433からオペランドレジスタ321に転送され、オペランド9Lがオペランドレジスタ434からオペランドレジスタ433に転送され、オペランド13Lがオペランドレジスタ437からオペランドレジスタ434に転送される。
【0025】
さらに、CYCLE5の間に、スレッド5,1,9,13の倍精度オペランドの上位部分(それぞれ5H,1H,9H,13Hと呼ぶ。)がオペランドレジスタのサブセットに読み込まれる。特に、オペランド5Hがオペランドレジスタ432に記憶され、オペランド1Hがオペランドレジスタ322に記憶され、オペランド9Hがオペランドレジスタ436に記憶され、オペランド13Hがオペランドレジスタ439に記憶される。したがって、CYCLE5の間、1L,1Hのオペランドが、オペランドレジスタ321,322に記憶され、したがって、DP ALU116による処理可能な状態にある。したがって、CYCLE5の間に、DP ALU116は、スレッド1によって要求された1L,1Hオペランドを使用する倍精度演算を開始する。
【0026】
図7は、いくつかの実施形態による、例示的な順序付け操作の次の3つのサイクルである、CYCLE6、CYCLE7及びCYCLE8と呼ばれるサイクルを示す。CYCLE6の間、オペランド順序付け制御モジュール110は、オペランドレジスタ間でデータをさらに転送するための制御信号を提供する。特に、オペランド5Lがオペランドレジスタ430からオペランドレジスタ433に転送され、オペランド9Lがオペランドレジスタ433からオペランドレジスタ321に転送され、オペランド9Hがオペランドレジスタ436からオペランドレジスタ322に転送され、オペランド13Hがオペランドレジスタ439からオペランドレジスタ436に転送される。したがって、CYCLE6の間、9L,9Hのオペランドが、オペランドレジスタ321,322に記憶される。したがって、CYCLE6の間に、DP ALU116は、スレッド9によって要求された9L,9Hのオペランドを使用する倍精度演算を開始する。
【0027】
CYCLE7を参照すると、オペランド順序付け制御モジュール110は、オペランドレジスタ間でデータをさらに転送するための制御信号を提供する。特に、オペランド5Lがオペランドレジスタ433からオペランドレジスタ321に転送され、オペランド5Hがオペランドレジスタ432からオペランドレジスタ322に転送され、オペランド13Lがオペランドレジスタ434からオペランドレジスタ433に転送される。したがって、CYCLE7の間、5L,5Hのオペランドが、オペランドレジスタ321,322に記憶され、DP ALU116は、スレッド5によって要求された5L,5Hオペランドを使用する倍精度演算を開始する。
【0028】
CYCLE8を参照すると、オペランド順序付け制御モジュール110は、オペランドセットの第2のセットのうち最後のものをオペランドレジスタ間で転送するための制御信号を提供する。特に、オペランド13Hがオペランドレジスタ436からオペランドレジスタ322に転送され、オペランド12Lがオペランドレジスタ433からオペランドレジスタ321に転送される。したがって、CYCLE8の間、13L,13Hのオペランドが、オペランドレジスタ321,322に記憶される。したがって、CYCLE8の間、DP ALU116は、スレッド13によって要求された13L,13Hオペランドを使用する倍精度演算を開始する。
【0029】
さらに、CYCLE8の間、処理するオペランドの次のセットがオペランドレジスタに記憶される。図示するように、スレッド6,2,10,14の倍精度オペランドの下位部分(それぞれ6L,2L,9L,14Lと呼ぶ。)が、オペランドレジスタに読み込まれる。特に、オペランド6Lがオペランドレジスタ430に記憶され、オペランド2Lがオペランドレジスタ433に記憶され、オペランド10Lがオペランドレジスタ434に記憶され、オペランド14Lがオペランドレジスタ437に記憶される。
【0030】
いくつかの実施形態では、GPU100は、図示したCYCLE0~CYCLE8と同様の方法で、オペランドレジスタへの及びオペランドレジスタ間でのオペランド提供の順序付けを継続して、スレッド2,3,6,7,10,11,14,15を含む残りのスレッドのオペランドを処理する。したがって、GPU100は、VSP102~104間で共有される倍精度オペランドレジスタの単一のセットを使用して、16個の同時に実行されるスレッドの各々についての倍精度演算の実行をサポートする。これにより、GPU100は、比較的少数のオペランドレジスタのセットで倍精度演算をサポートできるため、面積や電力等のプロセッサリソースを節約することができる。
【0031】
いくつかの実施形態では、方法は、処理装置で実行される複数のスレッドについて、第1の演算論理回路(ALU)で処理するための複数のオペランドを受信することと、複数のオペランドを複数のレジスタに記憶することと、複数の実行サイクルにわたって、ALUで処理するために、複数のレジスタから第1のオペランドレジスタへの複数のオペランドの提供を順序付けすることと、を含む。一態様では、順序付けは、第1の実行サイクル中に、複数のオペランドのうち第1のオペランドの第1の部分を第1のオペランドレジスタに記憶することと、第2の実行サイクル中に、複数のオペランドのうち第2のオペランドの第1の部分を、複数のレジスタのうち第1のレジスタから第1のオペランドレジスタに転送することと、を含む。別の態様では、順序付けは、第1の実行サイクル中に、第1のオペランドの第2の部分を複数のレジスタのうち第2のレジスタに記憶することと、第2の実行サイクル中に、第1のオペランドの第2の部分を、ALUで処理するために第2のオペランドレジスタに転送することと、をさらに含む。
【0032】
さらに別の態様では、方法は、第2の実行サイクル中に、ALUの第1のオペランドレジスタ及び第2のオペランドレジスタから第1のオペランドを読み取ることを含む。さらに別の態様では、第1のオペランドは倍精度オペランドであり、複数のレジスタの各々は、単精度オペランドを記憶するように構成されている。別の態様では、順序付けは、第2の実行サイクル中に、第3のオペランドの第1の部分を、複数のレジスタのうち第2のレジスタから複数のレジスタのうち第1のレジスタに転送することをさらに含む。さらに別の態様では、順序付けは、第3の実行サイクル中に、第3のオペランドの第1の部分を、複数のレジスタのうち第1のレジスタから第1のオペランドレジスタに転送することをさらに含む。さらに別の態様では、順序付けは、第2の実行サイクル中に、第4のオペランドの第1の部分を、複数のレジスタのうち第3のレジスタから複数のレジスタのうち第2のレジスタに転送することをさらに含む。
【0033】
いくつかの実施形態では、プロセッサは、演算論理回路(ALU)を含む処理ユニットであって、対応する複数のスレッドを実行し、複数のスレッドは、ALUで処理される複数のオペランドを生成するように実行する、処理ユニットと、複数のオペランドを記憶するように構成された複数のレジスタと、複数の実行サイクルにわたって、ALUで処理するために、複数のレジスタから第1のオペランドレジスタへの複数のオペランドの提供を順序付けするように構成された順序付け制御モジュールと、を備える。一態様では、順序付けは、第1の実行サイクル中に、複数のオペランドのうち第1のオペランドの第1の部分を第1のオペランドレジスタに記憶することと、第2の実行サイクル中に、複数のオペランドのうち第2のオペランドの第1の部分を、複数のレジスタのうち第1のレジスタから第1のオペランドレジスタに転送することと、を含む。
【0034】
一態様では、順序付けは、第1の実行サイクル中に、第1のオペランドの第2の部分を複数のレジスタのうち第2のレジスタに記憶することと、第2の実行サイクル中に、第1のオペランドの第2の部分を、ALUで処理するために第2のオペランドレジスタに転送することと、をさらに含む。別の態様では、ALUは、第2の実行サイクル中に、処理のために第1のオペランドレジスタ及び第2のオペランドレジスタから第1のオペランドを読み取るように構成されている。さらに別の態様では、第1のオペランドは倍精度オペランドであり、複数のレジスタの各々は、単精度オペランドを記憶するように構成されている。
【0035】
一態様では、順序付けは、第2の実行サイクル中に、第3のオペランドの第1の部分を、複数のレジスタのうち第2のレジスタから複数のレジスタのうち第1のレジスタに転送することをさらに含む。別の態様では、順序付けは、第3の実行サイクル中に、第3のオペランドの第1の部分を、複数のレジスタのうち第1のレジスタから第1のオペランドレジスタに転送することをさらに含む。さらに別の態様では、順序付けは、第2の実行サイクル中に、第4のオペランドの第1の部分を、複数のレジスタのうち第3のレジスタから複数のレジスタのうち第2のレジスタに転送することをさらに含む。
【0036】
いくつかの実施形態では、グラフィックス処理ユニット(GPU)は、対応する複数のスレッドを実行する複数のシェーダプロセッサであって、複数のスレッドは、複数のオペランドを生成するように実行する、複数のシェーダプロセッサと、演算論理回路(ALU)と、複数のオペランドを記憶するように構成された複数のレジスタと、複数の実行サイクルにわたって、複数のレジスタから第1のオペランドレジスタへの複数のオペランドの提供を順序付けしてALUで処理するように構成された順序付け制御モジュールと、を備える。一態様では、順序付けは、第1の実行サイクル中に、複数のオペランドのうち第1のオペランドの第1の部分を第1のオペランドレジスタに記憶することと、第2の実行サイクル中に、複数のオペランドのうち第2のオペランドの第1の部分を、複数のレジスタのうち第1のレジスタから第1のオペランドレジスタに転送することと、を含む。別の態様では、順序付けは、第1の実行サイクル中に、第1のオペランドの第2の部分を複数のレジスタのうち第2のレジスタに記憶することと、第2の実行サイクル中に、第1のオペランドの第2の部分を、ALUで処理するために第2のオペランドレジスタに転送することと、をさらに含む。さらに別の態様では、ALUは、第2の実行サイクル中に、処理のために第1のオペランドレジスタ及び第2のオペランドレジスタから第1のオペランドを読み取るように構成されている。
【0037】
いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの1つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の1つ以上のセットを含む。ソフトウェアは、1つ以上のプロセッサによって実行されると、上記の技術の1つ以上の態様を実行するように1つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ(RAM)等のソリッドステート記憶デバイス、又は、他の1つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、1つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。
【0038】
上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、1つ以上のさらなるアクティビティが実行される場合があり、1つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。
【0039】
利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。
図1
図2
図3
図4
図5
図6
図7