(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-22
(54)【発明の名称】シャドウラッチ構成のレジスタファイルを用いたビット幅再構成
(51)【国際特許分類】
G06F 9/30 20180101AFI20221115BHJP
G06F 9/34 20060101ALI20221115BHJP
【FI】
G06F9/30 370
G06F9/34 330
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022516304
(86)(22)【出願日】2020-09-25
(85)【翻訳文提出日】2022-05-09
(86)【国際出願番号】 US2020052756
(87)【国際公開番号】W WO2021062178
(87)【国際公開日】2021-04-01
(32)【優先日】2019-09-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】591016172
【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド
【氏名又は名称原語表記】ADVANCED MICRO DEVICES INCORPORATED
(74)【代理人】
【識別番号】100108833
【氏名又は名称】早川 裕司
(74)【代理人】
【識別番号】100111615
【氏名又は名称】佐野 良太
(74)【代理人】
【識別番号】100162156
【氏名又は名称】村雨 圭介
(72)【発明者】
【氏名】アルン エー. ナイル
(72)【発明者】
【氏名】トッド バウムガルトナー
(72)【発明者】
【氏名】マイケル エストリック
(72)【発明者】
【氏名】エリック スワンソン
【テーマコード(参考)】
5B033
【Fターム(参考)】
5B033DD01
(57)【要約】
プロセッサは、第1のビット幅で動作する命令セットを有するフロントエンドと、第1のビット幅で動作するプロセッサ内の命令セットを受け取るように結合された浮動小数点ユニットと、を含む。浮動小数点ユニットは、第2のビット幅で動作し、浮動小数点ユニットに与えられた命令セットのビット幅評価に基づいて、シャドウラッチ構成の浮動小数点レジスタファイルを用いてビット幅再構成を行う。シャドウラッチ構成の浮動小数点レジスタファイルは、複数のレギュラーラッチと、シャドウラッチから読み出され又はシャドウラッチに書き込まれるデータを記憶するための複数のシャドウラッチと、を含む。ビット幅再構成によって、第2のビット幅で動作する浮動小数点ユニットは、第1のビット幅で受け取った命令セットに対して動作することができる。
【選択図】
図4
【特許請求の範囲】
【請求項1】
プロセッサであって、
第1のビット幅で動作する命令セットを有するフロントエンドと、
前記命令セットを受け取るように結合された浮動小数点ユニットであって、前記浮動小数点ユニットは、第2のビット幅で動作し、前記浮動小数点ユニットは、前記浮動小数点ユニットに与えられた前記命令セットのビット幅評価に基づいて、シャドウラッチ構成のレジスタファイルを用いてビット幅再構成を行う、浮動小数点ユニットと、を備える、
プロセッサ。
【請求項2】
前記ビット幅再構成によって、前記第2のビット幅で動作する前記浮動小数点ユニットを、前記第1のビット幅で受け取った前記命令セットに対して動作させることを可能にする、
請求項1のプロセッサ。
【請求項3】
前記シャドウラッチ構成のレジスタファイルは、複数のレギュラーラッチと、シャドウラッチから読み出され又は前記シャドウラッチに書き込まれるデータを記憶するための複数のシャドウラッチと、を含む、
請求項1のプロセッサ。
【請求項4】
前記複数のレギュラーラッチのうち少なくとも1つは、第1のビット幅動作の複数の下位ビットを記憶し、前記複数のシャドウラッチのうち少なくとも1つは、前記第1のビット幅動作に関連する複数の上位ビットを記憶する、
請求項3のプロセッサ。
【請求項5】
前記第1のビット幅動作は512ビット幅動作であり、前記第2のビット幅は256ビットである、
請求項4のプロセッサ。
【請求項6】
前記シャドウラッチ構成のレジスタファイルは、前記複数のシャドウラッチに結合された複数のシャドウマルチプレクサ(MUX)を含む、
請求項3のプロセッサ。
【請求項7】
読み出し動作中に、前記複数のシャドウMUXのうち少なくとも1つは、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチを選択して読み出すために使用される、
請求項6のプロセッサ。
【請求項8】
書き込み動作中に、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチは、複数のクロックサイクルのうち第2のクロックサイクルの間に書き込み制御信号を用いて起動される、
請求項3のプロセッサ。
【請求項9】
読み出し動作中に、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチの読み出し動作は、第2のクロックサイクルの間に読み出し制御信号によって起動され、前記読み出し制御信号は、複数のクロックサイクルのうち第2のクロックサイクルの間に、前記読み出し動作のために前記シャドウラッチを前記シャドウ選択マルチプレクサに選択させる、
請求項3のプロセッサ。
【請求項10】
読み出しロジックを用いて、複数のシャドウラッチの中からデータを読み出すシャドウラッチを選択する、
請求項1のプロセッサ。
【請求項11】
前記シャドウラッチは、前記シャドウラッチ構成のレジスタファイル内の単一エントリ内に配置されている、
請求項3のプロセッサ。
【請求項12】
方法であって、
第1のビット幅で動作する命令セットを受け取ることと、
第2のビット幅で浮動小数点ユニットを動作させることと、
前記命令セットのビット幅評価に基づいて、シャドウラッチ構成のレジスタファイルを用いてビット幅再構成を行うことと、を含む、
方法。
【請求項13】
前記ビット幅再構成によって、前記第2のビット幅で動作する前記浮動小数点ユニットを、前記第1のビット幅で受け取った前記命令セットに対して動作させることを可能にする、
請求項12の方法。
【請求項14】
前記シャドウラッチ構成のレジスタファイルは、複数のレギュラーラッチと、シャドウラッチから読み出され又は前記シャドウラッチに書き込まれるデータを記憶するための複数のシャドウラッチと、を含む、
請求項12の方法。
【請求項15】
第1のビット幅動作の複数の下位ビットを前記複数のレギュラーラッチのうち少なくとも1つに記憶し、前記第1のビット幅動作に関連する複数の上位ビットを前記複数のシャドウラッチのうち少なくとも1つに記憶することをさらに含む、
請求項14の方法。
【請求項16】
前記第1のビット幅は512ビット幅であり、前記第2のビット幅は256ビット幅である、
請求項14の方法。
【請求項17】
前記シャドウラッチ構成のレジスタファイルは、前記複数のシャドウラッチに結合された複数のシャドウマルチプレクサ(MUX)を含む、
請求項14の方法。
【請求項18】
読み出し動作中に、前記シャドウMUXのうち少なくとも1つは、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチを選択して読み出すために使用され、
書き込み動作中に、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチに対する書き込み動作は、複数のクロックサイクルのうち第2のクロックサイクルの間に書き込み制御信号を用いて起動される、
請求項17の方法。
【請求項19】
浮動小数点ユニットであって、
スケジューラユニットと、
前記スケジューラユニットに結合されたシャドウラッチ構成のレジスタファイルであって、第1のビット幅で前記浮動小数点ユニットに与えられた命令セットのビット幅評価に基づいて、前記浮動小数点ユニットは、前記シャドウラッチ構成のレジスタファイルを用いて、第2のビット幅を用いたビット幅再構成を行う、シャドウラッチ構成のレジスタファイルと、を備える、
浮動小数点ユニット。
【請求項20】
前記シャドウラッチ構成のレジスタファイルは、複数のレギュラーラッチと、シャドウラッチから読み出され又は前記シャドウラッチに書き込まれるデータを記憶するための複数のシャドウラッチと、を含む、
請求項1のプロセッサ。
【発明の詳細な説明】
【背景技術】
【0001】
プロセッサは、種々の構造を用いて、処理作業中に用いるデータを記憶する。データ構造の1つのタイプはレジスタファイルである。典型的なレジスタファイルは、データを、並列に書き込み又は読み出しが行われ得るエントリに対応付けられる機能ラッチ内に記憶する。機能ラッチ内に記憶されたデータにアクセスするために、典型的なプロセッサは、分割リネーミング(split renaming)を用いて、レジスタを高位ビットレジスタと低位ビットレジスタとに「分割」する。分割リネーミングによって、プロセッサは、レジスタを、プロセッサのネイティブ幅よりも広く実装することができる。詳細には、マイクロプロセッサによって、レジスタの高位ビット部分とレジスタの低位ビット部分とに異なる識別子(又は名前)を割り当てて、レジスタが2つの異なるレジスタとして論理的に扱われるようにする。例えば、いくつかの現在利用なマイクロプロセッサは、256ビットレジスタを分割リネーミングして、高128ビットレジスタ及び低128ビットレジスタにする。レジスタを分割リネーミングして高及び低レジスタにすると、計算演算を行うために必要なレジスタ空間の量が増加する。例えば、上述した256ビットレジスタを分割リネーミングして高及び低128ビットレジスタにするには、物理レジスタファイル内に2倍のエントリ数及び領域が必要である。分割リネーミングを行うために必要な物理レジスタファイルのサイズが増加することによって製造コストが増加する。なぜならば、分割リネーミング動作を行うために必要なマイクロプロセッサ空間が増加するからである。
【0002】
添付図面を参照することによって、本開示をより良好に理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面において同じ符号を用いた場合、同様又は同一のアイテムを示している。
【図面の簡単な説明】
【0003】
【
図1】いくつかの実施形態による、シャドウラッチを用いたレジスタのビット幅再構成をサポートするプロセッサコアのブロック図である。
【
図2】いくつかの実施形態による、
図1のプロセッサコア内のシャドウラッチ構成の浮動小数点レジスタファイルのビットセルレイアウトである。
【
図3】いくつかの実施形態による、
図1のプロセッサコア内のシャドウラッチを用いたビット幅再構成を用いる方法のフロー図である。
【
図4】いくつかの実施形態による、
図1のプロセッサコア内のシャドウラッチ構成の浮動小数点レジスタファイルのブロック図である。
【
図5】いくつかの実施形態による、
図4のプロセッサコア内のシャドウラッチ構成の浮動小数点レジスタファイルにおいて用いるタイミング図である。
【発明を実施するための形態】
【0004】
図1~
図5に、いくつかの実施形態による、プロセッサのプロセッサコア内のレジスタのビット幅再構成をサポートするシステム及び技術を例示する。プロセッサ内の浮動小数点ユニットは、シャドウラッチ構成の浮動小数点レジスタファイルを含む。シャドウラッチ構成の浮動小数点レジスタファイルは、第1のビット幅(例えば、256ビット幅)から第2のビット幅(例えば、512ビット幅)へのビット幅の再構成を、シャドウラッチ構成の浮動小数点レジスタファイル内のシャドウラッチの利用可能性(availability)に基づいて行い、第1のビット幅において動作する浮動小数点ユニットが、第2のビット幅において動作するプロセッサ内で利用可能となるようにする。シャドウラッチ構成の浮動小数点レジスタファイルは、シャドウラッチ、レギュラーラッチ及びシャドウ選択マルチプレクサ(MUX)を含む。これらは、例えば、浮動小数点ユニットを用いる読み出し及び書き込みデータ動作の間のビット幅再構成に対して用いられる。
【0005】
ビット幅再構成を行うために、第1及び第2のクロックサイクル動作の間、512ビット動作のうち第1の256ビットを同じ単一エントリのシャドウラッチ構成の浮動小数点レジスタファイル内のレギュラーラッチ内に記憶し、第2の256ビットをシャドウラッチ内に記憶する。例えば、512ビット読み出し又は書き込み動作の間、第1の256ビットは、第1のクロックサイクルの間にシャドウラッチ構成の浮動小数点レジスタファイルからアクセスされ、第2の256ビットは、第2のクロックサイクルの間にアクセスされる。両方のアクセスは、同じエントリから起こる。第1の256ビット及び第2の256ビットの両方は、シャドウラッチ構成の浮動小数点レジスタファイル内の単一エントリ内に記憶されるため、分割リネーミングは、512ビット動作に対してビット幅を再構成するためには必須ではない。すなわち、シャドウラッチ構成の浮動小数点レジスタファイルを用いることによって、通常、512ビット命令を2つの別個のレジスタ(すなわち、高位ビットレジスタと低位ビットレジスタ)に分割する分割リネーミングは、浮動小数点ユニットを512ビット命令セット上で動作させるのに必須ではない。
【0006】
図1に、いくつかの実施形態による、ビット幅再構成をサポートする実行パイプライン105を有するプロセッサのプロセッサコア100を例示する。いくつかの実施形態では、例示したプロセッサコア100は、例えば、X86命令セットアーキテクチャ(ISA)に基づく中央演算処理装置(CPU)コア、ARM ISA等を含む。プロセッサは、複数のこのようなプロセッサコアを実装し、プロセッサは、種々の電子デバイス(例えば、ノートブックコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、サーバ、コンピューティング対応の携帯電話、携帯情報端末(PDA)、セットトップボックス、ゲームコンソール等)のうち何れかに実装される。
【0007】
いくつかの実施形態では、プロセッサコア100に対して用いられるプロセッサは、2種類のベクトル演算命令(ストリーミング単一命令複数データ(SIMD)拡張(SSE)命令及び高度ベクトル拡張(AVX)命令)の実行をサポートするX86アーキテクチャをサポートする。AVX命令は、256ビットオペランドを操作し、SSE命令は、128ビットオペランドを操作する。AVX512命令は、X86命令セットアーキテクチャ(ISA)に対する256ビットAVXSIMD命令に対する512ビット拡張である。それに応じて、512ビットレジスタを伴うレジスタファイルを用いるプロセッサは、AVX及びSSE命令の両方の実行をサポートする。いくつかの実施形態では、本明細書で説明するシャドウラッチ構成の浮動小数点レジスタファイルを用いて、256ビットレジスタを伴うレジスタファイルを用いるプロセッサ又は処理ユニット(例えば、浮動小数点ユニット120)は、512ビット動作もサポートする。
【0008】
図示した例では、実行パイプライン105は、命令キャッシュ110(Iキャッシュ)と、フロントエンド115と、浮動小数点ユニット120と、固定小数点ユニット125(一般に「整数実行ユニット」とも呼ばれる)と、を含む。また、プロセッサコア100は、メモリ階層(図示省略)に結合されたロードストアユニット(LSU)130(1つ以上のレベルのキャッシュ(例えば、L1キャッシュ、L2、キャッシュ等)を含む)と、システムメモリ(例えば、システムRAM)と、1つ以上の大容量記憶装置(例えばソリッドステートドライブ(SSD)又は光学ドライブ)と、を含む。
【0009】
命令キャッシュ110は、要求フェッチ動作(例えば、プログラムカウンタによって識別された命令ストリーム内の次の命令を要求するフェッチ)又は投機的プリフェッチ動作に応じて、フロントエンド115のフェッチユニット(図示省略)がフェッチした命令セットデータを記憶する。フロントエンド115は、フェッチユニットがフェッチした命令を、浮動小数点ユニット120又は固定小数点ユニット125の何れかによって実行される1つ以上の動作にデコードする。浮動小数点計算を伴う動作を浮動小数点ユニット120にディスパッチして実行させ、一方で、固定小数点計算を伴う動作を固定小数点ユニット125にディスパッチする。
【0010】
本明細書で用いる場合、命令の種類は、命令が操作するオペランドのサイズを指す。したがって、異なる種類の命令は、異なるサイズのオペランドを操作する。例えば、いくつかの実施形態では、浮動小数点ユニット120は、128ビットオペランドを操作する命令(128ビット命令と言う)からデコードされた動作を実行し、256ビットオペランドを操作する命令(256ビット命令と言う)からデコードされた動作も実行する。また、浮動小数点ユニット120は、本明細書で説明したビット幅再構成技術を用いて、512ビットオペランドを操作する命令(512ビット命令と言う)からデコードされた動作を実行する。
【0011】
いくつかの実施形態では、浮動小数点ユニット(FPU)120は、マップユニット135と、スケジューラユニット140と、シャドウラッチ構成の浮動小数点レジスタファイル(SC-FPRF)145と、1つ以上の実行(EX)ユニット150と、を含む。いくつかの実施形態では、FPU120は、浮動小数点数に対する演算を行い、加算、減算、乗算、除算、平方根及びビットシフティング又はブロードキャスティング、並びに、超越関数(例えば、指数関数、三角関数)等を含む演算を行う。種々の実施形態では、FPU120は、種々のグラフィックス処理ユニット(GPU)及び中央演算処理装置(CPU)の動作をサポートする。例えば、CPUが、浮動小数点演算を行う必要がある命令に遭遇した場合、CPUは、FPU120に要求を送信し、FPU120は、演算を行って、結果をCPUに返す。
図1に示すFPU120は、プロセッサコア100の内部に実装されているが、他の実施形態では、FPU120は、GPU及びCPUの外部に実装されている。
【0012】
SC-FPRF145は、さらなるシャドウラッチ147及びシャドウ選択MUX148を用いて、命令、命令が用いるオペランド、及び、命令が実行された結果を記憶する。SC-FPRF145内のエントリを物理レジスタ数によって示す。いくつかの実施形態では、物理レジスタ数を、マップユニット135を用いて、命令セットアーキテクチャが規定するアーキテクチャレジスタ数にマッピング(又はリネーム)する。典型的に、スケジューラユニット140が維持するキューエントリには、動作ペイロード又は動作識別子(例えば、動作に対するオプコード)を記憶するフィールドと、動作に対するソースオペランド(複数可)を含む物理レジスタのアドレス又は他の識別子に対するフィールドと、動作とともに用いられる任意の即値又は変位値を記憶するフィールドと、対応する動作の実行の結果を記憶すべき物理レジスタを特定する宛先フィールドと、命令依存性情報を記憶する少なくとも1つのフィールドと、が含まれる。例えば、ロード命令は、ロード命令のターゲットを示すアドレス情報と、ターゲットアドレスからデータを受け取るSC-FPRF145内のPRNを示すアーキテクチャ化レジスタオペランドと、を含む。
【0013】
FPU120は、第1のビット幅(256ビット幅)で動作する命令に加えて、比較的大きい数のビットを含む第2のビット幅で動作する命令(例えば、512ビット命令)で動作する。すなわち、いくつかの実施形態では、FPU120のデータパスが256ビット命令に制限されていたとしても、FPU120は、SC-FPRF145を用いて、命令動作又はトランザクションを単一クロックサイクルから2クロックサイクル(例えば、第1のクロックサイクルと第2のクロックサイクル)に拡張することによって、256ビットデータパスを再構成して512ビット命令で動作することが可能である。したがって、いくつかの実施形態では、SC-FPRF145が512ビットレジスタファイルである場合(すなわち、下位256ビットをレギュラーラッチ146内に記憶し、上位256ビットをシャドウラッチ147内に記憶する)、512ビットへのアクセスが、1つの512ビットサイクルではなく、2つの256ビットサイクルで発生する。
【0014】
いくつかの実施形態では、例えば、読み出し動作中に、実行ユニット150がSC-FPRF145からデータを読み出す場合、下位256ビットをトランザクションの第1のサイクルにおいてレギュラーラッチ146から読み出し、上位256ビットをトランザクションの第2のサイクルにおいてシャドウラッチ147から読み出す。シャドウ選択MUX148に与えられた読み出しアドレスを用いて、シャドウ選択MUX148は、読み出し機能を用いて、読み出し動作の第2のサイクルの間にシャドウラッチ147のうち何れのシャドウラッチを読み出すかを選択する。いくつかの実施形態では、読み出し動作を行うために、SC-FPRF145に、シャドウラッチに記憶されたシャドウデータを読み出すか又はレギュラーラッチに記憶された通常データを読み出すかを判定するために用いる読み出し機能を加える。こうして、読み出し機能によって、実行ユニット150は、読み出されるデータを、シャドウ選択MUX148を用いて選択することができる。
【0015】
同様に、書き込み動作中に、スケジューラユニット140又は実行ユニット150の何れかがSC-FPRF145に対する書き込み動作を行う場合に、トランザクションの第1のサイクルの間に下位256ビットをレギュラーラッチ146に書き込み、トランザクションの第2のサイクルの間に上位256ビットをシャドウラッチ147に書き込む。書き込み動作の間、従来のレジスタファイルと比較して、さらなる書き込みロジックが必要ではない。なぜならば、書き込まれているさらなる256ビットは、別のエントリとして書き込まれていないからである。すなわち、さらなる256ビットは、同じエントリ内のレギュラーラッチに対応付けられるデータのシャドウピースだからである。
【0016】
いくつかの実施形態では、SC-FPRF145に対するインターフェースへの入力において、書き込み制御信号及び読み出し制御信号が、読み出し動作又は書き込み動作の何れを第2のサイクルの間に行うかを決定するSC-FPRFコントローラ127から与えられる。書き込み動作の間、トランザクションが始まった場合に、SC-FPRFコントローラ127から与えられた書き込み制御信号(例えば、IS512書き込み制御入力信号)が高ロジック値に設定された場合、シャドウ書き込みに対するクロックが第2のサイクルの間に起動される。すなわち、IS512書き込み制御入力信号によって、2サイクルのうち第2のサイクルにおいてシャドウ書き込みクロックが起動する。読み出し動作の場合、トランザクションが始まった場合に、SC-FPRFコントローラ127から与えられた読み出し制御信号(例えば、IS512読み出し制御入力信号)が高ロジック値に設定された場合、シャドウ選択MUX148は、第2のサイクルの間にシャドウ選択MUX148に与えられた読み出しアドレスに基づいて、読み出されるシャドウラッチを選択する。すなわち、IS512読み出し制御入力信号によって、シャドウ選択MUX148は、第2のサイクルにおいて読み出しに対して要求されたアドレスに対応するシャドウラッチ147を選択する。言い換えれば、トランザクションの第2のサイクルにおいて、シャドウラッチ147からのデータがシャドウ選択MUX148によって選択される。SC-FPRF145を用いる結果、種々の実施形態において、読み出しデコーダ及び書き込みデコーダが第2のサイクルに対してクロックされず、デコードされた値を安定に保ち、プロセッサコア100内で命令を実行する間、パワーを節約する。
【0017】
いくつかの実施形態では、シャドウ選択MUX148に対する制御信号が予定(すなわち、トランザクションの第1のサイクル内)より早く到達するので、シャドウ選択MUXに与えられた信号(すなわち、シャドウ選択MUX信号)(例えば、フリップフロップによって与えられる)は、さらなるシャドウ選択MUX148を加えることに関連するタイミングを隠し、レジスタファイルに加えられたさらなるシャドウ選択MUX148を切り換えなければならないという影響を本質的に無効化させる。
【0018】
いくつかの実施形態では、512ビット動作又は256ビット動作に対してFPU120を起動することは、SC-FPRFコントローラ127の構成に依存している。実行されるマイクロオペレーションが512ビット命令である場合、SC-FPRFコントローラ127は、512ビット動作のためにFPU120を有効にする。実行されるマイクロオペレーションが256ビット命令である場合、SC-FPRFコントローラ127は、512ビット動作のためにFPU120を有効にする。すなわち、512ビット動作又は256ビット動作の何れを行うかをFPU120が決定するように、SC-FPRFコントローラ127は、FPU120を、512ビットオペレータ又は256ビットオペレータの何れかとして起動する。FPU120が512ビット読み出し又は書き込み動作に対してイネーブルされていない場合、256ビット読み出し又は書き込み動作が有効化されて、単一サイクルで行われる。FPU120が512ビット読み出し又は書き込み動作に対してイネーブルされている場合、512ビット読み出し又は書き込み動作が有効化され、512動作を行うのに所定のポートで2クロックサイクルを要する。
【0019】
いくつかの実施形態では、FPU120は、256ビット幅FPUで、256ビットの2サイクルを用いて512ビット動作を実行しているので、FPU120内のスケジューラユニット140は、第2のサイクルの間に第2のマイクロオプ(micro-op)を受け入れることをブロックして、第1及び第2のサイクルの間に第1のマイクロオプを終了させるようにしている。すなわち、FPU120による512ビット動作の実行が2サイクルを要するので、FPU120内のスケジューラユニット140は、512ビットマイクロオプが2サイクルを要するというフラグがSC-FPRFコントローラ127によって立てられ、第2のサイクルの間に別のマイクロオプ又は別のトランザクションが始まるのを防ぐ。
【0020】
同様に、ロードストアユニット130は、512ビット動作及び256ビット動作の両方で動作する。ロードストアユニット130は、SC-FPRFコントローラ127によって、FPU120が512ビットマイクロオプを実行するというフラグを立てられる。ロードストアユニット130は、512ビットロード及びストアを内部の256ビットデータパスによって処理するので、512ビット動作の下位256ビットは第1のサイクルの間に実行され、上位256ビットは第2のサイクルの間に実行され、SC-FPRF145及び実行パイプにマッチする。したがって、いくつかの実施形態では、ロードストアユニット130インターフェース及びFPU120インターフェースの両方は256ビット幅である。
【0021】
いくつかの実施形態では、FPU120内で512ビットマイクロオプを実行することで、512ビット命令は、プロセッサコア100内のリタイアキュー(図示省略)及び他の多くの構造(例えば、EX150内のロードキュー、及びスケジューラ等)において単一エントリを用いることができる。単一エントリを用いると、例えば、分割リネーミング(512ビット命令を2つの256ビットマイクロオプに分割する)と比べて性能が向上する。いくつかの実施形態では、本明細書で説明するシャドウラッチ構成の浮動小数点レジスタファイル方式は、複数のラッチ及びサイクル(例えば、4ラッチ及び4サイクル)に拡張されて、128ビットデータパスで512ビット動作を行う。
【0022】
SC-FPRF145を用いて、512ビットリネーミング及び512ビットマイクロオプを256ビットデータパスで実施するために、レジスタファイル内にデータを記憶するために通常用いられるレギュラーラッチに加えて、シャドウラッチのさらなるセットがレジスタファイル内のエントリ毎に加えられる(
図2を参照して詳細に示す)。さらに、第2の書き込みクロックが浮動小数点ユニット120に加えられて、シャドウラッチに書き込めるようになっている。
【0023】
スケジューラユニット140は、FPU120内で実行するための命令をスケジュールする。SC-FPRF145は、2サイクルを用いて単一サイクル動作を行うので、スケジューラユニット140は、2サイクル動作を行うために必要な追加のサイクルに対応するように構成されている。その結果、浮動小数点ユニット120内のスケジューラユニット140は、2サイクル動作が完了するまで、追加のサイクルに対する別のマイクロオプの受け入れをブロックする又は遅延させる。すなわち、一実施形態では、スケジューラユニット140は、512ビットマイクロオプが2サイクルを要し、その第2のサイクル内で別のマイクロオプ又は別のトランザクションを受け入れるのをブロックすることを理解している。いくつかの実施形態では、浮動小数点ユニット120は、レジスタファイル及び実行パイプライン内で512ビットマイクロオプが2サイクルを要することをスケジューラ(スケジューラユニット140)が認識することを要求する。
【0024】
ロードストアユニット130は、単一サイクルの代わりに2サイクルにわたってロード及び記憶動作を行い、シャドウラッチ動作に対して加えられたさらなるサイクルに対して調整する。したがって、例えば、512ビット動作の場合、ロードストアユニット130は、512ビットロード及びストアを、単一サイクルではなく2サイクルにわたって256ビットデータパスで行う。
【0025】
種々の実施形態では、FPU120は、その動作全体を、256ビットデータパスを用いて行うが、デコーダ(図示省略)は、512ビット動作を、256ビットではなく512ビットデータパスを用いてデコードする。言い換えれば、デコーダは、FPU120が256ビットデータパスを用いて動作することを知らず、その代わりに、デコーダが512ビット動作に対して通常行うように動作する。
【0026】
いくつかの実施形態では、シャドウ選択マルチプレクサ信号は、ローカルフリップフロップによって出力される。なぜならば、シャドウ選択マルチプレクサ信号は、第1のサイクルトランザクションとともに現れるからである。いくつかの実施形態では、ローカルフリップフロップからシャドウ選択マルチプレクサ信号を出力することで、プロセッサは、読み出しデコードよりも高速になり、余分な又はさらなるシャドウ選択マルチプレクサを通るタイミングを隠すことができる。
【0027】
以下の説明は、浮動小数点ユニット120内に実装されるシャドウラッチ構成の浮動小数点レジスタファイル145に関係するが、それは、例えば固定小数点ユニット125に対して実装される任意の種類のレジスタファイル若しくはシャドウラッチ構成のレジスタファイル、又は、全く異なる種類の処理ユニット(例えば、デジタルシグナルプロセッサ、グラフィックスプロセッサ、特定用途向け集積回路(ASIC)等)にも適用される。SC-FPRF145は、機能ラッチ、シャドウラッチ、並びに、機能ラッチ及びシャドウラッチからデータ読み出して書き込むことができるシャドウ選択マルチプレクサを含む(
図2を参照して以下にさらに説明する)。
【0028】
図2は、いくつかの実施形態による、シャドウラッチを用いたビット幅再構成を用いる
図1のSC-FPRF145のビットセルレイアウトである。SC-FPRF145は、シャドウラッチ147と、シャドウ選択MUX148と、機能又はレギュラーラッチ146と、読み出し論理ユニット(読み出しロジック)265と、書き込み論理ユニット(書き込みロジック)270と、を含む。図示した例において、シャドウラッチ147は複数のシャドウラッチを含み、シャドウ選択MUX148は複数のシャドウ選択マルチプレクサを含み、レギュラーラッチ146は複数のレギュラーラッチを含み、読み出し論理ユニット265は複数の読み出し論理ユニットを含み、書き込み論理ユニット270は複数の書き込み論理ユニットを含む。いくつかの実施形態では、各シャドウラッチ147及びレギュラーラッチ146は、ビット幅再構成動作の間にSC-FPRF145に書き込まれるデータ及び読み出されるデータを記憶するラッチ動作を行う。各シャドウ選択MUX148を用いて、ビット幅再構成動作の間にSC-FPRF145から読み出されるデータを選択する。いくつかの実施形態では、読み出し論理ユニット265及び書き込み論理ユニット270は、当該技術分野で一般的に知られている読み出し及び書き込み動作を行うために用いられるロジックを含む。
【0029】
図2に示すように、512ビット動作のビット幅再構成の場合、FPU120(256データパスを有する)は、2クロックサイクルの間に、第1の256ビットをレギュラーラッチ146に記憶し、第2の256ビットをシャドウラッチ147に記憶する。すなわち、書き込み動作中に、第1のサイクルにおいて、レギュラーラッチ146は、512ビット動作に関連する下位256ビットを記憶する。第2のサイクルにおいて、シャドウラッチ147は、512ビット動作の上位256ビットを記憶する。読み出し動作の間、第1のサイクルにおいて、レギュラーラッチ146からデータが読み出される。第2のサイクルにおいて、シャドウ選択MUX148によって選択されたシャドウラッチ147がEX150から読み出され、EX150に与えられる(
図1及び3に例示する)。
【0030】
図3に、いくつかの実施形態による、
図1のプロセッサコアを用いたシャドウラッチングを用いる方法300を例示する。ブロック310において、データ動作(例えば、読み出し動作又は書き込み動作)を有する命令セットが、プロセッサコア100によって浮動小数点ユニット120に対して開始される。ブロック330において、浮動小数点ユニット120は、命令セットに対して第2のビット幅で動作する。ブロック340において、命令セットのビット幅動作評価に基づいて、浮動小数点ユニット120は、SC-FPRF145を用いてビット幅再構成を行う。例えば、いくつかの実施形態では、命令セットのビット幅動作評価は、命令セットのビット幅が512ビット動作又は256ビット動作の何れであるかを判定することと、浮動小数点ユニット120が行うデータ動作が読み出し動作、書き込み動作、又は、読み出し動作及び書き込み動作の両方であるかを判定することと、を含む。いくつかの実施形態では、命令セットのビット幅が512ビット又は256ビットの何れであるかを判定することによって、浮動小数点ユニット120が浮動小数点演算の間にビット幅再構成を行うか、又は、単に所定の256ビット(浮動小数点ユニット120のデータパスのビット幅)で浮動小数点演算を行うかが決定される。いくつかの実施形態では、浮動小数点ユニット120が行うデータ動作が読み出し動作又は書き込み動作の何れであるかを判定することによって、浮動小数点ユニット120内の読み出し及び書き込み動作に対してシャドウ選択MUX148を用いてアクセスするシャドウラッチ及びシャドウラッチにアクセスするタイミングを決定する書き込み制御信号又は読み出し制御信号の何れかが起動される。
【0031】
図4は、いくつかの実施形態による、
図1のプロセッサコア100のSC-FPRF145のブロック図である。SC-FPRF145は、書き込みMUX470と、レギュラーラッチ446と、シャドウラッチ447と、シャドウ選択MUX448と、を含む。種々の実施形態では、2つのラッチ(例えば、レギュラーラッチ446及びシャドウラッチ447)は、単一の書き込みMUX470を共有するが、書き込みプロセスの間に異なる書き込みクロック(例えば、書き込みクロック信号410及びシャドウ書き込みクロック信号420)を用いる。
【0032】
書き込み動作の間、SC-FPRF145の書き込みポートにおいて、書き込みMUX470は、レギュラーラッチ446及びシャドウラッチ447に書き込まれる書き込みデータ(例えば、512ビットデータ)を受け取る。書き込みMUX信号440に基づいて、書き込みクロック信号410のロジック値がハイ(high)である場合、書き込みMUX470は、書き込まれる書き込みデータ491をレギュラーラッチ446に送る。シャドウ書き込みクロック信号420のロジック値がハイである場合、書き込みMUX470は、書き込みデータ492をシャドウラッチ447に送る。レギュラーラッチ446及びシャドウラッチ447は、受け取った書き込みデータ491及び書き込みデータ492をそれぞれ記憶する。読み出し動作の間、レギュラーラッチ446及びシャドウラッチ447は、例えば、シャドウ選択MUX448を制御するシャドウ選択MUX信号430のロジック値に基づいて、ラッチデータ461及びシャドウラッチデータ471を解放する。いくつかの実施形態では、例えば、シャドウ選択MUX信号430のロジック値がロー(low)である場合、ラッチデータ461を読み出しデータ499としてラッチ446から読み出す。シャドウ選択MUX信号430がハイである場合、シャドウラッチデータ471を読み出しデータ499としてシャドウラッチ447から読み出す。次に、読み出しデータ499を、SC-FPRF145の出力として読み出しポートMUXを介して実行ユニット150に与える。
【0033】
図5は、いくつかの実施形態による、
図4のSC-FPRF145を用いた読み出し及び書き込み動作のタイミング
図500である。タイミング
図500は、クロック信号510、シャドウ選択MUX信号430、読み出しデータ499、書き込みクロック信号410、ラッチデータ461、シャドウ書き込みクロック信号420、及び、シャドウラッチデータ471を示す。図示した実施形態では、タイミング
図500は、4クロックサイクルを例示しているが、代替的な実施形態では、様々な数のクロックサイクルが用いられる。
【0034】
書き込み動作の場合、第1のクロックサイクルの間、書き込みクロック信号410及びシャドウ書き込みクロック信号420はローであり、データは、レギュラーラッチ446にもシャドウラッチ447にも書き込まれていない。第1のクロックサイクルの終わりに、書き込みクロック信号410がローからハイに移行し、その結果、書き込みデータ491がレギュラーラッチ446に書き込まれる。移行の間、シャドウ書き込みクロック信号420はローのままであり、第2のサイクルの間、データは、シャドウラッチ447に書き込まれない。第2のクロックサイクルの終わりに、書き込みクロック信号410(第2のクロックサイクルの途中でローに移行した)はローのままであり、第3のサイクルの間、データは、レギュラーラッチ446に書き込まれない。シャドウ書き込みクロック信号420は、第2のクロックサイクルの終わりにローからハイに移行し、書き込みデータ492がシャドウラッチ447に書き込まれる。第3のクロックサイクルの終わりに、書き込みクロック信号410及びシャドウ書き込みクロック信号420はローのままであり、第4のクロックサイクルの間、データは、レギュラーラッチ446及びシャドウラッチ447にそれぞれ書き込まれない。読み出し動作の場合、第1のクロックサイクルの間、シャドウ選択MUX信号430はローであり、データは、シャドウラッチ447から読み出されず、ラッチデータ461はレギュラーラッチ446から読み出されている。第1のサイクルの終わりに、シャドウ選択MUX信号430がローからハイに移行すると、シャドウラッチデータ471がシャドウラッチ447から読み出される。ラッチデータ461及びシャドウラッチデータ471を共に組み合わせて、
図1のSC-FPRF145の出力において所望のビット幅構成が得られる。
【0035】
コンピュータ可読記憶媒体は、命令及び/又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク)、磁気媒体(例えば、フロッピー(登録商標)ディスク、磁気テープ、磁気ハードドライブ)、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM)若しくはキャッシュ)、不揮発性メモリ(例えば、読取専用メモリ(ROM)若しくはフラッシュメモリ)、又は、微小電気機械システム(MEMS)ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体(例えば、システムRAM又はROM)はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体(例えば、磁気ハードドライブ)はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体(例えば、光学ディスク又はユニバーサルシリアルバス(USB)ベースのフラッシュメモリ)はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体(例えば、ネットワークアクセス可能ストレージ(NAS))は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。
【0036】
いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの1つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の1つ以上のセットを含む。ソフトウェアは、1つ以上のプロセッサによって実行されると、上記の技術の1つ以上の態様を実行するように1つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ(RAM)等のソリッドステート記憶デバイス、又は、他の1つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、1つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。
【0037】
上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、1つ以上のさらなるアクティビティが実行される場合があり、1つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。
【0038】
利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。
【手続補正書】
【提出日】2022-05-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
プロセッサであって、
第1のビット幅で動作する命令セットを有するフロントエンドと、
前記命令セットを受け取るように結合された浮動小数点ユニットであって、前記浮動小数点ユニットは、第2のビット幅で動作し、前記浮動小数点ユニットは、前記浮動小数点ユニットに与えられた前記命令セットのビット幅評価に基づいて、シャドウラッチ構成のレジスタファイルを用いてビット幅再構成を行う、浮動小数点ユニットと、を備える、
プロセッサ。
【請求項2】
前記ビット幅再構成によって、前記第2のビット幅で動作する前記浮動小数点ユニットを、前記第1のビット幅で受け取った前記命令セットに対して動作させることを可能にする、
請求項1のプロセッサ。
【請求項3】
前記シャドウラッチ構成のレジスタファイルは、複数のレギュラーラッチと、シャドウラッチから読み出され又は前記シャドウラッチに書き込まれるデータを記憶するための複数のシャドウラッチと、を含む、
請求項1のプロセッサ。
【請求項4】
前記複数のレギュラーラッチのうち少なくとも1つは、第1のビット幅動作の複数の下位ビットを記憶し、前記複数のシャドウラッチのうち少なくとも1つは、前記第1のビット幅動作に関連する複数の上位ビットを記憶する、
請求項3のプロセッサ。
【請求項5】
前記シャドウラッチ構成のレジスタファイルは、前記複数のシャドウラッチに結合された複数のシャドウマルチプレクサ(MUX)を含む、
請求項3のプロセッサ。
【請求項6】
読み出し動作中に、前記複数のシャドウMUXのうち少なくとも1つは、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチを選択して読み出すために使用される、
請求項
5のプロセッサ。
【請求項7】
書き込み動作中に、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチは、複数のクロックサイクルのうち第2のクロックサイクルの間に書き込み制御信号を用いて起動される、
請求項3のプロセッサ。
【請求項8】
読み出し動作中に、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチの読み出し動作は、第2のクロックサイクルの間に読み出し制御信号によって起動され、前記読み出し制御信号は、複数のクロックサイクルのうち第2のクロックサイクルの間に、前記読み出し動作のために前記シャドウラッチを前記シャドウ選択マルチプレクサに選択させる、
請求項3のプロセッサ。
【請求項9】
前記シャドウラッチは、前記シャドウラッチ構成のレジスタファイル内の単一エントリ内に配置されている、
請求項3のプロセッサ。
【請求項10】
方法であって、
第1のビット幅で動作する命令セットを受け取ることと、
第2のビット幅で浮動小数点ユニットを動作させることと、
前記命令セットのビット幅評価に基づいて、シャドウラッチ構成のレジスタファイルを用いてビット幅再構成を行うことと、を含む、
方法。
【請求項11】
前記ビット幅再構成によって、前記第2のビット幅で動作する前記浮動小数点ユニットを、前記第1のビット幅で受け取った前記命令セットに対して動作させることを可能にする、
請求項
10の方法。
【請求項12】
前記シャドウラッチ構成のレジスタファイルは、複数のレギュラーラッチと、シャドウラッチから読み出され又は前記シャドウラッチに書き込まれるデータを記憶するための複数のシャドウラッチと、を含む、
請求項
10の方法。
【請求項13】
第1のビット幅動作の複数の下位ビットを前記複数のレギュラーラッチのうち少なくとも1つに記憶し、前記第1のビット幅動作に関連する複数の上位ビットを前記複数のシャドウラッチのうち少なくとも1つに記憶することをさらに含む、
請求項
12の方法。
【請求項14】
前記シャドウラッチ構成のレジスタファイルは、前記複数のシャドウラッチに結合された複数のシャドウマルチプレクサ(MUX)を含む、
請求項
13の方法。
【請求項15】
読み出し動作中に、前記シャドウMUXのうち少なくとも1つは、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチを選択して読み出すために使用され、
書き込み動作中に、前記複数のシャドウラッチのうち少なくとも1つのシャドウラッチに対する書き込み動作は、複数のクロックサイクルのうち第2のクロックサイクルの間に書き込み制御信号を用いて起動される、
請求項
14の方法。
【国際調査報告】