特開2023-135511 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-135511演算処理装置及び演算処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023135511

(43)【公開日】2023-09-28

(54)【発明の名称】演算処理装置及び演算処理方法

(51)【国際特許分類】

G06F 9/38 20180101AFI20230921BHJP

G06F 9/302 20180101ALI20230921BHJP

G06F 9/34 20180101ALI20230921BHJP

G06F 7/483 20060101ALI20230921BHJP

【ＦＩ】

G06F9/38 370C

G06F9/302 A

G06F9/34 330

G06F7/483

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022040759

(22)【出願日】2022-03-15

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100092978

【弁理士】

【氏名又は名称】真田有

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】藤田尚成

(72)【発明者】

【氏名】坂下聡太

【テーマコード（参考）】

5B013

5B033

【Ｆターム（参考）】

5B013DD01

5B013DD03

5B033DD09

(57)【要約】

【課題】浮動小数点演算を効率的に実行する。
【解決手段】演算処理装置１は、演算命令を格納する命令格納部１６１と、算命令の演算結果をキャッシュするデータキャッシュ部１８と、命令格納部１６１の側に配置されると共に、命令格納部１６１から転送された演算命令を実行するためのレジスタ値を格納する複数の浮動小数点レジスタ１７２と、データキャッシュ部１８の側に配置されると共に、演算命令に基づいた浮動小数点演算を行う複数の浮動小数点演算器１７１と、を備え、命令格納部１６１から、複数の浮動小数点レジスタ１７２のうち命令格納部１６１までの距離が最も近い位置に配置された一以上の浮動小数点レジスタ１７２へ、レジスタ値を転送する際のサイクルが１サイクルである。
【選択図】図８

【特許請求の範囲】

【請求項1】

演算命令を格納する命令格納部と、
前記演算命令の演算結果をキャッシュするデータキャッシュ部と、
前記命令格納部の側に配置されると共に、前記命令格納部から転送された前記演算命令を実行するためのレジスタ値を格納する複数の浮動小数点レジスタと、
前記データキャッシュ部の側に配置されると共に、前記演算命令に基づいた浮動小数点演算を行う複数の浮動小数点演算器と、
を備え、
前記命令格納部から、前記複数の浮動小数点レジスタのうち前記命令格納部までの距離が最も近い位置に配置された一以上の浮動小数点レジスタへ、前記レジスタ値を転送する際のサイクルが１サイクルである、
演算処理装置。

【請求項2】

前記演算命令の実行のために、前記複数の浮動小数点レジスタのうち前記一以上の浮動小数点レジスタを使用すると共に、前記複数の浮動小数点演算器のうち前記データキャッシュ部までの距離が最も近い位置に配置された一以上の浮動小数点演算器を使用する、
請求項１に記載の演算処理装置。

【請求項3】

ロード命令又はストア命令が実行された後に、前記演算命令が実行される、
請求項１又は２に記載の演算処理装置。

【請求項4】

命令格納部において、演算命令を格納し、
データキャッシュ部において、前記演算命令の演算結果をキャッシュし、
前記命令格納部の側に配置される複数の浮動小数点レジスタにおいて、前記命令格納部から転送された前記演算命令を実行するためのレジスタ値を格納し、
前記データキャッシュ部の側に配置される複数の浮動小数点演算器において、前記演算命令に基づいた浮動小数点演算を行う、
処理をコンピュータが実行し、
前記命令格納部から、前記複数の浮動小数点レジスタのうち前記命令格納部までの距離が最も近い位置に配置された一以上の浮動小数点レジスタへ、前記レジスタ値を転送する際のサイクルを１サイクルとする、
演算処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算処理装置及び演算処理方法に関する。

【背景技術】

【0002】

図１は、関連例におけるプロセッサのコア部のハードウェア構成例を模式的に示すブロック図である。

【0003】

命令キャッシュ６１には命令が格納されており、読み出された命令は命令バッファ６２に格納され、順次デコード部６３に送られる。デコード部６３では命令解釈が行われ、リザベーションステーション６６（ＲＳ）に命令が投入される。

【0004】

ＲＳ６６は各演算器への命令投入をアウトオブオーダーで行う。ＲＳ６６には、演算命令を格納するＲＳＥ６６１（Reservation Station for Execute）とロードやストアなどの命令を格納するＲＳＡ６６２（Reservation Station for Address Generate）とがある。

【0005】

ＲＳＥ６６１及びＲＳＡ６６２は、共に、レジスタ管理部６４及びバイパス管理部６５によって管理される。

【0006】

ＲＳＥ６６１は、浮動小数点レジスタ６７２（ＦＰＲ）にレジスタ番号を送り、レジスタ番号に基づいて参照されたデータを浮動小数点演算器６７１に送る。浮動小数点演算器６７１は、命令コードをもとに、浮動小数点レジスタ（不図示）から送られてきたデータを使用して演算を行う。演算結果は、浮動小数点レジスタに送られ、指定された番号のレジスタが更新される。ＲＳＡ６６２は、固定少数点レジスタ６７３（ＧＰＲ）にレジスタ番号を送り、レジスタ番号に基づいて参照されたデータをアドレス演算器６７４に送る。アドレス演算器６７４はその結果をＤＡＴＡキャッシュ６８に送り、ＤＡＴＡキャッシュ６８はデータをＧＰＲ６７３ないしＦＰＲ６７２に返し、指定された番号のレジスタが更新される。

【0007】

浮動小数点演算器６７１，ＦＰＲ６７２，ＧＰＲ６７３及びアドレス演算器６７４は、演算実行部６７として機能する。

【0008】

図２は、関連例におけるＲＳＥ６６１、ＦＰＲ６７２、浮動小数点演算器６７１（ＦＰＵ）及びＤＡＴＡキャッシュ６８におけるデータの流れを説明するブロック図である。図３は、関連例においてＦ０１レーンのみを使用する場合における演算命令及びロード命令のタイムチャートである。図４は、関連例においてＦ２３レーンも使用する場合における演算命令及びロード命令のタイムチャートである。

【0009】

図２には、ＲＳＥ６６１からＦＰＲ６７２及びＦＰＵ６７１までの演算命令の流れと、ＤＡＴＡキャッシュ６８からＦＰＵ６７１までのロードデータの流れとが示されている。図２及び図５において、符号７１はセレクタを示し、符号７２はフリップフロップを示す。

【0010】

ＦＰＲ６７２や浮動小数点演算器６７１は、8byteのデータ幅を１要素とした最大４要素（Ｆ０－Ｆ３）のＳＩＭＤ演算に対応しており、F01のみ使用する命令とF23も使用する命令とを処理する。

【0011】

図２～図４において、P、PT、PT2、B1、B2、X1、X2、X3、X4、U、UT、C、Wは演算命令（図３の符号Ａ１及び図４の符号Ｂ１参照）のパイプライン処理のサイクル名を示している。

【0012】

まず、Pサイクルでは、ＲＳ６６から各要素のＦＰＲ６７２に向けてレジスタ番号が送出され、PT、PT2の２サイクルをかけて各要素のＦＰＲ６７２（F0FPR, F1FPR, F2FPR, F3FPR）にレジスタ番号が転送される。

【0013】

次のB1サイクルでは転送されてきたレジスタ番号に対応するＦＰＲ６７２の値が読出され、B2サイクルではＯＰ１Ｒで示されるフリップフロップ７２（オペランドを保持するレジスタ）に値が送られる。

【0014】

X1, X2, X3, X4サイクルでは各要素のＦＰＵ６７１（F0FPU, F1FPU, F2FPU, F3FPU）が同時に演算を実行し、最後のサイクルであるX4サイクルではRRで示されるフリップフロップ７２（Result Register：演算結果を保持するレジスタ）に結果がセットされる。

【0015】

そして、Uサイクルで演算結果が各要素のＦＰＲ６７２（F0FPR, F1FPR, F2FPR, F3FPR）に転送され、UTサイクルで各要素のＦＰＲ６７２（F0FPR, F1FPR, F2FPR, F3FPR）に演算結果が書き込まれる。

【0016】

図３及び図４に示すC, Wサイクルでは、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ６７２等の各種レジスタやメモリ等の資源更新および資源解放が行われる。

【0017】

P_d ,T_d, M_d, B_d,R_d, R_dTサイクルは、ロード命令（図３の符号Ａ２及び図４の符号Ｂ２参照）のパイプライン処理のサイクル名を示している。

【0018】

P_dサイクルでは、アドレス演算器６７４から送られてきたアドレスがＤＡＴＡキャッシュ６８に送られ、T_d, M_d, B_dサイクルでは送られてきたアドレスのデータが読出されてLRで示されるフリップフロップ７２にセットされる。R_d, R_dTサイクルでは、LRで示されるフリップフロップ７２のデータが各要素のＦＰＵ６７１（F0FPU, F1FPU, F2FPU, F3FPU）のOP1Rで示されるフリップフロップ７２に転送されている。

【0019】

図５は、関連例におけるＲＳＥ６６１、ＦＰＲ６７２、ＦＰＵ６７１及びＤＡＴＡキャッシュ６８の配置の第１の例を説明するブロック図である。

【0020】

図５に示すように、F0FPRは、ＲＳ６６（別言すれば、ＲＳＥ６６１）から距離が近いため、PTサイクルのみでレジスタ番号を転送可能だが、距離が遠いF1,2,3のＦＰＲ６７２に合わせてPT、PT2の２サイクルでレジスタ番号を転送している。また、F1FPUは、ＤＡＴＡキャッシュ６８から距離が近いため、Rdサイクルのみでロードデータを転送可能だが、距離が遠いF0,2,3のＦＰＵ６７１に合わせてRd、RdTの２サイクルでロードデータを転送している。

【0021】

転送タイミングを距離が遠い方に合わせている理由は、バイパス動作を含めたパイプライン処理を簡単にするためである。図５に示す配置では、ＲＳＥ６６１から見た近い要素とＤＡＴＡキャッシュ６８から見た近い要素とが異なっているため、距離が遠い方に合わせている。

【0022】

図６は、関連例におけるＲＳＥ６６１、ＦＰＲ６７２、ＦＰＵ６７１及びＤＡＴＡキャッシュ６８の配置の第２の例を説明するブロック図である。

【0023】

図６は、図５に示した配置例と比較して、ＲＳ６６からのレジスタ番号転送のサイクルをＲＳ６６から近いところだけ１サイクル削り（符号Ｃ１参照）、ＤＡＴＡキャッシュ６８からのロードデータ転送サイクルをＤＡＴＡキャッシュ６８から近いところだけ１サイクル削った（符号Ｃ２参照）場合の配置例である。

【0024】

レジスタ番号の転送サイクルは、F0FPRのみPT2サイクルが削除され、PTサイクルのみになっている。ロードデータの転送サイクルは、F1FPUのみR_dTサイクルが削除され、Rdサイクルになっている。

【先行技術文献】

【特許文献】

【0025】

【特許文献1】特開２０１６－２１８８５５号公報

【特許文献2】特開平９－２１２３５９号公報

【発明の概要】

【発明が解決しようとする課題】

【0026】

図７は、図６に示したＲＳＥ、ＦＰＲ、ＦＰＵ及びＤＡＴＡキャッシュの配置の第２の例に対応するロード命令から演算命令への処理を示すタイムチャートである。

【0027】

図６に示したように、単純にＲＳＥ６６１から見た近い要素とＤＡＴＡキャッシュ６８から見た近い要素のサイクル数を短くしてしまうと、図７のタイムチャートに示す通り、ロードから演算へのバイパス時のPサイクルのタイミングが要素毎に異なってしまう（符号Ｄ１～Ｄ３参照）。そして、要素毎の違いを意識した制御にしなければならなくなり、その上、特に性能改善は見込めない。そのため、基本的にSingle Instruction, Multiple Data（ＳＩＭＤ）の場合は、最も遠い要素にパイプライン段数を合わせている。しかし、図６に示す配置例のままでは、ＲＳＥ６６１から見た近い要素とＤＡＴＡキャッシュ６８から見た近い要素とが異なることで、性能改善が見込めないおそれがある。

【0028】

ＳＩＭＤには、F01しか使用しない命令とF23も使用する命令とがある。F01しか使用しない命令を改善することを考えると、F01FPRへの転送サイクルをPTサイクルのみに、ロードデータのＤＡＴＡキャッシュ６８からF01FPUへの転送をR_dサイクルのみに揃える必要がある。しかしながら、図６に示した配置例では、ＤＡＴＡキャッシュ６８からはF0FPUは遠く、ＲＳＥ６６１からはF1FPUのOP1Rまでが遠いため、サイクルを揃えることができない。

【0029】

１つの側面では、浮動小数点演算を効率的に実行することを目的とする。

【課題を解決するための手段】

【0030】

１つの側面では、演算処理装置は、演算命令を格納する命令格納部と、前記演算命令の演算結果をキャッシュするデータキャッシュ部と、前記命令格納部の側に配置されると共に、前記命令格納部から転送された前記演算命令を実行するためのレジスタ値を格納する複数の浮動小数点レジスタと、前記データキャッシュ部の側に配置されると共に、前記演算命令に基づいた浮動小数点演算を行う複数の浮動小数点演算器と、を備え、前記命令格納部から、前記複数の浮動小数点レジスタのうち前記命令格納部までの距離が最も近い位置に配置された一以上の浮動小数点レジスタへ、前記レジスタ値を転送する際のサイクルが１サイクルである。

【発明の効果】

【0031】

１つの側面では、浮動小数点演算を効率的に実行することができる。

【図面の簡単な説明】

【0032】

【図1】関連例におけるプロセッサのコア部のハードウェア構成例を模式的に示すブロック図である。

【図2】関連例におけるＲＳＥ、ＦＰＲ、ＦＰＵ及びＤＡＴＡキャッシュにおけるデータの流れを説明するブロック図である。

【図3】関連例においてＦ０１レーンのみを使用する場合における演算命令及びロード命令のタイムチャートである。

【図4】関連例においてＦ２３レーンも使用する場合における演算命令及びロード命令のタイムチャートである。

【図5】関連例におけるＲＳＥ、ＦＰＲ、ＦＰＵ及びＤＡＴＡキャッシュの配置の第１の例を説明するブロック図である。

【図6】関連例におけるＲＳＥ、ＦＰＲ、ＦＰＵ及びＤＡＴＡキャッシュの配置の第２の例を説明するブロック図である。

【図7】図６に示したＲＳＥ、ＦＰＲ、ＦＰＵ及びＤＡＴＡキャッシュの配置の第２の例に対応するロード命令から演算命令への処理を示すタイムチャートである。

【図8】実施形態におけるＲＳＥ、ＦＰＲ、ＦＰＵ及びＤＡＴＡキャッシュの配置例を説明するブロック図である。

【図9】関連例及び実施形態においてＦ０１レーンのみを使用する場合における演算命令及びロード命令のタイムチャートである。

【図10】関連例及び実施形態においてＦ２３レーンも使用する場合における演算命令及びロード命令のタイムチャートである。

【図11】関連例及び実施形態においてＦ０１レーンのみを使用する場合における演算命令から演算命令への処理を示すバイパスタイムチャートである。

【図12】関連例及び実施形態においてＦ２３レーンも使用する場合における演算命令から演算命令への処理を示すバイパスタイムチャートである。

【図13】関連例及び実施形態においてＦ０１レーンのみを使用する場合におけるロード命令から演算命令への処理を示すバイパスタイムチャートである。

【図14】関連例及び実施形態においてＦ２３レーンも使用する場合におけるロード命令から演算命令への処理を示すバイパスタイムチャートである。

【図15】実施形態におけるＣＰＵの構成例を模式的に示すブロック図である。

【図16】実施形態における２要素(F0,F1)のみを利用する演算命令から演算命令へのバイパスブロック図である。

【図17】関連例及び実施形態における２要素(F0,F1)のみを利用する演算命令から演算命令へのバイパスタイムチャートである。

【図18】実施形態における２要素(F0,F1)のみを利用する演算命令から演算命令へのバイパス配置例を示すブロック図である。

【図19】実施形態における４要素(F0,F1,F2,F3)全てを利用する演算命令から演算命令へのバイパスブロック図である。

【図20】関連例及び実施形態における４要素(F0,F1,F2,F3)全てを利用する演算命令から演算命令へのバイパスタイムチャートである。

【図21】実施形態における４要素(F0,F1,F2,F3)全てを利用する演算命令から演算命令へのバイパス配置例を示すブロック図である。

【図22】２要素(F0,F1)のみを利用するロード命令から演算命令へのバイパスブロック図である。

【図23】関連例及び実施形態における２要素(F0,F1)のみを利用するロード命令から演算命令へのバイパスタイムチャートである。

【図24】実施形態における２要素(F0,F1)のみを利用するロード命令から演算命令へのバイパス配置例を示すブロック図である。

【図25】実施形態における４要素(F0,F1,F2,F3)全てを利用するロード命令から演算命令へのバイパスブロック図である。

【図26】関連例及び実施形態における４要素(F0,F1,F2,F3)全てを利用するロード命令から演算命令へのバイパスタイムチャートである。

【図27】実施形態における４要素(F0,F1,F2,F3)全てを利用するロード命令から演算命令へのバイパス配置例を示すブロック図である。

【図28】関連例及び実施形態における８要素(F0-F7)全てを利用する演算命令から演算命令へのバイパスタイムチャートである。

【図29】実施形態における８要素(F0-F7)全てを利用する演算命令から演算命令へのバイパス配置例を示すブロック図である。

【図30】関連例及び実施形態における８要素(F0-F7)全てを利用し時差を３段階にした場合における演算命令から演算命令へのバイパスタイムチャートである。

【図31】８要素(F0-F7)全てを利用し時差を３段階にした場合の演算命令から演算命令へのバイパス配置例を示すブロック図である。

【発明を実施するための形態】

【0033】

〔Ａ〕実施形態
以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

【0034】

図８は、実施形態におけるＲＳＥ１６１、ＦＰＲ１７２、ＦＰＵ１７１及びＤＡＴＡキャッシュ１８の配置例を説明するブロック図である。

【0035】

図８に示すように、図５及び図６に示した関連例と比較して、ＦＰＲ１７２はＲＳＥ１６１側に、ＦＰＵ１７１はＤＡＴＡキャッシュ１８側に寄せた配置に変更する。ＲＳＥ１６１からF01のＦＰＲ１７２にレジスタ番号を転送するPT2サイクルを削除する（符号Ｅ１及びＥ２参照）と共に、F01のＦＰＵ１７１にロードデータをＤＡＴＡキャッシュ１８から転送するサイクルRdTを削除する（符号Ｅ３及びＥ４）。

【0036】

なお、図８及び以降に示す図面において、符号２１はセレクタを示し、符号２２はフリップフロップを示す。

【0037】

すなわち、ＲＳＥ１６１は、演算命令を格納する。ＤＡＴＡキャッシュ１８は、演算命令の演算結果をキャッシュする。複数のＦＰＲ１７２は、ＲＳＥ１６１の側に配置されると共に、ＲＳＥ１６１から転送された演算命令を実行するためのレジスタ値を格納する。複数のＦＰＵ１７１は、ＤＡＴＡキャッシュ１８の側に配置されると共に、演算命令に基づいた浮動小数点演算を行う。ＲＳＥ１６１から、複数のＦＰＲ１７２のうちＲＳＥ１６１までの距離が最も近い位置に配置された一以上のＦＰＲ１７２へ、レジスタ値を転送する際のサイクルは、１サイクルとされる。

【0038】

図９は、関連例及び実施形態においてＦ０１レーンのみを使用する場合における演算命令及びロード命令のタイムチャートである。

【0039】

図９のタイムチャートに示す通り、実施形態では、F01のみ使用する命令のレイテンシを関連例と比較して演算命令及びロード命令共に１サイクル改善することができる（符号Ｆ１及びＦ２参照）。

【0040】

これにより、ＦＰＲ１７２の解放が早くなり、ＦＰＲ１７２の不足でパイプラインが止まる確率を軽減する効果も得られる。ＦＰＲ１７２の数を増やすことでもパイプラインが止まる確率を軽減できるが、量増加や消費電力増加のリスクがある。

【0041】

図１０は、関連例及び実施形態においてＦ２３レーンも使用する場合における演算命令及びロード命令のタイムチャートである。

【0042】

図１０に示すように、F23も使用する命令では、関連例と比較して、演算命令及びロード命令共に、F01のサイクル数がF23とは異なってしまう（符号Ｇ１及びＧ２参照）が、Pサイクルのタイミング制御で要素毎の違いを意識しなくて済む。

【0043】

図１１は、関連例及び実施形態においてＦ０１レーンのみを使用する場合における演算命令から演算命令への処理を示すバイパスタイムチャートである。図１２は、関連例及び実施形態においてＦ２３レーンも使用する場合における演算命令から演算命令への処理を示すバイパスタイムチャートである。

【0044】

図１１及び図１２に示すような演算命令から演算命令へのバイパスの例だと、実施形態ではF01の演算完了は、関連例と比較して１サイクル短くなっている（符号Ｈ１参照）。一方、後続のバイパス先の命令のPサイクルのタイミングは、F01とF23とで一致しており（符号Ｉ１参照）、バイパスのタイミング制御を変更する必要がない。

【0045】

図１３は、関連例及び実施形態においてＦ０１レーンのみを使用する場合におけるロード命令から演算命令への処理を示すバイパスタイムチャートである。図１４は、関連例及び実施形態においてＦ２３レーンも使用する場合におけるロード命令から演算命令への処理を示すバイパスタイムチャートである。

【0046】

図１３及び図１４に示すようなロード命令から演算命令へのバイパスについても、図１１及び図１２に示した演算命令から演算命令へのバイパスと同様である。図１３に示している通り、F01のみ使用する命令の完了は、関連例と比較して１サイクル短くなっている（符号Ｊ１参照）。図１４に示している通り、F23も使用する命令では、F01とF23との間で１サイクルのずれがあるにもかかわらず、後続のバイパス先の命令のPサイクルのタイミングが一致しており（符号Ｋ１参照）、バイパスのタイミング制御を変更する必要がない。

【0047】

実施形態においては、要素間の時差が１サイクル、２段階の場合に限らずＳＩＭＤ幅を広げて、要素間の時差が２サイクルになったり、３段階以上になったりした場合でも同様にPサイクルのタイミング制御で要素毎の違いを意識せずに実装することができる。

【0048】

図１５は、実施形態におけるＣＰＵ１の構成例を模式的に示すブロック図である。

【0049】

ＣＰＵ１は、プロセッサの一例である。ＣＰＵ１の内部には、命令発行器（図１５には不図示）や演算器（図１５には不図示）、データを近くで保持するＬ１キャッシュ１１０（Ｌ１＄）などを組み合わせたコア１０がある。また、ＣＰＵ１は、Memory Access Controller（ＭＡＣ）３１，Ｌ２キャッシュ３２（Ｌ２＄），Peripheral Component Interconnect Express（ＰＣＩｅ）３３及びネットワークＩＦ３４を備える。サーバやHigh-Performance Computing（ＨＰＣ）などは、ＣＰＵ１を複数接続し、処理を高速化してよい。

【0050】

複数存在するコア１０は、独立処理を分担しているが、Ｌ１キャッシュ１１０よりも大容量のＬ２キャッシュ３２を共有している。

【0051】

ＭＡＣ３１は、Dual Inline Memory Module（ＤＩＭＭ）など外部のメモリとの通信を制御するインターフェースである。

【0052】

ＰＣＩｅ３３は、ストレージやホストコンピュータとのＩ／Ｏと接続されている。

【0053】

ネットワークＩＦ３４は、複数のＣＰＵ１の間を接続するインターコネクトである。

【0054】

ＣＰＵ１は、図１に示した関連例と同様のハードウェア構成例を有してよい。

【0055】

図１６は、実施形態における２要素(F0,F1)のみを利用する演算命令から演算命令へのバイパスブロック図である。図１７は、関連例及び実施形態における２要素(F0,F1)のみを利用する演算命令から演算命令へのバイパスタイムチャートである。図１８は、実施形態における２要素(F0,F1)のみを利用する演算命令から演算命令へのバイパス配置例を示すブロック図である。

【0056】

図１６～図１８に示す例では、４つのＦＰＲ１７２及び４つのＦＰＵ１７１のうち、F0FPR, F1FPR及びF0FPU, F1FPUが使用される。

【0057】

図１７に示すように、２つの演算命令は、fadd v2, v0, v1及びfsub v4, v2, v3である。図１６～図１８に示すP、PT、B1、B2、X1、X2、X3、X4、U、UT、C、Wは、演算命令のパイプライン処理のサイクル名を示している。

【0058】

まず、Pサイクルでは、ＲＳから各要素のＦＰＲ１７２に向けてレジスタ番号(p_p_src_fpr[5:0])が送出され、PTの１サイクルをかけて各要素のF0FPR,F1FPRにレジスタ番号が転送される(p_pt_src_fpr[5:0])。

【0059】

次のB1サイクルでは転送されてきたレジスタ番号に対応するＦＰＲ１７２の値が読出され(p_b1_f{0-1}fpr_data[63:0])、B2サイクルではOP1Rで示されるフリップフロップ２２（オペランドを保持するレジスタ）に値がセットされる(p_b2_set_f{0-1}op1r[63:0])。
このとき、前の命令の演算結果がU,UTのＦＰＲ１７２への書込みを待たずに再利用される場合は、ＦＰＵ１７１のX4サイクルの演算結果がB2サイクルのOP1Rで示されるフリップフロップ２２にセットされる（バイパス；図１７の符号Ｌ１参照）。

【0060】

X1,X2,X3,X4サイクルでは、F0FPU,F1FPUで同時に演算が実行され、最後のサイクルであるX4サイクルではRRで示されるフリップフロップ２２（Result Register：演算結果を保持するレジスタ）に結果がセットされる(p_x4_f{0-1}fpu_result[63:0])。

【0061】

そして、U,UTサイクルで、演算結果がF0FPR,F1FPRに転送され、演算結果が書き込まれる(p_u_f{0-1}fpu_result,p_ut_f{0-1}fpu_result)。

【0062】

C,Wサイクル（図１７参照）では、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ１７２等の各種レジスタやメモリ等の資源更新および資源解放が行われる。

【0063】

命令列のv0,v1,v2,v3,v4は、ＳＩＭＤ演算に対応した128bitのレジスタであり64bitを１要素として、２要素(F0,F1)を並列に処理できる。fadd命令とfsub命令とはともにv2レジスタを利用しており、fadd命令の演算結果がfsub命令で再利用されている。fsub命令がＦＰＲ１７２から入力データを受け取ろうとした場合は、fadd命令が演算結果をＦＰＲ１７２に書き込むUTサイクルまで待つ必要がある。しかし、fadd命令のX4サイクルの演算結果(p_x4_f{0-1}fpu_result[63:0])をそのままB2サイクルのOP1Rに送る(p_b2_set_f{0-1}op1r[63:0])ことで、ＦＰＲ１７２の更新を待たずして演算を行うことができる。

【0064】

図１８に示すように、演算命令の実行のために、複数のＦＰＲ１７２のうちＲＳＥ１６１までの距離が最も近い位置に配置された一以上のＦＰＲ１７２が使用されると共に、複数のＦＰＵ１７１のうちＤＡＴＡキャッシュ１８までの距離が最も近い位置に配置された一以上のＦＰＵ１７１が使用されてよい。

【0065】

図１７に示すように、関連例のレジスタ番号転送サイクルがPT,PT2の２サイクルであるのに対して、実施形態ではPTの１サイクルのみであるため、関連例と比較して１サイクルレイテンシが改善される（図１７の符号Ｌ２参照）。

【0066】

レイテンシ改善によって、WサイクルのＦＰＲ１７２の解放までの時間が早くなる。そして、ＦＰＲ１７２の不足でパイプラインが止まり性能向上の妨げになることや、そのＦＰＲ１７２の不足に備えるためにＦＰＲ１７２のエントリ数を増やすことによる消費電力の増加やチップ面積の増大を防ぐ効果がある。

【0067】

図１９は、実施形態における４要素(F0,F1,F2,F3)全てを利用する演算命令から演算命令へのバイパスブロック図である。図２０は、関連例及び実施形態における４要素(F0,F1,F2,F3)全てを利用する演算命令から演算命令へのバイパスタイムチャートである。図２１は、実施形態における４要素(F0,F1,F2,F3)全てを利用する演算命令から演算命令へのバイパス配置例を示すブロック図である。

【0068】

図１９～図２１に示す例では、４つのＦＰＲ１７２及び４つのＦＰＵ１７１のうち、全てのF0FPR, F1FPR, F2FPR, F3FPR及び全てのF0FPU, F1FPU, F2FPU, F3FPUが使用される。

【0069】

図２０に示すように、２つの演算命令は、fadd z2, z0, z1及びfsub z4, z2, z3である。

【0070】

図１９～図２１に示すP、PT、PT2、B1、B2、X1、X2、X3、X4、U、UT、C、Wは、演算命令のパイプライン処理のサイクル名を示している。

【0071】

まず、PサイクルではＲＳから各要素のＦＰＲ１７２に向けてレジスタ番号が送出され(p_p_src_fpr[5:0])、PTの１サイクルをかけてF0FPR, F1FPRにレジスタ番号転送され(p_pt_src_fpr[5:0])、PT, PT2の２サイクルかけてF2FPR, F3FPRにレジスタ番号が転送される(p_pt2_src_fpr[5:0])。

【0072】

次のB1サイクルでは転送されてきたレジスタ番号に対応するＦＰＲ１７２の値が読出され(p_b1_f{0-3}fpr_data[63:0])、B2サイクルではOP1Rで示されるフリップフロップ２２（オペランドを保持するレジスタ）に値がセットされる(p_b2_set_f{0-1}op1r[63:0])。

【0073】

このとき、前の命令の演算結果がU, UTのＦＰＲ１７２への書込みを待たずに再利用される場合は、ＦＰＵ１７１のX4サイクルの演算結果がB2サイクルのOP1Rで示されるフリップフロップ２２にセットされる（バイパス；図２０の符号Ｍ１参照）。

【0074】

X1, X2, X3, X4サイクルでは、各要素のＦＰＵ１７１(F0FPU, F1FPU, F2FPU, F3FPU)が同時に演算を実行し、最後のサイクルであるX4サイクルではRRで示されるフリップフロップ２２（Result Register：演算結果を保持するレジスタ）に結果がセットされる(p_x4_f{0-3}fpu_result[63:0])。

【0075】

そして、U, UTサイクルで、演算結果が各要素のＦＰＲ１７２(F0FPR, F1FPR, F2FPR, F3FPR)に転送され、演算結果が書き込まれる(p_u_f{0-3}fpu_result,p_ut_f{0-3}fpu_result)。

【0076】

C,Wサイクル（図２０参照）では、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ１７２等の各種レジスタやメモリ等の資源更新および資源解放が行われる。

【0077】

命令列のz0, z1,z2, z3, z4は、ＳＩＭＤ演算に対応した256bitのレジスタであり64bitを１要素として、４要素(F0, F1, F2, F3)を並列で処理できる。fadd命令とfsub命令はともにz2レジスタを利用しており、fadd命令の演算結果はfsub命令で再利用されている。

【0078】

fsub命令がＦＰＲ１７２から入力データを受け取ろうとした場合は、fadd命令が演算結果をＦＰＲ１７２に書き込むUTサイクルまで待つ必要がある。しかし、fadd命令のX4サイクルの演算結果(p_x4_f{0-3}fpu_result[63:0])がそのままB2サイクルのOP1Rに送られる(p_b2_set_f{0-1}op1r[63:0])ことで、ＦＰＲ１７２の更新を待たずして演算を行うことができる。

【0079】

図１６～図１８に示したケースとは異なり、全要素(F0, F1, F2, F3)を使用した命令であるため、関連例と比較してF2, F3のレジスタ番号の転送サイクルがPT, PT2の２サイクルから変更がないのでレイテンシの改善はない（図２０の符号Ｍ２参照）。

【0080】

ただし、F0, F1がPTサイクルのみで転送を行い、F2, F3がPT, PT2の２サイクル転送を行うため、要素間で時差ができている。しかし、図２０のタイムチャートに示す通り、後続のバイパス先の命令のPサイクルのタイミングがF01とF23とで一致しており、バイパスのタイミング制御で要素毎の違いを意識しなくて済むメリットがある。

【0081】

実施形態のように要素間の時差が１サイクル、２段階の場合に限らずＳＩＭＤ幅を広げて、要素間の時差が２サイクルになったり、３段階以上になったりした場合でも同様にPサイクルのタイミング制御で要素毎の違いを意識せずに実装することができる。

【0082】

図２２は、２要素(F0,F1)のみを利用するロード命令から演算命令へのバイパスブロック図である。図２３は、関連例及び実施形態における２要素(F0,F1)のみを利用するロード命令から演算命令へのバイパスタイムチャートである。図２４は、実施形態における２要素(F0,F1)のみを利用するロード命令から演算命令へのバイパス配置例を示すブロック図である。

【0083】

図２２～図２４に示す例では、４つのＦＰＲ１７２及び４つのＦＰＵ１７１のうち、F0FPR, F1FPR及びF0FPU, F1FPUが使用される。

【0084】

図２３に示すように、ロード命令はldr v2, [x0, x1]であり、演算命令はfsub v4, v2, v3である。

【0085】

図２２～図２４において、P_d ,T_d,M_d,B_d,R_dはロード命令のパイプライン処理のサイクル名を示している。

【0086】

P_dではアドレス演算器から送られてきたアドレスがＤＡＴＡキャッシュ１８に送られ、T_d,M_d,B_dでは送られてきたアドレスのデータが読出されてLRで示されるフリップフロップ２２にセットされる(p_bd_read_data[127:0])。R_dではLRで示されるフリップフロップ２２のデータ(p_rd_lr_data[127:0])の[63:0]がF0FPUのOP1Rで示されるフリップフロップ２２に、[127:64]がF1FPUのOP1Rで示されるフリップフロップ２２に、それぞれ転送される。

【0087】

図２２～図２４において、P、PT、B1、B2、X1、X2、X3、X4、U、UT、C、Wは演算命令のパイプライン処理のサイクル名を示している。

【0088】

まず、PサイクルではＲＳから各要素のＦＰＲ１７２に向けてレジスタ番号が送出され(p_p_src_fpr[5:0])、PTの１サイクルをかけて各要素のF0FPR, F1FPRにレジスタ番号が転送される(p_pt_src_fpr[5:0])。

【0089】

次のB1サイクルでは、転送されてきたレジスタ番号に対応するＦＰＲ１７２の値が読出され(p_b1_f{0-1}fpr_data[63:0])、B2サイクルではOP1Rで示されるフリップフロップ２２（オペランドを保持するレジスタ）に値が送られる(p_b2_set_f{0-1}op1r[63:0])（バイパス；図２３の符号Ｎ１参照）。

【0090】

X1, X2, X3, X4サイクルでは、各要素のF0FPU, F1FPUが同時に演算を実行し、最後のサイクルであるX4サイクルではRRで示されるフリップフロップ２２（Result Register：演算結果を保持するレジスタ）に結果がセットされる(p_x4_f{0-1}fpu_result[63:0])。

【0091】

そして、U, UTサイクルで、演算結果がF0FPR, F1FPRに転送され、演算結果が書き込まれる(p_u_f{0-1}fpu_result,p_ut_f{0-1}fpu_result)。

【0092】

すなわち、ＲＳは、ロード命令又はストア命令を更に格納してよい。そして、ロード命令又はストア命令が実行された後に、演算命令が実行されてよい。なお、ロード命令又はストア命令は、ＲＳに備えられるＲＳＡ（図１に示した関連例のＲＳＡ６６２に対応）に格納されてよい。

【0093】

C,Wサイクル（図２３参照）では、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ１７２等の各種レジスタやメモリ等の資源更新および資源解放が行われる。

【0094】

命令列のv2, v3, v4は、ＳＩＭＤ演算に対応した128bitのレジスタであり64bitを１要素として、２要素(F0, F1)を並列に処理できる。x0, x1は64bitの固定小数点レジスタであり、このケースではアドレス計算に利用される。このldr命令の場合はx0+x1のアドレスから128bitのデータが64bitごとにF0FPR, F1FPRにそれぞれロードされる。ldr命令とfsub命令とはともにv2レジスタを利用しており、ldr命令でロードしたデータはfsub命令で再利用されている。fsub命令がＦＰＲ１７２から入力データを受け取ろうとした場合は、ldr命令が結果をＦＰＲ１７２に書き込むまで待つ必要がある。しかし、ロードしたデータがRdサイクル(p_rd_lr_data[127:0])からB2サイクルのOP1Rに直接送られる(p_b2_set_f{0-1}op1r[63:0])ことで、ＦＰＲ１７２の更新を待たずして演算を行うことができる。

【0095】

図１６～図１８に示したケースと同様に、関連例のレジスタ番号転送サイクルがRd, RdTの２サイクルであるのに対して、実施形態はRdの１サイクルのみであるため、関連例と比較して１サイクルレイテンシが改善される（図２３の符号Ｎ１参照）。

【0096】

レイテンシ改善によってWサイクルのＦＰＲ１７２の解放までの時間が早くなり、ＦＰＲ１７２の不足でパイプラインが止まり性能向上の妨げになる。また、ＦＰＲ１７２の不足に備えるためにＦＰＲ１７２のエントリ数を増やすことによる消費電力の増加やチップ面積の増大を防ぐ効果がある。

【0097】

図２５は、実施形態における４要素(F0,F1,F2,F3)全てを利用するロード命令から演算命令へのバイパスブロック図である。図２６は、関連例及び実施形態における４要素(F0,F1,F2,F3)全てを利用するロード命令から演算命令へのバイパスタイムチャートである。図２７は、実施形態における４要素(F0,F1,F2,F3)全てを利用するロード命令から演算命令へのバイパス配置例を示すブロック図である。

【0098】

図２５～図２７に示す例では、４つのＦＰＲ１７２及び４つのＦＰＵ１７１のうち、全てのF0FPR, F1FPR, F2FPR, F3FPR及び全てのF0FPU, F1FPU, F2FPU, F3FPUが使用される。

【0099】

図２６に示すように、ロード命令はldr z2, [x0, x1]であり、演算命令はfsub z4, z2, z3である。

【0100】

図２５～図２７に示すP_d ,T_d,M_d,B_d,R_d、R_dTは、ロード命令のパイプライン処理のサイクル名を示している。

【0101】

P_dサイクルでは、アドレス演算器から送られてきたアドレスがＤＡＴＡキャッシュ１８に送られる。

【0102】

T_d,M_d,B_dサイクルでは、送られてきたアドレスのデータが読出されて、LRで示されるフリップフロップ２２にセットされる(p_bd_read_data[255:0])。LRで示されるフリップフロップ２２のデータは、R_dの１サイクルかけて[63:0]をF0FPUのOP1Rで示されるフリップフロップ２２に、[127:64]をF1FPUのOP1Rで示されるフリップフロップ２２に、それぞれ転送される。

【0103】

R_d、R_dTの2サイクルかけて、[191:128]がF2FPUのOP1Rで示されるフリップフロップ２２に、[255:192]がF3FPUのOP1Rで示されるフリップフロップ２２に、それぞれ転送される。

【0104】

図２５～図２７に示すP、PT、PT2、B1、B2、X1、X2、X3、X4、U、UT、C、Wは、演算命令のパイプライン処理のサイクル名を示している。

【0105】

まず、Pサイクルでは、ＲＳから各要素のＦＰＲ１７２に向けてレジスタ番号が送出され(p_p_src_fpr[5:0])、PTの1サイクルをかけてF0FPR, F1FPRにレジスタ番号が転送され(p_pt_src_fpr[5:0])、PT, PT2の2サイクルかけてF2FPR,F3FPRにレジスタ番号が転送される(p_pt2_src_fpr[5:0])。

【0106】

次のB1サイクルでは、転送されてきたレジスタ番号に対応するＦＰＲ１７２の値が読出され(p_b1_f{0-3}fpr_data[63:0])、B2サイクルではOP1Rで示されるフリップフロップ２２（オペランドを保持するレジスタ）に値がセットされる(p_b2_set_f{0-1}op1r[63:0])。

【0107】

このとき、前の命令の演算結果がU, UTのＦＰＲ１７２への書込みを待たずに再利用される場合は、ＦＰＵ１７１のX4サイクルの演算結果がB2サイクルのOP1Rで示されるフリップフロップ２２にセットされる（バイパス；図２６の符号Ｐ１参照）。

【0108】

【0109】

そして、U, UTサイクルでは、演算結果が各要素のＦＰＲ１７２(F0FPR, F1FPR, F2FPR, F3FPR)に転送され、演算結果が書き込まれる(p_u_f{0-3}fpu_result,p_ut_f{0-3}fpu_result)。

【0110】

C, Wサイクル（図２６参照）では、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ１７２等の各種レジスタやメモリ等の資源更新および資源解放が行われる。

【0111】

命令列のz2, z3, z4は、ＳＩＭＤ演算に対応した256bitのレジスタであり64bitを１要素として、４要素(F0, F1, F2, F3)を並列に処理できる。x0, x1は、64bitの固定小数点レジスタであり、このケースではアドレス計算に利用される。このldr命令の場合はx0+x1のアドレスから256bitのデータは、64bit毎にF0FPR, F1FPR, F2FPR, F3FPRにそれぞれロードされる。ldr命令とfsub命令とはともにz2レジスタを利用しており、ldr命令でロードしたデーはfsub命令で再利用されている。fsub命令がＦＰＲ１７２から入力データを受け取ろうとした場合は、ldr命令が結果をＦＰＲ１７２に書き込むまで待つ必要がある。しかし、ロードしたデータをF01はRdサイクル(p_rd_lr_data[127:0])から、F23はRdTサイクル(p_rdt_lr_data[255:128])から、B2サイクルのOP1Rに直接送る(p_b2_set_f{0-3}op1r[63:0])ことで、ＦＰＲ１７２の更新を待たずして演算を行うことができる。

【0112】

図２２～図２４に示したケースとは異なり、図２５～図２７に示すケースは全要素(F0, F1, F2, F3)を使用した命令であり、関連例と比較してF2, F3のレジスタ番号の転送サイクルがRd, RdTの２サイクルから変更がないためレイテンシの改善はない（図２６の符号Ｐ２参照）。

【0113】

ただし、F0, F1がRdサイクルのみで転送で、F2, F3がRd, RdTの２サイクル転送のため要素間で時差ができている。しかし、図２６のタイムチャートに示す通り、後続のバイパス先の命令のPサイクルのタイミングがF01とF23とで一致しており、バイパスのタイミング制御で要素毎の違いを意識しなくて済むメリットがある。

【0114】

【0115】

図２８は、関連例及び実施形態における８要素(F0-F7)全てを利用する演算命令から演算命令へのバイパスタイムチャートである。図２９は、実施形態における８要素(F0-F7)全てを利用する演算命令から演算命令へのバイパス配置例を示すブロック図である。

【0116】

図２８及び図２９に示す例では、要素数が８つに拡張されている。８つのＦＰＲ１７２及び８つのＦＰＵ１７１のうち、全てのF0FPR, F1FPR, F2FPR, F3FPR, F4FPR, F5FPR, F6FPR, F7FPR及び全てのF0FPU, F1FPU, F2FPU, F3FPU, F4FPU, F5FPU, F6FPU, F7FPUが使用される。

【0117】

図２８に示すように、２つの演算命令は、fadd z2, z0, z1及びfsub z4, z2, z3である。

【0118】

図２８及び図２９に示すP、PT、PT2、B1、B2、X1、X2、X3、X4、U、UT、C、Wは、演算命令のパイプライン処理のサイクル名を示している。

【0119】

まず、PサイクルではＲＳから各要素のＦＰＲ１７２に向けてレジスタ番号が送出され、PTの1サイクルをかけてF0FPR, F1FPRにレジスタ番号が転送され、PT, PT2の2サイクルかけてF{2-7}FPRにレジスタ番号が転送される。

【0120】

次のB1サイクルでは、転送されてきたレジスタ番号に対応するＦＰＲ１７２の値が読出され、演算器に送られる。

【0121】

このとき、前の命令の演算結果がU, UTのＦＰＲ１７２への書込みを待たずに再利用される場合は、ＦＰＵ１７１のX4サイクルの演算結果がB2サイクルに送られる（バイパス；図２８の符号Ｑ１参照）。

【0122】

X1, X2, X3, X4サイクルでは、各要素のＦＰＵ１７１(F{0-7}FPU)が同時に演算を実行され、X4サイクルの演算が完了する。

【0123】

U,UTサイクルで、演算結果が各要素のＦＰＲ１７２(F{0-7}FPR)に転送され、演算結果が書き込まれる。

【0124】

C,Wサイクル（図２８参照）では、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ１７２等の各種レジスタやメモリ等の資源更新および資源解放が行われる。

【0125】

命令列のz0, z1, z2, z3, z4は、ＳＩＭＤ演算に対応した512bitのレジスタであり64bitを１要素として、８要素(F0-7)を並列で処理できる。fadd命令とfsub命令とはともにz2レジスタを利用しており、fadd命令の演算結果はfsub命令で再利用されている。fsub命令がＦＰＲ１７２から入力データを受け取ろうとした場合は、fadd命令が演算結果をＦＰＲ１７２に書き込むUTサイクルまで待つ必要がある。しかし、fadd命令のX4サイクルの演算結果をそのままB2サイクルに送ることで、ＦＰＲ１７２の更新を待たずして演算を行うことができる。

【0126】

図２８のタイムチャートに示す通り、関連例と比較してF2-7のレジスタ番号の転送サイクルがPT, PT2の２サイクルから変更がないのでレイテンシの改善はない（符号Ｑ２参照）。

【0127】

ただし、F0, F1がPTサイクルのみの転送で、F2-7がPT, PT2の２サイクル転送のため要素間で時差ができている。しかし、後続のバイパス先の命令のPサイクルのタイミングがF01とF2-7とで一致しており、バイパスのタイミング制御で要素毎の違いを意識しなくて済むメリットがある。

【0128】

このように、SIMD幅を４要素から８要素に拡張した場合でも、Pサイクルのタイミング制御で要素毎の違いを意識せずに実装することができる。また、F01のみ使用する命令の場合は4要素の場合と同様に１サイクルレイテンシが改善される。

【0129】

図３０は、関連例及び実施形態における８要素(F0-F7)全てを利用し時差を３段階にした場合における演算命令から演算命令へのバイパスタイムチャートである。図３１は、８要素(F0-F7)全てを利用し時差を３段階にした場合の演算命令から演算命令へのバイパス配置例を示すブロック図である。

【0130】

図３０及び図３１に示す例では、８つのＦＰＲ１７２及び８つのＦＰＵ１７１のうち、全てのF0FPR, F1FPR, F2FPR, F3FPR, F4FPR, F5FPR, F6FPR, F7FPR及び全てのF0FPU, F1FPU, F2FPU, F3FPU, F4FPU, F5FPU, F6FPU, F7FPUが使用される。また、図３０及び図３１に示す例では、周波数等の制限よりF4-7への転送サイクルにPT3が必要になっており、８要素のＦＰＲ１７２及びＦＰＲ１７２が３段階に拡張されている。

【0131】

図３０に示すように、２つの演算命令は、fadd z2, z0, z1及びfsub z4, z2, z3である。

【0132】

図３０及び図３１に示すP、PT、PT2、PT3、B1、B2、X1、X2、X3、X4、U、UT、C、Wは演算命令のパイプライン処理のサイクル名を示している。

【0133】

まず、Pサイクルでは、ＲＳから各要素のＦＰＲ１７２に向けてレジスタ番号が送出される。PTの1サイクルをかけてF0FPR, F1FPRにレジスタ番号が転送され、PT, PT2の2サイクルかけてF2FPR、F3FPRにレジスタ番号が転送され、PT、PT2、PT3の3サイクルかけてF{4-7}FPRにレジスタ番号が転送される。

【0134】

次のB1サイクルでは、転送されてきたレジスタ番号に対応するＦＰＲ１７２の値が読出され、演算器に送られる。

【0135】

このとき、前の命令の演算結果がU, UTのＦＰＲ１７２への書込みを待たずに再利用される場合は、ＦＰＵ１７１のX4サイクルの演算結果がB2サイクルに送られる（バイパス；図３０の符号Ｒ１参照）。

【0136】

X1, X2, X3, X4サイクルでは、各要素のＦＰＵ１７１(F{0-7}FPU)が同時に演算を実行し、X4サイクル演算が完了する。

【0137】

U, UTサイクルで、演算結果が各要素のＦＰＲ１７２(F{0-7}FPR)に転送され、演算結果が書き込まれる。

【0138】

C,Wサイクル（図３０参照）では、アウトオブオーダーで実行された命令がプログラム本来の実行順序で完了され、ＦＰＲ１７２等の各種レジスタやメモリ等の資源更新および資源解放を行われる。

【0139】

命令列のz0, z1, z2, z3, z4は、ＳＩＭＤ演算に対応した512bitのレジスタであり64bitを１要素として、８要素(F0-7)を並列で処理できる。fadd命令とfsub命令とはともにz2レジスタを利用しており、fadd命令の演算結果がfsub命令で再利用されている。fsub命令がＦＰＲ１７２から入力データを受け取ろうとした場合は、fadd命令が演算結果をＦＰＲ１７２に書き込むUTサイクルまで待つ必要がある。しかし、fadd命令のX4サイクルの演算結果がそのままB2サイクルに送られることで、ＦＰＲ１７２の更新を待たずして演算を行うことができる。

【0140】

図３０のタイムチャートに示す通り、関連例と比較してF4-7のレジスタ番号の転送サイクルが、PT, PT2, PT3の３サイクルから変更されていないため、レイテンシの改善はない（符号Ｒ２参照）。

【0141】

ただし、F0, F1がPTサイクルで転送、F23がPT, PT2の2サイクル転送、F4-F7がPT, PT2, PT3の３サイクル転送と、要素間で３段階の時差ができている。しかし、後続のバイパス先の命令のPサイクルのタイミングがF01とF23とF4-F7とで一致しており、バイパスのタイミング制御で要素毎の違いを意識しなくて済むメリットがある。

【0142】

このように、ＳＩＭＤ幅を４要素から８要素に拡張し、かつ時差を３段階に拡張した場合でも、Pサイクルのタイミング制御で要素毎の違いを意識せずに実装することができる。

【0143】

また、このケースでは、F01のみ使用する命令の場合は関連例のPT, PT2, PT3の３サイクルに対してPTの１サイクルで転送できるため２サイクルのレイテンシが改善され、図２８及び図２９に示したケースのF01のみを使用する場合と同等のレイテンシになる。

【0144】

また、F0123のみ使用する命令の場合は、関連例のPT, PT2, PT3の３サイクルに対してPT, PT2の２サイクルのみで転送できるため、１サイクルのレイテンシが改善される。

【0145】

〔Ｂ〕効果
上述した実施形態における演算処理装置及び演算処理方法によれば、例えば以下の作用効果を奏することができる。

【0146】

ＲＳＥ１６１は、演算命令を格納する。ＤＡＴＡキャッシュ１８は、演算命令の演算結果をキャッシュする。複数のＦＰＲ１７２は、ＲＳＥ１６１の側に配置されると共に、ＲＳＥ１６１から転送された演算命令を実行するためのレジスタ値を格納する。複数のＦＰＵ１７１は、ＤＡＴＡキャッシュ１８の側に配置されると共に、演算命令に基づいた浮動小数点演算を行う。ＲＳＥ１６１から、複数のＦＰＲ１７２のうちＲＳＥ１６１までの距離が最も近い位置に配置された一以上のＦＰＲ１７２へ、レジスタ値を転送する際のサイクルは、１サイクルとされる。

【0147】

これにより、浮動小数点演算を効率的に実行することができる。

【0148】

〔Ｃ〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

【0149】

〔Ｄ〕付記
以上の実施形態に関し、更に以下の付記を開示する。

【0150】

（付記１）
演算命令を格納する命令格納部と、
前記演算命令の演算結果をキャッシュするデータキャッシュ部と、
前記命令格納部の側に配置されると共に、前記命令格納部から転送された前記演算命令を実行するためのレジスタ値を格納する複数の浮動小数点レジスタと、
前記データキャッシュ部の側に配置されると共に、前記演算命令に基づいた浮動小数点演算を行う複数の浮動小数点演算器と、
を備え、
前記命令格納部から、前記複数の浮動小数点レジスタのうち前記命令格納部までの距離が最も近い位置に配置された一以上の浮動小数点レジスタへ、前記レジスタ値を転送する際のサイクルが１サイクルである、
演算処理装置。

【0151】

（付記２）
前記演算命令の実行のために、前記複数の浮動小数点レジスタのうち前記一以上の浮動小数点レジスタを使用すると共に、前記複数の浮動小数点演算器のうち前記データキャッシュ部までの距離が最も近い位置に配置された一以上の浮動小数点演算器を使用する、
付記１に記載の演算処理装置。

【0152】

（付記３）
ロード命令又はストア命令が実行された後に、前記演算命令が実行される、
付記１又は２に記載の演算処理装置。

【0153】

（付記４）
命令格納部において、演算命令を格納し、
データキャッシュ部において、前記演算命令の演算結果をキャッシュし、
前記命令格納部の側に配置される複数の浮動小数点レジスタにおいて、前記命令格納部から転送された前記演算命令を実行するためのレジスタ値を格納し、
前記データキャッシュ部の側に配置される複数の浮動小数点演算器において、前記演算命令に基づいた浮動小数点演算を行う、
処理をコンピュータが実行し、
前記命令格納部から、前記複数の浮動小数点レジスタのうち前記命令格納部までの距離が最も近い位置に配置された一以上の浮動小数点レジスタへ、前記レジスタ値を転送する際のサイクルを１サイクルとする、
演算処理方法。

【0154】

（付記５）
前記演算命令の実行のために、前記複数の浮動小数点レジスタのうち前記一以上の浮動小数点レジスタを使用すると共に、前記複数の浮動小数点演算器のうち前記データキャッシュ部までの距離が最も近い位置に配置された一以上の浮動小数点演算器を使用する、
処理を前記コンピュータが実行する、付記４に記載の演算処理方法。

【0155】

（付記６）
ロード命令又はストア命令が実行された後に、前記演算命令が実行される、
付記４又は５に記載の演算処理方法。

【符号の説明】

【0156】

１：ＣＰＵ
１０：コア
１８：ＤＡＴＡキャッシュ
２１：セレクタ
２２：フリップフロップ
３１：ＭＡＣ
３２：Ｌ２キャッシュ
３３：ＰＣＩｅ
３４：ネットワークＩＦ
６１：命令キャッシュ
６２：命令バッファ
６３：デコード部
６４：レジスタ管理部
６５：バイパス管理部
６６：リザベーションステーション
６７：演算実行部
６８：ＤＡＴＡキャッシュ
７２：フリップフロップ
１１０：Ｌ１キャッシュ
１６１，６６１：ＲＳＥ
１７１，６７１：ＦＰＵ
１７２，６７２：ＦＰＲ
６７３：固定少数点レジスタ
６７４：アドレス演算器

【図1】