特開2024-56266 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-56266プロセッサ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024056266

(43)【公開日】2024-04-23

(54)【発明の名称】プロセッサ

(51)【国際特許分類】

G06F 9/34 20180101AFI20240416BHJP

G06F 9/38 20180101ALI20240416BHJP

【ＦＩ】

G06F9/34 330

G06F9/38 310X

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022163027

(22)【出願日】2022-10-11

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100107515

【弁理士】

【氏名又は名称】廣田浩一

(72)【発明者】

【氏名】坂下聡太

【テーマコード（参考）】

5B013

5B033

【Ｆターム（参考）】

5B013AA20

5B033AA13

5B033DD06

5B033DD09

(57)【要約】

【課題】前処理を実行しない演算命令の演算レイテンシの増加を抑制しつつ、前処理を実行する演算命令の処理性能を向上する。
【解決手段】プロセッサは、演算命令をパイプライン処理する演算実行部を有するプロセッサであって、前記演算実行部は、演算に使用するデータを保持する第１レジスタと、前記第１レジスタに保持されたデータの前処理を実行する前処理部と、前記前処理部で前処理されたデータを保持する第２レジスタと、第１レジスタに保持されたデータまたは前記第２レジスタに保持されたデータの演算を実行する演算器と、前記第１レジスタの出力または前記第２レジスタの出力を前記演算器の入力に接続するセレクタと、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

演算命令をパイプライン処理する演算実行部を有するプロセッサであって、
前記演算実行部は、
演算に使用するデータを保持する第１レジスタと、
前記第１レジスタに保持されたデータの前処理を実行する前処理部と、
前記前処理部で前処理されたデータを保持する第２レジスタと、
第１レジスタに保持されたデータまたは前記第２レジスタに保持されたデータの演算を実行する演算器と、
前記第１レジスタの出力または前記第２レジスタの出力を前記演算器の入力に接続するセレクタと、を有する
プロセッサ。

【請求項2】

データを前記前処理部で前処理せずに前記演算器で演算する第１演算命令と、データを前記前処理部で前処理させた後に前記演算器で演算する第２演算命令とをデコードする命令デコーダと、
前記第２演算命令の前処理後のデータの演算を前記演算器で実行するサイクルと、前記第２演算命令に続いて前記第１演算命令が前記演算実行部に供給される場合に前記第１演算命令の演算を前記演算器で実行するサイクルとにおいて、前記第２レジスタの出力を前記セレクタに選択させる選択信号を生成する選択信号生成部と、を有し、
前記命令デコーダは、前記前処理部に入力されるデータを前処理せずに前記前処理部から出力させる制御情報を生成する
請求項１に記載のプロセッサ。

【請求項3】

前記選択信号生成部は、前記第２演算命令に対応して生成した前記選択信号を後続の演算命令が続く間保持し、後続の演算命令が途切れたときに前記第１レジスタの出力を前記セレクタに選択させる選択信号を生成する保持部を有する
請求項２に記載のプロセッサ。

【請求項4】

前記第１レジスタと前記セレクタとの間に直列に接続され、前記前処理部と前記第２レジスタとをそれぞれ含む複数の前処理段と、
データを複数の前記前処理段で前処理せずに前記演算器で演算する第１演算命令と、データを前処理する前記前処理段の数に対応する複数種の第２演算命令とをデコードする命令デコーダと、
複数種の前記第２演算命令の各々の前処理後のデータの演算を前記演算器で実行するサイクルと、複数種の前記第２演算命令の１つに続いて前記第１演算命令が前記演算実行部に供給される場合に前記第１演算命令の演算を前記演算器で実行するサイクルとにおいて、前記第２演算命令の前記１つの前処理後のデータを保持する前記第２レジスタの出力を前記セレクタに選択させる選択信号を生成する選択信号生成部と、を有し、
前記命令デコーダは、前記第１演算命令のデコードに基づいて複数の前記前処理段の各々の前記前処理部に入力されるデータを前処理せずに前記前処理部の各々から出力させる制御情報を生成する
請求項１に記載のプロセッサ。

【請求項5】

前記選択信号生成部は、複数種の前記第２演算命令の各々に対応して生成した前記選択信号を後続の演算命令が続く間保持し、後続の演算命令が途切れたときに前記選択信号の生成を停止する複数の保持部を、複数の前記前処理段にそれぞれ対応して有し、
前記選択信号の生成の停止は、前段側の前記前処理段に対応する前記保持部から順に実行され、
前記セレクタは、複数の前記保持部の各々が生成または生成を停止する前記選択信号に応じて前記第１レジスタの出力または複数の前記第２レジスタの出力のいずれかを前記演算器の入力に接続する
請求項４に記載のプロセッサ。

【請求項6】

複数の前記前処理部の少なくとも１つに前処理を実行させない前記第２演算命令をデコードした場合、前処理を実行しない前記前処理部による前処理を無効にする制御情報を生成する
請求項４または請求項５に記載のプロセッサ。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プロセッサに関する。

【背景技術】

【0002】

先行する演算命令に続く演算命令の演算器への発行を、ソースオペランドが使用可能か否かを示す情報に基づいて制御することで、レジスタを共用して演算サイクル数が異なる演算器群を並列に動作させる手法が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０００－１８１７０５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、データの演算と、データを前処理した前処理後のデータの演算とを１つの演算器で実行する場合、パイプラインは、データを前処理する前処理部を含む第１フローと、データを演算する演算器を含む第２フローとに分けられる。そして、前処理を実行するデータの演算は、第１フローと第２フローとを組み合わせて実行され、前処理を実行しないデータの演算は、第２フローのみを使用して実行される。あるいは、パイプラインが直列に接続された前処理部と演算器とを含む場合、前処理を実行しないデータの演算は、前処理部の処理を無効化することで実行される。

【0005】

しかしながら、第１フローと第２フローとを含むパイプラインでは、前処理を実行するデータの演算は、２サイクルに１回しか実行されないため、１サイクルあたりの命令処理数であるＩＰＣ（Instruction per Cycle）が悪化する。また、前処理部と演算器とを含むパイプラインでは、前処理を実行しないデータの演算時にデータが前処理部を通過するため、余計なサイクルが追加され、演算レイテンシが伸びてしまう。

【0006】

１つの側面では、本発明は、前処理を実行しない演算命令の演算レイテンシの増加を抑制しつつ、前処理を実行する演算命令の処理性能を向上することを目的とする。

【課題を解決するための手段】

【0007】

一つの観点によればプロセッサは、演算命令をパイプライン処理する演算実行部を有するプロセッサであって、前記演算実行部は、演算に使用するデータを保持する第１レジスタと、前記第１レジスタに保持されたデータの前処理を実行する前処理部と、前記前処理部で前処理されたデータを保持する第２レジスタと、第１レジスタに保持されたデータまたは前記第２レジスタに保持されたデータの演算を実行する演算器と、前記第１レジスタの出力または前記第２レジスタの出力を前記演算器の入力に接続するセレクタと、を有する。

【発明の効果】

【0008】

前処理を実行しない演算命令の演算レイテンシの増加を抑制しつつ、前処理を実行する演算命令の処理性能を向上することができる。

【図面の簡単な説明】

【0009】

【図1】一実施形態におけるプロセッサの要部の一例を示すブロック図である。

【図2】図１のプロセッサで実行される積和演算命令の動作の例を示す説明図である。

【図3】図１のプロセッサが図２に示す積和演算命令を実行するときのパイプラインの動作の例を示すタイミング図である。

【図4】他のプロセッサの要部の一例を示すブロック図である。

【図5】図４のプロセッサが図２に示す積和演算命令を実行するときのパイプラインの動作の例を示すタイミング図である。

【図6】さらなる他のプロセッサの要部の一例を示すブロック図である。

【図7】図６のプロセッサが図２に示す積和演算命令を実行するときのパイプラインの動作の例を示すタイミング図である。

【図8】別の実施形態におけるプロセッサの一例を示すブロック図である。

【図9】図８の演算実行部の要部の一例を示すブロック図である。

【図10】図９の演算実行部が図２に示す積和演算命令を実行するときのパイプラインの動作の例を示すタイミング図である。

【図11】図９の演算実行部が図２に示す積和演算命令を実行するときのパイプラインの動作の別の例を示すタイミング図である。

【図12】別の実施形態のプロセッサにおける演算実行部の要部の一例を示すブロック図である。

【図13】図１２の回路の続きの一例を示すブロック図である。

【図14】図１２および図１３の演算実行部が積和演算命令を実行するときのパイプラインの動作の例を示すタイミング図である。

【図15】図１２および図１３の演算実行部が積和演算命令を実行するときのパイプラインの動作の別の例を示すタイミング図である。

【図16】図１２および図１３の演算実行部が積和演算命令を実行するときのパイプラインの動作のさらなる別の例を示すタイミング図である。

【発明を実施するための形態】

【0010】

以下、図面を参照して実施形態が説明される。以下では、信号が伝達される信号線には、信号名と同じ符号が使用される。特に限定されないが、以下で説明するプロセッサは、スーパースカラ方式のプロセッサであり、パイプライン処理により命令を並列に実行する。また、以下で説明するプロセッサは、１つの命令で複数のデータの演算を並列に実行するＳＩＭＤ（Single Instruction Multiple Data）演算を実行可能である。なお、以下で説明するプロセッサは、スカラー方式のプロセッサでもよい。

【0011】

図１は、一実施形態におけるプロセッサの要部の一例を示す。図１に示すプロセッサ１００は、演算命令をパイプライン処理する演算実行部２０を有する。図１では、クロック信号およびクロック端子の記載は省略する。例えば、演算実行部２０は、ＡＲＭ社の命令セットアーキテクチャで定義されているＦＭＬＡ命令（ＦＭＬＡは"Floating-point fused Multiply-Add"）とＦＭＬＡ（by element）命令とを実行可能である。ＦＭＬＡ命令は、第１演算命令の一例であり、ＦＭＬＡ（by element）命令は、第２演算命令の一例である。

【0012】

演算実行部２０は、レジスタＦＰＲ（Floating Point Register）、オペランドレジスタＯＰＲＧ、シフト演算器ＳＦＴ１、レジスタＳＦＲＧ１、セレクタＳＥＬ１、ＦＭＡ（Floating Multiply Add）演算器およびリザルトレジスタＲＲを有する。また、演算実行部２０は、パイプラインのステージを区切る複数のフリップフロップＦＦ（図１ではＦＦ１１のみを示す）を有する。

【0013】

オペランドレジスタＯＰＲＧは、演算に使用するデータを保持する第１レジスタの一例である。シフト演算器ＳＦＴ１は、オペランドレジスタＯＰＲＧに保持されたデータの前処理を実行する前処理部の一例である。レジスタＳＦＲＧ１は、シフト演算器ＳＦＴ１で前処理されたデータを保持する第２レジスタの一例である。セレクタＳＥＬ１は、オペランドレジスタＯＰＲＧに保持されたデータまたはレジスタＳＦＲＧ１に保持されたデータを選択する第１セレクタの一例である。ＦＭＡ演算器は、セレクタＳＥＬ１により選択されたデータの演算を実行する演算器の一例である。

【0014】

図１に示す符号Ｐ、ＰＴ、Ｂ、ＢＸ１、Ｘ１－Ｘ４およびＵは、浮動小数点演算のパイプラインのステージを示す。以下では、各ステージは、サイクルとも称される。Ｐサイクルは、プロセッサ１００に搭載されるリザベーションステーションＲＳＥ（Reservation Station for Execution）が演算実行部２０に演算命令を投入するサイクルである。ＰＴサイクルは、リザベーションステーションＲＳＥから投入されたリードアドレスＲＤ－ＡＤを含む演算命令がレジスタＦＰＲに出力されるサイクルである。Ｂサイクルは、演算に使用するデータを決定するサイクルである。

【0015】

ＢＸ１サイクルは、演算の前に前処理を実行する演算命令において、前処理を実行するサイクルである。例えば、演算の前に前処理を実行する演算命令の１つであるＦＭＬＡ（by element）命令の実行では、積和演算の前に前処理としてシフト処理が実行される。Ｘ１－Ｘ４（Ｘ１、Ｘ２、Ｘ３、Ｘ４）サイクルは、積和演算を実行するサイクルである。Ｕサイクルは、演算結果であるリザルトデータＲＳ－ＤＴをレジスタＦＰＲに書き込むサイクルである。

【0016】

フリップフロップＦＦ１１、レジスタＦＰＲ、オペランドレジスタＯＰＲＧ、セレクタＳＥＬ１、ＦＭＡ演算器およびリザルトレジスタＲＲは、リザベーションステーションＲＳＥの出力に直列に接続される。シフト演算器ＳＦＴ１およびレジスタＳＦＲＧ１は、オペランドレジスタＯＰＲＧとセレクタＳＥＬ１との間に直列に接続される。リザベーションステーションＲＳＥは、演算命令を蓄積し、蓄積した演算命令を実行可能な順にアウトオブオーダで演算実行部２０に投機的に発行する。

【0017】

レジスタＦＰＲは、フリップフロップＦＦ１１を介してリザベーションステーションＲＳＥから受けるアドレスＲＤ－ＡＤが示す記憶領域に保持されているデータＲＤ－ＤＴ（浮動小数点数データ）をオペランドレジスタＯＰＲＧに出力する。オペランドレジスタＯＰＲＧは、レジスタＦＰＲからのデータＲＤ－ＤＴまたは演算実行部２０に搭載される演算器からのバイパスデータＢＰＳ－ＤＴをシフト演算器ＳＦＴ１とセレクタＳＥＬ１の入力端子０とに出力する。例えば、積和演算では、３種類のオペランドがオペランドレジスタＯＰＲＧに保持される。

【0018】

シフト演算器ＳＦＴ１は、ＦＭＬＡ（by element）命令の実行時、ＢＸ１サイクルにおいて、指定されたオペランドデータのシフト演算を実行し、シフト演算の実行結果をレジスタＳＦＲＧ１に格納する。また、シフト演算器ＳＦＴ１は、シフト演算が指定されないオペランドデータをそのままレジスタＳＦＲＧ１に格納する。

【0019】

シフト演算器ＳＦＴ１は、イネーブル端子ＥＮＢで受けるイネーブル信号ＥＮＢに応じて、シフト演算するオペランドデータを選択する。ＦＭＬＡ命令の実行時、ＢＸ１サイクルは存在しないため、シフト演算器ＳＦＴ１は、イネーブル信号ＥＮＢにより動作が無効にされる。例えば、イネーブル端子ＥＮＢは、演算に使用するオペランドを識別するコードのビット数だけ設けられてもよく、演算に使用するオペランドの数だけ設けられてもよい。

【0020】

セレクタＳＥＬ１は、セレクト信号ＢＸ１－ＳＥＬの論理値に応じて、入力端子０で受けるオペランドレジスタＯＰＲＧからの出力データまたは入力端子１で受けるレジスタＳＦＲＧ１からの出力データをＦＭＡ演算器に供給する。例えば、セレクタＳＥＬ１は、ＦＭＬＡ（by element）命令のＸ１サイクルでレジスタＳＦＲＧ１の出力を選択し、ＦＭＬＡ（by element）命令以外の演算命令のＸ１サイクルでオペランドレジスタＯＰＲＧの出力を選択する。

【0021】

ＦＭＡ演算器は、セレクタＳＥＬ１から受けるオペランドデータの積和演算を実行し、実行結果をリザルトレジスタＲＲに格納する。例えば、ＦＭＡ演算器は、内部に４ステージ分のフリップフロップを有しており、Ｘ１サイクルからＸ４サイクルまでの４サイクルかけて積和演算を実行し、実行結果をリザルトレジスタＲＲに格納する。

【0022】

演算実行部２０は、ＦＭＬＡ命令を実行する場合、オペランドレジスタＯＰＲＧ内のデータをそのまま使用して積和演算を実行する。このため、オペランドレジスタＯＰＲＧからのデータの出力は、Ｘ１サイクルとなり、ＦＭＬＡ命令の実行時のパイプラインは、Ｐ、ＰＴ、Ｂ、Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｕサイクルとなる。

【0023】

一方、演算実行部２０は、ＦＭＬＡ（by element）命令を実行する場合、積和演算の前に前処理を実行する。このため、オペランドレジスタＯＰＲＧからのデータの出力は、ＢＸ１サイクルとなり、レジスタＳＦＲＧ１からのデータの出力がＸ１サイクルとなる。したがって、ＦＭＬＡ（by element）命令の実行時のパイプラインは、Ｐ、ＰＴ、Ｂ、ＢＸ１、Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｕサイクルとなる。

【0024】

なお、前処理を実行しない演算命令は、ＦＭＬＡ命令以外でもよく、前処理を実行する演算命令は、ＦＭＬＡ（by element）命令以外でもよい。演算実行部２０は、ＦＭＡ演算器以外の演算器を有してもよい。前処理部ＳＦＴ１は、シフト処理以外の前処理を実行してもよい。

【0025】

図２は、図１のプロセッサ１００で実行される積和演算命令の動作の例を示す。図２では、ＦＭＬＡ命令とＦＭＬＡ（by element）命令とが示される。ＦＭＬＡ命令は、浮動小数点数の通常の積和演算命令であり、例えば、上位ビット群同士の演算と下位ビット群同士の演算を同時に実行可能である（２ＳＩＭＤ演算）。ＦＭＬＡ（by element）命令は、前処理したデータを積和演算する命令である。特に限定されないが、各オペランドは、１２８ビットであり、上位ビット群および下位ビット群は、それぞれ６４ビットである。

【0026】

ＦＭＬＡ命令では、まず、第１オペランドと第２オペランドを使用して、上位ビット群Ｄ１Ｈ、Ｄ２Ｈの乗算と下位ビット群Ｄ１Ｌ、Ｄ２Ｌの乗算とが実行される。次に、上位ビット群の乗算結果と第３オペランドの上位ビット群Ｄ３Ｈとが加算され、下位ビット群の乗算結果と第３オペランドの下位ビット群Ｄ３Ｌとが加算され、２つの６４ビットのデータＤＨ、ＤＬがリザルトデータＲＳ－ＤＴとして出力される。

【0027】

ＦＭＬＡ（by element）命令では、ＢＸ１サイクルにおいて、第２オペランドの上位ビット群Ｄ２Ｈが右シフトされ、第２オペランドの上位と下位の両方に上位ビット群Ｄ２Ｈが保持される。ＢＸ１サイクルの後、Ｘ１－Ｘ４サイクルにおいて、ＦＭＬＡ命令と同様に積和演算が実行される。なお、ＦＭＬＡ（by element）命令では、第２オペランドの上位ビット群と下位ビット群とのいずれを乗算に使用するかを指定可能である。

【0028】

図３は、図１のプロセッサ１００が図２に示す積和演算命令を実行するときのパイプラインの動作の例を示す。実行例（１）では、ＲＳＥは、複数のＦＭＬＡ（by element）命令を繰り返し発行する。プロセッサ１００は、ＦＭＬＡ（by element）命令を１サイクルずつずらしながら、ＰサイクルからＵサイクルまでの９個のステージを重複することなく実行する。これにより、プロセッサ１００は、サイクル毎に１つのＦＭＬＡ（by element）命令を完了することができる。４つのＦＭＬＡ（by element）命令は、１２サイクル掛けて実行される。例えば、サイクルはクロックサイクルである。

【0029】

実行例（２）では、ＲＳＥは、複数のＦＭＬＡ命令を繰り返し発行する。プロセッサ１００は、ＦＭＬＡ命令を１サイクルずつずらしながら、ＰサイクルからＵサイクルまでの８個のステージを重複することなく実行する。これにより、プロセッサ１００は、サイクル毎に１つのＦＭＬＡ命令を完了することができる。４つのＦＭＬＡ命令は、１１サイクル掛けて実行される。

【0030】

図４は、他のプロセッサの要部の一例を示す。図１と同様の要素については同じ符号を付し、詳細な説明は省略する。図４では、ＦＭＬＡ（by element）命令を実行する浮動小数点パイプラインの例が示される。図４に示すプロセッサ１１０は、ＦＭＬＡ（by element）命令を第１フローと第２フローとに分けて実行する。第１フローは、シフト演算器ＳＦＴ１により第２オペランドの上位ビット群Ｄ２Ｈをシフトする前処理のフローであり、シフト処理はＸ１サイクルで実行される。し、第２フローで実行する。

【0031】

第２フローは、第１フローのシフト処理結果を使用して積和演算を実行するフローであり、ＦＭＬＡ命令を実行するフローである。なお、図４は、ＦＭＬＡ（by element）命令の実行時に第１フローから第２フローへのシフト処理結果の伝搬が最短のタイミングで実行される例を示している。このため、第１フローのシフト演算器ＳＦＴ１の出力が、第２フローのオペランドレジスタＯＰＲＧに直接接続されている。

【0032】

第１フローの実行と第２フローの実行との間が空く場合、第１フローのシフト演算の結果は、リザルトレジスタＲＲを介してレジスタＦＰＲに書き込まれる。この場合、第２フローは、レジスタＦＰＲからのデータＲＤ－ＤＴを使用して積和演算を実行する。

【0033】

図５は、図４のプロセッサ１１０が図２に示す積和演算命令を実行するときのパイプラインの動作の例を示す。

【0034】

実行例（１）では、ＲＳＥは、ＦＭＬＡ（by element）命令の第１フローと第２フローとを交互に繰り返し発行する。図４のプロセッサ１１０は、ＦＭＬＡ（by element）命令を２つのフローに分割して実行するため、浮動小数点パイプラインを２回実行することになり、１つのＦＭＬＡ（by element）命令の完了は２サイクルに１回になる。

【0035】

このため、ＩＰＣが図３に比べて悪化し、通常のＦＭＬＡ命令の半分になる。また、プロセッサ１１０は、４つのＦＭＬＡ（by element）命令を、図３より３サイクル多い１５サイクル掛けて実行する。

【0036】

換言すれば、図１のプロセッサ１００は、４つのＦＭＬＡ（by element）命令の実行サイクルを、図４のプロセッサ１１０に比べて３サイクル短縮することができる。また、図１のプロセッサ１００は、ＦＭＬＡ（by element）命令を１つのフローを使用して、ＩＰＣを悪化させることなく１サイクル毎に実行することができる。例えば、ディープラーニング等の計算処理において、多くのＦＭＬＡ（by element）命令が実行されるほど、計算時間の短縮効果は大きくなる。

【0037】

実行例（２）では、ＲＳＥは、複数のＦＭＬＡ命令を繰り返し発行する。プロセッサ１１０がＦＭＬＡ命令を実行するときのパイプラインの動作は、プロセッサ１００がＦＭＬＡ命令を実行するときのパイプラインの動作（図３の実行例（２））と同じである。

【0038】

図６は、さらなる他のプロセッサの要部の一例を示す。図１と同様の要素については同じ符号を付し、詳細な説明は省略する。図６に示すプロセッサ１２０は、ＦＭＬＡ（by element）命令とＦＭＬＡ命令とで共通に使用する浮動小数点パイプラインを有する。すなわち、プロセッサ１２０は、ＦＭＬＡ（by element）命令とＦＭＬＡ命令とを１つのフローを使用して実行する。

【0039】

プロセッサ１２０は、リザベーションステーションＲＳＥの出力に直列に接続されたフリップフロップＦＦ１１、レジスタＦＰＲ、オペランドレジスタＯＰＲＧ、シフト演算器ＳＦＴ１、レジスタＲ１、ＦＭＡ演算器およびリザルトレジスタＲＲを有する。

【0040】

プロセッサ１２０は、ＦＭＬＡ（by element）命令を実行する場合、シフト処理するオペランドデータに対応するイネーブル信号ＥＮＢを有効にし、他のオペランドデータに対応するイネーブル信号ＥＮＢを無効にする。そして、プロセッサ１２０は、Ｘ１サイクルでシフト処理（前処理）を実行し、Ｘ２－Ｘ５サイクルで積和演算を実行する。

【0041】

プロセッサ１２０は、ＦＭＬＡ命令を実行する場合、全てのオペランドデータのシフト処理をイネーブル信号ＥＮＢにより無効にする。この場合、シフト演算器ＳＦＴ１は、シフト処理（前処理）を実行しないが、オペランドデータをレジスタＲ１に伝搬するため、Ｘ１サイクルを消費する。このため、ＦＭＬＡ命令の実行に掛かるサイクル数は、ＦＭＬＡ（by element）命令の実行に掛かるサイクル数と同じになる。

【0042】

図７は、図６のプロセッサが図２に示す積和演算命令を実行するときのパイプラインの動作の例を示す。実行例（１）では、ＲＳＥは、図３の実行例（１）と同様に、複数のＦＭＬＡ（by element）命令を繰り返し発行する。プロセッサ１２０は、シフト処理するオペランドに対応するイネーブル信号ＥＮＢを有効（例えば、ハイレベルＨ）に設定する。実行例（１）では、ＦＭＬＡ（by element）命令が１つのフローにより実行されるため、ＩＰＣの悪化は抑止される。

【0043】

実行例（２）では、ＲＳＥは、複数のＦＭＬＡ命令を繰り返し発行する。プロセッサ１２０は、全てのオペランドに対応するイネーブル信号ＥＮＢを無効（例えば、ロウレベルＬ）に設定する。なお、ＦＭＬＡ命令では、シフト演算器ＳＦＴ１は、Ｘ１サイクルでオペランドデータを通過させるため、１つのＦＭＬＡ命令の実行に掛かるサイクル数である演算レイテンシは、図３の実行例（２）より１サイクル多い９サイクルになる。シフト処理を実行しないＸ１サイクルは、括弧を付している。このように、図７では、ＦＭＬＡ（by element）命令が１つのフローにより実行されるため、ＩＰＣの悪化は抑止されるが、ＦＭＬＡ命令の実行レイテンシが増加するため、ＦＭＬＡ命令の実行性能が低下する。

【0044】

以上、この実施形態では、演算実行部２０のパイプラインは、ＦＭＬＡ（by element）命令の実行時にシフト演算器ＳＦＴ１によるシフト処理を実行するＢＸサイクルを挿入し、ＦＭＬＡ命令の実行時にＢＸサイクルを挿入しない。これにより、１つのパイプラインを使用してＦＭＬＡ（by element）命令とＦＭＬＡ命令とをそれぞれ１つのフローで実行することができ、１サイクル毎に完了することができる。また、ＦＭＬＡ命令の実行時にＢＸサイクルが挿入されないため、ＦＭＬＡ命令の実行レイテンシの増加を抑制することができ、ＦＭＬＡ命令の実行性能の低下を抑制することができる。この結果、前処理を実行しないＦＭＬＡ命令の演算レイテンシの増加を抑制しつつ、前処理を実行するＦＭＬＡ（by element）命令の処理性能を向上することができる。

【0045】

図８は、別の実施形態におけるプロセッサの一例を示す。図８では、プロセッサのコア部分が示される。図８に示すプロセッサ１００は、命令キャッシュ１１、命令バッファ１２、命令デコーダ１３、リザベーションステーション１４（ＲＳＥ）、リザベーションステーション１５（ＲＳＡ：Reservation Station for Address）、演算実行部２０およびロードストア部３０を有する。以下では、リザベーションステーション１４、１５は、それぞれＲＳＥ、ＲＳＡとも称される。

【0046】

演算実行部２０は、レジスタ２１（ＦＰＲ）、レジスタ２２（ＧＰＲ：General Purpose Register）、オペランドレジスタ２３（ＯＰＲＧ）、リザルトレジスタ２４（ＲＲ）、浮動小数点演算器２５およびアドレス生成演算器２６を有する。以下では、レジスタ２１、２２、オペランドレジスタ２３およびリザルトレジスタ２４は、それぞれレジスタＦＰＲ、レジスタＧＰＲ、オペランドレジスタＯＰＲＧおよびリザルトレジスタＲＲとも称される。

【0047】

命令キャッシュ１１は、演算命令およびメモリアクセス命令等の各種命令を保持する。命令バッファ１２は、命令キャッシュ１１から読み出される命令を蓄積し、蓄積した命令を命令デコーダ１３に順次出力する。命令デコーダ１３は、命令バッファ１２から受ける命令を解釈するデコード処理を実行し、演算実行部に演算を実行させる命令を示す命令コードＩＣＤと、演算の実行に使用されるレジスタを示すレジスタ番号ＦＰＲＮ、ＧＰＲＮを生成する。命令デコーダ１３は、生成した命令コードＩＣＤが浮動小数点演算命令の場合、命令コードＩＣＤとレジスタ番号ＦＰＲＮとをＲＳＥに出力する。命令デコーダ１３は、生成した命令コードＩＣＤがメモリアクセス命令の場合、命令コードＩＣＤとレジスタ番号ＧＰＲＮとをＲＳＡに出力する。

【0048】

ＲＳＥは、演算命令を蓄積し、蓄積した演算命令を実行可能な順にアウトオブオーダで演算実行部２０Ａに投機的に発行する。ＲＳＥの出力は、レジスタＦＰＲと浮動小数点演算器２５とに接続される。そして、ＲＳＥは、浮動小数点演算命令を実行するため命令コードＩＣＤを浮動小数点演算器２５に出力し、レジスタ番号ＦＰＲＮをレジスタＦＰＲに出力する。

【0049】

ＲＳＡは、ロード命令またはストア命令などのメモリアクセス命令を蓄積し、蓄積した演算命令を実行可能な順にアウトオブオーダで演算実行部２０Ａに投機的に発行する。メモリアクセス命令を蓄積するＲＳＡの出力は、レジスタＧＰＲとアドレス生成演算器２６に接続される。そして、ＲＳＡは、メモリアクセス命令を実行するための命令コードＩＣＤをアドレス生成演算器２６に出力し、レジスタ番号ＧＰＲＮをレジスタＧＰＲに出力する。

【0050】

なお、ＲＳＥは、図示しない固定小数点演算器とレジスタＧＰＲとに接続されてもよい。また、ＲＳＥおよびＲＳＡの代わりに、ＲＳＥおよびＲＳＡの機能を統合したリザベーションステーションが設けられてもよい。

【0051】

メモリアクセス命令をＲＳＡから受けたアドレス生成演算器２６は、レジスタＧＰＲを参照してレジスタＧＰＲからデータＧＤＴを読み出し、読み出したデータＧＤＴの加算処理等を行うことでアクセスアドレスを生成する。アドレス生成演算器２６は、生成したアクセスアドレスをロードストア部３０に出力する。

【0052】

ロードストア部３０は、アドレス生成演算器２６から受けるアクセスアドレスをロードストアキュー３１に蓄積し、蓄積したアクセスアドレスを順次使用してデータキャッシュ３２にアクセスする。メモリアクセス命令がロード命令の場合、データキャッシュ３２からロードデータＬＤＴが読み出され、演算実行部２０Ａに出力される。ロードデータＬＤＴは、浮動小数点数データの場合、レジスタＦＰＲに書き込まれ、固定小数点数データの場合、レジスタＧＰＲに書き込まれる。

【0053】

浮動小数点演算命令をＲＳＥから受けた浮動小数点演算器２５は、レジスタＦＰＲを参照してレジスタＦＰＲからデータＲＤ－ＤＴを読み出し、読み出したデータＲＤ－ＤＴをオペランドレジスタＯＰＲＧを介して受ける。浮動小数点演算器２５は、受けたデータを使用して浮動小数点演算を実行し、演算結果ＲＳＬＴをリザルトレジスタＲＲを介してレジスタＦＰＲに書き込む。

【0054】

図９は、図８の演算実行部２０Ａの要部の一例を示すブロック図である。図１と同様の要素については同じ符号を付し、詳細な説明は省略する。図９においても、クロック信号およびクロック端子の記載は省略する。演算実行部２０Ａは、レジスタＦＰＲ、オペランドレジスタＯＰＲＧ、シフト演算器ＳＦＴ１、レジスタＳＦＲＧ１、セレクタＳＥＬ１、ＦＭＡ演算器、リザルトレジスタＲＲ、アンド回路ＡＮＤ１、ＡＮＤ２、オア回路ＯＲ１およびセレクタＳＥＬ２を有する。

【0055】

アンド回路ＡＮＤ１、ＡＮＤ２およびオア回路ＯＲ１は、２入力である。アンド回路ＡＮＤ１、ＡＮＤ２、オア回路ＯＲ１およびＦＦ４２は、選択信号ＢＸ１－ＳＥＬを生成する選択信号生成部の一例である。アンド回路ＡＮＤ２およびＦＦ４２は、選択信号ＢＸ２－ＳＥＬを持する保持部の一例である。

【0056】

また、演算実行部２０Ａは、パイプラインのステージを区切る複数のフリップフロップＦＦ（ＦＦ１１、ＦＦ１２、ＦＦ２１、ＦＦ２２、ＦＦ３１、ＦＦ３２、ＦＦ４１、ＦＦ４２、ＦＦ５１等）を有する。以下では、フリップフロップＦＦは、ＦＦ１１、ＦＦ２１等、符号のみで説明される。

【0057】

ＲＳＥ、ＦＦ１１、レジスタＦＰＲ、オペランドレジスタＯＰＲＧ、シフト演算器ＳＦＴ１、レジスタＳＦＲＧ１、セレクタＳＥＬ１、ＦＭＡ演算器およびリザルトレジスタＲＲの接続関係は、図１と同じである。

【0058】

ＦＦ１２、ＦＦ２１、ＦＦ３１は、ＲＳＥの出力に直列に接続され、バリッド信号ＶＬＤを伝搬する。ＦＦ３１の出力は、セレクタＳＥＬ２の入力端子０とアンド回路ＡＮＤ１の入力とに接続される。ＦＦ２２、ＦＦ３２は、ＦＦ１１とアンド回路ＡＮＤ１との間に直列に接続され、シフト有効信号ＢＸ１－ＵＳＥを伝搬する。シフト有効信号ＢＸ１－ＵＳＥは、命令デコーダ１３が出力する制御情報の一例である。ＦＦ２２は、ＦＦ１１から受けるシフト有効信号ＢＸ－ＵＳＥをシフト有効信号ＢＸ１－ＵＳＥとして出力する。ＦＦ３２の出力は、シフト演算器ＳＦＴ１のイネーブル端子ＥＮＢとアンド回路ＡＮＤ１の入力とに接続される。

【0059】

アンド回路ＡＮＤ１の出力は、ＦＦ４１の入力およびオア回路ＯＲ１の入力に接続される。ＦＦ４１の出力は、セレクタＳＥＬ２の入力端子１とアンド回路ＡＮＤ２の入力とに接続される。アンド回路ＡＮＤ２の出力はオア回路ＯＲ１の入力に接続される。オア回路ＯＲ１の出力は、ＦＦ４２の入力に接続される。ＦＦ４２は選択信号ＢＸ１－ＳＥＬを出力する。ＦＦ４２の出力は、セレクタＳＥＬ１、ＳＥＬ２の選択端子およびアンド回路ＡＮＤ２の入力に接続される。

【0060】

セレクタＳＥＬ２の出力は、ＦＭＡ演算器に接続される。セレクタＳＥＬ２は、セレクト信号ＢＸ１－ＳＥＬの論理値に応じて、入力端子０で受けるＦＦ３１からのバリッド信号ＶＬＤまたは入力端子１で受けるＦＦ４１からのバリッド信号ＶＬＤをＦＭＡ演算器に供給する。例えば、セレクタＳＥＬ２は、ＦＭＬＡ（by element）命令のＸ１サイクルでＦＦ４１の出力を選択し、ＦＭＬＡ（by element）命令以外の演算命令のＸ１サイクルでＦＦ３１の出力を選択する。

【0061】

ＲＳＥは、演算命令とともにハイレベルのバリッド信号ＶＬＤを出力する。バリッド信号ＶＬＤの伝搬経路は、点線で示される。バリッド信号ＶＬＤは、Ｐサイクル、ＰＴサイクルおよびＢサイクルに順次伝搬される。ＢＸ１サイクルのバリッド信号ＶＬＤは、アンド回路ＡＮＤ１によりシフト有効信号ＢＸ１－ＵＳＥが有効（ハイレベル）のときにハイレベルに設定される。

【0062】

Ｘ１サイクルのバリッド信号ＶＬＤは、オペランドレジスタＯＰＲＧから出力されるデータと同様に、選択信号ＢＸ１－ＳＥＬの論理レベルに応じてセレクタＳＥＬ２により選択され、その後、Ｘ２－Ｘ４サイクルおよびＵサイクルに伝搬される。ハイレベルのバリッド信号ＶＬＤが通過中のパイプラインステージは、有効であることを示す。

【0063】

Ｕサイクルに伝搬したバリッド信号ＶＬＤは、ＦＦ５１からバリッド信号ＲＳ－ＶＬＤとして出力される。そして、リザルトデータＲＳ－ＤＴは、ハイレベルのバリッド信号ＲＳ－ＶＬＤを使用してレジスタＦＰＲに書き込まれる。

【0064】

ＲＳＥからＦＭＬＡ（by element）命令が出力されたとき、ＰＴサイクルにおいてＦＦ１１から有効を示すハイレベルのシフト有効信号ＢＸ－ＵＳＥが１サイクル出力される。シフト有効信号ＢＸ－ＵＳＥは、図８の命令デコーダ１３がＦＭＬＡ（by element）命令をデコードしたときに、命令デコーダ１３によりハイレベルに設定され、ＲＳＥを介して演算実行部２０Ａに供給される。

【0065】

ＦＦ１１から出力されるハイレベルのシフト有効信号ＢＸ－ＵＳＥは、ＢサイクルでＦＦ２２からハイレベルのシフト有効信号ＢＸ１－ＵＳＥとして出力される。シフト有効信号ＢＸ１－ＵＳＥは、ＢＸ１サイクルでシフト演算器ＳＦＴ１のイネーブル端子ＥＮＢに供給され、シフト演算器ＳＦＴ１にシフト演算を実行させる。

【0066】

例えば、シフト演算器ＳＦＴ１は、ハイレベルのイネーブル信号ＥＮＢを受けたときに、オペランドレジスタＯＰＲＧから受ける複数のオペランドデータのいずれかのシフト処理を実行する。シフト演算器ＳＦＴ１は、シフト処理したオペランドデータをシフト処理しない他のオペランドデータとともにレジスタＳＦＲＧ１に出力する。シフト演算器ＳＦＴ１は、ロウレベルのイネーブル信号ＥＮＢを受けたときにシフト演算を実行せず、オペランドレジスタＯＰＲＧから受ける複数のオペランドデータをレジスタＳＦＲＧ１に伝搬する。

【0067】

また、ＢＸ１サイクルにおいて、ＦＦ３２から出力されるハイレベルのシフト有効信号ＢＸ１－ＵＳＥは、ハイレベルのバリッド信号ＶＬＤを受けるアンド回路ＡＮＤ１を通過してＦＦ４２にラッチされる。ＦＦ４２は、Ｘ１サイクルにおいて、ラッチしたハイレベルのシフト有効信号ＢＸ１－ＵＳＥを、ハイレベルの選択信号ＢＸ１－ＳＥＬとして出力する。

【0068】

セレクタＳＥＬ１は、Ｘ１サイクルにおいて、ハイレベルの選択信号ＢＸ１－ＳＥＬに応じてレジスタＳＦＲＧ１の出力を選択し、シフト演算器ＳＦＴ１によりシフト処理されたオペランドデータを含むデータをＦＭＡ演算器に伝搬する。セレクタＳＥＬ２は、Ｘ１サイクルにおいて、ハイレベルの選択信号ＢＸ１－ＳＥＬに応じてＦＦ４１の出力を選択し、アンド回路ＡＮＤ１から出力されるハイレベルのバリッド信号ＶＬＤをＦＭＡ演算器に伝搬する。

【0069】

そして、Ｘ１－Ｘ４サイクルにおいてＦＭＬＡ（by element）命令の積和演算が実行され、実行結果がリザルトレジスタＲＲに格納される。ＦＦ４２から出力されるハイレベルの選択信号ＢＸ１－ＳＥＬは、アンド回路ＡＮＤ２の入力に帰還されるため、バリッド信号ＶＬＤのハイレベルが継続される間、ＦＦ４２は、ハイレベルの選択信号ＢＸ１－ＳＥＬを出力し続ける。

【0070】

これにより、ＦＭＬＡ（by element）命令の後に前処理を実行しない演算命令が発行される場合にも、オペランドレジスタＯＰＲＧから出力されるデータをシフト演算器ＳＦＴ１を通る経路を介してＦＭＡ演算器に供給することができる。この結果、図１０で説明するように、ＦＭＬＡ（by element）命令の後続命令のＸ１サイクルでの衝突を抑止することができる。

【0071】

シフト有効信号ＢＸ－ＵＳＥ、ＢＸ１－ＵＳＥは、ＦＭＬＡ（by element）命令が発行されない場合、ロウレベルに設定される。このため、例えば、ＦＭＬＡ（by element）命令の後続命令としてＦＭＬＡ命令が発行される場合、後続命令のＢＸ１サイクルにおいて、シフト演算器ＳＦＴ１のイネーブル端子ＥＮＢは、ＦＦ３２からロウレベルのシフト有効信号ＢＸ１－ＵＳＥを受ける。

【0072】

これにより、オペランドレジスタＯＰＲＧから受ける後続命令のデータをシフト処理することなくレジスタＳＦＲＧ１に出力することができる。例えば、ＦＭＬＡ（by element）命令の後続のＦＭＬＡ命令で使用するデータがシフト処理されることを抑止することができ、プロセッサ１００Ａの誤動作を抑止することができる。

【0073】

また、ＲＳＥから演算実行部２０Ａへの演算命令の発行が途切れた場合、すなわち、ＲＳＥが演算命令を発行しないサイクルでは、バリッド信号ＶＬＤはロウレベルに設定され、ロウレベルのバリッド信号ＶＬＤは、パイプラインに順次伝搬される。ロウレベルのバリッド信号がＢＸ１サイクルまで伝搬されたとき、アンド回路ＡＮＤ１の出力がロウレベルになり、Ｘ１サイクルでＦＦ４１の出力がロウレベルになる。

【0074】

ＦＦ４１から出力されるバリッド信号ＶＬＤのロウレベルへの変化によりアンド回路ＡＮＤ２の出力がハイレベルからロウレベルに変化し、ＦＦ４２は、選択信号ＢＸ１－ＳＥＬをロウレベルに変化させる。これにより、セレクタＳＥＬ１、ＳＥＬ２は、入力端子０を選択する。このため、バリッド信号ＶＬＤがロウレベルに変化した後に発行されたＦＭＬＡ命令のデータを、シフト演算器ＳＦＴ１を通さずにＦＭＡ演算器に供給することができ、ＦＭＬＡ命令を最小限のサイクル数で実行することができる。

【0075】

図１０は、図９の演算実行部２０Ａが図２に示す積和演算命令を実行するときのパイプラインの動作の例を示す。実行例（１）では、ＲＳＥは、ＦＭＬＡ（by element）命令とＦＭＬＡ命令とを順次発行する。図９に示すようにＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループを設けることで、前処理が実行されない後続のＦＭＬＡ命令にもＢＸ１サイクルを追加することができる。前処理を実行しないＢＸ１サイクルは、括弧を付している。これにより、ＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルの各々をＦＭＬＡ（by element）命令のＸ１－Ｘ４、Ｕサイクルの各々に対して１サイクルずつ後ろにずらすことができ、ＦＭＡ演算器の実行サイクルの衝突を回避することができる。

【0076】

また、シフト演算器ＳＦＴ１は、ＦＭＬＡ命令の実行時にロウレベルのイネーブル信号ＥＮＢを受ける。このため、ＦＭＬＡ命令のオペランドデータが、ＢＸ１サイクルの追加によりシフト演算器ＳＦＴ１を通る経路を介してＦＭＡ演算器に供給される場合にも、前処理の実行を抑止することができる。この結果、プロセッサ１００Ａを正常に動作させることができる。

【0077】

実行例（１）のかぎ括弧内に示す動作は、図９においてＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループがない場合の動作を示す。帰還ループがない場合、ＦＭＬＡ（by element）命令の後続のＦＭＬＡ命令の実行時にＢＸ１サイクルが挿入されず、セレクタＳＥＬ１は、オペランドレジスタＯＰＲＧからのデータを選択する。

【0078】

この場合、太枠で示すように、ＦＭＬＡ（by element）命令とＦＭＬＡ命令とのＸ１－Ｘ４、Ｕサイクルの各々が重複し、ＦＭＡ演算器の実行サイクルが衝突してしまう。実際には、セレクタＳＥＬ１は、ロウレベルの選択信号ＢＸ１－ＳＥＬを受けてオペランドレジスタＯＰＲＧからのデータを選択するため、ＦＭＬＡ（by element）命令の積和演算は実行されない。そして、ＦＭＬＡ（by element）命令のＵサイクルにＦＭＬＡ命令の積和演算結果が出力されてしまう。

【0079】

図１１は、図９の演算実行部２０Ａが図２に示す積和演算命令を実行するときのパイプラインの動作の別の例を示す。図３と同様の動作については、詳細な説明は省略する。実行例（２）および実行例（３）は、それぞれ図３の実行例（１）および実行例（２）と同じである。

【0080】

実行例（４）では、ＲＳＥは、ＦＭＬＡ（by element）命令とＦＭＬＡ命令とを交互に発行する。図１０で説明したように、ＦＭＬＡ（by element）命令に続くＦＭＬＡ命令のパイプラインには、前処理を実行しないＢＸ１サイクルが追加されるため、ＦＭＬＡ（by element）命令とＦＭＬＡ命令とのＸ１－Ｘ４、Ｕサイクルの各々の重複を抑止することができる。これにより、パイプラインを止めることなく命令を連続して実行することができる。

【0081】

実行例（５）では、ＲＳＥは、ＦＭＬＡ（by element）命令と２つのＦＭＬＡ命令とを順次発行した後、１サイクル空けてＦＭＬＡ命令を発行する。ＦＭＬＡ（by element）命令に続く２つのＦＭＬＡ命令のパイプラインには、実行例（１）および実行例（４）と同様に、前処理を実行しないＢＸ１サイクルが追加されるため、Ｘ１－Ｘ４、Ｕサイクルの各々の重複を抑止することができる。

【0082】

空きサイクルでＲＳＥが演算命令を発行しない場合、図示は省略するが、サイクル４からサイクル７でＰサイクル、ＰＴサイクル、ＢサイクルおよびＸ１サイクルのバリッド信号ＶＬＤが順次ロウレベルに設定される。Ｘ１サイクル（ＦＦ４１）のバリッド信号ＶＬＤのロウレベルがアンド回路ＡＮＤ２の入力に供給され、ＦＦ４２は、サイクル８で選択信号ＢＸ１－ＳＥＬをロウレベルに変化させる。すなわち、ＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループが切れる。

【0083】

このため、サイクル８において、セレクタＳＥＬ１は、ロウレベルの選択信号ＢＸ１－ＳＥＬを受け、オペランドレジスタＯＰＲＧの出力を選択し、空きサイクルの後に発行されたＦＭＬＡ命令のＸ１サイクルが実行される。実行例（５）に示すように、ＦＭＬＡ（by element）命令の実行後に空きサイクルが挿入された場合、ＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループを切ることができる。このため、その後に発行されるＦＭＬＡ命令のパイプラインを、ＢＸ１サイクルを追加することなく実行することができ、演算命令の実行効率の低下を抑制することができる。

【0084】

以上、この実施形態においても上述した実施形態と同様に、前処理を実行しないＦＭＬＡ命令の演算レイテンシの増加を抑制しつつ、前処理を実行するＦＭＬＡ（by element）命令の処理性能を向上することができる。

【0085】

さらに、この実施形態では、ＦＭＬＡ（by element）命令に続いてＦＭＬＡ命令が実行される場合、前処理が実行されないＦＭＬＡ命令にもＢＸ１サイクルを追加することができる。これにより、ＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルの各々をＦＭＬＡ（by element）命令のＸ１－Ｘ４、Ｕサイクルの各々に対して１サイクルずつ後ろにずらすことができ、ＦＭＡ演算器の実行サイクルの衝突を回避することができる。

【0086】

ＦＭＬＡ命令にＢＸ１サイクルが追加され、ＦＭＬＡ命令のオペランドデータがシフト演算器ＳＦＴ１を介してＦＭＡ演算器に供給される場合にも、オペランドデータがシフト処理されることを抑止することができる。この結果、プロセッサ１００Ａは、ＦＭＬＡ（by element）命令に続くＦＭＬＡ命令を正常に実行することができ、プロセッサ１００Ａを正常に動作させることができる。以上より、１つのパイプラインを使用してＦＭＬＡ（by element）命令とＦＭＬＡ命令とを混在して実行する場合にも、パイプラインを止めることなく演算命令を連続して実行することができる。

【0087】

また、ＦＭＬＡ（by element）命令の実行後に空きサイクルが挿入された場合、ＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループを切ることができる。このため、その後に発行されるＦＭＬＡ命令のパイプラインを、ＢＸ１サイクルを追加することなく実行することができ、演算命令の実行効率の低下を抑制することができる。

【0088】

図１２および図１３は、別の実施形態のプロセッサにおける演算実行部の要部の一例を示す。図１および図９と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１２および図１３に示す演算実行部２０Ｂが搭載されるプロセッサの構成は、図８と同様である。すなわち、演算実行部２０Ｂは、図８の命令デコーダ１３がデコードした演算命令を実行する。

【0089】

図１２および図１３においても、クロック信号およびクロック端子の記載は省略する。図１２および図１３は、Ｐ、ＰＴ、Ｂ、ＢＸ１、ＢＸ２、Ｘ１－Ｘ４、Ｕサイクルを含むパイプラインを示す。信号の流れを分かりやすくするために、ＢＸ１サイクルとＸ１サイクル（または、ＢＸ１サイクルとＢＸ２サイクル）とを区切るレジスタＳＦＲＧ１、ＦＦ４１、ＦＦ４２、ＦＦ４３は、図１２および図１３の両方に重複して記載している。

【0090】

図１２および図１３に示す演算実行部２０Ｂのパイプラインは、ＢＸ１サイクルの後にＢＸ２サイクルを追加している。これにより、演算実行部２０Ｂは、ＦＭＬＡ命令の前処理として、ＢＸ１サイクルを実行するＦＭＬＡ（ＢＸ１）命令と、ＢＸ１サイクルおよびＢＸ２サイクルを実行するＦＭＬＡ（ＢＸ２）命令とが実行可能である。ＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令は、複数種の第２演算命令の一例である。

【0091】

例えば、プロセッサの動作周波数またはＰＶＴ（プロセス、電圧、温度）条件によってＦＭＬＡ（by element）命令等の前処理が１サイクルで足りない場合がある。あるいは、より複雑な前処理を実行する演算命令においても、前処理が複数サイクル掛かる場合がある。したがって、前処理は、１サイクルおよび複数サイクルの両方に対応できることが好ましい。

【0092】

例えば、ＦＭＬＡ（ＢＸ１）命令は、レジスタＦＰＲから読み出された１２８ビット幅の１つのオペランドデータの上位の６４ビット［１２７：６４］を下位の６４ビット［６３：０］に移動する前処理を１サイクルで実行する。ＦＭＬＡ（ＢＸ１）命令は、図２に示したＦＭＬＡ（by element）命令と同様に、シフト演算器ＳＦＴ１を使用して前処理を実行する。

【0093】

例えば、ＦＭＬＡ（ＢＸ２）命令は、レジスタＦＰＲから読み出された５１２ビット幅の１つのオペランドデータの最上位の６４ビット［５１１：４４８］を最下位の６４ビット［６３：０］に移動する前処理を２サイクルで実行する。ＦＭＬＡ（ＢＸ２）命令は、２つのシフト演算器ＳＦＴ１、ＳＦＴ２を順次使用して前処理を実行する。

【0094】

ＦＭＬＡ（ＢＸ１）命令の実行時のパイプラインは、ＦＭＬＡ（by element）命令と同様に、Ｐ、ＰＴ、Ｂ、ＢＸ１、Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｕサイクルとなる。ＦＭＬＡ（ＢＸ２）命令の実行時のパイプラインは、Ｐ、ＰＴ、Ｂ、ＢＸ１、ＢＸ２、Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｕサイクルとなる。なお、前処理を実行しないＦＭＬＡ命令の実行時のパイプラインは、Ｐ、ＰＴ、Ｂ、Ｘ１、Ｘ２、Ｘ３、Ｘ４、Ｕサイクルとなる。

【0095】

演算実行部２０Ｂは、図９の演算実行部２０ＡにＦＦ２３、ＦＦ３３、アンド回路ＡＮＤ３、ＦＦ４３、シフト演算器ＳＦＴ２、レジスタＳＦＲＧ２、アンド回路ＡＮＤ４、ＡＮＤ５、オア回路ＯＲ３、ＦＦ４４およびＦＦ４５を追加している。アンド回路ＡＮＤ３、ＡＮＤ４、ＡＮＤ５およびオア回路ＯＲ３は、２入力である。また、演算実行部２０Ｂは、図９の演算実行部２０Ａの２入力のオア回路ＯＲ１およびセレクタＳＥＬ１、ＳＥＬ２の代わりに、３入力のオア回路ＯＲ２およびセレクタＳＥＬ３、ＳＥＬ４を有する。

【0096】

アンド回路ＡＮＤ１、ＡＮＤ２、ＡＮＤ３、オア回路ＯＲ３およびＦＦ４２は、選択信号ＢＸ１－ＳＥＬを生成する選択信号生成部の一例である。アンド回路ＡＮＤ２、ＡＮＤ３およびＦＦ４２は、選択信号ＢＸ１－ＳＥＬを保持する保持部の一例である。アンド回路ＡＮＤ４、ＡＮＤ５、オア回路ＯＲ３およびＦＦ４５は、選択信号ＢＸ２－ＳＥＬを生成する選択信号生成部の一例である。アンド回路ＡＮＤ５およびＦＦ４５は、選択信号ＢＸ２－ＳＥＬを保持する保持部の一例である。シフト演算器ＳＦＴ１およびレジスタＳＦＲＧ１と、シフト演算器ＳＦＴ２およびレジスタＳＦＲＧ２とのそれぞれは、前処理段の一例である。

【0097】

ＦＦ２３、ＦＦ３３、ＦＦ４３は、ＦＦ１１とアンド回路ＡＮＤ４との間に直列に接続される。ＦＦ２３は、ＦＦ１からのシフト有効信号ＢＸ－ＵＳＥをシフト有効信号ＢＸ２－ＵＳＥとしてＦＦ３３に出力する。そして、ＦＦ３３およびＦＦ４３は、シフト有効信号ＢＸ２－ＵＳＥを伝搬する。シフト有効信号ＢＸ２－ＵＳＥは、命令デコーダ１３が出力する制御情報の一例である。ＦＦ３３の出力は、シフト演算器ＳＦＴ１のイネーブル端子ＥＮＢにも接続される。オア回路ＯＲ２の入力は、アンド回路ＡＮＤ１、ＡＮＤ２、ＡＮＤ３の出力に接続され、オア回路ＯＲ２の出力は、ＦＦ４２の入力に接続される。

【0098】

シフト演算器ＳＦＴ１のイネーブル端子ＥＮＢは、ＦＭＬＡ（ＢＸ１）命令のＢＸ１サイクルでＦＦ３２からハイレベルのシフト有効信号ＢＸ１－ＵＳＥを受ける。シフト演算器ＳＦＴ１のイネーブル端子ＥＮＢは、ＦＭＬＡ（ＢＸ２）命令のＢＸ１サイクルでＦＦ３３からのハイレベルのシフト有効信号ＢＸ２－ＵＳＥを受ける。また、シフト演算器ＳＦＴ１のイネーブル端子ＥＮＢは、ＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令が実行されない場合、ＦＦ３２、ＦＦ３３のそれぞれからロウレベルのシフト有効信号ＢＸ１－ＵＳＥ、ＢＸ２－ＵＳＥとを受ける。

【0099】

アンド回路ＡＮＤ４の入力は、ＦＦ４１の出力とＦＦ４３の出力とに接続される。アンド回路ＡＮＤ４の出力は、ＦＦ４４の入力およびオア回路ＯＲ３の入力に接続される。ＦＦ４４の出力は、セレクタＳＥＬ４の入力端子２とアンド回路ＡＮＤ５の入力とに接続される。セレクタＳＥＬ４の出力は、ＦＭＡ演算器に接続される。

【0100】

アンド回路ＡＮＤ５の入力は、ＦＦ４４の出力とＦＦ４５の出力とに接続される。アンド回路ＡＮＤ５の出力は、オア回路ＯＲ３の入力に接続される。オア回路ＯＲ３の出力は、ＦＦ４５の入力に接続される。ＦＦ４５の出力は、アンド回路３の入力とアンド回路５の入力とセレクタＳＥＬ３の選択端子に接続される。ＦＦ４５は選択信号ＢＸ２－ＳＥＬを出力する。

【0101】

シフト演算器ＳＦＴ２およびレジスタＳＦＲＧ２は、レジスタＳＦＲＧ１とセレクタＳＥＬ３との間に直列に接続される。シフト演算器ＳＦＴ２は、イネーブル端子ＥＮＢで受けるシフト有効信号ＢＸ２－ＵＳＥに応じて、シフト演算するデータを選択し、シフト処理を実行する。シフト演算器ＳＦＴ２は、レジスタＳＦＲＧ１に保持されたデータの前処理を実行する前処理部の一例である。例えば、シフト演算器ＳＦＴ２のイネーブル端子ＥＮＢは、演算に使用するオペランドを識別するコードのビット数だけ設けられてもよく、演算に使用するオペランドの数だけ設けられてもよい。

【0102】

セレクタＳＥＬ３は、選択端子で受けるセレクト信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬの論理値に応じて、入力端子０－２で受けるデータのいずれかをＦＭＡ演算器に伝搬する。セレクタＳＥＬ３は、セレクト信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬが論理値１、論理値０の場合、レジスタＳＦＲＧ１の出力を選択する。セレクタＳＥＬ３は、セレクト信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬが論理値０、論理値１の場合、レジスタＳＦＲＧ２の出力を選択する。セレクタＳＥＬ３は、セレクト信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬがともに論理値０の場合、オペランドレジスタＯＰＲＧの出力を選択する。

【0103】

換言すれば、セレクタＳＥＬ３は、ＦＭＬＡ（ＢＸ１）命令が実行される場合、Ｘ１サイクルでレジスタＳＦＲＧ１の出力を選択する。セレクタＳＥＬ３は、ＦＭＬＡ（ＢＸ２）命令が実行される場合、Ｘ１サイクルでレジスタＳＦＲＧ２の出力を選択する。セレクタＳＥＬ３は、ＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令以外の演算命令が実行される場合、Ｘ１サイクルでオペランドレジスタＯＰＲＧの出力を選択する。

【0104】

セレクタＳＥＬ４は、選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬの論理値に応じて、入力端子０－２で受けるバリッド信号ＶＬＤのいずれかをＦＭＡ演算器に伝搬する。セレクタＳＥＬ４は、選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬが論理値１、論理値０の場合、ＦＦ４１の出力を選択する。セレクタＳＥＬ３は、選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬが論理値０、論理値１の場合、ＦＦ４４の出力を選択する。セレクタＳＥＬ３は、選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬがともに論理値０の場合、ＦＦ３１の出力を選択する。

【0105】

換言すれば、セレクタＳＥＬ４は、ＦＭＬＡ（ＢＸ１）命令が実行される場合、Ｘ１サイクルでＦＦ４１の出力を選択する。セレクタＳＥＬ４は、ＦＭＬＡ（ＢＸ２）命令が実行される場合、Ｘ１サイクルでＦＦ４４の出力を選択する。セレクタＳＥＬ４は、ＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令以外の演算命令が実行される場合、Ｘ１サイクルでＦＦ３１の出力を選択する。

【0106】

命令デコーダ１３（図８）は、ＦＭＬＡ（ＢＸ１）命令をデコードしたとき、デコードしたＦＭＬＡ（ＢＸ１）命令とともにハイレベルのシフト有効信号ＢＸ１－ＵＳＥをＲＳＥに出力する。そして、ＲＳＥからＦＭＬＡ（ＢＸ１）命令が出力されたとき、ＰＴサイクルにおいてＦＦ１１からハイレベルのシフト有効信号ＢＸ１－ＵＳＥが１サイクル出力される。このとき、シフト有効信号ＢＸ２－ＵＳＥはロウレベルに設定される。シフト有効信号ＢＸ１－ＵＳＥは、ＦＭＬＡ（ＢＸ１）命令の前処理が１サイクルで実行されることを示す。

【0107】

命令デコーダ１３は、ＦＭＬＡ（ＢＸ２）命令をデコードしたとき、デコードしたＦＭＬＡ（ＢＸ２）命令とともにハイレベルのシフト有効信号ＢＸ２－ＵＳＥを、ＲＳＥに出力する。そして、ＲＳＥからＦＭＬＡ（ＢＸ２）命令が出力されたとき、ＰＴサイクルにおいてＦＦ１１からハイレベルのシフト有効信号ＢＸ２－ＵＳＥが１サイクル出力される。このとき、シフト有効信号ＢＸ１－ＵＳＥはロウレベルに設定される。シフト有効信号ＢＸ２－ＵＳＥは、ＦＭＬＡ（ＢＸ２）命令の前処理が２サイクルで実行されることを示す。

【0108】

なお、命令デコーダ１３は、ＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令以外の命令をデコードしたとき、デコードした命令とともにロウレベルのシフト有効信号ＢＸ１－ＵＳＥ、ＢＸ２－ＵＳＥをＲＳＥに出力する。このため、ＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令以外の演算命令のＰＴサイクルでは、シフト有効信号ＢＸ１－ＵＳＥ、ＢＸ２－ＵＳＥは、ともにロウレベルに設定される。

【0109】

例えば、ＲＳＥがＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令以外の演算命令を単独で発行したとき、演算実行部２０Ｂは、シフト演算器ＳＦＴ１、ＳＦＴ２を動作させず、選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬをロウレベルに設定する。このため、Ｘ１サイクルにおいて、セレクタＳＥＬ３は、オペランドレジスタＯＰＲＧの出力を選択し、セレクタＳＥＬ４は、ＦＦ３１からのバリッド信号ＶＬＤを選択する。そして、前処理が実行されることなくＦＭＡ演算器による積和演算が実行される。

【0110】

ＲＳＥがＦＭＬＡ（ＢＸ１）命令を発行したとき、ＢＸ１サイクルでシフト有効信号ＢＸ１－ＵＳＥがハイレベルになり、シフト演算器ＳＦＴ１が有効になる。シフト演算器ＳＦＴ１は、オペランドレジスタＯＰＲＧから出力されるオペランドデータのいずれかのシフト処理をＢＸ１サイクルで実行し、シフト処理結果をレジスタＳＦＲＧ１に格納する。

【0111】

ハイレベルのシフト有効信号ＢＸ１－ＵＳＥをアンド回路ＡＮＤ１およびオア回路ＯＲ２を介して受けたＦＦ４２は、Ｘ１サイクルでハイレベルの選択信号ＢＸ１－ＳＥＬを出力する。これにより、レジスタＳＦＲＧ１に保持されたデータがセレクタＳＥＬ３により選択され、ＦＦ４１からのバリッド信号ＶＬＤがセレクタＳＥＬ４により選択される。そして、セレクタＳＥＬ３が選択したデータを使用してＦＭＡ演算器により積和演算が実行される。

【0112】

ＦＦ４２から出力されるハイレベルの選択信号ＢＸ１－ＳＥＬは、アンド回路ＡＮＤ２の入力に帰還されるため、ハイレベルのバリッド信号ＶＬＤが継続する間、ＦＦ４２は、ハイレベルの選択信号ＢＸ１－ＳＥＬを出力し続ける。これにより、ＦＭＬＡ（ＢＸ１）命令の後に前処理を実行しない演算命令が発行される場合にも、オペランドレジスタＯＰＲＧから出力されるデータをシフト演算器ＳＦＴ１を通る経路を介してＦＭＡ演算器に供給することができる。

【0113】

また、ＲＳＥは、演算命令を発行しない場合、バリッド信号ＶＬＤをロウレベルに設定する。ＦＦ４１がＸ１サイクルでロウレベルのバリッド信号ＶＬＤを出力する場合、アンド回路ＡＮＤ２の出力は、選択信号ＢＸ１－ＳＥＬのレベルにかかわりなくロウレベルに設定される。これにより、ＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループが存在する場合に帰還ループが切れ、選択信号ＢＸ１－ＳＥＬは、ハイレベルからロウレベルに変化する。

【0114】

ＲＳＥがＦＭＬＡ（ＢＸ２）命令を発行したとき、ＢＸ１サイクルでシフト有効信号ＢＸ２－ＵＳＥがハイレベルになり、ＦＦ４３は、ＢＸ２サイクルでハイレベルの選択信号ＢＸ２－ＳＥＬを出力する。これにより、ＢＸ１サイクルでシフト演算器ＳＦＴ１が有効になり、ＢＸ２サイクルでシフト演算器ＳＦＴ２が有効になる。

【0115】

シフト演算器ＳＦＴ１は、ＦＭＬＡ（ＢＸ１）命令の実行時と同様に、ＢＸ１サイクルでシフト処理を実行し、シフト処理結果をレジスタＳＦＲＧ１に格納する。シフト演算器ＳＦＴ２は、レジスタＳＦＲＧ１に格納されたシフト処理結果をＢＸ２サイクルでシフト処理し、シフト処理結果をレジスタＳＦＲＧ２に格納する。

【0116】

ハイレベルのシフト有効信号ＢＸ２－ＵＳＥをアンド回路ＡＮＤ４およびオア回路ＯＲ３を介して受けたＦＦ４５は、Ｘ１サイクルでハイレベルの選択信号ＢＸ２－ＳＥＬを出力する。これにより、レジスタＳＦＲＧ２に保持されたデータがセレクタＳＥＬ３により選択され、ＦＦ４４からのバリッド信号ＶＬＤがセレクタＳＥＬ４により選択される。そして、セレクタＳＥＬ３が選択したデータを使用してＦＭＡ演算器により積和演算が実行される。

【0117】

ＦＦ４５から出力されるハイレベルの選択信号ＢＸ２－ＳＥＬは、アンド回路ＡＮＤ３の入力に帰還されるため、ハイレベルのバリッド信号ＶＬＤが継続する間、ＦＦ４２は、ハイレベルの選択信号ＢＸ１－ＳＥＬを出力し続ける。また、ＦＦ４５から出力されるハイレベルの選択信号ＢＸ２－ＳＥＬは、アンド回路ＡＮＤ５の入力に帰還されるため、ハイレベルのバリッド信号ＶＬＤが継続する間、ＦＦ４５は、ハイレベルの選択信号ＢＸ２－ＳＥＬを出力し続ける。これにより、ＦＭＬＡ（ＢＸ２）命令の後に前処理を実行しない演算命令が発行される場合にも、オペランドレジスタＯＰＲＧから出力されるデータをシフト演算器ＳＦＴ１、ＳＦＴ２を通る経路を介してＦＭＡ演算器に供給することができる。

【0118】

また、演算命令を発行しないＲＳＥがバリッド信号ＶＬＤをロウレベルに設定する場合、ＦＦ４１がＸ１サイクルでロウレベルのバリッド信号ＶＬＤを出力し、アンド回路ＡＮＤ２の出力は、選択信号ＢＸ１－ＳＥＬのレベルにかかわりなくロウレベルに設定される。これにより、ＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループが存在する場合に帰還ループが切れ、選択信号ＢＸ１－ＳＥＬは、ハイレベルからロウレベルに変化する。

【0119】

同様に、ＲＳＥが、バリッド信号ＶＬＤをロウレベルに設定する場合、ＦＦ４４がＸ１サイクルでロウレベルのバリッド信号ＶＬＤを出力し、アンド回路ＡＮＤ５の出力は、選択信号ＢＸ２－ＳＥＬのレベルにかかわりなくロウレベルに設定される。これにより、ＦＦ４５とＡＮＤ５による選択信号ＢＸ２－ＳＥＬの帰還ループが存在する場合に帰還ループが切れ、選択信号ＢＸ２－ＳＥＬは、ハイレベルからロウレベルに変化する。

【0120】

図１４は、図１２および図１３の演算実行部２０Ｂが積和演算命令を実行するときのパイプラインの動作の例を示す。実行例（１）では、ＲＳＥは、ＦＭＬＡ（ＢＸ１）命令とＦＭＬＡ命令とを順次発行する。実行例（１）の動作は、ＦＭＬＡ（by element）命令の代わりにＦＭＬＡ（ＢＸ１）命令が実行されることを除き、図１０の動作と同様である。

【0121】

実行例（１）の上側に示す動作は、ＦＭＬＡ命令のＢＸ１サイクルでシフト演算器ＳＦＴ１の動作が無効にされ、選択信号ＢＸ１－ＳＥＬの帰還ループによりＦＭＬＡ命令のＸ１サイクルでレジスタＳＦＲＧ１の出力が選択されることで実現される。

【0122】

実行例（１）では、シフト処理を実行しないＢＸ１サイクルをＦＭＬＡ命令のパイプライン処理に挿入することで、ＦＭＬＡ（ＢＸ１）命令のＸ１－Ｘ４、Ｕサイクルと、後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルとが衝突することを抑止することができる。

【0123】

これに対して、シフト処理を実行しないＢＸ１サイクルをＦＭＬＡ命令のパイプライン処理に挿入しない場合、実行例（１）のかぎ括弧内に太枠で示すように、最初のＦＭＬＡ（ＢＸ１）命令および後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルが衝突してしまう。

【0124】

実行例（２）では、ＲＳＥは、ＦＭＬＡ（ＢＸ２）命令の発行から２サイクル後にＦＭＬＡ命令を発行する。すなわち、ＦＭＬＡ（ＢＸ２）命令の発行とＦＭＬＡ命令の発行との間に空きサイクルが存在する。ＦＭＬＡ（ＢＸ２）命令が実行される場合、ハイレベルのシフト有効信号ＢＸ２－ＵＳＥがパイプライン内に順次伝搬される。

【0125】

ハイレベルのシフト有効信号ＢＸ２－ＵＳＥは、ＢＸ１サイクルでシフト演算器ＳＦＴ１のイネーブル端子ＥＮＢに出力され、ＢＸ２サイクルでシフト演算器ＳＦＴ２のイネーブル端子ＥＮＢに出力される。これにより、オペランドレジスタＯＰＲＧから出力されるオペランドの１つは、シフト演算器ＳＦＴ１、ＳＦＴ２により順次シフト処理される。

【0126】

そして、セレクタＳＥＬ３は、Ｘ１サイクルにロウレベルの選択信号ＢＸ１－ＳＥＬとハイレベルの選択信号ＢＸ２－ＳＥＬとを受け、シフト演算器ＳＦＴ１、ＳＦＴ２によりシフト処理されたデータを保持するレジスタＳＦＲＧ２の出力を選択する。ＦＭＡ演算器は、シフト処理したデータを使用してＸ１サイクルからＸ４サイクルで積和演算を実行する。

【0127】

実行例（２）では、シフト処理を実行しないＢＸ１サイクルをＦＭＬＡ命令のパイプライン処理に挿入することで、ＦＭＬＡ（ＢＸ２）命令のＸ１－Ｘ４、Ｕサイクルと、後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルとが衝突することを抑止することができる。これに対して、シフト処理を実行しないＢＸ１サイクルをＦＭＬＡ命令のパイプライン処理に挿入しない場合、実行例（２）のかぎ括弧内に太枠で示すように、最初のＦＭＬＡ（ＢＸ２）命令および後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルが衝突してしまう。

【0128】

図１５は、図１２および図１３の演算実行部２０Ｂが積和演算命令を実行するときのパイプラインの動作の別の例を示す。実行例（３）では、ＲＳＥは、ＦＭＬＡ（ＢＸ２）命令とＦＭＬＡ命令（ＢＸ１）とを順次発行する。実行例（４）では、ＲＳＥは、２つのＦＭＬＡ（ＢＸ２）命令とＦＭＬＡ命令とを順次発行する。

【0129】

実行例（３）において、ＦＭＬＡ（ＢＸ２）命令のパイプラインでは、ＢＸ１サイクルでハイレベルのシフト有効信号ＢＸ１－ＵＳＥによりシフト演算器ＳＦＴ１が動作し、オペランドレジスタＯＰＲＧからのオペランドデータの１つのシフト処理が実行される。シフト処理後のデータは、他のオペランドデータとともにレジスタＳＦＲＧ１に格納される。

【0130】

また、ＢＸ２サイクルにおいてハイレベルのシフト有効信号ＢＸ２－ＵＳＥによりシフト演算器ＳＦＴ２が動作し、レジスタＳＦＲＧ１からシフト処理済みのデータのさらなるシフト処理が実行される。シフト処理後のデータは、他のオペランドデータとともにレジスタＳＦＲＧ２に格納される。サイクルＢＸ２では、ＦＦ４２とアンド回路ＡＮＤ２による帰還ループにより選択信号ＢＸ１－ＳＥＬがハイレベルに維持される。

【0131】

ＦＦ４２は、ＢＸ２サイクルで選択信号ＢＸ１－ＳＥＬをハイレベルに設定する。ＦＦ４５は、Ｘ１サイクルで選択信号ＢＸ２－ＳＥＬをハイレベルに設定する。このため、セレクタＳＥＬ３は、Ｘ１サイクルでレジスタＳＦＲＧ２に保持されたデータをＦＭＡ演算器に出力する。そして、Ｘ１－Ｘ４サイクルでＦＭＡ演算器は、積和演算を実行する。選択信号ＢＸ１－ＳＥＬは、ＦＦ４２とアンド回路ＡＮＤ２による帰還ループによりハイレベルに維持され、選択信号ＢＸ２－ＳＥＬは、ＦＦ４５とアンド回路ＡＮＤ５による帰還ループによりハイレベルに維持される。

【0132】

ＦＭＬＡ（ＢＸ２）命令に続いて実行されるＦＭＬＡ（ＢＸ１）命令のパイプラインでは、ＢＸ１サイクルにおいてハイレベルのシフト有効信号ＢＸ１－ＵＳＥによりシフト演算器ＳＦＴ１が動作し、オペランドデータの１つのシフト処理が実行される。シフト処理されたオペランドデータは、他のオペランドデータとともにレジスタＳＦＲＧ１に格納される。

【0133】

ＲＳＥは、ＦＭＬＡ（ＢＸ１）命令の発行時、ロウレベルのシフト有効信号ＢＸ２－ＵＳＥを出力し、ＦＦ４３は、サイクルＢＸ２においてロウレベルのシフト有効信号ＢＸ２－ＵＳＥを出力する。シフト演算器ＳＦＴ２は、ロウレベルのシフト有効信号ＢＸ２－ＵＳＥを受け、シフト処理（前処理）を実行せず、レジスタＳＦＲＧ１からのデータをそのままレジスタＳＦＲＧ２に格納する。シフト処理を実行しないＢＸ２サイクルは、括弧を付している。

【0134】

選択信号ＢＸ１－ＳＥＬは、ハイレベルに設定されており、ＦＦ４２とアンド回路ＡＮＤ２による帰還ループにより選択信号ＢＸ１－ＳＥＬは、ハイレベルに維持されている。このため、セレクタＳＥＬ３は、サイクルＸ１において、レジスタＳＦＲＧ１の出力を選択してＦＭＡ演算器に伝搬する。そして、Ｘ１－Ｘ４サイクルでＦＭＡ演算器は、積和演算を実行する。

【0135】

実行例（３）では、シフト処理を実行しないＢＸ２サイクルをＦＭＬＡ（ＢＸ１）命令のパイプライン処理に挿入し、ＦＦ４２とアンド回路ＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループを生成する。これにより、ＦＭＬＡ（ＢＸ２）命令のＸ１－Ｘ４、Ｕサイクルと、後続のＦＭＬＡ（ＢＸ１）命令のＸ１－Ｘ４、Ｕサイクルとが衝突することを抑止することができる。

【0136】

これに対して、ＦＦ４２とアンド回路ＡＮＤ２による帰還ループを生成しない場合、実行例（３）のかぎ括弧内に太枠で示すように、ＦＭＬＡ（ＢＸ２）命令および後続のＦＭＬＡ（ＢＸ１）命令のＸ１－Ｘ４、Ｕサイクルが衝突してしまう。

【0137】

実行例（４）において、最初のＦＭＬＡ命令（ＢＸ２）と２番目のＦＭＬＡ命令（ＢＸ２）のパイプラインは、ＰサイクルからＵサイクルまでの１０個のステージを１サイクルずつずらしながら重複することなく実行する。最初のＦＭＬＡ命令（ＢＸ２）のパイプラインの動作により、ＦＦ４２とＡＮＤ２による選択信号ＢＸ１－ＳＥＬの帰還ループが生成され、選択信号ＢＸ１－ＳＥＬはハイレベルに維持される。また、ＦＦ４５とアンド回路ＡＮＤ５による選択信号ＢＸ２－ＳＥＬの帰還ループが生成され、選択信号ＢＸ２－ＳＥＬはハイレベルに維持される。

【0138】

次に、ＦＭＬＡ命令のパイプラインにおいて、シフト演算器ＳＦＴ１は、ＢＸ１サイクルにおいてロウレベルのシフト有効信号ＢＸ１－ＵＳＥ、ＢＸ２－ＵＳＥを受けるため、シフト処理（前処理）を実行しない。シフト演算器ＳＦＴ１は、オペランドレジスタＯＰＲＧからのデータをそのままレジスタＳＦＲＧ１に格納する。シフト演算器ＳＦＴ２は、ＢＸ２サイクルにおいてロウレベルのシフト有効信号ＢＸ２－ＵＳＥを受けるため、シフト処理（前処理）を実行しない。シフト演算器ＳＦＴ２は、シフト処理を実行していないレジスタＳＦＲＧ１からのデータをレジスタＳＦＲＧ２に格納する。シフト処理を実行しないＢＸ１サイクルおよびＢＸ２サイクルは、括弧を付している。

【0139】

セレクタＳＥＬ３は、サイクルＸ１において、ハイレベルのシフト有効信号ＢＸ１－ＵＳＥ、ＢＸ２－ＵＳＥを受け、レジスタＳＦＲＧ２の出力を選択してＦＭＡ演算器に伝搬する。そして、Ｘ１－Ｘ４サイクルでＦＭＡ演算器は、レジスタＳＦＲＧ２から伝搬されたデータを使用して積和演算を実行する。

【0140】

実行例（４）では、シフト処理を実行しないＢＸ１サイクルとＢＸ２サイクルとをＦＭＬＡ命令のパイプライン処理に挿入し、選択信号ＢＸ１－ＳＥＬの帰還ループと選択信号ＢＸ２－ＳＥＬの帰還ループとを生成する。これにより、ＦＭＬＡ（ＢＸ２）命令のＸ１－Ｘ４、Ｕサイクルと、後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルとが衝突することを抑止することができる。

【0141】

これに対して、選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬの帰還ループを生成しない場合のタイミングは、実行例（４）のかぎ括弧内の上側のタイミング図で示される。実行例（４）のかぎ括弧内の上側のタイミング図では、太枠で示すように、最初のＦＭＬＡ（ＢＸ２）命令のＸ１－Ｘ４、Ｕサイクルと、後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルとが衝突してしまう。

【0142】

また、選択信号ＢＸ２－ＳＥＬの帰還ループを生成しない場合のタイミングは、実行例（４）のかぎ括弧内の下側のタイミング図で示される。実行例（４）のかぎ括弧内の下側のタイミング図では、太枠で示すように、２番目のＦＭＬＡ（ＢＸ２）命令のＸ１－Ｘ４、Ｕサイクルと、後続のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルとが衝突してしまう。

【0143】

図１６は、図１２および図１３の演算実行部２０Ｂが積和演算命令を実行するときのパイプラインの動作のさらなる別の例を示す。図１５の実行例（４）と同様の動作については詳細な説明は省略する。

【0144】

実行例（５）は、図１５の実行例（４）の動作の後に、１つの空きサイクルを挟んでＦＭＬＡ命令が実行されるときの動作の例を示す。ＲＳＥが演算命令を発行しない空きサイクルでは、図示は省略するが、各サイクルのバリッド信号ＶＬＤが順次ロウレベルに設定される。そして、ＢＸ２サイクル（ＦＦ４１）のバリッド信号ＶＬＤのロウレベルがアンド回路ＡＮＤ２の入力に供給される。

【0145】

しかしながら、Ｘ１サイクル（ＦＦ４４）のバリッド信号のハイレベルがアンド回路ＡＮＤ３の入力に供給されている。このため、ＦＦ４２とアンド回路ＡＮＤ３による帰還ループは、サイクル９まで切れず、選択信号ＢＸ１－ＳＥＬは、サイクル８までハイレベルに維持される。一方、ＦＦ４５は、サイクル８で選択信号ＢＸ２－ＳＥＬをロウレベルに変化させるため、ＦＦ４５とＡＮＤ５による選択信号ＢＸ２－ＳＥＬの帰還ループは、サイクル８で切れる。

【0146】

このため、サイクル８において、セレクタＳＥＬ３は、ハイレベルの選択信号ＢＸ１－ＳＥＬとロウレベルの選択信号ＢＸ２－ＳＥＬとを受け、レジスタＳＦＲＧ１の出力を選択する。そして、空きサイクルの後に発行されたＦＭＬＡ命令のＢＸ１サイクル（シフト処理なし）が実行される。

【0147】

ＢＸ１サイクルの挿入により、空きサイクルの前のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルと空きサイクルの後のＦＭＬＡ命令のＸ１－Ｘ４、Ｕサイクルとが衝突することを抑止することができる。また、空きサイクルの後のＦＭＬＡ命令にはＢＸ２サイクルが挿入されないため、演算命令の実行効率の低下を抑制することができる。

【0148】

実行例（６）は、図１５の実行例（４）の動作の後に、２つの空きサイクルを挟んでＦＭＬＡ命令が実行されるときの動作の例を示す。１つめの空きサイクルまでの動作は、実行例（５）と同じである。サイクル８で選択信号ＢＸ２－ＳＥＬがロウレベルに変化するため、ＦＦ４５とＡＮＤ５による選択信号ＢＸ２－ＳＥＬの帰還ループが切れる。

【0149】

実行例（６）では、２つ目の空きサイクルのサイクル９で、ＦＦ４２は、アンド回路ＡＮＤ３を介して選択信号ＢＸ２－ＳＥＬのロウレベルを受け、選択信号ＢＸ１－ＳＥＬをロウレベルに変化させる。このより、ＦＦ４２とアンド回路ＡＮＤ３による選択信号ＢＸ１－ＳＥＬの帰還ループが切れる。そして、サイクル９において、セレクタＳＥＬ３は、ロウレベルの選択信号ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬを受け、オペランドレジスタＯＰＲＧの出力を選択する。そして、サイクル９において、空きサイクルの後に発行されたＦＭＬＡ命令のＸ１サイクルが実行される。

【0150】

実行例（６）では、ＦＦ４５とＡＮＤ５による選択信号ＢＸ２－ＳＥＬの帰還ループと、ＦＦ４２とアンド回路ＡＮＤ３による帰還ループとを順次切っていく。これにより、空きサイクルを２つ以上挿入後のＦＭＬＡ命令のパイプラインにＢＸ１サイクルおよびＢＸ２サイクルが挿入されることを抑止することができ、演算命令の実行効率の低下を抑制することができる。

【0151】

以上、この実施形態においても上述した実施形態と同様に、前処理を実行しないＦＭＬＡ命令の演算レイテンシの増加を抑制しつつ、前処理を実行するＦＭＬＡ（ＢＸ１）命令およびＦＭＬＡ（ＢＸ２）命令の処理性能を向上することができる。ＦＭＬＡ（ＢＸ１）命令に続いてＦＭＬＡ命令が実行される場合、前処理が実行されないＦＭＬＡ命令にもＢＸ１サイクルを追加することができ、ＦＭＡ演算器の実行サイクルの衝突を回避することができる。

【0152】

ＦＭＬＡ命令にＢＸ１サイクルが追加され、オペランドデータがシフト演算器ＳＦＴ１に供給される場合にも、オペランドデータがシフト処理されることを抑止することができる。この結果、この実施形態のプロセッサは、ＦＭＬＡ（ＢＸ１）命令に続くＦＭＬＡ命令を正常に実行することができ、プロセッサを正常に動作させることができる。

【0153】

さらに、この実施形態では、ＦＭＬＡ（ＢＸ２）命令に続いてＦＭＬＡ命令が実行される場合、前処理が実行されないＦＭＬＡ命令にもＢＸ１サイクルおよびＢＸ２サイクルを追加することができ、ＦＭＡ演算器の実行サイクルの衝突を回避することができる。ＦＭＬＡ（ＢＸ２）命令に続いてＦＭＬＡ命令（ＢＸ１）が実行される場合、シフト演算器ＳＦＴ２による前処理が実行されないＦＭＬＡ命令（ＢＸ１）にもＢＸ２サイクルを追加することができ、ＦＭＡ演算器の実行サイクルの衝突を回避することができる。

【0154】

また、ＦＭＬＡ（ＢＸ２）命令の実行後に空きサイクルが挿入された場合に、選択信号ＢＸ２－ＳＥＬの帰還ループおよび選択信号ＢＸ１－ＳＥＬの帰還ループを順次切ることができる。このため、その後に発行されるＦＭＬＡ命令のパイプラインを、ＢＸ２サイクルを追加することなく、またはＢＸ１サイクルとＢＸ２サイクルとを追加することなく実行することができ、演算命令の実行効率の低下を抑制することができる。

【0155】

なお、図１２および図１３に示した演算実行部２０Ｂでは、積和演算前に前処理を実行するサイクルを１サイクルまたは２サイクル挿入可能にする例が示された。しかしながら、３サイクル以上の前処理の実行サイクルが積和演算前に挿入可能な演算実行部が設けられてもよい。この場合にも、１サイクルまたは複数サイクルの前処理を実行する演算命令が混在し、かつ連続して実行される場合にも、パイプラインを止めることなく命令を連続して実行することができる。

【0156】

上述した実施形態では、前処理としてオペランドデータのシフト処理を実行するＦＭＬＡ（by element）命令を実行する演算実行部２０、２０Ａの例が説明された。また、上述した実施形態では、前処理としてオペランドデータのシフト処理を実行するＦＭＬＡ（ＢＸ１）命令またはＦＭＬＡ（ＢＸ２）命令を実行する演算実行部２０Ｂの例が示された。しかしながら、前処理は、シフト処理に限定されず、演算器は、浮動小数点積和演算器に限定されない。

【0157】

例えば、ＡＲＭ社の命令セットアーキテクチャに含まれるＡＤＤＰ（vector）命令は、同じオペランドの隣り合った要素を加算する演算命令である。ＡＤＤＰ（vector）命令を通常の加算器を利用して実行する場合、加算の実行前に、加算されるデータを第１オペランドと第２オペランドとに入れる前処理が必要となる。前処理は、偶数要素と奇数要素を第１オペランドと第２オペランドとに分けて入れる処理である。

【0158】

例えば、ＡＤＤＰ（vector）命令を実行する前処理部と加算器とを、図９のシフト演算器ＳＦＴ１およびＦＭＡ演算器の代わりに設けることが可能である。これにより、ＡＤＤＰ（vector）命令用の専用の加算器を設けることなく、通常の加算命令を実行する加算器を利用することができる。

【0159】

なお、上述したプロセッサの処理性能の向上により、プロセッサが搭載されるサーバ等のシステムの処理性能を向上することができ、科学技術計算、ディープラーニングまたは各種シミュレーション等に掛かる時間を短縮することができる。

【0160】

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

【符号の説明】

【0161】

１１命令キャッシュ
１２命令バッファ
１３命令デコーダ
１４、１５リザベーションステーション
２０、２０Ａ、２０Ｂ演算実行部
２１、２２レジスタ
２３オペランドレジスタ
２４リザルトレジスタ
２５浮動小数点演算器
２６アドレス生成演算器
３０ロードストア部
３１ロードストアキュー
３２データキャッシュ
１００、１００Ａプロセッサ
ＢＸ１－ＳＥＬ、ＢＸ２－ＳＥＬ選択信号
ＢＸ－ＵＳＥ、ＢＸ１－ＵＳＥ、ＢＸ２－ＵＳＥシフト有効信号
ＥＮＢイネーブル端子
ＦＭＡ浮動小数点演算器
ＦＰＲ、ＧＰＲレジスタ
ＯＰＲＧオペランドレジスタ
ＲＲリザルトレジスタ
ＲＳＡ、ＲＳＥリザベーションステーション
ＳＦＴ１、ＳＦＴ２シフト演算器
ＳＦＲＧ１、ＳＦＲＧ２レジスタ
ＳＥＬ１、ＳＥＬ２セレクタ
ＶＬＤバリッド信号

【図1】