特開2024-25407 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2024-25407演算処理装置および演算処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024025407

(43)【公開日】2024-02-26

(54)【発明の名称】演算処理装置および演算処理方法

(51)【国際特許分類】

G06F 9/38 20180101AFI20240216BHJP

G06F 9/34 20180101ALI20240216BHJP

【ＦＩ】

G06F9/38 350B

G06F9/34 330

【審査請求】未請求

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2022128821

(22)【出願日】2022-08-12

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(71)【出願人】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100107515

【弁理士】

【氏名又は名称】廣田浩一

(72)【発明者】

【氏名】五島正裕

(72)【発明者】

【氏名】葛毅

【テーマコード（参考）】

5B013

5B033

【Ｆターム（参考）】

5B013AA12

5B013CC10

5B033DD09

(57)【要約】

【課題】複数のステージを含む実行ユニットの途中ステージでの演算結果をバイパス可能か否かを検出し、可能な場合にバイパスすることで、演算処理装置の処理性能を向上する。
【解決手段】演算処理装置は、実行可能な命令を発行する命令スケジューラと、命令の使用するデータを保持するレジスタファイルと、命令スケジューラが発行した命令を順次実行する複数のステージを含む実行ユニットと、複数のステージのうち、最終ステージより前の途中ステージでの演算結果が実行ユニットによる演算結果と同じになる早期終了を検出する検出部と、レジスタファイルから出力されるデータまたは実行ユニットからの演算結果を実行ユニットの入力に転送し、検出部が早期終了を検出した場合、途中ステージでの演算結果を実行ユニットの入力に転送するバイパス制御部と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

実行可能な命令を発行する命令スケジューラと、
命令の使用するデータを保持するレジスタファイルと、
前記命令スケジューラが発行した命令を順次実行する複数のステージを含む実行ユニットと、
前記複数のステージのうち、最終ステージより前の途中ステージでの演算結果が前記実行ユニットによる演算結果と同じになる早期終了を検出する検出部と、
前記レジスタファイルから出力されるデータまたは前記実行ユニットからの演算結果を前記実行ユニットの入力に転送し、前記検出部が前記早期終了を検出した場合、前記途中ステージでの演算結果を前記実行ユニットの入力にバイパスするバイパス制御部と、
を有する演算処理装置。

【請求項2】

命令をデコードし、デコードした命令を前記命令スケジューラに出力する命令デコーダを有し、
前記検出部は、前記命令デコーダに設けられ、デコードした命令に基づいて前記早期終了を検出する
請求項１に記載の演算処理装置。

【請求項3】

前記命令スケジューラは、先に発行した先行命令に対して依存する後続依存命令が前記実行ユニットに投入されるタイミングが、前記先行命令の演算結果が前記バイパス制御部を介して前記実行ユニットに投入されるタイミングと合うように前記後続依存命令を発行する
請求項２に記載の演算処理装置。

【請求項4】

前記命令スケジューラと前記実行ユニットとの間に配置され、前記命令スケジューラから発行される命令と前記バイパス制御部から転送されるソースオペランドとを順次保持する複数のエントリを含み、ソースオペランドが確定したエントリに保持された命令をソースオペランドとともに前記実行ユニットに発行する２次スケジューラを有し、
前記検出部は、前記実行ユニットに設けられる
請求項１に記載の演算処理装置。

【請求項5】

前記命令スケジューラは、先に発行した先行命令に対して依存する後続依存命令が前記実行ユニットに投入されるタイミングが、前記最終ステージでの演算結果が前記バイパス制御部を介して前記実行ユニットに投入されるタイミングより早くなるように、前記後続依存命令を発行する
請求項４に記載の演算処理装置。

【請求項6】

前記実行ユニットは、浮動小数点乗算器と前記浮動小数点乗算器の出力に接続される浮動小数点加算器とを含む浮動小数点積和演算回路を有し、
前記検出部は、前記浮動小数点積和演算回路により浮動小数点乗算が実行される場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記浮動小数点乗算器の乗算結果をバイパスする
請求項２ないし請求項５のいずれか１項に記載の演算処理装置。

【請求項7】

前記実行ユニットは、複数のシフト回路が直列に接続された論理演算回路を有し、
前記検出部は、シフト量が即値で与えられるシフト命令が前記複数のシフト回路により実行される場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記途中ステージの演算結果をバイパスする
請求項２ないし請求項５のいずれか１項に記載の演算処理装置。

【請求項8】

前記実行ユニットは、浮動小数点演算器と前記浮動小数点演算器による演算結果に"＋１"を加算する丸め処理回路とを含む浮動小数点演算回路を有し、
前記検出部は、浮動小数点演算回路により実行される浮動小数点演算命令が、演算結果に"＋１"を加算する丸めを発生させない丸めモードの場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記浮動小数点演算器の演算結果をバイパスする
請求項２ないし請求項５のいずれか１項に記載の演算処理装置。

【請求項9】

前記実行ユニットは、浮動小数点乗算器と前記浮動小数点乗算器の出力に接続される浮動小数点加算器とを含む浮動小数点積和演算回路を有し、
前記検出部は、乗算結果に加算する値が"０"である場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記浮動小数点乗算器の乗算結果をバイパスする
請求項４または請求項５に記載の演算処理装置。

【請求項10】

前記実行ユニットは、演算結果が非正規化数である場合に処理を実行する非正規化数処理回路を含む浮動小数点積和演算回路を有し、
前記検出部は、前記浮動小数点積和演算回路による加算結果が非正規化数でない場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記加算結果をバイパスする
請求項４または請求項５に記載の演算処理装置。

【請求項11】

前記実行ユニットは、浮動小数点演算器と前記浮動小数点演算器による演算結果に"＋１"を加算する丸め処理回路とを含む浮動小数点演算回路を有し、
前記検出部は、前記浮動小数点演算器による演算結果に対して"＋１"を加算する丸め処理が発生しない場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記浮動小数点演算器の演算結果をバイパスする
請求項４または請求項５に記載の演算処理装置。

【請求項12】

前記実行ユニットは、浮動小数点加算器と、前記浮動小数点加算器の出力に接続された正規化処理回路とを含む浮動小数点加算回路を有し、
前記検出部は、前記浮動小数点加算器による演算後の正規化処理が不要な場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記浮動小数点加算器の演算結果をバイパスする
請求項４または請求項５に記載の演算処理装置。

【請求項13】

前記実行ユニットは、整数加算器と、前記整数加算器の出力に接続された桁上がり処理部とを含む整数加算回路を有し、
前記検出部は、前記整数加算器による加算後の桁上がり処理が不要な場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記整数加算器の加算結果をバイパスする
請求項４または請求項５に記載の演算処理装置。

【請求項14】

前記実行ユニットは、複数のシフト回路が直列に接続された論理演算回路を有し、
前記検出部は、シフト量がレジスタファイルから与えられるシフト命令の前記論理演算回路による実行において、シフト結果が前記途中ステージで得られる場合、早期終了を検出し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記途中ステージでのシフト結果をバイパスする
請求項４または請求項５に記載の演算処理装置。

【請求項15】

互いに異なるデータを使用して１つの命令を並列に実行可能な複数の前記実行ユニットを有し、
前記検出部は、複数の前記実行ユニット毎に途中ステージでの演算結果をバイパス可能か否かを検出する
請求項４または請求項５に記載の演算処理装置。

【請求項16】

前記途中ステージの演算結果または前記最終ステージの演算結果を選択して前記実行ユニットの入力に出力する選択部を有し、
前記バイパス制御部は、前記検出部が早期終了を検出した場合、前記選択部に前記途中ステージの演算結果を選択させる
請求項１ないし請求項５のいずれか１項に記載の演算処理装置。

【請求項17】

前記バイパス制御部は、前記検出部が早期終了を検出した場合、複数の前記途中ステージでの複数の演算結果のうち、バイパス可能な演算結果のいずれかをバイパスする
請求項１ないし請求項５のいずれか１項に記載の演算処理装置。

【請求項18】

バイパスされる前記途中ステージでの演算結果は、前記バイパス制御部および前記レジスタファイルに転送され、
前記最終ステージの演算結果は、前記レジスタファイルに転送される
請求項１ないし請求項５のいずれか１項に記載の演算処理装置。

【請求項19】

実行可能な命令を発行する命令スケジューラと、命令に使用するデータを保持するレジスタファイルと、前記命令スケジューラが発行した命令を順次実行する複数のステージを含む実行ユニットと、前記レジスタファイルから出力されるデータまたは前記実行ユニットからの演算結果を前記実行ユニットの入力に転送するバイパス制御部と、を有する演算処理装置の演算処理方法であって、
前記演算処理装置が有する検出部が、
前記複数のステージのうち、最終ステージより前の途中ステージでの演算結果が前記実行ユニットによる演算結果と同じになる早期終了を検出し、
同じになる場合、前記途中ステージの演算結果を前記バイパス制御部に転送する
演算処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算処理装置および演算処理方法に関する。

【背景技術】

【0002】

命令を実行可能な順に演算の実行ユニットに発行する命令スケジューラを搭載し、アウトオブオーダ処理を実行することで処理性能を向上させたプロセッサが知られている（例えば、特許文献１－５参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０１７－５０９０６３号公報

【特許文献2】特表２０１８－５２３２４２号公報

【特許文献3】米国特許出願公開第２０１９／００１８６８４号明細書

【特許文献4】特表２０１７－５３７４０８号公報

【特許文献5】米国特許出願公開第２０１６／０１７９５５１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

アウトオブオーダ処理を実行する演算処理装置は、命令スケジューラから命令を発行する時点で演算の実行ユニットによる演算実行のサイクル数を決定する。演算実行のサイクル数は、実行レイテンシとも称される。そして、演算結果は、決定された実行レイテンシに対応するサイクルで実行ユニットの入力にバイパスされる。一方で、実行ユニットの正味の実行レイテンシは、入力されるデータまたは演算の種類によって変化する。

【0005】

例えば、乗算器と加算器とを含む積和演算器で積和演算命令と乗算命令とをそれぞれ実行する場合、正味の実行レイテンシは、乗算命令のほうが小さくなる。また、積和演算命令において、乗算結果と"０"とが加算される場合、加算器の実行結果を待たずに演算結果が求まる。このため、乗算結果と"０"とが加算される場合の正味のレイテンシは、乗算結果と"０"以外の値が加算される場合の正味のレイテンシに比べて小さくなる。しかしながら、命令スケジューラは、実行ユニットでの最長のレイテンシを使用して命令の発行タイミングを決定する。

【0006】

１つの側面では、本発明は、複数のステージを含む実行ユニットの途中ステージでの演算結果をバイパス可能か否かを検出し、可能な場合にバイパスすることで、演算処理装置の処理性能を向上することを目的とする。

【課題を解決するための手段】

【0007】

一つの観点によれば、演算処理装置は、実行可能な命令を発行する命令スケジューラと、命令の使用するデータを保持するレジスタファイルと、前記命令スケジューラが発行した命令を順次実行する複数のステージを含む実行ユニットと、前記複数のステージのうち、最終ステージより前の途中ステージでの演算結果が前記実行ユニットによる演算結果と同じになる早期終了を検出する検出部と、前記レジスタファイルから出力されるデータまたは前記実行ユニットからの演算結果を前記実行ユニットの入力に転送し、前記検出部が前記早期終了を検出した場合、前記途中ステージでの演算結果を前記実行ユニットの入力に転送するバイパス制御部と、を有する。

【発明の効果】

【0008】

複数のステージを含む実行ユニットの途中ステージでの演算結果をバイパス可能か否かを検出し、可能な場合にバイパスすることで、演算処理装置の処理性能を向上することができる。

【図面の簡単な説明】

【0009】

【図1】一実施形態における演算処理装置の要部の一例を示すブロック図である。

【図2】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図3】さらなる別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図4】図３の続きを示すブロック図である。

【図5】他の演算処理装置の要部の一例を示すブロック図である。

【図6】図５の続きを示すブロック図である。

【図7】さらなる他の演算処理装置の要部の一例を示すブロック図である。

【図8】図７の続きを示すブロック図である。

【図9】浮動小数点積和演算を実行する場合のパイプライン動作の例を示す説明図である。

【図10】浮動小数点積和演算を実行する場合の別の観点でのパイプライン動作の例を示す説明図である。

【図11】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図12】図１１の続きを示すブロック図である。

【図13】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図14】図１３の続きを示すブロック図である。

【図15】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図16】図１５の続きを示すブロック図である。

【図17】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図18】図１７の続きを示すブロック図である。

【図19】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図20】図１９の続きを示すブロック図である。

【図21】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図22】図２１の続きを示すブロック図である。

【図23】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図24】図２３の続きを示すブロック図である。

【図25】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図26】図２５の続きを示すブロック図である。

【図27】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図28】図２７の続きを示すブロック図である。

【図29】別の実施形態における演算処理装置の要部の一例を示すブロック図である。

【図30】図２９の続きを示すブロック図である。

【発明を実施するための形態】

【0010】

以下、図面を参照して、実施形態が説明される。

【0011】

図１は、一実施形態における演算処理装置の要部の一例を示す。図１に示す演算処理装置１０は、例えば、ＣＰＵ（Central Processing Unit）等のプロセッサである。演算処理装置１０は、命令デコーダＩＤ、命令スケジューラＩＳ、レジスタファイルＲＦ、バイパス制御部ＢＣＮＴおよび実行ユニットＥＸを有する。命令デコーダＩＤは、検出部ＤＥＴを有する。実行ユニットＥＸは、複数のステージＳＴＧ（ＳＴＧ１、ＳＴＧ２）を有する。なお、ステージＳＴＧの数は、３個以上でもよい。以下では、実行ユニットＥＸが積和演算回路を含む例が説明されるが、実行ユニットＥＸは、他の演算回路を含んでもよい。

【0012】

命令デコーダＩＤは、命令バッファ等から受信する命令をデコードし、デコードした命令を示す命令情報を命令スケジューラＩＳに出力する。検出部ＤＥＴは、デコードした命令の実行ユニットによる演算結果が、複数のステージＳＴＧの全てを使用せずに得られる早期終了か否かを判定し、判定結果を短縮フラグｓｈｔとして命令スケジューラＩＳに出力する。例えば、命令デコーダＩＤは、デコードした命令が、積和演算命令の場合、短縮フラグｓｈｔをリセットし、乗算命令の場合、短縮フラグｓｈｔをセットする。

【0013】

命令スケジューラＩＳは、命令デコーダＩＤから受信する命令情報および短縮フラグｓｈｔを順次保持する。命令スケジューラＩＳは、保持した命令情報のうち実行ユニットＥＸにより実行可能な命令情報と短縮フラグｓｈｔとを実行ユニットＥＸに順次投入し、実行可能な命令情報に含まれるレジスタ情報をレジスタファイルＲＦに順次出力する。以下では、命令スケジューラＩＳが出力する命令情報は、単に命令とも称される。

【0014】

この際、命令スケジューラＩＳは、早期終了か否かに応じて、先行命令に対して依存する後続依存命令の発行タイミングを変化させる。例えば、命令スケジューラＩＳは、後続依存命令の実行ユニットＥＸへの投入タイミングが、先行命令の演算結果がバイパス制御部ＢＣＮＴから実行ユニットＥＸにバイパスされるタイミングと合うように後続依存命令を発行する。これにより、短縮フラグｓｈｔの値に応じて実行ユニットＥＸから先行命令の演算結果が出力されるサイクルが変化する場合にも、後続依存命令の実行タイミングに合わせて先行命令の演算結果を実行ユニットＥＸにバイパスすることができる。

【0015】

レジスタファイルＲＦは、命令に使用するデータおよび演算結果をそれぞれ保持可能な複数のレジスタを有する。レジスタファイルＲＦは、命令スケジューラＩＳからのレジスタ情報（ソースオペランド）が示すレジスタから、実行ユニットＥＸが演算に使用するデータを取り出し、バイパス制御部ＢＣＮＴに出力する。

【0016】

また、レジスタファイルＲＦは、実行ユニットＥＸの最終ステージＳＴＧ２から出力される演算の実行結果ｒｓｌｔａ、または、実行ユニットＥＸの途中ステージＳＴＧ１から出力される演算の実行結果ｒｓｌｔｂを受信する。レジスタファイルＲＦは、受信した実行結果を、演算の実行結果とともに実行ユニットＥＸから受信するレジスタ情報（ディスティネーションオペランド）が示すレジスタに格納する。

【0017】

バイパス制御部ＢＣＮＴは、実行ユニットＥＸからイネーブル信号ｅｎａを受信した場合、最終ステージＳＴＧ２から出力される演算結果ｒｓｔｌａを選択し、ソースオペランドとして実行ユニットＥＸの入力（例えば、初段のステージＳＴＧ）に出力する。バイパス制御部ＢＣＮＴは、実行ユニットＥＸからイネーブル信号ｅｎｂを受信した場合、途中ステージＳＴＧ１から出力される演算結果ｒｓｔｌｂを選択し、ソースオペランドとして実行ユニットＥＸの入力に出力する。バイパス制御部ＢＣＮＴは、実行ユニットＥＸからイネーブル信号ｅｎａ、ｅｎｂのいずれも受信しない場合、レジスタファイルＲＦから出力されるソースオペランドを選択し、実行ユニットＥＸの入力に出力する。

【0018】

実行ユニットＥＸは、直列に接続される複数のステージＳＴＧをパイプライン動作させ、命令スケジューラＩＳから受信する命令を実行する。図１に示す例では、初段のステージＳＴＧ１（＝途中ステージＳＴＧ）は、乗算を実行し、最終ステージＳＴＧ２は、加算を実行する。例えば、実行ユニットＥＸは、積和演算器である。実行ユニットＥＸは、乗算命令を実行する場合、初段のステージＳＴＧにより演算結果を得ることができる。

【0019】

途中ステージＳＴＧ１は、短縮フラグｓｈｔがセットされている場合、演算結果ｒｓｌｔｂとともにイネーブル信号ｅｎｂをバイパス制御部ＢＣＮＴに出力する。これにより、実行ユニットＥＸが乗算命令を実行する場合、最終ステージＳＴＧ２から演算結果ｒｓｌｔａを出力する場合に比べて１サイクル早く演算結果ｒｓｌｔｂをバイパスさせることができる。

【0020】

なお、途中ステージＳＴＧ１は、短縮フラグｓｈｔがセットされている場合、イネーブル信号ｅｎａを出力しない。途中ステージＳＴＧ１は、短縮フラグｓｈｔがリセットされている場合、演算結果ｒｓｌｔｂの出力とともにイネーブル信号ｅｎａを最終ステージＳＴＧに出力する。最終ステージＳＴＧ２は、イネーブル信号ｅｎａを受けた場合、演算結果ｒｓｌｔａの出力とともに、イネーブル信号ｅｎａをバイパス制御部ＢＣＮＴに出力する。

【0021】

以上、この実施形態では、演算処理装置１０は、実行ユニットによる演算結果が、複数のステージＳＴＧの全てを使用せずに得られる早期終了を検出部ＤＥＴにより検出した場合、途中ステージＳＴＧ１での演算結果ｒｓｌｔｂをバイパスする。これにより、最終ステージＳＴＧ２から演算結果ｒｓｌｔａを出力する場合に比べて演算結果ｒｓｌｔｂを早くバイパスさせることができ、演算処理装置１０の処理性能を向上することができる。

【0022】

また、検出部ＤＥＴを命令デコーダＩＤに設けることで、途中ステージＳＴＧ１での演算結果ｒｓｌｔｂをバイパス可能か否か（すなわち、早期終了か否か）を命令のデコード時に判定することができる。命令スケジューラＩＳは、早期終了か否かに応じて、先行命令に対して依存する後続依存命令の発行タイミングを変化させる。これにより、短縮フラグｓｈｔの値に応じて実行ユニットＥＸから先行命令の演算結果が出力されるサイクルが変化する場合にも、後続依存命令の実行タイミングに合わせて先行命令の演算結果を実行ユニットＥＸにバイパスすることができる。

【0023】

なお、検出部ＤＥＴは、命令スケジューラＩＳに設けられてもよい。この場合、命令スケジューラＩＳは、命令デコーダＩＤから命令を受信してから実行ユニットＥＸに出力するまでの間に、早期終了か否かを判定し、判定結果に応じて短縮フラグｓｈｔをセットまたはリセットする。

【0024】

図２は、別の実施形態における演算処理装置の要部の一例を示す。図１と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１に示す演算処理装置１０Ａは、例えば、ＣＰＵ等のプロセッサである。演算処理装置１０Ａは、図１の演算処理装置１０に対して、新たに２次スケジューラ２Ｓを有する。２次スケジューラ２Ｓは、命令スケジューラＩＳと実行ユニットＥＸとの間に配置される。また、演算処理装置１０Ａは、命令デコーダＩＤに検出部ＤＥＴを設ける代わりに、途中ステージＳＴＧ１（この例では初段）に検出部ＤＥＴを設けている。実行ユニットＥＸは、例えば、積和演算命令（"ａ＊ｂ＋ｃ（＊は乗算符号）"）を実行する積和演算器である。

【0025】

２次スケジューラ２Ｓは、命令スケジューラＩＳから発行される命令と、バイパス制御部ＢＣＮＴから転送されるソースオペランドとを順次保持する複数のエントリを含む。２次スケジューラ２Ｓは、保持した命令およびソースオペランドを、所定サイクル遅延させる機能を有し、ソースオペランドが確定したエントリに保持された命令をソースオペランドとともに前記実行ユニットに発行する。

【0026】

これにより、例えば、演算結果が最終ステージＳＴＧ２からバイパスされる場合に、バイパス制御部ＢＣＮＴからソースオペランドを受信するまで、命令スケジューラＩＳから受信した命令の実行ユニットＥＸへの出力を待たせることができる。すなわち、実行ユニットＥＸから演算結果（ｒｓｌｔａまたはｒｓｌｔｂ）を出力するサイクルが変化する場合にも、２次スケジューラ２Ｓにより命令スケジューラＩＳからの命令とバイパス制御部ＢＣＮＴからのソースオペランドとを待ち合わせすることができる。

【0027】

途中ステージＳＴＧ１に設けられる検出部ＤＥＴは、積和演算命令（"ａ＊ｂ＋ｃ"）の"ｃ"が"０"であることを検出した場合、イネーブル信号ｅｎａをリセットし、イネーブル信号ｅｎｂをセットする。検出部ＤＥＴは、積和演算命令（"ａ＊ｂ＋ｃ"）の"ｃ"が"０"でないことを検出した場合、イネーブル信号ｅｎａをセットし、イネーブル信号ｅｎｂをリセットする。

【0028】

これにより、積和演算命令（"ａ＊ｂ＋ｃ"）の"ｃ"が"０"の場合、途中ステージＳＴＧ１から演算結果をバイパスさせることができる。すなわち、最終ステージＳＴＧから演算結果ｒｓｌｔａをバイパスする場合に比べて１サイクル早く演算結果ｒｓｌｔｂをバイパスさせることができる。

【0029】

なお、例えば、実行ユニットＥＸが５段のステージＳＴＧを有し、検出部ＤＥＴが２段目のステージＳＴＧに設けられるとする。この場合、命令スケジューラＩＳは、後続依存命令の実行ユニットＥＸへの投入タイミングが、先行命令の最終ステージＳＴＧでの演算結果がバイパスされて実行ユニットＥＸに投入されるタイミングより早くなるように、後続依存命令を発行してもよい。すなわち、命令スケジューラＩＳは、先行命令の発行から後続依存命令の発行までのサイクルを、２サイクル以上５サイクル未満に設定してもよい。この場合にも、２次スケジューラ２Ｓにより、先行命令の演算結果と後続依存命令との実行ユニットＥＸへの投入タイミングを合わせることができる。

【0030】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、演算処理装置１０Ａは、早期終了を検出部ＤＥＴにより検出した場合、途中ステージＳＴＧ１での演算結果ｒｓｌｔｂをバイパスすることで、演算結果ｒｓｌｔａに比べて早く演算結果ｒｓｌｔｂをバイパスさせることができる。

【0031】

この際、途中ステージＳＴＧ１に設けられる検出部ＤＥＴにより、演算結果ｒｓｌｔｂをバイパス可能か否かを判定することができる。このため、命令コードでは判別できないソースオペランドの値に応じて、演算結果ｒｓｌｔｂをバイパス可能か否かを判定することができる。この結果、最終ステージＳＴＧ２から演算結果ｒｓｌｔａを出力する場合に比べて早く演算結果ｒｓｌｔｂをバイパスさせることができ、演算処理装置１０の処理性能を向上することができる。

【0032】

２次スケジューラ２Ｓが設けられるため、命令スケジューラＩＳは、先行命令の発行から後続依存命令の発行までのサイクル数を可変にすることができる。この場合にも、先行命令の演算結果と後続依存命令との実行ユニットＥＸへの投入タイミングを合わせることができる。

【0033】

なお、演算処理装置１０Ａは、図２の検出部ＤＥＴに加えて、図１と同様に、命令デコーダＩＤに検出部ＤＥＴを設けてもよい。これにより、実行ユニットＥＸに命令が発行される前と後との両方で演算結果ｒｓｌｔｂをバイパス可能か否かを判定することができる。この結果、検出部ＤＥＴが途中ステージＳＴＧのみに設けられる場合に比べて、演算結果ｒｓｌｔｂのバイパス頻度を向上することができ、演算処理装置１０Ａの処理性能をさらに向上することができる。

【0034】

図３および図４は、さらなる別の実施形態における演算処理装置の要部の一例を示す。図１と同様の要素については、同じ符号を付し、詳細な説明は省略する。図４に示す回路は、図３に示す回路の続きを示し、Ａ－Ａ'線を境界として図３に示す回路と接続される。図３および図４に示す演算処理装置１０Ｂは、例えば、ＣＰＵ等のプロセッサである。例えば、図３は、命令デコーダＩＤおよび命令スケジューラＩＳを含むフロントエンド側の回路を示し、図４は、実行ユニットＥＸを含むバックエンド側の回路を示す。太線で示す信号線は、複数ビットのデータ線を示す。

【0035】

演算処理装置１０Ｂは、命令デコーダＩＤ、命令スケジューラＩＳ、レジスタファイルＲＦ、コンパレータＣ１、Ｃ２、マルチプレクサＭＵＸ１、複数のＦＩＦＯ（First-In First-Out）ロジック部および複数のフリップフロップＦＦを有する。複数のフリップフロップＦＦは、クロックに同期して動作する。また、演算処理装置１０Ｂは、コンパレータＣ３、Ｃ４、マルチプレクサＭＵＸ２、ロジック回路ＬＧＣ１－ＬＧＣ４および出力制御部ＯＵＴＣＮＴを有する。

【0036】

ロジック回路ＬＧＣ１－ＬＧＣ４は、命令を実行する実行ユニットの一例である。以下では、５個のＦＩＦＯロジック部は、ＦＩＦＯ１－ＦＩＦＯ５と称される。演算処理装置１０Ｂのパイプラインの各ステージは、直列に接続されたフリップフロップＦＦにより区切られる。そして、命令を実行するための命令情報は、クロックサイクル毎に次のステージに転送される。

【0037】

命令デコーダＩＤは、命令バッファ等から受信する命令をデコードし、タグｔａｇＤ、ｔａｇ１およびバリッドフラグｖａｌｉｄ等の命令情報を生成し、生成した命令情報を命令スケジューラＩＳに出力する。タグｔａｇＤは、演算結果であるディスティネーションオペランドが格納される物理レジスタの番号を含む。タグｔａｇ１は、演算に使用するデータであるソースオペランドが格納される物理レジスタの番号を含む。バリッドフラグｖａｌｉｄは、タグｔａｇＤおよびタグｔａｇ１等の命令情報が有効な場合に"１"に設定される。なお、説明の簡単化のため、命令コードおよび２つ目以降のソースオペランドを示すタグは、省略されている。

【0038】

命令デコーダＩＤは、短縮検出部ｓｈｔｄｅｔ１を有する。短縮検出部ｓｈｔｄｅｔ１は、デコードした命令の実行ユニットによる演算結果が、ロジック回路ＬＧＣ１－ＬＧＣ４の全てを使用せずに得られる早期終了を検出した場合、短縮フラグｓｈｔを"１"に設定して命令スケジューラＩＳに出力する。短縮検出部ｓｈｔｄｅｔ１は、デコードした命令による演算の結果が、ロジック回路ＬＧＣ１－ＬＧＣ４の全てを使用して得られることを検出した場合、短縮フラグｓｈｔを"０"に設定して命令スケジューラＩＳに出力する。短縮検出部ｓｈｔｄｅｔ１は、デコードした命令に基づいて早期終了を検出する検出部の一例である。

【0039】

例えば、実行ユニットＥＸが積和演算命令等を実行する積和演算回路である場合、短縮検出部ｓｈｔｄｅｔ１は、デコードした命令が、乗算命令である場合、短縮フラグｓｈｔを"１"に設定する。図３および図４に示す破線枠は、命令デコーダＩＤで生成される短縮フラグｓｈｔの実行ユニットＥＸまでの伝搬経路と伝搬経路に含まれる回路とを示す。

【0040】

命令スケジューラＩＳは、命令セレクタＳＥＬと複数のエントリを有するキューＱとを有する。キューＱは、命令デコーダＩＤから受信するタグｔａｇＤ、ｔａｇ１、バリッドフラグｖａｌｉｄおよび短縮フラグｓｈｔ等の命令情報を順次保持する。命令セレクタＳＥＬは、キューＱの複数のエントリのうち、実行ユニットＥＸにより実行可能な命令情報を保持しているエントリを選択し、選択した命令情報を命令として発行する。命令スケジューラＩＳにより、命令デコーダＩＤからインオーダで受信した命令をアウトオブオーダで実行ユニットＥＸに出力することが可能になり、命令のアウトオブオーダ実行が可能になる。

【0041】

ここで、命令スケジューラＩＳの命令セレクタＳＥＬにより選択された命令情報がＦＩＦＯ１－ＦＩＦＯ５のフリップフロップＦＦ１に届くまでのサイクル数は、発行レイテンシとも称される。また、命令情報がＦＩＦＯ１－ＦＩＦＯ５のフリップフロップＦＦ２から出力されてから実行ユニットＥＸによる演算が完了するまでのサイクル数は、実行レイテンシとも称される。複数のフリップフロップＦＦ１と複数のフリップフロップＦＦ２との各々は、命令スケジューラＩＳから発行される命令と、レジスタファイルＲＦおよびバスＢ１、Ｂ２から転送されるソースオペランドとを保持するエントリの一例である。

【0042】

レジスタファイルＲＦは、演算に使用するデータ（ソースオペランド）および演算結果（ディスティネーションオペランド）をそれぞれ保持する複数のレジスタを有する。レジスタファイルＲＦは、タグｔａｇ１で示されるレジスタに保持されたデータＤＴ（ソースオペランド）をＦＩＦＯ４を介して実行ユニットＥＸに出力する。

【0043】

また、レジスタファイルＲＦは、バスＢ１またはバスＢ２を介して実行ユニットＥＸから受信する演算結果（ディスティネーションオペランド）、タグｔａｇＤおよびイネーブル信号ｅｎ１、ｅｎ２を書き込みポートで受信する。レジスタファイルＲＦは、書き込みポートで受信した演算結果を、演算結果に対応するタグｔａｇＤで示されるレジスタに格納する。

【0044】

各ＦＩＦＯ１－ＦＩＦＯ５は２段構成である。図４に示すように、各ＦＩＦＯ１－ＦＩＦＯ５は、命令情報を各フリップフロップＦＦ１、ＦＦ２で遅延させるか否かを制御するマルチプレクサＭＵＸａ、ＭＵＸｂと、マルチプレクサＭＵＸａ、ＭＵＸｂを制御する制御部ＣＮＴとを有する。制御部ＣＮＴは、演算処理装置１０Ｂ内で生成されるＦＩＦＯ制御信号ＦＣＮＴに応じて、マルチプレクサＭＵＸａ、ＭＵＸｂの選択を制御する選択信号を生成する。

【0045】

フリップフロップＦＦ１は、マルチプレクサＭＵＸａから出力される命令情報ｎｅｘｔａを受け、命令情報ｃｕｒｒａとしてマルチプレクサＭＵＸａ、ＭＵＸｂに出力する。フリップフロップＦＦ２は、マルチプレクサＭＵＸｂから出力される命令情報ｎｅｘｔｂを受け、命令情報ｃｕｒｒｂとしてマルチプレクサＭＵＸｂおよび実行ユニットＥＸに出力する。

【0046】

ＦＩＦＯ１－ＦＩＦＯ５は、命令スケジューラＩＳから実行ユニットＥＸに転送される命令情報の転送サイクルを遅延させることで、命令スケジューラＩＳが命令を発行した後に、演算結果のバイパスタイミングを調整することができる。すなわち、ＦＩＦＯ１－ＦＩＦＯ５は、命令スケジューラＩＳにより決定されたバイパスタイミングを調整する２次スケジューラとして機能する。

【0047】

ＦＩＦＯ１－ＦＩＦＯ５を設けることにより、命令スケジューラＩＳで予測できなかった不測の事態が発生した場合にも、ストールまたはフラッシュの発生を抑制することができる。パイプライン内に設けられるＦＩＦＯ１－ＦＩＦＯ５を使用してバイパスタイミングを調整する手法は、ＯｏＳ（Out-of-Step）と称される。また、ＦＩＦＯ１－ＦＩＦＯ５を含むパイプラインは、ＯｏＳパイプラインと称される。

【0048】

例えば、ＯｏＳパイプラインについては、以下の論文に記載されている。
葛毅ほか, 「ギャザー/スキャッタを効率化するOut-of-Stepパイプライン」, 情報処理学会研究報告, 2021-03-18
＜URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=210485&item_no=1&page_id=13&block_id=8＞

【0049】

【0050】

実行レイテンシは、実行ユニットＥＸの全てのロジック回路ＬＧＣ１－ＬＧＣ４を使用して演算結果が出力される場合の最悪実行レイテンシと、ロジック回路ＬＧＣ１－ＬＧＣ２のみを使用して演算結果が出力される場合の短縮実行レイテンシとがある。図４に示す例では、最悪実行レイテンシは"４"であり、短縮実行レイテンシは"２"である。

【0051】

バスＢ１は、最悪実行レイテンシでのバイパス時の演算結果が転送され、バスＢ２は、短縮実行レイテンシでのバイパス時の演算結果が転送される。バスＢ１、Ｂ２の各々は、演算結果を転送するデータ線と、タグｔａｇＤを転送する信号線と、バイパスが有効であることを示すイネーブル信号ｅｎ（ｅｎ１またはｅｎ２）を転送する信号線とを含む。

【0052】

なお、バイパスタイミングを調整可能なＯｏＳ手法を採用する場合、短縮実行レイテンシは、最悪実行レイテンシ未満であれば、最小の短縮実行レイテンシより大きくてもよい。命令スケジューラＩＳは、命令に依存性がある場合、先行依存命令の演算結果が短縮実行レイテンシでバイパスされるタイミングに合わせて、後続依存命令を発行する。

【0053】

図４では、演算器であるロジック回路ＬＧＣ１－ＬＧＣ４は、浮動小数点積和演算回路ＦＭＡ（Fused Multiply-Add）の実行ユニットＥＸとして機能する。以下では、浮動小数点積和演算回路ＦＭＡは、単にＦＭＡとも称される。例えば、浮動小数点乗算器ｆｍｕｌの機能がロジック回路ＬＧＣ１、ＬＧＣ２により実現され、浮動小数点加算器ｆａｄｄの機能がロジック回路ＬＧＣ３、ＬＧＣ４により実現される。

【0054】

このため、命令デコーダＩＤが浮動小数点乗算命令をデコードした場合、乗算器ｆｍｕｌのロジック回路ＬＧＣ２が出力するデータが演算結果となる。浮動小数点乗算命令をデコードした場合、命令デコーダＩＤは、早期終了を検出し、乗算結果をロジック回路ＬＧＣ２の出力からバスＢ２を介してバイパスさせるために"１"の短縮フラグｓｈｔを付加する。

【0055】

一方、命令デコーダＩＤが浮動小数点積和演算命令をデコードした場合、加算器ｆａｄｄが出力するデータが演算結果となる。また、命令デコーダＩＤが浮動小数点加算命令をデコードした場合、加算器ｆａｄｄが出力するデータが演算結果となる。これらの場合、命令デコーダＩＤは、早期終了を検出せず、加算結果をロジック回路ＬＧＣ４の出力からバスＢ１を介してバイパスさせるために"０"の短縮フラグｓｈｔを付加する。

【0056】

加算命令を実行するロジック回路ＬＧＣ１、ＬＧＣ２のうちのロジック回路ＬＧＣ２は、短縮検出部ｓｈｔｄｅｔ２を有する。短縮検出部ｓｈｔｄｅｔ２は、"ａ＊ｂ＋ｃ（＊は乗算符号）"で示される浮動小数点積和演算命令の"ｃ"が"０"であることを検出した場合、早期終了を検出し、"１"に設定した短縮検出信号ｓｈｔ２を出力制御部ＯＵＴＣＮＴに出力する。

【0057】

短縮検出部ｓｈｔｄｅｔ２は、実行ユニットＥＸの途中ステージの演算結果に基づいて早期終了を検出する検出部の一例である。なお、短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ１、ＬＧＣ２で実行する命令が、浮動小数点乗算命令である場合にも、早期終了を検出し、"１"に設定した短縮検出信号ｓｈｔ２を出力制御部ＯＵＴＣＮＴに出力してもよい。

【0058】

短縮検出部ｓｈｔｄｅｔ２により、実行ユニットＥＸの内部で生成されるデータに応じて、演算結果を短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。すなわち、適切な実行レイテンシが命令の発行時に定まらない場合にも、命令の発行後に適切な実行レイテンシを設定することができる。なお、図３および図４では、説明の簡単化のため、着目する演算の実行ユニット（図４ではＦＭＡ）と、その実行ユニットに関連する回路要素が示される。

【0059】

演算処理装置１０Ｂは、整数演算回路または論理演算回路ＡＬＵ（Arithmetic Logic Unit）等を含む他の実行ユニットＥＸを有してもよい。この場合、短縮検出部ｓｈｔｄｅｔ１は、複数の実行ユニットＥＸに共通に設けられ、短縮検出部ｓｈｔｄｅｔ２は、実行ユニットＥＸ毎に設けられる。

【0060】

出力制御部ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"１"の短縮フラグｓｈｔを受信した場合、"０"のイネーブル信号ｅｎ１と"１"のイネーブル信号ｅｎ２とを出力する。出力制御部ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"１"の短縮フラグｓｈｔ２を受信した場合、"０"のイネーブル信号ｅｎ１と"１"のイネーブル信号ｅｎ２とを出力する。また、出力制御部ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"０"の短縮フラグｓｈｔ、ｓｈｔ２を受信した場合、"１"のイネーブル信号ｅｎ１と"０"のイネーブル信号ｅｎ２とを出力する。

【0061】

イネーブル信号ｅｎ２は、バスＢ２を介してコンパレータＣ２、Ｃ４およびレジスタファイルＲＦに転送される。イネーブル信号ｅｎ１は、加算器ｆａｄｄに設けられるフリップフロップＦＦおよびバスＢ１を介してコンパレータＣ１、Ｃ３およびレジスタファイルＲＦに転送される。

【0062】

コンパレータＣ１は、"１"のイネーブル信号ｅｎ１の受信時、バスＢ１からのタグｔａｇＤとＦＩＦＯ５からのタグｔａｇ１（ｎｅｘｔａ）とが一致している場合、バスＢ１からの演算結果をマルチプレクサＭＵＸ１に選択させる信号を出力する。コンパレータＣ２は、"１"のイネーブル信号ｅｎ２の受信時、バスＢ２からのタグｔａｇＤとＦＩＦＯ５からのタグｔａｇ１（ｎｅｘｔａ）とが一致している場合、バスＢ２からの演算結果をマルチプレクサＭＵＸ１に選択させる信号を出力する。

【0063】

マルチプレクサＭＵＸ１は、コンパレータＣ１から選択信号を受信した場合、バスＢ１からの演算結果を選択してフリップフロップＦＦ１に出力する。マルチプレクサＭＵＸ１は、コンパレータＣ２から選択信号を受信した場合、バスＢ２からの演算結果を選択してフリップフロップＦＦ１に出力する。マルチプレクサＭＵＸ１は、コンパレータＣ１、Ｃ２のいずれからも選択信号を受信しない場合、ＦＩＦＯ４からのデータｎｅｘｔａ（すなわち、レジスタファイルＲＦからのデータＤＴ）を選択してフリップフロップＦＦ１に出力する。

【0064】

コンパレータＣ３は、"１"のイネーブル信号ｅｎ１の受信時、バスＢ１からのタグｔａｇＤとＦＩＦＯ５からのタグｔａｇ１（ｎｅｘｔｂ）とが一致している場合、バスＢ１からの演算結果をマルチプレクサＭＵＸ２に選択させる信号を出力する。コンパレータＣ４は、"１"のイネーブル信号ｅｎ２の受信時、バスＢ２からのタグｔａｇＤとＦＩＦＯ５からのタグｔａｇ１（ｎｅｘｔｂ）とが一致している場合、バスＢ２からの演算結果をマルチプレクサＭＵＸ２に選択させる信号を出力する。

【0065】

出力制御回路ＯＵＴＣＮＴおよびコンパレータＣ１－Ｃ４は、短縮検出部ｓｈｔｄｅｔ１、ｓｈｔｄｅｔ２の一方または両方が早期終了を検出した場合、途中ステージでの演算結果を実行ユニットＥＸの入力にバイパスするバイパス制御部の一例である。この実施形態では、短縮検出部ｓｈｔｄｅｔ１、ｓｈｔｄｅｔ２の一方または両方が早期終了を検出した場合、出力制御回路ＯＵＴＣＮＴは、コンパレータＣ１－Ｃ４を制御して浮動小数点乗算器ｆｍｕｌの乗算結果をバイパスする。

【0066】

マルチプレクサＭＵＸ２は、コンパレータＣ３から選択信号を受信した場合、バスＢ１からの演算結果を選択してフリップフロップＦＦ２に出力する。マルチプレクサＭＵＸ２は、コンパレータＣ４から選択信号を受信した場合、バスＢ２からの演算結果を選択してフリップフロップＦＦ２に出力する。マルチプレクサＭＵＸ２は、コンパレータＣ３、Ｃ４のいずれからも選択信号を受信しない場合、ＦＩＦＯ４からのデータｎｅｘｔｂ（すなわち、レジスタファイルＲＦからのデータＤＴ）を選択してフリップフロップＦＦ２に出力する。

【0067】

なお、命令デコーダＩＤの短縮検出部ｓｈｔｄｅｔ１は、設けられなくてもよい。この場合、破線枠で示す短縮フラグｓｈｔを保持するキューＱと、短縮フラグｓｈｔを転送するフリップフロップＦＦおよびＦＩＦＯ３とは、設けられない。また、出力制御部ＯＵＴＣＮＴは、短縮検出部ｓｈｔｄｅｔ２による検出結果のみに基づいて、短縮実行レイテンシでのバイパスを制御する。

【0068】

演算処理装置１０Ｂは、ＳＩＭＤ演算命令を実行可能なＳＩＭＤプロセッサでもよい。この場合、演算処理装置１０Ｂは、互いに異なるデータを使用して１つの命令を並列に実行可能な複数の実行ユニットＥＸを有する。レジスタファイルＲＦは、複数の実行ユニットＥＸで使用するデータを保持する複数のレジスタを有する。

【0069】

ＳＩＭＤプロセッサに搭載される短縮検出部ｓｈｔｄｅｔ１は、複数の実行ユニットＥＸに共通に共通に設けられ、各実行ユニット用の命令に基づいて早期終了を検出する。短縮検出部ｓｈｔｄｅｔ２は、実行ユニットＥＸ毎に設けられ、実行ユニットＥＸ毎に早期終了を検出する。また、複数組のコンパレータＣ１、Ｃ２、複数のマルチプレクサＭＵＸ１、複数組のコンパレータＣ３、Ｃ４、複数のマルチプレクサＭＵＸ２および出力制御部ＯＵＴＣＮＴが、複数の実行ユニットＥＸにそれぞれ対応して設けられる。

【0070】

図５および図６は、他の演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図５および図６に示す演算処理装置２０は、図３および図４に示す演算処理装置１０ＢからＦＩＦＯ１－ＦＩＦＯ５および短縮フラグｓｈｔ、ｓｈｔ２に関連する回路を削除した構成と同様である。

【0071】

演算処理装置２０に搭載されるＦＭＡの実行レイテンシは、ロジック回路ＬＧＣ１－ＬＧＣ４に対応する"４"に固定されており、短縮実行レイテンシは存在しない。実行ユニットＥＸから出力される演算結果のバイパス経路は、ロジック回路ＬＧＣ４の出力に接続されるバスＢ１のみである。また、演算処理装置２０は、ＦＩＦＯ１－ＦＩＦＯ５を使用したＯｏＳ手法を採用しないため、演算結果のバイパスは、マルチプレクサＭＵＸ２による１箇所のみで実施される。

【0072】

図７および図８は、さらなる他の演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図７および図８に示す演算処理装置３０は、図３および図４に示す演算処理装置１０Ｂから短縮フラグｓｈｔ、ｓｈｔ２に関連する回路を削除した構成と同様である。

【0073】

演算処理装置３０に搭載されるＦＭＡの実行レイテンシは、図５および図６に示した演算処理装置２０と同様に、ロジック回路ＬＧＣ１－ＬＧＣ４に対応する"４"に固定されており、短縮実行レイテンシは存在しない。実行ユニットＥＸから出力される演算結果のバイパス経路は、ロジック回路ＬＧＣ４の出力に接続されるバスＢ１のみである。但し、演算処理装置３０は、ＦＩＦＯ１－ＦＩＦＯ５（ＦＩＦＯ３を除く）を使用したＯｏＳ手法を採用するため、演算結果のバイパスは、マルチプレクサＭＵＸ１、ＭＵＸ２による２箇所で実施可能である。

【0074】

図９は、浮動小数点積和演算を実行する場合のパイプライン動作の例を示す。図９に示す例では、先行する浮動小数点積和演算ｆｍａｄｄと、この浮動小数点積和演算命令ｆｍａｄｄと依存関係がある後続依存命令とが順次実行される。図中の矩形は、サイクル（すなわち、ステージ）を示す。符号Ｉ０－Ｉ４は、命令の発行ステージを示し、符号Ｅ０－Ｅ３は、命令の実行ステージを示す。先行命令の実行ステージＥ０、Ｅ１は、浮動小数点乗算器ｆｍｕｌによる乗算命令の実行サイクルを示す。先行命令の実行ステージＥ２、Ｅ３は、浮動小数点加算器ｆａｄｄによる加算命令の実行サイクルを示す。

【0075】

演算処理装置２０、３０の命令スケジューラＩＳは、先行命令（ｆｍａｄｄ）を発行した後、浮動小数点積和演算命令ｆｍａｄｄの実行レイテンシ（＝"４"）後に後続依存命令を発行する。演算処理装置１０Ｂの命令スケジューラＩＳは、先行命令（ｆｍａｄｄ）を発行した後、浮動小数点積和演算命令ｆｍａｄｄの短縮実行レイテンシ（＝"２"）後に後続依存命令を発行する。

【0076】

先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"でない場合、演算結果は、実行ステージＥ３により得られる。演算処理装置２０、３０では、先行命令の実行ステージＥ３による演算結果は、先行命令の実行ステージＥ３の次のサイクルで後続依存命令の実行ステージＥ０にバイパスされる。演算処理装置１０Ｂでは、後続依存命令の発行ステージＩ４の次のサイクルで先行命令の演算結果が得られない。このため、後続依存命令は、ＦＩＦＯ１－ＦＩＦＯ５による２次スケジューラにより２サイクルストールされる。

【0077】

そして、先行命令の実行ステージＥ３による演算結果は、先行命令の実行ステージＥ３の次のサイクルで後続依存命令の実行ステージＥ０にバイパスされる。したがって、先行依存命令の演算結果が短縮実行レイテンシでバイパスされるタイミングに合わせて後続依存命令を発行する場合にも、後続依存命令の実行ステージＥ３は、バイパスされる演算結果を受信することができる。この結果、演算処理装置１０Ｂの誤動作を抑止することができる。

【0078】

先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"の場合、演算結果は、実行ステージＥ１により得られる。演算処理装置２０、３０では、先行命令の実行ステージＥ３の次のサイクルで先行命令の演算結果が後続依存命令の実行ステージＥ０にバイパスされる。これに対して、演算処理装置１０Ｂでは、先行命令の実行ステージＥ１の次のサイクルで先行命令の演算結果を後続依存命令の実行ステージＥ０にバイパスすることができる。これにより、演算処理装置１０Ｂは、後続依存命令の演算結果を、演算処理装置２０、３０に比べて、２サイクル早く出力することができ、演算の処理効率を向上することができる。

【0079】

図１０は、浮動小数点積和演算を実行する場合の別の観点でのパイプライン動作の例を示す。図９と同様の動作については、詳細な説明は省略する。図１０においても、図９と同様に、先行する浮動小数点積和演算ｆｍａｄｄと、この浮動小数点積和演算命令ｆｍａｄｄと依存関係がある後続依存命令とが順次実行される。

【0080】

但し、図１０では、発行ステージは、２ステージＩ０、Ｉ１であり、後続依存命令の実行ステージは、１ステージＥ０である。先行命令の実行ステージＥ０、Ｅ１は、浮動小数点乗算器ｆｍｕｌによる乗算命令の実行サイクルを示す。先行命令の実行ステージＥ２、Ｅ３は、浮動小数点加算器ｆａｄｄによる加算命令の実行サイクルを示す。

【0081】

最悪実行レイテンシで常に動作させる場合で、先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"の場合、先行命令の演算結果が加算命令の実行サイクルＥ２、Ｅ３後にバイパスされるため、後続依存命令に無駄な待ちが発生してしまう。

【0082】

一方、短縮実行レイテンシで常に動作させる場合で、先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"でない場合、後続依存命令が先行命令の実行の完了前にソースオペランドを取得する。これにより、後続依存命令は、キャンセルされ再発行される。後続依存命令のキャンセルと再発行は、命令の処理性能を著しく低下させるため、短縮実行レイテンシで常に動作させる手法は、好ましくない。

【0083】

これに対して、図３および図４に示した演算処理装置１０Ｂでは、短縮レイテンシで命令が発行される場合にも、ＦＩＦＯ１－ＦＩＦＯ５でのストールによりバイパスの待ち合わせを遅らせることができる。この結果、先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"でない場合にも、後続依存命令のキャンセルおよび再発行を抑止することができる。また、演算処理装置１０Ｂでは、先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"でない場合、短縮レイテンシで先行命令の演算結果をバイパスさせることができる。

【0084】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、短縮検出部ｓｈｔｄｅｔ１により、実行ユニットＥＸに発行される演算命令に応じて、演算結果を短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。短縮検出部ｓｈｔｄｅｔ２により、実行ユニットＥＸの内部で生成されるデータに応じて、演算結果を短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。これにより、短縮実行レイテンシで演算結果を出力可能な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。

【0085】

例えば、ＦＭＡで乗算命令を実行する場合に、演算結果を短縮実行レイテンシでバイパスさせることができる。また、ＦＭＡで積和演算（ａ＊ｂ＋ｃ）を実行する場合で"ｃ"が"０"である場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｂの処理性能を向上することができる。

【0086】

さらに、この実施形態では、短縮検出部ｓｈｔｄｅｔ１、ｓｈｔｄｅｔ２が命令デコーダＩＤとロジック回路ＬＧＣ２とにそれぞれ設けられる。これにより、命令とソースオペランドとの両方で演算結果ｒｓｌｔｂをバイパス可能か否かを判定することができる。この結果、短縮実行レイテンシでの演算結果のバイパス頻度を向上することができ、演算処理装置１０Ｂの処理性能をさらに向上することができる。

【0087】

図１１および図１２は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１１および図１２に示す演算処理装置１０Ｃは、例えば、ＣＰＵ等のプロセッサである。

【0088】

演算処理装置１０Ｃは、図１２に示すバスＢ１、Ｂ２をバスＢ３に集約する３つのマルチプレクサＭＵＸ３（ＭＵＸ３１、ＭＵＸ３２、ＭＵＸ３３（図１２））を有することを除き、図３および図４に示した演算処理装置１０Ｂと同様の構成を有する。各マルチプレクサＭＵＸ３は、短縮検出部ｓｈｔｄｅｔ１または短縮検出部ｓｈｔｄｅｔ２が実行ユニットＥＸによる演算の早期終了を検出した場合、途中ステージであるロジック回路ＬＧＣ２での演算結果を選択する。そして、各マルチプレクサＭＵＸ３は、選択した演算結果を実行ユニットＥＸの入力およびレジスタファイルＲＦに転送する。各マルチプレクサＭＵＸ３は、途中ステージの演算結果または最終ステージの演算結果を選択して実行ユニットの入力に出力する選択部の一例である。

【0089】

例えば、マルチプレクサＭＵＸ３１は、イネーブル信号ｅｎ１が"１"の場合、バスＢ１に転送される演算結果をバスＢ３に出力し、イネーブル信号ｅｎ１が"０"の場合、バスＢ２に転送される演算結果をバスＢ３に出力する。マルチプレクサＭＵＸ３２は、イネーブル信号ｅｎ１が"１"の場合、バスＢ１に転送されるタグｔａｇＤをバスＢ３に出力し、イネーブル信号ｅｎ１が"０"の場合、バスＢ２に転送されるタグｔａｇＤをバスＢ３に出力する。

【0090】

マルチプレクサＭＵＸ３３は、イネーブル信号ｅｎ１が"１"の場合、バスＢ１に転送されるイネーブル信号ｅｎ１をイネーブル信号ｅｎとしてバスＢ３に出力する。また、マルチプレクサＭＵＸ３３は、イネーブル信号ｅｎ１が"０"の場合、バスＢ２に転送されるイネーブル信号ｅｎ２をイネーブル信号ｅｎとしてバスＢ３に出力する。

【0091】

なお、各マルチプレクサＭＵＸ３は、イネーブル信号ｅｎ１、ｅｎ２がともに"１"の場合、バスＢ１に転送されるデータおよび情報をバスＢ３に転送する。すなわち、イネーブル信号ｅｎ１、ｅｎ２がともに"１"の場合、最悪実行レイテンシによるバイパス動作が優先される。

【0092】

コンパレータＣ１、Ｃ３は、イネーブル信号ｅｎ１の代わりにイネーブル信号ｅｎを受けることを除き、図３および図４のコンパレータＣ１、Ｃ３と同じである。マルチプレクサＭＵＸ１は、コンパレータＣ１から選択信号を受信した場合、バスＢ３からの演算結果を選択する。マルチプレクサＭＵＸ１は、コンパレータＣ１から選択信号を受信しない場合、ＦＩＦＯ４からのデータｎｅｘｔａ（すなわち、レジスタファイルＲＦからのデータＤＴ）を選択する。

【0093】

マルチプレクサＭＵＸ２は、コンパレータＣ３から選択信号を受信した場合、バスＢ３からの演算結果を選択する。マルチプレクサＭＵＸ２は、コンパレータＣ３から選択信号を受信しない場合、ＦＩＦＯ４からのデータｎｅｘｔｂ（すなわち、レジスタファイルＲＦからのデータＤＴ）を選択する。

【0094】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、短縮検出部ｓｈｔｄｅｔ１、ｓｈｔｄｅｔ２により、短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。これにより、短縮実行レイテンシで演算結果を出力可能な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｃの処理性能を向上することができる。

【0095】

さらに、この実施形態では、マルチプレクサＭＵＸ３を設けることで、バスＢ１、Ｂ２をバスＢ３に集約することができ、図３および図４に比べて配線領域を小さくすることができる。また、図３および図４に対して、コンパレータＣ２、Ｃ４を削除することができ、レジスタファイルＲＦの書き込みポート数を削減することができる。この結果、演算処理装置１０Ｃの回路規模を演算処理装置１０Ｂの回路規模より小さくすることができる。

【0096】

図１３および図１４は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１３および図１４に示す演算処理装置１０Ｄは、例えば、ＣＰＵ等のプロセッサである。

【0097】

演算処理装置１０Ｄは、図３および図４に示す演算処理装置１０Ｂから短縮フラグｓｈｔに関連する回路を削除した構成と同様である。このため、図１３に示す命令デコーダＩＤは、図３に示した短縮検出部ｓｈｔｄｅｔ１を持たない。演算結果を短縮実行レイテンシまたは最悪実行レイテンシのいずれでバイパスさせるかは、ロジック回路ＬＧＣ２に設けられる短縮検出部ｓｈｔｄｅｔ２により決定される。

【0098】

出力制御回路ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"１"の短縮フラグｓｈｔ２を受信した場合、"０"のイネーブル信号ｅｎ１と"１"のイネーブル信号ｅｎ２とを出力する。また、出力制御部ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"０"の短縮フラグｓｈｔ２を受信した場合、"１"のイネーブル信号ｅｎ１と"０"のイネーブル信号ｅｎ２とを出力する。これにより、演算処理装置１０Ｄは、先行命令ｆｍａｄｄ（ａ＊ｂ＋ｃ）の"ｃ"が"０"の場合、演算結果を短縮実行レイテンシでバイパスすることができる。図１３に示す命令スケジューラＩＳは、先行命令（ｆｍａｄｄ）を発行した後、浮動小数点積和演算命令の短縮実行レイテンシ（＝"２"）後に後続依存命令を発行する。

【0099】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、短縮検出部ｓｈｔｄｅｔ２により、短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。これにより、短縮実行レイテンシで演算結果を出力可能な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｄの処理性能を向上することができる。

【0100】

図１５および図１６は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１５および図１６に示す演算処理装置１０Ｅは、例えば、ＣＰＵ等のプロセッサである。

【0101】

演算処理装置１０Ｅは、図３および図４に示す演算処理装置１０ＢからＦＩＦＯ１－ＦＩＦＯ５および短縮フラグｓｈｔ２に関連する回路を削除した構成と同様である。このため、図１６に示すロジック回路ＬＧＣ２は、図４に示した短縮検出部ｓｈｔｄｅｔ２を持たない。演算結果を短縮実行レイテンシまたは最悪実行レイテンシのいずれでバイパスさせるかは、命令デコーダＩＤに設けられた短縮検出部ｓｈｔｄｅｔ１により決定される。

【0102】

出力制御回路ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"１"の短縮フラグｓｈｔを受信した場合、"０"のイネーブル信号ｅｎ１と"１"のイネーブル信号ｅｎ２とを出力する。また、出力制御部ＯＵＴＣＮＴは、"１"のバリッドフラグｖａｌｉｄおよび"０"の短縮フラグｓｈｔを受信した場合、"１"のイネーブル信号ｅｎ１と"０"のイネーブル信号ｅｎ２とを出力する。

【0103】

これにより、演算処理装置１０Ｅは、浮動小数点積和演算回路で浮動小数点乗算命令を実行することを短縮検出部ｓｈｔｄｅｔ１で検出した場合、演算結果を短縮実行レイテンシでバイパスすることができる。図１５に示す命令スケジューラＩＳは、先行命令（ｆｍａｄｄ）を発行した後、浮動小数点積和演算命令の短縮実行レイテンシ（＝"２"）後に後続依存命令を発行する。

【0104】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、短縮検出部ｓｈｔｄｅｔ１により、演算結果を短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。これにより、短縮実行レイテンシで演算結果を出力可能な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｅの処理性能を向上することができる。

【0105】

図１７および図１８は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１７および図１８に示す演算処理装置１０Ｆは、例えば、ＣＰＵ等のプロセッサである。

【0106】

演算処理装置１０Ｆは、図３および図４に示す演算処理装置１０ＢからＦＩＦＯ１－ＦＩＦＯ５部および短縮フラグｓｈｔ２に関連する回路を削除した構成と同様である。このため、図１８に示す実行ユニットＥＸは、図４に示した短縮検出部ｓｈｔｄｅｔ２を持たない。演算結果を短縮実行レイテンシまたは最悪実行レイテンシのいずれでバイパスさせるかは、命令デコーダＩＤに設けられる短縮検出部ｓｈｔｄｅｔ１により決定される。

【0107】

演算処理装置１０Ｆの実行ユニットＥＸは、シフト演算を実行可能な直列に接続されたロジック回路ＬＧＣ１、ＬＧＣ２を含む論理演算回路ＡＬＵを有する。ロジック回路ＬＧＣ１は、"１"から"７"までのシフト量を処理するシフト回路の一例である。ロジック回路ＬＧＣ２は、"８"から"６３"までのシフト量を処理するシフト回路の一例である。

【0108】

そして、命令デコーダＩＤの短縮検出部ｓｈｔｄｅｔ１は、シフト量が即値で与えられるシフト命令において、シフト量が"１"から"７"までの場合、短縮フラグを"１"に設定し、シフト量が"８"から"６３"までの場合、短縮フラグを"０"に設定する。短縮検出部ｓｈｔｄｅｔ１が設定した短縮フラグｓｈｔは、出力制御回路ＯＵＴＣＮＴに転送される。

【0109】

【0110】

これにより、演算処理装置１０Ｆは、先行のシフト命令のシフト量が"１"から"７"までの場合、シフト命令の演算結果を短縮実行レイテンシでバイパスすることができる。演算処理装置１０Ｅは、先行のシフト命令のシフト量が"８"から"６３"までの場合、シフト命令の演算結果を最悪実行レイテンシでバイパスする。図１７に示す命令スケジューラＩＳは、先行命令（シフト命令）を発行した後、シフト命令の短縮実行レイテンシ（＝"１"）後に後続依存命令を発行する。通常、論理演算回路ＡＬＵは、１サイクルで演算が完了するように実装されるので性能的なメリットは少ないと考えられる。しかしながら、例えば、さらなる周波数の向上が期待できる。

【0111】

【0112】

例えば、シフト量が即値で与えられるシフト命令において、シフト量が少なくロジック回路ＬＧＣ１で演算結果が得られる場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｆの処理性能を向上することができる。

【0113】

図１９および図２０は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図１９および図２０に示す演算処理装置１０Ｇは、例えば、ＣＰＵ等のプロセッサである。

【0114】

演算処理装置１０Ｇは、図３および図４に示す演算処理装置１０ＢからＦＩＦＯ１－ＦＩＦＯ５部および短縮フラグｓｈｔ２に関連する回路を削除した構成と同様である。このため、図２０に示すロジック回路ＬＧＣ２は、図４に示した短縮検出部ｓｈｔｄｅｔ２を持たない。演算結果を短縮実行レイテンシまたは最悪実行レイテンシのいずれでバイパスさせるかは、命令デコーダＩＤに設けられる短縮検出部ｓｈｔｄｅｔ１により決定される。

【0115】

演算処理装置１０Ｇの実行ユニットＥＸは、ロジック回路ＬＧＣ１、ＬＧＣ２、ＬＧＣ３を含む浮動小数点演算回路を有する。ロジック回路ＬＧＣ１、ＬＧＣ２は、浮動小数点の演算を実行する浮動小数点演算器として動作する。ロジック回路ＬＧＣ３は、演算結果に"＋１"加算する丸め処理を実行する丸め処理回路として動作する。

【0116】

例えば、演算処理装置１０Ｇには、ＩＥＥＥ（The Institute of Electrical and Electronics Engineers）７５４（浮動小数点数演算標準）が採用される。ＩＥＥＥ７５４の丸めモードには、"round to nearest"、"round to zero"、"round to ＋無限大"、"round to －無限大"がある。４つの丸めモードのうち、"round to zero"は"＋１"加算が発生しない。

【0117】

命令デコーダＩＤの短縮検出部ｓｈｔｄｅｔ１は、丸めモードが"round to zero"の浮動小数点演算命令をデコードしたときに早期終了を検出し、短縮フラグｓｈｔを"１"に設定する。短縮検出部ｓｈｔｄｅｔ１は、丸めモードが"round to zero"以外の浮動小数点演算命令をデコードしたときに短縮フラグｓｈｔを"０"に設定する。

【0118】

これにより、丸めモードが"round to zero"の浮動小数点乗算命令を実行する場合、演算結果を短縮実行レイテンシでバイパスすることができる。図１９に示す命令スケジューラＩＳは、先行命令（浮動小数点演算命令）を発行した後、浮動小数点演算の短縮実行レイテンシ（＝"２"）後に後続依存命令を発行する。

【0119】

【0120】

例えば、丸めモードが"round to zero"の浮動小数点演算命令をデコードした場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｇの処理性能を向上することができる。

【0121】

図２１および図２２は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図２１および図２２に示す演算処理装置１０Ｈは、例えば、ＣＰＵ等のプロセッサである。

【0122】

演算処理装置１０Ｈは、図３および図４に示す演算処理装置１０Ｂにおける短縮フラグｓｈｔに関連する回路を削除している。このため、図２１に示す命令デコーダＩＤは、図３に示した短縮検出部ｓｈｔｄｅｔ１を持たない。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ４に搭載される。

【0123】

演算処理装置１０Ｈは、図３および図４に示す演算処理装置１０ＢのＦＭＡに、加算結果が非正規化数である場合の処理を実行するロジック回路ＬＧＣ５を追加している。ロジック回路ＬＧＣ５は、ロジック部ＬＧＣ１－ＬＧＣ４での演算結果が非正規化数である場合に処理を実行する非正規化数処理回路として動作する。非正規化数は、浮動小数点数の値を正規化した状態では表せない"０"に近い値を正規化せずに表現した数である。演算処理装置１０Ｈのその他の構成は、図３および図４に示した演算処理装置１０Ｂの構成と同様である。

【0124】

この実施形態のＦＭＡでは、短縮実行レイテンシは、積和演算（ｆｍｕｌ＋ｆａｄｄ）の実行に掛かる４サイクルに設定され、最悪実行レイテンシは、積和演算の実行と非正規化数処理の実行とに掛かる５サイクルに設定される。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ４により求められた積和演算結果が非正規化数でない場合、早期終了を検出し、短縮フラグｓｈｔ２を"１"に設定する。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ４により求められた積和演算結果が非正規化数である場合、短縮フラグｓｈｔ２を"０"に設定する。

【0125】

これにより、積和演算結果が非正規化数でない場合、演算結果を短縮実行レイテンシでバイパスすることができる。図２１に示す命令スケジューラＩＳは、先行命令（積和演算命令）を発行した後、浮動小数点積和演算命令の短縮実行レイテンシ（＝"４"）後に後続依存命令を発行する。

【0126】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、短縮検出部ｓｈｔｄｅｔ２により、演算結果を短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。これにより、短縮実行レイテンシで演算結果を出力可能な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。

【0127】

例えば、積和演算結果が非正規化数でない場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｈの処理性能を向上することができる。

【0128】

図２３および図２４は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図２３および図２４に示す演算処理装置１０Ｉは、例えば、ＣＰＵ等のプロセッサである。

【0129】

演算処理装置１０Ｉは、図３および図４に示す演算処理装置１０Ｂにおける短縮フラグｓｈｔに関連する回路を削除している。このため、図２３に示す命令デコーダＩＤは、図３に示した短縮検出部ｓｈｔｄｅｔ１を持たない。

【0130】

演算処理装置１０Ｉの実行ユニットＥＸは、図２０と同様に、浮動小数点演算命令を実行するロジック回路ＬＧＣ１、ＬＧＣ２、ＬＧＣ３を含む浮動小数点演算回路を有する。ロジック回路ＬＧＣ１、ＬＧＣ２は、浮動小数点の演算を実行する浮動小数点演算器として動作する。ロジック回路ＬＧＣ３は、演算結果に"＋１"加算する丸め処理を実行する丸め処理回路として動作する。

【0131】

短縮検出部ｓｈｔｄｅｔ２は、浮動小数点演算の丸め処理で"＋１"加算が発生しない場合、早期終了を検出し、短縮フラグｓｈｔ２を"１"に設定する。短縮検出部ｓｈｔｄｅｔ２は、浮動小数点演算の丸め処理で"＋１"加算が発生する場合に短縮フラグｓｈｔ２を"０"に設定する。

【0132】

これにより、浮動小数点演算の丸め処理で"＋１"加算が発生しない場合、演算結果を短縮実行レイテンシでバイパスすることができる。図２５に示す命令スケジューラＩＳは、先行命令（浮動小数点演算命令）を発行した後、浮動小数点演算命令の短縮実行レイテンシ（＝"２"）後に後続依存命令を発行する。

【0133】

なお、図１９と同様に、命令デコーダＩＤは、丸めモードが"round to zero"の浮動小数点演算命令をデコードしたときに短縮フラグｓｈｔを"１"に設定する短縮検出部ｓｈｔｄｅｔ１を有してもよい。このとき、出力制御回路ＯＵＴＣＮＴは、図４と同様に、短縮検出部ｓｈｔｄｅｔ１からの短縮フラグｓｈｔと短縮検出部ｓｈｔｄｅｔ２からの短縮フラグｓｈｔ２を受けて動作する。

【0134】

この場合、丸めモードが"round to zero"の浮動小数点演算命令の実行時、演算結果は、短縮検出部ｓｈｔｄｅｔ１からのフラグｓｈｔにより短縮実行レイテンシでバイパスされる。短縮検出部ｓｈｔｄｅｔ２は、丸めモードが"round to zero"の浮動小数点演算命令の丸め処理で"＋１"加算が発生しない場合、早期終了を検出し、短縮フラグｓｈｔ２を"１"に設定する。

【0135】

【0136】

例えば、浮動小数点演算の丸め処理で"＋１"加算が発生しない場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｉの処理性能を向上することができる。

【0137】

図２５および図２６は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図２５および図２６に示す演算処理装置１０Ｊは、例えば、ＣＰＵ等のプロセッサである。

【0138】

演算処理装置１０Ｊは、図３および図４に示す演算処理装置１０Ｂにおける短縮フラグｓｈｔに関連する回路を削除している。このため、図２５に示す命令デコーダＩＤは、図３に示した短縮検出部ｓｈｔｄｅｔ１を持たない。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ２に搭載される。

【0139】

演算処理装置１０Ｊの実行ユニットＥＸは、浮動小数点加算命令を実行するロジック回路ＬＧＣ１、ＬＧＣ２、ＬＧＣ３を含む浮動小数点加算回路を有する。ロジック回路ＬＧＣ１、ＬＧＣ２は、加算処理を実行する浮動小数点加算器として動作する。ロジック回路ＬＧＣ３は、加算結果の正規化処理（桁合わせのシフト処理）を実行する正規化処理回路として動作する。

【0140】

短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ２により求められた加算結果（例えば、減算結果）が、最後の桁合わせの正規化（シフト処理）を必要とするか否かを検出する。例えば、短縮検出部ｓｈｔｄｅｔ２は、仮数部を参照することで、既に正規化されているか否かを検出する。ここで、減算する値同士が離れている場合、最後の正規化が不要な場合がある。

【0141】

短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ２による演算後に桁合わせする正規化処理が不要な場合、早期終了を検出し、短縮フラグｓｈｔ２を"１"に設定する。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ２による演算後に桁合わせする正規化処理が必要な場合、短縮フラグｓｈｔ２を"０"に設定する。

【0142】

これにより、加算結果の最後の正規化処理が不要な場合、演算結果を短縮実行レイテンシでバイパスすることができる。図２５に示す命令スケジューラＩＳは、先行命令（浮動小数点加算命令）を発行した後、浮動小数点加算命令の短縮実行レイテンシ（＝"２"）後に後続依存命令を発行する。

【0143】

【0144】

例えば、浮動小数点加算回路による加算で最後の桁合わせの正規化が不要な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｊの処理性能を向上することができる。

【0145】

図２７および図２８は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図２７および図２８に示す演算処理装置１０Ｋは、例えば、ＣＰＵ等のプロセッサである。

【0146】

演算処理装置１０Ｋは、図３および図４に示す演算処理装置１０Ｂにおける短縮フラグｓｈｔに関連する回路を削除している。このため、図２７に示す命令デコーダＩＤは、図３に示した短縮検出部ｓｈｔｄｅｔ１を持たない。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ１に搭載される。

【0147】

演算処理装置１０Ｋの実行ユニットＥＸは、整数加算命令を実行可能なロジック回路ＬＧＣ１、ＬＧＣ２を含む論理演算回路ＡＬＵを有する。ロジック回路ＬＧＣ１は、加算処理を実行する整数加算器として動作する。ロジック回路ＬＧＣ２は、下位ビット群（例えば、下位の１６ビット）からのキャリーの伝搬処理を実行する桁上がり処理部として動作する。

【0148】

加算回路は、最下位ビットからのキャリーの伝搬がクリティカルパスになる。このため、図２８では、キャリーが伝搬される最悪実行レイテンシの場合と、キャリーが伝搬されない短縮実行レイテンシの場合とで実行ステージ数が異なるように整数加算回路が実装される。そして、キャリーが伝搬されない場合、加算結果を短縮実行レイテンシでバイパスさせる。

【0149】

図２８に示す整数加算回路は、例えば、３２ビット同士の加算において、ロジック回路ＬＧＣ１の演算で下位１６ビット同士の加算と上位１６ビット同士の加算を別に実行し、それぞれのキャリーを生成する。整数加算回路は、下位１６ビットからキャリーが伝搬する場合、ロジック回路ＬＧＣ２の演算で上位１６ビットに"＋１"を加算する。

【0150】

短縮検出部ｓｈｔｄｅｔ２は、下位１６ビットからキャリーが伝搬しない場合、早期終了を検出し、短縮フラグｓｈｔ２を"１"に設定する。すなわち、短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ１による加算後にロジック回路ＬＧＣ２による桁上がり処理が不要な場合、早期終了を検出する。短縮検出部ｓｈｔｄｅｔ２は、下位１６ビットからキャリーが伝搬する場合、短縮フラグｓｈｔ２を"０"に設定する。

【0151】

これにより、下位１６ビットからキャリーが伝搬しない場合、演算結果を短縮実行レイテンシでバイパスすることができる。図２７に示す命令スケジューラＩＳは、先行命令（整数加算命令）を発行した後、整数加算命令の短縮実行レイテンシ（＝"１"）後に後続依存命令を発行する。

【0152】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、短縮検出部ｓｈｔｄｅｔ２により、演算結果を短縮実行レイテンシでバイパスさせるか最悪実行レイテンシでバイパスさせるかを決定することができる。そして、短縮実行レイテンシで演算結果を出力可能な場合、演算結果を短縮実行レイテンシでバイパスさせることができる。

【0153】

例えば、３２ビット同士の加算を１６ビット同士の加算に分けて実行する整数加算回路において、下位１６ビットからキャリーが伝搬しない場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｋの処理性能を向上することができる。

【0154】

図２９および図３０は、別の実施形態における演算処理装置の要部の一例を示す。図３および図４と同様の要素については、同じ符号を付し、詳細な説明は省略する。図２９および図３０に示す演算処理装置１０Ｌは、例えば、ＣＰＵ等のプロセッサである。

【0155】

演算処理装置１０Ｌは、図３および図４に示す演算処理装置１０Ｂにおける短縮フラグｓｈｔに関連する回路を削除している。このため、図２９に示す命令デコーダＩＤは、図３に示した短縮検出部ｓｈｔｄｅｔ１を持たない。短縮検出部ｓｈｔｄｅｔ２は、ロジック回路ＬＧＣ１に搭載される。

【0156】

演算処理装置１０Ｌの実行ユニットＥＸは、図１８と同様に、シフト演算を実行する直列に接続されたロジック回路ＬＧＣ１、ＬＧＣ２を含む論理演算回路ＡＬＵ（シフト回路）を有する。ロジック回路ＬＧＣ１は、"１"から"７"までのシフト量を処理し、ロジック回路ＬＧＣ２は、"８"から"６３"までのシフト量を処理する。

【0157】

そして、短縮検出部ｓｈｔｄｅｔ２は、レジスタ（ソースオペランド）から供給されるシフト量が"１"から"７"までの場合、早期終了を検出し、短縮フラグを"１"に設定する。短縮検出部ｓｈｔｄｅｔ２は、レジスタ（ソースオペランド）から供給されるシフト量が"８"から"６３"までの場合、短縮フラグを"０"に設定する。

【0158】

これにより、レジスタで指定されるシフト量が少ない場合に、シフト命令の演算結果を短縮実行レイテンシでバイパスすることができる。図２９に示す命令スケジューラＩＳは、先行命令（シフト命令）を発行した後、シフト命令の短縮実行レイテンシ（＝"１"）後に後続依存命令を発行する。

【0159】

【0160】

例えば、シフト量がレジスタから供給されるシフト命令において、シフト量が少なくロジック回路ＬＧＣ１で演算結果が得られる場合、演算結果を短縮実行レイテンシでバイパスさせることができる。この結果、短縮実行レイテンシでバイパスさせない場合に比べて、演算処理装置１０Ｌの処理性能を向上することができる。

【0161】

なお、上述した実施形態では、短縮実行レイテンシが１つである例が説明された。しかしながら、複数の短縮実行レイテンシが設定されてもよい。例えば、シフト命令のシフト量を３段階に分けて、２つの短縮実行レイテンシが設定されてもよい。すなわち、出力制御回路ＯＵＴＣＮＴは、短縮検出部ｓｈｔｄｅｔ１または短縮検出部ｓｈｔｄｅｔ２が、早期終了を検出した場合、複数の途中ステージでの複数の演算結果のうち、バイパス可能な演算結果のいずれかをバイパスしてもよい。

【0162】

また、上述した実施形態では、実行ユニットＥＸから短縮実行レイテンシおよび最悪実行レイテンシで出力される演算結果の両方をバイパスさせる例が説明された。しかしながら、短縮実行レイテンシで出力される演算結果のみをバイパスさせ、最悪実行レイテンシで出力される演算結果は、レジスタファイルＲＦに転送されてもよい。なお、短縮実行レイテンシで出力される演算結果は、レジスタファイルＲＦにも転送される。

【0163】

さらに、上述した実施形態では、説明の簡単化のため、各演算処理装置が、浮動小数点積和演算回路ＦＭＡ、論理演算回路ＡＬＵ、浮動小数点演算回路または浮動小数点加算回路を有する実行ユニットＥＸを有する例が説明された。しかしながら、各演算処理装置は、複数種の実行ユニットを有してもよい。

【0164】

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

【符号の説明】

【0165】

１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ演算処理装置
１０Ｅ、１０Ｆ、１０Ｇ、１０Ｈ、１０Ｉ演算処理装置
１０Ｊ、１０Ｋ、１０Ｌ演算処理装置
２０、３０演算処理装置
２Ｓ２次スケジューラ
Ｂ１、Ｂ２、Ｂ３バス
ＢＣＮＴバイパス制御部
Ｃ１、Ｃ２、Ｃ３、Ｃ４コンパレータ
ＤＥＴ検出部
ＥＸ実行ユニット
ＦＦフリップフロップ
ＦＩＦＯ１－ＦＩＦＯ５ＦＩＦＯロジック部
ＩＤ命令デコーダ
ＩＳ命令スケジューラ
ｓｈｔ、ｓｈｔ２短縮フラグ
ＬＧＣ、ＬＧＣ１－ＬＧＣ５ロジック回路
ＭＵＸ１、ＭＵＸ２マルチプレクサ
ＭＵＸ３（ＭＵＸ３１、ＭＵＸ３２、ＭＵＸ３３）マルチプレクサ
ＯＵＴＣＮＴ出力制御回路
Ｑキュー
ＲＦレジスタファイル
ＳＥＬ命令セレクタ
ｓｈｔｄｅｔ１、ｓｈｔｄｅｔ２短縮検出部
ＳＴＧステージ

【図1】