特開2025-6004 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2025-6004演算器及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025006004

(43)【公開日】2025-01-17

(54)【発明の名称】演算器及び情報処理装置

(51)【国際特許分類】

G06F 1/3287 20190101AFI20250109BHJP

G06F 1/3206 20190101ALI20250109BHJP

G06F 7/50 20060101ALI20250109BHJP

G06F 7/523 20060101ALI20250109BHJP

G06F 17/16 20060101ALI20250109BHJP

【ＦＩ】

G06F1/3287

G06F1/3206

G06F7/50

G06F7/523

G06F17/16 S

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2023106510

(22)【出願日】2023-06-28

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110003649

【氏名又は名称】弁理士法人真田特許事務所

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】伊藤真紀子

(72)【発明者】

【氏名】吉川隆英

【テーマコード（参考）】

5B011

5B056

【Ｆターム（参考）】

5B011DA00

5B011EA02

5B011LL00

5B056AA05

5B056BB31

5B056CC01

5B056FF01

5B056FF02

(57)【要約】

【課題】細粒度でPower Gatingを行なうことで低消費電力化を達成する。
【解決手段】第１のタイミングにおいて、第３の処理要素１２３から所定のサイクル前にある第１の処理要素１２３の第１のデータと第２の処理要素１２３の第２のデータとに基づき、第３の処理要素１２３における所定のサイクル後の第２の演算精度を予測し、第１のタイミングにおいて、予測の結果に基づき第３の処理要素１２３において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、第３の処理要素１２３において第２の演算精度に対応する第２の回路の電源を投入し、第１のタイミングから所定のサイクル後の第２のタイミングにおいて、第３の処理要素１２３の第２の回路で第２の演算精度の演算を実行し、第２のタイミングの後の第３のタイミングにおいて、第３の処理要素１２３における第１の回路の電源を切断する、制御部を備える。
【選択図】図５

【特許請求の範囲】

【請求項1】

第１の処理要素と第２の処理要素と第３の処理要素とを含む複数の処理要素を有し、シストリックアレイ型行列演算を実行する演算器であって、
第１のタイミングにおいて、前記第３の処理要素から所定のサイクル前にある前記第１の処理要素の第１のデータと前記第２の処理要素の第２のデータとに基づき、前記第３の処理要素における前記所定のサイクル後の第２の演算精度を予測し、
前記第１のタイミングにおいて、前記予測の結果に基づき前記第３の処理要素において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、前記第３の処理要素において前記第２の演算精度に対応する第２の回路の電源を投入し、
前記第１のタイミングから前記所定のサイクル後の第２のタイミングにおいて、前記第３の処理要素の前記第２の回路で前記第２の演算精度の演算を実行し、
前記第２のタイミングの後の第３のタイミングにおいて、前記第３の処理要素における前記第１の回路の電源を切断する、
制御部を備える、演算器。

【請求項2】

前記制御部は、前記第１のデータ若しくは前記第２のデータが表現できる範囲でなく、又は、前記第１のデータと前記第２のデータとの積に対して前記第３の処理要素で稼働している回路におけるアクセラレータの出力データを加算した値がオーバーフロー若しくはアンダーフローする場合に、前記第２の回路の電源を投入する、
請求項１に記載の演算器。

【請求項3】

前記制御部は、前記第３の処理要素の前記第２の回路における加算演算について、前記第２の演算精度の倍精度で演算する、
請求項１又は２に記載の演算器。

【請求項4】

プロセッサと、
第１の処理要素と第２の処理要素と第３の処理要素とを含む複数の処理要素を有し、シストリックアレイ型行列演算を実行することで前記プロセッサを補助する演算器と、
を備え、
前記演算器は、
第１のタイミングにおいて、前記第３の処理要素から所定のサイクル前にある前記第１の処理要素の第１のデータと前記第２の処理要素の第２のデータとに基づき、前記第３の処理要素における前記所定のサイクル後の第２の演算精度を予測し、
前記第１のタイミングにおいて、前記予測の結果に基づき前記第３の処理要素において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、前記第３の処理要素において前記第２の演算精度に対応する第２の回路の電源を投入し、
前記第１のタイミングから前記所定のサイクル後の第２のタイミングにおいて、前記第３の処理要素の前記第２の回路で前記第２の演算精度の演算を実行し、
前記第２のタイミングの後の第３のタイミングにおいて、前記第３の処理要素における前記第１の回路の電源を切断する、
情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算器及び情報処理装置に関する。

【背景技術】

【0002】

高性能コンピューティングにおいては、消費電力が高くなることがある。電力の供給量は有限であり、消費電力により性能が制約されることがある。

【0003】

高性能コンピューティングでは、シストリックアレイ構成により、高密度に演算器を配置し行列積の演算が高速化されることがある。

【0004】

また、Artificial Intelligence（ＡＩ）や機械学習の分野では、低精度演算を利用して演算効率を向上させており、高性能コンピューティングにも取り入れる動きがある。低精度演算器の消費電力は、高精度演算器よりも大幅に削減できる。

【0005】

低消費電力化技術としてPower Gating手法が知られている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】国際公開第２０２０／００８６４３号

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、Power Gatingでは、使用していないブロックの電力が遮断され、再開時には電源安定化までに待ち時間が必要となるおそれがある。

【0008】

１つの側面では、細粒度でPower Gatingを行なうことで低消費電力化を達成することを目的とする。

【課題を解決するための手段】

【0009】

１つの側面では、演算器は、第１の処理要素と第２の処理要素と第３の処理要素とを含む複数の処理要素を有し、シストリックアレイ型行列演算を実行する演算器であって、第１のタイミングにおいて、前記第３の処理要素から所定のサイクル前にある前記第１の処理要素の第１のデータと前記第２の処理要素の第２のデータとに基づき、前記第３の処理要素における前記所定のサイクル後の第２の演算精度を予測し、前記第１のタイミングにおいて、前記予測の結果に基づき前記第３の処理要素において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、前記第３の処理要素において前記第２の演算精度に対応する第２の回路の電源を投入し、前記第１のタイミングから前記所定のサイクル後の第２のタイミングにおいて、前記第３の処理要素の前記第２の回路で前記第２の演算精度の演算を実行し、前記第２のタイミングの後の第３のタイミングにおいて、前記第３の処理要素における前記第１の回路の電源を切断する、制御部を備える。

【発明の効果】

【0010】

１つの側面では、細粒度でPower Gatingを行なうことで低消費電力化を達成することができる。

【図面の簡単な説明】

【0011】

【図1】第１実施形態における情報処理装置のハードウェア構成例を模式的に示すブロック図である。

【図2】図１に示したシストリックアレイ型行列演算のアクセラレータの構成例を模式的に示すブロック図である。

【図3】図２に示したProcessing Element（ＰＥ）の第１の構成例を模式的に示すブロック図である。

【図4】（ａ）～（ｄ）はシストリックアレイ及び行列演算を例示する図である。

【図5】図２に示したＰＥの第３の構成例を模式的に示すブロック図である。

【図6】図２に示したアクセラレータの動作例を説明する図である。

【図7】（ａ）～（ｃ）は図６に示したアクセラレータの動作中の各ＰＥの状態を例示する図である。

【図8】第１実施形態における演算精度の推定を説明する図である。

【図9】第１実施形態における、使用する演算器の判定処理を説明するフローチャートである。

【図10】第１実施形態の変形例におけるＰＥの構成例を模式的に示すブロック図である。

【図11】（ａ）は図１０に示した６４ビットから１６ビットへのビット幅変換器の詳細を説明する図であり、（ｂ）は図１０に示した６４ビットから３２ビットへのビット幅変換器の詳細を説明する図である。

【図12】第２実施形態におけるＰＥの構成例を模式的に示すブロック図である。

【図13】第２実施形態における演算精度の推定を説明する図である。

【発明を実施するための形態】

【0012】

〔Ａ〕実施形態
以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

【0013】

〔Ａ－１〕第１実施形態
図１は、第１実施形態における情報処理装置１のハードウェア構成例を模式的に示すブロック図である。

【0014】

情報処理装置１は、Central Processing Unit（ＣＰＵ）１１、アクセラレータ１２、メモリ１３、補助記憶装置１４、通信インタフェース１５及び入出力インタフェース１６を備える。

【0015】

ＣＰＵ１１は、例示的に、種々の制御や演算を行なう処理装置であり、メモリ１３によって読み出されたOperating System（ＯＳ）やプログラムを実行することにより、種々の機能を実現する。

【0016】

なお、種々の機能を実現するためのプログラムは、例えばフレキシブルディスク、ＣＤ（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ等）、ＤＶＤ（ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＤＶＤ－Ｒ、ＤＶＤ＋Ｒ、ＤＶＤ－ＲＷ、ＤＶＤ＋ＲＷ、ＨＤＤＶＤ等）、ブルーレイディスク、磁気ディスク、光ディスク、光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供されてよい。そして、コンピュータ（本実施形態ではＣＰＵ１１）は上述した記録媒体から図示しない読取装置を介してプログラムを読み取って内部記録装置または外部記録装置に転送し格納して用いてよい。また、プログラムを、例えば磁気ディスク、光ディスク、光磁気ディスク等の記憶装置（記録媒体）に記録しておき、記憶装置から通信経路を介してコンピュータに提供してもよい。

【0017】

種々の機能を実現する際には、内部記憶装置（本実施形態ではメモリ１３）に格納されたプログラムがコンピュータ（本実施形態ではＣＰＵ１１）によって実行されてよい。また、記録媒体に記録されたプログラムをコンピュータが読み取って実行してもよい。

【0018】

ＣＰＵ１１は、例示的に、情報処理装置１全体の動作を制御する。情報処理装置１全体の動作を制御するための装置は、ＣＰＵ１１に限定されず、例えば、ＭＰＵやＤＳＰ、ＡＳＩＣ、ＰＬＤ、ＦＰＧＡのいずれか１つであってもよい。また、情報処理装置１全体の動作を制御するための装置は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤ及びＦＰＧＡのうちの２種類以上の組み合わせであってもよい。なお、ＭＰＵはMicro Processing Unitの略称であり、ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific Integrated Circuitの略称である。また、ＰＬＤはProgrammable Logic Deviceの略称であり、ＦＰＧＡはField Programmable Gate Arrayの略称である。

【0019】

アクセラレータ１２は、演算器の一例であり、情報処理装置１の処理能力を高めるために、シストリックアレイ型行列演算を行うことでＣＰＵ１１を補助する。アクセラレータ１２についての詳細は、図２以降を用いて後述する。

【0020】

メモリ１３は、例示的に、Read Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む記憶装置である。ＲＡＭは、例えばDynamic RAM（ＤＲＡＭ）であってよい。メモリ１３のＲＯＭには、Basic Input/Output System（ＢＩＯＳ）等のプログラムが書き込まれてよい。メモリ１３のソフトウェアプログラムは、ＣＰＵ１１に適宜に読み込まれて実行されてよい。また、メモリ１３のＲＡＭは、一次記録メモリあるいはワーキングメモリとして利用されてよい。

【0021】

補助記憶装置１４は、例示的に、データを読み書き可能に記憶する装置であり、例えば、Hard Disk Drive（ＨＤＤ）やSolid State Drive（ＳＳＤ）、Storage Class Memory（ＳＣＭ）が用いられてよい。

【0022】

通信インタフェース１５は、情報処理装置１をネットワークと接続し、このネットワークを介して図示しない外部装置と通信を行なうためのインタフェース装置である。通信インタフェース１５としては、例えば、有線Local Area Network（ＬＡＮ）や無線ＬＡＮ、Wireless Wide Area Network（ＷＷＡＮ）のネットワークの規格に対応する各種インタフェースカードを用いることができる。

【0023】

入出力インタフェース１６は、記録媒体１６０が装着可能に構成される。入出力インタフェース１６は、記録媒体１６０が装着された状態において、記録媒体１６０に記録されている情報を読み取り可能に構成される。本例では、記録媒体１６０は可搬性を有する。例えば、記録媒体１６０は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、又は、半導体メモリ等である。

【0024】

図２は、図１に示したシストリックアレイ型行列演算のアクセラレータ１２の構成例を模式的に示すブロック図である。

【0025】

アクセラレータ１２は、複数のＰＥ１２０、制御部１２１、３つのＲＡＭ１２２及びDirect Memory Access（ＤＭＡ）コントローラ１２４を備える。

【0026】

制御部１２１は、アクセラレータ１２全体の制御を行う。

【0027】

３つのＲＡＭ１２２のうち図２の上側及び左側のＲＡＭ１２２は、複数のＰＥ１２０に対してデータを入力する。また、３つのＲＡＭ１２２のうち図２の下側のＲＡＭ１２２は、複数のＰＥ１２０からデータの出力を受け付ける。

【0028】

ＰＥ１２０は、行列積Ｃ＝Ａ×Ｂを演算を行う。Ａ、Ｂ、ＣはそれぞれＮ×Ｎ（Ｎは自然数）の行列である。Ｎは設計時に決定され、例えば１２８であってよい。行列のデータ及び部分和を右/下に伝搬させる積和演算結果がＰＥ１２０内に累積される。Ｎ×Ｎ個の乗算・加算を同時に実行するので、演算効率が高くなる。

【0029】

ＤＭＡコントローラ１２４は、出力側のＲＡＭ１２２から受け取ったデータをＣＰＵ１１を介さずに直接メモリ１３へ転送する。

【0030】

図３は、図２に示したＰＥ１２０の第１の構成例を模式的に示すブロック図である。

【0031】

ＰＥ１２０は、入力ブロック２１ａ、２１ｂ、出力ブロック２１ｃ、２１ｄ、乗算器２２、加算器２３及びアクセラレータブロック（ＡＣＣ）２４を備える。１つのＰＥ１２０は、１つの積和演算を行い、積和結果を内部に累積する。

【0032】

入力ブロック２１ａ、２１ｂは、ＲＡＭ１２２又は前段のＰＥ１２０からの入力を受け付ける。

【0033】

乗算器２２は、入力ブロック２１ａ、２１ｂからの入力データを乗算する。

【0034】

加算器２３は、乗算器２２からの出力とＡＣＣ２４からの出力とを加算する。

【0035】

ＡＣＣ２４は、加算器２３からの出力をＲＡＭ１２２へ出力する。また、ＡＣＣ２４は、ＲＡＭ１２２からの入力を受け付ける。

【0036】

出力ブロック２１ｃ、２１ｄは、入力ブロック２１ａ、２１ｂのそれぞれから入力されたデータを受け付け、後段のＰＥ１２０又はＲＡＭ１２２へ出力する。

【0037】

図４の（ａ）～（ｄ）は、シストリックアレイ及び行列演算を例示する図である。

【0038】

図４の（ａ）に示すｃｙｃｌｅ＝０では、ＰＥ１２０－１においてa_0,0とb_0,0が入力され、a_0,0とb_0,0がＡＣＣ２４に格納される。

【0039】

図４の（ｂ）に示すｃｙｃｌｅ＝１では、ＰＥ１２０－１においてa_0,1とb_1,0が入力されてa_0,0b_0,0+a_0,1b_1,0がＡＣＣ２４に格納されると共に、ＰＥ１２０－２においてa_0,0とb_0,1が入力されてa_0,0b_0,1がＡＣＣ２４に格納され、ＰＥ１２０－３においてa_1,0とb_0,0が入力されてa_1,0b_0,0がＡＣＣ２４に格納される。

【0040】

図４の（ｃ）に示すｃｙｃｌｅ＝２では、ＰＥ１２０－２においてa_0,1とb_1,1が入力されてa_0,0b_0,1+a_0,1b_1,1がＡＣＣ２４に格納され、ＰＥ１２０－３においてa_1,1とb_1,0が入力されてa_1,0b_0,0+a_1,1b_1,0がＡＣＣ２４に格納されると共に、ＰＥ１２０－4においてa_1,0とb_0,1が入力されてa_1,0b_0,1がＡＣＣ２４に格納入力される。

【0041】

図４の（ｄ）に示すｃｙｃｌｅ＝３では、ＰＥ１２０－４においてa_1,1とb_1,1が入力されa_1,0b_0,1+a_1,1b_1,1がＡＣＣ２４に格納される。

【0042】

そして、図４の（ａ）～（ｄ）における演算内容は、次の行列式のようになる。

【数1】

【0043】

図５は、図２示したＰＥ１２０の第３の構成例としてのＰＥ１２３を模式的に示すブロック図である。

【0044】

ＰＥ１２３は、入力ブロック２１ａ、２１ｂ、出力ブロック２１ｃ、２１ｄ及びデータ型毎の例えば３組の演算回路を備える。

【0045】

３組の演算回路は、例えばＦＰ６４用、ＦＰ３２用及びＦＰ１６用であり、それぞれ乗算器２２、加算器２３及びＡＣＣ２４を備える。

【0046】

ＰＥ１２３は、使用していないブロックの電力を遮断して電力削減を行う。例えば、ＦＰ３２で行列積を実行する場合、ＦＰ１６,ＦＰ６４のブロックを遮断する（図５の斜線部を参照）。

【0047】

ＦＰ６４やＦＰ１６にデータ型を変更する際には、安定化させるために数サイクル待つ必要がある。

【0048】

そこで、本実施形態では、シストリックアレイのＰＥ１２３毎に必要な演算精度が予測され、予測結果に基づいて数サイクル前に演算器の演算精度を選択しPower Gating制御が行われる。

【0049】

シストリックアレイで、a,bの値が伝搬されるのを利用し、数サイクル後に伝搬されるデータの所要演算精度情報から演算精度が予測される。

【0050】

数サイクル後の精度を予測してPower Gatingを制御することで、安定化に必要となるサイクル数を隠蔽できる。データ毎の所要演算精度は、例えば指数部の値の範囲から推定される。

【0051】

図６は、図２に示したアクセラレータ１２の動作例を説明する図である。

【0052】

clock=tにおいて、符号Ａ１に示すようにaxxの所要演算精度が算出され、符号Ａ２に示すようにbxxの所要演算精度が算出される。符号Ａ３に示すように、axx, bxxの所要演算精度とＡｃｃ２４の値から２サイクル後の演算精度が予測され、ＦＰ３２からＦＰ６４に変更が必要と判定されると、ＦＰ６４ブロックがpower onされる。

【0053】

clock=t+1において、符号Ａ４に示すように、ＦＰ３２で演算が実行され、ＦＰ６４ブロックの安定待ちが行われる。

【0054】

clock=t+2において、符号Ａ５に示すように、ＡＣＣ２４の値がＦＰ６４に変換され、ＦＰ６４で積和演算acc+=axx*bxxが行われる。

【0055】

clock=t+3において、符号Ａ６に示すように、ＦＰ３２回路の電源ＯＦＦが行われる。

【0056】

図７の（ａ）～（ｃ）は、図６に示したアクセラレータ１２の動作中の各ＰＥ１２３の状態を例示する図である。

【0057】

図７の（ａ）に示すclock=t, t+1において、ＦＰ３２は電源ＯＮ状態、ＦＰ１６は電源ＯＦＦ状態（斜線部を参照）であり、ＦＰ６４が電源ＯＮされて安定待ち（網掛け部を参照）となっている。

【0058】

図７の（ｂ）に示すclock=t+2において、ＦＰ３２に加えてＦＰ６４が電源ＯＮ状態となり、安定動作する。

【0059】

図７の（ｃ）に示すclock=t+3において、ＦＰ３２が電源ＯＦＦ（斜線部を参照）される。

【0060】

図８は、第１実施形態における演算精度の推定を説明する図である。

【0061】

axx,bxxが表現できる範囲、かつ、axx*bxx+accの計算結果がオーバーフロー又はアンダーフローしないものとする。

【0062】

e_aを指数部(axx)、e_bを指数部(bxx)、e_accを指数部(acc)とし、s_aを符号(axx)、 s_bを符号(bxx)、s_accを符号(acc)とし、乗算結果の指数部をe_x、符号をs_xとする。e_x=e_a+e_b またはe_a+e_b+1となる。s_x=xor(s_a,s_b)となる。

【0063】

ＦＰ１６、ＦＰ３２の順にデータ型が判定され、符号Ｂ１に示す表の全条件を満足する場合は、そのデータ型で演算を行うと判定される。

【0064】

すなわち、入力が表現できる範囲は-e_min≦e_a≦e_maxかつ-e_min≦e_b≦e_maxであり、乗算結果が表現できる範囲は-e_min≦e_x≦e_maxである。また、加算結果がオーバーフロー又はアンダーフローしない条件は、s_x=s_acc=0のときe_x<e_max,e_acc<e_maxとなり、s_x=s_acc=1のときe_min<e_x, e_min<e_accとなり、s_x≠s_accのときe_x≠e_accとなる。

【0065】

隠しビット（hidden bit）の桁上がり発生を考慮すると、桁上がり無しの場合はe_x0=e_a+e_bとなり、桁上がり有りの場合はe_x1=e_a+e_b+1となる。この場合、乗算結果が表現できる範囲は、-e_min≦e_x0かつe_x1≦e_maxである。また、加算結果がオーバーフロー又はアンダーフローしない条件は、s_x=s_acc=0のときe_x1<e_maxとなり、s_x=s_acc=1のときe_min<e_x0となり、s_x≠s_accのときe_x0≠e_accまたは e_x1≠e_accとなる。

【0066】

なお、符号Ｂ２に示すように、ＦＰ１６についてe_min=-14, e_max=15であり、ＦＰ３２についてe_min=-126, e_max=127である。

【0067】

第１実施形態における、使用する演算器の判定処理を、図９に示すフローチャート（ステップＳ１～Ｓ５）に従って説明する。

【0068】

図１に示した制御部１２１は、ＦＰ１６で表現可能であるかを判定する（ステップＳ１）。

【0069】

ＦＰ１６で表現可能である場合には（ステップＳ１のＹｅｓルート参照）、制御部１２１は、ＦＰ１６を使用すると判定し（ステップＳ２）、使用する演算器の判定処理は終了する。

【0070】

一方、ＦＰ１６で表現可能でない場合には（ステップＳ１のＮｏルート参照）、制御部１２１は、ＦＰ３２で表現可能であるかを判定する（ステップＳ３）。

【0071】

ＦＰ３２で表現可能である場合には（ステップＳ３のＹｅｓルート参照）、制御部１２１は、ＦＰ３２を使用すると判定し（ステップＳ４）、使用する演算器の判定処理は終了する。

【0072】

一方、ＦＰ３２で表現可能でない場合には（ステップＳ３のＮｏルート参照）、制御部１２１は、ＦＰ６４を使用すると判定し（ステップＳ５）、使用する演算器の判定処理は終了する。

【0073】

図１０は、第１実施形態の変形例におけるＰＥ１２３ｂの構成例を模式的に示すブロック図である。

【0074】

ＰＥ１２３ａは、入力ブロック２１ａ、２１ｂ、出力ブロック２１ｃ、２１ｄ、ＰＥ制御部２、ＦＰ６４回路２ａ、ＦＰ３２回路２ｂ、ＦＰ１６回路２ｃ及びＲＡＭ１２２を備える。

【0075】

ＰＥ制御部２は、各回路２ａ～２ｃのＯＮ／ＯＦＦ及び動作を制御する。

【0076】

ＦＰ６４回路２ａは、乗算器２２、加算器２３、ＡＣＣ２４、変換器２５ａ（ＦＰ６４→ＦＰ３２）及び選択器（ＳＥＬ）２６を備える。

【0077】

ＦＰ３２回路２ｂは、乗算器２２、加算器２３、ＡＣＣ２４、変換器２５ｂ（ＦＰ３２→ＦＰ６４）、変換器２５ｃ（ＦＰ３２→ＦＰ１６）、ＳＥＬ２６及びビット幅変換器２７ａ（b_sel32）を備える。

【0078】

ＦＰ１６回路２ｃは、乗算器２２、加算器２３、ＡＣＣ２４、変換器２５ｄ（ＦＰ１６→ＦＰ３２）、ＳＥＬ２６及びビット幅変換器２７ａ（b_sel16）を備える。

【0079】

ＦＰ６４回路２ａにおいて、乗算器２２は、入力ブロック２１ａ、２１ｂからの６４ビットの入力を乗算する。加算器２３は、乗算器２２による乗算結果と、ＳＥＬ２６による出力とを加算する。ＡＣＣ２４は、加算器２３による加算結果を格納し、格納結果をＰＥ制御部２、ＲＡＭ１２２、ＳＥＬ２６及びＦＰ３２回路２ｂへ出力する。変換器２５ａは、ＦＰ３２回路２ｂのＡＣＣ２４からの出力をＦＰ６４回路２ａ向けに変換する。ＳＥＬ２６は、ＰＥ制御部２からの制御に基づき、ＦＰ６４回路２ａのＡＣＣ２４の出力と、変換器２５ａを介したＦＰ３２回路２ｂのＡＣＣ２４の出力とのいずれかを選択して、加算器２３へ入力する。

【0080】

ＦＰ３２回路２ｂにおいて、乗算器２２は、入力ブロック２１ａ、２１ｂからの６４ビットの入力を３２ビットに変換して乗算する。加算器２３は、乗算器２２による乗算結果と、ＳＥＬ２６による出力とを加算する。ＡＣＣ２４は、加算器２３による加算結果を格納し、格納結果をＰＥ制御部２、ＲＡＭ１２２、ＳＥＬ２６, ＦＰ６４回路２ａ及びＦＰ１６回路２ｃへ出力する。変換器２５ｂ、２５ｃは、ＦＰ６４回路２ａ及びＦＰ１６回路２ｃのＡＣＣ２４からのそれぞれの出力をＦＰ３２回路２ｂ向けに変換する。ＳＥＬ２６は、ＰＥ制御部２からの制御に基づき、ＦＰ３２回路２ｂのＡＣＣ２４の出力と、変換器２５ｂを介したＦＰ６４回路２ａのＡＣＣ２４の出力と、変換器２５ｃを介したＦＰ１６回路２ｃのＡＣＣ２４の出力とのいずれかを選択して、加算器２３へ入力する。

【0081】

ＦＰ１６回路２ｃにおいて、乗算器２２は、入力ブロック２１ａ、２１ｂからの６４ビットの入力を１６ビットに変換して乗算する。加算器２３は、乗算器２２による乗算結果と、ＳＥＬ２６による出力とを加算する。ＡＣＣ２４は、加算器２３による加算結果を格納し、格納結果をＰＥ制御部２、ＲＡＭ１２２、ＳＥＬ２６及びＦＰ３２回路２ｂへ出力する。変換器２５ｄは、ＦＰ３２回路２ｂのＡＣＣ２４からの出力をＦＰ１６回路２ｃ向けに変換する。ＳＥＬ２６は、ＰＥ制御部２からの制御に基づき、ＦＰ１６回路２ｃのＡＣＣ２４の出力と、変換器２５ｄを介したＦＰ３２回路２ｂのＡＣＣ２４の出力とのいずれかを選択して、加算器２３へ入力する。

【0082】

図１１の（ａ）は図１０に示した６４ビットから１６ビットへのビット幅変換器２７ｂの詳細を説明する図であり、（ｂ）は図１０に示した６４ビットから３２ビットへのビット幅変換器２７ａの詳細を説明する図である。

【0083】

図１１の（ａ）に示すように、変換前の６４ビットのビット列は、１ビットの符号ビット（ｓ）、１１ビットの指数部（ｅ）及び５２ビットの仮数部（ｍ）を有する。６４ビットから１６ビットへ変換されると、符号ビットはそのまま残り、指数部は下位５ビットが残り、仮数部は上位１０ビットが残る。

【0084】

図１１の（ｂ）に示すように、変換前の６４ビットのビット列は、１ビットの符号ビット（ｓ）、１１ビットの指数部（ｅ）及び５２ビットの仮数部（ｍ）を有する。６４ビットから３２ビットへ変換されると、符号ビットはそのまま残り、指数部は下位８ビットが残り、仮数部は上位３２ビットが残る。

【0085】

〔Ａ－２〕第２実施形態
ＡＩアクセラレータ等では、演算途中の演算精度を確保するため、加算部分では倍の精度を利用することがある。

【0086】

図１２は、第２実施形態におけるＰＥ１２３ａの構成例を模式的に示すブロック図である。

【0087】

図１２に示すＰＥ１２３ａは、図５に示したＰＥ１２３と略同様の構成を有するが、ＦＰ３２用の加算器２３及びＡＣＣ２４が倍精度のＦＰ６４となっている。また、ＦＰ１６用の加算器２３及びＡＣＣ２４が倍精度のＦＰ６４となっている。

【0088】

図１３は、第２実施形態における演算精度の推定を説明する図である。

【0089】

axx,bxxが表現できる範囲、かつ、axx*bxx+accの計算結果がオーバーフロー又はアンダーフローしないものとする。

【0090】

e_aを指数部(axx)、e_bを指数部(bxx)、e_accを指数部(acc)とし、s_aを符号(axx)、 s_bを符号(bxx)、s_accを符号(acc)とし、乗算結果の指数部をe_x=e_a+e_b、符号をs_x=xor(s_a, s_b)とする。

【0091】

ＦＰ１６、ＦＰ３２の順にデータ型が判定され、符号Ｃ１に示す表の全条件を満足する場合は、そのデータ型で演算を行うと判定される。第２実施形態では、第１実施形態とは異なり、乗算器２２の入力の範囲と乗算器の出力以降の範囲とで、e1とe2とに分けられる。

【0092】

すなわち、入力が表現できる範囲は-e1_min≦e_a≦e1_maxかつ-e1_min≦e_b≦e1_maxであり、乗算結果が表現できる範囲は-e2_min≦e_x≦e2_maxである。また、加算結果がオーバーフロー又はアンダーフローしない条件は、s_x=s_acc=0のときe_x<e2_max,e_acc<e2_maxとなり、s_x=s_acc=1のときe2_min<e_x, e2_min<e_accとなり、s_x≠s_accのときe_x≠e_accとなる。

【0093】

隠しビット（hidden bit）の桁上がり発生を考慮すると、桁上がり無しの場合はe_x0=e_a+e_bとなり、桁上がり有りの場合はe_x1=e_a+e_b+1となる。この場合、乗算結果が表現できる範囲は、-e2_min≦e_x0かつe_x1≦e2_maxである。また、加算結果がオーバーフロー又はアンダーフローしない条件は、s_x=s_acc=0のときe_x1<e2_maxとなり、s_x=s_acc=1のときe2_min<e_x0となり、s_x≠s_accのとき、e_x0≠e_accまたは e_x1≠e_accとなる。

【0094】

なお、符号Ｃ２に示すように、ＦＰ１６についてe1_min=-14, e1_max=15, e2_min=-126, e2_max=127であり、ＦＰ３２についてe1_min=-126, e1_max=127, e2_min=-1022, e2_max=1023である。

【0095】

〔Ｂ〕効果
上述した実施形態における演算器及び情報処理装置によれば、例えば以下の作用効果を奏することができる。

【0096】

制御部１２１は、第１のタイミングにおいて、第３のＰＥ１２３から所定のサイクル前にある第１のＰＥ１２３の第１のデータと第２のＰＥ１２３の第２のデータとに基づき、第３のＰＥ１２３における所定のサイクル後の第２の演算精度を予測する。制御部１２１は、第１のタイミングにおいて、予測の結果に基づき第３のＰＥ１２３において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、第３のＰＥ１２３において第２の演算精度に対応する第２の回路の電源を投入する。制御部１２１は、第１のタイミングから所定のサイクル後の第２のタイミングにおいて、第３のＰＥ１２３の第２の回路で第２の演算精度の演算を実行し、第２のタイミングの後の第３のタイミングにおいて、第３のＰＥ１２３における第１の回路の電源を切断する。

【0097】

これにより、細粒度でPower Gatingを行なうことで低消費電力化を達成することができる。なお、消費電力は、高い順にＦＰ６４、ＦＰ３２、ＦＰ１６となる。また、行列のデータの値に合わせて動的に演算精度を制御することで演算を破綻せずに演算の実行が可能となり、オーバーフロー又はアンダーフロー発生しない。

【0098】

制御部１２１は、第１のデータ若しくは第２のデータが表現できる範囲でなく、又は、第１のデータと第２のデータとの積に対して第３のＰＥ１２３で稼働している回路におけるＡＣＣ２４の出力データを加算した値がオーバーフロー若しくはアンダーフローする場合に、第２の回路の電源を投入する。

【0099】

これにより、正常な演算結果を出力可能な演算精度を有する回路を適切に選択できる。

【0100】

制御部１２１は、第３のＰＥ１２３の第２の回路における加算演算について、第２の演算精度の倍精度で演算する。

【0101】

これにより、乗算器２２における演算精度は下げて消費電力を低減させた上で、加算器２３の演算精度を上げることで、低消費電力で演算精度を向上させることができる。

【0102】

〔Ｃ〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

【0103】

〔Ｄ〕付記
以上の実施形態に関し、更に以下の付記を開示する。

【0104】

（付記１）
第１の処理要素と第２の処理要素と第３の処理要素とを含む複数の処理要素を有し、シストリックアレイ型行列演算を実行する演算器であって、
第１のタイミングにおいて、前記第３の処理要素から所定のサイクル前にある前記第１の処理要素の第１のデータと前記第２の処理要素の第２のデータとに基づき、前記第３の処理要素における前記所定のサイクル後の第２の演算精度を予測し、
前記第１のタイミングにおいて、前記予測の結果に基づき前記第３の処理要素において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、前記第３の処理要素において前記第２の演算精度に対応する第２の回路の電源を投入し、
前記第１のタイミングから前記所定のサイクル後の第２のタイミングにおいて、前記第３の処理要素の前記第２の回路で前記第２の演算精度の演算を実行し、
前記第２のタイミングの後の第３のタイミングにおいて、前記第３の処理要素における前記第１の回路の電源を切断する、
制御部を備える、演算器。

【0105】

（付記２）
前記制御部は、前記第１のデータ若しくは前記第２のデータが表現できる範囲でなく、又は、前記第１のデータと前記第２のデータとの積に対して前記第３の処理要素で稼働している回路におけるアクセラレータの出力データを加算した値がオーバーフロー若しくはアンダーフローする場合に、前記第２の回路の電源を投入する、
付記１に記載の演算器。

【0106】

（付記３）
前記制御部は、前記第３の処理要素の前記第２の回路における加算演算について、前記第２の演算精度の倍精度で演算する、
付記１又は２に記載の演算器。

【0107】

（付記４）
プロセッサと、
第１の処理要素と第２の処理要素と第３の処理要素とを含む複数の処理要素を有し、シストリックアレイ型行列演算を実行することで前記プロセッサを補助する演算器と、
を備え、
前記演算器は、
第１のタイミングにおいて、前記第３の処理要素から所定のサイクル前にある前記第１の処理要素の第１のデータと前記第２の処理要素の第２のデータとに基づき、前記第３の処理要素における前記所定のサイクル後の第２の演算精度を予測し、
前記第１のタイミングにおいて、前記予測の結果に基づき前記第３の処理要素において稼働している第１の回路に対応する第１の演算精度の変更が必要な場合に、前記第３の処理要素において前記第２の演算精度に対応する第２の回路の電源を投入し、
前記第１のタイミングから前記所定のサイクル後の第２のタイミングにおいて、前記第３の処理要素の前記第２の回路で前記第２の演算精度の演算を実行し、
前記第２のタイミングの後の第３のタイミングにおいて、前記第３の処理要素における前記第１の回路の電源を切断する、
情報処理装置。

【0108】

（付記５）
前記演算器は、前記第１のデータ若しくは前記第２のデータが表現できる範囲でなく、又は、前記第１のデータと前記第２のデータとの積に対して前記第３の処理要素で稼働している回路におけるアクセラレータの出力データを加算した値がオーバーフロー若しくはアンダーフローする場合に、前記第２の回路の電源を投入する、
付記４に記載の情報処理装置。

【0109】

（付記６）
前記演算器は、前記第３の処理要素の前記第２の回路における加算演算について、前記第２の演算精度の倍精度で演算する、
付記４又は５に記載の情報処理装置。

【符号の説明】

【0110】

１：情報処理装置
２：ＰＥ制御部
２ａ：ＦＰ６４回路
２ｂ：ＦＰ３２回路
２ｃ：ＦＰ１６回路
１１：ＣＰＵ
１２：アクセラレータ
１３：メモリ
１４：補助記憶装置
１５：通信インタフェース
１６：入出力インタフェース
２１ａ、２１ｂ：入力ブロック
２１ｃ、２１ｄ：出力ブロック
２２：乗算器
２３：加算器
２４：ＡＣＣ
２４ａ：多重器
２５ａ～２５ｄ：変換器
２６：ＳＥＬ
２７ａ、２７ｂ：ビット幅変換器
１２０、１２０ａ、１２３、１２３ａ：ＰＥ
１２１：制御部
１２２：ＲＡＭ
１２４：ＤＭＡコントローラ
１６０：記録媒体

【図1】