特開2024-123842 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-123842演算処理装置および演算処理装置の制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024123842

(43)【公開日】2024-09-12

(54)【発明の名称】演算処理装置および演算処理装置の制御方法

(51)【国際特許分類】

G06F 9/50 20060101AFI20240905BHJP

【ＦＩ】

G06F9/50 150Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023031585

(22)【出願日】2023-03-02

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100107515

【弁理士】

【氏名又は名称】廣田浩一

(72)【発明者】

【氏名】伊藤真紀子

(57)【要約】

【課題】バス幅を大きくすることなく複数の演算ユニットの稼動率を向上する。
【解決手段】演算処理装置は、演算を実行する複数の演算ユニットと、前記複数の演算ユニットに共通に設けられ、前記複数の演算ユニットにデータを同時に転送可能なバス幅より小さいバス幅を有するバスと、前記複数の演算ユニットにそれぞれ転送する第１データの指数部の値に基づいて前記第１データの圧縮の可否を判断する圧縮判断部と、前記圧縮判断部が圧縮の可能を判定した場合、前記第１データを圧縮した第２データを前記バスに出力し、前記圧縮判断部が圧縮の不可能を判定した場合、前記第１データを前記バスに出力する圧縮部と、を有する。これにより、演算処理装置の処理性能の向上することができ、科学技術計算または機械学習等の効率を向上することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

演算を実行する複数の演算ユニットと、
前記複数の演算ユニットに共通に設けられ、前記複数の演算ユニットにデータを同時に転送可能なバス幅より小さいバス幅を有するバスと、
前記複数の演算ユニットにそれぞれ転送する第１データの指数部の値に基づいて前記第１データの圧縮の可否を判断する圧縮判断部と、
前記圧縮判断部が圧縮の可能を判定した場合、前記第１データを圧縮した第２データを前記バスに出力し、前記圧縮判断部が圧縮の不可能を判定した場合、前記第１データを前記バスに出力する圧縮部と、を有する
演算処理装置。

【請求項2】

前記複数の演算ユニットの動作をそれぞれ制御し、データ転送要求と圧縮の許可を示す圧縮許可フラグとを出力する複数の演算制御部を有し、
前記圧縮判断部は、
前記第１データの圧縮の可否を示す圧縮可否フラグを生成する判定部と、
前記圧縮可否フラグと、前記複数の演算制御部からそれぞれ受信する複数の前記圧縮許可フラグとに基づいて、圧縮仕様を示す圧縮情報を生成する圧縮制御部と、を有し、
前記圧縮部は、前記圧縮情報に基づいて前記第１データを圧縮する
請求項１に記載の演算処理装置。

【請求項3】

前記第１データは、浮動小数点数データであり、
前記判定部は、前記データ転送要求によるアクセス単位である複数の浮動小数点数データの指数部の値の大きさに応じて、前記圧縮可否フラグを生成する
請求項２に記載の演算処理装置。

【請求項4】

前記判定部は、前記複数の浮動小数点数データの指数部の値の最大値および最小値を表現可能なデータ型を示す前記圧縮可否フラグを生成する
請求項３に記載の演算処理装置。

【請求項5】

前記圧縮制御部は、生成した前記圧縮情報により圧縮する複数の演算ユニット用の複数の前記第１データのサイズが前記バスのバス幅より大きい場合、生成した前記圧縮情報にかかわらず、データを前記圧縮部から複数回に分けて前記バスに転送させる前記圧縮情報を生成する
請求項２ないし請求項４のいずれか１項に記載の演算処理装置。

【請求項6】

前記圧縮制御部は、前記複数の演算制御部のいずれかから単一の前記データ転送要求を受信した場合、前記圧縮可否フラグおよび前記圧縮許可フラグにかかわらず、非圧縮を示す前記圧縮情報を生成する
請求項２ないし請求項４のいずれか１項に記載の演算処理装置。

【請求項7】

前記第１データを保持するメモリを有し、
前記判定部は、前記メモリに格納される前記第１データ毎に前記圧縮可否フラグを生成し、生成した前記圧縮可否フラグを前記第１データとともに前記メモリに格納し、
前記圧縮制御部は、前記データ転送要求とともに受信する前記圧縮許可フラグと、前記データ転送要求に応じて前記第１データとともに前記メモリから出力される前記圧縮可否フラグとに基づいて前記圧縮情報を生成する
請求項２ないし請求項４のいずれか１項に記載の演算処理装置。

【請求項8】

前記複数の演算ユニットの各々に対応して設けられ、前記バスを介して受信する圧縮されたデータを前記圧縮情報に基づいて伸長する伸長部を有する
請求項２ないし請求項４のいずれか１項に記載の演算処理装置。

【請求項9】

前記バス、前記圧縮判断部および前記圧縮部をそれぞれ含む複数のデータ供給部を有する
請求項２ないし請求項４のいずれか１項に記載の演算処理装置。

【請求項10】

演算を実行する複数の演算ユニットと、前記複数の演算ユニットに共通に設けられ、前記複数の演算ユニットにデータを同時に転送可能なバス幅より小さいバス幅を有するバスと、を有する演算処理装置の制御方法であって、
前記演算処理装置が有する圧縮判断部が、前記複数の演算ユニットにそれぞれ転送する第１データの指数部の値に基づいて前記第１データの圧縮の可否を判断し、
前記演算処理装置が有する圧縮部が、前記圧縮判断部が圧縮の可能を判定した場合、前記第１データを圧縮した第２データを前記バスに出力し、前記圧縮判断部が圧縮の不可能を判定した場合、前記第１データを前記バスに出力する
演算処理装置の制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算処理装置および演算処理装置の制御方法に関する。

【背景技術】

【0002】

科学技術計算または機械学習等で使用する演算は、行列演算が多用されることが多い。汎用ＣＰＵを用いた大規模な行列演算は、性能向上に限界があることが知られている。そこで、複数のプロセッシングエレメントを縦横に配置して大規模な行列乗算を高速に実行するシストリックアレイ型のアクセラレータが提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０２２－５２３７６０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

プロセッシングエレメントにデータを入出力するバスの幅は、プロセッシングエレメントの数が多くなるほど大きくなる。例えば、複数のプロセッシングエレメントを各々含み独立に動作する複数の演算ユニットを縦横に配置する場合、性能向上のためには、一方向に並ぶ演算ユニットに同時にデータを供給することが好ましい。しかしながら、バスの配線面積等の制約により、一方向に並ぶ演算ユニットに同時にデータを供給可能なバス幅を確保できない場合、複数の演算ユニットを並列に動作させることが困難になる。この結果、演算ユニットの稼動率が低下し、アクセラレータの処理性能は低下する。

【0005】

１つの側面では、本発明は、バス幅を大きくすることなく複数の演算ユニットの稼動率を向上することを目的とする。

【課題を解決するための手段】

【0006】

一つの観点によれば、演算処理装置は、演算を実行する複数の演算ユニットと、前記複数の演算ユニットに共通に設けられ、前記複数の演算ユニットにデータを同時に転送可能なバス幅より小さいバス幅を有するバスと、前記複数の演算ユニットにそれぞれ転送する第１データの指数部の値に基づいて前記第１データの圧縮の可否を判断する圧縮判断部と、前記圧縮判断部が圧縮の可能を判定した場合、前記第１データを圧縮した第２データを前記バスに出力し、前記圧縮判断部が圧縮の不可能を判定した場合、前記第１データを前記バスに出力する圧縮部と、を有する。

【発明の効果】

【0007】

バス幅を大きくすることなく複数の演算ユニットの稼動率を向上することができる。

【図面の簡単な説明】

【0008】

【図1】一実施形態におけるアクセラレータの一例を示すブロック図である。

【図2】図１のアクセラレータの動作の一例を示す説明図である。

【図3】別の実施形態におけるアクセラレータの一例を示すブロック図である。

【図4】図３の一点鎖線枠に含まれる要素の一例を示すブロック図である。

【図5】図３の行列演算ユニットＭＯＵの一例を示すブロック図である。

【図6】図５の行列演算ユニットＭＯＵによる演算の一例を示す説明図である。

【図7】図３のアクセラレータが搭載される情報処理装置の一例を示すブロック図である。

【図8】図３の型判定部ＤＴＹＰによる圧縮可否フラグＦＬＧ０の求め方の概要を示す説明図である。

【図9】図３の型判定部ＤＴＹＰの動作の一例を示すフロー図である。

【図10】図４のバス制御部ＢＣＮＴによる調停の概要を示す説明図である。

【図11】図３のバス制御部ＢＣＮＴ（Ａ）、ＢＣＮＴ（Ｃ）によるリクエストＲＥＱの調停動作の一例を示すフロー図である。

【図12】図７の情報処理装置の動作の一例を示すフロー図である。

【図13】図３の行列演算ユニットＭＯＵの動作の一例を示すフロー図である。

【図14】図３の行列演算ユニットＭＯＵを制御する制御部ＣＮＴの動作の一例を示すフロー図である。

【発明を実施するための形態】

【0009】

以下、図面を参照して実施形態が説明される。以下では、データ、アドレス、コマンド等の信号が伝達される信号線には、信号名と同じ符号が使用される。

【0010】

図１は、一実施形態におけるアクセラレータの一例を示す。図１に示すアクセラレータ１００は、判定部１０、メモリ２０、圧縮制御部３０、圧縮部４０、伸長部５０ａ、５０ｂ、演算ユニット６０ａ、６０ｂ、演算制御部７０ａ、７０ｂ、入力バスＩＢＵＳおよび出力バスＯＢＵＳを有する。判定部１０および圧縮制御部３０は、圧縮判断部の一例である。

【0011】

伸長部５０ａおよび演算制御部７０ａは、演算ユニット６０ａに対応して設けられ、伸長部５０ｂおよび演算制御部７０ｂは、演算ユニット６０ｂに対応して設けられる。入力バスＩＢＵＳおよび出力バスＯＢＵＳは、複数の演算ユニット６０ａ、６０ｂに共通に設けられる。例えば、各演算ユニット６０ａ、６０ｂは、シストリックアレイとして動作する。以下では、演算ユニット６０ａ、６０ｂが区別なく説明される場合、演算ユニット６０とも称される。

【0012】

例えば、判定部１０、メモリ２０、圧縮制御部３０、圧縮部４０、伸長部５０ａ、５０ｂおよび入力バスＩＢＵＳは、シストリックアレイの列方向Ｘに転送するデータをシストリックアレイに供給する回路ブロックを示す。アクセラレータ１００は、シストリックアレイの行方向Ｙに転送するデータをシストリックアレイに供給する図示しない判定部１０、メモリ２０、圧縮制御部３０、圧縮部４０、伸長部５０ａ、５０ｂおよび入力バスＩＢＵＳを有してもよい。

【0013】

判定部１０は、アクセラレータ１００の外部から転送されるデータＤＴａ、ＤＴｂの圧縮の可否を判定する。なお、データＤＴａ、ＤＴｂは、アクセラレータ１００に同時に転送されてもよく、別々のタイミングで転送されてもよい。データＤＴａ、ＤＴｂは、第１データの一例である。以下では、データＤＴａ、ＤＴｂが区別なく説明される場合、データＤＴとも称される。

【0014】

判定部１０は、データＤＴａ、ＤＴｂのそれぞれの圧縮の可否を示す圧縮可否フラグＦＬＧ０ａ、ＦＬＧ０ｂをデータＤＴａ、ＤＴｂとともにメモリ２０に格納する。以下では、圧縮可否フラグＦＬＧ０ａ、ＦＬＧ０ｂが区別なく説明される場合、圧縮可否フラグＦＬＧ０とも称される。特に限定されないが、例えば、各データＤＴａ、ＤＴｂは、リクエストＲＥＱａ、ＲＥＱｂによるアクセス単位である３２個の６４ビットの浮動小数点数データである。以下では、６４ビットの浮動小数点数データは、ＦＰ６４とも称される。

【0015】

例えば、判定部１０は、３２個のデータＤＴ（ＦＰ６４）の指数部の値の最大値と最小値とが、３２ビットの浮動小数点数データのデータ型の指数部に納まる場合、圧縮可否フラグＦＬＧ０を"１"に設定する。すなわち、圧縮可否フラグＦＬＧ０の"１"は、３２個のＦＰ６４の全ての指数部の値が、３２ビットの浮動小数点数データのデータ型で表現可能であり、圧縮可能なことを示す。以下では、３２ビットの浮動小数点数データは、ＦＰ３２とも称される。

【0016】

指数部の値の最大値と最小値とに応じて圧縮可否フラグＦＬＧ０を生成することで、ＦＰ６４を圧縮してＦＰ３２を生成する場合にも、圧縮の前後において、指数の値を同じにすることができ、演算ユニット６０が誤った行列演算を実行することを抑止することができる。この結果、アクセラレータ１００の誤動作を抑止することができる。

【0017】

判定部１０は、３２個のＦＰ６４の指数部の最大値、最小値、または最大値と最大値との両方が、ＦＰ３２のデータ型の指数部に納まらない場合、圧縮可否フラグＦＬＧ０を"０"に設定する。すなわち、圧縮可否フラグＦＬＧ０の"０"は、３２個のＦＰ６４の指数部の１つまたは複数が、ＦＰ３２のデータ型で表現できず、圧縮不可能なことを示す。

【0018】

メモリ２０は、圧縮制御部３０からアドレスＡＤａを受信した場合、アドレスＡＤａで示される領域に保持しているデータＤＴａと圧縮可否フラグＦＬＧ０ａとを出力する。また、メモリ２０は、圧縮制御部３０からアドレスＡＤｂを受信した場合、アドレスＡＤｂで示される領域に保持しているデータＤＴｂと圧縮可否フラグＦＬＧ０ｂとを出力する。例えば、データＤＴａ、ＤＴｂは、圧縮部４０に入力され、圧縮可否フラグＦＬＧ０ａ、ＦＬＧ０ｂは、圧縮制御部３０に入力される。以下では、アドレスＡＤａ、ＡＤｂが区別なく説明される場合、アドレスＡＤとも称される。

【0019】

圧縮制御部３０は、演算制御部７０ａからアドレスＡＤａを含むリクエストＲＥＱａとともに圧縮許可フラグＦＬＧ１ａを受信し、演算制御部７０ｂからアドレスＡＤｂを含むリクエストＲＥＱｂとともに圧縮許可フラグＦＬＧ１ｂを受信する。リクエストＲＥＱａ、ＲＥＱｂは、データ転送要求の一例である。

【0020】

以下では、演算制御部７０ａ、７０ｂが区別なく説明される場合、演算制御部７０とも称される。圧縮許可フラグＦＬＧ１ａ、ＦＬＧ１ｂが区別なく説明される場合、圧縮許可フラグＦＬＧ１とも称される。リクエストＲＥＱａ、ＲＥＱｂが区別なく説明される場合、リクエストＲＥＱとも称される。

【0021】

例えば、演算制御部７０は、演算の精度を落とせない場合、圧縮許可フラグＦＬＧ１を"０"に設定し、演算の精度を落としてもよい場合、圧縮許可フラグＦＬＧ１を"１"に設定する。すなわち、演算制御部７０は、演算ユニット６０による行列演算の要求精度に合わせて圧縮許可フラグＦＬＧ１を生成する。なお、圧縮許可フラグＦＬＧ１ａは、リクエストＲＥＱａに含まれてもよく、圧縮許可フラグＦＬＧ１ｂは、リクエストＲＥＱｂに含まれてもよい。

【0022】

圧縮制御部３０は、リクエストＲＥＱａ毎に、圧縮可否フラグＦＬＧ０ａと圧縮許可フラグＦＬＧ１ａとに基づいて、データＤＴａを圧縮するか否かを決定し、圧縮または非圧縮を示す圧縮制御信号ＣＣＮＴａを圧縮部４０および伸長部５０ａに出力する。圧縮制御部３０は、リクエストＲＥＱｂ毎に、圧縮可否フラグＦＬＧ０ｂと圧縮許可フラグＦＬＧ１ｂとに基づいて、データＤＴｂを圧縮するか否かを決定し、圧縮または非圧縮を示す圧縮制御信号ＣＣＮＴｂを圧縮部４０および伸長部５０ｂに出力する。以下では、圧縮制御信号ＣＣＮＴａ、ＣＣＮＴｂが区別なく説明される場合、圧縮制御信号ＣＣＮＴとも称される。圧縮制御信号ＣＣＮＴａ、ＣＣＮＴｂは、圧縮情報の一例である。

【0023】

圧縮部４０は、圧縮を示す圧縮制御信号ＣＣＮＴａを受けた場合、データＤＴａ（３２個のＦＰ６４）を圧縮して３２個のＦＰ３２を生成し、入力バスＩＢＵＳに出力する。圧縮部４０は、非圧縮を示す圧縮制御信号ＣＣＮＴａを受けた場合、データＤＴａ（３２個のＦＰ６４）を圧縮せずに入力バスＩＢＵＳに出力する。データＤＴａ（３２個のＦＰ６４または３２個のＦＰ３２）は、入力バスＩＢＵＳを介して圧縮データＣＤＴａとして伸長部５０ａに供給される。圧縮データＣＤＴａは、第２データの一例である。

【0024】

圧縮部４０は、圧縮を示す圧縮制御信号ＣＣＮＴｂを受信した場合、データＤＴｂ（３２個のＦＰ６４）を圧縮して３２個のＦＰ３２を生成し、入力バスＩＢＵＳに出力する。圧縮部４０は、非圧縮を示す圧縮制御信号ＣＣＮＴｂを受信した場合、データＤＴｂ（３２個のＦＰ６４）を圧縮せずに入力バスＩＢＵＳに出力する。以下では、圧縮制御信号ＣＣＮＴａ、ＣＣＮＴｂが区別なく説明される場合、圧縮制御信号ＣＣＮＴとも称される。

【0025】

データＤＴｂ（３２個のＦＰ６４または３２個のＦＰ３２）は、入力バスＩＢＵＳを介して圧縮データＣＤＴｂとして伸長部５０ｂに供給される。圧縮データＣＤＴｂは、第２データの一例である。例えば、入力バスＩＢＵＳは、２５６Ｂ（バイト）の幅を有し、３２個のＦＰ６４または６４個のＦＰ３２を同時に転送可能である。

【0026】

伸長部５０ａは、圧縮制御信号ＣＣＮＴａが圧縮を示す場合、入力バスＩＢＵＳを介して受信する圧縮データＣＤＴａ（３２個のＦＰ３２）を伸長して３２個のＦＰ６４を生成し、データＤＴａ１として演算ユニット６０ａに出力する。伸長部５０ａは、圧縮制御信号ＣＣＮＴａが非圧縮を示す場合、入力バスＩＢＵＳを介して受信する圧縮データＣＤＴａ（３２個のＦＰ６４）をそのままデータＤＴａ１として演算ユニット６０ａに出力する。

【0027】

伸長部５０ｂは、圧縮制御信号ＣＣＮＴｂが圧縮を示す場合、入力バスＩＢＵＳを介して受信する圧縮データＣＤＴｂ（３２個のＦＰ３２）を伸長して３２個のＦＰ６４を生成し、データＤＴｂ１として演算ユニット６０ｂに出力する。伸長部５０ｂは、圧縮制御信号ＣＣＮＴｂが非圧縮を示す場合、入力バスＩＢＵＳを介して受信する圧縮データＣＤＴｂ（３２個のＦＰ６４）をそのままデータＤＴｂ１として演算ユニット６０ｂに出力する。

【0028】

演算ユニット６０は、列方向Ｘに３２個と行方向Ｙに３２個とがそれぞれ配置された１０２４個の図示しないプロセッシングエレメント（シストリックアレイ）を有する。例えば、演算ユニット６０ａ、６０ｂは、図５に示す行列演算ユニットＭＯＵと同様のシストリックアレイを有する。

【0029】

演算ユニット６０は、伸長部５０ａ（または、伸長部５０ｂ）を介して受信する３２個のＦＰ６４を、シストリックアレイの列方向Ｘの一端に行方向Ｙに沿って並ぶ３２個のプロセッシングエレメントＰＥにそれぞれ供給する（列方向Ｘへの転送）。また、演算ユニット６０は、行方向Ｙへの転送用の図示しない伸長部５０ａ（または、伸長部５０ｂ）を介して受信する３２個のＦＰ６４を、シストリックアレイの行方向Ｙの一端に列方向Ｘに沿って並ぶ３２個のプロセッシングエレメントＰＥにそれぞれ供給する。

【0030】

例えば、各プロセッシングエレメントは、１個のＦＰ６４と予め保持している１個のＦＰ６４とを乗算する。各プロセッシングエレメントは、乗算結果を行方向Ｙの上流側のプロセッシングエレメントから受信するＦＰ６４（例えば、部分和）と加算して新たな部分和を生成し、行方向Ｙの下流側のプロセッシングエレメントに出力する。そして、シストリックアレイに順次供給されるデータを使用して行列演算が順次実行される。シストリックアレイによる行列演算の結果は、６４個のＦＰ６４を含む出力データＯＤＴａ（または、ＯＤＴｂ）として出力バスＯＢＵＳに出力される。例えば、出力バスＯＢＵＳは、２５６Ｂの幅を有してもよく、５１２Ｂの幅を有してもよい。

【0031】

演算制御部７０ａは、リクエストＲＥＱａおよび圧縮許可フラグＦＬＧ１ａを生成して圧縮制御部３０に出力することで、演算ユニット６０ａ用のデータをメモリ２０から転送させ、転送されたデータの行列演算を演算ユニット６０ａに実行させる。演算制御部７０ｂは、リクエストＲＥＱｂおよび圧縮許可フラグＦＬＧ１ｂを生成して圧縮制御部３０に出力することで、演算ユニット６０ｂ用のデータをメモリ２０から転送させ、転送されたデータの行列演算を演算ユニット６０ｂに実行させる。

【0032】

図２は、図１のアクセラレータ１００の動作の一例を示す。図２に示す動作１、動作２および動作３では、圧縮制御部３０は、リクエストＲＥＱａ、ＲＥＱｂを同じサイクルで受信する。

【0033】

動作１では、圧縮制御部３０は、リクエストＲＥＱａとともに圧縮許可フラグＦＬＧ１ａ＝"１"を受信し、リクエストＲＥＱｂとともに圧縮許可フラグＦＬＧ１ｂ＝"１"を受信する。圧縮制御部３０は、リクエストＲＥＱａに含まれるアドレスＡＤａに対応してメモリ２０から圧縮可否フラグＦＬＧ０ａ＝"１"を受信し、リクエストＲＥＱｂに含まれるアドレスＡＤｂに対応してメモリ２０から圧縮可否フラグＦＬＧ０ｂ＝"１"を受信する。

【0034】

圧縮制御部３０は、圧縮許可フラグＦＬＧ１ａ、ＦＬＧ１ｂおよび圧縮可否フラグＦＬＧ０ａ、ＦＬＧ０ｂの"１"に基づいて、リクエストＲＥＱａ、ＲＥＱｂに対応する６４個のデータＤＴａ、ＤＴｂを圧縮することで入力バスＩＢＵＳに同時に出力可能と判断する。そして、圧縮制御部３０は、データＤＴをＦＰ６４からＦＰ３２に圧縮させる圧縮制御信号ＣＣＮＴを圧縮部４０に出力する。

【0035】

圧縮部４０は、圧縮した６４個のデータＣＤＴａ（ＦＰ３２）、ＣＤＴｂ（ＦＰ３２）を、１つの転送サイクルで入力バスＩＢＵＳに出力する。伸長部５０ａ、５０ｂは、データＣＤＴａ（ＦＰ３２）、ＣＤＴｂ（ＦＰ３２）をデータＤＴａ１（ＦＰ６４）、ＤＴｂ１（ＦＰ６４）に伸長し、演算ユニット６０ａ、６０ｂにそれぞれ出力する。演算ユニット６０ａ、６０ｂは、データＤＴａ１、ＤＴｂ１をそれぞれ使用して行列演算を実行する。

【0036】

ビット幅が入力バスＩＢＵＳのバス幅の２倍である６４個のデータＤＴａ（ＦＰ６４）、ＤＴｂ（ＦＰ６４）を圧縮することで、データＤＴａ、ＤＴｂを一度に転送することができる。入力バスＩＢＵＳのバス幅を大きくすることなくデータＤＴａ、ＤＴｂを圧縮、転送、伸長し、演算ユニット６０ａ、６０ｂで行列演算を実行することができるため、演算ユニット６０ａ、６０ｂの稼動率を向上することができる。

【0037】

動作２では、圧縮制御部３０は、リクエストＲＥＱａとともに圧縮許可フラグＦＬＧ１ａ＝"１"または"０"を受信し、リクエストＲＥＱｂとともに圧縮許可フラグＦＬＧ１ｂ＝"１"または"０"を受信する。圧縮制御部３０は、リクエストＲＥＱａに含まれるアドレスＡＤａに対応してメモリ２０から圧縮可否フラグＦＬＧ０ａ＝"１"または"０"を受信する。また、圧縮制御部３０は、リクエストＲＥＱｂに含まれるアドレスＡＤｂに対応してメモリ２０から圧縮可否フラグＦＬＧ０ａ＝"０"を受信する。

【0038】

圧縮制御部３０は、圧縮許可フラグＦＬＧ１ａ、ＦＬＧ１ｂおよび圧縮可否フラグＦＬＧ０ａ、ＦＬＧ０ｂの１つまたは複数が"０"の場合、リクエストＲＥＱａ、ＲＥＱｂの一方のデータ転送に入力バスＩＢＵＳが占有されると判断する。このため、圧縮制御部３０は、データＤＴａ、ＤＴｂを同時に転送できないと判断する。

【0039】

圧縮制御部３０は、最初の転送サイクル（１）で、データＤＴａ（ＦＰ６４）またはデータＤＴｂ（ＦＰ６４）の一方を非圧縮で転送する圧縮制御信号ＣＣＮＴを圧縮部４０に出力する。圧縮制御部３０は、次の転送サイクル（２）で、データＤＴａ（ＦＰ６４）またはデータＤＴｂ（ＦＰ６４）の他方を非圧縮で転送する圧縮制御信号ＣＣＮＴを圧縮部４０に出力する。

【0040】

圧縮部４０は、データＤＴａ、ＤＴｂを圧縮せずに入力バスＩＢＵＳに順次出力する。伸長部５０ａ、５０ｂは、互いに異なるサイクルで、データＤＴａ、ＤＴｂを伸長せずにそのまま演算ユニット６０ａ、６０ｂにそれぞれ出力する。演算ユニット６０ａ、６０ｂは、それぞれデータＤＴａ、ＤＴｂを使用して互いに異なるサイクルで行列演算を実行する。このため、動作２では、演算ユニット６０ａ、６０ｂの稼動率は向上しない。

【0041】

動作３では、圧縮制御部３０は、リクエストＲＥＱａとともに圧縮許可フラグＦＬＧ１ａ＝"０"を受信し、リクエストＲＥＱｂとともに圧縮許可フラグＦＬＧ１ｂ＝"１"または"０"を受信する。圧縮制御部３０は、リクエストＲＥＱａに含まれるアドレスＡＤａに対応してメモリ２０から圧縮可否フラグＦＬＧ０ａ＝"１"または"０"を受信する。また、圧縮制御部３０は、リクエストＲＥＱｂに含まれるアドレスＡＤｂに対応してメモリ２０から圧縮可否フラグＦＬＧ０ｂ＝"１"または"０"を受信する。

【0042】

圧縮制御部３０は、動作２と同様に、データＤＴａ、ＤＴｂを同時に転送できないと判断する。そして、圧縮制御部３０は、２つの転送サイクル（１）、（２）を使用して、データＤＴａ（ＦＰ６４）およびデータＤＴｂ（ＦＰ６４）を非圧縮で転送する圧縮制御信号ＣＣＮＴを圧縮部４０に出力する。

【0043】

動作４では、圧縮制御部３０は、リクエストＲＥＱａとともに圧縮許可フラグＦＬＧ１ａ＝"１"または"０"を受信し、リクエストＲＥＱｂを受信しない。圧縮制御部３０は、リクエストＲＥＱａに含まれるアドレスＡＤａに対応してメモリ２０から圧縮可否フラグＦＬＧ０ａ＝"１"または"０"を受信する。

【0044】

圧縮制御部３０は、リクエストＲＥＱａのみを受信した場合、データＤＴａ（ＦＰ６４）を非圧縮で演算ユニット６０ａに転送すると判断する。なお、圧縮制御部３０は、リクエストＲＥＱｂのみを受信した場合、データＤＴｂ（ＦＰ６４）を非圧縮で演算ユニット６０ｂに転送すると判断する。圧縮部４０は、データＤＴａを圧縮せずに入力バスＩＢＵＳに出力する。伸長部５０ａは、データＤＴａをそのままデータＤＴａ１として演算ユニット６０ａに出力する。演算ユニット６０ａは、データＤＴａ１を使用して行列演算を実行する。

【0045】

以上、この実施形態では、判定部１０は、圧縮許可フラグＦＬＧ１ａ、ＦＬＧ１ｂが"１"の場合、データＤＴａ、ＤＴｂの圧縮が可能と判定し、圧縮部４０は、判定結果に基づいて、メモリ２０から出力されるデータＤＴａ、ＤＴｂを圧縮して出力する。これにより、入力バスＩＢＵＳを介してデータＤＴａ、ＤＴｂを同じ転送サイクルで演算ユニット６０ａ、６０ｂに転送することができ、演算ユニット６０ａ、６０ｂの稼動率を向上することができる。この結果、データＤＴａ、ＤＴｂを圧縮せずに異なる転送サイクルで順次転送する場合に比べて、アクセラレータ１００の処理性能を向上することができる。

【0046】

圧縮制御部３０は、圧縮可否フラグＦＬＧ０だけでなく圧縮許可フラグＦＬＧ１に基づいて、データＤＴａ、ＤＴｂの圧縮の可否を判断する。これにより、演算ユニット６０ａ、６０ｂによる行列演算の要求精度に合わせて、データＤＴａ、ＤＴｂを圧縮または非圧縮することができる。

【0047】

判定部１０は、３２個のデータＤＴ（ＦＰ６４）の指数部の値の大きさに応じて圧縮可否フラグＦＬＧ０を生成する。例えば、判定部１０は、３２個のデータＤＴ（ＦＰ６４）の指数部の最大値および最小値を表現可能なデータ型を示す圧縮可否フラグ値を生成する。これにより、ＦＰ６４を圧縮してＦＰ３２を生成する場合にも、圧縮の前後において、３２個の全てのデータＤＴの指数の値を同じにすることができ、演算ユニット６０による誤った行列演算の実行を抑止することができる。この結果、アクセラレータ１００の誤動作を抑止することができる。

【0048】

判定部１０は、メモリ２０に格納されるデータＤＴ毎に圧縮可否フラグＦＬＧを生成し、データＤＴとともにメモリ２０に格納する。圧縮制御部３０は、リクエストＲＥＱに含まれるアドレスＡＤをメモリ２０に出力し、リクエストＲＥＱに対応するデータＤＴと圧縮可否フラグＦＬＧ０とをメモリ２０に出力させる。

【0049】

このため、判定部１０は、圧縮可否フラグＦＬＧ０の生成のためにデータＤＴをメモリ２０から読み出さなくてよく、生成した圧縮可否フラグＦＬＧ０をデータＤＴと別にメモリ２０に格納しなくてよい。したがって、圧縮可否フラグＦＬＧ０の生成効率を向上することができる。また、判定部１０は、圧縮制御部３０からのリクエストＲＥＱを受信した後に圧縮可否フラグＦＬＧ０を生成しなくてよいため、圧縮制御部３０による圧縮の可否の判断を迅速に実施することができる。

【0050】

演算ユニット６０ａに対応して設けられる伸長部５０ａは、圧縮制御部３０からの圧縮制御信号ＣＣＮＴａに応じて圧縮されたデータＣＤＴａを伸長する。演算ユニット６０ｂに対応して設けられる伸長部５０ｂは、圧縮制御部３０からの圧縮制御信号ＣＣＮＴｂに応じて圧縮されたデータＣＤＴｂを伸長する。これにより、圧縮部４０により圧縮されて入力バスＩＢＵＳに転送されるデータＣＤＴａ、ＣＤＴｂをそれぞれ元のデータＤＴａ、ＤＴｂに対応するデータに戻すことができる。

【0051】

図３は、別の実施形態におけるアクセラレータの一例を示す。図４は、図３の一点鎖線枠に含まれる要素の一例を示す。図３に示すアクセラレータ１００Ａは、ＤＭＡＣ（Direct Memory Access Controller）を介してメモリＭＥＭから転送されるデータを使用して行列演算を実行し、実行結果をＤＭＡＣを介してメモリＭＥＭに転送する機能を有する。アクセラレータ１００Ａは、演算処理装置の一例である。アクセラレータ１００Ａが搭載される情報処理装置の例は、図７に示される。

【0052】

アクセラレータ１００Ａは、複数の行列演算ユニットＭＯＵと、データを保持するスクラッチパッドメモリＳＰＭと、スクラッチパッドメモリＳＰＭと行列演算ユニットＭＯＵとを接続するバスＡ、Ｂ、Ｃｉ、Ｃｏとを有する。各バスＡ、Ｂ、Ｃｉ、Ｃｏは、複数の行列演算ユニットＭＯＵに共通に接続される。

【0053】

アクセラレータ１００Ａは、各バスＡ、Ｃｉに対応して設けられるデータ型判定部ＤＴＹＰ、圧縮部ＣＭＰ、バス制御部ＢＣＮＴおよび伸長部ＤＣＭＰと、各バスＢに対応して設けられるバス制御部ＢＣＮＴとを有する。また、アクセラレータ１００Ａは、各行列演算ユニットＭＯＵに対応して設けられる制御部ＣＮＴを有する。

【0054】

データ型判定部ＤＴＹＰおよびバス制御部ＢＣＮＴは、圧縮判断部の一例である。バス制御部ＢＣＮＴ（Ａ）は、圧縮制御部の一例である。以下では、同じ名称の要素を識別可能にするために、各要素の名称の末尾に括弧付きの数字が付され、または、各要素の名称の末尾に括弧付きのバス名と数字が付される。

【0055】

例えば、アクセラレータ１００Ａは、列方向Ｘに４個と行方向Ｙに４個とがそれぞれ配置された１６個の行列演算ユニットＭＯＵを有する。例えば、行列演算ユニットＭＯＵの数は、２のｎ乗個（ｎは２以上の整数）であれば、１６個に限定されない。なお、行列演算ユニットＭＯＵの数は、２のｎ乗個に限定されない。列方向Ｘと行方向Ｙに並ぶ行列演算ユニットＭＯＵの数は、互いに等しいことが好ましい。各行列演算ユニットＭＯＵは、列方向Ｘに３２個が配置され行方向Ｙに３２個が配置された１０２４個の図示しないプロセッシングエレメントＰＥを有する。プロセッシングエレメントＰＥの例は、図５に示される。

【0056】

データ型判定部ＤＴＹＰ（Ａ）、スクラッチパッドメモリＳＰＭ（Ａ）、バス制御部ＢＣＮＴ（Ａ）、圧縮部ＣＭＰ（Ａ）およびバスＡは、データ供給部の一例である。データ型判定部ＤＴＹＰ（Ｃ）、スクラッチパッドメモリＳＰＭ（Ｃ）、バス制御部ＢＣＮＴ（Ｃ）、圧縮部ＣＭＰ（Ｃ）およびバスＣｉは、データ供給部の一例である。この実施形態では、データ供給部毎に、スクラッチパッドメモリＳＰＭに保持されているデータの圧縮の可否を判定し、判定結果に基づいて圧縮されたデータを対応する行列演算ユニットＭＯＵに転送することができる。

【0057】

各バスＡ、Ｂ、Ｃｉ、Ｃｏには、列方向Ｘの位置または行方向Ｙの位置を識別する０から３のいずれかが付されている。データ型判定部ＤＴＹＰ、スクラッチパッドメモリＳＰＭ、圧縮部ＣＭＰおよびバス制御部ＢＣＮＴには、接続されるバスＡ、Ｂ、Ｃｉのいずれかと、列方向Ｘの位置または行方向Ｙの位置を識別する０から３のいずれかとを組み合わせた符号が付されている。行列演算ユニットＭＯＵ、伸長部ＤＣＭＰおよび制御部ＣＮＴには、接続されるバスＡ、Ｂ、Ｃｉのいずれかと、行方向Ｙの位置を識別する０から３のいずれかと、列方向Ｘの位置を識別する０から３のいずれかとを組み合わせた符号が付されている。

【0058】

特に限定されないが、各バスＡ、Ｂ、Ｃｉ、Ｃｏは、２５６Ｂ（バイト）の幅を有し、例えば、３２個の６４ビットの浮動小数点数データ（ＦＰ６４）を同時に転送可能である。各バスＡ、Ｃｉのバス幅は、各バスＡ、Ｃｉに対応する４個の行列演算ユニットＭＯＵに同時にＦＰ６４を転送可能なバス幅（１０２４Ｂ）より小さい。各行列演算ユニットＭＯＵは、行方向Ｙに並ぶ３２個のプロセッシングエレメントＰＥの各々でＦＰ６４の積和演算を実行可能である。

【0059】

このため、バスＡに接続された列方向Ｘに並ぶ４個の行列演算ユニットＭＯＵの全てを使用して別々のデータの行列演算を実行する場合には、列方向Ｘに並ぶ各行列演算ユニットＭＯＵは、４サイクルに１回しかデータを受信することができない。同様に、バスＣｉに接続され、行方向Ｙに並ぶ４個の行列演算ユニットＭＯＵの全てを使用して別々のデータの行列演算を実行する場合には、各行列演算ユニットＭＯＵは、４サイクルに１回しかデータを受信することができない。但し、同一のデータであれば、４個の行列演算ユニットＭＯＵの全てを使用して行列演算を同時に実行可能である。

【0060】

そこで、この実施形態では、圧縮部ＣＭＰは、ＦＰ６４を３２ビットの浮動小数点数データ（ＦＰ３２）、１６ビットの浮動小数点数データ（ＦＰ１６またはｂｆｌｏｒｔ（brain floating point format）１６）に圧縮し、バスＡ（またはバスＣｉ）にデータを出力する。伸長部ＤＣＭＰは、圧縮されたデータを受信した場合、ＦＰ６４に伸長した後、行列演算ユニットＭＯＵに出力する。以下では、１６ビットの浮動小数点数データＦＰ１６は、ＦＰ１６とも称され、ｂｆｌｏｒｔ１６は、ＢＦ１６とも称される。

【0061】

例えば、圧縮部ＣＭＰによりＦＰ６４をＦＰ１６またはＢＦ１６に圧縮することで、３２個のＦＰ６４に相当するデータをバスＡ（またはバスＣｉ）を介して各行列演算ユニットＭＯＵに一度に転送することができる。また、例えば、列方向Ｘに並ぶ４個の行列演算ユニットＭＯＵのうちの２個が行列演算を並列に実行するとする。この場合、圧縮部ＣＭＰによりＦＰ６４をＦＰ３２に圧縮することで、３２個のＦＰ６４に相当するデータをバスＡを介して２個の行列演算ユニットＭＯＵに一度に転送することができる。

【0062】

さらに、例えば、列方向Ｘに並ぶ４個の行列演算ユニットＭＯＵのうちの３個が行列演算を並列に実行するとする。この場合、圧縮部ＣＭＰによりＦＰ６４をＦＰ３２と２個のＦＰ１６またはＢＦ１６に圧縮することで、３２個のＦＰ６４に相当するデータをバスＡを介して３個の行列演算ユニットＭＯＵに一度に転送することができる。

【0063】

データ型判定部ＤＴＹＰ（Ａ）（例えば、（Ａ０）－（Ａ３））は、ＤＭＡＣから受信する３２個のＦＰ６４の指数部の値に基づいて、ＦＰ３２、ＦＰ１６、ＢＦ１６のうちの圧縮可能なデータ型を判定する。データ型判定部ＤＴＹＰ（Ａ）は、圧縮可能と判定した型を示す圧縮可否フラグＦＬＧ０をＤＭＡＣから受信した３２個のＦＰ６４とともにスクラッチパッドメモリＳＰＭ（Ａ）（例えば、（Ａ０）－（Ａ３））に格納する。なお、データ型判定部ＤＴＹＰ（Ａ）は、最大で４組の３２個のＦＰ６４をＤＭＡＣから受信可能であり、各組毎に圧縮可否フラグＦＬＧ０を生成する。

【0064】

データ型判定部ＤＴＹＰ（Ｃ）（例えば、（Ｃ０）－（Ｃ３））は、ＤＭＡＣまたは行列演算ユニットＭＯＵから受信する最大で３２個のＦＰ６４の指数部の値に基づいて、ＦＰ３２、ＦＰ１６、ＢＦ１６のうちの圧縮可能な型を判定する。データ型判定部ＤＴＹＰ（Ｃ）は、圧縮可能と判定した型を示す圧縮可否フラグＦＬＧ０をＤＭＡＣまたは行列演算ユニットＭＯＵから受信した最大で３２個のＦＰ６４とともにスクラッチパッドメモリＳＰＭ（Ｃ）（例えば、（Ｃ０）－（Ｃ３））に格納する。なお、データ型判定部ＤＴＹＰ（Ｃ）は、最大で４組の３２個のＦＰ６４をＤＭＡＣから受信可能であり、各組毎に圧縮可否フラグＦＬＧ０を生成する。データ型判定部ＤＴＹＰの動作の例は、図８に示される。データ型判定部ＤＴＹＰ（Ａ）、ＤＴＹＰ（Ｃ）がＤＭＡＣから受信するＦＰ６４は、第１データの一例である。

【0065】

スクラッチパッドメモリＳＰＭ（Ａ）（（Ａ０）－（Ａ３）のいずれか）は、バス制御部ＢＣＮＴ（Ａ）（（Ａ０）－（Ａ３）のいずれか）からのアクセス要求（アドレスＡＤ）で示されるＦＰ６４を圧縮部ＣＭＰ（Ａ）（（Ａ０）－（Ａ３）のいずれか）に出力する。

【0066】

スクラッチパッドメモリＳＰＭ（Ｃ）（（Ｃ０）－（Ｃ３）のいずれか）は、バス制御部ＢＣＮＴ（Ｃ）（（Ｃ０）－（Ｃ３）のいずれか）からのアクセス要求（アドレスＡＤ）で示されるＦＰ６４を圧縮部ＣＭＰ（Ｃ）（（Ｃ０）－（Ｃ３）のいずれか）に出力する。

【0067】

スクラッチパッドメモリＳＰＭ（Ｂ）（（Ｂ０）－（Ｂ３）のいずれか）は、バス制御部ＢＣＮＴ（Ｂ）（（Ｂ０）－（Ｂ３）のいずれか）からのアクセス要求（アドレスＡＤ）で示されるＦＰ６４を圧縮部ＣＭＰ（Ｂ）（（Ｂ０）－（Ｂ３）のいずれか）に出力する。

【0068】

圧縮部ＣＭＰ（Ａ）（（Ａ０）－（Ａ３））は、スクラッチパッドメモリＳＰＭ（Ａ）（（Ａ０）－（Ａ３））から出力されるＦＰ６４を、バス制御部ＢＣＮＴ（Ａ）（（Ａ０）－（Ａ３））からの圧縮制御信号ＣＣＮＴ（ＣＣＮＴ０－ＣＣＮＴ３）に基づいて圧縮または非圧縮する。圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３は、圧縮情報の一例である。圧縮部ＣＭＰ（Ａ）は、圧縮または非圧縮したデータをバスＡ（（Ａ０）－（Ａ３））に転送する。

【0069】

圧縮部ＣＭＰ（Ｃ）（（Ｃ０）－（Ｃ３））は、スクラッチパッドメモリＳＰＭ（Ｃ）（（Ｃ０）－（Ｃ３））から出力されるＦＰ６４を、バス制御部ＢＣＮＴ（Ｃ）（（Ｃ０）－（Ｃ３））からの圧縮制御信号ＣＣＮＴ（ＣＣＮＴ０－ＣＣＮＴ３）に基づいて圧縮または非圧縮する。圧縮部ＣＭＰ（Ｃ）は、圧縮または非圧縮したデータをバスＣｉ（（Ｃｉ０）－（Ｃｉ３））に転送する。なお、バス制御部ＢＣＮＴ（Ｃ）が出力する圧縮制御信号ＣＣＮＴは、バス制御部ＢＣＮＴ（Ａ）が出力する圧縮制御信号ＣＣＮＴとは異なる。圧縮部ＣＭＰ（Ａ）、ＣＭＰ（Ｃ）により圧縮されたデータは、第２データの一例である。

【0070】

バス制御部ＢＣＮＴ（Ａ）は、調停部ＡＲＢ（Ａ）（（Ａ０）－（Ａ３））を有する。調停部ＡＲＢ（Ａ）は、対応するスクラッチパッドメモリＳＰＭ（Ａ）からの圧縮可否フラグＦＬＧ０と、調停部ＡＲＢ（Ａ）の列方向Ｘに位置する４個の制御部ＣＮＴからの圧縮許可フラグＦＬＧ１とを受信する。なお、圧縮許可フラグＦＬＧ１は、リクエストＲＥＱ（Ａ）に含まれてもよい。リクエストＲＥＱ（Ａ）、ＲＥＱ（Ｂ）、ＲＥＱ（Ｃ）は、データ転送要求の一例である。バス制御部ＢＣＮＴ（Ａ）の動作の例は、図１０および図１１で説明される。

【0071】

調停部ＡＲＢ（Ａ）は、列方向Ｘに位置する４個の制御部ＣＮＴのうちの１個のみからリクエストＲＥＱ（Ａ）（例えば、Ａ００、Ａ０１、Ａ０２、Ａ０３のいずれか）を受信した場合、ＦＰ６４を圧縮せずにバスＡに出力することを決定する。調停部ＡＲＢ（Ａ）は、４個の制御部ＣＮＴのうちの複数からリクエストＲＥＱ（Ａ）を受信した場合、各リクエストＲＥＱ（Ａ）が要求するＦＰ６４を圧縮して一度にバスＡに出力するか、ＦＰ６４を行列演算ユニットＭＯＵ毎にバスＡに出力するかを判定する。この際、調停部ＡＲＢ（Ａ）は、圧縮可否フラグＦＬＧ０および圧縮許可フラグＦＬＧ１に基づいて、圧縮仕様を決定する。

【0072】

調停部ＡＲＢ（Ａ）は、ＦＰ６４を行列演算ユニットＭＯＵ毎にバスＡに出力する場合、バスＡへの出力順を決定する。調停部ＡＲＢ（Ａ）は、調停の決定に基づいて、データの圧縮仕様を示す圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を、圧縮部ＣＭＰ（Ａ）に出力する。圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３は、バス制御部ＢＣＮＴ（Ａ）毎に生成される。例えば、圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３は、４個の制御部ＣＮＴからの４個のリクエストＲＥＱ（例えば、ＲＥＱ（Ａ００）、ＲＥＱ（Ａ０１）、ＲＥＱ（Ａ０２）、ＲＥＱ（Ａ０３））にそれぞれ対応して生成される。

【0073】

バス制御部ＢＣＮＴ（Ｃ）は、調停部ＡＲＢ（Ｃ）（（Ｃ０）－（Ｃ３））を有する。調停部ＡＲＢ（Ｃ）は、対応するスクラッチパッドメモリＳＰＭ（Ｃ）からの圧縮可否フラグＦＬＧ０と、調停部ＡＲＢ（Ｃ）の行方向Ｙに位置する４個の制御部ＣＮＴからの圧縮許可フラグＦＬＧ１とを受信する。なお、圧縮許可フラグＦＬＧ１は、リクエストＲＥＱ（Ｃ）に含まれてもよい。バス制御部ＢＣＮＴ（Ｃ）の機能および動作は、バス制御部ＢＣＮＴ（Ａ）の機能および動作と同様である。バス制御部ＢＣＮＴ（Ｃ）の動作の例は、図１０および図１１で説明される。

【0074】

圧縮許可フラグＦＬＧ１は、複数のデータ型のうち、使用可能なデータ型を３ビットで示す。例えば、ＦＰ６４のみを使用可能な場合、圧縮許可フラグＦＬＧ１は、"０００"に設定される。ＦＰ３２を使用可能（圧縮可能）な場合、圧縮許可フラグＦＬＧ１は、"１＊＊"に設定される。ここで符号"＊"は、値が"０"、"１"のいずれでもよいことを示す。ＢＦ１６を使用可能（圧縮可能）な場合、圧縮許可フラグＦＬＧ１は、"＊１＊"に設定される。ＦＰ１６を使用可能（圧縮可能）な場合、圧縮許可フラグＦＬＧ１は、"＊＊１"に設定される。

【0075】

なお、図５で説明するように、バスＢを介した行列演算ユニットＭＯＵへのデータｂ（ＦＰ６４）は、行列演算を開始する前に行列演算ユニットＭＯＵに予め転送される。このため、バスＢに転送されるＦＰ６４は、圧縮されない。但し、ＦＰ６４を圧縮してバスＢに転送する場合、バス制御部ＢＣＮＴ（Ｃ）および圧縮部ＣＭＰ（Ｃ）と同様に、バス制御部ＢＣＮＴ（Ｂ）に図示しない調停部ＡＲＢ（Ｂ）が設けられ、バスＢに対応して図示しない圧縮部ＣＭＰ（Ｂ）が設けられてもよい。

【0076】

各行列演算ユニットＭＯＵに対応して設けられる制御部ＣＮＴ（例えば、（００））は、対応する伸長部ＤＣＭＰ（Ａ）、ＤＣＭＰ（Ｃ）、ＦＩＦＯ（First-In First-Out）（Ａ）、（Ｃ）および行列演算ユニットＭＯＵの動作を制御する。

【0077】

伸長部ＤＣＭＰ（Ａ）は、対応するバスＡを介して転送されるデータを、対応する圧縮制御信号ＣＣＮＴに基づいて伸長して３２個のＦＰ６４を生成する。伸長部ＤＣＭＰ（Ａ）は生成したＦＰ６４をＦＩＦＯ（Ａ）に格納する。

【0078】

伸長部ＤＣＭＰ（Ｃ）は、対応するバスＣｉを介して転送されるデータを、対応する圧縮制御信号ＣＣＮＴに基づいて伸長して３２個のＦＰ６４を生成する。伸長部ＤＣＭＰ（Ｃ）は生成したＦＰ６４をＦＩＦＯ（Ｃ）に格納する。

【0079】

ＦＩＦＯ（Ａ）は、対応する伸長部ＤＣＭＰ（Ａ）から出力される３２個のＦＰ６４を順次保持する。ＦＩＦＯ（Ａ）は、対応する制御部ＣＮＴからの指示に基づいて、先に保持した３２個のＦＰ６４から順に行列演算ユニットＭＯＵに出力する。

【0080】

各制御部ＣＮＴは、対応する伸長部ＤＣＭＰ（Ａ）、ＤＣＭＰ（Ｃ）、ＦＩＦＯ（Ａ）、ＦＩＦＯ（Ｃ）および行列演算ユニットＭＯＵの動作を制御する。各制御部ＣＮＴは、アクセラレータ１００Ａの外部から受信するコマンドＣＭＤを保持するコマンドバッファＣＭＤＢを有する。

【0081】

各制御部ＣＮＴは、コマンドバッファＣＭＤＢに保持したコマンドＣＭＤに基づいて、リクエストＲＥＱ（データ転送要求）を生成し、生成したリクエストＲＥＱを対応するバス制御部ＢＣＮＴに出力する。各制御部ＣＮＴは、リクエストＲＥＱに応答してバスを介して転送されるデータの行列演算を行列演算ユニットＭＯＵに実行させるために、伸長部ＤＣＭＰ（Ａ）、ＤＣＭＰ（Ｃ）、ＦＩＦＯ（Ａ）、ＦＩＦＯ（Ｃ）および行列演算ユニットＭＯＵに制御信号を出力する。

【0082】

各行列演算ユニットＭＯＵは、対応するＦＩＦＯ（Ａ）、（Ｃ）にそれぞれ保持されたＦＰ６４と、対応するバスＢを介して転送されるＦＰ６４を使用して行列演算を実行する。行列演算ユニットＭＯＵは、実行結果をバスＣｏ（Ｃｏ０－Ｃｏ３のいずれか）を介して、対応する型判定部ＤＴＹＰ（Ｃ）に出力する。行列演算ユニットＭＯＵの例は、図５に示される。

【0083】

図５は、図３の行列演算ユニットＭＯＵの一例を示す。図５では、説明の簡単化のため、スクラッチパッドメモリＳＰＭ（Ａ）、ＳＰＭ（Ｂ）、ＳＰＭ（Ｃ）と行列演算ユニットＭＯＵとの間に配置される圧縮部ＣＭＰおよび伸長部ＤＣＭＰ等の要素は省略される。実際には、バスＡ、Ｃをそれぞれ介して転送される圧縮されたデータは、伸長された後に行列演算ユニットＭＯＵに供給される。

【0084】

行列演算ユニットＭＯＵは、列方向Ｘに３２個と行方向Ｙに３２個とがそれぞれ配置された１０２４個のプロセッシングエレメントＰＥを有する。互いに隣接するプロセッシングエレメントＰＥ間は、レジスタまたはＦＩＦＯを介して接続される。そして、行列演算ユニットＭＯＵにより、演算結果を外部のレジスタ等に格納することなく、順次使用することで内積等の行列演算を連続して実行可能なシストリックアレイが構築される。以下では、行列演算ユニットＭＯＵは、シストリックアレイとも称される。

【0085】

なお、行列演算ユニットＭＯＵは、バスＡを介してスクラッチパッドメモリＳＰＭ（Ａ）から２５６Ｂのデータａを受信し、バスＢを介してスクラッチパッドメモリＳＰＭ（Ｂ）から２５６Ｂのデータｂを受信する。また、行列演算ユニットＭＯＵは、バスＣｉを介してスクラッチパッドメモリＳＰＭ（Ｃ）から２５６Ｂのデータｃを受信し、バスＣｏを介してスクラッチパッドメモリＳＰＭ（Ｃ）に２５６Ｂのデータｃを送信する。

【0086】

各プロセッシングエレメントＰＥは、データｂ（１個のＦＰ６４）を保持する少なくとも１個のレジスタＲＥＧと、乗算器ＭＵＬと、加算器ＡＤＤとを有する。乗算器ＭＵＬは、データａ（１個のＦＰ６４）とレジスタＲＥＧに保持されたデータｂとを乗算し、乗算結果を加算器ＡＤＤに出力する。加算器ＡＤＤは、乗算結果とデータｃ（１個のＦＰ６４）とを加算し、部分和として行方向Ｙの下流側のプロセッシングエレメントＰＥに出力する。

【0087】

データａは、レジスタまたはＦＩＦＯを介して列方向Ｘの下流側のプロセッシングエレメントＰＥに順次転送される。データｂは、レジスタまたはＦＩＦＯを介して行方向Ｙの下流側のプロセッシングエレメントＰＥに予め順次転送される。

【0088】

図６は、図５の行列演算ユニットＭＯＵによる演算の一例を示す。図６では、説明の簡単化のため、プロセッシングエレメントＰＥが列方向Ｘと行方向Ｙとにそれぞれ２個ずつ配置される例が示される。また、データｂは、各プロセッシングエレメントＰＥのレジスタＲＥＧに予め格納されている。

【0089】

プロセッシングエレメントＰＥ００は、列方向Ｘおよび行方向Ｙの最も上流側に配置される。プロセッシングエレメントＰＥ０１は、列方向Ｘの下流側に配置される。プロセッシングエレメントＰＥ１０は、行方向Ｙの下流側に配置される。プロセッシングエレメントＰＥ１１は、列方向Ｘおよび行方向Ｙの最も下流側に配置される。太枠で示すプロセッシングエレメントＰＥは、該当のサイクルＣＹＣで有効な行列演算を実行することを示す。

【0090】

サイクルＣＹＣ＝０において、プロセッシングエレメントＰＥ００は、行列ａ［０］［０］とレジスタＲＥＧに保持された行列ｂ［０］［０］との積を行列ｃ［０］［０］に加算し、演算結果（ａ［０］［０］＊ｂ［０］［０］＋ｃ［０］［０］）を出力する。式中の符号＊は、乗算を示す。演算結果は、プロセッシングエレメントＰＥ１０に転送される。

【0091】

サイクルＣＹＣ＝１において、プロセッシングエレメントＰＥ００は、行列ａ［１］［０］とレジスタＲＥＧに保持された行列ｂ［０］［０］との積を行列ｃ［１］［０］に加算し、演算結果（ａ［１］［０］＊ｂ［０］［０］＋ｃ［１］［０］）を出力する。演算結果は、部分和としてプロセッシングエレメントＰＥ１０に転送される。

【0092】

サイクルＣＹＣ＝１において、プロセッシングエレメントＰＥ０１は、行列ａ［０］［０］とレジスタＲＥＧに保持された行列ｂ［０］［１］との積を行列ｃ［０］［１］に加算し、演算結果（ａ［０］［０］＊ｂ［０］［１］＋ｃ［０］［１］）を出力する。演算結果は、部分和としてプロセッシングエレメントＰＥ１１に転送される。

【0093】

サイクルＣＹＣ＝１において、プロセッシングエレメントＰＥ１０は、行列ａ［０］［１］とレジスタＲＥＧに保持された行列ｂ［１］［０］との積と、サイクルＣＹＣ＝０での部分和である行列（ａ［０］［０］＊ｂ［０］［０］＋ｃ［０］［０］）とを加算する。プロセッシングエレメントＰＥ１０は、加算結果を行方向Ｙの下流側のプロセッシングエレメントＰＥ（この例では、図示しないＰＥ２０）に出力する。

【0094】

図７は、図３のアクセラレータ１００Ａが搭載される情報処理装置２００の一例を示す。情報処理装置２００は、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用され、あるいは、学習および推論の両方に使用される。なお、図１のアクセラレータ１００が情報処理装置２００に搭載されてもよい。

【0095】

例えば、情報処理装置２００は、サーバであり、バスＢＵＳで相互に接続されたＣＰＵ２１０、アクセラレータ１００Ａ、メモリ２２０、補助記憶装置２３０、通信インタフェース２４０および入出力インタフェース２５０を有する。なお、情報処理装置２００は、図示した以外の要素を含んでもよい。

【0096】

ＣＰＵ２１０は、情報処理装置２００の全体を制御するとともに、アクセラレータ１００Ａに行列演算を実行させるコマンド列を送信し、アクセラレータ１００Ａからの行列演算の終了報告の通知を待つ。アクセラレータ１００Ａは、ＣＰＵ２１０から受信するコマンド列が終了するまでコマンド列に含まれるコマンドを順次実行し、メモリ２２０からのデータのロード、行列演算の実行、および、演算結果のメモリ２２０へのストアを行う。

【0097】

メモリ２２０は、行列演算の対象データ、行列演算の実行結果、および各種プログラム等を保持する。なお、図３に示すメモリＭＥＭは、メモリ２２０でもよい。補助記憶装置２３０は、ＣＰＵ２１０が実行するＯＳ（Operating System）および情報処理装置２００を動作させる情報処理プログラム等の各種プログラムを保持する。

【0098】

補助記憶装置２３０は、ニューラルネットワークの計算で使用するデータと重み等の各種変数等とを保持してもよい。例えば、補助記憶装置２３０が記憶するプログラムは、メモリ２２０に転送され、ＣＰＵ２１０により実行されてもよい。また、補助記憶装置２３０が記憶するニューラルネットワークの計算で使用するデータと各種変数とは、ニューラルネットワークの学習時またはニューラルネットワークを使用した推論時に補助記憶装置２３０からメモリ２２０に転送されてもよい。

【0099】

通信インタフェース２４０は、例えば、ネットワークを介して他の情報処理装置等と通信する機能を有する。これにより、ニューラルネットワークの計算を複数の情報処理装置を使用して並列に実行することが可能になる。入出力インタフェース２５０は、情報処理装置２００に接続される記録媒体３００に対してデータまたはプログラム等を入出力する機能を有する。

【0100】

例えば、記録媒体３００は、ＣＤ（Compact Disc：登録商標）、ＤＶＤ（Digital Versatile Disc：登録商標）またはＵＳＢ（Universal Serial Bus）メモリ等である。記録媒体３００に記録されたプログラムは、入出力インタフェース２５０を介して補助記憶装置２３０に転送された後、メモリ２２０上に展開され、ＣＰＵ２１０により実行されてもよい。

【0101】

図８は、図３の型判定部ＤＴＹＰによる圧縮可否フラグＦＬＧ０の求め方の概要を示す。型判定部ＤＴＹＰ（Ａ０）－ＤＴＹＰ（Ａ３）の各々は、ＤＭＡＣから受信する３２個のＦＰ６４の全ての指数部Ｅを抽出し、指数部Ｅの値の最大値ＥＭＡＸおよび最小値ＥＭＩＮを求める。

【0102】

型判定部ＤＴＹＰ（Ｃ０）－ＤＴＹＰ（Ｃ３）の各々は、ＤＭＡＣから受信する３２個のＦＰ６４の全ての指数部Ｅを抽出し、指数部Ｅの値の最大値ＥＭＡＸおよび最小値ＥＭＩＮを求める。また、型判定部ＤＴＹＰ（Ｃ０）－ＤＴＹＰ（Ｃ３）の各々は、バスＣｏ（Ｃｏ０－Ｃｏ３）を介して４個の行列演算ユニットＭＯＵから受信する最大で３２個のＦＰ６４の全ての指数部Ｅを抽出し、指数部Ｅの値の最大値ＥＭＡＸおよび最小値ＥＭＩＮを求める。

【0103】

特に限定されないが、圧縮可否フラグＦＬＧ０は、２ビットを有する。"００"の圧縮可否フラグＦＬＧ０は、ＦＰ６４のみを使用可能であることを示す（圧縮不可）。"１０"の圧縮可否フラグＦＬＧ０は、ＦＰ６４、ＦＰ３２またはＢＦ１６を使用可能であることを示す。"１１"の圧縮可否フラグＦＬＧ０は、全てのデータ型ＦＰ６４、ＦＰ３２、ＢＦ１６、ＦＰ１６を使用可能であることを示す。なお、圧縮可否フラグＦＬＧ０は、圧縮許可フラグＦＬＧ１と同様に３ビットを有してもよい。この場合、"０００"の圧縮可否フラグＦＬＧ０は、ＦＰ６４のみを使用可能であることを示す（圧縮不可）。"１１０"の圧縮可否フラグＦＬＧ０は、ＦＰ６４、ＦＰ３２またはＢＦ１６を使用可能であることを示す。"１１１"の圧縮可否フラグＦＬＧ０は、全てのデータ型ＦＰ６４、ＦＰ３２、ＢＦ１６、ＦＰ１６を使用可能であることを示す。

【0104】

各型判定部ＤＴＹＰは、求めた最大値ＥＭＡＸおよび最小値ＥＭＩＮに基づいて、ＦＰ６４を圧縮可能な少なくとも１つの浮動小数点数データのデータ型を判定する。各型判定部ＤＴＹＰは、判定した浮動小数点数データのデータ型を示す情報を含む圧縮可否フラグＦＬＧ０を３２個のＦＰ６４に付加してスクラッチパッドメモリＳＰＭに格納する。

【0105】

例えば、ＩＥＥＥ（Institute of Electrical and Electronics Engineers）７５４では、ＦＰ６４は、１ビットの符号部と１１ビットの指数部と５２ビットの仮数部とを含む。ＦＰ６４の指数部は、－１０２２から１０２３までを表現可能である。ＦＰ３２は、１ビットの符号部と８ビットの指数部と２３ビットの仮数部とを含む。ＦＰ３２の指数部は、－１２６から１２７までを表現可能である。ＦＰ１６は、１ビットの符号部と５ビットの指数部と１０ビットの仮数部とを含む。ＦＰ１６の指数部は、－１４から１５までを表現可能である。ＦＰ３２の仮数部の１６ビットを切り捨てた形式であるＢＦ１６は、１ビットの符号部と８ビットの指数部と７ビットの仮数部とを含む。ＢＦ１６の指数部は、－１２６から１２７までを表現可能である。

【0106】

図９は、図３の型判定部ＤＴＹＰの動作の一例を示す。図９は、アクセラレータ１００Ａの制御方法の一例を示す。図９では、圧縮可否フラグＦＬＧ０は、２ビットに設定されるとする。型判定部ＤＴＹＰ（Ａ）は、ＤＭＡＣから３２個のＦＰ６４を受信する毎に図８に示す動作を実行する。型判定部ＤＴＹＰ（Ｃ）は、ＤＭＡＣから３２個のＦＰ６４を受信する毎、または、行列演算ユニットＭＯＵから最大で３２個のＦＰ６４を受信する毎に図８に示す動作を実行する。

【0107】

まず、ステップＳ１１において、型判定部ＤＴＹＰは、受信した最大で３２個のＦＰ６４の指数部Ｅの最大値ＥＭＡＸを求める。次に、ステップＳ１２において、型判定部ＤＴＹＰは、受信した最大で３２個のＦＰ６４の指数部Ｅの最小値ＥＭＩＮを求める。ＦＰ６４の指数部Ｅは、１１ビットにより－１０２２から１０２３を表現可能である。

【0108】

次に、ステップＳ１３において型判定部ＤＴＹＰは、最大値ＥＭＡＸが１２７より大きいか、または、最小値ＥＭＩＮが－１２６より小さいかを判定する。最大値ＥＭＡＸが１２７より大きい場合、または、最小値ＥＭＩＮが－１２６より小さい場合、ＦＰ６４からＦＰ３２、ＦＰ１６またはＢＦ１６への圧縮によりデータが表現できる範囲を超過し、元の値とかけ離れた値となるおそれがある。このため、型判定部ＤＴＹＰは、ステップＳ１５を実行する。最大値ＥＭＡＸと最小値ＥＭＩＮとが－１２６から１２７の間に含まれる場合、ＦＰ６４をＦＰ３２、ＦＰ１６またはＢＦ１６のいずれに圧縮可能であるかを判定するため、型判定部ＤＴＹＰは、ステップＳ１４を実行する。

【0109】

ステップＳ１４において型判定部ＤＴＹＰは、最大値ＥＭＡＸが１５より大きいか、または、最小値ＥＭＩＮが－１４より小さいかを判定する。最大値ＥＭＡＸが１５より大きい場合、または、最小値ＥＭＩＮが－１４より小さい場合、ＦＰ６４からＦＰ１６の圧縮によりデータが失われるおそれがある。このため、型判定部ＤＴＹＰは、ステップＳ１６を実行する。最大値ＥＭＡＸと最小値ＥＭＩＮとが－１４から１５の間に含まれる場合、ＦＰ６４をＦＰ３２、ＢＦ１６またはＦＰ１６のいずれにも圧縮可能であるため、型判定部ＤＴＹＰは、ステップＳ１７を実行する。

【0110】

ステップＳ１５において、型判定部ＤＴＹＰは、３２個のＦＰ６４に圧縮可否フラグＦＬＧ０＝"００"を付加し、スクラッチパッドメモリＳＰＭに格納し、図８の動作を終了する。図８に示すように、圧縮可否フラグＦＬＧ０＝"００"は、ＦＰ６４のみが使用可能であることを示す。

【0111】

ステップＳ１６において、型判定部ＤＴＹＰは、３２個のＦＰ６４に圧縮可否フラグＦＬＧ０＝"１０"を付加し、スクラッチパッドメモリＳＰＭに格納し、図８の動作を終了する。図８に示すように、圧縮可否フラグＦＬＧ０＝"１０"は、ＦＰ６４、ＦＰ３２またはＢＦ１６が使用可能であることを示す。

【0112】

ステップＳ１７において、型判定部ＤＴＹＰは、３２個のＦＰ６４に圧縮可否フラグＦＬＧ０＝"１１"を付加し、スクラッチパッドメモリＳＰＭに格納し、図８の動作を終了する。図８に示すように、圧縮可否フラグＦＬＧ０＝"１１"は、ＦＰ６４、ＦＰ３２、ＢＦ１６またはＦＰ１６のいずれも使用可能であることを示す。

【0113】

図１０は、図４のバス制御部ＢＣＮＴによる調停の概要を示す。図１０に示すデータの組み合わせは、例えば、組み合わせ表として、バス制御部ＢＣＮＴ内に保持されてもよい。

【0114】

バス制御部ＢＣＮＴは、受信したリクエストＲＥＱの数が１個の場合、ＦＰ６４を非圧縮でバス(例えば、バスＡ）に出力できるため、調停部ＡＲＢによる調停を行わないことを判定する。これにより、ＦＰ６４を精度を落とすことなくスクラッチパッドメモリＳＰＭから行列演算ユニットＭＯＵに転送することができ、行列演算ユニットＭＯＵによる行列演算の精度が低下することを抑止することができる。

【0115】

バス制御部ＢＣＮＴは、受信したリクエストＲＥＱの数が２個から４個のいずれかの場合、データをバスに一度に出力するためにはＦＰ６４の圧縮が必要なため、調停部ＡＲＢによる調停を行うことを判定する。

【0116】

バス制御部ＢＣＮＴは、受信したリクエストＲＥＱの数が２個の場合、調停部ＡＲＢにＦＰ６４をＦＰ３２に圧縮する圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を生成させる。そして、２個のリクエストＲＥＱに対応して圧縮部ＣＭＰで圧縮された６４個のＦＰ３２がバスＡ（または、バスＣｉ）に出力される。

【0117】

バス制御部ＢＣＮＴは、受信したリクエストＲＥＱの数が３個の場合、リクエストＲＥＱの１個のＦＰ６４をＦＰ３２に圧縮し、リクエストＲＥＱの残りの２個のＦＰ６４をＦＰ１６またはＢＦ１６に圧縮することを判定する。バス制御部ＢＣＮＴは、判定した圧縮仕様に基づいて調停部ＡＲＢに圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を生成させる。そして、３個のリクエストＲＥＱに対応して圧縮部ＣＭＰで圧縮された３２個のＦＰ３２と６４個のＦＰ１６（またはＢＦ１６）がバスＡ（または、バスＣｉ）に出力される。

【0118】

バス制御部ＢＣＮＴは、受信したリクエストＲＥＱの数が４個の場合、４個のリクエストＲＥＱのＦＰ６４をそれぞれＦＰ１６またはＢＦ１６に圧縮することを判定する。バス制御部ＢＣＮＴは、判定した圧縮仕様に基づいて調停部ＡＲＢに圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を生成させる。これにより、４個のリクエストＲＥＱ毎に３２個のＦＰ１６または３２個のＢＦ１６がバスに出力される。

【0119】

なお、調停部ＡＲＢは、圧縮可否フラグＦＬＧ０および圧縮許可フラグＦＬＧ１により圧縮仕様が制限される場合、バス制御部ＢＣＮＴの判定結果によらず、圧縮仕様を決定する。そして、調停部ＡＲＢは、例えば、リクエストＲＥＱ毎のＦＰ６４を別のサイクルでバスＡ（または、バスＣｉ）に出力させる圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を生成する。

【0120】

図１１は、図３のバス制御部ＢＣＮＴ（Ａ）、ＢＣＮＴ（Ｃ）によるリクエストＲＥＱの調停動作の一例を示す。図１１は、アクセラレータ１００Ａの制御方法の一例を示す。図１１に示す動作は、各バス制御部ＢＣＮＴ（Ａ）、ＢＣＮＴ（Ｃ）が４個の制御部ＣＮＴの少なくともいずれかからリクエストＲＥＱを受信したことに基づいて開始される。バス制御部ＢＣＮＴ（Ａ）、ＢＣＮＴ（Ｃ）の動作は、互いに同様のため、以下では、バス制御部ＢＣＮＴ（Ａ）の動作が説明される。

【0121】

まず、ステップＳ２１において、バス制御部ＢＣＮＴ（Ａ）は、受信したリクエストＲＥＱの各々に含まれる圧縮許可フラグＦＬＧ１と、スクラッチパッドメモリＳＰＭ（Ａ）から受信した圧縮可否フラグＦＬＧ０とのアンド論理を求める。この際、バス制御部ＢＮＣＴ（Ａ）は、圧縮可否フラグＦＬＧ０の２ビットのうちの上位ビットを上位側にコピーして拡張した３ビットの圧縮可否フラグＦＬＧ０を生成する。

【0122】

例えば、２ビットの圧縮可否フラグＦＬＧ０が"００"の場合、３ビットの圧縮可否フラグＦＬＧ０＝"０００"が生成される。２ビットの圧縮可否フラグＦＬＧ０が"１０"の場合、３ビットの圧縮可否フラグＦＬＧ０＝"１１０"が生成される。２ビットの圧縮可否フラグＦＬＧ０が"１１"の場合、３ビットの圧縮可否フラグＦＬＧ０＝"１１１"が生成される。

【0123】

なお、図８で説明したように、圧縮可否フラグＦＬＧ０が３ビットに設定されている場合、バス制御部ＢＮＣＴ（Ａ）は、スクラッチパッドメモリＳＰＭ（Ａ）から受信した圧縮可否フラグＦＬＧ０をそのまま使用する。バス制御部ＢＣＮＴ（Ａ）は、求めたアンド論理の値（３ビットの仮の圧縮フラグ）から、圧縮可能な浮動小数点数データフォーマットを判定する。なお、圧縮可能な浮動小数点数データフォーマットは、圧縮しないＦＰ６４も含む。

【0124】

仮の圧縮フラグの仕様は、３ビットに拡張した圧縮可否フラグＦＬＧ０および圧縮許可フラグＦＬＧ１と同様である。すなわち、"０００"は、ＦＰ６４のみが使用可能であることを示し、"１００"は、ＦＰ６４またはＦＰ３２が使用可能であることを示す。"１１０"は、ＦＰ６４、ＦＰ３２またはＢＦ１６が使用可能であることを示す。"１１１"は、ＦＰ６４、ＦＰ３２、ＢＦ１６またはＦＰ１６のいずれも使用可能であることを示す。

【0125】

次に、ステップＳ２２において、バス制御部ＢＣＮＴ（Ａ）は、受信した全てのリクエストＲＥＱの判定を完了した場合、ステップＳ２３を実行し、判定していないリクエストＲＥＱがある場合、ステップＳ２１の動作に戻る。

【0126】

ステップＳ２３において、バス制御部ＢＣＮＴ（Ａ）は、複数のリクエストＲＥＱを受信した場合、予め決められた優先順にしたがってリクエストＲＥＱをソートする。すなわち、バス制御部ＢＣＮＴ（Ａ）は、リクエストＲＥＱのバスＡへの出力順を決定する。

【0127】

次に、ステップＳ２４において、バス制御部ＢＣＮＴ（Ａ）は、受信した全てのリクエストＲＥＱにおいて、ステップＳ２１で判定した圧縮可能な浮動小数点数データのデータ型の中に、図１０の浮動小数点数データのデータ型の組み合わせが存在するか否かを判定する。

【0128】

バス制御部ＢＣＮＴ（Ａ）は、組み合わせ表に示す組み合わせが存在する場合、複数のリクエストＲＥＱに対応する複数組のデータを同時に転送可能なため、ステップＳ２６を実行する。バス制御部ＢＣＮＴ（Ａ）は、組み合わせ表に示す組み合わせが存在しない場合、複数のリクエストＲＥＱに対応する複数組のデータの少なくとも１組を同時に転送できないため、ステップＳ２５を実行する。

【0129】

すなわち、バス制御部ＢＣＮＴ（Ａ）は、組み合わせ表に示す組み合わせが存在しない場合、複数のリクエストＲＥＱに対応するデータを複数回に分けてバスＡに転送することを判定する。そして、バス制御部ＢＣＮＴ（Ａ）は、データを複数回に分けてバスＡに転送するための圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を調停部ＡＲＢに生成させる。

【0130】

ステップＳ２５において、バス制御部ＢＣＮＴ（Ａ）は、ステップＳ２３でのソートに使用した優先順が最低のリクエストＲＥＱを再送することを判定し、判定したリクエストＲＥＱを出力対象のリクエストＲＥＱから外し、ステップＳ２４の動作に戻る。出力対象のリクエストＲＥＱから外されたリクエストＲＥＱに対応するデータは、後続のサイクルでバスＡに転送される。

【0131】

ステップＳ２６において、バス制御部ＢＣＮＴ（Ａ）は、存在する組み合わせに含まれるリクエストＲＥＱの優先順を更新する。次に、ステップＳ２７において、バス制御部ＢＣＮＴ（調停部ＡＲＢ）は、以上の判定結果に基づいて圧縮制御信号ＣＣＮＴ０－ＣＣＮＴ３を生成して圧縮部ＣＭＰ（Ａ）および伸長部ＤＣＭＰ（Ａ）に出力し、図１１に示す動作を終了する。

【0132】

図１１に示す動作フローにより、圧縮可否フラグＦＬＧ０および圧縮許可フラグＦＬＧ１により判定した圧縮可能なデータ型のデータを同時にバスＡに転送できない場合にも、後続のサイクルを使用してデータを転送することができる。すなわち、バス制御部ＢＣＮＴ（Ａ）は、同時に複数のリクエストＲＥＱを受信する場合にも、圧縮可能なデータ型に合わせて、１回または複数回でデータを各行列演算ユニットＭＯＵに転送することができる。

【0133】

図１２は、図７の情報処理装置２００の動作の一例を示す。なお、アクセラレータ１００Ａの代わりにアクセラレータ１００が情報処理装置２００に搭載される場合、アクセラレータ１００Ａの動作は、アクセラレータ１００の動作として読み替えられてもよい。

【0134】

まず、ステップＳ２１０において、ＣＰＵ２１０は、アクセラレータ１００Ａに行列演算を実行させるコマンド列を送信する。次に、ステップＳ２２０において、ＣＰＵ２１０は、コマンド列の実行の終了通知をアクセラレータ１００Ａから受信するまで待ち、終了通知を受信した場合、図１２のコマンド列の送信処理を終了する。

【0135】

一方、ステップＳ１１０において、アクセラレータ１００Ａは、コマンド列の受信を待ち、コマンド列を受信した場合、ステップＳ１２０を実行する。ステップＳ１２０において、アクセラレータ１００Ａは、受信したコマンド列に含まれるコマンドを実行する。コマンドの例は、図１３で説明される。

【0136】

次に、ステップＳ１３０において、アクセラレータ１００Ａは、受信したコマンド列に含まれる全てのコマンドの実行が終了したか否かを判定する。アクセラレータ１００Ａは、全てのコマンドの実行が終了した場合、ステップＳ１４０を実行し、実行していないコマンドがある場合、ステップＳ１２０の動作に戻る。ステップＳ１４０において、アクセラレータ１００Ａは、ＣＰＵ２１０にコマンド列の実行の終了通知を送信し、図１２のコマンドの実行処理を終了する。

【0137】

図１３は、図３の行列演算ユニットＭＯＵの動作の一例を示す。図１３は、アクセラレータ１００Ａの制御方法の一例を示す。図１３に示す動作は、アクセラレータ１００ＡがＣＰＵ２１０からコマンド列を受信したことに基づいて行列演算ユニットＭＯＵにより開始される。例えば、図１３は、図１２のステップ１２０で実行されるコマンド処理の一例を示す。図１３では、アクセラレータ１００Ａが、データａ、ｃのロードコマンド、データｂのプリロードコマンド、行列演算の実行コマンドおよび演算結果のストアコマンドをコマンド列としてＣＰＵ２１０から受信した場合の動作の例が示される。

【0138】

まず、ステップＳ１２１において、行列演算ユニットＭＯＵは、ロードコマンドに基づいて、ＤＭＡＣを起動し、メモリＭＥＭからスクラッチパッドメモリＳＰＭ（Ａ）、ＳＰＭ（Ｂ）、ＳＰＭ（Ｃ）のそれぞれにデータをロードする。次に、ステップＳ１２２において、行列演算ユニットＭＯＵは、プリロードコマンドに基づいて、スクラッチパッドメモリＳＰＭ（Ｂ）からシストリックアレイにデータｂをプリロードする。

【0139】

次に、ステップＳ１２３において、行列演算ユニットＭＯＵは、スクラッチパッドメモリＳＰＭ（Ａ）、ＳＰＭ（Ｃ）からシストリックアレイにデータａ、ｃを流し込み、行列演算を実行する。行列演算ユニットＭＯＵは、行列演算結果をスクラッチパッドメモリＳＰＭ（Ｃ）に格納する。次に、ステップＳ１２４において、行列演算ユニットＭＯＵは、ＤＭＡＣを起動し、スクラッチパッドメモリＳＰＭ（Ｃ）からメモリＭＥＭに行列演算結果をストアし、図１３に示す動作を終了する。

【0140】

図１４は、図３の行列演算ユニットＭＯＵを制御する制御部ＣＮＴの動作の一例を示す。図１４は、アクセラレータ１００Ａの制御方法の一例を示す。例えば、図１４は、図１３のステップＳ１２３に対応する動作を示す。

【0141】

まず、ステップＳ３１において、制御部ＣＮＴは、バス制御部ＢＣＮＴ（Ａ）、ＢＣＮＴ（Ｃ）にデータを要求するリクエストＲＥＱを送信する。次に、ステップＳ３２において、制御部ＣＮＴは、リクエストＲＥＱに応答するデータを受信した場合、ステップＳ３４を実行し、リクエストＲＥＱに応答するデータを受信しない場合、ステップＳ３３を実行する。

【0142】

ステップＳ３３において、制御部ＣＮＴは、シストリックアレイによる行列演算の実行をストールし、再度ステップＳ３１を実行する。ステップＳ３４において、制御部ＣＮＴは、データをシストリックアレイに流し込み、シストリックアレイに行列演算を実行させる。

【0143】

次に、ステップＳ３５において、制御部ＣＮＴは、所定の回数のリクエストＲＥＱに対応する行列演算の実行を完了した場合、図１４に示す動作を終了する。制御部ＣＮＴは、所定の回数のリクエストＲＥＱに対応する行列演算の実行を完了していない場合、ステップＳ３１の動作を再度実行する。

【0144】

以上、この実施形態においても、図１および図２に示す実施形態と同様の効果を得ることができる。例えば、データ型判定部ＤＴＹＰによりＦＰ６４の圧縮が可能と判定されたことに基づいて、圧縮部ＣＭＰは、スクラッチパッドメモリＳＰＭから出力されるＦＰ６４を圧縮し、バスＡ（またはバスＣｉ）に同時に出力する。

【0145】

これにより、バスＡ（またはバスＣｉ）を介してＦＰ６４を圧縮したデータを同じ転送サイクルで複数の行列演算ユニットＭＯＵに転送することができ、行列演算ユニットＭＯＵの稼動率を向上することができる。この結果、ＦＰ６４を圧縮せずに異なる転送サイクルで転送する場合に比べて、アクセラレータ１００Ａの性能を向上することができる。

【0146】

バス制御部ＢＣＮＴ（調停部ＡＲＢ）は、圧縮可否フラグＦＬＧ０および圧縮許可フラグＦＬＧ１に基づいて、リクエストＲＥＱ毎のＦＰ６４の圧縮の可否を判断する。これにより、行列演算ユニットＭＯＵによる行列演算の要求精度に合わせて、ＦＰ６４を圧縮または非圧縮することができる。

【0147】

型判定部ＤＴＹＰは、１個のリクエストＲＥＱに対応する３２個のＦＰ６４の指数部Ｅの最大値および最小値を求め、最大値および最小値を表現可能なデータ型を示す圧縮可否フラグＦＬＧ０を生成する。これにより、ＦＰ６４をＦＰ３２、ＢＦ１６、ＦＰ１６のいずれに圧縮する場合にも、圧縮の前後において、３２個の全てのデータＤＴの指数の値を同じにすることができ、行列演算ユニットＭＯＵによる誤った行列演算の実行を抑止することができる。

【0148】

型判定部ＤＴＹＰが生成した圧縮可否フラグＦＬＧ０は、対応する３２個のＦＰ６４とともにスクラッチパッドメモリＳＰＭに格納される。これにより、リクエストＲＥＱ（アドレスＡＤ）に応じてスクラッチパッドメモリＳＰＭから３２個のＦＰ６４と圧縮可否フラグＦＬＧ０とを出力することができ、スクラッチパッドメモリＳＰＭのアクセス頻度を低減して調停部ＡＲＢによる調停の判定を実施することができる。

【0149】

各行列演算ユニットＭＯＵに対応して設けられる伸長部ＤＣＭＰは、バス制御部ＢＣＮＴ（調停部ＡＲＢ）がリクエストＲＥＱ毎に生成した圧縮制御信号ＣＣＮＴを受ける。このため、各伸長部ＤＣＭＰは、対応する圧縮部ＣＭＰにより圧縮されてバスを介して転送されるデータから元のＦＰ６４に対応するＦＰ６４を生成することができる。

【0150】

圧縮可否フラグＦＬＧ０および圧縮許可フラグＦＬＧ１により判定した圧縮可能なデータ型のデータを同時にバスＡに転送できない場合にも、後続のサイクルを使用してデータを転送することができる。すなわち、各バス制御部ＢＣＮＴ（Ａ）、ＢＣＮＴ（Ｃ）は、同時に複数のリクエストＲＥＱを受信する場合にも、圧縮可能なデータ型に合わせて、１回または複数回でデータを各行列演算ユニットＭＯＵに転送することができる。

【0151】

受信したリクエストＲＥＱの数が１個の場合、ＦＰ６４がそのままバスに転送されるため、ＦＰ６４の精度を落とすことなくスクラッチパッドメモリＳＰＭから行列演算ユニットＭＯＵにＦＰ６４を転送することができる。このため、行列演算ユニットＭＯＵによる行列演算の精度が低下することを抑止することができる。

【0152】

バスＡ、Ｃｉにそれぞれ対応するデータ型判定部ＤＴＹＰ、スクラッチパッドメモリＳＰＭ、バス制御部ＢＣＮＴおよび圧縮部ＣＭＰにより、データの圧縮の可否を判定し、判定結果に基づいて圧縮されたデータを対応する行列演算ユニットＭＯＵに転送することができる。

【0153】

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
演算を実行する複数の演算ユニットと、
前記複数の演算ユニットに共通に設けられ、前記複数の演算ユニットにデータを同時に転送可能なバス幅より小さいバス幅を有するバスと、
前記複数の演算ユニットにそれぞれ転送する第１データの指数部の値に基づいて前記第１データの圧縮の可否を判断する圧縮判断部と、
前記圧縮判断部が圧縮の可能を判定した場合、前記第１データを圧縮した第２データを前記バスに出力し、前記圧縮判断部が圧縮の不可能を判定した場合、前記第１データを前記バスに出力する圧縮部と、を有する
演算処理装置。
（付記２）
前記複数の演算ユニットの動作をそれぞれ制御し、データ転送要求と圧縮の許可を示す圧縮許可フラグとを出力する複数の演算制御部を有し、
前記圧縮判断部は、
前記第１データの圧縮の可否を示す圧縮可否フラグを生成する判定部と、
前記圧縮可否フラグと、前記複数の演算制御部からそれぞれ受信する複数の前記圧縮許可フラグとに基づいて、圧縮仕様を示す圧縮情報を生成する圧縮制御部と、を有し、
前記圧縮部は、前記圧縮情報に基づいて前記第１データを圧縮する
付記１に記載の演算処理装置。
（付記３）
前記第１データは、浮動小数点数データであり、
前記判定部は、前記データ転送要求によるアクセス単位である複数の浮動小数点数データの指数部の値の大きさに応じて、前記圧縮可否フラグを生成する
付記２に記載の演算処理装置。
（付記４）
前記判定部は、前記複数の浮動小数点数データの指数部の値の最大値および最小値を表現可能なデータ型を示す前記圧縮可否フラグを生成する
付記３に記載の演算処理装置。
（付記５）
前記圧縮制御部は、生成した前記圧縮情報により圧縮する場合の複数の演算ユニット用の複数の前記第２データのサイズが前記バスのバス幅より大きくなる場合、生成した前記圧縮情報にかかわらず、データを前記圧縮部から複数回に分けて前記バスに転送させる前記圧縮情報を生成する
付記２ないし付記４のいずれか１項に記載の演算処理装置。
（付記６）
前記圧縮制御部は、前記複数の演算制御部のいずれかから単一の前記データ転送要求を受信した場合、前記圧縮可否フラグおよび前記圧縮許可フラグにかかわらず、非圧縮を示す前記圧縮情報を生成する
付記２ないし付記４のいずれか１項に記載の演算処理装置。
（付記７）
前記第１データを保持するメモリを有し、
前記判定部は、前記メモリに格納される前記第１データ毎に前記圧縮可否フラグを生成し、生成した前記圧縮可否フラグを前記第１データとともに前記メモリに格納し、
前記圧縮制御部は、前記データ転送要求とともに受信する前記圧縮許可フラグと、前記データ転送要求に応じて前記第１データとともに前記メモリから出力される前記圧縮可否フラグとに基づいて前記圧縮情報を生成する
付記２ないし付記４のいずれか１項に記載の演算処理装置。
（付記８）
前記複数の演算ユニットの各々に対応して設けられ、前記バスを介して受信する圧縮されたデータを前記圧縮情報に基づいて伸長する伸長部を有する
付記２ないし付記４のいずれか１項に記載の演算処理装置。
（付記９）
前記バス、前記圧縮判断部および前記圧縮部をそれぞれ含む複数のデータ供給部を有する
付記２ないし付記４のいずれか１項に記載の演算処理装置。
（付記１０）
前記複数の演算ユニットの各々は、シストリックアレイを有する
付記２ないし付記４のいずれか１項に記載の演算処理装置。
（付記１１）
演算を実行する複数の演算ユニットと、前記複数の演算ユニットに共通に設けられ、前記複数の演算ユニットにデータを同時に転送可能なバス幅より小さいバス幅を有するバスと、を有する演算処理装置の制御方法であって、
前記演算処理装置が有する圧縮判断部が、前記複数の演算ユニットにそれぞれ転送する第１データの指数部の値に基づいて前記第１データの圧縮の可否を判断し、
前記演算処理装置が有する圧縮部が、前記圧縮判断部が圧縮の可能を判定した場合、前記第１データを圧縮した第２データを前記バスに出力し、前記圧縮判断部が圧縮の不可能を判定した場合、前記第１データを前記バスに出力する
演算処理装置の制御方法。

【0154】

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

【符号の説明】

【0155】

１０判定部
２０メモリ
３０圧縮制御部
４０圧縮部
５０ａ、５０ｂ伸長部
６０ａ、６０ｂ演算ユニット
７０ａ、７０ｂ演算制御部
１００、１００Ａアクセラレータ
２００情報処理装置
２１０ＣＰＵ
２２０メモリ
２３０補助記憶装置
２４０通信インタフェース
２５０入出力インタフェース
３００記録媒体
Ａバス
ＡＤアドレス
ＡＲＢ調停部
Ｂバス
ＢＣＮＴバス制御部
Ｃバス
ＣＣＮＴ圧縮制御信号
ＣＭＰ圧縮部
ＣＮＴ制御部
Ｃｏバス
ＤＣＭＰ伸長部
ＤＴＹＰデータ型判定部
ＦＬＧ０圧縮可否フラグ
ＦＬＧ１圧縮フラグ
ＭＯＵ行列演算ユニット
ＲＥＱリクエスト
ＳＰＭスクラッチパッドメモリ
Ｘ列方向
Ｙ行方向

【図1】