特許7562151 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　奈良先端科学技術大学院大学の特許一覧

特許7562151データ処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-27

(45)【発行日】2024-10-07

(54)【発明の名称】データ処理装置

(51)【国際特許分類】

G06F 9/38 20180101AFI20240930BHJP

G06F 15/80 20060101ALI20240930BHJP

G06F 15/177 20060101ALI20240930BHJP

G06F 15/173 20060101ALI20240930BHJP

【ＦＩ】

G06F9/38 370C

G06F15/80

G06F15/177 B

G06F15/173 683C

G06F15/173 683B

【請求項の数】 11

(21)【出願番号】P 2021527755

(86)(22)【出願日】2020-06-26

(86)【国際出願番号】 JP2020025123

(87)【国際公開番号】W WO2020262573

(87)【国際公開日】2020-12-30

【審査請求日】2023-04-27

(31)【優先権主張番号】P 2019121853

(32)【優先日】2019-06-28

(33)【優先権主張国・地域又は機関】JP

【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度～平成３１年度、国立研究開発法人新エネルギー・産業技術総合開発機構、「高効率・高速処理を可能とするＡＩチップ・次世代コンピューティングの技術開発／革新的ＡＩエッジコンピューティング技術の開発／メモリとして接続する小型リニアアレイアクセラレータの研究開発」、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】504143441

【氏名又は名称】国立大学法人奈良先端科学技術大学院大学

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】中島康彦

【審査官】三坂敏夫

(56)【参考文献】

【文献】特開昭６２－２２９３７５（ＪＰ，Ａ）

【文献】米国特許第０５５３０７９８（ＵＳ，Ａ）

【文献】福岡久和他，高位合成ツールを用いたＦＰＧＡ並列コンピューティングの可能性検討，電子情報通信学会技術研究報告，一般社団法人電子情報通信学会，2016年08月01日，第１１６巻第１７７号，第１８１頁－第１８６頁，ISSN:0913-5685

【文献】濱田剛他，ＧＰＵを用いたサブペタペタフロップス高性能計算機システム，映像情報メディア学会技術報告，（社）映像情報メディア学会，2008年11月28日，第３２巻第５４号，第１７頁－第１９頁，ISSN:1342-6893

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／３８

Ｇ０６Ｆ１５／８０

Ｇ０６Ｆ１５／１７７

Ｇ０６Ｆ１５／１７３

(57)【特許請求の範囲】

【請求項1】

レジスタ部、及びメモリを含むロジック部を有する、同一の構成である複数の基本ユニットが配置された、複数のアクセラレータチップがカスケード接続されたデータ処理装置であって、
前記複数のアクセラレータチップのそれぞれは、当該アクセラレータチップへの入力を制御する第１制御回路及び当該アクセラレータチップからの出力を制御する第２制御回路を備え、
前記複数のアクセラレータチップのそれぞれの全基本ユニットに対する、演算を指示するための事前準備を指示するデータである事前準備指示データは、所定のアドレス範囲Ａが指定されて、前記複数のアクセラレータチップ間をカスケード接続の上流側から下流側へ送信されるものであり、
前記各第１制御回路は、前記所定のアドレス範囲Ａに対する書き込みであることを認識すると、前記事前準備指示データを当該第１制御回路の下流側の第１制御回路へ出力することを特徴とするデータ処理装置。

【請求項2】

前記事前準備指示データは、前記データ処理装置に出力される際に“０”が書き込まれるカウント領域を含み、
前記各第１制御回路は、前記カウント領域に書き込まれた値に“１”を加えた加算結果を前記カウント領域に書き込み、当該カウント領域を含む前記事前準備指示データを下流側の第１制御回路へ出力し、
前記各第１制御回路は、当該第１制御回路に内蔵されたチップ番号レジスタに、当該第１制御回路に入力された前記事前準備指示データのカウント領域に書き込まれた値を、当該第１制御回路を備えるアクセラレータチップのチップ番号として格納することを特徴とする請求項１に記載のデータ処理装置。

【請求項3】

前記複数のアクセラレータチップのそれぞれの基本ユニットのうち、演算指示の対象となる基本ユニットに対する、演算を指示するデータである演算指示データは、所定のアドレス範囲Ｂが指定されて、前記上流側から前記下流側へ送信され、前記複数のアクセラレータチップの全てに写像されるものであり、
前記基本ユニットへ出力された前記演算指示データは、前記所定のアドレス範囲Ｂに基づき、演算指示の対象となる基本ユニットの各レジスタ部に書き込まれ、
前記各第２制御回路は、前記基本ユニットから当該第２制御回路に入力される前記演算指示データを消去することを特徴とする請求項２に記載のデータ処理装置。

【請求項4】

前記各第１制御回路は、前記所定のアドレス範囲Ｂに対する書き込みであることを認識すると、当該第１制御回路の下流側の第１制御回路への出力及び当該第１制御回路に接続された基本ユニットへの出力が可能になった際、前記演算指示データを前記第１制御回路の下流側の第１制御回路及び前記第１制御回路に接続された基本ユニットへ出力することを特徴とする請求項３に記載のデータ処理装置。

【請求項5】

前記複数のアクセラレータチップのそれぞれに対する、同一又は異なるアドレス情報及び設定値を含むレジスタ値は、所定のアドレス範囲Ｃが指定されて、前記上流側から前記下流側へ送信されるものであり、
前記レジスタ値に含まれる前記設定値は、前記基本ユニットへ出力された前記レジスタ値に含まれるアドレス情報に基づき、前記設定値の格納対象となる基本ユニットの各レジスタ部に書き込まれ、
前記各第２制御回路は、前記基本ユニットから当該第２制御回路に入力される前記レジスタ値を消去することを特徴とする請求項１～４のいずれか１項に記載のデータ処理装置。

【請求項6】

前記各第１制御回路は、前記所定のアドレス範囲Ｃに対する書き込みであることを認識すると、当該第１制御回路の下流側の第１制御回路への出力及び当該第１制御回路に接続された基本ユニットへの出力が可能になった際、前記レジスタ値を前記第１制御回路の下流側の第１制御回路及び前記第１制御回路に接続された基本ユニットへ出力し、
前記アドレス情報は、前記設定値の格納対象となる基本ユニットが配置されたアクセラレータチップのチップ番号を含んでおり、
前記アドレス情報に含まれるチップ番号が“０”であれば、前記複数のアクセラレータチップのそれぞれに対し、前記設定値の格納対象となる基本ユニットの各レジスタ部に前記設定値が書き込まれ、
前記アドレス情報に含まれるチップ番号が“０”以外であれば、前記アドレス情報に含まれるチップ番号が示す番号と一致するチップ番号のアクセラレータチップに対し、前記設定値の格納対象となる基本ユニットの各レジスタ部に前記設定値が書き込まれることを特徴とする請求項５に記載のデータ処理装置。

【請求項7】

前記複数のアクセラレータチップのそれぞれに対する、同一又は異なる基本ユニットのロジック部に含まれるメモリへの書き込みデータは、所定のアドレス範囲Ｄが指定されて、前記上流側から前記下流側へ送信されるものであり、
前記書き込みデータは、前記所定のアドレス範囲Ｄに基づき、前記書き込みデータの書き込み対象となる基本ユニットの各ロジック部に含まれるメモリに書き込まれ、
前記各第２制御回路は、前記基本ユニットから当該第２制御回路に入力される前記書き込みデータを消去することを特徴とする請求項５又は６に記載のデータ処理装置。

【請求項8】

前記各第１制御回路は、前記所定のアドレス範囲Ｄに対する書き込みであることを認識すると、当該第１制御回路の下流側の第１制御回路への出力及び当該第１制御回路に接続された基本ユニットへの出力が可能になった際、前記レジスタ値を前記第１制御回路の下流側の第１制御回路及び前記第１制御回路に接続された基本ユニットへ出力することを特徴とする請求項７に記載のデータ処理装置。

【請求項9】

前記所定のアドレス範囲Ｄが前記複数のアクセラレータチップのそれぞれのチップ内部及び異なるアクセラレータチップ間において重複する場合、複数の基本ユニットの各ロジック部のメモリへの書き込みが同時に行われることを特徴とする請求項８に記載のデータ処理装置。

【請求項10】

前記複数のアクセラレータチップのそれぞれの演算結果である演算結果データの読み出しは、前記複数のアクセラレータチップのそれぞれに対し、読み出し先頭アドレス及び長さが前記上流側から前記下流側へ送信されることにより行われ、
前記各第１制御回路は、前記所定のアドレス範囲Ｄに対する読み出しであることを認識すると、前記読み出し先頭アドレス及び長さを前記第１制御回路に接続された基本ユニットへ出力し、
前記読み出し先頭アドレス及び長さに基づき、前記複数のアクセラレータチップのそれぞれの各基本ユニットのロジック部のメモリから読み出された前記演算結果データは、前記各第２制御回路に入力され、
前記各第２制御回路は、前記基本ユニットから当該第２制御回路に入力される前記演算結果データ及び当該第２制御回路の下流側の第２制御回路から出力される前記演算結果データを前記上流側へ出力することを特徴とする請求項７～９のいずれか１項に記載のデータ処理装置。

【請求項11】

前記複数のアクセラレータチップのそれぞれの演算完了の確認は、最も上流側のアクセラレータチップに対し、当該アクセラレータチップの第１制御回路に内蔵される状態レジスタの読み出し指示が送信されることにより行われ、
前記第１制御回路は、前記所定のアドレス範囲Ａに対する読み出しであることを認識すると、当該第１制御回路の状態レジスタの内容を最も上流側の前記アクセラレータチップの第２制御回路に出力し、
前記第２制御回路は、当該状態レジスタの内容を出力することを特徴とする請求項１～１０のいずれか１項に記載のデータ処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンピュータシステムに用いられるデータ処理装置に関する。

【背景技術】

【0002】

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の処理性能を補う手段としてアクセラレータが広く利用されている。アクセラレータは、多数の演算器を並列配置した構成を備える。アクセラレータは、当該アクセラレータに含まれる演算器の演算能力に見合ったデータ供給を行う必要がある。このため、アクセラレータは専用メモリを内蔵する必要がある。

【0003】

また、ＣＰＵに接続される主記憶とアクセラレータに内蔵される専用メモリとの間のデータ転送オーバヘッドは削減されなければならない。このため、アクセラレータに内蔵される専用メモリをＣＰＵの主記憶としてＣＰＵに接続する必要がある。専用メモリを内蔵する、複数のアクセラレータの各専用メモリを主記憶としてＣＰＵにそれぞれ接続する一般的手法には、次の２つの手法がある。

【0004】

第１の手法は、主記憶をＣＰＵに接続するメモリバス幅を増やして、複数の主記憶のチップを並列配置する手法である。従来のベクトル計算機は、性能重視のため、第１の手法を採用していた。第１の手法であれば、メモリバンド幅を増やすことはできるものの、メモリバス幅の増加はコスト増を招くといった問題があった。

【0005】

第２の手法は、主記憶の主記憶アドレス情報の一部をデコードし、当該デコードした主記憶アドレス情報の一部をチップイネーブル信号として利用する手法である。第２の手法はメモリバス幅を増やすものではない。第２の手法はメモリ容量を増加させる一般的手法として用いられてきた。しかし、第２の手法ではメモリバンド幅を増やすことはできない。第２の手法は、アクセラレータの並列処理能力を生かす観点からすれば、第１の手法よりも劣る。

【0006】

現在、エッジコンピューティングの重要性が再認識されている。ＣＰＵのメモリバス幅を増やすことなく、いかに並列処理の性能向上を向上させるか、が重要である。すなわち、第２の手法をベースとしつつ、並列処理の性能を向上できる新たな計算基盤の創出が課題となっている。

【0007】

このような状況に鑑み、本発明者は、キャッシュメモリをアクセラレータの内部に配置することによりアクセラレータとキャッシュメモリとの間のデータ転送を不要とし、当該データ転送を不要とすることにより、オーバヘッドの緩和を大きくすることができるデータ処理装置を発明するに至った（特許文献１及び２）。

【先行技術文献】

【特許文献】

【0008】

【文献】国際公開公報「国際公開第２０１６／１６３４２１号」

【文献】国際公開公報「国際公開第２０１８／２０７８８３号」

【発明の概要】

【発明が解決しようとする課題】

【0009】

本発明者は、さらなるオーバヘッド削減について鋭意検討を重ねた結果、本発明を発明するに至った。

【0010】

本発明の一態様は、アクセラレータを高効率化可能なデータ処理装置を実現することを目的とする。

【課題を解決するための手段】

【0011】

上記の課題を解決するために、本発明の一態様に係るデータ処理装置は、レジスタ部、及びメモリを含むロジック部を有する、同一の構成である複数の基本ユニットが配置された、複数のアクセラレータチップがカスケード接続されたデータ処理装置であって、前記複数のアクセラレータチップのそれぞれは、当該アクセラレータチップへの入力を制御する第１制御回路及び当該アクセラレータチップからの出力を制御する第２制御回路を備え、前記複数のアクセラレータチップのそれぞれの全基本ユニットに対する、演算を指示するための事前準備を指示するデータである事前準備指示データは、所定のアドレス範囲Ａが指定されて、前記複数のアクセラレータチップ間をカスケード接続の上流側から下流側へ送信されるものであり、前記各第１制御回路は、前記所定のアドレス範囲Ａに対する書き込みであることを認識すると、前記事前準備指示データを当該第１制御回路の下流側の第１制御回路へ出力する。

【発明の効果】

【0012】

本発明の一態様によれば、アクセラレータの高効率化を図ることができる。

【図面の簡単な説明】

【0013】

【図1】本発明の実施形態１に係るデータ処理装置の構成図である。

【図2】本発明の実施形態１に係るデータ処理装置の動作を説明するための説明図である。

【図3】本発明の実施形態２に係るデータ処理装置の動作を説明するための説明図である。

【図4】本発明の実施形態３に係るデータ処理装置の動作を説明するための説明図である。

【図5】本発明の実施形態４に係るデータ処理装置の動作を説明するための説明図である。

【図6】本発明の実施形態５に係るデータ処理装置の動作を説明するための説明図である。

【図7】本発明の実施形態６に係るデータ処理装置の動作を説明するための説明図である。

【発明を実施するための形態】

【0014】

＜本発明の概要＞
エッジコンピューティングにおいては、次の（Ａ）～（Ｃ）の事項の実現が重要となる。

【0015】

（Ａ）ＣＰＵ及びＣＰＵ周辺のコスト削減、すなわちＣＰＵに接続されるメモリバスの節約
（Ｂ）アクセラレータのコスト削減、すなわちアクセラレータのチップサイズの小型化
（Ｃ）アクセラレータの拡張性向上、すなわちアクセラレータの単純なチップ数増減により要求性能に対応できるスケーラビリティの実現。

【0016】

本発明によれば、次の（１）～（６）の事項を同時に実現することができる。

【0017】

（１）ＣＰＵからアクセラレータに対し、アクセラレータの全チップを高速に制御可能
（２）ＣＰＵからアクセラレータに対する演算機能の写像を一度にブロードキャスト可能
（３）アクセラレータが内蔵するメモリに関するアドレス情報等のレジスタ値の設定に関し、チップ間で共通の情報を全チップにブロードキャストし、且つ、差分のみを個別に送信することによりオーバヘッドを削減可能
（４）アクセラレータが内蔵するメモリに対する書き込みに関し、アドレス範囲の重複を利用して全チップにブロードキャストすることによりオーバヘッドを削減可能
（５）アクセラレータが内蔵するメモリからの読み出しに関し、読み出しアドレスを複数チップに高速にブロードキャストすることにより、複数チップを並列に読み出し可能
（６）ＣＰＵによるアクセラレータの状態取得を先頭チップからのみの取得により可能。

【0018】

本発明によれば、上記の（１）～（６）を同時に実現することにより、複数のアクセラレータがカスケード接続された構成でもオーバヘッドを削減できる。オーバヘッドの削減により、上述の（Ａ）～（Ｃ）の事項を実現することができる。

【0019】

＜実施形態１＞
以下、本発明の実施形態１について、詳細に説明する。

【0020】

図１は、本実施形態に係るデータ処理装置１００の構成図である。データ処理装置１００は、図１に示すように、ＣＰＵからなるホストＨと、ｎ個のアクセラレータチップＣ１、Ｃ２、・・・、Ｃｎ（ｎは２以上の自然数）と、を含む。なお、アクセラレータチップ数は、ある程度以上の数になると本願発明の効果が得られない可能性はある。アクセラレータチップ数は、事実上、１６個程度が上限になると思われる。

【0021】

まず、図１を用いて、データ処理装置１００の構成について説明する。

【0022】

ホストＨは、命令メモリ部、命令フェッチ部及び命令デコード部を含む。命令メモリ部は、複数の命令からなるプログラムを保持する。命令メモリ部は、ホストＨの主記憶の一部の領域であってもよく、また、主記憶の一部を保持する命令バッファであってもよい。命令フェッチ部は、命令メモリ部から必要な命令をフェッチして、命令デコード部は、そのフェッチした命令をデコードする。命令デコード部によるデコード結果により、ｎ個のアクセラレータチップＣ１、Ｃ２、・・・、Ｃｎのそれぞれにおける処理内容が決定する。

【0023】

なお、ホストＨは、ｎ個のアクセラレータチップＣ１、Ｃ２、・・・、Ｃｎのそれぞれにデータを送り込む際に使用される。

【0024】

図１に示すように、アクセラレータチップＣ１、Ｃ２、・・・、Ｃｎは、ホストＨにカスケード接続されている。より詳細には、ホストＨ側を上流側とすれば、上流側から下流側に向けて、アクセラレータチップＣ１、Ｃ２、・・・、Ｃｎが、この順番で、数珠つなぎのように接続されているといえる。

【0025】

アクセラレータチップＣ１、・・・、Ｃｎのそれぞれは、６４個の基本ユニットＵ１、Ｕ２、・・・、Ｕ６３、Ｕ６４、制御回路Ｘ１、・・・、Ｘｎ（第1制御回路）及び制御回路Ｙ１、・・・、Ｙｎ（第２制御回路）を含む。アクセラレータチップＣ１、Ｃ２、・・・、Ｃｎはお互いに同一のハードウェア構成からなる。なお、以下では、制御回路Ｘ１、・・・、Ｘｎを総称する場合には制御回路Ｘと称する。また、以下では、制御回路Ｙ１、・・・、Ｙｎを総称する場合には制御回路Ｙと称する。

【0026】

基本ユニットＵ１、Ｕ２、・・・、Ｕ６３、Ｕ６４は、この順に、１列に配置されている。基本ユニットＵ１から基本ユニットＵ２へ、基本ユニットＵ１による演算結果が転送される。基本ユニットＵ２から基本ユニットＵ３へ、基本ユニットＵ２による演算結果が転送される。同様に、基本ユニットＵ６３から基本ユニットＵ６４へ、基本ユニットＵ６３による演算結果が転送される。すなわち、互いに隣接する基本ユニットｎ－１と基本ユニットｎとの間において、基本ユニットｎ－１から基本ユニットｎへ、基本ユニットｎ－１による演算結果が転送される。基本ユニットＵ６４による演算結果は、再び、基本ユニットＵ６４から基本ユニットＵ１へ、転送される場合もある。

【0027】

データ処理装置１００では、基本ユニットＵ１、・・・、Ｕ６４の列に折り返し箇所が複数あるが、列が直線状に配置されても良い。また、基本ユニットＵ１、・・・、Ｕ６４の列は、渦巻き状に配置されても良い。

【0028】

基本ユニットＵ１、・・・、Ｕ６４のそれぞれは、ロジック部Ｌ１、・・・、Ｌ６４及びレジスタ部Ｒ１、・・・、Ｒ６４を含む。例えば、基本ユニットＵ１、・・・、Ｕ６４からなる列の先頭からｍ番目の基本ユニットＵｍであれば、ロジック部Ｌｍ及びレジスタ部Ｒｍを含むことになる。なお、ｍは１～６４の自然数である。基本ユニットＵ１、・・・、Ｕ６４はお互いに同一のハードウェア構成からなる。基本ユニットＵ１、・・・、Ｕ６４のそれぞれは、特許文献１又は特許文献２に記載された基本ユニットの構成及び動作と同一の構成及び同一の動作を実現する。基本ユニットＵ１、・・・、Ｕ６４のそれぞれの構成及び動作については、特許文献１及び特許文献２に詳細に記載されている。したがって、それら構成及び動作については、ここでは説明を行わないこととする。

【0029】

制御回路Ｘ１は、入力用バスｉＢ１を介して、ホストＨに接続されている。制御回路Ｙ１は、出力用バスｏＢ１を介して、ホストＨに接続されている。

【0030】

制御回路Ｘ２、・・・、Ｘｎは、入力用バスｉＢ２、・・・、ｉＢｎを介して、制御回路Ｘ１、・・・、Ｘｎ－１にそれぞれ接続されている。制御回路Ｙ２、・・・、Ｙｎは、出力用バスｏＢ２、・・・、ｏＢｎを介して、制御回路Ｙ１、・・・、Ｙｎ－１にそれぞれ接続されている。

【0031】

制御回路Ｘには、入力ａ、出力ｂ及び出力ｃが設けられている。

【0032】

制御回路Ｘ１においては、入力ａは、入力用バスｉＢ１を介して、ホストＨに接続されている。出力ｂは、入力用バスｉＢ２を介して、制御回路Ｘ２の入力ａに接続されている。出力ｃは、アクセラレータチップＣ１の内部に配置された複数のデータ線を介して、基本ユニットＵ１、Ｕ２、・・・、Ｕ８のそれぞれに接続されている。

【0033】

制御回路Ｘ２、・・・、Ｘｎ－１においては、入力ａは、入力用バスｉＢ２、・・・、ｉＢｎ－１を介して、制御回路Ｘ１、・・・、Ｘｎ－２の出力ｂに接続されている。出力ｂは、入力用バスｉＢ３、・・・、ｉＢｎを介して、制御回路Ｘ３、・・・、Ｘｎの入力ａに接続されている。出力ｃは、アクセラレータチップＣ２、・・・、Ｃｎ－１の内部に配置された複数のデータ線を介して、アクセラレータチップＣ２、・・・、Ｃｎ－１の基本ユニットＵ１、Ｕ２、・・・、Ｕ８のそれぞれに接続されている。

【0034】

制御回路Ｘｎにおいては、入力ａは、入力用バスｉＢｎを介して、制御回路Ｘｎ－１の出力ｂに接続されている。出力ｂの接続先はない。アクセラレータチップＣｎが最も下流側に配置されたアクセラレータチップであるからである。出力ｃは、アクセラレータチップＣｎの内部に配置された複数のデータ線を介して、アクセラレータチップＣｎの基本ユニットＵ１、Ｕ２、・・・、Ｕ８のそれぞれに接続されている。

【0035】

制御回路Ｘにおいては、出力ｃから基本ユニットＵ１へ出力されるデータは、基本ユニットＵ１６、Ｕ１７、Ｕ３２、Ｕ３３、Ｕ４８、Ｕ４９、Ｕ６４へ、この順で、転送される。出力ｃから基本ユニットＵ２へ出力されるデータは、基本ユニットＵ１５、Ｕ１８、Ｕ３１、Ｕ３４、Ｕ４７、Ｕ５０、Ｕ６３へ、この順で、転送される。出力ｃから基本ユニットＵ３へ出力されるデータは、基本ユニットＵ１４、Ｕ１９、Ｕ３０、Ｕ３５、Ｕ４６、Ｕ５１、Ｕ６２へ、この順で、転送される。出力ｃから基本ユニットＵ４へ出力されるデータは、基本ユニットＵ１３、Ｕ２０、Ｕ２９、Ｕ３６、Ｕ４５、Ｕ５２、Ｕ６１へ、この順で、転送される。出力ｃから基本ユニットＵ５へ出力されるデータは、基本ユニットＵ１２、Ｕ２１、Ｕ２８、Ｕ３７、Ｕ４４、Ｕ５３、Ｕ６０へ、この順で、転送される。出力ｃから基本ユニットＵ６へ出力されるデータは、基本ユニットＵ１１、Ｕ２２、Ｕ２７、Ｕ３８、Ｕ４３、Ｕ５４、Ｕ５９へ、この順で、転送される。出力ｃから基本ユニットＵ７へ出力されるデータは、基本ユニットＵ１０、Ｕ２３、Ｕ２６、Ｕ３９、Ｕ４２、Ｕ５５、Ｕ５８へ、この順で、転送される。出力ｃから基本ユニットＵ８へ出力されるデータは、基本ユニットＵ９、Ｕ２４、Ｕ２５、Ｕ４０、Ｕ４１、Ｕ５６、Ｕ５７へ、この順で、転送される。

【0036】

制御回路Ｙには、入力ｄ、入力ｅ及び出力ｆが設けられている。

【0037】

制御回路Ｙ１においては、入力ｄは、出力用バスｏＢ２を介して、制御回路Ｙ２の出力ｆに接続されている。入力ｅは、アクセラレータチップＣ１の内部に配置された複数のデータ線を介して、基本ユニットＵ５７、Ｕ５８、・・・、Ｕ６４のそれぞれに接続されている。出力ｆは、出力用バスｏＢ１を介して、ホストＨに接続されている。

【0038】

制御回路Ｙ２、・・・、Ｙｎ－１においては、入力ｄは、出力用バスｏＢ３、・・・、ｏＢｎを介して、制御回路Ｙ３、・・・、Ｙｎの出力ｆに接続されている。入力ｅは、アクセラレータチップＣ２、・・・、Ｃｎ－１の内部に配置された複数のデータ線を介して、アクセラレータチップＣ２、・・・、Ｃｎ－１の基本ユニットＵ５７、Ｕ５８、・・・、Ｕ６４のそれぞれに接続されている。出力ｆは、出力用バスｏＢ２、・・・、ｏＢｎ－１を介して、制御回路Ｙ１、・・・、Ｙｎ－２の入力ｄに接続されている。

【0039】

制御回路Ｙｎにおいては、入力ｄの接続先はない。アクセラレータチップＣｎが最も下流側に配置されたアクセラレータチップであるからである。入力ｅは、アクセラレータチップＣｎの内部に配置された複数のデータ線を介して、基本ユニットＵ５７、Ｕ５８、・・・、Ｕ６４のそれぞれに接続されている。出力ｆは、出力用バスｏＢｎを介して、制御回路Ｙｎ－１の入力ｄに接続されている。

【0040】

次に、図２を用いて、データ処理装置１００の動作について説明する。図２は、データ処理装置１００の動作を説明するための説明図である。図２に示すデータ処理装置１００の動作は、ホストＨから、アクセラレータチップＣ１、・・・、Ｃｎの全てに対し、リセット、初期設定、起動、再起動等といった、アクセラレータチップＣ１、・・・、Ｃｎの基本ユニットＵ１、・・・、Ｕ６４に対する演算を指示するための事前準備を指示する動作である。

【0041】

事前準備指示は、ホストＨからアクセラレータチップＣ１、・・・、Ｃｎの全てに対し、事前準備指示データを送信することにより行われる。事前準備指示データは、アクセラレータチップＣ１、・・・、Ｃｎのそれぞれの基本ユニットＵ１、・・・、Ｕ６４の全てに送信される。具体的には、ホストＨは、入力用バスｉＢ１へ事前準備指示データを出力する。事前準備指示データは、入力用バスｉＢ１を介して、アクセラレータチップＣ１の制回路Ｘの入力ａへ入力される。

【0042】

制御回路Ｘ１は、当該事前準備指示データから、所定のアドレス範囲（以下、「アドレス範囲Ａ」と称する。）に対する書き込みの要求を認識する。制御回路Ｘ１は、入力ａから入力された上記事前準備指示データを、出力ｂから入力用バスｉＢ２へ出力する。上記事前準備指示データは、入力用バスｉＢ２を介して、制御回路Ｘ２の入力ａへ入力される。

【0043】

ここで重要な点は、制御回路Ｘ１は、入力ａから入力された事前準備指示データを、出力ｂから入力用バスｉＢ２へ出力するが、出力ｃから複数のデータ線へ出力しない点にある。制御回路Ｘ１が当該事前準備指示データを出力ｃから複数のデータ線へ出力しないことにより、アクセラレータチップＣ１からアクセラレータチップＣ２への事前準備指示データの送信が高速化される。

【0044】

制御回路Ｘ２、・・・、Ｘｎ－１は、制御回路Ｘ１と同様、上述の動作を行う。事前準備指示データは、ホストＨから最も下流側のアクセラレータチップＣｎまで高速に送信される。

【0045】

また、事前準備指示データは、所定の領域（以下、「カウント領域」と称する。）を含む。ホストＨは、入力用バスｉＢ１へ事前準備指示データを出力する際、カウント領域に“０”を書き込む。制御回路Ｘ１は、当該制御回路Ｘ１に入力された事前準備指示データのカウント領域に書き込まれた“０”に“１”を加算する。そして、制御回路Ｘ１は、当該加算結果である“１”が書き込まれた事前準備指示データを出力する。当該カウント領域が更新された事前準備指示データが、アクセラレータチップＣ１からアクセラレータチップＣ２へ送信される。

【0046】

一方、制御回路Ｘ１は、当該制御回路Ｘ１に内蔵される所定のレジスタ（以下、「チップ番号レジスタ」と称する。）に、ホストＨから出力される事前準備指示データのカウント領域に書き込まれた“０”を格納する。チップ番号レジスタに格納された“０”は、制御回路Ｘ１が含まれるアクセラレータチップＣ１のチップ番号である。チップ番号とは、上流側から下流側に向けて、アクセラレータチップＣ１、・・・、Ｃｎを数えた場合において、アクセラレータチップＣ１、・・・、Ｃｎのそれぞれが何番目のチップに該当するかを示す番号である。最も上流側のチップ番号を“０”とすれば、アクセラレータチップＣ１のチップ番号は“０”となる。

【0047】

制御回路Ｘ２、・・・、Ｘｎは、制御回路Ｘ１と同様、上述の動作を行う。制御回路Ｘ２、・・・、Ｘｎは、当該制御回路Ｘ２、・・・、Ｘｎに内蔵されるチップ番号レジスタに当該制御回路Ｘ２、・・・、Ｘｎが含まれるアクセラレータチップのチップ番号を格納することができる。

【0048】

例えば、アクセラレータチップＣ２であれば、制御回路Ｘ２は、当該制御回路Ｘ２に入力された事前準備指示データのカウント領域に書き込まれた“１”に“１”を加算する。制御回路Ｘ２は、当該加算結果である“２”が書き込まれた事前準備指示データを出力する。当該カウント領域が更新された事前準備指示データが、アクセラレータチップＣ２からアクセラレータチップＣ３へ送信されることになる。

【0049】

制御回路Ｘ２は、当該制御回路Ｘ２に内蔵されるチップ番号レジスタに、アクセラレータチップＣ１から出力される事前準備指示データのカウント領域に書き込まれた“１”を格納する。チップ番号レジスタに格納された“１”は、制御回路Ｘ２が含まれるアクセラレータチップＣ２のチップ番号である。

【0050】

なお、制御回路Ｘは、当該制御回路Ｘが含まれるアクセラレータチップに不具合が発生している場合、上述した、カウント領域の更新を行わないようにしても良い。不具合が発生したアクセラレータチップにチップ番号は与えられず、不具合が発生したアクセラレータチップの利用を回避することができる。なお、不具合の発生は、アクセラレータチップに搭載された自己診断機能を用いて、認識可能である。

【0051】

＜実施形態２＞
図３を用いて、本実施形態２に係るデータ処理装置１００の動作について説明する。図３は、データ処理装置１００の動作を説明するための説明図である。図３に示すデータ処理装置１００の動作は、ホストＨから、アクセラレータチップＣ１、・・・、Ｃｎの全てに対し、演算を指示する動作である。

【0052】

演算指示は、ホストＨからアクセラレータチップＣ１、・・・、Ｃｎの全てに演算指示データを送信することにより行われる。演算指示データは、アクセラレータチップＣ１、・・・、Ｃｎの全てに写像される。より詳細には、演算指示データは、アクセラレータチップＣ１、・・・、Ｃｎのそれぞれの基本ユニットＵ１、・・・、Ｕ６４のうち、演算指示の対象となる基本ユニットに送信される。具体的には、ホストＨは、入力用バスｉＢ１へ演算指示データを出力する。演算指示データは、入力用バスｉＢ１を介して、制御回路Ｘ１の入力ａへ入力される。

【0053】

演算指示データには、所定のアドレス範囲（以下、「アドレス範囲Ｂ」と称する。）に対する書き込みの要求が記載されている。制御回路Ｘ１は、当該演算指示データから、アドレス範囲Ｂに対する書き込みの要求を認識する。

【0054】

制御回路Ｘ１は、入力ａから入力された上記演算指示データを、出力ｂから入力用バスｉＢ２へ出力する。上記演算指示データは、入力用バスｉＢ２を介して、制御回路Ｘ２の入力ａへ入力される。また、制御回路Ｘ１は、入力ａから入力された上記演算指示データを、出力ｃから複数のデータ線へ出力する。上記演算指示データは、複数のデータ線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力される。なお、入力用バスｉＢ２への演算指示データの出力、及び複数のデータ線への演算指示データの出力は、入力用バスｉＢ２及び複数のデータ線がそれぞれ利用可能になった際、同時に実行される。

【0055】

複数のデータ線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力された上記演算指示データは、上述したとおり、基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送される。なお、上記演算指示データは、アドレス範囲Ｂ（図３中、Ｐで示す範囲）に基づき、基本ユニットＵ１、Ｕ２、Ｕ３、Ｕ１４、Ｕ１５、Ｕ１６、Ｕ１７、Ｕ１８、Ｕ１９、Ｕ３０、Ｕ３１、Ｕ３２、Ｕ３３、Ｕ３４、Ｕ３５、Ｕ４６、Ｕ４７、Ｕ４８、Ｕ４９、Ｕ５０、Ｕ５１、Ｕ６２、Ｕ６３、Ｕ６４の各レジスタ部Ｒ１、Ｒ２、Ｒ３、Ｒ１４、Ｒ１５、Ｒ１６、Ｒ１７、Ｒ１８、Ｒ１９、Ｒ３０、Ｒ３１、Ｒ３２、Ｒ３３、Ｒ３４、Ｒ３５、Ｒ４６、Ｒ４７、Ｒ４８、Ｒ４９、Ｒ５０、Ｒ５１、Ｒ６２、Ｒ６３、Ｒ６４に書き込まれる。

【0056】

基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、Ｕ６３・・・、Ｕ５６、Ｕ５７のそれぞれへ転送された上記演算指示データは、複数のデータ線を介して、制御回路Ｙ１の入力ｅへ入力される。

【0057】

ここで重要な点は、制御回路Ｙ１は、基本ユニットＵ６４、・・・、Ｕ５７のそれぞれから入力ｅへ入力される上記演算指示データを当該制御回路Ｙ１の内部で消去してしまう点にある。このため、制御回路Ｙ１は、出力用バスｏＢ１を介して、出力ｆからホストＨへ上記演算指示データを送信する必要はない。上記演算指示データの送信を不要とすることにより、ホストＨからアクセラレータチップＣ１への演算指示データの送信が高速化される。

【0058】

アクセラレータチップＣ２、・・・、Ｃｎの制御回路Ｙ２、・・・、Ｙｎは、制御回路Ｙ１と同様、上述の動作を行う。演算指示データは、ホストＨから最も下流側のアクセラレータチップＣｎまで高速に送信される。

【0059】

＜実施形態３＞
図４を用いて、本実施形態３に係るデータ処理装置１００の動作について説明する。図４は、データ処理装置１００の動作を説明するための説明図である。図４に示すデータ処理装置１００の動作は、ホストＨから、アクセラレータチップＣ１、・・・、Ｃｎの各アクセラレータチップに対し、アドレス情報等のレジスタ値を書き込む動作である。

【0060】

アドレス情報等のレジスタ値は、アドレス情報、及び、各基本ユニットのレジスタ部への設定値を含む。また、アドレス情報とは、各基本ユニットのロジック部に含まれるメモリが担当するアドレスの先頭と終端のペアを表す。アドレス情報は、基本ユニットごとに設定される。

【0061】

なお、基本ユニットのロジック部に含まれるメモリを使用するかどうかは、上記実施形態２の演算指示データに含まれている。つまり、上記演算指示データにより、当該メモリを使用するとの指定がされ、かつ、制御回路Ｘから入ってくるアドレスが、アドレス情報で指定された範囲に入っている場合のみ、当該メモリに対する読み出し／書き込みが実行される。

【0062】

アドレス情報の書き込みは、ホストＨからアクセラレータチップＣ１、・・・、Ｃｎの全てに対し、アドレス情報を送信することにより行われる。具体的には、ホストＨは、入力用バスｉＢ１へアドレス情報を出力する。アドレス情報は、入力用バスｉＢ１を介して、制御回路Ｘ１の入力ａへ入力される。

【0063】

アドレス情報は、所定のアドレス範囲（以下、「アドレス範囲Ｃ」と称する。）に対する書き込み要求に含まれている。制御回路Ｘ１は、アドレス範囲Ｃに対する書き込み要求を認識することにより、アドレス情報の書き込みであることを認識する。

【0064】

制御回路Ｘ１は、入力ａから入力された上記アドレス情報を、出力ｂから入力用バスｉＢ２へ出力する。上記アドレス情報は、入力用バスｉＢ２を介して、制御回路Ｘ２の入力ａへ入力される。また、制御回路Ｘ１は、入力ａから入力された上記アドレス情報を、出力ｃから複数のデータ線へ出力する。上記アドレス情報は、複数のデータ線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力される。なお、入力用バスｉＢ２へのアドレス情報の出力、及び複数のデータ線へのアドレス情報の出力は、入力用バスｉＢ２及び複数のデータ線がそれぞれ利用可能になった際、同時に実行される。

【0065】

複数のデータ線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力された上記アドレス情報は、上述したとおり、基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送される。なお、上記アドレス情報は、アドレス範囲Ｃに基づき、例えば、基本ユニットＵ４、Ｕ１３、Ｕ２０の各レジスタ部Ｒ４、Ｒ１３、Ｒ２０に書き込まれる。

【0066】

ここで、上記アドレス情報は、アクセラレータチップＣ１、・・・、Ｃｎのチップ番号を含んでいる。上記アドレス情報にチップ番号が含まれるアクセラレータチップは、上記レジスタ値に含まれる設定値の格納対象となる基本ユニットＵ１、・・・、Ｕ６４が配置されたアクセラレータチップである。上記アドレス情報に含まれるチップ番号が“０”であれば、複数のアクセラレータチップＣ１、・・・、Ｃｎのそれぞれに対し、設定値の格納対象となる基本ユニットＵ１、・・・、Ｕ６４の各レジスタ部Ｒ１、・・・、Ｒ６４に上記設定値が書き込まれる。

【0067】

一方、上記アドレス情報に含まれるチップ番号が“０”以外であれば、上記アドレス情報に含まれるチップ番号が示す番号と一致するチップ番号のアクセラレータチップＣ１、・・・、Ｃｎに対し、上記設定値の格納対象となる基本ユニットＵ１、・・・、Ｕ６４の各レジスタ部Ｒ１、・・・、Ｒ６４に上記設定値が書き込まれる。

【0068】

基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送された上記アドレス情報は、複数のデータ線を介して、制御回路Ｙ１の入力ｅへ入力される。

【0069】

ここで重要な点は、制御回路Ｙ１は、基本ユニットＵ６４、・・・、Ｕ５７のそれぞれから入力ｅへ入力される上記アドレス情報を当該制御回路Ｙ１の内部で消去してしまう点にある。このため、制御回路Ｙ１は、出力用バスｏＢ１を介して、出力ｆからホストＨへ上記アドレス情報を送信する必要はない。上記アドレス情報の送信を不要とすることにより、ホストＨからアクセラレータチップＣ１へのアドレス情報の送信が高速化される。

【0070】

制御回路Ｙ２、・・・、Ｙｎは、制御回路Ｙ１と同様、上述の動作を行う。アドレス情報は、ホストＨから最も下流側のアクセラレータチップＣｎまで高速に送信されることになる。

【0071】

＜実施形態４＞
図５を用いて、本実施形態４に係るデータ処理装置１００の動作について説明する。図５は、データ処理装置１００の動作を説明するための説明図である。図５に示すデータ処理装置１００の動作は、ホストＨから、アクセラレータチップＣ１、・・・、Ｃｎの各チップに対し、演算に用いる演算データを書き込む動作である。当該動作は、より具体的には、演算開始前に、基本ユニットのロジック部に含まれるメモリに対して、演算に必要なデータを書き込む動作である。

【0072】

基本ユニットのロジック部に含まれるメモリへの書き込みは、ホストＨからアクセラレータチップＣ１、・・・、Ｃｎの全てに対し、書き込みデータを送信することにより行われる。具体的には、ホストＨは、入力用バスｉＢ１へ書き込みデータを出力する。書き込みデータは、入力用バスｉＢ１を介して、制御回路Ｘ１の入力ａへ入力される。

【0073】

所定のアドレス範囲（以下、「アドレス範囲Ｄ」と称する。）に対する書き込み要求は、基本ユニットのロジック部に含まれるメモリに対する書き込みアドレスと書き込みデータを含む。制御回路Ｘ１は、アドレス範囲Ｄに対する書き込み要求を認識し、当該認識された書き込み要求から基本ユニットのロジック部に含まれるメモリに対する書き込みアドレスと書き込みデータを認識する。

【0074】

制御回路Ｘ１は、入力ａから入力された上記書き込みアドレスと書き込みデータを、出力ｂから入力用バスｉＢ２へ出力する。上記書き込みアドレスと書き込みデータは、入力用バスｉＢ２を介して、制御回路Ｘ２の入力ａへ入力される。また、制御回路Ｘ１は、入力ａから入力された上記書き込みアドレスと書き込みデータを、出力ｃから複数のアドレス線およびデータ線へそれぞれ出力する。上記書き込みアドレスと書き込みデータはそれぞれ、複数のアドレス線およびデータ線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力される。なお、入力用バスｉＢ２への書き込みアドレスと書き込みデータの出力、及び複数のアドレス線およびデータ線への書き込みアドレスと書き込みデータの出力は、入力用バスｉＢ２、複数のアドレス線およびデータ線が利用可能になった際、同時に実行される。

【0075】

複数のアドレス線およびデータ線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力された上記書き込みアドレスと書き込みデータは、上述したとおり、基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送される。なお、上記書き込みアドレスと書き込みデータは、アドレス範囲Ｄに基づき、基本ユニットＵ４、Ｕ６、Ｕ２７、Ｕ２９、Ｕ３６、Ｕ３８、Ｕ５９、Ｕ６１の各ロジック部Ｌ４、Ｌ６、Ｌ２７、Ｌ２９、Ｌ３６、Ｌ３８、Ｌ５９、Ｌ６１に含まれるメモリに書き込まれる。この際、アドレス範囲Ｄは、アクセラレータチップ内およびアクセラレータチップ間において重複してよい。重複する場合は複数の基本ユニットの各ロジック部のメモリに同時に書き込みが行われる。

【0076】

基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送された上記書き込みアドレスと書き込みデータは、複数のアドレス線およびデータ線を介して、制御回路Ｙ１の入力ｅへ入力される。

【0077】

ここで重要な点は、制御回路Ｙ１は、基本ユニットＵ６４、・・・、Ｕ５７のそれぞれから入力ｅへ入力される上記書き込みアドレスと書き込みデータを当該制御回路Ｙ１の内部で消去してしまう点にある。このため、制御回路Ｙ１は、出力用バスｏＢ１を介して、出力ｆからホストＨへ上記書き込みアドレスと書き込みデータを送信する必要はない。上記書き込みアドレスと書き込みデータの送信を不要とすることにより、ホストＨからアクセラレータチップＣ１への書き込みアドレスと書き込みデータの送信が高速化される。

【0078】

制御回路Ｙ２、・・・、Ｙｎは、制御回路Ｙ１と同様、上述の動作を行う。書き込みアドレスと書き込みデータはホストＨから最も下流側のアクセラレータチップＣｎまで高速に送信されることになる。

【0079】

＜実施形態５＞
図６を用いて、本実施形態５に係るデータ処理装置１００の動作について説明する。図６は、データ処理装置１００の動作を説明するための説明図である。図６に示すデータ処理装置１００の動作は、ホストＨから、アクセラレータチップＣ１、・・・、Ｃｎの各チップに対し、演算結果である演算結果データを読み出す動作である。当該動作は、より具体的には、演算結果である演算結果データを基本ユニットのロジック部に含まれるメモリから読み出す動作である。

【0080】

演算結果データの読み出しは、ホストＨからアクセラレータチップＣ１、・・・、Ｃｎの全てに対し、読み出し先頭アドレス及び長さを送信することにより行われる。具体的には、ホストＨは、入力用バスｉＢ１へ読み出し先頭アドレス及び長さを出力する。読み出し先頭アドレス及び長さは、入力用バスｉＢ１を介して、制御回路Ｘ１の入力ａへ入力される。

【0081】

上述のアドレス範囲Ｄに対する読み出し要求には、読み出し先頭アドレス及び長さが記載されている。制御回路Ｘ１は、アドレス範囲Ｄに対する読み出し要求を認識し、当該認識された読み出し要求から基本ユニットのロジック部に含まれるメモリからの読み出し先頭アドレス及び長さを認識する。

【0082】

制御回路Ｘ１は、入力ａから入力された上記読み出し先頭アドレス及び長さを、出力ｂから入力用バスｉＢ２へ出力する。上記読み出し先頭アドレス及び長さは、入力用バスｉＢ２を介して、制御回路Ｘ２の入力ａへ入力される。また、制御回路Ｘ１は、入力ａから入力された上記読み出し先頭アドレス及び長さを元に、出力ｃから複数のデータ線へ当該長さに応じた個数の読み出しアドレスを順に出力する。当該複数の読み出しアドレスは、複数のアドレス線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力される。なお、入力用バスｉＢ２への読み出し先頭アドレス及び長さの出力、及び複数のアドレス線への長さに応じた個数の読み出しアドレスの出力は、入力用バスｉＢ２及び複数のアドレス線が利用可能になった際、同時に実行される。

【0083】

複数のアドレス線を介して、基本ユニットＵ１、・・・、Ｕ８のそれぞれへ入力された上記長さに応じた個数の読み出しアドレスは、上述したとおり、基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送される。なお、アドレス範囲Ｄに基づき、基本ユニットＵ３８のロジック部Ｌ３８に含まれるメモリから演算結果データが読み出される。この際、制御回路Ｘ１は、アドレス範囲Ｄに含まれる読み出し先頭アドレス及び長さを当該制御回路Ｘ１の内部に記録するとともに、当該読み出し先頭アドレス及び長さを制御回路Ｘ２に送信する。

【0084】

基本ユニットＵ１、・・・、Ｕ８のそれぞれから基本ユニットＵ６４、・・・、Ｕ５７のそれぞれへ転送された読み出し先頭アドレス及び長さに応じた個数の読み出しアドレスに基づき、各ユニットが担当メモリ範囲の読み出しを行い、読み出しデータは、複数のデータ線を介して、制御回路Ｙ１の入力ｅへ入力される。

【0085】

なお、アドレス範囲ＤがアクセラレータチップＣ１、・・・、Ｃｎのそれぞれのチップ内部及び異なるアクセラレータチップ間において重複する場合、１つのアクセラレータチップ内部の基本ユニットＵ１、・・・、Ｕ６４の各ロジック部Ｌ１、・・・、Ｌ６４のメモリ及び異なるアクセラレータチップ内部の基本ユニットＵ１、・・・、Ｕ６４の各ロジック部Ｌ１、・・・、Ｌ６４のメモリへの書き込みが同時に行われる。

【0086】

ここで重要な点は、制御回路Ｙ１は、基本ユニットＵ６４、・・・、Ｕ５７のそれぞれから入力ｅへ入力される上記演算結果データを、制御回路Ｙ２から送信されて来る演算結果データと共に、出力ｆからホストＨへ送信する点にある。このため、制御回路Ｙ１は、出力ｆからホストＨへ上記演算結果データを送信する処理を繰り返し行う必要はない。上記演算結果データを送信する処理を繰り返し行う必要が無くなるので、アクセラレータチップＣ１からホストＨへの演算結果データの送信が高速化される。

【0087】

制御回路Ｙ２、・・・、Ｙｎは、制御回路Ｙ１と同様、上述の動作を行う。演算結果データは最も下流側のアクセラレータチップＣｎからホストＨへ高速に送信されることになる。

【0088】

＜実施形態６＞
図７を用いて、本実施形態６に係るデータ処理装置１００の動作について説明する。図７は、データ処理装置１００の動作を説明するための説明図である。図７に示すデータ処理装置１００の動作は、ホストＨから、アクセラレータチップＣ１、・・・、Ｃｎの各チップに対し、演算完了を確認する動作である。

【0089】

演算完了確認動作は、ホストＨからアクセラレータチップＣ１に対し、制御回路Ｘ１に内蔵される所定のレジスタ（以下、「状態レジスタ」と称する。）の読み出し指示を送信することにより行われる。具体的には、ホストＨは、入力用バスｉＢ１へ状態レジスタの読み出し要求を出力する。状態レジスタの読み出し要求は、入力用バスｉＢ１を介して、制御回路Ｘ１の入力ａへ入力される。

【0090】

状態レジスタは、アドレス範囲Ａに対する読み出しにより読み出すことができる。制御回路Ｘ１は、アドレス範囲Ａに含まれる特定のレジスタ部に対する読み出し要求を認識し、状態レジスタの読み出しであることを認識する。

【0091】

ここで重要な点は、制御回路Ｘ１は、入力ａから入力された状態レジスタの読み出し指示を、出力ｂから入力用バスｉＢ２へ出力しないと共に、出力ｃから複数のデータ線へ出力しない点にある。制御回路Ｘ１は当該制御回路Ｘ１の状態レジスタの内容をホストＨへ送信する。より具体的には、制御回路Ｘ１は、当該制御回路Ｘ１の状態レジスタの内容を制御回路Ｙ１に出力し、当該状態レジスタの内容を制御回路Ｙ１がホストＨに送信する。このため、アクセラレータチップＣ１からホストＨへの演算完了報告が高速化される。

【0092】

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【符号の説明】

【0093】

１００データ処理装置
Ｃ１、Ｃ２、・・・、Ｃｎアクセラレータチップ
Ｈホスト
Ｘ１、・・・、Ｘｎ、Ｙ１、・・・、Ｙｎ制御回路
Ｕ１、・・・、Ｕ６４基本ユニット
ｉＢ１、・・・、ｉＢｎ入力用バス
ｏＢ１、・・・、ｏＢｎ出力用バス

【図1】