特開2024-137389 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｐｒｅｆｅｒｒｅｄ　Ｎｅｔｗｏｒｋｓの特許一覧 ▶ 国立大学法人神戸大学の特許一覧

特開2024-137389データ処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024137389

(43)【公開日】2024-10-07

(54)【発明の名称】データ処理装置

(51)【国際特許分類】

G06F 9/30 20180101AFI20240927BHJP

G06F 1/10 20060101ALI20240927BHJP

【ＦＩ】

G06F9/30 330C

G06F1/10 510

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2023048896

(22)【出願日】2023-03-24

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度、国立研究開発法人新エネルギー・産業技術総合開発機構「高効率・高速処理を可能とするＡＩチップ・次世代コンピューティングの技術開発／革新的ＡＩエッジコンピューティング技術の開発／ＦＰＧＡＩＰと可変精度演算コアの融合による超低消費電力エッジヘビーコンピューティング向けＳｏＣの研究開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】515130201

【氏名又は名称】株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ

(71)【出願人】

【識別番号】504150450

【氏名又は名称】国立大学法人神戸大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】田形健二

(72)【発明者】

【氏名】牧野淳一郎

【テーマコード（参考）】

5B033

【Ｆターム（参考）】

5B033BC02

(57)【要約】

【課題】命令を並列に実行する複数の実行回路を有するデータ処理装置に発生する電源ノイズを低減し、データ処理装置の誤動作を抑制する。
【解決手段】データ処理装置は、命令を発行する命令発行部と、前記命令発行部から発行された命令を並列に実行する複数の実行回路と、前記命令発行部と前記複数の実行回路との間に配置され、前記命令発行部から受ける命令の前記実行回路への到達を遅延させる複数の遅延部と、を有し、前記複数の実行回路の少なくとも２つに供給される命令の到達タイミングは互いに異なる。
【選択図】図１

【特許請求の範囲】

【請求項1】

命令を発行する命令発行部と、
前記命令発行部から発行された命令を並列に実行する複数の実行回路と、
前記命令発行部と前記複数の実行回路との間に配置され、前記命令発行部から受ける命令の前記実行回路への到達を遅延させる複数の遅延部と、を有し、
前記複数の実行回路の少なくとも２つに供給される命令の到達タイミングは互いに異なる
データ処理装置。

【請求項2】

前記複数の遅延部の遅延量の差は、前記複数の実行回路が同時に動作を開始するときに発生する電源ノイズの波形の周期の２分の１の整数倍である
請求項１に記載のデータ処理装置。

【請求項3】

複数の遅延量の各々が設定される前記遅延部の数は、ほぼ等しい
請求項２に記載のデータ処理装置。

【請求項4】

前記複数の遅延部に設定する遅延量を示す遅延量情報を保持する遅延量保持部を有し、
前記複数の遅延部の各々に設定される遅延量は、前記遅延量保持部が保持する遅延量情報に応じて設定される
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【請求項5】

前記複数の遅延部の各々は、直列に接続可能な複数のフリップフロップを有し、
前記フリップフロップの直列の接続数は、前記遅延量保持部が保持する遅延量情報に応じて設定される
請求項４に記載のデータ処理装置。

【請求項6】

前記複数の遅延部の各々は、ライトポインタとリードポインタとにより制御され、メモリで構成されたＦＩＦＯを有し、
前記ＦＩＦＯへの命令の格納毎に、前記ライトポインタと前記リードポインタとが連動して更新され、
前記ライトポインタの値と前記リードポインタの値との差により、前記複数の遅延部の各々遅延量が設定される
請求項４に記載のデータ処理装置。

【請求項7】

前記複数の実行回路は、第１の周波数を有するクロックに同期してそれぞれ動作し、
前記複数の遅延部の少なくとも２つによって遅延された命令が前記実行回路にそれぞれ到達する時間差は、前記クロックの少なくとも１周期分の時間である
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【請求項8】

前記命令発行部は、演算命令を発行し、
前記複数の実行回路の各々は、前記演算命令に基づいて演算を実行する演算器である
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【請求項9】

前記命令発行部は、データ転送命令を発行し、
前記複数の実行回路の各々は、前記データ転送命令に基づいてデータ転送を実行するデータ転送実行回路である
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【請求項10】

前記命令発行部と前記複数の実行回路と前記複数の遅延部とは、１つの半導体チップ内に搭載される
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【請求項11】

前記命令発行部と前記複数の実行回路とは、互いに異なる半導体チップにそれぞれ搭載される
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【請求項12】

少なくとも１つの半導体チップがそれぞれ搭載される複数の基板を有し、
前記命令発行部と前記複数の実行回路とは、互いに異なる前記基板の前記半導体チップにそれぞれ搭載される
請求項１ないし請求項３のいずれか１項に記載のデータ処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、データ処理装置に関する。

【背景技術】

【0002】

半導体プロセスの進化に伴い、半導体デバイスの消費電力は増加する傾向にある。昨今では、消費電力が５００Ｗを超える半導体デバイスも開発されている。消費電力が大きい半導体デバイスに搭載される内部回路を同時に動作させ、又は動作を同時に停止させると、消費電力が急激に増加又は減少する。消費電力が急激に増加又は減少すると、瞬間的に電圧降下又は電圧上昇が発生するおそれがあり、電源ノイズが発生するおそれがある。電源ノイズは、消費電力が大きい半導体デバイスほど大きくなりやすい。また、複数の半導体デバイスが搭載される装置においても、搭載される半導体デバイスの消費電力が大きいほど電源ノイズが大きくなりやすい。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本開示では、命令を並列に実行する複数の実行回路を有するデータ処理装置に発生する電源ノイズを低減し、データ処理装置の誤動作を抑制する。

【課題を解決するための手段】

【0004】

本発明の実施形態のデータ処理装置は、命令を発行する命令発行部と、前記命令発行部から発行された命令を並列に実行する複数の実行回路と、前記命令発行部と前記複数の実行回路との間に配置され、前記命令発行部から受ける命令の前記実行回路への到達を遅延させる複数の遅延部と、を有し、前記複数の実行回路の少なくとも２つに供給される命令の到達タイミングは互いに異なる。

【図面の簡単な説明】

【0005】

【図1】本発明のデータ処理装置の一形態であるプロセッサの構成の一例を示すブロック図である。

【図2】図１の遅延部の例を示す回路図である。

【図3】図１の遅延部の別の例を示す回路図である。

【図4】図１の遅延部のさらなる別の例を示す回路図である。

【図5】図４の遅延部の動作の一例を示す説明図である。

【図6】図１の遅延部の遅延量の一例を示す説明図である。

【図7】図１の各遅延部の遅延量の決定方法の一例を示す説明図である。

【図8】本発明のデータ処理装置の別の形態であるプロセッサの構成の一例を示すブロック図である。

【図9】図８の遅延部の一例を示す回路図である。

【図10】本発明のデータ処理装置の別の形態であるＤＭＡＣの構成の一例を示すブロック図である。

【図11】本発明のデータ処理装置のさらなる別の形態を示すブロック図である。

【図12】図１に示したプロセッサが搭載される計算機のハードウェア構成の一例を示すブロック図である。

【発明を実施するための形態】

【0006】

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。以下では、信号が伝達される信号線には、信号名と同じ符号を使用する。特に限定されないが、以下で説明するプロセッサは、サーバ等のコンピュータに搭載され、プログラムを実行することで、ディープニューラルネットワークの訓練又は推論において畳み込み演算等を実行する。なお、以下で説明するプロセッサは、科学技術計算などに使用されてもよい。

【0007】

図１は、本発明のデータ処理装置の一形態であるプロセッサの構成の一例を示すブロック図である。図１に示すプロセッサ１００は、命令フェッチ部１１０、命令発行部１２０、複数の遅延部１３０、複数の演算器１４０及び複数のレジスタファイル１５０を有する。なお、命令フェッチ部１１０、命令発行部１２０及び遅延部１３０は、命令フェッチ回路１１０、命令発行回路１２０及び遅延回路１３０として実現されてもよい。

【0008】

例えば、プロセッサ１００は、ＳＩＭＤ（Single Instruction Multiple Data）型プロセッサ又はＳＩＭＴ（Single Instruction Multiple Threads）型プロセッサである。プロセッサ１００は、データを処理するデータ処理装置の一例である。なお、図１は、プロセッサ１００のうち、主にプロセッサコアに含まれる要素を記載している。プロセッサ１００は、図１に示す要素以外にも、命令キャッシュ、データキャッシュ、内蔵メモリ等を有してもよい。

【0009】

命令フェッチ部１１０の出力は、命令発行部１２０の入力に接続される。命令フェッチ部１１０は、図示しないメモリ又は命令キャッシュ等に保持された命令をフェッチし、フェッチした命令を命令発行部１２０に転送する。

【0010】

命令発行部１２０の出力は、複数の遅延部１３０の入力のそれぞれに共通に接続される。命令発行部１２０は、命令フェッチ部１１０から転送される命令を複数の遅延部１３０に並列に出力する。例えば、命令発行部１２０から出力される命令は、演算器１４０及びレジスタファイル１５０を制御する制御信号として遅延部１３０に出力される。

【0011】

なお、命令発行部１２０は、命令フェッチ部１１０から転送される命令をデコードする命令デコーダを有してもよい。また、命令発行部１２０は、複数の命令を保持する命令バッファと、命令バッファに保持された命令を発行可能な順に発行する命令スケジューラを有してもよい。

【0012】

複数の遅延部１３０の出力は、対応する演算器１４０の入力に接続される。各遅延部１３０は、命令発行部１２０から受ける命令を所定量だけ遅延させ、対応する演算器１４０に出力する。すなわち、複数の遅延部１３０は、命令（命令に含まれる制御情報）そのものの演算器１４０への到達タイミングを遅延させる。これにより、タイマー等を使用して命令の演算器１４０への到達タイミングを制御する場合に比べて、命令の遅延機構を簡易に構成することができる。各遅延部１３０に設定される遅延量の例は、図６で説明される。

【0013】

演算器１４０の出力は、対応するレジスタファイル１５０の入力に接続される。各演算器１４０は、対応する遅延部１３０から供給される命令を実行し、命令の実行結果であるデータをレジスタファイル１５０に出力する。なお、各演算器１４０は、命令発行部１２０から発行される複数種の命令にそれぞれ対応する複数種の演算器（加算器、乗算器、積和演算器等）を有してもよい。演算器１４０は、演算命令を実行する実行回路の一例である。

【0014】

レジスタファイル１５０の出力は、対応する演算器１４０の入力に接続される。なお、各レジスタファイル１５０は、複数のレジスタを有する。各レジスタは、図示しないメモリ又はデータキャッシュ等との間でデータを入出力する。また、各レジスタは、対応する演算器１４０からの演算結果を保持し、保持しているデータを対応する演算器１４０に出力する。なお、図１に示す複数のレジスタファイル１５０の代わりに、複数の演算器１４０に共通のレジスタファイルが設けられてもよい。

【0015】

図１では、プロセッサ１００は、遅延部１３０、演算器１４０及びレジスタファイル１５０を各々含む８個の演算ブロックを有するが、演算ブロックの数は、２個以上であればよい。

【0016】

図２は、図１の遅延部１３０の例を示す回路図である。図２に回路例１及び回路例２として示す遅延部１３０の各々は、複数のフリップフロップＦＦ（ＦＦ１、ＦＦ２、ＦＦ３）、複数のセレクタＳＥＬ（ＳＥＬ１、ＳＥＬ２、ＳＥＬ３）及びプログラム回路ＰＲＧＭを有する。

【0017】

回路例１の遅延部１３０では、フリップフロップＦＦとセレクタＳＥＬとは、命令発行部１２０と演算器１４０との間に交互に配置される。回路例２の遅延部１３０では、フリップフロップＦＦとセレクタＳＥＬとは、それぞれ直列に配置される。各フリップフロップＦＦは、受けた命令ＩＮＳを１単位の遅延量（１クロック周期）だけ遅らせて出力する。以下では、１単位の遅延量は、遅延量１とも称され、２単位の遅延量は、遅延量２とも称され、３単位の遅延量は、遅延量３とも称される。"０"の遅延量は、遅延量０とも称される。フリップフロップＦＦに示す三角印は、クロック入力端子を示す。

【0018】

以下では、相対的に命令発行部１２０側に配置されるフリップフロップＦＦ又はセレクタＳＥＬは、前段のフリップフロップＦＦ又は前段のセレクタＳＥＬとも称される。相対的に演算器１４０側に配置されるフリップフロップＦＦ又はセレクタＳＥＬは、後段のフリップフロップＦＦ又は後段のセレクタＳＥＬとも称される。

【0019】

回路例１では、各セレクタＳＥＬの入力端子１は、前段のフリップフロップＦＦから出力される命令ＩＮＳを受ける。各セレクタＳＥＬの入力端子０は、命令発行部１２０からの命令ＩＮＳを受ける。セレクタＳＥＬ１、ＳＥＬ２は、対応する遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２が論理１の場合、前段のフリップフロップＦＦから出力される命令ＩＮＳを後段のフリップフロップＦＦに出力する。セレクタＳＥＬ１、ＳＥＬ２は、対応する遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２が論理０の場合、命令発行部１２０から出力される命令ＩＮＳを後段のフリップフロップＦＦに出力する。

【0020】

セレクタＳＥＬ３は、遅延制御信号ＤＣＮＴ３が論理１の場合、フリップフロップＦＦ３から出力される命令ＩＮＳを演算器１４０に出力する。セレクタＳＥＬ３は、遅延制御信号ＤＣＮＴ３が論理０の場合、命令発行部１２０から出力される命令ＩＮＳを演算器１４０に出力する。

【0021】

回路例２では、セレクタＳＥＬ１の入力端子０は、命令発行部１２０からの命令ＩＮＳを受ける。セレクタＳＥＬ２、ＳＥＬ３の入力端子０は、前段のセレクタＳＥＬ１、ＳＥＬ２からの命令ＩＮＳをそれぞれ受ける。セレクタＳＥＬ１－ＳＥＬ３の入力端子１は、フリップフロップＦＦ１－ＦＦ３から出力される命令ＩＮＳをそれぞれ受ける。

【0022】

セレクタＳＥＬ１は、遅延制御信号ＤＣＮＴ１が論理１の場合、フリップフロップＦＦ１から出力される命令ＩＮＳをセレクタＳＥＬ２に出力する。セレクタＳＥＬ１は、遅延制御信号ＤＣＮＴ１が論理０の場合、命令発行部１２０から出力される命令ＩＮＳをセレクタＳＥＬ２に出力する。

【0023】

セレクタＳＥＬ２は、遅延制御信号ＤＣＮＴ２が論理１の場合、フリップフロップＦＦ２から出力される命令ＩＮＳをセレクタＳＥＬ３に出力する。セレクタＳＥＬ２は、遅延制御信号ＤＣＮＴ２が論理０の場合、セレクタＳＥＬ１から出力される命令ＩＮＳをセレクタＳＥＬ３に出力する。

【0024】

セレクタＳＥＬ３は、遅延制御信号ＤＣＮＴ３が論理１の場合、フリップフロップＦＦ３から出力される命令ＩＮＳを演算器１４０に出力する。セレクタＳＥＬ３は、遅延制御信号ＤＣＮＴ３が論理０の場合、セレクタＳＥＬ２から出力される命令ＩＮＳを演算器１４０に出力する。

【0025】

プログラム回路ＰＲＧＭは、遅延制御信号ＤＣＮＴ（ＤＣＮＴ１－ＤＣＮＴ３）の論理値を記憶し、記憶している論理値を有する遅延制御信号ＤＣＮＴを出力する。特に限定されないが、例えば、プログラム回路ＰＲＧＭは、ＲＯＭ（Read Only Memory）等の不揮発性メモリ又はｅＦＵＳＥ等である。プログラム回路ＰＲＧＭは、遅延部１３０に設定する遅延量を示す遅延量情報を保持する遅延量保持部の一例である。

【0026】

なお、一度決定された遅延量が変更されない場合、各遅延部１３０にプログラム回路ＰＲＧＭを設ける代わりに、遅延制御信号ＤＣＮＴ１－ＤＣＮＴ３をそれぞれ伝達する遅延制御信号線ＤＣＮＴ１－ＤＣＮＴ３のそれぞれが、電源線又は接地線に接続されてもよい。この際、各遅延制御信号線ＤＣＮＴ１－ＤＣＮＴ３は、プロセッサ１００の外部端子（電源端子又は接地端子）に接続されてもよく、プロセッサ１００の製造に使用するフォトマスク上に電源線パターン又は接地線パターンとして形成されてもよい。

【0027】

遅延部１３０は、プログラム回路ＰＲＧＭから出力される遅延制御信号ＤＣＮＴ１－ＤＣＮＴ２の論理値に応じて、命令ＩＮＳを通過させるために直列に接続されるフリップフロップＦＦの数を相違させることで、遅延量を遅延量０から遅延量３までの４通りに設定可能である。例えば、回路例１では、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３の論理値は、"Ｘ、Ｘ、０"、"Ｘ、０、１"、"０、１、１"、"１、１、１"のいずれかに設定される。"Ｘ"は、"０"又は"１"のいずれでもよいことを示す。例えば、回路例２では、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３の論理値は、"０、０、０"、"１、０、０"、"Ｘ、１、０"、"Ｘ、Ｘ、１"のいずれかに設定される。

【0028】

なお、図２では、説明の簡単化のため、３個のフリップフロップＦＦが遅延部１３０に設けられる例が示されるが、フリップフロップＦＦの数は、複数であればよく、実現したい最大遅延量とフリップフロップＦＦに供給されるクロックの周期とに応じて決定される。例えば、１００個程度のフリップフロップＦＦが各遅延部１３０に設けられてもよい、また、フリップフロップＦＦに供給されるクロックは、プロセッサの動作クロックの周波数を分周した分周クロックでもよい。

【0029】

例えば、フリップフロップＦＦのクロック入力端子に供給される転送クロックの周波数は、演算器１４０の動作クロックの周波数と同じに設定される。なお、転送クロックの周波数は、動作クロックの周波数の２のｎ乗倍（ｎは正または負の整数）に設定されてもよい。例えば、転送クロックの周波数が動作クロックの周波数の２倍の場合、遅延部１３０から出力される命令ＩＮＳを動作クロックの１周期ずつずらすために、プログラム回路ＰＲＧＭは、命令ＩＮＳの遅延量の調整量が遅延量２になるように設定される。

【0030】

例えば、転送クロックの周波数が動作クロックの周波数の０．５倍の場合、遅延部１３０から出力される命令ＩＮＳを動作クロックの２周期ずつずらすために、プログラム回路ＰＲＧＭは、命令ＩＮＳの遅延量の調整量が遅延量１になるように設定される。このように、転送クロックの周波数が動作クロックの周波数の２のｎ乗倍の場合にも、プログラム回路ＰＲＧＭの設定により、命令ＩＮＳの遅延量を動作クロックのｍ周期分（ｍは１以上の整数）に設定することができる。これにより、命令ＩＮＳが複数の演算器１４０にそれぞれ到達する時間差を、動作クロックの少なくとも１周期分の時間にすることができる。

【0031】

図３は、図１の遅延部１３０の別の例を示す回路図である。図２と同様の要素は、同じ符号を付す。図３に回路例３及び回路例４として示す遅延部１３０は、プログラム回路ＰＲＧＭの代わりにレジスタＲＥＧ１を有することを除き、図２の回路例１及び回路例２とそれぞれ同様である。レジスタＲＥＧ１に示す三角印は、クロック入力端子を示す。

【0032】

レジスタＲＥＧ１は、例えば、プロセッサ１００の起動シーケンス（起動プログラム）において制御バスＣＢＵＳを介して供給される３ビットの論理値を記憶し、記憶した論理値に対応する遅延制御信号ＤＣＮＴ１－ＤＣＮＴ３を出力する。これにより、図２と同様に、遅延量０から遅延量３までの４通りの遅延量を設定することができる。レジスタＲＥＧ１は、遅延部１３０に設定する遅延量を示す遅延量情報を保持する遅延量保持部の一例である。

【0033】

なお、レジスタＲＥＧ１を設ける代わりに、プロセッサ１００の外部端子に遅延制御信号端子ＤＣＮＴ１－ＤＣＮＴ３が設けられてもよい。そして、遅延制御信号端子ＤＣＮＴ１－ＤＣＮＴ３に設定される電圧レベル（論理値）が遅延制御信号ＤＣＮＴ１－ＤＣＮＴ３としてセレクタＳＥＬ１－ＳＥＬ３にそれぞれ供給されてもよい。

【0034】

図４は、図１の遅延部１３０のさらなる別の例を示す回路図である。図４に示す遅延部１３０は、ＦＩＦＯ（First-In First-Out）とレジスタＲＥＧ２と制御回路ＦＣＮＴとを有する。ＦＩＦＯは、ＳＲＡＭ（Static Random Access Memory）で構成されてもよく、フリップフロップで構成されてもよく、他の回路によって構成されてもよい。レジスタＲＥＧ２と制御回路ＦＣＮＴに示す三角印は、クロック入力端子を示す。

【0035】

レジスタＲＥＧ２は、例えば、プロセッサ１００の起動シーケンス（起動プログラム）において制御バスＣＢＵＳを介して供給されるポインタ差ＤＩＦＰを保持し、保持したポインタ差ＤＩＦＰを制御回路ＦＣＮＴに出力する。ポインタ差ＤＩＦＰは、遅延部１３０に設定する遅延量を示す遅延量情報の一例である。レジスタＲＥＧ２は、遅延量情報を保持する遅延量保持部の一例である。

【0036】

制御回路ＦＣＮＴは、クロックに同期してＦＩＦＯに命令が格納される毎にポインタ差ＤＩＦＰを有するライトポインタＷＰＴＲとリードポインタＲＰＴＲとを順次更新してＦＩＦＯに出力する。なお、制御回路ＦＣＮＴに供給されるクロックは、プロセッサの動作クロックの周波数を分周した分周クロックでもよい。

【0037】

ライトポインタＷＰＴＲとリードポインタＲＰＴＲとは連動して更新されるため、ライトポインタＷＰＴＲとリードポインタＲＰＴＲとの差は、ポインタ差ＤＩＦＰに維持される。これにより、図４の遅延部１３０は、命令発行部１２０から出力される命令ＩＮＳを、ポインタ差ＤＩＦＰとクロック周期との積に対応する遅延量だけ遅らせて演算器１４０に出力することができる。換言すれば、ライトポインタＷＰＴＲとリードポインタＲＰＴＲとの差をポインタ差ＤＩＦＰとして設定することで、ポインタ差ＤＩＦＰの倍数に対応する遅延量を有する遅延部１３０を実現することができる。

【0038】

なお、レジスタＲＥＧ２を設ける代わりに、ポインタ差ＤＩＦＰの論理値が設定される複数の外部端子がプロセッサ１００に設けられてもよい。そして、複数の外部端子に設定される電圧レベル（論理値）がポインタ差ＤＩＦＰとして制御回路ＦＣＮＴに供給されてもよい。

【0039】

図５は、図４の遅延部１３０の動作の一例を示す説明図である。図５では、命令ＩＮＳ（ＩＮＳａ、ＩＮＳｂ、ＩＮＳｃ、ＩＮＳｄ、ＩＮＳｅ）が、命令発行部１２０から順次出力され、遅延部１３０のＦＩＦＯに順次格納される。ＦＩＦＯに格納された各命令ＩＮＳは、ポインタ差ＤＩＦＰで示される２クロックサイクル後にＦＩＦＯから読み出され、演算器１４０に出力される。

【0040】

図６は、図１の遅延部１３０の遅延量の一例を示す説明図である。遅延部１３０に示す矩形は、遅延量の１単位を示す。図６では、説明の簡単化のため、各遅延部１３０は、遅延量１、遅延量２又は遅延量３のいずれかに設定される。なお、設定可能な遅延量は、４種類以上あってもよい。

【0041】

図２の回路例１及び図３の回路例３に示す遅延部１３０では、遅延量１は、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３＝"Ｘ、０、１"により設定される。遅延量２は、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３＝"０、１、１"により設定される。遅延量３は、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３＝"１、１、１"により設定される。

【0042】

図２の回路例２及び図３の回路例４に示す遅延部１３０では、遅延量１は、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３＝"１、０、０"により設定される。遅延量２は、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３＝"Ｘ、１、０"により設定される。遅延量３は、遅延制御信号ＤＣＮＴ１、ＤＣＮＴ２、ＤＣＮＴ３＝"Ｘ、Ｘ、１"により設定される。

【0043】

図４の遅延部１３０では、遅延量１は、ポインタ差ＤＩＦＰ＝"１"により設定される。遅延量２は、ポインタ差ＤＩＦＰ＝"２"により設定される。遅延量３は、ポインタ差ＤＩＦＰ＝"３"により設定される。

【0044】

図６に示すように、複数の遅延部１３０は、所定数ずつ遅延量が異なる。すなわち、複数の遅延部１３０の少なくとも２つの遅延量は互いに異なる。また、複数の遅延量（１、２又は３）がそれぞれ設定される遅延部１３０の数は、ほぼ等しい。図１では、遅延量１の遅延部１３０の数は３個であり、遅延量２の遅延部１３０の数は３個であり、遅延量３の遅延部１３０の数は２個である。

【0045】

図７は、図１の各遅延部１３０の遅延量の決定方法の一例を示す説明図である。図７に示す遅延量の決定方法は、プロセッサ１００の開発工程（試作工程）での特性の評価時又はプロセッサ１００の量産工程（製造工程）での試験時に実施される。

【0046】

まず、全ての遅延部１３０に同じ遅延量Ｄ１が設定される。なお、遅延量Ｄ１は、遅延量０でもよい。次に、命令発行部１２０から命令を発行して全ての演算器１４０に命令ＩＮＳを実行させ、全ての演算器１４０が同時に動作を開始したときの電源ノイズが計測される。例えば、電源ノイズは、ＬＳＩテスタ等を使用して電源電圧の変化量として計測される。

【0047】

なお、図７は、複数の周波数の電源ノイズが重畳された波形のうち、主要な周波数の電源ノイズの波形を示している。例えば、主要な周波数の電源ノイズ（電源電圧）の電圧は、演算器１４０が動作を開始したときに一時的に下降し、その後、電圧の上昇と下降を繰り返しながら電圧振幅が徐々に小さくなる。なお、接地電圧の電源ノイズがＬＳＩテスタ等により計測されてもよい。

【0048】

次に、測定した電源ノイズの波形を使用して、演算器１４０が動作を開始した後に発生する電源ノイズの最初の周期Ｔ１が求められる。そして、複数の遅延部１３０にそれぞれ設定する遅延量が周期Ｔ１の２分の１の整数倍（１倍、２倍、３倍、...）にそれぞれ設定される。例えば、各遅延部１３０の遅延量は、図６に示したように、遅延量１、遅延量２又は遅延量３に設定される。遅延量１は、電源ノイズの周期Ｔ１の２分の１である。複数の遅延部１３０は、ほぼ同じ数ずつ３つのグループに分けられ、グループ毎に遅延部１３０が遅延量１、遅延量２又は遅延量３に設定される。

【0049】

各グループの遅延部１３０の遅延量を電源ノイズの周期Ｔ１の２分の１の整数倍にそれぞれ設定した場合、３つのグループの電源ノイズの波形の位相はほぼ半周期ずつずれる。これにより、遅延量が周期Ｔ１の２分の１だけずれた２つのグループの電源ノイズの波形はほぼ逆位相になり、波形は互いに打ち消し合う。したがって、３つのグループの電源ノイズの総和での電源電圧の変化量（又は接地電圧の変化量）を小さくすることができる。すなわち、電源ノイズを低減することができる。

【0050】

図７に示す手法により、複数の遅延量が仮決定された後、仮決定された複数の遅延量が遅延部１３０のそれぞれに設定され、プロセッサ１００の電源ノイズが評価される。そして、電源ノイズ（電源電圧の変化量）が予め決められた範囲に収まっていることが確認された場合、複数の遅延部１３０に設定する遅延量が最終的に決定される。一方、電源ノイズが予め決められた範囲を超えている場合、例えば、バンプ等の外部電源端子又は外部接地端子の数が増加されるなど、電源ノイズを抑える別のアプローチが実施される。

【0051】

なお、図７に示す電源ノイズを計測することなく、複数の遅延部１３０の各々の遅延量を順次切り替え、様々な遅延量の組み合わせの各々において、電源ノイズが計測されてもよい。そして、電源ノイズが最も小さい遅延量の組み合わせであって、電源ノイズ（電源電圧の変化量）が予め決められた範囲に収まっている組み合わせが、遅延部１３０の遅延量として設定されてもよい。

【0052】

以上、この実施形態では、命令発行部１２０から発行された命令ＩＮＳの演算器１４０への到達タイミングを遅延させる複数の遅延部１３０の少なくとも２つの遅延量を互いに相違させる。これにより、１つの命令を並列に実行する演算器１４０を有するプロセッサ１００の電源ノイズを低減することができる。この結果、電源ノイズに起因するプロセッサ１００の誤動作を抑制することができ、プロセッサ１００の信頼性を向上することができる。

【0053】

複数の遅延部１３０のそれぞれに設定する遅延量は、複数の演算器１４０が同時に動作を開始するときに発生する電源ノイズの波形の周期の２分の１の整数倍（１倍、２倍、３倍、...）に設定される。これにより、遅延量が２分の１だけずれた２つの遅延部１３０にそれぞれ対応する演算器１４０で発生する電源ノイズの波形の位相をほぼ逆位相にすることができ、電源ノイズの打ち消し効果を高めることができる。

【0054】

複数の遅延部１３０をほぼ同じ数のグループに分け、グループ毎に遅延量を設定することで、グループにそれぞれ対応する演算器１４０で発生する電源ノイズの波形と振幅とをほぼ同じにすることができる。これにより、電源ノイズの波形の位相の打ち消し効果をさらに高めることができる。

【0055】

各遅延部１３０は、遅延量が変更可能であるため、例えば、製造されたプロセッサ１００毎に遅延部１３０の遅延量を設定することができる。各遅延部１３０の遅延量を、命令ＩＮＳが通過するフリップフロップＦＦの数により調整することで、遅延量の調整を容易にすることができる。また、各遅延部１３０の遅延量をＳＲＡＭで構成されたＦＩＦＯで調整することで、例えば、遅延量の調整段数が多い場合に遅延部１３０の回路規模を小さくすることができる。

【0056】

図８は、本発明のデータ処理装置の別の形態であるプロセッサの構成の一例を示すブロック図である。図１と同様の要素は、同じ符号を付す。図８に示すプロセッサ１００Ａは、図１の８つの遅延部１３０の代わりに２つの遅延部１３０Ａを有することを除き、図１のプロセッサ１００と同様の構成を有する。

【0057】

各遅延部１３０Ａは、４つの演算器１４０に対応して設けられる。各遅延部１３０Ａは、命令発行部１２０から受ける命令を演算器１４０毎に遅延させ、遅延させた命令を各演算器１４０に出力する。

【0058】

図９は、図８の遅延部１３０Ａの一例を示す回路図である。図２と同様の要素は、同じ符号を付す。遅延部１３０Ａは、遅延信号生成部１３１と４つの演算器１４０にそれぞれ対応する信号選択部１３２とを有する。なお、図９では、説明の簡単化のため、遅延信号生成部１３１が３個のフリップフロップＦＦを有し、各信号選択部１３２が３個のセレクタＳＥＬ１－ＳＥＬ３を有する例が示される。しかしながら、フリップフロップＦＦの数は、複数であればよく、セレクタＳＥＬの数は、複数であればよい。遅延信号生成部１３１及び信号選択部１３２は、遅延信号生成回路１３１及び信号選択回路１３２として実現されてもよい。

【0059】

遅延信号生成部１３１は、直列に接続された複数のフリップフロップＦＦ（ＦＦ１、ＦＦ２、ＦＦ３）を有する。フリップフロップＦＦ１は、命令発行部１２０から出力される命令ＩＮＳを受け、受けた命令をフリップフロップＦＦ２と各信号選択部１３２とに出力する。フリップフロップＦＦ２は、フリップフロップＦＦ１から出力される命令ＩＮＳをフリップフロップＦＦ３と各信号選択部１３２とに出力する。フリップフロップＦＦ３は、フリップフロップＦＦ２から出力される命令ＩＮＳを各信号選択部１３２に出力する。

【0060】

各信号選択部１３２は、複数のセレクタＳＥＬ（ＳＥＬ１、ＳＥＬ２、ＳＥＬ３）及びプログラム回路ＰＲＧＭを有する。プログラム回路ＰＲＧＭは、図２のプログラム回路ＰＲＧＭと同様に、遅延制御信号ＤＣＮＴ１－ＤＣＮＴ３の論理値を記憶し、記憶している論理値を有する遅延制御信号ＤＣＮＴ１－ＤＣＮＴ３を出力する。

【0061】

セレクタＳＥＬ１は、遅延制御信号ＤＣＮＴ１が論理１の場合、フリップフロップＦＦ１から受ける命令ＩＮＳをセレクタＳＥＬ２に出力する。セレクタＳＥＬ１は、遅延制御信号ＤＣＮＴ１が論理０の場合、命令発行部１２０から受ける命令ＩＮＳをセレクタＳＥＬ２に出力する。

【0062】

セレクタＳＥＬ２は、遅延制御信号ＤＣＮＴ２が論理１の場合、フリップフロップＦＦ２から受ける命令ＩＮＳをセレクタＳＥＬ３に出力する。セレクタＳＥＬ２は、遅延制御信号ＤＣＮＴ２が論理０の場合、セレクタＳＥＬ１から受ける命令ＩＮＳをセレクタＳＥＬ３に出力する。

【0063】

セレクタＳＥＬ３は、遅延制御信号ＤＣＮＴ３が論理１の場合、フリップフロップＦＦ３から受ける命令ＩＮＳを演算器１４０に出力する。セレクタＳＥＬ３は、遅延制御信号ＤＣＮＴ３が論理０の場合、セレクタＳＥＬ２から受ける命令ＩＮＳを演算器１４０に出力する。

【0064】

これにより、遅延部１３０Ａは、図２の回路例２に示す遅延部１３０の４つと同様に動作する。この際、遅延部１３０Ａは、４つの信号選択部１３２に共通のフリップフロップＦＦ１－ＦＦ３を有するため、図１に示す４つの遅延部１３０に比べて回路規模を削減することができる。

【0065】

なお、信号選択部１３２は、プログラム回路ＰＲＧＭの代わりに、図３のレジスタＲＥＧ１と、遅延制御信号ＤＣＮＴ１－ＤＣＮＴ３に対応する３ビットの論理値をレジスタＲＥＧ１に供給する制御バスＣＢＵＳとを有してもよい。

【0066】

以上、この実施形態においても、上述した実施形態と同様に、１つの命令を並列に実行する演算器１４０を有するプロセッサ１００Ａの電源ノイズを低減することができる。この結果、電源ノイズに起因するプロセッサ１００Ａの誤動作を抑制することができ、プロセッサ１００Ａの信頼性を向上することができる。さらに、この実施形態では、プロセッサ１００Ａに搭載される遅延部１３０Ａの回路規模を、図１のプロセッサ１００に搭載される遅延部１３０の回路規模より小さくすることができる。この結果、プロセッサ１００Ａのチップサイズをプロセッサ１００のチップサイズより小さくすることができる。

【0067】

図１０は、本発明のデータ処理装置の別の形態であるＤＭＡＣ（Direct Memory Access Controller）の構成の一例を示すブロック図である。図１と同様の要素は、同じ符号を付す。図１０に示すＤＭＡＣ２００は、レジスタ２１０、シーケンス生成・命令発行部２２０、複数の遅延部１３０及び複数のデータ転送実行回路２４０を有する。なお、シーケンス生成・命令発行部２２０は、シーケンス生成・命令発行回路２２０として実現されてもよい。

【0068】

レジスタ２１０は、シーケンス生成・命令発行部２２０に接続される。レジスタ２１０に保持された情報は、シーケンス生成・命令発行部２２０から読み出し可能である。シーケンス生成・命令発行部２２０の出力は、複数の遅延部１３０の入力のそれぞれに共通に接続される。複数の遅延部１３０の出力は、対応するデータ転送実行回路２４０の入力に接続される。例えば、遅延部１３０は、図２、図３又は図４に示した遅延部１３０のいずれかである。

【0069】

レジスタ２１０は、ＤＭＡＣ２００の動作を制御するＣＰＵ３００から転送されるソースアドレス、ディスティネーションアドレス、転送サイズ、転送パターン等を保持する。シーケンス生成・命令発行部２２０は、レジスタ２１０に保持された情報にしたがって、遅延部１３０を介して複数のデータ転送実行回路２４０のそれぞれにデータ転送命令を発行する。なお、データ転送命令に含まれるソースアドレス及びディスティネーションアドレスは、データ転送実行回路２４０毎に相違する。データ転送命令に含まれる転送サイズ及び転送パターンの一方又は両方は、全てのデータ転送実行回路２４０に共通でもよく、データ転送実行回路２４０毎に相違してもよい。

【0070】

各データ転送実行回路２４０は、シーケンス生成・命令発行部２２０からのデータ転送命令にしたがって、例えば、リードアクセス要求及びライトアクセス要求をバス３１０に交互に発行する。これにより、バス３１０に接続されるメモリのいずれかからメモリの他のいずれかにデータがＤＭＡ転送される。データ転送実行回路２４０は、データ転送命令を実行する実行回路の一例である。

【0071】

なお、ＤＭＡＣ２００は、レジスタ２１０の代わりにディスクリプタを有してもよい。この場合、シーケンス生成・命令発行部２２０は、ディスクリプタが保持するＤＭＡ転送の情報（ソースアドレス、ディスティネーションアドレス等）をフェッチし、フェッチした情報を含むデータ転送命令を遅延部１３０を介してデータ転送実行回路２４０に出力してもよい。

【0072】

図１０に示すＤＭＡＣ２００においても、図１に示したプロセッサ１００と同様に、所定数の遅延部１３０のグループ毎に異なる遅延量が設定され、複数のグループに属する遅延部１３０の数は、ほぼ等しい。また、図７と同様に、全ての遅延部１３０に同じ遅延量が設定された状態で、全てのデータ転送実行回路２４０の動作が同時に開始され、電源ノイズの周期Ｔ１が計測され、各遅延部１３０の遅延量が周期Ｔ１の２分の１の整数倍に設定されてもよい。

【0073】

以上、この実施形態においても、上述した実施形態と同様の効果を得ることができる。例えば、データ転送命令を並列に実行するデータ転送実行回路２４０を有するＤＭＡＣ２００の電源ノイズを低減することができる。この結果、電源ノイズに起因するＤＭＡＣ２００の誤動作を抑制することができ、ＤＭＡＣ２００の信頼性を向上することができる。

【0074】

複数の遅延部１３０のそれぞれに、複数の演算器１４０が同時に動作を開始するときに発生する電源ノイズの波形の周期の２分の１の整数倍の遅延量を設定することで、データ転送実行回路２４０の動作に対応してそれぞれ発生する電源ノイズの波形の位相をほぼ逆位相にすることができる。これにより、電源ノイズの打ち消し効果を高めることができる。ほぼ同じ数の遅延部１３０毎に遅延量を設定することで、電源ノイズの波形の位相の打ち消し効果をさらに高めることができる。

【0075】

図１１は、本発明のデータ処理装置のさらなる別の形態を示すブロック図である。図１と同様の要素は、同じ符号を付す。図１１に示すデータ処理装置４００は、例えば、ラックの形態を有するサーバ等である。データ処理装置４００は、図１に示したプロセッサ１００と同様の命令フェッチ部１１０、命令発行部１２０、複数の遅延部４３０、複数の演算器１４０及び複数のレジスタファイル１５０を有する。なお、遅延部４３０は、遅延回路４３０として実現されてもよい。

【0076】

但し、命令フェッチ部１１０及び命令発行部１２０は、基板ＢＲＤ１に実装される１つの半導体チップＣＰに搭載され、演算器１４０及びレジスタファイル１５０のペアは、基板ＢＲＤ２に実装される１つの半導体チップＣＰ２にそれぞれ搭載される。基板ＢＲＤ１及び複数の基板ＢＲＤ２は、データ処理装置４００の筐体であるラック等に収納される。

【0077】

例えば、遅延部４３０は、信号を伝送するために基板ＢＲＤ１、ＢＲＤ２間に配置される光インタフェース（Ｉ／Ｆ）内に設けられてもよい。この場合、基板ＢＲＤ１の命令発行部１２０と基板ＢＲＤ２の演算器１４０とは、光インタフェースを介して相互に接続される。光インタフェースは、光コネクタと光ケーブルと光の伝送路中に設けられる光ループ回路とを含む。複数の遅延部４３０の各々は、光ループ回路により形成される。例えば、各遅延部４３０の遅延量は、光ループ回路内での光信号のループ回数を制御することで設定される。なお、光インタフェース（すなわち、遅延部４３０）は、基板ＢＲＤ１、ＢＲＤ２の一方に搭載されてもよい。

【0078】

各遅延部４３０に設定される遅延量は、図７と同様に、全ての演算器１４０を同時に動作させたときに発生する電源ノイズの周期Ｔ１の２分の１の整数倍（１倍、２倍、３倍、...）にそれぞれ設定される。例えば、複数の遅延部４３０は、ほぼ同じ数ずつ複数のグループに分けられ、グループ毎に遅延部１３０の遅延量が相違するように設定される。

【0079】

なお、複数の基板ＢＲＤ２のうちの幾つかは、図１１に示すラックとは別のラックに収納されてもよい。この場合にも、基板ＢＲＤ１の命令発行部１２０と、別のラックに収納される基板ＢＲＤ２の演算器１４０とは、遅延部４３０を介して互いに接続される。

【0080】

なお、半導体チップＣＰ１、ＣＰ２は、１つの基板に搭載されてもよい。この場合、遅延部４３０は、個別の半導体チップとして基板に搭載され、あるいは、半導体チップＣＰ１、ＣＰ２の一方に搭載されてもよい。データ処理装置４００は、基板の形態を有する。また、遅延部４３０は、光インタフェースの代わりにＦＰＧＡ（Field-Programmable Gate Array）又はアナログ回路（抵抗値）等により構成されてもよい。

【0081】

以上、この実施形態においても、図１から図７に示した実施形態と同様の効果を得ることができる。さらに、図１１に示すデータ処理装置４００では、ラック内に供給される電源電圧及び接地電圧の電源ノイズを低減することができる。この結果、電源ノイズに起因するデータ処理装置４００の誤動作を抑制することができ、データ処理装置４００の信頼性を向上することができる。

【0082】

なお、上述した実施形態の遅延部１３０、１３０Ａ、４３０は、回路であり、半導体チップまたは基板に搭載される。また、上述した実施形態では、遅延部１３０、１３０Ａの遅延量を、プログラム回路ＰＲＧＭ又はレジスタＲＥＧ１に記憶される論理値に応じて可変にする例が説明された。しかしながら、遅延部１３０、１３０Ａの遅延量は、図７等に示した遅延量の決定方法により決定された遅延量に固定されてもよい。この場合、遅延部１３０、１３０Ａは、決定された遅延量に応じた数のフリップフロップＦＦを直列に接続して構成され、図２及び図３に示したプログラム回路ＰＲＧＭ、レジスタＲＥＧ１及びセレクタＳＥＬを持たない。例えば、遅延部１３０、１３０Ａは、固定の回路として演算器１４０等とともにプロセッサ１００、１００Ａ内に作り込まれる。

【0083】

図１２は、図１に示したプロセッサ１００が搭載される計算機のハードウェア構成の一例を示すブロック図である。図１２では、計算機は、一例として、プロセッサ１００と、主記憶装置３０（メモリ）と、補助記憶装置４０（メモリ）と、ネットワークインタフェース５０と、デバイスインタフェース６０と、を備え、これらがバス５１０を介して接続されたコンピュータ５００として実現されてもよい。なお、コンピュータ５００は、バス５１０に接続される経路とは別に、プロセッサ１００とバス５１０との間に、図１０に示したＤＭＡＣ２００を有してもよい。

【0084】

図１２のコンピュータ５００は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図１２では、１台のコンピュータ５００が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース５０等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、１又は複数の記憶装置に記憶された命令を１台又は複数台のコンピュータ５００が実行することで機能を実現するシステムが構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台のコンピュータ５００で処理し、この処理結果を端末に送信するような構成であってもよい。

【0085】

各種演算は、コンピュータ５００に搭載される１又は複数のプロセッサ１００を用いて、又はネットワークを介した複数台のコンピュータ５００を用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ１００内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ５００と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実現されてもよい。このように、前述した実施形態における各装置は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

【0086】

プロセッサ１００は、少なくともコンピュータの制御又は演算のいずれかを行う電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＡＳＩＣ等）であってもよい。また、プロセッサ１００は、汎用プロセッサ、特定の演算を実行するために設計された専用の処理回路又は汎用プロセッサと専用の処理回路との両方を含む半導体装置のいずれであってもよい。また、プロセッサ１００は、光回路を含むものであってもよいし、量子コンピューティングに基づく演算機能を含むものであってもよい。

【0087】

プロセッサ１００は、コンピュータ５００の内部構成の各装置等から入力されたデータやソフトウェアに基づいて演算処理を行ってもよく、演算結果や制御信号を各装置等に出力してもよい。プロセッサ１００は、コンピュータ５００のＯＳ（Operating System）や、アプリケーション等を実行することにより、コンピュータ５００を構成する各構成要素を制御してもよい。

【0088】

主記憶装置３０は、プロセッサ１００が実行する命令及び各種データ等を記憶してもよく、主記憶装置３０に記憶された情報がプロセッサ１００により読み出されてもよい。補助記憶装置４０は、主記憶装置３０以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ又は不揮発性メモリのいずれでもよい。コンピュータ５００において各種データ等を保存するための記憶装置は、主記憶装置３０又は補助記憶装置４０により実現されてもよく、プロセッサ１００に内蔵される内蔵メモリにより実現されてもよい。

【0089】

コンピュータ５００が、少なくとも１つの記憶装置（メモリ）と、この少なくとも１つの記憶装置に接続（結合）される少なくとも１つのプロセッサ１００で構成される場合、記憶装置１つに対して、少なくとも１つのプロセッサ１００が接続されてもよい。また、１つのプロセッサ１００に対して、少なくとも１つの記憶装置が接続されてもよい。また、複数のプロセッサ１００のうち少なくとも１つのプロセッサ１００が、複数の記憶装置のうち少なくとも１つの記憶装置に接続される構成を含んでもよい。また、複数台のコンピュータ５００に含まれる記憶装置とプロセッサ１００によって、この構成が実現されてもよい。さらに、記憶装置がプロセッサ１００と一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

【0090】

ネットワークインタフェース５０は、無線又は有線により、通信ネットワーク６００に接続するためのインタフェースである。ネットワークインタフェース５０は、既存の通信規格に適合したもの等、適切なインタフェースを用いればよい。ネットワークインタフェース５０により、通信ネットワーク６００を介して接続された外部装置７１０と情報のやり取りが行われてもよい。なお、通信ネットワーク６００は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、ＰＡＮ（Personal Area Network）等の何れか又はそれらの組み合わせであってもよく、コンピュータ５００と外部装置７１０との間で情報のやり取りが行われるものであればよい。ＷＡＮの一例としてインターネット等があり、ＬＡＮの一例としてＩＥＥＥ８０２．１１やイーサネット（登録商標）等があり、ＰＡＮの一例としてＢｌｕｅｔｏｏｔｈ（登録商標）やＮＦＣ（Near Field Communication）等がある。

【0091】

デバイスインタフェース６０は、外部装置７２０と直接接続するＵＳＢ等のインタフェースである。

【0092】

外部装置７１０はコンピュータ５００とネットワークを介して接続されている装置である。外部装置７２０はコンピュータ５００と直接接続されている装置である。

【0093】

外部装置７１０又は外部装置７２０は、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、タッチパネル等のデバイスであり、取得した情報をコンピュータ５００に与える。また、パーソナルコンピュータ、タブレット端末、スマートフォン等の入力部とメモリとプロセッサを備えるデバイスであってもよい。

【0094】

また、外部装置７１０又は外部装置７２０は、一例として、出力装置でもよい。出力装置は、例えば、ＬＣＤ（Liquid Crystal Display）、有機ＥＬ（Electro Luminescence）パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末又はスマートフォン等の出力部とメモリとプロセッサを備えるデバイスであってもよい。

【0095】

また、外部装置７１０又は外部装置７２０は、記憶装置（メモリ）であってもよい。例えば、外部装置７１０はネットワークストレージ等であってもよく、外部装置７２０はＨＤＤ等のストレージであってもよい。

【0096】

また、外部装置７１０又は外部装置７２０は、コンピュータ５００の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータ５００は、外部装置７１０又は外部装置７２０に処理結果の一部又は全部を送信してもよいし、外部装置７１０又は外部装置７２０から処理結果の一部又は全部を受信してもよい。

【0097】

本明細書（請求項を含む）において、「ａ、ｂ及びｃの少なくとも１つ（一方）」又は「ａ、ｂ又はｃの少なくとも１つ（一方）」の表現（同様な表現を含む）が用いられる場合は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ又はａ－ｂ－ｃのいずれかを含む。また、ａ－ａ、ａ－ｂ－ｂ、ａ－ａ－ｂ－ｂ－ｃ－ｃ等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、ａ－ｂ－ｃ－ｄのようにｄを有する等、列挙された要素（ａ、ｂ及びｃ）以外の他の要素を加えることも含む。

【0098】

本明細書（請求項を含む）において、「データを入力として／を用いて／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）が用いられる場合は、特に断りがない場合、データそのものを用いる場合や、データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、データの中間表現等）を用いる場合を含む。また、「データを入力として／を用いて／データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合（同様な表現を含む）、特に断りがない場合、当該データのみに基づいて当該結果が得られる場合や、当該データ以外の他のデータ、要因、条件及び／又は状態にも影響を受けて当該結果が得られる場合を含む。また、「データを出力する」旨が記載されている場合（同様な表現を含む）、特に断りがない場合、データそのものを出力として用いる場合や、データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、データから抽出した特徴量、各種データの中間表現等）を出力として用いる場合を含む。

【0099】

本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語が用いられる場合は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

【0100】

本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現が用いられる場合は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ、専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造等が動作Ｂを実際に実行するように構築（implemented）されていればよい。

【0101】

本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」、「有する（having）」等）が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

【0102】

本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」、「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

【0103】

本明細書において、ある実施形態の有する特定の構成について特定の効果（advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施形態についても当該効果が得られると理解されるべきである。但し、当該効果の有無は、一般に種々の要因、条件及び／又は状態に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件及び／又は状態が満たされたときに実施形態に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

【0104】

本明細書（請求項を含む）において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書（請求項を含む）において、「１又は複数のハードウェアが第１の処理を行い、前記１又は複数のハードウェアが第２の処理を行う」等の表現（同様な表現を含む）が用いられている場合、第１の処理を行うハードウェアと第２の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第１の処理を行うハードウェア及び第２の処理を行うハードウェアが、前記１又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、電子回路を含む装置等を含んでよい。

【0105】

本明細書（請求項を含む）において、複数の記憶装置（メモリ）がデータの記憶を行う場合、複数の記憶装置のうち個々の記憶装置は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。また、複数の記憶装置のうち一部の記憶装置がデータを記憶する構成を含んでもよい。

【0106】

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において、種々の追加、変更、置き換え、部分的削除等が可能である。例えば、前述した実施形態において、数値又は数式を説明に用いている場合、これらは例示的な目的で示されたものであり、本開示の範囲を限定するものではない。また、実施形態で示した各動作の順序も例示的なものであり、本開示の範囲を限定するものではない。

【0107】

本発明の態様は、例えば、以下のとおりである。
＜１＞
命令を発行する命令発行部と、
前記命令発行部から発行された命令を並列に実行する複数の実行回路と、
前記命令発行部と前記複数の実行回路との間に配置され、前記命令発行部から受ける命令の前記実行回路への到達を遅延させる複数の遅延部と、を有し、
前記複数の実行回路の少なくとも２つに供給される命令の到達タイミングは互いに異なる
データ処理装置。
＜２＞
前記複数の遅延部の遅延量の差は、前記複数の実行回路が同時に動作を開始するときに発生する電源ノイズの波形の周期の２分の１の整数倍である
＜１＞に記載のデータ処理装置。
＜３＞
複数の遅延量の各々が設定される前記遅延部の数は、ほぼ等しい
＜２＞に記載のデータ処理装置。
＜４＞
前記複数の遅延部に設定する遅延量を示す遅延量情報を保持する遅延量保持部を有し、
前記複数の遅延部の各々に設定される遅延量は、前記遅延量保持部が保持する遅延量情報に応じて設定される
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。
＜５＞
前記複数の遅延部の各々は、直列に接続可能な複数のフリップフロップを有し、
前記フリップフロップの直列の接続数は、前記遅延量保持部が保持する遅延量情報に応じて設定される
＜４＞に記載のデータ処理装置。
＜６＞
前記複数の遅延部の各々は、ライトポインタとリードポインタとにより制御され、メモリで構成されたＦＩＦＯを有し、
前記ＦＩＦＯへの命令の格納毎に、前記ライトポインタと前記リードポインタとが連動して更新され、
前記ライトポインタの値と前記リードポインタの値との差により、前記複数の遅延部の各々遅延量が設定される
＜４＞に記載のデータ処理装置。
＜７＞
前記複数の実行回路は、第１の周波数を有するクロックに同期してそれぞれ動作し、
前記複数の遅延部の少なくとも２つによって遅延された命令が前記実行回路にそれぞれ到達する時間差は、前記クロックの少なくとも１周期分の時間である
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。
＜８＞
前記命令発行部は、演算命令を発行し、
前記複数の実行回路の各々は、前記演算命令に基づいて演算を実行する演算器である
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。
＜９＞
前記命令発行部は、データ転送命令を発行し、
前記複数の実行回路の各々は、前記データ転送命令に基づいてデータ転送を実行するデータ転送実行回路である
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。
＜１０＞
前記命令発行部と前記複数の実行回路と前記複数の遅延部とは、１つの半導体チップ内に搭載される
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。
＜１１＞
前記命令発行部と前記複数の実行回路とは、互いに異なる半導体チップにそれぞれ搭載される
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。
＜１２＞
少なくとも１つの半導体チップがそれぞれ搭載される複数の基板を有し、
前記命令発行部と前記複数の実行回路とは、互いに異なる前記基板の前記半導体チップにそれぞれ搭載される
＜１＞ないし＜３＞のいずれか１項に記載のデータ処理装置。

【符号の説明】

【0108】

１００、１００Ａプロセッサ
１１０命令フェッチ部
１２０命令発行部
１３０、１３０Ａ遅延部
１３１遅延信号生成部
１３２信号選択部
１４０演算器
１５０レジスタファイル
２００ＤＭＡＣ
２１０レジスタ
２２０シーケンス生成・命令発行部
２４０データ転送実行回路
３００ＣＰＵ
３１０バス
４００データ処理装置
４３０遅延部
ＢＲＤ１、ＢＲＤ２基板
ＣＢＵＳ制御バス
ＣＰ１、ＣＰ２半導体チップ
ＤＣＮＴ１－ＤＣＮＴ３遅延制御信号
ＤＩＦＰポインタ差
ＦＣＮＴ制御回路
ＦＦ（ＦＦ１、ＦＦ２、ＦＦ３）フリップフロップ
ＩＮＳ命令
ＰＲＧＭプログラム回路
ＲＥＧ１、ＲＥＧ２レジスタ
ＲＰＴＲリードポインタ
ＳＥＬ（ＳＥＬ０、ＳＥＬ１、ＳＥＬ２）セレクタ
ＷＰＴＲライトポインタ

【図1】