特開2023-137192 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ルネサスエレクトロニクス株式会社の特許一覧

特開2023-137192半導体装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023137192

(43)【公開日】2023-09-29

(54)【発明の名称】半導体装置

(51)【国際特許分類】

G06N 3/063 20230101AFI20230922BHJP

G06F 9/38 20180101ALI20230922BHJP

G06F 12/00 20060101ALI20230922BHJP

【ＦＩ】

G06N3/063

G06F9/38 370A

G06F12/00 550E

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022043264

(22)【出願日】2022-03-18

(71)【出願人】

【識別番号】302062931

【氏名又は名称】ルネサスエレクトロニクス株式会社

(74)【代理人】

【識別番号】110002066

【氏名又は名称】弁理士法人筒井国際特許事務所

(72)【発明者】

【氏名】寺島和昭

(72)【発明者】

【氏名】中村淳

(72)【発明者】

【氏名】ギミレラゼス

【テーマコード（参考）】

5B013

5B160

【Ｆターム（参考）】

5B013DD01

5B013EE10

5B160CC01

(57)【要約】

【課題】ニューラルネットワークの処理において、消費電流の急減な変動を抑制することが可能な半導体装置を提供する。
【解決手段】ダミー回路２２は、ダミーデータＤＴｄをｎ個のＭＡＣ回路２５［１］～２５［ｎ］の少なくとも一部に出力することで、ダミーの演算を実行させ、ダミーの出力データＤＴｏＤを出力させる。出力側ＤＭＡコントローラＤＭＡＣ２ｏＢは、ｎ個のＭＡＣ回路からの正規の出力データＤＴｏを、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を用いてメモリにそれぞれ転送し、ダミーの出力データＤＴｏＤをメモリに転送しない。ここで、ｎ個のＭＡＣ回路の少なくとも一部は、出力側ＤＭＡコントローラＤＭＡＣ２ｏＢがメモリへのデータ転送を終了してから、入力側ＤＭＡコントローラＤＭＡＣ２ｉがメモリからのデータ転送を開始するまでの期間内でダミーの演算を実行する。
【選択図】図５

【特許請求の範囲】

【請求項1】

ニューラルネットワークの処理を実行する半導体装置であって、
入力データとパラメータとを積和演算するｎ（ｎは２以上の整数）個の積和演算器と、
前記入力データと前記パラメータとを記憶する単数または複数のメモリと、
前記メモリに記憶される前記パラメータを前記ｎ個の積和演算器へ転送する第１のＤＭＡ（Direct Memory Access）コントローラと、
前記メモリに記憶される前記入力データを、ｎ個のチャネルを用いて前記ｎ個の積和演算器にそれぞれ転送することで、前記ｎ個の積和演算器に演算を実行させ、演算結果となる正規の出力データを出力させる第２の入力側ＤＭＡコントローラと、
予め定められるダミーデータを前記ｎ個の積和演算器の少なくとも一部に出力することで、前記ｎ個の積和演算器の少なくとも一部にダミーの演算を実行させ、演算結果となるダミーの出力データを出力させるダミー回路と、
前記ｎ個の積和演算器からの前記正規の出力データを、ｎ個のチャネルを用いて前記メモリにそれぞれ転送し、前記ｎ個の積和演算器の少なくとも一部からの前記ダミーの出力データを前記メモリに転送しない第２の出力側ＤＭＡコントローラと、
を備え、
前記ｎ個の積和演算器の少なくとも一部は、前記第２の出力側ＤＭＡコントローラが前記メモリへのデータ転送を終了してから、前記第２の入力側ＤＭＡコントローラが前記メモリからのデータ転送を開始するまでの期間内で前記ダミーの演算を実行する、
半導体装置。

【請求項2】

請求項１記載の半導体装置において、
さらに、前記第２の入力側ＤＭＡコントローラに、前記メモリからのデータ転送を開始させるためのリード開始信号を出力するシーケンスコントローラを有し、
前記第２の出力側ＤＭＡコントローラは、前記メモリへのデータ転送を終了した際にライト終了信号を出力し、
前記ダミー回路は、前記第２の出力側ＤＭＡコントローラからの前記ライト終了信号に応じて、前記ｎ個の積和演算器の少なくとも一部に前記ダミーデータを出力し、前記シーケンスコントローラからの前記リード開始信号に応じて、前記ｎ個の積和演算器に、前記第２の入力側ＤＭＡコントローラからの前記入力データを出力する、
半導体装置。

【請求項3】

請求項２記載の半導体装置において、
前記シーケンスコントローラは、さらに、前記第２の入力側ＤＭＡコントローラおよび前記第２の出力側ＤＭＡコントローラにおける前記ｎ個のチャネルと、前記ｎ個の積和演算器とを、ｍ（ｍはｎよりも小さい整数）個のグループに分け、前記第２の入力側ＤＭＡコントローラに、前記ｍ個のグループ毎の前記リード開始信号を互いに異なるタイミングで出力することで、前記第２の入力側ＤＭＡコントローラによるリード動作、前記積和演算器による演算動作、前記第２の出力側ＤＭＡコントローラによるライト動作からなる一連の動作のタイミングが、前記ｍ個のグループで互いに異なるように制御し、
前記第２の出力側ＤＭＡコントローラは、前記ライト終了信号を、前記ｍ個のグループ毎に出力し、
前記ダミー回路は、前記ｍ個のグループ毎の前記ライト終了信号と、前記ｍ個のグループ毎の前記リード開始信号とに基づいて、前記ｍ個のグループ毎の前記積和演算器に、前記ダミーの演算を実行させる、
半導体装置。

【請求項4】

請求項３記載の半導体装置において、
前記ダミー回路は、前記ｍ個のグループの中の一部のグループを対象に、前記ダミーの演算を実行させる、
半導体装置。

【請求項5】

請求項４記載の半導体装置において、
前記一部のグループは、設定によって変更可能となっている、
半導体装置。

【請求項6】

請求項３記載の半導体装置において、
前記ｍ個のグループは、設定によって変更可能となっている、
半導体装置。

【請求項7】

ニューラルネットワークの処理を実行する半導体装置であって、
入力データとパラメータとを積和演算するｎ（ｎは２以上の整数）個の積和演算器と、
前記入力データと前記パラメータとを記憶する単数または複数のメモリと、
前記メモリに記憶される前記パラメータを前記ｎ個の積和演算器へ転送する第１のＤＭＡ（Direct Memory Access）コントローラと、
前記メモリに記憶される前記入力データを、ｎ個のチャネルを用いて前記ｎ個の積和演算器にそれぞれ転送することで、前記ｎ個の積和演算器に演算を実行させ、演算結果となる出力データを出力させる第２の入力側ＤＭＡコントローラと、
前記ｎ個の積和演算器からの前記出力データを、ｎ個のチャネルを用いて前記メモリにそれぞれ転送する第２の出力側ＤＭＡコントローラと、
前記第２の入力側ＤＭＡコントローラに、前記メモリからのデータ転送を開始させるためのリード開始信号を出力するシーケンスコントローラと、
を備え、
前記シーケンスコントローラは、前記第２の入力側ＤＭＡコントローラおよび前記第２の出力側ＤＭＡコントローラにおける前記ｎ個のチャネルと、前記ｎ個の積和演算器とを、ｍ（ｍはｎよりも小さい整数）個のグループに分け、前記第２の入力側ＤＭＡコントローラに、前記ｍ個のグループ毎の前記リード開始信号を互いに異なるタイミングで出力することで、前記第２の入力側ＤＭＡコントローラによるリード動作、前記積和演算器による演算動作、前記第２の出力側ＤＭＡコントローラによるライト動作からなる一連の動作のタイミングが、前記ｍ個のグループで互いに異なるように制御する、
半導体装置。

【請求項8】

請求項７記載の半導体装置において、
前記ｍ個のグループは、設定によって変更可能となっている、
半導体装置。

【請求項9】

一つの半導体チップで構成される半導体装置であって、
ニューラルネットワークの処理を実行するニューラルネットワークエンジンと、
入力データとパラメータとを記憶する単数または複数のメモリと、
プロセッサと、
前記ニューラルネットワークエンジン、前記メモリおよび前記プロセッサを互いに接続するバスと、
を備え、
前記ニューラルネットワークエンジンは、
前記入力データと前記パラメータとを積和演算するｎ（ｎは２以上の整数）個の積和演算器と、
前記メモリに記憶される前記パラメータを前記ｎ個の積和演算器へ転送する第１のＤＭＡ（Direct Memory Access）コントローラと、
前記メモリに記憶される前記入力データを、ｎ個のチャネルを用いて前記ｎ個の積和演算器にそれぞれ転送することで、前記ｎ個の積和演算器に演算を実行させ、演算結果となる正規の出力データを出力させる第２の入力側ＤＭＡコントローラと、
予め定められるダミーデータを前記ｎ個の積和演算器の少なくとも一部に出力することで、前記ｎ個の積和演算器の少なくとも一部にダミーの演算を実行させ、演算結果となるダミーの出力データを出力させるダミー回路と、
前記ｎ個の積和演算器からの前記正規の出力データを、ｎ個のチャネルを用いて前記メモリにそれぞれ転送し、前記ｎ個の積和演算器の少なくとも一部からの前記ダミーの出力データを前記メモリに転送しない第２の出力側ＤＭＡコントローラと、
を有し、
前記ｎ個の積和演算器の少なくとも一部は、前記第２の出力側ＤＭＡコントローラが前記メモリへのデータ転送を終了してから、前記第２の入力側ＤＭＡコントローラが前記メモリからのデータ転送を開始するまでの期間内で前記ダミーの演算を実行する、
半導体装置。

【請求項10】

請求項９記載の半導体装置において、
前記ニューラルネットワークエンジンは、さらに、前記第２の入力側ＤＭＡコントローラに、前記メモリからのデータ転送を開始させるためのリード開始信号を出力するシーケンスコントローラを有し、
前記第２の出力側ＤＭＡコントローラは、前記メモリへのデータ転送を終了した際にライト終了信号を出力し、
前記ダミー回路は、前記第２の出力側ＤＭＡコントローラからの前記ライト終了信号に応じて、前記ｎ個の積和演算器の少なくとも一部に前記ダミーデータを入力し、前記シーケンスコントローラからの前記リード開始信号に応じて、前記ｎ個の積和演算器に、前記第２の入力側ＤＭＡコントローラからの前記入力データを転送する、
半導体装置。

【請求項11】

請求項１０記載の半導体装置において、
前記シーケンスコントローラは、さらに、前記第２の入力側ＤＭＡコントローラおよび前記第２の出力側ＤＭＡコントローラにおける前記ｎ個のチャネルと、前記ｎ個の積和演算器とを、ｍ（ｍはｎよりも小さい整数）個のグループに分け、前記第２の入力側ＤＭＡコントローラに、前記ｍ個のグループ毎の前記リード開始信号を互いに異なるタイミングで出力することで、前記第２の入力側ＤＭＡコントローラによるリード動作、前記積和演算器による演算動作、前記第２の出力側ＤＭＡコントローラによるライト動作からなる一連の動作のタイミングが、前記ｍ個のグループで互いに異なるように制御し、
前記第２の出力側ＤＭＡコントローラは、前記ライト終了信号を、前記ｍ個のグループ毎に出力し、
前記ダミー回路は、前記ｍ個のグループ毎の前記ライト終了信号と、前記ｍ個のグループ毎の前記リード開始信号とに基づいて、前記ｍ個のグループ毎の前記積和演算器に、前記ダミーの演算を実行させる、
半導体装置。

【請求項12】

請求項１１記載の半導体装置において、
前記ダミー回路は、前記ｍ個のグループの中の一部のグループを対象に、前記ダミーの演算を実行させる、
半導体装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、半導体装置に関し、例えば、ニューラルネットワークの処理を実行する半導体装置に関する。

【背景技術】

【0002】

特許文献１には、ロジックデバイスおよびメモリデバイスを備える半導体装置において、データ転送の際に、信号バス上に流れる動作電流の削減や大量のデータを正確に取り込むことを可能にする技術が示される。当該半導体装置では、電源電圧の振幅より小さい振幅を有するデータ信号、第１クロック信号及び第１クロック信号から所定位相シフトされた第２クロック信号が用いられる。ロジックデバイスおよびメモリデバイスのそれぞれは、第１及び第２クロック信号の立ち上がりエッジに同期してデータを取り込む。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－６４１９３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、ＣＮＮ（Convolutional Neural Network）等のニューラルネットワークの処理では、半導体装置に搭載される複数のＤＭＡ（Direct Memory Access）コントローラおよび複数の積和演算器（ＭＡＣ（Multiply ACcumulate）回路と呼ぶ）等を用いて膨大な演算処理が実行される。具体的には、複数のＤＭＡコントローラは、メモリに記憶されたある層の画像データや係数データを複数のＭＡＣ回路に転送することで、複数のＭＡＣ回路に積和演算を行わせる。また、複数のＤＭＡコントローラは、複数のＭＡＣ回路による積和演算結果を、次の層の画像データとして、メモリに転送する。半導体装置は、このような処理を繰り返し実行する。

【0005】

一方、半導体装置では、製造プロセスの微細化や、回路の成熟化が進んでいる。その結果、ニューラルネットワークの処理効率は高まり、単位時間内に実行できる演算数は増加している。これに伴い、消費電流は増加傾向にある。ここで、演算を行っている期間をアクティブ期間、アクティブ期間へ移行する待ち期間をアイドル期間、とした場合、通常、複数のＭＡＣ回路において、アイドル期間とアクティブ期間とは同時に切り替えられる。これにより、ニューラルネットワークの処理に要する時間を最大限に短縮することができる。

【0006】

しかしながら、このような同時切り替えを行った場合、消費電流の急激な変化が生じ、電源配線の寄生インダクタ成分等によって電源電圧の変動が生じ得る。電源電圧の変動は、消費電流が増加するほど、ひいては、消費電流の変化率が大きくなるほど、より大きくなり得る。電源電圧の変動を抑制するためには、例えば、半導体装置の電源設計を強化する必要がある。ただし、この場合、設計の難易度が高まり、設計コストや製造コストが増大するおそれがあった。

【0007】

後述する実施の形態は、このようなことに鑑みてなされたものであり、その他の課題と新規な特徴は、本明細書の記載および添付図面から明らかになるであろう。

【課題を解決するための手段】

【0008】

一実施の形態の半導体装置は、ニューラルネットワークの処理を実行するものであり、ｎ個の積和演算器と、単数または複数のメモリと、第１のＤＭＡコントローラと、第２の入力側ＤＭＡコントローラと、ダミー回路と、第２の出力側ＤＭＡコントローラと、を備える。ｎ個の積和演算器は、入力データとパラメータとを積和演算する。単数または複数のメモリは、入力データとパラメータとを記憶する。第１のＤＭＡコントローラは、メモリに記憶されるパラメータをｎ個の積和演算器へ転送する。第２の入力側ＤＭＡコントローラは、メモリに記憶される入力データを、ｎ個のチャネルを用いてｎ個の積和演算器にそれぞれ転送することで、ｎ個の積和演算器に演算を実行させ、演算結果となる正規の出力データを出力させる。ダミー回路は、予め定められるダミーデータをｎ個の積和演算器の少なくとも一部に出力することで、ｎ個の積和演算器の少なくとも一部にダミーの演算を実行させ、演算結果となるダミーの出力データを出力させる。第２の出力側ＤＭＡコントローラは、ｎ個の積和演算器からの正規の出力データを、ｎ個のチャネルを用いてメモリにそれぞれ転送し、ｎ個の積和演算器の少なくとも一部からのダミーの出力データをメモリに転送しない。ここで、ｎ個の積和演算器の少なくとも一部は、第２の出力側ＤＭＡコントローラがメモリへのデータ転送を終了してから、第２の入力側ＤＭＡコントローラがメモリからのデータ転送を開始するまでの期間内でダミーの演算を実行する。

【発明の効果】

【0009】

一実施の形態の半導体装置を用いることで、消費電流の急減な変動を抑制することが可能になる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。

【図2】図２は、図１におけるニューラルネットワークエンジンの詳細な構成例を示す図である。

【図3】図３は、図２に示されるニューラルネットワークエンジンの動作例を示すタイミングチャートである。

【図4】図４は、実施の形態２による半導体装置において、主要部の構成例を示す概略図である。

【図5】図５は、図４におけるニューラルネットワークエンジンの詳細な構成例を示す図である。

【図6】図６は、図５におけるダミー回路の模式的な構成例を示す図である。

【図7】図７は、図５に示されるニューラルネットワークエンジンの動作例を示すタイミングチャートである。

【図8】図８は、図７とは異なる動作例を示すタイミングチャートである。

【図9】図９は、実施の形態３による半導体装置において、図５に示されるニューラルネットワークエンジンの動作例を示すタイミングチャートである。

【図10】図１０は、図９とは異なる動作例を示すタイミングチャートである。

【図11】図１１は、実施の形態４による半導体装置において、グループの設定内容およびダミー回路の設定内容を決定する方法の一例を示すフロー図である。

【図12】図１２は、比較例となるニューラルネットワークエンジンの動作例を示すタイミングチャートである。

【発明を実施するための形態】

【0011】

以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

【0012】

以下、実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。

【0013】

（実施の形態１）
＜半導体装置の概略＞
図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図１に示す半導体装置１０は、例えば、一つの半導体チップで構成されるＳｏＣ（System on Chip）等である。当該半導体装置１０は、代表的には、車両のＥＣＵ（Electronic Control Unit）等に搭載され、ＡＤＡＳ（Advanced Driver Assistance System）の機能を提供する。

【0014】

図１に示す半導体装置１０は、ニューラルネットワークエンジン（ＮＮＥ）１５ａと、ＣＰＵ（Central Processing Unit）等のプロセッサ１７と、単数または複数のメモリＭＥＭ１，ＭＥＭ２と、システムバス１６とを有する。システムバス１６は、ニューラルネットワークエンジン１５ａ、メモリＭＥＭ１，ＭＥＭ２およびプロセッサ１７を互いに接続する。ニューラルネットワークエンジン１５ａは、ＣＮＮを代表とするニューラルネットワークの処理を実行する。プロセッサ１７は、メモリＭＥＭ１に記憶される所定のプログラムを実行することで、ニューラルネットワークエンジン１５ａの制御を含めて、半導体装置１０に所定の機能を担わせる。

【0015】

メモリＭＥＭ１はＤＲＡＭ（Dynamic Random Access Memory）等であり、メモリＭＥＭ２はキャッシュ用のＳＲＡＭ（Static Random Access Memory）等である。メモリＭＥＭ１は、例えば画素値からなるデータＤＴと、パラメータＰＲと、コマンドＣＭＤと、を記憶する。パラメータＰＲには、重みパラメータＷＰと、バイアスパラメータＢＰとが含まれる。コマンドＣＭＤは、ニューラルネットワークエンジン１５ａのシーケンス動作を制御するためのものである。メモリＭＥＭ２は、ニューラルネットワークエンジン１５ａの高速キャッシュメモリとして用いられる。例えば、メモリＭＥＭ１内の複数のデータＤＴは、予めメモリＭＥＭ２にコピーされたのち、ニューラルネットワークエンジン１５ａで用いられる。

【0016】

ニューラルネットワークエンジン１５ａは、複数のＤＭＡ（Direct Memory Access）コントローラＤＭＡＣ１，ＤＭＡＣ２と、ＭＡＣユニット２０と、シーケンスコントローラ２１ａと、を備える。ＭＡＣユニット２０は、複数のＭＡＣ回路２５、すなわち複数の積和演算器を備える。ＤＭＡコントローラＤＭＡＣ１は、例えば、メモリＭＥＭ１と、ＭＡＣユニット２０内の複数のＭＡＣ回路２５との間のシステムバス１６を介したデータ転送を制御する。ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２と、ＭＡＣユニット２０内の複数のＭＡＣ回路２５との間のデータ転送を制御する。

【0017】

詳細には、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１に記憶されるパラメータＰＲを、ＭＡＣユニット２０内の複数のＭＡＣ回路２５へ転送する。また、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１に記憶されるコマンドＣＭＤを、シーケンスコントローラ２１ａへ転送する。

【0018】

一方、ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２に記憶されるデータを、入力データＤＴｉとしてＭＡＣユニット２０内の複数のＭＡＣ回路２５へ転送することで、複数のＭＡＣ回路２５に演算を実行させる。具体的には、複数のＭＡＣ回路２５は、ＤＭＡコントローラＤＭＡＣ２からの入力データＤＴｉと、ＤＭＡコントローラＤＭＡＣ１からの重みパラメータＷＰとの積和演算や、ＤＭＡコントローラＤＭＡＣ１からのバイアスパラメータＢＰの加算等を実行する。

【0019】

その結果、複数のＭＡＣ回路２５は、演算結果となる出力データＤＴｏを出力する。出力データＤＴｏは、例えば、ニューラルネットワークの各層から得られる特徴マップの画素値を表す。ＤＭＡコントローラＤＭＡＣ２は、当該出力データＤＴｏを、メモリＭＥＭ２に転送する。メモリＭＥＭ２に転送された出力データＤＴｏは、ニューラルネットワークの次の層への入力データＤＴｉとして用いられる。すなわち、例えば、ニューラルネットワークの１層目への入力データＤＴｉは、メモリＭＥＭ１に記憶されるデータＤＴによって定められ、２層目以降への入力データＤＴｉは、複数のＭＡＣ回路２５からの出力データＤＴｏによって定められる。

【0020】

シーケンスコントローラ２１ａは、ＤＭＡコントローラＤＭＡＣ１からのコマンドＣＭＤに基づいて、ニューラルネットワークエンジン１５ａの動作シーケンス等を制御する。その一つとして、シーケンスコントローラ２１ａは、ＤＭＡコントローラＤＭＡＣ２に、メモリＭＥＭ２からのデータ転送を開始させるためのリード開始信号を出力する。また、シーケンスコントローラ２１ａは、ＤＭＡコントローラＤＭＡＣ２に転送設定、例えば、入力データＤＴｉが記憶されるメモリＭＥＭ２のアドレス範囲の設定や、出力データＤＴｏを記憶させるメモリＭＥＭ２のアドレス範囲の設定等を行う。
＜ニューラルネットワークエンジンの構成＞

【0021】

図２は、図１におけるニューラルネットワークエンジンの詳細な構成例を示す図である。図２において、ＭＡＣユニット２０は、ｎ（ｎは２以上の整数）個のＭＡＣ回路２５［１］～２５［ｎ］を有する。ｎの値は、例えば１６等である。ＤＭＡコントローラＤＭＡＣ１は、予め設定されたアドレス範囲に基づいて、制御サイクル毎に、メモリＭＥＭ１から情報を読み出す。読み出された情報は、適宜、パラメータＰＲや、コマンドＣＭＤを含む。ＤＭＡコントローラＤＭＡＣ１は、読み出したパラメータＰＲをｎ個のＭＡＣ回路２５［１］～２５［ｎ］に転送し、読み出したコマンドＣＭＤをレジスタＲＥＧに格納する。

【0022】

図１に示したＤＭＡコントローラＤＭＡＣ２は、詳細には、図２に示されるように、入力側ＤＭＡコントローラＤＭＡＣ２ｉと、出力側ＤＭＡコントローラＤＭＡＣ２ｏＡとを備える。入力側ＤＭＡコントローラＤＭＡＣ２ｉおよび出力側ＤＭＡコントローラＤＭＡＣ２ｏＡのそれぞれは、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を有する。

【0023】

入力側ＤＭＡコントローラＤＭＡＣ２ｉは、メモリＭＥＭ２に記憶される入力データＤＴｉを、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を用いてｎ個のＭＡＣ回路２５［１］～２５［ｎ］にそれぞれ転送することで、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］に演算を実行させる。当該ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］には、それぞれ、メモリＭＥＭ２から読み出す際のアドレス範囲が設定される。

【0024】

具体的には、例えば、ＭＡＣ回路２５［１］は、入力側ＤＭＡコントローラＤＭＡＣ２ｉのチャネルＣＨ［１］からの複数の入力データＤＴｉと、ＤＭＡコントローラＤＭＡＣ１からの複数の重みパラメータＷＰとを積和演算する。また、ＭＡＣ回路２５［１］は、当該積和演算結果に、ＤＭＡコントローラＤＭＡＣ１からのバイアスパラメータＢＰを加算することで、演算結果となる出力データＤＴｏを出力する。

【0025】

より詳細な構成例として、入力側ＤＭＡコントローラＤＭＡＣ２ｉのチャネルＣＨ［１］は、ニューラルネットワークの入力チャネル数を“Ｍ”、カーネルサイズを“Ｋ”として、例えば、“Ｍ×Ｋ”個の入力データＤＴｉを読み出してＭＡＣ回路２５［１］に転送する。一方、ＤＭＡコントローラＤＭＡＣ１も、“Ｍ×Ｋ”個の重みパラメータＷＰを読み出してＭＡＣ回路２５［１］に転送する。

【0026】

ＭＡＣ回路２５［１］は、例えば、“Ｍ×Ｋ”個の乗算器と、これらの乗算器の乗算結果を加算する加算器とを含む。これにより、ＭＡＣ回路２５［１］は、“Ｍ×Ｋ”個の積和演算を行い、当該積和演算結果に、別途、バイアスパラメータＢＰを加算することで、特徴マップ内の一座標の値を表す出力データＤＴｏを出力する。他のＭＡＣ回路２５［２］～２５［ｎ］に関しても、ＭＡＣ回路２５［１］の場合と同様である。

【0027】

この際に、他のＭＡＣ回路２５［２］～２５［ｎ］は、互いに異なる入力データＤＴｉを対象に、すなわち、畳み込み演算に伴い座標範囲が異なる入力データＤＴｉを対象に、演算を行ってもよく、あるいは、同じ入力データＤＴｉを対象に演算を行ってもよい。前者の場合、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］で共通のパラメータＰＲが用いられる。一方、後者の場合、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］で異なるパラメータＰＲが用いられる。すなわち、後者の場合、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］は、それぞれ、ニューラルネットワークにおける異なる出力チャネルに割り当てられる。

【0028】

出力側ＤＭＡコントローラＤＭＡＣ２ｏＡは、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］からの出力データＤＴｏを、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を用いてメモリＭＥＭ２にそれぞれ転送する。当該ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］には、それぞれ、メモリＭＥＭ２に書き込む際のアドレス範囲が設定される。

【0029】

シーケンスコントローラ２１ａは、レジスタＲＥＧに格納されたコマンドＣＭＤに基づいて、入力側ＤＭＡコントローラＤＭＡＣ２ｉおよび出力側ＤＭＡコントローラＤＭＡＣ２ｏＡの動作シーケンス等を制御する。詳細には、シーケンスコントローラ２１ａは、制御信号ＣＳ２ｉを用いて、入力側ＤＭＡコントローラＤＭＡＣ２ｉにおける転送設定、例えば、メモリＭＥＭ２から読み出すアドレス範囲の設定等を行う。同様に、シーケンスコントローラ２１ａは、制御信号ＣＳ２ｏを用いて、出力側ＤＭＡコントローラＤＭＡＣ２ｏＡにおける転送設定、例えば、メモリＭＥＭ２に書き込むアドレス範囲の設定等を行う。

【0030】

さらに、シーケンスコントローラ２１ａは、制御信号ＣＳ２ｉ，ＣＳ２ｏを用いて、入力側ＤＭＡコントローラＤＭＡＣ２ｉおよび出力側ＤＭＡコントローラＤＭＡＣ２ｏＡにおけるｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を、ｍ（ｍは、ｎよりも小さい整数）個のグループＧＲ［１］～ＧＲ［ｍ］に分けることが可能となっている。ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］をｍ個のグループＧＲ［１］～ＧＲ［ｍ］に分けることで、結果として、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］も、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］に分けられる。例えば、ｎの値を１６として、ｍの値を４とした場合、４個のグループＧＲ［１］～ＧＲ［４］のそれぞれには、４個のチャネルと４個のＭＡＣ回路が属することになる。

【0031】

シーケンスコントローラ２１ａは、入力側ＤＭＡコントローラＤＭＡＣ２ｉに、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］毎のリード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］を、互いに異なるタイミングで出力することができる。リード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］は、それぞれ、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］に対して、メモリＭＥＭ２からのデータ転送を開始させるための信号である。これにより、シーケンスコントローラ２１ａは、入力側ＤＭＡコントローラＤＭＡＣ２ｉによるリード動作、ＭＡＣユニット２０による演算動作、出力側ＤＭＡコントローラＤＭＡＣ２ｏＡによるライト動作からなる一連の動作のタイミングが、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］で互いに異なるように制御することができる。

【0032】

このようなｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］のグループ化を行うため、入力側ＤＭＡコントローラＤＭＡＣ２ｉは、グループ化回路２６を備える。グループ化回路２６は、シーケンスコントローラ２１ａからの制御信号ＣＳ２ｉに基づいて、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］をｍ個にグループ化する。すなわち、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］は、制御信号ＣＳ２ｉを介した設定によって、変更可能となっている。グループ化回路２６は、この設定に基づいて、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］と、リード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］との対応関係を定める。

【0033】

＜ニューラルネットワークエンジン（比較例）の動作＞
図１２は、比較例となるニューラルネットワークエンジンの動作例を示すタイミングチャートである。比較例となるニューラルネットワークエンジンは、図２で述べたようなグループ化の機能を備えない。この場合、図１２に示されるように、期間Ｔ１におけるリード動作、期間Ｔ２における演算動作、期間Ｔ３におけるライト動作からなる一連の動作は、ｎ個（この例ではｎ＝１６）のチャネルＣＨ［１］～ＣＨ［１６］で同じタイミングとなるように実行される。

【0034】

詳細には、期間Ｔ１では、入力側ＤＭＡコントローラにおける１６個のチャネルＣＨ［１］～ＣＨ［１６］は、メモリＭＥＭ２からの入力データＤＴｉを１６個のＭＡＣ回路２５［１］～２５［１６］へ同時に転送する。期間Ｔ２では、１６個のＭＡＣ回路２５［１］～２５［１６］は、同時に演算を実行する。期間Ｔ３では、出力側ＤＭＡコントローラにおける１６個のチャネルＣＨ［１］～ＣＨ［１６］は、１６個のＭＡＣ回路２５［１］～２５［１６］からの出力データＤＴｏをメモリＭＥＭ２へ同時に転送する。その後は、アイドル期間となる期間Ｔ４を経て、再び、アクティブ期間となる期間Ｔ１～Ｔ３において、一連の動作が行われる。期間Ｔ４では、例えば、入力側／出力側ＤＭＡコントローラにおいて、転送設定の変更、すなわちメモリＭＥＭ２のアドレス範囲の変更等が行われる。

【0035】

しかしながら、このような動作を用いた場合、アイドル期間とアクティブ期間とが切り替わる際、すなわち、期間Ｔ３から期間Ｔ４へ、または、期間Ｔ４から期間Ｔ１へ移行する際に、消費電流が急激に変化する。消費電流が急激に変化すると、電源配線の寄生インダクタ成分等によって電源電圧の変動が生じ得る。電源電圧の変動を抑制するためには、例えば、ＭＩＭ（Metal Insulator Metal）キャパシタを設ける、電源バンプや電源幹線を強化する、といった方法を代表に、半導体装置の電源設計を強化する必要がある。ただし、この場合、設計の難易度が高まり、設計コストや製造コストが増大し得る。

【0036】

＜ニューラルネットワークエンジン（実施の形態１）の動作＞
図３は、図２に示されるニューラルネットワークエンジンの動作例を示すタイミングチャートである。図２の構成例を用いると、図３に示されるように、期間Ｔ１におけるリード動作、期間Ｔ２における演算動作、期間Ｔ３におけるライト動作からなる一連の動作のタイミングが、ｍ個（この例では、ｍ＝４）のグループＧＲ［１］～ＧＲ［４］で互いに異なるように制御することが可能になる。

【0037】

詳細には、グループＧＲ［１］～ＧＲ［４］における期間Ｔ１の開始タイミングは、それぞれ、リード開始信号ＲＤＳ［１］～ＲＤＳ［４］に基づいて定められる。シーケンスコントローラ２１ａは、一定期間ずつタイミングをずらしながら、リード開始信号ＲＤＳ［１］～ＲＤＳ［４］を順に出力する。これにより、期間Ｔ１～Ｔ３からなる一連のアクティブ期間の開始タイミングおよび終了タイミングは、４個のグループＧＲ［１］～ＧＲ［４］で互いに異なるように制御される。

【0038】

グループＧＲ［１］を例として、期間Ｔ１では、入力側ＤＭＡコントローラＤＭＡＣ２ｉにおける１６個中の４個のチャネルＣＨ［１］～ＣＨ［４］は、メモリＭＥＭ２からの入力データＤＴｉを、１６個中の４個のＭＡＣ回路２５［１］～２５［４］へ同時に転送する。期間Ｔ２では、当該４個のＭＡＣ回路２５［１］～２５［４］は、同時に演算を実行する。期間Ｔ３では、出力側ＤＭＡコントローラＤＭＡＣ２ｏＡにおける１６個中の４個のチャネルＣＨ［１］～ＣＨ［４］は、４個のＭＡＣ回路２５［１］～２５［４］からの出力データＤＴｏをメモリＭＥＭ２へ同時に転送する。その後は、アイドル期間となる期間Ｔ４を経て、再び、アクティブ期間（期間Ｔ１～Ｔ３）において、一連の動作が行われる。

【0039】

このように、アクティブ期間（期間Ｔ１～Ｔ３）の開始タイミングおよび終了タイミングが、４個のグループＧＲ［１］～ＧＲ［４］で互いに異なるように制御することで、図３に示されるように、消費電流の急激な変動を抑制することが可能になる。言い換えれば、消費電流の変化率を小さくすることが可能になる。なお、ここでは４個のグループを用いたが、当該グループ数は、例えば、２のべき乗単位等で定めることが可能である。グループの設定は、例えば、ニューラルネットワークにおける所定の層の処理を開始する前にコマンドＣＭＤによって行われ、当該所定の層の処理を実行している間、維持される。

【0040】

＜実施の形態１の主要な効果＞
以上、実施の形態１の方式では、ＤＭＡコントローラにおけるｎ個のチャネルおよびｎ個のＭＡＣ回路をｍ個のグループに分け、ｍ個のグループを互いに異なるタイミングで動作させることで、消費電流の急減な変動を抑制することが可能になる。その結果、電源電圧の変動を抑制することができ、半導体装置１０の電源設計を容易化することや、設計コスト、製造コストの増大を抑制することが可能になる。このような効果は、特に、半導体装置１０の微細化等によって、単位時間内に実行できる演算数が増加するほど、より顕著に得られる。

【0041】

（実施の形態２）
＜半導体装置の概略＞
図４は、実施の形態２による半導体装置において、主要部の構成例を示す概略図である。図４に示す半導体装置１０は、図１の構成例と比較して、ニューラルネットワークエンジン（ＮＮＥ）１５ｂの構成が異なっている。図４に示されるニューラルネットワークエンジン１５ｂでは、図１に示したニューラルネットワークエンジン１５ａと比較して、ダミー回路２２が追加される。また、これに伴い、シーケンスコントローラ２１ｂは、図１の場合と同様の動作に加えて、当該ダミー回路２２も制御する。

【0042】

ダミー回路２２は、予め定められるダミーデータＤＴｄを、複数のＭＡＣ回路２５の少なくとも一部に出力することで、複数のＭＡＣ回路２５の少なくとも一部にダミーの演算を実行させ、演算結果となるダミーの出力データを出力させる。ただし、ＤＭＡコントローラＤＭＡＣ２は、当該複数のＭＡＣ回路２５の少なくとも一部からのダミーの出力データをメモリＭＥＭ２に転送しない。すなわち、ＤＭＡコントローラＤＭＡＣ２は、入力データＤＴｉに応じた複数のＭＡＣ回路２５からの正規の出力データＤＴｏをメモリＭＥＭ２に転送するが、ダミーデータＤＴｄに応じたダミーの出力データをメモリＭＥＭ２に転送しない。

【0043】

＜ニューラルネットワークエンジンの構成＞
図５は、図４におけるニューラルネットワークエンジンの詳細な構成例を示す図である。ここでは、図５に示すニューラルネットワークエンジン（ＮＮＥ）１５ｂと、図２に示したニューラルネットワークエンジン（ＮＮＥ）１５ａとの相違点に着目して説明し、図２と重複する事項に関しては、説明を省略する。

【0044】

図５において、出力側ＤＭＡコントローラＤＭＡＣ２ｏＢは、グループ化回路２７を備える。グループ化回路２７は、シーケンスコントローラ２１ｂからの制御信号ＣＳ２ｏに基づいて、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］をｍ個にグループ化する。すなわち、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］は、制御信号ＣＳ２ｏを介した設定によって、変更可能となっている。

【0045】

出力側ＤＭＡコントローラＤＭＡＣ２ｏＢは、メモリＭＥＭ２へのデータ転送を終了した際にライト終了信号を出力する。詳細には、出力側ＤＭＡコントローラＤＭＡＣ２ｏＢは、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］毎に、データ転送の終了時にライト終了信号ＷＴＥ［１］～ＷＴＥ［ｍ］を出力する。グループ化回路２７は、制御信号ＣＳ２ｏを介した設定に基づいて、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］と、ライト終了信号ＷＴＥ［１］～ＷＴＥ［ｍ］との対応関係を定める。

【0046】

ダミー回路２２は、出力側ＤＭＡコントローラＤＭＡＣ２ｏＢからのライト終了信号ＷＴＥ［１］～ＷＴＥ［ｍ］に応じて、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］の少なくとも一部にダミーデータＤＴｄを出力する。また、ダミー回路２２は、シーケンスコントローラ２１ｂからのリード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］に応じて、ダミーデータＤＴｄの出力を停止すると共に、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］に、入力側ＤＭＡコントローラＤＭＡＣ２ｉからの入力データＤＴｉを出力する。

【0047】

その結果、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］の少なくとも一部は、出力側ＤＭＡコントローラＤＭＡＣ２ｏＢがメモリＭＥＭ２へのデータ転送を終了してから、入力側ＤＭＡコントローラＤＭＡＣ２ｉがメモリＭＥＭ２からのデータ転送を開始するまでの期間内でダミーの演算を実行することになる。ただし、図４で述べたように、出力側ＤＭＡコントローラＤＭＡＣ２ｏＢは、当該ダミーの演算によって得られるダミーの出力データＤＴｏＤに関しては、メモリＭＥＭ２へ転送しない。

【0048】

なお、詳細は後述するが、ダミー回路２２は、シーケンスコントローラ２１ｂからの制御信号ＣＳ２ｉに基づいて、入力側ＤＭＡコントローラＤＭＡＣ２ｉの場合と同様のグループ化を行う。また、ダミー回路２２は、シーケンスコントローラ２１ｂからの制御信号ＣＳ２ｄに基づいて、ダミーの演算を行わせるＭＡＣ回路２５の数等を定めることが可能となっている。

【0049】

図６は、図５におけるダミー回路の模式的な構成例を示す図である。図６に示されるダミー回路２２は、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］にそれぞれ対応するｍ個の部分回路３０［１］～３０［ｍ］と、ダミーデータ生成回路３１と、グループ化回路３２と、スイッチコントローラ３３と、を備える。ダミーデータ生成回路３１は、ダミーデータＤＴｄを生成する。スイッチコントローラ３３は、例えば、ＲＳフリップフロップ等を備え、リード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］およびライト終了信号ＷＴＥ［１］～ＷＴＥ［ｍ］を入力して、正規データ選択信号ＩＳＬ［１］～ＩＳＬ［ｍ］およびダミーデータ選択信号ＤＳＬ［１］～ＤＳＬ［ｍ］を出力する。

【0050】

例えば、正規データ選択信号ＩＳＬ［１］は、リード開始信号ＲＤＳ［１］の立ち下がりでセットされ、ライト終了信号ＷＴＥ［１］の立ち上がりでリセットされる信号である。ダミーデータ選択信号ＤＳＬ［１］は、ライト終了信号ＷＴＥ［１］の立ち下がりでセットされ、リード開始信号ＲＤＳ［１］の立ち上がりでリセットされる信号である。同様に、正規データ選択信号ＩＳＬ［ｍ］は、リード開始信号ＲＤＳ［ｍ］の立ち下がりでセットされ、ライト終了信号ＷＴＥ［ｍ］の立ち上がりでリセットされる信号である。ダミーデータ選択信号ＤＳＬ［ｍ］は、ライト終了信号ＷＴＥ［ｍ］の立ち下がりでセットされ、リード開始信号ＲＤＳ［ｍ］の立ち上がりでリセットされる信号である。

【0051】

部分回路３０［１］には、入力側ＤＭＡコントローラＤＭＡＣ２ｉ内のグループＧＲ［１］に属するチャネルＣＨ［１］，ＣＨ［２］，…からの入力データＤＴｉと、ダミーデータＤＴｄとが入力される。部分回路３０［１］は、グループＧＲ［１］に属するＭＡＣ回路２５［１］，２５［２］，…へのデータとして、グループＧＲ［１］の正規データ選択信号ＩＳＬ［１］のセット期間では入力データＤＴｉを選択し、グループＧＲ［１］のダミーデータ選択信号ＤＳＬ［１］のセット期間ではダミーデータＤＴｄを選択する。ダミーデータＤＴｄが選択された場合、グループＧＲ［１］に属するＭＡＣ回路２５［１］，２５［２］，…は、ダミーの演算を実行する。

【0052】

同様に、部分回路３０［ｍ］には、入力側ＤＭＡコントローラＤＭＡＣ２ｉ内のグループＧＲ［ｍ］に属するチャネルＣＨ［ｎ］，ＣＨ［ｎ－１］，…からの入力データＤＴｉと、ダミーデータＤＴｄとが入力される。部分回路３０［ｍ］は、グループＧＲ［ｍ］に属するＭＡＣ回路２５［ｎ］，２５［ｎ－１］，…へのデータとして、正規データ選択信号ＩＳＬ［ｍ］のセット期間では入力データＤＴｉを選択し、グループＧＲ［ｍ］のダミーデータ選択信号ＤＳＬ［ｍ］のセット期間ではダミーデータＤＴｄを選択する。ダミーデータＤＴｄが選択された場合、グループＧＲ［ｍ］に属するＭＡＣ回路２５［ｎ］，２５［ｎ－１］，…は、ダミーの演算を実行する。

【0053】

このようにして、ダミー回路２２は、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］毎のライト終了信号ＷＴＥ［１］～ＷＴＥ［ｍ］と、リード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］とに基づいて、ｍ個のグループＧＲ［１］～ＧＲ［ｍ］毎のＭＡＣ回路２５に、ダミーの演算を実行させる。グループ化回路３２は、シーケンスコントローラ２１ｂからの制御信号ＣＳ２ｉを介した設定に基づいて、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］と、リード開始信号ＲＤＳ［１］～ＲＤＳ［ｍ］およびライト終了信号ＷＴＥ［１］～ＷＴＥ［ｍ］との対応関係を定める。

【0054】

＜ニューラルネットワークエンジン（実施の形態２）の動作＞
図７は、図５に示されるニューラルネットワークエンジンの動作例を示すタイミングチャートである。図７に示される動作例では、ｍ個（この例ではｍ＝４）のグループＧＲ［１］～ＧＲ［４］におけるアクティブ期間（期間Ｔ１～Ｔ３）の開始タイミングは、同一となっており、アクティブ期間の終了タイミングも、同一となっている。この場合、グループＧＲ［１］～ＧＲ［４］におけるライト終了信号ＷＴＥ［１］～ＷＴＥ［４］は、アクティブ期間の終了タイミング、すなわち期間Ｔ３の終了タイミングで、同時に出力される。

【0055】

ダミー回路２２は、当該ライト終了信号ＷＴＥ［１］～ＷＴＥ［４］に応じて、ダミーデータＤＴｄのｎ個のＭＡＣ回路２５［１］～２５［ｎ］への出力を、同時に開始する。これに応じて、期間Ｔ４において、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］は、ダミーの演算を同時に開始する。その後、ダミー回路２２には、グループＧＲ［１］～ＧＲ［４］におけるリード開始信号ＲＤＳ［１］～ＲＤＳ［４］が同時に入力される。

【0056】

ダミー回路２２は、当該リード開始信号ＲＤＳ［１］～ＲＤＳ［４］に応じて、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］へのダミーデータＤＴｄの出力を停止することで、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］に、ダミーの演算を終了させる。そして、ダミー回路２２は、ダミーデータＤＴｄの出力に替わって、期間Ｔ１において、入力側ＤＭＡコントローラＤＭＡＣ２ｉからの正規の入力データＤＴｉの、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］への出力を同時に開始する。

【0057】

このように、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］に、ダミーの演算を行わせることで、図７に示されるように、消費電流の急激な変動を抑制することが可能になる。言い換えれば、消費電流、詳細には過渡電流の変化率を小さくすることが可能になる。なお、ここでは、説明の便宜上、実施の形態１で述べたグループ化を行っているが、図７のような動作例を用いる場合には、必ずしも、グループ化を行う必要はない。

【0058】

図８は、図７とは異なる動作例を示すタイミングチャートである。図７の動作例を用いると、消費電流の変化率を小さくできるが、その一方で、ダミーの演算により、消費電流が不必要に増大し得る。そこで、図８に示されるような動作例を用いてもよい。図８の動作例では、図７の動作例と異なり、期間Ｔ４において、全てのグループＧＲ［１］～ＧＲ［４］ではなく、一部のグループ、この例では、２個のＧＲ［１］，ＧＲ［２］に属するＭＡＣ回路２５がダミーの演算を実行している。

【0059】

当該一部のグループは、制御信号ＣＳ２ｄを介した設定によって変更可能となっている。すなわち、どのグループに属するＭＡＣ回路２５にダミー演算を行わせるかを、設定することが可能となっている。このダミーの演算を行わせるグループの設定は、グループ化の設定と同様に、例えば、ニューラルネットワークにおける所定の層の処理を開始する前にコマンドＣＭＤによって行われ、当該所定の層の処理を実行している間、維持される。

【0060】

このように、全部ではなく一部のＭＡＣ回路２５にダミーの演算を実行させることで、不必要な消費電流の増大を抑制しつつ、消費電流の急激な変動を抑制する、言い換えれば消費電流の変化率を小さくすることが可能になる。なお、不必要な消費電流の増大を抑制することと、消費電流の変化率を小さくすることとは、トレードオフの関係となる。すなわち、ダミーの演算を行わせるＭＡＣ回路２５の数を増やすほど、消費電流の変化率を小さくできるが、その反面、不必要な消費電流が増大する。

【0061】

＜実施の形態２の主要な効果＞
以上、実施の形態２の方式では、ダミー回路２２を設け、ｎ個のＭＡＣ回路２５［１］～２５［ｎ］の少なくとも一部にダミーの演算を実行させることで、消費電流の急減な変動を抑制することが可能になる。その結果、実施の形態１の場合と同様に、電源電圧の変動を抑制することができ、半導体装置１０の電源設計を容易化することや、設計コスト、製造コストの増大を抑制することが可能になる。また、全てではなく一部のＭＡＣ回路２５にダミーの演算を実行させることで、不必要な消費電流の増大を抑制することが可能になる。

【0062】

（実施の形態３）
＜ニューラルネットワークエンジン（実施の形態３）の動作＞
図９は、実施の形態３による半導体装置において、図５に示されるニューラルネットワークエンジンの動作例を示すタイミングチャートである。図９に示される動作例は、図３に示した動作と、図７に示した動作とを組み合わせたような動作となっている。すなわち、図９では、図３の場合と同様に、期間Ｔ１～Ｔ３からなる一連のアクティブ期間の開始タイミングおよび終了タイミングは、４個のグループＧＲ［１］～ＧＲ［４］で互いに異なるように制御される。これに加えて、図９では、期間Ｔ４において、図７の場合と同様に、ダミーの演算が実行されている。

【0063】

図１０は、図９とは異なる動作例を示すタイミングチャートである。図１０に示される動作例は、図９の動作例に対して、図８の場合と同様な方式を適用したものとなっている。すなわち、図１０では、期間Ｔ４において、全てではなく一部のＭＡＣ回路、この例ではグループＧＲ［１］，ＧＲ［３］に属するＭＡＣ回路２５［１］，２５［３］は、ダミーの演算を実行している。

【0064】

図９のような動作例を用いると、例えば、図３の場合や図７の場合と比較して、各グループＧＲ［１］～ＧＲ［４］におけるアクティブ期間（期間Ｔ１～Ｔ３）とアイドル期間（期間Ｔ４）との切り替わりに伴う消費電流の変動率を、より小さくすることができる。また、図１０のような動作例を用いると、図９の場合と同様な方式により消費電流の変化率を小さくしつつ、図８の場合と同様な方式により不必要な消費電流の増大を抑制することが可能になる。

【0065】

（実施の形態４）
＜グループおよびダミー回路の設定＞
図１１は、実施の形態４による半導体装置において、グループの設定内容およびダミー回路の設定内容を決定する方法の一例を示すフロー図である。例えば、図１０に示した動作例を用いた場合、消費電流の変化率を小さくする効果Ａ、および不必要な消費電流の増大を抑制する効果Ｂの程度は、グループの設定内容、すなわちグループ数と、ダミー回路２２の設定内容、すなわちダミーの演算を実行させるグループの数および組み合わせと、に応じて変化する。

【0066】

当該効果Ａと効果Ｂとは、図８でも述べたように、トレードオフの関係となる。このため、何らかの方法で最適な設定内容を決定することが望まれる。最適な設定内容を決定する方法として、例えば、シミュレーションを用いる方法が考えられる。ただし、最適な設定内容は、処理対象となるニューラルネットワークの構成、すなわち、ニューラルネットワークエンジン（ＮＮＥ）をどのように動作させるか、によって変わり得る。また、シミュレーション結果と実測との誤差も生じ得る。そこで、ここでは、図１１のようなフローを用いて最適な設定内容を決定する。

【0067】

図１１に示されるフローは、例えば、図４において、メモリＭＥＭ１に記憶されたキャリブレーションプログラム等に基づいて、プロセッサ１７によって実行される。図１１において、プロセッサ１７は、ニューラルネットワークエンジン（ＮＮＥ）１５ｂの動作と、消費電流の計測とを開始する（ステップＳ１０１）。

【0068】

詳細には、プロセッサ１７は、ニューラルネットワークエンジン（ＮＮＥ）１５ｂに、例えば、ニューラルネットワークにおける、ある対象層の処理を行わせる。より詳細には、プロセッサ１７は、メモリＭＥＭ１に記憶された、対象層の動作シーケンスを表す一連のコマンドＣＭＤ等を、ニューラルネットワークエンジン１５ｂのシーケンスコントローラ２１ｂに順次リードさせる。また、プロセッサ１７は、例えば、半導体装置１０の電源配線に設置された電流センサを用いて、消費電流を計測する。

【0069】

続いて、プロセッサ１７は、ニューラルネットワークエンジン１５ｂの動作と、消費電流の計測とを終了する（ステップＳ１０２）。ここで、ニューラルネットワークエンジン１５ｂの動作期間、すなわちステップＳ１０１～Ｓ１０２の期間で実行される対象層の処理は、当該対象層内の極一部の座標領域に対する処理であってよい。具体的には、当該動作期間では、図１０に示される期間Ｔ１～Ｔ４を１サイクルとして、例えば、数サイクル程度の処理が行われればよい。

【0070】

ステップＳ１０２の後、プロセッサ１７は、ニューラルネットワークエンジン１５ｂの動作期間で計測された消費電流に基づいて、消費電流の最大変化率（Ｍａｘ（ｄｉ／ｄｔ））と、平均電流（Ｉａｖｅ）とを算出する（ステップＳ１０３，Ｓ１０４）。次いで、プロセッサ１７は、ダミー回路２２の設定内容、すなわち、すなわちダミーの演算を実行させるグループの数および組み合わせを全て網羅したか否かを判定する（ステップＳ１０５）。

【0071】

ダミー回路２２の設定内容を全て網羅していない場合（ステップＳ１０５：Ｎｏ）、プロセッサ１７は、ダミー回路２２の設定内容を変更し、ステップＳ１０１に戻る（ステップＳ１０８）。一方、ダミー回路２２の設定内容を全て網羅した場合（ステップＳ１０５：Ｙｅｓ）、プロセッサ１７は、グループの設定内容、すなわち設定可能なグループの数を全て網羅したか否かを判定する（ステップＳ１０６）。グループの設定内容を全て網羅していない場合（ステップＳ１０６：Ｎｏ）、プロセッサ１７は、グループの設定内容を変更し、ステップＳ１０１に戻る（ステップＳ１０９）。

【0072】

ステップＳ１０８，Ｓ１０９に際し、プロセッサ１７は、例えば、ニューラルネットワークエンジン１５ｂのシーケンスコントローラ２１ｂに、変更後の各設定内容を表すコマンドＣＭＤを出力することで、ダミー回路２２の設定内容やグループの設定内容を変更する。グループの設定内容、すなわち設定可能なグループの数は、予め複数の選択肢が定められており、いずれか一つの選択肢がコマンドＣＭＤに基づいて選択される。また、ダミー回路２２の設定内容の選択肢は、グループの設定内容、すなわち選択されたグループの数に応じて定められる。

【0073】

グループの設定内容を全て網羅した場合（ステップＳ１０６：Ｙｅｓ）、プロセッサ１７は、異なる設定内容毎にステップＳ１０３，Ｓ１０４で算出された消費電流の最大変化率（Ｍａｘ（ｄｉ／ｄｔ））および平均電流（Ｉａｖｅ）に基づいて、最適な設定内容を決定する（ステップＳ１０７）。ここで、最適な設定内容は、トレードオフの関係となる消費電流の最大変化率および平均電流が共に小さくなる設定内容である。このため、プロセッサ１７は、例えば、最大変化率と平均電流とを重み付けした上で加算した値が最小値となるような設定内容を、最適な設定内容とすればよい。

【0074】

最適な設定内容は、例えば、ニューラルネットワークの層毎に定められる。例えば、ニューラルネットワークの処理を実際に開始する前のキャリブレーション処理の中で、図１１に示されるようなフローを用いて層毎の最適な設定内容が定められる。その後に実行される、ニューラルネットワークの実際の処理では、当該キャリブレーション処理の中で定めた最適な設定内容が適用される。具体的には、プロセッサ１７は、例えば、層毎に定めた最適な設定内容を、層毎に紐づけられたコマンドＣＭＤとしてメモリＭＥＭ１等に記憶させ、各層の実際の処理の開始時にシーケンスコントローラ２１ｂにリードさせればよい。

【0075】

＜実施の形態４の主要な効果＞
以上、実施の形態４の方式を用いることで、実施の形態１～３で述べた各種効果に加えて、グループおよびダミー回路２２の設定内容を最適化することが可能になる。すなわち、消費電流の急減な変動と、不必要な消費電力の増大とをバランス良く抑制することが可能になる。

【0076】

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

【符号の説明】

【0077】

１０半導体装置
１５ａ，１５ｂニューラルネットワークエンジン（ＮＮＥ）
１６システムバス
１７プロセッサ
２０ＭＡＣユニット
２１ａ，２１ｂシーケンスコントローラ
２２ダミー回路
２５ＭＡＣ回路
ＣＨチャネル
ＤＭＡＣ１，ＤＭＡＣ２ＤＭＡコントローラ
ＤＴｄダミーデータ
ＤＴｉ入力データ
ＤＴｏ出力データ（正規の出力データ）
ＤＴｏＤ出力データ（ダミーの出力データ）
ＧＲグループ
ＭＥＭ１，ＭＥＭ２メモリ
ＰＲパラメータ
ＲＤＳリード開始信号
ＷＴＥライト終了信号

【図1】