特開2024-48930 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ルネサスエレクトロニクス株式会社の特許一覧

特開2024-48930半導体装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7
8
9
10A
10B
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024048930

(43)【公開日】2024-04-09

(54)【発明の名称】半導体装置

(51)【国際特許分類】

G06F 17/10 20060101AFI20240402BHJP

G06N 3/063 20230101ALI20240402BHJP

G06T 1/40 20060101ALI20240402BHJP

【ＦＩ】

G06F17/10 S

G06N3/063

G06T1/40

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2022155106

(22)【出願日】2022-09-28

(71)【出願人】

【識別番号】302062931

【氏名又は名称】ルネサスエレクトロニクス株式会社

(74)【代理人】

【識別番号】110002066

【氏名又は名称】弁理士法人筒井国際特許事務所

(72)【発明者】

【氏名】寺島和昭

【テーマコード（参考）】

5B056

5B057

【Ｆターム（参考）】

5B056BB71

5B057CH04

5B057CH05

5B057CH09

5B057CH11

(57)【要約】

【課題】許容可能な消費電力の範囲内で、ニューラルネットワークの処理効率を高めることが可能な半導体装置を提供する。
【解決手段】メモリＭＥＭ２は、複数の入力データＤｉからなる入力データセットＤＳｉを複数記憶する。ｎ個の積和演算器ＭＡＣは、並列処理が可能であり、それぞれが複数の重みパラメータセットＷＳのいずれかと複数の入力データセットＤＳｉのいずれかとを積和演算する。ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２からｎ個の積和演算器ＭＡＣに、入力データセットＤＳｉを転送する。計測回路２２は、メモリＭＥＭ２内の入力データセットＤＳｉに含まれる複数の入力データＤｉ間での論理レベルの一致／不一致の度合いを計測し、シーケンスコントローラ２１は、計測回路２２による計測結果に基づいて、ｎ個の積和演算器ＭＡＣによる並列処理数を制御する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ニューラルネットワークの処理を実行する半導体装置であって、
複数の重みパラメータからなる重みパラメータセットを複数記憶する第１のメモリと、
複数の入力データからなる入力データセットを複数記憶する第２のメモリと、
並列処理が可能であり、ｎを２以上の整数として、それぞれが前記複数の重みパラメータセットのいずれかと前記複数の入力データセットのいずれかとを積和演算するｎ個の積和演算器と、
前記第１のメモリから前記ｎ個の積和演算器に、単数または複数の前記重みパラメータセットを転送する第１のＤＭＡ（Direct Memory Access）コントローラと、
前記第２のメモリから前記ｎ個の積和演算器に、単数または複数の前記入力データセットを転送する第２のＤＭＡコントローラと、
入力コマンドに基づいて、前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を制御するシーケンスコントローラと、
計測回路と、
を備え、
前記計測回路は、前記第２のメモリ内の前記入力データセットに含まれる前記複数の入力データ間での論理レベルの一致／不一致の度合いを計測し、
前記シーケンスコントローラは、前記計測回路による計測結果に基づいて、前記ｎ個の積和演算器による並列処理数を制御する、
半導体装置。

【請求項2】

請求項１記載の半導体装置において、
前記第１のメモリは、さらに、前記複数の入力データセットを記憶し、
前記第２のメモリは、前記第１のメモリよりも高速なメモリであり、前記ｎ個の積和演算器のキャッシュメモリとして用いられ、
前記複数の入力データセットは、予め前記第１のメモリから前記第２のメモリにコピーされ、
前記計測回路は、前記入力データセットが前記第１のメモリから前記第２のメモリにコピーされる際に、前記複数の入力データ間での論理レベルの一致／不一致の度合いを計測し、計測結果を計測結果テーブルに書き込む、
半導体装置。

【請求項3】

請求項２記載の半導体装置において、
前記シーケンスコントローラは、前記入力コマンドに基づいて前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を動作させる前に、前記計測結果テーブルから、処理対象となる前記入力データセットに対する計測結果を取得し、取得した計測結果に基づいて、前記ｎ個の積和演算器による並列処理数を制御する、
半導体装置。

【請求項4】

請求項２記載の半導体装置において、
前記計測回路は、前記複数の入力データが前記第２のメモリに順次書き込まれる際に、隣接する２個の入力データ間で生じる論理レベルのトグル数をカウントすることで、前記複数の入力データ間での論理レベルの一致／不一致の度合いを計測する、
半導体装置。

【請求項5】

請求項１記載の半導体装置において、
前記シーケンスコントローラは、前記入力コマンドに基づいて前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を動作させた場合に生じる消費電力を、前記計測回路による計測結果に基づいて予測し、予測電力が予め設定された目標電力を超える場合、前記予測電力が前記目標電力を超えない範囲で前記目標電力に近くなるように、前記ｎ個の積和演算器による並列処理数を減らし、必要な処理が時分割で行われるように、前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を制御する、
半導体装置。

【請求項6】

請求項５記載の半導体装置において、
前記シーケンスコントローラは、前記複数の入力データ間での論理レベルの不一致の度合いが高くなるほど消費電力が増加すると予測する、
半導体装置。

【請求項7】

請求項６記載の半導体装置において、
さらに、前記半導体装置の消費電力を検出する電力検出器を備え、
前記シーケンスコントローラは、前記複数の入力データ間での論理レベルの不一致の度合いと、予測する消費電力との相関関係を、前記電力検出器による検出結果に基づいて補正する、
半導体装置。

【請求項8】

一つの半導体チップで構成される半導体装置であって、
ニューラルネットワークの処理を実行するニューラルネットワークエンジンと、
複数の重みパラメータからなる重みパラメータセットを複数記憶する第１のメモリと、
複数の入力データからなる入力データセットを複数記憶する第２のメモリと、
プロセッサと、
前記ニューラルネットワークエンジン、前記第１のメモリ、前記第２のメモリおよび前記プロセッサを互いに接続するバスと、
を備え、
前記ニューラルネットワークエンジンは、
並列処理が可能であり、ｎを２以上の整数として、それぞれが前記複数の重みパラメータセットのいずれかと前記複数の入力データセットのいずれかとを積和演算するｎ個の積和演算器と、
前記第１のメモリから前記ｎ個の積和演算器に、単数または複数の前記重みパラメータセットを転送する第１のＤＭＡ（Direct Memory Access）コントローラと、
前記第２のメモリから前記ｎ個の積和演算器に、単数または複数の前記入力データセットを転送する第２のＤＭＡコントローラと、
入力コマンドに基づいて、前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を制御するシーケンスコントローラと、
計測回路と、
を備え、
前記計測回路は、前記第２のメモリ内の前記入力データセットに含まれる前記複数の入力データ間での論理レベルの一致／不一致の度合いを計測し、
前記シーケンスコントローラは、前記計測回路による計測結果に基づいて、前記ｎ個の積和演算器による並列処理数を制御する、
半導体装置。

【請求項9】

請求項８記載の半導体装置において、
前記第１のメモリは、さらに、前記複数の入力データセットを記憶し、
前記第２のメモリは、前記第１のメモリよりも高速なメモリであり、前記ニューラルネットワークエンジンのキャッシュメモリとして用いられ、
前記プロセッサは、前記複数の入力データセットを、前記第１のメモリから前記第２のメモリに予めコピーし、
前記計測回路は、前記複数の入力データセットが前記第１のメモリから前記第２のメモリにコピーされる際に、前記複数の入力データ間での論理レベルの一致／不一致の度合いを計測し、計測結果を計測結果テーブルに書き込む、
半導体装置。

【請求項10】

請求項９記載の半導体装置において、
前記シーケンスコントローラは、前記入力コマンドに基づいて前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を動作させる前に、前記計測結果テーブルから、処理対象となる前記入力データセットに対する計測結果を取得し、取得した計測結果に基づいて、前記ｎ個の積和演算器による並列処理数を制御する、
半導体装置。

【請求項11】

請求項９記載の半導体装置において、
前記計測回路は、前記複数の入力データが前記第２のメモリに順次書き込まれる際に、隣接する２個の入力データ間で生じる論理レベルのトグル数をカウントすることで、前記複数の入力データ間での論理レベルの一致／不一致の度合いを計測する、
半導体装置。

【請求項12】

請求項８記載の半導体装置において、
前記シーケンスコントローラは、前記入力コマンドに基づいて前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を動作させた場合に生じる消費電力を、前記計測回路による計測結果に基づいて予測し、予測電力が予め設定された目標電力を超える場合、前記予測電力が前記目標電力を超えない範囲で前記目標電力に近くなるように、前記ｎ個の積和演算器による並列処理数を減らし、必要な処理が時分割で行われるように、前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を制御する、
半導体装置。

【請求項13】

請求項１２記載の半導体装置において、
前記シーケンスコントローラは、前記複数の入力データ間での論理レベルの不一致の度合いが高くなるほど消費電力が増加すると予測する、
半導体装置。

【請求項14】

請求項１３記載の半導体装置において、
さらに、前記ニューラルネットワークエンジンの消費電力を検出する電力検出器を備え、
前記シーケンスコントローラは、前記複数の入力データ間での論理レベルの不一致の度合いと、予測する消費電力との相関関係を、前記電力検出器による検出結果に基づいて補正する、
半導体装置。

【請求項15】

請求項８記載の半導体装置において、
前記プロセッサは、前記シーケンスコントローラが変更前の入力コマンドに基づいて前記第２のＤＭＡコントローラおよび前記ｎ個の積和演算器を動作させた場合に生じる消費電力を、前記計測回路による計測結果に基づいて予測し、予測電力が予め設定された目標電力を超える場合、前記予測電力が前記目標電力を超えない範囲で前記目標電力に近くなるように、前記ｎ個の積和演算器による並列処理数を減らし、削減後の並列処理数を反映させた変更後の入力コマンドを、前記シーケンスコントローラに出力する、
半導体装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、半導体装置に関し、例えば、ニューラルネットワークの処理を実行する半導体装置に関する。

【背景技術】

【0002】

特許文献１には、半導体装置を構成する各論理回路ブロックに、論理回路ブロックの電力状態を制御する電力状態制御回路と、論理回路ブロックへの入力有無に応じて電力状態制御回路を制御する予測回路とが付加された構成が示される。これにより、多種多用なＩＰをオンチップにした場合に自立分散的に低電力化を図ることが可能になる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００２－２２９６９０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、ＣＮＮ（Convolutional Neural Network）等のニューラルネットワークの処理では、半導体装置に搭載される複数のＤＭＡ（Direct Memory Access）コントローラおよび複数の積和演算器等を用いて膨大な演算処理が実行される。具体的には、ＤＭＡコントローラは、例えば、メモリが記憶している、ある畳み込み層の入力データ、すなわち画素データと、重みパラメータとを積和演算器に転送することで、積和演算器に積和演算を行わせる。また、ＤＭＡコントローラは、積和演算器による演算結果を、次の畳み込み層の入力データとして、メモリに転送する。半導体装置は、このような処理を繰り返し実行する。

【0005】

このような半導体装置では、製造プロセスの微細化や回路の成熟化が進むにつれて、積和演算器の搭載数は増加する。さらに、ニューラルネットワークの処理効率が上がることにより、単位時間内に実行できる演算数、すなわち積和演算器の並列処理数も増加する。ただし、積和演算器の並列処理数が増加すると、消費電力も増加する。例えば、車両システム用の半導体装置等では、システムの電源仕様、温度仕様等に応じて、半導体装置に対して許容する消費電力に上限値が設けられる場合がある。積和演算器の並列処理数が増加すると、消費電力が当該上限値を超える場合がある。

【0006】

一方、消費電力は、特許文献１に示されるような積和演算器に対する入力データの有無に限らず、入力データのパターンによっても変化し得る。例えば、入力データがカメラ画像の各画素値である場合、消費電力は、濃度変化によって変化し得る。濃度変化は、広ダイナミックレンジなカメラほど変化が大きくなる傾向にあるため、濃度変化が大きいカメラ画像ほど、消費電力はより大きくなり得る。

【0007】

そこで、濃度変化が大きいカメラ画像を想定し、消費電力が上限値を超えないように積和演算器の並列処理数を固定的に定めることが考えられる。ただし、この場合、濃度変化が小さいカメラ画像を処理する場合に、処理能力を過剰に低下させることになり、ニューラルネットワークの処理時間が増大し得る。

【0008】

後述する実施の形態は、このようなことに鑑みてなされたものであり、その他の課題と新規な特徴は、本明細書の記載および添付図面から明らかになるであろう。

【課題を解決するための手段】

【0009】

一実施の形態の半導体装置は、ニューラルネットワークの処理を実行するものであり、第１および第２のメモリと、ｎ個の積和演算器と、第１および第２のＤＭＡコントローラと、シーケンスコントローラと、計測回路とを備える。第１のメモリは、複数の重みパラメータからなる重みパラメータセットを複数記憶する。第２のメモリは、複数の入力データからなる入力データセットを複数記憶する。ｎ個の積和演算器は、並列処理が可能であり、それぞれが複数の重みパラメータセットのいずれかと複数の入力データセットのいずれかとを積和演算する。第１のＤＭＡコントローラは、第１のメモリからｎ個の積和演算器に、単数または複数の前記重みパラメータセットを転送する。第２のＤＭＡコントローラは、第２のメモリからｎ個の積和演算器に、単数または複数の入力データセットを転送する。シーケンスコントローラは、入力コマンドに基づいて、第２のＤＭＡコントローラおよびｎ個の積和演算器を制御する。ここで、計測回路は、第２のメモリ内の入力データセットに含まれる複数の入力データ間での論理レベルの一致／不一致の度合いを計測し、シーケンスコントローラは、計測回路による計測結果に基づいて、ｎ個の積和演算器による並列処理数を制御する。

【発明の効果】

【0010】

一実施の形態の半導体装置を用いることで、許容可能な消費電力の範囲内で、ニューラルネットワークの処理効率を高めることが可能になる。

【図面の簡単な説明】

【0011】

【図1】図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。

【図2A】図２Ａは、図１におけるＭＡＣユニットのより詳細な構成例および動作例を示す模式図である。

【図2B】図２Ｂは、図１におけるＭＡＣユニットの、図２Ａとは異なる動作例を示す模式図である。

【図3】図３は、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。

【図4】図４は、入力画像のパターンと電力との関係の一例を示す模式図である。

【図5】図５は、図１および図３における計測回路の動作例を示す波形図である。

【図6】図６は、図１および図３における計測回路の構成例を示す回路ブロック図である。

【図7】図７は、図３における計測結果テーブルの構成例を示す図である。

【図8】図８は、図１および図３におけるシーケンスコントローラの動作例を説明する図であり、図７におけるトグル数と電力との相関関係の一例を示す図である。

【図9】図９は、図１および図３におけるシーケンスコントローラの処理内容の一例を示すフロー図である。

【図10A】図１０Ａは、図１および図３に示したニューラルネットワークエンジンにおける、通常動作の一例および当該動作に伴う電力状態の一例を示すタイミングチャートである。

【図10B】図１０Ｂは、図１０Ａを基準として、並列処理数を削減した後の動作例および当該動作に伴う電力状態の一例を示すタイミングチャートである。

【図11】図１１は、実施の形態２による半導体装置において、主要部の構成例を示す概略図である。

【図12】図１２は、図１１におけるシーケンスコントローラの動作例を説明する図であり、トグル数と電力との相関関係の一例を示す図である。

【発明を実施するための形態】

【0012】

以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

【0013】

さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

【0014】

以下、実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。

【0015】

（実施の形態１）
＜半導体装置の概略＞
図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図１に示す半導体装置１０は、例えば、一つの半導体チップで構成されるＳｏＣ（System on Chip）等である。当該半導体装置１０は、代表的には、車両のＥＣＵ（Electronic Control Unit）等に搭載され、ＡＤＡＳ（Advanced Driver Assistance System）の機能を提供する。

【0016】

図１に示す半導体装置１０は、ニューラルネットワークエンジン１５と、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）等のプロセッサ１７と、メモリＭＥＭ１，ＭＥＭ２と、システムバス１６とを有する。システムバス１６は、ニューラルネットワークエンジン１５、メモリＭＥＭ１，ＭＥＭ２およびプロセッサ１７を互いに接続する。ニューラルネットワークエンジン１５は、ＣＮＮを代表とするニューラルネットワークの処理を実行する。プロセッサ１７は、メモリＭＥＭ１が記憶している所定のプログラムを実行することで、ニューラルネットワークエンジン１５の制御を含めて、半導体装置１０に所定の機能を担わせる。

【0017】

メモリ（第１のメモリ）ＭＥＭ１は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）である。メモリＭＥＭ１は、カメラ画像等を構成する複数の入力データセットＤＳｉと、入力コマンドＣＭＤ１およびパラメータＰＲとを記憶する。１個の入力データセットＤＳｉは、例えば、畳み込み処理の単位となる画素空間内のデータであり、複数の入力データＤｉ、言い換えれば複数の画素データからなる。入力コマンドＣＭＤ１は、ニューラルネットワークエンジン１５のシーケンス動作を制御するための各種情報を含む。パラメータＰＲは、バイアスパラメータＢＰと、複数の重みパラメータセットＷＳとを含む。複数の重みパラメータセットＷＳのそれぞれは、複数の重みパラメータからなる。

【0018】

ニューラルネットワークエンジン１５は、複数のＤＭＡコントローラＤＭＡＣ１，ＤＭＡＣ２と、ＭＡＣユニット２０と、シーケンスコントローラ２１と、計測回路２２と、レジスタＲＥＧと、各種バッファとを備える。各種バッファには、重みパラメータバッファＷＢＦと、データ入力バッファＩＢＦと、データ出力バッファＯＢＦとが含まれる。各種バッファは、詳細には、例えば、フリップフロップ等のラッチ回路で構成されるレジスタであってよい。

【0019】

ＭＡＣユニット２０は、ｎを２以上の整数として、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを備える。ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎは、並列処理が可能となっている。ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎのそれぞれは、例えば、複数の乗算器と、複数の乗算器からの乗算結果を加算する１個の加算器とを備え、これによって積和演算を実行する。明細書では、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを総称して、積和演算器ＭＡＣと呼ぶ。

【0020】

重みパラメータバッファＷＢＦは、単数または複数の重みパラメータセットＷＳを記憶し、当該重みパラメータセットＷＳを、ＭＡＣユニット２０内の積和演算器ＭＡＣに出力する。データ入力バッファＩＢＦは、単数または複数の入力データセットＤＳｉを記憶し、当該入力データセットＤＳｉを、ＭＡＣユニット２０内の積和演算器ＭＡＣに出力する。データ出力バッファＯＢＦは、ＭＡＣユニット２０内の積和演算器ＭＡＣからの出力データＤｏを記憶する。

【0021】

ＤＭＡコントローラ（第１のＤＭＡコントローラ）ＤＭＡＣ１は、メモリＭＥＭ１から重みパラメータバッファＷＢＦ、ひいては積和演算器ＭＡＣに、システムバス１６を介して単数または複数の重みパラメータセットＷＳを転送する。また、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から入力コマンドＣＭＤ１を読み出し、当該入力コマンドＣＭＤ１をレジスタＲＥＧに書き込む。例えば、重みパラメータセットＷＳと入力コマンドＣＭＤ１とは、データ幅方向に割り当てられ、メモリＭＥＭ１から並列に読み出される。

【0022】

メモリ（第２のメモリ）ＭＥＭ２は、例えば、メモリＭＥＭ１よりも高速なメモリ、具体的にはＳＲＡＭ等であり、ニューラルネットワークエンジン１５、特にＭＡＣユニット２０の高速キャッシュメモリとして用いられる。メモリＭＥＭ２は、複数の入力データセットＤＳｉや、出力データＤｏを記憶する。例えば、カメラ画像等を構成する複数の入力データセットＤＳｉは、予めメモリＭＥＭ１からメモリＭＥＭ２にコピーされたのち、ニューラルネットワークエンジン１５で用いられる。

【0023】

ＤＭＡコントローラ（第２のＤＭＡコントローラ）ＤＭＡＣ２は、メモリＭＥＭ２からデータ入力バッファＩＢＦ、ひいては積和演算器ＭＡＣに、単数または複数の入力データセットＤＳｉを転送する。また、ＤＭＡコントローラＤＭＡＣ２は、データ出力バッファＯＢＦ、ひいては積和演算器ＭＡＣから、メモリＭＥＭ２に、出力データＤｏを転送する。

【0024】

ＭＡＣユニット２０内の各積和演算器ＭＡＣは、重みパラメータバッファＷＢＦからの複数の重みパラメータセットＷＳのいずれかと、データ入力バッファＩＢＦからの複数の入力データセットＤＳｉのいずれかとを積和演算する。すなわち、各積和演算器ＭＡＣは、１個の重みパラメータセットＷＳに含まれる複数の重みパラメータと、１個の入力データセットＤＳｉに含まれる複数の入力データＤｉとを積和演算することで、例えば、畳み込み層の処理を実行する。

【0025】

また、各積和演算器ＭＡＣは、積和演算結果を出力データＤｏとしてデータ出力バッファＯＢＦに書き込む。データ出力バッファＯＢＦに書き込まれた出力データＤｏは、ＤＭＡコントローラＤＭＡＣ２によってメモリＭＥＭ２に転送される。当該メモリＭＥＭ２に転送された出力データＤｏは、例えば、次の畳み込み層での入力データＤｉとなる。なお、詳細は省略するが、各積和演算器ＭＡＣは、積和演算結果に対してバイアスパラメータＢＰの値の加算や、活性化関数の演算や、プーリング層の処理等といったＣＮＮで必要とされる各種処理を行ってもよい。

【0026】

計測回路２２は、メモリＭＥＭ２内の入力データセットＤＳｉに含まれる複数の入力データＤｉ間での論理レベルの一致／不一致の度合いを計測する。シーケンスコントローラ２１は、ニューラルネットワークエンジン１５全体の動作シーケンスを制御する。その一つとして、シーケンスコントローラ２１は、入力コマンドや、計測回路２２による計測結果に基づいて、ＤＭＡコントローラＤＭＡＣ２およびＭＡＣユニット２０を制御する。入力コマンドは、レジスタＲＥＧが記憶している入力コマンドＣＭＤ１、または、プロセッサ１７がシステムバス１６を介して出力した入力コマンドＣＭＤ２である。

【0027】

シーケンスコントローラ２１は、ＤＭＡコントローラＤＭＡＣ２の制御として、ＤＭＡコントローラＤＭＡＣ２のオン／オフ、詳細には、ＤＭＡコントローラＤＭＡＣ２における転送チャネル毎のオン／オフ、言い換えれば活性化／非活性化を制御する。そして、シーケンスコントローラ２１は、オンに制御するＤＭＡコントローラＤＭＡＣ２の転送チャネルに対して、メモリＭＥＭ２から入力データセットＤＳｉを転送する際の転送元アドレスや、メモリＭＥＭ２に出力データＤｏを転送する際の転送先アドレス等を設定する。

【0028】

また、シーケンスコントローラ２１は、ＭＡＣユニット２０の制御として、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎによる並列処理数を制御する。すなわち、シーケンスコントローラ２１は、積和演算器ＭＡＣ毎のオン／オフ、言い換えれば活性化／非活性化を制御する。詳細は後述するが、シーケンスコントローラ２１は、このような並列処理数の制御を、計測回路２２による計測結果に基づいて行う。

【0029】

図２Ａは、図１におけるＭＡＣユニットのより詳細な構成例および動作例を示す模式図である。図２Ａには、ある制御サイクルにおいて、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎが、同一の重みパラメータセットＷＳと、畳み込み処理に伴う異なる画素空間内のデータ、すなわち互いに異なる入力データセットＤＳｉとを、積和演算する場合の動作例が示される。

【0030】

この例では、重みパラメータセットＷＳとして、複数の出力チャネルＣＨｏ［１］，ＣＨｏ［２］，…にそれぞれ対応する複数の重みパラメータセットＷＳ［１］，ＷＳ［２］，…が示される。複数の重みパラメータセットＷＳ［１］，ＷＳ［２］，…のそれぞれは、例えば、４（＝２×２）個の重みパラメータＷ１～Ｗ４からなる。なお、重みパラメータセットＷＳ［１］内の重みパラメータＷ１～Ｗ４の各値と、重みパラメータセットＷＳ［２］内の重みパラメータＷ１～Ｗ４の各値とは、適宜異なり得る。

【0031】

また、メモリＭＥＭ２は、複数の入力データセットＤＳｉ［１］，ＤＳｉ［２］，…を記憶している。入力データセットＤＳｉ［１］は、重みパラメータセットＷＳと同じ４（＝２×２）個の入力データＤｉ［１］～Ｄｉ［４］、言い換えれば画素データからなる。同様に、入力データセットＤＳｉ［２］も、４個の入力データＤｉ［３］～Ｄｉ［６］からなる。例えば、入力データセットＤＳｉ［１］は、畳み込み処理に伴う１番目の画素空間内、ここでは２×２の画素空間内のデータであり、入力データセットＤＳｉ［２］は、畳み込み処理に伴う２番目の画素空間内のデータである。

【0032】

図２Ａに示されるように、ある制御サイクルでは、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎに、同一の重みパラメータセットＷＳ［１］が入力される。また、ｎ個の積和演算器ＭＡＣ１，ＭＡＣ２，…に、それぞれ異なる入力データセットＤＳｉ［１］，ＤＳｉ［２］，…が入力される。各積和演算器ＭＡＣは、複数、この例では４個の乗算器ＭＵＬと、当該複数の乗算器ＭＵＬからの乗算結果を加算する１個の加算器ＡＤＤとを備える。

【0033】

積和演算器ＭＡＣ１は、重みパラメータセットＷＳ［１］に含まれる４個の重みパラメータＷ１～Ｗ４と、入力データセットＤＳｉ［１］に含まれる４個の入力データＤｉ［１］～Ｄｉ［４］とを積和演算する。これにより、積和演算器ＭＡＣ１は、出力チャネルＣＨｏ［１］の特徴マップにおける１番目の座標の出力データＤｏ［１］を生成する。これと並行して、積和演算器ＭＡＣ２は、重みパラメータセットＷＳ［１］に含まれる４個の重みパラメータＷ１～Ｗ４と、入力データセットＤＳｉ［２］に含まれる４個の入力データＤｉ［３］～Ｄｉ［６］とを積和演算する。これにより、積和演算器ＭＡＣ２は、出力チャネルＣＨｏ［１］の特徴マップにおける２番目の座標の出力データＤｏ［２］を生成する。

【0034】

このようにして、全ての画素空間に対する畳み込み処理が終了すると、出力チャネルＣＨｏ［１］の特徴マップが完成する。その後は、出力チャネルＣＨｏ［１］の重みパラメータセットＷＳ［１］の代わりに、出力チャネルＣＨｏ［２］の重みパラメータセットＷＳ［２］を用いて、同様の畳み込み処理が行われる。その結果、出力チャネルＣＨｏ［２］の特徴マップが完成する。

【0035】

なお、ここでは、説明を簡素化するため、各重みパラメータセットＷＳは、４（＝２×２）個の重みパラメータＷ１～Ｗ４で構成された。ただし、この重みパラメータの数は、ＣＮＮ等の構成に応じて適宜変わり、例えば、“３×３×入力チャネル数”等となり得る。これに応じて、各積和演算器ＭＡＣに必要な乗算器ＭＵＬの数も適宜変わり得る。図１に示したＭＡＣユニット２０は、様々な重みパラメータの数、言い換えれば、様々なカーネル構成や入力サイズに対応するため、適宜グルーピングを行うことで各積和演算器ＭＡＣに含まれる乗算器ＭＵＬの数等を可変設定可能となっている。

【0036】

図２Ｂは、図１におけるＭＡＣユニットの、図２Ａとは異なる動作例を示す模式図である。図２Ｂには、図２Ａの場合と異なり、ある制御サイクルにおいて、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎが、同一の入力データセットＤＳｉと、互いに異なる重みパラメータセットＷＳとを、積和演算する場合の動作例が示される。図２Ａの動作例と図２Ｂの動作例とは、入力コマンドＣＭＤ１，ＣＭＤ２等によって使い分けることが可能である。

【0037】

図２Ｂに示されるように、ある制御サイクルでは、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎに、同一の入力データセットＤＳｉ［１］が入力される。また、ｎ個の積和演算器ＭＡＣ１，ＭＡＣ２，…，ＭＡＣｎに、それぞれ異なる重みパラメータセットＷＳ［１］，ＷＳ［２］，…，ＷＳ［ｎ］が入力される。重みパラメータセットＷＳ［１］，ＷＳ［２］，…，ＷＳ［ｎ］は、それぞれ、出力チャネルＣＨｏ［１］，ＣＨｏ［２］，…，ＣＨｏ［ｎ］に対応するものである。

【0038】

積和演算器ＭＡＣ１は、出力チャネルＣＨｏ［１］の重みパラメータセットＷＳ［１］に含まれる４個の重みパラメータＷ１～Ｗ４と、入力データセットＤＳｉ［１］に含まれる４個の入力データＤｉ［１］～Ｄｉ［４］とを積和演算する。これにより、積和演算器ＭＡＣ１は、出力チャネルＣＨｏ［１］の特徴マップにおける１番目の座標の出力データＤｏ［１］を生成する。これと並行して、積和演算器ＭＡＣ２は、出力チャネルＣＨｏ［２］の重みパラメータセットＷＳ［２］に含まれる４個の重みパラメータＷ１～Ｗ４と、入力データセットＤＳｉ［１］に含まれる４個の入力データＤｉ［１］～Ｄｉ［４］とを積和演算する。これにより、積和演算器ＭＡＣ２は、出力チャネルＣＨｏ［２］の特徴マップにおける１番目の座標の出力データＤｏ［１］を生成する。

【0039】

このようにして、１番目の画素空間のデータ、すなわち入力データセットＤＳｉ［１］を対象に、全ての出力チャネルでの処理を終えると、全ての特徴マップにおける１番目の座標の出力データＤｏ［１］が生成される。その後は、入力データセットＤＳｉ［１］の代わりに、入力データセットＤＳｉ［２］、すなわち２番目の画素空間のデータを用いて、同様の処理が行われる。その結果、全ての特徴マップにおける２番目の座標の出力データＤｏ［２］が生成される。

【0040】

＜ニューラルネットワークエンジンの詳細＞
図３は、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。図３において、ＭＡＣユニット２０は、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを備える。ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎのそれぞれは、図２Ａで述べたように、複数の乗算器ＭＵＬと、１個の加算器ＡＤＤとを備える。データ入力バッファＩＢＦ、重みパラメータバッファＷＢＦおよびデータ出力バッファＯＢＦは、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎのそれぞれに対して設けられる。ｎ個のデータ入力バッファＩＢＦ、重みパラメータバッファＷＢＦおよびデータ出力バッファＯＢＦは、それぞれ、ｎ個のデータ入力レジスタ、重みパラメータレジスタおよびデータ出力レジスタであってよい。

【0041】

ＤＭＡコントローラＤＭＡＣ１は、図１に示したメモリＭＥＭ１から、各重みパラメータバッファＷＢＦ、ひいては各積和演算器ＭＡＣに、重みパラメータセットＷＳを転送する。また、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１からレジスタＲＥＧに、入力コマンドＣＭＤ１を転送する。一方、図１に示したデータ用のＤＭＡコントローラＤＭＡＣ２は、詳細には、図３に示されるように、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉと、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏとを有する。

【0042】

データ入力用のＤＭＡコントローラＤＭＡＣ２ｉは、ｎ個のデータ入力バッファＩＢＦ、ひいてはｎ個の積和演算器ＭＡＣ１～ＭＡＣｎに、複数の入力データＤｉからなる入力データセットＤＳｉを、ｎ個の転送チャネルＣＨ１～ＣＨｎを用いてそれぞれ転送する。データ出力用のＤＭＡコントローラＤＭＡＣ２ｏは、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎから出力され、ｎ個のデータ出力バッファＯＢＦに書き込まれた出力データＤｏを、ｎ個の転送チャネルＣＨ１～ＣＨｎを用いてそれぞれ転送する。

【0043】

計測回路２２は、入力データセットＤＳｉに含まれる複数の入力データＤｉ間での論理レベルの一致／不一致の度合いを計測し、当該計測結果を、メモリ２５内の計測結果テーブル２６に書き込む。メモリ２５は、例えば、図１に示したメモリＭＥＭ１，ＭＥＭ２であってもよく、別途設けられるものであってもよい。シーケンスコントローラ２１は、レジスタＲＥＧに書き込まれた入力コマンドＣＭＤ１、または図１に示したプロセッサ１７からの入力コマンドＣＭＤ２と、計測回路２２による計測結果、詳細には、計測結果テーブル２６とに基づいて、データ用のＤＭＡコントローラＤＭＡＣ２ｉ，ＤＭＡＣ２ｏおよびｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを制御する。

【0044】

詳細には、シーケンスコントローラ２１は、ｎ個のイネーブル信号ＥＮｍ１～ＥＮｍＮを用いて、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎのオン／オフ、言い換えれば活性化／非活性化をそれぞれ制御する。さらに、シーケンスコントローラ２１は、ｎ個のイネーブル信号ＥＮｉ１～ＥＮｉＮを用いて、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉにおけるｎ個の転送チャネルＣＨ１～ＣＨｎのオン／オフをそれぞれ制御する。

【0045】

同様に、シーケンスコントローラ２１は、ｎ個のイネーブル信号ＥＮｏ１～ＥＮｏＮを用いて、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏにおけるｎ個の転送チャネルＣＨ１～ＣＨｎのオン／オフをそれぞれ制御する。なお、オフに制御された積和演算器ＭＡＣや転送チャネルは、例えば、内部のフリップフロップ等へのクロック信号の入力が停止されること等で、省電力状態となる。

【0046】

また、シーケンスコントローラ２１は、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉにおけるｎ個の転送チャネルＣＨ１～ＣＨｎ、詳細には、オンに制御される転送チャネルに対して、転送設定信号ＳＤｉを用いて転送内容の設定を行う。具体的には、メモリＭＥＭ２内の転送元アドレスの設定等が行われる。同様に、シーケンスコントローラ２１は、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏにおけるｎ個の転送チャネルＣＨ１～ＣＨｎ、詳細には、オンに制御される転送チャネルに対して、転送設定信号ＳＤｏを用いて転送内容の設定を行う。具体的には、メモリＭＥＭ２内の転送先アドレスの設定等が行われる。

【0047】

＜計測回路の詳細＞
図４は、入力画像のパターンと電力との関係の一例を示す模式図である。例えば、車載カメラ等によって取得されたカメラ画像は、メモリＭＥＭ１に書き込まれ、図１で述べたように、予め、メモリＭＥＭ１からメモリＭＥＭ２にコピーされる。図４には、このようなカメラ画像４０ａ，４０ｂ，４０ｃ１，４０ｃ２の一例が模式的に示される。例えば、カメラ画像４０ａは、前述したように、複数の入力データセットＤＳｉ［１］，ＤＳｉ［２］，…で構成される。各入力データセットＤＳｉは、複数の入力データＤｉからなる。各入力データＤｉは、画素値を表す。

【0048】

図４において、カメラ画像４０ａは、細かい格子パターンからなり、カメラ画像４０ｂは、カメラ画像４０ａよりも粗い格子パターンからなり、カメラ画像４０ｃ１，４０ｃ２は、塗りつぶしパターンからなる。この場合、カメラ画像の濃度変化は、カメラ画像４０ａ＞カメラ画像４０ｂ＞カメラ画像４０ｃ１，４０ｃ２の順に大きくなる。そして、ニューラルネットワークエンジン１５の消費電力は、濃度変化が大きいカメラ画像ほど、大きくなり得る。

【0049】

その主な要因として、濃度変化が大きいカメラ画像を処理する時ほど、ニューラルネットワークエンジン１５内の各内部配線等における充放電回数が増加し易いことが挙げられる。例えば、入力データＤｉ、すなわち画素値を８ビットとして、最も暗い画素値を０（＝0b00000000）、最も明るい画素値を２５５（＝0b11111111）とした場合、カメラ画像４０ａの処理に伴い画素値を０から２５５に変化させる際に、８ビットの充電が必要とされる。なお、高性能化に伴いカメラ画像の画素分解能が高まる、すなわち画素値のビット幅が増加すると、カメラ画像の濃度変化に応じた消費電力の変化量も、より大きくなり得る。

【0050】

計測回路２２は、このようなカメラ画像等における濃度変化の度合いを計測するために設けられる。図５は、図１および図３における計測回路の動作例を示す波形図である。図６は、図１および図３における計測回路の構成例を示す回路ブロック図である。図７は、図３における計測結果テーブルの構成例を示す図である。

【0051】

計測回路２２は、図５および図６に示されるように、カメラ画像等を構成する複数の入力データセットＤＳｉがメモリＭＥＭ１からメモリＭＥＭ２にコピーされる際に、複数の入力データＤｉ間での論理レベルの一致／不一致の度合いを計測する。なお、メモリＭＥＭ１からメモリＭＥＭ２へのコピーは、例えば、図１に示したプロセッサ１７によって行われる。

【0052】

より詳細には、計測回路２２は、複数の入力データＤｉがメモリＭＥＭ２に順次書き込まれる際に、隣接する２個の入力データＤｉ間で生じる論理レベルのトグル数をカウントすることで、複数の入力データＤｉ間での論理レベルの一致／不一致の度合いを計測する。そして、計測回路２２は、計測結果を計測結果テーブル２６に書き込む。

【0053】

図５の例では、メモリＭＥＭ２のアドレスＡＤＲ［１］，ＡＤＲ［２］，ＡＤＲ［３］，ＡＤＲ［４］，…に、入力データＤｉ［１］，Ｄｉ［２］，Ｄｉ［３］，Ｄｉ［４］，…が順次書き込まれている。入力データＤｉ［１］～Ｄｉ［４］は、入力データセットＤＳｉ［１］を構成する。また、入力データＤｉは、図６に示されるように、“ｍ＋１”ビット、例えば、８ビットや、１６ビットや、２４ビット等で構成される。

【0054】

図５において、計測回路２２は、“ｍ＋１”ビットの入力データＤｉ［１］と“ｍ＋１”ビットの入力データＤｉ［２］との間で生じる論理レベルのトグル数をカウントすることで、カウント値ＣＮ［１，２］を算出する。同様に、計測回路２２は、入力データＤｉ［２］と入力データＤｉ［３］とを対象にカウント値ＣＮ［２，３］を算出し、入力データＤｉ［３］と入力データＤｉ［４］とを対象にカウント値ＣＮ［３，４］を算出する。そして、計測回路２２は、算出したカウント値ＣＮ［１，２］，ＣＮ［２，３］，ＣＮ［３，４］を積算することで、積算カウント値ＣＮｓ［１］を算出する。積算カウント値ＣＮｓ［１］は、入力データセットＤＳｉ［１］を対象としたトグル数を表す。

【0055】

図６において、計測回路２２は、“ｍ＋１”個のフリップフロップＦＦと、“ｍ＋１”個の排他的論理和ゲートＥＯＲと、トグル数カウンタ３０と、積算回路３１とを備える。“ｍ＋１”個のフリップフロップＦＦは、例えば、メモリＭＥＭ２へのライトイネーブル信号ＷＥに同期して、“ｍ＋１”ビットの入力データＤｉを１回のライトサイクル分遅延される。“ｍ＋１”個の排他的論理和ゲートＥＯＲは、現ライトサイクルでの“ｍ＋１”ビットの入力データＤｉと、フリップフロップＦＦからの前ライトサイクルでの“ｍ＋１”ビットの入力データＤｉとの一致／不一致を、ビット毎に比較する。

【0056】

トグル数カウンタ３０は、排他的論理和ゲートＥＯＲからの出力に基づいて、不一致となったビット数、すなわちトグル数をカウントすることで、カウント値ＣＮを算出する。積算回路３１は、トグル数カウンタ３０からのカウント値ＣＮを時系列で積算することで、積算カウント値ＣＮｓを算出する。そして、積算回路３１は、積算カウント値ＣＮｓを、計測結果として計測結果テーブル２６に書き込む。計測結果テーブル２６は、図７の例では、入力データセットＤＳｉ［１］，ＤＳｉ［２］，…，ＤＳｉ［ｊ］毎のトグル数、すなわち積算カウント値ＣＮｓ［１］，ＣＮｓ［２］，…，ＣＮｓ［ｊ］を記憶する。

【0057】

＜シーケンスコントローラの詳細＞
図８は、図１および図３におけるシーケンスコントローラの動作例を説明する図であり、図７におけるトグル数と電力との相関関係の一例を示す図である。図８において、予測電力Ｐｐに示されるように、シーケンスコントローラ２１は、トグル数が増加するほど、すなわち、複数の入力データＤｉ間での論理レベルの不一致の度合いが高くなるほど消費電力が増加するものと予測する。図８の例では、シーケンスコントローラ２１は、消費電力はトグル数に比例して増加するものと予測する。

【0058】

具体例として、ある制御サイクルで、図２Ａに示したような動作が行われる場合を想定する。また、この際に、通常動作では、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎは、それぞれ、ｎ個の入力データセットＤＳｉ［１］～ＤＳｉ［ｎ］を入力として並列に演算を行うものとする。この場合、シーケンスコントローラ２１は、計測結果テーブル２６から、ｎ個の入力データセットＤＳｉ［１］～ＤＳｉ［ｎ］に対する計測結果、すなわちｎ個のトリガ数を取得する。そして、シーケンスコントローラ２１は、取得したｎ個のトリガ数を合計することで、当該制御サイクルに対するトリガ数を算出し、算出したトリガ数から当該制御サイクルで生じる消費電力を予測する。

【0059】

一方、ニューラルネットワークエンジン１５を搭載した半導体装置１０に対しては、例えば、当該半導体装置１０を搭載した車両システム等の電源仕様、温度仕様等に応じて、予め許容可能な最大電力が定められる場合がある。シーケンスコントローラ２１には、当該半導体装置１０で許容可能な最大電力に基づいて、例えば、ニューラルネットワークエンジン１５で許容可能な最大電力が目標電力Ｐｔとして設定される。そして、シーケンスコントローラ２１は、ある制御サイクルにおいて、予測電力Ｐｐが目標電力Ｐｔを超える場合、予測電力Ｐｐが目標電力Ｐｔを超えない範囲で目標電力Ｐｔに近くなるように、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎによる並列処理数を減らす制御を行う。

【0060】

例えば、ある１回の制御サイクルにおける予測電力Ｐｐが目標電力Ｐｔの２倍であった場合、シーケンスコントローラ２１は、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎによる並列処理数をｎ／２個に減らす。そして、シーケンスコントローラ２１は、当該１回の制御サイクルを２回の制御サイクルに時分割することで、ニューラルネットワークエンジン１５に必要な処理を行わせる。これにより、許容可能な消費電力の範囲内で、ニューラルネットワークの処理効率を高めることが可能になる。すなわち、予測電力Ｐｐを目標電力Ｐｔ内に抑制しつつ、並列処理数が過剰に減らされる、ひいては、ニューラルネットワークの処理時間が過剰に増大するのを回避することができる。

【0061】

図９は、図１および図３におけるシーケンスコントローラの処理内容の一例を示すフロー図である。まず、図９に示される処理に先立って、プロセッサ１７は、例えば、図５、図６および図７で述べたように、複数の入力データセットＤＳｉを、メモリＭＥＭ１からメモリＭＥＭ２にコピーする。この際に、計測回路２２は、複数の入力データＤｉ間での論理レベルの一致／不一致の度合いをトリガ数として計測し、計測結果を計測結果テーブル２６に書き込んでおく。

【0062】

このような処理が予め行われたのち、シーケンスコントローラ２１は、図９に示されるような処理を行う。図９において、シーケンスコントローラ２１は、レジスタＲＥＧに書き込まれた入力コマンドＣＭＤ１またはプロセッサ１７からの入力コマンドＣＭＤ２を取得する（ステップＳ１０１）。当該入力コマンドＣＭＤ１，ＣＭＤ２によって、例えば、ある畳み込み層を通常動作で処理する際の並列処理数が定められ、当該並列処理数に応じて、ＤＭＡコントローラＤＭＡＣ２およびｎ個の積和演算器ＭＡＣ１～ＭＡＣｎの制御内容も定められる。

【0063】

その後、シーケンスコントローラ２１は、全ての処理対象、例えば全ての入力データセットＤＳｉの処理が完了するまで、所定の制御単位でステップＳ１０２～Ｓ１０６の処理を繰り返し実行する（ステップＳ１０７）。ステップＳ１０２において、シーケンスコントローラ２１は、入力コマンドＣＭＤ１，ＣＭＤ２に基づく通常動作時に生じる消費電力を、計測結果テーブル２６に基づき予測する（ステップＳ１０２）。

【0064】

具体的には、図８で述べたように、シーケンスコントローラ２１は、入力コマンドＣＭＤ１，ＣＭＤ２に基づいてＤＭＡコントローラＤＭＡＣ２およびｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを動作させる前に、計測結果テーブル２６から、処理対象となる入力データセットＤＳｉに対する計測結果、すなわちトリガ数を取得する。そして、シーケンスコントローラ２１は、入力コマンドＣＭＤ１，ＣＭＤ２に基づいてＤＭＡコントローラＤＭＡＣ２およびｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを通常動作させた場合に生じる消費電力を、取得した計測結果に基づいて予測する。

【0065】

次いで、シーケンスコントローラ２１は、予測電力Ｐｐが予め設定された目標電力Ｐｔを超えるか否かを判定する（ステップＳ１０３）。“予測電力Ｐｐ≦目標電力Ｐｔ”である場合（ステップＳ１０３：Ｎｏの場合）、シーケンスコントローラ２１は、入力コマンドＣＭＤ１，ＣＭＤ２に基づく通常動作時の制御内容で、ＤＭＡコントローラＤＭＡＣ２およびｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを制御する（ステップＳ１０６）。

【0066】

一方、“予測電力Ｐｐ＞目標電力Ｐｔ”である場合（ステップＳ１０３：Ｙｅｓの場合）、シーケンスコントローラ２１は、予測電力Ｐｐが目標電力Ｐｔを超えない範囲で目標電力Ｐｔに近くなるように、ｎ個の積和演算器ＭＡＣ１～ＭＡＣｎによる並列処理数を減らす（ステップＳ１０４）。そして、シーケンスコントローラ２１は、削減後の並列処理数に基づいてシーケンス制御を行う（ステップＳ１０５）。具体的には、シーケンスコントローラ２１は、必要な処理が時分割で行われるように、ＤＭＡコントローラＤＭＡＣ２およびｎ個の積和演算器ＭＡＣ１～ＭＡＣｎを制御する。

【0067】

図１０Ａは、図１および図３に示したニューラルネットワークエンジンにおける、通常動作の一例および当該動作に伴う電力状態の一例を示すタイミングチャートである。この例では、説明の簡素化のため、積和演算器ＭＡＣの数“ｎ”を４個とし、通常動作時には、４個の積和演算器ＭＡＣ１～ＭＡＣｎが並列に演算を行うものとする。図１０Ａにおいて、ニューラルネットワークエンジン１５は、１番目の制御サイクルＴｃ１での処理を実行し、続いて、２番目の制御サイクルＴｃ２での処理を実行する。明細書では、制御サイクルＴｃ１，Ｔｃ２を総称して制御サイクルＴｃと呼ぶ。各制御サイクルＴｃは、期間Ｔ１，Ｔ２，Ｔ３からなる。

【0068】

期間Ｔ１において、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉは、４個の転送チャネルＣＨ１～ＣＨ４を用いて、メモリＭＥＭ２から４個の積和演算器ＭＡＣ１～ＭＡＣ４、詳細には各データ入力バッファＩＢＦに、４個の入力データセットＤＳｉを並列に転送する。また、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から４個の積和演算器ＭＡＣ１～ＭＡＣ４、詳細には各重みパラメータバッファＷＢＦに、重みパラメータセットＷＳを転送する。

【0069】

期間Ｔ２において、４個の積和演算器ＭＡＣ１～ＭＡＣ４は、転送された入力データセットＤＳｉと、転送された重みパラメータセットＷＳとを、並列に積和演算する。期間Ｔ３において、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏは、４個の転送チャネルＣＨ１～ＣＨ４を用いて、４個の積和演算器ＭＡＣ１～ＭＡＣ４の各データ出力バッファＯＢＦからメモリＭＥＭ２に、積和演算結果となる４個の出力データＤｏを並列に転送する。

【0070】

また、期間Ｔ１に先立って、シーケンスコントローラ２１は、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉにおける４個の転送チャネルＣＨ１～ＣＨ４に対して、転送設定信号ＳＤｉを用いて転送内容を設定する。同様に、シーケンスコントローラ２１は、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏにおける４個の転送チャネルＣＨ１～ＣＨ４に対して、転送設定信号ＳＤｏを用いて転送内容を設定する。

【0071】

そして、シーケンスコントローラ２１は、期間Ｔ１において、４個のイネーブル信号ＥＮｉ１～ＥＮｉ４を用いて、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉにおける４個の転送チャネルＣＨ１～ＣＨｎを共にオンに制御する。これにより、当該４個の転送チャネルＣＨ１～ＣＨ４を用いて入力データセットＤＳｉの転送が行われる。また、シーケンスコントローラ２１は、期間Ｔ２において、４個のイネーブル信号ＥＮｍ１～ＥＮｍ４を用いて、４個の積和演算器ＭＡＣ１～ＭＡＣ４を共にオンに制御する。これによって、４個の積和演算器ＭＡＣ１～ＭＡＣ４は、積和演算を実行する。

【0072】

さらに、シーケンスコントローラ２１は、期間Ｔ３において、４個のイネーブル信号ＥＮｏ１～ＥＮｏ４を用いて、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏにおける４個の転送チャネルＣＨ１～ＣＨｎを共にオンに制御する。これによって、当該４個の転送チャネルＣＨ１～ＣＨ４を用いて出力データＤｏの転送が行われる。

【0073】

ここで、図１０Ａにおける１番目の制御サイクルＴｃ１では、４個の積和演算器ＭＡＣ１～ＭＡＣ４は、４個の入力データセットＤＳｉ［１］～ＤＳｉ［４］を入力として、４個の出力データＤｏ［１］～Ｄｏ［４］を出力している。入力データセットＤＳｉ［１］～ＤＳｉ［４］を処理対象とする場合の消費電力は、入力データセットＤＳｉ［１］～ＤＳｉ［４］に対する積算カウント値ＣＮｓ［１］～ＣＮｓ［４］の合計値によって予測される。この例では、当該合計値に基づく予測電力Ｐｐは、目標電力Ｐｔを超えている。

【0074】

一方、図１０Ａにおける２番目の制御サイクルＴｃ２では、４個の積和演算器ＭＡＣ１～ＭＡＣ４は、４個の入力データセットＤＳｉ［５］～ＤＳｉ［８］を入力として、４個の出力データＤｏ［５］～Ｄｏ［８］を出力している。入力データセットＤＳｉ［５］～ＤＳｉ［８］を処理対象とする場合の消費電力は、入力データセットＤＳｉ［５］～ＤＳｉ［８］に対する積算カウント値ＣＮｓ［５］～ＣＮｓ［８］の合計値によって予測される。この例では、当該合計値に基づく予測電力Ｐｐは、目標電力Ｐｔを超えていない。

【0075】

図１０Ｂは、図１０Ａを基準として、並列処理数を削減した後の動作例および当該動作に伴う電力状態の一例を示すタイミングチャートである。図１０Ａにおける１番目の制御サイクルＴｃ１での予測電力Ｐｐは、目標電力Ｐｔを超えている。このため、シーケンスコントローラ２１は、図８におけるステップＳ１０４，Ｓ１０５の処理によって、積和演算器ＭＡＣによる並列処理数を削減し、これに応じてＤＭＡコントローラＤＭＡＣ２の転送チャネル数も削減する。

【0076】

この例では、図１０Ａにおける１回の制御サイクルＴｃ１は、図１０Ｂにおける２回の制御サイクルＴｃ１Ａ，Ｔｃ１Ｂに時分割されている。２回の制御サイクルＴｃ１Ａ，Ｔｃ１Ｂにおいて、積和演算器ＭＡＣによる並列処理数は、４個から２個に削減されている。制御サイクルＴｃ１Ａでは、２個の積和演算器ＭＡＣ１，ＭＡＣ２は、２個の入力データセットＤＳｉ［１］，ＤＳｉ［２］を入力として、２個の出力データＤｏ［１］，Ｄｏ［２］を出力する。制御サイクルＴｃ１Ｂでは、２個の積和演算器ＭＡＣ１，ＭＡＣ２は、２個の入力データセットＤＳｉ［３］，ＤＳｉ［４］を入力として、２個の出力データＤｏ［３］，Ｄｏ［４］を出力する。

【0077】

この際に、シーケンスコントローラ２１は、イネーブル信号ＥＮｍ１，ＥＮｍ２を用いて２個の積和演算器ＭＡＣ１，ＭＡＣ２をオンに制御し、イネーブル信号ＥＮｉ１，ＥＮｉ２，ＥＮｏ１，ＥＮｏ２を用いて２個の転送チャネルＣＨ１，ＣＨ２をオンに制御する。また、シーケンスコントローラ２１は、イネーブル信号ＥＮｍ３，ＥＮｍ４を用いて２個の積和演算器ＭＡＣ３，ＭＡＣ４をオフに制御し、イネーブル信号ＥＮｉ３，ＥＮｉ４，ＥＮｏ３，ＥＮｏ４を用いて２個の転送チャネルＣＨ３，ＣＨ４をオフに制御する。

【0078】

オフに制御された積和演算器ＭＡＣ３，ＭＡＣ４や転送チャネルＣＨ３，ＣＨ４は、非活性状態となり、例えば、内部のフリップフロップ等へのクロック信号の入力が停止されること等で、省電力状態となる。このようにして、積和演算器ＭＡＣの並列処理数を１／ｑ、例えば１／２にすることで、理想的には、予測電力Ｐｐを１／ｑ、例えば１／２にすることができる。

【0079】

その結果、図１０Ｂに示されるように、制御サイクルＴｃ１Ａ，Ｔｃ１Ｂにおける予測電力Ｐｐは、目標電力Ｐｔの範囲内で、目標電力Ｐｔに近い大きさとなる。なお、図示は省略されるが、その次の制御サイクルＴｃでは、図８におけるステップＳ１０６の処理が行われる。すなわち、４個の積和演算器ＭＡＣ１～ＭＡＣ４を用いて、図１０Ａに示した制御サイクルＴｃ２での処理が行われる。

【0080】

＜変形例［１］について＞
図７、図１０Ａおよび図１０Ｂに示した例では、１個の入力データセットＤＳｉ毎にトグル数を計測し、これに基づいて、１回の制御サイクルＴｃ毎に消費電力を予測し、１回の制御サイクルＴｃ毎に並列処理数を制御した。ただし、トグル数の計測する際の入力データセット数の単位や、消費電力の予測および並列処理数の制御を行う際の制御サイクル数の単位は、適宜変更することが可能である。

【0081】

例えば、図１０Ａにおいて、４個の入力データセットＤＳｉ［１］～ＤＳｉ［４］を計測単位として１個のトグル数を計測しておき、当該１個のトグル数に基づいて、消費電力の予測および並列処理数の制御を行ってもよい。この際には、例えば、図２Ａでの４個の入力データセットＤＳｉ［１］～ＤＳｉ［４］に含まれる１０個の入力データＤｉ［１］～Ｄｉ［１０］を対象として、単純に、図５に示したようなカウント動作を行うことで、１個のトリガ数を計測してもよい。

【0082】

同様に、図１０Ａにおいて、８個の入力データセットＤＳｉ［１］～ＤＳｉ［８］を計測単位として１個のトグル数を計測しておき、当該１個のトグル数に基づいて、２回の制御サイクルＴｃ１，Ｔｃ２を単位として、消費電力の予測および並列処理数の制御を行ってもよい。さらには、１個のカメラ画像を構成する全ての入力データセットＤＳｉを計測単位として、１個のトグル数を計測してもよい。この場合、当該１個のトグル数に基づいて、１個のカメラ画像を入力とする１層分の畳み込み層の処理に必要な全ての制御サイクルＴｃを単位として、消費電力の予測および並列処理数の制御が行われる。すなわち、並列処理数の制御は、畳み込み層の層毎に行われる。

【0083】

通常は、トグル数の計測単位となる入力データセットＤＳｉの数や、並列処理数の制御単位となる制御サイクルＴｃの数が小さくなるほど、きめ細かい制御が可能となり、許容可能な消費電力の範囲内で、ニューラルネットワークの処理効率を高めることが可能になる。ただし、その反面、シーケンスコントローラ２１による制御動作が複雑化し、シーケンスコントローラ２１における回路面積の増大や、処理時間の増大等を招くおそれがある。

【0084】

一方、トグル数の計測単位や並列処理数の制御単位が大きくなると、ニューラルネットワークの処理効率をある程度までしか高められないおそれがあるものの、シーケンスコントローラ２１による制御動作を簡略化でき、さらに、並列処理数を最適化し易くなる場合もある。例えば、図１０Ａにおいて、４個の積和演算器ＭＡＣ１～ＭＡＣ４を用いて、３回の制御サイクルＴｃで１２個の入力データセットＤＳｉ［１］～ＤＳｉ［１２］を処理する場合、この処理を、３個の積和演算器ＭＡＣ１～ＭＡＣ３を用いた４回の制御サイクルＴｃでの処理に変更すること等が可能になる。トグル数の計測単位や並列処理数の制御単位は、これらを考慮して適切に定められればよい。

【0085】

＜変形例［２］について＞
これまでに説明した構成例および動作例では、シーケンスコントローラ２１が、変更前の入力コマンドに基づいて動作が行われた場合の消費電力を計測結果テーブル２６に基づいて予測し、予測電力Ｐｐ＞目標電力Ｐｔの場合に並列処理数を減らす決定を行った。そして、シーケンスコントローラ２１は、削減後の並列処理数に基づいてＤＭＡコントローラＤＭＡＣ２および積和演算器ＭＡＣを制御した。ただし、消費電力の予測や、並列処理数を減らす決定は、シーケンスコントローラ２１の代わりに、プロセッサ１７が行ってもよい。

【0086】

特に、変形例［１］で述べたように、並列処理数の制御単位を畳み込み層の層毎とするような場合、プロセッサ１７は、例えば、メモリＭＥＭ１等に書き込まれた計測結果テーブル２６を参照することで、変更前の入力コマンドに基づいて畳み込み層の処理が行われた場合の消費電力を予測してもよい。プロセッサ１７は、予測電力Ｐｐ＞目標電力Ｐｔの場合、予測電力Ｐｐが目標電力Ｐｔの範囲内で目標電力Ｐｔに近くなるように並列処理数を減らす。そして、プロセッサ１７は、削減後の並列処理数を反映させた変更後の入力コマンドＣＭＤ２を、シーケンスコントローラ２１に出力すればよい。

【0087】

シーケンスコントローラ２１は、当該プロセッサ１７からの変更後の入力コマンドＣＭＤ２に基づいて、ｎ個の積和演算器ＭＡＣによる並列処理数を制御する。すなわち、シーケンスコントローラ２１は、変更後の入力コマンドＣＭＤ２で指示された並列処理数で動作するように、ＤＭＡコントローラＤＭＡＣ２および積和演算器ＭＡＣを制御する。なお、この場合、プロセッサ１７は、例えば、入力コマンドＣＭＤ２の出力によって畳み込み層での処理をニューラルネットワークエンジン１５に依頼し、これに伴うニューラルネットワークエンジン１５での処理と並行して別の処理を行うことができる。

【0088】

＜実施の形態１の主要な効果＞
以上、実施の形態１の方式では、複数の入力データＤｉ間での論理レベルの一致／不一致の度合いを計測する計測回路２２が設けられ、当該計測回路２２による計測結果に基づいて、消費電力が予測される。そして、予測電力Ｐｐが目標電力Ｐｔを超えない範囲で目標電力Ｐｔに近くなるように、積和演算器ＭＡＣによる並列処理数が制御される。これにより、許容可能な消費電力の範囲内で、ニューラルネットワークの処理効率を高める、例えば処理時間を短縮することが可能になる。また、例えば、車両システム等において、カメラ画像毎に、その画像内容や画質等に応じて処理を効率化することが可能になる。

【0089】

（実施の形態２）
＜半導体装置の概略＞
図１１は、実施の形態２による半導体装置において、主要部の構成例を示す概略図である。図１２は、図１１におけるシーケンスコントローラの動作例を説明する図であり、トグル数と電力との相関関係の一例を示す図である。図１１に示される半導体装置１０ａは、図１の場合と同様の構成を備える。ただし、図１１では、説明の簡素化のため、図１における一部の構成が抽出して示される。ここでは、図１との違いについて説明する。

【0090】

図１１に示される半導体装置１０ａは、図１に示した各種構成に加えて、さらに、電流センサ３６と、電力検出器２３とを備える。電流センサ３６は、半導体装置１０ａ、この例ではニューラルネットワークエンジン１５の電源ライン３５に挿入され、半導体装置１０ａ、この例ではニューラルネットワークエンジン１５の消費電流Ｉｄｄを検出する。電力検出器２３は、例えば、ニューラルネットワークエンジン１５内に搭載され、電流センサ３６で検出された消費電流Ｉｄｄと、電源電圧Ｖｄｄとに基づいて、半導体装置１０ａ、この例ではニューラルネットワークエンジン１５の消費電力Ｐａを検出する。

【0091】

シーケンスコントローラ２１ａは、電力検出器２３で検出された実際の消費電力Ｐａに基づいて、図１２に示されるように、図８で述べた複数の入力データＤｉ間での論理レベルの不一致の度合い、すなわちトグル数と、予測電力Ｐｐとの相関関係を補正する。そして、シーケンスコントローラ２１ａは、補正された予測電力Ｐｐに基づいて、図９におけるステップＳ１０２の処理等を実行する。

【0092】

＜実施の形態２の主要な効果＞
以上、実施の形態２の方式を用いることでも、実施の形態１で述べた各種効果と同様の効果が得られる。さらに、電力検出器２３を設け、その検出結果に基づいて予測電力Ｐｐを補正することで、トリガ数に基づく消費電力の予測精度を向上させることが可能になる。すなわち、半導体装置１０ａの使用環境、例えば温度等や、製造プロセスのばらつき等に応じて、トリガ数と実際の消費電力との相関関係は、適宜変動し得る。実施の形態２の方式を用いると、このような変動要素を反映して消費電力を予測することが可能になる。

【0093】

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

【符号の説明】

【0094】

１０，１０ａ半導体装置
１５ニューラルネットワークエンジン
１６システムバス
１７プロセッサ
１８メモリバス
２０ＭＡＣユニット
２１，２１ａシーケンスコントローラ
２２計測回路
２３電力検出器
２６計測結果テーブル
３０トグル数カウンタ
ＣＭＤ１，ＣＭＤ２入力コマンド
ＣＮカウント値
ＣＮｓ積算カウント値
ＤＭＡＣ１，ＤＭＡＣ２ＤＭＡコントローラ
ＤＳｉ入力データセット
Ｄｉ入力データ
ＭＡＣ積和演算器
ＭＥＭ１，ＭＥＭ２メモリ
Ｐｐ予測電力
Ｐｔ目標電力
Ｗ１～Ｗ１重みパラメータ
ＷＳ重みパラメータセット

【図1】