特開2024-23030 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ルネサスエレクトロニクス株式会社の特許一覧

特開2024-23030半導体装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6
7A
7B
8A
8B
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024023030

(43)【公開日】2024-02-21

(54)【発明の名称】半導体装置

(51)【国際特許分類】

G06N 3/063 20230101AFI20240214BHJP

G06F 12/04 20060101ALI20240214BHJP

G06F 12/00 20060101ALI20240214BHJP

G06F 17/16 20060101ALI20240214BHJP

【ＦＩ】

G06N3/063

G06F12/04 530

G06F12/00 580

G06F17/16 M

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022126565

(22)【出願日】2022-08-08

(71)【出願人】

【識別番号】302062931

【氏名又は名称】ルネサスエレクトロニクス株式会社

(74)【代理人】

【識別番号】110002066

【氏名又は名称】弁理士法人筒井国際特許事務所

(72)【発明者】

【氏名】寺島和昭

(72)【発明者】

【氏名】永吉功

(72)【発明者】

【氏名】中村淳

【テーマコード（参考）】

5B056

5B160

【Ｆターム（参考）】

5B056AA04

5B056BB71

5B056DD14

5B056HH03

5B160AB09

5B160AC13

5B160DA08

(57)【要約】

【課題】ニューラルネットワークの処理時間を短縮可能な半導体装置を提供する。
【解決手段】メモリＭＥＭ１は、圧縮された重みパラメータＷＰを記憶する。複数の積和演算器ＭＡＣ１～ＭＡＣｎは、複数の画素データＤｉと、複数の重みパラメータＷとを積和演算する。解凍器２２は、メモリＭＥＭ１に記憶された圧縮された重みパラメータＷＰを、複数の重みパラメータＷに復元する。重みパラメータ用メモリＷＲＡＭは、解凍器２２によって復元された複数の重みパラメータＷを記憶する。ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から解凍器２２を介して重みパラメータ用メモリＷＲＡＭに、複数の重みパラメータＷを転送する。シーケンスコントローラ２１は、重みパラメータ用メモリＷＲＡＭに記憶された複数の重みパラメータＷを、書き込みタイミングで重みパラメータバッファＷＢＦに書き込む。
【選択図】図１

【特許請求の範囲】

【請求項1】

ニューラルネットワークの処理を実行する半導体装置であって、
圧縮された重みパラメータを記憶する第１のメモリと、
複数の画素データを記憶する第２のメモリと、
前記複数の画素データと、複数の重みパラメータとを積和演算する複数の積和演算器と、
前記複数の重みパラメータを、前記複数の積和演算器に出力する重みパラメータバッファと、
前記複数の画素データを、前記複数の積和演算器に出力するデータ入力バッファと、
前記第１のメモリに記憶された前記圧縮された重みパラメータを、前記複数の重みパラメータに復元する解凍器と、
前記解凍器と、前記重みパラメータバッファとの間に設けられ、前記解凍器によって復元された前記複数の重みパラメータを記憶する第３のメモリと、
前記第１のメモリから前記圧縮された重みパラメータを読み出し、前記解凍器を介して前記第３のメモリに、前記複数の重みパラメータを転送する第１のＤＭＡコントローラと、
前記第２のメモリから前記データ入力バッファに前記複数の画素データを転送する第２のＤＭＡコントローラと、
前記第３のメモリに記憶された前記複数の重みパラメータを、書き込みタイミングで前記重みパラメータバッファに書き込むシーケンスコントローラと、
を備える、
半導体装置。

【請求項2】

請求項１記載の半導体装置において、
前記第１のメモリは、ＤＲＡＭであり、
前記第３のメモリは、ＳＲＡＭである、
半導体装置。

【請求項3】

請求項１記載の半導体装置において、
前記書き込みタイミングは、前記データ入力バッファへの前記複数の画素データの転送が完了するタイミングと同期するタイミングである、
半導体装置。

【請求項4】

請求項２記載の半導体装置において、
前記第１のメモリは、ニューラルネットワークの畳み込み層の処理で用いられる複数チャネルの前記圧縮された重みパラメータを記憶し、
前記第１のＤＭＡコントローラは、前記第１のメモリから前記複数チャネルの中の一部のチャネルの前記圧縮された重みパラメータを、前記解凍器を介して前記第３のメモリに転送する、
半導体装置。

【請求項5】

請求項４記載の半導体装置において、
前記第３のメモリは、複数設けられ、
前記複数の第３のメモリのいずれか一つと他のいずれか一つは、互いに異なるチャネルに含まれる前記複数の重みパラメータを記憶する、
半導体装置。

【請求項6】

請求項１記載の半導体装置において、
さらに、前記解凍器と、前記第３のメモリとの間に設けられるゼロ処理回路を備え、
前記シーケンスコントローラは、前記第１のＤＭＡコントローラによる前記複数の重みパラメータの転送が開始される前に、前記第３のメモリの全ての記憶情報をゼロにリセットし、
前記ゼロ処理回路は、前記第３のメモリに転送中の前記複数の重みパラメータの中から非ゼロの重みパラメータを検出し、検出した前記非ゼロの重みパラメータＷのみを前記第３のメモリに転送する、
半導体装置。

【請求項7】

一つの半導体チップで構成される半導体装置であって、
ニューラルネットワークの処理を実行するニューラルネットワークエンジンと、
圧縮された重みパラメータを記憶する第１のメモリと、
複数の画素データを記憶する第２のメモリと、
プロセッサと、
前記ニューラルネットワークエンジン、前記第１のメモリ、前記第２のメモリおよび前記プロセッサを互いに接続するバスと、
を有し、
前記ニューラルネットワークエンジンは、
前記複数の画素データと、複数の重みパラメータとを積和演算する複数の積和演算器と、
前記複数の重みパラメータを、前記複数の積和演算器に出力する重みパラメータバッファと、
前記複数の画素データを、前記複数の積和演算器に出力するデータ入力バッファと、
前記第１のメモリに記憶された前記圧縮された重みパラメータを、前記複数の重みパラメータに復元する解凍器と、
前記解凍器と、前記重みパラメータバッファとの間に設けられ、前記解凍器によって復元された前記複数の重みパラメータを記憶している第３のメモリと、
前記第１のメモリから前記圧縮された重みパラメータを読み出し、前記解凍器を介して前記第３のメモリに、前記複数の重みパラメータを転送する第１のＤＭＡコントローラと、
前記第２のメモリから前記データ入力バッファに前記複数の画素データを転送する第２のＤＭＡコントローラと、
前記第３のメモリに記憶された前記複数の重みパラメータを、書き込みタイミングで前記重みパラメータバッファに書き込むシーケンスコントローラと、
を備える、
半導体装置。

【請求項8】

請求項７記載の半導体装置において、
前記第１のメモリは、ＤＲＡＭであり、
前記第３のメモリは、ＳＲＡＭである、
半導体装置。

【請求項9】

請求項７記載の半導体装置において、
前記書き込みタイミングは、前記データ入力バッファへの前記複数の画素データの転送が完了するタイミングと同期するタイミングである、
半導体装置。

【請求項10】

請求項８記載の半導体装置において、
前記第１のメモリは、ニューラルネットワークの畳み込み層の処理で用いられる複数チャネルの前記圧縮された重みパラメータを記憶し、
前記第１のＤＭＡコントローラは、前記第１のメモリから前記複数チャネルの中の一部のチャネルの前記圧縮された重みパラメータを、前記解凍器を介して前記第３のメモリに転送する、
半導体装置。

【請求項11】

請求項１０記載の半導体装置において、
前記第３のメモリは、複数設けられ、
前記複数の第３のメモリのいずれか一つと他のいずれか一つは、互いに異なるチャネルに含まれる前記複数の重みパラメータを記憶する、
半導体装置。

【請求項12】

請求項７記載の半導体装置において、
前記ニューラルネットワークエンジンは、さらに、前記解凍器と、前記第３のメモリとの間に設けられるゼロ処理回路を備え、
前記シーケンスコントローラは、前記第１のＤＭＡコントローラによる前記複数の重みパラメータの転送が開始される前に、前記第３のメモリの全ての記憶情報をゼロにリセットし、
前記ゼロ処理回路は、前記第３のメモリに転送中の前記複数の重みパラメータの中から非ゼロの重みパラメータを検出し、検出した前記非ゼロの重みパラメータＷのみを前記第３のメモリに転送する、
半導体装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、半導体装置に関し、例えば、ニューラルネットワークの処理を実行する半導体装置に関する。

【背景技術】

【0002】

特許文献１には、複数チャネルの入力係数テーブルを統合した１個の統合係数テーブルを生成し、当該統合係数テーブルに含まれる各係数と入力画像の各画素値とをそれぞれ乗算し、各乗算結果を、チャネル番号毎に分けて累積加算する半導体装置が示される。また、統合係数テーブルとして、複数チャネルにおける同一の行列箇所の係数の中から最大の係数を抽出したものや、複数チャネル分の各係数を収容できるように行列サイズを拡張したものが示される。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－４０４０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、ＣＮＮ（Convolutional Neural Network）等のニューラルネットワークの処理では、半導体装置に搭載される複数の積和演算器（ＭＡＣ（Multiply ACcumulate）回路と呼ぶ）等を用いて膨大な演算処理が実行される。具体的には、ＭＡＣ回路は、主に、画像データに含まれる複数の画素データとフィルタに含まれる複数の重みパラメータとの積和演算を実行する。

【0005】

画素データおよび重みパラメータは、例えば、メモリに記憶され、ＤＭＡ（Direct Memory Access）コントローラを介してＭＡＣ回路に転送される。この際に、重みパラメータは、必要なメモリ容量を削減するため、圧縮された状態でメモリに記憶され、解凍器を介してＭＡＣ回路に転送される場合がある。しかしながら、フィルタのチャネル数、ひいては重みパラメータのデータ量が多い場合や、または、重みパラメータの圧縮率が低い場合には、メモリからＭＡＣ回路への重みパラメータの転送に時間を要する。その結果、重みパラメータの転送時間に制限されて、ニューラルネットワークの処理時間が増大するおそれがあった。

【0006】

後述する実施の形態は、このようなことに鑑みてなされたものであり、その他の課題と新規な特徴は、本明細書の記載および添付図面から明らかになるであろう。

【課題を解決するための手段】

【0007】

一実施の形態の半導体装置は、ニューラルネットワークの処理を実行するものであり、第１のメモリと、第２のメモリと、複数の積和演算器と、重みパラメータバッファと、データ入力バッファと、解凍器と、第３のメモリと、第１のＤＭＡコントローラと、第２のＤＭＡコントローラと、シーケンスコントローラと、を備える。第１のメモリは、圧縮された重みパラメータを記憶する。第２のメモリは、複数の画素データを記憶する。複数の積和演算器は、複数の画素データと、複数の重みパラメータとを積和演算する。重みパラメータバッファは、複数の重みパラメータを、複数の積和演算器に出力する。データ入力バッファは、複数の画素データを、複数の積和演算器に出力する。解凍器は、第１のメモリに記憶された圧縮された重みパラメータを、複数の重みパラメータに復元する。第３のメモリは、解凍器と、重みパラメータバッファとの間に設けられ、解凍器によって復元された複数の重みパラメータを記憶する。第１のＤＭＡコントローラは、第１のメモリから圧縮された重みパラメータを読み出し、解凍器を介して第３のメモリに、複数の重みパラメータを転送する。第２のＤＭＡコントローラは、第２のメモリからデータ入力バッファに複数の画素データを転送する。シーケンスコントローラは、第３のメモリに記憶された複数の重みパラメータを、書き込みタイミングで重みパラメータバッファに書き込む。

【発明の効果】

【0008】

一実施の形態の半導体装置を用いることで、ニューラルネットワークの処理時間を短縮することが可能になる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。

【図2】図２は、図１に示したニューラルネットワークエンジンによって処理されるニューラルネットワークの構成例を示す概略図である。

【図3A】図３Ａは、図１におけるＭＡＣユニットの主要部の概略的な動作例を示す模式図である。

【図3B】図３Ｂは、図３Ａに続く動作例を示す模式図である。

【図4】図４は、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。

【図5】図５は、図４における解凍器の処理内容の一例を説明する図である。

【図6】図６は、図５における処理内容の具体例を示す図である。

【図7A】図７Ａは、図４におけるニューラルネットワークエンジンの概略的な動作例を示すタイミングチャートである。

【図7B】図７Ｂは、図７Ａの動作例を説明するための補足図である。

【図8A】図８Ａは、図７Ａとは異なる動作例を示すタイミングチャートである。

【図8B】図８Ｂは、図８Ａの動作例を説明する補足図である。

【図9】図９は、実施の形態２による半導体装置において、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。

【図10】図１０は、実施の形態３による半導体装置において、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。

【図11】図１１は、比較例となるニューラルネットワークエンジンの概略的な動作例を示すタイミングチャートである。

【発明を実施するための形態】

【0010】

以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

【0011】

以下、実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。

【0012】

（実施の形態１）
＜半導体装置の概略＞
図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図１に示す半導体装置１０は、例えば、一つの半導体チップで構成されるＳｏＣ（System on Chip）等である。当該半導体装置１０は、代表的には、車両のＥＣＵ（Electronic Control Unit）等に搭載され、ＡＤＡＳ（Advanced Driver Assistance System）の機能を提供する。

【0013】

図１に示す半導体装置１０は、ニューラルネットワークエンジン（ＮＮＥ）１５と、ＣＰＵ（Central Processing Unit）等のプロセッサ１７と、メモリＭＥＭ１，ＭＥＭ２と、システムバス１６とを有する。システムバス１６は、ニューラルネットワークエンジン１５、メモリＭＥＭ１，ＭＥＭ２およびプロセッサ１７を互いに接続する。ニューラルネットワークエンジン１５は、ＣＮＮを代表とするニューラルネットワークの処理を実行する。プロセッサ１７は、メモリＭＥＭ１に記憶される所定のプログラムを実行することで、ニューラルネットワークエンジン１５の制御を含めて、半導体装置１０に所定の機能を担わせる。

【0014】

メモリ（第１のメモリ）ＭＥＭ１は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）である。メモリＭＥＭ１は、複数の画素データからなる画像データＤＴと、パラメータＰＲおよびパラメータＰＲに付加されるヘッダＨＤと、を記憶する。パラメータＰＲには、重みパラメータＷＰと、バイアスパラメータＢＰとが含まれる。ヘッダＨＤには、後述するパラメータ用のスイッチ回路ＳＷＰの設定情報等を含めて、ニューラルネットワークエンジン１５のシーケンス動作を制御するための各種情報が含まれる。

【0015】

ニューラルネットワークエンジン１５は、複数のＤＭＡコントローラＤＭＡＣ１，ＤＭＡＣ２と、ＭＡＣユニット２０と、シーケンスコントローラ２１と、解凍器２２と、重みパラメータ用メモリＷＲＡＭと、レジスタＲＥＧと、データ用のスイッチ回路ＳＷＤと、パラメータ用のスイッチ回路ＳＷＰと、各種バッファとを備える。各種バッファには、重みパラメータバッファＷＢＦと、データ入力バッファＩＢＦと、データ出力バッファＯＢＦとが含まれる。各種バッファは、詳細には、例えば、フリップフロップ等のラッチ回路で構成されるレジスタであってよい。

【0016】

ＭＡＣユニット２０は、ｎを２以上の整数として、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎを備える。ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎのそれぞれは、例えば、複数の乗算器と、複数の乗算器からの乗算結果を加算する１個の加算器とを備え、これによって積和演算を実行する。明細書では、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎを総称して、ＭＡＣ回路ＭＡＣと呼ぶ。重みパラメータバッファＷＢＦは、例えば、記憶された重みパラメータＷを、ＭＡＣユニット２０内のｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎに出力する。

【0017】

ＤＭＡコントローラ（第１のＤＭＡコントローラ）ＤＭＡＣ１は、メモリＭＥＭ１から重みパラメータ用メモリＷＲＡＭに、システムバス１６を介して複数の重みパラメータＷを転送する。より詳細には、メモリＭＥＭ１は、例えば、圧縮された重みパラメータＷＰを記憶する。ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から、ヘッダＨＤと、圧縮された重みパラメータＷＰとを読み出す。そして、ＤＭＡコントローラＤＭＡＣ１は、ヘッダＨＤをレジスタＲＥＧに転送し、圧縮された重みパラメータＷＰを、解凍器２２を介して重みパラメータ用メモリＷＲＡＭに転送する。この際に、解凍器２２は、圧縮された重みパラメータＷＰを、複数の重みパラメータＷに復元する。

【0018】

重みパラメータ用メモリ（第３のメモリ）ＷＲＡＭは、例えば、ＳＲＡＭ（Static Random Access Memory）であり、詳細には、複数のＳＲＡＭで構成される。重みパラメータ用メモリＷＲＡＭは、解凍器２２によって復元された複数の重みパラメータＷを記憶する。パラメータ用のスイッチ回路ＳＷＰは、例えば、クロスバースイッチ等で構成される。当該スイッチ回路ＳＷＰは、設定に基づいて、１対１接続、１対Ｎ接続、Ｎ対１接続等を行うことで、重みパラメータ用メモリＷＲＡＭから読み出された複数の重みパラメータＷを、重みパラメータバッファＷＢＦに含まれる各記憶領域に出力する。なお、ヘッダＨＤは、例えば、当該スイッチ回路ＳＷＰの設定情報等を含む。

【0019】

メモリ（第２のメモリ）ＭＥＭ２は、例えば、ＳＲＡＭであり、ニューラルネットワークエンジン１５の高速キャッシュメモリとして用いられる。例えば、メモリＭＥＭ１内の画像データＤＴ、言い換えれば画素データは、予めメモリＭＥＭ２にコピーされたのち、ニューラルネットワークエンジン１５で用いられる。データ入力バッファＩＢＦは、記憶された複数の画素データＤｉを、ＭＡＣユニット２０内のｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎに出力する。ＤＭＡコントローラ（第２のＤＭＡコントローラ）ＤＭＡＣ２は、メモリＭＥＭ２からデータ入力バッファＩＢＦに複数の画素データＤｉを転送する。

【0020】

これにより、ＭＡＣユニット２０内の各ＭＡＣ回路ＭＡＣは、重みパラメータバッファＷＢＦからの複数の重みパラメータＷと、データ入力バッファＩＢＦからの複数の画素データＤｉとの積和演算、すなわち畳み込み層の処理を実行する。また、詳細は省略するが、ＭＡＣユニット２０は、積和演算結果に対してバイアスパラメータＢＰの値の加算や、活性化関数の演算や、プーリング層の処理等といったＣＮＮで必要とされる各種処理を行ってもよい。ＭＡＣユニット２０は、このようなＣＮＮ処理によって得られた画素データＤｏをデータ出力バッファＯＢＦに書き込む。

【0021】

また、ＤＭＡコントローラＤＭＡＣ２は、データ出力バッファＯＢＦからメモリＭＥＭ２に画素データＤｏを転送する。メモリＭＥＭ２に転送された画素データＤｏ、言い換えれば出力画素データＤｏは、次段の畳み込み層に入力する画素データＤｉ、言い換えれば入力画素データＤｉとして用いられる。より詳細には、ＤＭＡコントローラＤＭＡＣ２と、データ入力バッファＩＢＦまたはデータ出力バッファＯＢＦとの間の画素データの転送は、データ用のスイッチ回路ＳＷＤを介して行われる。スイッチ回路ＳＷＤは、例えば、クロスバースイッチ等で構成され、設定に基づいて、１対１接続、１対Ｎ接続、Ｎ対１接続等を行う。

【0022】

シーケンスコントローラ２１は、ニューラルネットワークエンジン（ＮＮＥ）１５全体の動作シーケンスを制御する。その一つとして、シーケンスコントローラ２１は、レジスタＲＥＧに記憶されるヘッダＨＤの情報に基づいて、パラメータ用のスイッチ回路ＳＷＰの接続設定を行う。また、シーケンスコントローラ２１は、例えば、プロセッサ１７からの図示しない設定情報や、メモリＭＥＭ１に記憶された図示しないコマンドデータ等に基づいて、ＤＭＡコントローラＤＭＡＣ２の転送設定、データ用のスイッチ回路ＳＷＤの接続設定を行う。

【0023】

ＤＭＡコントローラＤＭＡＣ２の転送設定では、メモリＭＥＭ２から画素データＤｉを転送する際のアドレス範囲や、メモリＭＥＭ２に画素データＤｏを転送する際のアドレス範囲等が定められる。データ用のスイッチ回路ＳＷＤの接続設定では、メモリＭＥＭ２の読み出しアドレスと、データ入力バッファＩＢＦに含まれる各記憶領域との詳細な対応関係や、データ出力バッファＯＢＦに含まれる各記憶領域と、メモリＭＥＭ２の書き込みアドレスとの詳細な対応関係等が定められる。

【0024】

さらに、シーケンスコントローラ２１は、重みパラメータ用メモリＷＲＡＭのアクセス制御を行う。なお、ここでは、シーケンスコントローラ２１が設けられたが、シーケンスコントローラ２１の代わりにプロセッサ１７が、ニューラルネットワークエンジン（ＮＮＥ）１５全体の動作シーケンスを制御してもよい。

【0025】

＜ニューラルネットワークの概略＞
図２は、図１に示したニューラルネットワークエンジンによって処理されるニューラルネットワークの構成例を示す概略図である。図２に示すニューラルネットワークは、Ｌを２以上の整数として、縦続接続されるＬ層の畳み込み層２５＃１，２５＃２，…，２５＃Ｌを備える。畳み込み層２５＃１は、メモリＭＥＭ２に記憶された１層目の入力画素データＤｉ＃１と、メモリＭＥＭ１に記憶され、解凍器２２によって復元された１層目のフィルタＦＬＴ＃１内の重みパラメータＷとの畳み込み演算を行う。そして、畳み込み層２５＃１は、当該畳み込み演算結果を、１層目の出力画素データＤｏ＃１として、メモリＭＥＭ２に書き込む。

【0026】

畳み込み層２５＃２は、メモリＭＥＭ２に記憶された１層目の出力画素データＤｏ＃１を２層目の入力画素データＤｉ＃２として、当該２層目の入力画素データＤｉ＃２と、メモリＭＥＭ１に記憶され、解凍器２２によって復元された２層目のフィルタＦＬＴ＃２内の重みパラメータＷとの畳み込み演算を行う。そして、畳み込み層２５＃２は、当該畳み込み演算結果を、２層目の出力画素データＤｏ＃２として、メモリＭＥＭ２に書き込む。

【0027】

以降同様にして、畳み込み層２５＃Ｌは、メモリＭＥＭ２に記憶されたＬ－１層目の出力画素データＤｏ＃Ｌ－１をＬ層目の入力画素データＤｉ＃Ｌとして、当該Ｌ層目の入力画素データＤｉ＃Ｌと、メモリＭＥＭ１に記憶され、解凍器２２によって復元されたＬ層目のフィルタＦＬＴ＃Ｌ内の重みパラメータＷとの畳み込み演算を行う。そして、畳み込み層２５＃Ｌは、当該畳み込み演算結果を、Ｌ層目の出力画素データＤｏ＃Ｌとして、メモリＭＥＭ２またはメモリＭＥＭ１に書き込む。

【0028】

なお、より詳細には、例えば、畳み込み層２５＃１は、畳み込み演算結果に対して、メモリＭＥＭ１に記憶されたバイアスパラメータＢＰの値を加算したり、活性化関数の演算を行うことで、出力画素データＤｏ＃１を生成する。当該バイアスパラメータＢＰの値の加算や活性化関数の演算は、他の畳み込み層２５＃２，…，２５＃Ｌでも同様に行われる。また、連続する畳み込み層の間には、適宜、プーリング層が設けられる場合がある。明細書では、説明の簡素化のため、当該バイアスパラメータＢＰの値の加算、活性化関数の演算、プーリング層の処理を省略して説明する。また、明細書では、各フィルタを総称してフィルタＦＬＴと呼ぶ。

【0029】

図３Ａは、図１におけるＭＡＣユニットの主要部の概略的な動作例を示す模式図である。図３Ｂは、図３Ａに続く動作例を示す模式図である。図３Ａおよび図３Ｂには、Ｋを１からＬのいずれか一つの整数として、図２に示した一つの畳み込み層２５＃Ｋで実行される処理内容の一部が示される。図３Ａには、ある制御サイクルＴｃ１での処理内容が示され、図３Ｂには、それに続く制御サイクルＴｃ２での処理内容が示される。

【0030】

図３Ａにおいて、畳み込み層２５＃Ｋに入力されるフィルタＦＬＴ＃Ｋは、複数の出力チャネルＣＨｏのフィルタで構成される。図３Ａの例では、フィルタＦＬＴ＃Ｋは、複数の出力チャネルＣＨｏの一部であるｎ個の出力チャネルＣＨｏ［１］，ＣＨｏ［２］，…，ＣＨｏ［ｎ］のフィルタＦＬＴ［１］，ＦＬＴ［２］，…，ＦＬＴ［ｎ］を含んでいる。

【0031】

フィルタＦＬＴ［１］，ＦＬＴ［２］，…，ＦＬＴ［ｎ］のそれぞれは、ＣＨｉを入力チャネルとして、Ｘ×Ｙ×ＣＨｉのフィルタサイズ、この例では２×２×ＣＨｉのフィルタサイズを有する。すなわち、フィルタＦＬＴ［１］，ＦＬＴ［２］，…，ＦＬＴ［ｎ］のそれぞれは、４個の重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４を含む２×２×ＣＨｉ個の重みパラメータＷで構成される。ただし、４個の重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４の値は、フィルタＦＬＴ［１］，ＦＬＴ［２］，…，ＦＬＴ［ｎ］毎に異なり得る。

【0032】

一方、畳み込み層２５＃Ｋに入力される入力画素データＤｉ＃Ｋは、複数の入力チャネルＣＨｉの画素データで構成される。当該入力画素データＤｉ＃Ｋにおいて、畳み込み処理に伴う１番目の画素空間２６－１は、前述したフィルタサイズに基づいて、画素データＤｉ１，Ｄｉ２，Ｄｉ３，Ｄｉ４を含む２×２×ＣＨｉ個の画素データで構成される。

【0033】

ＭＡＣ回路ＭＡＣ１は、畳み込み処理に伴う１番目の画素空間２６－１に含まれる各画素データＤｉ１，Ｄｉ２，Ｄｉ３，Ｄｉ４，…と、出力チャネルＣＨｏ［１］のフィルタＦＬＴ［１］に含まれる各重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４，…とを積和演算する。これにより、ＭＡＣ回路ＭＡＣ１は、出力チャネルＣＨｏ［１］の出力画素データＤｏ［１］＃Ｋにおける１番目の画素の画素データＤｏ１を生成する。

【0034】

ＭＡＣ回路ＭＡＣ２は、ＭＡＣ回路ＭＡＣ１と並行して、１番目の画素空間２６－１に含まれる各画素データＤｉ１，Ｄｉ２，Ｄｉ３，Ｄｉ４，…と、出力チャネルＣＨｏ［２］のフィルタＦＬＴ［２］に含まれる各重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４，…とを積和演算する。これにより、ＭＡＣ回路ＭＡＣ２は、出力チャネルＣＨｏ［２］の出力画素データＤｏ［２］＃Ｋにおける１番目の画素の画素データＤｏ１を生成する。

【0035】

同様に、ＭＡＣ回路ＭＡＣｎは、ＭＡＣ回路ＭＡＣ１と並行して、１番目の画素空間２６－１に含まれる各画素データＤｉ１，Ｄｉ２，Ｄｉ３，Ｄｉ４，…と、出力チャネルＣＨｏ［ｎ］のフィルタＦＬＴ［ｎ］に含まれる各重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４，…とを積和演算する。これにより、ＭＡＣ回路ＭＡＣｎは、出力チャネルＣＨｏ［ｎ］の出力画素データＤｏ［ｎ］＃Ｋにおける１番目の画素の画素データＤｏ１を生成する。なお、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎのそれぞれは、例えば、Ｘ×Ｙ×ＣＨｉ個の乗算器ＭＵＬと、これらの乗算器ＭＵＬからの乗算結果を加算する１個の加算器ＡＤＤとを備える。

【0036】

図３Ａに示したような制御サイクルＴｃ１での動作を終えると、図３Ｂに示されるような制御サイクルＴｃ２での動作が行われる。図３Ｂでは、図３Ａの場合とは、使用するフィルタが異なっている。すなわち、畳み込み層２５＃Ｋに入力されるフィルタＦＬＴ＃Ｋは、図３Ａに示したものに加えて、さらに、複数の出力チャネルＣＨｏの他の一部であるｎ個の出力チャネルＣＨｏ［ｎ＋１］，ＣＨｏ［ｎ＋２］，…，ＣＨｏ［２ｎ］のフィルタＦＬＴ［ｎ＋１］，ＦＬＴ［ｎ＋２］，…，ＦＬＴ［２ｎ］を含んでいる。

【0037】

ＭＡＣ回路ＭＡＣ１は、１番目の画素空間２６－１に含まれる各画素データＤｉ１，Ｄｉ２，Ｄｉ３，Ｄｉ４，…と、出力チャネルＣＨｏ［ｎ＋１］のフィルタＦＬＴ［ｎ＋１］に含まれる各重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４，…とを積和演算する。これにより、ＭＡＣ回路ＭＡＣ１は、出力チャネルＣＨｏ［ｎ＋１］の出力画素データＤｏ［ｎ＋１］＃Ｋにおける１番目の画素の画素データＤｏ１を生成する。

【0038】

同様に、ＭＡＣ回路ＭＡＣｎは、ＭＡＣ回路ＭＡＣ１と並行して、１番目の画素空間２６－１に含まれる各画素データＤｉ１，Ｄｉ２，Ｄｉ３，Ｄｉ４，…と、出力チャネルＣＨｏ［２ｎ］のフィルタＦＬＴ［２ｎ］に含まれる各重みパラメータＷ１，Ｗ２，Ｗ３，Ｗ４，…とを積和演算する。これにより、ＭＡＣ回路ＭＡＣｎは、出力チャネルＣＨｏ［２ｎ］の出力画素データＤｏ［２ｎ］＃Ｋにおける１番目の画素の画素データＤｏ１を生成する。

【0039】

以降同様にして、１番目の画素空間２６－１を対象に、最後の出力チャネルＣＨｏに達するまで、フィルタを変更しながら積和演算が行われる。そして、当該１番目の画素空間２６－１を対象とした積和演算を終えると、図３Ａおよび図３Ｂに示されるように、畳み込み処理に伴う２番目の画素空間２６－２を対象に、１番目の画素空間２６－１の場合と同様の処理が行われる。これにより、出力画素データＤｏ［１］＃Ｋ，…，Ｄｏ［２ｎ］＃Ｋ，…における２番目の画素の画素データＤｏ２が生成され、さらに同様にして、全ての画素の画素データが生成される。これによって生成された複数の出力チャネルＣＨｏの出力画素データＤｏは、次段の畳み込み層２５＃Ｋ＋１において、複数の入力チャネルＣＨｉの入力画素データＤｉとして用いられる。

【0040】

ここで、ニューラルネットワークの処理手順として、図３Ａおよび図３Ｂに示したような、先に出力チャネルＣＨｏ方向を並行処理する手順Ａの他に、先に画素空間のシフト方向を並行処理する手順Ｂや、手順Ａと手順Ｂとを組み合わせて出力チャネルＣＨｏ方向と画素空間のシフト方向とを並行処理する手順Ｃとが挙げられる。手順Ｂでは、図３Ａにおいて、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎは、フィルタＦＬＴ［１］の重みパラメータＷを共通に入力する。その一方で、ｎ個のＭＡＣ回路ＭＡＣ１，ＭＡＣ２，…，ＭＡＣｎは、それぞれ、１番目の画素空間２６－１、２番目の画素空間２６－２、…、ｎ番目の画素空間の画素データＤｉを入力する。

【0041】

手順Ａまたは手順Ｃ、特に手順Ａでは、手順Ｂと比較して、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎに入力される重みパラメータＷのデータ量が大きくなる。この重みパラメータＷのデータ量は、入力チャネルＣＨｉの数や出力チャネルＣＨｏの数が増大するほど、より大きくなる。図１に示したように、重みパラメータＷは、ＤＭＡコントローラＤＭＡＣ１を用いて、ＤＲＡＭ等のメモリＭＥＭ１からシステムバス１６および解凍器２２等を介して重みパラメータバッファＷＢＦに転送される。一方、画素データＤｉは、ＤＭＡコントローラＤＭＡＣ２を用いて、ＳＲＡＭ等のメモリＭＥＭ２からデータ入力バッファＩＢＦに転送される。

【0042】

このメモリＭＥＭ１，ＭＥＭ２の違いおよびデータ転送経路の違いにより、重みパラメータＷのデータ転送速度は、画素データＤｉのデータ転送速度よりも遅くなり得る。手順Ｂの場合には、重みパラメータＷのデータ量が小さいため、このデータ転送速度の違いは、特に問題とならない場合が多い。しかしながら、手順Ａまたは手順Ｃの場合、重みパラメータＷのデータ量が大きいため、データ転送速度の違いが問題となり得る。具体的には、重みパラメータＷの転送時間に制限されて、ニューラルネットワークの処理時間が増大するおそれがある。そこで、図１の構成例では、重みパラメータ用メモリＷＲＡＭが設けられる。

【0043】

＜ニューラルネットワークエンジンの詳細＞
図４は、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。図４において、ＭＡＣユニット２０は、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎを備える。ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎのそれぞれは、図３Ａで述べたように、Ｘ×Ｙ×ＣＨｉ個の乗算器ＭＵＬと、１個の加算器ＡＤＤとを備える。ただし、１個のＭＡＣ回路ＭＡＣに含まれる乗算器ＭＵＬの数は、フィルタサイズ“Ｘ×Ｙ×ＣＨｉ”に応じて変化する。このため、ＭＡＣユニット２０は、図示しない設定信号に基づいて、この１個のＭＡＣ回路ＭＡＣに含まれる乗算器ＭＵＬの数を可変設定可能となっている。

【0044】

データ入力バッファＩＢＦ、重みパラメータバッファＷＢＦおよびデータ出力バッファＯＢＦは、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎのそれぞれに対して設けられる。ｎ個のデータ入力バッファＩＢＦ、重みパラメータバッファＷＢＦおよびデータ出力バッファＯＢＦは、それぞれ、ｎ個のデータ入力レジスタ、重みパラメータレジスタおよびデータ出力レジスタであってよい。ＤＭＡコントローラＤＭＡＣ１は、図１に示したメモリＭＥＭ１から、解凍器２２を介して重みパラメータ用メモリＷＲＡＭに、重みパラメータＷを転送する。この際に、解凍器２２は、メモリＭＥＭ１に記憶され、ＤＭＡコントローラＤＭＡＣ１によって読み出された圧縮された重みパラメータＷＰを、複数の重みパラメータＷに復元する。

【0045】

重みパラメータ用メモリＷＲＡＭは、詳細には、例えばｎ個設けられる。ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎから読み出された重みパラメータＷは、パラメータ用のスイッチ回路ＳＷＰを介してｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎの重みパラメータバッファＷＢＦに書き込まれる。当該スイッチ回路ＳＷＰは、シーケンスコントローラ２１からの設定信号ＳＳｐに基づいて、重みパラメータ用メモリＷＲＡＭから読み出された複数の重みパラメータＷを、ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎのいずれに出力するかを定める。

【0046】

一方、図１に示した画素データ用のＤＭＡコントローラＤＭＡＣ２は、詳細には、図４に示されるように、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉと、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏとを有する。同様に、図１に示したデータ用のスイッチ回路ＳＷＤも、詳細には、図４に示されるように、データ入力用のスイッチ回路ＳＷＤｉと、データ出力用のスイッチ回路ＳＷＤｏとを有する。

【0047】

データ入力用のＤＭＡコントローラＤＭＡＣ２ｉは、ｍを２以上の整数として、ｍ個の転送チャネルＣＨ１～ＣＨｍを用いてデータ転送を制御する。当該ＤＭＡコントローラＤＭＡＣ２ｉは、シーケンスコントローラ２１からの設定信号ＳＤｉに基づいて、図１に示したメモリＭＥＭ２からｎ個のデータ入力バッファＩＢＦに、データ入力用のスイッチ回路ＳＷＤｉを介して画素データＤｉを転送する。この際に、スイッチ回路ＳＷＤｉは、シーケンスコントローラ２１からの設定信号ＳＳｄ１に基づいて、ｍ個の転送チャネルＣＨ１～ＣＨｍからの画素データＤｉを、ｎ個のデータ入力バッファＩＢＦのいずれに出力するかを定める。

【0048】

データ出力用のＤＭＡコントローラＤＭＡＣ２ｏも、ｍ個の転送チャネルＣＨ１～ＣＨｍを用いてデータ転送を制御する。当該ＤＭＡコントローラＤＭＡＣ２ｏは、シーケンスコントローラ２１からの設定信号ＳＤｏに基づいて、データ出力バッファＯＢＦからデータ出力用のスイッチ回路ＳＷＤｏを介して図１に示したＭＥＭ２に、画素データＤｏを転送する。この際に、スイッチ回路ＳＷＤｏは、例えば、シーケンスコントローラ２１からの設定信号ＳＳｄ１に基づいて、メモリＭＥＭ２に書き込む画素データＤｏの適切なマッピングを定める。

【0049】

シーケンスコントローラ２１は、各種設定信号ＳＤｉ，ＳＤｏ，ＳＳｄ１，ＳＳｄ２，ＳＳｐと、リード信号ＲＤとを出力する。設定信号ＳＤｉ，ＳＤｏは、例えば、プロセッサ１７からの図示しない設定情報や、メモリＭＥＭ１に記憶された図示しないコマンドデータに基づいて生成され、データ用のＤＭＡコントローラＤＭＡＣ２ｉ，ＤＭＡＣ２ｏにそれぞれ出力される。設定信号ＳＳｄ１，ＳＳｄ２も、同様にして生成され、データ用のスイッチ回路ＳＷＤｉ，ＳＷＤｏにそれぞれ出力される。設定信号ＳＳｐは、例えば、レジスタＲＥＧに保持されるヘッダＨＤの情報に基づいて生成され、パラメータ用のスイッチ回路ＳＷＰに出力される。

【0050】

一方、リード信号ＲＤは、重みパラメータ用メモリＷＲＡＭに出力される。重みパラメータ用メモリＷＲＡＭは、リード信号ＲＤに応じて読み出し動作を行う。これにより、シーケンスコントローラ２１は、重みパラメータ用メモリＷＲＡＭに記憶された複数の重みパラメータＷを、書き込みタイミングで重みパラメータバッファＷＢＦに書き込むことができる。当該書き込みタイミングは、例えば、データ入力バッファＩＢＦへの画素データＤｉの転送が完了するタイミングと同期するタイミングである。これに基づいて、リード信号ＲＤの出力タイミングも定められる。

【0051】

［解凍器の詳細］
図５は、図４における解凍器の処理内容の一例を説明する図である。図６は、図５における処理内容の具体例を示す図である。まず、図１で述べたように、メモリＭＥＭ１は、予め、図５に示されるような圧縮された重みパラメータＷＰを記憶する。そして、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、図５に示されるように、圧縮された重みパラメータＷＰと、それに付加されるヘッダＨＤとをメモリＭＥＭ１から読み出し、その中の圧縮された重みパラメータＷＰを解凍器２２に出力する。

【0052】

図４に示されるように、ヘッダＨＤは、レジスタＲＥＧを介してシーケンスコントローラ２１に出力される。ヘッダＨＤは、図５に示されるように、例えば、パラメータ用のスイッチ回路ＳＷＰで用いられる転送元識別子ＩＤ１および転送先識別子ＩＤ２等を含む。シーケンスコントローラ２１は、このヘッダＨＤの情報に基づいて、スイッチ回路ＳＷＰ内の接続関係を定める。

【0053】

図５において、圧縮された重みパラメータＷＰは、ｊを２以上の整数として、ｊビット、この例では２８ビットのマップデータＭＰＤと、ｉを２以上の整数として、ｉ個、この例では１１個の重みパラメータＷ１，Ｗ２，…，Ｗｉとのセットによって構成される。２８ビットのマップデータＭＰＤにおける各ビットは、重みパラメータがゼロであるか非ゼロであるかを表す。１１個の重みパラメータＷ１，Ｗ２，…，Ｗｉは、マップデータＭＰＤにおける非ゼロを表すビットに対して順に割り当てられる。その結果、解凍器２２は、１１個の重みパラメータＷＰ１，ＷＰ２，…，ＷＰｉを含んだ圧縮された重みパラメータＷＰから、最小で１１個、最大で２８個の重みパラメータＷ１，Ｗ２，…，Ｗｘを復元する。

【0054】

具体例として、図６の例では、２８ビットのマップデータＭＰＤは、“０００１１０００…”を含んでおり、１１個の重みパラメータＷは、順に、Ｗ１，Ｗ２，Ｗ３，Ｗ４，Ｗ５，Ｗ６，…を含んでいる。マップデータＭＰＤにおける２８ビットは、２８個の重みパラメータＷにそれぞれ対応し、当該２８個の重みパラメータＷのそれぞれが、ゼロか非ゼロかを表す。この例では、マップデータＭＰＤが“１”であるビットに対応する重みパラメータＷは、ゼロである。そして、１１個の重みパラメータＷは、マップデータＭＰＤが“０”であるビットに対応する重みパラメータＷとして、順に割り当てられる。

【0055】

これにより、解凍器２２は、図６に示されるように、復元された複数の重みパラメータＷ１，Ｗ２，Ｗ３，０，０，Ｗ４，Ｗ５，Ｗ６，…を出力する。このような方式により、図５において、仮に、マップデータＭＰＤの２８ビットが全て“１”の場合、解凍器２２は、２８個のゼロ重みパラメータを出力する。一方、マップデータＭＰＤにおける１ビット目から１１ビット目が全て“０”の場合、解凍器２２は、非ゼロである１１個の重みパラメータＷ１，Ｗ２，…，Ｗ１１を出力する。

【0056】

解凍器２２は、図５の例では、最大で２８個の重みパラメータＷを出力する。当該重みパラメータＷの最大数は、図５に示したビット幅を１２８ビットから２５６ビット、５１２ビット等に拡張することで、増やすことが可能である。一方、実際の畳み込み層の処理では、ある制御サイクルにおいて、このようなビット幅の拡張では対応できない程度に多数の重みパラメータＷが必要とされ得る。この場合、解凍器２２は、必要な数の重みパラメータＷが得られるまで、前述したような復元処理を繰り返し実行する。

【0057】

［ニューラルネットワークエンジンの全体動作］
図７Ａは、図４におけるニューラルネットワークエンジンの概略的な動作例を示すタイミングチャートである。図７Ｂは、図７Ａの動作例を説明するための補足図である。図８Ａは、図７Ａとは異なる動作例を示すタイミングチャートである。図８Ｂは、図８Ａの動作例を説明する補足図である。図１１は、比較例となるニューラルネットワークエンジンの概略的な動作例を示すタイミングチャートである。

【0058】

まず、比較例となるニューラルネットワークエンジンは、図１および図４において、重みパラメータ用メモリＷＲＡＭが設けられない構成となっている。この場合、図１１に示されるような動作が行われる。図１１では、図３Ａで述べたような制御サイクルＴｃ１での動作に続いて、図３Ｂで述べたような制御サイクルＴｃ２での動作が行われている。制御サイクルＴｃ１は、時点ｔ１から時点ｔ２までの期間Ｔ１１と、時点ｔ２から時点ｔ３までの期間Ｔ１２と、時点ｔ３から時点ｔ４までの期間Ｔ１３とで構成される。

【0059】

期間Ｔ１１において、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉは、メモリＭＥＭ２からデータ入力用のスイッチ回路ＳＷＤｉを介してデータ入力バッファＩＢＦに、入力画素データＤｉ＃Ｋを転送する。期間Ｔ１２において、ｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎは、入力画素データＤｉ＃Ｋと、ｎ個の出力チャネルのフィルタＦＬＴ［１］～ＦＬＴ［ｎ］に含まれる重みパラメータＷとの積和演算を実行する。期間Ｔ１３において、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏは、データ出力バッファＯＢＦに記憶されたｎ個の出力チャネルの出力画素データＤｏ［１］＃Ｋ～Ｄｏ［ｎ］＃Ｋを、データ出力用のスイッチ回路ＳＷＤｏを介してメモリＭＥＭ２に転送する。

【0060】

ここで、期間Ｔ１２においてｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎで積和演算を行うためには、時点ｔ２で、重みパラメータバッファＷＢＦに重みパラメータＷが記憶されている必要がある。そこで、期間Ｔ１１と並行する期間Ｔ０１ａにおいて、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から解凍器２２およびパラメータ用のスイッチ回路ＳＷＰを介して重みパラメータバッファＷＢＦに、ｎ個の出力チャネルのフィルタＦＬＴ［１］～ＦＬＴ［ｎ］に含まれる重みパラメータＷを転送する。ただし、転送する重みパラメータＷのデータ量が大きい場合、期間Ｔ０１ａは、期間Ｔ１１に比べて長くなる。このため、期間Ｔ０１ａの開始時点は、時点ｔ１よりも早い時点となる。

【0061】

制御サイクルＴｃ１に続く制御サイクルＴｃ２は、時点ｔ５から時点ｔ６までの期間Ｔ２１と、時点ｔ６から時点ｔ７までの期間Ｔ２２と、時点ｔ７から時点ｔ８までの期間Ｔ２３とで構成される。期間Ｔ２１，Ｔ２２，Ｔ２３では、それぞれ、制御サイクルＴｃ１における期間Ｔ１１，Ｔ１２，Ｔ１３での動作と同様の動作が行われる。ただし、期間Ｔ２２では、期間Ｔ１２の場合とは異なるｎ個の出力チャネルのフィルタ、すなわち、フィルタＦＬＴ［ｎ＋１］～ＦＬＴ［２ｎ］を用いて積和演算が実行される。

【0062】

期間Ｔ２２においてｎ個のＭＡＣ回路ＭＡＣ１～ＭＡＣｎで積和演算を行うためには、時点ｔ６で、重みパラメータバッファＷＢＦに重みパラメータＷが記憶されている必要がある。そこで、期間Ｔ２１と並行する期間Ｔ０２ａにおいて、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、期間Ｔ０１ａの場合と同様にして、重みパラメータバッファＷＢＦに、ｎ個の出力チャネルのフィルタＦＬＴ［ｎ＋１］～ＦＬＴ［２ｎ］に含まれる重みパラメータＷを転送する。

【0063】

ただし、期間Ｔ０２ａの開始時点は、前述した期間Ｔ１２の途中で重みパラメータバッファＷＢＦに記憶されている重みパラメータＷが変わらないようにするため、例えば、時点ｔ３以降となる。その結果、図１１に示されるように、制御サイクルＴｃ１と制御サイクルＴｃ２との間、すなわち時点ｔ４と時点ｔ５との間に、長い待ち時間Ｔｗ３が必要となり得る。この待ち時間Ｔｗ３は、転送する重みパラメータＷのデータ量が大きくなるほど、長くなり得る。

【0064】

一方、重みパラメータ用メモリＷＲＡＭを備えたニューラルネットワークエンジンでは、例えば、図７Ａに示されるような動作が行われる。図７Ａの動作例では、図１１における期間Ｔ０１ａが期間Ｔ０１および期間Ｔ１０に、期間Ｔ０２ａが期間Ｔ０２および期間Ｔ２０にそれぞれ置き換わっている。

【0065】

期間Ｔ０１において、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、期間Ｔ０１ａの場合と同様に、メモリＭＥＭ１に記憶されたｎ個の出力チャネルのフィルタＦＬＴ［１］～ＦＬＴ［ｎ］に含まれる重みパラメータＷを、解凍器２２を介して転送する。ただし、その転送先は、期間Ｔ０１ａの場合と異なり、重みパラメータバッファＷＢＦではなく、重みパラメータ用メモリＷＲＡＭとなっている。図７Ａの例では、重みパラメータ用メモリＷＲＡＭへの重みパラメータＷの転送は、時点ｔ１で完了している。

【0066】

重みパラメータＷの転送が完了した時点ｔ１において、シーケンスコントローラ２１は、重みパラメータ用メモリＷＲＡＭにリード信号ＲＤを出力する。これに応じて、時点ｔ１から時点ｔ２までの期間Ｔ１０において、重みパラメータ用メモリＷＲＡＭに記憶されたｎ個の出力チャネルのフィルタＦＬＴ［１］～ＦＬＴ［ｎ］に含まれる重みパラメータＷは、パラメータ用のスイッチ回路ＳＷＰを介して重みパラメータバッファＷＢＦに書き込まれる。期間Ｔ１０の長さは、主にＳＲＡＭ等の重みパラメータ用メモリＷＲＡＭのリード速度で定められるため、十分に短くなる。

【0067】

期間Ｔ０２および期間Ｔ２０での動作も、期間Ｔ０１および期間Ｔ１０での動作と同様である。ただし、期間Ｔ０２および期間Ｔ２０での転送対象は、期間Ｔ０１および期間Ｔ１０の場合とは異なるｎ個の出力チャネルのフィルタＦＬＴ［ｎ＋１］～ＦＬＴ［２ｎ］である。

【0068】

以上のように、図７Ａに示される動作例では、前提として、メモリＭＥＭ１は、畳み込み層の処理で用いられる複数チャネルの圧縮された重みパラメータＷＰを記憶する。そして、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から複数チャネルの中の一部のチャネルの圧縮された重みパラメータＷＰを、解凍器２２を介して重みパラメータ用メモリＷＲＡＭに転送する。さらに、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、重みパラメータ用メモリＷＲＡＭに転送するチャネルを適宜入れ替える。

【0069】

ここで、図７Ａに示されるように、期間Ｔ０２におけるメモリＭＥＭ１から重みパラメータ用メモリＷＲＡＭへの重みパラメータＷの転送は、図１１に示した期間Ｔ０２ａの場合と異なり、時点ｔ２で開始することができる。すなわち、時点ｔ２は、期間Ｔ１０での動作の完了によって、重みパラメータバッファＷＢＦが書き込まれた重みパラメータＷのラッチを開始すると共に、重みパラメータ用メモリＷＲＡＭが開放される時点である。その結果、制御サイクルＴｃ１と制御サイクルＴｃ２との間、すなわち時点ｔ４と時点ｔ５との間の待ち時間Ｔｗ１を、図１１での待ち時間Ｔｗ３と比較して短縮することが可能になる。

【0070】

図７Ｂには、図７Ａに示される期間Ｔ０１および期間Ｔ１０での模式的な動作例が示される。図７Ｂにおいて、期間Ｔ０１では、図示しないメモリＭＥＭ１からｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎに、ｎ個のフィルタＦＬＴ［１］～ＦＬＴ［ｎ］の重みパラメータＷがそれぞれ転送される。すなわち、ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎのいずれか一つと他のいずれか一つは、互いに異なるチャネルに含まれる重みパラメータＷを記憶する。期間Ｔ１０では、ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎに記憶されるｎ個のフィルタＦＬＴ［１］～ＦＬＴ［ｎ］の重みパラメータＷが、ｎ個のデータ入力バッファＩＢＦにそれぞれ書き込まれる。

【0071】

１個のフィルタＦＬＴは、例えば、Ｘ×Ｙ×ＣＨｉ＝３×３×１０２４＝９２１６といった大きいフィルタサイズを有する場合がある。この場合、ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎのそれぞれは、１個の重みパラメータＷを８ビット（１バイト）として、例えば、１０ｋバイト程度のメモリ容量を備えればよい。

【0072】

図８Ａの動作例では、図７Ａにおける期間Ｔ０１および期間Ｔ０２が、時点ｔ１以前の期間である期間Ｔ００に置き換わっている。期間Ｔ００において、パラメータ用のＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１に記憶された２×ｎ個の出力チャネルのフィルタＦＬＴ［１］～ＦＬＴ［２ｎ］に含まれる重みパラメータＷを、解凍器２２を介して重みパラメータ用メモリＷＲＡＭに転送する。図８Ａの例では、重みパラメータ用メモリＷＲＡＭへの重みパラメータＷの転送は、時点ｔ１で完了している。

【0073】

重みパラメータＷの転送が完了した時点ｔ１において、シーケンスコントローラ２１は、重みパラメータ用メモリＷＲＡＭに、読み出しのアドレス範囲を含めてリード信号ＲＤ１を出力する。これに応じて、時点ｔ１から時点ｔ２までの期間Ｔ１０において、重みパラメータ用メモリＷＲＡＭに記憶されたｎ個の出力チャネルのフィルタＦＬＴ［１］～ＦＬＴ［ｎ］に含まれる重みパラメータＷは、パラメータ用のスイッチ回路ＳＷＰを介して重みパラメータバッファＷＢＦに書き込まれる。

【0074】

同様に、時点ｔ５において、シーケンスコントローラ２１は、重みパラメータ用メモリＷＲＡＭに、読み出しのアドレス範囲を含めてリード信号ＲＤ２を出力する。これに応じて、時点ｔ５から時点ｔ６までの期間Ｔ２０において、重みパラメータ用メモリＷＲＡＭに記憶された他のｎ個の出力チャネルのフィルタＦＬＴ［ｎ＋１］～ＦＬＴ［２ｎ］に含まれる重みパラメータＷは、パラメータ用のスイッチ回路ＳＷＰを介して重みパラメータバッファＷＢＦに書き込まれる。

【0075】

図８Ａに示される動作例では、図７Ａにおける期間Ｔ０１で転送される重みパラメータＷに加えて、期間Ｔ０２で転送される重みパラメータＷも、期間Ｔ００で予め重みパラメータ用メモリＷＲＡＭに転送される。その結果、制御サイクルＴｃ１と制御サイクルＴｃ２との間、すなわち時点ｔ４と時点ｔ５との間の待ち時間Ｔｗ２を、図７Ａでの待ち時間Ｔｗ１よりも更に短縮することが可能になる。ただし、期間Ｔ００の長さは、期間Ｔ０１等よりも長くなり得るため、当該期間を他の設定処理等で隠蔽するように全体シーケンスを構築することが望ましい。

【0076】

図８Ｂには、図８Ａに示される期間Ｔ００、期間Ｔ１０および期間Ｔ２０での模式的な動作例が示される。図８Ｂにおいて、期間Ｔ００では、図示しないメモリＭＥＭ１からｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎのそれぞれに、２個のフィルタＦＬＴの重みパラメータＷが転送される。例えば、重みパラメータ用メモリＷＲＡＭ１には、２個のフィルタＦＬＴ［１］，ＦＬＴ［ｎ＋１］の重みパラメータＷが転送され、同様にして、重みパラメータ用メモリＷＲＡＭｎには、２個のフィルタＦＬＴ［ｎ］，ＦＬＴ［２ｎ］の重みパラメータＷが転送される。

【0077】

期間Ｔ１０では、ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎに記憶されるｎ個のフィルタＦＬＴ［１］～ＦＬＴ［ｎ］の重みパラメータＷが、ｎ個のデータ入力バッファＩＢＦにそれぞれ書き込まれる。一方、期間Ｔ２０では、ｎ個の重みパラメータ用メモリＷＲＡＭ１～ＷＲＡＭｎに記憶される他のｎ個のフィルタＦＬＴ［ｎ＋１］～ＦＬＴ［２ｎ］の重みパラメータＷが、ｎ個のデータ入力バッファＩＢＦにそれぞれ書き込まれる。

【0078】

なお、図７Ａおよび図８Ａでは、先に出力チャネルＣＨｏ方向を並行処理する前述した手順Ａでの動作例を示したが、出力チャネルＣＨｏ方向と画素空間のシフト方向とを並行処理する前述した手順Ｃでの動作が行われてもよい。具体例として、大きいサイズのフィルタＦＬＴが用いられるある畳み込み層では、図７Ｂに示したような手順Ａでの動作が行われる。一方、別の畳み込み層では、例えば、図７Ｂの場合と比較して、半分のサイズのフィルタＦＬＴが用いられると仮定する。

【0079】

この場合、例えば、図８ＢにおけるフィルタＦＬＴ［１］のサイズは、図７ＢにおけるフィルタＦＬＴ［１］の半分である。この場合、図８ＢにおけるＭＡＣ回路ＭＡＣ１に含まれる乗算器ＭＵＬの数も、図７Ｂの場合と比較して半分でよい。そこで、図８ＢにおけるＭＡＣ回路ＭＡＣ１が２個のＭＡＣ回路（ＭＡＣ１－１，ＭＡＣ１－２とする）に２分割されるようにＭＡＣユニット２０を設定する。

【0080】

そして、ＭＡＣ回路ＭＡＣ１－１は、図３Ａに示した画素空間２６－１の画素データＤｉと、フィルタＦＬＴ［１］の重みパラメータＷとを積和演算する。一方、ＭＡＣ回路ＭＡＣ１－２は、図３Ａに示した別の画素空間２６－２の画素データＤｉと、フィルタＦＬＴ［１］の重みパラメータＷとを積和演算する。この際に、パラメータ用のスイッチ回路ＳＷＰは、重みパラメータ用メモリＷＲＡＭ１から読み出したフィルタＦＬＴ［１］の重みパラメータＷを、当該２個のＭＡＣ回路ＭＡＣ１－１，ＭＡＣ１－２に転送する。

【0081】

＜実施の形態１の主要な効果＞
以上、実施の形態１の方式では、解凍器２２によって復元された重みパラメータＷを記憶する重みパラメータ用メモリＷＲＡＭを設けることで、重みパラメータバッファＷＢＦに記憶される重みパラメータＷの入れ替えに要する時間を短縮することができる。特に、重みパラメータ用メモリＷＲＡＭを、解凍器２２と重みパラメータバッファＷＢＦとの間に設けることで、このような効果が得られる。その結果、ニューラルネットワークの処理時間を短縮することが可能になる。

【0082】

さらに、このような効果を、重みパラメータ用メモリＷＲＡＭの実装に伴う面積オーバヘッドの増大を抑制しつつ得ることが可能になる。具体的には、別の比較例として、図１において、画素データの場合と同様のキャッシュメモリ、すなわちメモリＭＥＭ２に相当するキャッシュメモリを、重みパラメータＷに対しても設けることが考えられる。この場合、当該キャッシュメモリには、例えば、メモリＭＥＭ１に記憶され、ある畳み込み層で用いられる全ての出力チャネルＣＨｏのフィルタＦＬＴ、詳細には、フィルタＦＬＴの構成要素となる圧縮された重みパラメータＷＰが予めコピーされる。

【0083】

具体例として、出力チャネルＣＨｏが１０２４個の場合、当該キャッシュメモリには、１０２４個のフィルタＦＬＴが予めコピーされる。そうすると、キャッシュメモリに必要とされるメモリ容量が増大し得る。一方、実施の形態１の方式では、重みパラメータ用メモリＷＲＡＭは、図７Ａ等に示したように、チャネルを入れ替えながら一部のチャネルを記憶することで、１０２４個よりも少ないｎ個、例えば、数１０個～数１００個といったフィルタＦＬＴを記憶できる程度のメモリ容量を持てばよい。

【0084】

（実施の形態２）
＜ニューラルネットワークエンジンの詳細＞
図９は、実施の形態２による半導体装置において、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。図９に示される構成例は、図４に示した構成例と比較して、次の２点が異なっている。１点目の相違点として、解凍器２２と重みパラメータ用メモリＷＲＡＭとの間に、ゼロ処理回路３０が設けられる。２点目の相違点として、シーケンスコントローラ２１ａは、ゼロ処理回路３０にリセット信号ＲＳＴを出力する。

【0085】

シーケンスコントローラ２１ａは、重みパラメータ用メモリＷＲＡＭへの重みパラメータＷの転送が開始される前に、重みパラメータ用メモリＷＲＡＭに記憶される全ての記憶情報をゼロにリセットする。この例では、シーケンスコントローラ２１ａは、ゼロ処理回路３０にリセット信号ＲＳＴを出力する。ゼロ処理回路３０は、リセット信号ＲＳＴに応じて、重みパラメータ用メモリＷＲＡＭにオールゼロを書き込む。なお、別の方式として、重みパラメータ用メモリＷＲＡＭにリセット機能を設け、重みパラメータ用メモリＷＲＡＭにリセット信号ＲＳＴを出力する方式であってもよい。

【0086】

その後、重みパラメータ用メモリＷＲＡＭに重みパラメータＷが転送される際に、ゼロ処理回路３０は、重みパラメータ用メモリＷＲＡＭに転送中の重みパラメータＷの中から非ゼロの重みパラメータＷを検出する。そして、ゼロ処理回路３０は、検出した非ゼロの重みパラメータＷのみを重みパラメータ用メモリＷＲＡＭに転送する。

【0087】

具体的には、例えば、１個の重みパラメータＷが８ビットの場合、ゼロ処理回路３０は、当該８ビットのオア演算結果、すなわちゼロ判定結果に基づいて、当該８ビットの通過／遮断を切り替えるような回路を備えればよい。あるいは、ゼロ処理回路３０は、図５に示したような、解凍器２２に入力されるマップデータＭＰＤを参照することで、ゼロ判定を行ってもよい。

【0088】

＜実施の形態２の主要な効果＞
以上、実施の形態２の方式を用いると、実施の形態１で述べた各種効果に加えて、重みパラメータ用メモリＷＲＡＭに重みパラメータＷを書き込む際のデータ量を削減できる。その結果、書き込みに要する時間を短縮することや、書き込みに伴う消費電力を低減することが可能になる。すなわち、実際のＣＮＮの処理では、フィルタＦＬＴ内に、ゼロである重みパラメータＷが多く含まれ得る。このため、ゼロ処理回路３０を設けることが有益となる。

【0089】

（実施の形態３）
＜ニューラルネットワークエンジンの詳細＞
図１０は、実施の形態３による半導体装置において、図１におけるニューラルネットワークエンジンの主要部の詳細な構成例を示す図である。図１０に示される構成例は、図４に示した構成例と比較して、次の２点が異なっている。１点目の相違点として、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉと、データ入力用のスイッチ回路ＳＷＤｉとの間に、解凍器３５が設けられる。２点目の相違点として、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏの出力経路上に圧縮器３６が設けられる。

【0090】

圧縮器３６は、データ出力用のＤＭＡコントローラＤＭＡＣ２ｏからの出力画素データＤｏを圧縮し、メモリＭＥＭ２に出力する。圧縮方式は、例えば、図５に述べたような復元方式に対する可逆的な方式であってよい。一方、解凍器３５は、データ入力用のＤＭＡコントローラＤＭＡＣ２ｉからの圧縮された入力画素データを復元し、データ入力用のスイッチ回路ＳＷＤｉを介してデータ入力バッファＩＢＦに出力する。解凍器３５は、重みパラメータＷ用の解凍器２２と同様の構成であってよい。

【0091】

＜実施の形態３の主要な効果＞
以上、実施の形態３の方式を用いると、実施の形態１で述べた各種効果に加えて、圧縮器３６および解凍器３５の設置に伴い、メモリＭＥＭ２との間で画素データＤｉ，Ｄｏを転送する際のデータ量を削減することができる。その結果、メモリＭＥＭ２に必要とされるメモリ容量を削減することが可能になる。

【0092】

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

【符号の説明】

【0093】

１０半導体装置
１５ニューラルネットワークエンジン（ＮＮＥ）
１６システムバス
１７プロセッサ
２１シーケンスコントローラ
２２解凍器
２５畳み込み層
３０ゼロ処理回路
ＤＭＡＣ１，ＤＭＡＣ２ＤＭＡコントローラ
Ｄｉ画素データ
ＩＢＦデータ入力バッファ
ＭＡＣＭＡＣ回路
ＭＥＭ１，ＭＥＭ２メモリ
Ｗ重みパラメータ
ＷＢＦ重みパラメータバッファ
ＷＰ圧縮された重みパラメータ
ＷＲＡＭ重みパラメータ用メモリ

【図1】