特開2024-75106 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＬｅａｐＭｉｎｄ株式会社の特許一覧

特開2024-75106ニューラルネットワーク回路およびニューラルネットワーク演算方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024075106

(43)【公開日】2024-06-03

(54)【発明の名称】ニューラルネットワーク回路およびニューラルネットワーク演算方法

(51)【国際特許分類】

G06N 3/063 20230101AFI20240527BHJP

G06F 17/10 20060101ALI20240527BHJP

G06N 3/0464 20230101ALI20240527BHJP

【ＦＩ】

G06N3/063

G06F17/10 A

G06N3/0464

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022186308

(22)【出願日】2022-11-22

(71)【出願人】

【識別番号】517048278

【氏名又は名称】ＬｅａｐＭｉｎｄ株式会社

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100161506

【弁理士】

【氏名又は名称】川渕健一

(74)【代理人】

【識別番号】100139686

【弁理士】

【氏名又は名称】鈴木史朗

(74)【代理人】

【識別番号】100207789

【弁理士】

【氏名又は名称】石田良平

(72)【発明者】

【氏名】金井潤一

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB26

(57)【要約】

【課題】ＩｏＴ機器などの組み込み機器に組み込み可能かつ高性能なニューラルネットワーク回路およびニューラルネットワーク演算方法を提供する。
【解決手段】ニューラルネットワーク回路は、入力データに対して畳み込み演算を行う畳み込み演算回路を備え、前記畳み込み演算回路は、前記畳み込み演算回路を動作させる畳み込み演算回路用の命令コマンドが圧縮された圧縮命令コマンドを復元する命令デコンプレッサを有する。
【選択図】図１６

【特許請求の範囲】

【請求項1】

入力データに対して畳み込み演算を行う畳み込み演算回路を備え、
前記畳み込み演算回路は、前記畳み込み演算回路を動作させる畳み込み演算回路用の命令コマンドが圧縮された圧縮命令コマンドから前記命令コマンドを復元する命令デコンプレッサを有する、
ニューラルネットワーク回路。

【請求項2】

前記畳み込み演算回路の畳み込み演算出力データに対して量子化演算を行う量子化演算回路をさらに備え、
前記量子化演算回路は、前記量子化演算回路を動作させる量子化演算回路用の命令コマンドが圧縮された圧縮命令コマンドから前記命令コマンドを復元する命令デコンプレッサを有する、
請求項１に記載のニューラルネットワーク回路。

【請求項3】

前記畳み込み演算回路または前記量子化演算回路を動作させる命令コマンドをメモリから読み出す命令フェッチユニットをさらに備え、
前記命令フェッチユニットは、前記命令デコンプレッサに命令コマンドを入力する、
請求項２に記載のニューラルネットワーク回路。

【請求項4】

前記畳み込み演算回路は、複数の前記命令デコンプレッサを有し、
分割された前記圧縮命令コマンドが、異なる命令デコンプレッサに入力される、
請求項１に記載のニューラルネットワーク回路。

【請求項5】

前記入力データを格納する第一メモリと、
前記畳み込み演算出力データを格納する第二メモリと、
をさらに備え、
前記量子化演算回路の量子化演算出力データは、前記第一メモリに格納されて、
前記第一メモリに格納された前記量子化演算出力データは、前記畳み込み演算回路に前記入力データとして入力される、
請求項２に記載のニューラルネットワーク回路。

【請求項6】

前記第一メモリと、前記畳み込み演算回路と、前記第二メモリと、前記量子化演算回路とは、ループ状に形成されている、
請求項５に記載のニューラルネットワーク回路。

【請求項7】

入力データに対して畳み込み演算を行う畳み込み演算回路と、
前記畳み込み演算回路の畳み込み演算出力データに対して量子化演算を行う量子化演算回路と、
前記畳み込み演算回路を動作させる畳み込み演算回路用の命令コマンドが圧縮された圧縮命令コマンドと、前記量子化演算回路を動作させる量子化演算回路用の命令コマンドが圧縮された圧縮命令コマンドと、をメモリから読み出す命令フェッチユニットと、
を備えるニューラルネットワーク回路の制御方法であって、
前記命令フェッチユニットに、前記畳み込み演算回路用の命令コマンドと量子化演算回路用の命令コマンドとを別々に前記メモリから読み出させて、前記畳み込み演算回路と前記量子化演算回路とに対して前記命令コマンドを別々に供給させるステップと、
前記畳み込み演算回路および前記量子化演算回路に、前記圧縮命令コマンドから前記命令コマンドを復元させるステップと、
復元された前記命令コマンドに基づいて前記畳み込み演算回路と前記量子化演算回路とを並列して動作させるステップと、
を有する、
ニューラルネットワーク回路の制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワーク回路およびニューラルネットワーク演算方法に関する。

【背景技術】

【0002】

近年、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－０７７８２９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等を実現することが望まれている。組み込み機器においては、特許文献1等に記載された大規模な専用回路を組み込むことは難しい。また、ＣＰＵやメモリ等のハードウェアリソースが限られた組み込み機器においては、畳み込みニューラルネットワークの十分な演算性能をソフトウェアのみにより実現することは難しい。

【0005】

上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能かつ高性能なニューラルネットワーク回路およびニューラルネットワーク演算方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク回路は、入力データに対して畳み込み演算を行う畳み込み演算回路を備え、前記畳み込み演算回路は、前記畳み込み演算回路を動作させる畳み込み演算回路用の命令コマンドが圧縮された圧縮命令コマンドを復元する命令デコンプレッサを有する。

【0007】

本発明の第二の態様に係るニューラルネットワーク演算方法は、入力データに対して畳み込み演算を行う畳み込み演算回路と、前記畳み込み演算回路の畳み込み演算出力データに対して量子化演算を行う量子化演算回路と、前記畳み込み演算回路を動作させる畳み込み演算回路用の命令コマンドが圧縮された圧縮命令コマンドと、前記量子化演算回路を動作させる量子化演算回路用の命令コマンドが圧縮された圧縮命令コマンドと、をメモリから読み出す命令フェッチユニットと、を備えるニューラルネットワーク回路の制御方法であって、前記命令フェッチユニットに、前記畳み込み演算回路用の命令コマンドと量子化演算回路用の命令コマンドとを別々に前記メモリから読み出させて、前記畳み込み演算回路と前記量子化演算回路とに対して前記命令コマンドを別々に供給させるステップと、前記畳み込み演算回路および前記量子化演算回路に、前記圧縮命令コマンドから前記命令コマンドを復元させるステップと、復元された前記命令コマンドに基づいて前記畳み込み演算回路と前記量子化演算回路とを並列して動作させるステップと、を有する。

【発明の効果】

【0008】

本発明のニューラルネットワーク回路およびニューラルネットワーク演算方法は、ＩｏＴ機器などの組み込み機器に組み込み可能かつ高性能である。

【図面の簡単な説明】

【0009】

【図1】畳み込みニューラルネットワークを示す図である。

【図2】畳み込み層が行う畳み込み演算を説明する図である。

【図3】畳み込み演算のデータの展開を説明する図である。

【図4】第一実施形態に係るニューラルネットワーク回路の全体構成を示す図である。

【図5】ＮＮ演算コアの全体構成を示す図である。

【図6】同ＮＮ演算コアの動作例を示すタイミングチャートである。

【図7】同ＮＮ演算コアの他の動作例を示すタイミングチャートである。

【図8】ＮＮ演算マルチコアを示す図である。

【図9】同ニューラルネットワーク回路のＤＭＡＣの内部ブロック図である。

【図10】同ＤＭＡＣの制御回路のステート遷移図である。

【図11】同ニューラルネットワーク回路の畳み込み演算回路の内部ブロック図である。

【図12】同畳み込み演算回路の乗算器の内部ブロック図である。

【図13】同乗算器の積和演算ユニットの内部ブロック図である。

【図14】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。

【図15】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。

【図16】同畳み込み演算回路の命令デコンプレッサの内部ブロック図である。

【図17】同命令デコンプレッサが復元する圧縮命令コマンドの一例を示す図である。

【図18】同命令デコンプレッサの変形例を示す図である。

【図19】同ニューラルネットワーク回路の量子化演算回路の内部ブロック図である。

【図20】同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。

【図21】演算ユニットのブロック図である。

【図22】同量子化回路のベクトル量子化ユニットの内部ブロック図である。

【発明を実施するための形態】

【0010】

（第一実施形態）
本発明の第一実施形態について、図１から図２２を参照して説明する。
図１は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を示す図である。第一実施形態に係るニューラルネットワーク回路１００（以下、「ＮＮ回路１００」という）が行う演算は、推論時に使用する学習済みのＣＮＮ２００の少なくとも一部である。

【0011】

［ＣＮＮ２００］
ＣＮＮ２００は、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

【0012】

図２は、畳み込み層２１０が行う畳み込み演算を説明する図である。
畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

【0013】

畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

【0014】

ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、ＣＮＮ２００は畳み込み層２１０の前に型変換や量子化を行う入力層をさらに有してもよい。

【0015】

畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0016】

畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図２において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

【0017】

【数1】

【0018】

量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

【0019】

プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

【0020】

【数2】

【0021】

【数3】

【0022】

ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

【0023】

【数4】

【0024】

活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

【0025】

【数5】

【0026】

量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等号「≦」は「＜」であってもよい。

【0027】

【数6】

【0028】

出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

【0029】

ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

【0030】

［畳み込み演算の分割］
ＮＮ回路１００は、畳み込み層２１０の畳み込み演算（式１）の入力データを部分テンソルに分割して演算する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。なお、ＮＮ回路１００は、畳み込み層２１０の畳み込み演算（式１）の入力データを分割せずに演算することもできる。

【0031】

畳み込み演算の入力データ分割において、式１における変数ｃは、式７に示すように、サイズＢｃのブロックで分割される。また、式１における変数ｄは、式８に示すように、サイズＢｄのブロックで分割される。式７において、ｃｏはオフセットであり、ｃｉは０から(Ｂｃ－１)までのインデックスである。式８において、ｄｏはオフセットであり、ｄｉは０から(Ｂｄ－１)までのインデックスである。なお、サイズＢｃとサイズＢｄは同じであってもよい。

【0032】

【数7】

【0033】

【数8】

【0034】

式１における入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）は、ｃ軸方向においてサイズＢｃにより分割され、分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）で表される。以降の説明において、分割された入力データａを「分割入力データａ」ともいう。

【0035】

式１における重みｗ（ｉ，ｊ，ｃ，ｄ）は、ｃ軸方向においてサイズＢｃおよびｄ軸方向においてサイズＢｄにより分割され、分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）で表される。以降の説明において、分割された重みｗを「分割重みｗ」ともいう。

【0036】

サイズＢｄにより分割された出力データｆ（ｘ，ｙ，ｄｏ）は、式９により求まる。分割された出力データｆ（ｘ，ｙ，ｄｏ）を組み合わせることで、最終的な出力データｆ（ｘ，ｙ，ｄ）を算出できる。

【0037】

【数9】

【0038】

［畳み込み演算のデータの展開］
ＮＮ回路１００は、畳み込み層２１０の畳み込み演算における入力データａおよび重みｗを展開して畳み込み演算を行う。

【0039】

図３は、畳み込み演算のデータの展開を説明する図である。
分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ）は、Ｂｃ個の要素を持つベクトルデータに展開される。分割入力データａの要素は、ｃｉでインデックスされる（０≦ｃｉ＜Ｂｃ）。以降の説明において、ｉ，ｊごとにベクトルデータに展開された分割入力データａを「入力ベクトルＡ」ともいう。入力ベクトルＡは、分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ×Ｂｃ）から分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ×Ｂｃ＋（Ｂｃ－１））までを要素とする。

【0040】

分割重みｗ（ｉ，ｊ，ｃｏ、ｄｏ）は、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みｗの要素は、ｃｉとｄｉでインデックスされる（０≦ｄｉ＜Ｂｄ）。以降の説明において、ｉ，ｊごとにマトリクスデータに展開された分割重みｗを「重みマトリクスＷ」ともいう。重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ、ｄｏ×Ｂｄ）から分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１）、ｄｏ×Ｂｄ＋（Ｂｄ－１））までを要素とする。

【0041】

入力ベクトルＡと重みマトリクスＷとを乗算することで、ベクトルデータが算出される。ｉ，ｊ，ｃｏごとに算出されたベクトルデータを３次元テンソルに整形することで、出力データｆ（ｘ，ｙ，ｄｏ）を得ることができる。このようなデータの展開を行うことで、畳み込み層２１０の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。

【0042】

［ＮＮ回路１００］
図４は、本実施形態に係るＮＮ回路１００の全体構成を示す図である。
ＮＮ回路１００は、ＤＭＡコントローラ３（以下、「ＤＭＡＣ３」ともいう）と、コントローラ６と、ＩＦＵ７と、少なくとも一つのニューラルネットワーク演算コア１０（以下、「ＮＮ演算コア１０」ともいう）と、を備える。

【0043】

ＮＮ回路１００は、複数のＮＮ演算コア１０を実装可能である。図４に例示するＮＮ回路１００は、ＮＮ演算コア１０を最大４つまで実装可能である。複数のＮＮ演算コア１０は、ＮＮ２００の少なくとの一部の演算を連携して実行する「ニューラルネットワーク演算マルチコア１０Ｍ（以下、「ＮＮ演算マルチコア１０Ｍ」ともいう）」を構成する。複数のＮＮ演算コア１０は、本実施形態においてデイジーチェーン接続されている。なお、ＮＮ回路１００に実装可能なＮＮ演算コア１０の数は５個以上であってもよい。

【0044】

ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリ１２０とＮＮ演算コア１０との間のデータ転送を行う。ＤＭＡＣ３は、複数のＮＮ演算コア１０のいずれかに対して外部メモリ１２０から読み出したデータの転送を行う。なお、ＤＭＡＣ３は、複数のＮＮ演算コア１０に対して外部メモリ１２０から読み出した同一のデータを転送可能としてもよいし、ブロードキャストできる構成としてもよい。

【0045】

コントローラ６は、外部バスＥＢに接続されており、外部のホストＣＰＵ１１０のスレーブとして動作する。コントローラ６は、バスブリッジ６０と、レジスタ６１と、を有する。

【0046】

バスブリッジ６０は、外部バスＥＢから内部バスＩＢへのバスアクセスを中継する。また、バスブリッジ６０は、外部ホストＣＰＵ１１０からレジスタ６１への書き込み要求および読み込み要求を中継する。

【0047】

レジスタ６１は、パラメータレジスタや状態レジスタを有する。パラメータレジスタは、ＮＮ回路１００の動作を制御するレジスタである。状態レジスタは各モジュールの命令列のポインタ・命令数などを含み、ＮＮ回路１００の状態を示すレジスタである。また、状態レジスタはセマフォＳを含む構成としてよい。外部ホストＣＰＵ１１０は、コントローラ６のバスブリッジ６０を経由して、レジスタ６１にアクセスできる。

【0048】

コントローラ６は、内部バスＩＢを介して、ＮＮ回路１００の各ブロック（ＤＭＡＣ３、ＩＦＵ７、ＮＮ演算コア１０）と接続されている。外部ホストＣＰＵ１１０は、コントローラ６を経由して、ＮＮ回路１００の各ブロックに対してアクセスできる。例えば、外部ホストＣＰＵ１１０は、コントローラ６を経由して、ＮＮ演算コア１０に対する命令を指示することができる。また、各ブロックは、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含んでもよい）を更新できる。状態レジスタは、各ブロックと接続された専用配線を介して更新されるように構成されていてもよい。

【0049】

ＩＦＵ（Instruction Fetch Unit）７は、外部ホストＣＰＵ１１０の指示に基づいて、外部バスＥＢを経由してＮＮ回路１００の各ブロック（ＤＭＡＣ３、ＮＮ演算コア１０）に対する命令コマンドを外部メモリ１２０から読み出す。また、ＩＦＵ７は、読み出した命令コマンドを対応するＮＮ回路１００の各ブロック（ＤＭＡＣ３、ＮＮ演算コア１０）に転送する。本実施形態において、命令コマンドは圧縮された状態（以下、「圧縮命令コマンド」ともいう）で外部メモリ１２０に記憶されている。ＩＦＵ７は、圧縮命令コマンドを読み出す。

【0050】

［ＮＮ演算コア１０］
図５は、ＮＮ演算コア１０の全体構成を示す図である。
ＮＮ演算コア１０は、第一メモリ１と、第二メモリ２と、畳み込み演算回路４と、量子化演算回路５と、を備える。ＮＮ演算コア１０は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

【0051】

第一メモリ１は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、ＤＭＡＣ３や内部バスＩＢを介してデータの書き込みおよび読み出しが行われる。外部ホストＣＰＵは、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ演算コア１０に対するデータの入出力を行うことができる。

【0052】

第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートとループ接続（Ｃ１）されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。また、第一メモリ１は、他のＮＮ演算コア１０との間のコア間接続（Ｃ２）でデータ転送が可能であり、コア間接続（Ｃ２）された他のＮＮ演算コア１０は第一メモリ１にデータを書き込むことができる。なお、本実施形態において、コア間接続（Ｃ２）の一例として、デイジーチェーン接続を用いている。

【0053】

第二メモリ２は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、ＤＭＡＣ３や内部バスＩＢを介してデータの書き込みおよび読み出しが行われる。外部ホストＣＰＵは、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ演算コア１０に対するデータの入出力を行うことができる。

【0054】

第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。

【0055】

畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

【0056】

量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を実施する。

【0057】

量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）をループ接続（Ｃ１）された第一メモリ１に書き込む。また、量子化演算回路５は、他のＮＮ演算コア１０とコア間接続（Ｃ２）経由でデータ転送可能であり、量子化演算回路５はコア間接続（Ｃ２）された他のＮＮ演算コア１０に量子化演算出力データを出力することができる。

【0058】

ＮＮ演算コア１０は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリからのＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力または処理負荷を大幅に低減することができる。

【0059】

［ＮＮ演算コア１０の動作例１］
図６は、ＮＮ演算コア１０の動作例を示すタイミングチャートである。
ＤＭＡＣ３は、レイヤ１の入力データａを第一メモリ１に格納する。ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

【0060】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対して図１に示すレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0061】

量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データは、第一メモリ１に格納される。

【0062】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0063】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0064】

量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは、第一メモリ１に格納される。

【0065】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0066】

畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図１に示すＣＮＮ２００の演算を進めていく。ＮＮ演算コア１０は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１とレイヤ２Ｍ＋１の畳み込み演算を実施する。また、ＮＮ演算コア１０は、量子化演算回路５が時分割によりレイヤ２Ｍ－２とレイヤ２Ｍの量子化演算を実施する。そのため、ＮＮ演算コア１０は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

【0067】

ＮＮ演算コア１０は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ演算コア１０は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。なお、ＮＮ演算コア１０は、ループ状に回路を形成するために、各レイヤで変化する畳み込み演算回路４や量子化演算回路５におけるパラメータは適宜更新される。

【0068】

ＣＮＮ２００の演算にＮＮ演算コア１０により実施できない演算が含まれる場合、ＮＮ演算コア１０は外部ホストＣＰＵなどの外部演算デバイスに中間データを転送する。外部演算デバイスが中間データに対して演算を行った後、外部演算デバイスによる演算結果は第一メモリ１や第二メモリ２に入力される。ＮＮ演算コア１０は、外部演算デバイスによる演算結果に対する演算を再開する。

【0069】

［ＮＮ演算コア１０の動作例２］
図７は、ＮＮ演算コア１０の他の動作例を示すタイミングチャートである。
ＮＮ演算コア１０は、入力データａを部分テンソルに分割して、時分割により部分テンソルに対する演算を行ってもよい。部分テンソルへの分割方法や分割数は特に限定されない。

【0070】

図７は、入力データａを二つの部分テンソルに分解した場合の動作例を示している。分解された部分テンソルを、「第一部分テンソルａ₁」、「第二部分テンソルａ₂」とする。例えば、レイヤ２Ｍ－１の畳み込み演算は、第一部分テンソルａ₁に対応する畳み込み演算（図７において、「レイヤ２Ｍ－１（ａ₁）」と表記）と、第二部分テンソルａ₂に対応する畳み込み演算（図７において、「レイヤ２Ｍ－１（ａ₂）」と表記）と、に分解される。

【0071】

第一部分テンソルａ₁に対応する畳み込み演算および量子化演算と、第二部分テンソルａ₂に対応する畳み込み演算および量子化演算とは、図７に示すように、独立して実施することができる。

【0072】

畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算（図７において、レイヤ２Ｍ－１（ａ₁）で示す演算）を行う。その後、畳み込み演算回路４は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算（図７において、レイヤ２Ｍ－１（ａ_２）で示す演算）を行う。また、量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算（図７において、レイヤ２Ｍ（ａ₁）で示す演算）を行う。このように、ＮＮ演算コア１０は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算と、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算と、を並列に実施できる。

【0073】

次に、畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算（図７において、レイヤ２Ｍ＋１（ａ₁）で示す演算）を行う。また、量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算（図７において、レイヤ２Ｍ（ａ_２）で示す演算）を行う。このように、ＮＮ演算コア１０は、第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算と、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算と、を並列に実施できる。

【0074】

第一部分テンソルａ₁に対応する畳み込み演算および量子化演算と、第二部分テンソルａ₂に対応する畳み込み演算および量子化演算とは、独立して実施することができる。そのため、ＮＮ演算コア１０は、例えば、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算と、第二部分テンソルａ_２に対応するレイヤ２Ｍ＋２の量子化演算と、を並列に実施してもよい。すなわち、ＮＮ演算コア１０が並列で演算する畳み込み演算と量子化演算は、連続するレイヤの演算に限定されない。

【0075】

入力データａを部分テンソルに分割することで、ＮＮ演算コア１０は畳み込み演算回路４と量子化演算回路５とを並列して動作させることができる。その結果、畳み込み演算回路４と量子化演算回路５が待機する時間が削減され、ＮＮ演算コア１０の演算処理効率が向上する。図７に示す動作例において分割数は２であったが、分割数が２より大きい場合も同様に、ＮＮ演算コア１０は畳み込み演算回路４と量子化演算回路５とを並列して動作させることができる。

【0076】

例えば、入力データａが「第一部分テンソルａ₁」、「第二部分テンソルａ₂」および「第三部分テンソルａ_３」に分割される場合、ＮＮ演算コア１０は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算と、第三部分テンソルａ_３に対応するレイヤ２Ｍの量子化演算と、を並列に実施してもよい。演算の順序は、第一メモリ１および第二メモリ２における入力データａの格納状況によって適宜変更される。

【0077】

なお、部分テンソルに対する演算方法としては、同一レイヤにおける部分テンソルの演算を畳み込み演算回路４または量子化演算回路５で行った後に次のレイヤにおける部分テンソルの演算を行う例（方法１）を示した。例えば、図７に示すように、畳み込み演算回路４において、第一部分テンソルａ₁および第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算（図７において、レイヤ２Ｍ－１（ａ₁）およびレイヤ２Ｍ－１（ａ_２）で示す演算）を行った後に、第一部分テンソルａ₁および第二部分テンソルａ_２に対応するレイヤ２Ｍ＋１の畳み込み演算（図７において、レイヤ２Ｍ＋１（ａ₁）およびレイヤ２Ｍ＋１（ａ_２）で示す演算）を実施している。

【0078】

しかしながら、部分テンソルに対する演算方法はこれに限られない。部分テンソルに対する演算方法は、複数レイヤにおける一部の部分テンソルの演算をした後に残部の部分テンソルの演算を実施する方法でもよい（方法２）。例えば、畳み込み演算回路４において、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１および第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算を行った後に、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１および第二部分テンソルａ_２に対応するレイヤ２Ｍ＋１の畳み込み演算を実施してもよい。

【0079】

また、部分テンソルに対する演算方法は、方法１と方法２とを組み合わせて部分テンソルを演算する方法でもよい。ただし、方法２を用いる場合は、部分テンソルの演算順序に関する依存関係に従って演算を実施する必要がある。

【0080】

［ＮＮ演算マルチコア１０Ｍ］
図８は、ＮＮ演算マルチコア１０Ｍを示す図である。
図８に例示するＮＮ演算マルチコア１０Ｍは、デイジーチェーン接続された二つのＮＮ演算コア１０を備える。二つのＮＮ演算コア１０を区別する場合、二つのＮＮ演算コア１０を、「第一ＮＮ演算コア１０Ａ」と、「第二ＮＮ演算コア１０Ｂ」という。なお、図８において、第一メモリ１は「Ａ」、畳み込み演算回路４は「Ｃ」、第二メモリ２は「Ｆ」、量子化演算回路５は「Ｑ」として略記されている。

【0081】

具体的には、第一ＮＮ演算コア１０Ａの量子化演算回路５と、第二ＮＮ演算コア１０Ｂの第一メモリ１とがデイジーチェーン接続（Ｃ２）されている。第一ＮＮ演算コア１０Ａの量子化演算回路５は、ループ接続（Ｃ１）された第一ＮＮ演算コア１０Ａの第一メモリ１または／およびデイジーチェーン接続（Ｃ２）され第二ＮＮ演算コア１０Ｂの第一メモリ１に量子化演算出力データを書き込むことができる。

【0082】

具体的には、第二ＮＮ演算コア１０Ｂの量子化演算回路５と、第一ＮＮ演算コア１０Ａの第一メモリ１とがデイジーチェーン接続（Ｃ２）されている。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、ループ接続（Ｃ１）された第二ＮＮ演算コア１０Ｂの第一メモリ１または／およびデイジーチェーン接続（Ｃ２）され第一ＮＮ演算コア１０Ａの第一メモリ１に量子化演算出力データを書き込むことができる。

【0083】

ＮＮ演算マルチコア１０Ｍが三つ以上のＮＮ演算コア１０を備える場合も同様に、複数のＮＮ演算コア１０はデイジーチェーン接続される。最終段のＮＮ演算コア１０以外のＮＮ演算コア１０の量子化演算回路５は、後段のＮＮ演算コア１０Ｂの第一メモリ１とデイジーチェーン接続（Ｃ２）される。最終段のＮＮ演算コア１０の量子化演算回路５は、最初段のＮＮ演算コア１０の第一メモリ１とデイジーチェーン接続（Ｃ２）されている。複数のＮＮ演算コア１０はデイジーチェーンループ（数珠繋ぎ）状に形成されていることを特徴とする。

【0084】

一つのＮＮ演算コア１０において、第一メモリ（Ａ）１と畳み込み演算回路（Ｃ）４と第二メモリ（Ｆ）２と量子化演算回路（Ｑ）５とは、ループ状に接続されている。一方、ＮＮ演算マルチコア１０Ｍにおいては、第一メモリ（Ａ）１と畳み込み演算回路（Ｃ）４と第二メモリ（Ｆ）２と量子化演算回路（Ｑ）５とは、第一メモリ（Ａ）１と畳み込み演算回路（Ｃ）４と第二メモリ（Ｆ）２と量子化演算回路（Ｑ）５とが同じ順番で繰り返し配列するように、デイジーチェーンループ（数珠繋ぎ）状に接続されている。

【0085】

ＮＮ演算マルチコア１０Ｍを構成する複数のＮＮ演算コア１０は、同一のハードウェア構成でなくてもよい。例えば、第一ＮＮ演算コア１０Ａの第一メモリ１の容量・構成は、第二ＮＮ演算コア１０Ｂの第一メモリ１の容量・構成と異なっていてもよい。例えば、第一ＮＮ演算コア１０Ａの量子化演算回路５の構成は、第二ＮＮ演算コア１０Ｂの量子化演算回路５の構成と異なっていてもよい。

【0086】

次に、ＮＮ回路１００の各構成に関して詳しく説明する。

【0087】

［ＤＭＡＣ３］
図９は、ＤＭＡＣ３の内部ブロック図である。
ＤＭＡＣ３は、データ転送回路３１と、ステートコントローラ３２と、を有する。ＤＭＡＣ３は、データ転送回路３１に対する専用のステートコントローラ３２を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにＤＭＡデータ転送を実施できる。

【0088】

データ転送回路３１は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリ１２０とＮＮ演算コア１０との間のＤＭＡデータ転送を行う。データ転送回路３１のＤＭＡチャンネル数は限定されない。例えば、第一ＮＮ演算コア１０Ａと第二ＮＮ演算コア１０Ｂのそれぞれに専用のＤＭＡチャンネルを有していてもよい。

【0089】

ステートコントローラ３２は、データ転送回路３１のステートを制御する。また、ステートコントローラ３２は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ３２は、命令キュー３３と制御回路３４とを有する。

【0090】

命令キュー３３は、ＤＭＡＣ３用の命令コマンドＣ３が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー３３には、ＩＦＵ７経由または内部バスＩＢ経由で１つ以上の命令コマンドＣ３が書き込まれる。

【0091】

制御回路３４は、命令コマンドＣ３をデコードし、命令コマンドＣ３に基づいて順次データ転送回路３１を制御するステートマシンである。制御回路３４は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

【0092】

図１０は、制御回路３４のステート遷移図である。
制御回路３４は、命令キュー３３に命令コマンドＣ３が入力されると（Ｎｏｔｅｍｐｔｙ）、アイドルステートＳＴ１からデコードステートＳＴ２に遷移する。

【0093】

制御回路３４は、デコードステートＳＴ２において、命令キュー３３から出力される命令コマンドＣ３をデコードする。また、制御回路３４は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ３において指示されたデータ転送回路３１の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔｒｅａｄｙ）、制御回路３４は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路３４はデコードステートＳＴ２から実行ステートＳＴ３に遷移する。

【0094】

制御回路３４は、実行ステートＳＴ３において、データ転送回路３１を制御して、データ転送回路３１に命令コマンドＣ３において指示された動作を実施させる。制御回路３４は、データ転送回路３１の動作が終わると、命令キュー３３から実行を終えた命令コマンドＣ３を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路３４は、命令キュー３３に命令がある場合（Ｎｏｔｅｍｐｔｙ）、実行ステートＳＴ３からデコードステートＳＴ２に遷移する。制御回路３４は、命令キュー３３に命令がない場合（ｅｍｐｔｙ）、実行ステートＳＴ３からアイドルステートＳＴ１に遷移する。

【0095】

［畳み込み演算回路４］
図１１は、畳み込み演算回路４の内部ブロック図である。
畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、命令デコンプレッサ４９と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

【0096】

重みメモリ４１は、畳み込み演算に用いる重みｗが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みｗを重みメモリ４１に書き込む。

【0097】

図１２は、乗算器４２の内部ブロック図である。
乗算器４２は、入力ベクトルＡと重みマトリクスＷとを乗算する。入力ベクトルＡは、上述したように、分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ）がｉ、ｊごとに展開されたＢｃ個の要素を持つベクトルデータである。また、重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ、ｄｏ）がｉ、ｊごとに展開されたＢｃ×Ｂｄ個の要素を持つマトリクスデータである。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとを乗算を並列して実施できる。

【0098】

乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

【0099】

図１３は、積和演算ユニット４７の内部ブロック図である。
積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0100】

積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

【0101】

図１４は、アキュムレータ回路４３の内部ブロック図である。
アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

【0102】

図１５は、アキュムレータユニット４８の内部ブロック図である。
アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

【0103】

加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

【0104】

乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリに、出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

【0105】

ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

【0106】

命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、ＩＦＵ７経由または内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

【0107】

制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、ＤＭＡＣ３のステートコントローラ３２の制御回路３４と同様の構成である。

【0108】

図１６は、命令デコンプレッサ４９の内部ブロック図である。
命令デコンプレッサ４９は、命令コマンドＣ４が圧縮された圧縮命令コマンドから命令コマンドＣ４を復元（Decompress）する。命令デコンプレッサ４９は、デコンプレッサ４９ａと、リングバッファ４９ｂと、を有する。デコンプレッサ４９ａは、ＩＦＵ７から入力される圧縮された圧縮命令コマンドをデコードして、リングバッファ４９ｂに記憶されたデータに基づいて、命令コマンドＣ４を復元する。リングバッファ４９ｂは、リング状のバッファメモリである。なお、リングバッファ４９ｂは、リング状のバッファメモリに限定されず、他の態様のバッファメモリであってもよい。

【0109】

図１７は、命令デコンプレッサ４９が復元する圧縮命令コマンドの一例を示す図である。
Ｐｕｓｈ命令は、オプコードフィールドＯＦと、命令フィールドＩＦと、を有する。Ｐｕｓｈ命令のオプコードフィールドＯＦには、Ｐｕｓｈ命令であることを示すオプコードが格納されている。命令フィールドＩＦには、オリジナルインストラクションが格納されている。Ｐｕｓｈ命令は、オリジナルインストラクションをリングバッファ４９ｂに記憶するとともに、オリジナルインストラクションを命令キュー４５に出力する。なお、オリジナルインストラクションには、入力データａを設定する命令と、重みｗを設定する命令と、畳み込み演算出力データの出力を設定する命令などのインストラクションが含まれる。

【0110】

Ｃｏｐｙ命令は、オプコードフィールドＯＦと、シークフィールドＳＦと、カウントフィールドＣＦと、を有する。Ｃｏｐｙ命令のオプコードフィールドＯＦには、Ｃｏｐｙ命令であることを示すオプコードが格納されている。シークフィールドＳＦには、リングバッファ４９ｂのアドレスを示すシーク（ｓｅｅｋ）が格納されている。カウントフィールドＣＦには、コピーする命令数を示すカウント（ｃｏｕｎｔ）が格納されている。Ｃｏｐｙ命令は、リングバッファ４９ｂにおいてシーク（ｓｅｅｋ）が示すアドレス以降に記憶された命令を、カウント（ｃｏｕｎｔ）が示す命令数だけ命令キュー４５に出力する。

【0111】

本実施形態の畳み込み演算回路４は、外部コントローラを必要とせずに畳み込み演算を実行することができるが、畳み込み演算の自由度を向上させるためには、一つの命令コマンドＣ４に基づいて実行する動作を細かく規定できることが好ましい。一例として、畳み込み演算において一つの要素同士（１×１）の積を実行する命令コマンドＣ４を１つ規定し、これを複数個組み合わせることにより、異なる重みフィルタを用いた畳み込み演算等の多様な畳み込み演算を実現できる。一方で、細かく規定された命令コマンドＣ４は、命令コマンドＣ４の全体数が増加することになり、外部メモリ１２０の使用量の増加や外部バスＥＢの帯域を圧迫するなど問題が生じる。この課題を解決するため、本実施形態の畳み込み演算回路４は命令コマンドＣ４を圧縮した圧縮命令コマンドを用いている。

【0112】

畳み込み演算回路４用の命令コマンドＣ４は、畳み込み演算を繰り返し実施する命令が連続しやすく、類似する命令コマンドＣ４が短期間に連続しやすい。そのため、上記のＰｕｓｈ命令により命令をリングバッファ４９ｂに記憶しておき、Ｃｏｐｙ命令によりリングバッファ４９ｂに記憶した命令をコピーすることにより、畳み込み演算回路４用の命令コマンドＣ４を圧縮した圧縮命令コマンドの数を削減することができる。

【0113】

なお、命令デコンプレッサ４９に入力される畳み込み演算回路４用の命令コマンドＣ４は、命令コマンドＣ４を生成するコンパイラ等のツールにより事前に圧縮されている。

【0114】

図１８は、命令デコンプレッサ４９の変形例を示す図である。
畳み込み演算回路４は、複数の命令デコンプレッサ４９を備えてもよい。図１８に例示する図においては、３個の命令デコンプレッサ４９が並列に設けられている。この場合、各命令デコンプレッサ４９に対応する個別の命令キュー４５が設けられる。畳み込み演算回路４用の命令コマンドＣ４は、３個のグループに分割されて３個の命令デコンプレッサ４９に入力される。例えば、畳み込み演算回路４用の命令コマンドＣ４は、入力データａを設定する命令と、重みｗを設定する命令と、畳み込み演算出力データの出力を設定する命令と、に分割される。同種類の命令が命令デコンプレッサ４９に入力されやすくなるため、リングバッファ４９ｂの利用効率が向上し、命令の圧縮率が向上する。また、制御回路４６は、３個のグループに分割されて命令キュー４５に格納された命令を効率的に読み出して実行できる。

【0115】

［量子化演算回路５］
図１９は、量子化演算回路５の内部ブロック図である。
量子化演算回路５は、量子化パラメータメモリ５１と、ベクトル演算回路５２と、量子化回路５３と、ステートコントローラ５４と、命令デコンプレッサ５９と、を有する。量子化演算回路５は、ベクトル演算回路５２および量子化回路５３に対する専用のステートコントローラ５４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。

【0116】

量子化パラメータメモリ５１は、量子化演算に用いる量子化パラメータｑが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、量子化演算に必要な量子化パラメータｑを量子化パラメータメモリ５１に書き込む。

【0117】

図２０は、ベクトル演算回路５２と量子化回路５３の内部ブロック図である。
ベクトル演算回路５２は、第二メモリ２に格納された出力データｆ（ｘ，ｙ，ｄｏ）に対して演算を行う。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７を有し、出力データｆ（ｘ，ｙ，ｄｏ）に対して並列にＳＩＭＤ演算を行う。

【0118】

図２１は、演算ユニット５７のブロック図である。
演算ユニット５７は、例えば、ＡＬＵ５７ａと、第一セレクタ５７ｂと、第二セレクタ５７ｃと、レジスタ５７ｄと、シフタ５７ｅと、を有する。演算ユニット５７は、公知の汎用ＳＩＭＤ演算回路が有する他の演算器等をさらに有してもよい。

【0119】

ベクトル演算回路５２は、演算ユニット５７が有する演算器等を組み合わせることで、出力データｆ（ｘ，ｙ，ｄｏ）に対して、量子化演算層２２０におけるプーリング層２２１や、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２や、活性化関数層２２３の演算のうち少なくとも一つの演算を行う。

【0120】

演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより加算できる。演算ユニット５７は、ＡＬＵ５７ａによる加算結果をレジスタ５７ｄに格納できる。演算ユニット５７は、第一セレクタ５７ｂの選択によりレジスタ５７ｄに格納されたデータに代えて「０」をＡＬＵ５７ａに入力することで加算結果を初期化できる。例えばプーリング領域が２×２である場合、シフタ５７ｅはＡＬＵ５７ａの出力を２ｂｉｔ右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式２に示す平均プーリングの演算を実施できる。

【0121】

演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより比較できる。
演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて第二セレクタ５７ｃを制御して、レジスタ５７ｄに格納されたデータと要素ｆ（ｄｉ）の大きい方を選択できる。演算ユニット５７は、第一セレクタ５７ｂの選択により要素ｆ（ｄｉ）の取りうる値の最小値をＡＬＵ５７ａに入力することで比較対象を最小値に初期化できる。本実施形態において要素ｆ（ｄｉ）は１６ｂｉｔ符号付き整数であるので、要素ｆ（ｄｉ）の取りうる値の最小値は「０ｘ８０００」である。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式３のＭＡＸプーリングの演算を実施できる。なお、ＭＡＸプーリングの演算ではシフタ５７ｅは第二セレクタ５７ｃの出力をシフトしない。

【0122】

演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより減算できる。シフタ５７ｅはＡＬＵ５７ａの出力を左シフト（すなわち乗算）もしくは右シフト（すなわち除算）できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式４のＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎの演算を実施できる。

【0123】

演算ユニット５７は、第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）と第一セレクタ５７ｂにより選択された「０」とをＡＬＵ５７ａにより比較できる。演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて要素ｆ（ｄｉ）と予めレジスタ５７ｄに格納された定数値「０」のいずれかを選択して出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式５のＲｅＬＵ演算を実施できる。

【0124】

ベクトル演算回路５２は、平均プーリング、ＭＡＸプーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路５２は、汎用ＳＩＭＤ演算を実施できるため、量子化演算層２２０における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路５２は、量子化演算層２２０における演算以外の演算を実施してもよい。

【0125】

なお、量子化演算回路５は、ベクトル演算回路５２を有してなくてもよい。量子化演算回路５がベクトル演算回路５２を有していない場合、出力データｆ（ｘ，ｙ，ｄｏ）は量子化回路５３に入力される。

【0126】

量子化回路５３は、ベクトル演算回路５２の出力データに対して、量子化を行う。量子化回路５３は、図２０に示すように、Ｂｄ個の量子化ユニット５８を有し、ベクトル演算回路５２の出力データに対して並列に演算を行う。

【0127】

図２２は、量子化ユニット５８の内部ブロック図である。
量子化ユニット５８は、ベクトル演算回路５２の出力データの要素ｉｎ（ｄｉ）に対して量子化を行う。量子化ユニット５８は、比較器５８ａと、エンコーダ５８ｂと、を有する。量子化ユニット５８はベクトル演算回路５２の出力データ（１６ビット／要素）に対して、量子化演算層２２０における量子化層２２４の演算（式６）を行う。量子化ユニット５８は、量子化パラメータメモリ５１から必要な量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を読み出し、比較器５８ａにより入力ｉｎ（ｄｉ）と量子化パラメータｑとの比較を行う。量子化ユニット５８は、比較器５８ａによる比較結果をエンコーダ５８ｂにより２ビット／要素に量子化する。式４におけるα(c)とβ(c)は、変数ｃごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）はｉｎ（ｄｉ）ごとに異なるパラメータである。

【0128】

量子化ユニット５８は、入力ｉｎ（ｄｉ）を３つの閾値ｔｈ０，ｔｈ１，ｔｈ２と比較することにより、入力ｉｎ（ｄｉ）を４領域（例えば、ｉｎ≦ｔｈ０，ｔｈ０＜ｉｎ≦ｔｈ１，ｔｈ１＜ｉｎ≦ｔｈ２，ｔｈ２＜ｉｎ）に分類し、分類結果を２ビットにエンコードして出力する。量子化ユニット５８は、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）の設定により、量子化と併せてＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎや活性化関数の演算を行うこともできる。

【0129】

量子化ユニット５８は、閾値ｔｈ０を式４のβ(ｃ)、閾値の差（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を式４のα(ｃ)として設定して量子化を行うことで、式４に示すＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎの演算を量子化と併せて実施できる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を大きくすることでα(ｃ)を小さくできる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を小さくすることで、α(c)を大きくできる。

【0130】

量子化ユニット５８は、入力ｉｎ（ｄｉ）の量子化と併せて活性化関数のＲｅＬＵ演算を実施できる。例えば、量子化ユニット５８は、ｉｎ（ｄｉ）≦ｔｈ０およびｔｈ２＜ｉｎ（ｄｉ）となる領域では出力値を飽和させる。量子化ユニット５８は、出力が非線形とするように量子化パラメータｑを設定することで活性化関数の演算を量子化と併せて実施できる。

【0131】

ステートコントローラ５４は、ベクトル演算回路５２および量子化回路５３のステートを制御する。また、ステートコントローラ５４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ５４は、命令キュー５５と制御回路５６とを有する。

【0132】

命令キュー５５は、量子化演算回路５用の命令コマンドＣ５が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー５５には、ＩＦＵ７経由または内部バスＩＢ経由で命令コマンドＣ５が書き込まれる。

【0133】

制御回路５６は、命令コマンドＣ５をデコードし、命令コマンドＣ５に基づいてベクトル演算回路５２および量子化回路５３を制御するステートマシンである。制御回路５６は、ＤＭＡＣ３のステートコントローラ３２の制御回路３４と同様の構成である。

【0134】

命令デコンプレッサ５９は、命令コマンドＣ５が圧縮された圧縮命令コマンドから命令コマンドＣ５を復元（Decompress）する。命令デコンプレッサ５９は、畳み込み演算回路４の命令デコンプレッサ４９と同様の構成である。

【0135】

量子化演算回路５は、Ｂｄ個の要素を持つ量子化演算出力データを第一メモリ１に書き込む。なお、ＢｄとＢｃの好適な関係を式１０に示す。式１０においてｎは整数である。

【0136】

【数10】

【0137】

［コントローラ６］
コントローラ６は、外部ホストＣＰＵ１１０から転送される命令コマンドを、内部バスＩＢを介して、ＤＭＡＣ３、畳み込み演算回路４および量子化演算回路５が有する命令キューに転送する。コントローラ６は、各回路に対する命令コマンドを格納する命令メモリを有してもよい。

【0138】

コントローラ６は、外部バスＥＢに接続されており、外部ホストＣＰＵ１１０のスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ回路１００の動作を制御するレジスタである。状態レジスタは、セマフォＳを含むＮＮ回路１００の状態を示すレジスタである。

【0139】

本実施形態に係るニューラルネットワーク回路１００によれば、ＩｏＴ機器などの組み込み機器に組み込み可能なＮＮ回路１００を高性能に動作させることができる。複数のＮＮ演算コア１０を接続することで、より多くのニューラルネットワーク演算を効率的かつ高速に実施することができる。

【0140】

以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

【0141】

（変形例１）
上記実施形態のニューラルネットワーク回路１００を制御する命令コマンドは一つの演算動作について一つの命令コマンドを必要とする例を示したが、命令コマンドの態様はこれに限定されない。命令コマンドは、複数の演算動作を１以上の複数の命令コマンドで実行できる態様であってもよい。具体的には、連続する１ｘ１の畳み込み演算が複数の命令コマンドに基づいて実行させる。当該複数の命令コマンドは、第一メモリ１に保持された入力ベクトルＡの要素Ａ（ｃｉ）の範囲（オフセットおよびステップ）を決定する命令と、重みメモリ４１に保持された重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）の範囲（オフセットおよびステップ）を決定する命令と、積和演算結果Ｏ（ｄｉ）を保存する第二メモリにおける保存位置（オフセット、ステップ）を決定する命令と、１ｘ１の畳み込み演算の繰り返し回数（フィルタサイズ）を決定する命令と、を少なくとも含む。このように複数の演算動作を、より少ない命令コマンドで実行することで、全体の命令コマンドの数も削減することができる。そして、本実施形態の構成を用いることによりさらに命令コマンドの数を削減し、外部メモリ１２０の使用量の増加や外部バスＥＢの帯域の圧迫を低減することができる。

【0142】

（変形例２）
上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

【0143】

（変形例３）
例えば、上記実施形態に記載のＮＮ回路１００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ回路１００に入力されるデータは、ＮＮ回路１００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

【0144】

（変形例４）
ＮＮ回路１００が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

【0145】

（変形例５）
ＮＮ回路１００は、ＮＮ回路１００の一部または全部を一つ以上のプロセッサを用いて実現してもよい。例えば、ＮＮ回路１００は、入力層または出力層の一部または全部をプロセッサによるソフトウェア処理により実現してもよい。ソフトウェア処理により実現する入力層または出力層の一部は、例えば、データの正規化や変換である。これにより、様々な形式の入力形式または出力形式に対応できる。なお、プロセッサで実行するソフトウェアは、通信手段や外部メディアを用いて書き換え可能に構成してもよい。

【0146】

（変形例６）
ＮＮ回路１００は、ＣＮＮ２００における処理の一部をクラウド上のGraphics Processing Unit（GPU）等を組み合わせることで実現してもよい。ＮＮ回路１００は、ＮＮ回路１００が設けられるエッジデバイスで行った処理に加えて、クラウド上でさらに処理を行ったり、クラウド上での処理に加えてエッジデバイス上で処理を行ったりすることで、より複雑な処理を少ないリソースで実現できる。このような構成によれば、ＮＮ回路１００は、処理分散によりエッジデバイスとクラウドとの間の通信量を低減できる。

【0147】

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

【産業上の利用可能性】

【0148】

本発明は、ニューラルネットワークの演算に適用することができる。

【符号の説明】

【0149】

２００畳み込みニューラルネットワーク
１００ニューラルネットワーク回路（ＮＮ回路）
１０ニューラルネットワーク演算コア（ＮＮ演算コア）
１０Ａ第一ニューラルネットワーク演算コア（第一ＮＮ演算コア）
１０Ｂ第二ニューラルネットワーク演算コア（第二ＮＮ演算コア）
１０Ｍニューラルネットワーク演算マルチコア（ＮＮ演算マルチコア）
１第一メモリ
２第二メモリ
３ＤＭＡコントローラ（ＤＭＡＣ）
４畳み込み演算回路
４２乗算器
４３アキュムレータ回路
５量子化演算回路
５２ベクトル演算回路
５３量子化回路
６コントローラ
６１レジスタ
７ＩＦＵ

【図1】