IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ LeapMind株式会社の特許一覧

特開2024-118195ニューラルネットワーク回路およびニューラルネットワーク演算方法
<>
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図1
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図2
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図3
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図4
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図5
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図6
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図7
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図8
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図9
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図10
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図11
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図12
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図13
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図14
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図15
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図16
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図17
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図18
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図19
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図20
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図21
  • 特開-ニューラルネットワーク回路およびニューラルネットワーク演算方法 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024118195
(43)【公開日】2024-08-30
(54)【発明の名称】ニューラルネットワーク回路およびニューラルネットワーク演算方法
(51)【国際特許分類】
   G06N 3/06 20060101AFI20240823BHJP
   G06N 3/0495 20230101ALI20240823BHJP
   G06N 3/0464 20230101ALI20240823BHJP
   G06F 17/10 20060101ALI20240823BHJP
   G06F 7/57 20060101ALI20240823BHJP
【FI】
G06N3/06
G06N3/0495
G06N3/0464
G06F17/10 A
G06F7/57
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023024486
(22)【出願日】2023-02-20
(71)【出願人】
【識別番号】517048278
【氏名又は名称】LeapMind株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100161506
【弁理士】
【氏名又は名称】川渕 健一
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100207789
【弁理士】
【氏名又は名称】石田 良平
(72)【発明者】
【氏名】渡邊 賢治
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB26
(57)【要約】
【課題】IoT機器などの組み込み機器に組み込み可能かつ高性能なニューラルネットワーク回路およびニューラルネットワーク演算方法を提供する。
【解決手段】ニューラルネットワーク回路は、第一命令コマンドに基づいて畳み込み演算を実行する畳み込み演算回路を有するニューラルネットワーク演算コアと、前記第一命令コマンドを格納する命令メモリを有し、前記畳み込み演算回路に前記第一命令コマンドを提供する命令提供ユニットと、前記ニューラルネットワーク演算コアと外部メモリとの間でデータを転送するDMAコントローラと、を備える。
【選択図】図20

【特許請求の範囲】
【請求項1】
第一命令コマンドに基づいて畳み込み演算を実行する畳み込み演算回路を有するニューラルネットワーク演算コアと、
前記第一命令コマンドを格納する命令メモリを有し、前記畳み込み演算回路に前記第一命令コマンドを提供する命令提供ユニットと、
前記ニューラルネットワーク演算コアと外部メモリとの間でデータを転送するDMAコントローラと、
を備える、
ニューラルネットワーク回路。
【請求項2】
前記ニューラルネットワーク回路の動作モードが第一モードであるとき、前記DMAコントローラは、前記外部メモリから前記命令メモリに対して前記第一命令コマンドを転送する、
請求項1に記載のニューラルネットワーク回路。
【請求項3】
前記ニューラルネットワーク回路の前記動作モードが第二モードであるとき、前記命令提供ユニットは、前記命令メモリに格納された前記第一命令コマンドを前記畳み込み演算回路に供給する、
請求項2に記載のニューラルネットワーク回路。
【請求項4】
前記ニューラルネットワーク演算コアは、第二命令コマンドに基づいて前記畳み込み演算回路の畳み込み演算出力データに対して量子化演算を行う量子化演算回路をさらに備え、
前記命令メモリは、前記第二命令コマンドを格納し、
前記ニューラルネットワーク回路の動作モードが前記第一モードであるとき、前記DMAコントローラは、前記外部メモリから前記命令メモリに対して前記第二命令コマンドを転送する、
請求項2に記載のニューラルネットワーク回路。
【請求項5】
前記ニューラルネットワーク回路の前記動作モードが第二モードであるとき、前記命令提供ユニットは、前記命令メモリに格納された前記第二命令コマンドを前記量子化演算回路に供給する、
請求項4に記載のニューラルネットワーク回路。
【請求項6】
前記DMAコントローラは、第三命令コマンドに基づいて前記データを転送し、
前記命令メモリは、前記第三命令コマンドを格納し、
前記ニューラルネットワーク回路の動作モードが前記第一モードであるとき、前記DMAコントローラは、前記外部メモリから前記命令メモリに対して前記第三命令コマンドを転送する、
請求項2に記載のニューラルネットワーク回路。
【請求項7】
前記ニューラルネットワーク回路の前記動作モードが第二モードであるとき、前記命令提供ユニットは、前記命令メモリに格納された前記第三命令コマンドを前記DMAコントローラに供給する、
請求項6に記載のニューラルネットワーク回路。
【請求項8】
前記命令メモリは、シングルポートRAMで実装されている、
請求項1に記載のニューラルネットワーク回路。
【請求項9】
前記命令メモリは、第一アプリケーションに使用する前記第一命令コマンドと、前記第一アプリケーションと異なる第二アプリケーションに使用する前記第一命令コマンドと、を格納する、
請求項1に記載のニューラルネットワーク回路。
【請求項10】
前記ニューラルネットワーク演算コアを複数有し、
前記複数のニューラルネットワーク演算コアは、データ入出力可能に接続されている、
請求項1に記載のニューラルネットワーク回路。
【請求項11】
第一命令コマンドに基づいて畳み込み演算を実行する畳み込み演算回路と、前記第一命令コマンドを格納する命令メモリを有する命令提供ユニットと、を用いるニューラルネットワーク演算方法であって、
前記命令メモリに前記第一命令コマンドを格納する第一工程と、
前記第一工程が完了した後において、前記命令メモリに格納された前記第一命令コマンドを前記畳み込み演算回路に提供する第二工程と、
を備える、
ニューラルネットワーク演算方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワーク回路およびニューラルネットワーク演算方法に関する。
【背景技術】
【0002】
近年、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている(特許文献1など)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-077829号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方で、IoT機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等を実現することが望まれている。組み込み機器においては、特許文献1等に記載された大規模な専用回路を組み込むことは難しい。また、CPUやメモリ等のハードウェアリソースが限られた組み込み機器においては、畳み込みニューラルネットワークの十分な演算性能をソフトウェアのみにより実現することは難しい。
【0005】
上記事情を踏まえ、本発明は、IoT機器などの組み込み機器に組み込み可能かつ高性能なニューラルネットワーク回路およびニューラルネットワーク演算方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク回路は、第一命令コマンドに基づいて畳み込み演算を実行する畳み込み演算回路を有するニューラルネットワーク演算コアと、前記第一命令コマンドを格納する命令メモリを有し、前記畳み込み演算回路に前記第一命令コマンドを提供する命令提供ユニットと、前記ニューラルネットワーク演算コアと外部メモリとの間でデータを転送するDMAコントローラと、を備える。
【0007】
本発明の第二の態様に係るニューラルネットワーク演算方法は、第一命令コマンドに基づいて畳み込み演算を実行する畳み込み演算回路と、前記第一命令コマンドを格納する命令メモリを有する命令提供ユニットと、を用いるニューラルネットワーク演算方法であって、前記命令メモリに前記第一命令コマンドを格納する第一工程と、前記第一工程が完了した後において、前記命令メモリに格納された前記第一命令コマンドを前記畳み込み演算回路に提供する第二工程と、を備える。
【発明の効果】
【0008】
本発明のニューラルネットワーク回路およびニューラルネットワーク演算方法は、IoT機器などの組み込み機器に組み込み可能かつ高性能である。
【図面の簡単な説明】
【0009】
図1】畳み込みニューラルネットワークを示す図である。
図2】畳み込み層が行う畳み込み演算を説明する図である。
図3】畳み込み演算のデータの展開を説明する図である。
図4】第一実施形態に係るニューラルネットワーク回路の全体構成を示す図である。
図5】NN演算コアの全体構成を示す図である。
図6】同NN演算コアの動作例を示すタイミングチャートである。
図7】同NN演算コアの他の動作例を示すタイミングチャートである。
図8】NN演算マルチコアを示す図である。
図9】同ニューラルネットワーク回路のDMACの内部ブロック図である。
図10】同DMACの制御回路のステート遷移図である。
図11】同ニューラルネットワーク回路の畳み込み演算回路の内部ブロック図である。
図12】同畳み込み演算回路の乗算器の内部ブロック図である。
図13】同乗算器の積和演算ユニットの内部ブロック図である。
図14】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。
図15】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。
図16】同畳み込み演算回路の命令デコンプレッサの内部ブロック図である。
図17】同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。
図18】演算ユニットのブロック図である。
図19】同量子化回路のベクトル量子化ユニットの内部ブロック図である。
図20】同ニューラルネットワーク回路の命令供給ユニットのブロック図である。
図21】同命令供給ユニット命令メモリのメモリマップを示す図である。
図22】同ニューラルネットワーク回路の制御フローチャートである。
【発明を実施するための形態】
【0010】
(第一実施形態)
本発明の第一実施形態について、図1から図22を参照して説明する。
図1は、畳み込みニューラルネットワーク200(以下、「CNN200」という)を示す図である。第一実施形態に係るニューラルネットワーク回路100(以下、「NN回路100」という)が行う演算は、推論時に使用する学習済みのCNN200の少なくとも一部である。
【0011】
[CNN200]
CNN200は、畳み込み演算を行う畳み込み層210と、量子化演算を行う量子化演算層220と、出力層230と、を含む多層構造のネットワークである。CNN200の少なくとも一部において、畳み込み層210と量子化演算層220とが交互に連結されている。CNN200は、画像認識や動画認識に広く使われるモデルである。CNN200は、全結合層などの他の機能を有する層(レイヤ)をさらに有してもよい。
【0012】
図2は、畳み込み層210が行う畳み込み演算を説明する図である。
畳み込み層210は、入力データaに対して重みwを用いた畳み込み演算を行う。畳み込み層210は、入力データaと重みwとを入力とする積和演算を行う。
【0013】
畳み込み層210への入力データa(アクティベーションデータ、特徴マップともいう)は、画像データ等の多次元データである。本実施形態において、入力データaは、要素(x,y,c)からなる3次元テンソルである。CNN200の畳み込み層210は、低ビットの入力データaに対して畳み込み演算を行う。本実施形態において、入力データaの要素は、2ビットの符号なし整数(0,1,2,3)である。入力データaの要素は、例えば、4ビットや8ビット符号なし整数でもよい。
【0014】
CNN200に入力される入力データが、例えば32ビットの浮動小数点型など、畳み込み層210への入力データaと形式が異なる場合、CNN200は畳み込み層210の前に型変換や量子化を行う入力層をさらに有してもよい。
【0015】
畳み込み層210の重みw(フィルタ、カーネルともいう)は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みwは、要素(i,j,c,d)からなる4次元テンソルである。重みwは、要素(i,j,c)からなる3次元テンソル(以降、「重みwo」という)をd個有している。学習済みのCNN200における重みwは、学習済みのデータである。CNN200の畳み込み層210は、低ビットの重みwを用いて畳み込み演算を行う。本実施形態において、重みwの要素は、1ビットの符号付整数(0,1)であり、値「0」は+1を表し、値「1」は-1を表す。
【0016】
畳み込み層210は、式1に示す畳み込み演算を行い、出力データfを出力する。式1において、sはストライドを示す。図2において点線で示された領域は、入力データaに対して重みwoが適用される領域ao(以降、「適用領域ao」という)の一つを示している。適用領域aoの要素は、(x+i,y+j,c)で表される。
【0017】
【数1】
【0018】
量子化演算層220は、畳み込み層210が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層220は、プーリング層221と、Batch Normalization層222と、活性化関数層223と、量子化層224と、を有する。
【0019】
プーリング層221は、畳み込み層210が出力する畳み込み演算の出力データfに対して平均プーリング(式2)やMAXプーリング(式3)などの演算を実施して、畳み込み層210の出力データfを圧縮する。式2および式3において、uは入力テンソルを示し、vは出力テンソルを示し、Tはプーリング領域の大きさを示す。式3において、maxはTに含まれるiとjの組み合わせに対するuの最大値を出力する関数である。
【0020】
【数2】
【0021】
【数3】
【0022】
Batch Normalization層222は、量子化演算層220やプーリング層221の出力データに対して、例えば式4に示すような演算によりデータ分布の正規化を行う。式4において、uは入力テンソルを示し、vは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのCNN200において、αおよびβは学習済みの定数ベクトルである。
【0023】
【数4】
【0024】
活性化関数層223は、量子化演算層220やプーリング層221やBatch Normalization層222の出力に対してReLU(式5)などの活性化関数の演算を行う。式5において、uは入力テンソルであり、vは出力テンソルである。式5において、maxは引数のうち最も大きい数値を出力する関数である。
【0025】
【数5】
【0026】
量子化層224は、量子化パラメータに基づいて、プーリング層221や活性化関数層223の出力に対して例えば式6に示すような量子化を行う。式6に示す量子化は、入力テンソルuを2ビットにビット削減している。式6において、q(c)は量子化パラメータのベクトルである。学習済みのCNN200において、q(c)は学習済みの定数ベクトルである。式6における不等号「≦」は「<」であってもよい。
【0027】
【数6】
【0028】
出力層230は、恒等関数やソフトマックス関数等によりCNN200の結果を出力する層である。出力層230の前段のレイヤは、畳み込み層210であってもよいし、量子化演算層220であってもよい。
【0029】
CNN200は、量子化された量子化層224の出力データが、畳み込み層210に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層210の畳み込み演算の負荷が小さい。
【0030】
[畳み込み演算の分割]
NN回路100は、畳み込み層210の畳み込み演算(式1)の入力データを部分テンソルに分割して演算する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データa(x+i,y+j,c)をa(x+i,y+j,co)に分割することにより形成される。なお、NN回路100は、畳み込み層210の畳み込み演算(式1)の入力データを分割せずに演算することもできる。
【0031】
畳み込み演算の入力データ分割において、式1における変数cは、式7に示すように、サイズBcのブロックで分割される。また、式1における変数dは、式8に示すように、サイズBdのブロックで分割される。式7において、coはオフセットであり、ciは0から(Bc-1)までのインデックスである。式8において、doはオフセットであり、diは0から(Bd-1)までのインデックスである。なお、サイズBcとサイズBdは同じであってもよい。
【0032】
【数7】
【0033】
【数8】
【0034】
式1における入力データa(x+i,y+j,c)は、c軸方向においてサイズBcにより分割され、分割された入力データa(x+i,y+j,co)で表される。以降の説明において、分割された入力データaを「分割入力データa」ともいう。
【0035】
式1における重みw(i,j,c,d)は、c軸方向においてサイズBcおよびd軸方向においてサイズBdにより分割され、分割された重みw(i,j,co,do)で表される。以降の説明において、分割された重みwを「分割重みw」ともいう。
【0036】
サイズBdにより分割された出力データf(x,y,do)は、式9により求まる。分割された出力データf(x,y,do)を組み合わせることで、最終的な出力データf(x,y,d)を算出できる。
【0037】
【数9】
【0038】
[畳み込み演算のデータの展開]
NN回路100は、畳み込み層210の畳み込み演算における入力データaおよび重みwを展開して畳み込み演算を行う。
【0039】
図3は、畳み込み演算のデータの展開を説明する図である。
分割入力データa(x+i、y+j、co)は、Bc個の要素を持つベクトルデータに展開される。分割入力データaの要素は、ciでインデックスされる(0≦ci<Bc)。以降の説明において、i,jごとにベクトルデータに展開された分割入力データaを「入力ベクトルA」ともいう。入力ベクトルAは、分割入力データa(x+i、y+j、co×Bc)から分割入力データa(x+i、y+j、co×Bc+(Bc-1))までを要素とする。
【0040】
分割重みw(i,j,co、do)は、Bc×Bd個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みwの要素は、ciとdiでインデックスされる(0≦di<Bd)。以降の説明において、i,jごとにマトリクスデータに展開された分割重みwを「重みマトリクスW」ともいう。重みマトリクスWは、分割重みw(i,j,co×Bc、do×Bd)から分割重みw(i,j,co×Bc+(Bc-1)、do×Bd+(Bd-1))までを要素とする。
【0041】
入力ベクトルAと重みマトリクスWとを乗算することで、ベクトルデータが算出される。i,j,coごとに算出されたベクトルデータを3次元テンソルに整形することで、出力データf(x,y,do)を得ることができる。このようなデータの展開を行うことで、畳み込み層210の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。
【0042】
[NN回路100]
図4は、本実施形態に係るNN回路100の全体構成を示す図である。
NN回路100は、DMAコントローラ3(以下、「DMAC3」ともいう)と、コントローラ6と、命令供給ユニット7と、少なくとも一つのニューラルネットワーク演算コア10(以下、「NN演算コア10」ともいう)と、を備える。
【0043】
NN回路100は、複数のNN演算コア10を実装可能である。図4に例示するNN回路100は、NN演算コア10を最大4つまで実装可能である。複数のNN演算コア10は、NN200の少なくとの一部の演算を連携して実行する「ニューラルネットワーク演算マルチコア10M(以下、「NN演算マルチコア10M」ともいう)」を構成する。複数のNN演算コア10は、本実施形態においてデイジーチェーン接続されている。なお、NN回路100に実装可能なNN演算コア10の数は5個以上であってもよい。
【0044】
DMAC3は、外部バスEBに接続されており、DRAMなどの外部メモリ120と命令供給ユニット7との間でデータを転送する。また、DMAC3は、DRAMなどの外部メモリ120とNN演算コア10との間でデータを転送する。DMAC3は、複数のNN演算コア10のいずれかに対して外部メモリ120から読み出したデータを転送する。なお、DMAC3は、複数のNN演算コア10に対して外部メモリ120から読み出した同一のデータを転送可能であってもよいし、ブロードキャスト可能であってもよい。
【0045】
コントローラ6は、外部バスEBに接続されており、外部のホストCPU110のスレーブとして動作する。コントローラ6は、バスブリッジ60と、レジスタ61と、を有する。
【0046】
バスブリッジ60は、外部バスEBから内部バスIBへのバスアクセスを中継する。また、バスブリッジ60は、外部ホストCPU110からレジスタ61への書き込み要求および読み込み要求を中継する。
【0047】
レジスタ61は、パラメータレジスタや状態レジスタを有する。パラメータレジスタは、NN回路100の動作を制御するレジスタである。状態レジスタは各モジュールの命令列のポインタ・命令数などを含み、NN回路100の状態を示すレジスタである。また、状態レジスタはセマフォSを含む構成としてよい。外部ホストCPU110は、コントローラ6のバスブリッジ60を経由して、レジスタ61にアクセスできる。
【0048】
コントローラ6は、内部バスIBを介して、NN回路100の各ブロック(DMAC3、命令供給ユニット7、NN演算コア10)と接続されている。外部ホストCPU110は、コントローラ6を経由して、NN回路100の各ブロックに対してアクセスできる。例えば、外部ホストCPU110は、コントローラ6を経由して、NN演算コア10に対する命令を指示することができる。また、各ブロックは、内部バスIBを介して、コントローラ6が有する状態レジスタ(セマフォSを含んでもよい)を更新できる。状態レジスタは、各ブロックと接続された専用配線を介して更新されるように構成されていてもよい。
【0049】
命令供給ユニット(ISU : Instruction Supply Unit)7は、動作ブロック(DMAC3、NN演算コア10の畳み込み演算回路4および量子化演算回路5)に対する命令コマンドを記憶する。また、命令供給ユニット7は、記憶した命令コマンドを対応するNN回路100の動作ブロック(DMAC3、NN演算コア10の畳み込み演算回路4および量子化演算回路5)に転送する。
【0050】
[NN回路100:動作モード]
NN回路100は、プリロードモードと、ノーマルモードとの、二つの動作モードを有する。本実施形態において、NN回路100は、プリロードモードとノーマルモードとを排他的に切り替えて動作する。なお、NN回路100は他の動作モードを有してもよい。また、NN回路100の動作モードは、レジスタ61に含まれる「動作モード設定レジスタ」を書き換えることで、切り換え可能であってもよい。
【0051】
動作モードがプリロードモード(第一モード)であるとき、DMAC3は、外部メモリ120に格納された動作ブロック(DMAC3、NN演算コア10の畳み込み演算回路4および量子化演算回路5)の命令コマンドを命令供給ユニットに転送する。このとき、DMAC3は、外部メモリ120に格納された重みwを重みメモリ41に転送してもよい。また、DMAC3は、外部メモリ120に格納された量子化パラメータqを量子化パラメータメモリ51に転送してもよい。
【0052】
動作モードがノーマルモード(第二モード)であるとき、命令供給ユニット7は、格納された動作ブロック(DMAC3、NN演算コア10の畳み込み演算回路4および量子化演算回路5)の命令コマンドを動作ブロック(DMAC3、NN演算コア10の畳み込み演算回路4および量子化演算回路5)に供給する。動作ブロック(DMAC3、NN演算コア10の畳み込み演算回路4および量子化演算回路5)は、供給された命令コマンドを実行する。
【0053】
[NN演算コア10]
図5は、NN演算コア10の全体構成を示す図である。
NN演算コア10は、第一メモリ1と、第二メモリ2と、畳み込み演算回路4と、量子化演算回路5と、を備える。NN演算コア10は、第一メモリ1および第二メモリ2を介して、畳み込み演算回路4と量子化演算回路5とがループ状に形成されていることを特徴とする。
【0054】
第一メモリ1は、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ1には、DMAC3や内部バスIBを介してデータの書き込みおよび読み出しが行われる。外部ホストCPU110は、第一メモリ1に対するデータの書き込みや読み出しにより、NN演算コア10に対するデータの入出力を行うことができる。
【0055】
第一メモリ1は、畳み込み演算回路4の入力ポートと接続されており、畳み込み演算回路4は第一メモリ1からデータを読み出すことができる。また、第一メモリ1は、量子化演算回路5の出力ポートとループ接続(C1)されており、量子化演算回路5は第一メモリ1にデータを書き込むことができる。また、第一メモリ1は、他のNN演算コア10との間のコア間接続(C2)でデータ転送が可能であり、コア間接続(C2)された他のNN演算コア10は第一メモリ1にデータを書き込むことができる。なお、本実施形態において、コア間接続(C2)の一例として、デイジーチェーン接続を用いている。
【0056】
第二メモリ2は、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ2には、DMAC3や内部バスIBを介してデータの書き込みおよび読み出しが行われる。外部ホストCPU110は、第二メモリ2に対するデータの書き込みや読み出しにより、NN演算コア10に対するデータの入出力を行うことができる。
【0057】
第二メモリ2は、量子化演算回路5の入力ポートと接続されており、量子化演算回路5は第二メモリ2からデータを読み出すことができる。また、第二メモリ2は、畳み込み演算回路4の出力ポートと接続されており、畳み込み演算回路4は第二メモリ2にデータを書き込むことができる。
【0058】
畳み込み演算回路4は、学習済みのCNN200の畳み込み層210における畳み込み演算を行う回路である。畳み込み演算回路4は、第一メモリ1に格納された入力データaを読み出し、入力データaに対して畳み込み演算を実施する。畳み込み演算回路4は、畳み込み演算の出力データf(以降、「畳み込み演算出力データ」ともいう)を第二メモリ2に書き込む。
【0059】
量子化演算回路5は、学習済みのCNN200の量子化演算層220における量子化演算の少なくとも一部を行う回路である。量子化演算回路5は、第二メモリ2に格納された畳み込み演算の出力データfを読み出し、畳み込み演算の出力データfに対して量子化演算(プーリング、Batch Normalization、活性化関数、および量子化のうち少なくとも量子化を含む演算)を実施する。
【0060】
量子化演算回路5は、量子化演算の出力データ(以降、「量子化演算出力データ」ともいう)をループ接続(C1)された第一メモリ1に書き込む。また、量子化演算回路5は、他のNN演算コア10とコア間接続(C2)経由でデータ転送可能であり、量子化演算回路5はコア間接続(C2)された他のNN演算コア10に量子化演算出力データを出力することができる。
【0061】
NN演算コア10は、第一メモリ1や第二メモリ2等を有するため、DRAMなどの外部メモリからのDMAC3によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力または処理負荷を大幅に低減することができる。
【0062】
[NN演算コア10の動作例1]
図6は、NN演算コア10の動作例を示すタイミングチャートである。
DMAC3は、レイヤ1の入力データaを第一メモリ1に格納する。DMAC3は、畳み込み演算回路4が行う畳み込み演算の順序にあわせて、レイヤ1の入力データaを分割して第一メモリ1に転送してもよい。
【0063】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ1の入力データaを読み出す。畳み込み演算回路4は、レイヤ1の入力データaに対して図1に示すレイヤ1の畳み込み演算を行う。レイヤ1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0064】
量子化演算回路5は、第二メモリ2に格納されたレイヤ1の出力データfを読み出す。量子化演算回路5は、レイヤ1の出力データfに対してレイヤ2の量子化演算を行う。レイヤ2の量子化演算の出力データは、第一メモリ1に格納される。
【0065】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2の量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2の量子化演算の出力データを入力データaとしてレイヤ3の畳み込み演算を行う。レイヤ3の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0066】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2M-2(Mは自然数)の量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2M-2の量子化演算の出力データを入力データaとしてレイヤ2M-1の畳み込み演算を行う。レイヤ2M-1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0067】
量子化演算回路5は、第二メモリ2に格納されたレイヤ2M-1の出力データfを読み出す。量子化演算回路5は、2M-1レイヤの出力データfに対してレイヤ2Mの量子化演算を行う。レイヤ2Mの量子化演算の出力データは、第一メモリ1に格納される。
【0068】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2Mの量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2Mの量子化演算の出力データを入力データaとしてレイヤ2M+1の畳み込み演算を行う。レイヤ2M+1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0069】
畳み込み演算回路4と量子化演算回路5とが交互に演算を行い、図1に示すCNN200の演算を進めていく。NN演算コア10は、畳み込み演算回路4が時分割によりレイヤ2M-1とレイヤ2M+1の畳み込み演算を実施する。また、NN演算コア10は、量子化演算回路5が時分割によりレイヤ2M-2とレイヤ2Mの量子化演算を実施する。そのため、NN演算コア10は、レイヤごとに別々の畳み込み演算回路4と量子化演算回路5を実装する場合と比較して、回路規模が著しく小さい。
【0070】
NN演算コア10は、複数のレイヤの多層構造であるCNN200の演算を、ループ状に形成された回路により演算する。NN演算コア10は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。なお、NN演算コア10は、ループ状に回路を形成するために、各レイヤで変化する畳み込み演算回路4や量子化演算回路5におけるパラメータは適宜更新される。
【0071】
CNN200の演算にNN演算コア10により実施できない演算が含まれる場合、NN演算コア10は外部ホストCPU110などの外部演算デバイスに中間データを転送する。外部演算デバイスが中間データに対して演算を行った後、外部演算デバイスによる演算結果は第一メモリ1や第二メモリ2に入力される。NN演算コア10は、外部演算デバイスによる演算結果に対する演算を再開する。
【0072】
[NN演算コア10の動作例2]
図7は、NN演算コア10の他の動作例を示すタイミングチャートである。
NN演算コア10は、入力データaを部分テンソルに分割して、時分割により部分テンソルに対する演算を行ってもよい。部分テンソルへの分割方法や分割数は特に限定されない。
【0073】
図7は、入力データaを二つの部分テンソルに分解した場合の動作例を示している。分解された部分テンソルを、「第一部分テンソルa1」、「第二部分テンソルa2」とする。例えば、レイヤ2M-1の畳み込み演算は、第一部分テンソルa1に対応する畳み込み演算(図7において、「レイヤ2M-1(a1)」と表記)と、第二部分テンソルa2に対応する畳み込み演算(図7において、「レイヤ2M-1(a2)」と表記)と、に分解される。
【0074】
第一部分テンソルa1に対応する畳み込み演算および量子化演算と、第二部分テンソルa2に対応する畳み込み演算および量子化演算とは、図7に示すように、独立して実施することができる。
【0075】
畳み込み演算回路4は、第一部分テンソルa1に対応するレイヤ2M-1の畳み込み演算(図7において、レイヤ2M-1(a1)で示す演算)を行う。その後、畳み込み演算回路4は、第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算(図7において、レイヤ2M-1(a)で示す演算)を行う。また、量子化演算回路5は、第一部分テンソルa1に対応するレイヤ2Mの量子化演算(図7において、レイヤ2M(a1)で示す演算)を行う。このように、NN演算コア10は、第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算と、第一部分テンソルa1に対応するレイヤ2Mの量子化演算と、を並列に実施できる。
【0076】
次に、畳み込み演算回路4は、第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算(図7において、レイヤ2M+1(a1)で示す演算)を行う。また、量子化演算回路5は、第二部分テンソルaに対応するレイヤ2Mの量子化演算(図7において、レイヤ2M(a)で示す演算)を行う。このように、NN演算コア10は、第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算と、第二部分テンソルaに対応するレイヤ2Mの量子化演算と、を並列に実施できる。
【0077】
第一部分テンソルa1に対応する畳み込み演算および量子化演算と、第二部分テンソルa2に対応する畳み込み演算および量子化演算とは、独立して実施することができる。そのため、NN演算コア10は、例えば、第一部分テンソルa1に対応するレイヤ2M-1の畳み込み演算と、第二部分テンソルaに対応するレイヤ2M+2の量子化演算と、を並列に実施してもよい。すなわち、NN演算コア10が並列で演算する畳み込み演算と量子化演算は、連続するレイヤの演算に限定されない。
【0078】
入力データaを部分テンソルに分割することで、NN演算コア10は畳み込み演算回路4と量子化演算回路5とを並列して動作させることができる。その結果、畳み込み演算回路4と量子化演算回路5が待機する時間が削減され、NN演算コア10の演算処理効率が向上する。図7に示す動作例において分割数は2であったが、分割数が2より大きい場合も同様に、NN演算コア10は畳み込み演算回路4と量子化演算回路5とを並列して動作させることができる。
【0079】
例えば、入力データaが「第一部分テンソルa1」、「第二部分テンソルa2」および「第三部分テンソルa」に分割される場合、NN演算コア10は、第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算と、第三部分テンソルaに対応するレイヤ2Mの量子化演算と、を並列に実施してもよい。演算の順序は、第一メモリ1および第二メモリ2における入力データaの格納状況によって適宜変更される。
【0080】
なお、部分テンソルに対する演算方法としては、同一レイヤにおける部分テンソルの演算を畳み込み演算回路4または量子化演算回路5で行った後に次のレイヤにおける部分テンソルの演算を行う例(方法1)を示した。例えば、図7に示すように、畳み込み演算回路4において、第一部分テンソルa1および第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算(図7において、レイヤ2M-1(a1)およびレイヤ2M-1(a)で示す演算)を行った後に、第一部分テンソルa1および第二部分テンソルaに対応するレイヤ2M+1の畳み込み演算(図7において、レイヤ2M+1(a1)およびレイヤ2M+1(a)で示す演算)を実施している。
【0081】
しかしながら、部分テンソルに対する演算方法はこれに限られない。部分テンソルに対する演算方法は、複数レイヤにおける一部の部分テンソルの演算をした後に残部の部分テンソルの演算を実施する方法でもよい(方法2)。例えば、畳み込み演算回路4において、第一部分テンソルa1に対応するレイヤ2M-1および第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算を行った後に、第二部分テンソルaに対応するレイヤ2M-1および第二部分テンソルaに対応するレイヤ2M+1の畳み込み演算を実施してもよい。
【0082】
また、部分テンソルに対する演算方法は、方法1と方法2とを組み合わせて部分テンソルを演算する方法でもよい。ただし、方法2を用いる場合は、部分テンソルの演算順序に関する依存関係に従って演算を実施する必要がある。
【0083】
[NN演算マルチコア10M]
図8は、NN演算マルチコア10Mを示す図である。
図8に例示するNN演算マルチコア10Mは、デイジーチェーン接続された二つのNN演算コア10を備える。二つのNN演算コア10を区別する場合、二つのNN演算コア10を、「第一NN演算コア10A」と、「第二NN演算コア10B」という。なお、図8において、第一メモリ1は「A」、畳み込み演算回路4は「C」、第二メモリ2は「F」、量子化演算回路5は「Q」として略記されている。
【0084】
具体的には、第一NN演算コア10Aの量子化演算回路5と、第二NN演算コア10Bの第一メモリ1とがデイジーチェーン接続(C2)されている。第一NN演算コア10Aの量子化演算回路5は、ループ接続(C1)された第一NN演算コア10Aの第一メモリ1または/およびデイジーチェーン接続(C2)された第二NN演算コア10Bの第一メモリ1に量子化演算出力データを書き込むことができる。
【0085】
具体的には、第二NN演算コア10Bの量子化演算回路5と、第一NN演算コア10Aの第一メモリ1とがデイジーチェーン接続(C2)されている。第二NN演算コア10Bの量子化演算回路5は、ループ接続(C1)された第二NN演算コア10Bの第一メモリ1または/およびデイジーチェーン接続(C2)された第一NN演算コア10Aの第一メモリ1に量子化演算出力データを書き込むことができる。
【0086】
NN演算マルチコア10Mが三つ以上のNN演算コア10を備える場合も同様に、複数のNN演算コア10はデイジーチェーン接続される。最終段のNN演算コア10以外のNN演算コア10の量子化演算回路5は、後段のNN演算コア10Bの第一メモリ1とデイジーチェーン接続(C2)される。最終段のNN演算コア10の量子化演算回路5は、最初段のNN演算コア10の第一メモリ1とデイジーチェーン接続(C2)されている。複数のNN演算コア10はデイジーチェーンループ(数珠繋ぎ)状に形成されていることを特徴とする。
【0087】
一つのNN演算コア10において、第一メモリ(A)1と畳み込み演算回路(C)4と第二メモリ(F)2と量子化演算回路(Q)5とは、ループ状に接続されている。一方、NN演算マルチコア10Mにおいては、第一メモリ(A)1と畳み込み演算回路(C)4と第二メモリ(F)2と量子化演算回路(Q)5とは、第一メモリ(A)1と畳み込み演算回路(C)4と第二メモリ(F)2と量子化演算回路(Q)5とが同じ順番で繰り返し配列するように、デイジーチェーンループ(数珠繋ぎ)状に接続されている。
【0088】
NN演算マルチコア10Mを構成する複数のNN演算コア10は、同一のハードウェア構成でなくてもよい。例えば、第一NN演算コア10Aの第一メモリ1の容量・構成は、第二NN演算コア10Bの第一メモリ1の容量・構成と異なっていてもよい。例えば、第一NN演算コア10Aの量子化演算回路5の構成は、第二NN演算コア10Bの量子化演算回路5の構成と異なっていてもよい。
【0089】
次に、NN回路100の各構成に関して詳しく説明する。
【0090】
[DMAC3]
図9は、DMAC3の内部ブロック図である。
DMAC3は、データ転送回路31と、ステートコントローラ32と、プリロード命令ジュネレータ35と、を有する。DMAC3は、データ転送回路31に対する専用のステートコントローラ32を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにDMAデータ転送を実施できる。
【0091】
データ転送回路31は、外部バスEBに接続されており、DRAMなどの外部メモリ120とNN演算コア10との間でデータを転送する。データ転送回路31のDMAチャンネル数は限定されない。例えば、第一NN演算コア10Aと第二NN演算コア10Bのそれぞれに専用のDMAチャンネルを有していてもよい。
【0092】
ステートコントローラ32は、データ転送回路31のステートを制御する。また、ステートコントローラ32は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ32は、命令キュー33と制御回路34とを有する。
【0093】
命令キュー33は、DMAC3用の命令コマンドC3が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー33には、命令供給ユニット7経由または内部バスIB経由で1つ以上の命令コマンドC3が書き込まれる。
【0094】
制御回路34は、命令コマンドC3をデコードし、命令コマンドC3に基づいて順次データ転送回路31を制御するステートマシンである。制御回路34は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるCPUによって実装されていてもよい。
【0095】
図10は、制御回路34のステート遷移図である。
制御回路34は、命令キュー33に命令コマンドC3が入力されると(Not empty)、アイドルステートST1からデコードステートST2に遷移する。
【0096】
制御回路34は、デコードステートST2において、命令キュー33から出力される命令コマンドC3をデコードする。また、制御回路34は、コントローラ6のレジスタ61に格納されたセマフォSを読み出し、命令コマンドC3において指示されたデータ転送回路31の動作を実行可能であるかを判定する。実行不能である場合(Not ready)、制御回路34は実行可能となるまで待つ(Wait)。実行可能である場合(ready)、制御回路34はデコードステートST2から実行ステートST3に遷移する。
【0097】
制御回路34は、実行ステートST3において、データ転送回路31を制御して、データ転送回路31に命令コマンドC3において指示された動作を実施させる。制御回路34は、データ転送回路31の動作が終わると、命令キュー33から実行を終えた命令コマンドC3を取り除くとともに、コントローラ6のレジスタ61に格納されたセマフォSを更新する。制御回路34は、命令キュー33に命令がある場合(Not empty)、実行ステートST3からデコードステートST2に遷移する。制御回路34は、命令キュー33に命令がない場合(empty)、実行ステートST3からアイドルステートST1に遷移する。
【0098】
プリロード命令ジュネレータ35は、コントローラ6のレジスタ61に含まれる「プリロードモードレジスタ」に設定されたデータ転送に関する設定値(転送元アドレス、転送先アドレス、データ転送量)に基づいて、設定されたデータ転送をデータ転送回路31に実行させる命令コマンドC3を生成して命令キュー33に入力する。なお、プリロード命令ジュネレータ35は、DMAC3ではなくコントローラ6に配置されていてもよい。
【0099】
[DMAC3:プリロードモードにおける動作]
NN回路100の動作モードがプリロードモードであるとき、データ転送回路31は、レジスタ61に含まれるプリロードモードの設定に関するパラメータレジスタ(プリロードモードレジスタ)に基づいて、外部メモリ120から命令供給ユニット7に対するDMA転送(以降、「プリロード」ともいう)を実施する。ステートコントローラ32は、プリロード命令ジュネレータ35が供給した命令コマンドC3に基づいて動作する。
【0100】
[DMAC3:ノーマルモードにおける動作]
NN回路100の動作モードがノーマルモードであるとき、命令供給ユニット7は、命令キュー33に命令コマンドC3を供給する。ステートコントローラ32は、命令供給ユニット7が供給した命令コマンドC3に基づいて動作する。
【0101】
[畳み込み演算回路4]
図11は、畳み込み演算回路4の内部ブロック図である。
畳み込み演算回路4は、重みメモリ41と、乗算器42と、アキュムレータ回路43と、ステートコントローラ44と、を有する。畳み込み演算回路4は、乗算器42およびアキュムレータ回路43に対する専用のステートコントローラ44を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。
【0102】
重みメモリ41は、畳み込み演算に用いる重みwが格納されるメモリであり、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。DMAC3は、DMA転送により、畳み込み演算に必要な重みwを重みメモリ41に書き込む。
【0103】
図12は、乗算器42の内部ブロック図である。
乗算器42は、入力ベクトルAと重みマトリクスWとを乗算する。入力ベクトルAは、上述したように、分割入力データa(x+i、y+j、co)がi、jごとに展開されたBc個の要素を持つベクトルデータである。また、重みマトリクスWは、分割重みw(i,j,co、do)がi、jごとに展開されたBc×Bd個の要素を持つマトリクスデータである。乗算器42は、Bc×Bd個の積和演算ユニット47を有し、入力ベクトルAと重みマトリクスWとを乗算を並列して実施できる。
【0104】
乗算器42は、乗算に必要な入力ベクトルAと重みマトリクスWを、第一メモリ1および重みメモリ41から読み出して乗算を実施する。乗算器42は、Bd個の積和演算結果O(di)を出力する。
【0105】
図13は、積和演算ユニット47の内部ブロック図である。
積和演算ユニット47は、入力ベクトルAの要素A(ci)と、重みマトリクスWの要素W(ci,di)との乗算を実施する。また、積和演算ユニット47は、乗算結果と他の積和演算ユニット47の乗算結果S(ci,di)と加算する。積和演算ユニット47は、加算結果S(ci+1,di)を出力する。要素A(ci)は、2ビットの符号なし整数(0,1,2,3)である。要素W(ci,di)は、1ビットの符号付整数(0,1)であり、値「0」は+1を表し、値「1」は-1を表す。
【0106】
積和演算ユニット47は、反転器(インバータ)47aと、セレクタ47bと、加算器47cと、を有する。積和演算ユニット47は、乗算器を用いず、反転器47aおよびセレクタ47bのみを用いて乗算を行う。セレクタ47bは、要素W(ci,di)が「0」の場合、要素A(ci)の入力を選択する。セレクタ47bは、要素W(ci,di)が「1」の場合、要素A(ci)を反転器により反転させた補数を選択する。要素W(ci,di)は、加算器47cのCarry-inにも入力される。加算器47cは、要素W(ci,di)が「0」のとき、S(ci,di)に要素A(ci)を加算した値を出力する。加算器47cは、W(ci,di)が「1」のとき、S(ci,di)から要素A(ci)を減算した値を出力する。
【0107】
図14は、アキュムレータ回路43の内部ブロック図である。
アキュムレータ回路43は、乗算器42の積和演算結果O(di)を第二メモリ2にアキュムレートする。アキュムレータ回路43は、Bd個のアキュムレータユニット48を有し、Bd個の積和演算結果O(di)を並列して第二メモリ2にアキュムレートできる。
【0108】
図15は、アキュムレータユニット48の内部ブロック図である。
アキュムレータユニット48は、加算器48aと、マスク部48bとを有している。加算器48aは、積和演算結果Oの要素O(di)と、第二メモリ2に格納された式1に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり16ビットである。加算結果は、要素あたり16ビットに限定されず、例えば要素あたり15ビットや17ビットであってもよい。
【0109】
加算器48aは、加算結果を第二メモリ2の同一アドレスに書き込む。マスク部48bは、初期化信号clearがアサートされた場合に、第二メモリ2からの出力をマスクし、要素O(di)に対する加算対象をゼロにする。初期化信号clearは、第二メモリ2に途中経過の部分和が格納されていない場合にアサートされる。
【0110】
乗算器42およびアキュムレータ回路43による畳み込み演算が完了すると、第二メモリ2に、出力データf(x,y,do)が格納される。
【0111】
ステートコントローラ44は、乗算器42およびアキュムレータ回路43のステートを制御する。また、ステートコントローラ44は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ44は、命令キュー45と制御回路46とを有する。
【0112】
命令キュー45は、畳み込み演算回路4用の命令コマンドC4が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー45には、命令供給ユニット7経由または内部バスIB経由で命令コマンドC4が書き込まれる。
【0113】
制御回路46は、命令コマンドC4をデコードし、命令コマンドC4に基づいて乗算器42およびアキュムレータ回路43を制御するステートマシンである。制御回路46は、DMAC3のステートコントローラ32の制御回路34と同様の構成である。
【0114】
[畳み込み演算回路4:プリロードモードにおける動作]
NN回路100の動作モードがプリロードモードであるとき、ステートコントローラ44は動作しない。プリロードするデータに重みwが含まれる場合、DMAC3は外部メモリ120から読み出した重みwを重みメモリ41に書き込む。
【0115】
[畳み込み演算回路4:ノーマルモードにおける動作]
NN回路100の動作モードがノーマルモードであるとき、命令供給ユニット7は、命令キュー45に命令コマンドC4を供給する。ステートコントローラ44は、命令キュー45に格納された命令コマンドC4に基づいて、乗算器42およびアキュムレータ回路43を制御する。
【0116】
[量子化演算回路5]
図16は、量子化演算回路5の内部ブロック図である。
量子化演算回路5は、量子化パラメータメモリ51と、ベクトル演算回路52と、量子化回路53と、ステートコントローラ54と、を有する。量子化演算回路5は、ベクトル演算回路52および量子化回路53に対する専用のステートコントローラ54を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。
【0117】
量子化パラメータメモリ51は、量子化演算に用いる量子化パラメータqが格納されるメモリであり、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。DMAC3は、DMA転送により、量子化演算に必要な量子化パラメータqを量子化パラメータメモリ51に書き込む。
【0118】
図17は、ベクトル演算回路52と量子化回路53の内部ブロック図である。
ベクトル演算回路52は、第二メモリ2に格納された出力データf(x,y,do)に対して演算を行う。ベクトル演算回路52は、Bd個の演算ユニット57を有し、出力データf(x,y,do)に対して並列にSIMD演算を行う。
【0119】
図18は、演算ユニット57のブロック図である。
演算ユニット57は、例えば、ALU57aと、第一セレクタ57bと、第二セレクタ57cと、レジスタ57dと、シフタ57eと、を有する。演算ユニット57は、公知の汎用SIMD演算回路が有する他の演算器等をさらに有してもよい。
【0120】
ベクトル演算回路52は、演算ユニット57が有する演算器等を組み合わせることで、出力データf(x,y,do)に対して、量子化演算層220におけるプーリング層221や、Batch Normalization層222や、活性化関数層223の演算のうち少なくとも一つの演算を行う。
【0121】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより加算できる。演算ユニット57は、ALU57aによる加算結果をレジスタ57dに格納できる。演算ユニット57は、第一セレクタ57bの選択によりレジスタ57dに格納されたデータに代えて「0」をALU57aに入力することで加算結果を初期化できる。例えばプーリング領域が2×2である場合、シフタ57eはALU57aの出力を2bit右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式2に示す平均プーリングの演算を実施できる。
【0122】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより比較できる。
演算ユニット57は、ALU57aによる比較結果に応じて第二セレクタ57cを制御して、レジスタ57dに格納されたデータと要素f(di)の大きい方を選択できる。演算ユニット57は、第一セレクタ57bの選択により要素f(di)の取りうる値の最小値をALU57aに入力することで比較対象を最小値に初期化できる。本実施形態において要素f(di)は16bit符号付き整数であるので、要素f(di)の取りうる値の最小値は「0x8000」である。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式3のMAXプーリングの演算を実施できる。なお、MAXプーリングの演算ではシフタ57eは第二セレクタ57cの出力をシフトしない。
【0123】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより減算できる。シフタ57eはALU57aの出力を左シフト(すなわち乗算)もしくは右シフト(すなわち除算)できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式4のBatch Normalizationの演算を実施できる。
【0124】
演算ユニット57は、第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)と第一セレクタ57bにより選択された「0」とをALU57aにより比較できる。演算ユニット57は、ALU57aによる比較結果に応じて要素f(di)と予めレジスタ57dに格納された定数値「0」のいずれかを選択して出力できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式5のReLU演算を実施できる。
【0125】
ベクトル演算回路52は、平均プーリング、MAXプーリング、Batch Normalization、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路52は、汎用SIMD演算を実施できるため、量子化演算層220における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路52は、量子化演算層220における演算以外の演算を実施してもよい。
【0126】
なお、量子化演算回路5は、ベクトル演算回路52を有してなくてもよい。量子化演算回路5がベクトル演算回路52を有していない場合、出力データf(x,y,do)は量子化回路53に入力される。
【0127】
量子化回路53は、ベクトル演算回路52の出力データに対して、量子化を行う。量子化回路53は、図20に示すように、Bd個の量子化ユニット58を有し、ベクトル演算回路52の出力データに対して並列に演算を行う。
【0128】
図19は、量子化ユニット58の内部ブロック図である。
量子化ユニット58は、ベクトル演算回路52の出力データの要素in(di)に対して量子化を行う。量子化ユニット58は、比較器58aと、エンコーダ58bと、を有する。量子化ユニット58はベクトル演算回路52の出力データ(16ビット/要素)に対して、量子化演算層220における量子化層224の演算(式6)を行う。量子化ユニット58は、量子化パラメータメモリ51から必要な量子化パラメータq(th0,th1,th2)を読み出し、比較器58aにより入力in(di)と量子化パラメータqとの比較を行う。量子化ユニット58は、比較器58aによる比較結果をエンコーダ58bにより2ビット/要素に量子化する。式4におけるα(c)とβ(c)は、変数cごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータq(th0,th1,th2)はin(di)ごとに異なるパラメータである。
【0129】
量子化ユニット58は、入力in(di)を3つの閾値th0,th1,th2と比較することにより、入力in(di)を4領域(例えば、in≦th0,th0<in≦th1,th1<in≦th2,th2<in)に分類し、分類結果を2ビットにエンコードして出力する。量子化ユニット58は、量子化パラメータq(th0,th1,th2)の設定により、量子化と併せてBatch Normalizationや活性化関数の演算を行うこともできる。
【0130】
量子化ユニット58は、閾値th0を式4のβ(c)、閾値の差(th1―th0)および(th2―th1)を式4のα(c)として設定して量子化を行うことで、式4に示すBatch Normalizationの演算を量子化と併せて実施できる。(th1―th0)および(th2―th1)を大きくすることでα(c)を小さくできる。(th1―th0)および(th2―th1)を小さくすることで、α(c)を大きくできる。
【0131】
量子化ユニット58は、入力in(di)の量子化と併せて活性化関数を実施できる。例えば、量子化ユニット58は、in(di)≦th0およびth2<in(di)となる領域では出力値を飽和させる。量子化ユニット58は、出力が非線形とするように量子化パラメータqを設定することで活性化関数の演算を量子化と併せて実施できる。
【0132】
ステートコントローラ54は、ベクトル演算回路52および量子化回路53のステートを制御する。また、ステートコントローラ54は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ54は、命令キュー55と制御回路56とを有する。
【0133】
命令キュー55は、量子化演算回路5用の命令コマンドC5が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー55には、命令供給ユニット7経由または内部バスIB経由で命令コマンドC5が書き込まれる。
【0134】
制御回路56は、命令コマンドC5をデコードし、命令コマンドC5に基づいてベクトル演算回路52および量子化回路53を制御するステートマシンである。制御回路56は、DMAC3のステートコントローラ32の制御回路34と同様の構成である。
【0135】
[量子化演算回路5:プリロードモードにおける動作]
NN回路100の動作モードがプリロードモードであるとき、ステートコントローラ54は動作しない。プリロードするデータに量子パラメータqが含まれる場合、DMAC3は外部メモリ120から読み出した量子パラメータqを量子化パラメータメモリ51に書き込む。
【0136】
[量子化演算回路5:ノーマルモードにおける動作]
NN回路100の動作モードがノーマルモードであるとき、命令供給ユニット7は、命令キュー55に命令コマンドC5を供給する。ステートコントローラ54は、命令キュー55に格納された命令コマンドC5に基づいて、ベクトル演算回路52および量子化回路53を制御する。
【0137】
量子化演算回路5は、Bd個の要素を持つ量子化演算出力データを第一メモリ1に書き込む。なお、BdとBcの好適な関係を式10に示す。式10においてnは整数である。
【0138】
【数10】
【0139】
[コントローラ6]
コントローラ6は、外部ホストCPU110から転送される命令コマンドを、内部バスIBを介して、DMAC3、畳み込み演算回路4および量子化演算回路5が有する命令キューに転送する。
【0140】
コントローラ6は、外部バスEBに接続されており、外部ホストCPU110のスレーブとして動作する。コントローラ6は、パラメータレジスタや状態レジスタを含むレジスタ61を有している。パラメータレジスタは、NN回路100の動作を制御するレジスタである。状態レジスタは、セマフォSを含むNN回路100の状態を示すレジスタである。
【0141】
レジスタ61は、プリロードモードの設定に関するパラメータレジスタ(以降、「プリロードモードレジスタ」ともいう)を有する。プリロードモードレジスタは、プリロード起動レジスタと、プリロードの転送元である外部メモリ120の先頭アドレスと、プリロードの転送先のアドレスと、プリロードするデータ転送量と、を含む。プリロードモードレジスタは、データ転送に関する設定値(転送元アドレスと転送先アドレスとデータ転送量との組み合わせ)を複数回分保持できる。プリロードモードレジスタが設定されることで、NN回路100は動作モードをプリロードモードに変更して、プリロードモードの動作を開始する。プリロードモードの動作が完了すると、NN回路100は動作モードをノーマルモードに変更して、ノーマルモードの動作を開始する。NN回路100の動作モードは、プリモードモードの動作が完了してもノーマルモードに自動的に変更されず、レジスタ61に含まれる動作モード設定レジスタが明示的に書き換えられることによって、プリロードモードからノーマルモードに変更されてもよい。
【0142】
レジスタ61は、命令供給ユニット7による命令供給設定に関するパラメータレジスタ(以降、「命令供給レジスタ」ともいう)を有する。
【0143】
[命令供給ユニット7]
図20は、命令供給ユニット7のブロック図である。
命令供給ユニット(ISU : Instruction Supply Unit)7は、命令メモリ71と、命令供給回路72と、を有する。命令メモリ71は、DMAC3と畳み込み演算回路4と量子化演算回路5の命令コマンドを格納する。命令供給回路72は、命令メモリ71に格納した命令コマンドをDMAC3と畳み込み演算回路4と量子化演算回路5とに供給する。
【0144】
[命令供給ユニット7:プリロードモードにおける動作]
NN回路100の動作モードがプリロードモードであるとき、命令供給回路72は動作しない。DMAC3のデータ転送回路31は、命令コマンドを命令メモリ71に書き込む。
【0145】
[命令供給ユニット7:ノーマルモードにおける動作]
NN回路100の動作モードがノーマルモードであるとき、命令供給回路72は、命令メモリ71に格納された命令コマンドをDMAC3と畳み込み演算回路4と量子化演算回路5とに供給する。命令供給回路72は、命令キュー33,45,55のフルフラグなどの状態フラグに基づいて、命令キュー33,45,55に対して対応する命令コマンドを随時供給する。
【0146】
図21は、命令メモリ71のメモリマップを示す図である。
命令供給レジスタには、DMAC3に供給する命令コマンドC3が格納されたメモリ領域の先頭アドレスと、畳み込み演算回路4に供給する命令コマンドC4が格納されたメモリ領域の先頭アドレスと、量子化演算回路5に供給する命令コマンドC5が格納されたメモリ領域の先頭アドレスと、が格納される。命令供給回路72は、命令供給レジスタに格納された先頭アドレスに基づいて命令コマンドの供給を実行する。なお、NN演算マルチコア10Mに2以上のNN演算コア10が含まれる場合は、NN演算コア10の畳み込み演算回路4および量子化演算回路5ごとに先頭アドレスが設定される。
【0147】
例えば、図21に示すメモリマップのように命令コマンドが命令メモリ71に格納されている場合、先頭アドレスがアドレスA1とアドレスA2とアドレスA3から始まるメモリ領域には、第一アプリケーションとは異なる第二アプリケーションが使用する命令コマンドが格納されている。また、先頭アドレスがアドレスA4とアドレスA5とアドレスA6から始まるメモリ領域には、第一アプリケーションとは異なる第二アプリケーションが使用する命令コマンドが格納されている。第一アプリケーションを実行するとき、命令供給レジスタの先頭アドレスには、アドレスA1とアドレスA2とアドレスA3とが設定される。実行するアプリケーションを第一アプリケーションから第二アプリケーションに変更するとき、命令供給レジスタの先頭アドレスには、アドレスA4とアドレスA5とアドレスA6とが設定される。
【0148】
[NN回路100の動作]
次に、NN回路100の動作(ニューラルネットワーク演算方法)を、図22に示すNN回路100の制御フローチャートに沿って説明する。NN回路100は、初期化処理(ステップS100)を実施した後、プリロードモードレジスタの設定に基づいてステップS110を実行する。
【0149】
<ステップS110:プリロードモード(第一モード)>
NN回路100のDMAC3は、ステップS110において、プリロードモードレジスタの設定に基づいてプリロードを実施する(第一工程)。具体的には、DMAC3のデータ転送回路31は、プリロードモードレジスタの設定に基づいて、外部メモリ120から命令供給ユニット7に対する命令コマンドのDMA転送(プリロード)を実施する。プリロードするデータに重みwが含まれる場合、データ転送回路31は重みメモリ41に対する重みwのDMA転送(プリロード)を実施する。プリロードするデータに量子パラメータqが含まれる場合、データ転送回路31は量子化パラメータメモリ51に対する量子パラメータqのDMA転送(プリロード)を実施する。プリロードモードレジスタに設定されたプリロードが完了すると、NN回路100は動作モードをノーマルモードに変更してステップS120を実行する。
【0150】
なお、CNN200に関する演算が大規模であると命令供給ユニット7にデータ転送する命令コマンドが多くなり、プリロードにおけるデータ転送期間や命令メモリ71に必要なメモリ容量が増加する。この場合、NN回路100のDMAC3は、プリロードモードにおいて、命令コマンドを分割して命令メモリ71に転送してもよい。例えば、命令メモリ71が全ての命令コマンドを格納するのに十分なメモリ容量を有している場合、NN回路100のDMAC3は、全ての命令コマンドを命令メモリ71に供給する。そうでない場合、NN回路100のDMAC3は、すべての命令コマンドの転送を行うのではなく、命令メモリ71が格納可能な一部の命令コマンドのみを命令メモリ71に供給してもよい。
【0151】
<ステップS120:ノーマルモード(第二モード)>
NN回路100の命令供給ユニット7は、ステップS120において、命令供給レジスタの設定に基づいて命令コマンドの供給を実施する(第二工程)。具体的には、命令供給回路72は、命令メモリ71に格納された命令コマンドC3をDMAC3の命令キュー33に供給し、命令コマンドC4を畳み込み演算回路4の命令キュー45に供給し、命令コマンドC5を量子化演算回路5の命令キュー55に供給する。DMAC3と畳み込み演算回路4と量子化演算回路5とは、供給された命令コマンドに基づいて動作を開始する。命令メモリ71に格納された命令コマンドが全てまたは一部が実行されたとき、NN回路100は次にステップS130を実行する。
【0152】
<ステップS130>
NN回路100は、ステップS130において、図22に示す制御フローを終了するかを判定する。制御フローを終了しない場合、NN回路100は、再度ステップS120を実行する。なお、NN回路100は、ステップS110から制御フローを再開してもよい。制御を終了する場合、NN回路100は、次にステップS140を実行して制御フローを終了する。
【0153】
本実施形態に係るニューラルネットワーク回路100によれば、IoT機器などの組み込み機器に組み込み可能なNN回路100を高性能に動作させることができる。動作モードがプリロードモードであるとき、外部メモリ120から命令コマンドが読み出される。動作モードがノーマルモードであるとき、外部メモリ120とNN演算コア10との間で、命令コマンド以外のデータ(入力データa、重みw、量子化パラメータq、中間データ)のDMA転送が実行される。そのため、外部メモリ120からの命令コマンドの読み出しと、命令コマンド以外のデータのDMA転送とが、同時に発生しない。そのため、NN回路100は、命令コマンドの読み出しと、命令コマンド以外のデータのDMA転送とが同時に発生することによる外部バスEBの帯域圧迫を防げる。
【0154】
プリロードモードにおける命令メモリ71への命令コマンドの書き込みと、ノーマルモードにおける命令メモリ71からの命令コマンドの読み出しとは、同時に発生しない。そのため、命令メモリ71は、2ポートRAMで実装する必要はない。命令メモリ71は、回路規模が2ポートRAMよりも小さいシングルポートRAMで実装できる。
【0155】
プリロードするデータに重みwが含まれる場合、動作モードがプリロードモードであるとき、外部メモリ120から重みwが読み出される。そのため、動作モードがノーマルモードであるとき、外部メモリ120からの重みwの読み出しを省略できる。その結果、動作モードがノーマルモードであるときにおける外部バスEBの帯域をさらに削減できる。また、重みメモリ41も回路規模が2ポートRAMよりも小さいシングルポートRAMで実装できる。
【0156】
プリロードするデータに量子パラメータqが含まれる場合、動作モードがプリロードモードであるとき、外部メモリ120から量子パラメータqが読み出される。そのため、動作モードがノーマルモードであるとき、外部メモリ120からの量子パラメータqの読み出しを省略できる。その結果、動作モードがノーマルモードであるときにおける外部バスEBの帯域をさらに削減できる。また、量子化パラメータメモリ51も回路規模が2ポートRAMよりも小さいシングルポートRAMで実装できる。
【0157】
以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。
【0158】
(変形例1)
上記実施形態の命令供給ユニット7は、一つの命令メモリ71を有していたが、命令メモリ71の態様はこれに限定されない。命令供給ユニット7は、複数の命令メモリを71を有していていもよい。命令供給ユニット7は、例えば、命令コマンドC3を格納する第一命令メモリと、命令コマンドC4を格納する第二命令メモリと、命令コマンドC5を格納する第三命令メモリと、を有してもよい。
【0159】
(変形例2)
上記実施形態において、第一メモリ1と第二メモリ2は別のメモリであったが、第一メモリ1と第二メモリ2の態様はこれに限定されない。第一メモリ1と第二メモリ2は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。
【0160】
(変形例3)
例えば、上記実施形態に記載のNN回路100に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、NN回路100に入力されるデータは、NN回路100が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System(GPS)計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。
【0161】
(変形例4)
NN回路100が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet(PoE)などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。
【0162】
(変形例5)
NN回路100は、NN回路100の一部または全部を一つ以上のプロセッサを用いて実現してもよい。例えば、NN回路100は、入力層または出力層の一部または全部をプロセッサによるソフトウェア処理により実現してもよい。ソフトウェア処理により実現する入力層または出力層の一部は、例えば、データの正規化や変換である。これにより、様々な形式の入力形式または出力形式に対応できる。なお、プロセッサで実行するソフトウェアは、通信手段や外部メディアを用いて書き換え可能に構成してもよい。
【0163】
(変形例6)
NN回路100は、CNN200における処理の一部をクラウド上のGraphics Processing Unit(GPU)等を組み合わせることで実現してもよい。NN回路100は、NN回路100が設けられるエッジデバイスで行った処理に加えて、クラウド上でさらに処理を行ったり、クラウド上での処理に加えてエッジデバイス上で処理を行ったりすることで、より複雑な処理を少ないリソースで実現できる。このような構成によれば、NN回路100は、処理分散によりエッジデバイスとクラウドとの間の通信量を低減できる。
【0164】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【産業上の利用可能性】
【0165】
本発明は、ニューラルネットワークの演算に適用することができる。
【符号の説明】
【0166】
200 畳み込みニューラルネットワーク
100 ニューラルネットワーク回路(NN回路)
10 ニューラルネットワーク演算コア(NN演算コア)
10A 第一ニューラルネットワーク演算コア(第一NN演算コア)
10B 第二ニューラルネットワーク演算コア(第二NN演算コア)
10M ニューラルネットワーク演算マルチコア(NN演算マルチコア)
1 第一メモリ
2 第二メモリ
3 DMAコントローラ(DMAC)
4 畳み込み演算回路
42 乗算器
43 アキュムレータ回路
5 量子化演算回路
52 ベクトル演算回路
53 量子化回路
6 コントローラ
61 レジスタ
7 命令供給ユニット
71 命令メモリ
72 命令供給回路
C3 命令コマンド(第三命令コマンド)
C4 命令コマンド(第一命令コマンド)
C5 命令コマンド(第二命令コマンド)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22