(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023154880
(43)【公開日】2023-10-20
(54)【発明の名称】ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラム
(51)【国際特許分類】
G06N 3/02 20060101AFI20231013BHJP
G06N 3/04 20230101ALI20231013BHJP
【FI】
G06N3/02
G06N3/04
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022064506
(22)【出願日】2022-04-08
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】517048278
【氏名又は名称】LeapMind株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100161506
【弁理士】
【氏名又は名称】川渕 健一
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100207789
【弁理士】
【氏名又は名称】石田 良平
(72)【発明者】
【氏名】飯塚 健太郎
(57)【要約】
【課題】IoT機器などの組み込み機器に組み込み可能であり、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行う回路やモデルを生成する。
【解決手段】ニューラルネットワーク生成方法は、ニューラルネットワーク機能モデルから畳み込み演算と量子化演算とを別々に実行するニューラルネットワーク実行モデルを生成する方法であって、 入力データに対して前記畳み込み演算と前記量子化演算とを連続して実行する単一の第一演算子を用いて前記ニューラルネットワーク機能モデルを生成する機能モデル生成工程を備える。
【選択図】
図8
【特許請求の範囲】
【請求項1】
ニューラルネットワーク機能モデルから畳み込み演算と量子化演算とを別々に実行するニューラルネットワーク実行モデルを生成する方法であって、
入力データに対して前記畳み込み演算と前記量子化演算とを連続して実行する単一の第一演算子を用いて前記ニューラルネットワーク機能モデルを生成する機能モデル生成工程を備える、
ニューラルネットワーク生成方法。
【請求項2】
前記第一演算子は、前記入力データに対して前記畳み込み演算と前記量子化演算とに加えて正規化演算を連続して実行する、
請求項1に記載のニューラルネットワーク生成方法。
【請求項3】
前記ニューラルネットワーク実行モデルを動作させるソフトウェアを生成するソフトウェア生成工程をさらに備え、
前記ソフトウェアは、前記ニューラルネットワーク機能モデルにおける前記第一演算子に含まれる前記畳み込み演算と前記量子化演算とを別々に前記ニューラルネットワーク実行モデルに実行させる、
請求項1に記載のニューラルネットワーク生成方法。
【請求項4】
機能モデル生成工程は、入力データに対して前記畳み込み演算実行する単一の第二演算子を用いて前記ニューラルネットワーク機能モデルを生成し、
前記第二演算子は、前記第二演算子に含まれる前記畳み込み演算の少なくとも一部を量子化できる、
請求項1から請求項3のいずれか一項に記載のニューラルネットワーク生成方法。
【請求項5】
前記ニューラルネットワーク機能モデルに基づいて、前記ニューラルネットワーク実行モデルを生成する実行モデル生成工程と、
前記ニューラルネットワーク実行モデルの学習パラメータを学習する学習工程と、
前記学習工程の学習結果が許容されないとき、前記ニューラルネットワーク機能モデルを再生成するニューラルネットワーク機能モデル再生成工程と、
をさらに備える、
請求項1に記載のニューラルネットワーク生成方法。
【請求項6】
ニューラルネットワーク機能モデルから畳み込み演算と量子化演算とを別々に実行するニューラルネットワーク実行モデルをコンピュータに生成させるプログラムであって、
入力データに対して前記畳み込み演算と前記量子化演算とを連続して実行する単一の第一演算子を用いて前記ニューラルネットワーク機能モデルを前記コンピュータに生成させる機能モデル生成工程を備える、
ニューラルネットワーク生成プログラム。
【請求項7】
前記第一演算子は、前記入力データに対して前記畳み込み演算と前記量子化演算とに加えて正規化演算を連続して実行する、
請求項6に記載のニューラルネットワーク生成プログラム。
【請求項8】
前記ニューラルネットワーク実行モデルを動作させるソフトウェアを前記コンピュータに生成させるソフトウェア生成工程をさらに備え、
前記ソフトウェアは、前記ニューラルネットワーク機能モデルにおける前記第一演算子に含まれる前記畳み込み演算と前記量子化演算とを別々に前記ニューラルネットワーク実行モデルに実行させる、
請求項6に記載のニューラルネットワーク生成プログラム。
【請求項9】
機能モデル生成工程は、入力データに対して前記畳み込み演算を実行する単一の第二演算子を用いて前記ニューラルネットワーク機能モデルを前記コンピュータに生成させ、
前記第二演算子は、前記第二演算子に含まれる前記畳み込み演算の少なくとも一部を量子化できる、
請求項6から請求項8のいずれか一項に記載のニューラルネットワーク生成プログラム。
【請求項10】
前記ニューラルネットワーク機能モデルに基づいて、前記ニューラルネットワーク実行モデルを前記コンピュータに生成させる実行モデル生成工程と、
前記ニューラルネットワーク実行モデルの学習パラメータを前記コンピュータに学習させる学習工程と、
前記学習工程の学習結果が許容されないとき、前記ニューラルネットワーク機能モデルを前記コンピュータに再生成させるニューラルネットワーク機能モデル再生成工程と、
をさらに備える、
請求項6に記載のニューラルネットワーク生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムに関する。
【背景技術】
【0002】
近年、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている(特許文献1など)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】日本国特開2018-077829号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方で、IoT機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等が使用されている。組み込み機器において畳み込みニューラルネットワークを効率的に動作させるため、組み込み機器のハードウェア構成に合わせたニューラルネットワークに係る演算を行う回路やモデルを生成することが望まれている。
【0005】
上記事情を踏まえ、本発明は、IoT機器などの組み込み機器に組み込み可能であり、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行う回路やモデルを生成するニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク生成方法は、ニューラルネットワーク機能モデルから畳み込み演算と量子化演算とを別々に実行するニューラルネットワーク実行モデルを生成する方法であって、 入力データに対して前記畳み込み演算と前記量子化演算とを連続して実行する単一の第一演算子を用いて前記ニューラルネットワーク機能モデルを生成する機能モデル生成工程を備える。
【0007】
本発明の第二の態様に係るニューラルネットワーク生成プログラムは、ニューラルネットワーク機能モデルから畳み込み演算と量子化演算とを別々に実行するニューラルネットワーク実行モデルをコンピュータに生成させるプログラムであって、入力データに対して前記畳み込み演算と前記量子化演算とを連続して実行する単一の第一演算子を用いて前記ニューラルネットワーク機能モデルを前記コンピュータに生成させる。
【発明の効果】
【0008】
本発明のニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムは、IoT機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成できる。
【図面の簡単な説明】
【0009】
【
図1】第一実施形態に係るニューラルネットワーク生成装置を示す図である。
【
図2】同ニューラルネットワーク生成装置の演算部の入出力を示す図である。
【
図3】畳み込みニューラルネットワークの一例を示す図である。
【
図4】同畳み込みニューラルネットワークの畳み込み層が行う畳み込み演算を説明する図である。
【
図5】ニューラルネットワーク実行モデルの一例を示す図である。
【
図6】同ニューラルネットワーク実行モデルの動作例を示すタイミングチャートである。
【
図7】同ニューラルネットワーク生成装置の制御フローチャートである。
【
図8】NN機能モデルを設定するGUI画像例を示す図である。
【
図9】生成される畳み込み演算回路の内部ブロック図である。
【
図10】同畳み込み演算回路の乗算器の内部ブロック図である。
【
図11】同乗算器の積和演算ユニットの内部ブロック図である。
【
図12】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。
【
図13】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。
【
図14】同畳み込み演算回路の制御回路のステート遷移図である。
【
図15】生成される量子化演算回路の内部ブロック図である。
【
図16】同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。
【
図17】同ベクトル演算回路の演算ユニットのブロック図である。
【
図18】同量子化回路の量子化ユニットの内部ブロック図である。
【
図19】生成されるDMACの内部ブロック図である。
【
図20】同畳み込み演算のデータ分割やデータ展開を説明する図である。
【
図21】ニューラルネットワークハードウェアへの他の割り当て例を示すタイミングチャートである。
【発明を実施するための形態】
【0010】
(第一実施形態)
本発明の第一実施形態について、
図1から
図21を参照して説明する。
図1は、本実施形態に係るニューラルネットワーク生成装置300を示す図である。
【0011】
[ニューラルネットワーク生成装置300]
ニューラルネットワーク生成装置300は、IoT機器などの組み込み機器に組み込み可能な学習済みのニューラルネットワーク実行モデル100を生成する装置である。ニューラルネットワーク実行モデル100は、ニューラルネットワーク機能モデルである畳み込みニューラルネットワーク200(以下、「CNN200」または「NN機能モデル200」という)を組み込み機器において演算させるために生成されたソフトウェアやハードウェアモデルである。NN機能モデル200は、ニューラルネットワーク実行モデル100に対応する機能モデルであり、ニューラルネットワーク実行モデル100と同等の機能を備える機能モデルである。
【0012】
ニューラルネットワーク生成装置300は、CPU(Central Processing Unit)等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置(コンピュータ)である。ニューラルネットワーク生成装置300の機能は、ニューラルネットワーク生成装置300においてニューラルネットワーク生成プログラムおよびソフトウェア生成プログラムを実行することにより実現される。ニューラルネットワーク生成装置300は、記憶部310と、演算部320と、データ入力部330と、データ出力部340と、表示部350と、操作入力部360と、を備える。
【0013】
記憶部310は、ハードウェア情報HWと、ネットワーク情報NWと、学習データセットDSと、ニューラルネットワーク実行モデル100(以下、「NN実行モデル100」という)と、学習済みパラメータPMと、を記憶する。ハードウェア情報HW、学習データセットDSおよびネットワーク情報NWは、ニューラルネットワーク生成装置300に入力される入力データである。NN実行モデル100および学習済みパラメータPMは、ニューラルネットワーク生成装置300が出力する出力データである。なお、「学習済みのNN実行モデル100」は、NN実行モデル100および学習済みパラメータPMを含む。
【0014】
ハードウェア情報HWは、NN実行モデル100を動作させる組み込み機器(以降、「動作対象ハードウェア」という)の情報である。ハードウェア情報HWは、例えば、動作対象ハードウェアのデバイス種別、デバイス制約、メモリ構成、バス構成、動作周波数、消費電力、製造プロセス種別などである。デバイス種別は、例えば、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などの種別である。デバイス制約は、動作対象デバイスに含まれる演算器数の上限や回路規模の上限などである。メモリ構成は、メモリ種別やメモリ個数やメモリ容量や入出力データ幅である。バス構成は、バス種類、バス幅、バス通信規格、同一バス上の接続デバイスなどである。また、NN実行モデル100に複数のバリエーションが存在する場合、ハードウェア情報HWには使用するNN実行モデル100のバリエーションに関する情報が含まれる。
【0015】
ネットワーク情報NWは、CNN200(NN機能モデル200)に関する情報である。ネットワーク情報NWは、例えば、CNN200(NN機能モデル200)の機能を定義する情報を含む。ネットワーク情報NWは、例えば、CNN200のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。
【0016】
学習データセットDSは、学習に用いる学習データD1と、推論テストに用いるテストデータD2と、を有する。
【0017】
図2は、演算部320の入出力を示す図である。
演算部320は、実行モデル生成部321と、学習部322と、推論部323と、ハードウェア生成部324と、ソフトウェア生成部325と、機能モデル生成部326と、を有する。演算部320に入力されるネットワーク情報NWやNN実行モデル100は、ニューラルネットワーク生成装置300以外の装置で生成されたものであってもよい。
【0018】
実行モデル生成部321は、ハードウェア情報HWおよびネットワーク情報NWに基づいてNN実行モデル100を生成する。NN実行モデル100は、CNN200を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、RTL(Register Transfer Level)であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。
【0019】
学習部322は、NN実行モデル100および学習データD1を用いて、学習済みパラメータPMを生成する。推論部323は、NN実行モデル100およびテストデータD2を用いて推論テストを実施する。
【0020】
ハードウェア生成部324は、ハードウェア情報HWおよびNN実行モデル100に基づいてニューラルネットワークハードウェアモデル400を生成する。ニューラルネットワークハードウェアモデル400は、動作対象ハードウェアに実装可能なハードウェアモデルである。ニューラルネットワークハードウェアモデル400は、ハードウェア情報HWに基づいて、動作対象ハードウェアに最適化されている。ニューラルネットワークハードウェアモデル400は、RTL(Register Transfer Level)であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。ニューラルネットワークハードウェアモデル400は、NN実行モデル100をハードウェアに実装するために必要なパラメータリストやコンフィグレーションファイルであってもよい。パラメータリストやコンフィグレーションファイルは別途生成されたNN実行モデル100と組み合わせて使用される。
【0021】
以降の説明において、ニューラルネットワークハードウェアモデル400を動作対象ハードウェアに実装したものを、「ニューラルネットワークハードウェア600」という。
【0022】
ソフトウェア生成部325は、ネットワーク情報NWおよびNN実行モデル100に基づいて、ニューラルネットワークハードウェア600を動作させるソフトウェア500を生成する。ソフトウェア500は、学習済みパラメータPMを必要に応じてニューラルネットワークハードウェア600へ転送するソフトウェアを含む。
【0023】
機能モデル生成部326は、使用者から入力に基づいてCNN200(NN機能モデル200)を生成して(コンフィグレーション)、CNN200(NN機能モデル200)に関する情報であるネットワーク情報NWを出力する。
【0024】
データ入力部330には、学習済みのNN実行モデル100を生成するために必要なハードウェア情報HWやネットワーク情報NW等が入力される。ハードウェア情報HWやネットワーク情報NW等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報HWやネットワーク情報NW等は、記憶部310に記憶される。ハードウェア情報HWやネットワーク情報NW等は、操作入力部360から使用者により入力または変更されてもよい。
【0025】
データ出力部340には、生成された学習済みのNN実行モデル100が出力される。例えば、生成されたNN実行モデル100と、学習済みパラメータPMとがデータ出力部340に出力される。
【0026】
表示部350は、LCDディスプレイ等の公知のモニタを有する。表示部350は、演算部320が生成したGUI(Graphical User Interface)画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部320が使用者からの情報入力を必要とする場合、表示部350は操作入力部360から情報を入力することを使用者に促すメッセージや情報入力に必要なGUI画像を表示できる。
【0027】
操作入力部360は、使用者が演算部320等に対しての指示を入力する装置である。操作入力部360は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部360の入力は、演算部320に送信される。
【0028】
演算部320の機能の全部または一部は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)のような1つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部320の機能の全部または一部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)等のハードウェア(例えば回路部;circuity)により実現されてもよい。また、演算部320の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。
【0029】
演算部320の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたCPUやGPUやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部320は、例えばクラウドサーバ上の演算性能が高いGPUや専用ハードウェアを併用することで、演算部320の演算速度を向上させることができる。
【0030】
記憶部310は、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)、またRAM(Random Access Memory)等により実現される。記憶部310の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部320等と接続させてもよい。
【0031】
なお、ニューラルネットワーク生成装置300は、複数の装置(コンピュータ)で構成され、演算部320の機能ブロックが複数の装置に分散していてもよい。例えば、ニューラルネットワーク生成装置300は、機能モデル生成部326を有する第一装置(コンピュータ)と、実行モデル生成部321を有する第二装置(コンピュータ)と、学習部322および推論部323を有する第三装置(コンピュータ)と、ハードウェア生成部324およびソフトウェア生成部325を有する第四装置(コンピュータ)と、に分離していてもよい。
【0032】
[畳み込みニューラルネットワーク(CNN)200]
次に、CNN200について説明する。
図3は、CNN200の一例を示す図である。CNN200のネットワーク情報NWは、以下で説明するCNN200の構成に関する情報である。CNN200は、低ビットの重みwや量子化された入力データaを用いており、組み込み機器に組み込みやすい。
【0033】
CNN200は、畳み込み演算を行う畳み込み層210と、量子化演算を行う量子化演算層220と、出力層230と、を含む多層構造のネットワークである。CNN200の少なくとも一部において、畳み込み層210と量子化演算層220とが交互に連結されている。CNN200は、画像認識や動画認識に広く使われるモデルである。CNN200は、全結合層などの他の機能を有する層(レイヤ)をさらに有してもよい。
【0034】
図4は、畳み込み層210が行う畳み込み演算を説明する図である。
畳み込み層210は、入力データaに対して重みwを用いた畳み込み演算を行う。畳み込み層210は、入力データaと重みwとを入力とする積和演算を行う。
【0035】
畳み込み層210への入力データa(アクティベーションデータ、特徴マップともいう)は、画像データ等の多次元データである。本実施形態において、入力データaは、要素(x,y,c)からなる3次元テンソルである。CNN200の畳み込み層210は、低ビットの入力データaに対して畳み込み演算を行う。本実施形態において、入力データaの要素は、2ビットの符号なし整数(0,1,2,3)である。入力データaの要素は、例えば、4ビットや8ビット符号なし整数でもよい。
【0036】
CNN200に入力される入力データが、例えば32ビットの浮動小数点型など、畳み込み層210への入力データaと形式が異なる場合、CNN200は畳み込み層210の前に型変換や量子化を行う入力層をさらに有してもよい。
【0037】
畳み込み層210の重みw(フィルタ、カーネルともいう)は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みwは、要素(i,j,c,d)からなる4次元テンソルである。重みwは、要素(i,j,c)からなる3次元テンソル(以降、「重みwo」という)をd個有している。学習済みのCNN200における重みwは、学習済みのデータである。CNN200の畳み込み層210は、低ビットの重みwを用いて畳み込み演算を行う。本実施形態において、重みwの要素は、1ビットの符号付整数(0,1)であり、値「0」は+1を表し、値「1」は-1を表す。
【0038】
畳み込み層210は、式1に示す畳み込み演算を行い、出力データfを出力する。式1において、sはストライドを示す。
図4において点線で示された領域は、入力データaに対して重みwoが適用される領域ao(以降、「適用領域ao」という)の一つを示している。適用領域aoの要素は、(x+i,y+j,c)で表される。
【0039】
【0040】
量子化演算層220は、畳み込み層210が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層220は、プーリング層221と、Batch Normalization層222と、活性化関数層223と、量子化層224と、を有する。
【0041】
プーリング層221は、畳み込み層210が出力する畳み込み演算の出力データfに対して平均プーリング(式2)やMAXプーリング(式3)などの演算を実施して、畳み込み層210の出力データfを圧縮する。式2および式3において、uは入力テンソルを示し、vは出力テンソルを示し、Tはプーリング領域の大きさを示す。式3において、maxはTに含まれるiとjの組み合わせに対するuの最大値を出力する関数である。
【0042】
【0043】
【0044】
Batch Normalization層222は、量子化演算層220やプーリング層221の出力データに対して、例えば式4に示すような演算によりデータ分布の正規化を行う。式4において、uは入力テンソルを示し、vは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのCNN200において、αおよびβは学習済みの定数ベクトルである。
【0045】
【0046】
活性化関数層223は、量子化演算層220やプーリング層221やBatch Normalization層222の出力に対してReLU(式5)などの活性化関数の演算を行う。式5において、uは入力テンソルであり、vは出力テンソルである。式5において、maxは引数のうち最も大きい数値を出力する関数である。
【0047】
【0048】
量子化層224は、量子化パラメータに基づいて、プーリング層221や活性化関数層223の出力に対して例えば式6に示すような量子化を行う。式6に示す量子化は、入力テンソルuを2ビットにビット削減している。式6において、q(c)は量子化パラメータのベクトルである。学習済みのCNN200において、q(c)は学習済みの定数ベクトルである。式6における不等号「≦」は「<」であってもよい。
【0049】
【0050】
出力層230は、恒等関数やソフトマックス関数等によりCNN200の結果を出力する層である。出力層230の前段のレイヤは、畳み込み層210であってもよいし、量子化演算層220であってもよい。
【0051】
CNN200は、量子化された量子化層224の出力データが、畳み込み層210に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層210の畳み込み演算の負荷が小さい。
【0052】
[ニューラルネットワーク実行モデル100(NN実行モデル)100]
次に、NN実行モデル100について説明する。
図5は、NN実行モデル100の一例を示す図である。NN実行モデル100は、CNN200(NN機能モデル200)を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含み、例えばハードウェアモデルを制御する命令セットを使用したソフトウェアである。ハードウェアモデルは、ビヘイビアレベルであってもよく、RTL(Register Transfer Level)であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。
【0053】
NN実行モデル100は、第一メモリ1と、第二メモリ2と、DMAコントローラ3(以下、「DMAC3」ともいう)と、畳み込み演算回路4と、量子化演算回路5と、コントローラ6と、を備える。NN実行モデル100は、第一メモリ1および第二メモリ2を介して、畳み込み演算回路4と量子化演算回路5とがループ状に形成されていることを特徴とする。
【0054】
第一メモリ1は、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ1には、DMAC3やコントローラ6を介してデータの書き込みおよび読み出しが行われる。第一メモリ1は、畳み込み演算回路4の入力ポートと接続されており、畳み込み演算回路4は第一メモリ1からデータを読み出すことができる。また、第一メモリ1は、量子化演算回路5の出力ポートと接続されており、量子化演算回路5は第一メモリ1にデータを書き込むことができる。外部ホストCPUは、第一メモリ1に対するデータの書き込みや読み出しにより、NN実行モデル100に対するデータの入出力を行うことができる。
【0055】
第二メモリ2は、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ2には、DMAC3やコントローラ6を介してデータの書き込みおよび読み出しが行われる。第二メモリ2は、量子化演算回路5の入力ポートと接続されており、量子化演算回路5は第二メモリ2からデータを読み出すことができる。また、第二メモリ2は、畳み込み演算回路4の出力ポートと接続されており、畳み込み演算回路4は第二メモリ2にデータを書き込むことができる。外部ホストCPUは、第二メモリ2に対するデータの書き込みや読み出しにより、NN実行モデル100に対するデータの入出力を行うことができる。
【0056】
DMAC3は、外部バスEBに接続されており、DRAMなどの外部メモリと第一メモリ1との間のデータ転送を行う。また、DMAC3は、DRAMなどの外部メモリと第二メモリ2との間のデータ転送を行う。また、DMAC3は、DRAMなどの外部メモリと畳み込み演算回路4との間のデータ転送を行う。また、DMAC3は、DRAMなどの外部メモリと量子化演算回路5との間のデータ転送を行う。
【0057】
畳み込み演算回路4は、学習済みのCNN200の畳み込み層210における畳み込み演算を行う回路である。畳み込み演算回路4は、第一メモリ1に格納された入力データaを読み出し、入力データaに対して畳み込み演算を実施する。畳み込み演算回路4は、畳み込み演算の出力データf(以降、「畳み込み演算出力データ」ともいう)を第二メモリ2に書き込む。
【0058】
量子化演算回路5は、学習済みのCNN200の量子化演算層220における量子化演算の少なくとも一部を行う回路である。量子化演算回路5は、第二メモリ2に格納された畳み込み演算の出力データfを読み出し、畳み込み演算の出力データfに対して量子化演算(プーリング、Batch Normalization、活性化関数、および量子化のうち少なくとも量子化を含む演算)を行う。量子化演算回路5は、量子化演算の出力データ(以降、「量子化演算出力データ」ともいう)оutを第一メモリ1に書き込む。
【0059】
コントローラ6は、外部バスEBに接続されており、外部のホストCPUのスレーブとして動作する。コントローラ6は、パラメータレジスタや状態レジスタを含むレジスタ61を有している。パラメータレジスタは、NN実行モデル100の動作を制御するレジスタである。状態レジスタはセマフォSを含むNN実行モデル100の状態を示すレジスタである。外部ホストCPUは、コントローラ6を経由して、レジスタ61にアクセスできる。
【0060】
コントローラ6は、内部バスIBを介して、第一メモリ1と、第二メモリ2と、DMAC3と、畳み込み演算回路4と、量子化演算回路5と、接続されている。外部ホストCPUは、コントローラ6を経由して、各ブロックに対してアクセスできる。例えば、外部ホストCPUは、コントローラ6を経由して、DMAC3や畳み込み演算回路4や量子化演算回路5に対する命令を指示することができる。また、DMAC3や畳み込み演算回路4や量子化演算回路5は、内部バスIBを介して、コントローラ6が有する状態レジスタ(セマフォSを含む)を更新できる。状態レジスタ(セマフォSを含む)は、DMAC3や畳み込み演算回路4や量子化演算回路5と接続された専用配線を介して更新されるように構成されていてもよい。
【0061】
NN実行モデル100は、第一メモリ1や第二メモリ2等を有するため、DRAMなどの外部メモリからのDMAC3によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。
【0062】
図6は、NN実行モデル100の動作例を示すタイミングチャートである。NN実行モデル100は、複数のレイヤの多層構造であるCNN200の演算を、ループ状に形成された回路により演算する。NN実行モデル100は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。以下、
図6に示すニューラルネットワークハードウェア600の動作例を説明する。
【0063】
DMAC3は、レイヤ1(
図3参照)の入力データaを第一メモリ1に格納する。DMAC3は、畳み込み演算回路4が行う畳み込み演算の順序にあわせて、レイヤ1の入力データaを分割して第一メモリ1に転送してもよい。
【0064】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ1(
図3参照)の入力データaを読み出す。畳み込み演算回路4は、レイヤ1の入力データaに対してレイヤ1の畳み込み演算を行う。レイヤ1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0065】
量子化演算回路5は、第二メモリ2に格納されたレイヤ1の出力データfを読み出す。量子化演算回路5は、レイヤ1の出力データfに対してレイヤ2の量子化演算を行う。レイヤ2の量子化演算の出力データоutは、第一メモリ1に格納される。
【0066】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2の量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2の量子化演算の出力データоutを入力データaとしてレイヤ3の畳み込み演算を行う。レイヤ3の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0067】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2M-2(Mは自然数)の量子化演算の出力データоutを読み出す。畳み込み演算回路4は、レイヤ2M-2の量子化演算の出力データоutを入力データaとしてレイヤ2M-1の畳み込み演算を行う。レイヤ2M-1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0068】
量子化演算回路5は、第二メモリ2に格納されたレイヤ2M-1の出力データfを読み出す。量子化演算回路5は、2M-1レイヤの出力データfに対してレイヤ2Mの量子化演算を行う。レイヤ2Mの量子化演算の出力データоutは、第一メモリ1に格納される。
【0069】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2Mの量子化演算の出力データоutを読み出す。畳み込み演算回路4は、レイヤ2Mの量子化演算の出力データоutを入力データaとしてレイヤ2M+1の畳み込み演算を行う。レイヤ2M+1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0070】
畳み込み演算回路4と量子化演算回路5とが交互に演算を行い、
図3に示すCNN200の演算を進めていく。NN実行モデル100は、畳み込み演算回路4が時分割によりレイヤ2M-1とレイヤ2M+1の畳み込み演算を実施する。また、NN実行モデル100は、量子化演算回路5が時分割によりレイヤ2M-2とレイヤ2Mの量子化演算を実施する。そのため、NN実行モデル100は、レイヤごとに別々の畳み込み演算回路4と量子化演算回路5を実装する場合と比較して、回路規模が著しく小さい。
【0071】
[ニューラルネットワーク生成装置300の動作]
次に、ニューラルネットワーク生成装置300の動作(ニューラルネットワーク制御方法)を、
図7に示すニューラルネットワーク生成装置300の制御フローチャートに沿って説明する。ニューラルネットワーク生成装置300は初期化処理を実施した後、ステップS10を実行する。
【0072】
<ニューラルネットワーク機能モデル生成工程(S10)>
ステップS10において、ニューラルネットワーク生成装置300の機能モデル生成部326は、CNN200(NN機能モデル200)を生成し、CNN200(NN機能モデル200)に関する情報であるネットワーク情報NWを出力する(ニューラルネットワーク機能モデル生成工程)。例えば、機能モデル生成部326は、表示部350にCNN200(NN機能モデル200)の設定するGUI画像を表示させ、使用者に操作入力部360から必要な情報を入力させることでCNN200(NN機能モデル200)を生成する。
【0073】
機能モデル生成部326は、公知のニューラルネットワークの機能モデルを生成に利用可能なライブラリやプラットホーム(例えばTensorFlowやPyTorch)を含んでもよい。
【0074】
図8は、NN機能モデル200を設定するGUI画像例を示す図である。
機能モデル生成部326は、操作入力部360から使用者の入力に基づいて、CNN200(NN機能モデル200)におけるネットワークの構造や層(レイヤ)ごとの仕様を設定する。例えば、使用者は、GUI画像として表示される視覚的に図式化された層(レイヤ)の接続を繋ぎ変えることで、NN機能モデル200のネットワークの構造を変更する。また、使用者は、GUI画像として表示される視覚的に図式化された層(レイヤ)層(レイヤ)ごとの仕様(入力データ情報、出力データ情報、量子化情報など)を変更する。
【0075】
機能モデル生成部326が設定するNN機能モデル200の層(レイヤ)は、
図3に示す畳み込み層210と量子化演算層220と出力層230に限定されない。機能モデル生成部326は、ニューラルネットワークの複数の機能を単一の層(レイヤ)としてまとめた「機能レイヤ」をNN機能モデル200の一部として設定できる。また、機能モデル生成部326は、NN実行モデル100の性能を評価する機能を含む「検証レイヤ」をNN機能モデル200の一部として設定できる。
【0076】
第一演算子(第一関数)OP1は、「機能レイヤ」の一つであり、畳み込み演算と量子化演算とを連続して実行する単一の演算子(関数)である。第一演算子OP1は、量子化された入力データaに対して重みwを用いた畳み込み演算を実行し、畳み込み演算されたデータに対して量子化演算を実行し、量子化演算されたデータを出力する。NN機能モデル200において使用頻度が高い演算の組合せを「機能レイヤ」として用意することにより、使用者がNN機能モデル200を設定する際の作用負荷を低減できる。ここで、第一演算子OP1は、入力/出力チャンネル数、フィルタサイズ、ストライドなどの変更可能な演算パラメータをさらに入力とする演算子であってもよい。さらに、第一演算子OP1は、量子化演算の量子化パラメータを入力とする演算子であってもよい。量子化パラメータは、出力データ用量子化パラメータと重み用量子化パラメータとを含んでもよい。具体的には、出力データ用量子化パラメータ(関数/閾値)は、活性化演算において読み込まれて、量子化演算に使用される。重み用量子化パラメータ(関数/閾値)は、畳み込み演算において読み込まれて使用される。なお、第一演算子OP1の入力の一つである重みwは入力時点で量子化されていてもよい。
【0077】
第一演算子(第一関数)OP1は、畳み込み演算と量子化演算とに加えて、Batch Normalizationを連続して実行する単一の演算子(関数)であってもよい。
【0078】
第二演算子(第二関数)OP2は、「検証レイヤ」の一つであり、畳み込み演算を実行する単一の演算子(関数)である。第二演算子OP2は、入力データに対して重みwを用いた畳み込み演算を実行し、畳み込み演算の出力データを出力する。第二演算子OP2は、畳み込み演算の少なくとも一部を量子化できる。畳み込み演算の量子化が無効化された第二演算子(第二関数)OP2は、入力された入力データに対して重みwを用いた畳み込み演算を実行し、畳み込み演算の出力データをそのまま出力する。畳み込み演算は、高精度な演算(例えば浮動小数点演算)により実施される。一方、畳み込み演算の量子化が有効化された第二演算子(第二関数)OP2は、入力データ、重みw、出力データの少なくとも一部が量子化される。例えば、ニューラルネットワーク実行モデル100の畳み込み演算回路4に入力されるデータに合わせて、入力データは2ビットに量子化され、重みwは1ビットに量子化される。また、ニューラルネットワーク実行モデル100の量子化演算回路5から出力される量子化演算データにあわせて、出力データは2ビットに量子化される。すなわち、OP2において畳み込み演算の量子化の有無を切り替えることで、畳み込み演算を高精度で行ったNN機能モデル200と、畳み込み演算をニューラルネットワーク実行モデル100の精度で行ったNN機能モデル200とを容易に比較できる。一例として、NN機能モデル200の出力層230または出力層230に近いレイヤにおいて第二演算子(第二関数)OP2を用いることが好ましい。これにより、出力層230のレイヤにおいて畳み込み演算の少なくとも一部を量子化した際の効果を容易に把握することができる。
【0079】
なお、CNN200(NN機能モデル200)の機能の定義は、
図8に例示するような視覚的に図式化されたもので記述されていなくてもよい。CNN200(NN機能モデル200)の機能の定義は、例えば、プログラム言語やXML等により記述されていてもよい。
【0080】
なお、NN機能モデル200を設定するGUI画像には、使用者がNN機能モデル200を設定する際の作業負荷を低減する設計サポート情報が合わせて表示されていてもよい。例えば、表示される設計サポート情報は、設定しているNN機能モデル200がニューラルネットワーク実行モデル100を生成可能な機能モデルであるかを示す情報である。具体的には、設計サポート情報は、NN機能モデル200に使用される量子化関数がニューラルネットワーク実行モデル100においてアクセラレーション可能な関数であるかを示す情報、各レイヤの入力データおよび重みが適切なフォーマットとなっているかを示す情報、各種パラメータ(重み、量子化パラメータなど)のサイズ(容量)が所定量以下となっているかを示す情報、入力データのチャンネル数が所定数以下となっているかを示す情報などである。
【0081】
また、表示される設計サポート情報は、設定しているNN機能モデル200がソフトウェア500を生成可能な機能モデルであるかを示す情報であってもよい。具体的には、設計サポート情報は、NN機能モデル200に使用される量子化関数がニューラルネットワーク実行モデル100において実行可能な命令コマンドC5に変換可能な関数であるかを示す情報などである。
【0082】
<ハードウェア情報取得工程(S11)>
ステップS11において、ニューラルネットワーク生成装置300は、動作対象ハードウェアのハードウェア情報HWを取得する(ハードウェア情報取得工程)。ニューラルネットワーク生成装置300は、例えば、データ入力部330に入力されたハードウェア情報HWを取得する。ニューラルネットワーク生成装置300は、表示部350にハードウェア情報HWの入力に必要なGUI画像を表示させ、使用者にハードウェア情報HWを操作入力部360から入力させることでハードウェア情報HWを取得してもよい。
【0083】
ハードウェア情報HWは、具体的には、第一メモリ1および第二メモリ2として割り当てるメモリのメモリ種別やメモリ容量や入出力データ幅を有する。
【0084】
取得されたハードウェア情報HWは、記憶部310に記憶される。次に、ニューラルネットワーク生成装置300は、ステップS12を実行する。
【0085】
<ネットワーク情報取得工程(S12)>
ステップS12において、ニューラルネットワーク生成装置300は、ニューラルネットワーク生成工程(S10)で生成されたCNN200のネットワーク情報NWを取得する(ネットワーク情報取得工程)。
【0086】
取得されたネットワーク情報NWは、記憶部310に記憶される。次に、ニューラルネットワーク生成装置300は、ステップS13を実行する。
【0087】
<ニューラルネットワーク実行モデル生成工程(S13)>
ステップS13において、ニューラルネットワーク生成装置300の実行モデル生成部321は、ハードウェア情報HWとネットワーク情報NWとに基づいてNN実行モデル100を生成する(ニューラルネットワーク実行モデル生成工程)。
【0088】
ニューラルネットワーク実行モデル生成工程(NN実行モデル生成工程)は、例えば、畳み込み演算回路生成工程(S13-1)と、量子化演算回路生成工程(S13-2)と、DMAC生成工程(S13-3)と、を有する。
【0089】
<畳み込み演算回路生成工程(S13-1)>
実行モデル生成部321は、ハードウェア情報HWとネットワーク情報NWとに基づいてNN実行モデル100の畳み込み演算回路4を生成する(畳み込み演算回路生成工程)。実行モデル生成部321は、ネットワーク情報NWとして入力された重みwや入力データaのビット幅などの情報から、畳み込み演算回路4のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、RTL(Register Transfer Level)であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される畳み込み演算回路4のハードウェアモデルの一例を説明する。
【0090】
図9は、生成される畳み込み演算回路4の内部ブロック図である。
畳み込み演算回路4は、重みメモリ41と、乗算器42と、アキュムレータ回路43と、ステートコントローラ44と、を有する。畳み込み演算回路4は、乗算器42およびアキュムレータ回路43に対する専用のステートコントローラ44を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。
【0091】
重みメモリ41は、畳み込み演算に用いる重みwが格納されるメモリであり、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。DMAC3は、DMA転送により、畳み込み演算に必要な重みwを重みメモリ41に書き込む。
【0092】
図10は、乗算器42の内部ブロック図である。
乗算器42は、入力ベクトルaの各要素と重みマトリクスwの各要素とを乗算する。入力ベクトルaの各要素は、入力データaが分割されたデータであり、Bc個の要素を持つベクトルデータである(例えば、後述する「入力ベクトルA」)。また、重みマトリクスwの各要素は、重みwが分割されたデータであり、Bc×Bd個の要素を持つマトリクスデータである(例えば、後述する「重みマトリクスW」)。乗算器42は、Bc×Bd個の積和演算ユニット47を有し、入力ベクトルAと重みマトリクスWとを乗算を並列して実施できる。
【0093】
乗算器42は、乗算に必要な入力ベクトルAと重みマトリクスWを、第一メモリ1および重みメモリ41から読み出して乗算を実施する。乗算器42は、Bd個の積和演算結果O(di)を出力する。
【0094】
図11は、積和演算ユニット47の内部ブロック図である。
積和演算ユニット47は、入力ベクトルAの要素A(ci)と、重みマトリクスWの要素W(ci,di)との乗算を実施する。また、積和演算ユニット47は、乗算結果と他の積和演算ユニット47の乗算結果S(ci,di)と加算する。積和演算ユニット47は、加算結果S(ci+1,di)を出力する。ciは0から(Bc-1)までのインデックスである。diは0から(Bd-1)までのインデックスである。要素A(ci)は、2ビットの符号なし整数(0,1,2,3)である。要素W(ci,di)は、1ビットの符号付整数(0,1)であり、値「0」は+1を表し、値「1」は-1を表す。
【0095】
積和演算ユニット47は、反転器(インバータ)47aと、セレクタ47bと、加算器47cと、を有する。積和演算ユニット47は、乗算器を用いず、反転器47aおよびセレクタ47bのみを用いて乗算を行う。セレクタ47bは、要素W(ci,di)が「0」の場合、要素A(ci)の入力を選択する。セレクタ47bは、要素W(ci,di)が「1」の場合、要素A(ci)を反転器により反転させた補数を選択する。要素W(ci,di)は、加算器47cのCarry-inにも入力される。加算器47cは、要素W(ci,di)が「0」のとき、S(ci,di)に要素A(ci)を加算した値を出力する。加算器47cは、W(ci,di)が「1」のとき、S(ci,di)から要素A(ci)を減算した値を出力する。
【0096】
図12は、アキュムレータ回路43の内部ブロック図である。
アキュムレータ回路43は、乗算器42の積和演算結果O(di)を第二メモリ2にアキュムレートする。アキュムレータ回路43は、Bd個のアキュムレータユニット48を有し、Bd個の積和演算結果O(di)を並列して第二メモリ2にアキュムレートできる。
【0097】
図13は、アキュムレータユニット48の内部ブロック図である。
アキュムレータユニット48は、加算器48aと、マスク部48bとを有している。加算器48aは、積和演算結果Oの要素O(di)と、第二メモリ2に格納された式1に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり16ビットである。加算結果は、要素あたり16ビットに限定されず、例えば要素あたり15ビットや17ビットであってもよい。
【0098】
加算器48aは、加算結果を第二メモリ2の同一アドレスに書き込む。マスク部48bは、初期化信号clearがアサートされた場合に、第二メモリ2からの出力をマスクし、要素O(di)に対する加算対象をゼロにする。初期化信号clearは、第二メモリ2に途中経過の部分和が格納されていない場合にアサートされる。
【0099】
乗算器42およびアキュムレータ回路43による畳み込み演算が完了すると、第二メモリに、Bd個の要素を持つ出力データf(x,y,do)が格納される。
【0100】
ステートコントローラ44は、乗算器42およびアキュムレータ回路43のステートを制御する。また、ステートコントローラ44は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ44は、命令キュー45と制御回路46とを有する。
【0101】
命令キュー45は、畳み込み演算回路4用の命令コマンドC4が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー45には、内部バスIB経由で命令コマンドC4が書き込まれる。
【0102】
制御回路46は、命令コマンドC4をデコードし、命令コマンドC4に基づいて乗算器42およびアキュムレータ回路43を制御するステートマシンである。制御回路46は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるCPUによって実装されていてもよい。
【0103】
図14は、制御回路46のステート遷移図である。
制御回路46は、命令キュー45に命令コマンドC4が入力されると(Not empty)、アイドルステートS1からデコードステートS2に遷移する。
【0104】
制御回路46は、デコードステートS2において、命令キュー45から出力される命令コマンドC3をデコードする。また、制御回路46は、コントローラ6のレジスタ61に格納されたセマフォSを読み出し、命令コマンドC4において指示された乗算器42やアキュムレータ回路43の動作を実行可能であるかを判定する。実行不能である場合(Not ready)、制御回路46は実行可能となるまで待つ(Wait)。実行可能である場合(ready)、制御回路46はデコードステートS2から実行ステートS3に遷移する。
【0105】
制御回路46は、実行ステートS3において、乗算器42やアキュムレータ回路43を制御して、乗算器42やアキュムレータ回路43に命令コマンドC4において指示された動作を実施させる。制御回路46は、乗算器42やアキュムレータ回路43の動作が終わると、命令キュー45から実行を終えた命令コマンドC4を取り除くとともに、コントローラ6のレジスタ61に格納されたセマフォSを更新する。制御回路46は、命令キュー45に命令がある場合(Not empty)、実行ステートS3からデコードステートS2に遷移する。制御回路46は、命令キュー45に命令がない場合(empty)、実行ステートS3からアイドルステートS1に遷移する。
【0106】
実行モデル生成部321は、ネットワーク情報NWとして入力された重みwや入力データaのビット幅などの情報から、畳み込み演算回路4における演算器の仕様やサイズ(BcやBd)を決定する。ハードウェア情報HWの中に生成するNN実行モデル100(ニューラルネットワークハードウェアモデル400、ニューラルネットワークハードウェア600)のハードウェア規模が含まれる場合、実行モデル生成部321は、指定された規模にあわせて畳み込み演算回路4における演算器の仕様やサイズ(BcやBd)を調整する。
【0107】
<量子化演算回路生成工程(S13-2)>
実行モデル生成部321は、ハードウェア情報HWとネットワーク情報NWとに基づいてNN実行モデル100の量子化演算回路5を生成する(量子化演算回路生成工程)。実行モデル生成部321は、ネットワーク情報NWとして入力された量子化情報から、量子化演算回路5のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、RTL(Register Transfer Level)であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される量子化演算回路5のハードウェアモデルの一例を説明する。
【0108】
図15は、生成される量子化演算回路5の内部ブロック図である。
量子化演算回路5は、量子化パラメータメモリ51と、ベクトル演算回路52と、量子化回路53と、ステートコントローラ54と、を有する量子化演算回路5は、ベクトル演算回路52および量子化回路53に対する専用のステートコントローラ54を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。
【0109】
量子化パラメータメモリ51は、量子化演算に用いる量子化パラメータqが格納されるメモリであり、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。DMAC3は、DMA転送により、量子化演算に必要な量子化パラメータqを量子化パラメータメモリ51に書き込む。
【0110】
図16は、ベクトル演算回路52と量子化回路53の内部ブロック図である。
ベクトル演算回路52は、第二メモリ2に格納された出力データf(x,y,do)に対して演算を行う。ベクトル演算回路52は、Bd個の演算ユニット57を有し、出力データf(x,y,do)に対して並列にSIMD演算を行う。
【0111】
図17は、演算ユニット57のブロック図である。
演算ユニット57は、例えば、ALU57aと、第一セレクタ57bと、第二セレクタ57cと、レジスタ57dと、シフタ57eと、を有する。演算ユニット57は、公知の汎用SIMD演算回路が有する他の演算器等をさらに有してもよい。
【0112】
ベクトル演算回路52は、演算ユニット57が有する演算器等を組み合わせることで、出力データf(x,y,do)に対して、量子化演算層220におけるプーリング層221や、Batch Normalization層222や、活性化関数層223の演算のうち少なくとも一つの演算を行う。
【0113】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより加算できる。演算ユニット57は、ALU57aによる加算結果をレジスタ57dに格納できる。演算ユニット57は、第一セレクタ57bの選択によりレジスタ57dに格納されたデータに代えて「0」をALU57aに入力することで加算結果を初期化できる。例えばプーリング領域が2×2である場合、シフタ57eはALU57aの出力を2bit右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式2に示す平均プーリングの演算を実施できる。
【0114】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより比較できる。
演算ユニット57は、ALU57aによる比較結果に応じて第二セレクタ57cを制御して、レジスタ57dに格納されたデータと要素f(di)の大きい方を選択できる。演算ユニット57は、第一セレクタ57bの選択により要素f(di)の取りうる値の最小値をALU57aに入力することで比較対象を最小値に初期化できる。本実施形態において要素f(di)は16bit符号付き整数であるので、要素f(di)の取りうる値の最小値は「0x8000」である。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式3のMAXプーリングの演算を実施できる。なお、MAXプーリングの演算ではシフタ57eは第二セレクタ57cの出力をシフトしない。
【0115】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより減算できる。シフタ57eはALU57aの出力を左シフト(すなわち乗算)もしくは右シフト(すなわち除算)できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式4のBatch Normalizationの演算を実施できる。
【0116】
演算ユニット57は、第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)と第一セレクタ57bにより選択された「0」とをALU57aにより比較できる。演算ユニット57は、ALU57aによる比較結果に応じて要素f(di)と予めレジスタ57dに格納された定数値「0」のいずれかを選択して出力できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式5のReLU演算を実施できる。
【0117】
ベクトル演算回路52は、平均プーリング、MAXプーリング、Batch Normalization、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路52は、汎用SIMD演算を実施できるため、量子化演算層220における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路52は、量子化演算層220における演算以外の演算を実施してもよい。
【0118】
なお、量子化演算回路5は、ベクトル演算回路52を有してなくてもよい。量子化演算回路5がベクトル演算回路52を有していない場合、出力データf(x,y,do)は量子化回路53に入力される。
【0119】
量子化回路53は、ベクトル演算回路52の出力データに対して、量子化を行う。量子化回路53は、
図16に示すように、Bd個の量子化ユニット58を有し、ベクトル演算回路52の出力データに対して並列に演算を行う。
【0120】
図18は、量子化ユニット58の内部ブロック図である。
量子化ユニット58は、ベクトル演算回路52の出力データの要素in(di)に対して量子化を行う。量子化ユニット58は、比較器58aと、エンコーダ58bと、を有する。量子化ユニット58はベクトル演算回路52の出力データ(16ビット/要素)に対して、量子化演算層220における量子化層224の演算(式6)を行う。量子化ユニット58は、量子化パラメータメモリ51から必要な量子化パラメータq(th0,th1,th2)を読み出し、比較器58aにより入力in(di)と量子化パラメータqとの比較を行う。量子化ユニット58は、比較器58aによる比較結果をエンコーダ58bにより2ビット/要素に量子化する。式4におけるα(c)とβ(c)は、変数cごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータq(th0,th1,th2)はin(di)ごとに異なるパラメータである。
【0121】
量子化ユニット58は、入力in(di)を3つの閾値th0,th1,th2と比較することにより、入力in(di)を4領域(例えば、in≦th0,th0<in≦th1,th1<in≦th2,th2<in)に分類し、分類結果を2ビットにエンコードして出力する。量子化ユニット58は、量子化パラメータq(th0,th1,th2)の設定により、量子化と併せてBatch Normalizationや活性化関数の演算を行うこともできる。
【0122】
量子化ユニット58は、閾値th0を式4のβ(c)、閾値の差(th1―th0)および(th2―th1)を式4のα(c)として設定して量子化を行うことで、式4に示すBatch Normalizationの演算を量子化と併せて実施できる。(th1―th0)および(th2―th1)を大きくすることでα(c)を小さくできる。(th1―th0)および(th2―th1)を小さくすることで、α(c)を大きくできる。
【0123】
量子化ユニット58は、入力in(di)の量子化と併せて活性化関数のReLU演算を実施できる。例えば、量子化ユニット58は、in(di)≦th0およびth2<in(di)となる領域では出力値を飽和させる。量子化ユニット58は、出力が非線形となるように量子化パラメータqを設定することで活性化関数の演算を量子化と併せて実施できる。
【0124】
ステートコントローラ54は、ベクトル演算回路52および量子化回路53のステートを制御する。また、ステートコントローラ54は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ54は、命令キュー55と制御回路56とを有する。
【0125】
命令キュー55は、量子化演算回路5用の命令コマンドC5が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー55には、内部バスIB経由で命令コマンドC5が書き込まれる。
【0126】
制御回路56は、命令コマンドC5をデコードし、命令コマンドC5に基づいてベクトル演算回路52および量子化回路53を制御するステートマシンである。制御回路56は、畳み込み演算回路4のステートコントローラ44の制御回路46と同様の構成である。
【0127】
量子化演算回路5は、Bd個の要素を持つ量子化演算出力データを第一メモリ1に書き込む。なお、BdとBcの好適な関係を式7に示す。式7においてnは整数である。
【0128】
【0129】
実行モデル生成部321は、ネットワーク情報NWとして入力された量子化情報から、量子化演算回路5における、プーリングの演算の有無および種類(平均プーリング、MAXプーリングなど)、Batch Normalizationの演算の有無および方式、活性化関数の演算の有無および方式(ReLU演算など)、量子化の方式(ビット数など)、およびその他の演算の有無を決定する。ハードウェア情報HWの中に生成するNN実行モデル100(ニューラルネットワークハードウェアモデル400、ニューラルネットワークハードウェア600)のハードウェア規模が含まれる場合、実行モデル生成部321は、指定された規模にあわせて量子化演算回路5における演算器の構成を調整する。
【0130】
<DMAC生成工程(S13-3)>
実行モデル生成部321は、ハードウェア情報HWとネットワーク情報NWとに基づいてNN実行モデル100のDMAC3を生成する(DMAC生成工程)。実行モデル生成部321は、ネットワーク情報NWとして入力された情報から、DMAC3のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、RTL(Register Transfer Level)であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成されるDMAC3のハードウェアモデルの一例を説明する。
【0131】
図19は、生成されるDMAC3の内部ブロック図である。
DMAC3は、データ転送回路31と、ステートコントローラ32と、を有する。DMAC3は、データ転送回路31に対する専用のステートコントローラ32を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにDMAデータ転送を実施できる。
【0132】
データ転送回路31は、外部バスEBに接続されており、DRAMなどの外部メモリと第一メモリ1との間のDMAデータ転送を行う。また、データ転送回路31は、DRAMなどの外部メモリと第二メモリ2との間のDMAデータ転送を行う。また、データ転送回路31は、DRAMなどの外部メモリと畳み込み演算回路4との間のデータ転送を行う。また、データ転送回路31は、DRAMなどの外部メモリと量子化演算回路5との間のデータ転送を行う。データ転送回路31のDMAチャンネル数は限定されない。例えば、第一メモリ1と第二メモリ2のそれぞれに専用のDMAチャンネルを有していてもよい。
【0133】
ステートコントローラ32は、データ転送回路31のステートを制御する。また、ステートコントローラ32は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ32は、命令キュー33と制御回路34とを有する。
【0134】
命令キュー33は、DMAC3用の命令コマンドC3が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー33には、内部バスIB経由で1つ以上の命令コマンドC3が書き込まれる。
【0135】
制御回路34は、命令コマンドC3をデコードし、命令コマンドC3に基づいて順次データ転送回路31を制御するステートマシンである。制御回路34は、畳み込み演算回路4のステートコントローラ44の制御回路46と同様の構成である。
【0136】
実行モデル生成部321は、ネットワーク情報NWとして入力された情報から、DMAC3における、DMAチャンネル数やデータバス幅などを決定する。
【0137】
例えば、実行モデル生成部321は、ホスト側の外部バスEBの仕様にあわせた仕様(データバス幅等)のDMAC3を生成する。データバス幅やDMAチャンネル数を増やすことで外部メモリと第一メモリ1や第二メモリ2とのデータ伝送速度を向上させることができる。
【0138】
<学習工程(S14)>
ステップS14において、ニューラルネットワーク生成装置300の学習部322および推論部323は、学習データセットDSを用いて、生成されたNN実行モデル100の学習パラメータを学習する(学習工程)。学習工程(S14)は、例えば、学習済みパラメータ生成工程(S14-1)と、推論テスト工程(S14-2)と、を有する。
【0139】
<学習工程:学習済みパラメータ生成工程(S14-1)>
学習部322は、NN実行モデル100および学習データD1を用いて、学習済みパラメータPMを生成する。学習済みパラメータPMは、学習済みの重みwおよび量子化パラメータq等である。
【0140】
例えば、NN実行モデル100が画像認識を実施するCNN200の実行モデルである場合、学習データD1は入力画像と教師データTとの組み合わせである。入力画像は、CNN200に入力される入力データaである。教師データTは、画像に撮像された被写体の種類や、画像における検出対象物の有無や、画像における検出対象物の座標値などである。
【0141】
学習部322は、公知の技術である誤差逆伝播法などによる教師あり学習によって、学習済みパラメータPMを生成する。学習部322は、入力画像に対するNN実行モデル100の出力と、入力画像に対応する教師データTと、の差分Eを損失関数(誤差関数)により求め、差分Eが小さくなるように重みwおよび量子化パラメータqを更新する。
【0142】
例えば重みwを更新する場合、重みwに関する損失関数の勾配が用いられる。勾配は、例えば損失関数を微分することにより算出される。誤差逆伝播法を用いる場合、勾配は逆伝番(backward)により算出される。
【0143】
学習部322は、勾配を算出して重みwを更新する際において、畳み込み演算に関連する演算を高精度化する。具体的には、NN実行モデル100が使用する低ビットの重みw(例えば1ビット)より高精度な32ビットの浮動小数点型の重みwが学習に使用される。また、NN実行モデル100の畳み込み演算回路4において実施する畳み込み演算が高精度化される。
【0144】
学習部322は、勾配を算出して重みwを更新する際において、活性化関数に関連する演算を高精度化する。具体的には、NN実行モデル100の量子化演算回路5において実施するReLU関数などの活性化関数より高精度なシグモンド関数が学習に使用される。
【0145】
一方、学習部322は、順伝搬(fоrward)により入力画像に対する出力データを算出する際においては、畳み込み演算および活性化関数に関連する演算を高精度化せず、NN実行モデル100に基づいた演算を実施する。重みwを更新する際に用いられた高精度な重みwは、ルックアップテーブル等により低ビット化される。
【0146】
学習部322は、勾配を算出して重みwを更新する際において、畳み込み演算および活性化関数に関連する演算を高精度化することにより、演算における中間データの精度低下を防止して、高い推論精度を実現できる学習済みパラメータPMを生成できる。
【0147】
一方、学習部322は、入力画像に対する出力データを算出する際において、順伝搬(fоrward)の演算を高精度化せず、NN実行モデル100に基づいた演算を実施する。そのため、学習部322が算出した出力データと、生成された学習済みパラメータPMを用いたNN実行モデル100の出力データと、が一致する。
【0148】
順伝搬(fоrward)により入力画像に対する出力データを算出する際において、学習部322は、NN実行モデル100において畳み込み演算における量子化が有効化された第二演算子OP2を演算するとき、第二演算子OP2において規定された畳み込み演算における量子化を行う。一方、学習部322は、NN実行モデル100において畳み込み演算における量子化が無効化された第二演算子OP2を演算するとき、第二演算子OP2において規定された畳み込み演算における量子化を実施しない。使用者は、NN実行モデル100における第二演算子OP2の量子化の有無を切り替えるだけで、対応する層(レイヤ)において畳み込み演算における量子化を行うNN実行モデル100と、対応する層(レイヤ)において畳み込み演算における量子化を行わないNN実行モデル100と、を学習工程において容易に比較できる。
【0149】
<学習工程:推論テスト工程(S14-2)>
推論部323は、学習部322が生成した学習済みパラメータPM、NN実行モデル100およびテストデータD2を用いて推論テストを実施する。例えば、NN実行モデル100が画像認識を実施するCNN200の実行モデルである場合、テストデータD2は、学習データD1同様に入力画像と教師データTとの組み合わせである。
【0150】
推論部323は、推論テストの進捗および結果を表示部350に表示する。推論テストの結果は、例えばテストデータD2に対する正解率である。
【0151】
<確認工程(S15)>
ステップS15において、ニューラルネットワーク生成装置300の推論部323は、操作入力部360から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なGUI画像を表示部350に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部360から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部360から入力された場合、ニューラルネットワーク生成装置300は、次にステップS16を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部360から入力された場合、ニューラルネットワーク生成装置300は、再度ステップS10を実施してNN機能モデル200を再生成して、ネットワーク情報NWを再出力する(ニューラルネットワーク機能モデル再生成工程)。使用者は、再度実施するステップS10において、例えば、量子化情報(レイヤごとの量子化の有無など)や入力データ情報(チャンネル数など)を変更する。なお、ニューラルネットワーク生成装置300は、NN機能モデル200(ネットワーク情報NW)を再生成せずに、ステップS11まで戻ってハードウェア情報HWを使用者に再入力させてもよい。
【0152】
<ハードウェア生成工程(S16)>
ステップS16において、ニューラルネットワーク生成装置300のハードウェア生成部324は、ハードウェア情報HWおよびNN実行モデル100に基づいてニューラルネットワークハードウェアモデル400を生成する(ハードウェア生成工程)。
【0153】
<ソフトウェア生成工程(S17)>
ステップS17において、ニューラルネットワーク生成装置300のソフトウェア生成部325は、NN機能モデル200(ネットワーク情報NW)およびNN実行モデル100などに基づいて、ニューラルネットワークハードウェア600(ニューラルネットワークハードウェアモデル400を動作対象ハードウェアに実装したもの)を動作させるソフトウェア500を生成する。ソフトウェア500は、例えばハードウェアモデルを制御する命令セットを使用したソフトウェアである。また、ソフトウェア500は、学習済みパラメータPMを必要に応じてニューラルネットワークハードウェア600へ転送するソフトウェアを含む。
【0154】
ソフトウェア生成工程(S17)は、例えば、入力データ分割工程(S17-1)と、アロケーション工程(S17-2)と、を有する。
【0155】
<入力データ分割工程(S17-1):データ分割>
ソフトウェア生成部325は、第一メモリ1および第二メモリ2として割り当てるメモリのメモリ容量や演算器の仕様やサイズ(BcやBd)などに基づいて、畳み込み層210の畳み込み演算の入力データaを部分テンソルに分割する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データa(x+i,y+j,c)をa(x+i,y+j,co)に分割することにより形成される。
【0156】
図20は、畳み込み演算のデータ分割やデータ展開を説明する図である。
畳み込み演算のデータ分割において、式1における変数cは、式8に示すように、サイズBcのブロックで分割される。また、式1における変数dは、式9に示すように、サイズBdのブロックで分割される。式8において、coはオフセットであり、ciは0から(Bc-1)までのインデックスである。式9において、doはオフセットであり、diは0から(Bd-1)までのインデックスである。なお、サイズBcとサイズBdは同じであってもよい。
【0157】
【0158】
【0159】
式1における入力データa(x+i,y+j,c)は、c軸方向においてサイズBcにより分割され、分割された入力データa(x+i,y+j,co)で表される。以降の説明において、分割された入力データaを「分割入力データa」ともいう。
【0160】
式1における重みw(i,j,c,d)は、c軸方向においてサイズBcおよびd軸方向においてサイズBdにより分割され、分割された重みw(i,j,co,do)で表される。以降の説明において、分割された重みwを「分割重みw」ともいう。
【0161】
サイズBdにより分割された出力データf(x,y,do)は、式10により求まる。分割された出力データf(x,y,do)を組み合わせることで、最終的な出力データf(x,y,d)を算出できる。
【0162】
【0163】
<入力データ分割工程(S17-1):データ展開>
ソフトウェア生成部325は、NN実行モデル100の畳み込み演算回路4に、分割された入力データaおよび重みwを展開する。
【0164】
分割入力データa(x+i,y+j,co)は、Bc個の要素を持つベクトルデータに展開される。分割入力データaの要素は、ciでインデックスされる(0≦ci<Bc)。以降の説明において、i,jごとにベクトルデータに展開された分割入力データaを「入力ベクトルA」ともいう。入力ベクトルAは、分割入力データa(x+i,y+j,co×Bc)から分割入力データa(x+i,y+j,co×Bc+(Bc-1))までを要素とする。
【0165】
分割重みw(i,j,co,do)は、Bc×Bd個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みwの要素は、ciとdiでインデックスされる(0≦di<Bd)。以降の説明において、i,jごとにマトリクスデータに展開された分割重みwを「重みマトリクスW」ともいう。重みマトリクスWは、分割重みw(i,j,co×Bc,do×Bd)から分割重みw(i,j,co×Bc+(Bc-1),do×Bd+(Bd-1))までを要素とする。
【0166】
入力ベクトルAと重みマトリクスWとを乗算することで、ベクトルデータが算出される。i,j,coごとに算出されたベクトルデータを3次元テンソルに整形することで、出力データf(x,y,do)を得ることができる。このようなデータの展開を行うことで、畳み込み層210の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。
【0167】
<アロケーション工程(S17-2)>
ソフトウェア生成部325は、分割された演算をニューラルネットワークハードウェア600に割り当てて実施させるソフトウェア500を生成する(アロケーション工程)。生成されるソフトウェア500は、命令コマンドC3、命令コマンドC4および命令コマンドC5を含む。
【0168】
ソフトウェア500は、NN機能モデル200(ネットワーク情報NW)における第一演算子OP1に含まれる畳み込み演算と量子化演算とを別々にニューラルネットワーク実行モデル100に実行させる。具体的には、第一演算子OP1に含まれる畳み込み演算は命令コマンドC4に、第一演算子OP1に含まれる量子化演算は命令コマンドC5に、変換される。
【0169】
NN機能モデル200において、畳み込み演算と実行する畳み込み演算子(畳み込み演算関数)と量子化演算を実行する量子化演算子(量子化演算関数)とは、各演算子の順序や接続を使用者が所定の範囲で自由に設定できるため、ニューラルネットワーク実行モデル100における実行可能な命令コマンド(C4,C5)に変換できない場合がある。
【0170】
一方、NN機能モデル200において、畳み込み演算と量子化演算とを連続して実行する単一の第一演算子OP1は、予め畳み込み演算と量子化演算との順序等が規定されているため、ニューラルネットワーク実行モデル100における実行可能な命令コマンド(C4,C5)に分離・変換しやすい。
【0171】
図21は、ニューラルネットワークハードウェア600への割り当て例を示すタイミングチャートである。
【0172】
第一部分テンソルa
1に対応する畳み込み演算および量子化演算と、第二部分テンソルa
2に対応する畳み込み演算および量子化演算とは、
図21に示すように、独立して実施することができる。そこで、ソフトウェア生成部325は、分割された演算を、ネットワーク(レイヤ)の一部の順番を入れ替えて、ニューラルネットワークハードウェア600に割り当ててもよい。
【0173】
畳み込み演算回路4は、第一部分テンソルa
1に対応するレイヤ2M-1の畳み込み演算(
図21において、レイヤ2M-1(a
1)で示す演算)を行う。その後、畳み込み演算回路4は、第二部分テンソルa
2に対応するレイヤ2M-1の畳み込み演算(
図21において、レイヤ2M-1(a
2)で示す演算)を行う。また、量子化演算回路5は、第一部分テンソルa
1に対応するレイヤ2Mの量子化演算(
図21において、レイヤ2M(a
1)で示す演算)を行う。このように、NN実行モデル100は、第二部分テンソルa
2に対応するレイヤ2M-1の畳み込み演算と、第一部分テンソルa
1に対応するレイヤ2Mの量子化演算と、を並列に実施できる。
【0174】
次に、畳み込み演算回路4は、第一部分テンソルa
1に対応するレイヤ2M+1の畳み込み演算(
図21において、レイヤ2M+1(a
1)で示す演算)を行う。また、量子化演算回路5は、第二部分テンソルa
2に対応するレイヤ2Mの量子化演算(
図21において、レイヤ2M(a
2)で示す演算)を行う。このように、NN実行モデル100は、第一部分テンソルa
1に対応するレイヤ2M+1の畳み込み演算と、第二部分テンソルa
2に対応するレイヤ2Mの量子化演算と、を並列に実施できる。
【0175】
入力データaを部分テンソルに分割することで、ニューラルネットワークハードウェア600は畳み込み演算回路4と量子化演算回路5とを並列して動作させることができる。その結果、畳み込み演算回路4と量子化演算回路5が待機する時間が削減され、ニューラルネットワークハードウェア600の演算処理効率が向上する。
図21に示す動作例において部分テンソルへの分割数は2であったが、分割数が2より大きい場合も同様に、ニューラルネットワークハードウェア600は畳み込み演算回路4と量子化演算回路5とを並列して動作させることができる。
【0176】
なお、部分テンソルに対する演算方法としては、同一レイヤにおける部分テンソルの演算を畳み込み演算回路4または量子化演算回路5で行った後に次のレイヤにおける部分テンソルの演算を行う例(方法1)を示した。例えば、
図21に示すように、畳み込み演算回路4において、第一部分テンソルa
1および第二部分テンソルa
2に対応するレイヤ2M-1の畳み込み演算(
図21において、レイヤ2M-1(a
1)およびレイヤ2M-1(a
2)で示す演算)を行った後に、第一部分テンソルa
1および第二部分テンソルa
2に対応するレイヤ2M+1の畳み込み演算(
図21において、レイヤ2M+1(a
1)およびレイヤ2M+1(a
2)で示す演算)を実施している。
【0177】
しかしながら、部分テンソルに対する演算方法はこれに限られない。部分テンソルに対する演算方法は、複数レイヤにおける一部の部分テンソルの演算をした後に残部の部分テンソルの演算を実施する方法でもよい(方法2)。例えば、畳み込み演算回路4において、第一部分テンソルa1に対応するレイヤ2M-1および第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算を行った後に、第二部分テンソルa2に対応するレイヤ2M-1および第二部分テンソルa2に対応するレイヤ2M+1の畳み込み演算を実施してもよい。
【0178】
また、部分テンソルに対する演算方法は、方法1と方法2とを組み合わせて部分テンソルを演算する方法でもよい。ただし、方法2を用いる場合は、部分テンソルの演算順序に関する依存関係に従って演算を実施する必要がある。
【0179】
なお、上述した部分テンソルの並列演算は、部分テンソルの演算順序に関する依存関係以外にも、第一メモリ1や第二メモリ2の未使用領域に基づいても実施可否が判断される。第一メモリ1や第二メモリ2において並列演算に必要な未使用領域がない場合は、並列演算の一部の演算を並列に実施せずに時分割して実施する制御が実施される。
【0180】
例えば、同じ入力データaに対して重みwを変えて畳み込み演算を実施する場合、同じ入力データaを用いる畳み込み演算を連続して実施する方が効率がよい。そのため、ソフトウェア生成部325は、可能な限り第一メモリ1や第二メモリ2に格納されている同じデータを用いる演算が連続するように、分割された演算の順番を入れ替える。
【0181】
以上説明したように、本実施形態に係るニューラルネットワーク生成方法およびニューラルネットワーク生成プログラムによれば、IoT機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成できる。
【0182】
以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。
【0183】
(変形例1)
上記実施形態において、第一メモリ1と第二メモリ2は別のメモリであったが、第一メモリ1と第二メモリ2の態様はこれに限定されない。第一メモリ1と第二メモリ2は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。
【0184】
(変形例2)
例えば、上記実施形態に記載のNN実行モデル100やニューラルネットワークハードウェア600に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、NN実行モデル100やニューラルネットワークハードウェア600に入力されるデータは、ニューラルネットワークハードウェア600が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System(GPS)計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。
【0185】
(変形例3)
ニューラルネットワークハードウェア600が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet(PoE)などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。
【0186】
上述した実施形態におけるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0187】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【産業上の利用可能性】
【0188】
本発明は、ニューラルネットワークの生成に適用することができる。
【符号の説明】
【0189】
300 ニューラルネットワーク生成装置
200 畳み込みニューラルネットワーク(CNN)(NN機能モデル)
100 ニューラルネットワーク実行モデル(NN実行モデル)
400 ニューラルネットワークハードウェアモデル
500 ソフトウェア
600 ニューラルネットワークハードウェア
1 第一メモリ
2 第二メモリ
3 DMAコントローラ(DMAC)
4 畳み込み演算回路
42 乗算器
43 アキュムレータ回路
5 量子化演算回路
52 ベクトル演算回路
53 量子化回路
6 コントローラ
61 レジスタ
PM 学習済みパラメータ
DS 学習データセット
HW ハードウェア情報
NW ネットワーク情報
OP1 第一演算子(第一関数)
OP2 第二演算子(第二関数)