IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ LeapMind株式会社の特許一覧

特開2024-27919ニューラルネットワーク学習装置およびニューラルネットワーク学習方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027919
(43)【公開日】2024-03-01
(54)【発明の名称】ニューラルネットワーク学習装置およびニューラルネットワーク学習方法
(51)【国際特許分類】
   G06N 3/08 20230101AFI20240222BHJP
【FI】
G06N3/08
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022131113
(22)【出願日】2022-08-19
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】517048278
【氏名又は名称】LeapMind株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100161506
【弁理士】
【氏名又は名称】川渕 健一
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100207789
【弁理士】
【氏名又は名称】石田 良平
(72)【発明者】
【氏名】杉田 祐也
(57)【要約】
【課題】ニューラルネットワークの機能モデルと当該機能モデルを用いて学習した学習済みパラメータを、ニューラルネットワーク回路において実施可能な演算に変換して演算させる場合において、機能モデルによる演算結果とニューラルネットワーク回路による演算結果との誤差の発生を抑制する。
【解決手段】ニューラルネットワーク学習装置は、ニューラルネットワーク回路において推論演算を実施するニューラルネットワークを学習する装置であって、浮動小数点フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワークの機能モデルを用いて、前記量子化演算に用いる閾値を含む学習済みパラメータを生成する学習部を備え、前記学習部は、前記ニューラルネットワーク回路の演算環境と前記機能モデルの演算環境との違いに基づいて前記閾値を生成する。
【選択図】図23

【特許請求の範囲】
【請求項1】
ニューラルネットワーク回路において推論演算を実施するニューラルネットワークを学習する装置であって、
浮動小数点フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワークの機能モデルを用いて、前記量子化演算に用いる閾値を含む学習済みパラメータを生成する学習部を備え、
前記学習部は、前記ニューラルネットワーク回路の演算環境と前記機能モデルの演算環境との違いに基づいて前記閾値を生成する、
ニューラルネットワーク学習装置。
【請求項2】
前記ニューラルネットワーク回路は、整数フォーマットによる畳み込み演算と量子化演算とを実行し、
前記学習部は、整数値からの誤差が許容誤差以内となる禁制帯に含まれない前記閾値を生成する、
請求項1に記載のニューラルネットワーク学習装置。
【請求項3】
前記学習部は、生成した前記閾値が前記禁制帯に含まれるとき、学習を再実行して、新たな前記閾値を生成する、
請求項2に記載のニューラルネットワーク学習装置。
【請求項4】
前記許容誤差は、ゼロに限りなく近い小数値である、
請求項2に記載のニューラルネットワーク学習装置。
【請求項5】
整数フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワーク回路において実施可能な演算に変換可能な変換可能演算ブロックを含む前記機能モデルを生成する機能モデル生成部をさらに備える、
請求項1に記載のニューラルネットワーク学習装置。
【請求項6】
前記機能モデルの前記変換可能演算ブロックを前記ニューラルネットワーク回路において実施可能な演算に変換し、変換した演算を前記ニューラルネットワーク回路に実行させるソフトウェアおよび学習済みパラメータを生成するソフトウェア生成部をさらに備える、
請求項5に記載のニューラルネットワーク学習装置。
【請求項7】
前記学習部は、前記機能モデルの前記変換可能演算ブロックの少なくとも一部の演算を前記閾値に集約させる、
請求項6に記載のニューラルネットワーク学習装置。
【請求項8】
ニューラルネットワーク回路において推論演算を実施するニューラルネットワークを学習する方法であって、
浮動小数点フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワークの機能モデルを用いて、前記量子化演算に用いる閾値を含む学習済みパラメータを生成する学習工程を備え、
前記学習工程は、前記ニューラルネットワーク回路の演算環境と前記機能モデルの演算環境との違いに基づいて前記閾値を生成する、
ニューラルネットワーク学習方法。
【請求項9】
前記ニューラルネットワーク回路は、整数フォーマットによる畳み込み演算と量子化演算とを実行し、
前記学習工程は、整数値からの誤差が許容誤差以内となる禁制帯に含まれない前記閾値を生成する、
請求項8に記載のニューラルネットワーク学習方法。
【請求項10】
前記学習工程は、生成した前記閾値が前記禁制帯に含まれるとき、学習を再実行して、新たな前記閾値を生成する、
請求項9に記載のニューラルネットワーク学習方法。
【請求項11】
前記許容誤差は、ゼロに限りなく近い小数値である、
請求項9に記載のニューラルネットワーク学習方法。
【請求項12】
整数フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワーク回路において実施可能な演算に変換可能な変換可能演算ブロックを含む前記機能モデルを生成する機能モデル生成工程をさらに備える、
請求項8に記載のニューラルネットワーク学習方法。
【請求項13】
前記機能モデルの前記変換可能演算ブロックを前記ニューラルネットワーク回路において実施可能な演算に変換し、変換した演算を前記ニューラルネットワーク回路に実行させるソフトウェアおよび学習済みパラメータを生成するソフトウェア生成工程をさらに備える、
請求項12に記載のニューラルネットワーク学習方法。
【請求項14】
前記学習工程は、前記機能モデルの前記変換可能演算ブロックの少なくとも一部の演算を前記閾値に集約させる、
請求項13に記載のニューラルネットワーク学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワーク回路の学習装置および学習方法に関する。
【背景技術】
【0002】
近年、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が画像認識等のモデルとして用いられている。IoT機器などの組み込み機器に組み込み可能なニューラルネットワーク回路が用いられている(特許文献1など)。
【0003】
一方、畳み込みニューラルネットワークの構成や仕様を決定して畳み込みニューラルネットワークの機能モデルを生成し、当該機能モデルを用いて学習した学習済みパラメータを生成するために、公知のライブラリやプラットホームが利用されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第6896306号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
このようなライブラリやプラットホームにおいて生成されたニューラルネットワークの機能モデルや学習済みパラメータを、IoT機器などの組み込み機器に組み込み可能なニューラルネットワーク回路において実施可能な演算に変換して演算させる場合、演算精度やデータフォーマットの違いにより演算結果に誤差が発生する場合があった。
【0006】
上記事情を踏まえ、本発明は、ニューラルネットワークの機能モデルと当該機能モデルを用いて学習した学習済みパラメータを、ニューラルネットワーク回路において実施可能な演算に変換して演算させる場合、機能モデルによる演算結果とニューラルネットワーク回路による演算結果とに誤差が発生しにくいニューラルネットワーク学習装置およびニューラルネットワーク学習方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク学習装置は、ニューラルネットワーク学習装置は、ニューラルネットワーク回路において推論演算を実施するニューラルネットワークを学習する装置であって、浮動小数点フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワークの機能モデルを用いて、前記量子化演算に用いる閾値を含む学習済みパラメータを生成する学習部を備え、前記学習部は、前記ニューラルネットワーク回路の演算環境と前記機能モデルの演算環境との違いに基づいて前記閾値を生成する。
【0008】
本発明の第二の態様に係るニューラルネットワーク学習方法は、ニューラルネットワーク回路において推論演算を実施するニューラルネットワークを学習する方法であって、浮動小数点フォーマットによる畳み込み演算と量子化演算とを実行する前記ニューラルネットワークの機能モデルを用いて、前記量子化演算に用いる閾値を含む学習済みパラメータを生成する学習工程を備え、前記学習工程は、前記ニューラルネットワーク回路の演算環境と前記機能モデルの演算環境との違いに基づいて前記閾値を生成する。
【発明の効果】
【0009】
本発明のニューラルネットワーク学習装置およびニューラルネットワーク学習方法は、ニューラルネットワークの機能モデルと当該機能モデルを用いて学習した学習済みパラメータを、ニューラルネットワーク回路において実施可能な演算に変換して演算させる場合、機能モデルによる演算結果とニューラルネットワーク回路による演算結果とに誤差が発生しにくい。
【図面の簡単な説明】
【0010】
図1】第一実施形態に係るニューラルネットワーク学習装置を示す図である。
図2】同ニューラルネットワーク学習装置の演算部の入出力を示す図である。
図3】畳み込みニューラルネットワークを示す図である。
図4】畳み込み層が行う畳み込み演算を説明する図である。
図5】畳み込み演算のデータの分割と展開を説明する図である。
図6】第一実施形態に係るニューラルネットワーク回路の全体構成を示す図である。
図7】同ニューラルネットワーク回路の動作例を示すタイミングチャートである。
図8】同ニューラルネットワーク回路のDMACの内部ブロック図である。
図9】同DMACの制御回路のステート遷移図である。
図10】同ニューラルネットワーク回路の畳み込み演算回路の内部ブロック図である。
図11】同畳み込み演算回路の乗算器の内部ブロック図である。
図12】同乗算器の積和演算ユニットの内部ブロック図である。
図13】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。
図14】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。
図15】同ニューラルネットワーク回路の量子化演算回路の内部ブロック図である。
図16】同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。
図17】演算ユニットのブロック図である。
図18】同量子化回路のベクトル量子化ユニットの内部ブロック図である。
図19】同ニューラルネットワーク学習装置の制御フローチャートである。
図20】同畳み込みニューラルネットワークを設定するGUI画像例を示す図である。
図21】同ニューラルネットワーク回路における推論演算ブロックを示す図である。
図22】同畳み込みニューラルネットワークにおける量子化畳み込み演算ブロックを示す図である。
図23】同制御フローチャートにおける学習工程のフローチャートである。
図24】量子化パラメータの禁制帯を示す図である。
図25】同ニューラルネットワーク回路への割り当て例を示すタイミングチャートである。
【発明を実施するための形態】
【0011】
(第一実施形態)
本発明の第一実施形態について、図1から図25を参照して説明する。
図1は、本実施形態に係るニューラルネットワーク学習装置300を示す図である。
【0012】
[ニューラルネットワーク学習装置300]
ニューラルネットワーク学習装置300は、ニューラルネットワーク機能モデルである畳み込みニューラルネットワーク200(以下、「CNN200」または「NN機能モデル200」ともいう)の生成および学習と、IoT機器などの組み込み機器に組み込み可能なニューラルネットワーク回路100(以下、「NN回路100」ともいう)を動作させるソフトウェア500の生成と、を実施する装置である。NN回路100が実行する演算は、CNN200(NN機能モデル200)が実行する推論演算の少なくとも一部である。
【0013】
ニューラルネットワーク学習装置300は、CPU(Central Processing Unit)等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置(コンピュータ)である。ニューラルネットワーク学習装置300の機能は、ニューラルネットワーク学習装置300においてニューラルネットワーク学習プログラムおよびソフトウェア生成プログラムを実行することにより実現される。ニューラルネットワーク学習装置300は、記憶部310と、演算部320と、データ入力部330と、データ出力部340と、表示部350と、操作入力部360と、を備える。
【0014】
記憶部310は、ネットワーク情報NW1と、推論ネットワーク情報NW2と、学習データセットDSと、学習済みパラメータPMと、を記憶する。学習データセットDSおよび推論ネットワーク情報NW2は、ニューラルネットワーク学習装置300に入力される入力データである。学習済みパラメータPMは、ニューラルネットワーク学習装置300が出力する出力データである。なお、「学習済みのNN回路100」は、NN回路100および学習済みパラメータPMを含む。
【0015】
ネットワーク情報(学習ネットワーク情報)NW1は、CNN200(NN機能モデル200)に関する情報である。ネットワーク情報NW1は、例えば、CNN200(NN機能モデル200)の機能を定義する情報を含む。ネットワーク情報NW1は、例えば、CNN200のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。
【0016】
推論ネットワーク情報NW2は、NN回路100が実行する推論演算に関する情報である。推論ネットワーク情報NW2は、例えば、NN回路100が実行可能なニューラルネットワークの推論演算の機能を定義する情報を含む。推論ネットワーク情報NW2は、例えば、NN回路100の回路構成、演算器の機能、データビット幅などである。
【0017】
学習データセットDSは、学習に用いる学習データD1と、推論テストに用いるテストデータD2と、を有する。
【0018】
図2は、演算部320の入出力を示す図である。
演算部320は、学習部322と、推論部323と、ソフトウェア生成部325と、機能モデル生成部326と、を有する。演算部320に入力されるネットワーク情報NWは、ニューラルネットワーク学習装置300以外の装置で生成されたものであってもよい。
【0019】
学習部322は、ネットワーク情報NW1、推論ネットワーク情報NW2および学習データD1を用いて、学習済みパラメータPMを生成する。推論部323は、ネットワーク情報NWおよびテストデータD2を用いて推論テストを実施する。
【0020】
ソフトウェア生成部325は、ネットワーク情報NW1および推論ネットワーク情報NW2に基づいて、NN回路100を動作させるソフトウェア500を生成する。ソフトウェア500は、学習済みパラメータPMを必要に応じてNN回路100へ転送するソフトウェアを含む。
【0021】
機能モデル生成部326は、使用者から入力に基づいてCNN200(NN機能モデル200)を生成して(コンフィグレーション)、CNN200(NN機能モデル200)に関する情報であるネットワーク情報NW1を出力する。
【0022】
データ入力部330には、学習済みのNN回路100を生成するために必要なハードウェア情報HWやネットワーク情報NW等が入力される。ハードウェア情報HWやネットワーク情報NW等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報HWやネットワーク情報NW等は、記憶部310に記憶される。ハードウェア情報HWやネットワーク情報NW等は、操作入力部360から使用者により入力または変更されてもよい。
【0023】
データ出力部340には、生成された学習済みのNN回路100が出力される。例えば、生成されたNN回路100と、学習済みパラメータPMとがデータ出力部340に出力される。
【0024】
表示部350は、LCDディスプレイ等の公知のモニタを有する。表示部350は、演算部320が生成したGUI(Graphical User Interface)画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部320が使用者からの情報入力を必要とする場合、表示部350は操作入力部360から情報を入力することを使用者に促すメッセージや情報入力に必要なGUI画像を表示できる。
【0025】
操作入力部360は、使用者が演算部320等に対しての指示を入力する装置である。操作入力部360は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部360の入力は、演算部320に送信される。
【0026】
演算部320の機能の全部または一部は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)のような1つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部320の機能の全部または一部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)等のハードウェア(例えば回路部;circuity)により実現されてもよい。また、演算部320の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。
【0027】
演算部320の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたCPUやGPUやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部320は、例えばクラウドサーバ上の演算性能が高いGPUや専用ハードウェアを併用することで、演算部320の演算速度を向上させることができる。
【0028】
記憶部310は、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)、またRAM(Random Access Memory)等により実現される。記憶部310の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部320等と接続させてもよい。
【0029】
なお、ニューラルネットワーク学習装置300は、複数の装置(コンピュータ)で構成され、演算部320の機能ブロックが複数の装置に分散していてもよい。例えば、ニューラルネットワーク学習装置300は、機能モデル生成部326を有する第一装置(コンピュータ)と、学習部322および推論部323を有する第二装置(コンピュータ)と、ソフトウェア生成部325を有する第三装置(コンピュータ)と、に分離していてもよい。
【0030】
[畳み込みニューラルネットワーク(CNN)200]
図3は、CNN200を示す図である。
CNN200は、畳み込み演算を行う畳み込み層210と、量子化演算を行う量子化演算層220と、出力層230と、を含む多層構造のネットワークである。CNN200の少なくとも一部において、畳み込み層210と量子化演算層220とが交互に連結されている。CNN200は、画像認識や動画認識に広く使われるモデルである。CNN200は、全結合層などの他の機能を有する層(レイヤ)をさらに有してもよい。
【0031】
図4は、畳み込み層210が行う畳み込み演算を説明する図である。
畳み込み層210は、入力データaに対して重みwを用いた畳み込み演算を行う。畳み込み層210は、入力データaと重みwとを入力とする積和演算を行う。
【0032】
畳み込み層210への入力データa(アクティベーションデータ、特徴マップともいう)は、画像データ等の多次元データである。本実施形態において、入力データaは、要素(x,y,c)からなる3次元テンソルである。CNN200の畳み込み層210は、低ビットの入力データaに対して畳み込み演算を行う。本実施形態において、入力データaの要素は、2ビットの符号なし整数(0,1,2,3)である。入力データaの要素は、例えば、4ビットや8ビット符号なし整数でもよい。
【0033】
CNN200に入力される入力データが、例えば32ビットの浮動小数点型など、畳み込み層210への入力データaと形式が異なる場合、CNN200は畳み込み層210の前に型変換や量子化を行う入力層をさらに有してもよい。
【0034】
畳み込み層210の重みw(フィルタ、カーネルともいう)は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みwは、要素(i,j,c,d)からなる4次元テンソルである。重みwは、要素(i,j,c)からなる3次元テンソル(以降、「重みwo」という)をd個有している。学習済みのCNN200における重みwは、学習済みのデータである。CNN200の畳み込み層210は、低ビットの重みwを用いて畳み込み演算を行う。本実施形態において、重みwの要素は、1ビットの符号付整数(0,1)であり、値「0」は+1を表し、値「1」は-1を表す。
【0035】
畳み込み層210は、式1に示す畳み込み演算を行い、出力データfを出力する。式1において、sはストライドを示す。図4において点線で示された領域は、入力データaに対して重みwoが適用される領域ao(以降、「適用領域ao」という)の一つを示している。適用領域aoの要素は、(x+i,y+j,c)で表される。
【0036】
【数1】
【0037】
量子化演算層220は、畳み込み層210が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層220は、プーリング層221と、Batch Normalization層222と、活性化関数層223と、量子化層224と、を有する。
【0038】
プーリング層221は、畳み込み層210が出力する畳み込み演算の出力データfに対して平均プーリング(式2)やMAXプーリング(式3)などの演算を実施して、畳み込み層210の出力データfを圧縮する。式2および式3において、uは入力テンソルを示し、vは出力テンソルを示し、Tはプーリング領域の大きさを示す。式3において、maxはTに含まれるiとjの組み合わせに対するuの最大値を出力する関数である。
【0039】
【数2】
【0040】
【数3】
【0041】
Batch Normalization層222は、量子化演算層220やプーリング層221の出力データに対して、例えば式4に示すような演算によりデータ分布の正規化を行う。式4において、uは入力テンソルを示し、vは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのCNN200において、αおよびβは学習済みの定数ベクトルである。
【0042】
【数4】
【0043】
活性化関数層223は、量子化演算層220やプーリング層221やBatch Normalization層222の出力に対してReLU(式5)などの活性化関数の演算を行う。式5において、uは入力テンソルであり、vは出力テンソルである。式5において、maxは引数のうち最も大きい数値を出力する関数である。
【0044】
【数5】
【0045】
量子化層224は、量子化パラメータに基づいて、プーリング層221や活性化関数層223の出力に対して例えば式6に示すような量子化を行う。式6に示す量子化は、入力テンソルuを2ビットにビット削減している。式6において、q(c)は量子化パラメータのベクトルである。学習済みのCNN200において、q(c)は学習済みの定数ベクトルである。式6における不等号「≦」は「<」であってもよい。
【0046】
【数6】
【0047】
出力層230は、恒等関数やソフトマックス関数等によりCNN200の結果を出力する層である。出力層230の前段のレイヤは、畳み込み層210であってもよいし、量子化演算層220であってもよい。
【0048】
CNN200は、量子化された量子化層224の出力データが、畳み込み層210に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層210の畳み込み演算の負荷が小さい。
【0049】
[畳み込み演算の分割]
図5は、畳み込み演算のデータの分割と展開を説明する図である。
NN回路100は、畳み込み層210の畳み込み演算(式1)の入力データを部分テンソルに分割して演算する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データa(x+i,y+j,c)をa(x+i,y+j,co)に分割することにより形成される。なお、NN回路100は、畳み込み層210の畳み込み演算(式1)の入力データを分割せずに演算することもできる。
【0050】
畳み込み演算の入力データ分割において、式1における変数cは、式7に示すように、サイズBcのブロックで分割される。また、式1における変数dは、式8に示すように、サイズBdのブロックで分割される。式7において、coはオフセットであり、ciは0から(Bc-1)までのインデックスである。式8において、doはオフセットであり、diは0から(Bd-1)までのインデックスである。なお、サイズBcとサイズBdは同じであってもよい。
【0051】
【数7】
【0052】
【数8】
【0053】
式1における入力データa(x+i,y+j,c)は、c軸方向においてサイズBcにより分割され、分割された入力データa(x+i,y+j,co)で表される。以降の説明において、分割された入力データaを「分割入力データa」ともいう。
【0054】
式1における重みw(i,j,c,d)は、c軸方向においてサイズBcおよびd軸方向においてサイズBdにより分割され、分割された重みw(i,j,co,do)で表される。以降の説明において、分割された重みwを「分割重みw」ともいう。
【0055】
サイズBdにより分割された出力データf(x,y,do)は、式9により求まる。分割された出力データf(x,y,do)を組み合わせることで、最終的な出力データf(x,y,d)を算出できる。
【0056】
【数9】
【0057】
[畳み込み演算のデータの展開]
NN回路100は、畳み込み層210の畳み込み演算における入力データaおよび重みwを展開して畳み込み演算を行う。
【0058】
分割入力データa(x+i、y+j、co)は、Bc個の要素を持つベクトルデータに展開される。分割入力データaの要素は、ciでインデックスされる(0≦ci<Bc)。以降の説明において、i,jごとにベクトルデータに展開された分割入力データaを「入力ベクトルA」ともいう。入力ベクトルAは、分割入力データa(x+i、y+j、co×Bc)から分割入力データa(x+i、y+j、co×Bc+(Bc-1))までを要素とする。
【0059】
分割重みw(i,j,co、do)は、Bc×Bd個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みwの要素は、ciとdiでインデックスされる(0≦di<Bd)。以降の説明において、i,jごとにマトリクスデータに展開された分割重みwを「重みマトリクスW」ともいう。重みマトリクスWは、分割重みw(i,j,co×Bc、do×Bd)から分割重みw(i,j,co×Bc+(Bc-1)、do×Bd+(Bd-1))までを要素とする。
【0060】
入力ベクトルAと重みマトリクスWとを乗算することで、ベクトルデータが算出される。i,j,coごとに算出されたベクトルデータを3次元テンソルに整形することで、出力データf(x,y,do)を得ることができる。このようなデータの展開を行うことで、畳み込み層210の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。
【0061】
[ニューラルネットワーク回路(NN回路)100]
図6は、本実施形態に係るNN回路100の全体構成を示す図である。
NN回路100は、第一メモリ1と、第二メモリ2と、DMAコントローラ3(以下、「DMAC3」ともいう)と、畳み込み演算回路4と、量子化演算回路5と、コントローラ6と、を備える。NN回路100は、第一メモリ1および第二メモリ2を介して、畳み込み演算回路4と量子化演算回路5とがループ状に形成されていることを特徴とする。
【0062】
第一メモリ1は、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ1には、DMAC3やコントローラ6を介してデータの書き込みおよび読み出しが行われる。第一メモリ1は、畳み込み演算回路4の入力ポートと接続されており、畳み込み演算回路4は第一メモリ1からデータを読み出すことができる。また、第一メモリ1は、量子化演算回路5の出力ポートと接続されており、量子化演算回路5は第一メモリ1にデータを書き込むことができる。外部ホストCPUは、第一メモリ1に対するデータの書き込みや読み出しにより、NN回路100に対するデータの入出力を行うことができる。
【0063】
第二メモリ2は、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ2には、DMAC3やコントローラ6を介してデータの書き込みおよび読み出しが行われる。第二メモリ2は、量子化演算回路5の入力ポートと接続されており、量子化演算回路5は第二メモリ2からデータを読み出すことができる。また、第二メモリ2は、畳み込み演算回路4の出力ポートと接続されており、畳み込み演算回路4は第二メモリ2にデータを書き込むことができる。外部ホストCPUは、第二メモリ2に対するデータの書き込みや読み出しにより、NN回路100に対するデータの入出力を行うことができる。
【0064】
DMAC3は、外部バスEBに接続されており、DRAMなどの外部メモリと第一メモリ1との間のデータ転送を行う。また、DMAC3は、DRAMなどの外部メモリと第二メモリ2との間のデータ転送を行う。また、DMAC3は、DRAMなどの外部メモリと畳み込み演算回路4との間のデータ転送を行う。また、DMAC3は、DRAMなどの外部メモリと量子化演算回路5との間のデータ転送を行う。
【0065】
畳み込み演算回路4は、学習済みのCNN200の畳み込み層210における畳み込み演算を行う回路である。畳み込み演算回路4は、第一メモリ1に格納された入力データaを読み出し、入力データaに対して畳み込み演算を実施する。畳み込み演算回路4は、畳み込み演算の出力データf(以降、「畳み込み演算出力データ」ともいう)を第二メモリ2に書き込む。
【0066】
量子化演算回路5は、学習済みのCNN200の量子化演算層220における量子化演算の少なくとも一部を行う回路である。量子化演算回路5は、第二メモリ2に格納された畳み込み演算の出力データfを読み出し、畳み込み演算の出力データfに対して量子化演算(プーリング、Batch Normalization、活性化関数、および量子化のうち少なくとも量子化を含む演算)を行う。量子化演算回路5は、量子化演算の出力データ(以降、「量子化演算出力データ」ともいう)を第一メモリ1に書き込む。
【0067】
コントローラ6は、外部バスEBに接続されており、外部のホストCPUのスレーブとして動作する。コントローラ6は、パラメータレジスタや状態レジスタを含むレジスタ61を有している。パラメータレジスタは、NN回路100の動作を制御するレジスタである。状態レジスタはセマフォSを含むNN回路100の状態を示すレジスタである。外部ホストCPUは、コントローラ6を経由して、レジスタ61にアクセスできる。
【0068】
コントローラ6は、内部バスIBを介して、第一メモリ1と、第二メモリ2と、DMAC3と、畳み込み演算回路4と、量子化演算回路5と、接続されている。外部ホストCPUは、コントローラ6を経由して、各ブロックに対してアクセスできる。例えば、外部ホストCPUは、コントローラ6を経由して、DMAC3や畳み込み演算回路4や量子化演算回路5に対する命令を指示することができる。また、DMAC3や畳み込み演算回路4や量子化演算回路5は、内部バスIBを介して、コントローラ6が有する状態レジスタ(セマフォSを含む)を更新できる。状態レジスタ(セマフォSを含む)は、DMAC3や畳み込み演算回路4や量子化演算回路5と接続された専用配線を介して更新されるように構成されていてもよい。
【0069】
NN回路100は、第一メモリ1や第二メモリ2等を有するため、DRAMなどの外部メモリからのDMAC3によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。
【0070】
[NN回路100の動作例1]
図7は、NN回路100の動作例を示すタイミングチャートである。
DMAC3は、レイヤ1の入力データaを第一メモリ1に格納する。DMAC3は、畳み込み演算回路4が行う畳み込み演算の順序にあわせて、レイヤ1の入力データaを分割して第一メモリ1に転送してもよい。
【0071】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ1の入力データaを読み出す。畳み込み演算回路4は、レイヤ1の入力データaに対して図3に示すレイヤ1の畳み込み演算を行う。レイヤ1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0072】
量子化演算回路5は、第二メモリ2に格納されたレイヤ1の出力データfを読み出す。量子化演算回路5は、レイヤ1の出力データfに対してレイヤ2の量子化演算を行う。レイヤ2の量子化演算の出力データは、第一メモリ1に格納される。
【0073】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2の量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2の量子化演算の出力データを入力データaとしてレイヤ3の畳み込み演算を行う。レイヤ3の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0074】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2M-2(Mは自然数)の量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2M-2の量子化演算の出力データを入力データaとしてレイヤ2M-1の畳み込み演算を行う。レイヤ2M-1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0075】
量子化演算回路5は、第二メモリ2に格納されたレイヤ2M-1の出力データfを読み出す。量子化演算回路5は、2M-1レイヤの出力データfに対してレイヤ2Mの量子化演算を行う。レイヤ2Mの量子化演算の出力データは、第一メモリ1に格納される。
【0076】
畳み込み演算回路4は、第一メモリ1に格納されたレイヤ2Mの量子化演算の出力データを読み出す。畳み込み演算回路4は、レイヤ2Mの量子化演算の出力データを入力データaとしてレイヤ2M+1の畳み込み演算を行う。レイヤ2M+1の畳み込み演算の出力データfは、第二メモリ2に格納される。
【0077】
畳み込み演算回路4と量子化演算回路5とが交互に演算を行い、図3に示すCNN200の演算を進めていく。NN回路100は、畳み込み演算回路4が時分割によりレイヤ2M-1とレイヤ2M+1の畳み込み演算を実施する。また、NN回路100は、量子化演算回路5が時分割によりレイヤ2M-2とレイヤ2Mの量子化演算を実施する。そのため、NN回路100は、レイヤごとに別々の畳み込み演算回路4と量子化演算回路5を実装する場合と比較して、回路規模が著しく小さい。
【0078】
NN回路100は、複数のレイヤの多層構造であるCNN200の演算を、ループ状に形成された回路により演算する。NN回路100は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。なお、NN回路100は、ループ状に回路を形成するために、各レイヤで変化する畳み込み演算回路4や量子化演算回路5におけるパラメータは適宜更新される。
【0079】
CNN200の演算にNN回路100により実施できない演算が含まれる場合、NN回路100は外部ホストCPUなどの外部演算デバイスに中間データを転送する。外部演算デバイスが中間データに対して演算を行った後、外部演算デバイスによる演算結果は第一メモリ1や第二メモリ2に入力される。NN回路100は、外部演算デバイスによる演算結果に対する演算を再開する。
【0080】
次に、NN回路100の各構成に関して詳しく説明する。
【0081】
[DMAC3]
図8は、DMAC3の内部ブロック図である。
DMAC3は、データ転送回路31と、ステートコントローラ32と、を有する。DMAC3は、データ転送回路31に対する専用のステートコントローラ32を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにDMAデータ転送を実施できる。
【0082】
データ転送回路31は、外部バスEBに接続されており、DRAMなどの外部メモリと第一メモリ1との間のDMAデータ転送を行う。また、データ転送回路31は、DRAMなどの外部メモリと第二メモリ2との間のDMAデータ転送を行う。また、データ転送回路31は、DRAMなどの外部メモリと畳み込み演算回路4との間のデータ転送を行う。また、データ転送回路31は、DRAMなどの外部メモリと量子化演算回路5との間のデータ転送を行う。データ転送回路31のDMAチャンネル数は限定されない。例えば、第一メモリ1と第二メモリ2のそれぞれに専用のDMAチャンネルを有していてもよい。
【0083】
ステートコントローラ32は、データ転送回路31のステートを制御する。また、ステートコントローラ32は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ32は、命令キュー33と制御回路34とを有する。
【0084】
命令キュー33は、DMAC3用の命令コマンドC3が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー33には、内部バスIB経由で1つ以上の命令コマンドC3が書き込まれる。
【0085】
制御回路34は、命令コマンドC3をデコードし、命令コマンドC3に基づいて順次データ転送回路31を制御するステートマシンである。制御回路34は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるCPUによって実装されていてもよい。
【0086】
図9は、制御回路34のステート遷移図である。
制御回路34は、命令キュー33に命令コマンドC3が入力されると(Not empty)、アイドルステートST1からデコードステートST2に遷移する。
【0087】
制御回路34は、デコードステートST2において、命令キュー33から出力される命令コマンドC3をデコードする。また、制御回路34は、コントローラ6のレジスタ61に格納されたセマフォSを読み出し、命令コマンドC3において指示されたデータ転送回路31の動作を実行可能であるかを判定する。実行不能である場合(Not ready)、制御回路34は実行可能となるまで待つ(Wait)。実行可能である場合(ready)、制御回路34はデコードステートST2から実行ステートST3に遷移する。
【0088】
制御回路34は、実行ステートST3において、データ転送回路31を制御して、データ転送回路31に命令コマンドC3において指示された動作を実施させる。制御回路34は、データ転送回路31の動作が終わると、命令キュー33から実行を終えた命令コマンドC3を取り除くとともに、コントローラ6のレジスタ61に格納されたセマフォSを更新する。制御回路34は、命令キュー33に命令がある場合(Not empty)、実行ステートST3からデコードステートST2に遷移する。制御回路34は、命令キュー33に命令がない場合(empty)、実行ステートST3からアイドルステートST1に遷移する。
【0089】
[畳み込み演算回路4]
図10は、畳み込み演算回路4の内部ブロック図である。
畳み込み演算回路4は、重みメモリ41と、乗算器42と、アキュムレータ回路43と、ステートコントローラ44と、を有する。畳み込み演算回路4は、乗算器42およびアキュムレータ回路43に対する専用のステートコントローラ44を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。
【0090】
重みメモリ41は、畳み込み演算に用いる重みwが格納されるメモリであり、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。DMAC3は、DMA転送により、畳み込み演算に必要な重みwを重みメモリ41に書き込む。
【0091】
図11は、乗算器42の内部ブロック図である。
乗算器42は、入力ベクトルAと重みマトリクスWとを乗算する。入力ベクトルAは、上述したように、分割入力データa(x+i、y+j、co)がi、jごとに展開されたBc個の要素を持つベクトルデータである。また、重みマトリクスWは、分割重みw(i,j,co、do)がi、jごとに展開されたBc×Bd個の要素を持つマトリクスデータである。乗算器42は、Bc×Bd個の積和演算ユニット47を有し、入力ベクトルAと重みマトリクスWとを乗算を並列して実施できる。
【0092】
乗算器42は、乗算に必要な入力ベクトルAと重みマトリクスWを、第一メモリ1および重みメモリ41から読み出して乗算を実施する。乗算器42は、Bd個の積和演算結果O(di)を出力する。
【0093】
図12は、積和演算ユニット47の内部ブロック図である。
積和演算ユニット47は、入力ベクトルAの要素A(ci)と、重みマトリクスWの要素W(ci,di)との乗算を実施する。また、積和演算ユニット47は、乗算結果と他の積和演算ユニット47の乗算結果S(ci,di)と加算する。積和演算ユニット47は、加算結果S(ci+1,di)を出力する。要素A(ci)は、2ビットの符号なし整数(0,1,2,3)である。要素W(ci,di)は、1ビットの符号付整数(0,1)であり、値「0」は+1を表し、値「1」は-1を表す。
【0094】
積和演算ユニット47は、反転器(インバータ)47aと、セレクタ47bと、加算器47cと、を有する。積和演算ユニット47は、乗算器を用いず、反転器47aおよびセレクタ47bのみを用いて乗算を行う。セレクタ47bは、要素W(ci,di)が「0」の場合、要素A(ci)の入力を選択する。セレクタ47bは、要素W(ci,di)が「1」の場合、要素A(ci)を反転器により反転させた補数を選択する。要素W(ci,di)は、加算器47cのCarry-inにも入力される。加算器47cは、要素W(ci,di)が「0」のとき、S(ci,di)に要素A(ci)を加算した値を出力する。加算器47cは、W(ci,di)が「1」のとき、S(ci,di)から要素A(ci)を減算した値を出力する。
【0095】
図13は、アキュムレータ回路43の内部ブロック図である。
アキュムレータ回路43は、乗算器42の積和演算結果O(di)を第二メモリ2にアキュムレートする。アキュムレータ回路43は、Bd個のアキュムレータユニット48を有し、Bd個の積和演算結果O(di)を並列して第二メモリ2にアキュムレートできる。
【0096】
図14は、アキュムレータユニット48の内部ブロック図である。
アキュムレータユニット48は、加算器48aと、マスク部48bとを有している。加算器48aは、積和演算結果Oの要素O(di)と、第二メモリ2に格納された式1に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり16ビットである。加算結果は、要素あたり16ビットに限定されず、例えば要素あたり15ビットや17ビットであってもよい。
【0097】
加算器48aは、加算結果を第二メモリ2の同一アドレスに書き込む。マスク部48bは、初期化信号clearがアサートされた場合に、第二メモリ2からの出力をマスクし、要素O(di)に対する加算対象をゼロにする。初期化信号clearは、第二メモリ2に途中経過の部分和が格納されていない場合にアサートされる。
【0098】
乗算器42およびアキュムレータ回路43による畳み込み演算が完了すると、第二メモリに、出力データf(x,y,do)が格納される。
【0099】
ステートコントローラ44は、乗算器42およびアキュムレータ回路43のステートを制御する。また、ステートコントローラ44は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ44は、命令キュー45と制御回路46とを有する。
【0100】
命令キュー45は、畳み込み演算回路4用の命令コマンドC4が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー45には、内部バスIB経由で命令コマンドC4が書き込まれる。
【0101】
制御回路46は、命令コマンドC4をデコードし、命令コマンドC4に基づいて乗算器42およびアキュムレータ回路43を制御するステートマシンである。制御回路46は、DMAC3のステートコントローラ32の制御回路34と同様の構成である。
【0102】
[量子化演算回路5]
図15は、量子化演算回路5の内部ブロック図である。
量子化演算回路5は、量子化パラメータメモリ51と、ベクトル演算回路52と、量子化回路53と、ステートコントローラ54と、を有する。量子化演算回路5は、ベクトル演算回路52および量子化回路53に対する専用のステートコントローラ54を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。
【0103】
量子化パラメータメモリ51は、量子化演算に用いる量子化パラメータqが格納されるメモリであり、例えばSRAM(Static RAM)などで構成された揮発性のメモリ等の書き換え可能なメモリである。DMAC3は、DMA転送により、量子化演算に必要な量子化パラメータqを量子化パラメータメモリ51に書き込む。
【0104】
図16は、ベクトル演算回路52と量子化回路53の内部ブロック図である。
ベクトル演算回路52は、第二メモリ2に格納された出力データf(x,y,do)に対して演算を行う。ベクトル演算回路52は、Bd個の演算ユニット57を有し、出力データf(x,y,do)に対して並列にSIMD演算を行う。
【0105】
図17は、演算ユニット57のブロック図である。
演算ユニット57は、例えば、ALU57aと、第一セレクタ57bと、第二セレクタ57cと、レジスタ57dと、シフタ57eと、を有する。演算ユニット57は、公知の汎用SIMD演算回路が有する他の演算器等をさらに有してもよい。
【0106】
ベクトル演算回路52は、演算ユニット57が有する演算器等を組み合わせることで、出力データf(x,y,do)に対して、量子化演算層220におけるプーリング層221や、Batch Normalization層222や、活性化関数層223の演算のうち少なくとも一つの演算を行う。
【0107】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより加算できる。演算ユニット57は、ALU57aによる加算結果をレジスタ57dに格納できる。演算ユニット57は、第一セレクタ57bの選択によりレジスタ57dに格納されたデータに代えて「0」をALU57aに入力することで加算結果を初期化できる。例えばプーリング領域が2×2である場合、シフタ57eはALU57aの出力を2bit右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式2に示す平均プーリングの演算を実施できる。
【0108】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより比較できる。
演算ユニット57は、ALU57aによる比較結果に応じて第二セレクタ57cを制御して、レジスタ57dに格納されたデータと要素f(di)の大きい方を選択できる。演算ユニット57は、第一セレクタ57bの選択により要素f(di)の取りうる値の最小値をALU57aに入力することで比較対象を最小値に初期化できる。本実施形態において要素f(di)は16bit符号付き整数であるので、要素f(di)の取りうる値の最小値は「0x8000」である。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式3のMAXプーリングの演算を実施できる。なお、MAXプーリングの演算ではシフタ57eは第二セレクタ57cの出力をシフトしない。
【0109】
演算ユニット57は、レジスタ57dに格納されたデータと第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)とをALU57aにより減算できる。シフタ57eはALU57aの出力を左シフト(すなわち乗算)もしくは右シフト(すなわち除算)できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式4のBatch Normalizationの演算を実施できる。
【0110】
演算ユニット57は、第二メモリ2から読み出した出力データf(x,y,do)の要素f(di)と第一セレクタ57bにより選択された「0」とをALU57aにより比較できる。演算ユニット57は、ALU57aによる比較結果に応じて要素f(di)と予めレジスタ57dに格納された定数値「0」のいずれかを選択して出力できる。ベクトル演算回路52は、Bd個の演算ユニット57による上記の演算等を繰り返すことで、式5のReLU演算を実施できる。
【0111】
ベクトル演算回路52は、平均プーリング、MAXプーリング、Batch Normalization、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路52は、汎用SIMD演算を実施できるため、量子化演算層220における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路52は、量子化演算層220における演算以外の演算を実施してもよい。
【0112】
なお、量子化演算回路5は、ベクトル演算回路52を有してなくてもよい。量子化演算回路5がベクトル演算回路52を有していない場合、出力データf(x,y,do)は量子化回路53に入力される。
【0113】
量子化回路53は、ベクトル演算回路52の出力データに対して、量子化を行う。量子化回路53は、図16に示すように、Bd個の量子化ユニット58を有し、ベクトル演算回路52の出力データに対して並列に演算を行う。
【0114】
図18は、量子化ユニット58の内部ブロック図である。
量子化ユニット58は、ベクトル演算回路52の出力データの要素in(di)に対して量子化を行う。量子化ユニット58は、比較器58aと、エンコーダ58bと、を有する。量子化ユニット58はベクトル演算回路52の出力データ(16ビット/要素)に対して、量子化演算層220における量子化層224の演算(式6)を行う。量子化ユニット58は、量子化パラメータメモリ51から必要な量子化パラメータq(th0,th1,th2)を読み出し、比較器58aにより入力in(di)と量子化パラメータqとの比較を行う。量子化ユニット58は、比較器58aによる比較結果をエンコーダ58bにより2ビット/要素にエンコードしたout(di)を出力する。式4におけるα(c)とβ(c)は、変数cごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータq(th0,th1,th2)はin(di)ごとに異なるパラメータである。
【0115】
量子化ユニット58は、入力in(di)を3つの閾値th0,th1,th2と比較することにより、入力in(di)を4領域(例えば、in≦th0,th0<in≦th1,th1<in≦th2,th2<in)に分類し、分類結果を2ビットにエンコードして出力する。量子化ユニット58は、量子化パラメータq(th0,th1,th2)の設定により、量子化と併せてBatch Normalizationや活性化関数の演算を行うこともできる。
【0116】
量子化ユニット58は、閾値th0を式4のβ(c)、閾値の差(th1―th0)および(th2―th1)を式4のα(c)として設定して量子化を行うことで、式4に示すBatch Normalizationの演算を量子化と併せて実施できる。(th1―th0)および(th2―th1)を大きくすることでα(c)を小さくできる。(th1―th0)および(th2―th1)を小さくすることで、α(c)を大きくできる。
【0117】
量子化ユニット58は、入力in(di)の量子化と併せて活性化関数のReLU演算を実施できる。例えば、量子化ユニット58は、in(di)≦th0およびth2<in(di)となる領域では出力値を飽和させる。量子化ユニット58は、出力が非線形とするように量子化パラメータqを設定することで活性化関数の演算を量子化と併せて実施できる。
【0118】
ステートコントローラ54は、ベクトル演算回路52および量子化回路53のステートを制御する。また、ステートコントローラ54は、内部バスIBを介してコントローラ6と接続されている。ステートコントローラ54は、命令キュー55と制御回路56とを有する。
【0119】
命令キュー55は、量子化演算回路5用の命令コマンドC5が格納されるキューであり、例えばFIFOメモリで構成される。命令キュー55には、内部バスIB経由で命令コマンドC5が書き込まれる。
【0120】
制御回路56は、命令コマンドC5をデコードし、命令コマンドC5に基づいてベクトル演算回路52および量子化回路53を制御するステートマシンである。制御回路56は、DMAC3のステートコントローラ32の制御回路34と同様の構成である。
【0121】
量子化演算回路5は、Bd個の要素を持つ量子化演算出力データを第一メモリ1に書き込む。なお、BdとBcの好適な関係を式10に示す。式10においてnは整数である。
【0122】
【数10】
【0123】
[コントローラ6]
コントローラ6は、外部ホストCPUから転送される命令コマンドを、DMAC3、畳み込み演算回路4および量子化演算回路5が有する命令キューに転送する。コントローラ6は、各回路に対する命令コマンドを格納する命令メモリを有してもよい。
【0124】
コントローラ6は、外部バスEBに接続されており、外部ホストCPUのスレーブとして動作する。コントローラ6は、パラメータレジスタや状態レジスタを含むレジスタ61を有している。パラメータレジスタは、NN回路100の動作を制御するレジスタである。状態レジスタは、セマフォSを含むNN回路100の状態を示すレジスタである。
【0125】
[ニューラルネットワーク学習装置300の動作]
次に、ニューラルネットワーク学習装置300の動作(ニューラルネットワーク学習方法)を、図19に示すニューラルネットワーク学習装置300の制御フローチャートに沿って説明する。ニューラルネットワーク学習装置300は初期化処理を実施した後、ステップS11を実行する。
【0126】
<ニューラルネットワーク機能モデル生成工程(S11)>
ステップS11において、ニューラルネットワーク学習装置300の機能モデル生成部326は、CNN200を生成し、CNN200に関する情報であるネットワーク情報NW1を出力する(ニューラルネットワーク機能モデル生成工程)。例えば、機能モデル生成部326は、表示部350にCNN200の設定するGUI画像を表示させ、使用者に操作入力部360から必要な情報を入力させることでCNN200を生成する。
【0127】
機能モデル生成部326は、公知のニューラルネットワークの機能モデルを生成可能なライブラリやプラットホーム(例えばTensorFlowやPyTorch)を含んでもよい。
【0128】
図20は、NN機能モデル200を設定するGUI画像例を示す図である。
機能モデル生成部326は、操作入力部360から使用者の入力に基づいて、CNN200(NN機能モデル200)におけるネットワークの構造や層(レイヤ)ごとの仕様を設定する。例えば、使用者は、GUI画像として表示される視覚的に図式化された層(レイヤ)の接続を繋ぎ変えることで、NN機能モデル200のネットワークの構造を変更する。また、使用者は、GUI画像として表示される視覚的に図式化された層(レイヤ)ごとの仕様(入力データ情報、出力データ情報、量子化情報など)を変更する。例えば、使用者は、量子化演算層220において、プーリング層221と、Batch Normalization層222と、活性化関数層223と、量子化層224との接続を繋ぎ変えることができる。
【0129】
なお、CNN200(NN機能モデル200)におけるネットワークの構造や層(レイヤ)ごとの仕様は、図20に例示するような視覚的に図式化されたもので記述されていなくてもよい。CNN200におけるネットワークの構造や層(レイヤ)ごとの仕様は、プログラム言語やXML等により記述されていてもよい。
【0130】
機能モデル生成部326が生成するCNN200(NN機能モデル200)は、ニューラルネットワーク学習装置300の演算部320(学習部322および推論部323)において、学習および推論の演算を実施可能なニューラルネットワーク機能モデルである。ニューラルネットワーク学習装置300の演算部320は、NN回路100が備える演算回路より高性能な演算回路を含んでおり、例えばCPUやGPUや専用ハードウェアなどである。そのため、機能モデル生成部326が生成するCNN200は、NN回路100において実施可能な演算に変換可能な演算ブロック(以降、「変換可能演算ブロック」ともいう)と、NN回路100において実施可能な演算に変換不可能な演算ブロック(以降、「変換不可能演算ブロック」ともいう)と、を含み得る。ここで、演算ブロックとは、CNN200において連続する複数の演算である。
【0131】
CNN200(NN機能モデル200)がNN回路100により効率的に推論演算されるために、機能モデル生成部326はNN回路100において実施可能な演算に変換可能な演算ブロック(変換可能演算ブロック)をより多く生成することが望ましい。
【0132】
図20に示すように、CNN200(NN機能モデル200)の部分であって、畳み込み演算から量子化演算までの演算ブロックを「量子化畳み込み演算ブロックQC」と定義する。CNN200の少なくとも一部は、複数の量子化畳み込み演算ブロックQCが連結することにより構成される。
【0133】
図21は、NN回路100における推論演算ブロックEBを示す図である。
ループ状に形成されたNN回路100において、第一メモリ1と畳み込み演算回路4と第二メモリ2と量子化演算回路5とで形成されるループ状の演算ブロックを「推論演算ブロックEB」と定義する。
【0134】
図21に示す「C」は、畳み込み演算回路4における積和演算ユニット47の演算を表している。図21に示す「AW」は、入力ベクトルAと重みマトリックスWとを乗算したデータであって、要素あたり16ビット整数のベクトルデータである。
【0135】
図21に示す「Q」は、量子化演算回路5における量子化回路53の演算を表している。図21に示す「U」は、AWを量子化したデータであって、要素あたり2ビット整数のベクトルデータである。なお、図21に例示する推論演算ブロックEBは、ニューラルネットワーク学習装置300の機能の説明を簡略化するため、量子化回路53におけるベクトル演算回路52を省略している。
【0136】
なお、図21に例示する推論演算ブロックEBにおける演算環境(演算精度、データフォーマット、演算順序等)は、図6に例示するNN回路100における演算環境(演算精度、データフォーマット、演算順序等)に一致する。NN回路100における演算環境が変更された場合、推論演算ブロックEBにおける演算環境は、NN回路100における演算環境に応じて変更される。
【0137】
図22は、CNN200における量子化畳み込み演算ブロックQCを示す図である。
図22に示す量子化畳み込み演算ブロックQCは、変換可能演算ブロックとして構成されており、入力ベクトルAと重みマトリクスWが入力され、要素あたり2ビットに量子化された出力ベクトルUを出力する。
【0138】
図22に示す「X」は、浮動小数点フォーマットの第一スケーリング係数(第一スケーリングファクタ)Sa1,Sb1を係数とするアフィン変換演算を入力ベクトルAに対して実行し(Sa1×A+Sb1)、浮動小数点フォーマットのベクトルデータAsを出力する演算(量子化後のポストスケーラ)を示している。量子化畳み込み演算ブロックQCを変換可能演算ブロックとして構成する場合、入力データは要素あたり2ビットの入力ベクトルAに限定される。この場合であっても、入力ベクトルAに第一スケーリング係数Sa1,Sb1を係数とするアフィン変換を実施することで、入力データの精度低下を抑制できる。
【0139】
図22に示す「X」は、浮動小数点形フォーマットの第二スケーリング係数(第二スケーリングファクタ)Sa2,Sb2を係数とするアフィン変換演算を重みマトリックスWに対して実行し(Sa2×W+Sb2)、浮動小数点フォーマットのマトリクスデータWsを出力する演算を示している。量子化畳み込み演算ブロックQCを変換可能演算ブロックとして構成する場合、重みは要素あたり1ビットの重みマトリックスWに限定される。この場合であっても、重みマトリックスWにスケーリング係数Sa2,Sb2を係数とするアフィン変換を実行することで、重みの精度低下を抑制できる。
【0140】
図22に示す「Cf」は、AsとWsとを乗算して、浮動小数点フォーマットのベクトルデータAWsを出力する畳み込み演算を示している。
【0141】
図22に示す「X」は、浮動小数点フォーマットの第三スケーリング係数(第三スケーリングファクタ)Sa3,Sb3を係数とするアフィン変換演算をベクトルデータAWsに実行して(Sa3×AWs+Sb3)、浮動小数点フォーマットのベクトルデータAWssを出力する演算(量子化前のプリスケーラ)を示している。例えば、「X」は、「X」(量子化後のポストスケーラ)に対応するプリスケーラである。
【0142】
図22に示す「Qf」は、量子化パラメータqf(thf0,thf1,thf2)に基づいて、浮動小数点フォーマットのベクトルデータAWssを量子化して、要素あたり2ビット整数のベクトルデータUを出力する量子化演算を示している。量子化パラメータqfは、浮動小数点フォーマットの閾値(thf0,thf1,thf2)である。量子化畳み込み演算ブロックQCを変換可能演算ブロックとして構成する場合、出力データは要素あたり2ビットのベクトルデータUに限定される。
【0143】
図22に示す量子化畳み込み演算ブロックQCは、スケーリング係数(Sa1,Sb1,Sa2,Sb2,Sa3,Sb3)を量子化演算Qfにおける量子化パラメータqf(thf0,thf1,thf2)に組み込んで集約させることにより、推論演算ブロックEBにおいて実施可能な演算に変換可能な変換可能演算ブロックとして扱うことができる。例えば、Sa1が1.5であり、Sa2が2.0であり、Sa3が1.1である場合、量子化演算Qにおける量子化パラメータqf(thf0,thf1,thf2)を本来の量子化パラメータの1/3.3倍の値に更新することで、スケーリング係数が量子化パラメータqfに集約される。
【0144】
量子化畳み込み演算ブロックQCは、他の種類の演算Pが追加された場合であっても、演算Pに種別により変換可能演算ブロックとして構成することができる。例えば、上述したように、Batch Normalizationや活性化関数の演算は、量子化パラメータqf(thf0,thf1,thf2)に組み込んで集約させることができる。また、畳み込み演算結果に対するバイアス値の加算は、量子化パラメータqfからバイアス値を減算することにより、量子化パラメータqfに組み込んで集約させることができる。そのため、量子化畳み込み演算ブロックQCは、Batch Normalizationや活性化関数やバイアス値の加算等の他の種類の演算Pが追加されて場合であっても、変換可能演算ブロックとして構成することができる。演算Pが量子化パラメータqfに組み込んで集約させることができない演算である場合、演算Pを含む演算部ブロックは変換不可能演算ブロックとなる。
【0145】
演算Pが複数の浮動小数点演算を含む場合、複数の浮動小数点演算は丸め誤差が発生しにくい順序で実施されることが望ましい。丸め誤差が発生しやすいと、後述する丸め誤差のばらつきに起因する、量子化畳み込み演算ブロックQCによる演算結果と推論演算ブロックEBによる演算結果との誤差が発生しやすくなるからである。
【0146】
<ネットワーク情報取得工程(S12)>
ステップS12において、ニューラルネットワーク学習装置300は、ニューラルネットワーク生成工程(S10)で生成されたCNN200のネットワーク情報NWを取得する(ネットワーク情報取得工程)。ネットワーク情報NWが他の装置で生成された場合、ニューラルネットワーク学習装置300は、他の装置で生成されたネットワーク情報NWを取得する。
【0147】
取得されたネットワーク情報NWは、記憶部310に記憶される。次に、ニューラルネットワーク学習装置300は、ステップS13を実行する。
【0148】
<学習工程(S13)>
図23は、学習工程のフローチャートである。
ステップS13において、ニューラルネットワーク学習装置300の学習部322および推論部323は、学習データセットDSを用いて、生成されたCNN200(NN機能モデル200)の学習パラメータを学習する(学習工程)。学習工程(S13)は、例えば、学習済みパラメータ生成工程(S13-1)と、禁制帯確認工程(S13-2)と、推論テスト工程(S13-3)と、を有する。
【0149】
<学習工程:学習済みパラメータ生成工程(S13-1)>
学習部322は、CNN200の構成や機能を定義するネットワーク情報NW1および学習データD1を用いて、学習済みパラメータPMを生成する。学習済みパラメータPMは、重みw、量子化パラメータqf、スケーリング係数(Sa1,Sa2,Sa3)等である。
【0150】
例えば、CNN200が画像認識を実施するニューラルネットワークのモデルである場合、学習データD1は入力画像と教師データTとの組み合わせである。入力画像は、CNN200に入力される入力データaである。教師データTは、画像に撮像された被写体の種類や、画像における検出対象物の有無や、画像における検出対象物の座標値などである。
【0151】
学習部322は、公知の技術である誤差逆伝播法などによる教師あり学習によって、学習済みパラメータPMを生成する。学習部322は、入力画像に対するCNN200(NN機能モデル200)の出力と、入力画像に対応する教師データTと、の差分Eを損失関数(誤差関数)により求め、差分Eが小さくなるように重みw、量子化パラメータqfおよびスケーリング係数等を更新する。学習部322は、上述したようにスケーリング係数や演算P(量子化パラメータqfに集約可能な演算P)を量子化パラメータqfに集約させて、最終的な量子化パラメータqfを決定する。
【0152】
例えば重みwを更新する場合、重みwに関する損失関数の勾配が用いられる。勾配は、例えば損失関数を微分することにより算出される。誤差逆伝播法を用いる場合、勾配は逆伝番(backward)により算出される。
【0153】
<学習工程:禁制帯確認工程(S13-2)>
図24は、量子化パラメータqfの禁制帯Pを示す図である。
学習部322は、生成された量子化パラメータqfが禁制帯Pに含まれているかを判定する。禁制帯Pは、整数値±許容誤差TEの数値範囲である。許容誤差TEは、計算機イプシロンや、1e-5や、1e-10などの限りなくゼロに近い値である。
【0154】
推論演算ブロックEBにおける畳み込み演算Cは、整数演算であるため誤差は発生しない。論理的に「95」となる演算結果は、全て「95」となる。量子化パラメータqの閾値(th0、th1、th2)も整数であるため、量子化演算においても誤差は発生しない。
【0155】
一方、量子化畳み込み演算ブロックQCにおけるアフィン変換演算(X、XおよびX)および畳み込み演算Cf等は、浮動小数点演算であるため演算結果に丸め誤差のばらつきが生じる。例えば図24に示すように、論理的には「95」となる演算結果は、丸め誤差のばらつきにより、例えば{94.9912、94.9985、94.9997、95.0001、95.0024、95.0086}となり得る。量子化パラメータqfの一つである閾値thf0が95.0002である場合、上記の6個の演算結果を量子化した量子化データは{0、0、0、0、1、1}となり、全て同じ値とならない。
【0156】
このように、推論演算ブロックEBと量子化畳み込み演算ブロックQCとでは、論理的に「整数値」となる演算結果を閾値により量子化した量子化データに不一致が生じ得る。このような不一致が生じた場合、量子化畳み込み演算ブロックQCによる演算結果と推論演算ブロックEBによる演算結果とに誤差が生じてしまう。このような誤差が発生すると、量子化畳み込み演算ブロックQCによる学習演算の結果と、畳み込み演算の結果が整数値に量子化される推論演算ブロックEBによる推論演算の結果と、が一致しない場合がある。
【0157】
そこで、学習部322は、量子化畳み込み演算ブロックQCにおける演算環境(演算精度、データフォーマット、演算順序等)と、推論演算ブロックEBにおける演算環境(演算精度、データフォーマット、演算順序等)との違いに基づいて発生する誤差を事前に取得し、誤差が低減されるように量子化パラメータqfを更新してもよい。ここで、学習部322は、上記の演算環境の違いを認識するために、推論演算ブロックEBにおける演算環境を把握する必要がある。例えば、学習部322は、NN回路100に関する設計パラメータが設定された設定ファイル等を取得して、推論演算ブロックEBにおける演算環境を把握してもよい。また、学習部322は、表示部350にNN回路100に関する設計パラメータを設定するGUI画像やコンソール画像を表示させ、使用者に操作入力部360から必要な情報を入力させて、推論演算ブロックEBにおける演算環境を把握してもよい。
【0158】
また、学習部322は、量子化パラメータqfが取りうる範囲に禁制帯Pを設けてもよい。学習部322は、量子化畳み込み演算ブロックQCにおいて、丸め誤差のばらつきが許容誤差TEの範囲で蓄積されると想定する。学習部322は、整数値±許容誤差TEの数値範囲である禁制帯Pに量子化パラメータqfが含まれる場合、量子化パラメータqfを量子化データの不一致を生じさせる可能性があるパラメータであるとして、量子化パラメータとして採用しない。
【0159】
禁制帯Pに量子化パラメータqfが含まれる場合、学習部322は、学習済みパラメータ生成工程(S13-1)を再実行して、新たな量子化パラメータqfを生成する。学習部322は、スケーリング係数や演算P(量子化パラメータqfに集約可能な演算P)を量子化パラメータqfに集約させる際の浮動小数点演算の順序を変えて新たな量子化パラメータqfを生成してもよい。学習部322は、禁制帯Pに量子化パラメータqfが含まれなくなるまでこれらの処理を実行する。
【0160】
禁制帯Pは、例えば、量子化畳み込み演算ブロックQCにおける演算環境(演算精度、データフォーマット、演算順序等)、推論演算ブロックEBにおける演算環境(演算精度、データフォーマット、演算順序等)、許容可能な誤差範囲などに応じて事前に適宜決定される。
【0161】
なお、図22に例示する量子化畳み込み演算ブロックQCは浮動小数点演算を実施する演算ブロックであるが、量子化畳み込み演算ブロックQCの演算環境はこれに限定されない。例えば、量子化畳み込み演算ブロックQCは整数演算を実施する演算ブロックであってもよい。この場合、上述した量子化畳み込み演算ブロックQCによる演算結果と推論演算ブロックEBによる演算結果とに誤差は発生しない。例えば、量子化畳み込み演算ブロックQCは、浮動小数点フォーマットのデータ(スケーリング係数など)の小数部をゼロとして、データを整数値として整数演算を実施する。
【0162】
学習部322は、整数値±許容誤差TEの数値範囲である禁制帯Pに量子化パラメータqfが含まれない場合、次に推論テスト工程(S13-3)を実行する。
【0163】
<学習工程:推論テスト工程(S13-3)>
推論部323は、学習部322が生成した学習済みパラメータPMおよびテストデータD2を用いて推論テストを実施する。例えば、CNN200が画像認識を実施するニューラルネットワークのモデルである場合、テストデータD2は、学習データD1同様に入力画像と教師データTとの組み合わせである。
【0164】
推論部323は、推論テストの進捗および結果を表示部350に表示する。推論テストの結果は、例えばテストデータD2に対する正解率である。
【0165】
<確認工程(S14)>
ステップS14において、ニューラルネットワーク学習装置300の推論部323は、操作入力部360から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なGUI画像を表示部350に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部360から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部360から入力された場合、ニューラルネットワーク学習装置300は、次にステップS15を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部360から入力された場合、ニューラルネットワーク学習装置300は、再度ステップS11を実施してCNN200(NN機能モデル200)を再生成して、ネットワーク情報NWを再出力する(ニューラルネットワーク機能モデル再生成工程)。使用者は、再度実施するステップS11において、例えば、量子化情報(レイヤごとの量子化の有無など)や入力データ情報(チャンネル数など)を変更する。
【0166】
<ソフトウェア生成工程(S15)>
ステップS15において、ニューラルネットワーク学習装置300のソフトウェア生成部325は、CNN200の構成や機能を定義するネットワーク情報NW1および推論ネットワーク情報NW2に基づいて、NN回路100を動作させるソフトウェア500を生成する。ソフトウェア500は、例えばNN回路100を制御する命令セットを使用したソフトウェアである。また、ソフトウェア500は、学習済みパラメータPMを必要に応じてNN回路100へ転送するソフトウェアを含む。
【0167】
ソフトウェア生成工程(S15)は、例えば、コンバート工程(S15-1)と、アロケーション工程(S15-2)と、を有する。
【0168】
<コンバート工程(S15-1)>
ソフトウェア生成部325は、NN回路100が実行する推論演算に関する情報である推論ネットワーク情報NW2に基づいて、NN機能モデル200をNN回路100でNN回路100において実施可能な演算に変換可能な演算ブロックに変換する。また、ソフトウェア生成部325は、変換した演算ブロックの演算をNN回路100等に実行させるソフトウェア500を生成する。
【0169】
変換可能演算ブロックとして構成された量子化畳み込み演算ブロックQCは、変換した演算ブロックの演算を、NN回路100において実行させるソフトウェア500に変換される。学習工程において生成および更新された量子化パラメータqfは、コンバート工程において整数値の量子化パラメータqに変換される。
【0170】
変換不可能演算ブロックとして構成された量子化畳み込み演算ブロックQCは、変換した演算ブロックの演算を、外部ホストCPUなどの外部演算デバイスにおいて実行させるソフトウェア500、または、外部ホストCPUなどの外部演算デバイスとNN回路100とを組み合わせて実行させるソフトウェア500に変換される。
【0171】
<アロケーション工程(S15-2)>
ソフトウェア生成部325は、分割された演算をNN回路100に割り当てて実施させるソフトウェア500を生成する(アロケーション工程)。生成されるソフトウェア500は、命令コマンドC3、命令コマンドC4および命令コマンドC5を含む。
【0172】
図25は、NN回路100への割り当て例を示すタイミングチャートである。
第一部分テンソルa1に対応する畳み込み演算および量子化演算と、第二部分テンソルa2に対応する畳み込み演算および量子化演算とは、図25に示すように、独立して実施することができる。そこで、ソフトウェア生成部325は、分割された演算を、ネットワーク(レイヤ)の一部の順番を入れ替えて、NN回路100に割り当ててもよい。
【0173】
畳み込み演算回路4は、第一部分テンソルa1に対応するレイヤ2M-1の畳み込み演算(図25において、レイヤ2M-1(a1)で示す演算)を行う。その後、畳み込み演算回路4は、第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算(図25において、レイヤ2M-1(a)で示す演算)を行う。また、量子化演算回路5は、第一部分テンソルa1に対応するレイヤ2Mの量子化演算(図25において、レイヤ2M(a1)で示す演算)を行う。このように、NN回路100は、第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算と、第一部分テンソルa1に対応するレイヤ2Mの量子化演算と、を並列に実施できる。
【0174】
次に、畳み込み演算回路4は、第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算(図25において、レイヤ2M+1(a1)で示す演算)を行う。また、量子化演算回路5は、第二部分テンソルaに対応するレイヤ2Mの量子化演算(図25において、レイヤ2M(a)で示す演算)を行う。このように、NN回路100は、第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算と、第二部分テンソルaに対応するレイヤ2Mの量子化演算と、を並列に実施できる。
【0175】
入力データaを部分テンソルに分割することで、NN回路100は畳み込み演算回路4と量子化演算回路5とを並列して動作させることができる。その結果、畳み込み演算回路4と量子化演算回路5が待機する時間が削減され、NN回路100の演算処理効率が向上する。図25に示す動作例において部分テンソルへの分割数は2であったが、分割数が2より大きい場合も同様に、NN回路100は畳み込み演算回路4と量子化演算回路5とを並列して動作させることができる。
【0176】
なお、部分テンソルに対する演算方法としては、同一レイヤにおける部分テンソルの演算を畳み込み演算回路4または量子化演算回路5で行った後に次のレイヤにおける部分テンソルの演算を行う例(方法1)を示した。例えば、図25に示すように、畳み込み演算回路4において、第一部分テンソルa1および第二部分テンソルaに対応するレイヤ2M-1の畳み込み演算(図25において、レイヤ2M-1(a1)およびレイヤ2M-1(a)で示す演算)を行った後に、第一部分テンソルa1および第二部分テンソルaに対応するレイヤ2M+1の畳み込み演算(図25において、レイヤ2M+1(a1)およびレイヤ2M+1(a)で示す演算)を実施している。
【0177】
しかしながら、部分テンソルに対する演算方法はこれに限られない。部分テンソルに対する演算方法は、複数レイヤにおける一部の部分テンソルの演算をした後に残部の部分テンソルの演算を実施する方法でもよい(方法2)。例えば、畳み込み演算回路4において、第一部分テンソルa1に対応するレイヤ2M-1および第一部分テンソルa1に対応するレイヤ2M+1の畳み込み演算を行った後に、第二部分テンソルaに対応するレイヤ2M-1および第二部分テンソルaに対応するレイヤ2M+1の畳み込み演算を実施してもよい。
【0178】
また、部分テンソルに対する演算方法は、方法1と方法2とを組み合わせて部分テンソルを演算する方法でもよい。ただし、方法2を用いる場合は、部分テンソルの演算順序に関する依存関係に従って演算を実施する必要がある。
【0179】
なお、上述した部分テンソルの並列演算は、部分テンソルの演算順序に関する依存関係以外にも、第一メモリ1や第二メモリ2の未使用領域に基づいても実施可否が判断される。第一メモリ1や第二メモリ2において並列演算に必要な未使用領域がない場合は、並列演算の一部の演算を並列に実施せずに時分割して実施する制御が実施される。
【0180】
例えば、同じ入力データaに対して重みwを変えて畳み込み演算を実施する場合、同じ入力データaを用いる畳み込み演算を連続して実施する方が効率がよい。そのため、ソフトウェア生成部325は、可能な限り第一メモリ1や第二メモリ2に格納されている同じデータを用いる演算が連続するように、分割された演算の順番を入れ替える。
【0181】
本実施形態に係るニューラルネットワーク学習装置300およびニューラルネットワーク学習方法によれば、浮動小数点フォーマットによる畳み込み演算と量子化演算とを実行するCNN200(NN機能モデル200)の量子化畳み込み演算ブロックQCを、整数フォーマットによる畳み込み演算と量子化演算とを実行するNN回路100の推論演算ブロックEBにおいてに実施可能な演算に変換して推論演算させる場合において、量子化畳み込み演算ブロックQCによる演算結果と推論演算ブロックEBによる演算結果との誤差の発生を抑制できる。
【0182】
上記の誤差は学習演算を行う演算環境(学習演算環境)と推論を行う演算環境(推論演算環境)とが異なるために発生する。学習演算環境が浮動小数点フォーマットによる演算を含む高性能な演算装置であり、推論演算環境が整数フォーマットによる演算を実施するエッジデバイスである場合に上記の誤差は発生しやすくなる。本実施形態に係るニューラルネットワーク学習装置300およびニューラルネットワーク学習方法によれば、学習演算環境が浮動小数点フォーマットによる演算であり、推論演算環境が整数フォーマットによる演算である場合であっても、量子化パラメータqfの更新において禁制帯Pを設ける等により、上記の誤差の発生を抑制できる。
【0183】
本実施形態で例示するCNN200(NN機能モデル200)は、サブネットワーク(サブグラフ)を含まないニューラルネットワークである。しかしながら、CNN200(NN機能モデル200)は、サブネットワーク(サブグラフ)を含んでもよい。
【0184】
以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。
【0185】
(変形例1)
上記実施形態において、第一メモリ1と第二メモリ2は別のメモリであったが、第一メモリ1と第二メモリ2の態様はこれに限定されない。第一メモリ1と第二メモリ2は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。
【0186】
(変形例2)
例えば、上記実施形態に記載のNN回路100に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、NN回路100に入力されるデータは、NN回路100が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System(GPS)計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。
【0187】
(変形例3)
NN回路100が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet(PoE)などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。
【0188】
(変形例4)
NN回路100は、NN回路100の一部または全部を一つ以上のプロセッサを用いて実現してもよい。例えば、NN回路100は、入力層または出力層の一部または全部をプロセッサによるソフトウェア処理により実現してもよい。ソフトウェア処理により実現する入力層または出力層の一部は、例えば、データの正規化や変換である。これにより、様々な形式の入力形式または出力形式に対応できる。なお、プロセッサで実行するソフトウェアは、通信手段や外部メディアを用いて書き換え可能に構成してもよい。
【0189】
(変形例5)
NN回路100は、CNN200における処理の一部をクラウド上のGraphics Processing Unit(GPU)等を組み合わせることで実現してもよい。NN回路100は、NN回路100が設けられるエッジデバイスで行った処理に加えて、クラウド上でさらに処理を行ったり、クラウド上での処理に加えてエッジデバイス上で処理を行ったりすることで、より複雑な処理を少ないリソースで実現できる。このような構成によれば、NN回路100は、処理分散によりエッジデバイスとクラウドとの間の通信量を低減できる。
【0190】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【産業上の利用可能性】
【0191】
本発明は、ニューラルネットワークの演算に適用することができる。
【符号の説明】
【0192】
500 ソフトウェア
300 ニューラルネットワーク学習装置
200 畳み込みニューラルネットワーク(CNN、NN機能モデル)
100 ニューラルネットワーク回路(NN回路)
1 第一メモリ
2 第二メモリ
3 DMAコントローラ(DMAC)
4 畳み込み演算回路
42 乗算器
43 アキュムレータ回路
5 量子化演算回路
52 ベクトル演算回路
53 量子化回路
6 コントローラ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25