特開2023-6509 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＬｅａｐＭｉｎｄ株式会社の特許一覧

特開2023-6509ソフトウェア生成装置およびソフトウェア生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023006509

(43)【公開日】2023-01-18

(54)【発明の名称】ソフトウェア生成装置およびソフトウェア生成方法

(51)【国際特許分類】

G06N 3/02 20060101AFI20230111BHJP

G06F 8/30 20180101ALI20230111BHJP

G16Y 40/20 20200101ALI20230111BHJP

【ＦＩ】

G06N3/02

G06F8/30

G16Y40/20

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021109142

(22)【出願日】2021-06-30

(71)【出願人】

【識別番号】517048278

【氏名又は名称】ＬｅａｐＭｉｎｄ株式会社

(74)【代理人】

【識別番号】100213104

【弁理士】

【氏名又は名称】市川茂

(72)【発明者】

【氏名】前田南樹

【テーマコード（参考）】

5B376

【Ｆターム（参考）】

5B376BC32

(57)【要約】（修正有）

【課題】ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御することが可能なソフトウェア生成装置及びソフトウェア生成方法を提供する。
【解決手段】ニューラルネットワーク生成装置は、ニューラルネットワーク実行モデル（ＮＮ実行モデル）を制御するためのソフトウェアを生成するソフトウェア生成装置であって、ＮＮ実行モデルにおいて動作する複数のレイヤを含むモデルに関する情報を解析し、解析手段の解析結果に基づいてモデルに含まれる複数のレイヤに対応するライフタイムを決定し、ライフタイムに基づいてソフトウェアを生成するソフトウェア生成部を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

ニューラルネットワーク回路を制御するためのソフトウェアを生成するソフトウェア生成装置であって、
前記ニューラルネットワーク回路において動作する複数のレイヤを含むモデルに関する情報を解析する解析手段と、
前記解析手段の解析結果に基づいて前記モデルに含まれる前記複数のレイヤに対応するライフタイムを決定する決定手段と、
前記ライフタイムに基づいて前記ソフトウェアを生成する生成手段と、
を備えることを特徴とするソフトウェア生成装置。

【請求項2】

前記ソフトウェアは前記ニューラルネットワーク回路を制御するための複数のコマンドを含むことを特徴とする請求項１に記載のソフトウェア生成装置。

【請求項3】

前記ライフタイムは対応するレイヤにおいて前記ニューラルネットワーク回路に対してデータを入力するタイミングを１以上含むことを特徴とする請求項１または２に記載のソフトウェア生成装置。

【請求項4】

前記ソフトウェアは外部メモリ上に保持される前記データの配置情報を含み、
前記生成手段は前記配置情報を複数のライフタイムを割り付けたグループに基づいて生成することを特徴とする請求項１乃至３のいずれか１項に記載のソフトウェア生成装置。

【請求項5】

前記ライフタイムは対応するレイヤにおける演算期間に対応し、
前記複数のレイヤにおいて対応する少なくとも一部の演算期間は時間的に重複することを特徴とする請求項１乃至４のいずれか１項に記載のソフトウェア生成装置。

【請求項6】

前記ニューラルネットワーク回路は畳み込み演算を行う畳み込み演算回路と前記畳み込み演算の結果に基づく量以下演算を行う量子化演算回路を含み、
前記畳み込み演算回路と量子化演算回路はループ形状に構成されていることを特徴とする請求項１乃至５のいずれか１項に記載のソフトウェア生成装置。

【請求項7】

ニューラルネットワーク回路を制御するためのソフトウェアを生成するソフトウェア生成方法であって、
前記ニューラルネットワーク回路において動作する複数のレイヤを含むモデルに関する情報を解析する解析ステップと、
前記解析手段の解析結果に基づいて前記モデルに含まれる前記複数のレイヤに対応するライフタイムを決定する決定ステップと、
前記ライフタイムに基づいて前記ソフトウェアを生成する生成ステップと、
を備えることを特徴とするソフトウェア生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ソフトウェア生成装置およびソフトウェア生成方法に関する。

【背景技術】

【0002】

近年、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－０７７８２９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等が使用されている。組み込み機器において畳み込みニューラルネットワークを効率的に動作させるため、組み込み機器のハードウェア構成に合わせたニューラルネットワークに係る演算を行う回路やモデルを生成することが望まれている。また、これらの回路やモデルを高効率かつ高速に動作させるソフトウェア生成方法が望まれている。

【0005】

上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行う回路やモデルを生成するソフトウェア生成装置およびニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるためのソフトウェア生成方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク生成装置は、ニューラルネットワーク回路を制御するためのソフトウェアを生成するソフトウェア生成装置であって、前記ニューラルネットワーク回路において動作する複数のレイヤを含むモデルに関する情報を解析する解析手段と、前記解析手段の解析結果に基づいて前記モデルに含まれる前記複数のレイヤに対応するライフタイムを決定する決定手段と、前記ライフタイムに基づいて前記ソフトウェアを生成する生成手段とを備える。

【発明の効果】

【0007】

本発明のソフトウェア生成装置およびソフトウェア生成方法は、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御できる。

【図面の簡単な説明】

【0008】

【図1】実施形態に係るニューラルネットワーク生成装置を示す図である。

【図2】同ニューラルネットワーク生成装置の演算部の入出力を示す図である。

【図3】畳み込みニューラルネットワークの一例を示す図である。

【図4】同畳み込みニューラルネットワークの畳み込み層が行う畳み込み演算を説明する図である。

【図5】ニューラルネットワーク実行モデルの一例を示す図である。

【図6】同ニューラルネットワーク実行モデルの動作例を示すタイミングチャートである。

【図7】同ニューラルネットワーク生成装置の制御フローチャートである。

【図8】生成される畳み込み演算回路の内部ブロック図である。

【図9】同畳み込み演算回路の乗算器の内部ブロック図である。

【図10】同乗算器の積和演算ユニットの内部ブロック図である。

【図11】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。

【図12】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。

【図13】同畳み込み演算回路の制御回路のステート遷移図である。

【図14】生成される量子化演算回路の内部ブロック図である。

【図15】同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。

【図16】同ベクトル演算回路の演算ユニットのブロック図である。

【図17】同量子化回路の量子化ユニットの内部ブロック図である。

【図18】生成されるＤＭＡＣの内部ブロック図である。

【図19】エッジデバイスの内部ブロック図である。

【図20】ニューラルネットワークの一例と従来のアロケーションの一例を示す図である。

【図21】アロケーション工程を説明する図である。

【図22】ニューラルネットワークの一例とアロケーションの一例を示す図である。

【発明を実施するための形態】

【0009】

（実施形態）
本発明の実施形態について、図１から図２２を参照して説明する。
図１は、本実施形態に係るニューラルネットワーク生成装置３００を示す図である。

【0010】

［ニューラルネットワーク生成装置３００］
ニューラルネットワーク生成装置３００は、ＩｏＴ機器などの組み込み機器に組み込み可能な学習済みのニューラルネットワーク実行モデル１００を生成する装置である。ニューラルネットワーク実行モデル１００は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を組み込み機器において演算させるために生成されたソフトウェアやハードウェアモデルである。

【0011】

ニューラルネットワーク生成装置３００は、ＣＰＵ（Central Processing Unit）等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置（コンピュータ）である。ニューラルネットワーク生成装置３００の機能は、ニューラルネットワーク生成装置３００においてニューラルネットワーク生成プログラムを実行することにより実現される。ニューラルネットワーク生成装置３００は、記憶部３１０と、演算部３２０と、データ入力部３３０と、データ出力部３４０と、表示部３５０と、操作入力部３６０と、を備える。

【0012】

記憶部３１０は、ハードウェア情報ＨＷと、ネットワーク情報ＮＷと、学習データセットＤＳと、ニューラルネットワーク実行モデル１００（以下、「ＮＮ実行モデル１００」という）と、学習済みパラメータＰＭと、を記憶する。ハードウェア情報ＨＷ、学習データセットＤＳおよびネットワーク情報ＮＷは、ニューラルネットワーク生成装置３００に入力される入力データである。ＮＮ実行モデル１００および学習済みパラメータＰＭは、ニューラルネットワーク生成装置３００が出力する出力データである。なお、「学習済みのＮＮ実行モデル１００」は、ＮＮ実行モデル１００および学習済みパラメータＰＭを含む。

【0013】

ハードウェア情報ＨＷは、ＮＮ実行モデル１００を動作させる組み込み機器（以降、「動作対象ハードウェア」という）の情報である。ハードウェア情報ＨＷは、例えば、動作対象ハードウェアのデバイス種別、デバイス制約、メモリ構成、バス構成、動作周波数、消費電力、製造プロセス種別などである。デバイス種別は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などの種別である。デバイス制約は、動作対象デバイスに含まれる演算器数の上限や回路規模の上限などである。メモリ構成は、メモリ種別やメモリ個数やメモリ容量や入出力データ幅である。バス構成は、バス種類、バス幅、バス通信規格、同一バス上の接続デバイスなどである。また、ＮＮ実行モデル１００に複数のバリエーションが存在する場合、ハードウェア情報ＨＷには使用するＮＮ実行モデル１００のバリエーションに関する情報が含まれる。

【0014】

ネットワーク情報ＮＷは、ＣＮＮ２００の基本情報である。ネットワーク情報ＮＷは、例えば、ＣＮＮ２００のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。

【0015】

学習データセットＤＳは、学習に用いる学習データＤ１と、推論テストに用いるテストデータＤ２と、を有する。

【0016】

図２は、演算部３２０の入出力を示す図である。
演算部３２０は、実行モデル生成部３２１と、学習部３２２と、推論部３２３と、ハードウェア生成部３２４と、ソフトウェア生成部３２５と、を有する。演算部３２０に入力されるＮＮ実行モデル１００は、ニューラルネットワーク生成装置３００以外の装置で生成されたものであってもよい。

【0017】

実行モデル生成部３２１は、ハードウェア情報ＨＷおよびネットワーク情報ＮＷに基づいてＮＮ実行モデル１００を生成する。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0018】

学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。推論部３２３は、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。

【0019】

ハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。ニューラルネットワークハードウェアモデル４００は、動作対象ハードウェアに実装可能なハードウェアモデルである。ニューラルネットワークハードウェアモデル４００は、ハードウェア情報ＨＷに基づいて、動作対象ハードウェアに最適化されている。ニューラルネットワークハードウェアモデル４００は、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。ニューラルネットワークハードウェアモデル４００は、ＮＮ実行モデル１００をハードウェアに実装するために必要なパラメータリストやコンフィグレーションファイルであってもよい。パラメータリストやコンフィグレーションファイルは別途生成されたＮＮ実行モデル１００と組み合わせて使用される。

【0020】

以降の説明において、ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したものを、「ニューラルネットワークハードウェア６００」という。

【0021】

ソフトウェア生成部３２５は、ネットワーク情報ＮＷまたはＮＮ実行モデル１００に基づいて、ニューラルネットワークハードウェア６００を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。なお、ソフトウェア５００の形式としては、ソースコードの形式だけでなく、バイナリ形式であってもよい。

【0022】

データ入力部３３０には、学習済みのＮＮ実行モデル１００を生成するために必要なハードウェア情報ＨＷやネットワーク情報ＮＷ等が入力される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報ＨＷやネットワーク情報ＮＷ等は、記憶部３１０に記憶される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、操作入力部３６０から使用者により入力または変更されてもよい。

【0023】

データ出力部３４０には、生成された学習済みのＮＮ実行モデル１００が出力される。例えば、生成されたＮＮ実行モデル１００と、学習済みパラメータＰＭとがデータ出力部３４０に出力される。

【0024】

表示部３５０は、ＬＣＤディスプレイ等の公知のモニタを有する。表示部３５０は、演算部３２０が生成したＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部３２０が使用者からの情報入力を必要とする場合、表示部３５０は操作入力部３６０から情報を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示できる。

【0025】

操作入力部３６０は、使用者が演算部３２０等に対しての指示を入力する装置である。操作入力部３６０は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部３６０の入力は、演算部３２０に送信される。

【0026】

演算部３２０の機能の全部または一部は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）のような１つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部３２０の機能の全部または一部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等のハードウェア（例えば回路部；circuity）により実現されてもよい。また、演算部３２０の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

【0027】

演算部３２０の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたＣＰＵやＧＰＵやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部３２０は、例えばクラウドサーバ上の演算性能が高いＧＰＵや専用ハードウェアを併用することで、演算部３２０の演算速度を向上させることができる。

【0028】

記憶部３１０は、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read-Only Memory）、またＲＡＭ（Random Access Memory）等により実現される。記憶部３１０の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部３２０等と接続させてもよい。

【0029】

［畳み込みニューラルネットワーク（ＣＮＮ）２００］
次に、ＣＮＮ２００について説明する。図３は、ＣＮＮ２００の一例を示す図である。ＣＮＮ２００のネットワーク情報ＮＷは、以下で説明するＣＮＮ２００の構成に関する情報である。ＣＮＮ２００は、低ビットの重みｗや量子化された入力データａを用いており、組み込み機器に組み込みやすい。

【0030】

ＣＮＮ２００は、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

【0031】

図４は、畳み込み層２１０が行う畳み込み演算を説明する図である。
畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

【0032】

畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

【0033】

ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、ＣＮＮ２００は畳み込み層２１０の前に型変換や量子化を行う入力層をさらに有してもよい。

【0034】

畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0035】

畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図４において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

【0036】

【数1】

【0037】

量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

【0038】

プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

【0039】

【数2】

【0040】

【数3】

【0041】

ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

【0042】

【数4】

【0043】

活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

【0044】

【数5】

【0045】

量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等式「≦」は「＜」であってもよい。

【0046】

【数6】

【0047】

出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

【0048】

ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

【0049】

［ニューラルネットワーク実行モデル１００（ＮＮ実行モデル）１００］
次に、ＮＮ実行モデル１００について説明する。図５は、ＮＮ実行モデル１００の一例を示す図である。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0050】

ＮＮ実行モデル１００は、第一メモリ１と、第二メモリ２と、ＤＭＡコントローラ３（以下、「ＤＭＡＣ３」ともいう）と、畳み込み演算回路４と、量子化演算回路５と、コントローラ６と、を備える。ＮＮ実行モデル１００は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

【0051】

第一メモリ１は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートと接続されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。外部ホストＣＰＵは、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

【0052】

第二メモリ２は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。外部ホストＣＰＵは、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

【0053】

ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリと第一メモリ１との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと第二メモリ２との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと畳み込み演算回路４との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと量子化演算回路５との間のデータ転送を行う。

【0054】

畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

【0055】

量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を行う。量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）оｕｔを第一メモリ１に書き込む。

【0056】

コントローラ６は、外部バスＥＢに接続されており、外部のホストＣＰＵのスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ実行モデル１００の動作を制御するレジスタである。状態レジスタはセマフォＳを含むＮＮ実行モデル１００の状態を示すレジスタである。外部ホストＣＰＵは、コントローラ６を経由して、レジスタ６１にアクセスできる。

【0057】

コントローラ６は、内部バスＩＢを介して、第一メモリ１と、第二メモリ２と、ＤＭＡＣ３と、畳み込み演算回路４と、量子化演算回路５と、接続されている。外部ホストＣＰＵは、コントローラ６を経由して、各ブロックに対してアクセスできる。例えば、外部ホストＣＰＵは、コントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する命令を指示することができる。また、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５は、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含む）を更新できる。状態レジスタ（セマフォＳを含む）は、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５と接続された専用配線を介して更新されるように構成されていてもよい。

【0058】

ＮＮ実行モデル１００は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリからのＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。

【0059】

図６は、ＮＮ実行モデル１００の動作例を示すタイミングチャートである。ＮＮ実行モデル１００は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ実行モデル１００は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。以下、図６に示すニューラルネットワークハードウェア６００の動作例を説明する。

【0060】

ＤＭＡＣ３は、レイヤ１（図３参照）の入力データａを第一メモリ１に格納する。ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

【0061】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１（図３参照）の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対してレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0062】

量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データоｕｔは、第一メモリ１に格納される。

【0063】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データоｕｔを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0064】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0065】

量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データоｕｔは、第一メモリ１に格納される。

【0066】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0067】

畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図３に示すＣＮＮ２００の演算を進めていく。ＮＮ実行モデル１００は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍ＋１を実施する。また、ＮＮ実行モデル１００は、量子化演算回路５が時分割によりレイヤ２Ｍ－２の畳み込み演算とレイヤ２Ｍを実施する。そのため、ＮＮ実行モデル１００は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

【0068】

なお、図６においては、畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図３に示すＣＮＮ２００の演算を進めていく例を示したが、これに限られるものではない。例えば、量子化演算回路５が時分割によりレイヤ２Ｍの量子化演算を行うのと並行して、畳み込み演算回路４がレイヤ２Ｍ＋１を実施するよう制御してもよい。この動作により、より演算効率を高めることが可能となる。また、別の例として、連続しない二つのレイヤに対して並列した演算を行ってもよい。

【0069】

［ニューラルネットワーク生成装置３００の動作］
次に、ニューラルネットワーク生成装置３００の動作（ニューラルネットワーク制御方法）を、図７に示すニューラルネットワーク生成装置３００の制御フローチャートに沿って説明する。ニューラルネットワーク生成装置３００は初期化処理（ステップＳ１０）を実施した後、ステップＳ１１を実行する。

【0070】

＜ハードウェア情報取得工程（Ｓ１１）＞
ステップＳ１１において、ニューラルネットワーク生成装置３００は、動作対象ハードウェアのハードウェア情報ＨＷを取得する（ハードウェア情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたハードウェア情報ＨＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にハードウェア情報ＨＷの入力に必要なＧＵＩ画像を表示させ、使用者にハードウェア情報ＨＷを操作入力部３６０から入力させることでハードウェア情報ＨＷを取得してもよい。

【0071】

ハードウェア情報ＨＷは、具体的には、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ種別やメモリ容量や入出力データ幅を有する。

【0072】

取得されたハードウェア情報ＨＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１２を実行する。

【0073】

＜ネットワーク情報取得工程（Ｓ１２）＞
ステップＳ１２において、ニューラルネットワーク生成装置３００は、ＣＮＮ２００のネットワーク情報ＮＷを取得する（ネットワーク情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたネットワーク情報ＮＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にネットワーク情報ＮＷの入力に必要なＧＵＩ画像を表示させ、使用者にネットワーク情報ＮＷを操作入力部３６０から入力させることでネットワーク情報ＮＷを取得してもよい。

【0074】

ネットワーク情報ＮＷは、具体的には、入力層や出力層２３０を含むネットワーク構成と、重みｗや入力データａのビット幅を含む畳み込み層２１０の構成と、量子化情報を含む量子化演算層２２０の構成と、を有する。

【0075】

取得されたネットワーク情報ＮＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１３を実行する。

【0076】

＜ニューラルネットワーク実行モデル生成工程（Ｓ１３）＞
ステップＳ１３において、ニューラルネットワーク生成装置３００の実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００を生成する（ニューラルネットワーク実行モデル生成工程）。

【0077】

ニューラルネットワーク実行モデル生成工程（ＮＮ実行モデル生成工程）は、例えば、畳み込み回路生成工程（Ｓ１３－１）と、量子化回路生成工程（Ｓ１３－２）と、ＤＭＡＣ生成工程（Ｓ１３－３）と、を有する。なお、ＮＮ実行モデル生成工程として、一部または全部の回路を事前に生成し記憶部３１０などに記憶されたものを用いることで、当該工程の一部または全部を省略してもよい。また、ハードウェア情報ＨＷまたはネットワーク情報ＮＷなどに基づいて、事前に作成しておいた回路から選択により、ＮＮ実行モデル生成工程を実現してもよい。

【0078】

＜畳み込み回路生成工程（Ｓ１３－１）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の畳み込み回路４を生成する（畳み込み回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される畳み込み演算回路４のハードウェアモデルの一例を説明する。

【0079】

図８は、生成される畳み込み演算回路４の内部ブロック図である。
畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

【0080】

重みメモリ４１は、畳み込み演算に用いる重みｗが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みｗを重みメモリ４１に書き込む。

【0081】

図９は、乗算器４２の内部ブロック図である。
乗算器４２は、入力ベクトルＡと重みマトリクスＷとを乗算する。入力ベクトルＡは、入力データａが分割されたデータであり、Ｂｃ個の要素を持つベクトルデータである。また、重みマトリクスＷは、重みｗが分割されたデータであり、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータである。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとを乗算を並列して実施できる。

【0082】

乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

【0083】

図１０は、積和演算ユニット４７の内部ブロック図である。
積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。ｃｉは０から(Ｂｃ－１)までのインデックスである。ｄｉは０から(Ｂｄ－１)までのインデックスである。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0084】

積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

【0085】

図１１は、アキュムレータ回路４３の内部ブロック図である。
アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

【0086】

図１２は、アキュムレータユニット４８の内部ブロック図である。
アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

【0087】

加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

【0088】

乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリに、Ｂｄ個の要素を持つ出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

【0089】

ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

【0090】

命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

【0091】

制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

【0092】

図１３は、制御回路４６のステート遷移図である。
制御回路４６は、命令キュー４５に命令コマンドＣ４が入力されると（Ｎｏｔｅｍｐｔｙ）、アイドルステートＳ１からデコードステートＳ２に遷移する。

【0093】

制御回路４６は、デコードステートＳ２において、命令キュー４５から出力される命令コマンドＣ３をデコードする。また、制御回路４６は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ４において指示された乗算器４２やアキュムレータ回路４３の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔｒｅａｄｙ）、制御回路４６は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路４６はデコードステートＳ２から実行ステートＳ３に遷移する。

【0094】

制御回路４６は、実行ステートＳ３において、乗算器４２やアキュムレータ回路４３を制御して、乗算器４２やアキュムレータ回路４３に命令コマンドＣ４において指示された動作を実施させる。制御回路３４は、乗算器４２やアキュムレータ回路４３の動作が終わると、命令キュー４５から実行を終えた命令コマンドＣ４を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路４６は、命令キュー４５に命令がある場合（Ｎｏｔｅｍｐｔｙ）、実行ステートＳ３からデコードステートＳ２に遷移する。制御回路４６は、命令キュー４５に命令がない場合（ｅｍｐｔｙ）、実行ステートＳ３からアイドルステートＳ１に遷移する。

【0095】

実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を決定する。ハードウェア情報ＨＷとして生成するＮＮ実行モデル１００（ニューラルネットワークハードウェアモデル４００、ニューラルネットワークハードウェア６００）のハードウェア規模が含まれる場合、実行モデル生成部３２１は、指定された規模にあわせて畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を調整する。

【0096】

＜量子化回路生成工程（Ｓ１３－２）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の量子化回路５を生成する（量子化回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化回路５のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される量子化回路５のハードウェアモデルの一例を説明する。

【0097】

図１４は、生成される量子化演算回路５の内部ブロック図である。
量子化演算回路５は、量子化パラメータメモリ５１と、ベクトル演算回路５２と、量子化回路５３と、ステートコントローラ５４と、を有する量子化演算回路５は、ベクトル演算回路５２および量子化回路５３に対する専用のステートコントローラ５４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。

【0098】

量子化パラメータメモリ５１は、量子化演算に用いる量子化パラメータｑが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、量子化演算に必要な量子化パラメータｑを量子化パラメータメモリ５１に書き込む。

【0099】

図１５は、ベクトル演算回路５２と量子化回路５３の内部ブロック図である。
ベクトル演算回路５２は、第二メモリ２に格納された出力データｆ（ｘ，ｙ，ｄｏ）に対して演算を行う。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７を有し、出力データｆ（ｘ，ｙ，ｄｏ）に対して並列にＳＩＭＤ演算を行う。

【0100】

図１６は、演算ユニット５７のブロック図である。
演算ユニット５７は、例えば、ＡＬＵ５７ａと、第一セレクタ５７ｂと、第二セレクタ５７ｃと、レジスタ５７ｄと、シフタ５７ｅと、を有する。演算ユニット５７は、公知の汎用ＳＩＭＤ演算回路が有する他の演算器等をさらに有してもよい。

【0101】

ベクトル演算回路５２は、演算ユニット５７が有する演算器等を組み合わせることで、出力データｆ（ｘ，ｙ，ｄｏ）に対して、量子化演算層２２０におけるプーリング層２２１や、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２や、活性化関数層２２３の演算のうち少なくとも一つの演算を行う。

【0102】

演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより加算できる。演算ユニット５７は、ＡＬＵ５７ａによる加算結果をレジスタ５７ｄに格納できる。演算ユニット５７は、第一セレクタ５７ｂの選択によりレジスタ５７ｄに格納されたデータに代えて「０」をＡＬＵ５７ａに入力することで加算結果を初期化できる。例えばプーリング領域が２×２である場合、シフタ５７ｅはＡＬＵ５７ａの出力を２ｂｉｔ右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式２に示す平均プーリングの演算を実施できる。

【0103】

演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより比較できる。
演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて第二セレクタ５７ｃを制御して、レジスタ５７ｄに格納されたデータと要素ｆ（ｄｉ）の大きい方を選択できる。演算ユニット５７は、第一セレクタ５７ｂの選択により要素ｆ（ｄｉ）の取りうる値の最小値をＡＬＵ５７ａに入力することで比較対象を最小値に初期化できる。本実施形態において要素ｆ（ｄｉ）は１６ｂｉｔ符号付き整数であるので、要素ｆ（ｄｉ）の取りうる値の最小値は「０ｘ８０００」である。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式３のＭＡＸプーリングの演算を実施できる。なお、ＭＡＸプーリングの演算ではシフタ５７ｅは第二セレクタ５７ｃの出力をシフトしない。

【0104】

演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより減算できる。シフタ５７ｅはＡＬＵ５７ａの出力を左シフト（すなわち乗算）もしくは右シフト（すなわち除算）できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式４のＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎの演算を実施できる。

【0105】

演算ユニット５７は、第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）と第一セレクタ５７ｂにより選択された「０」とをＡＬＵ５７ａにより比較できる。演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて要素ｆ（ｄｉ）と予めレジスタ５７ｄに格納された定数値「０」のいずれかを選択して出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式５のＲｅＬＵ演算を実施できる。

【0106】

ベクトル演算回路５２は、平均プーリング、ＭＡＸプーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路５２は、汎用ＳＩＭＤ演算を実施できるため、量子化演算層２２０における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路５２は、量子化演算層２２０における演算以外の演算を実施してもよい。

【0107】

なお、量子化演算回路５は、ベクトル演算回路５２を有してなくてもよい。量子化演算回路５がベクトル演算回路５２を有していない場合、出力データｆ（ｘ，ｙ，ｄｏ）は量子化回路５３に入力される。

【0108】

量子化回路５３は、ベクトル演算回路５２の出力データに対して、量子化を行う。量子化回路５３は、図１５に示すように、Ｂｄ個の量子化ユニット５８を有し、ベクトル演算回路５２の出力データに対して並列に演算を行う。

【0109】

図１７は、量子化ユニット５８の内部ブロック図である。
量子化ユニット５８は、ベクトル演算回路５２の出力データの要素ｉｎ（ｄｉ）に対して量子化を行う。量子化ユニット５８は、比較器５８ａと、エンコーダ５８ｂと、を有する。量子化ユニット５８はベクトル演算回路５２の出力データ（１６ビット／要素）に対して、量子化演算層２２０における量子化層２２４の演算（式６）を行う。量子化ユニット５８は、量子化パラメータメモリ５１から必要な量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を読み出し、比較器５８ａにより入力ｉｎ（ｄｉ）と量子化パラメータｑとの比較を行う。量子化ユニット５８は、比較器５８ａによる比較結果をエンコーダ５８ｂにより２ビット／要素に量子化する。式４におけるα(c)とβ(c)は、変数ｃごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）はｉｎ（ｄｉ）ごとに異なるパラメータである。

【0110】

量子化ユニット５８は、入力ｉｎ（ｄｉ）を３つの閾値ｔｈ０，ｔｈ１，ｔｈ２と比較することにより、入力ｉｎ（ｄｉ）を４領域（例えば、ｉｎ≦ｔｈ０，ｔｈ０＜ｉｎ≦ｔｈ１，ｔｈ１＜ｉｎ≦ｔｈ２，ｔｈ２＜ｉｎ）に分類し、分類結果を２ビットにエンコードして出力する。量子化ユニット５８は、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）の設定により、量子化と併せてＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎや活性化関数の演算を行うこともできる。

【0111】

量子化ユニット５８は、閾値ｔｈ０を式４のβ(ｃ)、閾値の差（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を式４のα(ｃ)として設定して量子化を行うことで、式４に示すＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎの演算を量子化と併せて実施できる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を大きくすることでα(ｃ)を小さくできる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を小さくすることで、α(c)を大きくできる。

【0112】

量子化ユニット５８は、入力ｉｎ（ｄｉ）の量子化と併せて活性化関数のＲｅＬＵ演算を実施できる。例えば、量子化ユニット５８は、ｉｎ（ｄｉ）≦ｔｈ０およびｔｈ２＜ｉｎ（ｄｉ）となる領域では出力値を飽和させる。量子化ユニット５８は、出力が非線形とするように量子化パラメータｑを設定することで活性化関数の演算を量子化と併せて実施できる。

【0113】

ステートコントローラ５４は、ベクトル演算回路５２および量子化回路５３のステートを制御する。また、ステートコントローラ５４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ５４は、命令キュー５５と制御回路５６とを有する。

【0114】

命令キュー５５は、量子化演算回路５用の命令コマンドＣ５が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー５５には、内部バスＩＢ経由で命令コマンドＣ５が書き込まれる。

【0115】

制御回路５６は、命令コマンドＣ５をデコードし、命令コマンドＣ５に基づいてベクトル演算回路５２および量子化回路５３を制御するステートマシンである。制御回路５６は、畳み込み演算回路４のステートコントローラ４４の制御回路４６と同様の構成である。

【0116】

量子化演算回路５は、Ｂｄ個の要素を持つ量子化演算出力データを第一メモリ１に書き込む。なお、ＢｄとＢｃの好適な関係を式７に示す。式７においてｎは整数である。

【0117】

【数7】

【0118】

実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化演算回路５における、プーリングの演算の有無および種類（平均プーリング、ＭＡＸプーリングなど）、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎの演算の有無および方式、活性化関数の演算の有無および方式（ＲｅＬＵ演算など）、量子化の方式（ビット数など）、およびその他の演算の有無を決定する。ハードウェア情報ＨＷとして生成するＮＮ実行モデル１００（ニューラルネットワークハードウェアモデル４００、ニューラルネットワークハードウェア６００）のハードウェア規模が含まれる場合、実行モデル生成部３２１は、指定された規模にあわせて量子化演算回路５における演算器の構成を調整する。

【0119】

＜ＤＭＡＣ生成工程（Ｓ１３－３）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００のＤＭＡＣ３を生成する（ＤＭＡＣ生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成されるＤＭＡＣ３のハードウェアモデルの一例を説明する。

【0120】

図１８は、生成されるＤＭＡＣ３の内部ブロック図である。
ＤＭＡＣ３は、データ転送回路３１と、ステートコントローラ３２と、を有する。ＤＭＡＣ３は、データ転送回路３１に対する専用のステートコントローラ３２を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにＤＭＡデータ転送を実施できる。

【0121】

データ転送回路３１は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリと第一メモリ１との間のＤＭＡデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリと第二メモリ２との間のＤＭＡデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリと畳み込み演算回路４との間のデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリと量子化演算回路５との間のデータ転送を行う。データ転送回路３１のＤＭＡチャンネル数は限定されない。例えば、第一メモリ１と第二メモリ２のそれぞれに専用のＤＭＡチャンネルを有していてもよい。

【0122】

ステートコントローラ３２は、データ転送回路３１のステートを制御する。また、ステートコントローラ３２は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ３２は、命令キュー３３と制御回路３４とを有する。

【0123】

命令キュー３３は、ＤＭＡＣ３用の命令コマンドＣ３が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー３３には、内部バスＩＢ経由で１つ以上の命令コマンドＣ３が書き込まれる。

【0124】

制御回路３４は、命令コマンドＣ３をデコードし、命令コマンドＣ３に基づいて順次データ転送回路３１を制御するステートマシンである。制御回路３４は、畳み込み演算回路４のステートコントローラ４４の制御回路４６と同様の構成である。

【0125】

実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３における、ＤＭＡチャンネル数やデータバス幅などを決定する。

【0126】

例えば、実行モデル生成部３２１は、ホスト側の外部バスＥＢの仕様にあわせた仕様（データバス幅等）のＤＭＡＣ３を生成する。データバス幅やＤＭＡチャンネル数を増やすことで外部メモリと第一メモリ１や第二メモリ２とのデータ伝送速度を向上させることができる。

【0127】

＜学習工程（Ｓ１４）＞
ステップＳ１４において、ニューラルネットワーク生成装置３００の学習部３２２および推論部３２３は、学習データセットＤＳを用いて、生成されたＮＮ実行モデル１００の学習パラメータを学習する（学習工程）。学習工程（Ｓ１４）は、例えば、学習済みパラメータ生成工程（Ｓ１４－１）と、推論テスト工程（Ｓ１４－２）と、を有する。

【0128】

＜学習工程：学習済みパラメータ生成工程（Ｓ１４－１）＞
学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。学習済みパラメータＰＭは、学習済みの重みｗおよび量子化パラメータｑ等である。

【0129】

例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、学習データＤ１は入力画像と教師データＴとの組み合わせである。入力画像は、ＣＮＮ２００に入力される入力データａである。教師データＴは、画像に撮像された被写体の種類や、画像における検出対象物の有無や、画像における検出対象物の座標値などである。

【0130】

学習部３２２は、公知の技術である誤差逆伝播法などによる教師あり学習によって、学習済みパラメータＰＭを生成する。学習部３２２は、入力画像に対するＮＮ実行モデル１００の出力と、入力画像に対応する教師データＴと、の差分Ｅを損失関数（誤差関数）により求め、差分Ｅが小さくなるように重みｗおよび量子化パラメータｑを更新する。

【0131】

例えば重みｗを更新する場合、重みｗに関する損失関数の勾配が用いられる。勾配は、例えば損失関数を微分することにより算出される。誤差逆伝播法を用いる場合、勾配は逆伝番（ｂａｃｋｗａｒｄ）により算出される。

【0132】

学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００が使用する低ビットの重みｗ（例えば１ビット）より高精度な３２ビットの浮動小数点型の重みｗが学習に使用される。また、ＮＮ実行モデル１００の畳み込み演算回路４において実施する畳み込み演算が高精度化される。

【0133】

学習部３２２は、勾配を算出して重みｗを更新する際において、活性化関数に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００の量子化演算回路５において実施するＲｅＬＵ関数などの活性化関数より高精度なシグモンド関数が学習に使用される。

【0134】

一方、学習部３２２は、順伝搬（ｆоｒｗａｒｄ）により入力画像に対する出力データを算出する際においては、畳み込み演算および活性化関数に関連する演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。重みｗを更新する際に用いられた高精度な重みｗは、ルックアップテーブル等により低ビット化される。

【0135】

学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算および活性化関数に関連する演算を高精度化することにより、演算における中間データの精度低下を防止して、高い推論精度を実現できる学習済みパラメータＰＭを生成できる。

【0136】

一方、学習部３２２は、入力画像に対する出力データを算出する際において、順伝搬（ｆоｒｗａｒｄ）の演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。そのため、学習部３２２が算出した出力データと、生成された学習済みパラメータＰＭを用いたＮＮ実行モデル１００の出力データと、が一致する。

【0137】

＜学習工程：推論テスト工程（Ｓ１４－２）＞
推論部３２３は、学習部３２２が生成した学習済みパラメータＰＭ、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、テストデータＤ２は、学習データＤ１同様に入力画像と教師データＴとの組み合わせである。

【0138】

推論部３２３は、推論テストの進捗および結果を表示部３５０に表示する。推論テストの結果は、例えばテストデータＤ２に対する正解率である。

【0139】

＜確認工程（Ｓ１５）＞
ステップＳ１５において、ニューラルネットワーク生成装置３００の推論部３２３は、操作入力部３６０から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示部３５０に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部３６０から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、次にステップＳ１６を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、再度ステップＳ１２を実施する。なお、ニューラルネットワーク生成装置３００はステップＳ１１まで戻って、ハードウェア情報ＨＷを使用者に再入力させてもよい。

【0140】

＜出力工程（Ｓ１６）＞
ステップＳ１６において、ニューラルネットワーク生成装置３００のハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００などを生成する。

【0141】

＜ソフトウェア生成工程（Ｓ１７）＞
ステップＳ１７において、ニューラルネットワーク生成装置３００のソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００などに基づいて、ニューラルネットワークハードウェア６００（ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したもの）を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。また、ソフトウェア５００は、ニューラルネットワークハードウェア６００を動作または制御するための複数の形態のソフトウェアを含んでもよいし、動作または制御に用いるための命令コマンドやＮＮ実行モデル１００の一部の演算を実行するためのソフトウェアを含んでもよい。

【0142】

ソフトウェア生成工程（Ｓ１７）は、例えば、入力データを演算する単位に合わせて分割する分割工程と、演算効率を高めるためにＣＮＮ２００の一部を分割するネットワーク分割工程と、入力データをどのようにメモリ上に配置するかのアロケーション工程などを有する。

【0143】

＜入力データ分割工程＞
ソフトウェア生成部３２５は、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ容量や演算器の仕様やサイズ（ＢｃやＢｄ）などに基づいて、畳み込み層２１０の畳み込み演算の入力データａを部分テンソルに分割する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。

【0144】

さらに、ソフトウェア生成部３２５は、ＮＮ実行モデル１００の畳み込み回路４に、分割された入力データａおよび重みｗを展開する。

【0145】

また、ソフトウェア生成部３２５は、例えば、分割された入力データａ（２・Ｘ・Ｙ・Ｂｃビット）が第一メモリ１に複数格納されるように入力データａを部分テンソルに分割する。ソフトウェア生成部３２５は、レイヤごとに入力データａを分割する。なお、ニューラルネットワークハードウェア６００で演算しやすい単位とは、ニューラルネットワークハードウェア６００で並列演算できる数、第一メモリ１または第二メモリ２の容量や帯域、消費電力量、演算周波数などに基づいて決定する。例えば、並列演算可能な数が多い場合には分割数としては少なくすることが好ましい。

【0146】

＜ネットワーク分割工程＞
ソフトウェア生成部３２５は、ＣＮＮ２００のネットワーク（レイヤ）を分割して、ループ状に形成された畳み込み演算回路４と量子化演算回路５とにマッピングする（ネットワーク分割工程）。

【0147】

ソフトウェア生成部３２５は、ＣＮＮ２００のネットワーク（レイヤ）の分割を、ＣＮＮ２００全体に対して実施する。ソフトウェア生成部３２５は、ＤＭＡＣ３による第一メモリ１と外部メモリとの間のメモリ転送が可能か限り少なくなるように、ＣＮＮ２００のネットワーク（レイヤ）の分割を実施する。

【0148】

また、ＣＮＮ２００に入力データａのテンソル形状を変更する演算が含まれている場合も、当該演算の前においてネットワーク（レイヤ）を分割する。入力データａのテンソル形状を変更する演算とは、例えば、入力データａの深さ方向（ｃ方向）を短くして平面方向（ｘｙ方向）へ広げる演算や、テンソル（データ）の統合を行う演算などである。

【0149】

＜アロケーション工程＞
ソフトウェア生成部３２５は、分割された演算をニューラルネットワークハードウェア６００に割り当てて実施させるソフトウェア５００を生成する（アロケーション工程）。ソフトウェア生成部３２５は、アローション工程においてメモリ上にデータを配置するための配置情報を生成する。

【0150】

ここで、ソフトウェア生成部３２５が生成するソフトウェア５００はニューラルネットワークハードウェア６００を制御動作させるためのコマンド群を含むものとする。この場合、コマンド群にはＮＮ実行モデル１００などに基づいて図５などで示した各回路を適切なタイミングで動作させるための複数の命令コマンドが含まれる。さらに、ニューラルネットワークハードウェア６００以外の外部ホストＣＰＵなどのプロセッサ上で動作するコマンドまたはソフトウェアも含まれる。当該コマンド群は、外部メモリ上に保存され、外部ホストＣＰＵにより直接またはコントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する制御に用いられる。

【0151】

図１９は、ニューラルネットワークハードウェア６００が設けられるエッジデバイスの一例を表すブロック図である。エッジデバイスは外部ホストＣＰＵ７００と、外部ホストＣＰＵ７００に含まれるバッファメモリ７１０と、外部メモリ７２０と、ニューラルネットワークハードウェア６００が含まれ、各ブロックは外部バスＥＢにより接続される。当該コマンド群は、外部メモリ７２０上に保存され、外部ホストＣＰＵ７００により、またはニューラルネットワークハードウェア６００に含まれるコントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する制御が行われる。言い換えれば、当該コマンド群は、ニューラルネットワークハードウェアモデル４００の一部に相当する。そのため、当該コマンド群を適切なタイミングで実行することにより、エッジデバイス上でＮＮ実行モデル１００を適切に制御することとなる。

【0152】

また、図１９において、ＣＮＮ２００が処理する入力データを画像データ等の多次元データであるとする。このような大容量のデータをニューラルネットワークハードウェア６００上で保持するためには大型のメモリが必要になり好ましくない。そのため、ＣＮＮ２００に含まれる各レイヤの入力データは、演算開始時には外部メモリ７２０に上に保持される。そして、分割された入力データを適宜読み出すことで、ニューラルネットワークハードウェア６００の回路規模を抑えることができる。さらに、ＣＮＮ２００に含まれる各レイヤから出力される出力データも同様に、演算結果として外部メモリ７２０に保持される。なお、外部メモリ７２０に保持された出力データは次のレイヤにおける入力データとなる。

【0153】

本実施形態において、ニューラルネットワークハードウェア６００へ入力データを入力する動作、及びニューラルネットワークハードウェア６００から出力データを取得する動作において、それぞれのデータは外部ホストＣＰＵ７００に含まれるバッファメモリ７１０を経由して外部メモリ７２０に対して読み出され、また書き込まれる。より詳細には、外部ホストＣＰＵ７００は、演算を実行しようとする対象のレイヤに対応する入力データを外部メモリ７２０から取得し、演算の開始に合わせてバッファメモリ７１０に一時的に保存する。バッファメモリ７１０は一例として高速に読み書きが可能であるＳＲＡＭなどで構成される。また、外部ホストＣＰＵ７００は、対象のレイヤにおける演算結果として出力されるデータを、一旦バッファメモリ７１０に保存した後に外部メモリ７２０へ書き込みを行う。このように、バッファメモリ７１０は一例として高速に読み書きが可能であるＳＲＡＭなどで構成される。

【0154】

ニューラルネットワークハードウェア６００において処理される入力データが、画像データ等の多次元のデータ構造を有する場合、各レイヤで処理するデータ量は比較的に大きくなる。さらに、ＣＮＮ２００には複数のレイヤが含まれるため、ニューラルネットワークハードウェア６００には繰り返しデータが入力されることとなる。その結果として、繰り返し演算結果を取得するためにバッファメモリ７１０への読み書きが繰り返し発生する。

【0155】

演算に用いられる各データは、高速に読み書き可能なバッファメモリ７１０上に保持され、繰り返し使用することで効率的な演算を行うことができる。そして、実行する演算の効率を高めるためには多くのデータをバッファメモリ７１０上に長期間保持することが好ましい。これはバッファメモリ７１０の使用量の増加につながっていた。そのため従来は、ＣＮＮ２００に含まれるレイヤの数が増えれば増えるほど多くのバッファメモリ７１０の容量が必要になっていた。

【0156】

高性能なバッファメモリ７１０の容量の増加は最終製品のコストや電力を引き上げるため、エッジデバイスなどの限られた演算資源を有効活用するには演算の効率を高めるだけではなく、バッファメモリ使用量も抑える必要があった。

【0157】

図２０は、ＣＮＮ２００の一例（上図）と、それが動作するエッジデバイスにおけるバッファメモリ７１０に対する従来のアロケーション例（下図）を示す図である。本実施形態のＣＮＮ２００は７層のレイヤと１層のポスト処理を含む。

【0158】

図２０におけるＣＮＮ２００の入力データは画像データであり、各レイヤには図３で示した畳み込み演算と量子化演算をそれぞれ含む。入力データは、まずレイヤＬ_０に入力され、各レイヤで演算が行われる。そして、最終のレイヤＬ_６の出力データはポスト処理Ｐの入力になる。ここで、ポスト処理Ｐは出力データである結果画像を出力するための画像処理を含む。画像処理の一例として、黒レベル調整、ゲイン調整、色調整などを含む。また、画像処理以外の処理としてバウンディングボックスの処理などを含んでもよい。ポスト処理Ｐについては、処理の全てをニューラルネットワークハードウェア６００上で実行される必要はなく、外部ホストＣＰＵ７００などの外部の複数のプロセッサ上で実行するように構成してもよい。なお、外部ホストＣＰＵ７００にてポスト処理Ｐを実行する場合には、処理の自由度を向上させることができる。

【0159】

図２０におけるＣＮＮ２００の各レイヤにおける処理を実行するために、外部ホストＣＰＵ７００はバッファメモリ７１０を介して適切なタイミングで入力データをニューラルネットワークハードウェア６００などに供給する。具体的には、まずレイヤＬ_０での演算の開始に合わせて、外部メモリ７２０からレイヤＬ_０の演算に必要なデータＤ_０を読み出してバッファメモリ７１０に格納する。そして、レイヤＬ_０における演算処理の実行期間に合わせてデータＤ_０を供給するためにバッファメモリ７１０上にデータＤ_０を保持する。

【0160】

次に、レイヤＬ_０での演算と並列してレイヤＬ_１での演算が開始される。そのため、この開始に合わせて、外部メモリ７２０からレイヤＬ_１の演算に必要なデータＤ_１を読み出してバッファメモリ７１０に格納する。そして、レイヤＬ_１における演算処理の実行期間に合わせてデータＤ_１を供給するためにバッファメモリ７１０上にデータＤ_１を保持する。本実施形態において、レイヤＬ_０での演算とレイヤＬ_１での演算は少なくとも一部が並列で行われるため、データＤ_０をバッファメモリ７１０で保持する期間と、データＤ_１を保持する期間は重複する。なお、レイヤＬ_０の出力データはデータＤ_０の使用済み領域に上書きされるようにしてもよいし、直接外部メモリ７２０へ書き出してもよい。

【0161】

図２０に示すように、各レイヤ演算に合わせてバッファメモリ７１０上に対応するデータを読み出し、演算が終了するまで保持する動作をＣＮＮ２００の全てのレイヤに対して行う。具体的には、最終レイヤＬ_６の後の処理であるポスト処理Ｐが終了するまでデータＤｐを保持し、ポスト処理Ｐの演算結果を外部メモリ７２０へ書き込むことでＣＮＮ２００の処理は終了する。

【0162】

図２０に示すＣＮＮ２００の各レイヤに対応するバッファメモリ７１０の制御において、レイヤＬ_ｎの演算はレイヤＬ_ｎ＋１の演算と並列に実行するため、データＤ_ｎはレイヤＬ_ｎ＋２の演算が開始するタイミングまでデータＤ_ｎ＋１とともにバッファメモリ上に保持する必要がある。図２０において、データＤ_ｎを読み出すタイミングを点線で示し、データＤ_ｎをバッファメモリ７１０上に保持する期間（以下、「ライフタイム」という。）を矩形で示している。図２０に示すＣＮＮ２００においては、連続するレイヤ間では並列的に演算が行われるため、データＤ_ｎのライフタイムとデータＤ_ｎ＋１のライフタイムは時間的に重複する。なお、各データのライフタイムは各レイヤの演算期間と対応する。

【0163】

データＤ_ｎとデータＤ_ｎ＋１は異なるデータであることから、バッファメモリ７１０の同一のメモリ領域には保持できない。そのため、それぞれレイヤに対応した専用の領域を設ける必要がある。従来のアロケーションによれば、図２０に示したように、各レイヤの演算を効率に行うことを目的として、バッファメモリ７１０に多くのデータを配置することになるため、ＣＮＮ２００に含まれるレイヤの数に依存して、必要となるバッファメモリ７１０のメモリ容量が増加していた。

【0164】

次に、本実施形態にかかるアロケーションについて詳細に説明する。ソフトウェア生成部３２５は、ソフトウェア５００を生成する工程に含まれるアロケーション工程において、バッファメモリ７１０の必要な使用量を下げるために、時間的に重複するライフタイムに基づいてバッファメモリ上でのアロケーションを行う。

【0165】

図２１は、本実施形態におけるアロケーション工程に含まれるステップを説明するためのフローチャートである。当該フローチャートの各ステップはソフトウェア生成部３２５が実行する。

【0166】

処理が開始されると、ソフトウェア生成部３２５は、ステップＳ２１において、ネットワーク情報ＮＷまたはＮＮ実行モデル１００などに基づいて、対象となるＣＮＮ２００に関する情報を取得する。具体的には、ＣＮＮ２００における各レイヤを決定し、決定した各レイヤに関する演算内容・順番、入力データの種類・サイズ、入力データの入力順番などを取得する。そして、処理を次のステップへ移す。

【0167】

ソフトウェア生成部３２５は、ステップＳ２２において、ステップＳ２１にて取得したＣＮＮ２００に関する情報に基づいて、ＣＮＮ２００における各レイヤに対するライフタイムを決定する。具体的な決定方法として、例えば、ソフトウェア生成部３２５は、取得した複数の情報に基づいて、各レイヤでの演算をそれぞれ一つのノードとして、ＣＮＮ２００に対応する有向非巡回グラフを作成する。一例として、ネットワーク分割工程において分割した一つ以上の演算を一つのノードとして有向非巡回グラフを作成する。そして、それぞれのノードに対するトポロジカルオーダーを決定する。トポロジカルオーダーは、作成した有向非巡回グラフにおいて、グラフの向きを考慮し、ノードに対して入ってくる枝がないノードを任意で１つ選んで番号を付与し、当該ノードとこれにつながっている枝を除くなどの処理を繰り返すことで決定することができる。なお、本実施形態において、ソフトウェア生成部３２５が取得する複数の情報は、ニューラルネットワークモデルに関する情報に相当し、ソフトウェア生成部３２５は当該情報を解析する解析部に相当する。

【0168】

ソフトウェア生成部３２５は、さらにＮＮ実行モデル１００に対応する有向非巡回グラフにおけるトポロジカルオーダーと、ステップＳ２１にて取得したＣＮＮ２００に関する情報を用いることで、各レイヤにおける処理の開始時間及びライフタイムを決定する。そして、処理を次のステップへ移す。なお、本実施形態の処理の開始時間は必要なデータをバッファメモリ７１０上へロードまたはニューラルネットワークハードウェア６００から取得するタイミングに基づいて決定される。開始時間は絶対的なタイミングである必要ななく、ノード間の相対的な順番として規定してもよい。また、ライフタイムは処理の開始時間及び所定のデータを入力する入力タイミング（複数回入力する場合には最後に入力するタイミング）に基づいて決定される。一例として、所定のノードにおいて、Ｇ回のデータの入力が必要な場合に、データ入力に必要な単位期間をＴ_Ｇとすれば、ライフタイムはＧｘＴ_Ｇとしてとして決定できる。言い換えれば、ライフタイムはデータを入力するためのタイミングを少なくとも１以上含み、レイヤ間の演算順と演算に必要な期間から決定することが可能である。また、ライフタイム終了時間は開始時間とライフタイムの期間から決定することが可能である。

【0169】

ソフトウェア生成部３２５は、ステップＳ２３において、ステップＳ２２にて決定したＮＮ実行モデル１００の各レイヤに対するライフタイムに基づいて、グループの割り付けを行う。グループの割り付けの一例として、対象となる複数のライフタイムに対して、ライフタイムの期間が重複しないものをグループとしてまとめることで割り付けることができる。より詳細には、二つのライフタイムを任意に指定した場合、一方のライフタイム終了時間ともう一方のライフタイム開始時間との比較を行う。この場合、一方のライフタイム終了時間がもう一方のライフタイムの開始時間より早く到来すれば、この二つのライフタイムをグループ化する。この処理を全てのライフタイムに対して行う（ステップＳ２４）。この結果として、複数のグループが形成され、全てのライフタイムはいずれかのグループに割り付けられることとなる。

【0170】

ここで、ライフタイムをグループに割り付ける方法の一例として、任意に指定した二つのライフタイムにおける終了時間と開始時間に着目する。一方のライフタイム終了時間がもう一方のライフタイムの開始時間より早く到来すれば、この二つのライフタイム間に枝を張ることができる。これを全てのライフタイムに対して行った結果は閉路のない有向グラフとみなせる。言い換えれば、互いに重複しないライフタイムの集合と有向グラフ上の有向パスが一対一に対応する。したがって、ライフタイムのグループ割り付けは、有向グラフ上の互いに交わらない有向パスによって, 有向グラフの全ての頂点を覆うこと（以下、パス被覆）に対応する。そして、ライフタイムのグループ数最小のグループ分けは、有向グラフの最小パス被覆から求めることができる。

【0171】

ソフトウェア生成部３２５は、ステップＳ２５において、ステップＳ２４までに割り付けにより決定した各グループの処理順番を決定する。この決定に際しては、最も開始時間が早いレイヤを含むグループから順番に処理順番を決定すること好ましいが、これに限られるものではない。例えば、割り付けられているレイヤ数やポストプロセスの有無などで決定してもよい。そして、割り付けが終了したら、本フローチャートに関する処理を終了する。なお、本実施形態の効果として得られるメモリ使用量の低減については、主にグループ数に依存するためグループの順番に対する依存は低い。そのため、グループ間の処理順番は適宜変更することが可能である。なお、一例としてグループ数はニューラルネットワーク内での分岐数Ｒにも依存する。具体的には、本実施形態に係るライフタイムに基づくアロケーションを行うことで、グループの最大数は分岐数Ｒの２倍以内に抑えることができる。

【0172】

図２２は、ＣＮＮ２００の一例（上図）と、それが動作するエッジデバイスにおけるバッファメモリ７１０の使用に関する本実施形態に係るアロケーション例（下図）を示す図である。なお、説明の簡略化のため、ＣＮＮ２００は図２０で示したものと同じ構成を有するものとする。

【0173】

本実施形態において図２２に示すように、ソフトウェア生成部３２５は、アロケーション工程において、時間的に重複するライフタイムを考慮して複数のグループ（例えば、グループ１とグループ２）に割り付けを行い、その後バッファメモリ上でのアロケーションを行う。より詳細には、各ライフタイムを解析し、各ライフタイムの開始時間と終了時間とを比較してパス被覆問題の解としてグループ化する。一例としてデータＤ_０の終了時間はデータＤ_２の開始時間よりも前に到来するため、この二つは同一グループに割り付けられ、データＤ_０の終了時間はデータＤ_１の開始時間よりも前に到来しないため、この二つは異なるグループに割り付けられる。

【0174】

本実施形態においては、データＤ_０、データＤ_２、データＤ_４、データＤ_６をグループ１とし、データＤ_１、データＤ_３、データＤ_５、データＤ_７、データＤ_pをグループ２としてグループの割り付けが行われる。

【0175】

図２２に示すように、バッファメモリ７１０のメモリ使用量は、グループの数に依存し、図２０の従来例と比較し、大幅に低減することができる。さらに本実施形態に係るアロケーションの効果として、ライフタイムに基づくグループへの割り付けを行うことで、レイヤ数の増加に依存することなく、メモリ使用量を抑えることができる。なお、本実施形態におけるライフタイムに基づくアロケーション工程は、図２０等で示したＣＮＮ２００の形態に限らず、より多くのレイヤを備える場合や、２以上の分岐を含む場合などにも適用することができる。

【0176】

複数のレイヤを有するＣＮＮ２００に対する従来のアロケーション工程においては、どの様なアロケーションを行うかは、ニューラルネットワーク内で繰り返えされる演算の複雑性から、ヒューリスティックなアロケーションに依存していた。そのため、ニューラルネットワークに関する演算に対して、適切なアロケーションを行うことが難しく、バッファ使用量を設計時点で見積もることは困難であった。しかし、本発明における時間的に重複するライフタイムをノードとして最小パス被覆を算出することで、適切なアロケーションを多項式時間で実行することが可能となるだけでなく、バッファ使用量を設計時点で見積もることができる。

【0177】

なお、本実施形態においては、ソフトウェア生成部３２５は、分割された演算をニューラルネットワークハードウェア６００に割り当てて実施させるソフトウェア５００を生成するアロケーション工程において、レイヤを対象として割り付ける例を示したが、これに限るものではない。例えば、一つのレイヤを分割した分割データを対象としてもよい。

【0178】

なお、本実施形態においては、対象となるメモリを外部ホストＣＰＵ７００に設けられているバッファメモリ７１０としたが、これ以外のメモリをアロケーション工程の対象としてもよい。例えば、外部ホストＣＰＵ７００上に複数のメモリが設けられている場合や、外部ホストＣＰＵ７００とニューラルネットワークハードウェア６００を中継する回路にメモリが設けられている場合などにおいて当該メモリを対象としてもよい。

【0179】

以上説明したように、本実施形態に係るニューラルネットワーク生成装置３００によれば、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成および制御できる。

【0180】

以上、本発明の実施形態の一例について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

【0181】

（変形例１）
上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

【0182】

（変形例２）
例えば、上記実施形態に記載のＮＮ実行モデル１００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ実行モデル１００に入力されるデータは、ニューラルネットワークハードウェアモデル４００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

【0183】

（変形例３）
ＮＮ実行モデル１００が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

【0184】

上述した実施形態におけるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0185】

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

【産業上の利用可能性】

【0186】

本発明は、ニューラルネットワークの生成に適用することができる。

【符号の説明】

【0187】

３００ニューラルネットワーク生成装置
２００畳み込みニューラルネットワーク（ＣＮＮ）
１００ニューラルネットワーク実行モデル（ＮＮ実行モデル）
４００ニューラルネットワークハードウェアモデル
５００ソフトウェア
６００ニューラルネットワークハードウェア
１第一メモリ
２第二メモリ
３ＤＭＡコントローラ（ＤＭＡＣ）
４畳み込み演算回路
４２乗算器
４３アキュムレータ回路
５量子化演算回路
５２ベクトル演算回路
５３量子化回路
６コントローラ
６１レジスタ
ＰＭ学習済みパラメータ
ＤＳ学習データセット
ＨＷハードウェア情報
ＮＷネットワーク情報

【図1】