特開2022-170512 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＬｅａｐＭｉｎｄ株式会社の特許一覧

特開2022-170512ニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022170512

(43)【公開日】2022-11-10

(54)【発明の名称】ニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラム

(51)【国際特許分類】

G06N 3/02 20060101AFI20221102BHJP

【ＦＩ】

G06N3/02

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2021076688

(22)【出願日】2021-04-28

(71)【出願人】

【識別番号】517048278

【氏名又は名称】ＬｅａｐＭｉｎｄ株式会社

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100161506

【弁理士】

【氏名又は名称】川渕健一

(74)【代理人】

【識別番号】100139686

【弁理士】

【氏名又は名称】鈴木史朗

(74)【代理人】

【識別番号】100207789

【弁理士】

【氏名又は名称】石田良平

(72)【発明者】

【氏名】徳永拓之

(57)【要約】

【課題】ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御する。
【解決手段】ニューラルネットワーク生成装置は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、前記ニューラルネットワーク実行モデルは、入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データに変換する。
【選択図】図１４

【特許請求の範囲】

【請求項1】

ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、
前記ニューラルネットワーク実行モデルは、入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データに変換する、
ニューラルネットワーク生成装置。

【請求項2】

前記第一量子化データのビット数と前記第二量子化データのビット数とは等しく、
前記ニューラルネットワーク実行モデルは、前記第一量子化データと前記第二量子化データとが連結されたデータに対して畳み込み演算を実施する、
請求項１に記載のニューラルネットワーク生成装置。

【請求項3】

前記第一量子化手段は、第一閾値群により前記入力データを前記第一量子化データに変換し、
前記第二量子化手段は、前記第一閾値群と少なくとも一部が異なる第二閾値群により前記入力データを前記第二量子化データに変換する、
請求項１または請求項２に記載のニューラルネットワーク生成装置。

【請求項4】

前記第一閾値群および前記第二閾値群の閾値は、前記入力データの取りうる範囲に設定された有効範囲に含まれる値である、
請求項３に記載のニューラルネットワーク生成装置。

【請求項5】

前記第一閾値群および前記第二閾値群の閾値は、前記有効範囲を略均等に分割する値である、
請求項４に記載のニューラルネットワーク生成装置。

【請求項6】

前記第一閾値群の閾値と、前記第二閾値群の閾値とは、前記有効範囲において交互に配列する値である、
請求項４または請求項５に記載のニューラルネットワーク生成装置。

【請求項7】

前記第一閾値群の閾値は、略同一のステップ幅で配列する値である、
請求項３から請求項６のいずれか一項に記載のニューラルネットワーク生成装置。

【請求項8】

前記第一閾値群および前記第二閾値群の閾値は、前記入力データの分布情報に基づいて設定された値である、
請求項３または請求項４に記載のニューラルネットワーク生成装置。

【請求項9】

入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データに変換する入力変換部と、
前記第一量子化データと前記第二量子化データとが連結されたデータを入力とする畳み込み演算回路と、
を備える、
ニューラルネットワーク演算装置。

【請求項10】

前記第一量子化手段は、第一閾値群により前記入力データを前記第一量子化データに変換し、
前記第二量子化手段は、前記第一閾値群と少なくとも一部が異なる第二閾値群により前記入力データを前記第二量子化データに変換する
請求項９に記載のニューラルネットワーク演算装置。

【請求項11】

前記第一閾値群および前記第二閾値群の閾値は、前記入力データの取りうる範囲に設定された有効範囲に含まれる値であり、
前記第一閾値群および前記第二閾値群の閾値は、前記有効範囲を略均等に分割する値である、
請求項１０に記載のニューラルネットワーク演算装置。

【請求項12】

請求項９から請求項１１のいずれか1項に記載のニューラルネットワーク演算装置と、
前記ニューラルネットワーク演算装置を動作させる電源と、
を備える
エッジデバイス。

【請求項13】

ニューラルネットワークを演算するニューラルネットワークハードウェアを制御する方法であって、
入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データに変換する変換ステップと、
前記第一量子化データと前記第二量子化データに対して畳み込み演算を実施する演算ステップと、
を備える、
ニューラルネットワーク制御方法。

【請求項14】

前記変換ステップは、前記ニューラルネットワークハードウェア以外の装置によって事前処置される、
請求項１３に記載のニューラルネットワーク制御方法。

【請求項15】

ニューラルネットワークを演算するニューラルネットワークハードウェアを制御するソフトウェアを生成するプログラムであって、
入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データに変換する変換ステップと、
前記第一量子化データと前記第二量子化データに対して畳み込み演算を実施させる演算ステップと
を備える前記ソフトウェアを生成する、
ソフトウェア生成プログラム。

【請求項16】

ニューラルネットワークを演算するニューラルネットワークハードウェアを制御するソフトウェアを生成するプログラムであって、
入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データを用いて、畳み込み演算を実施させる演算ステップを備える前記ソフトウェアを生成する、
ソフトウェア生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラムに関する。

【背景技術】

【0002】

近年、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－０７７８２９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等が使用されている。組み込み機器において畳み込みニューラルネットワークを効率的に動作させるため、組み込み機器のハードウェア構成に合わせたニューラルネットワークに係る演算を行う回路やモデルを生成することが望まれている。また、これらの回路やモデルを高効率かつ高速に動作させる制御方法が望まれている。また、これらの回路やモデルを高効率かつ高速に動作させるソフトウェアを生成するソフトウェア生成プログラムが望まれている。

【0005】

上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行う回路やモデルを生成するニューラルネットワーク生成装置、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行うニューラルネットワーク演算装置、ニューラルネットワーク演算装置を含むエッジデバイス、ニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるニューラルネットワーク制御方法およびニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるソフトウェアを生成するソフトウェア生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク生成装置は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、前記ニューラルネットワーク実行モデルは、入力データを第一量子化手段により量子化した第一量子化データと、前記入力データを前記第一量子化手段と異なる第二量子化手段により量子化した第二量子化データに変換する。

【発明の効果】

【0007】

本発明のニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラムは、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御できる。

【図面の簡単な説明】

【0008】

【図1】第一実施形態に係るニューラルネットワーク生成装置を示す図である。

【図2】同ニューラルネットワーク生成装置の演算部の入出力を示す図である。

【図3】畳み込みニューラルネットワークの一例を示す図である。

【図4】同畳み込みニューラルネットワークの畳み込み層が行う畳み込み演算を説明する図である。

【図5】ニューラルネットワーク実行モデルの一例を示す図である。

【図6】同ニューラルネットワーク実行モデルの動作例を示すタイミングチャートである。

【図7】同ニューラルネットワーク生成装置の制御フローチャートである。

【図8】生成される畳み込み演算回路の内部ブロック図である。

【図9】同畳み込み演算回路の乗算器の内部ブロック図である。

【図10】同乗算器の積和演算ユニットの内部ブロック図である。

【図11】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。

【図12】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。

【図13】同畳み込み演算回路の制御回路のステート遷移図である。

【図14】同畳み込み演算回路の入力変換部のブロック図である。

【図15】第一閾値群および第二閾値群の例を示す図である。

【図16】同入力変換部から出力されるデータを示す図である。

【図17】同第一閾値群および同第二閾値群の他の例を示す図である。

【図18】同第一閾値群および同第二閾値群の他の例を示す図である。

【図19】同第一閾値群および同第二閾値群の他の例を示す図である。

【図20】同入力変換部の変形例のブロック図である。

【図21】同変形例における第一閾値群、第二閾値群および第三閾値群の例を示す図である。

【図22】同畳み込み演算のデータ分割やデータ展開を説明する図である。

【発明を実施するための形態】

【0009】

（第一実施形態）
本発明の第一実施形態について、図１から図２２を参照して説明する。
図１は、本実施形態に係るニューラルネットワーク生成装置３００を示す図である。

【0010】

［ニューラルネットワーク生成装置３００］
ニューラルネットワーク生成装置３００は、ＩｏＴ機器などの組み込み機器に組み込み可能な学習済みのニューラルネットワーク実行モデル１００を生成する装置である。ニューラルネットワーク実行モデル１００は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を組み込み機器において演算させるために生成されたソフトウェアやハードウェアモデルである。

【0011】

ニューラルネットワーク生成装置３００は、ＣＰＵ（Central Processing Unit）等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置（コンピュータ）である。ニューラルネットワーク生成装置３００の機能は、ニューラルネットワーク生成装置３００においてニューラルネットワーク生成プログラムおよびソフトウェア生成プログラムを実行することにより実現される。ニューラルネットワーク生成装置３００は、記憶部３１０と、演算部３２０と、データ入力部３３０と、データ出力部３４０と、表示部３５０と、操作入力部３６０と、を備える。

【0012】

記憶部３１０は、ハードウェア情報ＨＷと、ネットワーク情報ＮＷと、学習データセットＤＳと、ニューラルネットワーク実行モデル１００（以下、「ＮＮ実行モデル１００」という）と、学習済みパラメータＰＭと、を記憶する。ハードウェア情報ＨＷ、学習データセットＤＳおよびネットワーク情報ＮＷは、ニューラルネットワーク生成装置３００に入力される入力データである。ＮＮ実行モデル１００および学習済みパラメータＰＭは、ニューラルネットワーク生成装置３００が出力する出力データである。なお、「学習済みのＮＮ実行モデル１００」は、ＮＮ実行モデル１００および学習済みパラメータＰＭを含む。

【0013】

ハードウェア情報ＨＷは、ＮＮ実行モデル１００を動作させる組み込み機器（以降、「動作対象ハードウェア」という）の情報である。ハードウェア情報ＨＷは、例えば、動作対象ハードウェアのデバイス種別、デバイス制約、メモリ構成、バス構成、動作周波数、消費電力、製造プロセス種別などである。デバイス種別は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などの種別である。デバイス制約は、動作対象デバイスに含まれる演算器数の上限や回路規模の上限などである。メモリ構成は、メモリ種別やメモリ個数やメモリ容量や入出力データ幅である。バス構成は、バス種類、バス幅、バス通信規格、同一バス上の接続デバイスなどである。また、ＮＮ実行モデル１００に複数のバリエーションが存在する場合、ハードウェア情報ＨＷには使用するＮＮ実行モデル１００のバリエーションに関する情報が含まれる。

【0014】

ネットワーク情報ＮＷは、ＣＮＮ２００の基本情報である。ネットワーク情報ＮＷは、例えば、ＣＮＮ２００のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。

【0015】

学習データセットＤＳは、学習に用いる学習データＤ１と、推論テストに用いるテストデータＤ２と、を有する。

【0016】

図２は、演算部３２０の入出力を示す図である。
演算部３２０は、実行モデル生成部３２１と、学習部３２２と、推論部３２３と、ハードウェア生成部３２４と、ソフトウェア生成部３２５と、を有する。演算部３２０に入力されるＮＮ実行モデル１００は、ニューラルネットワーク生成装置３００以外の装置で生成されたものであってもよい。

【0017】

実行モデル生成部３２１は、ハードウェア情報ＨＷおよびネットワーク情報ＮＷに基づいてＮＮ実行モデル１００を生成する。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0018】

学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。推論部３２３は、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。

【0019】

ハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。ニューラルネットワークハードウェアモデル４００は、動作対象ハードウェアに実装可能なハードウェアモデルである。ニューラルネットワークハードウェアモデル４００は、ハードウェア情報ＨＷに基づいて、動作対象ハードウェアに最適化されている。ニューラルネットワークハードウェアモデル４００は、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。ニューラルネットワークハードウェアモデル４００は、ＮＮ実行モデル１００をハードウェアに実装するために必要なパラメータリストやコンフィグレーションファイルであってもよい。パラメータリストやコンフィグレーションファイルは別途生成されたＮＮ実行モデル１００と組み合わせて使用される。

【0020】

以降の説明において、ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したものを、「ニューラルネットワークハードウェア６００」という。

【0021】

ソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００に基づいて、ニューラルネットワークハードウェア６００を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。

【0022】

データ入力部３３０には、学習済みのＮＮ実行モデル１００を生成するために必要なハードウェア情報ＨＷやネットワーク情報ＮＷ等が入力される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報ＨＷやネットワーク情報ＮＷ等は、記憶部３１０に記憶される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、操作入力部３６０から使用者により入力または変更されてもよい。

【0023】

データ出力部３４０には、生成された学習済みのＮＮ実行モデル１００が出力される。例えば、生成されたＮＮ実行モデル１００と、学習済みパラメータＰＭとがデータ出力部３４０に出力される。

【0024】

表示部３５０は、ＬＣＤディスプレイ等の公知のモニタを有する。表示部３５０は、演算部３２０が生成したＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部３２０が使用者からの情報入力を必要とする場合、表示部３５０は操作入力部３６０から情報を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示できる。

【0025】

操作入力部３６０は、使用者が演算部３２０等に対しての指示を入力する装置である。操作入力部３６０は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部３６０の入力は、演算部３２０に送信される。

【0026】

演算部３２０の機能の全部または一部は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）のような１つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部３２０の機能の全部または一部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等のハードウェア（例えば回路部；circuity）により実現されてもよい。また、演算部３２０の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

【0027】

演算部３２０の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたＣＰＵやＧＰＵやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部３２０は、例えばクラウドサーバ上の演算性能が高いＧＰＵや専用ハードウェアを併用することで、演算部３２０の演算速度を向上させることができる。

【0028】

記憶部３１０は、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read-Only Memory）、またＲＡＭ（Random Access Memory）等により実現される。記憶部３１０の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部３２０等と接続させてもよい。

【0029】

［畳み込みニューラルネットワーク（ＣＮＮ）２００］
次に、ＣＮＮ２００について説明する。図３は、ＣＮＮ２００の一例を示す図である。ＣＮＮ２００のネットワーク情報ＮＷは、以下で説明するＣＮＮ２００の構成に関する情報である。ＣＮＮ２００は、低ビットの重みｗや量子化された入力データａを用いており、組み込み機器に組み込みやすい。

【0030】

ＣＮＮ２００は、入力層２０５と、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

【0031】

入力層２０５は、ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、型変換や量子化やデータ分割やデータ整形等のデータ変換を行う。以降の説明において、ＣＮＮ２００に入力される入力データであって、畳み込み層２１０への入力データａと形式が異なる入力データを「入力データｂ」という。入力層２０５は、入力データｂを入力データａに変換する。

【0032】

図４は、畳み込み層２１０が行う畳み込み演算を説明する図である。
畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

【0033】

畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

【0034】

畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0035】

畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図４において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

【0036】

【数1】

【0037】

量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

【0038】

プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

【0039】

【数2】

【0040】

【数3】

【0041】

ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

【0042】

【数4】

【0043】

活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

【0044】

【数5】

【0045】

量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等号「≦」は「＜」であってもよい。

【0046】

【数6】

【0047】

出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

【0048】

ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

【0049】

［ニューラルネットワーク実行モデル１００（ＮＮ実行モデル）１００］
次に、ＮＮ実行モデル１００について説明する。図５は、ＮＮ実行モデル１００の一例を示す図である。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0050】

ＮＮ実行モデル１００は、第一メモリ１と、第二メモリ２と、ＤＭＡコントローラ３（以下、「ＤＭＡＣ３」ともいう）と、畳み込み演算回路４と、量子化演算回路５と、コントローラ６と、を備える。ＮＮ実行モデル１００は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

【0051】

第一メモリ１は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートと接続されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。外部プロセッサＥＰは、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

【0052】

第二メモリ２は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。外部プロセッサＥＰは、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

【0053】

ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリＥＭと第一メモリ１との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリＥＭと第二メモリ２との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリＥＭと畳み込み演算回路４との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリＥＭと量子化演算回路５との間のデータ転送を行う。

【0054】

畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

【0055】

量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を行う。量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）оｕｔを第一メモリ１に書き込む。

【0056】

コントローラ６は、外部バスＥＢに接続されており、外部プロセッサＥＰのスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ実行モデル１００の動作を制御するレジスタである。状態レジスタはセマフォＳを含むＮＮ実行モデル１００の状態を示すレジスタである。外部プロセッサＥＰは、コントローラ６を経由して、レジスタ６１にアクセスできる。

【0057】

コントローラ６は、内部バスＩＢを介して、第一メモリ１と、第二メモリ２と、ＤＭＡＣ３と、畳み込み演算回路４と、量子化演算回路５と、接続されている。外部プロセッサＥＰは、コントローラ６を経由して、各ブロックに対してアクセスできる。例えば、外部プロセッサＥＰは、コントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する命令を指示することができる。また、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５は、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含む）を更新できる。状態レジスタ（セマフォＳを含む）は、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５と接続された専用配線を介して更新されるように構成されていてもよい。

【0058】

ＮＮ実行モデル１００は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリＥＭからのＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。

【0059】

図６は、ＮＮ実行モデル１００の動作例を示すタイミングチャートである。ＮＮ実行モデル１００は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ実行モデル１００は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。以下、図６に示すニューラルネットワークハードウェア６００の動作例を説明する。

【0060】

ＤＭＡＣ３は、レイヤ１（図３参照）の入力データａを第一メモリ１に格納する。ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

【0061】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１（図３参照）の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対してレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0062】

量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データоｕｔは、第一メモリ１に格納される。

【0063】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データоｕｔを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0064】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0065】

量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データоｕｔは、第一メモリ１に格納される。

【0066】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0067】

畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図３に示すＣＮＮ２００の演算を進めていく。ＮＮ実行モデル１００は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１とレイヤ２Ｍ＋１の畳み込み演算を実施する。また、ＮＮ実行モデル１００は、量子化演算回路５が時分割によりレイヤ２Ｍ－２とレイヤ２Ｍの量子化演算を実施する。そのため、ＮＮ実行モデル１００は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

【0068】

［ニューラルネットワーク生成装置３００の動作］
次に、ニューラルネットワーク生成装置３００の動作（ニューラルネットワーク制御方法）を、図７に示すニューラルネットワーク生成装置３００の制御フローチャートに沿って説明する。ニューラルネットワーク生成装置３００は初期化処理（ステップＳ１０）を実施した後、ステップＳ１１を実行する。

【0069】

＜ハードウェア情報取得工程（Ｓ１１）＞
ステップＳ１１において、ニューラルネットワーク生成装置３００は、動作対象ハードウェアのハードウェア情報ＨＷを取得する（ハードウェア情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたハードウェア情報ＨＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にハードウェア情報ＨＷの入力に必要なＧＵＩ画像を表示させ、使用者にハードウェア情報ＨＷを操作入力部３６０から入力させることでハードウェア情報ＨＷを取得してもよい。

【0070】

ハードウェア情報ＨＷは、具体的には、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ種別やメモリ容量や入出力データ幅を有する。

【0071】

取得されたハードウェア情報ＨＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１２を実行する。

【0072】

＜ネットワーク情報取得工程（Ｓ１２）＞
ステップＳ１２において、ニューラルネットワーク生成装置３００は、ＣＮＮ２００のネットワーク情報ＮＷを取得する（ネットワーク情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたネットワーク情報ＮＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にネットワーク情報ＮＷの入力に必要なＧＵＩ画像を表示させ、使用者にネットワーク情報ＮＷを操作入力部３６０から入力させることでネットワーク情報ＮＷを取得してもよい。

【0073】

ネットワーク情報ＮＷは、具体的には、入力層２０５や出力層２３０を含むネットワーク構成と、重みｗや入力データａのビット幅を含む畳み込み層２１０の構成と、量子化情報を含む量子化演算層２２０の構成と、を有する。

【0074】

取得されたネットワーク情報ＮＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１３を実行する。

【0075】

＜ニューラルネットワーク実行モデル生成工程（Ｓ１３）＞
ステップＳ１３において、ニューラルネットワーク生成装置３００の実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００を生成する（ニューラルネットワーク実行モデル生成工程）。

【0076】

ニューラルネットワーク実行モデル生成工程（ＮＮ実行モデル生成工程）は、例えば、畳み込み演算回路生成工程（Ｓ１３－１）と、量子化演算回路生成工程（Ｓ１３－２）と、ＤＭＡＣ生成工程（Ｓ１３－３）と、を有する。

【0077】

＜畳み込み演算回路生成工程（Ｓ１３－１）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の畳み込み演算回路４を生成する（畳み込み演算回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される畳み込み演算回路４のハードウェアモデルの一例を説明する。

【0078】

図８は、生成される畳み込み演算回路４の内部ブロック図である。
畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、入力変換部４９と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

【0079】

重みメモリ４１は、畳み込み演算に用いる重みｗが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みｗを重みメモリ４１に書き込む。

【0080】

図９は、乗算器４２の内部ブロック図である。
乗算器４２は、入力データａの各要素と重みｗの各要素とを乗算する。入力データａの各要素は、入力データａが分割されたデータであり、Ｂｃ個の要素を持つベクトルデータである（例えば、後述する「入力ベクトルＡ」）。また、重みｗの各要素は、重みｗが分割されたデータであり、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータである（例えば、後述する「重みマトリクスＷ」）。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとの乗算を並列して実施できる。

【0081】

乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

【0082】

図１０は、積和演算ユニット４７の内部ブロック図である。
積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。ｃｉは０から(Ｂｃ－１)までのインデックスである。ｄｉは０から(Ｂｄ－１)までのインデックスである。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0083】

積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

【0084】

図１１は、アキュムレータ回路４３の内部ブロック図である。
アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

【0085】

図１２は、アキュムレータユニット４８の内部ブロック図である。
アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

【0086】

加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

【0087】

乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリに、Ｂｄ個の要素を持つ出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

【0088】

ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

【0089】

命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

【0090】

制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

【0091】

図１３は、制御回路４６のステート遷移図である。
制御回路４６は、命令キュー４５に命令コマンドＣ４が入力されると（Ｎｏｔｅｍｐｔｙ）、アイドルステートＳ１からデコードステートＳ２に遷移する。

【0092】

制御回路４６は、デコードステートＳ２において、命令キュー４５から出力される命令コマンドＣ３をデコードする。また、制御回路４６は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ４において指示された乗算器４２やアキュムレータ回路４３の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔｒｅａｄｙ）、制御回路４６は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路４６はデコードステートＳ２から実行ステートＳ３に遷移する。

【0093】

制御回路４６は、実行ステートＳ３において、乗算器４２やアキュムレータ回路４３を制御して、乗算器４２やアキュムレータ回路４３に命令コマンドＣ４において指示された動作を実施させる。制御回路３４は、乗算器４２やアキュムレータ回路４３の動作が終わると、命令キュー４５から実行を終えた命令コマンドＣ４を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路４６は、命令キュー４５に命令がある場合（Ｎｏｔｅｍｐｔｙ）、実行ステートＳ３からデコードステートＳ２に遷移する。制御回路４６は、命令キュー４５に命令がない場合（ｅｍｐｔｙ）、実行ステートＳ３からアイドルステートＳ１に遷移する。

【0094】

実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を決定する。ハードウェア情報ＨＷとして生成するＮＮ実行モデル１００（ニューラルネットワークハードウェアモデル４００、ニューラルネットワークハードウェア６００）のハードウェア規模が含まれる場合、実行モデル生成部３２１は、指定された規模にあわせて畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を調整する。

【0095】

［入力変換部４９］
図１４は、入力変換部４９のブロック図である。
入力変換部４９は、入力データａの要素より多ビット（例えば８ビット以上）の要素を含む入力データｂを入力データａに変換する。入力変換部４９は、ＣＮＮ２００の畳み込み層２１０の前に連結された入力層２０５の少なくとも一部に相当する。入力変換部４９は、第一変換部４９１と、第二変換部４９２と、閾値メモリ４９５と、を有する。

【0096】

なお、入力変換部４９は、必ずしもハードウェアとして実装されるものでなくてもよい。後述するソフトウェア生成工程（Ｓ１７）において事前処理として入力データｂの変換処理を行ってもよい。

【0097】

ここで、入力変換部４９の説明においては、説明を簡略化するために入力データｂがｃ軸方向の要素数が１である画像データ（すなわちｘｙ平面における２次元画像）であるとする。また、画像データは、ｘ軸方向およびｙ軸方向の各要素が８ビット（０－２５５）である行列データ構造を備えるとする。入力データｂは、入力変換部４９により、畳み込み演算回路に入力可能な入力データａに変換される。

【0098】

第一変換部４９１は、第一閾値群（第一閾値グループ）ＴＧ１を用いて入力データｂを第一量子化データａ１に変換する。第一閾値群ＴＧ１は１個以上の閾値であり、閾値は入力データｂの取りうる範囲（０－２５５）における所定の値である。第一変換部４９１は、式６と同様の方法で入力データｂと第一閾値群ＴＧ１とを比較し、比較結果をエンコードすることにより、入力データｂを第一量子化データａ１に変換する（第一量子化手段）。

【0099】

本実施形態において、第一閾値群ＴＧ１は３個の閾値である。第一変換部４９１は、要素が８ビットである入力データｂを、要素が２ビットである第一量子化データａ１に量子化する。

【0100】

第二変換部４９２は、第二閾値群（第二閾値グループ）ＴＧ２を用いて入力データｂを第二量子化データａ２に変換する。第二閾値群ＴＧ２は１個以上の閾値であり、閾値は入力データｂの取りうる範囲（０－２５５）における所定の値である。第二変換部４９２は、式６と同様の方法で入力データｂと第二閾値群ＴＧ２とを比較し、比較結果をエンコードすることにより、入力データｂを第二量子化データａ２に変換する（第二量子化手段）。

【0101】

本実施形態において、第二閾値群ＴＧ２は３個の閾値である。第二変換部４９２は、要素が８ビットである入力データｂを、要素が２ビットである第二量子化データａ２に量子化する。

【0102】

すなわち、入力変換部４９は、異なる二種類の閾値群（第一閾値群ＴＧ１と第二閾値群ＴＧ２）に基づいて、入力データｂを二種類の量子化データ（第一量子化データａ１と第二量子化データａ２）に変換する。

【0103】

閾値メモリ４９５は、第一変換部４９１での演算に用いる第一閾値群ＴＧ１と、第二変換部４９２での演算に用いる第二閾値群ＴＧ２と、を記憶するメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。例えば、ＤＭＡＣ３は、ＤＭＡ転送により、第一閾値群ＴＧ１と第二閾値群ＴＧ２を閾値メモリ４９５に書き込む。

【0104】

第二閾値群ＴＧ２は、第一閾値群ＴＧ１と異なる閾値群である。第二閾値群ＴＧ２は、第一閾値群ＴＧ１と比較して、少なくとも一部の閾値が異なっている。本実施形態においては、第二閾値群ＴＧ２は、第一閾値群ＴＧ１と比較して、全ての閾値が異なっている。

【0105】

図１５は、第一閾値群ＴＧ１および第二閾値群ＴＧ２の例を示す図である。
第一閾値群ＴＧ１は、閾値３６．４、閾値１０９．３、および閾値１８２．１である。第二閾値群ＴＧ２は、閾値７２．８、閾値１４５．７、および閾値２１８．６である。第二閾値群ＴＧ２の閾値の平均値は、第一閾値群ＴＧ１の閾値の平均値より大きい。なお、これらの閾値は、四捨五入等で丸められた整数であってもよい。

【0106】

第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）を、７個の領域に略等分に分割する。第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、同一のステップ幅（約３６．４（≒２５５／７））で配列している。第一閾値群ＴＧ１に含まれる閾値と、第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において、交互に配列している。なお、第一閾値群ＴＧ１に含まれる閾値と第二閾値群ＴＧ２に含まれる閾値は、少なくとも一部の閾値のみが交互に配列されていてもよい。

【0107】

図１６は、入力変換部４９から出力されるデータ（入力データａ）を示す図である。
入力変換部４９は、第一量子化データａ１と第二量子化データａ２とをｃ軸方向に並べて連結して、入力データａとして出力する。乗算器４２は、入力変換部４９から出力される入力データａに対して畳み込み演算を実施する。

【0108】

入力データｂのｃ軸方向の要素数が２以上である場合、入力変換部４９は、例えばｃ軸方向の要素ごとに上記と同様の変換を行う。この場合、入力データａのｃ軸方向の要素数は、入力データｂのｃ軸方向の要素数の２倍になる。一例として、入力データｂのc軸方向の要素として色成分であるＲＧＢの３要素を含む場合、入力データａのｃ軸方向の要素数は２倍の６となる。なお、入力変換部４９は、例えばＲＧＢの３要素のうちの１要素（例えばＧ）に対応する入力データａのｃ軸方向の要素数のみを選択的に増やすように変換してもよい。

【0109】

畳み込み演算回路４は、量子化された入力データａを畳み込み演算の入力とするため、乗算器４２等の構成を小規模化できる。一方、入力データｂが入力データａに量子化されることにより、入力データａの精度（画像データの場合、階調数）が低下する。しかしながら、畳み込み演算回路４は、異なる二種類の閾値群（第一閾値群ＴＧ１と第二閾値群ＴＧ２）に基づいて、入力データｂを二種類の量子化データ（第一量子化データａ１と第二量子化データａ２）に変換して、二種類の量子化データをｃ軸方向に連結する。そのため、畳み込み演算回路４は、小規模化された乗算器４２等の構成を維持しつつ、量子化に伴う入力データａの精度低下の影響を低減できる。

【0110】

畳み込み演算回路４に入力される入力データａにおけるｃ軸方向の要素数が小さい場合、畳み込み演算回路４において並列化（マルチチャンネル化）されたハードウェアリソース（例えば畳み込み演算回路４の乗算器４２）を有効に活用できない場合がある。畳み込み演算回路４は、上記の方法により二種類の量子化データをｃ軸方向に並べて連結することにより、ｃ軸方向の要素数を増やし、並列化（マルチチャンネル化）されたハードウェアリソースを有効に活用して高速化を図れる。

【0111】

図１５に示す第一閾値群ＴＧ１に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において略同一のステップ幅で配列している。図１５に示す第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において略同一のステップ幅で配列している。その結果、入力データｂの特徴に関わらず、上述した入力データａの精度低下の影響が低減される。また、量子化に伴う入力データａの精度の低下の影響は、第一閾値群ＴＧ１に含まれる閾値と第二閾値群ＴＧ２に含まれる閾値とを互い違いに補間的に設定することより低減される。

【0112】

図１５に示す第一閾値群ＴＧ１に含まれる閾値と、第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において、交互に配列している。そのため、第一閾値群ＴＧ１と第二閾値群ＴＧ２はいずれも、入力データｂの取りうる範囲（０－２５５）を比較的均等に分割する。その結果、二種類の量子化データ（第一量子化データａ１と第二量子化データａ２）は、入力データｂ本来の特徴を継承しやすく、畳み込み演算において特徴量を抽出しやすい。

【0113】

なお、本実施形態は、入力変換部４９における量子化手段として式６で示すような閾値を用いる手法を例示したが、量子化手段はこれに限定されない。量子化手段は、例えば複数のルックアップテーブルを用いて行ってもよい。

【0114】

図１７は、第一閾値群ＴＧ１および第二閾値群ＴＧ２の他の例を示す図である。
図１７に示す第一閾値群ＴＧ１は、閾値３６．４、閾値７２．８、および閾値１０９．３である。図１７に示す第二閾値群ＴＧ２は、閾値１４５．７、閾値１８２．１、および閾値２１８．６である。なお、これらの閾値は、四捨五入等で丸められた整数であってもよい。

【0115】

図１７に示す例においても、第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）を、７個の領域に略等分に分割する。そのため、図１５に示す閾値群による量子化と同様に、入力データａの精度低下の影響が低減される。

【0116】

図１７に示す第一閾値群ＴＧ１の３個の閾値は、最大値２５５よりも最小値０に近い。そのため、第一閾値群ＴＧ１に基づいて変換された第一量子化データａ１は、入力データｂの取りうる範囲（０－２５５）において最小値０に近い領域のデータの特徴を継承しやすい。

【0117】

図１７に示す第二閾値群ＴＧ２の３個の閾値は、最小値０よりも最大値２５５に近い。そのため、第二閾値群ＴＧ２に基づいて変換された第二量子化データａ２は、入力データｂの取りうる範囲（０－２５５）において最大値２５５に近い領域のデータの特徴を継承しやすい。

【0118】

図１８は、第一閾値群ＴＧ１および第二閾値群ＴＧ２の他の例を示す図である。
図１８に示す第一閾値群ＴＧ１は、閾値３６．４、閾値７２．８、および閾値１４５．７である。図１８に示す第二閾値群ＴＧ２は閾値１０９．３、閾値１８２．１、および閾値２１８．６である。なお、これらの閾値は、四捨五入等で丸められた整数であってもよい。

【0119】

図１８に示す例においても、第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）を、７個の領域に略等分に分割する。そのため、図１５に示す閾値群による量子化と同様に、入力データａの精度低下の影響が低減される。また、量子化に伴う入力データａの精度の低下の影響は、第一閾値群ＴＧ１に含まれる閾値と第二閾値群ＴＧ２に含まれる閾値とを互い違いに補間的に設定することより低減されている。言い換えれば、第一閾値群ＴＧ１に含まれる各閾値の平均値と第二閾値群ＴＧ２に含まれる各閾値の平均値とが異なるように設定することで、それぞれの閾値を互い違いに補間的に設定することを可能としている。

【0120】

なお、第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）を略等分に分割しなくてもよい。入力変換部４９は、例えば、入力データｂのヒストグラム等から得たデータの分布情報に基づいて、第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値を設定してもよい。例えば、データ変換後の量子化データ（第一量子化データａ１と第二量子化データａ２）に偏りがなくなる様に閾値群を設定すれば、入力データａの精度低下の影響が低減されやすい。

【0121】

図１９は、第一閾値群ＴＧ１および第二閾値群ＴＧ２の他の例を示す図である。
第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）の全域に分布していなくてもよい。入力変換部４９は、図１９に示すように、入力データｂの取りうる範囲（０－２５５）において最小値および最大値を設定して、閾値を分布させる有効範囲ＶＲを設定してもよい。入力変換部４９は、例えば、入力データｂのヒストグラム等から得たデータの分布情報に基づいて、データが多く分布する領域を、閾値を分布させる有効範囲ＶＲとして設定してもよい。データ変化（画像データの場合、階調変化）が多い範囲を有効範囲ＶＲと設定することで、データ変換後の量子化データ（第一量子化データａ１と第二量子化データａ２）が入力データｂの特徴を継承しやすい。

【0122】

入力変換部４９は、入力データｂがカメラから取得した画像データである場合、パターンノイズなどのノイズが含まれる領域を有効範囲ＶＲから除いてもよい。入力データｂに含まれるノイズの影響が排除され、かつ、入力データａの精度低下の影響が低減される。また、画像データにおける黒レベルを０よりも大きい値に設定する場合、入力変換部４９は黒レベル以下の領域を有効範囲ＶＲから除いてもよい。さらに、画像データに対してデジタルゲインを乗算する演算などの追加演算を行う場合、入力変換部４９は追加演算により階調が失われる領域を有効範囲ＶＲから予め除いてもよい。一例として、追加演算で２倍のデジタルゲインを乗算する場合、入力変換部４９は入力データｂの有効な範囲を前半領域（０－１２７）として後半領域（１２８－２５５）を有効範囲ＶＲから除いてもよい。なお、有効範囲ＶＲは、分割された領域であってもよい。

【0123】

なお、有効範囲ＶＲは、入力データｂの取りうる範囲（０－２５５）と同じであってもよい。

【0124】

なお、第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、２のべき乗であってもよい。入力変換部４９において、閾値と入力データｂとの比較やデータ変換に必要な回路の規模が低減される。

【0125】

［入力変換部４９の変形例］
図２０は、入力変換部４９の変形例である入力変換部４９Ｂのブロック図である。
入力変換部４９Ｂは、入力データａの要素より多ビット（例えば８ビット以上）の要素を含む入力データｂを入力データａに変換する。入力変換部４９Ｂは、ＣＮＮ２００の畳み込み層２１０の前に連結された入力層２０５の少なくとも一部に相当する。入力変換部４９Ｂは、第一変換部４９１と、第二変換部４９２と、第三変換部４９３と、閾値メモリ４９５と、を有する。

【0126】

第三変換部４９３は、第三閾値群（第三閾値グループ）ＴＧ３を用いて入力データｂを第三量子化データａ３に変換する。第三閾値群ＴＧ３は１個以上の閾値であり、閾値は入力データｂの取りうる範囲（０－２５５）における所定の値である。第三変換部４９３は、式６と同様の方法で入力データｂと第三閾値群ＴＧ３とを比較し、比較結果をエンコードすることにより、入力データｂを第三量子化データａ３に変換する（第三量子化手段）。

【0127】

本実施形態において、第三閾値群ＴＧ３は３個の閾値である。第三変換部４９３は、要素が８ビットである入力データｂを、要素が２ビットである第三量子化データａ３に量子化する。

【0128】

すなわち、入力変換部４Ｂは、異なる三種類の閾値群（第一閾値群ＴＧ１と第二閾値群ＴＧ２と第三閾値群ＴＧ３）に基づいて、入力データｂを三種類の量子化データ（第一量子化データａ１と第二量子化データａ２と第三量子化データａ３）に変換する。

【0129】

閾値メモリ４９５は、第一変換部４９１での演算に用いる第一閾値群ＴＧ１と、第二変換部４９２での演算に用いる第二閾値群ＴＧ２と、に加えて第三閾値群ＴＧ３を記憶する。

【0130】

第三閾値群ＴＧ３は、第一閾値群ＴＧ１と異なる閾値群であり、第二閾値群ＴＧ２と異なる閾値群である。本実施形態においては、第三閾値群ＴＧ３は、第一閾値群ＴＧ１および第二閾値群ＴＧ２と比較して、全ての閾値が異なっている。

【0131】

図２１は、第一閾値群ＴＧ１、第二閾値群ＴＧ２および第三閾値群ＴＧ３の例を示す図である。第一閾値群ＴＧ１は、閾値２５．５、閾値１０２．０、および閾値１７８．５である。第二閾値群ＴＧ２は、閾値５１．０、閾値１２７．５、および閾値２０４．５である。第三閾値群ＴＧ３は、閾値７６．５、閾値１５３．０、および閾値２２９．５である。なお、これらの閾値は、四捨五入等で丸められた整数であってもよい。

【0132】

第一閾値群ＴＧ１、第二閾値群ＴＧ２および第三閾値群ＴＧ３に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）を、１０個の領域に略等分に分割する。第一閾値群ＴＧ１および第二閾値群ＴＧ２に含まれる閾値は、同一のステップ幅（２５．５．（＝２５５／１０））で配列している。

【0133】

入力変換部４９Ｂは、第一量子化データａ１と第二量子化データａ２と第三量子化データａ３とをｃ軸方向に並べて連結して、入力データａとして出力する。乗算器４２は、入力変換部４９から出力される入力データａに対して畳み込み演算を実施する。

【0134】

図２１に示す第一閾値群ＴＧ１に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において略同一のステップ幅で配列している。図２１に示す第二閾値群ＴＧ２に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において略同一のステップ幅で配列している。図２１に示す第三閾値群ＴＧ３に含まれる閾値は、入力データｂの取りうる範囲（０－２５５）において略同一のステップ幅で配列している。その結果、入力データｂの特徴に関わらず、上述した入力データａの精度低下の影響が低減される。

【0135】

入力変換部４９Ｂを含む畳み込み演算回路４は、小規模化された乗算器４２等の構成を維持しつつ、量子化に伴う入力データａの精度低下の影響を低減できる。

【0136】

なお、入力変換部４９Ｂは、異なる四種類以上の閾値群に基づいて、入力データｂを四種類以上の量子化データに変換してもよい。異なるＮ種類の閾値群に基づいて量子化データに変換する場合、Ｎ種類の閾値群に含まれる閾値のステップ幅ｓｔｅｐは、例えば、式７により算出できる。ここで、min_valは入力データｂの取りうる範囲の下限で、max_valは入力データｂの取りうる範囲の上限であり、ｋは、入力データａのビット数である。なお、min_valおよびmax_valは、有効範囲ＶＲの下限および上限と合わせてもよい。

【0137】

【数7】

【0138】

＜量子化演算回路生成工程（Ｓ１３－２）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の量子化演算回路５を生成する（量子化演算回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化演算回路５のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0139】

＜ＤＭＡＣ生成工程（Ｓ１３－３）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００のＤＭＡＣ３を生成する（ＤＭＡＣ生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0140】

＜学習工程（Ｓ１４）＞
ステップＳ１４において、ニューラルネットワーク生成装置３００の学習部３２２および推論部３２３は、学習データセットＤＳを用いて、生成されたＮＮ実行モデル１００の学習パラメータを学習する（学習工程）。学習工程（Ｓ１４）は、例えば、学習済みパラメータ生成工程（Ｓ１４－１）と、推論テスト工程（Ｓ１４－２）と、を有する。

【0141】

＜学習工程：学習済みパラメータ生成工程（Ｓ１４－１）＞
学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。学習済みパラメータＰＭは、学習済みの重みｗ、量子化パラメータｑおよび入力変換部４９の閾値群（第一閾値群ＴＧ１および第二閾値群ＴＧ２）である。

【0142】

例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、学習データＤ１は入力画像と教師データＴとの組み合わせである。入力画像は、ＣＮＮ２００に入力される入力データａである。教師データＴは、画像に撮像された被写体の種類や、画像における検出対象物の有無や、画像における検出対象物の座標値などである。

【0143】

学習部３２２は、公知の技術である誤差逆伝播法などによる教師あり学習によって、学習済みパラメータＰＭを生成する。学習部３２２は、入力画像に対するＮＮ実行モデル１００の出力と、入力画像に対応する教師データＴと、の差分Ｅを損失関数（誤差関数）により求め、差分Ｅが小さくなるように学習対象である重みｗおよび量子化パラメータｑを更新する。

【0144】

例えば重みｗを更新する場合、重みｗに関する損失関数の勾配が用いられる。勾配は、例えば損失関数を微分することにより算出される。誤差逆伝播法を用いる場合、勾配は逆伝番（ｂａｃｋｗａｒｄ）により算出される。

【0145】

学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００が使用する低ビットの重みｗ（例えば１ビット）より高精度な３２ビットの浮動小数点型の重みｗが学習に使用される。また、ＮＮ実行モデル１００の畳み込み演算回路４において実施する畳み込み演算が高精度化される。

【0146】

学習部３２２は、勾配を算出して重みｗを更新する際において、活性化関数に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００の量子化演算回路５において実施するＲｅＬＵ関数などの活性化関数より高精度なシグモンド関数が学習に使用される。

【0147】

一方、学習部３２２は、順伝搬（ｆоｒｗａｒｄ）により入力画像に対する出力データを算出する際においては、畳み込み演算および活性化関数に関連する演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。重みｗを更新する際に用いられた高精度な重みｗは、ルックアップテーブル等により低ビット化される。

【0148】

学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算および活性化関数に関連する演算を高精度化することにより、演算における中間データの精度低下を防止して、高い推論精度を実現できる学習済みパラメータＰＭを生成できる。

【0149】

一方、学習部３２２は、入力画像に対する出力データを算出する際において、順伝搬（ｆоｒｗａｒｄ）の演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。そのため、学習部３２２が算出した出力データと、生成された学習済みパラメータＰＭを用いたＮＮ実行モデル１００の出力データと、が一致する。

【0150】

学習部３２２は、重みｗおよび量子化パラメータｑに加えて、入力変換部４９の閾値群の学習を行う。学習部３２２は、誤差逆伝播法などによる教師あり学習によって、入力データに対するＮＮ実行モデル１００の出力と、入力データに対応する教師データＴと、の差分Ｅを損失関数（誤差関数）により求め、差分Ｅが小さくなるように閾値群に含まれる少なくとも一つ以上の閾値を更新する。学習前の入力変換部４９の閾値群の初期値は、図１５などで示したように、第一閾値群ＴＧ１に含まれる閾値と第二閾値群ＴＧ２に含まれる閾値とが互い違いに補間的に設定されている。閾値群の各閾値は学習を繰り返すことによって更新される。なお、閾値群の各閾値は、学習の際には小数点を含む形式とし、学習終了時に四捨五入等で丸められた整数としてもよい。

【0151】

なお、損失関数の勾配は出力層から入力層に向けて徐々に消失していく。本実施形態において、入力変換部４９は最も入力層に近い。よって、入力変換部４９の閾値群における学習時の勾配の変化量は、他の学習対象のパラメータと比較して小さい。そのため、入力変換部４９の閾値群の初期値を適切に設定している場合、学習部３２２は、入力変換部４９の閾値群を学習対象としなくてもよい。

【0152】

なお、本実施形態において、学習部３２２が入力変換部４９の閾値群の学習を行う例を示したが、学習部３２２は入力変換部４９の閾値群に加えて、入力データｂの有効範囲ＶＲを学習の対象としてもよい。

【0153】

なお、学習部３２２は、学習時において使用された入力データｂから、推論時における入力データｂの取りうる範囲を推測して、有効範囲ＶＲを学習してもよい。学習時において使用された入力データｂは、推論時における入力データｂと同条件であることが好ましい。そのため、学習部３２２は、学習時において使用された入力データｂから、推論時における入力データｂの取りうる範囲をある程度予測できる。

【0154】

＜学習工程：推論テスト工程（Ｓ１４－２）＞
推論部３２３は、学習部３２２が生成した学習済みパラメータＰＭ、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、テストデータＤ２は、学習データＤ１同様に入力画像と教師データＴとの組み合わせである。

【0155】

推論部３２３は、推論テストの進捗および結果を表示部３５０に表示する。推論テストの結果は、例えばテストデータＤ２に対する正解率である。

【0156】

＜確認工程（Ｓ１５）＞
ステップＳ１５において、ニューラルネットワーク生成装置３００の推論部３２３は、操作入力部３６０から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示部３５０に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部３６０から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、次にステップＳ１６を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、再度ステップＳ１２を実施する。なお、ニューラルネットワーク生成装置３００はステップＳ１１まで戻って、ハードウェア情報ＨＷを使用者に再入力させてもよい。

【0157】

＜出力工程（Ｓ１６）＞
ステップＳ１６において、ニューラルネットワーク生成装置３００のハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。

【0158】

＜ソフトウェア生成工程（Ｓ１７）＞
ステップＳ１７において、ニューラルネットワーク生成装置３００のソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００などに基づいて、ニューラルネットワークハードウェア６００（ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したもの）を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。

【0159】

ソフトウェア生成工程（Ｓ１７）は、例えば、入力データ変換工程（Ｓ１７－１）と、入力データ分割工程（Ｓ１７－２）と、ネットワーク分割工程（Ｓ１７－３）と、アロケーション工程（Ｓ１７－４）と、を有する。

【0160】

＜入力データ変換工程（Ｓ１７－１）＞
畳み込み演算回路４において入力変換部４９がハードウェアとして実装されない場合、ソフトウェア生成部３２５は、事前処理として、事前に入力データｂを変換して変換済みの入力データａを生成する。入力データ変換工程における入力データａの変換方法は、入力変換部４９での変換方法と同じである。

【0161】

＜入力データ分割工程（Ｓ１７－２）：データ分割＞
ソフトウェア生成部３２５は、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ容量や演算器の仕様やサイズ（ＢｃやＢｄ）などに基づいて、畳み込み層２１０の畳み込み演算の入力データａを部分テンソルに分割する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。

【0162】

図２２は、畳み込み演算のデータ分割やデータ展開を説明する図である。
畳み込み演算のデータ分割において、式１における変数ｃは、式８に示すように、サイズＢｃのブロックで分割される。また、式１における変数ｄは、式９に示すように、サイズＢｄのブロックで分割される。式８において、ｃｏはオフセットであり、ｃｉは０から(Ｂｃ－１)までのインデックスである。式９において、ｄｏはオフセットであり、ｄｉは０から(Ｂｄ－１)までのインデックスである。なお、サイズＢｃとサイズＢｄは同じであってもよい。

【0163】

【数8】

【0164】

【数9】

【0165】

式１における入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）は、ｃ軸方向においてサイズＢｃにより分割され、分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）で表される。以降の説明において、分割された入力データａを「分割入力データａ」ともいう。

【0166】

式１における重みｗ（ｉ，ｊ，ｃ，ｄ）は、ｃ軸方向においてサイズＢｃおよびｄ軸方向においてサイズＢｄにより分割され、分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）で表される。以降の説明において、分割された重みｗを「分割重みｗ」ともいう。

【0167】

サイズＢｄにより分割された出力データｆ（ｘ，ｙ，ｄｏ）は、式１０により求まる。分割された出力データｆ（ｘ，ｙ，ｄｏ）を組み合わせることで、最終的な出力データｆ（ｘ，ｙ，ｄ）を算出できる。

【0168】

【数10】

【0169】

＜入力データ分割工程（Ｓ１７－３）：データ展開＞
ソフトウェア生成部３２５は、ＮＮ実行モデル１００の畳み込み演算回路４に、分割された入力データａおよび重みｗを展開する。

【0170】

分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）は、Ｂｃ個の要素を持つベクトルデータに展開される。分割入力データａの要素は、ｃｉでインデックスされる（０≦ｃｉ＜Ｂｃ）。以降の説明において、ｉ，ｊごとにベクトルデータに展開された分割入力データａを「入力ベクトルＡ」ともいう。入力ベクトルＡは、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ）から分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１））までを要素とする。

【0171】

分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）は、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みｗの要素は、ｃｉとｄｉでインデックスされる（０≦ｄｉ＜Ｂｄ）。以降の説明において、ｉ，ｊごとにマトリクスデータに展開された分割重みｗを「重みマトリクスＷ」ともいう。重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ，ｄｏ×Ｂｄ）から分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１），ｄｏ×Ｂｄ＋（Ｂｄ－１））までを要素とする。

【0172】

入力ベクトルＡと重みマトリクスＷとを乗算することで、ベクトルデータが算出される。ｉ，ｊ，ｃｏごとに算出されたベクトルデータを３次元テンソルに整形することで、出力データｆ（ｘ，ｙ，ｄｏ）を得ることができる。このようなデータの展開を行うことで、畳み込み層２１０の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。

【0173】

＜アロケーション工程（Ｓ１７－４）＞
ソフトウェア生成部３２５は、分割された演算をニューラルネットワークハードウェア６００に割り当てて実施させるソフトウェア５００を生成する（アロケーション工程）。生成されるソフトウェア５００は、命令コマンドＣ４を含む。入力データ変換工程（Ｓ１７－１）において入力データｂの変換が行われた場合、ソフトウェア５００は、変換済みの入力データａを含む。

【0174】

以上説明したように、本実施形態に係るニューラルネットワーク生成装置３００、ニューラルネットワーク制御方法およびソフトウェア生成プログラムによれば、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成および制御できる。

【0175】

以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

【0176】

（変形例１－１）
上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

【0177】

（変形例１－２）
例えば、上記実施形態に記載のＮＮ実行モデル１００やニューラルネットワークハードウェア６００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ実行モデル１００やニューラルネットワークハードウェア６００に入力されるデータは、ニューラルネットワークハードウェア６００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

【0178】

（変形例１－３）
ニューラルネットワークハードウェア６００が設けられるエッジデバイスは、バッテリ等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

【0179】

上述した実施形態におけるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0180】

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

【産業上の利用可能性】

【0181】

本発明は、ニューラルネットワークの生成に適用することができる。

【符号の説明】

【0182】

３００ニューラルネットワーク生成装置
２００畳み込みニューラルネットワーク（ＣＮＮ）
１００ニューラルネットワーク実行モデル（ＮＮ実行モデル）
４００ニューラルネットワークハードウェアモデル
５００ソフトウェア
６００ニューラルネットワークハードウェア（ニューラルネットワーク演算装置）
１第一メモリ
２第二メモリ
３ＤＭＡコントローラ（ＤＭＡＣ）
４畳み込み演算回路
４２乗算器
４３アキュムレータ回路
４９入力変換部
４９１第一変換部
４９２第二変換部
４９３第三変換部
４９５閾値メモリ
５量子化演算回路
６コントローラ
ＰＭ学習済みパラメータ
ＤＳ学習データセット
ＨＷハードウェア情報
ＮＷネットワーク情報
ＴＧ１第一閾値群
ＴＧ２第二閾値群
ＴＧ３第三閾値群

【図1】