特開2022-114698 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＬｅａｐＭｉｎｄ株式会社の特許一覧

特開2022-114698ニューラルネットワーク生成装置、ニューラルネットワーク制御方法およびソフトウェア生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022114698

(43)【公開日】2022-08-08

(54)【発明の名称】ニューラルネットワーク生成装置、ニューラルネットワーク制御方法およびソフトウェア生成プログラム

(51)【国際特許分類】

G06N 3/04 20060101AFI20220801BHJP

G06F 17/16 20060101ALI20220801BHJP

【ＦＩ】

G06N3/04

G06F17/16 M

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021011094

(22)【出願日】2021-01-27

(71)【出願人】

【識別番号】517048278

【氏名又は名称】ＬｅａｐＭｉｎｄ株式会社

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100161506

【弁理士】

【氏名又は名称】川渕健一

(74)【代理人】

【識別番号】100139686

【弁理士】

【氏名又は名称】鈴木史朗

(74)【代理人】

【識別番号】100207789

【弁理士】

【氏名又は名称】石田良平

(72)【発明者】

【氏名】金井潤一

(72)【発明者】

【氏名】ネバドヴイルチエスアントニオトマス

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB26

5B056BB71

5B056FF01

5B056FF02

(57)【要約】

【課題】ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御する。
【解決手段】ニューラルネットワーク生成装置は、畳み込み演算回路を有するニューラルネットワークハードウェアを動作させるソフトウェアを生成するソフトウェア生成部を備え、前記ソフトウェア生成部は、Ｘ×Ｙ×Ｃ×Ｄの第一重みテンソルを並び替えたＸ´×Ｙ´×Ｃ´×Ｄの第二重みテンソルを前記畳み込み演算回路に対する入力とする畳み込み演算を実施する前記ソフトウェアを生成し、Ｘ´はＸ以上、Ｙ´はＹ以上、Ｃ´はＣ以下である。
【選択図】図２

【特許請求の範囲】

【請求項1】

畳み込み演算回路を有するニューラルネットワークハードウェアを動作させるソフトウェアを生成するソフトウェア生成部を備え、
前記ソフトウェア生成部は、Ｘ×Ｙ×Ｃ×Ｄの第一重みテンソルを並び替えたＸ´×Ｙ´×Ｃ´×Ｄの第二重みテンソルを前記畳み込み演算回路に対する入力とする畳み込み演算を実施する前記ソフトウェアを生成し、
Ｘ´はＸ以上、Ｙ´はＹ以上、Ｃ´はＣ以下である、
ニューラルネットワーク生成装置。

【請求項2】

Ｘ´はＸのｐ倍（ｐは１より大きい自然数）であり、
Ｙ´はＹのｐ倍であり、
Ｃ´はＣの１／ｐ^２倍である、
請求項１に記載のニューラルネットワーク生成装置。

【請求項3】

前記ソフトウェア生成部は、前記第二重みテンソルを前記畳み込み演算回路に対する入力とし、前記第一重みテンソルを入力とした畳み込み演算と比較してストライドをｐ倍とした畳み込み演算を実施する前記ソフトウェアを生成する、
請求項２に記載のニューラルネットワーク生成装置。

【請求項4】

前記ソフトウェア生成部は、前記第二重みテンソルと第一入力テンソルとを前記畳み込み演算回路に対する入力とする畳み込み演算を実施する前記ソフトウェアを生成し、
Ｕ×Ｖ×Ｗの前記第一入力テンソルを並び替えたＵ´×Ｖ´×Ｗ´の第二入力テンソルと前記第一重みテンソルとの畳み込み演算の結果は、前記第一入力テンソルと前記第二重みテンソルとの畳み込み演算の結果と等しく、
Ｕ´はＵ以下、Ｖ´はＶ以下、Ｗ´はＷ以上である、
請求項１から請求項３のいずれか一項に記載のニューラルネットワーク生成装置。

【請求項5】

畳み込み演算回路を有するニューラルネットワークハードウェアを制御する方法であって、
Ｘ×Ｙ×Ｃ×Ｄの第一重みテンソルを並び替えたＸ´×Ｙ´×Ｃ´×Ｄの第二重みテンソルを前記畳み込み演算回路に対する入力とする畳み込み演算を実施させ、
Ｘ´はＸ以上、Ｙ´はＹ以上、Ｃ´はＣ以下である、
ニューラルネットワーク制御方法。

【請求項6】

Ｘ´はＸのｐ倍（ｐは１より大きい自然数）であり、
Ｙ´はＹのｐ倍であり、
Ｃ´はＣの１／ｐ^２倍である、
請求項５に記載のニューラルネットワーク制御方法。

【請求項7】

前記第二重みテンソルを前記畳み込み演算回路に対する入力とし、前記第一重みテンソルを入力とした畳み込み演算と比較してストライドをｐ倍とした畳み込み演算を実施させる、
請求項６に記載のニューラルネットワーク制御方法。

【請求項8】

前記第二重みテンソルと第一入力テンソルとを前記畳み込み演算回路に対する入力とする畳み込み演算を実施させ、
Ｕ×Ｖ×Ｗの前記第一入力テンソルを並び替えたＵ´×Ｖ´×Ｗ´の第二入力テンソルと前記第一重みテンソルとの畳み込み演算の結果は、前記第一入力テンソルと前記第二重みテンソルとの畳み込み演算の結果と等しく、
Ｕ´はＵ以下、Ｖ´はＶ以下、Ｗ´はＷ以上である、
請求項５から請求項７のいずれか一項に記載のニューラルネットワーク制御方法。

【請求項9】

畳み込み演算回路を有するニューラルネットワークハードウェアを制御するソフトウェアを生成するプログラムであって、
Ｘ×Ｙ×Ｃ×Ｄの第一重みテンソルを並び替えたＸ´×Ｙ´×Ｃ´×Ｄの第二重みテンソルを前記畳み込み演算回路に対する入力とする畳み込み演算を実施する前記ソフトウェアをコンピュータに生成させ、
Ｘ´はＸ以上、Ｙ´はＹ以上、Ｃ´はＣ以下である、
ソフトウェア生成プログラム。

【請求項10】

Ｘ´はＸのｐ倍（ｐは１より大きい自然数）であり、
Ｙ´はＹのｐ倍であり、
Ｃ´はＣの１／ｐ^２倍である、
請求項９に記載のソフトウェア生成プログラム。

【請求項11】

前記第二重みテンソルを前記畳み込み演算回路に対する入力とし、前記第一重みテンソルを入力とした畳み込み演算と比較してストライドをｐ倍とした畳み込み演算を実施する前記ソフトウェアを生成する、
請求項１０に記載のソフトウェア生成プログラム。

【請求項12】

前記第二重みテンソルと第一入力テンソルとを前記畳み込み演算回路に対する入力とする畳み込み演算を実施する前記ソフトウェアを生成し、
Ｕ×Ｖ×Ｗの前記第一入力テンソルを並び替えたＵ´×Ｖ´×Ｗ´の第二入力テンソルと前記第一重みテンソルとの畳み込み演算の結果は、前記第一入力テンソルと前記第二重みテンソルとの畳み込み演算の結果と等しく、
Ｕ´はＵ以下、Ｖ´はＶ以下、Ｗ´はＷ以上である、
請求項９から請求項１１のいずれか一項に記載のソフトウェア生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワーク生成装置、ニューラルネットワーク制御方法およびソフトウェア生成プログラムに関する。

【背景技術】

【0002】

近年、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－０７７８２９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等が使用されている。組み込み機器において畳み込みニューラルネットワークを効率的に動作させるため、組み込み機器のハードウェア構成に合わせたニューラルネットワークに係る演算を行う回路やモデルを生成することが望まれている。また、これらの回路やモデルを高効率かつ高速に動作させる制御方法が望まれている。また、これらの回路やモデルを高効率かつ高速に動作させるソフトウェアを生成するソフトウェア生成プログラムが望まれている。

【0005】

上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行う回路やモデルを生成するニューラルネットワーク生成装置、ニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるニューラルネットワーク制御方法およびニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるソフトウェアを生成するソフトウェア生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク生成装置は、畳み込み演算回路を有するニューラルネットワークハードウェアを動作させるソフトウェアを生成するソフトウェア生成部を備え、前記ソフトウェア生成部は、Ｘ×Ｙ×Ｃ×Ｄの第一重みテンソルを並び替えたＸ´×Ｙ´×Ｃ´×Ｄの第二重みテンソルを前記畳み込み演算回路に対する入力とする畳み込み演算を実施する前記ソフトウェアを生成し、Ｘ´はＸ以上、Ｙ´はＹ以上、Ｃ´はＣ以下である。

【発明の効果】

【0007】

本発明のニューラルネットワーク生成装置、ニューラルネットワーク制御方法およびソフトウェア生成プログラムは、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御できる。

【図面の簡単な説明】

【0008】

【図1】第一実施形態に係るニューラルネットワーク生成装置を示す図である。

【図2】同ニューラルネットワーク生成装置の演算部の入出力を示す図である。

【図3】畳み込みニューラルネットワークの一例を示す図である。

【図4】同畳み込みニューラルネットワークの畳み込み層が行う畳み込み演算を説明する図である。

【図5】ニューラルネットワーク実行モデルの一例を示す図である。

【図6】同ニューラルネットワーク実行モデルの動作例を示すタイミングチャートである。

【図7】同ニューラルネットワーク生成装置の制御フローチャートである。

【図8】生成される畳み込み演算回路の内部ブロック図である。

【図9】同畳み込み演算回路の乗算器の内部ブロック図である。

【図10】同乗算器の積和演算ユニットの内部ブロック図である。

【図11】同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。

【図12】同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。

【図13】同畳み込み演算回路の制御回路のステート遷移図である。

【図14】入力データにおけるｃ軸方向の要素数を増やす方法Ａを示す図である。

【図15】重みデータにおけるｃ軸方向の要素数を増やす方法Ｂを示す図である。

【図16】方法Ｂにより並び替えられた重みデータの一例を示す図である。

【図17】畳み込み演算のデータ分割やデータ展開を説明する図である。

【発明を実施するための形態】

【0009】

（第一実施形態）
本発明の第一実施形態について、図１から図１７を参照して説明する。
図１は、本実施形態に係るニューラルネットワーク生成装置３００を示す図である。

【0010】

［ニューラルネットワーク生成装置３００］
ニューラルネットワーク生成装置３００は、ＩｏＴ機器などの組み込み機器に組み込み可能な学習済みのニューラルネットワーク実行モデル１００を生成する装置である。ニューラルネットワーク実行モデル１００は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を組み込み機器において演算させるために生成されたソフトウェアやハードウェアモデルである。

【0011】

ニューラルネットワーク生成装置３００は、ＣＰＵ（Central Processing Unit）等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置（コンピュータ）である。ニューラルネットワーク生成装置３００の機能は、ニューラルネットワーク生成装置３００においてニューラルネットワーク生成プログラムおよびソフトウェア生成プログラムを実行することにより実現される。ニューラルネットワーク生成装置３００は、記憶部３１０と、演算部３２０と、データ入力部３３０と、データ出力部３４０と、表示部３５０と、操作入力部３６０と、を備える。

【0012】

記憶部３１０は、ハードウェア情報ＨＷと、ネットワーク情報ＮＷと、学習データセットＤＳと、ニューラルネットワーク実行モデル１００（以下、「ＮＮ実行モデル１００」という）と、学習済みパラメータＰＭと、を記憶する。ハードウェア情報ＨＷ、学習データセットＤＳおよびネットワーク情報ＮＷは、ニューラルネットワーク生成装置３００に入力される入力データである。ＮＮ実行モデル１００および学習済みパラメータＰＭは、ニューラルネットワーク生成装置３００が出力する出力データである。なお、「学習済みのＮＮ実行モデル１００」は、ＮＮ実行モデル１００および学習済みパラメータＰＭを含む。

【0013】

ハードウェア情報ＨＷは、ＮＮ実行モデル１００を動作させる組み込み機器（以降、「動作対象ハードウェア」という）の情報である。ハードウェア情報ＨＷは、例えば、動作対象ハードウェアのデバイス種別、デバイス制約、メモリ構成、バス構成、動作周波数、消費電力、製造プロセス種別などである。デバイス種別は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などの種別である。デバイス制約は、動作対象デバイスに含まれる演算器数の上限や回路規模の上限などである。メモリ構成は、メモリ種別やメモリ個数やメモリ容量や入出力データ幅である。バス構成は、バス種類、バス幅、バス通信規格、同一バス上の接続デバイスなどである。また、ＮＮ実行モデル１００に複数のバリエーションが存在する場合、ハードウェア情報ＨＷには使用するＮＮ実行モデル１００のバリエーションに関する情報が含まれる。

【0014】

ネットワーク情報ＮＷは、ＣＮＮ２００の基本情報である。ネットワーク情報ＮＷは、例えば、ＣＮＮ２００のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。

【0015】

学習データセットＤＳは、学習に用いる学習データＤ１と、推論テストに用いるテストデータＤ２と、を有する。

【0016】

図２は、演算部３２０の入出力を示す図である。
演算部３２０は、実行モデル生成部３２１と、学習部３２２と、推論部３２３と、ハードウェア生成部３２４と、ソフトウェア生成部３２５と、を有する。演算部３２０に入力されるＮＮ実行モデル１００は、ニューラルネットワーク生成装置３００以外の装置で生成されたものであってもよい。

【0017】

実行モデル生成部３２１は、ハードウェア情報ＨＷおよびネットワーク情報ＮＷに基づいてＮＮ実行モデル１００を生成する。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0018】

学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。推論部３２３は、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。

【0019】

ハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。ニューラルネットワークハードウェアモデル４００は、動作対象ハードウェアに実装可能なハードウェアモデルである。ニューラルネットワークハードウェアモデル４００は、ハードウェア情報ＨＷに基づいて、動作対象ハードウェアに最適化されている。ニューラルネットワークハードウェアモデル４００は、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。ニューラルネットワークハードウェアモデル４００は、ＮＮ実行モデル１００をハードウェアに実装するために必要なパラメータリストやコンフィグレーションファイルであってもよい。パラメータリストやコンフィグレーションファイルは別途生成されたＮＮ実行モデル１００と組み合わせて使用される。

【0020】

以降の説明において、ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したものを、「ニューラルネットワークハードウェア６００」という。

【0021】

ソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００に基づいて、ニューラルネットワークハードウェア６００を動作させるソフトウェア５００を生成する。ソフトウェア５００は、例えばニューラルネットワークハードウェア６００を動作させるための複数の命令コマンドを含む命令群である。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。

【0022】

データ入力部３３０には、学習済みのＮＮ実行モデル１００を生成するために必要なハードウェア情報ＨＷやネットワーク情報ＮＷ等が入力される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報ＨＷやネットワーク情報ＮＷ等は、記憶部３１０に記憶される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、操作入力部３６０から使用者により入力または変更されてもよい。

【0023】

データ出力部３４０には、生成された学習済みのＮＮ実行モデル１００が出力される。例えば、生成されたＮＮ実行モデル１００と、学習済みパラメータＰＭとがデータ出力部３４０に出力される。

【0024】

表示部３５０は、ＬＣＤディスプレイ等の公知のモニタを有する。表示部３５０は、演算部３２０が生成したＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部３２０が使用者からの情報入力を必要とする場合、表示部３５０は操作入力部３６０から情報を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示できる。

【0025】

操作入力部３６０は、使用者が演算部３２０等に対しての指示を入力する装置である。操作入力部３６０は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部３６０の入力は、演算部３２０に送信される。

【0026】

演算部３２０の機能の全部または一部は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）のような１つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部３２０の機能の全部または一部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等のハードウェア（例えば回路部；circuity）により実現されてもよい。また、演算部３２０の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

【0027】

演算部３２０の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたＣＰＵやＧＰＵやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部３２０は、例えばクラウドサーバ上の演算性能が高いＧＰＵや専用ハードウェアを併用することで、演算部３２０の演算速度を向上させることができる。

【0028】

記憶部３１０は、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read-Only Memory）、またＲＡＭ（Random Access Memory）等により実現される。記憶部３１０の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部３２０等と接続させてもよい。

【0029】

［畳み込みニューラルネットワーク（ＣＮＮ）２００］
次に、ＣＮＮ２００について説明する。図３は、ＣＮＮ２００の一例を示す図である。ＣＮＮ２００のネットワーク情報ＮＷは、以下で説明するＣＮＮ２００の構成に関する情報である。ＣＮＮ２００は、低ビットの重みｗや量子化された入力データａを用いており、組み込み機器に組み込みやすい。

【0030】

ＣＮＮ２００は、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

【0031】

図４は、畳み込み層２１０が行う畳み込み演算を説明する図である。
畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

【0032】

畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

【0033】

ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、ＣＮＮ２００は畳み込み層２１０の前に型変換や量子化を行う入力層をさらに有してもよい。

【0034】

畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0035】

畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図４において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

【0036】

【数1】

【0037】

量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

【0038】

プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

【0039】

【数2】

【0040】

【数3】

【0041】

ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

【0042】

【数4】

【0043】

活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

【0044】

【数5】

【0045】

量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等式「≦」は「＜」であってもよい。

【0046】

【数6】

【0047】

出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

【0048】

ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

【0049】

［ニューラルネットワーク実行モデル１００（ＮＮ実行モデル）１００］
次に、ＮＮ実行モデル１００について説明する。図５は、ＮＮ実行モデル１００の一例を示す図である。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0050】

ＮＮ実行モデル１００は、第一メモリ１と、第二メモリ２と、ＤＭＡコントローラ３（以下、「ＤＭＡＣ３」ともいう）と、畳み込み演算回路４と、量子化演算回路５と、コントローラ６と、を備える。ＮＮ実行モデル１００は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

【0051】

第一メモリ１は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートと接続されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。外部ホストＣＰＵは、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

【0052】

第二メモリ２は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。外部ホストＣＰＵは、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

【0053】

ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリと第一メモリ１との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと第二メモリ２との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと畳み込み演算回路４との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと量子化演算回路５との間のデータ転送を行う。

【0054】

畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

【0055】

量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を行う。量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）оｕｔを第一メモリ１に書き込む。

【0056】

コントローラ６は、外部バスＥＢに接続されており、外部のホストＣＰＵのスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ実行モデル１００の動作を制御するレジスタである。状態レジスタはセマフォＳを含むＮＮ実行モデル１００の状態を示すレジスタである。外部ホストＣＰＵは、コントローラ６を経由して、レジスタ６１にアクセスできる。

【0057】

コントローラ６は、内部バスＩＢを介して、第一メモリ１と、第二メモリ２と、ＤＭＡＣ３と、畳み込み演算回路４と、量子化演算回路５と、接続されている。外部ホストＣＰＵは、コントローラ６を経由して、各ブロックに対してアクセスできる。例えば、外部ホストＣＰＵは、コントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する命令を指示することができる。また、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５は、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含む）を更新できる。状態レジスタ（セマフォＳを含む）は、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５と接続された専用配線を介して更新されるように構成されていてもよい。

【0058】

ＮＮ実行モデル１００は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリからのＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。

【0059】

図６は、ＮＮ実行モデル１００の動作例を示すタイミングチャートである。ＮＮ実行モデル１００は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ実行モデル１００は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。以下、図６に示すニューラルネットワークハードウェア６００の動作例を説明する。

【0060】

ＤＭＡＣ３は、レイヤ１（図３参照）の入力データａを第一メモリ１に格納する。ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

【0061】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１（図３参照）の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対してレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0062】

量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データоｕｔは、第一メモリ１に格納される。

【0063】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データоｕｔを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0064】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0065】

量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データоｕｔは、第一メモリ１に格納される。

【0066】

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

【0067】

畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図３に示すＣＮＮ２００の演算を進めていく。ＮＮ実行モデル１００は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍ＋１を実施する。また、ＮＮ実行モデル１００は、量子化演算回路５が時分割によりレイヤ２Ｍ－２の畳み込み演算とレイヤ２Ｍを実施する。そのため、ＮＮ実行モデル１００は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

【0068】

［ニューラルネットワーク生成装置３００の動作］
次に、ニューラルネットワーク生成装置３００の動作（ニューラルネットワーク制御方法）を、図７に示すニューラルネットワーク生成装置３００の制御フローチャートに沿って説明する。ニューラルネットワーク生成装置３００は初期化処理（ステップＳ１０）を実施した後、ステップＳ１１を実行する。

【0069】

＜ハードウェア情報取得工程（Ｓ１１）＞
ステップＳ１１において、ニューラルネットワーク生成装置３００は、動作対象ハードウェアのハードウェア情報ＨＷを取得する（ハードウェア情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたハードウェア情報ＨＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にハードウェア情報ＨＷの入力に必要なＧＵＩ画像を表示させ、使用者にハードウェア情報ＨＷを操作入力部３６０から入力させることでハードウェア情報ＨＷを取得してもよい。

【0070】

ハードウェア情報ＨＷは、具体的には、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ種別やメモリ容量や入出力データ幅を有する。

【0071】

取得されたハードウェア情報ＨＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１２を実行する。

【0072】

＜ネットワーク情報取得工程（Ｓ１２）＞
ステップＳ１２において、ニューラルネットワーク生成装置３００は、ＣＮＮ２００のネットワーク情報ＮＷを取得する（ネットワーク情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたネットワーク情報ＮＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にネットワーク情報ＮＷの入力に必要なＧＵＩ画像を表示させ、使用者にネットワーク情報ＮＷを操作入力部３６０から入力させることでネットワーク情報ＮＷを取得してもよい。

【0073】

ネットワーク情報ＮＷは、具体的には、入力層や出力層２３０を含むネットワーク構成と、重みｗや入力データａのビット幅を含む畳み込み層２１０の構成と、量子化情報を含む量子化演算層２２０の構成と、を有する。

【0074】

取得されたネットワーク情報ＮＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１３を実行する。

【0075】

＜ニューラルネットワーク実行モデル生成工程（Ｓ１３）＞
ステップＳ１３において、ニューラルネットワーク生成装置３００の実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００を生成する（ニューラルネットワーク実行モデル生成工程）。

【0076】

ニューラルネットワーク実行モデル生成工程（ＮＮ実行モデル生成工程）は、例えば、畳み込み回路生成工程（Ｓ１３－１）と、量子化回路生成工程（Ｓ１３－２）と、ＤＭＡＣ生成工程（Ｓ１３－３）と、を有する。

【0077】

＜畳み込み回路生成工程（Ｓ１３－１）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の畳み込み回路４を生成する（畳み込み回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される畳み込み演算回路４のハードウェアモデルの一例を説明する。

【0078】

図８は、生成される畳み込み演算回路４の内部ブロック図である。
畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

【0079】

重みメモリ４１は、畳み込み演算に用いる重みｗが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みｗを重みメモリ４１に書き込む。

【0080】

図９は、乗算器４２の内部ブロック図である。
乗算器４２は、入力データａの各要素と、重みｗの各要素とを乗算する。入力データａの各要素は、入力データａが分割されたデータであり、Ｂｃ個の要素を持つベクトルデータである（例えば、後述する「入力ベクトルＡ」）。また、重みｗの各要素は、重みｗが分割されたデータであり、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータである（例えば、後述する「重みマトリクスＷ」）。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとの乗算を並列して実施できる。

【0081】

乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

【0082】

図１０は、積和演算ユニット４７の内部ブロック図である。
積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。ｃｉは０から(Ｂｃ－１)までのインデックスである。ｄｉは０から(Ｂｄ－１)までのインデックスである。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

【0083】

積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

【0084】

図１１は、アキュムレータ回路４３の内部ブロック図である。
アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

【0085】

図１２は、アキュムレータユニット４８の内部ブロック図である。
アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

【0086】

加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

【0087】

乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリに、Ｂｄ個の要素を持つ出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

【0088】

ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

【0089】

命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

【0090】

制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

【0091】

図１３は、制御回路４６のステート遷移図である。
制御回路４６は、命令キュー４５に命令コマンドＣ４が入力されると（Ｎｏｔｅｍｐｔｙ）、アイドルステートＳ１からデコードステートＳ２に遷移する。

【0092】

制御回路４６は、デコードステートＳ２において、命令キュー４５から出力される命令コマンドＣ３をデコードする。また、制御回路４６は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ４において指示された乗算器４２やアキュムレータ回路４３の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔｒｅａｄｙ）、制御回路４６は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路４６はデコードステートＳ２から実行ステートＳ３に遷移する。

【0093】

制御回路４６は、実行ステートＳ３において、乗算器４２やアキュムレータ回路４３を制御して、乗算器４２やアキュムレータ回路４３に命令コマンドＣ４において指示された動作を実施させる。制御回路４６は、乗算器４２やアキュムレータ回路４３の動作が終わると、命令キュー４５から実行を終えた命令コマンドＣ４を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路４６は、命令キュー４５に命令がある場合（Ｎｏｔｅｍｐｔｙ）、実行ステートＳ３からデコードステートＳ２に遷移する。制御回路４６は、命令キュー４５に命令がない場合（ｅｍｐｔｙ）、実行ステートＳ３からアイドルステートＳ１に遷移する。

【0094】

実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を決定する。ハードウェア情報ＨＷとして生成するＮＮ実行モデル１００（ニューラルネットワークハードウェアモデル４００、ニューラルネットワークハードウェア６００）のハードウェア規模が含まれる場合、実行モデル生成部３２１は、指定された規模にあわせて畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を調整する。

【0095】

＜量子化回路生成工程（Ｓ１３－２）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の量子化演算回路５を生成する（量子化回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化演算回路５のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0096】

＜ＤＭＡＣ生成工程（Ｓ１３－３）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００のＤＭＡＣ３を生成する（ＤＭＡＣ生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

【0097】

＜学習工程（Ｓ１４）＞
ステップＳ１４において、ニューラルネットワーク生成装置３００の学習部３２２および推論部３２３は、学習データセットＤＳを用いて、生成されたＮＮ実行モデル１００の学習パラメータを学習する（学習工程）。

【0098】

＜確認工程（Ｓ１５）＞
ステップＳ１５において、ニューラルネットワーク生成装置３００の推論部３２３は、操作入力部３６０から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示部３５０に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部３６０から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、次にステップＳ１６を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、再度ステップＳ１２を実施する。なお、ニューラルネットワーク生成装置３００はステップＳ１１まで戻って、ハードウェア情報ＨＷを使用者に再入力させてもよい。

【0099】

＜出力工程（Ｓ１６）＞
ステップＳ１６において、ニューラルネットワーク生成装置３００のハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。

【0100】

＜ソフトウェア生成工程（Ｓ１７）＞
ステップＳ１７において、ニューラルネットワーク生成装置３００のソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００などに基づいて、ニューラルネットワークハードウェア６００（ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したもの）を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。

【0101】

ソフトウェア生成工程（Ｓ１７）は、例えば、重み要素並び替え工程（Ｓ１７－１）と、入力データ分割工程（Ｓ１７－２）と、アロケーション工程（Ｓ１７－３）と、を有する。

【0102】

＜重み要素並び替え工程（Ｓ１７－１）＞
畳み込み演算回路４に入力される入力データａにおけるｃ軸方向の要素数が小さい場合、畳み込み演算回路４において並列化（マルチチャンネル化）されたハードウェアリソース（例えば畳み込み演算回路４の乗算器４２）を有効に活用できない場合がある。一方で、ｘ軸方向およびｙ軸方向の要素数が大きい場合、相対的に受容野が狭くなってしまい、推論精度の低下を引き起こす場合がある。

【0103】

図１４は、入力データａにおけるｘ軸方向およびｙ軸方向の要素数を減らしつつ、ｃ軸方向の要素数を増やす方法Ａを示す図である。
一例として、入力データａ（第一入力テンソル）の要素を並び替えることにより、ｘ軸方向およびｙ軸方向の要素数を１／ｐに減らし、ｃ軸方向の要素数をｐ^２倍に増やすことができる。例えば図１４に示すように、ｘ軸方向およびｙ軸方向の要素数を１／２に減らし、ｃ軸方向の要素数を４倍に増やすことができる。並び替えは図１４に示す例に限定されない。ソフトウェア生成部３２５は、畳み込み演算回路に入力するＵ（ｘ軸方向）×Ｖ（ｙ軸方向）×Ｗ（ｃ軸方向）の入力データａ（第一入力テンソル）をＵ´×Ｖ´×Ｗ´の入力データａ´（第二入力テンソル）に並び替える場合、Ｕ´はＵ以下、Ｖ´はＶ以下、Ｗ´はＷ以上であればよい。

【0104】

方法Ａにより並び替えられた入力データａ´（第二入力テンソル）は、式７により表される。式７において、ＩＮＴ（ｘ）は、ｘの整数部を出力する関数である。式７において、nおよびpは自然数である。ｘ、ｙおよびｃの範囲は式８に示される。ここで、方法Ａにより並び替えられた入力データａ´との畳み込み演算に使用される重みｗを「重みデータｗ１（第一重みテンソル）」とする。

【0105】

【数7】

【0106】

【数8】

【0107】

方法Ａにより入力データａの要素を並び替えることにより、並び替えられた入力データａ´におけるｃ軸方向の要素数を増やし、並列化（マルチチャンネル化）されたハードウェアリソースを有効に活用して高速化を図れる。しかしながら、入力データａを並び替えてｃ軸方向の要素数を増やす方法（方法Ａ）は、例えば外部ホストＣＰＵによる入力データａの並び替えや複数回のメモリアクセスが必要となる場合もあり、要素の並び替えに時間を要するために、全体としての演算の効率化を阻害する場合がある。

【0108】

図１５は、重みデータｗ１におけるｘ軸方向およびｙ軸方向の要素数を増やしつつ、ｃ軸方向の要素数を減らす方法Ｂを示す図である。
本実施形態において、ソフトウェア生成部３２５は、入力データａを並び替えてｃ軸方向の要素数を増やす方法（方法Ａ）ではなく、同等の効果を得るために、重みデータｗ１を並び替えてｃ軸方向の要素数を減らす方法（方法Ｂ）を用いる。

【0109】

ステップＳ１４における学習工程において、ニューラルネットワーク生成装置３００の学習部３２２および推論部３２３は、学習データセットＤＳを用いて、生成されたＮＮ実行モデル１００の学習パラメータを学習するが、この際には方法Ａにより並びかえられた入力データａ´を用いる。つまり、学習結果としては重みデータｗ１が生成される。方法Ｂは、方法Ａを用いて学習された重みデータｗ１を重みデータｗ２に変換する方法に相当する。

【0110】

方法Ｂにより並び替えられる重みデータｗ１と並び替えた結果である重みデータｗ２（第二重みテンソル）は、式９により表される。式９において、ＩＮＴ（ｘ）は、ｘの整数部を出力する関数である。式９において、nおよびpは自然数である。ｉ、ｊおよびｃの範囲は、式１０に示される。

【0111】

【数9】

【0112】

【数10】

【0113】

図１６は、ｐ＝２，ｉｍａｘ＝ｊｍａｘ＝３，ｃｍａｘ＝１２の場合において方法Ｂにより並び替えられた重みデータｗ２を示す図である。並び替えは図１６に示す例に限定されない。ソフトウェア生成部３２５は、畳み込み演算回路に入力するＸ（ｘ軸方向）×Ｙ（ｙ軸方向）×Ｃ（ｃ軸方向）×Ｄ（ｄ軸方向）の重みデータｗ１（第一重みテンソル）をＸ´×Ｙ´×Ｃ´×Ｄの重みデータｗ２（第二重みテンソル）に並び替える場合、Ｘ´はＸ以上、Ｙ´はＹ以上、Ｃ´はＣ以下であればよい。なお、入力データａが２次のテンソルである場合、畳み込み演算回路に入力するＸ（ｘ軸方向）×Ｙ（ｙ軸方向）×Ｃ（ｃ軸方向）の重みデータ（第一重みテンソル）をＸ´×Ｙ´×Ｃ´の重みデータ（第二重みテンソル）に並び替えればよい。

【0114】

式１１に示すように、方法Ａにより並び替えられた入力データａ´と重みデータｗ１とに対して畳み込み演算をした結果と、方法Ｂにより並び替えられた重みデータｗ２と入力データａに対して畳み込み演算をした結果は等しい。なお、重みデータｗ２を用いる畳み込み演算の際にはストライドを方法Ａに対してｐ倍することも必要である。

【0115】

【数11】

【0116】

以上説明した方法Ｂは一例であり、別の態様であって良い。入力データａから入力データａ´に行列変換する変換関数をf（x、y、c）とした場合、重みデータｗ１から重みデータｗ２に行列変換する変換関数g（x、y、c、ｄ）は全単射を条件にし、ｄを除けばf（x、y、c）の逆関数に相当する。つまり、入力データａにおけるｘ軸方向およびｙ軸方向の要素数の変化量と、ｃ軸方向の要素数の変化量が対応する行列変換を行った後に畳み込み演算を実行する場合において、重みデータを事前に当該変換の逆関数を用いた逆変換することによって推論動作時の行列変換の演算を省略することができる。言い換えれば、学習時で用いたネットワークに対して、ソフトウェア生成部３２５はより効率的に演算処理する為に、畳み込み演算に用いる入力データａまたは重みデータｗに対する行列変換を用いてネットワークの切り替えを行う。

【0117】

なお、本実施形態においては、入力データａや重みデータｗ１の要素を並び替えることにより、例えば図１４や図１６に示すように、ｘ軸方向およびｙ軸方向の要素数を１／２に減らし、ｃ軸方向の要素数を４倍に増やす例を示したが、これに限られない。例えば、ｘｙ方向の要素数を1/２倍よりも多く減らしつつ、ｃ軸方向の要素数を４倍よりも増す行列変換にも対応することができる。

【0118】

なお、入力データａから入力データａ´に行列変換する際のｘｙ平面内での並びについては式９には限定されず、並び替え単位内で適宜並び替え可能であり、これは重みデータｗ１から重みデータｗ２への行列変換も同様であり、必要に応じて適宜変更することができる。

【0119】

また、c軸方向についても行列変換に際して適宜並べ替え可能である。例えば、図１４においてはｃ0を単位として並び替えを行なっているが、別の例として方法Ａによる並び替えに式１２により表される行列変換を用いてpを単位として並び替えを行なっても良い。式１２において、ＩＮＴ（ｘ）は、ｘの整数部を出力する関数であり、％は、除算した余を取得する剰余演算子である。式１２において、nは自然数である。

【0120】

【数12】

【0121】

これは方法Ｂにおいて、重みデータｗ１の変換においても同様に適用可能であり、方法Ｂにより並び替えられる重みデータｗ１と並び替えた結果である重みデータｗ２は、式１３により表される。式１３において、ＩＮＴ（ｘ）は、ｘの整数部を出力する関数であり、％は、除算した余を取得する剰余演算子である。式１３において、nは自然数である。

【0122】

【数13】

【0123】

この式１２及び式１３で示される行列変換はｃ軸方向の行列変換における異なる並び替えの例であり、これ以外の並び替えであっても良い。

【0124】

＜入力データ分割工程（Ｓ１７－２）：データ分割＞
ソフトウェア生成部３２５は、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ容量や演算器の仕様やサイズ（ＢｃやＢｄ）などに基づいて、畳み込み層２１０の畳み込み演算の入力データａを部分テンソルに分割する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。

【0125】

図１７は、畳み込み演算のデータ分割やデータ展開を説明する図である。
畳み込み演算のデータ分割において、式１における変数ｃは、式１４に示すように、サイズＢｃのブロックで分割される。また、式１における変数ｄは、式１５に示すように、サイズＢｄのブロックで分割される。式７において、ｃｏはオフセットであり、ｃｉは０から(Ｂｃ－１)までのインデックスである。式８において、ｄｏはオフセットであり、ｄｉは０から(Ｂｄ－１)までのインデックスである。なお、サイズＢｃとサイズＢｄは同じであってもよい。

【0126】

【数14】

【0127】

【数15】

【0128】

式１における入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）は、ｃ軸方向においてサイズＢｃにより分割され、分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）で表される。以降の説明において、分割された入力データａを「分割入力データａ」ともいう。

【0129】

式１における重みｗ（ｉ，ｊ，ｃ，ｄ）は、ｃ軸方向においてサイズＢｃおよびｄ軸方向においてサイズＢｄにより分割され、分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）で表される。以降の説明において、分割された重みｗを「分割重みｗ」ともいう。

【0130】

サイズＢｄにより分割された出力データｆ（ｘ，ｙ，ｄｏ）は、式１６により求まる。分割された出力データｆ（ｘ，ｙ，ｄｏ）を組み合わせることで、最終的な出力データｆ（ｘ，ｙ，ｄ）を算出できる。

【0131】

【数16】

【0132】

＜入力データ分割工程（Ｓ１７－２）：データ展開＞
ソフトウェア生成部３２５は、ＮＮ実行モデル１００の畳み込み回路４に、分割された入力データａおよび重みｗを展開する。

【0133】

分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）は、Ｂｃ個の要素を持つベクトルデータに展開される。分割入力データａの要素は、ｃｉでインデックスされる（０≦ｃｉ＜Ｂｃ）。以降の説明において、ｉ，ｊごとにベクトルデータに展開された分割入力データａを「入力ベクトルＡ」ともいう。入力ベクトルＡは、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ）から分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１））までを要素とする。

【0134】

分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）は、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みｗの要素は、ｃｉとｄｉでインデックスされる（０≦ｄｉ＜Ｂｄ）。以降の説明において、ｉ，ｊごとにマトリクスデータに展開された分割重みｗを「重みマトリクスＷ」ともいう。重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ，ｄｏ×Ｂｄ）から分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１），ｄｏ×Ｂｄ＋（Ｂｄ－１））までを要素とする。

【0135】

入力ベクトルＡと重みマトリクスＷとを乗算することで、ベクトルデータが算出される。ｉ，ｊ，ｃｏごとに算出されたベクトルデータを３次元テンソルに整形することで、出力データｆ（ｘ，ｙ，ｄｏ）を得ることができる。このようなデータの展開を行うことで、畳み込み層２１０の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。

【0136】

＜アロケーション工程（Ｓ１７－３）＞
ソフトウェア生成部３２５は、分割された演算をニューラルネットワークハードウェア６００に割り当てて実施させるソフトウェア５００を生成する（アロケーション工程）。生成されるソフトウェア５００は、命令コマンドＣ４を含む。

【0137】

以上説明したように、本実施形態に係るニューラルネットワーク生成装置３００、ニューラルネットワーク制御方法およびソフトウェア生成プログラムによれば、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成および制御できる。

【0138】

以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

【0139】

（変形例１）
上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

【0140】

（変形例２）
例えば、上記実施形態に記載のＮＮ実行モデル１００やニューラルネットワークハードウェア６００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ実行モデル１００やニューラルネットワークハードウェア６００に入力されるデータは、ニューラルネットワークハードウェア６００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

【0141】

（変形例３）
ニューラルネットワークハードウェア６００が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

【0142】

上述した実施形態におけるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0143】

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

【産業上の利用可能性】

【0144】

本発明は、ニューラルネットワークの生成に適用することができる。

【符号の説明】

【0145】

３００ニューラルネットワーク生成装置
２００畳み込みニューラルネットワーク（ＣＮＮ）
１００ニューラルネットワーク実行モデル（ＮＮ実行モデル）
４００ニューラルネットワークハードウェアモデル
５００ソフトウェア
６００ニューラルネットワークハードウェア
１第一メモリ
２第二メモリ
３ＤＭＡコントローラ（ＤＭＡＣ）
４畳み込み演算回路
４２乗算器
４３アキュムレータ回路
５量子化演算回路
５２ベクトル演算回路
５３量子化回路
６コントローラ
６１レジスタ
ＰＭ学習済みパラメータ
ＤＳ学習データセット
ＨＷハードウェア情報
ＮＷネットワーク情報

【図1】