特許7438517 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　和歌山大学の特許一覧

特許7438517ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-16

(45)【発行日】2024-02-27

(54)【発明の名称】ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法

(51)【国際特許分類】

G06N 3/082 20230101AFI20240219BHJP

【ＦＩ】

G06N3/082

【請求項の数】 10

(21)【出願番号】P 2019137019

(22)【出願日】2019-07-25

(65)【公開番号】P2021022050

(43)【公開日】2021-02-18

【審査請求日】2022-04-28

(73)【特許権者】

【識別番号】504145283

【氏名又は名称】国立大学法人和歌山大学

(74)【代理人】

【識別番号】100111567

【弁理士】

【氏名又は名称】坂本寛

(72)【発明者】

【氏名】和田俊和

(72)【発明者】

【氏名】菅間幸司

【審査官】金田孝之

(56)【参考文献】

【文献】中国特許出願公開第１０８９２１２９４（ＣＮ，Ａ）

【文献】特開平０９－０９１２６３（ＪＰ，Ａ）

【文献】特開平０７－２３０４３７（ＪＰ，Ａ）

【文献】特開２０１９－０４６０３１（ＪＰ，Ａ）

【文献】Yiming Hu, et al.，Multi-loss-aware Channel Pruning of Deep Networks，arXiv:1902.10364，2019年02月27日，<URL: https://arxiv.org/abs/1902.10364v1>

【文献】楊子江，直交化最小二乗法による階層型ニューラルネットワークの中間層ニューロン数の削減法，計測自動制御学会論文集，日本，社団法人計測自動制御学会 THE SOCIETY OF INSTRUMENT AND CONTROL ENGINEERS，1997年03月，Vol. 33, No. 3，pp. 216-223

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

コンピュータに、
選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成と、を行わせる工程を備え、
前記工程において、前記プルーニング対象は、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成によって生じる再構成誤差を、調整した前記重みパラメータに基づいて計算し、前記再構成誤差が最小になるように選択され、
前記再構成誤差が最小になるように選択される前記プルーニング対象は、選択される前記プルーニング対象がプルーニングされる前の前記ニューラルネットワークにおいて、前記プルーニング対象として選択され得るものそれぞれをプルーニングしてみたときに前記再構成誤差が最小になるものである
ニューラルネットワークの圧縮方法。

【請求項2】

前記プルーニングは、全結合層におけるニューロンのプルーニングである
請求項１に記載のニューラルネットワークの圧縮方法。

【請求項3】

前記プルーニングは、畳み込み層におけるチャネルのプルーニングである
請求項１に記載のニューラルネットワークの圧縮方法。

【請求項4】

前記再構成誤差は、プルーニング対象の挙動ベクトルを、前記プルーニング対象以外の他のプルーニング単位の挙動ベクトルが張る部分空間に射影したときの射影残差に基づいて計算される
請求項１から３のいずれか１項に記載のニューラルネットワークの圧縮方法。

【請求項5】

前記射影残差は、プルーニング対象の挙動ベクトルの双直交基底に基づいて計算される
請求項４に記載のニューラルネットワークの圧縮方法。

【請求項6】

前記射影残差は、グラン・シュミットの直交化計算の反復適用により計算される
請求項４に記載のニューラルネットワークの圧縮方法。

【請求項7】

前記再構成誤差は、並列計算される
請求項１から６のいずれか１項に記載のニューラルネットワークの圧縮方法。

【請求項8】

選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成と、を行うニューラルネットワーク圧縮装置であって、
前記プルーニング対象は、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成によって生じる再構成誤差を、調整した前記重みパラメータに基づいて計算し、前記再構成誤差が最小になるように選択されるよう構成され、
前記再構成誤差が最小になるように選択される前記プルーニング対象は、選択される前記プルーニング対象がプルーニングされる前の前記ニューラルネットワークにおいて、前記プルーニング対象として選択され得るものそれぞれをプルーニングしてみたときに前記再構成誤差が最小になるものである
ニューラルネットワーク圧縮装置。

【請求項9】

コンピュータを、ニューラルネットワーク圧縮装置として機能させるためのコンピュータプログラムであって、
前記ニューラルネットワーク圧縮装置は、選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成と、を行うよう構成され、
前記ニューラルネットワーク圧縮装置において、前記プルーニング対象は、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成によって生じる再構成誤差を、調整した前記重みパラメータに基づいて計算し、前記再構成誤差が最小になるように選択され、
前記再構成誤差が最小になるように選択される前記プルーニング対象は、選択される前記プルーニング対象がプルーニングされる前の前記ニューラルネットワークにおいて、前記プルーニング対象として選択され得るものそれぞれをプルーニングしてみたときに前記再構成誤差が最小になるものである
コンピュータプログラム。

【請求項10】

コンピュータに、
選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成と、を行わせる圧縮工程と、
前記圧縮工程により圧縮されたニューラルネットワークのデータを出力させる工程と、
を有し、
前記圧縮工程において、前記プルーニング対象は、プルーニングされたニューラルネットワークの重みパラメータを調整する再構成によって生じる再構成誤差を、調整した前記重みパラメータに基づいて計算し、前記再構成誤差が最小になるように選択され、
前記再構成誤差が最小になるように選択される前記プルーニング対象は、選択される前記プルーニング対象がプルーニングされる前の前記ニューラルネットワークにおいて、前記プルーニング対象として選択され得るものそれぞれをプルーニングしてみたときに前記再構成誤差が最小になるものである
圧縮されたニューラルネットワークデータの製造方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ニューラルネットワークの圧縮に関する。

【背景技術】

【0002】

ディープニューラルネットワーク（ＤＮＮ）のようなニューラルネットワークの圧縮手法として、プルーニング（Pruning；枝刈り）と、再構成（Reconstruction）と、を行う手法がある。

【0003】

プルーニングは、全結合型ニューラルネットワーク（ＦＣＮ）においては、ニューロン（とそのニューロンに接続された重み）の削除として行われ、畳み込み型ニューラルネットワーク（ＣＮＮ）においては、チャネルの削除として行われる（非特許文献１参照）。チャネルの削除は、削除されるチャネルに属する重み全体の削除として行われる。

【0004】

再構成はプルーニング後に行われる。再構成では、プルーニング前の出力に近づくように、ニューラルネットワークの重みパラメータの調整が行われる。例えば、ＦＣＮにおいては、再構成として、ニューロン間の結合の重みパラメータの調整が行われ、ＣＮＮにおいては、再構成として、フィルタ（カーネル）における重みパラメータの調整が行われる。

【先行技術文献】

【非特許文献】

【0005】

【文献】Yihui He, Xiangyu Zhang, Jian Sun, “Channel Pruning for Accelerating Very Deep Neural Networks,” Proc. of ICCV2017, 2017

【発明の概要】

【0006】

プルーニングと再構成とを行う従来の圧縮手法においては、再構成後における誤差（再構成誤差）が最小になるようにプルーニングが行われるわけではない、という課題が存在することを、本発明者らは見出した。以下では、この課題について説明する。なお、以下の説明では、簡単化のため、ＦＣＮを前提として説明する。

【0007】

プルーニングをする際には、削除されるニューロン（プルーニング対象）を選択する必要がある。削除されるニューロンは、削除されるニューロンが存在する層の次層に与える誤差に着目して、選択される。具体的には、ニューロンの削除によって次層に与える誤差が最小となるニューロンが、削除されるニューロンとして選択される。例えば、ニューロンＡ_１を削除した場合に、次層に与える誤差がＥ_１であり、ニューロンＡ_２を削除した場合に、次層に与える誤差がＥ_２である場合、誤差Ｅ_１が誤差Ｅ_２よりも小さければ、ニューロンＡ_１が、ニューロンＡ_２よりも優先して、削除されるニューロンとして選択されることになる。

【0008】

プルーニング後の再構成では、削除されずに残ったニューロンから次層のニューロンへ向かう結合における重みパラメータが、調整される。重みの調整は、ニューロンの削除により次層に与える誤差が最小になるように実行される。例えば、プルーニングにおいてニューロンＡ_１を削除することで次層に与える誤差がＥ_１である場合、再構成では、誤差Ｅ_１ができるだけ小さくなるように、重みの調整が行われる。重みの調整により最小化された誤差Ｅ_１は、再構成誤差Ｅ_１ｒと呼ばれる。

【0009】

以上のような従来の圧縮手法では、再構成誤差Ｅ_１ｒが最小になるようにプルーニングが行われるわけではない。例えば、前述のように、ニューロンＡ_１を削除した場合に次層に与える誤差がＥ_１であり、再構成誤差がＥ_１ｒであるとする。また、ニューロンＡ_２を削除した場合に次層に与えられる誤差がＥ_２であり、再構成誤差がＥ_２ｒであるとする。この場合において、誤差Ｅ_１が誤差Ｅ_２よりも小さいとしても、再構成誤差Ｅ_１ｒが再構成誤差Ｅ_２ｒよりも大きいことがある。すなわち、削除により生じる誤差が最小であっても、再構成誤差が最小になるとの保証はない。

【0010】

したがって、上記の課題の解決が望まれる。本開示において、上記の課題は、再構成誤差が最小になるようにプルーニングすることにより解決される。更なる詳細は、後述の実施形態として説明される。

【図面の簡単な説明】

【0011】

【図1】図１は、ニューラルネットワーク圧縮装置及びニューラルネットワーク利用装置の構成図である。

【図2】図２は、ニューラルネットワークの構成及び伝播量Ｙの定式化の説明図である。

【図3】図３は、比較例に係る圧縮処理のフローチャートである。

【図4】図４は、実施形態に係る圧縮処理のフローチャートである。

【図5】図５は、実施形態に係る圧縮処理のためのGreedy Algorithmである。

【図6】図６は、部分空間Uへのx_jの射影を示す図である。

【図7】図７は、残差r_jの計算方法を示す。

【図8】図８は、残差r_jの計算方法を示す。

【図9】図９は、別のニューロンを削除する際の再構成誤差の計算方法を示す。

【図10】図１０は、別のニューロンを削除する際の再構成誤差の計算方法を示す。

【図11】図１１は、ＲＥＡＰの畳み込み層への適用を示す。

【図12】図１２は、グラン・シュミットの直交化計算の適用による射影残差r_jの計算方法を示す。

【図13】図１３は、実験結果を示す図である。

【発明を実施するための形態】

【0012】

＜１．ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法の概要＞

【0013】

（１）実施形態に係るニューラルネットワークの圧縮方法は、選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの再構成と、が行われる工程を備える。前記プルーニング対象は、プルーニング及び再構成によって生じる再構成誤差が最小になるように選択される。これにより、再構成誤差が最小になるようにプルーニングされる。

【0014】

（２）前記プルーニングは全結合層におけるニューロンのプルーニングであってもよい。

【0015】

（３）前記プルーニングは畳み込み層におけるチャネルのプルーニングであってもよい。

【0016】

（４）前記再構成誤差は、プルーニング対象の挙動ベクトルを、前記プルーニング対象以外の他のプルーニング単位の挙動ベクトルが張る部分空間に射影したときの射影残差に基づいて計算されるのが好ましい。

【0017】

（５）前記射影残差は、プルーニング対象の挙動ベクトルの双直交基底に基づいて計算されるのが好ましい。

【0018】

（６）前記射影残差は、グラン・シュミットの直交化計算の反復適用により計算されてもよい。

【0019】

（７）前記再構成誤差は、並列計算等で高速化されるのが好ましい。

【0020】

（８）実施形態に係るニューラルネットワーク圧縮装置は、選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの再構成と、を行うよう構成されている。ニューラルネットワーク圧縮装置は、前記プルーニング対象は、プルーニング及び再構成によって生じる再構成誤差が最小になるように選択されるよう構成されている。

【0021】

（９）実施形態に係るコンピュータプログラムは、コンピュータを、ニューラルネットワーク圧縮装置として機能させるためのコンピュータプログラムである。前記ニューラルネットワーク圧縮装置は、選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの再構成と、を行うよう構成され、前記ニューラルネットワーク圧縮装置において、前記プルーニング対象は、プルーニング及び再構成によって生じる再構成誤差が最小になるように選択される。

【0022】

（１０）実施形態に係る圧縮されたニューラルネットワークデータの製造方法は、選択されたプルーニング対象に対するプルーニングと、プルーニングされたニューラルネットワークの再構成と、が行われる圧縮工程と、前記圧縮工程により圧縮されたニューラルネットワークのデータを出力する工程と、を有し、前記圧縮工程において、前記プルーニング対象は、プルーニング及び再構成によって生じる再構成誤差が最小になるように選択される。

【0023】

＜２．ニューラルネットワークの圧縮方法、ニューラルネットワーク圧縮装置、コンピュータプログラム、及び圧縮されたニューラルネットワークデータの製造方法の例＞

【0024】

図１は、実施形態に係るニューラルネットワーク圧縮装置（以下、「圧縮装置」という）１０とニューラルネットワーク利用装置（以下、「利用装置」という）１００とを示している。実施形態に係る圧縮装置１０は、ニューラルネットワークＮ１を圧縮して小規模化するための圧縮処理２１を実行する。圧縮処理２１を実行することにより実施される方法は、圧縮されたニューラルネットワークの製造方法又は圧縮されたニューラルネットワークデータの製造方法でもある。

【0025】

ニューラルネットワークは、複数の人工ニューロン（「ノード」ともいう）が結合した人工的な計算機構である。ニューラルネットワークは、例えば、ディープニューラルネットワーク（ＤＮＮ）である。ＤＮＮは、例えば、全結合型ニューラルネットワーク（ＦＣＮ）であってもよいし、畳み込み型ニューラルネットワーク（ＣＮＮ）であってもよい。以下では、圧縮処理の対象となるニューラルネットワークＮ１を、「原ニューラルネットワーク」といい、圧縮されたニューラルネットワークＮ２を「圧縮ニューラルネットワーク」という。なお、実施形態に係る圧縮装置１０は、原ニューラルネットワークＮ１の機械学習（深層学習）のための処理も実行可能である。圧縮装置１０は、学習済の原ニューラルネットワークＮ１を圧縮する。

【0026】

圧縮装置１０は、１又は複数のプロセッサ２０及び記憶装置３０を有するコンピュータによって構成されている。１又は複数のプロセッサ２０は、例えば、グラフィックプロセッシングユニット（ＧＰＵ）を含む。１又は複数のプロセッサ２０は、さらにＣＰＵを含んでもよい。ＧＰＵのような大規模並列計算機構は、大規模なニューラルネットワークに関する処理を実行するための大量の計算に適している。

【0027】

記憶装置３０は、プロセッサ２０によって実行されるコンピュータプログラム３１を記憶している。プロセッサ２０は、コンピュータプログラム３１を実行することで、圧縮処理２１を行う。圧縮処理２１は、プルーニング（Pruning；枝刈り）と再構成（Reconstruction）とを含む。

【0028】

記憶装置３０は、圧縮処理２１によって製造された圧縮ニューラルネットワークＮ２を表すデータ（圧縮ニューラルネットワークデータ）Ｎ２０を記憶することができる。圧縮ニューラルネットワークデータＮ２０は、圧縮ニューラルネットワークＮ２を表現する各種のパラメータ（重み、結合関係など）からなるデータである。圧縮装置１０は、圧縮ニューラルネットワークデータＮ２０を、ニューラルネットワークエンジン等へ、出力することができる。圧縮ニューラルネットワークデータＮ２０は、ニューラルネットワークエンジンに読み込まれることで、そのニューラルネットワークエンジンを圧縮ニューラルネットワークＮ２として機能させる。

【0029】

利用装置１００は、圧縮ニューラルネットワークデータＮ２０を読み込んで、圧縮ニューラルネットワークＮ２として機能するニューラルネットワークエンジンを有する。ニューラルネットワークエンジンは、例えば、プロセッサ２００と記憶装置３００とを備える。プロセッサ２００は、例えば、組み込み系システムにおける低消費電力のＣＰＵでよい。圧縮ニューラルネットワークデータＮ２０は、原ニューラルネットワークＮ１のデータに比べて、サイズが小さいため、低消費電力のＣＰＵによる処理が可能である。

【0030】

組み込み系システムは、汎用的なコンピュータシステムではなく、特定の用途に向けられたコンピュータシステムであり、例えば、スマートフォン・家電などの家庭用機器、産業用ロボットなどの産業用機器、各種の医療用機器、自動車・ドローンなどのビークル、及びその他の機器におけるコンピュータシステムである。組み込み系システムでは、プロセッサとして、低消費電力のＣＰＵが使われることが多いが、圧縮ニューラルネットワークデータＮ２０は、データサイズが小さいため、実行が容易である。

【0031】

圧縮ニューラルネットワークＮ２は、例えば、画像・音声の変換、セグメンテーション、識別などの用途に用いられる。より具体的には、例えば、店舗等の客数計測、男女・年齢層分析、車両計数、車種分析など、対象物の画像から必要な情報を抽出するために用いることができる。原ニューラルネットワークＮ１は大規模であり、計算コストが大きいため、組み込み系システムでの実行が困難であるが、圧縮ニューラルネットワークＮ２は、小規模化されているため、組み込み系システムでの実行が容易である。

【0032】

以下、圧縮処理２１について説明する。以下では、理解の容易のため、まず、全結合型ニューラルネットワーク（ＦＣＮ）を前提に、圧縮処理２１を説明し、その後、同様の圧縮処理２１を、畳み込み型ニューラルネットワーク（ＣＮＮ）に適用できることを説明する。

【0033】

図２は、原ニューラルネットワークＮ１である全結合型ニューラルネットワーク（ＦＣＮ）における層ｌと、層ｌの次の層である層ｌ＋１と、を示している。図２では、２つの層（ｌ層，ｌ＋１層）が代表的に示されている。ＦＣＮにおける各層は、層状に並べられた人工ニューロン（以下、単に「ニューロン」という）が層間で結合されている全結合層である。各層中における丸印がニューロンである。層ｌに含まれるニューロン数はｃであり、層ｌ＋１に含まれるニューロン数はＣである。

【0034】

図２中の式（１）は、ニューラルネットワークにデータが与えられた時における、層ｌから次の層ｌ＋１への伝播量Ｙを定式化している。ここでは、Ｙは、層ｌ＋１のＣ個のニューロンの内部活性度を表すＮ×Ｃ行列とする。換言すると、Ｙは、層ｌから与えられる、層ｌ＋１への入力でもある。

【0035】

Ｎ個のデータ（例えば、Ｎ個の画像データ）を、層ｌのｃ個のニューロンに与えた場合、層ｌの各ニューロンからはＮ個の出力が生じる。層ｌにおけるi番目のニューロンの出力がx_iで表される。x_iは、Ｎ次元のベクトルである。x_iは、i番目のニューロンにＮ個のデータが与えられた時のi番目のニューロンの出力（挙動）を示す。すなわち、x_iはi番目のニューロンの挙動ベクトル（ニューロン挙動ベクトル）でもある。なお、ニューラルネットワークに与えられるデータは、画像以外の他のデータ、例えば、音声データ等であってもよい。画像データ等のデータは、各ニューロンの挙動を把握するために、ニューラルネットワークに与えられる。

【0036】

図２中のｗ_iは、ｌ層のi番目のニューロンから、ｌ＋１層のＣ個のニューロンへ向かう結合の重み（重み係数）からなるＣ次元の重みベクトルである。

【0037】

この場合、次層ｌ＋１への伝播量Ｙは、層ｌにおけるニューロンの出力x_iと、層ｌから次層ｌ＋１への重みベクトルｗ_iと、によって、図２中の式（１）に示すように定式化される。

【0038】

実施形態に係る圧縮処理２１の目的は、上記のＹをできるだけ変化させることなく、ニューロンの数を、所望の数ほど減少させることである。ニューロンを減少させても、Ｙの変化が少なければ、原ニューラルネットワークＮ１の性能を維持することができる。つまり、ニューラルネットワークを圧縮しても、精度低下を防止できる。なお、上記のように、ＦＣＮでは、ニューロンがプルーニング単位であるが、ＣＮＮでは、チャネルがプルーニング単位である。なお、プルーニング単位は、削除の単位である。

【0039】

実施形態に係る圧縮処理２１の説明に先立ち、比較例に係る圧縮処理１２１を説明する。図３は、比較例に係る圧縮処理１２１を示している。図３に示す圧縮処理１２１は、プルーニング工程１２２と、再構成工程１２３と、を有している。比較例においては、プルーニング工程１２２と再構成工程１２３とは完全に分離している。

【0040】

プルーニング工程１２２では、ある層ｌに含まれる複数のニューロン（複数のプルーニング単位）から削除されるニューロン（プルーニング対象）が選択され、選択されたニューロンの削除が行われる。削除されるニューロンが層ｌの中から選択される場合、次層ｌ＋１への伝播量Ｙに与える影響が最も小さくなるニューロンが、削除されるニューロン（プルーニング対象）として選択される。この選択の際には、Lasso回帰を用いて、図３の式（２）に従ってニューロンが選択される（非特許文献１参照。非特許文献１ではチャネルが選択される）。比較例においては、ニューロンの選択の際には、重みが調整されることはない。

【0041】

比較例では、次層ｌ＋１での内部活性度の誤差に関するペナルティ項に重要度ベクトルβのＬ_１ノルムを加えている。重要度ベクトルβのＬ_１ノルムを最小化する重要度ベクトルβを求めると、次層ｌ＋１の活性度の誤差を低く抑えつつゼロ要素の多いβが得られ、削除すべきニューロンを決定できる。すなわち、式（２）の最適化の結果、最適化されたニューロンの重要度ベクトルβ^*が得られるが、そのベクトルのi番目の要素β^* _iが０ならば、i番目のニューロンは不要であり、削除されるニューロンとして選択される。

【0042】

比較例において、削除されるニューロンの数は、ハイパーパラメータλの微調整によってコントロールされる。λを増加させれば、削除されるニューロンの数が増え、λを減少させれば、削除されるニューロンの数が減る。比較例においては、削除されるニューロンの数は、λによってコントロールされるため、削除されるニューロンの数の制御は難しい。

【0043】

再構成工程１２３では、層ｌにおいて、プルーニング後に残ったニューロンが、次層ｌ＋１に与えるＹが、プルーニング前におけるＹ（本来のＹ）に近づくように、重みが調整（最適化）される。重みの調整は、図３中の式（３）に従って行われる。式（３）は、再構成誤差を最小化する重みベクトルを求める。ここでの再構成誤差は、プルーニング前のＹと、プルーニング後に重みを調整したときのＹと、の差に基づく。

【0044】

比較例においては、プルーニング対象は、再構成を行う前の誤差を最小化するように選択されており、再構成後に最も誤差が小さくなるように選択されているわけではない。つまり、比較例では、プルーニング対象の選択は、再構成前の誤差に基づいて行われており、再構成は、再構成後の誤差に基づいて行われており、プルーニングと再構成とが、異なる基準で行われている。また、比較例においては、Lassoを用いており、削除されるニューロンの数をコントロールするには、λの人手による微調整が必要となる。つまり、比較例では、削除されるニューロンの数のコントロールは困難である。

【0045】

図４は、実施形態に係る圧縮処理２１を示している。以下では、実施形態に係る圧縮処理２１を、ＲＥＡＰ（Reconstruction Error Aware Pruning）という。

【0046】

比較例では、プルーニングと再構成とが異なる基準で行われていたのに対して、ＲＥＡＰでは、プルーニングと再構成とを同じ基準で行う。すなわち、ＲＥＡＰでは、再構成誤差が最小になるようにプルーニングされるとともに再構成される。ＲＥＡＰでは、図４中の式（４）に従って、削除されるニューロンが決定される。なお、式（４）のＺ^＊は、層ｌにおいて、削除して残ったニューロンを示す。式（４）においては、重みベクトルｗ_iは、Ｚ’をＺ^＊に固定する前に最適化される。したがって、式（４）によれば、次層ｌ＋１への伝播量Ｙの再構成誤差を最小化するニューロンの集合が求まる。

【0047】

ＲＥＡＰでは、再構成誤差が最小になるようにプルーニング対象であるニューロンが選択されるため、ＲＥＡＰは、再構成誤差が最小になるとは限らない比較例に比べて、有利である。

【0048】

式（４）は、組み合わせ最適化問題であり、グリーディ法（Greedy Algorithm）によって解かれる。図５は、式（４）を解くためのアルゴリズムを示している。まず、ステップＳ１において、層ｌにおけるｊ番目のニューロンを消してみる。ステップＳ２において、層ｌにおいて残ったニューロンのみでＹを再構成して誤差（再構成誤差）を計算する。再構成誤差は、図５中において式（５）として示されるコスト関数Ｐ（Ｚ’）を計算することで求まる。再構成誤差が求まると、一旦、削除したｊ番目のニューロンを元に戻す。ステップＳ３で示される繰り返しループにおいては、ステップＳ１及びステップＳ２がすべてのｊ（j∈Z）について繰り返され、最もＰ（Ｚ’）の値が小さくなるニューロンが、プルーニング対象として選択され、最終的に削除される。

【0049】

ステップＳ３の繰り返しループによって、一つのニューロンが削除される。ステップＳ４で示される繰り返しループにおいては、残ったニューロンのみで、再度、ステップＳ３の繰り返しループが実行される。再度、ステップ３の繰り返しループが実行されると、別のニューロンが削除される。

【0050】

層ｌからいくつのニューロンを削除するかは、ステップＳ４の繰り返しループを何回実行するかによって決まる。したがって、所望数Ｄのニューロンを削除したい場合、ステップＳ４の繰り返しループをＤ回実行すればよい。したがって、ＲＥＡＰでは、削除されるニューロンの数のコントロールは容易である。

【0051】

ＲＥＡＰでは、比較例に比べて、計算量が増加する。すなわち、ＲＥＡＰでは、再構成誤差を求める際に最小二乗法を適用するため、連立方程式を解く必要がある。そして、解く必要のある連立方程式は層内のニューロン数分存在する。例えば、層ｌのニューロン数がｃであり、次層ｌ＋１のニューロン数がＣである場合，重みパラメータ数はｃ×Ｃになる。１個のニューロンを削除する場合、係数行列のサイズが（ｃ－１）Ｃ×（ｃ－１）Ｃとなる。したがって、一つの連立方程式を解くための時間計算量は、Ｏ（ｃ^３Ｃ^３）である。この連立方程式をｃ回解く必要があることから、Ｏ（ｃ^４Ｃ^３）の時間計算量となる。

【0052】

ここで、本来解こうとしている最小二乗問題は、あるニューロンの挙動を表す挙動ベクトルx_jがなくなったときに、残りのニューロン集合Ｚ’の挙動ベクトルx_i（i∈Z’）の線形和で、次層ｌ＋１への本来の伝播量Ｙを近似する、という問題である。この近似による誤差は、図６に示すように、x_jをx_i（i∈Z’）の線形和で表現した際の誤差r_jに起因している。したがって、この誤差r_jを最小化すれば、誤差r_jを示すベクトルに、次層ｌ＋１への重みベクトルw_i ^Tを掛けるだけで、次層ｌ＋１での活性度（伝播量Ｙ）の誤差が計算できる。

【0053】

すなわち、ｊ番目のニューロンの削除により生じる再構成誤差を計算するためには、図６中の式（６－１）に示すコスト関数を計算する必要がある。後述するように、式（６－１）のコスト関数は、式（６－２）のように表される。したがって、x_jをx_i（i∈Z’）が張る部分空間に射影した際の射影残差r_jを、巨大な係数行列を用いることなく、計算することができれば、再構成誤差を効率よく計算することができる。一例として、残差r_jは、式（６－３）のように計算される。

【0054】

残差r_jの求め方の一例は、図７及び図８に詳しく説明されている。図７及び図８に示す計算方法は、残差r_jが、x_jの双直交基底と線形従属であることを利用したものである。すなわち、残差r_jは、x_jの双直交基底に対する、x_jの射影である。残差r_jは、x_jの双直交基底に基づいて計算される。図７及び図８に示す計算方法によれば、連立方程式の係数行列を使用せずに、残差r_jを効率的に計算できる。また、図９及び図１０は、あるニューロンを削除した後に、別のニューロンを削除するための再構成誤差を効率的に計算する方法を説明している。

【0055】

高速化のため、再構成誤差の計算は、並列処理で行うのが好ましい。再構成誤差を並列計算することで、高速に再構成誤差を求めることができる。ただし、最小二乗法を解く際に必要となる係数行列を格納するメモリ量は、並列化によって増大する。

【0056】

したがって、再構成誤差の計算を効率的に行うには、消費メモリ量に相当する空間計算量を削減することが好ましい。ここで、空間計算量（消費メモリ）は一つの連立方程式当たり、Ｏ（ｃ^２Ｃ^２）であり、ｃ個並列計算で同時に計算するとＯ（ｃ^３Ｃ^２）になる。空間計算量を削減するには、連立方程式の係数行列を使用せずに最小二乗法の計算を行うのが好ましい。

【0057】

図１２は、並列計算で残差r_jを求める例を示している。図１２では、グラン・シュミット（Gram-Schmit）の直交化計算を反復適用することで、残差r_jを効率的に計算できる。図１１に示す計算方法では、連立方程式の係数行列を使用せずに、残差r_jを効率的に並列計算できる。ニューロン数が非常に多い（実行環境によるが、目安として、4096個以上）の場合は、グラン・シュミットを用いる解法の方が高速である。

【0058】

図１１は、ＲＥＡＰが畳み込み層におけるプルーニング及び再構成に適用できることを説明している。図１１中の式（１９）に示すように、畳み込み層におけるスライディングウィンドウ操作は、行列乗算の和によって表される。式（１９）は、全結合層のための式（１）と同様の形式であることから、畳み込み層においても、全結合層と同様に、ＲＥＡＰを適用できることがわかる。

【0059】

図１３は、ニューラルネットワークの圧縮をＲＥＡＰ及び比較例によって行った実験結果を示している。実験では、ImageNetデータセットによってトレーニングしたVGG16を、原ニューラルネットワークＮ１として用いた。原ニューラルネットワークＮ１に対する圧縮処理２１としてＲＥＡＰを適用した場合及び比較例を適用した場合それぞれについて、画像の認識精度（正解率）を求めた。

【0060】

図１３の横軸は、ＦＬＯＰｓ（浮動小数点演算数）を示し、縦軸は、正解率を示す。ＦＬＯＰｓが小さいほど、圧縮ニューラルネットワークＮ２の演算数が少なく、圧縮率が大きいことを示す。図１３に示すように、比較例では、圧縮率を増加（削除されるニューロン数を増加）させると、正解率が０．７（７０％）程度まで下がるのに対して、ＲＥＡＰでは、圧縮率を増加させても、正解率は０．８（８０％）程度までしか下がらなかった。したがって、ＲＥＡＰの方が、圧縮による精度低下を抑制できていることがわかる。

【0061】

＜３．付記＞
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。

【符号の説明】

【0062】

１０：ニューラルネットワーク圧縮装置
２０：プロセッサ
２１：圧縮処理
３０：記憶装置
３１：コンピュータプログラム
１００：ニューラルネットワーク利用装置
１２１：圧縮処理
１２２：プルーニング工程
１２３：再構成工程
２００：プロセッサ
３００：記憶装置
Ｎ１：原ニューラルネットワーク
Ｎ２：圧縮ニューラルネットワーク
Ｎ２０：圧縮ニューラルネットワークデータ

【図1】