特開2022-49997 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2022-49997情報処理装置、情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022049997

(43)【公開日】2022-03-30

(54)【発明の名称】情報処理装置、情報処理方法

(51)【国際特許分類】

G06N 3/08 20060101AFI20220323BHJP

【ＦＩ】

G06N3/08

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2020156336

(22)【出願日】2020-09-17

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100116942

【弁理士】

【氏名又は名称】岩田雅信

(74)【代理人】

【識別番号】100167704

【弁理士】

【氏名又は名称】中川裕人

(72)【発明者】

【氏名】西川潤

(57)【要約】

【課題】学習モデルの構築に過度な時間を要せずに推論処理についての演算量を削減する。
【解決手段】情報処理装置は、Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、前記ニューラルネットワークの量子化を行う量子化処理部と、を備えるものとした。
【選択図】図５

【特許請求の範囲】

【請求項1】

Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、
前記ニューラルネットワークの量子化を行う量子化処理部と、を備えた
情報処理装置。

【請求項2】

前記フィルタ削除処理部は、前記Depthwise畳み込みレイヤの後段の前記Batch正規化レイヤにおけるフィルタを前記削除の対象のフィルタとする
請求項１に記載の情報処理装置。

【請求項3】

前記フィルタ削除処理部は、前記フィルタの削除において前記Batch正規化レイヤの出力値を近似式で置き換える処理を行う
請求項２に記載の情報処理装置。

【請求項4】

前記フィルタが削除された前記Batch正規化レイヤの後段に設けられた畳み込みレイヤにおけるパラメータを調整する調整処理部を備えた
請求項２に記載の情報処理装置。

【請求項5】

前記調整処理部は、前記Batch正規化レイヤの後段に設けられた前記畳み込みレイヤのバイアスパラメータを調整する
請求項４に記載の情報処理装置。

【請求項6】

前記Batch正規化レイヤにおけるパラメータを他の畳み込みレイヤに折り込む折り込み処理部を備えた
請求項１に記載の情報処理装置。

【請求項7】

前記折り込み処理部は、前記Batch正規化レイヤにおけるパラメータを前段のDepthwise畳み込みレイヤに折り込む
請求項６に記載の情報処理装置。

【請求項8】

前記Batch正規化レイヤにおいてゼロ除算を回避するために分母に加算される変数を前記閾値として利用する
請求項１に記載の情報処理装置。

【請求項9】

Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除処理と、
前記ニューラルネットワークの量子化処理と、をコンピュータ装置が実行する
情報処理方法。

【請求項10】

ニューラルネットワークの量子化を行う量子化処理部を備え、
前記量子化処理部は、
前記ニューラルネットワークにおけるアクティベーションデータの量子化と、前記ニューラルネットワークにおけるウェイトデータの量子化と、を個別に行う
情報処理装置。

【請求項11】

前記アクティベーションデータの量子化後と前記ウェイトデータの量子化後のそれぞれにおいて再学習処理を行う学習モデル生成部を備えた
請求項１０に記載の情報処理装置。

【請求項12】

前記ニューラルネットワークは、Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有し、
前記ニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、を備えた
請求項１０に記載の情報処理装置。

【請求項13】

前記量子化処理部は、前記フィルタ削除処理部によるフィルタの削除が実行された後に前記アクティベーションデータの量子化と前記ウェイトデータの量子化を行う
請求項１２に記載の情報処理装置。

【請求項14】

前記フィルタ削除処理部は、前記アクティベーションデータの量子化の前後それぞれにおいて前記フィルタの削除を行う
請求項１３に記載の情報処理装置。

【請求項15】

前記フィルタ削除処理部は、前記フィルタの削除を一度だけ行い、
前記量子化処理部は、前記一度のフィルタの削除の後に前記アクティベーションデータの量子化と前記ウェイトデータの量子化を行う
請求項１３に記載の情報処理装置。

【請求項16】

ニューラルネットワークにおけるアクティベーションデータの量子化と、前記ニューラルネットワークにおけるウェイトデータの量子化と、が個別に行われるようにコンピュータ装置が実行する
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、ニューラルネットワークの量子化のための情報処理装置及び情報処理方法に関する。

【背景技術】

【0002】

種々の情報処理装置においてニューラルネットワークが活用されてきている。ニューラルネットワークによる学習処理や分析処理（推論処理）に要する演算量は肥大化してきており、効率的な処理を行う技術が求められている。
このような問題に鑑みて、ニューラルネットワークの量子化技術が提案されている。ニューラルネットワークの量子化を行うことにより各パラメータのビット数が削減され演算コストを大幅に低減させることができる。
ところが、ニューラルネットワークの量子化においては、パラメータのダイナミックレンジが広がってしまい適切な量子化が難しい場合がある。
下記の非特許文献１においては、この問題の原因がDepthwise Convolution（以下、「ＤＣ」と記載）とBatch Normalization（以下、「ＢＮ」と記載）の組み合わせで使用されるＢＮにあることを主張し、この問題への対処としてＤＣ後にＢＮを用いないアーキテクチャを提案している。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Tao Sheng, Chen Feng, Shaojie Zhuo, Xiaopeng Zhang, Liang Shen, Mickey Aleksic, "A Quantization-Friendly Separable Convolution for MobileNets", 2018 1st Workshop on Energy Efficient Machine Learning and Cognitive Computing for Embedded Applications, doi:10.1109/EMC2.2018.00011

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、ニューラルネットワークで用いる各パラメータを多くのｂｉｔ数（例えば３２ｂｉｔ）で表現した状態で生成された学習モデルを処理能力の低いコンピュータ装置で利用しようとした場合には、ニューラルネットワークの量子化を行うことにより、各パラメータを少ないｂｉｔ数（例えば８ｂｉｔ）で表現することで推論処理に係る演算量を削減した上で、コンピュータ装置に移植することが考えられる。

【0005】

ところが、従来のネットワーク構造を持つ学習モデルを量子化する際に、非特許文献１に記載されたような効果を得るためには、従来のネットワーク構造を持つ学習モデルから非特許文献１に記載されたネットワーク構造（ＤＣ後にＢＮを配置しない構造）を持つ学習モデルへと構築し直し、その後に量子化を行う必要が生じてしまう。
これによって、量子化前に行う学習モデルの再構築に係る処理の処理負担が大きくなってしまうと共に、量子化を終えるまでに多大な時間を要してしまうという問題がある。

【0006】

本技術は上記事情に鑑み為されたものであり、学習モデルの構築に係るコストの削減を図りつつ推論処理についての演算量を削減することを目的とする。

【課題を解決するための手段】

【0007】

本技術に係る情報処理装置は、Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、前記ニューラルネットワークの量子化を行う量子化処理部と、を備えている。
分散が小さいフィルタを削除することで、各パラメータの大小関係や差分が可能な限り保持されたままニューラルネットワークの量子化を行うことができる。

【0008】

上記した情報処理装置における前記フィルタ削除処理部は、前記Depthwise畳み込みレイヤの後段の前記Batch正規化レイヤにおけるフィルタを前記削除の対象のフィルタとしてもよい。
Depthwise畳み込みレイヤの後段、特に直後のBatch正規化レイヤにおいては、分散の小さなフィルタが存在する。

【0009】

上記した情報処理装置における前記フィルタ削除処理部は、前記フィルタ削除処理部は、前記フィルタの削除において前記Batch正規化レイヤの出力値を近似式で置き換える処理を行ってもよい。
これにより、量子化誤差を小さくすることができる。

【0010】

上記した情報処理装置においては、前記フィルタが削除された前記Batch正規化レイヤの後段に設けられた畳み込みレイヤにおけるパラメータを調整する調整処理部を備えていてもよい。
例えば、フィルタを削除したことによる推論性能への影響が少なくなるようにパラメータの調整処理を行う。

【0011】

上記した情報処理装置における前記調整処理部は、前記Batch正規化レイヤの後段に設けられた前記畳み込みレイヤのバイアスパラメータを調整してもよい。
これにより、フィルタ削除が推論結果に与える影響を小さくすることができる。

【0012】

上記した情報処理装置においては、前記Batch正規化レイヤにおけるパラメータを他の畳み込みレイヤに折り込む折り込み処理部を備えていてもよい。
これにより、例えば、フィルタ削除されたレイヤを削除することができる。

【0013】

上記した情報処理装置における前記折り込み処理部は、前記Batch正規化レイヤにおけるパラメータを前段のDepthwise畳み込みレイヤに折り込む処理を実行してもよい。
これにより、学習結果としてBatch正規化レイヤが獲得した機能がDepthwise畳み込みレイヤに集約される。

【0014】

上記した情報処理装置においては、前記Batch正規化レイヤにおいてゼロ除算を回避するために分母に加算される変数を前記閾値として利用してもよい。
これにより、閾値をユーザが入力しなくても済む。

【0015】

本技術に係るコンピュータ装置が実行する情報処理方法は、Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除処理と、前記ニューラルネットワークの量子化処理と、を行うものである。
このような情報処理方法によっても、上記した本技術に係る情報処理装置と同様の作用を得ることができる。

【0016】

本技術に係る情報処理装置は、ニューラルネットワークの量子化を行う量子化処理部を備え、前記量子化処理部は、前記ニューラルネットワークにおけるアクティベーションデータの量子化と、前記ニューラルネットワークにおけるウェイトデータの量子化と、を個別に行うものである。
これにより、アクティベーションデータの量子化による推論結果の変化やウェイトデータの量子化による推論結果の変化は、双方を一度に量子化した場合と比較して小さくされる。

【0017】

上記した情報処理装置においては、前記アクティベーションデータの量子化後と前記ウェイトデータの量子化後のそれぞれにおいて再学習処理を行う学習モデル生成部を備えていてもよい。
再学習を行うことで、量子化により変化した最適な学習モデルに追随させることができる。

【0018】

上記した情報処理装置において、前記ニューラルネットワークは、Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有し、前記ニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、を備えていてもよい。
分散が小さいフィルタを削除することで、各パラメータの大小関係や差分が可能な限り保持されたままニューラルネットワークの量子化を行うことができる。

【0019】

上記した情報処理装置における前記量子化処理部は、前記フィルタ削除処理部によるフィルタの削除が実行された後に前記アクティベーションデータの量子化と前記ウェイトデータの量子化を行ってもよい。
これにより、パラメータのダイナミックレンジが狭められた状態で量子化及び再学習が行われる。

【0020】

上記した情報処理装置における前記フィルタ削除処理部は、前記アクティベーションデータの量子化の前後それぞれにおいて前記フィルタの削除を行ってもよい。
これにより、アクティベーションデータの量子化後にダイナミックレンジを広げてしまうような問題のあるフィルタが発生した場合でも当該フィルタが削除される。

【0021】

上記した情報処理装置における前記フィルタ削除処理部は、前記フィルタの削除を一度だけ行い、前記量子化処理部は、前記一度のフィルタの削除の後に前記アクティベーションデータの量子化と前記ウェイトデータの量子化を行ってもよい。
これにより、フィルタ削除処理に要する時間を短くすることができる。

【0022】

本技術に係るコンピュータ装置が実行する情報処理方法は、ニューラルネットワークにおけるアクティベーションデータの量子化と、前記ニューラルネットワークにおけるウェイトデータの量子化と、が個別に行われるようにされたものである。
このような情報処理方法によっても、上記した本技術に係る情報処理装置と同様の作用を得ることができる。

【図面の簡単な説明】

【0023】

【図1】量子化誤差についての説明図である。

【図2】本技術に係る情報処理装置が実行するニューラルネットワークのレイヤ構成の例を示す図である。

【図3】コンピュータ装置のブロック図である。

【図4】情報処理装置の機能ブロック図を示す図である。

【図5】ニューラルネットワークの量子化についての処理フローの一例を示すフローチャートである。

【図6】フィルタ削除処理の一例を示すフローチャートである。

【図7】ニューラルネットワークの量子化についての処理フローの別の例を示すフローチャートである。

【発明を実施するための形態】

【0024】

以下、添付図面を参照し、本技術に係る実施の形態を次の順序で説明する。
＜１．ＤＮＮの量子化の弊害＞
＜２．一般的なＤＮＮのレイヤ構成＞
＜３．情報処理装置の構成＞
＜４．量子化フロー＞
＜５．変形例＞
＜６．まとめ＞
＜７．本技術＞

＜１．ＤＮＮの量子化の弊害＞
本技術の情報処理装置１は、ニューラルネットワークの一種であるＤＮＮ（Deep Neural Network）による画像認識処理についての各種演算を実行可能とされている。
例えば、情報処理装置１は、ＤＮＮを用いた学習を行うことにより学習モデルを構築する。情報処理装置１の処理によって構築された学習モデルは、情報処理装置１やその他のコンピュータ装置において推論処理に用いられる。具体的には、構築された学習モデルに任意の画像データを入力することにより画像内の被写体を推論する処理が行われる。これにより、被写体の分類などが可能となる。

【0025】

情報処理装置１は、高性能なＰＣ（Personal Computer）やコンピュータ装置だけでなく、スマートフォンや小型のコンピュータ装置などにも適用可能である。
ＤＮＮを用いて学習モデルを構築する処理や、入力された画像データの解析処理は、演算コストが高いため、演算処理能力の高くないスマートフォンや小型のコンピュータ装置においては適切なパフォーマンスを発揮できない虞がある。

【0026】

そこで、ＤＮＮの量子化を行うことが好適である。

【0027】

例えば、ＤＮＮで用いられるパラメータとしては、各層の入力データであるアクティベーションデータや、演算に用いられる係数であるウェイト（重み）データなどが存在する。これらの各パラメータを３２ｂｉｔで表現することで得られた学習モデルを用いることにより、適切な推論結果を得ることが可能である。

【0028】

しかし、３２ｂｉｔなどのように各パラメータのビット数を多くしてしまうと、高性能な学習モデルを得られる反面、演算コストが増大してしまう。ここでいう演算コストとは、演算に要する時間コストだけでなく、ハードウェアコストも含まれている。

【0029】

ＤＮＮの量子化では、ＤＮＮに用いられる各パラメータのビット数を減らすことで演算コストの削減を図るものである。即ち、３２ｂｉｔで表現していた各パラメータを例えば８ｂｉｔや４ｂｉｔなどの少ないビット数で表現することを指す。

【0030】

但し、ＤＮＮの量子化には、演算量を大幅に削減して軽量化することができるという利点だけでなく、推論結果の正しさが劣化してしまう（即ち性能が落ちる）という欠点がある。
ＤＮＮの量子化においては、この欠点を可能な限り小さくすることが好ましい。

【0031】

ＤＮＮの量子化を行ったことによる推論性能の劣化としては、量子化誤差による劣化や量子化後の学習モデルの再構築時の劣化が考えられる。

【0032】

ここで、量子化誤差による性能劣化について図１を参照して説明する。
例えば、４ｂｉｔで表現されたパラメータを２ｂｉｔで表現するように量子化を行った場合について考える。

【0033】

４ｂｉｔで表現されるパラメータは、例えば、０～１５の範囲の値を取り得る。また、２ｂｉｔで表現されるパラメータは、例えば、０～３の範囲の値を取り得る。

【0034】

［４，３，０，１，５，１５］の値を取る４ｂｉｔのパラメータを２ｂｉｔのパラメータで表現すると、［１，０，０，０，１，３］となる。即ち、４ｂｉｔにおける０～３の値は２ｂｉｔにおける「０」へと変換され、４ｂｉｔにおける４～７の値は２ｂｉｔにおける「１」へと変換され、４ｂｉｔにおける８～１１の値は２ｂｉｔにおける「２」へと変換され、４ｂｉｔにおける１２～１５の値は２ｂｉｔにおける「３」へと変換される。
これは、［４，３，０，１，５，１５］とされたパラメータが［４，０，０，０，４，１２］に変換されたことと同義であり、例えば、二つ目のパラメータである「３」と三つ目のパラメータである「０」が本来有する差分が量子化によって失われてしまうことを意味する。また、一つ目のパラメータである「４」と二つ目のパラメータである「３」の差分は量子化によってより大きく表現されてしまうことを意味する（図１参照）。

【0035】

このようにして、４ｂｉｔで表現されたパラメータを用いて最適化されたはずの学習モデルが、量子化を行うことにより最適な学習モデルではなくなってしまい、推論性能が劣化する。

【0036】

ところで、［４，３，０，１，５，１５］の値を取る４ｂｉｔのパラメータは、「１５」の値さえなければ、値の取り得る範囲を大きく狭めること（０～５の範囲に狭めること）ができる。即ち、［４，３，０，１，５，１５］で表されるパラメータは、値「１５」さえ無ければ量子化時の刻み幅を小さくすることができ、ダイナミックレンジに関する問題点が解消されるため、量子化誤差を小さくすることが可能となる。

【0037】

なお、［４，３，０，１，５，１５］の値を取る４ｂｉｔのパラメータは、０～１５の範囲において偏らずに分布されたパラメータ（例えば、［４，２，９，１４，７，１１］のような値を取るパラメータ）と比較して、分散σが小さくされている。

【0038】

従って、分散σが小さくなるようなパラメータを生成してしまうフィルタを削除することで、ダイナミックレンジが改善され、量子化誤差を小さくすることができる。

【0039】

但し、フィルタを削除するだけでは推論結果に影響を及ぼしてしまう可能性が高く、推論結果に影響を与えないようにパラメータ調整処理を合わせて行うことが望ましい。

【0040】

＜２．一般的なＤＮＮのレイヤ構成＞
ＤＮＮにおける学習モデルの構築処理や推論処理に係る演算量の削減を実現するための一般的なＤＮＮのレイヤ構成として、ＤＣ（Depthwise Convolution）レイヤとＰＣ（Pointwise Convolution）レイヤを備えた構成が知られている。

【0041】

例えば、図２に示すように、ＤＣレイヤ（畳み込みレイヤ）Ｌ１、ＢＮ（Batch Normalization）レイヤＬ２、ＲｅＬＵ（Rectified Linear Unit）／ＲｅＬＵ６レイヤＬ３、ＰＣレイヤ（畳み込みレイヤ）Ｌ４、ＢＮレイヤＬ５、ＲｅＬＵ／ＲｅＬＵ６レイヤＬ６を順に備えた構成などである。

【0042】

このようなレイヤ構成において、上述したようにパラメータの分散が小さくなるのは、ＤＣレイヤＬ１の直後にＢＮレイヤＬ２が配置されていることに起因する。

【0043】

＜３．情報処理装置の構成＞
ＤＮＮの量子化を行う情報処理装置１の構成例について、図３及び図４を参照して説明する。
情報処理装置１としてのコンピュータ装置のブロック図を図３に示す。

【0044】

コンピュータ装置のＣＰＵ１１は、ＲＯＭ１２や例えばＥＥＰ－ＲＯＭ（Electrically Erasable Programmable Read-Only Memory）などの不揮発性メモリ部１４に記憶されているプログラム、または記憶部１９からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１３にはまた、ＣＰＵ１１が各種の処理を実行する上において必要なデータなども適宜記憶される。
ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、不揮発性メモリ部１４は、バス２３を介して相互に接続されている。このバス２３にはまた、入出力インタフェース（Ｉ／Ｆ）１５も接続されている。

【0045】

入出力インタフェース１５には、操作子や操作デバイスよりなる入力部１６が接続される。
例えば入力部１６としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
入力部１６によりユーザの操作が検知され、入力された操作に応じた信号はＣＰＵ１１によって解釈される。

【0046】

また入出力インタフェース１５には、ＬＣＤ或いは有機ＥＬパネルなどよりなる表示部１７や、スピーカなどよりなる音声出力部１８が一体又は別体として接続される。
表示部１７は各種表示を行う表示部であり、例えばコンピュータ装置の筐体に設けられるディスプレイデバイスや、コンピュータ装置に接続される別体のディスプレイデバイス等により構成される。
表示部１７は、ＣＰＵ１１の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部１７はＣＰＵ１１の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を行う。

【0047】

入出力インタフェース１５には、ハードディスクや固体メモリなどより構成される記憶部１９や、モデムなどより構成される通信部２０が接続される場合もある。

【0048】

通信部２０は、インターネット等の伝送路を介しての通信処理や、各種機器との有線／無線通信、バス通信などによる通信を行う。

【0049】

入出力インタフェース１５にはまた、必要に応じてドライブ２１が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記憶媒体２２が適宜装着される。
ドライブ２１により、リムーバブル記憶媒体２２からはＤＮＮ処理に用いられるプログラム等のデータファイルや推論処理の対象となる画像データや教師データとしての画像データなどを読み出すことができる。読み出されたデータファイルは記憶部１９に記憶されたり、データファイルに含まれる画像や音声が表示部１７や音声出力部１８で出力されたりする。またリムーバブル記憶媒体２２から読み出されたコンピュータプログラム等は必要に応じて記憶部１９にインストールされる。

【0050】

このコンピュータ装置では、例えば本実施の形態の処理のためのソフトウェアを、通信部２０によるネットワーク通信やリムーバブル記憶媒体２２を介してインストールすることができる。或いは当該ソフトウェアは予めＲＯＭ１２や記憶部１９等に記憶されていてもよい。

【0051】

ＣＰＵ１１が各種のプログラムに基づいて処理動作を行うことで、情報処理装置１としての必要な情報処理や通信処理が実行される。
なお、情報処理装置１は、図２のようなコンピュータ装置が単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置は、ＬＡＮ（Local Area Network）等によりシステム化されていてもよいし、インターネット等を利用したＶＰＮ（Virtual Private Network）等により遠隔地に配置されたものでもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なサーバ群（クラウド）としてのコンピュータ装置が含まれてもよい。

【0052】

このような情報処理装置１のＣＰＵ１１がプログラムに基づいて動作することで、情報処理装置１のＣＰＵ１１は図４に示す学習モデル生成部３１、量子化処理部３２、フィルタ削除処理部３３、調整処理部３４、折り込み処理部３５として機能する。

【0053】

学習モデル生成部３１は、学習用の画像データなどを入力することにより、畳み込みレイヤなどの各レイヤにおける機械学習を行う。学習を行うことにより、各レイヤにおける最適なパラメータを獲得することができる。そして、学習モデル生成部３１は、学習を終えることにより学習モデルを獲得する。

【0054】

また、学習モデル生成部３１は、ＤＮＮの量子化に応じて必要となる再学習処理を行う。これにより、量子化されたパラメータに適応した学習モデルが再構築される。

【0055】

量子化処理部３２は、ＤＮＮにおけるアクティベーションデータの量子化とウェイトデータの量子化を行う。これらの量子化を行うことにより、扱うパラメータのデータ量を削減できると共に、推論処理の演算量を大幅に削減することができる。具体的には後述する。

【0056】

フィルタ削除処理部３３は、ＢＮレイヤＬ２においてパラメータの分散σが小さくなってしまうようなフィルタ、即ち、量子化において量子化誤差が大きくなってしまう要因となるフィルタの削除を行う。具体的には後述する。

【0057】

調整処理部３４は、フィルタ削除処理部３３によるフィルタ削除処理によって推論結果に大きな影響がでてしまうのを防止するために後段の畳み込みレイヤにおけるパラメータの調整を行う。具体的には後述する。

【0058】

折り込み処理部３５は、ＢＮレイヤＬ２のパラメータを直前の畳み込みレイヤ（ＤＣレイヤＬ１やＰＣレイヤＬ４など）に折り込む処理を行う。これにより、ＤＮＮからＢＮレイヤＬ２を無くすことができる。また、ＢＮレイヤＬ２のパラメータを直前の畳み込みレイヤに折り込むことで、ＢＮレイヤＬ２の機能が畳み込みレイヤに集約される。

【0059】

＜４．量子化フロー＞
情報処理装置１のＣＰＵ１１がＤＮＮの量子化を行う際の処理フローについて、図５を参照して説明する。

【0060】

ＤＮＮの量子化においては、先ず、ＣＰＵ１１はステップＳ１０１において、Ｐｒｕｎｉｎｇ処理（フィルタ削除処理）を実行する。
フィルタ削除処理では、分散σの小さなフィルタの削除を行う。また、フィルタの削除による推論性能の劣化を抑制するためのパラメータ（係数）の調整を行う。

【0061】

ステップＳ１０１のフィルタ削除処理の一例を図６に示す。
フィルタ削除処理では、ＣＰＵ１１は先ずステップＳ２０１において、ＤＮＮの中で未処理のＢＮレイヤが存在するか否かを判定する。未処理のＢＮレイヤが存在する場合には、ＣＰＵ１１はステップＳ２０２で未処理のＢＮレイヤを一つ選択すると共に、選択されたＢＮレイヤを処理対象としてステップＳ２０３から続く一連の処理を行う。

【0062】

一方、ステップＳ２０１において、ＤＮＮの中のＢＮレイヤ全てに対して一連の処理を実行し終えた場合には、ＣＰＵ１１は図６に示すフィルタ削除処理を終える。

【0063】

ＣＰＵ１１は、ステップＳ２０２で一つの未処理のＢＮレイヤを選択した後、ステップＳ２０３において、処理対象のＢＮレイヤに未処理のフィルタが存在するか否かを判定する。ＢＮレイヤが備える全てのフィルタについての処理を終えた場合には、ＣＰＵ１１はステップＳ２０３からステップＳ２０１へと戻り、次の未処理のＢＮレイヤを選択するための判定処理を行う。

【0064】

一方、未処理のフィルタが存在すると判定した場合、ＣＰＵ１１はステップＳ２０４において、未処理のフィルタを一つ選択する。
ここで、ＢＮレイヤにおけるフィルタ演算について説明する。
先ず、ＢＮレイヤの前段に設けられた畳み込みレイヤの演算は以下の［式１］で表すことができる。

【0065】

【数1】

【0066】

［式１］における変数ｗはウェイトデータを表し、変数ｘはアクティベーションデータを表し、変数ｂはバイアスパラメータを表している。また、変数ｗと変数ｂはＤＮＮの量子化を行う前の学習において獲得されたパラメータである。
次に、各変数の添え字として用いられている各変数について説明する。変数Ｌはレイヤを特定する数値とされ、変数ｏはフィルタのインデックス値とされ、変数ｓ及び変数ｔは出力マップにおけるピクセル位置を特定するための値とされている。
更に、変数ｈ及び変数ｖは畳み込み処理に用いられるフィルタ（カーネル）内のパラメータ位置を示す値とされ、変数ｉは入力画像を特定するための値とされる。例えば、Ｒ（赤）画像とＧ（緑）画像とＢ（青）画像の三つの画像が入力データとされ、各入力画像に対して畳み込み処理を行う場合において、変数ｉは、入力画像がＲ画像、Ｇ画像、Ｂ画像の何れの画像であるかを特定するための値とされる。

【0067】

ＢＮレイヤにおけるフィルタ処理では、畳み込みレイヤの演算結果である変数Ｃに対して処理を行う。この演算式は、以下の［式２］で表すことができる。

【0068】

【数2】

【0069】

［式２］における変数Ｃは前段の畳み込みレイヤの出力値（即ち［式１］の出力値）を表し、変数μは平均値を表し、変数σは分散を表す。また、変数εは、ゼロ値で除算されることを回避するために分母に加えられるゼロ値ではない微小な値とされている。更に、変数γや変数βは、ＤＮＮの量子化を行う前の学習において得られたパラメータである。

【0070】

図６のステップＳ２０４では、［式２］で表されるようなフィルタを一つ一つ選択する処理である。
ＣＰＵ１１は続くステップＳ２０５において、分散σが閾値よりも小さいか否かを判定する。なお、本実施の形態においては、この判定に用いる閾値として変数εを利用する。これにより、閾値を設定する手間や算出する手間を省くことができる。

【0071】

分散σが閾値よりも小さいと判定した場合、ＣＰＵ１１はステップＳ２０６において、選択中のフィルタを削除する処理を行う。
ここで、フィルタの削除について説明する。

【0072】

上記した［式２］における分散σは、以下の［式３］で算出される。

【0073】

【数3】

【0074】

変数Ｂは処理対象の入力マップの数（例えば画像の枚数）を示し、変数Ｓと変数Ｔは、一枚の入力マップにおける縦の画素数と横の画素数を表している。即ち、変数Ｂと変数Ｓと変数Ｔを乗算した結果は、処理対象となる画素の数を表している。また、変数ｂは処理対象の入力マップを特定するための変数とされる。

【0075】

ここで、分散σが小さいということは、［式３］において、［式４］で表される演算の結果が小さいことと同義である。

【0076】

【数4】

【0077】

ここで、分散σが小さい場合の［式２］を近似することを考える。分散σが小さい値である場合には、変数γに乗算される値の分母の値（［式５］）は、変数εに近づく。一方、分子の値（［式６］）はゼロ値に近づく。

【0078】

【数5】

【0079】

【数6】

【0080】

即ち、変数γに乗算される値は分散σが小さいほどゼロ値に近づく。これにより、［式２］は以下の［式７］に近似することが可能である。

【0081】

【数7】

【0082】

図６のステップＳ２０６で実行するフィルタの削除処理は、［式７］に示す近似式を用いた近似を行う処理である。

【0083】

フィルタの削除の実行可否は、フィルタごとに判断される。即ち、変数ｏで特定されるフィルタが分散σの値が小さいフィルタである場合に限りフィルタの削除が行われる。

【0084】

フィルタを削除した後、ＣＰＵ１１はステップＳ２０７において、選択中のＢＮレイヤの後段の畳み込みレイヤで用いる変数ｂ（バイアスパラメータ、［式１］参照）を調整する処理を行う。例えば、図２におけるＢＮレイヤＬ２についての削除処理を実行している場合における後段の畳み込みレイヤはＰＣレイヤＬ４となる。
これにより、フィルタ削除が推論結果に与える影響を最小限にすることができる。

【0085】

変数ｂの調整処理の演算は、以下の［式８］で表すことができる。

【0086】

【数8】

【0087】

Ａｃｔ関数は活性化関数を表している。変数Ｌは上述のようにレイヤを特定するものとされている。例えば、ＬはＢＮレイヤＬ２を表し、（Ｌ＋１）はＰＣレイヤＬ４を表している。

【0088】

ＣＰＵ１１は図６のステップＳ２０７において後段の畳み込みレイヤのパラメータ調整を行った後、次の未処理のフィルタを選択するためにステップＳ２０３へと進む。

【0089】

再び図５の説明に戻る。
ＣＰＵ１１は、ステップＳ１０１のフィルタ削除処理として図６に示す一連の処理を終えた後、ステップＳ１０２のＱｕａｎｔｉｚｅＡｃｔｉｖａｔｉｏｎ（アクティベーション量子化処理）を行う。

【0090】

なお、ＤＮＮの量子化においては、一般的に、アクティベーションデータ（［式１］の変数ｘ）の量子化とウェイトデータ（［式１］の変数ｗ）の量子化が一度に行われる。
しかし、アクティベーションデータとウェイトデータの双方の量子化を一度に行ってしまうと、量子化後の再学習において各レイヤにおける入力データや出力データが変化しすぎてしまう可能性が高い。その結果、再学習に長い時間が掛かってしまったり、完成した学習モデルの性能が低下し推論結果が劣化してしまったりする。

【0091】

本実施の形態では、アクティベーションデータとウェイトデータの量子化を個別に行うと共に、それぞれにおいて再学習処理を行う。
具体的には、先ずステップＳ１０２においてアクティベーションデータの量子化が行われる。そして、ＣＰＵ１１は続くステップＳ１０３においてアクティベーション量子化処理によって最適でなくなった学習モデルを最適なものへと戻すための再学習処理を行う。即ち、再学習処理では、アクティベーションデータの量子化に合わせた学習モデルの構築が行われる。
これにより、各レイヤにおける入力データや出力データの変化量を抑えた状態で再学習を行うことができるため、推論性能の劣化を抑えることが可能である。

【0092】

続いて、ＣＰＵ１１はステップＳ１０４のＰｒｕｎｉｎｇ処理（フィルタ削除処理）を実行する。この処理は、ステップＳ１０１のフィルタ削除処理と同様の処理である。即ち、アクティベーション量子化処理において再び発生してしまった削除対象のフィルタの削除を行う。

【0093】

ＣＰＵ１１は、ステップＳ１０５のＦｏｌｄｉｎｇＢＮ処理（折り込み処理）を行う。折り込み処理は、ＤＣレイヤＬ１の直後にあるＢＮレイヤＬ２を削除するために、ＢＮレイヤＬ２で用いられるパラメータを直前のＤＣレイヤＬ１に折り込む処理である。

【0094】

折り込み処理の演算は以下の［式９］で表される。

【0095】

【数9】

【0096】

変数ｗ１は変数ｗを新たに置き換えたものであり、ＤＣレイヤＬ１におけるウェイトデータである。即ち、ＤＣレイヤＬ１における畳み込み処理では、以下の［式１０］で示す演算が行われる。

【0097】

【数10】

【0098】

［式１０］に示すように、ＤＣレイヤＬ１における変数ｗ１は、ＢＮレイヤＬ２のパラメータを折り込んだものとされる。即ち、学習によりＢＮレイヤＬ２が獲得したパラメータによってＢＮレイヤＬ２に付与されていた機能がＤＣレイヤＬ１に組み込まれたことを意味する。
これにより、量子化を終えた後のＤＮＮからＢＮレイヤＬ２を削除することができる。

【0099】

ＣＰＵ１１はステップＳ１０６において、この新たなウェイトデータ（変数ｗ１）を対象としてＱｕａｎｔｉｚｅＷｅｉｇｈｔ処理（ウェイト量子化処理）を実行する。そして、ＣＰＵ１１は、ウェイト量子化処理によって最適でなくなった学習モデルを最適なものへとするために、ステップＳ１０７において再学習処理を行う。

【0100】

このようにして、アクティベーションデータの量子化とウェイトデータの量子化を個別に実行すると共に、それぞれで再学習処理を実行することにより、推論性能の劣化の防止を図りつつ演算量の削減及び軽量化を図ることができる。

【0101】

＜５．変形例＞
量子化フローの変形例について説明する。
図５に示した量子化フローの変形例を図７に示す。
ＣＰＵ１１は、先ずステップＳ１０１でＰｒｕｎｉｎｇ処理（フィルタ削除処理）を実行する。この処理の詳細は図６を用いて説明したものと同様である。

【0102】

続いて、ＣＰＵ１１は、ステップＳ１０５のＦｏｌｄｉｎｇＢＮ処理（折り込み処理）を行う。折り込み処理により、ＢＮレイヤＬ２で用いられるパラメータが直前のＤＣレイヤＬ１に折り込まれるため、ＢＮレイヤＬ２の削除が可能となる。

【0103】

次に、ＣＰＵ１１は、ステップＳ１０２のＱｕａｎｔｉｚｅＡｃｔｉｖａｔｉｏｎ（アクティベーション量子化処理）を行い、ステップＳ１０３の最適化処理を行う。これにより、アクティベーション量子化処理によるパラメータの変化に追随した最適な学習モデルが構築される。

【0104】

最後に、ＣＰＵ１１はステップＳ１０６において、ステップＳ１０２で変換された新たなウェイトデータ（変数ｗ１）を対象としてＱｕａｎｔｉｚｅＷｅｉｇｈｔ処理（ウェイト量子化処理）を実行い、ステップＳ１０７の再学習処理を行う。これにより、ウェイト量子化処理によるパラメータの変化に追随した最適な学習モデルが構築される。

【0105】

図７に示す変形例によれば、フィルタ削除処理の実行回数が１回とされているため、ＤＮＮの量子化を進める際の演算量の削減が図られる。

【0106】

上述した例では、ＤＣレイヤＬ１に着目した。即ち、ＤＣレイヤＬ１の直後にＢＮレイヤＬ２が配置されている場合に、ＢＮレイヤＬ２に対してフィルタ削除処理を実行する例を説明した。これに限らず、本技術は、畳み込みレイヤの直後にＢＮレイヤが配置されている場合に広く適用可能である。上述した例であれば、ＰＣレイヤＬ４の直後にＢＮレイヤＬ５が配置されているため、ＢＮレイヤＬ５に対してフィルタの削除処理を実行してもよい。これにより、ダイナミックレンジを狭めることにより量子化誤差を小さくすることができる。

【0107】

＜６．まとめ＞
上述したように、情報処理装置１は、Depthwise畳み込みレイヤ（ＤＣレイヤＬ１）とPointwise畳み込みレイヤ（ＰＣレイヤＬ４）とBatch正規化レイヤ（ＢＮレイヤＬ２，Ｌ５）を有するニューラルネットワーク（例えばＤＮＮ）において分散σが閾値（変数ε）よりも小さいフィルタの削除を行うフィルタ削除処理部３３と、ニューラルネットワークの量子化を行う量子化処理部３２と、を備えている。
分散が小さいフィルタを削除することで、各パラメータの大小関係や差分が可能な限り保持されたままニューラルネットワークの量子化を行うことができる。
従って、ニューラルネットワークの量子化によって演算量の削減やハードウェアコストの削減が図られると共に、量子化誤差が小さくされ、推論性能の劣化を抑制することができる。これにより、処理能力の高くない小型のコンピュータ装置やスマートフォンなどにおいて推論処理を行う場合に好適な学習モデルを獲得することができる。
また、量子化前に獲得していた学習モデルの再構築を行う必要がないため、量子化された学習モデルを獲得するまでに必要な処理負担や処理時間を少なくすることができる。

【0108】

図５等で説明したように、情報処理装置１のフィルタ削除処理部３３は、Depthwise畳み込みレイヤ（ＤＣレイヤＬ１）の後段のBatch正規化レイヤ（ＢＮレイヤＬ２）におけるフィルタを削除の対象のフィルタとしてもよい。
Depthwise畳み込みレイヤの後段、特に直後のBatch正規化レイヤにおいては、分散の小さなフィルタが存在し得る
このようなフィルタを削除することにより、量子化誤差を小さくすることができる。

【0109】

［式７］を用いて説明したように、情報処理装置１のフィルタ削除処理部３３は、フィルタの削除として、Batch正規化レイヤ（ＢＮレイヤＬ２）の出力値を近似式（［式７］）で置き換える処理を行ってもよい。
これにより、量子化誤差を小さくすることができる。
また、フィルタを適用する際の演算量を削減することもできる。

【0110】

図４等を用いて説明したように、フィルタが削除されたBatch正規化レイヤ（ＢＮレイヤＬ２）の後段に設けられた畳み込みレイヤ（ＰＣレイヤＬ４）におけるパラメータを調整する調整処理部３４を備えていてもよい。
例えば、フィルタを削除したことによる推論性能への影響が少なくなるようにパラメータの調整処理を行う。
これにより、フィルタの削除が推論性能へ与える影響を小さくすることができ、推論性能の劣化を抑制することができる。また、演算量の削減を図ることができる。

【0111】

［式８］を用いて説明したように、調整処理部３４は、Batch正規化レイヤ（ＢＮレイヤＬ２）の後段に設けられた畳み込みレイヤ（ＰＣレイヤＬ４）のバイアスパラメータを調整してもよい。
これにより、フィルタ削除が推論結果に与える影響を小さくすることができる。
従って、推論性能の劣化を抑制することができる。

【0112】

図４等を用いて説明したように、情報処理装置１は、Batch正規化レイヤ（ＢＮレイヤＬ２，Ｌ５）におけるパラメータを他の畳み込みレイヤ（例えばＤＣレイヤＬ１やＰＣレイヤＬ４）に折り込む折り込み処理部３５を備えていてもよい。
これにより、例えば、フィルタ削除されたレイヤを削除することができる。
従って、パラメータの量子化と合わせて演算量の大幅な削減を実現することができる。

【0113】

［式９］等を用いて説明したように、折り込み処理部３５は、Batch正規化レイヤ（ＢＮレイヤＬ２）におけるパラメータを前段のDepthwise畳み込みレイヤ（ＤＣレイヤＬ１）に折り込む処理を行ってもよい。
これにより、学習結果としてBatch正規化レイヤが獲得した機能がDepthwise畳み込みレイヤに集約される。
従って、Batch正規化レイヤを削除しても推論性能の劣化を抑制することができる。

【0114】

図６等で説明したように、情報処理装置１においては、Batch正規化レイヤ（ＢＮレイヤＬ２）においてゼロ除算を回避するために分母に加算される変数εを前記閾値として利用してもよい。
これにより、閾値をユーザが入力しなくても済む。
従って、ユーザの負担軽減が図られる。

【0115】

上述したように、情報処理装置１は、ニューラルネットワーク（例えばＤＮＮ）の量子化を行う量子化処理部３２を備え、量子化処理部３２は、ニューラルネットワークにおけるアクティベーションデータの量子化と、ニューラルネットワークにおけるウェイトデータの量子化を個別に実行するものである。
これにより、アクティベーションデータの量子化による推論結果の変化やウェイトデータの量子化による推論結果の変化は、双方を一度に量子化した場合と比較して小さくされる。
従って、量子化後の性能劣化を抑制することができると共に、再学習に要する時間を短縮することができる。

【0116】

図５等で説明したように、量子化処理部３２は、アクティベーションデータの量子化後とウェイトデータの量子化後のそれぞれにおいて再学習処理を行ってもよい。
再学習を行うことで、量子化により変化した最適な学習モデルに追随させることができる。
従って、推論性能の劣化を抑制することができる。また、例えば、３２ｂｉｔから８ｂｉｔに量子化した場合に、３２ｂｉｔの学習モデルの構築からやり直す必要がないため、再学習処理に要する時間を短縮することができる。

【0117】

図４等で説明したように、情報処理装置１においては、分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部３３と、を備えていてもよい。
分散が小さいフィルタを削除することで、各パラメータの大小関係や差分が可能な限り保持されたままニューラルネットワークの量子化を行うことができる。
従って、ニューラルネットワークの量子化により演算量の削減が図られると共に、量子化誤差が小さくされ、推論性能の劣化を抑制することができる。これにより、処理能力の高くない小型のコンピュータ装置やスマートフォンなどにおいて推論処理を行う場合に用いるのに好適である。

【0118】

図５や図７等で説明したように、量子化処理部３２は、フィルタ削除処理部３３によるフィルタの削除が実行された後にアクティベーションデータの量子化とウェイトデータの量子化を行ってもよい。
これにより、パラメータのダイナミックレンジが狭められた状態で量子化及び再学習が行われる。
従って、再学習により獲得された学習モデルの性能が劣化しすぎずに済む。

【0119】

図５等で説明したように、フィルタ削除処理部３３は、アクティベーションデータの量子化の前後それぞれにおいてフィルタの削除を行ってもよい。
これにより、アクティベーションデータの量子化後にダイナミックレンジを広げてしまうような問題のあるフィルタが発生した場合でも当該フィルタが削除される。
従って、学習モデルの性能をより劣化させずに済む。

【0120】

図７等で説明したように、フィルタ削除処理部３３は、フィルタの削除を一度だけ行い、量子化処理部３２は、一度のフィルタの削除の後にアクティベーションデータの量子化とウェイトデータの量子化を行ってもよい。
これにより、フィルタ削除処理に要する時間を短くすることができる。
従って、処理能力の低いコンピュータ装置においてフィルタの削除処理と量子化処理を実行する場合に好適である。

【0121】

なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

【0122】

＜７．本技術＞
（１）
Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、
前記ニューラルネットワークの量子化を行う量子化処理部と、を備えた
情報処理装置。
（２）
前記フィルタ削除処理部は、前記Depthwise畳み込みレイヤの後段の前記Batch正規化レイヤにおけるフィルタを前記削除の対象のフィルタとする
上記（１）に記載の情報処理装置。
（３）
前記フィルタ削除処理部は、前記フィルタの削除において前記Batch正規化レイヤの出力値を近似式で置き換える処理を行う
上記（２）に記載の情報処理装置。
（４）
前記フィルタが削除された前記Batch正規化レイヤの後段に設けられた畳み込みレイヤにおけるパラメータを調整する調整処理部を備えた
上記（２）から上記（３）の何れかに記載の情報処理装置。
（５）
前記調整処理部は、前記Batch正規化レイヤの後段に設けられた前記畳み込みレイヤのバイアスパラメータを調整する
上記（４）に記載の情報処理装置。
（６）
前記Batch正規化レイヤにおけるパラメータを他の畳み込みレイヤに折り込む折り込み処理部を備えた
上記（１）から上記（５）の何れかに記載の情報処理装置。
（７）
前記折り込み処理部は、前記Batch正規化レイヤにおけるパラメータを前段のDepthwise畳み込みレイヤに折り込む
上記（６）に記載の情報処理装置。
（８）
前記Batch正規化レイヤにおいてゼロ除算を回避するために分母に加算される変数を前記閾値として利用する
上記（１）から上記（７）の何れかに記載の情報処理装置。
（９）
Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有するニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除処理と、
前記ニューラルネットワークの量子化処理と、をコンピュータ装置が実行する
情報処理方法。
（１０）
ニューラルネットワークの量子化を行う量子化処理部を備え、
前記量子化処理部は、
前記ニューラルネットワークにおけるアクティベーションデータの量子化と、前記ニューラルネットワークにおけるウェイトデータの量子化と、を個別に行う
情報処理装置。
（１１）
前記アクティベーションデータの量子化後と前記ウェイトデータの量子化後のそれぞれにおいて再学習処理を行う学習モデル生成部を備えた
上記（１０）に記載の情報処理装置。
（１２）
前記ニューラルネットワークは、Depthwise畳み込みレイヤとPointwise畳み込みレイヤとBatch正規化レイヤを有し、
前記ニューラルネットワークにおいて分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、を備えた
分散が閾値よりも小さいフィルタの削除を行うフィルタ削除処理部と、を備えた
上記（１０）から上記（１１）の何れかに記載の情報処理装置。
（１３）
前記量子化処理部は、前記フィルタ削除処理部によるフィルタの削除が実行された後に前記アクティベーションデータの量子化と前記ウェイトデータの量子化を行う
上記（１２）に記載の情報処理装置。
（１４）
前記フィルタ削除処理部は、前記アクティベーションデータの量子化の前後それぞれにおいて前記フィルタの削除を行う
上記（１３）に記載の情報処理装置。
（１５）
前記フィルタ削除処理部は、前記フィルタの削除を一度だけ行い、
前記量子化処理部は、前記一度のフィルタの削除の後に前記アクティベーションデータの量子化と前記ウェイトデータの量子化を行う
上記（１３）に記載の情報処理装置。
（１６）
ニューラルネットワークにおけるアクティベーションデータの量子化と、前記ニューラルネットワークにおけるウェイトデータの量子化と、が個別に行われるようにコンピュータ装置が実行する
情報処理方法。

【符号の説明】

【0123】

１情報処理装置
３１学習モデル生成部
３２量子化処理部
３３フィルタ削除処理部
３４調整処理部
３５折り込み処理部
Ｌ１ＤＣレイヤ（Depthwise畳み込みレイヤ）
Ｌ２、Ｌ５ＢＮレイヤ（Batch正規化レイヤ）
Ｌ４ＰＣレイヤ（Pointwise畳み込みレイヤ）

【図1】