特許7546630 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 緯創資通股▲ふん▼有限公司の特許一覧

特許7546630ニューラルネットワークの最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-29

(45)【発行日】2024-09-06

(54)【発明の名称】ニューラルネットワークの最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体

(51)【国際特許分類】

G06N 3/082 20230101AFI20240830BHJP

G06N 3/0495 20230101ALI20240830BHJP

【ＦＩ】

G06N3/082

G06N3/0495

【請求項の数】 5

【外国語出願】

(21)【出願番号】P 2022139608

(22)【出願日】2022-09-02

(65)【公開番号】P2023163111

(43)【公開日】2023-11-09

【審査請求日】2022-09-02

(31)【優先権主張番号】111115920

(32)【優先日】2022-04-27

(33)【優先権主張国・地域又は機関】TW

(73)【特許権者】

【識別番号】504429600

【氏名又は名称】緯創資通股▲ふん▼有限公司

【氏名又は名称原語表記】ＷＩＳＴＲＯＮＣＯＲＰＯＲＡＴＩＯＮ

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100226263

【弁理士】

【氏名又は名称】中田未来生

(72)【発明者】

【氏名】郭峻因

(72)【発明者】

【氏名】張恩誌

【審査官】大倉崚吾

(56)【参考文献】

【文献】特表２０２１－５２６２５３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／０２６４２７８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／０２８７０９２（ＵＳ，Ａ１）

【文献】中国特許出願公開第１１４２８２６６６（ＣＮ，Ａ）

【文献】中国特許出願公開第１１３９４７２０３（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

ニューラルネットワークの最適化方法であって、該方法は、
前記ニューラルネットワークの少なくとも２つのバッチ正規化層の複数のスケーリング係数を収束し、前記複数のスケーリング係数のそれぞれは、前記バッチ正規化層の１つにおける対応するチャネルが冗長チャネルであるか否かを決定するために使用されるステップと、
前記複数のスケーリング係数を収束することに応じて、２つの異なるプルーニングアルゴリズムを使用して、前記ニューラルネットワークを順次プルーニングするステップと、
前記ニューラルネットワークをプルーニングする前記プルーニングアルゴリズムの各々に応じて、プルーニング済みニューラルネットワークを再学習させるステップと、
を備え、
前記２つのプルーニングアルゴリズムのうちの１つは、チャネルプルーニングアルゴリズムであり、前記２つの異なるプルーニングアルゴリズムを使用して前記ニューラルネットワークを順次プルーニングすることは、
グローバルスケーリング係数閾値を、各前記バッチ正規化層のスパース比に対応するローカルスパースに変換し、前記少なくとも２つのバッチ正規化層に使用されるローカルスパースは異なることと、
対応するバッチ正規化層のローカルスパースよりも小さいスケーリング係数を有する冗長チャネルをプルーニングすることと、
を含む、
ニューラルネットワークの最適化方法。

【請求項2】

請求項１に記載のニューラルネットワークの最適化方法であって、
前記２つのプルーニングアルゴリズムの他の１つは、重みプルーニングアルゴリズムであり、かつ前記２つの異なるプルーニングアルゴリズムを使用して前記ニューラルネットワークを順次プルーニングするステップは、
前記チャネルプルーニングアルゴリズムを使用して前記ニューラルネットワークをプルーニングすることに応じて、前記重みプルーニングアルゴリズムを使用して前記ニューラルネットワークをプルーニングするステップ、
を備える、ニューラルネットワークの最適化方法。

【請求項3】

請求項１に記載のニューラルネットワークの最適化方法であって、
前記プルーニング済みニューラルネットワークの精度損失と前記品質閾値とを比較するステップと、
前記品質閾値との比較結果に従って、前記２つのプルーニングアルゴリズムのうち少なくとも１つの前記プルーニング比を変更するステップと、
を更に備える、ニューラルネットワークの最適化方法。

【請求項4】

ニューラルネットワークのためのコンピュータシステムであって、該コンピュータシステムは、
コードを格納するように構成されたメモリと、
前記メモリに結合され、かつ前記コードを
前記ニューラルネットワークの少なくとも２つのバッチ正規化層の複数のスケーリング係数を収束し、前記複数のスケーリング係数のそれぞれは、前記バッチ正規化層の１つにおける対応するチャネルが冗長チャネルであるか否かを決定するために使用され、
前記複数のスケーリング係数を収束することに応じて、２つの異なるプルーニングアルゴリズムを使用して、ニューラルネットワークを順次プルーニングし、かつ
前記ニューラルネットワークをプルーニングする前記プルーニングアルゴリズムの各々に応じて、プルーニング済みニューラルネットワークを再学習させる、
ためにロード及び実行するように構成されたプロセッサと、
を備え、
前記２つのプルーニングアルゴリズムのうちの１つは、チャネルプルーニングアルゴリズムであり、前記プロセッサは、更に、
グローバルスケーリング係数閾値を、各前記バッチ正規化層のスパース比に対応するローカルスパースに変換し、前記少なくとも２つのバッチ正規化層に使用されるローカルスパースは異なり、
対応するバッチ正規化層のローカルスパースよりも小さいスケーリング係数を有する冗長チャネルをプルーニングするように構成されている、コンピュータシステム

【請求項5】

コードを格納するための非一過性コンピュータ可読記憶媒体であって、前記コードは、
プロセッサによってロードされて、請求項１に記載のニューラルネットワークの最適化方法を実行することを特徴とする、非一過性コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ニューラルネットワーク技術に関し、より詳細には、ニューラルネットワークのための最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体に関する。

【背景技術】

【0002】

近年の人工知能（ＡＩ）技術の急速な発展に伴い、ニューラルネットワークモデルのパラメータ量及び計算量は急激に増加している。これに伴い、ニューラルネットワークモデルの圧縮技術も進化している。注目すべきは、モデルを圧縮するための重要な技術である「プルーニング（枝刈り）」である。しかしながら、既存のプルーニング法は、すべて単一型のプルーニングである。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本開示の実施形態は、モデルの簡略化を達成するためのハイブリッドプルーニングソリューションを提供するニューラルネットワークの最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体を提供する。

【課題を解決するための手段】

【0004】

本開示の一実施形態によるニューラルネットワークの最適化方法は、以下を含む（ただし、これらに限定されない）。前記ニューラルネットワークを、２つの異なるプルーニングアルゴリズムを使用して、順次プルーニングする。プルーニング済みニューラルネットワークは、前記ニューラルネットワークをプルーニングする前記プルーニングアルゴリズムの各々に応じて再学習する。

【0005】

本開示の一実施形態によるニューラルネットワークのためのコンピュータシステムは、メモリとプロセッサと、を含む（ただし、これらに限定されない）。前記メモリは、コードを格納するように構成される。前記プロセッサは、前記メモリに結合される。前記プロセッサは、２つの異なるプルーニングアルゴリズムを使用して前記ニューラルネットワークを順次プルーニングし、かつ前記ニューラルネットワークをプルーニングする前記プルーニングアルゴリズムの各々に応じてプルーニング済みニューラルネットワークを再学習するために前記コードをロード及び実行するように構成されている。

【0006】

本開示の実施形態による非一過性コンピュータ可読記憶媒体は、コードを格納するように構成される。プロセッサは、前記コードをロードして、上述したニューラルネットワークの最適化方法を実行する。

【発明の効果】

【0007】

以上に基づいて、本開示の実施形態によるニューラルネットワークの最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体は、様々なプルーニングアルゴリズムを使用し、低い計算コストで深層学習ニューラルネットワークを実現する。

【0008】

本開示の上記及び他の特徴並びに利点を理解しやすくするために、以下、添付の図面を参照して例示的な実施形態を詳細に説明する。

【図面の簡単な説明】

【0009】

添付の図面は、本開示の更なる理解を提供するために含まれ、かつ本明細書に組み込まれ、本明細書の一部を構成するものである。図面は、本開示の例示的な実施形態を図示し、説明と一緒に、本開示の原理を説明するのに役立つ。

【0010】

【図1】本開示の一実施形態によるコンピュータシステムの構成要素のブロック図である。

【図2】本開示の実施形態によるニューラルネットワークの最適化方法のフローチャートである。

【図3】本開示の実施形態による幾何学的中央値を介したチャネルプルーニング（ＣＰＧＭ）のフローチャートである。

【図4】本開示の実施形態によるスリミング法のフローチャートである。

【図5】本開示の実施形態によるスリミング法とＴｈｉＮｅｔ法の組合せのフローチャートである。

【図6】本開示の実施形態によるＣＰＧＭ法とＴｈｉＮｅｔ法の組合せのフローチャートである。

【図7】本開示の実施形態による構造化トリミング及び非構造化トリミングの概略図である。

【図8】本開示の実施形態によるユーザーインターフェースの概略図である。

【発明を実施するための形態】

【0011】

図１は、本開示の実施形態によるコンピュータシステム１００のコンポーネントのブロック図である。図１を参照すると、コンピュータシステム１００は、メモリ１１０と、プロセッサ１３０と、を含む（ただし、これに限定されない）。コンピュータシステム１００は、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、サーバ、医療又は製品検査機器、若しくは他のコンピューティングデバイスであってよい。

【0012】

メモリ１１０は、固定又は取り外し可能なランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、従来のハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）などのような、任意のタイプのものであってよい。一実施形態では、メモリ１１０は、コード、ソフトウェアモジュール、構成、データ、又はファイル（例えば、トレーニングサンプル、モデルパラメータ、プルーニングセット、又は冗長チャネル）を格納するように構成される。

【0013】

プロセッサ１３０は、メモリ１１０に結合される。プロセッサ１３０は、中央演算処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、プログラマブル汎用又は特殊用途マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ニューラルネットワーク加速器、他の同様のコンポーネント、若しくは前述のコンポーネントの組合せであってよい。一実施形態では、プロセッサ１３０は、コンピュータシステム１００の動作の全て又は一部を実行し、かつメモリ１１０に格納された各コード、ソフトウェアモジュール、ファイル、及びデータをロード並びに実行するように構成される。

【0014】

いくつかの実施形態では、コンピュータシステム１００は、インプットデバイス１５０を更に含む。インプットデバイス１５０は、タッチパネル、マウス、キーボード、トラックボール、スイッチ、又はキーであってよい。一実施形態では、インプットデバイス１５０は、スワイプ、タッチ、プレス、又はクリック操作などのようなユーザ操作を受け取るように構成される。

【0015】

いくつかの実施形態では、コンピュータシステム１００は、ディスプレイ１７０を更に含む。ディスプレイ１７０は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、量子ドットディスプレイ、又は他の種類のディスプレイであってよい。一実施形態では、ディスプレイ１７０は、画像を表示するように構成されている。画像のコンテンツは、ユーザーインターフェースであってもよい。

【0016】

以下、本開示の実施形態で説明する方法について、コンピュータシステム１００内のデバイス、構成要素、及びモジュールを参照して説明する。なお、本方法の各処理は、状況に従って調整することができ、ここでの記載に限定されるものではない。

【0017】

図２は、本開示の一実施形態によるニューラルネットワークの最適化方法のフローチャートである。図２を参照すると、プロセッサ１３０は、２つの異なるプルーニングアルゴリズムを使用して、ニューラルネットワークを順次プルーニングする（ステップＳ２１０）。具体的には、ニューラルネットワークは、ディープラーニングアルゴリズムで学習する。深層学習アルゴリズムは、例えば、ＹＯＬＯ（Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ）、ＡｌｅｘＮｅｔ、ＲｅｓＮｅｔ、ＲｅｇｉｏｎＢａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ（Ｒ－ＣＮＮ）、又はＦａｓｔＲ－ＣＮＮ（ＦａｓｔＣＮＮ）である。ニューラルネットワークは、画像分類、オブジェクト検出、又は他の推論に使用されてもよく、かつ本開示の実施形態は、ニューラルネットワークの使用を制限することを意図していないことに留意されたい。学習済みニューラルネットワークは、予め設定された精度基準を満たしてもよい。

【0018】

注目すべきは、学習済みニューラルネットワークは、各層に対応するパラメータ（例えば、重み、チャネル数、バイアス、又は活性化関数）を有することである。パラメータが多すぎると、演算効率に影響を与えることが考えられる。ニューラルネットワークの圧縮技術の一つとして、プルーニングがある。プルーニングは、ニューラルネットワークから影響を及ぼさない又は影響を及ぼす可能性が低い要素（例えば、チャネル、フィルタ／カーネル、特徴マップ、層、ニューロン、又は他のパラメータ）を減算するために使用する。

【0019】

関連技術とは異なり、本開示の実施形態は、ハイブリッドプルーニングソリューションを提供する。二つ以上のプルーニングアルゴリズムは、チャネル、重み、フィルタ、活性化、勾配、及び隠れ層プルーニング、又はプルーニング探索アルゴリズムであってよく、単一のプルーニングソリューションと比較して、最も高い圧縮率及び最も低い精度損失を達成することができる。

【0020】

一実施形態では、本開示の実施形態で使用する複数のプルーニングアルゴリズムのうちの１つは、チャネルプルーニング（又はフィルタプルーニングと呼ばれる）アルゴリズムである。チャネルプルーニングアルゴリズムは、例えば、ＴｈｉＮｅｔ、ネットワークスリミング、幾何学的中央値を介したフィルタプルーニング（ＦＰＧＭ）、又は幾何学的中央値を介したチャネルプルーニング（ＣＰＧＭ）である。

【0021】

例えば、ＴｈｉＮｅｔ法は、次の層の統計に従って現在の層をプルーニングし、そして現在の層の出力に対する影響が少ない又は最小であるフィルタをプルーニングすることを期待する。それ故に、プルーニング済みチャネルは、平均二乗誤差を誤差閾値より小さくする。次に、チャネルは層ごとにプルーニングされる。最後に、各層の全てのチャネルに近似する残りのチャネルが導出される。

【0022】

例えば、図３は、本開示の一実施形態によるＣＰＧＭ法のフローチャートである。図３を参照すると、ＣＰＧＭ法は、ＦＰＧＭ法によって提案されたフィルタの重みに基づくユークリッド距離及び冗長フィルタの重みの検索を指す。最初に、プロセッサ１３０は、ノルム比及び距離比を設定してもよい。ノルム比は、配置されるフィルタの重みの大きさに従って設定される比率である。すなわち、ノルム比は、全ての重みにおいて保存される大きさの比率である。例えば、ノルム比は、フィルタの重みの９０％である。距離比は、ユークリッド距離に基づくフィルタの重みの中央値に近く、かつ除去されるチャネルインデックスの割合である。すなわち、距離比は、２つのフィルタ／チャネルの類似度（距離は、類似度に関係する）によって表される比率である。プロセッサ１３０は、設定されたノルム比及び距離比に基づいて重みを並べ替えてもよい（ステップＳ３１０）。例えば、学習済みニューラルネットワークのフィルタの重みは降順に並べられ、かつ上位９０％の重みがノルム比に基づいて抽出される。プロセッサ１３０は、フィルタのユークリッド距離を決定してもよく（ステップＳ３２０）、例えば、多次元空間における任意のテンソルと全てのフィルタの間の距離を決定してもよい。次に、プロセッサ１３０は、類似のフィルタを決定し、かつ対応するチャネルインデックスを格納してもよい（ステップＳ３３０）。例えば、各層におけるユークリッド距離の和が最小となる点を幾何学的中心地点として定義する。多次元空間において、フィルタが属する層の幾何学的中央点に近い場合（つまり、近いほど類似度が高く、かつ遠いほど類似度が低い）、そのフィルタはデータ冗長としてみなし、かつ置換してもよい。例えば、このフィルタ／チャネルは冗長フィルタ／チャネルであり、かつプルーニングを行ってもよい。インデックスは、フィルタ／チャネルを表す番号である。プロセッサ１３０は、１つ以上のフィルタ／チャネルのインデックスをプルーニングセットに割り当ててもよい。すなわち、このセットは、プルーニングする冗長フィルタ／チャネルを含む。

【0023】

例えば、図４は、本開示の実施形態によるスリミング方法のフローチャートである。図４を参照すると、プロセッサ１３０は、各バッチ正規化層（例えば、図中の第１層から第Ｎ層まで、Ｎは正の整数）におけるチャネルのスケーリング係数を並べ替えてもよい。スケーリング係数は、順伝播中に、対応するチャネルの出力値に乗算されることになる。ニューラルネットワークの学習中、スケーリング係数は他の重みとともに学習され、かつ制約条件（例えば、Ｌ１ノルムのスパース性のペナルティ）に従う。注目すべきは、学習後、スケーリング係数が小さい場合、対応するチャネルは冗長チャネルとしてみなされる可能性があり（プルーニングセットに分類される可能性がある）、かつスケーリング係数が大きい場合、対応するチャネルは無効になる／停止される／冗長チャネルとしてみなされない可能性があることである。図に示すように、グローバルバッチ正規化閾値ＢＮＴは、０．１５であると仮定される。このように、第１層の０．００１、０．０３５、０．１、０．０１３４、及び０．１２２のスケーリング係数を有するチャネルは冗長チャネル４０１であり、第２層の列記したスケーリング係数を有するチャネルは全て冗長チャネル４０１である。バッチ正規化閾値ＢＮＴよりも大きいスケーリング係数を有するチャネルは、非冗長チャネル４０２である。次に、プロセッサ１３０は、冗長チャネル４０１をプルーニングし、かつ非冗長チャネル４０２を保持してもよい。

【0024】

例えば、ＴｈｉＮｅｔ法と貪欲法の両方に基づいて、プロセッサ１３０は、検証データセットをチャネルごとに供給し、かつＬ２ノルム関数を使用して、プルーニングされたチャネルとプルーニングされていないチャネルの出力特徴マップの間の差を比較及び取得してもよい。差分が差分閾値より小さい場合、プルーニング済みチャネルは冗長チャネルとしてみなし、かつ差分が差分閾値より小さくない場合、プルーニング済みチャネルは非冗長チャネルとしてみなしてもよい。従来のＴｈｉＮｅｔとの違いは、本実施形態では、ＴｈｉＮｅｔに送るスパース比はローカルスパースであり、かつ各層に使用されるローカルスパース比は異なっていてもよいことである。

【0025】

一実施形態では、チャネルプルーニングアルゴリズムは、第１チャネルプルーニングアルゴリズムと、第２チャネルプルーニングアルゴリズムと、を含む。プロセッサ１３０は、第１のチャネルプルーニングアルゴリズムに従って、第１のプルーニングセットを取得してもよい。第１のプルーニングセットは、第１のチャネルプルーニングアルゴリズムによって選択されたプルーニングする１つ以上の（冗長）チャネルを含む。さらに、プロセッサ１３０は、第２のチャネルプルーニングアルゴリズムに従って、第２のプルーニングセットを取得してもよい。第２のプルーニングセットは、第２のチャネルプルーニングアルゴリズムによって選択されたプルーニングする１つ以上の（冗長）チャネルを含む。すなわち、プロセッサ１３０は、異なるチャネルプルーニングアルゴリズムを使用して、対応するプルーニングセットを取得する。次に、プロセッサ１３０は、第１のプルーニングセット及び第２のプルーニングセットに従ってプルーニングする１つ以上の冗長チャネルを判定してよい。例えば、プロセッサ１３０は、これらのプルーニングセットのチャネルの交差点、和集合、任意の、又は一定の数を取得し、それによって、ハイブリッドチャネルプルーニングソリューションを提供してもよい。

【0026】

例えば、図５は、本開示の一実施形態によるスリミング法とＴｈｉＮｅｔ法の組合せのフローチャートである。図５を参照すると、学習済みニューラルネットワークに対して、プロセッサ１３０は、スリミング法を使用して、各層のスケーリング係数閾値（例えば、前述のバッチ正規化閾値）を決定し（ステップＳ５１０）、かつグローバルスケーリング係数閾値を各層のスパース比に対応するローカルスパースに変換しても良い。プロセッサ１３０は、各層のローカルスパースに従って、各層の第１プルーニングセットを決定してもよい（ステップＳ５２０）。次に、プロセッサ１３０は、ローカルスパースに従って、ＴｈｉＮｅｔ法を使用してプルーニングするフィルタを選択（すなわち、第２のプルーニングセットを決定）してもよい（ステップＳ５３０）。プロセッサ１３０は、スリミング法及びＴｈｉＮｅｔ法のプルーニングセットの交点によってプルーニングする冗長チャネルを判定し（ステップＳ５４０）、それに応じて冗長チャネルをプルーニングしてもよい（ステップＳ５５０）。

【0027】

図６は、本開示の実施形態によるＣＰＧＭ法とＴｈｉＮｅｔ法の組合せのフローチャートである。図６を参照すると、学習済みニューラルネットワークについて、プロセッサ１３０は、設定されたノルム比及び距離比に従ってＣＰＧＭ法を使用して第１のプルーニングセットを決定し（ステップＳ６１０）、かつ設定された距離比に従ってＴｈｉＮｅｔ法を使用して第２のプルーニングセットを決定してもよい（ステップＳ６２０）。注目すべきは、ＴｈｉＮｅｔ法は、出力特徴マップのチャネル効果を見つけることに重点を置いていることである。ＣＰＧＭ法は、フィルタの重みをプルーニングするだけでなく、冗長なチャネルの重みと以前の重みとの間の差分の取得も行う。次に、プロセッサ１３０は、ＴｈｉＮｅｔ法及びＣＰＧＭ法のプルーニングセットの交点に従ってプルーニングする冗長チャネルを決定し（ステップＳ６３０）、それに応じて冗長チャネルをプルーニングしてもよい（ステップＳ６４０）。

【0028】

他の実施形態では、他のチャネルプルーニングアルゴリズム又はより多くのチャネルプルーニングアルゴリズムも組み合わせてよいことに留意されたい。

【0029】

一実施形態では、本開示の実施形態で使用するプルーニングアルゴリズムの別のものは、重みプルーニング（又はエレメントワイズプルーニングと呼ばれる）アルゴリズムである。重みプルーニングアルゴリズムは、例えば、宝くじ仮説である。

【0030】

宝くじ仮説を例にとって説明すると、プロセッサ１３０は、ニューラルネットワークをランダムに初期化する。ニューラルネットワークは、複数のサブネットワークを含む。プロセッサ１３０は、ニューラルネットワークを反復的に学習させ、かつより当選しやすいサブネットワークを発見し得る。処理の間、プロセッサ１３０は、既知のプルーニング戦略を設定するためのマスクを確立してもよい。この戦略は、どのサブネットワークがニューラルネットワークに影響を与えるか、すなわち、勝つことができるサブネットワークに関連する。その後、プロセッサ１３０は、マスクに従って、重要な影響力を有さない（勝てない）サブネットワークをプルーニングしてもよい。重みを例とすると、プロセッサ１３０は、重みをソートし、かつ最小の重みの特定の比率又は数をプルーニングしてもよい。

【0031】

一実施形態では、チャネルプルーニングアルゴリズムを使用してニューラルネットワークをプルーニングすることに応じて、その後、プロセッサ１３０は、重みプルーニングアルゴリズムを使用してニューラルネットワークをプルーニングしてもよい。チャネルプルーニングアルゴリズムは構造化プルーニングに属し、重みプルーニングアルゴリズムは非構造化プルーニングに属する。非構造化プルーニングは不規則なプルーニングをするため、精度を確保することが難しい場合がある。構造化プルーニングを最初に行うことで、重みが安定した値に復元され、かつ全体の構造を確保することができる。それ故に、その後に続く非構造化プルーニングは、より精度の高いネットワークに微調整することができる。

【0032】

例えば、図７は、本開示の一実施形態による構造化プルーニング及び非構造化プルーニングの概略図である。図７を参照すると、プロセッサ１３０は、構造化プルーニング戦略を使用して、プルーニング済みニューラルネットワークを取得するように、学習済みニューラルネットワークをプルーニングしてもよい。次に、プロセッサ１３０は、最終的なプルーニング済みニューラルネットワークを取得するように、非構造化プルーニング戦略を使用してプルーニング済みニューラルネットワークをプルーニングしてもよい。構造化プルーニング戦略は、プルーニングされていないチャネル７０３を保持し、かつ冗長チャネル７０２を削除する。非構造化プルーニングストラテジーは、冗長な重み７０１を削除する。

【0033】

他の実施形態では、他の非構造化プルーニング方法（例えば、勾配又は活性化）も使用することができ、又は非構造化プルーニングは構造化プルーニングの前に行うこともできる。

【0034】

一実施形態では、プロセッサ１３０は、プルーニングの前に、ニューラルネットワークの１つ以上のバッチ正規化層のスケーリング係数を収束させてもよい。例えば、プロセッサ１３０は、学習済みニューラルネットワークに対してスパースティ学習を行わせてもよい。Ｌ１のペナルティは、ニューラルネットワークの学習に使用する損失関数に追加される。バッチ正規化は、平均が０で、かつ標準偏差が１の正規分布が形成されるまで、個々のミニバッチを正規化することである。層間のスケーリング係数の全体の相関が収束し、例えば、スリミング法がより適したチャネルを（例えば、高い精度及び／又は少ない量で）見出すことを助けることができる。

【0035】

いくつかの実施形態では、学習済みニューラルネットワークのスケーリング係数がプリセット値に近づいた場合、プロセッサ１３０は、スケーリング係数を収束させるためのスパース学習又は他のスキームを省略してもよい。

【0036】

図２を参照すると、各プルーニングアルゴリズムがニューラルネットワークをプルーニングすることに応じて、プロセッサ１３０は、プルーニング済みニューラルネットワークを再学習させる（ステップＳ２２０）。具体的には、各プルーニング後、プロセッサ１３０は、プルーニング済みニューラルネットワークを再学習させてもよい。ニューラルネットワーク（モデル）が収束すると、プロセッサ１３０は、別のプルーニングアルゴリズムを使用して、プルーニング済みニューラルネットワークをプルーニングしてもよい。例えば、チャネルプルーニングの後にニューラルネットワークを再学習させ、そしてニューラルネットワークが収束すると、その後、重みプルーニングが行われる。重みプルーニングの間、学習が一定の反復回数に達すると、プロセッサ１３０は、重みを昇順にソートし、そしてその後、プルーニング比に従ってソート中の最小の重みを削除してもよい。最後に、プロセッサ１３０は、残りの重みを元の事前学習済みモデルのパラメータに戻して初期化し、そしてその後、プルーニング済みニューラルネットワークを再学習して、最終的な軽量モデルを生成してもよい。

【0037】

すなわち、チャネルがプルーニングされた場合、保存されたチャネルが初期化され、そしてその後、これらの保存されたチャネルのパラメータを学習する。重みがプルーニングされた場合、保存された重みが初期化され、そしてその後、これらの保存された重みのパラメータを学習する。活性化プルーニング、隠れ層プルーニング、又は他のプルーニングの再学習は、適宜行われてもよく、そしてこのように、ここでは繰り返されない。

【0038】

前述の説明では、２つのプルーニングアルゴリズムの組み合わせを例として取り上げたが、他の実施形態では、より多くのプルーニングアルゴリズムを組み合わせてもよいことに注意されたい。

【0039】

一実施形態では、プロセッサ１３０は、インプットデバイス１５０を介して入力操作を受け取ってもよい。入力操作は、プルーニング比を設定するために使用され、かつ２つ以上のプルーニングアルゴリズムのうちの少なくとも１つが、プルーニング比に従ってプルーニングを行うために選択される。すなわち、プルーニング比は、各層又は各フィルタの全要素に対するプルーニングする要素（例えば、チャネル、重み、又は活性度）の割合である。例えば、キーボードは、５０％のプルーニング比についての入力操作を受け取る。チャネルプルーニングについては、プロセッサ１３０は、１つの層又は複数の層のチャネルの５０％を冗長チャネルとして選択する。重みプルーニングについては、プロセッサ１３０は、最小の重みの５０％を削除してもよい。

【0040】

一実施形態では、プロセッサ１３０は、プルーニング済みニューラルネットワークの精度損失を判定するために、既知の推論結果の検証サンプルを使用してもよい。例えば、１００個の検証サンプルのうち１０個が推論で間違っている場合、精度損失は１０％である。プロセッサ１３０は、精度損失とプルーニング済みニューラルネットワークの品質閾値とを比較してもよい。品質閾値は、許容される精度損失である。例えば、品質閾値は、１５％、２０％、又は２５％である。プロセッサ１３０は、精度損失と品質閾値との比較結果に応じて、プルーニングアルゴリズムのうち少なくとも１つのプルーニング比を変更してもよい。すなわち、品質閾値は、プルーニング比を変更するかを評価するために使用する。例えば、精度損失が品質閾値よりも低い場合、プロセッサ１３０は、プルーニング比を増やしてもよい。精度損失が品質閾値よりも高い場合、プロセッサ１３０は、プルーニング比を減らしてもよい。一実施形態では、プロセッサ１３０は、最も大きなプルーニング比を有し、かつその精度損失が品質閾値よりも低いプルーニング済ニューラルネットワークを最終軽量モデルとして扱ってもよい。

【0041】

一実施形態では、インプットデバイス１５０を介して受け取った入力操作を使用して品質閾値を設定し、かつ２つ以上のプルーニングアルゴリズムのうち少なくとも１つを選択して品質閾値に従ってプルーニングしてもよい。例えば、マウスは、１５％の品質閾値に関する入力操作を受け取る。

【0042】

一実施形態では、プロセッサ１３０は、ディスプレイ１７０を介してユーザーインターフェースを提供（表示）してもよい。例えば、図８は、本開示の一実施形態によるユーザーインターフェースの概略図である。図８を参照すると、ユーザーインターフェースは、モデル設定８０１と、プルーニング比設定８０２と、品質閾値設定８０３と、を含む。モデル設定８０１は、ニューラルネットワークの種類、例えば、第３世代（Ｖ３）ＹＯＬＯ又はＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ（ＳＳＤ）視覚幾何学グループ（ＶＧＧ）１６を選択するために使用する。プルーニング比設定８０２は、プルーニング比、例えば、１０％～９０％を選択するために使用する。品質閾値設定８０３は、品質閾値（すなわち、許容誤差率）、例えば、０％～２０％を設定するために使用する。

【0043】

本開示の一実施形態は、コードを格納するための非一過性コンピュータ可読記憶媒体（例えば、ハードディスク、光ディスク、フラッシュメモリ、ソリッドステートドライブ（ＳＳＤ）等）を更に提供する。コンピュータシステム１００のプロセッサ１３０又は他のプロセッサは、コードをロードし、かつ本開示の実施形態による１つ以上の最適化方法に対応する処理を実行することができる。これらの処理は、上記で説明されたので、ここでは繰り返さない。

【0044】

要約すると、本開示の実施形態によるニューラルネットワークの最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体では、ハイブリッドプルーニングを使用することにより、ニューラルネットワークの全体の計算量が減少する。例えば、チャネルプルーニングアルゴリズムとウェイトプルーニングアルゴリズムを組み合わせて、チャネル数及びウェイト数を削減することができる。本開示の実施形態によれば、プルーニング比と精度の観点からプルーニング戦略を評価するので、高いプルーニング比と高い精度という要件を満たすことができる。さらに、本開示の実施形態では、ユーザーインターフェースを提供するので、操作者が操作を容易に理解し、かつ慣れることができる。

【0045】

本開示は、上記の例示的な実施形態を参照して説明してきたが、これらは、本開示を限定することを意図するものではない。当業者であれば、本開示の精神及び範囲から逸脱することなく、変更及び修正を行うことができる。それ故に、本開示の保護範囲は、以下の特許請求の範囲によって定義される。

【産業上の利用可能性】

【0046】

本発明に係るニューラルネットワークの最適化方法及びコンピュータシステム、並びにコンピュータ可読記憶媒体記憶媒体は、電子機器及びその制御方法に適用され得る。

【符号の説明】

【0047】

１００コンピュータシステム
１１０メモリ
１３０プロセッサ
１５０インプットデバイス
１７０ディスプレイ
Ｓ２１０～Ｓ２２０、Ｓ３１０～Ｓ３３０、Ｓ５１０～Ｓ５５０、Ｓ６１０～Ｓ６４０ステップ
４０１冗長チャネル
４０２非冗長チャネル
ＢＮＴバッチ正規化閾値
７０１冗長な重み
７０２冗長チャネル
７０３プルーニングされていないチャネル
８０１モデル設定
８０２プルーニング比設定
８０３品質閾値設定

【図1】