特許7321372 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7321372微細構造化重みプルーニング・重み統合によるニューラルネットワークモデルの圧縮のための方法、装置およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
4C
4D
4E
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-07-27

(45)【発行日】2023-08-04

(54)【発明の名称】微細構造化重みプルーニング・重み統合によるニューラルネットワークモデルの圧縮のための方法、装置およびコンピュータプログラム

(51)【国際特許分類】

G06N 3/082 20230101AFI20230728BHJP

G06N 3/0495 20230101ALI20230728BHJP

【ＦＩ】

G06N3/082

G06N3/0495

【請求項の数】 9

(21)【出願番号】P 2022523336

(86)(22)【出願日】2021-06-15

(65)【公表番号】

(43)【公表日】2022-12-19

(86)【国際出願番号】 US2021037425

(87)【国際公開番号】W WO2021257558

(87)【国際公開日】2021-12-23

【審査請求日】2022-04-19

(31)【優先権主張番号】63/040,216

(32)【優先日】2020-06-17

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/040,238

(32)【優先日】2020-06-17

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/043,082

(32)【優先日】2020-06-23

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/319,313

(32)【優先日】2021-05-13

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520353802

【氏名又は名称】テンセント・アメリカ・エルエルシー

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】ウェイ・ジアン

(72)【発明者】

【氏名】ウェイ・ワン

(72)【発明者】

【氏名】シェン・リン

(72)【発明者】

【氏名】シャン・リュウ

【審査官】多賀実

(56)【参考文献】

【文献】米国特許出願公開第２０１９／０１３０２７１（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０３６２２３５（ＵＳ，Ａ１）

【文献】Wei Jiang et al.，"Structured Weight Unification and Encoding for Neural Network Compression and Acceleration"，CVPR 2020 workshop paper (Open Access version) [online]，2020年06月13日，[検索日2023.06.16], インターネット:<URL:https://openaccess.thecvf.com/content_CVPRW_2020/papers/w40/Jiang_Structured_Weight_Unification_and_Encoding_for_Neural_Network_Compression_and_CVPRW_2020_paper.pdf>，備考：掲載日はインターネットアーカイブ(Internet Archive)が収集したウェブページの記録<URL:https://web.archive.org/web/20200613033632/http://openaccess.thecvf.com/CVPR2020_workshops/CVPR2020_w40.py>に基づき認定

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０４９５

Ｇ０６Ｎ３／０８２

(57)【特許請求の範囲】

【請求項1】

ニューラルネットワークモデルの圧縮の方法であって、前記方法は、少なくとも１つのプロセッサによって実行され、前記方法は、
入力ニューラルネットワークおよび入力マスクを受信するステップと、
ディープニューラルネットワークを使用して、前記入力ニューラルネットワークのパラメータを削減するステップであって、前記ディープニューラルネットワークは、
前記入力マスクによってマスクされた前記ディープニューラルネットワークの入力重みの複数のブロックから、プルーニングするプルーニング微細構造ブロックを選択するステップと、
前記選択されたプルーニング微細構造ブロックに基づいて、前記入力重みをプルーニングするステップと、
前記入力マスクによってマスクされた前記入力重みの前記複数のブロックから、統合される統合微細構造ブロックを選択するステップと、
前記ディープニューラルネットワークの、プルーニングされて統合された入力重みを取得するために、前記選択された統合微細構造ブロックに基づいて、前記プルーニングされた入力重みの前記複数のブロックのうちの１つまたは複数の中で複数の重みを統合するステップとによって訓練される、削減する前記ステップと、
前記入力ニューラルネットワークと、前記ディープニューラルネットワークの前記プルーニングされて統合された入力重みとに基づいて、前記削減されたパラメータを有する出力ニューラルネットワークを取得するステップとを含む、方法。

【請求項2】

前記ディープニューラルネットワークは、
前記選択されたプルーニング微細構造ブロックに基づいて、前記入力マスクと、前記入力重みの各々がプルーニングされるかどうかを示すプルーニングマスクとを更新するステップと、
前記ディープニューラルネットワークの損失を最小化するために、前記更新されたプルーニングマスクに基づいて、前記プルーニングされた入力重みと前記更新された入力マスクとを更新するステップによってさらに訓練される、請求項１に記載の方法。

【請求項3】

前記ディープニューラルネットワークは、
前記入力マスクによってマスクされた前記入力重みを再形成するステップと、
前記再形成された入力重みを前記入力重みの前記複数のブロックに分割するステップと、
前記再形成された入力重みが分割される前記複数のブロックのうちの１つまたは複数の中の複数の重みを前記入力重みの間で統合するステップと、
前記複数のブロックのうちの前記１つまたは複数の中の前記統合された複数の重みに基づいて、前記入力マスクと、前記入力重みの各々が統合されているかどうかを示す統合マスクとを更新するステップと、
前記ディープニューラルネットワークの損失を最小化するために、前記更新された統合マスクに基づいて、前記更新された入力マスクと、前記複数のブロックのうちの前記１つまたは複数の中の前記複数の重みが統合された前記入力重みとを更新するステップとによってさらに訓練される、請求項１に記載の方法。

【請求項4】

前記更新された入力マスクおよび前記入力重みを更新する前記ステップは、
前記入力重みが統合され、前記更新された入力マスクによってマスクされている前記ディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減するステップと、
前記推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、前記ディープニューラルネットワークの前記損失を決定するステップと、
前記複数のブロックのうちの前記１つまたは複数の中の前記複数の重みが統合されている前記入力重みに基づいて、前記決定された損失の勾配を決定するステップと、
前記決定された損失を最小化するために、前記決定された勾配および前記更新された統合マスクに基づいて、前記プルーニングされた入力重みおよび前記更新された入力マスクを更新するステップとを含む、請求項３に記載の方法。

【請求項5】

前記ディープニューラルネットワークは、前記複数のブロックのうちの前記１つまたは複数の中の前記統合された複数の重みに基づいて、前記入力重みの各々が統合されているかどうかを示す統合マスクを更新することによって、さらに訓練され、
前記入力マスクを更新する前記ステップは、プルーニング統合マスクを取得するために、前記選択されたプルーニング微細構造ブロックおよび前記選択された統合微細構造ブロックに基づいて、前記入力マスクを更新するステップを含み、
前記プルーニングされた入力重みおよび前記更新された入力マスクを更新する前記ステップは、前記ディープニューラルネットワークの前記損失を最小化するために、前記更新されたプルーニングマスクおよび前記更新された統合マスクに基づいて、前記プルーニングされて統合された入力重みおよび前記プルーニング統合マスクを更新するステップを含む、請求項２に記載の方法。

【請求項6】

前記プルーニングされて統合された入力重みおよび前記プルーニング統合マスクを更新する前記ステップは、
前記プルーニングされて統合された入力重みが、前記プルーニング統合マスクによってマスクされている前記ディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減するステップと、
前記推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、前記ディープニューラルネットワークの前記損失を決定するステップと、
前記複数のブロックのうちの前記１つまたは複数の中の前記複数の重みが統合されている前記入力重みに基づいて、前記決定された損失の勾配を決定するステップと、
前記決定された損失を最小化するために、前記決定された勾配、前記更新されたプルーニングマスク、および前記更新された統合マスクに基づいて、前記プルーニングされて統合された入力重みおよび前記プルーニング統合マスクを更新するステップとを含む、請求項５に記載の方法。

【請求項7】

前記プルーニング微細構造ブロックは、各々の反復に対してプルーニングされる前記入力重みの所定のプルーニング比率に基づいて、前記入力マスクによってマスクされた前記入力重みの前記複数のブロックから選択される、請求項１に記載の方法。

【請求項8】

請求項１から７のいずれか一項に記載の方法を実行するように構成された装置。

【請求項9】

ニューラルネットワークモデルの圧縮のために少なくとも１つのプロセッサによって実行されるとき、請求項１から７のいずれか一項に記載の方法を前記少なくとも１つのプロセッサに実行させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、米国特許商標庁に、２０２０年６月１７日に出願された米国仮特許出願第６３／０４０，２１６号、２０２０年６月１７日に出願された米国仮特許出願第６３／０４０，２３８号、および２０２０年６月２３日に出願された米国仮特許出願第６３／０４３，０８２号からの優先権を主張する、２０２１年５月１３日に出願された米国特許出願第１７／３１９，３１３号に対する優先権の利益を主張し、それらの開示は全体として参照により本明細書に組み込まれる。

【背景技術】

【0002】

セマンティック分類、ターゲットの検出／認識、ターゲット追跡、ビデオ品質の向上など、広範囲のビデオアプリケーションでディープニューラルネットワーク（ＤＮＮｓ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を成功させるには、ＤＮＮモデルを圧縮する必要がある。したがって、ＭＰＥＧ（ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）は、ストレージと計算の両方を節約するためにＤＮＮモデルをエンコードするために使用されるニューラルネットワーク標準（ＮＮＲ：ＮｅｕｒａｌＮｅｔｗｏｒｋｓｔａｎｄａｒｄ）のコード化表現に積極的に取り組んでいる。

【発明の概要】

【課題を解決するための手段】

【0003】

実施形態によれば、ニューラルネットワークモデル圧縮の方法は、少なくとも１つのプロセッサによって実行され、方法は、入力ニューラルネットワークおよび入力マスクを受信するステップと、ディープニューラルネットワークを使用して、入力ニューラルネットワークのパラメータを削減するステップであって、ディープニューラルネットワークは、入力マスクによってマスクされたディープニューラルネットワークの入力重みの複数のブロックから、プルーニングするプルーニング微細構造ブロックを選択するステップと、選択されたプルーニング微細構造ブロックに基づいて、入力重みをプルーニングするステップと、入力マスクによってマスクされた入力重みの複数のブロックから、統合される統合微細構造ブロックを選択するステップと、ディープニューラルネットワークの、プルーニングされて統合された入力重みを取得するために、選択された統合微細構造ブロックに基づいて、プルーニングされた入力重みの複数のブロックのうちの１つまたは複数の中で複数の重みを統合するステップとによって訓練される、削減するステップとを含む。この方法はさらに、入力ニューラルネットワークと、ディープニューラルネットワークの、プルーニングされて統合された入力重みとに基づいて、削減されたパラメータを有する出力ニューラルネットワークを取得するステップを含む。

【0004】

実施形態によれば、ニューラルネットワークモデルの圧縮のための装置は、プログラムコードを格納するように構成された少なくとも１つのメモリと、プログラムコードを読み取り、プログラムコードによって指示されるように動作するように構成された少なくとも１つのプロセッサとを含む。プログラムコードは、少なくとも１つのプロセッサに入力ニューラルネットワークおよび入力マスクを受信させるように構成された受信コードと、ディープニューラルネットワークによって少なくとも１つのプロセッサに入力ニューラルネットワークのパラメータを削減させるように構成された削減コードであって、ディープニューラルネットワークは、入力マスクによってマスクされたディープニューラルネットワークの入力重みの複数のブロックから、プルーニングするプルーニング微細構造ブロックを選択することと、選択されたプルーニング微細構造ブロックに基づいて、入力重みをプルーニングすることと、入力マスクによってマスクされた入力重みの複数のブロックから、統合される統合微細構造ブロックを選択することと、ディープニューラルネットワークの、プルーニングされて統合された入力重みを取得するために、選択された統合微細構造ブロックに基づいて、プルーニングされた入力重みの複数のブロックのうちの１つまたは複数の中で複数の重みを統合することとによって訓練される、削減コードとを含む。プログラムコードはさらに、入力ニューラルネットワークと、ディープニューラルネットワークの、プルーニングされて統合された入力重みとに基づいて、削減されたパラメータを有する出力ニューラルネットワークを少なくとも１つのプロセッサに出力させるように構成された取得コードを含む。

【0005】

実施形態によれば、非一時的なコンピュータ可読媒体は、ニューラルネットワークモデルの圧縮のために少なくとも１つのプロセッサによって実行されるとき、入力ニューラルネットワークおよび入力マスクを受信することと、ディープニューラルネットワークを使用して、入力ニューラルネットワークのパラメータを削減することであって、ディープニューラルネットワークは、入力マスクによってマスクされたディープニューラルネットワークの入力重みの複数のブロックから、プルーニングするプルーニング微細構造ブロックを選択することと、選択されたプルーニング微細構造ブロックに基づいて、入力重みをプルーニングすることと、入力マスクによってマスクされた入力重みの複数のブロックから、統合される統合微細構造ブロックを選択することと、ディープニューラルネットワークの、プルーニングされて統合された入力重みを取得するために、選択された統合微細構造ブロックに基づいて、プルーニングされた入力重みの複数のブロックのうちの１つまたは複数の中で複数の重みを統合することとによって訓練される、削減することとを少なくとも１つのプロセッサに引き起こさせる命令を格納する。命令は、少なくとも１つのプロセッサによって実行されるとき、入力ニューラルネットワークと、ディープニューラルネットワークの、プルーニングされて統合された入力重みとに基づいて、削減されたパラメータを有する出力ニューラルネットワークを取得することを少なくとも１つのプロセッサに引き起こさせる。

【図面の簡単な説明】

【0006】

【図1】本明細書で説明されている方法、装置、およびシステムが実施され得る、実施形態に係る環境の図である。

【図2】図１の１つまたは複数のデバイスの例示的なコンポーネントのブロック図である。

【図3】実施形態に係る、ニューラルネットワークモデル圧縮のためのシステムの機能ブロック図である。

【図4A】実施形態に係る、微細構造化された重みプルーニングを伴うニューラルネットワークモデル圧縮のための訓練装置の機能ブロック図である。

【図4B】他の実施形態に係る、微細構造化された重みプルーニングを伴うニューラルネットワークモデル圧縮のための訓練装置の機能ブロック図である。

【図4C】さらに他の実施形態に係る、重み統合を伴うニューラルネットワークモデル圧縮のための訓練装置の機能ブロック図である。

【図4D】さらに他の実施形態に係る、微細構造化された重みのプルーニングおよび重みの統合を伴うニューラルネットワークモデルの圧縮のための訓練装置の機能ブロック図である。

【図4E】さらに他の実施形態に係る、微細構造化された重みのプルーニングおよび重みの統合を伴うニューラルネットワークモデルの圧縮のための訓練装置の機能ブロック図である。

【図5】実施形態に係る、微細構造化された重みのプルーニングおよび重みの統合を伴うニューラルネットワークモデルの圧縮の方法のフローチャートである。

【図6】実施形態に係る、微細構造化された重みのプルーニングおよび重みの統合を伴うニューラルネットワークモデルの圧縮のための装置のブロック図である。

【発明を実施するための形態】

【0007】

本開示は、ニューラルネットワークモデルの圧縮に関する。より具体的には、本明細書に記載の方法および装置は、微細構造化された重みのプルーニングおよび重みの統合を伴うニューラルネットワークモデルの圧縮に関する。

【0008】

本明細書に記載の実施形態は、反復ネットワーク再訓練／微調整フレームワークにおいて微細構造化された重みプルーニング正則化を使用することによってＤＮＮモデルを圧縮するための方法および装置を含む。プルーニング損失は、反復的な再訓練／微調整プロセスを通じて、元のネットワーク訓練ターゲットと共同で最適化される。

【0009】

本明細書に記載の実施形態は、反復ネットワーク再訓練／微調整フレームワークにおいて構造化された統合正則化を使用することによってＤＮＮモデルを圧縮するための方法および装置をさらに含む。重み統合損失には、圧縮率損失、統合歪み損失、および計算速度損失が含まれる。重み損失は、反復的な再訓練／微調整プロセスを通じて、元のネットワーク訓練ターゲットと共同で最適化される。

【0010】

本明細書に記載の実施形態は、反復ネットワーク再訓練／微調整フレームワークにおいて微細構造化結合重みプルーニング・重み統合正則化を使用することによってＤＮＮモデルを圧縮するための方法および装置をさらに含む。プルーニング損失と統合損失は、反復的な再訓練／微調整プロセスを通じて、元のネットワーク訓練ターゲットと共同で最適化される。

【0011】

コンパクトなＤＮＮモデルを学習するためのいくつかのアプローチが存在する。ターゲットは重要でない重み係数を取り除くことであり、重み係数の値が小さいほど重要性が低くなり、これらの重みを取り除くことで予測パフォーマンスへの影響が少なくなると想定される。この目標を追求するために、いくつかのネットワークプルーニング法が提案されている。例えば、非構造化重みプルーニング法は、スパース性を促進する正則化項をネットワーク訓練ターゲットに追加し、非構造的に分散されたゼロ値の重みを取得し、これにより、モデルサイズを縮小できるが、推論時間を短縮することはできない。構造化重みプルーニング法は、行または列など、重み構造全体を意図的にプルーニングするように強制する。取り除かれた行または列は推論計算に関与せず、モデルサイズと推論時間の両方を削減できる。ただし、行および列のような重み構造全体を取り除くと、元のＤＮＮモデルのパフォーマンスが大幅に低下する可能性がある。

【0012】

いくつかのネットワークプルーニング法は、スパース性を促進する正則化項をネットワーク訓練ターゲットに追加する。非構造化重みプルーニング法は、スパース性を促進する正則化項をネットワーク訓練ターゲットに追加し、非構造的に分散されたゼロ値の重みを取得する。構造化重みプルーニング法は、行または列など、選択された重み構造を意図的にプルーニングするように強制する。ＤＮＮモデルの圧縮の観点から、コンパクトなネットワークモデルを学習した後、重み係数は、量子化とそれに続くエントロピーコーディングによってさらに圧縮できる。このようなさらなる圧縮プロセスにより、モバイルデバイスやチップなどへのモデル展開に使用されるＤＮＮモデルのストレージサイズを大幅に削減できる。

【0013】

本明細書に記載の実施形態は、元のＤＮＮモデルの予測パフォーマンスをほとんど犠牲にすることなく、モデルサイズを縮小し、推論計算を加速することを目的とした微細構造化重みプルーニングのための方法および装置を含む。反復ネットワーク再訓練／精緻化フレームワークを使用して、元の訓練ターゲットと重みプルーニング損失を共同で最適化する。重み係数は、基礎となるハードウェア設計と整合する小さな微細構造に従ってプルーニングされるため、モデルサイズを大幅に縮小でき、元のターゲット予測パフォーマンスを大幅に維持でき、推論計算を大幅に加速することができる。本方法および装置は、元の事前訓練された高密度ＤＮＮモデルを圧縮するために適用することができる。また、追加の処理モジュールとして使用して、他の非構造化または構造化プルーニングアプローチによって事前にプルーニングされたスパースなＤＮＮモデルをさらに圧縮することもできる。

【0014】

本明細書に記載の実施形態は、後の圧縮プロセスにおける圧縮効率を改善することを目的とした、構造化重み統合正則化のための方法および装置をさらに含む。反復ネットワーク再訓練／精緻化フレームワークは、元の訓練ターゲットと、圧縮率損失、統合歪み損失、および計算速度損失を含む重み統合損失とを、学習したネットワーク重み係数が、元のターゲットパフォーマンスを維持するように、さらなる圧縮に適するように、および学習した重み係数を使用する計算を高速化できるように、共同で最適化するために使用される。本方法および装置は、元の事前訓練されたＤＮＮモデルを圧縮するために適用できる。それらは、プルーニングされたＤＮＮモデルをさらに圧縮するための追加の処理モジュールとしても使用できる。

【0015】

本明細書に記載の実施形態は、後の圧縮プロセスにおける圧縮効率を改善し、ならびに推論計算を加速することを目的とした、結合微細構造化重みプルーニング・重み統合のための方法および装置を含む。反復ネットワーク再訓練／精緻化フレームワークは、元の訓練ターゲットと、重みプルーニング損失および重み統合損失を共同で最適化するために使用される。重み係数は小さな微細構造に従ってプルーニングまたは統合され、学習された重み係数は元のターゲットパフォーマンスを維持し、さらなる圧縮に適しており、学習された重み係数を使用する計算を高速化できる。本方法および装置は、元の事前訓練された高密度ＤＮＮモデルを圧縮するために適用することができる。また、追加の処理モジュールとして使用して、他の非構造化または構造化プルーニングアプローチによって事前にプルーニングされたスパースなＤＮＮモデルをさらに圧縮することもできる。

【0016】

図１は、実施形態による、本明細書に記載の方法、装置、およびシステムを実装可能な環境１００の図である。

【0017】

図１に示すように、環境１００は、ユーザデバイス１１０、プラットフォーム１２０、およびネットワーク１３０を含んでもよい。環境１００のデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して相互接続してもよい。

【0018】

ユーザデバイス１１０は、プラットフォーム１２０に関連付けられた情報を受信、生成、記憶、処理、および／または提供することができる１つまたは複数のデバイスを含む。例えば、ユーザデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカ、サーバなど）、携帯電話（例えば、スマートフォン、無線電話など）、ウェアラブルデバイス（例えば、スマートグラスまたはスマートウォッチ）、または同様のデバイスなどであってもよい。いくつかの実装形態では、ユーザデバイス１１０は、プラットフォーム１２０から情報を受信し、および／またはプラットフォームに情報を送信してもよい。

【0019】

プラットフォーム１２０は、本明細書の他の箇所に記載されるような１つまたは複数のデバイスを含む。いくつかの実装形態では、プラットフォーム１２０は、クラウドサーバまたはクラウドサーバ群を含んでもよい。いくつかの実装形態では、プラットフォーム１２０は、ソフトウェアコンポーネントがスワップインまたはスワップアウトされ得るようにモジュール式に設計されてもよい。したがって、プラットフォーム１２０は、異なる用途向けに、容易におよび／または迅速に再構築されてもよい。

【0020】

いくつかの実装形態では、図示のように、プラットフォーム１２０は、クラウドコンピューティング環境１２２下で動作してもよい。特に、本明細書に記載の実装形態は、プラットフォーム１２０がクラウドコンピューティング環境１２２下で動作するものとして説明されているが、いくつかの実装形態では、プラットフォーム１２０は、クラウドベースでなくてもよく（すなわち、クラウドコンピューティング環境の外部で実装されてもよい）、または部分的にクラウドベースであってもよい。

【0021】

クラウドコンピューティング環境１２２は、プラットフォーム１２０のホストとして機能する環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０のホストとして機能する１つまたは複数のシステムおよび／または１つまたは複数のデバイスの物理的位置および構成に関するエンドユーザ（例えば、ユーザデバイス１１０）の知識を必要としない計算、ソフトウェア、データアクセス、ストレージなどのサービスを提供してもよい。図示のように、クラウドコンピューティング環境１２２は、コンピューティングリソース１２４のグループ（「コンピューティングリソース１２４」と総称し、個別に「コンピューティングリソース１２４」と呼ぶ）を含んでもよい。

【0022】

コンピューティングリソース１２４は、１つまたは複数のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイス、または他のタイプの計算および／または通信デバイスを含む。いくつかの実装形態では、コンピューティングリソース１２４は、プラットフォーム１２０のホストとして機能してもよい。クラウドリソースは、コンピューティングリソース１２４で実行される計算インスタンス、コンピューティングリソース１２４で提供される記憶デバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイスなどを含んでもよい。いくつかの実装形態では、コンピューティングリソース１２４は、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して他のコンピューティングリソース１２４と通信してもよい。

【0023】

図１にさらに示すように、コンピューティングリソース１２４は、１つまたは複数のアプリケーション（「ＡＰＰ」）１２４－１、１つまたは複数の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つまたは複数のハイパーバイザ（「ＨＹＰ」）１２４－４などのクラウドリソース群を含む。

【0024】

アプリケーション１２４－１は、ユーザデバイス１１０および／またはプラットフォーム１２０に提供、またはユーザデバイス１１０および／またはプラットフォーム１２０によってアクセスされてもよい１つまたは複数のソフトウェアアプリケーションを含む。アプリケーション１２４－１は、ユーザデバイス１１０にソフトウェアアプリケーションをインストールし、ソフトウェアアプリケーション実行する必要性を排除してもよい。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連付けられたソフトウェアおよび／またはクラウドコンピューティング環境１２２を介して提供可能な任意の他のソフトウェアを含んでもよい。いくつかの実装形態では、１つのアプリケーション１２４－１は、仮想マシン１２４－２を介して、１つまたは複数の他のアプリケーション１２４－１との間で情報を送受信してもよい。

【0025】

仮想マシン１２４－２は、物理マシンのようにプログラムを実行するマシン（例えば、コンピュータ）のソフトウェア実装を含む。仮想マシン１２４－２は、仮想マシン１２４－２による用途および任意の実マシンに対する対応度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供してもよい。プロセス仮想マシンは、単一のプログラムを実行してもよく、単一のプロセスをサポートしてもよい。いくつかの実装形態では、仮想マシン１２４－２は、ユーザ（例えば、ユーザデバイス１１０）に代わって動作してもよく、データ管理、同期、または長期間のデータ転送などのクラウドコンピューティング環境１２２の基盤を管理してもよい。

【0026】

仮想化ストレージ１２４－３は、１つまたは複数のストレージシステムおよび／または１つまたは複数のデバイスを含み、１つまたは複数のストレージシステムおよび／または１つまたは複数のデバイスは、コンピューティングリソース１２４のストレージシステムまたはデバイス内で仮想化技術を使用する。いくつかの実装形態では、ストレージシステムのコンテキスト内で、仮想化のタイプは、ブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、ストレージシステムが物理記憶または異種構造に関係なくにアクセスされ得るような、物理記憶からの論理記憶の抽象化（または分離）を指し得る。分離により、ストレージシステムの管理者がエンドユーザのためにストレージを管理する方法の柔軟性が可能になり得る。ファイル仮想化は、ファイルレベルでアクセスされるデータとファイルが物理的に格納される場所との間の依存関係を排除し得る。これにより、ストレージ使用の最適化、サーバ統合、および／またはスムーズなファイル移行の性能が可能になり得る。

【0027】

ハイパーバイザ１２４－４は、複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）をコンピューティングリソース１２４などのホストコンピュータ上で同時に実行できるハードウェア仮想化技術を提供してもよい。ハイパーバイザ１２４－４は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提供してもよく、ゲストオペレーティングシステムの実行を管理してもよい。様々なオペレーティングシステムの複数のインスタンスが、仮想化されたハードウェアリソースを共用し得る。

【0028】

ネットワーク１３０は、１つまたは複数の有線および／または無線ネットワークを含む。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（ＦｉｆｔｈＧｅｎｅｒａｔｉｏｎ：５Ｇ）ネットワーク、ロングタームエボリューション（Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ：ＬＴＥ）ネットワーク、第３世代（ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎ：３Ｇ）ネットワーク、符号分割多元接続（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ：ＣＤＭＡ）ネットワークなど）、公衆陸上移動体ネットワーク（ＰｕｂｌｉｃＬａｎｄＭｏｂｉｌｅＮｅｔｗｏｒｋ：ＰＬＭＮ）、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ：ＷＡＮ）、メトロポリタンエリアネットワーク（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ：ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話網（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ：ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワークなど、および／またはこれらもしくは他のタイプのネットワークの組み合わせなどであってもよい。

【0029】

図１に示すデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、追加のデバイスおよび／またはネットワーク、より少ないデバイスおよび／またはネットワーク、異なるデバイスおよび／またはネットワーク、あるいは図１に示すものとは異なる配置のデバイスおよび／またはネットワークが存在してもよい。さらに、図１に示す２つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図１に示す単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加的または代替的に、環境１００のデバイスのセット（例えば、１つまたは複数のデバイス）は、環境１００の別のデバイスのセットによって実行されるものとして記載される１つまたは複数の機能を実行してもよい。

【0030】

図２は、図１の１つまたは複数のデバイスの例示的なコンポーネントのブロック図である。

【0031】

デバイス２００は、ユーザデバイス１１０および／またはプラットフォーム１２０に対応することができる。図２に示されるように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、ストレージコンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、および通信インターフェイス２７０を含み得る。

【0032】

バス２１０は、デバイス２００のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ２２０は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装される。プロセッサ２２０は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）、グラフィック処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）、加速処理装置（ＡｃｃｅｌｅｒａｔｅｄＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル・シグナル・プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、フィールド・プログラマブル・ゲート・アレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、特定用途向け集積回路（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、または別のタイプの処理コンポーネントである。いくつかの実装形態では、プロセッサ２２０は、機能を実行するようにプログラム可能な１つまたは複数のプロセッサを含む。メモリ２３０は、ランダム・アクセス・メモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、リード・オンリー・メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、および／またはプロセッサ２２０が使用する情報および／または命令を記憶する別のタイプの動的または静的記憶デバイス（例えば、フラッシュメモリ、磁気メモリ、および／または光メモリ）を含む。

【0033】

ストレージコンポーネント２４０は、デバイス２００の動作および使用に関連する情報および／またはソフトウェアを記憶する。例えば、ストレージコンポーネント２４０は、対応するドライブとともに、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、および／またはソリッドステートディスク）、コンパクトディスク（ＣｏｍｐａｃｔＤｉｓｃ：ＣＤ）、デジタル多用途ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ：ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、および／または別のタイプの非一時的なコンピュータ可読媒体を含んでもよい。

【0034】

入力コンポーネント２５０は、デバイス２００がユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、および／またはマイクロフォン）などを介して情報を受信することを可能にするコンポーネントを含む。追加的または代替的に、入力コンポーネント２５０は、情報を感知するためのセンサ（例えば、全地球測位システム（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ：ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、および／またはアクチュエータ）を含んでもよい。出力コンポーネント２６０は、デバイス２００（例えば、ディスプレイ、スピーカ、および／または１つまたは複数の発光ダイオード（Ｌｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ：ＬＥＤ））からの出力情報を提供するコンポーネントを含む。

【0035】

通信インターフェイス２７０は、デバイス２００が有線接続、無線接続、または有線接続と無線接続との組み合わせなどを介して他のデバイスと通信することを可能にするトランシーバのようなコンポーネント（例えば、トランシーバおよび／または別個の受信機および送信機）を含む。通信インターフェイス２７０は、デバイス２００が別のデバイスから情報を受信すること、および／または別のデバイスに情報を提供することを可能にしてもよい。例えば、通信インターフェイス２７０は、イーサネット（登録商標）インターフェイス、光インターフェイス、同軸インターフェイス、赤外線インターフェイス、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ：ＲＦ）インターフェイス、ユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ：ＵＳＢ）インターフェイス、Ｗｉ－Ｆｉ（登録商標）インターフェイス、セルラーネットワークインターフェイスなどであってもよい。

【0036】

デバイス２００は、本明細書に記載された１つまたは複数の処理を実行してもよい。デバイス２００は、メモリ２３０および／またはストレージコンポーネント２４０などの非一時的なコンピュータ可読媒体によって記憶されたソフトウェア命令を実行するプロセッサ２２０に応答して、これらの処理を実行してもよい。コンピュータ可読媒体は、本明細書では非一時的なメモリデバイスと定義される。メモリデバイスは、単一の物理記憶デバイス内のメモリ空間、または複数の物理記憶デバイスにわたって散在するメモリ空間を含む。

【0037】

ソフトウェア命令は、別のコンピュータ可読媒体から、または通信インターフェイス２７０を介して別のデバイスから、メモリ２３０および／またはストレージコンポーネント２４０に読み込まれてもよい。メモリ２３０および／またはストレージコンポーネント２４０に記憶されたソフトウェア命令は、実行されると、本明細書に記載の１つまたは複数のプロセスをプロセッサ２２０に実行させてもよい。追加的または代替的に、ハードワイヤード回路をソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用して、本明細書に記載の１つまたは複数のプロセスを実行してもよい。よって、本明細書に記載される実装形態は、ハードウェア回路とソフトウェアとのどんな特定の組み合わせにも限定されない。

【0038】

図２に示されるコンポーネントの数および配置は、一例として示されている。実際には、デバイス２００は、図２に示されたコンポーネントに対して、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、または異なる配置のコンポーネントを含んでもよい。追加的または代替的に、デバイス２００のコンポーネントのセット（例えば、１つまたは複数のコンポーネント）は、デバイス２００の別のコンポーネントのセットによって実行されるものとして説明される１つまたは複数の機能を実行してもよい。

【0039】

次に、微細構造化重みプルーニングと重み統合を伴うニューラルネットワークモデルの圧縮の方法および装置について詳細に説明する。

【0040】

図３は、実施形態に係る、ニューラルネットワークモデルの圧縮のためのシステム３００の機能ブロック図である。

【0041】

図３に示されるように、システム３００は、パラメータ削減モジュール３１０、パラメータ近似モジュール３２０、再構築モジュール３３０、エンコーダ３４０、およびデコーダ３５０を含む。

【0042】

パラメータ削減モジュール３１０は、出力ニューラルネットワークを得るために、入力ニューラルネットワークのパラメータのセットを削減する。ニューラルネットワークは、ディープラーニングフレームワークで指定される場合、パラメータおよびアーキテクチャを含むことができる。

【0043】

例えば、パラメータ削減モジュール３１０は、ニューラルネットワークの接続をスパース化（重みをゼロに設定）および／またはプルーニング除去することができる。別の一例では、パラメータ削減モジュール３１０は、ニューラルネットワークのパラメータテンソルに対して、より小さなパラメータテンソルのセットへの行列分解を実行することができる。パラメータ削減モジュール３１０は、これらの方法をカスケードで実行することができ、例えば、最初に重みをスパース化し、次に結果として生じる行列を分解することができる。

【0044】

パラメータ近似モジュール３２０は、パラメータ削減モジュール３１０から得られる出力ニューラルネットワークから抽出されるパラメータテンソルにパラメータ近似技術を適用する。例えば、技術は、量子化、変換、および予測の任意の１つまたは任意の組み合わせを含み得る。パラメータ近似モジュール３２０は、パラメータ近似モジュール３２０によって変更されない第１のパラメータテンソル、パラメータ近似モジュール３２０によって変更または近似される第２のパラメータテンソル、および変更された第２のパラメータテンソルからパラメータ近似モジュール３２０によって変更されていない元のパラメータテンソルを再構築するために使用されるそれぞれのメタデータを出力する。

【0045】

再構築モジュール３３０は、パラメータ近似モジュール３２０および／またはデコーダ３５０から得られるそれぞれのメタデータを使用して、パラメータ近似モジュール３２０および／またはデコーダ３５０から得られる変更された第２のパラメータテンソルから元のパラメータテンソルを再構築する。再構築モジュール３３０は、再構築された元のパラメータテンソルおよび第１のパラメータテンソルを使用して、出力ニューラルネットワークを再構築することができる。

【0046】

エンコーダ３４０は、パラメータ近似モジュール３２０から得られる、第１のパラメータテンソル、第２のパラメータテンソル、およびそれぞれのメタデータに対してエントロピー符号化を実行することができる。この情報は、デコーダ３５０へのビットストリームに符号化され得る。

【0047】

デコーダ３５０は、エンコーダ３４０から取得されたビットストリームをデコードして、第１のパラメータテンソル、第２のパラメータテンソル、およびそれぞれのメタデータを取得することができる。

【0048】

システム３００は、プラットフォーム１２０に実装することができ、図３の１つまたは複数のモジュールは、ユーザデバイス１１０などの、プラットフォーム１２０とは別の、またはプラットフォーム１２０を含むデバイスまたはデバイスのグループによって実行され得る。

【0049】

パラメータ削減モジュール３１０またはパラメータ近似モジュール３２０は、以下の訓練装置によって訓練されるＤＮＮを含み得る。

【0050】

図４Ａは、実施形態に係る、微細構造化重みプルーニングを伴うニューラルネットワークモデルの圧縮のための訓練装置４００Ａの機能ブロック図である。図４Ｂは、他の実施形態に係る、微細構造化重みプルーニングを伴うニューラルネットワークモデルの圧縮のための訓練装置４００Ｂの機能ブロック図である。

【0051】

図４Ａに示されるように、訓練装置４００Ａは、微細構造選択モジュール４０５、重みプルーニングモジュール４１０、ネットワーク前方計算モジュール４１５、ターゲット損失計算モジュール４２０、勾配計算モジュール４２５、および重み更新モジュール４３０を含む。

【0052】

図４Ｂに示されるように、訓練装置４００Ｂは、微細構造選択モジュール４０５、重みプルーニングモジュール４１０、ネットワーク前方計算モジュール４１５、ターゲット損失計算モジュール４２０、勾配計算モジュール４２５、および重み更新モジュール４３０を含む。訓練装置４００Ｂは、マスク計算モジュール４３５をさらに含む。

【0053】

Ｄ＝｛（ｘ、ｙ）｝は、ターゲットｙが入力ｘに割り当てられているデータセットを表すとする。Θ＝｛ｗ｝は、ＤＮＮの（例えば、パラメータ削減モジュール３１０またはパラメータ近似モジュール３２０の）重み係数のセットを表すとする。ネットワーク訓練のターゲットは、ターゲット損失￡（Ｄ｜Θ）を最小化できるように、重み係数Θの最適なセットを学習することである。例えば、以前のネットワークプルーニングアプローチでは、ターゲット損失￡_Ｔ（Ｄ｜Θ）には、経験的データ損失￡_Ｄ（Ｄ｜Θ）とスパース性を促進する正則化損失￡_Ｒ（Θ）の２つの部分がある。
￡_Ｔ（Ｄ｜Θ）＝￡_Ｄ（Ｄ｜Θ）＋λ_Ｒ￡_Ｒ（Θ）、（１）

【0054】

ここで、λ_Ｒ≧０は、データ損失と正則化損失の寄与のバランスをとるハイパーパラメータである。λ_Ｒ＝０の場合、ターゲット損失￡_Ｔ（Ｄ｜Θ）のみが経験的データ損失のみを考慮し、事前に訓練された重み係数は密である。

【0055】

事前に訓練された重み係数Θは、重み係数の最適なセットを学習する別のネットワーク訓練プロセスをさらに通過して、モデルの圧縮と推論の加速をさらに実現できる。実施形態は、この目標を達成するために、微細構造化プルーニング法を含む。

【0056】

具体的には、微細構造化重みプルーニング損失￡_Ｓ（Ｄ｜Θ）が定義され、元のターゲット損失とともに最適化される。
￡（Ｄ｜Θ）＝￡_Ｔ（Ｄ｜Θ）＋λ_Ｓ￡_Ｓ（Θ）、（２）

【0057】

ここで、λ_Ｓ≧０は、元の訓練ターゲットと重みプルーニングターゲットの寄与のバランスをとるためのハイパーパラメータである。式（２）の￡（Ｄ｜Θ）を最適化することにより、さらなる圧縮の効果を大いに助けることができる最適な重み係数のセットを得ることができる。また、微細構造化重みプルーニング損失は、畳み込み演算がＧＥＭＭ行列乗算プロセスとして実行される方法の基礎となるプロセスを考慮に入れているため、計算を大幅に加速できる最適化された重み係数が得られる。重みプルーニング損失は、正則化がある場合（λ_Ｒ＞０の場合）またはない場合（λ_Ｒ＝０の場合）の、ターゲット損失に対する追加の正則化項と見なすことができることに注目すべきである。また、この方法は、正則化損失￡_Ｒ（Θ）に柔軟に適用できる。

【0058】

学習効果と学習効率の両方について、反復最適化プロセスが実行される。第１のステップでは、望ましい微細構造を満たす重み係数の部分が固定され、次に第２のステップでは、重み係数の非固定部分が訓練損失をバックプロパゲーションすることによって更新される。これらの２つのステップを繰り返し実行することにより、ますます多くの重みを徐々に固定することができ、結合損失を徐々に効果的に最適化することができる。

【0059】

さらに、実施形態では、各々の層は個別に圧縮されるため、￡_Ｓ（Ｄ｜Θ）はさらに次のように書くことができる。

【数1】

ここで、Ｌ_Ｓ（Ｗ^ｊ）はｊ番目の層で定義されたプルーニング損失であり、Ｎはこの訓練プロセスに関与する層の総数であり、Ｗ^ｊはｊ番目の層の重み係数を表す。この場合も、Ｌ_Ｓ（Ｗ^ｊ）は各々の層に対して独立して計算されるため、一般性を失うことなくスクリプトｊを省略できる。

【0060】

各々のネットワーク層に対して、その重み係数Ｗは、サイズ（ｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ）を有する５次元（５Ｄ）テンソルである。層の入力は、サイズ（ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｃ_ｉ）の４次元（４Ｄ）テンソルＡであり、層の出力はサイズ（ｈ_ｏ、ｗ_ｏ、ｄ_ｏ、ｃ_ｏ）の４ＤテンソルＢである。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏは、１以上の整数である。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏのいずれかが数１を取ると、対応するテンソルはより低い次元に減少する。各々のテンソルの各々の項は、浮動小数点数である。ＭがＷと同じサイズの５Ｄバイナリマスクを表し、ここで、Ｍの各々の項は、対応する重み係数が事前にプルーニングされるプロセスでプルーニング／保持されるかどうかを示す２進数０／１であるとする。Ｗが以前の構造化または非構造化プルーニング法を使用してプルーニングされたＤＮＮモデルからのものであり、ネットワーク内のニューロン間の一部の接続が計算から取り除かれる場合に対処するために、Ｗに関連付けられるようにＭが導入される。Ｗが元のプルーニングされていない密なモデルからのものである場合、Ｍのすべての項は値１を取る。出力Ｂは、Ａ、Ｍ、およびＷに基づく畳み込み演算

【数2】

によって計算される。

【数3】

ｌ＝１，．．．，ｈ_ｉ，ｍ＝１，．．．，ｗ_ｉ，ｎ＝１，．．．，ｄ_ｉ，ｌ’＝１，．．．，ｈ_ｏ，
ｍ’＝１，．．．，ｗ_ｏ，ｎ’＝１，．．．，ｄ_ｏ，ｖ＝１，．．．，ｃ_ｏ。（４）

【0061】

パラメータｈ_ｉ、ｗ_ｉ、およびｄ_ｉ（ｈ_０、ｗ_ｏ、およびｄ_ｏ）は、入力テンソルＡ（出力テンソルＢ）の高さ、重み、および深さである。パラメータｃ_ｉ（ｃ_ｏ）は、入力（出力）チャネルの数である。パラメータｋ_１、ｋ_２、およびｋ_３は、それぞれ高さ軸、重み軸、および深さ軸に対応する畳み込みカーネルのサイズである。つまり、各々の出力チャネルｖ＝１、．．．、ｃ_ｏについて、式（４）で記述されている演算は、入力Ａと畳み込むサイズ（ｃ_ｉ、ｋ_１、ｋ_２、ｋ_３）の４Ｄ重みテンソルＷ_ｖと見なすことができる。

【0062】

式（４）の総和演算の順序は、変更することができ、その結果、入力Ａ、重みＷ（およびマスクＭ）の形状の異なる構成が得られ、同じ出力Ｂが得られる。実施形態では、２つの構成が取られる。（１）５Ｄ重みテンソルは、サイズ（

【数4】

、ｋ）、ただし、

【数5】

の３Ｄテンソルに再形成される。例えば、構成は

【数6】

である。（２）５Ｄ重みテンソルは、サイズ（

【数7】

）、ただし、

【数8】

の２Ｄ行列に再形成される。例えば、いくつかの実施形態は、

【数9】

、または

【数10】

である。

【0063】

重み係数の望ましい微細構造は、畳み込み演算の実装方法の基礎となるＧＥＭＭ行列乗算プロセスと整合しているので、学習した重み係数を使用する推論計算が加速される。実施形態では、重み係数のブロック単位の微細構造が、３Ｄの再形成された重みテンソルまたは２Ｄの再形成された重み行列の各々の層で使用される。具体的には、再形成された３Ｄの重みテンソルの場合は、サイズ（ｇ_ｉ、ｇ_ｏ、ｇ_ｋ）のブロックに分割され、再形成された２Ｄの重み行列の場合は、サイズ（ｇ_ｉ、ｇ_ｏ）のブロックに分割される。プルーニング操作は２Ｄまたは３Ｄブロック内で起きる、つまり、ブロック内のプルーニングされた重みはすべてゼロに設定される。ブロックのプルーニング損失は、そのようなプルーニング操作によって導入された誤差を測定して計算できる。この微細構造が与えられると、反復中に、プルーニングされる重み係数の部分がプルーニング損失に基づいて決定される。次に、第２のステップで、プルーニングされた重みが固定され、通常のニューラルネットワーク訓練プロセスが実行され、残りの非固定重み係数がバックプロパゲーションメカニズムによって更新される。

【0064】

図４Ａおよび図４Ｂは、反復的な再訓練／微調整プロセスの実施形態を示しており、両方とも、式（２）の結合損失を徐々に最適化するために２つのステップを反復的に交互に繰り返す。第１のステップでは、プルーニングされたスパースモデルまたはプルーニングされていない非スパースモデルのいずれかであり得る、重み係数｛Ｗ｝とマスク｛Ｍ｝を有する事前に訓練されたＤＮＮモデルが与えられ、微細構造選択モジュール４０５はまず、各々の層の重み係数Ｗ（および対応するマスクＭ）を望ましい３Ｄテンソルまたは２Ｄ行列に再形成する。次に、各々の層について、微細構造選択モジュール４０５は、プルーニング微細構造選択プロセスを通じて重みがプルーニングされるプルーニング微細構造｛ｂ_ｓ｝またはプルーニング微細構造ブロック（ＰＭＢ）のセットを決定する。プルーニングの微細構造｛ｂ_ｓ｝を決定する方法は複数ある。実施形態では、重み係数ＷおよびマスクＭを有する各々の層について、Ｗの各々のブロックｂについて、プルーニング損失Ｌ_ｓ（ｂ）（例えば、ｂの重みの絶対値の合計）が計算される。プルーニング率ｐが与えられると、この層のブロックはＬ_ｓ（ｂ）に従ってアクセント順にランク付けされ、上位ｐ％のブロックがプルーニングされる｛ｂ_ｓ｝として選択される。他の実施形態では、重み係数ＷおよびマスクＭを有する各々の層について、各々のブロックｂのプルーニング損失Ｌ_ｓ（ｂ）は、上記と同じ方法で計算される。プルーニング率ｐが与えられると、すべての層のすべてのブロックがＬ_ｓ（ｂ）に従ってアクセント順にランク付けされ、上位ｐ％のブロックがプルーニングされる｛ｂ_ｓ｝として選択される。

【0065】

プルーニング微細構造のセットを取得した後、ターゲットは、式（２）に記述されている結合損失を繰り返し最小化することにより、更新された最適な重み係数Ｗ^＊と対応する重みマスクＭ^＊のセットを見つけることになる。図４Ａによって示される第１の実施形態では、ｔ回目の反復のために、現在の重み係数Ｗ（ｔ－１）が存在する。また、微細構造的プルーニングマスクＰ（ｔ－１）は、訓練プロセス全体を通じて維持される。Ｐ（ｔ－１）はＷ（ｔ－１）と同じ形状であり、対応する重み係数がプルーニングされているか否かを記録する。次に、重みプルーニングモジュール４１０は、Ｐ（ｔ－１）によってマスクされた選択されたプルーニング微細構造がプルーニングされ、更新された重みマスクＭ_Ｐ（ｔ－１）をもたらす重みプルーニングプロセスを通じて、プルーニングされた重み係数Ｗ_Ｐ（ｔ－１）を計算する。

【0066】

次に、第２のステップにおいて、重み更新モジュール４３０は、微細構造的にプルーニングされたものとしてＰ（ｔ－１）によってマークされた重み係数を固定し、次に、ニューラルネットワーク訓練プロセスを介してＷ_Ｐ（ｔ－１）の残りの非固定重み係数を更新し、Ｗ（ｔ）とＭ（ｔ）が更新される。実施形態では、事前に訓練されたプルーニングマスクＭによってマスクされた事前にプルーニングされた重み係数は、このネットワーク訓練プロセス中に強制的に固定される（すなわち、ゼロのままでいる）。別の実施形態では、そのような制限は事前にプルーニングされた重みには課せられず、事前にプルーニングされた重みは、訓練プロセス中にゼロ以外の値にリセットすることができ、その結果、より良好な、場合によっては元の事前訓練されたモデルよりもさらに良好な予測パフォーマンスに関連するよりスパースでないモデルが得られる。

【0067】

具体的には、Ｄ＝｛（ｘ、ｙ）｝が訓練データセットを表すものとし、ここで、Ｄは、事前訓練された重み係数Ｗが取得される元のデータセットＤ_０＝｛（ｘ_０、ｙ_０）｝と同じにすることができる。Ｄはまた、Ｄ_０とは異なるデータセットにすることもできるが、元のデータセットＤと同じデータ分布になる。第２のステップでは、ネットワーク前方計算モジュール４１５は、現在の重み係数Ｗ_Ｐ（ｔ－１）およびマスクＭ_Ｐ（ｔ－１）を使用するネットワーク前方計算プロセスを介して現在のネットワークを介して各々の入力ｘを渡し、これにより推定出力

【数11】

が生成される。グラウンドトゥルースアノテーションｙと推定出力

【数12】

に基づいて、ターゲット損失計算モジュール４２０は、ターゲット損失計算プロセスを通じて、式（２）のターゲット訓練損失￡_Ｔ（Ｄ｜Θ）を計算する。次に、勾配計算モジュール４２５は、ターゲット損失Ｇ（Ｗ_Ｐ（ｔ－１））の勾配を計算する。ｔｅｎｓｏｒｆｌｏｗまたはｐｙｔｏｒｃｈなどの深層学習フレームワークによって使用される自動勾配計算方法を使用してＧ（Ｗ_Ｐ（ｔ－１））を計算できる。勾配Ｇ（Ｗ_Ｐ（ｔ－１））および微細構造的にプルーニングするマスクＰ（ｔ－１）に基づいて、重み更新モジュール４３０は、バックプロパゲーションおよび重み更新プロセスを使用したバックプロパゲーションを通じてＷ_Ｐ（ｔ－１）の非固定重み係数を更新することができる。再訓練プロセスは、それ自体が反復プロセスでもある。Ｗ_Ｐ（ｔ－１）の非固定部分を更新するために、例えば、ターゲット損失が収束するまで、複数の反復が行われる。次に、システムは次の反復ｔに進み、ここで、新しいプルーニング比率ｐ（ｔ）が与えられると、新しいプルーニング微細構造（ならびに新しい微細構造的プルーニングマスクＰ（ｔ））のセットがプルーニング微細構造選択プロセスを通して決定される。

【0068】

図４Ｂによって示される訓練プロセスの第２の実施形態では、更新された最適な重み係数Ｗ^＊および対応する重みマスクＭ^＊のセットは、別の反復プロセスによって見出される。ｔ番目の反復には、現在の重み係数Ｗ（ｔ－１）とマスクＭ（ｔ－１）がある。また、マスク計算モジュール４３５は、プルーニングマスク計算プロセスを通じて、微細構造的プルーニングマスクＰ（ｔ－１）を計算する。Ｐ（ｔ－１）はＷ（ｔ－１）と同じ形状であり、対応する重み係数がプルーニングされているかどうかを記録する。次に、重みプルーニングモジュール４１０は、マスクされた選択されたプルーニング微細構造がＰ（ｔ－１）によってプルーニングされ、更新された重みマスクＭ_Ｐ（ｔ－１）をもたらす重みプルーニングプロセスを通じて、プルーニングされた重み係数Ｗ_Ｐ（ｔ－１）を計算する。

【0069】

次に、第２のステップにおいて、重み更新モジュール４３０は、微細構造的にプルーニングされたものとしてＰ（ｔ－１）によってマークされた重み係数を固定し、次に、ニューラルネットワーク訓練プロセスを介してＷ（ｔ－１）の残りの非固定重み係数を更新し、更新されたＷ（ｔ）をもたらす。図４Ａの第１の実施形態と同様に、訓練データセットＤ＝｛（ｘ、ｙ）｝が与えられると、ネットワーク前方計算モジュール４１５は、現在の重み係数Ｗ（ｔ－１）およびマスクＭ（ｔ－１）を使用してネットワーク前方計算プロセスを介して現在のネットワークを介して各々の入力ｘを渡し、これにより推定出力

【数13】

が生成される。グラウンドトゥルースアノテーションｙと推定出力

【数14】

に基づいて、ターゲット損失計算モジュール４２０は、結合損失計算プロセスを通して、式（２）のターゲット訓練損失￡_Ｔ（Ｄ｜Θ）を含む結合訓練損失￡_Ｊ（Ｄ｜Θ）および残差損失￡_ｒｅｓ（Ｗ（ｔ－１））を計算する。
￡_Ｊ（Ｄ｜Θ）＝￡_Ｔ（Ｄ｜Θ）＋λ_ｒｅｓ￡_ｒｅｓ（Ｗ（ｔ－１））（５）

【0070】

￡_ｒｅｓ（Ｗ（ｔ－１））は、現在の重みＷ（ｔ－１）とターゲットのプルーニングされた重みＷ_Ｐ（ｔ－１）の差を測定する。例えば、Ｌ_１ノルムを使用できる。
￡_ｒｅｓ（Ｗ（ｔ－１））＝｜｜Ｗ（ｔ－１））－Ｗ_Ｐ（ｔ－１）｜｜（６）

【0071】

次に、勾配計算モジュール４２５は、結合損失Ｇ（Ｗ（ｔ－１））の勾配を計算する。ｔｅｎｓｏｒｆｌｏｗまたはｐｙｔｏｒｃｈなどの深層学習フレームワークによって使用される自動勾配計算方法を使用してＧ（Ｗ（ｔ－１））を計算できる。勾配Ｇ（Ｗ（ｔ－１））および微細構造的プルーニングマスクＰ（ｔ－１）に基づいて、重み更新モジュール４３０は、バックプロパゲーションと重み更新プロセスを使用するバックプロパゲーションを通じてＷ（ｔ－１）の非固定重み係数を更新する。再訓練プロセスは、それ自体が反復プロセスでもある。Ｗ（ｔ－１）の非固定部分を更新するために、例えば、ターゲット損失が収束するまで、複数の反復が行われる。次に、システムは次の反復ｔに進み、ここで、プルーニング比Ｐ（ｔ）が与えられると、プルーニング微細構造（ならびに新しい微細構造的プルーニングマスクＰ（ｔ））の新しいセットがプルーニング微細構造選択プロセスを介して決定される。図４Ａの前の実施形態と同様に、この訓練プロセスの間、事前訓練された事前プルーニングマスクＭによってマスクされた重み係数は、強制してゼロのままにすることができるか、または再び非ゼロ値を有するように設定することができる。

【0072】

この全反復プロセスの間、Ｔ回目の反復で、プルーニングされた重み係数Ｗ_Ｐ（Ｔ）は、マスクされた選択されたプルーニング微細構造がＰ（Ｔ）によってプルーニングされ、更新された重みマスクＭ_Ｐ（Ｔ）をもたらす重みプルーニングプロセスを通じて計算され得る。このＷ_Ｐ（Ｔ）およびＭ_Ｐ（Ｔ）を使用して、最終的に更新されたモデルＷ^＊およびＭ^＊を生成できる。例えば、Ｗ^＊＝Ｗ_Ｐ（Ｔ）、およびＭ^＊＝Ｍ・Ｍ_Ｐ（Ｔ）である。

【0073】

実施形態では、ハイパーパラメータＰ（ｔ）は、ｔが増加するにつれて反復中にその値を増加させることができ、その結果、反復学習プロセス全体を通して、ますます多くの重み係数がプルーニングされ、固定される。

【0074】

微細構造化プルーニング法は、モデルサイズを縮小し、最適化された重み係数を使用するための計算を高速化し、元のＤＮＮモデルの予測パフォーマンスを維持することを目的としている。それは、事前に訓練された密なモデル、または以前の構造化または非構造化プルーニング法によってプルーニングされた事前に訓練されたスパースモデルに適用して、追加の圧縮効果を実現できる。

【0075】

反復的な再訓練プロセスを通じて、この方法は、元の予測ターゲットのパフォーマンスを効果的に維持し、圧縮と計算の効率を追求できる。反復的な再訓練プロセスにより、様々な時間に様々な損失を導入できる柔軟性が得られ、システムは最適化プロセス中に様々なターゲットに焦点を合わせることができる。

【0076】

この方法は、様々なデータ形式を有するデータセットに適用できる。入力／出力データは４Ｄテンソルであり、これは、実際のビデオセグメント、画像、または抽出された特徴マップとすることができる。

【0077】

図４Ｃは、さらに他の実施形態に係る、重み統合を伴うニューラルネットワークモデルの圧縮のための訓練装置４００Ｃの機能ブロック図である。

【0078】

図４Ｃに示されるように、訓練装置４００Ｃは、再形成モジュール４４０、重み統合モジュール４４５、ネットワーク前方計算モジュール４１５、ターゲット損失計算モジュール４２０、勾配計算モジュール４２５、および重み更新モジュール４５０を含む。

【0079】

スパース性を促進する正則化の損失は、重み係数全体に正則化を配置し、結果として得られるスパースな重みは、推論効率または計算の加速と弱い関係を有する。別の観点から、スパースな重みは、プルーニング後、さらなるモデル圧縮の効率を向上させることができる重み係数の最適なセットを学習できる別のネットワーク訓練プロセスをさらに通過することができる。

【0080】

重み統合損失￡_Ｕ（Ｄ｜Θ）は、元のターゲット損失とともに最適化される。
￡（Ｄ｜Θ）＝￡_Ｔ（Ｄ｜Θ）＋λ_Ｕ￡_Ｕ（Θ）、（７）
ここで、λ_Ｕ≧０は、元の訓練ターゲットと重みの統合の寄与のバランスをとるためのハイパーパラメータである。式（７）の￡（Ｄ｜Θ）を共同で最適化することにより、さらなる圧縮の効果を大いに助けることができる重み係数の最適なセットが得られる。また、重みの統合損失は、畳み込み演算がＧＥＭＭ行列乗算プロセスとして実行される方法の基礎となるプロセスを考慮に入れているため、計算を大幅に加速できる最適化された重み係数が得られる。重みの統合損失は、正則化がある場合（λ_Ｒ＞０の場合）またはない場合（λ_Ｒ＝０の場合）の、ターゲット損失に対する追加の正則化項と見なすことができることに注意すべきである。また、この方法は、正則化損失￡_Ｒ（Θ）に柔軟に適用できる。

【0081】

実施形態では、重み統合損失￡_Ｕ（Θ）は、圧縮率損失￡_Ｃ（Θ）、統合歪み損失￡_Ｉ（Θ）、および計算速度損失￡_Ｓ（Θ）をさらに含む。
￡_Ｕ（Θ）＝￡_Ｉ（Θ）＋λ_Ｃ￡_Ｃ（Θ）＋λ_Ｓ￡_Ｓ（Θ）、（８）

【0082】

これらの損失項の詳細な説明は、後のセッションで説明される。学習効果と学習効率の両方について、反復最適化プロセスが実行される。第１のステップでは、望ましい構造を満たす重み係数の部分が固定され、次に第２のステップで、重み係数の非固定部分が訓練損失をバックプロパゲーションすることによって更新される。これらの２つのステップを繰り返し実行することにより、ますます多くの重みを徐々に固定することができ、結合損失を徐々に効果的に最適化することができる。

【0083】

さらに、実施形態では、各々の層は個別に圧縮され、￡_Ｕ（Ｄ｜Θ）はさらに次のように書くことができる。

【数15】

ここで、Ｌ_Ｕ（Ｗ^ｊ）は、ｊ番目の層で定義された統合損失であり、Ｎは、量子化損失が測定される層の総数であり、Ｗ^ｊは、ｊ番目の層の重み係数を表す。この場合も、Ｌ_Ｕ（Ｗｊ）は、各々の層に対して独立して計算されるため、本開示の残りの部分では、一般性を失うことなくスクリプトｊを省略できる。

【0084】

各々のネットワーク層に対して、その重み係数Ｗは、サイズ（ｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ）を有する５次元（５Ｄ）テンソルである。層の入力は、サイズ（ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｃ_ｉ）の４次元（４Ｄ）テンソルＡであり、層の出力はサイズ（ｈ_ｏ、ｗ_ｏ、ｄ_ｏ、ｃ_ｏ）の４ＤテンソルＢである。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏは、１以上の整数である。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏのいずれかが数１を取ると、対応するテンソルはより低い次元に減少する。各々のテンソルの各々の項は、浮動小数点数である。ＭがＷと同じサイズの５Ｄバイナリマスクを表し、ここで、Ｍの各々の項目は、対応する重み係数がプルーニングされる／保持されるかどうかを示す２進数０／１であるとする。Ｍは、Ｗがネットワーク内のニューロン間の一部の接続が計算から取り除かれるプルーニングされたＤＮＮモデルからのものである場合に対処するために、Ｗに関連付けられるように導入される。Ｗが元のプルーニングされていない事前訓練されたモデルからのものである場合、Ｍのすべての項目は値１を取る。出力Ｂは、Ａ、Ｍ、およびＷに基づく畳み込み演算

【数16】

によって計算される。

【数17】

ｌ＝１，．．．，ｈ_ｉ，ｍ＝１，．．．，ｗ_ｉ，ｎ＝１，．．．，ｄ_ｉ，ｌ’＝１，．．．，ｈ_ｏ，
ｍ’＝１，．．．，ｗ_ｏ，ｎ’＝１，．．．，ｄ_ｏ，ｖ＝１，．．．，ｃ_ｏ（１０）

【0085】

パラメータｈ_ｉ、ｗ_ｉ、およびｄ_ｉ（ｈ_０、ｗ_ｏ、およびｄ_ｏ）は、入力テンソルＡ（出力テンソルＢ）の高さ、重み、および深さである。パラメータｃ_ｉ（ｃ_ｏ）は、入力（出力）チャネルの数である。パラメータｋ_１、ｋ_２、およびｋ_３は、それぞれ高さ軸、重み軸、および深さ軸に対応する畳み込みカーネルのサイズである。つまり、各出力チャネルｖ＝１、．．．、ｃ_ｏについて、式（１０）で記述されている演算は、入力Ａと畳み込むサイズ（ｃ_ｉ、ｋ_１、ｋ_２、ｋ_３）の４Ｄ重みテンソルＷ_ｖと見なすことができる。

【0086】

式（１０）の総和演算の順序は変更することができ、実施形態では、式（１０）の演算は以下のように実行される。５Ｄ重みテンソルは、サイズ（

【数18】

）の２Ｄ行列、ここで、

【数19】

に再形成される。例えば、いくつかの実施形態は、

【数20】

または

【数21】

である。

【0087】

重み係数の望ましい構造は、２つの側面を考慮して設計されている。第一に、重み係数の構造は、畳み込み演算の実装方法の基礎となるＧＥＭＭ行列乗算プロセスと整合しているので、学習した重み係数を使用する推論計算が加速される。第二に、重み係数の構造は、さらなる圧縮のために量子化とエントロピーコーディングの効率を改善するのに役立つ。実施形態では、重み係数のブロック単位の構造が、２Ｄの再形成された重み行列の各々の層で使用される。具体的には、２Ｄ行列はサイズ（ｇ_ｉ、ｇ_ｏ）のブロックに分割され、ブロック内のすべての係数が統合される。ブロック内の統合された重みは、事前定義された統合ルールに従うように設定される、例えば、すべての値が同じになるように設定されるため、１つの値を使用して、量子化プロセスでブロック全体を表すことができ、高効率が得られる。重みを統合する複数のルールが存在することも可能であり、各々の重みはこのルールを採用することによって導入された誤差を測定する統合歪み損失に関連付けられる。例えば、重みを同じに設定する代わりに、元の符号を維持したまま、重みが同じ絶対値をもつように設定される。この設計された構造が与えられると、反復中に、重み係数の一部は、統合歪み損失、推定圧縮率損失、および推定速度損失を考慮して固定されると決定される。次に、第２のステップで、通常のニューラルネットワーク訓練プロセスが実行され、残りの非固定重み係数がバックプロパゲーションメカニズムによって更新される。

【0088】

図４Ｃは、式（７）の結合損失を徐々に最適化するために２つのステップを繰り返し交互に実行する反復的な再訓練／微調整プロセスの全体的なフレームワークを示している。重み係数ＷとマスクＭを備えた事前訓練されたＤＮＮモデル（プルーニングされたスパースモデルまたはプルーニングされていない非スパースモデルのいずれか）が与えられると、第１のステップで、再形成モジュール４４０は、統合法選択プロセスを通して重み統合法ｕ^＊を決定する。このプロセスにおいて、再形成モジュール４４０は、重み係数Ｗ（および対応するマスクＭ）をサイズ（

【数22】

）の２Ｄ行列に再形成し、次に、再形成された２Ｄ重み行列Ｗをサイズのブロック（ｇ_ｉ、ｇ_ｏ）に分割する。重みの統合はブロック内部で行われる。各々のブロックｂに対して、重み統合子を使用して、ブロック内の重み係数を統合する。ｂの重み係数を統合するいくつかの方法があり得る。例えば、重み統合子は、ｂのすべての重みを同じ、例えば、ｂのすべての重みの平均値に設定できる。このような場合、ｂの重み係数のＬ_Ｎノルム（例えば、ｂの重みの分散としてのＬ_２ノルム）は、平均値を使用してブロック全体を表す統合歪み損失￡_Ｉ（ｂ）を反映する。また、重み統合子は、元の符号を維持しながら、すべての重みが同じ絶対値をもつように設定できる。このような場合、ｂの重みの絶対値のＬ_Ｎノルムを使用して、Ｌ_Ｉ（ｂ）を測定できる。言い換えると、重み統合メソッドｕが与えられると、重み統合子は、メソッドｕを使用してｂの重みを関連する統合歪み損失Ｌ_Ｉ（ｕ、ｂ）と統合できる。

【0089】

同様に、式（８）の圧縮率損失￡_Ｃ（ｕ、ｂ）は、メソッドｕを使用してｂの重みを統合する圧縮効率を反映している。例えば、すべての重みが同じに設定されている場合、ブロック全体を表すために１つの数値のみが使用され、圧縮率はｒ_圧縮＝ｇ_ｉ・ｇ_ｏである。￡_Ｃ（ｕ、ｂ）は、１／ｒ_圧縮として定義できる。

【0090】

式（８）の速度損失￡_Ｓ（ｕ、ｂ）は、メソッドｕでｂの統合された重み係数を使用した場合の推定計算速度を反映しており、これは、統合された重み係数を使用した計算での乗算演算の数の関数である。

【0091】

これまでに、重み統合子によってｂの重みを統合する可能な各々のメソッドｕに対して、式（８）の重み統合損失￡_Ｕ（ｕ、ｂ）が￡_Ｉ（ｕ、ｂ）、￡_Ｃ（ｕ、ｂ）、￡_Ｓ（ｕ、ｂ）に基づいて計算される。最適な重み統合メソッドｕ^＊は、最小の重み統合損失￡_Ｕ ^＊（ｕ、ｂ）と共に選択できる。

【0092】

ブロックｂごとに重み統合法ｕ^＊が決定されると、ターゲットは、式（７）で説明されている結合損失を繰り返し最小化することにより、更新された最適重み係数Ｗ^＊と対応する重みマスクＭ^＊のセットを見つけることになる。具体的には、ｔ番目の反復には、現在の重み係数Ｗ（ｔ－１）とマスクＭ（ｔ－１）が存在する。また、重み統合マスクＱ（ｔ－１）は、訓練プロセス全体を通じて維持される。重み統合マスクＱ（ｔ－１）は、Ｗ（ｔ－１）と同じ形状であり、対応する重み係数が統合されているかどうかを記録する。次に、重み統合モジュール４４５は、重み統合プロセスを通じて、統合された重み係数Ｗ_Ｕ（ｔ－１）および新しい統合マスクＱ（ｔ－１）を計算する。重み統合プロセスでは、ブロックは、アクセント順に統合損失￡_Ｕ（ｕ^＊、ｂ）に基づいてランク付けされる。ハイパーパラメータｑが与えられると、上位ｑ％のブロックが選択されて統合される。そして、重み統合子は、対応する決定されたメソッドｕ^＊を使用して、選択されたブロックｂのブロックを統合し、統合された重みＷ_Ｕ（ｔ－１）と重みマスクＭ_Ｕ（ｔ－１）をもたらす。統合マスクＱ（ｔ－１）の対応するエントリは、統合されたものとしてマークされる。実施形態では、Ｍ_Ｕ（ｔ－１）は、プルーニングされた重み係数とプルーニングされていない重み係数の両方を有するブロックについて、元々プルーニングされていた重み係数が重み統合子によって再びゼロ以外の値を有するように設定されるＭ（ｔ－１）とは異なり、Ｍ_Ｕ（ｔ－１）の対応する項目は、変更される。別の一実施形態では、Ｍ_Ｕ（ｔ－１）はＭ（ｔ－１）と同じであり、プルーニングされた重み係数とプルーニングされていない重み係数の両方を有するブロックについて、プルーニングされていない重みのみがリセットされ、プルーニングされた重みはゼロのままである。

【0093】

次に、第２のステップにおいて、重み更新モジュール４５０は、Ｑ（ｔ－１）において統合されているとマークされた重み係数を固定し、次いで、ニューラルネットワーク訓練プロセスを通じて、Ｗ（ｔ－１）の残りの非固定重み係数を更新し、更新されたＷ（ｔ）とＭ（ｔ）をもたらす。

【0094】

Ｄ＝｛（ｘ、ｙ）｝が訓練データセットを表すとし、ここで、Ｄは、事前に訓練された重み係数Ｗが取得される元のデータセットＤ_０＝｛（ｘ_０、ｙ_０）｝と同じにすることができる。Ｄは、Ｄ_０とは異なるデータセットにすることもできるが、元のデータセットＤと同じデータ分布である。第２のステップにおいて、ネットワーク前方計算モジュール４１５は、現在の重み係数Ｗ_Ｕ（ｔ－１）およびマスクＭ_Ｕ（ｔ－１）を使用するネットワーク前方計算プロセスを介して、各々の入力ｘを現在のネットワークに渡し、これにより推定出力

【数23】

が生成される。グラウンドトゥルースアノテーションｙと推定出力

【数24】

に基づいて、ターゲット損失計算モジュール４２０は、ターゲット損失計算プロセスを通じて、式（７）のターゲット訓練損失￡_Ｔ（Ｄ｜Θ）を計算する。次に、勾配計算モジュール４２５は、ターゲット損失Ｇ（Ｗ_Ｕ（ｔ－１））の勾配を計算する。ｔｅｎｓｏｒｆｌｏｗまたはｐｙｔｏｒｃｈなどの深層学習フレームワークによって使用される自動勾配計算方法を使用してＧ（Ｗ_Ｕ（ｔ－１））を計算できる。勾配Ｇ（Ｗ_Ｕ（ｔ－１））および統合マスクＱ（ｔ－１）に基づいて、重み更新モジュール４５０は、バックプロパゲーションおよび重み更新プロセスを使用したバックプロパゲーションを通じて、Ｍ_Ｕ（ｔ－１）の非固定重み係数および対応するマスクＷ_Ｕ（ｔ－１）を更新する。再訓練プロセスは、それ自体が反復プロセスでもある。Ｗ_Ｕ（ｔ－１）の非固定部分と対応するＭ（ｔ－１）を更新するために、例えば、ターゲット損失が収束するまで、複数の反復が行われる。次に、システムは次の反復ｔに進む。ここで、Ｗ_Ｕ（ｔ－１）とｕ^＊に基づいて新しいハイパーパラメータｑ（ｔ）が与えられると、新しい統合された重み係数Ｗ_Ｕ（ｔ）、マスクＭ_Ｕ（ｔ）、および対応する統合マスクＱ（ｔ）が、重み統合プロセスを通じて計算され得る。

【0095】

実施形態では、ハイパーパラメータｑ（ｔ）は、ｔが増加するにつれて各々の反復中にその値を増加させるので、反復学習プロセス全体を通して、ますます多くの重み係数が統合され、固定される。

【0096】

統合正則化は、学習された重み係数のさらなる圧縮の効率を改善し、最適化された重み係数を使用するための計算を高速化することを目的としている。これにより、ＤＮＮモデルのサイズを大幅に削減し、推論の計算を高速化できる。

【0097】

反復的な再訓練プロセスを通じて、この方法は元の訓練ターゲットのパフォーマンスを効果的に維持し、圧縮および計算の効率を追求できる。反復的な再訓練プロセスにより、様々な時間に様々な損失を導入できる柔軟性が得られ、システムは最適化プロセス中に様々なターゲットに焦点を合わせることができる。

【0098】

【0099】

図４Ｄは、さらに他の実施形態に係る、微細構造化重みプルーニング・重み統合を伴うニューラルネットワークモデルの圧縮のための訓練装置４００Ｄの機能ブロック図である。図４Ｅは、さらに他の実施形態に係る、微細構造化重みプルーニング・重み統合を伴うニューラルネットワークモデルの圧縮のための訓練装置４００Ｅの機能ブロック図である。

【0100】

図４Ｄに示されるように、訓練装置４００Ｄは、微細構造選択モジュール４５５、重みプルーニング／統合モジュール４６０、ネットワーク前方計算モジュール４１５、ターゲット損失計算モジュール４２０、勾配計算モジュール４２５、および重み更新モジュール４６５を含む。

【0101】

図４Ｅに示されるように、訓練装置４００Ｅは、微細構造選択モジュール４５５、重みプルーニング／統合モジュール４６０、ネットワーク前方計算モジュール４１５、ターゲット損失計算モジュール４２０、勾配計算モジュール４２５、および重み更新モジュール４６５を含む。訓練装置４００Ｅは、マスク計算モジュール４７０をさらに含む。

【0102】

別の観点から、事前に訓練された重み係数Θは、重み係数の最適なセットを学習して、さらなるモデルの圧縮と推論の加速の効率を向上させることができる、別のネットワーク訓練プロセスをさらに通過することができる。この開示は、この目標を達成するための微細構造化プルーニングおよび統合方法を説明する。

【0103】

具体的には、微細構造化重みプルーニング損失￡_Ｓ（Ｄ｜Θ）と微細構造化重み統合損失￡_Ｕ（Ｄ｜Θ）が定義され、これらは元のターゲット損失とともに最適化される。
￡（Ｄ｜Θ）＝￡_Ｔ（Ｄ｜Θ）＋λ_Ｕ￡_Ｕ（Θ）＋λ_Ｓ￡_Ｓ（Θ）、（１１）
ここで、λ_Ｓ≧０およびλ_Ｕ≧０は、元の訓練ターゲット、重み統合ターゲット、および重みプルーニングターゲットの寄与のバランスをとるためのハイパーパラメータである。式（１１）の￡（Ｄ｜Θ）を共同で最適化することにより、さらなる圧縮の効果を大いに助けることができる重み係数の最適なセットが得られる。また、重みの統合損失は、畳み込み演算がＧＥＭＭ行列乗算プロセスとして実行される方法の基礎となるプロセスを考慮に入れているため、計算を大幅に加速できる最適化された重み係数が得られる。重みプルーニングと重み統合損失は、正則化がある場合（λ_Ｒ＞０の場合）または正則化がない場合（λ_Ｒ＝０の場合）のターゲット損失に対する追加の正則化項と見なすことができることに注意すべきである。また、この方法は、正則化損失￡_Ｒ（Θ）に柔軟に適用できる。

【0104】

学習効果と学習効率の両方について、反復最適化プロセスが実行される。第１のステップでは、望ましい構造を満たす重み係数の部分が固定され、次に第２のステップで、重み係数の非固定部分が訓練損失をバックプロパゲーションすることによって更新される。これらの２つのステップを繰り返し実行することにより、ますます多くの重みを徐々に固定することができ、結合損失を徐々に効果的に最適化することができる。

【0105】

さらに、実施形態では、各々の層は個別に圧縮され、￡_Ｕ（Ｄ｜Θ）および￡_Ｓ（Ｄ｜Θ）はさらに次のように書くことができる。

【数25】

ただし、Ｌ_Ｕ（Ｗ^ｊ）は、ｊ番目の層で定義された統合損失であり、Ｌ_Ｓ（Ｗ^ｊ）はｊ番目の層で定義されたプルーニング損失であり、Ｎはこの訓練プロセスに関与する層の総数であり、Ｗ^ｊはｊ番目の層の重み係数を表す。この場合も、Ｌ_Ｕ（Ｗ^ｊ）とＬ_Ｓ（Ｗ^ｊ）は各々の層に対して独立して計算されるため、本開示の残りの部分では、一般性を失うことなくスクリプトｊは省略される。

【0106】

各々のネットワーク層に対して、その重み係数Ｗは、サイズ（ｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ）を有する５次元（５Ｄ）テンソルである。層の入力は、サイズ（ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｃ_ｉ）の４次元（４Ｄ）テンソルＡであり、層の出力はサイズ（ｈ_ｏ、ｗ_ｏ、ｄ_ｏ、ｃ_ｏ）の４ＤテンソルＢである。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏは、１以上の整数である。サイズｃ_ｉ、ｋ_１、ｋ_２、ｋ_３、ｃ_ｏ、ｈ_ｉ、ｗ_ｉ、ｄ_ｉ、ｈ_ｏ、ｗ_ｏ、ｄ_ｏのいずれかが数１を取ると、対応するテンソルはより低い次元に減少する。各々のテンソルの各々の項は、浮動小数点数である。ＭがＷと同じサイズの５Ｄバイナリマスクを表し、ここで、Ｍの各々の項は、対応する重み係数が事前にプルーニングされるプロセスでプルーニング／保持されるかどうかを示す２進数０／１であるとする。Ｍは、Ｗがネットワーク内のニューロン間の一部の接続が計算から取り除かれるプルーニングされたＤＮＮモデルからのものである場合に対処するために、Ｗに関連付けられるように導入される。Ｗが元のプルーニングされていない密なモデルからのものである場合、Ｍのすべての項は値１を取る。出力Ｂは、Ａ、Ｍ、およびＷに基づく畳み込み演算

【数26】

によって計算される。

【数27】

ｌ＝１，．．．，ｈ_ｉ，ｍ＝１，．．．，ｗ_ｉ，ｎ＝１，．．．，ｄ_ｉ，ｌ’＝１，．．．，ｈ_ｏ，
ｍ’＝１，．．．，ｗ_ｏ，ｎ’＝１，．．．，ｄ_ｏ，ｖ＝１，．．．，ｃ_ｏ（１３）

【0107】

パラメータｈ_ｉ、ｗ_ｉ、およびｄ_ｉ（ｈ_０、ｗ_ｏ、およびｄ_ｏ）は、入力テンソルＡ（出力テンソルＢ）の高さ、重み、および深さである。パラメータｃ_ｉ（ｃ_ｏ）は、入力（出力）チャネルの数である。パラメータｋ_１、ｋ_２、およびｋ_３は、それぞれ高さ軸、重み軸、および深さ軸に対応する畳み込みカーネルのサイズである。つまり、各々の出力チャネルｖ＝１、．．．、ｃ_ｏについて、式（１３）で記述されている演算は、入力Ａと畳み込むサイズ（ｃ_ｉ、ｋ_１、ｋ_２、ｋ_３）の４Ｄ重みテンソルＷ_ｖと見なすことができる。

【0108】

式（１３）の総和演算の順序は変更することができ、その結果、同じ出力Ｂが得られる、入力Ａ、重みＷ（およびマスクＭ）の形状の異なる構成が得られる。実施形態では、２つの構成が取られる。（１）５Ｄ重みテンソルは、サイズ（

【数28】

、ｋ）ただし、

【数29】

の３Ｄテンソルに再形成される。例えば、構成は

【数30】

である。（２）５Ｄ重みテンソルは、サイズ（

【数31】

）、ただし、

【数32】

の２Ｄ行列に再形成される。例えば、いくつかの構成は

【数33】

または

【数34】

である。

【0109】

重み係数の望ましい微細構造は、２つの側面を考慮して設計されている。第一に、重み係数の微細構造は、畳み込み演算の実装方法の基礎となるＧＥＭＭ行列乗算プロセスと整合しているので、学習した重み係数を使用した推論計算が加速される。第二に、重み係数の微細構造は、さらなる圧縮のために量子化とエントロピーコーディングの効率を改善するのに役立つ。実施形態では、重み係数のブロック単位の微細構造が、３Ｄの再形成された重みテンソルまたは２Ｄの再形成された重み行列の各々の層で使用される。具体的には、再形成された３Ｄ重みテンソルの場合、サイズ（ｇ_ｉ、ｇ_ｏ、ｇ_ｋ）のブロックに分割され、ブロック内のすべての係数がプルーニングされるか、または統合される。再形成された２Ｄ重み行列の場合、サイズ（ｇ_ｉ、ｇ_ｏ）のブロックに分割され、ブロック内のすべての係数がプルーニングされるか、または統合される。ブロック内のプルーニングされた重みは、すべてゼロに設定される。ブロックのプルーニング損失は、そのようなプルーニング操作によって導入された誤差を測定して計算できる。ブロック内の統合された重みは、事前定義された統合ルールに従うように設定され、例えば、１つの値を使用して、量子化プロセスでブロック全体を表すことができ、高い効率が得られように、すべての値が同じになるように設定される。重みを統合する複数のルールが存在することも可能であり、各々の重みはこのルールを採用することによって導入された誤差を測定する統合歪み損失に関連付けられる。例えば、重みを同じに設定する代わりに、元の符号を維持したまま、重みが同じ絶対値をもつように設定される。この微細構造が与えられると、反復中に、プルーニングまたは統合される重み係数の部分は、プルーニング損失と統合損失を考慮して決定される。次に、第２のステップで、プルーニングされ統合された重みが固定され、通常のニューラルネットワーク訓練プロセスが実行され、残りの非固定重み係数がバックプロパゲーションメカニズムによって更新される。

【0110】

図４Ｄおよび図４Ｅは、反復的な再訓練／微調整プロセスの２つの実施形態であり、両方とも、式（１１）の結合損失を徐々に最適化するために２つのステップを反復的に交互に繰り返す。プルーニングされたスパースモデルか、またはプルーニングされていない非スパースモデルのいずれかであり得る、重み係数｛Ｗ｝とマスク｛Ｍ｝をもつ事前訓練されたＤＮＮモデルが与えられると、第１のステップで、両方の実施形態は最初に各々の層の重み係数Ｗ（および対応するマスクＭ）を望ましい３Ｄテンソルまたは２Ｄ行列に再形成する。次に、各々の層に対して、微細構造選択モジュール４５５は、プルーニングおよび統合微細構造選択プロセスを通じて、重みがプルーニングされる一連のプルーニング微細構造｛ｂ_ｓ｝またはＰＭＢを決定し、一連の統合微細構造｛ｂ_ｕ｝または統合微細構造ブロック（ＵＭＢ）は、全体の重みが統合されることが決定される。プルーニング微細構造｛ｂ_ｓ｝および統合微細構造｛ｂ_ｕ｝を決定する方法は複数あるが、ここでは４つの方法を示す。方法１では、重み係数ＷおよびマスクＭをもつ各々の層に対して、Ｗの各々のブロックｂに対して、重み統合子を使用して、（例えば、すべての重みを、元の符号を維持しながら同じ絶対値を有するように設定することにより）ブロック内の重み係数を統合する。次に、対応する統合損失Ｌ_ｕ（ｂ）が計算され、統合歪み（例えば、ｂの重みの絶対値のＬ_Ｎノルム）が測定される。統合損失Ｌ_ｕ（Ｗ）は、ＷのすべてのブロックにわたるＬ_ｕ（ｂ）の合計として計算できる。この統合損失Ｌ_ｕ（Ｗ）に基づいて、ＤＮＮモデルのすべての層がアクセント順にＬ_ｕ（Ｗ）に従ってランク付けされる。次に、統合率ｕが与えられると、微細構造ブロックが統合される（つまり、｛ｂ_ｕ｝が選択された層のすべてのブロックを含む）トップ層が、（選択された層の統合された微細構造ブロックの総数とＤＮＮモデル全体の微細構造ブロックの総数との比によって測定される）実際の統合率ｕ’がｕ％に最も近いが、依然としてｕ％未満となるように選択される。次に、残りの各々の層に対して、各々の微細構造ブロックｂに対して、プルーニング損失Ｌ_ｓ（ｂ）（例えば、ｂの重みの絶対値の合計）が計算される。プルーニング率ｐが与えられると、この層のブロックはＬ_ｓ（ｂ）に従ってアクセント順にランク付けされ、上位ｐ％のブロックがプルーニングされる｛ｂ_ｓ｝として選択される。この層の残りのブロックに対して、この層の残りのブロックが、統合損失Ｌ_ｕ（ｂ）に基づいてアクセント順にランク付けされ、上位の（ｕ－ｕ’）％を統合対象の｛ｂ_ｕ｝として選択する、任意選択の追加ステップを実行できる。

【0111】

方法２では、重み係数ＷおよびマスクＭをもつ各々の層に対して、統合損失Ｌ_ｕ（ｂ）およびＬ_ｕ（Ｗ）が方法１と同様の方法で計算される。次に、統合率ｕが与えられると、微細構造ブロックが方法１と同様の方法で統合されるトップ層が選択される。次に、残りの層のプルーニング損失Ｌ_ｓ（ｂ）が方法１と同じ方法で計算される。プルーニング率ｐが与えられると、残りのすべての層のすべてのブロックがＬ_ｓ（ｂ）に従ってアクセント順にランク付けされ、上位ｐ％のブロックがプルーニング対象として選択される。残りの層の残りのブロックに対して、残りの層の残りのブロックが、統合損失Ｌ_ｕ（ｂ）に基づいてアクセント順にランク付けされ、上位の（ｕ－ｕ’）％が統合対象の｛ｂ_ｕ｝として選択される、任意選択の追加ステップを実行できる。

【0112】

方法３では、重み係数ＷおよびマスクＭをもつ各々の層に対して、Ｗの各々のブロックｂに対して、統合損失Ｌ_ｕ（ｂ）およびプルーニング損失Ｌ_ｓ（ｂ）が方法１と同じ方法で計算される。プルーニング率ｐおよび統合率ｕが与えられると、この層のブロックは、Ｌ_ｓ（ｂ）に従ってアクセント順にランク付けされ、上位ｐ％のブロックがプルーニング対象の｛ｂ_ｓ｝として選択される。この層の残りのブロックに対して、統合損失Ｌ_ｕ（ｂ）に基づいてアクセント順にランク付けされ、上位ｕ％を統合対象の｛ｂ_ｕ｝として選択する。

【0113】

方法４では、重み係数ＷおよびマスクＭをもつ各々の層に対して、Ｗの各々のブロックｂに対して、統合損失Ｌ_ｕ（ｂ）およびプルーニング損失Ｌ_ｓ（ｂ）が方法１と同じ方法で計算される。プルーニング率ｐおよび統合率ｕが与えられると、すべてのブロックがＬ_ｓ（ｂ）に従って、ＤＮＮモデルのすべての層からアクセント順にランク付けされ、上位ｐ％のブロックがプルーニング対象として選択される。モデル全体の残りのブロックに対して、統合損失Ｌ_ｕ（ｂ）に基づいてアクセント順にランク付けされ、その後、上位ｕ％を統合対象として選択する。

【0114】

プルーニング微細構造のセットと統合微細構造のセットを取得した後、ターゲットは、式（１１）で記述されている結合損失を繰り返し最小化することにより、更新された最適な重み係数Ｗ^＊と対応する重みマスクＭ^＊のセットを見つけることになる。図４Ｄによって示される第１の実施形態では、ｔ回目の反復に対して、現在の重み係数Ｗ（ｔ－１）が存在する。また、微細構造的統合マスクＵ（ｔ－１）および微細構造的プルーニングマスクＰ（ｔ－１）は、訓練プロセス全体を通じて維持される。Ｕ（ｔ－１）とＰ（ｔ－１）はどちらもＷ（ｔ－１）と同じ形状であり、対応する重み係数がそれぞれ統合されているかプルーニングされているかを記録する。次に、重みプルーニング／統合モジュール４６０は、Ｐ（ｔ－１）によってマスクされた選択されたプルーニング微細構造がプルーニングされ、マスクされた選択された統合微細構造の重みがＵ（ｔ－１）によって統合され、結果として更新された重みマスクＭ_ＰＵ（ｔ－１）が得られる、重みプルーニングおよび統合プロセスを通じて、プルーニングされて統合された重み係数Ｗ_ＰＵ（ｔ－１）を計算する。実施形態では、Ｍ_ＰＵ（ｔ－１）は、事前プルーニングされた重み係数と事前プルーニングされていない重み係数の両方を有するブロックに対して、元々プルーニングされていた重み係数が重み統合子によって再び非ゼロ値を有するように設定され、Ｍ_ＰＵ（ｔ－１）の対応する項目が変更される、事前訓練プルーニングマスクＭとは異なる。別の一実施形態では、Ｍ_ＰＵ（ｔ－１）は、プルーニングされた重み係数とプルーニングされていない重み係数の両方を有するブロックに対して、プルーニングされていない重みのみがリセットされ、プルーニングされた重みはゼロのままであるＭと同じである。

【0115】

次に、第２のステップにおいて、重み更新モジュール４６５は、Ｕ（ｔ－１）およびＰ（ｔ－１）によって微細構造的に統合または微細構造的にプルーニングされたものとしてマークされた重み係数を固定し、次にニューラルネットワーク訓練プロセスを通じてＷ（ｔ－１）の残りの非固定の重み係数を更新し、その結果、更新されたＷ（ｔ）およびＭ（ｔ）を得る。

【0116】

具体的には、Ｄ＝｛（ｘ、ｙ）｝が訓練データセットを表すものとし、ここで、Ｄは、事前訓練された重み係数Ｗが取得される元のデータセットＤ_０＝｛（ｘ_０、ｙ_０）｝と同じにすることができる。Ｄは、Ｄ_０とは異なるデータセットにすることもできるが、元のデータセットＤと同じデータ分布となる。第２のステップでは、ネットワーク前方計算モジュール４１５は、現在の重み係数Ｗ_Ｕ（ｔ－１）およびマスクＭを使用するネットワーク前方計算プロセスを介して現在のネットワークを通じて各々の入力ｘを渡し、これにより推定出力

【数35】

が生成される。グラウンドトゥルースアノテーションｙと推定出力

【数36】

に基づいて、ターゲット損失計算モジュール４２０は、ターゲット損失計算プロセスを通じて、式（１１）のターゲット訓練損失￡_Ｔ（Ｄ｜Θ）を計算する。次に、勾配計算モジュール４２５は、ターゲット損失Ｇ（Ｗ_Ｕ（ｔ－１））の勾配を計算する。ｔｅｎｓｏｒｆｌｏｗまたはｐｙｔｏｒｃｈなどの深層学習フレームワークによって使用される自動勾配計算方法を使用してＧ（Ｗ_Ｕ（ｔ－１））を計算できる。勾配Ｇ（Ｗ_Ｕ（ｔ－１））および微細構造的統合マスクＵ（ｔ－１）および微細構造的プルーニングマスクＰ（ｔ－１）に基づいて、重み更新モジュール４６５は、バックプロパゲーションおよび重み更新プロセスを使用したバックプロパゲーションを通じて、Ｗ_Ｕ（ｔ－１）の非固定重み係数を更新する。再訓練プロセスは、それ自体が反復プロセスでもある。Ｗ_Ｕ（ｔ－１）の非固定部分を更新するために、例えば、ターゲット損失が収束するまで、複数の反復が行われる。次に、システムは、新しい統合比ｕ（ｔ）およびプルーニング比ｐ（ｔ）が与えられると、新しい一連の統合微細構造およびプルーニング微細構造（ならびに新しい微細構造的統合マスクＵ（ｔ）および微細構造的プルーニングマスクＰ（ｔ））が、プルーニングおよび統合微細構造選択プロセスを通して決定される、次の反復ｔに進む。

【0117】

図４Ｅによって示される訓練プロセスの第２の実施形態では、更新された最適な重み係数Ｗ^＊および対応する重みマスクＭ^＊のセットは、別の反復プロセスによって見出される。ｔ回目の反復では、現在の重み係数Ｗ（ｔ－１）およびマスクＭが存在する。また、マスク計算モジュール４７０は、プルーニングおよび統合マスク計算プロセスを介して、微細構造的統合マスクＵ（ｔ－１）および微細構造的プルーニングマスクＰ（ｔ－１）を計算する。Ｕ（ｔ－１）とＰ（ｔ－１）はどちらもＷ（ｔ－１）と同じ形状であり、対応する重み係数がそれぞれ統合されているかプルーニングされているかを記録する。次に、重みプルーニング／統合モジュール４６０は、Ｐ（ｔ－１）によってマスクされた選択されたプルーニング微細構造がプルーニングされ、マスクされた選択された統合微細構造の重みがＵ（ｔ－１）によって統合され、その結果、更新された重みマスクＭ_ＰＵ（ｔ－１）が得られる、重みプルーニングおよび統合プロセスを通じて、プルーニングされて統合された重み係数Ｗ_ＰＵ（ｔ－１）を計算する。

【0118】

次に、第２のステップにおいて、重み更新モジュール４６５は、Ｕ（ｔ－１）およびＰ（ｔ－１）によって微細構造的に統合または微細構造的にプルーニングされたものとしてマークされた重み係数を固定し、次にニューラルネットワーク訓練プロセスを通じてＷ（ｔ－１）の残りの非固定の重み係数を更新し、結果として、更新されたＷ（ｔ）を得る。図４Ｄの第１の実施形態と同様に、訓練データセットＤ＝｛（ｘ、ｙ）｝が与えられると、ネットワーク前方計算モジュール４１５は、現在の重み係数Ｗ（ｔ－１）およびマスクＭ（ｔ－１）を使用したネットワーク前方計算プロセスを介して現在のネットワークを通じて各々の入力ｘを渡し、これにより推定出力

【数37】

が生成される。グラウンドトゥルースアノテーションｙと推定出力

【数38】

に基づいて、ターゲット損失計算モジュール４２０は、式（５）で説明されているように、結合損失計算プロセスを通して、式（１１）のターゲット訓練損失￡_Ｔ（Ｄ｜Θ）を含む結合訓練損失￡_Ｊ（Ｄ｜Θ）および残差損失￡_ｒｅｓ（Ｗ（ｔ－１））を計算する。

【0119】

￡_ｒｅｓ（Ｗ（ｔ－１））は、現在の重みＷ（ｔ－１）と、プルーニングされて統合されたターゲットの重みＷ_ＰＵ（ｔ－１）との差を測定する。例えば、Ｌ_１ノルムを使用できる。
￡_ｒｅｓ（Ｗ（ｔ－１））＝｜｜Ｗ（ｔ－１））－Ｗ_ＰＵ（ｔ－１）｜｜（１４）

【0120】

次に、勾配計算モジュール４２５は、結合損失Ｇ（Ｗ（ｔ－１））の勾配を計算する。ｔｅｎｓｏｒｆｌｏｗまたはｐｙｔｏｒｃｈなどの深層学習フレームワークによって使用される自動勾配計算方法を使用してＧ（Ｗ（ｔ－１））を計算できる。勾配Ｇ（Ｗ（ｔ－１））および微細構造的統合マスクＵ（ｔ－１）および微細構造的プルーニングマスクＰ（ｔ－１）に基づいて、重み更新モジュール４６５は、バックプロパゲーションおよび重み更新プロセスを使用したバックプロパゲーションを通じて、Ｗ（ｔ－１）の非固定重み係数を更新する。再訓練プロセスは、それ自体が反復プロセスでもある。Ｗ（ｔ－１）の非固定部分を更新するために、例えば、ターゲット損失が収束するまで、複数の反復が行われる。次に、システムは、統合比ｕ（ｔ）およびプルーニング比ｐ（ｔ）が与えられると、新しい一連の統合微細構造およびプルーニング微細構造（ならびに新しい微細構造的統合マスクＵ（ｔ）および微細構造的プルーニングマスクＰ（ｔ））が、プルーニングおよび統合微細構造選択プロセスを通して決定される、次の反復ｔに進む。

【0121】

この反復プロセス全体で、Ｔ回目の反復で、Ｐ（Ｔ）によってマスクされた選択されたプルーニング微細構造がプルーニングされ、マスクされた選択された統合微細構造の重みがＵ（Ｔ）によって統合され、更新された重みマスクＭ_ＰＵ（Ｔ）が生成される、重みプルーニングおよび統合プロセスを通じて、プルーニングされて統合された重み係数Ｗ_ＰＵ（Ｔ）を計算できる。図４Ｄの前の実施形態と同様に、Ｍ_ＰＵ（Ｔ）は、プルーニングされた重み係数とプルーニングされていない重み係数の両方を有するブロックに対して、元々プルーニングされていた重み係数は、重み統合子によって再び非ゼロ値を有するように設定され、Ｍ_ＰＵ（Ｔ）の対応する項目が変更される、事前プルーニングマスクＭと同じにすることができる。また、Ｍ_ＰＵ（Ｔ）はＭと同じにすることができ、この場合、プルーニングされた重み係数とプルーニングされていない重み係数の両方をもつブロックに対して、プルーニングされていない重みのみがリセットされ、プルーニングされた重みはゼロのままになる。このＷ_ＰＵ（Ｔ）およびＭ_ＰＵ（Ｔ）を使用して、更新された最終モデルＷ^＊およびＭ^＊を生成できる。例えば、Ｗ^＊＝Ｗ_ＰＵ（Ｔ）、およびＭ^＊＝Ｍ・Ｍ_ＰＵ（Ｔ）である。

【0122】

実施形態では、ハイパーパラメータｕ（ｔ）およびｐ（ｔ）は、ｔが増加するにつれて反復中にそれらの値を増加させることができ、その結果、反復学習プロセス全体を通して、ますます多くの重み係数がプルーニングされ、統合され、固定される。

【0123】

【0124】

【0125】

【0126】

図５は、実施形態に係る、微細構造化重みプルーニング・重み統合を伴うニューラルネットワークモデルの圧縮を訓練する方法５００のフローチャートである。

【0127】

いくつかの実装形態では、図５の１つまたは複数のプロセスブロックは、プラットフォーム１２０によって実行され得る。いくつかの実装形態では、図５の１つまたは複数のプロセスブロックは、ユーザデバイス１１０などのプラットフォーム１２０とは別の、またはプラットフォーム１２０を含む別のデバイスまたはデバイスのグループによって実行され得る。

【0128】

方法５００は、出力ニューラルネットワークを得るために、入力ニューラルネットワークのパラメータを削減するために使用されるディープニューラルネットワークを訓練するために実行される。

【0129】

図５に示すように、操作５１０において、方法５００は、入力マスクによってマスクされたディープニューラルネットワークの入力重みの複数のブロックから、プルーニングされるプルーニング微細構造ブロックを選択することを含む。

【0130】

操作５２０において、方法５００は、選択されたプルーニング微細構造ブロックに基づいて、入力重みをプルーニングすることを含む。

【0131】

操作５３０において、方法５００は、選択されたプルーニング微細構造ブロックに基づいて、入力マスクと、各々の入力重みがプルーニングされるかどうかを示すプルーニングマスクとを更新することを含む。

【0132】

操作５４０において、方法５００は、ディープニューラルネットワークの損失を最小化するために、更新されたプルーニングマスクに基づいて、プルーニングされた入力重みおよび更新された入力マスクを更新することを含む。

【0133】

プルーニングされた入力重みおよび更新された入力マスクの更新は、入力重みがプルーニングされ、更新された入力マスクによってマスクされているディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減することと、推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、ディープニューラルネットワークの損失を決定することと、プルーニングされた入力重みに基づいて、決定された損失の勾配を決定することと、決定された損失を最小化するために、決定された勾配および更新されたプルーニングマスクに基づいて、プルーニングされた入力重みおよび更新された入力マスクを更新することを含み得る。

【0134】

ディープニューラルネットワークは、入力マスクによってマスクされた入力重みを再形成することと、再形成された入力重みを入力重みの複数のブロックに分割することと、再形成された入力重みが分割される複数のブロックのうちの１つまたは複数の中の複数の重みを入力重みの間で統合することと、複数のブロックのうちの１つまたは複数の中の統合された複数の重みに基づいて、入力マスクと、入力重みの各々が統合されているかどうかを示す統合マスクとを更新することと、ディープニューラルネットワークの損失を最小化するために、更新された統合マスクに基づいて、更新された入力マスクと、複数のブロックのうちの１つまたは複数の中の複数の重みが統合された入力重みとを更新することとによってさらに訓練され得る。

【0135】

更新された入力マスクおよび入力重みの更新は、入力重みが統合され、更新された入力マスクによってマスクされているディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減することと、推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、ディープニューラルネットワークの損失を決定することと、複数のブロックのうちの１つまたは複数の中の複数の重みが統合されている入力重みに基づいて、決定された損失の勾配を決定することと、決定された損失を最小化するために、決定された勾配および更新された統合マスクに基づいて、プルーニングされた入力重みおよび更新された入力マスクを更新することを含み得る。

【0136】

ディープニューラルネットワークは、入力マスクによってマスクされた入力重みの複数のブロックから、統合される統合微細構造ブロックを選択することと、ディープニューラルネットワークの、プルーニングされて統合された入力重みを取得するために、選択された統合微細構造ブロックに基づいて、プルーニングされた入力重みの複数のブロックのうちの１つまたは複数の中で複数の重みを統合することと、複数のブロックのうちの１つまたは複数の中の統合された複数の重みに基づいて、入力重みの各々が統合されているかどうかを示す統合マスクを更新することによって、さらに訓練され得る。入力マスクを更新することは、プルーニング統合マスクを取得するために、選択されたプルーニング微細構造ブロックおよび選択された統合微細構造ブロックに基づいて、入力マスクを更新することを含み得る。プルーニングされた入力重みおよび更新された入力マスクを更新することは、ディープニューラルネットワークの損失を最小化するために、更新されたプルーニングマスクおよび更新された統合マスクに基づいて、プルーニングされて統合された入力重みおよびプルーニング統合マスクを更新することを含み得る。

【0137】

プルーニングされて統合された入力重みおよびプルーニング統合マスクの更新は、プルーニングされて統合された入力重みがプルーニング統合マスクによってマスクされているディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減することと、推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、ディープニューラルネットワークの損失を決定することと、複数のブロックのうちの１つまたは複数の中の複数の重みが統合されている入力重みに基づいて、決定された損失の勾配を決定することと、決定された損失を最小化するために、決定された勾配、更新されたプルーニングマスク、および更新された統合マスクに基づいて、プルーニングされて統合された入力重みおよびプルーニング統合マスクを更新することを含み得る。

【0138】

プルーニング微細構造ブロックは、各々の反復に対してプルーニングされる入力重みの所定のプルーニング比に基づいて、入力マスクによってマスクされた入力重みの複数のブロックから選択され得る。

【0139】

図６は、実施形態による、微細構造化重みプルーニング・重み統合を伴うニューラルネットワークモデルの圧縮を訓練するための装置６００の図である。

【0140】

図６に示されるように、装置６００は、選択コード６１０、プルーニングコード６２０、第１の更新コード６３０、および第２の更新コード６４０を含む。

【0141】

装置６００は、出力ニューラルネットワークを得るために、入力ニューラルネットワークのパラメータを削減するために使用されるディープニューラルネットワークを訓練する。

【0142】

選択コード６１０は、入力マスクによってマスクされたディープニューラルネットワークの入力重みの複数のブロックから、プルーニングされるプルーニング微細構造ブロックを少なくとも１つのプロセッサに選択させるように構成される。

【0143】

プルーニングコード６２０は、選択されたプルーニング微細構造ブロックに基づいて、少なくとも１つのプロセッサに入力重みをプルーニングさせるように構成される。

【0144】

第１の更新コード６３０は、選択されたプルーニング微細構造ブロックに基づいて、入力マスクと、入力重みの各々がプルーニングされるかどうかを示すプルーニングマスクとを少なくとも１つのプロセッサに更新させるように構成される。

【0145】

第２の更新コード６４０は、ディープニューラルネットワークの損失を最小限にするために、更新されたプルーニングマスクに基づいて、プルーニングされた入力重みおよび更新された入力マスクを少なくとも１つのプロセッサに更新させるように構成される。

【0146】

第２の更新コード６４０は、入力重みがプルーニングされ、更新された入力マスクによってマスクされているディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減し、推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、ディープニューラルネットワークの損失を決定し、プルーニングされた入力重みに基づいて、決定された損失の勾配を決定し、決定された損失を最小化するために、決定された勾配および更新されたプルーニングマスクに基づいて、プルーニングされた入力重みおよび更新された入力マスクを更新することを少なくとも１つのプロセッサにさせるようにさらに構成され得る。

【0147】

【0148】

第２の更新コード６４０は、入力重みが統合され、更新された入力マスクによってマスクされているディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減し、推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、ディープニューラルネットワークの損失を決定し、複数のブロックのうちの１つまたは複数の中の複数の重みが統合されている入力重みに基づいて、決定された損失の勾配を決定し、決定された損失を最小化するために、決定された勾配および更新された統合マスクに基づいて、プルーニングされた入力重みおよび更新された入力マスクを更新することを少なくとも１つのプロセッサにさせるようにさらに構成され得る。

【0149】

【0150】

第２の更新コード６４０は、プルーニングされて統合された入力重みがプルーニング統合マスクによってマスクされているディープニューラルネットワークを使用して、第２の訓練ニューラルネットワークを推定するために、第１の訓練ニューラルネットワークのパラメータを削減し、推定された第２の訓練ニューラルネットワークおよびグラウンドトゥルースニューラルネットワークに基づいて、ディープニューラルネットワークの損失を決定し、複数のブロックのうちの１つまたは複数の中の複数の重みが統合されている入力重みに基づいて、決定された損失の勾配を決定し、決定された損失を最小化するために、決定された勾配、更新されたプルーニングマスク、および更新された統合マスクに基づいて、プルーニングされて統合された入力重みおよびプルーニング統合マスクを更新することを少なくとも１つのプロセッサにさせるようにさらに構成され得る。

【0151】

【0152】

前述の開示は、例示および説明を提供しているが、網羅的であることも、実装形態を開示の正確な形態に限定することも意図されていない。改変形態および変形形態が、上記の開示に照らして可能であり、または実装形態の実施により取得され得る。

【0153】

本明細書で使用される場合、コンポーネントという用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせとして広く解釈されることを意図されている。

【0154】

本明細書に記載のシステムおよび／または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび／または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび／または方法を実装するように設計され得ることが理解される。

【0155】

構成の組み合わせが特許請求の範囲に記載され、および／または本明細書に開示されているが、これらの組み合わせは、可能な実装形態の開示を限定することを意図するものではない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、および／または明細書に開示されていない方法で組み合わされてもよい。以下に列挙される各従属請求項は１つの請求項のみに直接依存してもよいが、可能な実装形態の開示は、各従属請求項を請求項セット内の他のすべての請求項と組み合わせて含む。

【0156】

本明細書で使用されている要素、行為、または指示は、明示的に説明されていない限り、重要または必須であると解釈され得ない。また、本明細書で使用される場合、冠詞「ａ」および「ａｎ」は、１つまたは複数の項目を含むことを意図しており、「１つまたは複数」と交換可能に使用され得る。さらに、本明細書で使用される場合、「セット」という用語は、１つまたは複数の項目（例えば、関連項目、無関係な項目、関連項目と無関係な項目との組み合わせなど）を含むことを意図しており、「１つまたは複数」と互換的に使用され得る。１つの項目のみが意図される場合、「１つ」という用語または同様の用語が使用される。また、本明細書で使用される場合、「有する（ｈａｓ）」、「有する（ｈａｖｅ）」、「有する（ｈａｖｉｎｇ）」などの用語は、オープンエンド用語であることを意図している。さらに、「ｂａｓｅｄｏｎ（に基づいて）」という語句は、特に明記されない限り、「ｂａｓｅｄ，ａｔｌｅａｓｔｉｎｐａｒｔ，ｏｎ（に少なくとも部分的に基づいて）」を意味することを意図されている。

【符号の説明】

【0157】

１００環境
１１０ユーザデバイス
１２０プラットフォーム
１３０ネットワーク
１２２クラウドコンピューティング環境
１２４コンピューティングリソース
１２４－１アプリケーション
１２４－２仮想マシン
１２４－３仮想化ストレージ
１２４－４ハイパーバイザ
２００デバイス
２１０バス
２２０プロセッサ
２３０メモリ
２４０ストレージコンポーネント
２５０入力コンポーネント
２６０出力コンポーネント
２７０通信インターフェイス
３００システム
３１０パラメータ削減モジュール
３２０パラメータ近似モジュール
３３０再構築モジュール
３４０エンコーダ
３５０デコーダ
４００Ａ訓練装置
４００Ｂ訓練装置
４００Ｃ訓練装置
４００Ｄ訓練装置
４００Ｅ訓練装置
４０５微細構造選択モジュール
４１０重みプルーニングモジュール
４１５ネットワーク前方計算モジュール
４２０ターゲット損失計算モジュール
４２５勾配計算モジュール
４３０重み更新モジュール
４３５マスク計算モジュール
４４０再形成モジュール
４４５重み統合モジュール
４５０重み更新モジュール
４５５微細構造選択モジュール
４６０重みプルーニング／統合モジュール
４６５重み更新モジュール
４７０マスク計算モジュール
６００装置
６１０選択コード
６２０プルーニングコード
６３０第１の更新コード
６４０第２の更新コード

【図1】