特表2023-525371 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザガバニングカウンシルオブザユニバーシティオブトロントの特許一覧

特表2023-525371深層学習ネットワークのためのメモリ圧縮のシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5A
5B
6
7
8A
8B
8C
9A
9B
9C
10A
10B
11A
11B
12A
12B
13A
13B
14A
14B
15A
15B
16A
16B
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-06-15

(54)【発明の名称】深層学習ネットワークのためのメモリ圧縮のシステム及び方法

(51)【国際特許分類】

G06N 3/0495 20230101AFI20230608BHJP

【ＦＩ】

G06N3/0495

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022569452

(86)(22)【出願日】2021-05-14

(85)【翻訳文提出日】2022-12-28

(86)【国際出願番号】 CA2021050664

(87)【国際公開番号】W WO2021226720

(87)【国際公開日】2021-11-18

(31)【優先権主張番号】63/024,907

(32)【優先日】2020-05-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＥＲＩＬＯＧ

(71)【出願人】

【識別番号】522443372

【氏名又は名称】ザガバニングカウンシルオブザユニバーシティオブトロント

(74)【代理人】

【識別番号】100114775

【弁理士】

【氏名又は名称】高岡亮一

(74)【代理人】

【識別番号】100121511

【弁理士】

【氏名又は名称】小田直

(74)【代理人】

【識別番号】100202751

【弁理士】

【氏名又は名称】岩堀明代

(74)【代理人】

【識別番号】100208580

【弁理士】

【氏名又は名称】三好玲奈

(74)【代理人】

【識別番号】100191086

【弁理士】

【氏名又は名称】高橋香元

(72)【発明者】

【氏名】エドヴィヴァンコス，イサク

(72)【発明者】

【氏名】モショヴォス，アンドレアス

(72)【発明者】

【氏名】シャリフィーモガッダム，サイエ

(72)【発明者】

【氏名】デルマスラスコーツ，アルベルト

(57)【要約】

深層学習ネットワークのためのメモリ圧縮のシステム及び方法。この方法は、最大の大きさを有する入力データストリームからの値を収容するのに必要なビット幅を識別することにより、入力データストリームを圧縮することと、入力データストリームの最下位ビットを第１のメモリストアに格納することであって、ビット数はビット幅に等しく、値が現在第１のメモリストアで未使用のままになっているビットよりも多くのビットを必要とする場合、残りのビットは第２のメモリストアに書き込まれる、格納することと、第１のメモリストアがいっぱいになると、第１のメモリストアの値を、圧縮されたデータストリームの連続部分として、第１のメモリストア内のデータの関連する幅とともに出力し、第２のメモリストアの値を第１のメモリストアにコピーすることと、圧縮されたデータストリームを解凍することと、を含む。
【選択図】図８Ｃ

【特許請求の範囲】

【請求項1】

深層学習ネットワークのためのメモリ圧縮の方法であって、
深層学習ネットワークの第１のメモリに対して、複数の行を定義することであって、前記複数の行はそれぞれ指定された数の列を有し、各列が列幅を有する、前記定義することと、
前記深層学習ネットワークの１つまたは複数の層によって処理される入力データストリームを受信することであって、前記入力データストリームは、固定ビット幅の複数の値を有する、前記受信することと、
前記入力データストリームをサブセットに分割することであって、各サブセットにおける値の数は前記列の数に等しい、前記分割することと、
各サブセットを順次圧縮することにより、前記データストリームを圧縮することであって、
前記サブセット内の値について、最大の大きさの前記値を収容するのに必要な圧縮されたビット幅を識別することと、
前記行に関連付けられたビット幅レジスタに前記ビット幅を格納することと、
最初の空きビットから始まる前記メモリの前記それぞれの列に、前記サブセット内の各値の最下位ビットを格納することであって、ビット数は前記ビット幅に等しく、前記ビット数を格納するために前記それぞれの行の前記それぞれの列に現在未使用のままのものよりも多くのビットが必要な場合、前記残りのビットは後続の行の前記それぞれの列に書き込まれる、前記格納することと、
を含む、前記圧縮することと、を含み、
前記圧縮されたデータストリームは、解凍されて、
前記圧縮されたデータストリームの各列の最初の未読ビットの位置を識別することと、
再現された入力データを、
前記各ビット幅レジスタから各サブセットの前記ビット幅を取得することと、
前記第１のメモリの各列から、前記列の前記最初の未読ビットから始めて、前記ビット幅に対応する前記ビット数を取り出し、前記取り出されたビットを出力の最下位ビットに出力することと、
前記取り出されたビットに続くビット位置に対応するように、各列の前記最初の未読ビットの前記位置を更新することと、
前記出力の残りの最上位ビットをゼロまたは符号拡張して、前記再現された入力データ値を取得することと、
によって順次出力することと、
によって、前記入力データストリームを再現することができる、
前記方法。

【請求項2】

圧縮された値のブロックの位置が、１つまたは複数のポインタによって特定できる、請求項１に記載の方法。

【請求項3】

前記ブロックが、フィルタマップデータブロックまたは入力もしくは出力アクティベーションデータブロックである、請求項２に記載の方法。

【請求項4】

前記位置が、前記ブロックの最初の圧縮された値のためのものである、請求項２に記載の方法。

【請求項5】

前記１つまたは複数のポインタが、入力または出力アクティベーションマップのデータへのポインタの第１のセットと、フィルタマップのデータへのポインタの第２のセットとを含む、請求項２に記載の方法。

【請求項6】

入力データストリームを受信することが、前記１つまたは複数のポインタの位置で始まる前記ブロックの部分を順次受信することと、前記ブロックの前記部分を圧縮することと、受信する次の部分を呼び出すためにオフセットポインタを更新することと、を含む、請求項２に記載の方法。

【請求項7】

入力データストリームを受信することが、前記ブロックの部分を順次受信することを含み、各部分の位置は前記ポインタの１つによって識別される、請求項２に記載の方法。

【請求項8】

前記圧縮されたデータ値の部分が、前のデータ値の空きの最上位ビットをパディングすることによって、列の最下位ビットから開始するように強制的に格納される、請求項２に記載の方法。

【請求項9】

いくつかの行の前記ビット幅レジスタが、前記ビット幅の長さのバイナリ表現を格納する、請求項１に記載の方法。

【請求項10】

他の行の前記ビット幅レジスタが、前記対応する行の前記ビット幅が前の行と同じか異なるかを指定する単一のビットを格納する、請求項９に記載の方法。

【請求項11】

前記方法が浮動小数点値を格納するために使用され、前記浮動小数点値は、符号部分と、指数部分及び仮数部分とを含み、前記入力データストリームは、前記浮動小数点値の前記指数部分からなり、
圧縮することは、浮動小数点値ごとに、前記圧縮された指数部分に隣接する前記符号部分及び仮数部分を格納することをさらに含む、請求項１に記載の方法。

【請求項12】

解凍中に、将来必要になることが知られている前記ブロックのうちの特定の１つの位置に対してポインタが確立される、請求項１に記載の方法。

【請求項13】

前記値を圧縮して格納しながら、前記第１のメモリの各列内の次の空きの位置を追跡することをさらに含む、請求項１に記載の方法。

【請求項14】

前記データストリームを圧縮する前に、前記第１のメモリの第１の記憶位置を空きとして初期化することをさらに含む、請求項１に記載の方法。

【請求項15】

前記複数の値が、前記列幅以下の固定ビット幅のものである、請求項１に記載の方法。

【請求項16】

前記再現されたデータストリームが算術／論理ユニットに直接出力される、請求項１に記載の方法。

【請求項17】

前記再現されたデータストリームが、前記第１のメモリに対応する複数の列をそれぞれ有する複数の行を有する第２のメモリに出力される、請求項１に記載の方法。

【請求項18】

圧縮することが、前記圧縮されたビット幅を識別する前に、前記入力データストリームの前記値に関する関数を評価して、前記圧縮されたビット幅を縮小し、解凍のために前記関数を逆にすることをさらに含む、請求項１に記載の方法。

【請求項19】

深層学習ネットワークのためのメモリ解凍の方法であって、
入力データストリームを表す圧縮されたデータストリームを取得することであって、前記圧縮されたデータストリームは、
深層学習ネットワークの第１のメモリに対して、複数の行を定義することであって、前記複数の行はそれぞれ指定された数の列を有し、各列が列幅を有する、前記定義することと、
前記深層学習ネットワークの１つまたは複数の層によって処理される前記入力データストリームを受信することであって、前記入力データストリームは、固定ビット幅の複数の値を有する、前記受信することと、
前記入力データストリームをサブセットに分割することであって、各サブセットにおける値の数は前記列の数に等しい、前記分割することと、
各サブセットを順次圧縮することにより、前記データストリームを圧縮することであって、
前記サブセット内の値について、最大の大きさの前記値を収容するのに必要な圧縮されたビット幅を識別することと、
前記行に関連付けられたビット幅レジスタに前記ビット幅を格納することと、
最初の空きビットから始まる前記メモリの前記それぞれの列に、前記サブセット内の各値の最下位ビットを格納することであって、ビット数は前記ビット幅に等しく、前記ビット数を格納するために前記それぞれの行の前記それぞれの列に現在未使用のままのものよりも多くのビットが必要な場合、前記残りのビットは後続の行の前記それぞれの列に書き込まれる、前記格納することと、
を含む、前記圧縮することと、
によって準備される、前記取得することと、
前記圧縮されたデータストリームを解凍して、前記入力データストリームを、
前記圧縮されたデータストリームの各列の最初の未読ビットを識別することと、
前記再現された入力データを、
前記各ビット幅レジスタから各サブセットの前記ビット幅を取得することと、
前記第１のメモリの各列から、前記列の前記最初の未読ビットから始めて、前記ビット幅に対応する前記ビット数を取り出し、前記取り出されたビットを出力の最下位ビットに出力することと、
前記取り出されたビットに続くビット位置に対応するように、各列の前記最初の未読ビットの前記位置を更新することと、
前記出力の残りの最上位ビットをゼロまたは符号拡張して、前記再現された入力データ値を取得することと、
によって順次出力することと、
によって、再現することと、
を含む、前記方法。

【請求項20】

深層学習ネットワークのメモリ圧縮のためのシステムであって、
複数の行を有する第１のメモリであって、前記複数の行の各行が指定された数の列を有し、各列が列幅を有する、前記第１のメモリと、
入力モジュールであって、
前記深層学習ネットワークの１つまたは複数の層によって処理される入力データストリームを受信することであって、前記入力データストリームは、固定ビット幅の複数の値を有する、前記受信することと、
前記入力データストリームをサブセットに分割することであって、各サブセットにおける値の数は前記列の数に等しい、前記分割することと、
のための、前記入力モジュールと、
複数のビット幅レジスタを有する幅検出器モジュールであって、前記複数のビット幅レジスタのそれぞれは行に関連付けられ、前記サブセット内の値について、最大の大きさの前記値を収容するのに必要な圧縮されたビット幅を識別し、前記ビット幅を前記行に関連付けられた前記ビット幅レジスタに格納する、前記幅検出器モジュールと、
最初の空きビットから始まる前記メモリの前記それぞれの列に、前記サブセット内の各値の最下位ビットを格納することであって、ビット数は前記ビット幅に等しく、前記ビット数を格納するために前記それぞれの行の前記それぞれの列に現在未使用のままのものよりも多くのビットが必要な場合、前記残りのビットは後続の行の前記それぞれの列に書き込まれる、前記格納すること、のための圧縮モジュールと、
解凍モジュールであって、前記圧縮されたデータストリームを解凍して、前記入力データストリームを、
前記圧縮されたデータストリームの各列の最初の未読ビットを識別することと、
再現された入力データを、
前記各ビット幅レジスタから各サブセットの前記ビット幅を取得することと、
前記第１のメモリの各列から、前記列の前記最初の未読ビットから始めて、前記ビット幅に対応する前記ビット数を取り出し、前記取り出されたビットを出力の最下位ビットに出力することと、
前記取り出されたビットに続くビット位置に対応するように、各列の前記最初の未読ビットを更新することと、
前記出力の残りの最上位ビットをゼロまたは符号拡張して、前記再現された入力データ値を取得することと、
によって順次出力することと、
によって再現する、前記解凍モジュールと、
を含む、前記システム。

【請求項21】

圧縮された値のブロックの位置を追跡するための１つまたは複数のポインタを有するポインタモジュールをさらに含む、請求項２０に記載のシステム。

【請求項22】

前記ブロックが、フィルタマップデータブロックまたは入力もしくは出力アクティベーションデータブロックである、請求項２１に記載のシステム。

【請求項23】

前記位置が、前記ブロックの最初の圧縮された値のためのものである、請求項２１に記載のシステム。

【請求項24】

前記１つまたは複数のポインタが、入力または出力アクティベーションマップのデータへのポインタの第１のセットと、フィルタマップのデータへのポインタの第２のセットとを含む、請求項２１に記載のシステム。

【請求項25】

オフセットポインタをさらに含み、
入力データストリームを受信することが、前記１つまたは複数のポインタの位置で始まる前記ブロックの部分を順次受信することと、前記ブロックの前記部分を圧縮することと、受信する次の部分を呼び出すために前記オフセットポインタを更新することと、を含む、請求項２１に記載のシステム。

【請求項26】

入力データストリームを受信することが、前記ブロックの部分を順次受信することを含み、各部分の位置は前記ポインタの１つによって識別される、請求項２１に記載のシステム。

【請求項27】

前記圧縮されたデータ値の部分が、前のデータ値の空きの最上位ビットをパディングすることによって、列の最下位ビットから開始するように強制的に格納される、請求項２０に記載のシステム。

【請求項28】

いくつかの行の前記ビット幅レジスタが、前記ビット幅の長さのバイナリ表現を格納する、請求項２０に記載のシステム。

【請求項29】

他の行の前記ビット幅レジスタが、前記対応する行の前記ビット幅が前の行と同じか異なるかを指定する単一のビットを格納する、請求項２０に記載のシステム。

【請求項30】

前記システムが浮動小数点値を格納するためのものであり、前記浮動小数点値は、符号部分と、指数部分及び仮数部分とを含み、前記入力データストリームは、前記浮動小数点値の前記指数部分からなり、
圧縮することは、浮動小数点値ごとに、前記圧縮された指数部分に隣接する前記符号部分及び仮数部分を格納することをさらに含む、請求項２０に記載のシステム。

【請求項31】

解凍中に、将来必要になることが知られている前記ブロックのうちの特定の１つの位置に対してポインタが確立される、請求項２０に記載のシステム。

【請求項32】

前記圧縮モジュールが、前記値を圧縮して格納しながら、前記第１のメモリの各列内の次の空きの位置を追跡するように構成されている、請求項２０に記載のシステム。

【請求項33】

前記圧縮モジュールが、前記データストリームを圧縮する前に、前記第１のメモリの第１の記憶位置を空きとして初期化するように構成されている、請求項２０に記載のシステム。

【請求項34】

前記複数の値が、前記列幅以下の固定ビット幅のものである、請求項２０に記載のシステム。

【請求項35】

前記再現されたデータストリームが算術／論理ユニットに直接出力される、請求項２０に記載のシステム。

【請求項36】

前記再現されたデータストリームが、前記第１のメモリに対応する複数の列をそれぞれ有する複数の行を有する第２のメモリに出力される、請求項２０に記載のシステム。

【請求項37】

圧縮することが、前記圧縮されたビット幅を識別する前に、前記入力データストリームの前記値に関する関数を評価して、前記圧縮されたビット幅を縮小し、解凍のために前記関数を逆にすることをさらに含む、請求項２０に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

以下は、概して深層学習ネットワークに関し、より具体的には、深層学習ネットワークのメモリ圧縮のためのシステム及び方法に関する。

【背景技術】

【0002】

メモリ階層の圧縮は、特に汎用システムのコンテキストでかなりの注目を集めている。しかしながら、深層学習ワークロードの圧縮アプローチには、様々な技術的課題が存在する。例えば、汎用の圧縮アプローチでは、通常、ランダムで細粒度のアクセスをサポートする必要がある。さらに、汎用システムのプログラムは、通常、ニューラルネットワークには存在しない値のパターンと様々なデータ型を示す傾向がある。

【発明の概要】

【0003】

一態様では、深層学習ネットワークのメモリ圧縮の方法が提供され、この方法は、深層学習ネットワークの第１のメモリに対して、複数の行を定義することであって、複数の行はそれぞれ指定された数の列を有し、各列が列幅を有する、定義することと、深層学習ネットワークの１つまたは複数の層によって処理される入力データストリームを受信することであって、入力データストリームは、固定ビット幅の複数の値を有する、受信することと、入力データストリームをサブセットに分割することであって、各サブセットにおける値の数は列の数に等しい、分割することと、各サブセットを順次圧縮することにより、データストリームを圧縮することであって、サブセット内の値について、最大の大きさの値を収容するのに必要な圧縮されたビット幅を識別することと、行に関連付けられたビット幅レジスタにビット幅を格納することと、最初の空きビットから始まるメモリのそれぞれの列に、サブセット内の各値の最下位ビットを格納することであって、ビット数はビット幅に等しく、ビット数を格納するためにそれぞれの行のそれぞれの列に現在未使用のままのものよりも多くのビットが必要な場合、残りのビットは後続の行のそれぞれの列に書き込まれる、格納することと、を含む、圧縮することと、を含み、圧縮されたデータストリームは、解凍されて、圧縮されたデータストリームの各列の最初の未読ビットの位置を識別することと、再現された入力データを、各ビット幅レジスタから各サブセットのビット幅を取得することと、第１のメモリの各列から、列の最初の未読ビットから始めて、ビット幅に対応するビット数を取り出し、取り出されたビットを出力の最下位ビットに出力することと、取り出されたビットに続くビット位置に対応するように、各列の最初の未読ビットの位置を更新することと、出力の残りの最上位ビットをゼロまたは符号拡張して、再現された入力データ値を取得することと、によって順次出力することと、によって、入力データストリームを再現することができる。

【0004】

この方法の特定の場合では、圧縮された値のブロックの位置は、１つまたは複数のポインタによって特定できる。

【0005】

この方法の特定の場合では、ブロックはフィルタマップデータブロックまたは入力または出力アクティベーションデータブロックである。

【0006】

この方法の特定の場合では、位置は、ブロックの最初の圧縮された値のためのものである。

【0007】

この方法の特定の場合では、１つまたは複数のポインタは、入力または出力アクティベーションマップのデータへのポインタの第１のセットと、フィルタマップのデータへのポインタの第２のセットとを含む。

【0008】

この方法の特定の場合では、入力データストリームを受信することは、１つまたは複数のポインタの位置で始まるブロックの部分を順次受信することと、ブロックの部分を圧縮することと、受信する次の部分を呼び出すためにオフセットポインタを更新することと、を含む。

【0009】

この方法の特定の場合では、入力データストリームを受信することは、ブロックの部分を順次受信することを含み、各部分の位置はポインタの１つによって識別される。

【0010】

この方法の特定の場合では、圧縮されたデータ値の部分は、前のデータ値の空きの最上位ビットをパディングすることによって、列の最下位ビットから開始するように強制的に格納される。

【0011】

この方法の特定の場合では、いくつかの行のビット幅レジスタは、ビット幅の長さのバイナリ表現を格納する。

【0012】

この方法の特定の場合では、他の行のビット幅レジスタは、対応する行のビット幅が前の行と同じか異なるかを指定する単一のビットを格納する。

【0013】

この方法の特定の場合では、この方法は浮動小数点値を格納するために使用され、浮動小数点値は、符号部分と、指数部分及び仮数部分とを含み、入力データストリームは浮動小数点値の指数部分からなり、圧縮することは、浮動小数点値ごとに、圧縮された指数部分に隣接する符号部分及び仮数部分を格納することをさらに含む。

【0014】

この方法の特定の場合では、解凍中に、将来必要になることが知られているブロックのうちの特定の１つの位置に対してポインタが確立される。

【0015】

この方法の特定の場合では、この方法は、値を圧縮して格納しながら、第１のメモリの各列内の次の空きの位置を追跡することをさらに含む。

【0016】

この方法の特定の場合では、この方法は、データストリームを圧縮する前に、第１のメモリの第１の記憶位置を空きとして初期化することをさらに含む。

【0017】

この方法の特定の場合では、複数の値は、列幅以下の固定ビット幅のものである。

【0018】

この方法の特定の場合では、再現されたデータストリームは算術／論理ユニットに直接出力される。

【0019】

この方法の特定の場合では、再現されたデータストリームは、第１のメモリに対応する複数の列をそれぞれ有する複数の行を有する第２のメモリに出力される。

【0020】

この方法の特定の場合では、圧縮することは、圧縮されたビット幅を識別する前に、入力データストリームの値に関する関数を評価して、圧縮されたビット幅を削減し、解凍のために関数を逆にすることをさらに含む。

【0021】

別の態様では、深層学習ネットワークのためのメモリ解凍の方法が提供され、この方法は、入力データストリームを表す圧縮されたデータストリームを取得することであって、圧縮されたデータストリームは、深層学習ネットワークの第１のメモリに対して、複数の行を定義することであって、複数の行はそれぞれ指定された数の列を有し、各列が列幅を有する、定義することと、深層学習ネットワークの１つまたは複数の層によって処理される入力データストリームを受信することであって、入力データストリームは、固定ビット幅の複数の値を有する、受信することと、入力データストリームをサブセットに分割することであって、各サブセットにおける値の数は列の数に等しい、分割することと、各サブセットを順次圧縮することにより、データストリームを圧縮することであって、サブセット内の値について、最大の大きさの値を収容するのに必要な圧縮されたビット幅を識別することと、行に関連付けられたビット幅レジスタにビット幅を格納することと、最初の空きビットから始まるメモリのそれぞれの列に、サブセット内の各値の最下位ビットを格納することであって、ビット数はビット幅に等しく、ビット数を格納するためにそれぞれの行のそれぞれの列に現在未使用のままのものよりも多くのビットが必要な場合、残りのビットは後続の行のそれぞれの列に書き込まれる、格納することと、を含む、圧縮することと、によって準備される、取得することと、圧縮されたデータストリームを解凍して、入力データストリームを、圧縮されたデータストリームの各列の最初の未読ビットを識別することと、再現された入力データを、各ビット幅レジスタから各サブセットのビット幅を取得することと、第１のメモリの各列から、列の最初の未読ビットから始めて、ビット幅に対応するビット数を取り出し、取り出されたビットを出力の最下位ビットに出力することと、取り出されたビットに続くビット位置に対応するように、各列の最初の未読ビットを更新することと、出力の残りの最上位ビットをゼロまたは符号拡張して、再現された入力データ値を取得することと、によって順次出力することと、によって、再現することと、を含む。

【0022】

さらに別の態様では、深層学習ネットワークのメモリ圧縮のためのシステムが提供され、このシステムは、複数の行を有する第１のメモリであって、複数の行の各行が指定された数の列を有し、各列が列幅を有する、第１のメモリと、入力モジュールであって、深層学習ネットワークの１つまたは複数の層によって処理される入力データストリームを受信することであって、入力データストリームは、固定ビット幅の複数の値を有する、受信することと、入力データストリームをサブセットに分割することであって、各サブセットにおける値の数は列の数に等しい、分割することと、のための、入力モジュールと、複数のビット幅レジスタを有する幅検出器モジュールであって、複数のビット幅レジスタのそれぞれは行に関連付けられ、サブセット内の値について、最大の大きさの値を収容するのに必要な圧縮されたビット幅を識別し、ビット幅を行に関連付けられたビット幅レジスタに格納する、幅検出器モジュールと、最初の空きビットから始まるメモリのそれぞれの列に、サブセット内の各値の最下位ビットを格納することであって、ビット数はビット幅に等しく、ビット数を格納するためにそれぞれの行のそれぞれの列に現在未使用のままのものよりも多くのビットが必要な場合、残りのビットは後続の行のそれぞれの列に書き込まれる、格納すること、のための圧縮モジュールと、解凍モジュールであって、圧縮されたデータストリームを解凍して、入力データストリームを、圧縮されたデータストリームの各列の最初の未読ビットを識別することと、再現された入力データを、各ビット幅レジスタから各サブセットのビット幅を取得することと、第１のメモリの各列から、列の最初の未読ビットから始めて、ビット幅に対応するビット数を取り出し、取り出されたビットを出力の最下位ビットに出力することと、取り出されたビットに続くビット位置に対応するように、各列の最初の未読ビットを更新することと、出力の残りの最上位ビットをゼロまたは符号拡張して、再現された入力データ値を取得することと、によって順次出力することと、によって再現する、解凍モジュールと、を含む。

【0023】

このシステムの特定の場合では、システムは、圧縮された値のブロックの位置を追跡するための１つまたは複数のポインタを有するポインタモジュールをさらに含む。

【0024】

このシステムの特定の場合では、ブロックはフィルタマップデータブロックまたは入力もしくは出力アクティベーションデータブロックである。

【0025】

このシステムの特定の場合では、位置は、ブロックの最初の圧縮された値のためのものである。

【0026】

このシステムの特定の場合では、１つまたは複数のポインタは、入力または出力アクティベーションマップのデータへのポインタの第１のセットと、フィルタマップのデータへのポインタの第２のセットとを含む。

【0027】

このシステムの特定の場合では、システムはオフセットポインタをさらに含み、入力データストリームを受信することは、１つまたは複数のポインタの位置で始まるブロックの部分を順次受信することと、ブロックの部分を圧縮することと、受信する次の部分を呼び出すためにオフセットポインタを更新することと、を含む。

【0028】

このシステムの特定の場合では、入力データストリームを受信することは、ブロックの部分を順次受信することを含み、各部分の位置はポインタの１つによって識別される。

【0029】

このシステムの特定の場合では、圧縮されたデータ値の部分は、前のデータ値の空きの最上位ビットをパディングすることによって、列の最下位ビットから開始するように強制的に格納される。

【0030】

このシステムの特定の場合では、いくつかの行のビット幅レジスタは、ビット幅の長さのバイナリ表現を格納する。

【0031】

このシステムの特定の場合では、他の行のビット幅レジスタは、対応する行のビット幅が前の行と同じか異なるかを指定する単一のビットを格納する。

【0032】

このシステムの特定の場合では、このシステムは浮動小数点値を格納するためのものであり、浮動小数点値は符号部分、指数部分及び仮数部分を含み、入力データストリームは浮動小数点値の指数部分からなり、圧縮することは、浮動小数点値ごとに、圧縮された指数部分に隣接する符号部分及び仮数部分を格納することをさらに含む。

【0033】

このシステムの特定の場合では、解凍中に、将来必要になることが知られているブロックのうちの特定の１つの位置に対してポインタが確立される。

【0034】

このシステムの特定の場合では、圧縮モジュールは、値を圧縮して格納しながら、第１のメモリの各列内の次の空きの位置を追跡するように構成されている。

【0035】

このシステムの特定の場合では、圧縮モジュールは、データストリームを圧縮する前に、第１のメモリの第１の記憶位置を空きとして初期化するように構成されている。

【0036】

このシステムの特定の場合では、複数の値は、列幅以下の固定ビット幅のものである。

【0037】

このシステムの特定の場合では、再現されたデータストリームは算術／論理ユニットに直接出力される。

【0038】

このシステムの特定の場合では、再現されたデータストリームは、第１のメモリに対応する複数の列をそれぞれ有する複数の行を有する第２のメモリに出力される。

【0039】

このシステムの特定の場合では、圧縮することは、圧縮されたビット幅を識別する前に、入力データストリームの値に関する関数を評価して、圧縮されたビット幅を削減し、解凍のために関数を逆にすることをさらに含む。

【0040】

これら及び他の態様が企図され、本明細書に記載される。前述の概要は、当業者が以下の詳細な説明を理解するのを助けるために、実施形態の代表的な態様を提示していることが理解されるであろう。

【0041】

実施形態のより深い理解が、図面を参照して得られるであろう。

【図面の簡単な説明】

【0042】

【図1】一実施形態による、深層学習ネットワークのためのメモリ圧縮のためのシステムの概略図である。

【図2】図１のシステム及び例示的な動作環境を示す概略図である。

【図3】一実施形態による、深層学習ネットワークのためのメモリ圧縮の方法のフローチャートである。

【図4A】６４個のランダムに選択された入力のバッチに対するｉｍａｐ値分布の例を示す。

【図4B】入力に依存しないｆｍａｐ値分布の例を示す。

【図5A】６４個のランダムに選択された入力のバッチに対するｉｍａｐ累積分布を示す。

【図5B】入力に依存しないｆｍａｐ累積分布の例を示す。

【図6】説明のための畳み込み層の例の図を示す。

【図7】スパース畳み込みニューラルネットワーク（ＳＣＮＮ）タイルの編成の例の図を示す。

【図8A】固定データ幅バッファの一例を示す。

【図8B】可変データ幅をサポートする単純なアプローチの例を示す。

【図8C】、図１のシステムによる、可変データ幅をサポートする例を示す。

【図9A】図１のシステムによる、解凍モジュールの例の図を示す。

【図9B】図９Ａの解凍モジュールの第２のサイクル（反復）の一例である。

【図9C】図９Ａの解凍モジュールの第３のサイクル（反復）の一例である。

【図10A】図１のシステムによる、圧縮モジュールの例の図を示す。

【図10B】図１０Ａの圧縮モジュールの圧縮ブロックの例示的な構造を示す。

【図11A】高密度モデルを対象とするデータ並列アクセラレータで使用される図１のシステムの例を示す。

【図11B】図１のシステムによる、処理要素のグリッドの例を示す。

【図12A】実験例のニューラルネットワーク全体のメモリフットプリントを報告するチャートを示す。

【図12B】実験例についてのトラフィックのこの減少を示すチャートを示す。

【図13A】実験例の各サイジングポリシーの下で必要とされるオンチップメモリ容量を示すチャートである。

【図13B】実験例のモデルごとのオフチップトラフィックを示すチャートを示す。

【図14A】実験例のベースラインに対して正規化されたスピードアップを示すチャートを示す。

【図14B】実験例のモデルフットプリント全体の減少を示すチャートを示す。

【図15A】実験例のスピードアップを示すチャートを示す。

【図15B】実験例のフットプリント減少を示すチャートである。

【図16A】実験例のメモリエネルギー内訳を示すグラフである。

【図16B】実験例を考慮した理想的な圧縮率を示すチャートである。

【図17】最適化されたビット幅サイズのオーバーヘッドに対するメモリフットプリントの減少を示す様々な比較を示すチャートである。

【発明を実施するための形態】

【0043】

ここで、図面を参照して実施形態を説明する。説明を簡単かつ明瞭にするために、適切と考えられる場合、図面間で参照番号を繰り返し使用して、対応する要素または類似の要素を示すことがある。以下の説明では、説明する多様な実施形態の十分な理解を与えるために多数の具体的な詳細を説明する。しかしながら、本明細書において説明されている実施形態がこれらの具体的な詳細なしで実践することができることは、当業者によってよく理解されよう。他の例では、周知の方法、手順、及び構成要素は、本明細書に記載の実施形態を不明確にしないように、詳細説明されていない。また、この説明は、本明細書に記載された実施形態の範囲を限定するものと見なされるべきではない。

【0044】

命令を実行する本明細書に例示された任意のモジュール、ユニット、構成要素、サーバ、コンピュータ、端末、またはデバイスは、ストレージ媒体、コンピュータストレージ媒体、またはデータストレージデバイス（取り外し可能及び／または取り外し不可能）、例えば、磁気ディスク、光ディスク、またはテープなどのコンピュータ可読媒体を含むかまたはそれにアクセスすることができる。コンピュータストレージ媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装される、揮発性及び不揮発性の、取り外し可能及び取り外し不可能な媒体が含まれ得る。コンピュータストレージ媒体の例は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ‐ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または、所望の情報を記憶するために使用することができ、アプリケーション、モジュール、もしくはその両方によってアクセスできる、任意の他の媒体を含む。そのようなコンピュータストレージ媒体はいずれも、デバイスの一部であってもよいし、デバイスにアクセス可能または接続可能であってもよい。本明細書で説明する任意のアプリケーションまたはモジュールは、そのようなコンピュータ可読媒体によって格納または保持できるコンピュータ可読／実行可能命令を使用して実装することができる。

【0045】

メモリ階層における圧縮は、メモリアクセスが全体のエネルギー消費の大部分を占める深層学習ワークロードとアクセラレータにとって特に魅力的である。圧縮は、コンピュータの動作、特に本発明の場合は深層学習ネットワークの動作に技術的な利点をもたらすことができる。まず、例えば、圧縮によって、階層の有効容量と帯域幅が増加し、エネルギー効率が向上し、全体的なアクセスレイテンシが短縮され得る。具体的には、階層の任意のレベルでデータを圧縮すると、エンコード時に各値に必要な物理ビットが少なくなるため、有効容量を増やすことができる。第２に、アクセスごとにより多くのエネルギーと時間を必要とする、より高いレベルの階層へのアクセスが減少するため、実効待ち時間とエネルギー効率が改善する。第３に、圧縮によって値ごとに読み書きされるビット数が減少し、有効な帯域幅とエネルギー効率が向上する。さらに、メモリ階層のエネルギー効率を高める最前線の手法であるデータフローと再利用のためのブロックを補完する。これらの利点は、ニューラルネットワークのオフチップメモリ圧縮に関する研究の動機となっている。本開示の実施形態は、有利には、オンチップメモリ階層における圧縮を提供する。

【0046】

メモリ階層における圧縮は、汎用コンピューティングシステムのコンテキストでかなりの注目を集めている。汎用コンピューティングシステムの圧縮では、任意のアクセスパターンをサポートする必要があり、一般に、コンピュータプログラムで一般的な値のパターン（例えば、ポインタまたは反復値）に依存する。しかしながら、本発明者らは、深層学習ワークロードが、追加の機会及び技術的課題を提示する特定の挙動を示すと判断した。例えば、深層学習ワークロードのアクセスパターンは通常、規則的であり、長いシーケンシャルアクセスで構成されている。これにより、ランダムアクセスパターンをサポートするメリットが軽減される。加えて、ニューラルネットワークの値は一般に、一般的なプログラム変数のプロパティを示さない特徴マップとフィルタマップからなる。さらに、ニューラルネットワークハードウェアはデータ並列になる傾向があり、幅広いアクセスが必要になる。

【0047】

ランダムで細粒度のアクセスをサポートするには、メモリ内の圧縮された値を迅速かつ細粒度で見つける能力が必要である。これにより、汎用の圧縮方法では小さなブロックを使用する必要があり、このことで一般に有効容量が大幅に抑制される。その結果、多くの圧縮アプローチは転送されるデータの量を削減するが、ストレージで使用するコンテナのサイズは削減しない。例えば、キャッシュライン内のデータをエンコードするので、読み取りまたは書き込みのビット数を減らす必要がある。しかしながら、キャッシュライン全体はまだ確保されたままである。代替的に、方法は、あるレベルの間接化を使用して、データがメモリ内の現在どこにあるかを識別するため、柔軟な配置とメタデータのオーバーヘッドとの間で慎重にバランスを取る必要がある。

【0048】

典型的なプログラムは、完全または部分的な値の冗長性を示す傾向がある。例えば、メモリポインタを使用するため、いくつかの値はプレフィックスを共有する傾向がある（例えば、スタックまたはヒープに割り当てられた構造体へのポインタ）。プログラムは、部分的に繰り返される値のパターン（フラグフィールドなど）を示す傾向がある集計データ構造をよく使用する。通常、圧縮のアプローチでは、整数及び浮動小数点数、または様々な文字セット（例えば、ＵＴＦ－１６）の文字など、様々なデータ型を処理する必要がある。さらに、プログラムは、８ビット、１６ビット、３２ビット、またはそれ以上など、様々な２のべき乗データ幅のデータ型を管理する。最後に、プログラマはしばしば「デフォルト」の整数または浮動小数点データ型（３２ビットまたは６４ビットなど）を使用する。圧縮技術は、これらの特性を利用してデータのフットプリントを削減できる。

【0049】

対照的に、本発明者らは、再利用のためのブロッキングが使用されている場合でも、深層学習ワークロードは長い順次アクセスを示す傾向があると判断した。これにより、細粒度ブロックへのランダムアクセスをサポートする必要性が軽減される。さらに、深層学習ワークロードの値は、通常、一般的なコンピュータプログラムの繰り返しパターンを示さない。メモリフットプリントの大部分は、８ビットや１６ビットなどの短いデータ型の大きな配列を格納するためのものである。一般に、大量のデータと計算が与えられると、深層学習モデルはデータ型を慎重に選択してできるだけ小さくする。４ビットなどのさらに小さなデータ型への量子化技術も使用できる。いくつかの場合では、それでも１６ビットが必要なモデルもあり、例えば、特定のセグメンテーションモデルの場合、精度がわずかに低下しただけでも非常に目立つアーティファクトに変換される。さらに、プログラムは狭いメモリ要求を実行する傾向があるが、ニューラルネットワークは一般にデータの並列性を示し、広い参照を好む。

【0050】

本開示の実施形態は、データが可能な限り符号化されたままであるオンチップ圧縮方式を有利に提供する。場合によっては、深層学習アプローチの要素を処理する前にデータを解凍することができ、これは、特にデコードのために、実装が簡単なスキームを支持する。汎用システムの圧縮技術の多くは、一般に、最終レベルのキャッシュとオンチップ階層の他のキャッシュの間で動作し、この場合レイテンシはそれほど重要ではなく、追加の複雑さを許容できる。有利には、本開示の実施形態は、例えば、（１）ニューラルネットワークによって一般に必要とされる比較的長いシーケンシャルアクセスをサポートすることができ、（２）処理ユニットの高い使用率を維持するために複数のワイドアクセスをサポートすることができ、（３）処理ユニットの直前でデコードを実行できるため、データを可能な限り長く圧縮したままにできる、そして、（４）ニューラルネットワークに典型的な値の動作を利用する、ロスレスオンチップ圧縮方式を提供する。

【0051】

本開示の実施形態（略式に「Ｂｏｖｅｄａ」と呼ばれる場合もある）は、固定小数点値で動作するニューラルネットワークにおける値の典型的な分布を有利に利用するオンチップメモリ階層圧縮スキームを提供する。特に、各層では、大部分の値が０に近づく傾向があるため、大きさの高い値はほとんどない。したがって、本開示の実施形態は、同じ数のビットを使用してすべての値を格納するのではなく、値の内容に合わせてデータ幅を調整し、必要な数のビットのみを使用するようにする。各値がそのデータ幅を個別に選択できるようにすると、許容できないメタデータオーバーヘッド（値ごとの幅フィールド）が発生する。代わりに、本開示の実施形態は、値をグループ化し、グループ内で最大の大きさの値を収容するのに十分広い共通のデータ幅を選択する。例えば、最大の大きさの値が０ｘ１２である８つの８ビット（８－ビット）値のグループでは、８×５ビットのコンテナを使用できるが、最大の大きさの値が０ｘ０ａである別のグループでは、８×４ビットを使用できる。いずれの場合も、３ビットのメタデータフィールドは、値ごとに使用されるビット数（それぞれ５と４）を指定する。可変データ幅のコンテナを使用できるため、値をデコードして適切に整列させて処理ユニットにフィードするには、通常、幅の広いクロスバーが必要になる。例えば、それぞれ８ビットの８つの値で動作する処理エレメントには、６４ビットから６４ビットへのクロスバーだけでなく、２つのメモリ行に拡がる値を処理する追加のロジックが必要である。本開示の実施形態は、ニューラルネットワークの規則的なアクセスパターンを利用して、メモリ内の圧縮されたデータを整理し、その代わりに、複数のさらにはるかに小さい「クロスバー」を必要とするようにする。

【0052】

有利なことに、本開示の実施形態は、ニューラルネットワークモデルへの変更を必要とせずに有効なオンチップ容量を高めることができる。これにより、モデルがオフチップであるか計算バウンドであるかに応じて、エネルギー及び／またはパフォーマンスの利点が得られる。アーキテクトは、設計時に本実施形態を展開して、オンチップメモリの量を削減し、したがって、所望のパフォーマンス目標を満たすために必要なコストを削減することができる。ニューラルネットワークの開発者に対して、本実施形態は、オフチップにする必要が少なく、すべてのモデルに対して量子化を必要とせずに量子化に報いるアプローチを提供する。本開示では、本アプローチが特定のアクセラレータアーキテクチャに固有のものではないことを実証するために、高密度モデル用のアクセラレータ、及びスパース畳み込みニューラルネットワーク（ＳＣＮＮ）用のアクセラレータ、プルーニングされたモデルをターゲットとするアクセラレータに実験例が適用される。ＳＣＮＮについて、実験例は、本実施形態がＳＣＮＮのゼロ圧縮の上で動作できることを示している。説明の目的で、実験例では、コンピュータビジョンタスク、特に画像分類を使用して、本実施形態の有効性を示す。これは、深層学習を適用できる膨大な数のドメインの一部にすぎないが、画像処理システムが使用されるアプリケーションの多様性とボリュームのために、重要性と価値が非常に高くなる。実験例は、本実施形態が以下のようであることを測定した。
・モデル全体のフットプリントを４９％に削減した。特殊化した方法を使用して量子化されたモデルの場合、ほぼ理想的な圧縮率が達成された。１つの方法の場合、値のコンテンツを利用することで、特殊化したハードウェアが提供するものと比較して、圧縮率がほぼ２倍になった。
・オンチップでアクセスされるビットの量を５０％に削減した。
・９６ＫＢのグローバルバッファを備えた高密度アクセラレータでは、パフォーマンスが１．４倍改善し、エネルギーが２８％改善した。
・ＳＣＮＮのゼロ圧縮に対する全体的なモデルのフットプリントを６６％に削減した。
・調査した構成の平均２０％と比較して、ＳＣＮＮと結合した場合のエネルギーが２６％削減された。

【0053】

ここで図１及び図２を参照すると、一実施形態による、深層学習ネットワークのためのメモリ圧縮のためのシステム１００が示されている。この実施形態では、システム１００はコンピューティングデバイス２６上で実行され、インターネットなどのネットワーク２４を介してサーバ３２上にあるコンテンツにアクセスする。さらなる実施形態では、システム１００は、デバイス２６上でのみ、またはサーバ３２上でのみ実行することができ、または、他のコンピューティングデバイス上、例えば、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、サーバ、スマートウォッチ、分散またはクラウドコンピューティングデバイス（複数可）などで実行及び／または分散することができる。いくつかの実施形態では、システム１００の構成要素は、単一のコンピュータシステムによって格納され、単一のコンピュータシステム上で実行される。他の実施形態では、システム１００の構成要素は、ローカルまたはリモートに分散され得る２つ以上のコンピュータシステム間に分散される。

【0054】

図１は、システム１００の実施形態の様々な物理的及び論理的構成要素を示す。図示のように、システム１００は、中央処理装置（「ＣＰＵ」）１０２（１つまたは複数のプロセッサを含む）、ランダムアクセスメモリ（「ＲＡＭ」）１０４、入力インタフェース１０６、出力インタフェース１０８、ネットワークインタフェース１１０、不揮発性ストレージ１１２、及びＣＰＵ１０２が他の構成要素と通信できるようにするローカルバス１１４を含む、複数の物理的または論理的構成要素を有する。ＣＰＵ１０２は、以下でより詳細に説明するように、オペレーティングシステム及び様々なモジュールを実行する。ＲＡＭ１０４は、比較的応答性の高い揮発性ストレージをＣＰＵ１０２に提供する。入力インタフェース１０６により、管理者またはユーザは、キーボード及びマウスなどの入力デバイスを介して入力を提供することができる。出力インタフェース１０８は、情報を出力デバイス、例えば、ディスプレイ及び／またはスピーカに出力する。ネットワークインタフェース１１０は、典型的なクラウドベースのアクセスモデルの場合など、システム１００から離れて配置された他のコンピューティングデバイス及びサーバなどの他のシステムとの通信を可能にする。不揮発性ストレージ１１２は、オペレーティングシステム及びモジュールを実装するためのコンピュータ実行可能命令を含むオペレーティングシステム及びプログラム、ならびにこれらのサービスによって使用される任意のデータを格納する。以下に説明するように、追加の保存データをデータベース１１６に保存することができる。システム１００の動作中、実行を容易にするために、オペレーティングシステム、モジュール、及び関連データを不揮発性ストレージ１１２から取り出してＲＡＭ１０４に配置することができる。

【0055】

一実施形態では、システム１００は、入力モジュール１２０、解凍モジュール１２２、幅検出器モジュール１２６、圧縮モジュール１２４、深層学習（ＤＬ）モジュール１２８、及びポインタモジュール１３０などのいくつかの機能モジュールを含む。さらなる実施形態では、モジュールの機能を組み合わせたり、他のモジュール上で実行したりすることができる。場合によっては、モジュールの機能を少なくとも部分的に専用ハードウェアで実行することができ、他の場合では、モジュールの機能の少なくとも一部をＣＰＵ１０２上で実行することができる。

【0056】

入力特徴マップ（ｉｍａｐ）とフィルタマップ（ｆｍａｐ）の値の分布は、一般に、小さい方に大きく偏っている。システム１００が低コストでエネルギー効率の良い圧縮技術を構築するために利用できるのは、この挙動である。これらの分布を利用するために、システム１００は、要素ごとに使用されるビット数（データ幅）を、その現在の値に適合するのにちょうど十分な長さに適応させることができる。ｆｍａｐは通常静的であるため、使用されるデータ幅はｆｍａｐ要素によって異なるが、入力に依存しない。一方、ｉｍａｐ値は入力依存であるため、システム１００によって使用されるデータ幅は、各要素が取る値に適応することができる。対照的に、他のメモリ階層は、データ幅を使用してすべてのｉｍａｐまたはｆｍａｐ要素を格納し、これは、可能な値を収容するのに十分な長さである。しかしながら、本発明者らが経験的に決定したように、これはほとんどの要素にとって過剰であることが証明されている。説明の目的で、ＲｅｓＮｅｔ１８（画像分類）とＳＳＤＭｏｂｉｌｅＮｅｔ（オブジェクト検出）の２つのモデルが強調表示されており、どちらも８ビットに量子化されている。図４Ａ、４Ｂ、５Ａ、及び５Ｂは、いくつかの代表的な畳み込み層及び全結合層のｉｍａｐ値及びｆｍａｐ値の規則的及び累積的分布を示す。図４Ａ及び５Ａは、６４個のランダムに選択された入力のバッチに対するｉｍａｐ値分布及び累積分布をそれぞれ示し、図４Ｂと５Ｂは、入力に依存しないｆｍａｐ値の分布と累積分布を示している。

【0057】

図４Ａと５Ａは、ＲｅｓＮｅｔ１８のｒｅｓ２ａ＿ｂｒａｎｃｈ１で、ほとんどのｉｍａｐ値を５ビットで表すことができることを示しており、これは、理想的な条件の下では使用される８ビットに対するフットプリントの３７．５％の減少に換算される。全結合層ｆｃの実質的にすべてのｉｍａｐ値には、８ビットに対する５０％減少された４ビットだけで十分である。ＳＳＤＭｏｂｉｌｅｎｅｔも同様の挙動を示す。深さ方向１２のその２Ｄ畳み込み層では、値の９０％が必要とするのは６ビット以下であり、これは、ポイント別１３＿２＿２のそのオブジェクト検出ＳＳＤモジュール層において事実上すべてのｉｍａｐ値を表すのにも十分である。図４Ｂ及び５Ｂは、ｆｍａｐについて同様の傾向を示している。ＲｅｓＮｅｔ１８のｒｅｓ２ｂｒａｎｃｈ１は、ほとんどのｆｍａｐ値に対して５ビットのみで十分であるが、ｆｃ層の事実上すべての値に対して６ビットで十分である。しかしながら、ｆｃでは、ｆｍａｐ値の９５％で最大５ビットが必要である。ＳＳＤ－ＭｏｂｉｌｅＮｅｔのｆｍａｐも同様である。実質的にすべての値が６ビットに適合し、９０％が５ビットに適合し、８０％以上が４ビットに適合する。

【0058】

いくつかの場合では、システム１００は、プルーニングされたＣＮＮモデルの畳み込み層のためのアクセラレータであるＳＣＮＮアクセラレータに適用することができる。説明の目的で、システム１００は、ＳＣＮＮの畳み込み層に適用されるものとして説明される。しかしながら、他のデータ並列深層学習アクセラレータや、全結合層などの他のタイプの層に適用できることを理解されたい。

【0059】

図６は、説明の目的で畳み込み層の一例を示す図である。入力は次元Ｓ×Ｒ×Ｃ（高さ、幅、チャネル）のＫ個のｆｍａｐ、Ｈ×Ｗ×Ｃのｉｍａｐであり、通常Ｈ≫Ｓ及びＷ≫Ｒ、ストライドｓである。ｆｍａｐは静的に既知の値（重み）であるが、ｉｍａｐは実行時に計算された値（アクティベーション）である。出力は

【数1】

ｏｍａｐ（アクティベーション）である。この例では、ｓ＝１を想定している。各ｏｍａｐ値は、ｉｍａｐの同じサイズのウィンドウを使用したｆｍａｐの３次元（３Ｄ）畳み込みとして決定される。各ｆｍａｐは、Ｈ及びＷ次元に沿ってストライドｓを使用してｉｍａｐ上でウィンドウをスライドさせることにより、１つのチャネルのｏｍａｐ値を生成する。３Ｄ畳み込みには、ｆｍａｐ要素とそれに対応するｉｍａｐ要素の対での乗算が含まれ、その後、これらすべての積がｏｍａｐ値に累積される。各３Ｄ畳み込みは、各入力チャンネルのＣ個の２次元（２Ｄ）畳み込みの合計と等価である。

【0060】

ＳＣＮＮは値を、Ｎ個のサンプル－チャネル－高さ－重み（ＮＣＨＷ）の順序で格納し、ｏｍａｐは空間入力静的畳み込みによって決定される。これにより、ＳＣＮＮは一度に１つのチャネルでｉｍａｐとｆｍａｐを処理できるようになり、これによりスパース性を利用できるようになる。図７は、ＳＣＮＮタイルの編成の一例を示す図である。ＳＣＮＮは、このようなタイルのグリッドを使用してパフォーマンスをスケールアップする。説明と理解を容易にする目的で、タイルは１つだけであると仮定できる。しかし、システム１００の本実施形態は複数のタイルに使用できることが理解される。

【0061】

タイルには、ｉｍａｐ（及びｏｍａｐ）、ｆｍａｐ、及びアキュムレータをそれぞれ保持する３つのバッファがある。アキュムレータは、ｏｍａｐ値を累積する。ＳＣＮＮは、一度にｉｍａｐの単一チャネルのすべてのウィンドウに対してすべての２Ｄ畳み込みを実行する空間データフローを使用する。ＳＣＮＮは、畳み込み層では、任意のｆｍａｐ値と同じチャネルからの任意のｉｍａｐ値の積が何らかのｏｍａｐ値に寄与するという観測に基づいている。したがって、最大スループットでは、タイルはすべて同じチャネルからの４つのｉｍａｐ値と４つのｆｍａｐ値を処理し、１６の可能な（ｉｍａｐ、ｆｍａｐ）ペアすべての積を計算する。次に、クロスバーを介して、これらすべての積を対応するアキュムレータに送る。アキュムレータバッファは、複数の積が同じバンク内のアキュムレータにマップされるときに発生する競合を減らすために、３２のバンクに編成されている。スパース性を利用するために、ｉｍａｐとｆｍａｐはゼロ以外の値を（（値），（スキップ））ペアとして格納するゼロ値を省略する。ここで、（スキップ）はそれぞれの後に省略されるゼロ値の数である。これらの（スキップ）フィールドを使用することにより、ＳＣＮＮは各値の元の位置を推論し、積をそれぞれのアキュムレータにマップする。説明と理解を容易にする目的で、スキップフィールドは省略され、８ビットの値が想定される。本明細書で説明するように、１６ビット（オリジナル）及び８ビットＳＣＮＮ構成が考慮される。

【0062】

通常、ＳＣＮＮは次のように２つの連続するブロックを処理する。ＢＢｌｏｃｋ０及びＢＢｌｏｃｋ１と呼ばれるそれぞれ４つのｉｍａｐ値（Ｉ_０，．．．，Ｉ_３）と（Ｉ_４，．．．，Ｉ_７）を考慮する。各ブロック内の値は概念的に順序付けられていることに注意されたい。Ｉ_０はＢＢｌｏｃｋ０内の最初の値であり、Ｉ_７はＢＢｌｏｃｋ１内の最初の値である。最初は、これらは符号なしの数値であると想定できる。図８Ａは、固定データ幅バッファの一例を示す。この例では、ＳＣＮＮのｉｍａｐバッファは値ごとに８ビットのコンテナを使用し、４つの値幅の読み取り（３２ビット）をサポートしている。この構成では、ｉｍａｐバッファから読み取られた値は乗算器の入力と直接整列する。しかしながら、ＢＢｌｏｃｋ０のすべての値には少なくとも２つのゼロビットのプレフィックスがあり、ＢＢｌｏｃｋ１の値には３ビットがある。対照的に、システム１００の目標の１つは、これらのプレフィックスビットを格納することを回避することである。

【0063】

図８Ｂは、可変データ幅をサポートする単純なアプローチの例を示す。このアプローチは、圧縮された値を格納するための簡単な方法であるが、一般的には望ましくない。４つの値のＢＢｌｏｃｋごとに、幅フィールドは値ごとのビット数を指定する。この例では、ＢＢｌｏｃｋ０の場合は５、ＢＢｌｏｃｋ１の場合は６である（４（１００）及び５（１０１）としてエンコードされる）。ＢＢｌｏｃｋごとに１つの幅フィールドは、複数の値に対するそのオーバーヘッドを償却する。この例では、値はＢＢｌｏｃｋ０に順次格納され、ＢＢｌｏｃｋ０が完全に占有されると、値はＢＢｌｏｃｋ１に順次格納される。

【0064】

残念ながら、値が乗算器の入力と整列しなくなり、２つの行にまたがる可能性さえあるため、解凍には多額の費用がかかる。乗算器の列ごとに、幅のビット（ＢＢｌｏｃｋごとに異なる）を抽出し、８ビットに拡張した後に乗算器の入力にルーティングする必要がある。このルーティングには、３２ビット対８ビットへのクロスバーのような相互接続が必要である。乗算器列が４つあるため、そのようなクロスバーが４つ必要になり、面積とエネルギーのコストが大幅に増加する。乗算器グリッドに８×８乗算器がある場合、６４ビット対８ビットクロスバーが必要になる。

【0065】

システム１００は、有利なことに、複雑性及びコストがはるかに少ないアプローチを実行することができる。一実施形態では、値は、乗算器に対応するｈｉｌｅｒａと呼ばれる４つのグループのうちの１つに属するものとして扱うことができ、各ＢＢｌｏｃｋの最初の値はｈｉｌｅｒａ０に属し、２番目の値はｈｉｌｅｒａ１に属し、以下同様である。図８Ｂのアプローチはこのマッピングを破り、圧縮された値がｈｉｌｅｒａ間を自由に流れることを可能にする。

【0066】

代わりに、システム１００は、図８Ｃの図に例示されているように、値をそれらの元のｈｉｌｅｒａ内にとどまるように制限する。この例では、Ｉ_０とＩ_４がバッファの最初の８ビットにマップされたｈｉｌｅｒａにまとめてパックされているのに対し、Ｉ_３とＩ_７は、最後の８ビットにマッピングされたｈｉｌｅｒａにパックされていることを示す。類似性を示すために、値は、そのｈｉｌｅｒａを埋めるためのｂｏｖｅｄｉｌｌａ（レンガ）として使用される。この例で必要な「クロスバー」は８ビット対８ビットになり、そのサイズは最大データ幅のみに依存し、サイクルごとに読み取られる値の数には依存しない。８×８乗算器グリッドには、８つの６４ビット対８ビットクロスバーの代わりに８つの８ビット対８ビットクロスバーが必要である。

【0067】

図９Ａは、解凍モジュール１２２の一例の図を示す。解凍モジュール１２２は、サイクルごとに単一の値を解凍し、２つの行にまたがるそれらの値を適切に処理する。図示の解凍モジュール１２２は１つの解凍ブロックを示しているが、図８Ｃの例で続けると、解凍モジュール１２２の４つの解凍ブロックが並行して動作し、サイクルごとに４つのｉｍａｐ値を解凍する。ｉｍａｐバッファからの読み取りは、３２ビット幅のままである。各読み取りから、各ブロックはそのｈｉｌｅｒａに対応する８ビットを受け取る。各ブロック内で、２つの８ビットレジスタＬとレジスタＲが圧縮されたデータを保持する。８ビットの新しいセットが読み込まれるたびに、それがレジスタＬに書き込まれると同時に、レジスタＬの現在の内容がレジスタＲに「コピー」される。場合によっては、レジスタＬをレジスタＲに物理的にコピーするのではなく、ビットポインタ２つを「交換」するために使用できる。定常状態では、レジスタＬとレジスタＲには、ｉｍａｐバッファの１つのｈｉｌｅｒａからの２つの連続する行が含まれるため、幅に関係なく８ビット値を解凍するために必要なすべてのビットが含まれる。１６ビット対８ビットのシフタは、レジスタＬとレジスタＲの出力を連結することによって形成された値から現在の値を抽出する。この１６ビットの例では、シフタは、最大７桁左への、３ビットの「オフセット」レジスタ（「ＯＦＳ」）で指定されるシフトをサポートする必要しかない。３ビットのレジスタ（「Ｗ」）は、現在のＢＢｌｏｃｋのデータ幅を保持する。ＯＦＳとＷ、及び関連する制御ロジックは、４つの解凍ブロックすべてで共有できる。最初、この例ではＯＦＳ＝０とＷ＝７であり、両方とも最大データ幅に対応する。「Ｂｉｔ－Ｅｘｔｅｎｄ」ブロックは、シフタの出力からＷ個の最下位ビットを渡し、それらを８ビットに符号拡張する。圧縮ブロックは２段階のパイプラインとして動作することができ、第１の段階でレジスタＬとレジスタＲに値をロードし、第２の段階でレジスタＬとレジスタＲの内容から次の解凍された８ビット値を抽出する。この例では、解凍ブロックは、最初の乗算器劣がＩ_０及びＩ_４を解凍するために、合計で３サイクルを必要とする（開始間隔には追加のサイクルが必要である）。定常状態では、解凍ブロックはサイクルごとに値を出力できる。

【0068】

図９Ｂ及び９Ｃは、解凍モジュール１２２の上記の例についてのサイクル２及び３の例を示す。サイクル１で、ｉｍａｐバッファは入力データストリーム０１１０１１００の８ビットの最初のセットを提供し、それがレジスタＬに書き込まれる。同時に、Ｗは幅メモリからＢＢｌｏｃｋ０のデータ幅１０１でロードされる。ＯＦＳはＯＦＳ＝（ＯＦＳ＋Ｗ＋１）ｍｏｄ８＝０に更新される。ＯＦＳ＋Ｗ＋１が８を超えたので（加算器からの桁上がり）、レジスタＲには有用なビットが含まれていないため、レジスタＬと、レジスタＲの位置がサイクル１の終わりにスワップされ、次のサイクルでｉｍａｐバッファからの読み取りがトリガーされる。サイクル２では、図９Ｂに示されているように、解凍ブロックは次の８ビットを読み込み、サイクルの終わりにそれらをレジスタＬにコピーする。ここで、レジスタＬとレジスタＲには、同じｈｉｌｅｒａからの圧縮された値の２つの連続する行が含まれ、したがって、現在は定常状態にある。サイクル２中に、ＯＦＳが０であるため、（レジスタＬ、レジスタＲ）の１６ビット出力が０だけシフトされ、したがって、圧縮されたＩ_０の最下位ビットを出力の最下位ビットに整列する。ビット拡張ブロックは、Ｗのガイダンスに従って、下位６ビットを渡し、それに応じて上位２ビットを埋める。この例では、このｉｍａｐは正の値しか持たないことがわかっているため、値を８ビットにゼロ拡張する。層が符号付きｉｍａｐ値を有していた場合、エクステンダブロックは代わりに符号拡張する。その結果、値００１０１１００、元のＩ_０が乗算器に送信される。ＯＦＳは以前のように更新される：ＯＦＳ＝（０＋５＋１）ｍｏｄ８＝６。これは８を超えないため、システムは次のサイクルでｉｍａｐバッファから値を読み取らない。サイクルの終わりまでに、新しい幅フィールドがＷに読み込まれる。これは、ＢＢｌｏｃｋ１の幅である。サイクル３において、図９Ｃが示すように、ＯＦＳは、シフタに（レジスタＬ、レジスタＲ）を６桁だけスライドさせるように命令するために使用される。Ｗは１００で８ビットにゼロ拡張されるため、エクステンダブロックは５つの最下位ビットを渡す。次に、ＯＦＳを（６＋４＋１）ｍｏｄ８に更新できる。これは８を超えるため、レジスタＬとレジスタＲがスワップされ、次のサイクルで次のｉｍａｐ行がＬにロードされる。

【0069】

層のすべてのチャネルのｉｍａｐ値とｆｍａｐ値が処理されると、アキュムレータに出力マップが含まれる。ほとんどの場合、ＳＣＮＮはこれらの値を読み取り、アクティベーション関数に渡し、ゼロの値を削除し、残りをｏｍａｐバッファにコピーする（場合によっては、ｏｍａｐバッファが次の層用のｉｍａｐバッファになるようにポインタを交換する）。システム１００は、ゼロ圧縮の出力を使用する。ＢＢｌｏｃｋごとの値の数は、ユーザ及び／または設計者が選択できる。図１０Ｂは、本実施形態による、サイクルごとに４つの入力値を処理し、Ｂブロックサイズが４である圧縮モジュール１２４の圧縮ブロックの例を示す。

【0070】

図１０Ａは、圧縮モジュール１２４の一例が、（１）幅検出器、（２）４つのコンパクタユニット（ＣＵ）、及び（３）３２ビット出力レジスタの３つの主要構成要素を含むことができることを示す。圧縮モジュールは、サイクルごとに４つの８ビット値を読み取り、それらをＢＢｌｏｃｋにエンコードして出力レジスタに格納する。レジスタの３２ビットがすべて埋められると、それをｏｍａｐバッファに送信する。サイクルごとに完全な行を生成できる。場合によっては、バッファ行をより遅いペースで出力することができ、これは、圧縮によって行ごとにより多くの値をパックできるためである。このため、ｉｍａｐバッファにコピーする必要があるビット数が少なくなり、エネルギーを節約できる。

【0071】

幅検出器モジュール１２６は、最大の大きさの値を収容するのに必要なビット幅を識別する。例えば、値が正であると想定される場合（ＲｅＬＵを使用する場合）、幅検出器モジュール１２６は最初に８つの信号を生成し、ビットプレーンごとに１つが、４つの値にまたがるすべての対応するビットのＯＲである。次に、８つの信号は、すべての値の中で１である最上位ビットを識別するリーディング１検出器モジュールを通過する。これは、ＢＢｌｏｃｋが必要とする幅である。層に符号付きの値があり得る場合、それらはリーディング１検出器の前で反転できる（負の数の場合、検出器は最上位ビットがゼロかどうかを判断する）。この場合の幅には、符号用にもう１ビット必要である。マップが負の数であり得るかどうかは静的にわかる。検出された幅は、幅バッファに書き込むことができる。したがって、負の値を含む可能性のあるデータ値については、値は、この符号ビットの値に基づいて、アンパック後に値を符号拡張することができる。正の値は最上位位置にゼロビットを追加して全幅に拡張できるが、１の符号ビットによって決定される負の値は、値１のビットを使用して拡張できる。

【0072】

図１０Ｂは、解凍モジュール１２２をほぼ反映する圧縮モジュール１２４の圧縮ブロックの構造を示す。場合によっては、ｈｉｌｅｒａごとに１つの圧縮ブロックが存在し得る。レジスタＬとレジスタＲは、ｈｉｌｅｒａの現在の行と次の行を保持する。圧縮ブロックはサイクルごとに値を処理する。その幅（検出器）の最下位ビットを抽出し、「シフト及びマスク」ブロックを介して、それらを適切な位置でレジスタＲに格納する。値がレジスタＲで現在未使用のままになっているビットよりも多くのビットを必要とする場合、残りのビットはレジスタＬに書き込まれる。レジスタＲがいっぱいになると、それが出力行レジスタ（構成要素（３））にコピーされ、２つのレジスタは単一ビットポインタ（図示せず）を使用してスワップされる。３ビット継続レジスタは、どのビット位置でレジスタＲを満たすのを継続するかを指定する。シフト及びマスクブロックには、８ビット対１６ビットのシフタが含まれており、右に最大７桁のシフトをサポートする必要がある。ほとんどの場合、システムが７ビットを超えてシフトする必要はない。これは、レジスタＲに空きビットが残っておらず、書き出されてしまうことを意味するためである。

【0073】

場合によっては、ＳＣＮＮは値をＮ．ＳａｍｐｌｅｓＣｈａｎｎｅｌ－Ｈｅｉｇｈｔ－Ｗｉｄｔｈ（ＮＣＨＷ）の順序で格納できる。このように、ＳＣＮＮはオンチップバッファのサイズを調整して、層ごとのｉｍａｐとｏｍａｐがオンチップバッファに収まるようにし、オフチップからチャネル順にｆｍａｐを読み取る。複数のタイルがある場合、各ｉｍａｐチャネルは同じサイズの部分でタイルにマップされ、ｆｍａｐがブロードキャストされる。各タイルに割り当てられるｉｍａｐの部分は、層の次元のみに依存する。しかしながら、ＳＣＮＮはゼロ圧縮を使用するため、各部分に含まれるｉｍａｐ値の数は異なる。システム１００は、データをさらに圧縮するために使用できる圧縮のためにこれらの特性を使用することができる。処理はそれでもｉｍａｐバッファの先頭から開始できる。層の出力に値が書き込まれると、値はローカルｏｍａｐバッファの最初の位置から配置される（各層のＳＣＮＮはｉｍａｐをｏｍａｐと交換し、前の層のｏｍａｐが次の層のｉｍａｐになるようにする）。

【0074】

ＳＣＮＮと共に動作するＤＬモジュール１２８は、最初にｆｍａｐチャネルを格納し、すべてのｆｍａｐの値を一緒にパックし、最初にｆｍａｐ０、チャネル０の値、次にｆｍａｐ１、チャネル０の値、というように続く。処理中、タイルはチャネル０のすべてのｆｍａｐ値を循環し、次にチャネル１のすべてを循環する、などである。ＤＬモジュール１２８は、ｆｍａｐの次元とカウントが静的に知られているので、各チャネルの終わりにいつ到達するかを決定でき、処理した値の数とスキップしたゼロの数を数えることができる。

【0075】

ＳＣＮＮは、値ごとのスキップフィールドを使用してゼロを削除する。スキップフィールドはタイルの制御ロジックでのみ使用されるため（例えば、値の元の位置を決定するため）、それらをデータパスの近くではなく、制御ロジックの隣の別の構造に格納する方がよい場合がある。ＤＬモジュール１２８は、このバッファを拡張して、ＢＢｌｏｃｋごとの幅フィールドも格納する。一例では、３ビット及び８ビットの値のスキップフィールドが想定される場合、幅フィールドにはＢＢｌｏｃｋごとに３ビットのオーバーヘッド、または４つの値のＢＢｌｏｃｋが使用される場合は７％未満のビット単位のオーバーヘッドが必要である。８つの値のＢＢｌｏｃｋのオーバーヘッドは半分になる。

【0076】

図１１Ａは、高密度モデルを対象とするデータ並列アクセラレータで使用されるシステム１００の例を示す（すなわち、パフォーマンスを改善するためにスパース性を利用しない）。アクセラレータには、オフチップアクセスを回避するためのグローバルバッファと、処理要素（ＰＥ）のグリッドがある。図１１Ｂの例に示されるＰＥはサイクルごとに１６個の（ｉｍａｐ、ｆｍａｐ）値ペアを処理することができ、すべて同じｏｍａｐに累積される。各ＰＥには、独自のローカルｉｍａｐ、ｆｍａｐ、及びｏｍａｐバッファがある。必要に応じて、変換ブロックは、最初にオフチップから読み取った値を使用可能な形式に変換してから、それらをグローバルオンチップバッファに書き込む（逆も同様）。ＰＥのローカルバッファは、グローバルバッファから値を読み取り、その時点で解凍される。Ｏｍａｐ値は、グローバルバッファに書き込む前に圧縮される。幅フィールドは、グローバルバッファの別のバンク及びアドレス空間に格納される。

【0077】

単なるＳＣＮＮ実装と比較すると、有利な違いがある。これは、例えば、一部は様々なデータフローのセットをサポートする必要性と、一部は主に高密度のモデルをサポートする必要性に起因する。モデルでは、（ａ）オンチップ実装はゼロ圧縮を実装せず、（ｂ）データフローの多様なセットをサポートするには、様々なレベルでｉｍａｐ及びｆｍａｐへのアクセスをブロックするためのサポートが必要であり、したがって、データフローの必要に応じて、各再利用ブロックの開始点を見つけることができる。

【0078】

ゼロ圧縮以外の他のデータフローをサポートするには、システム１００がメモリへの値のマッピングを変更するため、追加のサポートが必要である。すべての値が同じ長さである場合、システム１００は、ｉｍａｐ、ｆｍａｐ、及びｏｍａｐ内の任意の値に直接インデックスを付けることができる。システム１００はこれらの値を圧縮するので、メモリ内のそれらの位置は内容に依存するようになる。ポインタモジュール１３０は、ポインタを使用して、選択されたデータフローのブロッキング方式をサポートすることができる。一般に、必要なポインタはわずかであり、データがオンチップまたはオフチップで圧縮されるときに、明示的に格納する必要があるポインタはごくわずかである。ほとんどのポインタは、処理中にタイムリーに生成でき、一度使用すると破棄できる。これが可能となる理由は、（ａ）データフローは再利用を最大化するためにブロッキングを使用し、（ｂ）データフローに従って処理が進むにつれて、システム１００は、次に処理される再利用ブロックの開始位置に自然に遭遇するからである。このアプローチについては、最初に全結合層のコンテキストで説明し、次に畳み込み層について説明する。任意の適切な層タイプに適用できることが理解される。

【0079】

ほとんどの場合、全結合層は１つのｉｍａｐとＫ個のｆｍａｐを入力として受け取り、ｆｍａｐと同じ数の要素を持つｏｍａｐを生成する。ｉｍａｐとｆｍａｐはすべて同じ数の要素Ｃを有している。Ｋ個のｏｍａｐ要素のそれぞれは、ｉｍａｐとｆｍａｐの１つとの内積である。システムは、オンチップからのｉｍａｐ再利用アクセスを利用できる。説明の目的で、ＰＥが１つだけのアクセラレータを考えてみる。ｉｍａｐがオンチップに収まる場合、オフチップから一度ｉｍａｐを読み取ってから、ｆｍａｐを循環させることができる。この場合、ｉｍａｐと各ｆｍａｐへのアクセスはシーケンシャルになる。ｉｍａｐが大きすぎてオンチップに収まらない場合、システム１００はブロッキングを使用でき、このブロックでは、システムがｆｍａｐの対応する部分を循環している間、いつでもｉｍａｐの一部（再利用ブロック）のみがオンチップにロードされる。結果として得られるオンチップのアクセスパターンは、再利用ブロックごとに連続したままになる。システム１００が現在のｉｍａｐ再利用ブロックの処理を完了すると、次のｉｍａｐ再利用ブロックに移ることができる。したがって、全結合層の場合、システム１００は、一般に、ｉｍａｐまたはｆｍａｐの比較的長いブロックへの順次アクセスをサポートするだけでよい。値が圧縮されていない場合、各再利用ブロックの開始位置は、ブロックのサイズとその相対位置の線形関数になる。ほとんどの場合、これらの位置は値の内容に依存する。アクセスパターンはシーケンシャルであるため、ＤＬモジュール１２８は、データフローによって要求されるように、順番に各再使用ブロックの開始に到達する。したがって、ほとんどの場合、ポインタモジュール１３０は、ｆｍａｐごとに、かつｉｍａｐに対して単一のアクセスポインタを維持するだけでよい。複数のＰＥがある場合、マップは、ＤＬモジュール１２８が同時に処理できるより小さい再使用ブロックに分割することができる。次に、システム１００は、同時に処理する必要がある再使用ブロックの数と同数のポインタを必要とし、これは層の追加のメタデータとして格納することができる。

【0080】

Ｎ．Ｓａｍｐｌｅｓ－Ｈｅｉｇｈｔ－Ｗｉｄｔｈ－Ｃｈａｎｎｅｌ（ＮＨＷＣ）メモリマッピングを使用して、畳み込み層のデータの局所性を高めることができる。全結合層と比較して、畳み込み層の追加の課題は、複数の、しばしば重複するウィンドウへのアクセスを開始できる必要があることである。一般性を失うことなく、各ウィンドウがチャネル、幅、高さの順序で処理される、チャネル優先の出力定常データフローを考えてみる。列という用語は、同じ（幅、高さ）座標を持つすべてのｉｍａｐ値を参照するために使用できる。単一のｏｍａｐを決定するために、データフローは列内の値に順次アクセスしてから、幅と高さの順に他の列にアクセスできる。Ｂｏｖｅｄａは、ＮＨＷＣマッピングに従って、各列に沿って値をＢＢｌｏｃｋに順次グループ化できる。

【0081】

システム１００の技術的課題は、各列の開始位置が一般にもはやその（幅、高さ）座標の線形関数ではなくなることである。単純な解決策は、各列（第１のチャネルの２Ｄ座標）へのポインタを保持することである。これは過剰であり、なぜなら、（ａ）いくつかのウィンドウの処理中に各列が必要であり（例えば、３×３のｆｍａｐの場合、各列は９回アクセスされる）、（ｂ）ウィンドウは通常オーバーラップするため、各列の開始位置が前のウィンドウの処理中に検出されるからである。したがって、ポインタモジュール１３０は、処理中に残りを「復元」して必要な期間だけ保持しながら、メタデータとして明示的に格納されるポインタの数を減らす。ｉｍａｐに沿って格納する必要があるポインタの数は、ｉｍａｐとｆｍａｐの次元、及びウィンドウの数に依存する。一例では、

【数2】

を使用できる。ここで、Ｈ、Ｓ、及びウィンドウはそれぞれ、ｉｍａｐ行、ｆｍａｐ行、及び同時に処理するウィンドウの最大数である。オンチップ処理では、ほとんどの場合、２セットのレジスタが必要である。１つは現在のポイントのセットを保持するためのもので、もう１つは次のセットを「復元」するためのものである。例えば、２３０×２３０のｉｍａｐと３×３のｆｍａｐを持つ層の場合、約７００個のポインタを格納するだけで、２００個を超えるウィンドウを並行して処理できる。各ｆｍａｐはウィンドウごとに１回読み取られるので、ポインタモジュール１３０も、ｆｍａｐごとにポインタを保持することができる。オーバーヘッドは小さく、深さ方向に分離可能な畳み込みを除いて、最小のフィルタでさえ幅と高さが３×３で、数十チャネルの深さである。場合によっては、絶対ポインタを格納するのではなく、ポインタモジュール１３０は、ベースアドレス及び他のすべてのポインタをオフセットとして格納することができる。

【0082】

高いＰＥ使用率に必要なだけ広い範囲で読み取りを実行する機能を維持するために、一部のＢＢｌｏｃｋの開始位置を制限して、オンチップメモリ内の行に整列するようにできる。場合によっては、すべてのｆｍａｐ及びｉｍａｐのすべてのＳ列（Ｓはストライド）の最初の値を、メモリ行の先頭に整列されるように制限できる。したがって、パディングが必要になる場合がある。しかしながら、このパディングは、有効な圧縮率を最小限に抑えるため、値を圧縮しない場合と比較してフットプリントを増加させない。

【0083】

システム１００は、深さ方向の個別の畳み込みやプーリングなど、他の層に適用できる。各ＢＢｌｏｃｋは並列にデコードできるので、システム１００は、並列処理を並列に開始するために、並列処理×ブロックサイズのポインタを格納する必要がある場合がある。

【0084】

ポインタのオーバーヘッドの削減に加えて、システム１００はグループのオーバーヘッドも削減することができる。元の設計では、値のｌｏｇ２（ビット幅）ビットを使用してＢＢｌｏｃｋサイズを格納するが、ＢＢｌｏｃｋサイズの値が繰り返される傾向があるという観察結果から、これをさらに減らすことができる。システム１００は、ＢＢｌｏｃｋごとに余分なビットを使用して、ＢＢｌｏｃｋのサイズが前のものと同じかどうかを検出できる。その場合、メモリから新しいサイズを読み取る必要はない。したがって、新しいＢＢｌｏｃｋサイズには１ビット＋ｌｏｇ２（ビット幅）ビットのオーバーヘッドがあり、繰り返されるサイズは１ビットのオーバーヘッドになる。

【0085】

有利には、様々な実施形態において、システム１００は推論を対象とすることができ、無損失かつ透過性である。すべての値の予想される分布に依存することができ、スパース性の恩恵を受けるが、それを必要としない。

【0086】

一部のニューラルネットワークは、値の空間相関を示し、これにより、同様の大きさを有する同じＢＢｌｏｃｋ内の値になる。このような場合、格納する必要があるデータの量を減らすために、この値に対して関数を実行すると有利である。例えば、最初にすべての値を共通のバイアス値との差として表すことが有利な場合がある。バイアスに対する適切な選択は、例えば、ＢＢｌｏｃｋ内の最大値または定数である。差が元の値よりもはるかに小さい場合、このアプローチにより、パックされた値ごとに使用されるビット数が少なくなる。バイアスは、追加のオプションフィールドに保存できる。差分以外の関数を使用する場合がある。

【0087】

一部のニューラルネットワークでは、数値の浮動小数点表現が使用される。この表現はトリプレット（符号、指数、仮数）を使用する。例えば、一般的な表現では、符号が１ビット、指数が８ビット、仮数が２３ビットの３２ビットを使用する。この方法を使用して、バイアスを除去した後、指数の長さを動的に調整できる。例えば、指数がそれぞれＥａ、Ｅｂ、Ｅｃ、及びＥｄである４つの浮動小数点値（ａ、ｂ、ｃ、ｄ）のブロックの場合、エンコードされたブロックは代わりに（Ｅａ－バイアス、Ｅｂ－Ｅａ、Ｅｃ－Ｅａ、Ｅｃ－Ｅｄ）を格納できる。この場合の幅フィールドは、エンコードされたブロック内の値の最大値を表すために必要なビット数をエンコードする。バイアスは、浮動小数点標準によって定義された定数である。復号後の加算器のセットは、復号された（Ｅａ－バイアス、Ｅｂ－Ｅａ、Ｅｃ－Ｅａ、Ｅｃ－Ｅｄ）の後に元のブロック（Ｅａ、Ｅｂ、Ｅｃ、Ｅｄ）を復元できる。圧縮中、圧縮ユニットの前の減算器は、元の（Ｅａ、Ｅｂ、Ｅｃ、Ｅｄ）とバイアスを与えられて（Ｅａ－バイアス、Ｅｂ－Ｅａ、Ｅｃ－Ｅａ、Ｅｃ－Ｅｄ）を計算できる。オプションで、追加の幅フィールドを必要とせずに、グローバル共通幅を使用して仮数を格納できる。

【0088】

ＥｆｆｉｃｉｅｎｔＩｎｆｅｒｅｎｃｅＥｎｇｉｎｅ（ＥＩＥ）などの他のアプローチでは、深層圧縮を使用して、全結合層のｆｍａｐサイズを大幅に削減する。深層圧縮は、ｆｍａｐを変更して限られた値のセット（例えば、１６）を使用し、ハフマン符号化とルックアップテーブルを使用して実行時に値をデコードするため、非常に特殊化されている。対照的に、このシステムは「すぐに使える」ニューラルネットワークで動作できる。

【0089】

ＤＭＡの圧縮などの他のアプローチでは、ブロックごとのビットベクトル使用を用いて、オフチップのゼロ値を削除できる。対照的に、様々な実施形態では、システムは、オンチップ圧縮及びすべての値を対象とすることができる。ＥｘｔｅｎｄｅｄＢｉｔＰｌａｎｅＣｏｍｐｒｅｓｓｉｏｎ（ＥＢＰＣ）などの他のアプローチでは、特にプルーニングされたモデルの場合、ゼロ長エンコーディングとビットプレーン圧縮を組み合わせたオフチップ圧縮を使用できる。ＥＢＰＣの解凍モジュールは、８つの８ビット値のブロックごとに８サイクルを必要とする。対照的に、様々な実施形態では、システムは高密度ネットワークとスパースネットワークの両方から利益を得ることができ、サイクルごとにブロックを解凍する。ＳｈａｐｅＳｈｉｆｔｅｒなどの他のアプローチでは、データコンテナを値のコンテンツに適合させ、ゼロビットベクトルを使用するオフチップ圧縮を使用できる。ＳｈａｐｅＳｈｉｆｔｅｒのコンテナは、整列に関係なく、メモリ空間に順次格納される。ブロックごとの解凍は、ブロックごとに一度に値に対して順次実行される。したがって、ＳｈａｐｅＳｈｉｆｔｅｒはオンチップ圧縮には適していない。Ｄｉｆｆｙなどの他のアプローチは、値をデルタとして格納することでＳｈａｐｅＳｈｉｆｔｅｒを拡張する。Ｄｉｆｆｙは、ｉｍａｐ値が高い空間相関を示す計算イメージングニューラルネットワークを対象としている。Ｄｉｆｆｙは、符号化と復号にデルタの計算が必要なため、このシステムの実施形態よりも計算コストが大幅に高くなる。Ｐｒｏｔｅｕｓなどの他のアプローチでは、プロファイルから導出された層ごとのデータ幅を使用して、オンチップ及びオフチップに値を格納できる。したがって、層内の値の偏った分布を利用することはできず、層ごとの最大の大きさがすべての値の幅を決定する。本システムの実施形態は、実質的により細かい粒度でデータ幅を適合させるために使用することができる。

【0090】

図３は、一実施形態による、深層学習ネットワークのためのメモリ圧縮のための方法３００のフローチャートを示す。

【0091】

ブロック３０２で、入力モジュール１２０は、深層学習モデルの１つまたは複数の層によって処理される入力データストリームを受信する。

【0092】

ブロック３０４で、幅検出器モジュール１２６は、最大の大きさを有する入力データストリームからの値を収容するのに必要なビット幅を決定する。

【0093】

ブロック３０６で、圧縮モジュール１２４は、入力データストリームの最下位ビットを第１のメモリストア（レジスタ「Ｒ」など）に格納する。ビット数はビット幅に等しい。値が、現在第１のメモリストアで未使用のままになっているビットよりも多くのビットを必要とする場合、残りのビットは第２のメモリストア（例えば、レジスタ「Ｌ」）に書き込まれる。

【0094】

ブロック３０８で、圧縮モジュール１２４は、第１のメモリストアがいっぱいになると、第１のメモリストアの値を、圧縮されたデータストリームの連続部分として、第１のメモリストア内のデータの関連する幅とともに出力する。圧縮モジュール１２４は、第２のメモリストアの値を第１のメモリストアにコピーする。

【0095】

ブロック３１０で、解凍モジュール１２２は、それぞれの幅を有する圧縮されたデータストリームからデータを受信し、データを第１のメモリストアから第２のメモリストアに移動し、第１のメモリストアは、圧縮されたデータストリームから以前に格納されたデータを含む。

【0096】

ブロック３１２で、解凍モジュール１２２は、圧縮されたデータストリームのそれぞれのビットを、第１のメモリストアの幅に等しい長さを有する第１のメモリストアに格納する。

【0097】

ブロック３１４で、解凍モジュール１２２は、第１のメモリストア及び第２のメモリストア内のデータを連結する。

【0098】

ブロック３１６で、解凍モジュール１２２は連結されたデータを出力し、連結されたデータは、圧縮されたデータストリームから受け取った連結された値の関連する幅に等しい幅を有する。

【0099】

本発明者らは、本実施形態の技術的利点を評価するために実験例を行った。実験例では、実行時間とエネルギーをモデル化するためにカスタムのサイクル精度シミュレータが使用された。シミュレータは、ＤＲＡＭＳｉｍ２を使用してオフチップメモリアクセスをモデル化した。すべてのアクセラレータとハードウェアモジュールはＶｅｒｉｌｏｇで実装され、ＳｙｎｏｐｓｙｓＤｅｓｉｇｎＣｏｍｐｉｌｅｒで合成され、ライセンシーの制約によりＴＳＭＣの６５ｎｍセルライブラリ用にＣａｄｅｎｃｅＩｎｎｏｖｕｓで配置された。電力は、ＭｅｎｔｏｒＧｒａｐｈｉｃｓＭｏｄｅｌＳｉｍによって報告された回路アクティビティを使用して、Ｉｎｎｏｖｕｓを介して推定された。ＣＡＣＴＩを使用して、オンチップメモリの面積と消費電力をモデル化した。すべてのアクセラレータは、オンチップメモリのＣＡＣＴＩ速度推定に一致する１ＧＨｚで動作した。表１に、調査したネットワークモデルと、ｆｍａｐ及びｉｍａｐのフットプリントを示す。ほとんどのモデルは８ビットに量子化された。いくつかのモデルは、より積極的な量子化を使用している。元々、これらのモデルは特殊化されたアーキテクチャと組み合わせて開発された。

【表1】

【0100】

実験例は、本実施形態が方法固有のハードウェアを必要とせずに可能な限り最高のメモリ利益をもたらすことを実証した。これらのモデルには以下が含まれる：
・ＩｎｔｅｌのＩＮＱ。そのｆｍａｐ値は、符号付きの２の１６乗またはゼロに制限されている。重みを大きさとして表すには１６ビットが必要であるが、特殊化されたハードウェアでは５ビットで十分であった。
・ＰＡＣＴ。構成可能な飽和閾値を備えた変更されたＲｅＬＵが必要であり、８ビットを使用した最初と最後の層を除くすべてに４ビットのｉｍａｐとｆｍａｐを使用した。外れ値認識量子化は、個別に処理されたいくつかの大きな値（８ビットの外れ値）を除いて、ほとんどの値（例えば、４ビット）のビット数を積極的に削減した。
・ＩｎｔｅｌのＳｋｉｍＣａｆｆｅリポジトリとＭＩＴのＥｙｅｒｉｓｓグループ（ＳＣＮＮは一般にプルーニングされたモデルに優れているため）。

【0101】

実験例には、１６×１６行に編成された２５６個の処理エンジンを備えた高密度モデルアクセラレータに関してシステムを検証することが含まれていた。各処理エンジンは、８つのＭＡＣＳを並行して実行し、単一の値を生成した。各ＰＥには、６４エントリのｉｍａｐ、ｆｍａｐ、及びｏｍａｐバッファがあった。システムは８つのＢＢｌｏｃｋサイズを使用した。３２バンクのグローバルバッファが処理エンジンを供給した。

【0102】

図１２Ａは、ニューラルネットワーク全体のメモリフットプリントを報告するチャートを示す。フットプリントはビット単位で測定され、図はベースラインに対するシステムのフットプリントを報告している。Ｂｏｖｅｄａはメモリを使用して、ａ）エンコードされた値、ｂ）ＢＢｌｏｃｋ幅ごとのメタデータ、ｃ）メモリ整列によるパディング、ｄ）ポインタを格納する。平均して、システムはフットプリントを４９％に削減する。ＳＳＤ－ＭｏｂｉｌｅＮｅｔとＭｏｂｉｌｅＮｅｔのメリットは１６％と最も少ないが、オフチップアクセスが桁違いに高価であることを考えると、それでもかなりの量である。特殊化された量子化を伴うモデルは、図１２Ａで強調されて理想的なメモリフットプリントを実証しており、ここで、メモリ階層はそれらのために特別に設計された。このシステムは、フットプリントを理想的に可能なものの４％以内に削減する。ＲｅｓＮｅｔ１８－ＰＡＣＴの場合、システムは４ビットハードウェアで可能だったよりもはるかにフットプリントを削減する。これは、システムが実際の値のコンテンツを利用するためである。

【0103】

システムは、オンチップストレージのビットあたりの情報コンテンツを増やす。したがって、処理エンジンがオンチップ階層からフェッチする必要があるデータは少なくなる。図１２Ｂは、トラフィックのこの減少を示すチャートを示す。このシステムがない場合、アクセスはデータを読み取るだけであるが、このシステムがある場合、アクセスはメタデータも読み取ることができる。したがって、ａ）アクセス、及びｂ）転送されたビット、の２つの測定値が示されている。どちらもベースラインに正規化されている。システムは平均で６２％少ない転送を実行し、合計で５０％少ないビットを転送した。予想どおり、アクセスの大部分はｆｍａｐとｉｍａｐに対するものであった。ビットトラフィックの減少は、メタデータによるアクセスの減少よりも小さかった。観測された傾向は、全体的なフットプリントの傾向と同様である。この減少は、エネルギーの節約に直接換算できる。

【0104】

アクセラレータを設計する際の主な設計上の選択肢は、使用するオンチップストレージの量である。オンチップメモリを大きくすると、オフチップからのデータフェッチの頻度が減少する。例えば、ＳＣＮＮのオンチップバッファは、特徴マップをオフチップに流出させる必要がほとんどないようにサイズ設定されている。実験例では、オンチップ容量のサイジングに関する４つのポリシーを調査した。ａ）最大層のｉｍａｐ、ｏｍａｐ及びｆｍａｐ、ｂ）ｉｍａｐからのｆｍａｐ及びウィンドウの完全な行、及びｃ）ｉｍａｐからのウィンドウの完全な行及び処理エンジンごとのｆｍａｐに適合できることである。ポリシー（ａ）では、入力と最終出力のみがオフチップになった。ポリシー（ｂ）では、層ごとに各値がオフチップから１回アクセスされることが保証されていた。ポリシー（ｃ）では、ｉｍａｐとｏｍａｐに対してのみ層ごとに１つのアクセスが保証されていた。また、（ｄ）中間のｉ／ｏｍａｐ値のためにオフチップにならずに複数の層のサブセットを処理する層の融合も考慮された。

【0105】

図１３Ａは、上記の各サイジングポリシーの下で必要とされるオンチップメモリ容量を示すチャートである。容量は、同じポリシーの下でベースラインに正規化された（ポリシーごとに異なる）。全体として、必要なストレージの減少は、圧縮率に密接に連動していた。１つの場合では、第１のポリシー（層全部がオンチップ）を使用したＳＳＤ－ＭｏｂｉｌｅＮｅｔでは減少が不可能であった。システムが全体的なオンチップデータボリュームを削減しなかった単一の層があった。システムによって全体的なモデルトラフィックとフットプリントが削減されたため、それでもエネルギーとパフォーマンスのメリットがあった。使用されたアクセスポリシーに関係なく、システムはアクセラレータがオフチップにならなければならない頻度を減らした。図１３Ｂは、システムあり（実線）及びなし（点線）のモデルごとのオフチップトラフィックを示すチャートを示す。わかりやすくするために、ネットワークのサブセットのみが示されている。可能な場合、すべての値が層ごとに１回アクセスされるように、トラフィックが正規化された。オンチップメモリサイズが増加するにつれて、トラフィックはこの最小値に近づいた。このシステムでは、より小さなオンチップメモリを使用できる。さらに、所与のメモリ容量に対して、システムはオフチップトラフィックを削減する。例えば、ＳｅｇＮｅｔの場合、５１２ＫＢのオンチップストレージでも、本システムを使用せずに最小限のトラフィックを達成するには不十分であった。３２ＫＢのオンチップストレージを使用すると、システムはオフチップトラフィックをＲｅｓＮｅｔ１８で３．８倍（値を１回読み取る場合に対して、システムありのトラフィックでは１．４８倍、システム無しでは５．６６倍）、ＲｅｓＮｅｔ５０ＳＯＡで２．６倍削減する。

【0106】

実験例では、９６ＫＢ、１９２ＫＢ、及び２５６ＫＢのオンチップグローバルバッファを使用した３つの構成のパフォーマンスを測定した。すべて、ＤＤＲ４－３２００デュアルチャネルオフチップメモリを使用した。図１４Ａは、９６ＫＢのグローバルバッファでベースラインに対して正規化されたスピードアップを示すチャートを示している。このシステムは、パフォーマンスを平均でそれぞれ１．４倍、１．２倍、１．１倍改善させる。改善は、畳み込み層がかなり大きく、システムがデータをかなり圧縮するＳｅｇＮｅｔで最高である。このシステムの利点は、ＭｏｂｉｌｅＮｅｔＶ２－ＯＡ、ＭｏｂｉｌｅＮｅｔ、及びＲｅｓＮｅｔ１８－ＩＮＱについても顕著であり、システムはいくつかの層でチップからの流出を回避することができる。システムのオンチップ階層は、ベースラインのピーク実行帯域幅を維持できるため、システムのパフォーマンス上の利点は、オフチップトラフィックの削減から得られる。図１４Ａはまた、同じメモリ構成の相対エネルギーを示している。システムは、９６ＫＢ、１９２ＫＢ、及び２５６ＫＢ構成で、それぞれ平均２８％、１６％、及び１０％のエネルギーを節約する。これらの利点は、オフチップ及びオンチップのトラフィックが少ないためである。オンチップ容量が増加すると、オフチップアクセスが減少し、それらの全体的なエネルギーコストも減少する。

【0107】

表２は、圧縮と解凍の面積と電力を示している。幅検出器モジュール１２６は、ＢＢｌｏｃｋごとに共有される。９６ＫＢ、１９２ＫＢ、及び２５６ＫＢのオンチップ構成の合計面積オーバーヘッドは、６．７％、３．８％、及び３．２％である。しかしながら、この面積がベースライン用の追加メモリに費やされた場合でも、システムは平均で１．２９倍、１．１５倍、及び１．１倍高速であり、ベースライン用のオンチップアクセスの費用はわずかなので、エネルギー効率がわずかに高くなる。

【表2】

【0108】

ＳＣＮＮは、オンチップ及びオフチップでゼロ圧縮を使用した。１６ビットネットワークの場合、ＳＣＮＮは４ビットゼロスキップインデックスを使用した。実験例では、システムは８ビットネットワークの代わりに３ビットインデックスを使用して、メタデータのオーバーヘッドを削減した。そうしても、除去されるゼロの数には影響しないことがわかった。この場合、システムはゼロスキップインデックスを圧縮しない。図１４Ｂは、ＳＣＮＮのゼロ圧縮を超えるシステムを使用したモデル全体のフットプリントの削減を示すチャートを示す。このシステムは、ゼロ圧縮に比べてメモリフットプリントを平均３４％削減する。ＳＣＮＮは通常、ＡｌｅｘＮｅｔ及びＧｏｏｇＬｅＮｅｔのすべてのｉｍａｐオンチップに適合するようにオンチップメモリのサイズを設定する。この構成により、ＲｅｓＮｅｔ５０などのより大規模なネットワークがオフチップにデータを流出させる。さらに、アキュムレータのサイズによって、結果としてｏｍａｐ値の数と同時実行フィルタの数が制限される。オンチップのストレージ容量を増幅することにより、システムは流出を減らす。これらの影響は、ＰＥｉｍａｐ／アキュムレータごとに３つの異なる構成、ＳＣＮＮのような１０ＫＢ／６ＫＢ、４ＫＢ／４ＫＢ、及び２ＫＢ／２ＫＢで調査された。オフチップメモリは、ＤＤＲ４－３２００の２つのチャネルを使用した。これらの構成の面積オーバーヘッドは、ＳＣＮＮ１６ビットでそれぞれ３．１％、２．３％、１．８％であった。ＳＣＮＮ８ビットではオーバーヘッドはより小さくなる。

【0109】

図１５Ａは、本システムの実施形態を使用する場合と使用しない場合の２ＫＢ／２ＫＢ構成に対するスピードアップを示すチャートを示す。２ＫＢ／２ＫＢ構成では、システムのパフォーマンスが２９％改善した。最近のＲｅｓＮｅｔ５０モデルでは、そのｉｍａｐが大きいため、システムによる改善がより顕著であった。１０ＫＢ／６ＫＢでは、システムのパフォーマンスが１５％改善した。図１５Ａは、エネルギーが、３つの構成についてそれぞれ平均で２６％、２４％、及び２０％減少することを示している。実験例は、システムが常にエネルギーを削減したことを示している。ＧｏｏｇＬｅＮｅｔやＲｅｓＮｅｔ５０などの計算バウンドモデルでは、オンチップトラフィックが全体のエネルギーのより高い割合を占めるため、より多くの利点が見られた。

【0110】

実験例では、システムが第１世代のテンソル処理ユニット（ＴＰＵ）にもメリットをもたらし得ることが実証された。ＴＰＵには２８ＭＢのオンチップｉｍａｐメモリが組み込まれ、重み固定データフローを使用してオフチップＤＲＡＭからｆｍａｐをストリーミングした。２５６×２５６×８ビットシストリックアレイがｏｍａｐを計算した。ＦｍａｐはＤＲＡＭで圧縮されたままにされ、オンチップバッファはシストリックアレイの直前でそれらを解凍した。同様に、ｉｍａｐはオンチップＤＲＡＭで圧縮されたままになり、シストリックデータセットアップユニットによって解凍される。図１６Ａは、１６のＢＢｌｏｃｋについてシステムを有する場合と有しない場合のＴＰＵのメモリエネルギー内訳を示すチャートである。ＴＰＵ上のシステムは０．１％未満の無視できる面積オーバーヘッドであった。

【0111】

最初にモデルは１６ビットの固定小数点を使用したが、現在では多くのモデルで８ビットが標準になっている。より広範なモデルセット全体で狭いデータ型に対するシステムの潜在的な有効性をさらに調査するために、実験例では、既存の８ビット層をより少ないビット数にスケーリングすることで合成６ビット、４ビット、及び３ビットネットワークを生成するとともに、値の元の相対分布（線形量子化）を維持した。図１６Ｂは、８のＢＢｌｏｃｋで圧縮されたこれらの層の代表的なサブセットに対する理想的な圧縮率を示すチャートである。結果は、システムが４ビット層に対して依然として有効であることを示している。３ビット層の場合、時には、システムがフットプリントを縮小できないか、拡げてしまう場合があるが、一般的にはそれでも計算上の利点がある。

【0112】

一般に、システムの圧縮率は値の分布に依存し、次の式で与えられる。

【数3】

ここで、Ｂｍａｘは最大ビット長、Ｐ（Ｘ）は値の分布によって特定のビット長になる確率、Ｂｍｉｎは、符号付きの値の場合は２、それ以外の場合は１である。符号付きの値の場合、最大圧縮率はＰ（Ｘ＝２）＝１のときに達成される。３ビットでグループサイズが８の場合、最大圧縮率は２５％に制限され、４ビットでは４３．７５％に制限される。上記の式は、データフロー、アクセラレータ、層の次元に依存するパディングとポインタのオーバーヘッドを考慮していない。

【0113】

図１７は、最適化されたＢＢｌｏｃｋサイズのオーバーヘッドに対するフットプリント減少を示すチャートである。平均して、グループの最適化を繰り返すと、ＢＢｌｏｃｋサイズのオーバーヘッドが平均で２８％削減される。ＲｅｓＮｅｔ１８－ＰＡＣＴは、４ビット値のＢＢｌｏｃｋサイズが繰り返される可能性が高いため、５８％で最適な減少となる。

【0114】

図１５Ｂは、汎用システムのためのキャッシュ圧縮スキームである頻出パターン圧縮（ＦＰＣ）及びＢａｓｅ－Ｄｅｌｔａ－Ｉｍｍｅｄｉａｔｅ（ＢΔＩ）のフットプリント減少を示すチャートである。両方とも、他のプロパティに加えて、値の幅をターゲットにしている。ＦＰＣは、プログラマが必要な実際の値の範囲に関係なく３２ビット変数を使用する傾向があるという観察によって動機付けられた。ＦＰＣは、２のべき乗のサイズのコンテナ（４ビットが最小）で値を格納できるかどうかを検出する。それは平均して、フットプリントを１８％削減する。これはほとんどゼロの削除によるものである。Ｂ△Ｉは、プログラム内の値の低ダイナミックレンジを利用する（隣接する値は値が近い傾向がある）。それは６４バイトのチャンクで動作し、バイト粒度で幅を縮小する。これは、ゼロまたは８、４、または２バイトの最初の値からの、４、２、または１バイトの差分として値を表す。すべてのゼロチャンクは、１バイトとメタデータとして表される。このバイト粒度は、ニューラルネットワークには大きすぎる。最善でも、ゼロ値を利用するＲｅｓＮｅｔ５０Ｓ－ＯＡのフットプリントを７％削減するものである。

【0115】

実験例では、Ｂ△Ｉの要素を組み込んだシステムの変形であるシステムＢ△Ｉを評価した。これは、Ｂ△Ｉの値ごとの圧縮方法を適用したが、より小さい粒度においてである。圧縮オプションは、すべてのビットがゼロで、デルタサイズが８ビット、４ビット、及び２ビットであった。これにより、解凍を、並行して、出力に大きなクロスバーを必要とせずに処理できるように、値をｈｉｌｅｒａにパックした。ベースは常に１バイトであるように設定され、ワーキングセットの値は８のＢＢｌｏｃｋに削減された。システムは、Ｂ△Ｉを使用して、幅とポインタのメタデータのオーバーヘッドを無視すれば平均で４４％の圧縮を達成した。これは、Ｂ△Ｉを使用しないでシステムが達成するものに近いものである。しかし、Ｂ△Ｉを使用したシステムでの値の解凍は、かなり複雑で、より多くのエネルギーが必要であった。例えば、ブロックを解凍するには、８つの加算を並行して行う必要があり、さらにそれらすべてにベースをブロードキャストする必要がある。圧縮もより関与しており、最適なものを選択する前に、すべての圧縮の可能性を並行して実行する。Ｂ△Ｉを使用しないシステムは、圧縮率が高く、実装が簡単でもある。

【0116】

さらに、実験例は、値のコンテンツを利用するランレングス符号化及び辞書ベースの圧縮と比較された。ランレングス符号化は８つの値に制限され、辞書テーブルは８エントリに制限され、８ビット値のオーバーヘッドを妨げることを回避した。これらのアプローチは両方とも、本システムと比較すると、達成した圧縮率はより低いが、解凍には高価なクロスバーが必要であった。

【0117】

実験例は、本実施形態が実装が容易であり、ニューラルネットワークのための効果的なオンチップ圧縮技術を提供することを示している。これは有効なオンチップ容量を増やしながら、オンチップトラフィックを削減する。その結果、過剰なオフチップアクセスを回避するために必要なオンチップストレージの量が削減される。さらに、所与のオンチップストレージ構成では、オフチップアクセスが必要になる頻度を減らす。

【0118】

本発明は、特定の実施形態を参照して説明されたが、本明細書に添付の請求項に記載された本発明の趣旨及び範囲から逸脱することなく、それらの様々な変更及び修正が当業者には明白となるであろう。

【図1】