特表2023-534068 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザガバニングカウンシルオブザユニバーシティオブトロントの特許一覧

特表2023-534068スパース性を使用して深層学習ネットワークを加速するためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
9C
9D
9E
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-08-07

(54)【発明の名称】スパース性を使用して深層学習ネットワークを加速するためのシステム及び方法

(51)【国際特許分類】

G06F 17/10 20060101AFI20230731BHJP

G06N 3/048 20230101ALI20230731BHJP

G06N 3/0495 20230101ALI20230731BHJP

【ＦＩ】

G06F17/10 A

G06N3/048

G06N3/0495

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023504015

(86)(22)【出願日】2021-07-16

(85)【翻訳文提出日】2023-03-02

(86)【国際出願番号】 CA2021050989

(87)【国際公開番号】W WO2022016257

(87)【国際公開日】2022-01-27

(31)【優先権主張番号】63/054,498

(32)【優先日】2020-07-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＦＡＣＥＢＯＯＫ

２．ＶＥＲＩＬＯＧ

(71)【出願人】

【識別番号】522443372

【氏名又は名称】ザガバニングカウンシルオブザユニバーシティオブトロント

(74)【代理人】

【識別番号】100114775

【弁理士】

【氏名又は名称】高岡亮一

(74)【代理人】

【識別番号】100121511

【弁理士】

【氏名又は名称】小田直

(74)【代理人】

【識別番号】100202751

【弁理士】

【氏名又は名称】岩堀明代

(74)【代理人】

【識別番号】100208580

【弁理士】

【氏名又は名称】三好玲奈

(74)【代理人】

【識別番号】100191086

【弁理士】

【氏名又は名称】高橋香元

(72)【発明者】

【氏名】マームード，モスタファ

(72)【発明者】

【氏名】モショヴォス，アンドレアス

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056AA04

5B056BB26

5B056BB38

5B056BB71

(57)【要約】

システム及び方法は、スパース性を使用して深層学習ネットワークを加速するためのものである。この方法は、入力テンソル内のどの値が非ゼロであるかを識別するスケジューラにビットベクトルを通信することと、入力テンソルのレーンごとに、どの値が積和（ＭＡＣ）演算のために通信される必要があるかを決定することであって、レーン内の現在の値を通信すること、同じレーン内でその次の値を、そのような値が非ゼロである場合に通信すること、時間内で１つ先のステップからの値を、そのような値が非ゼロである場合に通信すること、及び隣接するレーンからの値を、そのような値が非ゼロである場合に通信すること、のうちの１つのパフォーマンスを指示することを含む、該決定することと、ＭＡＣ演算の値を出力することとを含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

スパース性を使用して処理素子の深層学習ネットワークを加速する方法であって、
複数の入力ストリームのそれぞれから入力テンソルを受信して格納することと、
前記入力テンソル内のどの値が非ゼロであるかを識別するスケジューラにビットベクトルを通信することと、
前記入力テンソルのレーンごとに、どの値が積和（ＭＡＣ）演算のために通信される必要があるかを決定することであって、
前記レーン内の現在の値を通信すること、
前記同じレーン内のその次の値を、そのような値が非ゼロである場合に通信すること、
時間内で１つ先のステップからの値を、そのような値が非ゼロである場合に通信すること、及び
隣接するレーンからの値を、そのような値が非ゼロである場合に通信すること、
のうちの１つのパフォーマンスを指示することを含む、前記決定することと、
前記ＭＡＣ演算のために前記指示された値を通信することと、
前記ＭＡＣ演算の前記値を出力することと、
を含む、前記方法。

【請求項2】

前記処理素子は、複数の他の処理素子と共にタイリングされ、前記複数の入力ストリームのそれぞれから前記入力テンソルを受信して格納することは、前記入力ストリームの同じロウに沿った処理素子が入力を共有することと、前記入力ストリームの同じカラムに沿った処理素子が入力を共有することとを含む、請求項１に記載の方法。

【請求項3】

前記複数の処理ユニットの各処理ユニットは別個のスケジューラを使用する、請求項２に記載の方法。

【請求項4】

前記同じロウに沿った各処理ユニットは共通のスケジューラを使用する、請求項１に記載の方法。

【請求項5】

前記レーンは、前記レーンの最後のレーンが前記レーンの最初のレーンに隣接しているリングに配置されるように処理される、請求項１に記載の方法。

【請求項6】

前記隣接するレーンからの前記値を通信することは、時間内で１つ先のステップから隣接するレーンからの値を、そのような値が非ゼロである場合に通信することを含む、請求項１に記載の方法。

【請求項7】

前記複数の入力ストリームのそれぞれから前記入力テンソルを受信して格納することは、前記入力ストリームのそれぞれを、それぞれのステージングバッファに格納することを含む、請求項１に記載の方法。

【請求項8】

前記ステージングバッファは、前記入力ストリームの現在のステップと、時間内で１つ以上先のステップとを含む、請求項７に記載の方法。

【請求項9】

前記スケジューラは、階層優先度スキームを使用する、請求項１に記載の方法。

【請求項10】

前記階層優先度スキームは、密なスケジュールを含み、前記密なスケジュールは、時間内で次第に先の複数のステップを後に伴い、時間内で次第に先の隣接するレーンの複数のステップを後に伴う、請求項９に記載の方法。

【請求項11】

スパース性を使用して深層学習ネットワークを加速するためのシステムであって、処理素子（ＰＥ）を実行するためにデータメモリと通信する１つ以上の処理ユニットを含み、
各処理素子は、
複数の入力ストリームを受信し、
前記複数の入力ストリームのそれぞれから入力テンソルを受信して格納するためのステージングバッファと、
各ステージングバッファからビットベクトルを受信して、前記入力テンソル内のどの値が非ゼロであるかを識別するためのスケジューラと、を含み、
前記スケジューラは、
前記入力テンソルのレーンごとに、前記スケジューラは積和（ＭＡＣ）演算のためにどの値がＭＡＣユニットに通信される必要があるかを決定し、
前記決定は、
前記レーン内の現在の値を通信すること、
前記同じレーン内のその次の値を、そのような値が非ゼロである場合に通信すること、
時間内で１つ先のステップからの値を、そのような値が非ゼロである場合に通信すること、及び
隣接するレーンからの値を、そのような値が非ゼロである場合に通信すること、
のうちの１つのパフォーマンスを指示することと、
前記ＭＡＣユニットによって前記ＭＡＣ演算を実行して前記ＭＡＣ演算の前記値を出力することと、
を含む、
前記システム。

【請求項12】

前記処理素子は、前記入力ストリームの同じロウに沿った処理素子が入力を共有し、前記入力ストリームの同じカラムに沿った処理素子が入力を共有するタイル型配置に集合的に配置される、請求項１１に記載のシステム。

【請求項13】

各処理ユニットは別個のスケジューラを使用する、請求項１２に記載のシステム。

【請求項14】

前記同じロウに沿った各処理ユニットは共通のスケジューラを使用する、請求項１１に記載のシステム。

【請求項15】

前記レーンは、前記レーンの最後のレーンが前記レーンの最初のレーンに隣接しているリングに配置されるように処理される、請求項１１に記載のシステム。

【請求項16】

前記隣接するレーンからの前記値を通信することは、時間内で１つ先のステップから隣接するレーンからの値を、そのような値が非ゼロである場合に通信することを含む、請求項１１に記載のシステム。

【請求項17】

前記ステージングバッファは、前記入力ストリームの現在のステップと、時間内で１つ以上先のステップとを含む、請求項１１に記載のシステム。

【請求項18】

前記スケジューラは、階層優先度スキームを使用する、請求項１１に記載のシステム。

【請求項19】

前記階層優先度スキームは、密なスケジュールを含み、前記密なスケジュールは、時間内で次第に先の複数のステップを後に伴い、時間内で次第に先の隣接するレーンの複数のステップを後に伴う、請求項１９に記載のシステム。

【請求項20】

前記スケジューラは、各レーンでの値に関連する前記ステージングバッファのそれぞれから２個のビットベクトルを受信し、前記２個のビットベクトルをビット単位でＯＲ演算して、少なくとも１個のゼロがあることを示す出力ビットベクトルを生成し、
前記スケジューラは、前記出力ビットベクトルにおける前記値を使用して、できるだけ多くの前記非ゼロ値が単一ステップ内で処理されるように、レーンごとの移動を選択する、請求項１１に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

以下は、概して深層学習ネットワークに関し、より具体的には、スパース性を使用して深層学習ネットワークを加速するためのシステム及び方法に関する。

【背景技術】

【0002】

以前には、ニューラルネットワークはコモディティサーバ上で数時間以内にトレーニングされることができたが、現代では、最良のニューラルネットワークのトレーニングはエクサスケールクラスの問題になってきている。最先端のニューラルネットワークでは、現実的な時間制限内でトレーニングされることができるように、多くのグラフィックスプロセッサ、またはテンソルプロセッシングユニット（ＴＰＵ）、Ｇａｕｄｉ、ＤａＶｉｎｃｉ、もしくはＣｅｒｅｂｒａｓＣＳ１などの専用アクセラレータが必要になる場合がある。推論中の最良のパフォーマンスまたは精度のために、例えば、ハイパーパラメータ探索を介して、またはより一般的にはネットワークアーキテクチャ検索を介して、ニューラルネットワークを調整すると、トレーニングのコストがさらに悪化する。それらのような高価なコンピューティングリソースを取得する、またはそれらにアクセスするためのコスト以外に、運用コスト及びトレーニングの環境への影響もある。例えば、ユーザ固有の情報及び入力を用いて既存のモデルを洗練するなど、特定の用途では、「エッジ」でのニューラルネットワークのトレーニングが必要になる場合がある。エッジデバイスのトレードオフはデータセンターまたはデスクトップマシンのトレードオフとは異なるが、特定の制約の下で実行時間を短縮し、エネルギー効率を向上させるという必要性は変わらない。

【発明の概要】

【0003】

一態様では、スパース性を使用して処理素子の深層学習ネットワークを加速する方法が提供され、この方法は、複数の入力ストリームのそれぞれから入力テンソルを受信して格納することと、入力テンソル内のどの値が非ゼロであるかを識別するスケジューラにビットベクトルを通信することと、入力テンソルのレーンごとに、積和（ＭＡＣ）演算のためにどの値が通信される必要があるかを決定することであって、レーン内の現在の値を通信すること、同じレーン内のその次の値を、そのような値が非ゼロである場合に通信すること、時間内で１つ先のステップからの値を、そのような値が非ゼロである場合に通信すること、及び隣接するレーンからの値を、そのような値が非ゼロである場合に通信することのうちの１つのパフォーマンスを指示することを含む、決定することと、ＭＡＣ演算のために指示された値を通信することと、ＭＡＣ演算の値を出力することとを含む。

【0004】

この方法の特定の場合には、処理素子は、複数の他の処理素子と共にタイリングされ、複数の入力ストリームのそれぞれから入力テンソルを受信して格納することは、入力ストリームの同じロウに沿った処理素子が入力を共有することと、入力ストリームの同じカラムに沿った処理素子が入力を共有することとを含む。

【0005】

この方法の別の場合には、複数の処理ユニットの各処理ユニットは別個のスケジューラを使用する。

【0006】

この方法のさらに別の場合には、同じロウに沿った各処理ユニットは共通のスケジューラを使用する。

【0007】

この方法のさらに別の場合には、レーンは、レーンの最後のレーンがレーンの最初のレーンに隣接しているリングに配置されるように処理される。

【0008】

この方法のさらに別の場合には、隣接するレーンからの値を通信することは、時間内で１つ先のステップから隣接するレーンからの値を、そのような値が非ゼロである場合に通信することを含む。

【0009】

この方法のさらに別の場合には、複数の入力ストリームのそれぞれから入力テンソルを受信して格納することは、入力ストリームのそれぞれを、それぞれのステージングバッファに格納することを含む。

【0010】

この方法のさらに別の場合には、ステージングバッファは、入力ストリームの現在のステップと、時間内で１つ以上先のステップとを含む。

【0011】

この方法のさらに別の場合には、スケジューラは、階層優先度スキームを使用する。

【0012】

この方法のさらに別の場合には、階層優先度スキームは、密なスケジュールを含み、この密なスケジュールは、時間内で次第に先の複数のステップを後に伴い、時間内で次第に先の隣接するレーンの複数のステップを後に伴う。

【0013】

別の態様では、スパース性を使用して深層学習ネットワークを加速するためのシステムが提供され、このシステムは、処理素子（ＰＥ）を実行するためにデータメモリと通信する１つ以上の処理ユニットを含み、各処理素子は、複数の入力ストリームを受信し、複数の入力ストリームのそれぞれから入力テンソルを受信して格納するためのステージングバッファと、各ステージングバッファからビットベクトルを受信して、入力テンソル内のどの値が非ゼロであるかを識別するためのスケジューラとを含み、このスケジューラは、入力テンソルのレーンごとに、スケジューラは積和（ＭＡＣ）演算のためにどの値がＭＡＣユニットに通信される必要があるかを決定し、この決定は、レーン内の現在の値を通信すること、同じレーン内のその次の値を、そのような値が非ゼロである場合に通信すること、時間内の１つ先のステップからの値を、そのような値が非ゼロである場合に通信すること、及び隣接するレーンからの値を、そのような値が非ゼロである場合に通信すること、のうちの１つのパフォーマンスを指示することと、ＭＡＣユニットによってＭＡＣ演算を実行し、それらＭＡＣ演算の値を出力することとを含む。

【0014】

このシステムの特定の場合には、処理素子は、入力ストリームの同じロウに沿った処理素子が入力を共有し、入力ストリームの同じカラムに沿った処理素子が入力を共有するタイル型配置に集合的に配置される。

【0015】

このシステムの別の場合には、各処理ユニットは別個のスケジューラを使用する。

【0016】

このシステムのさらに別の場合には、同じロウに沿った各処理ユニットは共通のスケジューラを使用する。

【0017】

このシステムのさらに別の場合には、レーンは、レーンの最後のレーンがレーンの最初のレーンに隣接しているリングに配置されるように処理される。

【0018】

このシステムのさらに別の場合には、隣接するレーンからの値を通信することは、時間内で１つ先のステップから隣接するレーンからの値を、そのような値が非ゼロである場合に通信することを含む。

【0019】

このシステムのさらに別の場合には、ステージングバッファは、入力ストリームの現在のステップと、時間内で１つ以上先のステップとを含む。

【0020】

このシステムのさらに別の場合には、スケジューラは、階層優先度スキームを使用する。

【0021】

このシステムのさらに別の場合には、階層優先度スキームは、密なスケジュールを含み、この密なスケジュールは、時間内で次第に先の複数のステップを後に伴い、時間内で次第に先の隣接するレーンの複数のステップを後に伴う。

【0022】

このシステムのさらに別の場合には、スケジューラは、各レーンでの値に関連するステージングバッファのそれぞれから２個のビットベクトルを受信し、２個のビットベクトルをビット単位でＯＲ演算し、少なくとも１つのゼロがあることを示す出力ビットベクトルを生成し、スケジューラは、出力ビットベクトルにおけるそれらの値を使用して、できるだけ多くの非ゼロ値が単一ステップ内で処理されるように、レーンごとの移動を選択する。

【0023】

これら及び他の態様が企図され、本明細書に記載される。前述の概要は、当業者が以下の詳細な説明を理解するのを助けるために、実施形態の代表的な態様を提示していることが理解されるであろう。

【0024】

実施形態のより深い理解が、図面を参照して得られるであろう。

【図面の簡単な説明】

【0025】

【図1】一実施形態による、スパース性を使用して深層学習ネットワークを加速するためのシステムの概略図である。

【図2】図１のシステム及び例示的な動作環境を示す概略図である。

【図3】一実施形態による、スパース性を使用して深層学習ネットワークを加速するための方法のフローチャートである。

【図4】例示的な実験による、モデルごとの３つの演算のそれぞれに対する作業削減のポテンシャルの合計の一例を示すチャートである。

【図5】深層学習ネットワーク（ＤＮＮ）のフォワードパスの一例を示す。

【図6】ＤＮＮのバックワードパスの入力勾配の決定の一例を示す。

【図7】ＤＮＮのバックワードパスの重み勾配の決定の一例を示す。

【図8】ベースライン処理素子の一例を示す。

【図9A】１６個の値対を、無効なものを除去しないで処理するという一例を示す。

【図9B】非ゼロ値が時間と時空間との両方で制限なしに独立して移動することが可能になるアプローチの一例を示す。

【図9C】レーンごとの限定された１セットの値の移動でスパース性を利用する、図１のシステムの一例の図解を示す。

【図9D】図１のシステムの例示的なアプローチについてサイクル１を示す図解である。

【図9E】図１のシステムの例示的なアプローチについてサイクル２を示す図解である。

【図10】図１のシステムの処理素子の例示的な図解を示す。

【図11】レーン１の接続の一例を示す図解である。

【図12】スケジューラの例示的な実装の図解を示す。

【図13】図１のシステムのための２×２タイル構成を有する単純化されたコアを示す。

【図14】それぞれのモデルのＴｅｎｓｏｒｃｏｒｅアーキテクチャに図１のシステムを組み込むことによって達成される高速化を示すチャートである。

【図15】第一エポックから収束までのトレーニング中の図１のシステムによる実行時間の高速化を示す。

【図16】コアロジック及びチップ全体の計算のためのモデルごとのエネルギー効率を示す。

【図17】ベースラインに対して、図１のシステムで消費されたエネルギーを示す。

【図18】タイルごとのロウ数は、カラム数が４に固定されているが、１から最大１６まで変化するにつれて変化する、図１のシステムのパフォーマンスを示す。

【図19】幅１６の処理素子の最上部の上に３深層のステージングバッファを備えた図１のシステムの平均的なパフォーマンスの向上を示す。

【図20】ランダムなスパーステンソルに対する図１のシステムの高速化を示す。

【発明を実施するための形態】

【0026】

ここで、図面を参照して実施形態を説明する。説明を簡単かつ明瞭にするために、適切と考えられる場合、図面間で参照番号を繰り返し使用して、対応する要素または類似の要素を示すことがある。以下の説明では、説明する多様な実施形態の十分な理解を与えるために多数の具体的な詳細を説明する。しかしながら、本明細書において説明されている実施形態がこれらの具体的な詳細なしで実践することができることは、当業者によってよく理解されよう。他の例では、周知の方法、手順、及び構成要素は、本明細書に記載の実施形態を不明確にしないように、詳細には説明されていない。また、この説明は、本明細書に記載された実施形態の範囲を限定するものと見なされるべきではない。

【0027】

命令を実行する本明細書に例示された任意のモジュール、ユニット、構成要素、サーバ、コンピュータ、端末、またはデバイスは、ストレージ媒体、コンピュータストレージ媒体、またはデータストレージデバイス（取り外し可能及び／または取り外し不可能）、例えば、磁気ディスク、光ディスク、またはテープなどのコンピュータ可読媒体を含むかまたはそれにアクセスすることができる。コンピュータストレージ媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装される、揮発性及び不揮発性の、取り外し可能及び取り外し不可能な媒体が含まれ得る。コンピュータストレージ媒体の例は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ‐ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または、所望の情報を記憶するために使用することができ、アプリケーション、モジュール、もしくはその両方によってアクセスできる、任意の他の媒体を含む。そのようなコンピュータストレージ媒体はいずれも、デバイスの一部であってもよいし、デバイスにアクセス可能または接続可能であってもよい。本明細書で説明する任意のアプリケーションまたはモジュールは、そのようなコンピュータ可読媒体によって格納または保持できるコンピュータ可読／実行可能命令を使用して実装することができる。

【0028】

最近では、トレーニングの実行時間及びエネルギーコストを削減する方法に多大な努力が費やされてきた。一例として、分散トレーニングは、モデル、データ、及びパイプラインの並列性を利用することで、トレーニング作業負荷をいくつかのコンピューティングノードにパーティション化し、全体的なレイテンシを短縮させる。ノード内及びノード間のデータのブロッキング、再利用、ならびに通信及び計算の重複を使用して、コンピューティング、メモリ階層、及び通信リソースをオーケストレーションし、パフォーマンス及びエネルギー効率を向上させることができる。ロスレス及びロッシー圧縮を使用して、トレーニング中に処理される膨大な量のデータのフットプリントを減少させることができる。元来、トレーニングには単精度浮動小数点データ及び演算が使用されているが、よりコンパクトなデータ型（例えば、半精度浮動小数点ＦＰ１６、ｂｆｌｏａｔ１６、動的浮動小数点、及びフレックスポイント）によって全体的なデータ量及び計算コストが削減される。混合データ型のアプローチでは、より低コストの表現を使用して計算することが多くなり、より高コストの表現を使用して計算することが少なくなることで、さらにコストを削減することができる。

【0029】

上記のアプローチに関係なく、トレーニングは実質的にエクサスケールクラスの問題のままである。本発明者らは、トレーニング中に多くの無効な計算が自然に、様々なモデルについて発生することを観察した。したがって、本実施形態は、トレーニングの実行時間及びエネルギー効率を向上させるためのアプローチを有利に提供する。トレーニング中のエネルギー消費の大部分は、積和演算（ＭＡＣ）を実行するために必要な転送及び計算が原因である。多くの場合、これらのＭＡＣでのオペランドのうちの１つがゼロであるため、これらの演算は、トレーニング中に生成された値、したがって、収束及び最終精度に影響しないため、安全に除去されることができる。多くの人工ニューラルネットワークでは、フォワードパス及びバックワードパス中のアクティベーション、ならびにバックワードパス中の勾配で多くのゼロが自然に発生する。スパース性は、存在する場合、パフォーマンス及びエネルギー効率を向上させる機会を表す。

【0030】

また、重みとアクティベーションとの両方で、推論中にゼロ値及び無効な演算が発生する。一部のゼロ重みは自然に現れるが、それらの発生はプルーニングによって大幅に増幅されることができる。ゼロアクティベーションもまた推論中に自然に発生し、正規化線形ユニット（ＲｅＬＵ）活性化関数を使用するモデルで最も頻繁に発生する。したがって、スパース性と呼ばれるゼロの存在を利用することができる。あるアプローチは重みにおけるスパース性を標的にし、あるアプローチはアクティベーションと重みとの両方におけるスパース性を標的にする。

【0031】

ただし、トレーニング中にスパース性を利用することは、推論中よりも実質的にはるかに技術的に困難である。第一に、推論中にゼロが発生したからといって、それらがトレーニング中にも現れることを黙示しない。一般に、トレーニングは、重みの一部のランダムな初期化から始まり、それらをネットワークが収束するまでゆっくりと調整していく。最終的に、重みの一部がゼロになるが、これがどの程度の速さで発生するかは不明であり、ゼロにとどまるかどうかも不明である。第二に、推論中のゼロ重みの位置は、既知であり、変化しないため、スパース性パターンは静的である。その結果、推論のために、重みにおけるスパース性を最大限に利用するための計算を事前にスケジュールすることができる。これは、重み値が変化し続けるトレーニング中の場合ではないため、スパース性パターンは動的である。このパターンは、通常、トレーニングデータセット内のすべてのサンプル及びバッチで変化し、経時的にも変化する。第三に、推論には２個の入力テンソル（重み及びアクティベーション）が含まれ、これらは、通常、行列と行列の乗算または行列とベクトルの乗算である、１回の計算でのみ使用される。そのため、２個のテンソルは、データ並列を促進する特定のアクセスパターン、したがって、エネルギー効率の高いフェッチ及び実行を提供する方法でメモリにレイアウトされることができる。トレーニング中、一般に第三テンソルである勾配があり、３個のテンソルのそれぞれは２個の異なる計算に使用される。特に難しいのは、これら２個の計算のそれぞれにテンソルが使用される方法が異なる可能性があることである。例えば、フォワードパス中には、バックワードパス中とは異なる１セットの重みが出力に寄与する場合がある。これにより、両方の計算ニーズに適合する方法でメモリに値をレイアウトすることが困難になり、フォワードに適合するレイアウトは、バックワード用に「転置」される必要がある。第四に、スパース性を利用する大部分の推論アクセラレータは固定小数点値で演算するが、トレーニングには通常、浮動小数点値が必要である。演算の相対的なコストは異なるため、様々なトレードオフが発生する可能性がある。

【0032】

スパース性は、存在する場合、パフォーマンス及びエネルギー効率を向上させる機会を表す。この機会を利用するために、本実施形態は、スパース性が存在する場合にパフォーマンス及びエネルギー効率を向上させるうえ、本来であればパフォーマンス及びエネルギー効率を大幅に損なうことを回避する。本実施形態（非公式に「ＴｅｎｓｏｒＤａｓｈ」と呼ばれることができる）は、ＭＡＣユニットの真正面に配置される、安価なハードウェアスケジューラと、コデザインされたスパースで低コストのデータインターコネクトとの組み合わせを使用して、無効なＭＡＣを除去するランタイムアプローチを提供する。本実施形態は、「アウトオブザボックス」ニューラルネットワークで作業することができ、モデル開発者からの修正もいかなる特別なアノテーションも必要としない。本実施形態は、値も機能ユニットも変更しないため、収束にも精度にも影響しない。

【0033】

場合によっては、本実施形態は、トレーニング中のネットワークのプルーニング及び量子化から追加の利益を得る。通常、プルーニングの目的は、重み値をゼロに変換することである。動的スパース再パラメータ化、スパースモメンタム、先行プルーニング（ＥｇｅｒＰｒｕｎｉｎｇ）、及びＤｒｏｐＢａｃｋは、出力精度への影響が最小になる、または影響がない、高いスパース性レベルを達成することができるトレーニング時のプルーニング方法である。本発明者らは、本実施形態とこれらの方法のいくつかとのインタラクションを調べた。一般に、量子化の目的は、推論中に使用されるデータ幅を減らすことである。トレーニング中、量子化は、本来であれば大きさの小さい値であるものをゼロに有効にクリップする。量子化方法には、ＰＡＣＴ（量子化ニューラルネットワークのパラメータ化されたクリッピングアクティベーション）及びＬＱ－Ｎｅｔｓ（学習済み量子化ネット）が含まれる。また、本実施形態は、ニューロンのいくつかについてのみ損失を逆伝播する選択的逆伝播方法に利益をもたらすことができる。場合によっては、選択的逆伝播は、多数の勾配をゼロに有効に変換するため、スパース性として現れる。

【0034】

有利なことに、本明細書に記載の実施形態は、少なくとも以下の機能及び利益を提供する：
・主にアクティベーション及び勾配に現れる、トレーニング中に自然に発生するスパース性を利用する。スパース性は、動的に利用され、そしてほとんどの場合、低オーバーヘッドのハードウェアスケジューラを使用して、ＭＡＣ演算を時間（より早いサイクル）及び空間（別のＭＡＣユニット）内で進めるハードウェアで完全に利用されるため、全体的な計算がより早く終了する。スケジューラは、トレーニング中に発生する動的スパース性パターンを効率的に処理することができるように、スパース性がどのように分散されるかについて仮定を行わない。
・入力のうちの少なくとも１つがゼロであるＭＡＣ演算を除去するだけなので、数値の忠実度に影響しない。
・複数のＭＡＣ演算を実行して単一の出力に累算させるデータ並列処理素子と互換性があり、それらのような処理素子の任意のデータフローと互換性がある。
・利点は、量子化またはプルーニングを組み込むトレーニングアルゴリズムで増幅することであることができる。
・一方または両方のオペランドでのスパース性を抽出するように構成されることができる。

【0035】

図を明確にするために、本開示は、アクティベーションウィンドウの使用により、畳み込み層のデータフローが他の層よりも難しいため、一般に畳み込み層を対象とする。ただし、本明細書に記載の実施形態が任意の適切な層、例えば、プーリング層及び全結合層などに適用されることができることが理解される。トレーニング中、層ｉの処理は、通常、次の３つの主な畳み込みまたは演算を含む：
フォワードパス：Ａ_ｉ＋１＝Ｗ_ｉ＊Ａ_ｉ（１）
バックワードパス：Ｇ_ｉ－１＝Ｇ_ｉ＊Ｗ_ｉ（２）
バックワードパス：Ｇｗ_ｉ＝Ｇ_ｉ＊Ａ_ｉ（３）
式中、Ｗ_ｉは重みであり、Ａ_ｉは入力アクティベーションであり、Ａ_ｉ＋１は出力アクティベーションであり、Ｇ_ｉ－１は入力アクティベーション勾配であり、Ｇ_ｉは出力アクティベーション勾配であり、Ｇｗ_ｉは重み勾配である。第一畳み込みは、層の出力アクティベーションを計算するためにフォワードパス中に実行され、その次の２個の畳み込みは、それぞれ入力勾配及び重み勾配を計算するために逆伝播パス中に実行される。畳み込みニューラルネットワークのアクティベーション、勾配、及び／または重みがトレーニング中に有意なスパース性を示すことが確認されている。本実施形態は、そのようなスパース性を有利に利用して、対応する積和（ＭＡＣ）演算を除外することによって処理を加速する。

【0036】

ここで図１及び図２を参照すると、一実施形態による、スパース性を使用して深層学習ネットワーク（非公式に「ＴｅｎｓｏｒＤａｓｈ」と称される）を加速するためのシステム１００が示される。この実施形態では、システム１００はコンピューティングデバイス２６上で実行され、インターネットなどのネットワーク２４を介してサーバ３２上にあるコンテンツにアクセスする。さらなる実施形態では、システム１００は、デバイス２６上でのみ、またはサーバ３２上でのみ実行することができ、または、他のコンピューティングデバイス上、例えば、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、サーバ、スマートウォッチ、分散またはクラウドコンピューティングデバイス（複数可）などで実行及び／または分散することができる。いくつかの実施形態では、システム１００の構成要素は、単一のコンピュータシステムによって格納され、単一のコンピュータシステム上で実行される。他の実施形態では、システム１００の構成要素は、ローカルまたはリモートに分散され得る２つ以上のコンピュータシステム間に分散される。

【0037】

図１は、システム１００の実施形態の様々な物理コンポーネント及び論理コンポーネントを示す。示されるように、システム１００は、複数の物理コンポーネント及び論理コンポーネントを有し、これら複数の物理コンポーネント及び論理コンポーネントは、処理ユニット１０２（１つ以上のプロセッサを含む）、ランダムアクセスメモリ（「ＲＡＭ」）１０４、入力インタフェース１０６、出力インタフェース１０８、ネットワークインタフェース１１０、不揮発性ストレージ１１２、及び処理ユニット１０２が他のコンポーネントと通信することを可能にするローカルバス１１４を含む。処理ユニット１０２は、以下でより詳細に説明されるように、様々なモジュールを実行する、またはそれらの実行を指示することができる。ＲＡＭ１０４は、比較的応答性の高い揮発性ストレージを処理ユニット１０２に提供する。入力インタフェース１０６により、管理者またはユーザは、キーボード及びマウスなどの入力デバイスを介して入力を提供することができる。出力インタフェース１０８は、情報を出力デバイス、例えば、ディスプレイ及び／またはスピーカに出力する。ネットワークインタフェース１１０は、典型的なクラウドベースのアクセスモデルの場合など、システム１００から離れて配置された他のコンピューティングデバイス及びサーバなどの他のシステムとの通信を可能にする。不揮発性ストレージ１１２は、オペレーティングシステム及びモジュールを実装するためのコンピュータ実行可能命令を含むオペレーティングシステム及びプログラム、ならびにこれらのサービスによって使用される任意のデータを格納する。追加の格納されたデータを、以下に説明されるように、データベース１１６に格納することができる。システム１００の動作中、実行を容易にするために、オペレーティングシステム、モジュール、及び関連データを不揮発性ストレージ１１２から取り出してＲＡＭ１０４に配置することができる。

【0038】

一実施形態では、システム１００は、１つまたは複数の処理素子（ＰＥ）１２２を含む。場合によっては、本明細書で説明されるように、処理素子１２２をタイリングすることができる。各処理素子１２２はいくつかのモジュールを含み、これらいくつかのモジュールは、複数の入力ストリーム１２４（入力ストリーム用のパッドを含む）、複数のステージングバッファ１２６、スケジューラ１２８、及びＭＡＣユニット１３０を含む。場合によっては、ＭＡＣユニット１３０は、出力パッド（Ｃパッド）に出力することができる。場合によっては、モジュールの一部が別個のハードウェアに専用で少なくとも部分的に実行されることができ、他の場合では、モジュールの一部の機能の少なくとも一部が処理ユニット１０２上で実行される。

【0039】

場合によっては、トレーニングがプルーニングを組み込まない限り、トレーニング中に無視できるスパース性を重みが示すことがあるが、本発明者らは、アクティベーション及び出力勾配に考慮すべきスパース性があると判断した。したがって、第一及び第二畳み込みではそれぞれＡ_ｉ及びＧ_ｉのスパース性が利用されることができる。第三畳み込みでは、Ｇ_ｉまたはＡ_ｉでのスパース性は、例えばいずれか高い方が、利用されることができる。場合によっては、本実施形態は、Ｇ_ｉとＡ_ｉとの両方のスパース性を同時に利用することができる。

【0040】

図４は、モデルごとの３つの演算のそれぞれに対する作業削減のポテンシャルの合計の一例を示すチャートである。１つの順伝播演算（Ａ×Ｗ）、ならびに２つの逆伝播演算（Ａ×Ｇ）及び（Ｗ×Ｇ）は、それぞれほぼ同じ数のＭＡＣを実行する。作業削減は、次のように定義される高速化として示される：

【数1】

ここでは、残りのＭＡＣは、標的オペランドがゼロであるＭＡＣ演算を除去した後に残ったＭＡＣ演算の数である。すべてのモデルを平均すると、畳み込みの「高速化」のポテンシャルは約２．６倍である。最小ポテンシャルは、ニューラル協調フィルタリング（ＮＣＦ）推奨システムによって示されるが、それでも１．７倍である。自然言語推論モデルＳＮＬＩの場合、そのポテンシャルは５．６倍ほどにもなることができる。高度に最適化されたＳｑｕｅｅｚｅＮｅｔでは２．４倍を上回るが、Ｆａｃｅｂｏｏｋのオブジェクト検出及びセグメント化モデルＤｅｔｅｃｔｒｏｎ２では２．２倍である。ＢＥＲＴの場合、ポテンシャルは２倍である。ＲｅｓＮｅｔ５０は、元来、密なモデルであるが、プルーニング技法により、ポテンシャルが１．７５倍まで上昇する、有意なスパース性が誘発される。

【0041】

多くの場合、深層ニューラルネットワークは、勾配降下アルゴリズムのバリアントを使用してトレーニングされることができ、ここでは、トレーニングサンプルがネットワークを介して実行されることで、対応するラベル（フォワードパス）に関する予測誤差（勾配）が見いだされてから、勾配がネットワーク層を介して逆伝播されることで、ネットワークパラメータ（バックワードパス）が更新される。

【0042】

フォワードパス中に、Ａ^＊Ｗは、最初の層から最後の層までのシーケンスに適用される。層ごとに、重みを入力アクティベーションで畳み込み、出力アクティベーションを生成して、その次の層に供給する。一番最後の層の出力アクティベーションをグランドトゥルースラベルと比較して勾配を生成し、次いで、これらの勾配を逆伝播して全体の重みを更新することができる。逆伝播中、層は最後から最初へと逆の順序で呼び出される。各層では、その出力勾配を重みで畳み込み、入力勾配を生成し、その前の層に供給する。また、層では、その出力勾配をその入力アクティベーションで畳み込み、重み勾配を計算する。層ごとの重み勾配は、ミニバッチ内のトレーニングサンプル全体に累算され、次に説明されるように、ミニバッチごとに１回、または反復して重みを更新するために使用される：

【数2】

式中、ｉは層番号であり、ｔは反復回数であり、αは学習率であり、Ｓはミニバッチサイズである。

【0043】

図５～７は、１つのトレーニングサンプルの処理を例示する、ＣＮＮのトレーニングの一例を示す。図５～７は、畳み込み層のみの演算を示す。全結合層は、すべての入力テンソルが同じサイズのものである特殊な場合の畳み込み層として処理されることができる。この例では、重みはバッチごとに更新される。アクティベーション、重み、アクティベーション勾配、重み勾配に使用される記号は、それぞれ

【数3】

であり、ここで、Ｓはトレーニングサンプルを表し、Ｌはネットワーク層を表し、Ｆは重みフィルタであり、ｃはチャネル番号であり、ｘ、ｙは２Ｄ空間座標である。ストライドはｓｔとして表される。

【0044】

図５はフォワードパスの一例を示す。畳み込み層では、入力アクティベーションと重みフィルタのそれぞれとの間ではスライディングウィンドウの三次元（３Ｄ）畳み込みを実行し、出力アクティベーションでは１つのチャネルを生成する：

【数4】

全結合層の場合、各フィルタは１つの出力アクティベーションを生成する：

【数5】

【0045】

図６及び図７は、バックワードパスの一例を示す。図６は、入力勾配の決定の一例を示す。畳み込み層では、スライディングウィンドウ３Ｄ畳み込みは、後続層からのアクティベーション勾配を用いて、リシェイプされたバージョンのフィルタ間で実行される。フィルタはチャネルごとに再構築され、１８０度回転され、アクティベーション勾配はストライドｓｔによって膨張する：

【数6】

全結合層の場合、各フィルタは１つの出力アクティベーションを生成する：

【数7】

【0046】

図７は、重み勾配の決定の一例を示す。畳み込み層の場合、重み勾配はバッチサンプル全体に累算される。サンプルごとに、入力アクティベーションの２Ｄチャネルと、ストライドに従って膨張する出力勾配のチャネルとの間の２Ｄ畳み込みとして決定される：

【数8】

全結合層の場合、各重み勾配は、入力アクティベーションとそれが影響する出力アクティベーションの勾配とのスカラー積である。重みの勾配は、更新を重みに適用する前に、ミニバッチのサンプルにわたって累算される：

【数9】

【0047】

人工ニューラルネットワークをトレーニングするための例示的なアーキテクチャは、Ｔｅｎｓｏｒｃｏｒｅ拡張（ＴＣ）を備えたＮＶＩＤＩＡ（商標）グラフィックスプロセッシングユニット（ＧＰＵ）である。一例では、本実施形態によるベースラインアクセラレータのビルディングブロックは、Ｔｅｎｓｏｒｃｏｒｅ様ユニットを含むことができる。ＴＣは、既存のメモリデータパスのデータ供給制約の下で計算スループットを最大にするように設計されるため、内部編成はＧＰＵ世代ごとに異なる場合がある。特定の場合には、ＴＣは１サイクルあたり４×４浮動小数点行列乗算、すなわち、１サイクルあたり６４個のＭＡＣを実行することができる。これは、４×４個の処理素子（ＰＥ）のタイルとして実装されることができ、各ＰＥは、図８に示されるように、４ＭＡＣ／サイクルを実行し、すべてが同じ出力に寄与することができる。例えば、これらはすべてが同じ出力アクティベーションに寄与するもの（アクティベーション、重み）の４対であってもよく、またはそれらはすべてが同じ入力勾配に寄与するもの（出力勾配、重み）の４対であってもよい。

【0048】

それらのようなＰＥは、いくつかの演算を介してアキュムレータを更新するためのエネルギーコストと、ＭＡＣを融合することによる総和ステージのコストとを償却するため、一般に、単一ＭＡＣユニットと比較してエネルギー効率が高くなる。ＴＣと同様に、ＰＥは混合精度ＭＡＣ演算を実装し、乗算は浮動小数点１６（ＦＰ１６）で行われ、累算は浮動小数点３２（ＦＰ３２）で行われる。処理素子は、３つのローカルスクラッチパッド（入力用に２つ、出力用に１つ）を有することができる。アクセラレータは、各ＰＥが異なるスクラッチパッドを有する、これらのＰＥのグリッドを使用してもよく、またはそれらのいくつかを、時間及び空間の再利用を利用するためにバッファを共有するタイリングされたグリッド内に編成してもよい。上記の場合は混合精度浮動小数点値（ＴＣなどでのもの）を想定するが、本実施形態は、データ型に依存せず、任意のデータ型、例えばｂｆｌｏａｔ１６、固定小数点、または専用の狭い浮動小数点で作業することができる。

【0049】

一例では、２つの入力ストリームをＡ及びＢとみなし、Ｃを使用して出力を示す。図９Ａは、１６個の値対を、それらの無効なもの（２つの入力値のうちの少なくとも１つがゼロである）をシステムが除去しようとしない場合にどのように処理することができるかの一例を示す。入力値は

【数10】

及び

【数11】

として表され、レーンはそれらが現れる乗算器を指定し、時間は処理順序である。図９Ａは、密なスケジュールでは、システム１００がすべての対を、それらの値に関係なく処理する場合、それらを、ＰＥがサイクルごとに４つのＭＡＣを実行する入力バッファから４対の群として読み出すことができるように、それらをメモリに配置するのは複雑ではないことを示す。ＰＥは、それらすべてを処理するには４つのサイクルを必要とする。ただし、この例では、両方のオペランドが非ゼロである、黒でハイライトされた７対のみがある。ＰＥがこれらの値対を処理する限り、出力は正しくなる。パフォーマンスを向上させ、エネルギー消費を削減するために、システム１００は、無効な対を、それらの位置を有効な対で埋めることによって除去する。このように、１サイクルあたり４つのＭＡＣを実行するＰＥは、すべての有効な対を２つのサイクルで処理することができるはずである。ただし、そのようなアプローチでは、時間内で（より早く、かつ同じレーンに）、かつ時空間内に（より早く異なるレーンに）、両方のバッファ内でタンデムに対を移動させる必要がある場合がある。

【0050】

一部のアプローチは、推論中にスパース性を利用しようとする。推論は、重みが予めわかっているＡ^＊Ｗ畳み込みのみを実行するため、これはそれらのスパース性パターンを表す。１つの畳み込み及び１つのパスしかないことから、シングルデータフローで十分であるため、システムは、値を、それらを処理したい順序でメモリ内に配置することができる。最も困難な層は、それらのアクティベーションにスライディングウィンドウを使用するため、一般に畳み込み層である。これは、重みがウィンドウごとに異なるアクティベーションとマッチングする必要があることを意味する。図９Ｂは、両側からの非ゼロ値が時間と時空間との両方で制限なしに独立して移動することが可能になるアプローチを示す。ここでは、Ａ内の非ゼロ値は、メモリ空間内に次々と密にパックされ、Ｂ内の値も同様である。同じ対に属する値は、時間でも空間でもアライメントされなくなる。すべての無効な対を処理しないようにするために、システムは、両方の値が非ゼロである対を識別し、それらを何らかの乗算器に集める必要がある。一般に、できるだけ多くの乗算器をビジーに保つことが好ましい。これは、１）時間及び空間における値の任意の移動を実行することがハードウェアでのコストを高くすること、及び２）４つの乗算器レーンをビジーに保つために、多くの場合、各バッファから複数のロウからの値を取得することが必要であること、という２つの理由から困難なタスクである。

【0051】

一部のアプローチは、例えば、非ゼロ重みをメモリ空間内で密にパックするため、ランタイムにＰＥが１回で１つのロウのそれらにアクセスすることができることにより、重み側でのみスパース性を利用する。各重みはメタデータでアノテーションされるため、システムはその密な（レーン、時間）位置を決定することができる。アクティベーション候補のプールを維持するユニットは、各非ゼロ重みを見つけて、そのアクティベーションと対にする。このユニットは、クロスバーの機能を実行する場合、一般に計算コストが高くなるため、アクティベーションはメモリ空間内の重みの任意の移動を反映することができる。他のアプローチは、両側でのスパース性を利用することで、重み及びアクティベーションは時間と時空間との両方で自由に移動することが可能になる。一例では、インデックス付きモジュールは、非ゼロの重み及びアクティベーションをマッチングさせるタスクを課される。他のアプローチは、モデルがプルーニングされる方法に構造上の制約を課すことにより効率を向上させる。実際には、それらのようなアプローチは、無効な対を、無効な対のうちのｎ個が単一の幅ｎのロウ内に共に現れる場合にのみ除去することができる。これらの構造上の制約は、プルーニング中に課される必要がある。他のアプローチは、乗算器入力（ＡとＢとの両方）ごとに独立したバッファバンクの展開コストを支払うにもかかわらず、両側でスパース性を利用する。それらは時間内にのみ値の移動をサポートするため、「Ｓｔｒｕｇｇｌｅｒ」レーンがボトルネックになるレーン間の作業不均衡を有効に処理することができない。一例では、非ゼロ重み及びアクティベーションは、メモリ内に密にパックされ、ランタイムに両方のオペランドがゼロではない有効な対のみを処理することができる。そのためには、値は１回に１つのチャネルで処理されるため、任意の重みと任意のアクティベーションとの積が１のストライドを想定する出力アクティベーションに寄与することが保証される。このようにして、すべてのデータ移動が入力で回避される。ただし、これらの積を標的アキュムレータバンクにルーティングするには、クロスバーが必要である。クロスバーとバンクの数とは、本来であれば有意であるバンク競合によるストールを回避するために過剰にプロビジョニングされる。他のアプローチは、フロントエンドに低コストのスパースインターコネクトと、ソフトウェアスケジューラとを使用して、スパース性が構造化される方法に制限を課すことなく、プルーニングされたモデルの重みでのスパース性を抽出する。アクティベーション側では、それらのようなアプローチは、値内のスパース性（ビットレベルのスパース性）を標的にし、そのためにシフトアンドアッド乗算器ベースのＭＡＣユニットを使用する。他のアプローチは、再帰型ニューラルネットワークを標的にし、固定小数点値を演算する、効率的なベクトルベースのエンコーディングをメモリに使用して、重みとアクティベーションとの両方からスパース性を抽出する。

【0052】

上記のアプローチはいずれもトレーニングには適用されない。本実施形態は、少なくとも、当技術分野における以下の実質的な課題に有利に対処する：
・トレーニング中のスパース性パターンは常に動的である。対照的に、推論中、重みは静的に知られているため、ゼロの重みを除去した後にメモリ内に事前にパックされることができる。
・トレーニング中、各テンソルは２つの畳み込みまたは演算に関与する。各畳み込みでの出力に寄与する値群は異なるため、それらが配置される順序も異なるはずである。例えば、フォワードパス中のフィルタチャネルは、バックワードパス中の「再構築された」フィルタのチャネルとは異なる。バックワードパス中の「再構築された」フィルタは、すべてのフィルタにわたって同じチャネルから重みを取得し、それらをチャネル次元に沿って積層させてから、フィルタを空間的に１８０度回転させることによって形成される。同様に、第二畳み込みの勾配は、第三畳み込みとは別に合わせてバンドルされる必要がある。これら２つの畳み込みは、勾配をオフチップにスピルしなくてよいようにしたいバックワードパス中に層ごとに計算される。したがって、それらが使用されるすべてのケースに機能するメモリにそれらをパックする（効果的に事前にスケジュールする）方法は単一ではない。
・アクティベーションは、推論中に各層の後に破棄されることができるが、バックワードパスによって使用されるために保存されるトレーニング中にはそうではない。
・推論アクセラレータは狭い固定小数点演算（例えば、８ｂ）を使用するが、最新のトレーニングは主に浮動小数点（例えば、ＦＰ３２、ＦＰ１６、またはＢｆｌｏａｔ１６）を使用して行われる。通常、浮動小数点値は幅が広いため、クロスバーのコストが高くなり、ビットレベルのスパース性を抽出するためのシフトアンドアッド演算の実行は、浮動小数点では簡単ではない。
・トレーニングは、ランダムに初期化された値から始まり、トレーニングプロセス全体で進化し続ける。

【0053】

場合によっては、３つのテンソルのいずれかまたはすべてに現れる可能性がある動的スパース性パターンを利用するために、本実施形態は、ＤＮＮトレーニングに含まれる３つの畳み込みまたは演算のすべてから、ランタイムに無効な値対を動的に除去することができるアプローチを提供する。このアプローチのエネルギー効率をよくするために、オペランドの任意の移動を可能にする徹底したインターコネクトの高いハードウェアコストだけでなく、様々な演算に合う様々な方法でテンソルを再配置するエネルギー及びレイテンシのコストを回避する。

【0054】

システム１００は、入力テンソル（例えば、図９Ａの例示的な入力テンソル）を処理するときに無効な値対を有利に除去する。場合によっては、システム１００は、サイクルごとに４つのＭＡＣを実行するＴｅｎｓｏｒｃｏｒｅ様処理ユニットの拡張として使用されることができるが、システム１００を使用して任意のデータ並列ユニットを拡張することができることを理解する。例えば、本発明者らは、最大１６個までのＭＡＣの幅のユニットに対してシステム１００を使用して例示的な実験を実行した。本開示の一例では、システム１００は、２つの入力テンソルＡ及びＢの３Ｄ畳み込みを処理しており、処理素子が４つのＭＡＣ演算を並行に実行すると理解されることができる。

【0055】

図１０は、処理素子１２２、この例では、Ｔｅｎｓｏｒｃｏｒｅの処理素子を拡張するスパースインターコネクトの例示的な図解を示す。スパースインターコネクトは、ステージングバッファ及びスケジューラを含む。一例では、Ａ及びＢのステージングバッファがあり、各ステージングバッファの深度は所定のパラメータである。一例では、各ステージングバッファが最大２つのロウの値を保持することができるように、この深度が２であると仮定する。これらのステージングバッファへの書き込みはロウ単位である。４つの単一値幅の読み出しポートがあり、それぞれが乗算器入力に直接提供される。図９Ｃが示すように、読み出しポートごとの接続性はスパースであり、各ポートは、ステージングバッファ内で、限定された１セットの値（この例では４つの値）から１つを読み出すことができる。場合によっては、各ポートが読み出すことができる１セットの値は異なるが、重複する可能性がある。

【0056】

一例では、スケジューラは、ビットベクトルを各ステージングバッファから受け入れて、どの値が非ゼロであるかを識別するハードウェアスケジューラであることができる。２深層ステージングバッファの場合、この例ではビットベクトルは８ｂ幅になる。各サイクルのスケジューラはステージングバッファから最大４つの有効な対を選択する。読み出しポートの制御信号（この例ではポートごとに２ｂ）を発生し、各ポートは、１セットの４つの候補値を有するため、対応する値が読み出される。同じ制御信号は２つのステージングバッファ内の対応するポート間で共有される。すなわち、同じ制御信号は水平方向及び垂直方向のステージングバッファ内のポートｐに送られるため、両方のオペランドはタンデム（合計で４×２ｂ個の制御信号）で移動する。

【0057】

図９Ｃは、システム１００が、レーンごとに制限された１セットの値の移動のみを可能にするにもかかわらず、どのようにスパース性を有効に利用することができるかを示す。移動には、時間のみまたはルックアヘッドと、時空間またはルックアサイドとの２タイプがある。図９Ｃは、第三乗算器レーンについての１セットの可能な移動を示し、それは、元の密な値ａ^２ _０か、同じレーン内のその次の値ａ^２ _１（ルックアヘッド）か、その２つの隣接するレーンのうちの１つから時間内に１ステップ先から取ってくることができる値ａ^１ _１またはａ^３ _１（ルックアサイド）かいずれかを処理することができる。その他の読み出しポートによって可能な移動は、それらのレーンと比較して構造上同一であり、これらのポートは、ポート０がポート３に隣接しているリング内に配置されているかのように処理される。各ポートは、異なる１セットの値にアクセスすることができるが、これらのセットは重複する場合がある。図９Ｄ及び９Ｅは、システム１００が乗算器入力ごとに４入力マルチプレクサのみを使用して処理時間を最小の２つのサイクルに減少させる方法を示す。

【0058】

パフォーマンスを向上させるには、通常、ステージングバッファを可能な限りフルに保つ必要がある。したがって、Ａ及びＢバッファは、より高い読み出しスループットを維持するには、適宜にバンクされる必要がある。本例では、２つのバンクで十分である。一般に、ルックアヘッドと同数のバンクを有することで十二分であり、本発明者らは、経験的に、Ｔｅｎｓｏｒｃｏｒｅ様ユニットには３つのルックアヘッドで十二分であると決定した。より多くのＭＡＣを備えたより幅広いユニットの場合、２つのバンクのルックアヘッドでも十分な場合がある。

【0059】

本例のハードウェアスケジューラの場合、各ＰＥは４対（Ａ、Ｂ）のＦＰ１６値を受け入れ、サイクルごとに４つのＭＡＣを実行する。場合によっては、各入力側に４深層ステージングバッファが追加される。図１１の例が示すように、ステージングバッファは４つのロウを保持することができ、これら４つのロウのそれぞれは、時間内の現在のステップ（ステップ＋０）及びその次の３つのステップ（＋１、＋２及び＋３）の密なスケジュールに対応する４値幅である。レーンごとに、スパースな接続性パターンを実装するマルチプレクサがある。図１１は、レーン１の接続を示す。元の「密な」スケジュール値に加えて、入力ごとに３つのルックアヘッドオプション及び４つのルックアサイドオプションがある。例えば、レーン１の乗算器は、現在のタイムスロットまたは最大３つ先までのタイムスロットからレーン１での値を与えられることができる。代替に、隣接するレーンからの値を「取ってくる」ことができる。例えば、１つ先のタイムステップのレーン２からの値、または２つ先のステップのレーン３からの値を取得することができる。各レーンは、その位置（サイドエッジの周りにラップする）に対して相対的にシフトされる同じ接続性パターンを有する。また、ステージングバッファは、Ａ及びＢステージングバッファに対してそれぞれＺ_Ａ及びＺ_Ｂとして示される、４×４ｂビットベクトルを生成し、これらの値のうちのどれがゼロであるかを示す。ステージングバッファは、４つの書き込みポート（ロウごとに１つ）を有する。

【0060】

スケジューラは、Ａ及びＢステージングバッファから２つのビットベクトルＺ_Ａ及びＺ_Ｂを受け入れ、２セットの信号を発生する。第一セットは、４つのＭＳ_ｉ（ｉ＝０．．．３）３ビット信号（入力レーンごとに１つ）である。これらは、レーンごとのマルチプレクサに選択信号として使用される。乗算器ごとに１つのＭＳ_ｉ信号は、存在し、そのレーンのＡ側とＢ側との両方の上のマルチプレクサによって使用される。また、スケジューラは、排出できたステージングバッファのロウ数を示す２ビットＡＳ信号を生成するため、それらを、バッファをフルに保つためにバンクされるスクラッチパッドから補充することができる。

【0061】

Ｚ_Ａ及びＺ_Ｂの４×４ｂビットベクトルが最初にビットごとにＯＲ演算されると、４×４ｂビットベクトルＺが生成される。これは、どの（Ａ、Ｂ）値の対が少なくとも１つのゼロを有するかを示す。これらの対は、無効であり、スキップされることができる。スケジューラは、できるだけ多くの残りの有効な（Ａ、Ｂ）対が１つのステップで処理されるように、合計４つの移動（ＭＳ_ｉ信号）に対して、レーンごとに１つの移動を選択する。スケジューラが１つのタイムステップに対して行う移動の選択は、スケジュールと呼ばれることができる。

【0062】

レーンｉごとに、スケジューラは静的優先度スキームを使用することができる。本例では、８つのオプションの中でも、次の順序で利用可能な最初のものを選択する（記号は図１１に参照される（ステップ，レーン）である）：（＋０，ｉ）（密なスケジュール）、（＋１，ｉ）ルックアヘッドの１つのステップ、（＋２，ｉ）ルックアヘッドの２つのステップ、（＋３，ｉ）ルックアヘッドの３つのステップ、ならびにルックアサイドオプション：（＋１，ｉ＋１）、（＋１，ｉ－１）、（＋２，ｉ＋２）及び（＋３，ｉ＋３）。この例では、８ｂ－ｔｏ－３ｂプライオリティエンコーダの使用で十分である。ただし、すべてのレーンの選択を独立して行わせると、複数のレーンに対して同じ対が選択されることがあり、１回より多く乗算されて累算されることになり、無効なスケジュールになる場合がある。

【0063】

スケジューラが常に有効なスケジュール（各値対が１回選択されるスケジュール）を生成することを確保するために、図１２の図解に例示されるように、スケジューリングが４つのレベルで行われる階層スキームを使用することができる。各レベルでは、１サブセットのレーン（この例では１つのレーン）は、それらの決定を、Ｚベクトルの現在の値を入力として使用して独立して行う。各レベルで割り当てられたレーンは、重複する選択を行うことができないような設計によって保証される。１つのレベルの複数のレーンがそれらの選択を行った後、これらのオプション（ＯＲゲート）をＺベクトルから「除去」してから、それをその次のレベルに渡す。最後にＺで有効にしたままのビットがあれば、ＡＳ信号が発生することができる。上記はステップで説明されているが、スケジューラが組み合わせ可能であり、単一サイクルで動作することができることを理解する。

【0064】

上記の例では、単一の処理素子（ＰＥ）は、記述されており、両方のオペランドでスパース性を利用することができる。Ｔｅｎｓｏｒｃｏｒｅは、それらのようなＰＥのタイル（例えば、４×４）として実装されることができる。ＰＥは時間的にのみ再利用を利用することができるが、同じロウに沿ったＰＥに同じＢ入力を共有させ、同じカラムに沿ったＰＥに同じＡ入力を共有させることにより、空間データの再利用も可能になる。例えば、フォワードパス中で、かつ畳み込み層の場合、各ロウは異なるフィルタを処理していることができるが、カラムは異なるウィンドウを処理していることができる。この配置では、各ＰＥは、Ｂ入力とＡ入力との一意の組み合わせを処理している。ＰＥごとにスケジューラ及びステージングバッファが使用される場合、Ａ側とＢ側との両方でゼロをスキップすることが引き続き可能である。

【0065】

本例では、３つの主な演算のそれぞれでのオペランドのうちの１つに十分なスパース性があるため、Ｂ側のみからスパース性が抽出され、有意な利点が抽出される。図１３は、２×２タイル構成を有する単純化されたコアを示す。ＰＥの各ロウは、共通のスケジューラを使用し、Ｂ側で同じステージングバッファ及びマルチプレクサブロックを共有する。Ａ側には、カラムごとに単一のステージングバッファ、及びＰＥごとに専用のマルチプレクサブロックがある。ロウごとのＡ側のマルチプレクサブロックは、ロウスケジューラからの同じＭＳ_ｉ信号を共有する。各スケジューラは、ここでは、対応するＢ側のステージングバッファからのＺベクトルのみを確認する必要がある。本発明者らは、主なビルディングブロックとして、ＴｅｎｓｏｒＤａｓｈとＴｅｎｓｏｒｃｏｒｅとの両方（４×４タイルのＰＥ）の構成を評価した。

【0066】

トレーニング中、各テンソルは１つより多い計算に使用されることができる。例えば、重みは、フォワードパスではアクティベーションで畳み込まれることができるが、バックワードパスでは出力勾配で畳み込まれることができる。各演算では、出力値に寄与する重み群は異なる。これは、重み、アクティベーション、及び勾配にも同様である。これは、メモリ階層に影響し、データを適切な順序でＰＥに提供する必要がある場合がある。テンソルが１つの方法でのみ使用される場合、その値は、メモリに静的にレイアウトされることができるため、オフチップ及びオンチップのワイドアクセスを使用して簡単に提供されることができる。ただし、トレーニング中に、計算のうちの１つを適切に提供するレイアウトは、その他の計算を適切に提供することができない場合がある。幸いなことに、必要に応じてテンソルを転置する機能を有することで、すべてのユースケースで簡単にフェッチされることができるように、メモリ内に値を配置することができる。場合によっては、値が４×４値群に格納されるテンソルレイアウトが使用される。群は、Ｘ次元に沿って隣接する値の４つのブロックを取得することによって形成される。これらのブロックのそれぞれは、チャネル次元に沿って４つの連続した値を含む。４×４値群ごとの開始座標は、Ｘ及びチャネル次元に沿って４つずつアライメントされる。最後に、テンソルを構成する群は、メモリ空間に、例えばチャネル、Ｙ、Ｘの順に割り振られる。

【0067】

オフチップから値をフェッチする場合、各群をマルチバンクオンチップメモリに直接書き込むことができるため、各４値ブロックをバンクに直接コピーする。その結果、ＰＥは、ここでは、単一ステップでチャネル次元に沿って連続した４つの値の任意のブロックに直接アクセスすることができる。転置が必要な場合、オンチップメモリバンクとタイルスクラッチパッドとの間でオンチップトランスポーザを使用することができる。トランスポーザの数は、メモリシステムがタイルをビジーに保つことができるように選択されることができる。各トランスポーザは、４値幅のアクセスを使用して、４つの４値ブロックをそれらのバンクから読み出し、それらをその内部の４×４バッファにコピーする。次に、トランスポーザは、４つの値の４つのブロックを提供することができ、それぞれは、テンソルを効率的に転置する、メモリから読み出された４つの元のブロックのそれぞれからの単一値から構成される。例えば、それは、元のブロック内で最初に現れるすべての値、または第三に現れるすべての値を含むブロックを提供することができる。この転置アプローチは、トレーニング中に含まれる３つの計算演算すべてに適用されることができる。

【0068】

図３は、一実施形態による、スパース性を使用して処理素子１２２の深層学習ネットワークを加速するための方法３００のフローチャートを示す。

【0069】

ブロック３０２では、ステージングバッファ１２６のそれぞれは、複数の入力ストリーム１２４のうちのそれぞれ１つから入力テンソルを受信し、格納する。

【0070】

ブロック３０４では、スケジューラ１２８は、ビットベクトルを各ステージングバッファ１２６から受信して、それぞれのステージングバッファ１２６に格納されたどの値が非ゼロであるかを識別する。

【0071】

ブロック３０６では、スケジューラ１２８は、有効な対に達するためにＭＡＣユニット１３０に通信する必要がある値をレーンごとにステージングバッファ１２６に指示する。この指示は、レーンで現在の値を通信することと、同じレーンでのその次の値を、そのような値が非ゼロである場合に通信することと、時間内で１つ先のステップからの値を、そのような値が非ゼロである場合に通信することと、隣接するレーンからの値を、そのような値が非ゼロである場合に通信することと、のうちの１つのパフォーマンスを含む。

【0072】

ブロック３０８では、各ステージングバッファ１２６は、指示された値をＭＡＣユニット１３０に通信して、ＭＡＣ演算を実行する。

【0073】

ブロック３１０では、ＭＡＣユニット１３０は、ＭＡＣ演算の値を、例えば、他の処理素子１２２、不揮発性ストレージ１１２、データベース１１６、ネットワークインタフェース１１０、または出力インタフェース１０８に出力する。

【0074】

本発明者らは、表１に示されるように、以下の広範囲の用途にわたる深層ニューラルネットワーク（ＤＮＮ）モデル上で、本例の利点を評価するために例示的な実験を行った。
・ＩｍａｇｅＮｅｔ（ＳｑｕｅｅｚｅＮｅｔ、ＶＧＧ、及びＲｅｓＮｅｔ－５０）でトレーニングされた画像クラス分類。
・ＭｉｃｒｏｓｏｆｔＣＯＣＯデータセットでトレーニングされたｉｍｇ２ｔｘｔによるシーンの理解。
・ＧＬＵＥデータセットでトレーニングされたＧｏｏｇｌｅのＴｒａｎｓｆｏｒｍｅｒベースのモデルであるＢＥＲＴと、スタンフォード自然言語推論コーパスでトレーニングされているＳＮＬＩとを含む自然言語モデリング。
・オブジェクト検出及びセグメント化：ＭｉｃｒｏｓｏｆｔＣＯＣＯデータセットでトレーニングされたＦａｃｅｂｏｏｋのＤｅｔｅｃｔｒｏｎ２モデル。
・ＭｏｖｉｅＬｅｎｓ２０Ｍの映画レーティングデータセットでトレーニングされたニューラル協調フィルタリング（ＮＣＦ）を含む推奨システム。

【0075】

密なモデルのトレーニング中にプルーニングを組み込む技法の利点を説明するために、ＲｅｓＮｅｔ－５０の２つのバリアントがトレーニングされた。これらのバリアントは、動的スパース再パラメータ化技法及びスパースモメンタム技法を含んだ。どちらの技法でも、９０％のスパース性を標的とした。

【0076】

例示的な実験では、すべてのモデルは、ＰｙＴｏｒｃｈ実装を使用してＲＴＸ２０８０ＴｉＧＰＵでトレーニングされた。各モデルは、報告された最高の出力精度に収束するために必要なエポック数だけトレーニングされた。エポックごとに、ランダムに選択された１つのバッチはサンプリングされ、本明細書に記載の３つの演算のオペランドはトレースされた。ＧＰＵメモリ要件が異なるため、バッチサイズはモデルごとに異なった。１バッチあたり最小で６４個から最大で１４３個までのサンプルの範囲であった。

【表1】

【0077】

パフォーマンスをモデル化するために、カスタムのサイクルアキュレートシミュレータが使用された。シミュレータの忠実度を妥当性確認するために、拡張性マイクロベンチマークストレステストが実行された。表１は、本実施形態の拡張を含むＴｅｎｓｏｒｃｏｒｅベースのベースラインのデフォルト構成を列挙する。面積及び消費電力をモデル化するために、すべての設計はＶｅｒｉｌｏｇで実装され、ＳｙｎｏｐｓｙｓＤｅｓｉｇｎＣｏｍｐｉｌｅｒで合成され、ＣａｄｅｎｃｅＩｎｎｏｖｕｓでレイアウトが作成された。電力は、ＭｅｎｔｏｒＧｒａｐｈｉｃｓのＭｏｄｅｌＳｉｍを介して回路アクティビティをキャプチャした後、それをＩｎｎｏｖｕｓに渡したことによって推定された。ＣＡＣＴＩは、オンチップ共有ＳＲＡＭメモリの面積及びエネルギー消費をモデル化するために使用された。これらのメモリは、ＡＭ、ＢＭ、及びＣＭという３つに大きくバンクされたチャンクに分割される。ＣＡＣＴＩは、ＳＲＡＭスクラッチパッド（ＳＰ）の面積及びエネルギー消費をモデル化するためにも使用された。最後に、オフチップアクセスのエネルギー及びレイテンシは、ＭｉｃｒｏｎのＤＲＡＭモデルを介してモデル化された。ベースラインアーキテクチャと本実施形態のアーキテクチャとの両方は、ＣｏｍｐｒｅｓｓｉｎｇＤＭＡを使用してオフチップでゼロ値を圧縮する。

【表2】

【0078】

図１４は、本システムをＴｅｎｓｏｒｃｏｒｅアーキテクチャに組み込むことにより達成された高速化をモデルごとに、そして（ｉ）Ａ^＊Ｗ、（ｉｉ）Ａ^＊Ｇ、及び（ｉｉｉ）Ｗ^＊Ｇという３つの演算のそれぞれについて示すチャートである。テンソルのそれぞれでのスパース性の量とそのパターンは、モデル、層、及びトレーニングフェーズによって異なるため、高速化にはばらつきがある。平均して、本システムは実行を１．９５×まで加速し、いかなる減速も決して導入しない。

【0079】

本実施形態がすべてのモデルに利益をもたらすと判断した。ＢＥＲＴ及びＤｔｃｔｒｏｎ２の利点は、それらのバックワードパスから得られる。Ｄｔｃｒｏｎ２は、１）事前トレーニング済みのＲｅｓＮｅｔ－５０バックボーン、２）様々なスケールで高レベルのセマンティック特徴マップを抽出する特徴ピラミッドネットワーク（ＦＰＮ）、３）候補オブジェクト境界ボックスを提案する領域提案ネットワーク（ＲＰＮ）、４）境界ボックスの認識、クラス分類、及び回帰を実行するネットワークヘッド、ならびに５）対象となる各領域に別個に適用されるマスク予測用のネットワークヘッド、からなる。実行時間を支配するＦＰＮ及びＲＰＮという２つのフロントエンド畳み込み層は、ごくわずかな入力アクティベーションのスパース性を示す。ただし、これらの支配層の直後にＲｅＬＵを使用すると、システム１００がバックワードパス中に利用するこれらの層の勾配では、有意な（７３％～９４％の）スパース性になる。ＢＥＲＴが全結合様層によって支配されることで、それらの重み及びアクティベーションでのスパース性がほとんど示されない。ただし、ＲｅＬＵを使用していないにもかかわらず、バックワードパス中にその勾配でのスパース性は、そのエンコーダ層とデコーダ層とのアテンションメカニズムにより、ほとんどの層の勾配で約６０％のスパース性になることが証明される。

【0080】

ＲｅｓＮｅｔ－５０、ＶＧＧ１６、及びＳＱＺＮｅｔは、ＲｅＬＵを使用するモデルのうちの１つであるため、ＲｅＬＵが生成するスパース性から利益を得る。ＲｅｓＮｅｔ－５０では、バックワードパス中の利益は低くなる。これは主に、各畳み込み層と後続のＲｅＬＵ層との間にバッチ正規化（ＢａｔｃｈＮｏｒｍ）層を使用することが原因である。ＢａｔｃｈＮｏｒｍ層は、勾配でのほとんどすべてのスパース性を吸収する。ただし、幸いなことに、利用されるアクティベーションか重みかいずれかには、まだスパース性がある。トレーニング中のプルーニングの使用は、特にバックエンド層が小さくなる場合、システム１００がＷ^＊Ｇ演算中に利用する重みにかなりのスパース性を生じる。

【0081】

ＳＮＬＩは、人間が書いた英文の対間のテキスト含意を認識することにより、自然言語推論タスクを実行する。これには、２つの全結合（ＦＣ）射影層、２つのＬＳＴＭエンコーダ、及び４つの全結合クラス分類子層が含まれる。勾配及びアクティベーションでは有意なスパース性が観察されたことで、本実施形態で観察された利益が説明される。勾配は、タスクの性質とＲｅＬＵアクティベーションの使用とにより、９５％を上回るスパース性を示す。入力アクティベーションのスパース性は、２つのフロントエンド射影層では６３％及び６０％、第一クラス分類層では０％、及びその他の層では９４％超である。

【0082】

ＮＣＦ推奨システムは４つのＦＣ層からなり、第一層が最大である。勾配は、Ｗ^＊Ｇ演算に利益を与える、８３％のスパースである。場合によっては、第一層は、最も高価であり、アクティベーションのスパース性も示さないため、影響を与えない。

【0083】

図１５は、第一エポックから収束までのトレーニング中のシステム１００による実行時間の高速化を示す。一般に、システム１００による改善はトレーニングプロセス全体を通してかなり安定していることで、システム１００が利用する根本的な現象が過渡的なものでも、初期化によって引き起こされたものでもないことが示唆される。

【0084】

測定により、２つの傾向が明らかになる。トレーニング中のプルーニングアプローチを使用するＲｅｓＮｅｔ５０の場合、高速化は、最初の数エポック中にわずかに高くなり、その後、低くなり、１．５×程度に安定する。同様に、その他の動的スパース再パラメータ化技法についても、わずかではあるが、より抑制された挙動が見られる。この挙動は、開始時に多くの重みを攻撃的にプルーニングすることから始まるプルーニングアルゴリズムによるものであり、その後、トレーニングプロセスはモデルの精度をリカバリするために「リクレーム」する。

【0085】

システム１００が利用するスパース性のほとんどがアクティベーション及び勾配に由来した密な画像クラス分類モデルの場合、高速化は横倒しされたＵ字型曲線に従う傾向があった。この挙動は、ＶＧＧ１６モデルでより顕著であり、モデルのランダムな初期化により初期に利益が低くなる。その後、入力データのどの特徴がタスクに無関係であったかを学習することでモデルが急速に改善されたため、最初の数エポック中に利益が急速に増加した。これにより、アクティベーションと勾配との両方でスパース性が急速に増加することになった。その後、高速化は、トレーニングプロセスの４０％～５０％に達するまで安定した。次いで、トレーニングプロセスの後半に入り、精度を向上させるためにモデルが以前に破棄された重要性の低い特徴の一部を抽出し始めたため、徐々に低下した。トレーニングプロセスの最後の４分の１中に、モデルパラメータがそれらの最終値に非常に近くなったことで、アクティベーション及び勾配のスパース性が安定したため、高速化は安定した。

【0086】

表２は、面積及び消費電力の詳細を示す。オンチップ及びオフチップのメモリを考慮しなくても、システム１００の面積及び電力のオーバーヘッドは小さく、１４％の余分なシリコン面積及び９％の電力のみがスケジューラ及びバックエンドシャッフラには必要である。高速化を考慮に入れると、素のＴｅｎｓｏｒｃｏｒｅと比較して、計算ロジックだけで平均１．８×超のエネルギー効率になる。図１６は、計算コアロジックとチップ全体とについてのモデルごとのエネルギー効率を示す。

【0087】

オンチップＡＭ、ＢＭ及びＣＭのメモリチャンクのそれぞれは、５８．６ｍｍ^２の面積を必要としたが、スクラッチパッドは、さらなるバンクが原因で、ベースラインに３．９５ｍｍ^２と、システム１００に５．９ｍｍ^２との合計を必要とした。合計では、チップ全体の計算及びメモリ面積の両方を考慮すると、システム１００の面積のオーバーヘッドはわずか４．８％であった。図１６が示すように、オンチップメモリ、スクラッチパッド、及びオフチップＤＲＡＭへのアクセスを考慮すると、システム１００はＴｅｎｓｏｒｃｏｒｅアーキテクチャの全体的なエネルギー効率を１．５×まで向上させた。

【0088】

図１７は、ベースラインに対するシステム１００で消費されたエネルギーを報告する。測定値は、オフチップデータ転送、コアロジック、及びオンチップメモリモジュールという３つの主なコンポーネントにわたって消費されたエネルギーの詳細も示す。システム１００は、エネルギー消費全体を支配する計算コアのエネルギー消費を有意に削減した。

【0089】

一般に、ステージングバッファの深度は、一度にスキップされることができるタイムステップの最大数を制限するため、理論上ピークの高速化を決定することができる。Ｎ深層バッファの場合、最大高速化はＮ×である。ただし、ステージングバッファが深層になるにつれて、スケジューラと、対応するフロントエンド及びバックエンドのシャッフラとのハードウェアの複雑さが増す可能性がある。深度構成の影響を調べるために、例示的な実験では２から最大５までの深度を掃引した。２深層及び３深層の構成は、コスト対パフォーマンスのよりバランスの取れた実装のために、レーンごとに８つではなく４つの可能なプロモーションを実装する。図１８では、平均高速化が１．５×（２深層）から２．０５×（５深層）まで増え、リターンが４深層から５深層にテーパ状になることが示される。

【0090】

例示的な実験では、ＰＥを使用してタイルを構成したときのＰＥのパフォーマンス挙動を調べた。この目的のために、タイルごとのＰＥのロウ及びカラムの数を変化させ、これがパフォーマンスにどのように影響するかを調べた。タイルジオメトリをスケールする場合、ストールは、ＰＥ間の同期が原因で発生し得、今度は作業不均衡によって起こる。

【0091】

図１８は、カラム数を４に固定し、タイルごとのロウ数を１から最大１６まで変化させる場合、システム１００のパフォーマンスがどのように変化するかを示す。平均の高速化は、タイルが１個のロウを有する場合の２．２×から、タイルが１６個のロウを有する場合の１．８×まで低下する。すべてのＰＥは最も遅いものを待機する必要があるため、ロウ数が増えると、作業不均衡が発生することが原因で、ストールの頻度が高くなる。タイルごとのロウ数がスケールアップされると、並行して処理されるデータ値は、ロウ間で密度不均衡を示す。これにより、すべてのロウが最も密な値のストリームを有するロウを待機する必要があるため、一部のロウがストールする可能性がある。実際には、ロウ数が増加するにつれて、そのような大きい値群をスケジュールすると、処理サイクル全体をスキップしてその次の群に進む可能性が低くなる。これが発生する主な理由は、非ゼロのアクティベーション及び勾配が特定の２Ｄ特徴マップにクラスタ化する傾向にあるが、その他の２Ｄマップがよりスパースになるためである。このクラスタ化現象は、一般にそれらのようなモデルでは、特に各フィルタが特定の高レベルの特徴を抽出するようにトレーニングされるより深層に向かって、基本的なものである。一般に、この現象は、アクティベーション及び勾配の２Ｄ特徴マップを畳み込む、第二バックワード畳み込みであるＡ×Ｇでより顕著である。

【0092】

Ｔｅｎｓｏｒｃｏｒｅあたりのカラム数は４から１６まで変化したが、ロウ数は４のままであった。スパース性がロウ側である１つの側でのみ利用されたため、カラム数が増加しても、同等にスケールされたベースラインと比較して、それほどパフォーマンスに影響しなかった。すべてのロウは、最も密なストリームを有するロウをまだ待機する必要があった。ただし、カラムを増加させると、ロウに沿って同じスケジュールを共有しながら、畳み込み層でより多くのウィンドウを並列処理することが可能になった。３％を上回らなかった一部のモデルの高速化では無視できる低下は、認められたが、層次元によって引き起こされたフラグメント化が主な原因のものであった。

【0093】

例示的な実験では、より多くの乗算器レーンを有したより幅広いＴｅｎｓｏｒｃｏｒｅ構成でも実験した。レーンごとに８つのプロモーションしかまだできないＴｅｎｓｏｒＤａｓｈ設計が調査された。Ｔｅｎｓｏｒｃｏｒｅの幅が広いほど、ステージングバッファが浅くなってもパフォーマンスが向上することで、ハードウェアオーバーヘッドが少なくなることがわかった。４深層のバッファを備えた狭いＴｅｎｓｏｒｃｏｒｅとほぼ同じパフォーマンス及びエネルギー効率を達成した。図１９は、幅１６のＰＥの最上部の上に３深層ステージングバッファを備えたＴｅｎｓｏｒＤａｓｈがパフォーマンスを平均で１．８５×まで向上させることを示す。一方、面積のオーバーヘッドは、計算ロジック及びチップ全体でそれぞれ１０％及び３．５％まで削減される。この構成に使用された専用のスパースな接続性パターンの結果として、重複しない接続性パターンを有するレーンは、群化されて、１つのレベルにスケジュールされることができ、この１つのレベルは、わずか６つのレベルで１つのスケジューラを可能にし、クリティカルパスにはない。

【0094】

ＴｅｎｓｏｒＤａｓｈがスパース性構造に関係なく有効なままであるかどうかを決定するために、例示的な実験では、スパース性のレベルが１０％から最大９９．９％までに及んでいる状態で合成されたスパーステンソルを用いて実験した。ＳＱＺＮｅｔからの第三畳み込み層のアーキテクチャを使用したが、ランダムに生成された値を使用するテンソルを投入した。スパース性のレベルごとに、１０個のテンソルサンプルを生成した。次に、これらの生成されたテンソルを使用して、サンプルごとに３つの演算すべてを実行した。スパース性レベルごとにすべてのサンプルにわたる平均を決定した（測定された速度での最大偏差は５％を下回った）。４深層ステージングバッファが与えられると、テンソルがゼロしか含まない場合でも、ＴｅｎｓｏｒＤａｓｈで可能な最大高速化が４×であることを想起されたい。図２０が示すように、ＴｅｎｓｏｒＤａｓｈを用いたパフォーマンスは、入力でのスパース性の量に密接に追従した。図２０は、理想的な高速化が４×を下回る場合、ＴｅｎｓｏｒＤａｓｈが理想的にあり得る高速化に近づくことを示す。例えば、スパース性が２０％である場合、最適なマシンは１．２５×高速になる。ＴｅｎｓｏｒＤａｓｈは、約１．２３×高速になる。スパース性が９０％である場合、理想的なマシンは１０×高速になる。例示的な実験では、ＴｅｎｓｏｒＤａｓｈがその理想的な４×の高速化に近づき、３．７×高速になり、９９％のスパース性レベルで３．９９×に達することが示される。

【0095】

深層ニューラルネットワークがｂｆｌｏａｔ１６などの他の浮動小数点データ型を使用してトレーニングされることができたことを決定した。例示的な実験では、ｂｆｌｏａｔ１６演算を使用するＴｅｎｓｏｒＤａｓｈ及びベースライン構成を実装した。実験で計算ロジックのみを考慮した場合でも、合成及びレイアウトの結果は、ＴｅｎｓｏｒＤａｓｈの面積及び電力のオーバーヘッドがそれぞれ１．１６×及び１．１×と低いままであることを示した。様々なコンポーネントは、データ型の変更に応じてスケーリングが異なる。例えば、スケジューラ及びシャッフラのハードウェアオーバーヘッドはＦＰ１６からｂｆｌｏａｔ１６に移行しても変化しなかったが、乗算器はシュリンクする。オンチップメモリ構造を考慮すると、面積オーバーヘッドは４．９％である。エネルギー効率に関しては、ＴｅｎｓｏｒＤａｓｈを用いた計算ロジックは、ベースラインよりも平均で１．７６×超のエネルギー効率であった。オンチップ及びオフチップメモリへのアクセスを考慮した場合、ＴｅｎｓｏｒＤａｓｈの導入により全体のエネルギー効率が１．４８×までブーストされた。

【0096】

例示的な実験では、Ｗｉｋｉｔｅｘｔ－２データセットでトレーニングされた自然言語処理モデルであるＧＣＮを用いて実験した。アクティベーション、勾配、及び重みに実質的にスパース性は見られなかった。それでも、数層が約５％のスパース性を示したことから、ＴｅｎｓｏｒＤａｓｈはパフォーマンスを１％まで向上させた。ＴｅｎｓｏｒＤａｓｈの全体的なエネルギー効率は、ベースラインより０．５％低くなった。

【0097】

本実施形態は、動的スパース性を利用し、処理タイルを構成するために使用されることができるプラグアンドプレイ素子を有利に提供する。一般に、ＤＮＮトレーニングはデータセンター及び「エッジ」で必要である。本実施形態は、いずれかのセグメントのアクセラレータを構築するのに価値のある可能性がある低レベルの処理素子を提供する。本実施形態は、トレーニングを加速するためのいくつかのアプローチとインタラクトすることができるが、非常に低レベルのＭＡＣユニットで演算するため、多くのものと一次補完的である。本実施形態が多くの既存のハードウェアアクセラレータの代替ＰＥとして、またプルーニングなどのソフトウェアレベルのトレーニング加速技法と併せて価値がある可能性があると確信される。

【0098】

本実施形態は、データ並列ＭＡＣユニットがそれらの入力オペランドストリームでのスパース性を利用することを可能にするハードウェアベースの技法を有利に提供する。深層学習用のハードウェアアクセラレータを構成するために使用される場合、本実施形態は、トレーニングプロセスを高速化すると同時に、エネルギー効率を向上させることができる。場合によっては、低コストのスパースな入力オペランドインターコネクトは、面積効率の高いハードウェアスケジューラと組み合わされる。スケジューラは、アクティベーション、重み及び勾配にスパース性が存在する場合にスパース性を有効に抽出することができる。様々な用途に及ぶ幅広い最新モデルのセットで、トレーニングプロセスは、５％未満の面積オーバーヘッドでＴｅｎｓｏｒｃｏｒｅベースのアクセラレータの最上部の上に組み込まれた場合、エネルギー効率が１．５×超でありながら、１．９５×まで加速されることが証明された。ほとんどの場合、システム１００はデータ型に依存せず、これはＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ（ＩＥＥＥ）規格の混合精度浮動小数点ユニットと、機械学習に最適化されたブレイン浮動小数点フォーマット（ＢＦｌｏａｔ１６）とで実証された。

【0099】

一例では、トレーニング加速に加えて、本実施形態は推論アクセラレータに使用されてもよい。特に、本明細書に記載のハードウェアスケジューラは、アクティベーションと重みとの間でフォワードパス畳み込みを実行しながら、アクティベーションに動的スパース性を利用することができる。したがって、本開示はトレーニング加速という面に焦点を当てているが、本実施形態は、アクティベーションに動的スパース性、及び重みに静的スパース性を利用することによって推論加速にも使用されることができる。さらに、本開示はメモリ内の入力テンソルを事前にスケジュールすることを具体的に説明しなかったが、トレーニング及び推論中のメモリのフットプリント、トラフィック、及びエネルギーをさらに削減するために、そうすることが可能である。事前にスケジュールされたテンソルは、ステージングバッファでは、最初に事前にスケジュールされた形式から、それらの対応する「密な」形式に展開されることができる。これは、有効なオペランドを選択するために、本明細書に記載のインターコネクトをミラーするスパースインターコネクトを使用して実装されることができる。重みの場合、事前スケジューリングは前もって実行されることができ、場合によっては、推論の場合にはソフトウェアで実行されることができる。アクティベーション及び勾配の場合、先行層の出力に事前スケジューリングを実行することができる。本明細書で説明したものと同一の別のハードウェアスケジューラは、値が層の出力で生成されるときに、それらの値を事前にスケジュールする。

【0100】

本発明は、特定の実施形態を参照して説明されたが、本明細書に添付の特許請求の範囲に記載された本発明の趣旨及び範囲から逸脱することなく、それらの様々な変更及び修正が当業者には明白となるであろう。

【図1】