特許7581579 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特許7581579複数次元のビジュアルアナリティクスのための空間的にスパースなニューラルネットワークアクセラレータ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-05

(45)【発行日】2024-11-13

(54)【発明の名称】複数次元のビジュアルアナリティクスのための空間的にスパースなニューラルネットワークアクセラレータ

(51)【国際特許分類】

G06F 17/10 20060101AFI20241106BHJP

G06N 3/04 20230101ALI20241106BHJP

G06N 3/10 20060101ALI20241106BHJP

【ＦＩ】

G06F17/10 A

G06N3/04

G06N3/10

【請求項の数】 4

【外国語出願】

(21)【出願番号】P 2021131382

(22)【出願日】2021-08-11

(65)【公開番号】P2022059564

(43)【公開日】2022-04-13

【審査請求日】2023-06-19

(31)【優先権主張番号】202041042682

(32)【優先日】2020-10-01

(33)【優先権主張国・地域又は機関】IN

(31)【優先権主張番号】17/131,121

(32)【優先日】2020-12-22

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591003943

【氏名又は名称】インテル・コーポレーション

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】カムレシュピレイ

(72)【発明者】

【氏名】ガープリートシンカルシ

(72)【発明者】

【氏名】スリーニバスサブラモニー

(72)【発明者】

【氏名】プラシャントラッダ

(72)【発明者】

【氏名】オムジオマー

【審査官】田中幸雄

(56)【参考文献】

【文献】特開２０１９－２０４４３６（ＪＰ，Ａ）

【文献】特開２０２０－１４０５０７（ＪＰ，Ａ）

【文献】特表２０２０－５１３６３７（ＪＰ，Ａ）

【文献】特表２０２２－５２３７６２（ＪＰ，Ａ）

【文献】特表２０２０－５３７７８６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１０

Ｇ０６Ｎ３／０４

Ｇ０６Ｎ３／１０

(57)【特許請求の範囲】

【請求項1】

メモリと、
マイクロコントローラ回路と、を備え、
前記マイクロコントローラ回路は、
スパース性フォーマットに基づいてアクティベーション値を再配置することであって、再配置された前記アクティベーション値はアクティベーションバッファに格納されることと、
前記スパース性フォーマットの情報をエンコードするビットマスクに基づいて重みバッファからの第１の重みと、前記アクティベーションバッファからの第１の特徴とを、ＭＡＣ回路のシストリックアレイ内の第１の積和（ＭＡＣ）回路であって、第１のＭＡＣ演算を実行して第１の部分的な結果を生成する第１のＭＡＣ回路に割り当てることと、
前記ビットマスクに基づいて前記重みバッファからの第２の重みと、前記アクティベーションバッファからの第２の再配置されたアクティベーション値とを、ＭＡＣ回路の前記シストリックアレイ内の第２の積和（ＭＡＣ）回路であって、第２のＭＡＣ演算を実行して第２の部分的な結果を生成する第２のＭＡＣ回路に割り当てることと、
前記第１の部分的な結果と、前記第２の部分的な結果とを加算することと、
を行う、畳み込みニューラルネットワーク（ＣＮＮ）ハードウェアアクセラレータ。

【請求項2】

前記マイクロコントローラ回路は、前記重み、および、前記再配置されたアクティベーション値をＭＡＣ回路の前記シストリックアレイに割り当て、
前記重み、および、前記再配置されたアクティベーション値は、第１の時間に処理される第１のグループと、第２の時間に処理される第２のグループとを有する、請求項１に記載のＣＮＮハードウェアアクセラレータ。

【請求項3】

前記第１のグループおよび前記第２のグループは、異なる非ゼロの要素数を有する、請求項２に記載のＣＮＮハードウェアアクセラレータ。

【請求項4】

ＭＡＣ回路の前記シストリックアレイは、メモリアクセスの回数を減らすべく前記重みバッファおよび前記アクティベーションバッファ内の値を共有する、請求項１に記載のＣＮＮハードウェアアクセラレータ。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本願は、２０２０年１０月１日に出願されたインド仮特許出願番号第２０２０４１０４２６８２号の優先権を主張する。

【0002】

実施形態は、概して、ニューラルネットワークアクセラレータに関する。より具体的には、実施形態は、複数次元のビジュアルアナリティクスのための空間的にスパースなニューラルネットワークアクセラレータに関する。

【背景技術】

【0003】

セマンティックセグメンテーション及び現実世界のシーンの完成は、ロボット工学、医用画像、自動運転及びナビゲーション等の高レベルのアプリケーションに広く用いられる３次元（３Ｄ）視覚の基本的なプリミティブである。しかしながら、３Ｄビジュアルアナリティクスの計算及びメモリ要件は、ボクセルの解像度で３次元の複雑さで増大し得、リアルタイムのエネルギー効率の良い展開を実現の障害となる。

【図面の簡単な説明】

【0004】

以下の明細書及び添付の特許請求の範囲を読むことによって、且つ、以下の図面を参照することによって、実施形態の様々な利点が当業者に明らかになるだろう。

【0005】

【図1】実施形態による、ルールブックのラインフォーマットの例を示す図である。

【0006】

【図2】実施形態による、ルールブック作成手順の例を示す図である。

【0007】

【図3A】実施形態による、異なるタイルオプションの例を示す図である。

【図3B】実施形態による、異なるタイルオプションの例を示す図である。

【図3C】実施形態による、異なるタイルオプションの例を示す図である。

【0008】

【図4】実施形態による、ハードウェアアクセラレータ（ＨＷＡ）及びメモリレイアウトの例のブロック図である。

【0009】

【図5】実施形態による、重みプレーンがアクティブなボクセル実行スケジューラの例のブロック図である。

【0010】

【図6】実施形態による、固定リソースベースのインデックスキュー及びリンクリストベースのインデックスキューを示す比較図である。

【0011】

【図7】実施形態による、シストリック及びマルチキャストベースの積和計算（ＭＡＣ）ハードウェアの例のブロック図である。

【0012】

【図8】実施形態による、性能強化コンピューティングシステムを操作する方法の例のフローチャートである。

【0013】

【図9】実施形態による、性能強化コンピューティングシステムを操作するより詳細な方法の例のフローチャートである。

【0014】

【図10】実施形態による、特徴ストレージを管理する方法の例のフローチャートである。

【0015】

【図11】実施形態による、性能強化コンピューティングシステムの例のブロック図である。

【0016】

【図12】実施形態による、半導体装置の例を示す図である。

【0017】

【図13】実施形態による、プロセッサの例のブロック図である。

【0018】

【図14】実施形態による、マルチプロセッサベースのコンピューティングシステムの例のブロック図である。

【発明を実施するための形態】

【0019】

３Ｄビジュアルアナリティクスシナリオにおいて、データ処理に関与する計算リソースを減少させるべく、できる限りデータのスパース性を活用することがますます重要になる。従来の畳み込みネットワークの実装及び対応するアクセラレータは、密集したグリッドに存在するデータに最適化され得る。

【0020】

テンソルプロセッシングユニット（ＴＰＵ、ＧＯＯＧＬＥ社）及びテンソルコア（ＮＶＩＤＩＡ社）等の商用のディープニューラルネットワーク（ＤＮＮ又はＤｅＮＮ）アクセラレータは、非常に規則正しいデータフローに最適化された高密度の２次元アレイを使用し得る。市販のスパースなアクセラレータは、２次元（２Ｄ）アレイに特化し得、要素の重複の決定を加速し得る。しかしながら、そのようなアクセラレータを用いるスパースな畳み込み処理は、非常に非効率的である場合がある。

【0021】

例えば、従来のアプリケーションが、中央演算処理装置（ＣＰＵ、例えば、ホストプロセッサ）及びグラフィックス処理ユニット（ＧＰＵ、例えば、グラフィックスプロセッサ）上にマッピングされ得るが、性能が依然としてリアルタイムの使用の要件をはるかに下回っている場合がある。実際に、空間的なスパース性に対処する試みは、ＣＰＵ及びＧＰＵのコンパイラ拡張であり得る。１つの従来のアプローチは、空間的にスパースなデータに対する効率的なデータ構造への高レベルのインタフェースを提供し得、ＣＰＵ及びＧＰＵ上でスパースな計算のためのコードを生成し得る。他の従来のアプローチは、改善されたループタイル及びベクトル化を有するデータレイアウト及びカーネルテンプレートを用いるスパースな畳み込みのＣＰＵ実装を生成し得る。

【0022】

これらの従来の畳み込みネットワークの実装は、密集したグリッドに格納されているデータに最適化され得、スパースなデータを効率的に処理できない。さらに最近では、スパースなデータに効率的に動作するように適合され得るいくつかの畳み込みネットワークの実装が提示されている。数学的には、これらの実装の一部は、規則正しい畳み込みネットワークと同一であるが、それらは、毎秒の浮動小数点演算（ＦＬＯＰ）及び／又はメモリの観点から、より少ない計算リソースを要求する。以前の動作は、計算及びストレージを「アクティブ」なサイトに制限する「ｉｍ２ｃｏｌ」演算のスパース版を用いる、又は、ゼロによる不必要な乗算を削除する投票手順を用いる。

【0023】

他の解決手段は、ゼロ検出ブロックを用いてスパースなデータを処理し、処理要素（ＰＥ）ステージへのエントリの演算をスキップする固定機能のＴＭＵＬ（ｔｉｌｅｍａｔｒｉｘｍｕｌｔｉｐｌｙ）ユニットを用い得る。ストレージのために、解決手段は、ＣＳＲ（ＣｏｍｐｒｅｓｓｉｏｎＳｐａｒｓｅＲｏｗ）及び／又はＣＳＣ（ＣｏｍｐｒｅｓｓｉｏｎＳｐａｒｓｅＣｏｌｕｍｎ）等のスパース圧縮アルゴリズムを用い得る。解決手段はまた、スパースなデータを処理するためのゼロ検出ロジックに依存し得る。しかしながら、解決手段は、2Ｄのスパース性に応じ得、３Ｄ視覚的理解アプリケーションの基本的な特性である、現実世界の３Ｄ空間的なスパース性に適合しない。端的に言えば、基本的な３Ｄスパースな畳み込み演算を加速させるハードウェアアクセラレータが提案されていない。

【0024】

それに応じて、畳み込みネットワークの以前のスパースの実装の重要な欠点は、それらが、完全な畳み込みを適用することによって、全ての層においてスパースなデータを拡張させることである。ゼロ検出ロジックの使用は、ハードウェアの不十分な利用率をもたらし得、これは、例えば、アレイ内で検出された各ゼロが（１／アレイサイズ）％の不十分な利用率を引き起こし得ることを考えると重要である。

【0025】

そのような３Ｄ視覚アプリケーションについて、実施形態は、領域及びパワーペナルティに大きな負担を課すことなく、効率的で拡張可能なハードウェア解決手段を提供する。より具体的には、実施形態は、ルールブックのフォーマットでエンコードされた３Ｄスパースなデータ（例えば、重みプレーンに対応する入力特徴マップ／ＩＦＭと出力特徴マップ／ＯＦＭとの間の関係）をデコードし得、効率的に処理し得るＳＳｐＮＮＡ（ＳｐａｔｉａｌｌｙＳｐａｒｓｅＮｅｕｒａｌＮｅｔｗｏｒｋＡｃｃｅｌｅｒａｔｏｒ）を含む。本明細書で説明される技術は、Ｎ次元のビジュアルアナリティクスに対するエンドトゥーエンドのハードウェア解決手段を提供する。実施形態はまた、ハードウェアを駆動する新しい命令を含む。ハードウェアは、１）空間的に分散されたボクセルＯＦＭを再配置するためのフォーマットを実行するＷＡＶＥＳ（ＷｅｉｇｈｔｐｌａｎｅｂａｓｅｄＡｃｔｉｖｅＶｏｘｅｌＥｘｅｃｕｔｉｏｎＳｃｈｅｄｕｌｅｒ）、及び、２）チャネル毎の計算及び出力要素の収集を実行するＳｙＭＡＣ（ＳｙｓｔｏｌｉｃａｎｄＭｕｌｔｉｃａｓｔｂａｓｅｄＭＡＣＣｏｍｐｕｔａｔｉｏｎ）の２つの主要なブロックを含み得る。提案された命令は、シームレスな処理のためにＳＳｐＮＮＡへの全ての要求されるポインタを提供し得る。ＳＳｐＮＮＡアクセラレータアーキテクチャの利点は、それが、３Ｄビジュアルアナリティクスアプリケーションの実行の計算及びメモリ要件を著しく減少させ得ることである。

【0026】

図１は、ルールブックのラインフォーマット２０を示す。示される例において、第１のルールブックライン２２は、第１の入力チャネルインデックス（例えば、入力受容フィールド／ＩＲＦ内の第１の入力ボクセルに対応する「ＩＣ－１」）の重みマスク（「１０１０１１――――１１０」）及び（例えば、出力応答フィールド／ＯＲＦ内の有効な出力ボクセルに対応する）出力特徴インデックスのセットを指定する。重みマスク内の１の位置は、各出力特徴への第１の入力ボクセルの寄与を決定するために用いられる重みを指定する。例えば、左端位置の１値は、重みｗ_１が、左端の出力特徴インデックス（「ＯＣ６」）へのＩＣ－１の寄与を決定するために用いられることを示し、左から３番目の位置の１値は、重みｗ_３が、出力特徴インデックス「ＯＣ９」に用いられること等を示す。同様に、第２のルールブック２４は、第２の入力チャネルインデックス（「ＩＣ－２」）の重みマスク（「００１０１０――――００１」）及び出力特徴インデックスのセットを指定し得、第３のルールブックのライン２６は、第３の入力チャネルインデックス（「ＩＣ－３」）の重みマスク（「１０００１０――――０００」）及び出力特徴インデックスのセットを指定し得る。

【0027】

示される例において、例えば、重みｗ_１が３つのルールブックのライン２２、２４、２６の全てにわたって一様に用いられないので、重みごとの非対称性が存在する。さらに、例えば、第１のルールブックライン２２における出力特徴の数が、第２のルールブック２４における出力特徴の数とは異なるので、ルールブックのライン２２、２４、２６ごとの非対称性が存在する。

【0028】

本明細書で説明されるＳＳｐＮＮＡは、従来の解決手段と比較してＮ次元（例えば、２より大きい次元の変数）のスパース処理を加速させ得、計算リソースの全体の利用率を約９０％にまで増加させ得る。スパース処理をサポートすると共に、本明細書で説明されるハードウェアはまた、高密度の作業負荷に効率的に動作し得る。例えば、３９層を有するＳｃａｎＮｅｔ（ＳＣＮ）の作業負荷について、ハードウェアの利用率の範囲は、７８．８％から９８．７％までであるが、約９３．２０％の平均利用率を実現する。ハードウェアはまた、設定されるビットマスク（例えば、重みマスク）における全てのビットを処理することによって、高密度のニューラルネットワーク（ＮＮ）の作業負荷をサポートし得る。このより高い利用率は、以下のように要約されるマイクロアーキテクチャの強化によって実現される。

【0029】

［ＷＡＶＥＳ］

【0030】

Ｎ次元の空間的にスパースな畳み込み－機能ブロック領域のバジェットに基づいて一度に処理されるいくつかのプレーンを選択し、マイクロアーキテクチャが重みプレーンを階層的に処理するよう定義される。この特徴は、固定の畳み込みを超えて演算する設計を可能にする。例えば、３２個の重みプレーンを有するハードウェアについて、３×３×３の畳み込み（２７個の重みプレーン）が一緒に処理され得、５×５×５の畳み込み（１２５個の重みプレーン）が反復して処理され得る。

【0031】

動的リソース割り当て－スパース性に基づくメモリのより小さいチャンクの動的割り当ては、重みプレーンごとに固定リソースとしてマッピングされるストレージの代わりに、約１．５倍多くのルールブック（ＲＢ）のライン（ｒｂライン）を収容するのに役立ち得る。

【0032】

重複エントリを減少させるためにインデックスを用いる入力チャネル（ＩＣ）ストレージ－入力から出力まで（ｉ２ｏ）又は出力から入力まで（ｏ２ｉ）の特徴マッピングが、重みストレージごとにペアとして格納され得る。ストレージの幅を減少させるため、特徴（例えば、３２ビットの浮動小数点／ＦＰ数）が静的バッファに格納され得、対応するインデックス（例えば、８ビット）がデータストレージ（例えば、インデックスキュー）に格納され得、これは、特徴ストレージを約７５％減少させるのに役立つ。

【0033】

同一のインデックスバッファを用いて異なるタイプのルールブック（ｉ２ｏ、ｏ２ｉ）の有効化－ルールブックのタイプ（例えば、ｉ２ｏタイプ及びｏ２ｉタイプ）がアプリケーションに基づいて動的に選択され得る。例えば、本明細書で説明されるインデックスベースのストレージ技術は、インデックスキューの出力でデータを交換することによって、スケジューリングされる両方のタイプを有効にする（例えば、両方のＲＢタイプについて全体のＷＡＶＥＳ設計を同一に保持する）。

【0034】

［ＳｙＭＡＣ］

【0035】

３Ｄスパースな畳み込みのマイクロアーキテクチャ－実施形態は、動的なシストリックアレイ（例えば、強固に結合されたデータ処理ユニットＤＰＵ、セル、及び／又はノードの同種のネットワーク）として重みデータを共有するマイクロアーキテクチャを含む。さらに、入力特徴が（例えば、ドット積の結果の加算を実行する）複数の処理要素にマルチキャストされ得、出力特徴が部分的に加算され得る。これらの強化は、技術を異なるタイル次元に適用可能にする。

【0036】

ＩＣデータバッファの最大限の再利用のための再循環バッファ－複数のＯＦＭにわたってＩＦＭの再利用を増加させるために、ＩＣデータバッファが、ＤｅＮＮ内の複数のＰＥにＩＣ値を提供する再循環バッファとして実装され得る。

【0037】

特徴衝突検出及び加算－レベル１（Ｌ１）キャッシュの帯域幅を減少させるための出力特徴のキャッシング及び局所的な加算。

【0038】

［実装の詳細］

【0039】

図２は、ルールブック３２のｄｒｂラインの生成手順３０を示す。実施形態において、ルールブック３２のエンコードは、２つのタイプ－ｉ２ｏ（入力から出力までの関係）又はｏ２ｉ（出力から入力までの関係）であり得る。示される例において、ルールブック３２は、ｉ２ｏデータ構造としてエンコードされる。タイルが、入力ボクセル若しくは出力ボクセル及び入力若しくは出力チャネルのサブセット（例えば、「タイル」として知られる各サブセット）がグループ化され得、次に、ステージで処理され得ることによって処理されて、メモリ及びデータアクセスを節約する。タイルは、パラメータｄｒｂ、ｄｉｃ及びｄｏｃのセットによって定義され得る。ここで、ｄｒｂは、タイル内のｒｂラインの数を指し、ｄｉｃ及びｄｏｃはそれぞれ、タイル内の入力チャネル及び出力チャネルの数を指す。ＩＦＭタイルは、各ボクセルが要素（例えば、チャネル）のｄｉｃ数を有する、ｄｉ入力ボクセルで構成されている。同様に、ＯＦＭタイルは、ｄｏ出力ボクセル及びボクセルごとのｄｏｃ要素（例えば、チャネル）を含む。ｉ２ｏルールブック３２について、ｄｒｂはｄｉに等しく、ｄｏはスパース性に基づいてタイルにわたって変化し得る。ｏ２ｉルールブックについて、ｄｒｂはｄｏに等しく、ｄｉはスパース性に基づいてタイルにわたって変化し得る。

【0040】

説明の目的で、３×３のフィルタを有する２Ｄスパースの畳み込みが用いられ得る。位置（ｘ；ｙ）での入力がインデックスｉ＝１０で格納され、重み｛ｗ１；ｗ２；ｗ４；ｗ６｝を用いてアクティブな出力のセットＯＲＦ１０＝｛７；５；１０；８｝に寄与する。ＯＲＦ１０＝｛ｏｊ｝及び対応する重みのビットマスクは、ｉ２ｏルールブック３２内の第１のラインを形成する。同様に、ｏ２ｉルールブック３２内の各ラインは、各出力インデックスｏ_ｎに対する重みのビットマスクと共にＩＲＦ_ｎ＝｛ｉｊ｝を有する。網掛けのボックスは、ｄｒｂラインの間のインデックスの重複を示す。

【0041】

図３Ａ～図３Ｃは、ハードウェアアクセラレータ（ＨＷＡ）に対する主要要件がタイルで動作することを示す。ここで、ＩＦＭとＯＦＭとの間の関係がルールブックのラインを用いて定義され、重みプレーンにわたるスパース性が重みプレーンのマスクにエンコードされる。これらのタイル間変形を有する効果的な計算オペレーションを実行することは、次元ごとの可変データのフェッチを含むが、内部データの局所性を最大限に活用する。

【0042】

より具体的には、図３Ａは、ＯＣがタイルにわたって共有される第１のタイルオプション４０を示す。それに応じて、より多くのｄｉｃ及び最小のｄｏｃを有するより少ない数のｒｂラインが存在し得る。図３Ｂは、ＩＣがタイルにわたって共有される第２のタイルオプション４２を示す。そのような場合、より多くのｄｏｃ及び最小のｄｉｃを有するより少ない数のｒｂラインが存在し得る。図３Ｃは、重みがタイルにわたって共有される第３のタイルオプション４４を示す。それに応じて、より少ないｄｉｃ及びｄｏｃを有するより多くの数のｒｂラインが存在し得る。示されるタイルの順序は、アプリケーションデータに基づいてソフトウェアによって動的に選択され得る。さらに、ＨＷＡは、限定されたメモリ帯域幅を有する全てのオプション４０、４２、４４の下で加速することが可能であり得る。

【0043】

既に留意されたように、ＳＳｐＮＮＡ（ＳｐａｔｉａｌｌｙＳｐａｒｓｅＮｅｕｒａｌＮｅｔｗｏｒｋＡｃｃｅｌｅｒａｔｏｒ）ハードウェアアクセラレータは、（ａ）ＷＡＶＥＳ－重みプレーンベースのアクティブボクセル実行スケジューラ、及び（ｂ）ＳｙＭＡＣ－シストリック及びマルチキャストベースのＭＡＣ計算の２つの主要ブロックを含み得る。実施形態において、ＳＳｐＮＮＡは、シストリック及びブロードキャストアプローチを自動的に組み合わせるが、部分データをローカルに加算する。

【0044】

図４は、ＳＳｐＮＮＡのＨＷＡ５０及びメモリレイアウト５２を示す。示される例において、設定及び制御ブロック５４は、全体の実行を制御し、メモリアービター５６は、メモリリクエストを仲裁し、インタフェースプロトコルを処理する。グローバルイベントコントローラ（不図示）は、Ｌ１キャッシュをロードし、新しく提案された命令に基づいてＨＷＡ５０を設定した後、実行を開始し得る。起動時に、ＷＡＶＥＳスケジューラ５８は、ＲＢヘッダのフェッチを開始し、重みプレーンに従って作業負荷の再フォーマットを実行する。ＷＡＶＥＳスケジューラ５８は、チャネル毎の計算及び出力要素の収集を実行するＳｙＭＡＣ計算ブロック６０への動作をスケジューリングし得る。タイルデータ機構は、例えば、１６Ｂインタフェースを有するスクラッチパッドとして用いられ得るＬ１メモリ内にある。ｉ２ｏのＲＢの場合を考慮すれば、ＲＢヘッダマスク及びヘッダのＯインデックス（出力特徴インデックス／Ｉｄｘ）は、ＯＦＭインデックス及び対応するＲＢ重みマスクのリストにインデックスを与える。ＩＦＭへのインデックスは、直線的に格納され得る重みマスクフィールドのインデックスである。ＲＢヘッダのＯＦＭインデックスは、ＯＦＭデータフィールドに格納されるＯＦＭ要素データにインデックスを与える。ＲＢごとのＯＦＭデータフィールド内のインデックスの数は、対応する重みマスク内の１の数からデコードされ得る。実施形態において、全てのメモリビットを利用するために、これらの要素が密集して圧縮される。要素のベースアドレスが、新しい命令にエンコードされ得、ハードウェアが対応する値を読み取ることに応じてデコードされ得る。ＲＢヘッダがインデックスを正確にキャプチャするという条件で、ＩＦＭデータ、重みデータ、及びＯＦＭデータは、任意順序で格納され得る。１つの例において、メモリポートの帯域幅に適合するために、要素が４の倍数に圧縮される。

【0045】

図５は、ＩＦＭと重みプレーンに対応するＯＦＭとの間の関係をエンコードするルールブック作成手順の出力に基づいて演算するＷＡＶＥＳスケジューラ７０を示す。すでに説明されたように、ＷＡＶＥＳスケジューラ７０は、ＷＡＶＥＳスケジューラ５８（図４）に容易に置換され得る。実施形態において、ＷＡＶＥＳスケジューラ７０は、ＲＢヘッダ（ＨＤＲ）プロセッサ７２（７２ａ－７２ｃ）、ＨＤＲフォーマット７４（７４ａ－７４ｃ）、及び、リンクリストバッファ７６（７６ａ－７６ｄ）を含む。ＷＡＶＥＳスケジューラ７０の演算は、マスク及びＯ－Ｉｄｘデータをフェッチする第１のフェッチブロック７２ａから開始し得、これは、重み毎のＯＦＭ分配及びＯＦＭインデックスのリストへのポインタを提供する。マスクアナライザ７２ｂによって計算される重みマスク内の１の数に基づいて、ＯＦＭインデックスのそれぞれの数が、第２のフェッチブロック７２ｃによってフェッチされる。

【0046】

メモリ読み取り遅延に適合するために、フェッチされたＯＦＭインデックスがＦＩＦＯ（ｆｉｒｓｔｉｎｆｉｒｓｔｏｕｔ、例えば静的バッファ）７４ｃに格納され得、対応するヘッダ情報がＦＩＦＯ７４ａ（例えば、静的バッファ）に格納され得る。１つの例において、タプル形成ブロック７４ｂは、同一の重みプレーンを共有する複数のＩＦＭ－ＯＦＭペアを組み合わせる。サイクルごとの４つのＦＰ（ＦｌｏａｔｉｎｇＰｏｉｎｔ）要素のメモリ帯域幅に適合するために、タプル形成ブロック７４ｂは、サイクルごとに４つのタプルを生成し得る。示されるリンクリストバッファ７６は、インデックスキュー７６ａ、７６ｃを有し、計算のためのスケジューリングの前にタプルを保持し、マルチプレクサ７６ｄを介して出力する。例えば、第２のインデックスキュー７７ｃがフォーマット化されたルールブックを収集している間、第１のインデックスキュー７６ａがアクティブであり、計算の作業負荷をスケジューリングしているように（例えば、その逆のように）、インデックスキュー７６ａ、７６ｃは、ヘッダ形成ロジックを隠すよう複製される。インデックスキュー７６ａ、７６ｃは、キューコントローラ７６ｂによって制御され得る。

【0047】

図６は、例えば、ＷＡＶＥＳスケジューラ７０（図５）等のスケジューラのリンクリストデータ構造８０を示す。示される例において、固定リソースベースのインデックス－Ｑ８２は、受容フィールド内でアクティブボクセルの動的な分配を示す波状ラインを含む。フィルタ特性は重みプレーン１３の周囲に対称性につながるが、ＳＳｐＮＮＡは任意の分配をサポートし得る。マッピングがプレーンごとに固定型のハードウェアリソースを介して行われた場合、固定リソースベースのインデックス－Ｑ８２における垂直なラインは、作業負荷におけるスパース性の影響として活用されていないことを表す。ＳＳｐＮＮＡにおいて、リンクリストベースのストレージアプローチが、リソースを動的に割り当て、ハードウェアの未活用を回避するよう適用される。したがって、リンクリストデータ構造８０は、リンクリストベースの重みプレーン割り当てを用いる。ストレージをさらに減少させるべく、ＩＦＭインデックスがＩＦＭインデックスバッファ８４に格納され、当該情報へのインデックスがポインタテーブル８６に格納される。

【0048】

より多くのリソースをより多くのアクティブな隣接するボクセルを有するプレーンに割り当てることによって、１．５－２倍多くのルールブックペンシルがＳＳｐＮＮＡの内部の同一サイズのメモリに収容されることが可能になり得る。既に留意されたように、入力から出力まで（ｉ２ｏ）及び出力から入力まで（ｏ２ｉ）のルールブックのタイプは、アプリケーションに基づいて動的に選択され得る。示されるインデックスベースのストレージ機構は、インデックスキュー７６ａ、７６ｃ（図５）の出力でデータを交換することによって、スケジューリングされる両方のルールブックのタイプを有効にし、両方のＲＢタイプについて全体のＷＡＶＥＳ設計を同一に保持する。Ｎ次元の課題について、ＷＡＶＥＳは、重みプレーンの固定のタイルサイズで動作し得、依然として、完全なエンドトゥーエンド要件をサポートすることが可能である。さらに、高密度の作業負荷（例えば、重みビットマスク内の全てのビットセット）の利用率の低下が存在せず、ＷＡＶＥＳは、任意の修正なしに解決手段をサポートする。

【0049】

図７は、異なるシストリックグループ９２に操作する能力があるＳｙＭＡＣ計算ブロック９０を示す。すでに説明されたように、ＳｙＭＡＣ計算ブロック９０は、ＳｙＭＡＣ計算ブロック６０（図４）に容易置換され得る。実施形態において、シストリックグループの選択が動的に行われ、スケジューラは、より大きなＤｅＮＮでグループを形成し、Ｌ１への重み要求を減少させようと常に試みる。より大きいシストリックグループを形成するために十分なタプルが利用可能でない重みプレーンの境界で、次の重みプレーンが他のグループとしてスケジューリングされる。ＤｅＮＮブロック９４内の全ての処理要素（ＰＥ）は、同一のＩＦＭに直列で動作し、それぞれの重みは、パイプライン型の演算として４つの３２ビット浮動小数点ＭＡＣを実行して、部分的なＯＦＭデータを生成する。全てのデータバスは、例えば、４つのＩＥＥＥ７５４完全浮動小数点数を収容するために１２８ビット幅であり得る。実施形態において、各ＤｅＮＮブロック９４は、キューを用いるＤｅＮＮ－Ｑを有し、リソースが送る準備が整う前にデータをバッファする。各ＤｅＮＮ－Ｑはまた、ＩＦＭ及び重みデータのメモリフェッチをスケジューリングし得る。ＩＣデータバッファ（例えば、再循環バッファ）及び重み（ＷＴ）ブロックは、ＰＥにスケジューリングする前にメモリリクエストを配置し、データをバッファするロジックを含み得る。ＯＣ（出力チャネル）値が増加すると、ＩＣデータバッファ内のＩＦＭデータは、複数回再使用され得、ＩＣ（入力チャネル）値が増加すると、部分データの局所的な加算の割合は、ＰＥが同一のＯＦＭで動作することに応じて増加する。これらのモードは、ＩＣ及びＯＣの値に基づいて、自動的に有効にされ得る。これらの設計の選択は、内部データの再利用を増加させて、Ｌ１のアクセスを減少させる。

【0050】

加算（ＡＣＣ）ＯＦＭブロック９６は、複数のＤｅＮＮから生成された部分的なＯＦＭを加算し得、重複するＯＦＭを発見するためにタグ検索を実行し、重複するＯＦＭをローカルにマージする。実施形態において、ＡＣＣＯＦＭブロック９６はまた、生成されたＯＦＭでマージされるメモリから関連するＯＦＭを要求する。ＤｅＮＮごとに４つのＰＥを有する４つのＤｅＮＮ構成は、サイクルごとのＰＥごとに４つの要素を計算し、ＳＳｐＮＮＡがサイクルごとに６４ＭＵＬ演算をサポートすることを可能にする。ＳＳｐＮＮＡ構成を８つのＤｅＮＮに変更し、４つのＤｅＮＮの２つのシストリックグループで動作すると、サイクルごとの１２８ＭＵＬ演算に性能をそれぞれ倍増させ、重みのために任意の追加メモリポートを要求しない。

【0051】

ＳＳｐＮＮＡは、任意の利用可能な解決手段と比較してＮ次元のスパース処理を加速させ、計算リソースの全体の利用率を約９０％まで押し上げる。このＨＷＡは、以下の命令がＳＳｐＮＮＡのハードウェアを駆動するために用いられ得る、スタンドアロンのアクセラレータ又はコプロセッサとして用いられ得る。

【0052】

新しい命令は、ＳＳＸＲＢＬＮＩＦＭＯＦ「Ｎ」の入力特徴を有し、「Ｍ」の出力特徴を有する「Ｘ」のルールブックのラインを有する空間的なスパース性（ＳｐａｔｉａｌＳｐａｒｓｅｗｉｔｈ 'Ｘ' ＲｕｌｅＢｏｏｋｌｉｎｅｓｈａｖｉｎｇ 'Ｎ' ｉｎｐｕｔＦｅａｔｕｒｅａｎｄ 'Ｍ' ＯｕｔｐｕｔＦｅａｔｕｒｅ）」である。ここで、「Ｘ」は処理されるべきルールブックのラインの数を示し、「Ｎ」及び「Ｍ」はそれぞれ、入力特徴サイズ及び出力特徴サイズを表す。例えば、１６個の入力及び出力特徴マップで処理されるべき３２個のルールブックのラインが存在する場合、命令はＳＳ３２ＲＢＬ１６ＩＦ１６ＯＦである。ＩＦＭ及びＯＦＭのサイズは、ルールブック全体に対して同一のままであり得、メモリ帯域幅に適合するために４の倍数であり得る。

【0053】

実施形態において、命令のフォーマットは、ＳＳＸＲＢＬＮＩＦＭＯＦｔｓｒｃｄｅｓｔ、ｔｓｒｃ１、ｔｓｒｃ２、ｔｓｒｃ３である。ここで、ｔｓｒｃｄｅｓｔは、部分的／処理されたデータを読み取り、ライトバックするためのＯＦＭベースアドレスを指し、ｔｓｒｃ１は、ルールブックのラインのベースアドレスを表し、ｔｓｒｃ２及びｔｓｒｃ３はそれぞれ、ＩＦＭ及びＯＦＭのベースアドレスを表す。

【0054】

図８は、性能強化コンピューティングシステムを操作する方法１００を示す。すでに説明されたように、方法１００は、概して、例えば、ＨＷＡ５０（図４）等のハードウェアアクセラレータに実装され得る。より具体的には、方法１００は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、ファームウェア、フラッシュメモリ等の機械又はコンピュータ可読記憶媒体に格納されているロジック命令のセット、例えば、プログラマブルロジックアレイ（ＰＬＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）等の設定可能なロジック、例えば、特定用途向け集積回路（ＡＳＩＣ）、相補的金属酸化膜半導体（ＣＭＯＳ）若しくはトランジスタ－トランジスタロジック（ＴＴＬ）技術等の回路技術を用いる機能固定型ロジックハードウェア、又はそれらの任意の組み合わせとして、１又は複数のモジュールに実装され得る。

【0055】

例えば、方法１００に示されるオペレーションを実行するコンピュータプログラムコードは、ＪＡＶＡ（登録商標）、ＳＭＡＬＬＴＡＬＫ（登録商標）、Ｃ＋＋、又は同様のもの等のオブジェクト指向プログラミング言語、及び、「Ｃ」プログラミング言語又は同様のプログラミング言語等の従来の手続き型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述され得る。さらに、ロジック命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、状態設定データ、集積回路用の設定データ、電子回路をパーソナライズする状態情報、及び／又は、ハードウェア固有の他の構造コンポーネント（例えば、ホストプロセッサ、中央演算処理装置／ＣＰＵ、マイクロコントローラ等）を含み得る。

【0056】

示される処理ブロック１０２は、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードする。実施形態において、ブロック１０４は、重みプレーンに基づいて、空間的に分散されたボクセルＯＦＭをデコードされたデータに再配置する。１つの例において、ブロック１０４は、ＯＦＭアドレスの最下位ビット（ＬＳＢ）ハッシュに基づいて、ＯＦＭを配置する。したがって、たとえ、処理要素が任意の順序で実行している場合でも、一旦次のブロックが到達すると、ＯＦＭは、最初に、ハッシュ値（例えば、ＬＳＢビット）に基づいて、次に、ＯＦＭが加算される対応するチャネルに基づいて、再配置される。

【0057】

ブロック１０６は、出力を取得するために、再配置された空間的に分散されたボクセルＯＦＭにチャネル毎のＭＡＣ演算を実行する。ここで、チャネル毎のＭＡＣ演算は、コンピューティングシステム内の複数の処理要素によって部分的な加算として実行される。実施形態において、ブロック１０６は、データのスパース性に基づいて、複数の処理要素を割り当てる。さらに、チャネル毎のＭＡＣ演算は、重複するＯＦＭを（例えば、タグ検索を用いて）識別し得、重複するＯＦＭを（例えば、グローバルではなく）ローカルにマージし得る。示される方法１００は、少なくとも、命令がよりシームレスで効率的な実行を容易にし、重みプレーンに基づいて空間的に分散されたボクセルを再配置することによって計算及びメモリ要件を減少させ、及び／又は、複数の処理要素による部分的な加算としてチャネル毎のＭＡＣ演算を実行することによってサイクルごとの演算の数を増加させる程度にまで性能を強化する。

【0058】

図９は、性能強化コンピューティングシステムを操作するより詳細な方法１１０を示す。すでに説明されたように、方法１１０は、概して、例えば、ＨＷＡ５０（図４）等のハードウェアアクセラレータに実装され得る。より具体的には、方法１１０は、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ファームウェア、フラッシュメモリ等のマシン又はコンピュータ可読記憶媒体に格納されているロジック命令のセット、例えば、ＰＬＡ、ＦＰＧＡ、ＣＰＬＤ等の設定可能なロジック、例えば、ＡＳＩＣ、ＣＭＯＳ、若しくはＴＴＬ技術等の回路技術を用いる機能固定型ロジックハードウェア、又はそれらの任意の組み合わせとして、１又は複数のモジュールに実装され得る。

【0059】

示される処理ブロック１１２は、アプリケーション情報に基づいて、ルールブックのタイプを選択する。ここで、ルールブックのタイプは、ｉ２ｏタイプ又はｏ２ｉタイプのうちの１つである。ブロック１１４は、データのスパース性に基づいて、メモリを割り当て得る。例えば、ブロック１１４は、スパース性に基づいて、メモリのより小さいチャンクの動的割り当てを提供し得、これは、重みプレーンごとに固定リソースとしてマッピングされるストレージと比較して、約１．５倍多いルールブックのラインを収容するのに役立ち得る。実施形態において、ブロック１１６は、Ｌ１キャッシュからデータを読み取る。ここで、データは、２より大きい次元の変数を有し、データは、ルールブックのタイプと関連しているルールブックのラインフォーマットにある。したがって、ブロック１１６は、機能ブロック領域のバジェットに基づいて、一度にいくつかのプレーンを選択することによって、アーキテクチャが重みプレーンを階層的に処理することを可能にする。１つの例において、ブロック１１８は、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードする。

【0060】

さらに、ブロック１２０は、重みプレーンに基づいて、空間的に分散されたボクセルＯＦＭをデコードされたデータに再配置し得る。実施形態において、ブロック１２２は、ルールブックのタイプに基づいて、インデックスキューからの出力データを交換する。したがって、ブロック１２２は、ｉ２ｏタイプ及びｏ２ｉタイプのルールブックの両方が同一のスケジューラアーキテクチャでスケジューリングされることを可能にする。示されるブロック１２４は、出力を取得するために、再配置された空間的に分散されたボクセルＯＦＭにチャネル毎のＭＡＣ演算を実行する。ここで、チャネル毎のＭＡＣ演算は、複数の処理要素によって部分的な加算として実行される。それに応じて、ブロック１１２、１１４、１１６及び１２２は、性能をさらに強化する。

【0061】

図１０は、特徴ストレージを管理する方法１３０を示す。すでに説明されたように、方法１３０は、概して、例えば、ＨＷＡ５０（図４）等のハードウェアアクセラレータに実装され得る。より具体的には、方法１３０は、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ファームウェア、フラッシュメモリ等のマシン又はコンピュータ可読記憶媒体に格納されているロジック命令のセット、例えば、ＰＬＡ、ＦＰＧＡ、ＣＰＬＤ等の設定可能なロジック、例えば、ＡＳＩＣ、ＣＭＯＳ若しくはＴＴＬ技術等の回路技術を用いる機能固定型ロジックハードウェア、又はそれらの任意の組み合わせとして、１又は複数のモジュールに実装され得る。

【0062】

示される処理ブロック１３２は、特徴ペア情報（例えば、ＩＦＭ－ＯＦＭ）を静的バッファに格納することを提供する。実施形態において、ブロック１３４は、特徴マッピングペア情報に対応するインデックス情報をデータストレージ位置に格納する。方法１３０は、用いられるストレージの幅を著しく減少させ得る。

【0063】

ここで、図１１を参照すると、性能強化コンピューティングシステム１４０が示される。システム１４０は、概して、コンピューティング機能（例えば、携帯情報端末／ＰＤＡ、ノート型コンピュータ、タブレット型コンピュータ、コンバーチブル型タブレット、サーバ）、通信機能（例えば、スマートフォン）、撮像機能（例えば、カメラ、カムコーダ）、メディア再生機能（例えば、スマートテレビジョン／ＴＶ）、ウェアラブル機能（例えば、腕時計、眼鏡、帽子、履き物、宝石）、車両機能（例えば、車、トラック、バイク）、ロボット機能（例えば、自律ロボット）、モノのインターネット（ＩｏＴ）機能等、又はそれらの任意の組み合わせを有する電子デバイス／プラットフォームの一部であり得る。示される例において、システム１４０は、システムメモリ１４６に結合されている統合メモリコントローラ（ＩＭＣ）１４４を有するホストプロセッサ１４２（例えば、中央演算処理装置／ＣＰＵ）を含む。

【0064】

示されるシステム１４０はまた、システムオンチップ（ＳｏＣ）として半導体ダイ１５２上にホストプロセッサ１４２、アクセラレータ１５１、及びグラフィックスプロセッサ１５０（例えば、グラフィックス処理ユニット／ＧＰＵ）と共に実装される入出力（ＩＯ）モジュール１４８を含む。示されるＩＯモジュール１４８は、例えば、ディスプレイ１５４（例えば、タッチスクリーン、液晶ディスプレイ／ＬＣＤ、発光ダイオード／ＬＥＤディスプレイ）、ネットワークコントローラ１５６（例えば、有線及び／又は無線）、及び大容量ストレージ１５８（例えば、ハードディスクドライブ／ＨＤＤ、光ディスク、ソリッドステートドライブ／ＳＳＤ、フラッシュメモリ）と通信する。

【0065】

実施形態において、すでに説明されたように、アクセラレータ１５１は、方法１００（図８）、方法１１０（図９）、及び／又は方法１３０（図１０）のうちの１又は複数の態様を実行するためのロジック１６０（例えば、ロジック命令、設定可能なロジック、機能固定型ハードウェアロジック等、又はそれらの任意の組み合わせ）を含む。したがって、ロジック１６０は、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードすることを行い得る。ロジック１６０はまた、重みプレーンに基づいて、空間的に分散されたボクセルの出力特徴マップをデコードされたデータに再配置することと、出力を取得するために、再配置された空間的に分散されたボクセル出力特徴マップにチャネル毎のＭＡＣ演算を実行することとを行い得る。実施形態において、チャネル毎のＭＡＣ演算は、アクセラレータ１５１、ホストプロセッサ１４２、グラフィックスプロセッサ１５０、ＩＯモジュール１４８、及び／又は半導体ダイ１５２内の複数の処理要素によって部分的な加算として実行される。

【0066】

コンピューティングシステム１４０は、少なくとも、命令がよりシームレスで効率的な実行を容易にし、重みプレーンに基づいて空間的に分散されたボクセルを再配置することによって計算及びメモリ要件を減少させ、及び／又は、複数の処理要素による部分的な加算としてチャネル毎のＭＡＣ演算を実行することによってサイクルごとの演算の数を増加させる程度にまで性能強化されているとみなされる。

【0067】

図１２は、半導体パッケージ装置１７０を示す。示される装置１７０は、１又は複数の基板１７２（例えば、シリコン、サファイア、ヒ化ガリウム）と、基板１７２に結合されているロジック１７４（例えば、トランジスタアレイ及び他の集積回路／ＩＣコンポーネント）とを含む。ロジック１７４は、設定可能なロジック又は機能固定型ロジックハードウェアに少なくとも部分的に実装され得る。すでに説明されたように、１つの例において、ロジック１７４は、方法１００（図８）、方法１１０（図９）、及び／又は方法１３０（図１０）のうちの１又は複数の態様を実装する。したがって、ロジック１７４は、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードすることを行い得る。ロジック１７４はまた、重みプレーンに基づいて、空間的に分散されたボクセルの出力特徴マップをデコードされたデータに再配置することと、出力を取得するために、再配置された空間的に分散されたボクセル出力特徴マップにチャネル毎のＭＡＣ演算を実行することとを行い得る。実施形態において、チャネル毎のＭＡＣ演算は、１又は複数の基板１７２に結合されているロジック１７４内の複数の処理要素によって部分的な加算として実行される。

【0068】

装置１７０は、少なくとも、命令がよりシームレスで効率的な実行を容易にし、重みプレーンに基づいて空間的に分散されたボクセルを再配置することによって計算及びメモリ要件を減少させ、及び／又は、複数の処理要素による部分的な加算としてチャネル毎のＭＡＣ演算を実行することによってサイクルごとの演算の数を増加させる程度まで性能強化されているとみなされる。

【0069】

１つの例において、ロジック１７４は、基板１７２内に配置される（例えば、埋め込まれる）トランジスタチャネル領域を含む。したがって、ロジック１７４と基板１７２との間のインタフェースは、階段結合でない場合がある。ロジック１７４はまた、基板１７２の初期のウェハ上に成長するエピタキシャル層を含むとみなされ得る。

【0070】

図１３は、一実施形態による、プロセッサコア２００を示す。プロセッサコア２００は、マイクロプロセッサ、埋め込み型プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、又は、コードを実行する他のデバイス等の任意のタイプのプロセッサに対するコアであり得る。１つのプロセッサコア２００のみが図１３に示されているが、処理要素は、代替的に、図１３に示されるプロセッサコア２００の１より多くのものを含み得る。プロセッサコア２００は、シングルスレッドコアであってもよく、又は、少なくとも一実施形態について、プロセッサコア２００は、それが、コアごとに１つより多のハードウェアスレッドコンテキスト（若しくは「論理プロセッサ」）を含み得る、という点でマルチスレッドであってもよい。

【0071】

図１３はまた、プロセッサコア２００に結合されているメモリ２７０を示す。メモリ２７０は、当業者によって既知か、そうでなければ当業者に利用可能な（メモリ階層の様々な層を含む）多種多様なメモリのいずれかであり得る。メモリ２７０は、プロセッサコア２００によって実行される１又は複数のコード２１３の命令を含み得る。ここで、すでに説明されたように、コード２１３は、方法１００（図８）、方法１１０（図９）、及び／又は、方法１３０（図１０）のうちの１又は複数の態様を実装し得る。プロセッサコア２００は、コード２１３によって示される命令のプログラムシーケンスに従う。各命令は、フロントエンド部２１０に入り得、１又は複数のデコーダ２２０によって処理され得る。デコーダ２２０は、予め定義されたフォーマットの固定幅マイクロオペレーション等のマイクロオペレーションをその出力として生成してもよく、又は、元のコード命令を反映する他の命令、マイクロ命令、若しくは制御信号を生成してもよい。示されるフロントエンド部２１０はまた、レジスタリネーミングロジック２２５と、スケジューリングロジック２３０とを含み、それらは概して、リソースを割り当て、変換命令に対応するオペレーションを実行のためにキューに入れる。

【0072】

プロセッサコア２００は、実行ユニット２５５－１から２５５－Ｎまでのセットを有する実行ロジック２５０を含むように示される。いくつかの実施形態は、特定の機能又は機能のセット専用の複数の実行ユニットを含み得る。他の実施形態は、１つの実行ユニットのみを含んでもよく、特定の機能を実行できる１つの実行ユニットを含んでもよい。示される実行ロジック２５０は、コード命令によって指定されるオペレーションを実行する。

【0073】

コード命令によって指定されるオペレーションの実行を完了した後、バックエンドロジック２６０は、コード２１３の命令をリタイアさせる。一実施形態において、プロセッサコア２００は、アウトオブオーダの実行を可能にするが、命令のインオーダリタイアメントを要求する。リタイアメントロジック２６５は、当業者に既知の様々な形態をとり得る（例えば、リオーダバッファ又は同様のもの）。このようにして、プロセッサコア２００は、少なくとも、デコーダによって生成される出力、レジスタリネーミングロジック２２５によって利用されるハードウェアレジスタ及びテーブル、並びに、実行ロジック２５０によって修正される任意のレジスタ（不図示）の観点から、コード２１３の実行中に変換される。

【0074】

図１３に示されていないが、処理要素は、プロセッサコア２００を有するチップ上に他の要素を含み得る。例えば、処理要素は、プロセッサコア２００と共にメモリ制御ロジックを含み得る。処理要素は、Ｉ／Ｏ制御ロジックを含み得、及び／又は、メモリ制御ロジックと一体化されているＩ／Ｏ制御ロジックを含み得る。処理要素はまた、１又は複数のキャッシュを含み得る。

【0075】

ここで、図１４を参照すると、実施形態に従うコンピューティングシステム１０００の実施形態のブロック図が示される。図１４に示されるものは、第１の処理要素１０７０及び第２の処理要素１０８０を含むマルチプロセッサシステム１０００である。２つの処理要素１０７０及び１０８０が示されているが、システム１０００の実施形態はまた、１つのそのような処理要素のみを含み得ることが理解される。

【0076】

システム１０００は、ポイントツーポイントインターコネクトシステムとして示される。ここで、第１の処理要素１０７０及び第２の処理要素１０８０が、ポイントツーポイントインターコネクト１０５０を介して結合されている。図１４に示される任意又は全てのインターコネクトは、ポイントツーポイントインターコネクトではなくマルチドロップバスとして実装され得ることが理解されるべきである。

【0077】

図１４に示されるように、処理要素１０７０及び１０８０のそれぞれは、第１のプロセッサコア及び第２のプロセッサコア（すなわち、プロセッサコア１０７４ａ及び１０７４ｂ、並びに、プロセッサコア１０８４ａ及び１０８４ｂ）を含むマルチコアプロセッサであり得る。そのようなコア１０７４ａ、１０７４ｂ、１０８４ａ、１０８４ｂは、図１３に関連して上述したものと同様の態様で、命令コードを実行するよう構成され得る。

【0078】

各処理要素１０７０、１０８０は、少なくとも１つの共有キャッシュ１８９６ａ、１８９６ｂを含み得る。共有キャッシュ１８９６ａ、１８９６ｂは、コア１０７４ａ、１０７４ｂ及び１０８４ａ、１０８４ｂ等のプロセッサの１又は複数のコンポーネントによって利用されるデータ（例えば、命令）をそれぞれ格納し得る。例えば、共有キャッシュ１８９６ａ、１８９６ｂは、プロセッサのコンポーネントによるより高速なアクセスのために、メモリ１０３２、１０３４に格納されたデータをローカルにキャッシュし得る。１又は複数の実施形態において、共有キャッシュ１８９６ａ、１８９６ｂは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）若しくは他のレベルのキャッシュ等の１又は複数の中間レベルキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、及び／又はそれらの組み合わせを含み得る。

【0079】

２つの処理要素１０７０、１０８０のみが示されているが、実施形態の範囲がそのように限定されないことが理解されるべきである。他の実施形態において、１又は複数の追加の処理要素が所与のプロセッサに存在し得る。代替的に、１又は複数の処理要素１０７０、１０８０は、アクセラレータ又はフィールドプログラマブルゲートアレイ等のプロセッサ以外の要素であり得る。例えば、追加の処理要素は、第１のプロセッサ１０７０と同一である追加のプロセッサ、第１のプロセッサ１０７０と異種又は非対称である追加のプロセッサ、アクセラレータ（例えば、グラフィックスアクセラレータ又はデジタル信号処理（ＤＳＰ）ユニット等）、フィールドプログラマブルゲートアレイ、又は任意の他の処理要素を含み得る。アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性、電力消費特性、及び同様のものを含む、多種多様の価値基準の観点から、処理要素１０７０、１０８０間に様々な差異が存在し得る。これらの差異は、処理要素１０７０、１０８０の間の非対称性及び異種性として、自身を効果的に表し得る。少なくとも一実施形態について、様々な処理要素１０７０、１０８０は、同一のダイパッケージに存在し得る。

【0080】

第１の処理要素１０７０は、メモリコントローラロジック（ＭＣ）１０７２、並びに、ポイントツーポイント（Ｐ－Ｐ）インタフェース１０７６及び１０７８をさらに含み得る。同様に、第２の処理要素１０８０は、ＭＣ１０８２、並びに、Ｐ－Ｐインタフェース１０８６及び１０８８を含み得る。図１４に示されるように、ＭＣ１０７２及び１０８２は、プロセッサをそれぞれのメモリ、すなわち、メモリ１０３２及びメモリ１０３４に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であり得る。ＭＣ１０７２及び１０８２が処理要素１０７０、１０８０に統合されているものとして示されているが、代替の実施形態について、ＭＣロジックは、それらに統合されているものではなく、処理要素１０７０、１０８０の外部の個別のロジックであり得る。

【0081】

第１の処理要素１０７０及び第２の処理要素１０８０は、それぞれ、Ｐ－Ｐインターコネクト１０７６、１０８６を介して、Ｉ／Ｏサブシステム１０９０に結合され得る。図１４に示されるように、Ｉ／Ｏサブシステム１０９０は、Ｐ－Ｐインタフェース１０９４及び１０９８を含む。さらに、Ｉ／Ｏサブシステム１０９０は、Ｉ／Ｏサブシステム１０９０を高性能グラフィックスエンジン１０３８と結合するインタフェース１０９２を含む。一実施形態において、バス１０４９は、グラフィックスエンジン１０３８をＩ／Ｏサブシステム１０９０に結合するために用いられ得る。代替的に、ポイントツーポイントインターコネクトは、これらのコンポーネントを結合し得る。

【0082】

次に、Ｉ／Ｏサブシステム１０９０は、インタフェース１０９６を介して、第１のバス１０１６に結合され得る。一実施形態において、第１のバス１０１６は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、又は、ＰＣＩエクスプレスバス、若しくは他の第３世代のＩ／Ｏインターコネクトバス等のバスであり得るが、実施形態の範囲がそれらに限定されない。

【0083】

図１４に示されるように、様々なＩ／Ｏデバイス１０１４（例えば、生体スキャナ、スピーカ、カメラ、センサ）は、第１のバス１０１６を第２のバス１０２０に結合し得るバスブリッジ１０１８と共に、第１のバス１０１６に結合され得る。一実施形態において、第２のバス１０２０は、ローピンカウント（ＬＰＣ）バスであり得る。一実施形態において、例えば、キーボード／マウス１０１２、通信デバイス１０２６、及び、コード１０３０を含み得るディスクドライブ又は他の大容量ストレージデバイス等のデータストレージユニット１０１９を含む様々なデバイスは、第２のバス１０２０に結合され得る。すでに説明されたように、示されるコード１０３０は、方法１００（図８）、方法１１０（図９）、及び／又は、方法１３０（図１０）のうちの１又は複数の態様を実装し得る。さらに、オーディオＩ／Ｏ１０２４が第２のバス１０２０に結合され得、バッテリ１０１０がコンピューティングシステム１０００に電力を供給し得る。

【0084】

他の実施形態が考えられることに留意されたい。例えば、図１４のポイントツーポイントアーキテクチャではなく、システムは、マルチドロップバス又は他のそのような通信トポロジーを実装し得る。また、図１４の要素は、代替的に、図１４に示されるものより多い又は少ない統合チップを用いて分割され得る。

【0085】

［追加の注記及び例］

【0086】

（例１）性能強化コンピューティングシステムであって、ネットワークコントローラと、上記ネットワークコントローラに結合されているプロセッサと、上記プロセッサに結合されているメモリとを備え、上記メモリは、上記プロセッサによって実行されるときに、上記コンピューティングシステムに、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードすることと、重みプレーンに基づいて、空間的に分散されたボクセルの出力特徴マップを上記デコードされたデータに再配置することと、出力を取得するために、再配置された上記空間的に分散されたボクセル出力特徴マップにチャネル毎の積和（ＭＡＣ）演算を実行することであって、上記チャネル毎のＭＡＣ演算は、上記プロセッサ内の複数の処理要素によって部分的な加算として実行される、ＭＡＣ演算を実行することを行わせる実行可能プログラム命令のセットを含む、性能強化コンピューティングシステムを含む。

【0087】

（例２）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、アプリケーション情報に基づいて、ルールブックのタイプを選択することをさらに行わせ、上記ルールブックのタイプは、入力から出力までのタイプ又は出力から入力までのタイプのうちの１つである、例１のコンピューティングシステムを含む。

【0088】

（例３）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムにレベル１（Ｌ１）キャッシュから上記データを読み取ることをさらに行わせ、上記データは、２より大きい次元の変数を有し、上記データは、上記ルールブックのタイプと関連しているルールブックのラインフォーマットにある、例２のコンピューティングシステムを含む。

【0089】

（例４）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、上記ルールブックのタイプに基づいて、インデックスキューからの出力データを交換することをさらに行わせる、例２のコンピューティングシステムを含む。

【0090】

（例５）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、上記データのスパース性に基づいて、メモリ及び上記複数の処理要素を割り当てることをさらに行わせ、上記チャネル毎のＭＡＣ演算は、重複する出力特徴マップを識別し、上記重複する出力特徴マップをローカルにマージする、例１のコンピューティングシステムを含む。

【0091】

（例６）静的バッファとデータストレージとをさらに含み、上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、特徴マッピングペア情報を上記静的バッファに格納することと、上記特徴マッピングペア情報に対応するインデックス情報を上記データストレージ内の位置に格納することとをさらに行わせる、例１から例５のいずれか１つのコンピューティングシステムを含む。

【0092】

（例７）１又は複数の基板と、上記１又は複数の基板に結合されているロジックとを備え、上記ロジックは、１又は複数の設定可能なロジック又は機能固定型ハードウェアロジックに少なくとも部分的に実装され、上記１又は複数の基板に結合されている上記ロジックは、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードすることと、重みプレーンに基づいて、空間的に分散されたボクセルの出力特徴マップを上記デコードされたデータに再配置することと、出力を取得するために、再配置された上記空間的に分散されたボクセル出力特徴マップにチャネル毎の積和（ＭＡＣ）演算を実行することであって、上記チャネル毎のＭＡＣ演算は、上記１又は複数の基板に結合されている上記ロジック内の複数の処理要素によって部分的な加算として実行される、ＭＡＣ演算を実行することとを行う、半導体装置を含む。

【0093】

（例８）上記１又は複数の基板に結合されている上記ロジックは、アプリケーション情報に基づいて、ルールブックのタイプを選択することを行い、上記ルールブックのタイプは、入力から出力までのタイプ又は出力から入力までのタイプのうちの１つである、例７の装置を含む。

【0094】

（例９）上記１又は複数の基板に結合されている上記ロジックは、レベル１（Ｌ１）キャッシュから上記データを読み取ることを行い、上記データは、２より大きい次元の変数を有し、上記データは、上記ルールブックのタイプと関連しているルールブックのラインフォーマットにある、例８の装置を含む。

【0095】

（例１０）上記１又は複数の基板に結合されている上記ロジックは、上記ルールブックのタイプに基づいて、インデックスキューからの出力データを交換することを行う、例８の装置を含む。

【0096】

（例１１）上記１又は複数の基板に結合されている上記ロジックは、上記データのスパース性に基づいて、メモリ及び上記複数の処理要素を割り当てることを行い、上記チャネル毎のＭＡＣ演算は、重複する出力特徴マップを識別し、上記重複する出力特徴マップをローカルにマージする、例７の装置を含む。

【0097】

（例１２）上記１又は複数の基板に結合されている上記ロジックは、特徴マッピングペア情報を静的バッファに格納することと、上記特徴マッピングペア情報に対応するインデックス情報をデータストレージ位置に格納することとを行う、例７から例１１までのいずれか１つの装置を含む。

【0098】

（例１３）上記１又は複数の基板に結合されている上記ロジックは、上記１又は複数の基板内に位置しているトランジスタチャネル領域を含む、例７から例１１までのいずれか１つの装置を含む。

【0099】

（例１４）コンピューティングシステムによって実行されるとき、上記コンピューティングシステムに、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードすることと、重みプレーンに基づいて、空間的に分散されたボクセルの出力特徴マップを上記デコードされたデータに再配置することと、出力を取得するために、再配置された上記空間的に分散されたボクセル出力特徴マップにチャネル毎の積和（ＭＡＣ）演算を実行することであって、上記チャネル毎のＭＡＣ演算は、上記コンピューティングシステム内の複数の処理要素によって部分的な加算として実行される、ＭＡＣ演算を実行することとを行わせる、実行可能プログラム命令のセットを備える、少なくとも１つのコンピュータ可読記憶媒体を含む。

【0100】

（例１５）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、アプリケーション情報に基づいて、ルールブックのタイプを選択することをさらに行わせ、上記ルールブックのタイプは、入力から出力までのタイプ又は出力から入力までのタイプのうちの１つである、例１４の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0101】

（例１６）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、レベル１（Ｌ１）キャッシュから上記データを読み取ることをさらに行わせ、上記データは、２より大きい次元の変数を有し、上記データは、上記ルールブックのタイプと関連しているルールブックのラインフォーマットにある、例１５の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0102】

（例１７）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、上記ルールブックのタイプに基づいて、インデックスキューからの出力データを交換することをさらに行わせる、例１５の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0103】

（例１８）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、上記データのスパース性に基づいて、メモリ及び上記複数の処理要素を割り当てることをさらに行わせ、上記チャネル毎のＭＡＣ演算は、重複する出力特徴マップを識別し、上記重複する出力特徴マップをローカルにマージする、例１４の少なくとも１つのコンピュータ可読記憶媒体を含む。

【0104】

（例１９）上記実行可能プログラム命令のセットは、実行されるとき、上記コンピューティングシステムに、特徴マッピングペア情報を静的バッファに格納することと、上記特徴マッピングペア情報に対応するインデックス情報をデータストレージ位置に格納することとをさらに行わせる、例１４から例１８のいずれか１つの少なくとも１つのコンピュータ可読記憶媒体を含む。

【0105】

（例２０）性能強化コンピューティングシステムを操作する方法であって、処理されるべきルールブックの数、入力特徴サイズ、出力特徴サイズ、及び、複数の特徴マップベースアドレスを示す命令を用いてデータをデコードする段階と、重みプレーンに基づいて、空間的に分散されたボクセルの出力特徴マップを上記デコードされたデータに再配置する段階と、出力を取得するために、再配置された上記空間的に分散されたボクセル出力特徴マップにチャネル毎の積和（ＭＡＣ）演算を実行する段階であって、上記チャネル毎のＭＡＣ演算は、複数の処理要素によって部分的な加算として実行される、段階とを備える、方法を含む。

【0106】

（例２１）アプリケーション情報に基づいて、ルールブックのタイプを選択する段階をさらに含み、上記ルールブックのタイプは、入力から出力までのタイプ又は出力から入力までのタイプのうちの１つである、例２０の方法を含む。

【0107】

（例２２）レベル１（Ｌ１）キャッシュから上記データを読み取る段階をさらに含み、上記データは、２より大きい次元の変数を有し、上記データは、上記ルールブックのタイプと関連しているルールブックのラインフォーマットにある、例２１の方法を含む。

【0108】

（例２３）上記ルールブックのタイプに基づいて、インデックスキューからの出力データを交換する段階をさらに含む、例２１の方法を含む。

【0109】

（例２４）上記データのスパース性に基づいて、メモリ及び上記複数の処理要素を割り当てる段階をさらに含み、上記チャネル毎のＭＡＣ演算は、重複する出力特徴マップを識別し、上記重複する出力特徴マップをローカルにマージする、例２０の方法を含む。

【0110】

（例２５）特徴マッピングペア情報を静的バッファに格納する段階と、上記特徴マッピングペア情報に対応するインデックス情報をデータストレージ位置に格納する段階とをさらに含む、例２０から例２４のいずれか１つの方法を含む。

【0111】

（例２６）例２０から例２５のいずれか１つの方法を実行するための手段を含む。

【0112】

実施形態は、全てのタイプの半導体集積回路（「ＩＣ」）チップでの使用に適用可能である。これらのＩＣチップの例は、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ（ＰＬＡ）、メモリチップ、ネットワークチップ、システムオンチップ（ＳｏＣ）、ＳＳＤ／ＮＡＮＤコントローラＡＳＩＣ、及び同様のものを含むがこれらに限定されない。さらに、いくつかの図において、信号導線が線で表される。この一部は、より多くの成分信号パスを示すべく異なっていてよく、複数の成分信号パスを示すべく番号ラベルを有してよく、及び／又は、主要情報の流れ方向を示すべく、１又は複数の端部に矢印を有してよい。しかしながら、このことは、限定的に解釈されるべきでない。むしろ、このような追加の詳細は、回路のより容易な理解を促進すべく、１又は複数の例示的な実施形態に関連して用いられ得る。追加の情報を有しているか否かにかかわらず、表わされる任意の信号線は、実際には、複数の方向に伝搬し得る１又は複数の信号を備え得、任意の適切なタイプの信号方式、例えば、差動ペアで実装されるデジタル線又はアナログ線、光ファイバ線、及び／又は、シングルエンド線、で実装され得る。

【0113】

例示的なサイズ／モデル／値／範囲が与えられている場合があるが、実施形態は同一のものに限定されない。時間とともに製造技術（例えば、フォトリソグラフィ）が成熟するにつれて、より小型のデバイスが製造され得ることが予期される。さらに、例示及び説明を簡潔にするために、且つ、実施形態の特定の態様を不明瞭にしないために、ＩＣチップ及び他のコンポーネントへの周知の電源／グラウンド接続が、図面内に示されてもよく、図面内に示されていなくてもよい。さらに、実施形態を不明瞭にすることを回避すべく、構成がブロック図の形態で示され得、また、このようなブロック図の構成の実装に関する詳細は実施形態が実装されるコンピューティングシステムに大きく依存する、という事実を鑑みれば、すなわち、このような詳細は、当業者の十分知見の範囲内であるべきである。例示的な実施形態を説明すべく、具体的な詳細（例えば、回路）が説明される場合、これらの具体的な詳細なしで、又はこれらの具体的な詳細の変形を用いて、実施形態が実施され得ることが当業者に明らかであるはずである。したがって、説明は、限定的なものではなく、例示的なものとみなされるべきである。

【0114】

「結合」という用語は、対象となっているコンポーネント間の任意のタイプの直接的又は間接的な関係を指すために本明細書で用いられ得、電気的、機械的、流体的、光学的、電磁的、電子機械的、又は他の接続に適用され得る。さらに、「第１の」、「第２の」等の用語は、説明を容易にするためにのみ本明細書で用いられ得、別段の記載がない限り、特定の時間的又は経時的な意味を含まない。

【0115】

本願及び特許請求の範囲で用いられるように、「のうちの１又は複数」という用語によって結合される項目の列挙は、列挙された用語の任意の組み合わせを意味し得る。例えば、「Ａ、Ｂ、又はＣのうちの１又は複数」という文言は、Ａ、Ｂ、Ｃ、Ａ及びＢ、Ａ及びＣ、Ｂ及びＣ、又は、Ａ、Ｂ、及びＣを意味し得る。

【0116】

当業者であれば、上述の説明から、実施形態の広範な技術が様々な形態で実装され得ることを理解するだろう。したがって、実施形態がそれらの特定の例に関連して説明されてきたが、実施形態の真の範囲は、このように限定されるべきでない。なぜなら、図面、明細書、及び以下の特許請求の範囲を検討すれば、他の修正が当業者には明らかになるからである。

【図1】