特許7616757 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特許7616757行列演算アクセラレータの命令のための装置、方法、及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20A
20B
20C
20D
21
22
23
24
25
26
27A
27B
28A
28B
28C
28D
29
30A
30B
31A
31B
32
33
34
35
36
37

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-08

(45)【発行日】2025-01-17

(54)【発明の名称】行列演算アクセラレータの命令のための装置、方法、及びシステム

(51)【国際特許分類】

G06F 17/16 20060101AFI20250109BHJP

【ＦＩ】

G06F17/16 M

【請求項の数】 25

【外国語出願】

(21)【出願番号】P 2020103403

(22)【出願日】2020-06-15

(65)【公開番号】P2021057004

(43)【公開日】2021-04-08

【審査請求日】2023-06-12

(31)【優先権主張番号】16/586,114

(32)【優先日】2019-09-27

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591003943

【氏名又は名称】インテル・コーポレーション

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】カムレシュアール．ピレイ

(72)【発明者】

【氏名】クリストファージェイ．ヒューズ

(72)【発明者】

【氏名】アレキサンダーハイネック

【審査官】三坂敏夫

(56)【参考文献】

【文献】米国特許出願公開第２０１９／０１２９７１９（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０１０２１９６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／００４２２１６（ＵＳ，Ａ１）

【文献】特開平０４－０４３４６１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０００４５１０（ＵＳ，Ａ１）

【文献】米国特許第０８９２４４５５（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／００－１７／１８

(57)【特許請求の範囲】

【請求項1】

融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路と、
前記行列演算アクセラレータ回路に結合される少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタと、
前記行列演算アクセラレータ回路に結合される少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタと、
前記行列演算アクセラレータ回路に結合されるコアの復号器であって、単一の命令を、復号された単一の命令へと復号し、前記単一の命令が結果として得られるストレージを識別するフィールドを有する、復号器と、
前記復号された単一の命令を実行する前記コアの実行回路と
を備え、
前記コアの実行回路が、前記行列演算アクセラレータ回路を、前記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の前記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ前記結果として得られるストレージに前記出力値を格納する第１のモードから、前記２次元グリッドの融合積和回路の前記第１の適切なサブセットのそれぞれについての前記各出力が、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ前記結果として得られるストレージに前記第１の出力値を格納し、前記２次元グリッドの融合積和回路の前記第２の適切なサブセットのそれぞれについての各出力が、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ前記結果として得られるストレージに前記第２の出力値を格納する第２のモードへとスイッチする、装置。

【請求項2】

前記行列演算アクセラレータ回路が、第２のフィールドが第１の値である場合には前記第１のモードで実行し、前記第２のフィールドが第２の値である場合には前記第２のモードで実行することを示す前記第２のフィールドを、前記単一の命令が有する、請求項１に記載の装置。

【請求項3】

前記第２のフィールドは、前記単一の命令の即値である、請求項２に記載の装置。

【請求項4】

前記結果として得られるストレージが、前記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、請求項１から３の何れか一項に記載の装置。

【請求項5】

前記復号された単一の命令を実行することが、
前記第１のモードでは、前記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す前記第３の複数のレジスタからの値を前記出力値に加算して、更新された出力値を形成し、前記更新された出力値を前記出力値に代えて、前記結果として得られるストレージに格納することであり、
前記第２のモードでは、前記第３の複数のレジスタに最初に格納される前記少なくとも１つの第３入力２次元行列からの値を前記第１の出力値及び前記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、前記更新された第１の出力値及び前記更新された第２の出力値を、前記第１の出力値及び前記第２の出力値に代えて、前記結果として得られるストレージに格納することである、請求項４に記載の装置。

【請求項6】

前記復号された単一の命令を実行することが、
前記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を前記出力値に加算して、更新された出力値を形成し、前記更新された出力値を前記出力値に代えて、前記結果として得られるストレージに格納することであり、
前記第２のモードでは、前記第３の複数のレジスタに最初に格納される前記少なくとも１つの第３入力２次元行列からの値を前記第１の出力値及び前記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、前記更新された第１の出力値及び前記更新された第２の出力値を、前記第１の出力値及び前記第２の出力値に代えて、前記結果として得られるストレージに格納することである、請求項１に記載の装置。

【請求項7】

前記結果として得られるストレージは、前記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、請求項１から６の何れか一項に記載の装置。

【請求項8】

前記融合積和回路の第１の適切なサブセットは、前記融合積和回路の２次元グリッドにおける行または列の１つであり、
前記融合積和回路の第２の適切なサブセットは、前記融合積和回路の２次元グリッドにおける前記行または前記列の他方の前記１つである、請求項１から７の何れか一項に記載の装置。

【請求項9】

プロセッサコアの復号器で単一の命令を復号された単一の命令に復号する段階であって、前記プロセッサコアが融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路に結合され、前記行列演算アクセラレータ回路が少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタ及び少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタに結合され、前記単一の命令が結果として得られるストレージを識別するフィールドを有する、段階と、
前記復号された単一の命令を前記プロセッサコアの実行回路で実行する段階と
を備え、
前記実行する段階が、前記行列演算アクセラレータ回路を、前記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の前記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ前記結果として得られるストレージに前記出力値を格納する第１のモードから、前記２次元グリッドの融合積和回路の前記第１の適切なサブセットのそれぞれについての前記各出力が、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ前記結果として得られるストレージに前記第１の出力値を格納し、前記２次元グリッドの融合積和回路の前記第２の適切なサブセットのそれぞれについての各出力が、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ前記結果として得られるストレージに前記第２の出力値を格納する第２のモードへとスイッチする、方法。

【請求項10】

前記行列演算アクセラレータ回路が、第２のフィールドが第１の値である場合には前記第１のモードで実行し、前記第２のフィールドが第２の値である場合には前記第２のモードで実行することを示す前記第２のフィールドを、前記単一の命令が有する、請求項９に記載の方法。

【請求項11】

前記第２のフィールドは、前記単一の命令の即値である、請求項１０に記載の方法。

【請求項12】

前記結果として得られるストレージが、前記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、請求項９から１１の何れか一項に記載の方法。

【請求項13】

前記復号された単一の命令を実行する段階が、
前記第１のモードでは、前記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す前記第３の複数のレジスタからの値を前記出力値に加算して、更新された出力値を形成し、前記更新された出力値を前記出力値に代えて、前記結果として得られるストレージに格納することであり、
前記第２のモードでは、前記第３の複数のレジスタに最初に格納される前記少なくとも１つの第３入力２次元行列からの値を前記第１の出力値及び前記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、前記更新された第１の出力値及び前記更新された第２の出力値を、前記第１の出力値及び前記第２の出力値に代えて、前記結果として得られるストレージに格納することである、請求項１２に記載の方法。

【請求項14】

前記復号された単一の命令を実行する段階が、
前記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を前記出力値に加算して、更新された出力値を形成し、前記更新された出力値を前記出力値に代えて、前記結果として得られるストレージに格納することであり、
前記第２のモードでは、前記第３の複数のレジスタに最初に格納される前記少なくとも１つの第３入力２次元行列からの値を前記第１の出力値及び前記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、前記更新された第１の出力値及び前記更新された第２の出力値を、前記第１の出力値及び前記第２の出力値に代えて、前記結果として得られるストレージに格納することである、請求項９に記載の方法。

【請求項15】

前記結果として得られるストレージは、前記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、請求項９から１４の何れか一項に記載の方法。

【請求項16】

前記融合積和回路の第１の適切なサブセットは、前記融合積和回路の２次元グリッドにおける行または列の１つであり、
前記融合積和回路の第２の適切なサブセットは、前記融合積和回路の２次元グリッドにおける前記行または前記列の他方の前記１つである、請求項９から１５の何れか一項に記載の方法。

【請求項17】

命令を備えるプログラムであって、機械に実行された場合に前記機械に方法を実行させ、前記方法が、
プロセッサコアの復号器で単一の命令を復号された単一の命令に復号する段階であって、前記プロセッサコアが融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路に結合され、前記行列演算アクセラレータ回路が少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタ及び少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタに結合され、前記単一の命令が結果として得られるストレージを識別するフィールドを有する、段階と、
前記復号された単一の命令を前記プロセッサコアの実行回路で実行する段階と
を備え、
前記実行する段階が、前記行列演算アクセラレータ回路を、前記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の前記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ前記結果として得られるストレージに前記出力値を格納する第１のモードから、前記２次元グリッドの融合積和回路の前記第１の適切なサブセットのそれぞれについての前記各出力が、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ前記結果として得られるストレージに前記第１の出力値を格納し、前記２次元グリッドの融合積和回路の前記第２の適切なサブセットのそれぞれについての各出力が、前記少なくとも１つの第１入力２次元行列及び前記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ前記結果として得られるストレージに前記第２の出力値を格納する第２のモードへとスイッチする、プログラム。

【請求項18】

前記行列演算アクセラレータ回路が、第２のフィールドが第１の値である場合には前記第１のモードで実行し、前記第２のフィールドが第２の値である場合には前記第２のモードで実行することを示す前記第２のフィールドを、前記単一の命令が有する、請求項１７に記載のプログラム。

【請求項19】

前記第２のフィールドは、前記単一の命令の即値である、請求項１８に記載のプログラム。

【請求項20】

前記結果として得られるストレージが、前記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、請求項１７から１９の何れか一項に記載のプログラム。

【請求項21】

【請求項22】

【請求項23】

前記結果として得られるストレージは、前記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、請求項１７から２２の何れか一項に記載のプログラム。

【請求項24】

前記融合積和回路の第１の適切なサブセットは、前記融合積和回路の２次元グリッドにおける行または列の１つであり、
前記融合積和回路の第２の適切なサブセットは、前記融合積和回路の２次元グリッドにおける前記行または前記列の他方の前記１つである、請求項１７から２３の何れか一項に記載のプログラム。

【請求項25】

請求項１７から２４の何れか一項に記載のプログラムを格納するコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、概してコンピュータプロセッサアーキテクチャに関し、より詳細には、行列演算アクセラレータ回路を使用して、行列演算を実行するための命令を実行するための、装置、システム及び方法に関する。

【背景技術】

【0002】

プロセッサまたはプロセッサのセットは、例えば命令セットアーキテクチャ（ＩＳＡ）等の命令セットからの命令を実行する。命令セットは、プログラミングに関するコンピュータアーキテクチャの一部であり、概して、ネイティブデータ型、命令、レジスタアーキテクチャ、アドレス指定モード、メモリアーキテクチャ、割り込み及び例外処理、並びに外部入出力（Ｉ／Ｏ）を含む。ここでの命令という用語は、マクロ命令、例えばプロセッサを実行するために提供される命令、あるいは、マイクロ命令、例えば、プロセッサのデコーダがマクロ命令を復号することから得られる命令、を意味してよいことに留意されたい。

【図面の簡単な説明】

【0003】

本開示は例として示されるものであって、添付図面の複数の図において限定されるものではなく、同様の参照符号は同様の要素を示している。

【0004】

【図1A】本開示の複数の実施形態に係る構成されたタイルの実施形態を示す。

【0005】

【図1B】本開示の複数の実施形態に係る構成されたタイルの実施形態を示す。

【0006】

【図2】本開示の複数の実施形態に係るマトリクス記憶装置のいくつかの例を示す。

【0007】

【図3】本開示の複数の実施形態に係る行列（タイル）演算アクセラレータを用いるシステムの実施形態を示す。

【0008】

【図4】行列演算アクセラレータを使用してどのようにメモリが共有されるかの異なる実施形態を示す。

【図5】行列演算アクセラレータを使用してどのようにメモリが共有されるかの異なる実施形態を示す。

【0009】

【図6】タイル（ＴＭＭＡ）を使用した行列積和演算の実施形態を示す。

【0010】

【図7】チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。

【0011】

【図8】チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。

【0012】

【図9】チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。

【0013】

【図10】チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。

【0014】

【図11】２のべき乗サイズのＳＩＭＤ実装を示しており、アキュムレータが、本実施形態に係る乗算器への入力よりも大きな入力サイズを使用する。

【0015】

【図12】行列演算回路を用いるシステムの実施形態を示す。

【0016】

【図13】タイルを使用する行列演算をサポートするプロセッサコアパイプラインの実施形態を示す。

【0017】

【図14】タイルを使用する行列演算をサポートするプロセッサコアパイプラインの実施形態を示す。

【0018】

【図15】行優先形式及び列優先形式で表される行列の一例を示す。

【0019】

【図16】複数の行列（タイル）の使用法の一例を示す。

【0020】

【図17】複数の行列（タイル）の使用法に関する方法の実施形態を示す。

【0021】

【図18】一実施形態に係るタイルの使用法の設定のためのサポートを示す。

【0022】

【図19】サポート対象の複数の行列（タイル）の記述についての実施形態を示す。

【0023】

【図20A】レジスタの例を示す。

【図20B】レジスタの例を示す。

【図20C】レジスタの例を示す。

【図20D】レジスタの例を示す。

【0024】

【図21】処理エレメント回路の２次元グリッドを備える行列演算アクセラレータ回路の実施形態を示す。

【0025】

【図22】いくつかの実施形態に係る行列演算を加速するためのTILEPARTIALDOTPRODUCT命令の使用を示すブロック図である。

【0026】

【図23】本開示の複数の実施形態に係るTILEPARTIALDOTPRODUCT命令を処理する方法２３００を示す。

【0027】

【図24】第１のモード及び第２のモードの間をスイッチする設定スイッチの行を含む処理エレメント回路の２次元グリッドを備える、行列演算アクセラレータ回路の実施形態を示す。

【0028】

【図25】設定スイッチの実施形態を示す。

【0029】

【図26】複数のモードの間をスイッチする設定スイッチの複数の行を含む処理エレメント回路の２次元グリッドを備える、行列演算アクセラレータ回路の実施形態を示す。

【0030】

【図27A】本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマット及びそのクラスＡ命令テンプレートを示すブロック図である。

【0031】

【図27B】本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマット及びそのクラスＢ命令テンプレートを示すブロック図である。

【0032】

【図28A】本開示の複数の実施形態に係る図２７Ａおよび図２７Ｂにおける汎用ベクトル向け命令フォーマットのためのフィールドを示すブロック図である。

【0033】

【図28B】本開示の一実施形態に係るフルオペコードフィールドを形成する図２８Ａにおける特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0034】

【図28C】本開示の一実施形態に係るレジスタインデックスフィールドを形成する図２８Ａにおける特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0035】

【図28D】本開示の一実施形態に係る拡張オペレーションフィールド２７５０を形成する図２８Ａにおける特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0036】

【図29】本開示の一実施形態に係るレジスタアーキテクチャのブロック図である。

【0037】

【図30A】本開示の実施形態に係る、例示的インオーダパイプライン及び例示的レジスタリネーミング・アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

【0038】

【図30B】本開示の複数の実施形態に係るプロセッサに含まれるべきインオーダアーキテクチャコアの例示的実施形態及び例示的レジスタリネーミング・アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

【0039】

【図31A】本開示の複数の実施形態に係る単一のプロセッサコアのブロック図を、オンダイ相互接続ネットワークへのその接続及び二次（Ｌ２）キャッシュのそのローカルサブセットと共に示す。

【0040】

【図31B】本開示の複数の実施形態に係る図３１Ａのプロセッサコアの一部の拡大図である。

【0041】

【図32】本開示の複数の実施形態に係るプロセッサのブロック図であって、１つより多くのコアを有してよく、統合メモリコントローラを有してよく、統合グラフィックを有してよい。

【0042】

【図33】本開示の一実施形態に係るシステムのブロック図である。

【0043】

【図34】本開示の実施形態に係るより具体的な例示的システムのブロック図である。

【0044】

【図35】示されるのは、本開示の実施形態に係る第２のより具体的な例示的システムのブロック図である。

【0045】

【図36】示されるのは、本開示の実施形態に係るシステムオンチップ（ＳｏＣ）のブロック図である。

【0046】

【図37】ソース命令セットにおけるバイナリ命令を、本開示の複数の実施形態に係るターゲット命令セットにおけるバイナリ命令へ変換するソフトウェア命令コンバータの使用を対比したブロック図である。

【発明を実施するための形態】

【0047】

以下の説明では、多数の具体的な詳細が示される。しかしながら、複数の実施形態が、これらの具体的な詳細なく実施可能であることが理解される。本願の説明の理解を曖昧にしないために、他の複数の例において、周知の回路、構造および技術は、詳細には示されない。

【0048】

本明細書における「一実施形態」「実施形態」「例示的実施形態」等の記載は、その説明されている実施形態が、特定の特徴、構造または特性を含んでよいことを示すが、全ての実施形態が必ずしも、特定の特徴、構造または特性を含まなくてもよい。さらに、これらの語句は、必ずしも同じ実施形態を参照しているわけではない。さらに、ある実施形態に関連して特定の特徴、構造または特性が説明されている場合に、当業者の知識の範囲内で、明示的に説明されているか否かに関わらず、他の実施形態に関連して、そのような特徴、構造または特性を用いる傾向があると考えられる。

【0049】

行列は、例えば機械学習および他のバルクデータ処理の多くのコンピューティングタスクにおいて、ますます重要になる可能性がある。深層学習は、機械学習アルゴリズムのクラスである。ディープニューラルネットワーク等の深層学習アーキテクチャは、コンピュータビジョン、会話認識、自然言語処理、オーディオ認識、ソーシャルネットワークフィルタリング、機械翻訳、生物情報科学、薬物設計を含む分野に適用されてよい。

【0050】

深層学習のために用いられる２つのツールである推論とトレーニングは、低い正確性の算術を用いてよい。深層学習のアルゴリズムおよび計算のスループットを最大化することは、深層学習プロセッサに関する必要性、例えば、データセンターでそれらの深層学習を実行する人や物のニーズを満たすことを支援できる可能性がある。

【0051】

行列－行列乗算（別名、ＧＥＭＭまたは汎用行列乗算）は、特定のプロセッサにおいて、計算が大変な演算である。行列乗算（例えば、ＧＥＭＭ）のための特別なハードウェアは、深層学習等の所定のアプリケーションのピーク計算（及びエネルギー効率）を改善するための良い選択肢である。深層学習を含むこれらのアプリケーションのうちのいくつかは、出力要素が十分なビットを有する限り（例えば、入力より多い）、正確さを失うことなく比較的少ないビットで入力データ要素に作用することができる。

【0052】

特定のプロセッサにおいて行列処理は、難しい及び／又は集約タスクの命令である。例えば、行列の行は、複数のパックドデータ（例えばＳＩＭＤまたはベクトル）レジスタに置かれ、次に個々に演算され得る。例えば、２つの８×２行列（例えば、行と列）の加算には、データサイズに応じた４つのパックドデータレジスタへのロード（ｌｏａｄ）または集積（ｇａｔｈｅｒ）が要求されうる。次に、各行列の第１行に対応するパックドデータレジスタについて第１加算が実行され、各行列の第２行に対応するパックドデータレジスタについて第２加算が実行される。次に、結果パックドデータレジスタがメモリへ分散バック（ｓｃａｔｔｅｒｅｄｂａｃｋ）される。小さな行列であればこのシナリオが容認されるが、より大きな行列には、しばしば、容認できない。
説明

【0053】

本明細書では、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）およびアクセラレータ等のコンピュータハードウェアでの行列演算をサポートするためのメカニズムが説明される。行列演算では、レジスタ等のメモリの１または複数のパックド領域を表す２次元（２－Ｄ）データ構造を用いる。本説明の全体にわたり、これらの２－Ｄデータ構造は、タイルと称される。なお、行列は、タイルより小さくてよく（１つのタイルの全てより小さい部分を使用）、または、複数のタイルを用いてもよい（行列が、任意の１つのタイルのサイズよりも大きい）。本説明の全体にわたり、行列（タイル）という語句は、１つの行列に影響する複数のタイルを使用して演算が実行されることを示すために用いられ、行列が任意の１つのタイルよりも大きいか否かは、典型的には関連がない。

【0054】

各タイルは、本明細書で詳述されるように、異なる演算によって作用してよく、これらの演算は、行列（タイル）乗算、タイル加算、タイル減算、タイル対角、タイルゼロ、タイル変換、タイルドット積、タイルブロードキャスト、タイル行ブロードキャスト、タイル列ブロードキャスト、タイル乗算、タイル積和、タイルムーブ、等を含んでよいが、それらの演算に限定されるものではない。加えて、スケール及び／又はバイアスの使用等の演算子のサポートは、これらの演算と共に、または、例えばＯｐｅｎＣＬ「ローカルメモリ」、データ圧縮／圧縮解除等の将来の非数値アプリケーションのサポートによって、用いられてよい。また本明細書では、行列演算（例えば、TILEPARTIALDOTPRODUCT）命令を実行するための命令が説明される。

【0055】

ストレージ（例えば、メモリ（不揮発性／揮発性）、レジスタ、キャッシュ等）の一部が、異なる水平方向及び垂直方向の次元のタイルに配置される。例えば、１つのタイルが、４の水平次元（例えば、行列の４行）と、８の垂直次元（例えば、行列の８列）とを有してよい。典型的には、水平次元は、要素サイズ（例えば、２－, ４－, ８－, １６－, ３２－, ６４－, １２８－ビット等）に関連する。複数のデータ型（単精度浮動小数点、倍精度浮動小数点、整数、等）がサポートされてよい。
構成されたタイルの使用例

【0056】

いくつかの実施形態において、タイルパラメータが構成されてよい。例えば、所与のタイルは、複数のタイルオプションを提供するように構成されてよい。例示的タイルオプションとして、これに限定されるものではないが、タイルの行の数、タイルの列の数、タイルが有効であるか否か、タイルが等サイズのタイルのペアから成るか否か、を含む。

【0057】

図１Ａは、構成されたタイルの実施形態を示す。示されるように、アプリケーションメモリ１０２の４ｋＢが、これに、４つの１ｋＢタイトル、即ち、タイルｔ０１０４、タイルｔ１１０６、タイルｔ２１０８、およびタイルｔ３１１０を格納する。本例では、４つのタイルはペアを構成せず、それぞれが、行及び列に配置された要素を有する。タイルｔ０１０４およびタイルｔ１１０６は、４バイト要素（例えば、単精度データ）のＫ行・Ｎ列を有し、Ｋは８に等しく、Ｎ＝３２である。タイルｔ２１０８およびタイルｔ３１１０は、８バイト要素（例えば、倍精度データ）のＫ行・Ｎ／２列を有する。倍精度のオペランドは、単精度の２倍幅であるため、この構成は、タイルオプションを提供するために用いられるパレットと整合し、少なくとも４つのネームに少なくとも４ＫＢの総ストレージを供給する。演算時にタイルは、ロード・ストアオペレーションを用いて、メモリから読み込まれ、メモリへ格納される。用いられる命令エンコードスキームに応じて、利用可能なタイルのサイズ、数、及び構成、並びに、利用可能なアプリケーションメモリの量が変化する。

【0058】

図１Ｂは、構成されたタイルの実施形態を示す。示されるように、アプリケーションメモリ１２２の４ｋＢが、１ｋＢタイトルの２つのペア、即ち、タイルｔ４Ｌ１２４及びタイルｔ４Ｒ１２６の第１ペア、並びに、タイルｔ５Ｌ１２８及びタイルｔ５Ｒ１３０の第２ペアを格納する。示されるように、タイルのペアは、左タイルおよび右タイルに分割される。他の実施形態では、タイルのペアは、偶数タイルおよび奇数タイルに分割される。本例では、４つのタイルのそれぞれが、行及び列に配置された要素を有する。タイルｔ４Ｌ１２４及びタイルｔ４Ｒ１２６は、４バイト要素（例えば、単精度浮動小数点データ）のＫ行・Ｎ列を有し、Ｋは８に等しく、Ｎは３２に等しい。タイルｔ５Ｌ１２８及びタイルｔ５Ｒ１３０は、８バイト要素（例えば、倍精度浮動小数点データ）のＫ行・Ｎ／２列を有する。倍精度のオペランドは、単精度の２倍幅であるため、この構成は、タイルオプションを提供するために用いられるパレットと整合し、少なくとも２のネームに少なくとも４ＫＢの総ストレージを供給する。図１Ａの４つのタイルは、４つのネームを使用し、それぞれが１ｋＢタイルであり、他方、図１Ｂの２つのタイルのペアは、ペアタイルを指定するのに２つのネームを使用することができる。いくつかの実施形態において、タイル命令は、オペランドとして、ペアタイルの名称を受け入れる。演算時に、タイルは、ロード・ストアオペレーションを用いて、メモリから読み込まれ、メモリへ格納される。用いられる命令エンコードスキームに応じて、利用可能なタイルのサイズ、数、および構成、並びに、利用可能なアプリケーションメモリの量が変化する。

【0059】

いくつかの実施形態において、タイルパラメータが定義可能である。例えば、「パレット」が、タイルオプションを提供するために用いられる。例示的な選択肢として、これに限定されるものではないが、タイルネーム数、ストレージの行におけるバイト数、タイル中の行及び列の数、等を含む。例えば、タイルの最大「高さ」（行の数）は、以下のように定義されてよい。

【0060】

タイル最大行＝設計ストレージ／（パレットネーム数×行毎のバイト数）

【0061】

このように、ネームの固定使用法が実装にわたって異なるストレージサイズを利用できるように、アプリケーションを書き込むことが可能となる。

【0062】

タイルの構成は、タイル設定（ＴＩＬＥＣＯＮＦＩＧ）命令を使用して行われ、特定のタイル使用は、選択されたパレットで定義される。この宣言には、使用されるべきタイルネーム数、ネーム（タイル）毎の要求された行及び列の数を含み、いくつかの実施形態においては、各タイルの要求されたデータ型を含む。いくつかの実施形態において、整合性チェックがＴＩＬＥＣＯＮＦＩＧ命令の実行中に実行されて、パレットエントリの制約に適合することを判断する。
例示的タイルのストレージ型

【0063】

図２は、マトリクス記憶装置のいくつかの例を示す。（Ａ）では、メモリに１つのタイルが格納される。示されるように、各行が４つのパックドデータ要素から成る。次の「行」を取得するべく、ストライド値が用いられる。なお、複数の行が、メモリに連続して格納されてよい。ストライドメモリアクセスでは、タイルストレージが基となるメモリアレイの行幅をマップしない場合、次に、１つの行から次の行へのアクセスが可能である。

【0064】

メモリからのタイルのロードおよびメモリへのタイル格納は、典型的には、アプリケーションメモリからパックされたデータ行へストライドアクセスされる。例示的ＴＩＬＥＬＯＡＤ及びＴＩＬＥＳＴＯＲＥ命令、または、ｌｏａｄ－ｏｐ命令におけるタイルオペランドとしてアプリケーションメモリを参照する他の命令は、いくつかの実施形態においては、ページフォルトの２×行（まで）、マスクされない浮動小数点例外、及び／又は命令毎の割り込み、を処理すべくリスタート可能である。

【0065】

（Ｂ）では、行列は、パックドデータレジスタ（単一の命令、複数のデータ（ＳＩＭＤ）またはベクトルレジスタ）等の複数のレジスタで構成される１つのタイルに格納される。本例では、タイルが、３つの物理レジスタにオーバーレイされる。典型的には連続するレジスタが用いられる。しかしながら、この場合にはこれは必要ではない。

【0066】

（Ｃ）では、行列は、タイル演算で用いられる融合積和（ＦＭＡ）回路にアクセス可能な、非レジスタストレージにおけるタイルに格納される。このストレージは、ＦＭＡ内にあるか、または、それに隣接してよい。加えて、以下に記載いくつかの実施形態において、ストレージは、データ要素に対するものであって、行またはタイルの全体に対するものでなくてもよい。

【0067】

ＴＭＡＡアーキテクチャでサポートされるパラメータは、ＣＰＵＩＤを介して報告される。いくつかの実施形態において、情報のリストは、最大高さと最大ＳＩＭＤ次元とを含む。ＴＭＡＡアーキテクチャの設定には、各タイルの次元、各タイルの要素サイズ、及び、パレット識別子を指定する必要がある。この設定は、ＴＩＬＥＣＯＮＦＩＧ命令を実行することで行われる。

【0068】

ＴＩＬＥＣＯＮＦＩＧ命令の実行が成功すると、後続のタイル演算子が可能となる。ＴＩＬＥＲＥＬＥＡＳＥＡＬＬ命令は、タイル設定をクリアし、タイル演算を無効化する（次のＴＩＬＥＣＯＮＦＩＧ命令が実行するまで）。いくつかの実施形態において、ＸＳＡＶＥ、ＸＳＴＯＲＥ等が、タイルを使用したコンテキスト切り替えで用いられる。いくつかの実施形態において、ＸＳＡＶＥにおいて２つのＸＣＲ０ビットが用いられる。１つはＴＩＬＥＣＯＮＦＩＧメタデータのためであり、１ビットは実際のタイルペイロードデータに対応する。

【0069】

ＴＩＬＥＣＯＮＦＩＧは、タイル使用を設定するだけでなくまた、そのプログラムが、設定されたタイルと共にコード領域にあることを示す状態変数をセットする。ある実装では、既存のレジスタセット等を使用しない等、タイル領域と共に用いることのできる他の命令に対する制約を列挙してよい。

【0070】

タイル領域から抜け出る（ｅｘｉｔ）には、典型的には、ＴＩＬＥＲＥＬＥＡＳＥＡＬＬ命令が行われる。何らパラメータを受け取ることなく、迅速に全タイルを無効化し（データのいかなる保存や復元も、もはや必要ではないことを示す）、タイル領域にあることに対応する内部状態をクリアする。

【0071】

いくつかの実施形態においてタイル演算は、タイル設定によって指定された次元を超える任意の行および任意の列をゼロとする。例えば、タイル演算は、各行が書き込まれる際に、設定された列の数（要素サイズを考慮して）を超えるデータをゼロとする。例えば、６４バイトの行と、１０行１２列で構成されるタイルの場合、ＦＰ３２要素を書き込む演算は、出力／結果データと共に１２＊４バイトを最初の１０行のそれぞれに書き込み、各行において残りの４＊４バイトをゼロにするであろう。タイル演算では、最初の１０個の設定された行の後の全ての行もまた完全にゼロとなる。６４バイトの行を有する１Ｋのタイルを使用する場合には１６行であろうから、本例においては、最後の６行もまたゼロ書き込みされるであろう。

【0072】

いくつかの実施形態において、データを読み込む場合、ｃｏｎｔｅｘｔｒｅｓｔｏｒｅ命令（例えば、ＸＲＳＴＯＲ）は、タイルに対して設定された行を超えるデータがゼロとして維持されることを強制する。有効な設定が無い場合、全ての行がゼロ書き込みされる。タイルデータについてのＸＲＳＴＯＲは、それらの設定を超える列における不要なデータをロードできる。タイル設定に関連付けられた要素幅が無いので、ＸＲＳＴＯＲは、設定された列の数を超えてクリア可能とすべきではない。

【0073】

メモリに書き込む場合に、コンテキストセーブ（例えば、ＸＳＡＶＥ）は、タイルストレージのエリア全体を示す。ＸＲＳＴＯＲが、ガベージデータをタイルの右端部へ読み込んでいた場合には、そのデータはＸＳＡＶＥによって保存されることとなる。ＸＳＡＶＥは、各タイルに指定された数を超えて行に対してゼロを書き込むこととなる。

【0074】

いくつかの実施形態において、タイル命令はリスタート可能である。メモリにアクセスするオペレーションでは、ページフォルト後のリスタートを許容する。浮動小数点演算に対処する計算命令では、制御および／またはステータスレジスタによって制御される例外のマスキングしつつ、マスクされない浮動小数点例外が、また可能である。

【0075】

これらのイベント後のリスタート命令をサポートすべく、命令が、以下に詳述するスタートレジスタに情報を格納する。
行列（タイル）演算システム
例示的ハードウェアサポート

【0076】

図３は、行列（タイル）演算アクセラレータを用いるシステムの実施形態を示す。本例示において、ホストプロセッサ／処理システム３０１は、コマンド３１１（例えば、算術または行列操作演算やロード・ストアオペレーション等の行列操作演算）を、行列演算アクセラレータ３０７に通信する。しかしながら、この態様は、説明の目的だけのために示されているに過ぎない。後に詳述されるように、このアクセラレータ３０７は、処理コアの一部であってよい。典型的には、タイル操作演算子命令であるコマンド３１１は、レジスタ－レジスタ（ｒｅｇ‐ｒｅｇ）またはレジスタ－メモリ（ｒｅｇ‐ｍｅｍ）形式としてタイルを参照することとなる。例えば、ＴＩＬＥＳＴＯＲＥ、ＴＩＬＥＬＯＡＤ、ＴＩＬＥＣＯＮＦＩＧ等の他のコマンドは、タイルにデータ演算を実行しない。コマンドは、アクセラレータ３０７が処理するための、復号された命令（例えば、ｍｉｃｒｏ－ｏｐｓ）または、マクロ命令であり得る。

【0077】

本例において、コヒーレントメモリインタフェース３０３が、ホストプロセッサ／処理システム３０１および行列演算アクセラレータ３０７に結合され、これによりメモリを共有する。図４および図５は、行列演算アクセラレータを使用してどのようにメモリが共有されるかの異なる実施形態を示す。図４に示されるように、ホストプロセッサ４０１および行列演算アクセラレータ回路４０５は、同じメモリ４０３を共有する。図５は、ホストプロセッサ５０１および行列演算アクセラレータ５０５がメモリを共有せずに、他のメモリにそれぞれアクセスすることのできる実施形態を示す。例えば、プロセッサ５０１は、通常通り、タイルメモリ５０７にアクセスし、そのホストメモリ５０３を用いることが可能である。同様に、行列演算アクセラレータ５０５は、ホストメモリ５０３にアクセスすることができ、より典型的には、それ自身のメモリ５０７を使用する。これらのメモリは、異なる型のメモリであって良いことに留意されたい。

【0078】

いくつかの実施形態において、タイルは、物理レジスタ上のオーバーレイを使用してサポートされる。例えば、タイルは、実装に応じて、１６の１０２４ビットレジスタ、３２の５１２ビットレジスタ等を利用してよい。いくつかの実施形態において行列演算は、レジスタ等のメモリの１または複数のパックド領域を表す２次元（２－Ｄ）でデータ構造を用いる。本説明の全体にわたって、これらの２－Ｄデータ構造は、タイルまたはタイルレジスタと称される。

【0079】

いくつかの実施形態において、行列演算アクセラレータ３０７は、データバッファ３０５に結合された複数のＦＭＡ３０９を含む（いくつかの実装では、これらの複数のバッファ３０５のうちの１つ又は複数は、示されるようにグリッドのＦＭＡに格納される）。データバッファ３０５は、メモリに格納されるべきメモリおよび／またはタイルから読み込まれるタイルをバッファする（例えば、ｔｉｌｅｌｏａｄまたはｔｉｌｅｓｔｏｒｅ命令を使用して）。データバッファは、例えば、複数のレジスタであってよい。典型的には、これらのＦＭＡは、チェーンとなったＦＭＡ３０９のグリッドとして配置され、タイルへの読み取りおよび書き込みが可能である。本例において、行列演算アクセラレータ３０７は、タイルＴ０、Ｔ１、Ｔ２を使用して行列乗算演算を実行する。少なくとも１つのタイルが、ＦＭＡグリッド３０９に収容される。いくつかの実施形態においては、演算における全タイルがＦＭＡグリッド３０９に格納される。他の実施形態では、１つのサブセットのみが、ＦＭＡグリッド３０９に格納される。示されるように、Ｔ１が収容され、Ｔ０およびＴ２はそうではない。なお、Ａ、Ｂ、及びＣは、これらのタイルの行列を意味し、タイルの全体の空間を占有してよく、しなくてもよい。

【0080】

図６は、タイル（ＴＭＭＡ）を使用した行列積和演算の実施形態を示す。

【0081】

行列（タイルＡ６０１）の行の数は、特定の実施形態での計算のレイテンシを備えるシリアル（チェーン）ＦＭＡの数と一致する。実装では、より小さな高さのグリッドで自由に再循環できるが、計算は同じままである。

【0082】

ソース／デスティネーションベクトルは、Ｎ行のタイル（タイルＣ６０５）に由来し、ＦＭＡ６１１のグリッドは、Ｎベクトル行列演算を実行し、タイルの行列乗算を実行する完全な命令をもたらす。タイルＢ６０３は、他のベクトルソースであり、各ステージのＦＭＡに、「ブロードキャスト」期間を提供する。

【0083】

いくつかの実施形態において、演算時に、行列Ｂの要素（タイルＢ６０３に格納される）は、ＦＭＡの長方形グリッドにわたって分散される。行列Ｂ（タイルＡ６０１に格納される）は、ＦＭＡの長方形グリッドの列次元に適合すべく、行要素に複数の変換されたその要素を有する。グリッド内の各ＦＭＡで、Ａ及びＢの要素が乗算され、入ってくる被加数（図の上部から）へ加算され、出ていく合計が、ＦＭＡの次の行（または最終的な出力）へ渡される。

【0084】

単一の段階のレイテンシは、Ｋ（行列Ｂの行高さ）に比例し、従属するＴＭＭＡは、典型的には、レイテンシを隠すのに十分なソースデスティネーション行を有する（単一のタイルまたはタイルにわたってのいずれか）。実装ではまた、ＳＩＭＤ（パックドデータ要素）次元Ｍ（行列Ａの行高さ）を時間段階にわたって分割してよいが、これは、Ｋに乗算される定数を単に変更するだけである。プログラムが、ＴＭＭＡにより列挙された最大値より小さいＫを指定する場合、実装では、これを「マスキング」または「アーリーアウト」と共に自由に実装する。

【0085】

ＴＭＭＡ全体のレイテンシは、Ｎ＊Ｋに比例する。リピート率はＮに比例する。ＴＭＭＡ命令毎のＭＡＣ数は、Ｎ＊Ｋ＊Ｍである。

【0086】

図７は、チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。特に、デスティネーションについての１つのパックドデータ要素位置のイテレーションに関する実行回路を示す。本実施形態では、チェーン融合積和が、符号付きソースに作用し、アキュムレータは２×入力データサイズである。

【0087】

第１符号付きソース（ソース１７０１）および第２符号付きソース（ソース２７０３）のそれぞれが、４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれが、浮動小数点データ等の符号付きデータを格納する。第３符号付きソース（ソース３７０９）は、２つのパックドデータ要素を有し、それぞれが符号付きデータを格納する。第１符号付きソース７０１および第２符号付きソース７０３のサイズは、第３符号付きソース７０９（初期値または以前の結果）の半分である。例えば、第１符号付きソース７０１および第２符号付きソース７０３は、３２ビットパックドデータ要素（例えば、単精度浮動小数点）を有してよく、その一方で、第３符号付きソース７０９は、６４ビットパックドデータ要素（例えば、倍精度浮動小数点）を有してよい。

【0088】

本例示において、第１符号付きソース７０１および第２符号付きソース７０３の２つの最上位パックドデータ要素位置および第３符号付きソース７０９の最上位パックドデータ要素位置のみが示される。勿論、他のパックドデータ要素位置もまた処理されるであろう。

【0089】

示されるように、パックドデータ要素はペアで処理される。例えば、第１符号付きソース７０１および第２符号付きソース７０３の最上位パックドデータ要素位置のデータが、乗算器回路７０５を使用して乗算され、第１符号付きソース７０１および第２符号付きソース７０３の上位２番目のパックドデータ要素位置からのデータが、乗算器回路７０７を使用して乗算される。いくつかの実施形態において、これらの乗算器回路７０５および７０７は、他のパックドデータ要素位置に対して再使用される。他の実施形態では、追加の乗算器回路が用いられ、これにより、パックドデータ要素が並列処理される。いくつかのコンテキストでは、並列実行は第３符号付きソース７０９のサイズであるレーンを使用して行われる。複数の乗算のそれぞれの結果が、加算回路７１１を使用して加算される。

【0090】

乗算結果を加算した結果は、符号付きソース３７０９の最上位パックドデータ要素位置からのデータに加算される（異なる加算器７１３または同じ加算器７１１を使用する）。

【0091】

最終的に、第２の加算の結果は、第３符号付きソース７０９から使用されたパックドデータ要素位置に対応するパックドデータ要素位置における符号付きデスティネーション７１５へ格納されるか、またもしあれば次のイタレーションへと渡されるか、のいずれかである。いくつかの実施形態において、書き込みマスクがこのストレージに適用され、これにより、対応する書き込みマスク（ビット）が設定されている場合には格納が発生し、未設定の場合には格納は発生しない。

【0092】

図８は、チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。特にこれは、デスティネーションについての１つのパックドデータ要素位置のイテレーションに関する実行回路を示す。本実施形態では、チェーン融合積和が、符号付きソースに作用し、アキュムレータは２×入力データサイズである。

【0093】

第１符号付きソース（ソース１８０１）および第２符号付きソース（ソース２８０３）のそれぞれが、４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれが、整数データ等の符号付きデータを格納する。第３符号付きソース（ソース３８０９）は、２つのパックドデータ要素を有し、それぞれが符号付きデータを格納する。第１符号付きソース８０１および第２符号付きソース８０３のサイズは、第３符号付きソース８０９の半分である。例えば、第１符号付きソース８０１および第２符号付きソース８０３は、３２ビットパックドデータ要素（例えば、単精度浮動小数点）を有してよく、第３符号付きソース８０９は、６４ビットパックドデータ要素（例えば、倍精度浮動小数点）を有してよい。

【0094】

本例示において、第１符号付きソース８０１および第２符号付きソース８０３の２つの最上位パックドデータ要素位置および第３符号付きソース８０９の最上位パックドデータ要素位置のみが示される。勿論、他のパックドデータ要素位置もまた処理されるであろう。

【0095】

示されるように、パックドデータ要素はペアで処理される。例えば、第１符号付きソース８０１および第２符号付きソース８０３の最上位パックドデータ要素位置のデータが、乗算器回路８０５を使用して乗算され、第１符号付きソース８０１および第２符号付きソース８０３の上位２番目のパックドデータ要素位置からのデータが、乗算器回路８０７を使用して乗算される。いくつかの実施形態において、これらの乗算器回路８０５および８０７は、他のパックドデータ要素位置に対して再使用される。他の実施形態では、追加の乗算器回路が用いられ、これにより、パックドデータ要素が並列処理される。いくつかのコンテキストでは、並列実行は第３符号付きソース８０９（初期値または以前のイテレーションの結果）のサイズであるレーンを使用して行われる。複数の乗算のそれぞれの結果が、加算／飽和回路８１３を使用して、第３符号付きソース８０９へ加算される。

【0096】

加算／飽和（アキュムレータ）回路８１３は、加算結果が値として過度に大きい場合、オペランドの符号を保存する。特に、飽和評価は、多方向加算とデスティネーションまたは次のイタレーションへの書き込みとの間の無限精度結果において生じる。アキュムレータ８１３が浮動小数点であり、入力項が整数の場合、積の合計と浮動小数点アキュムレータ入力値とが無限精度値に変換され（数百ビットの固定小数点）、乗算結果と第３入力との加算が実行され、実際のアキュムレータ型への単一丸めが実行される。

【0097】

符号なし飽和とは、出力値が、その要素幅（全て１）に対する最大の符号なし数に限定されることを意味する。符号付き飽和とは、値が、その要素幅の最小の負の数と最大の正の数との間の範囲にあることに限定されることを意味する（例えば、バイトでは、範囲は－１２８（＝－２＾７）から１２７（２＾７－１））。

【0098】

加算および飽和チェックの結果は、第３符号付きソース８０９から使用されたパックドデータ要素位置に対応するパックドデータ要素位置における符号付き結果８１５へ格納されるか、または、もしあれば次のイタレーションへと渡される。いくつかの実施形態において、書き込みマスクがこのストレージに適用され、これにより、対応する書き込みマスク（ビット）が設定されている場合には格納が発生し、未設定の場合には格納は発生しない。

【0099】

図９は、チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。特に、デスティネーションについての１つのパックドデータ要素位置のイテレーションに関する実行回路を示す。本実施形態では、チェーン融合積和が、符号付きソースおよび符号なしソースに作用し、アキュムレータは４×入力データサイズである。

【0100】

第１符号付きソース（ソース１９０１）および第２符号なしソース（ソース２９０３）のそれぞれが、４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれが、浮動小数点データや整数データ等の符号付きデータを有する。第３符号付きソース（初期値または結果９１５）は、符号付きデータを格納するパックドデータ要素を有する。第１ソース９０１および第２ソース９０３のサイズは、第３符号付きソース９１５の４分の１である。例えば、第１ソース９０１および第２ソース９０３は、１６ビットパックドデータ要素（例えば、ワード）を有してよく、第３符号付きソース９１５は、６４ビットパックドデータ要素（例えば、倍精度浮動小数点または６４ビット整数）を有してよい。

【0101】

本例示において、第１ソース９０１および第２ソース９０３の４つの最上位パックドデータ要素位置および第３符号付きソース９１５の最上位パックドデータ要素位置が示される。勿論、もしあれば、他のパックドデータ要素位置もまた処理されるであろう。

【0102】

示されるように、パックドデータ要素は四つ組で処理される。例えば、第１ソース９０１および第２ソース９０３の最上位パックドデータ要素位置のデータが、乗算器回路９０５を使用して乗算され、第１ソース９０１および第２ソース９０３の上位２番目のパックドデータ要素位置からのデータが、乗算器回路９０７を使用して乗算され、第１ソース９０１および第２ソース９０３の上位３番目のパックドデータ要素位置からのデータが、乗算器回路９０９を使用して乗算され、第１ソース９０１および第２ソース９０３の最下位パックドデータ要素位置からのデータが、乗算器回路９１１を使用して乗算される。いくつかの実施形態において、第１ソース９０１の符号付きパックドデータ要素とは、拡張された符号であり、第２ソース９０３の符号なしパックドデータ要素とは、乗算前に拡張されるゼロである。

【0103】

いくつかの実施形態において、これらの乗算器回路９０５－９１１は、他のパックドデータ要素位置に対して再使用される。他の実施形態では、追加の乗算器回路が用いられ、これにより、パックドデータ要素が並列処理される。いくつかのコンテキストでは、並列実行は第３符号付きソース９１５のサイズであるレーンを使用して行われる。複数の乗算のそれぞれの結果が、加算回路９１３を使用して加算される。

【0104】

乗算結果を加算した結果は、符号付きソース３９１５の最上位パックドデータ要素位置からのデータに加算される（異なる加算器９１７または同じ加算器９１３を使用する）。

【0105】

最終的に、第２の加算の結果９１９は、第３符号付きソース９１５から使用されたパックドデータ要素位置に対応するパックドデータ要素位置における符号付きデスティネーションへ格納されるか、または次のイタレーションへと渡されるかのいずれかである。いくつかの実施形態において、書き込みマスクがこのストレージに適用され、これにより、対応する書き込みマスク（ビット）が設定されている場合には格納が発生し、未設定の場合には格納は発生しない。

【0106】

図１０は、チェーン融合積和命令のイテレーション実行のサブセットの実施形態を示す。特に、デスティネーションについての１つのパックドデータ要素位置のイテレーションに関する実行回路を示す。本実施形態では、チェーン融合積和が、符号付きソースおよび符号なしソースに作用し、アキュムレータは４×入力データサイズである。

【0107】

第１符号付きソース１００１および第２符号なしソース１００３のそれぞれが、４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれが、浮動小数点データや整数データ等のデータを格納する。第３符号付きソース１０１５（初期または以前の結果）は、符号付きデータを格納するパックドデータ要素を有する。第１および第２ソースのサイズは、第３符号付きソース１０１５の４分の１である（初期または以前の結果）。例えば、第１および第２ソースは、１６ビットパックドデータ要素（例えば、ワード）を有してよく、第３符号付きソース１０１５（初期または以前の結果）は、６４ビットパックドデータ要素（例えば、倍精度浮動小数点または６４ビット整数）を有してよい。

【0108】

本例示において、第１符号付きソース１００１および第２符号なしソース１００３の４つの最上位パックドデータ要素位置および第３符号付きソース１０１５の最上位パックドデータ要素位置が示される。勿論、もしあれば、他のパックドデータ要素位置もまた処理されるであろう。

【0109】

示されるように、パックドデータ要素は四つ組で処理される。例えば、第１符号付きソース１００１および第２符号なしソース１００３の最上位パックドデータ要素位置のデータが、乗算器回路１００５を使用して乗算され、第１符号付きソース１００１および第２符号なしソース１００３の上位２番目のパックドデータ要素位置からのデータが、乗算器回路１００７を使用して乗算され、第１符号付きソース１００１および第２符号なしソース１００３の上位３番目のパックドデータ要素位置からのデータが、乗算器回路１００９を使用して乗算され、第１符号付きソース１００１および第２符号なしソース１００３の最下位パックドデータ要素位置からのデータが、乗算器回路１０１１を使用して乗算される。いくつかの実施形態において、第１符号付きソース１００１の符号付きパックドデータ要素とは、拡張された符号であり、第２符号なしソース１００３の符号なしパックドデータ要素とは、乗算前に拡張されるゼロである。

【0110】

いくつかの実施形態において、これらの乗算器回路１００５－１０１１は、他のパックドデータ要素位置に対して再使用される。他の実施形態では、追加の乗算器回路が用いられ、これにより、パックドデータ要素が並列処理される。いくつかのコンテキストでは、並列実行は第３符号付きソース１０１５（初期または以前の結果）のサイズであるレーンを使用して行われる。乗算結果を加算した結果は、加算／飽和回路１０１３を使用して、第３符号付きソース１０１５（初期または以前の結果）の最上位パックドデータ要素位置からのデータに加算される。

【0111】

加算／飽和（アキュムレータ）回路１０１３は、加算結果が符号付き飽和に対して値として過度に大きいかまたは過度に小さい場合に、オペランドの符号を保存する。特に、飽和評価は、多方向加算とデスティネーションへの書き込みとの間の無限精度結果において生じる。アキュムレータ１０１３が浮動小数点であり、入力項が整数の場合、積の合計と浮動小数点アキュムレータ入力値とが無限精度値に変換され（数百ビットの固定小数点）、乗算結果と第３入力との加算が実行され、実際のアキュムレータ型への単一丸めが実行される。

【0112】

加算および飽和チェックの結果１０１９は、第３符号付きソース１０１５（初期または以前の結果）から使用されたパックドデータ要素位置に対応するパックドデータ要素位置における符号付きデスティネーションへ格納されるか、または次のイタレーションへと渡される。いくつかの実施形態において、書き込みマスクがこのストレージに適用され、これにより、対応する書き込みマスク（ビット）が設定されている場合には格納が発生し、未設定の場合には格納は発生しない。

【0113】

図１１は、２のべき乗サイズのＳＩＭＤ実装を示しており、アキュムレータが、本実施形態に係る乗算器への入力よりも大きな入力サイズを使用する。（乗算器への）ソースおよびアキュムレータ値は、符号付きまたは符号なしの値であって良いことに留意されたい。２×入力サイズを有するアキュムレータ（換言すると、アキュムレータ入力値は、ソースにおけるパックドデータ要素サイズの２倍である）について、表１１０１は異なる構成を示す。バイトサイズソースに対して、アキュムレータは、ワードまたは１６ビットサイズの半精度浮動小数点（ＨＰＦＰ）値を使用する。ワードサイズソースに対して、アキュムレータは、３２ビット整数または３２ビットサイズの単精度浮動小数点（ＳＰＦＰ）値を使用する。ＳＰＦＰまたは３２ビット整数サイズソースに対して、アキュムレータは、６４ビット整数または６４ビットサイズの倍精度浮動小数点（ＤＰＦＰ）値を使用する。

【0114】

４×入力サイズを有するアキュムレータ（換言すると、アキュムレータ入力値は、ソースにおけるパックドデータ要素サイズの４倍である）について、表１１０３は異なる構成を示す。バイトサイズソースに対して、アキュムレータは、３２ビット整数または３２ビットサイズの単精度浮動小数点（ＳＰＦＰ）値を使用する。いくつかの実施形態において、ワードサイズソースに対して、アキュムレータは、６４ビット整数または６４ビットサイズの倍精度浮動小数点（ＤＰＦＰ）値を使用する。

【0115】

８×入力サイズを有するアキュムレータ（換言すると、アキュムレータ入力値は、ソースにおけるパックドデータ要素サイズの８倍である）について、表１１０５は、１つの構成を示す。バイトサイズソースに対して、アキュムレータは、６４ビット整数を使用する。

【0116】

以前に示唆したように、行列演算回路は、コアに、または外部アクセラレータとして、含まれてよい。図１２は、行列演算回路を用いるシステムの実施形態を示す。本例示において、複数のエンティティが、リング相互接続１２４５に結合される。

【0117】

複数のコアである、コア０１２０１、コア１１２０３、コア２１２０５およびコアＮ１２０７は、非タイルベース命令のサポートを提供する。いくつかの実施形態において、行列演算回路１２５１がコア１２０３に設けられ、他の実施形態では、行列演算回路１２１１および１２１３が、リング相互接続１２４５上でアクセス可能である。

【0118】

加えて、１つ又は複数のメモリコントローラ１２２３－１２２５が設けられ、複数のコアおよび／または行列演算回路のために、メモリ１２３３および１２３１と通信する。

【0119】

図１３は、タイルを使用する行列演算をサポートするプロセッサコアパイプラインの実施形態を示す。分岐予測復号回路１３０３は、命令ストレージ１３０１に格納された命令から、命令の分岐予測、命令の復号、および／または、両方を実行する。例えば、本明細書で詳述される命令は、命令ストレージに格納されてよい。いくつかの実装において、個別の回路が分岐予測のために用いられ、いくつかの実施形態において、少なくともいくつかの命令が、マイクロコード１３０５を使用して、１または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号に復号される。分岐予測復号回路１３０３は、様々な異なるメカニズムを使用して実装されてよい。適切なメカニズムの例としては、これに限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラム可能ロジックアレイ（ＰＬＡ）、マイクロコード読み取り専用メモリ（ＲＯＭ）等を含む。

【0120】

分岐予測復号回路１３０３は、いくつかの実施形態においてスケジューラ回路１３０９に結合されるアロケート／リネーム１３０７回路に結合される。いくつかの実施形態において、これらの回路は、１）論理オペランド値を物理オペランド値へリネーミングすること（例えば、いくつかの実施形態におけるレジスタエイリアステーブル）、２）状態ビットとフラグを復号された命令に割り当てること、および、３）命令プールから実行回路で実行するための復号された命令をスケジューリングすること（例えば、いくつかの実施形態において、リザベーションステーションを使用）、のうちの１つ又は複数を実行することによって、レジスタリネーミング、レジスタアロケーション、および／またはスケジューリング機能を提供する。

【0121】

スケジューラ回路１３０９は、リザベーションステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表してよい。スケジューラ回路１３０９は、物理レジスタファイル１３１５に結合されるか、または物理レジスタファイル１３１５を含む。物理レジスタファイル１３１５のそれぞれは、１または複数の物理レジスタファイルを表し、それらの異なるファイルは、例えば、スカラ整数、スカラ浮動小数点、パックされた整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）、タイル、その他、等の、１または複数の異なるデータ型を格納する。一実施形態において、物理レジスタファイル１３１５は、ベクトルレジスタ回路、書き込みマスクレジスタ回路およびスカラレジスタ回路を備える。これらのレジスタ回路は、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタおよび汎用レジスタを提供してよい。物理レジスタファイル１３１５は、レジスタリネーミングおよびアウトオブオーダ実行が（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用する、将来のファイル、履歴バッファおよびリタイアメントレジスタファイルを使用する、レジスタマップとレジスタプールを使用する、その他）実装されてよい様々な態様を示すように、リタイアメント回路１３１７に重ねられている。リタイアメント回路１３１７および物理レジスタファイル１３１５は、実行回路１３１１に結合される。

【0122】

レジスタリネーミングが、アウトオブオーダ実行の文脈で説明されるが、レジスタリネーミングは、インオーダーアーキテクチャで用いられてよいことを理解されたい。図示されたプロセッサの実施形態は、別個の命令およびデータキャッシュユニットと、共有Ｌ２キャッシュユニットとを含んでもよいが、代替的な実施形態は、例えば一次（Ｌ１）内部キャッシュ、またはマルチレベル内部キャッシュ等の、命令およびデータの両方に対して１つの内部キャッシュを有してよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュと、の組み合わせを含んでよい。代替的に、キャッシュの全てが、コアおよび／またはプロセッサの外部にあってもよい。

【0123】

実行回路１３１１は、１または複数の実行回路のセットであって、スカラ回路１３２１、ベクトル／ＳＩＭＤ回路１３２３、および、行列演算回路１３２７、並びに、キャッシュ１３１３にアクセスするメモリアクセス回路１３２５を含む。実行回路は、様々な演算を実行し（例えば、シフト、加算、減算、乗算）、様々なデータ型（例えば、スカラ浮動小数点、パックされた整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点）で動作しうる。いくつかの実施形態は、特定の機能または一連の機能に専用の複数の実行ユニットを含んでよいが、他の実施形態は、全ての機能を全て実行する１つだけの実行ユニットまたは複数の実行ユニットを含んでよい。スカラ回路１３２１は、スカラ演算を実行し、ベクトル／ＳＩＭＤ回路１３２３は、ベクトル／ＳＩＭＤ演算を実行し、行列演算回路１３２７は、本明細書で詳述される行列（タイル）演算を実行する。

【0124】

例として、例示的レジスタリネーミングアウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプラインを実装してよい。
１）命令フェッチ回路が、フェッチおよび長さ復号ステージステージを実行する。
２）分岐復号回路１３０３が、復号ステージを実行する。
３）アロケート／リネーム１３０７回路が、割り当てステージおよびリネーミングステージを実行する。
４）スケジューラ回路１３０９が、スケジュールステージを実行する。
５）（複数の）物理レジスタファイル（スケジューラ回路１３０９、アロケート／リネーム１３０７回路およびメモリユニットに、結合されまたは含まれる）が、レジスタ読み出し／メモリ読み出しステージを実行し、実行回路１３１１が実行ステージを実行する。
６）メモリユニットおよび（複数の）物理レジスタファイルユニットが、書き戻し／メモリ書き込みステージを実行する。
７）様々なユニットが、例外処理ステージに関与してよい。
８）リタイアメントユニットおよび（複数の）物理レジスタファイルユニットが、コミットステージを実行する。

【0125】

コアは、１つ又は複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンで追加されたいくつかの拡張付き）、カリフォルニア州サニーベールのＭＩＰＳテクノロジーズのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭホールディングスのＡＲＭ命令セット（ＮＥＯＮ等のオプションの追加拡張付き））をサポートしてよく、本明細書で説明される（複数の）命令を含む。一実施形態において、コア１３９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、これによって、多くのマルチメディアアプリケーションによって用いられる演算が、パックドデータを使用して実行されることを可能にする。

【0126】

コアは、マルチスレッディング（２または２より多い並行するオペレーションまたはスレッドのセットを実行）をサポートしてよく、時分割マルチスレッディング、同時マルチスレッディング（１つの物理コアが、物理コアが同時マルチスレッディングを実行する各スレッドに対する論理コアを提供する）、またはその組み合わせ（例えば、インテルハイパースレッディングテクノロジー等の、時分割フェッチ・復号、およびその後の同時マルチスレッディング）を含む様々な方法でそのように動作してよいことを理解されたい。

【0127】

図１４は、タイルを使用する行列演算をサポートするプロセッサコアパイプラインの実施形態を示す。分岐予測復号回路１４０３は、命令ストレージ１４０１に格納された命令から、命令の分岐予測、命令の復号、および／または、両方を実行する。例えば、本明細書で詳述される命令は、命令ストレージに格納されてよい。いくつかの実装において、個別の回路が分岐予測のために用いられ、いくつかの実施形態において、少なくともいくつかの命令が、マイクロコード１４０５を使用して、１または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号に復号される。分岐予測復号回路１４０３は、様々な異なるメカニズムを使用して実装されてよい。適切なメカニズムの例としては、これに限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラム可能ロジックアレイ（ＰＬＡ）、マイクロコード読み取り専用メモリ（ＲＯＭ）等を含む。

【0128】

分岐予測復号回路１４０３は、いくつかの実施形態においてスケジューラ回路１４０９に結合されるアロケート／リネーム１４０７回路、に結合される。いくつかの実施形態においてこれらの回路は、１）論理オペランド値を物理オペランド値へリネーミングすること（例えば、いくつかの実施形態におけるレジスタエイリアステーブル）、２）状態ビットとフラグを復号された命令に割り当てること、３）命令プールから実行回路で実行するための復号された命令をスケジューリングすること（例えば、いくつかの実施形態において、リザベーションステーションを使用）のうちの１つ又は複数を実行することによって、レジスタリネーミング、レジスタアロケーション、および／またはスケジューリング機能を提供する。

【0129】

スケジューラ回路１４０９は、任意の数の異なるスケジューラを表してよく、リザベーションステーション、中央命令ウィンドウ等を含む。（複数の）スケジューラユニット、スケジューラ回路１４０９は、物理レジスタファイル１４１５に結合されるか、または物理レジスタファイル１４１５を含む。物理レジスタファイル１４１５のそれぞれは、１または複数の物理レジスタファイルを表し、それらの異なるファイルは、例えば、スカラ整数、スカラ浮動小数点、パックされた整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）、タイル、その他、等の、１または複数の異なるデータ型を格納する。一実施形態において、物理レジスタファイル１４１５は、ベクトルレジスタ回路、書き込みマスクレジスタ回路およびスカラレジスタ回路を備える。これらのレジスタ回路は、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタおよび汎用レジスタを提供してよい。物理レジスタファイル１４１５は、リタイアメント回路１４１７によって重ねられており、レジスタリネーミングおよびアウトオブオーダ実行が実装されてよい様々な態様を示す（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用する、将来のファイル、履歴バッファおよびリタイアメントレジスタファイルを使用する、レジスタマップとレジスタプールを使用する、その他）。リタイアメント回路１４１７および物理レジスタファイル１４１５は、実行回路１４１１に結合される。

【0130】

レジスタリネーミングが、アウトオブオーダ実行との関連で説明されるが、レジスタリネーミングは、インオーダーアーキテクチャで用いられてよいことを理解されたい。図示されたプロセッサの実施形態は、別個の命令およびデータキャッシュユニットと、共有Ｌ２キャッシュユニットとを含んでよく、代替的な実施形態では、例えば一次（Ｌ１）内部キャッシュ、またはマルチレベル内部キャッシュ等の、命令およびデータの両方に対して１つの内部キャッシュを有してよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュと、の組み合わせを含んでよい。代わりに、キャッシュの全てが、コアおよび／またはプロセッサの外部にあってもよい。

【0131】

実行回路１４１１は、１または複数の実行回路１４２７のセットと、キャッシュ１４１３にアクセスする１または複数のメモリアクセス回路１４２５のセットを含む。実行回路１４２７は、本明細書で詳述される行列（タイル）演算を実行する。

【0132】

例として、例示的レジスタリネーミングアウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプラインを実装してよい。
１）命令フェッチ回路が、フェッチおよび長さ復号ステージステージを実行する。
２）分岐復号回路１４０３が、復号ステージを実行する。
３）アロケート／リネーム１４０７回路が、割り当てステージおよびリネーミングステージを実行する。
４）スケジューラ回路１４０９が、スケジュールステージを実行する。
５）（複数の）物理レジスタファイル（スケジューラ回路１４０９、アロケート／リネーム１４０７回路およびメモリユニットに、結合されまたは含まれる）が、レジスタ読み出し／メモリ読み出しステージを実行し、実行回路１４１１が実行ステージを実行する。
６）メモリユニットおよび（複数の）物理レジスタファイルユニットが、書き戻し／メモリ書き込みステージを実行する。
７）様々なユニットが、例外処理ステージには関与してよい。
８）リタイアメントユニットおよび（複数の）物理レジスタファイルユニットが、コミットステージを実行する。

【0133】

コアは、１つ又は複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンで追加されたいくつかの拡張付き）、カリフォルニア州サニーベールのＭＩＰＳテクノロジーズのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭホールディングスのＡＲＭ命令セット（ＮＥＯＮ等のオプションの追加拡張付き））をサポートしてよく、本明細書で説明される（複数の）命令を含む。一実施形態において、コア１４９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、これによって、多くのマルチメディアアプリケーションによって用いられる演算が、パックドデータを使用して実行されることを可能にする。

【0134】

コアが、マルチスレッディング（２または２より多い並行するオペレーションまたはスレッドのセットを実行）をサポートしてよく、時分割マルチスレッディング、同時マルチスレッディング（１つの物理コアが、物理コアが同時マルチスレッディングを実行する各スレッドに対する論理コアを提供する）、またはその組み合わせ（例えば、インテルハイパースレッディングテクノロジー等の、時分割フェッチ・復号、およびその後の同時マルチスレッディング）を含む様々な方法でそのように動作してよいこと、を理解されたい。
レイアウト

【0135】

本説明の全体にわたり、データは、行優先データレイアウトを使用して表される。列優先ユーザは、これらの方向に従って、項を変換すべきである。図１５は、行優先形式及び列優先形式で表される行列の一例を示す。示されるように、行列Ａは、２×３行列である。この行列が行優先形式で格納される場合、１つの行における複数のデータ要素が連続する。この行列が列優先形式で格納される場合、１つの列における複数のデータ要素が連続する。行列の特性としてＡ^Ｔ＊Ｂ^Ｔ＝（ＢＡ）^Ｔは周知であり、上付き文字Ｔは変換を意味する。列優先データを行優先データとして読み出すと、その行列は、変換行列と同様の結果となる。

【0136】

いくつかの実施形態において、行優先セマンティクスが、ハードウェアで用いられ、列優先データは、オペランド順序を行列が変換された結果とスワップするが、メモリからの後続の列優先読み取りに対しては、これは正確な非変換行列である。

【0137】

例えば、２つの列優先行列の乗算は、以下となる。
ａｂｇｉｋａｇ＋ｂｈａｉ＋ｂｊａｋ＋ｂｌ
ｃｄ＊ｈｊｌ＝ｃｇ＋ｄｈｃｉ＋ｄｊｃｋ＋ｄｌ
ｅｆｅｇ＋ｆｈｅｉ＋ｆｊｅｋ＋ｆｌ
（３ｘ２）（２ｘ３）（３ｘ３）

【0138】

入力行列は、線形メモリ（列優先）に、
ａｃｅｂｄｆ
及び
ｇｈｉｊｋｌ
として格納されるであろう。

【0139】

それらの行列を行優先として次元２×３および３×２で読み出すと、以下のようになるであろう。
ａｃｅ及びｇｈ
ｂｄｆｉｊ
ｋｌ

【0140】

順序をスワップして行列乗算をすると、
ｇｈａｃｅａｇ＋ｂｈｃｇ＋ｄｈｅｇ＋ｆｈ
ｉｊ *ｂｄｆ = ａｉ＋ｂｊｃｉ＋ｄｊｅｉ＋ｆｊ
ｋｌａｋ＋ｂｌｃｋ＋ｄｌｅｋ＋ｆｌ

【0141】

変換行列が出力され、次に、行優先の順序で格納される。
ａｇ＋ｂｈｃｇ＋ｄｈｅｇ＋ｆｈａｉ＋ｂｊｃｉ＋ｄｊｅｉ＋ｆｊａｋ＋ｂｌｃｋ＋ｄｌｅｋ＋ｆｌ

【0142】

そして、後続の列優先の計算で用いられ、正確な非変換行列となる。
ａｇ＋ｂｈａｉ＋ｂｊａｋ＋ｂｌ
ｃｇ＋ｄｈｃｉ＋ｄｊｃｋ＋ｄｌ
ｅｇ＋ｆｈｅｉ＋ｆｊｅｋ＋ｆｌ
使用例

【0143】

図１６は、複数の行列（タイル）の使用法の一例を示す。本例では、行列Ｃ１６０１が、２つのタイルを含み、行列Ａ１６０３が１つのタイルを含み、行列Ｂ１６０５が２つのタイルを含む。この図では、行列乗算を計算するためのアルゴリズムの内部ループの一例を示す。本例では、行列Ｃ１６０１の２つの結果タイルであるｔｍｍ０およびｔｍｍｍ１が、中間結果の累算のために用いられる。行列Ａ１６０３の１つのタイル（ｔｍｍ２）は、行列Ｂ１６０５の２つのタイルと乗算されるため、２回再利用される。ポインタは、矢印によって示される方向から、新しいＡ行列（タイル）と２つの新しいＢ行列（タイル）をロードする。不図示の外部ループは、Ｃタイルに対するポインタを調整する。

【0144】

示される例示的コードは、タイル設定命令の使用法を含み、タイル使用を構成し、複数のタイルをロードし、それらのタイルをループ処理し、それらのタイルをメモリ格納し、そしてタイル使用を解放すべく実行される。

【0145】

図１７は、複数の行列（タイル）の使用法に関する方法の実施形態を示す。１７０１で、タイル使用が設定される。例えば、ＴＩＬＥＣＯＮＦＩＧ命令が実行され、タイル毎に行及び列の数を設定する段階を含んだタイル使用が構成される。１７０３において、典型的には、少なくとも１つの行列（タイル）がメモリから読み込まれる。１７０５において、少なくとも１つの行列（タイル）の演算が、複数の行列（タイル）を使用して実行される。１７０７において、少なくとも１つの行列（タイル）が、メモリへ吐き出され、１７０９においてコンテキストスイッチを行うことができる。
例示的構成
タイル設定ハードウェアサポート

【0146】

上記で記載したように、典型的には、タイル使用は使用前に設定される必要がある。例えば、全ての行及び列が完全に用いられる必要がない場合がある。いくつかの実施形態においては、電力を抑えるべくこれらの行及び列を設定しないのみならず、ある演算がエラーを生成するかどうかを判断するために、設定が用いられてよい。例えば、（Ｎ×Ｍ）＊（Ｌ×Ｎ）形の行列乗算は、典型的には、ＭおよびＬが同じでないと機能しない。

【0147】

タイルを使用した行列を使用する前に、いくつかの実施形態においては、タイルサポートが設定されねばならない。例えば、タイル毎にいくつの行及び列があるか、使用されるべきいくつのタイルがあるか、等が設定される。行列アクセラレータを使用すべくコンピュータを構成するためのサポートを提供するので（プロセッサコアの一部または外部デバイスとしてのいずれか）、ＴＩＬＥＣＯＮＦＩＧ命令は、コンピュータそれ自体への改善である。特に、ＴＩＬＥＣＯＮＦＩＧ命令を実行すると、メモリから設定が取得され、行列アクセラレータ内の行列（タイル）の設定に適用される。
タイル使用設定

【0148】

図１８は、一実施形態に係るタイル使用法の設定のためのサポートを示す。メモリ１８０１は、サポート対象の行列（タイル）のタイル記述１８０３を含む。

【0149】

プロセッサ／コア１８０５の命令実行リソース１８１１は、タイル記述１８０３の態様をタイル構成１８１７に格納する。タイル構成１８１７は、どのタイルがパレットに設定されているか（各タイルの行及び列の数）と行列サポートが使用されているマークとを詳述するパレットテーブル１８１３を含む。特に、命令実行リソース１８１１は、タイル構成１８１７によって指定されるように、タイルを使用するよう構成される。命令実行リソース１８１１は、タイル使用を示すマシン固有のレジスタや設定レジスタを含んでもよい。使用中の値や開始値等の追加の値もまた設定される。タイル構成１８１７は、（複数の）レジスタ１８１９を用いて、タイル使用および構成情報を格納する。

【0150】

図１９は、サポート対象の複数の行列（タイル）の記述についての実施形態を示す。これは、ＳＴＴＩＬＥＣＦＧ命令の実行に際して格納されるべき記述である。本例では、各フィールドは、バイトである。バイト［０］において、パレットＩＤ１９０１が格納される。パレットＩＤは、パレットテーブル１８１３にインデックスを付けるために用いられ、当該テーブルは、パレットＩＤ毎に、タイル内のバイト数と、上記設定により定義されたこのＩＤに関連づけられているタイルの行毎のバイトとを格納する。

【0151】

バイト１は、"ｓｔａｒｔＲｏｗ"レジスタ１９０３に格納すべき値を格納し、バイト２は、レジスタであるｓｔａｒｔＰ１９０５に格納すべき値を格納する。これらのイベント後のリスタート命令をサポートするために、命令はこれらのレジスタに情報を格納する。上記で詳述したようにブレークイベント後のリスタート命令をサポートするために、命令はそれらのレジスタに情報を格納する。ｓｔａｒｔＲｏｗ値は、その行がリスタートのために用いられるべきことを示す。ｓｔａｒｔＰ値は、ペアが用いられる場合のストアオペレーションの行内の位置を示し、いくつかの実施形態においては、行の下位半分（ペアの下位タイル）または行の上位半分（ペアの上位タイル）を示す。概して、行（列）の位置は、必要とされない。

【0152】

ＴＩＬＥＣＯＮＦＩＧおよびＳＴＴＩＬＥＣＦＧを例外として、行列（タイル）命令が成功裡に実行すると、ｓｔａｒｔＲｏｗおよびｓｔａｒｔＰの両方をゼロに設定することとなる。

【0153】

割り込まれた行列（タイル）命令がリスタートしない場合は常に、ｓｔａｒｔＲｏｗ値およびｓｔａｒｔＰ値をゼロにするのはソフトウェアの責任である。例えば、マスクされない浮動小数点例外ハンドラは、ソフトウェアでの操作を終了することを決定し、プログラムカウンタ値を別の命令、通常は次の命令、に変更してよい。この場合、ソフトウェア例外ハンドラは、プログラムを再開する前に、オペレーティングシステムによって提示された例外のｓｔａｒｔＲｏｗ値およびｓｔａｒｔＰ値を、ゼロにしなければならない。オペレーティングシステムは、その後、ｒｅｓｔｏｒｅ命令を使用して、それらの値を成功裡にリロードすることとなる。

【0154】

バイト３は、タイル１９０７のペアの指標（タイル毎に１Ｂ）を格納する。

【0155】

バイト１６－１７は、タイル０の行１９１３および列１９１５の数を格納し、バイト１８－１９は、タイル１の行及び列の数、等を格納するといった具体である。換言すると、各２バイトグループが、１つのタイルの行及び列の数を指定する。２バイトのグループが、タイルパラメータの指定に用いられない場合、それらはゼロ値を有するべきである。実装制限またはパレット制限よりも多くのタイルのタイルパラメータを指定すると、結果はエラーとなる。未設定タイルは、０行０列の初期状態に設定される。

【0156】

最終的に、メモリ内の構成は、典型的には、いくつかの連続するバイトが全てゼロである等の終了描写で終了する。
例示的タイルおよびタイル構成ストレージ

【0157】

図２０Ａ～図２０Ｄは、（複数の）レジスタ１８１９の例を示す。図２０Ａは、複数のレジスタ１８１９を示す。示されるように、各タイル（ＴＭＭ０２００１・・・ＴＭＭＮ２００３）は、別個のレジスタを有し、各レジスタはその特定のタイルの行と列のサイズを格納している。ＳｔａｒｔＰ２０１１およびＳｔａｒｔＲｏｗ２０１３は、別個のレジスタに格納される。１または複数の状態レジスタ２０１５は、タイルが使用されるように構成されることを示すように設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

【0158】

図２０Ｂは、複数のレジスタ１８１９を示す。示されるように、各タイルは、その行及び列に別個のレジスタを有する。例えば、ＴＭＭ０行構成２０２１、ＴＭＭ０列構成２０２３、ＳｔａｒｔＰ２０１１およびＳｔａｒｔＲｏｗ２０１３は、別個のレジスタに格納される。１または複数の状態レジスタ２０１５は、タイルが使用されるように構成されることを示すように設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

【0159】

図２０Ｃは、単一のレジスタ１８１９を示す。示されるように、このレジスタは、タイル構成（タイル毎の行及び列）２０３１を格納し、ＳｔａｒｔＰ２０１１およびＳｔａｒｔＲｏｗ２０１３は、パックドデータレジスタとして単一のレジスタに格納される。１または複数の状態レジスタ２０１５は、タイルが使用されるように構成されることを示すように設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

【0160】

図２０Ｄは、複数のレジスタ１８１９を示す。示されるように、単一のレジスタは、タイル構成（タイル毎の行及び列）２０３１を格納する。ＳｔａｒｔＰおよびＳｔａｒｔＲｏｗは、別個のレジスタ２０１１および２０１３に格納される。１または複数の状態レジスタ２０１５は、タイルが使用されるように構成されることを示すように設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

【0161】

例えば、スタートレジスタを単一のレジスタへ組み合わせて、それらを別個に表示させる等の他の組み合わせが検討される。
設定可能なシストリックアレイ

【0162】

上で言及したように、汎用行列乗算（別名、ＧＥＭＭ）のためのハードウェアは、深層学習等の所定のアプリケーションのピーク計算（及びエネルギー効率）を改善するための良い選択肢である。ディープニューラルネットワーク（ＤＮＮ）に基づくアプリケーションについての膨大な計算要求は、多数の（例えば、数百）処理エレメント、例えば、融合乗算加算（ＦＭＡ）回路を使用するハードウェア（例えば、アクセラレータ）の使用をもたらしうる。しかしながら、アクセラレータ（例えばＤＮＮ）は、密な行列乗算での非常に規則的なデータフローパターンに対して、最適化されうる。特定の実施形態では、アクセラレータは、シストリックアレイ実装を使用して、性能と面積／電力効率を最大化する。シストリックアレイは、非常に規則的なデータフローに最適化された密な２次元アレイを含んでよい。

【0163】

しかしながら、実行のいくつかの一部は、規則的なデータフローへ完全にはマップされないので、それらのデータフローへと完全にはマップされない演算（例えば問題）と、それ故にそれらのデータフローに対して最適化されたハードウェアとは、例えばシストリックアレイ内の処理エレメント（例えば、演算ロジックユニット（ＡＬＵ）回路）の著しく低い利用率につながりうる。一実施形態において、特定の行列乗算は、ハードウェアアレイ、例えば、小さい問題サイズに起因して生じる、またはアレイサイズの倍数ではない行列の境界の周りで生じる乗算、を十分には活用していない。

【0164】

特定の実施形態において、固定の行列サイズに最適化されたアクセラレータは、低い利用率という問題に見舞われる。例えば、行列の幅が３６で、シストリックアレイの幅が３２（例えば、行列演算アクセラレータ回路）のワークロードを検討する。アレイにゼロがパディングされている場合（または、タイル全体が再構成されている）、ハードウェアは、最初のパスにおける３２要素幅である全幅タイルを処理し、そして、次のパスで４要素幅のみのタイルを処理する。故に、全体的な効率は５６．２５％である（平均３２／３２＝１００％、４／３２＝１２．５％）。特定の実施形態において、ベクトルアクセラレータ（例えば、行列演算アクセラレータ回路とは別個のベクトルスタック）への値の移動は高価でありピーク計算は、シストリックアレイ（例えば、行列演算アクセラレータ回路）よりはるかに小さい。

【0165】

本明細書の特定の実施形態は、複数の同時でより小さな行列乗算とハードウェアを駆動する新たな命令とをサポートする設定可能なシストリックアレイ（例えば、行列演算アクセラレータ回路）である。特定のハードウェアにおいて、命令の復号および実行は、設定可能なシストリックアレイハードウェア（例えば行列演算アクセラレータ回路）に、Ｃ＝Ａ＊Ｂ＋Ｃの計算を行わせる。ここで、Ａ、Ｂ、及びＣはそれぞれ２次元行列であり、Ｃの各要素について、ハードウェアは、入力行列Ａの１行と、行列Ｂの１列とのドット積を計算する。本明細書の特定の実施形態は、Ａ及びＢ（例えば並びにＣ）入力を受け取る新たな命令（およびシストリックアレイにおけるハードウェアサポート）であり、上記の入力は、共に「接着」された複数の行列からそれぞれ構成され、複数の出力行列を生成する。

【0166】

この解決策の利点は、ハードウェアをより柔軟であることを可能とし、故に、他の解決策よりも多くの条件下で最大の利用率が得られる。例えば、１つのアレイにおける処理エレメント（例えば、ＡＬＵ回路）の数が、３２×３２サイズであり、Ａ行列が幅１６高さ３２の場合、ハードウェアは、ユーザが効率的に、そのような２つのＡ行列を共に「接着」して、３２×３２のＡ´を取得し、これによりアレイを完全に利用することを可能にする。

【0167】

深層学習および他のアプリケーションの場合、本明細書の実施形態は、シストリックアレイにおける複数の小さな行列に同時に作用すべく単一の命令の実行を可能とし、これにより処理エレメント（例えば、ＡＬＵ回路）の利用率が高まる。さらに、本明細書の実施形態は、大きな行列演算に、高性能／面積／電力税を支払うことなく、この機能を提供する。

【0168】

行列の異なるサイズのそれぞれに対してアクセラレータを設計することは、特定の実施形態においては非実用的である。シストリックアレイ実装は、固定サイズ入力および／または出力行列に対して、処理エレメントの密な２次元グリッド（例えば、ＦＭＡ回路）を使用してよい。従って、レジスタを再構成する（例えば、１次元でのみ特定の量だけで効率を向上させる）か、または行列をゼロでパディングしてそれらをアレイのサイズに適合させることのいずれかにより提供される、固定サイズより小さい行列サイズの場合とは対照的に、本明細書の実施形態では、複数の小さな行列で同時に演算する（例えば、共に処理される）ハードウェア（および１つの命令または複数の命令）を用いる。本明細書の特定の実施形態では、行列演算アクセラレータ回路を提供し、ベクトルスタック（例えば、データキャッシュユニットＤＣＵを介したインテルＡＶＸスタック）への／からの移動がなされるデータ値（例えば入力）、および／または、データ値（例えば入力）のゼロパディングを用いない。

【0169】

特定の実施形態において、行列演算アクセラレータ回路は、入力として、複数の（例えば２または３）（例えば、それぞれが２次元の）行列Ａ（Ｍ×Ｋ次元であって、Ｍ及びＫは整数）、行列Ｂ（Ｋ×Ｎ次元であって、Ｋ及びＮは整数）、および、行列Ｃ（Ｍ×Ｎ次元であって、Ｍ及びＮは整数）を受け取り、次に各要素に演算を実行し（例えば、融合乗算加算）、行列として格納される結果を生成する（例えば、Ｍ×Ｎ次元の行列Ｃへと戻され、Ｍ及びＮは整数である）。一実施形態において、Ｍ，Ｋ，Ｎは１６より小さいか等しい。特定の実施形態では、行列演算アクセラレータ回路が以下の演算を実行する。

【0170】

【数1】

【0171】

図２１は、処理エレメント回路２１０６－１～２１０６－４の２次元グリッドを備える行列演算アクセラレータ回路２１００の実施形態を示す。特定の実施形態において、データストレージ２１０２（例えばレジスタファイル）は、複数のレジスタを有し、レジスタは、例えば、第１入力２次元行列（Ａ）、第２入力２次元行列（Ｂ）および第３入力２次元行列（Ｃ）（および、例えば、結果ストレージ）を表すレジスタのそれぞれのセットを含む。一実施形態において、出力２次元行列の結果は、第３入力２次元行列（Ｃ）を形成するレジスタに格納され、例えば、それらが行列演算アクセラレータ回路２１００によって用いられた後、入力２次元行列（Ｃ）の値を上書きする。示された行列演算アクセラレータ回路２１００は、複数のルーティング回路２１０４－１～２１０４－４を含み、（例えば、行列Ａおよび行列Ｂからの）入力値を、実行されるべき演算に従って処理エレメントへとルーティングする。

【0172】

本明細書の図は、全てのデータ通信結合（例えば接続）を示さなくてもよいことに注意されたい。当業者であれば、これが図中の特定の詳細を曖昧にしないためであることを理解する。図中の双方向矢印は、双方向通信を必要としなくてもよく、例えば、一方向通信を示してよい（例えば、そのコンポーネントまたはデバイスへの／からの）ことに注意されたい。通信経路のいずれ又は全ての組み合わせが、本明細書の特定の実施形態において用いられてよい。単一ラインが、内部に複数経路、例えば、複数のチャネルを含んでよい。例えば、ライン２１１０は、複数経路（例えば、Ｘ個、Ｘは任意の正の整数）、例えば、行列Ａからの値に対する１つの経路と、行列Ｂからの値に対する１つの経路とを含んでよい。

【0173】

（例えば、その演算を引き起こすための命令を復号し実行することにより）演算の実行要求があると、特定の実施形態では、行列演算アクセラレータ回路２１００は、行列Ａおよび行列Ｂからの値を、各ルーティング回路へ送信する。例えば、演算は、行列Ａに行列Ｂを乗算し、次に、各結果に行列Ｃからの対応する値を加算することであってよい。一実施形態において、第１ルーティング回路２１０４－１は、第１値Ａ［０］［０］を行列Ａ［行］［列］から受信し（行インデックス０および列インデックス０からの値）、その値を、それぞれの処理エレメント２１０６－１へ、処理エレメント２１０６－１のそれぞれの第１入力および行列Ｂの第１行からの複数値のセットへの行へとブロードキャストし、これらの複数の値を、処理エレメント２１０６－１の各第２入力へ送信する（例えば、これにより、処理エレメント２１１２がＢ［０］［０］からの値を受信し、処理エレメント２１１４がＢ［０］［１］からの値を受信する等）。一実施形態において、処理エレメント２１１２は、その出力２１１６に、Ａ［０］［０］＊Ｂ［０］［０］の乗算の結果を提供し、処理エレメント２１１４は、その出力２１１８に、Ａ［０］［０］＊Ｂ［０］［１］の乗算の結果を提供する。複数の出力（例えば、出力２１１６および２１１８）が、ルーティング回路２２１０４－２へ送信される。

【0174】

一実施形態において、第２ルーティング回路２１０４－２は、第２の値Ａ［０］［１］を行列Ａ［行］［列］から受信し（行インデックス０および列インデックス１からの値）、その値を、それぞれの処理エレメント２１０６－２へ、処理エレメント２１０６－２のそれぞれの第１入力および行列Ｂの第２行からの複数値のセットへの行へとブロードキャストし、これらの複数の値を、処理エレメント２１０６－１（例えば、これにより、処理エレメント２１２２がＢ［１］［０］からの値を受信し、処理エレメント２１２４がＢ［１］［１］からの値を受信する等）の各第２入力および処理エレメント２１０６－１の上記行の複数の出力からの各出力へ送信する。一実施形態において、処理エレメント２１２２は、その出力２１２６に、出力２１１６（Ａ［０］［０］＊Ｂ［０］［０］）へ加算したＡ［０］［１］＊Ｂ［１］［０］の乗算の結果を提供し、処理エレメント２１２４は、その出力２１２８に、出力２１１８（Ａ［０］［０］＊Ｂ［０］［１］）へ加算したＡ［０］［１］＊Ｂ［１］［１］の乗算の結果を提供する。特定の実施形態において、この融合乗算加算演算は、処理エレメント２１０６－３～処理エレメント２１０６－４の各行によって継続され、処理エレメント２１０６－４からの出力２１３０および出力２１３２を生成する。なお、４は、処理エレメント（及び、例えば各行列Ａ、Ｂ、及びＣの行及び列）の例示的な行の数であって、任意の複数の行であり得ることに注意されたい。行列演算アクセラレータ回路２１００に対する処理エレメントの行の終わりに達すると、バイアス加算回路２１０８は、入力２１３４（例えば、並列入力ポート）の行列Ｃからの各要素（例えば、行列Ｃの第１行からの各要素）を加算し、出力２１３６（例えば、並列出力ポートのセット）を経由して結果を行列Ｃの各要素（例えば、行列Ｃの第１行の各要素位置）に格納する。例えば、行列Ｃの第１行からの第１要素は出力２１３０からの結果へ加算され、その結果は行列Ｃの第１行の第１要素位置へ戻して格納され、行列Ｃの第１行からの第２要素は出力２１３２からの結果へ加算され、その結果は行列Ｃの第１行の第２要素位置へ戻して格納される。これが行列Ａの各行に対して反復され、行列Ａ＊行列Ｂの全体の乗算を生成する（そして、例えば、行列Ｃからのバイアスを各結果に加算する）。

【0175】

従って、回路の特定の実施形態では、処理エレメント（ＰＥ）（例えば、ＦＭＡユニット）の２次元（２Ｄ）アレイを、例えばいくつかの入力及び出力バッファとローカル制御論理回路と共に使用する。一実施形態において、各ＰＥは、その入力のいくつかをレジスタファイル等のデータストアから取得し、他の入力は他のＰＥから取得し、ＰＥの最後の行は、その出力をデータストアへ送り返す。故に、ＰＥはこれらの実施形態において、パイプラインを形成する。ユーザは、概して、データ要素の大きなセット（例えば、ＰＥよりも多くのデータ要素）に対して一連の演算を実行することを意図する場合がある。そこで、要素をアレイの上部に入力してパイプラインを開始し、データをパイプラインを通じて下向きに流してよい（適切ならば、追加入力をパイプラインの様々な段階で提供する）。

【0176】

一実施形態において、処理エレメントの各インスタンスは、融合積和（ＦＭＡ）回路であり、乗算器回路（例えば、第１入力ａ、第２入力ｂを受け取り、結果出力を生成する）と加算回路（例えば、乗算器回路からの結果出力を第１入力として第３入力ｃと共に加算して結果を生成する）とを含む。

【0177】

本明細書の特定の実施形態は、Ａ及びＢ（例えば並びにＣ）入力を受け取る新たな命令（およびシストリックアレイにおけるハードウェアサポート）であり、上記の入力は、共に「接着」された複数の行列からそれぞれ構成され、単一の行列Ａ、単一の行列Ｂ及び単一の行列Ｃだけに動作する代わりに、複数の出力行列を生成する。ＦＭＡ回路の２次元内のデータフローのために用いられる制御を単純化ために、本明細書の特定の実施形態は、融合積和演算の制御を修正することなく、複数の行列のドット積演算の制御を提供する。

【0178】

図２２は、いくつかの実施形態に係る行列演算を加速するためのTILEPARTIALDOTPRODUCT命令２２０１の使用を示すブロック図である。命令２２０１は、（行列Ａ＊行列Ｂ）＋行列Ｃの演算を、行列演算アクセラレータ回路２２２０によって実行させる。行列演算アクセラレータ回路２２２０は、図２４の行列演算アクセラレータ回路２４００または図２６の行列演算アクセラレータ回路２６００のインスタンスであってよい。

【0179】

単一の行列Ａ、単一の行列Ｂ、単一の行列Ｃでのみ動作する代わりに、命令２２０１（および、図２４の行列演算アクセラレータ回路２４００および図２６の行列演算アクセラレータ回路２６００）は、複数の入力行列で同時の演算が可能である。例えば、本明細書の実施形態は（例えば、データを再配置することで）Ａタイルを複数の行列Ａと共にサイドバイサイドでフェッチしてよい（例えば、行列Ａ２２２２は、同じＡ行列からのデータの第１行Ａ１とデータの第２行Ａ２とを含み、その一方で、Ａ１´およびＡ２´は、それぞれ、別のＡ行列からのデータの第１行およびデータの第２行である）。アプリケーションに応じて、本明細書の実施形態は、同じＢ行列を複製するかまたは複数のＢ行列を繋ぎ合わせるかのいずれかによって、Ｂタイルを形成できる（例えば、図２２に示されるように、異なるＢ行列からの第１行Ｂ１データおよび第１行Ｂ´データで）。他の実施形態において、Ｂ行列は複製されてよく、これにより、例えば、Ｂ１´＝Ｂ１となる。特定の実施形態において、ハードウェアは、複数のＣ行列（例えば、図２２に示されるように）へのアクセスをサポートする。一実施形態において、別の命令（例えば、ソフトウェアで示される）は、異なる複数の行列からタイルＡを生成し、異なる複数のＢ行列または複製された１つのＢ行列のいずれかからＢタイルを生成し、異なる複数のＣ行列または複製されたＣ行列のいずれかからＣタイルを形成する（例えば、Ｃ１´＝Ｃ１、Ｃ２´＝Ｃ２、および／またはＣ１＝Ｃ２）。

【0180】

故に、命令２２０１の特定の実施形態は、復号および実行がされた場合、共に「接着」された複数の行列からそれぞれ構成されたＡ＆Ｂ入力に対して正確に作用し、各Ｃ値を加算した後に複数の出力行列を生成する。

【0181】

従って、１つの演算モードでは、行列演算アクセラレータ回路は、更新されたＣ１＝（Ａ１＊Ｂ１＋Ａ１´＊Ｂ２´＋・・・）＋Ｃ１を生成する。しかしながら、ＡおよびＡ´が共に入力される異なる行列である場合、特定の実施形態において、これは所望の演算ではない。代わりに、別の演算モードでは、行列演算アクセラレータ回路は、出力要素毎に、例えば更新されたＣ１＝Ａ１＊Ｂ１＋Ｃ１に、より少ない演算を実行する。これは、第２のモードでは第１のモードよりもより多くの出力要素があることを意味する。結果として得られる、更新されたＣ行列は、共に接着された複数の出力行列にパックされてよく（例えば、図２２の更新された行列Ｃ２２２６に示されるように）、または、複数の独立した宛先（デスティネーション）を有してよい。

【0182】

命令形式の例としてＴＩＬＥＰＡＲＴＩＡＬＤＯＴＰＲＯＤＵＣＴ（または"タイルの部分的な 'Ｎ'ドット積"のＴＰＮＤＰ）のニーモニックを有し、Ｎは、共に論理的に接着される異なる行列の数である。例えば、２つのＡ行列が１つのＡタイルに入力される場合（そして、例えば同じく２つのＢ行列が１つのＢタイルに入力される場合）、命令は、ＴＰ２ＤＰと称されてよい。命令は、ＴＰＮＤＰｔｓｒｃｄｅｓｔ、ｔｓｒｃ１, ｔｓｒｃ２の形式を有してよく、第１のフィールド"ｔｓｒｃｄｅｓｔ"はタイルソース／デスティネーション（例えばタイル２２２６）を識別し、第２のフィールド"ｔｓｒｃ１"は第２タイルソース（例えばタイル２２２２）を識別し、第３フィールド"ｔｓｒｃ２"は第３タイルソース（例えばタイル２２２４）を識別する。一実施形態において（例えば、大きな出力タイルを有し）、出力タイルのサイズは、黙示的である。複数の出力タイルを有する実施形態において、出力タイルの数はＮである（Ｎは任意の正の整数）。特定のタイルレジスタは連続的であってよく、ｔｓｒｃｄｅｓｔから開始する（例えば、ｔｍｍ０およびｔｍｍｍ１であってｔｍｍ０が特定でありＮ＝２）か、または複数のレジスタのグループを選択すべく他の指定を用いてよい。特定の実施形態では、共に接着された所与の異なるサイズの行列を処理するために新たな命令を用いる。例えば、行列演算アクセラレータ回路は、共に接着された４つの行列を処理可能だが、共に接着された２つの行列の入力のみが提供された場合（それらのうちの１つは他方の３倍の大きさ）、要素の４分の１は１つの行列から、４分の３は別の行列からとなり、これはオペコード（例えばＴ１ＡＮＤ３ＤＰ）において、または命令（例えば、ＴＰＤＰｔｓｒｃｄｅｓｔ, ｔｓｒｃ１, ｔｓｒｃ２, ｉｍｍ８）に渡される即値を介して、指定されてよい。即値の可能なエンコードが以下に記載される。

【0183】

図２２は、いくつかの実施形態に係る、行列ドット積演算を加速するためのTILEPARTIALDOTPRODUCT命令２２０１の使用を示すブロック図である。示されるように、命令２２０１は、オペコード２２０２を含み（例えば、ＴＩＬＥＴＲＡＮＳＦＯＲＭ）、これは、本開示に従って行列にドット積を実行するプロセッサを示す。特に、特定の実施形態では、オペコードに応答して、プロセッサは、単一の入力タイルに格納された複数の行列のそれぞれに、各演算を実行する。例えば、ソース位置１２２０６は１または複数のＡ行列を格納し、ソース位置２２２０８は１または複数のＢ行列を格納し、ソース位置３２２０４は１または複数のＣ行列を格納する。任意選択で命令は、入力または出力行列のうちの１つ又は複数のＭ２２１０（例えば行の数）およびＫ２２１２（例えば列の数）を示すフィールド（例えば、オペランドまたはオペコード）を含んでよい。共に"接着"された行列のサイズおよび／または数は、いくつかの方法のうちの１つ又は複数で特定されてよく、ＴＩＬＥＰＡＲＴＩＡＬＤＯＴＰＲＯＤＵＣＴ命令のオペランドとして、指定されたオペコードの接尾辞または接頭辞として、命令と共に提供された即値２２１４の一部として、命令（例えば、ＴＩＬＥＣＯＮＦＩＧ）の発行前にソフトウェアでプログラムされた制御レジスタの一部として、または、アーキテクチャのデフォルト値としても指定されてよい。特定の実施形態では、Ｍ及びＫは、それぞれ、無制限の範囲の整数値から選択されてよい。

【0184】

命令２２０１は、さらに、宛先行列（例えば、タイル）位置２２０４を指定する。指定された各行列位置は、メモリ位置、ベクトルレジスタの集合およびタイルレジスタの集合のいずれかにおいて、であってよい。ここで、指定ソース２２０６、２２０８、２２１０および宛先行列２２１６は、それぞれ、複数の要素を含む。一実施形態において、要素は、６４ビットまたは３２ビットである。

【0185】

また、ＴＩＬＥＰＡＲＴＩＡＬＤＯＴＰＲＯＤＵＣＴ命令２２０１を実行するためのシステム２２００が示される。システムは、１または複数のＡ行列を格納するソース位置１２２２２、１または複数のＢ行列を格納するソース位置２２２４、１または複数のＣ行列を格納するソース位置３２２２６、行列演算アクセラレータ回路２２２０、および指定された宛先行列（タイル）２２２６を含む。

【0186】

これらの行列演算を実行する代替の劣ったアプローチが存在するかもしれないが、開示されたＴＩＬＥＰＡＲＴＩＡＬＤＯＴＰＲＯＤＵＣＴ命令を実行する実施形態の電力と性能向上は、実現されない。いくつかの他のアプローチでは、ソフトウェアが、データを、ベクトル／ＳＩＭＤレジスタにロードし、ベクトル命令を使用して変換を実行し、再フォーマットされたデータをメモリへ書き込み、次に、再フォーマットされたデータを２Ｄ／ベクトル／タイルレジスタにロードする。しかし、ベクトル命令で形式の移行を行うと低速になる場合があり、複雑なソフトウェアチューニングを要求し、キャッシュ内により多くの空間が必要な場合がある。

【0187】

図２３は、本開示の複数の実施形態に係るTILEPARTIALDOTPRODUCT命令を処理する方法２３００を示す。方法２３００は、フェッチ回路を使用して、オペコード、ソースタイルの位置および宛先タイルを指定するフィールドを有する形式を備えた命令をフェッチすることを含み、オペコードは、プロセッサが、ドット積演算を単一のソースタイル内の複数の行列における各行列のデータの適切なサブセットに実行することを示し、更に、フェッチされた命令２３０３を復号回路を使用して復号すること、復号された行列命令２３０５の実行をスケジューリングすること、データの適切なサブセットにドット積演算を実行し、かつ、結果を宛先タイル２３０７に保存することにより、実行回路を使用して復号された命令に応答すること、そして、実行された命令２３０９の結果にコミットすることを備える。一実施形態において、命令は、行列演算アクセラレータ回路を、第１のモード（例えば、各入力タイル／レジスタの各セットにおける単一の行列のみを有する）と第２のモード（例えば、入力タイルの少なくとも１つ／レジスタの各セットにおける複数の行列を有する）との間でスイッチする。

【0188】

特定の実施形態では、図２１の行列演算アクセラレータ回路２１００と同様に演算が始まり、パイプラインを開始するためにデータ値がアレイの先頭に入力され、パイプラインを通って連続した結果が少しずつ転送される（例えば、適切ならば、追加の入力をパイプラインの様々な段階で提供する）。例えば、ルーティングチャネルを通して、データが１つのＰＥから次のＰＥへ下向きに流れる。行列演算アクセラレータ回路にコンフィギュアビリティを提供するために、本明細書の特定の実施形態では、設定スイッチを規則的な間隔で行列演算アクセラレータ回路に追加する（例えば、図２３における複数のＰＥの第４行の後の設定スイッチ２４３８）。特定の実施形態では、設定スイッチは、複数のデマルチプレクサおよび複数のマルチプレクサのペアである。一実施形態において、設定スイッチがオンされる場合、デマルチプレクサは前のＰＥからの結果出力に初期値Ｃを加算した後、Ｃバッファに書き込み、次のＰＥに向けたマルチプレクサは、前のＰＥの出力を転送する代わりに、ゼロを転送する。故に、本明細書の特定の実施形態は、ドット積のチェーンを中断して、新たなチェーンを開始する。一実施形態において、設定スイッチがオフされると、完全な行列演算アクセラレータ回路は、Ｃへの１つの出力ステージを有する単一のパイプラインのように振る舞う。これにより、例えば、入力データ値がパイプラインの先頭に挿入された場合（例えば、処理エレメント２４０６－１）、それらがオンにされた設定スイッチに到達するまで、結果が流れる（例えば、図示された方向で下向きに）。このステージで、パイプラインは、特定の実施形態では、対応するＣ要素へ値を加算した後、中断して値をバッファに書き込み、そして例えば、パイプラインにおける次のステージは、前のＰＥの出力値がゼロであったかのように読み込まれる。従って、新たなパイプラインの始まりと考えることができる。

【0189】

特定の実施形態において、設定スイッチは１つ又は複数の命令により制御される。例えば、第１の命令は全ての設定スイッチをオフし（例えば、各タイル乗算内の単一の行列）、第２の命令は、複数の設定スイッチの１または複数の行をオンする（例えば、各タイル内の複数の行列）。例えば、論理的に共に接着された（例えば上で記載のＴＰ２ＤＰ）２つの均等なサイズの行列を処理するための命令（例えば、タイルＡ、Ｂ、及びＣのそれぞれにおける２つの均等なサイズの行列）は、ＰＥアレイの中央で設定スイッチの行をオンして、タイルＡ、Ｂ、及びＣに格納された第１の行列セットに対してＡ＊Ｂ＋Ｃを実行し、タイルＡ、Ｂ、及びＣに格納された第２の行列セットに対してＡ´＊Ｂ´＋Ｃ´を実行する。

【0190】

図２４は、第１のモード及び第２のモードの間をスイッチする設定スイッチ（例えば、ルーティング回路及び設定スイッチ）の行を含む処理エレメント回路２４０６－１～２４０６－５の２次元グリッドを備える、行列演算アクセラレータ回路２４００の実施形態を示す。一実施形態において、復号および実行命令は、行列演算アクセラレータ回路２４００を、第１のモード（例えば、各入力タイル／レジスタの各セットにおける単一の行列のみを有する）から第２のモード（例えば、入力タイルの少なくとも１つ／レジスタの各セットにおける複数の行列を有する）へと、または第２のモードから第１のモードへとスイッチする。

【0191】

特定の実施形態において、データストレージ２４０２（例えば、レジスタファイル）は、複数のレジスタを有し、レジスタは、例えば、少なくとも１つの（例えば複数の）第１入力２次元行列（Ａ）、少なくとも１つの（例えば複数の）第２入力２次元行列（Ｂ）および少なくとも１つの（例えば複数の）第３入力２次元行列（Ｃ）（および、例えば、結果ストレージ）を表すレジスタのそれぞれのセットを含む。一実施形態において、出力２次元行列の結果は、少なくとも１つの第３入力２次元行列（Ｃ）を形成するレジスタに格納され、例えば、それらが行列演算アクセラレータ回路２４００によって用いられた後、入力２次元行列（Ｃ）の値を上書きする。

【0192】

一実施形態において、第１のモードの場合、第１の複数のレジスタに格納された値は、単一の入力２次元行列Ａを表し、第２の複数のレジスタに格納された値は、単一の入力２次元行列Ｂを表し（および、例えば、第３の複数のレジスタに格納された値は、単一の入力２次元行列Ｃを表す）、第２のモードの場合、第１の複数のレジスタに格納された値は、複数の入力２次元行列Ａ及びＡ´を表し、第２の複数のレジスタに格納された値は、複数の入力２次元行列Ｂ及びＢ´を表し（および、例えば、第３の複数のレジスタに格納された値は、複数の入力２次元行列Ｃ及びＣ´を表す）。

【0193】

示された行列演算アクセラレータ回路２４００は、複数のルーティング回路２４０２－１～２４０２－４を含み、（例えば、行列Ａ及びＡ´並びに行列Ｂ及びＢ´からの）入力値を、実行されるべき演算に従って処理エレメントへとルーティングする。

【0194】

本明細書の図は、全てのデータ通信結合（例えば接続）を示さなくてもよいことに注意されたい。当業者であれば、これが図中の特定の詳細を曖昧にしないためであることを理解する。図中の双方向矢印は、双方向通信を必要としなくてもよく、例えば、一方向通信を示してよい（例えば、そのコンポーネントまたはデバイスへの／からの）ことに注意されたい。通信経路のいずれ又は全ての組み合わせが、本明細書の特定の実施形態において用いられてよい。単一ラインが、内部に複数経路、例えば、複数のチャネルを含んでよい。例えば、ライン２４１０は、複数経路（例えば、Ｘ個、Ｘは任意の正の整数）、例えば、行列Ａからの値に対する１つの経路と、行列Ｂからの値に対する１つの経路とを含んでよい。

【0195】

（例えば、その演算を引き起こすための命令を復号し実行することにより）演算の実行要求があると、特定の実施形態では、行列演算アクセラレータ回路２４００は、タイルＡおよびタイルＢからの値を、各ルーティング回路へ送信する。例えば、演算は、第１のモードの場合、タイルＡからの行列ＡにタイルＢからの行列Ｂを乗算し、次に、タイルＣからの行列Ｃに対応する値へ各結果を加算することであってよく、第２のモードの場合、タイルＡからの行列ＡにタイルＢからの行列Ｂを乗算し、次に、タイルＣからの行列Ｃに対応する値へ各結果を加算し、そして、タイルＡからの行列Ａ´にタイルＢからの行列Ｂ´を乗算し、次に、タイルＣからの行列Ｃ´に対応する値へ各結果を加算することであってよい。

【0196】

一実施形態において、第１ルーティング回路２４０４－１は、第１値Ａ［０］［０］を行列Ａ［行］［列］から受信し（行インデックス０および列インデックス０からの値）、その値を、それぞれの処理エレメント２４０６－１へ、処理エレメント２４０６－１のそれぞれの第１入力および行列Ｂの第１行からの複数値のセットへの行へとブロードキャストし、それらの複数の値を、処理エレメント２４０６－１のそれぞれ（例えば、これにより、処理エレメント２４１２がＢ［０］［０］からの値を受信し、処理エレメント２４１４がＢ［０］［１］からの値を受信する等）の各第２入力へ送信する。一実施形態において、処理エレメント２４１２は、その出力２４１６に、Ａ［０］［０］＊Ｂ［０］［０］の乗算の結果を提供し、処理エレメント２４１４は、その出力２４１８に、Ａ［０］［０］＊Ｂ［０］［１］の乗算の結果を提供する。複数の出力（例えば、出力２４１６および２４１８）が、ルーティング回路２２４０４－２へ送信される。

【0197】

一実施形態において、第２ルーティング回路２４０４－２は、第２の値Ａ［０］［１］を行列Ａ［行］［列］から受信し（行インデックス０および列インデックス１からの値）、その値を、それぞれの処理エレメント２４０６－２へ、処理エレメント２４０６－２のそれぞれの第１入力および行列Ｂの第２行からの複数値のセットへの行へとブロードキャストし、それらの複数の値を、処理エレメント２４０６－１（例えば、これにより、処理エレメント２４２２がＢ［１］［０］からの値を受信し、処理エレメント２４２４がＢ［１］［１］からの値を受信する等）の各第２入力および処理エレメント２４０６－１の上記行の複数の出力からの各出力へ送信する。一実施形態において、処理エレメント２４２２は、その出力２４２６に、出力２４１６（Ａ［０］［０］＊Ｂ［０］［０］）へ加算したＡ［０］［１］＊Ｂ［１］［０］の乗算の結果を提供し、処理エレメント２４２４は、その出力２４２８に、出力２４１８（Ａ［０］［０］＊Ｂ［０］［１］）へ加算したＡ［０］［１］＊Ｂ［１］［１］の乗算の結果を提供する。特定の実施形態において、この融合乗算加算演算は、処理エレメント２４０６－３～処理エレメント２４０６－４の各行によって継続され、処理エレメント２４０６－４からの出力２４３０および出力２４３２を生成する。図２１の行列演算アクセラレータ回路２１００と比較すると、図２４の行列演算アクセラレータ回路２４００は、設定スイッチを有するルーティング回路２４３８を含む。設定スイッチ２４３８は、図２５の設定スイッチ２５００の複数インスタンス（例えば並列）であってよい。

【0198】

特定の実施形態において、第１のモードでは、設定スイッチ２４３８は、処理エレメント２４０６－５の第５行の結果へと加算されるべく、処理エレメント２４０６－４の第４行からの結果（例えば、出力２４３０及び出力２４３２）を、処理エレメント２４０６－５の次の行に渡す（例えば、ＰＥ２４５４への入力としての出力２４３０及びＰＥ２４５６への入力としての出力２４３２）。処理エレメント２４０６－５について示される５行に対して、設定スイッチを有するルーティング回路２４３８は、第１のモードにおいて、入力２４４２についての値Ａ［０］［４］を行列Ａ［行］［列］から受信し（行インデックス０および列インデックス４からの値）、その値を、それぞれの処理エレメント２４０６－５へ、処理エレメント２４０６－５のそれぞれの第１入力および行列Ｂの第４行からの入力２４４４に対する複数値のセットへの行へとブロードキャストし、それらの複数の値を、処理エレメント２４０６－５（例えば、これにより、処理エレメント２４５４の入力２４５０がＢ［４］［０］からの値を受信し、処理エレメント２４５６の入力２４５２がＢ［４］［１］からの値を受信する等）の各第２入力へ送信する。第１のモードの一実施形態において、処理エレメント２４５４は、その出力２４５８に、乗算Ａ［０］［０］＊Ｂ［０］［０］＋Ａ［０］［１］＊Ｂ［１］［０］＋Ａ［０］［２］＊Ｂ［２］［０］＋Ａ［０］［３］＊Ｂ［３］［０］＋Ａ［０］［４］＊Ｂ［４］［０］の結果を提供し、処理エレメント２４５６は、その出力２４６０に、乗算Ａ［０］［０］＊Ｂ［０］［１］＋Ａ［０］［１］＊Ｂ［１］［１］＋Ａ［０］［２］＊Ｂ［２］［１］＋Ａ［０］［３］＊Ｂ［３］［１］＋Ａ［０］［４］＊Ｂ［４］［１］の結果を提供する。行列演算アクセラレータ回路２４００に対する処理エレメントの行の終わりに達すると、バイアス加算回路２４６２は、入力２４３４（例えば、並列入力ポート）の行列Ｃからの各要素（例えば、行列Ｃの第１行からの各要素）を加算し、出力２４３６（例えば、並列出力ポートのセット）を経由して結果を行列Ｃの各要素（例えば、行列Ｃの第１行の各要素位置）に格納する。例えば、行列Ｃの第１行からの第１要素は出力２４５８からの結果へ加算され、その結果は行列Ｃの第１行の第１要素位置へ戻して格納され、行列Ｃの第１行からの第２要素は出力２４６０からの結果へ加算され、その結果は行列Ｃの第１行の第２要素位置へ戻して格納される。これが行列Ａの各行に対して反復され、行列Ａ＊行列Ｂの全体の乗算を生成する（そして、例えば、行列Ｃからのバイアスを各結果に加算する）。従って、第１のモードにおける特定の実施形態において、（例えば、行列演算アクセラレータ回路のレジスタの適切なサブセットであるタイルと共に）各タイル内の単一の行列に演算を行う場合に、バイアス加算回路２４４０は用いられない。

【0199】

第２のモードでの特定の実施形態において（例えば、タイルＡが行列Ａおよび行列Ａ´を含み、タイルＢが行列Ｂおよび行列Ｂ´を含み、タイルＣが行列Ｃおよび行列Ｃ´を含む）、設定スイッチ２４３８は、処理エレメント２４０６－５の第５行の結果へと加算されるべく、処理エレメント２４０６－４の第４行からの結果（例えば、出力２４３０および出力２４３２）を、処理エレメント２４０６－５の次の行には渡さない（例えば、出力２４３０はＰＥ２４５４への入力ではなく、出力２４３２はＰＥ２４５６への入力ではない）。第２のモードでは（例えば、行列Ａが４列幅であるような例において）、設定スイッチを有するルーティング回路２４３８は、処理エレメント２４０６－４の第４行からの結果値（例えば、出力２４３０と出力２４３２）をバイアス加算回路２４４０へ送信する。

【0200】

第２のモードの特定の実施形態において第４行２４０６－４からの第１の処理エレメントは、その出力２４３０に、乗算Ａ［０］［０］＊Ｂ［０］［０］＋Ａ［０］［１］＊Ｂ［１］［０］＋Ａ［０］［２］＊Ｂ［２］［０］＋Ａ［０］［３］＊Ｂ［３］［０］の結果を提供し、第４行２４０６－４からの第２の処理エレメント２４５６は、その出力２４３２に、乗算Ａ［０］［０］＊Ｂ［０］［１］＋Ａ［０］［１］＊Ｂ［１］［１］＋Ａ［０］［２］＊Ｂ［２］［１］＋Ａ［０］［３］＊Ｂ［３］［１］の結果を提供する。複数の行列（例えば、行列Ａ、Ｂ、及びＣ）の第１のサブセットの行の終わりに達すると、バイアス加算回路２４４０は、入力２４４６（例えば、並列入力ポート）の行列Ｃからの各要素（例えば、行列Ｃの第１行からの各要素）を加算し、出力２４４８（例えば、並列出力ポートのセット）を経由して結果を行列Ｃの各要素（例えば、行列Ｃの第１行の各要素位置）に格納する。例えば、行列Ｃの第１行からの第１要素は出力２４３０からの結果へ加算され、その結果は行列Ｃの第１行の第１要素位置へ戻して格納され、行列Ｃの第１行からの第２要素は出力２４３２からの結果へ加算され、その結果は行列Ｃの第１行の第２要素位置へ戻して格納される。

【0201】

第２のモードの特定の実施形態において、設定スイッチを有するルーティング回路２４３８は、第２のモードにおいて、行列Ａ´［行］［列］（第２行列Ａ´の値が、行インデックス０および列インデックス０）からの入力２４４２において、行列Ａ´から値Ａ´［０］［０］を受信し（行列ＡからＡ［０］［４］は受信せず）、その値を、それぞれの処理エレメント２４０６－５へ、処理エレメント２４０６－５のそれぞれの第１入力および行列Ｂ´の第１行（行列Ｂの第４行ではない）からの入力２４４４における複数値のセットへの行へとブロードキャストし、これらの複数の値を、処理エレメント２４０６－５の各第２入力へ送信する（例えば、これにより、処理エレメント２４５４の入力２４５０がＢ´［０］［０］からの値を受信し、処理エレメント２４５６の入力２４５２が、Ｂ´［０］［１］からの値を受信する等）が、出力２４３０はＰＥ２４５４への入力ではなく、出力２４３２はＰＥ２４５６への入力ではない。

【0202】

第２のモードの特定の実施形態において、処理エレメント２４５４は、その出力２４５８、Ａ´［０］［０］＊Ｂ´［０］［０］の乗算の結果を提供し、処理エレメント２４５６は、その出力２４６０に、Ａ´［０］［０］＊Ｂ´［０］［１］の乗算の結果を提供する。行列演算アクセラレータ回路２４００に対する処理エレメントの行の終わりに達すると、バイアス加算回路２４６２は、入力２４３４（例えば、並列入力ポート）の行列Ｃ´（行列Ｃではない）からの各要素（例えば、行列Ｃの第１行からの各要素）を加算し、出力２４３６（例えば、並列出力ポートのセット）を経由して結果を行列Ｃ´の各要素（例えば、行列Ｃ´の第１行の各要素位置）に格納する。例えば、行列Ｃ´の第１行からの第１要素は出力２４５８からの結果へ加算され、その結果は行列Ｃ´の第１行の第１要素位置へ戻して格納され、行列Ｃ´の第１行からの第２要素は出力２４６０からの結果へ加算され、その結果は行列Ｃの第１行の第２要素位置へ戻して格納される。これが（ｉ）行列Ａの各行に対して反復され、行列Ａ＊行列Ｂの全体の乗算を生成し（そして、例えば、行列Ｃからのバイアスを各結果に加算する）、そして（ｉｉ）行列Ａ´の各行に対して反復され、行列Ａ´＊行列Ｂ´の全体の乗算を生成する（そして、例えば、行列Ｃ´からのバイアスを各結果に加算する）。第２のモードにおける特定の実施形態において、（例えば、行列演算アクセラレータ回路のレジスタの適切なサブセットであるタイルと共に）各タイル内の複数の行列に演算を行う場合には、バイアス加算回路２４４０が用いられる。なお、５は、処理エレメント（及び、例えば、処理対象である各行列Ａ、Ｂ、及びＣの行及び列の最大数）の例示的行数であって、任意の複数の行であり得ることに注意されたい。

【0203】

図２５は、設定スイッチ２５００の実施形態を示す。示される回路２５０２は、設定スイッチ２５００およびバイアス加算回路２５０４を含む。示される設定スイッチ２５００は、第１の処理エレメント２５０６（例えば上流）および第２の処理エレメント２５０８（例えば下流）の間で結合される。例えば、第１の処理エレメント２５０６は、図２４の処理エレメント２４３０であってよく、第２の処理エレメントは図２４の処理エレメント２４５４であってよい。

【0204】

示される実施形態において、第１の処理エレメント２５０６は、前のＰＥ（例えば、前の行のＰＥ）からデータを供給する（例えば結果）第１入力２５１６、タイルＡ（例えば、内部に格納されている行列Ａおよび／または行列Ａ´）からデータを供給する第２入力２５１０、および、タイルＢ（例えば、内部に格納されている行列Ｂおよび／または行列Ｂ´）からデータを供給する第３入力２５１２を含む。一実施形態において、第１の処理エレメント２５０６は、第２入力２５１０から供給されたタイルＡからの要素を、第３入力２５１２から供給されたタイルＢからの要素と乗算して、中間結果を生成し、次に、その中間結果を第１入力２５１６からのデータ要素に加算して、結果を生成する。一実施形態において、その結果が、次に、設定スイッチ２５００、例えば、デマルチプレクサ２５２０の入力ポートに渡される。

【0205】

特定の実施形態において、第１の制御値（例えば０）が設定スイッチ入力２５２６に送信されると、（ｉ）第１の処理エレメント２５０６からの結果が、デマルチプレクサ２５２０の入力ポートからパス２５２８へ結合された出力ポート、そしてマルチプレクサ２５２２の第１の入力ポートへと導かれ、（ｉｉ）その結果は、マルチプレクサ２５２２の出力ポートから、第２の処理エレメント２５０８の第１の入力ポート２５３２へと送信される。示される実施形態において、第２の処理エレメントは、前のＰＥ２５０６（例えば第１のモードにおいて）からのデータ（例えば結果）、またはソース２５２４からの０（例えば第２のモードにおいて）を供給する第１入力２５３２、タイルＡ（例えば、内部に格納されている行列Ａおよび／または行列Ａ´）からデータを供給する第２入力２５１０、および、タイルＢ（例えば、内部に格納されている行列Ｂおよび／または行列Ｂ´）からデータを供給する第３入力データ２５１２、を含む。一実施形態において、第２の処理エレメント２５０８は、第２入力２５１０から供給されたタイルＡからの要素を、第３入力２５１２から供給されたタイルＢからの要素と乗算して、中間結果を生成し、次に、その中間結果を第１入力２５３２から供給されたＰＥ２５０６からの結果に加算して、結果を生成する。一実施形態において、その結果は、次に、出力２５１８を介して下流、例えば、別の処理エレメントの入力ポートに渡される。

【0206】

特定の実施形態において、第２の制御値（例えば１）が設定スイッチ入力２５２６に送信されると、（ｉ）第１の処理エレメント２５０６からの結果が、デマルチプレクサ２５２０の入力ポートからパス２５３０へ結合された出力ポート、そしてバイアス加算回路２５０４へと導かれ、（ｉｉ）ソース２５２４からの０は、マルチプレクサ２５２２の出力ポートから、第２の処理エレメント２５０８の第１の入力ポート２５３２へと送信される。示される実施形態において、第２の処理エレメントは、前のＰＥ２５０６（例えば第１のモードにおいて）からのデータ（例えば結果）、またはソース２５２４からの０（例えば第２のモードにおいて）を供給する第１入力２５３２、タイルＡ（例えば、内部に格納されている行列Ａおよび／または行列Ａ´）からデータを供給する第２入力２５１０、および、タイルＢ（例えば、内部に格納されている行列Ｂおよび／または行列Ｂ´）からデータを供給する第３入力データ２５１２、を含む。一実施形態において、第２の処理エレメント２５０８は、第２入力２５１０から供給されたタイルＡからの要素を、第３入力２５１２から供給されたタイルＢからの要素と乗算して、中間結果を生成し、次に、その中間結果を、第１入力２５３２から供給されたソース２５２４からの０に加算して、結果を生成する（例えば、ドット積チェーンは、行列Ａに代えて新たしい行列Ａ´に対してブレークされる）。一実施形態において、その結果は、次に、出力２５１８を介して下流、例えば、別の処理エレメントの入力ポートに渡される。一実施形態において、バイアス加算回路２５０４は、ポート２５１４からの各要素をタイルＣへ供給し各要素をパス２５３０からの結果に加算し、更新された結果を、ポート２５１４を介してタイルＣの各要素位置へ戻して格納する。特定の実施形態において、回路２５０２のそれぞれのインスタンスは、本明細書に記載されるように複数のモードをサポートする上流および下流のＰＥのそれぞれのペアの間で提供される。

【0207】

図２６は、複数のモードの間をスイッチする設定スイッチ２６０６－１～２６０６－７の複数の行を含む処理エレメントの２次元グリッドを備える、行列演算アクセラレータ回路２６０２の実施形態を示す。特定の実施形態において、各回路ブロック２６０４－１～２６０４－８は、図２５の回路ブロック２４７０の実例（インスタンス）である。示される実施形態において、回路ブロック２６０４－１～２６０４－７は、設定スイッチを有するルーティング回路２６０６－１～２６０６－７（例えば、図２４を参照して記載されたように）のそれぞれのインスタンスに結合され、それらは次に、バイアス加算回路（例えば、図２４を参照して記載されたように）のそれぞれのインスタンスに結合され、回路ブロック２６０４－８は、バイアス加算回路２６０８－８に結合される。図２６は、設定スイッチの複数の適切なサブセット（例えば行）が制御のために含まれてよいことを示しており、第１のモードでは、結果データは、行列演算アクセラレータ回路２６０２を通じたパイプライン処理を続け、異なるモードでは、結果データは、データのパイプライン処理を停止するように処理エレメントから導かれ、例えば、その結果データを、バイアス加算回路のそれぞれのインスタンスへ導き、その結果データと共にタイルＣでのそれぞれの値を更新する。

【0208】

モード選択の（複数の）制御値は、復号および実行命令（例えば、本明細書に記載された部分的等ドット積命令）によって提供されてよい。一実施形態において、命令は、設定スイッチに対する制御を明示的にエンコードするための即値を含む。即値（例えば、設定パラメータ）は、符号化値であり、以下の表は、設定スイッチのそれぞれのセット（例えば行）、例えば、設定スイッチの７つの行を有するアレイに対して、どのようにして復号され、オンまたはオフするようにプログラムされるかを示してよい。アプリケーションが同じアレイに対して複数の設定スイッチをオンすることを望む場合には、異なるエンコードが用いられてよい。命令は、出力タイルの数または出力タイルのサイズを運ぶ場合があり、あるいは、ハードウェアは、オンされた設定スイッチの数からこれを推測してよい。
表：設定値の例（表１－２は、表１－１の続き）

【表1-1】

【表1-2】

【0209】

上記で用いられてよい例示的アーキテクチャ、システム等が以下で詳述される。

【0210】

開示される技術の少なくともいくつかの実施形態は、以下の例を考慮して説明される。
例１融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路と、
上記行列演算アクセラレータ回路に結合される少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタと、
上記行列演算アクセラレータ回路に結合される少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタと、
上記行列演算アクセラレータ回路に結合されるコアの復号器であって、単一の命令を、復号された単一の命令へと復号し、上記単一の命令が結果として得られるストレージを識別するフィールドを有する、復号器と、
上記復号された単一の命令を実行する上記コアの実行回路と
を備え、
上記コアの実行回路が、上記行列演算アクセラレータ回路を、上記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の上記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ上記結果として得られるストレージに上記出力値を格納する第１のモードから、上記２次元グリッドの融合積和回路の上記第１の適切なサブセットのそれぞれについての上記各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ上記結果として得られるストレージに上記第１の出力値を格納し、上記２次元グリッドの融合積和回路の上記第２の適切なサブセットのそれぞれについての各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ上記結果として得られるストレージに上記第２の出力値を格納する第２のモードへとスイッチする、装置。
２．上記行列演算アクセラレータ回路が、上記第２のフィールドが第１の値である場合には上記第１のモードで実行し、上記第２のフィールドが第２の値である場合には上記第２のモードで実行することを示す第２のフィールドを、上記単一の命令が有する、例１に記載の装置。
３．上記第２のフィールドは、上記単一の命令の即値である、例２に記載の装置。
４．上記結果として得られるストレージが、上記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、例１に記載の装置。
５．上記復号された単一の命令を実行することが、
上記第１のモードでは、上記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す上記第３の複数のレジスタからの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、例４に記載の装置。
６．上記復号された単一の命令を実行することが、
上記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、例１に記載の装置。
７．上記結果として得られるストレージは、上記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、例１に記載の装置。
８．上記融合積和回路の第１の適切なサブセットは、上記融合積和回路の２次元グリッドにおける行または列の１つであり、
上記融合積和回路の第２の適切なサブセットは、上記融合積和回路の２次元グリッドにおける上記行または上記列の他方の上記１つである、例１に記載の装置。
例９プロセッサコアの復号器で単一の命令を復号された単一の命令に復号する段階であって、上記プロセッサコアが融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路が少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタ及び少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令が結果として得られるストレージを識別するフィールドを有する、段階と、
上記復号された単一の命令を上記プロセッサコアの実行回路で実行する段階と
を備え、
上記実行する段階が、上記行列演算アクセラレータ回路を、上記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の上記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ上記結果として得られるストレージに上記出力値を格納する第１のモードから、上記２次元グリッドの融合積和回路の上記第１の適切なサブセットのそれぞれについての上記各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ上記結果として得られるストレージに上記第１の出力値を格納し、上記２次元グリッドの融合積和回路の上記第２の適切なサブセットのそれぞれについての各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ上記結果として得られるストレージに上記第２の出力値を格納する第２のモードへとスイッチする、方法。
１０．上記行列演算アクセラレータ回路が、上記第２のフィールドが第１の値である場合には上記第１のモードで実行し、上記第２のフィールドが第２の値である場合には上記第２のモードで実行することを示す第２のフィールドを、上記単一の命令が有する、例９に記載の方法。
１１．上記第２のフィールドは、上記単一の命令の即値である、例１０に記載の方法。
１２．上記結果として得られるストレージが、上記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、例９に記載の方法。
１３．上記復号された単一の命令を実行する段階が、
上記第１のモードでは、上記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す上記第３の複数のレジスタからの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、例１２に記載の方法。
１４．上記復号された単一の命令を実行する段階が、
上記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、例９に記載の方法。
１５．上記結果として得られるストレージは、上記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、例９に記載の方法。
１６．上記融合積和回路の第１の適切なサブセットは、上記融合積和回路の２次元グリッドにおける行または列の１つであり、
上記融合積和回路の第２の適切なサブセットは、上記融合積和回路の２次元グリッドにおける上記行または上記列の他方の上記１つである、例９に記載の方法。
例１７コードを格納する非一時的機械読み出し可能媒体であって、機械に実行された場合に上記機械に方法を実行させ、上記方法が、
プロセッサコアの復号器で単一の命令を復号された単一の命令に復号する段階であって、上記プロセッサコアが融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路が少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタ及び少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令が結果として得られるストレージを識別するフィールドを有する、段階と、
上記復号された単一の命令を上記プロセッサコアの実行回路で実行する段階と
を備え、
上記実行する段階が、上記行列演算アクセラレータ回路を、上記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の上記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ上記結果として得られるストレージに上記出力値を格納する第１のモードから、上記２次元グリッドの融合積和回路の上記第１の適切なサブセットのそれぞれについての上記各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ上記結果として得られるストレージに上記第１の出力値を格納し、上記２次元グリッドの融合積和回路の上記第２の適切なサブセットのそれぞれについての各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ上記結果として得られるストレージに上記第２の出力値を格納する第２のモードへとスイッチする、非一時的機械読み出し可能媒体。
１８．上記行列演算アクセラレータ回路が、上記第２のフィールドが第１の値である場合には上記第１のモードで実行し、上記第２のフィールドが第２の値である場合には上記第２のモードで実行することを示す第２のフィールドを、上記単一の命令が有する、例１７に記載の非一時的機械読み出し可能媒体。
１９．上記第２のフィールドは、上記単一の命令の即値である、例１８に記載の非一時的機械読み出し可能媒体。
２０．上記結果として得られるストレージが、上記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、例１７に記載の非一時的機械読み出し可能媒体。
２１．上記復号された単一の命令を実行する段階が、
上記第１のモードでは、上記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す上記第３の複数のレジスタからの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、例２０に記載の非一時的機械読み出し可能媒体。
２２．上記復号された単一の命令を実行する段階が、
上記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、例１７に記載の非一時的機械読み出し可能媒体。
２３．上記結果として得られるストレージは、上記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、例１７に記載の非一時的機械読み出し可能媒体。
２４．上記融合積和回路の第１の適切なサブセットは、上記融合積和回路の２次元グリッドにおける行または列の１つであり、
上記融合積和回路の第２の適切なサブセットは、上記融合積和回路の２次元グリッドにおける上記行または上記列の他方の上記１つである、例１７に記載の非一時的機械読み出し可能媒体。

【0211】

さらに他の実施形態において、装置は、ハードウェアプロセッサにより実行された場合に、ハードウェアプロセッサに、本明細書に開示される任意の方法を実行させるコードを格納するデータストレージデバイスを備える。装置は、詳細な説明で説明された通りであってよい。方法は、詳細な説明で説明された通りであってよい。
詳細な例示的システム、プロセッサ及びエミュレーション

【0212】

上述の命令を実行するためのハードウェア、ソフトウェア等の例が、本明細書で詳述される。例えば、後述されるのは、例えば、フェッチ、復号、スケジューリング、実行、リタイア等の様々なパイプライン段階を含む命令実行の態様としての詳細である。
命令セット

【0213】

命令セットは、１または複数の命令の形式を含んでよい。所与の命令形式（フォーマット）は、とりわけ、実行対象の演算（例えばオペコード）および当該演算が行われる対象となるオペランド、および／または他のデータフィールド（例えばマスク）を指定する様々なフィールド（例えばビットの数、ビットの位置）を定義してよい。いくつかの命令形式は、命令テンプレート（またはサブフォーマット）の定義付けによってさらに細分化される。例えば、所与の命令形式の命令テンプレートは、当該命令形式のフィールドの種々のサブセットを有するものとして定義されてよく（含まれるフィールドは通常同じ順序であるが、少なくともいくつかは、含まれるフィールドの数がより少ないために異なるビット位置を有する）、および／または、異なって解釈される所与のフィールドを有するものとして定義されてよい。よって、ＩＳＡの各命令は、所与の命令形式を使用して（また、定義されている場合には、当該命令形式の命令テンプレートのうちの１つにおいて）表現され、演算およびオペランドを指定するためのフィールドを含む。例えば、例示的ＡＤＤ命令は、特定のオペコードと、当該オペコードを指定するためのオペコードフィールドおよびオペランド（ソース１／宛先およびソース２）を選択するためのオペランドフィールドを含む命令形式とを有する。命令ストリーム内でのこのＡＤＤ命令の発生は、特定のオペランドを選択するオペランドフィールド内に特定の内容を有することになる。次世代ベクトル拡張（ＡＶＸ）（ＡＶＸ１及びＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）符号化スキームを用いるＳＩＭＤ拡張のセットが、リリース及び／又は公開されている（例えば、２０１８年１１月発行のインテル（登録商標）６４及びＩＡ－３２アーキテクチャソフトウェアデベロッパーズマニュアル及び２０１８年１０月発行のインテル（登録商標）アーキテクチャ命令セット拡張プログラミングリファレンスを参照）。
例示的命令形式

【0214】

本明細書に説明される命令の実施形態は、異なる形式で具現化されてよい。加えて、例示的システム、アーキテクチャ、およびパイプラインが以下に詳述される。命令の実施形態は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行されてもよいが、詳述されたものに限定されるものではない。
汎用ベクトル向け命令フォーマット

【0215】

ベクトル向け命令形式は、ベクトル命令に適した命令形式である（例えば、ベクトル演算に固有の特定のフィールドがある）。ベクトル及びスカラ演算の両方がベクトル向け命令形式を通じてサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトル向け命令形式を通じてサポートされるベクトル演算のみを使用する。

【0216】

図２７Ａ－図２７Ｂは、本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマット及びこれらの命令テンプレートを示すブロック図である。図２７Ａは、本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマット及びそのクラスＡ命令テンプレートを示すブロック図であり、図２７Ｂは、本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマット及びそのクラスＢ命令テンプレートを示すブロック図である。具体的には、クラスＡ及びクラスＢ命令テンプレート用の汎用ベクトル向け命令フォーマット２７００が定義され、その両方は非メモリアクセス２７０５命令テンプレートおよびメモリアクセス２７２０命令テンプレートを含む。ベクトル向け命令形式との関連で汎用という用語は、特定の命令セットに結び付けられていない命令形式を指す。

【0217】

本開示の実施形態では、ベクトル向け命令形式が、３２ビット（４バイト）又は６４ビット（８バイト）データ要素幅（又はサイズ）を有する６４バイトベクトルオペランド長（又はサイズ）（したがって、６４バイトのベクトルは、１６個のダブルワードサイズの要素又は代替的に８クワッドワードサイズの要素のいずれか一方から構成される）、１６ビット（２バイト）又は８ビット（１バイト）データ要素幅（又はサイズ）を有する６４バイトベクトルオペランド長（又はサイズ）、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）又は８ビット（１バイト）データ要素幅（又はサイズ）を有する３２バイトのベクトルオペランド長（又はサイズ）、及び、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）又は８ビット（１バイト）データ要素幅（又はサイズ）を有する１６バイトのベクトルオペランド長（又はサイズ）をサポートすることが説明される一方、代替的な実施形態より多い、より多い、より少ない又は異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有する、より多い、より少ない及び／又は異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートしてよい。

【0218】

図２７ＡのクラスＡ命令テンプレートは、以下を含む。１）非メモリアクセス２７０５命令テンプレートには、非メモリアクセス、フルラウンド制御タイプオペレーション２７１０命令テンプレートおよび非メモリアクセス、データ変換タイプオペレーション２７１５命令テンプレートが示されており、２）メモリアクセス２７２０命令テンプレート内には、メモリアクセス、一時的２７２５命令テンプレートおよびメモリアクセス、非一時的２７３０命令テンプレートが示されている。図２７ＢのクラスＢ命令テンプレートは、以下を含む。１）非メモリアクセス２７０５命令テンプレート内には、非メモリアクセス、書き込みマスク制御、部分ラウンド制御タイプオペレーション２７１２命令テンプレートおよび非メモリアクセス、書き込みマスク制御、ｖｓｉｚｅタイプオペレーション２７１７命令テンプレートが示されており、２）メモリアクセス２７２０命令テンプレート内には、メモリアクセス、書き込みマスク制御２７２７命令テンプレートが示されている。

【0219】

汎用ベクトル向け命令フォーマット２７００は、図２７Ａ－図２７Ｂに示される順序で下記に列挙される以下のフィールドを含む。

【0220】

フォーマットフィールド２７４０－このフィールド内の特定値（命令形式識別子の値）は、ベクトル向け命令形式、したがって命令ストリーム内のベクトル向け命令形式内の命令の出現を一意に識別する。このように、このフィールドは、汎用ベクトル向け命令フォーマットのみを有する命令セットに必要とされないという意味で任意である。

【0221】

基本オペレーションフィールド２７４２：その内容は、異なる基本演算を区別する。

【0222】

レジスタインデックスフィールド２７４４－その内容は、直接またはアドレス生成を通じて、ソースオペランド及びデスティネーションオペランドの位置を、それらがレジスタ内またはメモリ内にあることを指定する。これらは、Ｐ×Ｑ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分なビットの数を含む。一実施形態において、Ｎは最大３つのソースおよび１つのデスティネーションレジスタであり得るが、代替的な実施形態は、より多くの又はより少ないソースおよびデスティネーションレジスタをサポートしてよく（例えば、最大２つのソースをサポートし、これらのソースのうちの１つがデスティネーションとしても動作してもよく、最大３つのソースをサポートして、これらのソースのうちの１つがデスティネーションとしても動作してもよく、最大２つのソースおよび１つのデスティネーションをサポートしてよい）。

【0223】

修飾子フィールド２７４６－その内容は、メモリアクセスを指定する汎用ベクトル命令形式の複数の命令の発生を、メモリアクセスを指定しない命令と区別する、すなわち、非メモリアクセス２７０５命令テンプレートとメモリアクセス２７２０命令テンプレートとの間を区別する。メモリアクセス演算は、（いくつかの場合、レジスタ内の値を使用してソースアドレスおよび／またはデスティネーションアドレスを指定する）メモリ階層に対して読み取りおよび／または書き込みを行い、非メモリアクセス演算は行わない（例えば、ソース及びデスティネーションはレジスタである）。一実施形態において、このフィールドはまた、メモリアドレス計算を実行する３つの異なる方法の中から選択するが、代替的な実施形態は、メモリアドレス計算を実行するより多い、より少ない、または異なる方法をサポートしてよい。

【0224】

拡張オペレーションフィールド２７５０－その内容は、基本演算に加えて、様々な異なる演算のうちのどの演算が実行されるべきかを区別する。このフィールドは、コンテキストに特有のものである。本開示の一実施形態において、このフィールドは、クラスフィールド２７６８、アルファフィールド２７５２及びベータフィールド２７５４に分割される。拡張オペレーションフィールド２７５０は、２、３または４個の命令ではなく、単一の命令の中で共通の演算グループが実行されることを可能にする。

【0225】

スケールフィールド２７６０－その内容は、メモリアドレス生成のためにインデックスフィールドの内容のスケーリングを可能にする（例えば、２^{［スケール］}＊［インデックス］＋［基本］を使用するアドレス生成のため）。

【0226】

変位フィールド２７６２Ａ－その内容は、メモリアドレス生成の一部として（例えば、２^{[スケール]}＊［インデックス］＋［ベース］＋［変位］を使用するアドレス生成用に）使用される。

【0227】

変位係数フィールド２７６２Ｂ（変位係数フィールド２７６２Ｂの真上の変位フィールド２７６２Ａの並置は、一方または他方が使用されることを示すことに留意されたい）－その内容は、アドレス生成の一部として使用され、それは、メモリアクセスのサイズ（Ｎ）によってスケーリングされるべき変位係数を指定する－Ｎは、（例えば、２^{［スケール］}＊［インデックス］＋［ベース］＋［スケーリングされた変位］を使用するアドレス生成用の）メモリアクセスにおけるバイト数である。冗長下位ビットは無視されるため、実効アドレスの計算に用いられるべき最終変位を生成するために、変位係数フィールドの内容はメモリオペランドの合計サイズ（Ｎ）と乗算される。Ｎの値は、（本明細書において後述される）フルオペコードフィールド２７７４およびデータ操作フィールド２７５４Ｃに基づいて、実行時にプロセッサハードウェアによって決定される。変位フィールド２７６２Ａおよび変位係数フィールド２７６２Ｂは、それらが非メモリアクセス２７０５命令テンプレートには用いられない、および／または、異なる実施形態がそれら２つのうちの一方のみを実装してよい、またはいずれも実装しなくてよいという意味で任意的である。

【0228】

データ要素幅フィールド２７６４－その内容は、（いくつかの実施形態においては、全ての命令に、他の実施形態ではいくつかの命令のみに）複数のデータ要素幅のうちのどのデータ要素幅が使用されるべきかを区別する。このフィールドは、１つのデータ要素幅のみがサポートされる場合、および／またはオペコードの何らかの態様を使用してデータ要素幅がサポートされる場合には必要とされないという意味で任意選択的である。

【0229】

書き込みマスクフィールド２７７０－その内容は、データ要素位置毎に、デスティネーションベクトルオペランド内のそのデータ要素位置が基本演算および拡張演算の結果を反映するか否かを制御する。クラスＡ命令テンプレートがマージング－書き込みマスキングをサポートする一方で、クラスＢ命令テンプレートはマージング－書き込みマスキングおよびゼロ書き込みマスクの両方をサポートする。マージする場合、ベクトルマスクは、（基本演算及び拡張演算により指定される）任意の演算の実行中に、デスティネーション内の任意の組の要素を更新されないように保護することを可能にするが、他の一実施形態では、対応するマスクビットが０を有する場合には、デスティネーションの各要素の古い値を保持する。対照的に、ゼロ書き込みする場合、ベクトルマスクは、（基本演算及び拡張演算により指定される）任意の演算の実行中に、デスティネーション内の任意の組の要素がゼロ書き込みされることを可能にするが、一実施形態において、対応するマスクビットが０値を有する場合、デスティネーションの要素が０に設定される。この機能のサブセットは、実行されている演算のベクトル長（すなわち、修正される要素の、最初の要素から最後の要素までの範囲）を制御する能力であるが、修正される要素が連続している必要はない。従って、書き込みマスクフィールド２７７０は、ロード、格納、算術、論理等を含む部分的なベクトル演算を可能にする。書き込みマスクフィールド２７７０の内容が用いられる書き込みマスクを含む多数の書き込みマスクレジスタのうちの１つを選択する（従って、書き込みマスクフィールド２７７０の内容は、実行対象のそのマスキングを間接的に識別する）本開示の複数の実施形態が説明される一方、代替的な実施形態では、代わりに又は追加的に、マスク書き込フィールド２７７０の内容が実行されるマスキングを直接指定することを可能にする。

【0230】

即値フィールド２７７２－その内容は即値の指定を可能にする。このフィールドは即値をサポートしない汎用ベクトル向け形式の実装には存在しない、および、このフィールドは即値を使用しない命令内には存在しないという意味において、このフィールドは、任意的なものである。

【0231】

クラスフィールド２７６８－その内容は、異なるクラスの命令の間で区別する。図２７Ａ－図２７Ｂを参照すると、このフィールドの内容はクラスＡ及びクラスＢ命令の間の選択を行う。図２７Ａ－図２７Ｂにおいて、角の丸い四角形を用いて、特定値がフィールド（例えば、図２７Ａ－図２７Ｂにおける、クラスフィールド２７６８のそれぞれクラスＡ２７６８ＡおよびクラスＢ２７６８Ｂ）に存在することを示す。
命令テンプレートクラスＡ

【0232】

クラスＡの非メモリアクセス２７０５命令テンプレートの場合、アルファフィールド２７５２はＲＳフィールド２７５２Ａと解釈され、その内容は、異なる拡張オペレーションタイプのうちどれが実行されるべきかを区別し（例えば、ラウンド２７５２Ａ．１およびデータ変換２７５２Ａ．２が非メモリアクセス、ラウンドタイプオペレーション２７１０および非メモリアクセス、データ変換タイプオペレーション２７１５命令テンプレートに対してそれぞれ指定される）、その一方でベータフィールド２７５４は、指定される型の演算のどれが実行されるべきかを区別する。非メモリアクセス２７０５命令テンプレートには、スケールフィールド２７６０、変位フィールド２７６２Ａ、および変位スケールフィールド２７６２Ｂは存在しない。
非メモリアクセス命令テンプレート－フルラウンド制御型オペレーション

【0233】

非メモリアクセス、フルラウンド制御タイプオペレーション２７１０命令テンプレートでは、ベータフィールド２７５４はラウンド制御フィールド２７５４Ａと解釈され、その内容は静的な丸めを提供する。説明される本開示の複数の実施形態において、ラウンド制御フィールド２７５４Ａは、全浮動小数点例外抑制（ＳＡＥ）フィールド２７５６及びラウンドオペレーション制御フィールド２７５８を含み、代替的な実施形態では、これらの概念の両方を同じフィールドにエンコードすることをサポートしてよく、又は、これらの概念／フィールドの一方又は他方のみを有してよい（例えば、ラウンドオペレーション制御フィールド２７５８のみを有してよい）。

【0234】

ＳＡＥフィールド２７５６－その内容は、例外イベント報告を無効化すべきか否かを区別する。ＳＡＥフィールド２７５６の内容が、抑制が有効化されたことを示す場合、所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない。

【0235】

ラウンドオペレーション制御フィールド２７５８－その内容は、丸め演算のグループ（例えば、切り上げ、切り捨て、ゼロへの丸め、および最近接丸め）のうちのいずれの丸め演算を実行するべきかを区別する。故に、ラウンドオペレーション制御フィールド２７５８は、命令単位で、ラウンドモードの変更を可能にする。プロセッサが複数のラウンドモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンドオペレーション制御フィールド２７５０の内容は、当該レジスタ値にオーバライドする。
メモリアクセス命令テンプレート－データ変換型オペレーション

【0236】

非メモリアクセスデータ変換タイプオペレーション２７１５の命令テンプレートでは、ベータフィールド２７５４はデータ変換フィールド２７５４Ｂとし解釈され、その内容は、多数のデータ変換のいずれが実行されるべきかを区別する（例えば、データ変換なし、スウィズル、ブロードキャスト）。

【0237】

クラスＡのメモリアクセス２７２０命令テンプレートの場合、アルファフィールド２７５２はエビクションヒントフィールド２７５２Ｂと解釈され、その内容は、エビクションヒントのうちいずれが使用されるべきかを区別し（図２７Ａでは、メモリアクセス、一時的２７２５命令テンプレートおよびメモリアクセス、非一時的２７３０命令テンプレートのために一時的２７５２Ｂ．１および非一時的２７５２Ｂ．２がそれぞれ指定される）、その一方でベータフィールド２７５４はデータ操作フィールド２７５４Ｃと解釈され、その内容は、多数のデータ操作演算（プリミティブとしても知られる）のうちいずれが実行されるべきかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン）。メモリアクセス２７２０命令テンプレートは、スケールフィールド２７６０、および場合によっては、変位フィールド２７６２Ａまたは変位スケールフィールド２７６２Ｂを含む。

【0238】

ベクトルメモリ命令は、変換サポートを使用して、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令と同様に、ベクトルメモリ命令は、実際に転送される要素を書き込みマスクとして選択されたベクトルマスクの内容によって指示して、データ要素ごとにメモリとの間でデータを転送する。
メモリアクセス命令テンプレート－一時的

【0239】

一時的データは、キャッシュの恩恵を受けるのに十分なほど速やかに再使用される可能性が高いデータである。しかしながら、これは示唆であり、異なるプロセッサは、この示唆を完全に無視することを含め、それを異なる態様方法で実装してよい。
メモリアクセス命令テンプレート－非一時的

【0240】

非一時的データは、一次レベルキャッシュでのキャッシュの恩恵を受けるのに十分なほど速やかに再使用される可能性が低いデータであり、エビクションの優先権が与えられるべきである。しかしながら、これは示唆であり、異なるプロセッサは、この示唆を完全に無視することを含め、それを異なる態様方法で実装してよい。
クラスＢの命令テンプレート

【0241】

クラスＢの命令テンプレートの場合、アルファフィールド２７５２は書き込みマスク制御（Ｚ）フィールド２７５２Ｃと解釈されるべきであり、その内容は、書き込みマスクフィールド２７７０によって制御された書き込みマスキングがマージングであるべきかゼロ書き込みであるべきか否かを区別する。

【0242】

クラスＢの非メモリアクセス２７０５命令テンプレートの場合、ベータフィールド２７５４の一部はＲＬフィールド２７５７Ａとして解釈されるべきであり、その内容は、異なる拡張オペレーションタイプのうちどれが実行されるべきかを区別し（例えば、ラウンド２７５７Ａ．１およびベクトル長（ＶＳＩＺＥ）２７５７Ａ．２は、非メモリアクセス、書き込みマスク制御、部分ラウンド制御タイプオペレーション２７１２命令テンプレートおよび非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプオペレーション２７１７命令テンプレートに対してそれぞれ指定される）、その一方でベータフィールド２７５４の残りは、指定される型の演算のどれが実行されるべきかを区別する。非メモリアクセス２７０５命令テンプレートには、スケールフィールド２７６０、変位フィールド２７６２Ａ、および変位スケールフィールド２７６２Ｂは存在しない。

【0243】

非メモリアクセス、書き込みマスク制御、部分ラウンド制御タイプオペレーション２７１０命令テンプレートでは、ベータフィールド２７５４の残りはラウンドオペレーションフィールド２７５９Ａと解釈され、例外イベント報告は無効化される（所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない）。

【0244】

ラウンドオペレーション制御フィールド２７５９Ａ－ラウンドオペレーション制御フィールド２７５８と同様に、その内容は、丸め演算グループのうちどれを実行すべきかを区別する（例えば、切り上げ、切り捨て、ゼロへの丸め、および最近接丸め）。従って、ラウンドオペレーション制御フィールド２７５９Ａは、命令単位で、ラウンドモードの変更を可能にする。プロセッサが複数のラウンドモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンドオペレーション制御フィールド２７５０の内容は、当該レジスタ値にオーバライドする。

【0245】

非メモリアクセス・書き込みマスク制御・ＶＳＩＺＥタイプオペレーション２７１７命令テンプレートでは、ベータフィールド２７５４の残りはベクトル長フィールド２７５９Ｂと解釈され、その内容は、多数のデータベクトル長のいずれが実行されるべきかを区別する（例えば、１２８バイト、２５６バイト、又は５１２バイト）。

【0246】

クラスＢのメモリアクセス２７２０命令テンプレートの場合、ベータフィールド２７５４の一部はブロードキャストフィールド２７５７Ｂと解釈され、その内容は、ブロードキャストタイプのデータ操作演算が実行されるべきか否かを区別し、ベータフィールド２７５４の残りはベクトル長フィールド２７５９Ｂとして解釈される。メモリアクセス２７２０命令テンプレートは、スケールフィールド２７６０、および場合によっては、変位フィールド２７６２Ａまたは変位スケールフィールド２７６２Ｂを含む。

【0247】

汎用ベクトル向け命令フォーマット２７００に関して、フォーマットフィールド２７４０、基本オペレーションフィールド２７４２、およびデータ要素幅フィールド２７６４を含むフルオペコードフィールド２７７４が示されている。一実施形態は、フルオペコードフィールド２７７４がこれらのフィールドのうち全てを含むように示されているものの、これらのフィールドの全てをサポートしない実施形態においては、フルオペコードフィールド２７７４は、これらのフィールドの全てより小さい数を含む。フルオペコードフィールド２７７４は、演算コード（オペコード）を提供する。

【0248】

拡張オペレーションフィールド２７５０、データ要素幅フィールド２７６４、および書き込みマスクフィールド２７７０は、これらの特徴が汎用ベクトル向け命令フォーマットにおいて命令単位で指定されることを可能にする。

【0249】

書き込みマスクフィールドおよびデータ要素幅フィールドの組み合わせは、異なるデータ要素幅に基づいてマスクを適用可能とるという点で、型付き命令を形成する。

【0250】

クラスＡおよびクラスＢ内で見出される様々な命令テンプレートは、異なる状況で有益である。本開示の複数の実施形態のいくつかにおいて、複数の異なるプロセッサ又はプロセッサ内の複数の異なるコアは、クラスＡのみ、クラスＢのみ、又は両方のクラスをサポートしてよい。例えば、汎用コンピューティング向けの高性能汎用アウトオブオーダコアは、クラスＢのみをサポートしてよく、主にグラフィック及び／又は科学的（スループット）コンピューティング向けのコアは、クラスＡのみをサポートしてよく、両方向けのコアは、両方をサポートしてよい（勿論、コアは、両方のクラスからの複数のテンプレート及び命令のいくつかの組み合わせを有するが、両方のクラスからの複数のテンプレート及び命令の全てが本開示の範囲内にある訳ではない）。また、単一のプロセッサが複数のコアを含んでよく、それらの全てが同じクラスをサポートするか、またはそれらの中の異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックコアと汎用コアをもつプロセッサでは、主にグラフィックおよび／または科学コンピューティング向けの複数のグラフィックコアのうちの１つがクラスＡのみをサポートしてよく、汎用コアのうちの１つ又は複数が、クラスＢのみをサポートする汎用コンピューティング向けのアウトオブオーダ実行およびレジスタリネーミングを有する高性能汎用コアであってもよい。別個のグラフィックコアをもたない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートする１つのより汎用のインオーダコアまたはアウトオブオーダコアを含んでよい。勿論、１つのクラスからの複数の機能は、また、本開示の複数の異なる実施形態における他のクラスで実装されてもよい。高水準言語で書かれたプログラムは、１）実行のためにターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、または２）全てのクラスの命令の異なる組み合わせを使用して書かれた代替的ルーチンを有し、現在コードを実行しているプロセッサによってサポートされる命令に基づいて実行すべきルーチンを選択する制御フローコードを有する形式を含む、様々な異なる実行可能な形式に変換される（例えば、ジャストインタイムコンパイルまたは静的コンパイル）。
例示的特定ベクトル向け命令フォーマット

【0251】

図２８は、本開示の複数の実施形態に係る例示的特定ベクトル向け命令フォーマットを示すブロック図である。図２８は、特定ベクトル向け命令フォーマット２８００を示し、位置、サイズ、解釈およびフィールド順序、並びにそれらのフィールドのいくつかに対する値を指定するという意味において特定的である。特定ベクトル向け命令フォーマット２８００は、ｘ８６命令セットを拡張するために用いられてよく、従って、いくつかのフィールドは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）で使用されるフィールドと同様または同じである。この形式は、拡張を有する既存のｘ８６命令セットのプレフィックスエンコーディングフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、および即値フィールドと一致したままである。図２７のフィールドが図２８のどのフィールドにマップされるかが図示されている。

【0252】

本開示の複数の実施形態は、例示目的のため、汎用ベクトル向け命令フォーマット２７００との関連で特定ベクトル向け命令フォーマット２８００を参照して説明されるが、本開示は、特許請求の範囲に記載されたものを除いて、特定ベクトル向け命令フォーマット２８００に限定されるものではないことを理解されたい。例えば、汎用ベクトル向け命令フォーマット２７００は、様々なフィールドについて様々な可能なサイズを想定しており、一方で特定ベクトル向け命令フォーマット２８００は、特定のサイズのフィールドを有するものとして示されている。具体的な例を用いて、データ要素幅フィールド２７６４は、特定ベクトル向け命令フォーマット２８００において、１ビットフィールドとして示されているが、本開示は、そこまで限定されることはない（すなわち、汎用ベクトル向け命令フォーマット２７００は、他のサイズのデータ要素幅フィールド２７６４を検討する）。

【0253】

汎用ベクトル向け命令フォーマット２７００は、図２８Ａに示される順序で下記に列挙される以下のフィールドを含む。

【0254】

ＥＶＥＸプレフィクス（バイト０－３）２８０２は、４バイト形式にエンコードされる。

【0255】

フォーマットフィールド２７４０（ＥＶＥＸバイト０、ビット［７：０］）－第１のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド２７４０であり、それは、０ｘ６２（本開示の一実施形態において、ベクトル向け命令形式を区別するために用いられる固有値）を含む。

【0256】

第２～第４バイト（ＥＶＥＸバイト１－３）は、具体的な能力を提供する多数のビットフィールドを含む。

【0257】

ＲＥＸフィールド２８０５（ＥＶＥＸバイト１、ビット［７‐５］）－これはＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］‐Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］‐Ｘ）および２７５７ＢＥＸバイト１、ビット［５］‐Ｂ）から成る。ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ及びＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同じ機能を提供し、これらは、１の補数形式を使用してエンコードされる、すなわち、ＺＭＭ０は、１１１１Ｂとしてエンコードされ、ＺＭＭ１５は、００００Ｂとしてエンコードされる。命令の他のフィールドは、当該技術分野において知られているように、レジスタインデックスの下位３ビット（ｒｒｒ、ｘｘｘ及びｂｂｂ）をエンコードし、これにより、ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ及びＥＶＥＸ．Ｂを加算することにより、Ｒｒｒｒ、Ｘｘｘｘ及びＢｂｂｂが形成され得る。

【0258】

ＲＥＸ'フィールド２７１０－これは、ＲＥＸ'フィールド２７１０の第１の部分であり、拡張３２レジスタセットの上位１６または下位１６のいずれかをエンコードするために用いられるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］－Ｒ'）である。本開示の一実施形態において、このビットは、リアルオペコードバイトが６２であるＢＯＵＮＤ命令と（周知のｘ８６３２ビットモードにおいて）区別するために、以下に示されるような他のものと共にビット反転形式に格納されるが、ＭＯＤＲ／Ｍフィールド（後述）では、ＭＯＤフィールド内の値１１を受け入れない。本開示の複数の代替的な実施形態では、このビット及び以下に示される他のビットを反転形式に格納しない。下位１６個のレジスタをエンコードするために１の値が使用される。換言すると、Ｒ'Ｒｒｒｒは、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒ、および他のフィールドの他のＲＲＲを組み合わせることにより形成される。

【0259】

オペコードマップフィールド２８１５（ＥＶＥＸバイト１、ビット［３：０］－ｍｍｍｍ）－その内容は、暗示された先頭オペコードバイト（０Ｆ、０Ｆ３８又は０Ｆ３）をエンコードする。

【0260】

データ要素幅フィールド２７６４（ＥＶＥＸバイト２、ビット［７］－Ｗ）－記号ＥＶＥＸ．Ｗという表記によって表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットデータ要素又は６４ビットデータ要素のいずれか）を定義するために用いられる。

【0261】

ＥＶＥＸ．ｖｖｖｖ２８２０（ＥＶＥＸバイト２、ビット［６：３］－ｖｖｖｖ）－ＥＶＥＸ．ｖｖｖｖの役割は以下を含んでよい。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定された第１のソースレジスタオペランドを符号化し、２つ以上のソースオペランドを有する命令に有効である。２）ＥＶＥＸ．ｖｖｖｖは、特定のベクトルシフトに対して１の補数形式で指定されるデスティネーションレジスタオペランドを符号化する。３）ＥＶＥＸ．ｖｖｖｖはいかなるオペランドも符号化せず、フィールドは予約され、１１１１ｂを含むべきである。従って、ＥＶＥＸ．ｖｖｖｖフィールド２８２０は、反転（１の補数）形式で格納された最初のソースレジスタ指定子の下位４ビットを符号化する。命令に応じて、追加の異なるＥＶＥＸビットフィールドが使用され、指定子サイズを３２個のレジスタに拡張する。

【0262】

ＥＶＥＸ．Ｕ２７６８のクラスフィールド（ＥＶＥＸバイト２、ビット［２］－Ｕ）－ＥＶＥＸ．Ｕ＝０である場合、クラスＡ又はＥＶＥＸ．Ｕ０を示し、ＥＶＥＸ．Ｕ＝１である場合、クラスＢ又はＥＶＥＸ．Ｕ１を示す。

【0263】

プレフィクスエンコードフィールド２８２５（ＥＶＥＸバイト２、ビット［１：０］－ｐｐ）－基本オペレーションフィールドに追加のビットを提供する。ＥＶＥＸプレフィクス形式でレガシＳＳＥ命令にサポートを提供することに加えて、これはＳＩＭＤプレフィクスを圧縮するという利点も有する（ＳＩＭＤプレフィクスを表すために１バイトを必要とするのではなく、ＥＶＥＸプレフィクスは２ビットのみを必要とする）。一実施形態において、レガシ形式およびＥＶＥＸプレフィクス形式の両方におい、ＳＩＭＤプレフィクス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を使用するレガシＳＳＥ命令をサポートすべく、これらのレガシＳＩＭＤプレフィクスは、ＳＩＭＤプレフィクスエンコーディングフィールドにエンコードされ、復号回路のＰＬＡに提供される前に、ランタイムにレガシＳＩＭＤプレフィクスに拡張される（よって、ＰＬＡは、変更なしで、これらのレガシ命令のレガシフォーマットおよびＥＶＥＸフォーマットの両方を実行可能である）。より新たな命令は、ＥＶＥＸプレフィクスエンコードフィールドの内容をオペコード拡張として直接的に用いることができるであろうが、特定の実施形態は、整合性のために同様に拡張を行うが、これらのレガシＳＩＭＤプレフィクスが異なる意味を指定することを可能とする。代替的な実施形態は、２ビットＳＩＭＤプレフィクスエンコーディングをサポートし、従って、拡張を必要としないようにＰＬＡを再設計することができる。

【0264】

アルファフィールド２７５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ、ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．書き込みマスク制御、及びＥＶＥＸ．Ｎとしても知られ、αでも示される）：前述されたように、このフィールドはコンテキスト固有である。

【0265】

ベータフィールド２７５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ、ＥＶＥＸ．ｓ２－０、ＥＶＥＸ．ｒ２－０、ＥＶＥＸ．ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られ、βββでも示される）：前述されたように、このフィールドはコンテキスト固有である。

【0266】

ＲＥＸ'フィールド２７１０：これは、ＲＥＸ'フィールドの残りであり、拡張３２レジスタセットの上位１６または下位１６のいずれかをエンコードするのに用いられ得るＥＶＥＸ．Ｖ'ビットフィールド（ＥＶＥＸバイト３、ビット［３］―Ｖ'）である。このビットはビット反転形式で格納される。下位１６個のレジスタをエンコードするために１の値が使用される。換言すると、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより、Ｖ'ＶＶＶＶが形成される。

【0267】

書き込みマスクフィールド２７７０（ＥＶＥＸバイト３、ビット［２：０］―ｋｋｋ）：その内容は、前述されたように、書き込みマスクレジスタにおけるレジスタのインデックスを指定する。本開示の一実施形態において、特定値ＥＶＥＸ．ｋｋｋ=０００は、特定の命令に用いられる書き込みマスクが存在しないことを示唆する特別な動作を有する（これは、すべてのものに対してハードウェアに組み込まれる書き込みマスク、又は、マスキングハードウェアをバイパスするハードウェアの使用を含む様々な方法で実装されてよい）。

【0268】

リアルオペコードフィールド２８３０（バイト４）はオペコードバイトとしても知られる。オペコードの一部はこのフィールドで指定される。

【0269】

ＭＯＤＲ／Ｍフィールド２８４０（バイト５）は、ＭＯＤフィールド２８４２、Ｒｅｇフィールド２８４４、およびＲ／Ｍフィールド２８４６を含む。前述されたように、ＭＯＤフィールド２８４２の内容は、メモリアクセス演算と非メモリアクセス演算とを区別する。Ｒｅｇフィールド２８４４の役割は、デスティネーションレジスタオペランド又はソースレジスタオペランドのいずれかをエンコードする、またはオペコード拡張として扱われ、いずれの命令オペランドをエンコードするのにも用いられないという２つの状況に要約することができる。Ｒ／Ｍフィールド２８４６の役割は、メモリアドレスを参照する命令オペランドをエンコードすること、デスティネーションレジスタオペランド又はソースレジスタオペランドとのいずれかをエンコードすることを含んでよい。

【0270】

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）：前述されたように、スケールフィールド２７５０の内容は、メモリアドレス生成のために用いられる。ＳＩＢ．ｘｘｘ２８５４およびＳＩＢ．ｂｂｂ２８５６－これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関して記載済みである。

【0271】

変位フィールド２７６２Ａ（バイト７～１０）－ＭＯＤフィールド２８４２が１０を含む場合、バイト７～１０は変位フィールド２７６２Ａであり、それはレガシー３２ビット変位（ｄｉｓｐ３２）と同じように機能し、バイト粒度で機能する。

【0272】

変位係数フィールド２７６２Ｂ（バイト７）－ＭＯＤフィールド２８４２が０１を含む場合、バイト７は変位係数フィールド２７６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）の位置と同じである。ｄｉｓｐ８は符号拡張されているので、－１２８バイトオフセットと１２７バイトオフセットとの間のアドレス指定しかできず、６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は、４つの本当に有用な値－１２８、－６４、０、および６４にのみ設定できる８ビットを使用し、より大きな範囲がしばしば必要とされるので、ｄｉｓｐ３２が使用されるが、ｄｉｓｐ３２は４バイトを必要とする。ｄｉｓｐ８およびｄｉｓｐ３２と対照的に、変位係数フィールド２７６２Ｂはｄｉｓｐ８の再解釈であり、変位係数フィールド２７６２Ｂを使用する場合に、実際の変位は、メモリオペランドアクセスのサイズ（Ｎ）と乗算された変位係数フィールドの内容によって決定される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これにより、平均命令長（変位に使用される単一バイトであるが、はるかに広い範囲を有する）が短くなる。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であるという前提に基づいており、従って、アドレスオフセットの冗長下位ビットはエンコードの必要がない。換言すると、変位係数フィールド２７６２Ｂが、レガシｘ８６命令セットの８ビット変位と置き換わる。従って、位係数フィールド２７６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎに多重定義されるという唯一の例外を除いて、ｘ８６命令セットの８ビット変位と同じ方法で符号化される（そのため、ＭｏｄＲＭ／ＳＩＢ符号化ルールにおける変更はない）。換言すると、エンコードルールまたはエンコード長に変更はなく、ハードウェアによる変位値の解釈のみに変更がある（バイト単位のアドレスオフセットを得るには、メモリオペランドのサイズによって変位をスケールする必要がある）。即値フィールド２７７２は、前述されたように機能する。
フルオペコードフィールド

【0273】

図２８Ｂは、本開示の一実施形態に係るフルオペコードフィールド２７７４を形成する特定ベクトル向け命令フォーマット２８００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド２７７４は、形式２７４０、基本オペレーションフィールド２７４２およびデータ要素幅（Ｗ）フィールド２７６４を含む。基本オペレーションフィールド２７４２は、プレフィクスエンコーディングフィールド２８２５、オペコードマップフィールド２８１５およびリアルオペコードフィールド２８３０を含む。
レジスタインデックスフィールド

【0274】

図２８Ｃは、本開示の一実施形態に係るレジスタインデックスフィールド２７４４を形成する特定ベクトル向け命令フォーマット２８００を示すブロック図である。具体的には、レジスタインデックスフィールド２７４４は、ＲＥＸフィールド２８０５、ＲＥＸ'フィールド２８１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド２８４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド２８４６、ＶＶＶＶフィールド２８２０、ｘｘｘフィールド２８５４、およびｂｂｂフィールド２８５６を含む。
拡張オペレーションフィールド

【0275】

図２８Ｄは、本開示の一実施形態に係る拡張オペレーションフィールド２７５０を形成する特定ベクトル向け命令フォーマット２８００のフィールドを示すブロック図である。クラス（Ｕ）フィールド２７６８が０を含む場合、それは、ＥＶＥＸ．Ｕ０（クラスＡ２７６８Ａ）を意味し、１を含む場合、それはＥＶＥＸ．Ｕ１（クラスＢ２７６８Ｂ）を意味する。Ｕ＝０、かつＭＯＤフィールド２８４２が（非メモリアクセス演算を意味する）１１を含む場合、アルファフィールド２７５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ）はＲＳフィールド２７５２Ａと解釈される。ＲＳフィールド２７５２Ａが１を含む場合（ラウンド２７５２Ａ．１）、ベータフィールド２７５４（ＥＶＥＸバイト３、ビット［６：４］―ＳＳＳ）はラウンド制御フィールド２７５４Ａと解釈される。ラウンド制御フィールド２７５４Ａは、１ビットのＳＡＥフィールド２７５６および２ビットのラウンドオペレーションフィールド２７５８を含む。ＲＳフィールド２７５２Ａが０を含む場合（データ変換２７５２Ａ．２）、ベータフィールド２７５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は３ビットのデータ変換フィールド２７５４Ｂと解釈される。Ｕ＝０、かつＭＯＤフィールド２８４２が００、０１または１０を含む場合（メモリアクセス演算を意味）、アルファフィールド２７５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ）は、エビクションヒント（ＥＨ）フィールド２７５２Ｂと解釈され、ベータフィールド２７５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は３ビットのデータ操作フィールド２７５４Ｃと解釈される。

【0276】

Ｕ＝１の場合、アルファフィールド２７５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ）は書き込みマスク制御（Ｚ）フィールド２７５２Ｃと解釈される。Ｕ＝１、かつＭＯＤフィールド２８４２が１１を含む（非メモリアクセス演算を表す）場合、ベータフィールド２７５４の一部（ＥＶＥＸバイト３、ビット［４］―Ｓ０）は、ＲＬフィールド２７５７Ａと解釈される。これが１を含む場合（ラウンド２７５７Ａ．１）、ベータフィールド２７５４の残り（ＥＶＥＸバイト３、ビット［６‐５］―Ｓ２－１）は、ラウンドオペレーションフィールド２７５９Ａと解釈され、一方でＲＬフィールド２７５７Ａが０を含む場合（ＶＳＩＺＥ２７５７．Ａ２）、ベータフィールド２７５４の残り（ＥＶＥＸバイト３、ビット［６‐５］―Ｓ２－１）は、ベクトル長フィールド２７５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ１－０）と解釈される。Ｕ＝１、かつＭＯＤフィールド２８４２が（メモリアクセス演算を意味する）００、０１、または１０を含む場合、ベータフィールド２７５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）は、ベクトル長フィールド２７５９Ｂ（ＥＶＥＸバイト３、ビット［６－５］－Ｌ１－０）およびブロードキャストフィールド２７５７Ｂ（ＥＶＥＸバイト３、ビット［４］－Ｂ）と解釈される。
例示的レジスタアーキテクチャ

【0277】

図２９は、本開示の一実施形態に係るレジスタアーキテクチャ２９００のブロック図である。図示される実施形態には、５１２ビット幅の３２個のベクトルレジスタ２９１０がある。これらのレジスタは、ｚｍｍ０からｚｍｍ３１と参照符号が付されている。下位１６個のｚｍｍレジスタの下位２５６ビットは、レジスタｙｍｍ０～ｙｍｍ１６に重なっている。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）は、レジスタｘｍｍ０～１５に重なっている。特定ベクトル向け命令フォーマット２８００は、これらの重なったレジスタファイルに対し、以下の表に示されるように動作する。

【表2】

【0278】

換言すると、ベクトル長フィールド２７５９Ｂは、最大長と１つ又は複数の他のより短い長さとの間で選択し、そのようなより短い長さの各々は先行する長さの半分の長さであり、ベクトル長フィールド２７５９Ｂのない命令テンプレートは最大ベクトル長に作用する。さらに一実施形態において、特定ベクトル向け命令フォーマット２８００のクラスＢ命令テンプレートは、パック型又はスカラ型単／倍精度浮動小数点データ、およびパック型又はスカラ型整数データに対して作用する。スカラ演算とは、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタ内の最下位のデータ要素の位置で実行される演算である。実施形態に応じて、より上位のデータ要素の位置は、命令前と同じに保持されるか、ゼロ書き込みされるかのいずれかである。

【0279】

図示の実施形態の書き込みマスクレジスタ２９１５では、各々６４ビットのサイズの８個の書き込みマスクレジスタ（ｋ０からｋ７）がある。代替的な実施形態において、書き込みマスクレジスタ２９１５は１６ビットのサイズである。前述されたように、本開示の一実施形態において、ベクトルマスクレジスタｋ０は、書き込みマスクとして用いられることができず、通常ｋ０を示すエンコードが書き込みマスクに用いられる場合、０ｘＦＦＦＦのハードウェアに組み込まれる書き込みマスクを選択することで、その命令に対する書き込みマスキングを効率的に無効にする。

【0280】

図示の実施形態の汎用レジスタ２９２５では、メモリオペランドをアドレス指定するために既存のｘ８６アドレス指定モードと共に使用される１６個の６４ビット汎用レジスタがある。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８からＲ１５の名称で参照される。

【0281】

ＭＭＸパック整数フラットレジスタファイル２９５０がエイリアスされる、スカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）２９４５－図示される実施形態では、ｘ８７スタックは、ｘ８７命令セット拡張子を使用して３２／６４／８０ビット浮動小数点データに対してスカラ浮動小数点演算を実行するために使用される８要素スタックである。一方、ＭＭＸレジスタは、６４ビットのパックされた整数データに対して演算を実行するため、ならびにＭＭＸレジスタとＸＭＭレジスタとの間で実行されるいくつかの演算のためにオペランドを保持するために、使用される。

【0282】

本開示の複数の代替的な実施形態では、より広い又はより狭いレジスタを用いてよい。さらに、本開示の複数の代替的な実施形態は、より多くの、より少ない、又は異なる複数のレジスタファイル及び複数のレジスタを用いてよい。
例示的コアアーキテクチャ、プロセッサ、及びコンピュータアーキテクチャ

【0283】

プロセッサコアは、異なる態様で、異なる目的のために、異なるプロセッサに実装されてよい。例えば、そのようなコアの実装は、１）汎用コンピューティング向けの汎用インオーダコア、２）汎用コンピューティング向けの高性能汎用アウトオブオーダコア、３）主にグラフィックおよび／または科学（スループット）コンピューティング向けの専用コアを含んでよい。異なるプロセッサの実装は、１）汎用コンピューティング向けの１または複数の汎用インオーダコアおよび／または汎用コンピューティング向けの１または複数の汎用アウトオブオーダコアを含むＣＰＵ）、および２）主にグラフィックおよび／または科学（スループット）向けの１または複数の専用コアを含むコプロセッサを含んでよい。そのような異なるプロセッサは、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同じパッケージ内の別個のダイ上のコプロセッサ、３）ＣＰＵと同じダイ上のコプロセッサ（この場合、そのようなコプロセッサは、統合グラフィックおよび／または科学（スループット）ロジック等の専用ロジックまたは専用コアと称される場合がある）、および４）上記ＣＰＵ（アプリケーションコアまたはアプリケーションプロセッサと称される場合がある）、上述のコプロセッサおよび追加の機能を同じダイ上に含み得るシステムオンチップを含み得る、異なるコンピュータシステムアーキテクチャをもたらす。例示的コアアーキテクチャが次に説明され、例示的プロセッサおよびコンピュータアーキテクチャの説明が続く。
例示的コアアーキテクチャ
インオーダアウトオブオーダコアブロック図

【0284】

図３０Ａは、本開示の実施形態に係る、例示的インオーダパイプライン及び例示的レジスタリネーミング・アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図３０Ｂは、本開示の複数の実施形態に係るプロセッサに含まれるべきインオーダアーキテクチャコアの例示的実施形態及び例示的レジスタリネーミング・アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図３０Ａ－図３０Ｂにおける実線のボックスは、インオーダパイプラインおよびインオーダコアを示し、一方で、任意に追加された破線のボックスは、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインおよびコアを示す。インオーダの態様はアウトオブオーダ態様のサブセットであると仮定して、アウトオブオーダ態様が説明される。

【0285】

図３０Ａでは、プロセッサパイプライン３０００は、フェッチステージ３００２、長さ復号ステージ３００４、復号ステージ３００６、割り当てステージ３００８、リネーミングステージ３０１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ３０１２、レジスタ読み出し／メモリ読み出しステージ３０１４、実行ステージ３０１６、書き戻し／メモリ書き込みステージ３０１８、例外処理ステージ３０２２、およびコミットステージ３０２４を含む。

【0286】

図３０Ｂは、実行エンジンユニット３０５０に結合されるフロントエンドユニット３０３０を含むプロセッサコア３０９０を示し、両方がメモリユニット３０７０に結合される。コア３０９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってよい。さらに別の選択肢として、コア３０９０は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティング画像処理ユニット（ＧＰＧＰＵ）コア、グラフィックコア等の専用コアであってよい。

【0287】

フロントエンドユニット３０３０は、命令キャッシュユニット３０３４に結合された分岐予測ユニット３０３２を含み、命令キャッシュユニット３０３４は、命令トランスレーションルックアサイドバッファ（ＴＬＢ）３０３６に結合され、ＴＬＢ３０３６は、命令フェッチユニット３０３８に結合され、命令フェッチユニット３０３８は、復号ユニット３０４０に結合される。復号ユニット３０４０（例えば、復号回路）は、複数の命令（例えばマクロ命令）を復号し、１または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、又は元の命令から復号され、又は他の方法でこれを反映し、又はこれから派生した他の制御信号を、出力として生成してよい。復号ユニット３０４０は、様々な異なるメカニズムを使用して実装されてよい。適切なメカニズムの例としては、これに限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラム可能ロジックアレイ（ＰＬＡ）、マイクロコード読み取り専用メモリ（ＲＯＭ）等を含む。一実施形態において、コア３０９０は、マイクロコードＲＯＭ、又は、特定のマクロ命令に対するマイクロコードを格納する（例えば、復号ユニット３０４０における、そうでなければ、フロントエンドユニット３０３０内の）他の媒体を含む。復号ユニット３０４０は、実行エンジンユニット３０５０におけるリネーム／アロケータユニット３０５２に結合される。

【0288】

実行エンジンユニット３０５０は、リタイアメントユニット３０５４に結合されたリネーム／アロケータユニット３０５２と、１または複数のスケジューラユニット３０５６のセットとを含む。スケジューラユニット３０５６は、任意の数の異なるスケジューラを表してよく、リザベーションステーション、中央命令ウィンドウ等を含む。スケジューラユニット３０５６は、物理レジスタファイル３０５８に結合される。物理レジスタファイルユニット３０５８のそれぞれは、１または複数の物理レジスタファイルを表し、それらの異なるファイルは、スカラ整数、スカラ浮動小数点、パックされた整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）、タイル、その他、等の、１または複数の異なるデータ型を格納する。一実施形態において、物理レジスタファイルユニット３０５８は、ベクトルレジスタユニット、書き込みマスクレジスタユニットおよびスカラレジスタユニットを含む。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタおよび汎用レジスタを提供してよい。物理レジスタファイルユニット３０５８は、レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々な態様を示すように（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用する、将来のファイル、履歴バッファおよびリタイアメントレジスタファイルを使用する、レジスタマップとレジスタプールを使用する、その他）、リタイアメントユニット３０５４に重ねられている。リタイアメントユニット３０５４及び物理レジスタファイルユニット３０５８は、実行クラスタ３０６０に結合される。実行クラスタ３０６０は、１つ又は複数の実行ユニット３０６２のセット（例えば、実行回路）及び１つ又は複数のメモリアクセスユニット３０６４のセットを含む。実行ユニット３０６２は、様々な演算を実行してよく（例えば、シフト、加算、減算、乗算）、様々なデータ型（例えば、スカラ浮動小数点、パックされた整数、パック型浮動小数点、ベクトル整数、ベクトル浮動小数点）で動作しうる。いくつかの実施形態では、特定の機能または一連の機能に専用の複数の実行ユニットを含んでよいが、他の実施形態では、全機能を実行する１つだけの実行ユニットまたは複数の実行ユニットを含んでよい。スケジューラユニット３０５６、物理レジスタファイルユニット３０５８、および実行クラスタ３０６０は、特定の実施形態がいくつかのデータ型／演算用の別個のパイプライン（スカラ整数パイプライン、スカラ浮動小数点／パックされた整数／パック型浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、及び／又は各々が独自のスケジューラユニット、物理レジスタファイルユニット、及び／又は実行クラスタを有するメモリアクセスパイプライン－別個のメモリアクセスパイプラインの場合、このパイプラインの実行クラスタのみがメモリアクセスユニット３０６４を有する特定の実施形態が実装される）を形成するので、場合によっては複数であるように示されている。別個のパイプラインが使用される場合、これらのパイプラインのうちの１つ又は複数がアウトオブオーダ発行／実行であり、残りがインオーダであってもよいことも理解されたい。

【0289】

メモリアクセスユニット３０６４のセットは、メモリユニット３０７０に結合され、メモリユニット３０７０には、二次（Ｌ２）キャッシュユニット３０７６に結合されたデータキャッシュユニット３０７４に結合されたデータＴＬＢユニット３０７２が含まれる。例示的一実施形態において、メモリアクセスユニット３０６４は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含んでよく、これらの各々は、メモリユニット３０７０内のデータＴＬＢユニット３０７２に結合される。命令キャッシュユニット３０３４は、メモリユニット３０７０内の二次（Ｌ２）キャッシュユニット３０７６にさらに結合される。Ｌ２キャッシュユニット３０７６は、１つ又は複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。

【0290】

例として、例示的レジスタリネーミングアウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプライン３０００を実装してよい。
１）命令フェッチ３０３８が、フェッチおよび長さ復号ステージステージ３００２及び３００４を実行する。
２）復号ユニット３０４０が、復号ステージ３００６を実行する。
３）リネーム／アロケータユニット３０５２が、割り当てステージ３００８およびリネーミングステージ３０１０を実行する。
４）スケジューラユニット３０５６が、スケジュールステージ３０１２を実行する。
５）（複数の）物理レジスタファイルユニット３０５８およびメモリユニット３０７０が、レジスタ読み出し／メモリ読み出しステージ３０１４を実行し、実行クラスタ３０６０が実行ステージ３０１６を実行する、
６）メモリユニット３０７０および（複数の）物理レジスタファイルユニット３０５８が、書き戻し／メモリ書き込みステージ３０１８を実行する。
７）様々なユニットが、例外処理ステージ３０２２に関与してよい。
８）リタイアメントユニット３０５４および（複数の）物理レジスタファイルユニット３０５８が、コミットステージ３０２４を実行する。

【0291】

コア３０９０は、１つ又は複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンで追加されたいくつかの拡張付き）、カリフォルニア州サニーベールのＭＩＰＳテクノロジーズのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭホールディングスのＡＲＭ命令セット（ＮＥＯＮ等のオプションの追加拡張付き））をサポートしてよく、本明細書で説明される（複数の）命令を含む。一実施形態において、コア３０９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、これによって、多くのマルチメディアアプリケーションによって用いられる演算が、パックドデータを使用して実行されることを可能にする。

【0292】

コアは、マルチスレッディング（２または２より多い並行するオペレーションまたはスレッドのセット）をサポートしてよく、時分割マルチスレッディング、同時マルチスレッディング（１つの物理コアが、物理コアが同時マルチスレッディングを実行する各スレッドに対する論理コアを提供する）、またはその組み合わせ（例えば、インテルハイパースレッディング・テクノロジー等の、時分割フェッチ・復号、およびその後の同時マルチスレッディング）を含む様々な方法でそのように動作してよいことを理解されたい。

【0293】

レジスタリネーミングが、アウトオブオーダ実行との関連で説明されるが、レジスタリネーミングは、インオーダーアーキテクチャで用いられてよいことを理解されたい。図示されたプロセッサの実施形態は、別個の命令およびデータキャッシュユニットと３０３４／３０７４と、共有Ｌ２キャッシュユニット３０７６とを含んでもよく、代替的な実施形態では、例えば一次（Ｌ１）内部キャッシュ、またはマルチレベル内部キャッシュ等の、命令およびデータの両方に対して１つの内部キャッシュを有してよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュと、の組み合わせを含んでよい。代わりに、キャッシュの全てが、コアおよび／またはプロセッサの外部にあってもよい。
具体的な例示的インオーダコアアーキテクチャ

【0294】

図３１Ａ－図３１Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロック図を示す。当該コアは、チップ内のいくつかの論理ブロック（同じタイプおよび／または異なる型の他のコアを含む）のうちの１つであってよい。論理ブロックは、高帯域幅相互接続ネットワーク（例えば、リングネットワーク）を通じて、アプリケーションに応じて、いくつかの固定機能ロジック、メモリＩ／Ｏインタフェース及び他の必要なＩ／Ｏ論理と通信する。

【0295】

図３１Ａは、本開示の複数の実施形態に係る単一のプロセッサコアのブロック図を、オンダイ相互接続ネットワーク３１０２へのその接続及び二次（Ｌ２）キャッシュ３１０４のそのローカルサブセットと共に示す。一実施形態において、命令デコードユニット３１００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ３１０６は、スカラ及びベクトルユニットへのキャッシュメモリに対する低レイテンシアクセスを可能にする。一実施形態において、（設計の単純化のために）スカラユニット３１０８及びベクトルユニット３１１０は、別個のレジスタセット（それぞれ、スカラレジスタ３１１２及びベクトルレジスタ３１１４）を用い、これらの間で転送されるデータは、一次（Ｌ１）キャッシュ３１０６のメモリに書き込まれてから再読み出しされるが、本開示の複数の代替的な実施形態は、異なるアプローチ（例えば、単一のレジスタセットを使用する、又は書き込み及び再読み出しを行うことなく、２つのレジスタファイル間におけるデータ転送を可能とする通信経路を含む）を使用してよい。

【0296】

Ｌ２キャッシュ３１０４のローカルサブセットは、プロセッサコア毎に１つの、別個のローカルサブセットに分割されたグローバルＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュ３１０４それ自身のローカルサブセットへの直接アクセスパスを有する。プロセッサコアにより読み取られるデータは、そのＬ２キャッシュサブセット３１０４に格納され、他のプロセッサコアがそれら自身のローカルＬ２キャッシュサブセットにアクセスすることと並列に、迅速にアクセスされることができる。プロセッサコアによって書き込まれたデータは、それ自体のＬ２キャッシュサブセット３１０４に格納され、必要な場合他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、プロセッサコア、Ｌ２キャッシュ、および他の論理ブロック等のエージェントがチップ内で互いに通信することを可能にするように双方向である。各リングデータパスは、一方向当たり１０１２ビット幅である。

【0297】

図３１Ｂは、本開示の複数の実施形態に係る図３１Ａのプロセッサコアの一部の拡大図である。図３１Ｂは、Ｌ１キャッシュ３１０４のＬ１データキャッシュ３１０６Ａの一部、並びにベクトルユニット３１１０およびベクトルレジスタ３１１４に関するさらなる詳細を含む。具体的には、ベクトルユニット３１１０は、１６幅ベクトル処理ユニット（ＶＰＵ）（１６幅ＡＬＵ３１２８を参照）であり、整数命令、単精度浮動命令および倍精度浮動命令のうちの１つ又は複数を実行する。ＶＰＵは、スウィズルユニット３１２０によるレジスタ入力のスウィズル、数値変換ユニット３１２２Ａ～Ｂによる数値変換、およびメモリ入力上での複製ユニット３１２４による複製をサポートする。書き込みマスクレジスタ３１２６は、結果として生じるベクトル書き込みのプレディケートを可能にする。

【0298】

図３２は、本開示の複数の実施形態に係るプロセッサ３２００のブロック図であって、１つより多くのコアを有してよく、統合メモリコントローラを有してよく、統合グラフィックを有してよい。図３２の実線のボックスは、単一のコア３２０２Ａ、システムエージェント３２１０、１つ又は複数のバスコントローラユニット３２１６のセットを有するプロセッサ３２００を示し、破線のボックスのオプション追加は、複数のコア３２０２Ａ～Ｎ、システムエージェントユニット３２１０内の１つ又は複数の統合メモリコントローラユニット３２１４のセット、および専用ロジック３２０８を有する代替的なプロセッサ３２００を示す。

【0299】

従って、プロセッサ３２００の様々な実装形態は、１）（１つ又は複数のコアを含んでよい）統合グラフィックおよび／または科学（スループット）ロジックである専用ロジック３２０８、ならびに１つ又は複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、それら２つの組み合せ）であるコア３２０２Ａ～Ｎを有するＣＰＵと、２）主にグラフィックおよび／または科学（スループット）向けの多数の専用コアであるコア３２０２Ａ～Ｎを有するコプロセッサと、３）多数の汎用インオーダコアであるコア３２０２Ａ～Ｎを有するコプロセッサとを含んでよい。従って、プロセッサ３２００は、例えば、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ（汎用画像処理ユニット）、（３０以上のコアを含む）高スループット多集積コア（ＭＩＣ）コプロセッサ、組み込みプロセッサ等の、汎用プロセッサ、コプロセッサ、または専用プロセッサであってよい。プロセッサは、１つ又は複数のチップに実装されてよい。プロセッサ３２００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳ等の多くのプロセス技術のいずれかを使用した１つ又は複数の基板の一部であってよく、および／またはその基板上に実装されてよい。

【0300】

メモリ階層には、コア内の１つ又は複数のレベルのキャッシュ、１つ又は複数の共有キャッシュユニット３２０６またはそのセット、及び、統合メモリコントローラユニット３２１４のセットに結合された外部メモリ（不図示）が含まれる。共有キャッシュユニット３２０６のセットは、二次（Ｌ２）、三次（Ｌ３）、四次（Ｌ４）、または他のレベルのキャッシュ等の１または複数の中間レベルキャッシュ、ラストレベルキャッシュ（ＬＬＣ）および／またはそれらの組み合わせを含んでよい。一実施形態において、リングベースの相互接続ユニット３２１２は、統合グラフィックロジック３２０８、共有キャッシュユニット３２０６のセット、およびシステムエージェントユニット３２１０／統合メモリコントローラユニット３２１４を相互接続するが、代替実施形態は、このようなユニットを相互接続するための任意の数の周知の技術を用いてよい。一実施形態において、１つ又は複数のキャッシュユニット３２０６及びコア３２０２Ａ－Ｎの間のコヒーレンシが維持される。

【0301】

いくつかの実施形態においてにおいて、コア３２０２Ａ－Ｎのうちの１つ又は複数は、マルチスレッディングが可能である。システムエージェント３２１０は、コア３２０２Ａ－Ｎ]を調整し動作させるそれらのコンポーネント含む。システムエージェントユニット３２１０は、例えば、電力制御ユニット（ＰＣＵ）と、ディスプレイユニットとを含んでよい。ＰＣＵは、コア３２０２Ａ－Ｎ及び統合グラフィックロジック３２０８の電力状態を調整するのに必要な論理及び構成コンポーネントとすることができるか又はそれらを含むことができる。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

【0302】

コア３２０２Ａ－Ｎは、アーキテクチャ命令セットに関して同種であっても異種であってもよく、すなわち、コア３２０２Ａ－Ｎのうちの２つ以上は、同じ命令セットを実行できてもよく、一方で、他のものは、その命令セットのうちの１つのサブセットのみ、または異なる命令セットを実行することができてもよい。
例示的コンピュータアーキテクチャ

【0303】

図３３－図３６は、例示的コンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、パーソナルデジタルアシスタント、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、携帯型メディアプレーヤ、ハンドヘルドデバイス、および様々なその他の電子装置の当該分野での公知のその他のシステム設計および構成もまた適している。概して、本明細書において開示されるプロセッサおよび／または他の実行ロジックを組み込むことが可能な多種多様なシステムまたは電子デバイスは、概して適している。

【0304】

ここで図３３を参照すると、本開示の一実施形態に係るシステム３３００のブロック図が示される。システム３３００は、コントローラハブ３３２０に結合される１つ又は複数のプロセッサ３３１０、３３１５を含んでよい。一実施形態において、コントローラハブ３３２０は、グラフィックメモリコントローラハブ（ＧＭＣＨ）３３９０および入力／出力ハブ（ＩＯＨ）３３５０（別個のチップ上に存在してよい）を含む。ＧＭＣＨ３３９０は、メモリ３３４０およびコプロセッサ３３４５が結合されたメモリ及びグラフィックコントローラを含む。ＩＯＨ３３５０は、入力／出力（Ｉ／Ｏ）デバイス３３６０をＧＭＣＨ３３９０に結合する。代わりに、メモリ及びグラフィックコントローラの一方又は両方は、（本明細書において説明されるように）プロセッサ内で集積され、メモリ３３４０及びコプロセッサ３３４５は、プロセッサ３３１０と、ＩＯＨ３３５０を有する単一のチップ内のコントローラハブ３３２０とに直接結合される。メモリ３３４０は、例えば、実行された場合に、本開示の任意の方法をプロセッサに実行させるためのコードを格納する行列加速コード３３４０Ａ、を含んでよい。

【0305】

追加のプロセッサ３３１５の任意選択的な性質が、図３３において破線で示される。各プロセッサ３３１０、３３１５は、本明細書において説明される処理コアのうちの１つ又は複数を含んでよく、プロセッサ３２００のいくつかのバージョンであってよい。

【0306】

メモリ３３４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはそれら２つの組み合せであってもよい。少なくとも１つの実施形態では、コントローラハブ３３２０は、プロセッサ３３１０、３３１５と、フロントサイドバス（ＦＳＢ）等のマルチドロップバス、クイックパスインタコネクト（ＱＰＩ）等のポイントツーポイントインタフェースまたは同様の接続３３９５を介して通信する。

【0307】

一実施形態において、コプロセッサ３３４５は、例えば、高スループットＭＩＣプロセッサ、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等の専用プロセッサである。一実施形態において、コントローラハブ３３２０は、統合グラフィックアクセラレータを含んでよい。

【0308】

物理リソース３３１０と３３１５との間には、アーキテクチャ特性、マイクロアーキテクチャ特性、熱的特性、電力消費特性等を含む広範な価値基準の観点から様々な差異が存在し得る。

【0309】

一実施形態において、プロセッサ３３１０は、一般的なタイプのデータ処理オペレーションを制御する命令を実行する。命令内にコプロセッサ命令が組み込まれてもよい。プロセッサ３３１０は、これらのコプロセッサ命令を、付属のコプロセッサ３３４５により実行されるべきタイプであるとして認識する。従って、プロセッサ３３１０は、コプロセッサ３３４５に対して、コプロセッサバス又は他の相互接続上にこれらのコプロセッサ命令（又は、コプロセッサ命令を表す制御信号）を発行する。コプロセッサ３３４５は、受信したコプロセッサ命令を受け取って実行する。

【0310】

ここで図３４を参照すると、本開示の実施形態に係る第１のより具体的な例示的システム３４００のブロック図が示される。図３４に示されるように、マルチプロセッサシステム３４００は、ポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続３４５０を介して結合される第１のプロセッサ３４７０および第２のプロセッサ３４８０を含む各プロセッサ３４７０および３４８０は、プロセッサ３２００のいくつかのバージョンであってよい。本開示の一実施形態において、プロセッサ３４７０および３４８０は、それぞれプロセッサ３３１０および３３１５であり、コプロセッサ３４３８はコプロセッサ３３４５である。他の実施形態において、プロセッサ３４７０および３４８０は、それぞれ、プロセッサ３３１０、コプロセッサ３３４５である。

【0311】

プロセッサ３４７０および３４８０はそれぞれ、統合メモリコントローラ（ＩＭＣ）ユニット３４７２および統合メモリコントローラ（ＩＭＣ）ユニット３４８２を含むものとして示されている。プロセッサ３４７０は、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ―Ｐ）インタフェース３４７６及び３４７８も含み、同様に、第２プロセッサ３４８０はＰ－Ｐインタフェース３４８６及び３４８８を含む。プロセッサ３４７０、３４８０は、Ｐ―Ｐインタフェース回路３４７８、３４８８を使用して、ポイントツーポイント（Ｐ―Ｐ）インタフェース３４５０を介して情報を交換し得る。図３４に示されるように、ＩＭＣ３４７２および３４８２は、プロセッサを各メモリ、すなわち、各プロセッサにローカルに取り付けられたメインメモリの一部であり得るメモリ３４３２およびメモリ３４３４に結合する。

【0312】

プロセッサ３４７０、３４８０はそれぞれ、個々のＰ－Ｐインタフェース３４５２、３４５４を介し、ポイントツーポイントインタフェース回路３４７６、３４９４、３４８６、３４９８を使用して、チップセット３４９０と情報を交換してよい。チップセット３４９０は、高性能インタフェース３４３９を介して、コプロセッサ３４３８と任意選択的に情報を交換してよい。一実施形態において、コプロセッサ３４３８は、例えば、高スループットＭＩＣプロセッサ、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等のような専用プロセッサである。

【0313】

共有キャッシュ（不図示）は、プロセッサに含まれるか、または両方のプロセッサの外部にある、のいずれかであるが、Ｐ‐Ｐ相互接続を介してプロセッサと接続されていてよく、これにより、プロセッサが低電力モードになった場合、いずれかのまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュに格納され得る。

【0314】

チップセット３４９０は、インタフェース３４９６を介して第１のバス３４１６に結合されてよい。一実施形態において、第１のバス３４１６は、ペリフェラルコンポーネントインタコネクト（ＰＣＩ）バス、もしくはＰＣＩエクスプレスバス又は他の第３世代Ｉ／Ｏ相互接続バス等のバスであってよいが、本開示の範囲はこれらのバスに限定されるものではない。

【0315】

図３４に示されるように、様々なＩ／Ｏデバイス３４１４が、第１のバス３４１６を第２のバス３４２０に結合するバスブリッジ３４１８と共に、第１のバス３４１６に結合されてよい。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニット等）、フィールドプログラマブルゲートアレイ、またはその他のプロセッサ等、１または複数の追加のプロセッサ３４１５が第１のバス３４１６に結合される。一実施形態において、第２のバス３４２０はローピンカウント（ＬＰＣ）バスであってよい。一実施形態において、例えば、キーボードおよび／またはマウス３４２２、通信デバイス３４２７、および命令／コードおよびデータ３４３０を含んでよいディスクドライブまたは他の大容量ストレージデバイス等のストレージユニット３４２８を含む様々なデバイスが、第２のバス３４２０に結合されてよい。さらに、オーディオＩ／Ｏ３４２４が、第２のバス３４２０に結合されてよい。なお、他のアーキテクチャも可能である。例えば、図３４のポイントツーポイントアーキテクチャに代わりに、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装してよい。

【0316】

ここで図３５を参照すると、本開示の実施形態に係る第２のより具体的な例示的システム３５００のブロック図が示される。図３４および図３５の同様の要素には同様の参照番号を有し、図３５の他の態様を曖昧にすることを回避するために、図３４の特定の態様は図３５から省略されている。

【0317】

図３５は、プロセッサ３４７０、３４８０が、それぞれ統合メモリ及びＩ／Ｏ制御ロジック（「ＣＬ」）３４７２、３４８２を含んでよいことを示す。従って、ＣＬ３４７２、３４８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図３５は、メモリ３４３２、３４３４のみが制御ロジック３４７２、３４８２に結合されるのではなく、複数のＩ／Ｏデバイス３５１４もＣＬ３４７２、３４８２に結合されることを示す。レガシＩ／Ｏデバイス３５１５は、チップセット３４９０に結合される。

【0318】

ここで図３６を参照すると、本開示の実施形態に係るＳｏＣ３６００のブロック図が示される。図３２と同様の要素には同様の参照番号を有する。また、破線のボックスは、より高度なＳｏＣにおける任意の機能である。図３６において、相互接続ユニット３６０２は、１または複数のコア３２０２Ａ～Ｎおよび共有キャッシュユニット３２０６のセットを含むアプリケーションプロセッサ３６１０と、システムエージェントユニット３２１０と、バスコントローラユニット３２１６と、統合メモリコントローラユニット３２１４と、統合グラフィックロジック、イメージプロセッサ、オーディオプロセッサおよびビデオプロセッサを含み得るセットあるいは１または複数のコプロセッサ３６２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット３６３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット３６３２と、１または複数の外部ディスプレイに結合するためのディスプレイユニット３６４０とに結合される。一実施形態において、コプロセッサ３６２０は、例えば、ネットワーク又は通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサ等のような、専用プロセッサを含む。

【0319】

本明細書に開示される（例えば、複数のメカニズムの）実施形態は、ハードウェア、ソフトウェア、ファームウェア、又はこのような複数の実装アプローチの組み合わせで実装されてよい。本開示の複数の実施形態は、少なくとも１つのプロセッサと、（揮発性メモリおよび不揮発性メモリおよび／またはストレージ要素を含む）ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを備えるプログラマブルシステムで実行されるコンピュータプログラムまたはプログラムコードとして実装されてよい。

【0320】

図３４に示されたコード３４３０等のプログラムコードは、本明細書で説明された機能を実行し、出力情報を生成するために、入力命令に適用されてよい。出力情報は、公知の様態で１または複数の出力デバイスに適用されてよい。本適用における複数の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）またはマイクロプロセッサ等のプロセッサを有する任意のシステムを含む。

【0321】

プログラムコードは、処理システムと通信するために高水準の手順型又はオブジェクト指向プログラミング言語として実装されてよい。プログラムコードはまた、必要な場合、アセンブリ又は機械言語で実装されてもよい。実際に、本明細書に説明されるメカニズムは、いかなる特定のプログラミング言語にも範囲を限定されるものではない。いずれの場合であっても、言語は、コンパイラ型又はインタプリタ型言語であってよい。

【0322】

少なくとも１つの実施形態の１つ又は複数の態様では、プロセッサ内の様々な論理を表す機械可読媒体に格納される代表的な命令により実装されてよく、これは、機械により読み出される場合、本明細書で説明される技術を実行させる論理を機械に構築させる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体上に格納され、論理又はプロセッサを実際に作る製造機械にロードするために、様々な顧客又は製造施設に供給されてよい。

【0323】

そのような機械可読記録媒体は、例えば、ハードディスク、フロッピー（登録商標）ディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ－ＲＷ）及び磁気－光ディスク、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、例えばダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）、磁気又は光カード又は電子命令を格納するのに適したその他のタイプの媒体等の半導体デバイスを含む任意のその他のタイプのディスク等の記憶媒体を含む、マシン又はデバイスにより製造又は形成される非一時的な有形の構成をした物品を限定することなく含んでよい。

【0324】

従って、本開示の複数の実施形態はまた、命令を含む又は設計データ、例えば、本明細書で説明される構造、回路、装置、プロセッサ及び／又はシステムの機能を定義するハードウェア記述言語（ＨＤＬ）を含む非一時的な有形の機械可読媒体を含む。そのような実施形態は、また、プログラム製品と称され得る。
エミュレーション（バイナリ変換、コードモーフィング等を含む）

【0325】

いくつかの場合において、ソース命令セットからターゲット命令セットに命令を変換するために、命令コンバータが用いられてよい。例えば、命令コンバータは、命令を、コアにより処理される１つ又は複数の他の命令に、（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）翻訳、モーフィング、エミュレート又は他の方法で、変換してよい。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組み合わせで実装されてよい。命令コンバータは、プロセッサ上、プロセッサ外、又は、プロセッサ上の一部及びプロセッサ外の一部にあってよい。

【0326】

図３７は、ソース命令セットにおけるバイナリ命令を、本開示の複数の実施形態に係るターゲット命令セットにおけるバイナリ命令へ変換するソフトウェア命令コンバータの使用を対比したブロック図である。例示された実施形態では、命令コンバータはソフトウェア命令コンバータであるが、代替的に、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア又はそれらの様々な組み合わせで実装されてよい。図３７は、高水準言語３７０２でのプログラムが、少なくとも１つのｘ８６命令セットコアを有するプロセッサ３７１６によりネイティブで実行されることができるｘ８６バイナリコード３７０６を生成するようにｘ８６コンパイラ３７０４を使用してコンパイルされることができることを示す。少なくとも１つのｘ８６命令セットコアを有するプロセッサ３７１６は、少なくとも１つのｘ８６命令セットコアを有するインテル社製プロセッサと実質的に同じ結果を実現すべく、（１）インテルｘ８６命令セットコアの命令セットの大部分、もしくは（２）少なくとも１つのｘ８６命令セットコアを有するインテル社製プロセッサ上で動作することをターゲットとしたアプリケーション又は他のソフトウェアのオブジェクトコードバージョンを互換的に実行するか、又は他の方法で処理することによって、少なくとも１つのｘ８６命令セットコアを有するインテル社製プロセッサと実質的に同じ機能を実行可能な任意のプロセッサを表す。ｘ８６コンパイラ３７０４は、追加のリンク処理があってもなくても、少なくとも１つのｘ８６命令セットコアを搭載するプロセッサ３７１６上で実行され得るｘ８６バイナリコード３７０６（例えば、オブジェクトコード）を生成するよう動作可能なコンパイラを表す。同様に、図３７は、少なくとも１つのｘ８６命令セットコアを有さないプロセッサ３７１４（例えば、カリフォルニア州サニーベールのＭＩＰＳテクノロジーズ社のＭＩＰＳ命令セットを実行する、及び／又はカリフォルニア州サニーベールのＡＲＭホールディングス社のＡＲＭ命令セットを実行するコアを有するプロセッサ）によってネイティブで実行されることができる代替的な命令セットバイナリコード３７１０を生成するために、高水準言語３７０２のプログラムが、代替的な命令セットコンパイラ３７０８を使用してコンパイルされることができることを示す。命令コンバータ３７１２は、ｘ８６バイナリコード３７０６を、ｘ８６命令セットコアを有さないプロセッサ３７１４によりネイティブで実行されることができるコードに変換するために用いられる。この変換されたコードは、代替的な命令セットバイナリコード３７１０と同じである可能性が低い。なぜなら、この変換が可能な命令コンバータは作成が困難だからである。しかしながら、変換されたコードは、一般的なオペレーションを実現し、代替的な命令セットからの命令で構成される。故に、命令コンバータ３７１２は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせを表わし、それらは、エミュレーション、シミュレーションまたは任意の他の処理を介して、ｘ８６命令セットプロセッサまたはコアを有さないプロセッサまたは他の電子デバイスが、ｘ８６バイナリコード３７０６を実行可能にする。

【0327】

他の可能な項目
［項目１］
融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路と、
上記行列演算アクセラレータ回路に結合される少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタと、
上記行列演算アクセラレータ回路に結合される少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタと、
上記行列演算アクセラレータ回路に結合されるコアの復号器であって、単一の命令を、復号された単一の命令へと復号し、上記単一の命令が結果として得られるストレージを識別するフィールドを有する、復号器と、
上記復号された単一の命令を実行する上記コアの実行回路と
を備え、
上記コアの実行回路が、上記行列演算アクセラレータ回路を、上記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の上記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ上記結果として得られるストレージに上記出力値を格納する第１のモードから、上記２次元グリッドの融合積和回路の上記第１の適切なサブセットのそれぞれについての上記各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ上記結果として得られるストレージに上記第１の出力値を格納し、上記２次元グリッドの融合積和回路の上記第２の適切なサブセットのそれぞれについての各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ上記結果として得られるストレージに上記第２の出力値を格納する第２のモードへとスイッチする、装置。
［項目２］
上記行列演算アクセラレータ回路が、上記第２のフィールドが第１の値である場合には上記第１のモードで実行し、上記第２のフィールドが第２の値である場合には上記第２のモードで実行することを示す第２のフィールドを、上記単一の命令が有する、項目１に記載の装置。
［項目３］
上記第２のフィールドは、上記単一の命令の即値である、項目２に記載の装置。
［項目４］
上記結果として得られるストレージが、上記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、項目１に記載の装置。
［項目５］
上記復号された単一の命令を実行することが、
上記第１のモードでは、上記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す上記第３の複数のレジスタからの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、項目４に記載の装置。
［項目６］
上記復号された単一の命令を実行することが、
上記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、項目１に記載の装置。
［項目７］
上記結果として得られるストレージは、上記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、項目１に記載の装置。
［項目８］
上記融合積和回路の第１の適切なサブセットは、上記融合積和回路の２次元グリッドにおける行または列の１つであり、
上記融合積和回路の第２の適切なサブセットは、上記融合積和回路の２次元グリッドにおける上記行または上記列の他方の上記１つである、項目１に記載の装置。
［項目９］
プロセッサコアの復号器で単一の命令を復号された単一の命令に復号する段階であって、上記プロセッサコアが融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路が少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタ及び少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令が結果として得られるストレージを識別するフィールドを有する、段階と、
上記復号された単一の命令を上記プロセッサコアの実行回路で実行する段階と
を備え、
上記実行する段階が、上記行列演算アクセラレータ回路を、上記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の上記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ上記結果として得られるストレージに上記出力値を格納する第１のモードから、上記２次元グリッドの融合積和回路の上記第１の適切なサブセットのそれぞれについての上記各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ上記結果として得られるストレージに上記第１の出力値を格納し、上記２次元グリッドの融合積和回路の上記第２の適切なサブセットのそれぞれについての各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ上記結果として得られるストレージに上記第２の出力値を格納する第２のモードへとスイッチする、方法。
［項目１０］
上記行列演算アクセラレータ回路が、上記第２のフィールドが第１の値である場合には上記第１のモードで実行し、上記第２のフィールドが第２の値である場合には上記第２のモードで実行することを示す第２のフィールドを、上記単一の命令が有する、項目９に記載の方法。
［項目１１］
上記第２のフィールドは、上記単一の命令の即値である、項目１０に記載の方法。
［項目１２］
上記結果として得られるストレージが、上記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、項目９に記載の方法。
［項目１３］
上記復号された単一の命令を実行する段階が、
上記第１のモードでは、上記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す上記第３の複数のレジスタからの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、項目１２に記載の方法。
［項目１４］
上記復号された単一の命令を実行する段階が、
上記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、項目９に記載の方法。
［項目１５］
上記結果として得られるストレージは、上記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、項目９に記載の方法。
［項目１６］
上記融合積和回路の第１の適切なサブセットは、上記融合積和回路の２次元グリッドにおける行または列の１つであり、
上記融合積和回路の第２の適切なサブセットは、上記融合積和回路の２次元グリッドにおける上記行または上記列の他方の上記１つである、項目９に記載の方法。
［項目１７］
コードを格納する非一時的機械読み出し可能媒体であって、機械に実行された場合に上記機械に方法を実行させ、上記方法が、
プロセッサコアの復号器で単一の命令を復号された単一の命令に復号する段階であって、上記プロセッサコアが融合積和回路の２次元グリッドを有する行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路が少なくとも１つの第１入力２次元行列を表す第１の複数のレジスタ及び少なくとも１つの第２入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令が結果として得られるストレージを識別するフィールドを有する、段階と、
上記復号された単一の命令を上記プロセッサコアの実行回路で実行する段階と
を備え、
上記実行する段階が、上記行列演算アクセラレータ回路を、上記２次元グリッドの融合積和回路の第１の適切なサブセットのそれぞれについての各出力が下流の上記２次元グリッドの融合積和回路の第２の適切なサブセットのそれぞれについての各入力へと送信されると、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列からの出力値を形成し、かつ上記結果として得られるストレージに上記出力値を格納する第１のモードから、上記２次元グリッドの融合積和回路の上記第１の適切なサブセットのそれぞれについての上記各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第１のサブセットからの第１の出力値を形成し、かつ上記結果として得られるストレージに上記第１の出力値を格納し、上記２次元グリッドの融合積和回路の上記第２の適切なサブセットのそれぞれについての各出力が、上記少なくとも１つの第１入力２次元行列及び上記少なくとも１つの第２入力２次元行列の第２のサブセットからの第２の出力値を形成し、かつ上記結果として得られるストレージに上記第２の出力値を格納する第２のモードへとスイッチする、非一時的機械読み出し可能媒体。
［項目１８］
上記行列演算アクセラレータ回路が、上記第２のフィールドが第１の値である場合には上記第１のモードで実行し、上記第２のフィールドが第２の値である場合には上記第２のモードで実行することを示す第２のフィールドを、上記単一の命令が有する、項目１７に記載の非一時的機械読み出し可能媒体。
［項目１９］
上記第２のフィールドは、上記単一の命令の即値である、項目１８に記載の非一時的機械読み出し可能媒体。
［項目２０］
上記結果として得られるストレージが、上記復号された単一の命令を実行することで形成される少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、項目１７に記載の非一時的機械読み出し可能媒体。
［項目２１］
上記復号された単一の命令を実行する段階が、
上記第１のモードでは、上記第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列を表す上記第３の複数のレジスタからの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力値及び上記第２の出力値に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、項目２０に記載の非一時的機械読み出し可能媒体。
［項目２２］
上記復号された単一の命令を実行する段階が、
上記第１のモードでは、第３の複数のレジスタに最初に格納される少なくとも１つの第３入力２次元行列からの値を上記出力値に加算して、更新された出力値を形成し、上記更新された出力値を上記出力値に代えて、上記結果として得られるストレージに格納することであり、
上記第２のモードでは、上記第３の複数のレジスタに最初に格納される上記少なくとも１つの第３入力２次元行列からの値を上記第１の出力及び上記第２の出力に加算して、更新された第１の出力値及び更新された第２の出力値を形成し、上記更新された第１の出力値及び上記更新された第２の出力値を、上記第１の出力値及び上記第２の出力値に代えて、上記結果として得られるストレージに格納することである、項目１７に記載の非一時的機械読み出し可能媒体。
［項目２３］
上記結果として得られるストレージは、上記復号された単一の命令を実行することで形成される複数の出力２次元行列を表す第３の複数のレジスタである、項目１７に記載の非一時的機械読み出し可能媒体。
［項目２４］
上記融合積和回路の第１の適切なサブセットは、上記融合積和回路の２次元グリッドにおける行または列の１つであり、
上記融合積和回路の第２の適切なサブセットは、上記融合積和回路の２次元グリッドにおける上記行または上記列の他方の上記１つである、項目１７に記載の非一時的機械読み出し可能媒体。

【図1A】