特許7537696 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特許7537696デュアル空間パターンプリフェッチャについての装置、方法、およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7
8
9A
9B
10A
10B
10C
10D
11
12A
12B
13A
13B
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-13

(45)【発行日】2024-08-21

(54)【発明の名称】デュアル空間パターンプリフェッチャについての装置、方法、およびシステム

(51)【国際特許分類】

G06F 12/0862 20160101AFI20240814BHJP

G06F 12/0897 20160101ALI20240814BHJP

G06F 9/38 20180101ALI20240814BHJP

【ＦＩ】

G06F12/0862 105

G06F12/0897 110

G06F12/0862 110

G06F9/38 310A

【請求項の数】 25

【外国語出願】

(21)【出願番号】P 2020103671

(22)【出願日】2020-06-16

(65)【公開番号】P2021051724

(43)【公開日】2021-04-01

【審査請求日】2023-06-13

(31)【優先権主張番号】62/903,550

(32)【優先日】2019-09-20

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/729,344

(32)【優先日】2019-12-28

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591003943

【氏名又は名称】インテル・コーポレーション

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】ラウルベラ

(72)【発明者】

【氏名】アナントヴィサルノリ

(72)【発明者】

【氏名】スリーニヴァススブラマネー

【審査官】田中啓介

(56)【参考文献】

【文献】特表２００９－５４０４２９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０３２９８２３（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１８／０３４１５９１（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／３８

Ｇ０６Ｆ１２／００－１２／１２８

Ｇ０６Ｆ１３／１６－１３／１８

(57)【特許請求の範囲】

【請求項1】

メモリおよびキャッシュラインを格納するキャッシュにアクセスするプロセッサコアと、
前記メモリから前記キャッシュへとキャッシュラインをプリフェッチするプリフェッチ回路であって、
シングルアクセスシグネチャのための前記キャッシュへのキャッシュラインアクセスおよびページを追跡し、
複数のページの各ページに対する前記キャッシュラインアクセスに対して、各ページに対する第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成し、
同一の空間ビットパターンを有する前記空間ビットパターンの各々に対する前記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成し、
前記複数のシングル空間ビットパターンの論理和演算を実行して、前記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成し、
前記複数のシングル空間ビットパターンの論理積演算を実行して、前記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成し、
前記シングルアクセスシグネチャに対するプリフェッチ要求を受信し、
閾値を超過していない場合に前記第１の変調ビットパターンを使用し、閾値を超過している場合に前記第２の変調ビットパターンを使用して、前記プリフェッチ要求に対するプリフェッチオペレーションを実行する、プリフェッチ回路と、
を備える、装置。

【請求項2】

前記シングルアクセスシグネチャは、シングル命令ポインタ値である、
請求項１に記載の装置。

【請求項3】

前記プリフェッチ要求は、前記キャッシュのデータのミスを有する、
請求項１または２に記載の装置。

【請求項4】

前記閾値は、前記メモリの帯域幅利用率閾値である、
請求項１から３のいずれか一項に記載の装置。

【請求項5】

前記プリフェッチ回路はさらに、前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、前記第１の変調ビットパターンを更新する、
請求項１から４のいずれか一項に記載の装置。

【請求項6】

前記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
請求項５に記載の装置。

【請求項7】

前記プリフェッチ回路はさらに、前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する前記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、前記第２の変調ビットパターンを更新する、
請求項５または６に記載の装置。

【請求項8】

前記プリフェッチ回路はさらに、前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンの論理積演算の結果によって、前記第２の変調ビットパターンを更新する、
請求項１から４のいずれか一項に記載の装置。

【請求項9】

プロセッサにより、キャッシュラインを格納するキャッシュにアクセスする段階と、
シングルアクセスシグネチャに対する前記キャッシュへのキャッシュラインアクセスおよびページを追跡する段階と、
複数のページの各ページに対する前記キャッシュラインアクセスに対して、各ページに対して第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成する段階と、
同一の空間ビットパターンを有する前記空間ビットパターンの各々に対する前記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成する段階と、
前記複数のシングル空間ビットパターンの論理和演算を実行して、前記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成する段階と、
前記複数のシングル空間ビットパターンの論理積演算を実行して、前記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成する段階と、
前記シングルアクセスシグネチャに対するプリフェッチ要求を受信する段階と、
閾値を超過していない場合に前記第１の変調ビットパターンを使用し、前記閾値を超過している場合に前記第２の変調ビットパターンを使用して、前記プリフェッチ要求に対するプリフェッチオペレーションを実行して、キャッシュラインをメモリから前記キャッシュへとプリフェッチする段階と、
を備える、方法。

【請求項10】

前記シングルアクセスシグネチャは、シングル命令ポインタ値である、
請求項９に記載の方法。

【請求項11】

前記プリフェッチ要求は、前記キャッシュにおけるデータのミスを含む、
請求項９または１０に記載の方法。

【請求項12】

前記閾値を、前記メモリの帯域幅利用率閾値として設定する段階をさらに備える、
請求項９から１１のいずれか一項に記載の方法。

【請求項13】

前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、前記第１の変調ビットパターンを更新する段階をさらに備える、
請求項９から１２のいずれか一項に記載の方法。

【請求項14】

前記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
請求項１３に記載の方法。

【請求項15】

前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する前記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、前記第２の変調ビットパターンを更新する段階をさらに備える、
請求項１３または１４に記載の方法。

【請求項16】

前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理積演算の結果によって、前記第２の変調ビットパターンを更新する段階をさらに備える、
請求項９から１２のいずれか一項に記載の方法。

【請求項17】

プロセッサより実行された場合、前記プロセッサに、
キャッシュラインを格納するキャッシュにアクセスする手順と、
シングルアクセスシグネチャに対する前記キャッシュへのキャッシュラインアクセスおよびページを追跡する手順と、
複数のページの各ページに対する前記キャッシュラインアクセスに対して、各ページの第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成する手順と、
同一の空間ビットパターンを有する前記空間ビットパターンの各々に対する前記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成する手順と、
前記複数のシングル空間ビットパターンの論理和演算を実行して、前記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成する手順と、
前記複数のシングル空間ビットパターンの論理積演算を実行して、前記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成する手順と、
前記シングルアクセスシグネチャに対するプリフェッチ要求を受信する手順と、
閾値を超過していない場合に前記第１の変調ビットパターンを使用し、前記閾値を超過している場合に前記第２の変調ビットパターンを使用して、前記プリフェッチ要求に対するプリフェッチオペレーションを実行して、キャッシュラインをメモリから前記キャッシュへとプリフェッチする手順と、
を有する実行させるためのプログラム。

【請求項18】

前記シングルアクセスシグネチャは、シングル命令ポインタ値である、
請求項１７に記載のプログラム。

【請求項19】

前記プリフェッチ要求は、前記キャッシュにおけるデータのミスを含む、
請求項１７または１８に記載のプログラム。

【請求項20】

前記プログラムは、前記閾値を、前記メモリの帯域幅利用率閾値として設定する手順を、前記プロセッサにさらに実行させる、
請求項１７から１９のいずれか一項に記載のプログラム。

【請求項21】

前記プログラムは、前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、前記第１の変調ビットパターンを更新する手順を、前記プロセッサにさらに実行させる、
請求項１７から２０のいずれか一項に記載のプログラム。

【請求項22】

前記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
請求項２１に記載のプログラム。

【請求項23】

前記プログラムは、前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する前記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、前記第２の変調ビットパターンを更新する手順を、前記プロセッサにさらに実行させる、
請求項２１または２２に記載のプログラム。

【請求項24】

前記プログラムは、前記第１の変調ビットパターンと前記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理積演算の結果によって、前記第２の変調ビットパターンを更新する手順を、前記プロセッサにさらに実行させる、
請求項１７から２０のいずれか一項に記載のプログラム。

【請求項25】

請求項１７から２４のいずれか一項に記載のプログラムを格納するコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本特許出願は、２０１９年９月２０日に出願され、「デュアル空間パターンプリフェッチャについての装置、方法、およびシステム」という名称の米国仮特許出願第６２／９０３，５５０号の利益を主張し、当該出願はその全体が参照により本明細書に組み込まれる。

【0002】

本開示は、概してエレクトロニクスに関し、より具体的には、本開示の実施形態は、デュアル空間パターンプリフェッチ回路に関する。

【背景技術】

【0003】

プロセッサまたはプロセッサのセットは、命令セット、例えば、命令セットアーキテクチャ（ＩＳＡ）からの命令を実行する。命令セットは、プログラミングに関するコンピュータアーキテクチャの一部であり、概して、ネイティブデータタイプ、命令、レジスタアーキテクチャ、アドレス指定モード、メモリアーキテクチャ、割り込みおよび例外処理、ならびに、外部入力および出力（Ｉ／Ｏ）を含む。本明細書において命令という用語は、マクロ命令、例えば、実行のためにプロセッサに提供される命令、または、マイクロ命令、例えば、マクロ命令をデコードするプロセッサのデコーダに起因する命令を指し得ることに留意されたい。

【図面の簡単な説明】

【0004】

本開示は、例示の目的で示されており、添付図面の図に限定されるものではなく、図面中、同様の参照符号は、同様の要素を示す。

【0005】

【図1】本開示の実施形態に係るプリフェッチ回路をマルチプルコアハードウェアプロセッサのブロックダイアグラムを示す。

【0006】

【図2】本開示の実施形態に係る、ローカルおよびグローバルデルタをキャプチャする、トリガアクセスにアンカーされた空間ビットパターンを示す。

【0007】

【図3】本開示の実施形態に係る変調ビットパターンを示す。

【0008】

【図4A】本開示の実施形態に係るデュアル空間パターンプリフェッチャについてのフローダイアグラムを示す。

【0009】

【図4B】本開示の実施形態に係るデュアル空間パターンプリフェッチ回路を示す。

【0010】

【図5】本開示の実施形態に係るカバレッジバイアス変調ビットパターン（ＣｏｖＰ）および正確性バイアス変調ビットパターン（ＡｃｃＰ）を更新する回路を示す。

【0011】

【図6】本開示の実施形態に係るカバレッジバイアス変調ビットパターン（ＣｏｖＰ）と正確性バイアス変調ビットパターン（ＡｃｃＰ）との間で選択するフローダイアグラムを示す。

【0012】

【図7】本開示の実施形態に係るデュアル空間パターンプリフェッチャに対するストレージの例示的サイズの表を示す。

【0013】

【図8】本開示の実施形態に係るフローダイアグラムである。

【0014】

【図9A】本開示の実施形態に係る汎用ベクトルフレンドリ命令フォーマット、およびそれらのクラスＡの命令テンプレートを示すブロック図である。

【0015】

【図9B】本開示の実施形態に係る汎用ベクトルフレンドリ命令フォーマット、およびそれらのクラスＢの命令テンプレートを示すブロック図である。

【0016】

【図10A】本開示の実施形態に係る図９Ａおよび９Ｂにおける汎用ベクトルフレンドリ命令フォーマットに対するフィールドを示すブロック図である。

【0017】

【図10B】本開示の一実施形態に係るフルオペコードフィールドを作成する図１０Ａにおける特定のベクトルフレンドリ命令フォーマットのフィールドを示すブロック図である。

【0018】

【図10C】本開示の一実施形態に係るレジスタインデックスフィールドを作成する図１０Ａにおける特定のベクトルフレンドリ命令フォーマットのフィールドを示すブロック図である。

【0019】

【図10D】本開示の一実施形態に係る拡張オペレーションフィールド９５０を作成する図１０Ａにおける特定のベクトルフレンドリ命令フォーマットのフィールドを示すブロック図である。

【0020】

【図11】本開示の一実施形態に係るレジスタアーキテクチャのブロックダイアグラムである。

【0021】

【図12A】本開示の実施形態に係る例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

【0022】

【図12B】本開示の実施形態に係るプロセッサに含まれるインオーダアーキテクチャコアの例示的な実施形態および例示的なレジスタリネーミング、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

【0023】

【図13A】本開示の実施形態に係る、オンダイ相互接続ネットワークへのその接続、および、レベル２（Ｌ２）キャッシュのローカルサブセットと共に示すシングルプロセッサコアのブロックダイアグラムである。

【0024】

【図13B】本開示の実施形態に係る図１３Ａにおけるプロセッサコアの一部の拡大図である。

【0025】

【図14】本開示の実施形態に係る、１より多いコアを有し得る、統合メモリコントローラを有し得る、および、統合グラフィックスを有し得るプロセッサのブロックダイアグラムである。

【0026】

【図15】本開示の一実施形態に係るシステムのブロックダイアグラムである。

【0027】

【図16】本開示の実施形態に係るより具体的な例示的システムのブロックダイアグラムを示す。

【0028】

【図17】本開示の実施形態に係る、第２のより具体的な例示的システムのブロックダイアグラムが示される。

【0029】

【図18】本開示の実施形態に係るシステムオンチップ（ＳｏＣ）のブロックダイアグラムが示される。

【0030】

【図19】本開示の実施形態に係るソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比したブロックダイアグラムである。

【発明を実施するための形態】

【0031】

以下の説明において、多くの具体的な詳細が説明される。しかしながら、本開示の実施形態は、これらの具体的な詳細を用いずに実施され得ることが理解される。他の例において、本説明の理解を曖昧にしないように、周知の回路、構造および技術は詳細に示されていない。

【0032】

本明細書における「１つの実施形態」、「一実施形態」、「例示的な実施形態」等への言及は、説明される実施形態が特定の機能、構造、または特性を含んでよいが、全ての実施形態がその特定の機能、構造、または特性を必ずしも含まなくてよいことを示す。更に、そのような文言は必ずしも同一の実施形態を指していない。さらに、ある実施形態に関連して特定の機能、構造、または特性が説明される場合、明示的に説明されているか否かに関わらず、他の実施形態に関連してそのような機能、構造、または特性に影響を与えることは、当業者の知識の範囲内であると考えられる。

【0033】

プロセッサは、データをプリフェッチ、例えば、アクセスアドレスを予測し、（例えば、限定されるものではないが、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）などのメモリから）キャッシュまたは複数のキャッシュにそれらのアドレスに対するデータを運ぶために、プリフェッチャ（例えば、プリフェッチ回路）を使用してよい。

【0034】

高レイテンシアクセス、例えば、ＤＲＡＭメインメモリからのアクセスは、しばしばプロセッサ（例えば、コア）の命令のインオーダリタイアをストールし、命令レベル並列性（ＩＬＰ）抽出に対する先見性を減少させる。さらに、ＤＲＡＭのより新しい世代でメモリ帯域幅が増加する一方で、特定の実施形態において、メモリのレイテンシも同様に増加する。（例えば、低電力ダブルデータレート（ＬＰＤＤＲ）ＤＲＡＭにおける）より狭いチャンネルへの移行はまた、ＤＲＡＭからの全体レイテンシを増大させる。本明細書の実施形態は、低ストレージコストでプリフェッチカバレッジおよび正確性の両方に対して同時に最適化され、メモリ帯域幅ヘッドルームが増加する場合に提供される性能をスケールアップする、新規なアドレス予測メカニズムを通じて、これらの課題を克服する。

【0035】

性能におけるメモリウォール制限に対する様々なソリューションが存在する。これらのソリューションは、より高いレイテンシに対する許容範囲を付加するプロセッサ深度を増大させること（複雑で高価なアプローチであり、プロセッサ幅も同様に増大させる場合、有効性が低減されるアプローチである）と、低アクセスレイテンシを有するオンダイキャッシュ（キャッシュの容量／面積によって制限される）と、プログラム内のロードにより要求されるアドレスのプリフェッチまたは予測すること（ロードアドレスの大部分を早期に予測する能力により制限される）と、を含む。高性能プロセッサが、これらのソリューションのうちの幾つかまたは全ての組み合わせを使用してよい。

【0036】

本明細書の特定の実施形態は、プロセッサ性能の改善をするためのプリフェッチに焦点を当てる。プリフェッチの主要な基準は、概して以下のようであってよい：
カバレッジ：プリフェッチャにより保存されるプログラムによる高レイテンシアクセスのフラクション（例えば、より高いほどよりよい）、
適時性：プリフェッチにより隠されている高レイテンシアクセスのフラクション（例えば、より高いほどよりよい）、
正確性：プリフェッチャによる、正確に予測されたアドレスのフラクション（例えば、より高いほどよりよい）、および
ストレージ：プリフェッチャのストレージ要求（例えば、より小さいほどよりよい）。

【0037】

特定の実施形態において、プリフェッチャは、低ストレージコストを維持しつつ、カバレッジ、適時性、および正確性に対して同時に最適化することを必要とする。特定のプリフェッチ技術は、これらの最適化を、カバレッジまたは正確性のいずれかに対して、静的によりバイアスさせる。ビットパターンプリフェッチャは、非常に高いストレージ要求（例えば、約１００ＫＢ）を有し得る。

【0038】

さらに、ＤＲＡＭのランドスケープおよび技術の進化に伴い、プリフェッチ技術は、帯域幅に動的に適応し、ヘッドルームが存在する場合に予測とカバレッジを高め、特定の実施形態において利用される帯域幅がピークに近い場合に高正確性にスロットルダウンする能力を必要とする。本明細書の実施形態は、より高いＤＲＡＭ帯域幅ヘッドルームでそれらの性能のスケーリングを可能とする。

【0039】

一実施形態において、指定される要件（低ストレージコスト、および、ＤＲＡＭ帯域幅と共にスケーリングする一方で、カバレッジおよび正確性の両方について動的に最適化すること）の各々は、本明細書に開示されたデュアル空間ビットパターンプリフェッチャの実施形態によって正面から、有効に、かつ効率的に対処される。

【0040】

一実施形態において、デュアル空間（ビット）パターンプリフェッチャは、回転、ビット単位の論理和、およびビット単位の論理積のようなビットオペレーションを使用して、低ストレージコストでカバレッジおよび正確性の両方を動的に向上させ、ＤＲＡＭ帯域幅ヘッドルームによってその性能をスケールする軽量な空間領域プリフェッチャである。

【0041】

特定の実施形態において、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、以下の技術革新に寄与する：
一実施形態において、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、カバレッジ、正確性、およびストレージについて同時に最適化するために２つの変調ビットパターンを採用する。ビットパターンは、ページ内のそれらのトリガリングオフセットに対してそれらを回転することにより格納される。これは、トリガリングオフセットから全ての可能なデルタを効果的にキャプチャする。一実施形態において、ビットパターンは、ストレージを低減し、２つのパターンを同時に使用することを可能とするために、より低い（例えば６４Ｂの）粒度ではなく、より高い（例えば、１２８Ｂの）粒度で圧縮されて格納される。一実施形態において、カバレッジバイアスパターンは、例えば、単純なビット単位のＡＮＤオペレーションを通じて再帰ビットを保持する第２の正確性バイアスパターンと共に、単純なビット単位のＯＲオペレーションの使用を通じてビット／予測を付加する。さらに、一実施形態において、帯域幅を追跡し、カバレッジおよび正確性を測定する方法は、ランタイムにおける最良の予測候補の動的選択を可能とする。

【0042】

本明細書に開示されるようなデュアル空間パターンプリフェッチャの重要な区別として、メモリ帯域幅を増大させることに伴う性能におけるスケーリングがある。これは、従来のプリフェッチャが実現していないと考えられる。

【0043】

本明細書に開示されるデュアル空間パターンプリフェッチャは、以下の実施形態において、アドレスアクセスストリームからより多くのパターンを抽出し（従って、プリフェッチカバレッジを増大させ）、メモリ帯域幅ヘッドルームに動的に適応する。

【0044】

特定の実施形態において、トリガアクセスの周囲にアンカーされる空間ビットパターン表現は、トリガからの全てのデルタ（ローカルおよびグローバル）を効果的にキャプチャし、さもなければ機械内における順序変更により難読化されるパターンをあらわにする。

【0045】

一実施形態において、プリフェッチは、プログラムによりアクセスされる将来のアドレスを予測する投機実行メカニズムである。これらアドレスアクセスパターンは、様々な形態（例えば、フルキャッシュラインアドレス、２ＫＢ／４ＫＢ領域におけるオフセット、または連続するオフセットの間のデルタなど）で表現されることができ、繰り返しパターンをあらわにする最良のチャンスを有するアドレスアクセスパターンを選択することは、プリフェッチカバレッジおよび性能を向上させるのに役立ち得る。アクセスのグローバルビューまたは累積ビューを使用している場合に明らかなアドレスアクセスにおけるパターンは、連続アクセスの間のデルタの制限された低レベルのビューが利用される場合には、可視ではないかもしれない。

【0046】

図１は、本開示の実施形態に係る、プリフェッチ回路１２０を有するマルチプルコアハードウェアプロセッサ１０２のブロックダイアグラム１００を示す。任意のプロセッサが、プリフェッチ回路、例えば、以下に論じられるプロセッサを含んでよい。図１は、例えば、キャッシュコヒーレンシ階層における、マルチプルプロセッサコア（コアＡおよびコアＢ）ならびにキャッシュの複数レベル（Ｌ１、Ｌ２、およびＬ３）の実施形態を例示する。２つのコアが描写されるが、単一または２つ以上のコアが、利用されてもよい。複数レベルのキャッシュが描写されるが、単一または任意の数のキャッシュが、利用されてもよい。キャッシュは、任意の様式で、例えば物理的または論理的に集中または分散したキャッシュとして構成されてよい。

【0047】

ある実施形態では、プロセッサ、例えば、図面に示されるプロセッサコアを含むプロセッサもしくは複数のプロセッサ、または任意の他のプロセッサなどが、１つまたは複数のキャッシュを含んでもよい。図１は、３つのレベル（例えば、レベル１（Ｌ１）、２（Ｌ２）、および３（Ｌ３））のキャッシュの実施形態を示す。プロセッサは、少なくとも１つのコアおよび少なくとも１つのアンコアを含んでよい。一実施形態において、マルチプルコア（コアＡおよびＢ）は、単一のプロセッサ１０２のものである。コア（例えば、コアＡおよびコア）は、命令を実行すべく、プロセッサのコンポーネントを含んでよい。アンコアは、コアにない全てのロジックを含み得る。プロセッサコア（例えば、コアＡ）は、例えば、レベル１命令キャッシュ（Ｌ１Ｉ）１０８およびレベル１データキャッシュ（Ｌ１Ｄ）１１０などの構成要素を含んでよい。コア（例えば、コアＡ）は、例えば、アドレス生成ユニット（ＡＧＵ）１１２、トランスレーションルックアサイドバッファ（ＴＬＢ）１１４、およびレベル２キャッシュ（Ｌ２）１１６などの構成要素を含んでよい。コアは、キャッシュを他のコアと共有してよいし、あるいは共有しなくてもよい。例えば、コアＡおよびコアＢは、レベル３キャッシュ（Ｌ３）１１８を共有し、Ｌ２１１６またはＬ１（２０８、２１０）を共有しなくてよい。コアは、これらの構成要素の任意の組み合わせを含んでよく、あるいはこれらの構成要素のうちのどれも含まなくてもよい。プロセッサ１０２（例えば、コアＡおよびコアＢ）は、例えば、矢印によって示されるように、システムメモリ１２４内のデータにアクセス（例えば、データをロードおよびストア）し得る。一実施形態において、システムメモリ１２４が、例えば、キャッシュ（例えば、プロセッサ１０２上のキャッシュ）にアクセスするコアよりも遅いアクセスおよび／またはサイクルタイムにおいて、バスを通じてコアと通信する。システムメモリ１２４は、例えば、プリフェッチ命令の実行の前にシステムメモリ１２４にロードされる、多次元アレイ１２６を含んでよい。

【0048】

アドレス生成ユニット（例えば、ＡＧＵ１１２）、例えば、アドレス計算ユニット（ＡＣＵ）は、例えば、コアが、システムメモリにアクセスすることを可能にするために、メモリ（例えば、システムメモリ１２４）にアクセスするために使用されるアドレスを計算するプロセッサ（例えば、コア）の内部の実行ユニットを指し得る。一実施形態において、ＡＧＵは、アドレスストリーム（例えば、式）を入力として受け取り、そのストリームについての（例えば、仮想）アドレスを出力する。ＡＧＵ（例えば、回路）は、例えば、それの加算器、乗算器、シフタ、回転器等を利用して、例えば、加算、減算、モジュロ演算、またはビットシフトなどの算術演算を行い得る。

【0049】

トランスレーションルックアサイドバッファ（例えば、ＴＬＢ１１４）は、仮想アドレスを、（例えば、システムメモリの）物理アドレスへと変換してよい。ＴＬＢは、（例えば、最近使用された）仮想から物理へのメモリアドレス変換を格納するためのデータテーブルを含んでもよい。例えば、その結果、物理メモリアドレスを取得するために、存在する各仮想アドレスについての変換が実行される必要がなくなる。仮想アドレスエントリがＴＬＢにない場合、プロセッサは、仮想から物理へのメモリアドレス変換を判定するために、ページウォークを実行してよい。

【0050】

プリフェッチ回路１２０は、例えば、コアの機能ユニット（例えば、実行ユニット、算術ロジックユニット（ＡＬＵ）、ＡＧＵ、ＴＬＢ等）を利用しない、別個の機能回路（例えば、ユニット）であってよい。プリフェッチ回路は、プリフェッチ命令により利用されてよい。プリフェッチ回路は、本明細書で論じられるプリフェッチを実行すべく、回路（例えば、ハードウェアロジック回路）を含んでよい。プリフェッチ回路は、（例えば、コアから別個の）プロセッサの一部であってよい。プリフェッチ回路は、例えば、限定されるものではないが、リングネットワークなどの通信リソースを介して、プロセッサのコアと通信し得る。プロセッサ１０２は、（例えば、プロセッサの一部としての）メモリコントローラおよび／または相互接続を介して、システムメモリ１２４および／またはキャッシュ（例えば、図１におけるＬ１、Ｌ２、もしくはＬ３）と通信し得る。プリフェッチ回路１２０は、システムメモリ１２４内の多次元アレイ１２６からキャッシュ（例えば、図１におけるＬ１、Ｌ２、またはＬ３）にロード（例えば、コピー）されるべき要素の多次元ブロックのシステムメモリアドレスを出力し得る。プリフェッチ回路１２０は、システムメモリアドレスをプロセッサ１０２のメモリコントローラ（例えば、図１２Ｂにおけるメモリユニット１２７０）に出力し得る。

【0051】

図２は、本開示の実施形態に係る、ローカルおよびグローバルデルタをキャプチャする、（円で囲まれたように示される）トリガアクセスにアンカーされた空間ビットパターン２０６を示す。図２は、空間的領域内の（例えば、各々が一意のアクセスシグネチャを有する）複数セットアクセスおよび様々なフォーマットにおけるそれらの表現の例を示す。領域への第１のアクセスは、「トリガ」アクセスと称され、黒い円でマーク付けされる。例えば、ストリーム２０２のアクセスストリームＡにおける第１エントリ「０２」はページＡにおけるキャッシュライン２のアクセスを示しており、アクセスストリームＡにおける第２エントリ「０６」は、ページＡにおけるキャッシュライン６のアクセスを示している、等。図２において、ページＢからＥに対するアクセスセットは、それらの空間的領域において同一のトリガオフセットを有し、異なる時間順序で同一のオフセット全てにタッチする。そのような変動は、キャッシュ／メモリサブシステムにおけるアービトレーションおよびスケジューリングに起因する順序変更のアーチファクトであり得る。アクセスシーケンスがより長いほど、特定の実施形態における変動の確率がより高くなる。特定の実施形態において、連続デルタ２０４が使用されるが、シングル空間ビットパターンにより表現されることができる場合、これらのアクセスすべては、異なる表現を有する。例えば、トリガオフセット１を有するアクセスセットＢおよびアクセスセットＣ２つのデルタ表現（それぞれ、＋４、－１、＋７、＋１、および＋４、＋６、－７、＋８）を有するが、シングルビットパターン表現ＢＰ２（０１００１１０００００１１０００）を有する。重要なことに、ビットパターンが回転され（例えば、左に）、「トリガ」オフセットに対してアンカーされている場合、例示の全てのセットは、単一の表現２０８（１００１１０００００１１００００）に一体化する。そのようなアンカーされたビットパターンは、図２におけるローカルな（連続的な）ものおよびグローバルな（累積的な）ものを含む、トリガアクセスに対する全てのデルタをキャプチャする。

【0052】

特定の実施形態において、一方がカバレッジに対してバイアスされ、他方が正確性に対してバイアスされた２つの空間ビットパターンを変調するために、ビット単位の論理和演算および論理積演算を使用することにより、カバレッジおよび正確性の両方が同時に最適化され得る。

【0053】

プログラムにおける複数のアクセスストリームは、類似している（例えば、ビットセット内で幾つかの交差を有する）が、正確に同一ではないアンカーされたビットパターンを有してよい。本明細書に開示されるようなデュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、例えば、一方がカバレッジに対してバイアスされ、他方が正確性に対してバイアスされた、２つの変調されたビットパターンを使用するという新規かつ直観的なアプローチを使用する。カバレッジは、予測されたパターンにビットを追加することにより増大する。これは、２つのビットパターンのビット単位の論理和演算を使用して実現され得る。例えば、パターンにおいて生じる保持ビットのみが正確性を追跡し、これは２つのパターンについてのビット単位の論理積演算を介して実現される。

【0054】

図３は、本開示の実施形態に係る、変調ビットパターン３０２を示す。図３は、３つの回転されたビットパターン３１４、３１６、３１８にマッピングされる複数の異なるアドレスストリームが、どのようにカバレッジバイアスパターン３２０（例えば、ビットベクトル）および正確性バイアスパターン３２２（例えばビットベクトル）に変調され得るかという例を示す。例えば、第１のセットのアクセスに対して第１デルタシーケンスセット３０６によって、第２のセットのアクセスに対して第２デルタシーケンスセット３０８によって、さらに第３のセットのアクセスに対して第３デルタシーケンスセット３１０によって、変調される。一セットのアクセスは、それぞれのアクセスを引き起こしたプログラムカウンタ（ＰＣ）（例えば、命令ポインタ）、例えば、それぞれのアクセスを引き起こした命令に対するＰＣに基づいてグループ化されてよい。一実施形態において、アクセスの各セットは、ＰＣのビットの、同一の真部分集合（例えば、最下位または最上位ビット）、例えば、同一の８ビットを有する。

【0055】

図３において、第１セットのアクセスに対して、第１の回転され、アンカーされた空間ビットパターン３１４が第１デルタシーケンスセット３０６から形成され、第２セットのアクセスに対して、第２の回転され、アンカーされた空間ビットパターン３１６が第２デルタシーケンスセット３０８から形成され、第３セットのアクセスに対して、第３の回転され、アンカーされた空間ビットパターン３１８が第３デルタシーケンスセット３１０から形成され、例えば、図２を参照して論じられるように形成される。

【0056】

図３において、カバレッジに対する変調ビットパターン３２０（ＣｏｖＰ）は、第１の回転され、アンカーされた空間ビットパターン３１４と、第２の回転され、アンカーされた空間ビットパターン３１６と、第３の回転され、アンカーされた空間ビットパターン３１８との（ビット単位の）論理和演算３２４を実行することにより生成される。図３において、正確性に対する変調ビットパターン３２２（ＡｃｃＰ）は、第１の回転およびアンカーされた空間ビットパターン３１４、第２の回転およびアンカーされた空間ビットパターン３１６、ならびに第３の回転およびアンカーされた空間ビットパターン３１８への（ビット単位の）論理積演算３２４を実行することにより生成される。

【0057】

特定の実施形態において、これらのビットパターンの動的変調は、これらの基準が互いに不規則であるにもかかわらず、カバレッジおよび正確性の両方に対する同時最適化を可能にする。正確性およびカバレッジの定量的測定に結合された、利用可能なメモリ帯域幅ヘッドルームが、ランタイムにおいて、２つの異なるビットパターン候補（例えば、カバレッジバイアスまたは正確性バイアス）の間で動的に選択するのに使用され得る。

【0058】

特定の実施形態において、｛＋１｝および｛－１｝は、プログラムにおける２つの最も頻繁に生じるオフセットデルタである。例えば、特定のプログラムにおいて、それらの２つのデルタは、平均して、時間の５０％より多くに現れる。従って、各ビットが（例えば、６４Ｂの）キャッシュライン粒度を表すビットパターンを格納することの代わりに、本明細書に開示されるようなデュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、各ビットが２つの隣接する（例えば６４Ｂの）キャッシュライン（例えば、１２８Ｂの粒度）を表す圧縮されたビットパターンを格納してよい。これはパターンストレージ要求を直接半減させる。これは、理論的には、予測において５０％までの不正確性を有する可能性があるが、本明細書に開示されるようなデュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、５個のキャッシュライン予測毎に１未満の誤予測を有し得る（例えば、２０％未満の不正確性）。

【0059】

特定の実施形態において、物理ページにおけるマルチプルプリフェッチトリガは、プリフェッチカバレッジを増大させる。デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態は、正確性の追跡および予測のスロットルをする尺度を組み込み、従って、フル物理ページ（例えば、４ＫＢ）およびハーフ物理ページ（例えば、２ＫＢ）の粒度の両方で、動的に予測を行うことができる。カバレッジバイアス（ＣｏｖＰ）および正確性バイアス（ＡｃｃＰ）パターンに対するより大きな（例えば、６４ｂの）ビットパターンを使用する代わりに、本明細書の特定の実施形態は、それらの各々を２つのより小さな（例えば、３２ｂの）パターンに分割する。

【0060】

一実施形態において、Ｍｅａｓｕｒｅ_ＣｏｖＰおよびＭｅａｓｕｒｅ_ＡｃｃＰと名付けられた、２つの（例えば、スモール２ビット）カウンタが、例えば、各ビットパターンに対するこれらのカウンタの両方を有する、各（例えば、３２ｂ）ビットパターンのカバレッジおよび正確性を追跡する。予測選択は、４ＫＢページの２ＫＢ（例えば、３２ｂ）セグメント毎に作成されてもよい。

【0061】

本明細書に開示されるような、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、以下の構造を含んでよい：
複数（例えば、６４）エントリ－ファーストインファーストアウト（ＦＩＦＯ）構造で、キャッシュ（例えば、Ｌ２キャッシュ）内の最も最近アクセスされた（例えば、４ＫＢ）ページを追跡するページバッファ（ＰＢ）と呼ばれる構造である。一実施形態において、各ＰＢエントリは、（例えば、４ＫＢの）物理ページによりインデックス付けされ、プログラムのロードおよびストアによって見られるキャッシュ（例えば、Ｌ２）アクセスを累積する（例えば、６４ｂの）ビットパターン（非圧縮および未加工のアクセスパターン）をページに格納する。シグネチャおよびアンカーアクセスビットパターンを生成するために、（例えば、８ｂの）ハッシュされプログラムカウンタ（ＰＣ）（例えば、命令ポインタ）、および、一つが物理ページの各（例えば、２ＫＢ）セグメントに対する、２つの（例えば、６ｂの）トリガリングオフセットを格納してよく、マルチプル（例えば、２５６）エントリシグネチャパターンテーブル（ＳＰＴ）は、シグネチャおよびフォロワビットパターンの間の相関を格納する。特定の実施形態において、ＳＰＴは、シグネチャによりインデックス付けされる、直接マッピング構造である。一実施形態において、各ＳＰＴエントリは、以下の要素を格納する：
ＣｏｖＰ（例えば、３２ｂ）：カバレッジバイアス圧縮ビットパターン、
ＡｃｃＰ（例えば、３２ｂ）：正確性バイアス圧縮ビットパターン、
２×Ｍｅａｓｕｒｅ_ＣｏｖＰ（例えば、２×２ｂ）：物理ページ内の２ＫＢ領域に対するカバレッジフィードバックをそれぞれ追跡する、飽和カウンタ、
２×Ｍｅａｓｕｒｅ_ＡｃｃＰ（例えば、２×２ｂ）：物理ページ内の２ＫＢ領域に対する正確性フィードバックをそれぞれ追跡する、飽和カウンタ、
２×ＯＲ_{ｃｏｕｎｔ}（例えば、２×２ｂ）：ＣｏｖＰの２つのセグメントのＯＲオペレーションの数の追跡を維持するための飽和カウンタ、および
プリフェッチバッファ（例えば、１６エントリ）―生成され、発行されるプリフェッチに対する２つの（例えば、６４ｂの）ビットベクトルを保持する。

【0062】

図４Ａは、本開示の実施形態に係るデュアル空間パターンプリフェッチャに対するフローダイアグラム４０１を示す。図４Ｂは、本開示の実施形態に係るデュアル空間パターンプリフェッチ回路４００を示す。特定の実施形態において、図４Ｂにおけるようなプリフェッチ回路４００は、例えば、アクセスアドレスを予測し、それらのアドレスに対するデータをキャッシュまたは複数のキャッシュへと（例えば、メモリから）運ぶべく、プリフェッチデータに含まれる。一実施形態において、図４Ｂにおけるプリフェッチ回路４００は、図１におけるプリフェッチ回路１２０のインスタンスである。一実施形態において、図４Ｂにおけるプリフェッチ回路４００は、図１２Ｂにおけるプリフェッチ回路１２７８のインスタンスである。

【0063】

以下の例において、すべての所望アクセス４０３（例えば、Ｌ１キャッシュにおけるミスに対するＬ２キャッシュ所望アクセス）（例えば、プログラムアクセス４０４）は、物理ページ番号によりページバッファ４０２（ＰＢ）をルックアップ４０５する（段階１）。対応するエントリが発見される場合、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）は、ＰＢエントリにおけるアクセスビットパターン内の適切なビット位置を設定４０９する。４１１におけるチェックとして、（例えば、４ＫＢの）ページにおける各（例えば、２ＫＢの）セグメントへの第１のアクセスが、プリフェッチをトリガする適格性を有する（段階２）。トリガリングアクセスではない場合、フローは、実行済４２１へと進行する。トリガアクセスであれば、このトリガアクセスのアクセスシグネチャ（例えば、プログラムカウンタ）（ＰＣ）はＰＢエントリ内に格納され、ＣｏｖＰおよびＡｃｃＰ予測と、それらの良さの尺度（Ｍｅａｓｕｒｅ_ＣｏｖＰおよびＭｅａｓｕｒｅ_ＡｃｃＰカウンタ）とを４１３で返すＳＰＴ４０６にインデックスするために使用される（段階３）。（例えば、図５に詳述される）選択フローは、システム帯域幅４１０および尺度を使用して、プリフェッチのための予測パターン４１２を（例えば、マルチプレクサ４０８を介して）選択する（段階４）。特定の実施形態において、この予測パターン４１２は、プリフェッチを発行する前に、回転された予測パターン４１６を生成するために、トリガアクセスオフセットに対して整列させるために回転回路４１４により回転される。４１７でチェックされたように、ＰＢからのエビクション（段階５）において、各トリガ（例えば、２ＫＢセグメントごと）に対して、格納されたビットパターンがトリガオフセットにアンカーするように回転され、格納されたトリガアクセスシグネチャ（例えば、ＰＣ）を使用してＳＰＴにハッシュ化され、パターンおよびカウンタが４１９で更新される。４０７においてＰＢヒットがない場合、４１５において、新たなＰＢエントリがページバッファ４０２に挿入される。

【0064】

一実施形態において、各エントリ（例えば、テーブル－行マトリクス内の行）は、（ｉ）物理ページＩＤ番号（例えば、ページバッファをルックアップする場合に、ページの識別のために使用される）、（ｉｉ）ページに対する空間ビットパターン（例えば、空間アクセスストリーム情報を表すビットベクトル、例えば、これはアクセスされたキャッシュラインを１、それ以外の場合は０として示す）（例えば、これは、回転され、ＳＰＴのＣｏｖＰおよびＡｃｃＰパターンを更新するために使用されるであろう、パターンである）、（ｉｉｉ）セグメントへのトリガリング（例えば、第１の）アクセスのプログラムカウンタ（ＰＣ）（例えば、ＳＰＴへのインデックス付けをするために使用される）、および／または（ｉｖ）セグメントへのトリガリング（例えば、第１の）アクセスのキャッシュラインオフセットを含む。表１は、例示の値を有するページバッファにおける２つのエントリと、下線を引かれて示されるトリガアクセスとの例を示す。

【0065】

表１：例示のページバッファフォーマット。

【表1】

【0066】

表２は、シグネチャ予測テーブル（ＳＰＴ）における単一エントリの例を示す。

【表2】

【0067】

表１および表２を参照したオペレーションの例は、ページ０ｘ６５への新たなアクセスを検出することであり、この新しいアクセスは、０ｘ７ＦＦＥＣＣＡのＰＣを有する命令からのものであり、それは、ページ内の第４（例えば、０～Ｎからインデックスされ、Ｎは１より大きい正の整数である）のキャッシュラインへのものであり、これは、トリガリングアクセス（例えば、ページのこのセグメントへの第１のアクセス）（例えば、表１にアクセスすることから検出されるように）である。次に、ＰＣ０ｘ７ＦＦ３ＣＣＡの（例えば、より下位の真部分集合の）ビットを使用して、ＳＰＴ（例えば、表２における）において、ルックアップが実行され（例えば、最下位８ビットを使用する場合、ＳＰＴのルックアップエントリ０ｘＣＡ）、ＳＰＴルックアップは、ＣｏｖＰおよびＡｃｃＰパターンの両方をもたらす。例えば、システム帯域幅に基づいて使用するために、それらの１つを取り出す。特定の実施形態において、取り出されるＣｏｖＰまたはＡｃｃＰパターンは、トリガアクセスのキャッシュラインオフセット（例えば、下線１で示されるように表１からの例では４である）によりここで右へと回転される。図４Ｂの特定の実施形態において、プリフェッチ回路４００は、回転された予測パターン４１６を出力する。

【0068】

特定の実施形態において、この回転された予測パターン内のものの位置は、キャッシュラインに対して発行されるプリフェッチである（例えば、ゼロに対応するキャッシュラインに対して発行されるプリフェッチを有しない）。次に、ＳＰＴが更新されてよい。
［ＳＰＴ更新フェーズ］

【0069】

特定の実施形態において、各ＳＰＴ更新は、３つのビットパターンの情報を有する：
（１）実際のプログラムアクセス（例えば、空間アクセス）ビットパターン（例えば、犠牲ＰＢエントリから来ている）、
（２）ＳＰＴエントリ内に格納されるＣｏｖＰ、および
（３）そのＳＰＴエントリ内に格納されるＡｃｃＰ。

【0070】

デュアル空間パターンプリフェッチャの特定の実施形態（例えば、プリフェッチ回路）は、以下の表３に示されるように、（ビットパターン内に設定されたビットの数をカウントする）ポップカウント（ＰｏＰＣｏｕｎｔ）の２つの比により、ＣｏｖＰおよびＡｃｃＰのカバレッジおよび正確性のメトリックを個別に測定する。

【0071】

表３：単純ビットオペレーションを通じたプログラムカバレッジおよび予測正確性の例示の測定。

【表3】

【表4】

【0072】

図５は、本開示の実施形態に係るカバレッジバイアス変調ビットパターン（ＣｏｖＰ）５０２および正確性バイアス変調ビットパターン（ＡｃｃＰ）５０４を更新する回路を示す。デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態は、以下のように、計算された比率に基づいて、格納されたＣｏｖＰおよびＡｃｃＰビットパターンを変調する：
ＣｏｖＰ変調：ＣｏｖＰは、実際のプログラム（図５におけるＰＲＯＧＲＡＭパターン５１４）アクセスパターンを用いて、格納されたＣｏｖＰパターン（図５におけるＣｏｖＰパターン５１０）にビット単位の論理和演算５０６によりビットを加える。しかしながら、チェックされていない数のＯＲオペレーションは、結果的にパターン内のすべてのビットを設定し得るので、特定の実施形態では、特定の数の（例えば、３の）ＯＲオペレーションに制限する（例えば、２ｂの飽和カウンタＯｒ_{Ｃｏｕｎｔ}によって追跡される）。Ｏｒ_{Ｃｏｕｎｔ}は、ＯＲオペレーションが予測パターンに任意のビットを加えるたびにインクリメントされる。ＣｏｖＰの良さを定量化すべく、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態では、ＣｏｖＰ予測正確性が閾値Ａｃｃ_Ｔｈｒ未満であるか、またはＣｏｖＰからのプログラムカバレッジが閾値Ｃｏｖ_Ｔｈｒ未満である場合にいつでもインクリメントされる（例えば、２ｂ）飽和カウンタＭｅａｓｕｒｅ_ＣｏｖＰを採用する。これにより、Ｍｅａｓｕｒｅ_ＣｏｖＰが飽和され、現在の帯域幅利用率が第１の閾値（例えば、７５％）（例えば、最も高い四分位）より上であるか、またはカバレッジがより低い閾値（例えば、５０％）未満（例えば、３回までのＯＲオペレーションにもかかわらず）ままであるかのいずれかである場合に、ＣｏｖＰをインカミングプログラムパターンにリセットすることが可能になる。特定の実施形態は、Ａｃｃ_ＴｈｒおよびＣｏｖ_Ｔｈｒの両方に対し、５０％四分位の閾値を使用する。従って、特定の実施形態は、カバレッジおよび正確性を同時に最適化するために２つの変調空間ビットパターンを更新する。
ＡｃｃＰ変調：実施形態において、正確性バイアスビットパターンは、ビットパターンにおいて再帰ビットを保持することを要求し、これはビット単位の論理積演算５０８により実現され得る。特定の実施形態において、ＡｃｃＰにおける再帰的なＡＮＤオペレーションではなく、更新のたびに、ＡｃｃＰは、インカミングプログラムアクセスビットパターン（図５におけるプログラムパターン５１４）およびＣｏｖＰ（カバレッジバイアスパターン）（図５におけるＣｏｖＰパターン５１０）のビット単位のＡＮＤオペレーションにより置き換えられる。これは、ビットパターンの中で連続した再帰カウントを有するビットのみを効果的に保持する。Ｍｅａｓｕｒｅ_ＣｏｖＰと同様に、本明細書の特定の実施形態では、ＡｃｃＰの良さを追跡するために（例えば、２ｂの）飽和カウンタＭｅａｓｕｒｅ_ＡｃｃＰを使用する。Ｍｅａｓｕｒｅ_ＡｃｃＰは、ＡｎｄＰ予測正確性が閾値（例えば、５０％）未満の場合にインクリメントされ、そうでない場合にデクリメントされる。Ｍｅａｓｕｒｅ_ＡｃｃＰは、一実施形態において、帯域幅利用率が高く、不正確性が高い場合に、予測を完全にスロットルダウンするために使用される。

【0073】

図６は、本開示の実施形態に係るカバレッジバイアス変調ビットパターン（ＣｏｖＰ）と正確性バイアス変調ビットパターン（ＡｃｃＰ）との間で選択するフローダイアグラムを示す。図６は、予測についてＣｏｖＰおよびＡｃｃＰの間で使用される例示のフローを示す。６０２において帯域幅利用率が最も高い四分位（７５％）にある場合、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態では、Ｍｅａｓｕｒｅ_ＡｃｃＰが飽和していない場合に６０４においてＡｃｃＰを選択する。帯域幅利用率が６０６において二番目に高い四分位（５０％および７５％の間）にある場合、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態では、Ｍｅａｓｕｒｅ_ＣｏｖＰが飽和している（例えば、ＣｏｖＰはここでの所望の使用に対して不正確すぎることを意味する）場合には６０８においてＡｃｃＰを選択し、そうでない場合にはＣｏｖＰを選択する。帯域幅利用率が５０％未満である場合、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態では、単にＣｏｖＰを使用する。これらの数値は例示であり、他の閾値が利用されてもよい。このモードにおけるあらゆる汚染の影響を最小化するために、Ｍｅａｓｕｒｅ_ＣｏｖＰが飽和している（ＣｏｖＰが不正確であることを意味する）場合、デュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の特定の実施形態では、オンダイ（例えば、Ｌ２および／またはＬ３）キャッシュにおいてこれらのプリフェッチを不安定に（例えば、ゼロエイジで）埋める。

【0074】

図７は、本開示の実施形態に係るデュアル空間パターンプリフェッチャに対するストレージの、例示のサイズテーブル７００を示す。表７００は、例示のページバッファ７０２（ＰＢ）に対するエントリと、例示のシグネチャ予測テーブル７０４（ＳＰＴ）とを含む。

【0075】

図８は、本開示の実施形態に係るフローダイアグラム８００である。描写されるフロー８００は、プロセッサによってキャッシュラインを格納するキャッシュにアクセスすること８０２と、シングルアクセスシグネチャに対するキャッシュへのキャッシュラインアクセスおよびページを追跡すること８０４と、複数のページの各ページに対するキャッシュラインアクセスに対して、各ページに対する第１のキャッシュラインアクセスにシフトされた空間ビットパターンを生成すること８０６と、複数のシングル空間ビットパターンを形成するために、同一の空間ビットパターンを有する空間ビットパターンの各々に対して、シングルアクセスシグネチャに対するシングル空間ビットパターンを生成すること８０８と、シングルアクセスシグネチャに対する第１の変調ビットパターンを生成するために、複数のシングル空間ビットパターンの論理和演算を実行すること８１０と、シングルアクセスシグネチャに対する第２の変調ビットパターンを生成するために、複数のシングル空間ビットパターンの論理積演算を実行すること８１２と、シングルアクセスシグネチャに対するプリフェッチ要求を受信すること８１４と、閾値を超えていない場合に第１の変調されたビットパターンを使用し、閾値を超えた場合に第２の変調されたビットパターンを使用して、プリフェッチ要求に対して、メモリからキャッシュラインをキャッシュにプリフェッチするプリフェッチオペレーションを実行すること８１６とを含む。

【0076】

従って、本明細書に開示されるデュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）の実施形態は、別のプリフェッチャに対してプロセッサ性能における大幅な向上を実現するために、利用される帯域幅がピークに近い場合に、カバレッジをブーストして高正確性にスロットルダウンすることにより、メモリ帯域幅の増加に伴って性能をスケールする能力を有する。例えば、増大し続けるメモリ帯域幅を最大限に利用するために性能をスケール（例えば、他のプリフェッチャがそうする能力がない）し、ビット単位オペレーションＡＮＤおよびＯＲを通じて２つのビットパターンを変調してカバレッジおよび正確性を同時に最適化し、新規であるが効率的に実装される、帯域幅を追跡し、予測パターンのカバレッジおよび正確性を測定する方法を使用するデュアル空間パターンプリフェッチャ（例えば、プリフェッチ回路）を提供して、ランタイムにおいて最良の予測候補の動的選択を可能にすることによる。

【0077】

上記において使用されている例示的なアーキテクチャ、システム等は、以下に詳述される。

【0078】

開示される技術の少なくとも幾つかの実施形態は、以下の例を鑑みて説明され得る。

【0079】

（例１）
メモリおよびキャッシュラインを格納するキャッシュにアクセスするプロセッサコアと、
上記メモリから上記キャッシュへとキャッシュラインをプリフェッチするプリフェッチ回路であって、
シングルアクセスシグネチャのための上記キャッシュへのキャッシュラインアクセスおよびページを追跡し、
複数のページの各ページに対する上記キャッシュラインアクセスに対して、各ページに対する第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成し、
同一の空間ビットパターンを有する上記空間ビットパターンの各々に対する上記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成し、
上記複数のシングル空間ビットパターンの論理和演算を実行して、上記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成し、
上記複数のシングル空間ビットパターンの論理積演算を実行して、上記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成し、
上記シングルアクセスシグネチャに対するプリフェッチ要求を受信し、
閾値を超過していない場合に上記第１の変調ビットパターンを使用し、閾値を超過している場合に上記第２の変調ビットパターンを使用して、上記プリフェッチ要求に対するプリフェッチオペレーションを実行する、プリフェッチ回路と、
を備える、装置。
（例２）
上記シングルアクセスシグネチャは、シングル命令ポインタ値である、
例１に記載の装置。
（例３）
上記プリフェッチ要求は、上記キャッシュのデータのミスを有する（例えば、上記ミスを有する上記キャッシュは第１レベルキャッシュである）、
例１に記載の装置。
（例４）
上記閾値は、上記メモリの帯域幅利用率閾値である、
例１に記載の装置。
（例５）
上記プリフェッチ回路はさらに、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、上記第１の変調ビットパターンを更新する、
例１に記載の装置。
（例６）
上記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
例５に記載の装置。
（例７）
上記プリフェッチ回路はさらに、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する上記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する、
例５に記載の装置。
（例８）
上記プリフェッチ回路はさらに、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンの論理積演算の結果によって、上記第２の変調ビットパターンを更新する、
例１に記載の装置。
（例９）
プロセッサにより、キャッシュラインを格納するキャッシュにアクセスする段階と、
シングルアクセスシグネチャに対する上記キャッシュへのキャッシュラインアクセスおよびページを追跡する段階と、
複数のページの各ページに対する上記キャッシュラインアクセスに対して、各ページに対して第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成する段階と、
同一の空間ビットパターンを有する上記空間ビットパターンの各々に対する上記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成する段階と、
上記複数のシングル空間ビットパターンの論理和演算を実行して、上記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成する段階と、
上記複数のシングル空間ビットパターンの論理積演算を実行して、上記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成する段階と、
上記シングルアクセスシグネチャに対するプリフェッチ要求を受信する段階と、
閾値を超過していない場合に上記第１の変調ビットパターンを使用し、上記閾値を超過している場合に上記第２の変調ビットパターンを使用して、上記プリフェッチ要求に対するプリフェッチオペレーションを実行して、キャッシュラインをメモリから上記キャッシュへとプリフェッチする段階と、
を備える、方法。
（例１０）
上記シングルアクセスシグネチャは、シングル命令ポインタ値である、
例９に記載の方法。
（例１１）
上記プリフェッチ要求は、上記キャッシュにおけるデータのミスを含む、
例９に記載の方法。
（例１２）
上記閾値を、上記メモリの帯域幅利用率閾値として設定する段階をさらに備える、
例９に記載の方法。
（例１３）
上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、上記第１の変調ビットパターンを更新する段階をさらに備える、
例９に記載の方法。
（例１４）
上記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
例１３に記載の方法。
（例１５）
上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する上記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに備える、
例１３に記載の方法。
（例１６）
上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに備える、
例９に記載の方法。
（例１７）
機械により実行された場合、上記機械に、
プロセッサにより、キャッシュラインを格納するキャッシュにアクセスする段階と、
シングルアクセスシグネチャに対する上記キャッシュへのキャッシュラインアクセスおよびページを追跡する段階と、
複数のページの各ページに対する上記キャッシュラインアクセスに対して、各ページの第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成する段階と、
同一の空間ビットパターンを有する上記空間ビットパターンの各々に対する上記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成する段階と、
上記複数のシングル空間ビットパターンの論理和演算を実行して、上記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成する段階と、
上記複数のシングル空間ビットパターンの論理積演算を実行して、上記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成する段階と、
上記シングルアクセスシグネチャに対するプリフェッチ要求を受信する段階と、
閾値を超過していない場合に上記第１の変調ビットパターンを使用し、上記閾値を超過している場合に上記第２の変調ビットパターンを使用して、上記プリフェッチ要求に対するプリフェッチオペレーションを実行して、キャッシュラインをメモリから上記キャッシュへとプリフェッチする段階と、
を有する方法を実行させるプログラムコードを格納する、
非一時的機械可読媒体。
（例１８）
上記シングルアクセスシグネチャは、シングル命令ポインタ値である、
例１７に記載の非一時的機械可読媒体。
（例１９）
上記プリフェッチ要求は、前記キャッシュにおけるデータのミスを含む、
例１７に記載の非一時的機械可読媒体。
（例２０）
上記方法は、上記閾値を、上記メモリの帯域幅利用率閾値として設定する段階をさらに有する、
例１７に記載の非一時的機械可読媒体。
（例２１）
上記方法は、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、上記第１の変調ビットパターンを更新する段階をさらに有する、
例１７に記載の非一時的機械可読媒体。
（例２２）
上記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
例２１に記載の非一時的機械可読媒体。
（例２３）
上記方法は、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する上記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに有する、
例２１に記載の非一時的機械可読媒体。
（例２４）
上記方法は、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに有する、
例１７に記載の非一時的機械可読媒体。

【0080】

さらに別の実施形態において、装置は、コードを格納するデータストレージデバイスを備える。コードは、ハードウェアプロセッサによって実行された場合に、本明細書に開示される任意の方法をハードウェアプロセッサに実行させる。装置は、詳細な説明に説明されたものと同様であってよい。方法は、詳細な説明に説明されたものと同様であってよい。

【0081】

命令セットは、１または複数の命令フォーマットを含んでよい。所与の命令フォーマットは、とりわけ、実行されるべきオペレーション（例えば、オペコード）およびそのオペレーションが実行されるべきオペランドを指定する様々なフィールド（例えば、ビットの数、ビットの位置）、ならびに／または他のデータフィールド（例えば、マスク）を定義することができる。いくつかの命令フォーマットは、命令テンプレート（またはサブフォーマット）の定義を通じてさらに細分化される。例えば、所与の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義され（含まれるフィールドは通常同一の順序であるが、含まれるフィールドが少ないので、少なくともいくつかは異なるビット位置を有する）、かつ／または所与のフィールドが異なって解釈されるように定義されてよい。従って、ＩＳＡの各命令は、所与の命令フォーマットを用いて（また、定義されている場合には、当該命令フォーマットの命令テンプレートのうちの所与の１つにおいて）表現され、オペレーションおよびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコードと、当該オペコードを指定するためのオペコードフィールドおよびオペランド（ソース１／デスティネーションおよびソース２）を選択するためのオペランドフィールドを含む命令フォーマットとを有する。命令ストリーム内でのこのＡＤＤ命令の発生は、特定のオペランドを選択するオペランドフィールド内に特定の内容を有することになる。アドバンストベクトル拡張（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）コーディングスキームを使用する一連のＳＩＭＤ拡張機能がリリースおよび／または公開されている（例えば、２０１８年１１月のインテル（登録商標）６４およびＩＡ－３２アーキテクチャソフトウェアデベロッパーズマニュアル並びに２０１８年１０月のインテル（登録商標）アーキテクチャ命令セット拡張プログラミングリファレンスを参照）。
［例示的命令フォーマット］

【0082】

本明細書に説明される命令の実施形態は、異なるフォーマットで具現化され得る。また、例示的なシステム、アーキテクチャ、およびパイプラインが以下に詳述される。命令の実施形態は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行されてもよいが、詳述されたものに限定されるものではない。
［汎用ベクトルフレンドリ命令フォーマット］

【0083】

ベクトルフレンドリ命令フォーマットは、ベクトル命令のために適した命令フォーマットである（例えば、ベクトルオペレーションに特有の特定のフィールドが存在する）。ベクトルおよびスカラオペレーションの両方がベクトルフレンドリ命令フォーマットによりサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトルフレンドリ命令フォーマットによるベクトルオペレーションのみを用いる。

【0084】

図９Ａ～図９Ｂは、本開示の複数の実施形態に係る汎用ベクトルフレンドリ命令フォーマットおよびこれらの命令テンプレートを示すブロックダイアグラムである。図９Ａは、本開示の実施形態に係る汎用ベクトルフレンドリ命令フォーマットおよびそのクラスＡの命令テンプレートを示すブロック図であり、図９Ｂは、本開示の実施形態に係る汎用ベクトルフレンドリ命令フォーマットおよびそのクラスＢの命令テンプレートを示すブロック図である。具体的には、クラスＡおよびクラスＢの命令テンプレート用の汎用ベクトルフレンドリ命令フォーマット９００が定義され、それらの両方が非メモリアクセス９０５命令テンプレートおよびメモリアクセス９２０命令テンプレートを含まない。ベクトルフレンドリ命令フォーマットの文脈における汎用という用語は、あらゆる特定の命令セットに結び付けられていない命令フォーマットを指す。

【0085】

本開示の実施形態では、ベクトルフレンドリ命令フォーマットが、３２ビット（４バイト）または６４ビット（８バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）（したがって、６４バイトのベクトルは、１６個のダブルワードサイズの要素または代替的に８クワッドワードサイズの要素のいずれか一方から構成される）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する３２バイトのベクトルオペランド長（またはサイズ）、および、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する１６バイトのベクトルオペランド長（またはサイズ）をサポートすることが説明される一方、代替的な実施形態より多い、より多い、より少ないまたは異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有する、より多い、より少ないおよび／または異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートしてよい。

【0086】

図９ＡのクラスＡ命令テンプレートは、以下を含む。１）メモリアクセスなし９０５命令テンプレート内には、メモリアクセスなし、フルラウンド制御タイプオペレーション９１０命令テンプレートおよびメモリアクセスなし、データ変換タイプオペレーション９１５命令テンプレートが示されており、２）メモリアクセス９２０命令テンプレート内には、メモリアクセス、一時的９２５命令テンプレートおよびメモリアクセス、非一時的９３０命令テンプレートが示されている。図９ＢのクラスＢ命令テンプレートは、以下を含む。１）メモリアクセスなし９０５命令テンプレート内には、メモリアクセスなし、書き込みマスク制御、部分ラウンド制御タイプオペレーション９１２命令テンプレートおよびメモリアクセスなし、書き込みマスク制御、ｖｓｉｚｅタイプオペレーション９１７命令テンプレートが示されており、２）メモリアクセス９２０命令テンプレート内には、メモリアクセス、書き込みマスク制御９２７命令テンプレートが示されている。

【0087】

汎用ベクトルフレンドリ命令フォーマット９００は、図９Ａ～図９Ｂに示される順序で以下に列挙される次のフィールドを含む。

【0088】

フォーマットフィールド９４０－このフィールド内の特定の値（命令フォーマット識別子の値）は、ベクトルフレンドリ命令フォーマット、従って命令ストリーム内のベクトルフレンドリ命令フォーマット内の命令の発生を一意に識別する。このように、このフィールドは、汎用ベクトルフレンドリ命令フォーマットのみを有する命令セットに必要ではないという意味で任意選択的である。

【0089】

ベースオペレーションフィールド９４２－その内容は、異なるベースオペレーションを区別する。

【0090】

レジスタインデックスフィールド９４４－その内容は、直接またはアドレス生成を通じて、レジスタ内またはメモリ内にあっても、ソースおよびデスティネーションオペランドの位置を指定する。これらは、Ｐ×Ｑ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分な数のビットを含む。一実施形態において、Ｎは最大３つのソースレジスタおよび１つのデスティネーションレジスタであってよく、一方で、代替的な実施形態は、それより多いまたは少ないソースレジスタおよびデスティネーションレジスタをサポートしてよい（例えば、最大２つのソースをサポートしてよく、この場合、これらのソースのうちの１つがデスティネーションとしても動作する。最大３つのソースをサポートしてよく、この場合、これらのソースのうちの１つがデスティネーションとしても動作する。最大２つのソースおよび１つのデスティネーションをサポートしてよい）。

【0091】

修飾子フィールド９４６－その内容は、メモリアクセスを指定する汎用ベクトル命令フォーマットの命令の発生を、指定しないものから区別する、つまり、メモリアクセスなし９０５命令テンプレートとメモリアクセス９２０命令テンプレートとの間で区別する。メモリアクセスオペレーションは、メモリ階層に対して読み込みおよび／または書き込みを行う（場合によってはレジスタ内の値を用いてソースおよび／またはデスティネーションアドレスを指定する）が、メモリアクセスなしオペレーションはこれを行わない（例えば、ソースおよびデスティネーションがレジスタである）。一実施形態において、このフィールドはまた、メモリアドレス計算を実行するために、３つの異なる態様の間から選択する一方、代替的な実施形態では、メモリアドレス計算を実行するために、より多い、より少ないまたは異なる態様をサポートしてよい。

【0092】

拡張オペレーションフィールド９５０－その内容は、ベースオペレーションに加え、様々な異なるオペレーションのうちどれが実行されるべきかを区別する。このフィールドは、コンテキストに特有である。本開示の一実施形態において、このフィールドは、クラスフィールド９６８、アルファフィールド９５２、およびベータフィールド９５４に分割される。拡張オペレーションフィールド９５０は、共通グループのオペレーションが２つ、３つ、または４つの命令ではなく、単一の命令で実行されることを可能にする。

【0093】

スケールフィールド９６０－その内容は、メモリアドレス生成のための（例えば、２^{ｓｃａｌｅ}×インデックス＋ベースを用いるアドレス生成のための）インデックスフィールドの内容をスケーリングすることを可能にする。

【0094】

変位フィールド９６２Ａ－その内容は、メモリアドレス生成の一部として（例えば、２^{ｓｃａｌｅ}×インデックス＋ベース＋変位を使用するアドレス生成のために）使用される。

【0095】

変位ファクタフィールド９６２Ｂ（変位フィールド９６２Ａが変位ファクタフィールド９６２Ｂの直上に並置されているが、これはその一方または他方が用いられることを示すことに留意されたい）－その内容は、アドレス生成の一部として用いられ、メモリアクセスのサイズ（Ｎ）によりスケーリングされるべき変位ファクタを指定し、－ここでＮは、当該メモリアクセスにおけるバイト数である（例えば、２^{ｓｃａｌｅ}×インデックス＋ベース＋スケーリングされた変位を用いるアドレス生成について）。冗長下位ビットは無視され、従って、有効アドレスの計算に用いられる最終的な変位を生成するために、変位ファクタフィールドの内容にはメモリオペランドの合計サイズ（Ｎ）が乗算される。Ｎの値は、（本明細書において後述される）フルオペコードフィールド９７４およびデータ操作フィールド９５４Ｃに基づいて、ランタイムにおいてプロセッサハードウェアによって決定される。変位フィールド９６２Ａおよび変位ファクタフィールド９６２Ｂは、それらがメモリアクセスなし９０５の命令テンプレートに用いられないという意味で任意選択的であり、および／または、異なる実施形態では、２つのうちの一方のみを実装してもよいし、どちらも実装しなくてもよい。

【0096】

データ要素幅フィールド９６４－その内容は、複数のデータ要素幅のうちどれが用いられるべきかを区別する（いくつかの実施形態では全ての命令について、他の実施形態では一部の命令のみについて）。このフィールドは、１つのデータ要素幅のみがサポートされる場合、および／またはオペコードの何らかの態様を使用してデータ要素幅がサポートされる場合には必要とされないという意味で、任意選択的である。

【0097】

書き込みマスクフィールド９７０－その内容は、データ要素位置に基づいて、デスティネーションベクトルオペランド内のそのデータ要素位置がベースオペレーションおよび拡張オペレーションの結果を反映するか否かを制御する。クラスＡ命令テンプレートがマージング－書き込みマスキングをサポートする一方で、クラスＢ命令テンプレートはマージング－書き込みマスキングおよびゼロイング－書き込みマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、任意のオペレーションの実行中、デスティネーションにおける要素の任意のセットが更新されないように保護されることを可能にする（ベースオペレーションおよび拡張オペレーションによって指定される）。他の一実施形態においては、対応するマスクビットが０を有する場合、デスティネーションの各要素の古い値が保持される。これと対照的に、ゼロイングの場合、ベクトルマスクは、任意のオペレーションの実行中、デスティネーションにおける要素の任意のセットがゼロイングされることを可能にする（ベースオペレーションおよび拡張オペレーションによって指定される）。一実施形態においては、対応するマスクビットが０値を有する場合、デスティネーションの要素は０に設定される。この機能のサブセットは、実行されているオペレーションのベクトル長（つまり、修飾されている要素の最初から最後までの範囲）を制御する能力である。しかしながら、修飾された要素が連続している必要はない。従って、書き込みマスクフィールド９７０は、ロード、ストア、算術、論理等を含む部分的なベクトルオペレーションを可能にする。書き込みマスクフィールド９７０の内容が用いられる書き込みマスクを含む多数の書き込みマスクレジスタのうちの１つを選択する（したがって、書き込みマスクフィールド９７０の内容は、実行対象のそのマスキングを間接的に識別する）本開示の実施形態が説明される一方、代替的な実施形態では、代わりにまたは追加的に、マスク書き込みフィールド９７０の内容が実行されるマスキングを直接指定することを可能にする。

【0098】

即値フィールド９７２－その内容は、即値の指定を可能にする。このフィールドは即値をサポートしない汎用ベクトルフレンドリフォーマットの実装には存在せず、このフィールドは即値を使用しない命令内には存在しないという意味において、このフィールドは、任意選択的なものである。

【0099】

クラスフィールド９６８－その内容は、異なるクラスの命令の間を区別する。図９Ａ～図９Ｂを参照すると、このフィールドの内容はクラスＡおよびクラスＢ命令の間の選択を行う。図９Ａ～図９Ｂにおいて、角の丸い四角形を用いて、特定の値がフィールド（例えば、図９Ａ～図９Ｂにおける、クラスフィールド９６８のそれぞれクラスＡ９６８ＡおよびクラスＢ９６８Ｂ）に存在することを示す。
［クラスＡの命令テンプレート］

【0100】

クラスＡのメモリアクセスなし９０５の命令テンプレートの場合、アルファフィールド９５２はＲＳフィールド９５２Ａとして解釈され、その内容は、異なる拡張オペレーションタイプのうちどれが実行されるべきかを区別し（例えば、ラウンド９５２Ａ．１およびデータ変換９５２Ａ．２がメモリアクセスなし、ラウンドタイプオペレーション９１０およびメモリアクセスなし、データ変換タイプオペレーション９１５命令テンプレートに対してそれぞれ指定される）、その一方でベータフィールド９５４は、指定されたタイプのオペレーションのどれが実行されるべきかを区別する。メモリアクセスなし９０５命令テンプレートには、スケールフィールド９６０、変位フィールド９６２Ａ、および変位スケールフィールド９６２Ｂは存在しない。
［メモリアクセスなし命令テンプレート－フルラウンド制御タイプオペレーション］

【0101】

メモリアクセスなし、フルラウンド制御タイプオペレーション９１０命令テンプレートでは、ベータフィールド９５４はラウンド制御フィールド９５４Ａとして解釈され、ラウンド制御フィールド９５４Ａの内容は静的ラウンドを提供する。説明される本開示の実施形態において、ラウンド制御フィールド９５４Ａは、全浮動小数点例外抑制（ＳＡＥ）フィールド９５６およびラウンドオペレーション制御フィールド９５８を含み、代替的な実施形態では、これらの概念の両方を同じフィールドにエンコードすることをサポートしてもよく、または、これらの概念／フィールドの一方または他方のみを有してよい（例えば、ラウンドオペレーション制御フィールド９５８のみを有してよい）。

【0102】

ＳＡＥフィールド９５６－その内容は、例外イベント報告を無効化すべきか否かを区別する。ＳＡＥフィールド９５６の内容が、抑制が可能であることを示す場合、所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、任意の浮動小数点例外ハンドラを立ち上げない。

【0103】

ラウンドオペレーション制御フィールド９５８－その内容は、ラウンディングオペレーションのグループ（例えば、切り上げ、切り捨て、ゼロへの丸めおよび最近値への丸め）のうちどれが実行されるかを区別する。従って、ラウンドオペレーション制御フィールド９５８は、命令ベースでラウンドモードを変更することを可能にする。プロセッサがラウンディングモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンドオペレーション制御フィールド９５０の内容は、そのレジスタ値をオーバライドする。
［メモリアクセスなし命令テンプレート－データ変換タイプオペレーション］

【0104】

メモリアクセスなし、データ変換タイプオペレーション９１５命令テンプレートでは、ベータフィールド９５４はデータ変換フィールド９５４Ｂとして解釈され、その内容は、多数のデータ変換のうちどれが実行されるべきかを区別する（例えば、データ変換なし、スウィズル、ブロードキャスト）。

【0105】

クラスＡのメモリアクセス９２０命令テンプレートの場合、アルファフィールド９５２はエビクションヒントフィールド９５２Ｂとして解釈され、その内容は、エビクションヒントのうちどれが使用されるべきかを区別し（図９Ａでは、メモリアクセス、一時的９２５命令テンプレートおよびメモリアクセス、非一時的９３０命令テンプレートのために一時的９５２Ｂ．１および非一時的９５２Ｂ．２がそれぞれ指定される）、その一方でベータフィールド９５４はデータ操作フィールド９５４Ｃとして解釈され、その内容は、多数のデータ操作オペレーション（プリミティブとしても知られる）のうちどれが実行されるべきかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン）。メモリアクセス９２０命令テンプレートは、スケールフィールド９６０、および任意選択的に変位フィールド９６２Ａまたは変位スケールフィールド９６２Ｂを含む。

【0106】

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令の場合と同様、ベクトルメモリ命令は、データ要素単位でデータをメモリから／メモリへ転送し、実際に転送される要素は、書き込みマスクとして選択されるベクトルマスクの内容によって規定されている。
［メモリアクセス命令テンプレート－一時的］

【0107】

一時的データとは、キャッシュによる利益を受けられるほどすぐに再利用される可能性の高いデータである。しかしながら、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、それを異なる方法で実装してよい。
［メモリアクセス命令テンプレート－非一時的］

【0108】

非一時的データとは、第１レベルキャッシュにおけるキャッシュにより利益を受けられるほどすぐに再利用される可能性が低いデータであり、エビクションが優先されるべきである。しかしながら、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、それを異なる方法で実装してよい。
［クラスＢの命令テンプレート］

【0109】

クラスＢの命令テンプレートの場合において、アルファフィールド９５２は、書き込みマスク制御（Ｚ）フィールド９５２Ｃとして解釈され、その内容は、書き込みマスクフィールド９７０によって制御される書き込みマスキングがマージングであるべきかまたはゼロイングであるべきかを区別する。

【0110】

クラスＢのメモリアクセスなし９０５の命令テンプレートの場合、ベータフィールド９５４の一部はＲＬフィールド９５７Ａとして解釈され、その内容は、異なる拡張オペレーションタイプのうちどれが実行されるべきかを区別し（例えば、ラウンド９５７Ａ．１およびベクトル長（ＶＳＩＺＥ）９５７Ａ．２がそれぞれ、メモリアクセスなし、書き込みマスク制御、部分ラウンド制御タイプオペレーション９１２命令テンプレートおよびメモリアクセスなし、書き込みマスク制御、ＶＳＩＺＥタイプオペレーション９１７命令テンプレートについて指定される）、一方でベータフィールド９５４の残りは、指定されたタイプのオペレーションのどれが実行されるべきかを区別する。メモリアクセスなし９０５命令テンプレートには、スケールフィールド９６０、変位フィールド９６２Ａ、および変位スケールフィールド９６２Ｂは存在しない。

【0111】

メモリアクセスなし、書き込みマスク制御、部分ラウンド制御タイプオペレーション９１０命令テンプレートでは、ベータフィールド９５４の残りはラウンドオペレーションフィールド９５９Ａとして解釈され、例外イベント報告は無効化される（所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、任意の浮動小数点例外ハンドラを立ち上げることもない）。

【0112】

ラウンドオペレーション制御フィールド９５９Ａ―まさにラウンドオペレーション制御フィールド９５８と同様に、その内容は、ラウンディングオペレーションのグループ（例えば、切り上げ、切り捨て、ゼロへの丸めおよび最近値への丸め）のうちどれが実行されるかを区別する。従って、ラウンドオペレーション制御フィールド９５９Ａは、命令ベースでラウンドモードの変更を可能にする。プロセッサがラウンディングモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンドオペレーション制御フィールド９５０の内容は、そのレジスタ値をオーバライドする。

【0113】

メモリアクセスなし、書き込みマスク制御、ＶＳＩＺＥタイプオペレーション９１７命令テンプレートでは、ベータフィールド９５４の残りはベクトル長フィールド９５９Ｂとして解釈され、その内容は、多数のデータベクトル長のうちどれが実行されるべきかを区別する（例えば、１２８、２５６、または５１２バイト）。

【0114】

クラスＢのメモリアクセス９２０命令テンプレートの場合、ベータフィールド９５４の一部はブロードキャストフィールド９５７Ｂとして解釈され、その内容は、ブロードキャストタイプのデータ操作オペレーションが実行されるべきか否かを区別し、ベータフィールド９５４の残りはベクトル長フィールド９５９Ｂとして解釈される。メモリアクセス９２０の命令テンプレートは、スケールフィールド９６０を含み、任意選択的に、変位フィールド９６２Ａまたは変位スケールフィールド９６２Ｂを含む。

【0115】

汎用ベクトルフレンドリ命令フォーマット９００に関連して、フォーマットフィールド９４０、ベースオペレーションフィールド９４２およびデータ要素幅フィールド９６４を含む。フルオペコードフィールド９７４が示されている。フルオペコードフィールド９７４がこれらのフィールドの全てを含む一実施形態が示されているが、それらの全てをサポートしない実施形態では、フルオペコードフィールド９７４は、これらのフィールドの全てより少ないフィールドを含む。フルオペコードフィールド９７４は、オペレーションコード（オペコード）を提供する。

【0116】

拡張オペレーションフィールド９５０、データ要素幅フィールド９６４、および書き込みマスクフィールド９７０は、これらの特徴が汎用ベクトルフレンドリ命令フォーマットにおいて命令ベースで指定されることを可能にする。

【0117】

書き込みマスクフィールドおよびデータ要素幅フィールドの組み合わせは、それらが異なるデータ要素幅に基づいてマスクを適用できるようにするという点で、型付き命令を作成する。

【0118】

クラスＡおよびクラスＢ内で見出される様々な命令テンプレートは、様々な状況で有益である。本開示のいくつかの実施形態において、異なるプロセッサまたはプロセッサ内の異なるコアは、クラスＡのみ、クラスＢのみ、または両方のクラスをサポートしてよい。例えば、汎用コンピューティング向けの高性能汎用アウトオブオーダコアは、クラスＢのみをサポートしてよく、主にグラフィックスおよび／または科学的（スループット）コンピューティング向けのコアは、クラスＡのみをサポートしてよく、両方向けのコアは、両方をサポートしてよい（勿論、コアは、両方のクラスからの複数のテンプレートおよび命令のいくつかの組み合わせを有するが、両方のクラスからの複数のテンプレートおよび命令の全てが本開示の範囲内にある訳ではない）。また、単一のプロセッサが複数のコアを含んでもよく、それらの全てが同じクラスをサポートするか、または異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックスコアおよび汎用コアをもつプロセッサでは、主としてグラフィックスおよび／または科学コンピューティング向けの複数のグラフィックスコアのうちの１つがクラスＡのみをサポートすることができ、汎用コアのうちの１つまたは複数が、クラスＢのみをサポートする汎用コンピューティング向けのアウトオブオーダ実行およびレジスタリネーミングを有する高性能汎用コアであってもよい。別個のグラフィクスコアを有しない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートする１または複数の汎用インオーダまたはアウトオブオーダコアを含んでよい。勿論、１つのクラスからの機能は、本開示の異なる実施形態における他のクラスで実装されてもよい。高レベル言語で書かれたプログラムは、１）実行用のターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、または２）すべてのクラスの命令の異なる組み合わせを使用して書かれた代替ルーチンを有し、現在コードを実行しているプロセッサによってサポートされる命令に基づいて実行するようにルーチンを選択する制御フローコードを有する形式を含む、様々な異なる実行可能形式に入れられる（例えば、ジャストインタイムコンパイルされるか、または静的コンパイルされる）はずである。
［例示的な特定のベクトルフレンドリ命令フォーマット］

【0119】

図１０Ａおよび図１０Ｂは、本開示の実施形態に係る例示的な特定のベクトルフレンドリ命令フォーマットを示すブロック図である。図１０Ａおよび図１０Ｂは特定のベクトルフレンドリ命令フォーマット１０００を示す。特定のベクトルフレンドリ命令フォーマット１０００は、位置、サイズ、解釈およびフィールド順序に加え、これらのフィールドの一部の値を指定するという意味において特定的である。特定のベクトルフレンドリ命令フォーマット１０００は、ｘ８６命令セットを拡張するために使用されてよく、従って、いくつかのフィールドは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）で使用されるフィールドと類似または同一である。このフォーマットは、拡張を伴う既存のｘ８６命令セットのプレフィクスエンコーディングフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、および即値フィールドとの整合性を維持する。図９Ａおよび図９Ｂのフィールドが図１０Ａおよび図１０Ｂのどのフィールドにマッピングされるかが示されている。

【0120】

本開示の複数の実施形態は、例示の目的のため、汎用ベクトルフレンドリ命令フォーマット９００の文脈で、特定のベクトルフレンドリ命令フォーマット１０００を参照して説明されるが、本開示は、特許請求の範囲に記載されたものを除いて、特定のベクトルフレンドリ命令フォーマット１０００に限定されるものではないことを理解されたい。例えば、汎用ベクトルフレンドリ命令フォーマット９００は、様々なフィールドに対する様々な可能なサイズを想定するが、特定のベクトルフレンドリ命令フォーマット１０００は、特定のサイズのフィールドを有するように示される。具体的な例として、データ要素幅フィールド９６４は、特定のベクトルフレンドリ命令フォーマット１０００において、１ビットフィールドとして示されているが、本開示は、そのように限定されない（すなわち、汎用ベクトルフレンドリ命令フォーマット９００は、他のサイズのデータ要素幅フィールド９６４を想定する）。

【0121】

汎用ベクトルフレンドリ命令フォーマット９００は、図１０Ａに示される順で以下に列挙される次のフィールドを含む。

【0122】

ＥＶＥＸプレフィクス（バイト０－３）１００２―４バイト形式でエンコードされる。

【0123】

フォーマットフィールド９４０（ＥＶＥＸバイト０、ビット［７：０］）―第１のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド９４０であり、それは、０ｘ６２（本開示の一実施形態において、ベクトルフレンドリ命令フォーマットを区別するために用いられる特有の値）を含む。

【0124】

第２～第４のバイト（ＥＶＥＸバイト１～３）は、特定の機能を提供する多数のビットフィールドを含む。

【0125】

ＲＥＸフィールド１００５（ＥＶＥＸバイト１、ビット［７－５］―ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］－Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］－Ｘ）、および９５７ＢＥＸバイト１、ビット［５］－Ｂ）からなる。ＥＶＥＸ．Ｒビットフィールド、ＥＶＥＸ．ＸビットフィールドおよびＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同一の機能を提供し、それらは１の補数形式を使用してエンコードされる。すなわち、ＺＭＭ０は１１１１Ｂとしてエンコードされ、ＺＭＭ１５は００００Ｂとしてエンコードされる。命令の他のフィールドは、当技術分野で知られているレジスタインデックスの下位３ビット（ｒｒｒ、ｘｘｘ、およびｂｂｂ）をエンコードし、その結果、Ｒｒｒｒ、Ｘｘｘｘ、およびＢｂｂｂは、ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂを加算することによって形成されてよい。

【0126】

ＲＥＸ´フィールド９１０―これはＲＥＸ´フィールド９１０の第１の部分であり、拡張された３２レジスタセットの上位１６または下位１６のいずれかをエンコードするのに用いられるＥＶＥＸ．Ｒ´ビットフィールド（ＥＶＥＸバイト１、ビット［４］－Ｒ´）である。本開示の一実施形態において、このビットは、リアルオペコードバイトが６２であるＢＯＵＮＤ命令と（周知のｘ８６３２ビットモードにおいて）区別するために、以下に示されるような他のものと共にビット反転フォーマットに格納されるが、ＭＯＤＲ／Ｍフィールド（以下で説明される）では、ＭＯＤフィールド内の値１１を受け入れない。本開示の代替的な実施形態では、このビットおよび以下に示される他のビットを反転フォーマットに格納しない。下位１６個のレジスタのエンコードには、１の値を用いる。換言すると、Ｒ'Ｒｒｒｒは、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒ、および他のフィールドの他のＲＲＲを組み合わせることにより形成される。

【0127】

オペコードマップフィールド１０１５（ＥＶＥＸバイト１、ビット［３：０］－ｍｍｍｍ）―この内容は、暗黙の先頭オペコードバイト（０Ｆ、０Ｆ３８、または０Ｆ３）をエンコードする。

【0128】

データ要素幅フィールド９６４（ＥＶＥＸバイト２、ビット［７］－Ｗ）―ＥＶＥＸ．Ｗという表記によって表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットデータ要素または６４ビットデータ要素のいずれか）を規定するために用いられる。

【0129】

ＥＶＥＸ．ｖｖｖｖ１０２０（ＥＶＥＸバイト２、ビット［６：３］－ｖｖｖｖ）―ＥＶＥＸ．ｖｖｖｖの役割は以下を含んでもよい。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定された最初のソースレジスタオペランドをエンコードし、２つ以上のソースオペランドを有する命令に有効である。２）ＥＶＥＸ．ｖｖｖｖは、特定のベクトルシフトに対して１の補数形式で指定されるデスティネーションレジスタオペランドをエンコードする。３）ＥＶＥＸ．ｖｖｖｖはいかなるオペランドもエンコードせず、フィールドは予約され、１１１１ｂを含むべきである。従って、ＥＶＥＸ．ｖｖｖｖフィールド１０２０は、反転（１の補数）形式で格納される第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、追加の異なるＥＶＥＸビットフィールドが使用され、指定子サイズを３２個のレジスタに拡張する。

【0130】

ＥＶＥＸ．Ｕ９６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］－Ｕ）―ＥＶＥＸ．Ｕ＝０の場合、これは、クラスＡまたはＥＶＥＸ．Ｕ０を示す。ＥＶＥＸ．Ｕ＝１の場合、これは、クラスＢまたはＥＶＥＸ．Ｕ１を示す。

【0131】

プレフィクスエンコーディングフィールド１０２５（ＥＶＥＸバイト２、ビット［１：０］‐ｐｐ）―これは、ベースオペレーションフィールドの追加のビットを提供する。ＥＶＥＸプレフィクスフォーマットにおけるレガシＳＳＥ命令のサポートの提供に加え、これはまた、ＳＩＭＤプレフィクスのコンパクト化の利点を有する（ＳＩＭＤプレフィクスを表すために１バイトを要求する代わりに、ＥＶＥＸプレフィクスは２ビットのみを要求する）。一実施形態において、レガシフォーマットおよびＥＶＥＸプレフィクスフォーマットの両方においてＳＩＭＤプレフィクス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を使用するレガシＳＳＥ命令をサポートすべく、これらのレガシＳＩＭＤプレフィクスは、ＳＩＭＤプレフィクスエンコーディングフィールドにエンコードされる。これらのレガシＳＩＭＤプレフィクスは、デコーダのＰＬＡに提供される前に、ランタイムにおいてレガシＳＩＭＤプレフィクスに拡張される（よって、ＰＬＡは、変更なしで、これらのレガシ命令のレガシフォーマットおよびＥＶＥＸフォーマットの両方を実行できる）。より新しい命令ではＥＶＥＸプレフィクスエンコーディングフィールドの内容をオペコード拡張として直接使用できる。しかしながら、特定の実施形態では一貫性をもたせるために同様の方法で拡張するが、これらのレガシＳＩＭＤプレフィクスによって異なる意味が指定されることが可能になる。代替的な実施形態は、２ビットＳＩＭＤプレフィクスエンコーディングをサポートし、従って、拡張を必要としないようにＰＬＡを再設計することができる。

【0132】

アルファフィールド９５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ、ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．ｗｒｉｔｅｍａｓｋｃｏｎｔｒｏｌおよびＥＶＥＸ．Ｎとしても知られ、また、αを用いて示される）―前述したように、このフィールドはコンテキストに特有である。

【0133】

ベータフィールド９５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ、ＥＶＥＸ．ｓ_２－０、ＥＶＥＸ．ｒ_２－０、ＥＶＥＸ．ｒｒｌ、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られ、また、βββを用いて示される）―前述したように、このフィールドは、コンテキストに特有である。

【0134】

ＲＥＸ´フィールド９１０―これは、ＲＥＸ´フィールドの残りであり、拡張された３２個のレジスタセットの上位１６または下位１６のいずれかをエンコードするのに用いられ得るＥＶＥＸ．Ｖ´ビットフィールド（ＥＶＥＸバイト３、ビット［３］－Ｖ´）である。このビットは、ビット反転フォーマットで格納される。下位１６個のレジスタをエンコードするために１の値が使用される。換言すると、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより、Ｖ'ＶＶＶＶが形成される。

【0135】

書き込みマスクフィールド９７０（ＥＶＥＸバイト３、ビット［２：０］―ｋｋｋ）―その内容は、前述したように、書き込みマスクレジスタにおけるレジスタのインデックスを指定する。本開示の一実施形態において、特定の値ＥＶＥＸ．ｋｋｋ=０００は、特定の命令に用いられる書き込みマスクが存在しないことを示唆する特別な挙動を有する（これは、すべてのものに対してハードワイヤード書き込みマスク、または、マスキングハードウェアをバイパスするハードウェアの使用を含む様々な態様で実装され得る）。

【0136】

リアルオペコードフィールド１０３０（バイト４）は、オペコードバイトとしても知られる。オペコードの一部は、このフィールドにおいて指定される。

【0137】

ＭＯＤＲ／Ｍフィールド１０４０（バイト５）は、ＭＯＤフィールド１０４２、Ｒｅｇフィールド１０４４、およびＲ／Ｍフィールド１０４６を含む。前述したように、ＭＯＤフィールド１０４２の内容は、メモリアクセスオペレーションおよびメモリアクセスなしのオペレーションを区別する。Ｒｅｇフィールド１０４４の役割は、デスティネーションレジスタオペランド若しくはソースレジスタオペランドのいずれかをエンコードすること、または、オペコード拡張として扱われ、命令オペランドをエンコードするために使用されないこと、という２つの状況に要約できる。Ｒ／Ｍフィールド１０４６の役割は、メモリアドレスを参照する命令オペランドをエンコーディングすること、またはデスティネーションレジスタオペランド若しくはソースレジスタオペランドのいずれかをエンコーディングすることを含み得る。

【0138】

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）―前述したように、スケールフィールドの９５０の内容は、メモリアドレス生成について使用される。ＳＩＢ．ｘｘｘ１０５４およびＳＩＢ．ｂｂｂ１０５６―これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関連して既に言及された。

【0139】

変位フィールド９６２Ａ（バイト７－１０）：ＭＯＤフィールド１０４２が１０を含む場合、バイト７－１０は変位フィールド９６２Ａであり、これは、レガシ３２ビット変位（ｄｉｓｐ３２）と同じように機能し、バイト粒度で機能する。

【0140】

変位ファクタフィールド９６２Ｂ（バイト７）―ＭＯＤフィールド１０４２が０１を含む場合、バイト７は変位ファクタフィールド９６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）の位置と同じである。ｄｉｓｐ８は符号拡張されているので、－１２８バイトオフセットと１２７バイトオフセットとの間のアドレス指定のみしかできず、６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は、４つの本当に有用な値－１２８、－６４、０、および６４にのみ設定できる８ビットを使用し、より大きな範囲がしばしば必要とされるので、ｄｉｓｐ３２が使用されるが、ｄｉｓｐ３２は４バイトを必要とする。ｄｉｓｐ８およびｄｉｓｐ３２とは対照的に、変位ファクタフィールド９６２Ｂは、ｄｉｓｐ８の再解釈であり、変位ファクタフィールド９６２Ｂを用いる場合、実際の変位は、変位ファクタフィールドの内容をメモリオペランドアクセスのサイズ（Ｎ）で乗算したものによって決定される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これにより、平均命令長（変位に使用される単一バイトであるが、はるかに広い範囲を有する）が短くなる。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であり、従って、アドレスオフセットの冗長下位ビットは、エンコードされる必要がないという仮定に基づく。換言すると、変位ファクタフィールド９６２Ｂは、レガシｘ８６命令セットの８ビット変位を置換する。従って、変位ファクタフィールド９６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎにオーバーロードされる点のみを除いては、ｘ８６命令セットの８ビット変位と同じ方法でエンコードされる（よって、ＭｏｄＲＭ／ＳＩＢエンコーディングルールの変更はない）。換言すると、エンコーディングルールまたはエンコーディング長には変更がなく、ハードウェアによる変位値の解釈のみに変更がある（バイト単位のアドレスオフセットを得るべく、メモリオペランドのサイズによって変位をスケーリングする必要がある）。即値フィールド９７２は、前述したように動作する。
［フルオペコードフィールド］

【0141】

図１０Ｂは、本開示の一実施形態に係るフルオペコードフィールド９７４を作成する特定のベクトルフレンドリ命令フォーマット１０００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド９７４は、フォーマットフィールド９４０、ベースオペレーションフィールド９４２、およびデータ要素幅（Ｗ）フィールド９６４を含む。ベースオペレーションフィールド９４２は、プレフィクスエンコーディングフィールド１０２５、オペコードマップフィールド１０１５、およびリアルオペコードフィールド１０３０を含む。
［レジスタインデックスフィールド］

【0142】

図１０Ｃは、本開示の一実施形態に係るレジスタインデックスフィールド９４４を作成する特定のベクトルフレンドリ命令フォーマット１０００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド９４４は、ＲＥＸフィールド１００５、ＲＥＸ'フィールド１０１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド１０４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド１０４６、ＶＶＶＶフィールド１０２０、ｘｘｘフィールド１０５４、およびｂｂｂフィールド１０５６を含む。
［拡張オペレーションフィールド］

【0143】

図１０Ｄは、本開示の一実施形態に係る拡張オペレーションフィールド９５０を作成する特定のベクトルフレンドリ命令フォーマット１０００のフィールドを示すブロック図である。クラス（Ｕ）フィールド９６８が０を含む場合、ＥＶＥＸ．Ｕ０（クラスＡ９６８Ａ）を意味し、１を含む場合は、ＥＶＥＸ．Ｕ１（クラスＢ９６８Ｂ）を意味する。Ｕ＝０かつＭＯＤフィールド１０４２が１１を含む（メモリアクセスなしのオペレーションを意味する）場合、アルファフィールド９５２（ＥＶＥＸバイト３、ビット［７］）－ＥＨ）は、ｒｓフィールド９５２Ａとして解釈される。ｒｓフィールド９５２Ａが１を含む場合（ラウンド９５２Ａ．１）、ベータフィールド９５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）はラウンド制御フィールド９５４Ａとして解釈される。ラウンド制御フィールド９５４Ａは、１ビットのＳＡＥフィールド９５６および２ビットのラウンドオペレーションフィールド９５８を含む。ｒｓフィールド９５２Ａが０を含む場合（データ変換９５２Ａ．２）、ベータフィールド９５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は３ビットのデータ変換フィールド９５４Ｂとして解釈される。Ｕ＝０、かつＭＯＤフィールド１０４２が００、０１または１０を含む（メモリアクセスオペレーションを意味する）場合、アルファフィールド９５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ）は、エビクションヒント（ＥＨ）フィールド９５２Ｂとして解釈され、ベータフィールド９５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）は、３ビットのデータ操作フィールド９５４Ｃとして解釈される。

【0144】

Ｕ＝１の場合、アルファフィールド９５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ）は、書き込みマスク制御（Ｚ）フィールド９５２Ｃとして解釈される。Ｕ＝１であり、かつＭＯＤフィールド１０４２が１１を含む（メモリアクセスなしのオペレーションを意味する）場合、ベータフィールド９５４の一部（ＥＶＥＸバイト３、ビット［４］―Ｓ_０）は、ＲＬフィールド９５７Ａとして解釈される。これが１を含む場合（ラウンド９５７Ａ．１）、ベータフィールド９５４の残り（ＥＶＥＸバイト３、ビット［６‐５］―Ｓ_２－１）は、ラウンドオペレーションフィールド９５９Ａとして解釈され、一方でＲＬフィールド９５７Ａが０を含む場合（ＶＳＩＺＥ９５７．Ａ２）、ベータフィールド９５４の残り（ＥＶＥＸバイト３、ビット［６‐５］―Ｓ_２－１）は、ベクトル長フィールド９５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］―Ｌ_１－０）として解釈される。Ｕ＝１であり、かつＭＯＤフィールド１０４２が００、０１、または１０を含む（メモリアクセスオペレーションを意味する）場合、ベータフィールド９５４（ＥＶＥＸバイト３、ビット［６：４］―ＳＳＳ）は、ベクトル長フィールド９５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］―Ｌ_１－０）およびブロードキャストフィールド９５７Ｂ（ＥＶＥＸバイト３、ビット［４］―Ｂ）として解釈される。
［例示的なレジスタアーキテクチャ］

【0145】

図１１は、本開示の一実施形態に係るレジスタアーキテクチャ１１００のブロックダイアグラムである。示される実施形態において、５１２ビット幅の３２個のベクトルレジスタ１１１０が存在する。これらのレジスタは、ｚｍｍ０からｚｍｍ３１として参照される。下位１６個のｚｍｍレジスタの下位２５６ビットは、レジスタｙｍｍ０～ｙｍｍ１６に重なっている。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）は、レジスタｘｍｍ０～ｘｍｍ１５に重なっている。特定のベクトルフレンドリ命令フォーマット１０００は、以下の表に示されるようにこれらの重なったレジスタファイルに対して動作する。

【表5】

【0146】

換言すると、ベクトル長フィールド９５９Ｂは、最大長から１または複数の他のより短い長さまでの間から選択し、ここで、そのようなより短い長さの各々は、先行する長さの半分の長さであり、ベクトル長フィールド９５９Ｂを有しない命令テンプレートは、最大ベクトル長に対して動作する。さらに一実施形態において、特定のベクトルフレンドリ命令フォーマット１０００のクラスＢ命令テンプレートは、パックドまたはスカラ単精度／倍精度浮動小数点データ、およびパックドまたはスカラ整数データに対して動作する。スカラオペレーションは、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタにおける最下位のデータ要素の位置で実行されるオペレーションである。実施形態に応じて、より上位のデータ要素位置は、命令前と同じままであるか、またはゼロにされるかのいずれかである。

【0147】

書き込みマスクレジスタ１１１５―示される実施形態において、８個の書き込みマスクレジスタ（ｋ０からｋ７）が存在し、その各々が６４ビットのサイズである。代替的な実施形態において、書き込みマスクレジスタ１１１５は、１６ビットのサイズである。前述したように、本開示の一実施形態において、ベクトルマスクレジスタｋ０は、書き込みマスクとして用いられることができず、通常ｋ０を示すエンコーディングが書き込みマスクに用いられる場合、０ｘＦＦＦＦのハードワイヤード書き込みマスクを選択することで、その命令に対する書き込みマスキングを効果的に無効にする。

【0148】

汎用レジスタ１１２５―図示される実施形態において、メモリオペランドにアドレスを指定するために、既存のｘ８６アドレス指定モードと共に用いられる１６個の６４ビット汎用レジスタがある。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８からＲ１５という名称により参照される。

【0149】

ＭＭＸパックド整数フラットレジスタファイル１１５０がエイリアスされるスカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）１１４５―図示される実施形態において、ｘ８７スタックは、ｘ８７命令セット拡張を用いて、３２／６４／８０ビットの浮動小数点データに対するスカラ浮動小数点演算を実行するために用いられる８要素スタックであり、一方、ＭＭＸレジスタは、６４ビットのパックド整数データに対するオペレーションを実行するために用いられ、同様に、ＭＭＸとＸＭＭレジスタとの間で実行される一部のオペレーションに対するオペランドを保持するために用いられる。

【0150】

本開示の代替的な実施形態では、より広いまたはより狭いレジスタを使用してよい。さらに、本開示の代替的な実施形態は、より多くの、より少ない、または異なるレジスタファイルおよびレジスタを使用してよい。
［例示的なコアアーキテクチャ、プロセッサ、およびコンピュータアーキテクチャ］

【0151】

プロセッサコアは、異なる方法で、異なる目的のために、異なるプロセッサにおいて実装されてよい。例えば、そのようなコアの実装は、１）汎用コンピューティング向けの汎用インオーダコア、２）汎用コンピューティング向けの高性能汎用アウトオブオーダコア、３）主にグラフィックスおよび／または科学的（スループット）コンピューティング向けの特定用途向けコアを含んでよい。異なるプロセッサの実装は、１）汎用コンピューティング向けの１または複数の汎用インオーダコアおよび／または汎用コンピューティング向けの１または複数の汎用アウトオブオーダコアを含むＣＰＵ）、および２）主にグラフィックおよび／または科学（スループット）向けの１または複数の特定用途向けコアを含むコプロセッサを含んでよい。そのような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、それは、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同じパッケージ内の別個のダイ上のコプロセッサ、３）ＣＰＵと同一のダイ上のコプロセッサ（この場合、そのようなコプロセッサは、場合によっては、例えば、統合グラフィックスおよび／または科学（スループット）ロジックなどの特定用途ロジックと称され、または、特定用途向けコアと称される）、および、４）説明されたＣＰＵと同一のダイ上に含まれ得るシステムオンチップ（場合によっては、アプリケーションコアまたはアプリケーションプロセッサ、上述のコプロセッサおよび追加的な機能性と称される）を含んでよい。次に例示的なコアアーキテクチャが説明され、続いて例示的なプロセッサおよびコンピュータアーキテクチャが説明される。
［例示的なコアアーキテクチャ］
（インオーダおよびアウトオブオーダコアブロックダイアグラム）

【0152】

図１２Ａは、本開示の複数の実施形態に係る例示的なインオーダパイプラインと、例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインとの両方を示すブロック図である。図１２Ｂは、本開示の実施形態によるインオーダアーキテクチャコアの例示的な実施形態と、プロセッサに含まれる例示的なレジスタリネーミングアウトオブオーダ発行／実行アーキテクチャコアとの両方を示すブロック図である。図１２Ａ～図１２Ｂの実線のボックスはインオーダパイプラインおよびインオーダコアを示し、一方で、破線のボックスの任意選択的な追加は、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインおよびコアを示す。インオーダの態様はアウトオブオーダ態様のサブセットであると仮定して、アウトオブオーダ態様が説明される。

【0153】

図１２Ａにおいて、プロセッサパイプライン１２００は、フェッチステージ１２０２、長さデコードステージ１２０４、デコードステージ１２０６、割り当てステージ１２０８、リネーミングステージ１２１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ１２１２、レジスタ読み取り／メモリ読み取りステージ１２１４、実行ステージ１２１６、ライトバック／メモリ書き込みステージ１２１８、例外処理ステージ１２２２、およびコミットステージ１２２４を含む。

【0154】

図１２Ｂは、実行エンジンユニット１２５０に結合されるフロントエンドユニット１２３０を含むプロセッサコア１２９０を示し、これらの両方がメモリユニット１２７０に結合される。コア１２９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってよい。さらに別のオプションとして、コア１２９０は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット（ＧＰＧＰＵ）コアまたはグラフィックスコア等の特定用途向けコアであってよい。

【0155】

フロントエンドユニット１２３０には、命令キャッシュユニット１２３４に結合された分岐予測ユニット１２３２が含まれ、命令キャッシュユニット１２３４は命令トランスレーションルックアサイドバッファ（ＴＬＢ）１２３６に結合され、ＴＬＢ１２３６は命令フェッチユニット１２３８に結合され、命令フェッチユニット１２３８はデコードユニット１２４０に結合される。デコードユニット１２４０（またはデコーダもしくはデコーダユニット）は、複数の命令（例えばマクロ命令）をデコードし、１または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、または元の命令から復号され、または他の方法でこれを反映し、またはこれから派生した他の制御信号を、出力として生成してよい。デコードユニット１２４０は、様々な異なるメカニズムを用いて実装されてよい。適切なメカニズムの例は、限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）等を含む。一実施形態において、コア１２９０は、マイクロコードＲＯＭ、または、特定のマクロ命令に対するマイクロコードを格納する（例えば、デコードユニット１２４０において、または、そうでなければフロントエンドユニット１２３０内の）他の媒体を含む。デコードユニット１２４０は、実行エンジンユニット１２５０内のリネーム／アロケータユニット１２５２へ結合される。

【0156】

実行エンジンユニット１２５０には、リタイアメントユニット１２５４と、１または複数のスケジューラユニット１２５６のセットとに結合された、リネーム／アロケータユニット１２５２が含まれる。スケジューラユニット１２５６は、予約ステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表す。スケジューラユニット１２５６は、物理レジスタファイルユニット１２５８に結合される。物理レジスタファイルユニット１２５８の各々は、１つまたは複数の物理レジスタファイルを表す。異なる物理レジスタファイルは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）等、１または複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット１２５８は、ベクトルレジスタユニット、書き込みマスクレジスタユニットおよびスカラレジスタユニットを含む。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供することができる。物理レジスタファイルユニット１２５８には、（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用する、将来ファイル、履歴バッファ、およびリタイアメントレジスタファイルを使用する、レジスタマップおよびレジスタのプールを使用する等して）レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々な方法を示すためにリタイアメントユニット１２５４が重ね合わされている。リタイアメントユニット１２５４および物理レジスタファイルユニット１２５８は、実行クラスタ１２６０に結合される。実行クラスタ１２６０は、１または複数の実行ユニット１２６２のセット、および、１または複数のメモリアクセスユニット１２６４のセットを含む。実行ユニット１２６２は、様々なオペレーション（例えば、シフト、加算、減算、乗算）を、様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に対して実行し得る。いくつかの実施形態は、特定の機能または機能のセットに専用の多数の実行ユニットを含み得るが、他の実施形態は、１つのみの実行ユニット、または全てが全ての機能を実行する多数の実行ユニットを含んでもよい。特定の実施形態は特定のタイプのデータ／オペレーションに別個のパイプラインを作成するので（例えば、各々が自身のスケジューラユニット、物理レジスタファイルユニット、および／または実行クラスタを有する、スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／またはメモリアクセスパイプライン、そして別個のメモリアクセスパイプラインの場合には、このパイプラインの実行クラスタのみがメモリアクセスユニット１２６４を有する特定の実施形態が実装される）、スケジューラユニット１２５６、物理レジスタファイルユニット１２５８、および実行クラスタ１２６０は場合により複数であるように示されている。別個のパイプラインが使用される場合、これらのパイプラインのうち１または複数はアウトオブオーダ発行／実行であってよく、残りはインオーダであってよいことも理解されるべきである。

【0157】

メモリアクセスユニット１２６４のセットはメモリユニット１２７０に結合され、メモリユニット１２７０には、レベル２（Ｌ２）キャッシュユニット１２７６に結合されたデータキャッシュユニット１２７４に結合されたデータＴＬＢユニット１２７２が含まれる。例示的な一実施形態において、メモリアクセスユニット１２６４は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含んでよく、これらの各々は、メモリユニット１２７０内のデータＴＬＢユニット１２７２に結合される。命令キャッシュユニット１２３４は、メモリユニット１２７０内のレベル２（Ｌ２）キャッシュユニット１２７６にさらに結合される。Ｌ２キャッシュユニット１２７６は、１または複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。

【0158】

特定の実施形態において、プリフェッチ回路１２７８は、例えば、アクセスアドレスを予測し、それらのアドレスに対するデータを（例えば、メモリ１２８０から）キャッシュまたは複数のキャッシュに運ぶために、プリフェッチデータに含まれる。一実施形態において、プリフェッチ回路１２７８は、図１２Ｂにおけるプリフェッチ回路のインスタンスである。

【0159】

例として、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプライン１２００を実装することができる。１）命令フェッチ１２３８がフェッチステージ１２０２および長さデコーディングステージ１２０４を実行する。２）デコードユニット１２４０がデコードステージ１２０６を実行する。３）リネーム／アロケータユニット１２５２が割り当てステージ１２０８およびリネーミングステージ１２１０を実行する。４）スケジューラユニット１２５６がスケジュールステージ１２１２を実行する。５）物理レジスタファイルユニット１２５８およびメモリユニット１２７０がレジスタ読み取り／メモリ読み取りステージ１２１４を実行し、実行クラスタ１２６０が実行ステージ１２１６を実行する。６）メモリユニット１２７０および物理レジスタファイルユニット１２５８がライトバック／メモリ書き込みステージ１２１８を実行する。７）様々なユニットが例外処理ステージ１２２２に関与してもよい。８）リタイアメントユニット１２５４および物理レジスタファイルユニット１２５８がコミットステージ１２２４を実行する。

【0160】

コア１２９０は、本明細書で説明された命令を含む、１または複数の命令セット（例えば、（より新しいバージョンで追加されたいくつかの拡張を有する）ｘ８６命令セット、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓの（ＮＥＯＮなどのオプションの追加拡張を有する）ＡＲＭ命令セット）をサポートすることができる。一実施形態において、一実施形態において、コア１２９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションにより用いられるオペレーションがパックドデータを用いて実行できるようになる。

【0161】

コアはマルチスレッディング（２つまたはそれより多くの並列セットのオペレーションまたはスレッドを実行）をサポートしてよく、タイムスライスマルチスレッディング、同時マルチスレッディング（物理コアが同時にマルチスレッディングしているスレッドのそれぞれに対して、単一の物理コアが論理コアを提供する）、またはこれらの組み合わせ（例えば、タイムスライスフェッチおよびデコーディング、ならびにそれ以降のＩｎｔｅｌ（登録商標）ハイパースレッディング・テクノロジーなどの同時マルチスレッディング）を含む様々な方法でサポートしてよいことが理解されたい。

【0162】

レジスタリネーミングは、アウトオブオーダ実行の文脈で説明しているが、レジスタリネーミングはインオーダ・アーキテクチャで使用されてもよいことは、理解されるべきである。示されたプロセッサの実施形態はまた、別個の命令およびデータキャッシュユニット１２３４／１２７４および共有Ｌ２キャッシュユニット１２７６も含むが、代替的な実施形態は、例えばレベル１（Ｌ１）内部キャッシュ、または複数のレベルの内部キャッシュなど、命令およびデータの両方のための単一の内部キャッシュを有してもよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュの組み合わせを含んでもよい。あるいは、キャッシュのすべてがコアおよび／またはプロセッサの外部にあってもよい。
［具体的な例示的インオーダコアアーキテクチャ］

【0163】

図１３Ａ～図１３Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロックダイアグラムを示す。当該コアは、チップ内のいくつかのロジックブロック（同じタイプおよび／または異なるタイプの他のコアを含む）のうちの１つであろう。ロジックブロックは、用途に応じて、高帯域幅の相互接続ネットワーク（例えば、リングネットワーク）を通じて、いくつかの固定機能ロジック、メモリ入出力インタフェース、および他の必要な入出力ロジックと通信する。

【0164】

図１３Ａは、本開示の複数の実施形態に係るシングルプロセッサコアを、そのオンダイ相互接続ネットワーク１３０２への接続およびそのレベル２（Ｌ２）キャッシュのローカルサブセット１３０４と共に示すブロックダイアグラムである。一実施形態において、命令デコードユニット１３００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ１３０６は、スカラーおよびベクトルユニット内のキャッシュメモリへの低レイテンシアクセスを可能にする。一実施形態において、（設計の単純化のために）スカラユニット１３０８およびベクトルユニット１３１０は、別個のレジスタセット（それぞれ、スカラレジスタ１３１２およびベクトルレジスタ１３１４）を用いる。これらの間で転送されるデータは、レベル１（Ｌ１）キャッシュ１３０６のメモリに書き込まれてから再読み出しされるが、本開示の複数の代替的な実施形態は、異なるアプローチ（例えば、単一のレジスタセットを用いる、または書き込みおよび再読み出しを行うことなく、２つのレジスタファイル間におけるデータ転送を可能とする通信パスを含む）を用いてよい。

【0165】

Ｌ２キャッシュのローカルサブセット１３０４は、プロセッサコアごとに１つずつの別個のローカルサブセットに分割されるグローバルＬ２キャッシュの一部である。各プロセッサコアは、自身のＬ２キャッシュのローカルサブセット１３０４への直接アクセスパスを有する。プロセッサコアにより読み込まれたデータは、Ｌ２キャッシュサブセット１３０４に格納され、他のプロセッサコアが自身のローカルＬ２キャッシュサブセットにアクセスするのと並列的に、高速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、自身のＬ２キャッシュサブセット１３０４に格納され、必要な場合、他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、プロセッサコア、Ｌ２キャッシュ、および他のロジックブロックなどのエージェントがチップ内で互いに通信することを可能にするために、双方向である。各リングデータパスは一方向当たり１０１２ビット幅である。

【0166】

図１３Ｂは、本開示の複数の実施形態に係る図１３Ａにおけるプロセッサコアの一部の拡大図である。図１３Ｂは、Ｌ１キャッシュ１３０４のＬ１データキャッシュ１３０６Ａ部分、ならびにベクトルユニット１３１０およびベクトルレジスタ１３１４に関する更なる詳細を含む。具体的には、ベクトルユニット１３１０は、１６幅ベクトル処理ユニット（ＶＰＵ）（１６幅ＡＬＵ１３２８を参照）であり、整数命令、単精度浮動命令、および倍精度浮動命令のうちの１または複数を実行する。ＶＰＵは、スウィズルユニット１３２０を用いたレジスタ入力のスウィズル、数値変換ユニット１３２２Ａ－１３２２Ｂを用いた数値変換、および、メモリ入力に対する複製ユニット１３２４を用いた複製をサポートする。書き込みマスクレジスタ１３２６は、結果としてもたらされるベクトル書き込みをプレディケートすることを可能にする。

【0167】

図１４は、本開示の複数の実施形態に係るプロセッサ１４００のブロックダイアグラムであり、当該プロセッサは、１つより多くのコアを有してよく、統合メモリコントローラを有してよく、統合グラフィックスを有してよい。図１４の実線のボックスは、シングルコア１４０２Ａ、システムエージェント１４１０、１または複数のバスコントローラユニット１４１６のセットを有するプロセッサ１４００を示し、その一方で破線のボックスの任意選択的な追加は、複数のコア１４０２Ａ～１４０２Ｎ、システムエージェントユニット１４１０内の１または複数の統合メモリコントローラユニット１４１４のセット、および特定用途ロジック１４０８を有する代替的なプロセッサ１４００を示す。

【0168】

従って、プロセッサ１４００の異なる実装は、１）統合グラフィックスおよび／または科学技術（スループット）ロジックである特定用途ロジック１４０８（１または複数のコアを含んでよい）、および、１または複数の汎用コアであるコア１４０２Ａ～１４０２Ｎ（例えば、汎用インオーダコア、汎用アウトオブオーダコア、その２つの組み合わせ）を有するＣＰＵ、２）グラフィックスおよび／または科学技術（スループット）を主に対象とする多数の特定用途向けコアであるコア１４０２Ａ～１４０２Ｎを有するコプロセッサ、および、３）多数の汎用インオーダコアであるコア１４０２Ａ～１４０２Ｎを有するコプロセッサを含んでよい。従って、プロセッサ１４００は、汎用プロセッサ、コプロセッサ、または例えば、ネットワークもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、高スループットＭＩＣ（ｍａｎｙｉｎｔｅｇｒａｔｅｄｃｏｒｅ）コプロセッサ（３０以上のコアを含む）、組み込みプロセッサ等の特定用途向けプロセッサであってよい。プロセッサは、１または複数のチップ上に実装されてよい。プロセッサ１４００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳなどのいくつかのプロセス技術のいずれかを使用した１若しくは複数の基板の一部であってよく、かつ／またはその基板上に実装されてもよい。

【0169】

メモリ階層は、コア内にある１または複数のレベルのキャッシュと、共有キャッシュユニット１４０６のセットあるいは１または複数の共有キャッシュユニット１４０６と、統合メモリコントローラユニット１４１４のセットに結合された外部メモリ（不図示）とを含む。共有キャッシュユニットのセット１４０６は、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、または他のレベルのキャッシュ等の１または複数の中間レベルキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはそれらの組み合わせを含んでよい。一実施形態において、リングベースの相互接続ユニット１４１２は、統合グラフィックスロジック１４０８と、共有キャッシュユニットのセット１４０６と、システムエージェントユニット１４１０／統合メモリコントローラユニット１４１４とを相互接続するが、代替的な実施形態において、そのようなユニットを相互接続するための任意の数の周知技術を用いてよい。一実施形態において、コヒーレンシは、１または複数のキャッシュユニット１４０６とコア１４０２Ａ～１４０２Ｎとの間で維持される。

【0170】

いくつかの実施形態において、コア１４０２Ａ～１４０２Ｎのうちの１または複数は、マルチスレッディングが可能である。システムエージェント１４１０は、コア１４０２Ａ～１４０２Ｎを調整および動作させるそれらのコンポーネントを含む。システムエージェントユニット１４１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含んでよい。ＰＣＵは、コア１４０２Ａ～１４０２Ｎおよび統合グラフィックスロジック１４０８の電力状態を調整するのに必要なロジックおよびコンポーネントであってよく、あるいは当該ロジックおよび当該コンポーネントを含んでもよい。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

【0171】

コア１４０２Ａ～１４０２Ｎは、アーキテクチャ命令セットに関して同種であっても異種であってもよい。すなわち、コア１４０２Ａ～１４０２Ｎのうちの２つ以上は、同じ命令セットを実行可能であってよく、一方で、他のものは、その命令セットのうちの１つのサブセットまたは異なる命令セットのみを実行可能であってもよい。
［例示的なコンピュータアーキテクチャ］

【0172】

図１５～図１８は、例示的なコンピュータアーキテクチャのブロックダイアグラムである。ラップトップ、デスクトップ、ハンドヘルドＰＣ、パーソナルデジタルアシスタント、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、携帯型メディアプレーヤ、ハンドヘルドデバイス、および様々な他の電子デバイスについて当技術分野で既知の他のシステム設計および構成も適している。一般的には、本明細書で開示されたプロセッサおよび／または他の実行ロジックを組み込むことが可能な多様なシステムまたは電子デバイスが概して適している。

【0173】

ここで図１５を参照すると、本開示の一実施形態に係るシステム１５００のブロックダイアグラムが示される。システム１５００は、１または複数のプロセッサ１５１０、１５１５を含んでよく、これらはコントローラハブ１５２０に結合される。一実施形態において、コントローラハブ１５２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）１５９０および入／出力ハブ（ＩＯＨ）１５５０（別個のチップ上に存在してよい）を含む。ＧＭＣＨ１５９０は、メモリ１５４０およびコプロセッサ１５４５が連結されたメモリコントローラおよびグラフィックスコントローラを含む。ＩＯＨ１５５０は、入／出力（Ｉ／Ｏ）デバイス１５６０をＧＭＣＨ１５９０に連結する。代替的に、メモリコントローラおよびグラフィックスコントローラの一方または両方は、（本明細書で説明されているように）プロセッサ内に集積され、メモリ１５４０およびコプロセッサ１５４５は、プロセッサ１５１０および、ＩＯＨ１５５０と共に単一チップ内にあるコントローラハブ１５２０に直接結合される。メモリ１５４０は、例えば、実行された場合に、プロセッサに本開示の任意の方法を実行させるためのコードを格納する、プリフェッチャコード１５４０Ａを含んでよい。

【0174】

追加的なプロセッサ１５１５の任意選択的な性質が、図１５において破線で示される。各プロセッサ１５１０、１５１５は、本明細書に説明される処理コアのうちの１または複数を含んでよく、何らかのバージョンのプロセッサ１４００であってもよい。

【0175】

メモリ１５４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこれら２つの組み合わせであってもよい。少なくとも１つの実施形態について、コントローラハブ１５２０は、例えば、フロントサイドバス（ＦＳＢ）などのマルチドロップバス、ＱｕｉｃｋＰａｔｈ相互接続（ＱＰＩ）などのポイントツーポイントインタフェースまたは類似の接続１５９５を介してプロセッサ１５１０、１５１５と通信する。

【0176】

一実施形態において、コプロセッサ１５４５は、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等のような特定用途向けプロセッサである。一実施形態において、コントローラハブ１５２０は、統合グラフィックアクセラレータを含んでよい。

【0177】

物理リソース１５１０、１５１５の間には、アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性、電力消費特性等を含む広範な価値基準の観点から様々な差異が存在し得る。

【0178】

一実施形態において、プロセッサ１５１０は、一般的なタイプのデータ処理オペレーションを制御する命令を実行する。命令内にコプロセッサ命令が組み込まれていてよい。プロセッサ１５１０は、これらのコプロセッサ命令を付属のコプロセッサ１５４５により実行されるべきタイプであるとして認識する。従って、プロセッサ１５１０は、コプロセッサバスまたは他の相互接続上において、これらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサ１５４５に発行する。コプロセッサ１５４５は、受信したコプロセッサ命令を受け入れて実行する。

【0179】

ここで図１６を参照すると、本開示の実施形態に係る、第１のより具体的な例示的システム１６００のブロックダイアグラムが示される。図１６に示されるように、マルチプロセッサシステム１６００はポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続１６５０を介して結合される第１のプロセッサ１６７０と、第２のプロセッサ１６８０とを含む。プロセッサ１６７０および１６８０の各々は、何らかのバージョンのプロセッサ１４００であってよい。本開示の一実施形態において、プロセッサ１６７０および１６８０はそれぞれ、プロセッサ１５１０および１５１５である。一方、コプロセッサ１６３８は、コプロセッサ１５４５である。別の実施形態において、プロセッサ１６７０および１６８０はそれぞれ、プロセッサ１５１０およびコプロセッサ１５４５である。

【0180】

プロセッサ１６７０およびプロセッサ１６８０は、それぞれ、統合メモリコントローラ（ＩＭＣ）ユニット１６７２および統合メモリコントローラ（ＩＭＣ）ユニット１６８２を含むものとして示されている。プロセッサ１６７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ－Ｐ）インタフェース１６７６および１６７８を含む。同様に、第２のプロセッサ１６８０は、Ｐ－Ｐインタフェース１６８６および１６８８を含む。プロセッサ１６７０、１６８０は、ポイントツーポイント（Ｐ－Ｐ）インタフェース１６５０を介し、Ｐ－Ｐインタフェース回路１６７８、１６８８を用いて情報を交換してよい。図１６に示されるように、ＩＭＣ１６７２および１６８２は、プロセッサをそれぞれのメモリ、すなわちメモリ１６３２およびメモリ１６３４に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であってよい。

【0181】

プロセッサ１６７０、１６８０はそれぞれ、個々のＰ－Ｐインタフェース１６５２、１６５４を介し、ポイントツーポイントインタフェース回路１６７６、１６９４、１６８６、１６９８を用いて、チップセット１６９０と情報を交換することができる。チップセット１６９０は、任意選択的に、高性能インタフェース１６３９を介して、コプロセッサ１６３８と情報を交換してよい。一実施形態において、コプロセッサ１６３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等のような特定用途向けプロセッサである。

【0182】

共有キャッシュ（不図示）は、いずれかのプロセッサ内、または両方のプロセッサの外側に含まれ得るが、プロセッサが低電力モードになった場合に一方または両方のプロセッサのローカルキャッシュ情報が共有キャッシュに格納され得るように、Ｐ－Ｐ相互接続を介してプロセッサと接続されてもよい。

【0183】

チップセット１６９０は、インタフェース１６９６を介して第１のバス１６１６に結合されてよい。一実施形態において、第１のバス１６１６はペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバス若しくは別の第３世代入出力相互接続バス等のバスであってよいが、本開示の範囲はそのようには限定されない。

【0184】

図１６に示されるように、様々な入出力デバイス１６１４が、第１のバス１６１６を第２のバス１６２０に結合するバスブリッジ１６１８と共に、第１のバス１６１６に結合されてよい。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックスアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ、または任意の他のプロセッサなどの１または複数の追加のプロセッサ１６１５が第１のバス１６１６に結合される。一実施形態において、第２のバス１６２０はローピンカウント（ＬＰＣ）バスであってよい。一実施形態において、例えば、キーボードおよび／またはマウス１６２２、通信デバイス１６２７、ならびに命令／コードおよびデータ１６３０を含み得るディスクドライブまたは他の大容量ストレージデバイスなどのストレージユニット１６２８を含む、様々なデバイスが第２のバス１６２０に結合されてよい。さらに、オーディオ入出力１６２４は第２のバス１６２０に結合されてよい。他のアーキテクチャも可能であることに留意されたい。例えば、図１６のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装してよい。

【0185】

ここで図１７を参照すると、本開示の実施形態に係る第２のより具体的な例示的システム１７００のブロックダイアグラムが示される。図１６および図１７における同様の要素には、同様の参照符号が付され、図１６の特定の態様が、図１７の他の態様を曖昧にすることを回避するために、図１７から省略されている。

【0186】

図１７は、プロセッサ１６７０、１６８０が、それぞれ統合メモリならびに入出力制御ロジック（「ＣＬ」）１６７２および１６８２を含んでよいことを示す。従って、ＣＬ１６７２、１６８２は、統合メモリコントローラユニットおよび入出力制御ロジックを含む。図１７は、メモリ１６３２、１６３４のみがＣＬ１６７２、１６８２に結合されるのではなく、入出力デバイス１７１４もまた、制御ロジック１６７２、１６８２に結合されることを示す。レガシ入出力デバイス１７１５は、チップセット１６９０に結合される。

【0187】

ここで図１８を参照すると、本開示の実施形態に係るＳｏＣ１８００のブロックダイアグラムが示される。図１４の同様の要素には同様の参照符号が付されている。また、破線のボックスは、より高度なＳｏＣにおける任意選択的な特徴である。図１８において、相互接続ユニット１８０２が、１または複数のコア１４０２Ａ～１４０２Ｎおよび共有キャッシュユニット１４０６のセットを含むアプリケーションプロセッサ１８１０と、システムエージェントユニット１４１０と、バスコントローラユニット１４１６と、統合メモリコントローラユニット１４１４と、統合グラフィックスロジック、イメージプロセッサ、オーディオプロセッサ、およびビデオプロセッサを含み得るコプロセッサ１８２０のセットあるいは１または複数のコプロセッサ１８２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット１８３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット１８３２と、１または複数の外部ディスプレイに結合するためのディスプレイユニット１８４０とに結合される。一実施形態において、コプロセッサ１８２０は、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサまたは組み込みプロセッサ等の特定用途向けプロセッサを含む。

【0188】

本明細書に開示される（例えば、機構の）実施形態は、ハードウェア、ソフトウェア、ファームウェア、またはそのような実装アプローチの組み合わせで実装されてよい。本開示の実施形態は、少なくとも１つのプロセッサと、（揮発性メモリおよび不揮発性メモリおよび／またはストレージ要素を含む）ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスと、を備えるプログラマブルシステムで実行されるコンピュータプログラムまたはプログラムコードとして実装されてよい。

【0189】

図１６に示されたコード１６３０などのプログラムコードは、本明細書で説明された機能を実行し、出力情報を生成するために入力命令に適用されてよい。出力情報は、既知の様式で、１または複数の出力デバイスに適用されてよい。本出願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロプロセッサのようなプロセッサを有する、任意のシステムを含む。

【0190】

プログラムコードは、処理システムと通信すべく、高レベル手続き型プログラミング言語またはオブジェクト指向プログラミング言語で実装されてよい。プログラムコードは、所望に応じて、アセンブリ言語または機械言語で実装されてもよい。実際に、本明細書で説明される機構は、いかなる特定のプログラミング言語の範囲にも限定されない。いずれの場合でも、言語は、コンパイラ型言語またはインタプリタ型言語であってよい。

【0191】

少なくとも１つの実施形態の１つまたは複数の態様は、機械によって読み込まれた場合と、本明細書に説明される技術を実行させるためのロジックを機械に組み立てさせる、プロセッサ内の様々なロジックを表す機械可読媒体に格納された代表的な命令によって実装され得る。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に格納され、実際にロジックまたはプロセッサを製造する製造機械にロードするために様々な顧客または製造施設に供給されてもよい。

【0192】

そのような機械可読記憶媒体には、ハードディスク、フロッピーディスク、光ディスク、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ－ＲＷ）、および光磁気ディスクを含む任意の他のタイプのディスク、読み出し専用メモリ（ＲＯＭ）などの半導体デバイス、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）、磁気カードもしくは光学式カード、または電子命令を格納するのに適した任意の他のタイプの媒体などの記憶媒体を含む、機械またはデバイスによって製造または形成された物品の非一時的有形構成が含まれてもよいが、それらに限定されない。

【0193】

従って、本開示の実施形態は、命令を含む、または、本明細書で説明される構造、回路、装置、プロセッサおよび／若しくはシステムの複数の機能を定義するハードウェア記述言語（ＨＤＬ）のような設計データを含む、非一時的な有形の機械可読媒体をさらに含む。このような実施形態は、プログラム製品とも称され得る。
［（バイナリ変換、コード、モーフィング等を含む）エミュレーション］

【0194】

場合によっては、ソース命令セットからターゲット命令セットに命令を変換するために、命令コンバータが用いられてよい。例えば、命令コンバータは、命令を、コアによって処理される１または複数の他の命令に（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）変換し、モーフィングし、エミュレートし、または別の方法で変換し得る。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組み合わせで実装されてよい。命令コンバータは、プロセッサ上にあっても、プロセッサ外にあっても、または部分的にプロセッサ上で部分的にプロセッサ外にあってもよい。

【0195】

図１９は、本開示の複数の実施形態に係る、ソース命令セットのバイナリ命令をターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用を対比するブロックダイアグラムである。図示された実施形態において、命令コンバータは、ソフトウェア命令コンバータであるが、代替的に、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装されてよい。図１９は、高レベル言語１９０２のプログラムがｘ８６コンパイラ１９０４を用いてコンパイルされ、少なくとも１つのｘ８６命令セットコアを有するプロセッサ１９１６によってネイティブに実行され得るｘ８６バイナリコード１９０６を生成し得ることを示す。少なくとも１つのｘ８６命令セットコアを有するプロセッサ１９１６は、少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサと実質的に同じ結果を実現するために、（１）Ｉｎｔｅｌ（登録商標）ｘ８６命令セットコアの命令セットの大部分、または（２）少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサ上で動作することを目的としたオブジェクトコードバージョンのアプリケーションまたは他のソフトウェアを、互換的に実行する、または別の方法で処理することで、少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサと実質的に同じ機能を実行し得る任意のプロセッサを表す。ｘ８６コンパイラ１９０４は、追加のリンケージ処理があってもなくても、少なくとも１つのｘ８６命令セットコアを有するプロセッサ１９１６上で実行され得るｘ８６バイナリコード１９０６（例えば、オブジェクトコード）を生成するよう動作可能なコンパイラを表す。同様に、図１９は、高レベル言語１９０２のプログラムが、代替的な命令セットバイナリコード１９１０を生成する代替的な命令セットコンパイラ１９０８を使用してコンパイルされ得ることを示しており、当該代替的な命令セットバイナリコード１９１０は、少なくとも１つのｘ８６命令セットコアを有しないプロセッサ１９１４（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行する、および／または、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを持つプロセッサ）によってネイティブに実行されてよい。命令コンバータ１９１２は、ｘ８６バイナリコード１９０６を、ｘ８６命令セットコアを有さないプロセッサ１９１４によってネイティブに実行可能なコードに変換するために用いられる。この変換されたコードは、代替的な命令セットバイナリコード１９１０と同じである可能性は低い。なぜなら、これが実現できる命令コンバータを製造するのは難しいからである。しかし、変換されたコードは一般的なオペレーションを実現し、代替的な命令セットの命令で構成される。従って、命令コンバータ１９１２は、エミュレーション、シミュレーション、または任意の他の処理を通じて、ｘ８６命令セットプロセッサまたはコアを有さないプロセッサまたは他の電子デバイスがｘ８６バイナリコード１９０６を実行することを可能にするソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを表す。
［他の可能な特許請求の範囲］
以下の特許請求の範囲が可能である。
［項目１］
メモリおよびキャッシュラインを格納するキャッシュにアクセスするプロセッサコアと、
上記メモリから上記キャッシュへとキャッシュラインをプリフェッチするプリフェッチ回路であって、
シングルアクセスシグネチャのための上記キャッシュへのキャッシュラインアクセスおよびページを追跡し、
複数のページの各ページに対する上記キャッシュラインアクセスに対して、各ページに対する第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成し、
同一の空間ビットパターンを有する上記空間ビットパターンの各々に対する上記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成し、
上記複数のシングル空間ビットパターンの論理和演算を実行して、上記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成し、
上記複数のシングル空間ビットパターンの論理積演算を実行して、上記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成し、
上記シングルアクセスシグネチャに対するプリフェッチ要求を受信し、
閾値を超過していない場合に上記第１の変調ビットパターンを使用し、閾値を超過している場合に上記第２の変調ビットパターンを使用して、上記プリフェッチ要求に対するプリフェッチオペレーションを実行する、プリフェッチ回路と、
を備える、装置。
［項目２］
上記シングルアクセスシグネチャは、シングル命令ポインタ値である、
項目１に記載の装置。
［項目３］
上記プリフェッチ要求は、上記キャッシュのデータのミスを有する、
項目１に記載の装置。
［項目４］
上記閾値は、上記メモリの帯域幅利用率閾値である、
項目１に記載の装置。
［項目５］
上記プリフェッチ回路はさらに、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、上記第１の変調ビットパターンを更新する、
項目１に記載の装置。
［項目６］
上記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
項目５に記載の装置。
［項目７］
上記プリフェッチ回路はさらに、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する上記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する、
項目５に記載の装置。
［項目８］
上記プリフェッチ回路はさらに、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンの論理積演算の結果によって、上記第２の変調ビットパターンを更新する、
項目１に記載の装置。
［項目９］
プロセッサにより、キャッシュラインを格納するキャッシュにアクセスする段階と、
シングルアクセスシグネチャに対する上記キャッシュへのキャッシュラインアクセスおよびページを追跡する段階と、
複数のページの各ページに対する上記キャッシュラインアクセスに対して、各ページに対して第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成する段階と、
同一の空間ビットパターンを有する上記空間ビットパターンの各々に対する上記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成する段階と、
上記複数のシングル空間ビットパターンの論理和演算を実行して、上記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成する段階と、
上記複数のシングル空間ビットパターンの論理積演算を実行して、上記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成する段階と、
上記シングルアクセスシグネチャに対するプリフェッチ要求を受信する段階と、
閾値を超過していない場合に上記第１の変調ビットパターンを使用し、上記閾値を超過している場合に上記第２の変調ビットパターンを使用して、上記プリフェッチ要求に対するプリフェッチオペレーションを実行して、キャッシュラインをメモリから上記キャッシュへとプリフェッチする段階と、
を備える、方法。
［項目１０］
上記シングルアクセスシグネチャは、シングル命令ポインタ値である、
項目９に記載の方法。
［項目１１］
上記プリフェッチ要求は、上記キャッシュにおけるデータのミスを含む、
項目９に記載の方法。
［項目１２］
上記閾値を、上記メモリの帯域幅利用率閾値として設定する段階をさらに備える、
項目９に記載の方法。
［項目１３］
上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、上記第１の変調ビットパターンを更新する段階をさらに備える、
項目９に記載の方法。
［項目１４］
上記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
項目１３に記載の方法。
［項目１５］
上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する上記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに備える、
項目１３に記載の方法。
［項目１６］
上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに備える、
項目９に記載の方法。
［項目１７］
機械により実行された場合、上記機械に、
プロセッサにより、キャッシュラインを格納するキャッシュにアクセスする段階と、
シングルアクセスシグネチャに対する上記キャッシュへのキャッシュラインアクセスおよびページを追跡する段階と、
複数のページの各ページに対する上記キャッシュラインアクセスに対して、各ページの第１のキャッシュラインアクセスにシフトされる空間ビットパターンを生成する段階と、
同一の空間ビットパターンを有する上記空間ビットパターンの各々に対する上記シングルアクセスシグネチャに対するシングル空間ビットパターンを生成して、複数のシングル空間ビットパターンを形成する段階と、
上記複数のシングル空間ビットパターンの論理和演算を実行して、上記シングルアクセスシグネチャに対する第１の変調ビットパターンを生成する段階と、
上記複数のシングル空間ビットパターンの論理積演算を実行して、上記シングルアクセスシグネチャに対する第２の変調ビットパターンを生成する段階と、
上記シングルアクセスシグネチャに対するプリフェッチ要求を受信する段階と、
閾値を超過していない場合に上記第１の変調ビットパターンを使用し、上記閾値を超過している場合に上記第２の変調ビットパターンを使用して、上記プリフェッチ要求に対するプリフェッチオペレーションを実行して、キャッシュラインをメモリから上記キャッシュへとプリフェッチする段階と、
を有する方法を実行させるプログラムコードを格納する、
非一時的機械可読媒体。
［項目１８］
上記シングルアクセスシグネチャは、シングル命令ポインタ値である、
項目１７に記載の非一時的機械可読媒体。
［項目１９］
上記プリフェッチ要求は、前記キャッシュにおけるデータのミスを含む、
項目１７に記載の非一時的機械可読媒体。
［項目２０］
上記方法は、上記閾値を、上記メモリの帯域幅利用率閾値として設定する段階をさらに有する、
項目１７に記載の非一時的機械可読媒体。
［項目２１］
上記方法は、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理和演算の結果によって、上記第１の変調ビットパターンを更新する段階をさらに有する、
項目１７に記載の非一時的機械可読媒体。
［項目２２］
上記実際のプログラムアクセスビットパターンは、犠牲ページバッファエントリのためのものである、
項目２１に記載の非一時的機械可読媒体。
［項目２３］
上記方法は、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する上記実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに有する、
項目２１に記載の非一時的機械可読媒体。
［項目２４］
上記方法は、上記第１の変調ビットパターンと上記シングルアクセスシグネチャに対する実際のプログラムアクセスビットパターンとの論理積演算の結果によって、上記第２の変調ビットパターンを更新する段階をさらに有する、
項目１７に記載の非一時的機械可読媒体。

【図1】