特許7665912 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

特許7665912データ依存脆弱分岐の機会主義的再誘導のための命令セットアーキテクチャベース自動負荷追跡

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12A
12B
13A
13B
13C
13D
14
15A
15B
16A
16B
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-14

(45)【発行日】2025-04-22

(54)【発明の名称】データ依存脆弱分岐の機会主義的再誘導のための命令セットアーキテクチャベース自動負荷追跡

(51)【国際特許分類】

G06F 9/38 20180101AFI20250415BHJP

【ＦＩ】

G06F9/38 330A

G06F9/38 330D

【請求項の数】 21

【外国語出願】

(21)【出願番号】P 2020196087

(22)【出願日】2020-11-26

(65)【公開番号】P2021174513

(43)【公開日】2021-11-01

【審査請求日】2023-08-25

(31)【優先権主張番号】202041016867

(32)【優先日】2020-04-20

(33)【優先権主張国・地域又は機関】IN

(31)【優先権主張番号】16/914,338

(32)【優先日】2020-06-27

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591003943

【氏名又は名称】インテル・コーポレーション

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】サウラブグプタ

(72)【発明者】

【氏名】ニランジャンサウンダララジャン

(72)【発明者】

【氏名】ラガヴェンドラナタラジャン

(72)【発明者】

【氏名】スリーニバスサブラモニー

【審査官】田中幸雄

(56)【参考文献】

【文献】国際公開第２００８／０２９４５０（ＷＯ，Ａ１）

【文献】特開２００４－１４５４８５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／３８

(57)【特許請求の範囲】

【請求項1】

複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと前記複数のデコード済みの命令を実行するための実行回路とを有するパイプライン回路と、
分岐命令の予測経路を生成するための分岐予測器回路と、
ロード命令からの結果に依存する前記分岐命令について、前記パイプライン回路により受信された命令が前記ロード命令であるかどうかをチェックし、前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記デコーダでの前記分岐命令のデコードと前記実行回路での前記分岐命令の実行との間の前記ロード命令からの前記結果のライトバックをチェックし、前記予測経路が前記ロード命令からの前記結果に基づく経路とは異なる場合、前記パイプライン回路内の前記分岐命令を前記経路へ再誘導し、前記ロード命令からの前記結果に基づく前記経路についての前記分岐命令の実行を生じさせるための分岐再誘導回路と
を備え、
前記分岐再誘導回路は、前記結果の最終格納デスティネーションとは別個であるロード値テーブル内の前記結果の前記ライトバックをチェックするプロセッサ。

【請求項2】

前記分岐再誘導回路は、前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記ロード命令の前記結果の前記ロード値テーブル内のエントリのインデックス値を割り当て、前記インデックス値が前記分岐命令のフィールドとして前記パイプライン回路へ送信されるようにする、請求項１に記載のプロセッサ。

【請求項3】

前記分岐再誘導回路は、前記パイプライン回路により受信された前記命令が前記ロード命令である場合、ロード依存分岐テーブル内の前記分岐命令のエントリを前記インデックス値で更新する、請求項２に記載のプロセッサ。

【請求項4】

前記分岐再誘導回路は、前記ロード命令からの前記結果にも依存する第２の分岐命令のインデックス値を割り当てる、請求項２に記載のプロセッサ。

【請求項5】

前記分岐命令の前記再誘導は、前記分岐命令の実行を前記実行回路に割り当てる前記パイプライン回路の割り当てステージにおいて生じる、請求項１に記載のプロセッサ。

【請求項6】

前記分岐命令の前記再誘導は、前記パイプライン回路から前記割り当てステージまでの前記予測経路についての前記分岐命令のデータのフラッシュを含む、請求項５に記載のプロセッサ。

【請求項7】

１または複数のオペレーションを実行して、前記予測経路が前記ロード命令からの前記結果に基づく前記経路とは異なるかどうかを決定するための、前記パイプライン回路の前記実行回路を含む実行ステージとは別個の回路をさらに備える、請求項１から６のいずれか一項に記載のプロセッサ。

【請求項8】

プロセッサの分岐予測器回路で分岐命令の予測経路を生成する段階と、
前記プロセッサの分岐再誘導回路が、ロード命令からの結果に依存する前記分岐命令について、複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと前記複数のデコード済みの命令を実行するための実行回路とを含む前記プロセッサのパイプライン回路により受信された命令が前記ロード命令であるかどうかをチェックする段階と、
前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記分岐再誘導回路が前記デコーダでの前記分岐命令のデコードと前記実行回路での前記分岐命令の実行との間の前記ロード命令からの前記結果のライトバックをチェックする段階と、
前記予測経路が前記ロード命令からの前記結果に基づく経路とは異なる場合、前記分岐再誘導回路が前記パイプライン回路内の前記分岐命令を前記経路へ再誘導する段階と、
前記予測経路が前記ロード命令からの前記結果に基づく前記経路とは異なる場合、前記実行回路が前記ロード命令からの前記結果に基づく前記経路についての前記分岐命令を実行する段階と
を備え、
前記ライトバックをチェックする前記段階は、前記結果の最終格納デスティネーションとは別個であるロード値テーブル内の前記結果の前記ライトバックをチェックする段階を有する方法。

【請求項9】

前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記分岐再誘導回路が前記ロード命令の前記結果の前記ロード値テーブル内のエントリのインデックス値を割り当てる段階と、
前記インデックス値が前記分岐命令のフィールドとして前記パイプライン回路へ送信されるようにする段階と
をさらに備える、請求項８に記載の方法。

【請求項10】

前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記分岐再誘導回路がロード依存分岐テーブル内の前記分岐命令のエントリを前記インデックス値で更新する段階をさらに備える、請求項９に記載の方法。

【請求項11】

前記分岐再誘導回路が、前記ロード命令からの前記結果にも依存する第２の分岐命令のインデックス値を割り当てる段階をさらに備える、請求項９に記載の方法。

【請求項12】

前記分岐命令の前記再誘導は、前記分岐命令の実行を前記実行回路に割り当てる前記パイプライン回路の割り当てステージにおいて生じる、請求項８に記載の方法。

【請求項13】

前記分岐命令の前記再誘導は、前記パイプライン回路から前記割り当てステージまでの前記予測経路についての前記分岐命令のデータのフラッシュを含む、請求項１２に記載の方法。

【請求項14】

前記パイプライン回路の前記実行回路を含む実行ステージとは別個の回路で、１または複数のオペレーションを実行して、前記予測経路が前記ロード命令からの前記結果に基づく前記経路とは異なるかどうかを決定する段階をさらに備える、請求項８から１３のいずれか一項に記載の方法。

【請求項15】

分岐命令およびロード命令を格納するためのメモリと、
前記メモリに結合されたプロセッサコアと
を備え、
前記プロセッサコアは、
複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと前記複数のデコード済みの命令を実行するための実行回路とを有するパイプライン回路と、
前記分岐命令の予測経路を生成するための分岐予測器回路と、
前記ロード命令からの結果に依存する前記分岐命令について、前記パイプライン回路により受信された命令が前記ロード命令であるかどうかをチェックし、前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記デコーダでの前記分岐命令のデコードと前記実行回路での前記分岐命令の実行との間の前記ロード命令からの前記結果のライトバックをチェックし、前記予測経路が前記ロード命令からの前記結果に基づく経路とは異なる場合、前記パイプライン回路内の前記分岐命令を前記経路へ再誘導し、前記ロード命令からの前記結果に基づく前記経路についての前記分岐命令の実行を生じさせるための分岐再誘導回路と
を有し、
前記分岐再誘導回路は、前記結果の最終格納デスティネーションとは別個であるロード値テーブル内の前記結果の前記ライトバックをチェックする、
システム。

【請求項16】

前記分岐再誘導回路は、前記パイプライン回路により受信された前記命令が前記ロード命令である場合、前記ロード命令の前記結果の前記ロード値テーブル内のエントリのインデックス値を割り当て、前記インデックス値が前記分岐命令のフィールドとして前記パイプライン回路へ送信されるようにする、請求項１５に記載のシステム。

【請求項17】

前記分岐再誘導回路は、前記パイプライン回路により受信された前記命令が前記ロード命令である場合、ロード依存分岐テーブル内の前記分岐命令のエントリを前記インデックス値で更新する、請求項１６に記載のシステム。

【請求項18】

前記分岐再誘導回路は、前記ロード命令からの前記結果にも依存する第２の分岐命令のインデックス値を割り当てる、請求項１６に記載のシステム。

【請求項19】

前記分岐命令の前記再誘導は、前記分岐命令の実行を前記実行回路に割り当てる前記パイプライン回路の割り当てステージにおいて生じる、請求項１５に記載のシステム。

【請求項20】

前記分岐命令の前記再誘導は、前記パイプライン回路から前記割り当てステージまでの前記予測経路についての前記分岐命令のデータのフラッシュを含む、請求項１９に記載のシステム。

【請求項21】

前記プロセッサコアは、１または複数のオペレーションを実行して、前記予測経路が前記ロード命令からの前記結果に基づく前記経路とは異なるかどうかを決定するための、前記パイプライン回路の前記実行回路を含む実行ステージとは別個の回路をさらに有する、請求項１５から２０のいずれか一項に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本特許出願は、２０２０年４月２０日に出願された、「データ依存脆弱分岐の機会主義的オーバーライドのためのＩＳＡベース自動負荷追跡」と題するインド仮特許出願第２０２０４１０１６８６７号の利益を主張する。当該出願は、参照により、その全体が本明細書に組み込まれる。

【0002】

本開示は、概して電子機器に関し、本開示の実施形態は、より具体的には、分岐命令の結果がロード命令の結果に依存する分岐命令についての予測をオーバーライドするためのハードウェアに関する。

【背景技術】

【0003】

プロセッサまたはプロセッサのセットは、例えば命令セットアーキテクチャ（ＩＳＡ）といった命令セットからの命令を実行する。命令セットは、プログラミングに関連するコンピュータアーキテクチャの一部であり、概して、ネイティブデータタイプ、命令、レジスタアーキテクチャ、アドレス指定モード、メモリアーキテクチャ、割り込みおよび例外処理ならびに外部入力および出力（Ｉ／Ｏ）を含む。本明細書における命令という用語は、マクロ命令、例えば、実行のためにプロセッサに提供される命令、または、マイクロ命令、例えば、プロセッサのデコーダがマクロ命令をデコードした結果として得られる命令を指し得ることに留意されたい。

【図面の簡単な説明】

【0004】

本開示は、添付図面の図における限定ではなく例として示される。図内の同様の参照符号は、同様の要素を示す。

【0005】

【図1】本開示の実施形態による、少なくとも１つの分岐予測器回路と少なくとも１つの分岐再誘導回路とを含むハードウェアプロセッサを示す。

【0006】

【図2】本開示の実施形態による、パイプラインプロセッサ内の分岐予測器回路と分岐再誘導回路とを含むコンピュータシステムを示す。

【0007】

【図3】本開示の実施形態による、ロード依存分岐テーブルエントリの例示的なフォーマットを示す。

【0008】

【図4】本開示の実施形態による、１つの依存分岐命令の命令セットアーキテクチャ（ＩＳＡ）拡張の例示的なフォーマットを示す。

【0009】

【図5】本開示の実施形態による、２つの依存分岐命令の命令セットアーキテクチャ（ＩＳＡ）拡張の例示的なフォーマットを示す。

【0010】

【図6】本開示の実施形態による、分岐再誘導のためのロード依存分岐テーブル（ＬＤＢＴ）のポピュレートについてのフロー図を示す。

【0011】

【図7】本開示の実施形態による、アーキテクチャレジスタファイル（ＡＲＦ）拡張の例示的なフォーマットを示す。

【0012】

【図8】本開示の実施形態による、分岐再誘導が有効化される場合にロード命令を受信することによりトリガされるフロー図を示す。

【0013】

【図9】本開示の実施形態による、分岐再誘導が有効化される場合に分岐命令を受信することによりトリガされるフロー図を示す。

【0014】

【図10】本開示の実施形態による、分岐再誘導が有効化される場合にロード命令のライトバックによりトリガされるフロー図を示す。

【0015】

【図11】本開示の実施形態による分岐再誘導のフロー図を示す。

【0016】

【図12A】本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＡ命令テンプレートを示すブロック図である。

【0017】

【図12B】本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＢ命令テンプレートを示すブロック図である。

【0018】

【図13A】本開示の実施形態による、図１２Ａおよび図１２Ｂにおける汎用ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0019】

【図13B】本開示の一実施形態による、フルオペコードフィールドを構成する図１３Ａにおける特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0020】

【図13C】本開示の一実施形態による、レジスタインデックスフィールドを構成する図１３Ａにおける特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0021】

【図13D】本開示の一実施形態による、拡張オペレーションフィールド１２５０を構成する図１３Ａにおける特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

【0022】

【図14】本開示の一実施形態によるレジスタアーキテクチャのブロック図である。

【0023】

【図15A】本開示の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

【0024】

【図15B】本開示の実施形態による、プロセッサに含まれるインオーダアーキテクチャコアの例示的な実施形態および例示的なレジスタリネーミング、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

【0025】

【図16A】本開示の実施形態による、オンダイ相互接続ネットワークへの接続およびレベル２（Ｌ２）キャッシュのローカルサブセットと共に示す、シングルプロセッサコアのブロック図である。

【0026】

【図16B】本開示の実施形態による、図１６Ａにおけるプロセッサコアの一部の拡大図である。

【0027】

【図17】本開示の実施形態による、１つよりも多くのコアを有してよく、統合メモリコントローラを有してよく、かつ、統合グラフィックスを有してよいプロセッサのブロック図である。

【0028】

【図18】本開示の一実施形態によるシステムのブロック図である。

【0029】

【図19】本開示の実施形態によるより具体的な例示的なシステムのブロック図である。

【0030】

【図20】本開示の実施形態による第２のより具体的な例示的なシステムのブロック図を示す。

【0031】

【図21】本開示の実施形態によるシステムオンチップ（ＳｏＣ）のブロック図を示す。

【0032】

【図22】本開示の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令へ変換するためのソフトウェア命令コンバータの使用を対比したブロック図である。

【発明を実施するための形態】

【0033】

以下の説明では、多数の具体的な詳細を記載する。しかしながら、本開示の実施形態は、これらの具体的な詳細がなくても実施され得ることが理解される。他の事例では、この説明の理解を曖昧にしないよう、周知の回路、構造および技術は、詳細に示されていない。

【0034】

本明細書における、「一実施形態」、「実施形態」、「例示的な実施形態」等への言及は、説明される実施形態が、特定の特徴、構造または特性を含んでよいが、全ての実施形態がそのような特定の特徴、構造または特性を必ずしも含まなくてよいことを示す。さらに、そのような文言は、必ずしも同じ実施形態を指すわけではない。さらに、特定の特徴、構造または特性をある実施形態に関連して説明する場合、明示的に説明するか否かにかかわらず、他の実施形態に関連してそのような特徴、構造または特性に影響を及ぼすことは当業者の知識の範囲内であると考えられる。

【0035】

（例えば、ハードウェア）プロセッサ（例えば、１または複数のコアを有する）は、命令（例えば、命令のスレッド）を実行して、例えば演算、ロジックまたは他の機能を実行するために、データを処理し得る。例えば、ソフトウェアは、オペレーションを要求してよく、ハードウェアプロセッサ（例えば、その１または複数のコア）は、要求に応答してオペレーションを実行してよい。特定の実施形態において、実行されるオペレーション（例えば、スレッド）は、１または複数の分岐オペレーション（例えば、分岐命令）を含む。

【0036】

特定の実施形態において、例えば分岐オペレーション（例えば、命令）は、条件無し（例えば、命令が実行される度に分岐が選択される）または条件付き（例えば、分岐について選択される方向が条件に依存する）のいずれかである。条件付き分岐（例えば、条件付きジャンプ）に続いて実行される命令は、分岐が依存する条件が解決されるまで確実には既知でない。ここで、条件が解決されるまで待機するのではなく、プロセッサの分岐予測器（例えば、分岐予測器回路）が、分岐予測を実行して（例えば、投機的に実行して）、分岐が選択されるかまたは選択されないかを予測してよく、および／または、（例えば、選択されると予測された場合）分岐についてのターゲット命令（例えば、ターゲットアドレス）を予測する。一実施形態において、分岐が選択されると予測された場合、プロセッサは、分岐の選択された方向（例えば、経路）についての命令、例えば、予測分岐ターゲットアドレスにおいて見つかった命令をフェッチして投機的に実行する。分岐予測に続いて実行される命令は、予測が正確であるかどうかをプロセッサがまだ決定していない特定の実施形態において投機的である。特定の実施形態において、プロセッサは、（例えば、実行、リタイアメントおよび／またはライトバックユニット／回路内の）パイプライン回路のバックエンドにおいて分岐命令を解決する。一実施形態において、分岐命令が選択されないことがプロセッサにより（例えば、バックエンドにより）決定された場合、選択された分岐命令の後のパイプライン回路内に現在存在している全ての命令（および、例えば、それらのデータ）がフラッシュされる（例えば、破棄される）。例えば、分岐ターゲット（例えば、分岐ターゲットの命令ポインタ）が（例えば、分岐）レジスタに格納される場合、特定の分岐命令が、間接分岐命令と称される。

【0037】

特定の（例えば、スーパースカラ）プロセッサ（例えば、プロセッサパイプラインのアウトオブオーダ（ＯｏＯ）幅および深さを増したもの）において、分岐予測の精度は、分岐予測ミスから失われる作業を最小化する際に重要である。特定の実施形態において、分岐予測器（例えば、分岐予測器回路）は、分岐の過去の挙動から学習して、次の（例えば、到来する）分岐を予測する。しかしながら、データ依存分岐の場合、エントロピの値が高いと、履歴ベース分岐予測器からの不十分な予測精度をもたらし得る。

【0038】

本明細書における実施形態は、分岐の結果が（例えば、１つだけの）ロード命令の結果に依存する場合、分岐再誘導を利用して、分岐についての予測ミスのペナルティを低減する。一実施形態において、そのようなロード命令は、フィーダロード命令と称される。本明細書における特定の実施形態は、パイプラインプロセッサ（例えば、コア）内の分岐命令に対する（例えば、フィーダ）ロード命令の進行を追跡する。本明細書における特定の実施形態は、依存型分岐の情報を（例えば、パイプラインによる受信時に、例えば、デコード時に）伝達するための命令セットアーキテクチャ（ＩＳＡ）の拡張を提供する。分岐がパイプラインの特定のステージ（例えば、パイプラインのアウトオブオーダ部分）に入る前にロードオペレーションの結果（例えば、ロード値）が利用可能である場合、分岐予測を算出するために、実際の結果が用いられる。特定の実施形態において、分岐予測器により与えられる元の予測（例えば、予測経路）がこのロード値ベースの予測（例えば、ロード値ベースの経路）と一致しない場合、パイプライン（例えば、パイプラインのフロントエンド）は、（例えば、正確な）経路へ再誘導され、パイプラインの早期の再誘導による予測ミスの回避または予測ミスペナルティの低減のいずれかをもたらす。本明細書における実施形態は、データ依存脆弱分岐の機会主義的再誘導のためのＩＳＡベース自動負荷追跡を利用する。

【0039】

本明細書における特定の実施形態は、（ｉ）ＩＳＡ拡張およびコンパイラヒントを含むか、または（ｉｉ）マイクロアーキテクチャ内で完全に行われる１または複数のマイクロアーキテクチャオプションを利用する。本明細書における特定の実施形態は、実際の（かつ、予測されていない）ロード値に基づいて分岐予測をオーバーライドすべくプロセッサのパイプライン内のロードを追跡するための新規のハードウェアに関する。例えば、（例えば、ベースライン）分岐予測器がそのような（例えば、単一の）ロードデータ依存分岐についての誤った予測を提供した場合、この早期のオーバーライドにより、（例えば、パイプラインのフラッシュに起因する）分岐予測ミスのペナルティが低減する。

【0040】

特定の実施形態は、命令セット（ＩＳＡ）拡張を用いて、例えば、ＩＳＡ拡張を用いることなく、またはデータ値ベースの予測を得るためにロード値を生成する格納命令を追跡することなく、純粋にハードウェア内のデータ依存分岐を検出して、プログラムの挙動をハードウェアへ伝達する。これらの実施形態のうちの特定のものは、格納命令ポインタ（ＩＰ）がロード命令ポインタ（ＩＰ）と強く相関している場合、よく機能し得る。しかしながら、格納ロード関係の予測に何らかの誤りがあると、不正確な分岐予測をもたらし得る。さらに、格納値を転送するためのロードＩＰの正確なダイナミックインスタンスの決定も課題である。これらの問題を回避するために、本明細書における特定の実施形態は、実際のロード値を用いることで、例えば、プログラムのコンパイラ分析を用いることなく、および／または予測を算出できるようロード命令および分岐命令の実行に遅延を導入することなく、予測値の代わりに分岐方向（例えば、複数の経路のうちの１つの経路）を評価する。本明細書における特定の実施形態は、分岐命令とロード命令との間の遅延がプログラムコード内に既に存在していることに依存する（例えば、プログラムコード内で連続していないか、またはそうでなければ、十分遠く離れている）プログラムの場合を対象にしている。一実施形態において、コンパイラが、ロード命令および／または分岐命令の一部としてのこの情報をエンコードし、次に、ロードの準備が整った場合、当該データを用い得る。機会主義的に、本明細書における特定の実施形態は、ロードが完了したこと（例えば、データがロードバッファにおいて受信されていること）をパイプライン内で識別し、当該値をその依存分岐に提供し得る。（例えば、コンパイラがそれらをそのようにマークしない）特定の実施形態において、プロセッサハードウェア（例えば、分岐再誘導回路）は、ロードが完了したことをパイプライン内で識別し、パイプラインフラッシュのペナルティを機会主義的に低減する。本明細書における特定の実施形態は、解決手段の必要な一部としてのコンパイラのサポートおよび／またはＩＳＡの変更（拡張）を必要としない。本明細書における特定の実施形態は、本明細書において述べるようにＩＳＡの変更を利用できる。

【0041】

ここで図面に戻ると、図１は、本開示の実施形態による、少なくとも１つの分岐予測器回路１０４（１）－１０４（Ｎ）と少なくとも１つの（例えば、データロード依存）分岐再誘導回路１０２、１０２（１）－１０２（Ｎ）とを含むハードウェアプロセッサ１００を示す。複数の分岐予測器回路が示されているが、単一の分岐予測器回路が、コア１０６（１）－１０６（Ｎ）についての分岐予測のために利用され得る。一実施形態において、分岐予測は、独自のローカル分岐予測器１０４（１）－１０４（Ｎ）を含む各コアで分配される。各ローカル分岐予測器１０４（１）－１０４（Ｎ）は、データ、例えば、プロセッサ１００により実行される分岐命令の履歴を共有し得る。

【0042】

一実施形態において、Ｎは、２またはそれより大きい任意の整数である。ハードウェアプロセッサ１００は、システムメモリ１１４に結合されて、例えば、コンピューティングシステム１０１を形成するものとして示されている。ハードウェアプロセッサ１００のコア（例えば、各コア１０６（１）－１０６（Ｎ））は、例えばコアのパイプライン回路として、命令フェッチ回路、デコーダ実行回路またはリタイアメント回路（または、本明細書において述べる他のユニットもしくは回路）のいずれかを含み得る。

【0043】

示されるハードウェアプロセッサ１００は、レジスタ１０８を含む。レジスタ１０８は、例えばメモリ１１４内のデータのアクセス（例えば、ロードまたは格納）に対してさらにまたは代替的に、（例えば、ロジックまたは演算）オペレーションを実行するための１または複数の汎用（例えば、データ）レジスタ１１０を含み得る。レジスタ１０８は、１または複数のアーキテクチャレジスタファイル１１２を含み得る。一実施形態において、プロセッサ１００（例えば、その分岐予測器）は、命令、例えば分岐命令の前の実行に基づいて、分岐履歴データ（例えば、コンテキストデータ）を１または複数のレジスタ１０８へポピュレートする。別の実施形態において、分岐履歴は、システムメモリ１１４へ保存され得る。分岐履歴は、分岐命令のグローバル履歴（例えば、分岐命令に到達するよう、現在実行しているプログラムコードを通じて一連の分岐により選択される経路の履歴を含む）を分岐命令のアドレス識別子（例えば、分岐命令に関連する命令ポインタ値またはプログラムカウンタ値）と共に含み得る。特定の実施形態において、グローバル分岐（例えば、経路および／または方向）履歴は、方向情報を含む。方向情報は、例えば分岐命令の将来の事例についての予測を提供するために分岐命令の解決された方向がどれくらいの頻度で選択されたり選択されなかったりしているかを示す。特定の実施形態において、グローバル分岐（例えば、経路および／または方向）履歴は、経路情報を含む。経路情報は、特定の予測についての分岐命令に到達するための経路（例えば、実行された命令）、例えば、特定の予測についての分岐命令に到達するための実行された命令の適切なサブセットを示す。

【0044】

システムメモリ１１４は、以下のソフトウェア、つまり、オペレーティングシステム（ＯＳ）コード１１６またはアプリケーションコード１１８のうちの１つまたは複数（例えば、それらの任意の組み合わせ）を含み（例えば、格納し）得る。

【0045】

本明細書における図は全てのデータ通信接続を示していないことがあることに留意されたい。当業者であれば、これが図における特定の詳細を曖昧にするものではないことを理解するであろう。図における両方向矢印が、双方向通信を必要としないことがあること、例えば、（例えば、当該コンポーネントまたは当該デバイスとの間の）一方向通信を示し得ることに留意されたい。通信経路の任意のまたは全ての組み合わせが、本明細書における特定の実施形態において利用され得る。一実施形態において、プロセッサ１００は、単一のコアを有する。特定の実施形態において、コンピューティングシステム１０１および／またはプロセッサ１００は、例えば本明細書における任意の図を参照して後述するフィーチャおよび／またはコンポーネントのうちの１つまたは複数を含む。

【0046】

一例として、分岐予測器は、例えば、（例えば、条件付き）分岐命令（例えば、コード内の「ＩＦ」オペレーション）の実行予定インスタンスである、複数の経路のうちのどの経路が選択されるかについての予測を生成することにより、パイプラインプロセッサの機能を向上させる。

【0047】

プロセッサ（例えば、マイクロプロセッサ）は、性能を高めるために、パイプラインの使用を採用し得る。パイプラインプロセッサの特定の実施形態内で、命令の異なるステージを実行するための機能回路（例えば、フェッチ回路、デコード回路、実行回路、リタイアメント回路等）は、複数の命令に対して同時に動作してある並列度を実現することにより、非パイプラインプロセッサに対する性能の向上をもたらす。一実施形態において、命令フェッチユニット（例えば、回路）、命令デコーダ（例えば、デコードユニットまたはデコード回路）および命令実行ユニット（例えば、回路）が同時に動作する。特定の実施形態において、１クロックサイクル中に、命令実行ユニットは、第１の命令を実行し、一方、命令デコーダは、第２の命令をデコードし、フェッチユニットは、第３の命令をフェッチする。特定の実施形態において、次のクロックサイクル中に、実行ユニットは、新しくデコードされた命令を実行し、一方、命令デコーダは、新しくフェッチされた命令をデコードし、フェッチユニットは、さらに別の命令をフェッチする。この方式では、フェッチユニットまたはデコーダのいずれも、新しい命令を処理する前に、命令実行ユニットが最後の命令を実行するのを待機する必要がない。特定の実施形態において（例えば、ライトバックステージ中に）、実行された命令（例えば、分岐命令の後に１つの経路について行われた命令）の結果は、予測が正確だった場合には維持され（例えば、可視化され）、予測が不正確だった場合には破棄される（例えば、効果のロールバック）。

【0048】

本明細書における実施形態は、分岐再誘導回路（例えば、コア１０６（１）用の分岐再誘導回路１０２（１）およびコア１０６（Ｎ）用の分岐再誘導回路１０２（Ｎ））を利用して、不正確な予測を再誘導し、例えば、場合によっては分岐命令がコアのパイプラインへ入力された後だが（例えば、アウトオブオーダ）ステージへ送信される前に再誘導する。

【0049】

図２は、本開示の実施形態による、パイプラインプロセッサ２１０（例えば、パイプラインコア）内の分岐予測器回路２２０と分岐再誘導回路２２２とを含むコンピュータシステム２００を示す。示されるコンピュータシステム２００は、ネットワークデバイス２０１、入力／出力（Ｉ／Ｏ）回路２０３（例えば、キーボード）、ディスプレイ２０５およびシステムバス（例えば、相互接続）２０７をさらに含む。

【0050】

一実施形態において、図１におけるプロセッサ１００の各コアは、Ｎが任意の正の整数である場合のプロセッサコア２１０の事例である。示される実施形態において、単一のプロセッサの各々（例えば、各コア２１０）は、分岐予測器回路２２０および／または分岐再誘導回路２２２の事例を含む。分岐予測器回路２２０は、分岐再誘導回路２２２を内部に含み得る。分岐予測器回路２２０は、分岐ターゲットバッファ（ＢＴＢ）、リターンスタックバッファ（ＲＳＢ）、履歴テーブル、レジスタおよび／または他のデータストレージ構造を含み得る。これらのうちの１つまたは複数が単一の分岐予測器によってのみ用いられてよく、または、それらが維持されてよく、および／または複数の分岐予測器のうちの任意の分岐予測器によって用いられてよい。

【0051】

特定の実施形態において、分岐ターゲットバッファは、複数回実行された複数の分岐命令（例えば、コードのセクションの分岐命令）の各々に対応する予測ターゲット命令を（例えば、分岐予測器アレイに）格納する。特定の実施形態において、リターンスタックバッファは、（例えば、自らの戻りアドレスをスタックにプッシュする）任意のＣＡＬＬ命令の戻りアドレスを（例えば、後入れ先出し（ＬＩＦＯ）のスタックデータ構造で）格納する。特定の実施形態において、履歴テーブルは、プロセッサ２１０により実行されている複数のコード分岐の各々の履歴を格納する。特定の実施形態において、レジスタは、分岐グローバル経路履歴を格納するためのレジスタ、および／または分岐グローバル方向履歴を格納するためのレジスタを含む。

【0052】

一実施形態において、プロセッサ２１０は、分岐予測ステージ２２０と、フェッチステージ２３０と、デコードステージ２４０と、割り当てステージ２５０と、実行ステージ２６０と、ライトバック（例えば、リタイアメント）ステージ２７０とを含むパイプラインプロセッサコアである。プロセッサコア２１０内に示されるパイプラインステージの各々は、異なるレベルの回路を含み得る。代替的に、パイプラインステージは、より多くのステージへとサブ分割され得る。さらに、例えばプリフェッチステージ、命令ポインタ生成（ＩＰ生成）ステージ等の追加のパイプラインステージも含まれ得る。

【0053】

一実施形態において、パイプラインプロセッサ２１０は、プロセッサへ入力される次の命令を識別する命令ポインタ（ＩＰ）を（例えば、接続（例えば、ワイヤ）２２１を介して）受信する。例えば、ＩＰ生成ステージは、コア（例えば、論理コア）によりフェッチおよび実行されるプログラムシーケンス内の次の命令を識別する命令ポインタ（例えば、メモリアドレス）を選択し得る。一実施形態において、パイプラインプロセッサ２１０（例えば、ＩＰ生成ステージ）は、直近でフェッチされた命令のメモリアドレスを各クロックサイクルで予め定められた量Ｘ（例えば、１）だけインクリメントする。

【0054】

しかしながら、例外の場合、または分岐命令が選択された場合、パイプラインプロセッサ２１０（例えば、ＩＰ生成ステージ）は、プログラム順序において次の連続的な命令ではない命令を識別する命令ポインタを選択し得る。特定の実施形態において、パイプラインプロセッサ２１０（例えば、分岐予測ステージ２２０）は、例えば分岐ペナルティを減らすために条件付き分岐命令が選択されるかどうかを予測する。

【0055】

図２に示されるフェッチステージ２３０は、命令フェッチ回路２３４を含む。命令フェッチ回路２３４は、パイプラインプロセッサ内の上流から（例えば、分岐予測ステージ２２０から）命令ポインタを受け入れ、メモリ２０２または命令キャッシュ２３２からのそれぞれの命令をフェッチする。デコードステージ２４０は、デコーダ２４２と共にデコードオペレーションを実行して、命令をデコード済みの命令へと（例えば、マイクロオペレーションへと）デコードする。図２に示される割り当てステージ２５０は、割り当て回路２５２と共に割り当てオペレーションを実行し、例えば、レジスタのリネーミングおよびディスパッチ（例えば、スケジューリング）を実行する。一実施形態において、ＩＳＡは、特定の（例えば、より多くの）数の物理レジスタにマッピングされる特定の数の論理レジスタ（例えば、図２におけるレジスタ２０８のＡＲＦまたは図１におけるＡＲＦ１１２）をサポートする。例えば、ＡＲＦの各レジスタは、レジスタ２０８内の特定の物理レジスタファイル（ＰＲＦ）を指し示す。一実施形態において、レジスタの論理識別子（例えば、「名前」）は、例えばレジスタの物理識別子（例えば、「名前」）にマッピングされ、これらのマッピングは更新され得る。一実施形態において、命令ディスパッチは、実行リソース、リオーダバッファ（ＲＯＢ）内のエントリ、発行キュー、ストアバッファ２７４、ロードバッファ２７６等を含む、命令が用いる異なるリソースを予約することを含む。特定の実施形態において、リソースが利用可能ではない場合、対応する命令は、必要とされるリソースをいくつかの他の命令がリリースするまで、ストールされる。図２に示される実行ステージ２６０は、デコード済みの命令により指定されるとおりに、オペレーションを実行回路２６２（例えば、アクセスレジスタ２０８、メモリ２０２、ストアバッファ２７４および／またはロードバッファ）と共に実行する。図２に示されるライトバックステージは、実行された命令をライトバック回路２７２と共にリタイアさせる。例えば、実行された命令（例えば、条件付き分岐の後に選択される１つの方向についての命令）の結果は、分岐予測が正確だった場合には維持され（例えば、可視化され）、分岐予測が不正確だった場合には破棄される（例えば、効果のロールバック）。実行回路２６２による格納要求により、データがストアバッファ２７４に格納されてよく、例えば、次に、ストアバッファ２７４により、当該データが、最終格納デスティネーション、例えば、レジスタ２０８、メモリ２０２および／またはデータキャッシュ２６４内のデスティネーションに格納される。実行回路２６２によるロード要求により、データがロードバッファ２７６へロードされてよく、例えば、次に、ロードバッファ２７６により、当該データが、その要求されたストレージデスティネーション、例えば、レジスタ２０８、メモリ２０２および／またはデータキャッシュ２６４内のデスティネーションにロードされる。代替的な実施形態において、上述のパイプラインステージは、追加のオペレーションも含み得る。

【0056】

分岐予測器回路２２０（例えば、分岐予測器ユニット（ＢＰＵ））は、パイプライン（例えば、フェッチステージ２３０）を提供し得る。命令は、分岐命令についての予測済みの選択された方向に対応する。特定の実施形態において、分岐予測器回路２２０は、１または複数のエントリを有するストレージを含むか、または当該ストレージにアクセスする。各エントリは、分岐命令を識別するデータを格納することが可能であり、対応するデータは、予測方向（例えば、選択された経路および／または選択されなかった経路）を識別する。特定の実施形態において、分岐予測器回路２２０は、分岐命令の分岐ターゲットを予測する。

【0057】

一実施形態において、分岐予測器回路２２０に格納される分岐命令は、コンパイラにより、実行されるコードから予め選択される。特定の実施形態において、図２のメモリ２０２に格納されるものとして示されるコンパイラコード２０４は、実行された場合に高レベル言語で書き込まれたプログラムのソースコードを実行可能な機械コードへ変換するコードシーケンスを含む。一実施形態において、コンパイラコード２０４は、（例えば、選択された、または選択されなかった）方向、および／または分岐命令についてのターゲット命令（例えば、選択される可能性がある分岐命令（例えば、予め選択される分岐命令）の経路）を予測する追加の分岐予測器コード２０６をさらに含む。その後、分岐予測器回路２２０（例えば、そのＢＴＢ）は、方向予測で、および／または分岐命令についての予測ターゲット命令で更新される。

【0058】

示されるコア（例えば、その分岐予測器２２０）は、１または複数のレジスタ（例えば、レジスタ２０８）へのアクセスを含む。特定の実施形態において、レジスタ２０８は、汎用レジスタおよび／または分岐予測履歴レジスタのうちの１つまたは複数を含む。

【0059】

特定の実施形態において、分岐再誘導回路２２２は、分岐の結果が１または複数のモニタリングされたロード命令の結果に依存する場合に分岐についての予測ミスのペナルティを低減するために含まれる。一実施形態において、そのようなロード命令は、フィーダロード命令と称される。本明細書における特定の実施形態は、例えば本明細書において述べるように、パイプラインプロセッサ（例えば、コア）内の分岐命令に対する（例えば、フィーダ）ロード命令の進行を追跡する。特定の実施形態において、分岐再誘導回路は、例えば、分岐命令および／または結果が分岐命令に依存するロード命令を示すために、ロード依存分岐テーブル２２４をポピュレートおよび／または更新する。識別（例えば、検出）および／またはそのような命令のマークの例を後述する。

【0060】

特定の実施形態において、分岐再誘導は、以下の構成要素、つまり、（１）ロード（例えば、命令）データ依存（例えば、命令）分岐を検出するためのメカニズム、（２）データ依存分岐の結果を制御する値を供給する学習済みのロード命令（例えば、そのＩＰ）を格納するためのロード依存分岐テーブル２２４、および（３）（ロード値テーブル２２６Ｂ内のロード値テーブル（ＬＶＴ）の全部またはサブセットのコピーを含み得る）ロード値テーブル（ＬＶＴ）２２６Ａのうちの１つまたは複数の使用を含む。一実施形態において、ロード値テーブル２２６Ｂは、デコーダ２４２と割り当て回路２５２との間に位置する。別の実施形態において、ロード値テーブル２２６Ｂは、再誘導のチェックがモニタリングされたロードのライトバックで実行されるステージ内に位置する。特定の実施形態において、（例えば、ロード命令のためのフィールドまたは他のインジケーションにより示される）ロード命令は、ライトバックの準備が整った場合（例えば、ロード値がロードバッファ２７６に受信された場合）、ロード値をロード値テーブル（ＬＶＴ）（例えば、２２６Ａおよび／または２２６Ｂ）に提供する。特定の実施形態において、分岐が特定のステージに入る前に（例えば、限定されるものではないが、例えば予約ステーション、リオーダバッファ等のパイプラインのＯｏＯ部分の前に）ロード値が利用可能である場合、ロード値に基づいて再誘導が行われる。特定の実施形態において、ロード命令からの結果（例えば、ロード値）は、最終格納デスティネーションとは別個の（例えば、かつ、ライトバックステージにおけるロードバッファとは別個の）ロード値テーブルから読み取られる。

【0061】

特定の実施形態において、分岐再誘導回路２２２は、本明細書において開示される可能な再誘導についてモニタリングされる分岐命令と共に、それぞれのエントリをロード依存分岐テーブル２２４にポピュレートする。一実施形態において、分岐再誘導回路２２２は、モニタリングされる分岐命令を識別するエントリを、例えば、当該分岐命令についての命令ポインタ（ＩＰ）をエントリに含めることにより、および／またはそのフィーダロード命令についての命令ポインタ（ＩＰ）をエントリに含めることにより、ロード依存分岐テーブル２２４に追加する。一実施形態において、ロード依存分岐テーブルエントリのフォーマットは、図３におけるフォーマット３００である。

【0062】

特定の実施形態において、フィーダロード命令依存性を有する分岐命令が、コンパイラにより識別される。特定の実施形態において、フィーダロード命令依存性を有する分岐命令が、レジスタ（例えば、ＡＲＦ）を分析することにより識別される。

【0063】

一例として、ロード命令が、プロセッサ２１０の（例えば、パイプライン）に入力され（例えば、分岐予測器回路および／または命令フェッチステージ２３０に入力され）、（例えば、当該ロード命令のＩＰが）ロード依存分岐テーブル２２４内でチェックされ、モニタリングされた分岐命令に対応しているかどうかが決定される。そうでない場合、特定の実施形態において、プロセッサ２１０のフローは、これらのステージを通して続く。「はい」である場合、特定の実施形態において、分岐再誘導回路２２２は、その結果物（例えば、結果）をモニタリングするために、ロード命令をマークする。一実施形態において、分岐再誘導回路２２２は、エントリをロード値テーブル（例えば、２２６Ａおよび／または２２６Ｂ）に割り当て、受信時に（例えば、ロードバッファ２７６内での受信時に）、ロード命令の結果物がロード値テーブル内のエントリに格納されるようにする。この例では、分岐命令が、（例えば、投機的に）プロセッサ２１０の（例えば、パイプライン）に入力され（例えば、分岐予測器回路に入力され）、（例えば、当該分岐命令のＩＰが）ロード依存分岐テーブル２２４内でチェックされ、対応するモニタリングされたロード命令を有しているかどうかが決定される。そうでない場合、特定の実施形態において、プロセッサ２１０のフローは、（例えば、投機的実行に従って）これらのステージを通して続く。「はい」である場合、特定の実施形態において、分岐再誘導回路２２２は、（例えば、接続（例えば、ワイヤ）２２３を介して）１回または複数回のチェックを行わせて、ロード命令の結果物（例えば、結果）の準備が現在整っているかどうかを確かめる（例えば、当該分岐命令についてのパイプライン処理の最初のステージ中に準備が整っていない場合）。一実施形態において、ロードデータがロードバッファ２７６に受信されることにより、ロードデータは、（例えば、特定のロード値テーブル（ＬＶＴ）インデックスへのロードＩＰのマッピングに基づいて）（例えば、ロード命令のライトバックステージ２７０から）ロード値テーブル内の対応するエントリへ送信される。例えば、ロード値は、接続（例えば、ワイヤ２２５）を介してロードバッファ２７６からＬＶＴ２２６Ａへ、および／または、接続（例えば、ワイヤ２２７）を介してロードバッファ２７６からＬＶＴ２２６Ｂへ送信される。一実施形態において、分岐再誘導回路２２２は、（例えば、そのモニタリングされたフィーダロード結果がロード値テーブルに受信されると）ロード命令からの結果の（例えば、デコーダ２４２での分岐命令のデコードと実行回路２６２での分岐命令の実行との間の）比較を行わせ、予測経路がロード命令からの結果に基づく（例えば、実際の）経路とは異なる場合、分岐命令の実行を当該経路へ再誘導し、および／または、ロード命令からの結果に基づく経路についての分岐命令を（例えば、分岐命令の当該インスタンスの実行をオーバーライドすることなく）実行させる。特定の実施形態において、ロード命令は、その結果について用いられるロード値テーブル（ＬＶＴ）エントリの識別子（例えば、インデックス値）を含む。例えば、当該識別子は、ロード依存分岐テーブル２２４内のエントリに格納される。特定の実施形態において、分岐命令は、そのフィーダロードの結果について用いられるロード値テーブル（ＬＶＴ）エントリに識別子（例えば、インデックス値）を含む。例えば、当該識別子は、パイプラインを通じて当該分岐命令と共に搬送される（例えば、可能な再誘導がチェックされる最後のポイント（例えば、ステージ）まで搬送される）。特定の実施形態において、例えば、実行ステージ２６０の前に、割り当てステージ２５０が実行リソースを割り当てる前に、実行のスケジューリングの前に、可能な再誘導が（例えば、１回または複数回）チェックされる。特定の実施形態において、再誘導についての最終の（例えば、唯一の）チェックが、（例えば、分岐命令の割り当てまたは実行スケジューリングの前であるが）フェッチステージ２３０またはデコードステージ２４０の後に実行される。上記は例に過ぎず、パイプライン内の他のポイント、例えば、実行ステージ２６０またはライトバックステージ２７０の前のポイントが選択され得ることを理解されたい。特定の実施形態において、回路（例えば、演算ロジックユニット（ＡＬＵ）２２８）は、予測経路がロード命令からの結果に基づく経路とは異なる場合を決定するためのオペレーション（例えば、「よりも大きい」比較演算、「よりも少ない」比較演算、「に等しい」比較演算等）を実行して、例えば、実行ステージ２６０のリソースの使用を回避する。分岐再誘導回路２２２は、例えば、予測経路がロード命令からの結果に基づく経路とは異なる場合、誤って予測された経路についての任意の（例えば、投機的な）データのフラッシュを行わせ得る。分岐再誘導回路２２２は、ロード命令からの結果に基づく実際の経路についての分岐命令の実行を（例えば、分岐命令を再誘導すると共に結果をパイプラインの開始ステージ（例えば、フロントエンド）へ戻すことを介して）行わせ得る。図３は、本開示の実施形態による、ロード依存分岐テーブルエントリの例示的なフォーマット３００を示す。示されるフォーマット３００は、（例えば、フィーダロード命令により生じる誤って予測された経路を再誘導するために）モニタリングされている分岐命令のＩＰ３０２と、この分岐命令についての予測ミスの（任意選択的な）回数３０４と、（任意選択的な）信頼性スコア３０６（例えば、３０４および３０６は、予測のための置換スキームにおいて用いられる）と、フィーダロードＩＰ３０８（および、例えば、ロード値と（例えば、一定の）値との比較のためのオペレーションおよび値の識別などの比較情報）と、ロード命令の結果が（例えば、一時的に）格納される対応するロード値テーブル（ＬＶＴ）の要素を識別するためのロード値テーブル（ＬＶＴ）インデックス３１０とを（例えば、分岐再誘導回路により）格納するための１または複数のフィールドを含む。例えば、分岐命令が「ＩＦ」（ａ＞１００）の擬似コードに対応している場合、フィーダロード命令は、「ａ」の値を（例えば、メモリから）ロードし、比較フィールドは、「よりも大きい」比較というインジケーションおよび「１００」という値を格納して、（例えば、ロード値テーブル（ＬＶＴ）２２６Ａまたは２２６Ｂから供給される）「ａ」という値と「１００」との比較を（例えば、ＡＬＵ２２８に）行わせ、ロード命令からの結果「ａ」に基づく、分岐命令についての実際の経路を決定し得る。

【0064】

次に、ロードデータ依存分岐を検出するための例示的なスキームを説明する。以下の擬似コードの例について、以下で言及する（ｄｏ＿ｗｏｒｋは、任意のオペレーションであり得る）。

【数1】

【0065】

この例は、ロードデータ依存分岐Ｂ１およびＢ２を含む。これらの両方ともＬ１（「ａ」）単一のロード値を用いて結果を算出し、ロードデータ依存分岐Ｂ３は、２つのロードからのデータを用いて結果を算出する。分岐Ｂ３は、２つのロード値を用いて分岐結果を算出すると共に、単一の分岐命令について複数のロードを追跡するという複雑さを回避するために本明細書における特定の実施形態によってはサポートされないが、他の実施形態が、本明細書における本開示に従って、単一の分岐命令について複数のロードを追跡することを理解すべきである。

【0066】

上述のように、ロードデータ依存分岐の識別（例えば、かつ、したがって、ロード依存分岐テーブル２２４のポピュレーション）は、（ｉ）コンパイラおよび命令セットアーキテクチャ（ＩＳＡ）拡張または（ｉｉ）ハードウェアベース実装を介したものであり得る。
［コンパイラ／ＩＳＡ拡張を介した例示的な実装］

【0067】

特定の実施形態において、（例えば、データフローグラフを用いた）コンパイラと、本明細書において述べるＩＳＡ拡張とによってロード依存分岐検出が実行され、ハードウェア内でのロードデータ依存分岐の特別な処理が可能になる。一実施形態において、ロード命令がマークされ、分岐ＩＰ（例えば、プログラムカウンタ（ＰＣ））（または分岐ＩＰ自体）に対するオフセットが、拡張ビットとしてロード命令に追加される（例えば、１または複数の他のフィールドを含み、例えば、限定されはしないが、図１２Ａから図１３Ｄにおいて後述するものを含む）。

【0068】

本明細書における特定の実施形態は、ＩＳＡ拡張を用いて（例えば、かつ、提供して）、上述のＬ１－＞Ｂ１依存およびＬ１－＞Ｂ２依存を示す（例えば、格納する）。上述の擬似コードの例では、本明細書における特定の実施形態は、コンパイラ（例えば、データフローグラフ）を用いて、分岐Ｂ１およびＢ２がロードＬ１の値（例えば、他のオペランドは即値である）に直接依存していることを検出する（例えば、決定する）。図４は、本開示の実施形態による、１つの依存分岐命令の命令セットアーキテクチャ（ＩＳＡ）拡張の例示的なフォーマット４００を示す。示されるフォーマット４００は、（任意選択的な）ロードオペレーション拡張４０２（例えば、分岐命令が１つのロードのみに依存することを示す）と、ロード命令により供給される分岐命令を識別するための分岐ＩＰ４０４と、例えば、ロードデータの結果（例えば、上述の［Ｂ１］ｉｆ（ａ＞１００）の例における「よりも大きい」）に対して実行されるオペレーションを示すための１または複数のオペレーション４０６、４０８とを（例えば、コンパイラにより）格納するための１または複数のフィールドを含む。第１のオペレーションインジケーション４０６は、「よりも大きい」またはよりも少ないであり得る。第２のオペレーションインジケーション４０８は、「に等しい」であり得る。上述の例において、（例えば、「２」で除算された場合の残りを見つけるために）Ｂ１はロード値と「１００」との直接の比較を用い、Ｂ２はモジュロオペレーション（％）を用いる。特定の実施形態において、この情報は、フィールド４０６（例えば、および４０８）としてＩＳＡロード命令拡張に追加され、ロード値から分岐結果を取得するための単純な（例えば、図２におけるＡＬＵ２２８を介した）（例えば、フロントエンドにおける）算出が可能になる。

【0069】

フォーマット４００のＩＳＡ拡張からのデータは、ロード依存分岐テーブル（ＬＤＢＴ）エントリを、例えばコンパイラにより生成される出力（例えば、機械コード）から当該命令を読み取った時にポピュレートするために用いられ得る。

【0070】

上述の擬似コードの例では、本明細書における特定の実施形態は、コンパイラ（例えば、データフローグラフ）を用いて、分岐Ｂ３が２つのロード値を用いて分岐結果を算出していることを検出する（例えば、決定する）。図５は、本開示の実施形態による、２つの依存分岐命令の命令セットアーキテクチャ（ＩＳＡ）拡張の例示的なフォーマット５００を示す。示されるフォーマット５００は、（任意選択的な）ロードオペレーション拡張５０２（例えば、２つの分岐命令が１つのロードのみに依存していることを示す）と、ロード命令により供給される第１の分岐命令を識別するための第１の分岐ＩＰ５０４と、１または複数のオペレーション５０６、５０８（例えば、第１の分岐命令についてのロードデータの結果（例えば、上述の［Ｂ１］ｉｆ（ａ＞１００）の例における「よりも大きい」）に対して実行されるオペレーションを示すために）と、ロード命令により供給される第２の分岐命令を識別するための第２の分岐ＩＰ５１０と、１または複数のオペレーション５１２、５１４（例えば、第２の分岐命令についてのロードデータの結果（例えば、上述の［Ｂ２］ｉｆ（ａ％２＝＝０）の例における「モジュロ」および「に等しい」）に対して実行されるオペレーションを示すために）とを（例えば、コンパイラにより）格納するための１または複数のフィールドを含む。特定の実施形態において、このオペレーション情報は、フィールド５０６および５１２（例えば、および５０８および／または５１４）としてＩＳＡロード命令拡張に追加され、ロード値から分岐結果を取得するための単純な（例えば、図２におけるＡＬＵ２２８を介した）（例えば、フロントエンドにおける）算出が可能になる。

【0071】

フォーマット５００のＩＳＡ拡張からのデータは、ロード依存分岐テーブル（ＬＤＢＴ）エントリ（または複数のエントリ）を、例えばコンパイラにより生成される出力（例えば、機械コード）から当該命令を読み取った時にポピュレートするために用いられ得る。

【0072】

図６は、本開示の実施形態による、分岐再誘導のためのロード依存分岐テーブル（ＬＤＢＴ）の（例えば、フィーダロード命令の検出時（デコード中など）の）ポピュレートについてのフロー図６００を示す。フロー６００は、命令のロードタイプを検出し（例えば、ロード命令および／またはそのＩＰをデコードし）（６０２）、当該ロード命令が分岐再誘導についてのＩＳＡ拡張（例えば、ロード依存分岐テーブル（ＬＤＢＴ）エントリをポピュレートするために用いられるＩＳＡ拡張）を含むかどうかをチェックし（６０４）、「いいえ」である場合、この特定のフローのあらゆるさらなる分岐再誘導動作を終了し（６０８）、「はい」である場合、ＩＳＡ拡張からのデータ、例えば、（例えば、図３におけるフィールド３０８内の）ロードＩＰ、（例えば、図３におけるフィールド３０２内の）分岐ＩＰ、（例えば、図３におけるフィールド３０８内の）比較（例えば、オペレーション）情報等とのロード依存分岐テーブルのエントリのポピュレーションを生じさせ（６０６）、次に、この特定のフローのあらゆるさらなる分岐再誘導動作を終了する（６０８）ことを含む。これにより、ロード値テーブル（ＬＶＴ）エントリと、（例えば、図３におけるフィールド３１０内の）ロード依存分岐テーブル（ＬＤＢＴ）エントリに挿入されるそのそれぞれのインデックスとの割り当ても行わせ得る。

【0073】

上述の例は、ＩＳＡ拡張の例示的な設計と、図２におけるフィーダロード命令の検出（例えば、デコード）時に取られる動作についてのフロー図とを示す。特定の実施形態において、ＩＳＡ拡張は、（ｉ）ロード値に対して実行されたオペレーションをエンコードして分岐結果を算出し、（ｉｉ）ロード命令が複数の分岐を供給する場合、複数の分岐オフセットをキャプチャする。そのような異なるロードオペコード拡張（ＬＤＯＰＥＸＴ１４０２およびＬＤＯＰＥＸＴ２５０２）の有効化が用いられ得る。

【0074】

特定の実施形態において、この情報の１または複数のフィールドが拡張としてロード命令に追加されるので、ロード命令がパイプラインにより受信された（例えば、デコードされた）場合、プロセッサ（例えば、分岐再誘導回路）は、例えば拡張ビットからのオペレーション情報（例えば、図３におけるＬＢＴエントリ３０８内のＣＭＰ情報と称される）と共に、ロードＩＰおよびその依存分岐をＬＢＴに追加する。
［ハードウェアベース実装を介した例示的な実装］

【0075】

特定の実施形態において、ロード依存分岐検出がハードウェア内で（例えば、コンパイラまたは追加されたＩＳＡ拡張に依存することなく）実行され、ハードウェア内でのロードデータ依存分岐の特別な処理が可能になる。特定の実施形態において、ロード依存分岐（例えば、上述の擬似コードの例におけるＬ１－＞Ｂ１およびＬ１－＞Ｂ２ロードデータ依存）を検出するために、純粋にハードウェアベースのメカニズムが用いられる。ハードウェア内のロードデータ依存分岐を検出するための一実施形態は、シャドウアーキテクチャレジスタファイル（ＡＲＦ）またはＡＲＦエントリの拡張を通じてデータフローを追跡することを伴う。一実施形態において、ハードウェア（例えば、分岐再誘導回路）は、１つのロード値のみにより制御される分岐を検出する。例えば、複数のロードが（例えば、レジスタ）値を供給していることが追跡中に分かった場合、ハードウェアは、（例えば、エントリを無効化することにより）当該依存チェーンの追跡を停止する。同様に、複数のレジスタオペレーションも、依存チェーンから除外され得る（例えば、かつ、即値オペランドで実行されるオペレーションのみが許可される）。

【0076】

一実施形態において、例えば、追跡されるロードと分岐命令との間のデータ値に対してオペレーションが実行されるので、ハードウェア（例えば、分岐再誘導回路）は、ロード値から分岐結果を算出する。特定の実施形態において、ひとたびロード依存分岐が検出されると、そのフィーダロードＩＰおよびオペレーションシーケンスがロード依存分岐テーブル（ＬＤＢＴ）テーブルに記録される。図７は、本開示の実施形態による、アーキテクチャレジスタファイル（ＡＲＦ）拡張の例示的なフォーマット７００を示す。示されるフォーマット７００は、レジスタ７０２の識別子と、レジスタにアクセスしているロード７０４（例えば、当該ロード命令のＩＰ）と、１または複数のオペレーション７０６（０），７０６（１），…，７０６（Ｎ）（例えば、当該オペレーションを示すために）とを（例えば、分岐再誘導回路により）格納するための１または複数のフィールドを含む。一実施形態において、１または複数のオペレーション７０６（０）－７０６（Ｎ）は、ロード値がいつ利用可能であるか、例えば、ＡＬＵ（２２８）がどのオペレーションを実行して（例えば、デフォルト）分岐予測をオーバーライドするための分岐方向を算出するかを示す。例えば、１または複数のオペレーション７０６（０）－７０６（Ｎ）は、ロードと分岐との間の依存命令チェーンである。例えば、ロードがＯＰ０（Ｒ１＋５－＞Ｒ２）、ＯＰ１（Ｒ２×７－＞Ｒ３）のオペレーションによりＲ１を生成した場合において、Ｒ３＞２０のときは、ジャンプする。

【0077】

本明細書において開示されるパイプラインを通じた（例えば、ＬＤＢＴおよびＬＶＴを介した）ロード（例えば、およびそのロード値テーブル（ＬＶＴ）インデックス）の追跡は、上述のロード依存分岐を検出する方法の両方のカテゴリに適用可能である。図８から図１１は、分岐再誘導のために用いられ得る様々なフロー図を説明している。フローについてのオペレーション（または本明細書において説明される他の処理またはそれらの変形および／または組み合わせいくつかまたは全ては、実行可能命令で構成される１または複数のコンピュータシステムの制御下で実行されてよく、ハードウェアまたはその組み合わせにより１または複数のプロセッサ上で集合的に実行されるコード（例えば、実行可能命令、１または複数のコンピュータプログラムまたは１または複数のアプリケーション）として実装される。コードは、例えば、１または複数のプロセッサにより実行可能な命令を含むコンピュータプログラムの形式で、コンピュータ可読記憶媒体に格納され得る。コンピュータ可読記憶媒体は、非一時的なものである。いくつかの実施形態において、これらのオペレーションのうちの１つまたは複数（または全て）は、他の図の分岐再誘導回路により実行される。

【0078】

図８は、本開示の実施形態による、分岐再誘導が有効化される場合にロード命令を受信（例えば、フェッチ）することによりトリガされるフロー図８００を示す。示されるフロー８００は、命令のロードタイプを検出すること（例えば、ロード命令および／またはそのＩＰをデコードすること）（８０２）と、ロード命令（例えば、ＩＰ）がロード依存分岐テーブル（ＬＤＢＴ）内のエントリに存在するかどうかをチェックすること（８０４）と、「いいえ」である場合、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（８０８）と、「はい」である場合、新しいロード値テーブル（ＬＶＴ）エントリを割り当てることにより、当該ロード値テーブル（ＬＶＴ））エントリの識別子（例えば、インデックス）がＬＤＢＴテーブル内の対応するエントリ内に（例えば、図３におけるフィールド３１０に）（例えば、各ロードイタレーションにより、対応するＬＤＢＴエントリ内で新しいＬＶＴインデックスが用いられるように）格納されるようにすること（８０６）と、次に、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（８０８）とを含む。

【0079】

図９は、本開示の実施形態による、分岐再誘導が有効化される場合に分岐命令を受信（例えば、フェッチ）することによりトリガされるフロー図９００を示す。示されるフロー９００は、命令の分岐タイプを検出すること（例えば、分岐命令および／またはそのＩＰをデコードすること、または、プロセッサのパイプライン内の予測経路を選択した分岐命令を検出すること）（９０２）と、当該分岐命令（例えば、ＩＰ）がロード依存分岐テーブル（ＬＤＢＴ）内のエントリに（例えば、図３におけるフィールド３０２に）存在するかどうかをチェックすること（９０４）と、「いいえ」である場合、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（９１６）と、「はい」である場合、ロード依存分岐テーブル（ＬＤＢＴ）内のエントリ内のロード値テーブル（ＬＶＴ）インデックスにより識別されるフィーダデータについてロード値テーブル（ＬＶＴ）内でルックアップを実行すること（９０６）と、次に、ＬＶＴエントリが更新されている（例えば、現在のロードデータを有している）かどうかをチェックすること（９０８）と、「いいえ」である場合、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（９１６）と、「はい」である場合、ロード命令からのデータ（例えば、現在のロードデータ）に基づく分岐経路を実行すること（９１０）と、次に、データに基づく分岐経路が、予測分岐経路と一致しているかどうかをチェックすること（９１２）と、そうでない場合、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（９１６）と、「はい」である場合、再誘導インジケーションおよび／またはフラッシュインジケーションを（例えば、パイプラインのフェッチステージへ）送信することにより、データ（例えば、現在のロードデータ）に基づく経路についての（例えば、正確な）分岐命令を実行させること（例えば、かつ、予測に基づく（例えば、不正確な）経路についての分岐命令の実行をキャンセルすること）（９１４）と、次に、この特定のフローのあらゆるさらなる分岐再誘導動作を（例えば、ロードデータを現在は古くなっているものとしてマークすることにより）終了すること（９１６）とを含む。

【0080】

図１０は、本開示の実施形態による、分岐再誘導が有効化される場合にロード命令のライトバックによりトリガされるフロー図１０００を示す。示されるフロー１０００は、命令のロードタイプのライトバックを検出すること（１００２）と、当該ロード命令（例えば、ＩＰ）がロード依存分岐テーブル（ＬＤＢＴ）内のエントリに存在する（例えば、当該ロードＩＰのＬＤＢＴエントリが有効なＬＶＴインデックスを含む）かどうかをチェックすること（１００４）と、「いいえ」である場合、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（１０１０）と、「はい」である場合、ロード命令のライトバックからの結果データを（例えば、ＬＶＴインデックスと共に）ＬＶＴ（または複数のＬＶＴ）へ送信すること（１００６）と、当該ＬＶＴエントリを結果データで更新すること（１００８）と、次に、この特定のフローのあらゆるさらなる分岐再誘導動作を終了すること（１０１０）とを含む。一実施形態において、（例えば、図８における８０６）およびその後にＬＶＴインデックスがロード命令に割り当てられ、ロードがライトバックを行っている場合、（例えば、有効な）ＬＶＴインデックスを有するロード命令のみが、（例えば、図１０における１００６において）データ値をＬＶＴへ送信する。

【0081】

図１１は、本開示の実施形態による分岐再誘導についてのフロー図１１００を示す。示されるフロー１１００は、プロセッサの分岐予測器回路で分岐命令についての予測経路を生成すること（１１０２）と、プロセッサの分岐再誘導回路が、ロード命令からの結果に依存する分岐命令について、命令をデコード済みの命令へとデコードするためのデコーダとデコード済みの命令を実行するための実行回路とを備えるプロセッサのパイプライン回路により受信された命令がロード命令であるかどうかをチェックすること（１１０４）と、パイプライン回路により受信された命令がロード命令である場合、分岐再誘導回路がデコーダでの分岐命令のデコードと実行回路での分岐命令の実行との間のロード命令からの結果のライトバックをチェックすること（１１０６）と、予測経路がロード命令からの結果に基づく経路とは異なる場合、分岐再誘導回路がパイプライン回路（例えば、パイプライン回路のフロントエンド）内の分岐命令をある経路へ再誘導すること（１１０８）と、予測経路がロード命令からの結果に基づく実際の経路とは異なる場合、（任意選択で）実行回路がロード命令からの結果に基づく実際の経路についての分岐命令を実行すること（１１１０）（例えば、分岐命令は、パイプライン回路の下へ続き、パイプライン回路のバックエンド内の実行回路において実行される）とを含む。

【0082】

特定の実施形態において、命令がパイプライン（例えば、パイプラインのフロントエンド）に入った場合、そのＩＰがＬＤＢＴ内のロードＩＰに対して一致しているかがチェックされ、一致があるときは、ロード命令は、ＬＶＴインデックスでマークされる。ＬＶＴインデックスは、ラウンドロビン方式で、または利用可能性に基づいて選択され得る。特定の実施形態において、割り当てられたＬＶＴインデックスも、対応するエントリ内のＬＤＢＴに格納される。特定の実施形態において、ロード命令がメモリパイプラインからの（例えば、かつ、ロードバッファへの）ロード値を得た場合、当該値は、ＬＶＴテーブルのＬＶＴインデックススロットにおいて（例えば、フロントエンド内で）更新される。

【0083】

特定の実施形態において、分岐命令フェッチ時に、分岐ＩＰがＬＢＴ内で検索され、ヒットがある場合、ＬＶＴインデックスは、例えば当該テーブルから読み取られ、次に、ＬＶＴは、ロード値についてＬＶＴインデックスにおいてルックアップされる。特定の実施形態において、ロード命令がＬＶＴに値をライトバックした場合、ロード値および分岐比較条件に基づく算出により、例えば予想分岐結果が生成され、この結果が、分岐予測器が予測したものとは異なるときは、再誘導が行われ、フロントエンド（例えば、図１５Ｂにおけるフロントエンドユニット１５３０）が再誘導される。したがって、特定の実施形態において、再誘導が、実際のロードデータ値を有する分岐を解決する。本明細書における特定の実施形態は、パイプライン（例えば、パイプラインのＯｏＯセクション）内での分岐の実行を排除しないが、この精度が高いことに起因して、フロントエンドの後半部分内での再誘導が可能になる。これによりカバレッジが増加する。なぜなら、ロードおよび分岐がプログラムフローに（例えば、わずかに）近いか、または、例えばアウトオブオーダ効果またはキャッシュミスに起因して、ロードのライトバックが（例えば、少し）遅延した場合でも、再誘導が可能だからである。例えば、分岐予測ミスのペナルティ（例えば、時間の長さ）（例えば、時間再誘導におけるＢＰポイントおよび／または時間再誘導における割り当てポイント）対フロントエンドでの再誘導のペナルティが前者よりも著しく低い場合、この後者の再誘導は、分岐の実行よりも前にフロントエンドでの再誘導を行うことにより、予測ミスのペナルティを低減する。本明細書における特定の実施形態は、ロード値ベース予測（例えば、ロード値に基づくのでより正確であることが知られている）での（例えば、デフォルト）分岐予測のオーバーライドに重点を置いている。本明細書における特定の実施形態は、例えばパイプライン（例えば、パイプラインのバックエンド）内での分岐の実行を排除しない。なぜなら、これは正確さのために必要とされるからである。例えば、ストレージに保存するために、分岐ＩＰまたはロードＩＰを一致させるよう、より少ない数のタグビットがＬＤＢＴ内で用いられ得ることにより、エイリアシングヒットおよび偽ビットがもたらされ得る。それらの実施形態のうちの特定のものは、ヒットがあるので、予測のオーバーライドを依然として実行する。例えば、当該オーバーライドは、エイリアシングがＬＤＢＴ内で許可されるいくつかの実装において正確ではないことがある。

【0084】

特定の実施形態において、分岐がパイプライン（例えば、パイプラインのＯｏＯセクション）の特定のステージに入る前に、ロード値が利用可能であるかどうか、および、分岐結果が再誘導について算出され得るかどうかを確かめるために、ＬＶＴは、（例えば、再び）ルックアップされ得る。より速いルックアップを可能にするために、複数のＬＶＴが（例えば、一方がフロントエンドで、他方が割り当てステージの直前で）維持され得る。特定の実施形態において、ＬＶＴインデックスは、パイプラインを通じて、例えば最終チェックポイント（例えば、上述の例における割り当てステージ）まで、分岐命令と共に送信される（例えば、搬送される）。特定の実施形態において、割り当てステージ（例えば、図２におけるＬＶＴ２２６Ｂ）において維持されるＬＶＴは、オーバーライド結果のみを維持するという点で、最小である。特定の実施形態において、対応するＬＶＴエントリがロードのライトバック時に更新されている場合、オーバーライド結果は、算出され、このＬＶＴへ送信され得る。設計上の選択として、（例えば、図２におけるＡＬＵ２２８による）算出は、分岐予測時に、またはロード値が利用可能になると速やかに、ジャストインタイムで行われ得る。特定の実施形態において、ＬＶＴを用いて、当該結果が算出され、ＬＤＢＴからＬＶＴへ送信されることで、例えば、算出回路（例えば、図２におけるＡＬＵ２２８）の複製オーバーヘッドが回避される。

【0085】

上記で用いられ得る例示的なアーキテクチャ、システム等を以下で詳述する。

【0086】

開示される技術のうちの少なくともいくつかの実施形態は、以下の例に照らして説明できる。
［例１］
複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを有するパイプライン回路と、
分岐命令の予測経路を生成するための分岐予測器回路と、
ロード命令からの結果に依存する上記分岐命令について、上記パイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックし、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックし、上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記パイプライン回路内の上記分岐命令を上記経路へ再誘導し、上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令の実行を生じさせるための分岐再誘導回路と
を備えるプロセッサ。
［例２］
上記分岐再誘導回路は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする、例１に記載のプロセッサ。
［例３］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当て、上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする、例２に記載のプロセッサ。
［例４］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、ロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する、例３に記載のプロセッサ。
［例５］
上記分岐再誘導回路は、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる、例３に記載のプロセッサ。
［例６］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、例１に記載のプロセッサ。
［例７］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、例６に記載のプロセッサ。
［例８］
１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定するための、上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路をさらに備える、例１に記載のプロセッサ。
［例９］
プロセッサの分岐予測器回路で分岐命令の予測経路を生成する段階と、
上記プロセッサの分岐再誘導回路が、ロード命令からの結果に依存する上記分岐命令について、複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを含む上記プロセッサのパイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックする段階と、
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路が上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックする段階と、
上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記分岐再誘導回路が上記パイプライン回路内の上記分岐命令を上記経路へ再誘導する段階と、
上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なる場合、上記実行回路が上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令を実行する段階と
を備える方法。
［例１０］
上記ライトバックをチェックする上記段階は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする段階を有する、例９に記載の方法。
［例１１］
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路が上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当てる段階と、
上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする段階と
をさらに備える、例１０に記載の方法。
［例１２］
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路がロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する段階をさらに備える、例１１に記載の方法。
［例１３］
上記分岐再誘導回路が、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる段階をさらに備える、例１１に記載の方法。
［例１４］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、例９に記載の方法。
［例１５］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、例１４に記載の方法。
［例１６］
上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路で、１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定する段階をさらに備える、例９に記載の方法。
［例１７］
機械により実行された場合、
プロセッサの分岐予測器回路で分岐命令の予測経路を生成する段階と、
上記プロセッサの分岐再誘導回路が、ロード命令からの結果に依存する上記分岐命令について、複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを含む上記プロセッサのパイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックする段階と、
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路が上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックする段階と、
上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記分岐再誘導回路が上記パイプライン回路内の上記分岐命令を上記経路へ再誘導する段階と、
上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なる場合、上記実行回路が上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令を実行する段階と
を備える方法
を上記機械に実行させるコードを格納した非一時的機械可読媒体。
［例１８］
上記ライトバックをチェックする上記段階は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする段階を有する、例１７に記載の非一時的機械可読媒体。
［例１９］
上記方法は、
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路が上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当てる段階と、
上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする段階と
をさらに備える、
例１８に記載の非一時的機械可読媒体。
［例２０］
上記方法は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路がロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する段階をさらに備える、例１９に記載の非一時的機械可読媒体。
［例２１］
上記方法は、上記分岐再誘導回路が、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる段階をさらに備える、例１９に記載の非一時的機械可読媒体。
［例２２］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、例１７に記載の非一時的機械可読媒体。
［例２３］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、例２２に記載の非一時的機械可読媒体。
［例２４］
上記方法は、上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路で、１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定する段階をさらに備える、例１７に記載の非一時的機械可読媒体。
［例２５］
分岐命令およびロード命令を格納するためのメモリと、
上記メモリに結合されたプロセッサコアと
を備え、
上記プロセッサコアは、
複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを有するパイプライン回路と、
上記分岐命令の予測経路を生成するための分岐予測器回路と、
上記ロード命令からの結果に依存する上記分岐命令について、上記パイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックし、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックし、上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記パイプライン回路内の上記分岐命令を上記経路へ再誘導し、上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令の実行を生じさせるための分岐再誘導回路と
を有する、
システム。
［例２６］
上記分岐再誘導回路は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする、例２５に記載のシステム。
［例２７］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当て、上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする、例２６に記載のシステム。
［例２８］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、ロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する、例２７に記載のシステム。
［例２９］
上記分岐再誘導回路は、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる、例２７に記載のシステム。
［例３０］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、例２５に記載のシステム。
［例３１］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、例３０に記載のシステム。
［例３２］
上記プロセッサコアは、１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定するための、上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路をさらに有する、例２５に記載のシステム。

【0087】

さらに別の実施形態において、装置は、ハードウェアプロセッサにより実行された場合に、本明細書において開示される任意の方法をハードウェアプロセッサに実行させるコードを格納するデータストレージデバイスを備える。装置は、詳細な説明において説明されたようなものであってよい。方法は、詳細な説明において説明されたようなものであってよい。

【0088】

命令セットは、条件付き分岐命令を含んでよい。命令セットは、１または複数の命令フォーマットを含んでよい。所与の命令フォーマットは、とりわけ、実行されるオペレーション（例えば、オペコード）および当該オペレーションが実行されるオペランドおよび／または他のデータフィールド（例えば、マスク）を指定する様々なフィールド（例えば、ビットの数、ビットの位置）を定義してよい。いくつかの命令フォーマットは、命令テンプレート（またはサブフォーマット）の定義を通じてさらに細分化される。例えば、所与の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義されてよく（含まれるフィールドは、典型的には同じ順序であるが、少なくともいくつかは、含まれるフィールドが少ないので、異なるビット位置を有する）、および／または、異なって解釈される所与のフィールドを有するように定義されてよい。したがって、ＩＳＡの各命令は、所与の命令フォーマット（および、定義されている場合には、当該命令フォーマットの命令テンプレートのうちの所与の１つ）を用いて表され、オペレーションおよびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコードならびに当該オペコードを指定するオペコードフィールドおよびオペランド（ソース１／デスティネーションおよびソース２）を選択するオペランドフィールドを含む命令フォーマットを有する。命令ストリーム内でこのＡＤＤ命令が生じると、特定のオペランドを選択するオペランドフィールド内に特定のコンテンツを有することになる。高度ベクトル拡張（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称されるＳＩＭＤ拡張のセットおよびＶｅｃｔｏｒＥｘｔｅｎｓｉｏｎｓ（ＶＥＸ）コーディングスキームの使用が、公表および／または公開されている（例えば、２０１８年５月のＩｎｔｅｌ（登録商標）６４およびＩＡ－３２アーキテクチャソフトウェア開発者のマニュアル、および２０１８年５月のＩｎｔｅｌ（登録商標）アーキテクチャ命令セット拡張プログラミングリファレンスを参照されたい）。
［例示的な命令フォーマット］

【0089】

本明細書において説明される命令の実施形態は、異なるフォーマットで具現化され得る。さらに、例示的なシステム、アーキテクチャおよびパイプラインを以下で詳述する。命令の実施形態は、そのようなシステム、アーキテクチャおよびパイプライン上で実行され得るが、詳述されるものに限定されない。
［汎用ベクトル向け命令フォーマット］

【0090】

ベクトル向け命令フォーマットは、ベクトル命令に適した命令フォーマットである（例えば、ベクトル演算に固有の特定のフィールドがある）。ベクトル演算およびスカラ演算の両方がベクトル向け命令フォーマットを通じてサポートされる実施形態を説明するが、代替的な実施形態は、ベクトル向け命令フォーマットによるベクトル演算のみを用いる。

【0091】

図１２Ａおよび図１２Ｂは、本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。図１２Ａは、本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＡ命令テンプレートを示すブロック図であり、一方、図１２Ｂは、本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＢ命令テンプレートを示すブロック図である。具体的には、汎用ベクトル向け命令フォーマット１２００には、クラスＡ命令テンプレートおよびクラスＢ命令テンプレートが定義され、これらの両方が、非メモリアクセス１２０５命令テンプレートおよびメモリアクセス１２２０命令テンプレートを含む。ベクトル向け命令フォーマットの文脈における汎用という用語は、任意の特定の命令セットに結び付けられていない命令フォーマットを指す。

【0092】

本開示の実施形態では、ベクトル向け命令フォーマットが、３２ビット（４バイト）または６４ビット（８バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）（したがって、６４バイトのベクトルは、１６個のダブルワードサイズの要素または代替的に８クワッドワードサイズの要素のいずれかから成る）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する３２バイトのベクトルオペランド長（またはサイズ）、および、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する１６バイトのベクトルオペランド長（またはサイズ）をサポートすることが説明され、一方、代替的な実施形態は、より多い、より少ないまたは異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有する、より多い、より少ないおよび／または異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートしてよい。

【0093】

図１２ＡにおけるクラスＡ命令テンプレートは、１）非メモリアクセス１２０５命令テンプレート内に示される非メモリアクセス・フルラウンド制御型オペレーション１２１０命令テンプレートおよび非メモリアクセス・データ変換型オペレーション１２１５命令テンプレート、ならびに、２）メモリアクセス１２２０命令テンプレート内に示されるメモリアクセス・一時的１２２５命令テンプレートおよびメモリアクセス・非一時的１２３０命令テンプレートを含む。図１２ＢにおけるクラスＢ命令テンプレートは、１）非メモリアクセス１２０５命令テンプレート内に示される非メモリアクセス・書き込みマスク制御・部分的ラウンド制御型オペレーション１２１２命令テンプレートおよび非メモリアクセス・書き込みマスク制御・ＶＳＩＺＥ型オペレーション１２１７命令テンプレート、ならびに、２）メモリアクセス１２２０命令テンプレート内に示されるメモリアクセス・書き込みマスク制御１２２７命令テンプレートを含む。

【0094】

汎用ベクトル向け命令フォーマット１２００は、図１２Ａおよび図１２Ｂに示される順序で、下記に列挙される以下のフィールドを含む。

【0095】

フォーマットフィールド１２４０－このフィールド内の特定の値（命令フォーマット識別子値）は、ベクトル向け命令フォーマット、したがって、命令ストリーム内のベクトル向け命令フォーマットにおける命令の出現を一意に識別する。そのため、このフィールドは、汎用ベクトル向け命令フォーマットのみを有する命令セットには必要ではないという意味において任意選択的である。

【0096】

ベースオペレーションフィールド１２４２－そのコンテンツは、異なるベースオペレーションを区別する。

【0097】

レジスタインデックスフィールド１２４４－そのコンテンツは、直接またはアドレス生成を通じて、ソースオペランドおよびデスティネーションオペランドがレジスタ内にあるか、またはメモリ内にあるかを問わず、それらの位置を指定する。これらは、Ｐ×Ｑ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分な数のビットを含む。一実施形態において、Ｎは、最大で３つのソースおよび１つのデスティネーションレジスタであってよく、代替的な実施形態は、より多くのまたはより少ないソースおよびデスティネーションレジスタをサポートしてよい（例えば、最大で２つのソースをサポートしてよく、この場合、これらのソースのうちの１つは、デスティネーションとしても機能し、最大で３つのソースをサポートしてよく、この場合、これらのソースのうちの１つは、デスティネーションとしても機能し、最大で２つのソースおよび１つのデスティネーションをサポートしてよい）。

【0098】

修飾子フィールド１２４６－そのコンテンツは、メモリアクセスを指定する汎用ベクトル命令フォーマット内の命令の出現を、メモリアクセスを指定しない命令と区別する。すなわち、非メモリアクセス１２０５命令テンプレートとメモリアクセス１２２０命令テンプレートとを区別する。メモリアクセスオペレーションは、メモリ階層に対して読み取りおよび／または書き込みを行い（場合によっては、レジスタ内の値を用いて、ソースおよび／またはデスティネーションアドレスを指定する）、一方、非メモリアクセスオペレーションは、これを行わない（例えば、ソースおよびデスティネーションはレジスタである）。一実施形態において、このフィールドはまた、メモリアドレス計算を実行するために、３つの異なる態様の中から選択し、一方、代替的な実施形態は、メモリアドレス計算を実行するために、より多い、より少ないまたは異なる態様をサポートしてよい。

【0099】

拡張オペレーションフィールド１２５０－そのコンテンツは、様々な異なるオペレーションのうちのどれがベースオペレーションに加えて実行されるかを区別する。このフィールドは、コンテキストに固有のものである。本開示の一実施形態において、このフィールドは、クラスフィールド１２６８、アルファフィールド１２５２およびベータフィールド１２５４に分割される。拡張オペレーションフィールド１２５０は、共通のオペレーションのグループが、２個、３個または４個の命令ではなく、単一の命令内で実行されることを可能にする。

【0100】

スケールフィールド１２６０－そのコンテンツは、メモリアドレス生成のための（例えば、２スケール×インデックス＋ベースを用いるアドレス生成のための）インデックスフィールドのコンテンツのスケーリングを可能にする。

【0101】

変位フィールド１２６２Ａ－そのコンテンツは、（例えば、２スケール×インデックス＋ベース＋変位を用いるアドレス生成のための）メモリアドレス生成の一部として用いられる。

【0102】

変位係数フィールド１２６２Ｂ（変位係数フィールド１２６２Ｂの真上に変位フィールド１２６２Ａの並置は、一方または他方が用いられることを示すことに留意されたい）－そのコンテンツは、アドレス生成の一部として用いられ、それは、メモリアクセス（Ｎ）のサイズによりスケーリングされる変位係数を指定する－Ｎは、（例えば、２スケール×インデックス＋ベース＋スケーリングされた変位を用いるアドレス生成用の）メモリアクセス内のバイト数である。冗長下位ビットが無視されるので、有効なアドレスの計算に用いられる最終的な変位を生成すべく、変位係数フィールドのコンテンツは、メモリオペランドの合計のサイズ（Ｎ）で乗算される。Ｎの値は、（本明細書で後述される）フルオペコードフィールド１２７４およびデータ操作フィールド１２５４Ｃに基づいて、ランタイムにおいてプロセッサハードウェアにより決定される。変位フィールド１２６２Ａおよび変位係数フィールド１２６２Ｂは、それらが非メモリアクセス１２０５命令テンプレートに用いられない、および／または異なる実施形態が、２つのうちの一方のみを実装してもよく、いずれも実装しなくてもよいという意味において任意選択的である。

【0103】

データ要素幅フィールド１２６４－そのコンテンツは、（いくつかの実施形態では、全ての命令に対して、他の実施形態では、いくつかの命令のみに対して）多数のデータ要素幅のうちのどれが用いられるかを区別する。１つのデータ要素幅のみがサポートされる場合、および／またはオペコードのいくつかの態様を用いてデータ要素幅がサポートされる場合に必要とされないという意味において、このフィールドは任意選択的である。

【0104】

書き込みマスクフィールド１２７０－そのコンテンツは、データ要素位置ごとに、デスティネーションベクトルオペランド内のデータ要素位置がベースオペレーションおよび拡張オペレーションの結果を反映するかどうかを制御する。クラスＡの命令テンプレートは、マージングング－書き込みマスキングをサポートし、一方、クラスＢの命令テンプレートは、マージング書き込みマスキングおよびゼロ書き込みマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベースオペレーションおよび拡張オペレーションにより指定された）任意のオペレーションの実行中に更新から保護されることを可能にする。他の一実施形態において、対応するマスクビットが０を有する場合、デスティネーションの各要素の古い値を保持する。対照的に、ゼロ化する場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが、（ベースオペレーションおよび拡張オペレーションにおいて指定された）任意のオペレーションの実行中にゼロにされることを可能にする。一実施形態において、対応するマスクビットが０値を有する場合、デスティネーションの要素は、０に設定される。この機能のサブセットは、実行されるオペレーションのベクトル長（すなわち、修正される要素のうち、最初の要素から最後の要素までのスパン）を制御する能力である。しかしながら、修正される要素が連続している必要はない。したがって、書き込みマスクフィールド１２７０は、ロード、格納、演算、論理等を含む部分的ベクトル演算を可能にする。書き込みマスクフィールド１２７０のコンテンツが用いられる書き込みマスクを含む多数の書き込みマスクレジスタのうちの１つを選択する（したがって、書き込みマスクフィールド１２７０のコンテンツは、実行されるマスキングを間接的に識別する）本開示の実施形態を説明するが、代替的な実施形態は、代わりにまたは追加的に、実行されるマスキングをマスク書き込みフィールド１２７０のコンテンツが直接指定することを可能にする。

【0105】

即値フィールド１２７２－そのコンテンツは、即値の指定を可能にする。このフィールドは、即値をサポートしない汎用ベクトル向けフォーマットの実装において存在せず、かつ、即値を用いない命令にも存在しないという意味において任意選択的である。

【0106】

クラスフィールド１２６８－そのコンテンツは、異なるクラスの命令を区別する。図１２Ａおよび図１２Ｂを参照すると、このフィールドのコンテンツは、クラスＡ命令とクラスＢ命令との間で選択する。図１２Ａおよび図１２Ｂでは、特定の値がフィールド内に存在することを示すために、角が丸められた四角形が用いられている（例えば、図１２Ａおよび図１２Ｂにおけるクラスフィールド１２６８のクラスＡ１２６８ＡおよびクラスＢ１２６８Ｂのそれぞれ）。
［クラスＡの命令テンプレート］

【0107】

クラスＡの非メモリアクセス１２０５命令テンプレートの場合、アルファフィールド１２５２はＲＳフィールド１２５２Ａとして解釈され、そのコンテンツは、異なる拡張オペレーションタイプのうちのどれが実行されるかを区別し（例えば、非メモリアクセス・ラウンド型オペレーション１２１０および非メモリアクセス・データ変換型オペレーション１２１５命令テンプレートに対し、ラウンド１２５２Ａ．１およびデータ変換１２５２Ａ．２がそれぞれ指定される）、ベータフィールド１２５４は、指定されるタイプのオペレーションのうちのどれが実行されるかを区別する。非メモリアクセス１２０５命令テンプレートには、スケールフィールド１２６０、変位フィールド１２６２Ａおよび変位スケールフィールド１２６２Ｂは存在しない。
［非メモリアクセス命令テンプレート－フルラウンド制御型オペレーション］

【0108】

非メモリアクセス・フルラウンド制御型オペレーション１２１０命令テンプレートでは、ベータフィールド１２５４は、ラウンド制御フィールド１２５４Ａとして解釈され、そのコンテンツは、静的ラウンドを提供する。説明される本開示の実施形態では、ラウンド制御フィールド１２５４Ａは、全浮動小数点例外抑制（ＳＡＥ）フィールド１２５６およびラウンドオペレーション制御フィールド１２５８を含むが、代替的な実施形態は、これらの概念の両方を同じフィールドにエンコードすることをサポートしてもよく、これらの概念／フィールドの一方または他方のみを有してもよい（例えば、ラウンドオペレーション制御フィールド１２５８のみを有してよい）。

【0109】

ＳＡＥフィールド１２５６－そのコンテンツは、例外イベント報告を無効化するか否かを区別し、ＳＡＥフィールド１２５６のコンテンツが、抑制が有効化されていることを示す場合、所与の命令は、いかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない。

【0110】

ラウンドオペレーション制御フィールド１２５８－そのコンテンツは、ラウンドオペレーションのグループのうちのどれが実行するかを区別する（例えば、切り上げ、切り捨て、ゼロへの丸めおよび最も近い値への丸め）。したがって、ラウンドオペレーション制御フィールド１２５８は、命令ごとにラウンドモードを変更することを可能にする。プロセッサがラウンドモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンドオペレーション制御フィールド１２５０のコンテンツは、そのレジスタ値をオーバーライドする。
［非メモリアクセス命令テンプレート－データ変換型オペレーション］

【0111】

非メモリアクセス・データ変換型オペレーション１２１５命令テンプレートでは、ベータフィールド１２５４は、データ変換フィールド１２５４Ｂとして解釈され、そのコンテンツは、多数のデータ変換のうちのどれが実行されるかを区別する（例えば、データ変換なし、スウィズル、ブロードキャスト）。

【0112】

クラスＡのメモリアクセス１２２０命令テンプレートの場合、アルファフィールド１２５２はエビクションヒントフィールド１２５２Ｂとして解釈され、そのコンテンツは、エビクションヒントのうちのどれが用いられるべきかを区別する（図１２Ａにおいて、一時的１２５２Ｂ．１および非一時的１２５２Ｂ．２はそれぞれ、メモリアクセス・一時的１２２５命令テンプレートおよびメモリアクセス・非一時的１２３０命令テンプレートに指定される）。ベータフィールド１２５４はデータ操作フィールド１２５４Ｃとして解釈され、そのコンテンツは、（プリミティブとしても知られる）多数のデータ操作オペレーションのうちのどれが実行されるべきかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、デスティネーションのダウンコンバージョン）。メモリアクセス１２２０命令テンプレートは、スケールフィールド１２６０を含み、変位フィールド１２６２Ａまたは変位スケールフィールド１２６２Ｂを任意選択で含む。

【0113】

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令と同様に、ベクトルメモリ命令は、実際に転送される要素を書き込みマスクとして選択されたベクトルマスクのコンテンツにより指示して、データ要素ごとにメモリとの間でデータを転送する。
［メモリアクセス命令テンプレート－一時的］

【0114】

一時的データは、キャッシュから利益を得るのに十分なほど速やかに再使用される可能性が高いデータである。しかしながら、これはヒントであり、異なるプロセッサが、ヒントを完全に無視することを含む異なる態様でこれを実装し得る。
［メモリアクセス命令テンプレート－非一時的］

【0115】

非一時的データは、第１レベルキャッシュにキャッシュする利益を得るのに十分なほど速やかに再使用される可能性が低いデータであり、エビクションが優先されるべきである。しかしながら、これはヒントであり、異なるプロセッサが、ヒントを完全に無視することを含む異なる態様でこれを実装し得る。
［クラスＢの命令テンプレート］

【0116】

クラスＢの命令テンプレートの場合、アルファフィールド１２５２は、書き込みマスク制御（Ｚ）フィールド１２５２Ｃとして解釈され、そのコンテンツは、書き込みマスクフィールド１２７０により制御される書き込みマスキングがマージングであるべきか、またはゼロ化であるべきかを区別する。

【0117】

クラスＢの非メモリアクセス１２０５の命令テンプレートの場合、ベータフィールド１２５４一部はＲＬフィールド１２５７Ａとして解釈され、そのコンテンツは、異なる拡張オペレーションタイプのうちのどれが実行されるかを区別し（例えば、ラウンド１２５７Ａ．１およびベクトル長（ＶＳＩＺＥ）１２５７Ａ．２は、非メモリアクセス・書き込みマスク制御・部分的ラウンド制御型オペレーション１２１２命令テンプレートおよび非メモリアクセス、書き込みマスク制御・ＶＳＩＺＥ型オペレーション１２１７命令テンプレートに対してそれぞれ指定される）、ベータフィールド１２５４の残りは、指定されたタイプのオペレーションのうちのどれが実行されるかを区別する。非メモリアクセス１２０５命令テンプレートには、スケールフィールド１２６０、変位フィールド１２６２Ａおよび変位スケールフィールド１２６２Ｂは存在しない。

【0118】

非メモリアクセス・書き込みマスク制御・部分的ラウンド制御型オペレーション１２１０の命令テンプレートでは、ベータフィールド１２５４の残りは、ラウンドオペレーションフィールド１２５９Ａとして解釈され、例外イベント報告が無効化される（所与の命令は、いかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない）。

【0119】

ラウンドオペレーション制御フィールド１２５９Ａ－ラウンドオペレーション制御フィールド１２５８と同じように、そのコンテンツは、ラウンドオペレーションのグループのうちのどれが実行するかを区別する（例えば、切り上げ、切り捨て、ゼロへの丸めおよび最も近い値への丸め）。したがって、ラウンドオペレーション制御フィールド１２５９Ａは、命令ごとにラウンドモードを変更することを可能にする。プロセッサがラウンドモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンドオペレーション制御フィールド１２５０のコンテンツは、そのレジスタ値をオーバーライドする。

【0120】

非メモリアクセス・書き込みマスク制御・ＶＳＩＺＥ型オペレーション１２１７の命令テンプレートでは、ベータフィールド１２５４の残りは、ベクトル長フィールド１２５９Ｂとして解釈され、そのコンテンツは、多数のデータベクトル長のうちのどれが実行されるかを区別する（例えば、１２８バイト、２５６バイトまたは５１２バイト）。

【0121】

クラスＢのメモリアクセス１２２０命令テンプレートの場合、ベータフィールド１２５４の一部は、ブロードキャストフィールド１２５７Ｂとして解釈され、そのコンテンツは、ブロードキャスト型データ操作オペレーションが実行されるか否かを区別し、ベータフィールド１２５４の残りは、ベクトル長フィールド１２５９Ｂとして解釈される。メモリアクセス１２２０命令テンプレートは、スケールフィールド１２６０を含み、変位フィールド１２６２Ａまたは変位スケールフィールド１２６２Ｂを任意選択で含む。

【0122】

汎用ベクトル向け命令フォーマット１２００に関して、フルオペコードフィールド１２７４は、フォーマットフィールド１２４０、ベースオペレーションフィールド１２４２およびデータ要素幅フィールド１２６４を含むように示されている。フルオペコードフィールド１２７４がこれらのフィールドの全てを含む一実施形態が示されているが、これらのフィールドの全てをサポートしない実施形態では、フルオペコードフィールド１２７４は、これらのフィールドの全てよりも少ないフィールドを含む。フルオペコードフィールド１２７４は、オペレーションコード（オペコード）を提供する。

【0123】

拡張オペレーションフィールド１２５０、データ要素幅フィールド１２６４および書き込みマスクフィールド１２７０は、これらの機能が汎用ベクトル向け命令フォーマットにおいて命令ごとに指定されることを可能にする。

【0124】

書き込みマスクフィールドおよびデータ要素幅フィールドの組み合わせは、異なるデータ要素幅に基づいてマスクを適用することを可能にするという点で、型付き命令を作成する。

【0125】

クラスＡおよびクラスＢ内で見つかる様々な命令テンプレートは、異なる状況において有益である。本開示のいくつかの実施形態において、異なるプロセッサまたはプロセッサ内の異なるコアは、クラスＡのみ、クラスＢのみ、または両方のクラスをサポートしてよい。例えば、汎用コンピューティング向けの高性能汎用アウトオブオーダコアは、クラスＢのみをサポートしてよく、主にグラフィックスおよび／または科学（スループット）コンピューティング向けのコアは、クラスＡのみをサポートしてよく、両方向けのコアは、両方をサポートしてよい（もちろん、両方のクラスからの全てのテンプレートおよび命令ではなく、両方のクラスからのテンプレートおよび命令のいくつかの組み合わせを有するコアは、本開示の範囲内にある）。また、単一のプロセッサは、複数のコアを含んでよく、その全てが同じクラスをサポートするか、または、異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックスおよび汎用コアを有するプロセッサでは、主にグラフィックスおよび／または科学コンピューティング向けの複数のグラフィックスコアのうちの１つがクラスＡのみをサポートしてよく、複数の汎用コアのうちの１つまたは複数が、クラスＢのみをサポートする汎用コンピューティング向けのアウトオブオーダ実行およびレジスタリネーミングを有する高性能汎用コアであってよい。別個のグラフィックスコアを有していない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートするもう１つの汎用のインオーダコアまたはアウトオブオーダコアを含んでよい。もちろん、１つのクラスからの機能は、本開示の異なる実施形態における他のクラスに実装されてもよい。高水準言語で書き込まれたプログラムは、１）実行用のターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、または２）全てのクラスの命令の異なる組み合わせを用いて書き込まれた代替ルーチンを有し、現在コードを実行しているプロセッサによってサポートされる命令に基づいて実行するようにルーチンを選択する制御フローコードを有する形式を含む様々な異なる実行可能な形式に変換される（例えば、ジャストインタイムコンパイルされるか、または静的コンパイルされる）はずである。
［例示的な特定ベクトル向け命令フォーマット］

【0126】

図１３Ａから図１３Ｄは、本開示の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図１３Ａから図１３Ｄは、フィールドの位置、サイズ、解釈および順序ならびにそれらのフィールドのいくつかの値を指定するという意味において固有である特定ベクトル向け命令フォーマット１３００を示す。特定ベクトル向け命令フォーマット１３００は、ｘ８６命令セットを拡張するために用いられ得る。したがって、フィールドのうちのいくつかは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）において用いられるフィールドと同様または同じである。このフォーマットは、拡張を伴う既存のｘ８６命令セットのプレフィックスエンコーディングフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールドおよび即値フィールドと整合したままである。図１２Ａおよび図１２Ｂからのフィールドが図１３Ａから図１３Ｄのどのフィールドにマッピングされるかが示される。

【0127】

本開示の実施形態は、例示の目的で汎用ベクトル向け命令フォーマット１３００の文脈で特定ベクトル向け命令フォーマット１２００を参照して説明されているが、本開示は、特許請求の範囲に記載される場合を除き、特定ベクトル向け命令フォーマット１３００に限定されるものではないことを理解されたい。例えば、汎用ベクトル向け命令フォーマット１２００は、様々なフィールド用の様々な可能なサイズを想定しているが、特定ベクトル向け命令フォーマット１３００は、特定のサイズのフィールドを有するものとして示されている。具体的な例として、データ要素幅フィールド１２６４は、特定ベクトル向け命令フォーマット１３００において、１ビットフィールドとして示されているが、本開示は、そのようには限定されない（すなわち、汎用ベクトル向け命令フォーマット１２００は、他のサイズのデータ要素幅フィールド１２６４を想定している）。

【0128】

汎用ベクトル向け命令フォーマット１２００は、図１３Ａに示される順序で、下記に列挙される以下のフィールドを含む。

【0129】

ＥＶＥＸプレフィックス（バイト０－３）１３０２は、４バイト形式でエンコードされる。

【0130】

フォーマットフィールド１２４０（ＥＶＥＸバイト０、ビット［７：０］）－第１のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド１２４０であり、０ｘ６２（本開示の一実施形態においてベクトル向け命令フォーマットを区別するために用いられる固有値）を含む。

【0131】

２番目から４番目のバイト（ＥＶＥＸバイト１－３）は、特定の機能を提供する多数のビットフィールドを含む。

【0132】

ＲＥＸフィールド１３０５（ＥＶＥＸバイト１、ビット［７－５］）は、ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］－Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］－Ｘ）および１２５７ＢＥＸバイト１、ビット［５］‐Ｂ）から成る。ＥＶＥＸ．Ｒビットフィールド、ＥＶＥＸ．ＸビットフィールドおよびＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同じ機能を提供し、１の補数形式を用いてエンコードされる。すなわち、ＺＭＭ０は、１１１１Ｂとしてエンコードされ、ＺＭＭ１５は、００００Ｂとしてエンコードされる。命令の他のフィールドは、当技術分野において知られているように、レジスタインデックスの下位３ビット（ｒｒｒ、ｘｘｘおよびｂｂｂ）をエンコードし、その結果、ＥＶＥＸ．Ｒ、ＥＶＥＸ．ＸおよびＥＶＥＸ．Ｂを加えることにより、Ｒｒｒｒ、ＸｘｘｘおよびＢｂｂｂが形成され得る。

【0133】

ＲＥＸ'フィールド１２１０－これは、ＲＥＸ'フィールド１２１０の第１の部分であり、拡張３２レジスタセットの上位１６個または下位１６個のいずれかをエンコードするために用いられるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］－Ｒ'）である。本開示の一実施形態において、このビットは、リアルオペコードバイトが６２であるＢＯＵＮＤ命令と（周知のｘ８６３２ビットモードにおいて）区別するために、以下に示されるような他のものと共にビット反転フォーマットに格納されるが、（以下で説明する）ＭＯＤＲ／Ｍフィールドでは、ＭＯＤフィールド内の１１という値を受け入れない。本開示の代替的な実施形態は、このビットおよび以下に示される他のビットを反転フォーマットに格納しない。下位１６個のレジスタをエンコードするのに、１という値が用いられる。言い換えると、Ｒ'Ｒｒｒｒは、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒおよび他のフィールドからの他のＲＲＲを組み合わせることにより形成される。

【0134】

オペコードマップフィールド１３１５（ＥＶＥＸバイト１、ビット［３：０］－ｍｍｍｍ）－そのコンテンツは、暗黙の先頭オペコードバイト（０Ｆ、０Ｆ３８または０Ｆ３）をエンコードする。

【0135】

データ要素幅フィールド１２６４（ＥＶＥＸバイト２、ビット［７］－Ｗ）は、表記ＥＶＥＸ．Ｗにより表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットデータ要素または６４ビットデータ要素のいずれか）を定義するために用いられる。

【0136】

ＥＶＥＸ．ｖｖｖｖ１３２０（ＥＶＥＸバイト２、ビット［６：３］－ｖｖｖｖ）－ＥＶＥＸ．ｖｖｖｖの役割は、以下を含んでよい。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定される第１のソースレジスタオペランドをエンコードし、２つまたはそれよりも多くのソースオペランドを有する命令について有効である。２）ＥＶＥＸ．ｖｖｖｖは、特定のベクトルシフトに対して１の補数形式で指定されるデスティネーションレジスタオペランドをエンコードする。または、３）ＥＶＥＸ．ｖｖｖｖは、いかなるオペランドもエンコードせず、当該フィールドは、予約され、１１１１ｂを含むべきである。したがって、ＥＶＥＸ．ｖｖｖｖフィールド１３２０は、反転（１の補数）形式で格納された第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、追加の異なるＥＶＥＸビットフィールドは、指定子のサイズを３２個のレジスタに拡張するために用いられる。

【0137】

ＥＶＥＸ．Ｕ１２６８のクラスフィールド（ＥＶＥＸバイト２、ビット［２］－Ｕ）－ＥＶＥＸ．Ｕ＝０である場合、クラスＡまたはＥＶＥＸ．Ｕ０を示し、ＥＶＥＸ．Ｕ＝１である場合、クラスＢまたはＥＶＥＸ．Ｕ１を示す。

【0138】

プレフィックスエンコーディングフィールド１３２５（ＥＶＥＸバイト２、ビット［１：０］－ｐｐ）－ベースオペレーションフィールドに追加のビットを提供する。ＥＶＥＸプレフィックスフォーマットにおけるレガシＳＳＥ命令にサポートを提供することに加え、これは、ＳＩＭＤプレフィックスを圧縮するという利益も有する（ＳＩＭＤプレフィックスを表現するバイトを必要とするのではなく、ＥＶＥＸプレフィックスが２ビットのみを必要とする）。一実施形態において、レガシフォーマットおよびＥＶＥＸプレフィックスフォーマットの両方でＳＩＭＤプレフィックス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を用いるレガシＳＳＥ命令をサポートするために、これらのレガシＳＩＭＤプレフィックスは、ＳＩＭＤプレフィックスエンコーディングフィールドへエンコードされ、デコーダのＰＬＡに提供される前に、ランタイムにおいてレガシＳＩＭＤプレフィックスへ拡張される（そのため、ＰＬＡは、これらのレガシ命令のレガシおよびＥＶＥＸフォーマットの両方を修正することなく実行できる）。より新しい命令は、ＥＶＥＸプレフィックスエンコーディングフィールドのコンテンツをオペコード拡張として直接用いることができるが、特定の実施形態では、整合性のために同様の方式で拡張するが、これらのレガシＳＩＭＤプレフィックスにより異なる意味が指定されることを可能にする。代替的な実施形態は、２ビットのＳＩＭＤプレフィックスエンコーディングをサポートするようにＰＬＡを再設計してよく、したがって、拡張を必要としない。

【0139】

アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ、ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．書き込みマスク制御およびＥＶＥＸ．Ｎとしても知られ、また、αを用いて示される）－前述したように、このフィールドは、コンテキストに固有のものである。

【0140】

ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ、ＥＶＥＸ．ｓ_２－０、ＥＶＥＸ．ｒ_２－０、ＥＶＥＸ、ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られ、また、βββを用いて示される）－前述したように、このフィールドは、コンテキストに固有のものである。

【0141】

ＲＥＸ'フィールド１２１０－これは、ＲＥＸ'フィールドの残りであり、拡張３２レジスタセットの上位１６個または下位１６個のいずれかをエンコードするために用いられ得るＥＶＥＸ．Ｖ'ビットフィールド（ＥＶＥＸバイト３、ビット［３］－Ｖ'）である。このビットは、ビット反転フォーマットで格納される。下位１６個のレジスタをエンコードするのに、１という値が用いられる。言い換えると、Ｖ'ＶＶＶＶは、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより形成される。

【0142】

書き込みマスクフィールド１２７０（ＥＶＥＸバイト３、ビット［２：０］－ｋｋｋ）－そのコンテンツは、前述したように、書き込みマスクレジスタ内のレジスタインデックスを指定する。本開示の一実施形態において、特定の値ＥＶＥＸ．ｋｋｋ=０００は、書き込みマスクが特定の命令に用いられないことを暗示する特別な挙動を有する（これは、全てのものに対してハードウェアに組み込まれる書き込みマスク、または、マスキングハードウェアをバイパスするハードウェアの使用を含む様々な態様で実装され得る）。

【0143】

リアルオペコードフィールド１３３０（バイト４）は、オペコードバイトとしても知られている。オペコードの一部は、このフィールドにおいて指定される。

【0144】

ＭＯＤＲ／Ｍフィールド１３４０（バイト５）は、ＭＯＤフィールド１３４２、Ｒｅｇフィールド１３４４およびＲ／Ｍフィールド１３４６を含む。前述したように、ＭＯＤフィールド１３４２のコンテンツは、メモリアクセスオペレーションおよび非メモリアクセスオペレーションを区別する。Ｒｅｇフィールド１３４４の役割は、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードすること、または、オペコード拡張として扱われ、いかなる命令オペランドをエンコードするためにも用いられないこと、という２つの状況に要約できる。Ｒ／Ｍフィールド１３４６の役割は、メモリアドレスを参照する命令オペランドをエンコードすること、またはデスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードすることを含んでよい。

【0145】

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）－前述したように、スケールフィールド１２５０のコンテンツは、メモリアドレス生成に用いられる。ＳＩＢ．ｘｘｘ１３５４およびＳＩＢ．ｂｂｂ１３５６－これらのフィールドのコンテンツについては、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関連して既に言及した。

【0146】

変位フィールド１２６２Ａ（バイト７－１０）－ＭＯＤフィールド１３４２が１０を含む場合、バイト７－１０は、変位フィールド１２６２Ａであり、レガシ３２ビット変位（ｄｉｓｐ３２）と同じように機能し、バイト粒度で機能する。

【0147】

変位係数フィールド１２６２Ｂ（バイト７）－ＭＯＤフィールド１３４２が０１を含む場合、バイト７は、変位係数フィールド１２６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）の位置と同じである。ｄｉｓｐ８は符号拡張されるので、－１２８バイトオフセットと１２７バイトオフセットとの間のみでしかアドレスを指定できず、６４バイトのキャッシュラインに関して、ｄｉｓｐ８は、４つの本当に有用な値、－１２８、－６４、０および６４のみに設定され得る８ビットを用いる。より広い範囲が必要とされることが多いのでｄｉｓｐ３２が用いられるが、ｄｉｓｐ３２は４バイトを必要とする。ｄｉｓｐ８およびｄｉｓｐ３２とは対照的に、変位係数フィールド１２６２Ｂは、ｄｉｓｐ８の再解釈である。変位係数フィールド１２６２Ｂを用いる場合、実際の変位は、メモリオペランドアクセス（Ｎ）のサイズで乗算される変位係数フィールドのコンテンツにより決定される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これにより、平均命令長（変位に用いられる単一のバイトであるが、はるかに広い範囲を有する）が低減する。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であるという前提に基づいているので、アドレスオフセットの冗長下位ビットは、エンコードされる必要がない。言い換えると、変位係数フィールド１２６２Ｂが、レガシｘ８６命令セットの８ビット変位と置き換わる。したがって、変位係数フィールド１２６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎにオーバーロードされることのみを除き、ｘ８６命令セットの８ビット変位と同じ態様でエンコードされる（よって、ＭｏｄＲＭ／ＳＩＢエンコーディングルールに変更はない）。言い換えると、エンコーディングのルールまたはエンコーディングの長さに変更はないが、（メモリオペランドのサイズにより変位をスケーリングして、バイト単位のアドレスオフセットを取得する必要がある）ハードウェアによる変位値の解釈にのみ変更がある。即値フィールド１２７２は、前述したように動作する。
［フルオペコードフィールド］

【0148】

図１３Ｂは、本開示の一実施形態による、フルオペコードフィールド１２７４を構成する特定ベクトル向け命令フォーマット１３００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド１２７４は、フォーマットフィールド１２４０、ベースオペレーションフィールド１２４２およびデータ要素幅（Ｗ）フィールド１２６４を含む。ベースオペレーションフィールド１２４２は、プレフィックスエンコーディングフィールド１３２５、オペコードマップフィールド１３１５およびリアルオペコードフィールド１３３０を含む。
［レジスタインデックスフィールド］

【0149】

図１３Ｃは、本開示の一実施形態による、レジスタインデックスフィールド１２４４を構成する特定ベクトル向け命令フォーマット１３００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド１２４４は、ＲＥＸフィールド１３０５、ＲＥＸ'フィールド１３１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド１３４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド１３４６、ＶＶＶＶフィールド１３２０、ｘｘｘフィールド１３５４およびｂｂｂフィールド１３５６を含む。
［拡張オペレーションフィールド］

【0150】

図１３Ｄは、本開示の一実施形態による、拡張オペレーションフィールド１２５０を構成する特定ベクトル向け命令フォーマット１３００のフィールドを示すブロック図である。クラス（Ｕ）フィールド１２６８は、０を含む場合、ＥＶＥＸ．Ｕ０（クラスＡ１２６８Ａ）を表し、１を含む場合、ＥＶＥＸ．Ｕ１（クラスＢ１２６８Ｂ）を表す。Ｕ＝０であり、かつ、ＭＯＤフィールド１３４２が１１を含む（非メモリアクセスオペレーションを意味する）場合、アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］）－ＥＨ）は、ＲＳフィールド１２５２Ａとして解釈される。ＲＳフィールド１２５２Ａが１（ラウンド１２５２Ａ．１）を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）は、ラウンド制御フィールド１２５４Ａとして解釈される。ラウンド制御フィールド１２５４Ａは、１ビットのＳＡＥフィールド１２５６および２ビットのラウンドオペレーションフィールド１２５８を含む。ＲＳフィールド１２５２Ａが０（データ変換１２５２Ａ．２）を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）は、３ビットのデータ変換フィールド１２５４Ｂとして解釈される。Ｕ＝０であり、かつ、ＭＯＤフィールド１３４２が００、０１または１０を含む（メモリアクセスオペレーションを意味する）場合、アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ）は、エビクションヒント（ＥＨ）フィールド１２５２Ｂとして解釈され、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）は、３ビットのデータ操作フィールド１２５４Ｃとして解釈される。

【0151】

Ｕ＝１である場合、アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］－ＥＨ）は、書き込みマスク制御（Ｚ）フィールド１２５２Ｃとして解釈される。Ｕ＝１であり、かつ、ＭＯＤフィールド１３４２が１１を含む（非メモリアクセスオペレーションを意味する）場合、ベータフィールド１２５４の一部（ＥＶＥＸバイト３、ビット［４］－Ｓ_０）は、ＲＬフィールド１２５７Ａとして解釈され、１（ラウンド１２５７Ａ．１）を含む場合、ベータフィールド１２５４の残り（ＥＶＥＸバイト３、ビット［６－５］－Ｓ_２－１）は、ラウンドオペレーションフィールド１２５９Ａとして解釈され、一方、ＲＬフィールド１２５７Ａが０（ＶＳＩＺＥ１２５７．Ａ２）を含む場合、ベータフィールド１２５４の残り（ＥＶＥＸバイト３、ビット［６－５］－Ｓ_２－１）は、ベクトル長フィールド１２５９Ｂ（ＥＶＥＸバイト３、ビット［６－５］－Ｌ_１－０）として解釈される。Ｕ＝１であり、かつ、ＭＯＤフィールド１３４２が（メモリアクセスオペレーションを意味する）００、０１または１０を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］－ＳＳＳ）は、ベクトル長フィールド１２５９Ｂ（ＥＶＥＸバイト３、ビット［６－５］－Ｌ_１－０）およびブロードキャストフィールド１２５７Ｂ（ＥＶＥＸバイト３、ビット［４］－Ｂ）として解釈される。
［例示的なレジスタアーキテクチャ］

【0152】

図１４は、本開示の一実施形態によるレジスタアーキテクチャ１４００のブロック図である。示される実施形態には、５１２ビット幅の３２個のベクトルレジスタ１４１０がある。これらのレジスタは、ｚｍｍ０からｚｍｍ３１として参照される。下位１６個のｚｍｍレジスタの下位２５６ビットは、レジスタｙｍｍ０から１６上にオーバーレイされる。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）は、レジスタｘｍｍ０から１５上にオーバーレイされる。特定ベクトル向け命令フォーマット１３００は、これらのオーバーレイされたレジスタファイル上で、以下の表に示されるように動作する。

【表1】

【0153】

言い換えると、ベクトル長フィールド１２５９Ｂは、最大長さと１または複数の他のより短い長さとの間から選択し、そのようなより短い長さの各々は、前述の長さの半分の長さであり、ベクトル長フィールド１２５９Ｂがない命令テンプレートは、最大ベクトル長で動作する。さらに、一実施形態において、特定ベクトル向け命令フォーマット１３００のクラスＢ命令テンプレートは、パックドまたはスカラ単精度／倍精度浮動小数点データおよびパックドまたはスカラ整数データで動作する。スカラ演算は、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタ内の最下位のデータ要素位置で実行されるオペレーションである。上位のデータ要素位置は、それらが命令前と同じままであるか、または実施形態に応じてゼロにされるかのいずれかである。

【0154】

書き込みマスクレジスタ１４１５－示される実施形態には８個の書き込みマスクレジスタ（ｋ０からｋ７）があり、各々のサイズは６４ビットである。代替的な実施形態において、書き込みマスクレジスタ１４１５は、１６ビットのサイズである。前述したように、本開示の一実施形態において、ベクトルマスクレジスタｋ０は、書き込みマスクとして用いられることができず、通常ｋ０を示すエンコーディングが書き込みマスクに用いられる場合、０ｘＦＦＦＦのハードウェアに組み込まれる書き込みマスクを選択することで、その命令に対する書き込みマスキングを効果的に無効にする。

【0155】

汎用レジスタ１４２５－示される実施形態には、メモリオペランドをアドレス指定する既存のｘ８６アドレス指定モードと共に用いられる１６個の６４ビット汎用レジスタが存在する。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８からＲ１５という名前で参照される。

【0156】

ＭＭＸパックド整数フラットレジスタファイル１４５０がエイリアシングされるスカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）１４４５－示される実施形態において、ｘ８７スタックは、ｘ８７命令セット拡張を用いて、３２ビット／６４ビット／８０ビットの浮動小数点データに対するスカラ浮動小数点オペレーションを実行するために用いられる８要素スタックであり、一方、ＭＭＸレジスタは、６４ビットのパックド整数データに対してオペレーションを実行するために、および、ＭＭＸとＸＭＭレジスタとの間で実行されるいくつかのオペレーション用にオペランドを保持するために用いられる。

【0157】

本開示の代替的な実施形態は、より広いまたはより狭いレジスタを用いてよい。さらに、本開示の代替的な実施形態は、より多くの、より少ない、または異なるレジスタファイルおよびレジスタを用いてよい。
［例示的なコアアーキテクチャ、プロセッサおよびコンピュータアーキテクチャ］

【0158】

プロセッサコアは、異なる態様で、異なる目的で、かつ、異なるプロセッサにおいて実装され得る。例えば、そのようなコアの実装は、１）汎用コンピューティング向けの汎用インオーダコア、２）汎用コンピューティング向けの高性能汎用アウトオブオーダコア、３）主にグラフィックスおよび／または科学（スループット）コンピューティング向けの専用コアを含んでよい。異なるプロセッサの実装は、１）汎用コンピューティング向けの１または複数の汎用インオーダコア、および／または、汎用コンピューティング向けの１または複数の汎用アウトオブオーダコアを含むＣＰＵ、および、２）主にグラフィックスおよび／または科学（スループット）向けの１または複数の専用コアを含むコプロセッサを含んでよい。そのような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、当該コンピュータシステムアーキテクチャは、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同じパッケージ内の別個のダイ上のコプロセッサ、３）ＣＰＵと同じダイ上のコプロセッサ（この場合、そのようなコプロセッサは、場合によっては、例えば、統合グラフィックスおよび／または科学（スループット）ロジックなどの専用ロジックまたは専用コアと称される）、ならびに、４）説明されたＣＰＵと同じダイ上に含まれ得るシステムオンチップ（場合によっては、アプリケーションコアまたはアプリケーションプロセッサと称される）、上述したコプロセッサおよび追加の機能を含んでよい。例示的なコアアーキテクチャを次に説明し、続いて、例示的なプロセッサおよびコンピュータアーキテクチャを説明する。
［例示的なコアアーキテクチャ］
［インオーダコアおよびアウトオブオーダコアのブロック図］

【0159】

図１５Ａは、本開示の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図１５Ｂは、本開示の実施形態による、プロセッサに含まれるインオーダアーキテクチャコアの例示的な実施形態および例示的なレジスタリネーミング、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図１５Ａおよび図１５Ｂ内の実線のボックスは、インオーダパイプラインおよびインオーダコアを示し、一方、任意選択的な追加の破線のボックスは、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインおよびコアを示す。インオーダの態様がアウトオブオーダの態様のサブセットであると仮定して、アウトオブオーダの態様を説明する。

【0160】

図１５Ａにおいて、プロセッサパイプライン１５００は、フェッチステージ１５０２、長さデコードステージ１５０４、デコードステージ１５０６、割り当てステージ１５０８、リネーミングステージ１５１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ１５１２、レジスタ読み取り／メモリ読み取りステージ１５１４、実行ステージ１５１６、ライトバック／メモリ書き込みステージ１５１８、例外処理ステージ１５２２およびコミットステージ１５２４を含む。

【0161】

図１５Ｂは、実行エンジンユニット１５５０に結合されるフロントエンドユニット１５３０を含むプロセッサコア１５９０を示し、それらの両方が、メモリユニット１５７０に結合される。コア１５９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コアまたはハイブリッドコアタイプもしくは代替的コアタイプであってよい。さらに別のオプションとして、コア１５９０は、例えば、ネットワークコアもしくは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット（ＧＰＧＰＵ）コアまたはグラフィックスコア等の専用コアであってよい。

【0162】

フロントエンドユニット１５３０は、命令キャッシュユニット１５３４に結合された分岐予測ユニット１５３２を含み、命令キャッシュユニット１５３４は命令変換ルックアサイドバッファ（ＴＬＢ）１５３６に結合され、命令変換ルックアサイドバッファ（ＴＬＢ）１５３６は命令フェッチユニット１５３８に結合され、命令フェッチユニット１５３８はデコードユニット１５４０に結合されている。デコードユニット１５４０（またはデコーダもしくはデコーダユニット）は、命令（例えばマクロ命令）をデコードし、１または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、または元の命令からデコードされるか、またはそうでなければ元の命令を反映し、または元の命令から派生した他の制御信号を出力として生成してよい。デコードユニット１５４０は、様々な異なるメカニズムを用いて実装され得る。適切なメカニズムの例は、限定されるものではないが、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）等を含む。一実施形態において、コア１５９０は、マイクロコードＲＯＭ、または、特定のマクロ命令に対するマイクロコードを格納する（例えば、デコードユニット１５４０における、またはそうでなければ、フロントエンドユニット１５３０内の）他の媒体を含む。デコードユニット１５４０は、実行エンジンユニット１５５０内のリネーミング／アロケータユニット１５５２に結合される。

【0163】

実行エンジンユニット１５５０は、リタイアメントユニット１５５４と、１または複数のスケジューラユニット１５５６のセットとに結合されたリネーミング／アロケータユニット１５５２を含む。スケジューラユニット１５５６は、予約ステーション、中央命令ウィンドウ等を含む任意の数の異なるスケジューラを表す。スケジューラユニット１５５６は、物理レジスタファイルユニット１５５８に結合される。物理レジスタファイルユニット１５５８の各々は、１または複数の物理レジスタファイルを表し、そのそれぞれ異なる物理レジスタファイルは、例えば、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）等、１または複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット１５５８は、ベクトルレジスタユニット、書き込みマスクレジスタユニットおよびスカラレジスタユニットを有する。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタおよび汎用レジスタを提供し得る。物理レジスタファイルユニット１５５８は、（例えば、リオーダバッファおよびリタイアメントレジスタファイルを用いること、将来のファイル、履歴バッファおよびリタイアメントレジスタファイルを用いること、レジスタマップおよびレジスタのプールを用いること等で）レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々な態様を示すために、リタイアメントユニット１５５４により重ね合わせられている。リタイアメントユニット１５５４および物理レジスタファイルユニット１５５８は、実行クラスタ１５６０に結合される。実行クラスタ１５６０は、１または複数の実行ユニット１５６２のセットと、１または複数のメモリアクセスユニット１５６４のセットとを含む。実行ユニット１５６２は、様々なオペレーション（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に対して実行してよい。いくつかの実施形態は、特定の機能または機能のセットに専用の多数の実行ユニットを含んでよいが、他の実施形態は、１つの実行ユニットのみ、または全ての機能を全てが実行する複数の実行ユニットを含んでよい。特定の実施形態では、特定のタイプのデータ／オペレーションに対して別個のパイプライン（例えば、スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／または、メモリアクセスパイプラインは、独自のスケジューラユニット、物理レジスタファイルユニット、および／または、実行クラスタを各々が有し、別個のメモリアクセスパイプラインの場合、特定の実施形態では、このパイプラインの実行クラスタのみがメモリアクセスユニット１５６４を有する実施形態において実装される）を作成するので、スケジューラユニット１５５６、物理レジスタファイルユニット１５５８および実行クラスタ１５６０は、場合によっては複数のものとして示されている。別個のパイプラインが用いられる場合、これらのパイプラインのうちの１つまたは複数はアウトオブオーダ発行／実行であってよく、残りはインオーダであってよいことも理解されたい。

【0164】

メモリアクセスユニット１５６４のセットがメモリユニット１５７０に結合され、メモリユニット１５７０は、レベル２（Ｌ２）キャッシュユニット１５７６に結合されたデータキャッシュユニット１５７４に結合されたデータＴＬＢユニット１５７２を含む。１つの例示的な実施形態において、メモリアクセスユニット１５６４は、ロードユニット、ストアアドレスユニットおよびストアデータユニットを含んでよく、これらの各々は、メモリユニット１５７０内のデータＴＬＢユニット１５７２に結合される。命令キャッシュユニット１５３４はさらに、メモリユニット１５７０内のレベル２（Ｌ２）キャッシュユニット１５７６に結合される。Ｌ２キャッシュユニット１５７６は、１または複数の他のレベルのキャッシュに結合され、最終的にメインメモリに結合される。

【0165】

例として、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプライン１５００を実装してよい。１）命令フェッチ１５３８がフェッチおよび長さデコードステージ１５０２および１５０４を実行し、２）デコードユニット１５４０がデコードステージ１５０６を実行し、３）リネーミング／アロケータユニット１５５２が割り当てステージ１５０８およびリネーミングステージ１５１０を実行し、４）スケジューラユニット１５５６がスケジューリングステージ１５１２を実行し、５）物理レジスタファイルユニット１５５８およびメモリユニット１５７０がレジスタ読み取り／メモリ読み取りステージ１５１４を実行し、実行クラスタ１５６０が実行ステージ１５１６を実行し、６）メモリユニット１５７０および物理レジスタファイルユニット１５５８がライトバック／メモリ書き込みステージ１５１８を実行し、７）様々なユニットが例外処理ステージ１５２２に関与してよく、８）リタイアメントユニット１５５４および物理レジスタファイルユニット１５５８がコミットステージ１５２４を実行する。

【0166】

コア１５９０は、本明細書で説明された命令を含む、１または複数の命令セット（例えば、（より新しいバージョンで追加されたいくつかの拡張を伴う）ｘ８６命令セット）、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓの（例えば、ＮＥＯＮなどの任意選択的な追加の拡張を伴う）ＡＲＭ命令セットをサポートしてよい。一実施形態において、コア１５９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含むことにより、多くのマルチメディアアプリケーションにより用いられるオペレーションがパックドデータを用いて実行されることを可能にする。

【0167】

コアはマルチスレッディング（オペレーションまたはスレッドからなる２つまたはそれよりも多くの並列セットを実行）をサポートしてよく、タイムスライスマルチスレッディング、同時マルチスレッディング（物理コアが同時にマルチスレッディングしているスレッドの各々に対して、単一の物理コアが論理コアを提供する）、またはそれらの組み合わせ（例えば、タイムスライスフェッチおよびデコード、ならびにその後のＩｎｔｅｌ（登録商標）ハイパースレッディング・テクノロジーなどの同時マルチスレッディング）を含む様々な態様でサポートしてよいことを理解されたい。

【0168】

レジスタリネーミングはアウトオブオーダ実行の文脈で説明されているが、レジスタリネーミングはインオーダアーキテクチャで用いられてもよいことを理解されたい。プロセッサの示される実施形態はまた、別個の命令およびデータキャッシュユニット１５３４／１５７４ならびに共有型Ｌ２キャッシュユニット１５７６を含むが、代替的な実施形態は、命令およびデータ両方のために、例えば、レベル１（Ｌ１）内部キャッシュまたは複数のレベルの内部キャッシュなどの単一の内部キャッシュを有してよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュとの組み合わせを含んでよい。代替的に、キャッシュの全てがコアおよび／またはプロセッサの外部にあってもよい。
［具体的な例示的インオーダコアアーキテクチャ］

【0169】

図１６Ａおよび図１６Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロック図を示す。当該コアは、チップ内のいくつかの論理ブロック（同じタイプおよび／または異なるタイプの他のコアを含む）のうちの１つになるであろう。論理ブロックは、高帯域幅相互接続ネットワーク（例えば、リングネットワーク）を通じて、アプリケーションに応じて、いくつかの固定機能ロジック、メモリＩ／Ｏインタフェースおよび他の必要なＩ／Ｏロジックと通信する。

【0170】

図１６Ａは、本開示の実施形態による、オンダイ相互接続ネットワーク１６０２への接続およびレベル２（Ｌ２）キャッシュ１６０４のローカルサブセットと共に示す、シングルプロセッサコアのブロック図である。一実施形態において、命令デコードユニット１６００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ１６０６は、スカラユニットおよびベクトルユニットへのキャッシュメモリに対する低レイテンシアクセスを可能にする。一実施形態において、（設計を単純化するために）スカラユニット１６０８およびベクトルユニット１６１０は、別個のレジスタセット（それぞれ、スカラレジスタ１６１２およびベクトルレジスタ１６１４）を用いており、それらの間で転送されるデータは、メモリに書き込まれ、次に、レベル１（Ｌ１）キャッシュ１６０６からリードバックされるが、本開示の代替的な実施形態は、異なるアプローチ（例えば、単一のレジスタセットを用いる、または、書き込まれることもリードバックされることもなく２つのレジスタファイル間でデータが転送されることを可能にする通信経路を含む）を用いてよい。

【0171】

Ｌ２キャッシュのローカルサブセット１６０４は、プロセッサコアごとに１つである別個のローカルサブセットに分割されるグローバルＬ２キャッシュの一部である。各プロセッサコアは、独自のＬ２キャッシュのローカルサブセット１６０４への直接アクセス経路を有する。プロセッサコアにより読み取られたデータは、Ｌ２キャッシュサブセット１６０４に格納され、他のプロセッサコアが独自のローカルＬ２キャッシュサブセットにアクセスするのと並行して、迅速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、独自のＬ２キャッシュサブセット１６０４に格納され、必要な場合、他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、双方向性であることにより、プロセッサコア、Ｌ２キャッシュおよび他の論理ブロックなどのエージェントがチップ内で互いに通信することを可能にする。各リングデータ経路は、一方向当たり１０１２ビット幅である。

【0172】

図１６Ｂは、本開示の実施形態による、図１６Ａにおけるプロセッサコアの一部の拡大図である。図１６Ｂは、Ｌ１キャッシュ１６０４の一部であるＬ１データキャッシュ１６０６Ａ、ならびにベクトルユニット１６１０およびベクトルレジスタ１６１４に関するより詳細を含む。具体的には、ベクトルユニット１６１０は、１６幅のベクトル処理ユニット（ＶＰＵ）（１６幅のＡＬＵ１６２８を参照）であり、整数命令、単精度浮動小数点命令および倍精度浮動小数点命令のうちの１つまたは複数を実行する。ＶＰＵは、スウィズルユニット１６２０を用いたレジスタ入力のスウィズルと、数値変換ユニット１６２２Ａ－Ｂを用いた数値変換と、メモリ入力に対する複製ユニット１６２４を用いた複製とをサポートする。書き込みマスクレジスタ１６２６は、結果として得られるベクトル書き込みの予測を可能にする。

【0173】

図１７は、本開示の実施形態による、１つよりも多くのコアを有してよく、統合メモリコントローラを有してよく、かつ、統合グラフィックスを有してよいプロセッサ１７００のブロック図である。図１７内の実線のボックスは、単一のコア１７０２Ａと、システムエージェント１７１０と、１または複数のバスコントローラユニット１７１６のセットとを有するプロセッサ１７００を示し、一方、任意選択的な追加の破線のボックスは、複数のコア１７０２Ａ－Ｎと、システムエージェントユニット１７１０内の１または複数の統合メモリコントローラユニット１７１４のセットと、専用ロジック１７０８とを有する代替的なプロセッサ１７００を示す。

【0174】

したがって、プロセッサ１７００の異なる実装は、１）専用ロジック１７０８が統合グラフィックスおよび／または科学（スループット）ロジック（１または複数のコアを含んでよい）であり、コア１７０２Ａ－１７０２Ｎが１または複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、それら２つの組み合わせ）であるＣＰＵ、２）コア１７０２Ａ－１７０２Ｎが、主にグラフィックスおよび／または科学（スループット）向けの多数の専用コアであるコプロセッサ、ならびに３）コア１７０２Ａ－１７０２Ｎが多数の汎用インオーダコアであるコプロセッサを含んでよい。したがって、プロセッサ１７００は、汎用プロセッサ、コプロセッサまたは専用プロセッサ、例えば、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、高スループットの多数統合コア（ＭＩＣ）コプロセッサ（３０個またはそれよりも多くのコアを含む）、組み込みプロセッサ等であってもよい。プロセッサは、１または複数のチップ上で実装されてよい。プロセッサ１７００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳまたはＮＭＯＳなどの多数の処理技術のうちのいずれかを用いる１または複数の基板の一部であってよく、および／または、当該基板上に実装されてよい。

【0175】

メモリ階層は、コア内の１または複数のレベルのキャッシュと、共有キャッシュユニット１７０６のセットあるいは１または複数の共有キャッシュユニット１７０６と、統合メモリコントローラユニット１７１４のセットに結合された外部メモリ（不図示）とを含む。共有キャッシュユニット１７０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、または他のレベルのキャッシュなど、１または複数の中間レベルのキャッシュまたは他のレベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）および／またはそれらの組み合わせを含んでよい。一実施形態において、リングベースの相互接続ユニット１７１２は、統合グラフィックスロジック１７０８、共有キャッシュユニット１７０６のセットおよびシステムエージェントユニット１７１０／統合メモリコントローラユニット１７１４を相互接続し、一方、代替的な実施形態は、そのようなユニットを相互接続するための任意の数の周知の技術を用いてよい。一実施形態において、１または複数のキャッシュユニット１７０６とコア１７０２－Ａ－Ｎとの間でコヒーレンシが維持される。

【0176】

いくつかの実施形態において、コア１７０２Ａ－Ｎのうちの１つまたは複数がマルチスレッディング可能である。システムエージェント１７１０は、コア１７０２Ａ－Ｎを調整し動作させるそれらのコンポーネントを含む。システムエージェントユニット１７１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含んでよい。ＰＣＵは、コア１７０２Ａ－Ｎおよび統合グラフィックスロジック１７０８の電力状態を調整するのに必要なロジックおよびコンポーネントであってもよく、当該ロジックおよび当該コンポーネントを含んでもよい。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

【0177】

コア１７０２Ａ－１７０２Ｎは、アーキテクチャ命令セットに関して同種でも異種でもよい。すなわち、コア１７０２Ａ－１７０２Ｎのうち２つまたはそれよりも多くは、同じ命令セットを実行することが可能であってよく、一方、他のものは、その命令セットのサブセットまたは異なる命令セットのみを実行することが可能であってよい。
［例示的なコンピュータアーキテクチャ］

【0178】

図１８から図２１は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、パーソナルデジタルアシスタント、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイスおよび様々な他の電子デバイスについて当技術分野で既知の他のシステム設計および構成も適切である。概して、本明細書において開示されるプロセッサおよび／または他の実行ロジックを組み込むことが可能な多種多様なシステムまたは電子デバイスが、概して適切である。

【0179】

ここで図１８を参照すると、本開示の一実施形態によるシステム１８００のブロック図が示される。システム１８００は、１または複数のプロセッサ１８１０、１８１５を含んでよく、これらはコントローラハブ１８２０に結合されている。一実施形態において、コントローラハブ１８２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）１８９０および入力／出力ハブ（ＩＯＨ）１８５０（別個のチップ上にあり得る）を含む。ＧＭＣＨ１８９０は、メモリおよびグラフィックスコントローラを含み、これらにメモリ１８４０およびコプロセッサ１８４５が結合される。ＩＯＨ１８５０は、入力／出力（Ｉ／Ｏ）デバイス１８６０をＧＭＣＨ１８９０に結合する。代替的に、メモリおよびグラフィックスコントローラのうちの一方または両方は、（本明細書において説明されるように）プロセッサ内に統合され、メモリ１８４０およびコプロセッサ１８４５は、プロセッサ１８１０と、ＩＯＨ１８５０を有する単一チップ内のコントローラハブ１８２０とに直接結合される。メモリ１８４０は、例えば、実行された場合にプロセッサに本開示の任意の方法を実行させるコードを格納するための分岐予測器コード１８４０Ａを含んでよい。

【0180】

任意選択的な性質の追加のプロセッサ１８１５は、図１８に破線で示される。各プロセッサ１８１０、１８１５は、本明細書において説明される処理コアのうちの１つまたは複数を含んでよく、プロセッサ１７００のいくつかのバージョンであってよい。

【0181】

メモリ１８４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）またはこれら２つの組み合わせであってよい。少なくとも１つの実施形態では、コントローラハブ１８２０は、マルチドロップバス、例えば、フロントサイドバス（ＦＳＢ）、Ｑｕｉｃｋｐａｔｈ相互接続（ＱＰＩ）などのポイントツーポイントインタフェースまたは同様の接続１８９５を介して、プロセッサ１８１０、１８１５と通信する。

【0182】

一実施形態において、コプロセッサ１８４５は、専用プロセッサ、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等である。一実施形態において、コントローラハブ１８２０は、統合グラフィックスアクセラレータを含んでよい。

【0183】

アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性および電力消費特性等を含む広範な価値基準に関して、物理リソース１８１０、１８１５の間には様々な差異があり得る。

【0184】

一実施形態において、プロセッサ１８１０は、一般的なタイプのデータ処理オペレーションを制御する命令を実行する。命令内には、コプロセッサ命令が組み込まれてよい。プロセッサ１８１０は、これらのコプロセッサ命令を、取り付けられたコプロセッサ１８４５が実行すべきタイプの命令であると認識する。したがって、プロセッサ１８１０は、これらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサバスまたは他の相互接続でコプロセッサ１８４５に発行する。コプロセッサ１８４５は、受信したコプロセッサ命令を受け入れて実行する。

【0185】

ここで図１９を参照すると、本開示の実施形態による第１のより具体的な例示的なシステム１９００のブロック図が示される。図１９に示されるように、マルチプロセッサシステム１９００は、ポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続１９５０を介して結合された第１のプロセッサ１９７０および第２のプロセッサ１９８０を含む。プロセッサ１９７０および１９８０の各々は、プロセッサ１７００のいくつかのバージョンであってよい。本開示の一実施形態において、プロセッサ１９７０および１９８０はそれぞれ、プロセッサ１８１０および１８１５であり、一方、コプロセッサ１９３８は、コプロセッサ１８４５である。別の実施形態において、プロセッサ１９７０および１９８０はそれぞれ、プロセッサ１８１０およびコプロセッサ１８４５である。

【0186】

プロセッサ１９７０および１９８０は、統合メモリコントローラ（ＩＭＣ）ユニット１９７２および１９８２をそれぞれ含むように示されている。プロセッサ１９７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ－Ｐ）インタフェース１９７６および１９７８を含み、同様に、第２のプロセッサ１９８０は、Ｐ－Ｐインタフェース１９８６および１９８８を含む。プロセッサ１９７０、１９８０は、ポイントツーポイント（Ｐ－Ｐ）インタフェース１９５０を介し、Ｐ－Ｐインタフェース回路１９７８、１９８８を用いて情報を交換してよい。図１９に示されるように、ＩＭＣ１９７２および１９８２は、プロセッサをそれぞれのメモリに、すなわちメモリ１９３２およびメモリ１９３４に結合し、これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であってよい。

【0187】

プロセッサ１９７０、１９８０は各々、個々のＰ－Ｐインタフェース１９５２、１９５４を介し、ポイントツーポイントインタフェース回路１９７６、１９９４、１９８６、１９９８を用いてチップセット１９９０と情報を交換してよい。チップセット１９９０は、任意選択で、高性能インタフェース１９３９を介してコプロセッサ１９３８と情報を交換してよい。一実施形態において、コプロセッサ１９３８は、専用プロセッサ、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等である。

【0188】

共有キャッシュ（不図示）は、プロセッサまたは両方のプロセッサの外部のいずれかに含まれてよく、さらに、Ｐ－Ｐ相互接続を介してプロセッサと接続されてよく、その結果、プロセッサが低電力モードになった場合、プロセッサのローカルキャッシュ情報のいずれかまたは両方は、共有キャッシュに格納されてよい。

【0189】

チップセット１９９０は、インタフェース１９９６を介して第１のバス１９１６に結合されてよい。一実施形態において、第１のバス１９１６は、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバスもしくは別の第３世代Ｉ／Ｏ相互接続バスなどのバスであってよいが、本開示の範囲は、そのようには限定されない。

【0190】

図１９に示されるように、第１のバス１９１６を第２のバス１９２０に結合するバスブリッジ１９１８と共に、様々なＩ／Ｏデバイス１９１４が第１のバス１９１６に結合されてよい。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵのアクセラレータ（例えば、グラフィックスアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイまたは任意の他のプロセッサなど、１または複数の追加のプロセッサ１９１５が、第１のバス１９１６に結合される。一実施形態において、第２のバス１９２０は、ローピンカウント（ＬＰＣ）バスであってよい。一実施形態において、例えば、キーボードおよび／またはマウス１９２２、通信デバイス１９２７およびストレージユニット１９２８、命令／コードおよびデータ１９３０などを含み得るディスクドライブまたは他の大容量ストレージデバイスを含む様々なデバイスが、第２のバス１９２０に結合されてよい。さらに、オーディオＩ／Ｏ１９２４が、第２のバス１９２０に結合されてよい。他のアーキテクチャが可能であることに留意されたい。例えば、図１９のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装してよい。

【0191】

ここで図２０を参照すると、本開示の実施形態による第２のより具体的な例示的なシステム２０００のブロック図が示される。図１９及び図２０の同様の要素には同様の参照符号が付され、図１９の特定の態様は、図２０の他の態様を曖昧にするのを回避すべく、図２０から省略されている。

【0192】

図２０は、プロセッサ１９７０、１９８０が統合メモリならびにＩ／Ｏ制御ロジック（「ＣＬ」）１９７２および１９８２をそれぞれ含み得ることを示す。したがって、ＣＬ１９７２、１９８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図２０は、メモリ１９３２、１９３４がＣＬ１９７２、１９８２に結合されているだけでなく、Ｉ／Ｏデバイス２０１４も制御ロジック１９７２、１９８２に結合されていることを示している。レガシＩ／Ｏデバイス２０１５が、チップセット１９９０に結合される。

【0193】

ここで図２１を参照すると、本開示の実施形態によるＳｏＣ２１００のブロック図が示される。図１７の同様の要素には同様の参照符号が付されている。また、破線のボックスは、より高度なＳｏＣ上の任意選択的な特徴である。図２１において、相互接続ユニット２１０２は、１または複数のコア２０２Ａ－Ｎのセットおよび共有キャッシュユニット１７０６を含むアプリケーションプロセッサ２１１０と、システムエージェントユニット１７１０と、バスコントローラユニット１７１６と、統合メモリコントローラユニット１７１４と、統合グラフィックスロジック、イメージプロセッサ、オーディオプロセッサおよびビデオプロセッサを含み得るセットあるいは１または複数のコプロセッサ２１２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット２１３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット２１３２と、１または複数の外部ディスプレイに結合するためのディスプレイユニット２１４０とに結合される。一実施形態において、コプロセッサ２１２０は、専用プロセッサ、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサまたは組み込みプロセッサ等を含む。

【0194】

本明細書において開示される（例えば、メカニズムの）実施形態は、ハードウェア、ソフトウェア、ファームウェアまたはそのような実装アプローチの組み合わせで実装されてよい。本開示の実施形態は、少なくとも１つのプロセッサと、（揮発性メモリおよび不揮発性メモリおよび／またはストレージ要素を含む）ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを備えるプログラマブルシステムで実行されるコンピュータプログラムまたはプログラムコードとして実装されてよい。

【0195】

図１９に示されるコード１９３０などのプログラムコードは、本明細書において説明される機能を実行し、出力情報を生成する命令を入力するために適用されてよい。出力情報は、既知の方式で、１または複数の出力デバイスに適用されてよい。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）またはマイクロプロセッサなどのプロセッサを有する任意のシステムを含む。

【0196】

プログラムコードは、処理システムと通信するために、高水準手順型またはオブジェクト指向プログラミング言語で実装されてよい。プログラムコードは、必要に応じて、アセンブリ言語または機械言語で実装されてもよい。実際には、本明細書において説明されるメカニズムは、いかなる特定のプログラミング言語にも範囲が限定されない。どのような場合でも、言語は、コンパイル型言語またはインタプリタ型言語であってよい。

【0197】

少なくとも１つの実施形態の１または複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体に格納された代表的な命令により実装されてよく、当該命令は、機械により読み取られた場合、本明細書において説明する技術を実行するためのロジックを機械に組み立てさせる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に格納され、ロジックまたはプロセッサを実際に作成する製造機械にロードするために、様々な顧客または製造施設に供給されてよい。

【0198】

そのような機械可読記憶媒体には、ハードディスク、フロッピーディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ－ＲＷ）、および光磁気ディスクを含む任意の他のタイプのディスク、リードオンリメモリ（ＲＯＭ）などの半導体デバイス、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）、磁気カードもしくは光カードまたは電子命令を格納するのに適切な任意の他のタイプの媒体などの記憶媒体を含む、機械またはデバイスにより製造または形成された物品の非一時的有形構成が含まれてもよいが、それらに限定されない。

【0199】

したがって、本開示の実施形態は、命令を含む、または設計データ、例えば、本明細書において説明される構造、回路、装置、プロセッサおよび／またはシステムの機能を定義するハードウェア記述言語（ＨＤＬ）を含む非一時的な有形の機械可読媒体も含む。そのような実施形態は、プログラム製品とも称され得る。
［エミュレーション（バイナリ変換、コードモーフィング等を含む）］

【0200】

場合によっては、命令コンバータは、命令をソース命令セットからターゲット命令セットに変換するために用いられてよい。例えば、命令コンバータは、命令を、コアにより処理される１または複数の他の命令に、（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を用いて）変換するか、モーフィングするか、エミュレートするか、または他の方法で変換してよい。命令コンバータは、ソフトウェア、ハードウェア、ファームウェアまたはそれらの組み合わせで実装されてよい。命令コンバータは、プロセッサ上にあってもよく、プロセッサ外にあってもよく、一部がプロセッサ上にあり、かつ一部がプロセッサ外にあってもよい。図２２は、本開示の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令へ変換するためのソフトウェア命令コンバータの使用を対比したブロック図である。示される実施形態において、命令コンバータは、ソフトウェア命令コンバータであるが、代替的に、ソフトウェア、ファームウェア、ハードウェアまたはそれらの様々な組み合わせで実装されてよい。図２２は、高水準言語２２０２のプログラムがｘ８６コンパイラ２２０４を用いてコンパイルされ、少なくとも１つのｘ８６命令セットコアを有するプロセッサ２２１６によりネイティブに実行され得るｘ８６バイナリコード２２０６を生成し得ることを示す。少なくとも１つのｘ８６命令セットコアを有するプロセッサ２２１６は、少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサと実質的に同じ結果を実現すべく、（１）Ｉｎｔｅｌ（登録商標）ｘ８６命令セットコアの命令セットの大部分、または（２）少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサ上での実行を目的とするアプリケーションまたは他のソフトウェアのオブジェクトコードバージョンを互換的に実行するか、またはそれ以外の方法で処理することにより、少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサと実質的に同じ機能を実行できる任意のプロセッサを表す。ｘ８６コンパイラ２２０４は、追加のリンケージ処理の有無にかかわらず、少なくとも１つのｘ８６命令セットコアを有するプロセッサ２２１６上で実行され得るｘ８６バイナリコード２２０６（例えば、オブジェクトコード）を生成するよう動作可能なコンパイラを表す。同様に、図２２は、高水準言語２２０２のプログラムが、代替的な命令セットバイナリコード２２１０を生成する代替的な命令セットコンパイラ２２０８を用いてコンパイルされ得ることを示す。代替的な命令セットバイナリコード２２１０は、少なくとも１つのｘ８６命令セットコアを有さないプロセッサ２２１４（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行する、および／または、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを有するプロセッサ）によりネイティブに実行されてよい。命令コンバータ２２１２は、ｘ８６バイナリコード２２０６を、ｘ８６命令セットコアを有さないプロセッサ２２１４によりネイティブに実行され得るコードに変換するために用いられる。この変換されたコードは、代替的な命令セットバイナリコード２２１０と同じになる可能性は低い。なぜなら、この変換が可能な命令コンバータは製造が難しいからである。しかしながら、変換されたコードは、一般的なオペレーションを実現し、代替的な命令セットの命令で構成される。したがって、命令コンバータ２２１２は、エミュレーション、シミュレーションまたは任意の他の処理を通じて、ｘ８６命令セットプロセッサまたはコアを有さないプロセッサまたは他の電子デバイスがｘ８６バイナリコード２２０６を実行することを可能にするソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを表す。
［他の可能な項目］
［項目１］
複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを有するパイプライン回路と、
分岐命令の予測経路を生成するための分岐予測器回路と、
ロード命令からの結果に依存する上記分岐命令について、上記パイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックし、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックし、上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記パイプライン回路内の上記分岐命令を上記経路へ再誘導し、上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令の実行を生じさせるための分岐再誘導回路と
を備えるプロセッサ。
［項目２］
上記分岐再誘導回路は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする、項目１に記載のプロセッサ。
［項目３］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当て、上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする、項目２に記載のプロセッサ。
［項目４］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、ロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する、項目３に記載のプロセッサ。
［項目５］
上記分岐再誘導回路は、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる、項目３に記載のプロセッサ。
［項目６］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、項目１に記載のプロセッサ。
［項目７］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、項目６に記載のプロセッサ。
［項目８］
１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定するための、上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路をさらに備える、項目１に記載のプロセッサ。
［項目９］
プロセッサの分岐予測器回路で分岐命令の予測経路を生成する段階と、
上記プロセッサの分岐再誘導回路が、ロード命令からの結果に依存する上記分岐命令について、複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを含む上記プロセッサのパイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックする段階と、
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路が上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックする段階と、
上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記分岐再誘導回路が上記パイプライン回路内の上記分岐命令を上記経路へ再誘導する段階と、
上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なる場合、上記実行回路が上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令を実行する段階と
を備える方法。
［項目１０］
上記ライトバックをチェックする上記段階は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする段階を有する、項目９に記載の方法。
［項目１１］
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路が上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当てる段階と、
上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする段階と
をさらに備える、項目１０に記載の方法。
［項目１２］
上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記分岐再誘導回路がロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する段階をさらに備える、項目１１に記載の方法。
［項目１３］
上記分岐再誘導回路が、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる段階をさらに備える、項目１１に記載の方法。
［項目１４］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、項目９に記載の方法。
［項目１５］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、項目１４に記載の方法。
［項目１６］
上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路で、１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定する段階をさらに備える、項目９に記載の方法。
［項目１７］
分岐命令およびロード命令を格納するためのメモリと、
上記メモリに結合されたプロセッサコアと
を備え、
上記プロセッサコアは、
複数の命令を複数のデコード済みの命令へとデコードするためのデコーダと上記複数のデコード済みの命令を実行するための実行回路とを有するパイプライン回路と、
上記分岐命令の予測経路を生成するための分岐予測器回路と、
上記ロード命令からの結果に依存する上記分岐命令について、上記パイプライン回路により受信された命令が上記ロード命令であるかどうかをチェックし、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記デコーダでの上記分岐命令のデコードと上記実行回路での上記分岐命令の実行との間の上記ロード命令からの上記結果のライトバックをチェックし、上記予測経路が上記ロード命令からの上記結果に基づく経路とは異なる場合、上記パイプライン回路内の上記分岐命令を上記経路へ再誘導し、上記ロード命令からの上記結果に基づく上記経路についての上記分岐命令の実行を生じさせるための分岐再誘導回路と
を有する、
システム。
［項目１８］
上記分岐再誘導回路は、上記結果の最終格納デスティネーションとは別個であるロード値テーブル内の上記結果の上記ライトバックをチェックする、項目１７に記載のシステム。
［項目１９］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、上記ロード命令の上記結果の上記ロード値テーブル内のエントリのインデックス値を割り当て、上記インデックス値が上記分岐命令のフィールドとして上記パイプライン回路へ送信されるようにする、項目１８に記載のシステム。
［項目２０］
上記分岐再誘導回路は、上記パイプライン回路により受信された上記命令が上記ロード命令である場合、ロード依存分岐テーブル内の上記分岐命令のエントリを上記インデックス値で更新する、項目１９に記載のシステム。
［項目２１］
上記分岐再誘導回路は、上記ロード命令からの上記結果にも依存する第２の分岐命令のインデックス値を割り当てる、項目１９に記載のシステム。
［項目２２］
上記分岐命令の上記再誘導は、上記分岐命令の実行を上記実行回路に割り当てる上記パイプライン回路の割り当てステージにおいて生じる、項目１７に記載のシステム。
［項目２３］
上記分岐命令の上記再誘導は、上記パイプライン回路から上記割り当てステージまでの上記予測経路についての上記分岐命令のデータのフラッシュを含む、項目２２に記載のシステム。
［項目２４］
上記プロセッサコアは、１または複数のオペレーションを実行して、上記予測経路が上記ロード命令からの上記結果に基づく上記経路とは異なるかどうかを決定するための、上記パイプライン回路の上記実行回路を含む実行ステージとは別個の回路をさらに有する、項目１７に記載のシステム。

【図1】