特表2024-545214 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特表2024-545214ニアメモリコンピュート要素のコヒーレンスディレクトリコントローラオーバーヘッドを低減するための機構

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3A
3B
3C

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-05

(54)【発明の名称】ニアメモリコンピュート要素のコヒーレンスディレクトリコントローラオーバーヘッドを低減するための機構

(51)【国際特許分類】

G06F 12/0817 20160101AFI20241128BHJP

G06F 12/0804 20160101ALI20241128BHJP

G06F 12/0808 20160101ALI20241128BHJP

G06F 12/00 20060101ALI20241128BHJP

【ＦＩ】

G06F12/0817

G06F12/0804 100

G06F12/0808

G06F12/00 560F

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024535346

(86)(22)【出願日】2022-12-01

(85)【翻訳文提出日】2024-06-26

(86)【国際出願番号】 US2022051580

(87)【国際公開番号】W WO2023121849

(87)【国際公開日】2023-06-29

(31)【優先権主張番号】17/561,112

(32)【優先日】2021-12-23

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ヴァルンアグラワール

(72)【発明者】

【氏名】ヤスコエッカート

【テーマコード（参考）】

5B160

5B205

【Ｆターム（参考）】

5B160MM20

5B205KK14

5B205MM03

5B205NN45

5B205NN89

5B205PP03

5B205PP22

(57)【要約】

プロセッシングインメモリプローブフィルタ（ＰｉｍＰＦ）とも呼ばれる並列処理（ＰＰ）レベルコヒーレンスディレクトリがコヒーレンスディレクトリコントローラに追加される。コヒーレンスディレクトリコントローラが、ホストからのブロードキャストＰＩＭコマンド又は複数のメモリバンクに並列に向けられたＰＩＭコマンドを受信すると、ＰｉｍＰＦは、コヒーレンスディレクトリコントローラ内で既存のシステムレベルディレクトリとは別のキャッシュコヒーレンスのためのディレクトリを維持することによって、ＰＩＭコマンドの処理を加速する。ＰｉｍＰＦは、ブロードキャストＰＩＭコマンドの影響を受けるメモリアドレスを定義するアドレスシグネチャに従ってディレクトリを維持する。レジスタへのＰＩＭロードを加速する軽量実装と、レジスタへのＰＩＭロード及びメモリへのＰＩＭストアの両方を加速する重量実装と、を記載する。
【選択図】図３Ａ

【特許請求の範囲】

【請求項1】

シグネチャによって特定される複数のメモリアドレスに対する並列処理（ＰＰ）コマンドを受信することと、
前記ＰＰコマンドが前記複数のメモリアドレスから複数のニアメモリコンピュート要素へのロードであることに応じて、
前記シグネチャを使用して、第１のクエリをＰＰレベルコヒーレンスディレクトリに発行することと、
前記第１のクエリの結果がミスであることに応じて、
前記複数のメモリアドレスを使用して、第２のクエリをシステムレベルコヒーレンスディレクトリに発行することと、
前記第２のクエリの結果に基づいて、少なくとも１つのキャッシュから前記複数のメモリアドレスに第１のダーティデータをフラッシュすることと、
前記シグネチャによってインデックス付けされた第１のエントリであって、前記複数のメモリアドレスがクリーンであるかどうかを示す第１のエントリを、前記ＰＰレベルコヒーレンスディレクトリに割り当てることと、
前記ＰＰコマンドを、前記複数のニアメモリコンピュート要素上で並列実行するためにメモリコントローラに送信することと、を含む、
方法。

【請求項2】

前記第１のクエリの結果がヒットであることに応じて、
前記第１のクエリの結果にシグネチャクリーンビットが設定されていることに応じて、前記第２のクエリの発行を抑制することを含む、
請求項１の方法。

【請求項3】

前記第１のクエリの結果がヒットであり、且つ、前記複数のメモリアドレスのダーティなセットを示すことに応じて、
前記複数のメモリアドレスのダーティなセットを使用して、第５のクエリを前記システムレベルコヒーレンスディレクトリに発行することと、
前記第５のクエリの結果に基づいて、前記少なくとも１つのキャッシュから前記複数のメモリアドレスに第２のダーティデータをフラッシュすることと、
前記第２のダーティデータをフラッシュしたことに基づいて、前記ＰＰレベルコヒーレンスディレクトリの前記第１のエントリを更新することと、を含む、
請求項１の方法。

【請求項4】

前記ＰＰコマンドが前記複数のニアメモリコンピュート要素から前記複数のメモリアドレスへのストアであると判定したことに応じて、
前記シグネチャを使用して、第３のクエリを前記ＰＰレベルコヒーレンスディレクトリに発行することと、
前記第３のクエリの結果に基づいて、前記複数のメモリアドレスを使用して、第４のクエリを前記システムレベルコヒーレンスディレクトリに発行することと、
前記第４のクエリの結果に基づいて、前記少なくとも１つのキャッシュから前記複数のメモリアドレスに第３のダーティデータをフラッシュすることと、
前記第４のクエリの結果に基づいて、前記少なくとも１つのキャッシュからのクリーンデータを無効化することと、
第２のエントリが未だ存在していないことに応じて、前記シグネチャによってインデックス付けされた前記第２のエントリを前記ＰＰレベルコヒーレンスディレクトリに割り当てることと、
前記複数のメモリアドレスがキャッシュされていないことを示すように前記第２のエントリを更新することと、を含む、
請求項１の方法。

【請求項5】

前記第４のクエリを前記システムレベルコヒーレンスディレクトリに発行することは、前記ＰＰレベルコヒーレンスディレクトリにおいてクリーン又はダーティと示されている前記複数のメモリアドレスの各々に対して行われる、
請求項４の方法。

【請求項6】

前記ＰＰレベルコヒーレンスディレクトリ内の各エントリは、前記各エントリ内の関連するメモリアドレスが（１）クリーンであるか、又は、（２）ダーティであるかを示すシグネチャクリーンビットを含む、
請求項１の方法。

【請求項7】

前記ＰＰレベルコヒーレンスディレクトリ内の各エントリは、前記各エントリ内の関連するメモリアドレスが（１）キャッシュされていないか、（２）クリーンであるか、又は、（３）ダーティであるかを示すデータ構造を含む、
請求項１の方法。

【請求項8】

前記データ構造は、前記関連するメモリアドレスの各々が、前記システムレベルコヒーレンスディレクトリの１つ以上の粒度レベルにおいて対応するエントリを有するかどうかを示す、
請求項７の方法。

【請求項9】

前記複数のニアメモリコンピュート要素は、インメモリコンピュート要素又はニアメモリコンピュート要素である、
請求項１の方法。

【請求項10】

前記複数のメモリアドレスは、選択されたメモリチャネルの複数のメモリバンクの同じメモリセルに対応する、
請求項１の方法。

【請求項11】

前記複数のメモリバンクは、前記選択されたメモリチャネルの全てのメモリバンクに対応する、
請求項１０の方法。

【請求項12】

前記ダーティなセットは、前記複数のメモリアドレスのサブセットである、
請求項３の方法。

【請求項13】

請求項１～１２の何れかの方法を行うように構成された処理ロジックを備える、
コヒーレンスディレクトリコントローラ。

【請求項14】

請求項１～１２の何れかの方法を行うためにプロセッサによって実行可能な命令を含む、
コンピュータ可読記憶媒体。

【発明の詳細な説明】

【背景技術】

【0001】

このセクションに記載されているアプローチは、遂行され得るアプローチであるが、必ずしも以前に着想又は遂行されたアプローチではない。したがって、別段の指示がない限り、このセクションに記載されたアプローチの何れも、単にこのセクションに含まれることによって、従来技術として適格であると仮定すべきではない。更に、このセクションに記載されたアプローチの何れも、単にこのセクションに含まれることによって、よく理解されている、日常的である、又は、従来的であると仮定すべきではない。

【0002】

計算スループットは、メモリ帯域幅よりも速くスケーリングするので、増大する計算容量にデータを供給し続けるために様々な技術が開発されてきた。プロセッシングインメモリ（Processing In Memory：ＰＩＭ）では、タスクをメモリモジュール内で直接処理できるように、メモリモジュールに処理能力を組み込む。同様に、プロセッシングニアメモリ（Processing Near Memory：ＰＮＭ）技術では、ホストプロセッサ又は他の遠隔コンピューティングユニットへのコストのかかるラウンドトリップ伝送（costly round-trip transmission）なしにタスクを処理することができるように、メモリモジュールの近くに処理能力を組み込む。本明細書で使用する場合、ニアメモリコンピュート要素又はプロセッシングニアメモリ（ＰＮＭ）という用語は、インメモリコンピュート要素又はプロセッシングインメモリ（ＰＩＭ）を指すこともあり、その逆もある。

【0003】

ダイナミックランダムアクセスメモリ（Dynamic Random-Access Memory：ＤＲＡＭ）のコンテキストでは、ＰＩＭ構成の一例は、算術計算等のいくつかの計算をメモリ内でローカルに行うことができるようにするベクトルコンピュート要素及びローカルレジスタを含む。これにより、メモリコントローラが、メモリモジュールインターフェースをわたってデータを移動する必要なく、複数のメモリモジュールで並列にローカル計算をトリガできるようになり、それにより、特にデータ集約的なワークロードについて性能を大幅に改善することができる。

【0004】

ＰＩＭ技術を使用して計算をメモリにオフロードすることの１つの技術的問題は、例えば、データバストラフィック及びプロセッサに対する計算負荷を低減する一方で、機能的な正確性を確保するために追加の工程を行わなければならないことである。これらの追加の工程には、あるニアメモリセントリックコマンドに対応するアドレスのデータを格納しているプロセッサ側キャッシュがあるかどうかを判定するためにコヒーレンスディレクトリコントローラでアドレスチェックを行い、次いで、特定されたデータがあればフラッシュ及び／又は無効化することが含まれる。より具体的には、ニアメモリセントリックコマンドによってアクセスされるアドレスのダーティデータをキャッシュが格納している場合、そのニアメモリセントリック動作が確実に最新版のデータについて動作するようにするために、そのダーティデータをキャッシュからメモリにフラッシュしなければならない。このデータを更新したニアメモリセントリックコマンドについてキャッシュがクリーンデータを格納している場合、その後に続くプロセッサ側のコンピュートセントリック動作がキャッシュからの古いデータを使用する代わりに、確実にメモリからニアメモリセントリック動作の結果を取り出すようにするために、そのクリーンデータを無効化しなければならない。

【0005】

ＰＩＭ技術の使用による性能利益を最適化するために、メモリコントローラは、メモリチャネルの複数のターゲットバンクに並列にブロードキャストＰＩＭコマンドを発行して、それらのターゲットバンクに、同じ個別のメモリセル（行、列）に対して同じ動作を行わせることができる。ただし、上述した機能的な正確性の要件に起因して、ブロードキャストＰＩＭコマンドを進めるためには、その前に、コヒーレンスディレクトリコントローラにおいて、ブロードキャストＰＩＭコマンドのターゲットである各メモリアドレスにルックアップクエリが必要になることがある。更に、メモリチャネルアドレスインターリーブ及びハードウェアベースのＰＩＭ実装の要件に起因して、メモリアドレスの各々は、個々のルックアップを必要とする個別のディレクトリエントリ内で参照されることがある。こうしたルックアップによって、特に、多数のブロードキャストＰＩＭコマンドを生成する可能性のあるワークステーション及びデータセンタのワークロードにサービスを提供する際に、有意の処理ボトルネックが発生する可能性がある。

【0006】

したがって、ブロードキャストＰＩＭコマンド又はＰＮＭコマンドを処理する場合に、コヒーレンスディレクトリコントローラのオーバーヘッドをどのように低減するかという技術的問題の解決策の必要がある。

【0007】

実施例は、添付の図面において限定としてではなく例として示され、同様の符号は同様の素子を指す。

【図面の簡単な説明】

【0008】

【図1A】コヒーレンスディレクトリコントローラ内にＰＩＭプローブフィルタ（ＰｉｍＰＦ）を実装するためのシステムアーキテクチャの一例を示すブロック図である。

【図1B】図１Ａによる例示的なメモリモジュールを示すブロック図である。

【図2】ＰｉｍＰＦディレクトリのための例示的なデータ構造を示すブロック図である。

【図3A】オーバーヘッドを低減しながらブロードキャストＰＩＭ要求にサービスを提供するために、コヒーレンスディレクトリコントローラにＰｉｍＰＦを実装するためのアプローチを示すフロー図である。

【図3B】オーバーヘッドを低減しながらブロードキャストＰＩＭ要求にサービスを提供するために、コヒーレンスディレクトリコントローラにＰｉｍＰＦを実装するためのアプローチを示すフロー図である。

【図3C】オーバーヘッドを低減しながらブロードキャストＰＩＭ要求にサービスを提供するために、コヒーレンスディレクトリコントローラにＰｉｍＰＦを実装するためのアプローチを示すフロー図である。

【発明を実施するための形態】

【0009】

以下の説明では、説明の目的のために、実施形態の十分な理解を提供するための多くの具体的な詳細が記載される。しかしながら、これらの特定の詳細なしに実施形態を実現し得ることが当業者には明らかであろう。他の例では、実施形態を不必要に不明瞭にすることを避けるために、周知の構造及びデバイスがブロック図で示されている。
Ｉ．概要
ＩＩ．アーキテクチャ
ＩＩＩ．ブロードキャストＰＩＭコマンド
ＩＶ．ＰｉｍＰＦコヒーレンスディレクトリデータ構造
Ｖ．オーバーヘッドを低減するための、コヒーレンスディレクトリコントローラにおけるＰｉｍＰＦの使用
Ａ．ＰＩＭロードにＰｉｍＰＦを使用する例示的なプロセス
Ｂ．ＰＩＭストアにＰｉｍＰＦを使用する例示的なプロセス
Ｃ．ＰｉｍＰＦコヒーレンスディレクトリの維持

【0010】

（Ｉ．概要）
ニアメモリコンピュート要素のコヒーレンスディレクトリコントローラオーバーヘッドを低減するためのアプローチを提供する。このアプローチによれば、プロセッシングインメモリプローブフィルタ（Processing In-Memory Probe Filter：ＰｉｍＰＦ）とも呼ばれる並列処理（parallel processing：ＰＰ）レベルコヒーレンスディレクトリがコヒーレンスディレクトリコントローラに追加される。コヒーレンスディレクトリコントローラが、ホストからのブロードキャストＰＩＭコマンド又は複数のメモリバンクに並列に向けられたＰＩＭコマンドを受信すると、ＰｉｍＰＦは、コヒーレンスディレクトリコントローラ内で既存のシステムレベルディレクトリとは別の、キャッシュコヒーレンスのためのディレクトリを維持することによって、そのＰＩＭコマンドの処理を加速する。ＰｉｍＰＦは、ブロードキャストＰＩＭコマンドの影響を受けるメモリアドレスを定義するアドレスシグネチャに従ってディレクトリを維持する。ＰｉｍＰＦは、１つ以上のシステムレベルディレクトリと共に使用することができる。ＰｉｍＰＦの２つの実施形態、すなわち、レジスタへのＰＩＭロードを加速する軽量実装（lightweight implementation）、並びに、レジスタへのＰＩＭロード及びメモリへのＰＩＭストアの両方を加速する重量実装（heavyweight implementation）について記載する。この技術的解決策は、ニアメモリコンピュータ要素を使用するブロードキャストＰＩＭコマンドのためのシステムレベルコヒーレンスディレクトリルックアップの数を低減する。

【0011】

このアプローチは、様々な状況への幅広い適用可能性を有する。例えば、主としてＰＩＭロードを発行するワークロードを処理する場合、軽量実装には、実装の簡略化及びメモリフットプリントの低減という利点がある。有意のＰＩＭストアアクティビティも含むワークロードを処理する場合には、重量実装が好ましいことがある。更に、その個別のディレクトリのメモリ消費を、エントリの最大数を定義し、最も過去に使用された（least recently used：ＬＲＵ）エントリ又は他の追い出し規則に従ってエントリを追い出すことによって制御することができる。既存のコヒーレンスディレクトリコントローラ内にＰｉｍＰＦを実装することによって、アーキテクチャの有意の変更を回避しながら、ＰＩＭに性能の改善をもたらすことができる。

【0012】

（ＩＩ．アーキテクチャ）
図１Ａは、コヒーレンスディレクトリコントローラ１５０内にＰＩＭプローブフィルタ（ＰｉｍＰＦ）又はＰＰレベルコヒーレンスディレクトリ１６０を実装するための例示的なシステムアーキテクチャ１００を示すブロック図である。コンピューティングデバイス１１０は、汎用マルチコアプロセッサ及びグラフィックス処理ユニット（ＧＰＵ）等の１つ以上の処理ユニットを有する任意のワークステーション又はサーバによって実装される。図１Ａにはプロセッサ１２０Ａ及びプロセッサ１２０Ｂが示され、各々が対応するキャッシュ１３０Ａ及び１３０Ｂを有する。キャッシュは、各々Ｌ１、Ｌ２、Ｌ３の３レベルのキャッシュ等の複数レベルのキャッシュを含んでもよい。複数の処理ユニットを全体的にホスト１１５と称してもよい。

【0013】

ホスト１１５は、ＰＩＭコマンドを、最終的にＰＩＭコンピュートユニット１９０Ａ及び１９０Ｂ上で実行されるように、データバス１４０を介して送信してもよい。その前に、機能的な正確性を確保するために、且つ、ＰＩＭコマンドを正しいメモリモジュール１８０Ａ及び１８０Ｂにルーティングするために、メモリサブシステム１４５の構成要素が様々なタスクを行ってもよい。例えば、ＰＩＭコンピュートユニット１９０Ａ及び１９０Ｂが確実に最新の正しいデータについて動作するように、コヒーレンスディレクトリコントローラ１５０がシステムレベルディレクトリ１５５上でルックアップを行ってもよい。システムレベルディレクトリ１５５が、キャッシュ１３０Ａ又はキャッシュ１３０Ｂ内の任意のキャッシュラインがダーティであることを示す場合、読み出し動作の前に、ＰＩＭロードコマンド等によって、そのダーティデータをメモリバンク１８５Ａ及び１８５Ｂにフラッシュすべきである。同様に、システムレベルディレクトリ１５５が、キャッシュ１３０Ａ又はキャッシュ１３０Ｂ内に存在するデータがクリーンであり、且つ、メモリバンク１８５Ａ及び１８５Ｂ内の対応するデータが例えばＰＩＭストアコマンドによって更新されていることを示す場合、ホスト１１５が古いデータを使用して動作しないように、そのキャッシュエントリをキャッシュ１３０Ａ及び１３０Ｂ内で無効化すべきである。

【0014】

上述したように、ＰＩＭコマンドは、複数のメモリアドレスに並列に影響を及ぼすことがあるので、各ＰＩＭコマンドについて、対応する数のルックアップがシステムレベルディレクトリ１５５で更に必要になることがある。ルックアップの数を低減するために、コヒーレンスディレクトリコントローラ１５０へとＰＰレベルコヒーレンスディレクトリ１６０が導入される。ＰＰレベルコヒーレンスディレクトリ１６０は、ＰＩＭコマンドの粒度でキャッシュコヒーレンス状態を追跡する個別のディレクトリを維持し、ＰＩＭコマンドは、例えばメモリチャネルの１つ以上のメモリバンクをターゲットにすることがある。将来のＰＩＭコマンドが受信され、以前に記録されたＰＩＭコマンドと同じ範囲のアドレスをそのコマンドがターゲットとする場合、コヒーレンス状態は、全てのＰＩＭコマンドの全てのアドレスについてシステムレベルディレクトリ１５５にクエリを行うのではなく、その個別のディレクトリから直接取り出すことができる。コヒーレンスディレクトリコントローラ１５０が機能的な正確性を確保できた後に、ＰＩＭコマンドを、ＰＩＭコンピュートユニット１９０Ａ及び１９０Ｂに配信するためにメモリコントローラ１７０に渡すことができる。例えば、ＰＩＭロードは、メモリバンク１８５Ａ及び１８５Ｂからレジスタ１９５Ａ及び１９５Ｂにデータを取り出してもよく、ＰＩＭストアは、レジスタ１９５Ａ及び１９５Ｂからメモリバンク１８５Ａ及び１８５Ｂへとデータを格納してもよい。

【0015】

（ＩＩＩ．ブロードキャストＰＩＭコマンド）
図１Ｂは、図１Ａによるメモリモジュール１８０Ａを示すブロック図である。メモリバンク１８５Ａは１６個のメモリバンクを含み、各メモリバンクは２０４８個のメモリセルを含み、各メモリセルは３２バイトのデータを収容し得る。簡潔さのため、各メモリバンクについてメモリセルは１６個だけ示されている。メモリバンク、メモリセル、メモリモジュール、メモリチャネル等の具体的な量及びサイズは例示であり、適用例及びハードウェア要件に従って設定され得る。

【0016】

ＰＩＭコマンドが発行されると、メモリバンク１８５Ａの１つ以上のバンク内の同じセルに並列に同じコマンドが適用され得る。例えば、ＰＩＭロードが発行されると、メモリバンク０１～１６から、網掛けされた同じメモリセル＃４の内容が並列に取り出され、レジスタ１９５Ａ内の対応するレジスタセット０１～１６に置かれ得る。この例は全ての利用可能なメモリバンクに対して動作するが、いくつかのＰＩＭコマンドは、ビットマスク、ルックアップテーブル又は他の方法を使用して指定され得る選択されたメモリバンクに対して選択的に動作してもよい。ＰＩＭストア動作は、レジスタセット０１～１６からのデータをメモリバンク１８５Ａのバンク０１～１６へと格納し得る。したがって、ＰＩＭロード及びＰＩＭストアの何れも、機能的な正確性を確保するためのコヒーレンスディレクトリコントローラ１５０によるアクションを必要とし得る。他方で、ＰＩＭ算術演算及び論理演算は、メモリバンク１８５Ａにアクセスせずにレジスタセット０１～１６を使用して様々な算術論理演算を行うために、処理ユニット０１～１６を使用し得る。したがって、これらの算術演算及び論理演算は、機能的な正確性を確保するためのコヒーレンスディレクトリコントローラ１５０による任意のアクションを迂回し得る。

【0017】

（ＩＶ．ＰｉｍＰＦコヒーレンスディレクトリデータ構造）
図２は、ＰｉｍＰＦディレクトリのための例示的なデータ構造を示すブロック図である。メモリアドレス構成２５０は、メモリサブシステム１４５のアドレス空間を定義する。例えば、ビット０はメモリチャネルを定義し、すなわち、チャネル０／メモリモジュール１８０Ａ又はチャネル１／メモリモジュール１８０Ｂを定義する。ビット１～４は、選択されたメモリチャネル内のメモリバンク、すなわちバンク０１～１６を定義する。ビット５～１５はメモリセル、すなわちセル＃０～２０４７を定義し、各セルは３２バイトのデータを収容する。

【0018】

上述したように、ＰＩＭコマンドは、選択されたメモリチャネルの複数又は全てのメモリバンクにわたって適用され得る。したがって、あるＰＩＭコマンドが適用される具体的なメモリアドレスは、あるシグネチャを使用して特定することができ、このシグネチャは、メモリチャネルビット及びメモリバンクビットを除外したメモリアドレス構成２５０のビットとすることができる。したがって、シグネチャからビット０～４を除外した結果、ビット５～１５を得ることができる。例えば、ビット０（メモリチャネル）を０に設定し、ビット１～４（メモリバンク）を００００、０００１から１１１１まで繰り返し、シグネチャからのビット５～１５（メモリセル）を各メモリアドレスに付加することによって、１６個のメモリアドレスをシグネチャから導出することができる。ＰＩＭコマンドがメモリバンクのサブセットに適用される場合は、この繰り返しには、全てのメモリバンクではなくサブセットのみが含まれ得る。

【0019】

あるＰＩＭコマンドが適用されるメモリアドレスはシグネチャから導出できるので、ＰＰレベルコヒーレンスディレクトリ２６０Ａ～２６０Ｂ内のディレクトリには、シグネチャを使用して特定されるエントリが含まれる。ＰＰレベルコヒーレンスディレクトリ２６０Ａ～２６０Ｂ内でルックアップクエリが行われた場合、あるエントリが、シグネチャ列に従ってマッチするか、あるいは、マッチしない。ＰＰレベルコヒーレンスディレクトリ２６０Ａは、シグネチャの全メモリアドレスに対してシグネチャクリーンビットが指定される軽量実装を表し、ＰＰレベルコヒーレンスディレクトリ２６０Ｂは、シグネチャによって特定される１６個のメモリバンクの各々に対してコヒーレンス指示子、すなわち０／ＮｏｔＣａｃｈｅｄ（キャッシュされていない）、１／Ｃｌｅａｎ（クリーン）及び２／Ｄｉｒｔｙ（ダーティ）を、コヒーレンス指示子記号２７０によって示されるとおりに指定する重量実装を表す。このデータ構造は、例えば、各メモリバンクについて２ビット値を使用して表され得る。追加のビットが、例えば、そのメモリアドレスがシステムレベルディレクトリ１５５の１つ以上のディレクトリにおいて参照されているかどうかを示すために予約されていてもよく、これは、結果がミスであると分かった場合に不要なルックアップを回避するのに役立ち得る。以下で更に詳細に説明するとおり、ＰＰレベルコヒーレンスディレクトリ２６０Ｂの粒度が高くなると、ＰＩＭストアは、システムレベルディレクトリ１５５へのルックアップが低減することからも恩恵を得られるようになる。

【0020】

（Ｖ．オーバーヘッドを低減するための、コヒーレンスディレクトリコントローラにおけるＰｉｍＰＦの使用）
（Ａ．ＰＩＭロードにＰｉｍＰＦを使用する例示的なプロセス）
図３Ａは、オーバーヘッドを低減しながらブロードキャストＰＩＭ要求にサービスを提供するために、コヒーレンスディレクトリコントローラ１５０内にＰＰレベルコヒーレンスディレクトリ１６０を実装するためのプロセス３００を示すフロー図である。ステップ３１０で、図１Ａを参照すると、ＰＰレベルコヒーレンスディレクトリ１６０は、シグネチャによって特定される複数のメモリアドレスに対する並列処理（ＰＰ）コマンドを受信する。例えば、ホスト１１５のプロセッサ１２０Ａ又は１２０Ｂ上で実行するプログラムは、メモリチャネル０に対するＰＩＭコマンドをシグネチャと共にデータバス１４０を介して送信してもよい。図２で上述したように、シグネチャは、ＰＩＭコマンドを並列に適用するための複数のメモリバンクを特定してもよい。

【0021】

ステップ３１２で、ＰＰレベルコヒーレンスディレクトリ１６０は、ＰＰコマンドがＰＩＭロードであるか、あるいは、ＰＩＭストアであるか判定する。この例では、ＰＰコマンドはＰＩＭロードに対応してもよく、したがって、プロセス３００はステップ３１４に進む。ＰＩＭロードは、例えば、レジスタ１９５Ａ～１９５Ｂへとロードするためにメモリバンク１８５Ａ～１８５Ｂから値を読み出してもよい。いくつかの実施形態では、データをレジスタ１９５Ａ～１９５Ｂへと格納せずにメモリバンク１８５Ａ～１８５Ｂから直接ロードして処理するために、ＰＩＭコンピュートユニット１９０Ａ～１９０ＢのためのＰＩＭコマンドが発行されてもよい。

【0022】

ステップ３１４で、ＰＰレベルコヒーレンスディレクトリ１６０はシグネチャを使用して、それ自体に第１のクエリを発行する。上述したように、ＰＰレベルコヒーレンスディレクトリ１６０は、既存のシステムレベルディレクトリ１５５からは個別のコヒーレンスディレクトリを維持することができ、その個別のコヒーレンスディレクトリは、ＰＰレベルコヒーレンスディレクトリ２６０Ａ又は２６０Ｂと構造が類似しているように見えてもよい。過剰なルックアップを回避するために、システムレベルディレクトリ１５５にクエリを行う前に、先ず、利用可能なコヒーレンス情報があるか、ＰＰレベルコヒーレンスディレクトリ１６０にクエリが行われる。

【0023】

ステップ３１６で、ＰＰレベルコヒーレンスディレクトリ１６０は、第１のクエリの結果がヒットであるか、あるいは、ミスであるかを判定する。結果がヒットである場合、これは、マッチするエントリがＰＰレベルコヒーレンスディレクトリ１６０内で見つかったことを示し、図３Ｂに示すように、更なる処理ステップを行ってもよい。結果がミスである場合、これは、マッチするエントリがＰＰレベルコヒーレンスディレクトリ１６０内で見つからないことを示し、シグネチャに対する新しいエントリをＰＰレベルコヒーレンスディレクトリ１６０内に生成するために、ステップ３１８、３２０、３２２が行われる。

【0024】

ステップ３１８で、ＰＰレベルコヒーレンスディレクトリ１６０は、複数のメモリアドレスを使用して、１つ以上の第２のクエリをシステムレベルディレクトリ１５５に発行する。上述したように、メモリインターリーブ及びハードウェア実装に起因して、複数のメモリアドレスは、複数の個別のルックアップ、又は、メモリチャネル内の１６個のメモリバンクの例を使用する場合に１６回のルックアップを必要とし得る。システムレベルディレクトリ１５５からの応答に基づいて、各メモリアドレスのコヒーレンス状態、例えばクリーンなのか、ダーティなのか又はキャッシュされていないのかが分かる。更に、キャッシュ１３０Ａ及び／又はキャッシュ１３０Ｂ内の関連するキャッシュラインも特定され得る。

【0025】

ステップ３２０で、ＰＰレベルコヒーレンスディレクトリ１６０は、第２のクエリの結果に基づいて、キャッシュ１３０Ａ及び１３０Ｂのうち少なくとも１つから複数のメモリアドレスへと第１のダーティデータをフラッシュする。例えば、ステップ３１８でダーティとしてマークされた各メモリアドレスについて、ＰＰレベルコヒーレンスディレクトリ１６０は、キャッシュ１３０Ａ及び／又はキャッシュ１３０Ｂ内の対応するダーティキャッシュラインをフラッシュするようにホスト１１５に命令してもよい。フラッシュの結果、メモリバンク１８５Ａ及び／又は１８５Ｂをキャッシュ１３０Ａ及び１３０Ｂからの最新のデータで更新するメモリ書き込みコマンドがもたらされ得る。

【0026】

ステップ３２２で、ＰＰレベルコヒーレンスディレクトリ１６０は、第１のエントリであって、その複数のメモリアドレスがクリーンであるかどうかを指示する第１のエントリを、それ自体の中に割り当てる。図２で説明したように、この指示子は、ＰＰレベルコヒーレンスディレクトリ２６０Ａに示されるようにシグネチャクリーンビットを使用することによって軽量であってもよく、あるいは、この指示子は、ＰＰレベルコヒーレンスディレクトリ２６０Ｂに示されるように各メモリバンクについてのコヒーレンス指示子を使用することによって重量であってもよい。シグネチャクリーンビットはシグネチャ全体がクリーンであるのか（設定）のかキャッシュされていないのか（非設定）を示し、コヒーレンス指示子はシグネチャ内のメモリバンクの各々がクリーンであるか、ダーティであるか、あるいは、キャッシュされていないかを示す。第１のエントリが割り当てられた後は、同じシグネチャを使用する任意の将来のＰＩＭコマンドがステップ３１６で結果がヒットとなり、それによって有利なことに、ステップ３１８、又は、システムレベルディレクトリ１５５へのクエリを回避することが可能になる。

【0027】

ステップ３２４でＰＰレベルコヒーレンスディレクトリ１６０はＰＰコマンド又はＰＩＭロードを、ＰＩＭコンピュートユニット１９０Ａ上での並列実行のためにメモリコントローラ１７０に送信する。このＰＰコマンドはＰＩＭロードなので、これは、シグネチャによって特定されるメモリアドレスからのデータをメモリバンク１８５Ａからレジスタ１９５Ａへとロードすることに対応する。プロセス３００のステップ３２４よりも前のステップで機能的な正確性が確保されるので、ステップ３２４は進行して、メモリバンク１８５Ａから最新の正しいデータを読み出すことができる。

【0028】

ステップ３２２で既に記録されているものと同じシグネチャに対する新しいＰＰコマンドをホスト１１５が送信すると仮定する。プロセス３００を繰り返すと、今回はステップ３１６の結果はミスではなくヒットとなり得る。図３Ｂのプロセス３３０を参照すると、ステップ３４０で、ＰＰレベルコヒーレンスディレクトリ１６０は、第１のクエリの結果中にシグネチャクリーンビットが設定されているかどうかを判定する。このビットが設定されている場合、これは、シグネチャに対する全てのメモリアドレスがクリーンとしてマークされていることを示し、したがって、プロセス３３０は、ダーティデータをフラッシュする必要がないので、ステップ３２４に直接進むことができる。したがって、有利なことに、ステップ３１８を回避することができる。また、シグネチャクリーンビットは、あるシグネチャに対するコヒーレンス指示子が全て「クリーン」又は「キャッシュされていない」に設定されているかどうかを検査することによっても推測され得る。そうではなく、シグネチャクリーンビットが設定されていない、又は、少なくとも１つのコヒーレンス指示子がクリーンでない場合、これは、アドレスのダーティなセットが存在することを示し、プロセス３３０はステップ３４１に進む。

【0029】

ステップ３４１で、ＰＰレベルコヒーレンスディレクトリ１６０は、複数のメモリアドレスのダーティなセットを使用して、１つ以上の第５のクエリをシステムレベルディレクトリ１５５に発行する。例えば、シグネチャクリーンビットが設定されていない場合、全てのアドレスのコヒーレンス状態は未知であり、したがって、ダーティなセットはシグネチャの１６個のアドレス全てによって示される。別の例では、第１のクエリの結果は、ＰＰレベルコヒーレンスディレクトリ２６０Ｂに示されるようにコヒーレンス指示子を含み得る。この場合、ダーティなセットは、第１のクエリの結果から、又は、ダーティを表すコヒーレンス指示子２でマークされたシグネチャのメモリアドレスを含めることによって、示され得る。ダーティなセットは、フラッシュためのキャッシュラインを判定するためにシステムレベルディレクトリ１５５にクエリされ得るが、それ以外の、クリーンとしてマークされているか、キャッシュされていないアドレスについては、システムレベルディレクトリ１５５へのクエリは省略され得る。したがって、ダーティなセットのみがクエリされるので、ＰＰレベルコヒーレンスディレクトリ２６０Ｂによって提供される追加のメタデータによってシステムレベルディレクトリ１５５へのルックアップの数が低減され得ることに留意されたい。ダーティなセットがシグネチャ内のアドレスのサブセットである場合、それに応じて、システムレベルディレクトリ１５５に発行されるクエリは少なくなる。例えば、１６個のメモリアドレスに関連するシグネチャのメタデータにおいてダーティとしてマークされているメモリアドレスが１つである場合、第５のクエリで発行されるクエリは１個であり、それによって、他のアドレスに対する１５個のクエリが回避される。

【0030】

ステップ３４２で、ＰＰレベルコヒーレンスディレクトリ１６０は、第５のクエリの結果に基づいて、キャッシュ１３０Ａ及び１３０Ｂのうち少なくとも１つから第２のダーティデータをフラッシュする。例えば、第５のクエリの結果は、フラッシュを必要とするキャッシュラインを含んでもよく、そのようなアクションが行われ得る。

【0031】

ステップ３４４で、ＰＰレベルコヒーレンスディレクトリ１６０は、それ自体の中の第１のエントリを、第２のダーティデータのフラッシュに基づいて更新する。例えば、シグネチャクリーンビットを使用する場合は、クリーンに設定され得る。メモリバンクについてのコヒーレンス指示子を使用する場合は、コヒーレンス指示子は、フラッシュされたアドレスがクリーンになるように更新されてもよい。ここで、プロセス３３０はステップ３２４に進み得る。

【0032】

（Ｂ．ＰＩＭストアにＰｉｍＰＦを使用する例示的なプロセス）
ホスト１１５から送信されたＰＰコマンドがＰＩＭストアコマンドである例では、ステップ３１２は代わりに図３Ｃに進んでもよい。図３Ｃのプロセス３５０を参照すると、ステップ３６０で、ＰＰレベルコヒーレンスディレクトリ１６０は、シグネチャを使用して、第３のクエリをそれ自体に発行する。ステップ３６０は、上述したステップ３１６と同様に行われてもよい。軽量実装を使用する場合は、無効化すべきキャッシュされたデータが存在するかどうかを判定するためにはＰＰレベルコヒーレンスディレクトリ１６０内の情報が不十分であり得るので、ステップ３６０はスキップされてもよく、したがって、当然、システムレベルディレクトリ１５５へのクエリが発生し得る。

【0033】

ステップ３６２で、ＰＰレベルコヒーレンスディレクトリ１６０は、第３のクエリの結果に基づいて、複数のメモリアドレスを使用して、第４のクエリをシステムレベルディレクトリ１５５に発行する。ステップ３６０がスキップされ、第３のクエリからの結果が利用可能でない場合、複数のメモリアドレスの各々に対して第４のクエリが発行される。同様に、第３のクエリがミスである場合、利用可能な情報がないので、各メモリアドレスがルックアップされる。第３のクエリがヒットであり、且つ、重量実装を使用する場合、「キャッシュされていない」メモリアドレスはコヒーレンスの発行をトリガしないので、ルックアップする必要がない。このことにより、重量実装に必要な追加のメタデータストレージを代償にして、ＰＩＭストアのためのルックアップが低減される。したがって、「クリーン」又は「ダーティ」であるメモリアドレスがシステムレベルディレクトリ１５５を使用してルックアップされて、フラッシュ又は無効化のための具体的なキャッシュラインが判定され得る。

【0034】

ステップ３６４で、ＰＰレベルコヒーレンスディレクトリ１６０は、第４のクエリの結果に基づいて、キャッシュ１３０Ａ及び１３０Ｂのうち少なくとも１つから第３のダーティデータを複数のメモリアドレスへとフラッシュする。したがって、ダーティとして特定されたキャッシュラインは、キャッシュ１３０Ａ及び１３０Ｂからフラッシュされ得る。

【0035】

ステップ３６６で、ＰＰレベルコヒーレンスディレクトリ１６０は、第４のクエリの結果に基づいて、キャッシュ１３０Ａ及び１３０Ｂのうち少なくとも１つからのクリーンデータを無効化する。したがって、クリーンとして特定されたキャッシュラインは、キャッシュ１３０Ａ及び１３０Ｂにおいて無効化され得る。

【0036】

ステップ３６８で、ＰＰレベルコヒーレンスディレクトリ１６０は、第２のエントリが未だ存在していない場合、シグネチャによってインデックス付けされた第２のエントリをそれ自体の中に割り当てる。第２のエントリが既に存在する場合、ステップ３６８はスキップされる。

【0037】

ステップ３７０で、ＰＰレベルコヒーレンスディレクトリ１６０は、複数のメモリアドレスがキャッシュされていないことを示すように第２のエントリを更新する。ＰＩＭストアコマンドは複数のメモリアドレス内のデータを上書きするので、キャッシュは期限切れのデータを有することになり、したがって「キャッシュされていない」としてマークされる。軽量実装を使用する場合は、シグネチャクリーンビットが代わりに設定され得る。次いで、プロセス３５０はステップ３２４に進み得る。

【0038】

（Ｃ．ＰｉｍＰＦコヒーレンスディレクトリの維持）
コヒーレンスディレクトリコントローラ１５０は、標準的なメモリロードコマンド／読み出し及びストアコマンド／書き込みコマンドも受信することがあるので、ＰＰレベルコヒーレンスディレクトリ１６０内に個別のコヒーレンスディレクトリを維持する場合、これらのコマンドの影響も考慮すべきである。例えば、軽量実装を使用する場合、標準的なメモリストア動作を受信し、且つ、関連するメモリアドレスについてＰｉｍＰＦエントリが存在する場合、このエントリは、例えばエントリを追い出すことによって、関連するシグネチャクリーンビットをリセットすることによって、又は、関連するメモリアドレスに対するコヒーレンス指示子を調整することによって更新されるべきである。メモリ内のデータが修正されないので、ＰｉｍＰＦに関しては標準的なメモリロード動作を無視することができる。更に、標準的なメモリ読み出し／書き込み動作は、キャッシュラインを追い出す可能性があるが、ＰｉｍＰＦ内で追跡されている任意のキャッシュラインを追い出しに応じて必ずしも更新しなくてもよい。

【0039】

重量実装を使用する場合、ホスト上のロード命令は、ＰｉｍＰＦによって追跡されているキャッシュラインをフェッチし得る。したがって、ロード命令は、キャッシュラインが追跡されているかどうかを判定するためのＰｉｍＰＦへのクエリをトリガしてもよく、追跡されている場合、対応するメタデータ又はコヒーレンス指示子が「クリーン」に設定される。同様に、ホスト上のストア命令はメモリアドレス内のデータを修正し、したがって、ストア命令は、メモリアドレスを追跡しているエントリがあるか判定するためのＰｉｍＰＦへクエリをトリガしてもよく、対応するメタデータ又はコヒーレンス指示子が「ダーティ」に設定される。更に、標準的なメモリ読み出し／書き込み動作は、キャッシュラインを追い出す可能性があるが、ＰｉｍＰＦ内で追跡されている任意のキャッシュラインを追い出しに応じて必ずしも更新しなくてもよい。

【図1A】

【図1B】

【図2】

【図3A】

【図3B】

【図3C】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版