特許7595229 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特許7595229ファイングレインＤＲＡＭにおける通常アクセス性能を回復するための方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-11-27

(45)【発行日】2024-12-05

(54)【発明の名称】ファイングレインＤＲＡＭにおける通常アクセス性能を回復するための方法及び装置

(51)【国際特許分類】

G06F 12/06 20060101AFI20241128BHJP

【ＦＩ】

G06F12/06 521C

G06F12/06 521G

G06F12/06 525A

【請求項の数】 15

(21)【出願番号】P 2024534636

(86)(22)【出願日】2022-12-07

(86)【国際出願番号】 US2022052164

(87)【国際公開番号】W WO2023114071

(87)【国際公開日】2023-06-22

【審査請求日】2024-07-08

(31)【優先権主張番号】17/549,359

(32)【優先日】2021-12-13

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】スリセシャンスリカーント

(72)【発明者】

【氏名】ヴィグネシュアディナラヤナン

(72)【発明者】

【氏名】ジャガディッシュビー．コトゥラ

(72)【発明者】

【氏名】セルゲイブラゴドゥロフ

【審査官】後藤彰

(56)【参考文献】

【文献】特開２０２０－１８７７４７（ＪＰ，Ａ）

【文献】特開２０２０－８７４７７（ＪＰ，Ａ）

【文献】特表２００９－５３５７４８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１２／０６

(57)【特許請求の範囲】

【請求項1】

ファイングレインダイナミックランダムアクセスメモリ（ＤＲＡＭ）であって、
複数のグレインに分割されたメモリアレイを含む第１のメモリバンクであって、各グレインは行バッファ及び入力／出力（Ｉ／Ｏ）回路を含む、第１のメモリバンクと、
第２のメモリバンクと、
前記第１のメモリバンク内の各グレインの前記Ｉ／Ｏ回路に結合されたデュアルモードＩ／Ｏ回路であって、第１のデータ幅を有するコマンドが各グレインにルーティングされ、各グレインにおいて個別に実行される第１のモードと、前記第１のデータ幅とは異なる第２のデータ幅を有するコマンドが前記グレインのうち少なくとも２つによって並列に実行される第２のモードと、で動作するデュアルモードＩ／Ｏ回路と、を備える、
ファイングレインＤＲＡＭ。

【請求項2】

前記デュアルモードＩ／Ｏ回路は、マルチキャスト列アドレスストローブ（ＣＡＳ）コマンドに応じて、前記第２のモードでコマンドを実行する、
請求項１のファイングレインＤＲＡＭ。

【請求項3】

前記デュアルモードＩ／Ｏ回路は、前記グレインのうち少なくとも２つにおいて選択された列に対して列アドレスストローブを並列にアサートさせることによって、前記マルチキャストＣＡＳコマンドに応答する、
請求項２のファイングレインＤＲＡＭ。

【請求項4】

前記デュアルモードＩ／Ｏ回路は、前記第１のメモリバンク内の各グレインの前記Ｉ／Ｏ回路内の列デコーダに結合されたマルチプレクサを含む、
請求項３のファイングレインＤＲＡＭ。

【請求項5】

前記デュアルモードＩ／Ｏ回路は、前記第２のモードにおいて、前記マルチキャストＣＡＳコマンド内の初期グレイン識別子ビットを、異なるグレインに関連付けられた新しい値に置き換えることによって、前記マルチキャストＣＡＳコマンドのローカライズされたリレーを前記グレインのうち少なくとも２つのグレインの少なくとも１つに転送するように実行する、
請求項３のファイングレインＤＲＡＭ。

【請求項6】

前記デュアルモードＩ／Ｏ回路は、ルックアップテーブル及び加算器のうち何れかを使用して前記新しい値を識別する、
請求項５のファイングレインＤＲＡＭ。

【請求項7】

揮発性メモリを動作させる方法であって、
メモリコントローラから前記揮発性メモリ上の第１のバンクの第１のグレインに列アドレスストローブ（ＣＡＳ）コマンドを送信することと、
前記揮発性メモリ上のデュアルモードＩ／Ｏ回路にマルチキャストＣＡＳコマンドを送信することと、
前記揮発性メモリにおいて、前記マルチキャストＣＡＳコマンドに応じて、前記第１のグレインを含む複数のグレインにＣＡＳ信号を送信することと、を含む、
方法。

【請求項8】

前記ＣＡＳコマンドに応じて、第１のデータ幅を有するデータを読み取ることと、前記ＣＡＳ信号に応じて、前記第１のデータ幅とは異なる第２のデータ幅を有する第２のデータを前記複数のグレインから並列に読み取ることと、を含む、
請求項７の方法。

【請求項9】

前記デュアルモードＩ／Ｏ回路において、前記マルチキャストＣＡＳコマンドを前記複数のグレインに分配することを含む、
請求項７の方法。

【請求項10】

前記デュアルモードＩ／Ｏ回路において、前記マルチキャストＣＡＳコマンド内の初期グレイン識別子ビットを、異なるグレインに関連付けられた新しい値で置き換えることによって、マルチキャストＣＡＳのローカライズされたリレーを前記複数のグレインのうち少なくとも１つに転送することを含む、
請求項７の方法。

【請求項11】

前記デュアルモードＩ／Ｏ回路は、ルックアップテーブル及び加算器のうち何れかを使用して前記新しい値を識別する、
請求項１０の方法。

【請求項12】

ジャストインタイムコンパイラを使用して、元のメモリアクセス要求に基づいて前記マルチキャストＣＡＳコマンドを生成することを含む、
請求項７の方法。

【請求項13】

コンパイラを使用して、元のメモリアクセス要求に基づいて前記マルチキャストＣＡＳコマンドを生成することを含む、
請求項７の方法。

【請求項14】

メモリコントローラにおいて、所定のデータ幅に関連付けられた命令セットアーキテクチャ（ＩＳＡ）コマンドを認識することに基づいて前記マルチキャストＣＡＳコマンドを生成することを含む、
請求項７の方法。

【請求項15】

メモリコントローラにおいて、前記メモリコントローラによって処理されるメモリコマンドに関連付けられたメモリ領域に基づいて前記マルチキャストＣＡＳコマンドを生成することを含む、
請求項７の方法。

【発明の詳細な説明】

【背景技術】

【0001】

高帯域幅ダイナミックランダムアクセスメモリ（dynamic random-access memory、ＤＲＡＭ）は、グラフィックス処理ユニット（Graphics Processing Unit、ＧＰＵ）及び他のスループット指向の並列プロセッサによって使用される。次世代のＧＰＵ専用ＤＲＡＭは、主に、先ず、グラフィックスダブルデータレートメモリとともに使用されるような高周波オフチップシグナリングを使用することによって、より最近では、プロセッサダイと、高帯域幅メモリ（High Bandwidth Memory、ＨＢＭ／ＨＢＭ２）モジュールにおいて使用されるようなＤＲＡＭチップのスタックへの広い高帯域幅インターフェースとのオンパッケージ統合を通して、帯域幅を最大化するように最適化されている。

【0002】

そのようなシステムのための多くの重要なワークロードクラスは、不規則なファイングレインメモリアクセス（fine-grained memory accesses）を経験する。そのようなワークロードとしては、グラフトラバーサル（graph traversal）（ソーシャルネットワーキング、検索、ｅコマース、クラウド、及びギグエコノミーにおいて広く使用される）、キーバリューストアアクセス（key-value store access）、及び、高性能コンピューティング（high performance computing、ＨＰＣ）が挙げられる。次世代のグレインベースのスタック型ＤＲＡＭは、エネルギー効率が良く、高帯域幅のファイングレインで不規則なアクセスを可能にするのに重要である。

【0003】

ファイングレインＤＲＡＭ（Fine-grained DRAM、ＦＧ－ＤＲＡＭ）は、実用的な熱設計電力（Thermal Design Power、ＴＤＰ）の限界を超えずに、ＨＢＭ等のスタック型ＤＲＡＭメモリがメモリ帯域幅をスケーリングすることを可能にする。ＦＧ－ＤＲＡＭは、ＤＲＡＭダイを、コマンドアドレス（command-address、ＣＡ）ピンではなく専用のＤＱピンを各々が有するより小さい独立したユニット（グレインと呼ばれる）にパーティション分割することによって、そのようなスケーリングを行う。例えば、従来のＤＲＡＭバンクを２つに分割して、元のバンクと比較して各々が半分の数の列を有する２つのグレインを実現することができる。その結果、メモリレベルの並列性の著しい向上が得られる。更に、活性化エネルギーの大幅な低減が実現される。

【0004】

しかしながら、そのようなグレインベースのアーキテクチャでは、各グレインがＤＲＡＭチャネルに対してより狭いインターフェースを有するので、開いた行（row）への列（column）アクセスコマンドを介したＤＲＡＭアトムのアクセスレイテンシは、バンクごとのグレインの数に比例して増加する。そのような増加は、レイテンシの影響を受けやすい通常アクセスのワークロードにとって有害である。

【図面の簡単な説明】

【0005】

【図1】先行技術で知られている加速処理ユニット（accelerated processing unit、ＡＰＵ）及びメモリシステムのブロック図である。

【図2】いくつかの実施形態による、図１と同様のＡＰＵで用いるのに適したメモリコントローラのブロック図である。

【図3】グレインの使用を示す２つのＤＲＡＭの２つのメモリバンクを比較するブロック図である。

【図4】グレインに依存しないフォーマットでインターリーブされたファイングレインＤＲＡＭメモリのためのアドレス線の配置を示すブロック図である。

【図5】グレインストライプフォーマットでインターリーブされたファイングレインＤＲＡＭメモリのためのアドレス線の配置を示すブロック図である。

【図6】先行技術による、ファイングレインメモリバンクを示すブロック図である。

【図7】いくつかの実施形態による、ファイングレインメモリバンクを示すブロック図である。

【図8】いくつかの追加の実施形態による、ファイングレインメモリバンクを示すブロック図である。

【図9】いくつかの実施形態による、ファイングレインメモリを動作させるためのプロセスのフロー図である。

【図10】いくつかの実施形態による、ファイングレインメモリを動作させるためのライブラリ命令を含むデータ処理システムを示すブロック図である。

【図11】いくつかの実施形態による、ファイングレインメモリを動作させるためのプロセスのフロー図である。

【発明を実施するための形態】

【0006】

以下の説明において、異なる図面における同一の符号の使用は、同様のアイテム又は同一のアイテムを示す。別段の言及がなければ、「結合される（coupled）」という単語及びその関連する動詞形は、当該技術分野で周知の手段による直接接続及び間接電気接続の両方を含み、また、別段の言及がなければ、直接接続の任意の記述は、好適な形態の間接電気接続を使用する代替の実施形態も同様に意味する。

【0007】

ファイングレインダイナミックランダムアクセスメモリ（ＤＲＡＭ）は、第１のメモリバンクと、第２のメモリバンクと、デュアルモードＩ／Ｏ回路と、を含む。第１のメモリバンクは、複数のグレインに分割されたメモリアレイを含み、各グレインは、行バッファ及び入力／出力（Ｉ／Ｏ）回路を含む。デュアルモードＩ／Ｏ回路は、第１のメモリバンク内の各グレインのＩ／Ｏ回路に結合され、第１のデータ幅を有するコマンドが各グレインにルーティングされ、各グレインにおいて個別に実行される第１のモードと、第１のデータ幅とは異なる第２のデータ幅を有するコマンドがグレインのうち少なくとも２つによって並列に実行される第２のモードと、で動作する。

【0008】

揮発性メモリを動作させる方法は、メモリコントローラから当該揮発性メモリ上の第１のバンク内の第１のグレインに列アドレスストローブ（column address strobe、ＣＡＳ）コマンドを送信することを含む。本方法は、当該揮発性メモリ上のデュアルモードＩ／Ｏ回路にマルチキャストＣＡＳコマンドを送信することを含む。当該揮発性メモリにおいて、マルチキャストＣＡＳコマンドに応じて、本方法は、当該第１のグレインを含む複数のグレインにＣＡＳ信号を送信することを含む。

【0009】

データ処理システムは、複数の処理ユニットと、複数の処理ユニットに結合されたデータファブリックと、処理ユニットからのメモリアクセス要求に対応するためにデータファブリックに結合されたメモリコントローラと、メモリコントローラと通信するファイングレインダイナミックランダムアクセスメモリ（ＤＲＡＭ）と、を含む。ファイングレインＤＲＡＭは、第１のメモリバンクと、第２のメモリバンクと、デュアルモードＩ／Ｏ回路と、を含む。第１のメモリバンクは、複数のグレインに分割されたメモリアレイを含み、各グレインは、行バッファ及び入力／出力（Ｉ／Ｏ）回路を含む。デュアルモードＩ／Ｏ回路は、第１のメモリバンク内の各グレインのＩ／Ｏ回路に結合され、デュアルモードＩ／Ｏ回路は、第１のデータ幅を有するコマンドが各グレインにルーティングされ、各グレインにおいて個別に実行される第１のモードと、第１のデータ幅とは異なる第２のデータ幅を有するコマンドがグレインのうち少なくとも２つによって並列に実行される第２のモードと、で動作する。

【0010】

図１は、いくつかの実施形態による、加速処理ユニット（ＡＰＵ）１００のブロック図である。ＡＰＵ１００は、様々なホストデータ処理プラットフォームの一部であり得るシステムオンチップ（System-on-Chip、ＳｏＣ）として実装される。この実施形態ではＡＰＵが示されているが、中央処理ユニット（central processing unit、ＣＰＵ）又はグラフィックス処理ユニット（graphics processing unit、ＧＰＵ）等の他のデータ処理プラットフォームが使用されてもよい。例えば、いくつかの実施形態では、本明細書のファイングレインメモリアクセス技術は、グラフィックスカード又は他のグラフィックス処理モジュールにおいて採用されるＧＰＵチップにおいて具現化される。他の実施形態では、インテリジェンス処理ユニット（intelligence processing unit、ＩＰＵ）等の専用プロセッサコアが使用されてもよい。この実施形態では、ＡＰＵ１００は、概して、ＣＰＵコア複合体１１０、グラフィックスコア１２０、ディスプレイエンジンのセット１３０、メモリ管理ハブ１４０、データファブリック１５０、周辺コントローラのセット１６０、周辺バスコントローラのセット１７０、システム管理ユニット（system management unit、ＳＭＵ）１８０、フラッシュメモリ２０５、及び、ＦＧ＿ＤＲＡＭメモリコントローラのセット１９０を含む。

【0011】

ＣＰＵコア複合体１１０は、ＣＰＵコア１１２及びＣＰＵコア１１４を含む。この例では、ＣＰＵコア複合体１１０が２つのＣＰＵコアを含むが、他の実施形態では、ＣＰＵコア複合体１１０が任意の数のＣＰＵコアを含むことができる。ＣＰＵコア１１２及び１１４の各々は、制御ファブリックを形成するシステム管理ネットワーク（system management network、ＳＭＮ）１４５及びデータファブリック１５０に双方向に接続され、データファブリック１５０にメモリアクセス要求を提供することができる。ＣＰＵコア１１２及び１１４の各々は、単体のコアであってもよいし、更にキャッシュ等の特定のリソースを共有する２つ以上の単体のコアを有するコア複合体であってもよい。

【0012】

グラフィックスコア１２０の各々は、頂点処理、フラグメント処理、シェーディング、テクスチャーブレンディング等のグラフィックス動作を高度に統合化された並列方式で実行することができる高性能グラフィックス処理ユニット（ＧＰＵ）である。各グラフィックスコア１２０は、ＳＭＮ１４５及びデータファブリック１５０に双方向に接続され、メモリアクセス要求をデータファブリック１５０に提供することができる。これに関して、ＡＰＵ１００は、ＣＰＵコア複合体１１０とグラフィックスコア１２０とが同じメモリ空間を共有する統合メモリアーキテクチャ、又は、ＣＰＵコア複合体１１０とグラフィックスコア１２０とがメモリ空間の一部を共有する一方でグラフィックスコア１２０がＣＰＵコア複合体１１０によりアクセスできないプライベートグラフィックスメモリも使用するメモリアーキテクチャの何れかをサポートすることができる。

【0013】

ディスプレイエンジン１３０は、モニタ上に表示するために、グラフィックスコア１２０によって生成されたオブジェクトをレンダリング及びラスタライズする。グラフィックスコア１２０及びディスプレイエンジン１３０は、メモリ内の適切なアドレスへの均一な変換のために共通のメモリ管理ハブ１４０に双方向で接続され、メモリ管理ハブ１４０は、そのようなメモリアクセスを生成してメモリシステムから戻される読み取りデータを受信するためにデータファブリック１５０に双方向で接続される。

【0014】

データファブリック１５０は、任意のメモリアクセスエージェントとメモリコントローラ１９０との間でメモリアクセス要求及びメモリ応答をルーティングするためのクロスバースイッチを含む。また、データファブリックは、システム構成に基づいてメモリアクセスの送信先を判定するための、基本入出力システム（basic input/output system、ＢＩＯＳ）によって規定されるシステムメモリマップ、及び、各仮想接続のためのバッファも含む。

【0015】

周辺コントローラ１６０は、ＵＳＢコントローラ１６２及びシリアルアドバンストテクノロジーアタッチメント（serial advanced technology attachment、ＳＡＴＡ）インターフェースコントローラ１６４を含み、その各々は、システムハブ１６６及びＳＭＮ１４５に双方向に接続される。これら２つのコントローラは、ＡＰＵ１００において使用され得る周辺コントローラの単なる例示である。

【0016】

周辺バスコントローラ１７０は、システムコントローラハブ１７２及び周辺コントローラハブ１７４を含み、その各々は、入力／出力（Ｉ／Ｏ）ハブ１７６及びＳＭＮ１４５に双方向に接続される。システムコントローラハブ１７２は、適切な通信リンクを介してフラッシュメモリ２０５に接続する。Ｉ／Ｏハブ１７６は、システムハブ１６６及びデータファブリック１５０に対して双方向に接続される。したがって、例えば、ＣＰＵコアは、データファブリック１５０がＩ／Ｏハブ１７６を介してルーティングするアクセスにより、ＵＳＢコントローラ１６２、ＳＡＴＡインターフェースコントローラ１６４、システムコントローラハブ１７２、又は、周辺コントローラハブ１７４内のレジスタをプログラムすることができる。

【0017】

ＳＭＵ１８０は、ＡＰＵ１００上のリソースの動作を制御してそれらの間の通信を同期させるローカルコントローラである。ＳＭＵ１８０は、ＡＰＵ１００上の様々なプロセッサのパワーアップシーケンシングを管理し、リセット、イネーブル及び他の信号を介して複数のオフチップデバイスを制御する。また、ＳＭＵ１８０は、様々なプロセッサ及び他の機能ブロックの電力を管理する。

【0018】

ＳｏＣ実施形態が示されているが、これは限定的なものではなく、他のコンピューティングプラットフォームも、本明細書で説明される技術から利益を得ることができる。

【0019】

図２は、図１のようなＡＰＵで使用するのに好適なメモリコントローラ２００のブロック図である。メモリコントローラ２００は、概して、インターフェース２１２、メモリインターフェースキュー２１４、コマンドキュー２２０、アドレス生成器２２２、コンテンツアドレサブルメモリ（content addressable memory、ＣＡＭ）２２４、リプレイキュー２３０を含むリプレイ制御ロジック２３１、リフレッシュ制御ロジック２３２、リフレッシュ制御ロジック２３２、タイミングブロック２３４、ページテーブル２３６、アービタ２３８、エラー訂正コード（error correction code、ＥＣＣ）チェック回路２４２、ＥＣＣ生成ブロック２４４、及び、データバッファ２４６を含む。

【0020】

インターフェース２１２は、外部バスを介したデータファブリックに対する第１の双方向接続を有し、出力を有する。メモリコントローラ２００において、この外部バスは、「ＡＸＩ４」として知られている英国ケンブリッジのＡＲＭＨｏｌｄｉｎｇｓ，ＰＬＣによって指定された高度拡張可能インターフェースバージョン４と適合するが、他の実施形態では他のタイプのインターフェースであり得る。インターフェース２１２は、メモリアクセス要求を、ＦＣＬＫ（又はＭＥＭＣＬＫ）ドメインとして知られている第１のクロックドメインから、ＵＣＬＫドメインとして知られているメモリコントローラ２００の内部の第２のクロックドメインに変換する。同様に、メモリインターフェースキュー２１４は、ＵＣＬＫドメインからＤＦＩインターフェースと関連付けられるＤＦＩＣＬＫドメインへのメモリアクセスを与える。

【0021】

アドレス生成器２２２は、ＡＸＩ４バスを介してデータファブリックから受信されるメモリアクセス要求のアドレスを復号する。メモリアクセス要求は、正規化フォーマットで表された物理アドレス空間内のアクセスアドレスを含む。アドレス生成器２２２は、正規化されたアドレスを、メモリシステム内の実際のメモリデバイスをアドレス指定するために、及び、関連するアクセスを効率的にスケジュールするために使用され得るフォーマットに変換する。このフォーマットは、メモリアクセス要求を特定のランク、行アドレス、列アドレス、バンクアドレス、及び、バンクグループと関連付ける領域識別子を含む。起動時に、システムＢＩＯＳは、メモリシステム内のメモリデバイスに問い合わせてそれらのサイズ及び構成を判定し、アドレス生成器２２２と関連付けられた構成レジスタのセットをプログラムする。アドレス生成器２２２は、構成レジスタに記憶された構成を使用して、正規化されたアドレスを適切なフォーマットに変換する。コマンドキュー２２０は、ＣＰＵコア１１２、１１４及びグラフィックスコア１２０等のＡＰＵ１００内のメモリアクセスエージェントから受信されるメモリアクセス要求のキューである。コマンドキュー２２０は、アドレス生成器２２２によってデコードされたアドレスフィールド、及び、アービタ２３８がアクセスタイプ及びサービス品質（quality of service、ＱｏＳ）識別子を含むメモリアクセスを効率的に選択することを可能にする他のアドレス情報を記憶する。ＣＡＭ２２４は、ライトアフターライト（write after write、ＷＡＷ）及びリードアフターライト（read after write、ＲＡＷ）順序規則等の順序規則を実施するための情報を含む。コマンドキュー２２０は、それぞれが複数のコマンドエントリを含む複数のエントリスタックを含むスタックされたコマンドキューであり、この実施形態では、以下で更に説明するように、それぞれが４つのエントリからなる３２のエントリスタックである。

【0022】

誤り訂正コード（ＥＣＣ）生成ブロック２４４は、メモリに送られる書き込みデータのＥＣＣを判定する。次いで、このＥＣＣデータは、データバッファ２４６内の書き込みデータに追加される。ＥＣＣチェック回路２４２は、受信されたＥＣＣを着信ＥＣＣと照合してチェックする。

【0023】

リプレイキュー２３０は、アドレス及びコマンドパリティ応答等の応答を待っているアービタ２３８によって選択されたメモリアクセスを記憶するための一時キューである。リプレイ制御ロジック２３１は、ＥＣＣチェック回路２４２にアクセスして、戻されたＥＣＣが正しいか又はエラーを示すかを判定する。リプレイ制御ロジック２３１は、これらのサイクルのうち何れかのパリティ又はＥＣＣエラーの場合にアクセスがリプレイされるリプレイシーケンスを開始して制御する。リプレイされたコマンドは、メモリインターフェースキュー２１４に配置される。

【0024】

リフレッシュ制御ロジック２３２は、メモリアクセスエージェントから受信した通常の読み取り及び書き込みメモリアクセス要求とは別に生成される様々な電源断、リフレッシュ及び終端抵抗（ＺＱ）較正サイクルのためのステートマシンを含む。例えば、メモリランクがプリチャージパワーダウンにある場合、リフレッシュロジックは、リフレッシュサイクルを実行するために定期的に起動されなければならない。リフレッシュ制御ロジック２３２は、ＤＲＡＭチップ内のメモリセルの蓄積コンデンサからの電荷の漏れによって引き起こされるデータエラーを防止するために、定期的に、定められた条件に応じて、リフレッシュコマンドを生成する。リフレッシュ制御ロジック２３２は、アクティブ化カウンタ２４８を含み、この実施形態において、アクティブ化カウンタ２４８は、メモリチャネルを介してメモリ領域に送信されるアクティブ化コマンドのローリング数をカウントするカウンタをメモリ領域ごとに有する。メモリ領域は、以下で更に説明するように、いくつかの実施形態ではメモリバンクであり、他の実施形態ではメモリサブバンクである。更に、リフレッシュ制御ロジック２３２は、システム内の熱変化に起因するオンダイ終端抵抗の不一致を防止するためにＺＱを定期的に較正する。

【0025】

アービタ２３８は、コマンドキュー２２０に双方向に接続され、メモリコントローラ２００の心臓部であり、メモリバスの使用を改善するためにアクセスのインテリジェントスケジューリングを実行する。この実施形態では、アービタ２３８は、以下で更に説明するように、複数のモードにおけるファイングレインメモリアクセスのためのコマンド及びアドレスを変換するためのグレインアドレス変換ブロック２４０を含む。いくつかの実施形態では、そのような機能はアドレス生成ブロック２２２によって実行され得る。アービタ２３８は、タイミングブロック２３４を使用して、コマンドキュー２２０内の特定のアクセスがＤＲＡＭタイミングパラメータに基づいて発行に適格であるかどうかを判定することによって、適切なタイミング関係を実施する。例えば、各ＤＲＡＭは、「ｔ_ＲＣ」として知られるアクティブ化コマンド間の最小指定時間を有する。タイミングブロック２３４は、ＪＥＤＥＣ仕様で定められたこのタイミングパラメータ及び他のタイミングパラメータに基づいて適格性を判定するカウンタのセットを維持し、リプレイキュー２３０に対して双方向で接続される。ページテーブル２３６は、アービタ２３８のためのメモリチャネルの各バンク及びランクにおけるアクティブページに関する状態情報を維持し、リプレイキュー２３０に対して双方向で接続される。アービタ２３８は、コマンドキュー２２０の各エントリスタックに対する単一のコマンド入力を含み、そこからコマンドを選択して、メモリインターフェースキュー２１４を介してＤＲＡＭチャネルにディスパッチするようにスケジュールする。

【0026】

インターフェース２１２から受信した書き込みメモリアクセス要求に応じて、ＥＣＣ生成ブロック２４４は、書き込みデータに従ってＥＣＣを計算する。データバッファ２４６は、受信したメモリアクセス要求に関する書き込みデータ及びＥＣＣを記憶する。データバッファは、アービタ２３８がメモリチャネルへのディスパッチのために対応する書き込みアクセスを選択すると、組み合わされた書き込みデータ／ＥＣＣをメモリインターフェースキュー２１４に出力する。

【0027】

メモリコントローラ２００は、関連するメモリチャネルへのディスパッチのためのメモリアクセスを選択することを可能にする回路を含む。所望のアービトレーション決定を行うために、アドレス生成器２２２は、アドレス情報を、メモリシステム内のランク、行アドレス、列アドレス、バンクアドレス、及び、バンクグループを含むプリデコードされた情報にデコードし、コマンドキュー２２０がプリデコードされた情報を記憶する。構成レジスタ（図示せず）は、アドレス生成器２２２が受信したアドレス情報をどのようにデコードするかを判定するための構成情報を記憶する。アービタ２３８は、デコードされたアドレス情報、タイミングブロック２３４によって示されるタイミング適格性情報、及び、ページテーブル２３６によって示されるアクティブページ情報を使用して、サービス品質（ＱｏＳ）要件等の他の基準を遵守しながら、メモリアクセスを効率的にスケジュールする。例えば、アービタ２３８は、メモリページを変更するために必要なプリチャージコマンド及びアクティブ化コマンドのオーバーヘッドを回避するために、オープンページへのアクセスの優先度を実装し、あるバンクへのオーバーヘッドアクセスを別のバンクへの読み取り及び書き込みアクセスとインターリーブすることによって隠す。特に、通常動作中、アービタ２３８は、通常、ページを、これらのページが異なるページを選択する前にプリチャージされる必要があるまで、異なるバンクで開いたままにする。

【0028】

図３は、グレインの使用を示す２つのＤＲＡＭの２つのメモリバンク３０２及び３０４を比較するブロック図３００である。ＤＲＡＭバンク３０２はグレインなしで構成され、一方、ＤＲＡＭバンク３０４は２つのグレイン３０６及び３０８を含む。ＤＲＡＭバンク３０４は、複数のＤＲＡＭバンクを含むより大きなＤＲＡＭ集積回路の一部である。ＤＲＡＭバンク３０４は、概して、複数のグレイン、この場合は２つのグレインに分割されたメモリアレイを含み、各グレインは、行バッファ及び入力／出力（Ｉ／Ｏ）回路を含む。

【0029】

ＤＲＡＭバンク３０２の従来の非グレインアーキテクチャは、ＤＲＡＭバンク３０２に割り当てられた擬似チャネル（pseudo-channel、ｐＣＨ）上で８バースト又は「ビート（beats）」でアクセスされる３２本のデータ線ＤＱ［０：３１］を介して３２バイト（３２Ｂ）メモリアクセスを実行することができる。バンク内の開いた行に列コマンドを発行することにより、８バーストで３２バイト（３２Ｂ）のデータが提供されるが、これは、バンクが擬似チャネルの３２個全てのＤＱピンにアクセスしているためであり、ピンが分割されていないため、ＤＲＡＭバンク３０４の２グレインアーキテクチャと比較して２倍高速のデータ読み出しが提供される。その結果、非グレインアーキテクチャにおいて、開いた行から６４Ｂキャッシュ線を読み出すための時間は、２^＊８＝１６バーストに１つの追加の列から列への長い遅延時間（ｔＣＣＤＬ）を加え、オーバーヘッド時間のデータバス上のバースト持続時間（ｔＢＵＲＳＴ）を引いた時間を要する。

【0030】

本明細書の技術なしにファイングレインアーキテクチャを使用する場合、ＤＲＡＭバンク３０４は、ｐＣＨのデータ線の２つの指定されたセットＤＱ［０：１５］及びＤＱ［１６：３１］を介して１６Ｂアクセスでアクセスされる。グレイン専用の擬似チャネルの１６個のＤＱピンを有するこの例示的な構成では、グレイン内の開いた行は、８バーストで１６Ｂのデータを提供することによって列コマンドに応答する。したがって、開いた行から６４Ｂキャッシュ線を読み出すための時間は、４^＊８＝３２バーストに追加の３（ｔＣＣＤＬ－ｔＢＵＲＳＴ）サイクルのオーバーヘッドを加えた時間を要する。したがって、グレインアーキテクチャは、個々の３２Ｂアクセスに対して３３％のレイテンシペナルティを被る。

【0031】

図４は、グレインに依存しないフォーマットでインターリーブされたファイングレインＤＲＡＭメモリのためのアドレス線の配置を示す図である。図示した配置では、アドレス線番号は、各アドレス線番号の下にラベル付けされたアドレス線を使用して上部に示されている。「ＲＯ」は行を表し、「ＣＯ」は列を表し、「ＧＲ」はグレイン番号を表し、「ＢＫ」はバンク番号を表し、「ＢＧ」はバンクグループ番号を表し、「ＰＣＨ」は擬似チャネルを表し、「Ｘ」はアドレス線が割り当てられていないことを示す。グレインに依存しないアドレスインターリーブでは、イレギュラースループット指向の１６Ｂアクセスを可能にするためにストライピング（striping）は行われず、アドレス線１２のグレインアドレスビットはバンクアドレスビットと同様に使用される。

【0032】

図５は、グレインストライプフォーマットでインターリーブされたファイングレインＤＲＡＭメモリのためのアドレス線の配置を示す図である。図示された実施形態は、グレインストライプアドレスインターリービングを用いてグレインのストライプの３２Ｂ配置を実現するために、メモリコントローラにおいて修正されたアドレスインターリービングを展開する。３２Ｂのデータは、それぞれ１６Ｂの２つの相関グレインに分割される。ＧＲアドレスビットは、最下位アドレス線（線４）に存在し、隣接するグレインがこのビットによってアドレス指定されることを意味する。この手法は、例えば、４つのグレイン、８つのグレイン又は１６のグレイン等のように、バンクごとに増加した数のグレインをサポートするように拡張され得ることに留意されたい（理論的には、バンク内の列の数によってのみ制限される）。

【0033】

しかしながら、図５のグレインストライプアドレスインターリービングを単独で単に使用するだけでは、同じ物理バンクへの列コマンド間に存在するｔＣＣＤＬ制約のために、許容できない追加の７５％オーバーヘッドに悩まされる。このオーバーヘッドは、「パートナー」グレイン（隣接するアドレスで機能するグレイン）を異なるバンクグループに分離することによって、いくつかの実施形態ではｔＣＣＤＳのオーバーヘッドまで下げることができる。しかしながら、そのような実装においてであっても、オーバーヘッドは依然として無視できない。更に、パートナーグレインの異なるバンクグループへのそのような分離は、２つのグレイン間の非同期レイテンシを回避するために、メモリコントローラに追加のスケジューリング及びデータ応答再構成の複雑さを課す。

【0034】

図６は、先行技術による、ファイングレインメモリバンク６００のブロック図であり、図７は、いくつかの実施形態による、ファイングレインメモリバンク７００のブロック図である。

【0035】

メモリバンク６００は、「グレイン０」及び「グレイン１」とラベル付けされた２つのグレインと、行デコーダ６０２と、２つの列デコーダ６０４及び６０６と、「Ｇｒ．Ｓｅｌ」とラベル付けされたグレイン選択回路６０８と、コマンドバス６２０と、アドレスバス６２２と、を含む。動作中、メモリバンク６００は、メモリコントローラからコマンドバス６２０を介して送信される図示された列アドレスストローブ（ＣＡＳ）コマンド等のコマンドでアクセスされる。図示されるように、アドレスバス６２２は、図４のアドレス方式に従って、列アドレスビット（ＣＯ）を列デコーダ６０４及び６０６に提供し、グレインビット（ＧＲ）をグレインセレクタ回路６０８に提供する。メモリアクセスは、１つのグレインの幅であり、この例では１６Ｂである。

【0036】

図７を参照すると、メモリバンク７００は、「グレイン０」及び「グレイン１」とラベル付けされた２つのグレインと、行デコーダ７０２、２つの列デコーダ７０４及び７０６、各グレイン内の行バッファ（別々に図示せず）、「ｍＣＡＳｓｕｐｐ」（ｍＣＡＳサポート）とラベル付けされたデュアルモード入力／出力（Ｉ／Ｏ）回路７０８、７２０とラベル付けされたコマンドバス、並びに、アドレスバス７２２を含むＩ／Ｏ回路と、を含む。この実施形態では、デュアルモードＩ／Ｏ回路７０８は、メモリバンク内の各グレインのＩ／Ｏ回路に接続される。

【0037】

デュアルモードＩ／Ｏ回路７０８は、「ｍＣＡＳイネーブル」とラベル付けされた第１の入力と、「グレインビット」とラベル付けされた第２の入力と、「グレイン０イネーブル」とラベル付けされた第１の出力と、「グレイン１イネーブル」とラベル付けされた第２の出力と、を含む。第１の入力は、メモリコントローラからコマンドバス７２０を介してマルチキャストＣＡＳイネーブル信号を受信し、第２の入力は、グレインアドレスビット（ＧＲ、図５）を受信する。第１の出力は列デコーダ７０４に接続され、第２の出力は列デコーダ７０６に接続される。

【0038】

デュアルモードＩ／Ｏ回路７０８は、概して、第１のデータ幅（１６Ｂ）を有するコマンドが各グレインにルーティングされ、各グレインにおいて個別に実行される第１のモードと、第１のデータ幅とは異なる第２のデータ幅（３２Ｂ）を有するコマンドがグレインのうち少なくとも２つによって並列に実行される第２のモードと、で動作する。そのような構成は、この例では両方ともバンク７００のグレインである２つ以上のパートナーとなるグレイン（partnered grain）に対するマルチキャスト列アドレスストローブ（ｍＣＡＳ）コマンドを使用することによって、上記で説明したｔＣＣＤＬ制約によって課されるオーバーヘッドを克服する。ｍＣＡＳコマンドを構成するアドレスビットは、グレイン識別子ビットを除いて、両方のグレインと同一である。したがって、図示した実施形態は、ｍＣＡＳコマンドのサポートを用いて共有コマンド及びアドレス（ＣＡ）パス／論理を増強する。

【0039】

図示した２グレインの例では、デュアルモードＩ／Ｏ回路７０８は、ｍＣＡＳイネーブル信号で増強されたマルチプレクサを用いて実装されるが、他の実施形態では他の論理実装が採用される。デュアルモードＩ／Ｏ回路７０８は、図の右側により詳細に示されており、この実施形態では、マルチプレクサ７１０及び２つのＯＲゲート７１２を含む。マルチプレクサ７１０は、グレインアドレスビットを受信する入力と、ＯＲゲート７１２のそれぞれの入力に接続された２つの出力と、を有する。各ＯＲゲート７１２は、マルチプレクサ７１０の出力に接続された第１の入力と、マルチキャストＣＡＳイネーブル信号を受信する第２の入力と、を有する。

【0040】

動作中、現在のＣＡＳコマンドがマルチキャストＣＡＳコマンドであることを知らせるためにマルチキャストＣＡＳイネーブル信号がＨＩＧＨである場合、ＯＲゲート７１２の出力はＨＩＧＨになり、バンク７００の両方のグレイン内の選択された列に対してＣＡＳをアサートさせることによってマルチキャストＣＡＳコマンドをイネーブルする。次いで、グレインは、ＣＡＳに並列に応答して、より高いデータ幅を提供する。このモードでは、両方のグレインがｍＣＡＳコマンドを受信し、両方が、アドレスバス上に示されたそれぞれのアドレスから読み取られた１６Ｂのデータを用いて並列に応答する。マルチキャストＣＡＳイネーブル信号がローである場合、ＯＲゲート７１２の一度に１つだけがハイ出力を有し、一度に１つのグレインだけがＣＡＳコマンドを受信することを可能にし、したがって通常のファイングレイン動作を提供する。

【0041】

この実施形態におけるバンク７００は２つのグレインを有するが、デュアルモードＩ／Ｏ回路７０８内のマルチレベルマルチプレクサツリーを含むいくつかの実施形態では、より高いグレインカウントが提供される。例えば、バンク７００内に８つのグレインを有する１つの例示的な実施形態では、各グレインは、第１のモードにおいて４Ｂの幅を有するファイングレインメモリアクセスを提供することができ、一方、第２のモードにおいて並列に動作する８つのグレイン全てが３２Ｂの幅を有するアクセスを提供する。そのような実施形態におけるデュアルモードＩ／Ｏ回路７０８は、３つのグレインビットを受信する３レベルマルチプレクサツリーを含む。第１のモードでは、マルチプレクサツリーは、アドレス指定されている適切なグレインにＣＡＳコマンドをルーティングし、８つの列デコーダのうち１つのみをアクティブ化させる。第２のモードでは、デュアルモードＩ／Ｏ回路は、８つ全ての列デコーダをイネーブルすることによって、マルチキャストＣＡＳコマンドに応じて、ＣＡＳコマンドを各グレインにおいてアサートさせる。

【0042】

図８は、いくつかの追加の実施形態による、ファイングレインメモリバンク８００のブロック図である。メモリバンク８００は、「グレイン０」及び「グレイン１」とラベル付けされた２つのグレインと、行デコーダ８０２、２つの列デコーダ８０４及び８０６、各グレイン内の行バッファ（別々に図示せず）、「Ｇｒ．Ｓｅｌ」とラベル付けされたグレイン選択回路８０８、「ｍＣＡＳリレー」とラベル付けされたマルチキャストＣＡＳリレー回路８１０、コマンドバス８２０並びにアドレスバス８２２を含むＩ／Ｏ回路と、を含む。

【0043】

この実施形態では、デュアルモードＩ／Ｏ回路は、図７のようなマルチプレクサツリー実装ではなく、マルチキャストＣＡＳリレー回路８１０として具現化される。バンクごとに多数のグレイン（例えば、８又は１６等のグレインの数「Ｇ」）が存在する場合、マルチプレクサツリー実装の追加の深さは、クリティカルパスコマンドレイテンシの増加を引き起こす。マルチプレクサツリーを使用する代わりに、図示した実施形態は、マルチキャストＣＡＳリレー回路８１０を用いて、ＣＡＳ信号の局所化された非同期反復（リレー）を実行する。マルチキャストＣＡＳリレー回路８１０は、グレイン０の列デコーダ８０４と同じ場所に配置され、ｍＣＡＳイネーブル信号を受信する第１の入力と、グレイン１の列デコーダに接続された出力と、を含む。３つ以上のグレインを有する実施形態では、ｍＣＡＳを他のグレインに転送するために、複数のグレインのためのＩ／Ｏ回路内にマルチキャストＣＡＳリレー回路８１０が存在する。マルチキャストＣＡＳリレー回路８１０の構造は、そのより短い電気導体に起因して、マルチプレクサツリー実装よりも低いキャパシタンスを有し、したがって、多くのグレインがある場合にコマンドレイテンシをあまり増加させない。

【0044】

動作中、メモリバンク８００は、メモリコントローラからコマンドバスを介して送信される図示された列アドレスストローブ（ＣＡＳ）コマンド等のコマンドでアクセスされる。図示されるように、アドレスバスは、図４のアドレス方式に従って、列アドレスビット（図４のＣＯ）を列デコーダ８０４及び８０６に運び、グレインビット（図４のＧＲ）をグレインセレクタ回路８０８に運ぶ。第１のモードでは、メモリアクセスは、１つのグレインの幅であり、この例では１６Ｂである。第２のモードでは、メモリアクセスは、２つ以上のグレイン（この例では２つ、合計３２Ｂ）の幅である。第２のモードは、メモリコントローラからマルチキャストＣＡＳリレー回路８１０に供給されるｍＣＡＳイネーブル信号によってアクティブにされる。第２のモードでは、マルチキャストＣＡＳリレー回路８１０は、マルチキャストＣＡＳコマンド内の初期グレイン識別子値を他のグレインを識別する新しい値に置き換えることによって、マルチキャストＣＡＳコマンドのローカライズされたリレーを、少なくとも２つのグレインの別の１つに転送するように第２のモードで実行する。いくつかの実施形態では、マルチキャストＣＡＳリレー回路８１０は、ルックアップテーブル又は加算器を使用して新しい値を識別する。

【0045】

デュアルモードＩ／Ｏ回路のための２つの異なる実施形態が図７及び図８に関して説明されるが、他の好適なデジタル論理方式が第１のモード及び第２のモードにおいて動作するステップを実行するために、メモリにおいて実装されてもよい。

【0046】

図９は、いくつかの実施形態による、ファイングレインメモリを動作させるためのプロセスのフロー図９００である。この実施形態では、プロセスは、キャッシュミスの場合にメインメモリへの３２Ｂ要求を使用する「ＬＤ」コマンドと、メインメモリからではなくオンチップスクラッチパッドからサービス可能な不規則なロードサイズ「ｘ」を指定する「ＬＤ＿ｘ」コマンドと、単一の１６Ｂ要求を介してメインメモリからサービス可能なサイズｘの不規則なロードを指定する「ＬＤ＿ｘ＿ＭＥＭ」コマンドと、を含む、右側に列挙されているメモリロード（読み取り）コマンドの３つの変形形態を使用する。

【0047】

ブロック９０２に示されるように、プロセスは、選択されたＬＤメモリアクセス要求が、メインメモリからの１６Ｂフェッチを引き起こさなければならない不規則な要求である場合、選択されたＬＤメモリアクセス要求をＬＤ＿ｘ＿ＭＥＭ要求としてタグ付けすることを含む。ブロック９０２におけるタグ付けは、メモリアクセスコマンドが発生する元のソフトウェアを生成するプログラマによって、又は、指定されたメモリシステムのためのプログラミング命令を解釈するコンパイラ若しくはジャストインタイムコンパイラによって実行され得る。

【0048】

ブロック９０４において、メモリコントローラは、例えば、プログラム又はライブラリがブロック９０２においてタグ付けされた命令を実行する場合に、タグ付けされたメモリアクセス要求に関連付けられたメモリアクセス要求を受信する。この時点での要求は、図示したように１６Ｂ等の第１のデータ幅、又は、図示したように３２Ｂ等の第２のデータ幅を有することができる。ブロック９０６において、プロセスは、要求が第１のデータ幅、例えば１６Ｂを有するかどうかを判定する。そうである場合、プロセスはブロック９０８に進み、そこで、１６Ｂ幅のファイングレインメモリアクセスで要求に対応するために、要求にグレインに依存しないアドレスインターリービングを適用する。次に、メモリコントローラは、ＣＡＳコマンドを１６Ｂ幅のメモリグレインに発行して、コマンドを実行する。上述したように、この要求は、第１のモードにおいて、それぞれのメモリバンク内のメモリの単一グレインへのアクセスによって対応される。ブロック９１０で１６ＢＣＡＳに対してアクティブ化が発行されると、メモリコントローラは、１６ｂの８バーストでメモリから応答データを受信する。

【0049】

再びブロック９０６を参照すると、要求が１６Ｂ要求でない場合、プロセスはブロック９１２～９１４に進み、上述したように第２のモードで動作するデュアルモードＩ／Ｏ回路を使用して要求に対応する。ブロック９１２において、３２Ｂ要求は、例えば、図５に示されるようなグレインのストライプ配置に従って互いに関連付けられた２つの１６Ｂサブ要求に分割される。ブロック９１４において、そのようなグレインストライプ方式のためのアドレスインターリービングが２つの１６Ｂコマンドに適用され、３２ＢマルチキャストＣＡＳコマンドがメモリコントローラから発行されて、メモリからのコマンドの両方を実行する。マルチキャストＣＡＳコマンドに応じて、メモリは、少なくとも２つのグレイン内の選択された列に対して列アドレスストローブを並列にアサートさせることによって、要求に対応する。例えば、７０８（図７）のデュアルモードＩ／Ｏ回路、又はマルチキャストリレー回路８０８（図８）は、第２のモードで動作して、マルチキャストＣＡＳコマンドを複数のメモリグレインにおいてアサートさせる。得られたデータは、ブロック９１６に示すように、１６Ｂ幅の２つの並列バーストでメモリコントローラに戻される。また、メモリコントローラは、受信されたデータの照合を実行して、元のメモリ要求に対する応答に適切な順序のデータを提供することができる。

【0050】

図１０は、いくつかの実施形態による、ファイングレインメモリを動作させるためのライブラリ命令を含むデータ処理システム１０００のブロック図である。データ処理システム１０００は、オペレーティングシステム（operating system、ＯＳ）１００２と、メモリコントローラ１００８と、メモリ１０１０と、を含む。オペレーティングシステム１００２は、データ処理システムの１つ以上のプロセッサ上で実行し、命令セットアーキテクチャ（instruction set architecture、ＩＳＡ）コマンドライブラリ１００４及びジャストインタイム（just-in-time、ＪＩＴ）コンパイラ１００６を含む。

【0051】

いくつかの実施形態では、拡張されたＩＳＡコマンドライブラリ１００４は、ＩＳＡコマンドライブラリ１００４内の省略記号によって示されるような一般的に使用されるＩＳＡライブラリ内の標準ＬＤコマンド及び他のコマンドに加えて、図９に関して上述したようなロードコマンドＬＤ＿ｘ及びＬＤ＿ｘ＿ＭＥＭを含む。追加のＩＳＡコマンドは、本明細書で説明する２つのモードでファイングレインメモリにアクセスすることをサポートするために、異なる方法で使用され得る。追加のコマンドは、オペレーティングシステム１００２に公開され、オペレーティングシステム１００２において実行中のプログラムによる使用のために利用可能である。オペレーティングシステム１００２は、オプションでＪＩＴコンパイラ１００６を含み、２つのモードでファイングレインメモリアクセスを可能にするために、拡張されたＩＳＡコマンドセットよりもむしろＪＩＴコンパイラ１００６が使用され得る。

【0052】

異なるモード、例えば、１６Ｂ及び３２Ｂアクセスの上述した２つのモードでＯＳ支援メモリ（OS-assisted memory）ファイングレインメモリアクセスを提供するために、プログラマは、通常のＬＤコマンド又はＬＤ＿ｘ＿ＭＥＭ及びＬＤ＿ｘコマンドを呼び出すプログラムをコンパイルすることができる。他の実施形態では、新しいＩＳＡ命令の代わりに、デュアルモードファイングレインアクセスがＯＳに公開され、その結果、プログラマは、不規則なアクセスを被ることになるメモリ領域に注釈を付けることができる。そのような実施形態では、プログラマは、新しい「ｍａｌｌｏｃ」（メモリ割振り）命令を使用してグレインに好適な割振りを要求する。そのようなｍａｌｌｏｃ命令に応じて、ＯＳは、対応する領域のページテーブルエントリにタグを付けて、アクセス粒度、すなわち、領域が１６Ｂアクセスをサポートするか３２Ｂアクセスをサポートするかを示す。プロセッサのロード及びストアは、メモリにアクセスする前に、プロセッサの変換索引バッファ（ＴＬＢ）又は他のアドレス変換テーブルを調べるので、アクセス粒度タグは、各コマンドのアドレス変換から容易に取り出すことができる。このアクセス粒度タグは、好ましくは単一ビットとしてメモリコントローラに伝達され、関連するアクセスが有するのが第１の幅か第２の幅か、例えば１６Ｂか３２Ｂかを示す。

【0053】

このような機構の重大な制限は、割り当てられたメモリ領域全体が、通常、同じアクセス粒度を有する必要があること、又は、メモリ領域が、実行全体を通して同じアクセス粒度を受ける必要があることである。これらの制限に対処するために、いくつかの実施形態は、プログラマが、コンパイラによって生成されるＬＤ対ＬＤ＿Ｘ＿ＭｅｍＩＳＡ命令等の特定のアクセス粒度でオーバーライドされ得るアクセス粒度で、割り振られたメモリ領域をタグ付けするハイブリッド手法を採用する。例えば、アプリケーションは、３２Ｂアクセス粒度領域として構造にタグ付けすることができるが、静的コンパイラ又はＪＩＴコンパイラ１００６は、１６ＢアクセスをサポートすることができるＬＤ＿Ｘ＿ＭｅｍＩＳＡ命令を生成することができる。このような方式は、メモリ領域に対するアクセス粒度を、元のアプリケーションプログラミングによって割り振られたものから動的に切り替えることを可能にする。理解できるように、メモリ１０１０は、メモリ領域のためのＩＳＡコマンド又は粒度情報を受信することに応じて、メモリコントローラ１００８からの命令に従って、上述したような２つのモードの何れかで動作され得るファイングレインメモリバンクを含む。

【0054】

図１１は、いくつかの実施形態による、ファイングレインメモリを動作させるためのプロセスのフロー図１１００である。ブロック１１０２において、プログラムは、２つ以上の粒度、例えば１６Ｂ及び３２Ｂの中からアクセス粒度を指定するメモリアクセスコマンドを用いて、説明したようにコンパイルされる。ブロック１１０４では、コンパイルされたプログラムがＯＳによって実行される。ブロック１１０６に示されるように、ＪＩＴコンパイラ１００６等のジャストインタイムコンパイラは、メモリにおいて利用可能なファイングレインアクセスに基づいて、それぞれの指定されたアクセス粒度のファイングレインコマンドを生成する。これらのコマンドは、メモリコントローラによって解釈されて、第２のアクセスモードがＪＩＴコンパイラによって呼び出されるメモリアクセスを実施するためのマルチキャストＣＡＳコマンドを生成する。

【0055】

図２、図３、図７、図８の回路、又は、その任意の部分（アービタ２３８又はデュアルモードＩ／Ｏ回路７０８等）は、データベースの形態のコンピュータアクセス可能なデータ構造又は集積回路を製造するためにプログラムによって読み取られ、直接的又は間接的に使用され得る他のデータ構造によって説明又は表示され得る。例えば、このデータ構造は、Ｖｅｒｉｌｏｇ又はＶＨＤＬ等の高レベル設計言語（high level design language、ＨＤＬ）におけるハードウェア機能の挙動レベル記述又はレジスタ転送レベル（register-transfer level、ＲＴＬ）記述であり得る。記述は、合成ライブラリからゲートのリストを含むネットリストを生成するために記述を合成することができる合成ツールによって読み取ることができる。ネットリストは、集積回路を含むハードウェアの機能も表すゲートのセットを含む。ネットリストは、次に、マスクに適用される幾何学的形状を記述するデータセットを生成するために配置され、ルーティングされてもよい。次に、マスクを、様々な半導体製造工程で使用して、集積回路を製造してもよい。代替的に、コンピュータアクセス可能記憶媒体上のデータベースは、所望の場合、ネットリスト（合成ライブラリの有無にかかわらず）若しくはデータセット、又は、グラフィックデータシステム（Graphic Data System、ＧＤＳ）ＩＩデータであってもよい。

【0056】

特定の実施形態を説明してきたが、これらの実施形態に対する様々な修正が当業者には明らかであろう。例えば、メモリコントローラ２００は、異なる実施形態において異なり得る。メモリコントローラ２００は、高帯域幅メモリ（ＨＢＭ）、ＲＡＭｂｕｓＤＲＡＭ（ＲＡＭｂｕｓＤＲＡＭ、ＲＤＲＡＭ）等のように、ＤＤＲｘ以外の他のタイプのメモリとインターフェースすることができる。図示した実施形態は、個別のＤＩＭＭ又はＳＩＭＭに対応するメモリの各ランクを示したが、他の実施形態では、各モジュールは複数のランクをサポートすることができる。更に他の実施形態は、ホストマザーボードに取り付けられたＤＲＡＭ等のように、特定のモジュールに含まれていない他のタイプのＤＲＡＭモジュール又はＤＲＡＭを含むことができる。したがって、添付の特許請求の範囲は、開示された実施形態の範囲に含まれる開示された実施形態の全ての変更を網羅することを意図している。

【要約】