(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】基板接合を用いた高帯域幅・大容量メモリ組み込み型電子デバイス
(51)【国際特許分類】
G11C 5/02 20060101AFI20240123BHJP
G06F 12/00 20060101ALI20240123BHJP
G06F 12/06 20060101ALI20240123BHJP
G11C 5/04 20060101ALI20240123BHJP
H01L 25/07 20060101ALI20240123BHJP
H01L 25/065 20230101ALI20240123BHJP
H01L 25/18 20230101ALI20240123BHJP
H10B 41/27 20230101ALI20240123BHJP
H10B 43/27 20230101ALI20240123BHJP
H10B 99/00 20230101ALI20240123BHJP
【FI】
G11C5/02 100
G06F12/00 550C
G06F12/00 560F
G06F12/06 525A
G11C5/04 220
H01L25/08 B
H01L25/08 C
H10B41/27
H10B43/27
H10B99/00 495
(21)【出願番号】P 2021541611
(86)(22)【出願日】2020-01-29
(86)【国際出願番号】 US2020015710
(87)【国際公開番号】W WO2020160169
(87)【国際公開日】2020-08-06
【審査請求日】2023-01-27
(32)【優先日】2019-01-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-02-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-05-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518109985
【氏名又は名称】サンライズ メモリー コーポレイション
(74)【代理人】
【識別番号】110001379
【氏名又は名称】弁理士法人大島特許事務所
(72)【発明者】
【氏名】クアデル、カンドカー・ナズルル
(72)【発明者】
【氏名】ノルマン、ロバート
(72)【発明者】
【氏名】リー、フランク サイークン
(72)【発明者】
【氏名】プティ、クリストファー・ジェイ
(72)【発明者】
【氏名】ヘルナー、スコット ブラッド
(72)【発明者】
【氏名】チャン、シウロン
(72)【発明者】
【氏名】サラフディン、サイーフ
(72)【発明者】
【氏名】モフィディ、メルダッド
(72)【発明者】
【氏名】ハラリ、エリ
【審査官】後藤 彰
(56)【参考文献】
【文献】特開2009-277334(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G11C 5/02
G06F 12/00
G06F 12/06
G11C 5/04
H01L 25/07
H10B 41/27
H10B 43/27
H10B 99/00
(57)【特許請求の範囲】
【請求項1】
半導体基板の平面上に形成され、かつ複数のモジュラー型メモリユニットを含むメモリ回路であって、
複数の前記モジュラー型メモリユニットのそれぞれがワード線及びビット線によってアクセスされるストレージトランジスタの3次元アレイを含む該メモリ回路と、
前記メモリ回路の下に位置する前記半導体基板に形成され、かつ、複数のモジュラー型回路ユニットを含む前記メモリ回路のためのサポート回路であって、
複数の前記モジュラー型回路ユニットのそれぞれが各モジュラー型メモリユニットの関連するものの下に位置するように形成されることにより、前記モジュラー型メモリユニットのメモリ動作を補助する該サポート回路と、を含み、
各モジュラー型メモリユニットは、関連する前記モジュラー型回路ユニットによって独立して動作して前記メモリ動作を行うように構成され、2以上の前記モジュラー型回路ユニットによって並行して動作することにより前記メモリ動作を行うように構成されている、メモリデバイス。
【請求項2】
前記メモリ動作が消去動作、プログラム動作、読み出し動作、及びリフレッシュ動作を含む、請求項1に記載のメモリデバイス。
【請求項3】
コマンド信号及び関連するアドレス信号を含む1以上の制御信号をそれぞれ受信し、各制御信号に含まれる前記アドレス信号が、関連する前記コマンド信号を受信するための前記モジュラー型メモリユニットの1つを指定する、請求項2に記載のメモリデバイス。
【請求項4】
前記アドレス信号によって指定された前記モジュラー型メモリユニットは、それぞれ関連する前記モジュラー型回路ユニットによって並行して動作し、関連する前記コマンド信号によって指定された前記メモリ動作を行うように構成されている、請求項3に記載のメモリデバイス。
【請求項5】
他の前記半導体基板上に形成されたコントローラ集積回路から前記制御信号を受信する、請求項3に記載のメモリデバイス。
【請求項6】
前記コントローラ集積回路は、ホストデバイスと通信するためのホストインターフェース、前記メモリデバイスの管理機能を実現するように構成された論理回路、前記メモリデバイスに格納される書き込みデータを格納するための1以上の書き込みバッファ、及び、前記メモリデバイスに格納されるデータに対して誤り訂正を行うための誤り訂正回路を含む、請求項5に記載のメモリデバイス。
【請求項7】
前記メモリ動作が、前記消去動作の後に続く前記プログラム動作を含む書き込み動作を含む、請求項2に記載のメモリデバイス。
【請求項8】
前記書き込み動作に関連する書き込みデータ値を指定する書き込みデータ信号をさらに受信する、請求項7に記載のメモリデバイス。
【請求項9】
各モジュラー型回路ユニットは、ワード線ドライバ回路及びビット線ドライバ回路と、前記アドレス信号をデコーディングすることにより指定された前記モジュラー型メモリユニット及びそこで指定された前記ストレージトランジスタを選択するアドレスデコーダと、選択された前記ストレージトランジスタからストレージデータを読み出すセンスアンプと、ドライバ回路、ラッチまたはレジスタ用の動作電圧を生成する電圧源と、関連する前記モジュラー型メモリユニットにおける前記読み出し動作、書き込み動作、並びに、前記消去動作及び前記リフレッシュ動作を管理するステートマシンとを含む、請求項3に記載のメモリデバイス。
【請求項10】
各モジュラー型メモリユニットが、前記ストレージトランジスタの前記3次元アレイ及び関連する前記モジュラー型回路ユニットの上に位置するように形成され、かつ前記ストレージトランジスタの前記3次元アレイ及び関連する前記モジュラー型回路ユニットと電気的に接続された相互接続導体層をさらに備え、
前記相互接続導体層は、前記ストレージトランジスタ及び前記モジュラー型回路ユニット間で制御及びデータ信号をルーティングすることにより前記メモリ動作を実行するために設けられる、請求項9に記載のメモリデバイス。
【請求項11】
前記メモリ回路が、準揮発性メモリ回路を含む、請求項1に記載のメモリデバイス。
【請求項12】
前記準揮発性メモリ回路の前記ストレージトランジスタは、それぞれ1日以上の保持時間を有し、プログラム・消去回数が100万回以上の寿命を有する、請求項11に記載のメモリデバイス。
【請求項13】
前記メモリ回路が、不揮発性メモリ回路を含む、請求項1に記載のメモリデバイス。
【請求項14】
前記ストレージトランジスタが、それぞれ、ダイレクトトンネル技術によってプログラム可能なストレージ材料を含む、請求項1に記載のメモリデバイス。
【請求項15】
前記ストレージトランジスタが、それぞれ、強磁電体ストレージトランジスタを含む、請求項1に記載のメモリデバイス。
【請求項16】
前記ストレージトランジスタの前記3次元アレイが、複数のNORメモリストリングを含む、請求項3に記載のメモリデバイス。
【請求項17】
前記NORメモリストリングの前記3次元アレイが第1の方向に平行に配列され、第2の方向に積層される各NORメモリストリングは、それぞれが第3の方向に延在する共通ソース層及び共通ドレイン層を共有する複数の前記ストレージトランジスタを含み、前記NORメモリストリングの前記アレイは更に、
(1)前記NORメモリストリングの隣接するスタックの間に形成された複数のローカルワード線構造と、
(2)前記3次元アレイの上に位置するように形成され、前記第1の方向に延在し、並びに、それぞれが前記ローカルワード線構造のそれぞれのサブセットに接続されている複数の前記ワード線とを有し、
各ストレージトランジスタは、各NORメモリストリング及び各ローカルワード線構造の接続部に形成されており、(i)前記共通ソース層及び前記共通ドレイン層の間に形成されたチャネル領域、(ii)ゲート絶縁層、並びに、(iii)ゲート導体としての前記ローカルワード線構造を備える、請求項16に記載のメモリデバイス。
【請求項18】
各モジュラー型回路ユニットは、関連する前記モジュラー型メモリユニットと第1の方向及び第2の方向に同じ寸法を有する、請求項1に記載のメモリデバイス。
【請求項19】
前記制御信号の前記アドレス信号は、前記制御信号のうちの1つに応答して、アクセスされる前記モジュラー型メモリユニットを指定し、指定された前記モジュラー型メモリユニットの前記モジュラー型回路ユニットは、前記ワード線のうちの1つを活性化し、前記ビット線のページを選択してアクティブ化し、及び、関連する前記コマンド信号によって示される前記メモリ動作を実行する、請求項17に記載のメモリデバイス。
【請求項20】
各モジュラー型回路ユニットが、
アドレスデコーダ、及び、前記ワード線のうちの1つを選択して活性化するように互いに結合された複数のワード線ドライバ回路と、
前記ビット線の前記ページを選択するように互いに結合された複数のビット線選択トランジスタと、
前記ビット線選択トランジスタに結合されることにより、選択された前記ビット線に関連するデータ値を感知する複数のセンスアンプと、
選択された前記ストレージトランジスタから感知されたデータを記憶するための1以上のデータラッチと、
電源電圧、接地電圧、プログラム電圧、消去電圧、読み出し電圧、または基準電圧を生成する電圧生成器と、
前記コマンド信号に応答して、前記消去動作、前記プログラム動作、前記読み出し動作、及び前記リフレッシュ動作を実行するために、関連するメモリユニットの動作を制御するステートマシンとを備える、請求項19に記載のメモリデバイス。
4
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、高性能コンピューティングに関する。本発明は、特に、基板接合を用いて、論理集積回路に、高帯域幅・大容量メモリデバイスに対するアクセスを提供することによって、高性能の電子デバイスを作製することに関する。
【0002】
非仮特許出願には、平坦な単結晶半導体基板上に作製された3次元メモリ構造体(「3次元NORメモリアレイ」)が開示されている。以下では、単一の半導体基板上に設けられた3次元NORメモリアレイを「3次元NORメモリチップ」と総称する。一例では、3次元NORメモリチップ上の各3次元NORメモリアレイは、薄膜ストレージトランジスタの3次元アレイとして構成され、或る一方向に沿った薄膜ストレージトランジスタは、1以上のNORメモリストリングとして構成されている。本明細書に於ける「NORメモリストリング」という用語は、共通ソース領域及び共通ドレイン領域を共有している薄膜ストレージトランジスタの一群を意味する。非仮特許出願Iでは、各NORメモリストリングは、それぞれ平坦な半導体基板に対して平行な方向に沿って形成される薄膜ストレージトランジスタを有する。非仮特許出願IIでは、各NORメモリストリングは、それぞれ平坦な半導体基板に対して垂直な方向に沿って形成される薄膜ストレージトランジスタを有する。
【0003】
非仮特許出願において、3次元NORメモリアレイの下に位置する半導体基板は、メモリ動作を補助するためのCMOS回路を含み得る。各3次元NORメモリアレイの薄膜ストレージトランジスタは、メモリ構造体と半導体基板との間、又は、メモリ構造体の上に設けられる1以上の導体層(「グローバル相互接続層」)により、その下に位置する補助回路に対して相互接続される。
【0004】
最新技術のダイナミック・ランダム・アクセス・メモリ(DRAM)アレイは、通常、平坦な半導体基板の表面上に作製される。したがって、平坦な半導体基板上の2次元シリコンの「リアル・エステート」は、DRAMメモリアレイと、DRAMメモリアレイの補助回路との間で共有されている必要がある。メモリセルの3次元アレイを作製できない点、及び、補助回路を貴重なシリコンのリアル・エステート上に形成する必要がある点の両方により、DRAMアレイの、シリコン基板の単位面積当たりの集積度は、非仮特許出願の3次元NORメモリアレイよりも遥かに低くなる。換言すれば、3次元NORメモリチップの容量は、同等のサイズのシリコンダイ上に形成されるDRAM集積回路よりも遥かに大きい。
【0005】
基板接合(又はダイ接合)は、半導体デバイスの作製に用いられる技術である。基板接合では、例えば、熱圧着技術、接着接合技術、陽極接合技術、又は熱接合技術を用いて、半導体ダイ同士を互いに接合する。仮特許出願Iには、「フリップチップ」(又は「フリップウェハ」)基板接合技術を用いて、2以上の半導体基板上のデバイス同士を相互接続する例が多数開示されている。具体的には、仮特許出願Iには、その上に非仮特許出願に記載のメモリ構造体が作製された、1以上の基板接合半導体ダイの例が開示されている。「フリップチップ」技術においては、導体充填ビア又は導体ポスト(「スタッド」)は、半導体ダイにおいて、半導体ダイの上面の下に作製されたデバイスに対して電気的にアクセスすることが可能となるように、各半導体ダイの上面に露出している。スタッドに適する導体としては、例えば銅が挙げられる。このような2つの半導体ダイが互いに基板接合された場合、それらの露出スタッドが互いに接触することとなり、これにより、デバイス同士が基板接合半導体ダイの全体に亘って相互接続される。
図7Aは、このようなスタッド接続の一例を示す。
図7Aに示すように、半導体ダイ702と半導体ダイ703との間には、多数のスタッド701-1、701-2、・・・、701-n(以下、総称してスタッド701)が設けられている。本実施形態では、スタッド701-1で示されているように、スタッド701は、オス部及びメス部が互いに嵌合することにより形成されている。スタッド701-1の部分701-1aは、半導体ダイ702の表面上に形成されており、かつアクセス可能なキャビティ705を含む。スタッド701-1の部分701-1bは、半導体ダイ703の表面上に形成されており、かつキャビティ705に対して密嵌する突部704を含む。
【0006】
先行技術では、ワイヤ接合された回路間(又はパッケージされた回路間)のピンを介する通信は、ワイヤ接合(又はパッケージ上)に利用可能なピンの数により帯域幅が制限されるだけでなく、ワイヤ接合を介するピンの間、又は、2つのパッケージピンの間に信号を送信するのに多くの電力が必要となる上、大容量をなすことに起因して大幅な遅延が発生する。しかし、スタッドを介して互いに当接された基板接合半導体ダイを介して信号を送信する場合、これらの制限はない。
【0007】
「フリップチップ」技術の他にも、互いに異なる基板接合半導体ダイの回路同士を相互接続するための他の技術が開発されている。そのような技術の1つに、通称「シリコン貫通ビア」技術(TSV技術)と呼ばれるものがある。TSV技術では、各半導体ダイの厚さ全体に亘って延びる複数の導体充填ビアが設けられている。これにより、半導体ダイが互いに重畳されると、対応する導体充填ビアが互いに当接することにより、互いに異なる半導体ダイ上に作製されたデバイス間を電気的に相互接続する導体ネットワークが形成される。TSV技術においては、半導体ダイ同士を介して信号を伝送する導体が、積層された半導体ダイのうちの任意の2つのダイの間に信号をルーティングできるように配列されている。これにより、TSVは、通常、積層された半導体ダイの各々の周縁部に設けられ、従来のI/Oパッド(例えば、従来のDRAMバス構成)によって駆動されることが多い。フリップチップ技術は、シリコンのリアル・エステートにおけるコストが低く、更に、基板接合された半導体ダイ間のインターフェースの構成において、従来のバス構造を超える非常に高い柔軟性及び選択肢を可能にする。
図7Bは、TSV技術を、半導体ダイ711の断面を用いて示す図である。従来のエッチング技術を用いて半導体ダイ711上に形成された多数のビア712(代表としてビア712-1、712-2、712-3、712-4が示されている)を含む。これらのビアは、その後、導電性材料(例えばタングステン)で充填される。各ビアの両端、及び半導体ダイ711の対向面の露出部には、半導体ダイ711の一方側の表面上に形成された回路に対して接続できるようにするために、或いは、基板接合を介して別の半導体ダイの回路又は他の外部回路に対して接続できるようにするために、結合パッド(結合パッド713t、713bで示されている)が形成されている。
【0008】
一般に「シリコンインターポーザ」と呼ばれる別の技術においては、2以上の半導体ダイ同士を「フリップチップ」方式を用いて互いに基板接合することにより、1つの大きなシリコン基板(すなわち「シリコンインターポーザ」)を作製する。このシリコンインターポーザは、半導体ダイのスタッドを互いに接続するための相互接続導体ネットワークを提供する。「シリコンインターポーザ」技術においては、シリコンインターポーザの、基板接合された半導体に当接している部分の表面積は、その基板接合された半導体ダイの合計表面積よりも大きい。
【0009】
「シリコンインターポーザ」技術の変形として、「シリコンブリッジ」技術と呼ばれる技術がある。「シリコンブリッジ」技術においては、基板接合される半導体ダイの各々が、該半導体ダイにおける1以上の所定端に沿った特定の位置に配置されたデバイスを相互接続するためのスタッドを有する。電源及び接地信号用のスタッドが、上述した以外の位置に個別に設けられてもよい。その後、半導体ダイは、配線スタッドのそれぞれ対応する所定端同士が互いに近接するように、回路基板の表面に対して「うつ伏せ」に配置される。回路基板には、半導体ダイのスタッドを相互接続するための導体ネットワークを提供するシリコン基板(すなわちシリコンブリッジ)が敷き詰められている。その後、半導体ダイはシリコンブリッジに対して基板接合される。このようにして、シリコンブリッジは、シリコンインターポーザ技術とは異なり、相互接続スタッドの近くに重ねるだけでよい。回路基板は、シリコンブリッジの外側で、電源及び接地面に個別にアクセスする。
【0010】
標準化団体JEDECにより、「高帯域幅メモリ」(HBM)規格(JESD235)が公布されている。HBM規格においては、高帯域幅メモリデバイスは、最大8個のDRAMダイと、任意選択で、メモリコントローラを有するベース「ロジック」ダイとを積層し、これらをTSV及びマイクロバンプで相互接続することによって実現される。HBM規格において不可欠な特徴は、2014年6月14日に開催されたメモリフォーラムでの「Highlights of the High-Bandwidth Memory (HBM) Standard」に開示されており、これはNvidiaコーポレーションから入手できる。HBM規格においては、DRAMダイが、複数の全く独立したデータインターフェース(「チャネル」)を提供し、各チャネルは、従来のDDRバスインターフェースと同様の128ビットのバスインターフェースを提供する。HBMでは、TSV技術が使用されたインターポーザウェハを用いてメモリウェハ又はダイの積重体を別の半導体ダイ(例えば論理回路)に接合することにより、ピンアウトのボトルネックが解決されている。HBMは、8枚のウェハ積重体を使用することにより、メモリのピンアウトを8倍に増大させることができる(例えば、128又は256の出力信号)。HBMでデータインターフェースを実装するためには、相当量のシリコンの「リアル・エステート」が必要となる。
【発明の概要】
【0011】
本発明の一実施形態によれば、高帯域幅・大容量・高速アクセスメモリが組み込まれた電子デバイスは、(a)第1の半導体ダイ上に作製され、かつ複数のモジュール型メモリユニットを含むメモリ回路であって、各モジュール型メモリユニットが、(i)ストレージトランジスタの3次元アレイ、及び、(ii)前記第1の半導体ダイの表面に露出し、かつ前記メモリユニットに対応する制御信号、アドレス信号、及びデータ信号を通信するように構成された導体群をそれぞれ含む、該メモリ回路と、(b)第2の半導体ダイ上に作製され、かつ前記第2の半導体ダイの表面に露出した複数の導体を含む論理回路と、を含み、前記第1の半導体ダイ及び第2の半導体ダイが、互いに基板接合されることにより、前記第1の半導体ダイの前記表面に露出する前記導体の各々が、前記第2の半導体ダイの前記表面に露出する前記導体のうちの対応する1つに電気的に接続されている。ストレージトランジスタの3次元アレイは、NORメモリストリングから形成されてもよい。メモリ回路は、少なくとも部分的に、100万回以上の消去/書き込み寿命を有する準揮発性メモリ回路であってもよい。基板接合は、好ましくは、フリップチップ技術又はフリップウェハ技術によって達成される。或いは、例えば、TSV技術、シリコンインターポーザ技術、又はシリコンブリッジ技術等の、他の基板接合技術を、フリップチップ技術の代わりに、又は、フリップチップ技術と組み合わせて使用してもよい。
【0012】
本発明に係る一実施形態によれば、モジュラー型メモリユニットは、第1の半導体ダイの平坦状基板上に形成され、かつ規則的な構成をもって配置されている。この規則的な構成は、モジュラー型メモリユニットが、メモリセグメント化方式に従って(a)個々のメモリユニット毎に、(b)列毎に、又は(c)ブロック毎に個別にアドレス指定できるメモリセグメントに構成されるように、モジュラー型メモリユニットを列及び行に沿って配置してもよい。メモリユニットのブロックは、それぞれ所定数の行及び所定数の列中のメモリユニットからなる。メモリセグメントは、構成セルを用いて実現されてもよく、該構成セルは、メモリユニットの制御信号、アドレス信号、及びデータ信号をメモリセグメント化方式にしたがってそれぞれ対応する導体群に接続するための複数の信号経路を構成する値を格納する。或いは、該構成を設定するためにアンチヒューズが使用されてもよい。信号経路は、導体ネットワークを相互接続するスイッチのネットワーク(例えば、トランスミッションゲート)によって実装されてもよい。構成セルは、フィールドプログラマブルであってもよい。
【0013】
本発明に係る一実施形態によれば、モジュール型メモリユニットは、データ処理回路と共に、モジュール型ユニットから読み出されることとなるデータ、又は、モジュール型ユニットに格納されることとなるデータに対して処理(例えば、誤り訂正及びチェックビット生成)を行う。一実施形態では、モジュール型メモリユニットは、データ処理回路の互いに対向する側に配置されている。一実施形態では、モジュール型メモリユニットは、互いに異なるメモリセグメントに割り当てられ、各メモリセグメントは、データ処理のために、データ処理回路における個別の部分に提供される。
【0014】
一実施形態では、メモリ回路は、準揮発性メモリ(QVM)回路を含む。別の実施形態では、メモリ回路は、同一の半導体基板上に、QVM回路及び不揮発性メモリ(NVM)回路の両方を含む。本発明に係るQVMは、低レイテンシの読み込み、消去、及び書き出しを有し、好ましくは、DRAMのレイテンシと同等であるか、又はそれに近い。本発明に係るQVMは、更に、従来のNANDフラッシュメモリ又は3次元NANDフラッシュよりも1桁以上大きな消去/書き込み寿命を有する。
【0015】
本発明に係る一実施形態によれば、論理回路内のデータ処理回路は、メモリ回路から読み出されることとなるデータ、又は、メモリ回路に格納されることとなるデータのためのデータ処理(例えば、誤り訂正及びチェックビット生成)を提供する。論理回路は、マイクロプロセッサなど(例えば、RISC型プロセッサ又はグラフィックプロセッサユニット)のカスタム論理回路を含んでもよい。更に、論理回路には、業界標準のデータインターフェース、及びフィールドプログラマブル論理デバイスのうちの1以上が設けられてもよい。
【0016】
一実施形態によれば、メモリ回路及び論理回路の両方がセグメント化され、かつ、並列演算動作を実現するために、両回路のリソースがペアにされる。このような構成によれば、各プロセッサが、メモリ回路、ニューラルネットワーク、及び他の人工知能に関連する回路内の1以上の対応するメモリセグメントに対してペアをなす、例えば、論理回路のマルチプロセッサシステム(例えば、複数のコアCPU又はGPU)などの用途において、大きな利点を得ることができる。また、これらのセグメントは、関連動作のシーケンスを実装するためのデータパイプラインとして構成されてもよい。該関連動作では、前の動作により得られる入力データ、及び、メモリセグメント内に格納された一時的な入力データを受信する。
【0017】
本発明に係る一実施形態によれば、モジュール型メモリアレイは、ルックアップテーブルとして実装されたプログラマブル論理回路として使用される。本発明に係る一実施形態によれば、電子デバイスは、(i)ストレージシステム(例えば、ハードディスクシステム又はNANDフラッシュストレージシステム)を管理するためのストレージコントローラと、(ii)ストレージデバイスのためのフラッシュキャッシュメモリを管理し、かつ論理回路に対して基板接合されたメモリ回路を含むフラッシュコントローラと、を含むストレージシステム制御回路を実装する。一実施形態では、フラッシュコントローラ内の論理回路は、メモリ回路用のメモリコントローラを含む。該メモリ回路は、QVM回路及びNVM回路を含んでもよい。論理回路内のメモリコントローラは、メモリコントローラがDRAMコントローラと同様の方法でアクセスできるように、業界標準のデータインターフェース(例えば、DRAMインターフェースなど)を含んでもよい。また、業界標準のバスインターフェースは、PCI/eインターフェースを含んでもよい。メモリコントローラは、更に、NANDフラッシュメモリがストレージシステムのQVMキャッシュメモリとインタラクトできるようにするために、NANDフラッシュメモリ回路に対するインターフェースを実装してもよい。
【0018】
本発明は、添付の図面と併せて、以下の詳細な説明を参照することにより、より良く理解できるであろう。
【図面の簡単な説明】
【0019】
【
図1A】
図1Aは、本発明の一実施形態における使用に好適である、アレイ355a、355bのタイルからなるメモリ回路355を含む半導体ダイ360のフロアプランを示す。
【
図1B】
図1Bは、本発明の一実施形態に係るシステム300を示す図であり、該システム300は、フリップチップ技術又はフリップウェハ技術を用いてプロセッサ回路302に対して基板接合されたQVM回路301を含む。
【
図1C】
図1Cは、本発明の一実施形態に係る、QVM回路301の一部を実装するのに好適な、64行×32列のタイルの「コア」を含むメモリ回路320を示す図である。
【
図1D】
図1Dは、メモリ回路320の一部を示す拡大図であり、2つのタイルペア間に配置されたビットn及びビット(n+1)における、互いに隣接するローカルビット線に設けられた、互いに隣接するスタッド324-a-n及びスタッド324-(a+1)-(n+1)が示されている。
【
図1E】
図1Eは、本発明の一実施形態に係る、スタッドが、メモリタイルレベルでタイル毎をプログラムする様子、及び、データセンタレベルでデータパスを選択する様子を示す図である。
【
図1F】
図1Fは、本発明の一実施形態に係るスタッドの構成を示す模式図である。
【
図1G】
図1Gは、本発明の一実施形態に係る、QVM回路301の一部を実装するのに好適なメモリ回路340を示す図であり、該メモリ回路340は、データセンタ326を互いに共有するコア325-1、325-2を含む。
【
図1H】
図1Hは、本発明の一実施形態に係るマルチダイ構成を示す図であり、該マルチダイ構成は、「フリップチップ」技術を、シリコンインターポーザ技術と組み合わせて用いることにより実装されている。
【
図1I】
図1Iは、フリップチップ技術及びTSV技術の両方を用いて、複数のメモリ回路301-a、・・・、301-mがプロセッサ回路302に対して基板接合されたシステム380を示す図である。
【
図2】
図2は、本発明の一実施形態に係るメモリシステム100を示すブロック図であり、該メモリシステム100は、第2の半導体基板上に形成された制御回路102に対して基板接合された、第1の半導体基板上に形成されたメモリ回路101を含む。
【
図3A】
図3Aは、フラッシュキャッシュメモリ203を有するストレージデバイス204を含むストレージシステムの先行技術におけるストレージシステム200を示す図である。
【
図3B】
図3Bは、本発明の一実施形態に係る、マルチインターフェースメモリ制御回路209に対して基板接合されたNVM回路及びQVM回路210を含むストレージシステム200を示す図である。
【
図3C】
図3Cは、本発明の一実施形態に係る、NVM回路及びQVM回路210、並びにマルチインターフェースメモリ制御回路209の一実施例270を示す図である。
【
図4A】
図4Aは、本発明の一実施形態に係る、大容量メモリ回路401がフリップチップ技術を用いてFPGA回路402に対して基板接合されたシステム400を示す図である。
【
図4B】
図4Bは、メモリ回路401のQVM部分401bが、メモリセグメント421-1、421-2、・・・、421-nに分割された構成を論理的に示す図である。該メモリセグメント421-1、421-2、・・・、421-nは、それぞれ対応するデータバス423-1、423-2、・・・、423-nを介して、それぞれ対応するプログラム可能なロジック(「タイルセル」)セグメント422-1、422-2、・・・、422-nをサーブしている。
【
図4C】
図4Cは、
図4Bの構成の変形例を論理的に示す図であり、該変形例では、タイルセルセグメント422-1、422-2、・・・、422-nもまた、カスタム論理回路と対になっている。
【
図4D】
図4Dは、本発明の一実施形態に係る、
図4Cの構成により実装されたニューラルネットワーク用途を示す図である。該実施形態では、各メモリセグメント及びそれに関連するタイルセルセグメントとカスタムロジックとが、ニューラルネットワークのステージを実装している。
【
図5A】
図5Aは、8K×4バイトのメモリアレイ501に実装されたプログラマブルロジックタイルセル500を示す図であり、組み込みプロセッサ又は同様の論理回路に対して8ビットの出力データを直接提供できる。
【
図5B】
図5Bは、16K×4バイトのメモリアレイを作製するように提供するように構成されたメモリ回路における、プログラマブルロジックタイルセル501a及び501bを示す図である。
【
図5C】
図5Cは、本発明の一実施形態に係る、算術演算及び論理演算のために関連するALU575を有するモジュラーメモリセグメント570を示す図である。
【
図6A】
図6Aは、本発明の一実施形態に係る、他の2つの回路に対して基板接合されたQVM回路における貫通ビアの使用例を示す図である。
【
図6B】
図6Bは、本発明の一実施形態に係る、他の2つの回路に対して基板接合されたQVM回路における貫通ビアの使用例を示す図である。
【
図6C】
図6Cは、本発明の一実施形態に係る、他の2つの回路に対して基板接合されたQVM回路における貫通ビアの使用例を示す図である。
【
図6D】
図6Dは、本発明の一実施形態に係る、他の2つの回路に対して基板接合されたQVM回路における貫通ビアの使用例を示す図である。
【
図7A】
図7Aは、2つの接合基板間にフリップチップのスタッド接続を設けるための一方法を示す図である。
【
図7B】
図7Bは、TSV技術を、半導体ダイ711の断面を用いて示す図である。
【
図7C】
図7Cは、相互接続スタッド又はTSVにおける不良から回復するための配線方式を示す図である。
【
図7D】
図7Dは、
図7Cの配線方式を拡張し、追加の伝送ゲート列と追加の共通導体を設けることにより、接合パッドの各列における任意の2つの不良から回復するものとした配線方式を示す図である。
【0020】
表現を明確にするために、また、図間の相互参照を可能にするために、図中の類似要素には同様の参照番号を付している。
【発明を実施するための形態】
【0021】
本発明に係る強力な電子デバイスは、第1の半導体ダイ(例えば、3次元NORメモリチップ)上に形成されたメモリ回路と、第2の半導体ダイ上に形成された複雑な論理回路(例えば、メモリコントローラ、1以上のマルチコアプロセッサ、フィールドプログラマブル論理回路、又はニューラルネットワーク)とを、基板接合技術又はダイ接合技術を用いて組み合わせることにより作製される。好ましくは、メモリ回路は、アドレス指定可能なモジュラー構造体からなる1以上の普遍的なアレイ、又は、普遍的な方法で配置されたメモリセル(「タイル」)のビルディングブロックを含む。このモジュラリティにより、メモリ回路を、それぞれ個別にアドレス指定可能なメモリセグメントに分割することができる。例えば、所望サイズのメモリセグメント(例えば、32個のタイルの列)は、メモリセグメントを形成するために、タイル群を所望通りに構成することによって実現できる。
【0022】
本発明は、メモリ回路が、非仮特許出願に開示されている大容量・高速アクセスメモリ回路のうちの1つである場合に、特に有利である。非仮特許出願に開示されているメモリアレイの中には、データ保持時間が長い(例えば数十年)不揮発性メモリ(NVM)回路として構成されているものもある。また、非仮特許出願には、そのデータ保持時間は比較的短い(例えば最大で数十分)ものの、そのアクセス時間が比較的高速(例えば100ナノ秒以下)である準揮発性メモリ(QVM)回路の例も開示されている。そのアクセス時間が高速であることにより、このようなQVMメモリ回路は、DRAMと同等のランタイムメモリとして使用することができる。非仮特許出願に開示されているNVM及びQVMはNORメモリストリングとして構成されており、これにより、読み出しデータのアクセス時間が、従来のNANDフラッシュメモリストリングと比較して大幅に短縮されている。例えば、NANDフラッシュアレイが読み出しに50μsを要するのに対し、非仮特許出願Iに開示されているNVM及びQVMは約100nsで読み出しすることができる。更に、従来のNVMメモリセルの消去/書き込み寿命は10万回に満たないのに対し、一方で、非仮特許出願のQVM回路の薄膜ストレージトランジスタの消去/書き込み寿命は109~1011回を超えており、ウェアアウト劣化に対して高い耐性を有している。したがって、QVMは、比較的短いNVMの寿命限界をすぐに超えてしまう、消去/書き込みサイクル数が多いメモリキャッシュ用途において、NVMよりも好適である。
【0023】
QVM回路がランタイムメモリとして使用される場合、QVM回路に要求されるリフレッシュの頻度は、DRAMよりも遥かに低い。3次元NORメモリアレイとして、QVM回路は、DRAMによりも大容量かつ低コストである。したがって、長寿命かつ高速アクセスのQVMは、比較的短いNVMの寿命限界をすぐに超えてしまう、消去/書き込みサイクル数が多いメモリキャッシュ用途において、NVMよりも好適である。QVMのメモリアレイ及びNVMのメモリアレイは、いずれも同一のメモリチップ上に構成されてもよい。また、このようなQVM回路及びNVM回路は、それぞれマルチステートであってもよい(すなわち、各メモリセルで、2以上のデータビットを格納可能であってもよい)。
【0024】
本明細書で説明するQVM回路は、リフレッシュを要するダイナミックメモリである。しかし、本発明のQVM回路は、DRAMと比較して蓄積電荷のリークが非常に小さいため、QVM回路に必要とされるリフレッシュレートは、同等の容量を有するDRAMよりも大幅に低く、その結果、QVM回路の電力は比較的低くなる。
【0025】
非仮特許出願に開示されているメモリ回路は、大容量及び高速アクセスの両方を備えている点で優れている。非仮特許出願におけるいくつかの実施形態によれば、このようなメモリ回路は、そのデータ保持時間(例えば数十年)が長いことにより、不揮発性メモリ(NVM)として使用できる。また、非仮特許出願における他の実施形態によれば、一部のメモリ(「準揮発性メモリ」又はQVM)は、そのアクセス時間が短いことにより、DRAMに似たランタイムメモリとして使用できる。本発明のNVM及びQVMは、薄膜ストレージトランジスタストリングの3次元NORメモリストリングとして構成されてもよく、これにより、従来のNANDフラッシュメモリストリングと比較して、読み出しデータアクセス時間が遥かに短縮されている。例えば、NANDフラッシュアレイが読み出しに50μsを要するのに対し、非仮特許出願Iに開示されているNVM及びQVMは約100nsで読み出しすることができる。
【0026】
QVM回路は、DRAMと比較して蓄積電荷のリークが非常に小さいため、QVM回路に必要とされるリフレッシュレートはDRAMよりも大幅に低く、その結果、QVM回路の電力はDRAMよりも遥かに低くなる。従来のDRAMがミリ秒単位でリフレッシュされるのに対し(例えば、DDR2では64ms)、一方で、QVMは、分単位でリフレッシュ(例えば10分毎)を要求してもよい。QVM回路は、例えば非仮特許出願Iに示されているように、3次元構成(すなわちメモリアレイのスタック)を有することにより、DRAMと比較して大容量かつ低コストであることを特徴とする。
【0027】
フリップチップ技術又はフリップウェハ技術を用いることにより、信号は、一方の半導体ダイのメモリ回路と他方の半導体ダイの論理回路との間を接続する導体ポスト又はスタッドを介して、基板接合された半導体ダイを横断して送達される。スタッドを介した接続は静電容量が比較的小さいため、このような接続は低電力かつ低レイテンシである。従来の入出力回路の制約を受けることなく、多数(例えば、少なくとも数万)のスタッドを各半導体ダイの表面上に配置し、かつ基板接合面領域に亘って実質的に均一に分布させることができる。本発明に係る、メモリ回路と論理回路との間のインターフェースは、従来技術におけるパッケージピンの制限を回避し、これにより、数万又はそれ以上のビットが半導体ダイを横断して同時に転送されることを可能にする。したがって、本発明の電子デバイスは、高分散・大容量メモリのための数万又はそれ以上のレーンの電気的接続を有する内部データハイウェイのような、大型組み込み式かつ高帯域幅であるという利点を有する。
【0028】
概して、QVM回路において利用可能である大容量、高速アクセス、及び長寿命は、該QVM回路をプロセッサユニットに対して基板接合することにより達成される帯域幅の高さと相まって、大型組み込みメモリとして効果的に機能する大容量メモリを有する強力な電子デバイスを実現する。このQVM回路は、プロセッサ回路が形成された半導体ダイ中に組み込まれているのではなく、物理的には別のウェハ上又はチップ上に存在しているにも関わらず、大型組み込みメモリとして効果的に機能する。本発明は、例えば人工知能等を含む多くの用途における大きな利点を実現又は提供するものである。本発明の電子デバイスは、同等のメモリアクセス時間を有する従来のDRAMベースのノイマン型プロセッサシステムよりも高い帯域幅かつ低い消費電力を実現できることが示されている。
【0029】
図1Aは、ビルディングブロック(本明細書ではタイルと呼称する)からなるメモリ回路355を含む半導体ダイ360のフロアプランを示している。本明細書における説明では、各タイルは、個別かつ独立にアドレス指定されるように構成されてもよい(「特定のタイルの原則」)。任意選択で、より大きなメモリセグメント(例えば、一行のタイル又はタイルの2次元ブロック)が形成され、かつ、それらがまとめてアドレス指定(例えば、「特定の行」のアドレス指定、又は「特定のコア」のアドレス指定)されるように構成されてもよい。これらのいずれの構成においても、このアドレス指定可能ユニットを「バンク」と呼称し、またこのアドレス指定方式を「特定のバンク」のアドレス指定と表現する。
図1Aは、メモリ回路355が2つのコア355a、355bに分割された様子を示しており、この例では、各コアは32行×32列のタイルのアレイをなす。コア355a、355bはローカルデータセンタ356を互いに共有しており、ローカルデータセンタ356には、データ選択用の回路、及び、補助回路に対する接続用の回路が設けられてもよい。補助回路の例としては、誤り訂正エンコーダ、誤り訂正デコーダ、アドレスデコーダ、電源、チェックビット生成器、センスアンプ、及びメモリ動作に使用される他の回路などが挙げられる。補助回路は、平坦な半導体基板中に形成されてもよい。一実施形態では、各タイルの薄膜ストレージトランジスタ用の補助回路が、半導体基板の、該タイルの下に位置する部分におけるモジュラリティのために設けられている。
図1Aでは、半導体ダイ360の一端に、信号分配用のアナログ・グローバルドライバ回路357が形成され、半導体ダイ360の他端に、メモリ回路355に対するアクセス用のI/Oバッファ回路358が形成されている。I/Oバッファ358は、スタッドを介してアクセスされていない場合に、外部回路に対して、及び外部回路から信号を受信するために設けられている。後述するように、タイルは、受信データ及びアドレス信号を、スタッドを介して基板接合された論理回路とI/Oバッファ358から制約を受けることなく交換するスタッドを含むべくモジュール化設計されている。また、
図1Aにはタイル361が示されており、該タイルは、各構成NORメモリストリングの薄膜トランジスタが平坦な半導体基板に対して平行をなす方向に沿って形成された3次元NORメモリアレイをなす。
図1Aは、ローカルワード線が各グローバルワード線から分岐し、かつ平坦な半導体基板に対して垂直をなす直交方向に沿って延在する状態で、ビット線及びグローバルワード線が互いに直交して延在する様子を示す。上述したように、各3次元メモリアレイのセンスアンプは、該センスアンプの下に位置する単結晶シリコン基板上に形成され、かつ出力データを送達するためのデータ線を提供する。
【0030】
図1Aに示す実施形態におけるQVM回路(NVM回路が存在する場合にはQVM回路及びNVM回路)は、すべての制御機能、感知機能、電力機能、入出力機能、及びその他のメモリ関連機能が、メモリダイ自体に存在するように形成されているが、他の実施形態として、これらの機能の一部が、プロセッサ回路ダイに物理的に存在するものとしてもよい。例えば、DDR3/DDR4、PCIe、他の高速データインターフェース、或いは、QVMメモリをプログラム又は消去するために必要な高電圧トランジスタなどは、QVMをなす3次元NORメモリアレイの製造時に直面するサーマルバジェットに対してプロセス的に互換性を有さない論理回路と、アナログトランジスタ又は高速デジタルトランジスタとを必要とする場合がある。したがって、このような回路は、基板接合された論理又はプロセッサダイ上に配置されるのが最適となり得る。また、上述したものと同等の考慮が、例えば、誤り訂正回路、算術論理演算回路、排他的論理和回路、制御回路、及びステートマシン等の他の回路に対して適用されてもよい。実際、このような回路は、複数のQVMダイ又はNVMダイにより共有され、これにより、このような回路が、個別のQVMダイの各々に対するスタッドコネクトを介した接続によってプロセッサから提供される場合に、システムレベルで最もコスト効率が高くなるものとされてもよい。
【0031】
図1Bは、本発明の一実施形態に係るシステム300を示す図であり、該システム300は、フリップチップ技術又はフリップウェハ技術を用いてプロセッサ回路302に対して基板接合されたQVM回路301を含む。
図1Bに示すように、QVM回路301とプロセッサ回路302との間には、2つのメモリバス303a、303b用の接続スタッドが設けられており、該メモリバス303a、303bは、それぞれ、メモリサイクル毎に、必要なアドレス、チェックビット、及び制御信号と共に、2048バイト(すなわち2KB)のデータを転送することができる。各々2万本近い銅製の接続スタッドを含むメモリバス303a、303bを介して転送されたデータは、それぞれ対応するデータセンタ304a、304bで処理又は準備される。データセンタ304a、304bはまた、QVM回路301のメモリ動作を制御するためのメモリコントローラを含んでもよい。シングルコアプロセッサ又はマルチコアプロセッサ(例えば、ARM等のRISC型プロセッサ、又はグラフィックプロセッサ)等のコンピューティングエンジン305は、QVM回路301からリトリーブされたデータ又はQVM回路301に書き込まれることとなるデータに対して動作する。メモリバス303a、303bを介した1メモリサイクル毎に4KB(すなわち4096バイト)という高帯域化により、従来からの重大な問題である「フォン・ノイマン・ボトルネック」を大幅に解消することができる。2つのメモリバス303a、303bにより、読み出し動作と書き戻し動作とを同時に行うことが可能となり、これは、メモリから大量のデータを読み出しする用途、処理する用途、及び書き戻しする用途(例えば、動画データのレンダリング)において非常に有用である。また、システム300において、プロセッサ回路302は、特定用途用のカスタムハードウェア(例えばAIモジュール306)を含んでもよい。人工知能用途の場合、AIモジュール306は、例えば、ニューラルネットワーク回路を含んでもよい。
【0032】
QVM回路301は、数多くの方法で構成することができる。例えば、
図1Cは、本発明の一実施形態に係る、QVM回路301の一部を実装するのに好適な、64行×32列のタイルの「コア」を含むメモリ回路320を示す図である。
図1Cに示すように、行63は、タイル321-63-0、・・・、321-63-31を含み、行0は、タイル321-0-0、・・・、321-0-31を含む。この実施形態では、各タイルは、ワード線、ビット線、及び互いに重畳して配置される多数のメモリ層を含む、個別にアドレス指定可能な3次元NORメモリアレイを意味する。この実施形態では、各タイルは、24個のチェックビットと共に512ビットのデータを実装するのに好適である536ビットのデータを受信及び出力するか、又は、誤り訂正符号化された536ビットのコードワードを受信及び出力する。各タイルには、536ビットの出力データを、各タイル列の間で多重化される536本のグローバルビット線に出力するために、536個のセンスアンプが設けられている。536本のグローバルビット線(例えば、グローバルビット線322-0、・・・、322-535)は、各列の64個のタイルによって共有され、かつデータセンタ323に接続すべく鉛直方向に延在している。この実施形態では、各タイルには、ビット線を介して、基板接合された半導体ダイからタイルのNORメモリストリングの薄膜ストレージトランジスタへの並列アクセスを可能にするために、536個のスタッドが設けられている。
【0033】
このようにして、メモリ回路320は、768個のチェックビットと共に2048バイトのデータを提供するか、又は、誤り訂正符号化された2048ビットのコードワードのデータを提供する。
図1Cに示すように、互いに隣接する行同士に隣接するタイル(例えば、行62及び行63に隣接するタイル)は、各々が背中合わせに配置された2つのタイルをなす(すなわち、一方が他方の鏡像をなす)タイルペアを形成する。ローカルビット線は、各ビットが、タイルに格納されることとなるように、又は、タイルから出力されることとなるように提供され、また、スタッドは、2つのローカルビット線によって共有されている。例えば、行63のタイル321-63-0にはスタッド324-63-0、・・・、324-63-257が設けられ、行62のタイル321-62-0にはスタッド324-62-0、・・・、324-62-257が設けられる。
図1Cでは、データセンタ323は、3次元NORメモリアレイと同じ半導体ダイ上に作製されている。或いは、
図1Bに示すように、データセンタ304a、304bが、データセンタ323の機能の全て、又は、少なくとも一部を提供してもよい。
【0034】
図1Bに示す実施形態におけるメモリ回路は、QVM回路301と記載されているが、このような名称付けは単なる説明のみを目的としていることを理解されたい。
図1Aのメモリは、例えば、NVMの部分を含んでもよい。一実施形態では、メモリ回路の特定のタイルがNVMであり、その一方で他のタイルがQVM回路301を形成する。なお、本発明に係る、メモリ回路とプロセッサ回路とを接続するスタッドのための基板接合又はチップ接合の構成は、QVMのために後述するプログラマブル接続性を含め、DRAM、相変化メモリ(例えば、3次元XPointメモリ)、スピン移動トルク(STT)メモリデバイス、抵抗変化型メモリ(RRAM)、又は強誘電体メモリ(FeRAM)等のメモリ回路に対しても同様に適用できる。
【0035】
図1Dは、2つのタイルペア間に配置されたビットn及びビット(n+1)における、互いに隣接するローカルビット線に設けられた、互いに隣接するスタッド324-a-n及びスタッド324-(a+1)-(n+1)を示す拡大図である。一実施形態では、各スタッドの幅は約1μm以下である。
【0036】
上述したように、スタッドは、ある列におけるすべてのタイルが同時にアドレス指定されるように構成されてもよいし、タイル毎にアドレス指定されるように構成されてもよい。
図1Eは、本発明の一実施形態に係る、スタッドが、メモリタイルレベルでタイル毎をプログラムする様子、及び、データセンタレベルでデータパスを選択する様子を示す図である。
図1Eは、タイル350-n-0、350-n-1、・・・、350-n-31を含む、n番目のメモリタイル列におけるスタッド、及び、タイル350-(n+1)-0、350-(n+1)-1、・・・、350-(n+1)-31を含む、(n+1)番目のメモリタイル列におけるスタッドを示している。各タイルのスタッドは、そのタイルのセンスアンプのI/Oラインにおいて、各タイルのアドレス指定されたメモリセルによって駆動されるか、又は該メモリセルに受信される。このように、必要となるドライバはオンチップ論理ゲート間のもののみであり、これは、従来のI/Oパッドで必要とされるもの(例えば、HBMの各チャネルにおけるインターフェースで必要とされるものなど)よりも遥かに小さい。更に、本発明の一実施形態では、タイルの各行が、タイル毎にアドレス指定されるように構成されている。この構成では、各タイルの512ビットのデータ(誤り訂正符号化又はチェックビットを含めれば536ビット)は、例えば、データセンタ(例えば、データセンタ304a又はデータセンタ304b)の512ビット(536ビット)のデータバス351-a又はデータバス351-bに対して直接駆動されてもよいし、又は、該データバスから受信されてもよい。或いは、一実施形態では、選択ロジックは、データバス351a又はデータバス351bのそれぞれについてデータパスを選択できるように構成されている。この構成では、タイルの各行において、32個のデータパスのうちの1つを選択することにより、32個の536ビットデータのうちの1つを、そのタイルからデータバス351a又はデータバス351bへとステアする。タイル毎のアドレス指定又はデータパスのアドレス指定のための構成は、例えば、アンチヒューズを用いて達成されてもよいし、又は、構成ビットを保持する構成セル(例えば、1ビットのメモリセル)によって各々が制御される伝送ゲートのネットワークによって達成されてもよい。スタッドは、ユーザが構成セルに対して書き込みアクセスを可能とすることによって、フィールドプログラマブル化されてもよい。或いは、製造時にマスキング層を用いることによって、プログラミングが実現されてもよい。
【0037】
スタッド構造の構成及びプログラミングにおける柔軟性により、メモリと論理デバイスとの間に複数のデータパスを構成することが可能となり、これにより、複数のメモリアクセスを同時に行うことが可能となるため、重複動作を実現できる。更に、相互接続及びスタッドのルーティングは、任意の構造で構成されてもよい。例えば、任意のタイル群の入出力信号は、所定幅のバス構造として編成されるように制約されるものではないし、又は、タイル間で共有するために多重化されるように制約されるものでもないし、或いは、任意の共通の信号方式を共有するように(例えば、アドレス及びデータの規則を共有するように)制約されるものでもない。また、論理回路とメモリ回路との間で通信できるデータフォーマット又はデータ形式に対する制限はなく、したがって、非常に高い帯域幅を有する、本質的に任意の広範囲接続が可能である。
【0038】
図1Fは、本発明の一実施形態に係るスタッドの構成を示す模式図である。
図1Fに示すように、伝送ゲートネットワーク373は、スタッドと信号との相互接続を可能にし、これにより、ユーザ指定の信号を、スタッドを介して送受信し、メモリ回路内の信号のアレイに接続することが可能となる。構成ロジック372は、スタッドの一部を(例えば、センスアンプのI/Oラインからの)入力信号用及び出力信号用にそれぞれ構成することができる。更に、構成セル370は、メモリタイルにおける様々な構成(例えば、特定のタイル、特定の行、特定のバンク、又は特定のコアに対するアドレス指定(後述を参照))のうちの1つを設定するために提供されてもよい。また、他の構成及びプログラマブルユニットとすることもできる(例えば、複数のタイルを論理的に組み合わせることにより、より大きなアドレス指定可能型メモリユニットを形成してもよい)。したがって、構成されたメモリ編成は、アドレス信号に対して所望の方法で応答することができる。
【0039】
所望に応じて、
図1Fに示す構成方式をメモリ回路301及び論理回路302の両方に設けることにより、両回路間に、任意の入力制御信号又は出力制御信号、データ信号、或いはアドレス信号がルーティングされることを可能にしてもよい。
【0040】
図1Gは、本発明の一実施形態に係る、QVM回路301の一部を実装するのに好適なメモリ回路340を示す図であり、該メモリ回路340は、データセンタ326を互いに共有するコア325-1、325-2を含む。メモリ回路340において、コア325-1、325-2の各々は、
図1Cのメモリ回路320のコアと同様に、64行×32列のタイルを有するコアをなす。データセンタ326は、それぞれが64行×32列のタイルを有する2つのメモリアレイ間でデータセンタ326が共有されている点を除いて、
図1Cのデータセンタ323と同様に設けられている。この構成では、2キロバイトのデータに対するアクセスが、各メモリアレイからタイル列のスタッドまで100ns以下で送達される。コア325-1及びコア325-2は互いに同時にアクセスされてもよいため、この場合、4キロバイトのデータが100ns以下の間隔で送達される。いくつかの実施形態では、メモリ回路340のコア325-1、325-2は、2つのメモリバンクを形成する。
【0041】
図1Hは、本発明の一実施形態に係るマルチダイ構成を示す図であり、該マルチダイ構成は、「フリップチップ」技術を、シリコンインターポーザ技術と組み合わせて用いることにより実装されている。
図1Hに示すように、複数の半導体ダイ392、393、394、395、396は、それぞれ、シリコンインターポーザ391に対して(例えば、「フリップチップ」技術を用いることにより)基板接合されており、これにより、半導体ダイのスタッドを、シリコンインターポーザ391のスタッドを介して相互接続する導体ネットワークが提供されている。シリコンインターポーザ391の相互接続ネットワークは、半導体ダイのスタッドに対して、シリコンインターポーザ391の表面に露出した自身のスタッドを介して接続されている。一実施形態では、半導体ダイ396はメモリ回路であり、その一方で、半導体ダイ392、393、394、395はそれぞれ論理回路(例えば、それぞれRISC型プロセッサを含む論理回路)である。この構成では、各論理回路に、高帯域幅・大容量メモリに対するアクセスが提供されている。別の実施形態では、半導体ダイ396は論理回路(例えば、RISC型プロセッサを含む論理回路)であり、その一方で、半導体ダイ392、393、394、395はそれぞれメモリ回路である。この構成では、論理回路に、複数の高帯域幅・大容量メモリに対するアクセスが提供されており、これにより、「巨大組み込みメモリ(mega-embedded memory)」を有するコンピューティングデバイスが形成されている。もちろん、半導体ダイ392、393、394、395、396は、特定用途用に最適化された、メモリ回路及び論理回路の任意の組み合わせであってもよい。例えば、半導体ダイ392、393、394、395、396のうちの1つは、他の半導体ダイのメモリ回路の構成を管理するメモリコントローラを含んでもよい。
【0042】
図1Iは、フリップチップ技術及びTSV技術の両方を用いて、複数のメモリ回路301-a、・・・、301-mがプロセッサ回路302に対して基板接合されたシステム380を示す図である。このようにして、プロセッサ回路302内のプロセッサが、更に大容量の組み込みメモリを利用できるようにしてもよい。勿論、システム380において、メモリ回路301-aが大容量、高帯域、及び高速アクセスのメリットを享受することとなるように、最上部のメモリ回路(すなわちメモリ回路301-a)のみをプロセッサ回路302に対して接合させてもよい。他のメモリ回路301-b、・・・、301-mは、TSV技術を用いて互いに接続され、かつバス構造を介して互いにアクセスできる。
【0043】
2つの半導体ダイを互いに接続する場合には、接続スタッド又はTSVのいずれを用いた場合でも、様々な理由で接続ミスが発生してしまう虞がある。基板接合は、接合される半導体ダイ上に回路が完全に作製された後に行われるため、このような不良が生じてしまうと非常にコストがかかる。本発明は、このような不良からの回復可能な配線方式を提供する。この配線方式を
図7Cに示す。
図7Cは、半導体ダイ723上の接合パッドの列721、及び、半導体ダイ724上の接合パッドの列722を示しており、これらは、上述した方法にしたがって基板接合されることとなる。
図7Cにおいて、列721の接合パッドは、721-1、721-2、・・・、721-nと符号付けされている。同様に、列722の接合パッドは、722-1、722-2、・・・、722-nと符号付けされている。更に、列721、722には、それぞれ対応する予備接合パッド721-s、722-sが設けられている。各接合パッドは、相互接続スタッド又はTSVに対応している。接合パッド721-1、・・・、721-n及び予備接合パッド721-sは、スイッチ725(例えば、
図7Cにおいて伝送ゲート725-1、725-2、・・・、725-n、725-sと符号付けされた伝送ゲート)のうちの対応する1つによって、それぞれ共通導体(「バス」)727に接続される。同様に、接合パッド722-1、・・・、722-n及び予備接合パッド722-sは、スイッチ726(例えば、
図7Cにおいて伝送ゲート726-1、726-2、・・・、726-n、726-sと符号付けされた伝送ゲート)のうちの対応する1つによって、それぞれ共通導体728に接続される。
【0044】
相互接続スタッド又はTSVのうちの1つに不良が生じた場合、例えば、接合パッド721-2に対応する相互接続スタッド又はTSVに、何らかの理由で不良が生じた場合、該接合パッドに対応する伝送ゲート725-2、725-sと、伝送ゲート726-2、726-s(すなわち、伝送ゲート725-2、725-sに対する、半導体ダイ724上の対照部)とを互いに導通することにより、接合パッド725-2、726-2を、それぞれ対応する予備接合パッド725-s、726-sに短絡させる。接合パッド721-s、722-sに対応する相互接続スタッド又はTSVが機能している場合、それらは、接合パッド721-2、722-2に対応する相互接続スタッド又はTSVの不良を回復させるための代替信号経路を提供する。
【0045】
図7Cに示す方式は、接合パッドの各列における1つの相互接続スタッド又はTSVの不良を回復させることができる。
図7Dは、追加の伝送ゲート列及び追加の共通導体を設けることにより、接合パッドの各列における任意の2つの不良を回復可能な拡張方式を示す図である。
図7Dでは、列732のスイッチ及び共通導体732が、列731の接合パッドのうちの任意の1つに対応する単一の不良を回復させるための代替ルーティングを提供し、かつ、追加の列733のスイッチ733及び共通導体735が、列731の接合パッドのうちの追加の1つに対応する追加の不良を回復させるための追加の代替ルーティングを提供する。
【0046】
図2は、本発明の一実施形態に係るメモリシステム100を示すブロック図であり、該メモリシステム100は、第2の半導体基板上に形成された制御回路102に対して基板接合されることにより互いに結合された、第1の半導体基板上に形成されたメモリ回路101を含む。
図2に示すように、メモリ回路101は、メモリバンク103-0、103-1、・・・、103-n、103-(n+1)として構成されたメモリアレイを含む。制御論理回路104-0、104-1、・・・、104-n及び104-(n+1)が、それぞれメモリバンク103-0、103-1、・・・、103-n及び103-(n+1)に対応していることにより、例えば、読み出し動作、書き込み動作、及び消去動作のシーケンスのタイミング制御並びにアドレスデコーディングなどの制御機能が提供されている。メモリバンクから読み出されたデータ、及び、メモリバンクに書き込まれることとなるデータは、それぞれ対応する内部データバス106、107に存在する。入出力回路105aは、必要に応じて、データバス106からのデータをメモリバス110へとステアする、又は、メモリバス110からのデータをデータバス107へとステアする。メモリバス110は、メモリ回路101と制御回路102との間の基板接合を横断する多数のコネクタスタッドにより提供されてもよい。これらのスタッドは、例えば金属銅により形成されてもよい。制御論理回路104-0、104-1、・・・、104-n、104-(n+1)及び入出力回路105aの動作は、制御信号109により制御され、かつ、メモリ回路101と制御回路102との間の基板接合を横断するスタッドを介して、制御回路102内のステートマシン108から駆動される。
【0047】
制御回路102では、入出力回路105bが、メモリ回路101の入出力回路105aと協動することにより、メモリバス110のスタッドを横断するシグナルフローをコーディネートする。この例では、メモリバス110は、バスサイクルあたり64ビットのデータを収容する。
図2には、ステートマシン108、データ処理回路(「データセンタ」)109、及び外部インターフェース111を含む制御回路102が示されている。外部インターフェース111は、例えば、DDR4、DDR5、及びPCIeなどの、業界標準に準拠したメモリバスである。例示のみを目的として、データセンタ109は、外部インターフェース111を介する通信のためにバス112を含み、該バス112は、多数のアドレスビット及びコマンドビットと共に、2つの256ビットのページのデータを収容する。外部バス111から受信したデータをメモリ回路101に書き込むために、データセンタ109は、受信データ(incoming data)を、多数の誤り訂正符号ビットに(例えば、512ビットの受信データを536ビットに)符号化する。
図2では、バスサイクルごとに、64ビットのデータがメモリバス110を介して通信されている。
図2に示されていない他の機能が、データセンタ109において実行されてもよい。例えば、メモリ回路101から受信したデータは、外部バス111を介してホストデバイスに送信される前に、リトリーブされた誤り訂正符号にしたがって誤り訂正されてもよい。
【0048】
図2のメモリシステム100のアプローチは、例えばストレージシステムコントローラ等の他の用途に拡張することができる。
図3Aは、フラッシュキャッシュメモリ203を有するストレージデバイス204を含むストレージシステムの先行技術におけるストレージシステム200を示す図である。
図3Aに示すように、ストレージシステム200は、フラッシュキャッシュメモリ203を用いてストレージデバイス204の動作を制御するストレージ制御回路201を含む。通常、フラッシュキャッシュメモリ203は、NANDメモリストリングのフラッシュメモリアレイを多数含み、これらの動作は、NANDインターフェースを介して、ストレージデバイス204を制御するストレージコントローラ207により制御される。通常、ストレージ制御回路201は、(i)ストレージインターフェース211(
図2a参照)を介してホストデバイスとインターフェースするストレージインターフェース205、及び、(ii)ダイナミック・ランダム・アクセス・メモリ(DRAM)202等の高速ランタイムメモリシステムへのアクセスを提供するメモリコントローラ206を含む。
【0049】
通常、ストレージインターフェース211を介してホストデバイスからデータが受信された場合(「書き込みデータ」)、又は、ストレージコントローラ207により、フラッシュキャッシュメモリ203又はストレージデバイス204のいずれかからデータが読み出された場合(「読み出しデータ」)、これらのデータは、DRAM202に配置される。ストレージデバイス204及びフラッシュキャッシュメモリ203への読み出しアクセス及び書き込みアクセスの管理、及び、キャッシュの同時並行性(cache concurrency)の維持における中央処理デバイス(CPU)208の役割は、当業者によく知られている。更に、CPU208は、やはり当業者に知られているように、誤消去、ウェアレベリング、及び変換テーブルロケータ動作をも管理している。
【0050】
非仮特許出願のQVM及びNVMの大容量及び高速アクセス時間、並びに、QVMの長寿命は、基板接合を用いて達成可能な高帯域幅と共に、本発明に係る新たな応用例を実現する。
図3Bは、本発明の一実施形態に係る、マルチインターフェース制御回路209に対して基板接合されたNVM回路及びQVM回路210を含むストレージシステム200を示す図である。
【0051】
図3Bにおいて、NVM回路及びQVM回路210は、互いに同一の半導体ダイ上に形成されてもよいし、互いに異なる半導体ダイ上に形成されてもよい。NVM回路及びQVM回路210の、マルチインターフェース制御回路209に対する基板接合は、フリップチップ技術を用いて達成されることが好ましい。しかし、TSV、シリコンインターポーザ、及びシリコンブリッジ技術のうちのいずれかを用いた任意のマルチダイ構成とすることもできる。ストレージシステム200では、QVM回路が、DRAMよりも低コストで大容量を提供可能であって、かつ、必要となる電力も比較的少ないことから、
図2aにおけるDRAM202が、NVM回路及びQVM回路210、並びに、マルチインターフェース制御回路209によって置換されている。ストレージシステム200では、変換テーブル、ディレクトリ、ファイル割り当てテーブル(FAT)、及びジャーナルファイルがNVM回路又はQVM回路に格納され得るため、マルチインターフェース制御回路209は、ストレージコントローラ207と比較して、フラッシュキャッシュメモリ203をより効率的に管理するためのNANDコントローラとして機能することができる。マルチインターフェース制御回路209は、NVM回路及びQVM回路210と、フラッシュキャッシュメモリ203との両方に対して、高効率かつ同時にアクセスすることができる。容量が大きくなることにより変換テーブルがより大きくなることを可能にしつつ、その一方で、フラッシュキャッシュメモリ203に対する高速アクセスは、フラッシュ管理動作がより効率的となることを可能にする(例えば「先行消去」)。これは、先行技術のストレージシステム200では達成できない。更に、マルチインターフェース制御回路209は、「ホットファイル」のためにフラッシュキャッシュメモリ203を監視することができ、該ホットファイルをNVM回路に移動させることにより、フラッシュキャッシュメモリ203に対するより高速なアクセス及び低減アクセスが可能となり、これにより寿命性能を向上させることができる。また、マルチインターフェース制御回路209において、ハードディスクシステム204を含む、例えば、すべてのNVM回路及びQVM回路に対して誤り訂正符号を生成するなどの他の機能が実行されてもよい。
【0052】
図3Cは、本発明の一実施形態に係る、NVM回路及びQVM回路210、並びにマルチインターフェースメモリ制御回路209の一実施例270を示す図である。
図3Cに示すように、マルチインターフェース制御回路209は、フラッシュキャッシュメモリ203を制御するためのNANDインターフェース251と、DRAMインターフェース261(例えば、DDR3規格又はDDR4規格に準拠したデータバス)と、NVM回路及びQVM回路210におけるNVMの部分及びQVMの部分にそれぞれ対応する、NVM回路210a及びQVM回路210bと、を含む。実施例270では、NVM回路及びQVM回路210がマルチインターフェース制御回路209に対して基板接合されているため、NVM回路210a及びQVM回路210bへのインターフェースは、半導体ダイに設けられたスタッドにより実装されている。マルチインターフェース制御回路209の動作制御は、1以上の縮小命令セットコンピュータ(RISC)型プロセッサにより提供される。
図3Cに示すように、実施例270は、NVM回路210a、QVM回路210b、及びフラッシュキャッシュメモリ203間におけるデータの読み出し及び書き込みをコーディネートするためのDMAコントローラ253を含む。DRAMインターフェース261を介して送受信されることとなるアドレス及びデータは、アドレス/データバッファリング回路257においてバッファリングされる。更に、従来のデータインテグリティ機能を発揮するために、チェックビット生成回路256及び誤り訂正符号回路255が設けられている。タイミング信号が、リファレンス生成器254から提供されてもよい。
【0053】
RISC型プロセッサ252は、例えば、変換テーブル又はキャッシュテーブル等のストレージ制御機能を管理する。更に、マルチインターフェース制御回路209が、ストレージデバイス204の管理に加えられてもよい(
図3B参照)。例えば、ストレージシステム203に対する書き込み動作のための書き込みコマンドをストレージインターフェースコントローラ205(
図3B)を介して受信すると、QVM回路210b内のバッファが割り当てられる。書き込みデータは、チェックビット生成回路256から生成されたチェックビットと共に、QVM210b内のバッファにロードされる。業界標準のFATフォーマットが使用される場合、データは、指定位置におけるブロック内のストレージシステム204に対して送信される。フラッシュキャッシュメモリ203及びNVM回路210aは、ファイルのキャッシュコピーを有するかどうか確認される。その後、そのようなキャッシュコピーは、キャッシュの同時並行性を維持するために、並列書き込みを開始することにより更新される。各ファイルのアクセス頻度は、ウェアレベリングなどを目的として維持される。適切なファイル再配置ポリシーが実装されてもよい。
【0054】
同様に、ストレージインターフェース211を介してストレージデバイス204に対する読み出しコマンドが受信されると、QVM回路210bにバッファスペースが割り当てられる。リクエストされたファイルのコピーがフラッシュキャッシュメモリ203に存在する場合は、ストレージデバイス204へのアクセスは開始されない。NVM回路210aのキャッシュ変換テーブルは、フラッシュキャッシュメモリ203内のファイルの位置を特定する。その後、リクエストされたファイルは、必要に応じてチェックビットの生成及び誤り訂正を行った後、QVM回路210bに読み込まれる。キャッシュコピーがない場合は、ファイルのNVM回路210a内のFATテーブルエントリを解析することにより、バッファスペースの一部分にスキャッタ・ギャザー・リストを作成する。ストレージコントローラ207は、ストレージデバイス204からデータをフェッチし、DRAMインターフェース251を介して書き込みデータを提供する。アドレス/データバッファリング回路257は、誤り訂正後、生成されたチェックビットと共に、QVM回路210b内に割り当てられたバッファスペースにデータを配置する。QVM回路210bにデータが配置されると、DMAコントローラ253は、ストレージインターフェース211を介するデータ転送をコーディネートする(
図3B)。
【0055】
上述したように、QVM回路210bは、リフレッシュ動作が必要となるデータ保持時間を有してもよい(例えば、10分毎)。一実施形態では、QVM回路210bは、リフレッシュゾーンに分割される。リフレッシュゾーンにデータが転送されると、リフレッシュゾーンが定期的にリフレッシュされることとなるように、リフレッシュテーブルに「アクティブビット」がマークされる。リフレッシュゾーンからデータが転送されると、それに対応する「アクティブビット」がリセットされ、これにより、該リフレッシュゾーンにおけるリフレッシュ動作が停止する。このリフレッシュ方式は、例えば、QVM回路を、ディスクシステム又はNVMストレージデバイスに対する、或いは、ディスクシステム又はNVMストレージデバイスからの読み出し動作又は書き込み動作のための、及び、サーバDRAMに対するデータの送受信のための、臨時的又は一時的なストレージとして使用する場合など、多くの用途において特に有用である。臨時的又は一時的操作が完了したとき、その部分に割り当てられたメモリ領域をリフレッシュする必要はない。更に、非常にアクティブに使用する場合(例えば、ファイルを素早く移動させるとき)には、一時的な操作のデータがリフレッシュ間隔よりも長い期間、QVMメモリに留まらないような場合、リフレッシュは必要ない。データフロー用途では、非常に少ない回数のリフレッシュのみが引き起こされる可能性が高く、その結果、低消費電力動作及び高パフォーマンスが得られることとなる。
【0056】
本発明の他の実施形態は、フィールド・プログラマブル・ゲート・アレイ(FPGA)などのフィールドプログラマブル論理デバイスに適用できる。本明細書では、説明のためにFPGAを例として用いているが、同じ原則が事実上すべてのフィールドプログラマブル論理デバイスに適用可能であることを理解されたい。FPGAは、通常、ロジックプロセスにおいて作製されるが、このプロセスは、大容量又は高性能のメモリ回路を同じ半導体基板上に形成することとは互換性がない。したがって、FPGA設計には、不揮発性メモリ及びDRAMのいずれも含まれないのが一般的である。FPGA回路のメモリリソースは、通常、高速のスタティック・ランダム・アクセス・メモリ(SRAM)により提供される。SRAMは揮発性であるため、FPGA回路は、電源投入時に、外部回路から(通常は不揮発性メモリ回路から)構成される必要がある。FPGA回路の構成に必要なデータを転送するための帯域幅は、多くの場合、シリアルインターフェースを介して提供されるが、電源投入時のリセット中に、FPGA回路が機能するまでの長いレイテンシを生み出すボトルネックとなっている。
【0057】
FPGA回路は、しばしば、同一半導体ダイ上に、業界標準のデータインターフェース(PCIe、DDR3/4など)、イーサネットセル、プロセッサコア、及びニューラルネットワークなどの、他の用途に特化したカスタム論理回路を含む。
【0058】
FPGA回路を使用する設計者にとって、大容量・高帯域メモリの確保は長年の課題であった。本発明は、大容量メモリ回路(例えば、非仮特許出願に記載されているもの)をFPGA回路に対して基板接合し、スタッド上における高帯域幅・低電力のデータ転送を利用することにより、この長年の問題を解決する。
図4Aは、本発明の一実施形態に係る、大容量メモリ回路401がフリップチップ技術を用いてFPGA回路402に対して基板接合されたシステム400を示す図である。
【0059】
メモリ回路401において、部分401aはNVM回路を実装し、部分401bはQVM回路を実装している。
図4Aでは、メモリ回路401がQVM回路及びNVM回路の両方を含むものとして示されているが、他の実施形態では、QVM回路及びNVM回路が、それぞれ個別の半導体ダイ上に個別に設けられ、かつ、例えば、任意のTSV、シリコンインターポーザ、又はシリコンブリッジ技術、或いはこれらの技術の組み合わせを用いて基板接合されている。システム400では、NVM部分401a及びQVM部分401bからのデータは、データバス403、404(基板接合されたスタッドにより実装される)を介してFPGA回路402に通信される。データバス403、404を介するデータ転送は、FPGA回路402に実装されたNVMデータセンタ408及びQVMデータセンタ409により制御される。FPGA回路402は、プログラマブル論理回路407aと、それに対応する構成回路407bと、カスタム論理回路405、406と、を含む。例えば、カスタム論理回路405は、業界標準のデータインターフェース(例えばPCIe)であってもよいし、一方で、カスタム論理回路406は、1つ又は複数のRISC型又はグラフィック型のプロセッサコア、或いは算術論理演算ユニット(ALU)であってもよい。
【0060】
FPGA回路402上にデータセンタ408、409を設けることにより、多くの構成及び用途において有利となる柔軟性を得ることができる。例えば、FPGA回路402は、互いに独立した使用パターン又はメモリ要件を有する多数の機能を実装するように構成されてもよい。この用途は、例えば、メモリ回路401内のメモリをデュアルポート・セグメントに構成し、各セグメントにおいて他のセグメントと独立してリードバック動作及びライトバック動作できるようにすることにより、満たすことができる。メモリ回路401を、FPGA回路402から柔軟な方法で構成できるようにすることにより、効率化又は多くの用途の実現が可能となる。例えば、セグメント化された処理は、例えばニューラルネットワークなどの用途において有利となる。また、計算に必要な大量のデータ(「データセット」)を移動させるのではなく、代わりにデータセットを異なるデータセグメントに格納し、処理の際に入れ替えることにより、迅速なコンテキストスイッチングを利用することもできる。更に、メモリセグメントは、パイプライン用途に適した1以上の先入れ先出し(FIFO)セグメントに構成されてもよい。
【0061】
なお、
図4AではFPGA回路を例に挙げているが、本明細書でFPGA回路402について説明した原理は、例えば、このような方法でメモリ回路401に接続された専用コントローラなどの他の用途に対して適用できることに留意されたい。
【0062】
図4Bは、メモリ回路401のQVM部分401bが、メモリセグメント421-1、421-2、・・・、421-nに分割された構成を論理的に示す図である。該メモリセグメント421-1、421-2、・・・、421-nは、それぞれ対応するデータバス423-1、423-2、・・・、423-nを介して、それぞれ対応するプログラム可能なロジックのセグメント(「タイルセル」)422-1、422-2、・・・、422-nをサーブしている。
図4Bでは、データバス423-1、423-2、・・・、423-nは、それぞれ、メモリ回路401とFPGA回路402との間の基板接合に設けられたスタッドにより提供される。QVM部分401bは、例えば、追加のメモリリソースを必要とする用途のために、隣接するセグメントを互いに組み合わせることにより、より大きなセグメントが形成されたものなどのモジュラー設計であってもよい。このセグメント化手法では、バッファメモリ及び大幅な遅延を発生させる虞を有する他の回路の割り当てが必要となる複雑な回路(例えば、DMA又はデータコネクトセンタ)を使用したデータ転送が不要となる。QVMメモリ(又はNVMメモリ)421-1、・・・、421-nは、本発表の一実施形態にしたがって、各メモリセグメントに関連付けられた専用の制御及び感知論理回路を提供することにより部分的にセグメント化され、これにより、各メモリセグメントを半自律化させてもよい。このような制御回路及び検知回路は、セグメントのメモリ層の下又は上のいずれかに実装された場合に、最も効率的となる。このセグメント化手法においては、メモリセグメントに割り当てられたスタッドに利用可能な帯域が該セグメントにのみ使用され、かつバッファリングの必要がない。このセグメント化設計は、例えば、同時に動作する多数のプロセッサが頻繁にデータをフェッチ及び書き戻しする必要がある、ニューラルネットワークなどの用途に大きな利点を提供する。セグメント化は、例えば、
図1Fに示すものと同様の構成方式を用いて構成されてもよい。
【0063】
論理デバイスとメモリデバイスとの間に複数の並列電気接続を可能にするこのセグメント化手法は、これまで不可能であった多くのメモリ使用方式を実現する。例えば、メモリを、互いに論理的に連結された、より小さなブロックに分割することにより、ユーザはメモリをデュアルポートデバイスとして使用することができる。この使用方式では、2以上の小ブロックにまたがる量のデータを書き込む場合、最初の小ブロックが書き込まれた後、システムが残りのデータを次の小ブロックに書き込んでいる間、最初のブロックを読み出しに使用することができる。このセグメント化手法では、すべてのデータが書き込まれる前に読み出しを開始することができる。読み出しの開始を、転送されている残りのデータブロックの書き込み動作とオーバーラップさせることにより、時間の節約が可能となる。一部のDMA動作では、この機能により非常に高いバーストレートが得られることとなる。先行技術では、大規模な転送(例えば10GB)において、一部のシステムは、SRAMをバーストのために使用する、又は、転送が完了するのを待ってから領域外への高速転送を開始する。バースト機能は、コストを削減し、かつ転送の片側が完了する前に高速パケット転送を補助することができる。
【0064】
図4Cは、
図4Bの構成の変形例を論理的に示す図であり、該変形例では、タイルセルセグメント422-1、422-2、・・・、422-nもまた、カスタム論理回路と対になっている。
図4Cでは、カスタム論理回路424-2、423-3、・・・、424-(n-1)が、タイルセルセグメント422-2、・・・、422-(n-1)と共に動作していることが分かる。このようなカスタム論理回路は、例えば、RISC型プロセッサ又はグラフィック処理ユニットを含んでもよい。いくつかの実施形態では、メモリセグメントの1つは、カスタム論理回路プロセッサのコードストアとして使用されてもよい。メモリ回路401をメモリセグメントに分割する手法は、多くの用途を最適化することができる。例えば、
図4Dは、本発明の一実施形態に係る、
図4Cの構成により実装されたニューラルネットワークアプリケーションを示す図である。該実施形態では、各メモリセグメント及びそれに関連するタイルセルセグメントが、対応するカスタム論理回路と共に、ニューラルネットワークのステージを実装している。
【0065】
本発明においては、プロセッサベースのデバイス(例えば、
図3Aの電子デバイス)、及び、FPGAベースのデバイス(例えば、
図4Aの電子デバイス)のいずれも、計算及びメモリの両方を中心とした用途の実装において、大きな利点を有している。セグメント化手法は、大容量メモリに対して高帯域幅でアクセス可能な複数のプロセッサ(例えばRISCコア)を使用した並列演算を実現することができる。或いは、
図4Dに示すように、メモリセグメントは、それぞれが特定のステージ用に最適化された複数のプロセッサによる、同時処理用のパイプラインのステージとして構成することもできる。処理ユニットはメモリの高帯域幅にアクセスできるため、計算の各ステージの中間結果を、次のステージにおいて、メモリ帯域幅の制限に起因する遅延を有することなく利用できるため、非常に高いスループットが期待できる。
【0066】
本発明によって提供される、フリップチップ及び基板接合を用いたメモリ回路とFPGA回路との組み合わせは、電源投入時に、メモリチップ401のNVM部分401aからの高帯域幅インターフェースを介してFPGA回路を素早く構成できるため、高速な電源投入が可能であるというメリットがある。高帯域幅を有するインターフェースにより構成ビットを並列にセットすることが可能となり、これにより、構成されたプログラマブルロジックを電源投入後すぐに準備できる高速構成を実現できる。いくつかの実施形態では、構成ロジックの一部が、機能動作のために後から構成されてもよい。また、メモリ401内にNVM部分が含まれていることにより、従来技術では不可能ではないにしても困難な動作である、ランタイムの動的構成を実現できる。
【0067】
フィールドプログラマブル論理デバイス(例えばFPGA)は、メモリ回路のルックアップテーブルとして実装されてもよい。この実装では、データ入力はメモリ回路へのアドレス指定として使用され、このデータ入力に対応するロジック機能がアドレス指定された場所に格納される。したがって、プログラマブルロジック(例えば
図4Cのタイルセル)は、例えば、その出力が処理のためにメモリ回路と基板接合された論理回路との間のスタッド上に実装された実装メモリ回路(例えば
図4Aのメモリ回路401)であってもよい。
図5Aは、8K×4バイトのメモリアレイ501に実装されたプログラマブルロジックタイルセル500を示す図であり、組み込み8ビットプロセッサ又は同様の論理回路に対して8ビットの出力データを直接提供できる。この例では、8ビットの出力データは、アドレスビットによりマルチプレクサ502で選択され、3ステートドライバ503(又はダイレクトドライブ)により出力される。
【0068】
適切なモジュール設計を用いて、複数のプログラマブルロジックタイルセルを、より大きなプログラマブル論理回路を形成するように構成してもよい。例えば、
図5Bは、16K×4バイトのメモリアレイを提供するように構成されたメモリ回路における、プログラマブルロジックタイルセル501a、501bを示している。
【0069】
プログラマブルロジックをメモリに実装するためには、入力信号、出力信号、及びアドレス信号の構成を可能にする構成可能なロジックを提供する必要がある。このような構成可能なロジックは、構成セルによってプログラムされたトランスミッションゲートを用いることにより実現できる。
【0070】
場合によっては、モジュール化メモリセグメントで算術演算及び論理演算を実現することにより有利となる場合があり、これは多くの用途において有用である。ALUは、当業者に知られている。或いは、積和演算(MAC)ユニットを用いて算術演算を行ってもよい。MACもまた、当業者に知られている。
図5Cは、本発明の一実施形態に係る、算術演算及び論理演算のために関連するALU575を有するモジュラーメモリセグメント570を示す図である。
図5Cに示すように、メモリセグメント570は、メモリタイル540-0、・・・、540-31を含み、該メモリタイルは、それぞれ、上述のメモリタイル(例えば、
図1Cのメモリタイル324-0-0等)と同様に、536個の誤り訂正符号化ビットを含む。各タイルの536ビットの出力が誤り訂正モジュール541-0、・・・、541-31のうちの対応する1つにおいて処理されることにより、512ビットの誤り訂正データが提供すされる。このデータは、512ビットレジスタ542-0、・・・、524-31のうちの対応する1つに対してラッチされてもよい。512ビットレジスタ542-0、・・・、542-31中の任意のデータビットは、それぞれ対応する512:1マルチプレクサ543-0、・・・、543-31により、32ビットALU545の2つの入力レジスタA、Bのうちの1つの対応するビットに選択されてもよい。誤り訂正モジュール541-0、・・・、541-31、512ビットレジスタ542-0、・・・、542-31、512:1-マルチプレクサ543-0、・・・、543-31、レジスタA、B、及びALU545は、すべて、例えば、メモリ回路のデータセンタのうちの1つに設けられてもよい。
【0071】
非仮特許出願に記載のQVM回路は、シリコン基板上に蒸着された種々の材料から形成され得る。いくつかの実施形態では、QVM回路の3次元メモリアレイは、複数層(例えば、8層、16層、又は32層)のメモリセルを有する場合であっても、通常数μm未満の厚さを有する。本発明の一実施形態によれば、メモリアレイの厚さ全体に亘って延びるビア(「貫通ビア」)内に導体が設けられる。QVM回路は、シリコン基板を取り除いた状態で、その互いに対向する両側面が、それぞれ他の2つの回路に対して基板接合されてもよい。このような構成では、貫通ビア内の導体は、これらの基板接合された他の回路を互いに接続するために使用できる。一般的に数百μmの厚さを有する従来のTSVとは異なり、本発明の貫通ビアの厚さはわずか数μmであるため、この貫通ビアは、TSVと比較して容易に製造可能であり、かつその抵抗値も遥かに低い。
図6A~
図6Dは、本発明の一実施形態に係る、他の2つの回路に対して基板接合されたQVM回路における貫通ビアの使用例を示す図である。
【0072】
図6Aは、QVM回路601及び論理回路602(例えばメモリ制御回路)を示す断面図である。論理回路602は、例えば、シリコン基板638中又はシリコン基板638上に形成されたQVM601のメモリアレイに対してプログラム、消去、及び読み込みするためのメモリ動作補助回路639、レジスタ、及びバッファ回路を含んでもよい。更に、メモリ動作補助回路639は電源回路を含んでもよい。QVM回路601は、シリコン基板618の上に形成されたQVMメモリアレイ構造体617を含んでもよい。
図6Aでは、シリコン基板638中又はシリコン基板638上に形成されたメモリ動作補助回路639に対して電気的にアクセスするために、論理回路602の表面にハイブリッド接合パッド624、631が設けられている。メモリアレイ構造体617は、通常、シリコン酸化物中に組み込まれている。
図6Aでは、単に説明のためだけに2層のメモリセルのみを有するものとして示されているが、QVMメモリアレイ構造体617は、任意の数のメモリセル層を含んでもよい。
【0073】
図6Aにおいて、メモリアレイ構造体617は、メモリセル部分616と「階段」部分620を含む。メモリセル部分616は、例えば、NORメモリストリングを含んでもよい。各NORメモリストリングの共通ビット線及び共通ソース線は、階段部分616から電気的にアクセスされてもよい。いくつかの実施形態では、非仮特許出願に開示されているように、共通ソース線は外部からアクセスされなくてもよい。
図6Aは、ビット線及びソース線が、階段部分620において、相互接続層614に対してビアによって接続されている様子を示しており、この相互接続層614は、QVM回路602の上面の「ハイブリッド」接合パッド611に対してビアによって接続されている。相互接続層614は、当業者に知られているように、「再分配層」として提供されることもある。NORメモリストリングへのローカルワード線は、メモリセル部分616に互いに垂直をなすように設けられており、かつメモリアレイ構造体617の下及び上に設けられた2以上の層の相互接続導体(「グローバルワード線」)を介してルーティングされている。また、グローバルワード線は、QVM回路601の表面に設けられたハイブリッド接合パッド611に対してビアによって接続されている。ハイブリッド接合パッド611はまた、電源及び接地供給電圧線をルーティングするために設けられている。
図6Aはまた、QVM601が、実質的にメモリアレイ構造体617の厚さ全体を延在する導体充填貫通ビア613を含むことを示している。ハイブリッド接合パッド610は、導体充填貫通ビア613にアクセスするために、QVM回路601の上面に設けられている。
【0074】
図6Bは、「裏返し」にされたQVM回路601が、論理回路602に対して基板接合された様子を示している。基板接合は、例えば、QVM回路601及び論理回路602の表面全体に亘って、対応するシリコン酸化物材料と対応する銅材料との接合を実現する「ハイブリッド接合」技術を用いて達成することができる。
図6Bに示すように、QVM回路601のハイブリッド接合パッド610(貫通ビア613に接続されている)は、論理回路602のハイブリッド接合パッド624に接合されており、QVM回路601のハイブリッド接合パッド611は、論理回路602のハイブリッド接合パッド631に接合されている。
【0075】
その後、QVM回路601のシリコン基板618を、例えば研磨によって実質的に除去する。
図6Cでは、シリコン基板618が実質的に除去されていることにより、導体充填貫通ビア613を埋設するシリコン酸化物が露出している。その後、QVM回路601のシリコン酸化物をエッチングすることによりビア640を形成し、その内部に導体を充填する。適切な導体材料としては、例えば銅が挙げられる。その後、
図6Dに示すように、QVM回路601に第2の基板接合回路を取付けする前に、ダマシンプロセスを用いて銅製の相互接続ネットワーク652を含む再分配層651を設けてもよい。相互接続ネットワーク652は、接合パッド653によって電気的にアクセスすることが可能とされている。
図6Dでは、第2の基板接合回路は、特定用途向け集積回路(ASIC)ダイ660として示されている。ASICダイ660は、当業者に知られているように、ダイ・トゥ・ウェハのバンプ接合を用いてQVM回路601に接合されてもよい。
【0076】
上記の詳細な説明は、本発明の特定の実施形態を例示するために提供されたものであって、限定することを意図するものではない。本発明の範囲内で、様々な変形及び改変が可能である。本発明の要旨は、添付の特許請求の範囲に記載されている。