(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-29
(45)【発行日】2022-10-07
(54)【発明の名称】半導体モジュール
(51)【国際特許分類】
G11C 5/04 20060101AFI20220930BHJP
G06F 12/00 20060101ALI20220930BHJP
G06F 13/16 20060101ALI20220930BHJP
H01L 25/065 20060101ALI20220930BHJP
H01L 25/07 20060101ALI20220930BHJP
H01L 25/18 20060101ALI20220930BHJP
【FI】
G11C5/04 220
G06F12/00 560F
G06F13/16 510A
H01L25/08 H
H01L25/08 Z
(21)【出願番号】P 2021072722
(22)【出願日】2021-04-22
(62)【分割の表示】P 2019521924の分割
【原出願日】2017-06-02
【審査請求日】2021-05-24
(73)【特許権者】
【識別番号】515225518
【氏名又は名称】ウルトラメモリ株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(74)【代理人】
【識別番号】100190621
【氏名又は名称】崎間 伸洋
(72)【発明者】
【氏名】梶谷 一彦
(72)【発明者】
【氏名】安達 隆郎
【審査官】堀田 和義
(56)【参考文献】
【文献】特表2011-512598(JP,A)
【文献】特表2015-507372(JP,A)
【文献】特表2015-535101(JP,A)
【文献】特開2008-108055(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G11C 5/04
G06F 12/00
G06F 13/16
H01L 25/065
(57)【特許請求の範囲】
【請求項1】
所定の第1方向に並設される処理部本体と、
それぞれの前記処理部本体の前記第1方向に交差する第2方向に並設され、複数の前記処理部本体の間のデータ通信を中継する
複数のルータ部と、
前記複数のルータ部を接続する通信線と、
を備え、
前記処理部本体は、少なくとも1つのコアを含む1つの演算部と前記演算部の第1方向に並設される1つのメモリ部とを有するサブセット部であって、前記第1方向に対して交差する前記第2方向に複数並設されるサブセット部を有する演算処理装置。
【請求項2】
前記演算部及び前記メモリ部を電気的に接続する配線部をさらに備え、
前記演算部は、並設される前記メモリ部に隣接する一端部に第1インタフェース部を備え、
前記メモリ部は、並設される前記演算部に隣接する一端部に第2インタフェース部
であって、前記第1インタフェース部に近接配置される第2インタフェース部を備え
、
前記配線部は、前記第1インタフェース部及び前記第2インタフェース部を電気的に接続する請求項1に記載の演算処理装置。
【請求項3】
前記処理部本体及び前記ルータ部が一面上に載置されるインタポーザをさらに備え、
前記配線部は、前記インタポーザ上に構成される請求項2に記載の演算処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、半導体モジュールに関する。
【背景技術】
【0002】
従来より、記憶装置としてDRAM(Dynamic Random Access Memory)等の揮発性メモリが知られている。DRAMには、演算装置(以下、MPUという)の高性能化やデータ量の増大に耐えうる大容量化が求められている。そこで、メモリ(メモリセルアレイ、メモリチップ)の微細化及びセルの平面的な増設による大容量化が図られてきた。一方で、微細化によるノイズへの惰弱性や、ダイ面積の増加等により、この種の大容量化は限界に達してきている。
【0003】
そこで、昨今では、平面的なメモリを複数積層して3次元化(3D化)して大容量化を実現する技術が提案されている(例えば、特許文献1~4参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特表2016-502287号公報
【文献】特表2015-507372号公報
【文献】特表2015-502664号公報
【文献】特表2011-512598号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、MPUの高性能化やデータ量の増大により、MPU及びDRAM間の通信速度の向上も大容量化とともに求められている。メモリバンド幅(メモリ帯域幅)を向上することにより、MPU及びDRAM間の通信速度を向上することができるが、通信速度の向上により、データ転送電力(消費電力)も増大する。例えば、DRAMのセンスアンプとプロセッサのプロセシングエレメントとの間で1ビットのデータを転送するのに要するエネルギを1pJとすると、128TB/sのメモリバンド幅において、データ転送電力は1024Wに達する。
そこで、メモリバンド幅を広げることができるとともに、消費電力を低減することで、データ転送効率を向上することができれば非常に有用である。
【0006】
本発明は、メモリバンド幅を広げることができるとともに、消費電力を低減することで、データ転送効率を向上することが可能な半導体モジュールを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、インタポーザと、前記インタポーザの板面に沿う第1方向に並設される複数の処理部本体を有し、前記インタポーザに載置されるとともに、前記インタポーザと電気的に接続される処理部と、を備え、前記処理部本体は、少なくとも1つのコアを含む1つの演算部と積層型RAMモジュールで構成され前記演算部の第1方向に並設される1つのメモリ部とを有するサブセット部を複数備え、複数の前記サブセット部は、第1方向に対して交差する第2方向に並設されることを特徴とする半導体モジュールに関する。
【0008】
また、前記処理部は、前記処理部本体の第2方向に並設され、複数の前記処理部本体の間のデータ通信を中継するルータ部を更に備えることが好ましい。
【0009】
また、前記インタポーザは、複数の前記ルータ部を接続する通信線を備えることが好ましい。
【0010】
また、前記演算部は、並設される前記メモリ部に隣接する一端部に第1インタフェース部を備え、前記メモリ部は、並設される前記演算部に隣接する一端部に第2インタフェース部を備えることが好ましい。
【発明の効果】
【0011】
本発明によれば、メモリバンド幅を広げることができるとともに、消費電力を低減することで、データ転送効率を向上することが可能な半導体モジュールを提供することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の一実施形態に係る半導体モジュールを示す概略平面図である。
【
図3】一実施形態の半導体モジュールの第1処理部を示す概略平面図である。
【
図4】一実施形態の半導体モジュールの第1処理部及び第2処理部とルータ部を示す概略平面図である。
【
図5】一実施形態の半導体モジュールにおける信号線の長さを示す概略図である。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態に係る半導体モジュールについて図面を参照して説明する。
本実施形態に係る半導体モジュール1は、例えば、演算装置(以下、MPUという)と、積層型DRAMとをインタポーザ上に配置したSIP(system in a package)である。半導体モジュール1は、他のインタポーザ又はパッケージ基板上に配置され、マイクロバンプを用いて電気的に接続される。半導体モジュール1は、他のインタポーザ又はパッケージ基板から電源を得るとともに、他のインタポーザ又はパッケージ基板との間でデータ送受信が可能な装置である。
【0014】
この半導体モジュール1は、
図1及び
図2に示すように、インタポーザ10と、処理部20と、を備える。
インタポーザ10は、板状に形成され、一方の面がバンプM1を用いて他のインタポーザ又はパッケージ基板に電気的に接続される。インタポーザ10は、後述する複数のルータ部30との間を接続する通信線12を他方の面に備える。通信線12は、インタポーザ10の板面に沿う第1方向F1に沿って配置される。また、インタポーザ10は、後述する演算部23と後述するメモリ部24とを接続する配線部26を備える。配線部26の詳細については後述する。
【0015】
処理部20は、インタポーザ10に載置されるとともに、インタポーザ10に電気的に接続される。処理部20は、
図1~
図3に示すように、複数の処理部本体21と、ルータ部30と、を備える。
【0016】
処理部本体21は、正面視矩形に形成される。処理部本体21は、後述する演算部23が複数並設された演算部群Cと、後述するメモリ部24が複数並設されたメモリ部群Dと、を備える。
【0017】
演算部群Cは、正面視矩形に形成され、後述する演算部23がインタポーザ10の板面に沿い、第1方向にF1に交差する第2方向F2に複数並設されて構成される。即ち、演算部群Cは、第2方向F2に長い正面視長方形に形成される。
【0018】
メモリ部群Dは、正面視矩形に形成され、後述するメモリ部24が第2方向F2に複数並設されて構成される。即ち、メモリ部群Dは、第2方向F2に長い正面視長方形に形成される。メモリ部群Dは、第1方向F1で演算部群Cに並設される。ここで、メモリ部群Dを構成するメモリ部24は、
図3及び
図4に示すように、演算部群Cを構成する演算部23と第1方向F1において、1対1に対応して配置される。1対1で対応する演算部23及びメモリ部24の組は、1つのサブセット部22を構成する。
【0019】
以上の処理部本体21は、本実施形態において、16個(複数)設けられる。16個の処理部本体21は、
図1に示すように、第1方向F1に沿って配置される8個の処理部本体21を1列として、第2方向F2に2行配置される。また、処理部本体21は、第1方向に並設される2つを1組として配置される。1組の処理部本体21は、第1方向F1に沿って、メモリ部群D、演算部群C、演算部群C、及びメモリ部群Dの順で配置される。
【0020】
サブセット部22は、
図3及び
図4に示すように、正面視矩形に形成される。本実施形態において、サブセット部22は、1つの処理部本体21において、第2方向F2に64個(複数)配置される。サブセット部22は、1つの演算部と、1つのメモリ部と、を備える。
【0021】
演算部23は、正面視矩形に形成され、インタポーザ10上に配置される。演算部23は、インタポーザ10と、ACF(異方性導電膜)、Hybrid Bonding、又はマイクロバンプ等を用いて接続される。演算部23は、少なくとも1つのコア25を含む。
【0022】
本実施形態において、演算部23は、
図4に示すように、4つのコア25を含み、それぞれのコア25が第1方向F1に沿って並設される。演算部23は、隣接するサブセット部22の演算部23と通信可能に構成される。また、演算部23は、他のサブセット部22の演算部23と第2方向F2に隣接して配置される。本実施形態において、演算部23は、4つのコア25のそれぞれが他のコア25と通信可能に構成される。また、演算部23は、
図5に示すように、後述するメモリ部24であって、並設されるメモリ部24に隣接する一端部に第1インタフェース部27が配置される。第1インタフェース部27は、後述するメモリ部24とデータ通信可能に構成される。演算部23は、
図5に示すように、例えば、第1方向F1の長さL1が1mmで形成される。
【0023】
メモリ部24は、積層型RAMモジュールで構成され、正面視矩形に形成される。本実施形態において、メモリ部24は、積層型DRAMモジュールで構成される。メモリ部24は、インタポーザ10上に配置される。メモリ部24は、インタポーザ10と、ACF(異方性導電膜)、Hybrid Bonding、又はマイクロバンプ等を用いて接続される。メモリ部24は、演算部23の第1方向F1(
図3の紙面に沿って左右側の一方)に並設される。また、メモリ部24は、他のサブセット部22のメモリ部24と第2方向F2に隣接して配置される。メモリ部24は、
図5に示すように、並設される演算部23に隣接する一端部に第2インタフェース部28が配置される。第2インタフェース部28は、演算部23とデータ通信可能に構成される。メモリ部24は、
図5に示すように、例えば、第1方向F1の長さL4が1mm、全体の厚さL3が0.1mmで8層に形成される。メモリ部24の容量は、各層64Mbであり、全体として64MBで構成される。1個のサブセット部22は、配線部26と、第1インタフェース部27と、第2インタフェース部28と、から構成される1チャネル分のインタフェースを有する。
【0024】
以上のサブセット部22によれば、処理部本体21の全体は、256個のコア25(256PE(Processing Element)/コア)で構成され、64チャネル構成(64MB/チャネル)となる。また、それぞれのチャネルは、256b幅、4Gbpsの通信速度で構成されることにより、128GB/sのメモリバンド幅となり、64チャネル全体として8TB/sのメモリバンド幅で構成される。また、処理部本体21は、メモリ部24の容量が4GBで構成される。モジュール全体は16個の処理部本体21で構成されるので、4096個のコア25、1024チャネル、128TB/sのメモリバンド幅、メモリ部24の容量は64GBで構成される。
【0025】
また、複数のサブセット部22において、演算部23及びメモリ部24のそれぞれが、
図3に示すように、第1方向F1において、同じ順番で配置される。即ち、複数のサブセット部22の演算部23は、第2方向F2に沿って配置されるとともに、複数のサブセット部22のメモリ部24が第2方向F2に沿って配置される。また、1組の処理部本体21は、
図3に示すように、演算部23が第1方向F1で隣接するように配置される。これにより、1組の処理部本体21は、
図3に示すように、第1方向F1において、メモリ部群D、演算部群C、演算部群C、及びメモリ部群Dの順で配置される。
【0026】
ルータ部30は、複数の処理部本体21の間のデータ通信を中継する。ルータ部30は、インタポーザ10の通信線12により、他のルータ部30と接続される。ルータ部30は、処理部本体21の第2方向F2に並設される。具体的には、ルータ部30は、処理部本体21の演算部23の第2方向F2に並設される。本実施形態において、ルータ部30は、
図4に示すように、1組の処理部本体21ごとに1つ設けられ、第2方向F2に並ぶ1組の処理部本体21の間に配置される。ルータ部30は、処理部本体21のデータ通信を可能にすることにより、演算部23を1つの演算処理装置として構成する。
【0027】
次に、配線部26について説明する。
配線部26は、インタポーザ10上に構成される配線であり、インタポーザ10上において層状に配置される。配線部26は、第1方向F1において、サブセット部22の1つの演算部23の一端部と、1つのメモリ部24の一端部とを電気的に接続する。また、配線部26は、第2方向F2において、並設されるサブセット部22のそれぞれの位置に合わせて複数配置される。本実施形態において、配線部26は、2つの2μmピッチの銅パッド(図示せず)と、1μmピッチの銅又はアルミ配線(図示せず)とにより構成される。銅パッドは、1つのサブセット部22において、1つの演算部23の一端部と、1つのメモリ部24の一端部とのそれぞれに接続され、銅又はアルミ配線の両端部のそれぞれが2つの銅パッドに接続される。銅又はアルミ配線は、第1方向F1において、例えば0.2mmの長さL2で形成される。
【0028】
以上の半導体モジュール1は、以下のように動作する。
図5に示すように、1つのサブセット部22において、演算部23及びメモリ部24は、配線部26により、メモリバンド幅128GB/sで接続される。1つのサブセット部22において、配線部26の第1方向F1一端から最も遠い位置に配置されたコア25までの距離L1は、1mmとなる。また、配線部26の第1方向F1に沿う長さL2は、0.2mmとなる。また、メモリ部24の厚さ方向の最大長さL3は、0.1mmとなる。そして、第2インタフェース部28から第1方向F1に沿って最も遠い位置のメモリブロックまでの距離L4は、1mmとなる。従って、1つのサブセット部22において、最大配線長は、2.3mmとなる。
【0029】
図1に示す半導体モジュール1において、ピークにおけるメモリバンド幅を128TB/s、最大配線長が2.3mmの配線を介してDRAMのセンスアンプとプロセッサのプロセシングエレメントとの間で1ビットのデータを転送するのに要するエネルギを0.1pJ/bとすると、1組の処理部本体21のピーク時のデータ転送電力は、6.55Wとなる。即ち、半導体モジュール1のピーク時のデータ転送電力は、105Wとなる。
【0030】
以上のような一実施形態に係る半導体モジュール1によれば、以下の効果を奏する。
(1)半導体モジュール1を、インタポーザ10と、インタポーザ10の板面に沿う第1方向F1に並設される複数の処理部本体21を有し、インタポーザ10に載置されるとともに、インタポーザ10と電気的に接続される処理部20と、を含んで構成した。また、処理部本体21を、少なくとも1つのコア25を含む1つの演算部23と積層型RAMモジュールで構成され、演算部23の第1方向F1に並設される1つのメモリ部24とを有するサブセット部22を複数含んで構成した。そして、複数のサブセット部22を、第1方向F1に対して交差する第2方向F2に並設した。これにより、演算部23のコア25とメモリ部24とを近接配置できるので、両者の接続距離を短くすることができる。これによりメモリバンド幅を広げることができ、データ通信に要する電力を削減できるので、データ転送効率を向上することができる。
【0031】
(2)処理部20を、処理部本体21の第2方向F2に並設され、複数の処理部本体21の間のデータ通信を中継するルータ部30を更に含んで構成した。これにより、処理部本体21同士の間でデータ通信が可能になるので、複数のサブセット部22を用いた演算効率を向上することができる。
【0032】
(3)インタポーザ10を、複数のルータ部30を接続する通信線12を含んで構成した。インタポーザ10に通信線12を構成したので、別途配線を設けることなくルータ部30同士を接続することができる、両者を容易に接続できる。
【0033】
(4)演算部23を、並設されるメモリ部24に隣接する一端部に第1インタフェース部27を含んで構成し、メモリ部24を、並設される演算部23に隣接する一端部に第2インタフェース部28を含んで構成した。第1インタフェース部27及び第2インタフェース部28を近接配置したので、演算部23及びメモリ部24を接続する信号線の長さをより短くすることができる。
【0034】
以上、本発明の半導体モジュールの好ましい一実施形態につき説明したが、本発明は、上述の実施形態に制限されるものではなく、適宜変更が可能である。
【0035】
例えば、上記実施形態において、メモリ部24の積層方向電源接続端子と、メモリ部24の積層方向信号接続端子との組み合わせを、以下の表1のように形成することができる。
【0036】
【0037】
また、上記実施形態において、処理部20の構成を、第1方向F1に8行、第2方向F2に2列で計16個の処理部本体21により構成したが、第1方向F1及び第2方向F2の数はこれに制限されない。処理部本体21が第1方向F1に複数配置され、第2方向F2に1つ配置される場合、ルータ部30は、1組の処理部本体21ごとに、演算部23列に隣接して配置される。また、処理部本体21が第2方向F2において3つ以上配置される場合、ルータ部30は、第2方向F2において、処理部本体21のそれぞれの間において、2つの演算部群Cに隣接して配置しても良い。また、処理部本体21が第1方向F1において、1組ではなく単体で配置される場合、ルータ部30は、単体の処理部本体21の演算部群Cに隣接して配置される。また処理部本体21内の演算部23とルータ部30はNoC(Network on Chip)で接続されても良い。ルータ部30の配置場所は適宜変更されても良いし、複数個配置しても良い。
【0038】
また、上記実施形態において、演算部23、メモリ部24、及び配線部26のスケールやチャネル数、通信速度、コア25数、積層数等は一例であり、これに制限されない。
【0039】
また、上記実施形態において、第2方向F2は、第1方向F1に対して直交する方向としたが、これに制限されない。即ち、第2方向F2は、インタポーザ10の板面に沿って、第1方向F1に対して略直交する方向でもよく、第1方向F1に対して傾斜する方向であっても良い。
【0040】
また、上記実施形態において、サブセット部22を構成する1つの演算部23と、1つのメモリ部24とを接触させて配置させたが、これに制限されない。1つの演算部23と、1つのメモリ部24とは、所定の間隔をあけて配置されて良い。また、第1方向F1において、サブセット部22は、接触させて配置されてもよく、所定の間隔をあけて配置されても良い。
【0041】
また、演算装置はMPUに限定されず、広く論理チップ全般に適用されても良く、メモリはDRAMに限定されず、広く不揮発性RAM(例えばMRAM、ReRAM、FeRAM等)を含むRAM(Random Access Memory)全般に適用されても良い。
【符号の説明】
【0042】
1 半導体モジュール
10 インタポーザ
20 処理部
21 処理部本体
22 サブセット部
23 演算部
24 メモリ部
25 コア
27 第1インタフェース部
28 第2インタフェース部
F1 第1方向
F2 第2方向