特許7542638 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インフィニオンテクノロジーズエルエルシーの特許一覧

特許7542638ＭＡＣ演算を実行するためのインメモリコンピューティングアーキテクチャおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4A
4B
4C
4D
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-22

(45)【発行日】2024-08-30

(54)【発明の名称】ＭＡＣ演算を実行するためのインメモリコンピューティングアーキテクチャおよび方法

(51)【国際特許分類】

G06G 7/60 20060101AFI20240823BHJP

G06F 12/00 20060101ALI20240823BHJP

G06G 7/184 20060101ALI20240823BHJP

G06G 7/16 20060101ALI20240823BHJP

G06G 7/14 20060101ALI20240823BHJP

【ＦＩ】

G06G7/60

G06F12/00 560F

G06G7/184

G06G7/16 510

G06G7/14

【請求項の数】 20

(21)【出願番号】P 2022552684

(86)(22)【出願日】2021-02-26

(65)【公表番号】

(43)【公表日】2023-04-19

(86)【国際出願番号】 US2021019760

(87)【国際公開番号】W WO2021178225

(87)【国際公開日】2021-09-10

【審査請求日】2024-02-26

(31)【優先権主張番号】62/983,866

(32)【優先日】2020-03-02

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/908,210

(32)【優先日】2020-06-22

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】522029730

【氏名又は名称】インフィニオンテクノロジーズエルエルシー

【氏名又は名称原語表記】ＩｎｆｉｎｅｏｎＴｅｃｈｎｏｌｏｇｉｅｓＬＬＣ

【住所又は居所原語表記】１９８ＣｈａｍｐｉｏｎＣｏｕｒｔ，ＳａｎＪｏｓｅ，ＣＡ９５１３４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ラメシュチェトゥヴェッティ

(72)【発明者】

【氏名】ヴィジェイラグハヴァン

(72)【発明者】

【氏名】ハンスファンアントウェルペン

【審査官】征矢崇

(56)【参考文献】

【文献】国際公開第２０１８／０６２０２１（ＷＯ，Ａ１）

【文献】特開平０９－１９８３６５（ＪＰ，Ａ）

【文献】特開２００５－１２２４６６（ＪＰ，Ａ）

【文献】特許第６５２１２０７（ＪＰ，Ｂ１）

【文献】特許第６５４０９３１（ＪＰ，Ｂ１）

【文献】米国特許第０６８６８００９（ＵＳ，Ｂ１）

【文献】米国特許第０６８５９８７２（ＵＳ，Ｂ１）

【文献】米国特許出願公開第２００９／０２０７６４２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１０／０１７２１８０（ＵＳ，Ａ１）

【文献】特開２０２０－０３５５０２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｇ７／１４；７／１６；７／６０；７／１８４

Ｇ０６Ｎ３／０６３

Ｇ０６Ｆ１２／００

Ｇ０６Ｆ１７／００－１７／１８

(57)【特許請求の範囲】

【請求項1】

乗累（ＭＡＣ）コアにより実施される方法であって、前記方法は、
前記ＭＡＣコアが、複数の第１の入力バイトのそれぞれを行および列に配置されたメモリセルのアレイにおける複数の行のうちの１つの行に結合するステップであって、１つの列内の各メモリセルは、共有ビット線に結合されているステップと、
前記ＭＡＣコアが、複数の第１の入力バイトのビットを各行の各メモリセルに順次シフトするステップと、
を含み、ビットごとに、
前記ＭＡＣコアが、各メモリセルに蓄積された重みを各ビットに乗算し、前記ビットの状態に基づいて各メモリセルを活性化することにより、ビットと内部に蓄積された重みとの積に比例する、活性化された各メモリセルからの重み付けビット線電流が形成され、
前記ＭＡＣコアが、それぞれ前記列のうちの１つの列の共有ビット線に結合された第１の電荷蓄積バンクに、前記列の各活性化メモリセルからの重み付けビット線電流の和によって形成された電荷を累積し、
前記シフト、前記乗算および前記累積と同時に、前記ＭＡＣコアが、第２の電荷蓄積バンクに先行して累積された複数の第２の入力バイトから、結合された複数のアナログ／デジタル変換器（ＡＤＣ）を用いて、重み付けビット線電流の和によって形成された電荷を出力バイトに変換する、
方法。

【請求項2】

前記シフト、前記乗算および前記累積は、デジタル／アナログ変換器を用いて複数の第１の入力バイトのビットを変換することなく達成される、
請求項１記載の方法。

【請求項3】

前記方法は、前記複数の第１の入力バイトのビットがシフトされて電荷が前記第１の電荷蓄積バンクに累積され、かつ前記第２の電荷蓄積バンクの電荷が変換された後に、前記ＭＡＣコアが、前記第１の電荷蓄積バンクを前記第２の電荷蓄積バンクと交換するステップをさらに含む、
請求項１記載の方法。

【請求項4】

前記第１の電荷蓄積バンクおよび前記第２の電荷蓄積バンクのそれぞれは、異なるキャパシタンスを有する複数のビット線キャパシタを備え、
電荷の累積は、前記複数の第１の入力バイトにおけるビットの重要度に関連して選択されたキャパシタンスを有する、前記複数のビット線キャパシタのうちの１つのビット線キャパシタのビットをそれぞれ順次シフトすることによって、形成された電荷を１つの列に累積することを含む、
請求項１記載の方法。

【請求項5】

前記各行にシフトされた第１のビットは、前記行に結合された前記第１の入力バイトの最上位ビット（ＭＳＢ）であり、
１つの列の前記第１のビットからの重み付けビット線電流の和によって形成された電荷を累積することは、最大のキャパシタンスを有する前記第１の電荷蓄積バンク内のビット線キャパシタに電荷を累積することを含む、
請求項４記載の方法。

【請求項6】

前記第１の電荷蓄積バンクおよび前記第２の電荷蓄積バンクのそれぞれは、その出力ノードに結合されたダミーキャパシタをさらに備え、
前記第２の電荷蓄積バンクに先行して累積された電荷を変換することは、前記複数のビット線キャパシタに蓄積された電荷を前記ダミーキャパシタに再分配して、前記複数のビット線キャパシタのそれぞれに蓄積された電荷に関連する電圧をスケーリングするための等価電圧を提供することを含む、
請求項４記載の方法。

【請求項7】

各メモリセルは、マルチレベル不揮発性メモリ（ＮＶＭ）デバイスを含み、
前記方法は、前記複数の第１の入力バイトのビットを各メモリセルに順次シフトする前に、前記ＭＡＣコアが、各ＮＶＭデバイスに重みを蓄積するステップをさらに含む、
請求項１記載の方法。

【請求項8】

各メモリセルは、前記共有ビット線に結合された第１のＮＶＭデバイスと、前記列のメモリセル内の第２のＮＶＭデバイスにより共有される第２の共有ビット線に結合された第２のＮＶＭデバイスと、を含む、２つのマルチレベル不揮発性メモリ（ＮＶＭ）デバイスを含み、
前記方法は、前記複数の第１の入力バイトのビットを各メモリセルに順次シフトする前に、前記ＭＡＣコアが、前記メモリセル内の前記第１のＮＶＭデバイスおよび前記第２のＮＶＭデバイスのそれぞれに異なる重みを蓄積するステップをさらに含む、
請求項１記載の方法。

【請求項9】

前記第１のＮＶＭデバイスおよび前記第２のＮＶＭデバイスのそれぞれに蓄積される前記異なる重みは、反対極性を有する、
請求項８記載の方法。

【請求項10】

乗累（ＭＡＣ）コアであって、前記乗累（ＭＡＣ）コアは、
行および列に配置されたメモリセルのアレイであって、１つの列内の各メモリセルが共有ビット線に結合されているアレイと、
それぞれ前記アレイの１つの行に結合されており、第１の入力バイトのビットを前記行に順次シフトし、前記ビットの状態に基づいて前記メモリセルを活性化し、ビットと内部に蓄積された重みとの積に比例する、活性化された各メモリセルからの重み付けビット線電流を形成する複数のレジスタと、
それぞれ前記列のうちの１つの列において前記共有ビット線に結合されており、重み付けビット線電流の和を受け取って、前記重み付けビット線電流の和によって形成された電荷を前記入力バイトのビットごとに累積するように構成されている複数の第１の電荷蓄積バンクと、
複数のアナログ／デジタル変換器（ＡＤＣ）に結合されており、それぞれが前記シフトおよび前記累積と同時に、先行して受け取られた第２の入力バイトのビットごとにスケーリングされた電圧を、出力バイトへの変換のために前記複数のＡＤＣに供給するように構成されている複数の第２の電荷蓄積バンクと、
前記第１の入力バイトの各ビットが前記第１の電荷蓄積バンクに累積されて前記第２の電荷蓄積バンクの電荷が変換された後に前記第１の電荷蓄積バンクが前記第２の電荷蓄積バンクに切り替えられるように、複数の前記第１の電荷蓄積バンクおよび前記第２の電荷蓄積バンクに結合されているコントローラと、
を備える乗累（ＭＡＣ）コア。

【請求項11】

前記ＭＡＣコアは、前記複数のレジスタと前記アレイとの間にデジタル／アナログ変換器を含まない、
請求項１０記載のＭＡＣコア。

【請求項12】

前記第１の電荷蓄積バンクおよび前記第２の電荷蓄積バンクのそれぞれは、複数のビット線キャパシタを備え、前記複数のビット線キャパシタは、前記第１の入力バイトにおけるビットの重要度に関して選択されたキャパシタンスを有する前記複数のビット線キャパシタのうちの１つのビット線キャパシタのビットをそれぞれ順次シフトすることによって１つの列に形成された電荷を累積するために異なるキャパシタンスを有する、
請求項１０記載のＭＡＣコア。

【請求項13】

前記第１の電荷蓄積バンクおよび前記第２の電荷蓄積バンクのそれぞれは、その出力ノードに結合されたダミーキャパシタをさらに備え、前記ダミーキャパシタは、前記複数のビット線キャパシタに蓄積された電荷を前記ダミーキャパシタに再分配して、前記複数のビット線キャパシタのそれぞれに蓄積された電荷に関連するスケーリングされた電圧と等価の電圧を提供する、
請求項１２記載のＭＡＣコア。

【請求項14】

各メモリセルは、各メモリセルに重みが蓄積されたマルチレベル不揮発性メモリ（ＮＶＭ）デバイスを含む、
請求項１０記載のＭＡＣコア。

【請求項15】

各メモリセルは、前記共有ビット線に結合された第１のＮＶＭデバイスと、前記列のメモリセル内の第２のＮＶＭデバイスにより共有される第２の共有ビット線に結合された第２のＮＶＭデバイスと、を含む、２つのマルチレベル不揮発性メモリ（ＮＶＭ）デバイスを含み、前記第１のＮＶＭデバイスと前記第２のＮＶＭデバイスとは、異なる重みを蓄積する、
請求項１４記載のＭＡＣコア。

【請求項16】

前記第１の入力バイトの各ビットから生成されたスケーリングされた電荷を前記第１の電荷蓄積バンクに累積する時間は、前記第２の電荷蓄積バンクの電荷を変換する時間よりも長く、前記複数のＡＤＣは、複数の前記第２の電荷蓄積バンクの電荷の変換を行うために時間多重される、
請求項１０記載のＭＡＣコア。

【請求項17】

人工知能（ＡＩ）システムであって、前記人工知能（ＡＩ）システムは、
マイクロコントローラと、
複数の乗累（ＭＡＣ）コアと、
を備え、各ＭＡＣコアは、
行および列に配置されたメモリセルのアレイであって、各メモリセルが不揮発性メモリ（ＮＶＭ）デバイスを含み、各列が列内のＮＶＭデバイスを接続するビット線を含むアレイと、
それぞれ前記アレイの１つの行に結合されており、第１の入力バイトのビットを前記行に順次シフトして、前記ビットの状態に基づいて前記ＮＶＭデバイスを活性化し、ビットと内部に蓄積された重みとの積に比例する、活性化された各ＮＶＭデバイスからの重み付けビット線電流を形成する複数のレジスタと、
それぞれ前記列のうちの１つの列のビット線に結合されており、重み付けビット線電流の和を受け取って、前記重み付けビット線電流の和によって形成された電荷を前記入力バイトのビットごとに累積するように構成されている複数の第１の電荷蓄積バンクと、
複数のアナログ／デジタル変換器（ＡＤＣ）に結合されており、それぞれ前記シフトおよび前記累積と同時に、先行して受け取られた第２の入力バイトのビットごとにスケーリングされた電圧を、出力バイトへの変換のために前記複数のＡＤＣに供給するように構成されている複数の第２の電荷蓄積バンクと、
前記第１の入力バイトの各ビットが前記第１の電荷蓄積バンクに累積されて前記第２の電荷蓄積バンクの電荷が変換された後に前記第１の電荷蓄積バンクが前記第２の電荷蓄積バンクに切り替えられるように複数の前記第１の電荷蓄積バンクおよび前記第２の電荷蓄積バンクに結合されているコントローラと、
を含むシステム。

【請求項18】

【請求項19】

【請求項20】

各ＮＶＭデバイスは、各メモリセルにおける重みが蓄積されたマルチレベルＮＶＭデバイスを備える、
請求項１７記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、米国特許法第１１９条（ｅ）に基づき、２０２０年３月２日付にて出願された米国仮特許出願第６２／９８３８６６号の優先権の利益を主張する、２０２０年６月２２日に出願された米国非仮出願第１６／９０８２１０号の国際出願であり、その全内容が参照により本明細書に援用される。

【0002】

技術分野
本開示は、概して、インメモリコンピューティング（ＩＭＣ）、より具体的には、ＩＭＣアーキテクチャおよび乗累（ＭＡＣ）演算を実行するためにＩＭＣアーキテクチャを動作させる方法に関する。

【背景技術】

【0003】

インメモリコンピューティング（ＩＭＣ）またはインメモリ処理は、メモリからデータをフェッチしてプロセッサ内の別個の計算素子において計算を実行するのではなく、メモリ内のデータの計算を実行するための開発技術である。人工知能（ＡＩ）に対するフォンノイマン計算アーキテクチャのアプローチは、ニューラルネットワークにおいて使用される蓄積された重みおよびデータをフェッチし、中間結果を計算要素に蓄積するために、連続的な外部メモリアクセスを必要とする。当該外部メモリと処理構造との間のデータ移動によって、システム電力効率が制限されている。ＩＭＣでは、メモリ内に蓄積されたデータをメモリ外の処理要素とやり取りすることがないため、データ処理速度および計算の電力効率が大幅に向上する。ＩＭＣは、電力に感受性の高いＡＩ用途のための高速ニューラルネットワークアーキテクチャに特に有用であることが判明している。

【0004】

現在のＩＭＣ技術は主にデジタルインプリメンテーションを使用しており、これはデータ処理速度の幾つかの改善を提供するが、電力効率の重大な問題から悪影響を受ける可能性がある。特に、ＡＩ用途で使用されるＩＭＣインプリメンテーションは、アナログでの乗累（ＭＡＣ）演算のためにメモリ行にアクセスする前に、入力デジタルバイトストリームのアナログ等価表現への変換に関連するレイテンシに起因して、電力効率を失う。アナログＩＭＣのソリューションを提供する従来の試みは、入力データバイトストリームをメモリアレイまたはマトリクス内の行ごとにアナログ変換するデジタル／アナログ変換器（ＤＡＣ）に依拠しており、またＤＡＣ出力を使用して、データマトリクスの重みを蓄積するメモリセルが駆動される。したがって、現在のアナログＩＭＣインプリメンテーションは、入力データバイトストリームをアナログに変換するために使用されるＤＡＣに起因して、また入力データバイトストリームから出力アナログ電圧を生成する際に生じるレイテンシに起因して、大きな電力オーバーヘッドを有する。

【0005】

したがって、入力デジタルバイトストリームを高速にかつ高い電力効率でアナログ変換することができる乗累（ＭＡＣ）演算を実行するための、アナログＩＭＣアーキテクチャおよびその動作方法が必要とされている。

【発明の概要】

【課題を解決するための手段】

【0006】

インメモリコンピューティング（ＩＭＣ）アーキテクチャおよび乗累（ＭＡＣ）演算を実行するための方法が提供される。ＭＡＣ演算を実行するためのＩＭＣアーキテクチャおよびＩＭＣアーキテクチャを動作させる方法は、人工知能（ＡＩ）装置で使用されるようなハードウェアアクセラレータ内でまたはこれと共に使用される際に、特に有用である。

【0007】

ＩＭＣアーキテクチャは行および列として配置されたメモリセルのアレイを含むＭＡＣコアを含み、各メモリセルはマルチレベル不揮発性メモリ（ＮＶＭ）デバイスを含み、各列は列内のＮＶＭデバイスを接続する共有ビット線を含む。それぞれアレイの１つの行に結合された複数のレジスタは、第１の入力バイトのビットをこの行に順次シフトし、このビットの状態に基づいてＮＶＭデバイスを活性化し、ビットと内部に蓄積された重みとの積に比例して、活性化された各ＮＶＭデバイスから重み付けビット線電流を形成するように構成されている。複数の第１の電荷蓄積バンクは、それぞれ複数の列のうちの１つの列の共有ビット線に結合されており、重み付けビット線電流の和を受け取って、この重み付けビット線電流の和によって形成される電荷を入力バイトのビットごとに累積するように構成されている。ＭＡＣコアは、複数のアナログ／デジタル変換器（ＡＤＣ）に結合された複数の第２の電荷蓄積バンクをさらに含み、第２の電荷蓄積バンクのそれぞれは、シフトおよび累積と同時に、先行して受け取られた第２の入力バイトのビットごとにスケーリングされた電圧をＡＤＣに供給して出力バイトへ変換させるように構成されている。複数の第１の電荷蓄積バンクおよび第２の電荷蓄積バンクに結合されたコントローラは、複数の第１の入力バイトの各ビットが第１の電荷蓄積バンクに累積されて第２の電荷蓄積バンクの電荷が変換された後に第１の電荷蓄積バンクが第２の電荷蓄積バンクに切り替えられるかまたはこれらが交換されるように構成されている。

【0008】

上記のアーキテクチャを使用してＭＡＣ演算を実行する方法は、レジスタに蓄積された複数の第１の入力バイトのそれぞれをアレイ内の複数の行のうちの１つの行に結合させ、第１の入力バイトのビットを各行の各メモリセルに順次シフトすることと、ビットの状態に基づいて各メモリセルを活性化することにより、ビットごとにビットと各メモリセル内に蓄積された重みとを乗算して、ビットと内部に蓄積された重みとの積に比例する、活性化された各メモリセルからの重み付けビット線電流を形成することと、を含む。当該列内の各活性化メモリセルからの重み付けビット線電流の和によって形成された電荷は、それぞれ列のうちの１つの列における共有ビット線に結合された第１の電荷蓄積バンクに累積される。一般的に、方法では、第１の電荷蓄積バンクにおいてシフト、乗算および累積が行われ、第２の電荷蓄積バンクに先行して累積された複数の第２の入力バイトから、複数のＡＤＣを用いて、重み付けビット線電流の和によって形成された電荷の出力バイトへの変換が行われ、第１の入力バイトの各ビットが累積されて第２の電荷蓄積バンクの電荷が変換された後、第１の電荷蓄積バンクと第２の電荷蓄積バンクとが交換される。

【0009】

発明の実施形態のさらなる特徴および利点、ならびに発明の種々の実施形態の構造および動作を、添付の図面を参照しながら詳細に説明する。発明は本明細書に記載する特定の実施形態に限定されるものでないことに留意されたい。これらの実施形態は例示のみを目的として本明細書に提示されている。付加的な実施形態は、本明細書に含まれる教説に基づいて当業者に明らかとなるであろう。

【0010】

発明の実施形態を、単に例示としてであるが添付の概略的な図面に関連して以下に説明し、図中、対応する参照符号は対応する部材を示す。さらに、本明細書に組み込まれてその一部を成す添付の図面は本発明の実施形態を示すものであり、説明と共に用いることで本発明の基本方式を説明し、関連分野の当業者が本発明を製造かつ使用できるようにすることにも役立つ。

【図面の簡単な説明】

【0011】

【図1A】レイテンシを削減してＭＡＣ演算の実行における効率を改善するための、メモリアレイ、複数の電荷蓄積バンクおよびアナログ／デジタル変換器（ＡＤＣ）を含む、アナログの乗累（ＭＡＣ）コアの一実施形態の概略的なブロック図である。

【図1B】メモリアレイ内の各メモリセルが２つの不揮発性メモリ（ＮＶＭ）セルを含み、各ＮＶＭセルが１つもしくは複数のＮＶＭデバイスを含む、ＭＡＣコアの別の実施形態の概略的なブロック図である。

【図2】ＳＯＮＯＳＮＶＭトランジスタの側断面図を示すブロック図である。

【図3】図１Ａまたは図１ＢのＭＡＣコアを使用してＭＡＣ演算を実行するための方法のフローチャートである。

【図4A】図１Ａおよび図１ＢのＭＡＣコアにおいて使用される電荷蓄積バンクであって、入力データバイトの第１のビットが各行にシフトされて得られた列内の電流をサンプリングし、生じた電荷を電荷蓄積バンク内の電荷蓄積素子に蓄積するように構成された電荷蓄積バンクの一実施形態の概略的なブロック図である。

【図4B】入力データバイトの第２のビットから得られた列内の電流をサンプリングし、生じた電荷を電荷蓄積バンクの第２の電荷蓄積素子に蓄積するように構成された、図４Ａの電荷蓄積バンクの概略的なブロック図である。

【図4C】入力データバイトの全てのビットから得られる電荷を保持し、各入力ビットに関連付けられた電圧のスケーリングに必要な等価電圧をノードＮに供給するように構成された、図４Ａの電荷蓄積バンクの概略ブロック図である。

【図4D】逐次比較レジスタアナログ／デジタル変換器（ＳＡＲＡＤＣ）を使用して、入力データバイトの全ビットについてのＭＡＣ演算から得られる電荷を出力データバイトａに変換するように構成された、図４Ａの電荷蓄積バンクの概略的なブロック図である。

【図5】単一のビット線に結合された単一の電荷蓄積バンクを動作させて、入力データバイトの各行へのシフトから生じる電流を累積し、入力データバイトの全てのビットについてのＭＡＣ演算を実行し、入力データバイトの全ビットについてのＭＡＣ演算から生じる電荷を出力データバイトに変換する方法のフローチャートである。

【図6】本開示に従って動作するＭＡＣコアを備えた複数のニューラルエンジンを含むハードウェアアクセラレータを備えた人工知能（ＡＩ）システムの一実施形態の概略的なブロック図である。

【発明を実施するための形態】

【0012】

インメモリコンピューティング（ＩＭＣ）アーキテクチャおよびこれを用いて乗累演算を迅速かつ効率的に行うための動作方法を提供する。本開示のＩＭＣアーキテクチャおよび方法は、人工知能（ＡＩ）装置において使用されるような複数のニューラルエンジンコアを含むハードウェアアクセラレータ内でまたはハードウェアアクセラレータと共に使用される際に、特に有用である。

【0013】

以下の説明では、説明の目的で、本発明の完全な理解を提供するために、多数の特定の詳細を記載する。ただし、本発明がこれらの具体的な詳細を伴わずに実施可能であることは当業者には明らかであろう。他の例では、本明細書の理解を不必要に曖昧にすることを避けるため、周知の構造および技術は詳細には示されていないかまたはブロック図の形態で示されている。

【0014】

本明細書において「一実施形態」または「ある実施形態」とは、実施形態に関連して記載される特定の特徴、構造または特性が、発明の少なくとも１つの実施形態に含まれることを意味する。本明細書中の様々な箇所における「一実施形態では」なる文言の出現は、必ずしも全てが同じ実施形態を指すとは限らない。本明細書で使用される「接続する」なる用語は、２つ以上の要素または素子を電気的に直接に接続することと１つもしくは複数の介在要素を介して間接的に接続することとの双方を含みうる。

【0015】

図１Ａおよび図１Ｂは、レイテンシを削減してＭＡＣ演算を実行する際の効率を改善するための、人工知能（ＡＩ）装置またはシステムにおけるハードウェアアクセラレータでの使用に適した、アナログの乗累（ＭＡＣ）エンジンまたはコア１００の実施形態を示す概略的なブロック図である。

【0016】

図１Ａを参照すると、一実施形態では、ＭＡＣコア１００は、それぞれ（図１Ａでは楕円Ｗ００，Ｗ０１，Ｗ１０，…などによって示されている）プログラミングされた値または重みを内部に蓄積して複数（ｍ）個の行および複数（ｎ）個の列として配置された、メモリユニットまたはセル１０４のメモリアレイまたはアレイ１０２を含み、ここで、列内の各メモリセルは共有ビット線１０６に結合されており、行内の各メモリセルは共有ワード線１０８に結合されている。図示の実施形態では、メモリアレイ１０２は４行８列を有する４×８列のアレイであるが、代替的に、図示の行または列よりも少ない行または列を有する実施形態を含む任意の数の行および列を有しうることが理解されるであろう。ＭＡＣコア１００はさらに、マルチビット入力データワードまたはマルチビット入力データバイトを蓄積することができる複数のレジスタ１１０、一般的にはメモリアレイ１０２の各行に対する少なくとも１つのレジスタを含む。各レジスタ１１０は、共有ワード線を介してメモリアレイ１０２の１つの行に結合されており、第１の入力データバイトのビットすなわち図示の実施形態ではＤ０～Ｄ７をクロック信号に応答して行に順次シフトし、シフトされたビットの状態に基づいて行内のメモリセル１０４を活性化し、ビットと内部に蓄積された重みとの積に比例する、列内の活性化された各メモリセルからの当該列の共有ビット線上の重み付けビット線電流を形成する。

【0017】

ＭＡＣコア１００はさらに、それぞれ列のうちの１つの列の共有ビット線に接続された複数の累算器１１２を含み、当該複数の累算器１１２は、それぞれ切り替え可能に共有ビット線１０６に接続されており、かつ列内の活性化されたメモリセル１０４から重み付けビット線電流の和を受け取って、この重み付けビット線電流の和によって形成されたスケーリングされた電荷を第１の入力データバイトのビットごとに累積するように構成された第１の電荷蓄積バンク１１４ａを含む。累算器１１２のそれぞれは、複数のアナログ／デジタル変換器（ＡＤＣ１１６）に結合された第２の電荷蓄積バンク１１４ｂをさらに含み、第２の電荷蓄積バンクのそれぞれは、クロック信号に応答して、各行へのビットのシフトし、かつ第１の電荷蓄積バンク１１４ａにスケーリングされた電荷を累積すると同時に、累積した電圧を先行して受け取られた第２の入力データバイトのビット線ごとにＡＤＣ１１６へ供給し、マルチビット出力レジスタ１１８に蓄積される出力バイトのデジタルビットへ変換させるように構成されている。例示的な一実施形態では、当該演算は、１ビットを第１の電荷蓄積バンクにシフトさせる時間が、先行して受け取られた第２の入力データバイトの１ビット線を変換する時間に実質的に等しくなるようにタイミング制御される。

【0018】

ＭＡＣコア１００は、第１の電荷蓄積バンク１１４ａおよび第２の電荷蓄積バンク１１４ｂに結合されたコントローラ１２０をさらに含み、累算器１１２のそれぞれにおいて、当該コントローラは、複数の第１の入力データバイトの全ビットが第１の電荷蓄積バンクに累積されて第２の電荷蓄積バンクの電荷が変換された後に第１の電荷蓄積バンク１１４ａが第２の電荷蓄積バンク１１４ｂに切り替えられるかまたはこれらが交換されるように構成されている。切り替えまたは交換とは、メモリアレイ１０２の列内の共有ビット線１０６に結合された各累算器１１２内の第１の電荷蓄積バンク１１４ａが共有ビット線またはメモリアレイから切り離され、電荷‐電圧変換のために複数のＡＤＣ１１６に結合される一方、第２の電荷蓄積バンク１１４ｂが複数のＡＤＣから実質的に同時に切り離されて、電荷累積のためにメモリアレイ１０２内の共有ビット線に結合されることを意味する。図示されている幾つかの実施形態では、コントローラ１２０はＭＡＣコア１００に含まれており、ＭＡＣコアの他の要素と共通のもしくは共有の基板上に一体的に作製されているか、または共有の集積回路パッケージにパッケージングされているか、またはＭＡＣコアの他の要素と共通のもしくは共有の回路基板に取り付けられていてよい。代替的に、コントローラ１２０は、ＡＤＣ１１６のうちの１つのＡＤＣにおけるコントローラ、またはマイクロコントロールユニット（ＭＣＵ）、またはＭＡＣコア１００を含むハードウェアアクセラレータ内のプロセッサ、またはハードウェアアクセラレータが使用されるシステム内のプロセッサであってもよい。

【0019】

一般的に、ＭＡＣコア１００内の複数のＡＤＣ１１６は、第１の入力データバイトの時間ビットがメモリアレイ１０２の各行にシフトされている間、第２の各電荷蓄積バンク１１４ｂのそれぞれに蓄積された全ての電荷の変換をＡＤＣが完了し、ビットごとにスケーリングされた電荷が第１の電荷蓄積バンク１１４ａに累積されるように選択される。複数の第２の電荷蓄積バンク１１４ｂに蓄積された累積電荷の変換は、入力データバイトのビットのシフトおよび第１の電荷蓄積バンク１１４ａへのスケーリングされた電荷の累積が行われるときと実質的に同じ第１のクロックサイクルで開始されるが、共有ビット線１０６の読み出しに必要な時間またはクロックサイクル数は、第２の電荷蓄積バンク１１４ｂのそれぞれに蓄積された全電荷の変換と同じである必要はないことに留意されたい。１つのビット線電流の読み出しに要する時間がＡＤＣ変換時間に等しい場合、共有ビット線１０６ごとに８ビットのスケーリングされた電流が第１の電荷蓄積バンク１１４ａに累積される一方、第２の電荷蓄積バンク１１４ｂに蓄積された先行の入力データバイトからの電荷の変換には単一の８ビットＡＤＣ１１６で足りることとなり、ＡＤＣ１１６の数は最も近い整数に丸められたｎ／ｂ以上となるが、ここでｎはメモリアレイ１０２内の列であり、ｂは入力データバイトのビット数である。なお、第１の電荷蓄積バンク１１４ａにおいて各ビット読み出しにつきスケーリングされた電荷のシフトおよび累積により多くの時間が必要とされる場合、例えば、共有のビット線当たりの電荷蓄積時間がＡＤＣ変換に必要な時間またはクロックサイクル数の２倍量となる場合、１つのＡＤＣを時間多重化してビット線１０６の数または列数の２倍で変換を行うことができるので、ＡＤＣ１１６の数を半減して、これにより、ＡＤＣ面積を低減しつつ、効率的な使用およびＡＤＣの１００％スループットを維持することができる。

【0020】

ここで、入力データバイトのシフトおよび累積に必要とされるクロックサイクル数は、電圧を変換するためのクロックサイクル数よりも数（ｘ）倍大きく、ＭＡＣコア１００は、図示のような、第１の電荷蓄積バンク１１４ａおよび第２の電荷蓄積バンク１１４ｂに供給されるクロック信号の周波数を増大させるクロックバッファ１２２と、複数のＡＤＣ１１６と、を含む。

【0021】

一般に、図１Ａに示されている実施形態のごとく、メモリアレイ１０２内の各メモリセル１０４は、各メモリセル内に重み（アナログ、ＮＶＭセルに蓄積可能な複数の値レベルに相当する）が蓄積された、マルチレベル不揮発性メモリ（ＮＶＭ）デバイスまたはトランジスタを含む。図１Ｂに示されている別の実施形態では、メモリアレイ１０２内の各メモリユニット１０４は、サブ列Ｐで表現された第１のビット線１０６ａに結合された第１のＮＶＭセルとサブ列Ｎで表現された第２のビット線１０６ｂに結合された第２のＮＶＭセルとを含む、２つのＮＶＭデバイスまたはＮＶＭトランジスタを有することができる。当該実施形態では、メモリアレイ１０２内の各メモリセル１０４内へ値または重みをプログラミングすることは、サブ列Ｐの第１のＮＶＭデバイスとサブ列Ｎの第２のＮＶＭセルとを、反対極性ＮおよびＰを有する第１のＮＶＭデバイスおよび第２のＮＶＭデバイスのそれぞれに蓄積された異なる値または異なる重みでプログラミングすることを含む。また、当該実施形態において図１Ｂに示されているように、複数のＡＤＣ１１６は、第１のビット線１０６ａおよび第２のビット線１０６ｂに結合された差動入力を有する差動ＡＤＣを含みうる。

【0022】

いずれの実施形態においても、マルチレベルＮＶＭデバイスは、１つもしくは複数の窒化物または酸窒化物の電荷トラップ層を含むマルチレベルのシリコン－酸化物－窒化物－酸化物－シリコン（ＳＯＮＯＳ）ＮＶＭトランジスタを含むことができ、ＯＮＯ型ＮＶＭトランジスタのゲートに結合されたワード線に印加されるべき閾値電圧（Ｖ_ＴＨ）をシフトさせるために複数の電荷レベルを蓄積もしくはトラップし、トランジスタをターンオンさせてメモリセル１０４にプログラミング値または重みをプログラミングもしくは蓄積させることができる。図２はＳＯＮＯＳＮＶＭトランジスタの側断面図を示すブロック図である。図２を参照すると、ＳＯＮＯＳＮＶＭトランジスタ２００は、基板２０４を覆うように形成されたゲートスタック２０２を含む。ＮＶＭトランジスタ２００はさらに、ゲートスタック２０２の両側の基板２０４内のウェル２１０に形成されたソース／ドレイン領域２０６／２０８と、ゲートスタックの下方のチャネル領域２１２と、ウェル２１０とのオーミックコンタクトを形成するためのウェル端子またはバルク端子とも称されるボディバイアス端子２１４と、を含む。ソース領域２０６、ドレイン領域２０８、チャネル領域２１２およびボディバイアス端子２１４は、ＮＶＭトランジスタがｐ型またはｎ型のいずれであるかに応じて、ウェル２１０内へのイオン注入または拡散によって適切なタイプのドーパントを注入することで形成される。ウェル２１０は、イオン注入または拡散によって形成することもできる。ソース領域２０６、ドレイン領域２０８およびボディバイアス端子２１４はさらに、基板２０４内の領域とのオーミックコンタクトを形成するために、図示していないシリサイドの薄層を含むことができる。

【0023】

ゲートスタック２０２は、酸化物トンネル誘電層２１６と、１つもしくは複数の窒化物または酸窒化物の電荷トラップ層２１８と、上部の阻止酸化物層２２０と、制御ゲート２２２として機能するポリシリコン（ポリ）、シリサイド化ポリシリコンまたは金属の層と、を含む。

【0024】

制御ゲート２２２、ソース領域２０６、ドレイン領域２０８およびボディバイアス端子２１４が適切にバイアスされていれば、ソース／ドレイン／チャネル領域からの電子がトンネル誘電層２１６を通って注入またはトンネリングされ、電荷トラップ層２１８に捕捉される。電荷が注入されるメカニズムは、ファウラー‐ノルドハイム（ＦＮ）トンネリングおよびホットキャリア注入の双方を含むことができる。電荷トラップ層２１８にトラップされた電荷は、ドレインとソースとの間にエネルギバリアを生じさせ、ＮＶＭトランジスタ２００のターンオフに必要な閾値電圧Ｖ_Ｔを上昇させ、トランジスタを「プログラミングされた」状態にする。ＮＶＭトランジスタ２００が「消去」可能となり、またはトラップされた電荷を除去して、制御ゲート２２２に逆バイアスを印加することによって正孔に置き換えることができる。ソース領域２０６、ドレイン領域２０８およびボディバイアス端子２１４は、マルチレベル閾値電圧（Ｖ_ＴＨ）またはセル電流を変化させて（ＮＶＭトランジスタ２００を部分的にプログラミングするかまたは部分的に消去して）アナログで蓄積された重み値が表されるように、バイアスされる。

【0025】

マルチレベルＳＯＮＯＳ型ＮＶＭトランジスタは、例えば共通に割り当てられた同時係属中の２０２０年３月２４日に出願された米国特許出願第１６／８２７９４８号明細書に記載されており、この文献の開示内容はその全体が参照により本明細書に援用されるものとする。

【0026】

図１Ａまたは図１Ｂに示されているＭＡＣコア１００の動作時には、レジスタ１１０に蓄積された入力データバイトが、最上位ビット（ＭＳＢ）から始まって、ビットごとにメモリアレイ１０２内へシフトされる。メモリアレイ１０２の各行には、異なるまたは同一の入力データバイトが供給される。これらの入力データバイトは、例えば、現実の畳み込みニューラルネットワーク（ＣＮＮ）アプリケーションにおける入力画像ピクセルまたは活性化を表現することができる。シフトされたビットが１である場合には、行における対応するメモリセル１０４がターンオンされるかまたは読み出し動作のために選択されて、対応するメモリセルのプログラミング値と等価のセル電流またはこれを表現するセル電流が供給され、ビットが０である場合には、メモリセルはターンオンされないかまたは読み出し動作のために選択されず、関連する共有ビット線１０６には電流が流されない。１つの列の複数の行のメモリセル１０４が上述したように同時に活性化される場合、当該列に関連する共有ビット線１０６が同じ列のメモリセルからのセル電流の総和を搬送する。共有ビット線に結合された第１の電荷蓄積バンク１１４ａまたは第２の電荷蓄積バンク１１４ｂに累積されたビット線電流は、入力データバイトのビットに関連する重みに基づいて、以下に説明する構造および方法を使用して、電荷蓄積バンク内でスケーリングされる。

【0027】

図１Ａを参照して、４×４メモリアレイを形成するために、行数（ｍ）および列数（ｎ）が双方とも４である場合を考察する。第１行に蓄積されるプログラミングされた値または重みは、Ｗ００，Ｗ０１，Ｗ０２およびＷ０３である。第２行に蓄積される重みは、Ｗ１０，Ｗ１１，Ｗ１２およびＷ１３である。第３行に蓄積される重みはＷ２０，Ｗ２１，Ｗ２２およびＷ２３であり、第４行に蓄積される重みはＷ３０，Ｗ３１，Ｗ３２およびＷ３３である。

【0028】

上述した手順に従って、８ビット入力データバイトＰ０＜Ｄ７：Ｄ０＞をアレイ１０２の第１行に順次シフトすると共に、第２の８ビット入力データバイトＰ１＜Ｄ７：Ｄ０＞を第２行に、第３の８ビット入力データバイトＰ２＜Ｄ７：Ｄ０＞を第３行に、第４の８ビット入力データバイトＰ３＜Ｄ７：Ｄ０＞を第４行にそれぞれ順次シフトする。したがって、８つのクロックサイクルの終了時、ビット入力データバイトのそれぞれが各入力データバイトのＭＳＢで始まって順次シフトされた第１列の共有ビット線１０６は、

【数1】

の有効電流を有する。

【0029】

同様に、ビット入力データバイトのそれぞれが同時に各入力データバイトのＭＳＢで始まって順次シフトされた第２列は、

【数2】

の有効電流を有する。

【0030】

第３列の有効電流および第４列の有効電流も類似であって、各列についての異なる重みまたはプログラミング値、すなわち第３列についてはＷ０２，Ｗ１２，Ｗ２２およびＷ３２の重み、第４列についてはＷ０３，Ｗ１３，Ｗ２３およびＷ３３の重みのみが異なるはずである。

【0031】

これらのビット線電流をそれぞれ等価のデジタル値に変換することによって、第１列についてはＰ０^＊Ｗ００＋Ｐ１^＊Ｗ１０＋Ｐ２^＊Ｗ２０＋Ｐ３^＊Ｗ３０、第２列についてはＰ０^＊Ｗ０１＋Ｐ１^＊Ｗ１１＋Ｐ２^＊Ｗ２１＋Ｐ３^＊Ｗ３１、第３列についてはＰ０^＊Ｗ０２＋Ｐ１^＊Ｗ１２＋Ｐ２^＊Ｗ２２＋Ｐ３^＊Ｗ３２、第４列についてはＰ０^＊Ｗ０３＋Ｐ１^＊Ｗ１３＋Ｐ２^＊Ｗ２３＋Ｐ３^＊Ｗ３３の有効ＭＡＣ値が得られる。

【0032】

図３のフローチャートを参照して、次に、図１Ａのものと同様のＭＡＣコアを使用してＭＡＣ演算を実行するための方法について説明する。なお、この図の右側および左側に示されている全体的な順序は同時にまたはほぼ同時に行われるが、右側に示されている別個の離散的な各ステップを左側の各ステップと実質的に並行して行う必要はない。例えば、第２の電荷蓄積バンクに結合されたＡＤＣによる変換は第１の電荷蓄積バンク上のビットの累積よりも高速または低速となりうるので、第２の電荷蓄積バンクに蓄積された第１のビット線電荷の変換は、第１の電荷蓄積バンクでの第１のビットの累積と必ずしも正確に重ならない。このため、第１の電荷蓄積バンクの最上位ビット（ＭＳＢ）による電荷の累積が完了する前に、第２の電荷蓄積バンクからの第１のビット線電荷の変換を完了して、第２のビット線電荷または次のビット線電荷の変換を開始することができる。

【0033】

第１のフェーズでは、ｂビット（この実施例ではｂ＝８）の複数の入力データバイトの各ビットの電荷が、ｂまたは８のクロックサイクルにて最上位ビット（ＭＳＢ）から最下位ビット（ＬＳＢ）まで第１の電荷蓄積バンクに累積もしくは蓄積される。図３を参照すると、方法は、第１のクロックサイクルにおいて、入力データバイトのそれぞれのＭＳＢをメモリアレイの各行にシフトさせ、得られたＭＳＢデータを第１の電荷蓄積バンクに蓄積させる（３０１）ことで開始する。入力データバイトのそれぞれのＭＳＢをメモリアレイの各行にシフトすることにより、ビットの状態に基づいて行内の各メモリセルが活性化され、すなわちシフトされたビットが「１」であるときメモリセルが活性化され、各メモリセルの活性化によってビットと内部に蓄積された重みとの積に比例する重み付けビット線電流が生成されることにより、ビットと各メモリセルに蓄積された重みとが乗算される。各列における各活性化メモリセルからの重み付けビット線電流は、列ごとの重み付けビット線電流の和を形成する列内の共有ビット線に結合され、次いで、スケーリングされた電荷へ変換されて、図４および図５を参照して以下で説明するように、第１の電荷蓄積バンクにおける電荷蓄積素子またはキャパシタに累積される。一般に、第１の電荷蓄積バンクおよび第２の電荷蓄積バンクは、入力データバイトのビット数以上の数のサンプリングキャパシタまたはビット線キャパシタを含み、各ビットからのデータまたは電荷はビット線キャパシタの個別の１つに累積される。ビット線キャパシタのそれぞれは異なるキャパシタンスを有し、各ビットから得られるデータは、入力データバイトにおけるビットの重要度に関して選択されるビット線キャパシタに累積される。したがって、各行にシフトされた第１のビットが当該行に結合された第１の入力データバイトのＭＳＢである場合、ＭＳＢビットからの重み付けビット線電流の和によって形成された電荷が、最大のキャパシタンスを有する第１の電荷蓄積バンク内のビット線キャパシタに累積される。

【0034】

第２のクロックサイクルでは、入力データバイトのそれぞれの次の最上位ビット（ＭＳＢ－１）がメモリアレイの各行にシフトされ、結果のＭＳＢ－１データが第１の電荷蓄積バンクに蓄積される（３０２）。この場合も、ＭＳＢのアレイへのシフトおよび得られたＭＳＢデータの累積と同様に、行内の各メモリセルはビットの状態に基づいて活性化され、ビットと各メモリセル内に蓄積された重みとが効果的に乗算されて、ビットと内部に蓄積された重みとの積に比例する重み付けビット線電流が形成され、次いでこれが電荷へ変換されて、次に大きなキャパシタンスを有する第１の電荷蓄積バンク内の電荷蓄積素子またはキャパシタに累積される。当該プロセスでは、続いて、連続するクロックサイクルごとにアレイ内の各行に第１の入力バイトのそれぞれの１ビットが順次シフトされ、その後、第１の入力バイトのそれぞれの最下位ビットがメモリアレイの各行にシフトされ、結果のＬＳＢデータが、第１の電荷蓄積バンクの最小のキャパシタンスを有する電荷蓄積素子またはキャパシタに蓄積される（３０３）。

【0035】

第１の入力データバイトのビットのシフトおよび結果のデータの蓄積もしくは累積と同時にまたはほぼ同時に、複数の第２の電荷蓄積バンクに蓄積された先行の第２の入力データバイトからの累積電荷が、第２の電荷蓄積バンクに結合された複数のＡＤＣを使用して、アナログ値からマルチビットのデジタル出力データバイトへ変換される。

【0036】

図３を再び参照すると、ステップ３０１の同じ第１のクロックサイクルに続く第１の変換ステップにおいて、先行して受け取られた第２の入力データバイトから累積され、アレイの第１列の第１のビット線に結合された第２の電荷蓄積バンクに蓄積された電荷が変換される（３０４）。当該変換は複数のＡＤＣを使用して達成され、図４および図５を参照して以下で詳細に説明するように、第２の電荷蓄積バンク内のビット線キャパシタのそれぞれが第２の電荷蓄積バンクの出力ノードに順次に結合される。次に、第２の入力データバイトから累積され、アレイの第２のビット線に結合された第２の電荷蓄積バンクに蓄積された電荷が変換される（３０５）。当該変換に続いて、全てのビット線から累積されたデータが変換されるまで、第２の入力データバイトから累積された電荷が変換され、アレイの順次のビット線に結合された複数の第２の電荷蓄積バンクのそれぞれに蓄積される（３０６）。上記の例では、第１の電荷蓄積バンクおよび第２の電荷蓄積バンクに累積および蓄積されている各入力データバイトのビット数（ｂ）は８である。したがって、累積電荷が変換される複数の第２の電荷蓄積バンクのうちの最後の電荷蓄積バンクは、アレイの第８列のビット線８に結合された第２の電荷蓄積バンクであり、８つのビット線全てに対して変換を実行するために１つのＡＤＣがあれば十分でありうる。

【0037】

最後に、第２のフェーズで、電荷蓄積バンクの結合がスワップまたは交換され（３０７）、ＡＤＣが第１のフェーズ中に第１の電荷蓄積バンクに蓄積された電荷の変換を開始する一方、第２の電荷蓄積バンクは次の入力データバイトに対する電荷の累積および蓄積を開始する。スワップまたは交換とは、第１の電荷蓄積バンクがメモリアレイから切り離されて複数のＡＤＣに結合され、かつ第２の電荷蓄積バンクが複数のＡＤＣから切り離されてメモリアレイに結合されることを意味する。

【0038】

この場合にも、ステップ３０４～３０６において説明した複数の第２の電荷貯蔵バンクに蓄積された累積電荷の変換は、ステップ３０１におけるＭＳＢ入力データのシフトおよび累積と実質的に同じ第１のクロックサイクルで開始されるが、上記のステップ３０１～３０３において説明したメモリセルの読み出しに必要とされる時間（クロックサイクル数）は同じでなくてよいことに留意されたい。図３に示されている例示的な方法において仮定されているのは、入力バイトの１ビット当たりの電荷蓄積時間とビット線当たりのＡＤＣ変換時間とが実質的に等しいことである。入力バイトの１ビットのシフトにかかる時間が１つのビット線のＡＤＣ変換時間に等しい場合、８ビットのスケーリングされた電流がビット線ごとに第１の電荷蓄積バンクに累積される間に、単一のＡＤＣがそれぞれアレイの８ビット線の１つに結合された複数の第２の電荷蓄積バンクに蓄積された先行の入力データバイトからの電荷の変換を完了することになる。なお、１ビット当たりの電荷蓄積時間につきさらなる時間が必要な場合、例えば１ビット線のＡＤＣ変換に必要な時間またはクロックサイクル数の２倍量の時間がかかる場合、１つのＡＤＣを多重化してビット線数または列数の２倍の変換を実行することができるので、ＡＤＣ数を半分に低減して、これにより、ＡＤＣ面積を低減しつつ、ＡＤＣの効率的な使用および１００％のスループットを維持することができる。

【0039】

図４Ａの概略的なブロック図を参照しながら、ＭＡＣコア１００、例えば図１Ａおよび図１Ｂに示されているＭＡＣコア１００における使用に適した電荷蓄積バンクを、以下に説明する。図４Ａを参照すると、電荷蓄積バンク４００は、一般に、電荷蓄積バンクが結合されたアレイ内の１つの列における活性化メモリセルからの複数のビット線電流の和を変換する電流‐電圧（Ｉ／Ｖ）変換器４０２、例えばフィードバック抵抗４０６を含むオペアンプ４０４と、ビット線電流の和によって生成もしくは形成された電荷のサンプリングまたは累積のための複数の電荷蓄積素子、例えばサンプリングキャパシタまたはビット線キャパシタ４０８ａ～４０８ｅと、を含む。一般に、サンプリングキャパシタ４０８ａ～４０８ｅの数は、マルチビット入力バイトにおいて予想されるビット数（ｂ）以上である。したがって、図４Ａに示されている実施形態では、電荷蓄積バンク４００は、５つのビット入力バイトの累積および変換に特に適しており、５つのサンプリングキャパシタ４０８ａ～４０８ｅを含む。また、電荷蓄積バンク４００は、電荷蓄積バンクの出力ノードＮに結合されたダミーキャパシタ（Ｃ_{ｄｕｍｍｙ}４１０）も含み、このダミーキャパシタには、ＡＤＣ（この図には図示せず）の素子または回路によるアナログ／デジタル変換の前に各サンプリングキャパシタに蓄積された電荷の電圧をスケーリングするための電圧を導出または形成するために、サンプリングキャパシタ４０８ａ～４０８ｅに蓄積された全ての電荷を再分配することができる。

【0040】

上記のように、各サンプリングキャパシタ４０８ａ～４０８ｅは、入力データバイトの各ビットに関連する電圧をスケーリングするために選択された異なるキャパシタンスを有している。例えば、図示の実施形態では、入力データバイトの最上位ビット（ＭＳＢ）がシフトされた列からのビット線電流（Ｉ_ＭＳＢ）が電圧（Ｖ_ＭＳＢ）に変換され、キャパシタンス１６Ｃを有するサンプリングキャパシタ４０８ｅに電荷として蓄積もしくは累積される。電圧が蓄積もしくは累積された次の上位ビット（Ｖ_{ＭＳＢ－１}）は、キャパシタンス８Ｃを有するサンプリングキャパシタ４０８ｄに蓄積され、Ｖ_{ＭＳＢ－２}はキャパシタンス４Ｃを有するサンプリングキャパシタ４０８ｃに蓄積され、Ｖ_{ＭＳＢ－３}はキャパシタンス２Ｃを有するサンプリングキャパシタ４０８ｂに蓄積され、Ｖ_ＬＳＢはキャパシタンスＣを有するサンプリングキャパシタ４０８ａに蓄積される。

【0041】

上記に加えて、電荷蓄積バンク４００はさらに、第１のバスもしくは入力バス４１４をＩ／Ｖ変換器４０２の出力側または基準電圧（Ｖ_ＲＥＦ）に結合する第１のスイッチ４１２と、サンプリングキャパシタ４０８ａ～４０８ｅのそれぞれに蓄積されたビット線電流の和によって生成された累積電荷を、第２のバスもしくは出力バス４１８をグラウンドに結合することができる、第２のスイッチ４１６と、を含む。サンプリングキャパシタ４０８ａ～４０８ｅそれぞれの第１のプレートまたは上部プレートは、独立したスイッチ４２０ａ～４２０ｅを介して入力バス４１４に個別に結合されており、これにより、入力データバイトにおける各ビットのための電荷は、従来のＳＡＲＡＤＣにおいてと同様に全てのサンプリングキャパシタに同時に蓄積されるのではなく、サンプリングキャパシタ４０８ａ～４０８ｅの１つに個別に累積される。サンプリングキャパシタ４０８ａ～４０８ｅそれぞれ第２のプレート以降のプレートは互いに並列に結合され、ダミーキャパシタ４１０以降のプレートは出力バス４１８に結合される。ダミーキャパシタ４１０の上部プレートは、スイッチ４２２を介して入力バスに結合される。Ｉ／Ｖ変換器４０２への入力が入力データバイトストリームの特定のビットに対応するビット線からの電流を受け取るメモリアレイの列内の共有ビット線４２４に結合されると、スイッチ４２０ａ～４２０ｅが順次ターンオンされ、サンプリングキャパシタ４０８ａ～４０８ｅのそれぞれを充電する。スイッチ４１２，４１６，４２０ａ～４２０ｅおよび４２２は、ＭＡＣコア内のまたはＭＡＣコアに結合されたコントローラ（図示せず）によって制御もしくは操作される。

【0042】

図５は、単一のビット線に結合された１つの電荷蓄積バンクを動作させて、入力データバイトの各行へのシフトから得られる電流を累積し、入力データバイトの全てのビットに対してＭＡＣ演算を行い、入力データバイトの全てのビットに対するＭＡＣ演算から得られた電荷を出力データバイトに変換する方法のフローチャートである。以下の方法は単一のビット線に結合された単一の電荷蓄積バンクについて説明するが、複数の列を含むアレイの列の各ビット線に結合された第１の電荷蓄積バンクおよび第２の電荷蓄積バンクを含むＭＡＣコアの実際の動作では、アレイの各ビット線に結合された複数の第１の電荷蓄積バンクおよび第２の電荷蓄積バンクのそれぞれにおいてこれらのステップが同時もしくはほぼ同時に実行されることが理解されよう。

【0043】

図５を参照すると、方法は、第１のフェーズでは、第１のクロックサイクルにおいて、アレイ内の行にシフトされて電荷蓄積バンクに結合された第１の入力データバイトのＭＳＢによって活性化される、第１列における全てのメモリセルからの重み付けビット線電流の和である、第１列のビット線電流（Ｉ_ＭＳＢ）を受け取る（５０２）。次に、重み付けビット線電流の和が電圧（Ｖ_ＭＳＢ）に変換され、電荷蓄積バンク内の第１の電荷蓄積素子に電荷として蓄積される（５０４）。図４Ａを参照すると、これは、Ｉ／Ｖ変換器４０２を用いて電流を電圧へ変換し、スイッチ４１２を閉成して入力バス４１４をＩ／Ｖ変換器４０２の出力側へ結合し、スイッチ４１６を閉成して出力バス４１８をグラウンドへ結合し、スイッチ４２０ｅを閉成して第１のキャパシタ４０８ｅに累積された電荷を結合することによって達成される。第２のクロックサイクルでは、第１の入力データバイトの次のＭＳＢ（ＭＳＢ－１）がアレイ内の行にシフトされ、電荷蓄積バンクに結合された列内の全ての活性化されたメモリセルからの重み付けビット線電流の和（Ｉ_{ＭＳＢ－１}）が受け取られる（５０６）。次のＭＳＢから形成された重み付けビット線電流の和は電圧（Ｖ_{ＭＳＢ－１}）に変換され、電荷蓄積バンク内の第２の電荷蓄積素子に電荷として蓄積される（５０８）。図４Ｂを参照すると、これは、スイッチ４２０ｅを開放し、スイッチ４２０ｄを閉成することによって達成され、第２のキャパシタ４０８ｄに電荷が累積される。プロセスは、第１の入力データバイトの全てのビットによって形成される重み付けビット線電流が受け取られて電荷蓄積バンク４００の個々のキャパシタ４０８ａ～４０８ｅに蓄積されるまで、同様に順に続く。図４Ｃを参照すると、入力データバイトの全てのビットによって得られた累積電荷は、この場合、第１のスイッチ４１２を介して入力バス４１４を基準電圧（Ｖ_ＲＥＦ）に接続し、スイッチ４１６を開放して全スイッチ４２０ａ～４２０ｅをグラウンドへ接続することにより、電荷蓄積バンクに保持可能となる。代替的な一実施形態では、ＭＳＢの第１のアプローチの代わりに、第１のクロックサイクルにおいてＬＳＢをシフトし、第１の入力データバイトの全てのビットによって形成された重み付けビット線電流が受け取られて電荷蓄積バンク４００内の個々のキャパシタ４０８ｅ～４０８ａに蓄積されるまで、ＬＳＢ＋１と続ける。

【0044】

５つのクロックサイクルの終了時に、電荷蓄積バンクは、列内の共有ビット線から切り離され、ノードＮでまたはノードＮを介してＡＤＣへ結合される（５１０）。次に、各入力ビットに関連する電圧のスケーリングに必要な等価電圧がノードＮに供給される（５１２）。図４Ｃを参照すると、これは、全てのスイッチ４２０ａ～４２０ｅおよびスイッチ４２２を閉成して、全てのサンプリングキャパシタ４０８ａ～４０８ｅの上部プレートをダミーキャパシタ４１０ひいてはグラウンドへ結合し、そこで電荷を再分配することによって達成することができる。次に、各サンプリングキャパシタ４０８ｂ～４０８ｆに蓄積された、各入力ビットに関連する電圧の標準ＳＡＲＡＤＣ変換が順次に実行される（５１４）。図４Ｄを参照すると、これは、スイッチ４２０ｅをＶ_ＲＥＦに切り替えることによりキャパシタ４０８ｅの上部プレートにＶ_ＲＥＦ電圧を強制的に印加することで達成することができ、ＶＲＥＦ／２－Ｖｉｎの電圧がノードＮ上に生成される（ここでのＶｉｎは、入力バイトにおける全ての入力ビットにわたる全てのサンプリングフェーズにおいてキャパシタ４０８ａ～４０８ｅに蓄積された全ての電荷のスケーリングされた等価電圧である）。ＡＤＣは、ノードＮで見られる電圧に基づいてＭＳＢのビットを判別する。その後、通常のＳＡＲコントローラ動作は次のようになる。すなわち、ＭＳＢのビット決定に基づいて、ＳＡＲコントローラがノードＮへのサンプルＶＲＥＦ／４または３^＊ＶＲＥＦ／４を決定し、以降同様に続く。

【0045】

図６は、本開示に従って動作するＩＭＣアーキテクチャを有するＭＡＣコア６０６をそれぞれ含む複数のニューラルエンジンまたはコア６０４を含むハードウェアアクセラレータ６０２を備えた人工知能（ＡＩ）システム６００の一実施形態の概略的なブロック図である。図６を参照すると、システムは、ハードウェアアクセラレータ６０２に加えてマイクロコントローラまたはプロセッサ６０８を含む。プロセッサ６０８は、システムオンチップ（ＳＯＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロコントロールユニット（ＭＣＵ）を含むことができるかまたはこれらとして実装可能であり、ＡＩシステム６００の複雑性、特にプロセッサの複雑性に依存して、ハードウェアアクセラレータ６０２またはその要素と共通のもしくは共有の基板上に一体化可能であるか、または共有の集積回路パッケージにパッケージング可能であるか、またはハードウェアアクセラレータを備えた共通のもしくは共有の基板に取り付け可能である。

【0046】

ＭＡＣコア６０６に加えて、各ニューラルコア６０４は、一般に、ＭＡＣ出力側で非線形の活性化機能を行うためのプログラマブル非線形エンジン（ＮＬＥ）６１０と、ランダムアクセスメモリ（ＲＡＭ）またはスタティックランダムアクセスメモリ（ＳＲＡＭ）を含むキャッシュ６１２と、をさらに含む。

【0047】

ニューラルコア６０４に加えて、ハードウェアアクセラレータ６０２は、一般に、ＡＩコプロセッサ６１４、例えば中央処理ユニット（ＣＰＵ）サブシステム、ＲＡＭまたはＳＲＡＭを含むバッファ６１６、入出力サブシステム（ＩＯＳＳ６１８）およびシステムリソースサブシステム（ＳＲＳＳ６２０）をさらに含み、これらは全て、ＡＩコプロセッサ内のペリフェラルインタコネクト６２２および／またはシステムインタコネクト６２４を介して電気的に結合されている。

【0048】

ＡＩコプロセッサ６１４は一般に、読み出し専用メモリ（ＲＯＭ）６２６に記憶されたファームウェアと、ＲＡＭ６２８またはＳＲＡＭと、縮小命令セットコンピューティング（ＲＩＳＣ）アーキテクチャを有するプロセッサ６３０、またはARM Holdings Plc社から市販入手可能なＣｏｒｔｅｘＭシリーズを含むプロセッサと、を含む。

【0049】

ＮＶＭメモリアレイおよびデュアル電荷蓄積バンクを備えたＭＡＣコアを含むインメモリコンピューティング（ＩＭＣ）アーキテクチャ、ならびにＭＡＣ演算の速度および効率を改善するために当該アーキテクチャを動作させるための方法を開示してきた。ＭＡＣコアおよびＭＡＣ演算方法の利点は、入力ビットの重みに従って入力電流をスケーリングする際に付加的な出力を消費する必要がなくなり、また、スケーリングされた電圧が電荷蓄積バンクの同じキャパシタから形成されるため、電荷蓄積バンクでのいずれの電荷のリークもシステムレベルで考慮できる利得エラーとなることである。したがって、本明細書に開示しているＭＡＣコアおよびＭＡＣ演算方法では、同様の先行技術のＩＭＣアーキテクチャで達成されうるよりもより良好な電力効率が提供され、向上した毎秒あたりの総演算（ＴＯＰＳ）およびＴＯＰＳ／Ｗａｔｔが提供されることが理解されるであろう。

【0050】

本発明の実施形態を、特定の機能およびその関係の実現を示す機能的かつ概略的なブロック図を使用して上述してきた。これらの機能的構成ブロックの境界は、説明の便宜上、本明細書では任意に定義されている。特定の機能およびその関係が適切に実行される限り、代替的な境界を定義することができる。

【0051】

特定の実施形態の上記の説明は、発明の全体的な性質を十分に明らかにするので、当業者に属する知識を適用することによって、不要な実験なくかつ本発明の全体的な概念から逸脱することなく、このような特定の実施形態を様々な用途のために容易に修正および／または適応化することができる。したがって、このような適応化および修正は、本明細書に提示している教示および指示に基づいて、開示した実施形態の等価物の意味内および範囲内にあることが意図されている。本明細書の語句または用語は説明を目的とするものであって限定を目的とするものではなく、このため、本明細書の語句または用語は、教説および指示に照らして当業者によって解釈されるべきであることを理解されたい。

【0052】

発明の概要および要約のセクションではなく詳細な説明のセクションが特許請求の範囲の解釈に使用されることが意図されていると理解されたい。発明の概要および要約のセクションは、発明者らによって意図された本発明の１つもしくは複数の実施形態を記載しており、ただし全ての典型的な実施形態を記載してはおらず、したがって、いかなる意味においても、本発明および添付の特許請求の範囲を限定することを意図するものではない。

【0053】

本発明の広がりおよび範囲は、上述の典型的な実施形態のいずれによっても限定されるべきではなく、以下の特許請求の範囲およびその等価物によってのみ定義されるべきである。

【図1A】