特表2024-530610 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ クゥアルコム・インコーポレイテッドの特許一覧

特表2024-530610デジタルコンピュートインメモリのための折り畳み列加算器アーキテクチャ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
2
3A
3B
4
5A
5B
5C
6
7
8A
8B
8C
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-23

(54)【発明の名称】デジタルコンピュートインメモリのための折り畳み列加算器アーキテクチャ

(51)【国際特許分類】

G06N 3/063 20230101AFI20240816BHJP

G06G 7/60 20060101ALI20240816BHJP

G06F 7/50 20060101ALI20240816BHJP

【ＦＩ】

G06N3/063

G06G7/60

G06F7/50

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024505074

(86)(22)【出願日】2022-07-18

(85)【翻訳文提出日】2024-01-26

(86)【国際出願番号】 US2022073856

(87)【国際公開番号】W WO2023015105

(87)【国際公開日】2023-02-09

(31)【優先権主張番号】17/391,718

(32)【優先日】2021-08-02

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】595020643

【氏名又は名称】クゥアルコム・インコーポレイテッド

【氏名又は名称原語表記】ＱＵＡＬＣＯＭＭＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】バダログル、ムスタファ

(72)【発明者】

【氏名】ワン、ジョンゾー

(57)【要約】

いくつかの態様は、機械学習タスクを実施するための、特に、コンピューテーションインメモリアーキテクチャに対する、装置を提供する。一態様は、インメモリ計算のための回路を提供する。本回路は、概して、メモリの複数の列の各々上の複数のメモリセルと、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶するように構成され、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある、各々が複数の列のうちのそれぞれの１つに結合された、複数の加算回路と、複数の加算回路のうちの少なくとも２つの出力に結合された第１の加算器回路と、第１の加算器回路の出力に結合された累算器とを含む。
【選択図】図５Ａ

【特許請求の範囲】

【請求項1】

メモリの複数の列の各々上の複数のメモリセルと、前記複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶するように構成され、ここにおいて、前記複数の列の各々上の前記複数のメモリセルは、前記メモリの異なるワード線上にある、
各々が前記複数の列のうちのそれぞれの１つに結合された、複数の加算回路と、
前記複数の加算回路のうちの少なくとも２つの出力に結合された第１の加算器回路と、
前記第１の加算器回路の出力に結合された累算器と、
を備える、インメモリ計算のための回路。

【請求項2】

前記第１の加算器回路の１つまたは複数の部分は、選択的に無効にされるように構成された、請求項１に記載の回路。

【請求項3】

前記複数の加算回路の各々は、前記複数の列のうちの前記それぞれの１つ上の前記複数のメモリセルに結合された加算器ツリーを備える、請求項１に記載の回路。

【請求項4】

前記複数の加算回路の各々は、別の累算器を備える、請求項１に記載の回路。

【請求項5】

前記第１の加算器回路の第１の部分は、第１の計算サイクル中に選択的に無効にされるように構成され、前記第１の加算器回路の第２の部分は、第２の計算サイクル中に選択的に無効にされるように構成された、請求項１に記載の回路。

【請求項6】

前記複数の加算回路の各々と前記複数の列のうちの前記それぞれの１つとの間に結合された第２の加算器回路をさらに備える、請求項１に記載の回路。

【請求項7】

前記第２の加算器回路は、前記ワード線のうちの２つまたはそれ以上に結合された加算器ツリーを備える、請求項６に記載の回路。

【請求項8】

前記加算器ツリーは、前記複数の列のうちの前記それぞれの１つと前記ワード線のうちの前記２つまたはそれ以上との上にある前記メモリセルの出力信号を加算するように構成された、請求項７に記載の回路。

【請求項9】

前記第２の加算器回路と前記複数の列のうちの前記それぞれの１つとの間の結合されたセンス増幅器をさらに備える、請求項６に記載の回路。

【請求項10】

前記第１の加算器回路は、前記複数の加算回路のうちの前記少なくとも２つの出力信号を加算するように構成された加算器ツリーを備える、請求項１に記載の回路。

【請求項11】

前記加算器ツリーの１つまたは複数の加算器は、ビットシフトおよび加算回路を備える、請求項１０に記載の回路。

【請求項12】

第１のクロック信号を出力するように構成された第１の出力を有し、第２のクロック信号を出力するように構成された第２の出力を有する、クロック生成器回路をさらに備え、ここにおいて、
前記複数の加算回路は、前記クロック生成器の前記第１の出力に結合され、前記第１のクロック信号に基づいて動作するように構成され、
前記第１の加算器回路は、前記クロック生成器の前記第２の出力に結合され、前記第２のクロック信号に基づいて動作するように構成され、前記第２のクロック信号は、前記第１のクロック信号とは異なる周波数を有する、
請求項１に記載の回路。

【請求項13】

前記クロック生成器回路は、前記第１のクロック信号に基づいて前記第２のクロック信号を生成するように構成された周波数逓倍器を備える、請求項１２に記載の回路。

【請求項14】

複数のハーフラッチ回路をさらに備え、各ハーフラッチ回路は、前記第１の加算器回路と前記複数の加算回路のうちの１つとの間に結合される、請求項１に記載の回路。

【請求項15】

前記複数のメモリセルは、異なるアクティブ化入力に基づいて連続的にアクティブ化されるように構成され、
前記累算器は、前記複数のメモリセルが連続的にアクティブ化された後に、前記第１の加算器回路の出力信号を累算するように構成された、
請求項１に記載の回路。

【請求項16】

前記累算器は、前記第１の加算器回路の前記出力に結合された唯一の累算器である、請求項１に記載の回路。

【請求項17】

前記複数の列は、前記複数の列の第１のサブセットと前記複数の列の第２のサブセットとを備え、
前記第１のサブセットは、第１の計算サイクル中にアクティブ化される、
請求項１に記載の回路。

【請求項18】

前記第２のサブセットは、第２の計算サイクル中にアクティブ化され、前記第２の計算サイクルは、前記第１の計算サイクルの後にある、請求項１７に記載の回路。

【請求項19】

前記ワード線の各々上の前記メモリセルのうちの少なくともいくつかは、前記ニューラルネットワークの前記重みのうちの１つを記憶するように構成され、
前記複数の列の前記第１のサブセットの量は、前記重みのうちの前記１つのビットの量に関連する、
請求項１７に記載の回路。

【請求項20】

前記複数の加算回路に結合された出力を有し、前記複数の列の前記第２のサブセットからの信号を処理することに関連するクロック信号を非アクティブ化するように構成された、クロックゲーティング回路をさらに備える、請求項１７に記載の回路。

【請求項21】

複数の加算回路の各々を介して、メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算することと、ここにおいて、複数のメモリセルは、前記複数の列の各々上にあり、前記複数のメモリセルは、ニューラルネットワークの重みを表す複数のビットを記憶し、前記複数の列の各々上の前記複数のメモリセルは、前記メモリの異なるワード線上にある、
第１の加算器回路を介して、前記複数の加算回路のうちの少なくとも２つの出力信号を加算することと、
累算器を介して、前記第１の加算器回路の出力信号を累算することと、
を備える、インメモリ計算のための方法。

【請求項22】

前記重みの各々に関連するビット数に基づいて前記第１の加算器回路の１つまたは複数の部分を選択的に無効にすることをさらに備える、請求項２１に記載の方法。

【請求項23】

前記複数の列のうちの前記それぞれの１つ上の前記出力信号を加算することは、前記ワード線のうちの２つまたはそれ以上が連続的にアクティブ化された後に、前記複数の列のうちの前記それぞれの１つ上の前記メモリセルの出力信号を累算することを備える、請求項２１に記載の方法。

【請求項24】

前記複数の加算回路の各々と前記複数の列のうちの前記それぞれの１つとの間に結合された第２の加算器回路を介して、前記複数の列のうちの前記それぞれの１つと前記ワード線のうちの前記２つまたはそれ以上との上にある前記メモリセルの出力信号を加算することをさらに備える、請求項２３に記載の方法。

【請求項25】

前記第２の加算器回路と前記複数の列のうちの前記それぞれの１つとの間に結合されたセンス増幅器を介して、前記複数の列のうちの前記それぞれの１つと前記ワード線のうちの前記２つまたはそれ以上との上にある前記メモリセルの前記出力信号を検知することをさらに備え、ここにおいて、前記第２の加算器回路を介して前記加算することは、前記検知された出力信号に基づく、請求項２４に記載の方法。

【請求項26】

前記複数の加算回路のうちの前記少なくとも２つの前記出力信号を前記加算することは、前記複数の加算回路のうちの前記少なくとも２つ上でビットシフトおよび加算演算を実施することを備える、請求項２１に記載の方法。

【請求項27】

第１のクロック信号を生成することと、ここにおいて、前記複数の加算回路は、前記第１のクロック信号に基づいて動作する、
第２のクロック信号を生成することと、ここにおいて、前記第１の加算器回路は、前記第２のクロック信号に基づいて動作し、前記第２のクロック信号は、前記第１のクロック信号とは異なる周波数を有する、
をさらに備える、請求項２１に記載の方法。

【請求項28】

異なるアクティブ化入力に基づいて前記複数のメモリセルを連続的にアクティブ化することをさらに備え、ここにおいて、前記第１の加算器回路の前記出力信号を前記累算することは、前記複数のメモリセルが連続的にアクティブ化された後に行われる、請求項２１に記載の方法。

【請求項29】

前記複数のメモリセルを連続的にアクティブ化することは、
第１のアクティブ化サイクル中に前記アクティブ化入力の第１のセットを受信することと、
第２のアクティブ化サイクル中に前記アクティブ化入力の第２のセットを受信することと、
を備え、
前記第１の加算器回路の前記出力信号を前記累算することは、前記第１のアクティブ化サイクルおよび前記第２のアクティブ化サイクルの後に行われる、
請求項２８に記載の方法。

【請求項30】

メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算するための第１の手段と、ここにおいて、複数のメモリセルは、前記複数の列の各々上にあり、前記複数のメモリセルは、ニューラルネットワークの重みを表す複数のビットを記憶し、前記複数の列の各々上の前記複数のメモリセルは、前記メモリの異なるワード線上にある、
加算するための前記第１の手段のうちの少なくとも２つの出力信号を加算するための第２の手段と、
加算するための前記第２の手段の出力信号を累算するための手段と、
を備える、インメモリ計算のための装置。

【発明の詳細な説明】

【優先権の主張】

【0001】

関連出願の相互参照
[0001]本出願は、本出願の譲受人に譲渡され、その全体が参照により本明細書に組み込まれる、２０２１年８月２日に出願された米国出願第１７／３９１，７１８号の優先権を主張する。

【技術分野】

【0002】

序論
[0002]本開示の態様は、機械学習タスクを実施することに関し、詳細には、コンピューテーションインメモリ（computation-in-memory）アーキテクチャに関する。

【背景技術】

【0003】

[0003]機械学習は、概して、アプリオリに知られるトレーニングデータのセットへの一般化された適合を表す、トレーニングされたモデルを作り出すプロセス（たとえば、人工ニューラルネットワーク、ツリー、または他の構造）である。トレーニングされたモデルを新しいデータに適用することは、推論を作り出し、これは、新しいデータへのインサイトを得るために使用され得る。いくつかの場合には、モデルを新しいデータに適用することは、新しいデータに対して「推論を実行すること」として説明される。

【0004】

[0004]様々な機械学習（または人工知能）タスクを可能にするために機械学習の使用が急増するにつれて、機械学習モデルデータのより効率的な処理の必要が生じてきた。いくつかの場合には、機械学習アクセラレータなどの専用ハードウェアが、機械学習モデルデータを処理する処理システムのキャパシティを向上させるために使用され得る。しかしながら、そのようなハードウェアはスペースと電力とを必要とし、これは、常に処理デバイス上で利用可能であるとは限らない。たとえば、モバイルデバイス、常時オンデバイス、モノのインターネット（ＩｏＴ）デバイスなど、「エッジ処理」デバイスは、一般に、処理能力と電力およびパッケージング制約とのバランスをとらなければならない。さらに、アクセラレータは、共通データバスにわたってデータを移動し得、これは、著しい電力使用を引き起こし、データバスを共有する他のプロセスにレイテンシをもたらすことがある。したがって、処理システムの他の態様が、機械学習モデルデータを処理するために考慮されている。

【0005】

[0005]メモリデバイスは、いわゆるコンピューテーションインメモリ（ＣＩＭ）プロセスを通して機械学習モデルデータの処理を実施するために活用され得る処理システムの別の態様の一例である。従来のＣＩＭプロセスはアナログ信号を使用して計算を実施し、これは、計算結果の不正確さを生じ、ニューラルネットワーク計算に悪影響を及ぼし得る。したがって、増加された正確さでコンピューテーションインメモリを実施するためのシステムおよび方法が必要とされる。

【発明の概要】

【0006】

[0006]いくつかの態様は、機械学習タスクを実施するための、特に、コンピューテーションインメモリアーキテクチャに対する、装置および技法を提供する。

【0007】

[0007]一態様は、インメモリ計算（in-memory computation）のための回路を提供する。本回路は、概して、メモリの複数の列の各々上の複数のメモリセルと、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶するように構成され、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある；各々が複数の列のうちのそれぞれの１つに結合された、複数の加算回路と；複数の加算回路のうちの少なくとも２つの出力に結合された第１の加算器回路と；第１の加算器回路の出力に結合された累算器とを含む。

【0008】

[0008]一態様は、インメモリ計算のための方法を提供する。本方法は、概して、複数の加算回路の各々を介して、メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算することと、ここにおいて、複数のメモリセルが、複数の列の各々上にあり、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶し、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある；第１の加算器回路を介して、複数の加算回路のうちの少なくとも２つの出力信号を加算することと；累算器を介して、第１の加算器回路の出力信号を累算することとを含む。

【0009】

[0009]一態様は、インメモリ計算のための装置を提供する。本装置は、概して、メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算するための第１の手段と、ここにおいて、複数のメモリセルが、複数の列の各々上にあり、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶し、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある；加算するための第１の手段のうちの少なくとも２つの出力信号を加算するための第２の手段と；加算するための第２の手段の出力信号を累算するための手段とを含む。

【0010】

[0010]他の態様は、上述の方法ならびに本明細書で説明される方法を実施するように構成された処理システムと、処理システムの１つまたは複数のプロセッサによって実行されたとき、処理システムに上述の方法ならびに本明細書で説明される方法を実施させる命令を備える、非一時的コンピュータ可読媒体と、上述の方法ならびに本明細書でさらに説明される方法を実施するためのコードを備えるコンピュータ可読記憶媒体上で実施されたコンピュータプログラム製品と、上述の方法ならびに本明細書でさらに説明される方法を実施するための手段を備える処理システムとを提供する。

【0011】

[0011]以下の説明および関連する図面は、１つまたは複数の態様のいくつかの例示的な特徴を詳細に記載する。

【0012】

[0001]本開示の上記で具陳された特徴が詳細に理解され得るように、添付の図面にその一部が示される態様を参照することによって、上記で手短に要約されたより具体的な説明が得られ得る。ただし、その説明は他の等しく有効な態様に通じ得るので、添付の図面は、本開示のいくつかの典型的な態様のみを示し、したがって、本開示の範囲を限定するものと見なされるべきではないことに留意されたい。

【図面の簡単な説明】

【0013】

【図1A】[0012]本開示の態様によって実装され得る、様々なタイプのニューラルネットワークの例を示す図。

【図1B】本開示の態様によって実装され得る、様々なタイプのニューラルネットワークの例を示す図。

【図1C】本開示の態様によって実装され得る、様々なタイプのニューラルネットワークの例を示す図。

【図1D】本開示の態様によって実装され得る、様々なタイプのニューラルネットワークの例を示す図。

【図2】[0013]本開示の態様によって実装され得る、旧来の畳み込み演算の一例を示す図。

【図3A】[0014]本開示の態様によって実装され得る、深さ単位分離可能畳み込み（depthwise separable convolution）演算の例を示す図。

【図3B】本開示の態様によって実装され得る、深さ単位分離可能畳み込み演算の例を示す図。

【図4】[0015]コンピュートインメモリ（ＣＩＭ：compute-in-memory）回路のための８トランジスタ（８Ｔ）スタティックランダムアクセスメモリ（ＳＲＡＭ）セルとして実装された例示的なメモリセルを示す図。

【図5A】[0016]本開示のいくつかの態様による、ＣＩＭのための回路を示す図。

【図5B】[0017]加算器回路の例示的な一実装形態を示す図。

【図5C】[0018]累算器の例示的な一実装形態を示す図。

【図6】[0019]本開示のいくつかの態様による、ビット列加算器ツリーを使用して実装されたＣＩＭのための回路を示す図。

【図7】[0020]本開示のいくつかの態様による、図６の回路に関連する信号を示すタイミング図。

【図8A】[0021]本開示のいくつかの態様による、重みの構成可能なビットサイズをもつＣＩＭ回路を示すブロック図。

【図8B】本開示のいくつかの態様による、重みの構成可能なビットサイズをもつＣＩＭ回路を示すブロック図。

【図8C】本開示のいくつかの態様による、重みの構成可能なビットサイズをもつＣＩＭ回路を示すブロック図。

【図9】[0022]本開示のいくつかの態様による、インメモリ計算のための例示的な動作を示す流れ図。

【図10】[0023]本開示のいくつかの態様による、ニューラルネットワークにおける信号処理のための動作を実施するように構成された例示的な電子デバイスを示す図。

【発明を実施するための形態】

【0014】

[0024]理解を容易にするために、可能な場合、図面に共通である同一の要素を指定するために同一の参照番号が使用されている。一態様の要素および特徴が、さらなる具陳なしに他の態様に有益に組み込まれ得ることが企図される。

【0015】

[0025]本開示の態様は、機械学習モデルを実装することなど、データ集約的処理を扱うために、コンピューテーションインメモリ（ＣＩＭ）を実施するための装置、方法、処理システム、およびコンピュータ可読媒体を提供する。いくつかの態様は、加算回路を使用してデジタルＣＩＭを実施するための技法を提供し、各加算回路が、複数の計算サイクルの後に、メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算（たとえば、累算）する。本明細書で使用される「加算回路」は、概して、列上のメモリセルの出力信号を加算する（または連続計算サイクルにわたって累算する）任意の回路を指す。いくつかの場合には、加算回路は累算器であり得る。累算器は、概して、複数のサイクルにわたって出力信号を累算するために使用される回路を指す。他の場合には、加算回路は加算器ツリーであり得る。「加算器回路」または「加算器ツリー」は、概して、複数のメモリセル（たとえば、ワード線または列にわたるメモリセル）の出力信号を加算するために使用されるデジタル加算器を指す。加算器回路の例示的な一実装形態が、図５Ｂに関して本明細書で説明され、累算器の例示的な一実装形態が、図５Ｃに関して本明細書で説明される。加算回路は、複数の加算器回路を有する加算器ツリー、または累算器として実装され得る。いくつかの態様では、ＣＩＭ回路のワード線が連続的にアクティブ化され、ワード線のうちの２つまたはそれ以上が連続的にアクティブ化された後に、累算結果を提供するために、累算器が同時に累算を実施する。

【0016】

[0026]いくつかの態様は、計算のために使用される重みのビットサイズの構成可能性を可能にする、折り畳み（folding）アーキテクチャを提供する。たとえば、ＣＩＭアーキテクチャの（「ウイング（wing）」とも呼ばれる）１つまたは複数の処理経路が、使用されている重みのビットサイズを調整するために、無効にされ得る。たとえば、（たとえば、列、および関連する処理回路を含む）８つの処理経路が、８ビット重みを実装するために使用され得るか、または、４つの処理経路が、４ビット重みを実装するために使用され得る（他の４つの処理経路は一時的に無効にされる）。

【0017】

[0027]ＣＩＭベース機械学習（ＭＬ）／人工知能（ＡＩ）が、画像およびオーディオ処理と、（たとえば、スループットと信号品質とを最適化するか、または少なくとも増加させるために）ワイヤレス通信判定を行うこととを含む、多種多様なタスクのために使用され得る。さらに、ＣＩＭは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、（たとえば、図４に記載のＳＲＡＭセルに基づく）スタティックランダムアクセスメモリ（ＳＲＡＭ）、磁気抵抗ランダムアクセスメモリ（ＭＲＡＭ）、抵抗性ランダムアクセスメモリ（ＲｅＲＡＭまたはＲＲＡＭ（登録商標））など、様々なタイプのメモリアーキテクチャに基づき得、中央処理ユニット（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、グラフィックス処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ＡＩアクセラレータなどを含む、様々なタイプの処理ユニットに取り付けられ得る。概して、ＣＩＭは、有益には、「メモリウォール」問題を低減し得、これは、メモリ中へのおよびメモリの中からのデータの移動が、データの計算よりも多くの電力を消費する場合である。したがって、コンピューテーションインメモリを実施することによって、著しい電力節約が実現され得る。これは、低電力エッジ処理デバイス、モバイルデバイスなど、様々なタイプの電子デバイスのために特に有用である。

【0018】

[0028]たとえば、モバイルデバイスが、データを記憶し、コンピュートインメモリ動作を実施するために構成されたメモリデバイスを含み得る。モバイルデバイスは、モバイルデバイスのカメラセンサーによって生成された画像データなど、モバイルデバイスによって生成されたデータに基づいて、ＭＬ／ＡＩ動作を実施するように構成され得る。したがって、モバイルデバイスのメモリコントローラユニット（ＭＣＵ）が、別のオンボードメモリ（たとえば、フラッシュまたはＲＡＭ）からメモリデバイスのＣＩＭアレイに重みをロードし、入力特徴バッファと出力（たとえば、出力アクティブ化）バッファとを割り振り得る。処理デバイスは、次いで、たとえば、入力バッファ中の層をロードし、ＣＩＭアレイにロードされた重みでその層を処理することによって、画像データの処理を開始し得る。この処理は、画像データの各層について繰り返され得、出力（たとえば、出力アクティブ化）は、出力バッファに記憶され、次いで、顔認識などのＭＬ／ＡＩタスクのためにモバイルデバイスによって使用され得る。
ニューラルネットワーク、深層ニューラルネットワーク、および深層学習に関する簡単な背景
[0029]ニューラルネットワークは、相互結合されたノードの層に編成される。概して、ノード（またはニューロン）は、計算が発生する場所である。たとえば、ノードは、入力データを、入力データを増幅するかまたは減衰させるかのいずれかである重み（または係数）のセットと組み合わせ得る。したがって、入力信号の増幅または減衰は、ネットワークが学習することを試みているタスクに関する様々な入力への相対的重要性の割当てと見なされ得る。概して、入力－重み積（input-weight product）が加算（または累算）され、次いで、その和はノードのアクティブ化関数を通過させられて、その信号がネットワークを通ってさらに進むべきであるかどうかと、どの程度までさらに進むべきであるかとを決定する。

【0019】

[0030]最も基本的な実装形態では、ニューラルネットワークは、入力層と、隠れ層と、出力層とを有し得る。「深層」ニューラルネットワークは、概して、２つ以上の隠れ層を有する。

【0020】

[0031]深層学習は、深層ニューラルネットワークをトレーニングする方法である。概して、深層学習は、ネットワークへの入力をネットワークからの出力にマッピングし、したがって、深層学習は、任意の入力ｘと任意の出力ｙとの間の未知関数ｆ（ｘ）＝ｙを近似するように学習することができるので、「万能近似器（universal approximator）」と呼ばれることがある。言い換えれば、深層学習は、ｘをｙに変換するための正しいｆを見つける。

【0021】

[0032]より詳細には、深層学習は、前の層からの出力である、特徴の別個のセットに基づいて、ノードの各層をトレーニングする。したがって、深層ニューラルネットワークの各連続層では、特徴はより複雑になる。したがって、深層学習は、各層において連続的により高い抽象レベルで入力を表すように学習し、それにより、入力データの有用な特徴表現を蓄積することによって、入力データからより高いレベルの特徴を漸進的に抽出し、オブジェクト認識などの複雑なタスクを実施することができるので、深層学習は強力である。

【0022】

[0033]たとえば、視覚データが提示された場合、深層ニューラルネットワークの第１の層が、エッジなど、入力データ中の比較的単純な特徴を認識するように学習し得る。別の例では、聴覚データが提示された場合、深層ニューラルネットワークの第１の層は、入力データ中の特定の周波数におけるスペクトル電力を認識するように学習し得る。次いで、深層ニューラルネットワークの第２の層は、第１の層の出力に基づいて、視覚データの場合の単純な形状、または聴覚データの場合の音の組合せなど、特徴の組合せを認識するように学習し得る。次いで、上位層は、視覚データ中の複雑な形状、または聴覚データ中の単語を認識するように学習し得る。さらに上位の層は、共通の視覚オブジェクトまたは発話フレーズを認識するように学習し得る。したがって、深層学習アーキテクチャは、自然階層構造を有する問題に適用されたとき、特にうまく機能し得る。
ニューラルネットワークにおける層結合性
[0034]深層ニューラルネットワーク（ＤＮＮ）などのニューラルネットワークは、層間の様々な結合性パターンを用いて設計され得る。

【0023】

[0035]図１Ａは、全結合ニューラルネットワーク１０２の一例を示す。全結合ニューラルネットワーク１０２では、第１の層における各ノードは、第２の層における各ノードが第１の層におけるあらゆるノードから入力を受信するように、それの出力を第２の層におけるあらゆるノードに通信する。

【0024】

[0036]図１Ｂは、局所結合ニューラルネットワーク１０４の一例を示す。局所結合ニューラルネットワーク１０４では、第１の層におけるノードは、第２の層における限られた数のノードに結合され得る。より一般的には、局所結合ニューラルネットワーク１０４の局所結合層は、層における各ノードが同じまたは同様の結合性パターンを有するように構成されるが、異なる値（たとえば、第１の層ノードの局所エリア１１０、１１２、１１４、および１１６に関連する値）を有し得る結合強度（または重み）で構成され得る。局所結合の結合性パターンは、所与の領域中の上位層ノードが、ネットワークへの総入力のうちの制限された部分のプロパティへのトレーニングを通して調節された入力を受信し得るので、上位層において空間的に別個の受容野を生じ得る。

【0025】

[0037]１つのタイプの局所結合ニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ）である。図１Ｃは、畳み込みニューラルネットワーク１０６の一例を示す。畳み込みニューラルネットワーク１０６は、（たとえば、第１の層ノードの別の局所エリアと重複する局所エリア１０８について）第２の層における各ノードのための入力に関連する結合強度が共有されるように構成され得る。畳み込みニューラルネットワークは、入力の空間ロケーションが有意味である問題に好適である。

【0026】

[0038]１つのタイプの畳み込みニューラルネットワークは、深層畳み込みネットワーク（ＤＣＮ）である。深層畳み込みネットワークは、複数の畳み込み層のネットワークであり、これは、たとえば、プーリング層および正規化層でさらに構成され得る。

【0027】

[0039]図１Ｄは、画像キャプチャデバイス１３０によって生成された画像１２６における視覚特徴を認識するように設計されたＤＣＮ１００の一例を示す。たとえば、画像キャプチャデバイス１３０が、車両中にまたは車両上に搭載された（またはさもなければ車両とともに移動する）カメラである場合、ＤＣＮ１００は、交通標識、さらには交通標識上の数を識別するように、様々な教師あり学習技法を用いてトレーニングされ得る。ＤＣＮ１００は、同様に、車線マーキングを識別すること、または交通信号を識別することなど、他のタスクのためにトレーニングされ得る。これらはほんのいくつかの例示的なタスクであり、多くの他のタスクが可能である。

【0028】

[0040]図１Ｄの例では、ＤＣＮ１００は、特徴抽出セクションと分類セクションとを含む。画像１２６を受信すると、畳み込み層１３２が、特徴マップ（または中間アクティブ化）１１８の第１のセットを生成するために、（たとえば、図２に示されており、図２で説明される）畳み込みカーネルを画像１２６に適用する。概して、「カーネル」または「フィルタ」は、入力データチャネルの異なる態様を強調するように設計された重みの多次元アレイを備える。様々な例では、「カーネル」と「フィルタ」とは、畳み込みニューラルネットワークにおいて適用される重みのセットを指すために互換的に使用され得る。

【0029】

[0041]次いで、特徴マップ１１８の第１のセットは、特徴マップ１２０の第２のセットを生成するために、プーリング層（たとえば、最大プーリング層、図示せず）によってサブサンプリングされ得る。プーリング層は、モデル性能を改善するために、情報の大部分を維持しながら、特徴マップ１１８の第１のセットのサイズを低減し得る。たとえば、特徴マップ１２０の第２のセットは、プーリング層によって２８×２８行列から１４×１４行列にダウンサンプリングされ得る。

【0030】

[0042]このプロセスは、多くの層を通して繰り返され得る。言い換えれば、特徴マップ１２０の第２のセットは、特徴マップの１つまたは複数の後続のセット（図示せず）を生成するために、１つまたは複数の後続の畳み込み層（図示せず）を介して、さらに畳み込まれ得る。

【0031】

[0043]図１Ｄの例では、特徴マップ１２０の第２のセットは、全結合層１２４に提供され、全結合層１２４は、出力特徴ベクトル１２８を生成する。出力特徴ベクトル１２８の各特徴は、「標識」、「６０」、および「１００」など、画像１２６の可能な特徴に対応する数を含み得る。いくつかの場合には、ソフトマックス関数（図示せず）が、出力特徴ベクトル１２８中の数を確率にコンバートし得る。そのような場合、ＤＣＮ１００の出力１２２は、画像１２６が１つまたは複数の特徴を含む確率である。

【0032】

[0044]ソフトマックス関数（図示せず）は、ＤＣＮ１００の出力１２２が、画像１２６が、画像１２６の場合のような数「６０」をその上に伴う標識など、１つまたは複数の特徴を含む、１つまたは複数の確率であるように、出力特徴ベクトル１２８の個々の要素を確率にコンバートし得る。したがって、本例では、「標識」および「６０」についての出力１２２における確率は、「３０」、「４０」、「５０」、「７０」、「８０」、「９０」、および「１００」など、出力１２２の他の要素の確率よりも高くなるべきである。

【0033】

[0045]ＤＣＮ１００をトレーニングする前に、ＤＣＮ１００によって作り出される出力１２２は、不正確であり得る。したがって、誤差が、出力１２２と、アプリオリに知られるターゲット出力との間で算出され得る。たとえば、ここでは、ターゲット出力は、画像１２６が「標識」と数「６０」とを含むという指示である。知られているターゲット出力を利用して、次いで、ＤＣＮ１００の重みは、ＤＣＮ１００の後続の出力１２２が（高い確率で）ターゲット出力を達成するように、トレーニングを通して調整され得る。

【0034】

[0046]ＤＣＮ１００の重みを調整するために、学習アルゴリズムは、重みのための勾配ベクトルを計算し得る。勾配ベクトルは、重みが特定の方法で調整された場合に、誤差が増加または減少する量を示し得る。次いで、重みは、誤差を低減するために調整され得る。重みを調整するこの様式は、この調整プロセスがＤＣＮ１００の層を通る「バックワードパス」を伴うので、「バックプロパゲーション」と呼ばれることがある。

【0035】

[0047]実際には、重みの誤差勾配は、算出された勾配が真の誤差勾配を近似するように、少数の例にわたって算出され得る。この近似方法は、確率的勾配降下（stochastic gradient descent）と呼ばれることがある。システム全体の達成可能な誤差レートが減少しなくなるまで、または誤差レートがターゲットレベルに達するまで、確率的勾配降下が繰り返され得る。

【0036】

[0048]トレーニングの後に、ＤＣＮ１００は新しい画像を提示され得、ＤＣＮ１００は、分類、または様々な特徴が新しい画像中にある確率など、推論を生成し得る。
畳み込みニューラルネットワークのための畳み込み技法
[0049]畳み込みは、概して、入力データセットから有用な特徴を抽出するために使用される。たとえば、上記で説明されたものなど、畳み込みニューラルネットワークでは、畳み込みは、その重みがトレーニング中に自動的に学習される、カーネルおよび／またはフィルタを使用して、異なる特徴の抽出を可能にする。次いで、抽出された特徴は、推論を行うために組み合わせられる。

【0037】

[0050]アクティブ化関数が、畳み込みニューラルネットワークの各層の前におよび／または後に適用され得る。アクティブ化関数は、概して、ニューラルネットワークのノードの出力を決定する数学関数である。したがって、アクティブ化関数は、ノードの入力がモデルの予測に関連があるかどうかに基づいて、ノードが情報をパスするべきであるか否かを決定する。ｙ＝ｃｏｎｖ（ｘ）である（すなわち、ｙはｘの畳み込みである）一例では、ｘとｙの両方が、概して、「アクティブ化」と見なされ得る。しかしながら、特定の畳み込み演算に関して、ｘが特定の畳み込みの前に存在するので、ｘは、「プリアクティブ化（pre-activation）」または「入力アクティブ化」と呼ばれることもあり、ｙは、出力アクティブ化または特徴マップと呼ばれることがある。

【0038】

[0051]図２は、１２ピクセル×１２ピクセル×３チャネルの入力画像が、５×５×３畳み込みカーネル２０４と、１のストライド（またはステップサイズ）とを使用して畳み込まれる、旧来の畳み込みの一例を示す。得られた特徴マップ２０６は、８ピクセル×８ピクセル×１チャネルである。この例に見られるように、旧来の畳み込みは、（ここでは、３チャネルから１チャネルへの）チャネル次元数を含む、出力データと比較した入力データの次元数を（ここでは、１２×１２ピクセルから８×８ピクセルに）変更し得る。

【0039】

[0052]畳み込み層を備えるニューラルネットワークに関連する、（たとえば、浮動小数点演算毎秒（ＦＬＯＰｓ）で測定される）計算負担およびパラメータの数を低減するための１つの方法は、畳み込み層を因子分解することである。たとえば、図２に示されているものなど、空間分離可能畳み込みは、２つの構成要素、すなわち、（１）各空間チャネルが深さ単位畳み込みによって独立して畳み込まれる、深さ単位畳み込み（たとえば、空間融合）と、（２）すべての空間チャネルが線形結合される、点単位畳み込み（pointwise convolution）（たとえば、チャネル融合）とに因子分解され得る。深さ単位分離可能畳み込みの一例が、図３Ａおよび図３Ｂに示されている。概して、空間融合中に、ネットワークは空間平面から特徴を学習し、チャネル融合中に、ネットワークは、チャネルにわたるこれらの特徴間の関係を学習する。

【0040】

[0053]一例では、深さ単位分離可能畳み込みは、空間融合のための５×５カーネルと、チャネル融合のための１×１カーネルとを使用して、実装され得る。特に、チャネル融合は、深さｄの入力画像中のあらゆる単一の点を通して反復する１×１×ｄカーネルを使用し得、ここで、カーネルの深さｄは、概して、入力画像のチャネルの数に一致する。点単位畳み込みを介したチャネル融合は、効率的な計算のための次元低減のために有用である。１×１×ｄカーネルを適用し、カーネルの後にアクティブ化層を加算することは、加算された深さをネットワークに与え得、これは、ネットワークの性能を増加させ得る。

【0041】

[0054]特に、図３Ａでは、１２ピクセル×１２ピクセル×３チャネルの入力画像３０２が、各々が５×５×１次元数を有する、３つの別個のカーネル３０４Ａ～３０４Ｃを備えるフィルタで畳み込まれて、８ピクセル×８ピクセル×３チャネルの特徴マップ３０６を生成し、ここで、各チャネルは、カーネル３０４Ａ～３０４Ｃの中の個々のカーネルによって生成される。

【0042】

[0055]次いで、特徴マップ３０６は、さらに、次元数１×１×３を有するカーネル３０８による点単位畳み込み演算を使用して畳み込まれて、８ピクセル×８ピクセル×１チャネルの特徴マップ３１０を生成する。この例に示されているように、特徴マップ３１０は次元数を低減しており（１チャネル対３チャネル）、これは、それとともに、より効率的な計算を可能にする。

【0043】

[0056]図３Ａおよび図３Ｂ中の深さ単位分離可能畳み込みの結果は、図２中の旧来の畳み込みと実質的に同様であるが、計算の数は著しく低減され、したがって、深さ単位分離可能畳み込みは、ネットワーク設計がそれを可能にする場合、著しい効率利得を与える。

【0044】

[0057]図３Ｂに示されていないが、複数の（たとえば、ｍ個の）点単位畳み込みカーネル３０８（たとえば、フィルタの個々の構成要素）が、畳み込み出力のチャネル次元数を増加させるために使用され得る。したがって、たとえば、ｍ＝２５６の１×１×３カーネル３０８が生成され得、各出力は、８ピクセル×８ピクセル×１チャネルの特徴マップ（たとえば、特徴マップ３１０）であり、これらの特徴マップは、積層されて、８ピクセル×８ピクセル×２５６チャネルの得られた特徴マップを得ることができる。チャネル次元数の得られた増加は、トレーニングのためのより多くのパラメータを提供し、これは、（たとえば、入力画像３０２における）特徴を識別する畳み込みニューラルネットワークの能力を改善し得る。
例示的なコンピュートインメモリ（ＣＩＭ）アーキテクチャ
[0058]図４は、ＣＩＭアレイ中で実装され得る、スタティックランダムアクセスメモリ（ＳＲＡＭ）の例示的なメモリセル４００を示す。メモリセル４００は、メモリセル４００が８つのトランジスタで実装されるので、８トランジスタ（８Ｔ）ＳＲＡＭセルと呼ばれることがある。

【0045】

[0059]図示のように、メモリセル４００は、出力４１４と出力４１６とを有する交差結合インバータペア４２４を含み得る。図示のように、交差結合インバータペア出力４１４は、パスゲートトランジスタ４０２を介して書込みビット線（ＷＢＬ）４０６に選択的に結合され、交差結合インバータペア出力４１６は、パスゲートトランジスタ４１８を介して相補型（complementary）書込みビット線（ＷＢＬＢ）４２０に選択的に結合される。ＷＢＬ４０６およびＷＢＬＢ４２０は、交差結合インバータペア４２４に書き込まれる（たとえば、記憶される）べき相補型デジタル信号を提供するように構成される。ＷＢＬおよびＷＢＬＢは、メモリセル４００に、ニューラルネットワーク重みのためのビットを記憶するために使用され得る。パスゲートトランジスタ４０２、４１８のゲートは、図示のように、書込みワード線（ＷＷＬ）４０４に結合され得る。たとえば、書き込まれるべきデジタル信号が、ＷＢＬに提供され得る（および、デジタル信号の補数が、ＷＢＬＢに提供される）。ここではｎ形電界効果トランジスタ（ＮＦＥＴ）として実装される、パスゲートトランジスタ４０２、４１８は、次いで、ＷＷＬ４０４に論理高信号を提供することによってオンにされ、デジタル信号が交差結合インバータペア４２４に記憶されることを生じる。

【0046】

[0060]図示のように、交差結合インバータペア出力４１４は、トランジスタ４１０のゲートに結合され得る。トランジスタ４１０のソースは、基準電位ノード（ＶＳＳまたは電気接地）に結合され得、トランジスタ４１０のドレインは、トランジスタ４１２のソースに結合され得る。トランジスタ４１２のドレインは、図示のように、読取りビット線（ＲＢＬ）４２２に結合され得る。トランジスタ４１２のゲートは、読取りワード線（ＲＷＬ）４０８を介して制御され得る。ＲＷＬ４０８は、アクティブ化入力信号を介して制御され得る。

【0047】

[0061]読取りサイクル中に、ＲＢＬ４２２は、論理高にプリチャージされ得る。アクティブ化入力と、交差結合インバータペア出力４１４において記憶された重みビットの両方が論理高である場合、トランジスタ４１０とトランジスタ４１２とは両方ともオンにされ、トランジスタ４１０のソースにおいてＲＢＬ４２２をＶＳＳに電気的に結合し、ＲＢＬ４２２を論理低に放電する。アクティブ化入力または交差結合インバータペア出力４１４において記憶された重みのいずれかが論理低である場合、トランジスタ４１０、４１２のうちの少なくとも１つがオフにされることになり、したがって、ＲＢＬ４２２は論理高のままである。したがって、ＲＢＬ４２２におけるメモリセル４００の出力は、重みビットとアクティブ化入力の両方が論理高であるときのみ、論理低であり、他の場合、論理高であり、事実上、ＮＡＮＤゲート動作を実装する。

【0048】

[0062]図５Ａは、本開示のいくつかの態様による、ＣＩＭのための回路５００を示す。回路５００は、（行とも呼ばれる）ワード線５０４₀～５０４₃₁と列５０６₀～５０６₇とを有するＣＩＭアレイ５０１を含む。ワード線５０４₀～５０４₃₁はワード線（ＷＬ）５０４と総称され、列５０６₀～５０６₇は列５０６と総称される。図示のように、ＣＩＭアレイ５０１は、ワード線５０４にアクティブ化信号を提供するように構成されたアクティブ化回路５９０を含み得る。ＣＩＭアレイ５０１は、理解を容易にするために３２個のワード線と８つの列とで実装されるが、ＣＩＭアレイは、任意の数のワード線または列で実装され得る。図示のように、（メモリセル５０２と総称される）メモリセル５０２_0-0～５０２_31-7は、ＷＬ５０４と列５０６との交差において実装される。

【0049】

[0063]メモリセル５０２の各々は、図４に関して説明されたメモリセルアーキテクチャを使用して実装され得る。図示のように、アクティブ化入力ａ（０，０）～ａ（３１，０）が、それぞれのワード線５０４に提供され得、メモリセル５０２は、ニューラルネットワーク重みｗ（０，０）～ｗ（３１，７）を記憶し得る。たとえば、メモリセル５０２_0-0～５０２_0-7は、重みビットｗ（０，０）～ｗ（０，７）を記憶し得、メモリセル５０２_1-0～５０２_1-7は、重みビットｗ（１，０）～ｗ（１，７）を記憶し得、以下同様である。各ワード線は、マルチビット重みを記憶し得る。たとえば、重みビットｗ（０，０）～ｗ（０，７）は、ニューラルネットワークの重みの８ビットを表す。

【0050】

[0064]図示のように、回路５００は、各々が列５０６のうちのそれぞれの１つについて実装される、（加算器ツリー５１０と総称される）加算器ツリー５１０₀～５１０₇を含み得る。加算器ツリー５１０の各々は、列５０６のうちのそれぞれの１つ上のメモリセル５０２からの出力信号を加算する。各加算器ツリーは、加算器回路５１１など、加算器回路のツリーを使用して実装される。加算器ツリー５１０の出力は、図示のように、重みシフト加算器ツリー回路５１２に結合される。重みシフト加算器ツリー回路５１２は、各々が、ビットシフトおよび加算演算（bit-shift and addition operation）の実施を容易にするためのビットシフトおよび加算回路を含む、複数の重みシフト加算器（たとえば、重みシフト加算器５１４）を含む。言い換えれば、列５０６₀上のメモリセルが、それぞれの重みについての最上位ビット（ＭＳＢ）を記憶し得、列５０６₇上のメモリセルが、それぞれの重みについての最下位ビット（ＬＳＢ）を記憶し得る。したがって、列５０６にわたる加算を実施するとき、関連する列上のビットの重要性を考慮するために、ビットをシフトするためのビットシフト演算が実施される。

【0051】

[0065]重みシフト加算器ツリー回路５１２の出力は、アクティブ化シフト累算器回路５１６に提供される。アクティブ化シフト累算器回路５１６は、ビットシフト回路５１８と累算器５２０とを含む。アクティブ化シフト累算器回路５１６は、フリップフロップ（ＦＦ）５２２とＦＦ５９１とをも含み得る。

【0052】

[0066]回路５００の動作中に、アクティブ化回路５９０が、第１のアクティブ化サイクル中の計算のために、メモリセル５０２にアクティブ化入力ａ（０，０）～ａ（３１，０）の第１のセット５９９を提供する。アクティブ化入力ａ（０，０）～ａ（３１，０）の第１のセットは、アクティブ化パラメータの最上位ビットを表す。各列上の計算の出力は、加算器ツリー５１０のうちのそれぞれの１つを使用して加算される。加算器ツリー５１０の出力は、重みシフト加算器ツリー回路５１２を使用して加算され、その結果は、アクティブ化シフト累算器に提供される。アクティブ化パラメータの第２の最上位ビットを表すアクティブ化入力ａ（０，１）～ａ（３１，１）など、後続のアクティブ化サイクル中のアクティブ化入力の他のセットについて、同じ動作が実施され、アクティブ化パラメータの最下位ビットを表すアクティブ化入力が処理されるまで、以下同様である。ビットシフト回路５１８は、アクティブ化サイクルに基づいてビットシフト演算を実施する。たとえば、８つのアクティブ化サイクルを使用して処理される８ビットアクティブ化パラメータの場合、ビットシフト回路は、第１のアクティブ化サイクルについて８ビットシフトを実施し、第２のアクティブ化サイクルについて７ビットシフトを実施し得、以下同様である。アクティブ化サイクルの後に、ビットシフト回路５１８の出力は、累算器５２０を使用して累算され、転送レジスタを実装していることがあるＦＦ５２２、５９１に記憶される。

【0053】

[0067]回路５００のアーキテクチャは、重みシフト加算器ツリー回路５１２など、処理回路の対称構造により、「折り畳み」アーキテクチャと呼ばれる。折り畳みアーキテクチャは、計算中に使用される重みに関連するビット数の構成可能性を可能にする。たとえば、８ビット重みを使用する計算の代わりに、本明細書でより詳細に説明されるように、４ビット重みを使用する計算が、列５０６のうちの４つを非アクティブ化（アクティブ化解除）することによって実装され得る。

【0054】

[0068]図５Ａに関して説明される態様は、ビット単位記憶とビット単位乗算とを提供する。加算器ツリー５１０は、列５０６についてのポピュレーションカウント加算を実施する。すなわち、加算器ツリー５１０の各々は、列についてのメモリセルの出力信号を加算する。（たとえば、８つの列について示されているように３つの段階を有する）重みシフト加算器ツリー回路５１２は、８つの列について生成された重み付き和を組み合わせる（たとえば、アクティブ化サイクル中の所与のアクティブ化ビット位置についての累算結果を提供する）。アクティブ化シフト累算器回路５１６は、複数の（たとえば、８つの）アクティブ化サイクルからの結果を組み合わせ、最終累算結果を出力する。たとえば、ビットシフト回路５１８は、関連するアクティブ化サイクルに基づいて、重みシフト加算器ツリー回路５１２の出力におけるビットをシフトする。直列累算器５２０は、ビットシフト回路５１８によって生成されたシフトされた加算器出力を累算する。ＦＦ５２２、５９１を使用して実装された転送レジスタは、最後のアクティブ化サイクルについての計算が完了した後に、直列累算器５２０の出力をコピーする。

【0055】

[0069]列にわたる並列加算は、回路５００に関連する（テラ演算毎秒（ＴＯＰＳ）換算での）処理性能を増加させ、よりコンパクトな全加算器セルを提供し、加算器がビット乗算メモリセルの隣に実装されるので、寄生ペナルティ（parasitic penalty）を低減し、従来の実装と比較して、メモリのより少数の行が、高いアクティブ化振幅を有するので、切替えアクティビティを低減し、加算器ツリーの実現のためにセルが当接構成において横並びで配置されることにより、容易なマクロ生成を可能にする容易なタイリングを提供する。図５Ａに関して説明される態様は、単一のクロック周波数で実装され得る。

【0056】

[0070]回路５００は、アクティブ化パラメータまたは重みパラメータの異なるビットサイズを使用する計算にわたる線形エネルギースケーリングを提供する。言い換えれば、加算器ツリー５１０と重みシフト加算器ツリー回路５１２とを使用することは、本明細書で説明されるように、ビットサイズ構成可能性を提供し、ｍビット重み累算を伴うｎビットアクティブ化を可能にし、ｎおよびｍは正の整数である。回路５００に関連するエネルギー消費は、アクティブ化パラメータと重みとについての構成されたビットサイズに基づいて線形的にスケーリングする。

【0057】

[0071]図５Ｂは、加算演算（add operation）を実施するように構成された加算器回路５８５の例示的な一実装形態を示す。加算器回路５８５は、加算器回路５１１など、本明細書で説明される加算器回路のいずれかに対応し得る。図示のように、加算器回路は、（ＡおよびＢと標示された）入力５７０、５７１を受信する排他的ＯＲ（ＸＯＲ）ゲート５７３を含む。ＸＯＲゲート５７３の出力は、ＸＯＲゲート５７４の入力に提供され、ＸＯＲゲート５７４の他方の入力は、桁上げ入力（Ｃｉｎ）信号５７２を受信する。ＸＯＲゲート５７４の出力は、加算器回路の（ＳＵＭと標示された）出力を提供する。図示のように、加算器回路は、Ｃｉｎ信号５７２を受信し、ＸＯＲゲート５７３の出力を受信するＡＮＤゲート５７５をも含み得る。ＡＮＤゲート５７６は、入力５７０、５７１を受信する。ＡＮＤゲート５７５、５７６の出力は、加算演算についての桁上げ出力信号（carry out signal）を生成するＯＲゲート５７８の入力に提供される。図５Ｂは、理解を容易にするために、加算器回路の１つの例示的な実装形態を示すが、本明細書で説明される態様は、任意の好適な加算器回路アーキテクチャを使用して実装され得る。

【0058】

[0072]図５Ｃは、累算器５８７の例示的な一実装形態である。累算器５８７は、累算器５２０など、本明細書で説明される累算器のいずれかに対応し得る。図示のように、累算器５２０は、図示のように、入力信号を受信する加算器回路５８０を含む。加算器回路５８０の出力は、レジスタ５８１に提供されるクロック信号の各サイクルにおいて加算器回路の出力を記憶するように構成されたレジスタに提供される。レジスタ５８１の出力５８２は、図示のように、累算器５８７の出力として使用され、加算器回路５８０の入力にフィードバックされる。図５Ｃは、理解を容易にするために、累算器の１つの例示的な実装形態を示すが、本明細書で説明される態様は、任意の好適な累算器アーキテクチャを使用して実装され得る。

【0059】

[0073]図６は、本開示のいくつかの態様による、ビット列加算器ツリー回路６５０と列累算器回路６５２とを使用して実装されたＣＩＭのための回路６００を示す。ビット列加算器ツリー回路６５０は、複数の列５０６に接続された複数のセンス増幅器６０２₀、６０２₁、～６０２₇の出力に結合された入力を有し、ここで、各列は複数のビット線（たとえば、ＲＢＬ）を有する。たとえば、列５０６の各々が４つのビット線を有し得、各ビット線は、４つのセンス増幅器（たとえば、センス増幅器６０２₀）のうちの１つの入力に結合される。ＣＩＭアレイ５０１のワード線は、複数のワード線グループ（たとえば、８つのグループ）を含み得、各グループは４つのワード線を有する。４つのワード線の各グループの各ワード線は、各列上の４つのビット線のうちのそれぞれの１つに結合される。４つのワード線の各グループは、所与の計算サイクルにおいて、対応するアクティブ化信号によってアクティブになり、残りのワード線グループのアクティブ化信号は、論理低に設定される。ワード線グループ（たとえば、この例における合計３２個のワード線についての８つのワード線グループ）は、合計８つのクロックサイクルにおいて処理される。センス増幅器６０２₀、６０２₁、～６０２₇は、センス増幅器６０２と総称される。列５０６の各々について複数のセンス増幅器（たとえば、４つ）が含まれ、複数の列が同時に検知されることを可能にする。たとえば、センス増幅器６０２₀は、列５０６₀上のそれぞれのメモリセル５０２_0-0～５０２_3-0の出力を同時に検知し、センス増幅器６０２₁は、列５０６₁上のそれぞれのメモリセル５０２_0-1～５０２_3-1の出力を同時に検知し、列５０６₇上のそれぞれのメモリセル５０２_0-7～５０２_3-7の出力を同時に検知するセンス増幅器６０２₇まで、以下同様である。各列についてのセンス増幅器の出力は、加算器ツリー（たとえば、加算器ツリー６０４と総称される、加算器ツリー６０４₀、６０４₁、～６０４₇）に結合される。加算器ツリー６０４の各々を実装するために使用される加算器回路の各々は、図５Ｂに関して説明されたように実装され得る。

【0060】

[0074]簡単のために、センス増幅器６０２の各々は、単一のメモリセルの出力に結合された入力を有するものとして示されている。しかしながら、センス増幅器６０２の各々の入力は、連続様式でアクティブ化され得る、複数のメモリセルの出力に結合され得る。言い換えれば、各列について４つのセンス増幅器がある場合、４つのワード線が、各列上で一度にアクティブ化され得る。一例として、センス増幅器６０２₀の入力は、図示のようにワード線の第１のグループ（たとえば、ワード線５０４₀～５０４₃）についてのそれぞれのメモリセルの出力に結合されるが、また、ワード線の第２のグループ（たとえば、ワード線５０４₄～５０４₇）についてのそれぞれのメモリセルの出力に結合され、ワード線の第３のグループ（たとえば、ワード線５０４₈～５０４₁₁）についてのそれぞれのメモリセルの出力に結合され、ワード線の最後のグループ（たとえば、ワード線５０４₂₈～５０４₃₁）まで以下同様であり得る。したがって、３２個のワード線および列ごとの４つのセンス増幅器について、８つの計算サイクルが、アクティブ化入力のセット（たとえば、アクティブ化入力ａ（０，０）～ａ（３１，０））についての計算を完了するために使用され得る。

【0061】

[0075]説明されるように、加算器ツリー６０４の出力は、列累算器回路６５２に結合される。たとえば、加算器ツリー６０４の各々の出力は、列累算器回路６５２の（累算器６０６と総称される）累算器６０６₀、６０６₁、～６０６₇のうちの１つに結合される。累算器６０６の各々は、図５Ｃに関して説明されたように実装され得る。累算器６０６の各々は、複数の計算サイクルにわたる、加算器ツリー６０４のうちのそれぞれの１つの出力信号の累算を実施する。たとえば、各計算サイクル中に、４つのワード線について計算が実施され、４つのワード線についての計算の出力信号が、ビット列加算器ツリー回路６５０の加算器ツリー６０４を使用して加算される。複数の計算サイクル（たとえば、４つのセンス増幅器を使用するときの３２個のワード線についての８つのサイクル）の後に、累算器６０６の各々は、加算器ツリー６０４のうちのそれぞれの１つの出力信号の累算を実施する。

【0062】

[0076]複数の計算サイクルが完了すると、図５Ａに関して説明されたように、累算器６０６の出力は、列にわたる加算のために、重みシフト加算器ツリー回路５１２に提供され、重みシフト加算器ツリー回路５１２の出力は、アクティブ化サイクルにわたる累算のために、アクティブ化シフト累算器回路５１６に提供される。言い換えれば、ビット単位累算が、複数の計算サイクル（たとえば、８つの計算サイクル、各計算サイクルは、３２個のワード線についての計算が完了するまで、４つのワード線についてのものである）にわたって、累算器６０６の各々において行われる。重みシフト加算器ツリー回路５１２は、８つの列の重み付き和を組み合わせ（たとえば、各アクティブ化サイクル中の所与のアクティブ化ビット位置についての累算結果を提供し）、アクティブ化シフト累算器回路５１６は、複数の（たとえば、８つの）アクティブ化サイクルからの結果を組み合わせて、最終累算結果を出力する。いくつかの態様では、ＣＩＭアレイ５０１、ビット列加算器ツリー回路６５０、および列累算器回路６５２は、重みシフト加算器ツリー回路５１２およびアクティブ化シフト累算器回路５１６よりも（たとえば、８つの計算サイクルを使用して実装されたときの８倍、または依然として８つの計算サイクルを使用しながら臨界経路遅延（critical path delay）の限界によって決定された８倍未満）高い周波数において動作する。図示のように、（ハーフラッチ回路６０８と総称される）ハーフラッチ回路６０８₀、６０８₁、～６０８₇が、累算器６０６のそれぞれの出力に結合され得る。各ハーフラッチ回路は、累算器６０６のうちのそれぞれの１つの出力を保持し、複数の計算サイクルが完了すると、重みシフト加算器ツリー回路５１２のそれぞれの入力に出力を提供する。言い換えれば、ハーフラッチ回路は、概して、クロックサイクルの始めにデジタル入力（たとえば、累算器６０６のうちの１つの出力）を保持し、クロックサイクルの終わりにラッチ回路の出力にデジタル入力を提供する、ラッチ回路を指す。ハーフラッチ回路６０８は、（たとえば、図示のように８×における）列累算器回路６５２のより高い周波数動作から、（たとえば、図示のように１×における）重みシフト加算器ツリー回路５１２のより低い周波数動作への遷移を容易にする。

【0063】

[0077]図７は、本開示のいくつかの態様による、回路６００に関連する信号を示すタイミング図７００である。回路６００は、デジタルコンピュートインメモリ（ＤＣＩＭ：digital compute in memory）クロック上で動作し得る。ＤＣＩＭクロックは、回路５００、６００が動作するメインクロックとして使用され得る。ＤＣＩＭクロックの８つのサイクルの後に、最終累算出力が、８ビットアクティブ化入力との重みの乗算について提供され得る。図示のように、ローカルクロックと呼ばれる、より高い周波数クロック信号が、より低い周波数のＤＣＩＭクロックから生成され得る。たとえば、ローカルクロックは、ＤＣＩＭクロックの周波数よりも８倍大きい周波数を有し得る。

【0064】

[0078]図示のように、アクティブ化入力の各々の１ビットが、ＤＣＩＭクロックの８つのサイクルの各々中に提供される。たとえば、ビットａ（０，０）～ａ（３１，０）（たとえば、異なるアクティブ化入力のＭＳＢ）が、第１のアクティブ化サイクル（たとえば、ＤＣＩＭクロックの第１のサイクル）中にメモリセルに提供され、ビットａ（０，１）～ａ（３１，１）（たとえば、異なるアクティブ化入力の第２のＭＳＢ（ＭＳＢ－１））が、第２のアクティブ化サイクル（たとえば、ＤＣＩＭクロックの第２のサイクル）中にメモリセルに提供され、以下同様である。

【0065】

[0079]ローカルクロックの各サイクル中に、（「ＳＡＯｕｔ」と標示された）センス増幅器６０２の出力と、（「ＣｏｌＡｄｄＯｕｔ」と標示された）加算器ツリー６０４の出力とが、計算サイクルについて提供される。ローカルクロックの各サイクル中に、ＳＡＯｕｔおよびＣｏｌＡｄｄＯｕｔは、ワード線５０４のサブセットのメモリセルについて（たとえば、図６に関して説明された例における４つのワード線について）出力を提供する。たとえば、ローカルクロックの第１のサイクル中に、加算器ツリー６０４₀についてのＣｏｌＡｄｄＯｕｔがメモリセル５０２_0-0～５０２_3-0によって実施された計算について提供され、ローカルクロックの第２のサイクル中に、ＣｏｌＡｄｄＯｕｔがメモリセル５０２_4-0～５０２_7-0によって実施された計算について提供され、（ここでは、ローカルクロックの８つのサイクルの後に）ＣｏｌＡｄｄＯｕｔがメモリセル５０２_28-0～５０２_31-0によって実施された計算について提供されるまで、以下同様である。

【0066】

[0080]図示のように、列累算器回路６５２の（「ＣｏｌＡｃｃＬａｔｃｈ」と標示された）出力と、重みシフト加算器ツリー回路５１２の（「ＷｅｉｇｈｔＳｈｉｆｔＡｄｄＯｕｔ」と標示された）出力とが、８つのローカルクロックサイクルの後に（たとえば、単一のＤＣＩＭクロックサイクルの後に）提供される。アクティブ化シフト累算器回路５１６は、８つのＤＣＩＭクロックサイクルにわたってＷｅｉｇｈｔＳｈｉｆｔＡｄｄＯｕｔを累算し、８つのＤＣＩＭクロックサイクルの終わりに（「ＡｃｃＯｕｔ」と標示された）出力を提供する。

【0067】

[0081]いくつかの態様では、アクティブ化入力および／または重みに関連するビット数は、構成可能であり得る。ビット列加算器ツリー回路６５０は、単一のビットまで、重みについてのビット数の構成可能性を可能にする。たとえば、４ビット重みを実装するために、本明細書でより詳細に説明されるように、列５０６₄、５０６₅、５０６₆、５０６₇に関連する回路が非アクティブ化され得る。

【0068】

[0082]図８Ａ、図８Ｂ、および図８Ｃは、本開示のいくつかの態様による、重みの構成可能なビットサイズをもつＣＩＭ回路を示すブロック図である。たとえば、図８Ａに示されているように、８ビット重みが、メモリセル５０２に記憶され、本明細書で説明されるように、ビット列加算器ツリー回路６５０、列累算器回路６５２、重みシフト加算器ツリー回路５１２、およびアクティブ化シフト累算器回路５１６を使用して処理され得る。

【0069】

[0083]図示のように、クロック生成器回路８７０が、ＤＣＩＭクロックを生成するように構成されたクロック生成器８７１を含み得る。クロック生成器８７１は、位相ロックループ（ＰＬＬ）またはリング発振器など、任意の好適なクロック生成回路を使用して実装され得る。重みシフト加算器ツリー回路５１２は、図７に関して説明されたＤＣＩＭクロック上で受信および動作し得る。いくつかの態様では、クロック生成器回路８７０は、ローカルクロックを生成するために使用され得る周波数逓倍器（frequency multiplier）８０２を含み得、そのローカルクロックに基づいて、アクティブ化回路５９０、ビット列加算器ツリー回路６５０、および列累算器回路６５２が動作する。周波数逓倍器８０２はクロック生成器回路８７０の一部であるものとして示されているが、周波数逓倍器８０２は、いくつかの実装形態では、クロック生成器８７１とは別個であり得る。周波数逓倍器は、概して、第１の周波数を有するクロック信号を受信し、第２の異なる周波数を有する第２のクロック信号を生成する、任意の回路を指し、ここで、第２の周波数は第１の周波数の倍数である。

【0070】

[0084]いくつかの態様は、図８Ｂおよび図８Ｃに関して説明されるように、ウイング直列演算（wing-serial operation）を使用する計算技法を提供する。ＣＩＭ回路の場合、本明細書で使用される「ウイング直列演算」は、概して、あるウイング（ＣＩＭ回路のある処理経路）上で演算し、次いで、別のウイング（ＣＩＭ回路の別の処理経路）上で演算することを指す。たとえば、４ビット重みが、第１の４ビット重み計算を実施するために使用されるべき４つの列のセット（たとえば、列５０６₄、５０６₅、５０６₆、５０６₇）上のメモリセルに記憶され得、４ビット重みが、第２の４ビット重み計算を実施するために使用されるべき４つの列の別のセット（たとえば、列５０６₀、５０６₁、５０６₂、５０６₃）上のメモリセルに記憶され得る。４つの列の２つのセットは、独立セットであり得る。提供された例では、４ビット重み計算が列５０６₀、５０６₁、５０６₂、５０６₃について実施される前に、４ビット重み計算は、列５０６₄、５０６₅、５０６₆、５０６₇について実施されるが、その計算は逆順で実施され得る。たとえば、４ビット重み計算が列５０６₄、５０６₅、５０６₆、５０６₇について実施される前に、４ビット重み計算は、列５０６₀、５０６₁、５０６₂、５０６₃について実施され得る。

【0071】

[0085]図８Ｂは、第１の４ビット重み計算がその間に実施される第１のサイクルを示す。第１のサイクル中に、列５０６₄、５０６₅、５０６₆、５０６₇についての処理信号のために使用される、ビット列加算器ツリー回路６５０と列累算器回路６５２との回路が、非アクティブ化される。たとえば、クロックゲーティング回路８０４が、電力消費を低減するために、第１のサイクル中に、累算器６０６₄、６０６₅、６０６₆、６０６₇に提供されるクロックを非アクティブ化するために使用され得る。本明細書で使用されるクロックゲーティング回路は、概して、クロック信号を受信し（たとえば、第１の入力を有するＡＮＤゲートがクロック信号を受信する）、制御信号に応答して回路の出力にクロック信号を提供する（たとえば、ＡＮＤゲートの第２の入力に提供された制御信号が論理高である）、任意の回路を指す。第１のサイクルの終わりに、アクティブ化シフト累算器回路５１６は、第１の４ビット重み計算についての結果を提供する。

【0072】

[0086]図８Ｃは、第２の４ビット重み計算がその間に実施される第２のサイクルを示す。第２のサイクル中に、列５０６₀、５０６₁、５０６₂、５０６₃についての処理信号のために使用される、ビット列加算器ツリー回路６５０と列累算器回路６５２との回路が、非アクティブ化される。たとえば、クロックゲーティング回路８０４が、電力消費を低減するために、第２のサイクル中に、累算器６０６₀、６０６₁、６０６₂、６０６₃に提供されるクロックを非アクティブ化するために使用され得る。クロックゲーティング技法は、理解を容易にするために、列累算器回路６５２へのクロック信号について示されているにすぎないが、クロックゲーティング技法は、ビット列加算器ツリーの回路など、未使用である他の回路へのクロック信号を非アクティブ化するために使用され得る。
デジタルコンピューテーションインメモリ（ＣＩＭ）のための例示的な動作
[0087]図９は、本開示のいくつかの態様による、インメモリ計算のための例示的な動作９００を示す流れ図である。動作９００は、図５Ａに関して説明された回路５００または図６に関して説明された回路６００など、ＣＩＭのための回路によって実施され得る。

【0073】

[0088]動作９００は、ブロック９０５において、回路が、複数の加算回路（たとえば、加算器ツリー５１０または累算器６０６）の各々を介して、メモリの複数の列（たとえば、列５０６）のうちのそれぞれの１つ上の出力信号を加算することによって始まる。複数のメモリセルは、複数の列の各々上にあり、複数のメモリセルは、ニューラルネットワークの重み（たとえば、図５Ａに示されているｗ（０，０）～ｗ（３１，７））を表す複数のビットを記憶する。複数の列の各々上の複数のメモリセルは、メモリの異なるワード線（たとえば、ワード線５０４）上にある。

【0074】

[0089]ブロック９１０において、回路は、第１の加算器回路（たとえば、重みシフト加算器ツリー回路５１２）を介して、複数の加算回路のうちの少なくとも２つの出力信号を加算する。ブロック９１５において、回路は、累算器（たとえば、累算器５２０またはアクティブ化シフト累算器回路５１６）を介して、第１の加算器回路の出力信号を累算する。いくつかの態様では、回路は、重みの各々に関連するビット数に基づいて、第１の加算器回路の１つまたは複数の部分、および／または複数の加算回路のうちの１つまたは複数を選択的に無効（disable）にする。

【0075】

[0090]いくつかの態様では、複数の列のうちのそれぞれの１つ上の出力信号を加算することは、（複数の）ワード線のうちの２つまたはそれ以上が連続的にアクティブ化された後に、（たとえば、累算器６０６を介して）複数の列のうちのそれぞれの１つ上のメモリセルの出力信号を累算することを含み得る。いくつかの態様では、回路は、複数の加算回路の各々と複数の列のうちのそれぞれの１つとの間に結合された第２の加算器回路（たとえば、加算器ツリー６０４の各々）を介して、複数の列のうちのそれぞれの１つとワード線のうちの２つまたはそれ以上との上にあるメモリセルの出力信号を加算する。いくつかの態様では、回路は、第２の加算器回路と複数の列のうちのそれぞれの１つとの間に結合されたセンス増幅器（たとえば、センス増幅器６０２）を介して、複数の列のうちのそれぞれの１つとワード線のうちの２つまたはそれ以上との上にあるメモリセルの出力信号を検知する。この場合、第２の加算器回路を介して加算することは、検知された出力信号に基づく。

【0076】

[0091]いくつかの態様では、回路は、第１の計算サイクル中に、第１の加算器回路の第１の部分および／または加算回路のうちの少なくとも１つを無効にし、第２の計算サイクル中に、第１の加算器回路の第２の部分と加算回路のうちの少なくとも別の１つとを無効にする。

【0077】

[0092]いくつかの態様では、回路は、ワード線のうちの２つまたはそれ以上を連続的にアクティブ化する。この場合、複数の加算回路の各々を介して、複数の列のうちのそれぞれの１つ上の出力信号を加算することは、ワード線のうちの２つまたはそれ以上が連続的にアクティブ化された後に、複数の加算回路（たとえば、累算器６０６）の各々を介して、複数の列のうちのそれぞれの１つ上のメモリセルの出力信号を累算することを含む。

【0078】

[0093]いくつかの態様では、複数の加算回路のうちの少なくとも２つの出力信号の加算は、複数の加算回路のうちの少なくとも２つ上でビットシフトおよび加算演算を実施することを含む。いくつかの態様では、回路は、第１のクロック信号を生成し、ここで、複数の加算回路は、第１のクロック信号（たとえば、図７に示されているローカルクロック）に基づいて動作し、回路は、第２のクロック信号を生成し、ここで、第１の加算器回路は、第２のクロック信号（たとえば、図７に示されているＤＣＩＭクロック）に基づいて動作し、第２のクロック信号は、第１のクロック信号とは異なる周波数を有する。いくつかの態様では、回路は、周波数逓倍器（たとえば、周波数逓倍器８０２）を介して、第１のクロック信号に基づいて第２のクロック信号を生成する。

【0079】

[0094]いくつかの態様では、回路は、異なるアクティブ化入力に基づいて複数のメモリセルを連続的にアクティブ化し、第１の加算器回路の出力信号の累算は、複数のメモリセルが連続的にアクティブ化された後に行われる。たとえば、複数のメモリセルを連続的にアクティブ化することは、第１のアクティブ化サイクル中にアクティブ化入力の第１のセット（たとえば、アクティブ化入力ａ（０，０）～ａ（３１，０））を受信することと、第２のアクティブ化サイクル中にアクティブ化入力の第２のセット（たとえば、アクティブ化入力ａ（０，１）～ａ（３１，１））を受信することとを含み得、ここで、第１の加算器回路の出力信号を累算することは、第１のアクティブ化サイクルおよび第２のアクティブ化サイクルの後に行われる。

【0080】

[0095]いくつかの態様では、複数の列は、複数の列の第１のサブセット（たとえば、列５０６₀～５０６₃）と、複数の列の第２のサブセット（たとえば、列５０６₄～５０６₇）とを含む。第１のサブセットは、第１の計算サイクル（たとえば、図８Ｂに示されているサイクル１）中にアクティブ化され得る。第２のサブセットは、第２の計算サイクル（たとえば、図８Ｃに示されているサイクル２）中にアクティブ化され得、第２の計算サイクルは、第１の計算サイクルの後にある。

【0081】

[0096]いくつかの態様では、ワード線の各々上のメモリセルは、ニューラルネットワークの重みのうちの１つを記憶するように構成され、複数の列の第１のサブセットの量（たとえば、図８Ｂに示されている例における４つ）は、重みのうちの１つのビットの量に関連する。いくつかの態様では、回路は、クロックゲーティング回路（たとえば、クロックゲーティング回路８０４）を介して、複数の列の第２のサブセットからの信号を処理することに関連するクロック信号を非アクティブ化する。
コンピューテーションインメモリのための例示的な処理システム
[0097]図１０は、例示的な電子デバイス１０００を示す。電子デバイス１０００は、図９に関して説明された動作９００を含む、本明細書で説明される方法を実施するように構成され得る。

【0082】

[0098]電子デバイス１０００は、いくつかの態様ではマルチコアＣＰＵであり得る、中央処理ユニット（ＣＰＵ）１００２を含む。ＣＰＵ１００２において実行される命令が、たとえば、ＣＰＵ１００２に関連するプログラムメモリからロードされ得るか、またはメモリ１０２４からロードされ得る。

【0083】

[0099]電子デバイス１０００は、グラフィックス処理ユニット（ＧＰＵ）１００４、デジタル信号プロセッサ（ＤＳＰ）１００６、ニューラル処理ユニット（ＮＰＵ）１００８、マルチメディア処理ブロック１０１０、マルチメディア処理ブロック１０１０、およびワイヤレス接続性処理ブロック１０１２など、特定の機能に適合された追加の処理ブロックをも含む。一実装形態では、ＮＰＵ１００８は、ＣＰＵ１００２、ＧＰＵ１００４、および／またはＤＳＰ１００６のうちの１つまたは複数において実装され得る。

【0084】

[0100]いくつかの態様では、ワイヤレス接続性処理ブロック１０１２は、たとえば、第３世代（３Ｇ）接続性、第４世代（４Ｇ）接続性（たとえば、４ＧＬＴＥ（登録商標））、第５世代接続性（たとえば、５ＧまたはＮＲ）、Ｗｉ－Ｆｉ（登録商標）接続性、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続性、およびワイヤレスデータ送信規格のための、構成要素を含み得る。ワイヤレス接続性処理ブロック１０１２は、ワイヤレス通信を容易にするために、１つまたは複数のアンテナ１０１４にさらに接続される。

【0085】

[0101]電子デバイス１０００は、センサーの任意の様式に関連する１つまたは複数のセンサープロセッサ１０１６、画像センサーの任意の様式に関連する１つまたは複数の画像信号プロセッサ（ＩＳＰ）１０１８、および／またはナビゲーションプロセッサ１０２０をも含み得、ナビゲーションプロセッサ１０２０は、衛星ベース測位システム構成要素（たとえば、ＧＰＳまたはＧＬＯＮＡＳＳ）ならびに慣性測位システム構成要素を含み得る。

【0086】

[0102]電子デバイス１０００は、スクリーン、（タッチセンシティブディスプレイを含む）タッチセンシティブ表面、物理ボタン、スピーカー、マイクロフォンなど、１つまたは複数の入力および／または出力デバイス１０２２をも含み得る。いくつかの態様では、電子デバイス１０００のプロセッサのうちの１つまたは複数は、ＡＲＭ命令セットに基づき得る。

【0087】

[0103]電子デバイス１０００は、ダイナミックランダムアクセスメモリ、フラッシュベーススタティックメモリなど、１つまたは複数のスタティックメモリおよび／またはダイナミックメモリを表す、メモリ１０２４をも含む。この例では、メモリ１０２４は、電子デバイス１０００の上述のプロセッサまたは（制御回路とも呼ばれる）ＣＩＭコントローラ１０３２のうちの１つまたは複数によって実行され得る、コンピュータ実行可能構成要素を含む。たとえば、電子デバイス１０００は、本明細書で説明されるように、回路５００など、ＣＩＭ回路１０２６を含み得る。ＣＩＭ回路１０２６は、ＣＩＭコントローラ１０３２を介して制御され得る。たとえば、いくつかの態様では、メモリ１０２４は、記憶する（たとえば、メモリセルに重みを記憶する）ためのコード１０２４Ａと、計算する（たとえば、アクティブ化入力を適用することによってニューラルネットワーク計算を実施する）ためのコード１０２４Ｂとを含み得る。図示のように、ＣＩＭコントローラ１０３２は、記憶する（たとえば、メモリセルに重みを記憶する）ための回路１０２８Ａと、計算する（たとえば、アクティブ化入力を適用することによってニューラルネットワーク計算を実施する）ための回路１０２８Ｂとを含み得る。示された構成要素、および他の示されない構成要素は、本明細書で説明される方法の様々な態様を実施するように構成され得る。

【0088】

[0104]電子デバイス１０００がサーバデバイスである場合など、いくつかの態様では、マルチメディア処理ブロック１０１０、ワイヤレス接続性処理ブロック１０１２、アンテナ１０１４、センサープロセッサ１０１６、ＩＳＰ１０１８、またはナビゲーションプロセッサ１０２０のうちの１つまたは複数など、様々な態様が、図１０に示された例から省略され得る。
例示的な条項
[0105]条項１．メモリの複数の列の各々上の複数のメモリセルと、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶するように構成され、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある、各々が複数の列のうちのそれぞれの１つに結合された、複数の加算回路と、複数の加算回路のうちの少なくとも２つの出力に結合された第１の加算器回路と、第１の加算器回路の出力に結合された累算器とを備える、インメモリ計算のための回路。

【0089】

[0106]条項２．第１の加算器回路の１つまたは複数の部分が、選択的に無効にされるように構成された、条項１に記載の回路。

【0090】

[0107]条項３．複数の加算回路の各々が、複数の列のうちのそれぞれの１つ上の複数のメモリセルに結合された加算器ツリーを備える、条項１～２のいずれか１つに記載の回路。

【0091】

[0108]条項４．複数の加算回路の各々が、別の累算器を備える、条項１～３のいずれか１つに記載の回路。

【0092】

[0109]条項５．第１の加算器回路の第１の部分が、第１の計算サイクル中に選択的に無効にされるように構成され、第１の加算器回路の第２の部分が、第２の計算サイクル中に選択的に無効にされるように構成された、条項１～４のいずれか１つに記載の回路。

【0093】

[0110]条項６．複数の加算回路の各々と複数の列のうちのそれぞれの１つとの間に結合された第２の加算器回路をさらに備える、条項１～５のいずれか１つに記載の回路。

【0094】

[0111]条項７．第２の加算器回路が、ワード線のうちの２つまたはそれ以上に結合された加算器ツリーを備える、条項６に記載の回路。

【0095】

[0112]条項８．加算器ツリーが、複数の列のうちのそれぞれの１つとワード線のうちの２つまたはそれ以上との上にあるメモリセルの出力信号を加算するように構成された、条項７に記載の回路。

【0096】

[0113]条項９．第２の加算器回路と複数の列のうちのそれぞれの１つとの間の結合されたセンス増幅器をさらに備える、条項６に記載の回路。

【0097】

[0114]条項１０．第１の加算器回路が、複数の加算回路のうちの少なくとも２つの出力信号を加算するように構成された加算器ツリーを備える、条項１～９のいずれか１つに記載の回路。

【0098】

[0115]条項１１．加算器ツリーの１つまたは複数の加算器が、ビットシフトおよび加算回路を備える、条項１０に記載の回路。

【0099】

[0116]条項１２．第１のクロック信号を出力するように構成された第１の出力を有し、第２のクロック信号を出力するように構成された第２の出力を有する、クロック生成器回路をさらに備え、ここにおいて、複数の加算回路が、クロック生成器の第１の出力に結合され、第１のクロック信号に基づいて動作するように構成され、第１の加算器回路が、クロック生成器の第２の出力に結合され、第２のクロック信号に基づいて動作するように構成され、第２のクロック信号が、第１のクロック信号とは異なる周波数を有する、条項１～１１のいずれか１つに記載の回路。

【0100】

[0117]条項１３．クロック生成器回路が、第１のクロック信号に基づいて第２のクロック信号を生成するように構成された周波数逓倍器を備える、条項１２に記載の回路。

【0101】

[0118]条項１４．複数のハーフラッチ回路をさらに備え、各ハーフラッチ回路が、第１の加算器回路と複数の加算回路のうちの１つとの間に結合される、条項１～１３のいずれか１つに記載の回路。

【0102】

[0119]条項１５．複数のメモリセルが、異なるアクティブ化入力に基づいて連続的にアクティブ化されるように構成され、累算器は、複数のメモリセルが連続的にアクティブ化された後に、第１の加算器回路の出力信号を累算するように構成された、条項１～１４のいずれか１つに記載の回路。

【0103】

[0120]条項１６．累算器が、第１の加算器回路の出力に結合された唯一の累算器である、条項１～１５のいずれか１つに記載の回路。

【0104】

[0121]条項１７．複数の列が、複数の列の第１のサブセットと複数の列の第２のサブセットとを備え、第１のサブセットが、第１の計算サイクル中にアクティブ化される、条項１～１６のいずれか１つに記載の回路。

【0105】

[0122]条項１８．第２のサブセットが、第２の計算サイクル中にアクティブ化され、第２の計算サイクルが、第１の計算サイクルの後にある、条項１７に記載の回路。

【0106】

[0123]条項１９．ワード線の各々上のメモリセルのうちの少なくともいくつかが、ニューラルネットワークの重みのうちの１つを記憶するように構成され、複数の列の第１のサブセットの量が、重みのうちの１つのビットの量に関連する、条項１７～１８のいずれか１つに記載の回路。

【0107】

[0124]条項２０．複数の加算回路に結合された出力を有し、複数の列の第２のサブセットからの信号を処理することに関連するクロック信号を非アクティブ化するように構成された、クロックゲーティング回路をさらに備える、条項１７～１９のいずれか１つに記載の回路。

【0108】

[0125]条項２１．複数の加算回路の各々を介して、メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算することと、ここにおいて、複数のメモリセルが、複数の列の各々上にあり、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶し、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある、第１の加算器回路を介して、複数の加算回路のうちの少なくとも２つの出力信号を加算することと、累算器を介して、第１の加算器回路の出力信号を累算することとを備える、インメモリ計算のための方法。

【0109】

[0126]条項２２．重みの各々に関連するビット数に基づいて第１の加算器回路の１つまたは複数の部分を選択的に無効にすることをさらに備える、条項２１に記載の方法。

【0110】

[0127]条項２３．複数の列のうちのそれぞれの１つ上の出力信号を加算することは、ワード線のうちの２つまたはそれ以上が連続的にアクティブ化された後に、複数の列のうちのそれぞれの１つ上のメモリセルの出力信号を累算することを備える、条項２１～２２のいずれか１つに記載の方法。

【0111】

[0128]条項２４．複数の加算回路の各々と複数の列のうちのそれぞれの１つとの間に結合された第２の加算器回路を介して、複数の列のうちのそれぞれの１つとワード線のうちの２つまたはそれ以上との上にあるメモリセルの出力信号を加算することをさらに備える、条項２３に記載の方法。

【0112】

[0129]条項２５．第２の加算器回路と複数の列のうちのそれぞれの１つとの間に結合されたセンス増幅器を介して、複数の列のうちのそれぞれの１つとワード線のうちの２つまたはそれ以上との上にあるメモリセルの出力信号を検知することをさらに備え、ここにおいて、第２の加算器回路を介して加算することが、検知された出力信号に基づく、条項２４に記載の方法。

【0113】

[0130]条項２６．複数の加算回路のうちの少なくとも２つの出力信号を加算することが、複数の加算回路のうちの少なくとも２つ上でビットシフトおよび加算演算を実施することを備える、条項２１～２５のいずれか１つに記載の方法。

【0114】

[0131]条項２７．第１のクロック信号を生成することと、ここにおいて、複数の加算回路が、第１のクロック信号に基づいて動作する、第２のクロック信号を生成することと、ここにおいて、第１の加算器回路が、第２のクロック信号に基づいて動作し、第２のクロック信号が、第１のクロック信号とは異なる周波数を有する、をさらに備える、条項２１～２６のいずれか１つに記載の方法。

【0115】

[0132]条項２８．異なるアクティブ化入力に基づいて複数のメモリセルを連続的にアクティブ化することをさらに備え、ここにおいて、第１の加算器回路の出力信号を累算することは、複数のメモリセルが連続的にアクティブ化された後に行われる、条項２１～２７のいずれか１つに記載の方法。

【0116】

[0133]条項２９．複数のメモリセルを連続的にアクティブ化することは、第１のアクティブ化サイクル中にアクティブ化入力の第１のセットを受信することと、第２のアクティブ化サイクル中にアクティブ化入力の第２のセットを受信することと、ここにおいて、第１の加算器回路の出力信号を累算することが、第１のアクティブ化サイクルおよび第２のアクティブ化サイクルの後に行われる、を備える、条項２８に記載の方法。

【0117】

[0134]条項３０．メモリの複数の列のうちのそれぞれの１つ上の出力信号を加算するための第１の手段と、ここにおいて、複数のメモリセルが、複数の列の各々上にあり、複数のメモリセルが、ニューラルネットワークの重みを表す複数のビットを記憶し、ここにおいて、複数の列の各々上の複数のメモリセルが、メモリの異なるワード線上にある、加算するための第１の手段のうちの少なくとも２つの出力信号を加算するための第２の手段と、加算するための第２の手段の出力信号を累算するための手段とを備える、インメモリ計算のための装置。
追加の考慮事項
[0135]上記の説明は、当業者が本明細書で説明された様々な態様を実施することを可能にするために提供された。本明細書で説明される例は、特許請求の範囲に記載される範囲、適用可能性、または態様を限定するものではない。これらの態様への様々な修正は当業者には容易に明らかであり、本明細書で定義された一般原理は他の態様に適用され得る。たとえば、本開示の範囲から逸脱することなく、説明される要素の機能および構成において変更が行われ得る。様々な例は、適宜に、様々な手順または構成要素を、省略、置換、または追加し得る。たとえば、説明される方法は、説明される順序とは異なる順序で実施され得、様々なステップが追加、省略、または組み合わせられ得る。また、いくつかの例に関して説明される特徴は、いくつかの他の例において組み合わせられ得る。たとえば、本明細書に記載される態様をいくつ使用しても、装置は実装され得、または方法は実施され得る。さらに、本開示の範囲は、本明細書に記載される本開示の様々な態様に加えて、またはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。本明細書で開示される本開示のいずれの態様も、請求項の１つまたは複数の要素によって実施され得ることを理解されたい。

【0118】

[0136]本明細書で使用される「例示的」という語は、「例、事例、または例示の働きをすること」を意味する。「例示的」として本明細書で説明されるいかなる態様も、必ずしも他の態様よりも好適または有利であると解釈されるべきであるとは限らない。

【0119】

[0137]本明細書で使用される、項目のリスト「のうちの少なくとも１つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、およびａ－ｂ－ｃ、ならびに複数の同じ要素をもつ任意の組合せ（たとえば、ａ－ａ、ａ－ａ－ａ、ａ－ａ－ｂ、ａ－ａ－ｃ、ａ－ｂ－ｂ、ａ－ｃ－ｃ、ｂ－ｂ、ｂ－ｂ－ｂ、ｂ－ｂ－ｃ、ｃ－ｃ、およびｃ－ｃ－ｃ、またはａ、ｂ、およびｃの任意の他の順序）を包含するものとする。

【0120】

[0138]本明細書で使用される「決定すること」という用語は、多種多様なアクションを包含する。たとえば、「決定すること」は、算出すること、計算すること、処理すること、導出すること、調査すること、ルックアップすること（たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること）、確認することなどを含み得る。また、「決定すること」は、受信すること（たとえば、情報を受信すること）、アクセスすること（たとえば、メモリ中のデータにアクセスすること）などを含み得る。また、「決定すること」は、解決すること、選択すること、選定すること、確立することなどを含み得る。

【0121】

[0139]本明細書で開示される方法は、方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく、互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲から逸脱することなく修正され得る。さらに、上記で説明された方法の様々な動作は、対応する機能を実施することが可能な任意の好適な手段によって実施され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路（ＡＳＩＣ）、またはプロセッサを含む、様々な（１つまたは複数の）ハードウェアおよび／またはソフトウェア構成要素および／またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。たとえば、加算するための手段が、加算器ツリー５１０または重みシフト加算器ツリー５１２など、加算器ツリー、あるいは累算器６０６などの累算器を含み得る。累算するための手段が、アクティブ化シフト累算器５１６などの累算器を含み得る。検知するための手段が、ＳＡ６０２などのＳＡを含み得る。

【0122】

[0140]以下の特許請求の範囲は、本明細書で示された態様に限定されるものではなく、特許請求の範囲の文言に矛盾しない全範囲を与えられるべきである。請求項内で、単数形の要素への言及は、そのように明記されていない限り、「唯一無二の」を意味するものではなく、「１つまたは複数の」を意味するものである。別段に明記されていない限り、「いくつか」という用語は、１つまたは複数を指す。いかなるクレーム要素も、その要素が「ための手段」という句を使用して明確に具陳されていない限り、または方法クレームの場合には、その要素が「ためのステップ」という句を使用して具陳されていない限り、米国特許法第１１２条（ｆ）の規定の下で解釈されるべきではない。当業者に知られている、または後に知られることになる、本開示全体にわたって説明された様々な態様の要素のすべての構造的および機能的等価物は、参照により本明細書に明確に組み込まれ、特許請求の範囲に包含されるものである。その上、本明細書で開示されるいかなることも、そのような開示が特許請求の範囲に明示的に具陳されているかどうかにかかわらず、公に供するものではない。

【図1A】