特表2025-501627 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクセレラエーアイビーヴィの特許一覧

特表2025-501627複数の重み集合に基づくメモリ内処理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4A
4B
5A
5B
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-22

(54)【発明の名称】複数の重み集合に基づくメモリ内処理

(51)【国際特許分類】

G06F 17/10 20060101AFI20250115BHJP

G06F 12/00 20060101ALI20250115BHJP

G11C 7/16 20060101ALI20250115BHJP

G11C 8/04 20060101ALI20250115BHJP

G11C 14/00 20060101ALN20250115BHJP

【ＦＩ】

G06F17/10 S

G06F12/00 560F

G11C7/16

G11C8/04

G11C14/00 200

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024538653

(86)(22)【出願日】2021-12-22

(85)【翻訳文提出日】2024-08-07

(86)【国際出願番号】 EP2021087303

(87)【国際公開番号】W WO2023117081

(87)【国際公開日】2023-06-29

(81)【指定国・地域】

(71)【出願人】

【識別番号】524237995

【氏名又は名称】アクセレラエーアイビーヴィ

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】ハダム－アルジャメ，リデュアン

(72)【発明者】

【氏名】エレフセリウー，エヴァンゲロス

(72)【発明者】

【氏名】パピスト，イオアニス

(72)【発明者】

【氏名】カトセラス，レオニダス

(72)【発明者】

【氏名】ハーガー，パスカル

(72)【発明者】

【氏名】ロースレアー，ブラム

(72)【発明者】

【氏名】ムーンズ，バート

(72)【発明者】

【氏名】コスマンズ，ステファン

(72)【発明者】

【氏名】ユイッテルヘーベン，ロエル

(72)【発明者】

【氏名】ガルセア，ジュゼッペ

(72)【発明者】

【氏名】ポリアコフ，ドミトリ

(72)【発明者】

【氏名】イー，ルー

(72)【発明者】

【氏名】ヴァンルーン，ヨルン

(72)【発明者】

【氏名】マチエルズ，ブレヒト

【テーマコード（参考）】

5B056

5B160

【Ｆターム（参考）】

5B056AA05

5B056BB71

5B056FF05

5B160AC15

5B160MM20

(57)【要約】

本発明は、特に、メモリ内処理方法を対象とし、この目的は行列－ベクトル算出を実行することである。方法は、クロスバー配列構造（１５）を有するデバイスに依存するものになる。後者は、Ｎ×Ｍのセル（１５５）を定めるクロスポイントで相互接続されるＮ個の入力線（１５２）とＭ個の出力線（１５３）とを含み、ここで、Ｎ≧２およびＭ≧２である。セルは各々のメモリシステムを含み、それぞれはＫ個の重みＷ_{ｉ、ｊ、ｋ}を格納するように設計され、ここでＫ≧２である。よって、クロスバー配列構造は、Ｎ×Ｍの重み集合Ｋ個を格納することが可能であるＮ×Ｍのメモリシステムを含む。乗累算（ＭＡＣ）演算を実行するために、方法は、最初に、メモリシステムのそれぞれに対して、このＫ個の重みからある重みを選択し、かつ選択された重みをアクティブな重みとして設定することによって、Ｎ×Ｍのセルに対してＮ×Ｍのアクティブな重みを有効にする。次に、Ｎ成分のベクトルを符号化する信号がクロスバー配列構造のＮ個の入力線に適用される。これによって、後者は、ベクトルおよびＮ×Ｍのアクティブな重みに基づいてＭＡＣ演算を実行する。最後に、Ｍ個の出力線の出力で得られた出力信号が読み出されて、対応する値を得る。このことは、異なった重み集合をクロスバー配列で局所的に有効にすることを可能にし、これによって、重みの回転を局所的に実行し、それに応じて、記憶装置によるデータ交換の頻度を低減することができる。この結果として、クロスバー配列構造のアイドル時間が短縮される。よって、提案されたアプローチによって、実質的に、データ転送の頻度を低減することができ、これによって計算の高速化がもたらされる。さらに、現在アクティブな重みに従ってＭＡＣ演算を実行している間に、重みが場合により先読みされ得る。特定の利点の中に、先読みするステップはパイプライン方式により少なくとも部分的に隠されることがある。本発明はさらに、関連するデバイス、システム、およびコンピュータプログラム製品を対象とする。
【選択図】図２Ａ

【特許請求の範囲】

【請求項1】

メモリ内処理方法であって、
Ｎ≧２およびＭ≧２である場合、Ｎ×Ｍのセル（１５５）を定めるクロスポイントで相互接続されるＮ個の入力線（１５２）およびＭ個の出力線（１５３）を含むクロスバー配列構造（１５）を提供する（Ｓ１０）ことであって、前記セル（１５５）は、Ｋ≧２であるＫ個の重みをそれぞれが格納するように設計される各々のメモリシステム（１５７）を含み、それによって、前記クロスバー配列構造（１５）は、Ｎ×Ｍの重み集合Ｋ個を格納するＮ×Ｍのメモリシステムを含む、クロスバー配列構造（１５）を提供する（Ｓ１０）ことと、
前記メモリシステム（１５７）のそれぞれに対して、このＫ個の重みからある重みを選択し、かつ選択された前記重みをアクティブな重みとして設定することによって、前記Ｎ×Ｍのセル（１５５）に対してＮ×Ｍのアクティブな重みを有効にする（Ｓ７０）ことと、
Ｎ成分のベクトルを符号化する信号を前記クロスバー配列構造（１５）の前記Ｎ個の入力線（１５２）に適用して（Ｓ８２）、後者に、前記ベクトルおよび前記Ｎ×Ｍのアクティブな重みに基づいて乗累算演算またはＭＡＣ演算を実行させる（Ｓ８４）ことと、
前記Ｍ個の出力線（１５３）の出力で得られた出力信号を読み出して（Ｓ８６、Ｓ９０）対応する値を得ることと
を含む、メモリ内処理方法。

【請求項2】

現在アクティブな重みとして有効にされているＮ×Ｍの重みに従ってＭＡＣ演算を実行している間に、１≦ｑ≦Ｋ－１の場合、以前にアクティブであったＮ×Ｍの重み集合ｑ個の代わりに、次に使用されるＮ×Ｍの重み集合ｑ個を先読みし（Ｓ１１５）、かつ先読みされた前記重みを前記Ｎ×Ｍのメモリシステム（１５７）において格納することをさらに含む、請求項１に記載の方法。

【請求項3】

前記Ｎ×Ｍのアクティブな重みは、１≦ｋ≦Ｋの場合、少なくとも前記Ｎ×Ｍのメモリシステム（１５７）の部分集合のそれぞれのメモリシステム（１５７）の前記Ｋ個の重みの第ｋの重みを付随して選択すること、およびそれに応じて選択されたそれぞれの重みを、現在アクティブな重みとして設定することによって、有効にされる（Ｓ７０）、請求項１または２に記載の方法。

【請求項4】

前記方法はいくつかの行列－ベクトル算出サイクルを実行する（Ｓ５８～Ｓ１１０）ことを含み、前記サイクルのそれぞれは、
前記メモリシステム（１５７）のそれぞれについて、そのＫ個の重みからある重みを選択し、かつ選択された前記重みをアクティブな重みとして設定することによって、新たなＮ×Ｍのアクティブな重み集合を前記Ｎ×Ｍのセル（１５５）に対して有効にする（Ｓ７０）ことと、
Ｎ成分のベクトルを符号化する信号を前記クロスバー配列構造（１５）の前記Ｎ個の入力線（１５２）に適用して（Ｓ８２）、後者に、前記ベクトルおよび前記新たなＮ×Ｍのアクティブな重み集合に基づいてＭＡＣ演算を実行させる（Ｓ８４）ことと、
前記Ｍ個の出力線（１５３）の出力で得られた出力信号を読み出して（Ｓ８６、Ｓ９０）対応する値を得ることと
を含む、請求項１から３のいずれか一項に記載の方法。

【請求項5】

前記サイクルのそれぞれは、読み出された前記出力信号に対応する部分積の結果を累積すること（Ｓ９０）によって、累積が連続して実行されることをさらに含む、請求項４に記載の方法。

【請求項6】

前記いくつかの行列－ベクトル算出サイクルのうちのＫ個のサイクルを完了するより前に、１≦ｑ≦Ｋ－１の場合、Ｎ×Ｍの重み集合ｑ個を先読みし（Ｓ１１５）、かつ後者を、アクティブな重みとして以前に有効にされたＮ×Ｍの集合ｑ個の代わりに前記Ｎ×Ｍのメモリシステム（１５７）に格納することをさらに含む、請求項５に記載の方法。

【請求項7】

前記いくつかの行列－ベクトル算出サイクルを完了する（Ｓ１１０：はい）と、連続した前記累積に基づいて得られた結果を外部記憶装置（２）に返す（Ｓ１２０）ことをさらに含む、請求項５または６に記載の方法。

【請求項8】

前記方法はＫ×Ｔの行列－ベクトル算出サイクルを実行する（Ｓ５０～Ｓ１１０）ことを含み、ここでＴは入力ベクトルの数に対応し、前記入力ベクトルのそれぞれは、Ｎ成分のＫ個の副ベクトルに分解され、かつＫ個の各々のブロック行列に関連付けられ、後者はＮ×Ｍの重み集合Ｋ個に対応し、それによって、前記Ｋ×Ｔの行列－ベクトル算出サイクルは、
前記Ｋ個の各々のブロック行列に対応するＮ×Ｍの重み集合Ｋ個をロードし（Ｓ５５）、それに応じて、前記メモリシステム（１５７）を、前記Ｎ×Ｍの重み集合Ｋ個を格納するようにプログラムすること、ならびに、
前記Ｔ個の入力ベクトルのそれぞれの前記Ｋ個の副ベクトルのそれぞれの副ベクトル（Ｓ６０）に対して、
前記Ｋ個の各々のブロック行列のうちの関連付けられたものに対応するＮ×Ｍのアクティブな重みを現在アクティブな重みとして有効にする（Ｓ７０）こと、
前記それぞれの副ベクトルに対応するベクトルを符号化する信号を前記Ｎ個の入力線（１５２）に適用して（Ｓ８２）、前記クロスバー配列構造（１５）に、前記それぞれの副ベクトルおよび前記現在アクティブな重みに基づいてＭＡＣ演算を実行させる（Ｓ８４）こと、および、
前記Ｍ個の出力線（１５３）の出力で得られた出力信号を読み出して、対応する部分値を得ることによって、実行される、請求項７に記載の方法。

【請求項9】

前記出力信号を読み出すことは、もしあれば、前記Ｋ個の副ベクトルのうちの以前のものに対して以前に得た部分値と共に前記それぞれの副ベクトルに対して得られた前記部分値を累積して（Ｓ９０）、更新された結果を得ることを含み、
前記方法は、最後に得た前記更新された結果に基づいて得られた結果を返す（Ｓ１２０）ことをさらに含む、請求項８に記載の方法。

【請求項10】

外部処理装置において、
Ｎ×Ｍの重み集合Ｋ個に従って前記Ｎ×Ｍのメモリシステム（１５７）をプログラムし（Ｓ５５）、かつ一定数の副ベクトルを入力信号に、そのような入力信号を前記Ｎ個の入力線（１５２）に適用して（Ｓ８２）前記いくつかの行列－ベクトル算出サイクルを実行することを目的として符号化するより前に、
所与の課題を前記副ベクトルおよび前記Ｎ×Ｍの重み集合Ｋ個にマッピングする（Ｓ３０）ことをさらに含む、請求項４から９のいずれか一項に記載の方法。

【請求項11】

前記Ｎ×Ｍのメモリシステム（１５７）はデジタルメモリシステムであり、
前記Ｎ×Ｍのセル（１５５）のそれぞれは、前記Ｎ×Ｍのメモリシステム（１５７）のうちの対応するものに接続された演算装置（１５６）をさらに含み、
前記ＭＡＣ演算は、好ましくは、Ｐ≧２であるＰ個のサイクルでビット直列に実行され（Ｓ８４）、Ｐは、入力で使用される前記ベクトルのそれぞれの前記Ｎ成分のそれぞれのビット幅に対応し、それによって、部分積値は、前記Ｐ個のサイクルのそれぞれを完了すると累積される（Ｓ８６）、請求項１から１０のいずれか一項に記載の方法。

【請求項12】

メモリ内処理のためのコンピュータプログラムであって、前記コンピュータプログラム製品は、プログラム命令が具現化されているコンピュータ可読記憶媒体を含み、前記プログラム命令は、メモリ内処理ハードウェアデバイス（１０）の処理手段によって、後者に、請求項１から１１のいずれか一項のステップを実行させるように実行可能である、コンピュータプログラム。

【請求項13】

メモリ内処理ハードウェアデバイス（１０）であって、
Ｎ≧２およびＭ≧２である場合、Ｎ×Ｍのセル（１５５）を定めるクロスポイントで相互接続されるＮ個の入力線（１５２）およびＭ個の出力線（１５３）を含むクロスバー配列構造（１５）であって、前記セル（１５５）は、Ｋ≧２であるＫ個の重みを格納するようにそれぞれが設計される各々のメモリシステム（１５７）を含み、それによって、前記クロスバー配列構造は、乗累算演算またはＭＡＣ演算を実行するためにＮ×Ｍの重み集合Ｋ個を格納するように適応されるＮ×Ｍのメモリシステム（１５７）を含む、クロスバー配列構造（１５）と、
前記Ｎ×Ｍのメモリシステム（１５７）に接続された選択回路（１５９）であって、前記選択回路（１５９）は、前記メモリシステムのそれぞれの前記Ｋ個の重みからある重みを選択し、かつ選択された前記重みをアクティブな重みとして設定して、前記Ｎ×Ｍのセル（１５５）に対してＮ×Ｍのアクティブな重みを有効にするように構成される、選択回路（１５９）と、
Ｎ成分のベクトルを符号化する信号を前記クロスバー配列構造（１５）の前記Ｎ個の入力線（１５２）に適用して、後者に、前記ベクトル、および前記選択回路（１５９）によって有効にされた前記Ｎ×Ｍのアクティブな重みに基づいて、ＭＡＣ演算を実行させるように構成される入力装置（１５１）と、
前記Ｍ個の出力線（１５３）の出力で得られた出力信号を読み出すように構成される読み出し装置（１５４）と
を備える、メモリ内処理ハードウェアデバイス（１０）。

【請求項14】

前記Ｎ×Ｍのメモリシステム（１５７）のそれぞれは、このＫ個の重みが独立してプログラム可能であるように設計され、
前記デバイス（１０）は、前記それぞれのメモリシステム（１５７）に接続されるプログラム回路（１５８）をさらに含み、前記プログラム回路（１５８）は、前記Ｎ×Ｍのメモリシステムの前記Ｋ個の重みをプログラムするように構成される、請求項１３に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項15】

前記プログラム回路（１５８）は、
アクティブな重みとして現在設定されていないＮ×Ｍの重み集合ｑ個を先読みし、
それに応じて、前記Ｎ×Ｍのメモリシステム（１５７）をプログラムして、後者が、先読みされた前記重みをＮ×Ｍの重み集合ｑ個の代わりに格納するように構成され、ここで１≦ｑ≦Ｋ－１である、請求項１４に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項16】

前記Ｎ×Ｍのメモリシステム（１５７）のそれぞれは、それぞれが前記Ｋ個の重みの対応する重みを格納するように適応されたＫ個のメモリエレメントを含み、
前記選択回路（１５９）は、それぞれが前記Ｎ×Ｍのメモリシステム（１５７）の対応するものの前記Ｋ個のメモリエレメントのそれぞれに接続されるＮ×Ｍのマルチプレクサと、前記メモリシステム（１５７）のそれぞれの前記Ｋ個の重みのいずれか１つが演算時にアクティブな重みとして選択かつ設定可能であるように、前記マルチプレクサのそれぞれに接続される選択制御線とを含む、請求項１３から１５のいずれか一項に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項17】

前記選択回路（１５９）は、前記Ｎ×Ｍのメモリシステムのｎ×ｍのメモリシステム（１５７）の部分集合のそれぞれのメモリシステム（１５７）の前記Ｋ個の重みの第ｋの重みを付随して選択することによって、前記Ｎ×Ｍの重み集合Ｋ個のうちの１つからｎ×ｍの重みの部分集合を選択するようにさらに構成され、ここで、２≦ｎ≦Ｎ、２≦ｍ≦Ｍ、および１≦ｋ≦Ｋである、請求項１３から１６のいずれか一項に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項18】

前記メモリ内処理ハードウェアデバイス（１０）は、シーケンサ回路およびアキュームレータ回路（１５４）をさらに備え、
前記シーケンサ回路は、１つまたは複数のベクトル集合に基づいて行列－ベクトル算出のいくつかのサイクルを連続して実行するように、前記入力装置（１５１）および前記選択回路（１５９）に接続され、前記入力装置（１５１）および前記選択回路（１５９）の演算を編成し、演算時に、前記行列－ベクトル算出のサイクルのそれぞれは、ＭＡＣ演算の１つまたは複数のサイクルを含んでおり、異なったＮ×Ｍの重み集合が、前記Ｎ×Ｍの重み集合Ｋ個から選択され、かつ前記行列－ベクトル算出のサイクルのそれぞれにおいてＮ×Ｍのアクティブな重みとして設定され、
前記アキュームレータ回路（１５４）は、それぞれのＭＡＣ演算サイクルを完了すると得られる部分積値を累積するように構成される、請求項１３から１７のいずれか一項に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項19】

前記アキュームレータ回路（１５４）は、前記出力線（１５３）の出力において配置される、請求項１８に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項20】

前記Ｎ×Ｍのメモリシステム（１５７）のそれぞれは、それぞれが前記Ｋ個の重みの対応する重みを格納するように適応されたＫ個のメモリエレメントを含む、請求項１３から１８のいずれか一項に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項21】

前記Ｎ×Ｍのメモリシステム（１５７）のそれぞれの前記Ｋ個のメモリエレメントのそれぞれはデジタルメモリエレメントであり、
前記Ｎ×Ｍのセル（１５５）のそれぞれは、前記選択回路（１５９）の対応する部分を介して前記Ｎ×Ｍのメモリシステム（１５７）の対応するものの前記Ｋ個のメモリエレメントのそれぞれに接続される演算装置（１５６）をさらに含む、請求項２０に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項22】

前記Ｎ×Ｍのメモリシステム（１５７）のそれぞれの前記Ｋ個のメモリエレメントのそれぞれは、Ｐビットの重みを格納するように設計され、
前記入力装置（１５１）は、前記信号を適用することで、Ｎ成分のベクトルをＰ個のサイクルにおける前記入力線（１５２）にビット直列に供給するように構成され、前記Ｎ成分のそれぞれはＰビット入力ワードに対応し、ここでＰ≧２であり、
前記Ｎ×Ｍのセル（１５５）は、前記Ｐ個のサイクルでＭＡＣ演算をビット直列に実行するように構成され、
前記ハードウェアデバイス（１０）は、前記Ｐ個のサイクルのそれぞれにおいて得られる部分的なビット直列積値に対応する値を累積するように構成されるアキュームレータ回路（１５４）をさらに含み、
前記選択回路（１５９）は、前記Ｐ個のサイクルのそれぞれの間のアクティブな重みと同じＮ×Ｍの重み集合を維持するように構成される、請求項２１に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項23】

前記メモリ内処理ハードウェアデバイス（１０）は、
前記入力装置（１５１）および前記選択回路（１５９）のそれぞれに接続される構成および制御論理部（１２）と、
前記構成および制御論理部（１２）に接続される事前データ処理装置（１３）と、
前記出力線（１５３）の出力において接続される事後データ処理装置（１４）と
をさらに備える、請求項１３から２２のいずれか一項に記載のメモリ内処理ハードウェアデバイス（１０）。

【請求項24】

請求項１３から２３のいずれか一項にそれぞれが記載された１つまたは複数のメモリ内処理ハードウェアデバイス（１０）を備える、コンピューティングシステム（１）。

【請求項25】

記憶装置（２）と、前記記憶装置に接続されて、前記記憶装置（２）に対するデータの読み書きを行う汎用処理装置（２）とをさらに備え、
前記メモリ内処理ハードウェアデバイス（１０）のそれぞれは、前記記憶装置（２）に対するデータの読み書きを行うように構成され、
前記汎用処理装置（２）は、所与の計算タスクを、前記１つまたは複数のメモリ内処理ハードウェアデバイス（１０）のメモリシステム（１５７）に対するベクトルおよび重みにマッピングするように構成される、請求項２４に記載のコンピューティングシステム。

【発明の詳細な説明】

【背景技術】

【0001】

本発明は、一般に、メモリ内処理技術（すなわち、方法、デバイス、およびシステム）および関連の加速技術に関する。とりわけ、本発明は、メモリ内の連続した部分積累積および係数の先読みによる行列－ベクトル乗算を実行するためのクロスバー配列構造を含んでいるメモリ内処理デバイスに関する。

【0002】

行列－ベクトル乗算は、技術計算タスクおよび認知的タスクなど、多数の応用で必要とされることが多い。そのような認知的タスクの例には、コンピュータビジョンおよび自然言語処理のためのニューラルネットワークなどの認知モデルの訓練およびこれによって実行される推測、ならびに天気予報および財務予測などに使用される他の機械学習モデルがある。

【0003】

そのような演算は、それらの再帰、普遍性、ならびにサイズおよびメモリ要件により、複数の課題をもたらす。一方で、特に、高性能コンピューティングアプリケーションにおいて、これらの演算を加速させる必要がある。他方では、それらを実行するエネルギー効率の良いやり方を実現する必要がある。

【0004】

従来のコンピュータアーキテクチャは、ノイマン型計算概念に基づいており、この概念では、処理機能およびデータ記憶は別々の物理装置に分けられる。そのようなアーキテクチャには、物理的な制約があり費用が掛かるインターフェースを通してメモリ装置から制御装置および演算装置までデータを継続的に転送しなければならないため、混雑や高消費電力という難点がある。

【0005】

行列－ベクトル乗算を加速させる１つの可能性として、クロスバー配列構成を有する専用回路などの専用ハードウェア加速デバイスを使用することがある。この回路は、入力線および出力線を含み、これらは、セルを定めるクロスポイントで相互接続される。セルは、各々の行列係数を格納するように設計される各々のメモリデバイスを含む。ベクトルは、クロスバー配列の入力線に適用される信号として符号化されて、後者の入力線に乗累算（ＭＡＣ）演算を行わせる。いくつかの考えられる実装形態がある。例えば、行列（「重み」）の係数は、セルの列に格納可能である。セルの各列に隣接して演算装置の列があり、この演算装置は、（部分積を生じさせる）入力ベクトル値で重みを乗算し、最後に全ての部分積を累積して完全内積の結果を出すことができる。そのようなアーキテクチャは、行列－ベクトル乗算を簡略化しかつ効率的にマッピングすることができる。必要に応じて行列－ベクトル乗算を実行するために、メモリエレメントを再プログラムすることによって重みを更新することができる。そのような解決策によって、「記憶の壁」が破壊されて、演算装置および記憶装置が単一のメモリ内計算（ＩＭＣ）装置に融合されることによって、メモリ内のまたはメモリ近くの処理がさらに一層効率的に行われる。

【0006】

そのようなクロスバー配列構造を有するデバイスは、日常的に使用されている。ここで、本発明者は自身で、そのようなデバイスを改善して、それらのエネルギー効率の向上および計算の高速化をなすという課題を設定している。

【発明の概要】

【0007】

第１の態様によると、本発明は、行列－ベクトル算出を実行することを目的とする、メモリ内処理方法として具現化される。該方法は、クロスバー配列構造を有するデバイスに依存している。後者は、Ｎ個の入力線およびＭ個の出力線を含み、これらは、Ｎ×Ｍのセルを定めるクロスポイントで相互接続され、ここで、Ｎ≧２およびＭ≧２である。セルは、Ｋ≧２であるＫ個の重みをそれぞれが格納するように設計される各々のメモリシステムを含む。よって、クロスバー配列構造は、Ｎ×Ｍの重み集合Ｋ個を格納することが可能であるＮ×Ｍのメモリシステムを含む。乗累算（ＭＡＣ）演算を実行するために、方法は、最初に、メモリシステムのそれぞれに対して、このＫ個の重みからある重みを選択し、かつ選択された重みをアクティブな重みとして設定することによって、Ｎ×Ｍのセルに対してＮ×Ｍのアクティブな重みを有効にする。次に、Ｎ成分のベクトルを符号化する信号がクロスバー配列構造のＮ個の入力線に適用される。これによって、後者は、このベクトルおよびＮ×Ｍのアクティブな重みに基づいてＭＡＣ演算を実行する。最後に、Ｍ個の出力線の出力で得られた出力信号が読み出されて、対応する値を得る。

【0008】

上記のスキームは、異なった重み集合をクロスバー配列で局所的に有効にすることを可能にし、これによって、アクティブな重み間で局所的に切り替え、それに応じて、記憶装置によるデータ交換の頻度を低減することができる。この結果として、コアコンピュータデバイス、すなわち、クロスバー配列構造のアイドル時間が短縮される。すなわち、いくつかの中間の重みの更新が回避可能であるが、これは、最高でＫ個の連続した計算サイクルが新たな重み集合を転送する必要なく実行できるからである。むしろ、該当する重み集合を、それぞれの算出サイクルにおけるアクティブな重みとして局所的に有効にすることができる。さらに、部分結果を局所的に累積して、中間結果の転送を回避することができる。よって、提案されたアプローチによって、実質的に、データ転送の頻度を低減することができ、これによって、行列－ベクトル算出を実行するために必要とされる、計算の高速化および消費電力の低減がもたらされる。

【0009】

とりわけ有利な実施形態では、方法は、現在アクティブな重みとして有効にされているＮ×Ｍの重みに従ってＭＡＣ演算を実行している間に、重みを先読みすることをさらに含む。すなわち、１≦ｑ≦Ｋ－１の場合、以前にアクティブであったＮ×Ｍの重み集合ｑ個の代わりに、Ｎ×Ｍの重み集合ｑ個（すなわち、次に使用される重み）がＮ×Ｍのメモリシステムにおいて先読みされかつ格納される。換言すれば、重みは、必要に応じて、クロスバー構造のアイドル時間をさらに短縮するために、先を見越してロード（すなわち、一定の計算サイクルの間に先読み）可能である。特定の利点の中に、先読みするステップではパイプライン方式により少なくとも部分的に隠されることがある。

【0010】

好ましくは、Ｎ×Ｍのアクティブな重みは、１≦ｋ≦Ｋの場合、少なくともＮ×Ｍのメモリシステムの部分集合のそれぞれのメモリシステムのＫ個の重みの第ｋの重みを付随して選択すること、およびそれに応じて選択されたそれぞれの重みを、現在アクティブな重みとして設定することによって、有効にされる。その結果、配列構造はコンテキストをほとんど一瞬で変更可能である。

【0011】

典型的な実施形態では、いくつかの行列－ベクトル算出サイクルが連続して実行される。それぞれのサイクルは上記のような演算を含む。すなわち、最初に、メモリシステムのそれぞれについて、そのＫ個の重みからある重みを選択し、かつ選択された重みをアクティブな重みとして設定することによって、新たなＮ×Ｍのアクティブな重み集合がＮ×Ｍのセルに対して有効にされる。次に、Ｎ成分のベクトルを符号化する信号がクロスバー配列構造のＮ個の入力線に適用されて、後者に、現在のベクトルおよび新たなＮ×Ｍのアクティブな重み集合に基づいてＭＡＣ演算を実行させる。最後に、Ｍ個の出力線の出力で得られた出力信号が読み出されて、対応する値を得る。新たな重みを配列のメモリシステムに転送する必要なく、最高でＫ個のそのようなサイクルが実行可能である。

【0012】

好ましくは、サイクルのそれぞれは、読み出された出力信号に対応する部分積の結果を累積することによって、累積が連続して実行されることをさらに含む。いくつかの行列－ベクトル算出サイクルを完了すると、方法は、例えば、連続した累積に基づいて得られた結果を外部の（すなわち、配列の外部の）記憶装置に返してよい。よって、中間結果を転送する必要はない。

【0013】

必要に応じて、いくつかの行列－ベクトル算出サイクルのうちのＫ個のサイクルを完了するより前に、新たな重みが先読みされてよい。すなわち、方法は、１≦ｑ≦Ｋ－１の場合、Ｎ×Ｍの重み集合ｑ個を先読みし、かつ後者を、アクティブな重みとして以前に有効にされたＮ×Ｍの集合ｑ個の代わりにＮ×Ｍのメモリシステムに格納してよい。興味深いことに、新たな重み値は場合により中間に先読みされる場合があるため、部分結果を累積し続けながら、さらなる行列－ベクトル算出サイクルが（Ｋ個のサイクルを超えて）途切れることなく実行可能である。また、先読みするステップはパイプライン方式により隠される。中間のデータ転送によるアイドル時間に煩わされることなく、行列－ベクトル算出全体の一番最後に最終結果が返され得る。

【0014】

大きなオペランドは例えば、必要とされる演算をＫ×Ｔの行列－ベクトル算出に分解することによって対処され得る。すなわち、方法では、Ｋ×Ｔの行列－ベクトル算出サイクルを実行してよく、ここで、Ｔは入力ベクトルの数に対応する。それぞれの入力ベクトルは、Ｎ成分のＫ個の副ベクトルに分解され、かつＫ個の各々のブロック行列に関連付けられ、後者はＮ×Ｍの重み集合Ｋ個に対応する。副ベクトルが実際には、上で取り入れたベクトルに対応し、それぞれの副ベクトルが入力ベクトルの一部分であることに留意されたい。その場合、以下のように、Ｋ×Ｔの行列－ベクトル算出サイクルが実行される。初めに、Ｎ×Ｍの重み集合Ｋ個がロードされる。Ｎ×Ｍの重み集合Ｋ個は、Ｋ個のブロック行列に対応する。それに応じて、メモリシステムは、Ｎ×Ｍの重み集合Ｋ個を格納するようにプログラムされる。次に、いくつかの演算が実行され、これは、Ｔ個の入力ベクトルのそれぞれのＫ個の副ベクトルのそれぞれに対するものである。最初に、Ｋ個の各々のブロック行列のうちの１つ、すなわち、現在の副ベクトルに関連付けられたブロック行列に対応する重みであるＮ×Ｍの重みが（現在アクティブな重みとして）有効にされる。第二に、それぞれの副ベクトルに対応するベクトルを符号化する信号がＮ個の入力線に適用され、これによって、クロスバー配列構造では、それぞれの副ベクトルおよび現在アクティブな重みに基づいてＭＡＣ演算を実行する。第三に、方法では、Ｍ個の出力線の出力で得られる出力信号を読み出して、対応する部分値を得る。

【0015】

読み出しは好ましくは、もしあれば、Ｋ個の副ベクトルのうちの以前のものに対して以前に得た部分値と共にそれぞれの副ベクトルに対して得られた部分値を累積して、更新された結果を得ることを含む。最後に、方法では、最後に得た更新された結果に基づいて得られた結果を返す。

【0016】

実施形態では、Ｎ×Ｍの重み集合Ｋ個に従ってＮ×Ｍのメモリシステムをプログラムし、かつ副ベクトルを入力信号に、その後そのような入力信号をＮ個の入力線に適用していくつかの行列－ベクトル算出サイクルを実行することを目的として符号化するより前に、外部の（すなわち、配列の外部の）処理装置を使用して、所与の課題を一定数の副ベクトルおよび一連のＮ×Ｍの重み集合Ｋ個にマッピングする。外部の処理装置は、場合により、クロスバー配列構造と共に集積され得ることに留意されたい。別形では、該装置は別個のデバイスまたは機械の一部を形成する。

【0017】

Ｎ×Ｍのメモリシステムは、デジタルメモリシステムまたはアナログメモリシステムのどちらかであり得る。どちらの場合でも、ＭＡＣ演算を並列にまたはビット直列演算として実行され得る。

【0018】

Ｎ×Ｍのメモリシステムがデジタルメモリシステムである実施形態では、Ｎ×Ｍのセルのそれぞれは、Ｎ×Ｍのメモリシステムのうちの対応するものに接続された演算装置をさらに含む。

【0019】

例えば、ＭＡＣ演算は、Ｐ≧２であるＰ個のサイクルでビット直列に実行され得、ここで、Ｐは、入力で使用されるベクトル（または副ベクトル）のそれぞれのＮ成分のそれぞれのビット幅に対応する。その場合、部分積値が得られ、これは、Ｐ個のサイクルのそれぞれを完了すると（クロスバー配列で）局所的に累積される。しかしながら、この累積は、いくつかのベクトル（または副ベクトル）を連続して処理しているとき、ベクトルレベルの演算、すなわち、ベクトル（または副ベクトル）に関係がある演算を完了すると実行される累積と区別されるべきである。

【0020】

別の態様によると、本発明は、メモリ内処理のためのコンピュータプログラムとして具現化される。コンピュータプログラム製品は、プログラム命令が具現化されているコンピュータ可読記憶媒体を含む。プログラム命令は、メモリ内処理ハードウェアデバイスの処理手段によって、後者に、上述される方法のいずれかのステップを実行させるように実行可能である。

【0021】

さらなる態様によると、本発明は、メモリ内処理ハードウェアデバイスとして具現化される。本方法に適合するように、デバイスは、Ｎ×Ｍのセルを定めるクロスポイントで相互接続されるＮ個の入力線およびＭ個の出力線を含むクロスバー配列構造を備え、ここで、Ｎ≧２およびＭ≧２である。セルは、それぞれがＫ個の重みを格納するように設計された各々のメモリシステムを含み、ここでＫ≧２である。すなわち、クロスバー配列構造は、Ｎ×Ｍのメモリシステムを含み、これらは、全体として、ＭＡＣ演算を実行するためにＮ×Ｍの重み集合Ｋ個を格納するように適応される。デバイスは、Ｎ×Ｍのメモリシステムに接続された選択回路をさらに含む。選択回路は、メモリシステムのそれぞれのＫ個の重みからある重みを選択し、かつ選択された重みをアクティブな重みとして設定して、Ｎ×Ｍのセルに対してＮ×Ｍのアクティブな重みを有効にするように構成される。加えて、デバイスは、Ｎ成分のベクトルを符号化する信号をクロスバー配列構造のＮ個の入力線に適用して、後者に、演算時に選択回路によって有効にされるようにこのベクトルおよびＮ×Ｍのアクティブな重みに基づいてＭＡＣ演算を実行させるように構成される入力装置を含む。該デバイスは、Ｍ個の出力線で得られた出力信号を読み出すように構成される読み出し装置をさらに含む。

【0022】

実施形態では、Ｎ×Ｍのメモリシステムのそれぞれは、このＫ個の重みが独立してプログラム可能であるように設計される。デバイスは、それぞれのメモリシステムに接続されるプログラム回路をさらに含んでよい。プログラム回路は、Ｎ×ＭのメモリシステムのＫ個の重みをプログラムするように構成される。プログラム回路は有利には、１≦ｑ≦Ｋ－１である場合、アクティブな重みとして現在設定されていないＮ×Ｍの重み集合ｑ個を先読みし、それに応じて、Ｎ×Ｍのメモリシステムをプログラムして、後者が先読みされた重みをＮ×Ｍの重み集合ｑ個の代わりに格納するように構成され得る。

【0023】

好ましい実施形態では、Ｎ×Ｍのメモリシステムのそれぞれは、Ｋ個のメモリエレメントを含み、このそれぞれは、Ｋ個の重みの対応する重みを格納するように適応され、選択回路は、それぞれがＮ×Ｍのメモリシステムの対応するもののＫ個のメモリエレメントのそれぞれに接続されるＮ×Ｍのマルチプレクサと、メモリシステムのそれぞれのＫ個の重みのいずれか１つが演算時にアクティブな重みとして選択かつ設定可能であるように、マルチプレクサのそれぞれに接続される選択制御線とを含む。

【0024】

好ましくは、選択回路は、Ｎ×Ｍのメモリシステムのｎ×ｍのメモリシステムの部分集合のそれぞれのメモリシステムのＫ個の重みの第ｋの重みを付随して選択することによって、Ｎ×Ｍの重み集合Ｋ個のうちの１つからｎ×ｍの重みの部分集合を選択するようにさらに構成され、ここで、２≦ｎ≦Ｎ、２≦ｍ≦Ｍ、および１≦ｋ≦Ｋである。

【0025】

実施形態では、メモリ内処理ハードウェアデバイスは、シーケンサ回路およびアキュームレータ回路をさらに備える。シーケンサ回路は、１つまたは複数のベクトル集合に基づいて行列－ベクトル算出のいくつかのサイクルを連続して実行するように、入力装置および選択回路に接続され、入力装置および選択回路の演算を編成する。演算時に、行列－ベクトル算出のサイクルのそれぞれは、ＭＡＣ演算の１つまたは複数のサイクルを含んでいる。異なったＮ×Ｍの重み集合が、Ｎ×Ｍの重み集合Ｋ個から選択され、行列－ベクトル算出のサイクルのそれぞれにおいてＮ×Ｍのアクティブな重みとして設定される。アキュームレータ回路は、それぞれのＭＡＣ演算サイクルを完了すると得られる部分積値を累積するように構成される。好ましくは、アキュームレータ回路は、出力線の出力において配置される。

【0026】

好ましい実施形態では、Ｎ×Ｍのメモリシステムのそれぞれは、それぞれがＫ個の重みの対応する重みを格納するように適応されたＫ個のメモリエレメントを含む。Ｎ×ＭのメモリシステムのそれぞれのＫ個のメモリエレメントのそれぞれは、例えば、デジタルメモリエレメントであり得る。その場合、Ｎ×Ｍのセルのそれぞれは演算装置をさらに含み、これは、選択回路の対応する部分を介してＮ×Ｍのメモリシステムの対応するもののＫ個のメモリエレメントのそれぞれに接続される。

【0027】

実施形態では、Ｎ×ＭのメモリシステムのそれぞれのＫ個のメモリエレメントのそれぞれは、Ｐビットの重みを格納するように設計される。入力装置は、上記の信号を適用することで、Ｎ成分のベクトルをＰ個のサイクルにおける入力線にビット直列に供給するように構成され、ここで、Ｎ成分のそれぞれはＰビット入力ワードに対応し、Ｐ≧２である。Ｎ×Ｍのセルは、Ｐ個のサイクルでＭＡＣ演算をビット直列に実行するように構成される。加えて、ハードウェアデバイスは、Ｐ個のサイクルのそれぞれにおいて得られる部分的なビット直列積値に対応する値を累積するように構成されるアキュームレータ回路をさらに含む。また、選択回路は、Ｐ個のサイクルのそれぞれの間のアクティブな重みと同じＮ×Ｍの重み集合を維持するように構成される。

【0028】

好ましくは、メモリ内処理ハードウェアデバイスは、入力装置および選択回路のそれぞれに接続される構成および制御論理部と、構成および制御論理部に接続される事前データ処理装置と、出力線の出力において接続される事後データ処理装置とをさらに備える。

【0029】

別の態様によると、本発明は、上述されるような１つまたは複数のメモリ内処理ハードウェアデバイスを備えるコンピューティングシステムとして具現化される。好ましくは、コンピューティングシステムは、記憶装置と、記憶装置に接続されて、記憶装置に対するデータの読み書きを行う汎用処理装置とをさらに備える。メモリ内処理ハードウェアデバイスのそれぞれは、記憶装置に対するデータの読み書きを行うように構成される。汎用処理装置は、所与の計算タスクを、１つまたは複数のメモリ内処理ハードウェアデバイスのメモリシステムに対するベクトルおよび重みにマッピングするように構成される。

【0030】

本発明のこれらのならびに他の目的、特徴、および利点は、添付の図面と関連付けて読まれるべきである本発明の例示的な実施形態の以下の詳細な説明から明らかになるであろう。例示は、当業者が、詳細な説明と併せて本発明を容易に理解するように明確にするためのものである。

【図面の簡単な説明】

【0031】

【図1】本発明の実施形態にあるように、行列－ベクトル算出を専用のハードウェアアクセラレータにオフロードするためにパーソナルコンピュータを介してユーザがサーバと対話するコンピュータ化システムを概略的に表す図である。

【図2】実施形態に含まれているように、メモリ内コンピューティング（ＩＭＣ）行列－ベクトル乗算を実行するために最適化されるハードウェアアクセラレータの選択されたコンポーネントを概略的に表す図であり、図２Ａはハードウェアアクセラレータのクロスバー配列構造を示し、図２Ｂはハードウェアアクセラレータのさらなるコンポーネントを示す図である。

【図3A】実施形態にあるように、メモリエレメントの各々の列に接続された演算装置の列（乗算器および加算木）を含んでいるＩＭＣ配列の図であって、それぞれのメモリセルはいくつかのメモリエレメントのメモリシステムを含み、全体として、クロスバー配列構造は、Ｎ×Ｍの重み集合Ｋ個を格納することが可能なＮ×Ｍのメモリシステムを含む図である。

【図3B】実施形態に含まれているように、メモリセルの所与の行、ならびに、プログラム回路および選択回路の一部分を概略的に示し、プログラム回路および選択回路の示された部分は、単一のメモリセルに接続され、描写のために他の部分は示されていないが、実際には、プログラム回路および選択回路はそれぞれのメモリセルに接続される、図である。

【図3C】実施形態に含まれているように、対応するメモリセルに接続される選択回路のコンポーネントの簡略化された回路図である。

【図4A】実施形態によるＩＭＣチップ構成の２つの例であり、いずれの場合にもＩＭＣ配列がアキュームレータに接続されることを示す図であり、図４Ａは行列－ベクトル乗算に対するベクトル成分のビット直列注入を仮定することを示す。

【図4B】実施形態によるＩＭＣチップ構成の２つの例であり、いずれの場合にもＩＭＣ配列がアキュームレータに接続されることを示す図であり、図４Ｂは並列演算を仮定することを示す。

【図5A】実施形態にあるように、大きなオペランド（行列）を含んでいる行列－行列乗算がより小さいサイズのＩＭＣ配列によってどのように対処され得るのかを示し、それによって、入力行列は入力ベクトルに分解され、これら自体は、各々の行列係数配列を局所的に有効にし、かつ最終結果を返すより前に部分結果を累積することによって、異なったブロック行列が連続した行列－ベクトル乗算を実行するために割り当てられる副ベクトルにパーティション分割されることを示す図である。

【図5B】実施形態にあるように、最初にＫ個の重み集合をロードした後の、Ｋ個の係数（重み）の集合の対応する回転を示す図である。

【図6】実施形態にあるように、計算を加速させるために、（次に使用される）行列係数がどのように先読み可能であるかを示す図である。

【図7】実施形態にあるように、図５Ａに示される乗算と同様の行列－行列乗算を実行する方法の高水準ステップを示すフローチャートである。

【発明を実施するための形態】

【0032】

添付の図面は、実施形態に含まれているような、デバイスまたはこの部分の簡略化された表現を示す。図における同様のまたは機能的に同様の要素は、別段指示されていない限り、同じ参照数字が割り当てられている。

【0033】

本発明を具現化する、コンピュータ化デバイス、システム、方法、およびコンピュータプログラムについて、ここで、非限定的な例によって説明する。

【0034】

下記の記載は、以下のように系統立てられる。一般的な実施形態および高水準の別形について、第１節において説明し、第２節では、特に好ましい実施形態について対処する。第３節では最終的な見解をまとめる。本方法およびこの別形は「本方法」と総称されることに留意されたい。全ての参照符号Ｓｎは、図７のフローチャートの方法ステップを指し、参照数字は、本発明の実施形態に含まれているデバイス、コンポーネント、および概念に関連している。

【0035】

１．一般的な実施形態および高水準の別形
本発明の第１の態様について、ここで、図２Ａ～図４Ｂ、および図７を参照して説明する。この態様は、メモリ内処理の方法に関し、この目的は、乗累算演算またはＭＡＣ演算を加速させることである。

【0036】

方法は、クロスバー配列構造１５、１５ａを有するデバイス１０、１０ａに依存するものになる。クロスバー配列は図２Ａに明示されている。この構造１５、１５ａは、Ｎ個の入力線１５２とＭ個の出力線１５３とを含み、ここで、Ｎ≧２およびＭ≧２である。入力線１５２および出力線１５３は、クロスポイント（接合点）で相互接続される。クロスポイントはそれに応じて、Ｎ×Ｍのセル１５５を定める。セル１５５は各々のメモリシステム１５７を含む。注目すべきことには、それぞれのメモリシステム１５７はＫ個の重みを格納するように設計され、ここでＫ≧２である。実際には、Ｋは典型的には、（図３Ａ、図３Ｂ、および図５Ａ、図５Ｂで仮定されているように）４、８、１６、または３２に等しいものであってよい。全体的に、クロスバー配列構造１５は、Ｎ×Ｍの重み集合Ｋ個、すなわち、合計でＫ×Ｎ×Ｍの重みを格納することが可能であるＮ×Ｍのメモリシステムを含む。

【0037】

換言すれば、クロスバー配列構造１５は、クロスバー構成においてＮ×Ｍのセル１５５を含み、この場合、クロスバー構成のそれぞれのクロスポイントはあるセルに対応し、それぞれのセルは、Ｋ個の重みを格納することが可能なメモリシステム１５７を含んでいる。そのような重みは図２ＡではＷ_{ｉ、ｊ、ｋ}と記されており、ここで、ｉは１からＮに及び、ｊは１からＭに及び、ｋは１からＫに及ぶ。実際には、入力線１５２および出力線１５３の数は、典型的には、ほぼ数百から数千の線になる。例えば、２５６×２５６、（図４Ａおよび図４Ｂにあるような）５１２×５１２、または１０２４×１０２４の配列が考えられ得るが、Ｎは必ずしもＭに等しいものである必要はない。入力線および出力線の概念について、以下にさらに説明する。

【0038】

提案された方法は、基本的には、有効にされた重みに対応する所与のベクトルおよび行列係数に基づいてＭＡＣ演算を実行するより前に、ある特定の重みを有効にすることを中心に展開する。すなわち、Ｎ×Ｍの重みは、Ｎ×Ｍのセル１５５に対してステップＳ７０（図７のフローチャートを参照）で有効にされる。これは、それぞれのメモリシステムについて、このＫ個の可能性がある重みからある重みを選択後、選択された重みをアクティブな重みとして設定することによって実現される。重みの選択および設定は、図３Ｃを参照して以下に論じられる実施形態にあるように、実際、特に、各々のメモリシステムに接続されたマルチプレクサに依存する選択回路１５９を使用するときに、単一演算で実行され得ることに留意されたい。

【0039】

重み集合が有効にされると、ベクトル成分はクロスバー配列構造１５に注入される（ステップＳ８２）。より正確には、Ｎ成分のベクトル（以降、Ｎベクトルと称される）を符号化する信号は、クロスバー配列構造１５のＮ個の入力線１５２に適用されるＳ８２。これによって、クロスバー配列構造１５は、Ｎベクトル、および現在有効にされているＮ×Ｍのアクティブな重みに基づいて、ＭＡＣ演算を実行するＳ８４。ＭＡＣ演算は、その結果、Ｎ個の入力線に供給された信号によって符号化された値にはそれぞれ、メモリシステム１５７に格納されたＫ個の重み集合から有効にされる現在アクティブな重み値が乗じられることになる。

【0040】

クロスバー構成に関して、それぞれの算出サイクル中にＭのＭＡＣ演算が並列に実行されている。セルごとに実行される演算は、２つのスカラー演算、すなわち、１つの乗算および１つの加算に対応することに留意されたい。よって、ＭのＭＡＣ演算は、Ｎ×Ｍの乗算およびＮ×Ｍの加算を含意し、これは、合計で２×Ｎ×Ｍのスカラー演算を意味する。

【0041】

Ｍ個の出力線１５３で得られる出力信号は、その後、ステップＳ９０で読み出されて、対応する値を得る。実際には、いくつかの算出サイクルは連続して実行される必要があることが多く、それによって、Ｎベクトルの成分を供給して、ＭＡＣ演算を実行しかつ出力値を読み取るより前に、サイクルごとに重みが局所的に有効（すなわち、アクティブな重みとして選択かつ設定）される。そのような出力値は、有利にはデバイス１０、１０ａにおいて局所的に累積され得る部分値に対応し得る。その点において、実行される読み出し動作は、要するに、広い意味で理解されるべきである。読み出し動作は、出力値を抽出することだけでなく、これらを（必要に応じて）以前の出力値と共に累積すること、および／またはそのような値を格納することを目的とする場合がある。

【0042】

注目すべきことには、提案されたスキームによって異なった重み集合をクロスバー配列１５において局所的に有効にすることができ、これによって、重みの回転を局所的に実行し、それに応じて、デバイス１０、１０ａに外付けされたまたは組み込まれた記憶装置によってデータ交換の頻度を低減することができる。これによってまた、デバイス１０、１０ａのアイドル時間が短縮される。すなわち、一部の中間の重みの更新が回避されるが、これは、最高でＫの連続した計算サイクルが新たな重み集合を転送する必要なく実行できるからである。むしろ、該当する重み集合は、それぞれの算出サイクルにおいてアクティブな重みとして局所的に有効にされる。さらに、重みは、場合により、必要に応じて、クロスバー構造１５のアイドル時間をさらに短縮するために、先を見越してロード（すなわち、計算サイクル中に先読み）され得る。よって、提案されたアプローチは、重みデータの転送の頻度の実質的な短縮を可能にし、それによって計算の高速化がもたらされる。また、部分結果が局所的に累積可能であるため、そのような結果も転送の必要がなく、これによってデバイス１０、１０ａの消費電力が低減される。

【0043】

順序立てて見解を述べる。それぞれのメモリシステム１５７は好ましくは、簡潔にするために、Ｋ個の異なったメモリエレメントを含む。そのようなエレメントは、独立してプログラム可能であるように接続可能である。これによって、以下に論じられる好ましい実施形態にあるように、（次に使用される）重みを先読みすることができる。メモリエレメントは例えば、シナプスクロスバー配列構造のシナプス重みと同様に、バイナリデータまたはマルチビットデータを格納するようにプログラム可能である。

【0044】

重みは数値に関連し、行列係数を表す。そのような重みは、解決されるべき課題（の一部分）を克服し、それに応じてメモリシステム１５７にプログラムされる必要がある。その点において、ハードウェアデバイス１０は、有利には、Ｎ×Ｍのメモリシステム１５７をプログラムして、後者が各々のＫ個の重み集合を格納するように構成されるプログラム回路１５８（図３Ｂ）を含み得る。プログラム回路は、例えば、デバイス１０、１０ａにおいて論理装置１２によって制御され得る。別形では、プログラム回路は外付けされてよく、その場合、デバイスは、メモリエレメントのプログラミング専用のパッドおよびトレースを含むことになる可能性がある。

【0045】

ＩＭＣデバイスのメモリエレメントをプログラムすることはそれ自体が既知である。しかしながら、本文脈では、必要とされることは、それぞれのセルに対していくつかのメモリエレメント（またはメモリシステムのいくつかのメモリ値）を適切に適時プログラムすることである。さらに必要とされることは、アクティブな重みを適当に選択することである。その目的のために、選択回路１５９（図３Ｂ、図３Ｃ）を使用して、必要とされる重みの選択を実行し、かつ選択された重みをアクティブな重みとして有効にすることができる。

【0046】

入力で使用される（上でＮベクトルとも称される）ベクトルは、入力線の数Ｎに従って、それぞれＮ成分を有する。そのようなベクトルは、実際、より大きい入力ベクトルの部分に対応し得る。すなわち、解決されるべき課題（例えば、行列－行列乗算）は典型的には、大きなオペランドを含んでいる場合がある。よって、最初の課題では、配列１５のサイズに従ってパーティション分割された入力ベクトルおよび行列の部分を含んでいるより小さい行列－ベクトル演算に分解されなければならない場合がある。例えば、入力行列は入力ベクトルに分解され得、この入力ベクトル自体は副ベクトル（すなわち、Ｎベクトル）に分解され、これらは各々のブロック行列が割り当てられ、複数の演算を実行することを目的として、これらの出力は最後に最終結果を形成するために再構成可能である。

【0047】

よって、実際には、基本的な演算原理は、Ｎベクトルを配列１５に供給して、行列－ベクトル演算を、一方では供給されるベクトル成分に、他方では現在アクティブな重みに基づいて実行することになり、後者は現在のＮベクトルに従って適正に有効にされる。

【0048】

ＭＡＣ演算を実行するために、入力信号がＮ個の入力線に適用され、この信号によってＮベクトルの成分が符号化される。すなわち、それぞれの入力信号は、異なったベクトル成分を符号化し、対応する入力線に適用される。入力信号は、シナプスクロスバー構造におけるいわゆるデータチャネルに対応する。それぞれのベクトル成分およびそれぞれの行列係数は例えば、Ｐビット値として符号化可能である。すなわち、ＭＡＣ演算は、（図４Ａまたは図７において仮定されるように）ビット直列に、または（図４Ｂにあるように）並列に実施可能である。ビット直列の実装形態では、好ましい実施形態を参照して詳細に後に論じられるように、それぞれの乗算演算がＰビット直列サイクル（例えば、Ｐ＝８または１６）で実行される。別形では、それぞれのＰビットワード（ベクトル成分）が、対応する入力線のＭ個のセルに並列に注入される。

【0049】

本アプローチは、アナログメモリエレメントおよびアナログ演算に対応している。アナログ電気実装形態では、デジタル入力は、デジタルアナログ変換器（ＤＡＣ）またはパルス幅変調器（ＰＷＭ）によってアナログ表現に変換後、入力線に適用される。それぞれのセル演算は典型的には、その場合、単一のアナログ演算に対応し、それによって、入力信号にはメモリコンポーネントによって伝達される重み値が乗じられ、その結果、その成分との電気的相互作用が生じて、ある列への出力に分岐されることで、アナログ加算演算が効率的にもたらされる。同様の原理が光入力信号により利用可能である。デジタル実装形態はデジタルメモリシステムに依存している。すなわち、Ｎ×Ｍのメモリシステム１５７はデジタルメモリシステムである（例えば、それぞれがＫ個のデジタルメモリエレメントを含む）。その場合、Ｎ×Ｍのセル１５５のそれぞれは、図２Ａ、図３Ａ、および図３Ｂにおいて仮定されるように、対応するメモリシステム１５７に接続された（乗算器および加算木を含む）演算装置１５６を含む。

【0050】

完全を期すために、入力線１５２は、信号によってデータがＭ個のセルに通信されるチャネルを指すことに留意されたい。しかしながら、そのような入力線は、必ずしも、実際にセルに達するのに必要とされる物理的導体または論理チャネルの数に対応するわけではない。ビット直列の実装形態では、それぞれの入力線は単一の物理的線を含み得、これは、Ｎベクトル成分データを伝達する入力信号を供給するに十分である。しかしながら、並列データ収集のアプローチでは、それぞれの入力線は、それぞれが対応する入力線のＭ個のセルに接続される、最高でＰ個の並列導体を含み得る。そのような場合、Ｐ個のビットは、並列導体を介してＭ個の対応するセルのそれぞれに並列に注入される。依然として、データの並列供給およびビット直列供給の両方を含んでいる様々な中間構成が考えられ得る。

【0051】

ハードウェアデバイス１０、１０ａは、好ましくは、コア計算ステップを実行するのに必要な全てのコンポーネントを組みこむ集積構造、例えば、マイクロチップとして製作される。そのようなコンポーネントは、注目すべきことには、入力信号をＮ個の入力線１５２に適用するための入力装置１５１、１５１ａ（図４Ａ、図４Ｂ）と、プログラム回路１５８（図３Ｂ）と、選択回路１５９（図３Ｂ、図３Ｃ）と、アキュームレータを含み得る読み出し装置１５４、１５４ａ（図４Ａ、図４Ｂ）とを含み得る。選択回路１５９および入力装置１５１は、例えば、実施形態にあるように、同じ構成および制御論理回路の一部を形成し、かつ同じ論理装置１２（図２Ｂ）によって制御され得る。デバイス１０、１０ａ自体は、後に詳細に説明される、本発明の別の態様に関係する。

【0052】

本方法の特定の実施形態について、ここで論じる。初めに、重みは、必要に応じて、クロスバー構造のアイドル時間をさらに短縮するために、先を見越してロードする（すなわち、計算サイクル中に先読みする）ことができる。先読み機構は図６に示されている。極めて大きな利点として、先読みするステップがパイプライン方式により（少なくとも部分的に）隠され得ることがある。

【0053】

詳細には、現在の計算サイクル中に、すなわち、アクティブな重みとして現在有効にされているＮ×Ｍの重みに従ってＭＡＣ演算を実行している間に、新たな重みを先読みすることができる。１≦ｑ≦Ｋ－１である場合、以前アクティブであったＮ×Ｍの重み集合ｑ個の代わりに、最高でｑ個のＮ×Ｍの重み（すなわち、次に使用される重み）集合が、Ｎ×Ｍのメモリシステム１５７において先読みＳ１１５かつ格納可能である。

【0054】

行列－ベクトル算出のサイクルを開始する前に、Ｎ×Ｍの重み集合Ｋ個が最初に配列においてロードされ得る。よって、その後の先読みするステップは、典型的には、反復的に実行される。重み集合を先読みすることによって、先を見越したアプローチが可能になり、これによって、図６に示されるように、計算のさらなる高速化が可能になる。

【0055】

例えば、１つまたは複数の行列－行列乗算が実行されなければならないと仮定する。図６における例では、それぞれが単一の重み集合のみを使用しＴ個の計算サイクルを必要とする４つの連続した異なる行列－行列乗算が実行される。この場合、例えば、外部メモリから、次の行列－行列に対する重みを先読みするＳ１１５ために重み集合を反復的にロードすることが可能である。別の例として、第１の行列乗算は２つの重み集合を使用するが、第３および第４の行列乗算では１つの重み集合のみを必要とする。その場合、第３および第４の行列乗算のための重み集合は、第１の行列乗算のための２つの重み集合が計算のために使用されている間に先読み可能である。そのような先読みストラテジは、単一の重み集合のみを利用する以前のクロスバー配列構造とは対照的に、（図６に示されるように）その場合、重みをロードする時間をパイプライン方式により部分的に隠すことができるため、大幅な高速化につながる可能性がある。

【0056】

その点において、図６の上部に示されるサイクルは通常のクロスバー配列で実行されるサイクルに対応し、この場合、それぞれのセルは単一の重み値を格納することに留意されたい。（重みをこの配列にロードするための）ロードするステップおよび処理するステップはインターリーブされなければならず、それによって、パイプライン方式によりロード時間を隠すことができなくなる。対照的に、複数の重み集合を格納する配列において、行列係数は場合により、他の重み集合は現在アクティブである間に未使用のメモリエレメントにあらかじめロード可能である。これによって、単一の重み集合に依存するシステムと比較して、処理時間のさらなる大幅な高速化がもたらされ得る。

【0057】

図３Ｂ、図３Ｃ、および図７を参照すると、必要とされる重みを、有利には、一度にほぼ一瞬で全てを有効にするＳ７０ことができることが好ましい。例えば、Ｎ×Ｍの重みは、１≦ｋ≦Ｋである場合、それぞれのメモリシステム１５７のＫ個の重みの第ｋの重みを付随して選択すること、およびそれに応じて選択されたそれぞれの重みを現在アクティブな重みとして設定することによって、有効Ｓ７０にされ得る。状況に応じて、Ｎ×Ｍのメモリシステム１５７全体、またはこの部分集合のみ、例えば、部分配列に対する重みの選択が行われてよい。例えば、Ｌ成分の標準より小さいベクトル（Ｌ＜Ｎ）をＬ×Ｌの行列で乗じる場合、対応する重み配列は、残りの重みを有効にする必要なく選択かつ設定可能であるが、これは、標準より小さいベクトルの残りの成分がゼロに設定（ゼロパディング）可能であるからである。全ての場合において、いくつかの重みは、場合により、付随して選択および設定され得る。その結果、コンテキストの変更はほぼ一瞬である。すなわち、１つの重み集合から別の重み集合への切り替えはいずれの実質的なダウンタイムも取り込まない。これは、例えば、図３Ｂおよび図３Ｃに示されるようなマルチプレクサ１５９を含んでいる選択回路によって実現可能である。

【0058】

実際には、図５Ａ、図５Ｂ、および図７において仮定されるように、いくつかの計算サイクルは連続して実行されなければならなくなる可能性がある。最高でＫ個のサイクルが、重みを局所的に切り替えることによって連続して実行可能である。すなわち、本方法は、いくつかの行列－ベクトル算出サイクルを実行するＳ６０～Ｓ１００ことになる可能性があり、この場合、それぞれのサイクルは、（ｉ）新たなＮ×Ｍのアクティブな重み集合を有効にするＳ７０こと、（ｉｉ）有効にされた重みおよび関連のＮベクトルに基づいてＭＡＣ演算を実行するＳ８４こと、および、（ｉｉｉ）対応する値を得るためにＭ個の出力線１５３の出力で得られた出力信号を読み出すＳ９０ことを含む。毎回、新たなＮ×Ｍの重み集合は、それぞれのメモリシステム１５７について、そのＫ個の重みからある重みを選択すること、および選択された重みをアクティブな重みとして設定することによって、Ｎ×Ｍのセル１５５に対して有効にされるＳ７０。ＭＡＣ演算を実行するＳ８４ために、Ｎベクトルを符号化する信号がクロスバー配列構造１５のＮ個の入力線１５２に適用されＳ８２、それによって、後者は、このＮベクトル、および新たなＮ×Ｍのアクティブな重み集合に基づいて、ＭＡＣ演算を実行するＳ８４。

【0059】

すなわち、入力信号はＮ個の入力線１５２に繰り返し適用されて、Ｎベクトルを連続して供給しかつＭＡＣ演算をそれに応じて実行させる。先に述べたように、それぞれのＮベクトルは、実際、（例えば、所与の入力行列からの）より大きい入力ベクトルの一部分に対応し得、この部分には、図５Ａに示されるように、対応するブロック行列が割り当てられる。その場合、それぞれの行列－ベクトル算出サイクルでクロスバー配列に供給されたＮベクトルは異なっている。その他の場合、同じＮベクトルが場合により数回連続して適用され得るが、これは、ステップＳ３０の上流で決定された演算分解スキームに左右される（図７）。

【0060】

全ての場合において、新たなアクティブな重み集合は、重みを変更するための中間のプログラムするステップを受けることなく、実行される行列－ベクトル算出サイクルでこのそれぞれに対して局所的に有効にされ得る。先に述べたように、これには、当然ながら、考えられる先読み演算が行われ得、この演算は、それにもかかわらず、パイプライン方式により隠される。すなわち、Ｎ×Ｍの重み集合ｑ個は、場合により、Ｋ個の行列－ベクトル算出サイクルを完了するより前に、（以前の重み集合ｑ個の代わりに）先読みされＳ１１５かつ格納され得る。例えば、単一のＮ×Ｍの重み集合は、それぞれの反復において先読みされ得る（ｑ＝１）。別形では、２つのＮ×Ｍの重み集合は、各第２の反復を完了後に先読みされ得る。様々な他の先読みスキームが考えられ得る。そのような先読みスキームは場合により、作業負荷に応じて動的に適用され得ることに留意されたい。

【0061】

また、大きなオペランドを含んでいる演算について、それぞれの中間サイクルの終わりに得られた部分結果は有利には、局所的に累積され得る。すなわち、計算サイクルの一部の後に、部分積の結果が、（クロスバー配列構造１５の出力において）デバイス１０、１０ａにおいて累積Ｓ９０され得る。すなわち、後に最終結果を再構成することを目的として、累積は連続して実行される。最終結果は連続した累積に基づいて得られる。最終結果は例えば、一定数の計算サイクルを完了すると、外部記憶装置２に返されてよい。興味深いことに、新たな重み値が場合により、中間で先読みされるＳ１１５場合があるため、さらなる行列－ベクトル算出サイクルは、部分結果を累積し続けながら途切れることなく実行可能である。

【0062】

部分累積のおかげで、更新された重みおよび部分結果の中間の転送によるアイドル時間を伴うことなく、行列－ベクトル算出の最終結果のみが外部メモリに転送かつ書き込まれることを必要とする。行列－行列乗算が実行される場合、それぞれの行列－ベクトル積の最終結果は、場合により、デバイス１０でも局所的に格納され得る。行列－行列乗算ではその後、結果のみを、外部メモリ装置２に返さなければならなくなる。両方の場合、外部エンティティに最終結果を転送するより前に、連続した累積に基づいて、一部の結果が局所的に得られる。部分結果は外部エンティティに転送される必要はなく、連続した累積により、格納される必要さえなく実際には削除される。

【0063】

図７の流れを考慮して、図５Ａの例を考察する。ここでは、行列－行列乗算を実行することを目的とする。これは、先に述べたように、Ｋ×Ｔの行列－ベクトル算出サイクルに分解可能であり、ここで、Ｔは入力行列のうちの１つの列数に対応し、それに応じて、Ｔ個の入力ベクトルに分解される。そしてまた、それぞれの入力ベクトルは、Ｋ個の副ベクトル、すなわち、それぞれＮ成分のＮベクトルに分解可能であり、この場合、それぞれのＮベクトルは各々のブロック行列に関連付けられる。すなわち、Ｋ×Ｎの成分のそれぞれの入力ベクトルは、Ｋ個のブロック行列に関連付けられ、後者はＮ×Ｍの重み集合Ｋ個に対応する。次いで、Ｋ×Ｔの行列－ベクトル算出サイクルが以下のように実行可能であるＳ５０～Ｓ１１０。最初、（Ｋ個のブロック行列に対応する）Ｎ×Ｍの重み集合Ｋ個はロードされＳ５５、それに応じて、メモリシステム１５７においてプログラムされて、後者はＮ×Ｍの重み集合Ｋ個を格納する必要がある。次に、Ｔ個の入力ベクトルのそれぞれの、それぞれのＮベクトル（すなわち、Ｋ個の副ベクトルのそれぞれ、ステップＳ６０～Ｓ１００を参照）に対して、算出サイクルが実行される（ステップＳ５８～Ｓ１１０を参照）。すなわち、Ｎベクトルに関するループは、入力ベクトルのためのループにネストされ得、これら入力ベクトル自体は、必要に応じて、入力行列のためのループにネストされ得る（ステップＳ５０～Ｓ１２０）。

【0064】

（Ｎベクトルに関する）最も内側のループは、先に記載したのと同じ原理に従う。すなわち、Ｎ×Ｍのアクティブな重みは、現在アクティブな重みとして有効にされＳ７０、この重みは、以前に割り当てられたように、現在のＮベクトルに関連付けられたブロック行列に対応する。次いで、現在のＮベクトルを符号化する信号がＮ個の入力線１５２に適用されてＳ８２、クロスバー配列構造１５は、このＮベクトルおよび現在アクティブな重みに基づいてＭＡＣ演算を実行するＳ８４。Ｍ個の出力線１５３の出力で得られた出力信号は、さらにまた、対応する部分値を得るために読み出され、これは有利には、デバイス１０において累積可能であるＳ９０。すなわち、それぞれのＮベクトルに対して得られた部分値（しかしながら一番最初のもの）は、以前のＮベクトルに対して以前に得られた部分値と共に局所的に累積可能であるＳ９０。このように、それぞれのサイクルにおいて更新された結果が得られる。最後に得られた更新された結果は、最終的に、外部メモリに返されるＳ１２０。

【0065】

そのような演算は図５Ａに視覚的に示されており、ここで、Ｋはこの例では４に等しいと仮定される。すなわち、行列－行列乗算は、Ｔの算出サイクル４つにおいて計算されることになり、Ｔ個の入力ベクトルのそれぞれは、図５Ａに見られるように、４×Ｎ成分を有する。さらに、演算のシーケンスは、この例ではＴ＝４の入力ベクトルと仮定する。各ブロック行列は、単一のＮ×Ｍの重み集合として格納される。ＩＭＣ配列における演算装置では、Ｎベクトルおよび関連の重み集合の各対に対して部分内積を計算する。図５Ａは、配列では各算出サイクルにおいてコンテキスト（すなわち、重み集合）をどのように切り替え、かつアキュームレータにおいて局所的に完全な結果をどのように計算するのかを示している。最後の反復後でしか、最終結果は外部メモリにライトバックされない。すなわち、アキュームレータは、４つの部分積を連続して累積し、最後に、結果を外部メモリにライトバックする。このプロセスはＴ回、すなわち、入力ベクトルごとに１回繰り返される。

【0066】

図５Ｂはタイミングを示す。最初に、全ての重み集合（ＷＳ０～ＷＳ３）はＩＭＣに連続してロードされ、このことは図７におけるステップＳ５５に対応する。次いで、計算サイクルがインターリーブ式に開始される。４つの入力ベクトルのみが含まれており（Ｔ＝４）、それぞれはＮ成分のＫ＝４の副ベクトルに分解される。重み集合ＷＳ０～ＷＳ３は、Ｔ個の入力ベクトルのそれぞれのＫ個の部分のそれぞれに従って、連続して有効にされる（すなわち、回転する）。

【0067】

この例では利用可能な４つの重み集合が使用されているため、必要とされる重み集合全てが、いずれの先読みも必要とすることなく前もって配列１５においてあらかじめロード可能であるＳ５５。すなわち、図７のフローで仮定された分解は、推測的に、重みの先読みを必要としないが、これは、行列－ベクトル演算が既に、この例において全てのＫ個の重み集合の回転を利用することで、先を見越して次の重み集合を先読みする余地がない（また、実際その必要がない）からである。

【0068】

しかしながら、先読みすることは、入力ベクトルがＫ個以上の部分に分解されなければならないとすれば、有利となり得る。それに加えて、図５Ａおよび図７の文脈においても、新たな重みは、場合により、一番最後の入力ベクトルに対応する最後のＫ個の副ベクトルを処理する間に先読みされ得る。すなわち、これらのＫ個の副ベクトルのいずれかに対する演算サイクルを完了すると、新たな重み集合を先読みし、かつそれを以前にアクティブであったＮ×Ｍの重みの代わりに書き込む命令が与えられ得る。これによって、別の行列－行列乗算に関連している計算を開始するＳ５０より前に、（ステップＳ５５に対応する）アイドル期間が短縮される。

【0069】

当然ながら、図５Ａおよび図７は、演算の１つの考えられるマッピングを反映する。演算の種々のシーケンスにつながるさまざまな他の計算ストラテジがステップＳ３０において考えられ得る。さらに、注目すべき点は、実行時間で採用された分解スキームにかかわらず、コアコンピュータデバイス１０は全般的に、必要に応じて重みの先読みを可能にするように設計され得ることである。

【0070】

最適な演算のマッピングは、外部処理装置２、１３、すなわち、コアコンピュータ配列１５とは別の装置によって判断されるＳ３０。依然として、この外部処理装置１３は、場合により、図２Ｂで仮定されるように、デバイス１０、１０ａにおいてコアＩＭＣ配列１５と共に集積され得る。全ての場合において、処理装置２、１３を使用して、計算ストラテジを判断し（すなわち、副ベクトルおよびブロック行列を識別しかつそれらを関連付けし）、この演算は条件付き演算とも称され得る。実際には、この演算は、所与の課題を、一定数の副ベクトルおよびＮ×Ｍの重み集合Ｋ個にマッピングするＳ３０ことになる。このステップは、それに応じて、ＭＡＣ演算をその後実行することを目的として、Ｎ×Ｍのメモリシステム１５７をプログラムしＳ５５、かつ計算されたベクトルを入力信号に符号化するより前に実行される。処理装置２、１３は、場合により、後に論じられるように、その他のタスクを実行してよい。

【0071】

実施形態では、ＭＡＣ演算は、ビット直列に、すなわち、Ｐ個の直列サイクルで実行されＳ８４、ここでＰ≧２である。実際には、Ｐは典型的には２^ｒに等しく、ここで３≦ｒ≦６である。Ｐは図４Ａの例において８に等しいと仮定される。値Ｐは、入力時に使用されるＮベクトルのそれぞれのビット幅に対応する。Ｐ個のサイクルのそれぞれを完了すると、部分積値がその場合に局所的に累積されるＳ８６必要があることに留意されたい。計算サイクルＳ８２～Ｓ８８は、行列－ベクトル算出サイクル（Ｓ５０～Ｓ１００）と区別される必要がある副サイクルであり、これら自体は部分累積Ｓ９０から利益を得る場合がある。すなわち、それぞれの内部計算サイクルＳ８０はＰ個のサイクルを含むのに対して、行列－ベクトル算出サイクルはＫ個のサイクルを含む（それら自体、Ｔ個のサイクルにおいてネストされる）。

【0072】

別形では、本方法は、並列実装形態（図４Ｂを参照）に依存しており、これは、図４Ａにあるようないずれの並列直列変換も必要としない。並列実装形態では、それぞれのＮベクトルは、単一サイクルで重み乗算により処理される。さらなる別形では、ビット直列値への並列供給を伴うハイブリッド手法が考えられ得る。

【0073】

本発明の別の態様は、メモリ内処理のためのコンピュータプログラムに関係する。コンピュータプログラム製品は、プログラム命令が具現化されているコンピュータ可読記憶媒体を含み、この場合、プログラム命令は、メモリ内処理ハードウェアデバイス１０、１０ａの処理手段１２、１３、１４によって、後者に、上述されるステップを、必要に応じて、ＭＡＣ演算Ｓ８４、ならびに累積Ｓ８６、Ｓ９０および先読みＳ１１５演算を始めとして、実行させるように実行可能である。より一般的には、そのような処理手段１２、１３、１４は、図２Ｂにおいて示唆されるように、前処理演算および後処理演算の一部（または場合により全て）を処理する。これらの演算は例えば、命令ベースのプロセッサ、または様々な命令またはコマンドベースの制御機構を有する専用アクセラレータ上で実行可能である。

【0074】

計算ストラテジを判断することを目的とする演算Ｓ３０は別として、装置１３は場合により、例えば、要素ごとの演算または非線形演算に関連している他のタスクを実行し得る。例えば、機械学習（ＭＬ）アプリケーションでは、装置１３は、特徴抽出を実行して、一部の入力データ（例えば、画像、音声ファイル、またはテキスト）をベクトルに変換してよく、このベクトルは、その後、クロスバー配列構造１５、１５ａを使用して、認知モデルを訓練するためにまたは推測目的で使用される。その点において、１つまたは複数のニューロン層は場合により、配列１５、１５ａ上に、該配列のパーティションに応じてマッピングされ得る。依然として、装置１２～１４は、場合により、配列からの出力を収集し、（必要に応じて）そのような出力を処理し、およびそれらを新たな入力として配列に再注入することで、例えば、実行される必要があるディープニューラルネットワークの複数の層をマッピングし得る。（特徴抽出などの）ＭＬ演算は、注目すべきことには、深さ方向の畳み込み、プーリング／アンプーリングなどを実行する必要があり得る。同様に、後処理装置１４を活用して、出力ベクトルのアフィンスケーリングを実行する、非線形活性化関数を適用することなどを行ってよい。

【0075】

より一般的には、装置１２～１４は様々な演算を実行する場合があり、これらは実際のアプリケーションに左右される。また、そのような演算は、クライアントデバイス３および中間デバイス２において部分的に実行されてよい。アプリケーションに左右され得る様々な計算ストラテジが考案可能である。

【0076】

図１～図４Ｂを再び参照して、メモリ内処理ハードウェアデバイス１０、１０ａに関係する本発明のさらなる態様について、ここで詳細に説明する。このデバイスの機能的特徴および構造的特徴は既に本方法に関して説明されている。そのような特徴について、下記において簡潔に説明するにとどめる。

【0077】

本方法に適合するように、デバイス１０、１０ａは、図２Ａなどに示されるクロスバー配列構造１５を備える。すなわち、配列１５は、Ｎ×Ｍのセル１５５を定めるクロスポイントにおいて相互接続されるＮ個の入力線１５２およびＭ個の出力線１５３を含む。それぞれのセル１５５は、対応するメモリシステム１５７を含み、それぞれはＫ個の重みを格納するように設計される。配列１５は、ＭＡＣ演算を実行するように設計される。

【0078】

デバイス１０、１０ａは、図３Ｂなどに（部分的に）示される選択回路１５９をさらに含む。選択回路１５９は、Ｎ×Ｍのメモリシステム１５７に接続される。この回路１５９は、全般的に、それぞれのメモリシステムのＫ個の重みからある重みを選択し、かつ選択された重みをアクティブな重みとして設定するように構成される。これによって、Ｎ×Ｍのセル１５５に対してＮ×Ｍのアクティブな重みを有効にすることができる。

【0079】

デバイス１０、１０ａは、Ｎベクトルを配列１５のＮ個の入力線１５２に符号化する信号を適用するように構成される入力装置１５１、１５１ａも含む。これによって、配列１５は、演算時に、選択回路１５９によって有効にされるように、Ｎベクトルおよび対応するＮ×Ｍのアクティブな重みに基づいてＭＡＣ演算を実行する。

【0080】

さらに、読み出し装置１５４は、先に論じたように、Ｍ個の出力線１５３の出力で得られた出力信号を読み出し、必要に応じて、部分出力値を累積するように構成される。また、読み出し装置は広い意味で理解されるべきである。例えば、該装置は、アキュームレータ１５４、１５４ａ、および／またはそのような出力値を格納するメモリエレメントを含んでよい。アナログ実装形態では、読み出し装置は、アナログデジタル変換器をさらに含んでよい。

【0081】

Ｎ×Ｍのメモリシステム１５７のそれぞれは、好ましくは、このＫ個の重みが独立してプログラム可能であるように設計される。図３Ｂに見られるように、デバイス１０、１０ａは、それぞれのメモリシステム１５７に接続されるプログラム回路１５８を含んでよい。上記のように、対応するメモリシステムに接続される一部分であるプログラム回路１５８の一部分のみが図３Ｂに示されている。全体として、プログラム回路１５８は、Ｎ×ＭのメモリシステムのそれぞれのＫ個の重みをプログラムするように構成される。各メモリシステムのＫ個の重みが独立してプログラム可能であるため、アクティブな重みとして現在設定されていないＫ個の重みのいずれかは、Ｋ個の重みの別のものがアクティブな重みとして現在設定されている場合でも、場合により（再）プログラムされ得、これによって、演算時に、重みを先を見越してロード（先読み）することが可能である。

【0082】

すなわち、プログラム回路１５８は、有利には、１≦ｑ≦Ｋ－１である場合、アクティブな重みとして現在設定されていないＮ×Ｍの重み集合ｑ個を先読みし、それに応じて、Ｎ×Ｍのメモリシステム１５７をプログラムして、後者がＮ×Ｍの重み集合ｑ個の代わりに、先読みされた重みを格納するように構成され得る。よって、演算時に、クロスバー配列構造１５が既に、現在アクティブである重みに基づいてＭＡＣ演算を実行している間に、プログラム回路１５８は、Ｎ×Ｍのメモリシステム１５７のそれぞれをプログラムして、アクティブな重みとして現在設定されていない重みを変更してよい。

【0083】

プログラム回路１５８は、計算回路１５が現在アクティブな重みに基づいてＭＡＣ演算を実行している間に、現在アクティブではない重みを先を見越して再プログラムできるように、該計算回路から十分に独立していなければならないことに留意されたい。この独立性によって、次の演算のサイクルに必要になるそれらの重みを先を見越してロードすることが可能になる。先読み演算は、例えば、１回にいくつかの重み集合に対して実行され得る。先に述べたように、様々な先読みスキームが考えられ得る。

【0084】

プログラム回路１５８は例えば、図２Ｂにおいて仮定されるように、局部記憶装置１１を構成および制御論理回路１２に接続し得る。アナログ実装形態では、原則として、入力線１５２を再利用してメモリシステム１５７をプログラムし得るが、算出サイクル中にメモリシステム１５７を再プログラムできるように、別個のプログラム回路を設けるのが好ましい。同様に、デジタルメモリセル（すなわち、デジタルメモリエレメントを含むセル）は、例えば、ＳＲＡＭメモリデバイスにおける書き込み動作のためにワード線およびビット線を具現化する専用の線に接続可能である。図３Ｂの図示とは対照的に、選択回路１５９は場合により、読み取り動作のためにワード線およびビット線を再利用し得ることに留意されたい。よって、選択回路およびプログラム回路は、実際、一部が重複している場合がある。

【0085】

図３Ａおよび図３Ｂの例では、Ｎ×Ｍのメモリシステム１５７のそれぞれは、簡潔にするために、Ｋ個の異なったメモリエレメントを含む。それぞれのメモリエレメントは、対応する重みを格納するように適応される。その場合、選択回路１５９はＮ×Ｍのマルチプレクサを含み得る。それぞれのマルチプレクサは、図３Ｂに示されるように、対応するメモリシステム１５７の全てのメモリエレメントに接続される。さらに、選択制御線はそれぞれのマルチプレクサに接続されることで、それぞれのメモリシステム１５７のＫ個の重みのいずれかが、演算時にアクティブな重みとして選択かつ設定可能である。選択ビットは、図３Ｃに示されるように、制御線を通して伝えられて、アクティブな重みを選択することができる。

【0086】

図３Ｃの例では、マルチプレクサは、共通出力Ｘに到達するための、インバータおよび論理「ＮＡＮＤ」ゲートを使用するチャネルマルチプレクサである。すなわち、組み合わせ論理回路は、いくつかの入力線Ａ、Ｂ、Ｃ、Ｄのうちの１つを単一の共通出力線Ｘに切り替える。データ線Ａ、Ｂ、Ｃ、Ｄは、図３ＢにおけるＷ_{１、１、０}、Ｗ_{１、１、１}、Ｗ_{１、１、２}、Ｗ_{１、１、３}に対応する。（バイナリ入力アドレスを伝達する）データ選択線は、それぞれ、最下位ビット（ＬＳＢ）および最上位ビット（ＭＳＢ）に対応するＡｄｄ_０およびＡｄｄ_１によって定められる。Ｎ×Ｍのマルチプレクサを使用して、Ｎ×Ｍのメモリシステムの重みを切り替える。原則として、それぞれのマルチプレクサの個別の制御を可能にするために、マルチプレクサ１５９ごとにせいぜい２×Ｎ×Ｍの制御線、すなわち、２つの制御線がある。しかしながら、実際には、制御線は、マルチプレクサ、特に、以下に論じられるように、重み集合を同時に選択することを望む場合は、場合により全てのマルチプレクサにわたって共有可能である。よって、全ての制御線は好ましくは共有され、これによって、Ｍ×Ｎのメモリシステムにおける各エレメントに対して同じインデックスＫが同時に選択可能になる。そのような場合、制御線の数はＬｏｇ_２（Ｋ）線まで低減可能である。

【0087】

同様に、プログラム回路１５８は、Ｎ×Ｍのデマルチプレクサを含んでいる場合があり、この場合、同じ制御ビット線が配列１５全体に使用される。また、簡潔にするために、図３Ｂでは、対応するメモリシステム１５７に接続される単一のデマルチプレクサ１５８が示されている。しかしながら、実際には、各々のメモリシステム１５７に接続される、Ｎ×Ｍのデマルチプレクサ１５８およびＮ×Ｍのマルチプレクサ１５９がある。別形では、プログラム回路１５８および選択回路１５９は、他のタイプの電子部品を含んでよく、この場合、そのような部品は、必要に応じて、メモリ値をプログラムしかつ選択するために、それぞれのセルに配置される、または少なくともそれぞれのセルに接続する。さらなる別形では、それぞれのメモリシステムは、Ｋ個の異なったメモリエレメントで構成される代わりに、対応するローカルアドレスでＫ個の異なった値を格納するように構成される。

【0088】

先に述べたように、必要とされる重みは、好ましくは、一度に全て有効にされるＳ７０。その目的に向けて、選択回路１５９は有利には、Ｎ×Ｍの重み集合Ｋ個のうちの１つからｎ×ｍの重みの（少なくとも）部分集合を選択するように構成され得る。これは、２≦ｎ≦Ｎ、２≦ｍ≦Ｍ、および１≦ｋ≦Ｋの場合、ｎ×ｍのメモリシステム１５７の部分集合のそれぞれのメモリシステムのＫ個の重みの第ｋの重みを付随して選択することによって、最も効果的に実現される。先に示したように、ｎ×ｍの部分配列の重みを有効にすることは、Ｎ×Ｍの重み全てが切り替えられなければならないわけではない場合のそれらの行列－ベクトル算出には有利であり得、これは、課題が最初にＮ×Ｍのセル１５５上にどのようにマッピングされるかに左右される。切り替え演算はまれに、単一のセル（すなわち、ｎ＝１およびｍ＝１）に対して実行されなければならない場合があることに留意されたい。しかしながら、実際には、重みの選択は、概ね、Ｎ×Ｍのメモリシステムの大きな部分集合（すなわち、ｎ＞１およびｍ＞１）、またはさらには、図５Ａ、図５Ｂ、および図７に関して先の論じられたアプリケーションの例にあるように、特に大きなオペランド行列が含まれているＮ×Ｍのメモリシステムの全てに対して、同時に実行されることになる。しかしながら、別形では、選択回路１５９は、全てのメモリシステム１５７を同時に体系的に切り替えるように、Ｎ×ＭのメモリシステムのそれぞれのＫ個の重みの第ｋの重みを付随して選択することによって、Ｎ×Ｍの重み集合Ｋ個のうちの１つからＮ×Ｍの重み集合を体系的に選択し得る。よって、一般に、選択回路１５９は、１≦ｎ≦Ｎおよび１≦ｍ≦Ｍの場合、配列１５のｎ×ｍのメモリシステムに対して、ｎ×ｍの重み集合を選択しかつ後者をアクティブな重みとして設定するように構成される。

【0089】

デバイス１０、１０ａは、典型的には、入力装置１５１、１５１ａおよび選択回路１５９に接続されるシーケンサ回路を含む。シーケンサ回路は、入力装置１５１、１５１ａおよび選択回路１５９の演算を編成することで、先に説明したように行列－ベクトル算出のいくつかのサイクルを連続して実行する。すなわち、そのような演算はＮベクトルに基づいている。行列－ベクトル算出のそれぞれのサイクルは、（実行されるＭＡＣ演算がビット直列に供給されるか否かに応じて）ＭＡＣ演算の１つまたは複数のサイクル、および異なったＮ×Ｍの重み集合を含んでおり、後者は、それぞれのサイクルにおいて、Ｎ×Ｍの重み集合Ｋ個から選択され、かつＮ×Ｍのアクティブな重みとして設定される。シーケンサ回路、プログラム回路１５８、および入力回路１５１は、好ましくは、図２Ｂにおいて仮定されるように、典型的にはオンチップ論理装置１２を含む、同じ構成および制御論理回路の一部を形成する。すなわち、シーケンス関数は、好ましくは、他の構成および制御関数と同様に、論理装置１２によって実行される。

【0090】

さらに、デバイス１０、１０ａは、それぞれの行列－ベクトル算出を完了すると得られる部分積値を累積するように構成されるアキュームレータ回路１５４、１５４ａを含み得る。また、ビット直列アプリケーションでは、行列－ベクトル算出のそれぞれのサイクルは、図７に関して先に論じた実施形態にあるように、ビット直列演算により、いくつかのＭＡＣサイクルＳ８０を含んでいる。ここで、さらなる累積Ｓ８６が実行されなければならない。（並列直列変換１５１ａを必要としない）並列実装形態に依存する別形において、完全な入力では単一サイクルで重み乗算が実行される。全ての場合において、それぞれの行列－ベクトル算出サイクル中にアクティブな重みは同じ状態のままである。

【0091】

図４Ａおよび図４Ｂに見られるように、アキュームレータ回路１５４、１５４ａは、出力線１５３の出力に配置可能である。アキュームレータはそれ自体が既知である。アキュームレータ回路１５４、１５４ａは、注目すべきことには、読み出し装置（図示せず）の一部を形成し得る。別形では、アキュームレータは、注目すべきことには、それぞれのセルのレベルでビット直列演算中に得られた値を累積するＳ８６ために、場合によりそれぞれのセルに配置され得る。

【0092】

上記のように、Ｎ×Ｍのメモリシステム１５７のそれぞれは、好ましくは、簡潔にするために、Ｋ個の異なったメモリエレメントを含む。それぞれのメモリエレメントは、対応する重みを格納するように適応される。そのようなメモリエレメントは、注目すべきことには、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイスなどのデジタルメモリエレメントであり得る。別形では、メモリエレメントはアナログメモリエレメントである。その場合、それぞれの乗累算演算、すなわち、Σ_ｉＷ_{ｉ、ｊ、ｋ}ｘ_ｉは、類推によって実行され、出力信号は、（必要に応じて）アナログデジタル変換器（ＡＤＣ）回路を使用してデジタル領域に移される。メモリエレメントは、オプションとして、不揮発性メモリエレメントであり得る。より一般的には、本発明は、様々なタイプの電子メモリデバイス（例えば、ＳＲＡＭデバイス、フラッシュセル、メモリスタデバイスなど）に対応する。相変化メモリセル、抵抗変化型メモリ（ＲＲＡＭ）、および電気化学的ランダムアクセスメモリ（ＥＣＲＡＭ）デバイスなどの任意のタイプのメモリスタデバイスが考えられ得る。

【0093】

好ましい実施形態では、Ｋ個のメモリエレメントのそれぞれは、ＳＲＡＭデバイスなどのデジタルメモリエレメントである。その場合、それぞれのセル１５５は、対応する選択回路部分１５９を介して（例えば、マルチプレクサを介して）対応するメモリシステム１５７のＫ個のメモリエレメントのそれぞれに接続される（乗算器および加算木を含む）演算装置１５６をさらに含む。それぞれのセルは、（マルチプレクサまたはその他の選択回路コンポーネントなどの）選択回路コンポーネントを介してそれぞれのメモリエレメントに物理的に接続されるが、選択回路によってなされた選択により、一度にそのようなエレメント１つのみに論理的に接続されることに留意されたい。

【0094】

ビット直列実装形態（図４Ａ）では、それぞれのメモリエレメントは、Ｐビットの重みを格納するように設計される。入力装置１５１は、入力信号を適用することで、Ｐ個のサイクル（Ｐ≧２）でＮベクトルの成分を入力線１５２にビット直列に供給するように構成され、それぞれのベクトル成分はＰビット入力ワードに対応する。Ｎ×Ｍのセル１５５は、さらにまた、ＭＡＣ演算をビット直列に（すなわち、Ｐ個のサイクルで）実行するＳ８０ように設計されなければならない。よって、ハードウェアデバイス１０は、Ｐ個のサイクルのそれぞれにおいて得られる部分的なビット直列積値に対応する値を累積するためのアキュームレータ回路１５４を含まなければならず、これは図７におけるステップＳ８６に対応する。一方では、選択回路１５９は、Ｐ個のサイクルのそれぞれの間のアクティブな重みと同じＮ×Ｍの重み集合を維持しなければならない。

【0095】

実装形態の例として、（ｉ）クロスバー配列がＮ×Ｍ＝５１２×５１２の配列である、（ｉｉ）Ｋ＝４であり、それによって、合計で、４つの切り替え可能なＮ×Ｍの重み集合が利用可能である、および（ｉｉｉ）図４Ａにあるように、入力サンプルのビット幅（ＩＢＷ）がＰ＝８ビットに等しいことで、重みのビット幅（ＷＢＷ）も８ビットに等しいと仮定する。ＩＭＣデバイス１０は、５１２の成分のＮベクトルを取り入れる（それぞれの成分は８ビット入力ワードに対応する）。それぞれのベクトル成分は、Ｐ＝８サイクルにおいてビット直列に供給される。ＩＭＣデバイス１０は、合計で（それぞれ８ビットの）５１２×５１２×４の重みをマッピングする。重み集合の１つのみがＰ個のサイクルの各サイクルの間の処理にアクティブであるＳ８０。先に述べたように、ビット直列サイクルＳ８０は、行列－ベクトル算出サイクル（Ｓ６０～Ｓ１００）と混同させてはならない。各サイクルＳ８０では、Ｎ個の入力ビット全て（１行当たり１つ）にはＭ個の重み（１列当たり１つ）が乗じられる。得られた部分積は、１７ビット値として（ＷＢＷ＋Ｌｏｇ_２（Ｎ）＝１７として）格納可能であり、これは、ＩＭＣ１５より下のアキュームレータ１５４においてＩＢＷ＝８サイクルで累積されて、最後に、完全ベクトル積、すなわち、この算出サイクルＳ８０に対する最終結果を生成する（Ｓ８８：はい）。

【0096】

また、ＩＭＣ配列における演算装置では、Ｎベクトルおよび関連のブロック行列の各対に対して部分内積を計算する。アキュームレータ１５４は、最終結果を外部メモリにライトバックするより前に、Ｋ個の部分積を累積するＳ９０ためにさらに使用されてよい。ＩＭＣは各行列－ベクトル算出サイクルでコンテキスト（重み集合）を切り替える。このプロセスは各入力ベクトルに対して繰り返され得る。例えば、プログラム可能なアキュームレータは、例えば、シフトおよび反転演算後に得られる、いくつかの中間結果値を累積するようにプログラム可能である。よって、８ビットのビット直列のＩＭＣ実装形態でＫ個の重み集合が使用される場合、アキュームレータ１５４は、ビット直列シーケンスの反復に応じて適切にシフトされるＫ×８（１７ビット）の値を内部に累積し得る。Ｐ＝８、Ｋ＝４、およびＮ＝５１２である場合、出力アキュームレータの最終ビット幅は２７ビットである。２７ビットは以下のように計算される。ビット直列プロセスのそれぞれの反復で、５１２の８ビット乗算値が累積され、これを表すためには１７ビットを必要とする。１７ビットの値は８つのサイクルでシフトされかつ累積され、この場合、合成値は、十分に表されるように２５ビットを必要とする。アキュームレータは、Ｋ＝４の異なる重み集合に対してこのサイクルを繰り返すことができ、最後に、最終結果を表すために２７ビットを必要とする。

【0097】

一般に、パラメータＮ、Ｍ、Ｐ、およびＫは、様々な考えられる値を取り得る。上に示される値は例に過ぎない。図４Ｂなどに示される並列実装形態に依存する別形では、並列から直列の変換は必要ではない。むしろ、ベクトル成分は、入力装置１５１ａを介して、対応する入力線１５２のＭ個のセルのそれぞれに並列に供給される。完全な入力が単一サイクルで（重み乗算により）実行される。アキュームレータ１５４ａを使用して、部分積を累積するＳ９０ことで、現在のＮベクトルおよび関連の行列ブロックがもたらされる。その場合、ＭＡＣ演算に対する中間累積は必要ではない。

【0098】

ビット直列実装形態に基づくか並列実装形態に基づくかにかからわらず、ハードウェアデバイス１０、１０ａは、図２Ｂにあるように、入力装置１５１、１５１ａおよび選択回路１５９のそれぞれに接続される構成および制御論理部１２を組み込み得る。さらに、事前データ処理装置１３は、（課題をＮベクトルおよびブロック行列に適当にパーティション分割しかつ演算を命令するように）構成および制御論理部１２に接続されてよい。完全を期すために、事後データ処理装置１４は、出力線１５３の出力に、例えば、アキュームレータ１５４、１５４ａの出力に接続されることで、必要に応じて出力データを適当に再配置し、かつ、図１に見られるように、それらデータをローカルメモリまたすぐ近くのメモリ（例えば、メモリ１１）に格納するように、またはそれらデータを外部エンティティ２に返すように命令し得る。

【0099】

その点において、本発明の別の態様は、コンピューティングシステム１に関係する。システム１は、特に、上述されるような、１つまたは複数のメモリ内処理ハードウェアデバイス１０、１０ａを含み得る。コンピューティングシステムは、例えば、図１において仮定されるように、クライアント／サーバ構成を有し得る。すなわち、ユーザ４は、計算を実行することを目的として（パーソナルデバイス３を介して）サーバ２と対話し得る。後者では、特に、実質的な行列－行列乗算または行列－ベクトル乗算が実行される必要があり得、この場合、サーバ２は、アクセラレータとして機能するハードウェアデバイス１０、１０ａにそのような計算をオフロードすることを決定し得る。

【0100】

サーバ２は、外部メモリ装置を外部の汎用処理装置２と統合するものとみなされ得、ここで、後者は前者に接続されることで、演算時に記憶装置２に対するデータの読み書きを行うようにする。さらに、メモリ内処理ハードウェアデバイス１０、１０ａのそれぞれは、サーバ２とデータ通信するように設定されることで、必要に応じて、サーバ２が送ってきた計算タスクに対処するように、記憶装置２に対して、データを読み取りかつデータをライトバックすることができる。汎用処理装置は、場合により、最初の計算タスク（解決されるべき課題）をＮベクトルおよび対応するブロック行列にマッピングするように構成され得ることに留意されたい。

【0101】

外部メモリ装置はおよび汎用処理装置は、図１の例における同じ汎用コンピュータ２（すなわち、サーバ）の一部を形成することに留意されたい。しかしながら、原則として、外部処理装置および記憶装置は、場合により、物理的に異なった機械に設けられ得る。さらなる別形では、システム１はまた、クラウドコンピューティングシステムとして構成され得、場合により、コンテナ化技術を使用し得る。すなわち、本発明は、特に、クラウドコンピューティングシステムとして具現化され得、何らかの形で、クラウドベースサービスの一部として利用され得る。システム１は、特に、ハードウェアデバイス１０、１０ａを、他のハードウェア加速デバイス、例えば、ＡＳＩＣおよびＦＰＧＡと共に含み得るコンポーザブル分解インフラストラクチャ（ｃｏｍｐｏｓａｂｌｅｄｉｓａｇｇｒｅｇａｔｅｄｉｎｆｒａｓｔｒｕｃｔｕｒｅ）をさらに含み得る。全ての場合において、データ交換は、先に説明したように計算を高速化するように最適化可能である。

【0102】

上記の実施形態は、添付の図面に関して簡潔に説明されており、いくつかの別形に対応し得る。上記の特徴のいくつかの組み合わせが考えられ得る。次の節において例を挙げる。

【0103】

２．特定の実施形態
とりわけ好ましい実施形態は、ＳＲＡＭメモリエレメントを有する、図２Ａ、図３Ａ、および図４Ａなどに示されるアーキテクチャに依存する。領域が典型的にはメモリエレメントではなく密結合した演算装置の割合が高いことで、さらに一層密に配置される可能性がある、先のクロスバー配列とは違って、演算装置（乗算器および加算木）とメモリエレメントとの間のＩＭＣチップの領域はバランスが取れている。メモリと演算領域との間のより良いバランスとは別に、（複数の重み集合による）提案された解決策によって、ＩＭＣ装置１５の柔軟性が向上し、より大きな行列－ベクトル乗算をネイティブにマッピングし、かつ重み集合を先読みすることが可能になる。それぞれの重み集合は別々のブロック行列を表す。それにもかかわらず、重み集合は、図３Ａおよび図３Ｂに見られるように、同じ演算装置に接続される。

【0104】

ますますもって、提案されたアーキテクチャおよび機能性はまた、（外部メモリとの相互作用が少ないことによる、図５Ａおよび図５Ｂを参照）効率の向上および（アクティブではない重み集合に対する重みを先読みする可能性による、図６）実行時間の高速化をもたらす。このアーキテクチャは、特に、アキュームレータ回路に依存し、この回路は、ビット直列サイクルおよび複数の重み集合の両方からもたらされる部分積を累積することができる。よって、中間結果を外部メモリに書き込む必要はない。これによって、読み出し／書き込み量が大幅に、すなわち、２Ｋ－１から（この場合、１つの重み集合のみが局所的に格納可能である）１まで（この場合、Ｋ個の重み集合が局所的に格納される）低減される。

【0105】

図７に見られるように、典型的な演算フローは下記になり、ビット直列実装形態を仮定している（図２Ａ～図４Ａをさらに参照されたい）。クロスバー配列構造１５を含むデバイス１０がステップＳ１０で提供され、例えば、デバイス１０は、サーバ２とデータ通信するように設定される。ステップＳ２０において、サーバ２は、行列－行列乗算を実行することを求める要求を（コンピュータ化クライアントとすることができるユーザ４から）受信する。ステップＳ３０で、サーバ２の処理手段または埋め込み処理装置１３のどちらかによって、計算ストラテジが判断される。これによって、Ｎベクトルは各々のブロック行列に関連付けられる。ステップＳ４０において、行列－行列乗算サイクルが開始される。ステップＳ５０で次の反復が開始され、それによって、Ｔ個の列の所与の入力行列が選択される。計算ストラテジの結果、Ｎ×Ｍの重み集合Ｋ個がステップＳ５５でロードされる。Ｋ個の重み集合は、算出サイクル中に連続して使用されるＫ個のブロック行列に対応する。メモリエレメントがそれに応じてプログラムされる。現在の入力行列の（Ｋ×Ｎの成分の）次の入力ベクトルがステップＳ５８で選択され、必要に応じてパディングされる。この入力ベクトルの次の副ベクトル（すなわち、Ｎ成分のＮベクトル）が、対応するブロック行列と共にステップＳ６０で選択される。ステップＳ７０において、対応するＮ×Ｍの重みがアクティブな重みとして局所的に有効にされる。

【0106】

ステップＳ８０においてブロック行列計算が開始される。ステップＳ８２において、（現在のＮベクトルのベクトル成分の）次のビットを配列１５のＮ個の入力線にビット直列に供給するためのループが開始される。ステップＳ８４においてビット直列ＭＡＣ演算が実行される。ステップＳ８６において部分結果が累積される。Ｐ個のビット直列サイクル全てが完了する（Ｓ８８：はい）まで、プロセスは繰り返される（Ｓ８８：いいえ）。Ｐ個のビット直列サイクル全てが完了すると、現在のＮベクトルの処理が完了する。

【0107】

このＮベクトルで得られた中間行列－ベクトル積は、必要に応じて以前の行列－ベクトル積と共に累積されるＳ９０。すなわち、一番最初の行列－ベクトル積を除いて、全ての中間行列－ベクトル積が累積される。関連のブロック行列による乗算のために全ての副ベクトルが処理される（Ｓ１００：はい）まで、中間行列－ベクトル積算出サイクル（Ｓ６０～Ｓ１００）が繰り返される。入力ベクトルに対するループ（Ｓ５０～Ｓ１１０）は全ての入力ベクトルに対して繰り返される。全てのベクトルが処理される（Ｓ１１０：はい）と、現在の入力行列に対する最終結果が呼び出しエンティティ２、１３に返されるＳ１２０。別形では、この結果は、全ての入力行列（Ｓ５０～Ｓ１２０）が処理されるまで局所的に格納されてよい。その時初めて、全ての入力行列に関する結果が返される。

【0108】

３．最終的な見解
コンピュータ化デバイス１０、１０ａおよびシステム１は、本明細書に説明されるように本発明の実施形態を実施するように適当に設計可能である。その点において、本明細書に説明される方法が本質的に対話的でない、すなわち、自動化されていることは、理解可能なことである。このような方法の自動化部分は、ハードウェアにのみ、またはハードウェアおよびソフトウェアの組み合わせとして実装可能である。例示的な実施形態では、本明細書に説明される方法の自動化部分は、ソフトウェアにおいて、サービスまたは実行可能プログラム（例えば、アプリケーション）として実装され、後者は、適したデジタル処理デバイスによって実行される。しかしながら、ここで説明される全ての実施形態は、場合により、デバイス１０、１０ａの先読みおよび累積能力を使用して、複数の重み集合を格納するように適応されたクロスバー配列構造により実行される計算を含んでいる。

【0109】

依然として、本明細書に説明される方法は典型的には、実行可能プログラム、スクリプト、またはより一般的には、デバイス１０、１０ａにおけるコア計算を実行するように命令する何らかの形態の実行可能命令を含んでいてよい。必要とされるコンピュータ可読プログラム命令は、例えば、コンピュータ可読記憶媒体から、ネットワーク、例えば、インターネットおよび／または無線ネットワークを介して、処理要素にダウンロード可能である。

【0110】

本発明の態様は、特に、フローチャートおよびブロック図を参照して本明細書に説明されている。フローチャートおよびブロック図のそれぞれのブロックまたはブロックの組み合わせが、コンピュータ可読プログラム命令により実装可能であることは理解されるであろう。添付の図面におけるフローチャートおよびブロック図には、本発明の様々な実施形態に従って、デバイス１０、１０ａ、ならびにそのようなデバイスを含んでいるシステム１、それらを動作させる方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作が示されている。

【0111】

本発明は、限られた数の実施形態、別形、および添付の図面を参照して説明されているが、当業者には理解されるであろうが、様々な変更がなされ得、本発明の範囲か逸脱することなく等価物に置き換えられ得る。とりわけ、所与の実施形態に列挙される（デバイス状または方法状の）特徴は、本発明の範囲から逸脱することなく、別の実施形態、別形、または図面における別の特徴と組み合わせられまたはこれに取って代わる場合がある。それ故に、上記の実施形態または別形のいずれかに関して説明される特徴の様々な組み合わせが考えられ得、これは添付の特許請求の範囲内にとどまる。さらに、本発明の範囲から逸脱することなく、特定の状況または材料を本発明の教示に適応させるように、多くの小さな修正がなされ得る。従って、本発明は開示される特定の実施形態に限定されず、本発明は添付の特許請求の範囲内にある全ての実施形態を含むことになることが意図されている。さらに、上で明示的に触れたもの以外の多くの他の別形が考えられ得る。例えば、他のタイプのメモリエレメント、選択回路、およびプログラム回路が考えられ得る。

【図1】