特許7427030 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7427030人工ニューラル・ネットワークのトレーニング方法、装置、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-25

(45)【発行日】2024-02-02

(54)【発明の名称】人工ニューラル・ネットワークのトレーニング方法、装置、プログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20240126BHJP

G06N 3/065 20230101ALI20240126BHJP

G06N 3/04 20230101ALI20240126BHJP

【ＦＩ】

G06N3/08

G06N3/065

G06N3/04

【請求項の数】 26

(21)【出願番号】P 2021568206

(86)(22)【出願日】2020-05-12

(65)【公表番号】

(43)【公表日】2022-07-21

(86)【国際出願番号】 EP2020063194

(87)【国際公開番号】W WO2020229468

(87)【国際公開日】2020-11-19

【審査請求日】2022-10-21

(31)【優先権主張番号】16/413,738

(32)【優先日】2019-05-16

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(72)【発明者】

【氏名】レガロ－ブルドー、マニュエル

(72)【発明者】

【氏名】カーダム－アルジャメー、リドゥアン

(72)【発明者】

【氏名】カル、ルカス

(72)【発明者】

【氏名】フランシス、ピアーアンドレア

(72)【発明者】

【氏名】トイフル、トーマス

(72)【発明者】

【氏名】セバスティアン、アブ

(72)【発明者】

【氏名】エレフセリウー、エヴァンゲロス、スタブロス

【審査官】▲はま▼中信行

(56)【参考文献】

【文献】特開２０１８－１２０４３３（ＪＰ，Ａ）

【文献】特開２０１８－２０６３７６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０１２２１０５（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１６／０３５８０７５（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１７／０２２８３４５（ＵＳ，Ａ１）

【文献】Takao Marukame et al.，Proposal, analysis and demonstration of Analog/Digital-mixed Neural Networks based on memristive device arrays，Proceedings of 2018 IEEE International Symposium on Circuits and Systems (ISCAS) [online]，IEEE，2018年05月，［令和5年12月26日検索］, インターネット <URL: https://ieeexplore.ieee.org/abstract/document/8351298>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０２－３／１０

(57)【特許請求の範囲】

【請求項1】

各々が、信号伝播および重み更新計算動作の反復サイクルを介して、隣接するニューロン層間で伝播される信号を重み付けするためのＮビット固定点重みのそれぞれの組｛ｗ｝を有する、シナプス層が介在した一連のニューロン層を有する人工ニューラル・ネットワークをトレーニングするための方法であって、前記方法は、シナプス層ごとに、
各Ｎビット重みｗの複数ｐ個の最下位ビットをデジタル・メモリに記憶することと、
各々が、Ｎビット重みｗのｎビット部分のそれぞれのビットを記憶するためのｎ個のバイナリ・メモリ・セルを含む、デジタル・メモリ素子のアレイを備えるアナログ乗算累算ユニットにおいて前記Ｎビット重みｗのｎビット部分、すなわち第（ｐ＋１）ビット～第（ｐ＋ｎ）ビットを記憶することであって、ここで、ｎ≧１および（ｐ＋ｎ＋ｍ）＝Ｎであり、ここで、ｍ≧０は、前記シナプス層の重みにおける最上位ゼロ・ビットの定義された数に対応する、前記記憶することと、
前記シナプス層によって重み付けされる信号を前記乗算累算ユニットに供給することによって信号伝播動作を実行し、前記重みの前記記憶されたｎビット部分に依拠して、累積された重み付けされた信号を取得することと、
前記デジタル・メモリおよび前記乗算累算ユニットに作動的に連結されたデジタル処理ユニットにおいて、前記重み更新計算動作を実行し、前記ニューロン層によって伝播される信号に依拠して、前記シナプス層の更新された重みを計算することと、
前記デジタル・メモリおよび前記乗算累算ユニットを周期的に再プログラミングして、前記更新された重みのビットを記憶することと、
を含む、方法。

【請求項2】

ｍは、前記シナプス層についてｍ＝０として定義され、（ｐ＋ｎ）＝Ｎである、請求項１に記載の方法。

【請求項3】

各Ｎビット重みの前記ｐ個の最下位ビットのみが前記デジタル・メモリに記憶される、請求項２に記載の方法。

【請求項4】

前記再プログラミングは、前記重み更新計算動作後に、前記デジタル・メモリ内の重みの前記ｐ個の最下位ビットと、前記乗算累算ユニットにおける重みの前記ｎビット部分との双方を再プログラミングすることによって実行される、請求項３に記載の方法。

【請求項5】

前記デジタル・メモリは、デジタル・メモリ・ユニットにおいて提供され、前記再プログラミングは、前記デジタル・メモリ・ユニットおよび前記乗算累算ユニットに共通のメモリ・コントローラによって実行される、請求項４に記載の方法。

【請求項6】

前記デジタル・メモリは、各Ｎビット重みが、その重みの前記ｐ個の最下位ビットを記憶するｐビットのデジタル・メモリと、その重みの前記ｎビット部分を記憶する前記デジタル・メモリ素子とを備えるユニット・セルに記憶されるように、前記乗算累算ユニットにおいて分散される、請求項４に記載の方法。

【請求項7】

前記デジタル・メモリを提供するデジタル・メモリ・ユニットに、各Ｎビット重みの全Ｎビットを記憶することを含む、請求項２に記載の方法。

【請求項8】

前記再プログラミングは、
前記重み更新計算動作後に、前記デジタル・メモリ・ユニットにおける前記Ｎビット重みを、前記更新された重みに再プログラミングすることと、
前記デジタル・メモリ・ユニットにおける更新された重みの前記ｎビット部分を、前記乗算累算ユニットにおける、その重みの前記ｎビット部分を記憶する前記デジタル・メモリ素子に周期的にコピーすることと、
によって実行される、請求項７に記載の方法。

【請求項9】

重み更新計算動作のバッチ後に、更新された重みの前記ｎビット部分を前記デジタル・メモリ素子にコピーすることを含む、請求項８に記載の方法。

【請求項10】

前記重み更新計算動作のバッチにおいてその重みに対する更新中に第（Ｎ－ｐ）ビットのビット・オーバフローが発生する場合にのみ、更新された重みの前記ｎビット部分を、前記デジタル・メモリ素子にコピーすることを含む、請求項９に記載の方法。

【請求項11】

全てのシナプス層の前記Ｎビット重みを前記デジタル・メモリ・ユニットに記憶することと、
デジタル・メモリ素子の前記アレイに後続の複数のシナプス層の重みの前記ｎビット部分を動的に記憶し、前記信号伝播動作を実行することと、
を更に含む、請求項７に記載の方法。

【請求項12】

前記シナプス層の重みにおける最上位ゼロ・ビットの数に依拠して、前記シナプス層についてｍの初期値を定義することと、
前記シナプス層について、前記複数ｐをｐ＝（Ｎ－ｎ－ｍ）として定義することと、
前記シナプス層の重みにおける最上位ゼロ・ビットの数の変化に依拠して、前記トレーニング中にｍの値を調整することと、
ｍの値の調整に応答して、ｍの前記調整された値に従って、前記シナプス層の前記重みの前記ｎビット部分を再定義し、デジタル・メモリ素子の前記アレイを、前記重みの前記再定義されたｎビット部分を記憶するように再プログラミングすることと、
を更に含む、請求項１に記載の方法。

【請求項13】

各前記信号伝播動作は、信号が第１のニューロン層からネットワークを通じて伝播される順伝播動作と、信号が最後のニューロン層からネットワークを通じて逆伝播される逆伝播動作とを含み、前記方法は、シナプス層ごとに、前記シナプス層によって重み付けされる信号を、前記順伝播動作および前記逆伝播動作において前記乗算累算ユニットに供給することを含む、請求項１に記載の方法。

【請求項14】

シナプス層ごとにｎのそれぞれの値を定義することを含む、請求項１に記載の方法。

【請求項15】

シナプス層ごとに、Ｎ＝３２およびｎ≦８である、請求項１に記載の方法。

【請求項16】

各々が、信号伝播および重み更新計算動作の反復トレーニング・サイクルにおいて、隣接するニューロン層間で伝播される信号を重み付けするためのＮビット固定点重みのそれぞれの組｛ｗ｝を有する、シナプス層が介在した一連のニューロン層を有する人工ニューラル・ネットワークを実施するための装置であって、前記装置は、
各シナプス層の各Ｎビット重みｗの複数ｐ個の最下位ビットを記憶するデジタル・メモリと、
前記シナプス層の前記Ｎビット重みｗのｎビット部分、すなわち第（ｐ＋１）ビット～第（ｐ＋ｎ）ビットを記憶するためのアナログ乗算累算ユニットであって、前記乗算累算ユニットは、デジタル・メモリ素子のアレイを備え、各々が、重みの前記ｎビット部分のそれぞれのビットを記憶するためのｎ個のバイナリ・メモリ・セルを含み、ここで、ｎ≧１および（ｐ＋ｎ＋ｍ）＝Ｎであり、ここで、ｍ≧０は、前記シナプス層の重みにおける最上位ゼロ・ビットの定義された数に対応する、前記アナログ乗算累算ユニットと、
前記デジタル・メモリおよび前記乗算累算ユニットに作動的に連結されたデジタル処理ユニットであって、前記デジタル処理ユニットは、
信号伝播動作において、各シナプス層によって重み付けされる信号を前記乗算累算ユニットに供給して、前記重みの前記記憶されたｎビット部分に依拠して、累積された重み付けされた信号を取得し、
前記重み更新計算動作を実行して、前記ニューロン層によって伝播される信号に依拠して、シナプス層ごとの更新された重みを計算し、
前記デジタル・メモリおよび前記乗算累算ユニットの周期的再プログラミングを制御して、前記更新された重みのビットを記憶する、
ように適合される、前記デジタル処理ユニットと、
を備える、装置。

【請求項17】

ｍは、前記シナプス層についてｍ＝０として定義され、（ｐ＋ｎ）＝Ｎである、請求項１６に記載の装置。

【請求項18】

各Ｎビット重みの前記ｐ個の最下位ビットのみが前記デジタル・メモリに記憶される、請求項１７に記載の装置。

【請求項19】

前記デジタル・メモリを提供するデジタル・メモリ・ユニットと、前記再プログラミングを実行するための、前記デジタル・メモリ・ユニットおよび前記乗算累算ユニットに共通のメモリ・コントローラとを備える、請求項１８に記載の装置。

【請求項20】

前記デジタル・メモリは、各Ｎビット重みが、その重みの前記ｐ個の最下位ビットを記憶するｐビットのデジタル・メモリと、その重みの前記ｎビット部分を記憶する前記デジタル・メモリ素子とを備えるユニット・セルに記憶されるように、前記乗算累算ユニットにおいて分散される、請求項１８に記載の装置。

【請求項21】

前記デジタル・メモリを提供するデジタル・メモリ・ユニットに、各Ｎビット重みの全Ｎビットが記憶される、請求項１７に記載の装置。

【請求項22】

全てのシナプス層の前記Ｎビット重みが前記デジタル・メモリ・ユニットに記憶され、前記装置は、デジタル・メモリ素子の前記アレイに前記シナプス層の連続組の重みの前記ｎビット部分を動的に記憶し、前記信号伝播動作を実行するように適合される、請求項２１に記載の装置。

【請求項23】

前記乗算累算ユニットは、各シナプス層の前記重みの前記ｎビット部分を記憶する前記デジタル・メモリ素子のそれぞれのアレイを備える、請求項１６に記載の装置。

【請求項24】

ｍの初期値は、そのシナプス層の重みにおける最上位ゼロ・ビットの数に依拠してシナプス層ごとに定義され、前記シナプス層の前記複数ｐは、ｐ＝（Ｎ－ｎ－ｍ）として定義され、前記装置は、
前記トレーニング中の前記シナプス層の重みにおける最上位ゼロ・ビットの数の変化に依拠して、シナプス層のｍの値を調整し、
ｍの値の調整に応答して、ｍの前記調整された値に従って、前記シナプス層の前記重みの前記ｎビット部分を再定義し、デジタル・メモリ素子の前記アレイを、前記重みの前記再定義されたｎビット部分を記憶するように再プログラミングする、
ように適合される、請求項１６に記載の装置。

【請求項25】

前記バイナリ・メモリ・セルはＳＲＡＭセルを含む、請求項１６に記載の装置。

【請求項26】

請求項１ないし１５のいずれか一項に記載の方法をコンピュータに実行させる、コンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、人工ニューラル・ネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）のトレーニングに関する。

【背景技術】

【0002】

人工ニューラル・ネットワーク（ＡＮＮ）は、神経系の生物学的アーキテクチャから着想を得たやり方で計算タスクを実行するために開発されている。これらのネットワークは、ニューロン間で重み付けされた信号を中継するシナプスを介してニューロンが相互接続される、生物学的システムの基本原理に基づいている。ＡＮＮは、シナプス層が介在した一連のニューロン層を含む論理構造に基づく。シナプス層は、隣接するニューロン層においてニューロン間で伝播される信号を重み付けするための重みを記憶する。所与の層におけるニューロンｎ_ｉは、次の層における１つまたは複数のニューロンｎ_ｊに結合することができ、ｎ_ｉからｎ_ｊに送信される信号を重み付けするために、異なる重みｗ_ｉｊを各ニューロン間の連結ｎ_ｉ－ｎ_ｊに関連付けることができる。各ニューロンは、累積された重み付けされた入力に依拠して出力信号を生成し、これによって、重み付けされた信号は、ネットワークの連続層にわたって伝播され得る。

【0003】

ＡＮＮは、音声および画像認識、例えば、ＭＮＩＳＴ（ＭｏｄｉｆｉｅｄＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇｙ）データセットに基づく手書き数字の分類等の様々な複雑な解析タスクにおいて上手く適用されている。ＡＮＮは、それぞれのシナプス層の重みの組が決定されるトレーニング段階を経る。ネットワークがトレーニング・データから「学習する」と重みが繰り返し更新される反復トレーニング・プロセスにおいて、ネットワークは、トレーニング・データのセット、例えば手書き数字の画像データにさらされる。トレーニングは、信号伝播および重み更新計算動作の反復サイクルを伴い、ネットワーク重みは、収束条件が達成されるまで漸進的に更新される。次に、トレーニング動作を介して重みが定義された、結果として得られるトレーニングされたネットワークを、新たな（初見の）データに適用し、当該用途のための推論タスクを実行することができる。

【0004】

複数のニューロン層および数百万のシナプス重みを有する場合があるＡＮＮのトレーニングは、計算および時間集約的タスクである。シナプス重みがＰＣＭ（相変化メモリ）デバイス等のメモリスタ・デバイス（ｍｅｍｒｉｓｔｉｖｅｄｅｖｉｃｅ）のアナログ・コンダクタンス値に記憶される、メモリスタ・シナプスのアレイに基づくアナログ乗算累算ユニット（ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅｕｎｉｔ）を用いたトレーニング方法が、これらの問題を回避するために提案されている。これらのユニットは、デバイスに信号を印加するために行および列のライン間に接続されたメモリスタ・デバイスのクロスバー・アレイを用い、ここで、各デバイスは、（可変の）デバイス・コンダクタンスに対応する重みを有するシナプスを実装する。これらの乗算累算アレイの並列計算能力を利用して、Ｏ（１）の計算複雑度を有するアナログ領域において、（シナプス層にわたって伝播される累積された重み付けされた信号を生成するために必要とされる）低コストのベクトル－行列計算を行うことができる。トレーニング中のシナプス重みに対する更新が、高精度デジタル累積器において累積されるそのようなトレーニング方法が当該技術分野において既知である。ニューラル・ネットワーク推論計算のために、１ビット重みがバイナリＳＲＡＭ（スタティック・ランダム・アクセス・メモリ）セルにおいてデジタルで記憶されるアナログ乗算累算ユニットも当該技術分野において既知である。

【0005】

トレーニングの正確性を保持しながら、複雑度の低減をもたらす更なるニューラル・ネットワーク・トレーニング・システムが依然として必要とされている。

【発明の概要】

【0006】

本発明の少なくとも１つの実施形態によれば、各々が、信号伝播および重み更新計算動作の反復サイクルを介して、隣接するニューロン層間で伝播される信号を重み付けするためのＮビット固定点重みのそれぞれの組｛ｗ｝を有する、シナプス層が介在した一連のニューロン層を有する人工ニューラル・ネットワークをトレーニングするための方法が提供される。方法は、シナプス層ごとに、各Ｎビット重みｗの複数ｐ個の最下位ビットをデジタル・メモリに記憶することと、デジタル・メモリ素子のアレイを備えるアナログ乗算累算ユニットにおいて各重みｗの次のｎビット部分を記憶することとを含む。各デジタル・メモリ素子は、重みのｎビット部分のそれぞれのビットを記憶するためのｎ個のバイナリ・メモリ・セルを含み、ここで、ｎ≧１および（ｐ＋ｎ＋ｍ）＝Ｎであり、ここで、ｍ≧０は、シナプス層の重みにおける最上位ゼロ・ビットの定義された数に対応する。方法はまた、シナプス層によって重み付けされる信号を乗算累算ユニットに供給することによって信号伝播動作を実行し、重みの記憶されたｎビット部分に依拠して、累積された重み付けされた信号を取得することと、デジタル・メモリおよび乗算累算ユニットに作動的に連結されたデジタル処理ユニットにおいて、重み更新計算動作を実行し、ニューロン層によって伝播される信号に依拠して、シナプス層の更新された重みを計算することとを含む。方法は、デジタル・メモリおよび乗算累算ユニットを周期的に再プログラミングして、更新された重みの前記ビットを記憶することを更に含む。

【0007】

本発明を具現化するトレーニング方法において、トレーニング動作のための所望の精度で、Ｎビット固定点フォーマットで重みが定義される。Ｎビット重みｗごとに、重みの（少なくとも）ｐ個の最下位ビットがデジタル・メモリに記憶される。次のｎビット部分（すなわち、ｎ個の次の最上位ビット）が、アナログ乗算累算ユニットのデジタル・メモリ素子のｎ個のバイナリ・メモリ・セルにデジタルで記憶される。このｎビット部分は、重みｗのための低精度の重み（ｒｅｄｕｃｅｄ－ｐｒｅｃｉｓｉｏｎｗｅｉｇｈｔ）値に対応する。乗算累算演算は、信号伝播動作中に、これらの低精度の重みを用いて実行される。重み更新動作において、シナプス層のための更新されたＮビット重みがデジタル処理ユニットにおいて計算される。このため、重み更新計算は、デジタル精度で実行され、デジタル・メモリおよび乗算累算ユニットは、更新された重みの適切なビット（すなわち、それぞれｐ個の最下位ビットおよびｎビット部分）を記憶するように周期的に再プログラミングされる。デジタル・メモリと、乗算累算アレイのデジタル素子との組合せにおいて記憶されるＮビット固定点重みを用いることによって、この方法は、重み更新動作における精度の利点を、信号伝播のための高速で、低複雑度のベクトル－行列計算と組み合わせる。ベクトル－行列演算は、低精度の重みで実行され、乗算累算ユニットの複雑度、したがって電力およびオン・チップ面積が低減される。このため、本発明の実施形態は、乗算累算アレイに基づいた、高速で、効率的なＡＮＮトレーニング方法を提供する。

【0008】

パラメータｍは、任意の所与の層の重みにおける最上位ゼロ・ビットの実際の数にかかわらず、シナプス層についてｍ＝０として定義することができる。これにより、（ｐ＋ｎ）＝Ｎである単純な実施が得られる。本発明の他の実施形態において、ｍの初期値は、その層の重み｛ｗ｝における最上位ゼロ・ビットの数に依拠してシナプス層について定義することができ、このとき、ｍの値は、重み組｛ｗ｝における最上位ゼロ・ビットの数が変化するにつれ、トレーニング中に動的に調整することができる。本発明のこれらの実施形態において、重みｗの少なくともｐ＝（Ｎ－ｎ－ｍ）個の最下位ビットがデジタル・メモリに記憶され、乗算累算ユニットに記憶されたｎビット部分が、トレーニング中にｍの値が調整されるにつれ動的に再定義および再プログラミングされる。これにより、様々なネットワーク層のための低精度の重みのより最適な定義が与えられ、トレーニング正確性が向上する。

【0009】

本発明のいくつかの実施形態では、各Ｎビット重みのｐ個の最下位ビットのみがデジタル・メモリに記憶される。デジタル・メモリは、各Ｎビット重みが、その重みのｐ個の最下位ビットを記憶するｐビットのデジタル・メモリと、その重みのｎビット部分を記憶するデジタル・メモリ素子とを備えるユニット・セルに記憶されるように、乗算累算ユニットにおいて分散させることができる。これにより、小さなフットプリントを有するユニット・セルに基づいて、組み合わされたデジタル／アナログ・メモリ・ユニットのための面積効率のよい実施が提供される。

【0010】

本発明の他の実施形態において、各Ｎビット重みの全Ｎビットを、デジタル・メモリを提供するデジタル・メモリ・ユニットに記憶することができる。これにより、重み更新がデジタル・メモリにおいて実行される効率的な動作が提供され、乗算累算ユニットにおける低精度の重みに対する更新頻度を下げることが可能になる。例えば、低減された精度重みは、トレーニング例の複数のバッチがネットワークによって処理された後に初めて更新することができる。重み更新動作の効率を更に向上させるために、更新された重みのｎビット部分は、トレーニング期間にわたって、デジタル・メモリにおいて、その重みに対する更新中に第（Ｎ－ｐ）ビットのビット・オーバフローが発生する場合にのみ、デジタル・メモリから乗算累算ユニットにコピーすることができる。

【0011】

全てのシナプス層のＮビット重みがデジタル・メモリに記憶される本発明の実施形態において、乗算累算ユニットは、信号伝播がネットワークを通じて進行するにつれ、異なる層の低精度の重みについて再利用することができる。シナプス層の連続組が信号伝播のために活性状態になるにつれ、これらの層の重みのｎビット部分は、デジタル・メモリ素子のアレイに動的に記憶することができる。

【0012】

本発明の少なくとも１つの更なる実施形態は、信号伝播および重み更新計算動作の反復トレーニング・サイクルにおいて人工ニューラル・ネットワークを実施するための装置を提供する。装置は、各シナプス層の各Ｎビット重みｗの複数ｐ個の最下位ビットを記憶するデジタル・メモリと、シナプス層の各重みｗの次のｎビット部分を記憶するためのアナログ乗算累算ユニットとを備える。乗算累算ユニットは、上記で説明したように、各々がｎ個のバイナリ・メモリ・セルを備えるデジタル・メモリ素子のアレイを備える。装置は、デジタル・メモリおよび乗算累算ユニットに作動的に連結されたデジタル処理ユニットを更に備える。デジタル処理ユニットは、信号伝播動作において、各シナプス層によって重み付けされる信号を乗算累算ユニットに供給して、重みの記憶されたｎビット部分に依拠して、累積された重み付けされた信号を取得するように適合される。デジタル処理ユニットは、重み更新計算動作を実行して、ニューロン層によって伝播される信号に依拠してシナプス層ごとの更新される重みを計算し、デジタル・メモリおよび乗算累算ユニットの周期的再プログラミングを制御して、更新された重みの適切なビットを記憶するように更に適合される。

【0013】

１つの態様によれば、各々が、信号伝播および重み更新計算動作の反復サイクルを介して、隣接するニューロン層間で伝播される信号を重み付けするためのＮビット固定点重みのそれぞれの組｛ｗ｝を有する、シナプス層が介在した一連のニューロン層を有する人工ニューラル・ネットワークをトレーニングするための方法が提供され、方法は、シナプス層ごとに、各Ｎビット重みｗの複数ｐ個の最下位ビットをデジタル・メモリに記憶することと、各々が、重みの前記ｎビット部分のそれぞれのビットを記憶するためのｎ個のバイナリ・メモリ・セルを含む、デジタル・メモリ素子のアレイを備えるアナログ乗算累算ユニットにおいて各重みｗの次のｎビット部分を記憶することであって、ここで、ｎ≧１および（ｐ＋ｎ＋ｍ）＝Ｎであり、ここで、ｍ≧０は、シナプス層の重みにおける最上位ゼロ・ビットの定義された数に対応する、記憶することと、シナプス層によって重み付けされる信号を乗算累算ユニットに供給することによって前記信号伝播動作を実行し、重みの記憶されたｎビット部分に依拠して、累積された重み付けされた信号を取得することと、前記デジタル・メモリおよび前記乗算累算ユニットに作動的に連結されたデジタル処理ユニットにおいて、前記重み更新計算動作を実行し、ニューロン層によって伝播される信号に依拠して、シナプス層の更新された重みを計算することと、デジタル・メモリおよび乗算累算ユニットを周期的に再プログラミングして、更新された重みの前記ビットを記憶することとを含む。

【0014】

別の態様によれば、各々が、信号伝播および重み更新計算動作の反復トレーニング・サイクルにおいて、隣接するニューロン層間で伝播される信号を重み付けするためのＮビット固定点重みのそれぞれの組｛ｗ｝を有する、シナプス層が介在した一連のニューロン層を有する人工ニューラル・ネットワークを実施するための装置が提供され、装置は、各シナプス層の各Ｎビット重みｗの複数ｐ個の最下位ビットを記憶するデジタル・メモリと、シナプス層の各重みｗの次のｎビット部分を記憶するためのアナログ乗算累算ユニットであって、乗算累算ユニットは、デジタル・メモリ素子のアレイを備え、各々が、重みの前記ｎビット部分のそれぞれのビットを記憶するためのｎ個のバイナリ・メモリ・セルを含み、ここで、ｎ≧１および（ｐ＋ｎ＋ｍ）＝Ｎであり、ここで、ｍ≧０は、シナプス層の重みにおける最上位ゼロ・ビットの定義された数に対応する、アナログ乗算累算ユニットと、前記デジタル・メモリおよび前記乗算累算ユニットに作動的に連結されたデジタル処理ユニットであって、デジタル処理ユニットは、前記信号伝播動作において、各シナプス層によって重み付けされる信号を乗算累算ユニットに供給して、重みの記憶されたｎビット部分に依拠して、累積された重み付けされた信号を取得し、前記重み更新計算動作を実行して、ニューロン層によって伝播される信号に依拠して、シナプス層ごとの更新された重みを計算し、デジタル・メモリおよび乗算累算ユニットの周期的再プログラミングを制御して、更新された重みの前記ビットを記憶するように適合される、デジタル処理ユニットと、を備える。

【0015】

本発明の実施形態が、添付の図面を参照して、例示的で非限定的な例として以下でより詳細に説明される。

【図面の簡単な説明】

【0016】

【図1】例示的なＡＮＮの概略図である。

【図2】本発明の実施形態による、トレーニング動作においてＡＮＮを実施するための装置の概略ブロック図である。

【図3】本発明の実施形態によるＡＮＮ層の重みｗのビット構造を示す図である。

【図4】本発明の実施形態による、図２の装置の乗算累算ユニットにおけるデジタル・メモリ素子のアレイの構造を示す図である。

【図5】本発明の実施形態による、図２の装置によって実行されるトレーニング方法のステップを示す図である。

【図6】図２の装置の実施形態におけるメモリ装置の構造を示す図である。

【図7】本発明の実施形態による、図６の装置におけるアナログＳＲＡＭ乗算累算アレイのより詳細な構造を示す図である。

【図8】本発明の実施形態による、図７のアレイにおけるＳＲＡＭユニット・セルの構造を示す図である。

【図9】本発明の実施形態による、図２の装置の別の実施形態におけるメモリ装置を示す図である。

【図10】本発明の実施形態による、図９の装置における組み合わされたデジタル／アナログＳＲＡＭユニットのより詳細な構造を示す図である。

【図11】図２の装置の更なる実施形態におけるメモリ装置を示す図である。

【図12】装置のアナログＳＲＡＭ乗算累算アレイの別の実施形態を示す図である。

【発明を実施するための形態】

【0017】

図１は、本発明の１つの実施形態による、全結合ＡＮＮの１つの例の論理構造を示す。ＡＮＮ１は、シナプス層が介在した一連のニューロン層を含む。示される単純な例では、ネットワークは、３つのニューロン層、すなわち、ネットワーク入力信号を受信する入力ニューロンの第１の層Ｎ_１と、ネットワークの出力信号を提供する出力ニューロンの最後の層Ｎ_３と、入力層と出力層との間のニューロンの中間（「隠れ」）層Ｎ_２とを有する。ここで、層Ｎ_１におけるニューロンは、ｎ_１ｉ（１≦ｉ≦ｌ_１）によって表され、層Ｎ_２におけるニューロンは、ｎ_２ｊ（１≦ｊ≦ｌ_２）によって表され、層Ｎ_３におけるニューロンはｎ_３ｋ（１≦ｋ≦ｌ_３）によって表され、ここで、ｌ_ｘは、層Ｎ_ｘにおけるニューロンの数である。示されるように、各層内の全てのニューロンは、次の層内の全てのニューロンに結合され、これによって、１つの層からのニューロン活性化信号が次の層におけるニューロンに送信される。ニューロン層が介在するシナプス層Ｓ_１およびＳ_２は、それらの隣接するニューロン層間で伝播された信号の重み付けをするために、それぞれの重みの組｛ｗ_ｉｊ｝および｛ｗ_ｊｋ｝を有する。重みｗ_ｉｊは、Ｎ_１ニューロンｎ_１ｉとＮ_２ニューロンｎ_２ｊとの間の連結ごとに定義され、これによって、ｎ_１ｉからｎ_２ｊまで伝播される信号は、そのニューロン対について対応する重みｗ_ｉｊに従って重み付けされる。このため、シナプス層Ｓ_１のための重みの組｛ｗ_ｉｊ｝は、図に示すように、重みｗ_ｉｊのｌ_２行およびｌ_１列を有する行列Ｗによって表すことができる。Ｎ_２ニューロンｎ_２ｊ～Ｎ_３ニューロンｎ_３ｋによって伝播される信号は、シナプス層Ｓ_２の対応する重みｗ_ｊｋによって同様に重み付けされ、シナプス層Ｓ_２の重みの組｛ｗ_ｊｋ｝は、重みｗ_ｊｋのｌ_３行およびｌ_２列を有する行列によって表すことができる。

【0018】

入力層ニューロンは、受信した入力データ信号を、層Ｎ_１のための活性化信号として単に送信することができる。後続の層Ｎ_２およびＮ_３について、各ニューロンｎ_２ｊ、ｎ_３ｋは、累積された入力、すなわち、前の層における結合されたニューロンからの累積された重み付けされた活性化信号に依拠して活性化信号を生成する。各ニューロンは、この累積演算の結果Ａに非線形活性化関数ｆを適用して、前方への送信のためのニューロン活性化信号を生成する。例えば、ニューロンｎ_２ｊに対する累積された入力Ａ_ｊは、ドット積計算

【数1】

によって与えられる。ここで、ｘ_１ｉはニューロンｎ_１ｉからの活性化信号である。このため、ニューロンｎ_２ｊに対する累積された入力

【数2】

のベクトルＡを計算することは、重みｗ_ｉｊの行列Ｗと、ニューロンｎ_１ｉからの活性化信号

【数3】

のベクトルｘとの間の行列－ベクトル乗算Ｗｘによって表すことができる。このとき、各Ｎ_２ニューロンｎ_２ｊは、層Ｎ_３への伝播のために、活性化信号ｘ_２ｊを、ｘ_２ｊ＝ｆ（Ａ_ｊ）として生成する。

【0019】

全結合ネットワークの単純な例が図１に示されるが、通常、任意の所与の層におけるニューロンは、次の層における１つまたは複数のニューロンに結合することができ、ネットワークは、隠れニューロンの１つまたは複数の（一般的に最大３０個またはそれ以上の）連続層を含むことができる。ニューロン層は、入力信号を受信しないが、次のニューロン層にバイアス信号を送信する１つまたは複数のバイアス・ニューロン（図示せず）を含むことができる。他の計算もいくつかのＡＮＮ層に関連付けることができる。いくつかのＡＮＮ、例えば、畳込みニューラル・ネットワーク（ＣＮＮ）において、ニューロン層は、シナプス層における関連付けられた３次元重みアレイを有するニューロンの３次元ボリュームを含むことができるが、信号伝播計算は、依然として、行列－ベクトル演算の観点において表すことができる。

【0020】

ＡＮＮトレーニングは、ネットワークへの入力として供給されるトレーニング例の組に応答して、信号伝播および重み更新計算動作の反復サイクルを伴う。手書き数字の教師あり学習において、例えば、ＭＮＩＳＴデータセットからのトレーニング例（ラベル、ここでは、０～９の数字クラスが既知である）がネットワークに繰り返し入力される。トレーニング例ごとに、信号伝播動作は、信号が第１のニューロン層から最後のニューロン層に順伝播される順伝播動作と、エラー信号が最後のニューロン層からネットワークを通じて逆伝播される逆伝播動作とを含む。上記で説明したように、順伝播動作において、活性化信号ｘは、層ごとに重み付けされ、ネットワークを通じて伝播される。出力層内のニューロンごとに、順伝播後の出力信号が、現在のトレーニング例について（既知のラベルに基づいて）予測される出力と比較され、そのニューロンについてのエラー信号εが得られる。出力層ニューロンのためのエラー信号は、入力層を除くネットワークの全ての層を通じて逆伝播される。隣接するニューロン層間で逆伝播されるエラー信号は、介在するシナプス層の適切な重みによって重み付けされる。このため、逆伝播の結果として、入力層を除くニューロン層ごとのエラー信号が計算される。次に、信号伝播動作においてニューロン層によって伝播された信号に基づいて、各シナプス層の重みの更新が計算される。通常、重み更新は、所与の反復におけるいくつかまたは全ての重みについて計算することができる。例として、１つの層におけるニューロンｉと、次の層におけるニューロンｊとの間の重みｗ_ｉｊに対する更新値Δｗ_ｉｊは以下のように計算することができる。
Δｗ_ｉｊ＝ηｘ_ｉε_ｊ
ここで、ｘ_ｉはニューロンｉからの順伝播された活性化信号であり、ε_ｊはニューロンｊのための逆伝播されたエラー信号であり、ηはネットワークのための所定の学習パラメータである。このため、トレーニング・プロセスは、収束条件が達成されるまで、ネットワークの重みを漸進的に更新し、この際、トレーニングされた重みを有する、結果として得られるネットワークを、ＡＮＮ推論動作について適用することができる。

【0021】

図２は、好ましい実施形態による、トレーニング動作においてＡＮＮ１を実施するための装置を示す。装置２は、メモリ装置３と、ここではシステム・バス５を介してメモリ装置３に作動的に連結されたデジタル処理ユニット４とを備える。メモリ装置３は、概略的に６で示されるデジタル・メモリと、アナログ乗算累算（ＭＡＣ）ユニット７とを備える。以下で更に説明するように、ＭＡＣユニット７は、バイナリ・メモリ・セルに基づいて、デジタル・メモリ素子の少なくとも１つのアレイを含む。メモリ・コントローラ８として示されるメモリ制御装置は、デジタル・メモリ６およびＭＡＣユニット７の動作を制御する。デジタル処理ユニット４は、中央処理ユニット（ＣＰＵ）９と、メモリ１０とを備える。メモリ１０は、以下で説明される動作の機能ステップを実施するためにＣＰＵ９によって実行可能なプログラム命令を含む１つまたは複数のプログラム・モジュール１１を記憶する。

【0022】

ＤＰＵ４は、反復トレーニング・プロセスにおいて装置２の動作を制御する。ＤＰＵは、順伝播および逆伝播動作においてニューロン層によって伝播された活性化信号およびエラー信号を生成し、トレーニング動作の重み更新計算を実行するように適合される。ネットワークのそれぞれのシナプス層のための重みの組｛ｗ｝がメモリ装置３に記憶される。重みｗは、Ｎビット固定点フォーマットにおいて定義され、ここで、Ｎは、特定のトレーニング動作のために必要とされる精度に従って選択される。本発明のこの実施形態では、Ｎ＝３２であり、高精度の３２ビット固定点重みを与える。しかしながら、本発明の他の実施形態では、Ｎは異なる形で、例えばＮ＝６４として設定され得る。

【0023】

装置２の動作時、シナプス層のＮビット重みｗが、デジタル・メモリ６と、ＭＡＣユニット７のデジタル・メモリ素子との組合せに記憶される。特に、図３を参照すると、各重みｗの少なくとも複数ｐ個の最下位ビット（ＬＳＢ）が、シナプス層ごとにデジタル・メモリ６に記憶される。少なくとも、ＭＡＣユニット７における信号伝播計算に必要とされるとき、各重みｗの次のｎビット部分（すなわち、第（ｐ＋１）ビット～第（ｐ＋ｎ）ビット）が記憶される。特に、各ｎビット部分は、ＭＡＣユニット７内のデジタル・メモリ素子のアレイに記憶される。これらのデジタル・メモリ素子の各々は、重みのｎビット部分のそれぞれのビットを記憶するための（少なくとも）ｎ個のバイナリ・メモリ・セルを含む。ｎの値は、異なるシナプス層について異なることができる。しかしながら、通常、ｎ≧１および（ｐ＋ｎ＋ｍ）＝Ｎであり、ｍ≧０は、シナプス層の重みにおける最上位ゼロ・ビットの定義された数に対応する。このため、ｍの値は、シナプス層間で変動し得、以下で説明するように、任意の所与の層について、ｍ＝０として定義することもでき、このケースでは（ｐ＋ｎ）＝Ｎである。このため、各重みｗのｎビット部分は、その重みについて、以下でＷによって表される低精度の重み値を定義する。

【0024】

図４は、１つの実施形態による、シナプス層のための低精度の重みＷを記憶する、ＭＡＣユニット７におけるデジタル・メモリ素子のアレイの論理構造を示す。アレイ１５は、示されるように行および列のライン間で接続された（以下で説明される関連付けられたアナログ回路部を有する）デジタル・メモリ素子１６のクロスバー・アレイによって好都合に実施することができる。この例は、図１のＡＮＮにおけるシナプス層Ｓ_１のための低精度の重み｛Ｗ_ｉｊ｝を記憶するクロスバー・アレイを示す。アレイ内の各素子１６は、示されるようにそれぞれの低精度の重みＷ_ｉｊのｎビットを記憶する。素子１６は論理的行および列に配列され、各デバイスは、そのデバイスに信号を印加するために、特定の行ラインｒ_ｉおよび列ラインｃ_ｊ間に接続される。行および列のラインは、デジタル領域とアナログ領域との間でアレイ入力／出力信号を変換する、行および列のデジタル対アナログ／アナログ対デジタル変換器（図示せず）を介してメモリ装置３のコントローラ８に接続される。

【0025】

シナプス層のための信号伝播動作において、ＤＰＵ４によって生成される信号は、バス５を介してメモリ装置３に供給され、ここで、コントローラ８は、低精度の重みＷ_ｉｊを記憶するアレイ１５に信号を供給する。順伝播動作において、コントローラ８は、活性化信号ｘ_１ｉをアレイ１５の行ラインｒ_ｉに供給する。列ラインｃ_ｊにおいて結果として得られる出力信号は、コントローラ８によってＤＰＵ４に返される累積された重み付けされた信号Σ_ｉＷ_ｉｊｘ_１ｉに対応する。シナプス層のための逆伝播計算は、エラー信号ε_ｊをアレイの列ラインに適用し、行ラインにおける累積された重み付けされた信号Σ_ｊ（Ｗ_ｉｊε_ｊ）を取得することによって同様に実行することができる。こうして、アレイ１５は、シナプス層にわたる信号伝播に必要とされる行列－ベクトル計算を実施する。

【0026】

装置２の例示的な実施形態が説明されているが、ＤＰＵ４は、１つまたは複数のマイクロプロセッサによって実装することができる１つまたは複数のＣＰＵを備えてもよい。メモリ１０は、１つまたは複数のデータ記憶エンティティを含むことができ、ＣＰＵ９から物理的に切り離されたメイン・メモリ、例えばＤＲＡＭ（ダイナミック・ランダム・アクセス・メモリ）または他のストレージ、あるいはその両方、並びにＣＰＵ９にローカルなキャッシュまたは他のメモリ、あるいはその両方を含むことができる。通常、ＤＰＵ４は、１つまたは複数の（汎用または専用）コンピュータ／プログラム可能なデータ処理装置によって実施することができ、ＤＰＵ４によって実行される処理動作の機能ステップは、通常、ハードウェアもしくはソフトウェア、またはそれらの組合せによって実施することができる。コントローラ８は、本明細書に記載の機能を実行するようにメモリ装置３を制御するようにソフトウェア命令によって構成可能な１つまたは複数のプロセッサも備えることができる。本発明のいくつかの実施形態において、ＤＰＵ４またはコントローラ８、あるいはその両方は、説明される機能を実施するためのプログラム命令を実行するための、プログラマブル・ロジック回路部、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）等の電子回路部を含むことができる。本発明の実施形態は、フローチャート図を参照して説明されているが、フローチャート図の各ブロック、またはフローチャート図におけるブロックの組合せ、あるいはその両方は、コンピュータ実行可能プログラム命令によって実施することができることが理解されよう。プログラム命令／プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ・タイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造等を含むことができる。フローチャート図内のブロックまたはブロックの組合せは、また、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組合せを遂行する、専用ハードウェアベース・システムによって実施されてもよい。

【0027】

システム・バス５は、メモリ・バスまたはメモリ・コントローラ、周辺バス、高速グラフィック・ポート、および多様なバス・アーキテクチャのうちの任意のものを使用するプロセッサもしくはローカル・バスを含む、いくつかのタイプのバス構造のうちの任意のもののうちの１つまたは複数を含むことができる。限定ではなく例として、そのようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ（ＩＳＡ）・バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）・バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）・ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）・バスを含む。

【0028】

ＭＡＣユニットのメモリ素子１６におけるバイナリ・メモリ・セルは、ＳＲＡＭセル、ＤＲＡＭ（ダイナミックＲＡＭ）セル、ＭＲＡＭ（磁気抵抗ＲＡＭ）セル、フローティング・ゲート・セル、ＲＲＡＭ（抵抗ＲＡＭ）セル、またはより一般的には、低精度の重みのそれぞれのビットをデジタルで記憶するための任意のバイナリ・セルを含むことができる。ＳＲＡＭセルに基づくアナログＭＡＣアレイの例示的な実施について以下に詳細に説明される。通常、ＭＡＣユニット７は、１つまたは複数のアナログ乗算累算アレイを備えることができ、その各々が、デジタル・メモリ素子の１つまたは複数のクロスバー・アレイを備えることができる。任意の時点において、ＭＡＣユニット７は、１つまたは複数のシナプス層のための低精度の重みＷの全てまたはサブセットを記憶することができる。本発明のいくつかの実施形態では、各シナプス層の全ての重みＷを、ＭＡＣユニットのそれぞれのアレイに記憶してもよい。他の場合、ＭＡＣユニットは、信号伝播動作において現在活性状態の（１つまたは複数の）シナプス層の組の重みＷのみを記憶してもよい。しかしながら、シナプス層Ｓごとに、装置２によって実施されるトレーニング方法は、図５の流れ図において示される基本ステップを伴う。

【0029】

図５のステップ２０に示すように、シナプス層の各高精度の重みｗの少なくともｐ個のＬＳＢがデジタル・メモリ６に予め記憶される。ステップ２１に示されるように、層の重みの後続のｎビット部分（すなわち、低精度の重みＷ）が、ＭＡＣユニット７に記憶される（予め記憶されるかまたは動的にロードされる）。ステップ２２は、シナプス層のための信号伝播動作を表す。図４を参照して説明したように、順伝播の場合、活性化信号ｘは、ＭＡＣアレイに供給され、低精度の重みＷに依拠して累積された重み付けされた信号が取得される。後続の逆伝播動作において、エラー信号εがアレイに供給され、重みＷに依拠して累積された重み付けされた信号が取得される。これらの乗算累算演算において生成された信号がＤＰＵ４に返される。ステップ２３において、ＤＰＵ４は、シナプス層のための更新されたＮビット重みｗを計算する。ここで、上記で説明したニューロン層によって伝播された信号に基づいて、それぞれの重みｗについて重み更新値Δｗが計算され、各重みはｗ＝ｗ＋Δｗに更新される。ステップ２４において、ＤＰＵ４は、トレーニング動作のための所定の収束条件が達成されているか否かを判断する。（収束は様々な既知の方式で定義することができ、特定の収束条件は、本明細書に記載の演算に直交する）。達成されていない場合（ステップ２４における「Ｎ」）、動作はステップ２５に進み、ステップ２５において、ＤＰＵ４は、メモリ装置３における重みｗの再プログラミングを制御する。以下で更に説明されるように、任意の所与の反復において、このステップは、実装形態に依拠して、デジタル・メモリ６に記憶された、またはデジタル・メモリ６およびＭＡＣユニット７の双方に記憶された重みのビットを再プログラミングすることを伴うことができる。しかしながら、デジタル・メモリ６およびＭＡＣユニット７の双方が、更新された重みｗの適切なビットを記憶するために、トレーニング中、（同じ時点または異なる時点に）周期的に再プログラミングされる。次に、動作は、次のトレーニング・サンプルのためにステップ２２に戻る。プロセスは、収束が検出される（ステップ２４における「Ｙ」）まで反復し、検出されると、トレーニング動作は終了する。

【0030】

上記の方法を用いて、重み更新は、ＡＮＮトレーニングの正確性を確保するために、ＤＰＵ４において高精度で、ここでは３２ビットの精度で計算することができる。加えて、信号伝播のための乗算累算計算は、アナログＭＡＣユニットにおいてデジタルで記憶された低精度の重みＷを用いて効果的に行うことができる。ここで、低精度の重みを用いることにより、ＭＡＣユニットの複雑度、電力消費、およびオン・チップ面積が低減する。ｎの値は、シナプス層間で変動させることができ、トレーニングを最適化するために、層ごとの必要な精度の重みＷが提供される。例として、ｎは、層ごとの単位で値１≦ｎ≦８に設定することができる。このため、好ましい実施形態による、本発明の態様を具現化する方法は、人工ニューラル・ネットワークの効率の高いトレーニングを提供する。

【0031】

図６は、第１の実施形態における図２のメモリ装置３の構造の概略表現である。この実施形態について、パラメータｍは、全てのシナプス層について、ｍ＝０として定義され、（ｐ＋ｎ）＝Ｎであり、この例ではＮ＝３２である。この実施形態のメモリ装置３０において、デジタル・メモリは、シナプス層の各３２ビット重みｗのｐ＝（３２－ｎ）個のＬＳＢのみを記憶するデジタル・メモリ（ここではＳＲＡＭ）・ユニット３１によって提供される。それぞれの重みｗの残りのｎ個の最上位ビット（ＭＳＢ）によって定義される低精度の重みＷは、ＭＡＣユニットのＳＲＡＭアナログＭＡＣアレイ３３のデジタル・メモリ素子３２に記憶される。デジタル・メモリ・ユニット３１およびＭＡＣユニット７の双方に共通のグローバル・メモリ・コントローラ３４は、メモリユニットと、信号伝播のためのＭＡＣアレイ３３への／からの信号の入力／出力との双方における重みのプログラミングを行う。各重み更新計算（図５のステップ２３）の後、コントローラ３４は、デジタルＳＲＡＭ３１において重みのｐ個のＬＳＢ、およびＭＡＣアレイ３３において重みのｎビット部分を再プログラミングすることによって、更新された３２ビット重みｗ＋Δｗを記憶する。

【0032】

図７は、アナログＭＡＣアレイ３３の実施形態のより詳細な図である。アレイ３３は、ＳＲＡＭユニット・セル３５の行および列を含む。各行は、ｎビットの低精度の重みＷを記憶するデジタル・メモリ素子３２を提供する。ｎビットの各々は、素子のそれぞれのユニット・セル３５に記憶される。各ユニット・セル３５は、デジタル・メモリ素子３２のバイナリＳＲＡＭセルと、アナログＭＡＣアレイを実施するためのアナログ回路部との双方を含む。これらのユニット・セル（以下で、「アナログ」ＳＲＡＭセルと呼ばれる）の構造が図８に示される。各ユニット・セル３５は、示すように接続された、バイナリＳＲＡＭセル３８と、コンデンサ３９と、スイッチ４０、４１ａおよび４１ｂとを備える。各ユニット・セルにおけるコンデンサ３９のサイズは、接続されたバイナリ・セル３８に記憶されたビットに対応する２の累乗に依拠する。図７におけるユニット・セル３５の第１の列は、各ｎビット重みのＬＳＢを記憶する。これらのセルにおけるコンデンサ３９がキャパシタンスＣを有する場合、ユニット・セルの第２の列におけるコンデンサ３９は、キャパシタンス（２^１×Ｃ）を有し、第３の列におけるコンデンサは、キャパシタンス（２^２×Ｃ）を有し、コンデンサ３９がキャパシタンス（２^ｎ－１×Ｃ）を有する第ｎ列まで以下同様である。セル３５の行は、ワードライン制御回路部４２に接続され、セル３５の列は、ビットライン制御回路部４３に接続される。この制御回路部は、入力電圧発生器、ライン・ドライバ／復号器回路、センス増幅器、並びに必要に応じてセルおよび信号の入力／出力のアドレス指定および再プログラミングを行うためのＡＤＣ／ＤＡＣ回路等の、標準的なＳＲＡＭ回路部を備える。

【0033】

アレイ３３における乗算累算演算において、素子３２のＳＲＡＭセル３８は、図４のアレイの適切な行ラインｒ_ｉに接続される。入力電圧発生器は、各電圧がその行における入力信号ｘの値に対応する行ごとに異なるアナログ電圧を印加する。アナログＳＲＡＭセル３５における全てのコンデンサは、スイッチ４１ａを閉じることによってその値に荷電される。次に、入力電圧はオフにされ、スイッチ４１ａが開放されるため、次に、アナログ・ユニット・セル３５におけるＳＲＡＭセル３８は、これらのセルが「０」を記憶するか、または「１」を記憶するかに基づいて、隣接するコンデンサを放電する。特に、セル３８が「０」を記憶する場合、スイッチ４０は、コンデンサを放電するために閉じられる。図８に示すように、セル３８が「１」を記憶する場合、スイッチ４０は開いたままである。このステップは、ＳＲＡＭセル値に入力電圧を効果的に乗算する。その後、同じ列ラインｃ_ｊに接続されたＳＲＡＭユニット・セルにおけるスイッチ４１ｂは、同じ列内の全てのコンデンサを短絡させるために閉じられ、これらのコンデンサにおける電荷再分配を通じてアナログ加算および平均化演算を行う。異なるビットの累乗は、コンデンサの指数関数的サイジングによって対処される。このため、列ラインにおけるコンデンサにおける結果として得られる出力電圧は、乗算および累算演算の結果に対応し、ＡＤＣを介して取り出される。

【0034】

図９は、メモリ装置の別の実施形態を示す。このメモリ装置４５において、デジタル・メモリは、ＭＡＣユニット・アレイにおいて分散される。シナプス層の各Ｎビット重みｗは、組み合わされたデジタル／アナログＳＲＡＭＭＡＣアレイ４７のユニット・セル４６に記憶される。各ユニット・セル４６は、その重みのｐ個のＬＳＢを記憶するデジタルＳＲＡＭのｐ＝（３２－ｎ）ビット、および上記で説明したＭＡＣアレイ３３の行に対応するｎ個のアナログＳＲＡＭセル３５を含む。これらのｎ個のアナログＳＲＡＭセルのバイナリＳＲＡＭセル３８は、ｎビットの低精度の重みＷを記憶するｎビットのデジタル・メモリ素子３２を提供する。メモリ・コントローラ４８は、乗算累算演算について上記で説明したようなユニット・セル３６のアナログＳＲＡＭセル３５へのアクセス、およびユニット・セル４６のデジタルＳＲＡＭへのアクセスを制御する。本発明の１つの実施形態による、組み合わされたＭＡＣアレイ４７の構造が、図１０においてより詳細に示される。この実施形態の組み合わされたデジタル／アナログ・ユニット・セルは、高度に面積効率のよい実装のための小さなオン・チップ・フットプリントを提供する。

【0035】

図１１は、メモリ装置の更なる実施形態の構造を示す。図６の構成要素に対応する構成要素は、類似の参照符号によって示される。このメモリ装置５０は、シナプス層の各３２ビット重みｗの全てのビットを記憶するデジタル・メモリ（ここではＳＲＡＭ）・ユニット５１を備える。上記で説明したように、ｎビットの低精度の重みＷは、ＳＲＡＭアナログＭＡＣアレイ３３のデジタル・メモリ素子３２に記憶される。前に説明したように、標準的なＳＲＡＭコントローラ５２は、デジタルＳＲＡＭユニット５１を制御し、ＭＡＣコントローラ５３はＭＡＣアレイ３３を制御する。この実施形態において、各重み更新計算（図５のステップ２３）の後、ＳＲＡＭコントローラ５２は、デジタル・ユニット５１に記憶された３２ビット重みｗを、更新された重みｗ＋Δｗに再プログラミングする。このため、重み更新値は、デジタルＳＲＡＭ５１において累算される。周期的に、例えば、トレーニング例のバッチについて重み更新動作が行われた後、ＳＲＡＭコントローラ５２は、ＭＡＣコントローラ５３を介してユニット５１からＭＡＣユニットにｎビットの低精度の重みＷをコピーする。このため、更新された３２ビット重みのｎビット部分は、対応する低精度の重みをＭＡＣアレイ３３に記憶するデジタル・メモリ素子３２にコピーされる。本明細書に記載の本発明の実施形態において、メモリ・コントローラ５２は、重み更新動作のバッチにおいてその重みに対する更新中に第（Ｎ－ｐ）ビットのビット・オーバフローが発生する場合にのみ、更新された重みｗのｎビット部分を、ＭＡＣユニットにコピーするように適合することができる。これにより、低精度の重みを更新するためのプログラミング動作の数が低減し、したがって、ＳＲＡＭ５１とＭＡＣユニットとの間のデータ転送が低減する。

【0036】

図６および図９のメモリ装置において、シナプス層ごとの低精度の重みＷが、ＭＡＣユニットのそれぞれのアレイに記憶される。図１１のメモリ構造では、所与のＭＡＣアレイは、信号伝播が進行するにつれ、異なるシナプス層の重みＷのために再利用することができる。特に、ＤＰＵ４の制御下で、ＳＲＡＭコントローラ５２は、信号伝播動作が進行し、異なる層が活性状態になるにつれ、ＭＡＣアレイにおける（１つまたは複数の）活性シナプス層の連続組について、重みｗのｎビット部分を動的に記憶することができる。ＭＡＣアレイを用いて、トレーニング例のバッチについて、活性層にわたる伝播を行うことができ、次に、これを、活性層の次の組について、低精度の重みを用いて再プログラミングすることができる。

【0037】

図１１の実施形態に対する変更形態において、シナプス層の重み行列が、ＭＡＣアレイがその層の全ての重みＷを記憶するには大きすぎる場合、ＭＡＣアレイ内の重みＷのブロック（効果的には、部分行列）を連続して記憶し、ブロックごとに乗算累算演算を行い、次にＤＰＵ４における全てのブロックについて、結果として得られた信号を累算することによって、信号伝播動作を行うことができる。

【0038】

図１２は、メモリ装置３において使用するためのアナログＭＡＣアレイの別の実施形態を示す。このアレイ５５の構成要素は、通常、図７の構成要素に対応するが、アレイ５５の全てのアナログＳＲＡＭセル５６が同じキャパシタンスＣを有するコンデンサを含む点が異なる。この実施形態のアレイ制御回路部は、５７において示されるようなデジタル・シフトおよび加算回路部を含む。この回路部は、セル５６の異なる列に記憶されたビットの２の異なる累乗に対処するように、乗算累算演算において、列ラインにおける出力に対しシフトおよび加算演算を行う。列ライン出力のデジタル化後、回路５７は、第ｎ列のデジタル出力値を（ｎ－１）ビットだけシフトし、第（ｎ－１）列のデジタル出力値を（ｎ－２）ビットだけシフトし、以下同様である。次に、全ｎ列からの結果が回路５７において加算され、図４の論理アレイ構成におけるメモリ素子の列におけるｎビット重みのための乗算累算演算の結果が取得される。ＭＡＣアレイ５５は、図１０の構造に対応する、組み合わされたデジタル／アナログ・アレイ構造に統合することもできる。

【0039】

ネットワークに依拠して、異なるシナプス層における重みは、異なる範囲にわたる場合があり、低精度の重みＷを表すのにＮビット重みの同じｎビットを用いることが最適でない場合がある。これは、その層の重みにおける最上位ゼロ・ビットの数に依拠してシナプス層ごとにパラメータｍ（図３を参照）の初期値を定義することによって対処することができる。特に、層内の全ての重みｗがＭ（Ｍ＞０）個の最上位ゼロ・ビットを有する場合、ｍは、ｍ＝Ｍの初期値に設定することができる。このとき、デジタル・メモリに（最小限で）記憶される複数ｐ個のＬＳＢは、ｐ＝（Ｎ－ｎ－ｍ）として定義される。ｍの値は、シナプス層の重みにおける最上位ゼロ・ビットの数の変化に依拠して、メモリ・コントローラ８の制御下でトレーニング中に調整される。ｍの値の調整に応答して、シナプス層の重みのｎビット部分は、ｍの調整された値に従って再定義される。このため、図３におけるｎビット部分は、ｍが重み｛ｗ｝におけるゼロＭＳＢの数と共に変化するにつれ、Ｎビット重み値に沿って効果的に「スライド」する。次に、メモリ・コントローラ８は、重みの再定義されたｎビット部分を記憶するように要求されるとき、ＭＡＣユニットを再プログラミングする。例えば、再定義されたｎビット部分は、メモリ装置のデジタルＳＲＡＭに記憶されたＮビット重みからコピーすることができる。

【0040】

シナプス層についてｍ＞０であるとき、ＭＡＣアレイにおけるｎビット重み値に基づく乗算累算演算の結果は、ＤＰＵ４に供給する前に、メモリ・コントローラ８において２^－ｍだけスケーリングすることができる。メモリ・コントローラ８は、デジタル・メモリにおけるＮビット重みに対する重み更新中に第（Ｎ－ｍ）ビットのビット・オーバフローが検出されるとき、層のためのｍの値を減少させることができる。メモリ・コントローラは、層のために記憶された現在のｎビット重みを周期的に読み出し、全ｎビット重みのＭＳＢがゼロであるとき、ｍを増大させることができる。この方式は、乗算累算演算のために用いられる重みのより最適な定義を与え、トレーニングの正確性を向上させる。

【0041】

当然ながら、説明される本発明の例示的な実施形態に対し、多数の変形および変更を行うことができる。例えば、乗算累算演算は、上記の順伝播動作および逆伝播動作の双方についてＭＡＣユニット７において行われるが、ＭＡＣユニット７が順伝播および逆伝播のうちの一方のみについて用いられる本発明の実施形態が想到され得る。例えば、順伝播がＭＡＣユニット７を用いて行われ、逆伝播計算がＤＰＵ４において行われてもよい。

【0042】

流れ図のステップは、示される順序と異なる順序で実施されてもよく、いくつかのステップは、適宜並列に実行されてもよい。通常、特徴は、本発明の態様を具現化する方法を参照して本明細書において説明されるが、対応する特徴は、本発明の態様を具現化する装置において提供されてもよく、逆もまた同様である。

【0043】

本発明の様々な実施形態の説明が、例示の目的で提示されたが、包括的であることも、開示される本発明の実施形態に限定されることも意図されていない。本発明の説明された実施形態の範囲および思想から逸脱することなく、多くの変更形態および変形形態が当業者には明らかとなろう。本明細書において用いられる用語は、本発明の実施形態の原理、実際の用途、もしくは市場に見られる技術を上回る技術の改善を最も良好に説明するため、または他の当業者が、本明細書に開示される本発明の実施形態を理解することを可能にするために選択された。

【0044】

本発明は、システム、コンピュータ実施方法、またはコンピュータ・プログラム製品、あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。

【0045】

コンピュータ可読記憶媒体は、命令実行デバイスによって用いるための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せとすることができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令が記録された溝内の隆起構造等の機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書において用いられるとき、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または配線を通じて送信される電気信号等の、一過性の信号自体であると解釈されるべきではない。

【0046】

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。

【0047】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋等のオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラミング言語等の従来の手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータもしくはサーバ上で実行することができる。後者の場合、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む、任意のタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は、外部コンピュータに対して（例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて）行ってもよい。いくつかの実施形態では、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。

【0048】

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書において説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施されることが理解されよう。

【0049】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定される機能／動作を実施する手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供され、マシンを作り出すことができる。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定される機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読記憶媒体に記憶することもでき、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものとすることができる。

【0050】

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものとすることもできる。

【0051】

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定されるロジック機能を実装するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表すことがある。いくつかの代替の実装形態では、ブロックに記載されている機能は、図に記載されている順序とは異なる順序で行われてもよい。例えば、連続して示されている２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されてよく、またはそれらのブロックは場合によっては逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは動作を実行するか、または専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実施されることにも留意されたい。

【0052】

本発明の様々な実施形態の説明が、例示の目的で提示されたが、包括的であることも、開示される実施形態に限定されることも意図されていない。説明された実施形態の範囲および思想から逸脱することなく、多くの変更形態および変形形態が当業者には明らかとなろう。本明細書において用いられる用語は、実施形態の原理、実際の用途、もしくは市場に見られる技術を上回る技術の改善を最も良好に説明するため、または他の当業者が、本明細書に開示される実施形態を理解することを可能にするために選択された。

【図1】