特許7663295 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7663295クロスバーアレイを更新するためのパルス生成

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-08

(45)【発行日】2025-04-16

(54)【発明の名称】クロスバーアレイを更新するためのパルス生成

(51)【国際特許分類】

G06G 7/60 20060101AFI20250409BHJP

G06N 3/065 20230101ALI20250409BHJP

G06G 7/16 20060101ALI20250409BHJP

【ＦＩ】

G06G7/60

G06N3/065

G06G7/16 510

【請求項の数】 24

(21)【出願番号】P 2023502838

(86)(22)【出願日】2021-06-29

(65)【公表番号】

(43)【公表日】2023-08-04

(86)【国際出願番号】 EP2021067834

(87)【国際公開番号】W WO2022012917

(87)【国際公開日】2022-01-20

【審査請求日】2023-11-14

(31)【優先権主張番号】16/929,168

(32)【優先日】2020-07-15

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】キム、セヨン

(72)【発明者】

【氏名】オネン、オグザン

(72)【発明者】

【氏名】ゴクメン、タイフン

(72)【発明者】

【氏名】ラッシュ、マルテ

【審査官】小林義晴

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０３００６２７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０３１８２３９（ＵＳ，Ａ１）

【文献】特開２０１９－００３５４７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｇ７／６０

Ｇ０６Ｎ３／０６５

Ｇ０６Ｇ７／１６

(57)【特許請求の範囲】

【請求項1】

アナログクロスバーアレイを更新するためのパルス生成のコンピュータ実装方法であって、
プロセッサによって、クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用される第１の数を受信する段階と、
前記プロセッサによって、前記第１の数を表すビット長を受信する段階であって、前記ビット長は前記第１の数が取り得る値の数の二乗よりも小さい段階と、
前記プロセッサによって、前記第１の数を表す前記ビット長を有し、前記第１の数に対応する第１のパルスシーケンスにおけるパルス位置を決定的に選択する段階と、
前記プロセッサによって、前記第１のパルスシーケンスにおける前記選択されたパルス位置および第２のパルスシーケンスにおけるパルス位置のパルス同時計数を使用して計算を実行する段階であって、前記第２のパルスシーケンスは前記クロスバーアレイの出力の誤差に基づく第２の数に対応するパルスシーケンスである段階と、
前記プロセッサによって、前記計算を使用して、前記パルス同時計数に対応して前記クロスバーアレイの重みを更新する段階と
を備える、コンピュータ実装方法。

【請求項2】

前記計算が、前記第１の数および前記第２の数を用いて外積演算を実行することを含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記第１のパルスシーケンスにおける前記選択されたパルス位置は、前記ビット長に少なくとも部分的に基づいている、請求項１または２に記載のコンピュータ実装方法。

【請求項4】

前記ビット長が、前記クロスバーアレイの１つまたは複数のメモリスタのデバイスの重みを表す重み行列において、前記第１の数が取り得る値の数に等しい、請求項１から３のいずれか一項に記載のコンピュータ実装方法。

【請求項5】

ヒートマップを生成する段階をさらに備え、前記生成されたヒートマップが、前記第１のパルスシーケンスと前記第２のパルスシーケンスとの間の前記パルス同時計数に少なくとも部分的に対応して作成され、前記第１のパルスシーケンスまたは前記第２のパルスシーケンスのうちの少なくとも１つが前記選択されたパルス位置に基づく、請求項１から４のいずれか一項に記載のコンピュータ実装方法。

【請求項6】

前記選択されたパルス位置を使用して、真の乗算マップを前記生成されたヒートマップと比較する段階をさらに備え、前記真の乗算マップが、各要素に対して要素ごとの乗算を実行する、請求項５に記載のコンピュータ実装方法。

【請求項7】

前記真の乗算マップと前記生成されたヒートマップとの間の誤差を決定する段階と、
前記真の乗算マップと前記生成されたヒートマップとの間の前記誤差を表示する段階と
をさらに備える、請求項６に記載のコンピュータ実装方法。

【請求項8】

前記クロスバーアレイを更新する段階が、前記計算に少なくとも部分的に基づいて、前記クロスバーアレイの１つまたは複数のメモリスタのデバイスのコンダクタンス値を更新する段階を含む、請求項１から７のいずれか一項に記載のコンピュータ実装方法。

【請求項9】

クロスバーアレイを更新するためにパルス生成を実装するためのシステムであって、
１つまたは複数のメモリスタのデバイスを含むクロスバーアレイと、
前記クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用される第１の数を受信することと、
前記第１の数を表すビット長を受信することであって、前記ビット長は前記第１の数が取り得る値の数の二乗よりも小さい、受信することと、
前記第１の数を表す前記ビット長を有し、前記第１の数に対応する第１のパルスシーケンスにおけるパルス位置を決定的に選択することと、
前記第１のパルスシーケンスにおける前記選択されたパルス位置および第２のパルスシーケンスにおけるパルス位置のパルス同時計数を使用して計算を実行することであって、前記第２のパルスシーケンスは、前記クロスバーアレイの出力の誤差に基づく第２の数に対応するパルスシーケンスである、計算を実行することと、
前記計算を使用して、前記パルス同時計数に対応して前記クロスバーアレイを更新することであって、前記クロスバーアレイを前記更新することにより、前記１つまたは複数のメモリスタのデバイスの重みが変更される、更新することと
を行うように構成されたプロセッサと
を備える、システム。

【請求項10】

前記計算が、前記第１の数および前記第２の数を用いて外積演算を実行することを含む、請求項９に記載のシステム。

【請求項11】

前記第１のパルスシーケンスにおける前記選択されたパルス位置は、前記ビット長に少なくとも部分的に基づいている、請求項９または１０に記載のシステム。

【請求項12】

前記ビット長が、前記クロスバーアレイの前記１つまたは複数のメモリスタのデバイスの重みを表す重み行列において、前記第１の数が取り得る値の数に等しい、請求項９から１１のいずれか一項に記載のシステム。

【請求項13】

前記計算が、ニューラルネットワークの前記第１のパルスシーケンスおよび前記第２のパルスシーケンスの外積を決定することを含む、請求項９から１２のいずれか一項に記載のシステム。

【請求項14】

前記プロセッサが、ヒートマップを生成するようにさらに構成され、前記生成されたヒートマップが、前記第１のパルスシーケンスと前記第２のパルスシーケンスとの間のパルス同時計数に少なくとも部分的に対応して作成され、前記第１のパルスシーケンスまたは前記第２のパルスシーケンスのうちの少なくとも１つが前記選択されたパルス位置に基づく、請求項９から１３のいずれか一項に記載のシステム。

【請求項15】

前記プロセッサが、前記選択されたパルス位置を使用して、真の乗算マップを前記生成されたヒートマップと比較するようにさらに構成され、前記真の乗算マップが、各要素に対して要素ごとの乗算を実行する、請求項１４に記載のシステム。

【請求項16】

前記プロセッサが、
前記真の乗算マップと前記生成されたヒートマップとの間の誤差を決定することと、
前記真の乗算マップと前記生成されたヒートマップとの間の前記誤差を表示することと
を行うようにさらに構成されている、請求項１５に記載のシステム。

【請求項17】

前記クロスバーアレイを更新することが、前記計算に少なくとも部分的に基づいて、前記クロスバーアレイの１つまたは複数のメモリスタのデバイスのコンダクタンス値を更新することを含む、請求項９から１６のいずれか一項に記載のシステム。

【請求項18】

アナログクロスバーアレイを更新するためのパルス生成のためのコンピュータプログラムであって、プロセッサに、
クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用される第１の数を受信する手順と、
前記第１の数を表すビット長を受信する手順であって、前記ビット長は前記第１の数が取り得る値の数の二乗よりも小さい手順と、
前記第１の数を表す前記ビット長を有し、前記第１の数に対応する第１のパルスシーケンスにおけるパルス位置を決定的に選択する手順と、
前記第１のパルスシーケンスにおける前記選択されたパルス位置および第２のパルスシーケンスにおけるパルス位置のパルス同時計数を使用して計算を実行する手順であって、前記第２のパルスシーケンスは、前記クロスバーアレイの出力の誤差に基づく第２の数に対応するパルスシーケンスである、計算を実行する手順と、
前記計算を使用して、前記パルス同時計数に対応して前記クロスバーアレイを更新する手順であって、前記クロスバーアレイを前記更新する手順が、前記計算に少なくとも部分的に基づいて前記クロスバーアレイの１つまたは複数のメモリスタのデバイスのコンダクタンス値を更新する手順を含む、更新する手順と
を実行させるための、コンピュータプログラム。

【請求項19】

前記計算が、前記第１の数および前記第２の数を用いて外積演算を実行することを含む、請求項１８に記載のコンピュータプログラム。

【請求項20】

前記ビット長が前記クロスバーアレイの前記１つまたは複数のメモリスタのデバイスの重みを表す重み行列において、前記第１の数が取り得る値の数に等しい、請求項１８または１９に記載のコンピュータプログラム。

【請求項21】

前記プロセッサに、ニューラルネットワークの前記第１のパルスシーケンスおよび前記第２のパルスシーケンスの外積を決定させる手順をさらに実行させる、請求項１８から２０のいずれか一項に記載のコンピュータプログラム。

【請求項22】

前記プロセッサに、ヒートマップを生成する手順をさらに実行させ、前記生成されたヒートマップが、前記第１のパルスシーケンスと前記第２のパルスシーケンスとの間のパルス同時計数に少なくとも部分的に対応して作成され、前記第１のパルスシーケンスまたは前記第２のパルスシーケンスのうちの少なくとも１つが前記選択されたパルス位置に基づく、請求項１８から２１のいずれか一項に記載のコンピュータプログラム。

【請求項23】

前記プロセッサに、前記選択されたパルス位置を使用して、真の乗算マップを前記生成されたヒートマップと比較させる手順をさらに実行させ、前記真の乗算マップが、各要素に対して要素ごとの乗算を実行する、請求項２２に記載のコンピュータプログラム。

【請求項24】

前記プロセッサに、
前記真の乗算マップと前記生成されたヒートマップとの間の誤差を決定する手順と、
前記真の乗算マップと前記生成されたヒートマップとの間の前記誤差を表示する手順と
をさらに実行させる、請求項２３に記載のコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して、ニューラルネットワークを実装するクロスバーアレイに関し、より具体的には、アナログクロスバーアレイを更新するためにコンパクトな固定ビット長の決定論的パルス生成を使用してニューラルネットワークを訓練することに関する。

【背景技術】

【0002】

ニューロモーフィック（ｎｅｕｒｏｍｏｒｐｈｉｃ）およびシナプトロニック（ｓｙｎａｐｔｒｏｎｉｃ）システムとしても知られる人工ニューラルネットワーク（ＡＮＮ）は、電子システムが、人間の脳など、生体神経系のものと類似した方法で本質的に機能することを許容する計算システムである。この詳細な説明では、ＡＮＮへのいかなる言及も、パルスニューラルネットワーク（ＰＮＮ）を含むがこれに限定されない、生物学的ニューラルネットワークをモデル化する広範囲のコンピュータおよび電子システムを包含するように、最も広い意味で使用される。ＡＮＮのいくつかの実装形態は、一般に、０および１を操作する従来のデジタルモデルを利用しない。代わりに、ＡＮＮのいくつかの実装形態は、生体の脳のニューロンと機能的におよそ同等である処理要素間の接続を生み出す。

【0003】

ＡＮＮは、多くの相互接続を含む多くの単純なプロセッサを有する比較的大きい並列計算システムとして実装されることが多い。ＡＮＮ（またはＰＮＮ）を使用して生物学的な神経系をモデル化することは、生体機能のより良好な理解に寄与し得る。多くのＡＮＮモデルが、人間の脳において使用されると考えられている何らかの「組織的」原理を使用することを試みている。現代のコンピュータのハードウェア技術（例えば、ＶＬＳＩおよび光学）は、そのようなモデル化を実行可能にしてきた。ＡＮＮは、神経生理学、認知科学／心理学、物理学（統計力学）、制御理論、コンピュータサイエンス、人工知能、統計／数学、パターン認識、コンピュータビジョン、並列処理、およびハードウェア（例えば、デジタル／アナログ／ＶＬＳＩ／光学）を含む様々な領域からの知識を組み込む。

【0004】

現代のＡＮＮは、人工ニューロン（「ノード」としても知られる）のネットワークを含む。これらのノードは互いに接続され、それらの互いに対する接続の強度には値が割り当てられる。例えば、接続は、抑制（抑制の最大値は－１．０である）または励起（励起の最大値は＋１．０である）を呈するものとして識別され得る。接続のマグニチュード値が高い場合、これは、強い接続を示す。各ノードの設計内には、伝達関数も備えられている。典型的なＡＮＮには３つのタイプのニューロンがあり、すなわち、入力ノード、隠れノード、および出力ノードである。

【0005】

入力ノードは、数値的に表現できる情報を取り込む。情報は活性化値として提示され、各ノードには数値が与えられ、より大きいマグニチュードを有する数値がより大きい活性化を引き起こす。この情報は、次に、ネットワークを通じて伝達される。接続強度（重み）、抑制（または励起）、および伝達関数に基づいて、活性化値がノードからノードへと伝達される。各ノードは、それが受信した活性化値を合計する。各ノードは、次に、その伝達関数に基づいて値を修正する。活性化は、出力ノードに到達するまで、入力ノードおよび隠れ層を通って流れる。出力ノードは、外部に対して意味ある方式で入力を反映する。

【0006】

多くのタイプのニューラルネットワークが存在するが、２つの最も広範なカテゴリがフィードフォワードおよびフィードバックネットワークである。フィードフォワードネットワークは、入力層、出力層、および隠れ層を有する非再帰型ネットワークである。信号は、１方向にのみ伝わることができる。入力データは、計算を実行する処理要素の層に伝達される。各処理要素は、その入力の加重和に基づいて計算を行う。新たに計算された値は、次に、次の層に与えられる新たな入力値になる。このプロセスは、それが全ての層を通り、出力が決定されるまで継続される。閾値伝達関数は、出力層におけるニューロンの出力を定量化するのに使用される場合がある。

【0007】

フィードバックネットワークはフィードバック経路を含み、これは、それらの信号がループを使用して両方向に伝わることができることを意味する。ニューロン間の全ての可能な接続が許容される。このタイプのネットワークではループが存在するため、ある操作の下では、平衡状態に到達するまで連続的に変化する非線形力学系になり得る。フィードバックネットワークは、連想メモリおよび最適化問題において使用されることが多く、ネットワークは、相互接続要因の最適な配置を見つける。

【0008】

ＡＮＮにおいて、時間エンコーダまたはスパイク生成器として一般に知られるコンポーネントによってスパイク生成関数がモデル化され得る。そのため、以前に説明した生体神経系のより大きな知識を得る能力は、スパイクする時間エンコーダの回帰型ネットワークにおいて神経情報がどのように符号化されているかをモデル化するＡＮＮの開発に依存する。時間エンコーダは、受信した信号を非同期的に統合し、非同期パルス信号の後続のセットを生成することによって、情報のデジタルおよびアナログの符号化に対して代替案を提供する。時間エンコーダネットワークのある構成は、ネットワークから出力されたパルスまたはスパイクのセットからネットワークに入力された信号のセットについての情報の抽出を可能にする。

【発明の概要】

【0009】

本発明の実施形態は、クロスバーアレイを更新するためのパルス生成のコンピュータ実装方法を対象とする。コンピュータ実装方法の非限定的な例は、クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信する段階と、数を表すビット長を受信する段階とを含む。コンピュータ実装方法はまた、数を表す、ビット長を有するパルスシーケンスにおけるパルス位置を選択する段階と、パルスシーケンスにおける選択されたパルス位置を使用して計算を実行する段階と、計算を使用してクロスバーアレイを更新する段階とを含む。

【0010】

本発明の実施形態は、クロスバーアレイを更新するためにパルスを生成するためのシステムを対象とする。システムの非限定的な例は、１つまたは複数のメモリスタのデバイスを有するクロスバーアレイと、プロセッサとを含む。プロセッサは、クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信し、数を表すビット長を受信するように構成されている。プロセッサはまた、数を表す、ビット長を有するパルスシーケンスにおけるパルス位置を選択し、パルスシーケンスにおける選択されたパルス位置を使用して計算を実行し、計算を使用してクロスバーアレイを更新するように構成され、クロスバーアレイを更新することにより、１つまたは複数のメモリスタのデバイスの重みが変更される。

【0011】

発明の実施形態は、クロスバーアレイを更新するためのパルス生成のためのコンピュータプログラム製品を対象とし、コンピュータプログラム製品は、それにより具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含む。プログラム命令は、プロセッサに方法を実行させるためにプロセッサによって実行可能である。方法の非限定的な例は、クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信する段階と、数を表すビット長を受信する段階とを含む。方法はまた、数を表す、ビット長を有するパルスシーケンスにおけるパルス位置を選択する段階と、パルスシーケンスにおける選択されたパルス位置を使用して計算を実行する段階と、計算を使用してクロスバーアレイを更新する段階とを含む。

【0012】

さらなる技術的特徴および利益が本発明の技術によって実現される。本発明の実施形態および態様が本明細書において詳細に説明され、特許請求される主題の一部とみなされる。より良好な理解のために、詳細な説明および図面を参照する。

【図面の簡単な説明】

【0013】

本明細書で説明される排他的権利の詳細は、明細書末尾の特許請求の範囲において具体的に示され、明確に特許請求される。本発明の実施形態の前述および他の特徴および利点は、添付の図面と併せて読まれると、以下の詳細な説明から明らかである。

【0014】

【図1】本発明の実施形態を使用してモデル化された生物学的ニューロンの入力および出力接続の図を示す。

【0015】

【図2】本発明の実施形態と関連して使用可能な、図１に示される生物学的ニューロンのモデルを示す。

【0016】

【図3】図２に示される生体神経モデルを組み込んだＡＮＮのモデルを示す。

【0017】

【図4】本発明の実施形態と関連して使用可能な、知られている重み更新の方法論のブロック図を示す。

【0018】

【図5】本発明の１つまたは複数の実施形態において使用可能な計算方法のブロック図を示す。

【0019】

【図6】本発明の実施形態と関連して利用可能な、受動的な２端子メムリストラの動作を統制する既知の式を示す。

【0020】

【図7】本発明の実施形態と関連して利用可能な、既知の２端子メモリスタのスイッチング特性と２端子ＲＰＵの非線形スイッチング特性との間のグラフによる比較を示す。

【0021】

【図8】本発明の実施形態による２端子の非線性ＲＰＵデバイスのクロスバーアレイを、ＲＰＵの動作を示す電圧配列と共に示す。

【0022】

【図9】本発明の１つまたは複数の実施形態による、ビットストリームにおいてビット位置を選択するためのアルゴリズムを示す。

【0023】

【図10】本発明の１つまたは複数の実施形態によるグラフおよび乗算マップを示す。

【0024】

【図11】本発明の１つまたは複数の実施形態によるグラフおよび乗算マップを示す。

【0025】

【図12】本発明の１つまたは複数の実施形態によるグラフおよび乗算マップを示す。

【0026】

【図13】本発明の１つまたは複数の実施形態による、クロスバーアレイを更新するためにパルスを生成するための方法のフローチャートを示す。

【0027】

【図14】本明細書の教示の実践のための、処理システムの一例を示すブロック図を示す。

【0028】

本明細書で示される図は例示的である。本発明の趣旨から逸脱することなく、図面または本明細書において説明される動作に対する多くの変形が存在し得る。例えば、アクションを異なる順序において実行することもできるし、アクションは、追加、消去または修正することもできる。また、「結合される（ｃｏｕｐｌｅｄ）」という用語およびその変形は、２つの要素間で通信経路を有することを説明し、要素同士の間に介在する要素／接続を伴わない、それらの間の直接接続を暗示しない。これらの変形の全てが本明細書の一部とみなされる。

【0029】

添付図面および本発明の実施形態の以下の詳細な説明において、図に示される様々な要素には２桁または３桁の参照符号が提供されている。わずかな例外を除き、各参照符号の最も左の桁は、その要素が最初に示されている図に対応する。

【発明を実施するための形態】

【0030】

本発明の様々な実施形態は、関連する図面を参照して本明細書で説明される。本発明の代替的な実施形態は、本発明の範囲から逸脱することなく考案することができる。以下の説明および図面における要素間で、様々な接続関係および位置関係（例えば、上方、下方、隣接など）が記載される。これらの接続もしくは位置関係またはその両方は、特に明記しない限り、直接的または間接的であり得て、本発明は、この点で限定することを意図するものではない。したがって、エンティティの結合は、直接的または間接的のいずれかの結合を指してよく、エンティティ間の位置関係は、直接的または間接的な位置関係であり得る。また、本明細書において説明される様々なタスクおよびプロセス段階は、追加の段階または本明細書において詳細に説明されていない機能を有するより包括的な手順またはプロセスに組み込むことができる。

【0031】

以下の定義および略語は、特許請求の範囲および明細書の解釈のために使用され得る。本明細書において使用されるとき、「ｃｏｍｐｒｉｓｅｓ」、「ｃｏｍｐｒｉｓｉｎｇ」、「ｉｎｃｌｕｄｅｓ」、「ｉｎｃｌｕｄｉｎｇ」、「ｈａｓ」、「ｈａｖｉｎｇ」、「ｃｏｎｔａｉｎｓ」、もしくは「ｃｏｎｔａｉｎｉｎｇ」という用語、またはそれらの任意の他の変形は、非排他的包含を網羅することを意図している。例えば、要素のリストを含む組成物、混合物、プロセス、方法、物品、または装置は、必ずしもそれらの要素のみに限定されず、明示的に列挙されていない、またはそのような組成物、混合物、プロセス、方法、物品、または装置に固有の他の要素を含み得る。

【0032】

さらに、「例示的」という用語は、本明細書において、「一例、インスタンス、または例示として機能する」ことを意味するように使用される。「例示的」として本明細書に記載される本発明の任意の実施形態は、必ずしも、本発明の他の実施形態よりも好ましいまたは有利であるものとして解釈されるべきではない。「少なくとも１つ」および「１つまたは複数」という用語は、１より大きいまたはそれに等しい任意の整数、すなわち、１、２、３、４などを含むように理解され得る。「複数（ａｐｌｕｒａｌｉｔｙ）」という用語は、２より大きいまたはそれに等しい任意の整数、すなわち、２、３、４、５など含むと理解される。「接続」という用語は、間接的な「接続」および直接的な「接続」の両方を含み得る。

【0033】

「約」、「実質的に」、「およそ」という用語、およびそれらの変形は、本願の出願の時点で利用可能な機器に基づく特定の量の測定値に関連付けられる誤差の程度を含むことが意図される。例えば、「約」は、所与の値の±８％、または５％、または２％の範囲を含むことができる。

【0034】

簡潔さのために、本発明の態様の製造および使用に関する従来技術は、本明細書で詳細に説明される場合もあれば、されない場合もある。特に、コンピューティングシステム、および本明細書で説明される様々な技術的特徴を実装するための具体的なコンピュータプログラムの様々な態様は周知である。したがって、簡潔の目的で、多くの従来の実装の詳細は本明細書では簡潔にのみ言及されるか、あるいは、周知のシステムもしくはプロセスまたはその両方の詳細を提供することなく完全に省略される。

【0035】

ここで、本発明の態様により具体的に関連のある技術の概要に移ると、図１、２および３を参照して、典型的なＡＮＮがどのように動作するかの説明がここで提供される。本明細書において以前に述べたように、典型的なＡＮＮは、ニューロンと呼ばれる相互接続された約１０００億個の細胞を含む人間の脳をモデル化する。図１は、示されるように構成および配置された、それを上流入力１１２、１１４、下流出力１１６、および下流の「他の」ニューロン１１８に接続する経路１０４、１０６、１０８、１１０を有する生物学的ニューロン１０２の簡易図を示す。各生物学的ニューロン１０２は、経路１０４、１０６、１０８、１１０を通じて電気インパルスを送信および受信する。これらの電気インパルスの性質およびそれらが生物学的ニューロン１０２においてどのように処理されるかが、脳の機能全体を主に担っている。生物学的ニューロン間の経路接続は強いかまたは弱い場合がある。所与のニューロンが入力インパルスを受信すると、ニューロンは、ニューロンの機能に応じて入力を処理し、機能の結果を、下流出力もしくは下流の「他の」ニューロンまたはその組み合わせに送信する。

【0036】

生物学的ニューロン１０２は、図２において、図２に示される式によって示される数学関数ｆ（ｘ）を有するノード２０２としてモデル化される。ノード２０２は、入力２１２、２１４から電気信号を取り込み、各入力２１２、２１４をそのそれぞれの接続経路２０４、２０６の強度で乗算し、入力の合計を取り込み、合計を関数ｆ（ｘ）に通し、結果２１６を生成し、これが、最終出力もしくは別のノードへの入力、またはその両方となり得る。本件の詳細な説明において、アスタリスク（＊）は、乗算を表すために使用される。弱い入力信号は、非常に小さな接続強度の数値で乗算されるため、関数に対する弱い入力信号の影響は非常に低い。同様に、強い入力信号はより高い接続強度の数値で乗算されるため、関数に対する強い入力信号の影響はより大きくなる。関数ｆ（ｘ）は設計選択であり、様々な関数が使用され得る。ｆ（ｘ）の典型的な設計選択は、双曲線正接関数であり、これは、前の合計の関数を取り込み、－１～＋１の数値を出力する。

【0037】

図３は、加重方向グラフとして編成された、簡略化されたＡＮＮモデル３００を示し、人工ニューロンは、ノード（例えば、３０２、３０８、３１６）であり、加重方向のエッジ（例えば、ｍ１～ｍ２０）がノードを接続する。ＡＮＮモデル３００は、ノード３０２、３０４、３０６が入力層ノードであり、ノード３０８、３１０、３１２、３１４が隠れ層ノードであり、ノード３１６、３１８が出力層ノードであるように編成される。各ノードは、図３において、ｍ１～ｍ２０の接続強度を有する方向矢印として示される接続経路によって、隣接する層における全てのノードと接続されている。１つの入力層、１つの隠れ層、および１つの出力層のみが示されているが、実践において、複数の入力層、隠れ層、および出力層が提供され得る。

【0038】

人間の脳の機能と同様に、ＡＮＮ３００の各入力層ノード３０２、３０４、３０６は、接続強度調整を有さず、かつノード総和を有さないソース（図示せず）から、入力ｘ１、ｘ２、ｘ３を直接受信する。したがって、図３の最下部に列挙される式によって示されるように、ｙ１＝ｆ（ｘ１）、ｙ２＝ｆ（ｘ２）、およびｙ３＝ｆ（ｘ３）となる。各隠れ層ノード３０８、３１０、３１２、３１４は、関連のある接続経路に関連付けられた接続強度によって、全ての入力層ノード３０２、３０４、３０６から入力を受信する。そうして、隠れ層ノード３０８において、ｙ４＝ｆ（ｍ１＊ｙ１＋ｍ５＊ｙ２＋ｍ９＊ｙ３）であり、＊は乗算を表す。図３の最下部に示される関数ｙ５～ｙ９を定義する式によって示されるように、隠れ層ノード３１０、３１２、３１４および出力層ノード３１６、３１８に対して、同様の接続強度乗算およびノード総和が実行される。

【0039】

ＡＮＮモデル３００は、データ記録を一度に１つずつ処理し、記録の初期の任意の分類を、記録の既知の実際の分類と比較することによってそれを「学習」する。「逆伝播」（すなわち、「誤差の逆方向伝播」）として知られる訓練技法を使用して、最初の記録の初期分類からの誤差がネットワークに戻され、２回目のネットワークの加重接続を修正するのに使用され、このフィードバック過程が多くの反復にわたって継続される。ＡＮＮの訓練フェーズにおいて、各記録の正確な分類は知られており、したがって、出力ノードには「正確な」値が割り当てられ得る。例えば、正確なクラスに対応するノードに対しては「１」（または０．９）のノード値が割り当てられ、その他のノードに対しては「０」（または０．１）のノード値が割り当てられ得る。そのため、出力ノードに対するネットワークの計算値をこれらの「正確な」値と比較し、各ノードに対する誤差項（すなわち、「デルタ」ルール）を計算することが可能である。これらの誤差項は、次に、隠れ層における重みを調整するために使用され得、それにより、次の反復において、出力値は「正確な」値により近くなる。

【0040】

消費電力が低くなることの潜在性にもかかわらず、典型的には、ＡＮＮモデルにおけるかなりの数の調整可能なパラメータ（例えば、重み）を、訓練データのための入出力ペアと一致させるように修正するために訓練中に必要であるため、オフライン訓練の実行は、困難かつリソース負荷が高くなり得る。図４は、典型的な読み出し－処理－書き込みの重み更新動作の簡略化された図を示し、ここで、ＣＰＵ／ＧＰＵコア（すなわち、シミュレーションされた「ニューロン」）は、メモリ（すなわち、シミュレーションされた「シナプス」）を読み出し、重みの更新処理動作を実行し、次に、更新された重みをメモリに戻して書き込む。したがって、省電力を優先するためにＡＮＮアーキテクチャのクロスポイントデバイスを簡略化することで、オフライン学習技法は通常、訓練速度および訓練効率が最適化されていないことを意味する。

【0041】

確率計算は、ランダムビットのストリームによって連続値を表す技法の集合であり、複雑な計算は、ストリームに対する単純なビット演算によって計算され得る。具体的には、第１のストリームにおける「１」の確率はｐであり、第２のストリームにおける「１」の確率はｑである、確率数値と呼ばれる２つのランダムかつ独立のビットストリームＳ１、Ｓ２がある場合（すなわち、ベルヌーイ過程）、２つのストリームの論理ＡＮＤは、図５に示されるように取ることができる。出力ストリームにおける「１」の確率はｐｑである。十分な出力ビットを観測し、「１」の頻度を測定することによって、任意の精度でｐｑを推定することが可能である。少数の論理ゲート／トランジスタで実装され得る「乗算および積和」の演算の設計により、確率計算は、ニューラルネットワークのためのハードウェア設計において使用されることが多い。

【0042】

しかしながら、いくつかの確率的技術において、計算に必要な重みは、外部位置からシストリックアレイに供給され、重みに対する更新はアレイによって実行されない。これは、ニューラルネットワーク訓練中に高く使用されるベクトル－行列乗算または行列－行列乗算の演算の加速のみに対処する。しかしながら、重みは外部のメモリ位置に格納されているために、ローカルストレージを含まないシストリックアレイは並列して重み更新を実行することができない。重み更新の加速は、本明細書に記載される技法の実施形態によって提供される学習アルゴリズム全体を加速させるために必要である。

【0043】

また、ＡＮＮの訓練は、多くの計算が実行されることを必要とする。ノードの数が増加するにつれて、複雑性および計算の数が増加し、これにより、訓練速度および精度のさらなる非効率がもたらされ得る。重みを調整するために使用される外積を計算するためには、ｂ^２パルスを送って外積を形成するのは非効率である（ここで、ｂはビットの数を表す）。

【0044】

ここで本発明の態様の概要に移ると、本発明の１つまたは複数の実施形態は、効率的なニューラルネットワーク訓練スキームを提供することによって、従来技術の上記欠点に対処する。本明細書に記載される本発明の実施形態の技法により、外積ベースの行列更新行列乗算において使用される各数値を表すのに使用されるパルスの数（またはビット長）が低減される。低減されたビット長により、外積ベースの行列更新の精度が決定される。しかしながら、この低減により、情報の損失がもたらされ得、これは最適化されなければならない。パルスの数の低減によりもたらされる外積ベースの更新内で実行される乗算における粒度は、ニューラルネットワークの精度に影響を及ぼし得る。したがって、パルスシーケンスにおけるパルスの選択された位置は非常に重要であり、値の真の乗算マップにおいて提示される輪郭を維持するために戦略的に選択されなければならない。

【0045】

数値を表すパルスシーケンスまたはビットストリームのビット選択は、ニューラルネットワークを訓練するために使用される外積にマッピングされる。本明細書に記載される本発明の実施形態の技術的効果および利益は、従来のニューラルネットワーク更新において実行されるビットごとの乗算の正確な表現を提供する。技術的効果および利益はまた、最小限の誤差を伴い、パルスシーケンスのｂ個のビットのみを使用する乗算を符号化する効率的な方法を提供する。乗算を最適化するために、本発明の態様によるアルゴリズムは、クロスバーアレイの１つまたは複数のメモリスタを更新するための外積を計算するのに十分な最小の表現を提供する。行列乗算に使用する値のためのパルス位置を生成するアルゴリズムを提供することにより、ＡＮＮアーキテクチャの訓練の速度および効率が加速され得、ＡＮＮ全体の性能が向上し、広範なＡＮＮアプリケーションが可能となる。

【0046】

「メモリスタ」という用語は、受動的な２端子電気コンポーネントを説明するために使用され、デバイスの抵抗値は、以前にデバイスに印加された電圧の履歴に依存する。メモリスタの動作は、図６に示される式[１］および[２］によって決定され、ここで、ｉはデバイスを通る電流であり、ｖはデバイスに印加される電圧であり、ｇはデバイスのコンダクタンス値（これは抵抗の逆数である）であり、ｓは、コンダクタンス値を制御するデバイスの内部状態変数であり、ｆは、内部状態変数ｓの時間発展を示す関数である。

【0047】

本発明の実施形態によるクロスバーアレイのメモリスタ挙動は、図７に示される。理想的なメモリスタと、開示されるＲＰＵを実装するのに使用され得る非理想的な非線形メモリスタとの相違点を示すために、図７は、理想的なメモリスタと、本発明の実施形態によるＲＰＵとの電圧切り替え動作の比較を示すグラフである。グラフの縦軸は、特定の電圧におけるデバイスの状態変化を表し、グラフの横軸は、印加された電圧を表す。理想的なメモリスタ動作において、抵抗の変化は、デバイスに印加された電圧に対して線形的に比例している。そのため、メモリスタが何らかの電圧を受けるとすぐに、その抵抗状態が変化する。これは、状態の変化が低い電圧においても大幅なものであることを示す曲線７０２によって示されている。

【0048】

曲線７０４によって示されるような非線性ＲＰＵデバイスの場合、デバイスがその内部抵抗状態を変化させるために受ける必要がある十分に定義された設定電圧（ＶＳＥＴ）が存在する。０．５ＶＳＥＴのバイアス電圧は内部抵抗状態を変化させない。本発明の実施形態において、ＲＰＵデバイスの非線形特性は、乗算をローカルに実行するために利用される。ｆ１が小さい場合を想定して、デバイスは、たった０．５ＶＳＥＴが印加される場合にはその内部状態を変化させない。とりわけ、図７は、正電圧、およびＲＰＵデバイスの抵抗状態に対する正の変化を示しているが、負電圧と負の抵抗変化との間にも同様の関係が存在する。

【0049】

ここで本発明の態様のより詳細な説明に移ると、図８は、本発明の実施形態による、前方行列乗算、後方行列乗算、および重み更新を実行する２次元（２Ｄ）のクロスバーアレイ８００の図である。クロスバーアレイ８００は、導電性行線８０２、８０４、８０６のセット、および、導電性行線８０２、８０４、８０６のセットと交差する導電性列線８０８、８１０、８１２、８１４のセットから形成されている。行線のセットと列線のセットとの共通部分はＲＰＵによって分離されており、これは、図８において、σ１１、σ２１、σ３１、σ４１、σ１２、σ２２、σ３２、σ４２、σ１３、σ２３、σ３３、およびσ４３としてそれぞれ示されるそれ自体の調整可能／更新可能な抵抗重みを各々有する抵抗素子として示されている。例示を容易にするために、図８において、１つのＲＰＵ８２０のみが参照符号でラベル付けされている。前方行列乗算において、ＲＰＵの導通状態（すなわち、格納された重み）は、ＲＰＵにわたって電圧を印加し、ＲＰＵを通過する電流を測定することによって読み出すことができる。

【0050】

入力電圧Ｖ１、Ｖ２、Ｖ３は、それぞれ、行線８０２、８０４、８０６に印加される。各列線８０８、８１０、８１２、８１４は、特定の列線に沿った各ＲＰＵによって生成された電流Ｉ１、Ｉ２、Ｉ３、Ｉ４を合計する。例えば、図８に示されるように、列線８１４によって生成された電流Ｉ４は、式Ｉ４＝Ｖ１σ４１＋Ｖ２σ４２＋Ｖ３σ４３による。そうして、アレイ８００は、ＲＰＵに格納された値を、電圧Ｖ１、Ｖ２、Ｖ３によって定義される行線入力で乗算することによって前方行列乗算を計算する。後方行列乗算は非常に類似している。後方行列乗算において、列線８０８、８１０、８１２、８１４に電圧が印加され、次に、行線８０２、８０４、８０６から読み出される。以下により詳細に説明される重み更新について、列線および行線に対して同時に電圧が印加され、関連のあるＲＰＵデバイスに格納されたコンダクタンス値８３６は全て並列で更新される。したがって、重み更新を実行するのに必要な乗算および加算演算は、アレイ８００の各ＲＰＵ８２０において、ＲＰＵデバイス自体、およびアレイ８００の関連のある行線または列線を使用して、ローカルに実行される。そうして、本発明の実施形態によれば、アレイ８００において読み出し－更新－書き込みサイクル（図４に示される）は必要とされない。

【0051】

図８の図で続けると、本発明の１つまたは複数の実施形態によれば、ＲＰＵ８２０の正の重み更新方法の動作、および導電性行線８０６と導電性列線８１２との共通部分におけるその対応する重みσ３３がここで提供される。ＲＰＵ８２０の非線形特性は、以下に記載する計算を使用して、ＲＰＵ８２０において乗算演算をローカルに実行するために使用される。より具体的には、開示される方法論は、ＲＰＵ８２０およびビットストリーム８３０、８３２の非線形スイッチング特性を使用して、他の回路素子を必要とすることなくＲＰＵ８２０において乗算演算および必要な重み更新をローカルに実行する。更新発生器回路（図示せず）がクロスバーアレイ８００の周辺に提供され、２Ｄクロスバーアレイ８００の全てのＲＰＵに並列で印加されるビットストリーム（例えば、８３０、８３２）の形態で必要な電圧パルスを生成するために周辺「トランスレータ」として使用される。

【0052】

図７の図を簡潔に参照すると、図８に示されるＲＰＵ８２０のｆ_１が非常に小さい（例えば、ｆ_１＝０）ことが想定され、これは、ＲＰＵ８２０がたった０．５ＶＳＥＴが印加されるときにはその内部状態を変更しないことを意味する。行線８０６に適用される行電圧配列またはビットストリーム８３０は、ゼロの電圧または＋０．５ＶＳＥＴの電圧を有する重み更新を表す電圧パルスのシーケンスとして示されている。列線８１４に適用される列電圧配列またはビットストリーム８３２は、０の電圧または－０．５ＶＳＥＴの電圧のいずれかを有する重み更新も表す電圧パルスのシーケンスとして示されている。図８の例において、４／８は行電圧配列８３０によって符号化され、６／８は列電圧配列８３２によって符号化されている。例示的な電圧配列８３０、８３２は、重み更新の正の抵抗変化段階を表す。正の重み更新が実行された後、それぞれの電圧の極性が逆であるシーケンスの別のセットを使用して、そのような補正を必要とする重みに対して負方向で重みを更新することができる。

【0053】

電圧配列８３４は、行電圧配列８３０と列電圧配列８３２との差からもたらされる、ＲＰＵ８２０に印加される電圧である。電圧配列８３４は、０Ｖ、０．５ＶＳＥＴ、およびＶＳＥＴにおいて３つの電圧ステップを有することになる。しかしながら、ＲＰＵ８２０の抵抗σ４３は、ＶＳＥＴに達するデバイス電圧に対してのみ変更されるため、列線または行線のいずれかを通じて送信された単一パルスは、ＲＰＵ８２０の抵抗状態を変化させるのに十分ではない。列線が０．５ＶＳＥＴの電圧を送信し、行線が－０．５ＶＳＥＴの電圧を送信すると、関連のあるＲＰＵに印加される結果的なＶＳＥＴパルスにより、デバイスの抵抗における増分変化が引き起こされることになる。したがって、ＲＰＵ８２０に印加される電圧パルスは、ＲＰＵ８２０においてビットごとのＡＮＤ演算（例えば、図５に示されるような）をローカルに実行するために、ＲＰＵ８２０の非線形スイッチング特性を利用する。したがって、ＲＰＵの格納された重みにおいて結果として生じる変化（例えば、σ４３）は、クロスバーアレイ８００の周辺にある更新発生器回路によって「変換」された、２つの数値の積（４／８＊６／８＝３／８）に比例する。

【0054】

本発明の１つまたは複数の実施形態によれば、パルス同時計数を用いて乗算を実行するためのアルゴリズム９００が図９に示されている。特に、アルゴリズム９００は、δ値のためのパルスシーケンスにおけるパルス位置を生成して、クロスバーアレイを更新するための重みを最適化する。アルゴリズム９００において使用される変数には、行列ｗにおける異なるｘおよびδの値の数である変数ｂが含まれ、ｃｏｍｐｒｅｓｓｉｏｎは圧縮因子であり、εは許容誤差であり、ｔは１からｍｉｎ（ｂ^２，ｂ^２／ｃｏｍｐｒｅｓｓｉｏｎ）までのカウンタ変数である。ｂビット分解がｂ^２に等しい場合に、非圧縮セットが実現される。ｂ^２未満の任意の値は、ビットがどのように表されているかの圧縮に対応する（情報損失があるため）。アルゴリズム９００は、最小量のペナルティで圧縮を実行することを対象とする。

【0055】

重み更新は、乗算演算と類似している重み行列に対してベクトル－ベクトル外積（上で示されたような）を計算することによって実行される。計算の後、更新された計算を使用して、各処理コンポーネントにおいて差分重み更新が適用される。上で記載された方法論は、行列ｗのδ値のためのパルスシーケンスにおけるパルス位置を決定する。ｘ値の数を表す第１のパルスシーケンスは、δ値の数を表す第２のパルスシーケンスで乗算される。δ値のためのパルス位置は、グラフ１００４などのグラフにおいて表され得る（図１０を参照してさらに説明する）。アルゴリズム９００からのパルスシーケンスを使用して、乗算が簡略化され、重み更新を実行するのに必要とされる計算の総数が低減される。

【0056】

図１０は、本発明の１つまたは複数の実施形態による、クロスバーアレイを更新するためのパルス生成の例示的な実装のための一連のグラフおよびマップを示す。この非限定的な例において、ｂ個のビンがあり、ｂ個のビンは、重み行列ｗのｘおよびδ値が各々、１００の異なる値を取ることができることを示す。ここで、ｂ個のビンは１００であり、ビット長（ＢＬ）は１００ビットである。従来、ｘおよびδの異なる数を表すために、要素ごとの乗算更新が各要素（ｘおよびδ）に対して実行されるため、ニューラルネットワークに使用される重みの更新を実行するためにｂ^２の数の計算が必要とされる。図９に記載される方法論を使用すると、圧縮により、ｂ^２の数の計算が、要素ごとの乗算と同様の結果を呈するニューラルネットワークに対する重み更新を実行するためのｂの数の計算に低減される。

【0057】

図１０において、グラフ１００２は、ニューラルネットワークに対する更新を実行するのに使用される重み行列におけるｘ値を表す。グラフ１００２のｘ軸は、パルスシーケンスにおけるパルス位置またはビットストリームにおけるビット位置を表す。グラフ１００２のｙ軸は、パルスシーケンスによって表されるｘ値の数を表す。パルスシーケンスまたはビットストリームは、一連の１および０を用いて表され得る。領域１０２０は１（ロジック高）を表し、領域１０３０は０（ロジック低）を表す。例えば、グラフ１００２において、８０のｘ値に対応する行は、ｘ軸上に示される位置に提供されるパルスで表される数８０のパルスシーケンスにおける位置を示す。別の例において、数０に対応するグラフ１００２の最下部の行は、パルスシーケンスにおける１００の０パルスで表され、１に対応する最上行は、パルスシーケンスにおける１００の１によって表されている。

【0058】

ｘ値およびδデルタ値にために生成されたパルスシーケンスはかなり異なる。したがって、δ値のパルスシーケンスは、ｘ値のパルスシーケンスとは異なるように決定され、図９を参照して説明されるアルゴリズム９００を使用して決定される。図１０において、グラフ１００４は、δ値のパルスシーケンスにおけるパルス位置を表す。グラフ１００２と同様に、グラフ１００４のｘ軸はパルス位置を表し、ｙ軸は、重みの更新のための計算に使用されるδ値の数を表す。

【0059】

依然として図１０を参照すると、乗算マップ１００６は、重み行列ｗにおける全ての各要素（ｘ_ｉ，δ_ｊ）に対して要素ごとの乗算が実行される真の乗算マップを表す。真の乗算マップ１００６は、要素ごとの乗算に対応する輪郭を提供する。この例において、アナログクロスバーアレイの重みを更新するために行列乗算を実行するための各数を表すために、１０，０００パルス／ビットが使用され、ここで、ｘ値は１００ビットであり、δ値は１００ビットである。ビットの数が増加するにつれて、計算の複雑性および数が素早く増加する。

【0060】

図１０には、第１のパルスシーケンスによって表されるｘ値の数と第２のパルスシーケンスによって表されるδ値の数との外積を取ることによって生成されたヒートマップ１００８も示され、ここで、δ値のための第２のパルスシーケンスは、図９に示されるアルゴリズムから決定された。ヒートマップ１００８は、ｘおよびδの全ての各組み合わせの要素ごとの乗算に対する、第１のパルスシーケンスと第２のパルスシーケンスとの外積の近似を直感的に解析することを可能にする。

【0061】

ヒートマップ１００８に示されるように、外積は、真の乗算が全ての各要素に対して実行されるときに、要素ごとの乗算の表現が、１０，０００ビットの代わりに、１００ビットのみで表されることを可能にする。乗算マップ１００６をヒートマップ１００８と比較することにより、対応する値の間の差を取ることによって誤差を計算することができる。図１０に示されるように、誤差マップ１０１０が計算され、表示され得る。ヒートマップ１００８の輪郭は、乗算マップ１００６に示される輪郭と類似しており、この類似性は、表現が、外積を使用するニューラルネットワークの効率的な更新および正確な分類を提供することを示す。

【0062】

真の乗算マップから表現の数が低減されると、ヒートマップ１００６は、さらにより粒状になり、不正確な結果をもたらし得る。しかしながら、真の乗算マップを使用してニューラルネットワークに対する更新を実行したときのニューラルネットワークからの結果の完全性を維持するビット表現を取得するために、最適な低減が実行され得る。本発明の１つまたは複数の実施形態において、最適な低減は、ＢＬがｂに等しくなるように設定されたときに実現される。

【0063】

図１１において、ビン１００と、５０のビット長を有する構成である。図１０と同様に、グラフ１１０２は各ｘ値のためのパルスシーケンスを表し、グラフ１１０４は、ニューラルネットワークの更新に使用される各δ値のためのパルスシーケンスを表す。図１０と比較すると、ＢＬは５０であり、図１０のそれより少ない。ｘおよびδのより多くの値がより短いＢＬを有する真の乗算マップ１００６にマッピングされるため、表現の数が更新に使用されるＢＬを超えるにつれていくらかの粒度がヒートマップ１１０８にもたらされる。さらに、誤差マップ１１１０は、真の乗算マップ１００６とヒートマップ１００８との間のより大きい差を示している。

【0064】

図１２を参照すると、重み行列ｗのｘおよびδ値を表すのに使用されるＢＬは、図１１と比較したときに、１００のビンを維持しながら、１０のＢＬへとさらに一層低減される。グラフ１２０２は各ｘ値のためのパルスシーケンスを表し、グラフ１２０４は各δ値のためのパルスシーケンスを表す。真の乗算マップ１２０６をヒートマップ１２０８と比較することによって分かるように、ヒートマップ１２０８により高い粒度がもたらされ、これは、更新の精度の低減を示す。図１２はさらに、各値を表すのに使用されるＢＬが減少するにつれて粒度が増加する一例を示す。

【0065】

図１３は、本発明の１つまたは複数の実施形態による、クロスバーアレイを更新するためのパルス生成の方法１３００のフローチャートを示す。方法１３００は、図４に示されるもの、または図１４を参照して説明されるプロセッサなどのプロセッサを使用して実行され得る。任意の他のコンピューティングデバイスが使用され得ることが理解されるべきである。方法１３００は、ブロック１３０２で開始し、プロセッサによって、クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信することを提供するブロック１３０４に進む。ブロック１３０６は、数を表すビット長を受信する。プロセッサに提供されるビット長は、ニューラルネットワークから既知である。ブロック１３０８は、数を表すビット長を有するパルスシーケンスにおけるパルス位置を選択する。本発明の１つまたは複数の実施形態において、パルス位置は、図９に提供されるアルゴリズムを使用して決定される。δ値について、パルスシーケンスにおけるパルス位置が決定される。ブロック１３１０は、パルスシーケンスにおいて選択されたパルス位置を使用して計算を実行する。重み行列のδ値のための第１のパルスシーケンスおよびｘ値のための第２のパルスシーケンスについて外積が決定される。この結果は、増分の加算または減算のいずれかを行って、ニューラルネットワークを訓練するための重みを調整するために使用される。ブロック１３１２は、計算を使用してクロスバーアレイを更新する。本発明の１つまたは複数の実施形態において、結果は、クロスバーアレイにおける１つまたは複数のメモリスタのデバイスのコンダクタンスを調整するために使用される。方法１３００はブロック１３１４で終了する。段階の異なる順番または追加の段階が方法１３００に含まれてもよく、図１３に示される段階によって限定することを意図するものではないことが理解されるべきである。

【0066】

図１４を参照すると、本明細書に記載される教示による本発明の態様を実装するための処理システム１４００が示されている。処理システムは、図４に示されるものなどのプロセッサ（ＣＰＵ／ＧＰＵコア）において実装され得る。この実施形態において、システム１４００は、１つまたは複数の中央処理装置（プロセッサ）１４０１ａ、１４０１ｂ、１４０１ｃなど（まとめてまたは総称的にプロセッサ１４０１と称される）を有する。一実施形態において、各プロセッサ１４０１は、縮小命令セットコンピュータ（ＲＩＳＣ）マイクロプロセッサを含み得る。プロセッサ１４０１は、システムバス１４１３を介してシステムメモリ１４１４および様々な他のコンポーネントに結合される。リードオンリメモリ（ＲＯＭ）１４０２がシステムバス１４１３に結合され、システム１４００の特定の基本機能を制御する基本入出力システム（ＢＩＯＳ）を含み得る。

【0067】

図１４はさらに、システムバス１６１３に結合された入力／出力（Ｉ／Ｏ）アダプタ１４０７およびネットワークアダプタ１４０６を示す。Ｉ／Ｏアダプタ１４０７は、ハードディスク１４０３もしくはテープストレージドライブ１４０５またはその組み合わせ、または任意の他の同様のコンポーネントと通信するスモールコンピュータシステムインタフェース（ＳＣＳＩ）アダプタであり得る。Ｉ／Ｏアダプタ１４０７、ハードディスク１４０３、およびテープストレージデバイス１４０５は、本明細書においてマスストレージ１４０４とまとめて称される。処理システム１４００上で実行するためのオペレーティングシステム１４２０は、マスストレージ１４０４に格納され得る。ネットワークアダプタ１４０６は、バス１４１３を外部ネットワーク１４１６に相互接続し、データ処理システム１４００が他のそのようなシステムと通信することが可能になる。スクリーン（例えば、ディスプレイモニタ）１４１５は、グラフィックス重視のアプリケーションの性能を向上させるためのグラフィックスアダプタおよびビデオコントローラを含み得るディスプレイアダプタ１４１２によってシステムバス１４１３に接続されている。一実施形態において、アダプタ１４０７、１４０６および１４１２は、中間バスブリッジ（図示せず）を介してシステムバス１４１３に接続された１つまたは複数のＩ／Ｏバスに接続され得る。ハードディスクコントローラ、ネットワークアダプタ、およびグラフィックアダプタなどの周辺デバイスを接続するための好適なＩ／Ｏバスは通常、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）などの一般的なプロトコルを含む。追加の入力／出力デバイスは、ユーザインタフェースアダプタ１４０８およびディスプレイアダプタ１４１２を介してシステムバス１４１３に接続されるものとして示されている。キーボード１４０９、マウス１４１０、およびスピーカ１４１１は全て、例えば、複数のデバイスアダプタを単一の集積回路に統合したスーパーＩ／Ｏチップを含み得るユーザインタフェースアダプタ１４０８を介してバス１４１３と相互接続されている。

【0068】

例示的な実施形態において、処理システム１４００は、グラフィックス処理ユニット１４３０を含む。グラフィックス処理ユニット１４３０は、ディスプレイに出力するように意図されたフレームバッファ内での画像の作成を加速するためにメモリを操作および変更するように設計された専用電子回路である。一般に、グラフィックス処理ユニット１４３０は、コンピュータグラフィックスおよび画像処理の操作において非常に効率的であり、大きなデータブロックの処理が並列で行われるアルゴリズムについて、汎用ＣＰＵよりも効果的にする高度に並列な構造を有する。

【0069】

そのため、図１４のように構成されている場合、システム１４００には、プロセッサ１４０１の形態の処理機能、システムメモリ１４１４およびマスストレージ１４０４を含むストレージ機能、キーボード１４０９およびマウス１４１０などの入力手段、ならびにスピーカ１４１１およびディスプレイ１４１５を含む出力機能が含まれる。一実施形態において、システムメモリ１４１４およびマスストレージ１４０４の一部は、図１４において示されている様々なコンポーネントの機能を協働させるためにオペレーティングシステムを集合的に格納する。

【0070】

本明細書に記載される本発明の実施形態は、ニューラルネットワーク訓練のための乗算に使用される数の各々を表すビットストリーム内のビット位置を決定することによって、従来技術よりも向上している。また、本明細書に記載される技法の実施形態は、任意の重み更新を受信する前にニューラルネットワークの初期値を提供することにより、これらの方法論を使用したニューラルネットワークの訓練の加速を提供する。

【0071】

本発明は、任意の可能な技術詳細レベルで統合化されたシステム、方法、もしくはコンピュータプログラム製品、またはその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含み得る。

【0072】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持および格納することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、または前述したものの任意の好適な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカードまたは命令を記録した溝内の隆起構造、および前述したものの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号などの一時的な信号それ自体とは解釈されるべきではない。

【0073】

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされてもよく、あるいは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくは無線ネットワーク、またはその組み合わせを介して、外部コンピュータまたは外部ストレージデバイスにダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバ、またはその組み合わせを備え得る。各コンピューティング／処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。

【0074】

本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または例えばＳｍａｌｌｔａｌｋ（登録商標）、またはＣ＋＋などのオブジェクト指向プログラミング言語、および例えば「Ｃ」プログラミング言語または同様のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、リモートコンピュータもしくはサーバ上で完全に実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得るか、または、接続は、（例えば、インターネットサービスプロバイダを使用してインターネットを通じて）外部コンピュータに行われ得る。いくつかの実施形態において、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。

【0075】

本発明の態様は、本明細書において、本発明の実施形態による方法、装置（システム）、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して、説明されている。フローチャート図もしくはブロック図、またはその両方の各ブロック、ならびに、フローチャート図もしくはブロック図、またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

【0076】

これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図、またはその両方の単数または複数のブロックで指定された機能／動作を実装する手段を作成するようになる。これらのコンピュータ可読プログラム命令はまた、命令が格納されているコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の１つまたは複数のブロックに指定される機能／作用の態様を実装するための命令を含む製造物品を備えるべく、コンピュータ、プログラマブルデータ処理装置、または他のデバイスあるいはその組み合わせに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に格納されてもよい。

【0077】

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または、他のデバイスにロードして、コンピュータ、他のプログラマブル装置、または、他のデバイス上で一連の動作段階を実行させることでコンピュータ実装プロセスを作ることもでき、これにより、コンピュータ、他のプログラマブル装置、または、他のデバイス上で実行される命令が、フローチャートもしくはブロック図の、またはこれらの両方の１つまたは複数のブロックで指定される機能／動作を実装するようになる。

【0078】

図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の考えられる実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図における各ブロックは、指定される論理機能を実装する１つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または部分を表し得る。いくつかの代替的な実装形態において、ブロックに記されている機能は、図面に記されている順序とは異なる順序で行われ得る。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行され得るか、または、関連する機能に応じてブロックが逆の順序で実行されることもあり得る。ブロック図もしくはフローチャート図、またはその両方の各ブロック、ならびにブロック図もしくはフローチャート図、またはその両方におけるブロックの組み合わせは、指定された機能もしくは動作を実行するか、または専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースのシステムによって実装することができることにも留意されたい。

【0079】

本発明の様々な実施形態の説明は、例示目的で提示されてきたが、包括的になること、または開示された実施形態に限定されることが意図されるものではない。説明された実施形態の範囲および趣旨から逸脱することなく、多くの修正および変形が、当業者には明らかであろう。本明細書において使用される専門用語は、実施形態の原理、市場で見られる技術の実用的な適用もしくはそれに対する技術的改善を最も良好に説明し、または、本明細書において説明される実施形態を他の当業者が理解することを可能にするように選択されている。
本明細書によれば、以下の各項目もまた開示される。
［項目１］
アナログクロスバーアレイを更新するためのパルス生成のコンピュータ実装方法であって、
プロセッサによって、クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信する段階と、
上記プロセッサによって、上記数を表すビット長を受信する段階と、
上記プロセッサによって、上記数を表す上記ビット長を有するパルスシーケンスにおけるパルス位置を選択する段階と、
上記プロセッサによって、上記パルスシーケンスにおける上記選択されたパルス位置を使用して計算を実行する段階と、
上記プロセッサによって、上記計算を使用して上記クロスバーアレイを更新する段階と
を備える、コンピュータ実装方法。
［項目２］
上記計算が、上記行列乗算において使用した上記数および上記行列乗算において使用した第２の数を用いて外積演算を実行することを含む、項目１に記載のコンピュータ実装方法。
［項目３］
上記パルスシーケンスにおける上記選択されたパルス位置は、上記ビット長に少なくとも部分的に基づいている、項目１または２に記載のコンピュータ実装方法。
［項目４］
上記ビット長が、重み行列の異なる要素の数に等しい、項目１から３のいずれか一項に記載のコンピュータ実装方法。
［項目５］
ヒートマップを生成する段階をさらに備え、上記生成されたヒートマップが、第１のパルスシーケンスと第２のパルスシーケンスとの間のパルス同時計数に少なくとも部分的に基づいており、上記第１のパルスシーケンスまたは上記第２のパルスシーケンスのうちの少なくとも１つが上記選択されたパルス位置を含む、項目１から４のいずれか一項に記載のコンピュータ実装方法。
［項目６］
上記少なくとも１つの第１のパルスシーケンスが上記数に対応し、上記第２のパルスシーケンスが第２の数に対応する、項目５に記載のコンピュータ実装方法。
［項目７］
上記選択されたパルス位置を使用して、真の乗算マップを上記生成されたヒートマップと比較する段階をさらに備え、上記真の乗算マップが、各要素に対して要素ごとの乗算を実行する、項目５または６に記載のコンピュータ実装方法。
［項目８］
上記真の乗算マップと上記生成されたヒートマップとの間の誤差を決定する段階と、
上記真の乗算マップと上記生成されたヒートマップとの間の上記誤差を表示する段階と
をさらに備える、項目７に記載のコンピュータ実装方法。
［項目９］
上記クロスバーアレイを更新する段階が、上記計算に少なくとも部分的に基づいて、上記クロスバーアレイの１つまたは複数のメモリスタのデバイスのコンダクタンス値を更新する段階を含む、項目１から８のいずれか一項に記載のコンピュータ実装方法。
［項目１０］
クロスバーアレイを更新するためにパルス生成を実装するためのシステムであって、
１つまたは複数のメモリスタのデバイスを含むクロスバーアレイと、
上記クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信することと、
上記数を表すビット長を受信することと、
上記数を表す上記ビット長を有するパルスシーケンスにおけるパルス位置を選択することと、
上記パルスシーケンスにおける上記選択されたパルス位置を使用して計算を実行することと、
上記計算を使用して上記クロスバーアレイを更新することであって、上記クロスバーアレイを上記更新することにより、上記１つまたは複数のメモリスタのデバイスの重みが変更される、更新することと
を行うように構成されたプロセッサと
を備える、システム。
［項目１１］
上記計算が、上記行列乗算において使用した上記数および上記行列乗算において使用した第２の数を用いて外積演算を実行することを含む、項目１０に記載のシステム。
［項目１２］
上記パルスシーケンスにおける上記選択されたパルス位置は、上記ビット長に少なくとも部分的に基づいている、項目１０または１１に記載のシステム。
［項目１３］
上記ビット長が、重み行列の異なる要素の数に等しい、項目１０から１２のいずれか一項に記載のシステム。
［項目１４］
上記計算が、ニューラルネットワークの第１のベクトルおよび第２のベクトルの外積を決定することを含む、項目１０から１３のいずれか一項に記載のシステム。
［項目１５］
上記プロセッサが、ヒートマップを生成するようにさらに構成され、上記生成されたヒートマップが、第１のパルスシーケンスと第２のパルスシーケンスとの間のパルス同時計数に少なくとも部分的に基づいており、上記第１のパルスシーケンスまたは上記第２のパルスシーケンスのうちの少なくとも１つが上記選択されたパルス位置を含む、項目１０から１４のいずれか一項に記載のシステム。
［項目１６］
上記プロセッサが、上記選択されたパルス位置を使用して、真の乗算マップを上記生成されたヒートマップと比較するようにさらに構成され、上記真の乗算マップが、各要素に対して要素ごとの乗算を実行する、項目１５に記載のシステム。
［項目１７］
上記プロセッサが、
上記真の乗算マップと上記生成されたヒートマップとの間の誤差を決定することと、
上記真の乗算マップと上記生成されたヒートマップとの間の上記誤差を表示することと
を行うようにさらに構成されている、項目１６に記載のシステム。
［項目１８］
上記クロスバーアレイを更新することが、上記計算に少なくとも部分的に基づいて、上記クロスバーアレイの１つまたは複数のメモリスタのデバイスのコンダクタンス値を更新することを含む、項目１０から１７のいずれか一項に記載のシステム。
［項目１９］
アナログクロスバーアレイを更新するためのパルス生成のためのコンピュータプログラムであって、プロセッサに、
クロスバーアレイのためのパルス生成を使用して表す行列乗算に使用した数を受信する手順と、
上記数を表すビット長を受信する手順と、
上記数を表す上記ビット長を有するパルスシーケンスにおけるパルス位置を選択する手順と、
上記パルスシーケンスにおける上記選択されたパルス位置を使用して計算を実行する手順と、
上記計算を使用して上記クロスバーアレイを更新する手順であって、上記クロスバーアレイを上記更新する手順が、上記計算に少なくとも部分的に基づいて上記クロスバーアレイの１つまたは複数のメモリスタのデバイスのコンダクタンス値を更新する手順を含む、更新する手順と
を実行させるための、コンピュータプログラム。
［項目２０］
上記計算が、上記行列乗算において使用した上記数および上記行列乗算において使用した第２の数を用いて外積演算を実行することを含む、項目１９に記載のコンピュータプログラム。
［項目２１］
上記ビット長が、重み行列の異なる要素の数に等しい、項目１９に記載のコンピュータプログラム。
［項目２２］
上記プロセッサに、ニューラルネットワークの第１のパルスシーケンスおよび第２のパルスシーケンスの外積を決定させる手順をさらに実行させる、項目１９から２１のいずれか一項に記載のコンピュータプログラム。
［項目２３］
上記プロセッサに、ヒートマップを生成する手順をさらに実行させ、上記生成されたヒートマップが、第１のパルスシーケンスと第２のパルスシーケンスとの間のパルス同時計数に少なくとも部分的に基づいており、上記第１のパルスシーケンスまたは上記第２のパルスシーケンスのうちの少なくとも１つが上記選択されたパルス位置を含む、項目１９から２２のいずれか一項に記載のコンピュータプログラム。
［項目２４］
上記プロセッサに、上記選択されたパルス位置を使用して、真の乗算マップを上記生成されたヒートマップと比較させる手順をさらに実行させ、上記真の乗算マップが、各要素に対して要素ごとの乗算を実行する、項目２３に記載のコンピュータプログラム。
［項目２５］
上記プロセッサに、
上記真の乗算マップと上記生成されたヒートマップとの間の誤差を決定する手順と、
上記真の乗算マップと上記生成されたヒートマップとの間の上記誤差を表示する手順と
をさらに実行させる、項目２４に記載のコンピュータプログラム。

【図1】