特表2024-545088 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ リベリオンズインコーポレイテッドの特許一覧

特表2024-545088ニューラルプロセッシング装置およびその同期化方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-05

(54)【発明の名称】ニューラルプロセッシング装置およびその同期化方法

(51)【国際特許分類】

G06N 3/063 20230101AFI20241128BHJP

【ＦＩ】

G06N3/063

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024533970

(86)(22)【出願日】2021-12-30

(85)【翻訳文提出日】2024-06-06

(86)【国際出願番号】 KR2021020253

(87)【国際公開番号】W WO2023128009

(87)【国際公開日】2023-07-06

(81)【指定国・地域】

(71)【出願人】

【識別番号】522431896

【氏名又は名称】リベリオンズインコーポレイテッド

【氏名又は名称原語表記】ＲＥＢＥＬＬＩＯＮＳＩＮＣ．

(74)【代理人】

【識別番号】100121728

【弁理士】

【氏名又は名称】井関勝守

(74)【代理人】

【識別番号】100165803

【弁理士】

【氏名又は名称】金子修平

(74)【代理人】

【識別番号】100179648

【弁理士】

【氏名又は名称】田中咲江

(74)【代理人】

【識別番号】100222885

【弁理士】

【氏名又は名称】早川康

(74)【代理人】

【識別番号】100140338

【弁理士】

【氏名又は名称】竹内直樹

(74)【代理人】

【識別番号】100227695

【弁理士】

【氏名又は名称】有川智章

(74)【代理人】

【識別番号】100170896

【弁理士】

【氏名又は名称】寺薗健一

(74)【代理人】

【識別番号】100219313

【弁理士】

【氏名又は名称】米口麻子

(74)【代理人】

【識別番号】100161610

【弁理士】

【氏名又は名称】藤野香子

(74)【代理人】

【識別番号】100206586

【弁理士】

【氏名又は名称】市田哲

(72)【発明者】

【氏名】オジンウク

(72)【発明者】

【氏名】キムジンソク

(72)【発明者】

【氏名】ボンギョンリョル

(72)【発明者】

【氏名】シンウォンギュ

(72)【発明者】

【氏名】ユチャンホ

(57)【要約】

本発明は、ニューラルプロセッシング装置およびその同期化方法に関するものである。
該ニューラルプロセッシング装置は、第１および第２ニューラルプロセッサと、前記第１および第２ニューラルプロセッサが共有する共有メモリと、前記第１および第２ニューラルプロセッサにそれぞれ対応し、Ｌ３シンクターゲットを受信して保存する第１および第２セマフォメモリとして、前記Ｌ３シンクターゲットにより前記第１および第２ニューラルプロセッサの同期化が実行される第１および第２セマフォメモリと、前記第１および第２ニューラルプロセッサと前記共有メモリとを接続し、前記Ｌ３シンクターゲットによる同期化信号が伝送されるＬ３シンクチャネルを含むグローバルインターコネクションと、を含む。
【選択図】図２０

【特許請求の範囲】

【請求項1】

第１および第２ニューラルプロセッサと、
前記第１および第２ニューラルプロセッサが共有する共有メモリと、
前記第１および第２ニューラルプロセッサのそれぞれに対応し、Ｌ３シンクターゲットを受信して保存する第１および第２セマフォメモリとして、前記Ｌ３シンクターゲットにより前記第１および第２ニューラルプロセッサの同期化が実行される第１および第２セマフォメモリと、
前記第１および第２ニューラルプロセッサと前記共有メモリとを接続し、前記Ｌ３シンクターゲットによる同期化信号が伝送されるＬ３シンクチャネルを含むグローバルインターコネクションと、を含む、
ニューラルプロセッシング装置。

【請求項2】

前記グローバルインターコネクションは、
前記Ｌ３シンクチャネルと、
前記共有メモリと前記第１および第２ニューラルプロセッサとの間でデータを伝送するデータチャネルと、
前記第１および第２ニューラルプロセッサに制御信号を伝送するコントロールチャンネルと、を含む、
請求項１に記載のニューラルプロセッシング装置。

【請求項3】

前記第１セマフォメモリは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２フィールドを含む、
請求項１に記載のニューラルプロセッシング装置。

【請求項4】

前記第１フィールドの値を、前記第１ニューラルプロセッサに順次伝達する第１ＦＩＦＯバッファーをさらに含む、
請求項３に記載のニューラルプロセッシング装置。

【請求項5】

前記Ｌ３シンクターゲットは、第１および第２Ｌ３シンクターゲットを含み、前記第１ニューラルプロセッサは、前記第１Ｌ３シンクターゲットを生成し、
前記第２ニューラルプロセッサは、前記第２Ｌ３シンクターゲットを生成する、
請求項１に記載のニューラルプロセッシング装置。

【請求項6】

前記Ｌ３シンクターゲットは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２シンクターゲットフィールドを含み、
前記第１および第２シンクターゲットフィールドは、前記第１および第２ニューラルプロセッサが、前記Ｌ３シンクターゲットによる同期化信号を受信するかに関する情報を含む、
請求項１に記載のニューラルプロセッシング装置。

【請求項7】

前記第１および第２シンクターゲットフィールドは、前記第１および第２ニューラルプロセッサそれぞれの仮想ＩＤ順に整列される、
請求項６に記載のニューラルプロセッシング装置。

【請求項8】

前記第１ニューラルプロセッサは、前記Ｌ３シンクターゲットとＶＰＩＤテーブルとを用いて、前記Ｌ３シンクターゲットによる同期化信号を受信するニューラルプロセッサの物理ＩＤを識別し、
前記ＶＰＩＤテーブルは、前記仮想ＩＤと前記物理ＩＤとを変換するための情報を含む、
請求項７に記載のニューラルプロセッシング装置。

【請求項9】

前記Ｌ３シンクターゲットは、命令語集合構造（Instruction set architecture、ＩＳＡ）に含まれる、
請求項１に記載のニューラルプロセッシング装置。

【請求項10】

前記ニューラルプロセッサは、
少なくとも１つのニューラルコアと、
前記少なくとも１つのニューラルコア間でデータを伝送するローカルインターコネクションと、を含む、
請求項１に記載のニューラルプロセッシング装置。

【請求項11】

前記ニューラルプロセッサは、
前記少なくとも１つのニューラルコア間の同期化を実行するためのＬ２シンクターゲットによる同期化信号が伝送されるＬ２シンクパスをさらに含む、
請求項１０に記載のニューラルプロセッシング装置。

【請求項12】

前記少なくとも１つのニューラルコアそれぞれは、
入力アクティベーションおよびウェイトを受信してディープラーニング演算を実行し、出力アクティベーションを出力するプロセスユニットと、
前記入力アクティベーション、前記ウェイトおよび前記出力アクティベーションを一時的に保存するローカルメモリと、を含む、
請求項１０に記載のニューラルプロセッシング装置。

【請求項13】

少なくとも１つのニューラルプロセッサと、
共有メモリと、
前記少なくとも１つのニューラルプロセッサと前記共有メモリとを接続し、前記ニューラルプロセッサのＬ３同期化に使用されるグローバルインターコネクションと、を含み、
前記ニューラルプロセッサは、
少なくとも１つのニューラルコアと、
前記少なくとも１つのニューラルコアを接続するローカルインターコネクションと、
前記少なくとも１つのニューラルコアのＬ２同期化に使用されるＬ２シンクパスと、を含み、
前記ニューラルコアは、
演算作業を実行するプロセスユニットと、
データを一時的に保存するローカルメモリと、
前記ローカルメモリと前記プロセスユニットとのＬ１同期化に使用されるＬ１シンクパスと、を含む、
ニューラルプロセッシング装置。

【請求項14】

前記グローバルインターコネクションは、
前記少なくとも１つのニューラルプロセッサと前記共有メモリとの間のデータを伝送するデータチャネルと、
前記少なくとも１つのニューラルプロセッサ間の制御信号を伝送するコントロールチャンネルと、
前記Ｌ３同期化に使用されるＬ３シンクチャネルと、を含む、
請求項１３に記載のニューラルプロセッシング装置。

【請求項15】

前記ニューラルプロセッサは、
前記少なくとも１つのニューラルコア間のデータを伝送するローカルインターコネクションをさらに含む、
請求項１３に記載のニューラルプロセッシング装置。

【請求項16】

前記ローカルメモリと、前記プロセスユニットを含む要素とのデータ交換に使用されるデータパスを含む、
請求項１３に記載のニューラルプロセッシング装置。

【請求項17】

前記少なくとも１つのニューラルプロセッサは、第１および第２ニューラルプロセッサを含み、
前記第１および第２ニューラルプロセッサのそれぞれに対応し、前記Ｌ３シンクターゲットに対応する同期化信号を受信して保存する第１および第２セマフォメモリとして、前記第１および第２セマフォメモリの値によって前記第１および第２ニューラルプロセッサの同期化が実行される第１および第２セマフォメモリをさらに含む、
請求項１３に記載のニューラルプロセッシング装置。

【請求項18】

前記第１セマフォメモリは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２フィールドを含み、
前記第１フィールドの値を前記第１ニューラルプロセッサに順次伝達する第１ＦＩＦＯバッファーをさらに含む、
請求項１７に記載のニューラルプロセッシング装置。

【請求項19】

前記第１ニューラルプロセッサは、命令語集合構造を伝送し、
前記命令語集合構造は、オペレーションコードと、前記Ｌ３同期化のためのＬ３シンクターゲットと、前記Ｌ２同期化のためのＬ２シンクターゲットと、前記Ｌ１同期化のためのＬ１シンクターゲットと、を含む、
請求項１７に記載のニューラルプロセッシング装置。

【請求項20】

第１および第２ニューラルプロセッサを含むニューラルプロセッシング装置の同期化方法において、
前記第１ニューラルプロセッサが、Ｌ３同期化に対するＬ３シンクターゲットを生成し、前記Ｌ３シンクターゲットは、前記第１および第２ニューラルプロセッサの仮想ＩＤ順に整列され、
前記Ｌ３シンクターゲットとＶＰＩＤテーブルを用いて前記第２ニューラルプロセッサの物理ＩＤを識別するが、前記ＶＰＩＤテーブルは、ニューラルプロセッサの前記仮想ＩＤと前記物理ＩＤとの変換テーブルであり、
グローバルインターコネクションのＬ３シンクチャネルを介して、前記第２ニューラルプロセッサの第１セマフォメモリに前記Ｌ３シンクターゲットによる同期化信号を保存し、
前記第２ニューラルプロセッサが、前記第１セマフォメモリの値によりＬ３同期化を実行することを含む、
ニューラルプロセッシング装置の同期化方法。

【請求項21】

前記第１セマフォメモリは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２フィールドを含む、
請求項２０に記載のニューラルプロセッシング装置の同期化方法。

【請求項22】

前記Ｌ３同期化を実行することは、
前記第１フィールドの値をＦＩＦＯ方式で前記第２ニューラルプロセッサに提供し、
前記第２フィールドの値をＦＩＦＯ方式で前記第２ニューラルプロセッサに提供することを含む、
請求項２１に記載のニューラルプロセッシング装置の同期化方法。

【請求項23】

前記仮想ＩＤは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２仮想ＩＤを含む、
請求項２０に記載のニューラルプロセッシング装置の同期化方法。

【請求項24】

前記第１ニューラルプロセッサは、
第１および第２ニューラルコアと、
前記第１および第２ニューラルコア間のデータを伝送するローカルインターコネクションと、
前記第１および第２ニューラルコア間のＬ２シンクターゲットによる同期化信号を伝送するＬ２シンクパスと、を含む、
請求項２０に記載のニューラルプロセッシング装置の同期化方法。

【請求項25】

前記第１ニューラルコアは、
第１入力アクティベーションおよび第１ウェイトを受信してディープラーニング演算を実行し、第１出力アクティベーションを出力する第１プロセスユニットと、
前記第１入力アクティベーション、前記第１ウェイトおよび前記第１出力アクティベーションを一時的に保存する第１ローカルメモリと、
前記第１ローカルメモリと前記第１プロセスユニットとの間で、Ｌ１シンクターゲットによる同期化信号を伝送する第１Ｌ１シンクパスと、を含み、
前記第２ニューラルコアは、
第２入力アクティベーションおよび第２ウェイトを受信してディープラーニング演算を実行し、第２出力アクティベーションを出力する第２プロセスユニットと、
前記第２入力アクティベーション、前記第２ウェイトおよび前記第２出力アクティベーションを一時的に保存する第２ローカルメモリと、
前記第２ローカルメモリと前記第２プロセスユニットとの間で、前記Ｌ１シンクターゲットによる同期化信号を伝送する第２Ｌ１シンクパスと、を含む、
請求項２４に記載のニューラルプロセッシング装置の同期化方法。

【請求項26】

前記第１ローカルメモリにデータを保存し、
前記第１ニューラルコアの内部で、前記第１Ｌ１シンクパスを介して、前記Ｌ１シンクターゲットによる同期化信号を伝送し、
前記第１ニューラルコアが、前記第２Ｌ２シンクパスを介して、前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアに伝送し、
前記第２ニューラルコアが、前記ローカルインターコネクションを介してデータを受信することをさらに含む、
請求項２５に記載のニューラルプロセッシング装置の同期化方法。

【請求項27】

第１および第２ニューラルコアと、前記第１および第２ニューラルコアを接続するローカルインターコネクションと、前記第１および第２ニューラルコアのＬ２同期化に使用されるＬ２シンクパスと、を含むニューラルプロセッシング装置であって、
前記第１ニューラルコアは、演算作業を実行する第１プロセスユニットと、前記第１プロセスユニットに入出力されるデータを一時的に保存する第１ローカルメモリと、前記第１ローカルメモリおよび前記第１プロセスユニットのＬ１同期化に使用される第１Ｌ１シンクパスと、を含み、
前記第２ニューラルコアは、演算作業を実行する第２プロセスユニットと、前記第２プロセスユニットに入出力されるデータを一時的に保存する第２ローカルメモリと、前記第２ローカルメモリおよび前記第２プロセスユニットのＬ１同期化に使用される第２Ｌ１シンクパスと、を含む、ニューラルプロセッシング装置の同期化方法において、
前記第１ローカルメモリにデータを保存し、
前記第１ニューラルコア内部で、前記第１Ｌ１シンクパスを介して前記Ｌ１シンクターゲットによる同期化信号を伝送し、
前記第１ニューラルコアが、前記第２Ｌ２シンクパスを介して前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアに伝送し、
前記第２ニューラルコアが、前記ローカルインターコネクションを介してデータを受信することをさらに含む、
ニューラルプロセッシング装置の同期化方法。

【請求項28】

前記第１ニューラルコアは、前記第１ローカルメモリと前記第１ローカルインターコネクションとの間でデータを移動させる第１ＬＳＵをさらに含み、
前記第１ＬＳＵは、前記第１ローカルメモリの保存を実行する第１ローカルメモリストアユニットと、前記第１ニューラルコアから外部への保存を実行する第１ニューラルコアストアユニットと、を含み、
前記第１ニューラルコア内部において、前記第１Ｌ１シンクパスを介して前記Ｌ１シンクターゲットによる同期化信号を伝送することは、
前記第１ローカルメモリストアユニットが、前記Ｌ１シンクターゲットによる同期化信号を前記第１ニューラルコアストアユニットに伝送することを含む、
請求項２７に記載のニューラルプロセッシング装置の同期化方法。

【請求項29】

前記第２ニューラルコアは、前記第２ローカルメモリと前記第２ローカルインターコネクションとの間でデータを移動させる第２ＬＳＵをさらに含み、
前記第２ＬＳＵは、前記第２ニューラルコアで外部からのロードを実行する第２ニューラルコアロードユニットを含み、
前記Ｌ２シンクターゲットによる同期化信号を伝送することは、
前記第１ニューラルコアストアユニットが、前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアロードユニットに伝送することを含む、
請求項２８に記載のニューラルプロセッシング装置の同期化方法。

【請求項30】

前記ニューラルプロセッシング装置は、前記第１および第２ニューラルコアと、前記ローカルインターコネクションと、前記Ｌ２シンクパスとを含む第１ニューラルプロセッサと、前記第１ニューラルプロセッサとは異なる第２ニューラルプロセッサと、前記第１および第２ニューラルプロセッサ間でデータを伝送するグローバルインターコネクションと、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２セマフォメモリと、を含み、
前記グローバルインターコネクションは、前記第１および第２ニューラルプロセッサ間で、データ、制御信号およびＬ３シンクターゲットによる同期化信号がそれぞれ伝送されるデータチャネルと、コントロールチャンネルと、Ｌ３シンクチャネルと、を含み、
前記第１ニューラルプロセッサが、前記Ｌ３シンクターゲットを生成し、
前記第２セマフォメモリに前記Ｌ３シンクターゲットによる同期化信号を保存し、
前記第２ニューラルプロセッサが、前記第２セマフォメモリの値により同期化を実行することを含む、
請求項２７に記載のニューラルプロセッシング装置の同期化方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルプロセッシング装置およびその同期化方法に関するものである。具体的に、本発明は、中央制御プロセッサの代わりに、各々のプロセッサが同期化を実行するニューラルプロセッシング装置およびその同期化方法に関するものである。

【背景技術】

【0002】

ここ数年、人工知能(Artificial Intelligence)技術は、第４次産業革命の中核技術として、世界的に最も有望な技術として注目されている。このような人工知能技術の最も大きな問題は、コンピューティング性能である。人間の学習能力と推論能力、知覚能力、自然言語の処理能力などを実現する人工知能技術は、多くのデータを迅速に処理することが最も重要である。

【0003】

初期人工知能のディープラーニング学習と推論には、従来のコンピュータの中央処理装置(ＣＰＵ；Central processing unit)やグラフィック処理装置(ＧＰＵ；Graphics Processing Unit)が使われていたが、高いワークロードを有するディープラーニング学習および推論の作業には限界があるため、構造的にディープラーニング作業に特化したニューラルプロセッシング装置（ＮＰＵ； Neural Processing Unit）が脚光を浴びている。

【0004】

このようなニューラルプロセッシング装置は、内部に多数のプロセスユニットとコアを含んでおり、このようなモジュールの同期化は、作業の依存性（dependency）に応じて明確に処理されるべき部分である。従来の処理装置は、中央で制御プロセッサ(Control processorまたはCentralized Controller)がこのような同期化信号を制御し、手順による動作を管理していた。

【0005】

しかし、このような方式は、ニューラルプロセッシング装置において、さらに多くのプロセスユニットおよびコアを含むこととなるにつれ、同期化処理に多くのレイテンシ（latency）が発生し、制御プロセッサのオーバーヘッドが高くなり得る。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】韓国登録特許第１０－２２５８５６６号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明の課題は、迅速かつ効率的な同期化処理が可能なニューラルプロセッシング装置を提供することである。

【0008】

また、本発明の他の課題は、迅速かつ効率的な同期化処理が可能なニューラルプロセッシング装置の同期化方法を提供することである。

【0009】

本発明の目的は、前記で述べた目的に限定されず、言及されていない本発明の他の目的および利点は、以下の説明によって理解されることができ、本発明の実施例によって、より明確に理解されることである。また、本発明の目的および利点は、特許請求の範囲に示した手段およびその組み合わせにより実現できることが容易に分かることである。

【課題を解決するための手段】

【0010】

前記課題を解決するための本発明のいくつかの実施例によるニューラルプロセッシング装置は、第１および第２ニューラルプロセッサと、前記第１および第２ニューラルプロセッサが共有する共有メモリと、前記第１および第２ニューラルプロセッサのそれぞれに対応し、Ｌ３シンクターゲットを受信して保存する第１および第２セマフォ（Semaphore）メモリとして、前記Ｌ３シンクターゲットにより前記第１および第２ニューラルプロセッサの同期化が実行される第１および第２セマフォメモリと、前記第１および第２ニューラルプロセッサと前記共有メモリとを接続し、前記Ｌ３シンクターゲットによる同期化信号が伝送されるＬ３シンクチャネルを含むグローバルインターコネクションとを含む。

【0011】

また、前記グローバルインターコネクションは、前記Ｌ３シンクチャネルと、前記共有メモリ、前記第１および第２ニューラルプロセッサ間でデータを伝送するデータチャネルと、前記第１および第２ニューラルプロセッサに制御信号を伝送するコントロールチャンネルとを含み得る。

【0012】

また、前記第１セマフォメモリは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２フィールドを含み得る。

【0013】

また、前記第１フィールドの値を前記第１ニューラルプロセッサに順次伝達する第１ＦＩＦＯバッファーをさらに含み得る。

【0014】

また、前記第２フィールドの値を前記第１ニューラルプロセッサに順次伝達する第２ＦＩＦＯバッファーをさらに含み得る。

【0015】

また、前記Ｌ３シンクターゲットは、第１および第２Ｌ３シンクターゲットを含み、前記第１ニューラルプロセッサは、前記第１Ｌ３シンクターゲットを生成し、前記第２ニューラルプロセッサは、前記第２Ｌ３シンクターゲットを生成し得る。

【0016】

また、前記Ｌ３シンクターゲットは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２シンクターゲットフィールドを含み、前記第１および第２シンクターゲットフィールドは、前記第１および第２ニューラルプロセッサが前記Ｌ３シンクターゲットによる同期化信号を受信するかに関する情報を含み得る。

【0017】

また、前記第１および第２シンクターゲットフィールドは、前記第１および第２ニューラルプロセッサそれぞれの仮想ＩＤ順に整列され得る。

【0018】

また、前記第１ニューラルプロセッサは、前記Ｌ３シンクターゲットとＶＰＩＤテーブルとを用いて、前記Ｌ３シンクターゲットによる同期化信号を受信するニューラルプロセッサの物理ＩＤを識別し、前記ＶＰＩＤテーブルは、前記仮想ＩＤと前記物理ＩＤとを変換するための情報を含み得る。

【0019】

また、前記第１および第２ニューラルプロセッサが同じプログラムを実行する場合、前記第１および第２ニューラルプロセッサの前記物理ＩＤと、前記第１および第２ニューラルプロセッサの前記仮想ＩＤとは、互いに１：１で対応し得る。

【0020】

また、前記Ｌ３シンクターゲットは、命令語集合構造（Instruction set architecture、ＩＳＡ）に含まれ得る。

【0021】

また、前記ニューラルプロセッサは、少なくとも１つのニューラルコアと、前記少なくとも１つのニューラルコア間でデータを伝送するローカルインターコネクションとを含み得る。

【0022】

また、前記ニューラルプロセッサは、前記少なくとも１つのニューラルコア間の同期化を実行するためのＬ２シンクターゲットによる同期化信号が伝送されるＬ２シンクパスをさらに含み得る。

【0023】

また、前記Ｌ２シンクターゲットは、前記命令語集合構造に含まれ得る。

【0024】

また、前記少なくとも１つのニューラルコアそれぞれは、入力アクティベーションおよびウェイトを受信してディープラーニング演算を実行し、出力アクティベーションを出力するプロセスユニットと、前記入力アクティベーション、前記ウェイト、および前記出力アクティベーションを一時的に保存するローカルメモリとを含み得る。

【0025】

また、前記少なくとも１つのニューラルコアそれぞれは、前記入力アクティベーションおよび前記出力アクティベーションを、前記プロセスユニットと前記ローカルメモリとの間で一時的に保存するアクティベーションバッファーをさらに含み得る。

【0026】

また、前記少なくとも１つのニューラルコアそれぞれは、前記アクティベーションバッファーと前記ローカルメモリとの間で、前記入力アクティベーションおよび前記出力アクティベーションを移動させるアクティベーションＬＳＵ（Load/Store Unit）をさらに含み得る。

【0027】

また、前記少なくとも１つのニューラルコアそれぞれは、前記ローカルメモリと前記プロセスユニットとの間で前記ウェイトを一時的に保存するウェイトバッファーをさらに含み得る。

【0028】

また、前記少なくとも１つのニューラルコアそれぞれは、前記ローカルメモリと前記ローカルインターコネクションとの間でデータを移動させるＬＳＵをさらに含み得る。

【0029】

また、前記ＬＳＵは、前記ローカルメモリの保存を実行するローカルメモリストアユニットと、前記ローカルメモリのロードを実行するローカルメモリロードユニットとを含み得る。

【0030】

また、前記ＬＳＵは、前記ニューラルコアで外部への保存を実行するニューラルコアストアユニットと、前記ニューラルコアで外部からのロードを実行するニューラルコアロードユニットとを含み得る。

【0031】

また、前記ローカルメモリと他の要素（element）との間に、同期化のためのＬ１シンクターゲットによる同期化信号が伝送されるＬ１シンクパスをさらに含み得る。

【0032】

また、前記Ｌ１シンクターゲットは、前記命令語集合構造に含まれ得る。

【0033】

また、前記プロセスユニットは、２次元演算を実行する処理要素アレイと、１次元演算を実行するベクトルユニットとを含み得る。

【0034】

また、前記プロセスユニットは、第１入力を前記処理要素アレイの各行（raw）に供給する行レジスタと、第２入力を受信して前記処理要素アレイの各列（column）に供給する列レジスタとをさらに含み、前記第１および第２入力は、それぞれウェイトおよび入力アクティベーションのいずれか１つを含み得る。

【0035】

前記他の課題を解決するための本発明のいくつかの実施例によるニューラルプロセッシング装置は、少なくとも１つのニューラルプロセッサと、共有メモリと、前記少なくとも１つのニューラルプロセッサと前記共有メモリとを接続し、前記ニューラルプロセッサのＬ３同期化に使用されるグローバルインターコネクションとを含み、前記ニューラルプロセッサは、少なくとも１つのニューラルコアと、前記少なくとも１つのニューラルコアを接続するローカルインターコネクションと、前記少なくとも１つのニューラルコアのＬ２同期化に使用されるＬ２シンクパスとを含み、前記ニューラルコアは、演算作業を実行するプロセスユニットと、データを一時的に保存するローカルメモリと、前記ローカルメモリと前記プロセスユニットとのＬ１同期化に使用されるＬ１シンクパスとを含む。

【0036】

また、前記グローバルインターコネクションは、前記少なくとも１つのニューラルプロセッサおよび前記共有メモリ間のデータを伝送するデータチャネルと、前記少なくとも１つのニューラルプロセッサ間の制御信号を伝送するコントロールチャンネルと、前記Ｌ３同期化に使用されるＬ３シンクチャネルとを含み得る。

【0037】

また、前記ニューラルプロセッサは、前記少なくとも１つのニューラルコア間のデータを伝送するローカルインターコネクションをさらに含み得る。

【0038】

また、前記ローカルメモリと前記プロセスユニットとを含む要素とのデータ交換に使用されるデータパスとを含み得る。

【0039】

また、前記プロセスユニットは、２次元演算を実行する処理要素アレイと、１次元演算を実行するベクトルユニットとを含み得る。

【0040】

また、前記処理要素アレイは、行と列で整列された複数の処理要素を含み、前記複数の処理要素はそれぞれ乗算を実行し得る。

【0041】

また、前記少なくとも１つのニューラルプロセッサは、第１および第２ニューラルプロセッサを含み、前記第１および第２ニューラルプロセッサそれぞれに対応し、Ｌ３シンクターゲットに対応する同期化信号を受信して保存する第１および第２セマフォメモリとして、前記Ｌ３シンクターゲットにより前記第１および第２ニューラルプロセッサの同期化が実行される第１および第２セマフォメモリをさらに含み得る。

【0042】

また、前記第１セマフォメモリは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２フィールドを含み、前記第１フィールドの値を前記第１ニューラルプロセッサに順次伝達する第１ＦＩＦＯバッファーをさらに含み得る。

【0043】

また、前記第１ニューラルプロセッサは命令語集合構造を伝送し、前記命令語集合構造は、オペレーションコードと、前記Ｌ３同期化のためのＬ３シンクターゲットと、前記Ｌ２同期化のためのＬ２シンクターゲットと、前記Ｌ１同期化のためのＬ１シンクターゲットとを含み得る。

【0044】

前記また他の課題を解決するための本発明のいくつかの実施例によるニューラルプロセッシング装置の同期化方法は、第１および第２ニューラルプロセッサを含むニューラルプロセッシング装置の同期化方法において、前記第１ニューラルプロセッサが、Ｌ３同期化に対するＬ３シンクターゲットを生成し、前記Ｌ３シンクターゲットは、前記第１および第２ニューラルプロセッサの仮想ＩＤ順に整列され、前記Ｌ３シンクターゲットとＶＰＩＤテーブルを用いて前記第２ニューラルプロセッサの物理ＩＤを識別するが、前記ＶＰＩＤテーブルは、前記ニューラルプロセッサの前記仮想ＩＤと前記物理ＩＤとの変換テーブルであり、グローバルインターコネクションのＬ３シンクチャネルを介して、前記第２ニューラルプロセッサの第１セマフォメモリに前記Ｌ３シンクターゲットによる同期化信号を保存し、前記第２ニューラルプロセッサが前記第１セマフォメモリの値により前記Ｌ３同期化を実行することを含む。

【0045】

また、前記第１セマフォメモリは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２フィールドを含み得る。

【0046】

また、前記Ｌ３同期化を実行することは、前記第１フィールドの値をＦＩＦＯ方式で前記第２ニューラルプロセッサに提供し、前記第２フィールドの値をＦＩＦＯ方式で前記第２ニューラルプロセッサに提供することを含み得る。

【0047】

また、前記仮想ＩＤは、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２仮想ＩＤを含み得る。

【0048】

また、前記第１ニューラルプロセッサは、第１および第２ニューラルコアと、前記第１および第２ニューラルコア間のデータを伝送するローカルインターコネクションと、前記第１および第２ニューラルコア間の同期化信号のためのＬ２シンクターゲットによる同期化信号を伝送するＬ２シンクパスとを含み得る。

【0049】

また、前記第１ニューラルコアは、第１入力アクティベーションおよび第１ウェイトを受信してディープラーニング演算を実行し、第１出力アクティベーションを出力する第１プロセスユニットと、前記第１入力アクティベーション、前記第１ウェイトおよび前記第１出力アクティベーションを一時的に保存する第１ローカルメモリと、前記第１ローカルメモリと前記第１プロセスユニットとの間の同期化のためのＬ１シンクターゲットによる同期化信号を伝送する第１Ｌ１シンクパスとを含み、前記第２ニューラルコアは、第２入力アクティベーションおよび第２ウェイトを受信してディープラーニング演算を実行し、第２出力アクティベーションを出力する第２プロセスユニットと、前記第２入力アクティベーション、前記第２ウェイトおよび前記第２出力アクティベーションを一時的に保存する第２ローカルメモリと、前記第２ローカルメモリと前記第２プロセスユニットとの間の同期化のための前記Ｌ１シンクターゲットによる同期化信号を伝送する第２Ｌ１シンクパスとを含み得る。

【0050】

また、前記第１ローカルメモリにデータを保存し、前記第１ニューラルコアの内部で、前記第１Ｌ１シンクパスを介して前記Ｌ１シンクターゲットによる同期化信号を伝送し、前記第１ニューラルコアが前記第２Ｌ２シンクパスを介して前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアに伝送し、前記第２ニューラルコアが前記ローカルインターコネクションを介してデータを受信することをさらに含み得る。

【0051】

また、前記第１ニューラルコアは、前記第１ローカルメモリと前記第１ローカルインターコネクションとの間でデータを移動させる第１ＬＳＵをさらに含み、前記第２ニューラルコアは、前記第２ローカルメモリと前記第２ローカルインターコネクションとの間でデータを移動させる第２ＬＳＵをさらに含み得る。

【0052】

また、前記第１ＬＳＵは、前記第１ローカルメモリの保存を実行する第１ローカルメモリストアユニットと、前記第１ローカルメモリのロードを実行する第１ローカルメモリロードユニットと、前記第１ニューラルコアで外部への保存を実行する第１ニューラルコアストアユニットと、前記第１ニューラルコアで外部からのロードを実行する第１ニューラルコアロードユニットとを含み得る。

【0053】

また、前記第１ニューラルコア内部において、前記第１Ｌ１シンクパスを介して前記Ｌ１シンクターゲットによる同期化信号を伝送することは、前記第１ローカルメモリストアユニットが前記Ｌ１シンクターゲットを前記第１ニューラルコアストアユニットに伝送することを含み得る。

【0054】

また、前記第２ＬＳＵは、前記第２ローカルメモリの保存を実行する第２ローカルメモリストアユニットと、前記第２ローカルメモリのロードを実行する第２ローカルメモリロードユニットと、前記第２ニューラルコアから外部への保存を実行する第２ニューラルコアストアユニットと、前記第２ニューラルコアで外部からのロードを実行する第２ニューラルコアロードユニットとを含み得る。

【0055】

また、前記Ｌ２シンクターゲットによる同期化信号を伝送することは、前記第１ニューラルコアストアユニットが、前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアロードユニットに伝送することを含み得る。

【0056】

また、前記第２ニューラルコアがデータを受信することは、前記第２ニューラルコアロードユニットが前記ローカルインターコネクションを介して前記第１ローカルメモリに前記データを要求し、前記第２ニューラルコアロードユニットが前記ローカルインターコネクションを介して前記第１ローカルメモリから前記データを受信することを含み得る。

【0057】

前記また他の課題を解決するための本発明のいくつかの実施例によるニューラルプロセッシング装置の同期化方法は、第１および第２ニューラルコアと、前記第１および第２ニューラルコアを接続するローカルインターコネクションと、前記第１および第２ニューラルコアのＬ２同期化に使用されるＬ２シンクパスとを含むニューラルプロセッシング装置であって、前記第１ニューラルコアは、演算作業を実行する第１プロセスユニットと、前記第１プロセスユニットに入出力されるデータを一時的に保存する第１ローカルメモリと、前記第１ローカルメモリおよび前記第１プロセスユニットのＬ１同期化に使用される第１Ｌ１シンクパスとを含み、前記第２ニューラルコアは、演算作業を実行する第２プロセスユニットと、前記第２プロセスユニットに入出力されるデータを一時的に保存する第２ローカルメモリと、前記第２ローカルメモリおよび前記第２プロセスユニットのＬ１同期化に使用される第２Ｌ１シンクパスとを含む、ニューラルプロセッシング装置の同期化方法において、前記第１ローカルメモリにデータを保存し、前記第１ニューラルコア内部で、前記第１Ｌ１シンクパスを介して前記Ｌ１シンクターゲットによる同期化信号を伝送し、前記第１ニューラルコアが、前記第２Ｌ２シンクパスを介して前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアに伝送し、前記第２ニューラルコアが、前記ローカルインターコネクションを介してデータを受信することをさらに含む。

【0058】

また、前記第１ニューラルコアは、前記第１ローカルメモリと前記第１ローカルインターコネクションとの間でデータを移動させる第１ＬＳＵをさらに含み、前記第１ＬＳＵは、前記第１ローカルメモリの保存を実行する第１ローカルメモリストアユニットと、前記第１ニューラルコアで外部への保存を実行する第１ニューラルコアストアユニットとを含み、前記第１ニューラルコア内部で、前記第１Ｌ１シンクパスを介して前記Ｌ１シンクターゲットによる同期化信号を伝送することは、前記第１ローカルメモリストアユニットが前記Ｌ１シンクターゲットによる同期化信号を前記第１ニューラルコアストアユニットに伝送することを含み得る。

【0059】

また、前記第２ニューラルコアは、前記第２ローカルメモリと前記第２ローカルインターコネクションとの間でデータを移動させる第２ＬＳＵをさらに含み、前記第２ＬＳＵは、前記第２ニューラルコアで外部からのロードを実行する第２ニューラルコアロードユニットを含み、前記Ｌ２シンクターゲットによる同期化信号を伝送することは、前記第１ニューラルコアストアユニットが、前記Ｌ２シンクターゲットによる同期化信号を前記第２ニューラルコアロードユニットに伝送することを含み得る。

【0060】

また、前記ニューラルプロセッシング装置は、前記第１および第２ニューラルコアと、前記ローカルインターコネクションと、前記Ｌ２シンクパスを含む第１ニューラルプロセッサと、前記第１ニューラルプロセッサとは異なる第２ニューラルプロセッサと、前記第１および第２ニューラルプロセッサ間でデータを伝送するグローバルインターコネクションと、前記第１および第２ニューラルプロセッサにそれぞれ対応する第１および第２セマフォメモリとを含み、前記グローバルインターコネクションは、前記第１および第２ニューラルプロセッサ間でデータ、制御信号およびＬ３シンクターゲットによる同期化信号がそれぞれ伝送されるデータチャネルと、コントロールチャンネルと、Ｌ３シンクチャネルとを含み、前記第１ニューラルプロセッサが前記Ｌ３シンクターゲットを生成し、前記第２セマフォメモリに前記Ｌ３シンクターゲットを保存し、前記第２ニューラルプロセッサが前記Ｌ３シンクターゲットによる同期化信号により同期化を実行することを含み得る。

【発明の効果】

【0061】

本発明のニューラルプロセッシング装置およびその同期化方法は、中央化された制御プロセッサの代わりに、各々のプロセッサ、コアおよびメモリ素子が互いに同期化要求を伝達して同期化を実行するため、制御プロセッサに伝達される同期化要求によるレイテンシー（latency）を最小化し得る。

【0062】

また、制御プロセッサによって実行されていたスケジューリング作業も実行する必要がなくなるので、ニューラルプロセッシング装置のスケジューリングオーバーヘッドが大きく減少し得る。

【0063】

前述の内容とともに、本発明の具体的な効果は、以下で本発明を実施するための具体的な事項を説明しながら併せて記述する。

【図面の簡単な説明】

【0064】

【図1】図１は、本発明のいくつかの実施例によるニューラルプロセッシングシステムを説明するためのブロック図である。

【図2】図２は、図１におけるニューラルプロセッシング装置を詳細に説明するためのブロック図である。

【図3】図３は、図２におけるニューラルコアＳｏＣを詳細に説明するためのブロック図である。

【図4】図４は、図３におけるグローバルインターコネクションを詳細に説明するための構造図である。

【図5】図５は、図３におけるニューラルプロセッサを詳細に説明するためのブロック図である。

【図6】図６は、図５におけるニューラルコアを詳細に説明するためのブロック図である。

【図7】図７は、図６におけるＬＳＵを詳細に説明するためのブロック図である。

【図8】図８は、図６におけるプロセスユニットを詳細に説明するためのブロック図である。

【図9】図９は、図６におけるローカルメモリを詳細に説明するためのブロック図である。

【図10】図１０は、図９におけるローカルメモリバンクを詳細に説明するためのブロック図である。

【図11】図１１は、本発明のいくつかの実施例によるニューラルプロセッシングシステムのメモリ再構成を説明するためのブロック図である。

【図12】図１２は、本発明のいくつかの実施例によるニューラルプロセッシングシステムのメモリ再構成の例を示すブロック図である。

【図13】図１３は、図１１のＡ部分を拡大したブロック図である。

【図14】図１４は、図１３における第１バンクを詳細に説明するための図である。

【図15】図１５は、本発明のいくつかの実施例によるニューラルプロセッシング装置の仮想ＩＤ割り当てを説明するための概念図である。

【図16】図１６は、本発明のいくつかの実施例によるニューラルプロセッシング装置の仮想ＩＤ割り当ておよびＶＰＩＤテーブルを説明するための図である。

【図17】図１７は、シンクターゲットとＶＰＩＤテーブルとによる物理ＩＤの識別過程を説明するための図である。

【図18】図１８は、ディープラーニング作業の手順を説明するための有向非巡回グラフである。

【図19】図１９は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ３同期化のためのシンクターゲットによる同期化信号送信動作を説明するための概念図である。

【図20】図２０は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ３同期化のためのシンクターゲットによる同期化信号受信動作を説明するための概念図である。

【図21】図２１は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ１およびＬ２同期化を説明するためのブロック図である。

【図22】図２２は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ１およびＬ２同期化を説明するためのラダー（Ladder）図である。

【図23】図２３は、本発明のいくつかの実施例によるニューラルプロセッシング装置の命令語集合構造を説明するための図である。

【図24】図２４は、本発明のいくつかの実施例によるニューラルプロセッシング装置のソフトウェア階層構造を説明するためのブロック図である。

【図25】図２５は、本発明のいくつかの実施例によるニューラルプロセッシング装置が実行するディープラーニング演算を説明するための概念図である。

【図26】図２６は、本発明のいくつかの実施例によるニューラルプロセッシング装置のニューラルネットワークの学習および推論動作を説明するための概念図である。

【図27】図２７は、本発明のいくつかの実施例によるニューラルプロセッシング装置の同期化方法を説明するためのフローチャートである。

【図28】図２８は、図２７におけるＬ３シンクターゲット保存段階およびＦＩＦＯ方式で提供段階を詳細に説明するためのフローチャートである。

【図29】図２９は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ１およびＬ２レベルの同期化方法を説明するためのフローチャートである。

【図30】図３０は、図２９におけるデータ要求段階を詳細に説明するためのフローチャートである。

【発明を実施するための形態】

【0065】

本明細書および特許請求の範囲に使用された用語や単語は、一般的または辞書的な意味に限定して解釈されてはならない。発明者が自身の発明を最善の方法で説明するために用語や単語の概念を定義し得るという原則にしたがって、本発明の技術的思想に合致する意味と概念として解釈されるべきである。また、本明細書に記載されている実施例と図面に示されている構成は、本発明が実現される１つの実施例に過ぎず、本発明の技術的思想を全て代弁するものではないので、本出願時点において、これらを代替し得る様々な均等物と変形および応用可能な例があり得ることを理解すべきである。

【0066】

本明細書および特許請求の範囲に使用される第１、第２、Ａ、Ｂなどの用語は、様々な構成要素を説明するために使用され得るが、前記構成要素は、前記用語によって限定されてはならない。前記用語は、１つの構成要素を他の構成要素と区別する目的でのみ使用される。例えば、本発明の権利範囲を逸脱することなく、第１構成要素は第２構成要素と命名されることができ、同様に第２構成要素も第１構成要素と命名され得る。「および／または」という用語は、複数の関連する記載項目の組み合わせ、または複数の関連する記載項目中のいずれかの項目を含む。

【0067】

本明細書および特許請求の範囲に使用される用語は、単に、特定の実施例を説明するために使用されるものであって、本発明を限定しようとする意図ではない。単数の表現は、文脈上明らかに異に意味しない限り、複数の表現を含む。本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはこれらの組み合わせの存在、または付加可能性を予め排除しないものと理解されるべきである。

【0068】

異に定義されない限り、技術的または科学的な用語を含め、ここに使用されるすべての用語は、本発明が属する技術分野において通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。

【0069】

一般的に使用される辞書に定義のような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈されるべきであり、本出願で明確に定義しない限り、理想的または過度に形式的な意味に解釈されない。

【0070】

また、本発明の各実施例に含まれる各構成、過程、工程、または方法などは、技術的に相互矛盾しない範囲内で共有され得る。

【0071】

以下、図１～図２６を参照して、本発明のいくつかの実施例によるニューラルプロセッシング装置を説明する。

【0072】

図１は、本発明のいくつかの実施例によるニューラルプロセッシングシステムを説明するためのブロック図である。

【0073】

図１を参照すると、本発明のいくつかの実施例によるニューラルプロセッシングシステムＮＰＳは、第１ニューラルプロセッシング装置１と、第２ニューラルプロセッシング装置２と、外部インタフェイス３とを含み得る。

【0074】

第１ニューラルプロセッシング装置１は、人工ニューラルネットワークを用いて演算を実行する装置であり得る。第１ニューラルプロセッシング装置１は、例えば、ディープラーニング(deep learning)演算作業を実行することに特化した装置であり得る。ただし、本実施例は、これに制限されるものではない。

【0075】

第２ニューラルプロセッシング装置２は、第１ニューラルプロセッシング装置１と同一ないし類似の構成を有する装置であり得る。第１ニューラルプロセッシング装置１および第２ニューラルプロセッシング装置２は、互いに外部インタフェイス３を介して接続され、データおよび制御信号を共有し得る。

【0076】

図１では、２つのニューラルプロセッシング装置を示したが、本発明のいくつかの実施例によるニューラルプロセッシングシステムＮＰＳは、これに制限されるものではない。すなわち、本発明のいくつかの実施例によるニューラルプロセッシングシステムＮＰＳは、３つ以上のニューラルプロセッシング装置が外部インタフェイス３を介して互いに接続されても良い。また、逆に、本発明のいくつかの実施例によるニューラルプロセッシングシステムＮＰＳは、１つのニューラルプロセッシング装置のみを含んでも良い。

【0077】

図２は、図１におけるニューラルプロセッシング装置を詳細に説明するためのブロック図である。

【0078】

図２を参照すると、第１ニューラルプロセッシング装置１は、ニューラルコアＳｏＣ１０と、ＣＰＵ２０と、オフチップメモリ３０と、第１不揮発性メモリインタフェイス４０と、第１揮発性メモリインタフェイス５０と、第２不揮発性メモリインタフェイス６０と、第２揮発性メモリインタフェイス７０とを含み得る。

【0079】

ニューラルコアＳｏＣ１０は、システムオンチップ（System on Chip）装置であり得る。ニューラルコアＳｏＣ１０は、人工知能演算装置として加速器（Accelerator）であり得る。ニューラルコアＳｏＣ１０は、例えば、ＧＰＵ（graphics processing unit）、ＦＰＧＡ（field programmable gate array）およびＡＳＩＣ（application-specific integrated circuit）のうちいずれか１つであり得る。ただし、本実施例は、これに制限されるものではない。

【0080】

ニューラルコアＳｏＣ１０は、外部インタフェイス３を介して他の外部の演算装置とデータを交換し得る。また、ニューラルコアＳｏＣ１０は、第１不揮発性メモリインタフェイス４０および第１揮発性メモリインタフェイス５０を介して、それぞれ不揮発性メモリ３１および揮発性メモリ３２と接続され得る。

【0081】

ＣＰＵ２０は、第１ニューラルプロセッシング装置１のシステムを制御し、プログラムの演算を実行する制御装置であり得る。ＣＰＵ２０は汎用演算装置として、ディープラーニングに多く使用される並列単純演算を実行するには、効率が低くあり得る。したがって、ニューラルコアＳｏＣ１０が、ディープラーニング推論および学習作業に演算を実行して高い効率を有し得る。

【0082】

ＣＰＵ２０は、外部インタフェイス３を介して、他の外部の演算装置とデータを交換し得る。また、ＣＰＵ２０は、第２不揮発性メモリインタフェイス６０および第２揮発性メモリインタフェイス７０を介して、それぞれ不揮発性メモリ３１および揮発性メモリ３２と接続され得る。

【0083】

オフチップメモリ３０は、ニューラルコアＳｏＣ１０のチップ外部に配置されたメモリであり得る。オフチップメモリ３０は、不揮発性メモリ３１と揮発性メモリ３２とを含み得る。

【0084】

不揮発性メモリ３１は、電源が供給されなくても、保存されている情報を継続して維持するメモリであり得る。不揮発性メモリ３１は、例えば、ＲＯＭ（Read-Only Memory）、ＰＲＯＭ（Programmable Read-Only Memory）、ＥＡＲＯＭ（Erasable Alterable ROM）、ＥＰＲＯＭ（Erasable Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）（例えば、ＮＡＮＤフラッシュメモリ(NAND Flash memory)、ＮＯＲフラッシュメモリ(NOR Flash memory)）、ＵＶＥＰＲＯＭ(Ultra-Violet Erasable Programmable Read-Only Memory)、ＦｅＲＡＭ(Ferroelectric Random Access Memory)、ＭＲＡＭ(Magnetoresistive Random Access Memory)、ＰＲＡＭ(Phase-change Random Access Memory)、ＳＯＮＯＳ(silicon-oxide-nitride-oxide-silicon)、ＲＲＡＭ(Resistive Random Access Memory)、ＮＲＡＭ(Nanotube Random Access Memory)、磁気コンピュータ記憶装置(例えば、ハードディスク、ディスケットドライブ、磁気テープ）、光ディスクドライブ、および３Ｄクロスポイントメモリ（3D XPoint memory）のうち少なくとも１つを含み得る。ただし、本実施例は、これに制限されるものではない。

【0085】

揮発性メモリ３２は、不揮発性メモリ３１とは異なり、保存されている情報を維持するために電力を持続的に必要とするメモリであり得る。揮発性メモリ３２は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）、ＳＲＡＭ（Static Random Access Memory）、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）およびＤＤＲＳＤＲＡＭ（Double Data Rate SDRAM）のうち少なくとも１つを含み得る。ただし、本実施例は、これに制限されるものではない。

【0086】

第１不揮発性メモリインタフェイス４０および第２不揮発性メモリインタフェイス６０はそれぞれ、例えば、ＰＡＴＡ（Parallel Advanced Technology Attachment）、ＳＣＳＩ（Small Computer System Interface）、ＳＡＳ（Serial Attached SCSI）、ＳＡＴＡ（Serial Advanced Technology Attachment）、およびＰＣＩｅ（PCI Express）のうち少なくとも１つを含み得る。ただし、本実施例は、これに制限されるものではない。

【0087】

第１揮発性メモリインタフェイス５０および第２揮発性メモリインタフェイス７０はそれぞれ、例えば、ＳＤＲ（Single Data Rate）、ＤＤＲ（Double Data Rate）、ＱＤＲ（Quad Data Rate）、およびＸＤＲ（eXtreme Data Rate, Octal Data Rate）のうちの少なくとも１つであり得る。ただし、本実施例は、これに制限されるものではない。

【0088】

図３は、図２のニューラルコアＳｏＣを詳細に説明するためのブロック図である。

【0089】

図２および図３を参照すると、ニューラルコアＳｏＣ１０は、少なくとも１つのニューラルプロセッサ１０００と、共有メモリ２０００と、ＤＭＡ（Direct Memory Access）３０００と、不揮発性メモリコントローラ４０００と、揮発性メモリコントローラ５０００と、グローバルインターコネクション６０００とを含み得る。

【0090】

ニューラルプロセッサ１０００は、演算作業を直接実行する演算装置であり得る。ニューラルプロセッサ１０００が複数の場合、演算作業は、それぞれのニューラルプロセッサ１０００に割り当てられ得る。各々のニューラルプロセッサ１０００は、グローバルインターコネクション６０００を介して互いに接続され得る。

【0091】

共有メモリ２０００は、複数のニューラルプロセッサ１０００によって共有されるメモリであり得る。共有メモリ２０００は、それぞれのニューラルプロセッサ１０００のデータを保存し得る。また、共有メモリ２０００は、オフチップメモリ３０からデータを受信して一時的に保存し、各々のニューラルプロセッサ１０００に伝達し得る。逆に、共有メモリ２０００は、ニューラルプロセッサ１０００からデータを受信して一時的に保存し、図２におけるオフチップメモリ３０への伝達もし得る。

【0092】

共有メモリ２０００は、相対的に速度の速いメモリが必要であり得る。そのため、共有メモリ２０００は例えば、ＳＲＡＭを含み得る。ただし、本実施例は、これに制限されるものではない。つまり、共有メモリ２０００は、ＤＲＡＭを含むこともできる。

【0093】

共有メモリ２０００は、ＳｏＣレベル、すなわち、Ｌ３（level 3）に該当するメモリであり得る。したがって、共有メモリ２０００は、Ｌ３共有メモリとも定義し得る。

【0094】

ＤＭＡ３０００は、ニューラルプロセッサ１０００がデータの入出力を制御する必要はなく、直接データの移動を制御し得る。これにより、ＤＭＡ３０００がメモリ間のデータ移動を制御して、ニューラルプロセッサ１０００の割り込み（interrupt）の回数を最小化し得る。

【0095】

ＤＭＡ３０００は、共有メモリ２０００とオフチップメモリ３０との間のデータ移動を制御し得る。ＤＭＡ３０００の権限により、不揮発性メモリコントローラ４０００および揮発性メモリコントローラ５０００がデータ移動を実行し得る。

【0096】

不揮発性メモリコントローラ４０００は、不揮発性メモリ３１へのリード（read）またはライト（write）作業を制御し得る。不揮発性メモリコントローラ４０００は、第１不揮発性メモリインタフェイス４０を介して、不揮発性メモリ３１を制御し得る。

【0097】

揮発性メモリコントローラ５０００は、揮発性メモリ３２へのリードまたはライト作業を制御し得る。また、揮発性メモリコントローラ５０００は、揮発性メモリ３２のリフレッシュ作業を実行し得る。揮発性メモリコントローラ５０００は、第１揮発性メモリインタフェイス５０を介して、揮発性メモリ３２を制御し得る。

【0098】

グローバルインターコネクション６０００は、少なくとも１つのニューラルプロセッサ１０００、共有メモリ２０００、ＤＭＡ３０００、不揮発性メモリコントローラ４０００、および揮発性メモリコントローラ５０００を互いに接続し得る。また、外部インタフェイス３も、グローバルインターコネクション６０００に接続され得る。グローバルインターコネクション６０００は、少なくとも１つのニューラルプロセッサ１０００、共有メモリ２０００、ＤＭＡ３０００、不揮発性メモリコントローラ４０００、揮発性メモリコントローラ５０００、および外部インタフェイス３間のデータが移動する経路であり得る。

【0099】

グローバルインターコネクション６０００は、データだけでなく、制御信号の伝送および同期化のための信号を伝送し得る。つまり、本発明のいくつかの実施例によるニューラルプロセッシング装置は、別途の制御プロセッサが同期化の信号を管理するのではなく、各々のニューラルプロセッサ１０００が直接同期化信号を伝送し、受信し得る。これにより、制御プロセッサによって発生する同期化信号のレイテンシーを遮断し得る。

【0100】

すなわち、ニューラルプロセッサ１０００が複数の場合、あるニューラルプロセッサ１０００の作業が終了してこそ、次のニューラルプロセッサ１０００が新しい作業を開始できる個別作業の依存性が存在し得る。このような個別作業の終了と開始とは、同期化信号により確認し得るが、従来の技術は、このような同期化信号の受信と新しい作業の開始指示を、制御プロセッサが実行していた。

【0101】

しかし、ニューラルプロセッサ１０００の数が増え、作業の依存性が複雑に設計されればされるほど、このような同期化作業は、要求および指示の数が幾何級数的に増加するようになった。したがって、各々の要求および指示によるレイテンシーが作業の効率を大きく低下させ得る。

【0102】

したがって、本発明のいくつかの実施例によるニューラルプロセッシング装置は、制御プロセッサの代わりに、各々のニューラルプロセッサ１０００が直接同期化信号を、作業の依存性に応じて他のニューラルプロセッサ１０００に伝送し得る。この場合、制御プロセッサによって管理される方式に比べて、並列的に複数のニューラルプロセッサ１０００が同期化作業を実行し得るので、同期化によるレイテンシーを最小化し得る。

【0103】

また、制御プロセッサが、作業依存性によるニューラルプロセッサ１０００の作業スケジューリングを実行する必要があるが、このようなスケジューリングのオーバーヘッドも、ニューラルプロセッサ１０００の数が増えれば増えるほど大きく増加し得る。したがって、本発明のいくつかの実施例によるニューラルプロセッシング装置は、スケジューリング作業も個別のニューラルプロセッサ１０００によって行われ、それによるスケジューリング負担もないので、装置の性能が向上され得る。

【0104】

図４は、図３におけるグローバルインターコネクションを詳細に説明するための構造図である。
図４を参照すると、グローバルインターコネクション６０００は、データチャンネル６１００と、コントロールチャンネル６２００と、Ｌ３シンクチャンネル６３００とを含み得る。

【0105】

データチャンネル６１００は、データを伝送する専用チャンネルであり得る。データチャネル６１００を介して、少なくとも１つのニューラルプロセッサ１０００、共有メモリ２０００、ＤＭＡ３０００、不揮発性メモリコントローラ４０００、揮発性メモリコントローラ５０００、および外部インタフェイス３が、互いにデータを交換し得る。

【0106】

コントロールチャンネル６２００は、制御信号を伝送する専用チャネルであり得る。コントロールチャンネル６２００を介して、少なくとも１つのニューラルプロセッサ１０００、共有メモリ２０００、ＤＭＡ３０００、不揮発性メモリコントローラ４０００、揮発性メモリコントローラ５０００、および外部インタフェイス３が、互いに制御信号を交換し得る。

【0107】

Ｌ３シンクチャネル６３００は、同期化信号を伝送する専用チャネルであり得る。Ｌ３シンクチャネル６３００を介して、少なくとも１つのニューラルプロセッサ１０００、共有メモリ２０００、ＤＭＡ３０００、不揮発性メモリコントローラ４０００、揮発性メモリコントローラ５０００、および外部インタフェイス３が、互いに同期化信号を交換し得る。

【0108】

Ｌ３シンクチャネル６３００は、グローバルインターコネクション６０００内に専用チャネルとして設定され、他のチャネルと重なることなく同期化信号を迅速に伝送し得る。これにより、本発明のいくつかの実施例によるニューラルプロセッシング装置は、新たな配線作業の必要がなく、従来使用のグローバルインターコネクション６０００を利用して、同期化作業を円滑に行い得る。

【0109】

図５は、図３におけるニューラルプロセッサを詳細に説明するためのブロック図である。
図３～図５を参照すると、ニューラルプロセッサ１０００は、少なくとも１つのニューラルコア１００と、Ｌ２共有メモリ４００と、ローカルインターコネクション２００と、Ｌ２シンクパス３００とを含み得る。

【0110】

少なくとも１つのニューラルコア１００は、ニューラルプロセッサ１０００の作業を分担して実行し得る。ニューラルコア１００は、例えば、８個であり得る。ただし、本実施例は、これに制限されるものではない。図４および図５では、複数のニューラルコア１００が、ニューラルプロセッサ１０００に含まれるものと示したが、本実施例は、これに制限されるものではない。すなわち、１個のニューラルコア１００のみでもニューラルプロセッサ１０００が構成され得る。

【0111】

Ｌ２共有メモリ４００は、ニューラルプロセッサ１０００内で、各々のニューラルコア１００が共有するメモリであり得る。Ｌ２共有メモリ４００は、それぞれのニューラルコア１００のデータを保存し得る。また、Ｌ２共有メモリ４００は、図３における共有メモリ２０００からデータを受信して一時的に保存し、各々のニューラルコア１００に伝達し得る。逆に、Ｌ２共有メモリ４００は、ニューラルコア１００からデータを受信して一時的に保存し、図３における共有メモリ２０００への伝達もし得る。

【0112】

Ｌ２共有メモリ４００は、ニューラルプロセッサレベル、すなわち、Ｌ２（level2）に該当するメモリであり得る。Ｌ３共有メモリ、すなわち、共有メモリ２０００は、ニューラルプロセッサ１０００によって共有され、Ｌ２共有メモリ４００はニューラルコア１００によって共有され得る。

【0113】

ローカルインターコネクション２００は、少なくとも１つのニューラルコア１００およびＬ２共有メモリ４００を互いに接続し得る。ローカルインターコネクション２００は、少なくとも１つのニューラルコア１００およびＬ２共有メモリ４００間のデータが移動する経路であり得る。ローカルインターコネクション２００は、図３におけるグローバルインターコネクション６０００と接続されデータを伝送し得る。

【0114】

Ｌ２シンクパス３００は、少なくとも１つのニューラルコア１００およびＬ２共有メモリ４００を互いに接続し得る。Ｌ２シンクパス３００は、少なくとも１つのニューラルコア１００およびＬ２共有メモリ４００の同期化信号が移動する経路であり得る。

【0115】

Ｌ２シンクパス３００は、ローカルインターコネクション２００と物理的に別途形成され得る。ローカルインターコネクション２００の場合、グローバルインターコネクション６０００とは異なり、内部に十分なチャンネルが形成されないことがあり得る。このような場合には、Ｌ２シンクパス３００が別途形成され、同期化信号の伝送を迅速かつ遅滞なく実行し得る。Ｌ２シンクパス３００は、グローバルインターコネクション６０００のＬ３シンクチャンネル６３００に比べ、一段階低いレベルで実行される同期化に使用され得る。

【0116】

図６は、図５におけるニューラルコアを詳細に説明するためのブロック図である。
図６を参照すると、ニューラルコア１００は、ＬＳＵ（Load/Store Unit）１１０と、ローカルメモリ１２０と、ウェイトバッファー１３０と、アクティベーションＬＳＵ１４０と、アクティベーションバッファー１５０と、プロセスユニット１６０とを含み得る。

【0117】

ＬＳＵ１１０は、ローカルインターコネクション２００およびＬ２シンクパス３００を介して、外部からデータ、制御信号および同期化信号のうち少なくとも１つを受信し得る。ＬＳＵ１１０は、ローカルメモリ１２０に受信したデータ、制御信号および同期化信号のうち少なくとも１つを伝送し得る。同様に、ＬＳＵ１１０は、ローカルインターコネクション２００およびＬ２シンクパス３００を介して、データ、制御信号および同期化信号のうち少なくとも１つを外部に伝達し得る。

【0118】

図７は、図６のＬＳＵを詳細に説明するためのブロック図である。
図７を参照すると、ＬＳＵ１１０は、ローカルメモリロードユニット１１１ａと、ローカルメモリストアユニット１１１ｂと、ニューラルコアロードユニット１１２ａと、ニューラルコアストアユニット１１２ｂと、ロードバッファーＬＢと、ストアバッファーＳＢと、ロードエンジン１１３ａと、ストアエンジン１１３ｂと、変換インデックスバッファー１１４とを含み得る。

【0119】

ローカルメモリロードユニット１１１ａは、ローカルメモリ１２０に対するロード命令（instruction）をフェッチ（fetch）し、ロード命令を発行（issue）し得る。ローカルメモリロードユニット１１１ａが、発行されたロード命令をロードバッファーＬＢに提供すると、ロードバッファーＬＢが入力された順に応じて順次ロードエンジン１１３ａにメモリアクセス要求を伝送し得る。

【0120】

また、ローカルメモリストアユニット１１１ｂは、ローカルメモリ１２０に対するストア命令をフェッチし、ストア命令を発行し得る。ローカルメモリストアユニット１１１ｂが、発行されたストア命令をストアバッファーＳＢに提供すると、ストアバッファーＳＢが、入力された順に応じて順次ストアエンジン１１３ｂにメモリアクセス要求を伝送し得る。

【0121】

ニューラルコアロードユニット１１２ａは、ニューラルコア１００に対するロード命令をフェッチし、ロード命令を発行し得る。ニューラルコアロードユニット１１２ａが、発行されたロード命令をロードバッファーＬＢに提供すると、ロードバッファーＬＢが、入力された順に応じて順次ロードエンジン１１３ａにメモリアクセス要求を伝送し得る。

【0122】

また、ニューラルコアストアユニット１１２ｂは、ニューラルコア１００に対するストア命令をフェッチし、ストア命令を発行し得る。ニューラルコアストアユニット１１２ｂが、発行されたストア命令をストアバッファーＳＢに提供すると、ストアバッファーＳＢが、入力された順に応じて順次ストアエンジン１１３ｂにメモリアクセス要求を伝送し得る。

【0123】

ロードエンジン１１３ａは、メモリアクセス要求を受信し、ローカルインターコネクション２００を介してデータを呼び出し得る。この際、ロードエンジン１１３ａは、変換インデックスバッファー１１４で最近使用された仮想アドレスと物理アドレスとの変換テーブルを利用して迅速にデータを調べられる。ロードエンジン１１３ａの仮想アドレスが変換インデックスバッファー１１４にない場合には、他のメモリからアドレス変換情報を調べられる。

【0124】

ストアエンジン１１３ｂは、メモリアクセス要求を受信し、ローカルインターコネクション２００を介してデータを呼び出し得る。この際、ストアエンジン１１３ｂは、変換インデックスバッファー１１４で最近使用された仮想アドレスと物理アドレスとの変換テーブルを利用して迅速にデータを調べられる。ストアエンジン１１３ｂの仮想アドレスが変換インデックスバッファー１１４にない場合には、他のメモリからアドレス変換情報を調べられる。

【0125】

ロードエンジン１１３ａおよびストアエンジン１１３ｂは、Ｌ２シンクパス３００に同期化信号を伝送し得る。この際、同期化信号は、作業が終了したという意味を有し得る。

【0126】

再び、図６を参照すると、ローカルメモリ１２０は、ニューラルコア１００内部に位置するメモリであって、ニューラルコア１００が作業に必要なすべての入力データを外部から受信して、一時的に保存し得る。また、ローカルメモリ１２０は、ニューラルコア１００によって演算された出力データを外部に伝送するために、一時的に保存し得る。ローカルメモリ１２０は、ニューラルコア１００のキャッシュメモリの役割を果たし得る。

【0127】

ローカルメモリ１２０は、アクティベーションＬＳＵ１４０によって入力アクティベーションＡｃｔ＿Ｉｎをアクティベーションバッファー１５０に伝送し、出力アクティベーションＡｃｔ＿Ｏｕｔを受信し得る。ローカルメモリ１２０は、アクティベーションＬＳＵ１４０の外にも、プロセスユニット１６０と直接データを送受信し得る。つまり、ローカルメモリ１２０は、ＰＥアレイ１６３およびベクトルユニット１６４のそれぞれとデータのやり取りをし得る。

【0128】

ローカルメモリ１２０は、ニューラルコアレベル、すなわち、Ｌ１（level1）に該当するメモリであり得る。したがって、ローカルメモリ１２０は、Ｌ１メモリとも定義し得る。ただし、Ｌ１メモリは、Ｌ２共有メモリ４００およびＬ３共有メモリ、すなわち、共有メモリ２０００とは異なり共有されず、ニューラルコアの専用（private）メモリであり得る。

【0129】

ローカルメモリ１２０は、データパス（Data Path）を介してアクティベーションやウェイトのようなデータを伝送し得る。ローカルメモリ１２０は、別の専用パスであるＬ１シンクパス（L1 Sync Path）を介して、同期化信号のやり取りをし得る。ローカルメモリ１２０は、例えば、ＬＳＵ１１０、ウェイトバッファー１３０、アクティベーションＬＳＵ１４０、およびプロセスユニット１６０とＬ１シンクパスを介して同期化信号のやり取りをし得る。

【0130】

ウェイトバッファー１３０は、ウェイト（Weight）をローカルメモリ１２０から受信し得る。ウェイトバッファー１３０は、ウェイトをプロセスユニット１６０に伝達し得る。ウェイトバッファー１３０は、ウェイトを伝達する前に、一時的にウェイトを保存し得る。

【0131】

入力アクティベーションＡｃｔ＿Ｉｎおよび出力アクティベーションＡｃｔ＿Ｏｕｔは、ニューラルネットワークのレイヤーの入力値と出力値を意味し得る。この際、ニューラルネットワークのレイヤーが複数の場合、以前のレイヤーの出力値が次のレイヤーの入力値となるので、以前のレイヤーの出力アクティベーションＡｃｔ＿Ｏｕｔが、次のレイヤーの入力アクティベーションＡｃｔ＿Ｉｎとして活用され得る。

【0132】

ウェイトは、各レイヤーで入力される入力アクティベーションＡｃｔ＿Ｉｎと乗算されるパラメータを意味し得る。ウェイトは、ディープラーニング学習段階で調整されて確定され、推論段階では、固定された値により出力アクティベーションＡｃｔ＿Ｏｕｔを導出するために使用され得る。

【0133】

アクティベーションＬＳＵ１４０は、ローカルメモリ１２０から入力アクティベーションＡｃｔ＿Ｉｎをアクティベーションバッファー１５０に伝達し、アクティベーションバッファー１５０から出力アクティベーションＡｃｔ＿Ｏｕｔを前記オンチップバッファーに伝達し得る。つまり、アクティベーションＬＳＵ１４０は、アクティベーションのロード作業とストア作業をいずれも実行し得る。

【0134】

アクティベーションバッファー１５０は、プロセスユニット１６０に入力アクティベーションＡｃｔ＿Ｉｎを提供し、プロセスユニット１６０から出力アクティベーションＡｃｔ＿Ｏｕｔを受信し得る。アクティベーションバッファー１５０は、入力アクティベーションＡｃｔ＿Ｉｎと出力アクティベーションＡｃｔ＿Ｏｕｔとを一時的に保存し得る。

【0135】

アクティベーションバッファー１５０は、演算量の多いプロセスユニット１６０、特に、ＰＥアレイ１６３に迅速にアクティベーションを提供し、迅速にアクティベーションを受信して、ニューラルコア１００の演算速度を高め得る。

【0136】

プロセスユニット１６０は、演算を実行するモジュールであり得る。プロセスユニット１６０は、１次元演算だけでなく、２次元マトリックス演算、すなわち、畳み込み（convolution）演算を実行し得る。プロセスユニット１６０は、入力アクティベーションＡｃｔ＿Ｉｎを受信してウェイトと乗算した後、これを加算して出力アクティベーションＡｃｔ＿Ｏｕｔを生成し得る。

【0137】

図８は、図６のプロセスユニットを詳細に説明するためのブロック図である。
図６および図８を参照すると、プロセスユニット１６０は、ＰＥアレイ１６３と、ベクトルユニット１６４と、列レジスタ１６１と、行レジスタ１６２とを含み得る。

【0138】

ＰＥアレイ１６３は、入力アクティベーションＡｃｔ＿Ｉｎおよびウェイトを受信して乗算を実行し得る。この際、入力アクティベーションＡｃｔ＿Ｉｎとウェイトは、それぞれマトリックス形態で畳み込みにより演算され得る。これにより、ＰＥアレイ１６３は、出力アクティベーションＡｃｔ＿Ｏｕｔを生成し得る。ただし、本実施例は、これに制限されるものではない。ＰＥアレイ１６３は、出力アクティベーションＡｃｔ＿Ｏｕｔ以外の他種の出力も容易に生成し得る。

【0139】

ＰＥアレイ１６３は、少なくとも１つの処理要素（processing element）ＰＥを含み得る。処理要素ＰＥは、互いに整列され、それぞれ１つの入力アクティベーションＡｃｔ＿Ｉｎと１つのウェイトに対する乗算を実行し得る。

【0140】

ＰＥアレイ１６３は、それぞれの乗算の値を合計した部分和を生成し得る。このような部分和は、出力アクティベーションＡｃｔ＿Ｏｕｔとして活用され得る。ＰＥアレイ１６３は、２次元行列乗算を実行するので、２次元マトリクス演算ユニット（2D matrix compute unit）とも称され得る。

【0141】

ベクトルユニット１６４は、主に１次元演算を実行し得る。ベクトルユニット１６４は、ＰＥアレイ１６３とともにディープラーニング演算を実行し得る。これにより、プロセスユニット１６０は、必要な演算に特化し得る。つまり、ニューラルコア１００は、大量の２次元行列乗算と１次元演算とを実行する演算モジュールがそれぞれあり、効率的にディープラーニング作業を実行し得る。

【0142】

列レジスタ１６１は、第１入力Ｉ１を受信し得る。列レジスタ１６１は、第１入力Ｉ１を受信し、これを分割して処理要素ＰＥの各列（column）に提供し得る。

【0143】

行レジスタ１６２は、第２入力Ｉ２を受信し得る。行レジスタ１６２は、第２入力Ｉ２を受信し、それを分割して処理要素ＰＥの各行（row）に提供し得る。

【0144】

第１入力Ｉ１は、入力アクティベーションＡｃｔ＿Ｉｎまたはウェイトであり得る。第２入力Ｉ２は、入力アクティベーションＡｃｔ＿Ｉｎまたはウェイトのうち、第１入力Ｉ１ではない値であり得る。または、第１入力Ｉ１および第２入力Ｉ２は、入力アクティベーションＡｃｔ＿Ｉｎおよびウェイト以外の値にもなり得る。

【0145】

図９は、図６におけるローカルメモリを詳細に説明するためのブロック図である。
図９を参照すると、ローカルメモリ１２０は、スケジューラ１２１と、少なくとも１つのローカルメモリバンク１２２とを含み得る。

【0146】

データがローカルメモリ１２０に保存されるとき、スケジューラ１２１は、ロードエンジン１１３ａからデータを受信し得る。この際、データは、ラウンドロビン（round robin）方式によりローカルメモリバンク１２２に割り当てられる。これにより、データは、少なくとも１つのローカルメモリバンク１２２のいずれか１つに保存され得る。

【0147】

逆に、データがローカルメモリ１２０からロードされるとき、スケジューラ１２１は、ローカルメモリバンク１２２からデータを受信して、ストアエンジン１１３ｂに伝達し得る。ストアエンジン１１３ｂは、ローカルインターコネクション２００を介して外部にデータを保存させ得る。

【0148】

図１０は、図９のローカルメモリバンクを詳細に説明するためのブロック図である。
図１０を参照すると、ローカルメモリバンク１２２は、ローカルメモリバンクコントローラ１２２＿１と、ローカルメモリバンクセルアレイ１２２＿２とを含み得る。

【0149】

ローカルメモリバンクコントローラ１２２＿１は、ローカルメモリバンク１２２に保存されるデータのアドレスにより、リードおよびライト動作を管理し得る。つまり、ローカルメモリバンクコントローラ１２２＿１は、データの入出力を全体的に管理し得る。

【0150】

ローカルメモリバンクセルアレイ１２２＿２は、データが直接保存されるセルが、行と列を合わせて整列された構造であり得る。ローカルメモリバンクセルアレイ１２２＿２は、ローカルメモリバンクコントローラ１２２＿１によって制御され得る。

【0151】

図１１は、本発明のいくつかの実施例によるニューラルプロセッシングシステムのメモリ再構成を説明するためのブロック図である。

【0152】

図１１を参照すると、ニューラルコアＳｏＣ１０は、第１～第８ニューラルコア１００ａ～１００ｈと、オンチップメモリＯＣＭとを含み得る。図１１では、例示的に８つのニューラルコアを示したが、これは例示に過ぎず、ニューラルコアの数は制限なく変わり得る。

【0153】

オンチップメモリＯＣＭは、第１～第８ローカルメモリ１２０ａ～１２０ｈと、共有メモリ２０００とを含み得る。

【0154】

第１～第８ローカルメモリ１２０ａ～１２０ｈは、それぞれ第１～第８ニューラルコア１００ａ～１００ｈの専用メモリとして使用され得る。すなわち、第１～第８ニューラルコア１００ａ～１００ｈと第１～第８ローカルメモリ１２０ａ～１２０ｈとは、互いに１：１で対応し得る。

【0155】

共有メモリ２０００は、第１～第８メモリユニット２１００ａ～２１００ｈを含み得る。第１～第８メモリユニット２１００ａ～２１００ｈは、第１～第８ニューラルコア１００ａ～１００ｈおよび第１～第８ローカルメモリ１２０ａ～１２０ｈにそれぞれ対応し得る。つまり、メモリユニットの数は、ニューラルコアおよびローカルメモリの数と同じ８個であり得る。

【0156】

共有メモリ２０００は、２種類のオンチップメモリ形式のいずれかで動作し得る。つまり、共有メモリ２０００は、ローカルメモリ形式またはグローバルメモリ形式のいずれかで動作し得る。つまり、共有メモリ２０００は、１つのハードウェアで２つの論理的な（logical）メモリを実現し得る。

【0157】

共有メモリ２０００がローカルメモリ形式で実現される場合、共有メモリ２０００は、第１～第８ローカルメモリ１２０ａ～１２０ｈのように、第１～第８ニューラルコア１００ａ～１００ｈそれぞれの専用メモリ（private memory）として動作し得る。ローカルメモリは、グローバルメモリに比べて相対的に高速のクロックで動作することができ、共有メモリ２０００もローカルメモリ形式で動作する際、相対的により速いクロックを使用し得る。

【0158】

共有メモリ２０００が、グローバルメモリ形式で実現される場合、共有メモリ２０００は、第１ニューラルコア１００ａおよび第２ニューラルコア１００ｂが互いに一緒に使用する共用メモリ（common memory）として動作し得る。この際、共有メモリ２０００は、第１～第８ニューラルコア１００ａ～１００ｈだけでなく、第１～第８ローカルメモリ１２０ａ～１２０ｈによっても共有され得る。

【0159】

グローバルメモリは、一般的にローカルメモリに比べて低いクロックを使用し得るが、これに制限されるものではない。共有メモリ２０００がグローバルメモリ形式で動作するときは、第１～第８ニューラルコア１００ａ～１００ｈが共有メモリ２０００を共有し得る。この際、共有メモリ２０００は、図２における揮発性メモリ３２とグローバルインターコネクション６０００を介して接続され、揮発性メモリ３２のバッファーとしても動作し得る。

【0160】

共有メモリ２０００は、少なくとも一部がローカルメモリ形式で動作し、残りがグローバルメモリ形式で動作し得る。つまり、共有メモリ２０００全体がローカルメモリ形式で動作することもでき、共有メモリ２０００全体がグローバルメモリ形式で動作することもできる。または、共有メモリ２０００の一部がローカルメモリ形式で動作し、残りの一部がグローバルメモリ形式で動作し得る。

【0161】

図１２は、本発明のいくつかの実施例によるニューラル処理システムのメモリ再構成の例を示すブロック図である。

【0162】

図１１および図１２を参照すると、第１、第３、第５、および第７ニューラルコア１００ａ、１００ｃ、１００ｅ、１００ｇそれぞれの第１、第３、第５、および第７専用領域ＡＥ１、ＡＥ３、ＡＥ５、ＡＥ７は、それぞれ第１、第３、第５、および第７ローカルメモリ１２０ａ、１２０ｃ、１２０ｅ、１２０ｇのみを含み得る。また、第２、第４、第６、および第８ニューラルコア１００ｂ、１００ｄ、１００ｆ、１００ｈそれぞれの第２、第４、第６、および第８専用領域ＡＥ２、ＡＥ４、ＡＥ６、ＡＥ８は、それぞれ第２、第４、第６、および第８ローカルメモリ１２０ｂ、１２０ｄ、１２０ｆ、１２０ｈを含み得る。また、第２、第４、第６、および第８専用領域ＡＥ２、ＡＥ４、ＡＥ６、ＡＥ８は、第２、第４、第６、および第８メモリユニット２１００ｂ、２１００ｄ、２１００ｆ、２１００ｈを含み得る。共有メモリ２０００の第１、第３、第５、および第７メモリユニット２１００ａ、２１００ｃ、２１００ｅ、２１００ｇは、共用領域ＡＣとして活用され得る。

【0163】

共用領域ＡＣは、第１～第８ニューラルコア１００ａ～１００ｈによって共有されるメモリであり得る。第２専用領域ＡＥ２は、第２ローカルメモリ１２０ｂと第２メモリユニット２１００ｂとを含み得る。第２専用領域ＡＥ２は、ハードウェア的に分離された第２ローカルメモリ１２０ｂと第２メモリユニット２１０ｂとが同じ方式で動作して、論理的に１つのローカルメモリとして動作する領域であり得る。第４、第６および第８専用領域ＡＥ４、ＡＥ６、ＡＥ８も、第２専用領域ＡＥ２と同じ方式で動作し得る。

【0164】

本実施例による共有メモリ２０００は、各ニューラルコアに対応する領域を、最適化した比率の論理的なローカルメモリと論理的なグローバルメモリとに切り替えて使用し得る。共有メモリ２０００は、このような比率の調整をランタイム（Run time）にて実行し得る。

【0165】

つまり、各ニューラルコアは、互いに同じ作業をする場合もあるが、互いに異なる作業をする場合もあり得る。この場合、各ニューラルコアが実行する作業に必要なローカルメモリの容量とグローバルメモリの容量とは、毎回異なることとなる。これにより、既存のオンチップメモリのように、ローカルメモリと共有メモリとの構成比率が固定的に設定される場合には、各ニューラルコアに割り当てられる演算作業による非効率が発生し得る。

【0166】

したがって、本実施例によるニューラルプロセッシング装置の共有メモリ２０００は、ランタイム中に演算作業に応じて最適なローカルメモリおよびグローバルメモリの比率を設定することができ、演算の効率性および速度を向上させ得る。

【0167】

図１３は、図１１におけるＡ部分を拡大したブロック図である。
図１１および図１３を参照すると、共有メモリ２０００は、第１ローカルメモリコントローラ１２２＿１ａと、第２ローカルメモリコントローラ１２２＿１ｂと、第５ローカルメモリコントローラ１２２＿１ｅと、第６ローカルメモリコントローラ１２２＿１ｆと、第１～第８メモリユニット２１００ａ～２１００ｈと、グローバルコントローラ２２００とを含み得る。示されていない他のローカルメモリコントローラも本実施例に含まれ得るが、便宜上説明を省略する。

【0168】

第１ローカルメモリコントローラ１２２＿１ａは、第１ローカルメモリ１２０ａを制御し得る。また、第１ローカルメモリコントローラ１２２＿１ａは、第１メモリユニット２１００ａを制御し得る。具体的には、第１メモリユニット２１００ａが論理的なローカルメモリ形式で実現されるとき、第１ローカルメモリコントローラ１２２＿１ａによる制御が、第１メモリユニット２１００ａに実行され得る。

【0169】

第２ローカルメモリコントローラ１２２＿１ｂは、第２ローカルメモリ１２０ｂを制御し得る。また、第２ローカルメモリコントローラ１２２＿１ｂは、第２メモリユニット２１００ｂを制御し得る。つまり、第２メモリユニット２１００ｂが論理的なローカルメモリ形式で実現されるとき、第１ローカルメモリコントローラ１２２＿１ａによる制御が、第２メモリユニット２１００ｂに実行され得る。

【0170】

第５ローカルメモリコントローラ１２２＿１ｅは、第５ローカルメモリ１２０ｅを制御し得る。また、第５ローカルメモリコントローラ１２２＿１ｅは、第５メモリユニット２１００ｅを制御し得る。すなわち、第５メモリユニット２１００ｅが論理的なローカルメモリ形式で実現されるとき、第５ローカルメモリコントローラ１２２＿１ｅによる制御が、第５メモリユニット２１００ｅに実行され得る。

【0171】

第６ローカルメモリコントローラ１２２＿１ｆは、第６ローカルメモリ１２０ｆを制御し得る。また、第６ローカルメモリコントローラ１２２＿１ｆは、第６メモリユニット２１００ｆを制御し得る。すなわち、第６メモリユニット２１００ｆが論理的なローカルメモリ形式で実現されるとき、第６ローカルメモリコントローラ１２２＿１ｆによる制御が、第６メモリユニット２１００ｆに実行され得る。

【0172】

グローバルコントローラ２２００は、第１～第８メモリユニット２１００ａ～２１００ｈの全てを制御し得る。具体的に、グローバルコントローラ２２００は、第１～第８メモリユニット２１００ａ～２１００ｈがそれぞれ論理的にグローバルメモリ形式で動作するとき（すなわち、論理的にローカルメモリ形式で動作しないとき）、第１メモリユニット２１００ａ～第８メモリユニット２１００ｈを制御し得る。

【0173】

すなわち、第１～第８メモリユニット２１００ａ～２１００ｈは、論理的にどのような形式のメモリで実現されるかによって、第１～第８ローカルメモリコントローラ１２２＿１ａ～１２２＿１ｈによってそれぞれ制御されるか、またはグローバルコントローラ２２００によって制御され得る。

【0174】

第１、第２、第５、および第６ローカルメモリコントローラ１２２＿１ａ、１２２＿１ｂ、１２２＿１ｅ、１２２＿１ｆを含むローカルメモリコントローラが、それぞれ第１～第８メモリユニット２１００ａ～２１００ｈを制御する場合、第１～第８ローカルメモリコントローラ１２２＿１ａ～１２２＿１ｈは、第１～第８メモリユニット２１００ａ～２１００ｈを第１～第８ローカルメモリ１２０ａ～１２０ｈと同様に制御するので、第１～第８ニューラルコア１００ａ～１００ｈの専用メモリとして制御し得る。これにより、第１～第８メモリユニット２１００ａ～２１００ｈは、第１～第８ニューラルコア１００ａ～１００ｈのクロック周波数と対応するクロック周波数で動作し得る。

【0175】

第１ローカルメモリコントローラ１２２＿１ａ、第２ローカルメモリコントローラ１２２＿１ｂ、第５ローカルメモリコントローラ１２２＿１ｅ、および第６ローカルメモリコントローラ１２２＿１ｆを含むローカルメモリコントローラは、それぞれ図６におけるＬＳＵ１１０を含み得る。

【0176】

グローバルコントローラ２２００が、第１～第８メモリユニット２１００ａ～２１００ｈのうち少なくとも１つを各々制御する場合、グローバルコントローラ２２００は、第１～第８メモリユニット２１００ａ～２１００ｈをそれぞれ第１～第８ニューラルコア１００ａ～１００ｈのグローバルメモリで制御し得る。これにより、第１～第８メモリユニット２１００ａ～２１００ｈのうち少なくとも１つは、それぞれ第１～第８ニューラルコア１００ａ～１００ｈのクロック周波数とは無関係なクロック周波数で動作し得る。ただし、本実施例は、これに制限されるものではない。

【0177】

グローバルコントローラ２２００は、第１～第８メモリユニット２１００ａ～２１００ｈを図３におけるグローバルインターコネクション６０００と接続し得る。第１～第８メモリユニット２１００ａ～２１００ｈは、グローバルコントローラ２２００によって、図１におけるオフチップメモリ３０とデータを交換したり、第１～第８ローカルメモリ１２０ａ～１２０ｈとそれぞれデータを交換したりし得る。

【0178】

第１～第８メモリユニット２１００ａ～２１００ｈは、それぞれ少なくとも１つのメモリバンクを含み得る。第１メモリユニット２１００ａは、少なくとも１つの第１メモリバンク２１１０ａを含み得る。第１メモリバンク２１１０ａは、第１メモリユニット２１００ａを特定のサイズに分割した領域であり得る。各々の第１メモリバンク２１１０ａは、いずれも同一サイズのメモリ素子であり得る。ただし、本実施例は、これに制限されるものではない。図１３では、４つのメモリバンクが１つのメモリユニットに含まれるものとして示されている。

【0179】

同様に、第２、第５、および第６メモリユニット２１００ｂ、２１００ｅ、２１００ｆは、それぞれ少なくとも１つの第２、第５、および第６メモリバンク２１１０ｂ、２１１０ｅ、２１１０ｆを含み得る。

【0180】

以下、第１メモリバンク２１１０ａおよび第５メモリバンク２１１０ｅを基準に説明し、これは、第２および第６メモリバンク２１１０ｂ，２１１０ｆを含む他のメモリバンクと同じであり得る。

【0181】

第１メモリバンク２１１０ａは、それぞれ論理的にローカルメモリ形式で動作したり、論理的にグローバルメモリ形式で動作したりし得る。この際、第１メモリバンク２１１０ａは、第１メモリユニット２１００ａ内の他のメモリバンクと独立して動作しても良い。ただし、本実施例は、これに制限されるものではない。

【0182】

各メモリバンク別に独立して動作する場合、第１メモリユニット２１００ａは、第１ローカルメモリ１２０ａと同じ方式で動作する第１領域と、第１ローカルメモリ１２０ａと異なる方式で動作する第２領域とを含み得る。この際、第１領域と第２領域とが、必ずしも併存するわけではなく、いずれかの領域が第１メモリユニット２１００ａの全体を占めることもあり得る。

【0183】

同様に、第２メモリユニット２１００ｂは、第２ローカルメモリ１２０ｂと同じ方式で動作する第３領域と、第２ローカルメモリ１２０ｂと異なる方式で動作する第４領域とを含み得る。この際、第３領域と第４領域とが必ずしも併存するわけではなく、いずれかの領域が第１メモリユニット２１００ａの全体を占めることもあり得る。

【0184】

この際、第１領域と第２領域との比率は、第３領域と第４領域との比率と異なり得る。ただし、本実施例は、これに制限されるものではない。したがって、第１領域と第２領域との比率は、第３領域と第４領域との比率と同じでもあり得る。つまり、各メモリユニットにおけるメモリ構成率は、制限なく変わり得る。

【0185】

一般的に、従来のシステムオンチップの場合では、高速のローカルメモリを除くオンチップメモリを、高密度低電力ＳＲＡＭで構成することが多かった。これは、必要な容量に対するチップの面積と使用電力とにおいて、ＳＲＡＭが高い効率を有するためである。しかし、従来のオンチップメモリは、予め定められたローカルメモリの容量よりもさらに多くのデータが迅速に必要な作業の場合には、処理速度が大幅に遅くならざるを得なく、グローバルメモリの必要性が大きくない場合にも、残っているグローバルメモリを活用する方法が全くなかったため、非効率が発生していた。

【0186】

これに対して、本発明のいくつかの実施例による共有メモリ２０００は、必要に応じて、それぞれ２つのコントローラのいずれか１つによって選択的に制御され得る。この際、共有メモリ２０００が全体的に２つのコントローラのうち決められているいずれか１つによってのみ制御されるのではなく、メモリユニット単位またはメモリバンク単位で独立して制御され得る。

【0187】

これにより、本実施例による共有メモリ２０００は、演算作業による最適なメモリ構成比率をランタイム中に獲得して、より迅速かつ効率的な演算作業を実行し得る。人工知能に特化したプロセスユニットの場合、特定のアプリケーション単位でローカルメモリとグローバルメモリとの必要なサイズが異なり得る。ひいては、同じアプリケーションでも、ディープラーニングネットワークを使用する場合、各レイヤー別にローカルメモリとグローバルメモリとの必要なサイズが異なり得る。本実施例による共有メモリ２０００は、各レイヤーによる演算段階の変化にも、メモリの構成比率がランタイム中に変化され得るので、迅速かつ効率的なディープラーニング作業が可能であり得る。

【0188】

図１４は、図１３における第１バンクを詳細に説明するための図である。図１４は、第１メモリバンク２１１０ａについて示したが、他のメモリバンクも第１メモリバンク２１１０ａと同じ構造であり得る。

【0189】

図１４を参照すると、第１メモリバンク２１１０ａは、セルアレイＣａと、バンクコントローラＢｃと、第１パスユニットＰ１と、第２パスユニットＰ２とを含み得る。

【0190】

セルアレイＣａは、内部に複数のメモリ素子（Cell）を含み得る。セルアレイＣａは、複数のメモリ素子が格子構造に整列して配置され得る。セルアレイＣａは、例えば、ＳＲＡＭ（Static Random Access Memory）セルアレイであり得る。

【0191】

バンクコントローラＢｃは、セルアレイＣａを制御し得る。バンクコントローラＢｃは、セルアレイＣａがローカルメモリ形式で動作するか、またはグローバルメモリ形式で動作するかを決定し、それに応じてセルアレイＣａを制御し得る。

【0192】

具体的に、バンクコントローラＢｃは、ランタイム中に、第１パスユニットＰ１方向にデータを送受信するか、または第２パスユニットＰ２方向にデータを送受信するかを決定し得る。バンクコントローラＢｃは、経路制御信号Ｓｐｃに応じてデータの送受信方向を決定し得る。

【0193】

経路制御信号Ｓｐｃは、予め設計された装置ドライバやコンパイラによって生成され得る。経路制御信号Ｓｐｃは、演算作業の特性に応じて生成され得る。または、経路制御信号Ｓｐｃは、ユーザからの入力を受信して生成され得る。つまり、ユーザは、最適なメモリ構成比率を選択するために、経路制御信号Ｓｐｃに対する入力を直接加え得る。

【0194】

バンクコントローラＢｃは、経路制御信号Ｓｐｃにより、セルアレイＣａに保存されているデータの送受信経路を決定し得る。バンクコントローラＢｃが、データの送受信される経路を決定することによって、データの交換インタフェイスが変わり得る。すなわち、バンクコントローラＢｃが、第１パスユニットＰ１とデータを交換する場合、第１インタフェイスを利用し、第２パスユニットＰ２とデータを交換する場合、第２インタフェイスを利用し得る。この際、第１インタフェイスと第２インタフェイスとは、互いに異なり得る。

【0195】

また、データが保存されるアドレス体系も変わり得る。つまり、特定のインタフェイスを選択すると、それに対応するアドレス体系でリードおよびライト動作が実行され得る。

【0196】

バンクコントローラＢｃは、特定のクロック周波数で動作し得る。例えば、セルアレイＣａがＳＲＡＭセルアレイの場合には、一般的なＳＲＡＭの動作クロック周波数でバンクコントローラＢｃが動作し得る。

【0197】

第１パスユニットＰ１は、バンクコントローラＢｃと接続され得る。第１パスユニットＰ１は、セルアレイＣａのデータを第１ニューラルコア１００ａと直接交換し得る。なお、「直接」とは、グローバルインターコネクション６０００を介さず、互いに交換されることを意味し得る。つまり、第１ニューラルコア１００ａは、第１ローカルメモリ１２０ａと直接データを交換することができ、第１ニューラルコア１００ａは、共有メモリ２０００が論理的にローカルメモリ形式で実現されたとき、第１パスユニットＰ１を介してデータを交換し得る。第１パスユニットＰ１は、図１３における第１ローカルメモリコントローラ１２２＿１ａおよび第２ローカルメモリコントローラ１２２＿１ｂを含むローカルメモリコントローラを含み得る。

【0198】

第１パスユニットＰ１は、マルチサイクルシンクパス（Multi-Cycle Sync-Path）を構成し得る。つまり、第１パスユニットＰ１の動作クロック周波数は、第１ニューラルコア１００ａの動作クロック周波数と同じであり得る。第１ローカルメモリ１２０ａは、第１ニューラルコア１００ａの動作と同じ速度で迅速にデータを交換するために、第１ニューラルコア１００ａの動作クロック周波数と同じクロック周波数で迅速にデータを交換し得る。第１パスユニットＰ１も同様に、第１ニューラルコア１００ａの動作クロック周波数と同じクロック周波数で動作し得る。

【0199】

この際、第１パスユニットＰ１の動作クロック周波数は、バンクコントローラＢｃの動作クロック周波数の倍数であり得る。この場合、バンクコントローラＢｃと第１パスユニットＰ１との間で、クロックの同期化のためのＣＤＣ（Clock Domain Crossing）作業が別途必要なく、これにより、データ伝送の遅延（delay）が発生しないのであり得る。したがって、より迅速かつ効率的なデータ交換が可能であり得る。

【0200】

図１４では、例示的に、第１パスユニットＰ１の動作クロック周波数は１．５ＧＨｚであり得る。これは、バンクコントローラＢｃの７５０ＭＨｚの２倍の周波数であり得る。ただし、本実施例は、これに制限されるものではなく、バンクコントローラＢｃのクロック周波数の整数倍で第１パスユニットＰ１が動作するのであれば、制限なく可能である。

【0201】

第２パスユニットＰ２は、バンクコントローラＢｃと接続され得る。第２パスユニットＰ２は、セルアレイＣａのデータを第１ニューラルコア１００ａと直接交換せず、グローバルインターコネクション６０００を介して交換し得る。つまり、第１ニューラルコア１００ａは、グローバルインターコネクション６０００および第２パスユニットＰ２を介してセルアレイＣａとデータを交換し得る。この際、セルアレイＣａは、単に第１ニューラルコア１００ａだけでなく、他のニューラルコアともデータを交換し得る。

【0202】

つまり、第２パスユニットＰ２は、第１メモリバンク２１１０ａが論理的にグローバルメモリ形式で実現されたとき、セルアレイＣａと全てのニューラルコアとのデータ交換経路であり得る。第２パスユニットＰ２は、図１３におけるグローバルコントローラ２２００を含み得る。

【0203】

第２パスユニットＰ２は、アシンクパス（Async-Path）を構成し得る。第２パスユニットＰ２の動作クロック周波数は、グローバルインターコネクション６０００の動作クロック周波数と同一であり得る。第２パスユニットＰ２も同様に、グローバルインターコネクション６０００の動作クロック周波数と同じクロック周波数で動作し得る。

【0204】

この際、第２パスユニットＰ２の動作クロック周波数は、バンクコントローラＢｃの動作クロック周波数と互いに同期化されないのであり得る。この場合、バンクコントローラＢｃと第２パスユニットＰ２との間で、クロックの同期化のためのＣＤＣ（Clock Domain Crossing）作業が必要であり得る。バンクコントローラＢｃの動作クロック周波数と第２パスユニットＰ２の動作クロック周波数とを互いに同期化させない場合には、クロックドメインの設計自由度が高くなり得る。したがって、ハードウェア設計の難易度が下がり、より容易にハードウェア動作を導出し得る。

【0205】

バンクコントローラＢｃは、第１パスユニットＰ１を介してデータを交換する場合と、第２パスユニットＰ２を介してデータを交換する場合とで、互いに異なるアドレス体系を利用し得る。すなわち、バンクコントローラＢｃは、第１パスユニットＰ１を介しては第１アドレス体系を利用し、第２パスユニットＰ２を介しては第２アドレス体系を利用し得る。この際、第１アドレス体系と第２アドレス体系は互いに異なり得る。

【0206】

バンクコントローラＢｃは、必ずしもメモリバンクごとに存在する必要はない。つまり、バンクコントローラＢｃは、スケジューリングのための部分ではなく、信号を伝達する役割をするので、２つのポートを有する各々のメモリバンクに必須の部分ではない。したがって、１つのバンクコントローラＢｃが、複数のメモリバンクを制御し得る。複数のメモリバンクは、バンクコントローラＢｃによって制御されても、独立して動作し得る。ただし、本実施例は、これに制限されるものではない。

【0207】

勿論、バンクコントローラＢｃは、各メモリバンク別にも存在し得る。この場合、バンクコントローラＢｃが、各々のメモリバンクを個別に制御し得る。

【0208】

図１３および図１４を参照すると、第１メモリユニット２１０ａが、第１パスユニットＰ１を介してデータを交換する場合は第１アドレス体系を使用し、第２パスユニットＰ２を介してデータを交換する場合は第２アドレス体系を使用し得る。同様に、第２メモリユニット２１０ｂが、第１パスユニットＰ１を介してデータを交換する場合は第３アドレス体系を使用し、第２パスユニットＰ２を介してデータを交換する場合は第２アドレス体系を使用し得る。この際、第１アドレス体系と第３アドレス体系とは、互いに同一であり得る。ただし、本実施例は、これに制限されるものではない。

【0209】

第１アドレス体系と第３アドレス体系とは、それぞれ第１ニューラルコア１００ａおよび第２ニューラルコア１００ｂにそれぞれ専用で使用され得る。第２アドレス体系は、第１ニューラルコア１００ａおよび第２ニューラルコア１００ｂに共用で適用され得る。

【0210】

図１４では、例示的に、第２パスユニットＰ２の動作クロック周波数は１ＧＨｚで動作し得る。これは、バンクコントローラＢｃの動作クロック周波数７５０ＭＨｚの動作クロック周波数と同期化していない周波数であり得る。つまり、第２パスユニットＰ２の動作クロック周波数は、バンクコントローラＢｃの動作クロック周波数に全く従属されず、自由に設定され得る。

【0211】

一般的なグローバルメモリは、遅いＳＲＡＭ（例えば、７５０ＭＨｚ）と、それよりも速いグローバルインターコネクション（例えば、１ＧＨｚ）を利用しており、ＣＤＣ作業による遅延が発生せざるを得なかった。これに対し、本発明のいくつかの実施例による共有メモリ２０００は、第２パスユニットＰ２以外にも第１パスユニットＰ１を利用する余地があり、ＣＤＣ作業による遅延を回避し得る。

【0212】

また、一般的なグローバルメモリは、複数のニューラルコアが１つのグローバルインターコネクション６０００を利用するため、データ伝送量が同時に発生したとき、全体的な処理速度の低下が発生しやすい。これに対して、本発明のいくつかの実施例による共有メモリ２０００は、第２パスユニットＰ２以外にも第１パスユニットＰ１を利用する余地があり、グローバルコントローラ２２００に集中するデータ処理量を適切に分散する効果も得られ得る。

【0213】

図１５は、本発明のいくつかの実施例によるニューラルプロセッシング装置の仮想ＩＤの割り当てを説明するための概念図である。

【0214】

図１５を参照すると、ニューラルコアＳｏＣ１０は、複数のニューラルプロセッサを含み得る。図１５では、例えば、８つのニューラルプロセッサがある場合を示している。ニューラルコアＳｏＣ１０は、第１～第８ニューラルプロセッサＰＰ０～ＰＰ７を含み得る。

【0215】

この際、第１～第４ニューラルプロセッサＰＰ０～ＰＰ３は、同じプログラムによって１つの作業を分割して実行し得る。第５ニューラルプロセッサ１０００は、単独で１つの作業を実行することができ、第６～第８ニューラルプロセッサＰＰ５～ＰＰ７は、また他の１つの作業を分割して実行し得る。

【0216】

すなわち、８つのニューラルプロセッサは、３つのセットに分けられ得る。この際、第１セットＳｅｔ１は、第１～第４ニューラルプロセッサＰＰ０～ＰＰ３を含み得る。第２セットＳｅｔ２は、第５ニューラルプロセッサ１０００を含み得る。第３セットＳｅｔ３は、第６～第８ニューラルプロセッサＰＰ５～ＰＰ７を含み得る。

【0217】

各々のセットでは、新たな仮想ＩＤが割り当てられ得る。つまり、第１セットＳｅｔ１の第１～第４ニューラルプロセッサＰＰ０～ＰＰ３には、それぞれ第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）がそれぞれ割り当てられ得る。第２セットＳｅｔ２の第５ニューラルプロセッサ１０００には、第１仮想ＩＤ（ＶＰ０）が割り当てられ得る。第３セットＳｅｔ３の第６～第８ニューラルプロセッサＰＰ５～ＰＰ７には、第１～第３仮想ＩＤ（ＶＰ０～ＶＰ２）が割り当てられ得る。

【0218】

したがって、互いに異なるプログラムを実行する場合、同じ仮想ＩＤが互いに異なるニューラルプロセッサに割り当てられ得るが、互いに同じプログラムをともに実行する場合は、物理ＩＤ（すなわち、各々のニューラルプロセッサの固有ＩＤ）と仮想ＩＤとは１：１で対応し得る。

【0219】

図１６は、本発明のいくつかの実施例によるニューラルプロセッシング装置の仮想ＩＤの割り当ておよびＶＰＩＤテーブルを説明するための図である。

【0220】

図１６を参照すると、第１セットＳｅｔ１の第１～第４ニューラルプロセッサＰＰ０～ＰＰ３が、第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）を割り当てられた場合を説明する。物理ＩＤと仮想ＩＤの手順は、互いに同一でなくて良い。すなわち、第１ニューラルプロセッサ１０００には、第１仮想ＩＤ（ＶＰ０）ではなく、第３仮想ＩＤ（ＶＰ２）が割り当てられ得る。第２ニューラルプロセッサ１０００には、第２仮想ＩＤ（ＶＰ１）が割り当てられ、第３ニューラルプロセッサ１０００には、第１仮想ＩＤ（ＶＰ０）が割り当てられ得る。第４ニューラルプロセッサ１０００には、第４仮想ＩＤ（ＶＰ３）が割り当てられ得る。

【0221】

これにより、ＶＰＩＤテーブルＴＢ＿ＶＴＰは、仮想ＩＤに該当する物理ＩＤを記録し得る。例えば、ＶＰＩＤテーブルＴＢ＿ＶＴＰが３、０、１、２の値が順次記録される場合、それぞれ逆順に第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）がどの物理ＩＤに対応するかを確認し得る。

【0222】

具体的に、第１仮想ＩＤ（ＶＰ０）が割り当てられたニューラルプロセッサは、数字２によって第３ニューラルプロセッサ１０００であり、第２仮想ＩＤ（ＶＰ２）が割り当てられたニューラルプロセッサは、数字１によって第２ニューラルプロセッサ１０００である。第３仮想ＩＤ（ＶＰ２）が割り当てられたニューラルプロセッサは、数字０によって第１ニューラルプロセッサ１０００であり、第４仮想ＩＤ（ＶＰ４）が割り当てられたニューラルプロセッサは、数字３によって第４ニューラルプロセッサ１０００である。

【0223】

図１７は、シンクターゲットとＶＰＩＤテーブルによる物理ＩＤの識別過程を説明するための図である。

【0224】

図１７を参照すると、Ｌ３シンクターゲットＳｍ＿Ｖは、同期化信号を送るニューラルプロセッサのそれぞれが生成した信号であり得る。つまり、Ｌ３シンクターゲットＳｍ＿Ｖは、例えば、４つのフィールドを含み得る。これは、同じセットに４つのニューラルプロセッサがあると言うことに起因し得る。Ｌ３シンクターゲットＳｍ＿Ｖの各々のフィールドは、第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）に対応し得る。すなわち、Ｌ３シンクターゲットＳｍ＿Ｖに１、０、１、１が記載されていると、第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）には、逆順で１、１、０、１がそれぞれ対応され得る。

【0225】

Ｌ３シンクターゲットＳｍ＿Ｖの「１」の意味は、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号が伝達されるべきニューラルプロセッサ１０００の仮想ＩＤを表示するものであり得る。つまり、１、０、１、１のうち最後の１は、第１仮想ＩＤ（ＶＰ０）のニューラルプロセッサに、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号が伝達されるべきと言う意味であり得る。つまり、第３仮想ＩＤ（ＶＰ２）のニューラルプロセッサを除く、残り３つのニューラルプロセッサにＬ３シンクターゲットＳｍ＿Ｖによる同期化信号が伝達されるべきことが１、０、１、１で表現され得る。

【0226】

Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号を送るべきニューラルプロセッサは、Ｌ３シンクターゲットＳｍ＿ＶによってＬ３シンクターゲットＳｍ＿Ｖによる同期化信号が伝達されるべきニューラルプロセッサの仮想ＩＤが、第１、第２および第４仮想ＩＤ（ＶＰ０、ＶＰ１、ＶＰ３）で識別された後は、ＶＰＩＤテーブルＴＢ＿ＶＴＰにより該当するニューラルプロセッサの物理ＩＤを確認し得る。ニューラルプロセッサは、物理ＩＤを確認してこそ、実際のアドレスを確認でき得る。

【0227】

ＶＰＩＤテーブルＴＢ＿ＶＴＰが３、０、１、２の値を持っているので、第１、第２および第４仮想ＩＤ（ＶＰ０、ＶＰ１、ＶＰ３）の物理ＩＤが、それぞれ２、１、３であることが分かる。すなわち、第２～第４ニューラルプロセッサＰＰ１～ＰＰ３が、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号を受信するニューラルプロセッサであり得る。

【0228】

図１８は、ディープラーニング作業の手順を説明するための有向非巡回グラフ（Directed Acyclic Graph：ＤＡＧ）である。

【0229】

図１８を参照すると、本発明のいくつかの実施例によるニューラルプロセッシング装置の演算作業は、有向非巡回グラフによって表現され得る。この際、現在作業がＴａｓｋＮと表現されると、以前の作業はＴａｓｋ（Ｎ－１）であり、次の作業はＴａｓｋ（Ｎ＋１）であり得る。

【0230】

すなわち、現在の作業であるＴａｓｋＮが実行されるためには、Ｔａｓｋ（Ｎ－１）が終了されるべきであり、同様に、次の作業であるＴａｓｋ（Ｎ＋１）が実行されるためには、現在の作業であるＴａｓｋＮが完了されるべきである。

【0231】

したがって、それぞれの作業が完了したという同期化信号が、作業を実行したニューラルプロセッサから送信されるべきであり、同期化信号は、次の作業を実行するべき依存性チェーン（dependency chain）によって決められ得る。これにより、Ｌ３シンクターゲットＳｍ＿Ｖは、次の作業を実行するべきニューラルプロセッサに対する情報がライト（write）された命令であり得る。Ｌ３シンクターゲットＳｍ＿Ｖに値がライトされると、それに応じて同期化信号が伝送され得る。

【0232】

図１９は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ３同期化のためのシンクターゲットによる同期化信号送信動作を説明するための概念図である。

【0233】

図１９を参照すると、第１ニューラルプロセッサ１０００が、シンクターゲットＳｍ＿Ｖによる同期化信号を第２～第４ニューラルプロセッサＰＰ１～ＰＰ３に伝送し得る。これにより、ＳｏＣレベル、すなわち、Ｌ３（level3）の同期化が実行され得る。

【0234】

本発明のいくつかの実施例によるニューラルプロセッシング装置は、第２～第４ニューラルプロセッサＰＰ１～ＰＰ３にそれぞれ対応する第１～第３セマフォメモリｓｍｐ１～ｓｍｐ３を含み得る。第１～第３セマフォメモリｓｍｐ１～ｓｍｐ３は、第２～第４ニューラルプロセッサＰＰ１～ＰＰ３のそれぞれに含まれ得る。第１～第３セマフォメモリｓｍｐ１～ｓｍｐ３は、互いに同一形態を有し得る。したがって、以下では第１セマフォメモリｓｍｐ１についてのみ詳細に説明する。

【0235】

第１セマフォメモリｓｍｐ１は、第２ニューラルプロセッサ１０００に対応し得る。第１セマフォメモリｓｍｐ１は、第１セットＳｅｔ１に含まれている４つのニューラルプロセッサにそれぞれ対応する４つのフィールドを含み得る。

【0236】

例えば、第１セマフォメモリｓｍｐ１は、第１～第４フィールドを含み、第１～第４フィールドは、それぞれ第１～第４ニューラルプロセッサＰＰ０～ＰＰ３に対応し得る。すなわち、第１～第４フィールドは、第１～第４ニューラルプロセッサＰＰ０～ＰＰ３の物理ＩＤと同順で整列され得る。

【0237】

すなわち、第１セマフォメモリｓｍｐ１の第１フィールドは、第１ニューラルプロセッサ１０００に対する部分で、第１ニューラルプロセッサ１０００からＬ３シンクターゲットＳｍ＿Ｖによる同期化信号が受信されると１で表現され、でなければ０で表現され得る。もちろん、これとは逆に表現することも可能であり得る。

【0238】

同様に、第２セマフォメモリｓｍｐ２および第３セマフォメモリｓｍｐ３の第１フィールド値も、第１ニューラルプロセッサ１０００によってＬ３シンクターゲットＳｍ＿Ｖによる同期化信号を受信して１で表示され得る。このように、第１セマフォメモリｓｍｐ１の１、０、１、１の表示は、第１、第３および第４ニューラルプロセッサＰＰ０、ＰＰ２、ＰＰ３によって、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号が受信されることを意味し得る。

【0239】

現在作業であるＴａｓｋＮが終了すると、第１ニューラルプロセッサ１０００は、次の作業であるＴａｓｋ（Ｎ＋１）の開始のために、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号を図４におけるＬ３シンクチャンネル６３００を介して伝送し得る。このような同期化は、他のニューラルプロセッサ１０００によってもそれぞれ実行され得る。

【0240】

本実施例のニューラルプロセッシング装置の同期化作業は、中央で制御する制御プロセッサが別途存在しないので、並列的に実行することができ、レイテンシーの発生を最小化し得る。また、このような同期化による作業の依存性を考慮してスケジューリングをしなければならないオーバーヘッドも要求されないので、装置全体の効率が最大化し得る。

【0241】

図２０は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ３同期化のためのシンクターゲットによる同期化信号受信動作を説明するための概念図である。

【0242】

図２０を参照すると、第１ニューラルプロセッサ１０００は、第１、第３および第４ニューラルプロセッサＰＰ０、ＰＰ２、ＰＰ３から同期化信号を受信し得る。これにより、第１ニューラルプロセッサ１０００に対応する第１セマフォメモリｓｍｐ１の第１～第４フィールドは、それぞれ１、０、１、１で満たされ得る。

【0243】

本発明のいくつかの実施例によるニューラルプロセッシング装置は、第１～第４フィールドにそれぞれ対応する第１～第４ＦＩＦＯバッファーＢ１～Ｂ４を含み得る。第１～第４ＦＩＦＯバッファーは、ＦＩＦＯ（First In First Out）方式で第１セマフォメモリｓｍｐ１の第１～第４フィールドの値をそれぞれ第１ニューラルプロセッサ１０００に提供し得る。

【0244】

一般的に、ニューラルプロセッシング装置の作業は、図１８のように単純な直線で表現されるだけではない。つまり、１つの作業は、以前の複数の作業による依存性チェーンを有し得る。これにより、１つ以上の依存性チェーンを有する作業の場合、複数のセマフォメモリが必要であり得る。

【0245】

しかし、セマフォメモリの数が増えると、その分必要なメモリスペースも増えることであるため、小さなスペースに要求されるリソースが過剰となり得る。そのため、本発明のいくつかの実施例によるニューラルプロセッシング装置は、ニューラルプロセッサ当たり１個のセマフォメモリにＦＩＦＯバッファーを追加して、メモリスペースの効率的な活用を図り得る。

【0246】

すなわち、複数の依存性による同期化信号がＦＩＦＯバッファーに順次入ってくると、１つのセマフォメモリでも順次同期化信号を逃すことなく順番に処理し得る。したがって、本実施例は、メモリ効率も高めながら、複数の依存性チェーンの作業も無理なく実行し得る。

【0247】

図２１は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ１およびＬ２同期化を説明するためのブロック図であり、図２２は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ１およびＬ２同期化を説明するためのラダー図である。

【0248】

図２１を参照すると、第１ニューラルコア１００ａは、第１ニューラルコアストアユニット１１２ｂと、第１ニューラルコアロードユニット１１２ａと、第１ローカルメモリ１２０ａと、第１ローカルメモリストアユニット１１１ｂと、第１ローカルメモリロードユニット１１１ａとを含み得る。

【0249】

同様に、第２ニューラルコア１００ｂは、第２ニューラルコアストアユニット１１２ｄと、第２ニューラルコアロードユニット１１２ｃと、第２ローカルメモリ１２０ｂと、第２ローカルメモリストアユニット１１１ｄと、第２ローカルメモリロードユニット１１１ｃとを含み得る。

【0250】

第２ニューラルコア１００ｂの第２ニューラルコアストアユニット１１２ｄが、Ｌ１シンク要求信号を生成する（Ｓ１０）。

【0251】

Ｌ１シンク要求（sync request）信号は、後に、Ｌ１シンク生成（sync generate）信号が来たら、そのとき同期化され、それまでは待機（stall）状態で維持させ得る。つまり、同期化のための準備状態にＬ１シンク要求信号が生成され得る。

【0252】

第４ニューラルコア１００ｄの第４ニューラルコアロードユニット１１２ｆが、レシーブＬ２シンクを生成し得る（Ｓ１１）。

【0253】

複数のニューラルコアがあるとき、それぞれの同期化準備のタイミングは異なり得る。当然、第４ニューラルコア１００ｄのように、早くレシーブＬ２シンクが生成されることもあり得る。

【0254】

次いで、第２ローカルメモリストアユニット１１１ｄが、第２ローカルメモリ１２０ｂにデータを保存する（Ｓ１２、丸１）。続いて、第２ローカルメモリストアユニット１１１ｄは、第２ニューラルコアストアユニット１１２ｄにＬ１シンク生成信号を伝送する（Ｓ１３、丸２）。この際、Ｌ１シンク生成信号は、Ｌ１シンクパス（L1 Sync Path）を用いて伝送され得る。これにより、第２ニューラルコアストアユニット１１２ｄのＬ１シンク要求信号が同期化され得る。

【0255】

次いで、第２ニューラルコアストアユニット１１２ｄが、第１ニューラルコア１００ａの第１ニューラルコアロードユニット１１２ａ、第３ニューラルコア１００ｃの第３ニューラルコアロードユニット１１２ｅおよび第４ニューラルコア１００ｄの第４ニューラルコアロードユニット（１１２ｆ）に、センドＬ２シンクをブロードキャストし得る（Ｓ１４、Ｓ１５、Ｓ１６、丸３）。この際、センドＬ２シンクは、Ｌ２シンクパス３００を介して伝送され得る。

【0256】

この際、既にレシーブＬ２シンクが生成された第４ニューラルコア１００ｄは、直ちに同期化が行われ、ロード作業が実行される（Ｓ１７）。

【0257】

これとは異なり、第１ニューラルコア１００ａおよび第３ニューラルコア１００ｃは、レシーブＬ２シンクが生成されるとき（Ｓ１８）、ロード作業が実行され得る（Ｓ１９、丸４、丸５）。

【0258】

ロード作業は、第１ニューラルコアロードユニット１１２ａが、ローカルインターコネクション２００を介して第２ローカルメモリ１２０ｂにデータ要求を実行し（丸４）、要求に対するデータ返信を受信し得る（丸５）。

【0259】

同様に、第３ニューラルコア１００ｃも、レシーブＬ２シンクが生成されるとき（Ｓ２０）、ロード作業が実行され得る（Ｓ２１）。

【0260】

本実施例のＬ２（レベル２）の同期化とＬ１（レベル１）の同期化とのいずれも制御プロセッサによって管理されるのではなく、各々の要素が並列的に実行することであるので、レイテンシーと効率の面で大きな利点をもたらし得る。

【0261】

図２３は、本発明のいくつかの実施例によるニューラルプロセッシング装置の命令語集合構造を説明するための図である。

【0262】

図２３を参照すると、本発明のいくつかの実施例によるニューラルプロセッシング装置の命令語集合構造（ＩＳＡ、Instruction set architecture）は、オペレーションコード（ｏｐｃｏｄｅ）と、ソースレジスタ（Ｓｒｃ０）と、Ｌ１シンクターゲット（Target for L1 SYNC）と、Ｌ２シンクターゲット（Target for L2 SYNC）と、Ｌ３シンクターゲット（Target for L3 SYNC）と、ブランチエンド（ＢＥ）とを含み得る。つまり、命令語集合の構造にレベル１からレベル３までのシンクターゲットが全て含まれ得る。

【0263】

図２４は、本発明のいくつかの実施例によるニューラルプロセッシング装置のソフトウェア階層構造を説明するためのブロック図である。

【0264】

図２４を参照すると、本発明のいくつかの実施例によるニューラルプロセッシング装置のソフトウェア階層構造は、ＤＬ（Deep Learning）フレームワーク１００００と、コンパイラスタック２００００と、バックエンドモジュール３００００とを含み得る。

【0265】

ＤＬフレームワーク１００００は、ユーザが使用するディープラーニングモデルネットワークに対するフレームワークのことを意味し得る。例えば、テンソルフロー（TensorFlow、登録商標）やパイトーチ（PyTorch、登録商標）のようなプログラムを利用して、学習が完了したニューラルネットワークが生成され得る。

【0266】

コンパイラスタック２００００は、アダプテーションレイヤー２１０００と、演算ライブラリ（Compute Library）２２０００と、フロントエンドコンパイラ２３０００と、バックエンドコンパイラ２４０００と、ランタイムドライバ２５０００とを含み得る。

【0267】

アダプテーションレイヤー２１０００は、ＤＬフレームワーク１００００に接するレイヤーであり得る。アダプテーションレイヤー２１０００は、ＤＬフレームワーク１００００で生成されたユーザのニューラルネットワークモデルを量子化し、グラフ修正を実行し得る。また、アダプテーションレイヤー２１０００は、モデルのタイプを必要なタイプに変換させ得る。

【0268】

フロントエンドコンパイラ２３０００は、アダプテーションレイヤー２１０００から伝達された様々なニューラルネットワークモデルおよびグラフを一定の中間表現(intermediate representation、ＩＲ)に変換させ得る。変換されたＩＲは、後に、バックエンドコンパイラ２４０００で扱いやすい、予め設定された表現であり得る。

【0269】

このような、フロントエンドコンパイラ２３０００のＩＲは、グラフ次元で予めできる最適化が実行され得る。また、フロントエンドコンパイラ２３０００は、ハードウェアに最適化したレイアウトに変換させる作業によって、最終的にＩＲを生成し得る。

【0270】

バックエンドコンパイラ２４０００は、フロントエンドコンパイラ２３０００で変換されたＩＲを最適化し、バイナリファイルに変換して、ランタイムドライバが使用できるようにする。バックエンドコンパイラ２４０００は、ハードウェアの詳細に合ったスケールでジョブ（job）を分割して、最適化したコードを生成し得る。

【0271】

演算ライブラリ２２０００は、様々なオペレーションの中で、ハードウェアに適した形態で設計されたテンプレートオペレーションを保存し得る。演算ライブラリ２２０００は、ハードウェアが必要な複数のテンプレートオペレーションをベックエンドコンパイラ２４０００に提供して、最適化したコードが生成されるようにする。

【0272】

ランタイムドライバ２５０００は、駆動中にモニタリングを行い続け、本発明のいくつかの実施例によるニューラルネットワーク装置の駆動を実行し得る。具体的に、ニューラルネットワーク装置のインタフェイスの実行を担当し得る。

【0273】

バックエンドモジュール３００００は、ＡＳＩＣ（Application Specific Integrated Circuit）３１０００と、ＦＰＧＡ（Field programmable gate array）３２０００と、Ｃ－モデル３３０００とを含み得る。ＡＳＩＣ３１０００は、予め定められた設計方式により決定されるハードウェアチップを意味し得る。ＦＰＧＡ３２０００は、プログラム可能なハードウェアチップであり得る。Ｃ－モデル３３０００は、ソフトウェア上にハードウェアを模倣して実現したモデルを意味し得る。

【0274】

バックエンドモジュール３００００は、コンパイラスタック２００００により生成されたバイナリコードを利用して様々な作業を実行し、結果を導出し得る。

【0275】

図２５は、本発明のいくつかの実施例によるニューラルプロセッシング装置が実行するディープラーニング演算を説明するための概念図である。

【0276】

図２５を参照すると、人工ニューラルネットワークモデル４００００は、機械学習モデルの一例として、機械学習（Machine Learning）技術と認知科学において、生物学的ニューラルネットワークの構造に基づいて実現された、統計学的学習アルゴリズムまたはそのアルゴリズムを実行する構造である。

【0277】

人工ニューラルネットワークモデル４００００は、生物学的ニューラルネットワークにおけるように、シナプスの結合でネットワークを形成した人工ニューロンであるノード（Node）が、シナプスの加重値を繰り返し調整して、特定の入力に対応した正しい出力と、推論された出力との間の誤差が減少するように学習することにより、問題解決能力を有する機械学習モデルを示し得る。例えば、人工ニューラルネットワークモデル４００００は、機械学習、ディープラーニングなどの人工知能学習法に使用される任意の確率モデル、ニューラルネットワークモデルなどを含み得る。

【0278】

本発明のいくつかの実施例によるニューラルプロセッシング装置は、このような人工ニューラルネットワークモデル４００００の形態を実現して演算を実行し得る。例えば、人工ニューラルネットワークモデル４００００は、入力映像を受信し、入力映像に含まれている対象の少なくとも一部に関する情報を出力し得る。

【0279】

人工ニューラルネットワークモデル４００００は、多層のノードとそれらの間の連結で構成される多層パーセプトロン（ＭＬＰ：multilayer perceptron）で実現される。本実施例による人工ニューラルネットワークモデル４００００は、ＭＬＰを含む様々な人工ニューラルネットワークモデル構造の１つを利用して実現され得る。図２５に示すように、人工ニューラルネットワークモデル４００００は、外部から入力信号またはデータ４０１００を受信する入力層４１０００と、入力データに対応する出力信号またはデータ４０２００を出力する出力層４４０００と、入力層４１０００と出力層４４０００との間に位置し、入力層４１０００から信号を受信し特性を抽出して出力層４４０００に伝達するｎ個（ここで、ｎは正の整数）の隠れ層４２０００～４３０００とで構成される。ここで、出力層４４０００は、隠れ層４２０００～４３０００から信号を受信して外部に出力する。

【0280】

人工ニューラルネットワークモデル４００００の学習方法には、教師信号（正解）の入力によって問題の解決に最適化するよう学習する指導学習(Supervised Learning)方法と、教師信号を必要としない非指導学習(Unsupervised Learning)方法とがある。

【0281】

ニューラルプロセッシング装置は、人工ニューラルネットワークモデル４００００を学習させるための学習データをシミュレーションにより直接生成し得る。このように、人工ニューラルネットワークモデル４００００の入力層４１０００と出力層４４０００とに、複数の入力変数と対応する複数の出力変数がそれぞれマッチングされ、入力層４１０００、隠れ層（４２０００～４３０００）および出力層４４０００に含まれているノード間のシナプス値が調整されることにより、特定の入力に対応する正しい出力が抽出されるように学習され得る。このような学習過程により、人工ニューラルネットワークモデル４００００の入力変数に隠されている特性を把握することができ、入力変数に基づいて計算された出力変数と目標出力との間の誤差が減らされるように、人工ニューラルネットワークモデル４００００のノード間のシナプス値（またはウェイト）を調整し得る。

【0282】

図２６は、本発明のいくつかの実施例によるニューラルプロセッシング装置のニューラルネットワークの学習および推論動作を説明するための概念図である。

【0283】

図２６を参照すると、学習過程(Training Phase)では、多数の学習資料ＴＤが人工ニューラルネットワークモデルＮＮにフォワードされ、再びバックワードされる過程を経ることができる。これにより、人工ニューラルネットワークモデルＮＮの各ノードのウェイトとバイアスとが調整され、それにより、ますますより正確な結果を導き出せるように学習が実行され得る。このように、学習過程により人工ニューラルネットワークモデルＮＮは、学習されたニューラルネットワークモデルＮＮ＿Ｔに変換され得る。

【0284】

推論過程(Inference Phase)では、新しいデータＮＤがさらに学習されたニューラルネットワークモデルＮＮ＿Ｔに入力され得る。学習されたニューラルネットワークモデルＮＮ＿Ｔは、新しいデータＮＤを入力として、すでに学習されたウェイトとバイアスとによって結果データＲＤを導出し得る。このような結果データＲＤは、学習過程でどのような学習資料ＴＤで学習したかと、どれほど多い学習資料ＴＤを利用したかとが重要であり得る。

【0285】

以下、図１７、図１９、図２０、図２７、および図２８を参照して、本発明のいくつかの実施例によるニューラルプロセッシング装置の同期化方法を説明する。前述の実施例と重複する部分は、簡略化または省略する。

【0286】

図２７は、本発明のいくつかの実施例によるニューラルプロセッシング装置の同期化方法を説明するためのフローチャートであり、図２８は、図２７におけるＬ３シンクターゲット保存段階およびＦＩＦＯ方式で提供段階を詳細に説明するためのフローチャートである。

【0287】

図２７を参照すると、第１ニューラルプロセッサが、Ｌ３シンクターゲットを生成する（Ｓ１００）。

【0288】

具体的に、図１７を参照すると、Ｌ３シンクターゲットＳｍ＿Ｖは、同期化信号を送るニューラルプロセッサのそれぞれが生成した信号であり得る。つまり、Ｌ３シンクターゲットＳｍ＿Ｖは、例えば、４つのフィールドを含み得る。これは、同じセットに４つのニューラルプロセッサがあると言うことに起因し得る。Ｌ３シンクターゲットＳｍ＿Ｖの各々のフィールドは、第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）に対応し得る。すなわち、Ｌ３シンクターゲットＳｍ＿Ｖに１、０、１、１が記載された場合、第１～第４仮想ＩＤ（ＶＰ０～ＶＰ３）には、逆順で１、１、０、１がそれぞれ対応され得る。

【0289】

再び、図２７を参照すると、Ｌ３シンクターゲットとＶＰＩＤテーブルとを用いて、受信対象である第２ニューラルプロセッサを識別する（Ｓ２００）。

【0290】

具体的に、図１７を参照すると、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号を送るべきニューラルプロセッサは、Ｌ３シンクターゲットＳｍ＿Ｖによって、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号が伝達されるべきニューラルプロセッサの仮想ＩＤが、第１、第２および第４仮想ＩＤ（ＶＰ０、ＶＰ１、ＶＰ３）で識別された後は、ＶＰＩＤテーブル（ＴＢ＿ＶＴＰ）により該当するニューラルプロセッサの物理ＩＤを確認し得る。ニューラルプロセッサは、物理ＩＤを確認してこそ、実際のアドレスを確認でき得る。

【0291】

ＶＰＩＤテーブルＴＢ＿ＶＴＰが、３、０、１、２の値を持っているので、第１、第２および第４仮想ＩＤ（ＶＰ０、ＶＰ１、ＶＰ３）の物理ＩＤが、それぞれ２、１、３であることが分かる。すなわち、第２～第４ニューラルプロセッサＰＰ１～ＰＰ３が、Ｌ３シンクターゲットＳｍ＿Ｖによる同期化信号を受信するニューラルプロセッサであり得る。

【0292】

再び、図２７を参照すると、Ｌ３シンクチャネルを介して、第２ニューラルプロセッサのセマフォメモリに、Ｌ３シンクターゲットによる同期化信号を保存させる（Ｓ３００）。

【0293】

具体的に、図１９を参照すると、第１セマフォメモリｓｍｐ１は、第１～第４フィールドを含み、第１～第４フィールドは、それぞれ第１～第４ニューラルプロセッサＰＰ０～ＰＰ３に対応し得る。すなわち、第１～第４フィールドは、第１～第４ニューラルプロセッサＰＰ０～ＰＰ３の物理ＩＤと同順で整列され得る。

【0294】

【0295】

再び図２７を参照すると、セマフォメモリの値をＦＩＦＯ方式で、第２ニューラルプロセッサに提供する（Ｓ４００）。

【0296】

具体的に、図２０を参照すると、本発明のいくつかの実施例によるニューラルプロセッシング装置は、第１～第４フィールドにそれぞれ対応する第１～第４ＦＩＦＯバッファーＢ１～Ｂ４を含み得る。第１～第４ＦＩＦＯバッファーは、ＦＩＦＯ方式で第１セマフォメモリｓｍｐ１の第１～第４フィールドの値を、それぞれ第１ニューラルプロセッサ１０００に提供し得る。

【0297】

図２８を参照して、段階Ｓ３００と段階Ｓ４００を詳細に説明する。
第２ニューラルプロセッサのセマフォメモリの第１フィールドに、第１ニューラルプロセッサのＬ１シンクターゲットによる同期化信号を保存し（Ｓ３１０）、セマフォメモリの第１フィールド値をＦＩＦＯ方式で第２ニューラルプロセッサに提供する（Ｓ４１０）。

【0298】

同様に、第２ニューラルプロセッサのセマフォメモリの第２フィールドに、第２ニューラルプロセッサのＬ１シンクターゲットによる同期化信号を保存し（Ｓ３２０）、セマフォメモリの第２フィールド値をＦＩＦＯ方式で第２ニューラルプロセッサに提供する（Ｓ４２０）。

【0299】

第２ニューラルプロセッサのセマフォメモリの第３フィールドに第３ニューラルプロセッサのＬ１シンクターゲットによる同期化信号を保存し（Ｓ３３０）、セマフォメモリの第３フィールド値をＦＩＦＯ方式で第２ニューラルプロセッサに提供する（Ｓ４３０）。

【0300】

第２ニューラルプロセッサのセマフォメモリの第４フィールドに、第４ニューラルプロセッサのＬ１シンクターゲットによる同期化信号を保存し（Ｓ３４０）、セマフォメモリの第４フィールド値をＦＩＦＯ方式で第２ニューラルプロセッサに提供する（Ｓ４４０）。

【0301】

すなわち、各々のフィールドは、それぞれのニューラルプロセッサに対応し、並列的にＦＩＦＯ形式で同期化が行われ得る。

【0302】

再び、図２７を参照すると、第２ニューラルプロセッサが、Ｌ３シンクターゲットにより同期化を実行する（Ｓ５００）。

【0303】

以下、図２１、図２２、図２９、および図３０を参照して、本発明のいくつかの実施例によるニューラルプロセッシング装置の同期化方法を説明する。前述の実施例と重複する部分は、簡略化または省略する。

【0304】

図２９は、本発明のいくつかの実施例によるニューラルプロセッシング装置のＬ１およびＬ２レベルの同期化方法を説明するためのフローチャートであり、図３０は、図２９におけるデータ要求段階を詳細に説明するためのフローチャートである。

【0305】

図２９を参照すると、第１ニューラルコアのローカルメモリにデータが保存される（Ｓ１１００）。次いで、第１ニューラルコア内で、ローカルメモリストアユニットが、Ｌ１シンクターゲットによる同期化信号をニューラルコアストアユニットに伝送する（Ｓ１２００）。

【0306】

具体的に、図２１および図２２を参照すると、第２ローカルメモリストアユニット（１１１ｄ）が、第２ローカルメモリ１２０ｂにデータを保存する（Ｓ１２、丸１）。次いで、第２ローカルメモリストアユニット１１１ｄは、第２ニューラルコアストアユニット１１２ｄにＬ１シンク生成信号を伝送する（Ｓ１３、丸２）。この際、Ｌ１シンク生成信号は、Ｌ１シンクパス（L1 Sync Path）を介して伝送され得る。これにより、第２ニューラルコアストアユニット１１２ｄのＬ１シンク要求信号が同期化され得る。

【0307】

再び、図２９を参照すると、第１ニューラルコアのニューラルコアストアユニットが、第２～第４ニューラルコアそれぞれのニューラルコアロードユニットに、Ｌ２シンクターゲットによる同期化信号を伝送する（Ｓ１３００）。

【0308】

具体的に、図２１および図２２を参照すると、続けて、第２ニューラルコアストアユニット１１２ｄが、第１ニューラルコア１００ａの第１ニューラルコアロードユニット１１２ａ、第３ニューラルコア１００ｃの第３ニューラルコアロードユニット１１２ｅおよび第４ニューラルコア１００ｄの第４ニューラルコアロードユニット（１１２ｆ）に、センドＬ２シンクをブロードキャストし得る（Ｓ１４、Ｓ１５、Ｓ１６、丸３）。この際、センドＬ２シンクは、Ｌ２シンクパス３００を介して伝送され得る。

【0309】

再び、図２９を参照すると、第２～第４ニューラルコアロードユニットが、ローカルインターコネクションを介して第１ニューラルコアのローカルメモリにデータを要求する（Ｓ１４００）。

【0310】

具体的に図３０を参照すると、第２ニューラルコアが、Ｌ２シンクターゲットによる同期化信号を受信し（Ｓ１４１０）、レシーブＬ２シンク信号が既に生成されているかを判断する（Ｓ１４２０）。もし、そうでなければ、レシーブＬ２シンク信号生成を待機し（Ｓ１４３０）、もし、そうであれば、第２ニューラルコアが、第１ニューラルコアのローカルメモリにデータを要求する（Ｓ１４４０）。

【0311】

再び、図２９を参照すると、第２～第４ニューラルコアロードユニットがデータを受信する（Ｓ１５００）。

【0312】

以上の説明は、本実施例の技術思想を例示的に説明したものに過ぎず、本実施例が属する技術分野において通常の知識を有する者であれば、本実施例の本質的な特性から逸脱しない範囲で、様々な修正および変形が可能なことである。したがって、本実施例は、本実施例の技術思想を限定するためのものではなく、説明するためのものであり、このような実施例によって本実施例の技術思想の範囲が限定されるものではない。本実施例の保護範囲は、以下の特許請求の範囲によって解釈されるべきであり、それと同等の範囲内にあるすべての技術思想は、本実施例の権利範囲に含まれるものと解釈されるべきである。

【図1】