2024-538829 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-538829人工知能コア、人工知能コアシステムおよび人工知能コアシステムのロード／ストア方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

<図1>

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-23

(54)【発明の名称】人工知能コア、人工知能コアシステムおよび人工知能コアシステムのロード／ストア方法

(51)【国際特許分類】

G06F 9/34 20180101AFI20241016BHJP

G06F 17/16 20060101ALI20241016BHJP

【ＦＩ】

G06F9/34 380

G06F9/34 350Z

G06F17/16 B

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024525891

(86)(22)【出願日】2021-12-30

(85)【翻訳文提出日】2024-05-01

(86)【国際出願番号】 KR2021020260

(87)【国際公開番号】W WO2023080333

(87)【国際公開日】2023-05-11

(31)【優先権主張番号】10-2021-0149224

(32)【優先日】2021-11-02

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

(71)【出願人】

【識別番号】522431896

【氏名又は名称】リベリオンズインコーポレイテッド

【氏名又は名称原語表記】ＲＥＢＥＬＬＩＯＮＳＩＮＣ．

(74)【代理人】

【識別番号】100121728

【弁理士】

【氏名又は名称】井関勝守

(74)【代理人】

【識別番号】100165803

【弁理士】

【氏名又は名称】金子修平

(74)【代理人】

【識別番号】100179648

【弁理士】

【氏名又は名称】田中咲江

(74)【代理人】

【識別番号】100222885

【弁理士】

【氏名又は名称】早川康

(74)【代理人】

【識別番号】100140338

【弁理士】

【氏名又は名称】竹内直樹

(74)【代理人】

【識別番号】100227695

【弁理士】

【氏名又は名称】有川智章

(74)【代理人】

【識別番号】100170896

【弁理士】

【氏名又は名称】寺薗健一

(74)【代理人】

【識別番号】100219313

【弁理士】

【氏名又は名称】米口麻子

(74)【代理人】

【識別番号】100161610

【弁理士】

【氏名又は名称】藤野香子

(74)【代理人】

【識別番号】100206586

【弁理士】

【氏名又は名称】市田哲

(72)【発明者】

【氏名】オジンウク

(72)【発明者】

【氏名】キムジンソク

(72)【発明者】

【氏名】キムドンハン

(72)【発明者】

【氏名】ボンギョルリョル

【テーマコード（参考）】

5B033

5B056

【Ｆターム（参考）】

5B033AA04

5B033DB03

5B056AA04

5B056BB31

5B056FF05

(57)【要約】

本発明は、人工知能コア、人工知能コアシステムおよび人工知能コアシステムのロード／ストア方法に関するものである。
該人工知能コアは、入力アクティベーションと加重値とを受信して、２次元マトリックス演算により出力アクティベーションを生成するプロセスユニットと；外部インタフェイスを介して受信したプログラムおよび入力データをオンチップバッファに伝達し、出力データを前記オンチップバッファから外部インタフェイスに伝達するロード/ストア作業を実行し、ロード/ストア作業は、プロセスユニットが実行する現在実行作業に対するメインロード/ストア作業と、プロセスユニットが現在実行作業後に実行する待機実行作業に対する待機ロード/ストア作業とを含むロード/ストアユニットと；を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力アクティベーションと加重値（weight）とを受信して、２次元マトリックス演算により出力アクティベーションを生成するプロセスユニットと、
外部インタフェイスを介して受信したプログラムおよび入力データをオンチップバッファに伝達し、出力データを前記オンチップバッファから前記外部インタフェイスに伝達するロード/ストア作業を実行し、前記ロード/ストア作業が、前記プロセスユニットが実行する現在実行作業に対するメインロード/ストア作業と、前記プロセスユニットが前記現在実行作業後に実行する待機実行作業に対する待機ロード/ストア作業とを含むロード/ストアユニットと、を有する、人工知能コア。

【請求項2】

前記入力アクティベーションを前記プロセスユニットに提供し、前記プロセスユニットから前記出力アクティベーションを受信し、前記入力アクティベーションおよび前記出力アクティベーションを一時的に保存するアクティベーションバッファと、
前記プロセスユニットが演算を行うためのプログラムおよび入力データを一時的に保存して前記プロセスユニットに伝達し、前記プロセスユニットから受信した出力データを一時的に保存し、前記入力データが前記入力アクティベーションおよび前記加重値を含むオンチップバッファと、
前記オンチップバッファから前記入力アクティベーションを前記アクティベーションバッファに伝達し、前記アクティベーションバッファから前記出力アクティベーションを前記オンチップバッファに伝達するアクティベーションロード／ストアユニットと、を含む、
請求項１に記載の人工知能コア。

【請求項3】

前記待機ロード／ストア作業は、前記外部インタフェイスの帯域幅のうち、前記メインロード／ストア作業によって使用されない帯域幅を使用して行われる、
請求項１に記載の人工知能コア。

【請求項4】

前記ロード／ストアユニットは、
前記メインロード／ストア作業を実行し、前記オンチップバッファに第１ロードデータおよび第１ストアデータを伝送するメインロード／ストアユニットと、
前記待機ロード／ストア作業を実行し、前記オンチップバッファに第２ロードデータおよび第２ストアデータを伝送するヒドゥンロード／ストアユニットとを含む、
請求項１に記載の人工知能コア。

【請求項5】

前記ヒドゥンロード／ストアユニットは、
タスクコントローラから受信した待機ロード命令をフェッチして、待機ロード命令発行を実行するヒドゥンロードユニットと、
前記タスクコントローラから受信した待機ストア命令をフェッチして、待機ストア命令発行を実行するヒドゥンストアユニットと、
前記ヒドゥンロードユニットから前記ロード命令に対応するメモリアクセス要求を順次受信するヒドゥンロードバッファと、
前記ヒドゥンストアユニットから前記ストア命令に対応するメモリアクセス要求を順次受信するヒドゥンストアバッファと、
前記ヒドゥンロードバッファからメモリアクセス要求を受信して、前記第２ロードデータを前記オンチップバッファに伝達するヒドゥンロードエンジンと、
前記ヒドゥンストアバッファからメモリアクセス要求を受信して、前記第２ストアデータを前記オンチップバッファに伝達するヒドゥンストアエンジンと、を含む、
請求項４に記載の人工知能コア。

【請求項6】

前記ロード／ストアユニットは、最近使用された仮想メモリアドレスと物理メモリアドレスとの変換テーブルを保存する変換インデックスバッファをさらに含む、
請求項５に記載の人工知能コア。

【請求項7】

前記メインロード／ストアユニットは、
ロード命令をフェッチして、ロード命令発行を実行するロードユニットと、
ストア命令をフェッチして、ストア命令発行を実行するストアユニットと、
前記ロードユニットから、メモリアクセス要求を順次受信するロードバッファと、
前記ストアユニットから、メモリアクセス要求を順次受信するストアバッファと、
前記ロードバッファからメモリアクセス要求を受信して、第１ロードデータを前記オンチップバッファに伝達するロードエンジンと、
前記ストアバッファからメモリアクセス要求を受信して、第１ストアデータを前記オンチップバッファに伝達するストアエンジンと、を含む、
請求項４に記載の人工知能コア。

【請求項8】

前記第１ロードデータは、前記第２ロードデータよりも優先順位が高く、
前記第１ストアデータは、前記第２ストアデータより優先順位が高い、
請求項４に記載の人工知能コア。

【請求項9】

前記優先順位は、前記第１ロードデータおよび第２ロードデータと、前記第１ストアデータおよび第２ストアデータにタグ付けされる、
請求項８に記載の人工知能コア。

【請求項10】

前記優先順位は、前記ロードエンジンまたは前記ストアエンジンによってタグ付けされる、
請求項９に記載の人工知能コア。

【請求項11】

前記ロード／ストアユニットは、前記第１ロードデータおよび第２ロードデータと、前記第１ストアデータおよび第２ストアデータとを受信して、ラウンドロビン方式で前記オンチップバッファに伝達するアービターをさらに含む、
請求項４に記載の人工知能コア。

【請求項12】

前記オンチップバッファは複数のバンクを含み、
単位クロックサイクル当りの、前記第１ロードデータ、前記第２ロードデータ、前記第１ストアデータ、および前記第２ストアデータの入力数を、前記オンチップバッファのバンクの数で除した値は、前記アービターの基準入出力比よりも小さく、
前記基準入出力比は、前記アービターによって前記第１ロードデータ、前記第２ロードデータ、前記第１ストアデータ、および前記第２ストアデータそれぞれの待機時間が発生しない範囲で最も大きい入力と出力との比の値である、
請求項１１に記載の人工知能コア。

【請求項13】

前記ヒドゥンロード／ストアユニットと、前記メインロード／ストアユニットとは、互いに少なくとも一部のハードウェアを共有する、
請求項４に記載の人工知能コア。

【請求項14】

前記ヒドゥンロード／ストアユニットと、前記メインロード／ストアユニットとは、互いに異なるハードウェアで実現される、
請求項４に記載の人工知能コア。

【請求項15】

前記プロセスユニットは、
前記入力アクティベーションと前記加重値とを順次乗算する２次元マトリクス演算を実行し、前記出力アクティベーションを生成するＰＥアレイ（processing element array）と、
１次元演算を実行するベクトルユニットとを含む、
請求項１に記載の人工知能コア。

【請求項16】

前記外部インタフェイスは、データバス、外部チップインタフェイスまたはローカルバスのうちいずれか１つを含む、
請求項１に記載の人工知能コア。

【請求項17】

演算を行うためのプログラムおよび入力データを保存するメモリと、
前記メモリから前記入力データおよび制御信号を伝達するバスと、
前記プログラム、前記入力データおよび前記制御信号を受信して２次元マトリクス演算を実行し、出力データを生成する人工知能コアと、を含み、
前記人工知能コアは、
前記メモリから前記プログラムおよび前記入力データをロードし、前記出力データを前記メモリに保存するロード／ストアユニットと、
前記プログラムおよび前記入力データを用いて演算を実行するプロセスユニットと、
前記プロセスユニットと前記ロード／ストアユニットとの間で、前記プログラム、前記入力データおよび前記出力データを一時的に保存するオンチップバッファとを含み、
前記バスは、前記制御信号を伝達するコントロールバスと、前記入力データおよび前記出力データを伝達するデータバスとを含み、
前記ロード／ストアユニットは、前記プロセスユニットが現在実行する現在実行作業に対するメインロード／ストア作業と、前記プロセスユニットが前記現在実行作業後に実行する待機実行作業に対する待機ロード／ストア作業とを実行し、前記待機ロード／ストア作業は、前記データバスの帯域幅のうち、前記メインロード／ストア作業によって使用されない帯域幅を使用して実行される、
人工知能コアシステム。

【請求項18】

前記メモリは、前記人工知能コアと同一のチップ内に形成されたオンチップメモリと、
前記人工知能コアとは分離して形成されたオフチップメモリとを含む、
請求項１７に記載の人工知能コアシステム。

【請求項19】

前記人工知能コアは、第１人工知能コアであり、
前記第１人工知能コアとは異なる第２人工知能コアをさらに含み、
前記バスは、前記第１人工知能コアおよび第２人工知能コア間で、前記入力データおよび前記出力データを伝達するローカルバスをさらに含み、
前記ロード／ストアユニットは、前記ローカルバスの帯域幅のうち、前記メインロード／ストア作業によって使用されない帯域幅を使用して前記待機ロード／ストア作業を実行する、
請求項１７に記載の人工知能コアシステム。

【請求項20】

前記ロード／ストアユニットは、
前記メインロード／ストア作業を実行するメインロード／ストアユニットと、
前記待機ロード／ストア作業を実行するヒドゥンロード／ストアユニットとを含み、
前記待機ロード／ストア作業は、前記メインロード／ストア作業に比べて低い優先順位を有する、
請求項１７に記載の人工知能コアシステム。

【請求項21】

前記優先順位は、タグ付けされた形態で識別される、
請求項２０に記載の人工知能コアシステム。

【請求項22】

前記人工知能コアは、
前記プロセスユニットに入力アクティベーションを提供し、前記プロセスユニットから出力アクティベーションを受信するアクティベーションバッファと、
前記オンチップバッファから前記入力アクティベーションを呼び出して前記アクティベーションバッファに伝達し、前記アクティベーションバッファから前記出力アクティベーションを前記オンチップバッファに伝達するアクティベーションロード／ストアユニットとをさらに含む、
請求項１７に記載の人工知能コアシステム。

【請求項23】

メインロード／ストアユニットが、第１作業に対する第１プログラムをロードし、
前記第１プログラムを用いて第１作業を実行し、
前記第１作業中に前記メインロード／ストアユニットが動作しないと、ヒドゥンロード／ストアユニットが、前記第１作業後に実行待機となっている第２作業に対する第２プログラムをロードし、
前記第１作業および前記第２プログラムのロード作業が終了すると、前記第２プログラムを用いて第２作業を実行することを含む、
人工知能コアシステムのロード／ストア方法。

【請求項24】

前記第２プログラムをロードすることは、
前記第２プログラムに対する待機ロード命令をフェッチし、
前記フェッチされた待機ロード命令を発行し、
前記発行された待機ロード命令に対応するメモリアクセス要求をヒドゥンロードバッファに伝送し、
前記メモリアクセス要求を前記ヒドゥンロードバッファが順次ロードエンジンに伝送し、
前記ロードエンジンは、前記メモリアクセス要求に応じて、データバスを介してオフチップメモリから第２ロードデータを受信し、
前記第２ロードデータをオンチップバッファに伝達することを含む、
請求項２３に記載の人工知能コアシステムのロード／ストア方法。

【請求項25】

前記第１プログラムをロードすることは、
前記第１プログラムに対するロード命令をフェッチし、
前記フェッチされたロード命令を発行し、
前記発行されたロード命令に対応するメモリアクセス要求をロードバッファに伝送し、
前記メモリアクセス要求を前記ロードバッファが順次ロードエンジンに伝送し、
前記ロードエンジンは、前記メモリアクセス要求に応じて、データバスを介してオフチップメモリから第１ロードデータを受信し、
前記第１ロードデータをオンチップバッファに伝達することを含む、
請求項２４に記載の人工知能コアシステムのロード／ストア方法。

【請求項26】

前記第１ロードデータは、前記第２ロードデータよりも優先順位が高い、
請求項２５に記載の人工知能コアシステムのロード／ストア方法。

【請求項27】

メインロード／ストアユニットが、第１作業に対する第１データのロード作業を実行し、
前記第１データを用いて第１作業を実行し、
前記第１作業中に前記メインロード／ストアユニットが動作しないことを確認すると、ヒドゥンロード／ストアユニットが、前記第１作業後に実行待機となっている第２作業に対する第２データのロード作業を実行し、
前記第１作業および前記第２データのロード作業が終了すると、前記第２データを用いて第２作業を実行することを含む、
人工知能コアシステムのロード／ストア方法。

【請求項28】

前記第１作業は、ニューラルネットワークにおける第１レイヤーのマトリックス演算作業であり、
前記第２作業は、ニューラルネットワークにおける第２レイヤーのマトリックス演算作業であり、
前記第２データは、前記第２レイヤーのカーネルデータである、
請求項２７に記載の人工知能コアシステムのロード／ストア方法。

【請求項29】

前記第１データは、入力アクティベーションを含み、
前記第１作業を行うことは、
前記入力アクティベーションをアクティベーションバッファに保存し、
プロセスユニットが、前記アクティベーションバッファから前記入力アクティベーションを受信して、出力アクティベーションを生成し、
前記アクティベーションバッファが、前記出力アクティベーションを保存することを含む、
請求項２７に記載の人工知能コアシステムのロード／ストア方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、人工知能コア、人工知能コアシステムおよび人工知能コアシステムのロード/ストア方法に関するものである。具体的に、本発明は、人工知能コアを最大限に活用するための人工知能コア、人工知能コアシステムおよび人工知能コアシステムのロード/ストア方法に関するものである。

【背景技術】

【0002】

ここ数年、人工知能(Artificial Intelligence)技術は、第４次産業革命の中核技術として、世界的に最も有望な技術として注目されている。このような人工知能技術の最も大きな問題は、コンピューティング性能である。人間の学習能力と推論能力、知覚能力、自然言語の処理能力などを実現する人工知能技術は、多くのデータを迅速に処理することが最も重要である。

【0003】

初期人工知能のディープラーニング学習と推論には、従来のコンピュータの中央処理装置(ＣＰＵ；Central processing unit)やグラフィック処理装置(ＧＰＵ；Graphics Processing Unit)が使われていたが、高いワークロードを有するディープラーニング学習および推論の作業には限界があるため、構造的にディープラーニング作業に特化した人工知能コアが脚光を浴びている。

【0004】

人工知能コアは、内部に多数の乗算器を含んでおり、このような演算装置の演算作業のために、必要なデータとプログラムを呼び出してくるための帯域幅（bandwidth）が十分に確保されることは難しい。

【0005】

したがって、予め時系列的に次の作業に必要なプログラムおよびデータを呼び出してくる方法により、人工知能コアの性能を向上させることは非常に良い方法であり得る。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】韓国登録特許第１０－２２５８５６６号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明の課題は、効率良く最大化し得る人工知能コアを提供することである。

【0008】

また、本発明の他の課題は、外部インタフェイスとの帯域幅を効率良く最大化し得る人工知能コアシステムを提供することである。

【0009】

本発明のまた他の課題は、外部インタフェイスとの帯域幅を効率良く最大化し得る人工知能コアシステムのロード/ストア方法を提供することである。

【0010】

本発明の目的は、前記で述べた目的に限定されず、言及されていない本発明の他の目的および利点は、以下の説明によって理解されることができ、本発明の実施例によってより明確に理解されることである。また、本発明の目的および利点は、特許請求の範囲に示した手段およびその組み合わせにより実現できることが容易に分かることである。

【課題を解決するための手段】

【0011】

前記課題を解決するための本発明のいくつかの実施例による人工知能コアは、入力アクティベーションおよび加重値（weight）を受信して、２次元マトリックス演算により出力アクティベーションを生成するプロセスユニットと、外部インタフェイスを介して受信したプログラムおよび入力データをオンチップバッファに伝達し、出力データを前記オンチップバッファから前記外部インタフェイスに伝達するロード/ストア作業を実行し、前記ロード/ストア作業は、前記プロセスユニットが現在実行する現在実行作業に対するメインロード/ストア作業と、前記プロセスユニットが前記現在実行作業後に実行する待機実行作業に対する待機ロード/ストア作業とを含むロード/ストアユニットとを有する。

【0012】

また、前記入力アクティベーションを前記プロセスユニットに提供し、前記出力アクティベーションを前記プロセスユニットから受信し、前記入力アクティベーションおよび前記出力アクティベーションを一時的に保存するアクティベーションバッファと、前記プロセスユニットが演算を行うためのプログラムおよび入力データを一時的に保存して前記プロセスユニットに伝達し、前記プロセスユニットから受信した出力データを一時的に保存し、前記入力データは、前記入力アクティベーションおよび前記加重値を含むオンチップバッファと、前記オンチップバッファから前記入力アクティベーションを前記アクティベーションバッファに伝達し、前記アクティベーションバッファから前記出力アクティベーションを前記オンチップバッファに伝達するアクティベーションロード／ストアユニットとを含み得る。

【0013】

また、前記待機ロード／ストア作業は、前記外部インタフェイスの帯域幅のうち、前記メインロード／ストア作業によって使用されない帯域幅を使用して行われ得る。

【0014】

また、前記ロード／ストアユニットは、前記メインロード／ストア作業を実行し、前記オンチップバッファに第１ロードデータおよび第１ストアデータを伝送するメインロード／ストアユニットと、前記待機ロード／ストア作業を実行し、前記オンチップバッファに第２ロードデータおよび第２ストアデータを伝送するヒドゥンロード／ストアユニットとを含み得る。

【0015】

また、前記ヒドゥンロード／ストアユニットは、タスクコントローラから受信した待機ロード命令（instruction）をフェッチして、待機ロード命令発行（instruction issue）を実行するヒドゥンロードユニットと、前記タスクコントローラから受信した待機ストア命令をフェッチして、待機ストア命令発行を実行するヒドゥンストアユニットと、前記ヒドゥンロードユニットから前記ロード命令に対応するメモリアクセス要求を順次受信するヒドゥンロードバッファと、前記ヒドゥンストアユニットから前記ストア命令に対応するメモリアクセス要求を順次受信するヒドゥンストアバッファと、前記ヒドゥンロードバッファからメモリアクセス要求を受信して前記第２ロードデータを前記オンチップバッファに伝達するヒドゥンロードエンジンと、前記ヒドゥンストアバッファからメモリアクセス要求を受信して前記第２ストアデータを前記オンチップバッファに伝達するヒドゥンストアエンジンと、を含み得る。

【0016】

また、前記ロード／ストアユニットは、最近使用された仮想メモリアドレスと物理メモリアドレスとの変換テーブルを保存する変換インデックスバッファをさらに含み得る。

【0017】

また、前記メインロード／ストアユニットは、ロード命令をフェッチしてロード命令発行を実行するロードユニットと、ストア命令をフェッチしてストア命令発行を実行するストアユニットと、前記ロードユニットからメモリアクセス要求を順次受信するロードバッファと、前記ストアユニットからメモリアクセス要求を順次受信するストアバッファと、前記ロードバッファからメモリアクセス要求を受信して第１ロードデータを前記オンチップバッファに伝達するロードエンジンと、前記ストアバッファからメモリアクセス要求を受信して第１ストアデータを前記オンチップバッファに伝達するストアエンジンと、を含み得る。

【0018】

また、前記第１ロードデータは、前記第２ロードデータよりも優先順位が高く、前記第１ストアデータは、前記第２ストアデータよりも優先順位が高くあり得る。

【0019】

また、前記優先順位は、前記第１および第２ロードデータと、前記第１および第２ストアデータにタグ付けされ得る。

【0020】

また、前記優先順位は、前記ロードエンジンまたは前記ストアエンジンによってタグ付けされ得る。

【0021】

また、前記ロード／ストアユニットは、前記第１および第２ロードデータと、前記第１および第２ストアデータとを受信して、ラウンドロビン方式で前記オンチップバッファに伝達するアービター（arbiter）をさらに含み得る。

【0022】

また、前記オンチップバッファは、複数のバンクを含み、単位クロックサイクル当たりの、前記第１ロードデータ、前記第２ロードデータ、前記第１ストアデータ、および前記第２ストアデータの入力数を前記オンチップバッファのバンクの数で除した値は、前記アービターの基準入出力比よりも小さく、前記基準入出力比は、前記アービターによって前記第１ロードデータ、前記第２ロードデータ、前記第１ストアデータ、および前記第２ストアデータそれぞれの待機時間が発生しない範囲で最も大きい入力と出力との比の値であり得る。

【0023】

また、前記ヒドゥンロード／ストアユニットと、前記メインロード／ストアユニットとは、互いに少なくとも一部のハードウェアを共有し得る。

【0024】

また、前記ヒドゥンロード／ストアユニットと、前記メインロード／ストアユニットとは、互いに異なるハードウェアで実現され得る。

【0025】

また、前記プロセスユニットは、前記入力アクティベーションと前記加重値とを順次乗じる２次元マトリクス演算を実行し、前記出力アクティベーションを生成するＰＥアレイと、１次元演算を実行するベクトルユニットと、を含み得る。

【0026】

また、前記外部インタフェイスは、データバス、外部チップインタフェイス、またはローカルバスのいずれか１つを含み得る。

【0027】

前記他の課題を解決するための本発明のいくつかの実施例による人工知能コアシステムは、演算を行うためのプログラムおよび入力データを保存するメモリと、前記メモリから前記入力データおよび制御信号を伝達するバスと、前記プログラム、前記入力データおよび前記制御信号を受信して２次元マトリクス演算を実行し、出力データを生成する人工知能コアを含み、前記人工知能コアは、前記メモリから前記プログラムおよび前記入力データをロードし、前記出力データを前記メモリに保存するロード／ストアユニットと、前記プログラムおよび前記入力データを用いて演算を実行するプロセスユニットと、前記プロセスユニットと前記ロード／ストアユニットとの間で前記プログラム、前記入力データおよび前記出力データを一時的に保存するオンチップバッファとを含み、前記バスは、前記制御信号を伝達するコントロールバスと、前記入力データおよび前記出力データを伝達するデータバスとを含み、前記ロード／ストアユニットは、前記プロセスユニットが現在実行する現在実行作業に対するメインロード／ストア作業と、前記プロセスユニットが前記現在実行作業後に実行する待機実行作業に対する待機ロード／ストア作業とを実行し、前記待機ロード／ストア作業は、前記データバスの帯域幅のうち前記メインロード／ストア作業によって使用されない帯域幅を使用して実行される。

【0028】

また、前記メモリは、前記人工知能コアと同じチップ内に形成されたオンチップメモリと、前記人工知能コアとは分離形成されたオフチップメモリと、を含み得る。

【0029】

また、前記人工知能コアは第１人工知能コアであり、前記第１人工知能コアとは異なる第２人工知能コアをさらに含み、前記バスは、前記第１および第２人工知能コアの間で前記入力データおよび前記出力データを伝達するローカルバスをさらに含み、前記ロード／ストアユニットは、前記ローカルバスの帯域幅のうち、前記メインロード／ストア作業によって使用されない帯域幅を使用して、前記待機ロード／ストア作業を実行し得る。

【0030】

また、前記ロード／ストアユニットは、前記メインロード／ストア作業を実行するメインロード／ストアユニットと、前記待機ロード／ストア作業を実行するヒドゥンロード／ストアユニットとを含み、前記待機ロード／ストア作業は、前記メインロード／ストア作業に比べて低い優先順位を有し得る。

【0031】

また、前記優先順位は、タグ付けされた形態で識別され得る。

【0032】

また、前記人工知能コアは、前記プロセスユニットに入力アクティベーションを提供し、前記プロセスユニットから出力アクティベーションを受信するアクティベーションバッファと、前記オンチップバッファから前記入力アクティベーションを呼び出して前記アクティベーションバッファに伝達し、前記アクティベーションバッファから前記出力アクティベーションを前記オンチップバッファに伝達する、アクティベーションロード／ストアユニットをさらに含み得る。

【0033】

前記また他の課題を解決するための本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法は、メインロード／ストアユニットが第１作業に対する第１プログラムをロードし、前記第１プログラムを用いて第１作業を実行し、前記第１作業中に前記メインロード／ストアユニットが動作しないことを確認すると、ヒドゥンロード／ストアユニットが、前記第１作業後に実行待機となっている第２作業に対する第２プログラムをロードし、前記第１作業および前記第２プログラムのロード作業が終了すると、前記第２プログラムを用いて第２作業を実行することを含む。

【0034】

また、前記第２プログラムをロードすることは、前記第２プログラムに対する待機ロード命令をフェッチし、前記フェッチされた待機ロード命令を発行し、前記発行された待機ロード命令に対応するメモリアクセス要求をヒドゥンロードバッファに伝送し、前記メモリアクセス要求を前記ヒドゥンロードバッファが順次ロードエンジンに伝送し、前記ロードエンジンは、前記メモリアクセス要求に応じて、データバスを介してオフチップメモリから第２ロードデータを受信し、前記第２ロードデータをオンチップバッファに伝達することを含み得る。

【0035】

また、前記第１プログラムをロードすることは、前記第１プログラムに対するロード命令をフェッチし、前記フェッチされたロード命令を発行し、前記発行されたロード命令に対応するメモリアクセス要求をロードバッファに伝送し、前記メモリアクセス要求を前記ロードバッファが順次ロードエンジンに伝送し、前記ロードエンジンは、前記メモリアクセス要求に応じて、データバスを介してオフチップメモリから第１ロードデータを受信し、前記第１ロードデータをオンチップバッファに伝達することを含み得る。

【0036】

また、前記第１ロードデータは、前記第２ロードデータよりも優先順位が高くあり得る。

【0037】

前記また他の課題を解決するための本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法は、メインロード／ストアユニットが第１作業に対する第１データのロード作業を実行し、前記第１データを用いて第１作業を実行し、前記第１作業中に前記メインロード／ストアユニットが動作しないことを確認すると、ヒドゥンロード／ストアユニットが前記第１作業後に実行待機となっている第２作業に対する第２データのロード作業を実行し、前記第１作業および前記第２データのロード作業が終了すると、前記第２データを用いて第２作業を実行することを含む。

【0038】

また、前記第１作業は、ニューラルネットワークの第１レイヤーのマトリックス演算作業であり、前記第２作業は、ニューラルネットワークの第２レイヤーのマトリックス演算作業であり、前記第２データは、前記第２レイヤーのカーネル（Kernel）データであり得る。

【0039】

また、前記第１データは、入力アクティベーションを含み、前記第１作業を実行することは、前記入力アクティベーションをアクティベーションバッファに保存し、プロセスユニットが前記アクティベーションバッファから前記入力アクティベーションを受信して出力アクティベーションを生成し、前記アクティベーションバッファが前記出力アクティベーションを保存することを含み得る。

【発明の効果】

【0040】

本発明の人工知能コア、人工知能コアシステムおよび人工知能コアシステムのロード/ストア方法は、人工知能コアと外部との接続インタフェイスの帯域幅を最適に活用して、次の作業のデータやプログラムを予めロードすることができる。

【0041】

また、次の作業に対するプログラムおよびデータのロード/ストア作業が、現在実行作業に対するプログラムおよびデータのロード/ストア作業の停滞を引き起こさないようにして、現在作業の遅延も遮断することができる。

【0042】

さらには、メインロード/ストアユニットとヒドゥンロード/ストアユニットとがハードウェアを共有して、ハードウェア活用の効率を最大化することができる。

【0043】

前述の内容とともに、本発明の具体的な効果は、以下で本発明を実施するための具体的な事項を説明しながら併せて記述する。

【図面の簡単な説明】

【0044】

【図1】図１は、本発明のいくつかの実施例による人工知能コアシステムを説明するためのブロック図である。

【図2】図２は、図１における人工知能コアの構造を詳細に説明するためのブロック図である。

【図3】図３は、図２におけるプロセスユニットの構造を詳細に説明するためのブロック図である。

【図4】図４は、プロセスユニットによって実行されるディープラーニング作業のニューラルネットワークの構造を説明するための概念図である。

【図5】図５は、図２におけるロード／ストアユニットの動作を説明するためのブロック図である。

【図6】図６は、図５におけるロード／ストアユニットの構造を詳細に説明するためのブロック図である。

【図7】図７は、本発明のいくつかの実施例による人工知能コアシステムのプログラムロード動作を時系列的に説明するためのタイミング図である。

【図8】図８は、本発明のいくつかの実施例による人工知能コアシステムのデータプリフェッチ動作を時系列的に説明するためのタイミング図である。

【図9】図９は、本発明のいくつかの実施例による人工知能コアのメインロード／ストアユニットを詳細に説明するためのブロック図である。

【図10】図１０は、本発明のいくつかの実施例による人工知能コアのヒドゥンロード／ストアユニットを詳細に説明するためのブロック図である。

【図11】図１１は、本発明のいくつかの実施例による人工知能コアシステムを説明するためのブロック図である。

【図12】図１２は、本発明のいくつかの実施例による人工知能コアシステムを説明するためのブロック図である。

【図13】図１３は、図１２における第１人工知能コアの構造および動作を詳細に説明するためのブロック図である。

【図14】図１４は、本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法を説明するためのフローチャートである。

【図15】図１５は、図１４における第１プログラムをロードする段階を詳細に説明するためのフローチャートである。

【図16】図１６は、図１４における第２プログラムをロードする段階を詳細に説明するためのフローチャートである。

【図17】図１７は、本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法を説明するためのフローチャートである。

【図18】図１８は、図１７における第１作業を行う段階を詳細に説明するためのフローチャートである。

【発明を実施するための形態】

【0045】

本明細書および特許請求の範囲に使用された用語や単語は、一般的または辞書的な意味に限定して解釈されてはならない。発明者が自身の発明を最善の方法で説明するために用語や単語の概念を定義し得るという原則に従って、本発明の技術的思想に合致する意味と概念として解釈されるべきである。また、本明細書に記載されている実施例と図面に示されている構成は、本発明が実現される一つの実施例に過ぎず、本発明の技術的思想を全て代弁するものではないので、本出願時点において、これらを代替し得る様々な均等物と変形および応用可能な例があり得ることを理解すべきである。

【0046】

本明細書および特許請求の範囲に使用される第１、第２、Ａ、Ｂなどの用語は、様々な構成要素を説明するために使用され得るが、前記構成要素は、前記用語によって限定されてはならない。前記用語は、一つの構成要素を他の構成要素と区別する目的でのみ使用される。例えば、本発明の権利範囲を逸脱することなく、第１構成要素は第２構成要素と命名されることができ、同様に第２構成要素も第１構成要素と命名され得る。「および／または」という用語は、複数の関連する記載項目の組み合わせ、または複数の関連する記載項目中のいずれかの項目を含む。

【0047】

本明細書および特許請求の範囲に使用される用語は、単に、特定の実施例を説明するために使用されるものであって、本発明を限定しようとする意図ではない。単数の表現は、文脈上明らかに異に意味しない限り、複数の表現を含む。本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはこれらの組み合わせの存在、または付加可能性を予め排除しないものと理解されるべきである。

【0048】

異に定義されない限り、技術的または科学的な用語を含め、ここに使用されるすべての用語は、本発明が属する技術分野において通常の知識を有する者によって一般的に理解されるのものと同じ意味を有する。

【0049】

一般的に使用される辞書に定義のもののような用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈されるべきであり、本出願で明確に定義しない限り、理想的または過度に形式的な意味に解釈されない。

【0050】

また、本発明の各実施例に含まれる各構成、過程、工程、または方法などは、技術的に相互矛盾しない範囲内で共有され得る。

【0051】

以下、図１～図８を参照して、本発明のいくつかの実施例による人工知能コアシステムを説明する。

【0052】

図１は、本発明のいくつかの実施例による人工知能コアシステムを説明するためのブロック図である。

【0053】

図１を参照すると、本発明のいくつかの実施例による人工知能コアシステムは、人工知能コア１００、メモリ２００および外部インタフェイス３００を含む。

【0054】

人工知能コア１００は、ディープラーニング演算作業のために特化したプロセスモジュールであり得る。人工知能コア１００は、別途の単一または複数のチップで実現されてもよく、システム上に結合されたＳｏＣ（System on Chip）の一部で実現されてもよい。人工知能コア１００は、畳み込み（convolution）演算、すなわち、行列乗算（matrix multiplication）に特化して、従来のＣＰＵやＧＰＵよりもはるかに効率的にディープラーニング学習および推論作業を実行し得る。人工知能コア１００は、ハードウェアとしてモジュールで実現され得る。

【0055】

メモリ２００は、人工知能コア１００に、外部インタフェイス３００を介してプログラム、入力データおよび制御信号を伝送し得る。また、メモリ２００は、人工知能コア１００から出力データを受信して保存し得る。

【0056】

メモリ２００は、オンチップメモリ（On-chip memory）２１０およびオフチップメモリ（Off-chip memory）２２０を含み得る。オンチップメモリ２１０は、例えば、人工知能コア１００のようなチップに形成されたＳＲＡＭ（Static Random Access Memory）であり得る。オンチップメモリ２１０は、複数のコアによって共有される共有メモリ（Shared memory）であり得る。ただし、本実施例がこれに限定されるものではない。

【0057】

オフチップメモリ２２０は、人工知能コア１００とは別に形成された外部メモリ（external memory）であり得る。オフチップメモリ２２０は、例えば、ＤＲＡＭ（Dynamic Random-Access Memory）、ＮＡＮＤフラッシュメモリ（NAND flash memory）、ＮＯＲフラッシュメモリ、および３Ｄクロスポイントメモリのうちの少なくとも一つを含み得る。ただし、本実施例がこれに限定されるものではない。

【0058】

メモリ２００は、外部インタフェイス３００を介して、人工知能コア１００にプログラムおよび入力データを提供し、外部インタフェイス３００を介して人工知能コア１００から出力データを受信して保存し得る。

【0059】

外部インタフェイス３００は、人工知能コア１００とメモリ２００との間のデータ交換を実行し得る。外部インタフェイス３００は、データだけでなく、プログラムや制御信号を移動させ得る。

【0060】

外部インタフェイス３００は、様々な形態で実現され得る。具体的には、人工知能コア１００がＳｏＣ形態で実現される場合、外部インタフェイス３００は、メインデータバスであり得る。または、人工知能コア１００が単一チップ形態で実現される場合、外部インタフェイス３００は、外部チップインタフェイスであり得る。

【0061】

図２は、図１における人工知能コアの構造を詳細に説明するためのブロック図である。

【0062】

図２を参照すると、人工知能コア１００は、プロセスユニット１１０、アクティベーションバッファ１２０、アクティベーションロード／ストアユニット１３０、オンチップバッファ１４０、およびロード／ストアユニット１５０を含み得る。

【0063】

プロセスユニット１１０は、演算を実行するモジュールであり得る。プロセスユニット１１０は、１次元演算だけでなく、２次元マトリックス演算、すなわち、畳み込み演算を実行し得る。プロセスユニット１１０は、入力アクティベーションＡｃｔ＿Ｉｎを受信して、加重値と乗算した後、これを加算して出力アクティベーションＡｃｔ＿Ｏｕｔを生成し得る。

【0064】

図３は、図２におけるプロセスユニットの構造を詳細に説明するためのブロック図である。

【0065】

図２および図３を参照すると、プロセスユニット１１０は、ＰＥアレイ１１１およびベクトルユニット１１２を含み得る。

【0066】

ＰＥアレイ１１１は、入力アクティベーションＡｃｔ＿Ｉｎを受信して、加重値とそれぞれ乗算を実行し得る。この際、入力アクティベーションＡｃｔ＿Ｉｎと加重値はマトリックスを構成し、畳み込みにより演算され得る。これにより、ＰＥアレイ１１１は、出力アクティベーションＡｃｔ＿Ｏｕｔを生成し得る。

【0067】

ＰＥアレイ１１１は、少なくとも１つの処理要素（processing element）１１１ａを含み得る。処理要素１１１ａは、互いに整列して、それぞれ１つの入力アクティベーションＡｃｔ＿Ｉｎと１つの加重値（weight）に対する乗算を実行し得る。

【0068】

ＰＥアレイ１１１は、それぞれの乗算に対する値を合計した部分和を生成し得る。このような部分和は、出力アクティベーションＡｃｔ＿Ｏｕｔとして活用され得る。ＰＥアレイ１１１は、２次元行列乗算を実行するので、２次元マトリクス演算ユニット（2D matrix compute unit）とも称され得る。

【0069】

ベクトルユニット１１２は、主に１次元演算を実行し得る。ベクトルユニット１１２は、ＰＥアレイ１１１とともにディープラーニング演算を実行し得る。これにより、プロセスユニット１１０は、必要な演算に特化し得る。つまり、人工知能コア１００は、大量の２次元行列乗算と１次元演算とを実行する演算モジュールがそれぞれあり、効率的にディープラーニング作業を実行し得る。

【0070】

図４は、プロセスユニットによって実行されるディープラーニング作業のニューラルネットワークの構造を説明するための概念図である。

【0071】

図４を参照すると、ＰＥアレイ１１１によって実現されるニューラルネットワークは、入力データが入力される入力ノードを含む入力レイヤーＩｎｐｕｔ１～ｋと、出力データを出力する出力ノードを含む出力レイヤーＯｕｔｐｕｔ１～ｉと、入力レイヤーと出力レイヤーとの間に配置されるＭ個のヒドゥンレイヤー（Hidden layer）を含み得る。

【0072】

ここで、各レイヤーのノードを連結するエッジ（Edge）には、加重値が設定され得る。このような加重値またはエッジの有無は、学習過程で追加、削除、またはアップデートされ得る。したがって、学習過程により、ｋ個の入力ノードとｉ個の出力ノードとの間に配置されるノードおよびエッジの加重値はアップデートされ得る。

【0073】

ニューラルネットワークが学習を実行する前には、すべてのノードとエッジとは、初期値に設定され得る。しかし、累積して情報が入力される場合、ノードおよびエッジの加重値は変更され、この過程で学習因子として入力されるパラメータと、出力ノードに割り当てられる値との間のマッチングが行われ得る。

【0074】

また、ニューラルネットワークを構成する入力ノードと出力ノードとの間のノードおよびエッジの加重値は、ニューラルネットワークの学習過程によってアップデートされ得る。

【0075】

再び、図２を参照すると、アクティベーションバッファ１２０は、プロセスユニット１１０に入力アクティベーションＡｃｔ＿Ｉｎを提供し、プロセスユニット１１０から出力アクティベーションＡｃｔ＿Ｏｕｔを受信し得る。アクティベーションバッファ１２０は、入力アクティベーションＡｃｔ＿Ｉｎと出力アクティベーションＡｃｔ＿Ｏｕｔとを一時的に保存し得る。

【0076】

入力アクティベーションＡｃｔ＿Ｉｎと出力アクティベーションＡｃｔ＿Ｏｕｔとは、ニューラルネットワークにおけるレイヤーの入力値と出力値とを意味し得る。この際、ニューラルネットワークのレイヤーが複数の場合、前のレイヤーの出力値が次のレイヤーの入力値となるので、前のレイヤーの出力アクティベーションＡｃｔ＿Ｏｕｔが、次のレイヤーの入力アクティベーションＡｃｔ＿Ｉｎとして活用され得る。

【0077】

アクティベーションバッファ１２０は、演算量の多いプロセスユニット１１０、特に、ＰＥアレイ１１１に迅速にアクティベーションを提供し、迅速にアクティベーションを受信して、人工知能コア１００の演算速度を高め得る。

【0078】

アクティベーションロード／ストアユニット１３０は、オンチップバッファ１４０から入力アクティベーションＡｃｔ＿Ｉｎをアクティベーションバッファ１２０に伝達し、アクティベーションバッファ１２０から出力アクティベーションＡｃｔ＿Ｏｕｔを前記オンチップバッファに伝達し得る。つまり、アクティベーションロード／ストアユニット１３０は、アクティベーションのロード作業とストア作業とのいずれも実行し得る。

【0079】

オンチップバッファ１４０は、人工知能コア１００の内部に位置するメモリであり、人工知能コア１００が作業に必要な全ての入力データを外部から受信して、一時的に保存し得る。また、オンチップバッファ１４０は、人工知能コア１００によって演算された出力データを外部に伝送するために、一時的に保存し得る。

【0080】

オンチップバッファ１４０は、アクティベーションロード／ストアユニット１３０によって入力アクティベーションＡｃｔ＿Ｉｎをアクティベーションバッファ１２０に伝送し、出力アクティベーションＡｃｔ＿Ｏｕｔを受信し得る。オンチップバッファ１４０は、アクティベーションロード／ストアユニット１３０の外にも、プロセスユニットと直接データを送受信し得る。つまり、オンチップバッファ１４０は、ＰＥアレイ１１１およびベクトルユニット１１２のそれぞれとデータのやり取りができる。

【0081】

ロード／ストアユニット１５０は、外部インタフェイス３００を介して、外部から入力データ、プログラムおよび制御信号のうちの少なくとも一つを受信し得る。ロード／ストアユニット１５０は、オンチップバッファ１４０に受信した入力データ、プログラムおよび制御信号のうちの少なくとも一つを伝送し得る。

【0082】

同様に、ロード／ストアユニット１５０は、外部インタフェイス３００を介して出力データを外部に伝達し得る。ロード／ストアユニット１５０は、プロセスユニット１１０が生成した出力データを伝送し得る。

【0083】

図５は、図２におけるロード／ストアユニットの動作を説明するためのブロック図である。

【0084】

図５を参照すると、タスクコントローラ１０は、人工知能コア１００によって実現され得る。タスクコントローラ１０は、人工知能コア１００の作業を制御するモジュールであり得る。タスクコントローラ１０は、人工知能コア１００によって論理的に実現されたモジュールであり得る。ただし、本実施例がこれに限定されるものではない。

【0085】

外部インタフェイス３００は、人工知能コア１００がＳｏＣである場合、コントロールバス３１０およびデータバス３２０を含み得る。この際、コントロールバス３１０は、制御信号を伝達するバスであり、データバス３２０は、入力データおよび出力データを伝達するバスであり得る。

【0086】

コントロールバス３１０は、タスクコントローラ１０に、現在作業に対するロードまたはストアに対する制御信号を伝送し得る。例えば、タスクコントローラ１０は、ロード／ストアユニット１５０に、ロード命令および待機ロード命令のうち少なくとも１つを伝送し得る。または、タスクコントローラ１０は、ロード／ストアユニット１５０に、ストア命令および待機ストア命令のうち少なくとも１つを伝送し得る。ロード／ストアユニット１５０は、ロード命令、ストア命令、待機ロード命令、および待機ストア命令のうち少なくとも１つに従って、ロード／ストア作業を実行し得る。

【0087】

この際、ロード命令およびストア命令は、プロセスユニット１１０が現在実行している作業に対するプログラムやデータに対する命令のことを意味し、待機ロード命令および待機ストア命令は、プロセスユニット１１０が次に実行する作業に対するプログラムやデータに対する命令のことを意味し得る。

【0088】

ロード命令、待機ロード命令、ストア命令、および待機ストア命令は、それぞれ下記のような細部事項を含み得る。

【0089】

Dscrptr{src, dst, burst size, #burst}
ここで、ｓｒｃは、ソース、すなわち、ロードまたはストアするデータのアドレス、ｄｓｔは、デスティネーション、すなわち、データを伝送するアドレス、burst sizeはバーストサイズ、すなわち、分割サイズ、および#burstバーストナンバー、すなわち、分割の数を意味し得る。ただし、本実施例がこれに限定されるものではない。

【0090】

ロード／ストアユニット１５０は、メインロード／ストアユニット１５１およびヒドゥンロード／ストアユニット１５２を含み得る。メインロード／ストアユニット１５１は、ロード／ストア作業中にメインロード／ストア作業を実行し得る。

【0091】

例えば、メインロード／ストアユニット１５１は、ロード命令をフェッチ(fetch)し、ロード命令を発行(issue)し得る。ここで、発行とは、命令の実行が不可能な条件であるか否かを判断し、可能な場合は、それを続行するための作業のことを意味し得る。

【0092】

メインロード／ストアユニット１５１は、発行されたロード命令に従って、データバス３２０を介してオフチップメモリ２２０にメモリアクセスし第１ロードデータＤｐｒを受信して、オンチップバッファ１４０に伝送し得る。この際、第１ロードデータＤｐｒは、高い優先順位を有するデータであり得る。

【0093】

ヒドゥンロード／ストアユニット１５２は、ロード／ストア作業中に待機ロード／ストア作業を実行し得る。例えば、ヒドゥンロード／ストアユニット１５２は、待機ロード命令をフェッチし、待機ロード命令を発行し得る。

【0094】

ヒドゥンロード／ストアユニット１５２は、発行されたロード命令に従って、データバス３２０を介してオフチップメモリ２２０にメモリアクセスし第２ロードデータＤｎｐｒを受信して、オンチップバッファ１４０に伝送し得る。この際、第２ロードデータＤｎｐｒは、低い優先順位を有するデータであり得る。つまり、第１ロードデータＤｐｒは、第２ロードデータＤｎｐｒに比べ、相対的に高い優先順位を有し得る。つまり、オンチップバッファ１４０は、第２ロードデータＤｎｐｒよりも、第１ロードデータＤｐｒを先に保存し得る。

【0095】

この際、優先順位は、データにタグ付け(tagging)された形態で識別され得る。これにより、現在実行されている作業に対するメインロード/ストア作業は、待機ロード/ストア作業によって遅延されない。つまり、待機ロード/ストア作業は、メインロード／ストア作業の実行に全く妨げられることなくできる。また、待機ロード／ストア作業は、メインロード／ストア作業によって使用される外部インタフェイス３００の帯域幅(bandwidth)を除いた残りの帯域幅を用いて実行され得る。つまり、時系列的にプログラムとデータとのロード作業が先に実行されてこそ、それに対する演算作業が行われ、演算作業の実行時間は、ロード作業よりもはるかに長くあり得る。

【0096】

これにより、本実施例による人工知能コアシステムは、演算作業中に活用されない帯域幅を待機作業に対して割り当てることにより、帯域幅の活用を最大化し得る。

【0097】

図６は、図５のロード／ストアユニットの構造を詳細に説明するためのブロック図である。

【0098】

図６を参照すると、ロード／ストアユニット１５０は、ロードユニット１５１ａ、ストアユニット１５１ｂ、ロードバッファ１５１ａ＿ｂ、ストアバッファ１５１ｂ＿ｂ、ヒドゥンロードユニット１５２ａ、ヒドゥンロードバッファ１５２ａ＿ｂ、ヒドゥンストアユニット１５２ｂ、ヒドゥンストアバッファ１５２ｂ＿ｂ、ロードエンジン１５３、ストアエンジン１５４、変換インデックスバッファ１５５、およびアービター１５６を含み得る。

【0099】

ロードユニット１５１ａは、タスクコントローラ１０からロード命令をフェッチし、ロード命令を発行し得る。ロードユニット１５１ａが、発行されたロード命令をロードバッファ１５１ａ＿ｂに提供すると、ロードバッファ１５１ａ＿ｂが入力された順に従って、順次ロードエンジン１５３にメモリアクセス要求を伝送し得る。

【0100】

また、ストアユニット１５１ｂは、タスクコントローラ１０からストア命令をフェッチし、ストア命令を発行し得る。ストアユニット１５１ｂが、発行されたストア命令をストアバッファ１５１ｂ＿ｂに提供すると、ストアバッファ１５１ｂ＿ｂが、入力された順に従って順次ストアエンジン１５４にメモリアクセス要求を伝送し得る。

【0101】

ヒドゥンロードユニット１５２ａは、タスクコントローラ１０から待機ロード命令をフェッチし、待機ロード命令を発行し得る。ヒドゥンロードユニット１５２ａが、発行された待機ロード命令をヒドゥンロードバッファ１５２ａ＿ｂに提供すると、ヒドゥンロードバッファ１５２ａ＿ｂが、入力された順に従って順次ロードエンジン１５３にメモリアクセス要求を伝送し得る。

【0102】

また、ヒドゥンストアユニット１５２ｂは、タスクコントローラ１０から待機ストア命令をフェッチし、待機ストア命令を発行し得る。ヒドゥンストアユニット１５２ｂが、発行された待機ストア命令をヒドゥンストアバッファ１５２ｂ＿ｂに提供すると、ヒドゥンストアバッファ１５２ｂ＿ｂが、入力された順に従って順次ストアエンジン１５４にメモリアクセス要求を伝送し得る。

【0103】

ロードエンジン１５３は、メモリアクセス要求を受信して、データバス３２０を介して第１ロードデータＤｐｒおよび第２ロードデータＤｎｐｒを呼び出し得る。この際、ロードエンジン１５３は、変換インデックスバッファ１５５で最近使用された仮想アドレスと物理アドレスとの変換テーブルを用いて迅速にデータを調べられる。ロードエンジン１５３の仮想アドレスが変換インデックスバッファ１５５にない場合には、メモリ２００からアドレス変換情報を調べられる。

【0104】

第１ロードデータＤｐｒは、ロードバッファ１５１ａ／ｂから受信したメモリアクセス要求に対応するデータであり、第２ロードデータＤｎｐｒは、ヒドゥンロードバッファ１５２ａ／ｂから受信したメモリアクセス要求に対応するデータであり得る。

【0105】

この際、ロードバッファ１５１ａ＿ｂとヒドゥンロードバッファ１５２ａ＿ｂは、メモリアクセス要求をロードエンジン１５３に同時には伝送しない。つまり、ヒドゥンロードユニット１５２ａとヒドゥンロードバッファ１５２ａ＿ｂとは、ロードユニット１５１ａとロードバッファ１５１ａ＿ｂとが、ロードエンジン１５３にメモリアクセス要求を伝達していないときを識別（identify）して、メモリアクセス要求をロードエンジン１５３に伝送し得る。つまり、ロードバッファ１５１ａ＿ｂで命令発行作業がストール（stall）された場合にのみ、ヒドゥンロードバッファ１５２ａ＿ｂが動作し得る。

【0106】

アービター１５６は、ロードエンジン１５３から第１ロードデータＤｐｒおよび第２ロードデータＤｎｐｒを受信し得る。アービター１５６は、ラウンドロビン方式で入力された第１ロードデータＤｐｒおよび第２ロードデータＤｎｐｒを、オンチップバッファ１４０のバンクＢにそれぞれ伝達し得る。つまり、アービター１５６は、データを順次オンチップバッファ１４０のバンクＢに分配するので、第２ロードデータＤｎｐｒが追加される場合、一般的には、第１ロードデータＤｐｒの遅延が発生し得る。

【0107】

しかし、本発明のいくつかの実施例による人工知能コアは、第１ロードデータＤｐｒに高い優先順位を付与して、第２ロードデータＤｎｐｒが追加されても、第１ロードデータＤｐｒの処理遅延を防止し得る。

【0108】

このような優先順位は、ロードエンジン１５３によってタグ付けされ得る。ただし、本実施例はこれに限定されるものではない。すなわち、ロードユニット１５１ａおよびヒドゥンロードユニット１５２ａで優先順位に関する情報が予め決定され伝達されることも容易に可能であり得る。

【0109】

ストアエンジン１５４は、メモリアクセス要求を受信して、データバス３２０を介して第１ストアデータローカルバス５００および第２ストアデータローカルバス５００を呼び出し得る。この際、ストアエンジン１５４は、変換インデックスバッファ１５５から、最近使用された仮想アドレスと物理アドレスとの変換テーブルを用いて、迅速にデータを調べられる。ストアエンジン１５４の仮想アドレスが、変換インデックスバッファ１５５にない場合には、メモリ２００からアドレス変換情報を調べられる。

【0110】

第１ストアデータローカルバス５００は、ストアバッファ１５１ｂ＿ｂから受信したメモリアクセス要求に対応するデータであり、第２ストアデータローカルバス５００は、ヒドゥンストアバッファ１５２ｂ＿ｂから受信したメモリアクセス要求に対応するデータであり得る。

【0111】

この際、ストアバッファ１５１ｂ＿ｂとヒドゥンストアバッファ１５２ｂ＿ｂとは、メモリアクセス要求をストアエンジン１５４に同時には送信しない。つまり、ヒドゥンストアユニット１５２ｂとヒドゥンストアバッファ１５２ｂ＿ｂとは、ストアユニット１５１ｂとストアバッファ１５１ｂ＿ｂとがストアエンジン１５４にメモリアクセス要求を伝達していないときを識別して、メモリアクセス要求をストアエンジン１５４に伝送し得る。つまり、ストアバッファ１５１ｂ＿ｂで命令発行作業がストールされた場合にのみ、ヒドゥンストアバッファ１５２ｂ＿ｂが動作し得る。

【0112】

アービター１５６は、ストアエンジン１５４から、第１ストアデータローカルバス５００および第２ストアデータローカルバス５００を受信し得る。アービター１５６は、ラウンドロビン方式で入力された第１ストアデータローカルバス５００および第２ストアデータローカルバス５００を、オンチップバッファ１４０のバンクＢからデータバス３２０にそれぞれ伝達し得る。つまり、アービター１５６は、データを順次オンチップバッファ１４０のバンクＢから取り出してくるので、第２ストアデータローカルバス５００が追加される場合、一般的には、第１ストアデータローカルバス５００の処理遅延が発生し得る。

【0113】

しかし、本発明のいくつかの実施例による人工知能コアは、第１ストアデータローカルバス５００に高い優先順位を付与して、第２ストアデータローカルバス５００が追加されても、第１ストアデータローカルバス５００の処理遅延を防止し得る。

【0114】

このような優先順位は、ストアエンジン１５４によってタグ付けされ得る。ただし、本実施例はこれに限定されるものではない。すなわち、ストアユニット１５１ｂおよびヒドゥンストアユニット１５２ｂで優先順位に関する情報が予め決定され伝達されることも容易に可能であり得る。

【0115】

この際、ロードユニット１５１ａ、ロードバッファ１５１ａ＿ｂ、ストアユニット１５１ｂ、ストアバッファ１５１ｂ＿ｂ、ロードエンジン１５３、ストアエンジン１５４、変換インデックスバッファ１５５、およびアービター１５６は、メインロード／ストアユニット１５１に含まれ得る。

【0116】

一方、ヒドゥンロードユニット１５２ａ、ヒドゥンロードバッファ１５２ａ＿ｂ、ヒドゥンストアユニット１５２ｂ、ヒドゥンストアバッファ１５２ｂ＿ｂ、ロードエンジン１５３、ストアエンジン１５４、変換インデックスバッファ１５５、およびアービター１５６は、ヒドゥンロード／ストアユニット１５２に含まれ得る。

【0117】

すなわち、メインロード／ストアユニット１５１とヒドゥンロード／ストアユニット１５２とは、ロードエンジン１５３、ストアエンジン１５４、変換インデックスバッファ１５５、およびアービター１５６を、互いに共有し得る。ロードエンジン１５３、ストアエンジン１５４および変換インデックスバッファ１５５のうち少なくとも１つは、ハードウェアで実現され得る。

【0118】

ロードエンジン１５３とストアエンジン１５４とは、現実的にメインロード／ストアユニット１５１とヒドゥンロード／ストアユニット１５２との使用時間が異なることは避けられないので、同じハードウェアを一部共有し得る。これにより、本実施例のリソース活用効率が最大化し得る。

【0119】

図７は、本発明のいくつかの実施例による人工知能コアシステムのプログラムロード動作を時系列的に説明するためのタイミング図である。

【0120】

図７を参照すると、まず、タスクコントローラ１０によって第１プログラムロードＰｒＬＤ１が実行され得る。第１プログラムは、第１作業実行ＥＸＥＣ１のために必要なプログラムであって、ディープラーニング作業のためのプログラムであり得る。第１プログラムロードＰｒＬＤ１は、第１作業実行ＥＸＥＣ１に先行する必要があるので、第１作業実行ＥＸＥＣ１は、第１プログラムロードＰｒＬＤ１に依存的であり得る。

【0121】

一般的な人工知能コアの場合、第１作業実行ＥＸＥＣ１が終わってから、第２プログラムロードＰｒＬＤ２が実行され得る。これに対し、本実施例による人工知能コア１００は、ディープラーニング作業の第１作業実行ＥＸＥＣ１と並列的に第２プログラムロードＰｒＬＤ２が実行され得る。これにより、第１作業実行ＥＸＥＣ１が終了する時点で、第２作業実行ＥＸＥＣ２が直ちに開始され得る。これにより、本実施例による人工知能コア１００は、ディープラーニング作業の速度を飛躍的に上昇させ得る。

【0122】

図８は、本発明のいくつかの実施例による人工知能コアシステムのデータプリフェッチ動作を時系列的に説明するためのタイミング図である。

【0123】

図８を参照すると、まず、タスクコントローラ１０によって、第１プログラムロードＰｒＬＤ１が実行され得る。次いで、第１フェッチＦｅｔｃｈ１が実行され得る。第１フェッチＦｅｔｃｈ１は、ディープラーニング学習および推論を行うためのデータを取ってくる段階であり得る。

【0124】

第１作業実行ＥＸＥＣ１は、プログラムとデータとのロードが必要であるため、依存的であり得る。同様に、第２作業実行ＥＸＥＣ２も、第２プリフェッチＰｒｅＦｅｔｃｈ２のようにデータのロードが必要であるため、依存的であり得る。第２プリフェッチＰｒｅＦｅｔｃｈ２は、例えば、ＣＮＮ(Convolutional Neural Network)やＬＳＴＭ(Long Short-Term Memory)の次のレイヤーのカーネルデータを取ってくることでもあり得る。

【0125】

本実施例による人工知能コアシステムは、第１作業実行ＥＸＥＣ１中に、第２作業実行ＥＸＥＣ２に対応するデータを予め取得する第２プリフェッチＰｒｅＦｅｔｃｈ２を実行して、第１作業実行ＥＸＥＣ１が終わると、直ちに第２作業実行ＥＸＥＣ２を開始させ得る。これにより、本実施例による人工知能コアの処理速度がさらに早くなり得る。

【0126】

以下、図９および図１０を参照して、本発明のいくつかの実施例による人工知能コアおよび人工知能コアシステムを説明する。前述の内容と重複する場合は、簡略化または省略する。

【0127】

図９は、本発明のいくつかの実施例による人工知能コアのメインロード／ストアユニットを詳細に説明するためのブロック図であり、図１０は、本発明のいくつかの実施例による人工知能コアのヒドゥンロード／ストアユニットを詳細に説明するためのブロック図である。

【0128】

図９および図１０を参照すると、本発明のいくつかの実施例による人工知能コアシステムのロード／ストアユニットは、ハードウェアで分離され得る。すなわち、メインロード／ストアユニット１５１は、ロードユニット１５１ａ、ストアユニット１５１ｂ、ロードバッファ１５１ａ＿ｂ、ストアバッファ１５１ｂ＿ｂ、第１ロードエンジン１５３＿１、第１ストアエンジン１５４＿１、および第１変換インデックスバッファ１５５＿１を含み得る。

【0129】

また、ヒドゥンロード／ストアユニット１５２は、ヒドゥンロードユニット１５２ａ、ヒドゥンストアユニット１５２ｂ、ヒドゥンロードバッファ１５２ａ＿ｂ、ヒドゥンストアバッファ１５２ｂ＿ｂ、第２ロードエンジン（１５３＿２）、第２ストアエンジン１５４＿２、および第２変換インデックスバッファ１５５＿２を含み得る。

【0130】

本実施例は、メインロード／ストアユニット１５１とヒドゥンロード／ストアユニット１５２とが、互いに物理的に分離されているため、人工知能コア１００の設計難易度が低くなり、ロードエンジン１５３とストアエンジン１５４とが互いに共有されないため、それぞれの耐久性が長く維持され得る。ただし、アービター１５６の場合には、互いに同一にセットして、より正確な数値を獲得し得る。

【0131】

以下、図１１を参照して、本発明のいくつかの実施例による人工知能コアおよび人工知能コアシステムを説明する。前述の内容と重複する場合は、簡略化または省略する。

【0132】

図１１は、本発明のいくつかの実施例による人工知能コアシステムを説明するためのブロック図である。

【0133】

図１１を参照すると、本発明のいくつかの実施例による人工知能コアシステムは、ロード／ストアユニット１５０が拡張アービター１５６＿１を含み、ロードエンジン１５３とストアエンジン１５４とが、優先順位の異なるデータを使用しなくてもよい。代わりに、オンチップバッファ１４０が保有するバンクＢの数をさらに増やして、拡張バンクＢｅがオンチップバッファ１４０に含まれ得る。

【0134】

つまり、入力数が増えた分、バンクＢの数が増えれば、既存のデータが待機する必要もないので、これにより、人工知能コア１００の演算速度の遅延を防止し得る。

【0135】

拡張アービター１５６＿１は、基準入出力比を有し得る。この際、基準入出力比は、入力の待機時間が発生しない範囲で、最も大きい入力と出力の比のことを意味し得る。拡張アービター１５６＿１に入力として入る第１ロードデータ、第２ロードデータ、第１ストアデータ、および第２ストアデータの入力数を、オンチップバッファ１４０のバンクＢおよび拡張バンク（Ｂｅ）の数で除した値は、基準入出力比よりも小さくあり得る。

【0136】

したがって、ロードデータに優先順位のタグ付けをすることなく、オンチップバッファ１４０にバンクＢの数を増やすことだけで、メインロード／ストア作業の損害は発生しないのであり得る。

【0137】

以下、図１２および図１３を参照して、本発明のいくつかの実施例による人工知能コアおよび人工知能コアシステムを説明する。前述の内容と重複する場合は、簡略化または省略する。

【0138】

図１２は、本発明のいくつかの実施例による人工知能コアシステムを説明するためのブロック図であり、図１３は、図１２における第１人工知能コアの構造および動作を詳細に説明するためのブロック図である。

【0139】

図１２を参照すると、本発明のいくつかの実施例による人工知能コアシステムは、第１人工知能コア１００、第２人工知能コア４００およびローカルバス５００を含み得る。

【0140】

第１人工知能コア１００は、図１の人工知能コア１００と同一であり得る。第２人工知能コア４００は、第１人工知能コア１００と分離された別個のコアであり得る。第１人工知能コア１００は、第２人工知能コア４００と、ローカルバス５００を用いて互いにデータをやり取りし得る。

【0141】

ローカルバス５００は、コア間のデータを伝送するための通路であり得る。ローカルバス５００は、コア間の通信により、マルチコアシステムの速度を向上させ得る。

【0142】

図１３を参照すると、第１人工知能コア１００のロード／ストアユニット１５０は、ローカルバス５００を介して、第２人工知能コア４００と通信し得る。特に、メインロード／ストアユニット１５１とヒドゥンロード／ストアユニット１５２とは、それぞれローカルバスを介してデータのロード／ストア作業を実行し得る。

【0143】

本実施例は、これにより、コア間のデータ交換においても、帯域幅の活用度を最大化し得る。

【0144】

以下、図６、図７および図１４～図１６を参照して、本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法を説明する。前述の内容と重複する場合は、簡略化または省略する。

【0145】

図１４は、本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法を説明するためのフローチャートであり、図１５は、図１４における第１プログラムをロードする段階を詳細に説明するためのフローチャートである。図１６は、図１４における第２プログラムをロードする段階を詳細に説明するためのフローチャートである。

【0146】

図１４を参照すると、メインロード／ストアユニットが、第１プログラムをロードする（Ｓ１００）。

【0147】

より詳細に図１５を参照すると、第１プログラムに対するロード命令をフェッチし（Ｓ１１０）、フェッチされたロード命令を発行し得る（Ｓ１２０）。

【0148】

次いで、発行されたロード命令に対応するメモリアクセス要求をロードバッファに伝送し（Ｓ１３０）、メモリアクセス要求をロードバッファが順次ロードエンジンにて伝送する（Ｓ１４０）。

【0149】

続いて、データバスを介してオフチップメモリから第１ロードデータを受信し（Ｓ１５０）、第１ロードデータをオンチップバッファに伝達する（Ｓ１６０）。

【0150】

再び、図１４を参照すると、第１プログラムを用いて第１作業を行う（Ｓ２００）。

【0151】

具体的に、図７を参照すると、第１プログラムは、第１作業実行ＥＸＥＣ１のために必要なプログラムであって、ディープラーニング作業のためのプログラムであり得る。第１プログラムロードＰｒＬＤ１は、第１作業実行ＥＸＥＣ１、つまり、第１作業に先行する必要があるので、第１作業実行ＥＸＥＣ１が第１プログラムロードＰｒＬＤ１に依存的であり得る。

【0152】

再び、図１４を参照すると、メインロード／ストアユニットが動作しないことを確認し（Ｓ３００）、ヒドゥンロード／ストアユニットが、第２作業に対する第２プログラムをロードする（Ｓ４００）。

【0153】

より詳細に図１６を参照すると、第２プログラムに対する待機ロード命令をフェッチし（Ｓ４１０）、フェッチされた待機ロード命令を発行し得る（Ｓ４２０）。

【0154】

次いで、発行された待機ロード命令に対応するメモリアクセス要求をヒドゥンロードバッファに伝送し（Ｓ４３０）、メモリアクセス要求をヒドゥンロードバッファが順次ロードエンジンに伝送する（Ｓ４４０）。

【0155】

続いて、データバスを介して、オフチップメモリから第２ロードデータを受信し（Ｓ４５０）、第２ロードデータをオンチップバッファに伝達する（Ｓ４６０）。

【0156】

具体的に、図７を参照すると、本実施例による人工知能コア１００は、ディープラーニング作業の第１作業実行ＥＸＥＣ１と並列的に、第２プログラムロードＰｒＬＤ２が実行され得る。これにより、第１作業実行ＥＸＥＣ１が終了する時点で、第２作業実行ＥＸＥＣ２が直ちに開始され得る。これにより、本実施例による人工知能コア１００は、ディープラーニング作業の速度を飛躍的に上昇させ得る。

【0157】

また、図６を参照すると、ヒドゥンロードユニット１５２ａとヒドゥンロードバッファ１５２ａ＿ｂとは、ロードユニット１５１ａとロードバッファ１５１ａ＿ｂとが、ロードエンジン１５３にメモリアクセス要求を伝達していないときを識別して、メモリアクセス要求をロードエンジン１５３に伝送し得る。

【0158】

段階Ｓ３００および段階Ｓ４００は、段階Ｓ２００と並列的に実行され得る。

【0159】

再び、図１４を参照すると、第２プログラムを用いて第２作業を実行する（Ｓ５００）。

【0160】

具体的に、図７を参照すると、第２プログラムは、第２作業実行ＥＸＥＣ２のために必要なプログラムであって、ディープラーニング作業のためのプログラムであり得る。第２プログラムロードＰｒＬＤ２は、第２作業実行ＥＸＥＣ２、つまり、第２作業に先行する必要があるので、第２作業実行ＥＸＥＣ２が第２プログラムロードＰｒＬＤ２に依存的であり得る。

【0161】

本実施例による人工知能コアのロード／ストア方法は、第１作業の実行と第２作業に対する第２プログラムのロードが並列的に行われ、作業の効率が上がり、従来には活用できなかった外部インタフェイス３００の帯域幅を最大限に活用し得る。

【0162】

以下、図１７および図１８を参照して、本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法を説明する。前述の内容と重複する場合は、簡略化または省略する。

【0163】

図１７は、本発明のいくつかの実施例による人工知能コアシステムのロード／ストア方法を説明するためのフローチャートであり、図１８は、図１７における第１作業を実行する段階を詳細に説明するためのフローチャートである。

【0164】

図１７を参照すると、メインロード／ストアユニットが、第１データをロードする（Ｓ１１００）。

【0165】

具体的に、図８を参照すると、第１フェッチＦｅｔｃｈ１が実行され得る。第１フェッチＦｅｔｃｈ１は、ディープラーニング学習および推論を行うためのデータを取ってくる段階であり得る。

【0166】

再び、図１７を参照すると、第１データを用いて第１作業を実行する（Ｓ１２００）。

【0167】

より具体的に、図１８を参照すると、入力アクティベーションをアクティベーションバッファに保存する（Ｓ１２１０）。

【0168】

具体的に、図２を参照すると、アクティベーションロード／ストアユニット１３０は、オンチップバッファ１４０から、入力アクティベーションＡｃｔ＿Ｉｎをアクティベーションバッファ１２０に伝達し得る。アクティベーションバッファ１２０は、入力アクティベーションＡｃｔ＿Ｉｎを一時的に保存し得る。

【0169】

再び、図１８を参照すると、プロセスユニットが、アクティベーションバッファから入力アクティベーションを受信して、出力アクティベーションを生成する（Ｓ１２２０）。次いで、アクティベーションバッファが、出力アクティベーションを保存する（Ｓ１２３０）。

【0170】

再び、図１７を参照すると、メインロード／ストアユニットが動作しないことを確認し（Ｓ１３００）、ヒドゥンロード／ストアユニットが第２作業に対する第２データをロードする（Ｓ１４００）。

【0171】

段階Ｓ１３００および段階Ｓ１４００は、段階Ｓ１２００と並列的に実行され得る。

【0172】

再び、図１７を参照すると、第２データを用いて第２作業を実行する（Ｓ１５００）。

【0173】

具体的に、図８を参照すると、第２作業実行ＥＸＥＣ２も、第２プリフェッチＰｒｅＦｅｔｃｈ２のようにデータのロードが必要であるため、依存的であり得る。本実施例による人工知能コアシステムは、第１作業実行ＥＸＥＣ１中に第２作業実行ＥＸＥＣ２に対応するデータを予め取ってくる第２プリフェッチＰｒｅＦｅｔｃｈ２を実行して、第１作業実行ＥＸＥＣ１が終わると、直ちに第２作業実行ＥＸＥＣ２を開始させ得る。

【0174】

以上の説明は、本実施例の技術思想を例示的に説明したものに過ぎず、本実施例が属する技術分野において通常の知識を有する者であれば、本実施例の本質的な特性から逸脱しない範囲で、様々な修正および変形が可能なことである。したがって、本実施例は、本実施例の技術思想を限定するためのものではなく、説明するためのものであり、このような実施例によって本実施例の技術思想の範囲が限定されるものではない。本実施例の保護範囲は、以下の特許請求の範囲によって解釈されるべきであり、それと同等の範囲内にあるすべての技術思想は、本実施例の権利範囲に含まれるものと解釈されるべきである。

【図1】