特許7586604 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7586604大規模並列ニューラル推論エンジン用のマルチモード低精度内積計算回路

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11A
11B
11C
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】大規模並列ニューラル推論エンジン用のマルチモード低精度内積計算回路

(51)【国際特許分類】

G06N 3/063 20230101AFI20241112BHJP

G06F 17/16 20060101ALI20241112BHJP

【ＦＩ】

G06N3/063

G06F17/16 M

【請求項の数】 20

(21)【出願番号】P 2022520842

(86)(22)【出願日】2020-10-05

(65)【公表番号】

(43)【公表日】2022-12-15

(86)【国際出願番号】 EP2020077802

(87)【国際公開番号】W WO2021073918

(87)【国際公開日】2021-04-22

【審査請求日】2023-03-24

(31)【優先権主張番号】16/653,366

(32)【優先日】2019-10-15

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(72)【発明者】

【氏名】澤田潤

(72)【発明者】

【氏名】アップスワミー、ラシナクマール

(72)【発明者】

【氏名】アコプヤン、フィリップ

(72)【発明者】

【氏名】アーサー、ジョン

(72)【発明者】

【氏名】キャシディ、アンドリュー

(72)【発明者】

【氏名】ダッタ、パラブ

(72)【発明者】

【氏名】エッサー、スティーブ

(72)【発明者】

【氏名】フリックナー、マイロン

(72)【発明者】

【氏名】モダ、ダルメンドラ

(72)【発明者】

【氏名】ナヤク、タパンクマール

(72)【発明者】

【氏名】オルテガオテロ、カルロス

【審査官】福西章人

(56)【参考文献】

【文献】特開平０４－２８０３８７（ＪＰ，Ａ）

【文献】特表２０００－５１０２６８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／００２６０７８（ＵＳ，Ａ１）

【文献】特開平０９－１７９７２３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｆ１７／１６

(57)【特許請求の範囲】

【請求項1】

ニューラル・アクティベーションを固定小数点計算する方法であって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の重みの各々を複数のブース・コーディングされた重みへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
入力アクティベーションごとに複数の結果が算出されるように、前記入力アクティベーション・テンソルに前記ブース・コーディングされた重みを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた重みの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた重みの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の各々をシフトすることを含む、前記複数の部分和の和からニューラル・アクティベーションを計算することと、を含む、方法。

【請求項2】

前記入力アクティベーション・テンソルは１次元である、請求項１に記載の方法。

【請求項3】

前記重みテンソルは２次元である、請求項１に記載の方法。

【請求項4】

前記ニューラル・アクティベーションを計算することは、前記複数の部分和の各々をその対応する位取りに従ってシフトすることを含む、請求項１に記載の方法。

【請求項5】

ニューラル・アクティベーションを計算する方法であって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の重みの各々を複数のブース・コーディングされた重みへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
入力アクティベーションごとに複数の結果が算出されるように、前記入力アクティベーション・テンソルに前記ブース・コーディングされた重みを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた重みの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた重みの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の和からニューラル・アクティベーションを計算することと、を含み、
前記ニューラル・アクティベーションを計算することは、前記複数の部分和の各々を前記入力アクティベーションの精度に従ってシフトすることを含む、方法。

【請求項6】

前記ニューラル・アクティベーションを計算することは、前記複数の部分和の前記和に非線形活性化関数を適用することを含む、請求項１に記載の方法。

【請求項7】

前記対応する結果を合計することは、複数の桁上げ保存加算器を適用することを含む、請求項１に記載の方法。

【請求項8】

ニューラル・アクティベーションを固定小数点計算する方法であって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の入力アクティベーションの各々を複数のブース・コーディングされた入力アクティベーションへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
重みごとに複数の結果が算出されるように、前記重みテンソルに前記ブース・コーディングされた入力アクティベーションを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた入力アクティベーションの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた入力アクティベーションの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の各々をシフトすることを含む、前記複数の部分和の和からニューラル・アクティベーションを計算することと、を含む、方法。

【請求項9】

前記入力アクティベーション・テンソルは１次元である、請求項８に記載の方法。

【請求項10】

前記重みテンソルは２次元である、請求項８に記載の方法。

【請求項11】

前記ニューラル・アクティベーションを計算することは、前記複数の部分和の各々をその対応する位取りに従ってシフトすることを含む、請求項８に記載の方法。

【請求項12】

ニューラル・アクティベーションを計算する方法であって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の入力アクティベーションの各々を複数のブース・コーディングされた入力アクティベーションへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
重みごとに複数の結果が算出されるように、前記重みテンソルに前記ブース・コーディングされた入力アクティベーションを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた入力アクティベーションの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた入力アクティベーションの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の和からニューラル・アクティベーションを計算することと、を含み、
前記ニューラル・アクティベーションを計算することは、前記複数の部分和の各々を前記入力アクティベーションの精度に従ってシフトすることを含む、方法。

【請求項13】

前記ニューラル・アクティベーションを計算することは、前記複数の部分和の前記和に非線形活性化関数を適用することを含む、請求項８に記載の方法。

【請求項14】

前記対応する結果を合計することは、複数の桁上げ保存加算器を適用することを含む、請求項８に記載の方法。

【請求項15】

ニューラル・アクティベーションを固定小数点計算するためのニューラル推論チップであって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の重みの各々を複数のブース・コーディングされた重みへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
入力アクティベーションごとに複数の結果が算出されるように、前記入力アクティベーション・テンソルに前記ブース・コーディングされた重みを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた重みの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた重みの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の各々をシフトすることを含む、前記複数の部分和の和からニューラル・アクティベーションを計算することと、を行うように適合されている、ニューラル推論チップ。

【請求項16】

前記ニューラル・アクティベーションを計算することは、前記複数の部分和の各々をその対応する位取りに従ってシフトすることを含む、請求項１５に記載のニューラル推論チップ。

【請求項17】

ニューラル・アクティベーションを計算するためのニューラル推論チップであって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の重みの各々を複数のブース・コーディングされた重みへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
入力アクティベーションごとに複数の結果が算出されるように、前記入力アクティベーション・テンソルに前記ブース・コーディングされた重みを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた重みの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた重みの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の和からニューラル・アクティベーションを計算することと、を行うように適合され、
前記ニューラル・アクティベーションを計算することは、前記複数の部分和の各々を前記入力アクティベーションの精度に従ってシフトすることを含む、ニューラル推論チップ。

【請求項18】

前記ニューラル・アクティベーションを計算することは、前記複数の部分和の前記和に非線形活性化関数を適用することを含む、請求項１５に記載のニューラル推論チップ。

【請求項19】

前記対応する結果を合計することは、複数の桁上げ保存加算器を適用することを含む、請求項１５に記載のニューラル推論チップ。

【請求項20】

ニューラル・アクティベーションを固定小数点計算するためのニューラル推論チップであって、
複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、
複数の重みを含む重みテンソルを受け取ることと、
前記複数の入力アクティベーションの各々を複数のブース・コーディングされた入力アクティベーションへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、前記ブース・リコーディングすることと、
重みごとに複数の結果が算出されるように、前記重みテンソルに前記ブース・コーディングされた入力アクティベーションを乗算することであって、前記複数の結果の各々が前記ブース・コーディングされた入力アクティベーションの前記位取りに対応している、前記乗算することと、
位取りごとに１つの複数の部分和が算出されるように、前記ブース・コーディングされた入力アクティベーションの位取りごとに前記対応する結果を合計することと、
前記複数の部分和の各々をシフトすることを含む、前記複数の部分和の和からニューラル・アクティベーションを計算することと、を行うように適合されている、ニューラル推論チップ。

【発明の詳細な説明】

【技術分野】

【0001】

本開示の実施形態はニューラル・ネットワーク処理に関し、より詳細には、大規模並列ニューラル推論エンジン用のマルチモード低精度内積計算回路に関する。

【発明の概要】

【0002】

本開示の実施形態によれば、ニューラル・アクティベーションを計算するためのニューラル推論チップが提供される。様々な実施形態において、ニューラル推論チップは、複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、複数の重みを含む重みテンソルを受け取ることと、複数の重みの各々を複数のブース・コーディングされた重みへとブース・リコーディングすることであって、各ブース・コーディングされた値は位取り（order）を有する、ブース・リコーディングすることと、入力アクティベーションごとに複数の結果が算出されるように、入力アクティベーション・テンソルにブース・コーディングされた重みを乗算することであって、複数の結果の各々がブース・コーディングされた重みの位取りに対応している、乗算することと、位取りごとに１つの複数の部分和が算出されるように、ブース・コーディングされた重みの位取りごとに対応する結果を合計することと、複数の部分和の和からニューラル・アクティベーションを計算することと、を行うように適合されている。

【0003】

いくつかの実施形態では、入力アクティベーション・テンソルは１次元である。いくつかの実施形態では、重みテンソルは２次元である。

【0004】

いくつかの実施形態では、ニューラル・アクティベーションを計算することは、複数の部分和の各々をその対応する位取りに従ってシフトすることを含む。いくつかの実施形態では、ニューラル・アクティベーションを計算することは、複数の部分和の各々を入力アクティベーションの精度に従ってシフトすることを含む。いくつかの実施形態では、ニューラル・アクティベーションを計算することは、複数の部分和の和に非線形活性化関数を適用することを含む。いくつかの実施形態では、前記対応する結果を合計することは、複数の桁上げ保存加算器（carry-save adder）を適用することを含む。

【0005】

本開示の実施形態によれば、ニューラル・アクティベーションを計算するためのニューラル推論チップが提供される。様々な実施形態において、ニューラル推論チップは、複数の入力アクティベーションを含む入力アクティベーション・テンソルを受け取ることと、複数の重みを含む重みテンソルを受け取ることと、複数の入力アクティベーションの各々を複数のブース・コーディングされた入力アクティベーションへとブース・リコーディングすることであって、各ブース・コーディングされた値は、ある位取りを有する、ブース・リコーディングすることと、重みごとに複数の結果が算出されるように、重みテンソルにブース・コーディングされた入力アクティベーションを乗算することであって、複数の結果の各々がブース・コーディングされた入力アクティベーションの位取りに対応している、乗算することと、位取りごとに１つの複数の部分和が算出されるように、ブース・コーディングされた入力アクティベーションの位取りごとに対応する結果を合計することと、複数の部分和の和からニューラル・アクティベーションを計算することと、を行うように適合されている。

【0006】

いくつかの実施形態では、入力アクティベーション・テンソルは１次元である。いくつかの実施形態では、重みテンソルは２次元である。

【0007】

【0008】

本開示の実施形態によれば、ニューラル・アクティベーションを計算する方法およびニューラル・アクティベーションを計算するためのコンピュータ・プログラム製品が提供される。複数の入力アクティベーションを含む入力アクティベーション・テンソルが受け取られる。複数の重みを含む重みテンソルが受け取られる。複数の重みの各々が複数のブース・コーディングされた重みへとブース・リコーディングされ、各ブース・コーディングされた値は、ある位取りを有する。入力アクティベーションごとに複数の結果が算出されるように、入力アクティベーション・テンソルにブース・コーディングされた重みが乗算され、複数の結果の各々は、ブース・コーディングされた重みの位取りに対応している。位取りごとに１つの複数の部分和が算出されるように、ブース・コーディングされた重みの位取りごとに対応する結果が合計される。複数の部分和の和からニューラル・アクティベーションが計算される。

【0009】

いくつかの実施形態では、入力アクティベーション・テンソルは１次元である。いくつかの実施形態では、重みテンソルは２次元である。

【0010】

【0011】

本開示の実施形態によれば、ニューラル・アクティベーションを計算する方法およびニューラル・アクティベーションを計算するためのコンピュータ・プログラム製品が提供される。複数の入力アクティベーションを含む入力アクティベーション・テンソルが受け取られる。複数の重みを含む重みテンソルが受け取られる。複数の入力アクティベーションの各々が複数のブース・コーディングされた入力アクティベーションへとブース・リコーディングされ、各ブース・コーディングされた値は、ある位取りを有する。重みごとに複数の結果が算出されるように、重みテンソルにブース・コーディングされた入力アクティベーションが乗算され、複数の結果の各々は、ブース・コーディングされた入力アクティベーションの位取りに対応している。位取りごとに１つの複数の部分和が算出されるように、ブース・コーディングされた入力アクティベーションの位取りごとに対応する結果が合計される。複数の部分和の和からニューラル・アクティベーションが計算される。

【0012】

いくつかの実施形態では、入力アクティベーション・テンソルは１次元である。いくつかの実施形態では、重みテンソルは２次元である。

【0013】

【図面の簡単な説明】

【0014】

【図1】本開示の実施形態に係るニューラル・コアを示す図である。

【図2】本開示の実施形態に係る例示的な推論処理ユニット（ＩＰＵ）を示す図である。

【図3】本開示の実施形態に係るマルチコア推論処理ユニット（ＩＰＵ）を示す図である。

【図4】本開示の実施形態に係る例示的なブース・リコーディングを示す図である。

【図5】本開示の実施形態に係る例示的なブース・リコーディング乗算器を示す図である。

【図6】本開示の実施形態に係る例示的なブース・リコーディング乗算器を示す図である。

【図7】本開示の実施形態に係る内積を計算するための例示的な方法を示す図である。

【図8】本開示の実施形態に係る内積を計算するための例示的な方法を示す図である。

【図9】本開示の実施形態に係る内積を計算するための方法を示す図である。

【図10】本開示の実施形態に係る複数精度入力データ・フォーマットを示す図である。

【図11A】本開示の実施形態に係る様々な精度における部分和生成を示す図である。

【図11B】本開示の実施形態に係る様々な精度における部分和生成を示す図である。

【図11C】本開示の実施形態に係る様々な精度における部分和生成を示す図である。

【図12】本開示の実施形態に係る４ビット内積を計算するための方法を示す図である。

【図13】本開示の実施形態に係る４ビット内積を計算するための方法を示す図である。

【図14】本開示の実施形態に係る内積を計算する可変精度の方法を示す図である。

【図15】本開示の実施形態に係るニューラル・アクティベーションを計算するための方法を示す図である。

【図16】本開示の実施形態に係るコンピューティング・ノードを描いた図である。

【発明を実施するための形態】

【0015】

人工ニューロンは、その出力がその入力の線形結合の非線形関数となる数学的関数である。一方の出力が他方への入力である場合、その２つのニューロンは結合されている。重みとは、あるニューロンの出力と別のニューロンの入力の間の結合強度を符号化するスカラ値である。

【0016】

ニューロンは、その入力の重み付き和に非線形活性化関数を適用することによって、アクティベーションと呼ばれるその出力を計算する。重み付き和とは、各入力と対応する重みとを乗算しその積を累算することによって計算される中間結果である。部分和とは、入力のサブセットの重み付き和である。１つまたは複数の部分和を累算することによって、全ての入力の重み付き和が段階的に計算され得る。

【0017】

ニューラル・ネットワークとは、１つまたは複数のニューロンの集合である。ニューラル・ネットワークは多くの場合、層と呼ばれるニューロンの組へと分割されている。層とは、全てが同じ層から入力を受け取り全てが同じ層へと出力を送り、典型的には同様の機能を実行する１つまたは複数のニューロンの、集合である。入力層とは、ニューラル・ネットワークの外部のソースから入力を受け取る層である。出力層とは、ニューラル・ネットワークの外部のターゲットへと出力を送る層である。他の全ての層は中間処理層である。多層ニューラル・ネットワークとは、２つ以上の層を有するニューラル・ネットワークである。ディープ・ニューラル・ネットワークとは、多数の層を有する多層ニューラル・ネットワークである。

【0018】

テンソルとは数値の多次元のアレイである。テンソル・ブロックとは、テンソル中の要素の連続的なサブアレイである。

【0019】

各ニューラル・ネットワーク層は、パラメータ・テンソルＶ、重みテンソルＷ、入力データ・テンソルＸ、出力データ・テンソルＹ、および中間データ・テンソルＺと関連付けられている。パラメータ・テンソルは、層中のニューロン活性化関数σを制御する全てのパラメータを包含する。重みテンソルは、入力を層に結合する全ての重みを包含する。入力データ・テンソルは、層が入力として消費する全てのデータを包含する。出力データ・テンソルは、層が出力として計算する全てのデータを包含する。中間データ・テンソルは、層が中間計算値として生成する任意のデータ、例えば部分和を包含する。

【0020】

ある層についてのデータ・テンソル（入力、出力、および中間）は３次元であってもよく、この場合、最初の２つの次元を空間位置を符号化するものとして解釈することができ、３番目の次元を異なる特徴を符号化するものとして解釈することができる。例えば、データ・テンソルがカラー画像を表す場合、最初の２つの次元は画像中の垂直座標および水平座標を符号化し、３番目の次元は各位置における色を符号化する。入力データ・テンソルＸのあらゆる要素を別個の重みによってあらゆるニューロンに結合することができ、この場合、重みテンソルＷは一般に、入力データ・テンソルの３つの次元（入力行ａ、入力列ｂ、入力特徴ｃ）を出力データ・テンソルの３つの次元（出力行ｉ、出力列ｊ、出力特徴ｋ）と連結した、６つの次元を有する。中間データ・テンソルＺは、出力データ・テンソルＹと同じ形状を有する。パラメータ・テンソルＶは、出力データ・テンソルの３つの次元を、活性化関数σのパラメータのインデックスとなる追加の次元ｏと連結する。いくつかの実施形態では、活性化関数σは追加のパラメータを必要とせず、この場合追加の次元は必要ない。しかしながら、いくつかの実施形態では、活性化関数σは少なくとも１つの追加のパラメータを必要とし、これは次元ｏ内に現れる。

【0021】

ある層の出力データ・テンソルＹの要素は式１のように計算でき、式中、ニューロン活性化関数σは活性化関数のパラメータのベクトルＶ［ｉ，ｊ，ｋ，：］によって構成されており、重み付き和Ｚ［ｉ，ｊ，ｋ］は式２のように計算できる。
Ｙ［ｉ，ｊ，ｋ］＝σ（Ｖ［ｉ，ｊ，ｋ，：］；Ｚ［ｉ，ｊ，ｋ］）
式１

【数1】

【0022】

表記を簡単にするために、式２中の重み付き和を出力と呼ぶ場合があるが、これは線形活性化関数Ｙ［ｉ，ｊ，ｋ］＝σ（Ｚ［ｉ，ｊ，ｋ］）＝Ｚ［ｉ，ｊ，ｋ］を用いることと等価であり、異なる活性化関数が使用されるときに一般性を失うことなく同じ説明が当てはまるものと理解される。

【0023】

様々な実施形態において、上記したような出力データ・テンソルの計算は、より小さい問題へと分解される。次いで各問題を、１つもしくは複数のニューラル・コア上で、または従来のマルチコア・システムの１つもしくは複数のコア上で並列に、解くことができる。

【0024】

ニューラル・ネットワークが並列構造であることが、上記から明らかであろう。所与の層中のニューロンは、１つもしくは複数の層または他の入力から、要素ｘ_ｉを有する入力Ｘを受け取る。各ニューロンは、入力および要素ｗ_ｉを有する重みＷに基づいて、その状態ｙ∈Ｙを計算する。様々な実施形態において、入力の重み付き和はバイアスｂによって調整され、次いでその結果が非線形処理（nonlinearity）Ｆ（・）に渡される。例えば、単一のニューロンのアクティベーションは、ｙ＝Ｆ（ｂ＋Σｘ_ｉｗ_ｉ）として表現できる。

【0025】

所与の層中の全てのニューロンが同じ層から入力を受け取りそれらの出力を独立して計算するので、ニューロンのアクティベーションを並列に計算することができる。全体的なニューラル・ネットワークのこの態様によって、並列分散型コアにおいて計算を行うことで全体的な計算が加速される。更に、各コア内で、ベクトル演算を並列に計算することができる。回帰的入力がある場合、例えばある層がそれ自体に戻るように投影される場合ですら、全てのニューロンがやはり同時に更新される。実際には、回帰的な接続は、その層への次の入力と揃うように遅延される。

【0026】

ここで図１を参照すると、本開示の実施形態に係るニューラル・コアが描かれている。ニューラル・コア１００は、出力テンソルの１つのブロックを計算する、タイル化可能な計算ユニットである。ニューラル・コア１００は、Ｍ個の入力およびＮ個の出力を有する。様々な実施形態において、Ｍ＝Ｎである。出力テンソル・ブロックを計算するために、ニューラル・コアは、Ｍ×１の入力テンソル・ブロック１０１をＭ×Ｎの重みテンソル・ブロック１０２と乗算し、その積を累算して重み付き和を得、これが１×Ｎの中間テンソル・ブロック１０３に格納される。Ｏ×Ｎのパラメータ・テンソル・ブロックは、中間テンソル・ブロック１０３に適用されて１×Ｎの出力テンソル・ブロック１０５を生成するＮ個のニューロン活性化関数の各々を規定する、Ｏ個のパラメータを包含する。

【0027】

複数のニューラル・コアをニューラル・コアのアレイ中でタイル化することができる。いくつかの実施形態では、アレイは２次元である。

【0028】

ニューラル・ネットワーク・モデルとは、ニューロン間の結合のグラフならびにあらゆるニューロンについての重みおよび活性化関数のパラメータを含む、ニューラル・ネットワークが行う計算の全体を集合的に規定する定数のセットである。訓練とは、所望の機能を実行するようにニューラル・ネットワーク・モデルを修正するプロセスである。推論とは、ニューラル・ネットワーク・モデルを修正することなく、ニューラル・ネットワークを入力に適用して出力を生成するプロセスである。

【0029】

推論処理ユニットは、ニューラル・ネットワーク推論を実行するプロセッサの一範疇である。ニューラル推論チップは、推論処理ユニットの具体的な物理的実例である。

【0030】

図２を参照すると、本開示の実施形態に係る例示的な推論処理ユニット（ＩＰＵ）が示されている。ＩＰＵ２００は、ニューラル・ネットワーク・モデル用のメモリ２０１を含む。上記したように、ニューラル・ネットワーク・モデルは、計算されるべきニューラル・ネットワーク用のシナプス重みを含み得る。ＩＰＵ２００は、一時的であってもよいアクティベーション・メモリ２０２を含む。アクティベーション・メモリ２０２は入力領域および出力領域へと分割されてもよく、処理されることになるニューロン・アクティベーションを格納する。ＩＰＵ２００は、モデル・メモリ２０１からニューラル・ネットワーク・モデルをロードされる、ニューラル計算ユニット２０３を含む。各計算ステップの前に、アクティベーション・メモリ２０２から入力アクティベーションが提供される。ニューラル計算ユニット２０３からの出力がアクティベーション・メモリ２０２に書き戻されて、同じまたは別のニューラル計算ユニット上で処理される。

【0031】

様々な実施形態において、ＩＰＵ２００にはマイクロエンジン２０４が含まれている。そのような実施形態では、ＩＰＵにおける全ての操作はマイクロエンジンによって指示される。以下に記載するように、様々な実施形態において、中央マイクロエンジンまたは分散させたマイクロエンジンあるいはその両方が提供され得る。大域マイクロエンジンをチップ・マイクロエンジンと呼ぶ場合があり、一方、局所マイクロエンジンをコア・マイクロエンジンまたは局所制御部と呼ぶ場合がある。様々な実施形態において、マイクロエンジンは、１つまたは複数のマイクロエンジン、マイクロ制御部、状態機械、ＣＰＵ、または他の制御部を備える。

【0032】

図３を参照すると、本開示の実施形態に係るマルチコア推論処理ユニット（ＩＰＵ）が示されている。ＩＰＵ３００は、ニューラル・ネットワーク・モデル用のメモリ３０１と命令とを含む。いくつかの実施形態では、メモリ３０１は、重み部分３１１および命令部分３１２へと分割される。上記したように、ニューラル・ネットワーク・モデルは、計算されるべきニューラル・ネットワーク用のシナプス重みを含み得る。ＩＰＵ３００は、一時的であってもよいアクティベーション・メモリ３０２を含む。アクティベーション・メモリ３０２は入力領域および出力領域へと分割されてもよく、処理されることになるニューロン・アクティベーションを格納する。

【0033】

ＩＰＵ３００は、ニューラル・コア３０３のアレイ３０６を含む。各コア３０３は、モデル・メモリ３０１からニューラル・ネットワーク・モデルをロードされベクトル計算を実行するように動作可能な、計算ユニット３３３を含む。各コアはまた、局所アクティベーション・メモリ３３２を含む。各計算ステップの前に、局所アクティベーション・メモリ３３２から入力アクティベーションが提供される。計算ユニット３３３からの出力がアクティベーション・メモリ３３２に書き戻されて、同じまたは別の計算ユニット上で処理される。

【0034】

ＩＰＵ３００は、１つまたは複数のネットワーク・オン・チップ（ＮｏＣ）３０５を含む。いくつかの実施形態では、部分和ＮｏＣ３５１はコア３０３同士を相互接続し、それらの間で部分和を伝達する。いくつかの実施形態では、重みおよび命令をコア３０３に分配するために、別個のパラメータ分配ＮｏＣ３５２によって、コア３０３をメモリ３０１に接続する。様々な構成のＮｏＣ３５１および３５２が本開示に従って使用するのに適していることが諒解されるであろう。例えば、ブロードキャスト・ネットワーク、行ブロードキャスト・ネットワーク、ツリー・ネットワーク、および交換ネットワークが使用され得る。

【0035】

様々な実施形態において、ＩＰＵ３００には大域マイクロエンジン３０４が含まれている。様々な実施形態において、各コア３０３には局所コア制御部３３４が含まれている。そのような実施形態では、操作の指示は、大域マイクロエンジン（チップ・マイクロエンジン）と局所コア制御部（コア・マイクロエンジン）の間で共有される。特に、３１１において、大域マイクロエンジン３０４によって、モデル・メモリ３０１から各コア３０３上のニューラル計算ユニット３３３に、計算命令がロードされる。３１２において、大域マイクロエンジン３０４によって、モデル・メモリ３０１から各コア３０３上のニューラル計算ユニット３３３に、パラメータ（例えばニューラル・ネットワーク重み／シナプス重み）がロードされる。３１３において、局所コア制御部３３４によって、局所アクティベーション・メモリ３３２から各コア３０３のニューラル計算ユニット３３３に、ニューラル・ネットワーク・アクティベーション・データがロードされる。上で指摘したように、アクティベーションはモデルによって規定される特定のニューラル・ネットワークのニューロンに提供され、同じもしくは別のニューラル計算ユニットから、またはシステムの外部から生じ得る。３１４において、ニューラル計算ユニット３３３は、局所コア制御部３３４の指示に従って、出力されるニューロン・アクティベーションを生成するための計算を行う。特に、計算は、入力アクティベーションに入力シナプス重みを適用することを含む。そのような計算を行うために、インシリコの樹状突起およびベクトル乗算ユニットを含む、様々な方法が利用可能であることが諒解されるであろう。３１５において、局所コア制御部３３４の指示に従って、局所アクティベーション・メモリ３３２に計算の結果が格納される。上記したように、各コアのニューラル計算ユニットの効率的な使用を実現するために、これらの段をパイプライン化することができる。所与のニューラル・ネットワークの要件に従って、入力および出力が局所アクティベーション・メモリ３３２から大域アクティベーション・メモリ３０２へと伝送され得ることも諒解されるであろう。

【0036】

このようにして、本開示は、推論処理ユニット（ＩＰＵ）における操作のランタイム制御を実現する。いくつかの実施形態では、マイクロエンジンは中央化されている（単一のマイクロエンジン）。いくつかの実施形態では、ＩＰＵ計算は分散される（コアのアレイによって実行される）。いくつかの実施形態では、操作のランタイム制御は階層的であり、中央マイクロエンジンと分散させたマイクロエンジンの両方が関与する。

【0037】

１つのマイクロエンジンまたは複数のマイクロエンジンが、ＩＰＵにおける全ての操作の実行を指示する。マイクロエンジンの各命令は、いくつかの下位操作（例えば、アドレス生成、ロード、計算、格納、等）に対応している。分散型の場合、コア・マイクロコードはコア・マイクロエンジン（例えば３３４）上で実行される。コア・マイクロコードは、１回の完全なテンソル操作を実行するための命令を含む。例えば、重みテンソルとデータ・テンソルの間の畳み込みである。シングル・コアの文脈では、コア・マイクロコードは、ローカルに格納されたデータ・テンソル（および部分和）のサブセットに対して、１回のテンソル操作を実行するための命令を含む。チップ・マイクロコードは、チップ・マイクロエンジン（例えば３０４）上で実行される。マイクロコードは、ニューラル・ネットワークにおける全てのテンソル操作を実行するための命令を含む。

【0038】

様々な実施形態において、シナプス統合の計算を加速するために、ベクトル－行列乗算器が使用される。上で概説したように、アクティベーション・ベクトルＸに重み行列Ｗが乗算される。この中間結果はＰＳ＝ＸＷとして与えられる。ＰＳの各列は、ＰＳ_ｊ＝Σｘ_ｉｗ_ｉｊとして計算することができる。この式において、アクティベーションｘ_ｉおよび重みｗ_ｉｊは例えば、低精度固定小数点計算において２ビット、４ビット、または８ビットであり得る。例示的な実装形態では、乗算ｘ_ｉｗ_ｉｊが実行され、全ての積の合計が行われる。

【0039】

この計算に適した例示的な乗算器を、以下のように実装できる。生成された部分和にブース・リコーディングが適用されて、ｎビット乗算器用のｎ／２個の部分和が生成される。次いで桁上げ保存加算器によって部分和が圧縮され、部分和の数がｎ／２から２に削減される。最終的な２つの部分和を積に加算するために、完全な桁上げ伝搬加算器（carry-propagate adder）（またはその変形）が使用される。これらのステップにおいて、桁上げ伝搬加算器は複雑な回路構成を必要とする。ｎ要素のベクトルＸとｎ×ｍ要素の行列Ｗのベクトル－乗法乗算の場合、ｎ×ｍ個の桁上げ伝搬加算器が必要になる。回路スペースを削減するために、Σｘ_ｉｗ_ｉｊの計算ごとに桁上げ伝搬加算器を１つしか使用しないことが望ましい。一般に、回路実装は、Σｘ_ｉｗ_ｉｊにおける計算の位取りを変えることによって最適化され得る。

【0040】

また更に、複数精度、例えば２ビット、４ビット、８ビット、またはより多くの精度をサポートするように、ベクトル－行列乗算器を修正することが望ましい。また、これら複数精度の計算の間で回路構成を可能な限り再利用することも望ましい。第１に乗算し、第２に合計する手法では、各乗算器は複数精度の乗算をサポートしなければならない。回路構成の操作の位取りを変えることによって、複数精度の操作のために同じデータ・パスを再利用することができる。

【0041】

様々な実施形態において、固定小数点内積計算Σｘ_ｉｗ_ｉｊが以下によって実行される：ブース・リコーディングされた部分和の生成、同じ位取りのブース・リコーディングされた部分和の部分和削減、および最終的な解答となる全ての部分和の合計。

【0042】

この場合、個々の乗算器の値は生成されない。そうではなく、各乗算器の計算が内積計算全体にわたって分配される。異なる精度で計算するとき、合計ステップにおいて部分和に対して異なる量のシフトが実行される。したがって、必要な複数精度の回路構成の量は最小限である。

【0043】

図４を参照すると、例示的なブース・リコーディングが示されている。部分和を生成するために、乗算器によってブース・リコーディングが使用され得る。テーブル・ルック・アップによって値がリコーディングされる。この例では、表１に基数２のブース・リコーディング・テーブルが示されている。

【0044】

【表1】

【0045】

ブース・リコーディングの手順を示すために、基数４のブース・リコーディングを使用してＡにＢを乗算することを考える。最初に、ブース・リコーディング・テーブル（例えば表１）で、１つおきのビットから始まり一部が重なっている、乗数Ｂの３ビットについてチェックする。ビットＢ［１：－１］、Ｂ［３：１］、Ｂ［５：３］、等を使用する。Ｂ［－１］はＢの最下位ビットの右側に加えられた追加のビットであり、これは０である。部分和ベクトルは、Ｂの対応する位置のブース・リコーディングに応じてＡから生成される。部分和ベクトルは、ブース・リコーディングごとに２ビットシフトされる。この結果、｛Ｂ_１，Ｂ_０，Ｂ_－１｝の部分和はビット位置０から始まるが、｛Ｂ_３，Ｂ_２，Ｂ_１｝の部分和はビット位置２から始まる。部分和ベクトルの数は、桁上げ保存加算器を使用して２にまで圧縮される。最後に、桁上げ伝搬加算器（またはその変形）を使用して、圧縮された２つの部分和ベクトルが積に加算される。

【0046】

図５を参照すると、８ビットのブース・リコーディング乗算器が示されている。この例では、被乗数Ａ（５０１）と乗数Ｂ（５０２）の乗算が実行される。Ｂは８ビットの２進数Ｂ［７：０］であると想定される。Ｂ［－１］＝０がＢ［０］の右側に加算される。部分和５０３…５０６を計算するために、ブース・テーブル・ルックアップを行う：ｉ＝０，２，４，６に対して、Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）。Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝２ならば、Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝Ａ＜＜１である。Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝１ならば、Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝Ａである。Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝０ならば、Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝０である。Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝－１ならば、Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝－Ａである。Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝－２ならば、Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝－Ａ＜＜１である。部分和Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）は、加算前に左にｉビットシフトされる。

【0047】

例えば、ｉ＝０の場合の部分和５０３は、ＡおよびＢの位置と整列される。部分和５０４、５０５、および５０６は、それぞれ左に２ビット、４ビット、および６ビットシフトされる。この結果、これらの部分和５０３～５０６は位置が互いにずれており、異なる位取りのものであると言われる。

【0048】

いずれの場合も、０、Ａ、または－Ａのいずれかを選択すること、および任意選択的に左に１ビットシフトすることによって、値Ａから部分和Ａ＊Ｂｏｏｔｈ（Ｂ［ｉ＋１：ｉ－１］）＝Ａを計算することができる。最後に、４つの部分和５０３…５０６を加算して、積Ａ＊Ｂ５０７を得る。

【0049】

図６を参照すると、ブース・リコーディング乗算器の例が示されている。この例は１９＊７１の二値計算を示す。［Ｂ１：Ｂ－１］におけるビット１１０からのブース・リコーディングされた値は表１によれば－１であるので、１番目の部分和６０３は１１１１１１１１１１０１１０１であるが、これは被乗数０００１００１１（６０１）の２の補数に符号拡張を行ったものである。［Ｂ３：Ｂ１］における０１１の２番目のブース・リコーディングが２であるので、２番目の部分和０００１００１１０（６０４）は被乗数を左に１ビットシフトしたものである。［Ｂ５：Ｂ３］における０００の３番目のブース・リコーディング値が０であるので、３番目の部分和６０５は０００００００００である。［Ｂ７：Ｂ５］における０１０のブース・リコーディングが１であるので、最後の部分和６０６は００００１００１１である。これらの部分和は２ビット離れた位置にある、すなわち、部分和６０４は部分和６０３の２ビット左に位置し、部分和６０５は部分和６０３の４ビット左にあり、部分和６０６は部分和６０３の６ビット左に位置する。最後に、全ての部分和を加算すると、正しい積６０７、１９＊７１＝１３４９が二値フォーマットで生成される。

【0050】

図７を参照すると、内積を計算するための例示的な方法が示されている。この例では、乗算器は全てのｉについてＡ_ｉ＊Ｂ_ｉを計算し、次いでそれらを足し合わせて、ΣＡ_ｉ＊Ｂ_ｉを算出する。このように、内積は、各Ａ_ｉ＊Ｂ_ｉの乗算結果を最初に計算し、次いでそれらを足し合わせることによって得られる。

【0051】

図８を参照すると、内積を計算するための例示的な方法が示されている。この例では、個々のＡ_ｉ＊Ｂ_ｉの積を計算する代わりに、同じ位取りの部分和の合計が計算され、次いでそれらが足し合わされる。特に、各Ａ_ｉ＊Ｂ_ｉ８０１…８０４について、上記したように部分和８１１…８１４、８２１…８２４、８３１…８３４、および８４１…８４４が計算される。この例では、Ｂ_ｉ［１：－１］、Ｂ_ｉ［３：１］、Ｂ_ｉ［５：３］、Ｂ_ｉ［７：５］に対応する、４つの部分和が計算される。加算器８０５によって同じ位取りの部分和が個別に合計されて、和８０６…８０９が算出される。例えば、部分和８１１、８２１、８３１、および８４１は同じ位取りのものであり、加算器８０５によって足し合わされると和８０６が生成される。それとは別に、部分和８１２、８２２、８３２、および８４２は同じ位取りのものであり、加算されて和８０７が生成される。部分和８１３、８２３、８３３、および８４３が加算されて、和８０８が算出される。部分和８１４、８２４、８３４、および８４４が加算されて、和８０９が算出される。最後に、和８０６…８０９を２ビット離れるようにシフトし、足し合わせて、最終結果ΣＡ_ｉ＊Ｂ_ｉ８１０が算出される。

【0052】

図９を参照すると、内積を計算する方法が示されている。特に、示されているように、同じ位取りの部分和の合計を使用して、内積ΣＡ_０＊Ｂ_０が計算される。９０１において、全ての被乗数Ｂ_ｉがブース・リコーディングされる。９０２において、Ａ_ｉとＢ_ｉのリコーディングされた値とから、部分和が生成される。９０３において、異なる乗算器からの同じ位取りを有する全ての部分和の合計が、個別に計算される。９０４において、部分和の合計が適切にシフトされて加算される。

【0053】

この手法では、同じ位取りの全ての部分和が整列され、初期の合計プロセスがより効率的である。大きなベクトルと行列の低精度ニューラル・ベクトル－行列乗算では、各乗算が有する位取りの異なる部分和の数は少ない。しかしながら、異なる乗算からの同じ位取りの多数の部分和が存在する。したがって、多くの部分和の削減は、より効率的な実装につながることになる。例えば、８ビット精度を有する３２×３２行列は、乗算ごとに４つの部分和を有する。しかしながら、各内積計算では、同じ位取りの３２個の部分和を全て加算する必要がある。

【0054】

この手法の別の利点は、複数精度モード用の計算回路を共有できることである。図１０を参照すると、複数精度の入力データ・フォーマットが示されている。このような実施形態では、同じベクトルまたは行列が異なる精度で解釈される。例えば、１６ビットのデータが、２要素８ビットのベクトル、４要素４ビットのベクトル、または８要素２ビットのベクトルとして使用され得る。図１０に示すように、８ビット・モード・アクティベーション（１００１）、４ビット・モード・アクティベーション（１００２）、または２ビット・モード・アクティベーション（１００３）を提供するために、８ビットが使用され得る。同様に、８ビット・モード重み（１００４）、４ビット・モード重み（１００５）、または２ビット・モード重み（１００６）を提供するために、８ビットが使用され得る。このことは、８ビットのデータが、８ビットが１つ、４ビットが２つ、または２ビットが４つであるものとしていかに解釈され得るかを示す。

【0055】

上記した内積回路は、複数精度の内積生成をサポートするために使用され得る。ブース・リコーディングおよび部分和生成回路は、入力データを幾分修正する必要がある。回路が同じ位取りの全ての部分和を加算するためには、修正は必要ない。最終的な合計回路は、異なる量を有する同じ位取りの部分和の合計をシフトし、次いでそれらを足し合わせる必要がある。

【0056】

図１１Ａ～図１１Ｃを参照すると、８ビット（図１１Ａ）、４ビット（図１１Ｂ）、および２ビット（図１１Ｃ）のモードについて、部分和生成が比較されている。これは部分和がどのように生成されるかを示している。８ビット・モードと比較すると、部分和生成器に入力される被乗数は、４ビットＡ’_ｉまたは２ビットＡ’’_ｉである。ブース・エンコーダに入力される被乗数は、ほぼ同一のビットである（Ｂ_０［７：５］＝Ｂ’_１［３：１］およびＢ_０［７：６］＝Ｂ’’_３［１：０］であるため）。Ｂ’_ｉ［－１］およびＢ’’_ｉ［－１］だけは０であると想定しなければならない。

【0057】

図１１Ａは、８ビット乗算器がどのように８ビット積１１１７を計算するかを示す。８ビット乗算器の場合の部分和１１１３…１１１６は、最初にＢ_０のブース・リコーディングを計算することによって、および次いで、場合によってはシフトを伴って、０、Ａ_０、または－Ａ_０を選ぶことよって、生成される。

【0058】

図１１Ｂでは、２元４ビット乗算器が、Ａ’_０＊Ｂ’_０＋Ａ’_１＊Ｂ’_１を生成する。最初にＢ’_０がブース・リコーディングされ、部分和１１２３…１１２４を生成するために使用される。これらの部分和は、場合によっては左に１ビットのシフトを伴って０、Ａ’_０、または－Ａ’_０のいずれかを選択することによって、生成される必要がある。同様に、Ｂ’_１はブース・リコーディングされ、場合によっては１ビットのシフトを伴って０、Ａ’_１、または－Ａ’_１のいずれかを選択することによって、部分和１１２５…１１２６を生成するために使用されることになる。８ビット乗算器とは異なり、Ａ’_０およびＢ’_０からの部分和１１２３…１１２４はＡ’_１およびＢ’_１から生成された部分和１１２５…１１２６と整列されるが、その理由は、それらがいずれも、Ｂ’０［１：－１］およびＢ’１［１：－１］である、１～－１の位置におけるブース・リコーディングから生成されるからである。最後に、全ての部分和１１２３…１１２６が足し合わされて、４ビット内積１１２７が生成される。

【0059】

図１１Ｃでは、４元２ビット乗算器が、内積Ａ’’_０＊Ｂ’’_０＋Ａ’’_１＊Ｂ’’_１＋Ａ’’_２＊Ｂ’’_２＋Ａ’’_３＊Ｂ’’_３を計算する。部分和１１３３は、Ｂ’’_０を最初にブース・リコーディングし、０、Ａ’’_０、または－Ａ’’_０のいずれかを選択することによって、Ａ’’_０およびＢ’’_０から生成される。同様に、部分和１１３４は、Ａ’’_１およびＢ’’_１から生成され、部分和１１３５はＡ’’_２およびＢ’’_２から生成され、部分和１１３６はＡ’’_３およびＢ’’_３から生成される。全ての部分和１１３３…１１３６が整列されるが、その理由は、それらが同じビット位置のブース・レコーディング（recording）値から生成されるからである。部分和１１３３…１１３６が足し合わされて、２ビット内積１１３７が生成される。

【0060】

８ビット・モードと比較すると、部分和生成器に入力される被乗数は、４ビットＡ’_ｉまたは２ビットＡ’’_ｉである。ブース・エンコーダに入力される被乗数は、ほぼ同一のビットである（Ｂ_０［７：５］＝Ｂ’_１［３：１］およびＢ_０［７：６］＝Ｂ’’_３［１：０］であるため）。Ｂ’_ｉ［－１］およびＢ’’_ｉ［－１］だけは０であると想定しなければならない。ブース・リコーディング論理は、この論理が被乗数を選択しシフトすることができるので、共有可能である。

【0061】

図１２を参照すると、４ビット内積を計算するための方法が示されている。この実施形態では、部分和を最初に加えるために同じ手法が採用される。この場合、部分和合計回路は、図８に示すような８ビット内積計算と同じである。特に、８ビット・モードに関して記載したような回路を使用して、各乗算器からの１番目の部分和（例えば１２０１）が集められて、和１２０５が計算される。同様に、２番目の部分和（例えば１２０２）が加算されて和１２０６が生成され、３番目の部分和（例えば１２０３）が加算されて和１２０７が生成され、４番目の部分和（例えば１２０４）が加算されて和１２０８が生成される。４ビット・モード計算に対応できるように、最終合計の前に和１２０５…１２０８の各々に異なるシフト量が適用されて、結果１２０９が算出される。

【0062】

各部分和計算について、１番目の部分和１２０１と２番目の部分和１２０２は異なる位取りのものであり、したがって、部分和１２０２は部分和１２０１と比較して左に２ビットシフトされる。しかしながら、３番目の部分和１２０３は部分和１２０１と同じ位取りを有し、これら２つの部分和は最終加算の前に整列される。同様に、４番目の部分和１２０４は２番目の部分和１２０２と整列されるが、部分和１２０３と比較して左に２ビットシフトされる。和１２０６は、部分和の和１２０５と比較して左に２ビットシフトされる。しかしながら、３番目の和１２０７は和１２０５と同じ位取りを有し、これら２つの和は最終加算の前に整列される。同様に、４番目の和１２０８は２番目の和１２０６と整列されるが、和１２０７と比較して左に２ビットシフトされている。４ビット・モード用のシフト制御は８ビット・モードとは異なり、各乗算器においてではなく、結果１２０９を計算するための最終加算の前に１度だけ実施すればよい。

【0063】

図１３を参照すると、２ビット内積を計算するための方法が示されている。図１２の４ビット内積計算と同様に、２ビット計算は、部分和を足し合わせるために、（図８におけるような）８ビット・モードと同じデータ・パスを使用する。ただし、最終合計は、シフトを全く行わずに部分和の和を加算することによって得られる。

【0064】

同じ位取りの部分和を最初に足し合わせる手法を採用することによって、例えば８ビット、４ビット、および２ビットのモードを提供する、複数精度用のデータ・パスを共有することができる。ブース・リコーダおよび部分和生成器は、様々な精度構成間で幾分修正された入力を採用する。同じ位取りの部分和の合計回路は同一である。最終合計は、精度に応じてシフトの量を異ならせて行う必要がある。このことにより、他のものよりもコンパクトな設計につながる。８ビット構成と比較すると、積和演算に関して４ビット・モードではサイクルあたりの計算量が２倍になり、２ビット・モードでは積和演算の回数が４倍になる。

【0065】

図１４を参照すると、同じ位取りの部分和の合計を使用して可変精度の内積を計算する方法が示されている。１４０１において、全ての被乗数Ｂ_ｉがブース・リコーディングされる。１４０２において、Ａ_ｉとＢ_ｉのリコーディングされた値とから、部分和が生成される。１４０３において、同じ位取りを有する全ての部分和の合計が行われる。１４０４において、部分和の合計はそれらの精度に従ってシフトされる。１４０５において、部分和が加算されて結果に到達する。

【0066】

図１５を参照すると、ニューラル・アクティベーションを計算するための方法が示されている。１５０１において、複数の入力アクティベーションを含む入力アクティベーション・テンソルが受け取られる。１５０２において、複数の重みを含む重みテンソルが受け取られる。１５０３において、複数の重みの各々が複数のブース・コーディングされた重みへとブース・リコーディングされ、各ブース・コーディングされた値はある位取りを有する。１５０４において、入力アクティベーション・テンソルにブース・コーディングされた重みが乗算され、入力アクティベーションごとに複数の結果が算出され、複数の結果の各々は、ブース・コーディングされた重みの位取りに対応している。１５０５において、ブース・コーディングされた重みの位取りごとに対応する結果が合計されて、位取りごとに１つの複数の部分和が算出される。１５０６において、複数の部分和の和からニューラル・アクティベーションが計算される。

【0067】

上記したように、本開示の様々な実施形態は、乗算ベクトルの各要素をブース・リコーディングすることによって２つのベクトルの内積を計算するためのチップを含む。被乗数ベクトルの要素およびリコーディングされた乗算値を使用して部分和が生成される。同じ位取りの全ての部分和が加算される。同じ位取りの部分和の合計はシフトを伴って加算される。いくつかの実施形態では、桁上げ保存加算器のツリーを使用して部分和加算が実行される。様々な実施形態において、ベクトル乗算器の複数のインスタンスが組み合わされて、ベクトル－行列乗算器が形成される。様々な実施形態において、複数のインスタンスが組み合わされて、行列－行列乗算器が形成される。

【0068】

様々な実施形態において、複数の精度が、乗算ベクトルの要素を精度に従って最初にブース・リコーディングすることによってサポートされる。部分和はその後その精度に従って生成され得る。同じ位取りの全ての部分和が加算される。部分和の和は精度に従ってシフトされ、次いでそれらが足し合わされる。

【0069】

ここで図１６を参照すると、計算ノードの例の概略図が示されている。計算ノード１０は好適な計算ノードの一例に過ぎず、本明細書に記載する実施形態の使用または機能性の範囲に関してどのような限定を示唆することも意図していない。いずれにせよ、計算ノード１０は実装され得る、または本明細書で上記した機能性のいずれかを実行できる、あるいはその両方である。

【0070】

計算ノード１０には、多数の他の汎用もしくは専用計算システム環境または構成と共に動作できる、コンピュータ・システム／サーバ１２が存在する。コンピュータ・システム／サーバ１２との使用に好適であり得る、よく知られた計算システム、環境、または構成あるいはその組合せの例としては、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、携帯型デバイスまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能消費者向け電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記システムまたはデバイスのいずれかを含む分散型クラウド・コンピューティング環境、などが挙げられるが、これらに限定されない。

【0071】

コンピュータ・システム／サーバ１２は、プログラム・モジュールなどの、コンピュータ・システムによって実行されるコンピュータ・システム実行可能命令の一般的な文脈で説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含み得る。コンピュータ・システム／サーバ１２は、通信ネットワークを介してリンクされているリモート処理デバイスによってタスクが実行される、分散型クラウド・コンピューティング環境において実施されてもよい。分散型クラウド・コンピューティング環境では、プログラム・モジュールを、メモリ・ストレージ・デバイスを含むローカルおよびリモートの両方のコンピュータ・システム・ストレージ媒体内に配置することができる。

【0072】

図１６に示すように、計算ノード１０中のコンピュータ・システム／サーバ１２は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム／サーバ１２のコンポーネントは、１つまたは複数のプロセッサまたは処理ユニット１６、システム・メモリ２８、およびシステム・メモリ２８を含む様々なシステム・コンポーネントをプロセッサ１６に連結するバス１８を含み得るが、これらに限定されない。

【0073】

バス１８は、メモリ・バスまたはメモリ・コントローラ、周辺バス、アクセラレイティッド・グラフィックス・ポート、および様々なバス・アーキテクチャのうちのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のいずれかのうちの１つまたは複数を表している。例として、限定するものではないが、そのようなアーキテクチャとしては、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（Video Electronics Standards Association；ＶＥＳＡ）ローカル・バス、周辺装置相互接続（Peripheral Component Interconnects；ＰＣＩ）バス、周辺装置相互接続エキスプレス（Peripheral Component Interconnect Express；ＰＣＩｅ）、およびアドバンスト・マイクロコントローラ・バス・アーキテクチャ（Advanced Microcontroller Bus Architecture；ＡＭＢＡ）が挙げられる。

【0074】

様々な実施形態では、１つまたは複数の推論処理ユニット（図示せず）がバス１８に連結される。そのような実施形態では、ＩＰＵはバス１８を介してメモリ２８からデータを受信し得るか、またはメモリ２８にデータを書き込み得る。同様に、ＩＰＵは本明細書に記載するように、バス１８を介して他のコンポーネントと相互作用し得る。

【0075】

コンピュータ・システム／サーバ１２は通常、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ１２がアクセス可能な任意の利用可能な媒体であってよく、これには、揮発性媒体および不揮発性媒体、取り外し可能媒体および取り外し不可能媒体の両方が含まれる。

【0076】

システム・メモリ２８は、ランダム・アクセス・メモリ（ＲＡＭ）３０またはキャッシュ・メモリ３２あるいはその両方などの、揮発性メモリの形態のコンピュータ・システム可読媒体を含み得る。コンピュータ・システム／サーバ１２は、他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ・システム・ストレージ媒体を更に含み得る。単なる例として、取り外し不可能な不揮発性磁気媒体（図示しないが典型的には「ハード・ドライブ」と呼ばれる）に対する読取りおよび書込みを行うための、ストレージ・システム３４が提供され得る。図示されていないが、取り外し可能な不揮発性磁気ディスク（例えば、「フロッピー（Ｒ）・ディスク」）に対する読取りおよび書込みを行うための磁気ディスク・ドライブ、ならびに、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光学媒体などの取り外し可能な不揮発性光ディスクに対する読取りまたは書込みを行うための光ディスク・ドライブが提供され得る。そのような例では、各々が１つまたは複数のデータ媒体インターフェースによってバス１８に接続され得る。以下で更に描写し記載するように、メモリ２８は、本開示の実施形態の機能を実行するように構成されている１組の（例えば少なくとも１つの）プログラム・モジュールを有する、少なくとも１つのプログラム製品を含み得る。

【0077】

１組の（少なくとも１つの）プログラム・モジュール４２を有するプログラム／ユーティリティ４０は、限定ではなく例としてメモリ２８に格納され得るが、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データにも格納され得る。オペレーティング・システム、１つもしくは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データの各々、またはこれらの何らかの組合せは、ネットワーキング環境の実装を含み得る。プログラム・モジュール４２は一般に、本明細書に記載する実施形態の機能または方法論あるいはその組合せを実行する。

【0078】

コンピュータ・システム／サーバ１２はまた、キーボード、ポインティング・デバイス、ディスプレイ２４、等などの１つもしくは複数の外部デバイス１４、ユーザとコンピュータ・システム／サーバ１２の対話を可能にする１つもしくは複数のデバイス、またはコンピュータ・システム／サーバ１２と１つもしくは複数の他のコンピューティング・デバイスとの通信を可能にする任意のデバイス（例えば、ネットワーク・カード、モデム、等）、あるいはそれらの組合せとも通信し得る。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース２２を介して行うことができる。また更に、コンピュータ・システム／サーバ１２は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的なワイド・エリア・ネットワーク（ＷＡＮ）、または公共ネットワーク（例えばインターネット）、あるいはその組合せなどの、１つまたは複数のネットワークと通信し得る。描かれているように、ネットワーク・アダプタ２０は、バス１８を介してコンピュータ・システム／サーバ１２のその他のコンポーネントと通信する。示されていないが、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネントあるいはその両方を、コンピュータ・システム／サーバ１２と組み合わせて使用してもよいことが理解されるべきである。例としては以下が挙げられるが、これらに限定されない：マイクロコード、デバイス・ドライバ、冗長な処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システム、等。

【0079】

本開示は、システム、方法、またはコンピュータ・プログラム製品あるいはそれらの組合せとして具現化され得る。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令を有する、コンピュータ可読記憶媒体を含んでもよい。

【0080】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持および記憶できる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または以上の任意の好適な組合せであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、命令が記録されているパンチ・カードもしくは溝の中の隆起構造などの機械的に符号化されたデバイス、および以上の任意の好適な組合せが含まれる。本明細書において使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通じて伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または配線を介して伝送される電気信号などの、一過性の信号そのものであると解釈されるべきではない。

【0081】

本明細書に記載するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せを経由して外部のコンピュータまたは外部ストレージ・デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを備え得る。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶されるように転送する。

【0082】

本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存型命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つもしくは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードのいずれか、であり得る。コンピュータ可読プログラム命令は、専らユーザのコンピュータ上で、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上でかつ部分的に遠隔のコンピュータ上で、または専ら遠隔のコンピュータもしくはサーバ上で、実行することができる。後者のシナリオでは、遠隔のコンピュータを、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して使用者のコンピュータに接続してもよく、または、外部のコンピュータへの接続を（例えば、インターネット・サービス・プロバイダを利用してインターネットを介して）行ってもよい。いくつかの実施形態では、例えばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本開示の態様を行うために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して電子回路を個人化することができる。

【0083】

本明細書には、本開示の実施形態に係る方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本開示の態様が記載されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せを、コンピュータ可読プログラム命令によって実施できることが理解されるであろう。

【0084】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が保存されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含んだ製品を備えるように、コンピュータ可読記憶媒体に保存され、コンピュータ、プログラム可能なデータ処理装置、または他のデバイス、あるいはそれらの組合せに特定の方式で機能するように指示できるものであってもよい。

【0085】

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータによって実行されるプロセスを作り出すべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

【0086】

図中のフローチャートおよびブロック図には、本開示の様々な実施形態に係るシステム、方法、およびコンピュータ・プログラム製品の、可能な実装形態のアーキテクチャ、機能性、および動作が説明されている。この関連において、フローチャートまたはブロック図内の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を備える、モジュール、セグメント、または命令の一部分を表すことができる。いくつかの代替的実装形態では、ブロック内に記された機能は、図に記されたものとは異なる順序で実行され得る。例えば、連続して示される２つのブロックは、実際には実質的に並行して実行されてもよく、またはこれらのブロックは時には、関わる機能に応じて逆の順序で実行され得る。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を行う、または専用ハードウェアとコンピュータ命令の組合せを実行する、専用ハードウェア・ベースのシステムによって実施され得ることも、留意されるであろう。

【0087】

本開示の様々な実施形態の説明を例示の目的で提示してきたが、それらは網羅的であることも開示される実施形態に限定されることも意図していない。当業者には記載される実施形態の範囲および思想から逸脱することなく多くの修正および変更が明らかであろう。本明細書で用いられる専門用語は、実施形態の原理、実際の用途、もしくは市場で見られる技術に対する技術的な改善を最もよく説明するように、または、他の当業者が本明細書において開示される実施形態を理解できるように、選択された。

【図1】