特表2023-546454 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ アーム・リミテッドの特許一覧

特表2023-546454高精度アンカー暗黙処理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-02

(54)【発明の名称】高精度アンカー暗黙処理

(51)【国際特許分類】

G06F 7/499 20060101AFI20231026BHJP

【ＦＩ】

G06F7/499 101

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023524302

(86)(22)【出願日】2021-10-21

(85)【翻訳文提出日】2023-04-20

(86)【国際出願番号】 GB2021052729

(87)【国際公開番号】W WO2022090690

(87)【国際公開日】2022-05-05

(31)【優先権主張番号】17/081,068

(32)【優先日】2020-10-27

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】500395107

【氏名又は名称】アーム・リミテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】バーゲス、ニール

(72)【発明者】

【氏名】ハインズ、クリストファーニール

(72)【発明者】

【氏名】ルッツ、デイヴィッドレイモンド

(72)【発明者】

【氏名】フェレイラ、ペドロオルセン

(57)【要約】

装置は、処理回路と記憶デバイスとを含む。処理回路は、１つ以上の命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように構成されている。記憶デバイスは、アンカーデータ要素を記憶するように構成される。アンカーデータ要素のフォーマットは、識別項目と、重複項目と、データ項目とを含む。データ項目は、アンカーデータ要素のデータ値を保持するように構成される。識別項目は、データ値に対するアンカー値、又は１つ以上の特殊値を示す。
【選択図】図３

【特許請求の範囲】

【請求項1】

装置であって、
１つ以上の命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように構成された処理回路と、
前記アンカーデータ要素を記憶するように構成された記憶デバイスであって、
前記アンカーデータ要素のフォーマットが、識別項目と、重複項目と、データ項目とを含み、
前記データ項目が、前記アンカーデータ要素のデータ値を保持するように構成されており、
前記識別項目が、前記データ値に対するアンカー値、又は１つ以上の特殊値を示す、記憶デバイスと、
を備える、装置。

【請求項2】

前記処理回路が、
複数の前記アンカーデータ要素内の複数の前記データ値を累算することによって結果値を生成し、かつ
前記累算中に前記結果値と関連付けられた前記アンカー値を自動的に変更する、
ように更に構成されている、請求項１に記載の装置。

【請求項3】

前記処理回路が、
複数の初期値を乗算することによって複数の第１の中間値を生成し、
前記複数の第１の中間値を複数の第２の中間値に変換し、前記複数の第２の中間値の各々が前記アンカーデータ要素の前記フォーマットを有し、かつ
前記複数の前記第２の中間値を累算することによって結果値を生成し、前記結果値が前記アンカーデータ要素の前記フォーマットを有する、
ように更に構成されている、請求項１に記載の装置。

【請求項4】

前記複数の初期値が、複数の浮動小数点値である、請求項３に記載の装置。

【請求項5】

前記処理回路が、
複数の初期値の第１のセットを乗算することによって複数の第１の中間値を生成し、
前記複数の初期値の第２のセットを乗算することによって複数の第２の中間値を生成し、
前記複数の第１の中間値を複数の第３の中間値に変換し、前記複数の第３の中間値の各々が前記アンカーデータ要素の前記フォーマットを有し、
前記複数の第２の中間値を複数の第４の中間値に変換し、前記複数の第４の中間値の各々が前記アンカーデータ要素の前記フォーマットを有し、
前記複数の第３の中間値及び前記複数の第４の中間値の上位部分を累算することによって複数の第５の中間値を生成し、前記複数の第５の中間値の各々が前記アンカーデータ要素の前記フォーマットを有し、
前記複数の第３の中間値及び前記複数の第４の中間値の下位部分を累算することによって複数の第６の中間値を生成し、前記複数の第６の中間値の各々が前記アンカーデータ要素の前記フォーマットを有し、
前記複数の第５の中間値を累算することによって第１の結果値を生成し、前記第１の結果値が前記アンカーデータ要素の前記フォーマットであり、かつ
前記複数の第６の中間値を累算することによって第２の結果値を生成し、前記第２の結果値が前記アンカーデータ要素の前記フォーマットである、
ように更に構成されている、請求項１に記載の装置。

【請求項6】

前記複数の初期値の前記第１のセット及び前記複数の初期値の前記第２のセットが、複数の浮動小数点値である、請求項５に記載の装置。

【請求項7】

前記アンカーデータ要素の前記フォーマットが、複数のセットに配置された、単一の前記識別項目と、複数の前記重複項目と、複数の前記データ項目とを含み、前記複数のセットの各々が、前記複数の重複項目のうちの１つ及び前記複数のデータ項目のうちの１つを含む、請求項１に記載の装置。

【請求項8】

前記アンカーデータ要素の前記フォーマットが、互いに連結された、単一の前記識別項目と、単一の前記重複項目と、複数の前記データ項目とを含む、請求項１に記載の装置。

【請求項9】

前記処理回路が、前記識別項目、前記重複項目、及び前記データ項目を、単一のアドレス指定可能な位置に一緒に記憶するように更に構成されている、請求項１に記載の装置。

【請求項10】

前記１つ以上の特殊値が、正の無限大、負の無限大、非数、又はオーバーフローを含む、請求項１に記載の装置。

【請求項11】

データ処理を制御する方法であって、
１つ以上の命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように処理回路を制御することと、
前記アンカーデータ要素を記憶することであって、
前記アンカーデータ要素のフォーマットが、識別項目と、重複項目と、データ項目とを含み、
前記データ項目が、前記アンカーデータ要素のデータ値を保持するように構成されており、
前記識別項目が、前記データ値に対するアンカー値、又は１つ以上の特殊値を示す、ことと、
を含む、方法。

【請求項12】

複数の前記アンカーデータ要素内の複数の前記データ値を累算することによって結果値を生成することと、
前記累算中に前記結果値と関連付けられた前記アンカー値を自動的に変更することと、
を更に含む、請求項１１に記載の方法。

【請求項13】

複数の初期値を乗算することによって複数の第１の中間値を生成することと、
前記複数の第１の中間値を複数の第２の中間値に変換することであって、前記複数の第２の中間値の各々が前記アンカーデータ要素の前記フォーマットを有する、ことと、
前記複数の前記第２の中間値を累算することによって結果値を生成することであって、前記結果値が前記アンカーデータ要素の前記フォーマットを有する、ことと、
を更に含む、請求項１１に記載の方法。

【請求項14】

複数の初期値の第１のセットを乗算することによって複数の第１の中間値を生成することと、
前記複数の初期値の第２のセットを乗算することによって複数の第２の中間値を生成することと、
前記複数の第１の中間値を複数の第３の中間値に変換することであって、前記複数の第３の中間値の各々が前記アンカーデータ要素の前記フォーマットを有する、ことと、
前記複数の第２の中間値を複数の第４の中間値に変換することであって、前記複数の第４の中間値の各々が前記アンカーデータ要素の前記フォーマットを有する、ことと、
前記複数の第３の中間値及び前記複数の第４の中間値の上位部分を累算することによって複数の第５の中間値を生成することであって、前記複数の第５の中間値の各々が前記アンカーデータ要素の前記フォーマットを有する、ことと、
前記複数の第３の中間値及び前記複数の第４の中間値の下位部分を累算することによって複数の第６の中間値を生成することであって、前記複数の第６の中間値の各々が前記アンカーデータ要素の前記フォーマットを有する、ことと、
前記複数の第５の中間値を累算することによって第１の結果値を生成することであって、前記第１の結果値が前記アンカーデータ要素の前記フォーマットである、ことと、
前記複数の第６の中間値を累算することによって第２の結果値を生成することであって、前記第２の結果値が前記アンカーデータ要素の前記フォーマットである、ことと、
を更に含む、請求項１１に記載の方法。

【請求項15】

前記アンカーデータ要素の前記フォーマットが、複数のセットに配置された、単一の前記識別項目と、複数の前記重複項目と、複数の前記データ項目とを含み、前記複数のセットの各々が、前記複数の重複項目のうちの１つ及び前記複数のデータ項目のうちの１つを含む、請求項１１に記載の方法。

【請求項16】

前記アンカーデータ要素の前記フォーマットが、互いに連結された、単一の前記識別項目と、単一の前記重複項目と、複数の前記データ項目とを含む、請求項１１に記載の方法。

【請求項17】

前記識別項目、前記重複項目、及び前記データ項目を、単一のアドレス指定可能な位置に一緒に記憶すること、
を更に含む、請求項１１に記載の方法。

【請求項18】

データ処理を制御する命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサによって実行されると、前記プロセッサに、
前記命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように処理回路を制御することと、
前記アンカーデータ要素を記憶することであって、
前記アンカーデータ要素のフォーマットが、識別項目と、重複項目と、データ項目とを含み、
前記データ項目が、前記アンカーデータ要素のデータ値を保持するように構成されており、
前記識別項目が、前記データ値に対するアンカー値、又は１つ以上の特殊値を示す、ことと、
を含む、複数の動作を実行させる、非一時的コンピュータ可読記憶媒体。

【請求項19】

前記複数の動作が、
複数の前記アンカーデータ要素内の複数の前記データ値を累算することによって結果値を生成することと、
前記累算中に前記結果値と関連付けられた前記アンカー値を自動的に変更することと、
を更に含む、請求項１８に記載の非一時的コンピュータ可読記憶媒体。

【請求項20】

前記複数の動作が、
複数の初期値を乗算することによって複数の第１の中間値を生成することと、
前記複数の第１の中間値を複数の第２の中間値に変換することであって、前記複数の第２の中間値の各々が前記アンカーデータ要素の前記フォーマットを有する、ことと、
前記複数の前記第２の中間値を累算することによって結果値を生成することであって、前記結果値が前記アンカーデータ要素の前記フォーマットを有する、ことと、
を更に含む、請求項１８に記載の非一時的コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、データ処理に関し、特に、埋め込まれたアンカー値を有する高精度アンカー暗黙（High－Precision Anchored－Implicit：ＨＰＡＩ）数を用いたデータ処理に関する。

【0002】

ニューラルネットワーク及び機械学習などのデータ処理システムにおいて、浮動小数点表現を使用することは一般的である。浮動小数点数は、仮数と、その仮数のビットの有意性を示す指数とを含む。浮動小数点フォーマットにより、有限数のビットを使用して広範囲にわたる数値を表現することが可能になる。しかしながら、浮動小数点数を処理する専用ハードウェアは、しばしば複雑であり、一般的に、整数ベースの数を処理する同等のハードウェアよりも遅い。ハードウェア問題を低減するために、単精度ＩＥＥＥ－７５４標準浮動小数点フォーマットよりも少ないビットを使用する「１６ビットのブレイン浮動小数点（Brain floating－point format with 16 bits）」（ｂｆｌｏａｔ１６）フォーマットが作成された。しかしながら、浮動小数点数の総和は非連想的であり、これは、浮動小数点数が異なる順序で加算されるときに異なる結果がもたらされることを意味する。例えば、ｂｆｌｏａｔ１６値を伴う計算では、（２^４＋２^２０－２^２０＝（２^２０）－２^２０＝０である。それに対して、２^４＋（２^２０－２^２０）＝２^４＋（０）＝２^４＝１６である。

【発明の概要】

【0003】

装置が、本明細書で提供される。装置は、処理回路と記憶デバイスとを含む。処理回路は、１つ以上の命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように構成されている。記憶デバイスは、アンカーデータ要素を記憶するように構成される。アンカーデータ要素のフォーマットは、識別項目と、重複項目と、データ項目とを含む。データ項目は、アンカーデータ要素のデータ値を保持するように構成されている。識別項目は、データ値に対するアンカー値、又は１つ以上の特殊値を示す。

【0004】

データ処理を制御する方法が、本明細書で提供される。方法は、１つ以上の命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように処理回路を制御することと、アンカーデータ要素を記憶することとを含む。アンカーデータ要素のフォーマットは、識別項目と、重複項目と、データ項目とを含む。データ項目は、アンカーデータ要素のデータ値を保持するように構成されている。識別項目は、データ値に対するアンカー値、又は１つ以上の特殊値を示す。

【0005】

データ処理を制御する命令を記憶する非一時的コンピュータ可読記憶媒体が、本明細書で提供される。命令は、プロセッサによって実行されると、プロセッサに、複数の動作を実行させる。動作には、命令に応じて１つ以上の処理動作を実行してアンカーデータ要素を生成するように処理回路を制御することと、アンカーデータ要素を記憶することとを含む。アンカーデータ要素のフォーマットは、識別項目と、重複項目と、データ項目とを含む。データ項目は、アンカーデータ要素のデータ値を保持するように構成されている。識別項目は、データ値に対するアンカー値、又は１つ以上の特殊値を示す。

【0006】

本開示の上記の特徴及び利点、並びに他の特徴及び利点は、添付の図面に関連において考慮すると、本開示を実施するための最良の形態の以下の詳細な説明から容易に明らかになる。

【図面の簡単な説明】

【0007】

【図1】１つ以上の例示的な実施形態による、プログラム命令の制御下でデータ処理動作を実行するためのデータ処理デバイスを示す概略図である。

【図2】１つ以上の例示的な実施形態による、数値の様々な表現を示す概略図である。

【図3】１つ以上の例示的な実施形態による、アンカーデータ要素の概略図である。

【図4】１つ以上の例示的な実施形態による、単精度浮動小数点値で表現可能な値の範囲と、アンカーデータ要素の有意性範囲との間の関係を示す概略図である。

【図5】１つ以上の例示的な実施形態による累算器の概略図である。

【図6】１つ以上の例示的な実施形態による、ＨＰＡＩ累算器へのｂｆｌｏａｔ１６数の第１の変換の概略図である。

【図7】１つ以上の例示的な実施形態による、ＨＰＡＩ累算器へのｂｆｌｏａｔ１６数の第２の変換の概略図である。

【図8】１つ以上の例示的な実施形態による、ｂｆｌｏａｔ１６値からアンカーデータ要素への変換データパスの概略図である。

【図9】１つ以上の例示的な実施形態による、単一レーンＨＰＡＩ累算データパスの概略図である。

【図10】１つ以上の例示的な実施形態による、複数レーンＨＰＡＩ累算シーケンスの概略図である。

【図11】１つ以上の例示的な実施形態による、別の累算器の概略図である。

【図12】１つ以上の例示的な実施形態による、２レーンドット４積回路の概略図である。

【図13】１つ以上の例示的な実施形態による、第１の代替アンカーデータ要素の概略図である。

【図14】１つ以上の例示的な実施形態による、第２の代替アンカーデータ要素の概略図である。

【図15】１つ以上の例示的な実施形態による、浮動小数点ドット積回路及びＨＰＡＩドット積回路の回路レイアウト合成結果の概略図である。

【発明を実施するための形態】

【0008】

本開示の実施形態は、概して、メタデータがデータと同じオペランドレジスタに記憶されることを可能にする高精度アンカー（High－Precision Anchored：ＨＰＡ）数のための改善された表現を提供する。メタデータ及びデータを単一のオペランドレジスタに記憶することにより、ＨＰＡタイプの乗算－累算命令が可能になる。改善では、対応するデータに対するアンカー値の指示を含むように各オペランドを修正する。改善された表現は、高精度アンカー暗黙（ＨＰＡＩ）数及び／又はアンカーデータ要素と呼ばれ得る。

【0009】

オペランドの識別部分は、累算器回路に対して処理を改善するいくつかの特徴を可能にする「レーン識別」として機能する。識別部分により、追加の入力値が累算されるときにオペランドのデータが動的スケーリングされることを可能にする。動的スケーリング機能は、外部からの関与なしに累算を継続させることを可能にし、プログラマがアンカー値を事前に指定するタスク、及び累算が必要とするようなアンカー値を調整する要件を除去する。オペランドは、入力値が累算されるときに調整される暗黙アンカー値を有する。

【0010】

改善されたフォーマットは、キャリー伝播なしにマルチレーン累算を可能にする重複ビットを保持する。重複ビットは、レーン識別に対する変更がない場合及びレーン識別に対する変更がある場合に、累算スループットを増加させる。オペランド内のデータ項目に対するアンカー値の指示を埋め込むことにより、累算ハードウェアを簡略化する。簡略化されたハードウェアは、累算を実行し、累算がより高い数値範囲に更新されるときにレーン識別値を修正することができる。

【0011】

データ項目の様々な実施形態は、しばしば機械学習アプリケーションにおいて使用される、ドット積を計算するための高速かつシンプルなハードウェアを可能にする。内部計算論理は、物理的サイズに依存せず、かつ結果データサイズに制限されない。これにより、最終結果よりも高い精度の内部計算を提供し、アプリケーションの精度要求を満たすために結果の正確性を増加させ、更に、計算結果が１６ビット、３２ビット、６４ビット、又はそれ以上を含む任意のサイズであることを可能にする。

【0012】

図１を参照すると、１つ以上の例示的な実施形態による、プログラム命令の制御下でデータ処理動作を実行するためのデータ処理デバイス９０を示す概略図が示されている。データ処理デバイス９０は、記憶要素９２とプロセッサコア（又は装置）１００とを含む。記憶要素９２は、データ９４及びプログラム命令９６を記憶するように構成されている。プロセッサコア１００は、記憶デバイス１０２と、処理回路１０４と、命令フェッチユニット１０６と、命令パイプライン１０８と、デコーダ１１０とを含む。実際には、データ処理デバイス９０は多くの追加の要素を含んでもよく、図１の表現は理解を助けるために簡略化されていることが理解されるであろう。

【0013】

データ信号（例えば、Ｄ）は、記憶要素９２とプロセッサコア１００との間で交換される。データ信号Ｄは、プログラム命令９６ごとにプロセッサコア１００によって処理されるデータ９４と、処理によって生成される結果値とを搬送する。命令信号（例えば、Ｉ）は、記憶要素９２からプロセッサコア１００に転送される。命令信号Ｉは、プロセッサコア１００によって実行されるプログラム命令９６を搬送する。

【0014】

記憶要素９２は、１つ以上の大容量記憶装置として実装される。記憶要素９２は、プロセッサコア１００に結合される。記憶要素９２は、データ９４及びプログラム命令９６を記憶するように動作可能である。様々な実施形態では、記憶要素９２は、データ信号Ｄ及び命令信号Ｉを介してプロセッサコア１００と通信するように構成された、１つ以上のメモリカード、１つ以上のソリッドステートドライブ、及び／又は１つ以上のハードディスクドライブを含む。特定のアプリケーションの設計基準を満たすために、他の形態の記憶装置が記憶要素９２内に実装されてもよい。

【0015】

プロセッサコア１００は、プログラム命令９６を実行してデータ９４を操作するように動作可能である。処理回路１０４は、プログラム命令９６のうちの１つ以上に応じて１つ以上の処理動作を実行して、アンカーデータ要素を生成し、かつアンカーデータ要素を記憶するように構成されている。アンカーデータ要素のフォーマットは、識別項目と、重複項目と、データ項目とを含む。データ項目は、アンカーデータ要素のデータ値を保持するように構成されている。識別項目は、データ値に対するアンカー値、又は１つ以上の特殊値を示す。

【0016】

動作において、プログラム命令９６は、命令フェッチユニット１０６によって記憶要素９２からフェッチされ、命令パイプライン１０８に供給される。プログラム命令９６が命令パイプライン１０８内の適切なステージに到達すると、プログラム命令９６はデコーダ１１０によってデコードされ、デコードされたプログラム命令によって指定された処理動作（単数又は複数）を実行するために、記憶デバイス１０２及び処理回路１０４の動作を制御するように機能する制御信号を生成する。複数の入力オペランドは、記憶デバイス１０２から読み出され、処理回路１０４に供給されて、入力オペランドが操作され、１つ以上のその後の結果値が記憶デバイス１０２内に書き戻され得る。

【0017】

記憶デバイス１０２は、様々な異なる形態で実装され得る。様々な実施形態では、記憶デバイス１０２は、レジスタバンクとして実装される。オペランドは、例えば、浮動小数点オペランド、固定小数点オペランド、整数オペランド、ＨＰＡオペランド、及び／又はＨＰＡＩオペランドを含み得る。記憶デバイス１０２は、記憶デバイス１０２の構成に応じて、これらのタイプのオペランドの混合物を記憶するように機能し得る。オペランドは、そのフォーマットによって事前定義され得るように、又はレジスタと関連付けられたメタデータを使用してプログラム可能に指定され得るように、異なるレベルの精度を有し得る。高精度アンカー暗黙オペランドの更なる詳細は、米国特許第１０，５７９，３３８号に見出すことができ、その全体が参照により本明細書に組み込まれる。

【0018】

図２を参照すると、１つ以上の例示的な実施形態による、数値の様々な例示的な表現を示す概略図が示されている。単精度浮動小数点オペランド１２０は、符号、指数、及び、仮数で形成される。単精度浮動小数点オペランド１２０は、所定のサイズ（例えば、［３１：０］）を有し、それらの指数値によって示される多種多様な大きさを有する値を表すことができる。数を表現できる精度は、仮数の大きさによって制限される。浮動小数点動作は、一般的に整数演算よりも複雑で、遅い。

【0019】

３２ビット整数オペランド１２２も示されている。整数オペランド１２２は、所定のサイズ（例えば、［３１：０］）として、符号なし整数に対して０～２^３２－１の範囲内の数を表し、符号付き整数に対して－２^３１～２^３１－１の範囲内の数を表すことができる。整数演算は、一般的に、（浮動小数点動作と比べて）迅速で、実行するための消費エネルギーも比較的少ないが、浮動小数点値によって表現され得る数の範囲と比べて、指定され得る数が比較的制限された範囲になるというデメリットを被る。

【0020】

更に、高精度アンカー暗黙（ＨＰＡＩ）オペランドが示されている。この例におけるＨＰＡＩオペランドは、複数の（この例では３つの）アンカーデータ要素１２４ａ～１２４ｃのベクトルを含み、各々が、この例では３２ビット整数（例えば、［３１：０］）を含む。ＨＰＡＩオペランドは、関連付けられたメタデータを有する。メタデータは、アンカーデータ要素１２４ａ～１２４ｃのうちの１つ以上の中に埋め込まれ、ＨＰＡＩ数の一部を形成する成分のビットの有意性を示すアンカー値を含む。アンカー値（単数又は複数）は、ビット有意性の下限とビット有意性の上限とを、直接的又は間接的に指定するものである。本明細書で使用されるメタデータという用語は、データ値（単数又は複数）に対応すると考えられてもよく、ＨＰＡＩ数のビット有意性を指定するために使用され得る。異なる成分を一緒に使用して、ビット有意性の範囲を連続してスパンするビット値を指定してもよい。ビット有意性の下限とビット有意性の上限との位置に応じて、ビット有意性の範囲は、２進小数点の位置を含むことができる。また、２進小数点の位置が、特定の高精度アンカー暗黙値に対して指定されたビット有意性の範囲の外側にある可能性もある。

【0021】

アンカー値（単数又は複数）は、浮動小数点値（例えば、単精度ＦＰ値）によって表現され得る最小有意性から、その浮動小数点値によって表現され得る最大ビット有意性まで及ぶビット有意性の範囲を表現することができるように提供されてもよい。

【0022】

高精度アンカー暗黙数を形成する成分の数は、異なる実装形態間で変化してもよい。成分のサイズは、いくつかの実施形態では固定されているが、他の実施形態では変化してもよい。いくつかの実施形態では、ビット有意性の範囲の全体的な幅は、固定成分サイズの単位で変化するように制約されてもよい（例えば、１６ビット成分では、ビット有意性の範囲は、例えば、１６、３２、６４、１２８、１９２、２５６・・・の幅を有し得る）。また、ビット有意性の範囲の幅は、１ビット幅のステップで連続的に変化させることも可能である。

【0023】

アンカーデータ要素内にアンカー値（単数又は複数）を埋め込むことにより、一般に、プログラマが対応するＨＰＡＩ値の有意性（例えば、アンカー値）を設定及び更新するための手動タスクを排除する。アンカー値は、様々な異なる方法でビット有意性を指定することができる。一例は、各ベクトル成分の下限のビット有意性を指定することである。したがって、各ベクトルの成分は、ビット有意性の全体的な範囲内で値の有効ビットの部分を表す整数値と、その成分内の最下位ビットの有意性を表す（アンカーする）メタデータを含んでもよい。また別のオプションは、アンカー値（単数又は複数）が、高精度アンカー暗黙数全体のビット有意性の下限を、ビット有意性の範囲の全幅とともに指定することである。更なるオプションは、アンカー値（単数又は複数）が、ビット有意性を表す範囲の下限と上限を指定するデータを含むことある。更に、アンカー値（単数又は複数）が、固定幅の成分であることがわかっている成分の数と一緒にビット有意性の範囲の下限を含むなどのバリエーションも可能である。

【0024】

図３を参照すると、１つ以上の例示的な実施形態による、アンカーデータ要素１２４の例示的な実装形態の概略図が示されている。アンカーデータ要素１２４は、データ項目１３０と、重複項目１３２と、識別項目１３４とを含む。識別項目１３４は、レーン項目１３６と特別項目１３８とを含む。様々な実施形態では、アンカーデータ要素１２４は、Ｎビット（例えば、３２ビット）２値ストリングとして表され得る。

【0025】

データ項目１３０は、アンカーデータ要素１２４のデータ値を記憶するように構成されている。データ項目１３０は、アンカーデータ要素１２４内のＤビット（例えば、１６ビット）フィールドであり、Ｄ＜Ｎである。様々な実施形態では、データ項目１３０は、アンカーデータ要素１２４の下位のＤビットを占有する。

【0026】

重複項目１３２は、データ項目１３０単独で保持され得るよりも高精度のデータを記憶するために、アンカーデータ要素１２４内にエキストラビットを提供するように構成されている。いくつかの実施形態では、重複項目１３２は、アンカーデータ要素１２４内のＯビット（例えば、１１ビット）フィールドであり、Ｏ＜Ｎである。重複項目１３２は、データ項目１３０内のデータがそうでなければデータ項目１３０の境界をオーバーフローしてしまうような加算／累算動作中に使用される。

【0027】

レーン項目１３６は、レーン識別値を記憶するように構成されている。様々な実施形態では、レーン項目１３６は、識別項目１３４を有するＬビット（例えば、４ビット）フィールドであり、Ｌ＜Ｎである。レーン項目１３６内のレーン識別値は、データ項目１３０及び重複項目１３２内に保持されるデータ値に対するアンカー値である。レーン識別値は、データ値のビット有意性ウィンドウを確立するメタデータを提供する。

【0028】

特別項目１３８は、識別項目１３４内の残りのビットが識別値、又はいくつかの可能な特殊値のうちの１つであるときを判定するビット（又はフラグ）を記憶するように構成されている。特別項目１３８は、識別項目１３４を有するＳビット（例えば、１ビット）フィールドであり、Ｓ＜Ｎである。様々な実施形態では、特別項目１３８が通常値（例えば、論理０値）を保持する一方で、識別項目１３４内の残りのビットは、レーン識別値として解釈される。特別項目１３８が所定の値（例えば、論理１値）を保持している間、識別項目１３４内の残りのビットは、アンカーデータ要素１２４が正の無限大、負の無限大、非数、及びオーバーフロー指示のうちの１つであることを指定する。識別項目１３４内のＬビットの他の組み合わせを使用して、特定のアプリケーションの設計基準を満たす他の特殊値を表すことができる。

【0029】

項目１３０～１３４を単一のＮビット要素に組み合わせることにより、Ｎビット要素は、単一のＮビット記憶要素（又はレジスタ）にロードされて記憶され得る。したがって、図１の処理回路１０４は、単一のアドレス指定可能な位置に一緒にある、識別項目１３４、重複項目１３２、及びデータ項目１３０にアクセスするように構成されている。

【0030】

図４を参照すると、１つ以上の例示的な実施形態による、単精度浮動小数点値で表現可能な値の範囲と、図３のアンカーデータ要素１２４の例示的な有意性範囲との間の関係を示す概略図が示されている。単精度浮動小数点数の場合、指定され得るビット値の範囲１４０は、一般に、約２^＋１２７～約２^－１４９に及ぶ。アンカーデータ要素１２４のビット有意性ウィンドウ１４２は、範囲１４０内のどこにあってもよいが、範囲１４０の一部のみをカバーする。ビット有意性ウィンドウ１４２は、初期範囲を確立するためにプログラマによってプログラム可能であり得る。ビット有意性ウィンドウ１４２はまた、内部に保持されたデータ値がウィンドウ１４２の上限を超えると、アンカーデータ要素１２４を操作するハードウェアによって自動的に調整されてもよい。

【0031】

図５を参照すると、１つ以上の例示的な実施形態による、例示的な２８８ビットＨＰＡＩ累算器１５０の概略図が示されている。ＨＰＡＩ累算器１５０は、［＋１２８：－１４２］の範囲にわたる１７レーン累算器（例えば、１５、１４、．．．、０、－１）と見なされ得る。各レーンは、累算の１６ビットをカバーする。レーン１５は、一般に、累算［１２８：１１３］をカバーし、レーン１４は累算［１１２：９７］をカバーし、以下同様である。レーン１は、任意選択的に、非常に小さい指数（例えば、≦－１１３）を有する積の最下位ビットのために使用される。隣接するレーン（図示せず）の暗黙１１ビット重複は、１つのレーンの重複項目１３２が隣接するレーン内に延びる場合に存在する。

【0032】

ｂｆｌｏａｔ１６数をＨＰＡＩ累算器１５０にマッピングすることは、対応するアンカーデータ要素１２４に対するレーン識別値の判定を伴う。１６レーンの場合、レーン識別値は、ｂｆｌｏａｔ指数（例えば、指数［７：４］）の４つの最上位ビットとして取得され得る。したがって、ｂｆｌｏａｔ１６積は、ＨＰＡＩ累算器１５０の正しいレーンに配置されるように、～ｅｘｐ［３：０］だけ右にシフトされ得る（例えば、～ｅｘｐ［３：０］＝＝１５（１０進数）～ｅｘｐ［３：０］）。図示の例では、レーン識別値は０（１０進数）である。

【0033】

図６を参照すると、１つ以上の例示的な実施形態による、ＨＰＡＩ累算器へのｂｆｌｏａｔ１６数の第１の例示的な変換１６０の概略図が示されている。＋２^－４×１．ｅ０１ｅの例示的な値は、０ｘ７Ｂ（１６進数）の８ビットｂｆｌｏａｔ１６指数をもたらす。指数の４つの最上位ビット（例えば、０ｘ７）は、レーン識別値を判定する。０ｘｆ００ｆ（１６進数）の仮数が指数と組み合わされて、０ｘ３８０００ｆ００（１６進数）の３２ビット値に対応するＨＰＡＩ数を戻す。アンカーデータ要素１２４（ＨＰＡＩ）のデータ項目１３０は、１６ビットのフラクション（例えば、０ｘ０ｆ００）を保持することができる。したがって、元の仮数０ｘｆ００ｆからの１２ビット（例えば、０ｘｆ００）は、１６ビット（例えば、０ｘ０ｆ００）にパディングされたままにされ、レーン７に割り当てられて、元の仮数（例えば、０ｘｆ）の最後の４ビットがレーン６に割り当てられる。１レーン変換の場合、レーン６の値は破棄される（例えば、切り捨てられる）。負の積は、宛先重複領域を全て１に設定することになる（図示せず）。

【0034】

図７を参照すると、１つ以上の例示的な実施形態による、ＨＰＡＩ累算器へのｂｆｌｏａｔ１６数の第２の例示的な変換１７０の概略図が示されている。＋２^＋４ｘ１．ｅ０１ｅ、０ｘ８３（１６進数）の８ビットｂｆｌｏａｔ１６指数の例示的な値を仮定する。指数の４つの最上位ビット（例えば、０ｘ８）は、レーン識別値を判定する。０ｘｆ００ｆ（１６進数）の仮数が指数と組み合わされて、０ｘ４００００００ｆ（１６進数）の３２ビット値に対応するＨＰＡＩ数を戻す。アンカーデータ要素１２４（ＨＰＡＩ）のデータ項目１３０は、１６ビットのフラクション（例えば、０ｘ０００ｆ）を保持することができる。したがって、元の仮数０ｘｆ００ｆからの４ビット（例えば、０ｘｆ）は、１６ビット（例えば、０ｘ０００ｆ）にパディングされたままにされ、レーン８に割り当てられて、元の仮数（例えば、０ｘ００ｆ）の最後の１２ビットがレーン７に割り当てられる。１レーン変換の場合、レーン７の値は破棄される（例えば、切り捨てられる）。

【0035】

図８を参照すると、１つ以上の例示的な実施形態による、ｂｆｌｏａｔ１６値からアンカーデータ要素１２４への例示的な変換データパス１８０の概略図が示されている。データパス１８０は、プロセッサコア１００内に実装され得る。入力ｂｆｌｏａｔ１６（ＢＦ）積１８２は、データパス１８０によって受信され得る。データパス１８０は、ブロック１８４と、ブロック１８６と、ブロック１８８と、ブロック１９０と、ブロック１９２と、ブロック１９４とを含む。

【0036】

ｂｆｌｏａｔ１６積は、ブロック１８４において、指数、仮数、及び「ＳＩＺＤ」フィールドに解析される。ＳＩＺＤフィールドは、符号、無限大、０、及び非数インジケータのうちの１つ以上を示す。指数フィールドは、ブロック１８６において、４つの最上位ビット（例えば、［７：４］）及び４つの最下位ビット（例えば、［３：０］）に解析される。

【0037】

ブロック１８８において、ＳＩＺＤフィールド及び４つの最上位指数ビットを使用して、アンカーデータ要素１２４の、特別項目１３８に記憶される特殊値及びレーン項目１３６に記憶されるレーン識別値の両方が判定される。ブロック１９０において、１６ビットのｂｆｌｏａｔ１６積の仮数及びＳＩＺＤフィールドの＋符号ビットが、１７ビットの２の補数に変換される。２の補数のインクリメントは、後の加算／累算まで延期され得る。ＨＰＡＩ数のビット［１６］は、累算される前に、データ項目１３０内の重複領域全体に符号拡張される。変換された積のビット［１６］は、インクリメントすべきか否かを指定する。ブロック１９２において、ｂｆｌｏａｔ１６指数フィールドの下位の４ビットを使用して、２の補数をデータ項目１３０の１６ビットサイズにシフトする。様々な実施形態では、２の補数ブロック１９０及びシフタブロック１９２の順序は逆にされてもよい。

【0038】

ブロック１９４において、識別項目１３４及びデータ項目１３０は、ブロック１８８、１９０及び１９２によって判定された値によって、ポピュレートされる。重複項目１３２は、変換されたｂｆｌｏａｔ積の符号に応じて、全て０ビット又は全て１でポピュレートされ得る。データパス１８０の終わりに、ｂｆｌｏａｔ１６積１８２は、処理回路１０４、及び／又はプロセッサコア１００内の他の場所で使用するのに適したアンカーデータ要素１２４に変換される。

【0039】

図９を参照すると、１つ以上の例示的な実施形態による、例示的な単一レーンＨＰＡＩ累算データパス２００の概略図が示されている。データパス２００は、プロセッサコア１００内に実装され得る。データパス２００は、ブロック２０２と、ブロック２０４と、ブロック２０６と、ブロック２０８と、ブロック２１０と、ブロック２１２と、ブロック２１４とを含む。図示されたデータパス２００の例では、一般に、５＋１７ビットＨＰＡＩｂｆｌｏａｔ積を５＋２７ビットＨＰＡＩ累算器積に加算する。

【0040】

ブロック２０２において、アンカーデータ要素１２４に最近変換されたｂｆｌｏａｔ１６積は、１７ビットの新しいデータ（例えば、ＨＰＡＩｂｆｌｏａｔ）及び５ビットの識別値（例えば、ＩＤ１）に解析される。ブロック２０４において、累算器内に現在ある累算データは、２７ビットの累算データ（例えば、ＨＰＡＩＡｃｃ）及び５ビットの識別値（例えば、ＩＤ０）に解析され得る。識別値ＩＤ０が識別値ＩＤ１と比較されるブロック２０６において、単一の５ビット比較が実行される。比較の結果は、特殊値を考慮して、識別値（ID result）＝ｍａｘ（ＩＤ１，ＩＤ０）である。ＩＤ結果は、ブロック２０８、２１０、及び２１４に提示され得る。

【0041】

ブロック２０８において、新しいデータが非０値を有するか又は０値を有するかを判定するために、選択（例えば、２×２７ビットＡＮＤゲート）が実行される。選択は、ＩＤ結果及び新しいデータに基づく。全重複領域を考慮するために、ブロック２０８の選択論理は、新しいデータを１７ビットから２７ビットに符号拡張する。ブロック２１０において、累算データが非０値を有するか又は０値を有するかを判定するために、選択（例えば、２×２７ビットＡＮＤゲート）が実行される。選択は、ＩＤ結果及び累算データに基づく。ブロック２１２において、２つの選択ブロック２０８及び２１０の結果が加算される。加算は、２７ビット整数加算器であり得る。加算器は、ＨＰＡＩｂｆｌｏａｔの２の補数値の完了のためのキャリーイン能力を含んでもよい。

【0042】

２７ビット累算データのオーバーフロー検出に応じて、オーバーフロー信号（例えば、ｏｖｆ）が、ブロック２１２によってブロック２１４にアサートされ得る。ブロック２１４は、ＩＤ結果を特殊オーバーフロー値に強制することによって、オーバーフロー信号アサーションに応答する。

【0043】

図１０を参照すると、１つ以上の例示的な実施形態による、例示的な複数レーンＨＰＡＩ累算シーケンス２２０の概略図が示されている。シーケンス２２０は、プロセッサコア１００内に実装され得る。シーケンス２２０は、宛先ＨＰＡＩ要素２２４に新しいデータを累算する複数のレーン２２２ａ～２２２ｇを含む。シーケンス２２０は、ステップ２２６と、ステップ２２８と、ステップ２３０と、ステップ２３２と、ステップ２３４と、ステップ２３６と、ステップ２３８と、ステップ２４０とを含む。

【0044】

累算加算中、ＩＤ（ｏｐ０）＝＝ＩＤ（ｏｐ１）である場合（例えば、図９のブロック２０６）、ＨＰＡＩ要素が加算され、そうでない場合、より大きいＩＤ値を有するＨＰＡＩ要素が利用される。結果値のレーンＩＤ（アンカー値）は、累算中に宛先ＨＰＡＩ要素２２４において更新され得る。再現可能な総和のために、レーンＩＤは、累算中の増加に対して制限される。新しいｂｆｌｏａｔ１６データ内の特殊値を処理するための規則は、ＩＥＥＥ標準に従うことができる。

【0045】

最初の新しいデータ（例えば、ＢＦ＃１）は、ステップ２２６において累算器によって受信され得る。ＢＦ＃１は、レーン２２２ｄ及び２２２ｅ（例えば、レーン４及び５）内に存在する。したがって、累算器は、ステップ２２８において、最も高いレーン数（例えば、５）を示す識別値とともに、ＢＦ＃１を宛先ＨＰＡＩ要素２２４に加算する。ＢＦ＃１の値は、宛先ＨＰＡＩ要素２２４のデータ項目１３０に記憶され得る。

【0046】

その後の新しいデータ（例えば、ＢＦ＃２）は、ステップ２３０において累算器によって受信され得る。ＢＦ＃２は、レーン２２２ｃ及び２２２ｄ（例えば、レーン３及び４）内に存在する。識別値の比較中、累算器は、ＢＦ＃１がＢＦ＃２よりも有意に大きいことを判定するため、ステップ２３２において、宛先ＨＰＡＩ要素２２４内の結果値を不変のままにする。

【0047】

別の新しいデータ（例えば、ＢＦ＃３）は、ステップ２３４において累算器によって受信される。ＢＦ＃３は、レーン２２２ｄ及び２２２ｅ（例えば、レーン４及び５）内に存在する。識別値の比較中、累算器は、ＢＦ＃１及びＢＦ＃３が同じ大きさを有することを判定する。したがって、累算器は、ステップ２３６において、結果値に既に記憶されているＢＦ＃１にＢＦ＃３を加算する。この例では、ＢＦ＃３のＢＦ＃１への加算によるオーバーフローは発生しないため、宛先ＨＰＡＩ要素２２４内の識別値はレーン５のままである。

【0048】

別の新しいデータ（例えば、ＢＦ＃４）は、ステップ２３８において累算器で受信される。ＢＦ＃４は、レーン２２２ｆ（例えば、レーン６）内に存在する。レーン識別値の比較中、累算器は、ＢＦ＃４が、累算されたデータのレーン識別値（例えば、５）よりも高いレーン識別値（例えば、６）を有することを判定する。ＢＦ＃４はＢＦ＃１＋ＢＦ＃３よりも有意に大きいため、累算器は、ステップ２４０において、宛先ＨＰＡＩ要素２２４内の結果値をＢＦ＃４に置換し、識別値を６に自動的に更新する。シーケンス２２０は、データの全てが合計されるか又はオーバーフローが発生するまで、更なる新しいデータの加算を継続することができる。オーバーフローが発生した場合、累算動作は継続することができるが、その結果は、「オーバーフロー」を表す特殊値として保持される。

【0049】

図１１を参照すると、１つ以上の例示的な実施形態による、累算器２６０の例示的な実装形態の概略図が示されている。累算器２６０は、プロセッサコア１００内に実装され得る。累算器２６０は、第１のベクトル記憶要素２６２と、第２のベクトル記憶要素２６４と、積値２６６と、複数の浮動小数点乗算器２６８と、複数のｂｆｌｏａｔ１６－ＨＰＡＩ変換ユニット２７０と、複数のＨＰＡＩ加算器２７２と、結果ベクトル記憶要素２７４とを含む。累算されている初期値は、複数の浮動小数点値（例えば、複数のｂｆｌｏａｔ１６値）であり得る。

【0050】

複数（例えば、８個）の初期値が、第１のベクトル記憶要素２６２に記憶され、複数（例えば、８個）の追加の初期値が、第２のベクトル記憶要素２６４に記憶される。第１のベクトル記憶要素２６２及び第２のベクトル記憶要素２６４からの初期値の対は、積値２６６として整列される。

【0051】

浮動小数点乗算器２６８は、初期積値２６６を乗算することによって、複数の第１の中間値を生成する。ｂｆｌｏａｔ１６－ＨＰＡＩ変換ユニット２７０は、第１の中間値を複数の第２の中間値に変換する。第２の中間値の各々は、アンカーデータ要素１２４（例えば、図３）のフォーマットを有する。ＨＰＡＩ加算器２７２は、２つの第２の中間値と１つの局所的に累算された値との３：１累算によって、対応する結果値を生成する。各結果値は、アンカーデータ要素１２４のフォーマットを有する。累算が完了すると、結果値は、結果ベクトル記憶要素２７４内にロードされ得る。

【0052】

図１２を参照すると、１つ以上の例示的な実施形態による、例示的な２レーンドット４積回路２８０の概略図が示されている。ドット４積回路２８０は、プロセッサコア１００内に実装され得る。ドット４積回路２８０は、第１のベクトル記憶要素２８２と、第２のベクトル記憶要素２８４と、第３のベクトル記憶要素２８６と、複数対の浮動小数点乗算器２８８ａ～２８８ｂと、ｂｆｌｏａｔ１６－ＨＰＡＩ変換器２８９ａ～２８９ｂの複数の対と、ＨＰＡＩ加算器２９０ａ～２９０ｂの複数の対と、ＨＰＡＩ累算器２９２ａ～２９２ｂの複数の対と、結果ベクトル記憶要素２９４とを含む。第１のベクトル記憶要素２８２及び第２のベクトル記憶要素２８４に保持された初期値は、複数の浮動小数点値（例えば、複数のｂｆｌｏａｔ１６値）であり得る。

【0053】

ドット４積回路２８０は、一般に、ドット４積を以下のように計算する。

【0054】

Ｄ［０］＋＝（Ｚｎ［０］＊Ｚｍ［０］）＋（Ｚｎ［１］＊Ｚｍ［１］）＋（Ｚｎ［２］＊Ｚｍ［２］）＋（Ｚｎ［３］＊Ｚｍ［３］）

【0055】

Ｄ［１］＋＝（Ｚｎ［４］＊Ｚｍ［４］）＋（Ｚｎ［５］＊Ｚｍ［５］）＋（Ｚｎ［６］＊Ｚｍ［６］）＋（Ｚｎ［７］＊Ｚｍ［７］）

【0056】

第１のベクトル記憶要素２８２及び第２のベクトル記憶要素２８４に保持された初期値の対は、第３のベクトル記憶要素２８６に解析される。浮動小数点乗算器２８８ａ～２８８ｂは、複数の初期値の第１のセットを乗算することによって複数の第１の中間値を生成し、初期値の第２のセットを乗算することによって複数の第２の中間値を生成する。続いて、ＨＰＡＩ変換回路２８９ａ～２８９ｂは、第１中間値を複数の第３の中間値に変換し、第２の中間値を複数の第４の中間値に変換する。第３の中間値及び第４の中間値は、アンカーデータ要素１２４のフォーマットを有する。

【0057】

アンカーデータ要素フォーマットのデータを用いて、ＨＰＡＩ加算器２９０ａは、第３の中間値及び第４の中間値の上位部分を累算することによって複数の第５の中間値を生成する。ＨＰＡＩ加算器２９０ｂは、第３中間値及び第４中間値の下位部分を累算することによって複数の第６中間値を生成する。第５の中間値及び第６の中間値は、アンカーデータ要素１２４のフォーマットを有する。

【0058】

ＨＰＡＩ累算器２９２ａは、第５の中間値を累算することによって複数の第１の結果値を生成する。ＨＰＡＩ累算器２９２ｂは、第６の中間値を累算することによって複数の第２の結果値を生成する。第１の結果値及び第２の結果値は、アンカーデータ要素１２４のフォーマットを有する。第１の結果値は、結果ベクトル記憶要素２９４の高位部分にロードされる。第２の結果値は、結果ベクトル記憶要素２９４の低位部分にロードされる。

【0059】

ドット４積回路２８０は、一般に、有意性の低いビットのみを含む３２ビットの動的スケーリングされたＨＰＡＩ結果値を扱う問題を解決する。６４ビット結果値の２つの部分は、２つの３２ビットＨＰＡＩレーンを含む。更に、結果値は、共有された共通ＨＰＡＩレーン識別値を使用することができる。ドット４積回路２８０は、１サイクルあたり１２８ビットごとに約８回の乗算を実行するため、同等のｂｆｌｏａｔ１６のドット４積回路と同様の性能を有するが、ニューラルネットワークアプリケーションではより高い精度及びより良好な正確性を有する。

【0060】

図１３を参照すると、１つ以上の例示的な実施形態による、例示的な第１の代替アンカーデータ要素１２４ｄの概略図が示されている。第１の代替アンカーデータ要素１２４ｄは、単一の識別項目１３４と、重複／データ項目の複数の（例えば、図示された２つの）セット３００及び３０２とを含む。各セット３００及び３０２は、重複項目のうちの１つ及びデータ項目のうちの１つを含む。各セット３００及び３０２は、データ（１６ビット）及び対応する重複（１３ビット）に対して３９ビットを提供する。第１の代替アンカーデータ要素１２４ｄは、６４ビットの２レーンＨＰＡＩ要素を提供する。識別値のインクリメントに応じて、下位の重複ビット／データビットは、上位の重複ビット／データビットによって置換されてもよく、元の下位も重複ビット／データビットはドロップされる。

【0061】

図１４を参照すると、１つ以上の例示的な実施形態による、例示的な第２の代替アンカーデータ要素１２４ｅの概略図が示されている。第２の代替アンカーデータ要素１２４ｅは、単一の識別項目１３４と、単一の重複項目１３２と、複数の（例えば、図示された３つの）データ項目１３０ａ～１３０ｃとを含む。各データ項目１３０ａ～１３０ｃは、１６ビットのデータを提供する。第２の代替アンカーデータ要素１２４ｅは、一般に、６４ビットの３レーンＨＰＡＩ要素を提供する。識別値のインクリメントに応じて、重複ビット及びデータビットは、１６ビットだけ右にシフトされてもよく、最下位の１６ビットはドロップされる。この方式により、より多数の結果ビットを保持する見返りに、累算の再現性特性を除去する。

【0062】

図１５を参照すると、１つ以上の例示的な実施形態による、浮動小数点ドット積回路３２０及びＨＰＡＩドット積回路３４０の例示的な回路レイアウト合成結果の概略図が示されている。回路３２０及び３４０の両方の入力は、ｂｆｌｏａｔ１６値を受信するように設計される。浮動小数点ドット積回路３２０は、１６ビット浮動小数点乗算器３２２のセットと、２５ビット浮動小数点残余丸めゼロクリア加算器３２４と、３２ビット浮動小数点残余丸めゼロクリア加算器３２６と、追加のフロップ３２８とを含む。ＨＰＡＩドット積回路３４０は、１６ビット浮動小数点乗算器３４２と、浮動小数点からＨＰＡＩへの変換、加算器及び累算回路３４４とのセットを含む。

【0063】

合成結果は、ＨＰＡＩドット積回路３４０が浮動小数点ドット積回路３２０よりも約２．３倍小さいことを示している。ＨＰＡＩドット積回路３４０は、ｂｆｌｏａｔ１６からＨＰＡＩへの変換、積の合計、及び累算の単一サイクル実行を実装する。ｂｆｌｏａｔ１６乗算器３２２及び３４２は、回路３２０及び３４０の両方において本質的に同じである。ＨＰＡＩドット積回路３４０は、積指数比較器を排除する。

【0064】

ＨＰＡＩ累算回路３４４は、２５ビット浮動小数点／３２ビット浮動小数点加算器対３２４及び３２６よりも約３倍小さい。特に、ＨＰＡＩ累算回路３４４は、単一の完全ＩＥＥＥ準拠３２ビット浮動小数点加算器の約５４％のサイズを占有する（例えば、２２８フロップで８０８マイクロメートル平方）。ＨＰＡＩ変換、加算器及び累算回路３４４は、変換、積の合計、及び累算の単一サイクル実行を提供する。累算回路３４４は、２つのｂｆｌｏａｔ１６積のキャリーセーブ加算器を有し、加算器にはパイプラインフロップを欠く。

【0065】

ｂｆｌｏａｔ処理は、アンカーデータ要素内の「暗黙」メタデータの使用をサポートする。例えば、２５ビット浮動小数点積（例えば、１ビット符号、８ビット指数、１６ビットフラクション）は、２^－１２６～２^＋１２７の範囲を有する。したがって、ｂｆｌｏａｔ処理は、全幅「Ｋｕｌｉｓｃｈ」累算器内の全ての可能な積に対応することができる（ａｃｃ［１２７：－１４１］＝２６９ビット）。ｂｆｌｏａｔ指数の４つの最上位ビットは、アンカーデータ要素１２４内に埋め込まれたレーン識別値（又はアンカー値）として使用されてもよい。埋め込まれたレーン識別（アンカー）値により、プログラマがメタデータを指定するための手動タスクを除去し、３レジスタ乗算（浮動小数点）－累算（ＨＰＡＩ）命令を可能にする。

【0066】

アンカーデータ要素フォーマットは、３２ビット浮動小数点加算器よりも有意に小さく、かつより低いレイテンシ（例えば、より少ないパイプラインフロップ）を有するＨＰＡＩ加算器を提供する。アンカーデータ要素表現は、ドット積命令（乗算－累算）をサポートすることができる。更に、ｂｆｌｏａｔ命令のＨＰＡＩバージョンが、成功裏にコードアップされ、ＴｅｎｓｏｒＦｌｏｗ（ＧｏｏｇｌｅＢｒａｉｎチームによって開発されたオープンソースソフトウェアライブラリ）に統合されている。

【0067】

装置の１つ以上の実施形態では、処理回路は、複数のアンカーデータ要素内の複数のデータ値を累算することによって結果値を生成し、かつ累算中に結果値と関連付けられたアンカー値を自動的に変更する、ように更に構成されている。

【0068】

装置の１つ以上の実施形態では、処理回路は、複数の初期値を乗算することによって複数の第１の中間値を生成し、複数の第１の中間値を複数の第２の中間値に変換し、複数の第２の中間値の各々はアンカーデータ要素のフォーマットを有し、かつ複数の第２の中間値を累算することによって結果値を生成する、ように更に構成される。結果値は、アンカーデータ要素のフォーマットを有する。

【0069】

装置の１つ以上の実施形態では、複数の初期値は、複数の浮動小数点値である。

【0070】

装置の１つ以上の実施形態では、処理回路は、複数の初期値の第１のセットを乗算することによって複数の第１の中間値を生成し、複数の初期値の第２のセットを乗算することによって複数の第２の中間値を生成し、複数の第１の中間値を複数の第３の中間値に変換し、複数の第３の中間値の各々がアンカーデータ要素のフォーマットを有し、複数の第２の中間値を複数の第４の中間値に変換し、複数の第４の中間値の各々がアンカーデータ要素のフォーマットを有し、複数の第３の中間値及び複数の第４の中間値の上位部分を累算することによって複数の第５の中間値を生成し、複数の第５の中間値の各々がアンカーデータ要素のフォーマットを有し、複数の第３の中間値及び複数の第４の中間値の下位部分を累算することによって複数の第６の中間値を生成し、複数の第６の中間値の各々がアンカーデータ要素のフォーマットを有し、複数の第５の中間値を累算することによって第１の結果値を生成し、第１の結果値がアンカーデータ要素のフォーマットであり、かつ複数の第６の中間値を累算することによって第２の結果値を生成し、第２の結果値がアンカーデータ要素のフォーマットである、ように更に構成されている。

【0071】

装置の１つ以上の実施形態では、複数の初期値の第１のセット及び複数の初期値の第２のセットは、複数の浮動小数点値である。

【0072】

装置の１つ以上の実施形態では、アンカーデータ要素のフォーマットは、複数のセットに配置された、単一の識別項目と、複数の重複項目と、複数のデータ項目とを含み、複数のセットの各々は、複数の重複項目のうちの１つ及び複数のデータ項目のうちの１つを含む。

【0073】

装置の１つ以上の実施形態では、アンカーデータ要素のフォーマットは、互いに連結された、単一の識別項目と、単一の重複項目と、複数のデータ項目とを含む。

【0074】

装置の１つ以上の実施形態では、処理回路は、識別項目、重複項目、及びデータ項目を単一のアドレス指定可能な位置に一緒に記憶するように更に構成されている。

【0075】

装置の１つ以上の実施形態では、１つ以上の特殊値は、正の無限大、負の無限大、非数、又はオーバーフローを含む。

【0076】

１つ以上の実施形態では、方法は、複数のアンカーデータ要素内の複数のデータ値を累算することによって結果値を生成することと、累算中に結果値と関連付けられたアンカー値を自動的に変更することとを更に含む。

【0077】

１つ以上の実施形態では、方法は、複数の初期値を乗算することによって複数の第１の中間値を生成することと、複数の第１の中間値を複数の第２の中間値に変換することであって、複数の第２の中間値の各々がアンカーデータ要素のフォーマットを有する、ことと、複数の第２の中間値を累算することによって結果値を生成することであって、結果値がアンカーデータ要素のフォーマットを有する、ことと、を更に含む。

【0078】

１つ以上の実施形態では、方法は、複数の初期値の第１のセットを乗算することによって複数の第１の中間値を生成することと、複数の初期値の第２のセットを乗算することによって複数の第２の中間値を生成することと、複数の第１の中間値を複数の第３の中間値に変換することであって、複数の第３の中間値の各々がアンカーデータ要素のフォーマットを有する、ことと、複数の第２の中間値を複数の第４の中間値に変換することであって、複数の第４の中間値の各々がアンカーデータ要素のフォーマットを有する、ことと、複数の第３の中間値及び複数の第４の中間値の上位部分を累算することによって複数の第５の中間値を生成することであって、複数の第５の中間値の各々がアンカーデータ要素のフォーマットを有する、ことと、複数の第３の中間値及び複数の第４の中間値の下位部分を累算することによって複数の第６の中間値を生成することであって、複数の第６の中間値の各々がアンカーデータ要素のフォーマットを有する、ことと、複数の第５の中間値を累算することによって第１の結果値を生成することであって、第１の結果値がアンカーデータ要素のフォーマットである、ことと、複数の第６の中間値を累算することによって第２の結果値を生成することであって、第２の結果値がアンカーデータ要素のフォーマットである、ことと、を更に含む。

【0079】

方法の１つ以上の実施形態では、アンカーデータ要素のフォーマットは、複数のセットに配置された、単一の識別項目と、複数の重複項目と、複数のデータ項目とを含み、複数のセットの各々は、複数の重複項目のうちの１つ及び複数のデータ項目のうちの１つを含む。

【0080】

方法の１つ以上の実施形態では、アンカーデータ要素のフォーマットは、互いに連結された、単一の識別項目と、単一の重複項目と、複数のデータ項目とを含む。

【0081】

１つ以上の実施形態では、方法は、識別項目、重複項目、及びデータ項目を単一のアドレス指定可能な位置に一緒に記憶することを更に含む。

【0082】

非一時的コンピュータ可読記憶媒体の１つ以上の実施形態では、複数の動作は、複数のアンカーデータ要素内の複数のデータ値を累算することによって結果値を生成することと、累算中に結果値と関連付けられたアンカー値を自動的に変更することと、を更に含む。

【0083】

非一時的コンピュータ可読記憶媒体の１つ以上の実施形態では、複数の動作は、複数の初期値を乗算することによって複数の第１の中間値を生成することと、複数の第１の中間値を複数の第２の中間値に変換することであって、複数の第２の中間値の各々がアンカーデータ要素のフォーマットを有する、ことと、複数の第２の中間値を累算することによって結果値を生成することであって、結果値がアンカーデータ要素のフォーマットを有する、ことと、を更に含む。

【0084】

本開示を実施するための最良の形態を詳細に説明してきたが、本開示が関連する技術に精通している者であれば、添付の特許請求の範囲内で本開示を実施するための様々な代替設計及び実施形態を認識するであろう。

【図1】