特表2024-538012 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-538012コンピュータ実装環境における浮動小数点積和演算の実行

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-18

(54)【発明の名称】コンピュータ実装環境における浮動小数点積和演算の実行

(51)【国際特許分類】

G06F 17/10 20060101AFI20241010BHJP

G06F 9/30 20180101ALI20241010BHJP

G06F 17/16 20060101ALI20241010BHJP

【ＦＩ】

G06F17/10 S

G06F9/30 350A

G06F9/30 370

G06F17/16 M

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024520783

(86)(22)【出願日】2022-10-24

(85)【翻訳文提出日】2024-04-04

(86)【国際出願番号】 EP2022079502

(87)【国際公開番号】W WO2023072791

(87)【国際公開日】2023-05-04

(31)【優先権主張番号】17/452,425

(32)【優先日】2021-10-27

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】フィグリ、ラズヴァンピーター

(72)【発明者】

【氏名】リヒテナウ、セドリック

(72)【発明者】

【氏名】バビンスキ、ティナ

(72)【発明者】

【氏名】ホフマン、ニコル

(72)【発明者】

【氏名】シュタインマッハー－ブロウ、ブルクハルト

【テーマコード（参考）】

5B033

5B056

【Ｆターム（参考）】

5B033AA13

5B056CC01

5B056FF11

(57)【要約】

プロセッサは、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するために使用され、前記オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値に置換される。

【特許請求の範囲】

【請求項1】

少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するためのプロセッサ実装方法であって、
３つの入力浮動小数点オペランドＡ、Ｂ、Ｃ、ここで、前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値に置換される、
を備える、プロセッサ実装方法。

【請求項2】

前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つを、置換ロジックによって提供する段階；及び
前記入力浮動小数点オペランドＡ、Ｂ、Ｃを、前記置換ロジックの少なくとも１つの出力ポートへ伝搬される前記予め定義されたオペランド値セットの前記少なくとも１つの値に置換するように別個に構成可能であるように前記置換ロジックを構成する段階
を更に備える、請求項１に記載のプロセッサ実装方法。

【請求項3】

前記置換ロジックはマルチプレクサ回路として構成されており、前記プロセッサ実装方法は：
前記３つの入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つを、それぞれ前記マルチプレクサ回路によって提供する段階、ここで前記マルチプレクサ回路はそれぞれの前記入力浮動小数点オペランドＡ、Ｂ、Ｃのための第１の入力ポート、及び予め定義されたオペランド値セットの少なくとも１つの値のための少なくとも第２の入力ポート、及び少なくとも１つの出力ポートを備える；及び
前記第１の入力ポート及び前記第２の入力ポートのうちの１つを、前記少なくとも１つの出力ポートへ伝搬されるために選択するように別個に構成可能であるように前記マルチプレクサ回路を構成する段階
を更に備える、請求項１又は２に記載のプロセッサ実装方法。

【請求項4】

前記浮動小数点積和演算を、前記置換ロジックの前記構成を指定する選択コードパラメータを有する命令によってトリガする段階
を更に備える、請求項１～３のいずれか一項に記載のプロセッサ実装方法。

【請求項5】

前記予め定義されたオペランド値セットを、少なくとも値－０、＋０、＋１、－１を含むセットとして構成する段階
を更に備える、請求項１～４のいずれか一項に記載のプロセッサ実装方法。

【請求項6】

前記第１の入力ポート及び前記第２の入力ポートのうちの１つを、パラメータ－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つである選択コードパラメータによって、前記少なくとも１つの出力ポートへ伝搬されるために選択する段階
を更に備える、請求項３～５のいずれか一項に記載のプロセッサ実装方法。

【請求項7】

形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、オペランドＡ０、Ａ１、Ｂ０、Ｂ１、Ｃを備える入力浮動小数点オペランドを用いて実行する段階
を更に備える、請求項１～６のいずれか一項に記載のプロセッサ実装方法。

【請求項8】

浮動小数点オペランドを、レジスタファイルによって入力オペランドとして提供し、前記置換ロジックからの出力を、少なくとも２つの読み出しポート及び１つの書き込みポートを有するレジスタファイルによって受信し、特に選択コードパラメータを有する命令によってトリガされる前記入力オペランドを提供する段階
を更に備える、請求項１～７のいずれか一項に記載のプロセッサ実装方法。

【請求項9】

プロセッサが少なくとも１つの積和ユニットを各々有する装置の相互接続メッシュを備え、ここで各積和ユニットはデータ値の中間記憶のための少なくとも１つのローカルレジスタファイルを備える場合、前記浮動小数点積和演算を、前記置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガする段階
を更に備える、請求項１～８のいずれか一項に記載のプロセッサ実装方法。

【請求項10】

プロセッサが少なくとも１つの積和ユニットを各々有する複数の装置を有する単一命令複数データデバイスを備え、ここで装置毎のプレディケート値をプレディケートレジスタによって提供することが命令によって指定される場合、各装置に対する浮動小数点積和演算の実行を選択する段階
を更に備える、請求項１～９のいずれか一項に記載のプロセッサ実装方法。

【請求項11】

前記プレディケートレジスタが前記プレディケート値を有するマルチビットプレディケートフィールドを備え、これが前記命令によって有効化される場合、装置のレーン上でプレディケート値を実行して、各レーンに対するそれぞれの前記プレディケート値に基づいて個別のレーンの種類を変更する段階
を更に備える、請求項１０に記載のプロセッサ実装方法。

【請求項12】

装置の前記少なくとも１つの積和ユニットにおける内部演算の少なくとも１つのオペランドは、予め定義されたオペランド値セットの少なくとも１つの値に置換され、前記内部演算は、ロードストアユニットによって提供されるプレディケート値、以前の命令の結果、及び動的又は静的使用についての情報に基づいてプレディケートロジックによって選択コードパラメータへと指定及びデコードされるプレディケート値によってトリガされる、請求項１０又は１１に記載のプロセッサ実装方法。

【請求項13】

請求項１に記載のプロセッサ実装方法を用いて少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための装置であって、
３つの入力浮動小数点オペランドＡ、Ｂ、Ｃ、前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、前記入力浮動小数点オペランドＡ、Ｂ、Ｃを、置換ロジックの少なくとも１つの出力ポートへ伝搬される前記予め定義されたオペランド値セットの前記少なくとも１つの値に置換するように別個に構成可能であるように構成されている前記置換ロジックによって提供される、
を備える、装置。

【請求項14】

前記置換ロジックはマルチプレクサ回路として構成されており、前記３つの浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、それぞれ前記マルチプレクサ回路によって提供され、前記マルチプレクサ回路は：
それぞれの前記入力浮動小数点オペランドＡ、Ｂ、Ｃのための第１の入力ポート；
予め定義されたオペランド値セットの少なくとも１つの値のための少なくとも第２の入力ポート；及び
対応する前記第１の入力ポート及び前記第２の入力ポートに割り当てられる少なくとも１つの出力ポート、ここで前記マルチプレクサ回路は、前記第１の入力ポート及び前記第２の入力ポートのうちの１つを、前記少なくとも１つの出力ポートへ伝搬されるために選択するように別個に構成可能であるように構成されている、
を備える、請求項１３に記載の装置。

【請求項15】

前記浮動小数点積和演算は、前記少なくとも１つの置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされる、請求項１３又は１４に記載の装置。

【請求項16】

前記予め定義されたオペランド値セットは、少なくとも値－０、＋０、＋１、－１を含むセットとして構成されている、請求項１３～１５のいずれか一項に記載の装置。

【請求項17】

前記入力ポートのうちの１つを、前記少なくとも１つの出力ポートへ伝搬されるために選択するために使用される前記選択コードパラメータは、－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つである、請求項１５又は１６に記載の装置。

【請求項18】

３つの入力を有する少なくとも１つの積和ユニットを備え、少なくとも１つの入力は、前記少なくとも１つの置換ロジックの出力から受信される、請求項１３～１７のいずれか一項に記載の装置。

【請求項19】

少なくとも２つの読み出しポート及び１つの書き込みポートを有するレジスタファイルを備え、前記レジスタファイルは、入力オペランドを提供するために構成されており、前記積和ユニットからの出力を受信するために、特に選択コードパラメータを有する命令によってトリガされる前記入力オペランドを提供するために構成されている、請求項１３～１８のいずれか一項に記載の装置。

【請求項20】

形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、Ａ０、Ａ１、Ｂ０、Ｂ１、Ｃを備える入力浮動小数点オペランドを用いて実行するために構成されている、請求項１３～１９のいずれか一項に記載の装置。

【請求項21】

請求項１に記載のプロセッサ実装方法を用いて少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための少なくとも１つの装置を備えるプロセッサであって、
３つの入力浮動小数点オペランドＡ、Ｂ、Ｃ、ここで、前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、前記入力浮動小数点オペランドＡ、Ｂ、Ｃを、それぞれ、置換ロジックの少なくとも１つの出力ポートへ伝搬される前記予め定義されたオペランド値セットの前記少なくとも１つの値に置換するように別個に構成可能であるように構成されている前記置換ロジックによって提供され、前記浮動小数点積和演算は、前記置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされる、
を有する、プロセッサ。

【請求項22】

複数の装置を有する単一命令複数データデバイス、ここでプレディケートレジスタは、装置毎のプレディケート値を提供する命令によって、各装置に対する浮動小数点積和演算の実行を選択するように指定される、を更に備える、請求項２１に記載のプロセッサ。

【請求項23】

前記プレディケートレジスタが前記プレディケート値を有するマルチビットプレディケートフィールドを備え、前記マルチビットプレディケートフィールドは、前記命令によって、装置のレーン上で前記プレディケート値を実行して、各レーンに対するそれぞれの前記プレディケート値に基づいて個別のレーンの種類を変更するように有効化される、請求項２２に記載のプロセッサ。

【請求項24】

装置の前記少なくとも１つの積和ユニットは、内部演算の少なくとも１つのオペランドを予め定義されたオペランド値セットの少なくとも１つの値に置換するように構成されており、前記内部演算は、ロードストアユニットによって提供されるプレディケート値、以前の命令の結果、及び動的又は静的使用についての情報に基づいてプレディケートロジックによって選択コードパラメータへと指定及びデコードされるプレディケート値によってトリガされる、請求項２２又は２３に記載のプロセッサ。

【請求項25】

少なくとも１つの積和ユニット上で、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、
形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための命令を備える非一時的機械可読媒体であって、
３つの入力浮動小数点オペランドＡ、Ｂ、Ｃ、ここで、前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値に置換される、
を備え、
前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値によって置換可能である、非一時的機械可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は概して、データ処理コンピュータシステムに関する。特に本発明は、少なくとも１つの積和ユニット上で浮動小数点積和演算を実行するためのプロセッサ実装方法及び装置に関する。

【背景技術】

【0002】

通常の人工知能（ＡＩ）アクセラレータは、浮動小数点演算毎秒（ＦＬＯＰＳ）（ＦＬＯＰＳ／ワット又はＦＬＯＰＳ／面積）において計測される、高スループット又は高効率のために最適化された多くの処理タイル（ＰＴ）又は処理要素（ＰＥ）のアレイからなる。タイル内のインフラストラクチャオーバヘッド、例えば、制御の複雑さ、配線及びメモリフットプリントは、タイルの数によって倍増して、方法の全体効率を低減する。例えば、再利用のために未修正データをローカルレジスタファイル（ＬＲＦ）へ書き込む「ロード」命令は、専用命令及びデコードロジック、ＬＲＦへの第２の書き込みポート又はバイパスロジック及び制御、並びに最終的に衝突回避を必要とする。これらの特徴は、全体の計算時間のうちの小部分のみで利用される。したがって、ハードウェアオーバヘッドなしで浮動小数点値をＬＲＦへロードする効率的なインフラストラクチャに対する必要性が存在する。

【0003】

ＵＳ２０１９／００４２２５４Ａ１は、タイルレジスタペアをロードするシステム及び方法を開示している。オペコード、及びそれぞれソース及びデスティネーション行列を識別するためのソース及びデスティネーション識別子のためのフィールドを有するロード行列ペア命令をデコードするためのデコード回路、それぞれ、各行列はＴＲＵＥに等しいＰＡＩＲパラメータを有する、及びデコードされたロード行列ペア命令を実行して、それぞれ識別されたソース行列の左及び右タイルの対応する要素位置から識別されたデスティネーション行列の左及び右タイルの全ての要素をロードする実行回路を含むプロセッサが開示されており、当該実行は、第１の行から開始して、一度に識別されたデスティネーション行列の１つの行に対して演算する。

【0004】

この参照文献は、レジスタペアをロード／ストアするために追加の専用ロード／ストア命令を使用する。システムは、追加の専用命令（ＴＩＬＥＣＯＮＦＩＧ、ＴＩＬＥＲＥＬＥＡＳＥなど）を使用するタイル構成を必要とする。

【0005】

ＵＳ２０２１／００８９３１６Ａ１は、シストリックアレイ及び融合演算を使用するディープラーニング実装を開示している。オペコード及びデスティネーション及びＮ個のソース行列の位置を指定するフィールドを有する命令をフェッチ及びデコードするためのフェッチ及びデコード回路を含むプロセッサが開示されており、オペコードはプロセッサがメモリからＮ個のソース行列をロードし、Ｎ個のソース行列上でＮ回の畳み込みを実行して、Ｎ個の特徴マップを生成し、Ｎ回の畳み込みの結果を、活性化層へ渡されるためにレジスタ内にストアすることを示し、プロセッサは、Ｎ個のソース行列の各々の最大１回のメモリロードを伴う、Ｎ回の畳み込み及び活性化層を実行する。プロセッサは、命令の実行をスケジューリングするためのスケジューリング回路、及びオペコードのとおりに命令を実行するための実行回路を更に含む。

【0006】

この参照文献は、畳み込み及び後続の層の応用に焦点を当てている。開示されている実装形態はレジスタペアをロード／ストアするために追加の専用ロード／ストア命令を使用している。システムは、追加の専用命令（ＴＩＬＥＣＯＮＦＩＧ、ＴＩＬＥＲＥＬＥＡＳＥなど）を使用するタイル構成を必要とする。

【0007】

ＵＳ９，７７８，９０８Ｂ２は、形式±Ａ＊Ｂ±Ｃの融合乗累算演算を実行するためにマイクロプロセッサにおいて提供される方法を開示しており、Ａ、Ｂ、及びＣは入力オペランドであり、且つＣがＡ及びＢの積に累算される前に丸めは生じない。融合乗累算演算は、第１の及び第２の乗累算サブ演算へと分割されて、１つ又は複数の命令実行ユニットによって実行される。第１の乗累算サブ演算において、Ａ及びＢの部分積をＣと累算すべきか、又はその代わりにＡ及びＢの部分積のみを累算してそこから丸められていない非冗長合計を生成すべきかの選択がなされる。第１の及び第２の乗累算サブ演算の間で、丸められていない非冗長合計はメモリ内にストアされて、１つ又は複数の命令実行ユニットが乗累算演算に関係のない他の演算を実行することを可能にする。代替的に又は追加で、丸められていない非冗長合計は、第１の命令実行ユニットから第２の命令実行ユニットへ転送される。第２の乗累算サブ演算において、第１の乗累算サブ演算がＣを累算することなく丸められていない非冗長合計を生成した場合、Ｃは丸められていない非冗長合計と累算される。第２の乗累算サブ演算において、最終的な丸められた結果が融合乗累算演算から生成される。

【0008】

この参照文献は、融合乗累算演算がとりわけＣを０にセットすることによってＡ＊Ｂを計算可能であることを説明している。これは、Ａ又はＢのいずれかにおける－０．０が＋０．０に加算されると厳密にゼロである差のケースを生じ、したがって結果は誤った符号を有するので、ＩＥＥＥ（米国電気電子学会）準拠浮動小数点数にとって可能ではない。

【発明の概要】

【0009】

コンピュータ実装方法は、少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行する段階を含み、浮動小数点積和演算を実行するための少なくとも１つの装置を備えるプロセッサ及び浮動小数点積和演算を実行するための命令を備える非一時的機械可読媒体に関する。

【0010】

３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するためのプロセッサ実装方法が提案され、オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値に置換される。

【0011】

本発明の方法は、選択可能演算浮動小数点積和（ｓｏＦＭＡ：ｓｅｌｅｃｔａｂｌｅ－ｏｐｅｒａｔｉｏｎｆｌｏａｔｉｎｇ－ｐｏｉｎｔ－ｍｕｌｔｉｐｌｙ－ａｄｄ）ユニットを使用する。ｓｏＦＭＡユニットは、浮動小数点積和（ＦＭＡ：ｆｌｏａｔｉｎｇ－ｐｏｉｎｔ－ｍｕｌｔｉｐｌｙ－ａｄｄ）ユニットのそれを強化するソフトウェア使用及びハードウェア実装を呈し、ＦＭＡユニットは値Ａ、Ｂ、Ｃを入力してＦＭＡユニットによって出力として値Ｄ＝Ａ＊Ｂ＋Ｃを計算する。

【0012】

提案される方法の恩恵は、ロード演算を実行するためにバイパスロジックが必要とされないことである。ＬＲＦ内に第２の書き込みポートは必要とされない。更に、専用ロード命令及びデコードロジックが必要とされない。

【0013】

そうして、面積及び電力節約は有利であり得る。配線の複雑さ及びルーティング輻輳が低減される。方法は、全ての浮動小数点値、正規化及び非正規浮動小数点値をサポートする。

【0014】

方法は、低減されたコストで、単一命令複数データ（ＳＩＭＤ：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）プロセッサ上での複数命令複数データ（ＭＩＭＤ：ｍｕｌｔｉｐｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）のような実行を可能にする。

【0015】

方法は、通常はベクトル化可能とみなされないワークロードのベクトル化を可能にする。

【0016】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に方法は、浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つを、置換ロジックによって提供する段階、及びオペランドＡ、Ｂ、Ｃを、置換ロジックの少なくとも１つの出力ポートへ伝搬される予め定義されたオペランド値セットの少なくとも１つの値に置換するように別個に構成可能であるように置換ロジックを構成する段階を少なくとも備え得る。そうして、置換ロジックは任意の浮動小数点値を変更せずに渡すこと、又は正しいＩＥＥＥ準拠浮動小数点乗算、加算、又は積和演算を、ｓｏＦＭＡユニットを用いて実行することを可能にする。

【0017】

本発明の１つの実施形態に起因して、加えて又は代替的に、置換ロジックは、マルチプレクサ回路として構成され得る。更に方法は、３つの浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つを、それぞれマルチプレクサ回路によって提供する段階、ここでマルチプレクサ回路はそれぞれの浮動小数点オペランドＡ、Ｂ、Ｃのための第１の入力ポート、及び予め定義されたオペランド値セットの少なくとも１つの値のための少なくとも第２の入力ポート、及び少なくとも１つの出力ポートを備える、及び入力ポートのうちの１つを、少なくとも１つの出力ポートへ伝搬されるために選択するように別個に構成可能であるようにマルチプレクサ回路を構成する段階を少なくとも備え得る。有利には、ｓｏＦＭＡユニットのための入力値は、効率的な方法で制御され得る。

【0018】

本発明の方法の１つの実施形態に係り、入力オペランドＡ、Ｂ、Ｃのうちの１つ又は２つ又は３つ全ては、各々、マルチプレクサ回路によって提供され得る。ｓｏＦＭＡユニットの第１の入力ポートのための第１のマルチプレクサ回路は、第１のオペランド値Ａ又は値－０、＋０、＋１、－１を含むセットからの値のうちの１つを提供し得る。第２のオペランド値Ｂ及び第３のオペランド値Ｃに関しても、同様である。

【0019】

例えば第１のマルチプレクサ回路において値＋１を選択することによって、ｓｏＦＭＡユニットは、演算Ｂ＋Ｃを実行する。方法は、ｓｏＦＭＡユニットの入力マルチプレクサ回路の各々による選択をエンコードする選択コードを含む。例えば、オペランドＡ、Ｂ、Ｃのための３つのマルチプレクサ回路を有するｓｏＦＭＡユニットに関して、値０、１、２、３、４、５、６、７、８、９、１０、１１を含む１２個の異なる選択コードは、ｓｏＦＭＡユニットによって実行される１２個の異なる選択可能演算－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃに対応し得る。ＩＥＥＥ浮動小数点規格は、全ての入力オペランド値Ａ、Ｂ、Ｃに対して、選択可能演算に対する正しい結果を可能にする。

【0020】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に浮動小数点積和演算は、置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされ得る。そうして、ｓｏＦＭＡユニットのための入力値は、効率的な方法で制御され得る。

【0021】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に予め定義されたオペランド値セットは、少なくとも値－０、＋０、＋１、－１を含むセットとして構成され得る。そうして、当該定数値は、適切な方式で浮動小数点演算を制御するために役立つ。

【0022】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に入力ポートのうちの１つは、パラメータ－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つである選択コードパラメータによって、少なくとも１つの出力ポートへ伝搬されるために選択され得る。この方法によって、浮動小数点演算を実行するために必要とされるステップは、適切な方法で選択され得る。

【0023】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算は、オペランドＡ０、Ａ１、Ｂ０、Ｂ１、Ｃを含む入力浮動小数点オペランドを用いて実行され得る。そうして、方法は２つの任意の浮動小数点値の連結されたペアを、浮動小数点積積和（ＦＭＭＡ）ユニットを介してレジスタファイルへロードすることを可能にする。

【0024】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に、浮動小数点オペランドはレジスタファイルによって入力オペランドとして提供され得、出力は置換ロジックから少なくとも２つの読み出しポート及び１つの書き込みポートを有するレジスタファイルによって受信され得る。特に、入力オペランドが提供されて、選択コードパラメータを有する命令によってトリガされ得る。そうして、任意の浮動小数点値を、ｓｏＦＭＡユニットを介してレジスタファイルへロードすることが有利には可能である。

【0025】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に、プロセッサが少なくとも１つの積和ユニットを各々有する装置の相互接続メッシュを備え、ここで各積和ユニットはデータ値の中間記憶のための少なくとも１つのローカルレジスタファイルを備える場合、浮動小数点積和演算は、置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされ得る。

【0026】

本発明の方法の１つの実施形態は、各ＦＭＡユニットが値の中間記憶のためのローカルレジスタを有するＦＭＡユニットの相互接続メッシュからなるデータフローデバイスのそれを強化する。そのようなデータフローデバイスにおいて、ｓｏＦＭＡユニットは、メッシュからの値をローカルレジスタへストアすることをサポートために必要となるハードウェアを減らし得る。ｓｏＦＭＡユニットの相互接続メッシュからなるデータフローデバイスは、より高いアプリケーション性能をもたらし得る。

【0027】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に、プロセッサが少なくとも１つの積和ユニットを各々有する複数の装置を有する単一命令複数データデバイスを備え、装置毎のプレディケート値をプレディケートレジスタによって提供することが命令によって指定され得る場合、各装置に対する浮動小数点積和演算の実行を選択する。

【0028】

本発明の方法の更なる実施形態は、ＣＰＵコアにおける単一命令複数データ（ＳＩＭＤ）デバイスを強化する。ＳＩＭＤデバイスは、複数のＦＭＡユニットを含む。ＳＩＭＤデバイスに関して、ソフトウェア命令は、ＦＭＡ毎のプレディケート値を提供して、各ＦＭＡの命令の実行を選択するレジスタを指定し得る。ｓｏＦＭＡユニットを有するＳＩＭＤデバイスにおいて、ソフトウェア命令は、ｓｏＦＭＡ毎の選択コードを提供して、各ｓｏＦＭＡの命令の実行を選択するレジスタを指定し得る。ｓｏＦＭＡユニットを有するＳＩＭＤデバイスは、ＦＭＡユニットを有するＳＩＭＤより高いアプリケーション性能をもたらし得る。ｓｏＦＭＡユニットを有するＳＩＭＤデバイスは、ＭＩＭＤデバイスの１つのタイプである。より高い性能は、３つの理由からもたらされる。不等演算のベクトル化が可能となり、故にＳＩＭＤデバイスの並列構造からの恩恵を可能にする。ＩＦ－ＥＬＳＥ文が減らされ得るか、又はプレディケートに代替され得るので、より少ない命令が必要とされる。ＩＦ－ＥＬＳＥ文の減少は、誤った分岐予測からもたらされる時間のかかるパイプラインフラッシュがより少ないことをもたらす。

【0029】

本発明の１つの実施形態に起因して、加えて又は代替的に、更に、プレディケートレジスタがプレディケート値を有するマルチビットプレディケートフィールドを備え、これが命令によって有効化される場合、装置のレーン上でプレディケート値が実行されて、各レーンに対するそれぞれのプレディケート値に基づいて個別のレーンの種類を変更し得る。そうして、方法は、以前の結果ベクトルに基づいて、個別のＳＩＭＤレーンの動的マルチビットプレディケーションを可能にする。

【0030】

本発明の１つの実施形態に起因して、加えて又は代替的に、装置の少なくとも１つの積和ユニットにおける内部演算の少なくとも１つのオペランドは、予め定義されたオペランド値セットの少なくとも１つの値に置換され得る。演算は、ロードストアユニットによって提供されるプレディケート値、以前の命令の結果、及び動的又は静的使用についての情報に基づいてプレディケートロジックによって選択コードパラメータへと指定及びデコードされるプレディケート値によってトリガされ得る。そうして、ＳＩＭＤアプローチにおいて、方法は更に、プレディケートと併せて使用され、各個別のＳＩＭＤレーンが様々な演算を実行することを可能にし得る。

【0031】

更に、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、上記で説明された方法を用いて少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための装置が提案され、浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、オペランドＡ、Ｂ、Ｃを、置換ロジックの少なくとも１つの出力ポートへ伝搬される予め定義されたオペランド値セットの少なくとも１つの値に置換するように別個に構成可能であるように構成されている置換ロジックによって提供される。

【0032】

装置は、少なくとも１つの選択可能演算浮動小数点積和（ｓｏＦＭＡ）ユニットを備える。ｓｏＦＭＡユニットは、浮動小数点積和（ＦＭＡ）ユニットのものを強化するソフトウェア使用及びハードウェア実装を呈し、ＦＭＡユニットは値Ａ、Ｂ、Ｃを入力してＦＭＡユニットによって出力として値Ｄ＝Ａ＊Ｂ＋Ｃを計算する。

【0033】

提案される装置の恩恵は、浮動小数点積和演算を実行するためにバイパスロジックが必要とされないことである。ＬＲＦ内に第２の書き込みポートは必要とされない。更に、専用ロード命令及びデコードロジックが必要とされない。

【0034】

そうして、面積及び電力節約は有利であり得る。配線の複雑さ及びルーティング輻輳が低減される。装置は、全ての浮動小数点値、正規化及び非正規浮動小数点値をサポートする。

【0035】

本発明の１つの実施形態に起因して、加えて又は代替的に、置換ロジックはマルチプレクサ回路として構成され得、３つの浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つがマルチプレクサ回路によってそれぞれ提供される。マルチプレクサ回路はそれぞれの浮動小数点オペランドＡ、Ｂ、Ｃのための第１の入力ポート、予め定義されたオペランド値セットの少なくとも１つの値のための少なくとも第２の入力ポート、及び対応する第１の及び第２の入力ポートに割り当てられる少なくとも１つの出力ポートを備え得る。マルチプレクサ回路は、入力ポートのうちの１つを、少なくとも１つの出力ポートへ伝搬されるために選択するように別個に構成可能であるように構成され得る。

【0036】

実施形態に係り、入力オペランドＡ、Ｂ、Ｃのうちの１つ又は２つ又は３つ全ては、各々、マルチプレクサ回路によって提供され得る。ｓｏＦＭＡユニットの第１の入力ポートのための第１のマルチプレクサ回路は、第１のオペランド値Ａ又は値－０、＋０、＋１、－１を含むセットからの値のうちの１つを提供し得る。第２のオペランド値Ｂ及び第３のオペランド値Ｃに関しても、同様である。

【0037】

【0038】

本発明の１つの実施形態に起因して、加えて又は代替的に、浮動小数点積和演算は、少なくとも１つの置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされ得る。そうして、ｓｏＦＭＡユニットのための入力値は、効率的な方法で制御され得る。

【0039】

本発明の１つの実施形態に起因して、加えて又は代替的に、予め定義されたオペランド値セットは、少なくとも値－０、＋０、＋１、－１を含むセットとして構成され得る。そうして、当該定数値は、適切な方式で浮動小数点演算を制御するために役立つ。

【0040】

本発明の１つの実施形態に起因して、加えて又は代替的に、入力ポートのうちの１つを、少なくとも１つの出力ポートへ伝搬されるために選択するために使用される選択コードパラメータは、－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つであり得る。この方法によって、浮動小数点演算を実行するために必要とされるステップは、適切な方法で選択され得る。

【0041】

本発明の１つの実施形態に起因して、加えて又は代替的に、装置は、３つの入力を有する少なくとも１つの積和ユニットを備え得、少なくとも１つの入力は、少なくとも１つの置換ロジックの出力から受信される。そうして、少なくとも１つの入力が、ＦＭＡユニットによって実行される浮動小数点演算を制御するために使用され得る。

【0042】

本発明の１つの実施形態に起因して、加えて又は代替的に、装置は少なくとも２つの読み出しポート及び１つの書き込みポートを有するレジスタファイルを備え得、レジスタファイルは入力オペランドを提供するために構成され得、出力を積和ユニットから受信するために構成され得る。特に、レジスタファイルは、選択コードパラメータを有する命令によってトリガされる入力オペランドを提供し得る。そうして、任意の浮動小数点値を、ｓｏＦＭＡユニットを介してレジスタファイルへロードすることが有利には可能である。

【0043】

本発明の１つの実施形態に起因して、加えて又は代替的に、装置は、形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、Ａ０、Ａ１、Ｂ０、Ｂ１、Ｃを含む入力浮動小数点オペランドを用いて実行するために構成され得る。そうして、装置は２つの任意の浮動小数点値の連結されたペアを、浮動小数点積積和（ＦＭＭＡ）ユニットを介してレジスタファイルへロードすることを可能にする。

【0044】

更に、浮動小数点積和演算を実行するための少なくとも１つの装置を備え、浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つが置換ロジックによってそれぞれ提供され、浮動小数点積和演算が置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされる、プロセッサが提案される。

【0045】

有利には、プロセッサは、少なくとも１つの選択可能演算浮動小数点積和（ｓｏＦＭＡ）ユニットを有する少なくとも１つの装置を備える。ｓｏＦＭＡユニットは、浮動小数点積和（ＦＭＡ）ユニットのものを強化するソフトウェア使用及びハードウェア実装を呈し、ＦＭＡユニットは値Ａ、Ｂ、Ｃを入力してＦＭＡユニットによって出力として値Ｄ＝Ａ＊Ｂ＋Ｃを計算する。

【0046】

そのようなプロセッサは、有利な面積及び電力節約を呈する。配線の複雑さ及びルーティング輻輳が低減される。プロセッサは、全ての浮動小数点値、正規化及び非正規浮動小数点値をサポートする。

【0047】

本発明の１つの実施形態に起因して、加えて又は代替的に、プロセッサは、複数の装置を有する単一命令複数データデバイスを備え得、プレディケートレジスタは、装置毎にプレディケート値を提供する命令によって、各装置に対する浮動小数点積和演算の実行を選択するように指定される。

【0048】

実施形態は、ＣＰＵコアにおける単一命令複数データ（ＳＩＭＤ）デバイスを強化する。ＳＩＭＤデバイスは、複数のＦＭＡユニットを含む。ＳＩＭＤデバイスに関して、ソフトウェア命令は、ＦＭＡ毎のプレディケート値を提供して、各ＦＭＡの命令の実行を選択するレジスタを指定し得る。ｓｏＦＭＡユニットを有するＳＩＭＤデバイスにおいて、ソフトウェア命令は、ｓｏＦＭＡ毎の選択コードを提供して、各ｓｏＦＭＡの命令の実行を選択するレジスタを指定し得る。ｓｏＦＭＡユニットを有するＳＩＭＤデバイスは、ＦＭＡユニットを有するＳＩＭＤより高いアプリケーション性能をもたらし得る。ｓｏＦＭＡユニットを有するＳＩＭＤデバイスは、ＭＩＭＤデバイスの１つのタイプである。

【0049】

本発明の１つの実施形態に起因して、加えて又は代替的に、プレディケートレジスタは、プレディケート値を有するマルチビットプレディケートフィールドを備え得、プレディケートフィールドは、装置のレーン上でプレディケート値を実行して各レーンに対するそれぞれのプレディケートに基づいて個別のレーンの種類を変更するために、命令によって有効化される。そうして、方法は、以前の結果ベクトルに基づいて、個別のＳＩＭＤレーンの動的マルチビットプレディケーションを可能にする。

【0050】

本発明の１つの実施形態に起因して、加えて又は代替的に、少なくとも１つの積和ユニットは、内部演算の少なくとも１つのオペランドを、予め定義されたオペランド値セットの少なくとも１つの値に置換するように構成され得る。演算は、ロードストアユニットによって提供されるプレディケート値、以前の命令の結果、及び動的又は静的使用についての情報に基づいてプレディケートロジックによって選択コードパラメータへと指定及びデコードされるプレディケート値によってトリガされ得る。そうして、ＳＩＭＤアプローチにおいて、方法は更に、プレディケートと併せて使用され、各個別のＳＩＭＤレーンが様々な演算を実行することを可能にし得る。

【0051】

更に、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、少なくとも１つの積和ユニット上で、上記で説明された方法を用いて形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための命令を含む非一時的機械可読媒体が提案され、オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値に置換可能である。

【0052】

本発明の方法は、選択可能演算浮動小数点積和（ｓｏＦＭＡ）ユニットを使用する。ｓｏＦＭＡユニットは、浮動小数点積和（ＦＭＡ）ユニットのものを強化するソフトウェア使用及びハードウェア実装を呈し、ＦＭＡユニットは値Ａ、Ｂ、Ｃを入力してＦＭＡユニットによって出力として値Ｄ＝Ａ＊Ｂ＋Ｃを計算する。

【0053】

方法は、低減されたコストで、単一命令複数データ（ＳＩＭＤ）プロセッサ上での複数命令複数データ（ＭＩＭＤ）のような実行を可能にする。

【0054】

方法は、通常はベクトル化可能とみなされないワークロードのベクトル化を可能にする。

【図面の簡単な説明】

【0055】

本発明は上記で言及された及び他の目的及び利点と共に、実装形態の下記の詳細な説明から最も良好に理解され得るが、当該実装形態に限定されない。

【0056】

【図1】本発明の１つの実施形態に係る、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための装置を示すブロック図である。

【0057】

【図2】図１に係る装置を有する本発明の１つの実施形態に係る、形式Ａ＊Ｂ＋Ｃの浮動小数点乗算、加算、又は積和演算を実行するための演算を示すフローチャートである。

【0058】

【図3】マルチプレクサ回路を使用する本発明の更なる実施形態に係る浮動小数点積和演算を実行するための装置を示す概略ブロック図である。

【0059】

【図4】レジスタファイルを使用する本発明の更なる実施形態に係る浮動小数点積和演算を実行するための装置を示す概略ブロック図である。

【0060】

【図5】プレディケートを使用する更なる実施形態に係る少なくとも１つの積和ユニットを有する複数の装置を有する単一命令複数データデバイスを備えるプロセッサを示す概略ブロック図である。

【0061】

【図6】以前の結果ベクトルに基づいて個別のＳＩＭＤレーンの動的マルチビットプレディケーションを使用する更なる実施形態に係る少なくとも１つの積和ユニットを有する複数の装置を有する単一命令複数データデバイスを備えるプロセッサを示す概略ブロック図である。

【0062】

【図7】更なる実施形態に係る動的プレディケートデコードロジックの例示的な実装を示す概略図である。

【0063】

【図8】本発明の更なる実施形態に係る浮動小数点積積和演算を実行するための装置を示す概略ブロック図である。

【0064】

【図9】本発明の更なる実施形態に係る例示的な行列乗算プログラムの演算を示すフローチャートである。

【発明を実施するための形態】

【0065】

図面において、同様の要素は同じ参照符号を用いて参照される。図面は、単に概略的な表現であり、本発明の具体的なパラメータを描写することを意図していない。更に、図面は本発明の典型的な実装形態を示すことのみを意図しており、したがって本発明の範囲を限定するものとしてみなされるべきではない。

【0066】

本明細書で説明される例示的な実施形態は、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、上記で説明された方法を用いて少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための装置を提供し、浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、オペランドＡ、Ｂ、Ｃを、少なくとも１つの出力ポートへ伝搬される予め定義されたオペランド値セットの少なくとも１つの値に置換するように別個に構成可能であるように構成されている置換ロジックによって提供される。

【0067】

例示的な実施形態は更に、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、少なくとも１つの積和ユニット上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための方法のために使用され得、オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値に置換される。

【0068】

図１は、本発明の１つの実施形態に係る、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、少なくとも１つの積和ユニット１５上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための装置１０を示す。

【0069】

装置１０は、ＦＭＡユニット１５及び３つのオペランド置換ロジックユニット９４、９５、９６を備える処理タイルを表す。

【0070】

浮動小数点オペランドＡ、Ｂ、Ｃは置換ロジック９４、９５、９６によって提供される。置換ロジック９４、９５、９６は、オペランドＡ、Ｂ、Ｃを、ＦＭＡユニット１５の入力９０、９１、９２として置換ロジック９４、９５、９６の少なくとも１つの出力ポート１７、１８、１９へ伝搬される予め定義されたオペランド値セット５０の少なくとも１つの値に置換するように別個に構成可能であるように構成されている。

【0071】

浮動小数点積和演算は、少なくとも１つの置換ロジック９４、９５、９６の構成を指定する選択コードパラメータを有する命令１６によってトリガされる。

【0072】

予め定義されたオペランド値セット５０は、値－０、＋０、＋１、－１を含むセットとして少なくとも構成されている。

【0073】

積和ユニット１５は、３つの入力９０、９１、９２を備え、少なくとも１つの入力９０、９１、９２は、少なくとも１つの置換ロジック９４、９５、９６の出力１７、１８、１９から受信される。

【0074】

浮動小数点積和演算は、置換ロジック９４、９５、９６の構成を指定する選択コードパラメータを有する命令１６によってトリガされる。

【0075】

オペランド置換ロジック９４は、入力Ａ、又は予め定義されたオペランド値セット５０からの明確に定義された浮動小数点定数０ｘ８０００（－０．０）又は０ｘ３Ｅ００（１．０）のうちの１つのいずれかを、ＦＭＡユニット１５のオペランドＡへ渡すようにモード制御入力によって構成され得る。オペランド置換ロジック９５は、入力Ｂ、又は明確に定義された浮動小数点定数０ｘ３Ｅ００（１．０）のいずれかを、ＦＭＡユニット１５のオペランドＢへ渡すようにモード制御入力によって構成され得る。オペランド置換ロジック９６は、入力Ｃ、又は明確に定義された浮動小数点定数０ｘ８０００（－０．０）のいずれかを、ＦＭＡユニット１５のオペランドＣへ渡すようにモード制御入力によって構成され得る。

【0076】

ＦＭＡユニット１５は、２つの入力（オペランドＡ及びオペランドＢ）を乗算し、その積に第３の入力（オペランドＣ）を加算することができる。３つのオペランド置換ロジックユニット９４、９５、９６は、各オペランド置換ユニット９４、９５、９６の置換モードであるモードＡ、モードＢ、モードＣを個別にセットするための条件を有する現在のＦＭＡ命令コード１６によって制御される。

【0077】

図２は、図１に係る装置１０を有する本発明の１つの実施形態に係る、形式Ａ＊Ｂ＋Ｃの浮動小数点乗算、加算、又は積和演算を実行するためのフローチャートを示す。

【0078】

３つの浮動小数点入力オペランドＡ、Ｂ及びＣ（ステップＳ１００、Ｓ１０２、Ｓ１０４における入力）は、それぞれモードＡ、モードＢ、モードＣに基づいて、明確に定義された浮動小数点定数に個別に置換され得る。

【0079】

Ａは、少なくとも－０．０（ステップＳ１０６、Ｓ１０８）又は１．０（ステップＳ１１４、Ｓ１１６）に置換されるか、又は変更されないまま（ステップＳ１２２、１２４）であり得る。Ｂは、少なくとも１．０（ステップＳ１１０、Ｓ１１２）に置換されるか、又は変更されないまま（ステップＳ１１８、Ｓ１２０）であり得る。Ｃは、少なくとも－０．０（ステップＳ１３２、Ｓ１３４）に置換されるか、又は変更されないまま（ステップＳ１２８、Ｓ１３０）であり得る。

【0080】

置換ステップの後、結果として得られるオペランドは、ＦＭＡユニット１５によって処理されて、ステップＳ１３６において演算Ｄ＝Ａ＊Ｂ＋Ｃが生成される。個別の置換モードに基づいて、結果Ｄは選択可能演算－０．０、Ａ、Ｂ、Ｃ、Ａ＊Ｂ、Ａ＋Ｃ、Ｂ＋Ｃ、又はＡ＊Ｂ＋Ｃのうちの少なくともいずれかに対応する。結果Ｄは、ステップＳ１３８において出力のためにセットされる。無効モード例外は、ステップＳ１２６において出力のためにセットされる。

【0081】

各オペランドが－０．０、＋０．０、－１．０、＋１．０に置換されることを可能にする方法の拡張は、選択可能演算のセットを、少なくとも－０．０、＋０．０、Ａ、Ｂ、Ｃ、－Ａ、－Ｂ、Ａ＊Ｂ、－Ａ＊Ｂ、Ａ＋Ｃ、Ｂ＋Ｃ、Ａ＊Ｂ＋Ｃ、－１．０、１．０、Ａ＋１．０、Ａ－１．０、Ｂ＋１．０、Ｂ－１．０、Ｃ＋１．０、Ｃ－１．０へ、更に拡張する。

【0082】

図３は、マルチプレクサ回路１１、１２、１３を使用する本発明の更なる実施形態に係る浮動小数点積和演算を実行するための装置１０を示す。

【0083】

この実装形態は、任意の浮動小数点値を変更せずに渡すこと、又はＦＭＡユニット１５を用いて正しいＩＥＥＥ準拠浮動小数点乗算、加算又は積和演算を実行することを可能にするためにマルチプレクサ回路１１、１２、１３を用いて、図１中で示された実装形態のオペランド置換ロジック９４、９５、９６を実現する。

【0084】

処理タイルとしての装置１０は、３つのオペランドマルチプレクサ回路１１、１２、１３及びＦＭＡユニット１５を備える。

【0085】

３つの浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、それぞれマルチプレクサ回路１１、１２、１３によってＦＭＡユニット１５へ提供される。マルチプレクサ回路１１、１２、１３は、それぞれの浮動小数点オペランドＡ、Ｂ、Ｃのための第１の入力ポート８０、８１、８２；８３、８４；８５、８６、予め定義されたオペランド値セット５０の少なくとも１つの値のための少なくとも第２の入力ポート８０、８１、８２；８３、８４；８５、８６、及び対応する第１の及び第２の入力ポート８０、８１、８２；８３、８４；８５、８６へ割り当てられている少なくとも１つの出力ポート１７、１８、１９を備える。マルチプレクサ回路１１、１２、１３は、入力ポート８０、８１、８２；８３、８４；８５、８６のうちの１つを、少なくとも１つの出力ポート１７、１８、１９へ伝搬されるために選択するように別個に構成可能であるように構成されている。

【0086】

入力ポート８０、８１、８２を有するマルチプレクサ回路１１は、入力Ａ、予め定義された値セット５０からの定数０ｘ８０００（－０．０）又は定数０ｘ３Ｅ００（１．０）のいずれかを選択するように構成され得る。入力ポート８３、８４を有するマルチプレクサ回路１２は、入力Ｂ又は定数０ｘ３Ｅ００（１．０）のいずれかを選択するように構成され得る。入力ポート８５、８６を有するマルチプレクサ回路１３は、入力Ｃ又は定数０ｘ８０００（－０．０）のいずれかを選択するように構成され得る。

【0087】

ＦＭＡユニット１５は、入力９０、９１からの２つの入力（オペランドＡ及びオペランドＢ）を乗算し、積Ｄに入力９２からの第３の入力（オペランドＣ）を加算することができる。

【0088】

マルチプレクサ回路１１、１２、１３の選択ポートは、図１中で示される装置１０のオペランド置換ユニット９４、９５、９６のモード制御入力に対応し、現在の命令１６によって制御される。

【0089】

入力ポート８０、８１、８２；８３、８４；８５、８６のうちの１つは、パラメータ－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを含む選択可能演算に対応するセットのうちの少なくとも１つである選択コードパラメータによって、対応する少なくとも１つの出力ポート１７、１８、１９へ伝搬されるために選択され得る。

【0090】

図４は、レジスタファイル１４を使用する本発明の更なる実施形態に係る浮動小数点積和演算を実行するための装置１０を示す。

【0091】

処理タイルとしての装置１０は、３つのオペランドマルチプレクサ回路１１、１２、１３、ローカルレジスタファイル（ＬＲＦ）１４及びＦＭＡユニット１５を備える。

【0092】

レジスタファイル１４は、第１の読み出しポート５２及び第２の読み出しポート５４及び１つの書き込みポート５６を備える。レジスタファイル１４は、入力オペランド６８、６９を提供するために構成されており、出力６７を積和ユニット１５から受信し、特に選択コードパラメータを有する命令１６によってトリガされる入力オペランド６８、６９を提供するために構成されている。

【0093】

選択コードパラメータは、入力ポート（図３に対応する）のうちの１つを、少なくとも１つの出力ポート１７、１８、１９へ伝搬されるために選択するために使用され、－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを含む選択可能演算に対応するセットのうちの少なくとも１つである。

【0094】

マルチプレクサ回路１１は、処理タイルの西入力６０からのデータソース、処理タイルの北入力６２からのデータソース、又は定数０ｘ８０００（－０．０）のいずれかを選択するように構成され得る。

【0095】

別の実施形態において、データソースは、本発明の方法から逸脱せずに、例えば、東入力から、及び南入力からの別の方角を有し得る。

【0096】

マルチプレクサ回路１２は、レジスタファイル１４の読み出しポート５２又は定数０ｘ３Ｅ００（１．０）のいずれかを、入力オペランド６８として選択するように構成され得る。マルチプレクサ回路１３は、北入力６２からのデータソース、レジスタファイル１４の読み出しポート５４、又は定数０ｘ８０００（－０．０）のいずれかを選択するように構成され得る。

【0097】

ローカルレジスタファイル１４は、第１の読み出しポート５２及び第２の読み出しポート５４及び１つの書き込みポート５６を有するレジスタファイルである。

【0098】

ＦＭＡユニット１５は、２つの入力（オペランドＡ及びオペランドＢ）を乗算し、積Ｄへ第３の入力（オペランドＣ）を加算したものを出力６７とすることができ、これは南出力６６又はレジスタファイル１４の書き込みポート５６へ伝搬され得る。

【0099】

下記の表において、北入力６２からの任意の浮動小数点値をＦＭＡユニット１５を介してローカルレジスタファイル１４へロードするための選択コードパラメータを有するマルチプレクサ回路１１、１２、１３のオペランドの例示的なセットアップが示される。

【表1】

【0100】

下記の表において、西入力６０からの浮動小数点値をローカルレジスタファイル１４からの浮動小数点値と乗算し、ローカルレジスタファイル１４からの別の浮動小数点値を加算するための選択コードパラメータを有するマルチプレクサ回路１１、１２、１３のオペランドの例示的なセットアップが示される。結果は、ローカルレジスタファイル１４に書き込まれるか、又は南出力６６へ渡される。

【表2】

【0101】

プロセッサ１００が少なくとも１つの積和ユニット１５、２５、３５、４５を各々有する装置１０の相互接続メッシュを備え、ここで各積和ユニット１５、２５、３５、４５はデータ値の中間記憶のための少なくとも１つのローカルレジスタファイル１４を備える場合、浮動小数点積和演算は、置換ロジック９４、９５、９６の構成を指定する選択コードパラメータを有する命令１６によってトリガされる。

【0102】

図５は、プレディケート４２を使用する更なる実施形態に係る、少なくとも１つの積和ユニット１５、２５、３５を各々有する複数の装置１０、２０、３０を有する単一命令複数データデバイスを備えるプロセッサ１００を示す。

【0103】

プロセッサ１００は、浮動小数点積和演算を実行するための少なくとも１つの装置１０を備え、浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つがそれぞれ置換ロジック９４、９５、９６によって提供される。浮動小数点積和演算は、置換ロジック９４、９５、９６の構成を指定する選択コードパラメータを有する命令１６によってトリガされ得る。置換ロジック９４、９５、９６は、マルチプレクサ回路１１、１２、１３、２１、２２、２３、３１、３２、３３として実現され得る。

【0104】

図５中に示されるプロセッサ１００は、複数の装置１０、２０、３０を有する単一命令複数データデバイスを備え、プレディケートレジスタ４０は、装置１０毎にプレディケート値４２を提供する命令１６によって、各装置１０に対する浮動小数点積和演算の実行を選択するように指定される。

【0105】

プレディケートレジスタ４０は、プレディケート値４２を含むマルチビットプレディケートフィールド４４を備える。プレディケートフィールド４４は、命令１６によって、装置１０、２０、３０のレーン７０、７１、７２上でプレディケート値４２を実行して、各レーン７０、７１、７２に対するそれぞれのプレディケート４２に基づいて個別のレーン７０、７１、７２の種類を変更するように有効化される。

【0106】

少なくとも１つの積和ユニット１５、２５、３５は、内部演算の少なくとも１つのオペランドを、予め定義されたオペランド値セット５０の少なくとも１つの値に置換するように構成されている。演算は、プレディケート値４２に基づいてプレディケートロジック７７、７８、７９によって選択コードパラメータへと指定及びデコードされるプレディケート値４２によってトリガされる。

【0107】

装置１０、２０、３０は、Ｎ個の同一ＳＩＭＤレーン７０、７１、７２を表し、ここでＮは自然数であり、各々が３つのオペランドマルチプレクサ回路１１、１２、１３；２１、２２、２３；３１、３２、３３、図４中に示される実装形態と同様のＦＭＡユニット１５、２５、３５、及びプレディケートデコードロジック７７、７８、７９を備える。

【0108】

Ｎ個のマルチビットプレディケートフィールド４４から構成されるプレディケートレジスタ４０は、以下となるように、全てのＮ個のＳＩＭＤレーン７０、７１、７２上で実行される、各レーン７０、７１、７２に対してそれぞれのプレディケート４２に基づいて個別のレーン７０、７１、７２の種類を変更するＦＭＡ命令を有効化する：
プレディケート値０は、－０をもたらす。
プレディケート値１は、演算Ａ＊Ｂ＋Ｃをもたらす。
プレディケート値２は、特に乗算ユニットを使用したかのように正しい＋０又は－０を有する、演算Ａ＊Ｂをもたらす。
プレディケート値３は、特に加算ユニットを使用したかのように正しい＋０又は－０を有する、演算Ａ＋Ｃをもたらす。
プレディケート値４は、特に加算ユニットを使用したかのように正しい＋０又は－０を有する、演算Ｂ＋Ｃをもたらす。
プレディケート値５は、特にＡの全ての値に対して入力Ａにビット単位で同一である、Ａをもたらす。
プレディケート値６は、特にＢの全ての値に対して入力Ｂにビット単位で同一である、Ｂをもたらす。
プレディケート値７は、特にＣの全ての値に対して入力Ｃにビット単位で同一の結果である、Ｃをもたらす。

【0109】

別の実施形態において、プレディケート４２は、命令１６内にエンコードされ得る。

【0110】

図５中に示される８つの演算のセットは、２つの更なる演算：１をもたらすプレディケート値、及び１＋Ｃをもたらすプレディケート値によって拡張され得る。これら２つの演算の潜在的な使用は、例えばプレディケート値に基づいて、カウンタの増分を行うか又は行わないことである。

【0111】

所与の実装は、上記の１０個の可能な演算から選ぶための４つのプレディケートビットを有し得る。２つのプレディケートビットを有する所与の実装は、上記の１０個の演算のうちの任意の４つをサポートし得る。３つのプレディケートビットを有する所与の実装は、上記の１０個の演算のうちの任意の８つをサポートし得る。

【0112】

図６は、以前の結果ベクトルに基づいて個別のＳＩＭＤレーン７０、７１、７２の動的マルチビットプレディケーションを使用する更なる実施形態に係る、少なくとも１つの積和ユニット１５、２５、３５を各々有する複数の装置１０、２０、３０を有する単一命令複数データデバイスを備えるプロセッサ１００を示す。

【0113】

装置１０の少なくとも１つの積和ユニット１５、２５、３５における内部演算の少なくとも１つのオペランドは、予め定義されたオペランド値セット５０の少なくとも１つの値に置換される。演算は、ロードストアユニット４６によって提供されるプレディケート値４２、以前の命令１６の結果７６、及び動的又は静的使用についての情報７３に基づいてプレディケートロジック７７、７８、７９によって選択コードパラメータへと指定及びデコードされるプレディケート値４２によってトリガされる。

【0114】

以前のＳＩＭＤ命令の結果７６を含むベクトルレジスタ７４が追加されて、動的プレディケーションが可能にされる。以前の結果７６は、少なくとも２つの可能な値０又は１の範囲を有する。１つの実装形態において、ベクトルレジスタ７４は、ＳＩＭＤレーン７０、７１、７２毎の以前のＳＩＭＤ命令の一次結果７６を保持するレジスタ又はレジスタファイルであり得る。別の実施形態において、ベクトルレジスタ７４は、ＳＩＭＤレーン毎の条件コード、例えば比較、最小値、最大値をサポートする以前のＳＩＭＤ命令の二次結果として条件コードを保持する条件コードレジスタであり得る。

【0115】

命令コード１６は、少なくとも１ビットだけ拡張されて、動的プレディケーションが可能にされる。命令コード１６はここで、少なくとも１つのオペコードフィールド、ＦＭＡ命令であることを表す一意コード、及び動的プレディケーションを示す１つのフィールド７３を含む。任意選択で、それは加えて、複数のプレディケートレジスタ４０が存在する場合、プレディケートレジスタインデックスのための１つの更なるフィールド４１を含み得る。任意選択で、それは加えて、実装形態が動的プレディケーションに関するレジスタファイル７４内の以前のＳＩＭＤ命令の一次結果を使用する場合、レジスタインデックスのための１つの更なるフィールド７５を含み得る。

【0116】

ＳＩＭＤプレディケートレジスタ４０の各レーン７０、７１、７２は更に、ｌｅｎ（ｒａｎｇｅ（ｃｏｎｄｉｔｉｏｎｃｏｄｅ））個の予めコンパイルされたプレディケートに分割される。

【0117】

プレディケートレジスタ４０は、例えばロード／ストアユニット４６、又はデータをメモリから又は直近の命令フィールドからレジスタへ移動する能力を有する同様のユニットによって書き込まれ得る。

【0118】

ＳＩＭＤレーン７０、７１、７２毎のプレディケートデコードロジック７７、７８、７９は、以下となるように、図５中で示される実装形態内のプレディケートデコードロジック７７、７８、７９と比較して拡張される：
動的プレディケーションが命令コード１６内のそれぞれのビット７３によって有効化される場合、特定のレーン７０、７１、７２のための条件コードの値は、特定のレーン７０、７１、７２に対するプレディケートレジスタ４０からの予めコンパイルされたプレディケート４２のうちの１つ、すなわち、ｐｒｅｄｉｃａｔｅ．＜ｌａｎｅ＿ｉｄ＞［ｃｏｎｄｉｔｉｏｎｃｏｄｅ＿ｖａｌｕｅ］を選択する。
動的プレディケーションが無効化される場合、予めコンパイルされたプレディケート４２の最初のもの、すなわちｐｒｅｄｉｃａｔｅ．＜ｌａｎｅ＿ｉｄ＞［０］が選択される。

【0119】

別の実装形態は、条件コードの代わりに、以前の命令の一次結果を使用し得る。

【0120】

図７は、更なる実施形態に係る、図６中に示される実装形態の第１のレーン７０内で使用される動的プレディケートデコードロジック７７の例示的な実装を示す。

【0121】

簡略化のため、以前の結果ベクトル７６は、例えば、２つのベクトルＸ及びＹの間の一般化ベクトル比較の結果である４つの可能な値の範囲をＳＩＭＤレーン７０、７１、７２毎に有することが仮定され、ここで要素毎の結果は、ｘ！＝ｙの場合は０、ｘ＝＝ｙの場合は１、ｘ＜ｙの場合は２、ｘ＜＝ｙの場合は３である。

【0122】

マルチプレクサ回路８７は、浮動小数点積和演算を実行するためにマルチプレクサ１１、１２、１３を備えるそのレーン７０のための予めコンパイルされたプレディケート値４２のうちの１つを選択するために使用される。

【0123】

マルチプレクサ回路８７のための選択信号は、以前の結果７６によって制御され、それによって、拡張されたＦＭＡ命令コードの「動的」ビット７３へ接続されている第１の入力及び以前の結果７６へ接続されている第２の入力を有する追加のＡＮＤゲート９７は、動的プレディケーションが無効化される場合に選択を「０」に強制する。

【0124】

マルチプレクサ回路８７の出力は、第１のレーン７０のオペランドマルチプレクサ回路１１、１２、１３に対する選択信号を得るために、反転された第１の入力［１］及び第２の入力［２］を有する１つのＡＮＤゲート９８を備えるデコードロジック７７に接続されている。

【0125】

図８は、本発明の更なる実施形態に係る浮動小数点積積和演算を実行するための装置１０を示す。

【0126】

装置１０は、形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、Ａ０、Ａ１、Ｂ０、Ｂ１、Ｃを含む入力浮動小数点オペランドを用いて実行するために構成されている。

【0127】

装置１０は、２つの任意の浮動小数点値の連結されたペアを浮動小数点積積和（ＦＭＭＡ）ユニット４５を通してレジスタファイル１４へロードすることを可能にする。

【0128】

処理タイルとしての装置１０は、３つのオペランドマルチプレクサ回路１１、１２、１３、ローカルレジスタファイル（ＬＲＦ）１４及びＦＭＭＡユニット４５を備える。

【0129】

マルチプレクサ回路１１は、西入力６０からのデータソース、北入力６２からのデータソース、又は予め定義されたセット５０からの連結された定数ペア０ｘ８０００（－０．０、＋０．０）のいずれかを選択するように構成され得る。マルチプレクサ回路１２は、レジスタファイル１４の読み出しポート５２又は定数０ｘ３Ｅ００（１．０、＋０．０）のいずれかを選択するように構成され得る。マルチプレクサ回路１３は、北入力６２からのデータソース、レジスタファイル１４の読み出しポート５４、又は定数０ｘ８０００（－０．０）のいずれかを選択するように構成され得る。

【0130】

ローカルレジスタファイル１４は、２つの読み出しポート５２、５４及び１つの書き込みポート５６を有するレジスタファイルである。

【0131】

ＦＭＭＡユニット４５は、オペランドＡの第１の半分（Ａ０）とオペランドＢの第１の半分（Ｂ０）、及びオペランドＡの第２の半分（Ａ１）とオペランドＢの第２の半分（Ｂ１）を乗算し、次に２つの積の合計Ａ０＊Ｂ０＋Ａ１＊Ｂ１を行い、第３の入力（オペランドＣ）をその積の合計に加算し得る。

【0132】

下記の表において、北入力６２からの任意の浮動小数点値をＦＭＭＡユニット４５を介してローカルレジスタファイル１４へロードするための選択コードパラメータを有するマルチプレクサ回路１１、１２、１３のオペランドの例示的なセットアップが示される。

【表3】

【0133】

図９は、本発明の更なる実施形態に係る例示的な行列乗算プログラムのフローチャートを示す。行列内にストアされた情報は、ＡＩアプリケーションにおいて広範囲に使用され得る。高スループット且つ高効率の演算は、例えば、ＡＩアクセラレータを動作させるために不可欠である。本発明の実施形態に係るＦＭＡユニットは、浮動小数点データを、著しいハードウェアオーバヘッドなく論理レジスタファイルへロードするための効率的なインフラストラクチャとして機能し得る。

【0134】

ステップＳ２００において列インデックスＩを０に初期化した後、まず第２の行列（ＭａｔＢ）の８つの要素の列がＦＭＡユニットを介して、ローカルレジスタファイル（ＬＲＦ）へロードされる（ステップＳ２０４）。要素番号は、ステップＳ２０６において増加され、ステップＳ２０２において８よりも小さいかがチェックされる。次に、第１の行列（ＭａｔＡ）の４つの行の各々に対して、ＦＭＡユニットを介して、８つの要素がＬＲＦ内にストアされている他方の８つの要素と乗算及び累算される（ステップＳ２１４）。列の要素番号は、ステップＳ２１２においてチェックされ、当該番号が８に等しくなるまでステップＳ２１６において増加される。行番号は、ステップＳ２１８においてチェックされ、当該番号が４に等しくなるまでステップＳ２２０において増加される。

【0135】

簡略化のため、例は、実際にはリードビフォアライトハザードを避けるためにパイプライン設計において必要とされるインターリーブされた計算順序を使用していない。

【0136】

選択可能演算ＦＭＡユニットを有する静的予測を使用する利点は、従来ではベクトル化可能でない問題を計算することによって実証され得る。現行技術水準のプロセッサ上で従来ではベクトル化可能でない問題を計算する高レベル疑似コードについて、
Ｄ［０］＝Ａ［０］＊Ｂ［０］＋Ｃ［０］；
Ｄ［１］＝Ｃ［１］；
Ｄ［２］＝Ｂ［２］＋Ｃ［２］；
Ｘ［３］＝－０．０；
静的予測と同じ問題を計算する疑似アセンブリコードはこのようになる。

【表4】

【0137】

そうして、本発明の１つの実施形態に係るｓｏＦＭＡユニットを使用して、非常に短く且つ簡潔なコードが結果として得られる。

【0138】

選択可能演算ＦＭＡユニットを有する動的予測を使用する利点は、従来ではベクトル化可能でない問題を計算することによって実証され得る。現行技術水準のプロセッサ上で従来ではベクトル化可能でない問題を計算する高レベル疑似コードについて、

【表5】

動的プレディケーションを用いて、提案されたｓｏＦＭＡ上で同じ問題を計算する疑似アセンブリコードはこのようになる：

【表6】

【0139】

動的予測も、非常に短く且つ簡潔なコードをもたらす。

【0140】

本開示の更なる例示的な実装形態は、下記に番号付き条項で記載される：

【0141】

番号付き条項１：３つの入力浮動小数点オペランド（Ａ、Ｂ、Ｃ）を用いて、少なくとも１つの積和ユニット（１５、２５、３５、４５）上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するためのプロセッサ実装方法であって、
前記オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つは、予め定義されたオペランド値セット（５０）の少なくとも１つの値に置換される、プロセッサ実装方法。

【0142】

番号付き条項２：
・前記浮動小数点オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つを、置換ロジック（９４、９５、９６）によって提供する段階、
・前記オペランド（Ａ、Ｂ、Ｃ）を、前記置換ロジック（９４、９５、９６）の少なくとも１つの出力ポート（１７、１８、１９）へ伝搬される前記予め定義されたオペランド値セット（５０）の前記少なくとも１つの値に置換するように別個に構成可能であるように前記置換ロジック（９４、９５、９６）を構成する段階
を更に少なくとも備える、条項１に記載の方法。

【0143】

番号付き条項３：
前記置換ロジック（９４、９５、９６）はマルチプレクサ回路（１１、１２、１３）として構成されており、
前記方法は更に、
・前記３つの浮動小数点オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つを、それぞれ前記マルチプレクサ回路（１１、１２、１３）によって提供する段階、ここで前記マルチプレクサ回路（１１、１２、１３）は前記それぞれの浮動小数点オペランド（Ａ、Ｂ、Ｃ）のための第１の入力ポート（８０、８１、８２；８３、８４；８５、８６）、及び予め定義されたオペランド値セット（５０）の少なくとも１つの値のための少なくとも第２の入力ポート（８０、８１、８２；８３、８４；８５、８６）、及び少なくとも１つの出力ポート（１７、１８、１９）を備える、
・前記入力ポート（８０、８１、８２；８３、８４；８５、８６）のうちの１つを、前記少なくとも１つの出力ポート（１７、１８、１９）へ伝搬されるために選択するように別個に構成可能であるように前記マルチプレクサ回路（１１、１２、１３）を構成する段階
を少なくとも備える、条項１又は２に記載の方法。

【0144】

番号付き条項４：更に、前記浮動小数点積和演算を、前記置換ロジック（９４、９５、９６）の前記構成を指定する選択コードパラメータを有する命令（１６）によってトリガする、条項１～３のいずれか一項に記載の方法。

【0145】

番号付き条項５：更に、前記予め定義されたオペランド値セット（５０）を、少なくとも値－０、＋０、＋１、－１を含むセットとして構成する、条項１～４のいずれか一項に記載の方法。

【0146】

番号付き条項６：更に、前記入力ポート（８０、８１、８２；８３、８４；８５、８６）のうちの１つを、パラメータ－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つである前記選択コードパラメータによって、前記少なくとも１つの出力ポート（１７、１８、１９）へ伝搬されるために選択する、条項３～５のいずれか一項に記載の方法。

【0147】

番号付き条項７：更に、形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、オペランドＡ０、Ａ１、Ｂ０、Ｂ１、Ｃを備える入力浮動小数点オペランドを用いて実行する、条項１～６のいずれか一項に記載の方法。

【0148】

番号付き条項８：更に、浮動小数点オペランドを、レジスタファイル（１４）によって入力オペランド（６８、６９）として提供し、前記置換ロジック（９４、９５、９６）からの出力（６７）を、少なくとも２つの読み出しポート（５２、５４）及び１つの書き込みポート（５６）を有するレジスタファイル（１４）によって受信し、特に選択コードパラメータを有する前記命令（１６）によってトリガされる前記入力オペランド（６８、６９）を提供する、条項１～７のいずれか一項に記載の方法。

【0149】

番号付き条項９：更に、プロセッサ（１００）が少なくとも１つの積和ユニット（１５、２５、３５、４５）を各々有する装置（１０）の相互接続メッシュを備え、ここで各積和ユニット（１５、２５、３５、４５）はデータ値の中間記憶のための少なくとも１つのローカルレジスタファイル（１４）を備える場合、前記浮動小数点積和演算を、前記置換ロジック（９４、９５、９６）の構成を指定する選択コードパラメータを有する命令（１６）によってトリガする、条項１～８のいずれか一項に記載の方法。

【0150】

番号付き条項１０：更に、プロセッサ（１００）が少なくとも１つの積和ユニット（１５、２５、３５、４５）を各々有する複数の装置（１０）を有する単一命令複数データデバイスを備え、ここで装置（１０）毎のプレディケート値（４２）をプレディケートレジスタ（４０）によって提供することが命令（１６）によって指定される場合、各装置（１０）に対する浮動小数点積和演算の実行を選択する、条項１～９のいずれか一項に記載の方法。

【0151】

番号付き条項１１：更に、前記プレディケートレジスタ（４０）が前記プレディケート値（４２）を有するマルチビットプレディケートフィールド（４４）を備え、これが前記命令（１６）によって有効化される場合、装置（１０、２０、３０）のレーン（７０、７１、７２）上でプレディケート値（４２）を実行して、各レーン（７０、７１、７２）に対する前記それぞれのプレディケート値（４２）に基づいて個別のレーン（７０、７１、７２）の種類を変更する、条項１０に記載の方法。

【0152】

番号付き条項１２：装置（１０）の前記少なくとも１つの積和ユニット（１５、２５、３５、４５）における内部演算の少なくとも１つのオペランドは、予め定義されたオペランド値セット（５０）の少なくとも１つの値に置換され、
前記演算は、ロードストアユニット（４６）によって提供されるプレディケート値（４２）、以前の命令（１６）の結果（７６）、及び動的又は静的使用についての情報（７３）に基づいてプレディケートロジック（７７、７８、７９）によって選択コードパラメータへと指定及びデコードされるプレディケート値（４２）によってトリガされる、
条項１０又は１１に記載の方法。

【0153】

番号付き条項１３：３つの入力浮動小数点オペランド（Ａ、Ｂ、Ｃ）を用いて、条項１～１２のいずれか一項に記載の方法を用いて少なくとも１つの積和ユニット（１５、２５、３５、４５）上で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための装置（１０）であって、
前記浮動小数点オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つは、前記オペランド（Ａ、Ｂ、Ｃ）を、前記置換ロジック（９４、９５、９６）の少なくとも１つの出力ポート（１７、１８、１９）へ伝搬される前記予め定義されたオペランド値セット（５０）の前記少なくとも１つの値に置換するように別個に構成可能であるように構成されている置換ロジック（９４、９５、９６）によって提供される、装置（１０）。

【0154】

番号付き条項１４：前記置換ロジック（９４、９５、９６）はマルチプレクサ回路（１１、１２、１３）として構成されており、前記３つの浮動小数点オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つは、それぞれ前記マルチプレクサ回路（１１、１２、１３）によって提供され、前記マルチプレクサ回路（１１、１２、１３）は：
前記それぞれの浮動小数点オペランド（Ａ、Ｂ、Ｃ）のための第１の入力ポート（８０、８１、８２；８３、８４；８５、８６）、
予め定義されたオペランド値セット（５０）の少なくとも１つの値のための少なくとも第２の入力ポート（８０、８１、８２；８３、８４；８５、８６）、及び
前記対応する第１の及び第２の入力ポート（８０、８１、８２；８３、８４；８５、８６）に割り当てられる少なくとも１つの出力ポート（１７、１８、１９）を備え、
前記マルチプレクサ回路（１１、１２、１３）は、前記入力ポート（８０、８１、８２；８３、８４；８５、８６）のうちの１つを、前記少なくとも１つの出力ポート（１７、１８、１９）へ伝搬されるために選択するように別個に構成可能であるように構成されている、
条項１３に記載の装置。

【0155】

番号付き条項１５：前記浮動小数点積和演算は、前記少なくとも１つの置換ロジック（９４、９５、９６）の構成を指定する選択コードパラメータを有する命令（１６）によってトリガされる、条項１３又は１４に記載の装置。

【0156】

番号付き条項１６：前記予め定義されたオペランド値セット（５０）は、少なくとも値－０、＋０、＋１、－１を含むセットとして構成されている、条項１３～１５のいずれか一項に記載の装置。

【0157】

番号付き条項１７：前記入力ポート（８０、８１、８２；８３、８４；８５、８６）のうちの１つを、前記少なくとも１つの出力ポート（１７、１８、１９）へ伝搬されるために選択するために使用される前記選択コードパラメータは、－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つである、条項１５又は１６に記載の装置。

【0158】

番号付き条項１８：３つの入力（９０、９１、９２）を有する少なくとも１つの積和ユニット（１５、２５、３５、４５）を備え、少なくとも１つの入力（９０、９１、９２）は、前記少なくとも１つの置換ロジック（９４、９５、９６）の出力（１７、１８、１９）から受信される、条項１３～１７のいずれか一項に記載の装置。

【0159】

番号付き条項１９：少なくとも２つの読み出しポート（５２、５４）及び１つの書き込みポート（５６）を有するレジスタファイル（１４）を備え、前記レジスタファイル（１４）は、入力オペランド（６８、６９）を提供するために構成されており、前記積和ユニット（１５、２５、３５、４５）からの出力（６７）を受信するために、特に選択コードパラメータを有する前記命令（１６）によってトリガされる前記入力オペランド（６８、６９）を提供するために構成されている、条項１３～１８のいずれか一項に記載の装置。

【0160】

番号付き条項２０：形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、Ａ０、Ａ１、Ｂ０、Ｂ１、Ｃを備える入力浮動小数点オペランドを用いて実行するために構成されている、条項１３～１９のいずれか一項に記載の装置。

【0161】

番号付き条項２１：条項１３～２０のいずれか一項に記載の浮動小数点積和演算を実行するための少なくとも１つの装置（１０）を備え、前記浮動小数点オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つは、置換ロジック（９４、９５、９６）によってそれぞれ提供され、前記浮動小数点積和演算は、前記置換ロジック（９４、９５、９６）の構成を指定する選択コードパラメータを有する命令（１６）によってトリガされる、プロセッサ（１００）。

【0162】

番号付き条項２２：複数の装置（１０）を有する単一命令複数データデバイスを備え、プレディケートレジスタ（４０）は、装置（１０）毎のプレディケート値（４２）を提供する命令（１６）によって、各装置（１０）に対する浮動小数点積和演算の実行を選択するように指定される、条項２１に記載のプロセッサ。

【0163】

番号付き条項２３：前記プレディケートレジスタ（４０）が前記プレディケート値（４２）を有するマルチビットプレディケートフィールド（４４）を備え、前記プレディケートフィールド（４４）は、前記命令（１６）によって、装置（１０、２０、３０）のレーン（７０、７１、７２）上で前記プレディケート値（４２）を実行して、各レーン（７０、７１、７２）に対する前記それぞれのプレディケート（４２）に基づいて個別のレーン（７０、７１、７２）の種類を変更するように有効化される、条項２２に記載のプロセッサ。

【0164】

番号付き条項２４：前記少なくとも１つの積和ユニット（１５、２５、３５、４５）は、内部演算の少なくとも１つのオペランドを予め定義されたオペランド値セット（５０）の少なくとも１つの値に置換するように構成されており、
前記演算は、ロードストアユニット（４６）によって提供されるプレディケート値（４２）、以前の命令（１６）の結果（７６）、及び動的又は静的使用についての情報（７３）に基づいてプレディケートロジック（７７、７８、７９）によって選択コードパラメータへと指定及びデコードされるプレディケート値（４２）によってトリガされる、
条項２２又は２３に記載のプロセッサ。

【0165】

番号付き条項２５：少なくとも１つの積和ユニット（１５、２５、３５、４５）上で、３つの入力浮動小数点オペランド（Ａ、Ｂ、Ｃ）を用いて、
条項１～１２のいずれか一項に記載の方法を用いて、形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行するための命令を備える非一時的機械可読媒体であって、
前記オペランド（Ａ、Ｂ、Ｃ）のうちの少なくとも１つは、予め定義されたオペランド値セット（５０）の少なくとも１つの値に置換可能である、非一時的機械可読媒体。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2024-05-07

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

前記浮動小数点積和演算を、前記置換ロジックの前記構成を指定する選択コードパラメータを有する命令によってトリガする段階
を更に備える、請求項２に記載のプロセッサ実装方法。

【請求項5】

前記予め定義されたオペランド値セットを、少なくとも値－０、＋０、＋１、－１を含むセットとして構成する段階
を更に備える、請求項１に記載のプロセッサ実装方法。

【請求項6】

【請求項7】

形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、オペランドＡ０、Ａ１、Ｂ０、Ｂ１、Ｃを備える入力浮動小数点オペランドを用いて実行する段階
を更に備える、請求項１に記載のプロセッサ実装方法。

【請求項8】

【請求項9】

【請求項10】

プロセッサが少なくとも１つの積和ユニットを各々有する複数の装置を有する単一命令複数データデバイスを備え、ここで装置毎のプレディケート値をプレディケートレジスタによって提供することが命令によって指定される場合、各装置に対する浮動小数点積和演算の実行を選択する段階
を更に備える、請求項１に記載のプロセッサ実装方法。

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

前記浮動小数点積和演算は、前記少なくとも１つの置換ロジックの構成を指定する選択コードパラメータを有する命令によってトリガされる、請求項１４に記載の装置。

【請求項16】

前記予め定義されたオペランド値セットは、少なくとも値－０、＋０、＋１、－１を含むセットとして構成されている、請求項１３に記載の装置。

【請求項17】

前記第１の入力ポート及び前記第２の入力ポートのうちの１つを、前記少なくとも１つの出力ポートへ伝搬されるために選択するために使用される前記選択コードパラメータは、－０、Ｃ、Ａ、Ａ＋Ｃ、Ｂ、Ｂ＋Ｃ、Ａ＊Ｂ、Ａ＊Ｂ＋Ｃ、Ｃ＋１、１、－Ａ＋Ｃ、－Ｂ＋Ｃを備える選択可能演算に対応するセットのうちの少なくとも１つである、請求項１５に記載の装置。

【請求項18】

３つの入力を有する少なくとも１つの積和ユニットを備え、少なくとも１つの入力は、前記少なくとも１つの置換ロジックの出力から受信される、請求項１３に記載の装置。

【請求項19】

【請求項20】

形式Ａ０＊Ｂ０＋Ａ１＊Ｂ１＋Ｃの浮動小数点積積和演算を、Ａ０、Ａ１、Ｂ０、Ｂ１、Ｃを備える入力浮動小数点オペランドを用いて実行するために構成されている、請求項１３に記載の装置。

【請求項21】

【請求項22】

【請求項23】

【請求項24】

【請求項25】

プロセッサに、少なくとも１つの積和ユニット上で、３つの入力浮動小数点オペランドＡ、Ｂ、Ｃを用いて、請求項１に記載のプロセッサ実装方法で形式Ａ＊Ｂ＋Ｃの浮動小数点積和演算を実行させるためのコンピュータプログラムであって、
前記入力浮動小数点オペランドＡ、Ｂ、Ｃのうちの少なくとも１つは、予め定義されたオペランド値セットの少なくとも１つの値によって置換可能である、
コンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版