特表2024-538668 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-538668融合モジュラ積和演算

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-23

(54)【発明の名称】融合モジュラ積和演算

(51)【国際特許分類】

G06F 17/10 20060101AFI20241016BHJP

【ＦＩ】

G06F17/10 S

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024520060

(86)(22)【出願日】2022-10-11

(85)【翻訳文提出日】2024-04-02

(86)【国際出願番号】 CN2022124644

(87)【国際公開番号】W WO2023071780

(87)【国際公開日】2023-05-04

(31)【優先権主張番号】17/513,974

(32)【優先日】2021-10-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】ラオ、ラジャット

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056AA05

5B056BB71

5B056BB73

5B056FF01

5B056FF02

(57)【要約】

コンピュータ実装方法は、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する段階を備え、ここで、ａ、ｂ、及びｃは、一組のオペランドとして提供される。第１の乗累算ユニットは、ａ＊ｂを計算するバイナリ乗算を計算する。第２の乗累算ユニットは、ｐを使用してバイナリ乗算の結果を更新することによって第１の中間結果を計算する。第３の乗累算ユニットの累算器は、ｃで初期化される。第３の乗累算ユニットは、第１の中間結果及びｃを使用して第２の中間結果を計算する。加算器ユニットは、バイナリ乗算の結果の一部分から第２の中間結果の一部分を減算する。加算器の出力は、融合モジュラ積和演算の結果として提供される。

【特許請求の範囲】

【請求項1】

処理ユニットによって、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する命令を受け取る段階、ここで、ａ、ｂ、及びｃは、一組のオペランドとして提供される；
第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する段階；
第２の乗累算ユニットによって、ｐを使用して前記バイナリ乗算の結果を更新することによって第１の中間結果を計算する段階；
ｃで第３の乗累算ユニットの累算器を初期化する段階；
前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する段階；
加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する段階；及び
前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する段階
を備える、コンピュータ実装方法。

【請求項2】

前記加算器は、前記第１の乗累算ユニットにおける乗算器よりも幅広のビット幅を有する、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記加算器の前記ビット幅は、前記第１の乗累算ユニットにおける前記乗算器の前記ビット幅よりも１多い、請求項２に記載のコンピュータ実装方法。

【請求項4】

ｃで前記第３の乗累算ユニットの前記累算器を初期化する段階は、前記累算器の下位ビットにｃの値を記憶する段階を有する、請求項１に記載のコンピュータ実装方法。

【請求項5】

前記第１の中間結果を計算する段階は、事前計算された定数でａ＊ｂの前記バイナリ乗算の前記結果の第２のバイナリ乗算を実行する段階を有する、請求項１に記載のコンピュータ実装方法。

【請求項6】

前記第２の中間結果を計算する段階は、前記第１の中間結果の上位ビットを係数ｐと乗算する段階を有し、ｐの値は、前記命令を呼び出す前に前記第３の乗累算ユニットに記憶される、請求項５に記載のコンピュータ実装方法。

【請求項7】

前記出力が０及びｐの間であることを確実にするために加算器の前記出力を補正する段階を更に備える、請求項１に記載のコンピュータ実装方法。

【請求項8】

一組のレジスタ；及び
各々が乗算器及び累算器を含む３つの乗累算ユニットを有する一組の乗累算ユニット
を備え、前記一組の乗累算ユニットは、前記一組のレジスタに結合され、前記一組の乗累算ユニットは、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する方法を実行するように構成されており、ここで、ａ、ｂ、及びｃは、前記一組のレジスタにおいて提供されており、前記融合モジュラ積和演算を実行することは、
第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する段階；
第２の乗累算ユニットによって、ｐを使用して前記バイナリ乗算の結果を更新することによって第１の中間結果を計算する段階；
ｃで第３の乗累算ユニットからの累算器を初期化する段階；
前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する段階；
加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する段階；及び
前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する段階
を備える、システム。

【請求項9】

前記加算器は、前記第１の乗累算ユニットにおける乗算器よりも幅広のビット幅を有する、請求項８に記載のシステム。

【請求項10】

前記加算器の前記ビット幅は、前記第１の乗累算ユニットにおける前記乗算器の前記ビット幅よりも１多い、請求項９に記載のシステム。

【請求項11】

ｃで前記第３の乗累算ユニットからの前記累算器を初期化する段階は、前記累算器の下位ビットにｃの値を記憶する段階を有する、請求項８に記載のシステム。

【請求項12】

前記第１の中間結果を計算する段階は、事前計算された定数でａ＊ｂの前記バイナリ乗算の前記結果の第２のバイナリ乗算を実行することを有する、請求項８に記載のシステム。

【請求項13】

前記第２の中間結果を計算する段階は、前記第１の中間結果の上位ビットを係数ｐと乗算する段階を有し、ｐの値は、前記融合モジュラ積和演算を実行する命令を呼び出す前に前記第３の乗累算ユニットに記憶される、請求項１２に記載のシステム。

【請求項14】

前記出力が０及びｐの間であることを確実にするために前記加算器の前記出力を補正する段階を更に備える、請求項８に記載のシステム。

【請求項15】

コンピュータ実行可能命令が記憶されたコンピュータ可読メモリを備えるコンピュータプログラム製品であって、前記コンピュータ実行可能命令は、プロセッサによって実行されると、前記プロセッサに、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する方法を実行させ、ここで、ａ、ｂ、及びｃは、オペランドとして提供され、前記融合モジュラ積和演算を実行することは、
第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する手順；
第２の乗累算ユニットによって、ｐを使用して前記バイナリ乗算の結果を更新することによって第１の中間結果を計算する手順；
ｃで第３の乗累算ユニットからの累算器を初期化する手順；
前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する手順；
加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する手順；及び
前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する手順
を備える、コンピュータプログラム製品。

【請求項16】

前記加算器のビット幅は、前記第１の乗累算ユニットにおける乗算器のビット幅よりも１多い、請求項１５に記載のコンピュータプログラム製品。

【請求項17】

ｃで前記第３の乗累算ユニットからの前記累算器を初期化する手順は、前記累算器の下位ビットにｃの値を記憶する手順を有する、請求項１５に記載のコンピュータプログラム製品。

【請求項18】

前記第１の中間結果を計算する手順は、事前計算された定数でａ＊ｂの前記バイナリ乗算の前記結果の第２のバイナリ乗算を実行する手順を有する、請求項１５に記載のコンピュータプログラム製品。

【請求項19】

前記第２の中間結果を計算する手順は、前記第１の中間結果の上位ビットを係数ｐと乗算する手順を有し、ｐの値は、前記融合モジュラ積和演算を実行する命令を呼び出す前に前記第３の乗累算ユニットに記憶される、請求項１８に記載のコンピュータプログラム製品。

【請求項20】

前記出力が０及びｐの間であることを確実にするために前記加算器の前記出力を補正する手順を更に備える、請求項１５に記載のコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して、コンピュータ技術に関し、より詳細には、融合モジュラ積和（ＦＭＭＡ）演算を実装することによって算術演算を実行することに関する。

【0002】

コンピュータは、典型的には、算術演算を実行する応用のために使用される。暗号、ブロックチェーン、機械学習、画像処理、コンピュータゲーム、ｅコマース等のような幾つかの応用は、そのような動作が効率的に（例えば、高速に）実行されることを要求する。したがって、整数算術の性能が、学術的及び産業的の両方の研究の焦点となっている。

【0003】

幾つかの既存の技法が、計算プロセスを利用するか、又はこれをハードウェアのアーキテクチャに対して適応させる算術命令を実装することによって、コンピュータ、特にプロセッサ及び／又は算術論理演算ユニットの性能を改善するのに使用される。そのような技法の例としては、１つの命令を複数の演算に分割することが挙げられ、ここで、各演算は、並列に実行され、２つ又はそれよりも多くの演算が組み合わされてメモリアクセスが削減され、演算は、メモリアクセス時間を削減するように順序付けされ、オペランドは、アクセス時間を削減するために特定の順序で記憶される等である。暗号及び機械学習等の応用に対して、異なるタイプの算術演算が要求され得る。

【発明の概要】

【0004】

本発明の１つ又は複数の実施形態によれば、コンピュータ実装方法は、処理ユニットによって、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する命令を受け取る段階を備え、ここで、ａ、ｂ、及びｃは、一組のオペランドとして提供される。前記方法は、第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する段階を更に備える。前記方法は、第２の乗累算ユニットによって、ｐを使用してバイナリ乗算の結果を更新することによって第１の中間結果を計算する段階を更に備える。前記方法は、ｃで第３の乗累算ユニットの累算器を初期化する段階を更に備える。前記方法は、前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する段階を更に備える。前記方法は、加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する段階を更に備える。前記方法は、前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する段階を更に備える。

【0005】

本発明の１つ又は複数の実施形態によれば、システムは、一組のレジスタ、及び各々が乗算器及び累算器を含む３つの乗累算ユニットを有する一組の乗累算ユニットを備える。前記一組の乗累算ユニットは、前記一組のレジスタに結合される。前記一組の乗累算ユニットは、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する方法を実行するように構成されており、ここで、ａ、ｂ、及びｃは、前記一組のレジスタにおいて提供されている。前記融合モジュラ積和演算を実行する方法は、第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する段階を備える。前記方法は、第２の乗累算ユニットによって、ｐを使用してバイナリ乗算の結果を更新することによって第１の中間結果を計算する段階を更に備える。前記方法は、ｃで第３の乗累算ユニットの累算器を初期化する段階を更に備える。前記方法は、前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する段階を更に備える。前記方法は、加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する段階を更に備える。前記方法は、前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する段階を更に備える。

【0006】

本発明の１つ又は複数の実施形態によれば、コンピュータプログラム製品は、コンピュータ実行可能命令が記憶されたコンピュータ可読メモリを備え、前記コンピュータ実行可能命令は、プロセッサによって実行されると、前記プロセッサに、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する方法を実行させ、ここで、ａ、ｂ、及びｃは、オペランドとして提供される。前記融合モジュラ積和演算を実行する前記方法は、第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する手順を備える。前記方法は、第２の乗累算ユニットによって、ｐを使用してバイナリ乗算の結果を更新することによって第１の中間結果を計算する手順を更に備える。前記方法は、ｃで第３の乗累算ユニットの累算器を初期化する手順を更に備える。前記方法は、前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する手順を更に備える。前記方法は、加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する手順を更に備える。前記方法は、前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する手順を更に備える。

【0007】

追加の技術的特徴及び利益が、本発明の技法を通して実現される。本発明の実施形態及び態様が本明細書において詳細に説明され、特許請求される主題の一部とみなされる。より良好な理解のために、詳細な説明及び図面を参照する。

【図面の簡単な説明】

【0008】

本明細書において説明される排他的権利の詳細が特に指し示されており、本明細書の結論における特許請求の範囲において明確に特許請求されている。本発明の実施形態の前述及び他の特徴及び利点は、添付図面と併せて読まれると、以下の詳細な説明から明らかである。

【0009】

【図1】モジュラ積和を計算するのに使用されるプロセッサの一組のハードウェアコンポーネントを示す図である。

【0010】

【図2】本発明の１つ又は複数の実施形態に係る、融合積和命令の実行を容易にするモジュラ算術及び論理ユニットのアーキテクチャを示す図である。

【0011】

【図3】本発明の１つ又は複数の実施形態に係る、ＦＭＭＡ＿Ｂ命令を実行する方法のフローチャートである。

【0012】

【図4】本発明の１つ又は複数の実施形態に係る、融合積和命令の実行を容易にするモジュラ算術及び論理ユニットのアーキテクチャを示す図である。

【0013】

【図5】本発明の１つ又は複数の実施形態に係る、ＦＭＭＡ＿Ｍ命令を実行する方法のフローチャートである。

【0014】

【図6】融合モジュラ積和命令が本発明の１つ又は複数の実施形態に従って演算の効率を改善する例示のシナリオを示す図である。

【0015】

【図7】本発明の１つ又は複数の実施形態に係るプロセッサのブロック図である。

【0016】

【図8】本発明の１つ又は複数の実施形態に係るコンピューティングシステムを示す図である。

【0017】

本明細書において示される図面は、例示である。本発明の範囲から逸脱することなく、図面又はそこで説明される動作に対して多くの変形が存在し得る。例えば、アクションを異なる順序において実行することもできるし、又はアクションは、追加、消去又は修正することもできる。また、「結合される」という用語及びその変形は、２つの要素間で通信経路を有することを説明し、それらの間に介在する要素／接続がない要素間の直接接続を示唆するものではない。これらの変形の全てが本明細書の一部とみなされる。

【0018】

添付の図及び開示される実施形態の以下の詳細な説明において、図に示されている様々な要素には、２桁又は３桁の参照番号が与えられる。わずかな例外を除き、各参照番号の最も左の桁は、その要素が最初に示された図に対応する。

【発明を実施するための形態】

【0019】

融合モジュラ積和（ＦＭＭＡ）演算の実行を容易にすることによってコンピュータプロセッサの効率を改善する技術的解決手段が本明細書において説明される。コンピュータシステムでは、加算及び乗算の算術演算が頻繁に使用される。融合積和命令（ＦＭＡ）は、実行されることになる命令の数を削減するために、及びメモリアクセスを削減し、ひいては実行効率を改善するために、単一の命令で積和演算を実行するための一般的な方法である。ＦＭＡ命令は、整数及び浮動小数点の両方の演算において広く使用される命令である。

【0020】

本発明の実施形態は、モジュラ加算演算及びモジュラ乗算演算を実行する場合、別個に実行されるこれら２つの演算と比較して命令の数及びメモリアクセスを削減する融合演算を実行することによって、性能を改善するという技術的課題に対処する。本発明の実施形態は、ＦＭＭＡ演算を実行する単一の命令、及び現行技術水準のハードウェア上でそのような演算を実装する技法を容易にする。

【0021】

モジュラ算術は、暗号化、ブロックチェーン、人工知能等のような幾つかのコンピュータ応用において頻繁に使用される。したがって、ＦＭＭＡ演算／命令を提供することによってそのような応用の実行における改善を提供することによって、本発明の実施形態は、コンピューティング技術の分野において、及び少なくともそのようなＦＭＭＡ演算が使用される分野に、実用的な応用を提供する。さらに、本発明の実施形態は、モジュラ積和演算の実行を改善することによって、コンピューティング技術それ自体に対する改善を提供する。

【0022】

コンピュータシステムは、典型的には、算術演算を実行するときにバイナリ数表現を使用する。さらに、コンピュータシステム、及び特にプロセッサ及び当該プロセッサの算術論理演算ユニット（ＡＬＵ）は、事前定義された「幅」又は「ワードサイズ」（ｗ）、例えば、３２ビット、６４ビット、１２８ビット等を有する。幅は、プロセッサが一度に処理することができるビットの最大数を示す。プロセッサの幅は、レジスタのサイズ、ＡＬＵ処理幅のサイズ、又はプロセッサに関連付けられたコンポーネントの他の任意のそのような処理制約によって示すことができる。

【0023】

テーブル１は、コンピューティングシステムにおいてモジュラ乗算を実行するのに典型的に使用されるＢａｒｒｅｔｔモジュラ乗算アルゴリズムを提供する。テーブル１の列１は、オペランドａ、ｂの素数ｐとのモジュラ乗算を計算するために実行される計算のシーケンスを示す。ａ、ｂ、及びｐを入力とすると、モジュラ乗算の出力は、
ｒ＝（ａ＊ｂ）％ｐ
であり、これは、列１に示されているように計算される。テーブル１の列２では、ｋがプロセッサのビット幅であると仮定して、計算のために要求されるビット幅が示されている。
テーブル１

【表1】

【0024】

テーブル２は、コンピューティングシステムにおいてモジュラ乗算を実行するのに使用される典型的な代替形態であるＭｏｎｔｇｏｍｅｒｙモジュラ乗算アルゴリズムを提供する。テーブル２の列１は、オペランドａ、ｂの素数ｐとのモジュラ乗算を計算するために実行される計算のシーケンスを示す。ａ、ｂ、及びｐを入力とすると、このケースでのモジュラ乗算の出力は、
ｃ＝（ａ＊ｂ＊Ｒ^－１）％ｐ
であり、これは、列１に示されているように計算される。ここで、Ｘ（ｌｏ）及びＸ（ｈｉ）表現は、それぞれ、Ｘにおけるビットの低い方の半分及びＸにおけるビットの高い方の半分を示す。テーブル２の列２では、ｋがプロセッサのビット幅であると仮定して、計算のために要求されるビット幅が示されている。ここで、ｗは、プロセッサのワードサイズに依存する値である。
テーブル２

【表2】

【0025】

さらに、テーブル１及びテーブル２から見て取ることができるように、既存の解決策は、実行されるために少なくとも３つの別個の乗算を要求する。本発明の実施形態は、本明細書において説明されるように、データアクセス及び命令実行時間を削減するためにそのような乗算を融合する。加えて、本発明の実施形態は、加算演算の融合を容易にする。

【0026】

図１は、モジュラ積和を計算するのに使用されるプロセッサの一組のハードウェアコンポーネントを示している。プロセッサ１０は、モジュラ積和を計算する１つ又は複数のコンポーネントを有するＡＬＵ１５を備えることができる。ＡＬＵ１５の１つ又は複数のコンポーネントは、本発明の１つ又は複数の実施形態において計算の効率を改善するためにパイプライン処理を使用することができる。さらに、本発明の幾つかの実施形態では、示されている１つ又は複数のコンポーネントの結果は、中間値として、例えば、メモリ、レジスタ等に記憶することができる。中間（又は最終）結果を記憶するコンポーネントも、図１において識別される。

【0027】

ＡＬＵ１５のコンポーネントは、加算器２２、乗算器２４、及び累算器２６の１つ又は複数のインスタンスを含む。図１は、モジュラ積和のために使用されることになるオペランドを含む、実行されることになる命令を含むコードアレイ１４も示している。

【0028】

さらに、図１は、ＡＬＵ１５における１つ又は複数のコンポーネントのビット幅（例えば、１２８ｂ、２５６ｂ）、及び計算中に１つのコンポーネントから他のコンポーネントに転送されるデータの幅を示している。ビット幅は、本発明の１つ又は複数の実施形態において変動し得ることが理解される。しかしながら、ハードウェアのビット幅は、そのハードウェア上で実行することができるモジュラ積和を制限し得る。

【0029】

図１に示されているパイプラインは、それぞれ、テーブル１及びテーブル２に示されているＢａｒｒｅｔｔ及びＭｏｎｔｇｏｍｅｒｙモジュラ乗算の典型的な実装において使用される。見て取ることができるように、３つの乗算器２４が要求される。さらに、パイプラインは、本発明の実施形態が乗算を融合した後に提供する加算演算を含まない。

【0030】

本発明の実施形態は、２つのＦＭＭＡ命令を提供する。第１のＦＭＭＡ命令は、Ｂａｒｒｅｔｔモジュラ乗算及びその後の加算を融合方式で計算する。第１のＦＭＭＡ命令のためのシンタックスは、ｆｍｍａ＿ｂａ、ｂ、ｃ、ｄである。提供される第２のＦＭＭＡ命令は、Ｍｏｎｔｇｏｍｅｒｙモジュラ乗算及びその後の加算を融合方式で計算する。第２のＦＭＭＡ命令のためのシンタックスは、ｆｍｍａ＿ｍａ、ｂ、ｃ、ｄである。Ｍｏｎｔｇｏｍｅｒｙアルゴリズムのケースでは、オペランドは、Ｍｏｎｔｇｏｍｅｒｙ形式であり、生成される結果もＭｏｎｔｇｏｍｅｒｙ形式である。Ｍｏｎｔｇｏｍｅｒｙ形式への及びＭｏｎｔｇｏｍｅｒｙ形式からの数の変換は、本発明の実施形態によって提供される技術的解決手段に影響を与えることなく、既に知られているか又は将来開発される技法を使用して実行することができる。

【0031】

ここで、ａ、ｂ、ｃ、及びｄは、オペランドであり、プロセッサ１０におけるレジスタとすることができる。両方のケースにおいて、出力は、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する。本発明の幾つかの実施形態では、素数ｐも命令シンタックスにおけるオペランドとすることができるが、本明細書における説明では、ｐは、ここではＡＬＵ１５が素数で初期化されており（Ｂａｒｒｅｔｔ／Ｍｏｎｔｇｏｍｅｒｙの両方におけるステップ１）、ｆｍｍａ＿ｂ／ｆｍｍａ＿ｍ命令の前に事前計算が呼び出されることを仮定する。

【0032】

図２は、本発明の１つ又は複数の実施形態に係る、ＦＭＭＡ命令の実行を容易にするモジュラＡＬＵのアーキテクチャを示している。モジュラＡＬＵ２５は、加算器２２、乗算器２４、及び累算器２６の１つ又は複数のインスタンスを含み、ＡＬＵ１５と同様のパイプライン処理を使用する。しかしながら、累算器２６は、加算器２２の代わりに使用される。それゆえ、ＡＬＵ２５は、３つの乗累算（ＭＡＣ）ユニット２１、２３、２７を含み、各ＭＡＣブロックは、乗算器２４及び累算器２６を含む。さらに、３つのＭＡＣユニット２１、２３、２７に後続して、追加ビット幅（例えば、１２９ビット）を有する加算器２９が使用される。本発明の幾つかの実施形態では、加算器２９のビット幅は、３つのＭＡＣユニット２１、２３、２７における乗算器２４のビット幅よりも１多い。

【0033】

ＡＬＵ２５では、オペランドａ、ｂは、ＭＡＣ２１によって読み出されて使用され、オペランドｃは、ＭＡＣ２７によって、特に、ＭＡＣ２７の累算器２６によって読み出される。より広いビット幅を有する加算器２９は、ＭＡＣ２７からの出力を受け取る。

【0034】

図３は、本発明の１つ又は複数の実施形態に係る、ＦＭＭＡ＿Ｂ命令を実行する方法のフローチャートを示している。方法３００は、ブロック３０１において、第１のＭＡＣ２１に第１及び第２のオペランドａ、ｂを読み込むことを含む。オペランドは、データアレイ８から読み出される。ブロック３０２において、第１のＭＡＣ２１は、第１及び第２のオペランドのバイナリ乗算を実行し、部分積を累算する。

【0035】

ブロック３０３において、第２のＭＡＣ２３は、ブロック３０２の結果の事前定義された定数Ｍｕとのバイナリ乗算を実行する。本発明の１つ又は複数の実施形態では、Ｍｕは、第２のＭＡＣ２３に記憶される。

【0036】

ブロック３０４において、第３のオペランドｃは読み出されて、第３のＭＡＣ２７における累算器２６が初期化される。第３のオペランドは、第３のＭＡＣ２７の累算器２６の下位ビットに読み込まれる。例えば、累算器２６が２５６ビット幅であり、かつオペランドｃが１２８ビット幅である場合、ｃは、累算器２６のビット１２８～２５５に記憶される。第３のオペランドは、第１のＭＡＣ２１及び第２のＭＡＣ２３におけるバイナリ乗算と並列に第３のＭＡＣに読み込むことができることに留意されたい。

【0037】

ブロック３０５において、第３のＭＡＣ２７は、ステップ３０３からの結果の上位ビットを、係数ｐと乗算し、第３のＭＡＣ２７の事前初期化された累算器２６において結果を累算する。ここで、「上位ビット」は、ステップ３０３からの結果の前半（例えば、２５６ビット値からの最初の１２８ビット）を表すことができる。

【0038】

ブロック３０６において、加算器２２は、ステップ３０２における結果の下位ビットからステップ３０５における結果の下位ビットを減算する。ステップ３０２及び３０５の結果は、それぞれ、第１のＭＡＣ２１及び第３のＭＡＣ２７における累算器２６に記憶される値である。

【0039】

ブロック３０７において、ステップ３０６からの結果が有効範囲０～ｐ内にあることを確実にするために条件補正が実行される。

【0040】

このようにして実行されるＦＭＭＡ＿Ｂ命令は、モジュラ積和演算の現行の順次的パイプライン実行よりも効率的である。本発明の１つ又は複数の実施形態に従って、ＡＬＵ２５を使用して５１２ビットオペランド上でｆｍｍａ＿ｂを実行することを検討する。説明されたように、第３のオペランドは、第３のＭＡＣ２７における累算器２６の下位５１２ビットを初期化するのに使用される。「ストレージＭＡＸＯＰサイズ」は、累算器が第３のオペランドに書き込むのに十分なビット幅を有することを保証する。第３のＭＡＣ２７における累算器２６は、次に、乗算器２４の出力に対して動作し、データを累算する（すなわち、出力を、事前初期化された第３のオペランドと加算する）。第３のＭＡＣ２７の結果において総計で５１３ビット、すなわち、乗算からの５１２ビット及び累算器２６の初期状態に起因した追加ビットが存在する可能性がある。これらのビットは、テーブル１におけるステップ５を実行するために１２９ビット加算器２９にフィードされる。

【0041】

ここで、５１２ビット演算が１２８ビット幅で実行されるので、ビットは、本発明の幾つかの実施形態では４クロックの期間にわたってフィードされる。最初の３クロックは、各々１２８ビットを有することになり、最終クロックは、最後の１２９ビットを空にすることになる。他の実施形態では、読み出しは、より少ない又は追加のクロックで実行することができる。

【0042】

このようにして、融合モジュラ積和は、Ｍｏｎｔｇｏｍｅｒｙモジュラ乗算を使用してＡＬＵ２５によって実行される。このようにして実行されるＦＭＭＡ＿Ｍは、モジュラ積和を別個にかつ順次的に実行することと比較してより少ないリソースを要求することによって効率を改善する。

【0043】

図４は、本発明の１つ又は複数の実施形態に係る、ＦＭＭＡ命令の実行を容易にするＡＬＵを示している。モジュラＡＬＵ３５は、加算器２２、乗算器２４、及び累算器２６の１つ又は複数のインスタンスを含み、ＡＬＵ１５と同様のパイプライン処理を使用する。ここで、ＡＬＵ３５は、３つのＭＡＣユニット、すなわち、第１のＭＡＣ３１、第２のＭＡＣ３３、及び第３のＭＡＣ３７を含む。３つのＭＡＣユニット３１、３３、３７に後続して、追加ビット幅（例えば、１２９ビット）を有する加算器３９が使用される。本発明の幾つかの実施形態では、加算器３９のビット幅は、３つのＭＡＣユニット３１、３３、３７における乗算器２４のビット幅よりも１多い。

【0044】

ＡＬＵ３５では、第３のオペランドｃは、第１のＭＡＣユニット３１の累算器２６の上位ビットを初期化するために読み出され、使用される。より広いビット幅を有する加算器３９は、ＭＡＣ３７からの出力を受け取る。

【0045】

図５は、本発明の１つ又は複数の実施形態に係る、ＦＭＭＡ＿Ｍ命令を実行する方法のフローチャートを示している。方法５００は、ブロック５０１において、第１のＭＡＣ３１に第１及び第２のオペランドａ、ｂを読み込むことを含む。オペランドは、データアレイ８から読み出される。ブロック５０２において、第１のＭＡＣ３１の累算器２６は、第３のオペランドｃを累算器２６の上位ビットに読み込むことによって初期化される。

【0046】

ブロック５０３において、第１及び第２のオペランドのバイナリ乗算が実行され、結果は、第１のＭＡＣ３１の事前初期化された累算器２６で累算される。第３のオペランドｃは、それに応じて、最初の２つのオペランドのバイナリ乗算の結果に加算される。

【0047】

ブロック５０４において、５０３の下位ビットは、第２のＭＡＣ３３によって係数Ｐの事前計算された逆数と乗算される。第２のＭＡＣ３３は、本発明の幾つかの実施形態では、方法５００を呼び出す前にｐの値で初期化される。

【0048】

ブロック５０５において、第３のＭＡＣ３７は、ステップ５０４の下位ビットを係数ｐと乗算する。係数ｐは、本発明の幾つかの実施形態では、方法５００を呼び出す前に第３のＭＡＣ３７に記憶される。

【0049】

さらに、ブロック５０６において、加算器３９は、ステップ５０３の結果の上位ビットからステップ５０５の結果の上位ビットを減算する。加算器３９は、２の補数、又は他の任意の既知の技法を使用して減算を計算することができる。

【0050】

ブロック５０７において、ステップ５０６からの結果が有効範囲０～ｐ内にあることを確実にするために条件補正が実行される。

【0051】

ここで、「上位ビット」は、１つ又は複数のステップからの結果の前半（例えば、２５６ビット値からのビット０～１２７）を表すことができ、「下位ビット」は、結果の後半（例えば、２５６ビット値からのビット１２８～２５５）を表す。ステップ５０３、５０４、及び５０５の結果は、それぞれ、第１のＭＡＣ３１、第２のＭＡＣ３３、及び第３のＭＡＣ３７における累算器２６に記憶される値である。

【0052】

このようにして実行されるＦＭＭＡ＿Ｍ命令は、モジュラ積和演算の現行の順次的パイプライン実行よりも効率的である。本発明の１つ又は複数の実施形態に従って、ＡＬＵ３５を使用して１２８ビットオペランド上でｆｍｍａ＿ｍを実行することを検討する。第３のオペランドは、第１のＭＡＣユニット３１の２５６ビット累算器２６の上位１２８ビットを初期化するのに使用される。累算器２６の結果の下位１２８ビットは、次の、すなわち、第２及び第３のＭＡＣユニット３３、３７に渡される。幾つかのケースでは、１２９の上位ビット、すなわち、乗算に起因した１２８及び第１のＭＡＣ３１の累算器２６の初期状態に起因した追加ビットが存在し得る。これらの１２９ビットは、次にテーブル２におけるステップ５を実行するために加算器３９に渡される。

【0053】

本発明の実施形態は、最小のハードウェア変更で融合積和をサポートするために既存のモジュラ算術ユニットのサポートを向上する。ハードウェア変更の量は、加算器の幅を１ビットだけ増加することのみである（例えば、加算器２９、３９）。第３のオペランドで累算器を初期化することによって、ＦＭＭＡは、ユーザが所望し得るいずれかのモジュラ乗算アルゴリズムを使用して達成することができる。さらに、累算器を初期化することによってＦＭＭＡを実行することによって、本発明の実施形態は、モジュラ積和演算が順次的に要求される場合にプロセッサの演算を改善する。モジュラ乗算及び融合モジュラ積和演算の全体レイテンシは、両方とも厳密に同じである。そのため、本発明の実施形態は、必要とされる命令の数、及び同様にｆｍｍａを活用することができる演算の総レイテンシにおける改善を提供する。

【0054】

図６は、ＦＭＭＡ命令が本発明の１つ又は複数の実施形態に従って演算の効率を改善する例示のシナリオを示している。バタフライ演算を含む反復数論変換（ＮｕｍｂｅｒＴｈｅｏｒｅｔｉｃＴｒａｎｓｆｏｒｍ：ＮＴＴ）アルゴリズムを実行するアルゴリズムの例示のコード６００を検討する。示された例の代わりにＦＭＭＡ演算を要求する他の任意のアルゴリズム／コードを使用することができること、及び本明細書において説明されるＦＭＭＡ命令を他の任意のコードにおいて使用することができることが理解される。例６０について、Ａ［ｋ＋ｊ］がレジスタＲ０にあり、Ａ［ｋ＋ｊ＋ｍ／２］がＲ１にあり、ｗがＲ２にあり、及びＲ３、Ｒ４は、一時的スクラッチパッドレジスタであることを仮定する。

【0055】

ブロック６１に示されているように、融合モジュラ積和命令を実行することができないＡＬＵ（例えば、ＡＬＵ１５）は、２つのスクラッチパッドレジスタ（例えば、Ｒ２、Ｒ４）を使用し、４つの命令呼び出しが、要求を実行するために要求される。ブロック６２に示されているように、本明細書において説明されるｆｍｍａ命令のうちのいずれか１つを使用することによって、必要とされるスクラッチパッドレジスタの数は２つから１つに削減される。さらに、全体レイテンシは、少なくとも１つのモジュラ加算の時間だけ削減される。

【0056】

したがって、本発明の実施形態は、融合モジュラ積和演算を実行する単一の命令を実装するための実用的な応用を提供することによってコンピューティング技術に対する改善を容易にする。本明細書において提供されるように、融合演算は、大幅なハードウェア変更を伴うことなく現行技術水準のハードウェア上で実装することができる。

【0057】

図７は、本発明の１つ又は複数の実施形態に係るプロセッサのブロック図を示している。プロセッサ１０は、コンポーネントの中でもとりわけ、命令フェッチユニット６０１、命令復号オペランドフェッチユニット６０２、命令実行ユニット６０３、メモリアクセスユニット６０４、ライトバックユニット６０５、一組のレジスタ１２、及びＦＭＭＡ実行器６０６を備えることができる。本発明の１つ又は複数の実施形態では、ＦＭＭＡ実行器６０６は、算術論理演算ユニット（ＡＬＵ）（図示せず）の一部とすることができる。

【0058】

本発明の１つ又は複数の実施形態では、プロセッサ１０は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、又はコンピュータシステムの他の任意の処理ユニット等の処理ユニットにおける幾つかのコンピュータプロセッサのうちの１つとすることができる。代替的には、又は加えて、プロセッサ１０は、１つ又は複数の処理ユニットの一部であるコンピューティングコアとすることができる。

【0059】

命令フェッチユニット６０１は、プログラム命令を、メモリからフェッチされ、適切な順序で実行されるように編成すること、及びそれらを命令実行ユニット６０３に転送することを担当する。命令復号オペランドフェッチユニット６０２は、命令実行ユニット６０３に命令を転送する前に、命令及びオペランド、例えば、アドレス解決、プリフェッチングをパースすることを容易にする。命令実行ユニット６０３は、命令に従って動作及び計算を実行する。メモリアクセスユニット６０４は、プロセッサ１０に結合されているメモリデバイスにおける特定のロケーションにアクセスすることを容易にする。メモリデバイスは、キャッシュメモリ、揮発性メモリ、不揮発性メモリ等とすることができる。ライトバックユニット６０５は、レジスタ１２のコンテンツをメモリデバイスにおける１つ又は複数のロケーションに記録することを容易にする。ＦＭＭＡ実行器６０６は、本明細書において説明されるようなＦＭＭＡ命令（ｆｍｍａ＿ｂ、又はｆｍｍａ＿ｂのいずれか）を実行することを容易にする。

【0060】

プロセッサのコンポーネントは、本明細書において説明された技術的解決手段の特徴に影響を与えることなく本発明の１つ又は複数の実施形態において変動し得ることに留意されたい。本発明の幾つかの実施形態では、プロセッサ１０のコンポーネントは、本明細書において説明されたものと組み合わせることもできるし、これらとは別個とすることもできるし、又はこれらと異なることもできる。

【0061】

ここで図８を参照すると、コンピュータシステム１５００が、一実施形態に従って全体的に示されている。コンピュータシステム１５００は、モジュラ積和演算が実行されることを要求する１つ又は複数の機能を実行するのに使用されるターゲットコンピューティングシステムとすることができる。コンピュータシステム１５００は、本明細書において説明されるように、様々な通信技術を利用するコンピューティングデバイス及びネットワークを任意の数及び組み合わせで備え、及び／又は利用する電子的コンピュータフレームワークとすることができる。コンピュータシステム１５００は、異なるサービスに変化するか又は他のものから独立して幾つかの特徴を再構成する能力で、容易にスケーリング可能、拡張可能、及びモジュラとすることができる。コンピュータシステム１５００は、例えば、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、又はスマートフォンであってよい。幾つかの例では、コンピュータシステム１５００は、クラウドコンピューティングノードであってよい。コンピュータシステム１５００は、コンピュータシステムによって実行される、プログラムモジュール等の、コンピュータシステム実行可能命令の一般的な文脈において説明されてよい。概して、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造等を含んでよい。コンピュータシステム１５００は、タスクが通信ネットワークを通してリンクされるリモート処理デバイスによって実行される分散クラウドコンピューティング環境において実施されてよい。分散クラウドコンピューティング環境では、メモリ記憶デバイスを含むローカルコンピュータシステム記憶媒体及びリモートコンピュータシステム記憶媒体の両方にプログラムモジュールが配置されてよい。

【0062】

図８に示されているように、コンピュータシステム１５００は、１つ又は複数の中央処理ユニット（ＣＰＵ）１５０１ａ、１５０１ｂ、１５０１ｃ等（まとめて、又は一般にプロセッサ１５０１と称される）を有する。プロセッサ１５０１は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、又は任意の数の他の構成とすることができる。処理回路とも称されるプロセッサ１５０１は、システムバス１５０２を介して、システムメモリ１５０３及び様々な他のコンポーネントに結合される。システムメモリ１５０３は、リードオンリメモリ（ＲＯＭ）１５０４及びランダムアクセスメモリ（ＲＡＭ）１５０５を含むことができる。ＲＯＭ１５０４は、システムバス１５０２に結合され、コンピュータシステム１５００の特定の基本機能を制御する基本入力／出力システム（ＢＩＯＳ）を含んでよい。ＲＡＭは、プロセッサ１５０１による使用のためにシステムバス１５０２に結合されたリード－ライトメモリである。システムメモリ１５０３は、動作中に上記命令の動作のための一時的メモリ空間を提供する。システムメモリ１５０３は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。

【0063】

コンピュータシステム１５００は、システムバス１５０２に結合された入力／出力（Ｉ／Ｏ）アダプタ１５０６及び通信アダプタ１５０７を含む。Ｉ／Ｏアダプタ１５０６は、ハードディスク１５０８及び／又は他の任意の同様のコンポーネントと通信するスモールコンピュータシステムインターフェース（ＳＣＳＩ）アダプタであってよい。Ｉ／Ｏアダプタ１５０６及びハードディスク１５０８は、本明細書においてまとめてマスストレージ１５１０と称される。

【0064】

コンピュータシステム１５００上で実行するためのソフトウェア１５１１がマスストレージ１５１０に記憶されてよい。マスストレージ１５１０は、プロセッサ１５０１によって可読の有形記憶媒体の一例であり、ここで、ソフトウェア１５１１は、コンピュータシステム１５００に、様々な図に関して本明細書において以下で説明されるように動作させるためにプロセッサ１５０１によって実行される命令として記憶される。コンピュータプログラム製品及びそのような命令の実行の例が、本明細書においてより詳細に論述される。通信アダプタ１５０７は、システムバス１５０２を、外部ネットワークであり得るネットワーク１５１２と相互接続し、コンピュータシステム１５００が他のそのようなシステムと通信することを可能にする。１つの実施形態では、システムメモリ１５０３及びマスストレージ１５１０の部分は、集合的に、オペレーティングシステムを記憶し、これは、図８に示されている様々なコンポーネントの機能を協調させるための、ＩＢＭＣｏｒｐｏｒａｔｉｏｎからのｚ／ＯＳ又はＡＩＸオペレーティングシステム等の任意の適切なオペレーティングシステムであってよい。

【0065】

追加の入力／出力デバイスが、ディスプレイアダプタ１５１５及びインターフェースアダプタ１５１６を介してシステムバス１５０２に接続されるものとして示される。１つの実施形態では、アダプタ１５０６、１５０７、１５１５、及び１５１６は、中間バスブリッジ（図示せず）を介してシステムバス１５０２に接続されている１つ又は複数のＩ／Ｏバスに接続されてよい。ディスプレイ１５１９（例えば、スクリーン又はディスプレイモニタ）が、グラフィックス集約アプリケーション及びビデオコントローラの性能を改善するためにグラフィックスコントローラを含み得るディスプレイアダプタ１５１５によってシステムバス１５０２に接続される。キーボード１５２１、マウス１５２２、スピーカ１５２３等は、例えば、複数のデバイスアダプタを単一の集積回路に統合するＳｕｐｅｒＩ／Ｏチップを含み得るインターフェースアダプタ１５１６を介してシステムバス１５０２に相互接続することができる。ハードディスクコントローラ、ネットワークアダプタ、及びグラフィックスアダプタ等の周辺デバイスを接続する適したＩ／Ｏバスは、典型的には、ペリフェラルコンポーネントインターコネクト（ＰＣＩ）等の一般的なプロトコルを含む。それゆえ、図８において構成されるように、コンピュータシステム１５００は、プロセッサ１５０１の形式の処理能力、及びシステムメモリ１５０３及びマスストレージ１５１０を含む記憶能力、キーボード１５２１及びマウス１５２２等の入力手段、及びスピーカ１５２３及びディスプレイ１５１９を含む出力能力を含む。

【0066】

幾つかの実施形態では、通信アダプタ１５０７は、とりわけ、インターネットスモールコンピュータシステムインターフェース等の任意の適したインターフェース又はプロトコルを使用してデータを送信することができる。ネットワーク１５１２は、とりわけ、セルラネットワーク、無線ネットワーク、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、又はインターネットであってよい。外部コンピューティングデバイスは、ネットワーク１５１２を通してコンピュータシステム１５００に接続してよい。幾つかの例では、外部コンピューティングデバイスは、外部ウェブサーバ又はクラウドコンピューティングノードであってよい。

【0067】

図８のブロック図は、コンピュータシステム１５００が図８に示されたコンポーネントの全てを含むことを示すことを意図していないことを理解されたい。むしろ、コンピュータシステム１５００は、図８に示されていない任意の適切なより少ない又は追加のコンポーネント（例えば、追加のメモリコンポーネント、埋め込みコントローラ、モジュール、追加のネットワークインターフェース等）を含むことができる。さらに、コンピュータシステム１５００に関して本明細書において説明される実施形態は、任意の適切なロジックで実装されてよく、ロジックは、本明細書において参照される場合、様々な実施形態において、任意の適したハードウェア（とりわけ、例えば、プロセッサ、埋め込みコントローラ、又は特定用途向け集積回路）、ソフトウェア（とりわけ、例えば、アプリケーション）、ファームウェア、又はハードウェア、ソフトウェア、及びファームウェアの任意の適した組み合わせを含むことができる。

【0068】

本発明は、統合のあらゆる可能な技術詳細レベルにおけるシステム、方法、及び／又はコンピュータプログラム製品であってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含んでよい。

【0069】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるための命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの：ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、無線波又は他の自由に伝播する電磁波、導波路又は他の送信媒体を通して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通して送信される電気信号等の一時的信号それ自体とは解釈されるべきではない。

【0070】

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はワイヤレスネットワークを介して、外部コンピュータ又は外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅送信ケーブル、光送信ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含んでよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

【0071】

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は１つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかであってよく、１つ又は複数のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語等の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、又はリモートコンピュータ又はサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、又はその接続が、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。

【0072】

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して説明されている。フローチャート図及び／又はブロック図の各ブロック、及びフローチャート図及び／又はブロック図におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

【0073】

これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成することができ、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図の単数又は複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶することができ、当該命令は、コンピュータ、プログラマブルデータ処理装置、及び／又は他のデバイスに対し、特定の方法で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の単数又は複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を含むようになる。

【0074】

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成することができ、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート及び／又はブロック図の単数又は複数のブロックで指定された機能／動作を実装するようになる。

【0075】

図におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図に記載される順序とは異なる順序で行われ得る。例えば、連続して示されている２つのブロックは、実際には、実質的に同時に実行されてもよく、又はブロックは、場合によって、関与する機能に依存して逆の順序で実行されてもよい。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図におけるブロックの組み合わせは、指定された機能又は動作を実行するか、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。

【0076】

本発明の様々な実施形態の説明は、例示の目的で提示されたが、網羅的であることも、又は開示された実施形態に限定することも意図されていない。説明された実施形態の範囲から逸脱することなく、当業者には多くの修正及び変形が明らかとなるであろう。本明細書において使用される術語は、実施形態の原理、実用的な応用、又は市場に見られる技術に対する技術的改善を最も良好に説明するように、又は、他の当業者が本明細書において開示された実施形態を理解することを可能にするように選択された。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【手続補正書】

【提出日】2024-05-08

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記加算器は、前記第１の乗累算ユニットにおける乗算器よりも幅広のビット幅を有する、請求項１に記載のコンピュータ実装方法。

【請求項3】

【請求項4】

【請求項5】

前記第１の中間結果を計算する段階は、事前計算された定数でａ＊ｂの前記バイナリ乗算の前記結果の第２のバイナリ乗算を実行する段階を有する、請求項１から４のいずれか一項に記載のコンピュータ実装方法。

【請求項6】

【請求項7】

前記出力が０及びｐの間であることを確実にするために加算器の前記出力を補正する段階を更に備える、請求項１から４のいずれか一項に記載のコンピュータ実装方法。

【請求項8】

【請求項9】

前記加算器は、前記第１の乗累算ユニットにおける乗算器よりも幅広のビット幅を有する、請求項８に記載のシステム。

【請求項10】

前記加算器の前記ビット幅は、前記第１の乗累算ユニットにおける前記乗算器の前記ビット幅よりも１多い、請求項９に記載のシステム。

【請求項11】

【請求項12】

前記第１の中間結果を計算する段階は、事前計算された定数でａ＊ｂの前記バイナリ乗算の前記結果の第２のバイナリ乗算を実行することを有する、請求項８から１１のいずれか一項に記載のシステム。

【請求項13】

【請求項14】

前記出力が０及びｐの間であることを確実にするために前記加算器の前記出力を補正する段階を更に備える、請求項８から１１のいずれか一項に記載のシステム。

【請求項15】

コンピュータ実行可能命令を備えるコンピュータプログラムであって、前記コンピュータ実行可能命令は、プロセッサによって実行されると、前記プロセッサに、ｄ＝（（ａ＊ｂ）＋ｃ）％ｐを計算する融合モジュラ積和演算を実行する方法を実行させ、ここで、ａ、ｂ、及びｃは、オペランドとして提供され、前記融合モジュラ積和演算を実行することは、
第１の乗累算ユニットによって、ａ＊ｂを計算するバイナリ乗算を計算する手順；
第２の乗累算ユニットによって、ｐを使用して前記バイナリ乗算の結果を更新することによって第１の中間結果を計算する手順；
ｃで第３の乗累算ユニットからの累算器を初期化する手順；
前記第３の乗累算ユニットによって、前記第１の中間結果及びｃを使用して第２の中間結果を計算する手順；
加算器によって、前記バイナリ乗算の前記結果の一部分から前記第２の中間結果の一部分を減算する手順；及び
前記融合モジュラ積和演算の結果として、前記加算器の出力を出力する手順
を備える、コンピュータプログラム。

【請求項16】

前記加算器のビット幅は、前記第１の乗累算ユニットにおける乗算器のビット幅よりも１多い、請求項１５に記載のコンピュータプログラム。

【請求項17】

ｃで前記第３の乗累算ユニットからの前記累算器を初期化する手順は、前記累算器の下位ビットにｃの値を記憶する手順を有する、請求項１５に記載のコンピュータプログラム。

【請求項18】

前記第１の中間結果を計算する手順は、事前計算された定数でａ＊ｂの前記バイナリ乗算の前記結果の第２のバイナリ乗算を実行する手順を有する、請求項１５から１７のいずれか一項に記載のコンピュータプログラム。

【請求項19】

前記第２の中間結果を計算する手順は、前記第１の中間結果の上位ビットを係数ｐと乗算する手順を有し、ｐの値は、前記融合モジュラ積和演算を実行する命令を呼び出す前に前記第３の乗累算ユニットに記憶される、請求項１８に記載のコンピュータプログラム。

【請求項20】

前記出力が０及びｐの間であることを確実にするために前記加算器の前記出力を補正する手順を更に備える、請求項１５から１７のいずれか一項に記載のコンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版