特開2024-105191 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セントレオンコーポレーションの特許一覧

特開2024-105191混合精度乗算回路

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024105191

(43)【公開日】2024-08-06

(54)【発明の名称】混合精度乗算回路

(51)【国際特許分類】

G06F 7/523 20060101AFI20240730BHJP

G06F 7/533 20060101ALI20240730BHJP

G06F 7/483 20060101ALI20240730BHJP

【ＦＩ】

G06F7/523

G06F7/533 620

G06F7/483

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024003323

(22)【出願日】2024-01-12

(31)【優先権主張番号】18/101,038

(32)【優先日】2023-01-24

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】524017238

【氏名又は名称】セントレオンコーポレーション

(74)【代理人】

【識別番号】110000408

【氏名又は名称】弁理士法人高橋・林アンドパートナーズ

(72)【発明者】

【氏名】ゾンクオゾン

(72)【発明者】

【氏名】ウォンパクソン

(72)【発明者】

【氏名】オウベンジャミン

(57)【要約】（修正有）

【課題】ワイド可変シフタの使用を回避し、あるいは可変シフタの幅を縮小した混合精度乗算回路を提供する。
【解決手段】第１オペランドは指数と仮数を含み、混合精度乗算回路はサブセットセレクタ１３００と仮数乗算器を含む。サブセットセレクタ１３００は、第２オペランド２０を格納し、指数１２を受け取るように構成される。サブセットセレクタ１３００は、指数１２に従って複数のサブセット２４１，２４２，２４３，２４４からサブセットを選択し、複数のサブセットは第２オペランド２０を表す。仮数乗算器は、選択されたサブセットに関連付けられた被乗数を受け取るためにサブセットセレクタ１３００に結合され、仮数２４を受け取るように構成される。仮数乗算器は、被乗数および仮数に従って乗算を実行することによって積を生成し、混合精度乗算回路は、積に従って結果を出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

第１オペランドと第２オペランドに従って演算する混合精度乗算回路であって、前記第１オペランドは、指数および仮数を含み、前記混合精度乗算回路は、
前記第２オペランドを記憶し、前記指数を受け取るように構成されたサブセットセレクタであって、前記指数に従って複数のサブセットから選択されたサブセットを出力し、前記複数のサブセットは前記第２オペランドを表す、サブセットセレクタと、
前記選択されたサブセットに関連付けられた被乗数を受け取るために前記サブセットセレクタに結合され、前記仮数を受け取るように構成された仮数乗算器であって、前記被乗数および前記仮数に従って乗算を実行することによって積を生成し、前記混合精度乗算回路は前記積に従って結果を出力する、仮数乗算器と、を含む、
混合精度乗算回路。

【請求項2】

前記複数のサブセットは、第１サブセットおよび第２サブセットを含み、前記第１サブセットは、前記第２サブセットの第２部分として機能する第１部分を含む、
請求項１に記載の混合精度乗算回路。

【請求項3】

前記複数のサブセットは第１サブセットおよび第２サブセットを含み、前記第１サブセットは第１部分を含み、前記第２サブセットは第２部分を含み、前記第１部分のビットパターンは前記第２部分のビットパターンと同一である、
請求項１に記載の混合精度乗算回路。

【請求項4】

前記複数のサブセットの各々のビット幅は、ベース幅およびオーバーラップ幅を含み、前記ベース幅は、前記第１オペランドの指数と前記複数のサブセットの量とに関連付けられ、前記オーバーラップ幅は、前記第１部分のビット幅または前記第２部分のビット幅である、
請求項２に記載の混合精度乗算回路。

【請求項5】

前記オーバーラップ幅は、仮数幅と結果幅との和からなる、
請求項４に記載の混合精度乗算回路。

【請求項6】

前記オーバーラップ幅は、前記積における潜在的な先行ゼロの量に関連する予約幅をさらに含む、
請求項５に記載の混合精度乗算回路。

【請求項7】

前記オーバーラップ幅は、ガードビットの幅をさらに含む、
請求項５に記載の混合精度乗算回路。

【請求項8】

前記第２オペランドは、１／πの整数倍の２進表現からなり、
前記オーバーラップ幅は、複数の連続するゼロの最大数をさらに含み、前記複数の連続するゼロは、整数倍に関連付けられ、
前記結果は、前記積の小数部分の複数の有効ビットの２進表現からなる、
請求項５に記載の混合精度乗算回路。

【請求項9】

前記選択されたサブセットを受け取るために、前記サブセットセレクタと前記仮数乗算器との間に結合された抽出ロジックをさらに含み、前記抽出ロジックは、前記選択されたサブセットから前記被乗数として一部を抽出する、
請求項１に記載の混合精度乗算回路。

【請求項10】

前記積を受け取るために前記仮数乗算器に結合された抽出ロジックをさらに含み、前記積は、左部分、右部分、および前記左部分と前記右部分との間の結果部分を含み、
前記抽出ロジックは、前記左部分および前記右部分をシフトして前記結果部分を前記結果として抽出する、
請求項１に記載の混合精度乗算回路。

【請求項11】

第１オペランドおよび第２オペランドに応じた結果を出力する混合精度乗算回路であって、前記第１オペランドは、指数と仮数を含み、
前記混合精度乗算回路は、
前記第２オペランドを格納し、前記仮数を受け取るように構成された仮数乗算器であって、前記第２オペランドおよび前記仮数に従って乗算を実行することにより積を生成する仮数乗算器と、
前記積を受け取るために、前記仮数乗算器に結合されたサブセットセレクタであって、前記指数に従って複数のサブセットから選択されたサブセットを出力し、前記複数のサブセットの各々は積の一部を表す、サブセットセレクタと、
前記選択されたサブセットを受け取るために、前記サブセットセレクタに結合された抽出ロジックであって、前記選択されたサブセットから結果として一部を抽出する、抽出ロジックと、を含む、
混合精度乗算回路。

【請求項12】

第１オペランドとおよび第２オペランドに従って演算する混合精度乗算回路であって、前記第１オペランドは、指数と仮数を含み、
前記混合精度乗算回路は、
前記第２オペランドと仮数倍数とを格納するように構成された部分積セレクタであって、
前記第２オペランドは複数のサブセットに分割され、前記仮数倍数は複数の参照サブセットに分割され、
前記複数のサブセットの各々は複数のグループを含み、前記複数の参照サブセットの各々は複数の参照グループを含み、
前記複数のグループの各々は、オフセットでシフトされた前記第２オペランドの一部であり、前記複数の参照グループの各々は、参照オフセットでシフトされた前記仮数倍数の一部であり、
前記複数のグループの各々で採用されるオフセットが異なる場合、前記複数の参照グループの各々で採用される参照オフセットは異なり、
前記部分積セレクタは、前記複数のサブセットから所望のサブセットを選択し、前記指数に従って前記複数の参照サブセットから所望の参照サブセットを選択し、
前記部分積セレクタは、複数の候補グループを出力し、前記複数の候補グループの各々は、前記所望のサブセット内の複数のグループのうちの１つ、または前記所望の参照サブセットのうちの前記複数の参照グループのうちの１つである、部分積セレクタと、
前記複数の候補グループを受け取るために前記部分積セレクタに結合された部分積加算器であって、前記複数の候補グループを加算して結果を出力する部分積加算器と、を含む、
混合精度乗算回路。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、レンジ縮小に関し、より詳細には、混合精度乗算回路に関する。

【背景技術】

【0002】

科学的アプリケーションは、超越数（transcendental numbers）を引数として計算を行うことが多い。しかし、このような計算を浮動小数点フォーマットでハードウェア実装することは困難である。例えば、三角関数ｓｉｎ（ｘ）を持つ計算の場合、「ｙ＝ｘ－２ｋπ」という式が採用されることがある（ここで、２ｋπはｘより小さい２πの最大倍数）。引数「ｘ」が非常に大きいとき、「ｙ」において十分な精度を取得することは難しい。三角関数を正確に評価しようとすれば、ｘの指数(べき指数，exponent)範囲までの精度を持つ固定小数点演算で式を計算しなければならない。前述の例では、ｘが１０^２００に等しい場合、ｋは約２００桁の幅（２進数で約６６４ビット）の整数となり、計算には１０進数以降の２００桁以上のπが必要となる。

【0003】

二つの入力（Ａが指数ｅ_Ａと仮数ｍ_Ａで表され、Ｂが指数ｅ_Ｂと仮数ｍ_Ｂで表される）が与えられる場合、浮動小数点乗算は、仮数（ｍ_Ａ×ｍ_Ｂ）を乗算し、指数（ｅ_Ａ＋ｅ_Ｂ）を加算することによって実行され、乗算結果を丸め、必要に応じて指数和を調整し、この後、結果は指数和と仮数和で表される。ほとんどのハードウェアは、Ａ、Ｂ、及び結果が同じ精度を有する場合にのみ動作する。典型的に、上記の例では“ｋ”や“π”のような幅の広い定数を用いての乗算では、結果を正規化するために大きな仮数乗算器と大きな変数シフタ（例えばバレル・シフタ）が必要であり、このような実装は面積が大きくレイテンシが高い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

以上のことから、本開示は、ワイド可変シフタの使用を回避し、あるいは可変シフタの幅を縮小した混合精度乗算回路を提案する。

【課題を解決するための手段】

【0005】

本開示の１つまたは複数の実施形態によれば、混合精度乗算回路は、第２オペランドおよび第１オペランド（演算数）に従って計算する。第１オペランドは、指数および仮数を含み、混合精度乗算回路は、サブセットセレクタおよび仮数乗算器を含む。サブセットセレクタは、第２オペランドを格納し、指数を受け取るように構成される。サブセットセレクタは、指数(exponent)に従って複数のサブセットから選択されたサブセットを出力し、複数のサブセットは第２オペランドを表す。仮数乗算器は、選択されたサブセットに関連付けられた被乗数(multiplicand)を受け取るためにサブセットセレクタに結合され、仮数を受け取るように構成される。仮数乗算器は、被乗数および仮数に従って乗算を実行することによって積を生成し、混合精度乗算回路は、積に従って結果を出力する。

【0006】

本開示の１つまたは複数の実施形態によれば、混合精度乗算回路は、第１オペランドおよび第２オペランドに従って結果を出力する。第１オペランドは、指数および仮数を含み、混合精度乗算回路は、仮数乗算器およびサブセットセレクタを含む。仮数乗算器は、第２オペランドを記憶し、仮数を受け取る。仮数乗算器は、第２オペランドと仮数に従って乗算を実行することにより積を生成する。サブセットセレクタは、積を受け取るために仮数乗算器に結合される。サブセットセレクタは、指数に従って複数のサブセットから選択されたサブセットを出力し、複数のサブセットの各々は積の一部を表す。抽出ロジックは、選択されたサブセットを受け取るためにサブセットセレクタに結合される。抽出ロジックは、選択されたサブセットから結果として部分を抽出する。

【0007】

本開示の１つまたは複数の実施形態によれば、混合精度乗算回路は、第１オペランドおよび第２オペランドに従って計算する。第１オペランドは、指数および仮数を含み、混合精度乗算回路は、部分積セレクタおよび部分積加算器を含む。部分積セレクタは、第２オペランドと仮数倍数を格納する。第２オペランドは複数のサブセットに分割され、仮数倍数は複数の参照サブセットに分割される。複数のサブセットの各々は複数のグループを含み、複数の参照サブセットの各々は複数の参照グループを含む。複数のグループの各々は、オフセットでシフトされた第２オペランドの一部であり、複数の参照グループの各々は、参照オフセットでシフトされた仮数倍数の一部である。複数のグループの各々で採用されるオフセットは異なり、複数の参照グループの各々で採用される参照オフセットは異なる。部分積セレクタは、指数に従って、複数のサブセットから所望のサブセットを選択し、複数の参照サブセットから所望の参照サブセットを選択する。部分積セレクタは、複数の候補グループを出力し、複数の候補グループの各々は、所望のサブセット内の複数のグループのうちの１つ、または所望の参照サブセット内の複数の参照グループのうちの１つである。部分積加算器は、複数の候補グループを受け取るために部分積セレクタに結合される。部分積加算器は、複数の候補グループを加算した結果を出力する。

【図面の簡単な説明】

【0008】

本開示は、本明細書で以下に示す詳細な説明、および例示のためにのみ与えられる添付図面からより完全に理解されるものであり、本開示を限定するものではなく、以下の通りである。

【図1】本発明に係る混合精度乗算回路の第１実施形態を示すブロック図である。

【図2】サブセットセレクタの第１実施形態の内部構造を示す図である。

【図3】メモリパーティションの例を示している。

【図4】仮数乗算器の第１実施形態の内部構造を示す図である。

【図5】混合精度乗算回路の第２実施形態のブロック図である。

【図6】サブセットセレクタの第２実施形態の内部構造を示す図である。

【図7】仮数乗算器の第２実施形態の内部構造を示す図である。

【図8】混合精度乗算回路の第３実施形態のブロック図である。

【図9】混合精度乗算回路の第３実施形態による計算フローを示す模式図である。

【図10】混合精度乗算回路の第４実施形態のブロック図である。

【図11】本発明の混合精度乗算回路の第４実施形態による演算フローを示す模式図である。

【図12】混合精度乗算回路の第５実施形態のブロック図である。

【図13】混合精度乗算回路の第６実施形態のブロック図である。

【図14】サブセット／参照サブセット分割の概略図の一例である。

【図15】グループ／参照グループの一例を示す。

【図16】グループ選択を示す例である。

【図17】混合精度乗算回路を用いた浮動小数点乗算器を示すブロック図である。

【発明を実施するための形態】

【0009】

以下の詳細な説明では、説明のために、開示された実施形態の完全な理解を提供するために、多数の具体的な詳細を記載する。明細書に開示された説明、特許請求の範囲および図面によれば、当業者は本開示の概念および特徴を容易に理解することができる。以下の実施形態は、本発明の様々な態様をさらに説明するものであるが、本発明の範囲を限定するものではない。

【0010】

本開示は、レンジ縮小のような高精度が要求される用途に適した混合精度乗算回路を提案する。

【0011】

混合精度乗算回路は、可変の第１オペランドと固定の第２オペランドに従って特殊な乗算を実行する。第１オペランドは２進数であり、一例では、この２進数はＩＥＥＥ７５４などの一般的な浮動小数点フォーマットに準拠する。別の例では、この２進数は整数を表す。第２オペランドは、高精度計算をサポートするために、数百ビットや数千ビットといった非常に広い分数部分を持つ２進数である。混合精度乗算回路の出力は、第１オペランドと第２オペランドの積内のセグメントである。

【0012】

図１は、混合精度乗算回路１０００の第１実施形態のブロック図を示す。図１に示すように、混合精度乗算回路１０００は、第１指数１２および第１仮数１４を含む第１オペランド１０を受け取る。混合精度乗算回路１０００は、サブセットセレクタ１３００および仮数乗算器１５００を含む。サブセットセレクタ１３００は、第１指数１２を受け取り、第２オペランド２０を格納する。サブセットセレクタ１３００は、第１指数１２に従って複数のサブセットから選択されたサブセット３０を出力するように構成される。複数のサブセットの各々は、第２オペランド２０の一部を表す。仮数乗算器１５００は、選択されたサブセット３０を被乗数５２として受け取るためにサブセットセレクタ１３００に結合され、第１仮数１４を乗数５４として受け取る。仮数乗算器１５００は、乗数５４と被乗数５２とを乗算して積５６を生成する。混合精度乗算回路１０００は、積５６に従って結果９０を出力する。

【0013】

図２は、サブセットセレクタ１３００の第１実施形態の内部構造を示す図である。図２に示すように、サブセットセレクタ１３００は、メモリ１３１０と、指数加算器１３２０と、第１セレクタ１３３０と、第２セレクタ１３４０とを含む。

【0014】

メモリ１３１０は、第２指数２２および第２仮数２４を含む第２オペランド（演算数）２０を記憶する。一実施例では、メモリ１３１０は、埋め込み論理ゲートまたは他の記憶素子によって実装されてもよい。第２指数２２は定数である。範囲縮小の適用において、定数２／πは、結果がどの象限にあるかを決定するためにしばしば使用される。第２オペランド２０が２／πに設定されると、第２指数２２は１に設定される（２／π＝２^１×１／π）。双曲線関数の計算などの他の用途では、第２指数２２は１より大きくてもよい。本開示は、第２指数２２の値を制限しない。第２仮数２４は、図２に示すように、複数のサブセットの形態で記憶される。サブセットの数は、本開示では限定されないが、２のｋ乗、すなわち、２^ｋ、ｋは非負整数であることが好ましい。図２は、４つのサブセット２４１～２４４を例示的に示しており、これらは、容易に区別できるように別々に示されているが、実際には、これらのサブセット２４１～２４４は、互いに重なってメモリ１３１０に記憶されている。一例では、これらのサブセット２４１～２４４は、隣接する２つのサブセットが重複部分を共有するメモリ１３１０に格納される。より良く理解するために、メモリパーティションの例を示す図３を参照されたい。メモリ１３１０において、第２仮数２４の記憶空間は、８つの特定の位置Ｌ１～Ｌ４およびＲ１～Ｒ４に従って７つの部分に分割される。図３に示すように、サブセット２４１は、位置Ｌ１から位置Ｒ１までの複数のビットを含み、サブセット２４２は、位置Ｌ２から位置Ｒ２までの複数のビットを含み、サブセット２４３は、位置Ｌ３から位置Ｒ３までの複数のビットを含み、サブセット２４４は、位置Ｌ４から位置Ｒ４までの複数のビットを含む。これらの特定の位置Ｌ１～Ｌ４およびＲ１～Ｒ４は、サブセットのビット幅（略してサブセット幅）によって決定される。

【0015】

【0016】

オーバーラップ幅は以下の式１に従って計算される、

【数1】

ここでＷ_{ｏｖｅｒｌａｐ}はオーバーラップ幅を示し、Ｗ_{ｍａｎｔｉｓｓａ}は第１仮数１４のビット幅を示し、Ｗ_{ｒｅｓｕｌｔ}混合精度乗算回路１０００が出力する結果のビット幅を示しＷ_{ｇｕａｒｄ}は丸め用ガードビットのビット幅を示し、Ｗ_ａｐｐは特定用途の追加ビットのビット幅を示す。

【0017】

一例ではＷ_ａｐｐは、第１仮数１４と選択されたサブセット３０との積における先行ゼロの最大数を表す。先行ゼロは、積の小数部分の左端ビットから始まる複数の連続するゼロである。本開示は、Ｗ_ａｐｐを以下の方法によって決定する：最初のステップは、所与の精度で可能なすべての積を計算することである。例えば、単精度浮動小数点フォーマットによって表現可能なすべての値に関して、ハードウェア設計者は、各値とサブセット２４１～２４４のそれぞれを乗算するためにソフトウェアを使用することができ、その結果、非常に多くの積が生成される。第２ステップは、すべての積の分数に含まれる先頭のゼロの数を数えることであり、第３のステップは、Ｗ_ａｐｐとして最も大きい数を求めることである。例えば、サブセットおよび２倍精度浮動小数点形式として、２／πが選択されると、Ｗ_ａｐｐ＝６１である。

【0018】

次の例は、Ｗ_ａｐｐの重要性を示している。２つの数を掛け合わせ、その積が“１０．０００００００００１１０１０”であったとする。正規化された結果は、“１０．０００００００００１１０１０”の有効小数部分を保持するため、“１．１０１０＊２^－１０”となるはずである。しかし、バイナリポイントの後の先行するゼロの数は、小数部分を表現するために設定されたビット幅を超える可能性があるため、乗数によっては、“０．００００＊２^０”のような誤った答えを出力する可能性がある。上記の例は、どの入力が先行ゼロを生成し、先行ゼロの数を予測することが困難であることを示している。そこで、本開示では、積の先頭ゼロの最大数を事前に計算する。

【0019】

【0020】

第１セレクタ１３３０は、すべてのサブセット２４１～２４４を受信するようにメモリ１３１０に結合され、選択フラグを受信するように指数加算器１３２０に結合される。第１セレクタ１３３０は、選択フラグに従ってサブセット２４１～２４４のうちの１つを出力する。指数加算器１３２０の上記の例から、第１セレクタ１３３０は、第１指数１２が大きい場合、第２仮数２４の低位ビットを選択し、第１指数１２が小さい場合、第２仮数２４の高位ビットを選択することが分かる。高レベルのビューでは、サブセットセレクタ１３００は、第１指数１２に従って、複数のサブセット２４１～２４４から出力するサブセットを選択する。

【0021】

第２セレクタ１３４０は、指数加算器１３２０に結合され、選択フラグを受け取る。第２セレクタ１３４０は、選択フラグに従って、複数のオフセットｅ１～ｅ４のうちの１つを選択して出力する。言い換えれば、第１セレクタ１３３０はサブセットの１つを選択し、第２セレクタ１３４０は選択されたサブセットで使用されるオフセットの１つを選択する。オフセットは、選択されたサブセット３０の左端のビットと特定のビットとの間の距離である。具体的には、第１指数１２によって表現可能な範囲において、本開示が関係する部分はほとんどが正である。例えば、単精度浮動小数点フォーマットにおいて、７ビットの指数で表現可能な範囲は［－１２６，＋１２７］であるが、本開示が実際に関係する部分は［－１，１２７］である。言い換えれば、第１指数１２と第２指数２２の和は、第２仮数２４の左端のビットから特定のビットまでの右への距離を移動するために使用される。特定のビットはいずれかのサブセットに含まれる可能性があるため、第２セレクタ１３４０によって選択される変位は、選択されたサブセット３０の左端のビットから特定のビットへ移動した距離である。

【0022】

ハードウェアコストを節約するために、混合精度乗算回路１０００は、「必要なビット」、すなわち、選択されたサブセット３０のみを乗算する。例えば、Ｘビットの第１仮数１４とＹビットの第２仮数２４とを乗算する場合、ＹがＸよりもはるかに大きく（Ｙ＞＞Ｘ）、結果がＺビットに制限される場合、乗算は、結果を生成するために第２仮数２４の（Ｘ＋Ｚ－１）ビットと、丸め用のいくつかのガードビット（通常は１０以下）と、いくつかのアプリケーション固有のビットとを取るだけでよい。第２仮数２４をシフトするために可変シフタ（例えば、バレルシフタ）を使用する代わりに、これは、法外に高価な面積コストと高いレイテンシをもたらすが、本開示は、「必要なビット」の１つのサブセットを選択するように、第２仮数２４を複数のサブセットに分割する設計を提案する。

【0023】

さらに、図３に示す重複するサブセット２４１～２４４は、「必要なビット」の抽出に役立つ。以下の表１を参照されたい。第２仮数２４がビット０からビット９までの１０ビットを含み、「必要なビット」がビット３からビット６までの中間部分であるとする。直感的な方法は、第２仮数２４を２つの重複しないサブセットに分割し、そのため、「必要なビット」はサブセットの境界付近で除外される。対照的に、本開示の提案方法は、サブセット１またはサブセット２に関係なく、「必要なビット」を完全に含むことができる。

【0024】

【表1】

【0025】

上記の説明では、どのサブセットも同じビット幅を持つ。しかしながら、本開示はこれに限定されない。例えば、本開示の実施形態は、１０個のサブセットを含むことができ、１０個のサブセットのうちの４個は第１幅の同じビット幅を有し、他の６個のサブセットは第２幅の同じビット幅を有し、第１幅は第２幅と異なる。現実的なアプリケーションでは、非常に幅の広い定数には、計算で頻繁に使用される「一般的な部分」があるかもしれない。一般的な部分のビット幅は、一般的でない部分のビット幅よりも大きい場合がある。

【0026】

図４は、仮数乗算器の第１実施形態の内部構造を示す。仮数乗算器１５００は、選択されたサブセット３０を被乗数として受け取り、第１仮数１４を乗数として受け取る。図４に示すように、仮数乗算器１５００は、複数のマルチプレクサ１５１０、複数のシフタ１５２０、および加算器ツリー１５３０を含む。

【0027】

第１仮数１４は、仮数乗算器１５００が採用する基数に従って複数のグループに分割される。基数が２^ｋの場合、各グループはｋビットを格納する。図４に示す第１実施形態では、基数は２であり、仮数は６ビット幅である。したがって、６つのグループが存在し、各グループは第１仮数１４の１ビットを格納する。

【0028】

グループの数はマルチプレクサ１５１０の数に等しい。マルチプレクサの数は、シフタの数よりも１つ多い。図４に示すように、右端のマルチプレクサを除いて、残りのマルチプレクサ１５１０の各々は、部分積演算ロジックを形成するためにシフタに結合される。

【0029】

図４に示す第１実施形態では、各マルチプレクサ１５１０は、被乗数（マルチプリカンド）として機能する選択されたサブセット３０を受信する。マルチプレクサ１５１０は、グループに格納された値に従って、ゼロ値または被乗数のいずれかを選択して出力する。

【0030】

各シフタ１５２０は、一定のシフト長に従って左シフト動作を行う。例えば、図４における５つのシフタの予め決められたシフト長は、左から右へ、それぞれ５、４、３、２、１である。各マルチプレクサは、第１仮数の１ビットを一度に取り込み、部分積としてゼロを出力するか、選択されたサブセットを出力するかを決定するので、シフト長は１である。つまり、右から２番目のマルチプレクサによって生成される部分積は、右端のマルチプレクサによって生成される部分積よりも左に１ビット多くシフトされなければならず、右から３番目のマルチプレクサによって生成される部分積は、右から２番目のマルチプレクサによって生成される部分積よりも左に１ビット多くシフトされなければならない。マルチプレクサ１５１０によって出力される選択結果のほとんどは、対応するシフタによって左シフトすることができる。右端のマルチプレクサ１５１０には対応するシフタがないことに注意されたい。なぜなら、その選択結果のシフト長はゼロであるべきであり、シフトシフト演算が不要であることを意味するからである。

【0031】

加算器ツリー１５３０は、全てのシフタ１５２０に結合され、それらのシフト結果を受け取る。加算器ツリー１５３０は、全てのシフト結果を加算するための複数の加算器を含む。加算器ツリーによって出力される和は、被乗数と仮数との積である。

【0032】

図５は、混合精度乗算回路２０００の第２実施形態のブロック図である。図５に示すように、混合精度乗算回路２０００は、サブセットセレクタ２３００と仮数乗算器２５００とを含む。サブセットセレクタ２３００は、第１指数１２を受け取り、第２オペランド２０と仮数倍数３４とを格納する。サブセットセレクタ２３００は、複数の選択されたサブセット３０’を出力するように構成される。

【0033】

第１実施形態と比較して、第２実施形態は、サブセットセレクタ２３００に格納される定数の量を１から多数に拡張し、サブセットセレクタ２３００によって出力される選択されたサブセットの量を１から多数に拡張する。

【0034】

図６は、サブセットセレクタ２３００の第２実施形態の内部構造を示す図である。図６に示すように、サブセットセレクタ２３００は、メモリ２３１０と、指数加算器２３２０と、第１セレクタ２３３０と、第２セレクタ２３４０とを含む。

【0035】

メモリ２３１０は、第２仮数２４だけでなく、仮数倍数３４も記憶し、仮数倍数３４の各々は、第２仮数２４の整数倍である。図６に示すように、第２仮数２４を（１／Ｔ）と表記し、仮数倍数３４を２／Ｔ（第２仮数２４の２倍）、３／Ｔ（第２仮数２４の３倍）と表記する。これらの仮数倍数３４は基数(radix)の乗算に用いられる。第２仮数２４およびその倍数の数は、基数の値より１小さい。例えば、基数が４の場合、メモリ２３１０は、（１／Ｔ）、（２／Ｔ）、（３／Ｔ）を記憶する必要がある。基数が８の場合、メモリ２３１０は、（１／Ｔ）、（２／Ｔ）、・・・、（７／Ｔ）を記憶する必要がある。

【0036】

仮数倍数３４の各々は、第１実施形態において第２仮数２４が分割されるのと同様に、複数のサブセットに分割される。したがって、第１セレクタ２３３０は、図６に示すように、第２仮数２４の複数のサブセットのうちの１つを選択して出力することに加えて、第２仮数２４の倍数の複数のサブセットのうちの１つを選択して出力する。

【0037】

指数加算器２３２０および第２セレクタ２３４０の実装については、第１実施形態を参照されたい。

【0038】

図７は、仮数乗算器２５００の第２実施形態の内部構造を示す。仮数乗算器２５００は、複数のサブセットを受信するためのサブセットセレクタ２３００に結合される。複数のサブセットは、図７に示す（１／Ｔ）のような第２仮数２４の選択されたサブセットと、図７に示す（２／Ｔ）および（３／Ｔ）のような第２仮数２４の倍数の選択されたサブセットとを含む。

【0039】

図７に示すように、仮数乗算器２５００は、複数のマルチプレクサ２５１０、複数のシフタ２５２０、および加算器ツリー２５３０を含む。本実施形態において、仮数乗算器２５００は、基数４の乗算を実行するので、各グループは、第１仮数１４の２ビットを格納する。各グループによって表される値は、選択フラグとしてグループに対応するマルチプレクサ２５１０に入力される。例えば、マルチプレクサ２５１０は、グループ内の２ビットが“００”のとき“０”を出力し、グループ内の２ビットが“０１”のとき、マルチプレクサ２５１０は、“１／Ｔ”を出力し、グループ内の２ビットが“１０”のとき、マルチプレクサ２５１０は、“２／Ｔ”を出力し、グループ内の２ビットが“１１”のとき、マルチプレクサ２５１０は、“３／Ｔ”を出力する。さらに、基数が４であるため、隣接する２つのシフタ２５２０間のシフト長の差は２である。

【0040】

図４に示した基数２の乗算ロジックおよび図７に示した基数４の乗算ロジックは一例であることに留意されたい。本開示は、基数の値を限定するものではない。

【0041】

図８は、混合精度乗算回路３０００の第３実施形態のブロック図である。第１実施形態とは対照的に、混合精度乗算回路３０００の第３実施形態は、サブセットセレクタ３３００および仮数乗算器３５００に結合された抽出ロジック３４００をさらに含む。抽出ロジック３４００は、サブセットセレクタ３３００から選択されたサブセットを受け取り、選択されたサブセットから被乗数として一部を抽出し、被乗数を仮数乗算器３５００に入力する。つまり、仮数乗算器３５００が乗算を実行する前に、抽出ロジック３４００は、選択されたサブセットから抽出することにより、必要なビットを取得する。サブセットセレクタ３３００および仮数乗算器３５００の実装は、混合精度乗算回路１０００の第１実施形態を参照することができる。

【0042】

一例では、抽出ロジック３４００はバレルシフタによって実装され、シフト演算は左シフトであり、シフト長は第２セレクタの出力から２を引いた値に等しい。例えば、選択されたサブセットが（Ｗ_ｂａｓｅ＋Ｗ_{ｏｖｅｒｌａｐ}）ビット幅であり、Ｗ_ｂａｓｅはベース幅を示し、Ｗ_{ｏｖｅｒｌａｐ}はオーバーラップ幅を示し、第２セレクタによって出力されるオフセットはＷ_{ｏｆｆｓｅｔ}である場合、抽出された部分は（Ｗ_ｂａｓｅ＋Ｗ_{ｏｖｅｒｌａｐ}－Ｗ_{ｏｆｆｓｅｔ}＋２）ビット幅である。追加の２ビットは、三角関数演算で象限を決定するために、選択されたサブセットの整数部分を保持するように構成される。

【0043】

図９は、混合精度乗算回路３０００の第３実施形態による計算フローを示す概略図である。

【0044】

ステップＳ１において、混合精度乗算回路３０００は、第２オペランド２０をサブセットセレクタ３３００に格納する。第２オペランド２０はｎビットの定数であり、複数のサブセットに分割される。

【0045】

ステップＳ２において、混合精度乗算回路３０００は、変数入力である第１オペランド１０を受け取る。第１オペランド１０は、第１指数１２および第１仮数１４を含む。

【0046】

ステップＳ３において、サブセットセレクタ３３００は、第１指数１２に従って複数のサブセットからサブセットを選択し、選択されたサブセットをｍビット幅で出力する。

【0047】

ステップＳ４では、抽出ロジックが選択されたサブセットからｐビットを抽出する。一例では、抽出ロジックは、不要なビットをシフトアウトする可変シフタを含む。ｎはｍ以上であり、ｍはｐ以上、すなわち、ｎ≧ｍ≧ｐであることに留意されたい。

【0048】

ステップＳ５において、仮数乗算器３５００は、第２仮数２４と第１仮数１４から抽出されたｐビット部分に応じた結果を生成する演算を行う。

【0049】

図１０は、混合精度乗算回路４０００の第４実施形態のブロック図を示す。第１実施形態とは対照的に、混合精度乗算回路４０００の第４実施形態は、積５６を受け取るために仮数乗算器４５００に結合された抽出ロジック４７００をさらに含む。積５６は、左部分、右部分、および左部分と右部分との間の結果部分を含む。抽出ロジック４７００は、左部分と右部分とをシフトして、結果部分を出力（結果９０）として抽出する。すなわち、抽出ロジック４７００は、乗算結果（積）をシフトして端数部分を得る。なお、端数部分は抽出可能な一例に過ぎず、本開示はこれに限定されない。他の例では、アプリケーションはビットの異なる部分を抽出する必要があってもよい。

【0050】

図１１は、混合精度乗算回路３０００の第４実施形態による計算フローを示す模式図である。

【0051】

図１１に示すステップＴ１、Ｔ２、Ｔ３のフローは、図９に示すステップＳ１、Ｓ２、Ｓ３のフローと同一である。フローの詳細については、図９の説明を参照されたい。

【0052】

ステップＴ４において、仮数乗算器４５００は、第２仮数２４および第１仮数１４から選択されたｍビットのサブセットに従って、一時的な結果を生成するために乗算を実行する。

【0053】

ステップＴ５およびＴ６において、抽出ロジック４７００は、一時的な結果からｑビットを最終結果として抽出する。なお、ｎはｍ以上であり、ｍはｑ以上、すなわち、ｎ≧ｍ≧ｑである。

【0054】

図８～図１１を要約すると、第３実施形態の混合精度乗算回路３０００は乗算前に抽出を行い、一方、第４実施形態の混合精度乗算回路４０００は乗算後に抽出を行う。

【0055】

上記実施形態で説明した混合精度乗算回路は、単精度、倍精度、４倍精度、あるいは任意の精度のフォーマットで結果を出力するのに適している。これに対して、半精度浮動小数点（ｆｐ１６）、８ビット浮動小数点（ｆｐ８）、４ビット浮動小数点（ｆｐ４）、あるいはブレーン浮動小数点（ｂｆｌｏａｔ１６）のように、計算の精度が比較的低い場合には、提案する混合精度乗算回路は、サブセットセレクタを省略してもよい。

【0056】

図１２は、本発明に係る混合精度乗算回路５０００の第５実施形態を示すブロック図である。図１２に示すように、混合精度乗算回路５０００は、仮数乗算器５３００と、サブセットセレクタ５５００と、抽出ロジック５７００とを含む。

【0057】

仮数乗算器５３００は、第２オペランド２０を格納し、第１仮数１４を受け取る。仮数乗算器５３００は、第２オペランド２４と仮数１４に従って乗算を実行することにより、積５６を生成する。

【0058】

サブセットセレクタ５５００は、積５６を受け取るために仮数乗算器５３００に結合される。サブセットセレクタ５５００は、第１指数１２に従って、複数のサブセットから選択されたサブセットを出力する。複数のサブセットの各々は、積５６の一部を表す。

【0059】

抽出ロジック５７００は、選択されたサブセット３０を受信するために、サブセットセレクタ５５００に結合される。抽出ロジック５７００は、選択されたサブセット３０から結果９０として一部を抽出する。

【0060】

以上をまとめると、第１～第４実施形態では、乗算を行う前に、混合精度乗算回路１０００、２０００、３０００、または４０００は、複数のサブセットから１つのサブセットを選択し、選択したサブセット３０を被乗数５２として乗数５４の乗算を行う。第５実施形態では、上記で紹介したサブセットの分割の概念を参照して、まず、仮数乗算器５３００によって被乗数５２と乗数５４との乗算を行い、次に、積５６を複数のサブセットに分割し、最後に、混合精度乗算回路５０００が１つのサブセットを抽出して選択し、結果９０を出力する。

【0061】

図１３は、本発明の混合精度乗算回路の第６実施形態のブロック図である。第６実施形態において、混合精度乗算回路６０００は、部分積セレクタ６３００と部分積加算器６５００とを含む。

【0062】

部分積セレクタ６３００は、第２オペランド２０と、１つまたは複数の仮数倍数３４のセットとを記憶するように構成される。１つまたは複数の仮数倍数３４のセット（以降、「倍数３４」と呼ぶ）は、第２仮数２４の整数倍である。例えば、第２仮数２４が１／π（２進数形式）である場合、仮数倍数は、２／π、３／πを含んでもよい。

【0063】

仮数倍数の数は、乗算で採用される基数によって決定される。基数がＲの場合、乗算の各部分積は、第１仮数１４と第２仮数２４のｌｏｇ_２（Ｒ）ビットを一度に乗算することによって生成される。ビット数がｌｏｇ_２（Ｒ）である場合、可能な値はＲ個となる。例えば、第２仮数２４が１／π、Ｒ＝４の場合、乗算は０／π、１／π、２／π、３／πが用意されるはずである。

【0064】

第２仮数２４は複数のサブセットに分割され、仮数倍数３４の各々は複数の参照サブセットに分割される。図１４は、サブセット／参照サブセットの分割（４つの分割）の例示的な概略図である。この例では、第２仮数２４は、４つのサブセットに分割され、Ｌ１～Ｌ４は、サブセット／参照サブセットの左端ビットの位置を示し、Ｒ１～Ｒ４は、サブセット／参照サブセットの右端ビットの位置を示す。さらに、仮数倍数３４の各々は、図１４に示されるのと同様に、４つのサブセットに分割することができる。

【0065】

複数のサブセットの各々は、複数のグループを含み、複数の参照サブセットの各々は、複数の参照グループを含む。複数のグループの各々は、オフセットでシフトされた第２オペランドの一部であり、複数の参照グループの各々は、参照オフセットでシフトされた仮数倍数の一部である。複数のグループの各々で採用されるオフセットは異なり、複数の参照グループの各々で採用される参照オフセットは異なる。オフセットの幅は、乗算で採用される基数によって決定される。例えば、基数がＲの場合、オフセットの幅はｌｏｇ_２（Ｒ）ビットとなる。グループの数は、最初の仮数１４のビット幅を乗算で採用された基数で割ることで得られた商である。グループと参照グループは同じ方針で決定されることに注意されたい。

【0066】

図１５は、グループ／参照グループの一例を示す図である。第２仮数２４の左端８ビットが「ａａｂｂｃｃｄｄ」であり、第２仮数２４の右端８ビットが「ｅｅｆｆｇｇｈｈ」であり、各サブセットが４つのグループＧ１～Ｇ４を含むと仮定する。第１サブセット２４１を参照されたい。第１グループＧ１は、第２仮数２４で直接満たされる。第２グループＧ２は、オフセットとして２ビットのゼロから始まり、その後、第２仮数２４が埋められる。第３のグループＧ３は、オフセットとして４ビットのゼロから始まり、その後、第２仮数２４が埋められる。第４のグループＧ４は、オフセットとして６ビットのゼロから始まり、次に第２仮数２４が埋められる。別の観点から見ると、第１グループＧ１を除き、各グループ（Ｇ２、Ｇ３、またはＧ４）の値は、前のグループ（Ｇ１、Ｇ２、またはＧ３）の値を２ビットだけ右にシフトした結果である。第４のサブセット２４４を参照すると、第１グループＧ１は“ｅｅｆｆｇｇｈｈ”で終わり、第２グループＧ２は“ｘｘｅｅｆｆｇｇ”で終わり、第３のグループＧ３は“ｘｘｘｘｅｅｆｆ”で終わり、第４のグループＧ４は“ｘｘｘｘｘｘｅｅ”で終わり、ここで、“ｘ”は第２仮数２４の中間ビットを表す。すなわち、第２～第４のグループＧ２～Ｇ４では、第２仮数２４の右端のビットが部分的に切り捨てられるが、部分積の精度は主に左辺の有効ビットに依存するため、部分積の精度には影響しない。さらに、第２サブセット２４２または第３のサブセット２４３の複数のグループも、前述のオフセット特性を有する。異なる点は、第１サブセット２４１の第２～第４グループＧ２～Ｇ４のみが、右シフト演算によりゼロで埋められることである。

【0067】

部分積セレクタ６３００は、複数のサブセットから所望のサブセットを選択し、指数に応じた仮数倍数３４のそれぞれについて、複数の参照サブセットから所望の参照サブセットを選択する。選択機構については、第１及び第２実施形態を参照されたい。部分積セレクタは、複数の候補グループを出力し、複数の候補グループの各々は、所望のサブセットにおける複数のグループのうちの１つ、または所望の参照サブセットにおける複数の参照グループのうちの１つである。

【0068】

図１６を参照されたい。この例では、乗算で採用される基数は４であり、第１仮数１４は“１１０１００１０”であり、第２仮数２４は１／Ｔとして表され、４つのサブセットに分割され、仮数倍数は（２／Ｔ）、（３／Ｔ）を含み、所望のサブセット２４３は、４つのサブセットの（左から）３番目のものである。したがって、仮数倍数（２／Ｔ、３／Ｔ）のそれぞれについて、所望の参照サブセット（３４３または４４３）も、４つの参照サブセットのうちの３番目のものである。見やすさのため、図１６では、重複するサブセットの特性を省略する。

【0069】

前提条件に基づき、第１仮数１４の左端２ビットが“１１”であるため、部分積セレクタは、（３／Ｔ）の第１グループＧ３１を第１候補グループとして選択してもよい。第１仮数１４の次の２ビットが“０１”であるため、部分積セレクタは、（１／Ｔ）の第２グループＧ１２を第２候補グループとして選択してもよい。第１仮数１４の次の２ビットが“００”であるため、部分積セレクタは、すべてのゼロで満たされた第３候補グループを出力してもよい。第１仮数１４の右端の２ビットが“１０”であるため、部分積セレクタは、第４候補グループとして、（２／Ｔ）の第４グループＧ２４を選択してもよい。なお、候補グループ４０は同時に出力されてもよく、０／Ｔのビットは全て０である。まとめると、サブセットでどのグループを出力すべきかの判断は、第１仮数１４のビットの位置に依存し、０／Ｔ～３／Ｔのいずれを選択するかの判断は、第１仮数１４のビットの値に依存する。

【0070】

部分積加算器６５００は、複数の候補グループ４０を受信するために部分積セレクタ６３００に結合され、部分積加算器６５００は、複数の候補グループを加算して結果を出力する。一実施形態では、部分積加算器６５００は加算器ツリー構造で実装される。

【0071】

図１７は、混合精度乗算回路を用いた浮動小数点乗算器を示すブロック図である。浮動小数点乗算器は、バイアス減算器、サブセットセレクタ、仮数乗算器、指数加算器、指数調整加算器、および正規化器を含む。

【0072】

入力オペランドは、符号部分、指数部分、仮数分を含む。入力オペランドの符号は、出力値の符号部分に直接ハードワイヤされている。

【0073】

入力オペランドの指数部はバイアス減算器に入力され、サブセットセレクタはバイアスのかかっていない指数を受け取ることができる。ＩＥＥＥ７５４浮動小数点数では、指数は工学的な意味でバイアスがかかっており、格納される値は指数バイアス（またはバイアスされた指数）によって実際の値からオフセットされる。例えば、バイアスは単精度では１２７、倍精度では１０２３である。

【0074】

サブセットセレクタは、選択されたサブセットと、選択されたサブセットに対応する固定指数とを出力するように構成されている。指数加算器は、固定指数を受け取るためにサブセットセレクタに結合され、入力オペランドのバイアスがかかっていない指数（不偏指数）を受け取るように構成される。指数加算器は、固定指数と不偏指数を加算して指数の和を生成する。指数調整加算器は、指数の和を受け取るために指数加算器に結合され、指数調整値を受け取るために正規化器に結合される。指数調整加算器は指数和と指数調整値を加算する。指数調整加算器の出力は、出力値の指数部分にハードワイヤされる。

【0075】

仮数乗算器は、選択されたサブセットを受け取るためにサブセットセレクタに結合される。また、仮数乗算器は、入力オペランドの仮数を受け取り、選択されたサブセットと仮数に応じて乗算を実行し、積を生成する。この積は正規化器に入力される。正規化器は、指数加算器に結合され、指数和を正規化基準として受け取る。正規化器は、積と正規化基準に従って正規化手順を実行するように構成される。正規化手順は、出力値の仮数部分として提供される正規化仮数と、指数調整値を出力する。基本的に、指数調整値は、正規化のプロセス中に仮数をシフトしなければならなかったビット数である。一例として、正規化には丸め処理が含まれる。

【0076】

以上のことから、本開示では、例えば巨大な引数の範囲縮小などに適用可能な混合精度乗算回路を提案する。本混合精度乗算回路は、高精度オペランドを格納し、乗算において「必要なビット」を選択するためのサブセットセレクタを有する。提案するサブセットセレクタは、面積の大きい可変シフタを使用する代わりに、ハードウェア実装において面積を節約することができる。さらに、提案する高精度混合乗算回路の出力遅延は、従来の乗算器と比較して大幅に短縮される。これは、提案する乗算回路がより高速な演算速度を持つことを意味する。

【図1】