特表2024-529820 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アーム・リミテッドの特許一覧

特表2024-529820除算／平方根パイプライン及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7-1
7-2
8-1
8-2
9-1
9-2
10
11
12
13
14
15-1
15-2
16
17
18
19
20-1
20-2
21-1
21-2

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-14

(54)【発明の名称】除算／平方根パイプライン及び方法

(51)【国際特許分類】

G06F 7/552 20060101AFI20240806BHJP

G06F 7/535 20060101ALI20240806BHJP

G06F 9/38 20180101ALI20240806BHJP

【ＦＩ】

G06F7/552 B

G06F7/535

G06F9/38 310J

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023574634

(86)(22)【出願日】2022-05-26

(85)【翻訳文提出日】2023-12-27

(86)【国際出願番号】 GB2022051339

(87)【国際公開番号】W WO2023275504

(87)【国際公開日】2023-01-05

(31)【優先権主張番号】2109613.6

(32)【優先日】2021-07-02

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＥＲＩＬＯＧ

(71)【出願人】

【識別番号】500395107

【氏名又は名称】アーム・リミテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】ブルゲラ、ハビエルディアス

【テーマコード（参考）】

5B013

【Ｆターム（参考）】

5B013AA18

(57)【要約】

除算/平方根パイプラインを備える装置を提供し、装置は、複数の除算/平方根反復パイプラインステージであって、各々が、デジット漸化除算又は平方根演算のそれぞれの反復を実行するためである、複数の除算/平方根反復パイプラインステージと、デジット漸化除算又は平方根演算の後続の反復を実行するために、除算／平方根パイプラインの後続の除算／平方根反復パイプラインステージへの入力として、１回の反復で１つの除算／平方根反復パイプラインステージによって生成された出力を供給するための信号パスと、を備える、除算／平方根パイプラインを備え、除算／平方根パイプラインは、浮動小数点オペランドに対してデジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる。

【特許請求の範囲】

【請求項1】

装置であって、
除算／平方根パイプラインであって、
複数の除算／平方根反復パイプラインステージであって、各々が、デジット漸化除算又は平方根演算のそれぞれの反復を実行するためである、複数の除算／平方根反復パイプラインステージと、
前記デジット漸化除算又は平方根演算の後続の反復を実行するために、前記除算／平方根パイプラインの後続の除算／平方根反復パイプラインステージへの入力として、１回の反復で１つの除算／平方根反復パイプラインステージによって生成された出力を供給するための信号パスと、を備える、除算／平方根パイプラインを備え、
前記除算／平方根パイプラインが、浮動小数点オペランドに対して前記デジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる、装置。

【請求項2】

制御回路であって、前記除算／平方根パイプラインを制御して、第１のデジット漸化除算又は平方根演算と、第２のデジット漸化除算／平方根演算の前の反復を実行する前の除算／平方根反復パイプラインステージと並行して、前記第１のデジット漸化除算又は平方根演算の後の反復を実行している、前記除算／平方根パイプラインの後の除算／平方根反復パイプラインステージで、前記第２のデジット漸化除算又は平方根演算を実行させる、制御回路を備える、請求項１に記載の装置。

【請求項3】

各除算／平方根反復パイプラインステージが、除算命令に応答してデジット漸化除算演算の所与の反復を実行し、平方根命令に応答してデジット漸化平方根演算の所与の反復を実行するための組み合わせた除算／平方根処理回路を備える、請求項１又は２に記載の装置。

【請求項4】

前記組み合わせた除算／平方根処理回路が、前記デジット漸化除算演算の前記所与の反復と前記デジット漸化平方根演算の前記所与の反復との両方に使用される同じデータパス上に少なくとも１つの出力値を生成するための共有回路を備える、請求項３に記載の装置。

【請求項5】

前記除算／平方根パイプラインが、前記デジット漸化除算演算及び前記デジット漸化平方根演算の両方について、同じ基数を用いて、処理サイクルごとに同じ数の反復を実行するように構成されている、請求項３又は４に記載の装置。

【請求項6】

所与の結果精度について、前記除算／平方根パイプラインが、前記デジット漸化平方根演算と同じ数の処理サイクルで前記デジット漸化除算演算を処理するように構成されている、請求項１から５のいずれか一項に記載の装置。

【請求項7】

前記除算／平方根パイプラインが、前記デジット漸化除算又は平方根演算のための少なくとも２つの異なる結果精度をサポートするように構成されている、請求項１から６のいずれか一項に記載の装置。

【請求項8】

前記除算／平方根パイプラインが、より高い精度で結果を生成するときよりも、より低い精度で結果を生成するときに、より少ない処理サイクルで前記デジット漸化除算又は平方根演算を実行するように構成されている、請求項７に記載の装置。

【請求項9】

制御回路であって、より高い精度の結果を生成するときに前記デジット漸化除算演算又は平方根演算の少なくとも１回の反復を実行するために使用される少なくとも１つの除算／平方根反復パイプラインステージを、より低い精度の結果を生成するために前記デジット漸化除算演算又は平方根演算を実行するときにバイパスさせるように、前記除算／平方根パイプラインを制御する、制御回路を備える、請求項７又は８のいずれか一項に記載の装置。

【請求項10】

前記除算／平方根パイプラインが、前記デジット漸化除算又は平方根演算の最終反復の出力に対して後処理演算を実行するための少なくとも１つの後処理ステージを備え、
前記装置が、制御回路であって、より高い精度の結果を生成するために実行されるより高い精度のデジット漸化除算／平方根演算の後に、より低い精度の結果を生成するために実行されるより低い精度のデジット漸化除算／平方根演算が所定のサイクル数を開始することを防止し、前記所定のサイクル数が、前記より高い精度のデジット漸化除算／平方根演算のために前記少なくとも１つの後処理ステージに到達するのに要したサイクル数と、前記より低い精度のデジット漸化除算／平方根演算のために前記少なくとも１つの後処理ステージに到達するのに要したサイクル数との差に対応する、制御回路を備える、請求項７から９のいずれか一項に記載の装置。

【請求項11】

各除算／平方根反復パイプラインステージが、
前の剰余値と比較定数のセットとの間の比較に基づいて、前記デジット漸化除算又は平方根演算のパーシャル結果値のための次の結果デジットを選択するデジット選択回路と、
剰余調整値と、前記デジット選択回路によって選択された次の結果デジットとに基づいて、前記前の剰余値を更新する剰余更新回路と、を備える、請求項１から１０のいずれか一項に記載の装置。

【請求項12】

前記複数の除算／平方根反復パイプラインステージが、同じデジット漸化除算又は平方根演算内で実行されるそれぞれの反復ごとに同じ比較定数のセットを使用するように構成されている、請求項１１に記載の装置。

【請求項13】

前記除算／平方根パイプラインが、前記除算／平方根パイプラインの第１の除算／平方根反復パイプラインステージの前に、前記除算／平方根パイプラインの前処理ステージで前記比較定数のセットを取得するためにテーブルルックアップを実行するように構成されており、前記比較定数のセットが、同じデジット漸化除算又は平方根演算内の各除算／平方根反復パイプラインステージで前記テーブルルックアップを繰り返すことを回避するためにステージからステージに渡される、請求項１１又は１２に記載の装置。

【請求項14】

前記除算／平方根パイプラインが、前記除算／平方根パイプラインの第１の除算／平方根反復パイプラインステージの前にオペランド前処理を実行するための少なくとも１つの前処理ステージを備え、前記オペランド前処理が、前記デジット漸化除算又は平方根演算の結果に対する少なくとも１つの初期結果デジットの選択を含む、請求項１から１３のいずれか一項に記載の装置。

【請求項15】

前記除算／平方根パイプラインが、デジット漸化除算演算及びデジット漸化平方根演算の両方をサポートするように構成されており、
前記オペランド前処理において、前記少なくとも１つの前処理ステージが、前記デジット漸化平方根演算の初期結果デジットの数を、前記デジット漸化除算演算の初期結果デジットの数よりも多く生成するように構成されている、
請求項１４に記載の装置。

【請求項16】

前記除算／平方根パイプラインを制御して、前記デジット漸化除算演算が実行されるときに少なくとも１つの反復を実行するために使用される少なくとも１つの除算／平方根反復パイプラインステージに、前記デジット漸化平方根演算を実行するときに、その結果出力の一部のビットを完全に若しくは部分的にスキップさせるか、又は破棄させる制御回路を備える、請求項１５に記載の装置。

【請求項17】

前記デジット漸化除算演算を実行するとき、前記少なくとも１つの前処理ステージが、選択されたビット位置がダミービット値に設定されるパーシャル結果値を前記第１の除算／平方根反復パイプラインステージに提供するように構成されており、前記選択されたビット位置が、前記少なくとも１つの前処理ステージが、デジット漸化平方根演算を実行するときに、前記デジット漸化除算演算のために生成されない少なくとも１つの追加の結果デジットを挿入するビット位置に対応し、
前記除算／平方根パイプラインの所与の除算／平方根反復パイプラインステージが、前記デジット漸化除算演算と前記デジット漸化平方根演算の両方について、同じビット位置で、次の結果デジットを前記パーシャル結果値に挿入するように構成されており、
前記除算／平方根パイプラインが、前記デジット漸化除算演算を実行するときに、最終結果値から前記ダミービット値を除去するための後処理ステージを含む、請求項１５又は１６に記載の装置。

【請求項18】

前記デジット漸化除算又は平方根演算が、基数６４のデジット漸化除算又は平方根演算である、請求項１から１７のいずれか一項に記載の装置。

【請求項19】

各除算／平方根反復パイプラインステージは、同じ処理サイクルで複数の基数ｎの部分反復を実行することによって、基数ｒのデジット漸化除算又は平方根演算のそれぞれの基数ｒの反復を実行するように構成され、ｎ＜ｒである、請求項１から１８のいずれか一項に記載の装置。

【請求項20】

ｒ＝６４及びｎ＝８である、請求項１９に記載の装置。

【請求項21】

データ処理方法であって、
除算／平方根パイプラインの複数の除算／平方根反復パイプラインステージを使用して、デジット漸化除算又は平方根演算のそれぞれの反復を実行することと、
１つの除算／平方根反復パイプラインステージによって生成された出力を入力として、前記除算／平方根パイプラインの後続の除算／平方根反復パイプラインステージに供給することと、を含み、
前記除算／平方根パイプラインが、浮動小数点オペランドに対して前記デジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる、データ処理方法。

【請求項22】

装置の製造のためのコンピュータ可読コードを記憶するためのコンピュータ可読媒体であって、
除算／平方根パイプラインであって、
複数の除算／平方根反復パイプラインステージであって、各々が、デジット漸化除算又は平方根演算のそれぞれの反復を実行するためである、複数の除算／平方根反復パイプラインステージと、
前記デジット漸化除算又は平方根演算の後続の反復を実行するために、除算／平方根パイプラインの後続の除算／平方根反復パイプラインステージへの入力として、１回の反復で１つの除算／平方根反復パイプラインステージによって生成された出力を供給するための信号パスと、を備える、除算／平方根パイプラインを備え、
前記除算／平方根パイプラインが、浮動小数点オペランドに対して前記デジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる、コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、データ処理分野に関する。

【0002】

デジット漸化アルゴリズムを使用して、除算又は平方根などの処理演算を実行することができる。デジット漸化は、反復アルゴリズムを使用して計算を実行する。各反復において、結果値の次のデジットが生成される。各デジットは、いくつかのビットを使用して表される。デジット漸化アルゴリズムの基数ｒの実施態様では、各デジットはｌｏｇ_２（ｒ）ビットを有する。例えば、４の基数を使用する実装は、各デジットを２ビットで表し、そのため、各反復において、結果の２つの更なるビットが生成され、そのため、特定の数のビットを有する結果値を生成することは、反復回数を要し得る。より高い基数を使用する実装では、所与のサイズの結果をより少ない反復で生成して性能を向上させることができるが、単一の反復を実行するための回路はより複雑になる。そのようなデジット漸化方法を実行するように回路を設計する場合、性能、回路面積、及び電力消費の競合する要求を満たすことに課題があり得る。

【0003】

少なくともいくつかの例は、除算/平方根パイプラインを備える装置であって、複数の除算/平方根反復パイプラインステージであって、各々が、デジット漸化除算又は平方根演算のそれぞれの反復を実行するためである、複数の除算/平方根反復パイプラインステージと、デジット漸化除算又は平方根演算の後続の反復を実行するために、除算／平方根パイプラインの後続の除算／平方根反復パイプラインステージへの入力として、１回の反復で１つの除算／平方根反復パイプラインステージによって生成された出力を供給するための信号パスと、を備える、除算／平方根パイプラインを備え、除算／平方根パイプラインは、浮動小数点オペランドに対してデジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる、装置を提供する。

【0004】

少なくともいくつかの例は、データ処理方法であって、除算/平方根パイプラインの複数の除算/平方根反復パイプラインステージを使用して、デジット漸化除算又は平方根演算のそれぞれの反復を実行することと、1つの除算/平方根反復パイプラインステージによって生成された出力を入力として、除算/平方根パイプラインの後続の除算/平方根反復パイプラインステージに供給することと、を含み、除算／平方根パイプラインが、浮動小数点オペランドに対してデジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる、データ処理方法を提供する。

【0005】

少なくともいくつかの例は、装置の製造のためのコンピュータ可読コードを記憶するためのコンピュータ可読媒体であって、複数の除算/平方根反復パイプラインステージであって、各々が、デジット漸化除算又は平方根演算のそれぞれの反復を実行するためである、複数の除算/平方根反復パイプラインステージと、デジット漸化除算又は平方根演算の後続の反復を実行するために、除算／平方根パイプラインの後続の除算／平方根反復パイプラインステージへの入力として、１回の反復で１つの除算／平方根反復パイプラインステージによって生成された出力を供給するための信号パスと、を備える、除算／平方根パイプラインを備え、除算／平方根パイプラインが、浮動小数点オペランドに対してデジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる、コンピュータ可読媒体を提供する。

【図面の簡単な説明】

【0006】

本技術の更なる態様、特徴、及び利点は、添付の図面と併せて読まれる以下の例の説明から明らかとなる。

【図1】除算／平方根処理回路を有するデータ処理演算の一例を概略的に示す図である。

【図2】同じ処理サイクルで実行される、より高い基数のデジット漸化平方根又は除算演算を、複数のより低い基数の部分反復に分割する例を概略的に示す図である。

【図3】平方根演算の所与の基数ｒの反復を実行するための回路を示す図である。

【図4】剰余更新回路を示す図である。

【図5】剰余推定回路を示す図である。

【図6】デジット選択回路を示す図である。

【図7-1】同じ処理サイクルで２つの基数８の部分反復を実行することによって平方根演算の所与の基数６４の反復を実行するための平方根処理回路をより詳細に示す図である。

【図7-2】同じ処理サイクルで２つの基数８の部分反復を実行することによって平方根演算の所与の基数６４の反復を実行するための平方根処理回路をより詳細に示す図である。

【図8-1】除算演算と平方根演算の両方を実行することができる組み合わせた除算／平方根処理回路を示し、共有回路は、除算演算と平方根演算の両方に使用される同じデータパス上で少なくとも１つの出力値を生成する。

【図8-2】除算演算と平方根演算の両方を実行することができる組み合わせた除算／平方根処理回路を示し、共有回路は、除算演算と平方根演算の両方に使用される同じデータパス上で少なくとも１つの出力値を生成する。

【図9-1】除算／平方根パイプラインの一例を示す図である。

【図9-2】除算／平方根パイプラインの一例を示す図である。

【図10】第２の演算が第１の演算よりも低精度浮動小数点表現を使用する場合に、第２の演算が第１の演算の後に所定のサイクル数を開始することを禁止される、連続する除算演算又は平方根演算のパイプライン化を示す図である。

【図11】オンザフライ変換を示す図である。

【図12】オンザフライ変換の実施例を示す図である。

【図13】３Ｘデジットのオンザフライ変換を示す図である。

【図14】３Ｘオンザフライ変換の実施例を示す図である。

【図15-1】３倍のオンザフライ変換を実行するための回路を示す図である。

【図15-2】３倍のオンザフライ変換を実行するための回路を示す図である。

【図16】部分ルート値を再構築するための選択を示す図である。

【図17】除算演算の基数８の部分反復の比較定数を示す図である。

【図18】平方根演算の基数８の部分反復の比較定数を示す図である。

【図19】除算比較定数に対する平方根比較定数のオフセットを表すオフセットを示す図である。

【図20-1】除算及び平方根演算の比較定数を判定するための除算及びオフセットルックアップテーブルを示す図である。

【図20-2】除算及び平方根演算の比較定数を判定するための除算及びオフセットルックアップテーブルを示す図である。

【図21-1】除算及び平方根演算のための比較定数セットを取得するための回路を示す。

【図21-2】除算及び平方根演算のための比較定数セットを取得するための回路を示す。

【0007】

平方根処理
平方根処理回路は、同じ処理サイクルにおいて２つ以上の基数ｎの部分反復を実行することによって、基数ｒの平方根演算の所与の基数ｒ反復を実行してもよく、ｎ＜ｒである。これは、基数ｒの反復をより低い基数の部分反復に細分化しない実装形態と比較して、性能と回路オーバーヘッドとの間のより良好な妥協を提供することができる。１サイクルで実行される全体的な演算は基数ｒのより高い基数の演算であるため、これは、結果のｌｏｇ_２（ｒ）ビットが処理サイクルごとに生成され得ることを意味し、これはより小さい基数が使用される場合よりも高い性能を提供し得るが、基数ｒの反復を同じ処理サイクルでいくつかの基数ｎの部分反復に分割し、ここで各部分反復についてｎはｒより小さいが、これによって、回路の全体的なサイズは、基数ｒの反復が単一演算として実行された場合よりも小さくなり得、これは、基数ｎを用いる各部分反復の次のデジットとして選択に利用可能な代替オプションの数が、平方根演算の基数ｒの反復が単一演算として実行された場合に必要とされる基数ｒデジットの代替オプションの数よりも少ないためである。しかしながら、基数ｒの反復をより小さい基数の部分反復に分割すると、それらの基数ｎの部分反復を単一の処理サイクルに適合させることができるという点でタイミングの課題が生じる可能性がある。

【0008】

所与の基数ｎの部分反復について、平方根処理回路は、前の剰余推定値に基づいて、平方根結果の次の基数ｎ結果デジットを選択するデジット選択回路と、更新された剰余値を生成するために、デジット選択回路によって選択された次の基数ｎの結果デジットに応じた剰余調整値に基づいて、前の剰余値を調整する剰余更新回路と、更新された剰余値の一部の推定値を示す更新された剰余推定値を生成する剰余推定回路と、所与の基数ｒの反復の後続の基数ｎの部分反復、又は基数ｒ平方根演算の更なる基数ｒの反復の第１の基数ｎの部分反復において、前の剰余値及び前の剰余推定値として使用するために、更新された剰余値及び更新された剰余推定値を供給するための出力信号パスと、を含み得る。サイクルごとに複数の部分反復が実行されているので、デジット選択回路、剰余更新回路、剰余推定回路、及び出力信号パスの複数のインスタンスが、平方根演算の同じ基数ｒの反復内のそれぞれの基数ｎの部分反復に対して提供され得る。

【0009】

所与の基数ｒの反復の最後の基数ｎの部分反復において、剰余推定回路は、更新された剰余値を生成する剰余更新回路と並列に更新された剰余推定値を生成し得る。更新された剰余推定値は更新された剰余値の一部を表すので、最初に剰余値が利用可能であり、次に剰余推定値が順次計算されることを期待することがあるため、これは直感に反する。しかしながら、本発明者は、より高い基数の反復をより小さい基数の部分反復に分割する実施態様では、所与の基数ｒの反復のその最後の部分反復の更新された剰余値を生成する剰余更新回路と並行して、最後の部分反復の更新された剰余推定値を生成することが可能であることを認識した。これは、最後の基数ｎの部分反復のための剰余推定値の計算に関連する遅延を、平方根処理回路を通るクリティカルタイミングパスから少なくとも部分的に除去することができることを意味し、平方根演算の所与の基数ｒの反復を実行するのにかかる全体的な時間を短縮し、従って全体的な性能を改善する。

【0010】

剰余更新回路は、更新された剰余値を冗長表現で生成し得る。例えば、剰余値は、更新された剰余値の数値を共に表す２つの項として表されてもよいが、同じ数値を表すことができる第１の項及び第２の項の値の２つ以上の組み合わせがあってもよい。冗長表現で更新された剰余値を生成することは、１つのビットから別のビットにキャリーを伝播する必要がある更新された剰余値の計算を回避することができるため、有用であり得る。従って、剰余更新回路は、キャリー保留加算回路を備えてもよい。

【0011】

しかしながら、平方根結果の次の基数ｎ結果デジットを選択する目的のために、デジット選択回路は、非冗長表現の剰余の表現を使用してデジット選択を実行することができ、従って、剰余推定回路は、更新された剰余値の少なくとも一部の推定値を示す非冗長表現の更新された剰余推定値を生成することができる（非冗長表現は、推定値が単一の項で表現できることを意味し、更新された剰余推定値の任意の所与の数値について、その数値に対応する非冗長表現の単一のビットパターン（それ以外はない）がある）。更新された剰余値のフル精度がデジット選択に必要とされない可能性があるため、更新された剰余推定値は、更新された剰余値よりも少ないビットを有することができ（より具体的には、更新された剰余推定値は、２つの冗長項を含むことができる冗長に表された剰余値の単一の項のビット数よりも少ないビットを有することができる）、推定値のビット数を制限することにより、非冗長剰余推定値を計算する際の遅延が低減される。例えば、更新された剰余推定値は、より低いビットがデジット選択の精度に著しく影響を与えない場合があるため、更新された剰余値の最も重要な部分の推定値を表すことができる。

【0012】

従って、非冗長表現における剰余推定値の計算は、キャリーを１つのビット位置から別のビット位置デジットに伝播することができ、キャリー保留加算器よりも遅くてもよいキャリー伝播加算回路を使用することができる。従って、典型的な手法では、剰余推定値に使用されるキャリー伝播加算回路は、平方根演算の特定の反復の全体的な処理を大幅に遅くする可能性がある。

【0013】

しかしながら、本発明者は、基数ｒの平方根反復が同じ処理サイクル内で実行される基数ｎの複数のより小さい部分反復に分割される手法では、最後の基数ｎの部分反復の更新された剰余推定値が更新された剰余値の計算と並行して計算され得ることを認識し、これは、最後の基数ｎの部分反復内の剰余更新回路への入力として提供される情報及び／又は所与の基数ｒの反復内の以前の部分反復からの他の情報を使用して、最後の基数ｎの部分反復の更新された剰余推定値を計算することができ、最後の基数ｎの部分反復の更新された剰余推定値の計算を開始する前に、最後の基数ｎの部分反復内の更新された剰余値が利用可能になるのを待つ必要性を回避するためである。これは、所与の基数ｒの反復の最後の基数ｎの部分反復において更新された剰余推定値を計算するための比較的遅いキャリー伝播加算のクリティカルタイミングパスからの除去に起因して、性能において比較的有意な利得を提供する。

【0014】

剰余更新では、デジット選択回路によって選択された次の結果デジットに依存する値を取る剰余調整値に基づいて、前の剰余値が更新される。最後の基数ｎの部分反復における剰余推定回路は、この剰余調整値及び前の剰余推定値を使用して、最後の基数ｎの部分反復のための更新された剰余推定値を生成することができる。剰余調整値は、最後の基数ｎの部分反復において剰余推定回路への入力として使用されるため、これにより、更新された剰余値を待つ必要がなくなり、更新された剰余推定値をより迅速に利用することができる。

【0015】

剰余推定回路は、最後の基数ｎの部分反復が同じサイクル内で実行されている少なくとも１つの以前の部分反復に続くという事実を利用することができ、その結果、その以前の部分反復で計算されたいくつかの情報は、更新された剰余値が取得された後に剰余推定値が連続して計算された場合よりも早く更新された剰余推定値を計算するために、最後の部分反復において剰余推定回路によって使用され得る。

【0016】

例えば、最後の基数ｎの部分反復以外の所与の基数ｒ反復の先行基数ｎの部分反復において、剰余推定回路は、所与の基数ｒ反復の最後の基数ｎの部分反復において次の基数ｎ結果デジットを選択するのに不要である、更新された剰余推定値の少なくとも１つの追加ビットを計算してもよく、所与の基数ｒ反復の最後の基数ｎの部分反復において、剰余推定回路は、先行基数ｎの部分反復で判定された少なくとも１つの追加ビットを使用して、更新された剰余推定値を判定してもよい。先行する基数ｎの部分反復において更新された剰余推定値に必要とされるよりも多くのビットを計算することにより、追加のビット（複数可）を使用して、最後の基数ｎの部分反復においてより早く更新された剰余推定値を計算することができ、なぜなら、先行する部分反復において計算された追加のビットは、更新された剰余値が利用可能になるのを待つことなく、最後の部分反復における更新された剰余推定値を計算することを可能にするからである。

【0017】

所与の基数ｒの反復の第１の基数ｎの部分反復において、剰余推定回路は、第１の基数ｎの部分反復における剰余更新回路によって生成された更新された剰余値に基づいて、更新された剰余推定値を判定できる。従って、更新された剰余推定値が全ての部分反復において更新された剰余値と並列に計算されることは必須ではない。所与の基数ｒの反復の第１の部分反復では、更新された剰余値が冗長形式で利用可能になるまで、剰余推定値を計算できるのに十分な情報が利用できない場合がある。しかしながら、複数の基数ｎの部分反復が同じ処理サイクル内で重複しているため、回路設計者は、後続の部分反復の部分が以前の部分反復の部分に対して開始する相対タイミングを変更する自由度があり、前の部分反復からの情報を使用して後の部分反復でパラメータを計算することができ、少なくとも最終部分反復のために更新された剰余値及び更新された剰余推定値の計算を並列化することを実現可能にする。

【0018】

平方根演算の所与の基数ｒの反復を実施するために同じサイクル内で少なくとも３つの部分反復が実行される実装態様では、更新された剰余推定値が、第１の部分反復と最後の部分反復との間の１つ以上の中間部分反復の更新された剰余値と並列に計算されることも可能である。

【0019】

平方根処理回路は、所与の基数ｎの部分反復に対して、複製回路の１つ以上のインスタンスを備え、複製回路の各インスタンスは、デジット選択回路による次の基数ｎ結果デジットの選択と並行して、デジット選択回路によって次の基数ｎ結果デジットとして選択されることが可能な異なる結果デジットに対応する２つ以上の候補出力値を判定するための２つ以上の複製回路ユニットと、異なる結果デジットのうちのどれが次の基数ｎ結果デジットとして選択されるかを示すデジット選択回路に応答して、複数の候補出力値のうちの１つを選択する選択回路とを含み、複数の候補出力値は、２つ以上の複製回路ユニットによって生成された２つ以上の候補出力値を少なくとも含む。この手法では、候補出力値を生成するための計算を開始する前に、次の基数ｎの結果デジットがデジット選択回路によって実際に選択されるのを待つ必要がないため、性能をより高速にすることができる。

【0020】

選択回路による選択に利用可能な候補出力値の数は、２つ以上の複製回路ユニットによって生成された候補出力値の数よりも多くてもよいことに留意されたい。例えば、選択に利用可能な結果デジットのうちの１つは０に等しくてもよく、場合によっては、次の結果デジットが０である場合に選択される候補出力値は、部分反復に提供される入力値と同一であり得るため、結果デジット０の候補出力値を明示的に計算する必要はない場合がある。従って、選択回路は、複製回路ユニットのうちの１つによって明示的に生成されない候補出力値、ならびに２つ以上の複製回路ユニットによって生成された候補出力値を入力として取得することができる。

【0021】

次の結果デジットが既知である時間の前に複数の候補出力値を推測的に計算するために複製回路ユニットを提供することは、性能に優れている可能性があるが、必要な複製回路ユニットの数は基数の増加と共に増加し、より高い基数演算をサポートするために、回路面積コスト及び電力消費を増加させる可能性がある。

【0022】

回路面積及び電力コストを制限するための１つの技術は、２つ以上の複製回路ユニットのうちの少なくとも１つを、所与の大きさを有する正の結果デジットと、同じ所与の大きさを有する負の結果デジットとの両方の間で共有される共有回路ユニットとして提供することであり得る。共有回路ユニットは、共有候補出力値を共有信号パス上の選択回路に出力するように構成されており、選択回路は、次の基数ｎ結果デジットが所与の大きさを有する正及び負の結果デジットのいずれかであるとき、共有信号パスから共有候補出力値を選択してもよい。従って、これにより、同じ大きさを共有する正及び負の結果デジットのそれぞれに２つの別個の複製回路ユニットを提供する必要がなくなる。これにより、必要な複製回路ユニットの総数を減らすことができ、従って回路面積を節約し、電力消費を減らすことができる。

【0023】

複製回路の少なくとも１つのインスタンスについて、同じ大きさの正及び負の結果デジット間で共有される出力を提供する共有回路ユニットは、前の剰余推定値の符号に基づいて、共有信号パス上の共有候補出力値として出力されるべき値を選択することができる。従って、同じ大きさを有するが符号が異なる２つの結果デジット値の間で共通の信号パスが共有されるが、その共有信号パス上に出力される実際の数値は、前の剰余推定値の符号に応じて異なり得る。

【0024】

複製回路の少なくとも１つのインスタンスについて、共有回路ユニットは、所与の大きさを有する正及び負の結果デジットの共有候補出力値を判定するための共有追加回路を含んでもよい。同じ大きさの正負両方のデジットの共有候補出力値を生成するための共有回路ユニットを提供する技術は、その回路ユニットが加算回路を含む場合に特に有用であり得、これは、加算回路が回路面積の点で比較的コストがかかるためである。

【0025】

基数ｎの部分反復の場合、通常、選択回路による選択に利用可能な候補出力値の数はｎ＋１でなければならないと予想される。しかしながら、同じ大きさを有する正及び負の結果デジット間で共有回路ユニットを共有することによって、選択回路による選択に利用可能な候補出力値の総数をｎ／２＋１に減らすことができ、これは、提供される複製回路ユニットの数を減らすことができることを意味するため、回路面積を大幅に削減することができる。

【0026】

平方根処理回路内に複製回路のいくつかのインスタンスが存在し得る。平方根処理回路の様々な部分は各々この手法を使用することができ、複製回路ユニットが複数の可能な結果デジットの候補出力値を推測的に判定し、次いで、次の結果デジットが選択されると、正しい候補出力値を選択回路によって選択することができる。

【0027】

例えば、剰余更新回路は、複製回路のそのようなインスタンスのうちの１つを備えることができる。剰余更新回路が推測的複製及び選択手法を使用する場合、選択回路によって選択されている候補出力値は、候補の更新された剰余値であり得る。

【0028】

同様に、剰余推定回路は、この推測的複製を使用し、上述の複製回路のインスタンスの１つを含むこともできる。剰余推定回路が複製回路を含む場合、候補出力値は、候補の更新された剰余推定値であってもよい。

【0029】

デジット漸化方法の別の部分は、オンザフライ変換を実行することであり得る。平方根演算の場合、更新された剰余値を生成するための前の剰余値の調整は、（次の結果デジットに基づいて選択された）剰余調整値に依存するだけでなく、前に選択された一連の結果デジットに対応する数値である部分ルート値にも依存し得る。結果デジットが符号付きデジットとしてデジット選択回路によって選択され得るので、次に、更新された剰余値を生成するために前の剰余値を調整するために剰余更新回路によって使用され得る非冗長表現で部分ルート値を提供するために、部分ルート値を非冗長表現に変換するためにオンザフライ変換回路が提供され得る。以下に説明するように、加算を必要としないが、単に前の部分ルート値と、最新の基数ｎの結果デジットに基づいて選択されたいくつかの追加ビットとを連結することによって行うことができる方法でオンザフライ変換を行うことが可能である。

【0030】

従って、（非冗長表現において、前に選択された一連の基数ｎの結果デジットに対応する数値を示す部分ルート値を生成するための）オンザフライ変換回路はまた、上述の複製回路のインスタンスを含むことができ、その結果、複製回路ユニットは、いくつかの候補部分ルート値を生成し、選択回路による選択に利用可能な候補出力値は、部分ルート値のいくつかの候補値を含む。

【0031】

従って、平方根処理回路のどの部分が複製を実施するかにかかわらず、複製は性能を向上させるのに役立つことができ、実施される場合、同じ大きさの正及び負の結果デジットに対する複製回路ユニットの共有は、回路規模全体を縮小するのに役立つことができる。

【0032】

いくつかの実装形態は、平方根処理回路の上記の構成要素の１つのみ又はサブセットで複製回路を実装することができ、他の構成要素は複製された手法を使用せず、剰余更新回路、剰余推定回路、及びオンザフライ変換回路の各々が複製回路のインスタンスを提供する場合、性能は最大になり得る。

【0033】

一般に、所与の基数ｒの反復が同じ処理サイクルでいくつかの背中合わせ又は重複する基数ｎの部分反復に分割される場合、ｒの値は、１サイクルで使用される部分反復の各々についてのｎのそれぞれの値の積に対応し得る。

【0034】

以下に説明する特定の例では、各基数６４反復に２つの基数８の部分反復があるように、部分反復の各々についてｒ＝６４及びｎ＝８である。この手法は、性能（基数６４は、処理サイクルごとに６ビットを生成できることを意味する）と、回路面積及びタイミングの複雑さ（部分反復に基数８を使用することは、２つの部分反復のみが必要とされることを意味し、これは、３つ以上の部分反復を使用する実装と比較して、低いタイミング圧力を課すが、基数を６４を超えて増加させると、タイミングを満たしながら回路規模を管理することを実現不可能にする可能性がある）との間の良好なバランスを提供することができる。従って、ｒ＝６４及びｎ＝８は、特に有用な組み合わせであり得る。

【0035】

それにもかかわらず、他の選択肢も可能である。例えば、平方根演算の基数６４反復を、各々基数４の３つの部分反復として実行することが可能である（６４＝４×４×４であるため）。

【0036】

同じ基数ｎで部分反復の各々を実施することは、回路全体の面積に関してより効率的であり、各部分反復で同じ基数を使用する設計の複雑さの点でより単純であり得るため、有用であり得る。

【0037】

それにもかかわらず、同じ基数ｒの反復内の異なる部分反復が、異なる基数を使用することも可能である。例えば、デジット漸化平方根演算の基数６４の反復は、１つの基数４の部分反復、１つの基数８の部分反復、及び１つの基数２の部分反復に分割することができる。従って、ｎが各部分反復について等しいことは必須ではない。

【0038】

上述した技術は、異なる設計の平方根処理回路で実施することができる。一例では、平方根処理回路は、反復平方根処理回路であってもよく、出力信号パスは、反復平方根処理回路の出力から最後の基数ｎの部分反復において生成された更新された剰余値及び更新された剰余推定値を、平方根演算の更なる基数ｒの反復の第１の基数ｎの部分反復において前の剰余値及び前の剰余推定値として使用するための、同じ反復平方根処理回路の入力に供給してもよい。従って、平方根演算を全体として実行するために、反復平方根処理回路を通る複数のパスが複数の処理サイクルにわたって実行され、１つのサイクルにおける反復平方根処理回路の出力は、後続のサイクルにおける同じユニットへの入力としてフィードバックされる。

【0039】

しかしながら、以下でより詳細に説明するように、平方根処理回路は、いくつかの平方根反復パイプラインステージを含むパイプライン平方根処理ユニットの一部であってもよく、各ステージは、上述した平方根処理回路のそれぞれのインスタンスを含む。この場合、所与のパイプラインステージの出力信号パスは、次の処理サイクルにおける後続の基数ｒの反復の処理のために、所与の基数ｒの反復の最後の基数ｎの部分反復において生成された更新された剰余値及び更新された剰余推定値を、１つの平方根反復パイプラインステージにおける平方根処理回路の出力から後続の平方根反復パイプラインステージにおける平方根処理回路（平方根処理回路の異なるインスタンス）の入力に供給することができる。この手法により、複数の平方根演算を互いにパイプライン化することが可能になり、その結果、前の平方根演算がパイプライン平方根処理ユニットの後のステージで処理されている間、後の平方根演算が、前の基数ｒの反復が実行されている前のパイプラインステージにあり得、平方根演算の全体的なスループットを改善するのに役立ち得る。

【0040】

組み合わせた除算／平方根処理回路
市販のプロセッサマイクロアーキテクチャには、通常、除算演算及び平方根演算のための別個の回路論理がそれぞれ設けられているので、これらの演算は完全に別個の回路論理ユニットで実行され、平方根結果を計算するために使用されるデータパスと比較して、除算結果を計算するために使用されるデータパスの共有はない。これは、除算演算のタイミングに影響を与えるために平方根演算において余分な複雑さを必要としないため、構築がより簡単であり得る。しかしながら、サイクルごとにより多くのビット数の除算又は平方根結果を計算できるようにすることによって、パフォーマンスを向上させるために、除算及び平方根演算に使用される基数を増やすことが望ましい場合がある。例えば、現在市販のプロセッサでは利用できない基数６４の除算又は平方根演算を用いて、６ビットの結果をサイクルごとに計算することができる。しかしながら、基数の増加は、より低い基数を必要とする実施態様と比較して、より複雑な回路が必要とされることを意味する。従って、より高い基数で動作するときに別個の除算及び平方根処理回路を有することは、回路規模、従ってプロセッサの電力消費を増加させる可能性がある。

【0041】

以下に説明する例では、除算命令に応答して、基数６４の除算演算の所与の基数６４の反復を実行し、平方根命令に応答して、基数６４の平方根演算の所与の基数６４の反復を実行するための組み合わせた除算／平方根処理回路が提供される。組み合わせた除算／平方根処理回路は、基数６４の除算演算と基数６４の平方根演算の両方に使用される同じデータパス上で所与の基数６４の反復のための少なくとも１つの出力値を生成するための共有回路を有する。例えば、少なくとも１つの出力値は、更新された剰余値、選択された結果デジット、更新された剰余推定値、及び／又はオンザフライ変換された部分結果値のうちの任意の１つ以上を含むことができる。除算演算と平方根演算の両方の出力に同じデータパスが使用される共有回路を使用することにより、除算及び平方根ユニットを有する実装形態と比較して、回路の総量を削減することができる。これは、市販のプロセッサマイクロアーキテクチャによってサポートされるより低い基数演算と比較して基数６４に必要な回路規模が増大していることを考慮すると、基数６４演算に特に有用である。

【0042】

組み合わせた除算／平方根処理回路は、基数６４の除算演算と基数６４の平方根演算の両方について、処理サイクルごとに同じ数の基数６４の反復を実行することができる。これは、平方根演算と除算演算との間で回路を共有することができる程度を増加させ、組み合わせた除算／平方根処理回路の全体的な回路面積を制限するのに役立つことができる。

【0043】

基数６４の除算演算と基数６４の平方根演算の両方について、組み合わせた除算／平方根処理回路は、同じ処理サイクルで１つ以上の基数ｍの部分反復を実行することによって所与の基数６４の反復を実行することができ、ｍ≦６４である。

【0044】

いくつかの例では、ｍ＝６４であり、この場合、基数６４反復は、基数６４反復を別個の部分反復に分割することなく、次の結果デジットの６ビットを一度に生成する単一の一体演算として実行されてもよい。この手法はより高速であり得るが、基数６４の反復が単一の演算として実行されると、可能な結果デジットが－３２から＋３２に拡張され得るため、より多数の候補結果デジットに対応するために追加の回路論理を必要とし得る。

【0045】

しかしながら、いくつかの例では、ｍ＜６４であるため、組み合わせた除算／平方根処理回路は、同じ処理サイクルで複数の基数ｍの部分反復を実行することによって所与の基数６４の反復を実行することができる。例えば、以下に示す具体例のｍは８に等しいので、各基数６４の反復には２つの基数８の部分反復がある。別の選択肢は、処理サイクルごとに１つの基数６４の反復に３つの基数４の部分反復があるように、ｍ＝４の場合であり得る。部分反復基数ｍは、平方根処理回路の例について上述したように、異なる部分反復間で異なる値を取ることができるが、ｍが各部分反復において同じである場合、回路実装の観点からより効率的であり得る。

【0046】

従って、「基数ｍの部分反復」という用語は、より小さい基数の複数の部分反復への細分化がない場合には、基数６４の反復全体を指すか、又はそのような細分化が実施される場合には、より小さい基数の個々の部分反復を指すために使用される。

【0047】

組み合わせた除算／平方根処理回路の異なる部分が存在してもよく、これは上述の共有回路として機能してもよい。

【0048】

一例では、共有回路は、所与の基数ｍの部分反復において、前の剰余推定値と比較定数のセットとの比較に基づいて、除算結果又は平方根結果の次の基数ｍのデジットを選択する共有デジット選択回路を備える。ｍ＝６４であり、従って基数６４の反復を複数の部分反復に分割することがない実装形態では、デジット選択に使用される前の剰余推定値は、前の基数６４の反復から来てもよい。一方、基数６４の反復が複数の基数ｍの部分反復に分割されるようにｍ＜６４である場合、所与の基数６４の反復の第１の基数ｍの部分反復では、前の剰余推定値は、前の基数６４の反復の最後の基数ｍの部分反復から来てもよく、所与の基数６４の反復の第１の基数ｍの部分反復以外の後の基数ｍの部分反復では、共有デジット選択回路は、所与の基数６４の反復の前の基数ｍの部分反復で計算された前の剰余推定値に基づいて次の基数ｍのデジットを選択してもよい。

【0049】

従って、除算演算及び平方根演算の結果デジットをそれぞれ選択するための別個の回路と比較して、回路面積を節約するために共有デジット選択回路を設けることができる。例えば、共有デジット選択回路は、除算及び平方根演算の両方について前の剰余推定値と比較定数との間の比較を実行するために使用される同じ比較器回路のセットを備えることができる。

【0050】

除算演算と平方根演算の両方を実行するときに使用される比較器回路は同じであってもよいが、共有デジット選択回路は、基数６４の除算演算と基数６４の平方根演算とにそれぞれ異なるセットの比較定数を使用してもよい。比較定数のセットは、演算タイプに基づいて選択することができる。

【0051】

しかしながら、１つの問題は、除算演算のための比較定数が平方根演算のための比較定数と同じサイズでない可能性があることである。除算演算は、十分な精度のデジット選択を提供するために、平方根演算に使用される比較定数ほど多くのビットを比較定数に必要としない場合があることがエラー分析によって判明している。従って、除算比較定数は、平方根比較定数よりも少ないビットを有すると予想され得る。しかしながら、回路の共有を容易にするために、基数６４の除算演算の前の剰余推定値と比較される比較定数は、基数６４の平方根演算の前の剰余推定値と比較される比較定数と同じ幅にパディングするために、０に設定された少なくとも１つの最下位ビットを有することができる。少なくとも１つの０を最下位ビット位置に配置することによって、除算のための比較定数を平方根演算に使用されるものと同じビット幅に拡張することにより、これにより、デジット選択回路内の同じ比較器と剰余推定値のための同じデータパスとを、平方根演算と除算演算の両方に使用することが可能になり、回路面積を削減することが可能になる。

【0052】

共有回路の別の例は、冗長表現内の更新された剰余値を生成するために、所与の基数ｍの部分反復において、剰余調整値に基づいて前の剰余値を調整する共有剰余更新回路であってもよい。冗長表現を使用することにより、キャリー伝播加算の遅延の増加を回避するために、キャリー保留加算を使用して剰余更新を実行することができる。従って、共有回路は、キャリー保留加算を実行して更新された剰余値を生成する共有キャリー保留加算回路を備えることができる。剰余値のデータパスが除算演算と平方根演算との間で共有されるため、これにより、除算演算と平方根演算とにそれぞれ２つの別個のキャリー保留加算器を設ける必要がなくなる。

【0053】

しかしながら、剰余調整値は、平方根演算と比較して除算演算について異なっていてもよい。従って、共有剰余更新回路は、剰余調整値として、基数６４の除算演算の一部として所与の基数ｍの部分反復を実行するときに、除数値から導出される値、及び基数６４の平方根演算の一部として所与の基数ｍの部分反復を実行するときに、一連の前に選択された基数ｍのルートデジットに応じて部分ルート値から導出される値を選択する選択回路を備えることができる。従って、選択回路内の少量の追加論理により、剰余の更新を生成するときに、平方根及び除算の両方の演算に共有データパスを使用することができる。

【0054】

共有回路の別の例は、所与の基数ｍの部分反復において、基数６４の除算演算又は基数６４の平方根演算の所与の基数ｍの部分反復において、冗長表現で生成された更新された剰余値の一部の非冗長推定値を示す更新された剰余推定値を生成するための共有剰余推定回路であってもよい。例えば、共有剰余推定回路は、非冗長推定値を生成するためにキャリー伝播加算を実行するためのキャリー伝播加算回路を備えることができるため、除算演算と平方根演算との間でこれを共有することにより、２つの別個のキキャリー伝播加算器を設ける必要はない。

【0055】

ｍが６４未満である実装形態において、所与の基数６４の反復の最後の基数ｍの部分反復において、共有剰余推定回路は、更新された剰余値を生成する共有剰余更新回路と並列に更新された剰余推定値を生成し得る。これは、平方根処理回路について上述したのと同じ理由で、クリティカルタイミングパスの待ち時間を低減することによって性能を改善する。

【0056】

共有回路の別の例は、所与の基数ｍの部分反復において、オンザフライ変換を実行して非冗長表現における部分結果値を生成するためのオンザフライ変換回路で共有されてもよい。やはり、オンザフライ変換回路は、比較的複雑なハードウェア回路論理を必要とする場合があり、従って、除算及び平方根演算のためにこれを複製することを回避することによって、より多くの量の回路面積を節約することができる。

【0057】

しかしながら、１つの問題は、典型的な方式では、オンザフライ変換回路が平方根演算と比較して除算演算に対して異なって実行されることである。オンザフライ変換回路は、次の結果デジットに基づいて選択された値を部分結果値に挿入して、そのサイクル及び任意の以前のサイクルで選択された結果デジットのシーケンスに対応する部分結果を表すオンザフライ変換値を生成することができる。しかしながら、典型的なスキームでは、オンザフライ変換中に部分結果値に次のデジットが挿入される位置は、除算演算と平方根演算とで異なり、除算演算は、前に挿入された全てのビットをより上位のビット位置にシフトアップするために、左シフトで最下位ビット位置に次のデジットから導出された値を挿入するように実行される。対照的に、部分結果値が平方根演算におけるデジット選択及び剰余更新演算に影響を及ぼすという事実により（従って、各処理サイクルにおいて、部分ルート結果値の最上位ビットが部分結果の格納された表現内の一貫したビット位置に留まる場合、より便利である）、平方根演算の場合、次の結果デジットから導出された値は、次の平方根結果デジットが挿入される部分結果値内の位置を表すために使用されるマスクを用いて、部分結果内の可変ビット位置に挿入される。このマスクは、次の結果デジットが挿入される位置を部分結果値のより下位のビットに向かって徐々に移動させるために、反復又は部分反復の間で調整され得る。

【0058】

部分結果値を維持するこれらの対照的な方法を考えると、オンザフライ変換回路のための共有回路論理を有することは困難であると考えるかもしれない。

【0059】

しかしながら、本発明者は、共有オンザフライ変換回路を提供することが可能であることを認識した。所与の基数ｎの部分反復において、共有オンザフライ変換回路は、基数６４の除算演算と基数６４の平方根演算の両方について、マスク値に基づいて部分結果値に次のデジットを挿入するための位置を選択する。従って、除算演算のために、共有オンザフライ変換回路は、全てのデジットをシフトアップして最下位ビット位置に次のデジットを挿入する代わりに、基数６４の除算演算のためにマスクを使用して、除算演算のための部分結果値に次のデジットが挿入される位置を選択するように、従来とは異なる挙動をする。これにより、除算演算のためのオンザフライ変換が平方根演算のための変換をミラーリングして、共有回路論理及び共有データパスを使用することができる。これは、全体的な回路面積効率を改善するのに役立つ。

【0060】

上述の平方根処理回路の様々な回路ユニットと同様に、共有除算／平方根回路内の共有回路は、複製回路の１つ以上のインスタンスを備えることができ、複製回路の各インスタンスは、除算結果又は平方根結果の次の基数ｍデジットの選択と並行して、次の基数ｍデジットとして選択されることができる異なるデジットに対応する２つ以上の候補出力値を判定するための２つ以上の複製回路ユニットと、異なるデジットのうちのどれが次の基数ｍデジットとして選択されたかのインジケーションに応答して、複数の候補出力値のうちの１つを選択するための選択回路とを備え、複数の候補出力値は、２つ以上の複製回路ユニットによって生成された少なくとも２つ以上の候補出力値を含む。これは、平方根の例について上述したのと同じ理由で性能を向上させるのに役立つ。ここでも、基数ｍの部分反復を処理するために必要な複製回路ユニットの総数を減らすために、複製回路ユニットの少なくとも１つは、等しい大きさの正及び負のデジット間で共有される共有回路ユニットであってもよい。組み合わせた除算／平方根回路の様々な構成要素は、そのような複製回路、例えば、剰余更新回路、剰余推定回路、及びオンザフライ変換回路のうちの任意の１つ以上を使用することができる。

【0061】

前述の平方根処理回路と同様に、組み合わせた除算／平方根処理回路の場合、これは、１つの基数６４の反復の出力が除算又は平方根演算の更なる基数６４の反復で使用するために同じ反復除算／平方根処理回路に入力される反復除算／平方根処理回路として、又はそれぞれが組み合わせた除算／平方根処理回路の各々のインスタンスを有するいくつかのパイプラインステージを有するパイプライン除算／平方根処理ユニットとして実施することができ、信号パスは、パイプライン内の次のステージへの入力として１つのステージで生成された出力を提供する。

【0062】

除算／平方根パイプライン
多くのプログラムでは、浮動小数点形式で表されたオペランドに対して算術演算を実行する必要があることが一般的である。ＩＥＥＥ－７５４技術規格は、浮動小数点表現のための様々な形式、例えば、半精度（ＨＰ）、単精度（ＳＰ）及び倍精度（ＤＰ）を定義する（他の形式も利用可能である）。除算又は平方根演算のオペランド及び結果に使用される特定の浮動小数点精度は、結果に対して生成される必要があるビット数を制御することができ、これは、デジット漸化除算又は平方根演算に必要な反復回数に影響を及ぼし得る。

【0063】

従来、浮動小数点レベルの精度を有する結果を生成することができるデジット漸化除算演算又は平方根演算を実行するための回路ユニットは、反復回路ユニットとして実装されているため、ハードウェアで提供される回路論理は、デジット漸化除算演算又は平方根演算の単一の反復に対応し、１つの反復の出力は、その同じ回路ユニットが次の反復を実行する準備ができている、前の反復を実行したまさに同じ回路論理ユニットへの入力としてフィードバックされる。

【0064】

対照的に、以下に説明する例では、各々がデジット漸化除算又は平方根演算のそれぞれの反復を実行することができるいくつかの除算／平方根反復パイプラインステージを含む除算／平方根パイプラインが提供される。デジット漸化除算又は平方根演算の後続の反復を実行するために、除算／平方根パイプラインの後続のパイプラインステージへの入力として、１回の反復で１つのパイプラインステージによって生成された出力を供給するために信号パスが提供される。除算／平方根パイプラインは、浮動小数点オペランドに対してデジット漸化除算又は平方根演算を実行して浮動小数点結果を生成することができる。

【0065】

従って、浮動小数点形式に必要な精度レベルをサポートしながら、除算又は平方根演算は、反復ユニットとしてではなくパイプライン方式で実施される。これは、単一の除算又は平方根演算の処理のために、それぞれの反復が異なるパイプラインステージによって実行され、１つのパイプラインステージからの出力が次のパイプラインステージに入力され、その結果、演算が最後に達するまでパイプラインを移動し、結果を出力することができることを意味する。

【0066】

この手法は直管に反するものとして考えられることができ、一般に命令のパイプライン化は知られているが、他の形式の演算と比較して除算／平方根演算の複雑さがはるかに大きいことは、デジット漸化除算演算又は平方根演算の単一の反復を実行するための単一の回路ユニットの全体的な回路面積が比較的大きいことを意味しており、従って、浮動小数点処理に必要な結果精度を生成するのに十分なステージ数を含むパイプラインに反復ユニットを拡張すると、除算／平方根ユニットに必要な全体的な回路面積が、除算又は平方根演算に必要な最大反復回数に対応する係数だけ大きく増加すると考えるであろう。

【0067】

しかしながら、本発明者は、実際には、反復除算／平方根処理回路を有するプロセッサマイクロアーキテクチャは、利用可能な全帯域幅を増加させるために多数の並列除算／平方根ユニットを実際に提供することができ、それにより、例えば、複数の除算機能ユニット及び／又は複数の平方根機能ユニットが存在することができ、２つ以上の除算又は平方根演算を同時に処理することができることを認識した。パイプライン方式では、除算／平方根ユニット全体を複製する必要性は排除され、これは、除算／平方根パイプラインが、第１のデジット漸化除算又は平方根演算と、第２のデジット漸化除算／平方根演算の前の反復を実行する前の除算／平方根反復パイプラインステージと並行して、第１のデジット漸化除算又は平方根演算の後の反復を実行している、除算／平方根パイプラインの後の除算／平方根反復パイプラインステージで、第２のデジット漸化除算又は平方根演算を実行する、パイプライン方式で複数の演算を処理することができるためである。

【0068】

従って、パイプラインは回路論理を大幅に増加させるように見えるが、実際には、複数の並列除算／平方根ユニットを有する市販のプロセッサと比較して、追加の回路はそれほど重要ではない可能性があり、特に、除算及び平方根演算に共有データパスを使用し、前に説明したのと同じ大きさの正及び負のデジットに対して同じ複製回路ユニットを共有することによって複製回路ユニットの数を減らすなど、回路面積を削減するための本出願で説明した様々な技術を適用することができる。

【0069】

従って、パイプライン全体は、回路面積に関して競合できる可能性があり、そして性能を向上させるのに役立つ可能性があり、なぜなら、演算のパイプライン処理を用いて、パイプライン方式は、デジット漸化除算又は平方根演算を実行するために使用されるサイクルの総数に対して反復回路ユニットがブロックされることを回避することができるので、それらの間でより少ないサイクルで連続の除算又は平方根演算をスケジューリングできるため、より高いスループットが可能になる可能性があるからである。

【0070】

除算／平方根パイプラインが除算又は平方根演算の一方を実行することができるが両方を実行することはできないように、パイプラインが除算又は平方根演算の一方のみを実行することが可能である。

【0071】

しかしながら、パイプラインは、組み合わせた除算／平方根処理回路が両方の演算に使用される共有データパスを提供される場合に特に有用であり得る。従って、各除算／平方根反復パイプラインステージは、除算命令に応答してデジット漸化除算演算の所与の反復を実行し、平方根命令に応答してデジット漸化平方根演算の所与の反復を実行するための組み合わせた除算／平方根処理回路を備える。組み合わせた除算／平方根処理回路は、デジット漸化除算演算の所与の反復とデジット漸化平方根演算の所与の反復との両方に使用される同じデータパス上に少なくとも１つの出力値を生成するための共有回路を備える。組み合わせた除算／平方根処理回路を提供することは、単一の反復ユニットをパイプラインに拡張する全体的な面積コストを制限するのに役立ち（別個の除算ユニット及び平方根ユニットに前に提供された面積予算がパイプラインの実装に利用可能であるため）、回路面積に関してパイプラインが現在のマイクロアーキテクチャと競合できるのに役立つ。先に述べたように、除算／平方根の組み合わせ回路が使用される場合、除算／平方根パイプラインが、デジット漸化除算演算とデジット漸化平方根演算の両方に対して、同じ基数で、処理サイクルごとに同じ回数の反復を実行することは、これが共有回路ユニットのより大きな共有を容易にするので有用であり得る。

【0072】

所与の結果精度について、除算／平方根パイプラインは、デジット漸化平方根演算と同じ数の処理サイクルでデジット漸化除算演算を処理することができる。これは、パイプライン内の回路タイミングの制御を単純化し、除算演算と平方根演算との間の共通回路論理の共有を容易にするのに役立つ。

【0073】

除算又は平方根演算に入力されるオペランド（複数可）及び除算又は平方根演算で生成される浮動小数点結果について、様々な浮動小数点形式をサポートすることができる。例えば、オペランド（複数可）及び結果は、半精度（ＨＰ）、単精度（ＳＰ）又は倍精度（ＤＰ）浮動小数点値であり得る。除算／平方根パイプラインは、これらの形式のうちの少なくとも１つをサポートすることができ、又は他のタイプの浮動小数点形式をサポートすることもできる。しかしながら、除算／平方根パイプラインがＳＰ及びＤＰ浮動小数点値の少なくとも一方をサポートする場合に特に有用である。ＤＰ浮動小数点精度で書かれたプログラムは特に一般的である可能性があるため、場合によっては、結果がＤＰ浮動小数点表現である演算をサポートする除算／平方根パイプラインにとって有用であり得る。除算／平方根パイプラインのパイプラインステージは、浮動小数点オペランドの仮数部を処理して浮動小数点結果の仮数部を生成するために使用され得る。浮動小数点値の指数を処理するための別個の回路論理が存在してもよい。指数処理論理は、仮数部を生成するための論理よりも単純であってもよく、除算／平方根結果の指数を生成するための任意の既知の技術を使用することができる。

【0074】

いくつかの例では、除算／平方根パイプラインは、デジット漸化除算又は平方根演算のための少なくとも２つの異なる結果精度をサポートすることができる。例えば、除算／平方根パイプラインは、ＨＰ、ＳＰ、及びＤＰ浮動小数点値のうちの任意の２つ以上をサポートすることができる。

【0075】

より低い精度の浮動小数点結果精度の場合、除算／平方根パイプラインは、より高い精度の結果を生成するときよりも少ない処理サイクルで除算又は平方根演算を実行することができる（結果のために生成される必要があるビットがより少ないので、デジット漸化法の反復回数がより少なくて済む）。装置は、より高い精度の結果を生成するときにデジット漸化除算演算又は平方根演算の少なくとも１回の反復を実行するために使用される少なくとも１つの除算／平方根反復パイプラインステージを、より低い精度の結果を生成するためにデジット漸化除算演算又は平方根演算を実行するときにバイパスさせるように、除算／平方根パイプラインを制御する制御回路を有することができる。これは、より少ないビットを計算する必要があるときに演算の結果をより早く利用できるようにすることによって性能を向上させる。

【0076】

しかしながら、パイプラインのいくつかのステージをこのようにバイパスさせることを可能にすると、パイプライン方式の高精度演算の後に低精度演算が実行される場合、両方の演算が、デジット漸化除算又は平方根演算の最終反復の出力に対して後処理演算を実行することができる後処理ステージに到達したときに衝突する可能性が生じる可能性がある。例えば、後処理ステージは、除算又は平方根演算の結果の丸めを実行して丸められた浮動小数点結果を提供することができ、及び／又はＩＥＥＥ規格に従って結果を生成するために右シフトすることによる非正規（部分正規）結果処理を実行することができる（除算又は平方根演算の結果が、通常の浮動小数点数として表すことができる最小数未満である場合）。後処理演算がサイクルごとに単一の演算の最後の反復の出力のみを受信することを保証するために、制御回路は、より精度の高い結果を生成するために実行されるより精度の高いデジット漸化除算／平方根演算の後に、より精度の低い結果を生成するために実行されるより精度の低いデジット漸化除算／平方根演算が所定のサイクル数を開始することを防止することができ、所定のサイクル数は、より精度の高いデジット漸化除算／平方根演算のために少なくとも１つの後処理ステージに到達するのに要したサイクル数と、より精度の低いデジット漸化除算／平方根演算のために少なくとも１つの後処理ステージに到達するのに要したサイクル数との差に対応する。従って、前の高精度演算と後の低精度演算との精度の差によっては、衝突を回避するために、高精度演算の後に低精度演算の開始が禁止されるサイクルが一定回数存在する場合がある。所定のサイクル数は、精度形式の異なる対に対して異なり得る。

【0077】

各除算／平方根反復パイプラインステージは、前の剰余値と比較定数のセットとの間の比較に基づいて、デジット漸化除算又は平方根演算の部分結果値に対して次の結果デジットを選択するためのデジット選択回路を備えることができ、剰余更新回路は、剰余調整値及びデジット選択回路によって選択された次の結果デジットに基づいて前の剰余値を更新する。各パイプラインステージはまた、冗長表現で剰余更新回路によって生成された更新された剰余値の一部の非冗長推定値を生成するための、剰余推定回路などの他の要素を有することができる。また、各パイプラインステージは、デジット漸化法の全ての先行する反復からの前に選択された一連の結果デジットに対応する部分結果値の非冗長バージョンをオンザフライで維持するためのオンザフライ変換回路を有することができる。

【0078】

パイプラインの除算／平方根反復パイプラインステージは全て、同じデジット漸化除算又は平方根演算内で実行されるそれぞれの反復ごとに同じ比較定数のセットを使用することができる。比較定数は、演算ごとに異なる可能性があるが、同じ演算のそれぞれの反復内で、同じ比較定数のセットを使用することができる。従って、除算／平方根パイプラインは、除算／平方根パイプラインの第１の除算／平方根反復パイプラインステージの前に除算／平方根パイプラインの前処理ステージで比較定数のセットを取得するためにテーブルルックアップを実行することができ、比較定数のセットは、同じデジット漸化除算又は平方根演算内の各除算／平方根反復パイプラインステージでテーブルルックアップを繰り返すことを回避するためにステージからステージに渡される。この手法では、各ステージでテーブルルックアップを実行する必要がなく、各ステージで必要とされる回路論理の全体量を減らすことができるため、個々のパイプラインステージごとのタイミングを短くすることができる。各パイプラインステージに設けられたフリップフロップのセットが存在することができ、これらのフリップフロップは、それらの比較定数を更新する必要なく、前のパイプラインステージから受信した比較定数を単に取り込む。これにより、パイプラインが大幅に簡素化され、回路全体の面積が減少する。

【0079】

この手法は、デジット漸化除算又は平方根演算の比較定数は反復ごとに同じであるべきではなく、特に典型的な除算／平方根演算の第１の反復のように、後のステージで使用される定数と比較して異なる比較定数のセットが必要とされ得ると考えられる可能性があるため驚くべきことであり得る。しかしながら、以下に説明する例では、除算／平方根パイプラインは、除算／平方根パイプラインの第１の除算／平方根反復パイプラインステージの前にオペランド前処理を実行するための少なくとも１つの前処理ステージを備え、オペランド前処理は、デジット漸化除算又は平方根演算の結果に対する少なくとも１つの初期結果デジットの選択を含む。初期結果デジットがパイプラインの本体内で選択されないように、前処理ステージで除算又は平方根演算の結果に対して少なくとも１つの初期結果デジットを選択することにより、これはパイプラインの主反復部分の異なるステージで異なる比較定数を必要とすることを回避するために、その結果デジットに対して異なる選択基準のセットを使用できることを意味する。これは、残りの除算／平方根反復パイプラインステージが各々、同じ除算又は平方根演算内で同じ比較定数のセットを使用して、上述したように回路タイミングを改善し、回路面積を削減できることを意味する。

【0080】

しかしながら、除算／平方根パイプラインが、（上述のように除算／平方根回路の組み合わせが提供されている）デジット漸化除算演算とデジット漸化平方根演算の両方をサポートする実装形態における１つの問題は、後続の反復と比較して異なる比較定数のセットを必要とする初期デジットの数が除算演算と平方根演算とで異なり得ることである。例えば、誤差分析により、平方根演算のために十分な精度のデジット選択を得るために、基数８が所与の反復又は部分反復における数字選択に使用される場合、最初の２つの平方根数字の選択は、残りの平方根数字の選択とは異なる比較定数を使用し得ることが分かった。使用される基数が８以外の基数である場合、残りの反復に対して異なる比較定数を使用して選択される初期ルートデジットの数は、２以外の数であってもよい。それにもかかわらず、基数に関係なく、一般に、平方根演算は、特定の数の初期ルートデジットを選択するために異なる比較定数を使用し、それらの初期ルートデジットが選択された後の後続の反復又は部分反復のために同じ比較定数のセットを使用することができる。対照的に、除算演算では、（使用される基数に関係なく）全ての結果デジットの選択に同じ比較定数を使用することができる。しかしながら、性能上の理由から、除算演算に必要な後続のパイプラインステージの数を減らし、従って待ち時間を減らすために、前処理ステージ中に少なくとも１つの結果デジットを選択することが望ましい場合がある。例えば、以下に説明する基数８の例では、第１の除算デジットは前処理ステージで選択されてもよい。

【0081】

従って、前処理ステージで選択される初期のデジットの数は、平方根及び除算演算に対して異なる可能性がある。例えば、少なくとも１つの前処理ステージは、デジット漸化平方根演算の初期結果デジットの数を、デジット漸化除算演算の初期結果デジットの数よりも多く生成することができる。これは明らかに２つの演算間に何らかの非対称性を導入する可能性があるが、実際には、これは、平方根演算の場合、残りのステージの比較定数を各パイプラインステージで別個のテーブルルックアップを必要とせずに１つのステージから次のステージに簡単にラッチすることができることを意味するため、回路全体の面積を削減し、パイプラインの性能を向上させるのに大きく役立つ。

【0082】

しかしながら、少なくとも１つの前処理ステージで除算演算よりも平方根演算の方が多くの初期結果デジットが生成されるため、これは、同じ精度の結果を生成する場合でも、除算演算と比較して平方根演算の前処理ステージの後に必要な残りの反復回数が少なくなることを意味し、そのため、平方根演算の結果は、除算演算と比較して平方根演算のより早い除算／平方根反復パイプラインステージで利用可能であり得る。共有パイプラインが使用されることを可能にするために、制御回路は、少なくとも１つの除算／平方根反復パイプラインステージを引き起こすように除算／平方根パイプラインを制御することができ、これは、デジット漸化除算演算が実行されるときに少なくとも１つの反復を実行するために使用され、デジット漸化平方根演算を実行するときに、結果出力の一部のビットを完全に若しくは部分的にスキップするか、又は破棄する。場合によっては、パイプラインのパイプラインステージ全体を平方根演算のためにスキップすることができるが、他の場合では、使用される浮動小数点精度及びデジット漸化演算に使用される基数に応じて、廃棄する必要がある所与のパイプラインステージで生成されたビットの一部のみであってもよい。例えば、上述した例のいくつかのように、デジット漸化法の所与の反復がより小さい基数の複数の部分反復に分割される場合には、平方根演算のいくつかの結果精度について、ステージ全体をスキップするのではなく、所与の除算／平方根反復パイプラインステージ内の個々の部分反復のみをスキップすることが可能であり得る。また、場合によっては、平方根演算の所与の結果精度に必要な総ビット数が、反復又は部分反復ごとに生成されるビット数の正確な倍数ではない場合、結果の切り捨ては、所与の反復又は部分反復を完全に実行するが、最後に実行された反復又は部分反復で生成された結果デジットの他のビットが依然として必要な場合には、結果の一部のビットを破棄することによって得ることができる。

【0083】

これは、パイプラインの本体を考慮すると、平方根演算の結果を除算演算の結果よりも早く利用できる場合があることを意味するが、演算にかかるサイクルの総数は、平方根演算と除算演算の両方で同じであり得る。例えば、平方根演算の結果がより早く利用可能であっても、値が次のサイクルに変更されずに渡されるときに少なくとも１つのサイクルが存在して、全体の演算タイミングが除算演算のタイミングを反映することを可能にすることができる。これにより、例えば、後処理が実行されている動作に関係なく同じタイミングになる可能性があるため、後処理演算のスケジューリングをより簡単に実施することができる。

【0084】

パイプラインにおいて組み合わせた除算／平方根データパスを使用する場合の別の複雑さは、前に選択された一連の結果デジットに対応する数値の表現を提供する部分結果値の維持にある。共有データパスが使用されるべきである場合、パイプラインの所与のパイプラインステージでデジット漸化法の所与の反復を実行するときに、除算演算と平方根演算の両方について同じビット位置で次の結果デジットを部分結果値に挿入できることが望ましい場合がある。しかしながら、前処理ステージが除算及び平方根演算のために異なる数の初期結果デジットを生成する場合、これは、所与の反復において次の結果デジットが挿入される位置が反復ごとに異なり得ると考えられるため、残りのパイプラインステージで共有回路論理を使用することをより複雑にする可能性がある。

【0085】

従って、デジット漸化除算演算を実行するとき、少なくとも１つの前処理ステージは、選択されたビット位置がダミービット値に設定される部分結果値を第１の除算／平方根反復パイプラインステージに提供することができ、それらの選択されたビット位置は、少なくとも１つの前処理ステージが、デジット漸化平方根演算を実行するときに、デジット漸化除算演算のために生成されない少なくとも１つの追加の結果デジットを挿入するビット位置に対応する。これにより、除算／平方根パイプラインの所与の除算／平方根反復パイプラインステージは、デジット漸化除算演算とデジット漸化平方根演算の両方について、同じビット位置で次の結果デジットを部分結果値に挿入することができる。除算／平方根パイプラインは、デジット漸化除算演算を実行するときに最終結果値からダミービット値を除去するための後処理ステージを含むことができる。

【0086】

これは、除算演算のための部分結果に追加のダミービット値を挿入することは、部分結果値が除算演算における剰余更新又はデジット選択演算に使用されないため、除算演算の全体結果に影響を与えないことを認識する。部分結果値が剰余の更新及びデジット選択動作を制御するために使用されるのは、平方根演算のためだけである。除算演算の場合、部分結果値は、パイプラインの終わりに結果の冗長表現を非冗長形式に変換する必要がないことによって性能を改善するために単に「オンザフライ」で維持されているので、部分結果値が、後処理ステージで除去されるいくつかのダミービット値を一時的に含むことは問題ではない。除算演算に使用される部分結果値にダミービット値を含めることによって、次の結果デジットの挿入が両方の演算について同じ位置にあることを可能にし、両方の演算について回路論理の共有を改善する。

【0087】

上述したような除算／平方根パイプラインは、任意の基数を有するデジット漸化除算又は平方根演算に使用することができる。

【0088】

しかしながら、より低い基数と比較して基数６４の演算においてサイクルごとに生成される結果の余分なビット数がパイプラインに必要なパイプラインステージの総数を減らすのに役立つため、除算／平方根パイプラインを使用することは、基数６４のデジット漸化除算又は平方根演算に特に有用であり得、その結果、パイプラインは、反復実装と比較した場合に回路面積に関して競合できるようになり得る。

【0089】

一例では、各除算／平方根反復パイプラインステージは、同じ処理サイクルで複数の基数ｎの部分反復を実行することによって、基数ｒのデジット漸化除算又は平方根演算のそれぞれの基数ｒの反復を実行するように構成され、ｎ＜ｒである。より高い基数の反復をより低い基数の複数の部分反復に分割することにより、各パイプラインステージにおける回路の量を低減し、その結果、パイプラインの全体的な回路面積は、性能を改善しながら現在の反復実装と競合することができる。特定の一例では、ｒ＝６４及びｎ＝８であるが、より一般的には、基数ｒの反復は、平方根処理回路の例について前述したように、より低い基数の部分反復の異なる組み合わせに分割することができる。

【0090】

オンザフライ変換
入力値を表す複数の符号付きデジットを冗長表現で変換するデータ処理装置であって、複数の反復の各々において、複数の符号付きデジットからの符号付きデジット、及び前の反復からの前の中間データを受信する受信回路と、符号付きデジットに対応するビットと前の中間データのビットとの連結を実行して更新された中間データを生成する連結回路と、更新された中間データを次の反復の前の中間データとして提供する出力回路と、を含み、前の中間データは、非冗長表現でＳ３［ｉ］を含み、これは非冗長表現で入力値の少なくとも一部に３を乗じたものである、データ処理装置。

【0091】

これらの例では、個々のデジットは符号付きである。従って、入力値（正又は負とすることができる）は個々のデジットで構成され、各デジットは個別に符号が付けられている。このようにして、例えば、入力値の第１のデジットは正であり得、入力値の第２のデジットは負であり得る。これは、入力値を表すために一対のワードが使用される冗長表現として知られる表現形式を提供するために使用することができる。これは、数字が単一のワードを使用して表される非冗長表現とは対照的である。非冗長表現及び冗長表現は各々、特定のタイプの演算に最適であり、従って異なる表現形式間の変換が有用であり得る。変換は、入力値の各デジットが受信されるときにオンザフライで実行され、それによって、全てのデジットが受信された後に全てのデジットが一度に変換される場合に発生し得る大きな待ち時間が回避される。変換プロセスは、迅速に実行することができるビットの連結を使用して達成される。連結されるビットは、符号付きデジットから導出される。中間データのセットは、反復間で維持され、各反復で更新される。実行される連結は、新たに受信された現在のデジットに依存する。特に、中間データはＳ３［ｉ］を含み、これはＳ［ｉ］（部分結果）に３を乗じたものである。Ｓ３［ｉ］の値は、単にＳ［ｉ］に３を乗算することなく達成され、これは、エネルギー集約的であることは言うまでもなく、新たな符号付きデジットの到着に遅れないようにするには時間がかかりすぎる。ここでは「反復」という用語が使用されているが、参照されている反復は、前述の「部分反復」とすることができることに留意されたい。

【0092】

いくつかの例では、前の中間データはＳ３［ｉ－１］を含む。これらの例では、前の反復からのＳ３の値であるＳ３［ｉ－１］も中間データに維持される。この値は計算する必要はなく、前の反復から持ち越すことができる。このようなデータを提供することにより、変換処理中にいつキャリーが行われるかを調整することができる。

【0093】

いくつかの例では、前の中間データはＳ３Ｍ［ｉ］を含み、これは非冗長表現で入力値の少なくとも一部に３とマイナス１を乗じたものである。言い換えると、Ｓ３Ｍ［ｉ］＝（Ｓ［ｉ］×３）－１である。ＳＭ３［ｉ］の値は、Ｓ３［ｉ］の値から１を減じた値と等価である。

【0094】

いくつかの例では、前の中間データはＳ３Ｍ［ｉ－１］を含む。これらの例では、前の反復からのＳ３Ｍの値も中間データに維持される。この値は計算する必要はなく、前の反復から持ち越すことができる。このようなデータを提供することにより、変換処理中にいつキャリーが行われるかを調整することができる。

【0095】

いくつかの例では、連結回路によって実行される連結は、Ｓ３［ｉ＋１］及びＳ３Ｍ［ｉ＋１］を含む更新された中間データを生成するために、Ｓ３［ｉ］及びＳ３Ｍ［ｉ］の各々に対する連結を含む。従って、４つの値の各々は、各反復（又は部分反復）で実行される連結を有する。連結は、４つの値の各々について異なり得る。

【0096】

いくつかの例では、符号なしデジットに対応するビットは、Ｓ３［ｉ］及びＳ３Ｍ［ｉ］の一方に連結されてＳ３［ｉ＋１］を生成し、Ｓ３［ｉ］及びＳ３Ｍ［ｉ］の他方はＳ３Ｍ［ｉ］を生成する。Ｓ３［ｉ］及びＳ３Ｍ［ｉ］の一方は、符号なしデジットが０より大きいか０より小さいかに基づいて判定される。これらの例では、符号なしデジットが０より大きいか、０である、又は０より小さいかは、Ｓ３［ｉ］又はＳ３Ｍ［ｉ］がＳ３［ｉ＋１］を生成するために使用されるかどうかに影響し、Ｓ３［ｉ］及びＳ３Ｍ［ｉ］の他方がＳ３Ｍ［ｉ＋１］を生成するために使用される。

【0097】

いくつかの例では、データ処理装置は、符号付きデジットの大きさ及び符号付きデジットが正であるか負であるかに基づいて、連結の前にＳ３［ｉ］及びＳ３Ｍ［ｉ］のうちの少なくとも１つに対して選択的調整を実行するように構成された調整回路を備える。選択的調整は、例えば、出力値の列間のキャリーを達成するために使用することができる。

【0098】

いくつかの例では、３を乗じた符号付きデジットの大きさが、符号付きデジットが表される基数を超えるときに選択的調整が実行される。選択的調整は、３を乗じた連結されるデジットが変換に使用されている基数よりも大きい状況を処理するために使用することができ、従って、他の位置でデジットをインクリメント又はデクリメントする必要がある。例えば、ベース１０と同様に、部分結果Ｓ［ｉ］＝５１２を有し、この数（数千）６にデジットを追加することが望ましい場合、これは数Ｓ［ｉ＋１］＝６５１２を達成するために行うことができる。しかしながら、Ｓ３［ｉ］＝１５３６を維持しており、この数（数千）６にデジットを追加することが望ましい場合、３^＊６＝１８を追加する必要がある。しかしながら、基数が１０であり、１８が１０より大きいため、これは単一の位置を変更することによって行うことはできない。代わりに、千の数に８を足して９５３６を与え、次に「１」を１万の数としてキャリーして、１９５３６を与える。

【0099】

いくつかの例では、データ処理装置は、加算回路を使用せずに冗長表現で入力値を表す複数の符号付きデジットを変換するように構成される。特に、Ｓ３Ｍ［ｉ］の値は、単にＳ３［ｉ］を取り、（例えば、加算回路を使用して）１を減算することによって導出されるのではない。代わりに、ｉ回の反復にわたる連結（Ｓ３［ｉ］及びＳＭ３［ｉ］の各々について異なる数を連結する）を使用してこれらの値を計算することによって、１の減算を実行するために加算回路を使用することによって達成されるよりも低い待ち時間で、これらの数を判定することが可能である。

【0100】

いくつかの例では、データ処理装置は、複数の符号付きデジットを生成するためにデジット漸化演算を実行するためのデジット漸化回路を備え、複数の反復の各々において、複数の符号付き数字のうちの１つが受信回路に提供される。デジット漸化回路を使用して、入力値を構成する一連のデジットを提供することができ、デジットのサブセットは反復（又は部分反復）、例えば各クロックサイクルで提供される。

【0101】

いくつかの例では、デジット漸化回路は、デジット漸化演算が平方根演算である平方根演算モードで動作するように構成される。平方根を計算するためのデジット漸化アルゴリズムは、部分ルートＳの乗算を実行し、乗算は加算されるデジットに依存する。部分ルートＳは各反復で変化するため、この乗算は反復ごとに実行される。０を乗算すると常に０になる。１を乗算することは、単に恒等関数である。一方、ビットシフトを実行することにより、２の累乗（例えば２又は４）を乗算することができる。同様に、１、２、４の乗算をそれぞれネゲートすることで、－１、－２、－４の乗算を行うことができる。しかしながら、３の乗算は著しく複雑である。３による実際の乗算を実行する乗算回路は、遅すぎる数プロセッササイクルを要する可能性がある。３Ｘを判定するためのＸ及び２Ｘの追加でさえ追加回路を必要とし、これも実行するには時間がかかりすぎる可能性がある。従って、連結を介して達成されるＳ３の値を維持することにより、効率的に平方根デジット漸化を行うことができる。

【0102】

いくつかの例では、デジット漸化回路は、デジット漸化演算が除算演算である除算演算モードで動作するように構成され、前の中間データは、非冗長表現における入力値の少なくとも一部であるＳ［ｉ］と、非冗長表現における入力値から１を引いた少なくとも一部であるＳＭ［ｉ］とを含み、複数回の反復の後に、出力回路は、Ｓ［ｉ］を出力するように更に構成される、従って、入力値から出力値への変換を実行する同じデータ処理装置を、平方根演算及び除算演算の両方で使用することができる。計算はまた、非冗長表現に変換された入力値の少なくとも一部であるＳ［ｉ］、ならびにその値マイナス１であるＳＭ［ｉ］の生成を含むことができる。

【0103】

いくつかの例では、連結回路は、除算演算モードにおいて、Ｓ３［ｉ］の生成を抑制するように構成される。先に説明したように、Ｓ３の値（拡張すると、Ｓ３Ｍ）は、平方根デジット漸化を実行するときに特に関連性がある。また、デジット漸化除算を行う場合には、部分ルートの乗算を反復ごとに行う必要がないため、Ｓ３及びＳ３Ｍの生成を行わなくてもよい。従って、除算演算モードにおいてＳ３及びＳ３Ｍの発生を抑制することにより、電力消費を低減することができる。

【0104】

いくつかの例では、デジット漸化演算は、少なくとも８の基数を有する。少なくとも８の基数の場合、利用可能なデジットは、＋３と－３の両方ではないにしても少なくとも一方を含む。従って、平方根のデジット漸化アルゴリズムの間、最新のデジットに応じて部分ルートに３又は－３のいずれかを乗算する必要がある場合がある。前述したように、３による乗算は時間がかかる可能性があるため、連結を介してＳ３及びＳ３Ｍを維持することにより、回路のタイミング制約を満たしながら８の基数に対して平方根デジット漸化を効率的に実行することが可能である。

【0105】

いくつかの例では、符号付きデジットの可能な値は、＋３及び－３の少なくとも一方を含む。前述のように、符号付きデジットの使用は、２の累乗を伴う乗算よりも実行が困難な３による乗算を必要とする可能性がある。

【0106】

選択定数
いくつかの例では、入力値に対してデジット漸化演算を実行するためのデータ処理装置であって、デジット漸化演算の前の反復の剰余値を受信するように構成された受信回路と、比較回路であって、デジット漸化演算の結果の次のデジットの利用可能なデジットに関連付けられた複数の選択定数の各々と、デジット漸化演算の前の反復の剰余値の最上位ビットとの比較を実行し、比較に基づいてデジット漸化演算の結果の次のデジットを出力する、ように構成され、選択定数の各々は、利用可能なデジットのうちの１つ及び入力パラメータに関連付けられている、比較回路と、選択定数のサブセットを格納するように構成された記憶回路であって、選択定数のサブセットは、利用可能なデジットから除外されたデジットに関連付けられた、選択定数から除外された選択定数を除外する、記憶回路と、を含む、データ処理装置が提供される。

【0107】

デジット漸化プロセスの間、デジット反復演算の次のデジット、すなわち出力される次のデジットを判定するために、前の反復の剰余値の最上位ビットといくつかの選択定数との間で比較が実行される。選択定数の数は、剰余値の最上位ビットの取り得る値の数と、出力デジットが有し得る可能な値の数との積に相当する。例えば、剰余値の６つの最上位ビットが考慮され、各出力デジットに対して８つの可能な値がある場合、選択定数テーブルは８×３２＝２５６個の値を保持する。各値はまた、いくつかのビットを占有し得る。また、通常、平方根デジット漸化と除算デジット漸化の両方に対応するためには、複数のテーブルを設ける必要がある。従って、格納される値の数は多い。上記の例では、必要となる選択定数の少なくとも一部が格納されていない。すなわち、サポートされているデジット漸化演算の範囲（考慮される基数及び最上位ビット数に基づく）について、デジット選択処理に必要な選択定数の少なくとも一部は、データ処理装置内のどこにも格納されない。これにより、必要な記憶空間の量を削減することができる。これにより、より小型で低電力の回路が得られる。

【0108】

いくつかの例では、データ処理装置は、記憶回路に格納された選択定数から除外された選択定数を生成するように構成された変換回路を備える。これらの実施例では、データ処理装置に格納されていない欠落又は省略された選択定数は、代わりに、データ処理装置に格納されている他の選択定数から推測又は生成される。

【0109】

いくつかの例では、変換回路は、記憶回路に格納された選択定数のうちの１つの符号に対して選択的反転を実行することによって、除外される選択定数を生成するように構成される。これらの実施例では、省略された選択定数のいくつかは、別の選択定数を取得し、その符号を反転させることによって生成され得る。数（例えば、２の補数を取ることによって）の符号の反転は、効率的に実行することができるため、選択動作を実行するのにかかる時間に影響を与える必要はない。

【0110】

いくつかの例では、選択定数のうちの１つは、同じ入力パラメータと、除外された選択定数として利用可能なデジットのうちの異なるものと、に関連付けられている。従って、選択定数表の２列は、「マージ」され得る。すなわち、剰余値の最上位ビットの所与のセットについて、２つの異なるデジットの選択定数は同じである（符号は、選択定数が生成される数字に従って変化する）。例えば、剰余のビット０．１０００１０の選択定数は、可能な出力デジット＋４及び－３に対して「２」であり得る。しかしながら、デジット＋４の場合、選択定数は負（－２）であり得、デジット－３の場合、選択定数は負（＋２）であり得る。従って、これらの２つの列は、定数が正であるか負であるかに関する規則を用いて１つにマージすることができる。

【0111】

いくつかの例では、記憶回路は、選択定数に対して、除外される選択定数を生成するために選択的反転が行われるべきかどうかを示す例外フラグを格納するように構成される。これらの例では、反転するか否かは例外フラグの値に依存する。反転はまた、例えば選択定数が生成されているデジットに応じて、他の因数にも依存し得る。例えば、剰余のビット０．１０００１０についての前述の例を考慮すると、選択定数は、あるデジット（＋４）については正（＋２）であり、別のデジット（－３）については負（－２）であり得る。しかしながら、例外フラグはこれをオーバーライドする（両方のデジットが同じ選択定数を有するようにする）か、又はそれを反転する（デジット＋４の場合は－２、デジット＋３の場合は＋２）。

【0112】

いくつかの例では、デジット漸化演算は、平方根デジット漸化演算である。入力パラメータは部分ルートである。

【0113】

いくつかの例では、デジット漸化演算は除算デジット漸化演算であり、入力パラメータは除数である。

【0114】

いくつかの例では、除算演算モードでは、デジット漸化演算は除算デジット漸化演算であり、入力パラメータは除数であり、平方根演算モードでは、デジット漸化演算は平方根デジット漸化演算であり、入力パラメータは部分ルートである。従って、これらの例では、演算モードに応じて、除算デジット漸化と平方根デジット漸化の両方を行う装置を使用することができる。

【0115】

いくつかの例では、除算演算モードでは、デジット漸化演算は除算デジット漸化演算であり、入力パラメータは除数である。平方根演算モードでは、デジット漸化演算は平方根デジット漸化演算であり、入力パラメータは部分ルートであり、各選択定数は、除算デジット漸化演算選択定数であるか、又は、平方根のデジットのデジット漸化演算選択定数である。このようなデータ処理装置は、除算と平方根の両方のデジット漸化を実行することができるが、格納される選択定数は、これら２つの演算モード（除算又は平方根）のうちの１つに固有のものである。２つの演算モードの一方のみに固有の選択定数を格納することにより、データ処理装置の記憶要件を低減することができる。

【0116】

いくつかの例では、選択定数の各々は除算デジット漸化演算選択定数である。これは、除算デジット漸化のための選択定数の全てが格納されているということではなく、単に、格納されている定数が、平方根デジット漸化選択定数を生成するプロセスの一部として使用され得る除算デジット漸化選択定数であるということである。

【0117】

いくつかの例では、変換回路は、除算デジット漸化演算選択定数のうちの１つの符号の選択的反転を実行することによって、除算演算モードにおいて除外選択定数を生成するように構成される。すなわち、除算デジット漸化定数の１つが使用され、いくつかの基準（例えば、定数が関連付けられているデジットの値）に基づいて反転される。

【0118】

いくつかの例では、変換回路は、除算デジット漸化演算選択定数のうちの１つを参照することによって、平方根モードの演算において除外される選択定数を生成するように構成される。

【0119】

いくつかの例では、記憶回路は、平方根演算モードにおける除外される選択定数と除算デジット漸化演算選択定数のうちの１つとの間の複数のマッピングを格納するように構成される。マッピングは、平方根デジット漸化演算選択定数を作成するための基礎としてどの除算デジット漸化演算選択定数を使用するか、及び／又は対応する平方根デジット漸化演算選択定数を生成するために除算デジット漸化演算選択定数の１つをどのように修正するかを示すために使用される。

【0120】

いくつかの例では、記憶回路は、選択定数に対して、除外される選択定数を生成するために選択的反転が行われるべきかどうかを示す例外フラグを格納するように構成される。例外フラグは、除外される選択定数を生成するために反転が発生する状況を示すフラグのセットの一部（又はより大きな値の一部として格納される）とすることができる。

【0121】

いくつかの例では、デジット漸化演算は基数８である。例えば、利用可能なデジットは｛－４，－３，－２，－１，０，１，２，３，４｝に制限される場合がある。

【0122】

データ処理装置の例
図１は、特定の命令セットアーキテクチャ（ＩＳＡ）に従って定義された命令の実行をサポートするデータ処理装置２、例えばプロセッサの一例を示す。装置は、命令キャッシュ又はメモリ（図１には示されていない）からアーキテクチャに従って定義されたプログラム命令をフェッチするための命令フェッチ回路４を有する。フェッチされた命令は、実行されるべき演算を識別するために復号回路６によって復号される。所与の命令に応答して、復号回路６は、その命令によって表される処理演算を実行するように実行ユニット８を制御する制御信号を生成する。所与の処理演算のオペランドをレジスタ１０から読み出すことができ、動作の処理結果をレジスタ１０に書き戻すことができる。実行ユニット８は、加算器２０、乗算器２２、除算／平方根ユニット２４などの算術ユニットを含む各種の実行ユニットを含んでもよい。実行ユニットはまた、実行されているプログラム内のプログラムフローの非連続的な変更をトリガし得る分岐命令の結果を判定するための分岐ユニット２６、及びキャッシュ若しくはメモリからレジスタ１０にデータをロードするためのロード命令を実行するか、又はレジスタ１０からキャッシュ若しくはメモリにデータを格納するための記憶命令を実行するためのロード／記憶ユニット２８などの他のタイプの機能ユニットを含むことができる。

【0123】

以降の例では、処理装置２の除算平方根実行ユニット２４の回路論理設計を示す。復号ステージ６により除算命令が復号されると、復号ステージ６は、除算／平方根実行ユニット２４を制御して、デジット漸化方式の除算演算を行う。復号ステージ６により平方根命令が復号されると、復号ステージ６は、除算／平方根実行ユニット２４を制御して、デジット漸化法による平方根演算を実行させる。

【0124】

後続の例は、除算／平方根実行ユニット２４に焦点を当てているが、処理装置２の残りの部分は、任意の既知のプロセッサ設計技術に従って構築されてもよいことが理解されよう。図１は、データプロセッサの構成要素の簡略化された表現であり、実際には、図１に示されていない多くの他の構成要素も提供され得ることが理解されよう。

【0125】

デジット漸化除算及び平方根の理論的基礎
デジット漸化は、反復ごとに基数ｒの結果デジットｐ_{（ｉ＋１）}及び剰余ｒｅｍ［ｉ］を計算する反復アルゴリズムのクラスである。剰余は、次の基数ｒデジットを取得するために使用される。基数ｒは２のべき乗であり、各基数ｒデジットは結果のｌｏｇ_２（ｒ）ビットを表す。除算（ｘ／ｄ）及び平方根

【0126】

【数1】

の計算には、デジット漸化アルゴリズムを使用することができる。

【0127】

反復ｉの前の部分結果は、以下のように定義される。

【0128】

【数2】

式中、デジットは値ｐ_ｉ∈｛－ｒ／２，．．．，－１，０，＋１，．．．＋ｒ／２｝を取ることができる。各反復は以下の式によって記述され、

【0129】

【数3】

式中、

【0130】

【数4】

は剰余ｒｅｍ［ｉ］の数ビットの推定値であり、

【0131】

【数5】

はそれぞれ除数ｄ（除算の場合）又は部分結果Ｓ［ｉ］の数ビットの推定値である（Ｓ［ｉ］は平方根演算の特定の場合の部分結果Ｐ［ｉ］である）。選択関数ＳＥＬに必要な推定のビット数は、基数及び演算に依存する。項Ｆ［ｉ＋１］は演算ごとに異なり、

【0132】

【数6】

【0133】

高速反復の場合、剰余はキャリー保留又は符号付きデジット冗長表現に保持される。以下に説明する実装形態では、キャリー保留のような表現を使用して剰余を表すために既知の手法が使用され、ここで、剰余は正のワード及び負のワードで表される（剰余に対応する非冗長２進値は、正のワードから負のワードを減算することによって得ることができる）。

【0134】

一方、式（３）のアルゴリズム収束条件及び乗算時間ｒのために、剰余は整数部分に数ビットを有する。整数ビット数は基数、デジットセット、及び演算に依存する。

【0135】

次に、反復ごとに、現在の剰余から結果の基数ｒデジットが取得され、次の反復に対して新しい剰余が計算され、部分結果が更新される。

【0136】

次の結果デジットを選択するための選択関数は、剰余推定値

【0137】

【数7】

と、１デジット値ごとに１つの定数である

【0138】

【数8】

依存選択定数のセットとの比較を含む。よって、

【0139】

【数9】

ここで、ｃｔ（ｋ）及びｃｔ（ｋ＋１）は、それぞれデジット値ｋ及びｋ＋１の選択定数であり、ｋ∈｛－（ｒ／２）＋１，．．．，－１，０，＋１，．．．，＋ｒ／２｝である。

【0140】

【数10】

の場合、選択されるべきデジットはｋ＝－ｒ／２であると判定され得るので、デジット値ｋ＝－ｒ／２に対して選択定数を維持する必要はない。推定に必要なｒｅｍ［ｉ］及びＴ［ｉ］のビット数は基数及び演算に依存し、基数が大きいほど推定のビット数が大きくなる。

【0141】

部分的な結果は、基数ｒの符号付きデジットの冗長表現であり、最上位デジット優先（ＭＳＤＦ）で生成される。これは、反復ごとに非冗長表現に変換される。最も効率的な変換技術は、周知のオンザフライ変換である。基本的に、オンザフライ変換は、デジットｐ_ｉ＋１を部分結果Ｐ［ｉ］に加算する（式（１）参照）。しかしながら、デジットは負であり得るので、この加算は、キャリー伝搬を生成し得る。この遅いキャリー伝搬を防止するために、結果の別の形式が維持され、ＰＭ［ｉ］は以下の値を有し、
ＰＭ［ｉ］＝Ｐ［ｉ］－ｒ^－ｉ（６）
この第２の形式を使用すると、連結に関する変換アルゴリズムは次のようになる。

【0142】

【数11】

【0143】

このようにして、変換に関与する算術演算はなく、Ｐ［ｉ］及びＰＭ［ｉ］への値の連結のみであり、連結される値は選択されたデジットｐ_ｉ＋１に依存する。

【0144】

デジット漸化アルゴリズムの反復回数は、
ｉｔ＝［ｎ／ｌｏｇ_２（ｒ）］（９）
ｎは、丸めに必要なビットを含む結果のビット数である。［．．．］は、天井関数であるので、［ｎ／（ｌｏｇ_２（ｒ）］は、ｎ／（ｌｏｇ_２（ｒ）以上の最小の整数である。

【0145】

サイクル数は、反復回数及びサイクルごとに実行される反復回数に直接関連する。次に、１サイクル当たりｍ回の反復を考慮すると、サイクル数は次のようになる。
ｃｙｃｌｅｓ＝［ｉｔ／ｍ］（１０）

【0146】

式（１）～（１０）は、任意の基数に細分化することができる。次の２つのセクションでは、これらの式は、ｒ＝８、除算及び平方根について特殊化される。より高い基数ｒ＝６４は、２つの基数８の部分反復を重ねることによって得られる。部分反復基数は８である。

【0147】

基数８除算
被除数ｘ及び除数ｄの浮動小数点除算は、商ｑ＝ｘ／ｄを生成する。基数８の場合、反復ｉの前の部分商（部分結果）及び反復ｉで取得されたデジットはそれぞれＱ［ｉ］及びｑ_ｉ＋１と呼ばれ、式（１）は以下のように書き直すことができる。

【0148】

【数12】

Ｔ［ｉ］＝ｄであることを考慮して、デジット計算及び剰余更新は、

【0149】

【数13】

なお、Ｆ［ｉ＋１］＝ｄであり、剰余の初期値はｒｅｍ［０］＝ｘ／８である。

【0150】

選択関数に関しては、デジット選択に十分な精度の剰余推定を得るために、剰余の１０の最上位ビットのみが同化される必要があることが分かった。前述のように、選択定数は除数にも依存する。除数の６つの最上位ビットは、現在の除算の全ての反復に対して８つの選択定数のセットを取り出すために使用される。異なる除数値は、異なるセットを取り出すことができる。なお、定数を選択する前にオペランドが正規化されるため、除数の最上位ビットは常に１である。選択定数はルックアップテーブル（ＬＵＴ）に格納されている。

【0151】

この実装形態では、式（１２）で次の商デジットを選択するために、剰余の１０個の最上位ビット（ＭＳＢ）、３つの整数ビット及び７つの分数ビットのみが必要とされることが判定されている。

【0152】

基数８平方根
オペランドｘの浮動小数点平方根は、ルート

【0153】

【数14】

を生成する。反復ｉの前の部分ルート及び反復ｉで取得されたデジットは、それぞれＳ［ｉ］及びｓ_ｉ＋１と呼ばれ（これらは、先に示した一般式においてそれぞれＰ［ｉ］及びｐ_ｉ＋１に対応する）、基数８の場合、式（１）は次のように書き換えることができる。

【0154】

【数15】

平方根反復は、以下の式によって定義され、

【0155】

【数16】

及び
ｄ［ｉ＋１］＝Ｆ［ｉ＋１］＝２×Ｓ［ｉ］＋ｓ_ｉ＋１×８^{－（ｉ＋１）} （１７）
次いで、
ｒｅｍ［ｉ＋１］＝８×ｒｅｍ［ｉ］－ｓ_ｉ＋１×Ｆ［ｉ＋１］（１８）
（表記ｄ［ｉ＋１］は、以下のいくつかの例で使用され、これはＦ［ｉ＋１］と同じ値である）。

【0156】

剰余及び部分ルートの初期値は、それぞれｒｅｍ［０］＝ｘ－１及びＳ［０］＝１．０である。

【0157】

選択関数は、剰余推定値と、デジット値につき１つの定数である８つの部分ルート依存選択定数のセットとの比較を含む。よって、

【0158】

【数17】

ｃｔｅ（ｋ）及びｃｔｅ（ｋ＋１）は、それぞれデジット値ｋ及びｋ＋１の選択定数であり、ｋ∈｛－３，－２，－１，０，＋１，＋２，＋３，＋４｝である。なお、デジット値－４に対して選択定数を維持する必要はない。デジット選択に十分な精度の剰余推定を得るために、剰余の１１の最上位ビットのみが同化される必要があることが分かった。

【0159】

選択定数は、部分ルートに依存する。部分ルートの７つの最上位ビットは、８つの１１ビット選択定数のセットを取り出すために使用される。異なる部分ルート値は、異なるセットを選び出すことができる。部分ルートは区間［０．５，１］にある；値Ｓ［ｉ］＝１は、非ゼロデジットが生成されるまで可能であることに留意されたい。従って、部分ルートが１整数ビット（第１の非ゼロ及び負のデジットが生成された後に０である）及び６小数ビットを有し、部分ルートの最小値が０．５であることを考慮に入れると、選択定数は、Ｓ［ｉ］∈［０．５，１］についての３２個のエントリ及びＳ［ｉ］＝１についての１個のエントリを有する３３×８８ビットのルックアップテーブル（ＬＵＴ）に格納することができる（ただし、いくつかの手法で以下に説明するように、オフセットＬＵＴを使用して平方根比較定数の記憶装置のサイズを縮小することができる）。

【0160】

２つの基数８反復を有する基数６４の平方根の簡単な実装形態
基数８の反復ごとに、結果の３ビットが生成される。次いで、２つの基数８反復を重ねて、基数６４の平方根に相当するサイクル当たり６結果ビットを得ることができる。簡略化した実施態様を図２に示す。２つの同一の基数８の部分反復が基数６４の反復を得るために接続される。剰余の最上位ビットのみが商デジットを選択するために使用されることに留意されたい。１１ビットの剰余推定値

【0161】

【数18】

が１２ビット加算器３０で得られ、剰余推定値を生成する目的で剰余の最下位ビットを廃棄することができる。ルートデジットが取得されると、次の剰余が式（１８）で計算され、デジットは実際の部分ルートに連結されて次の部分ルートを取得する。

【0162】

従って、各部分反復において、
● キャリー伝播加算器３０は、冗長表現で表される、前の部分反復で生成された剰余値ｒｅｍ［ｉ］３１を受け取る。キャリー保留加算器３０は、剰余値３１の２つのワードの上位ビットのキャリー伝播加算を行うことによって、剰余値３１の最上位ビットの一部の非冗長な剰余推定値を生成する（例えば、上述した正及び負のワードを有する表現が使用される場合、負のワードは、正のワードから減算される。）。
● デジット選択比較器３２は、剰余推定値を比較定数３４のセットの各々と比較して、次のルートデジット３３を判定する。
● 剰余調整値生成回路３６は、上記の式１７に示す「ｄベクトル」又はｄ［ｉ＋１］項に対応する剰余調整値３９を生成する。従って、平方根演算の場合、剰余調整値は、前の部分反復から受信した部分ルート値３７と、デジット選択比較器３２によって選択された次のルートデジット３３とに依存する。「ｄベクトル」という用語は、単に値のビット数がいくつかの実装形態でベクトルオペランドに使用されるビット数に見合っているため、ｄ［ｉ＋１］という用語のラベルとして使用されるが、この用語は、「ｄベクトル」が複数の独立したデータ要素を含む単一命令複数データ（ＳＩＭＤ）ベクトルオペランドであることを意味するものではなく、「ｄベクトル」は複数の独立したデータ値のベクトルではなく単一のデータ値であることに留意されたい。
● 剰余更新回路３８（３：２キャリー保留加算器を含む）は、その部分反復の前の剰余３１になるように次の部分反復に供給される更新された剰余４０（まだ冗長表現にある）を生成するために、前の剰余３１の正負のワードと剰余調整値３９とを加算することによって、剰余調整値３９に基づいて、前の部分反復から受信した前の剰余３１を更新する。ある部分反復で更新された剰余４０を出力することと、次の部分反復の剰余更新回路３８内のキャリー保留加算器に前の剰余３１を入力することとの間のパスでは、３ビットの左シフトが上記の式１８の８×ｒｅｍ［ｉ］項を表すために適用される。
● オンザフライ変換回路４２は、選択されたルートデジット３３に基づいて判定された値を部分ルート値３７に挿入して、後続の部分反復において部分ルート値３７になるように出力される更新された部分ルート値４３を生成する。オンザフライ変換は、上記の式６～式８に従って行うことができる。従って、簡潔にするために図２には示されていないが、部分ルート値は、後に連結として行うことができるオンザフライ変換を単純化するために、先に説明したように、２つの別個の形式Ｐ及びＰＭとして表すことができる。

【0163】

ある部分反復からの更新された剰余４０及び更新された部分ルート値４３は、次の部分反復の前の剰余３１及び部分ルート値３７になる。同様に、ある反復における最後の部分反復からの更新された剰余４０及び更新された部分ルート値４３は、次の反復における第１の部分反復の前の剰余３１及び部分ルート値３７になる。

【0164】

しかしながら、この単純な実装形態は遅すぎる。サイクルを高速化するために、次のセクションで説明するいくつかの技術が使用されている。

【0165】

基数６４の平方根反復
図３は、単一の基数６４の平方根反復に対応する、デジット反復サイクルを実施するための平方根処理回路を示す。この例では、平方根処理回路は、１つの反復の出力が後続の反復において同じユニットへの入力としてフィードバックされる反復ユニットであり、フリップフロップ５０は、サイクルごとに渡される値をラッチする。しかしながら、図９に関して以下で更に説明するように、平方根処理回路は、パイプライン実装で使用することもできる。

【0166】

平方根処理回路は、いくつかの部分、すなわち（１）剰余更新回路３４、（２）デジット選択回路（ルートデジット計算）３２、（３）剰余推定回路３０を含む。これらの部品間の接続も示されている。以下、これらの各部について詳細に説明する。平方根処理回路はまた、後でより詳細に説明するオンザフライ変換回路４２を含む。オンザフライ部分ルート変換は、２つの部分ルート形式Ｓ［ｉ］及びＳＭ［ｉ］を保持し、ＳＭ［ｉ］は部分ルートＳ［ｉ］から１を引いたものであり、
ＳＭ［ｉ］＝Ｓ［ｉ］－８^－ｉ（２０）
これらの２つの形態は、基数６４反復のいくつかの部分で使用される。加えて、
Ｓ３［ｉ］＝３×Ｓ［ｉ］
Ｓ３Ｍ［ｉ］＝Ｓ３［ｉ］－８^－ｉ
図１３～図１６に関して以下により詳細に説明するように、オンザフライ部分ルート変換にも必要とされる。Ｓ３［ｉ］及びＳ３Ｍ［ｉ］を使用すると、±３ルートデジットの乗算の処理が簡単になる。

【0167】

図３に示すように、基数６４の反復が２つの基数８の部分反復に分割されると、それぞれの基数８の部分反復に対応する、剰余推定回路３０、デジット選択回路３２、及び剰余更新回路３４の各々の２つのインスタンスが存在するが、以下で更に説明するように、それぞれの部分反復に使用される回路間にいくつかの重複が存在し得る。各基数８の部分反復で得られた基数８のルートデジットを使用してオンザフライ変換を実行するためのオンザフライ変換回路４２の２つのインスタンスも存在することができるが、図３では簡潔にするために、これは単一のブロックとして示されている。

【0168】

剰余の更新
図４は、単一の基数８の部分反復（基数６４の反復内の第１又は第２の基数８の部分反復のいずれかであり得る）において剰余更新を実行するための剰余更新回路３０をより詳細に示す。サイクルの反復ごとの剰余更新（式１６参照）は、推測的に行われる。すなわち、ルートデジットの全ての可能な値に対する更新された剰余値ｒｅｍ［ｉ＋１］が計算され、ルートデジットｓ_ｉ＋１が既知になると、正しい剰余が選択される。従って、剰余更新回路３０は、次のルートデジットｓ_ｉ＋１の異なるオプションに対応する、更新された剰余の各々の候補出力値をそれぞれ生成するいくつかの複製回路ユニット６０を有する。ｓ_ｉ＋１＝０に対して提供される複製回路ユニット６０は存在せず、その理由は、上記の式１８は、更新された剰余ｒｅｍ［ｉ＋１］が加算なしに以前の剰余値ｒｅｍ［ｉ］から直接取得され得ることを意味するからである。前の剰余推定値の符号は、推測的剰余の数を減らすために使用される。剰余推定が正である場合、ルートデジットは｛＋４，＋３，＋２，＋１，０｝のみとすることができる。一方、剰余推定が負である場合、ルートデジットは｛－４，－３，－２，－１，０｝のみとすることができる。

【0169】

従って、各複製回路ユニット６０は、キャリー保留加算器３８と、以前の部分反復又は反復から受信された以前の剰余推定値の符号に応じて、同等の大きさの正及び負のルートデジットについて論理ブロック６４内で計算された代替値の間で選択するための選択マルチプレクサ６２とを有する。これにより、必要な複製されたユニットの数が減少する（４つの複製回路ユニット６０は、各正／負のデジットを別々に処理するために８を必要とする代わりに、デジット±１、±２、±３、±４にそれぞれ対応するのに十分である）。

【0170】

複製回路ユニット６０は、０以外の全てのルートデジット値、正値及び負値の両方についてベクトルｄ［ｉ＋１］（Ｆ［ｉ＋１］と呼ばれることもある）を構成する。

【0171】

【数19】

式２１は加算を示しているが、これは実際には、各大きさ１、２、４のそれぞれの正負デジットに必要な剰余調整値の値を形成するための論理６４への入力に示されているように、２^＊Ｓ［ｉ］又は２^＊ＳＭ［ｉ］と、ビット０００１，１１１１，００１０，１１１０，０１００，１１００のパターンとの連結として実施できることに留意されたい。

【0172】

従って、図４には、各可能なｄ［ｉ＋１］ベクトルのオンザフライ計算で連結されるデジットのビットが示されている。マスクｍａｓｋ［ｉ］は、ルートデジットが連結されなければならない位置をシグナリングする（マスクは、各連続する基数８のルートデジットが、前の基数８のルートデジットが挿入された位置よりも３ビット低い位置で連結されるように、部分反復間で３ビットだけシフトされる）。

【0173】

ｘ＝１，２，３，４である、ｆｄａ＿ｐｏｓ及びｆｄａ＿ｎｅｇとラベル付けされたブロック６４は、それぞれ｜ｓ_ｉ＋１＝ａ｜である正又は負のデジットに対応する値を有する２^＊Ｓ［ｉ］又は２^＊ＳＭ［ｉ］の連結を実行して、式２１に従ってｄベクトルｄ［ｉ＋１］を表し、また、－ａ×ｄ［ｉ＋１］（上記の式１８における項－ｓ_ｉ＋１×Ｆ［ｉ＋１］に対応する）を評価して、ｄベクトルｆｄ１、ｆｄ２、ｆｄ３、ｆｄ４を生成する。

【0174】

なお、漸化式では、ｄ［ｉ＋１］にｓ_ｉ＋１を乗算する。３Ｘ乗算を防止するために、ｓ_ｉ＋１＝±３の場合は異なって処理され、３×ｄ［ｉ＋１］は、次のように３×Ｓ［ｉ］を直接使用してブロックｆｄ３＿ｐｏｓ又はｆｄ３＿ｎｅｇによって構築される。
３×ｄ［ｉ＋１］＝２×（３×Ｓ［ｉ］）＋（３×ｓ_ｉ＋１）×８^{－（ｉ＋１）} （２２）

【0175】

この場合、｜３×ｓ_ｉ＋１｜＝９を連結し、これは表示に４ビットを必要とする。これは、３×Ｓ［ｉ］の１ビット左シフトが追加ビットの余地を残すため、問題ではない。次いで、

【0176】

【数20】

Ｓ３［ｉ］及びＳ３Ｍ［ｉ］のメンテナンスについては、図１４及び図１５に関して以下で更に説明する。ｓ_ｉ＋１＝±３の候補値について、連結するビットパターンは、ｓ_ｉ＋１＝＋３については１００１、ｓ_ｉ＋１＝－３については０１１１として示される。ここでも、マスクは、連結されたビットを挿入する位置をシグナリングする。

【0177】

剰余推定符号は、３対２のキャリー保留加算器３８の前に設定された正又は負のｄ［ｉ＋１］を選択するために使用される。このようにして、結果として、９の代わりに５つの推測的剰余のみが計算される。

【0178】

剰余推定符号の逆数は、推測的剰余キャリーワードの最下位ビットに配置されるため、剰余推定符号が１である場合、推測的剰余キャリーワードの最下位ビットは０であり、剰余推定符号が０である場合、推測的剰余キャリーワードの最下位ビットは１である。これは、式（１８）に示すように、デジットが正である（剰余推定符号が０である）場合、項ｓ_ｉ＋１×Ｆ［ｉ＋１］を減算する必要があるためである。減算は、ｓ_ｉ＋１×Ｆ［ｉ＋１］の２の補数を計算しなければならないことを意味する。２の補数は、項ｓ_ｉ＋１×Ｆ［ｉ＋１］をビット補数をとり、１を加算することによって得られる。例えば、１１１０００１０の２の補数は０００１１１０１＋１＝０００１１１１０である。従って、この項は、図４のｆｄ１＿ｐｏｓ、ｆｄ２＿ｐｏｓ、ｆｄ３＿ｐｏｓ、及びｆｄ４＿ｐｏｓモジュールにおいてビット補数がとれら、「＋１」は、定義上０であるキャリーワードの最下位ビットを１に変更することによって追加される。このようにして、２の補数の計算を終了するために追加の加算器を必要としない。デジットが負である（剰余推定符号が１である）場合、式（１８）の演算は加算であるため、２の補数を行う必要はないため、キャリーワードの最下位ビットは０に保たれる。従って、要約すると、剰余推定符号の逆数は、キャリーワードの最下位ビットに配置される。

【0179】

複製回路ユニット６０によって提供されるこれらの推測的剰余の中には、追加のハードウェアを必要としないので、デジットｓ_ｉ＋１＝０のブロックｆｄａ＿ｐｏｓ及びｆｄａ＿ｎｅｇに相当するものはなく、次のルートデジットｓ_ｉ＋１がデジット選択回路６８によって判定されると、正しい候補出力値を選択するための選択回路として機能するマルチプレクサ３２における追加の入力のみである。

【0180】

各キャリー保留加算器３８は、冗長に表された以前の剰余ｒｅｍ［ｉ］の正のワード及び負のワードである２つの項と、ｆｄ１－ｆｄ４で表される式（１８）の－ｓ_ｉ＋１×Ｆ［ｉ＋１］の項である第３の項との３つの項のキャリー保留加算を行う。各キャリー保留加算器３８の出力は、更新された剰余ｒｅｍ［ｉ＋１］として選択するための候補値であり、これは依然として冗長表現にあり、従って正及び負の２つの項を含む。ルートデジット＝０の場合のように、候補値が単に８^＊ｒｅｍ［ｉ］に等しい場合のように、キャリー保留加算器３８は存在しないので、加算は不要である。選択回路として機能する５：１マルチプレクサ６８は、ルートデジット選択回路３２によって選択されたルートデジットｓ_ｉ＋１に応じて候補出力値の間で選択して、更新された剰余ｒｅｍ［ｉ＋１］を提供する。

【0181】

剰余推定値
図５は、第１及び第２の部分反復の剰余推定回路３０を示す。剰余推定は、ルートデジット選択に用いるための剰余の１１の最上位ビットの早期の推測的計算である。これにより、剰余推定がルートデジット計算を通るクリティカルパスから除去されるため、より良いタイミングを得ることができる。

【0182】

２つの異なる状況が示されている。
１．サイクル内の第２の部分反復におけるデジット選択に使用される剰余推定値を生成するための、第１の部分反復における剰余推定値。これは、図４に示すように、第１の部分反復の剰余更新回路３４によって取得された推測的剰余に基づいて、第１の反復中に行われる。従って、５つのキャリー伝播加算器７０は、合計の最上位ビットと、第１の部分反復の剰余更新回路３４によって取得された推測的剰余（ｒｅｍ_ｄ４［ｉ＋１］からｒｅｍ_ｄ１［ｉ＋１］、及びｒｅｍ［ｉ］）のキャリーワードを加算する。ルートデジットｓ_ｉ＋１が既知である場合、サイクルの第２の部分反復におけるルートデジット選択のための適切な剰余推定値がマルチプレクサ７２によって選択される。従って、これは、複製回路ユニット７０及び選択回路７２を含む複製回路の別の例である。
２．次のサイクルの第１の部分反復でデジット選択に使用される剰余推定値を生成するための、第２の部分反復における剰余推定値（第２の反復で剰余推定回路３０によって出力される値は、図３に示すように、次のサイクルで使用する準備ができているフリップフロップ５０でフロップさせることができる）。第２の部分反復で剰余推定回路３０によって生成される剰余推定値は、８×ｒｅｍ［ｉ＋２］の最上位ビットの同化であり、これは、第１の部分反復での前の剰余値として入力されたｒｅｍ［ｉ］から以下のように導き出すことができる（式１８を使用してｒｅｍ［ｉ＋２］からｒｅｍ［ｉ＋１］の関係でｒｅｍ［ｉ＋１］を、ｒｅｍ［ｉ＋１］をｒｅｍ［ｉ］に関係付ける式１８の別のインスタンスで置き換えることに基づいて）。

【0183】

【数21】

【0184】

これは、サイクルにおける第１及び第２の反復中に次のように計算される。
ｍｓｂ_－ｆｉｒｓｔ＝６４×（８×ｒｅｍ［ｉ］－ｓ_ｉ＋１×ｄ［ｉ＋１］）（２５）
及び
ｍｓｂ_－ｒｅｍ［ｉ＋２］＝ｍｓｂ_－ｆｉｒｓｔ－８×ｓ_ｉ＋２×ｄ［ｉ＋２］（２６）
式中、式（２５）は第１の部分反復中に評価され、式（２６）は第２の部分反復中に評価される。両式は、５つの剰余候補について推測的に評価される。

【0185】

なお、式（１８）と式（２５）との差は、６４Ｘ因子であり、６ビットの左シフトである。次に、１７ビット加算器が２つの１２ビット加算器の代わりに使用される場合、両方の式を同じ論理で評価することができ、１１の最上位ビットは、サイクルの第２の部分反復でデジット選択に使用するために第１の部分反復で計算された剰余推定であり、１３の最下位ビットは、式（２６）の次のサイクルの第１の部分反復でデジット選択に使用される剰余推定値を取得するために、第２の部分反復中に剰余推定計算を完了するために使用される。

【0186】

従って、この手法では、第１の部分反復における加算器７０は、第２の部分反復におけるデジット選択に使用される剰余推定値において実際には必要とされないいくつかの追加の（最下位の）ビットを計算するが、これらの追加のビットを計算することによって、これは、上に示した項ｍｓｂ＿ｆｉｒｓｔが第１の部分反復において計算されることを可能にし、別個の加算器が第２の部分反復においてこれらのビットを計算した場合と比較して回路全体の面積を減少させる。

【0187】

第２の部分反復のための剰余推定回路内の加算器７４は、方程式２６を評価し、これはｍｓｂ＿ｆｉｒｓｔと、ｄ－ｖｅｃｔｏｒｓ０，ｆｄ１［ｉ＋２］～ｆｄ４［ｉ＋２］に依存し、これはｓ_ｉ＋２＝０，ｓ_ｉ＋２＝±１～ｓ_ｉ＋２＝±４である方程式内の項８×ｓ_ｉ＋２×ｄ［ｉ＋２］にそれぞれ対応する。これらのベクトルは、サイクルの第２の部分反復において剰余更新回路３４の一部として生成される（図４のｆｄ１～ｆｄ４参照）。この手法は、第２の部分反復のために剰余推定回路３４内のキャリー伝播加算器７４によって加算を開始する前に、第２の部分反復の剰余更新回路３０内のキャリー保留加算器３８がそれらの加算を実行するのを待つ必要がないことを意味する。代わりに、第２の部分反復における更新された剰余推定値の計算は、クリティカルタイミングパスから待ち時間を除去するために、第２の部分反復における剰余更新と並行して実行することができる。これにより、性能が向上する。

【0188】

ルートデジット選択
図６は、デジット選択回路３２（基数６４の反復内の第１又は第２の基数８の部分反復のいずれかであり得る）によって実行されるルートデジット計算を示す。ルートデジットの計算は前に概説されており、剰余推定値は、８つの比較定数の各々と比較され、数字は、式（１９）に従って選択される。ルートデジットは、１－ｈｏｔ９ビットベクトｓ［ｉ］，ｉ＝８，．．．，０として格納され、デジット＝ｉ－４の場合、ｓ［ｉ］＝１であり、例えば、ルートデジットが－１である場合、ｓ［３］＝１であり、９ビットベクトルはｓ＝｛０，０，０，０，０，１，０，０，０｝である。

【0189】

これを図６に示す。剰余推定値を各比較定数と比較するための１１ビット比較器８０のセットが存在する。各比較器のキャリー出力ｇｅ－ｏｕｔｐｕｔは、剰余推定値が比較定数よりも大きい場合に１に設定される。次に、剰余推定値のｇｅ出力及び符号が、１ｈｏｔ９ビットのベクトルの各ビットを生成するために、ｎａｎｄ及びｏｒゲートのセットに入力される。

【0190】

ルート選択に必要な選択定数は、ルックアップテーブル（ＬＵＴ）に格納されている値から導出される。各基数８の反復の選択定数は、各部分反復が異なる比較定数のセットを使用するように、その部分反復の前の部分ルート値に依存する。しかしながら、最初の２つの部分反復を除く全ての部分反復に対して同じ選択定数のセットを使用できることが導出されている。図９のパイプライン化された例に関して以下で更に説明するように、最初の数ルートデジットの選択は、前処理ステージで行うことができ、これにより、同じ選択定数を各反復に使用することができるため、別個のＬＵＴルックアップを行う必要がある主反復サイクルを回避することができる。

【0191】

統合する
デジット漸化平方根処理サイクルのブロック図を図７に示す。異なる部分（剰余更新回路３４、剰余推定回路３０、ルートデジット選択回路３２、及びオンザフライルート変換４２）は、点線で識別される。また、これらの各部の関係も図示している。

【0192】

より詳細に先に示したように、サイクル論理のいくつかの部分は、タイミング制約を満たすために推測及び複製を使用する。従って、複製はいくつかの場所で使用され、各デジット値の推測的な結果が得られる。ほとんどの場合、正のデジット値及びその負の対応するものに対して同じ論理を有するように、剰余の符号を使用することによって複製が削減される。このようにして、論理は９回ではなく５回複製され、大幅な面積削減が得られる。ルートデジットが分かれば、９又は５個の推測的な値の中から正しい値が選択される。

【0193】

いくつかの部分では、第１及び第２の部分反復における剰余更新ならびに第２の部分反復における剰余推定値と同様に、論理は４回だけ複製されるが、選択は５対１のｍｕｘで行われる。これは、ｍｕｘへの入力の１つが、複製された論理への入力の１つであるためである（従って、推測的候補値の新しい値を計算するために複製回路ユニットを必要としない）。

【0194】

従って、図７は、図１の除算／平方根ユニット２４に使用することができる平方根処理回路の一例を示す。いくつかの例では、除算／平方根ユニット２４はまた、平方根処理回路と除算処理回路との間で回路及びデータパスを共有することなく、除算命令に応答して除算演算を実行する除算処理回路の別個のインスタンスを備えることもできる。

【0195】

しかしながら、図８に関して以下で更に説明するように、いくつかの例では、平方根処理回路について上述した技術は、除算演算を実行することもできる組み合わせた除算／平方根処理回路で使用することができ、この場合、組み合わせた除算／平方根処理回路は、前述の「平方根処理回路」としても機能する。

【0196】

共有除算及び平方根反復のための基数６４の組み合わせた除算／平方根処理回路
図８は、基数６４除算／平方根反復を実行するための組み合わせた除算／平方根処理回路の一例を示し、これは図１の除算／平方根ユニット２４の一部として提供することができる。組み合わせた除算／平方根処理回路は、共有回路及び共有データパスを使用して、両方とも同じ基数６４で除算及び平方根演算の両方を実行する。除算及び平方根演算の両方について、サイクルごとに同じ数の基数６４の反復が実行される（この例では、除算演算と平方根演算の両方について、１サイクルごとにデジット漸化法の単一の基数６４の反復が実行される。）。上記の平方根の例に関して、この例では、基数６４の反復は、２つの重複する基数８の部分反復に分割される。組み合わせた除算／平方根処理回路は、現在の演算が除算演算であるか平方根演算であるかを示す信号「ｄｉｖ／ｓｑｒｔ」を入力として受信する。この信号は、処理されている命令が除算命令であるか平方根命令であるかに基づいて、命令デコーダ６によって制御することができる。

【0197】

組み合わせた除算／平方根処理回路は、平方根の例について図３～図７に関して前述した全ての構成要素を含み、従って、前述と同じ方法で平方根演算を実行する。この回路の多くは除算演算にも再利用することができるため、平方根演算のための更新された剰余ｒｅｍ［ｉ＋１］、ｒｅｍ［ｉ＋２］、剰余推定値ｒｅｍ＿ｅｓｔ［ｉ＋１］、ｒｅｍ＿ｅｓｔ［ｉ＋２］、及び部分結果値Ｓ［ｉ］、ＳＭ［ｉ］を生成するためのデータパスはまた、除算演算のための対応する値を生成するために使用される（除算演算が行われるときに部分結果値にＱ［ｉ］、ＱＭ［ｉ］という表記が使用されるが、これは平方根演算のために生成された部分ルート値Ｓ［ｉ］、ＳＭ［ｉ］と同じデータパス上にある）。

【0198】

図８は、基数６４除算／平方根反復のマイクロアーキテクチャを示す。基数６４の反復を形成する２つの基数８の部分反復は分離され、最上部の第１の部分反復及び最下部の第２の部分反復である。２つの反復は非常に類似しているが、後で対処されるいくつかの違いがある。

【0199】

上記の式（１）及び（３）で述べたように、反復ｉ後の結果は、部分結果Ｐ［ｉ］（部分商Ｑ［ｉ］又は部分ルートＳ［ｉ］であり得る）及び剰余ｒｅｍ［ｉ］によって定義される。次に、各反復はいくつかのステップを含む。

【0200】

１．デジット選択
フル精度値の代わりに低精度推定値を使用して、剰余及び除数（除算における）又は部分ルート（平方根における）から新しい結果デジットが生成される（式（２）を参照）。従って、組み合わせた除算／平方根ユニット２４は、各基数８の部分反復について、前の剰余推定値ｒｅｍ＿ｅｓｔ［ｉ］、ｒｅｍ＿ｅｓｔ［ｉ＋１］と比較定数のセットとの比較に基づいて、除算／平方根結果の次の基数８のデジットを選択する共有デジット選択回路３２を含む。剰余推定ワード長は、除算及び平方根で異なる。

【0201】

図６の平方根の例について既に上述したように、デジット選択は、剰余推定値を８つの選択定数のセットと比較することによって行われる。このセットは、除数又は部分ルートの最上位ビットに依存する。比較定数セットは、（以下で更に説明するように）除数又は部分平方根の最上位ビットでアドレス指定されるルックアップテーブル（ＬＵＴ）に格納される。基数８の除算及び平方根アルゴリズムの誤差分析は、比較定数のビット数及び剰余推定値が、２つの演算、すなわち、平方根で１１ビット及び除算で１０ビットにおいて異なることを示している。しかしながら、１１ビットの剰余推定値が除算と平方根の両方に使用される場合、両方の演算を同じ論理に配置することができる。この場合、除算用の比較定数は、最下位ビット位置に０を配置することで１１ビットに拡張される。このようにして、第１及び第２の部分反復における剰余推定論理３０及びデジット選択回路３２は、除算と平方根との間で共有される。

【0202】

従って、デジット選択のための比較は、除算演算及び平方根演算の両方のために同じセットの比較器８０を用いて実行される。デジット選択回路３２の演算は、１１ビット剰余推定値と比較するために異なる比較定数のセットを受信することを除いて、（平方根について図６に関して前述したように）除算及び平方根演算の両方について同じである。

【0203】

２．剰余の更新
そのように生成された結果デジットは、剰余及び部分結果を更新するために使用される（式（１）及び（３））。従って、共有剰余更新回路３４は、所与の基数８の部分反復において、剰余調整値に基づいて以前の剰余値ｒｅｍ［ｉ］、ｒｅｍ［ｉ＋１］を調整して、冗長表現内の更新された剰余値ｒｅｍ［ｉ＋１］、ｒｅｍ［ｉ＋２］を生成するために、各部分反復において提供される。

【0204】

図４で前述した平方根の例に関して、複製回路ユニットは、選択された結果デジットの異なる可能な値の候補剰余値を生成するために提供され（必要な複製量を減らすために、前述したのと同じ大きさの正／負のデジット間で回路を共有して）、次いで、５：１マルチプレクサ６８は、デジット選択回路３２によって選択された次の結果デジットに応じて候補値のうちの１つを選択する。キャリー保留加算器３８及びｆｄ計算ユニット６４は、図４と同じである。

【0205】

しかし、式（４）に示すように、剰余更新で用いられる剰余調整値（Ｆ［ｉ＋１］項）は、除算と平方根とで異なる。平方根の場合、Ｆ［ｉ＋１］は、ルートデジットｓ_ｉ＋１をシフトされた部分ルートに連結することによって得られる。これは、Ｆ［ｉ＋１］がｆｄ計算ユニット６４によって反復ごとに計算されることを意味する。しかしながら、除算Ｆ［ｉ＋１］の場合、反復間で変化しない除数ｄである。

【0206】

そこで、ＸＯＲゲート９０を加算することで、（式４に示すようにＦ［ｉ＋１］＝ｄとした場合に）除算演算を行ったときに生じる式（３）の－ｐ_ｉ＋１×ｄ項を生成する。１つのＸＯＲゲートは、－１による乗算を提供するために、除数ｄを前の剰余推定値ｒｅｍ＿ｅｓｔ［ｉ］、ｒｅｍ＿ｅｓｔ［ｉ＋１］の符号の逆とＸＯＲする。言い換えれば、除算の場合と同様に、剰余更新は、＋ｄ又は－ｄの倍数を使用する。正の剰余の場合、除数は、除数の負の倍数を得るために補数がとられる。±２及び±４のルートデジットに対応する候補剰余値を計算する複製されたユニットについて、１ビット又は２ビットの左シフトがＸＯＲゲートからのパスに適用されて、式（３）で必要とされるｐ_ｉ＋１による乗算を表す。平方根に関しては、３倍（高速反復を有するために、反復の前に３×ｄ乗算が事前計算される）を行う必要性を回避するために、除数３ｘｄの３倍の別個の表現が使用され、そのため、第２のＸＯＲゲートは、同様に、±３ルートデジットの候補剰余を計算している複製回路ユニットに入力を提供するために、前の剰余推定値の符号の逆で３ｘｄをＸＯＲする。

【0207】

平方根の例について図４に示す２対１マルチプレクサ６２は、除算又は平方根の適切なＦ［ｉ＋１］値を選択するために、図８の３対１マルチプレクサ６２のセットで置き換えられる。各３：１マルチプレクサ６２は、演算種別信号ｄｉｖ／ｓｑｒｔが除算演算を行うことを示している場合には、ＸＯＲゲート９０から受け取った対応する値を、その除数に基づいて選択する。演算タイプ信号ｄｉｖ／ｓｑｒｔが、平方根演算が実行されることを示す場合、図４について先に説明したように、ｆｄ１～ｆｄ４計算ブロック６４によって生成されたｄベクトル値のうちの関連するものが、前の剰余推定値の符号に基づいて選択される。従って、３：１マルチプレクサ６２は、基数６４の除算演算の一部として所与の基数８の部分反復を実行するときに除数値ｄから導出される値、又は基数６４の平方根演算の一部として所与の基数８の部分反復を実行するときに、前に選択された一連の基数８のルートデジットに依存する部分ルート値から導出される値のいずれかを剰余調整値として選択する選択回路として機能する。両方の動作の間のキャリー保留加算器３８及び５：１マルチプレクサ６８の共有は、回路面積の節約を提供する。

【0208】

３．剰余推定値
剰余推定値は、次の部分反復におけるデジット計算に使用されるように取得される。従って、所与の基数８の部分反復において、所与の基数８の部分反復において剰余更新回路３０によって冗長表現で生成された更新された剰余値ｒｅｍ［ｉ＋１］、ｒｅｍ［ｉ＋２］の一部の非冗長推定値である更新された剰余推定値ｒｅｍ＿ｅｓｔ［ｉ＋１］、ｒｅｍ＿ｅｓｔ［ｉ＋２］を生成する共有剰余推定回路３４がある。剰余推定回路３０は、平方根演算について図５で前述したものと同じである。再び、第２の基数８の部分反復において、剰余推定回路３０は、更新された剰余値ｒｅｍ［ｉ＋２］を生成する剰余更新回路３４と並列に、更新された剰余推定値ｒｅｍ＿ｅｓｔ［ｉ＋２］を判定する。

【0209】

４．オンザフライ変換
部分結果Ｐ［ｉ］（商Ｑ又はルートＳ）は、オンザフライ変換（式（７）及び（８））を使用して、符号付きデジット冗長表現から従来の２進非冗長表現に変換される。典型的なオンザフライ変換方式では、部分ルートは平方根演算のための次のデジット選択及び剰余更新で使用されるが、部分商は除算演算のためのものではないという事実は、異なる部分商更新及び部分ルート更新方法に導かれる。この差を以下に示す（デジット

【0210】

【数22】

は値が－ａであることを意味する）。

【0211】

【表1】

【0212】

除算の場合、新しいデジット（基数８の３ビット）が生成されるたびに、典型的な方式では、実際の部分商は左シフトされ、新しいデジットは３つの最下位ビットとして配置される。このようにして、実際の部分商は常に左有意部分にある。前に挿入されたビットは、より上位のビット位置に左にシフトされる。一方、平方根の場合、部分ルートの最上位ビットが常に格納されたデータ値の最上位部分にあるように、新しいルートデジットが実際の部分ルートに連結され、マスクｍａｓｋ［ｉ］、ｍａｓｋ［ｉ＋１］が、平方根演算について前述したように次のデジットを連結しなければならない位置の記録を保持するために使用される。

【0213】

除算と平方根との間でオンザフライ変換論理を共有するために、部分ルート更新に対して行われるように部分商更新を実行することが判定されている。すなわち、マスクを使用して新しい商デジットを連結して、デジットが連結されなければならない位置を示す。これは従来とは異なるが、データパス及び回路論理の共有の増加が可能であることを意味する。

【0214】

従って、第１の部分反復では、共有オンザフライ変換回路４２は、除算演算と平方根演算の両方について、マスクｍａｓｋ［ｉ］に基づいて部分結果値Ｑ［ｉ］、ＱＭ［ｉ］、Ｓ［ｉ］、ＳＭ［ｉ］に次のデジットを挿入するための位置を選択する。同様に、第２の部分反復では、共有オンザフライ変換回路４２は、除算演算と平方根演算の両方について、マスクｍａｓｋ［ｉ＋１］に基づいて、部分結果値Ｑ［ｉ＋１］、ＱＭ［ｉ＋１］、Ｓ［ｉ＋１］、ＳＭ［ｉ＋１］に次のデジットを挿入するための位置を選択する。マスクは、各結果デジットが前のものの右に３ビット挿入されるように、部分反復ごとに３ビットだけ右にシフトされる。

【0215】

図７について前述した平方根の例に関して、組み合わせた除算／平方根処理回路は、１回の反復で生成された「ｉ＋２」とラベル付けされた出力が、平方根又は除算演算の次の反復のために「ｉ」とラベル付けされた入力としてフィードバックされる反復ユニット、又は図９に関して以下で更に説明するようなパイプラインユニットのいずれかで使用することができる。

【0216】

除算／平方根パイプライン
従来の除算及び平方根の実装の長い待ち時間、ならびに除算及び平方根のための別々の論理を有するその各ステージの複雑さは、市販のプロセッサにおけるパイプライン化された浮動小数点除算及び平方根ユニットの使用を妨げる。代わりに、市販のプロセッサは、論理の一部が数サイクルにわたって使用される反復ユニットを有し、低帯域幅設計をもたらす。典型的な方式では、反復論理は、除算反復及び平方根反復の２つの分離された部分で構成され、両方の演算間で共有される論理は、存在するとしてもごくわずかである。帯域幅を増加させるために、並列に動作するいくつかの反復ｄｉｖ／ｓｑｒｔユニットが配置される。例えば、１つの設計は、倍精度、単精度及び半精度演算を行う２つの反復浮動小数点ｄｉｖ／ｓｑｒｔユニットと、単精度及び半精度演算を行う２つの他のより小さい反復ユニットとを有する。このようにして、倍精度のｄｉｖ／ｓｑｒｔ帯域幅は２倍になり、一方、単精度及び半精度の除算及び平方根の帯域幅は、ｄｉｖ／ｓｑｒｔ反復ユニットのみを有する構成に対して４倍になる。

【0217】

図９に示す手法では、代わりに単一のパイプライン式ｄｉｖ／ｓｑｒｔユニット２４が提供される。そのようなユニットの使用を妨げる欠点を克服するために、本発明者らは、両方の演算間で共有されるいくつかの他の論理に加えて、低待ち時間除算及び平方根の実装ならびに除算及び平方根の共通ステージを開発した。低待ち時間は、１サイクル当たり２回の基数８反復で基数６４のデジット漸化除算及び平方根アルゴリズムを実装することによって達成される。このようなアルゴリズムは、先に説明したようにサイクルごとに６ビットの結果を生成する。一方、手落ちのないステージ設計と共に、除算及び平方根のための同じアルゴリズムを有することにより、面積要件を低減することが可能になる。その結果、我々は、相対的に小さい面積で、倍精度、単精度、半精度のパイプライン式浮動小数点ｄｉｖ／ｓｑｒｔユニットを設計することができた。２つの倍精度／単精度／半精度ユニット及び２つの単精度／半精度ユニットを用いて上述した代替構成と比較して、帯域幅は、倍精度及び単精度については大幅に改善され、半精度についてはより緩やかに改善されるが、パイプラインユニットの回路面積は、代替構成の総面積よりも小さくすることができる。従って、パイプライン式ユニットは、低待ち時間と高帯域幅とを組み合わせて、高性能ｄｉｖ／ｓｑｒｔユニット２４を得ることを可能にする。

【0218】

図９に示すように、パイプラインユニット２４は、前処理回路１００と、デジット漸化反復を実行するためのパイプラインの本体１０２と、後処理回路１０４とを含む。前処理及び後処理論理は、ほとんどが除算と平方根との間で共有され、反復部分、デジット反復は、いくつかのパイプライン化された基数６４の共有ステージ１１０に展開される。

【0219】

前処理回路１００は、オペランドのアンパッキング、オペランドの正規化（必要な場合）、及び初期化（例えば、比較定数を検索し、１つ以上の初期結果デジットを選択する）を含む様々な前処理動作を実行する。

【0220】

パイプラインの本体１０２は、デジット漸化アルゴリズムの反復部分であるデジット反復を実行する。パイプラインの本体１０２は、いくつかの除算／平方根パイプラインステージ１００を備え、その各々は、図８に示す組み合わせた除算／平方根処理回路のインスタンスを含む。従って、本体１０２内の各パイプラインステージ１１０は、基数６４のデジット漸化浮動小数点除算演算、ｑ＝ｘ／ｄ、又は基数６４のデジット漸化平方根演算、

【0221】

【数23】

の単一反復を実行する。除算／平方根のエネルギー及びタイミング効率の良い実装を得るために、基数６４の反復は、前述のように２つのより単純な基数８の反復を重ねることによって得られる。

【0222】

後処理回路１０４は、丸め論理と、部分正規結果（除算のみ）の場合の右シフトとを含む。

【0223】

パイプラインユニットは、それぞれ倍精度、単精度、及び半精度（ＤＰ、ＳＰ、ＨＰ）の３つの異なる浮動小数点精度を処理し、異なる精度の演算に対して除算又は平方根演算の異なる待ち時間をもたらす。それにもかかわらず、所与の精度では、待ち時間は、後処理ステージのタイミングの単純なスケジューリングのために、除算及び平方根の両方について同じである。

【0224】

結果を生成するための入力オペランドｘ、ｄの仮数部の処理に焦点を当てたパイプラインのより詳細な説明を以下に説明する。入力オペランドｘ、ｄの指数も処理されることが理解されよう。これは任意の既知の技法に従って行うことができる。例えば、除算の場合、結果指数は、部分正規表現処理に必要な後処理ステージでの任意の右シフトに対して調整された、入力オペランドｘ、ｄの真の指数間の差に対応し得る。平方根演算の場合、結果指数は、入力オペランドｘの真の指数の半分に対応することができ、これも適用される任意の正規化に対して調整される。ここで、「真の指数」とは、（使用されている浮動小数点精度に従って適用される指数バイアスを除去した）浮動小数点数の指数によって表される２の有効べき乗を指す。

【0225】

前処理（Ｖ１，Ｖ２）
前処理回路１００は、符号、仮数部及び指数を抽出するための浮動小数点オペランドのアンパッキング、特別な条件（部分正規、０，．．．）の判定、オペランドの正規化（例えば、部分正規を処理する）、及びデジット選択に必要な選択定数を取得するためのルックアップテーブル（ＬＵＴ）アドレス指定を含む前処理を実行する。２つの部分正規オペランドで除算する場合、両方のオペランドは同じサイクルで正規化される。

【0226】

更に、第１の基数８のデジットが取得される。浮動小数点除算では、第１のデジットは値｛＋１、＋２｝のみを取ることができ、商の整数デジットである。浮動小数点数の平方根では、第１の基数８のデジットは値｛－４，－３，－２，－１，０｝を取ることができ、その計算は剰余及び部分ルートの初期化と容易に融合される。

【0227】

平方根の場合、第２のデジットも取得される。前述したように、ＬＵＴは、デジット選択に必要な選択定数を格納する。しかしながら、平方根の場合、各基数８の反復の選択定数は、各反復が異なる比較定数のセットを使用するように、その反復の前の部分ルート値に依存する。これは、反復論理がＬＵＴを含むべきであり、新しい反復が開始するたびにそれを読み取るべきであるため、タイミング及び領域に厳しい制限を課す。しかしながら、（誤差解析により）基数８の平方根において、最初の２回の反復を除く全ての反復に対して同じ選択定数のセットを使用できることが導出されている（最初の２回の反復後に同じ選択定数のセットが使用されても、結果に十分な精度を与える）。従って、このステージで第２のルートデジットが取得され、その後ＬＵＴが読み取られ、そのようにして取得された選択定数のセットは、残りの反復におけるデジット選択に使用されるためにフロップされる。

【0228】

除算の場合、いくつかの他の動作が実行される。単精度での反復を節約するために、商ｑはｑ∈［１，２）であるように強制される。なお、ｑ＜１はｘ＜ｄの場合のみである。この状況は、ｑ＝２×ｘ／ｄかつｑ∈［１，２）となるように１ビット左シフトされた場合に、前処理及び被除数において検出される。もちろん、仮数はｘ／ｄと同じであるが、指数はデクリメントされる必要がある。最後に、３×ｄ＝２×ｄ＋ｄが基数８の反復で使用されるように計算され、各反復で計算される３ｘ倍数が必要とされることを回避し、時間を節約する。

【0229】

前処理ステージは、オペランドのアンパッキング、分類及び正規化、ならびに第１のルートデジット（平方根）がＶ１で行われるように、Ｖ１及びＶ２の２つのサイクルに除算される。一方、Ｖ２では、以下の動作が実行される：第２のルートデジット計算（平方根）、第１の商デジット計算（除算）、商のｘ及びｄの比較及び条件付きシフト（除算）、３×ｄ計算（除算）、ならびに残りの反復（除算及び平方根）の比較定数を取得するためのＬＵＴアドレス指定。

【0230】

第１の除算デジット選択及び第１の２つの平方根デジット選択
以下は、前処理回路１００において第１の基数８除算結果デジット及び第１の２つの基数８平方根結果デジットをどのように選択するかについてのより多くの情報を提供する。

【0231】

コンテキスト
● 基数６４の除算及び平方根
● 各基数６４の反復は、２つの基数８の反復で構成される。
● 除算：
○ 反復部分の前に第１の反復が行われる
○ 理由：
■ 反復部分の前に、定数ルックアップテーブル（ＬＵＴ）は、基数８の反復ごとに商デジット選択に必要な比較定数を得るためにアドレス指定される。
● ＬＵＴは、除数の最上位ビットでアドレス指定される。
■ 全ての反復は、同じ比較定数のセットを使用する。
■ 第１の基数８の商デジットは、＋２又は＋１の値のみを取ることができる。これは、第１の反復が残りの反復よりもはるかに単純であることを意味する。
■ ＬＵＴがアドレス指定される同じサイクルには、第１の除算反復を実行する時間がある。
■ ＬＵＴサイクルの第１の反復を有することにより、最終待ち時間は、いくつかの精度で１サイクル短縮することができた。
● 平方根：
○ ＬＵＴは部分ルートの最上位ビットでアドレス指定される
○ 反復部分の前に第１及び第２の反復が行われる
○ 理由：
■ 基数８の平方根アルゴリズムは、第１の反復、第２の反復、及び残りの反復に対して異なる比較定数セットを必要とする。
■ 平方根計算の反復部分において共通の平方根反復論理を有し、反復論理においてＬＵＴアドレス指定を行わないようにするために、反復部分の前に第１及び第２の反復を実行することが判定されている。
■ 第１の反復は、オペランドのアンパッキング及び特殊オペランドの判定と共に、第１のサイクルＶ１で行われる。
■ 第２の反復は、ＬＵＴアドレス指定と同じサイクルＶ２で行われ、残りの反復の比較定数を取得する。このサイクルは、アルゴリズムの反復部分の前である。

【0232】

除算：第１の基数８デジット（Ｖ２における）
● 第１の基数８の除算デジットは、反復の残りと同じ定数のセットを使用して選択されるため、この第１のデジット選択及び後続の反復におけるデジット選択のための定数はＬＵＴから取得される。
● このサイクルでは
○ ＬＵＴがアドレス指定され、
○ 第１の反復を実行するために、デジット＝＋２の定数が使用される
○ 比較定数のセットは、残りの反復で使用されるためにフロップされる。
● 次に、第１の反復は、残りの反復と同じ定数のセットを使用するが、制限されたデジット値のため、デジット＝＋２の定数のみが必要である。

【0233】

平方根：第１の基数８デジット（Ｖ１における）
● 基数８の反復の場合、考え方は同じであるが、基数４の場合と同じ論理ではない。
○ 部分ルートが１（初期値）
○ 第１の基数８デジットは、値－４、－３、－２、－１、又は０を取ることができる
○ 部分ルートが与えられると、これら５つの数値の比較定数は既知であり、第１のデジット選択論理に配線される（４つの値のみが格納される必要がある）。従って、このためにＬＵＴアドレス指定は必要ない。
○ これら４つの値は（比較ｃｔｅ^＊６４、すなわち、以下に引用される値は、実際に格納された定数の６４倍である）：
デジットの定数＝０：－６４
デジットの定数＝－１：－１７６
デジットの定数＝－２：－２７２
デジットの定数＝－３：－３５２。

【0234】

平方根：第２の基数８デジット（Ｖ２における）
● 第１の反復後の部分ルートの値の範囲は制限され、５つの値のみが可能である（第１のデジットの各値に対して異なる部分ルート値）：
○ 最初のデジット＝０＝＞次の部分ルートは１．００＿０００
○ 最初のデジット＝－１＝＞次の部分ルートは０．１１＿０００
○ 最初のデジット＝－２＝＞次の部分ルートは０．１０＿０００
○ 最初のデジット＝－３＝＞次の部分ルートは０．０１＿０００
○ 最初のデジット＝－４＝＞次の部分ルートは０．００＿０００
● これら５つの比較定数セットを格納するために小さなＬＵＴが使用される。
● このＬＵＴのサイズは５×８８である。
○ ５列
○ ８つの１１ビット比較定数を格納するための８ビット／列
○ 上記の部分ルートでアドレス指定
○ ＬＵＴに格納されている値（ここでも、示されている定数値は、格納されている値よりも６４倍大きい比較ｃｔｅ^＊６４である）：
部分ルートは、１．００＿０００＝＞４６１、３２６、１９１、６１、－６２、－１９２、－３１７、－４４２である。

【0235】

部分ルートは０．１１＿０００＝＞４０６、２８１、１７１、６１、－６２、－１７２、－２７７、－３７７
部分ルートは０．１０＿０００＝＞３５１、２４１、１４１、４６、－４７、－１４２、－２３２、－３２２
部分ルートは０．０１＿０００＝＞２９１、２０６、１２１、４１、－４２、－１２２、－１９２、－２６７
部分ルートは、０．００＿０００＝＞２３６、１６１、９６、３１、－３２、－９７、－１５２、－２１２である
上記の定数の順序は、デジット＝＋４、デジット＝＋３、デジット＝＋２、デジット＝＋１、デジット＝０、デジット＝－１、デジット＝－２、デジット＝－３で一定である。

【0236】

これは、前処理回路の初期のデジット選択を説明する。後続のステージにおけるデジット選択は、図１７～図２０において以下で更に説明されるＬＵＴに示される比較定数を参照して、図６において先に説明した通りである。

【0237】

パイプライン除算／平方根ユニットのデジット反復
一般的基数ｒ及び結果のビット数への呼び出しｎの場合、反復回数は、

【0238】

【数24】

【0239】

基数６４（ｒ＝６４）、２つの演算（除算及び平方根）、及び３つの浮動小数点精度（ＤＳ、ＳＰ、ＨＰ）について詳しく説明する。精度ごとの小数部ビット数は、それぞれ５２、２３、及び１０である。１つの基数６４の反復がサイクルごとに実行される、前述のように、手軽な実装を得るために、基数６４の反復は、サイクルごとに２つのより単純な基数８の反復を重ねることによって得られる。しかしながら、反復回数は依然として基数６４のアルゴリズムの反復回数である。

【0240】

浮動小数点除算：最終商の整数ビットを生成する最初のデジットは、前処理で選択される。加えて、商が［１；２）に強制される場合、丸めにはガードビットのみが必要であり、丸めビットは使用されない。次に、倍精度、単一精度、及び半精度でそれぞれｎ＝５３、２４、１１である。これには、分数及びガードビットが含まれる。次いで、３つの精度の反復回数が、

【0241】

【数25】

ＤＰ及びＨＰでは、反復は、結果ビットの目標数よりも１つ多いビットを生成し、倍精度では５４、半精度では１２である。この追加のビットは、商から廃棄され、丸め前に剰余に組み込まれなければならない。

【0242】

浮動小数点平方根：入力オペランドが［０：２５；１）であるため、結果は［０：５；１）、であり、従って、結果は、最終的な浮動小数点結果［１；２）を得るために左シフトされなければならない。除算のように、１つの追加ビットのみ、ガードビットは丸める必要がある。従って、ルートアルゴリズムのビット数は、それぞれＤＰ、ＳＰ、及びＨＰのために、５４、２５、及び１２である必要がある。これには、整数ビット、分数ビット、及びガードビットが含まれる。

【0243】

一方、最初の２つの基数８のデジットは、反復前に前処理で取得される。第１のデジット選択は、スキップされ、剰余の部分ルートの初期化に統合され、第２のデジットの選択は、剰余の全ての反復に対する単一のＬＵＴを有するように、Ｖ２で行われる。これらの２回の反復は、最終ルートの６ビットを生成し、その後、反復部分のサイクル数は、

【0244】

【数26】

単一精度では、４回の反復後に生成されたビット数は３０、前処理において６ビットであり、更にデジット反復で２４ビットであり、従って、５つの余分なビットがある。これらの余分なビットを取り除くために、最後のデジット反復サイクルにおける第２の基数８の反復がスキップされ、２つの追加のビットがルートから除去され、丸めの前に剰余に組み込まれる。

【0245】

従って、パイプラインの本体１０２には、いくつかのマルチプレクサが追加され、
● ステージＤ２の２：１マルチプレクサ１２０が、ステージＤ１及びＤ２の出力の間で選択するために追加され、ＨＰ平方根演算が実行されるときにステージＤ２をスキップすることを可能にする。これは、式（２８）、（２９）に示すように、除算に必要な２サイクルと平方根に必要な１との差を反映している。
● マルチプレクサ（図９には示されていない）が、組み合わせた除算／平方根処理回路内に追加されて、ＳＰ平方根演算が実行されるときに、ステージＤ４の第１の部分反復の出力が選択されて反復結果として出力されることを可能にする（ステージＤ４の第２の部分反復をスキップする）。これにより、第２の部分反復の余分な３ビットが生成されることが回避され、第１の部分反復で生成された２つの更なるビットも上述のように破棄することができる。
● ステージＤ９で２：１マルチプレクサ１２２が、ステージＤ８及びＤ９の出力の間で選択するために追加され、ＤＰ平方根演算が実行されるときにステージＤ９をスキップすることを可能にする。これは、除算に必要な９サイクルと平方根に必要な８サイクルとの間の差を反映している。
● ステージ９における３：１マルチプレクサ１２４は、（上記の平方根のスキップの有無にかかわらず）ステージＤ２、Ｄ４、及びＤ９から受信された出力の間で選択し、マルチプレクサ１２４による選択は、除算／平方根演算を制御するために復号された命令のタイプに応じて命令デコーダ６によって制御される、現在の演算の浮動小数点精度を示す制御信号に基づいて行われる。

【0246】

従って、命令デコーダ６は、より高い精度の結果を生成するときにデジット漸化除算演算又は平方根演算の少なくとも１回の反復を実行するために使用される少なくとも１つの除算／平方根反復パイプラインステージを、より低い精度の結果を生成するためにデジット漸化除算演算又は平方根演算を実行するときにバイパスさせるように、パイプラインを制御する制御回路として動作する（マルチプレクサ１２４を制御してバイパスが適用されるとき、より早いステージの出力を選択させる）。

【0247】

また命令デコーダ６は、少なくとも１つの除算／平方根反復パイプラインステージを引き起こすように除算／平方根パイプラインを制御することができ、これは、デジット漸化除算演算が実行されるときに少なくとも１つの反復を実行するために使用され、デジット漸化平方根演算を実行するときに、結果出力の一部のビットを完全に若しくは部分的にスキップするか、又は破棄する（マルチプレクサ１２０、１２２及びステージＤ４内の図示されていない内部マルチプレクサを制御することによって、ステージＤ４の第２の部分反復がスキップされ、ビットが廃棄されることを可能にする）。

【0248】

後処理（Ｗ０）
前述のように、後処理は、部分正規の場合、結果の丸め及び右シフトである。ここでは、任意の既知の浮動小数点丸め技術を使用することができる。なお、結果は除算においてのみ部分正規とすることができ、平方根において部分正規の結果は存在しない。後処理は、除算と平方根の両方で１サイクルで行われる。

【0249】

２つの演算及び３つの精度を同じパイプラインに収容する－オンザフライ変換
上述したように、除算よりも１小さいＤＰ及びＨＰの平方根におけるデジット反復サイクル数は除算よりも１つ少ない（式（２８）及び（２９）を参照）。同じ待ち時間を維持し、両方の演算において同じサイクルで結果を収集するために、平方根に空のサイクルが追加されている。すなわち、Ｄ２及びＤ９への入力は、それ以上変換することなく出力に渡される。更に、ＳＰ平方根において、Ｄ４サイクルにおける第２の基数８の反復はスキップされる。また、待ち時間は精度ごとに異なる。ＤＰの丸められていない結果はＤ９で得られるが、丸められていないＨＰ及びＳＰの結果はそれぞれサイクルＤ２及びＤ４で得られる。次に、Ｗ０サイクルの演算は、精度に応じてＤ２、Ｄ４、又はＤ９から出てくる信号を保存する。

【0250】

効率的なデジット反復サイクルを実現するために、２つの演算は、
部分商又はルートを更新するためのオンザフライ変換回路４２を含むほとんどの論理を共有する。しかしながら、第１のデジットサイクルＤ１の前に、前処理は、平方根の場合は６つの分数ビット、除算の場合は整数デジットを既に生成している。共有商／ルート更新論理は、除算及び平方根のための同じ新しい分数デジット連結位置を有する必要がある。

【0251】

従って、除算の場合、前処理ステージＶ２で商Ｑ［ｉ］、ＱＭ［ｉ］の小数部に６個のゼロが加算される。その後、後続の反復ごとに生成される新しい分数ビットｑｉは、これらのゼロの後に連結される（マスクによって示されるように、対応するビットが平方根演算のために連結される同じ位置で）。
１：００００００ｑ１ｑ２ｑ３ｑ４ｑ５ｑ６．．．
後処理ステージＷ０では、丸めの前にこれらのゼロが除去されて、丸められていない商を有する。
１：ｑ１ｑ２ｑ３ｑ４ｑ５ｑ６．．．
これらのゼロの加算は、最終商精度に影響を与えない。これは、式（４）に示すように、部分ルートは、デジット漸化除算方程式で使用されないためである。

【0252】

従って、除算演算の場合、前処理ステージＶ２は、選択されたビット位置がダミービット値（この例では０）に設定される部分結果値を第１の除算／平方根反復パイプラインステージＤ１に提供し、それらの選択されたビット位置は、少なくとも１つの前処理ステージＶ１、Ｖ２が、デジット漸化平方根演算を実行するときに、デジット漸化除算演算のために生成されない少なくとも１つの追加の結果デジットを挿入するビット位置に対応する。後処理ステージＷ０では、これらのダミービット値が除去される。

【0253】

タイミング制御、待ち時間及びスループット
パイプラインユニットの微細構造を図９に示す。ユニットは１２ステージで構成されている。これは、２つの前処理サイクル（Ｖ１，Ｖ２）、９つのデジット反復サイクル（Ｄ１－Ｄ９）、及び１つの後処理サイクル（Ｗ０）という、より遅い演算、倍精度除算の待ち時間である。所与の浮動小数点精度の場合、除算及び平方根演算は同じ待ち時間を有する。
● 半精度、５サイクル：Ｖ１－Ｖ２－Ｄ１－Ｄ２－Ｗ０
● 単精度、７サイクル：Ｖ１－Ｖ２－Ｄ１－Ｄ２－Ｄ３－Ｄ４－Ｗ０
● 倍精度、１２サイクル：Ｖ１－Ｖ２－Ｄ１－Ｄ２－Ｄ３－Ｄ４－Ｄ５－Ｄ６－Ｄ７－Ｄ８－Ｄ９－Ｗ０
（Ｄ２又はＤ９において平方根のためにサイクルがスキップされる場合であっても、待ち時間は依然として、ステージＤ２又はＤ９への入力におけるフリップフロップの後に来る３：１マルチプレクサ１２４への入力と同じであることに留意されたい）。両方の動作について同じ待ち時間を有することにより、タイミング制御を単純化することができる。

【0254】

加えて、待ち時間は、部分正規オペランド又は結果が存在するか否かにかかわらず同じであり、正規化（必要な場合）はＶ１で実行され、部分正規商右シフトは丸め後にＷ０で行われる。

【0255】

タイミング制御回路１３０は、除算及び平方根演算を開始することができるタイミングを制御するために設けられる。タイミング制御回路１３０は図９では別個のユニットとして示されているが、他の例では、デコーダ６はタイミング制御回路１３０として機能することができる。

【0256】

除算／平方根ユニット２４は、完全にパイプライン式である。これは、全ての動作が同じ精度である場合に、スループット１のサイクルごとに新しい動作を開始できることを意味し、これは最も一般的なケースである。従って、制御回路１３０は、除算／平方根パイプラインを制御して、第１のデジット漸化除算又は平方根演算と、第２のデジット漸化除算／平方根演算の前の反復を実行する前の除算／平方根反復パイプラインステージと並行して、第１のデジット漸化除算又は平方根演算の後の反復を実行している、除算／平方根パイプラインの後の除算／平方根反復パイプラインステージで、第２のデジット漸化除算又は平方根演算を実行させることができる。

【0257】

しかしながら、混合精度除算又は平方根がある場合、制約が現れ、２つの演算を同時に同じステージにすることはできない。図１０に示すように、待ち時間は精度に依存するため、ＳＰ動作及びＨＰ動作にはいくつかの禁止された開始サイクルがある。例えば、ＳＰｄｉｖ／ｓｑｒｔは、ＤＰの５サイクル後に開始することができなが、これは、その場合、両方の動作がＷ０で衝突するためである。

【0258】

従って、タイミング制御回路１３０は、図１０に示すように、回路を制御して、より精度の高い結果を生成するために実行されるより精度の高いデジット漸化除算／平方根演算の後に、より精度の低い結果を生成するために実行されるより精度の低いデジット漸化除算／平方根演算が所定のサイクル数を開始することを防止することができ、所定のサイクル数は、より精度の高いデジット漸化除算／平方根演算のために少なくとも１つの後処理ステージに到達するのに要したサイクル数と、より精度の低いデジット漸化除算／平方根演算のために少なくとも１つの後処理ステージに到達するのに要したサイクル数との差に対応させてもよい。

【0259】

所定のサイクル数は、使用する精度によって異なる。図１０に示すように、所定の数は、以下の通りである。
－低精度をＳＰ、高精度をＤＰとしたとき５サイクル、
－低精度をＨＰ、高精度をＤＰとしたとき７サイクル、
－低精度をＨＰ、高精度をＳＰとしたとき２サイクル。

【0260】

この場合、後処理ステージＷ０で衝突が発生しない場合と同様に、動作間のサイクル数が所定数よりも多い場合、高精度動作の後に低精度動作を開始しても問題はない。

【0261】

この手法では、共有パイプライン除算／平方根演算を使用することによって大幅な帯域幅改善を提供することができ、共通論理の共有による面積削減により、性能と回路面積との間のより良いバランスが提供される。

【0262】

それにもかかわらず、平方根及び除算ユニットの一方又は両方に対して、別々の平方根及び除算ユニットを有する実装にパイプライン方式を使用することもできる。

【0263】

また、図９は、基数６４のデジット漸化除算及び平方根にパイプライン方式を適用しているが、基数の他の値にもパイプライン方式を使用することができる。

【0264】

また、図９は、ＨＰ、ＤＰ、ＳＰの全てをサポートするパイプライン方式を示しているが、他の例は、これらの精度のサブセットのみをサポートすることができ、又は他の浮動小数点精度をサポートすることができるため、異なる数のパイプラインステージを使用することができる。

【0265】

オンザフライ変換
前述したように、デジット漸化法の一部は、冗長表現から通常のバイナリ表現（非冗長表現）への変換を含み得る。デジット漸化法からの出力デジットは一度に１つずつ生成されるため、全てのデジットを一度に変換しなければならない場合に発生し得る待ち時間を回避するために、変換を一度に１つのデジットずつ実行することができれば有用である。この変換は、オンザフライ変換回路４２を使用して実行される。

【0266】

簡単に言えば、平方根のためのオンザフライ変換は、２つの部分ルートワード、Ｓ［ｉ］及びＳＭ［ｉ］（Ｓ［０］＝１．０かつＳＭ［０］＝０．０）を保持し、ＳＭ［ｉ］＝Ｓ［ｉ］－ｒ^－ｉであり、また以下に示す更新規則を用いて、

【0267】

【数27】

【0268】

式中、（Ｘ、Ｙ）は、ＸとＹの連結、すなわちＸＹを意味する。なお、実際には、ＳＭ［ｉ］（２進数）は、最下位ビット位置から１を減算したＳ［ｉ］（２進数）と等価である。従って、Ｓ［０］＝１１１の場合、ＳＭ［０］＝１１０である。

【0269】

図１１は、基数８の演算において各デジットについてＳ［ｉ］及びＳＭ［ｉ］がどのように更新されるかを要約している。図｛Ｓｘ［ｉ］、ａａａ｝は、Ｓ［ｉ］又はＳＭ［ｉ］の実際の値へのａａａビットの連結を意味する。なお、算術演算は行われず、連結のみが行われる。

【0270】

図１２は、基数８のルートのオンザフライ変換の例を示す。一連のデジットは、－１、１、－２、－４、２、０、－１である。なお、ＳＭ［ｉ］の最終値はＳ［ｉ］－１である。

【0271】

先に示したように、平方根演算の場合、次の剰余ｒｅｍ［ｉ＋１］の計算は、ｓ_ｉ＋１×Ｓ［ｉ］乗算を伴う（式（３）参照）。基数８の実施態様では、ｓ_ｉ＋１＝｛＋４，＋３，＋２，＋１，０，－１，－２，－３，－４｝であり、従って、Ｓ［ｉ］の２Ｘ倍数、３Ｘ倍数及び４Ｘ倍数が必要である。２Ｘ項及び４Ｘ項は、Ｓ［ｉ］を１又は２ビットだけ左シフトすることによって容易に取得されるが、３×Ｓ［ｉ］の計算ははるかに複雑であり、これは基数８の平方根アルゴリズムの実用的な利用の制限要因であった。

【0272】

基数がより小さい他の実施態様では、デジットセット、基数２の｛＋１，０，－１｝及び基数４の｛＋２，＋１，０，－１，－２｝のため、項３Ｘは必要ないことに留意されたい。

【0273】

本発明は、Ｓ３［ｉ］及びＳ３Ｍ［ｉ］を表す追加の部分ルートワードを保持し、それによって、３を乗算することによって、又はＳを２で乗算してＳを加算することによって、計算が３×Ｓ［ｉ］として行われることを防止する。Ｓ３及びＳ３Ｍの各々の場合、実行される連結は以下の通りである。
３×ｓ_ｉ＋１∈｛＋１２，＋９，＋６，＋３，０，－３，－６，－９，－１２｝

【0274】

図１３は、連結がどのように行われるかを示す。なお、３×ｓ_ｉ＋１＝｛＋１２，＋９，－９，－１２｝を表すためには、４ビットが必要である。これは、これらのデジット値の連結が前のデジットに伝搬されるキャリーを生成することを意味する。従って、４ビットの３×ｓ_ｉ＋１は、３ビットのデジット（３×ｓ［ｉ＋１］）ｍｏｄ８に分解され、｛＋６，＋４，＋３，＋１，０，－１，－３，－４，－６｝の値及び正又は負のキャリーｃ_ｉ＋１＝｛＋１，－１｝を取る。

【0275】

図１３から、ｓ_ｉ＋１＝｛＋４，＋３，＋２，＋１，０，－１，－２，－３，－４｝の場合、３×Ｓ［ｉ］を得るために連結される３ビットデジットは、それぞれ（３×ｓ｛ｉ＋１］）ｍｏｄ８＝｛＋４，＋１，＋６，＋３，０，－３，－６，－１，－４｝である。従って、Ｓ３［ｉ］及びＳ３Ｍ［ｉ］を得るための連結プロセスは以下の通りである。

【0276】

１．｜ｓ_ｉ＋１｜＝｛４，３｝の場合、実際の部分ルートをインクリメント／デクリメントする。部分ルートの実際の３Ｘ倍数Ｓ３［ｉ］及びそのデクリメントされた対応部分Ｓ３Ｍ［ｉ］は、キャリーに応じて前のデジットｓ_ｉをｓ_ｉ＋１又はｓ_ｉ－１に変更することによって再構築され、
Ｓ３＿ｉｎｃ［ｉ］＝Ｓ３［ｉ］＋８^－ｉ
Ｓ３Ｍ＿ｄｅｃ［ｉ］＝Ｓ３Ｍ［ｉ］－８^－ｉ
連結される各デジットを表現するために３ビットが使用されるが、これらの３ビットによって表現され得る値の全範囲は使用されず、＋６の最大値のみがデジットとして追加されるため、キャリーは前のデジットｓ_ｉを超えて伝搬される必要はないことに留意されたい。

【0277】

２．３ビットデジットの連結。３ビットのデジット連結は、

【0278】

【数28】

上記の式では、インクリメントされた実際のルートＳ３＿ｉｎｃ［ｉ］がデジット＋３及び＋４に使用され、デクリメントされた実際のルートマイナス１、Ｓ３Ｍ＿ｄｅｃ［ｉ］がデジット－３及び－４に使用される。残りのデジット値には、実際のルートＳ３［ｉ］又は実際のルートマイナス１、Ｓ３Ｍ［ｉ］が使用される。ここで、モジュロ演算ｘｍｏｄｙは、ｘをｙで除算したときの剰余を与える。例えば、５ｍｏｄ８＝５、１１ｍｏｄ８＝３、－５ｍｏｄ８＝－５、－１２ｍｏｄ８＝－４である。

【0279】

図１４は、３Ｘルート倍数のオンザフライ変換の一例を示す。一連のデジットは、－１、＋１、－２、－４、＋２、０、－１である。表の最終Ｓ３［ｉ］結果は、図１２の最終Ｓ［ｉ］結果の３Ｘ倍である。部分反復ｉ＝０では、Ｓ３の初期値は１１（３にＳ［０］＝１の初期値を乗算したもの）であり、Ｓ３Ｍの初期値は１０（３－１＝２）である。部分反復ｉ＝１では、デジット－１が追加される。３に－１を乗じたものは－３であり、これはＳ３のデジット－３とＳ３Ｍのデジット－２との連結に等しい。式（３２）及び（３３）を参照すると、Ｓ３［ｉ＋１］の値はＳ３Ｍ［ｉ］と１０１（すなわち５）との連結であり、Ｓ３Ｍ［ｉ＋１］の値はＳ３Ｍ［ｉ］と１００（すなわち４）との連結であることが分かる。

【0280】

部分反復ｉ＝２では、１のデジットが追加される。３に１を乗じたものが３である。再び、式（３２）及び（３３）を参照すると、ｓ_ｉ＋１＝１の場合のＳ３［ｉ＋１］は、Ｓ３［ｉ］と０１１（すなわち３）との連結によって生成され、Ｓ３Ｍ［ｉ＋１］は、Ｓ３［ｉ］と０１０（すなわち２）との連結によって生成され、それによってＳ３［２］＝１０．１０１０１１及びＳ３Ｍ［２］＝１０．１０１０１０が得られることが分かる。部分反復ｉ＝３では、－２のデジットが追加される。３を－２で乗算すると－６である。Ｓ３の場合、連結はＳ３Ｍの前の値に対して行われる。基数８で演算しているため、Ｓ３Ｍ［ｉ］を使用してＳ３［ｉ＋１］を作成することは、Ｓ３［ｉ＋１］の値が本来よりも８低いことを意味する。６を減算しようとしているので、これはここで＋２を加えなければならないことを意味する（８－６＝＋２）。従って、図１４に示すように、連結はＳ３Ｍ及び２（０１０）である。同様に、Ｓ３Ｍの場合、連結はＳ３Ｍの前の値に対して行われる。従って、図１４に示すように、連結はＳ３及び１（２進数で００１）である。部分反復ｉ＝４では、連結されるデジットは－４である。３を－４で乗算すると－１２である。これは、－１２を３デジットだけで表現することができないため、より複雑な状況であり、従って負のキャリーが行われる。負のキャリーを行った後、実行されるべき残りの減算は－４である（－１２＝－８－４）。従って、Ｓ３Ｍ＿ｄｅｃの値を使用し、これは本質的に１６を減算する（８はデクリメントされた値であり、８はＳ３Ｍから導出される）。実行されるべき結果としての加算は４（１６－１２＝４）であるため、実行される連結はＳ３Ｍ＿ｄｅｃ及び１００の値（バイナリで４である）に対して行われ、０１００００１００が得られる。Ｓ３Ｍの値の場合、同じ値が使用されるが、連結は１小さい値（すなわち、４－１＝３である。）に対するものであるため、連結はＳ３Ｍ＿ｄｅｃと０１１との間で実行される（２進数で３である）。反復５、６、及び７で使用されるデジット２、０、及び－１のプロセスは、上記の説明から明らかであるはずである。

【0281】

図１５は、オンザフライ変換回路４２の一部を形成する３Ｘ部分ルート倍数オンザフライ変換の実施態様を示す。部分ルート値Ｓ［ｉ］及びＳＭ［ｉ］を生成するための回路は示されていないが、これは、例えば米国特許出願公開第２０２０－０２９３２８１号明細書に示されている回路の簡単な調整（図に示されている表を使用する）によって達成することができるためである。各部分反復（第１のサブ反復を除く）において、前の部分反復からのＳ３［ｉ］、Ｓ３Ｍ［ｉ］、ＡＵＸ［ｉ］、及びＡＵＸＭ［ｉ］の値が受信機回路２０２によって受信される。実装には３つの部分がある。
● 調整回路２０４を使用した実際の３Ｘ部分ルートＳ３［ｉ］、Ｓ３Ｍ［ｉ］のインクリメント／デクリメント、
● 次の３Ｘ部分ルートＳ３［ｉ＋１］、Ｓ３Ｍ［ｉ＋１］の計算、及び
● 新しい補助３Ｘ部分ルートＡＵＸ［ｉ＋１］、ＡＵＸＭ［ｉ＋１］の計算。

【0282】

補助３Ｘ部分ルートは、以下のように定義される。

【0283】

【数29】

３Ｘ部分ルートのインクリメント／デクリメントがどのように実行されるかに起因して提供される。なお、前デジットへのキャリーがない場合、ＡＵＸ［ｉ＋１］＝Ｓ３［ｉ］、ＡＵＸＭ［ｉ＋１］＝Ｓ３Ｍ［ｉ］となる。しかしながら、いくつかの特定の一連のデジットに対して、デクリメント／インクリメントされたＳ３［ｉ］及びＳＭ３［ｉ］が提供される。特に、値ＡＵＸ及びＡＵＸＭは、直前のビットのセットを超える拡張されたキャリーを可能にする。例えば、以下を考える。
Ｓ３［ｉ］＝００１１１１１００
Ｓ３Ｍ［ｉ］＝００１１１１０１１
ここで、ｓ_ｉ＋１＝－３、ｓ_ｉ＋２＝＋３である。

【0284】

すなわち、実際の３Ｘ部分ルートへのキャリー伝搬がある。式（３２）及び（３３）によれば、３×ｓ_ｉ＋１の連結は、以下を生成する。
Ｓ３［ｉ＋１］＝００１１１１０１０１１１
Ｓ３Ｍ［ｉ＋１］＝００１１１１０１０１１０

【0285】

次に、３×ｓ_ｉ＋２の連結は、以下を生成する。

【0286】

【数30】

【0287】

すなわち、デジット＋３によってキャリーが行われるため、先行するデジットのセットがインクリメントされる。しかしながら、これらのデジットが既に飽和している場合（この場合、Ｓ３の対象デジットは１１１である。）、次のビットセットへの更なるキャリーが行われる。すなわち、Ｓ３［ｉ＋２］は、インクリメントされたＳ３［ｉ＋１］に（３×ｓ_ｉ＋２）ｍｏｄ８を連結したものである。ただし、Ｓ３［ｉ＋１］をインクリメントさせると、最後の連結されたデジット値１１１→０００が増加するだけでなく、Ｓ３Ｍ［ｉ］＿ｄｅｃも００１１１１０１０から００１１１１０１１にインクリメントするか、又は同等にＳ３Ｍ［ｉ］は依然としてＳ３［ｉ＋２］を生成する必要があることに留意されたい。なお、この例では、これ以上キャリーバックする必要はない。これは、１１１がＳ［ｉ］（デジットｓ_ｉ＋１＝－３）に連結されてＳ［ｉ＋１］が得られ、次のデジットｓ_ｉ＋２の変換によって正のキャリー（ｓ_ｉ＋２＝＋４，＋３）が生じるためである。このキャリーは１デジットを伝播する。理論的には、「１１１」のいくつかのブロックが一列に存在し、部分ルートをインクリメントしなければならない場合、キャリーは２デジットを超えて伝播する。例えば、Ｓ３［ｉ］＝０００１０１１１１１１１１であり、次のデジットが＋３であった場合。そのような場合、キャリーは３つ前のデジットに伝播する。しかしながら、そのようなパターンは、ここで説明されている連結プロセスによって生成することができない。

【0288】

従って、前のデジットまで伝搬したキャリーがｃａｒｒｙ＝＋１の場合にはＳ３［ｉ＋２］、Ｓ３Ｍ［ｉ＋２］の計算のためにＳ３＿ｉｎｃ［ｉ］、Ｓ３Ｍ＿ｉｎｃ［ｉ］が保存され、ｃａｒｒｙ＝－１の場合にはＳ３＿ｄｅｃ［ｉ］、Ｓ３Ｍ＿ｄｅｃ［ｉ］が保存される。この状況は、２つの連続するルートデジットの連結において、及び３Ｘ部分ルート内の特定の値に対して、キャリー＋１又は－１があるときに発生する。

【0289】

図１５に戻ると、調整回路２０４は、ＡＵＸ［ｉ］又はＡＵＸＭ［ｉ］からＳ３_{ｉｎｃ［ｉ］}、Ｓ３_{ｄｅｃ［ｉ］、}Ｓ３Ｍ_{ｉｎｃ［ｉ］}、及びＳ３Ｍ_{ｄｅｃ［ｉ］}を生成するために使用される。ＡＵＸ［ｉ］又はＡＵＸＭ［ｉ］が選択されるかどうかは、図１６に示すように前のデジットｓ_ｉに依存する。従って、復号回路２０６は、前のデジットｓ_ｉを考慮し、ＡＵＸ［ｉ］とＡＵＸＭ［ｉ］との間で選択するための信号をマルチプレクサ２０８ａ、２０８ｂ、２０８ｃ、２０８ｄに提供する。次に、前のデジットｓ_ｉの値は、Ｓ３＿ｉｎｃ［ｉ］及びＳ３Ｍ＿ｄｅｃ［ｉ］の補正値を与えるために、デジットｘ３回路からの出力と連結される。デジットｘ３回路は、以下のように４つの出力値を生成する。
ｓ_ｉ＞＝０の場合：
● ３ｓ_ｉｍｏｄ８＋１
● ３ｓ_ｉｍｏｄ８
● ３ｓ_ｉｍｏｄ８－１
● ３ｓ_ｉｍｏｄ８－２
そして、ｓ_ｉ＜０の場合：
● ８－（｜３ｓ_ｉ｜ｍｏｄ８）＋１
● ８－（｜３ｓ_ｉ｜ｍｏｄ８）
● ８－（｜３ｓ_ｉ｜ｍｏｄ８）－１
● ８－（｜３ｓ_ｉ｜ｍｏｄ８）－２

【0290】

例えば、ｓ_ｉ＝＋１の場合、出力は４、３、２、及び１であり、ｓ_ｉ＝－２の場合、出力は３、２、１、及び０である。

【0291】

次に、新しい３Ｘ部分ルートＳ３［ｉ＋１］及びＳ３Ｍ［ｉ＋１］は、新しい符号付きデジットｓ_ｉ＋１～Ｓ３［ｉ］、Ｓ３Ｍ［ｉ］又はＳ３_ｉｎｃ［ｉ］又はＳ３_ｄｅｃ［ｉ］に対応するビットを連結することによって生成される。これは、連結回路２１０を使用して達成される。剰余の符号は、図４を参照して説明したものと同様に、その出力が連結回路２１０に供給される２：１マルチプレクサの数を減らすために使用されることに留意されたい。すなわち、剰余の符号は、正と負のデジットの間で選択するために使用され、例えば、１つのマルチプレクサ内のＳ［ｉ］についてはデジット＋３と－３との間で選択が行われ、別のマルチプレクサ内のＳＭ［ｉ］についてはデジット＋３と－３との間で選択が行われる。正の剰余は正又は０のルートデジットを選択し、負の剰余は負又は０のルートデジットを選択する。各デジットに連結するデジットは、式（３２）と式（３３）で与えられる。例えば、デジット＋３の場合、（３×３）ｍｏｄ８である００１を連結する。一方、－１の場合、１１１を連結し、これは８－｜３×－３｜＝－１（又は２進値で１１１）である。

【0292】

連結回路を実行した後、マルチプレクサのセットの形態の出力回路２１２は、更新されたＡＵＸルート値ＡＵＸ［ｉ＋１］及びＡＵＸＭ［ｉ＋１］と共にＳ３［ｉ＋１］及びＳ３Ｍ［ｉ＋１］の選択された値を出力し、更新されたＡＵＸルート値ＡＵＸ［ｉ＋１］及びＡＵＸＭ［ｉ＋１］はＡＵＸ生成回路２１４によって生成され、最新の新しいデジットｓｉ＋１を復号してキャリーがあるか否かを判定し、次いでその情報を使用して適切な値を選択し、図１６に示すようにＡＵＸ［ｉ＋１］及びＡＵＸＭ［ｉ＋１］として出力する。ＡＵＸ［ｉ＋１］、ＡＵＸＭ［ｉ＋１］、Ｓ３［ｉ＋１］、Ｓ３Ｍ［ｉ＋１］の各々は、更なる反復又は部分反復において受信回路２０２によって受信し返される。

【0293】

選択定数のＬＵＴ
デジット漸化演算の各ステージでは、デジット選択演算ＳＥＬ（式２参照）が行われる。基数８の除算又は平方根デジット漸化アルゴリズムにおけるデジット選択関数は、実際の剰余（又はその一部）と８つの選択定数又は係数のセットとの比較を実行する。係数セットは、除数又は部分平方根の最上位部分を使用して選択される。選択されたセット内の８つの係数は、剰余の最上位部分と比較され、８つの比較の結果は、次の商又はルートデジットを判定するために使用される。

【0294】

これらの係数セットは、除算演算における除数の最上位ビット又は平方根演算における部分ルートの最上位部分によってアドレス指定されるルックアップテーブル（ＬＵＴ）に格納される。基数８の除算のＬＵＴサイズは３２×７２ビットであり、基数８の平方根のサイズは３３×８０ビットである。除算及び平方根をサポートするユニットでは、２つの異なるＬＵＴが必要であり、１つは除算用であり、もう１つは平方根用である。従って、このようなユニットでのＬＵＴサイズの合計は、３２×７２＋３３×８０＝４９４４ビットとなる。

【0295】

これらの例では、全ＬＵＴのサイズを縮小するいくつかの方法が提案されている。一部の列の併合を行うことができる。更に、平方根係数は、除算係数に小さなオフセットを加えることによって計算することができる。その結果、平方根ＬＵＴは、より小さいテーブル及び何らかの論理によって置き換えることができる。更に、除算ＬＵＴサイズを更に低減するためにいくつかの最適化が行われる。従って、ＬＵＴサイズの合計は、３３×４２＋３３×１８＝１９８０ビットに縮小することができ、これは、必要な記憶空間の約６０％の縮小を表す。

【0296】

選択関数は、剰余推定値（剰余の最上位ビット）と、デジットｐ_ｉ＋１の可能な値ごとに１つの定数である８つの選択定数又は係数のセットとの比較を含む。よって、

【0297】

【数31】

ここで、ｃｔｅ（ｋ）及びｃｔｅ（ｋ＋１）は、それぞれデジット値ｋ及びｋ＋１の選択定数であり、ｋ∈｛－３，－２，－１，０，＋１，＋２，＋３，＋４｝（基数８）である。実際には、剰余推定値が他のデジット（－３から＋４）の選択定数と対応しない場合、選択されたデジットは－４でなければならないため、デジット値－４の選択定数を保持する必要はない。剰余の１０（除算）又は１１（平方根）の最上位ビットのみが、デジット選択に十分に正確な剰余の推定を得るために考慮される必要があることが分かっている。

【0298】

除算デジット漸化では、次のデジットを取得するために使用される選択定数のセットは、除数に依存する。一方、平方根では、部分的な結果に依存する。除数の６つの最上位ビット又は部分ルートの７つの最上位ビットは、現在の除算の全ての反復に対して８つの選択定数のセットを取り出すために使用される。異なる除数又は部分ルート値は、異なる定数セットを抽出する。

【0299】

除算の場合、選択定数は１０ビット幅であるが、最上位ビットは０である。一方、定数を選択する前にオペランドが正規化されているため、除数の最上位ビットは常に１であることに留意されたい。従って、選択定数は、３２×７２ビット除算ルックアップテーブル（ＬＵＴ）に格納される。

【0300】

平方根の場合、選択定数は１１ビット幅である。部分平方根は［０．５，１］である。従って、部分ルート推定が１つの整数ビット及び６つの分数ビットを有し、部分ルートの最小値が０．５であることを考慮して、選択定数は、Ｒ［ｉ］∈［０．５，１）についての３２個のエントリ及びＲ［ｉ］＝１についての１個のエントリを有する３３×８０ビットの平方根ＬＵＴに記憶される。

【0301】

従って、除算及び平方根に対応したユニット（ｆｄｉｖｓｑｒｔユニット）では、典型的には、３２×７２ビットの除算ＬＵＴ及び３３×８０ビットの平方根ＬＵＴの２つのＬＵＴが使用される。ＬＵＴサイズの合計は、３２×７２＋３３×８０＝４９４４ビットである。

【0302】

この技術では、ｆｄｉｖｓｑｒｔユニットの総ＬＵＴサイズを低減する方法が提案される。ＬＵＴ低減は、以下の２つの項目に基づいている。

【0303】

１．平方根定数ｓｑｒｔ＿ｃｔは、基本定数ｂａｓｅ＿ｃｔ＝［２×ｄｉｖ＿ｃｔ／１６］×１６に４ビットのオフセットを加えることで、除算定数ｄｉｖ＿ｃｔから求めることができることが分かった。なお、ｂａｓｅ＿ｃｔは、４つの最下位ビットを０としたｄｉｖ＿ｃｔである。４ビットオフセットは、負又は正であり得る。このようにして、平方根定数を格納する代わりに、オフセットＬＵＴにオフセットを格納するだけでよい。

【0304】

２．除算ＬＵＴ及びオフセットＬＵＴにおけるいくつかの対称性は、ＬＵＴ総サイズの更なる低減を可能にする。

【0305】

図１７及び図１８は、生の除算及び平方根ＬＵＴを示す。図は、除数及び部分ルート推定の各値に対して設定された定数を示す。各集合は、デジットｐ_ｉ＝｛＋４，＋３，＋２，＋１，０，－１，－２，－３｝を選択するための定数から構成され、集合内の合計８つの定数について、除算についてはｄｉｖ＿ｃｔ＝｛ｍｄ（４），ｍｄ（３），ｍｄ（２），ｍｄ（１），ｍｄ（０），ｍｄ（－１），ｍｄ（－２），ｍｄ（－３）｝、平方根についてはｓｑｒｔ＿ｃｔ＝｛ｍｓ（４），ｍｓ（３），ｍｓ（２），ｍｓ（１），ｍｓ（０），ｍｓ（－１），ｍｓ（－２），ｍｓ（－３）｝である。

【0306】

各比較定数の値は、狭い間隔から選択することができる。これらの例では、値は各ＬＵＴを対称にするように慎重に選択されており、これはデジット＋４及び－３、＋３及び－２、＋２及び－１、ならびに＋１及び０の列の定数の絶対値が同じであることを意味する（いくつかの例外を除く）。後に示すように、この選択はＬＵＴサイズを小さくするのに役立つ。

【0307】

最初の２つの除数間隔定数ｍｄ（４）及びｍｄ（－３）は、範囲外である。すなわち、最初の２デジットは４又は－３とすることができない。これは、除数間隔の数を２倍にすることによって固定することができるが、そのような手法は、ＬＵＴサイズを２倍にすることを意味するため、非常に高価である。代わりに、除数の第６の分数ビットは、部分間隔を選択し、ｍｄ（４）及びｍｄ（－３）の２つの最下位ビットを補正するために使用される。

【0308】

ＬＵＴのサイズについては、除算ＬＵＴの最大値及び最小値はそれぞれ２２２及び－２２２である。従って、除算定数の値は、範囲［２２２；－２２２］、また９ビットは、そのような範囲内の全ての値を表すために必要である。同様に、平方根の場合、定数は［４４７；－４４６］、従って１０ビットが必要である。

【0309】

オフセットＬＵＴ
図１７及び図１８に示す除算定数と平方根比較定数とを比較すると、次のように平方根比較定数を得ることができる。

【0310】

【数32】

【0311】

すなわち、除算定数ｍｄ（ｋ）を２で乗算し、４つの最下位ビットを０にクリアし、４ビットのオフセット、オフセット（ｋ）を加算する。

【0312】

【数33】

と呼ぶことにする。
ｍｓ（ｋ）＝ｍ＿ｂａｓｅ（ｋ）＋ｏｆｆｓｅｔ（ｋ），ｗｉｔｈｋ＝４，３，２，１，０，－１，－２，－３（３８）

【0313】

なお、オフセットが基本定数ｍ＿ｂａｓｅ（ｋ）と同符号の場合、加算は、ｍ＿ｂａｓｅ（ｋ）の４つの最下位ビットを４ビットのオフセットに置き換えることを含む。オフセットが基本定数と同じ符号でない場合、加算が行われる。

【0314】

別の例として、

【0315】

【数34】

に対するｍｓ（２）の計算を考える（図１７の行４）。図１７及び図１８の行４の定数を考えると、

【0316】

【数35】

である。この場合、ｏｆｆｓｅｔ（２）は１２となる。なお、ｍ＿ｂａｓｅ（２）とｏｆｆｓｅｔ（２）の符号が等しい場合、平方根定数は、４つの最下位ビットをｏｆｆｓｅｔ：ｍ＿ｂａｓｅ（２）＝０００１１０＿００００、ｏｆｆｓｅｔ（２）＝１１００に置き換えて、ｍｓ（２）＝０００１１０＿１１００＝１０８とする。

【0317】

しかし、ｍ＿ｂａｓｅ（ｋ）とｏｆｆｓｅｔ（ｋ）の符号が異なる場合もある。例えば、

【0318】

【数36】

、図１７及び図１８の行３を用いたｍｓ（３）の計算の場合、

【0319】

【数37】

であり、次いでｍｓ（３）＝１７６－１＝１７５である。オフセットは負、すなわちオフセット（３）＝－１であるため、平方根定数は減算（又は負の数の加算）によって得られる。

【0320】

図１９は、平方根定数の計算のためのオフセットを示す。オフセットの符号と除算定数の符号とが異なる場合を強調する。平方根及び除算比較定数は、この表を列に対して対称にするように慎重に選択されており、これは列＋４及び－３、＋３及び－２、＋２及び－１、ならびに＋１及び０の定数の絶対値が同じ（反対の符号を有する）ことを意味する。この規則が破られるケースは２つあり、行４及び１３では、デジット＋４及び－３のオフセットは同じ絶対値を持たない。これらの場合は別々に処理され、例えば、オフセット補正指示回路２５２を介して検出され得る。

【0321】

対称性
第１の除算ＬＵＴを使用して、以下の通りである。
１．定数の絶対値は、符号付き値の代わりに格納することができる。これは、ＬＵＴサイズを低減するのに役立つ。
２．デジット数ｐ_ｉ＝＋１及びｐ_ｉ＝０の定数の絶対値は同じであるため（反対の符号、具体的には、デジットｐ_ｉ＝＋１が正であり、ｐ_ｉ＝０が負である）、これらの２つの列は１列だけで置き換えることができる。
３．デジット数ｐ_ｉ＝＋２及びｐ_ｉ＝－１の定数の絶対値は、行０及び１７を除いて同じ（反対の符号、具体的には、デジットｐ_ｉ＝＋２が正であり、ｐ_ｉ＝－１が負である）である。これらの２つの列は１列のみとして記憶され、行０及び１７の値は、例えば除算補正指示回路２５０及び除算定数補正回路２４８において後に補正される。なお、行０では、ｍ（２）＝５０，ｍ（－１）＝－４８であり、行１７では、ｍ（２）＝７３，ｍ（－１）＝－７２である。これらの２つの列を融合するために、保存された値は、行０の４８及び行１７の７２であり、最終的なｍ（２）値は、最下位ビット（行１７）又は最下位ビット（行０）の左のビットを変更することによって補正される。
４．デジットｐ_ｉ＝＋２及びｐ_ｉ＝－１の定数の絶対値の最上位ビットは０である。このビットはＬＵＴに格納される必要はない。
５．デジットｐ_ｉ＝＋１及びｐ_ｉ＝０の定数の絶対値の最上位２ビットは０である。これらのビットはＬＵＴに格納されない。
６．デジットｐ_ｉ＝＋３、ｐ_ｉ＝＋２、ｐ_ｉ＝＋１、ｐ_ｉ＝０、及びｐ_ｉ＝－１の定数は偶数であるため、最下位ビットはＬＵＴに格納されない。
７．その結果、上記項目２及び３に示された列融合のために、最適化された除算ＬＵＴは６列しか有さない。また、列当たりのビット数も削減されている。

【0322】

オフセットＬＵＴを図１９に示す。この表も最適化することができる。
１．デジットｐ_ｉ＝｛＋２，＋１，０，－１｝に対するオフセットは、ｍ＿ｂａｓｅと同じ符号を有する。すなわち、オフセットは、デジット＋２及び＋１に対して正であり、デジット０及び－１に対して負である（適切な場合には負又は正として０を含む）。
２．ＬＵＴは列に関して対称であり、デジット＋４及び－３のオフセット絶対値、デジット＋３及び－２のオフセット絶対値、デジット＋２及び－１のオフセット絶対値、ならびにデジット＋１及び０のオフセット絶対値は、前述の２つの場合を除いて同じである。その結果、オフセットの絶対値のみがＬＵＴに記憶され、オフセットが平方根比較定数を取得するために使用されるとき、その符号は、オフセット符号がｍ＿ｂａｓｅ符号（図１９で強調表示された値）と異なる場合を除いて、デジット値に従って設定される。
３．これらの例外値の符号は、ＬＵＴの新しい列に格納される。
次に、オフセットＬＵＴは、項目１及び２の列融合の結果として５列、４列、及び符号のための追加の列のみを有する。

【0323】

上記の代わりに、平方根ＬＵＴを提供することができ、除算ＬＵＴ内の値を検索し、オフセットを実行することによって除算演算の定数が導出されることが理解されよう。そのような状況では、浮動小数点ＬＵＴ又は除算オフセットテーブルのいずれかのサイズを縮小するために、上述したのと同じ技術の多くを適用することができる。例えば、図１８から、デジット＋４及び－３の定数の大きさは同じであることが明らかである（デジットは反対の符号を有し、一般に＋４デジットは正であり、－３デジットは負である）。同様に、デジット＋３及び－２の定数の大きさは同じである（これも反対のデジットであり、典型的には＋３に対して正であり、－２に対して負である）。同様に、デジット＋２及び－１の定数の大きさは同じである（同様に反対の符号であり、典型的には＋２に対して正であり、－１に対して負である）。

【0324】

前のセクションで説明した最適化を伴う最終的な除算及びオフセット表を図２０に示す。テーブルは、除算ＬＵＴを左に、平方根オフセットＬＵＴを右に、部分に分割される。カラム融合により、カラム数が削減されていることに留意されたい。得られた融合したカラムは、関連する２デジットの値でラベル付けされる。従って、例えば、（＋２、－１）とラベル付けされた列は、生テーブル内のデジットｐ_ｉ＝＋２及びｐ_ｉ＝－１に対応する列の融合を意味する。

【0325】

一方、図２０の表の最後の行は、平方根（図１９の行３２）のみのものであることに留意されたい。

【0326】

アドレス（テーブルの最左列）は、除算及び平方根のために異なってアクセスされる。除算では、除数の６つの最上位ビットがアドレスを形成するが、最初のビットは１になる。平方根の場合、部分ルートＲ［ｉ］の７つの最上位ビットは、０．５（バイナリで０．１０００００）から１．０（バイナリで１．００００００）の範囲の値でテーブルをアドレス指定するために使用される。なお、平方根ＬＵＴは３３行であるため、アドレスには６ビットが用いられる。

【0327】

ＬＵＴの内容は、１６進値の値として示される。各列に実際に必要とされるビット数が表に指定されており、１６進値が示されているが、値の全範囲は可能ではない可能性があることに留意されたい。例えば、この除算ＬＵＴにおけるデジットｐ_ｉ＝＋３の定数値は、最上位１６進デジットが２進値｛００１０，００１１，０１００｝に対応する｛２，３，４｝の値のみを取るので、７ビットのみを必要とし、従って最上位ビットを記憶する必要はない。列（＋２，－１）及び（＋１，０）についても同様である。

【0328】

図２０のオフセットＬＵＴ（右部）は、列（＋４，－３）、（＋３，－２）、（＋２，－１）、及び（＋１，０）にオフセット絶対値を格納し、列符号の２ビット値は、列（＋４，－３）及び（＋３，－２）のオフセットのオフセット符号である。列（＋２，－１）及び（＋１，０）のオフセットは正であることに留意されたい。符号ビット１は、オフセットとそれに対応するｍ＿ｂａｓｅの符号が異なることを意味する。

【0329】

前述したように、アドレス１０００００を有するテーブルの最後の行は、平方根に対してのみ意味がある。行０１１１１１と同じベースを使用して、この部分ルート推定のための比較定数が、表に示されたオフセットで取得される。

【0330】

除算及び平方根の比較定数の計算について、以下の例を考える。除算のために、定数セットは、先行する０を加算することによってＬＵＴから取得される。例えば、除数＝１．００１１０ｘ．．．ｘの除算演算では、ＬＵＴアドレスは０１＿００１１０であり、ＬＵＴは以下を返す。

【0331】

【数38】

【0332】

セット内の各定数のビット数は、その定数が何デジット用かに依存することに留意されたい。そのため、除算のために先に列挙したＬＵＴサイズ削減のための規則を考慮すると、この特定の除数値の比較定数のセットは次のようになる。

【0333】

【数39】

【0334】

最終定数を得るために追加されたビットが強調表示される。なお、ＬＵＴから定数の絶対値を求める。後のステップで、ｍ（０）、ｍ（－１）、ｍ（－２）、及びｍ（－３）の符号が２の補数がとられて最終定数セットが得られる。

【0335】

この同じ行の平方根定数については、符号フィールドは０１であることに留意されたい。これは、ｍｓ（＋３）及びｍｓ（－２）の計算のためのオフセットの符号が基本定数符号と異なることを意味し、従って、これらの２つの定数の計算は減算を必要とする。テーブルから、
ＬＵＴ＿ｏｆｆｓｅｔ（０１＿００１１０）＝｛１，ａ，ｅ，２，６｝
オフセットは以下の通りである。基本定数符号と異なる符号を有するオフセットが強調表示される

【0336】

【数40】

【0337】

基本定数は、

【0338】

【数41】

そして、

【0339】

【数42】

【0340】

ｓｑｒｔＬＵＴの正及び負の部分は対称であるため、残りの定数は、上記の定数を２の補数をとることによって得られる。
｛ｍｓ（０），ｍｓ（－１），ｍｓ（－２），ｍｓ（－３）｝＝｛－３８，－１１４，－１９２，－２６６｝

【0341】

図２１は、例えばデジット選択比較器３２によって使用される選択定数を生成するために使用される選択定数生成器２３８を示す。除数及び部分ルートのビットは、マルチプレクサ２４０によって受信される。除算のための選択定数が必要とされるときに除数を選択し、平方根のための選択定数が必要とされるときに部分ルートを選択するｄｉｖ／ｓｑｒｔ選択信号が提供される。その後、選択されたビットは、除算ＬＵＴ及び（平方根）オフセットＬＵＴで構成される記憶回路２４２内の関連値にアクセスするために使用される。

【0342】

除算ＬＵＴからの出力はパディング回路２４６に渡され、パディング回路は出力される定数に０を加算することによってビットをパディングする。実行されるパディングは、例えば、上記の除算ＬＵＴに関してポイント２～６で説明されている。得られた定数は、後述する変換回路２４４に送られ、また、除算定数補正回路２４８にも送られる。除算定数補正回路２４８は、パディングされた（拡張された）除算選択定数、ならびに除算補正指示回路２５０からの出力を受信し、除算補正指示回路は、除算ＬＵＴから取得されているデータが、定数の絶対値が同じでない例外的なケース（上記の除算ＬＵＴに関する点３）の１つであるかどうかを示す。すなわち、（ｉ）除数推定値が０又は１である場合の定数ｍｄ（４）及びｍｄ（－３）、ならびに（ｉｉ）除数推定値が０又は１７である場合のデジットｐ_ｉ＝＋２及びｐ_ｉ＝－１の定数絶対値の差をチェックする。これらの補正は、選択された定数セット内のビット７０、５０、１、及び０を設定し、ビット７１及び２１をクリアすることを必要とする。補正は、除算定数補正回路２４８によって実行される。
オフセットＬＵＴからの出力は、オフセット補正指示回路２５２からの出力と共に変換回路２４４に渡され、これは、アクセスされている定数がＬＵＴオフセットが同じ値を有さない例外のうちの１つであるかどうかを示す（例えば、行４及び１３）。そうであれば、変換回路２４４内で正しい値への補正が行われる。補正回路２４４はまた、パディング回路２４６からパディングされた（拡張された）除算定数を受信する。置換回路２５４は、前述のように連結又は減算を使用してオフセットを追加するために使用される。特に、オフセット符号と定数ベース符号とが異なる場合、減算が実行される。減算は、オフセットＬＵＴ内の符号フィールドをチェックすることによって可能になる。４ビットオフセットの４つの最下位ビットの置換は、符号が等しい場合にのみ行われる。

【0343】

除算定数及びＬＵＴ定数の両方について、絶対値をデジットｐ_ｉ＝０、－１、－２、－３の符号付き値に変換するための署名回路２５６が設けられている。

【0344】

製造のためのコンピュータ可読コード
本明細書に記載された概念は、記載された概念を具現化する装置の製造のためのコンピュータ可読コードで具現化され得る。例えば、コンピュータ可読コードは、概念を具現化する装置を備える集積回路を製造するために、電子設計自動化（ＥＤＡ）ステージを含む半導体設計及び製造プロセスの１つ以上のステージで使用することができる。上記のコンピュータ可読コードは、追加的又は代替的に、本明細書に記載の概念を具現化する装置の定義、モデリング、シミュレーション、検証及び／又は試験を可能にすることができる。

【0345】

例えば、本明細書に記載の概念を具現化する装置を製造するためのコンピュータ可読コードは、概念のハードウェア記述言語（ＨＤＬ）表現を定義するコードで具現化することができる。例えば、コードは、概念を具現化する装置を定義するための１つ以上の論理回路のレジスタ転送レベル（ＲＴＬ）抽象化を定義することができる。コードは、Ｖｅｒｉｌｏｇ、ＳｙｓｔｅｍＶｅｒｉｌｏｇ、Ｃｈｉｓｅｌ、又はＶＨＤＬ（超高速集積回路ハードウェア記述言語）における装置を具現化する１つ以上の論理回路のＨＤＬ表現、ならびにＦＩＲＲＴＬなどの中間表現を定義することができる。コンピュータ可読コードは、ＳｙｓｔｅｍＣ及びＳｙｓｔｅｍＶｅｒｉｌｏｇなどのシステムレベルモデリング言語又は概念のシミュレーション、機能的及び／又は形式的な検証、及び概念のテストを可能にするためにコンピュータによって解釈され得る概念の他の行動表現を使用して概念を具現化する定義を提供することができる。

【0346】

追加的又は代替的に、コンピュータ可読コードは、１つ以上のネットリストのコンピュータ可読表現を具現化することができる。１つ以上のネットリストは、１つ以上の論理合成プロセスをＲＴＬ表現に適用することによって生成することができる。代替的又は追加的に、１つ以上の論理合成プロセスは、記載された概念を具現化するようにＦＰＧＡを構成するためにフィールドプログラマブルゲートアレイ（ＦＰＧＡ）にロードされるべきビットストリームをコンピュータ可読コードから生成することができる。ＦＰＧＡは、集積回路での製造前に概念の検証及び試験の目的で展開されてもよく、又はＦＰＧＡは製品に直接展開されてもよい。

【0347】

コンピュータ可読コードは、例えば、本発明を実施する装置を製造するための半導体設計及び製造プロセスで使用されるＲＴＬ表現、ネットリスト表現、又は別のコンピュータ可読定義のうちの１つ以上の混合を含む、装置の製造のためのコード表現の混合を含むことができる。代替的又は追加的に、概念は、装置を製造するために半導体設計及び製造プロセスで使用されるコンピュータ可読定義と、製造されると定義された装置によって実行される命令を定義するコンピュータ可読コードとの組み合わせで定義されてもよい。

【0348】

そのようなコンピュータ可読コードは、任意の既知の一時的なコンピュータ可読媒体（ネットワークを介したコードの有線又は無線送信など）、又は半導体、磁気ディスク、若しくは光ディスクなどの非一時的なコンピュータ可読媒体に配置することができる。コンピュータ可読コードを使用して製造された集積回路は、中央処理装置、グラフィック処理装置、ニューラル処理装置、デジタル信号プロセッサ、又は概念を個別に又は集合的に具現化する他の構成要素のうちの１つ以上などの構成要素を備えることができる。

【0349】

本出願において、「～ように構成された（configured to...）」という用語は、装置の要素が、定義された動作を実施することができる構成を有することを意味するために使用される。この文脈において、「構成」とは、ハードウェア又はソフトウェアの配置又は相互接続の方法を意味する。例えば、装置は、定義された動作を提供する専用ハードウェアを有してもよく、又はプロセッサ若しくは他の処理デバイスが、機能を行うようにプログラムされてもよい。「ように構成された」は、装置要素が、定義された動作を提供するためにある方法で変更される必要があることを意味しない。

【0350】

本発明の例示的な実施形態が添付の図面を参照して本明細書で詳細に説明されているが、本発明はこれらの正確な実施形態に限定されないこと、及び様々な変更及び修正が、当業者によって、添付の特許請求の範囲によって定義されている本発明の範囲から逸脱することなく、実施形態に行われ得ることが理解されよう。

【図1】