特許7439276 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エックスモスリミテッドの特許一覧

特許7439276ベクトル演算の回転累算器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
4a
4b
4c
4d
5a
5b
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-16

(45)【発行日】2024-02-27

(54)【発明の名称】ベクトル演算の回転累算器

(51)【国際特許分類】

G06F 17/16 20060101AFI20240219BHJP

【ＦＩ】

G06F17/16 M

G06F17/16 D

【請求項の数】 13

(21)【出願番号】P 2022548402

(86)(22)【出願日】2020-10-12

(65)【公表番号】

(43)【公表日】2023-04-13

(86)【国際出願番号】 EP2020078580

(87)【国際公開番号】W WO2021160300

(87)【国際公開日】2021-08-19

【審査請求日】2022-12-12

(31)【優先権主張番号】2001789.3

(32)【優先日】2020-02-10

(33)【優先権主張国・地域又は機関】GB

(73)【特許権者】

【識別番号】509257307

【氏名又は名称】エックスモスリミテッド

【氏名又は名称原語表記】ＸＭＯＳＬＴＤ

【住所又は居所原語表記】５ｔｈＦｌｏｏｒ，ＴｈｅＰｒｏｇｒａｍｍｅ，１ＡｌｌＳａｉｎｔｓＳｔｒｅｅｔ，Ｂｒｉｓｔｏｌ，ＢＳ１２ＬＺ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ

(74)【代理人】

【識別番号】100169904

【弁理士】

【氏名又は名称】村井康司

(74)【代理人】

【識別番号】100221372

【弁理士】

【氏名又は名称】岡崎信治

(72)【発明者】

【氏名】ヘンドキックランベルトゥスミュラー

【審査官】坂庭剛史

(56)【参考文献】

【文献】国際公開第２００９／０７３７８７（ＷＯ，Ａ１）

【文献】特表２００７－５３３００９（ＪＰ，Ａ）

【文献】特表２０１６－５３０６３１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１６

(57)【特許請求の範囲】

【請求項1】

出力ベクトルを生成する処理ユニットであって、
前記出力ベクトルの異なる成分を保持する複数の要素を有する出力レジスタであって、
前記複数の要素は第１の端部要素及び第２の端部要素を含む出力レジスタと、
少なくとも２つの入力ベクトルを処理して各結果値を生成するベクトルユニットと、
を備え、
前記処理ユニットは、機械コード命令を実行するように構成され、各命令は、前記処理ユニットの命令セット中の命令タイプの予め定義されたセットのインスタンスであり、前記命令セットは、対応する演算コードによって定義されるベクトル処理命令を含み、前記ベクトル処理命令は、前記処理ユニットに、
ｉ）前記ベクトルユニットを使用して、第１の入力ベクトル及び第２の入力ベクトルを処理して結果値を生成することと、
ｉｉ）前記出力レジスタの前記複数の要素に対して、前記結果値と回転前の前記第２の端部要素に存在する値との和を前記出力レジスタの前記第１の端部要素に配置する回転演算を実行することと、
を行わせる、処理ユニット。

【請求項2】

前記ベクトルユニットは、積和演算を前記入力ベクトルに実行することによって前記第１の入力ベクトル及び前記第２の入力ベクトルの前記処理ｉ）を実行するように構成され、前記結果値は、前記積和演算から生成されるスカラー値である、請求項１に記載の処理ユニット。

【請求項3】

前記ベクトルユニットは、少なくとも前記第２の入力ベクトルにメモリから直接アクセスするように構成される、請求項１又は２に記載の処理ユニット。

【請求項4】

少なくとも前記第１の入力ベクトルを保持する入力レジスタを備え、
前記ベクトルユニットは、前記入力レジスタから前記第１の入力ベクトルにアクセスするように構成される、請求項１～３の何れか１項に記載の処理ユニット。

【請求項5】

前記入力レジスタは、レジスタファイル中の複数のレジスタから選択され、前記ベクトル処理命令は前記入力レジスタを指定するオペランドを含む、請求項４に記載の処理ユニット。

【請求項6】

前記入力レジスタは、前記ベクトル処理命令のオペランドによって指定されず、前記ベクトル処理命令の前記演算コードにおいて暗黙的である、請求項４に記載の処理ユニット。

【請求項7】

前記出力レジスタは、レジスタファイル中の複数のレジスタから選択され、前記ベクトル処理命令は前記出力レジスタを指定するオペランドを含む、請求項１～６の何れか１項に記載の処理ユニット。

【請求項8】

前記出力レジスタは、前記ベクトル処理命令のオペランドによって指定されず、前記ベクトル処理命令の前記演算コードにおいて暗黙的である、請求項１～６の何れか１項に記載の処理ユニット。

【請求項9】

出力ベクトルの異なる成分を保持する複数の要素を有する出力レジスタにおいて前記出力ベクトルを生成する、処理ユニットによって実行される方法であって、前記複数の要素は第１の端部要素及び第２の端部要素を含み、前記処理ユニットは機械コード命令を実行するように構成され、各命令は、前記処理ユニットの命令セットにおける命令タイプの予め定義されたセットのインスタンスであり、前記命令セットは対応する演算コードによって定義されるベクトル処理命令を含み、前記方法は、前記処理ユニットに、
ｉ）第１の入力ベクトル及び第２の入力ベクトルを処理して結果値を生成させ、
ｉｉ）前記結果値と回転前の前記第２の端部要素に存在する値との和を前記出力レジスタの前記第１の端部要素に配置する回転演算を前記出力レジスタの前記複数の要素に対して実行させる、
ベクトル処理演算を実現する前記ベクトル処理命令を含む、
方法。

【請求項10】

前記第１の入力ベクトルはレジスタに記憶され、前記方法は、同じ前記第１の入力ベクトルを使用して複数の前記ベクトル処理演算を実行することを含む、請求項９に記載の方法。

【請求項11】

複数の前記ベクトル処理演算の完了に続き、前記出力レジスタに存在する前記値を記憶場所に出力することを含む請求項１０に記載の方法。

【請求項12】

前記出力レジスタ中の要素の数の整数倍に等しくない複数のベクトル処理演算の完了に続き、回転の総数が前記出力レジスタ中の要素数の整数倍に等しいように前記出力レジスタの前記要素に存在する前記値を変更せずに、１つ又は複数の回転演算を前記出力レジスタに実行することを含む請求項１０又は１１に記載の方法。

【請求項13】

請求項１０～１２の何れか１項に記載の方法を実行するようにプログラムされた請求項１～９の何れか１項に記載の処理ユニットを備えたコンピュータシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、行列ベクトル演算等のベクトル演算を実施する実行ユニットを有するプロセッサに関する。

【背景技術】

【0002】

所与のプロセッサのプロセッサアーキテクチャは、特定の命令セットの中からインスタンス化された命令を実行するように設計される。プロセッサの命令セットは、プロセッサが実行するように構成された種類の機械コード命令の定義の基本セットである。これらは、幾つかの計算命令、例えば加算、乗算等の算術命令を含む。実行される各命令は、命令セットからの命令タイプの１つのインスタンスである。命令セットにおいて定義される各命令は演算コード及びゼロ以上のオペランドフィールドで構成される機械コード命令であり、演算コードは実行されるべき演算を指定し、オペランドフィールド（もしあれば）は、指定された演算によって演算すべき１つ又は複数のオペランドを指定するのに使用される。

【0003】

幾つかのプロセッサには、命令セットの一部としてベクトル処理命令が構成されている。このタイプの典型的なプロセッサは、対応する機械コード命令に応答してベクトル演算を実行するベクトル処理ユニット（ＶＰＵ）を含む。例えば、ＶＰＵは、対応する機械コード命令に応答して２つの入力ベクトルに積和演算を実行し得、その出力は２つの入力ベクトルの内積（ドット積）に等しい。

【発明の概要】

【発明が解決しようとする課題】

【0004】

ベクトルユニットは、より大きなタスクの一部を構成するベクトル演算を実行するのに使用することができる。しかしながら、それに従って個々のベクトル演算の各々からの結果を記憶、配置する必要があり、命令に追加のオペランドが必要とされ、結果値の移動にメモリが使用され、又はこれら両方が必要とされ得る。より簡素化された実施メカニズムを提供することが望ましい。

【課題を解決するための手段】

【0005】

本明細書に開示される第１の態様によれば、出力ベクトルを生成する処理ユニットが提供され、本処理ユニットは、出力ベクトルの異なる成分を保持する複数の要素を有する出力レジスタであって、複数の要素は第１の端部要素及び第２の端部要素を含む、出力レジスタと、少なくとも２つの入力ベクトルを処理して、各結果値を生成するベクトルユニットとを備え、処理ユニットは機械コード命令を実行するように構成され、各命令は、処理ユニットの命令セット中の命令タイプの予め定義されたセットのインスタンスであり、命令セットは対応する演算コードによって定義されるベクトル処理命令を含み、ベクトル処理命令は処理ユニットに、ｉ）ベクトルユニットを使用して、第１の入力ベクトル及び第２の入力ベクトルを処理して結果値を生成することと、ｉｉ）出力レジスタの複数の要素に対して、結果値又は結果値に基づく値を出力レジスタの第１の端部要素に配置する回転演算を実行することと、を行わせる。

【0006】

一例では、上記回転演算の一環として出力レジスタの第１の端部要素に配置される値は、結果値と回転前の第２の端部要素に存在する値との和である。

【0007】

この特定の例には、各々がメモリ中のポインタを調整するだけでよい一連の命令が、複数のパスを生成する必要がある事例を処理可能であるという利点を有する。これは例えば、行列及び／又はベクトルが、ベクトルユニットによって処理可能（又は入力レジスタに保持可能）な量よりも大きい行列ベクトル乗算を実施する場合である。

【0008】

一例では、ベクトルユニットは、積和演算を入力ベクトルに実行することによって第１の入力ベクトル及び第２の入力ベクトルの上記処理ｉ）を実行するように構成され、結果値は、積和演算から生成されるスカラー値である。

【0009】

一例では、ベクトルユニットは、少なくとも第２の入力ベクトルにメモリから直接アクセスするように構成される。

【0010】

一例では、本処理ユニットは、少なくとも第１の入力ベクトルを保持する入力レジスタを備え、ベクトルユニットは入力レジスタから第１の入力ベクトルにアクセスするように構成される。

【0011】

一例では、入力レジスタは、レジスタファイル中の複数のレジスタから選択され、ベクトル処理命令は入力レジスタを指定するオペランドを含む。

【0012】

一例では、入力レジスタは、ベクトル処理命令のオペランドによって指定されず、ベクトル処理命令の演算コードにおいて暗黙的である。

【0013】

一例では、出力レジスタは、レジスタファイル中の複数のレジスタから選択され、ベクトル処理命令は出力レジスタを指定するオペランドを含む。

【0014】

一例では、出力レジスタは、ベクトル処理命令のオペランドによって指定されず、ベクトル処理命令の演算コードにおいて暗黙的である。

【0015】

本明細書に開示される第２の態様によれば、出力ベクトルの異なる成分を保持する複数の要素を有する出力レジスタにおいて出力ベクトルを生成する、処理ユニットによって実行される方法が提供され、複数の要素は第１の端部要素及び第２の端部要素を含み、処理ユニットは機械コード命令を実行するように構成され、各命令は、処理ユニットの命令セットにおける命令タイプの予め定義されたセットのインスタンスであり、命令セットは対応する演算コードによって定義されるベクトル処理命令を含み、本方法は、処理ユニットに、ｉ）第１の入力ベクトル及び第２の入力ベクトルを処理して結果値を生成させ、ｉｉ）結果値又は結果値に基づく値を出力レジスタの第１の端部要素に配置する回転演算を出力レジスタの複数の要素に対して実行させるベクトル処理演算を実現するベクトル処理命令を含む。

【0016】

【0017】

一例では、第１の入力ベクトルはレジスタに記憶され、本方法は、同じ第１の入力ベクトルを使用して複数のベクトル処理演算を実行することを含む。例えば、これは行列乗算の実行に使用し得る。

【0018】

一例では、本方法は、複数の上記ベクトル処理演算の完了に続き、出力レジスタに存在する値を記憶場所に出力することを含む。

【0019】

一例では、本方法は、出力レジスタ中の要素の数の整数倍に等しくない複数のベクトル処理演算の完了に続き、回転の総数が出力レジスタ中の要素数の整数倍に等しいように出力レジスタの要素に存在する値を変更せずに、１つ又は複数の回転演算を出力レジスタに実行することを含む。

【0020】

本明細書に開示される第３の態様によれば、第２の態様による方法を実行するようにプログラムされた、第１の態様による処理ユニットを備えたコンピュータシステムが提供される。

【0021】

本開示の理解を助け、実施形態をいかに実施し得るかを示すために、例として添付図面を参照する。

【図面の簡単な説明】

【0022】

【図1】本明細書に記載される例によるコンピュータシステムを模式的に示す。

【図2】ベクトル処理命令の第１の実施例を模式的に示す。

【図3a】回転演算の２つの例をより詳細に模式的に示す。

【図3b】回転演算の２つの例をより詳細に模式的に示す。

【図4a】行列及びベクトルを処理するベクトル処理命令の第１の使用例を示す。

【図4b】行列及びベクトルを処理するベクトル処理命令の第１の使用例を示す。

【図4c】行列及びベクトルを処理するベクトル処理命令の第１の使用例を示す。

【図4d】行列及びベクトルを処理するベクトル処理命令の第１の使用例を示す。

【図5a】行列及びベクトルを処理するベクトル処理命令の第２の使用例を示す。

【図5b】行列及びベクトルを処理するベクトル処理命令の第２の使用例を示す。

【図6】ベクトル処理命令の第２の実施例を模式的に示す。

【図7】処理ユニットによって実行される方法の一例を模式的に示す。

【図8】処理ユニットによって実行される方法の別の例を模式的に示す。

【発明を実施するための形態】

【0023】

本開示は、行列ベクトル演算を効率的に実施するのに使用できる命令及びマイクロアーキテクチャ構造を設計することに関する。

【0024】

本明細書で使用される場合、「命令」という用語は、機械コード命令、即ちプロセッサの命令セットの基本命令タイプの１つを指し、各命令タイプは、単一の演算コード及び１つ又は複数のオペランドフィールドによって定義される。オペランドは即値オペランド、即ち演算が行われるべき値を命令に直接符号化することもできる。または、代替的にはオペランドは間接オペランド、即ち演算が行われるべき値を見つけることができるアドレスの形態とすることができる。例えば、加算命令はオペランドとして３つのポインタをとり得る。すなわち、加算する値をとるべきアドレスを指定する２つのポインタ及び結果を書き込む宛先アドレスを指定するもう１つのポインタである。実際には、ベクトル乗算命令等のソースオペランドフィールド中の値は、典型的には、即値オペランドとは対照的に、作用される実際のベクトル値を保持するベクトルレジスタへのポインタである。

【0025】

ベクトル演算の一例は、行列ベクトル演算である。行列ベクトル演算は、多くの計算分野で使用されている。例えば、行列ベクトル積は、畳み込みニューラルネットワーク等の深層学習環境で畳み込み層を実施するのに使用することができる。そのような場合、値の入力アレイ（例えば画像のピクセル値のアレイ）に、１つ又は複数のフィルタ（カーネルとも呼ばれる）を畳み込むことができる。これは、フィルタと受容野と呼ばれる入力アレイのサブセットとの内積（ドット積）を特定することを含む。フィルタは入力アレイを通り過ぎるため、内積は各受容野で特定される。そうして特定された各内積は、活性化マップ又は特徴マップと呼ばれる出力アレイにおける異なる値を表す。したがって、畳み込み層は行列とのベクトル（フィルタを表す）の乗算と見なすことができる（行列の各行は異なる受容野を表す）。この演算は２回以上、例えばＲＧＢ画像の個々の各カラーチャネルに対して実行し得る。

【0026】

出力ベクトルＡ中の各要素は入力行列Ｍの（異なる）行との入力ベクトルＶの内積に対応するため、一般に、ベクトルＶと行列Ｍとの積を特定することは複数の内積を特定することを含む。

【0027】

従来のマイクロプロセッサでは、内積を計算するための計算は、各項目を順に積和するループを含む。これは、例えば、以下のように表現しうる。

【数1】

【0028】

ここで、「ｆｏｒ」ループは、要素毎の積和を実施して、最終内積値（「ｓｕｍ」）を生成する。

【0029】

行列計算の場合、これは以下のように２つのループを含む。

【数2】

【0030】

ここで、内部「ｆｏｒ」ループ（インデックスｊにわたる）は前と同じように内積を実施し、外部「ｆｏｒ」ループ（インデックスｉにわたる）は行列Ｍの各行にわたってこの内積をループする。ｎ番目の内積の結果は、出力ベクトルＡのｎ番目の要素Ａ［ｎ］を決定する。

【0031】

これは、ベクトル処理ユニット（単にベクトルユニットＶＵとも呼ばれる）を使用することによって加速させることができる。ベクトルユニット自体は当技術分野において既知である。ベクトルユニットは例えば、幾つかの積和（ＶＭＡ）演算を同時に実行することによって２つの入力ベクトルの内積を特定し得る。

【0032】

具体例として、ベクトルユニットは１６の乗算を一度に計算でき、累積演算が後に続き、累積演算では、１６の個々の乗算演算の合計（和）が特定、出力される。そのような演算は以下の形態をとり得る。

【数3】

【0033】

これは１６の乗算器（ベクトルユニット）を設置することを代償として１６倍高速である。この演算は以下のように行列に対して使用することもできる。

【数4】

【0034】

上と同様に、内部「ｆｏｒ」ループ（インデックスｊにわたる）は内積を実施し、外部「ｆｏｒ」ループ（インデックスｉにわたる）は行列Ｍの各行にわたりこの内積をループする。

【0035】

ここでも、ｎ番目の内積の結果は出力ベクトルのｎ番目の要素Ａ［ｎ］を決定する。換言すれば、そのようなプロセスを上述したように実施する場合、ベクトルユニットからの出力値が最終出力ベクトルの構築に使用される。即ち、ベクトルＶ及び行列Ｍのｎ番目の行をベクトルユニットに渡す結果は、出力ベクトルのｎ番目の要素（要素０）に対応するスカラー値（内積）である。上記例では、これは１６個の値を含み、これらの値は最終出力ベクトルの正しい各要素に書き込まれる必要がある。

【0036】

出力ベクトルがベクトルユニットからの個々の出力値から正しく構築されることを保証するために、従来的には２つの選択肢がある。

【0037】

第１の選択肢は、レジスタファイルの小さな部分を使用して、単一の結果を構築すること、即ち、ベクトルユニットからの出力値を従来のスカラーレジスタに記憶し、次いで、これらの値をスカラーレジスタからベクトルレジスタに読み出すことによってベクトルレジスタにおいて最終ベクトルを構築することである。この欠点は、値を繰り返しロードする必要があるため、より多くのメモリ帯域幅を必要とすることである。

【0038】

第２の選択肢は、結果を累積する場所についてベクトルレジスタにおける明示的なインデックスを使用すること、即ち、ベクトルユニットからの各出力が、ベクトルユニットからの出力時にベクトルレジスタにおける正しい要素に書き込まれることを保証することである。この欠点は、出力が書き込まれるベクトルレジスタにおける場所を指定するために、追加のオペランドが必要とされることである。

【0039】

本開示は、値及びベクトルレジスタにおける場所を指定する（即ちどの値が出力ベクトルのどの要素に対応するかを指定する）いかなる追加情報も繰り返しロードする必要もなく、命令を繰り返して適用することによって出力ベクトルを自動的に構築できるようにする命令及び対応するマイクロアーキテクチャ構造を提供することによってますます効率的な実施を提供する。これにより、単一のオペランドだけで効率的な行列ベクトル乗算等が可能になる。

【0040】

典型的には、行列及びベクトルは、任意のレジスタセットが保持することができるよりもはるかに大きい。したがって、入力ベクトルは、ベクトルユニットに記憶することができる要素数よりも長くなりうる。そのような場合、複数のパスを形成する必要がある。これにより、更に多くの出力値が生成される。したがって、別の課題は、レジスタセット中のデータの正しいビットをロードし、データの残りをメモリから順にロードすることである。この複雑性を処理するのに必要なのは、メモリにおけるポインタの調整を必要とするだけの命令シーケンスの順次生成であるため、本発明はこれに対する改良を提供する。

【0041】

図１は、プロセッサ１０１を備えた一例のコンピュータシステム１００を示す。プロセッサ１０１は、一連のパイプラインステージを含むパイプライン１０２を含む。例えば、パイプラインは、命令をフェッチするフェッチステージ１０３と、命令を復号化するデコードステージ１０４と、実行ユニット１０５と、を含み得る。実行ユニット１０５は、１つ又は複数のステージ、例えばレジスタファイル１０６から、計算を実行する計算ステージを読み出すレジスタ読み出しステージ、メモリをアドレス指定し、命令に応じてメモリに対するデータの読み書きを行う１つ又は複数のメモリアクセスステージ等を含み得る。なお、図１に示す特定のパイプラインステージは、ここでは、限定ではなく例として示されており、当業者は他の可能なパイプライン変形を認識するであろう。

【0042】

プロセッサ１０１は、フェッチステージ１０３に結合されたスケジューラ（図示せず）を含み得る。実行ユニット１０５（例えば、実行ユニット１０５のメモリアクセスステージ）は、データメモリ１０７に結合される。命令フェッチステージ１０３の入力は、別個の命令メモリ１０８に結合される。プロセッサ１０１は、レジスタファイル１０６を含み、レジスタファイル１０６は少なくとも１つのレジスタセットを含む。最も一般的には、本明細書で言及されるレジスタファイルは、プロセッサ上のアドレス指定可能レジスタの全セットまでのレジスタの任意のグループを指すことができ、レジスタアドレス空間中のいかなる特定の物理的モジュール又は細分区画にも限定されないことにも留意する。特に、レジスタファイル１０６は、後述するように、１つ又は複数のベクトルレジスタを含む。

【0043】

データメモリ１０７は、計算によって作用されるべきデータ及び計算の結果を最終的に記憶し得るメモリである。データメモリ１０７は、プロセッサ１０１と同じ物理的ユニットに記憶し得る。代替的には、データメモリ１０７は、別個のユニット上のストレージ、例えば外部メモリであってよい。図１に示す等の実施形態では、命令は、データメモリ１０７とは別個の命令メモリ１０８に記憶され、命令メモリ１０８からフェッチされる。これらは別個のメモリデバイスであってよく、又は同じメモリデバイスの別個の領域であってよい。いずれの場合でも、命令メモリ１０８及びデータメモリ１０７は重複しないアドレス空間を有するため、これは、フェッチステージ１０３によって実行される命令フェッチが、メモリアクセスステージによって実行されるデータアクセス（ロード又は記憶）と競合するリスクがないことを意味する。データメモリは、限定ではなく、揮発性ストレージ（例えばランダムアクセスメモリ）、不揮発性ストレージ（例えば読み取り専用メモリ）、フラッシュメモリ、又はそのようなメモリの任意の組合せを含み得る。

【0044】

実行ユニット１０５は、命令セットと呼ばれる予め定義されたセットからの命令に応答して、限られたセットの演算を実行することが可能である。典型的な命令セットは、実行ユニット１０５が各命令に応答して理解し実施するように構成される、例えばロード、加算、記憶等の命令を含み得る。したがって、実行ユニット１０５は、一般に、固定小数点算術ユニット（ＡＵ）、論理ユニット（ＬＵ）、算術論理ユニット（ＡＬＵ）、及び浮動小数点ユニット（ＦＰＵ）等のそのような命令を実行するための１つ又は複数の算術演算ユニットを含む。算術とは、数字に対する数学演算を指す：例えば、乗算、加算、除算、減算等。計算は、はるかに広いセットを構成することができる：例えば、オペランド０が真である場合、オペランド１は宛先に記憶され、その他の場合、オペランド２が宛先に記憶される。図１に示すように、実行ユニット１０５はベクトルユニット２０１も含み、これにつてより詳細に後述する。

【0045】

本明細書に記載される例によれば、実行ユニット１０５は、本明細書では例としてＶＬＭＡＣＣＲ（ベクトルロード積和縮小：ｖｅｃｔｏｒ－ｌｏａｄ－ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｅ－ｒｅｄｕｃｅ）と呼ばれる新規のタイプの命令を実施するように構成される。

【0046】

図２は、対応する命令に応答してＶＬＭＡＣＣＲ演算を実施するように構成された処理ユニット２００を使用したＶＬＭＡＣＣＲ演算の実施例を模式的に示す。ＶＬＭＡＣＣＲ演算自体については図３を参照して後述する。

【0047】

処理ユニット２００は、ベクトルユニット２０１及び出力レジスタｒＡを含む。図２には、上述した入力レジスタｒＶ及びメモリ１０７も示す。入力レジスタｒＶは処理ユニット２０１の一部をなしてもよく、又はなさなくてもよい。同様に，メモリ１０７も処理ユニット２０１の一部をなしてもよく、又はなさなくてもよい。

【0048】

出力レジスタｒＡ及び入力レジスタｒＶは、ベクトルレジスタである。ベクトルレジスタは、ベクトルの異なる成分を保持する複数の要素を含むレジスタである。出力レジスタｒＡ及び入力レジスタｒＶは、上述した（例えばＶＬＭＡＣＣＲ命令のオペランドによって指定される）レジスタファイル１０６の一部として実施し得る。代替的には、出力レジスタｒＡ及び入力レジスタｒＶの１つ又は複数は、ベクトルユニット２０１によって自動的に使用される暗黙的レジスタであり得る（オペランドによって指定される必要がない）。したがって、特定のレジスタｒＶ、ｒＡが図に示されるが、レジスタ自体は固定されなくてよいことが理解される。即ち、処理ユニット２００によって使用可能なより多くのレジスタがあり得、ｒＶ及びｒＡの１つ又は複数はレジスタセット（例えばレジスタファイル１０６中の）から選ばれ得る。使用するベクトルは、ＶＬＭＡＣＣＲ命令のオペランドによって指定し得る（例えば、ベクトルが記憶されるレジスタを指定することにより）。

【0049】

なお、出力レジスタｒＡは入力レジスタｒＶと同じ長さである必要はない。出力レジスタｒＡの２つの端部要素は、本明細書では第１の端部要素及び第２の端部要素と呼ばれる。これらが相対的な名称であることが理解される。即ち、第１の端部要素が左端の要素（図２に示すように）である場合、第２の端部要素は右端の要素であり、逆も同様である。同様に、第１の端部要素が一番上の要素である場合、第２の端部要素は一番下の要素である。

【0050】

レジスタｒＶ及びｒＡは、異なるタイプ及び／又は幅の要素を記憶し得る。一例では、ｒＶは８ビット整数を記憶し得、ｒＡは３２ビット整数を記憶し得る。他の形式も可能であり、例えば３２ビット又は１６ビットフロート又はタイプを混合することができる。

【0051】

ベクトルユニット２０１は、上述した実行ユニット１０５の一環として実施し得る。代替的には、ベクトルユニット２０１は、実行ユニット１０５自体とは別体として実施し得る。いずれの場合でも、ベクトルユニット２０１はメモリ１０７に動作可能に結合し得る。

【0052】

ベクトルユニット２０１は、少なくとも２つの入力ベクトルに対して演算を実行して、結果値を生成するように構成される。図２に示す例では、ベクトルユニット２０１は、第１の入力ベクトルＶを保持する入力レジスタｒＶ及び第２の入力ベクトルＭを保持するメモリ１０７に動作可能に結合される。他の例では、Ｖ及びＭは両方とも、ベクトルユニット２０１によって使用するために各レジスタに記憶し得る。

【0053】

図２に示す例では、ベクトルユニット２０１によって実行される演算は内積であり、したがって、入力ベクトルＶ及びＭからベクトルユニット２０１によって生成される結果値は、ＭとのＶの内積に等しいスカラー値である。１ビット数の内積の特定の実施態様例では、「０」は－１を表すのに使用し得、「１」は＋１を表すのに使用し得る（又はこの逆）。そのような場合、積は常に＋１又は－１であり（即ちＮＯＴ－ＸＯＲ演算）、値の和は単にこれらの－１ビット及び＋１ビットの和であり、これはポピュレーションカウントである。これは、分解能が非常に低いが、並列内積が非常に高い一例である。内積以外の演算をベクトルユニットによって実行してもよい。例えば、ベクトルユニットは単に、点毎加算で２つのベクトルを一緒に加算することが可能であり得る（ｆｏｒｋｉｎｒａｎｇｅ（ｌｅｎ（Ｖ０））：Ｖ２［ｋ］＝Ｖ０［ｋ］＋Ｖ１［ｋ］）。乗算、減算、又は絶対値は他の例である。

【0054】

図３ａは、第１の例のＶＬＭＡＣＣＲ演算を模式的に示す。この例では、出力レジスタｒＡは、８つの要素を含む。出力レジスタｒＡの初期状態３０１ａ及び最終状態３０１ｂが示されている。初期状態では、出力レジスタｒＡの８つの要素は、値Ａ_０～Ａ_７を順に保持する。これらの値は、より詳細に後述するようにゼロに初期化し得る。

【0055】

ベクトルユニット２０１は、第１の入力ベクトルＶ及び第２の入力ベクトルＭを処理して、結果値ｓを生成する。先に触れたように、これは、ベクトルユニット２０１がＶとＭとの内積を特定することを含み得る。

【0056】

出力レジスタｒＡの要素における値は、図３ａに示すように、結果値ｓと共に初期状態値Ａ_０～Ａ_７を使用して更新される。即ち：
・出力レジスタｒＡにおける各値は、左に１つシフトする（即ち要素ｎからの値は要素ｎ－１に移動する）。
・左端の要素における値Ａ_０には結果値ｓが加算され、合計が出力レジスタｒＡの右端（ｎ番目の）要素に配置される。

【0057】

図３ｂは、第２の例のＶＬＭＡＣＣＲ演算を模式的に示す。この例は、図３ａの例と同様であるが、出力レジスタｒＡにおける値は右にシフトする。ここでも、出力レジスタｒＡの初期状態３０２ａ及び最終状態３０２ｂが示されている。初期状態では、出力レジスタｒＡの８つの要素は前と同様に値Ａ_０～Ａ_７を保持している。

【0058】

ここでも、出力レジスタｒＡの要素における値は、図３ａに示すように、結果値ｓと共に初期状態値Ａ_０～Ａ_７を使用して更新される。しかしながら、これはこの例では：
・出力レジスタｒＡにおける各値は右に１つシフトする（即ち要素ｎからの値は要素ｎ＋１に移動する）。
・右端要素における値Ａ_ｎ－１には結果値ｓが加算され、合計は出力レジスタｒＡの左端（最初の）要素に配置される。

【0059】

上記の２つの例から分かるように、ベクトルユニット２０１からの結果値ｓは、第１の端部要素と第２の端部要素との間で移動する出力ベクトルのいずれかの構成要素に加算される（これは回転方向に依存する）。（出力レジスタｒＡの一端部から他端部に移動しない）その他の値は単に、いかなる加算もされずに要素１つ分左（又は右）に移動する。

【0060】

したがって、このステップは、結果値が、第１の端部要素と第２の端部要素との間で移動する出力ベクトルの構成要素に加算される、出力レジスタの複数の要素への回転演算（循環シフトとも呼ばれる）である。他の例では、結果値と、第１の端部要素と第２の端部要素との間で移動する出力ベクトルの構成要素とに対して実行される演算は、別の算術演算又は論理演算であり、例えば乗算、ＸＯＲ、減算等である。

【0061】

出力レジスタｒＡにおける要素に記憶される値は加算される（出力レジスタｒＡが回転するにつれて一度に１つずつ）ため、要素は累積器と呼ぶことができる。出力レジスタｒＡ自体も同様の理由で累積器と呼ぶことができる。

【0062】

回転演算は、浮動小数点演算を使用して実施し得る。そのような一実施態様では、データは、最後の要素から最初の要素へのルート（レジスタがどの方向に回転するかに依存する）上に組み合せ要素（例えば加算器）を含んだルートを単に回動する。代替の一実施態様では、キャリーレジスタを使用して、１つの値を一時的に記憶しつつ、その他の値をシフトできる。

【0063】

上述したＶＬＭＡＣＣＲ演算は、例えば以下の疑似コードを使用して表し得る。

【数5】

【0064】

この例では、ベクトルＶ及びＭは両方とも３２個の構成要素を含み、出力レジスタｒＡは、出力値を保持するための８つの要素（累積器）を含む。Ｍはメモリ１０７に記憶され、Ｍの最初の要素はメモリアドレス「ａｄｄｒｅｓｓ」に配置される。最初の「ｆｏｒ」ループは積和演算（内積）を実施する。２番目の「ｆｏｒ」ループは、出力レジスタｒＡの右回転を実施し、積和演算の結果は出力レジスタｒＡの最初の要素に書き込まれる。

【0065】

先に触れたように、処理ユニット２００及びＶＬＭＡＣＣＲ命令は、行列ベクトル乗算を効率的に実施するのに使用することができる。

【数6】

【0066】

後述する図８は、このプログラムコードをフローチャートとして示す。

【0067】

例えば、（例えばメモリ１０７に記憶される）行列の連続行を順に読み出して、ｒＶに記憶されているベクトルＶによって乗算し得る。代替の一実施態様では、行列の行を第２の入力レジスタに記憶することが可能である。ＶＬＭＡＣＣＲ演算は、行列の各行で実行され、出力ベクトルＡは出力レジスタｒＡにおいて構成要素毎に自動的に構築される。

【0068】

処理ユニット２００が行列ＭとベクトルＶとの積の特定に使用される一例について、図４ａ～図４ｄを参照してこれより説明する。この例では、行列Ｍは３２列８行を含む。ベクトルユニット２０１は、一度に１６個の要素を処理することが可能である。入力レジスタｒＶは、１６個の要素を含む。なお、一般に、入力レジスタｒＶは、ベクトルユニット２０１が一度に処理可能な数と同数の要素を含むべきである。出力レジスタｒＡは、出力ベクトルＡを保持するための８個の要素を含む。

【0069】

図４ａに示すように、出力レジスタｒＡにおける値はまずゼロに初期化される。

【0070】

ベクトルＶの最初の１６個の構成要素は、まず、メモリ１０７から読み出され、入力レジスタｒＶに記憶される。

【0071】

次いで、第１のＶＬＭＡＣＣＲ命令に応答して、ベクトルユニット２０１は、ベクトルレジスタｒＶに記憶されているベクトルＶの最初の１６個の構成要素及びメモリ１０７から読み出された行列Ｍの最初の行の最初の１６個の要素に対して演算を行い、出力値ｓ０を生成する。即ち、処理ユニット２００は、一度に２つのベクトルに対して演算を行うように構成されている。第１のベクトルはベクトルＶであり、第２のベクトルは行列Ｍの最初の行（及び後続行）である。この例では、第１のベクトルＶはレジスタｒＶに記憶されるが、第２のベクトルはポインタを使用してメモリ１０７から直接読み出される。行列Ｍの後続行に対して演算を行うためには、単にポインタを調整するだけでよい。他の例では、第２のベクトルは、（第１のベクトルＶと同様に）処理ユニット２００による演算のためにベクトルレジスタに記憶されてもよい。そのような場合、第２のベクトル（又はその一部分）は、まず、別個のロード命令を使用してメモリ１０７から第２の入力レジスタに読み出されてもよい。

【0072】

次いで、回転演算が上述したように適用される。この場合、ｓ０は出力レジスタｒＡの第１の端部要素（左端要素）の値に加算され、第２の端部要素（右端要素）に配置される。出力レジスタｒＡ中の他の全ての値は左に１要素シフトする。

【0073】

次のステップは、図４ｂに示されている。第２のＶＬＭＡＣＣＲ命令に応答して、ベクトルユニット２０１は、ベクトルレジスタｒＶに記憶されているベクトルＶの最初の１６個の構成要素及びメモリ１０７から読み出された行列Ｍの２行目の最初の１６個の要素に対して演算を行い、出力値ｓ１を生成する。なお、Ｖは再使用されるので、ｒＶに再ロードされる必要はない。

【0074】

次いで、回転演算が適用される。この場合、ｓ１は出力レジスタｒＡの第１の端部要素（左端要素）の値に加算され、第２の端部要素（右端要素）に配置される。出力レジスタｒＡ中の他の全ての値は、（先に書き込まれたｓ０を含め）左に１要素シフトされる。

【0075】

次いで、このプロセスは、行列Ｍの８行の各々からの最初の１６個の値が処理されるまで続けられる。換言すれば、行列Ｍの左側はベクトルユニット２０１によって掃引されて、出力レジスタｒＡにおける要素として記憶される「部分和」の第１のセットを生成する。その結果、生成される出力ベクトルレジスタｒＡの状態は、以下のとおりである：［ｓ０］［ｓ１］［ｓ２］［ｓ３］［ｓ４］［ｓ５］［ｓ６］［ｓ７］。

【0076】

図４ｃに示すように、次いで、ベクトルＶの２番目の１６個の構成要素がメモリ１０７から入力レジスタｒＶにロードされる。

【0077】

９番目のＶＬＭＡＣＣＲ命令に応答して、ベクトルユニット２０１は、ベクトルレジスタｒＶに記憶されているベクトルＶの２番目の１６個の構成要素及びメモリ１０７から読み出された行列Ｍの最初の行の２番目の１６個の要素に対して演算して、出力値ｓ０’を生成する。

【0078】

次いで、上述したように回転演算が適用される。この場合、ｓ０’は出力レジスタｒＡの第１の端部要素（左端要素）の値ｓ０に加算され、結果ｓ０’＋ｓ０は第２の端部要素（右端要素）に配置される。出力レジスタｒＡ中の他の全ての値は左に１要素シフトする。

【0079】

次のステップは、図４ｄに示されている。別のＶＬＭＡＣＣＲ命令に応答して、ベクトルユニット２０１は、ベクトルレジスタｒＶに記憶されているベクトルの２番目の１６個の構成要素及びメモリ１０７から読み出された行列Ｍの２行目の２番目の１６個の要素に対して演算して、出力値ｓ１’を生成する。なお、ここでも、Ｖは再使用されるので、ｒＶに再ロードされる必要はない。

【0080】

次いで、回転演算が適用される。この場合、ｓ１’は、出力レジスタｒＡの第１の端部要素（左端要素）の値ｓ１に加算され、第２の端部要素（右端要素）に配置される。出力レジスタｒＡ中の他の全ての値は左に１要素シフトする。

【0081】

次いで、このプロセスは、行列Ｍの８行の各々からの２番目の１６の値が処理されるまで続けられる。換言すれば、行列Ｍの右側はベクトルユニット２０１によって掃引されて、先に特定された部分和の第１のセットに加算されて、出力レジスタｒＡにおける要素として記憶される「部分和」の第２のセットを生成する。その結果生成される出力ベクトルレジスタｒＡの状態は以下のとおりである：［ｓ０’＋ｓ０］［ｓ１’＋ｓ１］［ｓ２’＋ｓ２］［ｓ３’＋ｓ３］［ｓ４’＋ｓ４］［ｓ５’＋ｓ５］［ｓ６’＋ｓ６］［ｓ７’＋ｓ７］。これは所望のように最終的な答え（即ちＭとＶの乗算から生成されるベクトル）である。

【0082】

当然ながら、上記は、入力レジスタｒＶの厳密に２倍の長さ（且つベクトルユニット２０１によって処理することができる長さの２倍）である行列Ｍ及びベクトルＶを参照して説明されたが、同じＶＬＭＡＣＣＲ演算は、任意の長さの入力ベクトルに対して同様の演算を実行するのに使用できる。

【0083】

入力ベクトル長（及び行列Ｍの幅）が入力レジスタｒＶよりも短い場合、内積（又は他の演算）の全体は１度に実行することができる。

【0084】

入力ベクトル長がｒＶの長さの整数倍Ｎである場合、ＶＬＭＡＣＣＲ命令は、出力ベクトルｒＡのＮ個の全回転が行われるまで、上述したように使用することができる。

【0085】

入力ベクトル長がｒＶの長さの非整数倍である場合、上記の組合せが適用される。例えば、１６要素ベクトルユニット２０１を使用して、４２構成要素ベクトル演算を処理することは、１６個全ての要素が使用される出力レジスタｒＡの２つの全回転及びそれに続く、要素のうちの１０個のみが使用される第３の全回転を含むことになる。

【0086】

図５ａ及び図５ｂは、行列が１６列１６行を含む一例を示す。入力レジスタｒＶは１６個の要素を含む。ベクトルユニット２０１は、１６個の要素を一度に処理するように構成される。出力レジスタｒＡは８個の要素を含む。

【0087】

ＶＬＭＡＣＣＲ演算自体の実施は、上述したものと同様であるため、ここで繰り返さない。

【0088】

この場合、ベクトルユニット２０１は、行列Ｍの各行とベクトルＶとの内積（又は他の演算）全体を一度に処理することが可能である。したがって、従来のように部分和が関わる回転の繰り返しは必要ない。しかしながら、行列は１６行を含み、最終（所望の）出力ベクトルが１６の構成要素を有することになることを意味し、これは出力レジスタｒＡには長すぎる。したがって、処理ユニット２００は、図５ａに示すように、行列Ｍの最初の８行がベクトルユニット２０１によって処理されると、出力レジスタｒＡの要素から値が記憶場所、例えばメモリ１０７に出力される（例えばプログラムコードによって命令されるように）ように構成される。なお、上記に与えられたコード例では、この動作を実行するのは外部ｆｏｒループである。

【0089】

次いで図５ｂに示すように、処理ユニット２００は、（出力レジスタをゼロにリセットした後）、同様にして行列Ｍの次の（最後の）８行の処理を続行する。図５ｂに示すように、最終結果ベクトルが次いで、第２のプロセスからの値を、記憶場所に既に記憶されている第１のプロセスからの値の終わりに連結することにより、例えば記憶場所に構築される。

【0090】

上記例の全てにおいて、行列Ｍの行数は、出力レジスタｒＡ中の要素数の整数倍に等しかった。行列Ｍが任意の他の数の行を含む場合、プロセスは、プロセスへの残りの行数が、出力レジスタｒＡ中の要素数未満であるまで同じである。これらの「残差」行はなお、上述したようにＶＬＭＡＣＣＲ命令を使用して処理することができるが、出力レジスタｒＡに存在する値は、最初の値（上記例でのｓ０及びａ０）が出力レジスタｒＡの最初の要素に存在するように再配置する必要がある。したがって、処理ユニット２００は、追加の回転演算を適用するように構成し得る。これは、標準回転演算を実施することにより又はメモリ１０７若しくは入力レジスタｒＶのいずれかから１つ若しくは複数の「ダミー」ＶＬＭＡＣＣＲ演算を（全てゼロを含む）ヌルベクトルに対して実施することによって行うことができる。

【0091】

別の実施態様例では、ベクトルユニット２０１からの出力は単に出力レジスタｒＡに書き込まれ、出力レジスタｒＡは回転する（左又は右に）。これを図６に示す。

【0092】

これにはなお、値のロードを繰り返す必要なく又はベクトルレジスタ中の場所を指定するいかなる追加情報も必要なく、命令の反復適用によって出力ベクトルを自動的に構築できるようにするという利点があるが、出力レジスタｒＡの１つの前回転にしか使用できない。入力行列が、出力レジスタｒＡ中の要素よりも多くの行を含む場合、追加の演算が必要である。これらについて後述する。

【0093】

図７は、図６に示す例で処理ユニット２００によって実行される方法の一例を模式的に示す。処理ユニット２００は、本明細書ではここでもＶＬＭＡＣＣＲ命令と呼ぶ単一の命令に応答して方法を実行するように構成される。

【0094】

Ｓ７０１において、ベクトルＭ及びベクトルＶからの各構成要素はベクトルユニット２０１によって乗算される。即ち、ベクトルユニット２０１はｒＭのｎ番目の要素における値をｒＶのｎ番目の要素における値で乗算する。個々の各乗算演算はスカラー値を生成する。

【0095】

Ｓ７０２において、スカラー値はベクトルユニット２０１によって単一の結果値Ａ１に累積される。即ち、ベクトルユニット２０１は各乗算演算から生じたスカラー値を合算して結果値Ａ１を生成する。ベクトルユニット２０１は結果値Ａ１をレジスタｒＡに提供する。

【0096】

Ｓ７０１及びＳ７０２はともに、ベクトルユニット２０１が２つの入力ベクトルの内積を特定することに対応する。したがって、この例では、結果値Ａ１はスカラー値である。先に触れたように、内積以外の演算をベクトルユニットによって実行してもよい。

【0097】

Ｓ７０３において、出力レジスタｒＡは回転演算（循環シフトとも呼ばれる）を実行する。この一例は、図６において点線矢印で模式的に示されている。回転演算は、積和演算と並列に（同時に）実行し得る。一般に、演算はパイプライン化可能であり、例えば、メモリに１ステージ、乗算に１ステージ、及び累積器を実施する加算ツリーに１ステージである。

【0098】

回転演算自体は既知である。図６に示す例では、出力レジスタｒＡは、全ての値が左にシフトされ、第１の端部要素の値が第２の端部要素に書き込まれる「左回転」を実行する。即ち、出力レジスタｒＡの最初の要素に存在する値は最後の要素に書き込まれ、他の全ての要素ｎに存在する値はｒＡのｎ－１番目の要素に書き込まれる。他の例では、出力レジスタｒＡは、値が逆方向に移動する（即ち、第２の端部要素に存在する値が第１の端部要素に書き込まれ、他の全ての要素ｎに存在する値はｎ＋１要素に書き込まれる）「右回転」を実行し得る。これについてより詳細に後述する。

【0099】

Ｓ７０４において、結果値Ａ１は出力レジスタｒＡの最初の要素に書き込まれる。即ち、出力レジスタｒＡは、ベクトルユニット２０１から受け取った結果値を出力レジスタｒＡの最初の要素に記憶する。この例では、出力レジスタｒＡの最初の要素は、図６に示すように左端要素である。

【0100】

上記例では、回転演算は、結果値Ａ１が出力レジスタｒＡの最初の要素に書き込まれる前に実行される。他の例では、出力レジスタｒＡは、出力値が最初の要素に書き込まれた後、回転し得る（何れかの方向に）。

【0101】

したがって、演算順（最初に回転又は最初に書き込み）及び回転方向（左又は右）に４つの可能な組合せが存在する。これについて、ＶＬＭＡＣＣＲ命令の反復インスタンスによって４×４行列Ｍが４構成要素ベクトルＶで乗算される簡単な例を参照してこれより説明する。例では、ＶＬＭＡＣＣＲ演算は４回適用されて、４つの結果値Ａ_１～Ａ_４を生成する。この例では、出力レジスタｒＡのサイズも４要素である。

【0102】

ＶＬＭＡＣＣＲ演算がまず出力レジスタｒＡを右に回転し、次いでベクトルユニット２０１からの結果を出力レジスタｒＡの最初の要素に書き込むことを含む第１の例を考える。４つのＶＬＭＡＣＣＲ演算後、出力レジスタｒＡは最終ベクトルＡを含む。ベクトルＡの各構成要素Ａ_１～Ａ_４は、出力レジスタｒＡの異なる要素に存在する。重要なことに、構成要素Ａ_１～Ａ_４は正しい順にある。次いでベクトルＡは、例えばメモリ１０７又は何らかの他の記憶場所に出力し得る。

【0103】

ＶＬＭＡＣＣＲ演算がまず、結果をベクトルユニット２０１から出力レジスタｒＡの最初の要素に書き込み、次いで出力レジスタｒＡを左に回転することを含む第２の例を考える。前と同様に、４つのＶＬＭＡＣＣＲ演算後、出力レジスタｒＡは最終ベクトルＡを含む。ベクトルＡの各構成要素Ａ_１～Ａ_４は出力レジスタｒＡの異なる要素に存在する。重要なことに、構成要素Ａ_１～Ａ_４は正しい順にある。次いでベクトルＡは、例えばメモリ１０７又は何らかの他の記憶場所に出力し得る。なお、この例では、ベクトルＡの要素Ａ_１～Ａ_４は、最初の例と比較して逆順になる。

【0104】

ＶＬＭＡＣＣＲ演算がまず出力レジスタｒＡを左に回転し、次いで結果をベクトルユニット２０１から出力レジスタｒＡの最初の要素に書き込むことを含む第３の例を考える。４つのＶＬＭＡＣＣＲ演算後、出力レジスタｒＡは、前と同様にベクトルＡの構成要素Ａ_１～Ａ_４を含む。しかしながら、前例と異なり、構成要素Ａ_１～Ａ_４は正しい順ではない。追加の修正演算を実施して、これを考慮に入れることができる。この例では、修正演算は左回転を含む。３つの右回転を使用することもできる。

【0105】

ＶＬＭＡＣＣＲ演算がまず、結果をベクトルユニット２０１から出力レジスタｒＡの最初の要素に書き込み、次いで出力レジスタｒＡを右に回転することを含む第４の例を考える。第３の例と同様に、４つのＶＬＭＡＣＣＲ演算後、出力レジスタｒＡはベクトルＡの構成要素Ａ_１～Ａ_４を含むが、正しい順ではない。ここでも、追加の修正演算を実施して、これを考慮に入れることができる。この例では、修正演算は左回転を含む。３つの右回転を使用することもできる。

【0106】

先に与えられた全ての例では、出力レジスタｒＡの長さは、計算すべきベクトルＡと同じ長さであると仮定された。しかしながら、出力レジスタｒＡは固定サイズ（例えば３２要素）を有し、一方、特定すべきベクトルＡは、これよりも小さいか又は大きい（例えば３２構成要素よりも小さいか又は大きい）サイズを有し得る。ベクトルＡが出力レジスタｒＡの要素よりも多くの構成要素を含む場合については先に考察した。

【0107】

ベクトルＡが出力レジスタｒＡの要素よりも少ない構成要素を含む場合、ベクトルＡの全ての要素は、ＶＬＭＡＣＣＲ命令の完了時、出力レジスタｒＡ（のどこか）に存在することになる。上記と同様に、値を「再配置」するために追加の演算が必要になることもあれば、ないこともある。

【0108】

これらの追加の演算の性質は、ＶＬＭＡＣＣＲ命令の特定の実施に依存する。これは、上述した４つの例を考慮することによって説明することができるが、最初の３つのＶＬＭＡＣＣＲ命令は１回のみ実行される。これは、出力レジスタｒＡが４要素長であり、３つの構成要素のみを有するベクトルＡを計算する演算の一環として使用される一例に対応する。

【0109】

最初の例では、３つのＶＬＭＡＣＣＲ命令後の出力レジスタｒＡの状態は以下のとおりである：［Ａ３］［Ａ２］［Ａ１］［０］。追加の右回転演算を使用して、結果ベクトルＡの要素を再配置することができる。

【0110】

２番目の例では、３つのＶＬＭＡＣＣＲ命令後の出力レジスタｒＡの状態は以下のとおりである：［０］［Ａ１］［Ａ２］［Ａ３］。追加の左回転演算を使用して、結果ベクトルＡの要素を再配置することができる。

【0111】

３番目の例では、３つのＶＬＭＡＣＣＲ命令後の出力レジスタｒＡの状態は以下のとおりである：［Ａ３］［０］［Ａ１］［Ａ２］。２つの追加の左回転演算を使用して、結果ベクトルＡの要素を再配置することができる。

【0112】

４番目の例では、３つのＶＬＭＡＣＣＲ命令後の出力レジスタｒＡの状態は以下のとおりである：［０］［Ａ３］［Ａ２］［Ａ１］。この場合、追加の演算は必要ない。

【0113】

図８は、処理ユニット２００がカウンタを使用して、ＶＬＭＡＣＣＲ命令が現サイクルで実行された回数を追跡するように構成された、本明細書に記載される一例による方法を示すフローチャートである。カウンタは方法の開始時にリセットし得る。

【0114】

図８に示す方法は、以下に示すコードの最外ｆｏｒループを除いたものを表す。

【数7】

【0115】

即ち、フローチャートは、行列Ｍの１行とｒＶからのベクトルＶとの内積を実施する方法の一例を表す。

【0116】

この例では、出力ベクトルＡは８構成要素の整数倍を含み、入力ベクトルＶは１６構成要素の整数倍を含み、ベクトルユニット２０１が１６の乗加算を同時に実行して、８要素の回転累積器ｒＡにすることができると仮定する。

【0117】

Ｓ８００において、処理ユニット２００は、カウンタｉを０にリセットし、出力ベクトルＡの最初の部分を計算していることを示す。

【0118】

Ｓ８０１において、（即ち、出力レジスタｒＡの各要素に存在する値がゼロになるよう）処理ユニット２００は、全ての累積器の値をゼロにリセットすることによって出力レジスタｒＡをリセットする。

【0119】

Ｓ８０２において、処理ユニット２００はカウンタｊを０にリセットする。これは、行列Ｍの最初の１６列（即ちＭの１行目からの最初の１６個の要素）を処理していることを示す。

【0120】

Ｓ８０３において、処理ユニット２００は、行列Ｍの最初の１６列と乗算する入力ベクトルＶの最初の１６個の値をロードする。続く反復において、ｊはベクトルの後の部分を指すように変更され、Ｓ８０３において、処理ユニット２００は、行列の２番目の１６行、３番目の１６行と乗算するベクトルの２番目の１６個の値、３番目の１６個の値等をロードする。

【0121】

Ｓ８０４において、処理ユニット２００は、行列中のｉ、ｉ＋１、ｉ＋２、・・・、ｉ＋７を使用して８つのＶＬＭＡＣＣＲ命令を実施する。

【0122】

Ｓ８０５において、処理ユニット２００はカウンタｊを１６増分して、ベクトルＶ及び行列Ｍの次の部分に演算するようにＳ８０３及びＳ８０４を進める。

【0123】

Ｓ８０６において、処理ユニット２００は、カウンタｊが入力ベクトルの長さに等しいか否か（即ち行列Ｍの部分の終わりに達したか否か）を判断する。部分の終わりに達した場合、ＶＬＭＡＣＣＲ命令は残っておらず、方法はＳ８０７に進む。その他の場合、ステップ８０３、Ｓ８０４、及びＳ８０５が再び実行されて、行列Ｍの次の１６列にわたって繰り返す。

【0124】

Ｓ８０７において、処理ユニット２００は、出力レジスタｒＡに存在する値を別の記憶場所、例えばメモリ１０７に出力する。これは、Ｓ８０６において、出力レジスタｒＡが全回転のセットを完了したと判断されたためであり、これは、出力レジスタｒＡの全ての要素がこの時点で、現計算から生成されたベクトルユニット２０１からの値を保持していることを意味する。

【0125】

Ｓ８０８において、処理ユニット２００はカウンタｉを８増分して、行列Ｍの次の部分に対して演算するようにＳ８０４で使用された行アドレスを進める。

【0126】

Ｓ８０９において、処理ユニット２００は、カウンタｉの値が出力ベクトルＶ中の要素の数（「ｎ」）に等しいか否かを判断する。即ち、処理ユニット２００は、方法がＳ８００において開始されてから、出力レジスタｒＡが出力ベクトルＶの各部分に記憶されたか否かを判断する。各部分に記憶された場合、方法は終了する。各部分に記憶されていない場合、方法はＳ８０１に進む。

【0127】

プロセッサは、パイプラインプロセッサであってもよい。パイプラインプロセッサでは、実行ユニットは一連のパイプラインステージに分割され、各々が特定のタイプの演算を実行する。パイプラインは、典型的には、フェッチステージ、デコードステージ、レジスタ読み出しステージ、少なくとも１つの計算ステージ、及び１つ又は複数のメモリアクセスステージを含む。命令フェッチステージは、最初の命令をメモリからフェッチし、それをパイプラインの最初のステージに発行する、次のプロセッササイクルにおいて、復号化された命令は、パイプライン中の次のステージ、例えばレジスタ読み出しステージに渡される。同時に、フェッチステージは、２番目の命令を命令メモリからデコードステージにフェッチする。その後の次に続くプロセッササイクルにおいて、最初の命令は、３番目のパイプラインステージ、例えば計算ステージに渡され、一方、２番目の命令は、２番目のパイプラインステージに渡され、３番目の命令は、最初のパイプラインステージに発行される等々である。これなしでは、プロセッサは、次を実行ユニットに発行する前に、命令全体の実行を待つ必要があるため、これはプロセッサをビジーに保ち、それにより待ち時間を短縮するのに役立つ。

【0128】

プロセッサは、マルチスレッドプロセッサであってもよい。マルチスレッドプロセッサでは、プロセッサは複数のコンテキストレジスタセットを含み、各コンテキストレジスタセットは、複数の現在実行中のプログラムスレッドのそれぞれ１つのコンテキスト（即ちプログラム状態）を表す。プログラム状態は、各スレッドのプログラムカウンタ、各スレッドのオペランド、及び任意にスレッド又はコンテキストが現在アクティブであるか否か等の各ステータス情報を含む。プロセッサは、例えばラウンドロビン様式でパイプラインを通る命令を一時的にインターリーブするよう命令フェッチステージを制御するように構成されたスケジューラを更に含む。そのようにインターリーブされたスレッドは、同時に実行されると言える。実行ユニットがパイプライン化される場合、１つのスレッドの命令があるパイプラインステージから次のパイプラインステージに進むにつれて、別のスレッドの命令はパイプラインを１ステージ分下がって進む等々である。このインターリーブ手法は、パイプライン待ち時間を隠すより多くの機会を提供するため、有益である。インターリーブなしでは、パイプラインは、パイプラインにおいて命令間の従属性を解決するためのメカニズムを必要とし（２番目の命令は最初の命令の結果を使用し得、間に合わないことがある）、最初の命令が実行を完了するまで２番目及び更なる命令が保留されるパイプラインバブルを生み出す恐れがある。

【0129】

本明細書では、データを記憶するためにデータストレージを参照する。これは、単一のデバイス又は複数のデバイスによって提供し得る。適したデバイスには、例えば、ハードディスク及び不揮発性半導体メモリ（例えば固体状態デバイス（ＳＳＤ）を含む）が含まれる。

【0130】

本明細書に記載された例は、本発明の実施形態の説明のための例として理解されるべきである。更なる実施形態及び例が考案される。任意の一例又は一実施形態に関連して記載された任意の特徴は、単独で又は他の特徴と組み合わせて使用し得る。加えて、任意の一例又は一実施形態に関連して記載された任意の特徴は、任意の他の例若しくは実施形態又は任意の他の例若しくは実施形態の任意の組合せの１つ若しくは複数の特徴と組み合わせて使用することも可能である。さらに、特許請求の範囲に規定される本発明の範囲内で、本明細書に記載されていない均等物及び変更を採用することも可能である。

【図1】