特開2023-180060 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-180060演算処理プログラムおよび演算処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023180060

(43)【公開日】2023-12-20

(54)【発明の名称】演算処理プログラムおよび演算処理方法

(51)【国際特許分類】

G06F 17/16 20060101AFI20231213BHJP

【ＦＩ】

G06F17/16 E

G06F17/16 J

G06F17/16 P

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022093140

(22)【出願日】2022-06-08

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】依田勝洋

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB35

5B056BB38

5B056FF11

(57)【要約】

【課題】疎行列の並列演算を高速化することを課題とする。
【解決手段】プロセッサは、マスク演算に用いるマスクレジスタにおける、疎行列の各行の各要素に対応するビットを示す複数のマスクビットそれぞれに、マスク演算を指定する各マスクパターンを設定する。プロセッサは、各マスクパターンが設定される複数のマスクビットそれぞれを、物理レジスタの異なる領域に展開する。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータに、
マスク演算に用いるマスクレジスタにおける、疎行列の各行の各要素に対応するビットを示す複数のマスクビットそれぞれに、前記マスク演算を指定する各マスクパターンを設定し、
前記各マスクパターンが設定される前記複数のマスクビットそれぞれを、物理レジスタの異なる領域に展開する、
処理を実行させることを特徴とする演算処理プログラム。

【請求項2】

前記疎行列の各行の各要素を並列に演算する際に、前記各要素に対応する前記物理レジスタの領域に格納される前記マスクビットを特定し、
特定された前記マスクビットに設定される前記マスクパターンにしたがって、前記マスク演算を実行する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の演算処理プログラム。

【請求項3】

前記展開する処理は、
プログラムカウンタが設定範囲に属する場合に、前記複数のマスクビットそれぞれを前記物理レジスタの異なる領域に展開し、
前記プログラムカウンタが設定範囲に属さない場合に、前記物理レジスタへの展開を抑制し、前記マスクレジスタのリネーム処理を実行して前記マスク演算を実行させる、
ことを特徴とする請求項１に記載の演算処理プログラム。

【請求項4】

前記物理レジスタの異なる領域に展開された前記複数のマスクビットそれぞれに対応する前記マスク演算が完了した場合に、前記物理レジスタの前記異なる領域それぞれを解放する、処理を前記コンピュータに実行させることを特徴とする請求項１に記載の演算処理プログラム。

【請求項5】

コンピュータが、
マスク演算に用いるマスクレジスタにおける、疎行列の各行の各要素に対応するビットを示す複数のマスクビットそれぞれに、前記マスク演算を指定する各マスクパターンを設定し、
前記各マスクパターンが設定される前記複数のマスクビットそれぞれを、物理レジスタの異なる領域に展開する、
処理を実行することを特徴とする演算処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演算処理プログラムおよび演算処理方法に関する。

【背景技術】

【0002】

疎行列を高速に演算する手法として、複数行を一度に演算するＳＩＭＤ（Single Instruction Multiple Data）が利用されている。ＳＩＭＤによる並列化に際して、行ごとに要素数が異なる場合には、マスク技術を利用することで、並列化が実現されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０１８－５００６５２号公報

【特許文献2】特開２０１７－６２８４５号公報

【特許文献3】米国特許出願公開第２０１６／０１８８３３６号明細書

【特許文献4】米国特許出願公開第２０１２／０１５１１８２号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記技術では、発生する可能性があるマスクパターンを予め用意しておくことになるので、マスクパターン作成用に論理レジスタを多用することになり、論理レジスタが枯渇する危険性がある。なお、リネーマーを用いて、レジスタ番号に物理レジスタを割り当てることで、論理レジスタの枯渇を解消する技術も知られているが、リネーマーを用いた場合には、依存関係が発生し、処理速度が低下する。

【0005】

一つの側面では、疎行列の並列演算を高速化することができる演算処理プログラムおよび演算処理方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

第１の案では、演算処理プログラムは、コンピュータに、マスク演算に用いるマスクレジスタにおける、疎行列の各行の各要素に対応するビットを示す複数のマスクビットそれぞれに、前記マスク演算を指定する各マスクパターンを設定し、前記各マスクパターンが設定される前記複数のマスクビットそれぞれを、物理レジスタの異なる領域に展開する、処理を実行させることを特徴とする。

【発明の効果】

【0007】

一実施形態によれば、疎行列の並列演算を高速化することができる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施例１にかかる情報処理装置のプロセッサが有する機能構成を示す機能ブロック図である。

【図2】図２は、実施例１にかかる疎行列の並列演算を説明する図である。

【図3】図３は、マスク演算を説明する図である。

【図4】図４は、ＲＩＳＣ－Ｖの要素マスクを説明する図である。

【図5】図５は、マスクパターンの差し替えによる問題点を説明する図である。

【図6】図６は、右シフトによるマスクパターンの生成を説明する図である。

【図7】図７は、依存関係の発生を説明する図である。

【図8】図８は、リネーム処理を説明する図である。

【図9】図９は、リネームによる依存関係の解消例を説明する図である。

【図10】図１０は、実施例１におけるリネーム処理を説明する図である。

【図11】図１１は、実施例１による効果を説明する図である。

【図12】図１２は、実施例１におけるリネーム処理の流れを説明するフローチャートである。

【図13】図１３は、実施例１における解放処理の流れを説明するフローチャートである。

【図14】図１４は、解放処理における解放判定を説明する図である。

【図15】図１５は、ハードウェア構成例を説明する図である。

【発明を実施するための形態】

【0009】

以下に、本願の開示する演算処理プログラムおよび演算処理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【実施例0010】

（情報処理装置の説明）
図１は、実施例１にかかる情報処理装置のプロセッサ１０ｄが有する機能構成を示す機能ブロック図である。図１に示す情報処理装置１０は、コンピュータ、サーバなどの情報処理装置の一例である。情報処理装置のプロセッサ１０ｄは、疎行列（特に大規模疎行列）の連立一次方程式の求解処理を、ＳＩＭＤによる並列化により高速化する。その際、プロセッサ１０ｄは、ＲＩＳＣ（Reduced Instruction Set Computer）－Ｖのマスクの特徴を利用しつつ、リネーマーの処理を変更して並列実行時の依存関係を解消する。

【0011】

図１に示すように、プロセッサ１０ｄは、命令処理部１１、リネーマー１２、発送部１３、命令ウィンドウ１４、演算回路１５、レジスタファイル１６を有する。

【0012】

命令処理部１１は、１つの命令の実行を複数のステージに分割し、複数の命令を流れ作業的に実行する命令パイプラインを実行する処理部である。例えば、命令処理部１１は、メモリから命令を読み出すＦＥＴＣＨＥＲや読み出された命令を解釈するＤＥＣＯＤＥＲなどの機能を実行する。

【0013】

リネーマー１２は、ＲＩＳＣ－Ｖのマスク処理を実行する際に、マスクパターンを保持するマスクレジスタのレジスタ番号のリネームを実行する処理部である。リネーマー１２は、フリーリスト１２ａ、ＲＭＴ（Register Map Table）１２ｂ、リネーマー制御部１２ｃを有する。

【0014】

フリーリスト１２ａは、未使用のレジスタ番号を記憶するデータベースである。例えば、フリーリスト１２ａには、解放された物理レジスタのレジスタ番号が登録される。フリーリスト１２ａは、ＦＩＦＯ（First In First Out）で管理されるので、解放されたレジスタ番号がリストの末尾に追加され、割当時にはリストの先頭から空き物理レジスタが取り出される。

【0015】

ＲＭＴ１２ｂは、論理レジスタと物理レジスタとのマッピングを表したテーブルである。ＲＭＴ１２ｂは、論理レジスタ数分のエントリを有し、１つのエントリが１つの論理レジスタに対応する。各エントリには、その論理レジスタに割り当て中の物理レジスタのレジスタ番号が記録される。フリーリスト１２ａから取り出された物理レジスタのレジスタ番号がＲＭＴ１２ｂに登録され、命令がコミットされる際に、それ以前に割り当てられた物理レジスタの解放が実行される。

【0016】

リネーマー制御部１２ｃは、ＳＩＭＤ型演算のマスク処理を実行する際に、リネーム処理を実行する処理部である。なお、リネーマー制御部１２ｃによるリネーム処理の詳細は後述するが、簡単に説明しておくと、例えば、リネーマー制御部１２ｃは、マスク演算に用いるマスクレジスタにおける、疎行列の各行の各要素に対応するビットを示す複数のマスクビットそれぞれに、マスク演算を指定する各マスクパターンを設定する。リネーマー制御部１２ｃは、各マスクパターンが設定される複数のマスクビットそれぞれを、物理レジスタの異なる領域（レジスタ番号）に展開する。

【0017】

また、リネーマー制御部１２ｃは、疎行列の各行の各要素を並列に計算（演算）する際に、各要素に対応する物理レジスタの領域に格納されるマスクビットを特定する。この結果、プロセッサ１０ｄにより、特定されたマスクビットに設定されるマスクパターンにしたがって、マスク演算が実行される。

【0018】

ここで、実施例１で用いる用語について簡単に説明する。マスクビットは、マスクレジスタの各要素の対応するビットを示す。マスクパターンは、対応するビットに設定するパターンを示し、例えば｛１,０,１,１｝や｛０,０,１,１｝などが該当する。マスクレジスタは、「ｖ０」で表し、マスクビットは、ｖ０の要素＃０の０ｂｉｔ目、要素＃１の１ｂｉｔ目などが該当する。

【0019】

発送部１３は、待機状態の命令などを実行する処理部であり、例えばＤＩＳＰＡＴＣＨＥＲの機能を有する。例えば、発送部１３は、命令処理部１１により入力された命令を、リネーマー１２によるリネーム処理の実行後に実行する。

【0020】

命令ウィンドウ１４は、発送部１３により実行された命令を演算回路１５に入力する処理部である。例えば、命令ウィンドウ１４は、待機状態にある命令を、演算回路１５の処理状況を監視して、適切なタイミングで演算回路１５に入力する。

【0021】

演算回路１５は、命令を実行する回路を含む処理部であり、例えば加算、減算などの各各種演算を実行する。レジスタファイル１６は、レジスタを集積した高速なストレージの一種であり、ＳＩＭＤ型演算の実行時にデータの格納等を行われる。

【0022】

（前提技術の説明）
次に、実施例１のプロセッサ１０ｄが実行する各処理について説明する。図２は、実施例１にかかる疎行列の並列演算を説明する図である。図２に示すように、プロセッサ１０ｄは、疎行列Ａの各要素（ｉ）とベクトルｘの各要素（ｖ）との演算である疎行列ベクトル積（ＳｐＭＶ：Sparse matrix－vector multiplication）を実行する場合に、疎行列Ａの複数行を一度に演算する。

【0023】

例えば、プロセッサ１０ｄは、インデックス「ｃｏｌ」のループで演算式「ｙ＋＝Ａ．ｖ（ｃｏｌ）×ｘ（Ａ．ｉ（ｃｏｌ））」を実行する。すなわち、プロセッサ１０ｄは、「Ａ．ｉ」をインデックス「ｃｏｌ」で取得（ストライドロード）してギャザーロード（ｘ）し、「Ａ．ｖ」をインデックス「ｃｏｌ」で取得（ストライドロード）し、それらのＦｍａ（Fused multiply add）を実行して「ｙ」に格納する。

【0024】

（マスク演算）
プロセッサ１０ｄは、ＳＩＭＤにより、上記図２で示した演算式を並列実行する際に、疎行列Ａの行ごとに要素数が異なるためマスク演算を実行する。図３は、マスク演算を説明する図である。図３に示すように、４要素の並列演算（並列計算）を実行する際に、要素１０以降では、要素が４個未満になり、さらに行ごとに要素数が異なる。このような場合に、プロセッサ１０ｄは、マスク演算を実行する。例えば、プロセッサ１０ｄは、｛０，１，１，１｝などのマスクベクトルを使用し、マスクベクトルで「０」とした要素の演算を実行しないように制御する。図３の例では、プロセッサ１０ｄは、ｚ（０）の計算だけ実行しない。

【0025】

ここで、ＲＩＳＣ－Ｖのマスク処理について説明する。図４は、ＲＩＳＣ－Ｖの要素マスクを説明する図である。図４に示すように、プロセッサ１０ｄは、６４ビットで区切られたｖ０からｖ３１の３２個の領域を有するベクトルレジスタの０番レジスタ「ｖ０」をマスクレジスタとして使用する。そして、プロセッサ１０ｄは、「ｖｏｐ．ｖｖ１，ｖ２，ｖ３，ｖ０．ｔ」を実行する。ここで、使用するマスクビットは、マスクレジスタｖ０における各要素に対応する領域に格納される。例えば、マスクレジスタｖ０の要素＃０の領域のビット０に要素０用のマスクパターンが設定され、マスクレジスタｖ０の要素＃１の領域のビット１に要素１用のマスクパターンが設定され、マスクレジスタｖ０の要素＃２の領域のビット２に要素２用のマスクパターンが設定される。

【0026】

このような状態で、プロセッサ１０ｄは、要素ごとにｖ０のｔ番目の要素の「ｔ－ｂｉｔ」が「０」か「１」かを判定し、「０」であればマスク演算を実行し、「１」であれば通常演算を実行する。なお、「ｖｏｐ」は、ベクトル命令のオペレーションであり、例えば加算や減算などである。

【0027】

しかし、上述したマスク演算では、演算の進捗にあわせてマスクパターンを変更することになり、さらに、マスクパターンを作るコードを最内ループで実行することが要求されるので、演算の低速化、処理性能の劣化への影響が大きい。例えば、１０万回のループ内部にマスク生成処理が２サイクル増えた場合、２０万サイクルの性能劣化が発生する。また、演算の進捗で差し替えるマスクパターンを予め用意して論理レジスタに保存しておくことになるので、論理レジスタを多用することになり、論理レジスタが枯渇することもある。

【0028】

（実装例および問題点）
次に、アセンブリコードの実装例を説明する。図５は、マスクパターンの差し替えによる問題点を説明する図である。図５では、１６行で各行が８つの要素を有する疎行列に対して、リネーム処理およびマスク処理を実行するアセンブリコードの実装例である。例えば、図５のアセンブリコードは、マスクの初期設定を行う右シフト「ｖ０，ｖ２１,０」の後、innerLabelのループ内に処理内容が規定される。例えば、ストライドロード「ｖ８，（ａ１），ｖ１１，ｖ０」は、ｖ８にインデックスをロードする命令であり、ｖ８は、結果を格納するベクトルレジスタ、ａ１は、ベクトルデータの先頭アドレス、ｖ１１は、複数のアドレスを示すインデックス情報である。なお、ストライドロードは、規則的なロード、ギャザーロードは、ランダムパターンのロードである。

【0029】

図５のアセンブリコードの詳細を説明する。ｖ８にインデックスをロードするインデックスをロードするストライドロード、ｖ９に行列の値をロードするストライドロード、ｖ１０にベクトルｘをロードするギャザーロード、積和を実行するＦｍａにより、上４要素の演算を実行する。その後、右シフトによりマスクパターンを変更し、ｖ１２にインデックスをロードするインデックスをロードするストライドロード、ｖ１３に行列の値をロードするストライドロード、ｖ１４にベクトルｘをロードするギャザーロード、積和を実行するＦｍａにより、下４要素の演算を実行する。その後、次のイテレーションのマスクを生成する「右シフト（ｖ０，ｖ２２，ｔ１）」、ＳＩＭＤ要素分の減算（インデックス－＝４）を実行する「Ｓｕｂ（ｔ０，ｔ０，４）」、マスクパターンの入れ替えを行う「Ａｄｄ（ｔ１，ｔ１，１）」が実行される。

【0030】

なお、論理レジスタ番号ｖ２１は、上４要素用のマスクパターン（例えば、｛0x1FFF，0x7FFE，0x3FFC，0x1FF8｝）であり、論理レジスタ番号ｖ２２は、下４要素用のマスクパターン（例えば、｛0x0FFF，0x7FFE，0x1FFC，0x0FF8｝である。

【0031】

図５の左図の場合、上４要素の処理を実行した後の右シフトで次のイテレーションのマスクパターンの入れ替え（ｖ２１からｖ２２へ）が発生するので、事前にマスクパターンを用意しておくことになり、論理レジスタを多く消費する。

【0032】

一方、図５の右図は、マスクパターンを１つの論理レジスタに置き換えた例である。この場合、マスクパターンの差し替えは行われないが、右シフトを順番に実行することになる。このため、同じ論理レジスタを使用することになり、ｖ２１のシフト結果を使用するという依存関係が発生する。

【0033】

図６は、右シフトによるマスクパターンの生成を説明する図である。図６に示すように、プロセッサ１０ｄは、図４で説明した手法に代えて、右１ビットシフトすると使用するマスクパターンが使用するビット位置に来るように、マスクレジスタｖ０の各要素の各ビットに右シフト用のマスクパターンを格納する。例えば、マスクレジスタｖ０の要素＃０の領域のビット０に「最初に使うマスクパターン」、ビット１に「２回目に使うマスクパターン」、ビット２に「３回目の使うマスクパターン」、ビット３に「４回目に使うマスクパターン」が設定される。また、マスクレジスタｖ０の要素＃１の領域のビット１に「最初に使うマスクパターン」、ビット２に「２回目に使うマスクパターン」、ビット３に「３回目の使うマスクパターン」、ビット４に「４回目に使うマスクパターン」が設定される。なお、１回目に使用するとは、右１ビットシフト後に使用すると同義であり、２回目に使用するとは、右２ビットシフト後に使用すると同義である。

【0034】

ところが、この手法では、右シフトの実行時に依存関係が発生する。図７は、依存関係の発生を説明する図である。図７には、各命令が実行されるタイミングが「Ｅｘ」で表されている。図７に示すように、右シフトで「論理レジスタ番号ｖ２１」を共有することから、依存関係が生じる。このため、右シフトを順番に実行することになり、処理の低速化に繋がる。

【0035】

（リネーム処理）
上述した手法では、右シフトの依存関係により処理の低速化が発生することから、右シフトの依存関係を解消するために、プロセッサ１０ｄは、リネーマー１２によるリネーム処理をマスクレジスタに適用することで、依存関係を解消する。

【0036】

図８は、リネーム処理を説明する図である。図８に示すように、プロセッサ１０ｄは、論理レジスタよりも数倍の容量がある物理レジスタを活用するために、ｘ＃というプログラム上のレジスタ番号をｐ＃という物理的なレジスタ番号に割り当て直すことで依存関係の解消を図るリネーム処理を実行する。

【0037】

図８の例では、プロセッサ１０ｄは、演算「Ｉ１：ｍｕｌｘ３←ｘ２×４」、「Ｉ２：ａｄｄｘ３←ｘ１＋１」、「Ｉ３：ｓｕｂｘ１←ｘ５－１」、「Ｉ４：ａｎｄｘ６←ｘ７＆１」に対して、フリーリスト１２ａで空いている物理レジスタ番号を特定し、ＲＭＴ１２ｂに新たに登録することで、「Ｉ１：ｍｕｌｐ２０←ｐ１２×４」、「Ｉ２：ａｄｄｐ２３←ｐ１１＋１」、「Ｉ３：ｓｕｂｐ２２←ｐ１５－１」、「Ｉ４：ａｎｄｐ２３←ｐ１７＆１」に変換するリネーム処理を実行する。なお、図８の右図は、フリーリスト１２ａからＲＭＴ１２ｂへの登録および演算のリネームの例示であり、例えば、フリーリスト１２ａにあるｐ２３をＲＭＴ１２ｂに登録し、Ｉ２のｘ３をｐ２３でリネームすることを示している。

【0038】

すなわち、プロセッサ１０ｄは、Ｉ１とＩ２で依存関係がある論理レジスタ番号ｘ３それぞれを物理レジスタ番号ｐ２０とｐ２３にリネームし、Ｉ２とＩ３で依存関係がある論理レジスタ番号ｘ１それぞれを物理レジスタ番号ｐ１１とｐ２４にリネームすることで、右シフトの依存関係を解消して、Ｉ１からＩ４を並列に実行する。

【0039】

図９は、リネームによる依存関係の解消例を説明する図である。図９では、図５と同様、１６行で各行が８つの要素を有する疎行列に対して、リネーム処理およびマスク処理を実行するアセンブリコードの実装例で説明する。

【0040】

図９に示すように、プロセッサ１０ｄは、リネーマー１２等により、マスクの初期設定であるループ外で実行される右シフトの後、ループ内の右シフトにおける論理レジスタ番号をリネームする。例えば、プロセッサ１０ｄは、ループ内の１回目の右シフトにおける論理レジスタ番号ｖ０を物理レジスタ番号ｐｖ０にリネームし、ループ内の２回目の右シフトにおける論理レジスタ番号ｖ０を物理レジスタ番号ｐｖ１にリネームし、演算を実行する。この結果、プロセッサ１０ｄは、論理レジスタ番号を書き換えることから、２つの右シフトを並列に実行することができる。

【0041】

しかし、このリネーム処理では、右シフトの依存関係は解消できるものの、依然として論理レジスタを多く使用することから、論理レジスタの使用量が多く、枯渇する可能性が高い。

【0042】

そこで、実施例１では、リネーマー１２による処理を改良し、右シフトの依存関係の解消と、論理レジスタの使用量の削減とを両立する。具体的には、プロセッサ１０ｄは、リネーマー１２でマスクレジスタのビット毎に分解し、別々の物理レジスタに割り当てる。

【0043】

（リネーム処理の改良）
図１０は、実施例１におけるリネーム処理を説明する図である。図１０に示すように、プロセッサ１０ｄは、マスク演算に用いるマスクレジスタにおける、疎行列の各行の各要素に対応するビットを示す複数のマスクビットそれぞれに、マスク演算を指定する各マスクパターンを設定する。プロセッサ１０ｄは、各マスクパターンが設定される複数のマスクビットそれぞれを、物理レジスタの異なる領域（レジスタ番号）に展開する。

【0044】

その後、プロセッサ１０ｄは、疎行列の各行の各要素を並列に演算する際に、各要素に対応する物理レジスタの領域に格納されるマスクビットを特定する。プロセッサ１０ｄは、特定されたマスクビットに設定されるマスクパターンにしたがって、マスク演算を実行する。

【0045】

具体的には、図１０に示すように、プロセッサ１０ｄは、図６と同様、マスクレジスタｖ０の各要素に対応した領域のマスクビットに、マスクパターンを設定する。例えば、プロセッサ１０ｄは、論理レジスタであるマスクレジスタｖ０の要素＃０用の領域のビット０に「最初に使うマスクパターン」、ビット１に「２回目に使うマスクパターン」、ビット２に「３回目の使うマスクパターン」、ビット３に「４回目に使うマスクパターン」を設定する。

【0046】

また、プロセッサ１０ｄは、物理レジスタであるｐｖ０、ｐｖ１、ｐｖ２、ｐｖ３、ｐｖ４を用意し、各物理レジスタにマスクビットの位置（０，１，２，３）を対応付ける。

【0047】

そして、プロセッサ１０ｄは、物理レジスタｐｖ０の要素＃０領域のマスクビット０に、マスクレジスタｖ０の要素＃０のマスクビット０を展開（配置）し、物理レジスタｐｖ１の要素＃０領域のマスクビット０に、マスクレジスタｖ０の要素＃０のマスクビット１を展開する。プロセッサ１０ｄは、物理レジスタｐｖ２の要素＃０領域のマスクビット０に、マスクレジスタｖ０の要素＃０のマスクビット２を展開し、物理レジスタｐｖ３の要素＃０領域のマスクビット０に、マスクレジスタｖ０の要素＃０の領域のマスクビット３を展開する。

【0048】

同様に、プロセッサ１０ｄは、物理レジスタｐｖ０の要素＃１領域のマスクビット１に、マスクレジスタｖ０の要素＃１のマスクビット１を展開し、物理レジスタｐｖ１の要素＃１領域のマスクビット１に、マスクレジスタｖ０の要素＃１のマスクビット２を展開する。プロセッサ１０ｄは、物理レジスタｐｖ２の要素＃１領域のマスクビット１に、マスクレジスタｖ０の要素＃１のマスクビット３を展開し、物理レジスタｐｖ３の要素＃１領域のマスクビット１に、マスクレジスタｖ０の要素＃１用のマスクビット４を展開する。

【0049】

同様に、プロセッサ１０ｄは、物理レジスタｐｖ０の要素＃２領域のマスクビット２に、マスクレジスタｖ０の要素＃２のマスクビット２を展開し、物理レジスタｐｖ１の要素＃２領域のマスクビット２に、マスクレジスタｖ０の要素＃２のマスクビット３を展開する。プロセッサ１０ｄは、物理レジスタｐｖ２の要素＃２領域のマスクビット２に、マスクレジスタｖ０の要素＃２のマスクビット４を展開し、物理レジスタｐｖ３の要素＃２領域のマスクビット２に、マスクレジスタｖ０の要素＃２のマスクビット５を展開する。

【0050】

同様に、プロセッサ１０ｄは、物理レジスタｐｖ０の要素＃３領域のマスクビット３に、マスクレジスタｖ０の要素＃３のマスクビット３を展開し、物理レジスタｐｖ１の要素＃３領域のマスクビット３に、マスクレジスタｖ０の要素＃３のマスクビット４を展開する。プロセッサ１０ｄは、物理レジスタｐｖ２の要素＃３領域のマスクビット３に、マスクレジスタｖ０の要素＃３のマスクビット５を展開し、物理レジスタｐｖ３の要素＃３領域のマスクビット３に、マスクレジスタｖ０の要素＃３のマスクビット６を展開する。

【0051】

つまり、プロセッサ１０ｄは、参照するマスクビットがビット０の場合は、ｐｖ０の各マスクビットにより特定される各マスクパターンを用いたマスク処理を実行し、参照するマスクビットがビット１の場合は、ｐｖ１の各マスクビットにより特定される各マスクパターンを用いたマスク処理を実行する。同様に、プロセッサ１０ｄは、参照するマスクビットがビット２の場合は、ｐｖ２の各マスクビットにより特定される各マスクパターンを用いたマスク処理を実行し、参照するマスクビットがビット３の場合は、ｐｖ３の各マスクビットにより特定される各マスクパターンを用いたマスク処理を実行する。

【0052】

また、プロセッサ１０ｄは、ＲＭＴ１２ｂにおいてもマスクビットの位置（０，１，２，３）を対応付け、フリーリスト１２ａにおいてもマスクビットの位置（０，１，２，３）を対応付ける。この結果、プロセッサ１０ｄは、どの物理レジスタがどのビット位置で使用されているかを管理することができるので、リネーム後に元に戻す際も、正確に論理レジスタ番号に戻すことができる。

【0053】

図１１は、実施例１による効果を説明する図である。図１１に示すように、プロセッサ１０ｄは、マスク初期設定の右シフト「ｖ０，ｖ２１,０」の後において、はじめの演算処理では「ｐｖ２０」、次の演算処理では「ｐｖ２１」、次の演算処理では「ｐｖ２２」をマスクレジスタとして割り当てることができる。この結果、プロセッサ１０ｄは、各演算の右シフトを実行しても別々の物理レジスタへアクセスすることになるので、右シフトの依存関係を解消することができる。さらに、プロセッサ１０ｄは、論理レジスタの使用量を削減することもできる。

【0054】

なお、図１１に示したアセンブリコードのループ処理は、アドレス更新とループ回数の更新であり、ベクターとは異なるスカラーパイプラインを用いるので、並列実行が可能である。例えば、アドレス更新の一例は、「Ａｄｄａ１，ａ１，ｔ２」、「Ａｄｄａ２，ａ２，ｔ２」、「Ａｄｄａ３，ａ３，ｔ２」、「Ａｄｄａ４，ａ４，ｔ２」、「Ａｄｄａ５，ａ５，ｔ２」、「Ａｄｄａ６，ａ６，ｔ２」などである。ループ回数の更新は、「Ｓｕｂｔ０，ｔ０，４」、「Ａｄｄｔ１，ｔ１，１」である。

【0055】

（処理の流れ）
図１２は、実施例１におけるリネーム処理の流れを説明するフローチャートである。図１２に示すように、プロセッサ１０ｄは、本機能がＯＮであり（Ｓ１０１：Ｙｅｓ）、プログラムカウンタ（ＰＣ）が設定範囲であり（Ｓ１０２：Ｙｅｓ）、論理レジスタが予め指定したｖ０である場合に（Ｓ１０３：Ｙｅｓ）、ビット位置情報を付与する図１０から図１１で説明したリネーム処理を実行する（Ｓ１０４）。その後、プロセッサ１０ｄは、改良型のリネーム処理を実行しつつ、演算処理を実行する。

【0056】

一方、プロセッサ１０ｄは、本機能がＯＮではなく（Ｓ１０１：Ｎｏ）、プログラムカウンタＰＣが設定範囲ではなく（Ｓ１０２：Ｎｏ）、または、論理レジスタが予め指定したｖ０ではない場合に（Ｓ１０３：Ｎｏ）、図８から図９で説明した通常のリネーム処理を実行する（Ｓ１０５）。その後は、プロセッサ１０ｄは、通常のリネーム処理を実行しつつ、演算処理を実行する。

【0057】

すなわち、プロセッサ１０ｄは、実施例１による機能をＯＮ、ＯＦＦの設定を可能とし、特定のループ内でのみ動作するよう適用範囲をＰＣ（プログラムカウンタ）で指定可能とする。また、プロセッサ１０ｄは、展開をするレジスタをｖ０のみとし、上記条件を満たした場合のみ、上述した展開とビット位置情報の追加を行う。

【0058】

図１３は、実施例１における解放処理の流れを説明するフローチャートである。図１３に示すように、プロセッサ１０ｄは、物理レジスタが解放条件を満たし（Ｓ２０１：Ｙｅｓ）、論理レジスタがｖ０であり（Ｓ２０２：Ｙｅｓ）、全ビットが解放条件を満たした場合（Ｓ２０３：Ｙｅｓ）、リネーマーに使用した物理レジスタを解放する（Ｓ２０４）。その後、プロセッサ１０ｄは、リネーマーに使用したすべての物理レジスタについて解放が終了すると（Ｓ２０５：Ｙｅｓ）、解放処理を終了し、未解放の物理レジスタが存在すると（Ｓ２０５：Ｎｏ）、Ｓ２０１以降を繰り返す。

【0059】

すなわち、プロセッサ１０ｄは、割り当てられた物理レジスタが通常技術どおり役目を終えた時点で解放する。実施例１では、プロセッサ１０ｄは、通常の解放判定に加えて、マスク情報が割り当てられた物理レジスタが通常の解放条件を満たしたか否かの追加判定を実行する。例えば、プロセッサ１０ｄは、解放対象がｖ０の場合、実施例１によるリネームが適用されている可能性があるためさらに詳細を確認する。具体的には、プロセッサ１０ｄは、ｖ０の情報が複数の物理レジスタに展開されているため、それらがすべて解放可能かをビット位置情報で判断する。プロセッサ１０ｄは、論理レジスタｖ０に紐づけられた物理レジスタのうちビット位置情報を持つものすべてが解放可能であれば解放する。

【0060】

図１４は、解放処理における解放判定を説明する図である。図１４の上図は、実施例１によるリネーム処理が実行されたＲＭＴ１２ｂを示しており、マスクレジスタｖ０のマスク情報がｐｖ２０、ｐｖ２１に展開されている状態である。ここで、ｐｖ２０は、０ビット右シフトされたマスク情報であり、ｐｖ２１は、１ビット右シフトされたマスク情報である。

【0061】

その後、プロセッサ１０ｄは、図１４の下図に示すように、ｐｖ２０のマスク情報がすでに演算を終えて解放可能となったが、ｐｖ２１のマスク情報がまだ演算を終えていない場合、解放不可と判定する。すなわち、プロセッサ１０ｄは、最後のマスク演算が行われるまでこれらの解放を抑制する。

【0062】

（効果）
上述したように、プロセッサ１０ｄは、論理レジスタよりも容量の多い物理レジスタを用いて疎行列の並列演算を実行することができる。プロセッサ１０ｄは、マスク演算に用いるマスクレジスタのリネームを実行する際に、物理レジスタへのリネームを実行することができる。プロセッサ１０ｄは、物理レジスタへのリネームを実行する際に、複数の物理レジスタに、マスクレジスタの各マスクビットを分散させて展開することができる。この結果、プロセッサ１０ｄは、マスクパターンの入れ替えに伴う右シフトの依存関係を解消しつつ、不要な論理レジスタの使用を抑制できるので、右シフトの依存関係の解消と、論理レジスタの使用量の削減とを両立することができる。

【0063】

プロセッサ１０ｄは、マスク演算で使用した各物理レジスタの使用が完了してから、物理ジスタを解放するので、物理レジスタが演算途中で解放されることを抑制でき、演算の不具合発生や再リネームなどの不要な処理を削減できる。

【実施例0064】

（数値等）
上記実施例で用いた各レジスタの番号、マスクパターン、マスクビット、演算、ループ処理など等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。なお、プロセッサ１０ｄは、例えばＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processor Unit）などである。

【0065】

（システム）
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0066】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0067】

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0068】

（ハードウェア）
図１５は、ハードウェア構成例を説明する図である。図１５に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１５に示した各部は、バス等で相互に接続される。

【0069】

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図１に示した機能を動作させるプログラムやＤＢを記憶する。

【0070】

プロセッサ１０ｄは、図１に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図１等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、リネーマー１２と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、リネーマー１２と同様の処理を実行するプロセスを実行する。

【0071】

このように、情報処理装置１０は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。

【0072】

このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版