特許7513080 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7513080処理システム及び処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-01

(45)【発行日】2024-07-09

(54)【発明の名称】処理システム及び処理方法

(51)【国際特許分類】

G06F 8/41 20180101AFI20240702BHJP

G06F 9/30 20180101ALI20240702BHJP

G06F 17/16 20060101ALI20240702BHJP

【ＦＩ】

G06F8/41 130

G06F9/30 350A

G06F17/16 D

G06F17/16 E

G06F17/16 G

【請求項の数】 6

(21)【出願番号】P 2022501869

(86)(22)【出願日】2021-02-15

(86)【国際出願番号】 JP2021005479

(87)【国際公開番号】W WO2021166840

(87)【国際公開日】2021-08-26

【審査請求日】2022-08-03

(31)【優先権主張番号】P 2020024338

(32)【優先日】2020-02-17

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100181135

【弁理士】

【氏名又は名称】橋本隆史

(72)【発明者】

【氏名】平田敏也

【審査官】坂庭剛史

(56)【参考文献】

【文献】特開平０４－１２７３６６（ＪＰ，Ａ）

【文献】特開平０５－０５４０５９（ＪＰ，Ａ）

【文献】特開平１１－２４２５９８（ＪＰ，Ａ）

【文献】特開２００３－１５０５７７（ＪＰ，Ａ）

【文献】米国特許出願公開第２００７／０２８３１２７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１６／００９２２８５（ＵＳ，Ａ１）

【文献】杉山徹、寺田直樹、村田健史、大村善治、臼井英之、松本紘，ＬＩＳＴＶＥＣ指示行を使った多粒子シミュレーションの大規模化－主メモリを節約し、かつ高速化を可能にする１つの方法，情報処理学会論文誌，日本，社団法人情報処理学会，2004年05月15日，Ｖｏｌ．４５，Ｎｏ．ＳＩＧ６（ＡＣＳ６），ｐｐ．１７１－１７５，ISSN 0387-5806

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ８／４１

Ｇ０６Ｆ９／３０

Ｇ０６Ｆ１７／１６

(57)【特許請求の範囲】

【請求項1】

ベクトルプロセッサを有する演算装置に演算を実行させる命令を生成するコンパイル装置であって、
間接アドレス参照される配列のアドレスを算出することを前記演算装置に実行させる命令を生成し、
算出した前記アドレスの重複を検出しベクトルマスクを作成することを前記演算装置に実行させる命令を生成し、
前記ベクトルマスクのビットに基づいて、ベクトルどうしの演算を行うことを前記演算装置に実行させる命令を生成し、
前記ベクトルどうしの演算結果に基づいてスカラで計算し直すことを前記演算装置に実行させる命令を生成し、
前記演算装置に実行させる命令は、前記アドレスの重複を検出し前記ベクトルマスクを作成することを実行させるＶＦＭＤ命令であり、前記コンパイル装置のコンピュータにおけるＣＰＵからメモリへのアクセスを、前記ＣＰＵから前記コンピュータにおけるレジスタへのアクセスに変更させるＶＦＭＤ命令を含む、
コンパイル装置と、
前記コンパイル装置によって生成された命令に従って演算する前記演算装置と、
を備える処理システム。

【請求項2】

前記コンパイル装置は、
前記レジスタにおいてアドレスの重複がある場合に、前記ベクトルどうしの演算をスカラで計算し直すスカラ再計算命令を生成する、
請求項１に記載の処理システム。

【請求項3】

前記演算装置が実行する演算は、加算または減算である、
請求項１または請求項２に記載の処理システム。

【請求項4】

ベクトルプロセッサを有する演算装置と、前記演算装置に演算を実行させる命令を生成するコンパイル装置と、を備える処理システムが実行する処理方法であって、
前記コンパイル装置は、
間接アドレス参照される配列のアドレスを算出することを前記演算装置に実行させる命令を生成し、
算出した前記アドレスの重複を検出しベクトルマスクを作成することを前記演算装置に実行させる命令を生成し、
前記ベクトルマスクのビットに基づいて、ベクトルどうしの演算を行うことを前記演算装置に実行させる命令を生成し、
前記ベクトルどうしの演算結果に基づいてスカラで計算し直すことを前記演算装置に実行させる命令を生成し、
前記演算装置に実行させる命令は、前記アドレスの重複を検出し前記ベクトルマスクを作成することを実行させるＶＦＭＤ命令であり、前記コンパイル装置のコンピュータにおけるＣＰＵからメモリへのアクセスを、前記ＣＰＵから前記コンピュータにおけるレジスタへのアクセスに変更させるＶＦＭＤ命令を含み、
前記演算装置は、
前記コンパイル装置によって生成された命令に従って演算する、
処理方法。

【請求項5】

前記コンパイル装置は、
前記レジスタにおいてアドレスの重複がある場合に、前記ベクトルどうしの演算をスカラで計算し直すスカラ再計算命令を生成する、
請求項４に記載の処理方法。

【請求項6】

前記演算装置が実行する演算は、加算または減算である、
請求項４または請求項５に記載の処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、処理システム及び処理方法に関する。

【背景技術】

【0002】

大規模数値解析やシミュレーションを行う分野（例えば、ＡＩやビッグデータを扱う分野）では、ベクトル命令を有する計算機を利用して情報処理が行われることがある。
特許文献１には、関連する技術として、ベクトル演算を実行する際にアドレス衝突を管理するための装置及び方法に関する技術が開示されている。
特許文献２には、関連する技術として、リストベクトルをベクトルレジスタ上で扱う技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特表２０１９－５１７０６０号公報

【文献】特開平４－１２７３６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、次のような間接アドレス参照を含む総和演算のことをリスト総和演算と呼ぶ。
ＤＯＩ＝１，Ｎ
Ｘ（Ｌ（Ｉ））＝Ｘ（Ｌ（Ｉ））＋Ｙ（Ｉ）
ＥＮＤＤＯ
このリスト総和演算において、Ｌ（Ｉ）中に同一の値が重複する場合がある。Ｘ（Ｌ（Ｉ））の定義と参照には依存関係がある。そのため、Ｌ（Ｉ）中に同一の値が重複する場合、ベクトル演算を行うことができず、スカラ命令を用いて逐次処理を行うことになる。

【0005】

例えば、非特許文献である“Ｓｕｇｉｙａｍａ，Ｔ．，Ｎ．Ｔｅｒａｄａ，Ｔ．Ｍｕｒａｔａ，Ｙ．Ｏｍｕｒａ，Ｈ．Ｕｓｕｉ，ａｎｄＨ．Ｍａｔｓｕｍｏｔｏ，ＶｅｃｔｏｒｉｚｅｄＰａｒｔｉｃｌｅＳｉｍｕｌａｔｉｏｎＵｓｉｎｇ“ＬＩＳＴＶＥＣ” Ｃｏｍｐｉｌｅ－ｄｉｒｅｃｔｉｖｅｏｎＳＸＳｕｐｅｒ－ｃｏｍｐｕｔｅｒ，ＩＰＳＪｊｏｕｒｎａｌ，４５，ＳＩＧ６（ＡＣＳ６），ｐ．１７１（２００４）”などによるＬＩＳＴＶＥＣ指示行法は、初めに重複を考慮せずにベクトル演算を行い、その後、重複を検出する命令を生成し、重複している要素についてスカラで再計算するという手法である。この手法を用いた場合、重複の数が少なければ少ないほどベクトル化の効果が高まり処理を高速化することができる。図１５に、この手法を用いた場合に、上記リスト総和演算に対して生成される命令列の例を示す。図１５に示す命令列の例では、加算対象の配列Ｘの要素数を最大ベクトル長２５６に区切ってループで処理を行っている。しかしながら、図１５の行番号１０、１１に示すように、重複を検出するための処理において、ＬＩＳＴＶＥＣ指示行法に係るコンパイラは、ベクトルスキャッター命令（以下、ＶＳＣ命令と記載）とベクトルギャザー命令（以下、ＶＧＴ命令と記載）を生成する。一般的に、ＶＳＣ命令、ＶＧＴ命令は実行コストが高く、ＬＩＳＴＶＥＣ指示行法を用いた場合、これらの命令がループの繰り返しごとに実行されることとなるため、リスト総和演算の実行時間が長くなってしまうという課題がある。
そのため、リスト総和演算において要素が重複する場合であってもリスト総和演算の実行時間を短くすることのできる技術が求められている。

【0006】

本発明の各態様は、上記の課題を解決することのできる処理システム及び処理方法を提供することを目的としている。

【課題を解決するための手段】

【0009】

上記目的を達成するために、本発明の別の態様によれば、処理システムは、ベクトルプロセッサを有する演算装置に演算を実行させる命令を生成するコンパイル装置であって、間接アドレス参照される配列のアドレスを算出することを前記演算装置に実行させる命令を生成し、算出した前記アドレスの重複を検出しベクトルマスクを作成することを前記演算装置に実行させる命令を生成し、前記ベクトルマスクのビットに基づいて、ベクトルどうしの演算を行うことを前記演算装置に実行させる命令を生成し、前記ベクトルどうしの演算結果に基づいてスカラで計算し直すことを前記演算装置に実行させる命令を生成し、前記演算装置に実行させる命令は、前記アドレスの重複を検出し前記ベクトルマスクを作成することを実行させるＶＦＭＤ命令であり、前記コンパイル装置のコンピュータにおけるＣＰＵからメモリへのアクセスを、前記ＣＰＵから前記コンピュータにおけるレジスタへのアクセスに変更させるＶＦＭＤ命令を含む、コンパイル装置と、前記コンパイル装置によって生成された命令に従って演算する前記演算装置と、を備える。

【0010】

上記目的を達成するために、本発明の別の態様によれば、処理方法は、ベクトルプロセッサを有する演算装置と、前記演算装置に演算を実行させる命令を生成するコンパイル装置と、を備える処理システムが実行する処理方法であって、前記コンパイル装置は、間接アドレス参照される配列のアドレスを算出することを前記演算装置に実行させる命令を生成し、算出した前記アドレスの重複を検出しベクトルマスクを作成することを前記演算装置に実行させる命令を生成し、前記ベクトルマスクのビットに基づいて、ベクトルどうしの演算を行うことを前記演算装置に実行させる命令を生成し、前記ベクトルどうしの演算結果に基づいてスカラで計算し直すことを前記演算装置に実行させる命令を生成し、前記演算装置に実行させる命令は、前記アドレスの重複を検出し前記ベクトルマスクを作成することを実行させるＶＦＭＤ命令であり、前記コンパイル装置のコンピュータにおけるＣＰＵからメモリへのアクセスを、前記ＣＰＵから前記コンピュータにおけるレジスタへのアクセスに変更させるＶＦＭＤ命令を含み、前記演算装置は、前記コンパイル装置によって生成された命令に従って演算する。

【発明の効果】

【0011】

本発明の各態様によれば、リスト総和演算において要素が重複する場合であってもリスト総和演算の実行時間を短くすることができる。

【図面の簡単な説明】

【0012】

【図1】本発明の一実施形態による処理システムの構成の一例を示す図である。

【図2】本発明の一実施形態によるコンパイル装置においてコンパイラによって実現される機能の一例を示す図である。

【図3】本発明の一実施形態によるベクトル命令生成手段の一例を示す図である。

【図4】本発明の一実施形態によるコンパイラによって生成されるリスト総和演算の命令列の一例を示す図である。

【図5】本発明の一実施形態によるニーモニックの一例を示す図である。

【図6】本発明の一実施形態による演算装置の処理フローの一例を示す図である。

【図7】本発明の一実施形態による演算装置による処理を説明するための第１の図である。

【図8】本発明の一実施形態による演算装置による処理を説明するための第２の図である。

【図9】本発明の一実施形態による演算装置による処理を説明するための第３の図である。

【図10】本発明の一実施形態による演算装置による処理を説明するための第４の図である。

【図11】本発明の一実施形態による演算装置による処理を説明するための第５の図である。

【図12】本発明の実施形態による最小構成のコンパイル装置を示す図である。

【図13】本発明の実施形態による最小構成のコンパイル装置の処理フローの一例を示す図である。

【図14】少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

【図15】本発明に関連するコンパイラによって生成されるリスト総和演算の命令列の一例を示す図である。

【発明を実施するための形態】

【0013】

以下、図面を参照しながら実施形態について詳しく説明する。
＜実施形態＞
本発明の一実施形態によるコンパイラ１は、コンパイル装置１０において、間接アドレス参照を含む総和演算を高速処理するベクトル命令生成機能を有するコンパイラである。具体的には、コンパイラ１は、単一のベクトルレジスタ内で同一の値をもつ要素を検出してベクトルマスクを作成するＶＦＭＤ命令を新規に追加し、このＶＦＭＤ命令を用いて間接アクセスをともなう実行コストの大きい命令を削減した高速な命令列を生成するコンパイラである。
なお、コンパイラ１によって生成された命令列に従って処理を実行する対象となるハードウェアは、リストベクトルで指定されたベクトルレジスタの各要素に格納されたメモリ上のアドレスが指し示すデータをロード先のベクトルレジスタにロードするベクトルギャザー命令、および、リストベクトルで指定されたベクトルレジスタの各要素に格納されたメモリ上のストア先のアドレスにベクトルレジスタ上のデータをストアするベクトルスキャッター命令を命令セットに備えたベクトルプロセッサを有する演算装置２０である。
本発明の一実施形態による処理システム１００は、図１に示すように、コンパイル装置１０、演算装置２０を備える。

【0014】

コンパイラ１は、コンパイル装置１０において、ソースプログラムからオブジェクトコード（命令）を生成する。コンパイラ１は、図２に示すように、コンパイル装置１０において、コード解析手段１１、命令生成手段１２として機能する。

【0015】

コード解析手段１１は、プログラムを解析しリスト総和演算のベクトル化を行うか否かを判定する手段である。コード解析手段１１は、指示行解析手段１１１、リスト総和演算構文解析手段１１２を含む。
指示行解析手段１１１は、リスト総和演算のベクトル化を許可する指示行が指定されているか否かを解析する。
リスト総和演算構文解析手段１１２は、指示行解析手段１１１がリスト総和演算のベクトル化を許可する指示行が指定されていると解析した場合、その指示行が指定されているリスト総和演算がベクトル化可能な形式であるかを解析する。

【0016】

命令生成手段１２は、コード解析手段１１が解析結果によりリスト総和演算のベクトル化を行うと判定した場合、ベクトル化コードを生成する手段である。命令生成手段１２は、ベクトル命令生成手段１２１、スカラ再計算命令生成手段１２２を含む。
ベクトル命令生成手段１２１は、全要素のベクトル加算を行い、その加算の際にアドレスの重複を検出する命令を生成する。
スカラ再計算命令生成手段１２２は、アドレスの重複により結果が不正となっている要素についてスカラで計算し直す命令（以下、「スカラ再計算命令」と記載）を生成する。

【0017】

なお、コード解析手段１１及びスカラ再計算命令生成手段１２２は、ＬＩＳＴＶＥＣ指示行法に係るコンパイラも有する手段であり、例えば、「ＡｌｆｒｅｄＶ．Ａｈｏ，ＭｏｎｉｃａＳ．Ｌａｍ，ＲａｖｉＳｅｔｈｉ，ａｎｄＪｅｆｆｒｅｙＤ．Ｕｌｌｍａｎ，“Ｃｏｍｐｉｌｅｒｓ：Ｐｒｉｎｃｉｐｌｅｓ，Ｔｅｃｈｎｉｑｕｅｓ，ａｎｄＴｏｏｌｓ（２ｎｄＥｄｉｔｉｏｎ）”，（米国），ＰｅａｒｓｏｎＥｄｕｃａｔｉｏｎ，Ｉｎｃ，２００７，ｐｐ．１－５８１」に記載されている技術と同様に実現するものであってもよい。

【0018】

ベクトル命令生成手段１２１は、図３に示すように、アドレス計算手段１２１１、重複検出－マスク作成手段１２１２、ベクトル加算手段１２１３、結果不正項検出手段１２１４を含む。
アドレス計算手段１２１１は、間接アドレス参照される配列のアドレスを算出する。
重複検出－マスク作成手段１２１２は、アドレス計算手段１２１１が算出したアドレスの重複を検出しベクトルマスクを作成する。
ベクトル加算手段１２１３は、ベクトルマスクのビットに基づいて、ベクトルどうしの加算を演算する。
結果不正項検出手段１２１４は、スカラ再計算命令を生成する必要性を確認して処理の分岐を行う。つまり、結果不正項検出手段１２１４は、ベクトルどうしの加算結果が不正となることを加算演算を行う前に検出することによってスカラ再計算命令の生成が必要であると判定した場合に、スカラ再計算命令の生成をベクトル加算手段１２１３に実行させる。

【0019】

次に、図４に示す本発明の一実施形態によるコンパイラ１によって生成されるリスト総和演算の命令列を例に、ベクトル命令生成手段１２１が生成する命令について説明する。
アドレス計算手段１２１１は、図４に示す行番号６、７の命令を生成し、Ｘ（Ｌ（Ｉ））の各要素のアドレスを算出する。重複検出－マスク作成手段１２１２は、図４に示す行番号８において新規に追加したＶＦＭＤ命令を生成し、ベクトルレジスタに格納されたＸ（Ｌ（Ｉ））の各要素のアドレスの重複を検出し、ベクトルマスクを生成する。ベクトル加算手段１２１３は、図４に示す行番号９から行番号１２の命令を生成し、Ｘ（Ｌ（Ｉ））＋Ｙ（Ｉ）のベクトル加算を行い、その演算結果をＸ（Ｌ（Ｉ））が示すメモリに書き込む。結果不正項検出手段１２１４は、行番号１３、１４の命令を生成し、ＰＣＶＭ命令に応じて重複検出－マスク作成手段１２１２が作成したベクトルマスクのビットが１となっている要素の数を数え、数が０でない、つまりアドレスの重複が１つでもあればスカラ再計算命令を生成する処理へと分岐させる。

【0020】

なお、図４に示す本発明の一実施形態によるコンパイラ１によって生成されるリスト総和演算の命令列と、図１５に示すＬＩＳＴＶＥＣ指示行法を用いて生成される命令列とを比較すると、図１５に示す命令列において、アドレス重複検出のために生成していたＶＳＥＱ（ベクトルシーケンシャルナンバー命令）（行番号１）、ＶＳＣ（行番号１０）、ＶＧＴ（行番号１１）、ＶＣＭＰＳ（ベクトルコンペア命令）（行番号１５）、および、ＶＦＭＫ（ベクトルフォームマスク命令）（行番号１６）の各命令が、図４に示す命令列では生成されず、それらの命令の代わりに新規にＶＦＭＤ命令（行番号８）が生成される。

【0021】

図１５に示すＬＩＳＴＶＥＣ指示行法を用いて生成される命令列の例の場合、行番号８において、ＶＳＦＡ命令（ＶｅｃｔｏｒＳｈｉｆｔＬｅｆｔａｎｄＡｄｄ）を生成し、Ｘ（Ｌ（Ｉ））の各要素のアドレスを算出してベクトルレジスタに格納している。また、図１５に示すＬＩＳＴＶＥＣ指示行法を用いて生成される命令列の例の場合、４バイトデータをコンパイルの対象としており、“ｖｓｆａ％ｖ５９，％ｖ６０，２，％ｓ５９”という命令が生成される。そして、図１５に示すＬＩＳＴＶＥＣ指示行法を用いて生成される命令列の例の場合、１つ前の行番号７でベクトルレジスタ％ｖ６０にＬ（Ｉ）の各要素が格納されており、これにデータサイズの４バイトを乗算した値に、スカラレジスタ％ｓ５９に格納されたＸのアドレスを加算してＸ（Ｌ（Ｉ））のアドレスを算出し、ベクトルレジスタ％ｖ５９に格納している。
一方、図４に示す本発明の一実施形態によるコンパイラ１によって生成されるリスト総和演算の命令列の例の場合、Ｘ（Ｌ（Ｉ））の各要素のアドレスを格納したベクトルレジスタ％ｖ５９に対して、同一の値をもつ要素がないか、つまりＸ（Ｌ（Ｉ））のアドレスに重複がないかを検出し、重複する要素のインデックス番号のビットを１とするベクトルマスクを作成する命令が新規に追加される。この新規命令の名前をＶＦＭＤ（ＶｅｃｔｏｒＦｏｒｍＭａｓｋＤｕｐｌｉｃａｔｅ）とし、ニーモニックの例を図５に示す。図５に示すように、ＶＦＭＤ命令は、上述したＶＳＦＡ命令で算出されたＸ（Ｌ（Ｉ））の各要素のアドレスを格納したベクトルレジスタＶＲ０をソースとし、作成したベクトルマスクをベクトルマスクレジスタＶＭ０に格納する。
本発明の一実施形態によるコンパイラ１は、この新規に追加したベクトルマスク作成命令ＶＦＭＤを生成する機能を備え、例えば、ＬＩＳＴＶＥＣ指示行法を用いてアドレスの重複を検出する際に生成していたＶＳＣ命令とＶＧＴ命令を含む命令列に代わって、新規にＶＦＭＤ命令を生成することにより、リスト総和演算における実行コストの高い命令を削減し、処理の高速化を実現する。

【0022】

次に、コンパイラ１によって生成されたオブジェクトコード（命令）を実行する演算装置２０の処理について説明する。
ここでは、図６に示す演算装置２０のリスト総和演算の処理について図７～図１１を用いて説明する。
なお、図７～図１１に示す具体的な数値を用いたリスト総和演算の処理は、一例であり、本発明の一実施形態による演算装置２０のリスト総和演算の処理を限定するものではない。

【0023】

配列Ｘと、配列Ｙと、配列Ｘのインデックスとなる配列Ｌとが演算装置２０のメモリに記録されている。これらの配列Ｘ、Ｙ、Ｌの要素数Ｎは５であり、初期状態における各配列の要素として、図７の（ａ）の部分に示す数値が演算装置２０のメモリに格納されているものとする。

【0024】

まず、演算装置２０によって、図７の（ｂ）の部分に示すように、配列Ｌの各要素がベクトルレジスタＶＲ０に読み込まれる。

【0025】

次に、演算装置２０によって、図８の（ｃ）の部分に示すように、配列Ｘ（Ｌ（Ｉ））の各要素のアドレスが計算され（ステップＳ１）、ベクトルレジスタＶＲ１に格納される。

【0026】

次に、演算装置２０によって、図８の（ｄ）の部分に示すように、新規に追加されたＶＦＭＤ命令によってベクトルレジスタＶＲ１の各要素の値の重複が検出され（ステップＳ２）、ベクトルマスクレジスタＶＭ０にベクトルマスクが生成される（ステップＳ３）。演算装置２０は、ベクトルレジスタＶＲ１の１番目の要素ａｄｄｒ（Ｘ（１））について、ベクトルレジスタＶＲ１の２番目以降の要素と順に比較する。図８の（ｄ）の部分に示す例では、ベクトルレジスタＶＲ１の３番目の要素がａｄｄｒ（Ｘ（１））であり、１番目の要素ａｄｄｒ（Ｘ（１））と重複する。そのため、ベクトルレジスタＶＲ１の１番目の要素は、重複ありと判定され、ベクトルマスクレジスタＶＭ０の１番目の要素のビットを１に設定する。演算装置２０は、ベクトルレジスタＶＲ１の２番目以降の要素についても同様に重複を判定し、重複があればベクトルマスクレジスタＶＭ０のビットを１に設定し、重複がなければベクトルマスクレジスタＶＭ０のビットを０に設定する。ベクトルレジスタＶＲ１の重複がある要素のうち、最後に現れる要素（図８の（ｄ）の部分に示す例の場合、４番目のａｄｄｒ（Ｘ（１）））に対応するベクトルマスクレジスタＶＭ０のビットは０となる。これは、ベクトル演算した場合、最後の要素の演算結果がそれよりも前の演算結果を上書きしてメモリ上に反映され、スカラで計算し直す必要がないことを示すものである。これは、後述するように、演算装置２０がスカラで計算し直す場合の式であるＸ（１）＝Ｘ（１）＋Ｙ（１）＋Ｙ（３）＋Ｙ（４）の右辺うち、Ｘ（１）＋Ｙ（４）＝９がすでに計算されて結果がベクトルレジスタＶＲ１に格納されており、この最後の要素に関してはスカラで計算し直す必要がないためであり、ＶＭ０のビットは０にしてＸ（１）＋Ｙ（４）のスカラ命令は生成しないようにしてスカラで計算し直す回数を減らす工夫によるものである。

【0027】

次に、演算装置２０によって、図９の（ｅ）の部分に示すように、配列Ｘ（Ｌ（Ｉ））の値がベクトルレジスタＶＲ２に読み込まれ、配列Ｙ（Ｉ）の値がベクトルレジスタＶＲ３に読み込まれる。そして、演算装置２０によって、図９の（ｆ）の部分に示すように、ベクトルレジスタＶＲ２のｎ番目の要素とベクトルレジスタＶＲ３のｎ番目の要素についてベクトル加算が実行され（ステップＳ４）、演算結果がベクトルレジスタＶＲ４に格納される。なお、この場合のｎは、１から５の整数である。

【0028】

次に、演算装置２０によって、図１０の（ｇ）の部分に示すように、演算結果が配列Ｘ（Ｌ（Ｉ））が示すメモリに書き込まれる。このとき、アドレスが重複している要素Ｘ（１）には、演算装置２０によって、最初にベクトルレジスタＶＲ１の１番目に格納されている値３が書き込まれ、次に３番目に格納されている値７が上書きされ、最後に４番目に格納されている値９が上書きされて、最後に書き込まれた値９がメモリ上に反映される。
なお、各要素をＸ（Ｌ（Ｉ））＝Ｘ（Ｌ（Ｉ））＋Ｙ（Ｉ）を用いてスカラで計算した場合、要素配列Ｘ（１）＝Ｘ（１）＋Ｙ（１）＋Ｙ（３）＋Ｙ（４）となり、要素Ｘ（１）の値としては２＋１＋５＋７＝１５が正しい。演算装置２０は、アドレスの重複によって、演算結果が不正な結果（不適切な結果）であると判定することができる（ステップＳ５）。
演算装置２０によって、図１０の（ｈ）の部分に示すように、ベクトルマスクレジスタＶＭ０のビットが１の要素の数をカウントし、カウントした数が０でなければスカラで計算し直す処理へと制御を分岐させる。

【0029】

演算装置２０が、演算結果が不正な結果（不適切な結果）であると判定した場合（ステップＳ５においてＹＥＳ）、演算装置２０によって、図１１の（ｉ）の部分に示すように、ベクトルマスクレジスタＶＭ０のビットが１となっている要素の番号について、スカラで計算し直される（ステップＳ６）。

【0030】

まず、演算装置２０によって、１番目の要素について、Ｘ（Ｌ（１））＋Ｙ（１）が計算される。このとき、要素Ｘ（Ｌ（１））にはベクトル計算の結果Ｘ（１）＋Ｙ（４）＝９が格納されているため、Ｘ（Ｌ（１））＋Ｙ（１）の結果は９＋１＝１０となり、演算装置２０によって、要素Ｘ（Ｌ（１））、つまり要素Ｘ（１）には１０が書き込まれる。
なお、図１１は、最終結果を示している。そのため、図１１において、Ｘ（１）に格納される値は１０ではなく１５となっている。

【0031】

次に、演算装置２０によって、３番目の要素について、Ｘ（Ｌ（３））＝Ｘ（Ｌ（３））＋Ｙ（３）が計算される。要素Ｘ（Ｌ（３））＝Ｘ（１）には先ほどのスカラで計算し直して得られた値１０が格納されているため、Ｘ（Ｌ（３））＋Ｙ（３）の結果は１０＋５＝１５となり、演算装置２０によって、要素Ｘ（Ｌ（３））、つまり要素Ｘ（１）には１５が書き込まれる。ＶＭ０でビットが１となっている要素についてこのスカラでの計算のし直しを繰返し、結果として不正項が補正される。図４に示す例では３番目の要素でスカラでの計算のし直しは終了し、図１１の（ｊ）の部分に示すように最終的な演算結果が格納される。アドレスの重複があった配列Ｘの１番目の要素の値は１５となり、正しい結果が得られている。

【0032】

また、演算装置２０が、演算結果が不正な結果（不適切な結果）でないと判定した場合、処理を終了する。

【0033】

以上、本発明の一実施形態によるコンパイラ１について説明した。
本発明に関連する例えばＬＩＳＴＶＥＣ指示行法を用いるコンパイラでは、図１５に示すように、アドレス重複検出のために生成していたＶＳＥＱ（ベクトルシーケンシャルナンバー命令）（行番号１）、ＶＳＣ（行番号１０）、ＶＧＴ（行番号１１）、ＶＣＭＰＳ（ベクトルコンペア命令）（行番号１５）、および、ＶＦＭＫ（ベクトルフォームマスク命令）（行番号１６）の各命令列を生成するのに対して、本発明の一実施形態によるコンパイラ１では、新規にＶＦＭＤ命令が追加されるのみであり（図４の行番号８）、コンパイル装置１０において、ベクトル命令生成手段１２１として機能する。ベクトル命令生成手段１２１は、全要素のベクトル加算を行い、その加算の際にアドレスの重複を検出する命令を生成する。ベクトル命令生成手段１２１は、アドレス計算手段１２１１、重複検出－マスク作成手段１２１２、ベクトル加算手段１２１３、結果不正項検出手段１２１４を含む。アドレス計算手段１２１１は、間接アドレス参照される配列のアドレスを算出する。重複検出－マスク作成手段１２１２は、アドレス計算手段１２１１が算出したアドレスの重複を検出しベクトルマスクを作成する。ベクトル加算手段１２１３は、ベクトルマスクのビットに基づいて、ベクトルどうしの加算を演算する。結果不正項検出手段１２１４は、スカラ再計算命令の生成の必要性を確認して処理の分岐を行う。つまり、結果不正項検出手段１２１４は、ベクトルどうしの加算結果に基づいてスカラ再計算命令の生成が必要であると判定した場合に、スカラ再計算命令の生成をベクトル加算手段１２１３に実行させる。
このように、新規にＶＦＭＤ命令が追加されることにより、ＶＳＣ命令とＶＧＴ命令というメモリアクセスを伴う実行コストが高い命令がなくなり、レジスタアクセスのみのＶＦＭＤ命令だけで処理できるようになる。その結果、コンパイラ１は、コンパイル装置１０において、リスト総和演算において要素が重複する場合であってもリスト総和演算の実行時間を短くすることができる。

【0034】

なお、本発明の一実施形態では、リスト総和演算について説明したが、本発明の別の実施形態では、リスト総和演算ではなく、以下の形式の演算に適用するものであってもよい。
Ｘ（Ｌ（Ｉ））＝Ｘ（Ｌ（Ｉ））ｏｐｅｘｐｒ
ｏｐ：ベクトル演算可能な命令
ｅｘｐｒ：Ｘの参照を含まない式

【0035】

本発明の一実施形態ではｏｐの部分が加算命令の場合を例に説明したが、ｏｐの部分は、例えば減算命令など、ベクトル演算可能な命令であれば加算命令以外であってもよい。
本発明の一実施形態における加算を減算などのベクトル演算に置き換えて同様のコンパイル及び演算を考えることで、加算以外のベクトル演算についてもＶＳＣ命令とＶＧＴ命令というメモリアクセスを伴う実行コストが高い命令がなくなり、処理を高速化することができる。

【0036】

本発明の実施形態による最小構成のコンパイル装置１０について説明する。
本発明の実施形態による最小構成のコンパイル装置１０は、図１２に示すように、アドレス計算手段１２１１、重複検出－マスク作成手段１２１２、ベクトル加算手段１２１３、結果不正項検出手段１２１４を備える。
アドレス計算手段１２１１は、間接アドレス参照される配列のアドレスを算出することを実行させる命令を生成する。
重複検出－マスク作成手段１２１２は、アドレス計算手段１２１１が算出した前記アドレスの重複を検出しベクトルマスクを作成することを実行させる命令を生成する。
ベクトル加算手段１２１３は、前記ベクトルマスクのビットに基づいて、ベクトルどうしの演算を行うことを実行させる命令を生成する。
結果不正項検出手段１２１４は、前記ベクトルどうしの演算結果に基づいてベクトル加算手段１２１３にスカラで計算し直すことを実行させる命令を生成する。

【0037】

次に、本発明の実施形態による最小構成のコンパイル装置１０による処理について説明する。
ここでは、図１３に示す処理フローについて説明する。
アドレス計算手段１２１１は、間接アドレス参照される配列のアドレスを算出することを実行させる命令を生成する（ステップＳ１１）。
重複検出－マスク作成手段１２１２は、アドレス計算手段１２１１が算出した前記アドレスの重複を検出しベクトルマスクを作成することを実行させる命令を生成する（ステップＳ１２）。
ベクトル加算手段１２１３は、前記ベクトルマスクのビットに基づいて、ベクトルどうしの演算を行うことを実行させる命令を生成する（ステップＳ１３）。
結果不正項検出手段１２１４は、前記ベクトルどうしの演算結果に基づいてベクトル加算手段１２１３にスカラで計算し直すことを実行させる命令を生成する（ステップＳ１４）。

【0038】

以上、本発明の実施形態による最小構成のコンパイル装置１０について説明した。
このコンパイル装置１０により、リスト総和演算において要素が重複する場合であってもリスト総和演算の実行時間を短くすることができる。

【0039】

なお、本発明の一実施形態では、新規追加したＶＦＭＤ命令について、算出したＸ（Ｌ（Ｉ））のアドレスを格納したベクトルレジスタを用いて要素間の重複を検出するものとして説明した。しかしながら、本発明の別の実施形態では、配列Ｌ（Ｉ）の値をロードしたベクトルレジスタの要素間の重複を検出することで、リスト総和演算のアドレス重複を検出するものであってもよい。このことを図４に示した命令列を例に説明すると、行番号６で配列Ｌ（Ｉ）の値をベクトルレジスタ％ｖ６０に格納しており、ここで“ｖｆｍｄ％ｖｍ１５，％ｖ６０”と％ｖ６０をソースとしてＶＦＭＤ命令を生成することで、本発明の一実施形態におけるベクトルマスクと同じベクトルマスクを作成することができる。

【0040】

なお、本発明の一実施形態では、コンパイル装置１０と演算装置２０は、別の装置として説明した。しかしながら、本発明の別の実施形態では、コンパイル装置１０と演算装置２０とは１つの装置に収められ、その１つの装置が、コンパイル装置１０が行う処理と演算装置２０が行う処理の両方を行うものであってもよい。

【0041】

なお、本発明の実施形態における処理は、適切な処理が行われる範囲において、処理の順番が入れ替わってもよい。

【0042】

本発明の実施形態について説明したが、上述のコンパイル装置１０、演算装置２０、その他の制御装置は内部に、コンピュータ装置を有していてもよい。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。コンピュータの具体例を以下に示す。
図１４は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ５は、図１４に示すように、ＣＰＵ６（ベクトルプロセッサを含む）、メインメモリ７、ストレージ８、インターフェース９を備える。
例えば、上述のコンパイル装置１０、演算装置２０、その他の制御装置のそれぞれは、コンピュータ５に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ８に記憶されている。ＣＰＵ６は、プログラムをストレージ８から読み出してメインメモリ７に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ６は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ７に確保する。

【0043】

ストレージ８の例としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、半導体メモリ等が挙げられる。ストレージ８は、コンピュータ５のバスに直接接続された内部メディアであってもよいし、インターフェース９または通信回線を介してコンピュータ５に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ５に配信される場合、配信を受けたコンピュータ５が当該プログラムをメインメモリ７に展開し、上記処理を実行してもよい。少なくとも１つの実施形態において、ストレージ８は、一時的でない有形の記憶媒体である。

【0044】

また、上記プログラムは、前述した機能の一部を実現してもよい。さらに、上記プログラムは、前述した機能をコンピュータ装置にすでに記録されているプログラムとの組み合わせで実現できるファイル、いわゆる差分ファイル（差分プログラム）であってもよい。

【0045】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例であり、発明の範囲を限定しない。これらの実施形態は、発明の要旨を逸脱しない範囲で、種々の追加、省略、置き換え、変更を行ってよい。

【0046】

この出願は、２０２０年２月１７日に出願された日本国特願２０２０－０２４３３８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

【産業上の利用可能性】

【0047】

本発明の各態様は、記録媒体、コンパイル装置、処理システム及びコンパイル方法に適用してもよい。

【符号の説明】

【0048】

１・・・コンパイラ
５・・・コンピュータ
６・・・ＣＰＵ
７・・・メインメモリ
８・・・ストレージ
９・・・インターフェース
１０・・・コンパイル装置
１１・・・コード解析手段
１２・・・命令生成手段
２０・・・演算装置
１００・・・処理システム
１１１・・・指示行解析手段
１１２・・・リスト総和演算構文解析手段
１２１・・・ベクトル命令生成手段
１２２・・・スカラ再計算命令生成手段
１２１１・・・アドレス計算手段
１２１２・・・重複検出－マスク作成手段
１２１３・・・ベクトル加算手段
１２１４・・・結果不正項検出手段

【図1】