特許7513316 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣプラットフォームズ株式会社の特許一覧

特許7513316ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-07-01

(45)【発行日】2024-07-09

(54)【発明の名称】ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラム

(51)【国際特許分類】

G06F 17/16 20060101AFI20240702BHJP

G06F 9/38 20180101ALI20240702BHJP

G06F 9/345 20180101ALI20240702BHJP

G06F 9/312 20180101ALI20240702BHJP

G06F 9/34 20180101ALI20240702BHJP

【ＦＩ】

G06F17/16 A

G06F9/38 310G

G06F9/345 S

G06F9/345 A

G06F9/312 L

G06F9/34 350A

【請求項の数】 10

(21)【出願番号】P 2023044163

(22)【出願日】2023-03-20

【審査請求日】2023-03-20

(73)【特許権者】

【識別番号】000227205

【氏名又は名称】ＮＥＣプラットフォームズ株式会社

(74)【代理人】

【識別番号】100080816

【弁理士】

【氏名又は名称】加藤朝道

(74)【代理人】

【識別番号】100098648

【弁理士】

【氏名又は名称】内田潔人

(72)【発明者】

【氏名】▲齋▼藤卓磨

【審査官】坂東博司

(56)【参考文献】

【文献】特開２０１３－１８２４２０（ＪＰ，Ａ）

【文献】特開平０１－０３２３７８（ＪＰ，Ａ）

【文献】特開平０４－２６２４５７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１６

Ｇ０６Ｆ９／３８

Ｇ０６Ｆ９／３４５

Ｇ０６Ｆ９／３１２

Ｇ０６Ｆ９／３４

(57)【特許請求の範囲】

【請求項1】

データ制御装置とベクトルレジスタを含むベクトルプロセッサにおいて、
前記データ制御装置は、拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルを前記ベクトルレジスタにロードし、
ロードされた前記複数の短ベクトルを格納する前記ベクトルレジスタ内のアドレス間隔は、２の乗数である、ベクトルプロセッサ。

【請求項2】

前記拡張したベクトルロード命令のオペランドには、各多次元データを前記主記憶装置上で格納する主記憶アドレス間隔を表す数値が格納され、
前記データ制御装置は、前記数値が表す前記主記憶アドレス間隔に基づいて、前記主記憶装置から前記複数の短ベクトルを前記ベクトルレジスタにロードする、請求項１に記載のベクトルプロセッサ。

【請求項3】

前記データ制御装置は、前記多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、前記各次元方向のベクトル長に従って、前記ベクトルレジスタにロードする前記複数の短ベクトルを前記主記憶装置から取り出す、請求項１に記載のベクトルプロセッサ。

【請求項4】

前記ベクトルレジスタに格納された前記複数の短ベクトルを、単一のベクトルとして処理する演算部を、さらに含む、請求項１に記載のベクトルプロセッサ。

【請求項5】

データ制御装置とベクトルレジスタを含むベクトルプロセッサにおいて、
前記データ制御装置が、拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルを前記ベクトルレジスタにロードし、
ロードされた前記複数の短ベクトルを格納する前記ベクトルレジスタ内のアドレス間隔は、２の乗数である、ベクトルプロセッサの制御方法。

【請求項6】

前記拡張したベクトルロード命令のオペランドには、各多次元データを前記主記憶装置上で格納する主記憶アドレス間隔を表す数値が格納され、
前記データ制御装置は、前記数値が表す前記主記憶アドレス間隔に基づいて、前記主記憶装置から前記複数の短ベクトルを前記ベクトルレジスタにロードする、請求項５に記載のベクトルプロセッサの制御方法。

【請求項7】

前記データ制御装置は、前記多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、前記各次元方向のベクトル長に従って、前記ベクトルレジスタにロードする前記複数の短ベクトルを前記主記憶装置から取り出す、請求項５に記載のベクトルプロセッサの制御方法。

【請求項8】

コンピュータに、
拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルをベクトルレジスタにロードする処理を実行させ、
ロードされた前記複数の短ベクトルを格納する前記ベクトルレジスタ内のアドレス間隔は、２の乗数である、プログラム。

【請求項9】

前記拡張したベクトルロード命令のオペランドには、各多次元データを前記主記憶装置上で格納する主記憶アドレス間隔を表す数値が格納され、
前記コンピュータに、
前記数値が表す前記主記憶アドレス間隔に基づいて、前記主記憶装置から前記複数の短ベクトルを前記ベクトルレジスタにロードする処理を実行させる、請求項８に記載のプログラム。

【請求項10】

前記コンピュータに、
前記多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、前記各次元方向のベクトル長に従って、前記ベクトルレジスタにロードする前記複数の短ベクトルを前記主記憶装置から取り出す処理を実行させる、請求項８に記載のプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムに関する。

【背景技術】

【0002】

ベクトルレジスタに関する文献として、以下のような特許文献が挙げられる。

【0003】

特許文献１は、ベクトル処理操作を実行する処理回路を備える装置に関するものである。

【0004】

特許文献２は、１命令で複数のアドレスに対してメモリアクセスを行うメモリアクセス命令を実行する演算処理装置に関するものである。

【0005】

特許文献３は、ベクトル処理の効率性を向上するベクトル処理装置に関するものである。

【0006】

特許文献４は、複数個のサブレジスタに分割して使用するベクトルレジスタに関するものである。

【先行技術文献】

【特許文献】

【0007】

【文献】特表２０２０－５０１２７０号公報

【文献】特開２０１８－１９４９４６号公報

【文献】特開２０１３－１８２４２０号公報

【文献】特公昭５８－０５３７８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

以下の分析は、本発明者によって与えられたものである。

【0009】

ベクトルプロセッサは、多数のデータに対して同一の演算処理を実施する、ＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｌｔｉｐｌｅＤａｔａ）演算と呼ばれるデータ処理に対して、高速に処理するために設計されたものである。ベクトルプロセッサは、多数のデータを高速に処理するために、ベクトルレジスタと呼ぶ、一例として、固定長の６４の要素数を持つ、ＳＩＭＤ演算を実施する対象のデータを格納するレジスタを有しており、ベクトルレジスタの１ブロックの各要素に対して一括で高速に演算処理を実施できるよう最適化されている。

【0010】

主記憶装置からベクトルレジスタへベクトルをロードする従来のベクトルロード命令（以降、ＶＬＤ（ＶｅｃｔｏｒＬｏａｄ）命令と称する場合もある）により、ベクトルレジスタの１ブロックの各要素に対して、ベクトルレジスタへ格納可能な最大長さである、一例として、６４要素よりも短いベクトルを取得してロードする場合には、有効なデータを保持していない無効な要素が存在していた。すなわち、ベクトルの長さ（以降、ベクトル長、または、ＶＬ（ＶｅｃｔｏｒＬｅｎｇｔｈ）とも称する）が非常に短いとき、ベクトルレジスタ内に、使われていない多くのブロックが存在する結果となる。このために、ベクトル演算時の効率が低下してしまうという課題がある。

【0011】

即ち、従来は、ベクトルプロセッサは、大量の短いベクトル（以降、短ベクトルとも称する）に演算を実施する用途を考慮していなかった。短ベクトルを有する多次元のデータを、ＶＬＤ命令によって主記憶装置からベクトルレジスタに取得して格納する際に、レジスタブロックの長さよりも非常に短いベクトルを格納してしまい、レジスタブロックには有効なデータが少なく、無効なデータが多く存在していた。その結果、ベクトルレジスタの利用効率が悪く、また、ベクトル演算器を効率よく活用することができていなかった。

【0012】

特許文献４では、短いベクトルを効率よく処理するために、ベクトルレジスタをサブベクトルレジスタとして分割して利用することで、ベクトルレジスタのデータを保持していない無効なブロックを減らしていた。しかし、特許文献４の方法では、ベクトルレジスタをサブベクトルレジスタに分割したときの、データ移送制御を、サブベクトルレジスタに分割しない場合のデータ移送制御から変更する必要があり、制御方法が複雑になってしまうという課題がある。

【0013】

本発明は、主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短ベクトルを含む多次元のデータを、ベクトルレジスタに効率よく取得し格納して、ベクトルレジスタの利用効率とベクトル演算効率を向上させることを可能とすることに貢献する、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムを提供することを目的とする。

【課題を解決するための手段】

【0014】

本発明の第１の視点によれば、データ制御装置とベクトルレジスタを含むベクトルプロセッサにおいて、
データ制御装置は、拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルをベクトルレジスタにロードし、
ロードされた複数の短ベクトルを格納するベクトルレジスタ内のアドレス間隔は、２の乗数である、ベクトルプロセッサを、提供できる。

【0015】

本発明の第２の視点によれば、データ制御装置とベクトルレジスタを含むベクトルプロセッサにおいて、
データ制御装置が、拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルをベクトルレジスタにロードし、
ロードされた複数の短ベクトルを格納するベクトルレジスタ内のアドレス間隔は、２の乗数である、ベクトルプロセッサの制御方法を、提供できる。本方法は、ベクトルプロセッサの制御方法を行うコンピュータという、特定の機械に結びつけられている。

【0016】

本発明の第３の視点によれば、コンピュータに、
拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルをベクトルレジスタにロードする処理を実行させ、
ロードされた複数の短ベクトルを格納するベクトルレジスタ内のアドレス間隔は、２の乗数である、プログラム、を提供できる。

【0017】

なお、これらのプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント（ｎｏｎ－ｔｒａｎｓｉｅｎｔ）なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。

【発明の効果】

【0018】

本発明によれば、主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短いベクトル（短ベクトル）を含む多次元のデータを、ベクトルレジスタに効率よく取得し格納して、ベクトルレジスタの利用効率とベクトル演算効率を向上させることを可能とすることに貢献する、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムを提供することができる。

【図面の簡単な説明】

【0019】

【図1】本発明の一実施形態のベクトルプロセッサの構成の一例を示す図である。

【図2】本発明の第１の実施形態のベクトルプロセッサを備えたコンピュータの構成の一例を示す図である。

【図3】本発明の第１の実施形態のベクトルレジスタの構成の一例を示す図である。

【図4】本発明の第１の実施形態の多次元データの一例を示す図である。

【図5】従来技術により多次元データの短ベクトルをベクトルレジスタに格納した場合の一例を示す図である。

【図6】本発明の第１の実施形態の短ベクトルをベクトルレジスタに格納した場合の一例を示す図である。

【図7】本発明の第１の実施形態の拡張したＶＬＤ命令の一例を示す図である。

【図8】従来技術によりベクトルデータをベクトルレジスタに格納するためのデータ制御装置の従来技術の処理のフローチャートを示す図である。

【図9】本発明の第１の実施形態のベクトルデータをベクトルレジスタに格納するためのデータ制御装置の処理のフローチャートを示す図である。

【図10】本発明のデータ制御装置を構成するコンピュータの構成を示す図である。

【発明を実施するための形態】

【0020】

はじめに、本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。また、以降の説明で参照する図面等のブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号（データ）の流れを模式的に示すものであり、双方向性を排除するものではない。

【0021】

図１は、本発明の一実施形態のベクトルプロセッサの構成の一例を示す図である。図１を参照すると、ベクトルプロセッサ１０は、データ制御装置１３とベクトルレジスタ（ＶＲ、ＶｅｃｔｏｒＲｅｇｉｓｔｅｒ）１１を含む。

【0022】

データ制御装置１３は、拡張したベクトルロード命令が入力されると、規則的に主記憶装置１２に配置されている多次元データの複数の短ベクトルをベクトルレジスタにロードする。ロードされた複数の短ベクトルを格納するベクトルレジスタ１１内のアドレス間隔（ディスタンス）、例えば、ベクトルレジスタ１１内に格納される短ベクトルの先頭のブロックのアドレス間隔は、２の乗数である。ここで、アドレス間隔が２の乗数であるとは、格納された２つの隣接する短ベクトルのベクトルレジスタ１１内のアドレス間隔（ベクトルレジスタ１１内の短ベクトルを格納するブロックのアドレス間隔）が、例えば２の１乗の場合には２であり、２の２乗の場合には４であり、２の３乗の場合には８である、というような間隔であることである。

【0023】

なお、従来のＶＬＤ命令を拡張して短ベクトルを効率よくベクトルレジスタに格納する新たな拡張したＶＬＤ命令を作成する。

【0024】

短ベクトルが規則的に主記憶装置１２に保存されている場合、上記の使われていないベクトルレジスタのブロックを活用するために、拡張したＶＬＤ命令により、複数の短ベクトルをベクトルレジスタ上にロードする。ロードされたデータは、単一の長いベクトルと同様に、演算部に送出し処理する。演算部は、ベクトルレジスタに格納された前記複数の短ベクトルを、単一のベクトルとして処理する。従来のベクトルプロセッサのアーキテクチャから特別な変更を実施せずに、複数取得された短ベクトルに対して、ベクトル演算処理を実施するために、短ベクトルをベクトルレジスタ上に格納するブロックのアドレス間隔（ディスタンス）は２の乗数アドレスごとに区切る。

【0025】

多次元データの拡張したＶＬＤ命令のオペランドは、従来の一般的なＶＬＤ命令の空き領域を活用して実装する。すなわち、拡張したベクトルロード命令のオペランドには、従来の一般的なＶＬＤ命令の空き領域に、多次元データを主記憶装置１２上で格納する主記憶アドレス間隔（ストライド）を表す数値が格納される。データ制御装置１３は、数値が表す主記憶アドレス間隔に基づいて、主記憶装置１２から複数の短ベクトルをベクトルレジスタ１１にロードする。

【0026】

また、拡張したＶＬＤ命令の際に必要となるＶＬ（ベクトル長、ＶｅｃｔｏｒＬｅｎｇｔｈ）を指定するベクトル長指定命令も、拡張したＶＬＤ命令と同様に拡張して実装する。拡張したＶＬＤ命令と類似する、ベクトルレジスタを操作するその他の命令も拡張したＶＬＤ命令と同様に拡張する。すなわち、データ制御装置１３は、多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、各次元方向のベクトル長に従って、ベクトルレジスタ１１にロードする複数の短ベクトルを主記憶装置１２から取り出す。なお、拡張したベクトル長指定命令から、ディスタンスが決定される。

【0027】

上記のように、本発明の一実施形態によれば、主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短いベクトル（短ベクトル）を含む多次元のデータを、ベクトルレジスタに効率よく取得し格納して、ベクトルレジスタの利用効率とベクトル演算効率を向上させることを可能とすることに貢献する、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムを提供することができる。

【0028】

［第１の実施形態］
次に、本発明の第１の実施形態のベクトルプロセッサについて、図面を参照して説明する。図２は、本発明の第１の実施形態のベクトルプロセッサを備えたコンピュータの構成の一例を示す図である。図２において、図１と同一の参照符号を付した構成要素は、同一の構成要素を示すものとする。

【0029】

図２のコンピュータ１００は、本発明の第１の実施形態のベクトルプロセッサ１０と主記憶装置１２を含む。

【0030】

本発明の第１の実施形態を図２から図９を参照して説明する。図２に示すように、本発明の第１の実施形態のベクトルプロセッサ１０は、ベクトルレジスタ（ＶＲ、ＶｅｃｔｏｒＲｅｇｉｓｔｅｒ）１１と、データ制御装置１３と、演算部１４と、制御部１５及び、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２００を含む。なお、主記憶装置１２は、ベクトルプロセッサ１０内に配置されてもよい。また、ＣＰＵ２００は、ベクトルプロセッサ１０の外部に配置されてもよい。

【0031】

図３は、本発明の第１の実施形態のベクトルレジスタの構成の一例を示す図である。図２に示すベクトルレジスタ１１は、図３に示す複数のレジスタブロック２０を含む。図３に示すレジスタブロック２０は、単一のデータを格納するための、一例として０から６３の付された６４個のブロックを含む。

【0032】

なお、図３においては、一例として、レジスタブロック２０が６４個のブロックで構成されているが、レジスタブロック２０が有するブロックの数を６４に限定することを意図するものではなく、レジスタブロック２０が有するブロックの数は、６４以外の他の数でもよい。

【0033】

図４は本発明の第１の実施形態の多次元データの一例を示す図である。図４に示すように、２次元データの構造３０は、各行が、演算の対象となる有効なデータを格納した要素３１（斜線で示す）と、演算対象ではないデータを格納した要素３２と、を備えている。図４に示す、本発明の第１の実施形態の多次元データの一例は、７行１００列の要素により構成される２次元データの一例である。

【0034】

なお、図４においては、短ベクトルを有する２次元のデータの一例を示しているが、拡張したＶＬＤ命令の対象とする短ベクトルを有する多次元データの次元数を２に限定することを意図するものではない。多次元データの次元数は、後述の図７に記載の本発明の第１の実施形態の拡張したＶＬＤ命令の一例に示すように、拡張したＶＬＤ命令のオペランドで指定できる限り、増やすことができる。

【0035】

本発明の第１の実施形態では、演算の対象となる有効なデータを格納した要素３１は、主記憶装置１２上では３つ連続したアドレスに格納されており、３要素の短ベクトルを構成している。なお、図４に示す、演算の対象となる有効なデータを格納した要素３１と演算対象ではないデータを格納した要素３２を含む、各行の１００個の要素のデータも、主記憶装置１２上では連続して配置されている。３要素の短ベクトルの先頭要素は、主記憶装置１２上では、１００要素の間隔で配置されている。

【0036】

ベクトルプロセッサ１０は、図４で示す２次元データ全体に対して、ＳＩＭＤ演算を実施する。

【0037】

図５は、従来技術により多次元データの短ベクトルをベクトルレジスタに格納した場合の一例を示す図である。図５に示す一例では、従来のＶＬＤ命令によって、ベクトルレジスタ１１のレジスタブロック２０には、有効なデータ４１をブロック「０から２に、また、無効なデータ４２を、ブロック３から６３に格納している。ベクトルプロセッサ１０は、主記憶装置１２上の３要素の短ベクトルをベクトルレジスタ１１に取得する際に、レジスタブロック２０のサイズ分の６４データを取得する。しかし、図４に示すデータでは、３要素の短ベクトルの間隔が主記憶装置上では６４アドレスより多く空いているため、１つの３要素の短ベクトルのみが、有効なデータ４１としてレジスタブロック２０のブロック０から２に格納され、残りの６１個のブロック３から６３には、無効なデータ４２が格納される。従って、ブロック３から６３は有効に利用されていない結果となる。

【0038】

図６は、本発明の第１の実施形態の３要素の短ベクトルをベクトルレジスタ１１に格納した場合の一例を示す図である。

【0039】

図６に示す一例では、本発明で提案する拡張したＶＬＤ命令によって、レジスタブロック２０には、有効なデータ４１をブロック０から２、ブロック４から６に、また、無効なデータ４３を、ブロック３、７に格納している。図６に示すように、本発明の第１の実施形態では、３要素の短ベクトルを２次元方向で切り詰めて、主記憶装置１２からレジスタブロック２０に取得して格納することにより、従来は無効なデータを格納していたレジスタブロック２０のブロック、一例として、図６に示す、レジスタブロック２０のブロック４、５、６、８等を、有効なデータ４１を格納するために、有効活用する。

【0040】

短ベクトルを格納する間隔であるディスタンス４４は、演算部１４を、従来のベクトルプロセッサ１０から変更することなく活用するために、２の乗数間隔となるようデータ制御装置１３によって制御する。２の乗数間隔とは、例えば２の１乗の場合には２であり、２の２乗の場合には４であり、２の３乗の場合には８である、という間隔である。

【0041】

よって、図６で示すように、図４に記載した一例の２次元データをベクトルレジスタ１１に格納する場合、３要素の短ベクトルを格納できる最小のディスタンス４４は、４となり、レジスタブロック２０に格納できる最大の短ベクトルの数は６４を４で割った商である１６個となる。１６個以上の３要素の短ベクトルを持つ２次元データを、本発明の拡張したＶＬＤ命令によってベクトルレジスタ１１に格納する場合には、複数回の拡張したＶＬＤ命令を実施する必要がある。

【0042】

図７は、本発明の第１の実施形態の拡張したＶＬＤ命令６０の一例を示す図である。

【0043】

従来のＶＬＤ命令は、オペコード（ＯＰＥＣＯＤＥ）６１を表す１バイトと、データを格納するベクトルレジスタ１１のアドレス６２を表す１バイトの数値と、データが格納されている主記憶装置１２のアドレス６３を表す１バイトの数値と、主記憶装置１２上でデータが格納されている主記憶アドレス間隔を示すストライド６４を表す１バイトの数値と、の合計４バイトの領域を利用しており、オペランドのうち４バイトが未使用の領域となっている。

【0044】

これに対して、図７に一例を示す、本発明の第１の実施形態の、拡張したＶＬＤ命令６０では、オペコード６１を表す１バイトと、データを格納するベクトルレジスタ１１のアドレス６２を表す１バイトの数値と、データが格納されている主記憶装置１２のアドレス６３を表す１バイトの数値と、主記憶装置１２上で次元１のデータが格納されているストライド６４を表す１バイトの数値に加えて、さらに、従来のＶＬＤ命令の４バイトの未使用の領域に、２次元より高次の多次元のデータの格納間隔であるストライドを表す数値を格納する。

【0045】

従来の１次元分のストライド（次元１のストライド６４）と、次元２のストライド６５、次元３のストライド６６、次元４のストライド６７および、次元５のストライド６８の、拡張した４次元分のストライドと、を合わせることで、合計５次元のデータまで一度の拡張したＶＬＤ命令で、ベクトルレジスタに取得することができる。すなわち、拡張したベクトルロード命令のオペランドには、各多次元データを主記憶装置１２上で格納する主記憶アドレス間隔（各次元のストライド）を表す数値が格納され、データ制御装置１３は、その数値が表す主記憶アドレス間隔（各次元のストライド）に基づいて、主記憶装置から複数の短ベクトルをベクトルレジスタ１１にロードすることができる。

【0046】

一例として、図４に示す２次元データの場合のストライドについて、説明する。前述したように、図４は、７行１００列の行列の要素により構成される２次元データの一例である。図４に記載の２次元データの場合、次元１のストライド６４は「１」であり、また、次元２のストライド６５は「１００」である。

【0047】

なお、各次元のストライドには、値「ゼロ」を指定することが可能である。ストライドにゼロを指定した場合は、同じデータを連続で取得するコピーのような動作を行う。また、連続で取得するする回数は、各次元のベクトル長（ＶＬ）を指定するベクトル長指定命令によって決定される。一例として、２次元データの場合に、１次元目のストライドが「１」、２次元目のストライドが「ゼロ」、１次元目のベクトル長（ＶＬ）が「３」、２次元目のベクトル長（ＶＬ）が「２」の場合、拡張したＶＬＤ命令で指定した先頭のアドレスから、３要素の短ベクトルを２回コピーして、ベクトルレジスタ１１にディスタンス「４」（２の乗数間隔）で格納する、という動作を実行する。

【0048】

さらに、図４に示す２次元データ（７行１００列）を高さ方向に２段重ねて構成された３次元データの場合について説明する。このような、３次元データの場合には、図７に一例を示した本発明の第１の実施形態の、拡張したＶＬＤ命令６０では、次元１（１次元目）のストライド６４が「１」、次元２（２次元目）のストライド６５が「１００」、次元３（３次元目）のストライド６６が、「１００×７＝７００」となる。しかしながら、図７に記載の拡張したＶＬＤ命令６０は、各次元のストライドが８ビットのため、０から２５５の範囲でしか指定できない。従って、拡張したＶＬＤ命令６０を分割する必要がある。また、ストライドの指定方法の他の例として、ひとつ下の次元を何回繰り返すか、という方法により、各次元のストライドを指定してもよい。例えば、図４に示す２次元データ（７行１００列）を高さ方向に２段重ねて構成された３次元データの場合、各ストライドを、次元１は１、次元２は１００、次元３は７、というように指定してもよい。この場合は、実際の主記憶装置上のストライドは、次元２は１ｘ１００＝１００、次元３は１ｘ１００ｘ７＝７００、のようにデータ制御装置１３で計算することができる。このように、データ制御装置１３は、各次元のストライドに基づいて、主記憶装置１２から複数の短ベクトルをベクトルレジスタ１１にロードする、ことができる。

【0049】

なお、図７においては、８バイトの拡張したＶＬＤ命令の一例を示しているが、拡張したＶＬＤ命令のバイト数を８バイトに限定することを意図するものではなく、拡張したＶＬＤ命令は、８バイト以外の任意のバイト数で構成してもよい。また、図７に記載の拡張したＶＬＤ命令６０では、各ストライドを１バイトで指定しているが、例えば２バイトや、バイト指定に限らず１０ビットや２０ビットなど柔軟に指定するバイト数やビット数を変えて、各ストライドで指定できる整数の範囲を増やすようにしてもよい。なお、ビット数の指定の仕方を変えることにより、拡張したＶＬＤ命令６０や他の命令で指定できる最大の次元数は、変動してもよい。

【0050】

また、ＶＬＤ命令を拡張するのに加えて、多次元データの、各次元方向の長さを示すＶＬ（ベクトル長、ＶｅｃｔｏｒＬｅｎｇｔｈ）を指定するためのベクトル長指定命令も、拡張したＶＬＤ命令に合わせて、同様に拡張する。従来のベクトル長指定命令は、オペコードを表す１バイトと、各次元の長さを表す１バイトの数値と、対応するデータが格納されているベクトルレジスタのアドレスを表す１バイトの数値と、の合計３バイトの領域が利用されており、５バイトの未使用の領域がある。本発明の第１の実施形態の拡張したベクトル長指定命令では、従来のベクトル長指定命令の未使用の５バイトのうち４バイトに、多次元データの各次元方向のベクトルの長さを表す１バイトの数値を格納することで、拡張したＶＬＤ命令と同等の次元に対応することができる。

【0051】

また、ベクトルストア命令など、ＶＬＤ命令に類似する、ベクトルレジスタを操作するその他の命令も、図７で示す拡張したＶＬＤ命令のオペランドと同様に拡張する。

【0052】

次に、本発明の第１の実施形態のデータ制御装置の動作を説明する。図８は、従来技術によりベクトルデータをベクトルレジスタに格納するためのデータ制御装置１３の従来技術の処理のフローチャートを示す図である。

【0053】

図８を参照すると、従来技術のフローチャートでは、処理は、ステップＳ８０１で開始する。ステップＳ８０２で、従来のＶＬＤ命令と従来のベクトル長指定命令が、ＣＰＵ２００から、ベクトルプロセッサ１０の制御部１５に発行され、ベクトルプロセッサ１０の制御部１５は、従来のＶＬＤ命令と従来のベクトル長指定命令をデータ制御装置１３へ送る。従来のベクトル長指定命令は、ベクトル長（ＶＬ）を含む。

【0054】

ステップＳ８０３で、データ制御装置１３が、取得したいデータのアドレスを主記憶装置１２に送信する。

【0055】

ステップＳ８０４で、主記憶装置１２からベクトルレジスタ１１にデータを取得するために、データ制御装置１３は、主記憶装置１２から取得したいデータと格納先のベクトルレジスタ１１を紐づける。

【0056】

ステップＳ８０５で、データ制御装置１３はデータをベクトルレジスタ１１に格納し、また、ステップＳ８０６で、ベクトルレジスタ１１に格納していないデータが存在するかどうかを確認する、即ち、データを取得する際に、データ制御装置１３は、データがベクトルレジスタに格納された個数をカウントして、すべてのデータの取得が完了したかを確認する。ベクトルレジスタ１１に格納していないデータが存在する場合（ステップＳ８０６、Ｙｅｓ）には、ステップＳ８０５へ戻り、データをベクトルレジスタ１１に格納する。

【0057】

なお、すべてのデータの取得が完了したかを確認するために、カウントするべきデータの個数はベクトルの長さ（ＶＬ）から決定する。

【0058】

ベクトルレジスタに格納していない要素が存在しない場合（ステップＳ８０６、Ｎｏ）には、ステップＳ８０７へ進み、従来のＶＬＤ命令完了を、制御部１５へ通知する。

【0059】

従来技術のフローチャートの処理は、ステップＳ８０８で終了する。

【0060】

図９は、本発明の第１の実施形態のベクトルデータをベクトルレジスタ１１に格納するためのデータ制御装置１３の処理のフローチャートを示す図である。

【0061】

図９に示す本発明の第１の実施形態の処理は、ステップＳ９０１で開始する。ステップＳ９０２で、拡張したＶＬＤ命令と拡張したベクトル長指定命令が、ＣＰＵ２００から、ベクトルプロセッサ１０の制御部１５に発行され、ベクトルプロセッサ１０の制御部１５は、拡張したＶＬＤ命令と拡張したベクトル長指定命令をデータ制御装置１３へ送る。なお、拡張したベクトル長指定命令は、多次元データの各次元方向のベクトル長を指定する命令である。すなわち、拡張したベクトル長指定命令により、主記憶装置から取り出してくる各次元方向のデータの長さを決定し、拡張したＶＬＤ命令のオペランドの各次元のストライドに従って、主記憶装置１２上の各次元のデータを格納するアドレスのストライドを決定する。

【0062】

ステップＳ９０３で、データ制御装置１３が、主記憶装置１２からベクトルレジスタ１１に各短ベクトルのデータを取得するために、データ制御装置１３が取得したい各短ベクトルのアドレスを主記憶装置１２に送信する。すなわち、データ制御装置１３は、拡張したＶＬＤ命令６０の主記憶装置アドレス６３と、各次元のストライド６４から６８と、拡張したベクトル長指定命令の各次元のベクトル長により、各短ベクトルを構成するデータの格納された主記憶装置１２のアドレスを決定し、主記憶装置１２に送信する。

【0063】

次に、ステップＳ９０４で、データ制御装置１３は、まだアドレスを送信していない短ベクトルが存在するかどうかをチェックする。まだアドレスを送信していない短ベクトルが存在する場合（ステップＳ９０４、Ｙｅｓ）には、ステップＳ９０３へ戻り、取得したい各短ベクトルのデータのアドレスを主記憶装置１２に送信する。まだアドレスを送信していない短ベクトルが存在しない場合（ステップＳ９０４、Ｎｏ）には、ステップＳ９０５へ進む。

【0064】

ステップＳ９０５で、主記憶装置１２からベクトルレジスタ１１にデータを取得するために、データ制御装置１３は、主記憶装置１２から取得したデータと格納先のベクトルレジスタ１１を紐づける。

【0065】

ステップＳ９０６で、ステップＳ９０５の紐づけに従って、データ制御装置１３は、主記憶装置１２に送信したアドレスに対応して主記憶装置１２から送信された、各短ベクトルのデータを、拡張したＶＬＤ命令６０の格納先ＶＲアドレス６２と、拡張したベクトル長指定命令の各次元のベクトル長により決定された、２の乗数のディスタンスに基づいて、ベクトルレジスタ１１のレジスタブロック２０の各ブロック０から６３に格納する。また、ステップＳ９０７で、ベクトルレジスタ１１に格納していないデータが存在するかどうかを確認する。即ち、データを取得する際に、データ制御装置１３は、データがベクトルレジスタ１１に格納された個数をカウントして、すべてのデータの取得が完了したかを確認する。ベクトルレジスタに格納していないデータが存在する場合（ステップＳ９０７、Ｙｅｓ）には、ステップＳ９０６へ戻り、データをベクトルレジスタ１１に格納する。

【0066】

ベクトルレジスタ１１に格納していないデータが存在しない場合（ステップＳ９０７、Ｎｏ）には、ステップＳ９０８へ進み、拡張したＶＬＤ命令完了を、制御部１５へ通知する。データ取得が完了したか判定するために、データ制御装置１３でデータがベクトルレジスタ１１に格納された個数をカウントして、すべてのデータの取得が完了したか確認する。カウントすべきデータの個数は、各短ベクトルのベクトル長（ＶＬ）とベクトルの数の積で決定される。

【0067】

以上説明したように、本発明の第１の実施形態によれば、主記憶装置上で短ベクトルが規則的に配置されている多次元のデータ構造に対して、拡張したＶＬＤ命令でデータを主記憶装置からベクトルレジスタに取得し格納する際に、従来の単一の短ベクトルをレジスタブロックに取得するのではなく、２次元以降の次元を展開してレジスタブロックに取得することにより、ベクトルレジスタの利用効率と演算部の利用効率を向上させ、従来と比較してベクトルプロセッサのスループットが向上することに貢献することができる。

【0068】

従って、本発明の第１の実施形態によれば、主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短いベクトル（短ベクトル）を含む多次元のデータを、ベクトルレジスタに効率よく取得し格納して、ベクトルレジスタの利用効率とベクトル演算効率を向上させることを可能とすることに貢献する、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムを提供することができる。

【0069】

［第２の実施形態］
次に、本発明の第２の実施形態について、説明する。

【0070】

本願の第１の実施形態では、図７に記載の拡張したＶＬＤ命令によりアドレスとストライドを指定し、例えば、さらに別の命令で取得するベクトルの長さを指定する構成を記載している。しかしながら、ベクトルレジスタにデータを取得する方法をそのような命令の実施形態だけに制限することを意図するものではない。

【0071】

本発明の第２の実施形態では、一例として、図７に示す拡張したＶＬＤ命令の各次元に対するストライドを指定するオペランドを減らし、空いたオペランドを用いてベクトルの長さを指定することによって、１つの命令のみでベクトルデータを取得するようにしてもよい。

【0072】

従って、本発明の第２の実施形態によれば、主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短いベクトル（短ベクトル）を含む多次元のデータを、ベクトルレジスタに効率よく取得し格納して、ベクトルレジスタの利用効率とベクトル演算効率を向上させることを可能とすることに貢献する、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムを提供することができる。

【0073】

［第３の実施形態］
次に、本発明の第３の実施形態について、説明する。

【0074】

図９に示す本発明の第１の実施形態の処理のフローチャートには、拡張したＶＬＤ命令により、主記憶装置からベクトルレジスタにデータを取得するためのデータ制御装置１３のフローチャートを示している。本発明の第１の実施形態の処理のフローチャートでは、複数の短ベクトルを主記憶装置から取得するために、短ベクトルの数だけ繰り返しアドレスを送信してデータを収集するように記載している。しかし、短ベクトルを主記憶装置から取得する方法をこの方法に限定することを意図するものではない。

【0075】

本発明の第３の実施形態では、他の方法の一例として、例えば、データ制御装置１３が、主記憶装置１２に、取得したい短ベクトルデータの最初の短ベクトルデータの取得アドレスと、各短ベクトルの間隔と、短ベクトルの数と、を送信して、主記憶装置１２の制御部でこれらのデータを集約し、ベクトルレジスタに向けて送り出す、という方法により実行してもよい。

【0076】

従って、本発明の第３の実施形態によれば、主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短いベクトル（短ベクトル）を含む多次元のデータを、ベクトルレジスタに効率よく取得し格納して、ベクトルレジスタの利用効率とベクトル演算効率を向上させることを可能とすることに貢献する、ベクトルプロセッサ、ベクトルプロセッサの制御方法、及び、プログラムを提供することができる。

【0077】

以上、本発明の各実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、各図面に示したネットワーク構成、各要素の構成、メッセージの表現形態は、本発明の理解を助けるための一例であり、これらの図面に示した構成に限定されるものではない。また、「Ａ及び／又はＢ」は、Ａ又はＢの少なくともいずれかという意味で用いる。

【0078】

また、上記した一実施形態から第３の実施形態に示した手順は、本発明のベクトルプロセッサまたはベクトルプロセッサのデータ制御装置として機能するコンピュータ（図１０の９０００）に、ベクトルプロセッサまたはベクトルプロセッサのデータ制御装置としての機能を実現させるプログラムにより実現可能である。このようなコンピュータは、図１０のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１０、通信インタフェース９０２０、メモリ９０３０、補助記憶装置９０４０を備える構成に例示される。すなわち、図１０のＣＰＵ９０１０にて、ベクトルプロセッサまたはベクトルプロセッサのデータ制御装置の制御プログラムを実行し、その補助記憶装置９０４０等に保持された各計算パラメータの更新処理を実施させればよい。

【0079】

メモリ９０３０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等である。

【0080】

即ち、上記した一実施形態から第３の実施形態に示したベクトルプロセッサまたはベクトルプロセッサのデータ制御装置の各部（処理手段、機能）は、上記コンピュータのプロセッサに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することができる。

【0081】

最後に、本発明の好ましい形態を要約する。
［第１の形態］
（上記第１の視点によるベクトルプロセッサを参照）
［第２の形態］
第１の形態に記載のベクトルプロセッサは、前記拡張したベクトルロード命令のオペランドには、各多次元データを前記主記憶装置上で格納する主記憶アドレス間隔を表す数値が格納され、
前記データ制御装置は、前記数値が表す前記主記憶アドレス間隔に基づいて、前記主記憶装置から前記複数の短ベクトルを前記ベクトルレジスタにロードする、ことが好ましい。
［第３の形態］
第１の形態に記載のベクトルプロセッサは、前記データ制御装置は、前記多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、前記各次元方向のベクトル長に従って、前記ベクトルレジスタにロードする前記複数の短ベクトルを前記主記憶装置から取り出す、ことが好ましい。
［第４の形態］
第１の形態に記載のベクトルプロセッサは、前記ベクトルレジスタに格納された前記複数の短ベクトルを、単一のベクトルとして処理する演算部を、さらに含む、ことが好ましい。
［第５の形態］
（上記第２の視点によるベクトルプロセッサの制御方法を参照）
［第６の形態］
第５の形態に記載のベクトルプロセッサの制御方法は、前記拡張したベクトルロード命令のオペランドには、各多次元データを前記主記憶装置上で格納する主記憶アドレス間隔を表す数値が格納され、
前記データ制御装置は、前記数値が表す前記主記憶アドレス間隔に基づいて、前記主記憶装置から前記複数の短ベクトルを前記ベクトルレジスタにロードする、ことが好ましい。
［第７の形態］
第５の形態に記載のベクトルプロセッサの制御方法は、前記データ制御装置は、前記多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、前記各次元方向のベクトル長に従って、前記ベクトルレジスタにロードする前記複数の短ベクトルを前記主記憶装置から取り出す、ことが好ましい。
［第８の形態］
（上記第３の視点によるプログラムを参照）
［第９の形態］
第８の形態に記載のプログラムは、前記拡張したベクトルロード命令のオペランドには、各多次元データを前記主記憶装置上で格納する主記憶アドレス間隔を表す数値が格納され、
前記コンピュータに、
前記数値が表す前記主記憶アドレス間隔に基づいて、前記主記憶装置から前記複数の短ベクトルを前記ベクトルレジスタにロードする処理を実行させる、ことが好ましい。
［第１０の形態］
第８の形態に記載のプログラムは、前記コンピュータに、
前記多次元データの各次元方向のベクトル長を指定する拡張したベクトル長指定命令が入力されると、前記各次元方向のベクトル長に従って、前記ベクトルレジスタにロードする前記複数の短ベクトルを前記主記憶装置から取り出す処理を実行させる、ことが好ましい。
なお、上記第５と８の形態は、第１の形態と同様に、第４の形態に展開することが可能である。

【0082】

なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の開示の枠内において種々の開示要素（各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ、ないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。さらに、上記引用した文献の各開示事項は、必要に応じ、本発明の趣旨に則り、本発明の開示の一部として、その一部又は全部を、本書の記載事項と組み合わせて用いることも、本願の開示事項に含まれるものと、みなされる。

【符号の説明】

【0083】

１０ベクトルプロセッサ
１１ベクトルレジスタ
１２主記憶装置
１３データ制御装置
１４演算部
１５制御部
２０レジスタブロック
３０２次元のデータ構造
３１演算の対象となる有効なデータを格納した要素
３２演算対象ではないデータを格納した要素
４１有効なデータ
４２、４３無効なデータ
４４ディスタンス
６０拡張したＶＬＤ命令
６１オペコード
６２データを格納するベクトルレジスタ１１のアドレス
６３データが格納されている主記憶装置１２のアドレス
６４次元１のストライド
６５次元２のストライド
６６次元３のストライド
６７次元４のストライド
６８次元５のストライド
１００コンピュータ
２００ＣＰＵ
９０００コンピュータ
９０１０ＣＰＵ
９０２０通信インタフェース
９０３０メモリ
９０４０補助記憶装置

【要約】

【課題】主記憶装置の規則的だが連続していないアドレスに保存された、いくつかの短ベクトルを含む多次元のデータを、ベクトルレジスタに効率よく取得し格納する、ベクトルプロセッサを提供する。
【解決手段】ベクトルプロセッサは、データ制御装置とベクトルレジスタを含み、データ制御装置は、拡張したベクトルロード命令が入力されると、規則的に主記憶装置に配置されている多次元データの複数の短ベクトルをベクトルレジスタにロードし、ロードされた複数の短ベクトルを格納するベクトルレジスタ内のアドレス間隔は、２の乗数である。
【選択図】図１