特許7646639 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特許7646639柔軟な精度演算を用いた行列乗算器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-07

(45)【発行日】2025-03-17

(54)【発明の名称】柔軟な精度演算を用いた行列乗算器

(51)【国際特許分類】

G06F 17/16 20060101AFI20250310BHJP

【ＦＩ】

G06F17/16 M

【請求項の数】 15

(21)【出願番号】P 2022518267

(86)(22)【出願日】2020-09-23

(65)【公表番号】

(43)【公表日】2022-11-17

(86)【国際出願番号】 US2020052211

(87)【国際公開番号】W WO2021061768

(87)【国際公開日】2021-04-01

【審査請求日】2023-08-29

(31)【優先権主張番号】16/581,252

(32)【優先日】2019-09-24

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ビンホー

(72)【発明者】

【氏名】マイケルマントル

(72)【発明者】

【氏名】ジャーシェンチェン

(72)【発明者】

【氏名】ジャンファン

【審査官】田中幸雄

(56)【参考文献】

【文献】特表２０１２－５０５４５５（ＪＰ，Ａ）

【文献】米国特許出願公開第２００５／０１９３０５０（ＵＳ，Ａ１）

【文献】国際公開第２０１９／００２８１１（ＷＯ，Ａ１）

【文献】特開２０１０－７９３６１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１６

(57)【特許請求の範囲】

【請求項1】

積和演算素子を含む複数のベクトル信号プロセッサ（ＶＳＰ）と、
前記複数のＶＳＰに関連する複数のレジスタと、を備える装置であって、
複数の反復を含む第一ラウンドの前に、第一行列及び第二行列の第一部分が前記複数のレジスタにフェッチされ、
前記積和演算素子は、第二ラウンドのために前記第一行列及び前記第二行列の第二部分を前記複数のレジスタにフェッチする前に、前記複数の反復中の前記第一行列及び前記第二行列の前記第一部分のサブセットの異なる組み合わせに対して行列の積和演算を実行する、
装置。

【請求項2】

前記複数のＶＳＰは、第一バッファと、第二バッファと、出力バッファと、をさらに含み、前記第一行列及び前記第二行列の前記第一部分の前記サブセットは、前記複数の反復を開始する前に、前記複数のレジスタから前記複数のＶＳＰの前記第一バッファ及び前記第二バッファにコピーされる、
請求項１の装置。

【請求項3】

前記複数の反復のうち現在の反復中に、前記積和演算素子は、行列の積和演算を、前記現在の反復中の対応する前記第一バッファ及び前記第二バッファに格納された前記第一行列及び前記第二行列の前記第一部分の前記サブセットに対して実行する、
請求項２の装置。

【請求項4】

前記現在の反復中に前記積和演算素子が前記行列の積和演算を実行した後に、前記現在の反復中に、前記複数のＶＳＰ間で前記第一行列の前記第一部分の前記サブセットをローテーションする、
請求項３の装置。

【請求項5】

前記複数のＶＳＰを相互接続するクロスバースイッチをさらに含み、前記第一行列の前記第一部分の前記サブセットを、前記クロスバースイッチを介して前記複数のＶＳＰ間でローテーションする、
請求項４の装置。

【請求項6】

前記積和演算素子が、前記第一ラウンドにおける前記複数の反復中に、前記第一行列及び前記第二行列の前記第一部分の前記サブセットの全ての組み合わせに対して前記行列の積和演算を実行するように、前記複数の反復が前記複数のＶＳＰに対応する、
請求項１の装置。

【請求項7】

前記複数のＶＳＰは、出力バッファをさらに含み、
前記積和演算素子は、前記第一ラウンドにおける前記複数の反復中に前記行列の積和演算を実行した後であって、前記第二ラウンドを開始する前に、積の累算結果を前記出力バッファに書き込む、
請求項１～６の何れかの装置。

【請求項8】

前記第一行列及び前記第二行列の前記第二部分は、前記積和演算素子が前記累算結果を前記出力バッファに書き込むことに応じて、前記複数のレジスタにフェッチされる、
請求項７の装置。

【請求項9】

複数の反復を含む第一ラウンドの前に、複数のベクトル信号プロセッサ（ＶＳＰ）に関連する複数のレジスタに第一行列及び第二行列の第一部分をフェッチすることと、
行列の積和演算を、前記複数の反復中に前記第一行列及び前記第二行列の前記第一部分のサブセットの異なる組み合わせに対して実行することと、
前記第一ラウンドの前記複数の反復を完了したことに応じて、第二ラウンドのための前記第一行列及び前記第二行列の第二部分を前記複数のレジスタにフェッチすることと、を含む、
方法。

【請求項10】

前記複数の反復を開始する前に、前記第一行列及び前記第二行列の前記第一部分の前記サブセットを前記複数のレジスタから前記複数のＶＳＰ内の第一バッファ及び第二バッファにコピーすることをさらに含む、
請求項９の方法。

【請求項11】

前記複数の反復のうち現在の反復中に、行列の積和演算を、前記現在の反復中の前記第一行列及び前記第二行列の前記第一部分の前記サブセットに対して実行することをさらに含む、
請求項１０の方法。

【請求項12】

前記行列の積和演算を前記現在の反復中に実行した後に、前記現在の反復中に、前記複数のＶＳＰ間で前記第一行列の前記第一部分の前記サブセットをローテーションすることをさらに含む、
請求項１１の方法。

【請求項13】

前記複数のＶＳＰ間で前記第一行列の前記第一部分の前記サブセットをローテーションすることは、前記第一行列の前記第一部分の前記サブセットを、前記複数のＶＳＰを相互接続するクロスバースイッチを介して前記複数のＶＳＰ間でローテーションすることを含む、
請求項１２の方法。

【請求項14】

前記複数の反復は前記複数のＶＳＰに対応し、前記行列の積和演算を実行することは、前記第一ラウンドの前記複数の反復中に、前記第一部分及び前記第二部分の前記サブセットの全ての組み合わせに対する前記行列の積和演算を含む、
請求項１１の方法。

【請求項15】

前記第一ラウンドの前記複数の反復中に前記行列の積和演算を実行した後であって、前記第二ラウンドを開始する前に、積の累算結果を出力バッファに書き込むことをさらに含み、
前記第一行列及び前記第二行列の前記第二部分をフェッチすることは、前記累算結果を前記出力バッファに書き込むことに応じて、前記第一行列及び前記第二行列の前記第二部分を前記複数のレジスタにフェッチすることを含む、
請求項９～１４の何れかの方法。

【発明の詳細な説明】

【背景技術】

【0001】

深層学習、ハイパフォーマンスコンピューティング（ＨＰＣ）、クラウドコンピューティング及びグラフィックスレンダリング等のデータ集約型アプリケーションを使用して、大規模シミュレーション、気候変動、計算生物学、疾病予防、財務モデリング等を含む課題に対処する。データ集約型アプリケーションをサポートするために、グラフィックスプロセッシングユニット（ＧＰＵ）等の処理ユニットは、高い浮動小数点パフォーマンス及び高いメモリ帯域幅速度を提供するように設計されている。例えば、ＧＰＵ内の単一命令複数データ（ＳＩＭＤ）素子の各々は、行列積等の並列演算を実行する４つのベクトル信号プロセッサ（ＶＳＰ）を含む。対応するソフトウェアプラットフォームによって、エンジニアは、ハイパフォーマンスＧＰＵのリソースを利用することができる。場合によっては、ソフトウェアプラットフォームは、柔軟な混合精度機能を提供する深層学習演算（dlops）をサポートし、これらの混合精度機能は、ニューラルネットワークをトレーニングすること、及び、トレーニングされたニューラルネットワークに対して推論を実行すること等の動的作業負荷をサポートする。柔軟な混合精度機能を実装するには、複素マルチプレクサ、ＧＰＵ内のＶＳＰ間のクロスバースイッチ、及び、ベクトル汎用レジスタ（ＶＧＰＲ）等のレジスタのレイアウトでの複雑化を組み込むことが必要である。

【0002】

添付の図面を参照することにより、本開示をより良く理解することができ、その多くの特徴及び利点が当業者に明らかとなる。異なる図面で同じ符号が使用されている場合には、類似又は同一のアイテムを示している。

【図面の簡単な説明】

【0003】

【図1】いくつかの実施形態による、柔軟な精度行列演算をサポートする処理システムのブロック図である。

【図2】いくつかの実施形態による、２つの行列の行列積のブロック図である。

【図3】いくつかの実施形態による、４つのベクトル信号プロセッサ（ＶＳＰ）を含む単一命令複数データ（ＳＩＭＤ）ユニットのブロック図であり、これらのＶＳＰは、システムメモリから行列の部分を協調フェッチし、行列積を求める。

【図4】いくつかの実施形態による、行列積の丸めにおける反復シーケンスの第一反復及び第二反復中のＶＳＰバッファのブロック図である。

【図5】いくつかの実施形態による、行列積の丸めにおける反復シーケンスの第三反復及び第四反復中のＶＳＰバッファのブロック図である。

【図6】いくつかの実施形態による、２つの行列の行列積のブロック図であり、これらの行列のうち１つに部分行列の代替の配列を使用する。

【図7】いくつかの実施形態による、処理ユニットの複数のＶＳＰ内のバッファを介してオペランドを回転させることによって行列積の丸めを実行する方法のブロック図である。

【発明を実施するための形態】

【0004】

データ集約型アプリケーションは、メモリ、処理能力及び帯域幅を含む処理リソースを大量に消費して、メモリとプロセッサとの間でデータを移動させる。したがって、これらのアプリケーションには、より低い電力でより高い計算密度を提供するだけでなく、浮動小数点及び整数演算についての様々な精度をサポートするハードウェアが必要とされる。ＧＰＵのパフォーマンスは、オペランドの精度と、面積当たり、そしてワット当たりの深層学習演算（dlops）レートと、によって制限される。３２ビットのストリーミングプロセッサのパフォーマンスは、拡張された累算レジスタファイルを実装することにより、より高いスループットの多精度ｄｌｏｐｓをサポートするように拡張可能である。ただし、ｄｌｏｐｓレートの向上は、２つのＶＧＰＲファイルを分離するアーキテクチャによって制限され、倍精度を必要とするＨＰＣアプリケーション等の一般的な計算では、行列パイプラインのロジックを利用することができない。

【0005】

図１～図７は、第一行列及び第二行列の行列積の間、ハイパフォーマンス処理ユニットでの単位面積当たりの消費電力を低減させ、データの再使用を増加させることで、複数のベクトル信号プロセッサ（ＶＳＰ）を含む処理ユニットでの帯域幅消費を低減させるための技術を開示する。ＶＳＰは、メモリから、処理ユニットの単一命令複数データ（ＳＩＭＤ）素子に実装された対応するレジスタ（ベクトル汎用レジスタ、ＶＧＰＲ等）に第一行列及び第二行列の部分を協調的にフェッチする。第一反復では、第一行列及び第二行列の部分は、レジスタから、複数のＶＳＰ内の対応する第一バッファ及び第二バッファに書き込まれる。複数のＶＳＰ内の積和演算素子は、第一バッファ及び第二バッファ内の値を結合し、これらの結果を、後続の結果との累算のために格納する。後続の反復では、第一行列及び第二行列の部分の異なる組み合わせが複数のＶＳＰによって積和されるように、第一行列の部分が複数のＶＳＰの第一バッファを通して回転する。例えば、４つのＶＳＰがＳＩＭＤ素子内に実装される場合、第一行列の４つの部分及び第二行列の４つの部分は、４つの第一バッファ及び４つの第二バッファに書き込まれる。ＶＳＰ内の積和演算素子で行列積演算を実行し、第一行列の部分を、クロスバースイッチを介して異なるＶＳＰ内の異なる第一バッファに回転させる。積和演算素子は、別のセットの行列積演算を並行して実行し、このプロセスが４回繰り返される。複数のＶＳＰの各々の累算結果は、複数のＶＳＰに関連するレジスタに格納される第二行列の各部分と、第一行列の各部分の積和演算を実行することに応じて、ＶＧＰＲ（又は、ＶＧＰＲの前に対応する出力バッファ）に書き戻される。次に、第一行列及び第二行列の新しい部分は、行列積演算のその次の丸めのためにレジスタにフェッチされる。

【0006】

図１は、いくつかの実施形態による、柔軟な精度行列演算をサポートする処理システム１００のブロック図である。処理システム１００は、システムメモリ１０５、又は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）等の非一時的なコンピュータ可読媒体を使用して実装される他のストレージコンポーネントを含むか、それらにアクセスする。ただし、メモリ１０５のいくつかの実施形態は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装される。また、処理システム１００は、バス１１０を含み、このバスは、メモリ１０５等のように、処理システム１００内に実装されるエンティティ間の通信をサポートする。処理システム１００のいくつかの実施形態は、分かり易くするために図１に示されていない他のバス、ブリッジ、スイッチ、ルータ等を含む。

【0007】

処理システム１００は、中央処理装置（ＣＰＵ）１１５を含む。ＣＰＵ１１５のいくつかの実施形態は、命令を並行して、又は、並列に実行する複数の処理素子（分かり易くするために図１に示されていない）を含む。処理素子は、プロセッサコア、計算ユニット又は他の用語を使用して呼ばれる。ＣＰＵ１１５は、バス１１０に接続されているため、バス１１０を介してメモリ１０５と通信する。ＣＰＵ１１５は、メモリ１０５に格納されたプログラムコード１２０等の命令を実行し、ＣＰＵ１１５は、実行された命令の結果等の情報をメモリ１０５に格納する。また、ＣＰＵ１１５は、ドローコールを発行することによってグラフィックス処理を開始することができる。

【0008】

入出力（Ｉ／Ｏ）エンジン１２５は、ディスプレイ１３０だけでなく、キーボード、マウス、プリンタ、外部ディスク等の処理システム１００の他の要素に関連する入力又は出力操作を処理する。Ｉ／Ｏエンジン１２５は、バス１１０に結合されているため、Ｉ／Ｏエンジン１２５は、メモリ１０５、ＣＰＵ１１５、又は、バス１１０に接続された他のエンティティと通信することができる。図示した実施形態では、Ｉ／Ｏエンジン１２５は、外部ストレージコンポーネント１３５に格納された情報を読み出し、この外部ストレージコンポーネントは、コンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）等の非一時的なコンピュータ可読媒体を使用して実装される。また、Ｉ／Ｏエンジン１２５は、ＣＰＵ１１５による処理の結果等の情報を外部ストレージコンポーネント１３５に書き込む。

【0009】

処理システム１００は、ディスプレイ１３０上で提示される画像をレンダリングするグラフィックスプロセッシングユニット（ＧＰＵ）１４０を含む。例えば、ＧＰＵ１４０は、オブジェクトをレンダリングして、ピクセル値を生成し、これらのピクセル値をディスプレイ１３０に提供し、ディスプレイ１３０は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。ＧＰＵ１４０のいくつかの実施形態は、汎用コンピューティングに使用される。図示した実施形態では、ＧＰＵ１４０は、バス１１０を介してメモリ１０５（及び、バス１１０に接続された他のエンティティ）と通信する。ただし、ＧＰＵ１４０のいくつかの実施形態は、直接接続を介して、又は、他のバス、ブリッジ、スイッチ、ルータ等を介してメモリ１０５と通信する。ＧＰＵ１４０は、メモリ１０５に格納された命令を実行し、ＧＰＵ１４０は、実行された命令の結果等の情報をメモリ１０５に格納する。例えば、メモリ１０５は、ＧＰＵ１４０によって実行されるプログラムコードを表す命令のコピー１４５を格納する。

【0010】

ＧＰＵ１４０は、１つ以上の単一命令複数データ（ＳＩＭＤ）ユニット１５０を含むが、明確にするために図１に１つだけ示されている。ＳＩＭＤユニット１５０は、ベクトル信号プロセッサ（ＶＳＰ）１５１，１５２，１５３，１５４等の複数の処理素子を含み、これらは、本明細書では「ＶＳＰ１５１～１５４」とまとめて呼ばれる。図示した実施形態では、クロスバースイッチ１５５は、ＶＳＰ１５１～１５４を相互接続し、ＶＳＰ１５１～１５４間で情報を伝達するための通信経路を提供する。ＶＳＰ１５１～１５４は、システムメモリ１０５からフェッチされた情報に対して、例えば明確にするために図１に示されていないベクトル汎用レジスタ（ＶＧＰＲ）等のレジスタにベクトル演算を実行する。

【0011】

行列積演算を実行するために、ＶＳＰ１５１～１５４は、システムメモリ１０５から情報を協調的にフェッチし、情報のサブセットに行列積演算を実行してから、情報のサブセットを交換することにより、ＶＳＰ１５１～１５４は、サブセットの様々な組み合わせに行列積演算を実行することができる。ＶＳＰ１５１～１５４のいくつかの実施形態は、システムメモリ１０５から行列の部分を協調的にフェッチし、次に、これらの行列のフェッチされた部分に行列積演算を実行する。これらの部分は、ＶＳＰ１５１～１５４を通して、例えばクロスバースイッチ１５５等を介して回転するため、行列の異なる部分の行列積は、システムメモリ１０５から行列の追加部分をフェッチする前に実行され、累算される。いくつかの実施形態では、複数の反復を含む第一丸めの前に、第一及び第二行列の第一部分をＶＧＰＲにフェッチする。ＶＳＰ１５１～１５４内の積和演算素子は、第二丸めの間に第一及び第二行列の第二部分をＶＧＰＲにフェッチする前に、複数の反復中に第一及び第二行列の第一部分のサブセットの様々な組み合わせに行列の積和演算を実行する。

【0012】

ＧＰＵ１４０のいくつかの実施形態は、異なる精度で柔軟に演算する３２ビットストリーミングプロセッサとして実装される。例えば、ＧＰＵ１４０は、単精度オペランド、倍精度オペランド、ＦＰ１６オペランド、及び、８ビット整数オペランドを使用して、正則演算及び行列演算を実行する。

【0013】

図２は、いくつかの実施形態による、２つの行列の行列積２００のブロック図である。行列積２００は、図１に示すＧＰＵ１４０のいくつかの実施形態によって実行される。行列積２００を使用して、行列２０５と行列２１０との積を求め、出力行列２１５を生成する。図示した実施形態では、行列積２００は、行列２０５，２１０からの部分行列（又は、サブセット若しくは部分）を乗算し、適切な結果を累算して、出力行列２１５の対応する部分行列を生成することによって実行される。例えば、行列２０５からの部分行列Ａ１、及び、行列２１０からの部分行列Ｂ１を積和し、出力行列２１５の部分行列２２０を生成する。

【0014】

本明細書で説明するように、行列２０５，２１０の部分行列のグループは、ＳＩＭＤ内の複数のＶＳＰによってシステムメモリから協調的にフェッチされ、ついで、ＶＳＰは、このフェッチされたデータを共有し、部分行列の様々な組み合わせの行列積を求め、それらの結果を累算する。図示した実施形態では、図１に示すＶＳＰ１５１～１５４等の４つのＶＳＰは、行列２０５からの部分行列Ａ１，Ａ２，Ａ３，Ａ４及び行列２１０からの部分行列Ｂ１，Ｂ２，Ｂ３，Ｂ４を協調的にフェッチする。次に、４セットの行列積を実行し、累算して、出力行列２１５の部分２２５の要素を生成する。

【0015】

行列積のセットは、反復して実行される。第一反復では、部分行列Ａ１は、ＶＳＰのうち何れかにあるバッファからアクセスされ、他のＶＳＰによってクロスバースイッチを介してアクセスされる。４つのＶＳＰは、行列積を実行する。
Ａ１×Ｂ１
Ａ１×Ｂ２
Ａ１×Ｂ３
Ａ１×Ｂ４

【0016】

第二反復の間、行列２０５からの部分行列Ａ１，Ａ２，Ａ３，Ａ４は、ＶＳＰを介して回転し、行列２１０からの部分行列Ｂ１，Ｂ２，Ｂ３，Ｂ４は、それらの元の位置に留まる。本明細書で使用される「回転させる」という用語は、ＶＳＰによってそれらの内部バッファ又はクロスバースイッチを介してアクセスされる部分行列Ａ１，Ａ２，Ａ３，Ａ４を変更することを指す。図示した実施形態では、第一反復に続く部分行列Ａ１，Ａ２，Ａ３，Ａ４の回転により、ＶＳＰは、内部バッファ又はクロスバースイッチを介して部分行列Ａ２にアクセスする。ただし、他のタイプ又はパターンの回転は、他の実施形態では、内部バッファ及びクロスバースイッチを使用して実施される。

【0017】

第二反復では、４つのＶＳＰは、行列積を実行する。
Ａ２×Ｂ１
Ａ２×Ｂ２
Ａ２×Ｂ３
Ａ２×Ｂ４

【0018】

第三反復の間、行列２０５からの部分行列Ａ１，Ａ２，Ａ３，Ａ４は、ＶＳＰを介して再度回転し、行列２１０からの部分行列Ｂ１，Ｂ２，Ｂ３，Ｂ４は、それらの元の位置に留まる。第三反復では、４つのＶＳＰは、行列積を実行する。
Ａ３×Ｂ１
Ａ３×Ｂ２
Ａ３×Ｂ３
Ａ３×Ｂ４

【0019】

第四反復の間、行列２０５からの部分行列Ａ１，Ａ２，Ａ３，Ａ４は、ＶＳＰを介して再度回転し、行列２１０からの部分行列Ｂ１，Ｂ２，Ｂ３，Ｂ４は、それらの元の位置に留まる。第四反復では、４つのＶＳＰは、行列積を実行する。
Ａ４×Ｂ１
Ａ４×Ｂ２
Ａ４×Ｂ３
Ａ４×Ｂ４

【0020】

この時点では、ＶＳＰは、出力行列２１５の部分２２５に対応する寄与を生成するために必要な部分行列Ａ１，Ａ２，Ａ３，Ａ４及び行列２１０からの部分行列Ｂ１，Ｂ２，Ｂ３，Ｂ４の全ての組み合わせの行列積を一括して実行したことになる。第四反復を完了することに応じて累算結果が書き込まれ、ＶＳＰは、行列２１０，２１５の他の部分行列を協調的にフェッチして、反復の別の丸めを実行する。

【0021】

図３は、いくつかの実施形態による、４つのＶＳＰ３０１，３０２，３０３，３０４を含むＳＩＭＤユニット３００のブロック図であり、これらのＶＳＰは、システムメモリから行列の部分を協調的にフェッチし、行列積を求める。ＳＩＭＤユニット３００を使用して、図１に示すＳＩＭＤユニット１５０のいくつかの実施形態を実装する。ＶＳＰ３０１～３０４は、互いに乗算される２つの行列の部分（例えば、図２に示す行列２０５，２１０の部分）を格納するＶＧＰＲ３０５，３０６，３０７，３０８（本明細書では「ＶＧＰＲ３０５～３０８」とまとめて呼ばれる）に関連付けられている。本明細書で説明するように、フェッチされた部分を含む行列積演算の丸めの開始時に、行列の部分をシステムメモリからＶＧＰＲ３０５～３０８に協調的にフェッチする。

【0022】

ＶＳＰ３０１～３０４は、第一バッファ３１０，３１１，３１２，３１３（本明細書では「第一バッファ３１０～３１３」とまとめて呼ばれる）と、第二バッファ３１５，３１６，３１７，３１８（本明細書では「第二バッファ３１５～３１８」とまとめて呼ばれる）と、を含む。第一バッファ３１０～３１３は、ＶＧＰＲ３０５～３０８に格納された第一行列の部分のサブセットを格納し、第二バッファ３１５～３１８は、ＶＧＰＲ３０５～３０８に格納された第二行列の部分のサブセットを格納する。また、ＶＳＰ３０１～３０４は、第一バッファ３１０～３１３及び第二バッファ３１５～３１８に格納されたサブセットに対して行列積を実行する、行列の積和演算素子３２０，３２１，３２２，３２３（本明細書では「積和演算素子３２０～３２３」とまとめて呼ばれる）を含む。次に、行列積の結果は、行列の積和演算素子３２０～３２３によって累算される。

【0023】

クロスバースイッチ３３０がＶＳＰ３０１～３０４を相互接続することにより、第一バッファ３１０～３１３のコンテンツを、ＶＳＰ３０１～３０４間で伝達し又は回転することができる。図示した実施形態では、行列積演算の丸めを開始する前に、第一行列の部分Ａ１，Ａ２，Ａ３，Ａ４及び第二行列の部分Ｂ１，Ｂ２，Ｂ３，Ｂ４をシステムメモリからＶＧＰＲ３０５～３０８にフェッチする。第一行列の部分Ａ１，Ａ２，Ａ３，Ａ４は、ＶＧＰＲ３０５～３０８から対応する第一バッファ３１０～３１３にコピーされ、第二行列の部分Ｂ１，Ｂ２，Ｂ３，Ｂ４は、ＶＧＰＲ３０５～３０８から対応する第二バッファ３１５～３１８にコピーされる。丸めの第一反復中に、積和演算素子３２０～３２３は、第二バッファ３１５～３１８のコンテンツと、第一バッファ３１０～３１３、又は、第一バッファ３１０～３１３からクロスバースイッチ３３０を介して伝達される値のコンテンツと、に行列積を実行する。次に、第一バッファ３１０～３１３のコンテンツを回転させ、積和演算プロセスの反復の別の丸めを実行する。このプロセスは、第一行列の部分Ａ１，Ａ２，Ａ３，Ａ４と、第二行列の部分Ｂ１，Ｂ２，Ｂ３，Ｂ４との全ての組み合わせを互いに乗算するまで繰り返される。次に、積和演算素子３２０～３２３は、対応する出力バッファ３２５，３２６，３２７，３２８（本明細書では「出力バッファ３２５～３２８」とまとめて呼ばれる）に累算結果を書き込む。いくつかの実施形態では、出力バッファ３２５～３２８を使用せず、代わりにＶＧＰＲ３０５～３０８に累算結果を直接書き込む。

【0024】

図４は、いくつかの実施形態による、行列積の丸めでの反復シーケンスの第一反復４００及び第二反復４０１中に実行される行列積のブロック図である。反復の丸めを開始する前に、部分Ａ１，Ａ２，Ａ３，Ａ４及び部分Ｂ１，Ｂ２，Ｂ３，Ｂ４は、対応するＶＧＰＲ及びＶＳＰ内のバッファにロードされる。図示した実施形態では、第一ＶＳＰ内のバッファは第一及び第二行列の部分Ａ１，Ｂ１を含み、第二ＶＳＰ内のバッファは第一及び第二行列の部分Ａ２，Ｂ２を含み、第三ＶＳＰ内のバッファは第一及び第二行列の部分Ａ３，Ｂ３を含み、第四ＶＳＰ内のバッファは第一及び第二行列の部分Ａ４，Ｂ４を含む。

【0025】

第一反復４００中に、対応するＶＳＰ内の算術論理演算装置は、部分行列対（ペア）４０５，４０６，４０７，４０８を形成し、これらの部分行列対は、本明細書では部分行列対４０５～４０８とまとめて呼ばれる。算術論理演算装置は、対４０５～４０８を乗算し、それらの結果を累算する。算術論理演算装置のいくつかの実施形態は、図３に示すＶＳＰ３０１～３０４内の積和演算素子３２０～３２３に対応する。反復（又は、サイクル）に応じて、算術論理演算装置は、以下に説明するように、ＶＳＰ内のバッファから又はクロスバースイッチを介して、部分行列対４０５～４０８の値にアクセスする。図示した実施形態では、第一ＶＳＰ内の算術論理演算装置は、第一反復４００中に、バッファから部分Ａ１，Ｂ１にアクセスして、対４０５を形成する。次に、算術論理演算装置は、バッファのコンテンツに行列積を実行し、それらの結果を累算する。他のＶＳＰ内の算術論理演算装置は、第一反復４００の間にクロスバースイッチを介して部分Ａ１にアクセスする。次に、算術論理演算装置は、対４０６～４０８に行列積を実行する。第一反復４００の終了時に、部分Ａ１，Ａ２，Ａ３，Ａ４が回転し、部分Ｂ１，Ｂ２，Ｂ３，Ｂ４が回転しない。

【0026】

第二反復４０１中に、対応するＶＳＰ内の算術論理演算装置は、部分行列対４１０，４１１，４１２，４１３を形成し、これらの部分行列対は、本明細書では部分行列対４１０～４１３とまとめて呼ばれる。算術論理演算装置は、対４１０～４１３を乗算し、それらの結果を累算する。図示した実施形態では、第二ＶＳＰ内の算術論理演算装置は、バッファから部分Ａ２，Ｂ２にアクセスして、対４１１を形成する。次に、算術論理演算装置は、バッファのコンテンツに行列積を実行し、それらの結果を累算する。他のＶＳＰ内の算術論理演算装置は、クロスバースイッチを介して部分Ａ２にアクセスする。次に、算術論理演算装置は、対４１０，４１２，４１３に行列積を実行する。第二反復４０１の終了時に、部分Ａ１，Ａ２，Ａ３，Ａ４が回転し、部分Ｂ１，Ｂ２，Ｂ３，Ｂ４が回転しない。

【0027】

図５は、いくつかの実施形態による、行列積の丸めにおける反復シーケンスの第三反復５００及び第四反復５０１中に実行される行列積のブロック図である。いくつかの実施形態では、第三及び第四反復５００，５０１は、図４に示す第一及び第二反復４００，４０１に続き、これら第一及び第二反復のものと同じ行列積演算の丸めである。部分Ａ１，Ａ２，Ａ３，Ａ４及び部分Ｂ１，Ｂ２，Ｂ３，Ｂ４は、対応するＶＧＰＲ及びＶＳＰ内のバッファにロードされる。図示した実施形態では、第一ＶＳＰ内のバッファは第一及び第二行列の部分Ａ１，Ｂ１を含み、第二ＶＳＰ内のバッファは第一及び第二行列の部分Ａ２，Ｂ２を含み、第三ＶＳＰ内のバッファは第一及び第二行列の部分Ａ３，Ｂ３を含み、第四ＶＳＰ内のバッファは第一及び第二行列の部分Ａ４，Ｂ４を含む。

【0028】

第三反復５００中に、対応するＶＳＰ内の算術論理演算装置は、部分行列対５０５，５０６，５０７，５０８を形成し、これらの部分行列対は、本明細書では部分行列対５０５～５０８とまとめて呼ばれる。算術論理演算装置は、対５０５～５０８を乗算し、それらの結果を累算する。図示した実施形態では、第三ＶＳＰ内の算術論理演算装置は、バッファから部分Ａ３，Ｂ３にアクセスして、対５０７を形成する。次に、算術論理演算装置は、バッファのコンテンツに行列積を実行し、それらの結果を累算する。他のＶＳＰ内の算術論理演算装置は、クロスバースイッチを介して部分Ａ３にアクセスする。次に、算術論理演算装置は、対５０５，５０６，５０８に行列積を実行する。第三反復５００の終了時に、部分Ａ１，Ａ２，Ａ３，Ａ４が回転し、部分Ｂ１，Ｂ２，Ｂ３，Ｂ４が回転しない。

【0029】

第四反復５０１中に、対応するＶＳＰ内の算術論理演算装置は、部分行列対５１０，５１１，５１２，５１３を形成し、これらの部分行列対は、本明細書では部分行列対５１０～５１３とまとめて呼ばれる。算術論理演算装置は、対５１０～５１３を乗算し、それらの結果を累算する。図示した実施形態では、第四ＶＳＰ内の算術論理演算装置は、バッファから部分Ａ４，Ｂ４にアクセスして、対５１３を形成する。次に、算術論理演算装置は、バッファのコンテンツに行列積を実行し、それらの結果を累算する。他のＶＳＰ内の算術論理演算装置は、クロスバースイッチを介して部分Ａ４にアクセスする。次に、算術論理演算装置は、対５１０～５１２に行列積を実行する。第四反復５０１の終了時に、算術論理演算装置は、図３に示す出力バッファ３２５～３２８等の対応する出力バッファに累算結果を書き込む。次に、第一行列及び第二行列の新しい部分を、ＶＳＰに関連するＶＧＰＲにフェッチし、これらの部分を対応するバッファにコピーして、行列積の別の丸めを開始する。

【0030】

図６は、いくつかの実施形態による、２つの行列の行列積６００のブロック図であり、これらの行列のうち何れかに部分行列の代替の配列を使用する。行列積６００は、図１に示すＧＰＵ１４０のいくつかの実施形態によって実行される。行列積６００を使用して、行列６０５と行列６１０とを乗算し、出力行列６１５を生成する。図示した実施形態では、行列積６００は、行列６０５，６１０からの部分行列（又は、サブセット若しくは部分）を乗算し、適切な結果を累算して、出力行列６１５の対応する部分行列を生成することによって実行される。例えば、行列６０５からの部分行列Ａ１、及び、行列６１０からの部分行列Ｂ１を積和し、出力行列６１５の部分行列６２０を生成する。行列積６００は、行列６１０の部分行列を、行ベース（row-based）の向きではなく、列ベース（column-based）の向きに配列する点において、図２に示す行列積２００とは異なる。したがって、出力行列６１５の部分６２５は、図２に示す出力行列２１５の部分２２５のアレイベース（array-based）の代わりに、列ベースの構成として部分行列Ａ１，Ａ２，Ａ３，Ａ４及び部分行列Ｂ１，Ｂ２，Ｂ３，Ｂ４を乗算することによって生成される。

【0031】

図７は、いくつかの実施形態による、処理ユニットの複数のＶＳＰ内のバッファを介してオペランドを回転させることによって行列積の丸めを実行する方法７００のブロック図である。方法７００は、図１に示すＧＰＵ１４０、及び、図３に示すＳＩＭＤユニット３００のいくつかの実施形態で実施される。

【0032】

ブロック７０５では、行列Ａ（第一行列）及び行列Ｂ（第二行列）の部分は、システムメモリからフェッチされ、図３に示すＶＧＰＲ３０５～３０８等のＶＳＰに関連するレジスタに格納される。また、行列Ａ及び行列Ｂの部分は、本明細書ではＶＳＰ内の積和演算ユニットによって実行される行列積演算についてのＡオペランド及びＢオペランドとも呼ばれる。

【0033】

ブロック７１０では、Ａ及びＢオペランドは、レジスタから、図３に示す第一バッファ３１０～３１３及び第二バッファ３１５～３１８等のようなＶＳＰのバッファにロードされる。

【0034】

ブロック７１５では、行列積演算の反復が開始され、ＶＳＰ内の積和演算ユニットは、ＶＳＰの各々のバッファに格納されたＡ及びＢオペランドに積和演算を実行する。本明細書で説明するように、Ａオペランドのうち１つは、対応するＶＳＰ内の各々のバッファからアクセスされ、このＡオペランドの値は、その他のＶＳＰによってクロスバースイッチを介してアクセスされる。

【0035】

決定ブロック７２０では、処理ユニットは、Ａ及びＢオペランドの全ての組み合わせに行列の積和演算を実行したかどうかを決定する。いくつかの実施形態では、反復回数は、ＶＳＰの数に等しいので、丸めが完了する前に、Ａオペランドの各々はＢオペランドの各々との積を求められる。積和演算を全ての組み合わせで実行した場合、方法７００はブロック７２５に進み、積和演算ユニットは、累算結果を、図３に示す出力バッファ３２５～３２８等の対応する出力バッファに書き込む。Ａオペランド及びＢオペランドの全ての組み合わせに積和演算を実行していない場合、方法７００はブロック７３０に進む。

【0036】

ブロック７３０では、ＡオペランドはＶＳＰを中心に回転する。いくつかの実施形態では、Ａオペランドは、図３に示すクロスバースイッチ３３０等のクロスバースイッチを介してＡオペランドを表す情報を伝達することによって回転する。Ａオペランドの回転を図４及び図５に示す。次に、方法７００はブロック７１５に戻り、丸めの後続の反復を開始する。

【0037】

上記のような本開示の実施形態は、実施形態の以下の例の実施態様を考慮することによって、より良く理解される。

【0038】

例１．積和演算素子を含む複数のベクトル信号プロセッサ（ＶＳＰ）と、
前記複数のＶＳＰに関連する複数のレジスタと、を備える装置であって、
複数の反復を含む第一丸めの前に、第一行列及び第二行列の第一部分が前記複数のレジスタにフェッチされ、前記積和演算素子は、第二丸めのために前記第一行列及び前記第二行列の第二部分を前記複数のレジスタにフェッチする前に、前記複数の反復において前記第一行列及び前記第二行列の前記第一部分のサブセットの異なる組み合わせに対して行列の積和演算を実行する、装置。

【0039】

例２．前記複数のＶＳＰは、第一バッファと、第二バッファと、出力バッファと、をさらに含み、前記第一行列及び前記第二行列の前記第一部分の前記サブセットは、前記複数の反復を開始する前に、前記複数のレジスタから前記複数のＶＳＰの前記第一バッファ及び前記第二バッファにコピーされる、例１の装置。

【0040】

例３．前記複数の反復のうち現在の反復中に、前記積和演算素子は、行列の積和演算を、前記現在の反復中の対応する前記第一バッファ及び前記第二バッファに格納された前記第一行列及び前記第二行列の前記第一部分の前記サブセットに対して実行する、例２の装置。

【0041】

例４．前記現在の反復中に前記積和演算素子が前記行列の積和演算を実行した後に、前記現在の反復中に、前記第一行列の前記第一部分の前記サブセットが異なるＶＳＰに回転する、例３の装置。

【0042】

例５．前記複数のＶＳＰを相互接続するクロスバースイッチをさらに含み、前記第一行列の前記第一部分の前記サブセットは、前記クロスバースイッチを介して前記異なるＶＳＰに回転する、例４の装置。

【0043】

例６．前記積和演算素子が、前記第一丸めにおける前記複数の反復中に、前記第一行列及び前記第二行列の前記第一部分の前記サブセットの全ての組み合わせに対して前記行列の積和演算を実行するように、前記複数の反復が前記複数のＶＳＰに対応する、例１の装置。

【0044】

例７．前記複数のＶＳＰは、出力バッファをさらに含み、前記積和演算素子は、前記第一丸めにおける前記複数の反復中に前記行列の積和演算を実行した後であって、前記第二丸めを開始する前に、積の累算結果を前記出力バッファに書き込む、例１～６の何れかの装置。

【0045】

例８．前記第一行列及び前記第二行列の前記第二部分は、前記積和演算素子が前記累算結果を前記出力バッファに書き込むことに応じて、前記複数のレジスタにフェッチされる、例７の装置。

【0046】

例９．複数の反復を含む第一丸めの前に、複数のベクトル信号プロセッサ（ＶＳＰ）に関連する複数のレジスタに第一行列及び第二行列の第一部分をフェッチすることと、
行列の積和演算を、前記複数の反復中に前記第一行列及び前記第二行列の前記第一部分のサブセットの異なる組み合わせに対して実行することと、
前記第一丸めの前記複数の反復を完了したことに応じて、第二丸めのための前記第一行列及び前記第二行列の第二部分を前記複数のレジスタにフェッチすることと、を含む、
方法。

【0047】

例１０．前記複数の反復を開始する前に、前記第一行列及び前記第二行列の前記第一部分の前記サブセットを前記複数のレジスタから前記複数のＶＳＰ内の第一バッファ及び第二バッファにコピーすること、をさらに含む、例９の方法。

【0048】

例１１．前記複数の反復のうち現在の反復中に、行列の積和演算を、前記現在の反復中の前記第一行列及び前記第二行列の前記第一部分の前記サブセットに対して実行することをさらに含む、例１０の方法。

【0049】

例１２．前記行列の積和演算を前記現在の反復中に実行した後に、前記現在の反復中に、前記第一行列の前記第一部分の前記サブセットを異なるＶＳＰに回転させることをさらに含む、例１１の方法。

【0050】

例１３．前記第一行列の前記第一部分の前記サブセットを異なる前記第一バッファに回転させることは、前記第一行列の前記第一部分の前記サブセットを、前記複数のＶＳＰを相互接続するクロスバースイッチを介して回転させることを含む、例１２の方法。

【0051】

例１４．前記複数の反復は前記複数のＶＳＰに対応し、前記行列の積和演算を実行することは、前記第一丸めの前記複数の反復中に、前記第一部分及び前記第二部分の前記サブセットの全ての組み合わせに対する前記行列の積和演算を含む、例１１の方法。

【0052】

例１５．前記第一丸めの前記複数の反復中に前記行列の積和演算を実行した後であって、前記第二丸めを開始する前に、積の累算結果を出力バッファに書き込むことをさらに含み、
前記第一行列及び前記第二行列の前記第二部分をフェッチすることは、前記累算結果を前記出力バッファに書き込むことに応じて、前記第一行列及び前記第二行列の前記第二部分を前記複数のレジスタにフェッチすることを含む、例９～１４の何れかの方法。

【0053】

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

【0054】

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

【0055】

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

【0056】

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版