特許7377869 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特許7377869グラフィックスプロセッシングユニットでのパイプライン化された行列乗算

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-01

(45)【発行日】2023-11-10

(54)【発明の名称】グラフィックスプロセッシングユニットでのパイプライン化された行列乗算

(51)【国際特許分類】

G06F 17/16 20060101AFI20231102BHJP

G06F 9/38 20180101ALI20231102BHJP

G06N 3/044 20230101ALI20231102BHJP

【ＦＩ】

G06F17/16 F

G06F9/38 370A

G06N3/044

【請求項の数】 15

(21)【出願番号】P 2021531340

(86)(22)【出願日】2019-12-04

(65)【公表番号】

(43)【公表日】2022-01-26

(86)【国際出願番号】 US2019064454

(87)【国際公開番号】W WO2020117926

(87)【国際公開日】2020-06-11

【審査請求日】2022-11-11

(31)【優先権主張番号】16/211,954

(32)【優先日】2018-12-06

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ミリンドエヌ．ネムレカール

【審査官】坂庭剛史

(56)【参考文献】

【文献】特開２０１６－０９５７６４（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０１８９２３６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１６／０３２１７７６（ＵＳ，Ａ１）

【文献】特開平０８－２２７４０５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１６

Ｇ０６Ｆ９／３８

Ｇ０６Ｎ３／０４４

(57)【特許請求の範囲】

【請求項1】

グラフィックスプロセッシングユニット（ＧＰＵ）［１００］において、実行されるコマンドのセットを受信することであって、前記ＧＰＵは、複数の計算ユニット（ＣＵ）［１０５，１０６，１０７，１０８］を備え、前記コマンドのセットは、複数の行列乗算演算［１０３，１１４］を含む、ことと、
コマンドのセットの受信に応じて、前記複数の行列乗算演算のうち第１の行列乗算演算をＣＵの第１のサブセット［１１０］にスケジューリングし、前記複数の行列乗算演算のうち第２の行列乗算演算を前記ＣＵの第２のサブセット［１１１］にスケジューリングすることであって、前記ＣＵの第２のサブセットは前記ＣＵの第１のサブセットと異なる、ことと、
前記第１の行列乗算演算及び前記第２の行列乗算演算を前記ＣＵの第１のサブセット及び第２のサブセットで実行することと、を含む、
方法。

【請求項2】

前記第２の行列乗算演算を実行するために、前記第１の行列乗算演算の結果を前記ＣＵの第１のサブセットから前記ＣＵの第２のサブセットに提供することをさらに含む、
請求項１の方法。

【請求項3】

第３の行列乗算演算を実行するために、前記第２の行列乗算演算の結果を前記複数のＣＵのうちＣＵの第３のサブセット［１１２］に提供することであって、前記ＣＵの第３のサブセットは、前記ＣＵの第１のサブセット及び第２のサブセットと異なる、ことをさらに含む、
請求項２の方法。

【請求項4】

第４の行列乗算演算を実行するために、前記第３の行列乗算演算の結果を前記ＣＵの第３のサブセットから前記ＣＵの第１のサブセットに提供することをさらに含む、
請求項３の方法。

【請求項5】

前記第１の行列乗算演算は、第１の乗算及び第２の乗算を含み、
前記第２の行列乗算演算は、第３の乗算を含み、
前記第１の行列乗算演算及び第２の行列乗算演算を実行することは、前記第３の乗算と同時に前記第２の乗算を実行することを含む、
請求項２の方法。

【請求項6】

前記第３の乗算は、前記第１の乗算の結果を乗算する、
請求項５の方法。

【請求項7】

前記第１の行列乗算演算は、第１の乗算及び第２の乗算を含み、
前記第１の行列乗算演算を実行することは、前記第１の乗算を前記ＣＵの第１のサブセットの第１のクラスタで実行し、前記第２の乗算を前記ＣＵの第１のサブセットの第２のクラスタで実行することを含む、
請求項２の方法。

【請求項8】

前記第１の行列乗算演算を実行することは、前記第２の乗算と同時に前記第１の乗算を実行することを含む、
請求項７の方法。

【請求項9】

前記第１の行列乗算演算及び第２の行列乗算演算に基づいてリカレントニューラルネットワーク（ＲＮＮ）［１０２］の出力を生成することをさらに含む、
請求項１の方法。

【請求項10】

ＣＵの第１のサブセット［１１０］と、前記ＣＵの第１のサブセットと異なるＣＵの第２のサブセット［１１１］と、を含む複数のＣＵ［１０５，１０６，１０７，１０８］と、
スケジューラ［１０４］と、を備え、
前記スケジューラは、
複数の行列乗算演算［１０３，１１４］を含むコマンドのセットを、実行するために受信することと、
前記コマンドのセットの受信に応じて、前記複数の行列乗算演算のうち第１の行列乗算演算を前記ＣＵの第１のサブセットにスケジューリングし、前記複数の行列乗算演算のうち第２の行列乗算演算を前記ＣＵの第２のサブセットにスケジューリングすることと、
を行うように構成されており、
前記ＣＵの第１のサブセット及び前記ＣＵの第２のサブセットは、前記第１の行列乗算演算及び第２の行列乗算演算を実行するように構成されている、
グラフィックスプロセッシングユニット（ＧＰＵ）［１００］。

【請求項11】

前記ＣＵの第１のサブセットは、前記第２の行列乗算演算を実行するために、前記第１の行列乗算演算の結果を前記ＣＵの第２のサブセットに提供するように構成されている、
請求項１０のＧＰＵ。

【請求項12】

前記ＣＵの第２のサブセットは、第３の行列乗算演算を実行するために、前記第２の行列乗算演算の結果を前記複数のＣＵのうちＣＵの第３のサブセット［１１２］に提供するように構成されており、前記ＣＵの第３のサブセットは、前記ＣＵの第１のサブセット及び第２のサブセットと異なる、
請求項１１のＧＰＵ。

【請求項13】

前記ＣＵの第３のサブセットは、第４の行列乗算演算を実行するために、前記第３の行列乗算演算の結果を前記ＣＵの第１のサブセットに提供するように構成されている、
請求項１２のＧＰＵ。

【請求項14】

前記第１の行列乗算演算は、第１の乗算及び第２の乗算を含み、
前記第２の行列乗算演算は、第３の乗算を含み、
前記ＣＵの第１のサブセットは、前記第３の乗算を実行するように構成された前記ＣＵの第２のサブセットと同時に前記第２の乗算を実行するように構成されている、
請求項１１のＧＰＵ。

【請求項15】

前記第３の乗算は、前記第１の乗算の結果を乗算する、
請求項１４のＧＰＵ。

【発明の詳細な説明】

【背景技術】

【0001】

（関連技術の説明）
最近のプロセッサアプリケーションでは、ベクトル、行列、及び、同様の構造の比較的複雑な操作が必要になることがよくある。例えば、ベクトル及び行列の操作は、グラフィックス処理、デジタル信号処理アプリケーション、ニューラルネットワークアプリケーション等において有用である。これらのアプリケーション及び動作の処理効率を高めるために、プロセッサは、グラフィックスプロセッシングユニット（ＧＰＵ）を含むことができる。ＧＰＵには、比較的大きなデータブロックの並列処理を実行するための専用ハードウェアが含まれている。したがって、ＧＰＵは、グラフィックスアプリケーションだけでなく、ベクトル及び行列の操作を必要とする他の操作をサポートすることができる。処理効率をさらに高めるために、ＧＰＵのスケジューラは、行列乗算等の動作をＣＵでスケジューリングして、並列処理を確実にする。しかしながら、スケジューリングに対する従来のアプローチでは、いくつかの動作セットについて、計算サイクルの数に比べて多数のメモリフェッチサイクルを必要とする可能性があり、それによって、プロセッサのパフォーマンスに悪影響を及ぼす。

【0002】

本開示は、添付図面を参照することによってより良好に理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面において同じ符号を使用することは、類似又は同一の要素を示す。

【図面の簡単な説明】

【0003】

【図1】いくつかの実施形態による、行列乗算演算のセットをＣＵの異なるサブセットにスケジューリングし、結果を異なるサブセット間でパイプライン化するグラフィックスプロセッシングユニット（ＧＰＵ）のブロック図である。

【図2】いくつかの実施形態による、図１のＧＰＵでの行列乗算のために行列を分解する例を示すブロック図である。

【図3】いくつかの実施形態による、行列乗算演算を図１のＣＵのサブセットでパイプライン化する例を示す図である。

【図4】いくつかの実施形態による、行列乗算演算をＣＰＵでパイプライン化する方法のフロー図である。

【発明を実施するための形態】

【0004】

図１から図４は、処理効率を高めるために、ＧＰＵのＣＵの異なるサブセットにおいてリカレント行列乗算演算をスケジューリングする技術を示す。ＧＰＵは、リカレントニューラルネットワーク（ＲＮＮ）に関連する乗算演算等のリカレント行列乗算演算のセットを受信するスケジューラを含む。例えば、ＲＮＮ層に関連する複数の演算は、単一のカーネルに融合され、これは、１つのワークグループが計算ユニット毎に割り当てられるようにスケジューラによってスケジューリングされ、したがって、ＧＰＵのＣＵの異なるサブセットに異なるリカレント行列乗算演算が割り当てられる。さらに、ＧＰＵは、異なるワークグループのソフトウェア同期を介して、割り当てられた行列乗算演算をパイプライン化して、ＣＵの各サブセットが、対応する乗算結果を異なるサブセットに提供するようにし、そして、ＣＵの各サブセットが、乗算演算の少なくとも一部を同時に実行するようにし、それによって、ＧＰＵにおける行列乗算の効率を向上させる。

【0005】

本明細書に記載の技術とは対照的に、従来のアプローチでは、行列の結果領域は、ＧＰＵの全てのＣＵに亘って一度にスライスされる。ＧＰＵ内のＣＵの数が増加すると、全てのＣＵを行列乗算演算でビジーにし続けることは非効率的である。例えば、計算サイクルに対するメモリフェッチサイクルの比率は比較的低い。本明細書で説明する技術を用いることによって、ＧＰＵは、より多くの作業を並行して行うことが可能になり、ＣＵ毎に作業する行列の結果領域をより大きくすることが可能になる。このアプローチは、帯域幅制限と、行列データをフェッチするためのフェッチ操作のレイテンシと、をマスクする。

【0006】

図１は、いくつかの実施形態による、共有負荷を用いるプロセッサのＧＰＵ１００を示す図である。少なくとも一実施形態では、ＧＰＵ１００は、電子デバイスの代わりに動作を実行するために命令セットを実行するように一般に構成されたプロセッサの一部である。したがって、様々な実施形態では、ＧＰＵ１００は、デスクトップ又はラップトップコンピュータ等の電子デバイス、サーバ、スマートフォン又はタブレット等のハンドヘルド電子デバイス、ゲームコンソール等の一部である。ＧＰＵ１００は、一般に、プロセッサに代わってグラフィックス及びベクトルの処理演算を実行するように構成されている。例えば、いくつかの実施形態では、プロセッサの中央処理装置（図１に示されていないＣＰＵ）は、実行される演算のセットをＧＰＵ１００に提供し、これにより、演算のセットは、グラフィックス又はベクトルの処理に関連付けられる。

【0007】

ＣＰＵによって提供される演算のセットの１つのタイプは、本明細書ではリカレント行列乗算演算のセットと呼ばれる。本明細書で用いられる場合、リカレント行列乗算演算とは、行列乗算演算のセットを指し、行列乗算演算のセットのうち少なくとも１つの結果が、セットの他の少なくとも１つの行列乗算演算に提供される。行列乗算演算のセットの例は、リカレントニューラルネットワーク（ＲＮＮ）に関連するセットである。当業者に理解されるように、ＲＮＮは、一連の汎用行列乗算（ＧＥＭＭ）演算とそれに続く活性化関数（例えば、ｔａｎｈ活性化関数）を介して実装される。リカレントＧＥＭＭ演算に関連する重み行列は、全ての隠れ層に亘って一定である。重み行列のこのプロパティを用いて、この行列をレジスタにプリロードし、それによって、乗算演算の全ての反復におけるフェッチを減らすことができる。したがって、ＲＮＮは、本明細書でさらに説明するように、ＲＮＮを実装するためにリカレント行列乗算演算のセットを用いる。

【0008】

ＧＰＵ１００は、提供された演算の実行を容易にするために、複数のＣＵ（例えば、ＣＵ１０５～ＣＵ１０８）を含む。各ＣＵは、割り当てられた演算を、他のＣＵとは独立に且つ同時に実行するように構成されており、ＧＰＵ１００が、行列乗算等の複雑な演算を比較的迅速に実行することを可能にする。したがって、いくつかの実施形態では、各ＣＵは、複数の単一命令複数データ（ＳＩＭＤ）処理ユニット、ＳＩＭＤユニット用の命令をフェッチしデコードするフェッチ及びデコードロジック、ＳＩＭＤユニットのオペランドを記憶するレジスタファイル等を含む。

【0009】

ＧＰＵ１００は、ＣＵでの演算の効率的な実行をサポートするために、指定されたスケジューリング基準にしたがって演算を様々なＣＵに割り当てるように一般に構成されたスケジューラ１０４を含む。いくつかの実施形態では、基準は、ＧＰＵ１００に提供されるカーネルと呼ばれる演算のセットによって部分的に設定される。リカレント行列乗算演算をサポートするために、スケジューラ１０４は、ＧＰＵのＣＵを、ＣＵサブセット１１０～１１３と指定されたサブセットに論理的に分割する。他の実施形態では、スケジューラ１０４は、ＣＵを、より多くの又はより少ないサブセットに論理的に分割することが理解されるであろう。本明細書で用いられる場合、サブセットは、ＧＰＵのＣＵの全てではなく一部を含むセットを指す。したがって、例えば、ＧＰＵ１００が合計１２８個のＣＵを含む実施形態では、ＣＵサブセット１１０～１１３の各々は、３２個のＣＵの異なるセットを含み、１２８個のＣＵの各々は、ＣＵサブセット１１０～１１３の異なるサブセットにある。

【0010】

いくつかの実施形態では、カーネルは、各ＣＵサブセット１１０～１１３を、本明細書で明確にするためにＣＵクラスタと呼ばれる、より小さなサブセットに論理的に分割する。いくつかの実施形態において、スケジューラ１０４の様々な動作は、ハードウェアスケジューラによって、ソフトウェアスケジューリング動作によって、又は、これらの組み合わせによって実行するできることが理解されるであろう。本明細書で用いられる場合、ＣＵクラスタは、ＣＵサブセットのＣＵの全てではなく一部を含むＣＵのセットである。例えば、ＣＵサブセット１１０は、ＣＵ１０５～１０８を含み、ＣＵ１０５，１０６は、１つのＣＵクラスタ（ＣＵクラスタ１０９と示される）に含まれ、ＣＵ１０７，１０８は、ＣＵサブセット１１０の異なるＣＵクラスタに含まれる。ＣＵサブセット１１０～１１３の各々が３２個のＣＵを含む上記の例では、各ＣＵクラスタは、対応するＣＵサブセットの８個のＣＵを含み、各ＣＵは異なるＣＵクラスタに含まれる。

【0011】

ＣＵをサブセット及びクラスタに論理的に分割することにより、カーネルは、リカレント行列乗算演算をスケジューリングして、異なるＣＵへのデータフェッチを減らす。例示すると、ＧＰＵ１００の各ＣＵは、行列乗算で使用されるオペランドを記憶するためのレジスタ、バッファ又は他の記憶素子（図１には示されていない）を含む。リカレント行列乗算演算において、少なくとも１つの行列が、対応する行列乗算で繰り返し用いられる。したがって、本明細書でさらに説明するように、ＧＰＵ１００は、少なくとも１つの行列を部分行列に分割し、異なる部分行列を繰り返し用いて、リカレント行列乗算演算の最終結果を計算する。したがって、リカレント行列乗算演算を実行するために、スケジューラ１０４は、対応する行列乗算演算の異なるものを、ＣＵサブセット１１０～１１３の異なるものに割り当てる。ＣＵ１１０～１１３の各々は、対応する部分行列を、その対応する記憶素子（例えば、レジスタ）にロードし、複数の行列乗算のために部分行列の少なくとも一部を記憶素子に保持する。したがって、本明細書でさらに説明するように、同じ部分行列は、ＧＰＵ１００の全てのＣＵにフェッチされるのではなく、対応するＣＵサブセット及びＣＵクラスタにのみフェッチされる。対照的に、従来の行列乗算アプローチでは、行列乗算は、ＧＰＵ１００の全てのＣＵ間で分割され、効率を低下させる。

【0012】

例を用いて説明すると、例示された実施形態において、ＧＰＵ１０２は、行列Ａを行列Ｂで乗算して行列Ｃを生成するリカレント行列乗算演算のセットを定義するＲＮＮカーネル１０２を実装する。行列２２２が行列Ａであり、行列２２４が行列Ｂであり、結果として生じる行列２２６が行列Ｃであるいくつかの実施形態による例を図２に示す。ＡとＢの乗算は、以下の式で表される。
Ｃ＝Ａ^＊Ｂ

【0013】

いくつかの実施形態では、行列Ａはニューラルネットワークの重みのセットであり、行列Ｂは初期入力のセットであり、Ｃはニューラルネットワークの活性化関数の出力である。ニューラルネットワークはリカレントニューラルネットワークであるため、ＲＮＮカーネル１０２はＣ’の行列乗算演算も定義する。
Ｃ’＝Ａ^＊Ｃ

【0014】

いくつかの実施形態では、指定された数のＣ^ｎ行列において、行列Ｃ’’、Ｃ’’等の追加の行列乗算演算を定義する。ここで、各Ｃ^ｎ行列は、上述したように行列Ｂの関数である最初のＣ行列を除いて、前のＣ行列の関数である。再び図１を参照すると、ハードウェアバリアは、各Ｃ^ｎ行列の生成をＣＵサブセット１１０～１１３の何れかに割り当てるように構成されている。例えば、スケジューラ１０４は、行列Ｃを生成する行列乗算演算（演算１０３と示されている）をＣＵサブセット１１０に割り当て、行列Ｃ’を生成する行列乗算演算（演算１１４と示されている）をＣＵサブセット１１１に割り当てる。各ＣＵサブセットは、割り当てられた行列乗算演算を実行して、対応するＣ^ｎ行列を生成し、ＲＮＮカーネル１０２の全ての行列乗算演算が完了するまで、Ｃ^ｎ行列を、次のＣ^ｎ行列を生成するために別のＣＵサブセットに提供する。したがって、例えば、いくつかの実施形態では、ＣＵサブセット１１０は、行列ＣをＣＵサブセット１１１に提供して行列Ｃ’を計算し、ＣＵサブセット１１１は、行列Ｃ’をＣＵサブセット１１２に提供して行列Ｃ’’を計算し、ＣＵサブセット１１２は、行列Ｃ’’をＣＵサブセット１１３に提供して行列Ｃ’’’を計算し、ＣＵサブセットは、行列Ｃ’’’をＣＵサブセットＣ’’’に提供し、以下同様に、最終的なＣ^ｎ行列が計算されるまで続く。

【0015】

さらに、いくつかの実施形態では、ＣＵサブセット１１０～１１３は、一連の乗算を介して、対応する行列乗算演算を実行し、一連の乗算の各々は、対応するＣ^ｎ行列の一部を生成する。ＣＵサブセット１１０～１１３の各々は、対応するＣ^ｎ行列の生成された部分を次のＣＵサブセットに提供し、次のＣＵサブセットは、提供された部分を使用して、次のＣ^ｎ行列の対応する部分を生成する。このようにして行列乗算をスケジューリングすることにより、ＧＰＵ１００は、以下にさらに説明するように、異なる乗算をパイプライン化して処理効率を高めることが可能になる。さらに、いくつかの実施形態では、スケジューラ１０４は、個々の行列乗算を異なるＣＵクラスタにスケジューリングして、各ＣＵにおけるメモリフェッチサイクルに対する計算サイクルの比率を向上させる。

【0016】

説明のために、図２を参照すると、ＧＰＵ１００は、行列Ａ及び行列Ｂを乗算するために、一般に、行列Ａ及び行列Ｂを部分行列（例えば、部分行列２２５）に分解するように構成されており、各部分行列は、対応する行列の一部である。したがって、ＧＰＵ１００は、行列Ａを、図示した部分行列Ａ０～Ａ３に分解し、行列Ｂを、図示した部分行列Ｂ０～Ｂ３に分解する。ＧＰＵ１００は、部分行列を用いて、以下の式に従って、対応する部分行列Ｃ０～Ｃ３を計算する。
Ｃ０＝Ａ０^＊Ｂ０＋Ａ２^＊Ｂ１
Ｃ１＝Ａ１^＊Ｂ０＋Ａ３^＊Ｂ１
Ｃ２＝Ａ０^＊Ｂ２＋Ａ２^＊Ｂ３
Ｃ３＝Ａ１^＊Ｂ２＋Ａ３^＊Ｂ３

【0017】

ＧＰＵ１００は、結果として得られたＣの部分行列を用いて、以下の式に従って、対応する部分行列Ｃ０’～Ｃ３’を計算する。
Ｃ０’＝Ａ０^＊Ｃ０＋Ａ２^＊Ｃ１
Ｃ１’＝Ａ１^＊Ｃ０＋Ａ３^＊Ｃ１
Ｃ２’＝Ａ０^＊Ｃ２＋Ａ２^＊Ｃ３
Ｃ３’＝Ａ１^＊Ｃ２＋Ａ３^＊Ｃ３
ＧＰＵ１００は、同様の式を用いて各Ｃ^ｎ行列を計算する。

【0018】

処理効率を高めるために、スケジューラ１００は、ＣＵクラスタによって用いられるＡ部分行列が変化しないように、個々の行列乗算演算をＣＵクラスタにスケジューリングする。例えば、いくつかの実施形態では、ＣＵサブセット１１０が、行列Ｃ及び行列Ｃ’’’’を計算するために割り当てられる。行列Ｃを計算するには、Ａ０部分行列に対して以下の乗算を行う必要がある。
Ａ０^＊Ｂ０
Ａ０^＊Ｂ２
行列Ｃ’’’’を計算するには、Ａ０部分行列に対して以下の乗算を行う必要がある。
Ａ０^＊Ｃ０’’’
Ａ０^＊Ｃ２’’’

【0019】

したがって、データフェッチの数を比較的低く保つために、スケジューラ１００は、所定のＣＵサブセットにおける所定のＡ部分行列に対する全ての乗算演算を同じＣＵクラスタにスケジューリングする。したがって、例えば、いくつかの実施形態では、スケジューラ１０４は、Ａ０部分行列を必要とし、ＣＵサブセット１１０に割り当てられた部分行列を計算するのに用いられる各行列乗算を、同じＣＵクラスタ（例えば、ＣＵクラスタ１０９）に割り当てる。同様に、スケジューラ１０４は、Ａ０部分行列を必要とし、ＣＵサブセット１１１に割り当てられた部分行列を計算するのに用いられる各行列乗算を、ＣＵサブセット１１１の同じＣＵクラスタに割り当てる。各ＣＵサブセットについて同様である。したがって、各ＣＵクラスタは、複数の異なる行列乗算に対して、対応するＡ部分行列を対応するレジスタファイル（又は、他のストレージモジュール）に保持することが可能である。

【0020】

さらに、上記の式から、次のＣ^ｎ行列の対応する部分行列を計算するのに必要なのは、所定のＣ^ｎ行列の部分行列の一部のみであることが分かる。例えば、ＣＵサブセット１１０が部分行列Ｃ０，Ｃ１を計算すると、部分行列Ｃ０’，Ｃ１’の計算に必要とされる全てのデータが計算される。したがって、Ｃ０，Ｃ１の部分行列を計算した後に、ＣＵサブセット１１０は、部分行列をＣＵサブセット１１１に提供して、Ｃ０’，Ｃ１’を計算する。いくつかの実施形態では、ＣＵサブセット１１０は、Ｃ２，Ｃ３行列を計算する前に（又は、同時に）Ｃ０，Ｃ１部分行列を提供する。これにより、行列乗算は、ＣＵサブセット１１０～１１３に亘ってパイプライン化され、処理効率を高める。

【0021】

いくつかの実施形態による、このような行列乗算のパイプライン化の例を図３に示す。図３は、Ｔ_１～Ｔ_５で示される期間のシーケンスを示しており、各期間中、Ｃ^ｎ行列の一部が、ＣＵサブセット１１０～１１３の少なくとも１つによって計算される。いくつかの実施形態では、各期間は、ＣＵサブセット１１０～１１３の複数の処理サイクル又はクロックサイクルを含むことが理解されるであろう。図示した例では、期間Ｔ_１において、ＣＵサブセット１１０は、Ｃ０，Ｃ１部分行列を計算し、部分行列をＣＵサブセット１１１に提供する。

【0022】

次の期間Ｔ_２において、ＣＵサブセット１１０は、Ｃ２，Ｃ３部分行列を計算し、部分行列をＣＵサブセット１１１に提供する。さらに、Ｃ０’，Ｃ１’を計算するのに必要な全ての部分行列が利用可能であるため、期間Ｔ_２において、ＣＵサブセット１１１は、部分行列Ｃ０’，Ｃ１’を計算し、部分行列を提供する。すなわち、期間Ｔ_２において、ＣＵサブセット１１０及びＣＵサブセット１１１は、それぞれ部分行列Ｃ０，Ｃ１及びＣ０’，Ｃ１’を同時に計算する。

【0023】

次の期間Ｔ_３において、ＣＵサブセット１１１は、Ｃ２’，Ｃ３’部分行列を計算し、ＣＵサブセット１１２は、Ｃ０’’，Ｃ１’’部分行列を計算する。次の期間Ｔ_４において、ＣＵサブセット１１２は、Ｃ２’’，Ｃ３’’部分行列を計算し、ＣＵサブセット１１３は、Ｃ０’’’，Ｃ１’’’部分行列を計算する。次の期間Ｔ_５において、ＣＵサブセット１１３は、Ｃ２’’’，Ｃ３’’’部分行列を計算する。したがって、図示したように、行列乗算演算は、ＣＵサブセット１１０～１１３に亘ってパイプライン化され、処理効率を高める。いくつかの実施形態では、Ａ、Ｂ及びＣ行列は、より多数の部分行列を有するより大きな行列であり、図示したパイプラインの効率をさらに高める。例えば、より大きなＣ行列の場合、ＣＵサブセット１１は、期間Ｔ_３においてＣ４，Ｃ５部分行列を計算し、期間Ｔ_４においてＣ６，Ｃ７部分行列を計算することができる。

【0024】

図４は、いくつかの実施形態による、ＧＰＵで行列乗算演算をパイプライン化する方法４００のブロック図である。方法４００は、図１のＧＰＵ１００における実施例に関して説明される。ブロック４０２において、ＧＰＵ１００は、行列Ａ，Ｂ及び実行される行列乗算演算を示すＲＮＮカーネル１０２を受信する。ブロック４０４において、スケジューラ１０４は、異なるＣ^Ｎ行列の乗算をＣＵサブセット１１０～１１３にスケジューリングし、さらに、各Ｃ^Ｎ行列の各部分行列の乗算をＣＵサブセット１１０～１１３のＣＵクラスタにスケジューリングし、Ａ部分行列を、割り当てられたクラスタの内部記憶モジュールに保持することができるようにする。ブロック４０６において、ＣＵサブセット１１０～１１３は、対応するＣ^Ｎ行列の部分行列を計算し、図１及び図３に示すように、結果を次のＣＵサブセットに提供する。ブロック４０８において、ＧＰＵは、リカレントニューラルネットワークの結果を、行列乗算に基づいてＣＰＵに提供する。

【0025】

本明細書に開示されるように、いくつかの実施形態において、方法は、グラフィックスプロセッシングユニット（ＧＰＵ）において、実行されるコマンドのセットを受信することであって、ＧＰＵは、複数の計算ユニット（ＣＵ）を含み、コマンドのセットは、複数の行列乗算演算を含む、ことと、コマンドのセットの受信に応じて、複数の行列乗算演算の第１の行列乗算演算をＣＵの第１のサブセットにスケジューリングし、複数の行列乗算演算の第２の行列乗算演算をＣＵの第２のサブセットにスケジューリングすることであって、ＣＵの第２のサブセットはＣＵの第１のサブセットと異なる、ことと、第１の行列乗算演算及び第２の行列乗算演算を、ＣＵの第１のサブセット及び第２のサブセットの各々において実行することと、を含む。一態様では、方法は、第１の行列乗算演算の結果をＣＵの第１のサブセットからＣＵの第２のサブセットに提供して、第２の行列乗算演算を実行することを含む。別の態様では、方法は、第２の行列乗算演算の結果を、複数のＣＵのうちＣＵの第３のサブセットに提供して、第３の行列乗算演算を実行することを含み、ＣＵの第３のサブセットは、ＣＵの第１のサブセット及び第２のサブセットと異なる。さらに別の態様では、方法は、第３の行列乗算演算の結果をＣＵの第３のサブセットからＣＵの第１のセットに提供して、第４の行列乗算演算を実行することを含む。

【0026】

一態様では、第１の行列乗算演算は、第１の乗算及び第２の乗算を含み。第２の行列乗算演算は、第３の乗算を含む。第１の行列乗算演算及び第２の行列乗算演算を実行することは、第３の乗算と同時に第２の乗算を実行することを含む。別の態様では、第３の乗算は、第１の乗算の結果を乗算する。さらに別の態様では、第１の行列乗算演算は、第１の乗算及び第２の乗算を含む。第１の行列乗算演算を実行することは、ＣＵの第１のサブセットの第１のクラスタで第１の乗算を実行し、ＣＵの第１のサブセットの第２のクラスタで第２の乗算を実行することを含む。さらに別の態様では、第１の行列乗算演算を実行することは、第２の乗算と同時に第１の乗算を実行することを含む。さらに別の態様では、方法は、第１の行列乗算演算及び第２の行列乗算演算に基づいてリカレントニューラルネットワーク（ＲＮＮ）の出力を生成することを含む。

【0027】

いくつかの実施形態において、方法は、複数の計算ユニット（ＣＵ）を含むグラフィックスプロセッシングユニット（ＧＰＵ）において、複数の行列乗算演算を受信することと、複数の行列乗算演算の受信に応じて、複数の行列乗算演算の異なる行列乗算演算を、複数のＣＵの異なる対応するサブセットにスケジューリングすることと、複数のＣＵの異なるサブセット間で複数の行列乗算演算の結果をパイプライン化することと、を含む。一態様では、方法は、複数のＣＵの異なるサブセットにおいて、複数の行列乗算演算の一部を同時に実行することを含む。

【0028】

いくつかの実施形態において、グラフィックスプロセッシングユニット（ＧＰＵ）は、ＣＵの第１のサブセットと、ＣＵの第１のサブセットと異なるＣＵの第２のサブセットと、を含む複数のＣＵと、複数の行列乗算演算を含むコマンドのセットを、実行するために受信し、コマンドのセットの受信に応じて、複数の行列乗算演算のうち第１の行列乗算演算をＣＵの第１のサブセットにスケジューリングし、複数の行列乗算演算のうち第２の行列乗算演算をＣＵの第２のサブセットにスケジューリングするように構成されたスケジューラと、第１の行列乗算演算及び第２の行列乗算演算を実行するように構成されたＣＵの第１のサブセット及びＣＵの第２のサブセットと、を含む。一態様では、ＣＵの第１のサブセットは、第２の行列乗算演算を実行するために、第１の行列乗算演算の結果をＣＵの第２のサブセットに提供するように構成されている。

【0029】

一態様では、ＣＵの第２のサブセットは、第３の行列乗算演算を実行するために、第２の行列乗算演算の結果を複数のＣＵのうちＣＵの第３のサブセットに提供するように構成されており、ＣＵの第３のサブセットは、ＣＵの第１のサブセット及び第２のサブセットと異なる。別の態様では、ＣＵの第３のサブセットは、第４の行列乗算演算を実行するために、第３の行列乗算演算の結果をＣＵの第１のセットに提供するように構成されている。さらに別の態様では、第１の行列乗算演算は、第１の乗算及び第２の乗算を含む。第２の行列乗算演算は、第３の乗算を含む。ＣＵの第１のサブセットは、第３の乗算を実行するように構成されたＣＵの第２のサブセットと同時に第２の乗算を実行するように構成されている。

【0030】

一態様では、第３の乗算は、第１の乗算の結果を乗算する。別の態様では、ＣＵの第１のサブセットは、ＣＵの第１のクラスタ及びＣＵの第２のクラスタを含む。第２のクラスタは、第１のクラスタと異なる。第１の行列乗算演算は、第１の乗算及び第２の乗算を含む。ＣＵの第１のサブセットは、ＣＵの第１のサブセットの第１のクラスタで第１の乗算を実行し、ＣＵの第１のサブセットの第２のクラスタで第２の乗算を実行するように構成されている。さらに別の態様では、ＣＵの第１のサブセットは、第１の行列乗算演算を第２の乗算と同時に実行するように構成されている。別の態様では、ＧＰＵは、第１の行列乗算演算及び第２の行列乗算演算に基づいてリカレントニューラルネットワーク（ＲＮＮ）の出力を生成するように構成されている。

【0031】

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

【0032】

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

【0033】

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

【0034】

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版