特開2024-15679 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人産業技術総合研究所の特許一覧

特開2024-15679演算処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024015679

(43)【公開日】2024-02-06

(54)【発明の名称】演算処理装置

(51)【国際特許分類】

G06F 17/16 20060101AFI20240130BHJP

G06N 3/063 20230101ALI20240130BHJP

【ＦＩ】

G06F17/16 K

G06N3/063

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022117909

(22)【出願日】2022-07-25

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度、国立研究開発法人新エネルギー・産業技術総合開発機構「ＡＩチップ開発加速のためのイノベーション推進事業／研究開発項目２：ＡＩチップ開発を加速する共通基盤技術の開発」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】301021533

【氏名又は名称】国立研究開発法人産業技術総合研究所

(72)【発明者】

【氏名】大内真一

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB31

(57)【要約】

【課題】注意機構をベースとするネットワークモデルの計算を高速化できる演算処理装置を提供する。
【解決手段】演算処理装置１０のＭ個の演算ユニット１１それぞれの内部に、第１の行列ａおよび第２の行列ｂのうち列ベクトルの組［ａ_ｍ，ｂ_ｍ］をｍ番目の演算ユニットに１組記憶し、Ｍ個の演算ユニットを直列のネットワーク１４で接続し、そのうちの任意の演算ユニットからＮ次元の列ベクトルｂ_ｍの配列データを送り出し、順次後段に隣接する演算ユニットに伝播し、第２の行列の各々の列ベクトルｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１と演算ユニット内部に蓄えたａ_ｍとのドット積、すなわちＭ×Ｍ次元の第３の行列の配列の部分をなすＭ次元列ベクトルｘ_ｍ＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔをｍ番目の演算ユニット内部で計算し、このＭ次元の列ベクトルｘ_ｍをｍ番目の演算ユニット内部に保存することによって行う。
【選択図】図１

【特許請求の範囲】

【請求項1】

Ｍ個のＮ次元列ベクトルからなる、Ｍ×Ｎ次元の第１の行列ａ＝［ａ_０，ａ_１，ａ_２，…，ａ_Ｍ－１］および第２の行列ｂ＝［ｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１］に関して、該第１の行列と該第２の行列に属するすべての列ベクトルの組み合わせに関するドット積を要素に持つＭ個のＭ次元列ベクトルからなるＭ×Ｍ次元の第３の行列ｘ＝［ｘ_０，ｘ_１，ｘ_２，…，ｘ_Ｍ－１］を求める計算を、行列の積ｘ＝ａ^Ｔｂによって求める際に、
演算処理装置の構成最小単位であるＭ個の演算ユニットそれぞれの内部に、前記第１の行列ａ＝［ａ_０，ａ_１，ａ_２，…，ａ_Ｍ－１］および前記第２の行列ｂ＝［ｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１］のうち列ベクトルの組［ａ_ｍ，ｂ_ｍ］をｍ番目の演算ユニットに１組記憶し、前記Ｍ個の演算ユニットを直列のネットワークで接続し、そのうちの任意の演算ユニットからＮ次元の列ベクトルｂ_ｍの配列データを送り出し、順次後段に隣接する演算ユニットに伝播し、前記第２の行列の各々の列ベクトルｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１と演算ユニット内部に蓄えたａ_ｍとのドット積、すなわちＭ×Ｍ次元の第３の行列の配列の部分をなすＭ次元列ベクトルｘ_ｍ＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔをｍ番目の演算ユニット内部で計算し、このＭ次元の列ベクトルｘ_ｍをｍ番目の演算ユニット内部に保存することによって行う、当該演算処理装置、ここで、ａ_ｍ、ｂ_ｍおよびｘ_ｍは配列として演算器内部に記憶される列ベクトルである。

【請求項2】

ｍ番目の演算ユニット内部に蓄えられた前記第３の行列に属する列ベクトルｘ_ｍとあらかじめ蓄えられたＭ×Ｎ次元の第４の行列ｃ＝［ｃ_０，ｃ_１，ｃ_２，…，ｃ_Ｍ－１］とから行列の積ｙ＝［ｙ_０，ｙ_１，ｙ_２，…，ｙ_Ｍ－１］＝ｃｘによって生成される第５の行列のデータのうち、この部分をなし、ｍ番目の演算ユニットに蓄える列ベクトルｙ_ｍすなわち

【数7】

を計算する際に、
前記演算ユニットを直列に接続した前記ネットワークを用い、各演算ユニット内部に蓄えられたＮ次元列ベクトルｃ_ｍの要素をｃ_ｍ０, ｃ_ｍ１, ｃ_ｍ２, …，ｃ_{ｍ（Ｎ－１）}の順に前記ネットワーク上に送出し、前記Ｎ次元の列ベクトルｙ_ｍを計算し、それぞれのｍ番目の演算ユニット内部に保存する、請求項１に記載の演算処理装置。

【請求項3】

Ｍ×Ｌ次元行列を構成する列ベクトルｄ_ｍ＝［ｄ_ｍ０，ｄ_ｍ１，ｄ_{ｍ２，…，}ｄ_{ｍ（Ｌ－１）}］^Ｔに対してリニア層の計算をＭチャネル分行う際に、Ｎ×Ｌ次元の係数行列ＵまたはＮ次元のバイアスベクトルＶを外部から前記直列に接続したネットワークに順次入力して伝播させ、あらかじめ各ｍ番目の演算ユニットに蓄えられた前記列ベクトルｄ_ｍとの間で、

【数8】

を計算し、ｍ番目のＮ次元列ベクトルｚ_ｍを各々の演算ユニット内部に保存する、但しｕおよびｖは各々係数行列Ｕ、バイアスベクトルＶの要素を表す、請求項１または２に記載の演算処理装置。

【請求項4】

アテンションのマルチヘッド化を行う際に、ヘッド数Ｈ分の前記ネットワークおよび前記Ｍ個の演算ユニットの組を有し、ヘッド分割する直前のリニア層の係数行列の行数をヘッド数Ｈで分割し、分割された区分行列を各々ｈ番目のヘッド用通信路に順次入力し、共有された被演算ベクトルデータｄ_ｍとの間で、

【数9】

を計算することによってマルチヘッド化を行う、請求項１または２に記載の演算処理装置。

【請求項5】

演算処理装置は、前記アテンションのマルチヘッド化を行う際に、マルチヘッド化されたベクトルを結合するために、結合直後のリニア層の係数行列の列数をヘッド数Ｈで分割し、分割された区分行列を各々ｈ番目のヘッド用通信路に順次入力し、ヘッド毎に分割された部分和を合算し所定の演算ユニット内部に格納する機能を有する、請求項４に記載の演算処理装置。

【請求項6】

順次前記ネットワークにデータを読み出すデータ読み出し用デイジーチェインとデータを前記演算ユニットに入力するためのデータ入力用デイジーチェインを基本構造とする前記ネットワークを有し、前記データ読み出し用デイジーチェインの出力を前記データ入力用デイジーチェインに結合し、読み出したデータが直列に前記演算器ユニットに順次入力する、請求項１または２に記載の演算処理装置。

【請求項7】

前記ネットワークに演算コードをデータとともに順次直列に伝播する、請求項６に記載の演算処理装置。

【請求項8】

ハードウェアを追加することなくマルチヘッド化された列ベクトルデータの処理を行うために、配列の授受と積和演算の累算をヘッド順に区切って順次行うことで、マルチヘッド処理を模擬する、請求項１または２に記載の演算処理装置。

【請求項9】

チャネル数ないしシーケンス数の異なる問題に対応できるように、前記ネットワークをチャネル数またはシーケンス数に合わせて分割し、前記データ読み出し用デイジーチェインと前記データ入力用デイジーチェインとを結合する回路要素を有する、請求項６に記載の演算処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は演算システムに係り、特に機械学習処理を効率的に行う演算処理装置に関する。

【背景技術】

【0002】

画像処理演算装置（ＧＰＵ：ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）による汎用計算（ＧＰＧＰＵ：ＧｅｎｅｒａｌＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）によって、機械学習の速度は飛躍的に向上している。

【0003】

一方で、機械学習のネットワークモデルは、単純な畳み込み演算だけでなく、注意機構と呼ばれるベクトルの内積演算を用いるものに関しても、自動翻訳や画像処理など有用な応用が多数知られるようになってきている（例えば、特許文献１、非特許文献１、２参照。）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－０１９４２２号公報

【非特許文献】

【0005】

【非特許文献1】A. Vaswani et al., “Attention is all you need”, 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, Dec. 4-9, 2017. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

【非特許文献2】A. Dosovitskiy et al., “An image is worth 16x16 words: transformers for image recognition at scale”, The 9th International Conference on Learning Representations (ICLR 2021), Virtual Only, May 3-7, 2021. https://iclr.cc/virtual/2021/poster/3013

【発明の概要】

【発明が解決しようとする課題】

【0006】

画像処理演算装置は、一般的に多くの種類の行列演算を実行できるように汎用性が高くできており、その装置上で走らせるソフトウェアライブラリによって具体的な処理を行う構造となっている。この場合、汎用性のために、余分な消費電力を消費すること、ソフトウェア処理が入るために、速度が低下することが知られている。一方で、完全な専用回路を作ることは、他の計算を実行することができないという短所を生ずる。

【0007】

本発明の目的は、注意機構（以下、「アテンション」とも称する。）をベースとするネットワークモデルの計算を高速化できる演算処理装置を提供することである。

【課題を解決するための手段】

【0008】

本発明の一態様によれば、演算処理装置は、Ｍ個のＮ次元列ベクトルからなる、Ｍ×Ｎ次元の第１の行列ａ＝［ａ_０，ａ_１，ａ_２，…，ａ_Ｍ－１］および第２の行列ｂ＝［ｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１］に関して、その第１の行列とその第２の行列に属するすべての列ベクトルの組み合わせに関するドット積を要素に持つＭ個のＭ次元列ベクトルからなるＭ×Ｍ次元の第３の行列ｘ＝［ｘ_０，ｘ_１，ｘ_２，…，ｘ_Ｍ－１］を求める計算を、行列の積ｘ＝ａ^Ｔｂによって求める際に、上記演算処理装置の構成最小単位であるＭ個の演算ユニットそれぞれの内部に、上記第１の行列ａ＝［ａ_０，ａ_１，ａ_２，…，ａ_Ｍ－１］および上記第２の行列ｂ＝［ｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１］のうち列ベクトルの組［ａ_ｍ，ｂ_ｍ］をｍ番目の演算ユニットに１組記憶し、上記Ｍ個の演算ユニットを直列のネットワークで接続し、そのうちの任意の演算ユニットからＮ次元の列ベクトルｂ_ｍの配列データを送り出し、順次後段に隣接する演算ユニットに伝播し、上記第２の行列の各々の列ベクトルｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１と演算ユニット内部に蓄えたａ_ｍとのドット積、すなわちＭ×Ｍ次元の第３の行列の配列の部分をなすＭ次元列ベクトルｘ_ｍ＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔをｍ番目の演算ユニット内部で計算し、このＭ次元の列ベクトルｘ_ｍをｍ番目の演算ユニット内部に保存することによって行う、当該演算処理装置、ここで、ａ_ｍ、ｂ_ｍおよびｘ_ｍは配列として演算器内部に記憶される列ベクトルである。

【0009】

演算処理装置は、上記一態様において、ｍ番目の演算ユニット内部に蓄えられた上記第３の行列に属する列ベクトルｘ_ｍとあらかじめ蓄えられたＭ×Ｎ次元の第４の行列ｃ＝［ｃ_０，ｃ_１，ｃ_２，…，ｃ_Ｍ－１］とから行列の積ｙ＝［ｙ_０，ｙ_１，ｙ_２，…，ｙ_Ｍ－１］＝ｃｘによって生成される第５の行列のデータのうち、この部分をなし、ｍ番目の演算ユニットに蓄える列ベクトルｙ_ｍすなわち

【数1】

を計算する際に、上記演算ユニットを直列に接続した上記ネットワークを用い、各演算ユニット内部に蓄えられたＮ次元列ベクトルｃ_ｍの要素をｃ_ｍ０, ｃ_ｍ１, ｃ_ｍ２, …，ｃ_{ｍ（Ｎ－１）}の順に上記ネットワーク上に送出し、上記Ｎ次元の列ベクトルｙ_ｍを計算し、それぞれのｍ番目の演算ユニット内部に保存してもよい。

【0010】

演算処理装置は、上記各態様において、Ｍ×Ｌ次元行列を構成する列ベクトルｄ_ｍ＝［ｄ_ｍ０，ｄ_ｍ１，ｄ_{ｍ２，…，}ｄ_{ｍ（Ｌ－１）}］^Ｔに対してリニア層の計算をＭチャネル分行う際に、Ｎ×Ｌ次元の係数行列ＵまたはＮ次元のバイアスベクトルＶを外部から上記直列に接続したネットワークに順次入力して伝播させ、あらかじめ各ｍ番目の演算ユニットに蓄えられた上記列ベクトルｄ_ｍとの間で、

【数2】

を計算し、ｍ番目のＮ次元列ベクトルｚ_ｍを各々の演算ユニット内部に保存してもよい。但し、ｕおよびｖは各々係数行列Ｕ、バイアスベクトルＶの要素を表す。

【0011】

演算処理装置は、上記各態様において、アテンションのマルチヘッド化を行う際に、ヘッド数Ｈ分の上記ネットワークおよび上記Ｍ個の演算ユニットの組を有し、ヘッド分割する直前のリニア層の係数行列の行数をヘッド数Ｈで分割し、分割された区分行列を各々ｈ番目のヘッド用通信路に順次入力し、共有された被演算ベクトルデータｄ_ｍとの間で、

【数3】

を計算することによってマルチヘッド化を行ってもよい。

【0012】

演算処理装置は、上記アテンションのマルチヘッド化を行う際に、マルチヘッド化されたベクトルを結合するために、結合直後のリニア層の係数行列の列数をヘッド数Ｈで分割し、分割された区分行列を各々ｈ番目のヘッド用通信路に順次入力し、ヘッド毎に分割された部分和を合算し所定の演算ユニット内部に格納する機能を有してもよい。

【0013】

演算処理装置は、上記各態様において、順次上記ネットワークにデータを読み出すデータ読み出し用デイジーチェインとデータを上記演算ユニットに入力するためのデータ入力用デイジーチェインを基本構造とする上記ネットワークを有し、上記データ読み出し用デイジーチェインの出力を上記データ入力用デイジーチェインに結合し、読み出したデータが直列に上記演算器ユニットに順次入力するようにしてもよい。

【0014】

また、演算処理装置は、上記各態様において、上記ネットワークに演算コードをデータとともに順次直列に伝播するようにしてもよい。

【0015】

演算処理装置は、上記各態様において、ハードウェアを追加することなくマルチヘッド化された列ベクトルデータの処理を行うために、配列の授受と積和演算の累算をヘッド順に区切って順次行うことで、マルチヘッド処理を模擬するようにしてもよい。

【0016】

演算処理装置は、チャネル数ないしシーケンス数の異なる問題に対応できるように、上記ネットワークをチャネル数またはシーケンス数に合わせて分割し、上記データ読み出し用デイジーチェインと上記データ入力用デイジーチェインを結合する回路要素を有してもよい。

【発明の効果】

【0017】

上記態様によれば、行列の結合時に部分和を加算する処理を除き、ネットワークは相隣る演算要素のみにデータを送ることによってほぼすべての処理を可能である。したがって、相互無依存な高い並列性が実現されるため、注意機構をベースとするネットワークモデルの計算を高速化することが可能である。

【図面の簡単な説明】

【0018】

【図1】本発明の一実施形態に係る演算処理装置の概要構成を示す図である。

【図2】本発明の一実施形態においてドット積ｘ_m＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔを求める動作の説明図である。

【図3】本発明の一実施形態においてＭ個のＭ次元列ベクトルｘ_ｍからなるＭ×Ｍ次元行列と、Ｍ個のＮ次元列ベクトルから構成される行列ｃ＝［ｃ₀，ｃ₁，ｃ₂，_…，ｃ_(M-1)］の行列の積によってＭ個のＮ次元列ベクトルを求める動作の説明図である。

【図4】本発明の一実施形態においてリニア層の処理を行う動作の説明図である。

【発明を実施するための形態】

【0019】

次に、本発明の実施形態について図面を参照して説明する。

【0020】

図１は、本発明の一実施形態に係る演算処理装置の概要構成を示す図である。図１を参照するに、演算処理装置１０は、複数の演算ユニット１１を有する。複数の演算ユニット１１は、右方向にデータを伝播する第１デイジーチェイン１２と左方向にデータを伝播する第２デイジーチェイン１３によってデータ交換を行うネットワーク１４に接続されている。第１および第２デイジーチェイン１２、１３は、第１マルチプレクサ１５によって結合されており、外部から第１デイジーチェイン１２にデータを直接入力することも可能である。これらの構成要素の組を演算ユニットセット１６と称する。

【0021】

演算処理装置１０は、区分行列処理、すなわちマルチヘッド処理をＨ並列に行うために、独立にＨ組の演算ユニットセット１６を有する。区分行列処理を終了ののち行列を結合する代わりに分割された行と列の内積を行う際にＨ分割された部分和を合算するための加算用ネットワーク１８を第１および第２デイジーチェイン１２、１３と直交する形で配置する。なお、このために演算器実装のためのコストが高い場合には、別途ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などにより処理をしてもよい。さらに、処理すべきベクトルの次元数に合わせて第１および第２デイジーチェイン１２、１３を分割し、データを適切に伝播するために第２マルチプレクサ１９を有する。以下、本実施形態上で、ドット積やリニア層の計算を行う方法について説明する。

【0022】

図２は、本発明の一実施形態においてドット積の組ｘ_m＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔを求める動作の説明図であり、最も基本的なドット積を実行するための計算方法を示したものである。図２では、演算ユニットセット１６について、一番先頭のシーケンス長を２の場合とＭの場合を第２マルチプレクサ１９によって切り換えられるようにする場合を例示する。シーケンス長がＭの場合、図２を図１と合わせて参照するに、Ｍ×Ｎ次元行列である、第１の行列ａ＝［ａ_０，ａ_１，ａ_２，…，ａ_Ｍ－１］および第２の行列ｂ＝［ｂ_０，ｂ_１，ｂ_２，…，ｂ_Ｍ－１］から行列の積ａ^Ｔｂによって算出されるＭ個のＭ次元列ベクトルｘ_ｍ＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔ，ｍ＝０，１，２，・・・，Ｍ－１を求めることを考える。演算処理装置１０の演算ユニットセット１６は、構成最小単位である演算ユニット１１をＭ個有する。演算ユニット１１のＩＤはｍ＝０，１，２，…，Ｍ－１とする。１つの演算ユニット１１は、内部にスクラッチパッドＳＲＡＭ２０を含み、ＩＤ番号ｍに対応するＮ次元の配列ａ_mおよびｂ_mを演算ユニット１１の内部に記憶する。配列ａ_mおよびｂ_mは、列ベクトルである。

【0023】

この第１の行列ａと第２の行列ｂから導かれる行列の積ｘ＝ａ^Ｔｂ、すなわちＭ個のＭ次元列ベクトルｘ_m＝［ａ_ｍ・ｂ_０，ａ_ｍ・ｂ_１，ａ_ｍ・ｂ_２，…，ａ_ｍ・ｂ_Ｍ－１］^Ｔを計算する際には、演算ユニットセット１６は、ｂ_mの要素を演算ユニット１１から第２デイジーチェイン１３に対して、ｂ₀＝［ｂ₀₀，ｂ₀₁，ｂ₀₂，…，ｂ_0(N-1)］、ｂ₁＝［ｂ₁₀，ｂ₁₁，ｂ₁₂，…，ｂ_1(N-1)］、ｂ₂＝［ｂ₂₀，ｂ₂₁，ｂ₂₂，…，ｂ_2(N-1)］、…、ｂ_M-1＝［ｂ_(M-1)0，ｂ_(M-1)1，ｂ_(M-1)2，…，ｂ_(M-1)(N-1)］のようにそれぞれの配列を連続に送出し、第１マルチプレクサ１５によって第１デイジーチェイン１２に移し替え、演算ユニット１１のｍ＝０から順にデータｂ_mnを受け取り積和演算を実行する。この順で配列データｂを創出することによって、積を連続して累算可能となる。結果のＮ次元列ベクトルｘ_mのデータは再度スクラッチパッドＳＲＡＭ２０に格納する。一方、一番先頭のシーケンス長がＭ＝２である場合、後続のｍ＝２以降は、第２マルチプレクサ１９によって第２デイジーチェイン１３にショートカットされるように経路の選択をし、ｍ＝０，１を用いるシーケンス長２のシーケンスとは異なる、別のシーケンスを扱うことができるようにする。本演算は、例えばＴｒａｎｓｆｏｒｍｅｒでは、クエリｑとキーｋのドット積アテンションに相当することは当業者に理解される。

【0024】

図３は、本発明の一実施形態においてＭ個のＭ次元列ベクトルｘ_ｍからなるＭ×Ｍ次元行列と、Ｍ個のＮ次元列ベクトルから構成される行列ｃ＝［ｃ₀，ｃ₁，ｃ₂，_…，ｃ_(M-1)］の行列の積によってＭ個のＮ次元列ベクトルを求める動作の説明図である。図３では、演算ユニットセット１６が、一番先頭のシーケンス長が２の場合を例示する。図３を参照するに、図２に示す方法で生成したＭ個のＭ次元列ベクトルを表す行列ｘ＝［ｘ_０，ｘ_１，ｘ_２，…，ｘ_Ｍ－１］と、Ｍ個のＮ次元配列の行列ｃ＝［ｃ₀，ｃ₁，ｃ₂，_…，ｃ_(M-1)］の行列の積によってＭ個のＮ次元列ベクトルを生成する計算方法を示したものである。すなわち、

【数4】

を実行する際には、演算ユニットセット１６は、各演算ユニット１１に蓄えられた配列の組ｃを図２とは異なる順序ｃ₀₀、ｃ₁₀、ｃ₂₀、…、ｃ_(M-1)0、ｃ₀₁、ｃ₁₁、ｃ₂₁、…ｃ_(M-1)1、ｃ₀₂、ｃ₁₂、…、ｃ_(M-1)(N-1)で各演算ユニット１１から第２デイジーチェイン１３によって読み出し、演算ユニット１１のｍ＝０から順にデータｂ_mnを受け積和演算を実行する。結果のＮ次元データｙ_mは再度スクラッチパッドＳＲＡＭ２０に格納する。本演算は、例えばＴｒａｎｓｆｏｒｍｅｒでは、ドット積アテンションａによってｖの加重出力計算ｙ＝ａｖに相当することは当業者に理解される。ここで、説明の簡単のために区分行列処理すなわちマルチヘッド処理は仮定していない。

【0025】

図４は、本発明の一実施形態においてリニア層の処理を行う動作の説明図であり、図１で示す構造中でリニア層の計算を行う方法を示したものである。図４を参照するに、Ｍチャンネル分あるいはＭシーケンス分のＬ次元ベクトルデータ、すなわちＭ個のＬ次元配列ｄ_mlから下記の式で表すＭ個のＮ次元配列ｚ_m

【数5】

を求める際には、演算ユニットセット１６は、第１マルチプレクサ１５を介して外部から右向きにデータを伝播する第１デイジーチェイン１２から行列要素ｕ_ｎｌ，ｖ_ｎをｕ₀₀、ｕ₀₁、ｕ₀₂、…、ｕ_0(L-1)、ｕ₁₀、ｕ₁₁、ｕ₁₂、…ｕ_1(L-1)、ｕ₂₀、ｕ₂₁、…、ｕ_(N-1)(L-1)、ｖ₀、ｖ₁、ｖ₂、…、ｖ_(N-1)の順に入力し、演算ユニット１１のｍ＝０から順にデータｕ_ｎｌ，ｖ_ｎを受け積和演算を実行する。結果のＮ次元データｚ_mは再度スクラッチパッドＳＲＡＭ２０に格納する。本演算は、例えばＴｒａｎｓｆｏｒｍｅｒでは、任意のベクトルデータをリニア層によって、クエリｑ、キーｋ、バリューｖの各ベクトルを生成することに対応する。ここで、説明の簡単のために区分行列処理は仮定していない。

【0026】

図２～図４では、区分行列処理を行わない場合について述べた。区分行列処理を導入する場合には、図１に示すように、ヘッド数Ｈ分の演算ユニットセット１６を演算処理装置１０上に持ち、ヘッド分割する直前のリニア層の係数行列の行数を分割し各ヘッド用通信路に順次入力し、共有された被演算ベクトルデータとの間で下記の式表される配列ｚ_hm

【数6】

を計算することによってマルチヘッド化を行うことが可能である。ここで、リニア層の被演算ベクトルは、区分行列処理に係る演算ユニットに共通のコピーを設けることによって演算が可能になるほか、ヘッド分割方向で共有する通信路を設ける、あるいは区分行列処理に係るユニット共通の記憶領域を設けることによっても実現が可能である。

【0027】

また、マルチヘッド化された行列を結合する際には、結合した直後に演算を行うリニア層の係数行列を列方向に分割し各ヘッド用通信路に順次入力し、ヘッドに分割された部分和を図１に示す加算用ネットワーク１８によって合算し所定の演算ユニット内部に格納する機能によって実装可能である。

【0028】

命令を実行するために演算ユニット１１に演算コードは、順次伝播させることにより実行可能であることから、ネットワーク１４の第１デイジーチェイン１２または／および第２デイジーチェイン１３に沿って送信すればよい。

【0029】

図１ではヘッド数Ｈに応じて演算ユニット１１を増加させたが、演算リソース数に限りがある場合には、スクラッチパッドＳＲＡＭ２０の記憶容量のみを増加させ、配列の授受と積和演算の累算をヘッド順に区切って順次行うことで、マルチヘッド処理を模擬することも可能である。

【0030】

また、図２およびその説明で例示したように、チャネル数ないしシーケンス数の異なる問題に対応できるように、ネットワーク１４を第２マルチプレクサ１９によってチャネル数またはシーケンス数に合わせて分割し、データ読み出し用の第１デイジーチェイン１２と入力用の第２デイジーチェイン１３を短い各々の部分で結合することによって、短いシーケンスに対応した複数の演算処理経路を形成することが可能となる。

【符号の説明】

【0031】

１０演算処理装置
１１演算ユニット
１２第１デイジーチェイン
１３第２デイジーチェイン
１４ネットワーク
１５第１マルチプレクサ
１６演算ユニットセット
１８加算用ネットワーク
１９第２マルチプレクサ
２０スクラッチパッドＳＲＡＭ

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版