特許7271820 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テキサス　インスツルメンツ　インコーポレイテッドの特許一覧

特許7271820行列乗算アクセラレータ（ＭＭＡ）を用いる基本計算原始関数の実装

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-01

(45)【発行日】2023-05-12

(54)【発明の名称】行列乗算アクセラレータ（ＭＭＡ）を用いる基本計算原始関数の実装

(51)【国際特許分類】

G06F 17/16 20060101AFI20230502BHJP

G06F 17/14 20060101ALI20230502BHJP

【ＦＩ】

G06F17/16 C

G06F17/16 Q

G06F17/14 510

【請求項の数】 24

(21)【出願番号】P 2019547631

(86)(22)【出願日】2018-03-01

(65)【公表番号】

(43)【公表日】2020-03-26

(86)【国際出願番号】 US2018020462

(87)【国際公開番号】W WO2018160843

(87)【国際公開日】2018-09-07

【審査請求日】2021-02-26

(31)【優先権主張番号】15/907,356

(32)【優先日】2018-02-28

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/465,620

(32)【優先日】2017-03-01

(33)【優先権主張国・地域又は機関】US

【前置審査】

(73)【特許権者】

【識別番号】507107291

【氏名又は名称】テキサスインスツルメンツインコーポレイテッド

(74)【代理人】

【識別番号】230129078

【弁護士】

【氏名又は名称】佐藤仁

(72)【発明者】

【氏名】アーサージョンレッドファーン

(72)【発明者】

【氏名】ティモシーデビッドアンダーソン

(72)【発明者】

【氏名】カイチルカ

(72)【発明者】

【氏名】チェンチールオ

(72)【発明者】

【氏名】ジェンフアユー

【審査官】坂庭剛史

(56)【参考文献】

【文献】米国特許出願公開第２０１３／０３３２４９８（ＵＳ，Ａ１）

【文献】特開平０９－１５３０２９（ＪＰ，Ａ）

【文献】米国特許出願公開第２００８／０１５５００２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１４／０３６５５４８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１５／００５２３３２（ＵＳ，Ａ１）

【文献】QIAO, Yuran et al.，FPGA-accelerated deep convolutional neural networks for high throughput and energy efficiency，CONCURRENCY AND COMPUTATION: PRACTICE AND EXPERIENCE，米国，Wiley Online Library (John Wiley & Sons Ltd.)，2016年05月06日，pp.1-20，https://onlinelibrary.wiley.com/doi/pdfdirect/10.1002/cpe.3850，DOI: 10.1002/cpe.3850

【文献】AYDONAT, Utku et al.，An OpenCL Deep Learning Accelerator on Arria 10，arXiv.org，米国，Cornell University，2017年01月13日，pp.1-10，https://arxiv.org/pdf/1701.03534.pdf

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１６

Ｇ０６Ｆ１７／１４

(57)【特許請求の範囲】

【請求項1】

方法であって、
プロセッサによって、データ要素を含むデータベクトルをストリーミングするように計算原始関数に基づいてストリーミングエンジンを構成することであって、前記データベクトルが行列乗算アクセラレータ（ＭＭＡ）に含まれる第１の被乗数行列バッファの幅より大きい長さのフィルタを含み、前記フィルタが複数の一層小さいフィルタに分解され、前記一層小さいフィルタのサイズが前記第１の被乗数行列バッファの幅より小さい、前記構成することと、
前記プロセッサによって、前記計算原始関数に基づいて前記データベクトルをフォーマットすることと、
前記プロセッサによって、前記計算原始関数に基づいて前記ＭＭＡを構成することと、
前記ＭＭＡによって、ＭＭＡ出力を生成するために前記計算原始関数を実行することと、
を含む、方法。

【請求項2】

請求項１に記載の方法であって、
前記計算原始関数を実行することが、前記ＭＭＡに含まれる第２の被乗数行列バッファにおけるデータを用いる行列乗算の実行と同時に、データを前記第１の被乗数行列バッファにロードすることを含む、方法。

【請求項3】

請求項１に記載の方法であって、
前記ＭＭＡを構成することが、前記第１の被乗数行列バッファにデータをオフセットロードするように前記ＭＭＡを構成することを含む、方法。

【請求項4】

請求項２に記載の方法であって、
前記データが行列の行を含み、
前記計算原始関数を実行することが、前記データを前記第１の被乗数行列バッファにおける列にコピーすることを更に含む、方法。

【請求項5】

請求項１に記載の方法であって、
前記プロセッサによって、前記ＭＭＡ出力にゼロパディングを付加するように前記ＭＭＡ出力をフォーマットすることを更に含む、方法。

【請求項6】

請求項１に記載の方法であって、
前記プロセッサによって、前記ＭＭＡ出力上でシーム除去を実施するように前記ＭＭＡ出力をフォーマットすることを更に含む、方法。

【請求項7】

請求項１に記載の方法であって、
前記プロセッサによって、特定のストライドに従って前記ＭＭＡ出力上で列サブサンプリングを実施するように前記ＭＭＡ出力をフォーマットすることを更に含む、方法。

【請求項8】

請求項１に記載の方法であって、
前記ストリーミングエンジンを構成することが、複数の特徴マップのデータをフィルタリング行列にタイル化するように前記ストリーミングエンジンを構成することを含む、方法。

【請求項9】

請求項８に記載の方法であって、
データのタイルのサイズが、前記ＭＭＡ出力においてシームが存在しないように選択される、方法。

【請求項10】

請求項８に記載の方法であって、
データのタイルのサイズが、シームが常に前記ＭＭＡ出力における同じ位置にあるように選択される、方法。

【請求項11】

請求項１に記載の方法であって、
前記データベクトルが、インタリーブされた実数値と虚数値とを含み、
前記ＭＭＡが、前記データベクトル上で行列乗算を実施するように構成される、方法。

【請求項12】

請求項１に記載の方法であって、
前記一層小さいフィルタのサイズが、前記ＭＭＡのスループットの最大化と前記一層小さいフィルタの総数の最小化との間のトレードオフとして選択される、方法。

【請求項13】

デバイスであって、
メモリと、
前記メモリに結合されるプロセッサと、
前記プロセッサに結合される行列乗算アクセラレータ（ＭＭＡ）であって、乗数行列バッファと第１の被乗数行列バッファとを含み、ＭＭＡ出力を生成するために計算原始関数を実行するように動作可能である、前記ＭＭＡと、
を含み、
前記プロセッサが、
前記計算原始関数に基づいて、データ要素を含むデータベクトルであって、前記第１の被乗数行列バッファの幅より大きい長さのフィルタを含む、前記データベクトルをストリーミングするように前記デバイスに含まれるストリーミングエンジンを構成し、
前記フィルタを前記第１の被乗数行列バッファの幅より小さいサイズの複数の一層小さいフィルタに分解し、
前記計算原始関数に基づいて前記データベクトルをフォーマットし、
前記計算原始関数に基づいて前記ＭＭＡを構成する、
ように動作可能である、デバイス。

【請求項14】

請求項１３に記載のデバイスであって、
前記プロセッサが、前記計算原始関数を実行するように更に動作可能であり、
前記ＭＭＡに含まれる第２の被乗数行列バッファにおけるデータを用いる行列乗算の実行と同時にデータが前記第１の被乗数行列バッファにロードされる、デバイス。

【請求項15】

請求項１３に記載のデバイスであって、
前記プロセッサが、前記第１の被乗数行列バッファにデータをオフセットロードするように前記ＭＭＡを構成するように更に動作可能である、デバイス。

【請求項16】

請求項１４に記載のデバイスであって、
前記ＭＭＡが、前本計算原始関数を実行するように更に動作可能であり、
前記データが行列の行を含み、前記データが前記第１の被乗数行列バッファにおける列にコピーされる、デバイス。

【請求項17】

請求項１３に記載のデバイスであって、
前記プロセッサが、前記ＭＭＡ出力にゼロパディングを付加するように前記ＭＭＡ出力をフォーマットするように更に動作可能である、デバイス。

【請求項18】

請求項１３に記載のデバイスであって、
前記プロセッサが、前記ＭＭＡ出力上でシーム除去を実施するように前記ＭＭＡ出力をフォーマットするように更に動作可能である、デバイス。

【請求項19】

請求項１３に記載のデバイスであって、
前記プロセッサが、特定のストライドに従って前記ＭＭＡ出力上で列サブサンプリングを実施するように前記ＭＭＡ出力をフォーマットするように更に動作可能である、デバイス。

【請求項20】

請求項１３に記載のデバイスであって、
前記プロセッサが、複数の特徴マップのデータをフィルタリング行列にタイル化するように前記ストリーミングエンジンを構成するように更に動作可能である、デバイス。

【請求項21】

請求項２０に記載のデバイスであって、
データのタイルのサイズが、前記ＭＭＡ出力においてシームが存在しないように選択される、デバイス。

【請求項22】

請求項２０に記載のデバイスであって、
シームが前記ＭＭＡ出力における同じ位置に存在するように、データのタイルのサイズが選択される、デバイス。

【請求項23】

請求項１３に記載のデバイスであって、
前記データベクトルがインタリーブされた実数値と虚数値とを含み、
前記ＭＭＡが、前記データベクトル上で行列乗算を実施するように構成される、デバイス。

【請求項24】

請求項１３に記載のデバイスであって、
前記一層小さいフィルタのサイズが、前記ＭＭＡのスループットの最大化と前記一層小さいフィルタの総数の最小化との間のトレードオフとして選択される、デバイス。

【発明の詳細な説明】

【技術分野】

【0001】

音声認識、インテリジェント産業用制御、オブジェクト検出及び認識、及び映像等の応用例は、ますます組み込みデバイスに移行されつつある。そのようなデバイスにおいて、そのような応用例に用いられるアルゴリズムの計算需要をサポートするために、ハードウェアアクセラレーションが必要とされ得る。

【発明の概要】

【0002】

本明細書において説明される例は、行列乗算アクセラレータを用いて基本計算原始関数（primitives）を実装することに関する。一つの態様において、デバイスにおいて基本計算原始関数を実施するための方法が提供され、このデバイスはプロセッサ及び行列乗算アクセラレータ（ＭＭＡ）を含む。この方法は、メモリからの基本計算原始関数に対してデータをストリーミングするためのデバイスにおけるストリーミングエンジンを構成すること、データをフォーマットするようＭＭＡを構成すること、及びそのデバイスによって基本計算原始関数を実行することを含む。

【0003】

一つの態様において、メモリ、メモリに結合されるプロセッサ、及びプロセッサに結合される行列乗算アクセラレータ（ＭＭＡ）を含むデバイスが提供され、ＭＭＡは、乗数バッファ及び第１の被乗数バッファを含む。デバイスは、メモリからの基本計算原始関数に対してデータをストリーミングするためのデバイスにおけるストリーミングエンジンを構成し、データをフォーマットするようＭＭＡを構成し、及び基本計算原始関数を実行するように動作可能である。

【図面の簡単な説明】

【0004】

【図1】プロセッサに結合される行列乗算アクセラレータ（ＭＭＡ）を用いて基本計算原始関数を実装するように構成可能な例示のデバイスを図示する。

【0005】

【図2】図１のデバイスにおいて基本計算原始関数を実行するための方法のフローチャートである。

【0006】

【図3】図１のデバイスにおけるバッチ小行列行列乗算の実装を図示する例である。

【0007】

【図4】図１のデバイスにおける大行列行列乗算の実装を図示する例である。

【0008】

【図5】図１のデバイスにおける行列行列点状乗算の実装を図示する例である。

【0009】

【図6】図１のデバイスにおける行列行列加算の実装を図示する例である。

【0010】

【図7】図１のデバイスにおける小ベクトル行列乗算の実装を図示する例である。

【0011】

【図8】図１のデバイスにおける小ベクトル総和の実装を図示する例である。

【0012】

【図9】図１のデバイスにおけるアフィン変換の実装を図示する例である。

【0013】

【図10】図１のデバイスにおける二次元（２Ｄ）畳み込みの実装を図示する例である。

【図11】図１のデバイスにおける二次元（２Ｄ）畳み込みの実装を図示する例である。

【0014】

【図12】図１のデバイスにおける行列行置換の実装を図示する例である。

【0015】

【図13】図１のデバイスにおけるベクトル列置換の実装を図示する例である。

【0016】

【図14】フィルタサイズとスループットとのトレードオフを図示すグラフである。

【発明を実施するための形態】

【0017】

一貫性のため、図における類似の要素は類似の参照番号で示される。

【0018】

本明細書に説明される例は、音声認識、インテリジェント産業用制御、オブジェクト検出及び認識、及び映像等の、行列乗算アクセラレータ（ＭＭＡ）を用いる応用例により用いられる基本計算原始関数の実装を提供する。基本計算原始関数は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）において用いられるような二次元（２Ｄ）畳み込み、小及び大行列行列乗算、行列行列点状乗算、行列行列加算、ベクトル行列乗算、ベクトル総和、アフィン変換、高速フーリエ変換、離散コサイン変換、畳み込み、相関、行列アサイメント、行列置換、及び行列転置を含む。

【0019】

図１は、プロセッサ１０２に結合される行列乗算アクセラレータ（ＭＭＡ）１０４を用いて、本明細書で上述されたもの等の基本計算原始関数を実装するように構成可能な例示のデバイス１００を図示する。ＭＭＡ１０４は、行列乗算を実施するための機能性を含む。行列乗算は、２つの行列から行列を生成する二項演算である。具体的には、乗数行列ＡがＭ×Ｋ行列であり、被乗数行列ＢがＫ×Ｎ行列である場合、これら２つの行列の行列積はＭ×Ｎ行列Ｃであり、その場合、Ａの行ｎを横切るｍ要素に、Ｂの列Ｋを下に向かうｍ要素を掛け、総和して要素Ｃ_ｍｎを生成する。

【0020】

ＭＭＡ１０４は、２つのＢ行列をストアするための１６ビット要素の２つの３２×３２被乗数バッファ１４４及び２つのＣ行列をストアするための１６ビット要素の２つの３２×３２結果バッファ１３４をストアするために充分なメモリを含む。被乗数バッファ１４４は、本明細書においてＢ行列バッファと称され得、結果バッファ１３４は、本明細書においてＣ行列バッファと称され得る。ＭＭＡ１０４は更に、乗数行列Ａの行をストアするための１６ビット要素の１×３２乗数バッファ１３８をストアするためのメモリを含む。乗数バッファ１３８は、本明細書においてＡ行列バッファと称され得る。本明細書において説明されるように、Ｂ行列バッファ１４４は、ピンポンバッファとして用いられ、一方のバッファのデータが演算実行のために用いられるときに、他方のバッファにデータがバックグラウンドでロードされる。同様に、Ｃ行列バッファ１３４はフォアグラウンド及びバックグラウンドバッファとして用いられ、例えば、一方のバッファのコンテンツがＭＭＡ１０４から出力される間に、演算実行の結果が別のバッファにストアされる。

【0021】

各サイクル上で、ＭＭＡ１０４は、単一の命令、即ち、本明細書においてＬＳＥ命令と称されるロード、ストア、及び命令実行を実施する。この名称が示唆するように、ＭＭＡ１０４は、単一のサイクルにおいて、ロード演算、ストア演算、実行演算を実施し得る。概して、或るサイクルにおいて、データのベクトルがＡ行列バッファ１３８にロードされ、選択されたＢ行列バッファ１４４にストアされたＢ行列とＡ行列バッファ１３８におけるデータベクトルとの間で行列乗算演算が実施される。従って、Ａ行列バッファ１３８のデータベクトルと選択されたＢ行列バッファ１４４におけるＢ行列の各列との行列積が計算される。行列乗算演算の結果は、データ要素の行であり、それは選択されたＣ行列バッファ１３４におけるＣ行列の行にストアされる。ＬＳＥ命令のフィールドのコンテンツに応じ、サイクルが、データの行を行列乗算に用いられていないＢ行列バッファ、即ちバックグラウンドＢ行列バッファ、にロードすること、Ｃ行列バッファからのデータの行を外部メモリにストアすること、及び／又は、選択されたＣ行列バッファ１３４に結果をストアする前に、行列積演算の結果上で特定の演算を実施することも含み得る。

【0022】

ＬＳＥ命令のロード演算部は、Ａ行列バッファ１３８にロードされるべきデータのバッファ１２４における位置と、Ｂ行列バッファ１４４にロードされるべきデータのバッファ１２８における位置と、ロード演算のターゲットであるＢ行列バッファ１４４と、ロードされるべきターゲットＢ行列バッファにおける行とを識別するフィールドを含む。ロード演算部はまた、ロード演算が実施されるべきか否かを示すためのフィールドも含む。

【0023】

ＬＳＥ命令のストア演算部は、Ｃ行列バッファ１３４におけるデータがストアされるべきバッファ１１８内の位置と、ストアされるべきデータを保持するＣ行列バッファ１３４と、ストアされるべきデータを含むターゲットＣ行列バッファ１３４における行とを識別するフィールドを含む。ストア演算部はまた、ストア演算が実施されるべきか否かを示すためのフィールドも含む。

【0024】

ＬＳＥ命令の実行演算部は、ターゲットＣ行列バッファ１３４、及び実行演算の結果を受け取るべきターゲットＣ行列バッファ１３４における行と、ターゲットＣ行列バッファ１３４にストアする前に行列乗算の結果を用いて実施すべき演算とを識別するフィールドを含む。特定され得る演算は、＝、＋＝、－＝、又はｎｏｎｅである。＝演算は、結果を、変更なしに、特定された行に直接ストアさせる。＋＝演算は、結果における要素を、特定された行における対応する要素に加算させ、加算の結果が、特定された行のコンテンツに置き換わる。－＝演算は、結果における要素を、特定された行における対応する要素から減算させ、減算の結果が、特定された行のコンテンツに置き換わる。ｎｏｎｅ演算は、その名が示唆するように、演算が実施されないことを示す。ｎｏｎｅ演算は、例えば、行列乗算を実施する前の、データのＢ行列バッファ１４４への初期ロードの間、又は、Ｃ行列バッファ１３４にストアされた最終結果をＭＭＡ１０４の外に移動させるときに用いられる。

【0025】

ＭＭＡ１０４は更に、それぞれ、ＭＭＡ１０４によるデータ出力及びＭＭＡ１０４へのデータ入力をフォーマットするための、構成可能なフォーマットコンポーネント１３０、１３６、１４０を含む。フォーマットＡコンポーネント１３６及びフォーマットＢコンポーネント１４０は、例えば、１６ビット浮動小数点、１６ビット固定小数点符号あり、１６ビット固定小数点符号なし、８ビット固定小数点符号あり、及び８ビット固定小数点符号なし、及びＱポイント、即ち、固定小数点入力に対する小数点以下ビットの数等、特定されたタイプに従って、それぞれの入力データをフォーマットするように構成可能である。フォーマットＣコンポーネント１３０は、例えば、１６ビット浮動小数点、１６ビット固定小数点符号あり、１６ビット固定小数点符号なし、８ビット固定小数点符号あり、及び８ビット固定小数点符号なし、及びＱポイント、即ち、固定小数点出力に対する小数点以下のビット数等、特定されたタイプに従って出力データをフォーマットするように構成可能である。フォーマットＡコンポーネント１３６は更に、Ｌ２１０６におけるＡデータを、メモリを節約するため４ビット精度でストアさせ、Ａ行列バッファ１３８において、均一である必要がない４ビットから１６ビットへのマッピングを用いて、１６ビットに拡張させることを可能にするルックアップテーブル（ＬＵＴ）を定義するように構成可能である。これは、潜在的に、全ての計算原始関数に対して有用であり、特に、ＣＮＮスタイル２Ｄ畳み込みに対して有用である。

【0026】

ＭＭＡ１０４はまた、Ｂ行列バッファ１４４にロードされるべきデータの行の各要素に対しオフセットを特定するように構成可能な行オフセットコンポーネント１４２を含む。行オフセットコンポーネント１４２は、行における３２個の要素の各々に対して１つの、３２個の５ビットオフセット値をストアする。行オフセットコンポーネント１４２において特定された行オフセット値は、要素を、ＬＳＥ命令のロード部において特定された行番号とは異なるバックグラウンドＢ行列バッファにおける異なる行にロードされているデータ要素の行に置くために用いられ得る。データ要素に対応するオフセット値は、ＬＳＥ命令のロード部において特定されたＢ行列バッファの行番号に加算されて、データ要素がロードされることになるＢ行列バッファの行を決定する。データ要素の列番号は影響されない。

【0027】

より具体的には、ＭＭＡ１０４のサイクル上で、データの新しい行が、バックグラウンドＢ行列バッファ、即ち、実行のために用いられていないＢ行列バッファ１４４、にロードされ得る。データの行における全ての要素に対し、行オフセットコンポーネント１４２における行オフセット値がゼロである場合、データ要素は、サイクルに対するＬＳＥ命令において特定されるバックグラウンドＢ行列バッファの行にロードされる。例えば、データの新しい行を、バックグラウンドＢ行列バッファの第１の行にロードするとき、第１の要素は行１、列１にロードされ、第２の要素は行１、列２にロードされる等となる。しかしながら、行オフセットコンポーネント１４２における行オフセット値が非ゼロである場合、対応するデータ要素がロードされる行は、ＬＳＥ命令において特定される行及び行オフセット値によって決定される。例えば、行オフセット値が０、１、２、．．．３１であると想定する。ＬＳＥ命令においてバックグラウンドＢ行列バッファの第１の行が特定されているデータの新しい行をロードするとき、第１の要素は行１、列１にロードされ、第２の要素は行２、列２にロードされ、第３の要素は行３、列３にロードされる等となり、従って、バックグラウンドＢ行列バッファにおいて対角線を形成する。

【0028】

ＭＭＡ１０４は更に、Ｃ行列バッファ１３４の出力に非線形性を適用するための、構成可能な非線形性コンポーネント１３２を含む。実装される非線形性は、正規化線形関数（ＲｅＬＵ）であり、有効化されると、要素毎にＣ行列バッファ１３４の出力に適用される。非線形性コンポーネント１３２に対する入力が負である場合、非線形性コンポーネント１３２の出力をゼロに設定し、非線形性コンポーネント１３２の入力が負でない場合、非線形性コンポーネント１３２の出力を非線形性の入力に設定する。

【0029】

例示のデバイス１００において、プロセッサ１０２は、レベル１データ（Ｌ１Ｄ）キャッシュメモリ１１２、レベル２（Ｌ２）統合命令及びデータキャッシュメモリ１０６、及び２つのストリーミングエンジン（ＳＥ０及びＳＥ１）１０８、１１０を含むデジタル信号プロセッサ（ＤＳＰ）である。そのようなプロセッサの例は、本明細書に参照として組み込まれる、２０１７年３月２８日発行の米国特許番号ＵＳ９，６０６，８０３に記載されている。また、ストリーミングエンジンの例は、米国特許番号ＵＳ９，６０６，８０３、及び本明細書に参照として組み込まれる、２０１７年１０月２６日公開の米国特許出願公開番号ＵＳ２０１７／０３０８３８１に記載されている。

【文献】米国特許番号ＵＳ９，６０６，８０３

【文献】米国特許出願公開番号ＵＳ２０１７／０３０８３８１

【0030】

プロセッサ１０２は、ＭＭＡ１０４に対する入力データのソースとして動作するように、及びＭＭＡ１０４から出力データを受け取るように構成される。より具体的には、プロセッサ１０２は、それぞれのレジスタファイル１２０、１２６におけるストリーミングエンジン１０８、１１０からＭＭＡ１０４のためのデータベクトルを受け取るように、及び、デバイス１００によって実行されている基本計算原始関数のため必要に応じて、フォーマッティング１２２をデータに適用するように、及び、ＭＭＡ１０４による消費のためにそれぞれのバッファ１２４、１２８にデータベクトルをストアするように構成される。ソースＡバッファ１２４は、Ａ行列バッファ１３８にロードされるべきデータをストアし、ソースＢバッファ１２８は、Ｂ行列バッファ１４４にロードされるべきデータをストアする。

【0031】

入力フォーマッティング１２２の例としては、ゼロパディング、偶数／奇数ベクトル生成、値コピー、既知行列生成、及び連係演算が含まれる。偶数／奇数ベクトル生成は、２つのベクトルを受け取る。偶数オプションが選択される場合、ＭＭＡ１０４への入力に対する出力ベクトルを生成するために、２つのベクトルの全ての偶数要素が用いられる。奇数オプションが選択される場合、出力ベクトルを生成するために、２つのベクトルの全ての奇数要素が用いられる。偶数／奇数フォーマッティングは、例えば、１より大きいストライドを用いる高速フーリエ変換（ＦＦＴ）及び畳み込みに有用である。値コピーフォーマッティングは、ＭＭＡ１０４への入力に対するベクトルを生成し、Ｌ２１０６から読み出されるスカラー値が、ベクトルの全ての要素に対して複製される。値コピーは、例えば、バイアス生成に対して有用である。既知行列生成フォーマッティングは、ＭＭＡ１０４への入力に対する出力ベクトルのシーケンスを生成し、それらはともに、単位行列等の共通既知行列パターンを形成する。ゼロパディングフォーマッティングは、ＭＭＡ１０４への入力の前にベクトルにゼロを追加する。連係演算は、ＭＭＡ１０４の出力ベクトルを取り、そのベクトルをＡ行列バッファ１３８又はＢ行列バッファ１４４のために、ＭＭＡ１０４に対する入力として提供する。連係演算は、例えば、Ｚ＝Ｗ＊Ｘ＊Ｙスタイルの演算のために有用である。

【0032】

プロセッサ１０２はまた、デスティネーションＣバッファ１１８におけるＭＭＡ１０４からデータベクトルを受け取るように、及び、フォーマッティング１１６を、デバイス１００によって実行されている基本計算原始関数のために、必要に応じてデータに適用するように、及び、データベクトルをレジスタファイル１１４にストアするように構成される。データベクトルは、レベル１データキャッシュ１１２及びレベル２統合キャッシュ１０６を介して外部メモリ（図示されない）にストアされる。出力フォーマッティング１１６の例としては、シーム除去、ストライド除去、ゼロパディング、及び行列転置が含まれる。

【0033】

ストリーミングエンジン１０８、１１０は、データ要素のストリームをレベル２キャッシュ１０６からそれぞれのレジスタファイル１２０、１２６に転送するように構成される。ストリームは、同じタイプ及びサイズの要素のシーケンスであると定義される。ストリーミングエンジン１２０、１２６は、下記のストリーム属性を特定することによって、基本計算原始関数に特有のストリームを定義するようにプログラム可能である。ストリーム属性は、ストリームの第１の要素のアドレス、ストリームにおける要素のサイズ及びタイプ、ストリームにおけるデータのフォーマッティング、及びストリームに関連するアドレスシーケンス、即ち、それらをストリームに置くために要素にアクセスするアドレス順である。ストリームが開始されると、ストリーミングエンジン１２０、１２６が、アドレスを計算し、Ｌ２から定義されたデータタイプをフェッチし、ゼロ拡張又は符号拡張等の任意の特定されたデータタイプフォーマッティングを実施し、データをベクトルにマッピングし、データベクトルを直接それぞれのレジスタファイル１２０、１２６に搬送する。

【0034】

ストリーミングエンジン１０８、１１０のアドレスシーケンスは、多次元メモリアクセスを可能にする。従って、各ストリーミングエンジン１２０、１２６は、ストリームの要素に対するアドレスシーケンスを、メモリをウォークスルーするポインタによって実行する。各ストリーミングエンジン１２０、１２６は、ポインタが取るべき経路を制御するマルチレベルパラメータ化ネスト化ループを実装する。このネスト化ループにおいて、ループレベルに対する反復カウントが、そのレベルにおいてループが反復する回数を示し、ループレベルに対する次元が、そのループレベルにおけるポインタ位置間の距離を定義する。

【0035】

最も内側のループ、即ち、ループ０は、メモリから物理的に連続する要素を消費し、１の暗示的次元を有し、ポインタは要素から要素に連続的に移動し、このループレベルにおける順序を上げる。内側ループの外側の各レベルにおいて、ループは、ループに対して特定された次元のサイズに基づいて、ポインタを新しい位置に移動させる。このアドレッシングのフォームによって、プログラムが、メモリを介した正規経路を少数のパラメータで特定できる。

【0036】

表１は、そのような、６レベルを用いてネスト化されたループに対する例示の疑似コードを示す。この疑似コードにおいて、ＩＣＮＴｘはレベルｘに対する反復カウントであり、ＤＩＭｘはレベルｘに対する次元であり、ＥＬＥＭ＿ＢＹＴＥＳは、バイトでの各要素のサイズである。他の例において、ネスト化されたループは、これより多い又はこれより少ないレベルを有し得る。

【表1】

【0037】

また、プロセッサ１０２は、デバイス１００に対して定義された各基本計算原始関数に対する制御ソフトウェアを実行する。制御ソフトウェアは、必要に応じて、ストリーミングエンジン１０８、１１０及びＭＭＡ１０４の構成に基本計算原始関数を実施させ、ＭＭＡの実行を制御し、基本計算原始関数のために必要な任意の入力フォーマッティング１２２及び／又は出力フォーマッティング１１６を適用させる。

【0038】

図２は、デバイス１００において基本計算原始関数を実行するための方法のフローチャートである。初期的に、基本計算原始関数のための制御ソフトウェアが、基本計算原始関数のためのデータ要素を、必要な順序にストリーミングするように、ストリーミングエンジン１０８、１１０を構成する（２００）。従って、制御ソフトウェアは、基本計算原始関数のストリーム属性を、ストリーミングエンジン１０８、１１０の各々に通信する。基本計算原始関数に応じて、一方又は双方のストリーミングエンジンが用いられ得る。概して、ストリーミングエンジン１０８は、Ａ行列バッファ１３８のためのデータ要素をストリーミングするように構成され、ストリーミングエンジン１１０は、Ｂ行列バッファ１４４のためのデータ要素をストリーミングするように構成される。異なる基本計算原始関数のためにストリーミングエンジン１０８、１１０を構成する例が本明細書に記載される。

【0039】

制御ソフトウェアはまた、行列乗算を用いて基本計算原始関数を実施するために必要に応じ、ＭＭＡ１０４を構成する（２０２）。従って、制御ソフトウェアは、フォーマットコンポーネント１３０、１３６、１４０、行オフセットコンポーネント１４２、及び非線形性コンポーネント１３２を、基本計算原始関数のための必要に応じて構成する。異なる計算原始関数のためにＭＭＡ１０４を構成する例が本明細書に記載される。

【0040】

構成が完了すると、制御ソフトウェアは、構成されたストリーミングエンジン１０８、１１０を開始し（２０４）、構成された基本計算原始関数を実行する（２０６）。概して、基本計算原始関数を実行するために、制御ソフトウェアは、ＭＭＡ１０４にＬＳＥ命令のシーケンスを実行させて、データ要素をＡ行列バッファ１３８及びバックグラウンドＢ行列バッファ１４４にロードし、Ａ行列バッファ１３８とフォアグラウンドＢ行列バッファ１４４との間で行列乗算を実行し、行列乗算の結果を選択されたＣ行列バッファ１３４にストアし、データをバックグラウンドＣ行列バッファ１３４からバッファ１１８に移動させる。ＭＭＡ１０４において構成される任意のフォーマッティング及びオフセットが、データ要素がバッファ１３８、１４４にロードされる前に、及び結果がＣ行列バッファ１３４からバッファ１１８に移動されるときに、適用される。基本計算原始関数の実行の一部として、制御ソフトウェアはまた、基本計算原始関数に固有の入力フォーマッティング１２２及び出力フォーマッティング１１６をプロセッサ１０２上で実施させる。

【0041】

図３は、図１のデバイス１００におけるバッチ小行列行列乗算の実装を図示する例である。充分に小さい行列の場合、複数の被乗数行列ＸをＢ行列バッファ１４４に対角線状にロードし、Ａ行列バッファ１３８においてロードされた対応する乗数行列Ｈを掛けることによって、複数の行列乗算Ｙ＝Ｈ＊Ｘが単一バッチにおいて実施され得る。図３に示されるように、被乗数行列がＫ×Ｎであり、対応する乗数行列がＭ×Ｋであり、Ｋ、Ｎ、及びＭが、３２より小さいと仮定する。バッチサイズＴ、即ち、Ｂ行列バッファ１４４に対角線状にロードされ得る被乗数行列Ｘの数は、Ｔ＝ｆｌｏｏｒ（３２／ｍａｘ（Ｋ，Ｎ））である。このように、Ｔ個の被乗数行列Ｘ（ｔ），ｔ＝０，１，．．．，Ｔ－１，は、Ｂ行列バッファ１４４に対角線状にロードされ得、Ｔ個の乗数行列Ｈ（ｔ）ができる。

【0042】

この原始関数を実施するため、Ｔ個のＨ行列はＬ２キャッシュ１０６にストアされ、その結果、Ｔ個のＨ行列の各々の第１の行を含むＴ＊Ｋ連続要素があり、その後にＺ_Ｋ個の０が続き、Ｔ個のＨ行列の各々の第２の行を含むＴ＊Ｋ連続要素があり、その後にＺ_Ｋ個の０が続き、．．．、Ｈ行列の各々のＭ番目の行のＴ＊Ｋ連続要素があり、その後にＺ_Ｋ個の０が続く。ここで、Ｚ_Ｋ＝３２－Ｔ＊Ｋである。また、Ｔ個のＸ行列はＬ２キャッシュ１０６にストアされ、その結果、Ｔ個のＸ行列の各々の第１の行を含むＴ＊Ｎ連続要素があり、その後にＺ_Ｎ個の０が続き、Ｔ個のＸ行列の各々の第２の行を含むＴ＊Ｎ連続要素があり、その後にＺ_Ｎ個の０が続き、．．．、Ｔ個のＸ行列の各々のＭ番目の行のＴ＊Ｎ連続要素があり、その後にＺ_Ｎ個の０が続く。ここでＺ_Ｎ＝３２－Ｔ＊Ｎである。

【0043】

ストリーミングエンジン１１０は、Ｌ２キャッシュ１０６からＴ個のＸ行列の要素を読み出すように、及び、ＭＭＡ１０４のＢ行列バッファ１４４にロードするために、Ｔ個のＸ行列の連続行の要素を含むベクトルを提供するように構成される。ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６からＴ個のＨ行列の要素を読み出すように、及び、Ａ行列バッファ１３８にロードするために、Ｔ個のＨ行列の連続行の要素を含むベクトルを提供するように構成される。

【0044】

ＭＭＡ１０４の行オフセットコンポーネント１４０は、ストリーミングエンジン１１０からの各ベクトルの行の要素を、オフセットｔ＊ＫでＢ行列バッファ１４４にロードさせるように構成される。このように、Ｘ（０）からの行の要素は、０のオフセットを用いてロードされ、Ｘ（１）からの行の要素は、Ｋのオフセットを用いてロードされ、Ｘ（２）からの行の要素は、２Ｋのオフセットを用いてロードされる等となる。

【0045】

乗算を実施するため、適切に構成されたＬＳＥ命令がＭＭＡ１０４上で実行されて、Ｂ行列バッファ１４４にＸ行列の初期バッチをロードする。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実行されて、対応するＨ行列の行をＡ行列バッファ１３８にロードし、乗算を実施し、結果をＣ行列バッファ１３４にストアする。また、複数のバッチが処理される場合、ＬＳＥ命令はまた、Ｘ行列の別のバッチをバックグラウンドＢ行列バッファ１４４にロードし、前のバッチの結果をＣ行列バッファ１３４からＭＭＡ１０４の外に移動させる。このように、バッチ小行列行列乗算を実施するため、Ｔ＊Ｋ要素が、Ｍサイクルの間、Ａ行列バッファ１３８にロードされ、Ｔ＊Ｎ要素が、Ｋサイクルの間、Ｂ行列バッファ１４４（初期バッチ以外、バックグラウンドにおいて）にロードされ、Ｔ＊Ｎ要素が、Ｍサイクルの間、Ｃ行列バッファから外に移動される。

【0046】

他の例において、Ｚ_Ｋ及びＺ_Ｎ個の０をＬ２キャッシュ１０６にストアするのではなく、ストリーミングエンジン１０８、１１０又は入力フォーマッティング１２２がゼロパディングを実施するように構成されて、ベクトルをソースＡバッファ１２４又はソースＢバッファ１２８にストアする前に、必要な数のゼロを各ベクトルに付加する。

【0047】

図４は、図１のデバイス１００における大行列行列乗算Ｙ＝Ｈ＊Ｘの実装を図示する例であり、ここで、被乗数行列Ｘ及び乗数行列Ｈは、Ｂ行列バッファ１４４及びＡ行列バッファ１３８より大きい次元を有する。この例は、被乗数行列Ｘの次元が３２Ｋ×３２Ｎであり、乗数行列Ｈの次元が３２Ｍ×３２Ｋであること、即ち、これらの行列の各々の次元が３２で均一に割り切れること、を仮定している。このように、Ｙ行列の次元は、３２Ｍ×３２Ｎである。行列Ｘ及びＨは３２×３２タイルに分割される。従って、行列のタイルＴ（ｍ，ｎ）が、行（３２＊ｍ）：３２＊（（ｍ＋１）－１）、及び列（３２＊ｎ）：（３２＊（ｎ＋１）－１）から形成される。図４に図示されるように、Ｈタイルの行のＸタイルの列との行列乗算が、Ｈのタイル行１とＸのタイル列１の行列乗算によって生成されるタイルＹ（１、１）等、単一の対応するＹタイルを生成する。

【0048】

表２は、ＭＭＡ１０４によるこの原始関数のパフォーマンスを図示する例示の疑似コードである。疑似コードは、ストリーミングエンジン１０８が、Ｌ２キャッシュ１０６から乗数行列Ｈの要素を読み出すように、及びベクトルをＡ行列バッファ１３８に提供するように構成されることを仮定し、その結果、Ｈタイルの各行がＮ回ロードされ、即ち、Ｈ（０，０：（Ｋ－１））がＮ回ロードされ、Ｈ（１，０：（Ｋ－１））がＮ回ロードされ、Ｈ（２、０：（Ｋ－１））はＮ回ロードされる等となる。従って、Ｈ行列の全ての行が、Ｌ２キャッシュ１０６に連続してストアされる。ストリーミングエンジン１０８は、シーケンス、Ｈ（０，０），Ｈ（０，１），．．．，Ｈ（０，Ｋ－１）をＮ回ロードし、．．．、その後、シーケンス、Ｈ（１，０），Ｈ（１，１），．．，Ｈ（１，Ｋ－１）をＮ回ロードし、その後、シーケンス、Ｈ（Ｍ－１，０），Ｈ（Ｍ－１，１），．．．，Ｈ（Ｍ－１、Ｋ－１）をＮ回ロードするように構成される。

【0049】

また、疑似コードは、ストリーミングエンジン１１０が、Ｌ２キャッシュ１０６からＸタイルの要素を読み出すように、及びＢ行列バッファ１４４にＭ回ロードされるべき各Ｘタイルを提供するように、即ち、ロードのシーケンス［Ｘ（０：（Ｋ－１），０），．．．，Ｘ（０：（Ｋ－１），Ｎ－１）］がＭ回繰り返されるように構成されることを仮定している。従って、Ｘ行列の全ての行がＬ２キャッシュ１０６に連続してストアされる。ストリーミングエンジン１１０は、Ｘ（０，０），Ｘ（１，０），．．．，Ｘ（Ｋ－１，０），Ｘ（０，１），Ｘ（１，１），．．．，Ｘ（Ｋ－１，１），．．．，Ｘ（０，Ｎ－１），Ｘ（１，Ｎ－１），．．．，Ｘ（Ｋ－１，Ｎ－１）をＮ回ロードするように構成される。

【0050】

この疑似コードにおいて、Ｂｂａｃｋは、Ｂ行列バッファ１４４のカレントのバックグラウンドバッファを示し、Ｂｆｏｒｅは実行に用いられるカレントのフォアグラウンドバッファを示す。

【表2】

【0051】

図５は、図１のデバイス１００における行列行列点状乗算Ｃ＝Ａ．＊Ｂの実装を図示する例である。行列行列点状乗算において、行列Ａ、Ｂ、Ｃの次元は、例えばｍ×ｎのように、同じであり、要素Ｃ（ｍ，ｎ）は、Ａ（ｍ，ｎ）とＢ（ｍ，ｎ）との積である。デバイス１００において、Ｃ＝Ａ．＊Ｂは、Ｃ（ｋ，：）＝Ａ（ｋ，：）＊ｄｉａｇ（Ｂ（ｋ，：）），ｋ＝０，．．．，３１として実装され得る。従って、点状乗算は、Ｂ行列の各行の要素をＢ行列バッファ１４４に対角線上にロードすること、及びＡ行列バッファ１３８にロードされたＡ行列の対応する行で行列乗算を実施することによって実装され得る。図５の例は、Ａ行列及びＢ行列の行に対するこれを図示し、ｍ＝ｎ＝３２と仮定する。

【0052】

この原始関数を実施するため、ストリーミングエンジン１１０は、Ｌ２キャッシュ１０６からＢ行列の要素を読み出すように、及びＭＭＡ１０４のＢ行列バッファ１４４にロードするためＢ行列の各行を提供するように構成される。従って、ストリーミングエンジン１１０からの第１のベクトルは、Ｂ行列の第１の行、行０を含み、ストリーミングエンジンからの第２のベクトルは、Ｂ行列の第２の行を含む等となる。ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６からＡ行列の要素を読み出すように、及び、Ａ行列バッファ１３８にロードするためＡ行列の各行を提供するように構成される。従って、ストリーミングエンジン１０８からの第１のベクトルは、Ａ行列の第１の行、行０を含み、ストリーミングエンジンからの第２のベクトルは、Ａ行列の第２の行を含む等となる。

【0053】

ＭＭＡ１０４の行オフセットコンポーネント１４０は、Ｂ行列の行の要素をＢ行列バッファ１４４に対角線状にロードさせるように構成される。従って、行要素に対するオフセットは、行の第１の要素が行０、列０にロードされ、第２の要素が行１、列１にロードされ、第３の要素が行２、列２にロードされる等のように、０から３１にわたる逐次値に設定される。

【0054】

点状乗算を実施するため、適切に構成されたＬＳＥ命令が、ＭＭＡ１０４上で実行されて、Ｂ行列バッファ１４４にＢ行列の初期の行がロードされる。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実行されて、Ａ行列の対応する行をＡ行列バッファ１３８にロードし、行列乗算を実施し、結果をＣ行列バッファ１３４の対応する行にストアする。更に、ＬＳＥ命令はまた、Ｂ行列の次の行をバックグラウンドＢ行列バッファ１４４にロードする。Ｂ行列の行をバックグラウンドＢ行列の対角線上にロードし、フォアグラウンドＢ行列バッファ上で行列乗算を実行し、結果をストアするこのプロセスは、Ｂ行列の全ての行が処理されるまで繰り返される。その後、Ｃ行列バッファ１３４のコンテンツをＭＭＡ１０４の外に移動するためのＬＳＥ命令が実行される。

【0055】

図６は、図１のデバイス１００における、行列行列加算Ｃ＝Ａ＋Ｂの実装を図示する例である。行列行列加算において、行列Ａ、Ｂ、Ｃの次元は、例えばｍ×ｍ等、同じであり、要素Ｃ（ｍ，ｎ）は、Ａ（ｍ，ｎ）とＢ（ｍ，ｎ）との合計である。ＭＭＡ１０４を用いて、Ｃ＝Ａ＋Ｂは、Ｃ＝Ａ＊Ｉ＋Ｂ＊Ｉとして実装され得、ここで、Ｉは単位行列である。より具体的には、図６に示されるように、Ｃ＝Ａ＋Ｂは、Ｃ＝Ａ＊Ｉとして実装され得、その後にＣ＋＝Ｂ＊Ｉが続く。また、Ｃ＝Ａ＋Ｂは、Ｃ＝Ｂ＊Ｉとして実装され得、その後にＣ＋＝Ａ＊Ｉが続く。単位行列は、主対角線の全ての要素が１であり他の全ての要素がゼロである正方行列である。所与の行列に単位行列を掛ける効果は、所与の行列を変化させずに残すことである。

【0056】

この原始関数を実施するため、ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６からＡの要素を読み出すように、及びＡ行列バッファ１３８にロードされるべきＡの各行を提供するように構成される。入力フォーマッティング１２２は、Ｂ行列バッファ１４４にロードされるべき単位行列Ｉのベクトルを生成するように構成される。適切に構成されたＬＳＥ命令がＭＭＡ１０４において実行されて、Ａの各行をＡ行列バッファ１３８にロードし、Ａ行列バッファ１３８にロードされたＡの行と、Ｂ行列バッファ１４４の単位行列との間で行列乗算を行い、結果をＣ行列バッファ１３４の対応する位置にストアする。＝演算は、ＬＳＥ命令において、結果をＣ行列バッファにストアするためのものとして特定される。このように、Ａの各要素が、変更なしに、Ｃ行列バッファの対応する位置にストアされる。

【0057】

ストリーミングエンジン１０８は、その後、Ｌ２キャッシュ１０６からＢの要素を読み出すように、及びＡ行列バッファ１３８にロードされるべきＢの各行を提供するように構成される。適切に構成されたＬＳＥ命令がＭＭＡ１０４において実行されて、Ｂの各行をＡ行列バッファ１３８にロードし、Ａ行列バッファ１３８にロードされたＢの行とＢ行列バッファ１４４の単位行列との間で行列乗算を行い、結果を、Ａ＊Ｉの結果をストアするＣ行列バッファ１３４の対応する位置にストアする。＋＝演算は、ＬＳＥ命令において、結果をＣ行列バッファにストアするためのものと特定されており、従って、Ｂの各データ要素の値を、Ｃ行列バッファの対応する位置にストアされているＡの対応する要素の値に加算させる。その後、Ｃ行列バッファ１３４のコンテンツをＭＭＡの外に移動させるためＬＳＥ命令が実行される。

【0058】

図７は、図１のデバイス１００における小ベクトル行列乗算ｙ＝ｘ＊Ｈの実装を図示する例である。定数行列Ｈの場合、Ｈブロックの複数コピーを、対角線状に、Ｂ行列バッファ１４４にロードすること、対応するｘベクトルをＡ行列バッファ１３８にロードすること、及び、行列乗算を実施することによって、複数のｘベクトルによる乗算が単一のバッチにおいて計算され得る。図７に示されるように、ＨはＫ×Ｎ行列であり、各ｘベクトルは１×Ｋであると仮定する。バッチサイズＴ、即ち、Ｂ行列バッファ１４４ブロックに対角線状にロードされ得るＨのコピーの数は、Ｔ＝ｆｌｏｏｒ（３２／ｍａｘ（Ｋ，Ｎ））である。このように、ＨのＴ個のコピーは、Ｂ行列バッファ１４４ブロックに対角線状にロードされ得、対応するベクトルｘ（ｔ），ｔ＝０，１，．．．，Ｔ－１，はＡ行列バッファ１３８にロードされ得る。

【0059】

この原始関数を実施するため、ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６からＴ個の対応するｘベクトルの要素を読み出すように、及びＡ行列バッファ１３８にロードするためにベクトルを提供するように構成される。従って、ストリーミングエンジン１０８からのベクトルは、ｘ（０），．．．ｘ（Ｔ－１）の要素を含む。ストリーミングエンジン１０８を介するベクトルのロードは、図３を参照して説明されるものに類似し、ここで、Ｍ＝１である。ストリーミングエンジン１１０は、Ｌ２キャッシュ１０６からＨ行列の要素を読み出すように、及びＨ行列の連続する行の要素を含む、ＭＭＡ１０４のＢ行列バッファ１４４にロードするためにベクトルを提供するように構成される。Ｈ行列を複製するため、適切なゼロパディングを用いるＨ行列の行の複数のコピーが、Ｌ２キャッシュ１０６に連続してストアされる。或いは、入力フォーマッティング１２２又はストリーミングエンジン１１０のいずれかが、Ｈの各行をＴ回複製し、適切なゼロパディングを付加するように構成される。

【0060】

ＭＭＡ１０４の行オフセットコンポーネント１４０は、ストリーミングエンジン１１０からの各ベクトルにおける行の要素を、オフセットｔ＊ＫでＢ行列バッファ１４４にロードさせるように構成される。このように、Ｈ行列の複製された行０の要素は、０のオフセットでロードされ、Ｈ行列の複製された行１の要素は、Ｋのオフセットでロードされ、Ｈ行列の複製された行２の要素は、２Ｋのオフセットを用いてロードされる等となる。

【0061】

乗算を実施するため、適切に構成されたＬＳＥ命令がＭＭＡ１０４上で実行されて、複製されたＨ行列の初期バッチをＢ行列バッファ１４４にロードする。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実行されて、対応するｘベクトルのベクトルをＡ行列バッファ１３８にロードし、乗算を実施し、結果をＣ行列バッファ１３４にストアする。また、複数のバッチが処理されるべき場合、適切に構成されたＬＳＥ命令が別のベクトルをＡ行列バッファ１３８にロードし、乗算を実施し、前に計算されたベクトルをＡ行列バッファ１３８にストアする。Ｂ行列バッファ１４４は、Ａ行列バッファ１３８にロードされる各新しいベクトルに対してリロードされる必要はない。

【0062】

図８は、デバイス１００における小ベクトル総和の実装を図示する例である。ベクトル総和は、ｙ＝ｓｕｍ（ｘ）として表され得、ここで、ｙはベクトルの要素の和である。充分に小さいベクトルの場合、複数のｘベクトルをＡ行列バッファ１４４にロードすること、対角線上の１のベクトルのコピーをＢ行列バッファ１４４にロードすること、及び行列乗算を実施することによって、複数の総和が単一バッチにおいて計算され得る。図８に示されるように、各ｘベクトルが１×Ｋであると仮定する。バッチサイズＴ、即ち、Ａ行列バッファ１３８にロードされ得るベクトルの数は、Ｔ＝ｆｌｏｏｒ（３２／Ｋ）である。このように、ｘ（ｔ），ｔ＝０，１，．．．，Ｔ－１，はＡ行列バッファ１３８にロードされ得、全ての１のＫ×１ベクトルのＴ個のコピーが、Ｂ行列バッファ１４４にロードされるべきである。

【0063】

この原始関数を実施するため、ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６からｘベクトルを読み出すように、及びＡ行列バッファ１３８にロードするために、Ｔ個のｘベクトルを含むベクトルを提供するように構成される。したがって、ストリーミングエンジン１０８からのベクトルは、ベクトルｘ（０），．．．，ｘ（Ｔ－１）を含む。ストリーミングエンジン１０８を介するベクトルのロードは、図３を参照して説明されるものに類似し、ここでＭ＝１である。更に、入力フォーマッティング１２２は、Ｂ行列バッファ１４４において対角線上にロードされるべき全ての１のＫ×１ベクトルを生成するように構成される。

【0064】

総和を実施するため、適切に構成されたＬＳＥ命令がＭＭＡ１０４上で実行されて、全ての１の１×Ｋベクトルの複数のコピーを、Ｂ行列バッファ１４４に対角線上にロードする。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実行されて、ｘ（０）．．．ｘ（Ｔ－１）ベクトルをＡ行列バッファ１３８にロードし、乗算を実施し、結果をＣ行列バッファ１３４の行にストアする。また、複数のバッチが処理されるべき場合、適切に構成されたＬＳＥ命令がＡ行列バッファ１３８に別のベクトルをロードし、乗算を実施し、前に計算されたベクトルをストアする。Ｂ行列バッファ１４４は、Ａ行列バッファ１３８にロードされる新しいベクトル毎にリロードされる必要はない。

【0065】

図９は、デバイス１００におけるアフィン変換の実装を図示する例である。アフィン変換はｙ＝ｘ＊Ｈ＋ｖとして表され得、ｙ＝［ｘ１］＊［Ｈ；ｖ］として計算され得る。行列Ｈ及びベクトルｖが、複数の変換にわたって一定である場合、［Ｈ；ｖ］ブロックの複数のコピーを対角線状にＢ行列バッファ１４４にロードすること、対応するｘベクトルをＡ行列バッファ１３８にロードすること、及び行列乗算を実施することによって、アフィン変換がバッチで計算され得る。図９に示されるように、Ｈが（Ｋ－１）×Ｎ行列であり、ｖが１×Ｎであり、各ｘベクトルが１×（Ｋ－１）であると仮定する。バッチサイズＴ、即ち、Ｂ行列バッファ１４４ブロックに対角線状にロードされ得る［Ｈ；ｖ］のコピーの数は、Ｔ＝ｆｌｏｏｒ（３２／ｍａｘ（Ｋ，Ｎ））である。このように、［Ｈ；ｖ］のＴ個のコピーが、Ｂ行列バッファ１４４にブロックで対角線状にロードされ得、対応するベクトルｘ（ｔ），ｔ＝０，１，．．．，Ｔ－１，は、Ａ行列バッファ１３８にロードされ得る。

【0066】

この原始関数を実施するため、ストリーミングエンジン１１０は、Ｌ２キャッシュ１０６からＨ行列及びｖの要素を読み出すように、及びＭＭＡ１０４のＢ行列バッファ１４４にロードするためにベクトルを提供するように構成される。ｖと連結されるＨ行列を複製するために、ＨのＫ－１行が連続してＬ２キャッシュ１０６にストアされ、その後にｖの１行が続き、入力フォーマッティング１２２は、これをＴ回複製し、Ｚｎ個の０を付加するように構成される。或いは、Ｈの各行のＴ個のコピーが連続してＬ２キャッシュ１０６にストアされ、それぞれの後にＺｎ個の０が続き、その後、ｖのＴ個のコピーが連続してＬ２キャッシュ１０６にストアされ、その後にＺｎ個の０が続く。

【0067】

ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６からＴ個の対応するｘベクトルの要素を読み出すように、及びＡ行列バッファ１３８にロードするためにベクトルを提供するように構成される。一例において、ｘ（ｔ）のＴ個のコピーは連続してＬ２キャッシュ１０６にストアされ、入力フォーマッティング１２２は、最後にコピーとＺｋ個の０との間に１を付加するように構成される。或いは、ｘ（ｔ）のＴ個のコピーは連続してＬ２キャッシュ１０６にストアされ、最後にコピーとＺｋ個の０との間に１を有する。

【0068】

ＭＭＡ１０４の行オフセットコンポーネント１４０は、ストリーミングエンジン１１０からの各ベクトルの要素を、Ｂ行列バッファ１４４に適切なオフセットでロードさせるように構成される。例えば、Ｈの各行のＴ個のコピーがＬ２キャッシュ１０６に連続してストアされ、それぞれの後にＺｎ個の０が続き、その後、ｖのＴ個のコピーがＬ２キャッシュ１０６に連続してストアされ、その後にＺｎ個の０が続くと仮定すると、行オフセットコンポーネント１４０は、［Ｈ；ｖ］行列の複製された行０の要素が、０のオフセットでロードされ、［Ｈ；ｖ］行列の複製された行１の要素がＫのオフセットでロードされ、［Ｈ；ｖ］行列の複製された行２の要素が２Ｋのオフセットでロードされる等のように構成される。

【0069】

乗算を実施するため、適切に構成されたＬＳＥ命令がＭＭＡ１０４上で実行されて、複製された［Ｈ；ｖ］行列の初期バッチをＢ行列バッファ１４４にロードする。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実施され、対応するｘベクトルのベクトルをＡ行列バッファ１３８にロードし、乗算を実施し、結果をＣ行列バッファ１３４にストアする。また、複数のバッチが処理されるべき場合、適切に構成されたＬＳＥ命令が、別のベクトルをＡ行列バッファ１３８にロードし、乗算を実施し、前に計算されたベクトルをストアする。Ｂ行列バッファ１４４は、Ａ行列バッファ１３８にロードされる新しいベクトル毎にリロードされる必要はない。

【0070】

図１０は、デバイス１００における畳み込みニューラルネットワーク（ＣＮＮ）において用いられるような二次元（２Ｄ）畳み込み

の実装を図示する例である。典型的な畳み込みニューラルネットワーク（ＣＮＮ）は、特徴を抽出するための幾つかの畳み込み及びサブサンプリング層を含み、その後に、抽出された特徴に基づいて分類を実施するために従来のニューラルネットワークにおいて用いられるような一つ又は複数の完全に接続された層が続く。各畳み込み層及び各サブサンプリング層の出力は特徴マップのセットであり、それはＣＮＮにおける次の層に対する入力である。各畳み込み層は、幾つかのフィルタを含み、それらのサイズ及び数は各層ごとに異なり得る。フィルタは、対応する特徴マップで畳み込まれて、各フィルタに対応する特徴マップを生成する。

【0071】

図１０は、次元Ｌｒ×Ｌｃを有するＮｉ入力特徴マップ１０００を用いる一般的な畳み込み層を示す。入力特徴マップ１０００は、次元Ｆｒ×Ｆｃを有する対応するフィルタ１０で畳み込まれて、次元Ｍｒ×Ｍｃを有するＮｏ出力特徴マップ１００４を生成する。ＭＭＡ１０４を用いて２Ｄ畳み込みを実施するために、特徴マップ１０００は、次元（Ｆｒ＊Ｆｃ＊Ｎｉ）×（Ｍｒ＊Ｍｃ）のフィルタリング行列Ｘ１００６にタイル化される。フィルタリング行列Ｘにおけるタイルサイズは、大又は小であり得、フィルタ長の関数として選択されるタイルオーバーラップを備える。畳み込みが、Ｌの入力サイズ及びＦのフィルタ長に対してＭ＝Ｌ－Ｆ＋１出力を生成するので、このオーバーラップが存在する。フィルタリング行列Ｘ１１０６におけるタイルに対して大きいサイズを選択することはシームを防止し得、一方、小さいタイルサイズでは、タイル化処理は、プロセッサ１０２による除去のために同じ場所にシームを発生させる。大きい特徴マップタイルは、Ｌｃ＝３２＊Ｂｃ＋Ｆｃ－１を満たし、小さい特徴マップタイルは、Ｌｃ＜＝（３２＋Ｆｃ－１）／Ｂｃを満たす。タイルサイズのこの選択は、同じ場所にシームを発生させる。

【0072】

出力特徴マップ１００４を計算するため、フィルタ又はカーネルは、連続する３２×３２ブロックにおいて読み出され得、ＭＭＡ１０４におけるタイルフィルタリング行列Ｘ１００６の３２×３２ブロックに適用され得る。フィルタを入力特徴マップ１０００に適用した結果は、ＭＭＡ１０４によってタイルフィルタリング行列１００６の３２×３２ブロックに対して別々に計算され得、出力特徴マップ１００４を生成するために結合され得る。フィルタ又はカーネル１００２の行は、連続してＬ２キャッシュ１０６にストアされ得、フィルタ行列Ｈ１００８は、連続する３２×３２ブロックにおいてＬ２キャッシュ１０６から読み出され得る。図１１に図示されるように、タイルフィルタリング行列１００６の特徴マップタイルは、立方体で読み出される。即ち、初期特徴マップＦＭ１１０１２のタイルの全ての行が読み出され、その後に、次の特徴マップＦＭ２１０１４における対応するタイルの全ての行が続く等、最後の特徴マップＦＭＮｉ１０１６における対応するタイルの全ての行まで読み出される。計算は、下記式に従って、ブロック列順に実施され得る。
Ｙ（：，ｎ）＝Ｈ＊Ｘｆｉｌｔｅｒ（：，ｎ），ｎ＝０，．．．，Ｎ－１
又は下記式に従って、ブロック行順（この例において示される順）に実施され得る。
Ｙ（ｍ，：）＝Ｈ（ｍ，：）＊Ｘｆｉｌｔｅｒ，ｍ＝０，．．．，Ｍ－１
ここで、Ｘｆｉｌｔｅｒはタイルフィルタリング行列である。

【0073】

大きい特徴マップタイルが用いられるときにこの原始関数を実施するため、ストリーミングエンジン１０８は、ＭＭＡ１０４のＡ行列バッファ１３８にロードするために、Ｌ２キャッシュ１０６からフィルタ行列Ｈ１００８のフィルタベクトルをブロック行順に読み出すように構成される。ストリーミングエンジン１１０は、特徴マップの行の要素をＬ２キャッシュ１０６から読み出すように、及びＭＭＡ１０４のＢ行列バッファ１４４にロードするために特徴マップにおける３２×３２タイルの各行を提供するように構成される。表３は、ストリーミングエンジン１０８を構成するための疑似コードの例であり、表４は、ストリーミングエンジン１１０を構成するための疑似コードの例である。この疑似コードにおいて、Ｂｆは、特徴マップデータ要素ごとのバイトの数であり、Ｓはストライドであり、ＶＥＣＬＥＮはベクトル長であり、タイルサイズは、Ｌｒ×Ｌｃ×Ｎｉであり、ここで、Ｌｃ＝３２＊Ｂｃ＋Ｆｃ－１であり、Ｂｃは、有効な入力特徴マップタイル列の数を示す正の整数である。Ｂｃの値は、例えば、３２＊Ｂｃ＋Ｆｃ－１≦特徴マップにおける列の数になるように、可能な最大整数として選択され得る。これより小さいＢｃの値も用いられ得る。

【0074】

表３の疑似コードにおいて、ＩＣＮＴｘ及びＤＩＭｘの値は、フィルタ行列Ｈが、事前に特定されたように、ブロック行順に生成されるように選択される。Ｈ行列の行は、ゼロパッドを備えてＬ２キャッシュ１０６にストアされるか又はストリーミングエンジン１０８又は入力フォーマッティング１２２は、ゼロパディングを付加するように構成される。表３の疑似コードにおいて、ＩＣＮＴｘ及びＤＩＭの値は、フィルタリング行列Ｘが事前に特定されたように、ブロック列順に生成されるように、選択される。ｆｏｒｌｏｏｐは、全パターンがｃｅｉｌ（Ｎｏ／３２）回、反復することを示している。

【0075】

表３及び表４の疑似コードにおけるパターンは、大行列行列乗算の問題を生成する。即ち、ＭＭＡ１０４の観点からみると、実施される処理は、図４に関連して上述したように実施される大行列行列乗算問題である。

【表3】

【表4】

【0076】

小さい特徴マップタイルが用いられるときにこの原始関数を実施するため、ストリーミングエンジン１０８は、ＭＭＡ１０４のＡ行列バッファ１３８にロードするために、フィルタ行列Ｈ１００８のフィルタベクトルをＬ２キャッシュ１０６からブロック行順に読み出すように構成される。ストリーミングエンジン１１０は、Ｌ２キャッシュ１０６から特徴マップの要素を読み出すように、及びＭＭＡ１０４のＢ行列バッファ１４４にロードするために３２×３２タイルの各行を特徴マップに提供するように構成され得る。表５は、ストリーミングエンジン１０８を構成するための疑似コードの例であり、表６は、ストリーミングエンジン１１０を構成するための疑似コードの例である。この疑似コードにおいて、Ｂｆは、特徴マップデータ要素毎のバイトの数であり、Ｓはストライドであり、ＶＥＣＬＥＮはベクトル長であり、タイルサイズは、Ｌｒ×Ｌｃ×Ｎｉであり、ここで、Ｔｃ≦（３２＋Ｆｃ－１）／Ｂｃであり、Ｂｃは、有効な入力特徴マップタイル列の数を示す正の整数であり、Ｍ＝ｍａｘ（Ｂｃ，Ｓ）である。Ｂｃの値は、Ｂｃ≦（３２＋Ｆｃ－１）／Ｌｃを満たす最大整数である。

【0077】

表５の疑似コードにおいて、ＩＣＮＴｘ及びＤＩＭｘの値は、フィルタ行列Ｈが、事前に特定されたようにブロック行順に生成されるように選択される。Ｈ行列の行は、ゼロパディングを用いてＬ２キャッシュ１０６にストアされるか、或いは、ストリーミングエンジン１０８又は入力フォーマッティング１２２は、ゼロパディングを付加するように構成される。表６の疑似コードにおいて、ＩＣＮＴｘ及びＤＩＭの値は、フィルタリング行列Ｘが、事前に特定されたようにブロック列順に生成されるように選択される。ＦＯＲループは、全パターンが上限（Ｎｏ／３２）回反復することを示す。

【0078】

表５及び表６の疑似コードにおけるパターンは、大行列行列乗算問題を生成する。即ち、ＭＭＡ１０４の観点からみると、実施される処理は、図４に関連して前に説明されたように実施される大行列行列乗算問題である。

【表5】

【表6】

【0079】

大きな特徴タイルが用いられるとき、ストライドＳが１より大きい場合、ストリーミングエンジン１０８の構成は行ストライドを扱う。列ストライドは、ＭＭＡ１０４によって生成されるＳ列毎に一つを書き出すように、出力フォーマッティング１１６を構成することによって扱われる。小さい特徴タイルが用いられるとき、ＭＭＡ１０４の出力からシームが除去される必要がある。ストライドＳが特定されない場合、出力フォーマッティング１１６は、出力からサイズＦｃ－１のＢｃ－１シームを除去するように、及び出力から最後の３２－Ｂｃ＊Ｌｃ＋Ｆｃ－１サンプルを除去し、（Ｌｒ－Ｆｒ＋１）／Ｂｃが整数でない場合、最後のサンプルを無視するように構成される。ストライドＳが特定される場合、出力フォーマッティング１１６は、出力上でシーム除去を実施するように、及び出力から（Ｓ－１）／Ｓ行及び列を除去するように構成される。幾つかの例において、次の畳み込み層のためにゼロパディングが必要とされるとき、出力フォーマッティング１１６は、ＭＭＡ１０４の出力にゼロパディングを付加するように構成される。

【0080】

図１２は、図１のデバイス１００における行列行置換Ｃ＝Ｂ（新しい指数、：））の実装を図示する例である。行置換はＣ＝Ｐ＊Ｂとして実装され得、ここで、置換行列Ｐは、各行及び列において単一の１を有し、その列位置は、Ｂの対応する要素に対する新しい行指数である。Ｐにおける他の全ての要素はゼロに設定される。

【0081】

この原始関数を実施するため、ストリーミングエンジン１１０は、ＭＭＡ１０４のＢ行列バッファ１４４にロードするため、Ｌ２キャッシュ１０６からＢ行列の各行を提供するように構成される。従って、ストリーミングエンジン１１０からの第１のベクトルがＢ行列の第１の行、行０を含み、ストリーミングエンジン１１０からの第２のベクトルがＢ行列の第２の行を含む等となる。ストリーミングエンジン１０８は、Ａ行列バッファ１３８にロードするために、Ｌ２キャッシュ１０６からＰ行列の各行を提供するように構成される。従って、ストリーミングエンジン１０８からの第１のベクトルがＰ行列の第１の行、行０を含み、ストリーミングエンジンからの第２のベクトルがＡ行列の第２の行を含む等となる。

【0082】

行置換を実施するため、適切に構成されたＬＳＥ命令がＭＭＡ１０４上で実行されて、Ｂ行列をＢ行列バッファ１４４にロードする。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実行されて、Ｐ行列の行をＡ行列バッファ１３８にロードし、行列乗算を実施し、結果をＣ行列バッファ１３４の対応する行にストアする。全ての行列乗算が完了すると、Ｃ行列バッファ１３４のコンテンツをＭＭＡ１０４の外に移動させるためのＬＳＥ命令が実行される。

【0083】

図１３は、図１のシステムにおけるベクトル列置換、ｃ（ｋ，：）＝ａ（ｋ，新しい指数））の実装を図示する例である。ベクトル列置換は、ｃ（ｋ，：）＝ａ（ｋ，：）＊Ｐとして実装され得、ここで、置換行列Ｐは、各行及び列に単一の１を有し、その行位置は、ａの要素に対する新しい列指数である。Ｐにおける他の全ての要素はゼロに設定される。

【0084】

この原始関数を実施するため、ストリーミングエンジン１１０は、ＭＭＡ１０４のＢ行列バッファ１４４にロードするために、Ｌ２キャッシュ１０６からＰ行列の各行を提供するように構成される。従って、ストリーミングエンジン１１０からの第１のベクトルがＰ行列の第１の行、行０を含み、ストリーミングエンジンからの第２のベクトルがＰ行列の第２の行を含む等となる。ストリーミングエンジン１０８は、Ａ行列バッファ１３８にロードするために、Ｌ２キャッシュ１０６からベクトルｃを提供するように構成される。

【0085】

列置換を実施するため、適切に構成されたＬＳＥ命令がＭＭＡ１０４上で実行されて、Ｐ行列をＢ行列バッファ１４４にロードする。Ｂ行列バッファがロードされると、更なるＬＳＥ命令が実行されて、ｃベクトルをＡ行列バッファ１３８にロードし、行列乗算を実施し、結果をＣ行列バッファ１３４の対応する行にストアする。全ての行列乗算が完了すると、Ｃ行列バッファ１３４のコンテンツをＭＭＡ１０４の外に移動させるためにＬＳＥ命令が実行される。

【0086】

デバイス１００はまた、インタリーブされた実数部と虚数部を用い、個別の実数部と虚数部を用いて、バッチ小一次元（１Ｄ）複素数－複素数高速フーリエ変換（ＦＦＴ）を、インタリーブされた実数部と虚数部を用い、個別の実数部と虚数部を用いて、大１Ｄ複素数複素数ＦＦＴを実施するように構成される。下記のＦＦＴの説明において、下付き文字「ｃｏ」は複素数を示し、下付き文字「ｒｅ」は実数を示し、下付き文字「ｉｍ」は虚数を示す。

【0087】

インタリーブされた実数部と虚数部を有する長さＮ≦１６の小複素数－複素数ＦＦＴが、下記のように、総当たり離散フーリエ変換（ＤＦＴ）として計算され得る。

ここで、

である。本明細書に用いられるように、総当たりＤＦＴは、ＤＦＴ行列を用いて入力ベクトルを乗算し、入力のＤＦＴである出力ベクトルを生成することである。

【0088】

Ｎ＝１６の場合、ｘ_ｃｏ ^１６及びｙ_ｃｏ ^１６はインタリーブされた実数及び虚数の値を有する１×３２ベクトルであり、Ｆ_ｃｏ ^１６は３２×３２行列であるので、ｙ_ｃｏ ^１６＝ｘ_ｃｏ ^１６＊Ｆ_ｃｏ ^１６を計算するために、ベクトル行列乗算が用いられ得る。従って、ベクトルｘ_ｃｏ ^１６は、ＭＭＡ１０４のＡ行列バッファ１３８にロードされ得、行列Ｆ_ｃｏ ^１６はＢ行列バッファ１４４にロードされ得、行列積が計算され得、結果がＣ行列バッファ１３４にストアされ得る。より小さいＮ値の場合、図７に関連して本明細書で上述したような小ベクトル行列乗算が、総当たりＤＦＴのバッチを計算するために用いられ得る。

【0089】

個別の実数部と虚数部を備える小複素数－複素数ＦＦＴのバッチが、下記のように総当たり離散フーリエ変換（ＤＦＴ）として計算され得る。

ここで、

であり、ここで、

である。

【0090】

Ｙ_ｒｅ ^Ｍ，３２及びＹ_ｉｍ ^Ｍ，３２計算を下記のように２つの計算に分けることによって、行列行列乗算を用いて、個別の実数部と虚数部を備えるＭ３２ポイント複素数－複素数ＦＦＴのバッチがデバイス１００において計算され得る。

これらの計算を実施するため、ストリーミングエンジン１０８、１１０、及びＭＭＡ１０４は、行列行列乗算に対して構成される。また、入力フォーマッティング１２２は、入力を実数部と虚数部に分けるように構成される。

【0091】

個別の実数部と虚数部を有する一層小さい複素数－複素数ＦＦＴが、本明細書において上述したように、上記の式及びバッチ小行列行列乗算を用いて、バッチのバッチにおいてデバイス１００において計算される。ここで、Ｎ＝Ｋ＝ＦＦＴサイズ≦３２である。

【0092】

大複素数－複素数１ＤＦＦＴが下記のように計算され得る。１）データＸを連続順に行列の行にロードする。２）行列の列のＦＦＴを実施する。３）ＩＦＦＴの場合、ｅ^{ｊ＊（２＊π／Ｎ）＊ｒｏｗ＊ｃｏｌ}、ＦＦＴの場合、ｅ^{－ｊ＊（２＊π／Ｎ）＊ｒｏｗ＊ｃｏｌ}の回転因子によって行列を点状乗算する。４）行列の行のＦＦＴを実施する。５）行列を転置する。６）結果の行列の行を連続順にストアする。

【0093】

この処理は、データ行列Ｘが与えられると、下記のようにデバイス１００において実装される。Ｘの列のＦＦＴを実施するため、行列ＸをＢ行列バッファ１４４にロードし、ＤＦＴ行列ＦをＡ行列バッファ１３８にロードする。その後、本明細書に説明されるように行列行列点状乗算を用いて、回転因子を用いる乗算を実施する。Ｘの行のＦＦＴを実施するため、ＤＦＴ行列ＦをＢ行列バッファ１４４にロードし、行列ＸをＡ行列バッファ１３８にロードする。データ行列ＸをＡ行列バッファ又はＢ行列バッファにロードすることは、転置無しに、列又は行のＦＦＴを可能にする。行列Ｘの最終転置は、ＭＭＡ１０４又は出力フォーマッティング１１６において実施され得る。

【0094】

表７は、個別の実数部と虚数部を有する長さ１０２４の複素数－複素数１ＤＦＦＴの計算を図示する例である。例えば、Ｔ_ｒｅ ^３２＝Ｆ_ｒｅ ^３２及びＴ_ｉｍ ^３２＝Ｆ_ｉｍ ^３２である。また、初期化ロードは例外であるが、明示的に言及される全てのロード演算は、Ｂ行列バッファ１４４に対するものであり、行列乗算と並行して実施される。入力フォーマッティング１２２は、入力を実数部と虚数部とに分けるように構成される。

【表7】

【0095】

また、デバイス１００は、ｙ＝ｄｃｔ（ｘ）に従って、一次元（１Ｄ）離散コサイン変換（ＤＣＴ）を実施するように構成され得る。バッチ小一次元（１Ｄ）離散コサイン変換（ＤＣＴ）及び大１ＤＤＣＴの計算は、ＤＣＴ行列が実数でありデータが実数であること以外、上述した小及び大１Ｄ複素数－複素数ＦＦＴに類似する。ＤＣＴサイズに関連する用語、小及び大は、用語、小及び大ＦＦＴサイズと同様に用いられる。小ＤＣＴは、行列ベクトル乗算を介して実装され得る。大ＤＣＴは、下記のように、事前処理（ステップ１）、ＦＦＴ（ステップ２）、及び事後処理（ステップ３）を介して実装され得る。
ｎ＝０，１，．．．，Ｎ／２－１に対し、x’(n)=x(2*n)及びx’(N-1-n)=x(2*n-1) （ステップ１）
ｙ’＝ＦＦＴ（ｘ’）を計算（ステップ２）
y(n)=real(exp(-j*n*pi/(2*N))*y(n)) （ステップ３）
上記のシーケンスにおけるステップ２を計算するため、上述した小ＦＦＴ及び大ＦＦＴを含み、任意のＦＦＴ方法が用いられ得る。

【0096】

また、デバイス１００は、

に従って、小及び大一次元（１Ｄ）畳み込み／フィルタリングを実施するように構成され得る。１Ｄ畳み込み／フィルタリングは、下記に従って計算され得る。
ｙ（ｎ）＝Σｈ（τ）＊ｘ（ｎ－τ），τ＝０，．．．，Ｌ－１；ｎ＝Ｌ－１，Ｌ，．．．
ここで、Ｌはフィルタ長であり、τは畳み込みの定義に従ったフィルタ係数インデックスである。小畳み込みは、Ｌ＜３２であるものであり、大畳み込みは、Ｌ＞３２であるものである。小１Ｄ畳み込みの場合、フィルタ長Ｌが［１，３２］にあり、ｎ≧Ｌ－１の場合、出力が有効であると仮定する。小１Ｄ畳み込みは、下記に従って計算され得る。
Ｃ（ｔ，：）＝Ａ（ｔ，：）*Ｂ，ｔ＝０，１，．．．
ここで、

Ｂにおいて、全ての行の最後のＬ－１列はゼロであり、Ｃにおいて、最後のＬ－１エントリはゼロであり、変数ｔは、３２－Ｌ出力が生成される回数を指数化するために用いられる。

【0097】

１Ｄ畳み込みを実施するため、ストリーミングエンジン１１０は、フィルタの３３－ＬコピーをＢ行列バッファ１４４に初期的にロードするために、Ｌ２キャッシュ１０６からフィルタｈの要素を提供するように構成される。ｈの複数のコピーがＬ２キャッシュ１０６にストアされるか又は単一のコピーがＬ２キャッシュ１０６にストアされ、入力フォーマッティング１２２を構成することによって複製される。ストリーミングエンジン１０８は、各サイクルで、Ｌ２キャッシュ１０６から３３－Ｌのｘ（ｎ）の新しい値を読み出し、Ａ（ｔ，：）を生成するように構成される。ＭＭＡ１０４は、ベクトル行列乗算のために構成され、各サイクルで、ＭＭＡ１０４は、Ｃ（ｔ，：）におけるｙ（ｎ）の３３－Ｌの値を計算する。

【0098】

デバイス１００において、大１Ｄ畳み込み／フィルタを計算するためのストラテジは、大フィルタを２つの一層小さいフィルタフラグメントに分解することに関する下記の観察に基づく。

ここで、τ＝０，．．．，Ｌ－１、Ｎ＝Ｌ－１，Ｌ，．．．であり、τ_１＝０，．．．，Ｌ_１－１、τ_２＝０，．．．，Ｌ_２－１である。

【0099】

フィルタｈは、フィルタフラグメントが可能な限り最適なサイズになるまで、上記の分解の反復的適用を用いて一層小さいフラグメントに分解される。即ち、ＭＭＡ１０４のスループットの最大化とフィルタの総数の最小化とのトレードオフとして、フィルタサイズが選択される。図１４のグラフは、フィルタフラグメントのサイズとＭＭＡ１０４のスループットとの間のトレードオフを図示する。このグラフが示すように、ＭＭＡ１０４のための最適なフィルタフラグメントサイズは、バッファ１３８、１４４の幅の約二分の一であり、即ち、ＭＭＡ１０４の計算原始関数サイズの幅の約二分の一である。幾つかの例において、一層小さいフィルタフラグメントのサイズを選択するための分解はオフラインで実施される。幾つかの例において、分解は、プロセッサ１０２によって実施される。入力の適切にシフトされたバージョンは、上記の式に従って、対応するフィルタフラグメントを用いてフィルタされ、結果が加算される。フィルタリングは、上述したように、ベクトル行列乗算を用いて実装される。

【0100】

また、デバイス１００は、ｙ＝ｈ★ｘに従って、１Ｄ相関を実施するように構成され得る。相関は、時間反転順に、フィルタ係数を用いる畳み込みと同じである。従って、１Ｄ相関は、上述したように、小又は大１Ｄ畳み込みを用いて実装され得、入力フォーマッティング１２２は、ｈ又はｘのいずれかにおいて時間反転を実施するように構成される。

【0101】

また、デバイス１００は、Ｃ＝Ａ又はＣ＝Ｂに従って、行列アサイメントを実装するように構成され得る。従って、アサイメントは、Ｃ＝Ａ＊Ｉ又はＣ＝Ｉ＊Ｂとして、ＭＭＡ１０４において実施され得る。ここで、Ｉは単位行列である。

【0102】

また、デバイス１００は、行列転置Ｂ^Ｔを実装するように構成され得る。行列の転置は、新しい行列であり、そこでは、列が、元の行列の行である。転置演算を実施するため、ＭＭＡ１０４は、Ａ行列バッファ１３８における要素がＢ行列バッファ１４４の指定された列にコピーされるべきであることを特定する演算モード、即ち、コピー演算を含む。

【0103】

行列の転置を実施するため、ストリーミングエンジン１０８は、Ｌ２キャッシュ１０６から行列の行の要素を読み出すように、及びＢ行列バッファ１４４にロードするために行列の各行を提供するように構成される。従って、ストリーミングエンジン１０８からの第１のベクトルが行列の第１の行、行０を含み、ストリーミングエンジンからの第２のベクトルが行列の第２の行を含む等となる。その後、バッファ１２４から行列の行をロードし、要素をＢ行列バッファ１４４の連続する列にストアする、適切に構成されたＬＳＥ命令が実行される。行列の全ての行が転置されると、適切に構成されたＬＳＥ命令が実行されて、Ｂ行列バッファのコンテンツを、Ｃ行列バッファ１３４に移動し、ＭＭＡ１０４の外に出す。

【0104】

その他の例
本明細書において、プロセッサがＤＳＰであり、基本計算原始関数を実施するようにデバイス１００を構成する制御ソフトウェアを実行し、原始関数の実行を制御する例が説明されてきた。他の例において、デバイス１００に結合されるホストプロセッサが、基本計算原始関数を実行するために必要な制御演算の幾つか又は全てを実施する。プロセッサは、任意の適切なタイプの電子データプロセッサ及び電子データプロセッサの組み合わせであり得る。例えば、プロセッサは、インテル社製又はアドバンストマイクロデバイス社製の一つ又は複数のプロセッサ、一つ又は複数の縮小命令セットコンピュータ（ＲＩＳＣ）、一つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、一つ又は複数のデジタル信号プロセッサ（ＤＳＰ）等であり得る。

【0105】

ＭＭＡのバッファの次元が１×３２又は３２×３２である例が本明細書に説明されてきた。他の例において、ＭＭＡのバッファの次元は、これより小さくても大きくてもよい。

【0106】

特許請求の範囲内で、説明した実施形態における変更が可能であり、他の実施形態が可能である。

【図1】