2024-510624 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-510624行列乗算演算のための行列の近似のためのデータ圧縮器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-08

(54)【発明の名称】行列乗算演算のための行列の近似のためのデータ圧縮器

(51)【国際特許分類】

G06F 17/16 20060101AFI20240301BHJP

【ＦＩ】

G06F17/16 M

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023556919

(86)(22)【出願日】2022-03-11

(85)【翻訳文提出日】2023-10-02

(86)【国際出願番号】 US2022020071

(87)【国際公開番号】W WO2022203884

(87)【国際公開日】2022-09-29

(31)【優先権主張番号】17/214,779

(32)【優先日】2021-03-26

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】スワプニールピー．サカルシート

(72)【発明者】

【氏名】ピラモドバサントアーゲイド

(72)【発明者】

【氏名】マキシムヴィー．カザコフ

(72)【発明者】

【氏名】アレクサンダーエム．ポタポフ

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB26

5B056BB71

5B056BB82

5B056CC01

5B056FF01

5B056FF02

(57)【要約】

データを記憶するように構成されたメモリとプロセッサとを備える処理デバイスが提供される。プロセッサは、第１の行列の要素と第２の行列の要素との行列乗算を実行するように構成された複数のＭＡＣを備える。また、プロセッサは、第１の行列及び第２の行列の要素の積指数値のビットの値を合計し、行列乗算のために維持される積指数値のための維持ビット値を決定するように構成された複数の論理デバイスを備える。また、プロセッサは、複数のマルチプレクサアレイを備え、各マルチプレクサアレイは、第１の行列及び第２の行列の要素のビットと維持ビット値とを受信し、第１の行列及び第２の行列の何れの要素が行列乗算のためにＭＡＣに提供されるかを選択するためのデータを提供するように構成されている。
【選択図】図３

【特許請求の範囲】

【請求項1】

処理デバイスであって、
データを記憶するように構成されたメモリと、
プロセッサと、を備え、
前記プロセッサは、
第１の行列の要素と第２の行列の要素との行列乗算を実行するように構成された複数の乗算器アキュムレータ（ＭＡＣ）と、
前記第１の行列及び前記第２の行列の要素の積指数値のビットの値を合計し、行列乗算のために維持される積指数値のための維持ビット値を決定するように構成された複数の論理デバイスと、
複数のマルチプレクサアレイと、を備え、
前記複数のマルチプレクサアレイの各々は、
前記第１の行列及び前記第２の行列の要素のビットと前記維持ビット値とを受信することと、
前記第１の行列及び前記第２の行列の何れの要素が行列乗算のために前記ＭＡＣに提供されるかを選択するためのデータを提供することと、
を行うように構成されている、
処理デバイス。

【請求項2】

前記複数の論理デバイスは、前記積指数値の対応する重要度のビットの値を合計するように構成されている、
請求項１の処理デバイス。

【請求項3】

前記複数の論理デバイスは、前記積指数値の最上位ビットを合計することから開始し、前記合計の各々を、行列乗算のために維持され前記ＭＡＣに提供される前記第１の行列及び前記第２の行列の要素の目標数と比較することによって、前記ビットの値を合計するように構成されている、
請求項２の処理デバイス。

【請求項4】

前記第１の行列及び前記第２の行列の要素の目標数が行列乗算のために維持されるように決定され、
前記複数の論理デバイスは、前記積指数値の残りのビットがゼロである場合に、維持される前記第１の行列及び前記第２の行列の要素の目標数のうち何れかを決定するように構成されている、
請求項２の処理デバイス。

【請求項5】

前記複数のマルチプレクサアレイの各々は、
マルチプレクサの第１のアレイであって、各マルチプレクサは、
前記第１の行列及び前記第２の行列のうち何れかの２つの要素と、
前記２つの要素のうち何れを出力するかを選択するための選択値と、
を受信するように構成されている、マルチプレクサの第１のアレイと、
マルチプレクサの第２のアレイであって、各マルチプレクサは、
前記第１の行列及び前記第２の行列のうち何れかの前記２つの要素とは異なる残りの要素と、
前記第１のアレイ内の何れかのマルチプレクサから出力される要素と前記残りの要素とのうち何れを出力するかを選択するための何れかの前記維持ビット値と、
を受信するように構成されている、マルチプレクサの第２のアレイと、を備える、
請求項１の処理デバイス。

【請求項6】

前記マルチプレクサアレイの数は、前記第１の行列及び前記第２の行列の要素の値を表すビットの数に基づいている、
請求項１の処理デバイス。

【請求項7】

前記マルチプレクサアレイは、前記第１の行列の要素を受信するように構成された第１の組のアレイと、前記第２の行列の要素を受信するように構成された第２の組のアレイと、を備える、
請求項１の処理デバイス。

【請求項8】

表示デバイスを更に備え、
前記行列乗算から生成された情報は、前記表示デバイスに表示される、
請求項１の処理デバイス。

【請求項9】

処理デバイスであって、
データを記憶するように構成されたメモリと、
互いに通信する複数のプロセッサコアと、を備え
前記複数のプロセッサコアの各々は、
第１の行列の要素と第２の行列の要素との行列乗算を実行するように構成された複数の乗算器アキュムレータ（ＭＡＣ）と、
前記第１の行列及び前記第２の行列の要素の積指数値のビットの値を合計し、行列乗算のために維持される積指数値のための維持ビット値を決定するように構成された複数の論理デバイスと、
複数のマルチプレクサアレイと、を備え、
前記複数のマルチプレクサアレイの各々は、
前記第１の行列及び前記第２の行列の要素のビットと前記維持ビット値とを受信することと、
前記第１の行列及び前記第２の行列の何れの要素が行列乗算のために前記ＭＡＣに提供されるかを選択するためのデータを提供することと、
を行うように構成されている、
処理デバイス。

【請求項10】

前記複数の論理デバイスは、前記積指数値の対応する重要度のビットの値を合計するように構成されている、
請求項９の処理デバイス。

【請求項11】

前記複数の論理デバイスは、前記積指数値の最上位ビットを合計することから開始し、前記合計の各々を、行列乗算のために維持され前記ＭＡＣに提供される前記第１の行列及び前記第２の行列の要素の目標数と比較することによって、前記ビットの値を合計するように構成されている、
請求項１０の処理デバイス。

【請求項12】

前記第１の行列及び前記第２の行列の要素の目標数が行列乗算のために維持されるように決定され、
前記複数の論理デバイスは、前記積指数値の残りのビットがゼロである場合に、維持される前記第１の行列及び前記第２の行列の要素の目標数のうち何れかを決定するように構成されている、
請求項１０の処理デバイス。

【請求項13】

【請求項14】

前記マルチプレクサアレイの数は、前記第１の行列及び前記第２の行列の要素の値を表すビットの数に基づいている、
請求項９の処理デバイス。

【請求項15】

前記マルチプレクサアレイは、前記第１の行列の要素に対する前記積指数値を受信するように構成された第１の組のアレイと、前記第２の行列の要素に対する前記積指数値を受信するように構成された第２の組のアレイと、を備える、
請求項９の処理デバイス。

【請求項16】

行列乗算とともに使用するための処理デバイスであって、
第１の行列の要素と第２の行列の要素との行列乗算を実行するように構成された複数の乗算器アキュムレータ（ＭＡＣ）と、
前記第１の行列及び前記第２の行列の要素の積指数値のビットの値を合計し、行列乗算のために維持される積指数値のための維持ビット値を決定するように構成された複数の論理デバイスと、
複数のマルチプレクサアレイと、を備え、
前記複数のマルチプレクサアレイの各々は、
前記第１の行列及び前記第２の行列の要素のビットと前記維持ビット値とを受信することと、
前記第１の行列及び前記第２の行列の何れの要素が行列乗算のために前記ＭＡＣに提供されるかを選択するためのデータを提供することと、
を行うように構成されている、
処理デバイス。

【請求項17】

前記複数の論理デバイスは、前記積指数値の対応する重要度のビットの値を合計するように構成されている、
請求項１６の処理デバイス。

【請求項18】

前記複数の論理デバイスは、前記積指数値の最上位ビットを合計することから開始し、前記合計の各々を、行列乗算のために維持され前記ＭＡＣに提供される前記第１の行列及び前記第２の行列の要素の目標数と比較することによって、前記ビットの値を合計するように構成されている、
請求項１７の処理デバイス。

【請求項19】

前記第１の行列及び前記第２の行列の要素の目標数が行列乗算のために維持されるように決定され、
前記複数の論理デバイスは、前記積指数値の残りのビットがゼロである場合に、維持される前記第１の行列及び前記第２の行列の要素の目標数のうち何れかを決定するように構成されている、
請求項１７の処理デバイス。

【請求項20】

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０２１年３月２６日に出願された「ＤＡＴＡＣＯＭＰＲＥＳＳＯＲＦＯＲＡＰＰＲＯＸＩＭＡＴＩＯＮＯＦＭＡＴＲＩＣＥＳＦＯＲＭＡＴＲＩＸＭＵＬＴＩＰＬＹＯＰＥＲＡＴＩＯＮＳ」と題する係属中の米国特許出願第１７／２１４，７７９号の利益を主張し、その全体が参照により本明細書に組み込まれる。本願は、２０２１年３月２６日に出願された「ＡＰＰＲＯＸＩＭＡＴＩＯＮＯＦＭＡＴＲＩＣＥＳＦＯＲＭＡＴＲＩＸＭＵＬＴＩＰＬＹＯＰＥＲＡＴＩＯＮＳ」と題する特許出願第１７／２１４，７８４号に関連しており、この出願は、完全に記載されているかのように参照により本明細書に組み込まれる。

【背景技術】

【0002】

行列乗算は、高性能コンピューティング（ＨＰＣ）及び機械学習における使用を含む、いくつかのアプリケーション領域にわたる重要な構成要素である。また、行列乗算は、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、及び、他の形態の人工ニューラルネットワークにおいて使用される。

【0003】

行列乗算技術は、行列乗算の効率を高めるために並列化を採用する。例えば、２つの行列は、典型的には、より小さい部分（例えば、列、行、並びに、列及び行の一部）に分割され、２つの行列の行列乗算演算は、各々が１つの行列の一部と別の行列の一部との乗算を含む複数の行列乗算計算を実行することによって行われる。行列乗算計算は、行列乗算演算を実行するために、プロセッサネットワークの異なるプロセッサコアにマッピングされ、異なるプロセッサコアによって実行される。

【0004】

添付の図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

【図面の簡単な説明】

【0005】

【図1】本開示の１つ以上の特徴が実装され得る例示的なデバイスのブロック図である。

【図2】本開示の１つ以上の特徴を実装することができるプロセッサの例示的な構成要素を示すブロック図である。

【図3】本開示の１つ以上の特徴を実装するための、図２に示されるデータ圧縮器及びＭＡＣの例示的な構成要素を示す図である。

【図4】本開示の特徴に従って行列乗算のためのデータを選択する例示的な方法を示すフロー図である。

【図5A】本開示の特徴による近似された積指数値のアレイの第１の例を示す図である。

【図5B】本開示の特徴による近似された積指数値のアレイの第２の例を示す図である。

【図5C】本開示の特徴による近似された積指数値のアレイの第３の例を示す図である。

【図5D】本開示の特徴による近似された積指数値のアレイの第４の例を示す図である。

【図6】本開示の特徴による、２つの行列Ａ及びＢと出力行列Ｃとの部分行列乗算の一例を示す図である。

【発明を実施するための形態】

【0006】

本明細書で使用される場合、プログラムは、プロシージャ又はルーチン（例えば、演算、計算、機能、プロセス、ジョブ）を実行するために１つ以上のプロセッサを使用して実行される命令のシーケンスを含む。プログラムされた命令及びデータの処理は、これらに限定されないが、プログラムされた命令及びデータのフェッチ、復号、実行のためのスケジューリング、実行及び復号等の複数の処理段階のうち１つ以上を含む。プログラムされた命令は、例えば、オペレーティングシステム等のアプリケーション及び制御プログラムを含む。プロセッサは、例えば、複数の処理コア（例えば、計算ユニット（ＣＵ））を含み、それらの各々は、行列乗算を実行する命令等のプログラム命令を読み出して実行するように構成される。

【0007】

行列乗算は、第１の行列及び第２の行列のデータのサブ部分のドット積を計算することを含む。行列乗算演算は、計算Ｃ＝Ａ×Ｂを含み、式中、Ａ、Ｂ、Ｃは、それぞれサイズＭ×Ｋ、Ｋ×Ｎ及びＭ×Ｎの行列である。行列Ｃ内の各要素は、行列Ａの行と行列Ｂの列とのドット積である。例えば、乗算累算演算は、各値が行列の一部分（例えば、行、列、行若しくは列の一部、又は、複数の行若しくは列）の要素に対応する、値の対の積を計算し、乗算器アキュムレータ（ＭＡＣ）として知られるハードウェア構成要素を使用して、その積をアキュムレータに加算する。例えば、６４×６４の積は、４つの１６×１６のＭＡＣ又は８個の８×８のＭＡＣとして実装することができる。行列乗算は、通常、多くの計算を必要とし、これは時間がかかり、高価である。

【0008】

本願は、行列乗算の近似を効率的に実行するためのデバイス及び方法を提供する。本開示の特徴は、入力行列の行列乗算のドット積計算のために使用される積から、２つの行列の共通次元Ｋに沿って、いくつかの積（すなわち、２つの入力行列の要素の対の積）をドロップすることによって、出力行列を動的に決定するように構成されたデータ圧縮ハードウェアを含む。ドロップされた積は、ドット積計算に使用される積の中で最小の指数合計を有するものとして近似された積である。

【0009】

データ圧縮ハードウェアは、維持論理及びマルチプレクサアレイのセットを含む。維持論理は、近似された積指数値に基づいて維持ビット値を決定し、２つの行列のデータ要素のアレイの中で何れの要素が維持され（すなわち、ドロップされない）、行列乗算のためにＭＡＣに提供されるかを決定するために、マルチプレクサアレイのセットに維持ビット値を提供するように構成されている。維持論理は、積指数値の最上位ビット（ＭＳＢ）を合計することから開始し、対応する次の上位ビットの各セットを通して継続して、近似された積指数値の各々について同じ重要度のビット値を合計し、合計を目標数（例えば、６）と比較することによって、各行列の要素値のアレイの中から、維持される要素値の目標数を決定する。本開示の特徴は、入力アレイの要素をそれらの値に従って最初にソートすることなく、積の数を低減することであり、そうでなければ、ハードウェアで実装するのに費用がかかる。

【0010】

例えば、６４×６４の積は、６４×６４の積値の中で最大の近似された４８個の積値を維持する（すなわち、最小の１６個の近似値をドロップする）ことによって、４８×４８の積に減らされる。例として、６４×６４の積が１６×１６のＭＡＣとして実装される場合、４つの１６×１６のＭＡＣが３つの１６×１６のＭＡＣに削減され、その結果、タスクを実行するための時間が２５％削減され、タスクを実行するためのエネルギーコストが削減される。同様に、６４×６４の積が８×８のＭＡＣとして実装される場合、８個の８×８のＭＡＣが６個の８×８のＭＡＣに削減され、これも２５％の削減時間をもたらす。行列乗算を実行するために維持され、ＭＡＣに提供される要素値の目標数、又は、積値からドロップされる積値（すなわち、ドロップされた積値）の目標数は、任意の数であってもよく、特定のタスク又はアプリケーションのための近似によって許容され得る結果誤差の量等のように、ランタイム中の様々な要因に基づいて決定される。例えば、機械学習訓練のために使用される場合、ドロップされると決定される積の目標数は、結果として生じるネットワークの精度に近似が及ぼす影響に基づく。また、ドロップされる積値の目標数は、共通次元Ｋのサイズに基づいて決定され得る。例えば、ヒューリスティックに基づいて、Ｋのより大きい値に対して追加の積値がドロップされ、Ｋのより低い値に対して追加の積値が維持されＭＡＣに提供され得る。

【0011】

本開示の特徴は、ｆｌｏａｔデータタイプ（例えば、ＦＰ３２、ＦＰ１６及びＢＦ１６フォーマット）及び整数データタイプ（例えば、ｉｎｔ８フォーマット）等の様々な異なるデータタイプに対して行列乗算を実行することを含む。

【0012】

【0013】

データを記憶するように構成されたメモリと、互いに通信する複数のプロセッサコアと、を備える処理デバイスが提供される。各プロセッサコアは、第１の行列の要素と第２の行列の要素との行列乗算を実行するように構成された複数のＭＡＣと、第１の行列及び第２の行列の要素の近似された積指数のビットの値を合計し、維持ビット値を生成するように構成された複数の論理デバイスと、複数のマルチプレクサアレイであって、各々が、積指数及び維持ビット値を受信し、積指数のうちのどれが行列乗算のためにＭＡＣに提供されるかを選択するためのデータを提供するように構成された、複数のマルチプレクサアレイと、を備える。

【0014】

第１の行列の要素と第２の行列の要素との行列乗算を実行するように構成された複数のＭＡＣを備える行列乗算に使用される処理デバイスが提供される。また、処理デバイスは、第１の行列及び第２の行列の要素の積指数値のビットの値を合計し、行列乗算のために維持される積指数値のための維持ビット値を決定するように構成された複数の論理デバイスを備える。処理デバイスは、複数のマルチプレクサアレイを更に備え、各々は、積指数値のビット及び維持ビット値を受信し、行列乗算のために積指数のうち何れがＭＡＣに提供されるかを選択するためのデータを提供するように構成されている。

【0015】

図１は、本開示の１つ以上の特徴が実装され得る例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話又はタブレットコンピュータを含む。デバイス１００は、プロセッサ１０２、メモリ１０４、記憶装置１０６、１つ以上の入力デバイス１０８、及び、１つ以上の出力デバイス１１０を含む。また、デバイス１００は、オプションで、入力ドライバ１１２及び出力ドライバ１１４を含む。デバイス１００は、図１に示されていない追加の構成要素を含み得ることを理解されたい。

【0016】

様々な代替例では、プロセッサ１０２は、中央処理ユニット（central processing unit、ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、同じダイ上に位置するＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコア等の任意の高速処理デバイスを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵとすることができる。様々な代替例では、メモリ１０４は、プロセッサ１０２と同じダイ上に位置するか、又は、プロセッサ１０２とは別に位置する。メモリ１０４は、揮発性又は不揮発性メモリ（例えば、ダイナミックＲＡＭ（ＤＲＡＭ）及びスタティックＲＡＭ（ＳＲＡＭ）を含むランダムアクセスメモリ（random access memory、ＲＡＭ））を含む。ＲＡＭは、例えば、キャッシュメモリ、スクラッチパッドメモリ及びレジスタを含む。

【0017】

記憶装置１０６は、固定又はリムーバブル記憶装置（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体認証スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２シグナルの送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。出力デバイス１１０は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上の光、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２シグナルの送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。

【0018】

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信できるようにする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信できるようにする。入力ドライバ１１２及び出力ドライバ１１４は、オプションの構成要素であること、並びに、デバイス１００は、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合に、同じ方式で動作することに留意されたい。

【0019】

本開示の特徴は、プロセッサコアの一例としてＣＵを使用して本明細書で説明される。ＣＵは、ＳＩＭＤパラダイムに従って並列方式でプロセッサ１０２の要求時に演算を実行するように構成された１つ以上の単一命令複数データ（ＳＩＭＤ）ユニットを含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。一例では、各ＳＩＭＤユニットは、１６個のレーンを含み、各レーンは、ＳＩＭＤユニット内の他のレーンと同時に同じ命令を実行するが、その命令を異なるデータで実行することができる。レーンは、全てのレーンが所定の命令を実行する必要がない場合、予測でオフに切り替えることができる。また、予測は、分岐制御フローを有するプログラムを実行するために使用することができる。より具体的には、制御フローが個々のレーンによって行われる計算に基づいている条件付き枝又は他の命令を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測及び異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。ＣＵによって与えられる並列性は、例えば、ピクセル値計算、頂点変換及び他のグラフィックス演算等のグラフィックス関連演算において使用される行列乗算等の行列乗算に適している。

【0020】

図２は、本開示の１つ以上の特徴を実施することができる、図１に示すプロセッサ１０２の一例を示すブロック図である。図２に示すように、プロセッサ１０２は、複数のＣＵ２０２を含む。各ＣＵ２０２は、対応するレベルＮキャッシュ２０４と通信し、対応するレベルＮキャッシュ２０４を使用してデータを処理するように構成されたレベルＮ（例えば、レベル１）キャッシュコントローラ２０８を含む。代替的に、複数のレベルＮキャッシュコントローラ２０８（例えば、各ＣＵ２０２のためのキャッシュコントローラ２０８、各々がＣＵ２０２のグループと通信する複数のキャッシュコントローラ２０８）が、データを処理するために使用される。

【0021】

図２に示すように、プロセッサ１０２は、レベルＮ＋１キャッシュ２０６と通信するレベルＮ＋１（例えば、レベル２）キャッシュコントローラ２１０を含み、レベルＮ＋１キャッシュ２０６を使用してデータを処理するように構成されている。あるいは、１つ以上の対応するレベルＮ＋１キャッシュと通信する複数のレベルＮ＋１キャッシュコントローラが、データを処理するために使用される。図２に示されるように、キャッシュコントローラ２１０は、次のキャッシュレベル（例えば、レベル３）及び各レベルＮキャッシュコントローラ２０８とも通信する。加えて又は代わりに、各ＣＵ２０２は、レジスタ及びスクラッチパッドメモリ等の異なるタイプのメモリ１０４と通信する。

【0022】

図２に示されるように、各ＣＵ２０２は、ＭＡＣ２１２と、ＭＡＣ２１２と通信するデータ圧縮器２１４と、を含む。ＭＡＣ２１２は、行列の部分の要素対の積（例えば、近似積指数値）を計算し、行列乗算演算を実行するために積を累積する（例えば、記憶する）ように構成されている。

【0023】

例えば、２つの行列は、典型的には、より小さい部分（例えば、列、行、並びに、列及び行の一部）に分割され、２つの行列の行列乗算演算は、各々が１つの行列の一部と別の行列の一部との乗算を含む複数の行列乗算計算を実行することによって行われる。行列乗算計算は、行列乗算演算を実行するために、異なるプロセッサコア（例えば、ＣＵ２０２）にマッピングされ、異なるプロセッサコアによって実行される。

【0024】

２つの行列Ａ及びＢと出力行列Ｃとの部分行列乗算の一例が図６に示されている。行列乗算演算は、計算Ｃ＝Ａ×Ｂを含み、式中、Ａ、Ｂ、Ｃは、それぞれサイズＭ×Ｋ、Ｋ×Ｎ、Ｍ×Ｎの行列である。行列Ｃの各要素は、行列Ａの行と行列Ｂの列とのドット積である。行列Ａ及び行列Ｂは、図６の上部に示されている。例えば、行列Ａ及びＢの行列乗算の一部は、本開示の特徴によれば、行列Ｂの要素アレイ６０２の４つの要素６０２（１）～６０２（４）と、行列Ｂのアレイ６０４の４つの対応する要素６０４（１）～６０４（４）との積値を近似して、行列Ｃの部分１（Ｐ１）における結果を生成することによって実行される。

【0025】

図６では、行列Ａと行列Ｂのサイズが異なるが、一方の行列の列数と他方の行列の行数とが同じであれば、行列同士の行列乗算演算を行うことができる。図６に示す例では、行列Ａは８個の列を含み、行列Ｂは８個の行を含む。行列Ａ及びＢにおける列及び行の数は、単なる例である。行列乗算は、本開示の特徴に従って、行列乗算のための一般規則を満たす任意のサイズの行列に対して実行される（例えば、行列Ａにおける列の数は、行列Ｂにおける行の数に等しい）。

【0026】

図３に関して以下でより詳細に説明するように、データ圧縮器２１４は、入力行列の行列乗算のドット積計算のために使用される積から、２つの行列の共通次元Ｋに沿って、いくつかの積（すなわち、２つの入力行列の要素の対の積）をドロップすることによって、出力行列Ｃを動的に決定するように構成されたハードウェア回路を含む。ドロップされた積は、ドット積計算に使用される積の中で最小の指数合計を有するものとして近似された積である。

【0027】

図３は、本開示の１つ以上の特徴を実装するための、図２に示されるデータ圧縮器２１４及びＭＡＣ２１２の例示的な構成要素を示す図である。図３に示すように、データ圧縮器２１４は、各々が６個のマルチプレクサを有するマルチプレクサアレイ３００の維持論理３０６セットを含む。図３に示されるマルチプレクサの数は、８個のデータ要素のアレイから６個の要素を選択するための例として使用される。本開示の特徴は、行列の部分のサイズ及び行列乗算のために維持されるターゲット積の数に応じて、異なる数のマルチプレクサを含むことができる。

【0028】

維持論理３０６は、近似された積値に対して異なる計算を実行するように構成された、例えば、固定関数論理デバイス、算術回路、シーケンシャル論理デバイス（例えば、フリップフロップ、カウンタ及びレジスタ）及びプログラマブル論理デバイス等の論理回路を含む。維持論理３０６は、マルチプレクサアレイ３００のセットに供給される維持信号を生成し、８個のデータ要素のアレイから何れの６個の要素が維持され、行列乗算のためにＭＡＣ２１２に供給されるかを決定する。例えば、以下でより詳細に説明するように、維持論理３０６は、積指数値の最上位ビットから開始して、積指数の対応する重要度のビットの値を合計し、積指数値の目標数が決定されるまで、合計の各々を積指数値の目標数（例えば、６）と比較するために使用される。

【0029】

図３に示されるマルチプレクサアレイ３００の各セットは、行列Ａの対応する８個の要素値（すなわち、Ａ０～Ａ７）の各々について同じ重要度のビットを受信するように構成され、維持論理３０６によって決定される維持信号（Ｋ０～Ｋ７）を受信するように構成される。マルチプレクサアレイ３００によって提供される出力値（例えば、Ａ’０、Ａ’１、Ａ’２、Ａ’３、Ａ’４及びＡ’５）は、行列乗算のためにＭＡＣ２１２に提供されるように選択される８個の要素のうち６個に対応する。維持されるように選択された６個の要素は、第２の行列Ｂからの６個の対応する要素と乗算された場合に、８個の積値のうち６個の最大積値を生成するように決定される要素である。

【0030】

積値は、オペランドＡ及びＢの指数の合計に累乗された２によって近似される。しかしながら、ＭＡＣユニット２１２が正確な乗算を行う場合、仮数値も乗算され、値が丸められる。結果として、Ａ及びＢのドロップされた値の正確な積のうち１つ以上は、維持された値よりも大きい可能性があり、これは、機械学習等のアプリケーションの場合、ネットワークの精度の小さいが許容可能な低下をもたらす可能性がある。加えて、精度のわずかな低下の可能性は、行列乗算演算を実行する時間の短縮（例えば、上記のような時間の２５％の短縮）が重要である。

【0031】

図３に示すように、Ｎ個のアレイを使用して、行列Ａの８個の要素値（Ａ０～Ａ７）のそれぞれについて同じ重要度のビットを受信し、ここでＮは各要素値のビット数である。例えば、行列Ａの要素値の各々が４ビットを含む場合、４組のマルチプレクサアレイ３００が行列Ａに使用される。マルチプレクサアレイ３００の各組は、要素の重要度の対応するビットと、維持論理３０６からの維持信号と、を並列に受信する。すなわち、マルチプレクサアレイの第１のセットは、行列Ａの８個の要素値の最上位ビット（すなわち、第１のビット）を受け取り、マルチプレクサアレイの第２のセット３００は、行列Ａの８個の要素値の次に最上位のビット（すなわち、第２のビット）を受け取り、マルチプレクサアレイの第３のセット３００は、行列Ａの８個の要素値の第３のビットを受け取り、マルチプレクサアレイの第４のセット３００は、行列Ａの８個の要素値の最下位ビットを受け取る。

【0032】

加えて、データ圧縮器２１４は、維持論理３０６から要素値及び維持信号の重要度の対応するビットを並列に受信するように構成されたマルチプレクサアレイ３００の組も含む。したがって、要素値（Ｂ０～Ｂ７）の各々が４ビットを含む例では、４組のマルチプレクサアレイ３００も行列Ｂに使用される。行列Ｂに使用されるマルチプレクサアレイ３００の組のアーキテクチャ及び行列Ｂに使用されるマルチプレクサアレイ３００の組の機能は、行列Ａに関して図示及び説明されたマルチプレクサアレイ３００の組と同じである（行列Ｂに使用されるマルチプレクサアレイ３００がビットを受信し、行列Ｂに関連付けられた信号を維持することを除く）。したがって、行列Ｂに使用されるマルチプレクサアレイの組の詳細な説明及び図示は、不要であるので省略する。

【0033】

図３に示されるように、マルチプレクサアレイ３００の各組は、マルチプレクサ３０２の第１のアレイ及びマルチプレクサ３０４の第２のアレイを含む。マルチプレクサの第１のアレイ３０２は、６個のマルチプレクサ３０２（１）、３０２（２）、３０２（３）、３０２（４）、３０２（５）、３０２（６）を含む。マルチプレクサの第２のアレイ３０４は、６個のマルチプレクサ３０４（１）、３０４（２）、３０４（３）、３０４（４）、３０４（５）、３０４（６）を含む。図３に示される第１及び第２のアレイ３０２及び３０４内のマルチプレクサの数は、行列の８個の入力要素が６個に削減される場合の例として使用されるに過ぎない。本開示の特徴は、任意の数のマルチプレクサを有するマルチプレクサアレイを使用して実装され得る。

【0034】

図３に示されるように、マルチプレクサアレイ３００の第１のセットの第１のアレイ３０２内の各マルチプレクサ３０２（１）～３０２（６）は、行列Ａの第７の要素値（Ａ６）からビット値を受け取り、行列Ａの第８の要素値（Ａ７）からビット値を受け取る。第１のアレイ３０２内の各マルチプレクサ３０２（１）～３０２（６）は、対応するＵ値（すなわち、Ｕ０、Ｕ１、Ｕ２、Ｕ３、Ｕ４、Ｕ５）を受信し、ここで、Ｕ０＝Ｋ６（要素値Ａ６の維持信号値）、Ｕ１＝Ｋ０＆＆Ｕ０（すなわち、Ｋ０及びＫ６が両方とも１である場合のＵ１＝１の値）、Ｕ２＝Ｋ１＆＆Ｋ０＆＆Ｕ０、Ｕ３＝Ｋ２＆＆Ｋ１＆＆Ｋ０＆＆Ｕ０、Ｕ４＝Ｋ３＆＆Ｋ２＆＆Ｋ１＆＆Ｋ０＆＆Ｕ０、及びＵ５＝Ｋ４＆＆Ｋ３＆＆Ｋ２＆＆Ｋ１＆＆Ｋ０＆＆Ｕ０である。

【0035】

第２のアレイ３０４内の各マルチプレクサ３０４（１）～３０４（６）は、行列Ａ（Ａ０～Ａ５）の対応する要素値からのビット値、及び、対応する維持ビット値（すなわち、Ｋ０～Ｋ５）を受信する。マルチプレクサアレイ３０２及び３０４の機能の例は、図４のブロック４１２～４２０に関して以下で説明される。

【0036】

図４は、本開示の特徴に従って行列乗算のためのデータを選択する例示的な方法４００を示すフロー図である。上述したように、２つの行列は、典型的には、より小さい部分（例えば、列、行、並びに、列及び行の一部）に分割され、２つの行列の行列乗算演算は、各々が１つの行列の一部と別の行列の一部との乗算を含む複数の行列乗算計算を実行することによって行われる。

【0037】

２つの行列Ａ及びＢと出力行列Ｃとの部分行列乗算の一例が図６に示されている。行列乗算演算は、計算Ｃ＝Ａ×Ｂを含み、式中、Ａ、Ｂ、Ｃは、それぞれサイズＭ×Ｋ、Ｋ×Ｎ、Ｍ×Ｎの行列である。行列Ｃの各要素は、行列Ａの行と行列Ｂの列とのドット積である。行列Ａ及び行列Ｂは、図６の上部に示されている。例えば、行列Ａ及びＢの行列乗算の一部は、本開示の特徴によれば、行列Ｂの要素アレイ６０２の４つの要素６０２（１）～６０２（４）と、行列Ｂのアレイ６０４の４つの対応する要素６０４（１）～６０４（４）と、の積値を近似して、行列Ｃの部分１（Ｐ１）における結果を生成することによって実行される。

【0038】

【0039】

再び図４を参照すると、ブロック４０２及び４０４に示されるように、方法５００は、第１の行列Ａのデータの一部（データＡ［８］）及び第２の行列Ｂのデータの一部（データＢ［８］）を（例えば、ＣＵ２０２のデータ圧縮器２１４によって）受信することを含む。図４に示される例では、データの各部分は８個の要素（すなわち、値）を含む。すなわち、行列Ａの８要素のデータは、図４においてＤａｔａＡ［８］として表され、行列Ｂの８要素のデータは、図４においてＤａｔａＢ［８］として表される。ただし、図４に示す要素の数は一例に過ぎない。データの部分は、行列乗算を実行するためにＭＡＣ２１２に提供される任意の数の要素を含むことができる。

【0040】

第１の行列及び第２の行列のデータの部分は、例えば、整数データタイプ（例えば、ｉｎｔ８フォーマット）及びｆｌｏａｔデータタイプ（例えば、ＢＦ１６フォーマット）等、複数のデータタイプのうち何れか１つであり得る。各要素を表すビット数は、使用されるｆｌｏａｔフォーマット（例えば、ＦＰ３２、ＦＰ１６、ＢＦ１６）及び整数フォーマット（例えば、ｉｎｔ８、ｉｎｔ１６、ｉｎｔ３２）に依存する。例えば、ｆｌｏａｔフォーマットＢＦ１６の場合、各要素は１６ビットで表され、各指数は８ビットで表される。

【0041】

ブロック４０６及び４０８に示されるように、方法３００は、第１の行列Ａ及び第２の行列Ｂのデータの部分内の要素から指数を抽出することを含む。すなわち、指数は、第１の行列Ａの８個の要素のそれぞれから抽出され（ブロック４０６において「Ｅ_Ａ［８］＝指数抽出（Ａ［８］）」として示される）、指数は、第２の行列Ｂの８個の要素の各々から抽出される（ブロック４０８において「Ｅ_Ｂ［８］＝指数抽出（Ｂ［８］）」として示される）。

【0042】

第１及び第２の行列のデータの部分の要素がｆｌｏａｔデータタイプである場合、指数値は、単に各要素の指数ビットから抽出することができる。例えば、要素がＢＦ１６フォーマットである場合、第１のビットは符号ビットであり、ビット２～９は指数ビットであり、ビット１０～１６は仮数ビットである。したがって、ビット２～９の値から指数値を抽出することができる。

【0043】

第１の行列Ａ及び第２の行列Ｂのデータの部分の要素が整数データタイプ（ｉｎｔ８）である場合、指数は、データの各サブ部分の要素（Ａ_ａ［８］、Ｂ_ａ［８］）の絶対値を決定し、各要素についてドロップされる先行するゼロの数を決定し、各要素を１として表すことによって、抽出される。Ｍ^*２^ｅ（ここで、Ｍは要素値の仮数であり、ｅは要素値の指数である）、各要素の指数値を［ビット数－１］－Ｌ_Ａとして近似する（ここで、Ｌ_Ａは要素の先行するゼロの数である）。

【0044】

例として、第１の行列（Ａ_ａ［１］）の第１の要素の絶対値が００００１０１１である場合、４つの先行するゼロがドロップされると決定される。要素は１．０１１^*２^ｅとして表され、Ａ［１］に対する指数値（ｅ）は、［ビット数－１］－Ｌ_Ａ＝７－４＝３として計算される。第２の行列（Ｂ_ａ［１］）の第１の要素の絶対値が００１０１１１１である場合、２つの先行するゼロがドロップされると決定される。要素は１．０１１１１^*２^ｅとして表され、Ａ［１］に対する指数値（ｅ）は、［ビット数－１］－Ｌ_Ｂ＝７－２＝５として計算される。したがって、Ａ［１］とＢ［１］の近似積（Ｐ）の指数は、１４－（Ｌ_Ａ＋Ｌ_Ｂ）＝１４－８＝６と求められる。

【0045】

同じプロセスが実行されて、第１の行列Ａのサブ部分の残りの７つの要素（Ａ［２－８］）と、第２の行列Ｂのサブ部分の対応する残りの７つの要素（Ｂ［２－８］）と、の近似積が求められる。

【0046】

ブロック４１０において、第１及び第２の行列の８個の対応する要素対の積値（すなわち、積）が近似される。すなわち、第１の対応する要素対の積は、行列Ａの第１の要素及び行列Ｂの第１の要素の抽出された指数の合計（すなわち、Ｅ_Ａ［１］＋Ｅ_Ｂ［１］）として近似され、第２の要素対の積は、行列Ａの第２の要素及び行列Ｂの第２の要素の抽出された指数の合計（すなわち、Ｅ_Ａ［２］＋Ｅ_Ｂ［２］）として近似され、８個の対応する要素対の各々の積が近似される（ブロック４１０においてＥ_Ｐ［８］＝Ｅ_Ａ［８］＋Ｅ_Ｂ［８］として示される）まで、以下同様である。

【0047】

ブロック４１２に示すように、近似積値Ｅ_Ｐ［８］は、維持論理３０６を使用して分析され、分析に基づいて、維持信号Ｋ［８］が生成される。維持信号Ｋ［０］～Ｋ［５］がマルチプレクサ３０２に提供され、維持信号Ｋ［６］がマルチプレクサ３０４に提供され（ここで、維持信号Ｋ７の値はＫ０～Ｋ６の値から推測される）、何れの６個の要素が行列Ａ及び行列Ｂの両方から選択され、行列乗算のためにＭＡＣ２１２に提供されるかを決定する。ブロック４１４及び４１６に示すように、行列Ａからの８個のデータ要素（データＡ［８］）及び８個のデータ要素（データＢ［８］）が再び受信される。行列Ａからの６個の要素（Ａ’［６］）及び行列Ｂからの６個の要素（Ｂ’［６］）は、ブロック４１８及び４２０に示されるように、マルチプレクサアレイ３０２及び３０４の出力に基づいて、ＭＡＣ２１２に提供される８個のデータ要素（すなわち、ｄａｔａＳｅｌｅｃｔ（Ａ［８］及びｄａｔａＳｅｌｅｃｔ（Ｂ［８］）））の中から選択される。

【0048】

次に、近似積値Ｅ_Ｐ［８］を分析し、維持信号（Ｋ［８］）を生成する例を、図５Ａ～図５Ｄに示す積指数値の４つの異なるアレイの例を使用して説明する。簡略化のために、図５Ａ～図５Ｄに示す積指数値は４ビット値である。しかしながら、本開示の特徴は、任意の数のビットを有する積指数値に対して実装され得る。更に、以下で説明する例では、８個の積指数値のアレイが使用され、維持ビット値が、対応する積指数値ごとに決定される。維持論理３０６は、維持されると決定された８個の積指数値のうち６個に対応する６個の維持ビットに対して真の値（例えば、１の値）が生成され、ドロップされると決定された積指数値の残りの２つの目標数に対応する２つの維持ビット値に対して偽の値（例えば、０の値）が生成されるように構成される。しかしながら、本開示の特徴は、積指数値の任意の数及びドロップされる積指数値の任意の目標数に対して実装され得る。例えば、Ａ及びＢの８個の積指数値のうち５つの積指数値が維持されるべきである場合、維持論理３０６は、維持されると決定された８個の積指数値のうち５つに対応する５つの維持ビットについて真の値を生成するように構成され、ドロップされると決定された積指数値の残りの３つの目標数に対応する３つの維持ビット値について偽の値が生成される。

【0049】

図５Ａから図５Ｄに示されるアレイの各々について、何れの維持信号が真であり、何れの維持値が偽であるかの決定は、積指数値の最上位ビットから開始して、積指数の対応する重要度のビットの値を合計することと、維持ビット値の目標数が真であると決定されるまで、合計の各々を積指数値の目標数（例えば、Ａ及びＢの８個の値のうち６個が維持されるべきである場合、６）と比較することと、を含む。

【0050】

例えば、図５Ａに示される８個の積指数値のアレイに対して、８個の積指数値のＭＳＢが合計される。この場合、８個の積指数値のＭＳＢの合計は６であり、これは、維持される６個の積指数値の目標数に等しい。ＭＳＢが１である６個の積指数値は、維持される積指数値として決定され、維持ビットは、ＭＳＢが１である積指数値に対して１に設定される。すなわち、第１の積指数値Ｅ_ｐ［０］、第２の積指数値Ｅ_ｐ［１］、第３の積指数値Ｅ_ｐ［２］、第５の積指数値Ｅ_ｐ［４］、第６の積指数値Ｅ_ｐ［５］、第８の積指数値Ｅ_ｐ［７］については、ＭＳＢが１であるので、対応する維持ビット値Ｋ０、Ｋ１、Ｋ２、Ｋ４、Ｋ５を１に設定し、Ｋ０～Ｋ６の値からＫ７の維持ビット値を１と推定する。ＭＳＢが０である２つの積指数値は、ドロップされる積指数値として決定され、維持ビット値Ｋ３及びＫ６は、０に設定される。

【0051】

図５Ｂに示されている８個の積指数値のアレイの場合、８個の積指数値のＭＳＢの合計は８であり、これは、維持されるＡ及びＢの６個の値の目標数よりも大きい。ＭＳＢの合計が６より大きい場合、８個の積指数値の次に低い重要度のビットが合計される。この場合、「１１」で始まる８個の積指数値の次に低い重要度のビット（すなわち、第２のビット）の合計は４に等しい。したがって、「１１」で始まる積指数値は、４つの最大積指数値として識別され、対応する維持ビットは、「１１」で始まる積指数値に対して１に設定される。すなわち、第１の積指数値Ｅ_ｐ［０］、第２の積指数値Ｅ_ｐ［１］、第４の積指数値Ｅ_ｐ［３］及び第８の積指数値Ｅ_ｐ［７］の各々は「１１」で始まるので、対応する維持ビット値Ｋ０、Ｋ１、Ｋ３は１に設定され、Ｋ７の維持ビット値はＫ０～Ｋ６の値から１と推定される。しかしながら、４つの最大積指数値は目標数６より２小さいので、「１０１」で始まる積指数値が識別され、「１０１」で始まる積指数値の次の最下位ビット（すなわち、第３のビット）が合計され、その結果が前の合計に加算される。この場合、「１０１」で始まる積指数値の第３のビットの合計は２に等しく、これは、前の合計４に加算されると、目標数６に等しい。したがって、「１０１」で始まる２つの積指数値も、維持される積指数値として識別される。すなわち、第５の積指数値Ｅ_ｐ［４］及び第６の積指数値Ｅ_ｐ［５］は、各々「１０１」で始まるので、対応する維持ビット値Ｋ４及びＫ５も１に設定され、ドロップされる残りの２つの積指数値に対応する維持ビット値Ｋ２及びＫ６は、０に設定される。

【0052】

図５Ｃに示されている８個の積指数値のアレイの場合、８個の積指数値のＭＳＢの合計は８であり、これは、維持される入力行列Ａ及びＢの６個の値の目標数よりも大きい。上述したように、ＭＳＢの合計が６より大きい場合、８個の積指数値の次に低い重要度のビットが合計される。この場合（図５Ｂに示す積指数値について上述した場合と同じ）、８個の積指数値の次に低い重要度のビット（すなわち、第２のビット）の合計は４に等しい。したがって、「１１」で始まる積指数値は、維持される４つの値として識別される。したがって、Ｋ０、Ｋ１、Ｋ３及びＫ７に対する維持ビット値は、積指数値に対して「１１」から開始して１に設定される。しかし、４つの最大積指数値は目標数６より２小さいので、「１０１」で始まる積指数値が識別され、「１０１」で始まる積指数値の次の最下位ビット（すなわち、第３のビット）が合計され、前の合計４に加算される。この場合、「１０１」で始まる積指数値の第３のビットの合計は３に等しく、これは、前の合計４に加算されると、７に等しい。７の合計は６の目標数より大きいので、「１０１１」で始まる８個の積指数値の最下位ビット（すなわち、第４のビット）が合計され、これは再び３に等しく、４の前の合計に加算されると再び６の目標数より大きい。この場合、加算されるビットがなくなり、前の合計の総数が目標数より大きいので、「１０１１」で始まる最初の２つの積指数値（Ｅ_ｐ［４］及びＥ_ｐ［５］）も維持される。したがって、維持ビット値Ｋ４及びＫ５は１に設定され、ドロップされる残りの２つの積指数値に対応する維持ビット値Ｋ２及びＫ６は０に設定される。

【0053】

図５Ｄに示される８個の積指数値のアレイに関して、８個の積指数値のＭＳＢの合計は８であり、これは、維持される６個の積指数値の目標数よりも大きい（これは、図５Ｂ及び図５Ｃに示される積指数値に関して上述した場合と同じである）。ただし、この場合、残りの各ビットはゼロである。この場合、アレイ内の最初の６個の積指数値が維持される。すなわち、維持ビットは、目標数の積指数値（例えば、アレイ中の最初の６つの値）の何れかについて１に設定される。

【0054】

第Ｎのビット位置（例えば、図５－５Ｃに示される値の第１、第２、第３又は第４のビットに対応する位置）に対する維持論理３０６のハードウェア実装の一例は、以下の通りである：
データ入力（ＤａｔａＩｎｐｕｔ）Ｉ^ｉ _Ｎ、第Ｎビットに入力される第ｉデータ、ｉ＝０，１，．．．７
合計（Ｔｏｔａｌ）Ｔ_Ｎ＝合計（Ｓｕｍ）（Ｉ^ｉ _Ｎ＆＆Ｑ^ｉ _Ｎ＋１）
累積合計（ＡｃｃｕｍｕｌａｔｅｄＳｕｍ）Ａ_Ｎ＝Ｃ_Ｎ＋１＋（Ｄ_Ｎ＋１？０：Ｔ_Ｎ）
イネーブル（Ｅｎａｂｌｅ）Ｅ_Ｎ＝（Ｔ_Ｎ！＝０）＆＆（Ａ_Ｎ＜＝（８－２））
／／コメント：８の２つの値がドロップされる
反転（Ｉｎｖｅｒｔ）Ｖ_Ｎ＝｛（Ｔ_Ｎ！＝０）＆＆（Ａ_Ｎ＜（８－２））｝｜｜（Ｔ_Ｎ＝＝０）
品質（Ｑｕａｌｉｆｙ）Ｑ^ｉ _Ｎ＝Ｑ^ｉ _Ｎ＋１＆＆（Ｖ_Ｎ？！Ｉ^ｉ _Ｎ：Ｉ^ｉ _Ｎ）

【0055】

第Ｎの位置のビットを選択するための維持論理３０６のハードウェア実装の一例は、以下の通りである：
ＤｏｎｅＤ_Ｎ＝Ｄ_Ｎ＋１
カウント（Ｃｏｕｎｔ）Ｃ_Ｎ＝Ｃ_Ｎ＋１
ｉ＝０～７の場合
｛
維持（Ｋｅｅｐ）Ｋ^ｉ _Ｎ＝Ｉ^ｉ _Ｎ＆＆Ｑ^ｉ _Ｎ＋１＆＆Ｅ_Ｎ＆＆！Ｄ_Ｎ
Ｃ_Ｎ＝Ｃ_Ｎ＋Ｋ^ｉ _Ｎ
Ｄ_Ｎ＝（Ｃ_Ｎ＝＝（８－２））
｝

【0056】

第－１の位置（図５Ｃ及び図５Ｄにおける最下位ビットの右側のビット位置）におけるビットを選択するための維持論理３０６のハードウェア実装の一例は、以下の通りである：
ＤｏｎｅＤ_Ｎ＝Ｄ_Ｎ＋１
カウント（Ｃｏｕｎｔ）Ｃ_Ｎ＝Ｃ_Ｎ＋１
Ｉ＝０～７の場合
｛
Ｋ^ｉ _Ｎ＝Ｑ^ｉ _Ｎ＋１＆＆！Ｄ_Ｎ
Ｃ_Ｎ＝Ｃ_Ｎ＋Ｋ^ｉＮ
Ｄ_Ｎ＝（Ｃ_Ｎ＝＝（８－２））
｝
維持（Ｋｅｅｐ）ｉ＝ΣＫ^ｉ _Ｎであり、式中、ｓｕｍは、Ｋの全ての値にわたるＯＲを表す

【0057】

次いで、行列乗算が、行列Ａから選択された６つのデータ要素及び行列Ｂから選択された６つのデータ要素に対して実行される。加えて、行列乗算演算によって生成された情報は、表示デバイス（例えば、図１の出力デバイス１１０）上に表示され得る。

【0058】

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上に説明されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。

【0059】

提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実装することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタルシグナルプロセッサ（digital signal processor、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、及び／又は、状態マシンが挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリストを含む他の中間データ（コンピュータ可読媒体に記憶させることが可能な命令）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークとすることができ、このマスクワークをその後半導体製造プロセスにおいて使用して、本開示の特徴を実装するプロセッサを製造する。

【0060】

本明細書に提供される方法又はフロー図は、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ）等の光学媒体が挙げられる。

【図1】