特許7640752 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7640752スパースＳＩＭＤクロスレーン処理ユニット

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
8C
8D
8E
8F
8G
8H
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-02-25

(45)【発行日】2025-03-05

(54)【発明の名称】スパースＳＩＭＤクロスレーン処理ユニット

(51)【国際特許分類】

G06F 9/38 20180101AFI20250226BHJP

G06F 15/80 20060101ALN20250226BHJP

【ＦＩ】

G06F9/38 370A

G06F9/38 370C

G06F9/38 310G

G06F9/38 310J

G06F15/80

【請求項の数】 20

(21)【出願番号】P 2023572877

(86)(22)【出願日】2022-11-04

(65)【公表番号】

(43)【公表日】2024-06-21

(86)【国際出願番号】 US2022048919

(87)【国際公開番号】W WO2023086271

(87)【国際公開日】2023-05-19

【審査請求日】2023-12-07

(31)【優先権主張番号】63/279,262

(32)【優先日】2021-11-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/972,663

(32)【優先日】2022-10-25

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】ナガラジャン，ラフル

(72)【発明者】

【氏名】スブラマニアン，スビナイ

(72)【発明者】

【氏名】ジェイコブ，アーピス・チャッコ

【審査官】坂庭剛史

(56)【参考文献】

【文献】米国特許出願公開第２０２１／０１０９７６１（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０００４８１４（ＵＳ，Ａ１）

【文献】国際公開第２００６／１０６３４２（ＷＯ，Ａ２）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／３８

Ｇ０６Ｆ１５／８０

(57)【特許請求の範囲】

【請求項1】

ハードウェア回路であって、
各々のステージは、クロスバーおよび２つ以上のセルを含む、複数のステージと、
それぞれのデータを上流の入力部から下流の送信先へ前記複数のステージの複数のセルおよび複数のクロスバーを介してストリーミングする複数のデータ処理レーンとを備え、
前記ハードウェア回路は、
前記複数のデータ処理レーンに沿って前記上流の入力部から入力データを受信し、第１のオペレーションを実行するための第１の命令を受信し、
前記第１の命令を受信することに応答して、各々のステージのために、
前記ステージのそれぞれの処理セルにそれぞれの第２の命令を送信し、各々のセルは、それぞれのデータ処理レーンからの入力を受信することに応答してそれぞれの第２のオペレーションを実行するように構成されており、
前記ステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信するように構成されており、前記クロスバーは、前記複数のデータ処理レーンに沿って前記ステージの各々のセルから次のステージのセルへの出力を置換するように構成されており、
前記複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された前記複数のセルに沿って、受信された前記入力データを処理することによって前記第１のオペレーションを実行するように構成されている、ハードウェア回路。

【請求項2】

各々のセルは、前記セルを通過するそれぞれのデータ処理レーンからのそれぞれの第１の入力オペランドと、前記セルの上流のステージのそれぞれのクロスバーからのそれぞれの第２の入力オペランドとを受信するように構成されている、請求項１に記載のハードウェア回路。

【請求項3】

前記複数のデータ処理レーンのデータの前記下流の送信先は、ベクタ処理ユニットであり、前記ベクタ処理ユニットは、前記ハードウェア回路の出力データに単一命令複数データベクタオペレーションを実行するように構成されている、請求項１に記載のハードウェア回路。

【請求項4】

前記セルの各々は、１つまたは複数の受信された命令に応答して複数の所定のプリミティブ操作のうちの１つまたは複数を実行するように構成されており、
前記ハードウェア回路は、複数の制御セルをさらに備え、
前記それぞれの第２の命令を前記それぞれの処理セルへ送信する際に、前記ハードウェア回路は、各々の制御セルによって、前記第１の命令によって指定された前記第１のオペレーションに基づいて各々の処理セルへのそれぞれの制御信号を生成および送信するように構成されている、請求項１に記載のハードウェア回路。

【請求項5】

各々の制御セルによって前記それぞれの制御信号を生成および送信する際に、前記ハードウェア回路は、前記処理セルが存在する前記ステージまたは前記処理セルを通過する前記データ処理レーンのうちの少なくとも１つに基づいて、各々の処理セルに、それぞれの算術演算、比較演算およびバイパス演算のうちの１つを実行させるためのそれぞれの制御信号を生成するように構成されている、請求項４に記載のハードウェア回路。

【請求項6】

前記複数のセルおよび複数のクロスバーは、前記複数のステージおよび複数のデータ処理レーンを横断して、接続されたセルの処理ネットワークを形成しており、前記接続されたセルの処理ネットワークは、前記入力データを受信し、前記入力データに前記第１のオペレーションを実行することに従ってそれぞれの出力データを生成するように構成されている、請求項４に記載のハードウェア回路。

【請求項7】

前記接続されたセルの処理ネットワークは、組み合わされたベクタソートおよび重複カウントオペレーションを実行するように構成されており、前記組み合わされたベクタソートおよび重複カウントオペレーションは、
前記処理ネットワークにより要素の入力ベクタを受信することと、
前記処理ネットワークにより出力として、前記入力ベクタにおける重複要素のソートされた出力ベクタおよびカウントを指定するデータを生成することと、を備える、請求項６に記載のハードウェア回路。

【請求項8】

前記入力データは、スパースベクタデータを含み、前記それぞれの第２の命令および前記それぞれの第３の命令を送信した後、前記ハードウェア回路は、ベクタスキャン、ベクタ和、ベクタソートまたはベクタ重複カウントのうちの１つを実行するように構成されている、請求項１に記載のハードウェア回路。

【請求項9】

システムであって、
各々のステージは、クロスバーおよび２つ以上のセルを含む、複数のステージと、それぞれのデータを上流の入力部から下流の送信先へ前記複数のステージの複数のセルおよび複数のクロスバーを介してストリーミングする複数のデータ処理レーンとを備えるハードウェア回路を備え、
前記ハードウェア回路は、
前記複数のデータ処理レーンに沿って前記上流の入力部から入力データを受信し、第１のオペレーションを実行するための第１の命令を受信し、
前記第１の命令を受信することに応答して、各々のステージのために、
前記ステージのそれぞれの処理セルにそれぞれの第２の命令を送信し、各々のセルは、それぞれのデータ処理レーンからの入力を受信することに応答してそれぞれの第２のオペレーションを実行するように構成されており、
前記ステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信するように構成されており、前記クロスバーは、前記複数のデータ処理レーンに沿って前記ステージの各々のセルから次のステージのセルへの出力を置換するように構成されており、
前記複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された前記複数のセルに沿って、受信された前記入力データを処理することによって前記第１のオペレーションを実行するように構成されている、システム。

【請求項10】

各々のセルは、前記セルを通過するそれぞれのデータ処理レーンからのそれぞれの第１の入力オペランドと、前記セルの上流のステージのそれぞれのクロスバーからのそれぞれの第２の入力オペランドとを受信するように構成されている、請求項９に記載のシステム。

【請求項11】

前記複数のデータ処理レーンのデータの前記下流の送信先は、ベクタ処理ユニットであり、前記ベクタ処理ユニットは、前記ハードウェア回路の出力データに単一命令複数データベクタオペレーションを実行するように構成されている、請求項９に記載のシステム。

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

前記入力データは、スパースベクタデータを含み、前記それぞれの第２の命令および前記それぞれの第３の命令を送信した後、前記ハードウェア回路は、ベクタスキャン、ベクタ和、ベクタソートまたはベクタ重複カウントのうちの１つを実行するように構成されている、請求項９に記載のシステム。

【請求項17】

コンピュータが実行する方法であって、
各々のステージは、クロスバーおよび２つ以上のセルを含む、複数のステージと、それぞれのデータを上流の入力部から下流の送信先へ前記複数のステージの複数のセルおよび複数のクロスバーを介してストリーミングする複数のデータ処理レーンとを備える、ハードウェア回路が、前記複数のデータ処理レーンに沿って前記上流の入力部から入力データおよび第１のオペレーションを実行するための第１の命令を受信することと、
前記第１の命令を受信することに応答して、各々のステージのために、
前記ハードウェア回路により、前記ステージのそれぞれの処理セルにそれぞれの第２の命令を送信することと、各々のセルは、それぞれのデータ処理レーンからの入力を受信することに応答してそれぞれの第２のオペレーションを実行するように構成されており、
前記ハードウェア回路により、前記ステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信することと、前記クロスバーは、前記複数のデータ処理レーンに沿って前記ステージの各々のセルから次のステージのセルへの出力を置換するように構成されており、
前記ハードウェア回路により、前記複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された前記複数のセルに沿って、受信された前記入力データを処理することによって第１のオペレーションを実行することとを備える、方法。

【請求項18】

各々のセルは、前記セルを通過するそれぞれのデータ処理レーンからのそれぞれの第１の入力オペランドと、前記セルの上流のステージのそれぞれのクロスバーからのそれぞれの第２の入力オペランドとを受信するように構成されている、請求項１７に記載の方法。

【請求項19】

前記複数のデータ処理レーンのデータの前記下流の送信先は、ベクタ処理ユニットであり、前記ベクタ処理ユニットは、前記ハードウェア回路の出力データに単一命令複数データベクタオペレーションを実行するように構成されている、請求項１７に記載の方法。

【請求項20】

前記セルの各々は、１つまたは複数の受信された命令に応答して複数の所定のプリミティブ操作のうちの１つまたは複数を実行するように構成されており、
前記ハードウェア回路は、複数の制御セルをさらに備え、
前記それぞれの第２の命令を前記それぞれの処理セルへ送信することは、各々の制御セルが、前記第１の命令によって指定された前記第１のオペレーションに基づいて各々の処理セルへのそれぞれの制御信号を生成および送信することを備える、請求項１７に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、２０２１年１１月１５日に出願された米国仮特許出願第６３／２７９，２６２号の出願日の利益を主張する、２０２２年１０月２５日に出願された米国特許出願第１７／９７２，６６３号の継続出願であり、その開示は、参照により本明細書に組み込まれる。

【背景技術】

【0002】

背景
単一命令複数データ（ＳＩＭＤ）処理ユニットは、入力の各々について同じオペレーションを実行することによる複数のデータ入力の並列処理のための１つのタイプの処理ユニットである。ＳＩＭＤ処理ユニットによって高速化されるオペレーションは、ＳＩＭＤ処理ユニットの設計時点で予め決定される。ＳＩＭＤ処理ユニットは、以下の計算プリミティブを頻繁に使用することができるスパース計算を伴うことができる：重複カウント／ヒストグラム；ソート；固有化；スキャン／セグメント化されたスキャン；および／またはパーティショニング。スパース計算において良好な性能を得るために、これらのプリミティブは、コンポーザブル形式でＳＩＭＤアーキテクチャ上に並列化されるべきである。現在の技術水準は、このような並列化を提供することができない。

【発明の概要】

【発明が解決しようとする課題】

【0003】

簡単な概要
開示の態様は、プロセッサの複数のデータ処理レーンを横断して単一命令複数データ（ＳＩＭＤ）データ依存オペレーションを実行するためのクロスレーン処理ユニット（ＸＰＵ）を対象とする。各々のデータ依存オペレーションのための特定オペレーション向け回路を物理的に製造するのではなく、ＸＰＵは、個々のオペレーションを実行するように処理セルを構成し、ＸＰＵにおいて積層されたネットワークとしてクロスバーを配置することによって、入力信号に応答して異なるオペレーションを実行するように構成することができる。開示の態様は、ＸＰＵにおける同じ積層されたネットワーク構成を再利用することによって、ベクタにおける固有値および非固有値の重複カウントも実行しながら入力ベクタにおける固有値を識別することを提供する。各々の処理セルは、複数のデータ処理レーンを横断してデータを受信および処理することができる。本明細書に記載されたＸＰＵは、入力ベクタにおける固有値をソート、例えば、識別しかつ入力ベクタにおける重複値をカウントするためにハードウェアが別々に構成される必要性を排除する。ＸＰＵは、ハードウェア回路の一部として実行することができ、スパースベクタまたは行列などのスパースデータ構造の高速化された処理と共に、密行列などの密なデータ構造の計算を補足する。

【0004】

開示の態様は、ハードウェア回路を提供する。ハードウェア回路は、複数のステージを含み、各々のステージは、クロスバーおよび２つ以上のセルを含む。ハードウェア回路は、それぞれのデータを上流の入力部から下流の送信先へ複数のステージの複数のセルおよび複数のクロスバーを介してストリーミングする複数のデータ処理レーンをさらに含む。ハードウェア回路は、複数のデータ処理レーンに沿って上流の入力部から入力データを受信し、第１のオペレーションを実行するための第１の命令を受信するように構成されている。第１の命令を受信することに応答して、各々のステージのために、ハードウェア回路は、そのステージのそれぞれの処理セルにそれぞれの第２の命令を送信するようにさらに構成されており、各々のセルは、それぞれのデータ処理レーンからの入力を受信することに応答してそれぞれの第２のオペレーションを実行するように構成されており、ハードウェア回路は、そのステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信するようにさらに構成されており、クロスバーは、複数のデータ処理レーンに沿ってそのステージの各々のセルから次のステージのセルへの出力を置換するように構成されている。ハードウェア回路は、また、複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された複数のセルに沿って、受信された入力データを処理することによって第１のオペレーションを実行するように構成されている。

【0005】

一例において、各々のセルは、セルを通過するそれぞれのデータ処理レーンからのそれぞれの第１の入力オペランドと、セルの上流のステージのそれぞれのクロスバーからのそれぞれの第２の入力オペランドとを受信するように構成されている。別の例において、複数のデータ処理レーンのデータの下流の送信先は、ベクタ処理ユニットであり、ベクタ処理ユニットは、ハードウェア回路の出力データに単一命令複数データベクタオペレーションを実行するように構成されている。

【0006】

さらに別の例において、セルの各々は、１つまたは複数の受信された命令に応答して複数の所定のプリミティブ操作のうちの１つまたは複数を実行するように構成されている。ハードウェア回路は、複数の制御セルをさらに含む。それぞれの第２の命令をそれぞれの処理セルへ送信する際に、ハードウェア回路は、各々の制御セルによって、第１の命令によって指定された第１のオペレーションに基づいて各々の処理セルへのそれぞれの制御信号を生成および送信するように構成されている。さらに別の例において、各々の制御セルによってそれぞれの制御信号を生成および送信する際に、ハードウェア回路は、処理セルが存在するステージまたは処理セルを通過するデータ処理レーンのうちの少なくとも１つに基づいて、各々の処理セルに、それぞれの算術演算、比較演算およびバイパス演算のうちの１つを実行させるためのそれぞれの制御信号を生成するように構成されている。さらに別の例において、複数のセルおよび複数のクロスバーは、複数のステージおよび複数のデータ処理レーンを横断して、接続されたセルの処理ネットワークを形成しており、接続されたセルの処理ネットワークは、入力データを受信し、入力データに第１のオペレーションを実行することに従ってそれぞれの出力データを生成するように構成されている。さらに別の例において、接続されたセルの処理ネットワークは、組み合わされたベクタソートおよび重複カウントオペレーションを実行するように構成されている。組み合わされたオペレーションは、処理ネットワークが、要素の入力ベクタを受信するステップと、処理ネットワークが、出力として、入力ベクタにおける重複要素のソートされた出力ベクタおよびカウントを指定するデータを生成するステップと、を含む。

【0007】

さらに別の例において、入力データは、スパースベクタデータを含み、それぞれの第２の命令およびそれぞれの第３の命令を送信した後、ハードウェア回路は、ベクタスキャン、ベクタ和、ベクタソートまたはベクタ重複カウントのうちの１つを実行するように構成されている。

【0008】

開示の別の態様は、ハードウェア回路を含むシステムを提供し、ハードウェア回路は、複数のステージを含み、各々のステージは、クロスバーおよび２つ以上のセルを含み、ハードウェア回路は、それぞれのデータを上流の入力部から下流の送信先へ複数のステージの複数のセルおよび複数のクロスバーを介してストリーミングする複数のデータ処理レーンを含む。ハードウェア回路は、複数のデータ処理レーンに沿って上流の入力部から入力データを受信し、第１のオペレーションを実行するための第１の命令を受信するように構成されている。ハードウェア回路は、第１の命令を受信することに応答して、各々のステージのために、そのステージのそれぞれの処理セルにそれぞれの第２の命令を送信するようにさらに構成されており、各々のセルは、それぞれのデータ処理レーンからの入力を受信することに応答してそれぞれの第２のオペレーションを実行し、そのステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信するように構成されており、クロスバーは、複数のデータ処理レーンに沿ってそのステージの各々のセルから次のステージのセルへの出力を置換するように構成されている。ハードウェア回路は、また、複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された複数のセルに沿って、受信された入力データを処理することによって第１のオペレーションを実行するように構成されている。

【0009】

【0010】

さらに別の例において、セルの各々は、１つまたは複数の受信された命令に応答して複数の所定のプリミティブ操作のうちの１つまたは複数を実行するように構成されている。ハードウェア回路は、複数の制御セルをさらに含む。それぞれの第２の命令をそれぞれの処理セルへ送信する際に、ハードウェア回路は、各々の制御セルによって、第１の命令によって指定された第１のオペレーションに基づいて各々の処理セルへのそれぞれの制御信号を生成および送信するように構成されている。さらに別の例において、各々の制御セルによってそれぞれの制御信号を生成および送信する際に、ハードウェア回路は、処理セルが存在するステージまたは処理セルを通過するデータ処理レーンのうちの少なくとも１つに基づいて、各々の処理セルに、それぞれの算術演算、比較演算およびバイパス演算のうちの１つを実行させるためのそれぞれの制御信号を生成するように構成されている。さらに別の例において、複数のセルおよび複数のクロスバーは、複数のステージおよび複数のデータ処理レーンを横断して、接続されたセルの処理ネットワークを形成しており、接続されたセルの処理ネットワークは、入力データを受信し、入力データに第１のオペレーションを実行することに従ってそれぞれの出力データを生成するように構成されている。さらに別の例において、接続されたセルの処理ネットワークは、組み合わされたベクタソートおよび重複カウントオペレーションを実行するように構成されており、組み合わされたオペレーションは、処理ネットワークが、要素の入力ベクタを受信するステップと、処理ネットワークが、出力として、入力ベクタにおける重複要素のソートされた出力ベクタおよびカウントを指定するデータを生成するステップと、を含む。

【0011】

【0012】

開示のさらに別の態様は、コンピュータが実行する方法を提供する。方法は、複数のステージを含み、各々のステージは、クロスバーおよび２つ以上のセルを含み、それぞれのデータを上流の入力部から下流の送信先へ複数のステージの複数のセルおよび複数のクロスバーを介してストリーミングする複数のデータ処理レーンを含む、ハードウェア回路が、複数のデータ処理レーンに沿って上流の入力部から入力データおよび第１のオペレーションを実行するための第１の命令を受信するステップを含む。方法は、さらに、第１の命令を受信することに応答して、各々のステージのために、ハードウェア回路が、そのステージのそれぞれの処理セルにそれぞれの第２の命令を送信するステップを含み、各々のセルは、それぞれのデータ処理レーンからの入力を受信することに応答してそれぞれの第２のオペレーションを実行するように構成されており、方法は、ハードウェア回路が、そのステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信するステップを含み、クロスバーは、複数のデータ処理レーンに沿ってそのステージの各々のセルから次のステージのセルへの出力を置換するように構成されている。方法は、また、ハードウェア回路が、複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された複数のセルに沿って、受信された入力データを処理することによって第１のオペレーションを実行するステップを含む。

【0013】

【0014】

さらに別の例において、セルの各々は、１つまたは複数の受信された命令に応答して複数の所定のプリミティブ操作のうちの１つまたは複数を実行するように構成されている。ハードウェア回路は、複数の制御セルをさらに含む。それぞれの第２の命令をそれぞれの処理セルへ送信するステップは、各々の制御セルによって、第１の命令によって指定された第１のオペレーションに基づいて各々の処理セルへのそれぞれの制御信号を生成および送信するステップを含む。

【図面の簡単な説明】

【0015】

【図1】開示の態様によるクロスレーン処理ユニット（ＸＰＵ）を実行する例示的なハードウェア回路のブロック図である。

【図2】開示の態様によるＸＰＵを実行する例示的なタイルのブロック図である。

【図3】開示の態様による例示的なＸＰＵのブロック図である。

【図4】開示の態様による例示的なＸＰＵ処理セルおよび対応する制御セルのブロック図である。

【図5】開示の態様によるＸＰＵによって実行されるベクタスキャンオペレーションのための例示的なＸＰＵ構成のブロック図である。

【図6】開示の態様によるＸＰＵによって実行されるベクタソートおよびベクタ重複カウントオペレーションのための例示的なＸＰＵ構成のブロック図である。

【図7】開示の態様による奇偶マージネットワークおよび値シャッフルネットワークを含むように構成された例示的なＸＰＵのブロック図である。

【図8A】開示の態様による組み合わされたマージソートおよび重複カウントを実行するための奇偶マージソートネットワークの例示的なＸＰＵ構成の流れ図である。

【図8B】開示の態様によるＸＰＵの奇偶マージネットワーク８００の例示的なステージ１を示す図である。

【図8C】開示の態様によるＸＰＵの奇偶マージネットワークの例示的なステージ２を示す図である。

【図8D】開示の態様によるＸＰＵの奇偶マージネットワークの例示的なステージ３を示す図である。

【図8E】開示の態様によるＸＰＵの奇偶マージネットワークの例示的なステージ４を示す図である。

【図8F】開示の態様によるＸＰＵの奇偶マージネットワークの例示的なステージ５を示す図である。

【図8G】開示の態様によるＸＰＵの奇偶マージネットワークの例示的なステージ６を示す図である。

【図8H】開示の態様によるＸＰＵの奇偶マージネットワークの例示的な値シャッフルネットワークを示す図である。

【図9】開示の態様によるＸＰＵにおける合成オペレーションを実行するための例示的なプロセスのフローチャートである。

【図10】開示の態様によるＸＰＵへの入力ベクタのための重複カウントをソートおよび生成するための例示的なプロセスのフローチャートである。

【図11】開示の態様によるハードウェア回路を実行するための例示的な環境のブロック図である。

【発明を実施するための形態】

【0016】

詳細な説明
概略
開示の態様は、プロセッサの複数のデータ処理レーンを横断してデータ依存オペレーションを実行するためのクロスレーン処理ユニット（ＸＰＵ）を対象とする。各々のデータ依存オペレーションのための物理的に製造された特定オペレーション向け回路を実行するのではなく、ＸＰＵは、処理セルによって実行される個々のオペレーションを構成し、ＸＰＵにおいて積層されたネットワークとしてクロスバーを配置することにより、入力信号に応答して異なるオペレーションを実行するように構成することができる。ＸＰＵは、複数のＳＩＭＤデータ処理レーンの値を横断して操作する。ＸＰＵは、ＳＩＭＤ並列処理のために構成されたコプロセッサの一部として実行することができる。ＸＰＵを実行するコプロセッサは、データ依存オペレーションを実行するように構成することができる。

【0017】

「入力依存オペレーション」とも呼ばれるデータ依存オペレーションは、オペレーションを実行するための計算作業の量が前もって知られておらず、データの性質に依存するオペレーションである。計算作業は、例えば、データ依存オペレーションを実行するために必要とされるオペレーションまたは処理サイクルの数において測定することができる。例示的なデータ依存オペレーションは、ベクタソーティングのためのオペレーション、入力ベクタにおいて固有値を識別するためのオペレーション、ベクタ内の重複値をカウントするためのオペレーション、および変化する長さのベクタの形状またはサイズを操作するためのオペレーションを含む。少なくとも、異なる入力において同じタイプのオペレーションを実行するためのランダムメモリアクセスパターンにおける違いにより、データ依存オペレーションは不規則である。その結果、データ依存オペレーションは、その形状または程度またはスパース性などの入力データの性質に基づいて計算作業が変化しないその他のタイプのオペレーションとは逆に、性能を最適化することが困難である。

【0018】

データ依存オペレーションは、スパースデータにおいて実行されるオペレーションを含む。データ構造のスパース性は、その非空要素対空要素の比の尺度である。データ構造に応じて、空要素はゼロ、要素のための値の不在を示す予約語であってよいか、または入力としてのデータ構造によって実行されるオペレーションに有意ではなく寄与すると見なされるほど小さい値を有してよい。データ構造は、それが、非空要素よりも多くの空要素を有するならばスパースである。幾つかのデータ構造は、多かれ少なかれ他よりもスパースであることができる。

【0019】

開示の態様は、処理パイプラインにおいて下流のコプロセッサへデータを送る前にまずスパースデータを処理するためのＸＰＵが、ＸＰＵを有さずに前に可能であるよりも効率的な計算のためのより広い作業負荷を可能にすることを提供する。

【0020】

ＸＰＵは、様々なデータ依存オペレーションをハンドリングすることができるので、処理パイプラインおよび対応するプロセッサは、既存のＳＩＭＤアーキテクチャにおいて処理するための予め定義する入力データの制限なしに設計することができる。ＸＰＵなしでは、既存のＳＩＭＤアーキテクチャは、特徴のスパース集合から機械学習モデルへの埋め込み生成など、データ依存オペレーションを効率的に高速化することはできない。

【0021】

例示的なデータ依存オペレーションは、入力訓練例のための埋め込みを生成することを含む。埋め込みは、埋め込みよりも高い次元性を有するベクタまたは入力からマッピングされた幾つかのその他のデータ構造であることができる。埋め込み生成は、パイプラインに従って処理される作業負荷の一部として実行することができる。他の例として、ＸＰＵは、ベクタスキャッタまたは収集オペレーション、セグメント合計を実行してよい、および／またはスパース特徴量テンソルをパーティショニングしてよい。本明細書に記載されたＸＰＵは、ＳＩＭＤ並列処理パラダイムに従って構築されるベクタ処理ユニットなど、プロセッサの他の構成要素または接続された構成要素への相補的な処理ユニットであることができる。１つまたは複数のＸＰＵは、より大きなプロセッサのそれぞれのプロセッサコアにおいて接続することができ、それ自体は、ニューラルネットワークを訓練するなど、所定の作業負荷の性能を高速化するためのその他の構成要素を含んでよい。

【0022】

さらに、ＸＰＵは、所定のタイプのデータ依存オペレーションを実行することに限定されず、したがって、プロセッサは、複数の異なるパイプラインのためのその他のタイプの処理ユニットを補足するためにＸＰＵを含むように設計することができる。ＸＰＵは、作業負荷ごとに構成することができるので、特殊化された回路がスパースデータの計算のための相補的なユニットとしてプロセッサ上に物理的に製造されるその他のアプローチに対して、ＸＰＵの物理的フットプリントが減じられる。ＸＰＵの機能性は、ホストプロセッサの既存の命令セットに対する命令セットまたは拡張子の使用を介して拡張することもでき、パイプラインデータが変化を受け取るときに異なるデータ依存オペレーションの適応性をさらに改善する。命令は、ＸＰＵの個々の処理セルおよびクロスバーを構成するための命令を翻訳することに責任を負うＸＰＵの構成要素への信号として提供することができる。ＸＰＵは、ＸＰＵを実行するハードウェア回路のための対応するコンパイラによってコンパイルされたプログラムを使用して構成することができる。

【0023】

ＸＰＵは、個々の処理セルのネットワークを含み、各々のセルは、処理セルの間のクロスバー接続を介して１つまたは複数のデータ処理レーンを通過するデータを処理する。各々のデータ処理レーンは、処理中にデータを一時的に記憶するための１つまたは複数のレジスタを含むことができる。各々の処理セルは、オペランドの複数のセットにおいて１つまたは複数のプリミティブ操作を実行するように構成されている。オペランドの第１のセットは、処理セルによって共有されるプロセッサのデータ処理レーンからの入力として提供される。オペランドの第２のセットは、ＸＰＵの複数のデータ処理レーンを横断してデータ伝送を調整するように構成されたクロスバーから提供される。

【0024】

ＸＰＵは、多数のパイプラインステージに分割することができ、各々のステージは、クロスバーと、１つまたは複数の処理セルと、各々の処理セルのための対応する制御セルとを含む。ステージの数は、例えば、ＸＰＵが現在の作業負荷のために実行するように構成されている合成オペレーションに基づいて変化することができる。

【0025】

ＸＰＵは、処理要素およびクロスバーの積層されたネットワークのパイプラインステージを横断して複数のプリミティブ操作を実行することによって合成オペレーションを実行する。合成オペレーションは、出力を生成するためにＸＰＵによって入力に実行されるオペレーションである。プリミティブ操作は、ＸＰＵの個々の処理セルが実行するように構成されているオペレーションであり、これらは、ＸＰＵによって実行されると、ＸＰＵに合成オペレーションを実行させる。合成オペレーションを実行することは、他の合成オペレーションを実行することを必要とする場合がある。例えば、ベクタソートを実行するために、ＸＰＵは、プレフィックス和、複数のプリミティブ操作から成る別のオペレーションを実行してよい。例示的なプリミティブ操作は、比較、算術、または入力データをバイパスするためのオペレーションを含む。ＸＰＵは、ＸＰＵのための複数のパイプラインステージのうちの１つに従って配置された複数の個々の処理セルおよびクロスバーの各々を構成することによって合成オペレーションを実行する。

【0026】

ＸＰＵの各々のステージにおいて実行されるプリミティブ操作は、プログラムで定義することができ、作業負荷ごとに変化してよい。処理セルが実行するように構成されたプリミティブ操作は、処理セルのためのそれぞれの制御セルによって受信される１つまたは複数の制御信号または命令によって決定される。処理セルによって実行される正確なプリミティブ操作は、例えば、ＸＰＵが実行するように現在構成されている合成オペレーションに依存することができる。その他の例において、ＸＰＵの異なるレーンまたは異なるステージにおける処理セルは、１つまたは複数の所定のプリミティブ操作を常に実行するように構成することができる。ＸＰＵが出力を生成した後、出力は、複数のデータ処理レーンに沿って、ＸＰＵを実行するプロセッサの別の処理ユニットまたはメモリユニットへ送られることができる。

【0027】

開示の態様は、入力ベクタを受信し、同じ積層されたネットワーク構成を使用して、ベクタにおける両方の固有値および各々の値のための重複の数を決定するように構成されたＸＰＵを提供する。ＸＰＵは、ベクタソートを実行することができ、これは、キーによってソートされた、入力ベクタのキー－値タプルのインプレースの安定したソートである。ベクタ重複カウントは、入力ベクタのキー－値タプルの値のランニング重複カウントを戻す。ソートされたリストおよび重複カウントは、入力ベクタから非固有値を除去するために使用することができる。ＸＰＵは、本明細書に記載されているように、処理セルおよびクロスバーの同じ構成に従ってベクタソートおよび重複カウントの両方を実行するように構成されている。少なくとも、ＸＰＵは、固有値を識別するためにベクタソートを実行することと、与えられた入力ベクタのためのベクタ重複カウントを生成することとの間に再構成されなくてよいので、同じ構成を使用することによって、ＸＰＵは、両方の合成オペレーションをより効率的に実行することができる。ＸＰＵが実行するように構成されているその他の合成オペレーションは、スキャン、セグメント化されたスキャン、並列－プレフィックス和、ベクタパーティション、ベクタヒストグラム、ベクタコンパクト、ベクタ置換、ベクタ減少、ベクタシフト－インサート、ベクタ収集、ベクタスキャッタなどを含む。

【0028】

開示の態様は、以下の技術的利点を提供することができる。ＸＰＵを実行するハードウェア回路は、効率的に並列化可能ではない埋め込みクラス作業負荷およびその他のデータ依存オペレーションのためのよりフレキシブルでかつプログラム可能なハードウェアを提供することができる。ＸＰＵは、所定のオペレーションのみを効率的に実行するためにＸＰＵが固定されることを要求することなく、作業負荷ごとに異なるクラスのデータ依存オペレーションのための高速化パスを提供する。本明細書に記載のようなプログラム可能なユニットを提供することによって、実行ハードウェア回路は、異なる作業負荷の要求に確実に適応することができ、並列化可能なデータ独立ＳＩＭＤオペレーションを補足するが、これは、さもなければ、データ依存オペレーションを要求する作業負荷にとって非効率または非効果的であり得る。

【0029】

特定用途向け集積回路などのハードウェア回路は、スケールで作業負荷をさらに調整および分配するために異なる量のＸＰＵで設計することができる。本明細書に記載されたＸＰＵは、また、同じ構成を使用して、複数のオペレーションの効率的な実行を可能にし、処理時間および構成時間をさらに短縮する。例えば、ＸＰＵは、これらのオペレーションを高速化するためのＸＰＵの別々の構成および／または特殊回路の別々のインスタンスの代わりに、ベクタソーティングおよびベクタ重複カウンティングの両方を実行するように構成することができる。

【0030】

例示的なシステム
図１は、開示の態様による、クロスレーン処理ユニット（ＸＰＵ）１０１Ａ～１０１Ｆを実行するハードウェア回路１０１のブロック図である。ハードウェア回路１０１は、コプロセッサ１０３、コプロセッサ１０４、高帯域幅メモリ１０７およびオンチップインターコネクト１０８を含むことができる。コプロセッサ１０３は１つまたは複数のタイル１０２Ａ～１０２Ｆを含むことができ、各々のタイルはそれぞれのＸＰＵ１０１Ａ～１０１Ｆを実行する。コプロセッサ１０３は、タイル１０２Ａ～１０２Ｆを横断して入力および出力データをコーディネートするように構成されたタイルシーケンサ１０６を含むことができる。

【0031】

コプロセッサ１０３は、ＸＰＵ１０２Ａ～１０２Ｆを使用してデータ依存オペレーションを実行するために構成されている。図２～図４を参照して本明細書においてより詳細に説明されているように、ＸＰＵ１０２Ａ～１０２Ｆは、一連のデータ処理レーンに接続されており、各々のレーンはＸＰＵ１０２Ａ～１０２Ｆを通じてデータをストリーミングする。ストリームデータは、オンチップメモリ１０５から検索されることができ、オンチップメモリ１０５は、メインメモリ、キャッシュ、または永続記憶装置、例えば、ソリッドステートまたはハードディスク記憶装置を含む、様々な異なるメモリデバイスのうちのいずれかであることができる。ストリームデータは、コプロセッサ１０４、コプロセッサ１０３および１０４のうちの一方または両方にサービスする高帯域幅メモリ１０７、ならびに／またはオンチップインターコネクト１０８を介してハードウェア回路１０１に接続された別のデータソースから検索されることもできる。

【0032】

コプロセッサ１０４は、行列－行列積、行列－ベクタ積などの、あるオペレーションの高速化のために構成することができる。幾つかの例において、コプロセッサ１０４は、ハードウェア回路１０１の残りとは異なるデバイス上にあり、オンチップインターコネクト１０８を介してハードウェア回路にデータを通信する。オンチップインターコネクト１０８は、様々な通信規格のうちのいずれか、例えば、ＰＣＩｅに従ってデータバスまたはあらゆる形式のインターコネクトであることができる。

【0033】

ハードウェア回路１０１への例示的な入力は、テンソル表現入力データおよび／またはハードウェア回路１０１を使用して実行される機械学習モデルのモデルパラメータである。テンソルは、異なる次元の様々なその他の共通データ構造タイプを一般化するデータ構造である。テンソルは、ゼロまたはそれよりも多い要素を含むことができ、この要素は、整数、浮動小数点値、ブール値などの１つまたは複数の異なるデータタイプであることができる。各々のデータタイプ内で、データタイプは、所定のレベルの精度、例えば、８ビット、１６ビット、または３２ビットの整数または浮動小数点値に従ってパラメータ化することができる。テンソルの次元は、その「階数」と呼ばれる。階数ゼロのテンソルは、単一の要素であり、スカラーとも呼ばれる。階数１のテンソルは、ベクタとも呼ばれる。階数２のテンソルは、行列とも呼ばれる。ベクタおよび行列は、異なる階数を有するとも呼ぶことができる。例えば、階数２のベクタは行列と等価である。非ゼロ階数のテンソルは、１階数低いテンソルの集合として記述することができる。例えば、階数１のベクタは、スカラー値の集合であり、階数２の行列は、階数１のベクタの集合である。

【0034】

ハードウェア回路１０１は、少なくとも部分的にニューラルネットワークを訓練するための処理パイプラインを実行してよい。ニューラルネットワークは、受信された入力のための出力を予測するための非線形オペレーションの１つまたは複数の層を含む機械学習モデルである。入力層および出力層に加え、幾つかのニューラルネットワークは、１つまたは複数の隠れ層を含む。各々の隠れ層の出力は、ニューラルネットワークの別の隠れ層または出力層への入力であることができる。ニューラルネットワークの各々の層は、その層のための１つまたは複数のモデルパラメータのための値に従って、受信された入力からそれぞれの出力を生成することができる。モデルパラメータは、ニューラルネットワークに正確な出力を生成させるために訓練アルゴリズムを介して決定される重みまたはバイアスであることができる。特徴量は、機械学習モデルによって受信される入力例の測定可能なプロパティである。特徴量値は、それぞれの特徴量のための値であり、整数値であることができる。

【0035】

パイプラインは、入力訓練例のための埋め込みを生成することを含んでよい。埋め込みは、より少ないデータを用いて入力訓練例の特徴量を表すことができ、より効率的な処理を可能にする。異なる入力訓練例のための特徴量テンソルは、異なる程度のスパース性を有し、これは、対応する埋め込みを生成するために必要とされる計算作業の量に影響する。ハードウェア回路１０１は、訓練入力例を表す特徴量値のテンソルを受信し、特徴量テンソルよりも低い階数を有するテンソルとして埋め込みを生成するように構成することができる。

【0036】

埋め込みを生成するために、コプロセッサ１０３は、ＸＰＵ１０２Ａ～１０２Ｆにおける効率的なスパースデータ計算のための様々なデータ依存オペレーションを実行するように構成されている。これらのオペレーションは、スパースベクタをソートまたは合計すること、入力ベクタの内容を要約するためのオペレーション、およびスパース行列を１つのスパース行列記憶フォーマットから別のものに変換するためのオペレーションを含む。

【0037】

データ依存オペレーションの性能を高速化するための物理的な所定の回路の代わりに、ＸＰＵ１０２Ａ～１０２Ｆは、様々な異なるデータ依存オペレーションを実行するように構成、例えば、プログラムすることができる。コプロセッサ１０３は、依然として相補的なコプロセッサ１０４に非常に効率的かつ並列化可能なオペレーションを実行させながら、スパースデータを処理する一般化されたサポートを可能にする。

【0038】

ハードウェア回路１０１は、様々な異なるタイプの処理ユニットのうちのいずれか、例えば、中央処理装置（ＣＰＵ）、グラフィックスプロセシングユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはテンソルプロセシングユニット（ＴＰＵ）などの特定用途向け集積回路（ＡＳＩＣ）であることができる。ハードウェア回路１０１は、コンピューティングデバイス上で実行されることができ、コンピューティングデバイス自体は、図１１を参照して本明細書において説明されているように、１つまたは複数のデバイスのシステムの一部であってよい。

【0039】

図２は、ＸＰＵ１０１を実行する例示的なタイル１０２のブロック図である。ＸＰＵ１０１はクロスレーン制御装置２１０に結合されている。クロスレーン制御装置２１０は、ＸＰＵ１０１上のクロスレーン命令を許容するための制御の別々のスレッドを提供する。本明細書に記載されているように、ＸＰＵは、例えば１つまたは複数の制御信号を介して第１の命令を受信することができ、この第１の命令は、１つまたは複数の第２および第３の命令に変換され、第１の命令によって指定された合成オペレーションを実行するために、それぞれＸＰＵ１０１の処理セルおよびクロスバーへ提供されることができる。ＸＰＵ１０１への命令は、制御信号上で搬送されることができ、この制御信号において、ＸＰＵ１０１の処理セルおよびクロスバーは、対応するプリミティブ操作を実行するために解釈するように構成されている。例示的な命令は、命令セットアーキテクチャ（ＩＳＡ）のオペコードであることができる。

【0040】

タイル１０２は、図１を参照して説明されているように、オンチップインターコネクト１０８およびオンチップメモリ１０５からデータを受信することができる。ＸＰＵは、命令インターフェース２２４、例えば、タイルシーケンサ１０６からスカラーコア２１２またはスカラーコア２２０を介して命令を受信することもできる。タイル１０２のスキャッタ／ギャザー制御装置２２２は、受信データを受信し、どのデータがメモリ２０６においてメモリスケジューラ２１４を通過させられるかを制御することができる。メモリスケジューラ２１４は、データがどのように評価され、メモリ２０６から検索されるかを調整する。メモリ２０６は、タイル１０２にプライベートであり、他のタイルなど、タイル１０２に接続された他の構成要素によってアクセス不能である。アービタ２０４は、例えば、クロック－サイクルトゥクロック－サイクル式に、ＶＰＵ２０２Ａ～２０２Ｈのいずれがメモリ２０６にアクセスするかを管理するように構成されている。タイル１０２は、タイル１０２によって実行されるタスクのタスクキュー２０８を維持することができる。タイル１０２は、タイル１０２をそれぞれハードウェア回路１０１およびメモリ２０６のその他のタイルと同期化するためにタイル同期化フラグ２１８および／またはメモリフラグ２１６のレジスタを維持することもできる。

【0041】

ベクタ処理ユニット（ＶＰＵ）２０２Ａ～２０２Ｈは、ＸＰＵ１０１とＶＰＵ２０２Ａ～２０２Ｈとの間の実線によって示されているデータ処理レーンを介してＸＰＵ１０１に接続されている。ＸＰＵ１０１とＶＰＵ２０２Ａ～２０２Ｈとの間の破線は制御信号を表し、制御信号は、受信制御信号に対応する合成オペレーションを実行するようにＸＰＵ１０１を構成するためにＸＰＵ１０１における制御セルによって受信されることができる。ベクタ処理ユニットは、入力ベクタにおける効率的なオペレーションのために構成されている。一度にタイル１０２によって処理されるベクタの長さは、タイルによって実行されるＶＰＵの数または幅に依存することができる。例えば、８つのＶＰＵ２０２Ａ～２０２Ｈは、８ワイドである。ＶＰＵ２０２Ａ～２０２Ｈは、同じデータ処理レーンに沿ってデータを処理することができる。ＶＰＵ２０２Ａ～２０２Ｈは、メモリ２０６からの受信ベクタの要素についてスカラーオペレーションを実行するように構成することができる。ＶＰＵ２０２Ａ～２０２Ｈは、ＸＰＵ１０１からデータを受信することができ、ＸＰＵ１０１は、本明細書に説明されているように、各々のＶＰＵ２０２Ａ～２０２Ｈによって実行されるように単にレーンに沿ってではなく、データ処理レーンを横断してデータを処理することができる。

【0042】

図３は、例示的なＸＰＵ３００のブロック図である。ＸＰＵ３００は、処理セル３０１～３０９、クロスバー２０３～３１０および制御セル３５０を含む。制御セル３５０は、図３のブロック図において斜線のブロックによって表されている。データは、データ処理レーン３００Ａ～３００Ｈに沿って下から上へ流れ、ステージ１において始まり、ステージ６において終了する。ステージ１は、処理セル３０１およびクロスバー３０２を含む。ステージ２は、処理セル３０３およびクロスバー３０４を含む。ステージ３は、処理セル３０５およびクロスバー３０６を含む。ステージ４は、処理セル３０７およびクロスバー３０８を含む。ステージ５は、処理セル３０９およびクロスバー３１０を含む。ステージ６は、処理セル３１１およびクロスバー３１２を含む。異なる例において、ＸＰＵは、より多いまたはより少ないステージを含むことができる。ＸＰＵは、クロスバー３９９も含むことができる。

【0043】

説明のために、より早期のステージは、より後のステージに対して「上流」と考えられ、より後のステージは、より早期のステージに対して「下流」と考えられる。例えば、ステージ１はステージ５の上流にあり、ステージ４はステージ３の下流にある。

【0044】

ＸＰＵの各々のステージにおけるクロスバーは、クロスバーの現在の構成に従ってそれぞれのレーンから異なる他の処理レーンへ異なる入力値を置換するために構成されたあらゆるタイプの回路であることができる。クロスバーは、クロスバーと同じステージにおける各々の処理セルのための制御セルから１つまたは複数の制御信号を受信することができる。クロスバーは、固定されたパターンに従って同じステージにおける各々の処理セルから入力値を置換するように構成されている。パターンは、ＸＰＵが現在実行するように構成されている合成オペレーションに依存し、必ずしもクロスバーに全ての処理セル出力を置換させるわけではない。言い換えれば、幾つかの処理セル出力は、クロスバーをバイパスし、同じ処理レーンに沿って次のステージへ進んでよい。

【0045】

処理セルを構成するために、ＸＰＵ３００の各々の処理セルは、処理セルが存在するそれぞれの処理レーンに沿って１つまたは複数の制御信号を受信するように構成されているそれぞれの制御セル３５０を有する。図４を参照してより詳細に説明されているように、処理セルは、様々な異なるプリミティブ操作を実行し、受信される制御信号または命令に従ってこれらのオペレーションを実行するための回路と共に構成されている。制御セルは、例えば、その対応する処理セルがどのプリミティブ操作を実行するかを決定するために制御セルによって解釈可能な１つまたは複数の信号として、データ処理レーンに沿って命令を受信する。制御セルは、制御信号を処理セルへ転送するか、または受信命令または信号を処理し、処理セルが、指定されたプリミティブ操作の実行を有効化または無効化するために受信するように構成された生成された制御信号を転送することができる。

【0046】

処理セルは、処理セルのためのそれぞれの処理レーンから受信される入力データをバイパスするように構成することもできる。バイパスされる場合、受信された入力は、修正なく、処理セルから、処理セルと同じステージにおけるクロスバーへ送られる。バイパスする処理セルによって前のステージのクロスバーから受信される入力は、ゼロに結び付けられるかまたは無視することができる。バイパスする処理セルの実際の挙動は、セルが存在するパイプラインステージ、および／または処理セルが存在する処理レーンに依存することができる。図４は、比較演算、算術演算および／またはバイパスプリミティブ操作を実行するように構成された例示的な処理セルを示す。

【0047】

ＸＰＵ３００は、ＸＰＵ３００を実行するそのプロセッサが適用および実行するように構成されている、命令セットアーキテクチャの一部または命令セットアーキテクチャへの拡張子として定義される命令を受信するように構成することができる。命令は、ＸＰＵおよび個々の処理セルがそれぞれ対応するオペレーションとして実行するように構成されている異なる合成オペレーションおよび／またはプリミティブ操作を指定することができる。制御セル３５０は、命令セットの一部または拡張子として定義された命令を表すデータを受信するようにおよび／または対応する処理セルを構成するために命令を制御信号に変換するように構成されている。例えば、制御セル３５０は、ＸＰＵ３００を実行するプロセッサまたはハードウェア回路に対応する命令セットの、ＸＰＵが実行するように構成されているオペレーションのためのオペコード、符号語として信号を受信することができる。ＸＰＵ３００が、ベクタソーティングまたはベクタ重複カウンティングなどの合成オペレーションを実行するための命令を受信すると、ＸＰＵ３００は、ＸＰＵに命令された合成オペレーションを実行させる所定のそれぞれのプリミティブ操作を実行するように各々の処理セルを構成することができる。

【0048】

ＸＰＵによって実行されるオペレーションは、クロックサイクルによって同期化することができる。例えば、各々のステージにおいて処理セルによって実行されるオペレーションは、１つまたは複数のサイクルにおいて実行することができる。例えば、各々のステージにおけるオペレーションは、単一のサイクルにおいて実行することができる。ＸＰＵによって実行される異なる合成オペレーションは、実行するために異なる量のクロックサイクルを採用することができる。例えば、ベクタソーティングは、６つのサイクルにおけるＸＰＵ、４つのサイクルにおけるベクタプレフィックス合計、および２つのサイクルにおけるベクタコンパクトによって実行することができる。

【0049】

図４に関してより詳細に説明されているように、処理セルは、浮動小数点値および符号付きまたは符号なし整数を含む、異なるタイプのオペランドの間の加算など、算術演算を実行するために構成することができる。加算などの算術演算は、図５を参照して本明細書に説明されているように、スキャニングオペレーションのためにＸＰＵによって実行される合成オペレーションの一部を形成していてよい。

【0050】

例示的な命令は、ＸＰＵをリセットし、ＸＰＵによって実行されるクロック同期ならびに合成オペレーションおよびプリミティブ操作についての情報を検索するための命令を含む。その他の命令は、各々の処理レーンからオペランド、マスク値および／またはセグメントマーカのうちの１つまたは複数を検索するための命令を含む。命令は、ＸＰＵによってサポートされる様々な異なる合成オペレーションの各々を指定する制御情報と共にＸＰＵによって記憶されているデータ構造にアクセスするための命令を含むことができる。さらに別の例において、命令は、ＸＰＵにデータを様々なレジスタ、ラッチまたはフリップフロップにプッシュさせ、前述の内容が有効であるかどうかを決定するための命令を含むことができる。プッシュされるデータは、例えば、合成オペレーションを実行することの一部として処理される値、および／またはマスク値を含むことができる。

【0051】

構成されたＸＰＵ３００は、特定の合成オペレーションを実行するための処理ネットワークを実行すると言われる。例えば、ＸＰＵ３００は、以下のように構成することができる４８のＸＰＵセルを含む。すなわち、１８のセルは算術演算のために構成することができ、３８のセルは入力値を比較するために構成されており（１つのセルは、算術演算および比較演算の両方のために構成されていてよい）、１０のセルは入力をバイパスするように構成されている。新たな命令に応答して、ＸＰＵ３００は、異なる合成オペレーションを実行するために、新たな処理ネットワークと共にそれ自体を再構成することができる。

【0052】

ＸＰＵは、命令セットまたは拡張子において異なる命令として指定することができる、様々な異なる操作モードにおいて操作するように構成することができる。異なる操作モードは、ソートし、重複をカウントし、固有値を識別し、スキャンし、データをパーティショニングし、および／またはＸＰＵへ入力されるデータにおける固有値を識別するための、異なる合成オペレーションを含むことができる。さらに命令は、例えば、ソーティングまたはスキャニングのための符号なし整数比較、または浮動小数点加算を実行するための比較または算術演算のタイプを指定するオペランドを含むことができる。合成オペレーションを実行するための命令に対するその他のオペランドは、どの処理レーンから合成オペレーションの出力がＸＰＵ３００から出現するかを指定することを含む。受信されるその他のオペランドは、例えば、データ処理レーンを横断してＸＰＵ３００によって受信されるデータの複数のセグメントの各々をソートするために、入力データのセグメントにおいて合成オペレーションを実行するためのセグメントマーカを含むことができる。

【0053】

ベクタソートおよび／またはベクタ重複カウントを実行する場合、ＸＰＵ３００は、奇偶マージネットワークおよび値シャッフルネットワークを含むように構成されている。例示的なネットワーク構成は、示されており、図４～図８Ｇを参照して説明されている。ネットワーク構成は、ＸＰＵの１つまたは複数のステージを含み、各々のステージのそれぞれのセルおよびクロスバーは、１つまたは複数のプリミティブ操作を実行するように構成されている。ベクタをソートした後、ＸＰＵ３００は、入力ベクタにおける非固有値を識別および除去することができ、固有値、例えば、処理された入力ベクタにおいて一度だけ出現する値のみを残す。

【0054】

ＸＰＵ３００は、レジスタファイル３６０Ａおよび３６０Ｂを含むことができる。レジスタファイル３６０Ａおよび３６０Ｂは、異なるステージ間のデータ処理レーン３００Ａ～３００Ｈに結合され、データを記憶および検索するために使用することができる。例えば、幾つかのデータは、ステージ４における処理セル３０７の後にレジスタファイル３６０Ｂに記憶されてよいのに対し、ＸＰＵ３００によって出力されたデータはレジスタファイル３６０Ａに記憶される。

【0055】

図４は、例示的なＸＰＵ処理セル４００および対応する制御セル４９９のブロック図である。処理セル４００は、制御信号に基づいて、本明細書に記載されているような多数のプリミティブ操作を実行するように構成することができる。制御信号は、ＸＰＵをプログラムするための命令セットの一部を形成するオペコードを表すことができる。

【0056】

ＸＰＵ処理セル４００は、ＸＰＵ処理セルの可能な回路実行の一例である。異なる例において、ＸＰＵ処理セル４００は、異なるプリミティブ操作を実行するように構成された回路を実行するためのより多いまたはより少ない構成要素を含むことができる。幾つかの例において、ＸＰＵ処理セル４００は、プリミティブ操作のサブセットのためにのみ構成された回路を含んでよい。その他の例において、ＸＰＵ処理セルは、順次または並列にプリミティブ操作の全てを実行するように構成された回路を含んでよい。

【0057】

各々の処理セルは、値の入力タプルを受信することもできる。パスされた値は、整数もしくは浮動小数点値などの個々の値、または整数もしくは浮動小数点値のタプルもしくはリストなどの値のグループであることができる。

【0058】

ソース入力は、ｘ＿ｓｏｕｒｃｅ＿１４０２およびｙ＿ｓｏｕｒｃｅ＿１４０２、集合的に「ソース入力」を含む。ソース入力は、本明細書に記載されているように、ＸＰＵによって処理されるベクタの要素を含むことができる。ソース入力は、３２ビット浮動小数点加算器（ＦＰ３２ＡＤＤ）４０３、３２ビット符号付き整数加算器（Ｓ３２ＡＤＤ）４０４、３２ビット浮動小数点比較器（ＦＰ３２４０５）、および３２ビット符号付き整数比較器（Ｕ３２ＣＭＰ）４０６のうちの１つまたは複数を通過することができる。加算器４０３、４０４は、ソース入力の合計を計算し、出力合計をマルチプレクサ４０７へ送ることができる。比較器４０５、４０６は、入力値を比較し、最大／最小値を出力として比較セレクタ４９２へ送る。

【0059】

比較セレクタ４９２は、比較器４０５、４０６の出力、およびマスク値ｘ＿ｍａｓｋ４４４およびｙ＿ｍａｓｋ４４６を受信することができる。マスク値は、処理セル４００によって受信された幾つかまたは全ての入力をマスキングするために、本明細書に記載された所定の合成オペレーションの一部として使用することができる。

【0060】

比較セレクタ４９２は、入力を選択し、入力をｓｅｌｅｃｔｉｏｎ＿ｏｕｔｐｕｔ４７２としてマルチプレクサ制御装置４４０へ送る。比較セレクタ４９２は、比較器（ＣＭＰ４２６）から出力を受信することもできる。比較器４２６は、レーン識別子ｘ＿ｌａｎｅ＿ｉｄ４２２およびｙ＿ｌａｎｅ＿ｉｄ４２４を受信し、両者のうち大きい方を決定するためにレーン識別子を比較することができる。比較器４２６は、その出力をマルチプレクサ４７２、４７６、４７８および／または４８０へ送ることもできる。比較器４２６からの出力は、ｘレーンのためのレーン識別子がｙレーンのためのレーン識別子よりも大きいかどうかを示すブール値（ｘ＿ｌａｎｅ＿ｉｄ＿ｇｒｅａｔｅｒ＿ｙ＿ｌａｎｅ＿ｉｄ４９０と呼ばれる）であることができる。ｓｅｌｅｃｔｉｏｎ＿ｏｕｔｐｕｔ４７２は、図８Ａを参照して本明細書に記載されているように、比較セレクタ４９２の構成に基づいて決定することができる。

【0061】

マルチプレクサ４０７は、加算器４０３、４０４の合計、および／またはソース入力４０１、４０２を直接受信することができる（例えば、処理セル４００がバイパスを実行するために構成されている場合）。マルチプレクサ４０７の出力は、レジスタ４０８に記憶され、出力として、ｙ＿ｓｏｕｒｃｅ＿１＿ｏｕｔ４８４としての処理セルへ送られることができる。マルチプレクサ４０７は、「ｘ」データがソースされる出力レーン識別子を、ｏｕｔ＿ｌａｎｅ＿ｉｄ＿ｐｒｅ４８８として受信することもできる。

【0062】

マルチプレクサ４７２および４７６は、ｘ＿ｄｕｐ＿ｃｏｕｎｔ４１４およびｙ＿ｄｕｐ＿ｃｏｕｎｔ４１６として、重複カウントを表す値を受信することができる。図８Ａを参照して本明細書に記載されているように、処理セル４００は、例えば入力ベクタをソートしながら、入力ベクタの値の重複カウントを計算するように構成することができる。インクリメント値ｘ＿ｉｎｃｒｅｍｅｎｔ４１８およびｙ＿ｉｎｃｒｅｍｅｎｔ４２０も、マルチプレクサ４７８および４８０によって受信されることができ、開示の態様に従ってかつ図８Ａを参照して本明細書に記載されたように、奇偶マージネットワークと共に重複カウントを実行する一部として使用される値である。

【0063】

値４３０、４３２、４３４および４３６は、レーンカウント計算機４２８へ送られる。レーンカウント計算機４２８は、入力レーンのより大きなレーンカウントを表す値（ｌａｒｇｅｒ＿ｌａｎｅ＿ｃｏｕｎｔ４３０）、入力レーンのより小さなレーンカウントのための値（ｓｍａｌｌｅｒ＿ｌａｎｅ＿ｃｏｕｎｔ４３２）、インクリメント値４１８、４２０の大きい方の値（ｌａｒｇｅｒ＿ｌａｎｅ＿ｉｎｃｒ４３４）、およびインクリメント値４１８および４２０のうちの小さい方（ｓｍａｌｌｅｒ＿ｌａｎｅ＿ｉｎｃｒ４３６）を使用して、入力データ処理レーンｘおよびｙを横断して重複値のカウントを計算することができる。レーンカウント計算機４２８の例示的な実行は、図８Ａおよび「ＭＡＸ」セルを参照して本明細書に記載されている。

【0064】

ＸＰＵ処理セル４００は、処理セル４００と同じステージのクロスバーへ送信される、複数の出力を生成することができる。レジスタ４８２は、出力値（ｙ＿ｓｏｕｒｃｅ＿２＿ｏｕｔ４８６）、例えば、処理レーンｙからのバイパスされた入力値を保持することができる。マスク値４４４、４４６は、ロジカルＯＲ回路４４２を通過することができ、その出力はレジスタ４８７に記憶することができる。処理セルは、ｙ＿ｍａｓｋ＿ｏｕｔ４８２として処理セルのためのマスク値を出力することができる。

【0065】

マルチプレクサ４４８は、デフォルト値０、およびレーンカウント計算機４３８からのｓｍａｌｌｅｒ＿ｌａｎｅ＿ｃｏｕｎｔ４３２を受信し、インクリメント値（ｙ＿ｉｎｃｒ＿ｏｕｔ４５８）を出力することができる。マルチプレクサ４４８への出力は、レジスタ４５４に記憶することができる。マルチプレクサ４５２は、デフォルト値０、および重複カウント４１４、４１６を受信し、処理セル４００のためのカウント値（ｙ＿ｃｏｕｎｔ＿ｏｕｔ４６０）を出力することができる。マルチプレクサ４５２への出力は、レジスタ４５４に記憶することができる。マルチプレクサ４５６は、レーン識別子４２２および４２４を受信し、レーン識別子（ｙ＿ｌａｎｅ＿ｉｄ＿ｏｕｔ４６２）を出力することができる。マルチプレクサ４５６への出力は、レジスタ４５８に記憶することができる。

【0066】

図４における破線は、処理セル４００および制御セル４９９を通過した制御信号を示す。制御セル４９９は、例えばオペコード４２８として、命令を受信することができる。制御セル４９９は、命令を、例えば制御信号として、マルチプレクサ制御装置４４０およびレーンカウント計算機４３８へ送信する。マルチプレクサ制御装置４４０は、受信された命令に基づいて、マルチプレクサ４０７、４４８、４５２および４５６へ信号を送信するように構成されている。レーンカウント計算機４３８の出力も、制御セル４９９からの受信信号に基づく。制御セル４９９によってＸＰＵセル４００へ送信された命令は、ＸＰＵセル４００のステージおよびレーンに依存することができる。

【0067】

マルチプレクサ４０７、４４８、４５２および４５６の各々は、マルチプレクサ制御装置４４０から、例えば、制御信号として受信された命令に従って構成することができる。受信された信号に応じて、マルチプレクサ４０７、４４８、４５２および４５６は、受信された入力とは異なる値を出力する。

【0068】

処理セル４００に命令を送信することに加え、制御セル４９９は、オペコード４２８を下流へ（ｏｐｃｏｄｅ＿ｏｕｔ４６８として）送り、制御セル４９９と同じステージにおける下流のクロスバーへ命令を（ｘｂａｒ＿ｃｔｒｌ＿ｏｕｔ４７０として）送信することもできる。クロスバーへ送信された命令により、クロスバーは、受信された入力を固定パターンに従って置換することができる。ＸＰＵの各々の制御セルは、異なるオペコードを受信し、本明細書に記載されているように１つまたは複数のプリミティブ操作を実行するために対応する処理セルを構成してよい。構成された処理セルおよびクロスバーは、合成オペレーションを実行するための処理ネットワークを形成し、その例は、図５および図６を参照して本明細書に提供されている。

【0069】

レジスタが図４に記載されているが、幾つかの例において、処理セル４００は、例えばマルチプレクサまたは算術もしくは比較回路から、データを一時的に記憶するための様々な回路のいずれかを使用することができる。レジスタは、１つまたは複数のフリップフロップまたはラッチを含むことができる。

【0070】

例示的な方法
ベクタスキャンおよびベクタセグメント化スキャン
図５は、開示の態様による、ＸＰＵによって実行されるベクタスキャンオペレーションのための例示的なＸＰＵ構成５００のブロック図である。ベクタスキャンは、入力ベクタにおける要素のローリングサムである。構成５００を使用して構成されているときのＸＰＵは、ベクタを出力することができ、このベクタにおいて、各々の要素は、要素の指数までの入力ベクタにおける要素のローリングサムである。例えば、出力ベクタの第１の要素は、入力ベクタの第１の要素と等しい。出力ベクタの第２の要素は、入力ベクタの第１の要素と入力ベクタの第２の要素との合計と等しい。出力ベクタの第３の要素は、入力ベクタの第１、第２および第３の要素の合計と等しい、などである。

【0071】

構成５００は、ベクタスキャンに加え、ベクタセグメント化スキャンのためにも使用することができる。構成５００は、ベクタのセグメントを決定するためにマスクビットのセットを受信する。ＸＰＵセルは、マスクビットを受信し、ＸＰＵセルが、マスクビットを受け取っているそれぞれのＸＰＵセルの値と同じセグメントにおいて入力要素を受信するかどうかに応じて、下流のＸＰＵセルへデータをバイパスまたは変換するように構成されている。

【0072】

構成５００は、前のステージの異なるレーンからの、図４に示されているような出力タプル、例えば、ｙ＿ｓｏｕｒｃｅ＿１＿ｏｕｔ、ｙ＿ｍａｓｋ＿ｏｕｔ、ｙ＿ｉｎｃｒ＿ｏｕｔ、ｙ＿ｃｏｕｎｔ＿ｏｕｔおよびｙ＿ｌａｎｅ＿ｉｄ＿ｏｕｔを、現在のレーンにおける入力タプル、例えば、ｘ＿ｓｏｕｒｃｅ＿１、ｘ＿ｍａｓｋ、ｘ＿ｉｎｃｒ、ｘ＿ｃｏｕｎｔおよびｘ＿ｌａｎｅ＿ｉｄに置換するクロスバーを示す。図５において、点線は、処理レーン５００Ａ～５００Ｈをストリーミングされるデータを表す。実線は、構成５００におけるステージ間でデータがどのように置換されるかを表す。構成５００は、４サイクル構成である。５以上のクロスバーを有するＸＰＵにおいて実行される場合、構成５００の一部として使用されないステージにおけるクロスバーは、各々のレーンを通じてデータをバイパスするように構成することができる。

【0073】

ステージ５０５において始まり、レーン５００Ａにおける入力要素はバイパスされ、レーン５００Ａ～５００Ｇにおける各々の要素はそれぞれのセル５０１Ｂ～５０１Ｈへ送られる。セル５０１Ａは、入力要素をレーン５００Ａから次のステージへバイパスする。セル５０１Ｂ～５０１Ｈは、シフトされたレーンからの入力要素と、各々のそれぞれのセルが存在するレーンの入力要素とを合計する。各々のセル５０１Ａ～５０１Ｈの出力は下流へ送られる。

【0074】

ステージ５１０において、レーン５００Ａ～５００Ｅの入力要素は、クロスバー５０５Ａから、入力要素のレーンから２つ離れたそれぞれのレーンへ置換される。セル５０２Ａおよび５０２Ｂは、次のステージの下流の受信された入力をバイパスする。セル５０２Ｃ～５０２Ｇは、それらのそれぞれのレーンの入力要素を、それぞれの置換された入力要素と合計する。セル５０２Ａ～５０２Ｈの各々の出力は下流へ送られる。

【0075】

ステージ５１５において、セル５０３Ａ～５０３Ｃは、それらの入力を、各々のセルのそれぞれのレーンにおけるレジスタ５２３へバイパスする。セル５０３Ｄ～５０３Ｈは、シフトされた入力を、クロスバー５１０Ａから、およびそれぞれのレーンに対して３つ離れたレーンから受信する。セル５０３Ｄ～５０３Ｈは、それらのそれぞれのレーンの入力要素と、受信されたシフトされた入力との合計を生成する。セル５０３Ａ～５０３Ｈの各々の出力は、下流へレジスタ５２３内に送られ、その後、ＸＰＵの出力ベクタの一部として送られる。

【0076】

ステージ５２０において、ステージ５１５からの出力データは、ＸＰＵの下流の出力として送られる前に、レジスタファイル５２３に一時的に記憶することができる。

【0077】

ベクタソートおよびベクタ重複カウント
図６は、開示の態様による、ＸＰＵによって実行されるベクタソートおよびベクタ重複カウントオペレーションのための例示的なＸＰＵ構成６００のブロック図である。構成６００は、６つのステージ６０５～６３０を有する。

【0078】

ベクタソートを実行するために、ＸＰＵは、キーと値とのタプルを受信することができる。例示的な入力は：
キー＝｛５，５，１０，１，５１２，８，１０２３，６５０｝
値＝｛ａ，ｂ，ｃ，ｄ，ｅ，ｆ，ｇ，ｈ｝
であることができる。

【0079】

上記の例示的な入力によってベクタソートを実行するためにＸＰＵによって出力される例は：
キー＝｛１，５，５，８，１０，５１２，６５０，１０２３｝
値＝｛ｄ，ａ，ｂ，ｆ，ｃ，ｅ，ｈ，ｇ｝
である。結合のイベントにおいて、より大きい数のＶＰＵレーンからソースされたキーは、結合された値のうちの大きい方として選択される。例えば、レーン０と１との間の結合のイベントにおいて、レーン１からのキーは、より大きな数のＶＰＵレーンから来ているものとして選択される。

【0080】

ベクタ重複カウントを実行するために、ＸＰＵは、値のベクタを受信し、出力として、各々の要素が、独特の値がその要素までに入力ベクタに出現する回数に対応するベクタを生成することができる。

【0081】

例示的な入力は：
値＝｛１０，５，１０，５，１０，５，５，１０｝
であることができる。

【0082】

例示的な出力は：
カウント＝｛１，１，２，２，３，３，４，４｝
であることができる。

【0083】

図７および図８Ａ～図８Ｈを参照してより詳細に記載されているように、各々のステージにおいて、処理セルは、ＭＩＮまたはＭＡＸセルとして構成されており、奇偶マージソートネットワークおよび値シャッフルネットワークの一部を形成している。構成６００は、６ステージ構成である。構成を実行するＸＰＵが、７以上のクロスバーを有する場合、残りのクロスバーは、入力要素をバイパスするように設定することができる。開示の態様によれば、同じＸＰＵ構成６００は、各々のベクタのための重複要素のカウントを生成しながらベクタ要素をソートすることを可能にする。ベクタソーティングおよび重複カウンティングのために構成されたＸＰＵのセルおよびクロスバーを横断するデータのストリーミングは、図７および図８Ａ～図８Ｈを参照して記載されている。

【0084】

結果として生じる出力ベクタは、値の一意でないインスタンスを除去するためにさらに処理されることができる。重複カウントおよびソートされたリストが与えられている場合、ＸＰＵは、リストを通じて反復し、一意でない値を除去することができ、これにより、以下のような例示的な出力を生成する：
固有値＝｛１，２，３，４｝
ＸＰＵ構成６００は、ソーティングおよび重複カウンティングの両方を可能にするので、ＸＰＵは、入力ベクタに存在する各々の値の単一のインスタンスのみを含む「一意にされた」出力ベクタをさらに生成することができる。

【0085】

図７は、奇偶マージネットワーク７０５および値シャッフルネットワーク７１０を含むように構成された例示的なＸＰＵ７００のブロック図である。キーおよび値のタプルは、ＶＰＵレーン７００Ａ～７００Ｎを通過し、奇偶マージネットワーク７０５に入り、そこでキーがソートされる。ＸＰＵ７００は、８つのデータ処理レーンを含むが、その他の例において、ＸＰＵ７００は、より少ないまたはより多いデータ処理レーン、例えば、２のべき乗に等しい複数のデータ処理レーンを有してよい。これらの例において、奇偶マージネットワーク７０５および値シャッフルネットワーク７１０は、一般性の損失なく、対応して拡張または凝縮される。

【0086】

値は、ソートされたネットワーク７０５を通る点線によって示された、ソートされたネットワーク７０５におけるキーと共に移動するのではなく、代わりに、それらの対応するキーと共に再配置されるために値シャッフルネットワーク７１０へ直接通過する。入力ベクタの要素は、キー－値タプルとして記述されているが、整数値、浮動小数点値などの、比較することができるあらゆるタイプのデータをＸＰＵへの入力として受信することができることが理解される。

【0087】

幾つかの例において、バッチャーの奇偶マージソートを奇偶マージネットワーク７０５において実行することができる。図８Ａを参照して本明細書に記載されているように、奇偶マージネットワークは、入力キー－値タプルを処理しかつキーによってタプルをソートするための複数のステージを含むことができる。

【0088】

タプルがキーによってソートされた後、値シャッフルネットワーク７１０は、値を、それらの関連するキーに対応するレーンにシャッフルする。値シャッフルネットワーク７１０は、８×８３２ビットクロスバーであることができる。クロスバーへの入力は、３２ビット値およびレーン識別子である。値シャッフルネットワーク７１０は、レーン識別子に応じて、複数のモードをサポートすることができる。例えば、値シャッフルネットワーク７１０は、ソースレーン識別子が提供されるときに、対応するソースレーンから３２ビット値をルーティングするように構成されている。別のモードにおいて、送信先レーン識別子は、３２ビット値を適切な出力レーンにルーティングするために使用される。ベクタソーティングのために、本明細書に記載されているように、ベクタ重複カウンティングにある間、値シャッフルネットワーク７１０はソースレーン識別子モードに設定されることができ、値シャッフルネットワーク７１０は送信先レーン識別子モードに設定される。ベクタ重複カウンティングのために、値シャッフルネットワーク７１０は、それらの対応する値を有するカウント値をシャッフルする。オペレーションモードは、ＸＰＵの制御セルによって提供される１つまたは複数の信号搬送命令として指定されることができる。

【0089】

図８Ａは、組み合わされたマージソートおよび重複カウントを実行するための奇偶マージソートネットワーク７０５の例示的なＸＰＵ構成８００の流れ図である。例示的なＸＰＵは、０～７にラベル付けされた８つの処理レーンを有する。奇偶マージソートネットワーク７０５は６つのステージを有する。６つのステージは、ステージ１８０１Ａ（１×１奇偶マージ）、ステージ２８０１Ｂ（２×２マージ）、ステージ３８０１Ｃ（２×２奇偶マージ）、ステージ４８０１Ｄ（マージフェーズ１）、ステージ５８０１Ｅ（マージフェーズ２）、およびステージ６（奇偶マージ）である（それぞれ、「ステージ１」、「ステージ２」、「ステージ３」、「ステージ４」、「ステージ５」および「ステージ６」）。

【0090】

各々のステージにおいて、ＸＰＵの処理セルは、２つの入力オペランドの最小値を決定し、より小さなオペランドが受信されたデータ処理レーンのレーン識別子を有するより小さなオペランドを戻すために、プリミティブ操作を実行するように構成されている。図８Ａ～図８Ｈに示された各々の矢印において、ＸＰＵは、入力オペランドを比較するために構成された処理セルを含む。２つの入力オペランドの最小値を決定するために構成された処理セルはＭＩＮセルと呼ばれるのに対し、２つの入力オペランドの最大値を決定するために構成された処理セル（ｗｈｉｌｅａｐｒｏｃｅｓｓｉｎｇｃｅｌｌ）。

【0091】

ＭＩＮセルの例示的な疑似コード実行が、表１に示されている。この例およびその他の例のために、疑似コードは、図４を参照して示されかつ記載された変数および入力／出力値を参照してよい。

【0092】

【表1】

【0093】

表１に示したように、ｘおよびｙは、それぞれレーン識別子ｘ＿ｌａｎｅ＿ｉｄおよびｙ＿ｌａｎｅ＿ｉｄを有する対応するレーンを通過した値である。例えば、ステージ１において、レーン０は、値ｘを通過させることができ、レーン１は、値ｙを通過させることができる。表１のライン１において、変数ｘ＿ｌｅｓｓ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄは、ブール値である。変数は、２つの条件下で真である。第１に、値ｘおよびｙが互いに等しく、ｘ値を有するレーンのためのレーン識別子が、ｙ値を有するレーンのためのレーン識別子よりも大きくないとき、変数は真である。この条件は、より低いレーン識別子を有するレーンを比較される値の最小値として設定することによって、ｘがｙと等しいときの均衡を破るために設定される。第２に、値ｘが値ｙよりも小さい場合、変数は真である。変数ｘ＿ｌｅｓｓ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄが真であるならば、次いで、ライン３～５において、ＭＩＮセルは、ｘをｘ，ｙの最小値として出力し、ｘ＿ｌａｎｅ＿ｉｄレーン識別子も出力する。それ以外は、ライン７～９に示したように、ＭＩＮセルは、ｙおよびｙ＿ｌａｎｅ＿ｉｄを出力する。

【0094】

処理セルは、２つの入力オペランドの最大値を決定するためのプリミティブ操作を実行するように構成されることもでき、ＭＡＸセルと呼ばれる。両方のプリミティブ操作において、一方のオペランドは、それぞれの処理セルのためのデータ処理レーンから来るのに対し、第２のオペランドは、別のデータ処理レーンからのクロスバーを介して提供される。

【0095】

ＭＡＸセルの例示的な疑似コード実行が、表２に示されている：

【0096】

【表2】

【0097】

表２のライン１において、値ｘが値ｙと等しく、値ｘに対応するレーンのためのレーン識別子が、値ｙに対応するレーンのためのレーン識別子よりも大きいとき、または値ｘが値ｙよりも大きいとき、変数ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄは、真であるブール値である。ＭＡＸセルは、ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄが真であるとき、ｘおよびレーン識別子ｘ＿ｌａｎｅ＿ｉｄを出力し、そうでなければｙおよびレーン識別子ｙ＿ｌａｎｅ＿ｉｄを出力する。第１の条件は、値ｘが値ｙと等しい場合のタイブレーカである。

【0098】

入力要素のための重複カウントも取得するために奇偶マージソートネットワークを構成するために、様々なステージにおけるＭＡＸセルは、本明細書に記載のように構成されている。重複カウントを実行するためのＭＡＸセルへの修正は、実質的に、タイミングおよびロジックの複雑さを追加せず、幾つかの例において、ＸＰＵによって処理される現在の作業負荷に基づいて有効化または無効化されることができる。ベクタソートおよび重複カウントオペレーションをＸＰＵの同じ構成の一部として組み合わせることによって、ＸＰＵは、別々に構成されたハードウェアなしにおよび／またはオペレーション間にＸＰＵを再構成することなしに、両方のオペレーションのための値をより効率的に取得することができる。ＭＡＸセルは、ＭＡＸセルが、奇数要素および偶数要素が比較およびソートされる奇偶マージステージの一部であるか、または奇数要素が偶数要素とは別に比較される奇－奇／偶－偶マージの一部であるかに応じて、異なるオペレーションを実行する。以下の説明において、「値」という用語は、一般的にソートされる要素を指すために使用されている。図８Ｂ～図８Ｈを参照して示されかつ記載されているように、ソートされる値は、キー－値対のタプルのキーであることができる。

【0099】

１×１奇偶マージステージ１において、隣接する要素は、ステージ１における４つの破線のボックスによって示された、長さ２の４つのソートされたリストを形成するために比較される。２×２奇－奇／偶－偶マージステージ２において、隣接するソートされたリストの奇数要素が比較される。ステージ２における２つの破線のボックスによって示された、隣接するソートされたリストの偶数要素も比較される。ステージ３は、各々のｉ番目の要素がｉ＋１番目の要素とマージされる２×２奇偶マージステージである。ステージ４および５は、４×４奇－奇／偶－偶マージのフェーズ１および２である。ステージ４において、隣接するソートされたリストの奇数要素の第１のセットが比較される。偶数要素の第１のセットも比較される。ステージ５において、隣接するソートされたリストの奇数要素の第２のセットが比較される。偶数要素の第２のセットも比較される。ステージ６は、ｉ番目の要素がｉ＋１番目の要素でソートされる４×４奇偶マージフェーズである。ステージ６の出力は、長さ８の１つのソートされたリストである。ソーティングの後、キーによってソートされたタプルは、ＸＰＵによって計算されたカウントをそれらの対応するキーにシャッフルするために、値シャッフルネットワークを通過する。各々のステージは、図８Ｂ～図８Ｈを参照してより詳細に記載されている。

【0100】

ステージ１において、ＸＰＵは、レーン０、１、２、３、４、５、６および７における値を比較する。図８Ａのステージ１における破線のブロックは、ＸＰＵが、隣接するレーンの対の値をソートした後の、４つのソートされたリストを表す。より小さい数のレーンにおける値が、より大きい数のレーンにおける値よりも大きい場合、ＸＰＵは、レーン間で値を交換する。出力レーンｌの場合、カウントＣ_ｌは、レーンｌにおける値と同じ値を有するレーンのセットを通過する値の合計である。レーンのセットＳ_ｌは、その識別子が、現在のレーン以下であるレーンを含む。例えば、レーン５のためのセットＳ_ｌは、レーン１～４を含んでよいが、レーン６を含まなくてよい。

【0101】

重複カウントを計算するために、ステージ１におけるＭＡＸセルは、上側のレーンのカウントを、下側のレーンのカウントよりも１つ多く設定するように構成することができる。上側および下側のレーンは、そのカウントが増加させられる値をソースするＶＰＵレーンに基づいて決定されることができる。奇偶マージステージにおいてソートおよび重複カウントを実行するための例示的な疑似コード実行が、以下の表３に示されている：

【0102】

【表3】

【0103】

表３において、ＭＡＸセルは、ライン１に従って、変数ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄのブール値を決定する。ライン３～ライン９に従って、ＭＡＸセルはまず、それぞれ値ｘおよびｙをストリーミングするレーンについてｘ＿ｌａｎｅ＿ｉｄ識別子がｙ＿ｌａｎｅ＿ｉｄよりも大きいかどうかを決定する。変数ｘ＿ｌａｎｅ＿ｉｄ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｌａｎｅ＿ｉｄが真であるならば、ＭＡＸセルは、値ｘをストリーミングするレーンのカウント変数ｘ＿ｃｏｕｎｔに対してｃｏｕｎｔ＿ｌａｒｇｅ変数を設定し、値ｙをストリーミングするレーンのカウント変数ｙ＿ｃｏｕｎｔに対してｃｏｕｎｔ＿ｓｍａｌｌ変数を設定する。それ以外は、ライン７～ライン９に示されているように、変数ｃｏｕｎｔ＿ｌａｒｇｅがｙ＿ｃｏｕｎｔに設定され、変数ｃｏｕｎｔ＿ｓｍａｌｌがｘ＿ｃｏｕｎｔに設定される。

【0104】

ライン１１によれば、ＭＡＸセルは、変数ｃｏｕｎｔ＿ｌａｒｇｅのための値を増加させる。ライン１３～ライン２１によれば、変数ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄのための値に基づいて、入力値ｘおよびｙが等しい場合はいつでも、増加したｃｏｕｎｔ＿ｌａｒｇｅ変数が出力され（ライン１６、２１）、またはそれ以外は、２つの値のうちの大きい方のそれぞれのカウントが出力される。例えば、述語ｘ＿ｅｑｕａｌ＿ｙがライン１６において真ではなく、ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄが真であるならば、ライン１６におけるｏｕｔ＿ｃｏｕｎｔ＝ｘ＿ｃｏｕｎｔが出力される。同様に、述語ｘ＿ｅｑｕａｌ＿ｙがライン１６において真ではなく、ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄが真ではないならば、ライン１６におけるｏｕｔ＿ｃｏｕｎｔ＝ｙ＿ｃｏｕｎｔが出力される。

【0105】

ステージ２は、２×２奇－奇／偶－偶マージステージである。ステージ１からの４つのソートされたリストからの隣接するソートされたリストの奇数要素は、比較され、必要であれば交換される。図８Ａに示したように、レーン０の値はレーン２の値と比較され、レーン１の値はレーン３と比較され、レーン４の値はレーン６と比較され、レーン５の値はレーン７と比較される。

【0106】

奇－奇／偶－偶ステージにおいて、偶数レーンｌ（例えば、レーン０、レーン２、レーン４など）のためのカウントＣ_ｌは、レーンのセットＳ_ｌにおける値の合計である。レーンのセットは、レーンｌと同じ値Ｖ_ｆを有するレーンであると定義され、偶数レーンにおいて現在のレーン以下である。

【0107】

２×２奇－奇／偶－偶マージステージにおいてレーンｌのための重複カウントを計算するために、ＭＡＸセルは、比較されるレーンにおける等しい値のカウントを付加し、合計を上側のレーンに割り当てる。下側および上側のレーンは、カウントされている値をソースしたレーンに基づいて決定される。

【0108】

ステージ３は、２×２奇偶マージステージである。このステージにおけるＸＰＵは、前のステージからの２つのリストをマージし、レーン１および２における値と、レーン５および６における値とを比較する。２×２奇偶マージステージにおいてソートおよび重複カウントを実行するための例示的な疑似コード実行は、以下の表４に示されている。

【0109】

【表4】

【0110】

表４において、変数ｃｏｕｎｔ＿ｌａｒｇｅは、比較されるレーンｘおよびｙからのカウントの合計である。入力値ｘおよびｙが等しいとき（ライン１６、２１）はいつでも、ＭＡＸセルはｃｏｕｎｔ＿ｌａｒｇｅ変数を出力し、またはそれ以外は、２つの値の大きい方のそれぞれのカウントを出力する。例えば、述語ｘ＿ｅｑｕａｌ＿ｙがライン１６において真ではなく、ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄが真であるならば、ライン１６におけるｏｕｔ＿ｃｏｕｎｔ＝ｘ＿ｃｏｕｎｔが出力される。同様に、述語ｘ＿ｅｑｕａｌ＿ｙがライン１６において真ではなく、ｘ＿ｇｒｅａｔｅｒ＿ｔｈａｎ＿ｙ＿ｏｒｄｅｒｅｄが真でないならば、ｏｕｔ＿ｃｏｕｎｔ＝ｙ＿ｃｏｕｎｔが出力される。

【0111】

ステージ４は、４×４奇偶マージステージのための第１のフェーズである。出力レーンのセットは、偶数レーンのセットおよび奇数レーンのセットを含むと記述することができる。第１のフェーズは、２×２奇－奇／偶－偶マージソートに関して本明細書に記載されたように、入力ソートされたリストをマージすることと同様である。

【0112】

ステージ５は、４×４奇偶マージのための第２のフェーズである。例えば、図８Ａに示したように、ソートおよびマージされる偶数レーンは、レーン｛２，４｝であり、ソートおよびマージされる奇数レーンは、｛３，５｝である。ＭＡＸセルは、さもなければ４×４奇偶マージ中に出力レーンに不注意に付加される場合がある複数の重複カウントを管理およびハンドリングするように構成されている。レーン２における重複カウントは、レーン６からのＣ_６またはレーン２からのＣ_２であることができる（なぜならば、レーン２および６はフェーズ１の間に比較されるからである）。レーン４における重複カウントは、レーン０からのＣ_０、レーン４からのＣ_４、またはＣ_４＋Ｃ_０であることができる。フェーズ２において、レーン｛２，４｝がマージされるとき、可能な出力組合せは：

【0113】

【表5】

【0114】

フェーズ１において４×４奇－奇／偶－偶マージステージにおいて重複カウントを実行するための例示的な疑似コード実行が、表５に示されている：

【0115】

【表6】

【0116】

実行は、例えば、表４に示したように２×２マージと同様であるが、上述のＣｍ値にラッチされたｏｕｔ＿ｉｎｃｒによって表された値を有する。ｏｕｔ＿ｉｎｃｒ値は、フェーズ２において４×４奇－奇／偶－偶マージステージの最終重複カウントを修正するために使用される。

【0117】

４×４奇－奇／偶－偶マージステージにおいて重複カウントを実行するための例示的な疑似コード実行は、以下にフェーズ２に示されており、表６に示されている：

【0118】

【表7】

【0119】

ライン３～１３において、より大きなインクリメント値ｉｎｃｒ＿ｌａｒｇｅは、より大きなレーンのインクリメント値に設定され、より小さなインクリメント値ｉｎｃｒ＿ｓｍａｌｌは、より小さなレーンのインクリメント値に設定される。ライン１５～１８において、より大きなレーンのカウントｃｏｕｎｔ＿ｌａｒｇｅは、前のステージ１からの潜在的な追加された重複値を補償するために調整される。

【0120】

ステージ６において、４×４奇偶マージである。ステージ３における２×２奇偶マージと同様に、ｉ番目とｉ＋１番目の要素が比較され、マージされる。出力は、長さ８の１つのソートされたリストである。

【0121】

ステージ６の後、値シャッフルネットワークは、構成されたＸＰＵにおいて実行された合成オペレーションに基づいて値をシャッフルする。ベクタソートオペレーションの場合、ソースレーンモードにおける値シャッフルネットワークは、対応するソートされたキーがソーティングの後にどこで終了したかに基づいて、値をそれらの元のレーンから適切な送信先レーンへルーティングする。重複カウントオペレーションの場合、送信先レーンモードにおける値シャッフルネットワークは、対応するカウントされた値がソーティング後にどこで終了したかに基づいて、各々のレーンのカウントを元のレーンから適切な送信先レーンへルーティングする。

【0122】

幾つかの例において、ＸＰＵは、それぞれ最小値または最大値のための入力をスキャンするための浮動小数点ＭＩＮ／ＭＡＸスキャンを実行するように構成することができる。ＸＰＵは、例えば、最大または最小インデックスを識別するように、処理レーンを横断して、受信されたタプルのインデックスをスキャンするために構成することもできる。オペレーションをスキャンするための合成オペレーションを実行することの一部として、処理セルは、例えば３２ビット浮動小数点値などの浮動小数点値の間、または符号なし整数の間の比較を実行するように構成することができる。比較のためのプリミティブ操作は、本明細書に記載されているように、重複値をソートまたはカウントするなど、その他の合成オペレーションのために使用されてもよい。

【0123】

図８Ｂ～図８Ｇは、例示的な入力におけるマージソートネットワーク８００Ａの各々のステージを示す。記述のためにソートされた例示的なキーは：
キー＝｛５，６，７，６，５，５，５，５｝
レーン識別子＝｛０，１，２，３，４，５，６，７｝
である。各々のそれぞれのキーをストリーミングするレーンのためのレーン識別子は、参照のために提供されている。

【0124】

図８Ｂは、ＸＰＵの奇偶マージネットワーク８００の例示的なステージ１８０１Ａを示す。ステージ１８０１Ａにおいて、隣接するデータ処理セルからのキーは、それぞれのＭＩＮセルおよびＭＡＸセルによって処理される。例えば、ステージ１において、レーン０におけるＭＩＮセルは、レーン０および１における最小値を決定し、レーン１におけるＭＡＸセルは、レーン０および１におけるキーの最大値を決定する。ステージ１におけるクロスバーは、レーン１におけるキーをＭＩＮセルに、レーン０におけるキーをＭＡＸセルに提供するように構成されている。ステージ１の出力は、各々が長さ２の、キーの４つのソートされたリストである。例によれば、レーン２および３は、それらのスワップされたキーを有する。レーンのその他の対、すなわち、レーン０および１、レーン４および５、ならびにレーン６および７のためのキーは、そのレーンのためのそれぞれのキーが既にソートされているので、スワップなしにステージ１を通過する。レーン５および７におけるカウントは増加させられる（同じキーを有するそれぞれの比較されるレーンのより高いレーン）。

【0125】

図８Ｃは、開示の態様による、ＸＰＵの奇偶マージネットワークの例示的なステージ２８００Ｃを示す。第２のステージにおいて、隣接するリストはマージされ、ステージ１からのソートされたリストの奇数位置におけるキーが比較される。ソートされたリストの偶数位置におけるキーは、同様に比較される。ステージ２において、例えば、レーン０および１における処理セルはＭＩＮセルであるのに対し、レーン２および３における処理セルはＭＡＸセルである。全てキー５を有する比較される対（４，６）（５，７）のより高いレーンとして、レーン６および７のための重複カウントが増加させられる。

【0126】

図８Ｄは、開示の態様による、ＸＰＵの奇偶マージネットワークの例示的なステージ３を示す。第３のステージにおいて、各々のソートされたリストの中間レーン、すなわち、レーン（１，３）および（５，６）における残りのキーが比較される。６＝６であるので、レーン３のための重複カウントが増加させられ、５＝５であるので、レーン６のための重複カウントが増加させられる。

【0127】

図８Ｅは、開示の態様による、ＸＰＵの奇偶マージネットワークの例示的なステージ４を示す。第４のステージは、４×４偶－偶／奇－奇マージのフェーズ１である。必要に応じて、レーン０，４；１，５；２，６；および３，７が比較およびスワップされる。レーン４のための重複カウントが増加させられる（レーン１は５の値を有し、レーン４は５の値を有していた）。レーン４のためのインクリメント値も１に設定される（より大きなレーン４のカウント）。この例において、全ての比較される対がスワップされる。

【0128】

図８Ｆは、開示の態様による、ＸＰＵの奇偶マージネットワークの例示的なステージ５を示す。レーン６および４からの値が比較（およびスワップ）され、レーン７および１からの値も比較（およびスワップ）される。レーン４および６は、ソートされたリストの同じ半分に属するので、レーン６におけるカウントは１だけ増加させられる。

【0129】

図８Ｇは、開示の態様による、ＸＰＵの奇偶マージネットワークの例示的なステージ６を示す。レーン５および４からの値が比較およびスワップされる。レーン６および７からの値が比較され、レーン１および３からの値が比較される。レーン４、７および３のためのカウントが増加させられる。

【0130】

図８Ｈは、開示の態様による、ＸＰＵの奇偶マージネットワークの例示的な値シャッフルネットワークを示す。シャフリングの後、カウントは、昇順に出力される：｛１，１，１，２，２，３，４，５｝。

【0131】

その他の例示的な合成オペレーション
ベクタソートおよび重複カウントに加え、ＸＰＵは、本明細書に記載された様々なその他のオペレーションを実行するためのセルおよびクロスバーの処理ネットワークと共に構成することができる。オペレーションは、例えば、ベクタパーティション、ベクタヒストグラム、ベクタ置換、ベクタシフトインサート、ベクタギャザー、およびベクタスキャッタを含む。

【0132】

ベクタパーティション
ＸＰＵは、複数のビンを定義する値の範囲に従って、要素ごとに入力ベクタをパーティショニングするように構成することができる。ＸＰＵは、入力要素を、その値が入力要素以上である最も小さいビンにパーティショニングする。ＸＰＵは、圧縮行格納方式（ＣＲＳ）からコーディネートリスト（ＣＯＯ）フォーマットへなど、入力スパース行列を１つのフォーマットから別のフォーマットへ変換するための合成オペレーションの一部として、例えば本明細書に記載されているように、ベクタパーティションを実行することができる。

【0133】

各々のデータ処理レーンにおいて、それぞれの処理セルは、パーティショニングされる、符号なし整数などの入力値を受信する。入力値は、ベクタまたはその他のデータ構造の要素であることができる。処理セルは、ビン値および入力値のためのマスク値のタプルも受信する。入力値およびビンタプルの要素の各々は、３２ビット符号なし整数などの同じデータタイプである。ビンタプルは、ゼロのインデクシングを使用するＸＰＵの実行においてはゼロ、またはそれ以外は１のインデックスを有するタプルの第１の要素でインデックスされている。第２のビン要素は、１（または２）のインデックスを有し、第３のビン要素は、２（または３）のインデックスを有する、などである。

【0134】

ビンタプルの場合、ｂｉｎ［ｙ］は、インデックスｙにおけるタプルの要素である。幾つかの例において、マスク値は、入力値のためのマスクである。その他の例において、マスクビットは、代わりに、１つまたは複数のマスクビットのタプルであり、マスクタプルにおける各々のビットのインデックスは、入力ビンタプルにおけるそれぞれのビン要素に対応する。例えば、要素ｍａｓｋ［ｉ］がゼロと等しいならば、同じインデックスｉにおけるビン要素ｂｉｎ［ｉ］がマスクされ、ＸＰＵによって入力として処理されない。

【0135】

ベクタパーティションへの出力は、入力値がそれにパーティショニングされるビン値のインデックスであるパーティション識別子である。パーティション識別子は、ビン値のタプルによって定義された範囲に基づく。パーティションインデックスは、ゼロから、ＸＰＵのためのデータ処理レーンの数よりも１少ない数までの値を有することができる（または、パーティション識別子が、ゼロでインデックスされている代わりに１でインデックスされている場合には、１から、データ処理レーンの数までの値を有することができる）。

【0136】

入力ベクタのインデックスｉにおける与えられた要素ｖａｌｕｅｓ［ｉ］の場合、パーティション識別子は最低値ｋであり、これにより、ビン要素ｂｉｎ［ｋ］は、ｖａｌｕｅｓ［ｉ］における入力ベクタの要素以下であり、これは、ビン要素ｂｉｎ［ｋ＋１］よりも小さい。これらの例において、ビンタプルの最後のビン要素は、入力値およびビン要素のためのデータタイプの最大値に設定される。例えば、ＸＰＵが、３２ビット符号なし整数要素のベクタにおいてベクタパーティションを実行する場合、ビンタプルの最後のビン要素は、３２ビット符号なし整数の最高値を表すＩＮＴ＿ＭＡＸに設定される。

【0137】

ｖａｌｕｅｓ［ｉ］における要素がビン要素の範囲にない場合、結果として生じるパーティション識別子は、ＸＰＵによって出力として送信されるときにマスクされる。また、ビンタプルが、単調に増加する整数要素を含まない場合、入力要素のためのパーティション識別子は定義されていない。言い換えれば、ビンタプルは、厳密に増加する要素のシーケンスを含まなければならない。

【0138】

ＸＰＵへの入力の例示的なセットは、以下のとおりであることができる：
値＝｛５，７，１０，１，５１２，８，１０２３，０｝
マスク＝｛０，１，０，０，１，１，１，１｝
ビン＝｛０，７，２５６，１０２４，１，０，０，１｝
この例において、マスク値は入力値に対応し、ビン値には対応しない。８レーンのＸＰＵの各々のレーンが、例えば入力ベクタからそれぞれの入力要素、およびその対応するマスクビットを受信することができる。出力されるパーティション識別子は：
パーティション識別子：｛０，１，１，０，２，１，２，０｝
である。

【0139】

マスク値に基づいて、入力値７、５１２、８および１０２３のみがパーティショニングされる。さらに、０、７、２５６および１０２４のみが、厳密に増加する整数値のシーケンスであるので、ビンタプルにおいて指定された４つのビンが存在する。マスクされた値は、ゼロのパーティション識別子を有する。残りの入力値のうち、７は、パーティション識別子１にマップされる（なぜならば、第１のビンである０が、７以下であるが、７は７未満ではないからである）。これらの例において、ｂｉｎ［－１］は、入力値およびビン要素のためのデータタイプの最小の負の値として定義される。例えば、ビンタプルの第１のビン要素は、ＸＰＵが３２ビット符号なし整数要素のベクタにおいてベクタパーティションを実行するとき、３２ビット符号なし整数に負の１を乗じたものの最低値を表す－ＩＮＴ＿ＭＡＸに設定される。

【0140】

幾つかの例において、ｖａｌｕｅ［ｉ］における値のためのパーティション識別子を決定する際にＸＰＵによって適用されるルールは、最低値ｋであり、これにより、ビン要素ｂｉｎ［ｋ－１］はｖａｌｕｅｓ［ｉ］未満であり、ｖａｌｕｅｓ［ｉ］はｂｉｎ［ｋ］以下である。

【0141】

ベクタヒストグラム
ＸＰＵは、ベクタ内の入力値の発生回数をカウントするように構成することができる。ＸＰＵによる出力は、それらの発生のカウントと共に、一意の要素のリストである。ＸＰＵへの入力は、マスクされていない値の発生回数のみをカウントする、各々の入力値のためのマスクビットも含む。

【0142】

ＸＰＵへの例示的な入力は、以下のとおりであることができる：
値＝｛０，０，１，０，２，１，２，１００｝
マスク＝｛０，０，０，０，０，０，０，１｝
この例において、値１００はマスクされており、ベクタヒストグラムオペレーションにおいてＸＰＵによって考慮されない。

【0143】

ＸＰＵによる例示的な出力は、以下のとおりであることができる：
値＝｛０，１，２，０，０，０，０，０｝
カウント＝｛３，２，２，０，０，０，０，０｝
マスク＝｛０，０，０，１，１，１，１，１｝
値は、まず、固有値、すなわち０、１および２によって出力される。カウント値のリストにおける各々の要素は、各々の固有値のカウント、すなわち、入力における３つのゼロ、２つの１および２つの２に対応する。最後に、ＸＰＵは、入力において前にマスクされたまたは固有値を含んでいない残りの出力ベクタ要素のためのマスクも出力する。入力ベクタは前もってソートされており、これにより、カウント値のリストの各々の要素は、最小から最大へ（またはソートに応じて、その逆に）対応する固有値をマッチさせることができる。

【0144】

ベクタコンパクト
ＸＰＵは、入力オフセットにおいて開始する入力ベクタのマスクされた要素を除去し、除去された要素の出力ベクタを戻すように構成することができる。各々のデータ処理レーンにおいて、それぞれの処理セルは、入力値およびその値のためのマスクビット、ならびにオフセットを受信する。入力値がマスクされていない場合、入力値は処理セルによってバイパスされる。

【0145】

ＸＰＵへの入力の例示的なセットは、以下のとおりであることができる：
値＝｛０，１，２，３，４，５，６，７｝
マスク＝｛１，０，１，０，１，０，０，１｝
オフセット＝５
受信された値から、値０、２、４、７は、除去のためにマスクされる。オフセットは５であり、したがって、ＸＰＵによる例示的な出力は、以下のとおりであることができる：
値＝｛７，１，３，５，６，０，２，４｝
マスク＝｛０，１，１，１，１，０，０，０｝
オフセットは５であるが、入力値における５番目の要素はマスクされていないので、ＸＰＵは、第１のマスクされた値である７への入力値を通して継続する。次いで、ＸＰＵは、出力ベクタにおいて、入力ベクタの前もってマスクされていない値を含む。これらの値は今ではマスクされている。出力ベクタの残りの値は、入力ベクタにおける出現の順序における、入力ベクタのマスクされた値である。

【0146】

ベクタ減少
ＸＰＵは、入力ベクタの各々の要素を合計し、合計を戻すまたは入力ベクタにおける最大値または最小値の要素を戻すことなどによって、入力ベクタを減少させるように構成することができる。例えば、ＸＰＵは、ベクタの各々の要素を合計することによって入力ベクタを減少させることができる。データ処理レーンの総数よりも大きいベクタの場合、ＸＰＵは、レーンの総数までのサイズの入力ベクタの各々のセグメントの要素を合計するための累計を維持することができる。

【0147】

ベクタ置換
ＸＰＵは、提供されたパターンに従って入力ベクタを置換するように構成することができる。入力ベクタは、例えば所定の形状の入力を要求するニューラルネットワークレイヤへの入力として提供されるために、再形成されることができる。ＸＰＵは、ＸＰＵのためのデータ処理レーンの数と同じ大きさだけベクタを置換することができる。データ処理レーンの総数よりも大きいベクタは、レーンの総数まで、より小さなセグメントに置換されることができる。

【0148】

ベクタシフトインサート
ＸＰＵは、ｖ_０およびｖ_１と呼ばれる、オペランドとしての２つのベクタ、およびスカラーオフセット値を受信するように構成することができる。スカラーオフセットは、ベクタｖ_０およびｖ_１が結合されているならば、第３のベクタｖ_３における開始点を定義する。出力は、ベクタｖ_３におけるオフセットにおいて第１の値において開始する、ＸＰＵにおけるデータ処理要素の数と同じだけ長いベクタの選択である。オフセットは、ゼロと、データ処理要素の数よりも１少ない数との間の整数値であることができる。

【0149】

ＸＰＵへの入力の例示的なセットは、以下のとおりであることができる：
ベクタｖ_０＝｛１，２，３，４，５，６，７，８｝
ベクタｖ_１＝｛ａ，ｂ，ｃ，ｄ，ｅ，ｆ，ｇ，ｈ｝
スカラーオフセット値＝６
この例において、ベクタｖ_１は、ＸＰＵが両方の入力ベクタからベクタシフトインサートへの出力ベクタをどのように生成することができるかを例示するための文字を含む。ベクタシフトインサートを実行することからの選択されたベクタは：
選択されたベクタ＝｛７，８，ａ，ｂ，ｃ，ｄ，ｅ，ｆ｝
である。

【0150】

オフセット６におけるベクタｖ_０における第１の要素は７であるので、選択されたベクタの最初の２つの要素は、７および８である。次いで、ベクタｖ_０において終了しかつベクタｖ_１を通じて継続する次の７つの要素が選択される。

【0151】

図９は、ＸＰＵにおいて合成オペレーションを実行するための例示的なプロセス９００のフローチャートである。ハードウェア回路は、複数のステージを含むＸＰＵと共に構成することができる。各々のステージは、クロスバーおよび２つ以上の処理セルを含むことができる。複数のデータ処理レーンは、それぞれのデータを上流の入力部から下流の送信先へストリーミングする。そのステージのセルおよびクロスバーを通る（Ｔｈｒｏｕｇｈ）。

【0152】

ブロック９１０によれば、ハードウェアは、データ処理レーンに沿って上流の入力部からの入力データおよび第１のオペレーションを実行するための第１の命令を受信する。上流の入力部は、プロセッサまたはメモリデバイスであることができ、そこから、ハードウェア回路のＸＰＵにおいて処理するためのデータが送信される。第１のオペレーションは、ベクタスキャン、ベクタセグメント化スキャン、ベクタソート、ベクタ重複カウントなどの合成オペレーションである。第１の命令は、合成オペレーションを表す制御信号であることができる。

【0153】

ブロック９２０によれば、第１の命令を受信することに応答して、各々のステージのために、ハードウェア回路は、それぞれのそのステージのそれぞれの処理セルに第２の命令を送信し、各々のセルは、それぞれのデータ処理レーンから入力を受信することに応答してそれぞれの第２のオペレーションを実行するように構成されている。第２のオペレーションは、処理セルによって実行されるプリミティブ操作である。図３および図４を参照して本明細書に記載されているように、命令は、各々の処理セルに対応するそれぞれの制御セルから受信されることができる。

【0154】

ブロック９３０によれば、第１の命令を受信することに応答して、各々のステージのために、ハードウェア回路は、各々のステージのためのそれぞれのクロスバーにそれぞれの第３の命令を送信する。

【0155】

ブロック９４０によれば、ハードウェア回路は、複数のデータ処理レーンおよびそれぞれの第２のオペレーションを実行するように構成された複数のセルに沿って受信された入力データを処理することによって第１のオペレーションを実行する。図５および図６を参照して示されかつ記載されている構成５００～６００などにおいて、セルおよびクロスバーは、第１のオペレーションを実行するための処理ネットワークを形成する。

【0156】

図１０は、開示の態様による、ＸＰＵへの入力ベクタのための重複カウントをソートおよび生成するための例示的なプロセス１０００のフローチャートである。

【0157】

ブロック１０１０によれば、ハードウェア回路は、処理セルおよびクロスバーの処理ネットワークを形成するためにクロスレーン処理ユニットを構成する。例えば、図８Ａ～図８Ｈを参照して本明細書に記載されているように、ハードウェア回路は、ベクタソートおよび重複カウント処理ネットワークを生成するために、図９を参照して本明細書に記載されているように命令を受信することができる。

【0158】

ブロック１０２０によれば、ハードウェア回路は、要素の入力ベクタを受信する。ブロック１０３０によれば、ハードウェア回路は、ソートされた出力ベクタ、および入力ベクタにおける重複要素のカウントを指定するデータを生成する。ソートされた出力ベクタおよび重複カウントを指定するデータの例示的な生成は、図８Ａ～図８Ｈを参照して本明細書に記載されている。

【0159】

例示的なコンピューティング環境
図１１は、ハードウェア回路１０１を実行するための例示的な環境１１００のブロック図である。ハードウェア回路１０１は、サーバコンピューティングデバイス１１１５など、１つまたは複数のロケーションにおいて１つまたは複数のプロセッサを有するデバイスにおいて実行することができる。ユーザコンピューティングデバイス１１１２およびサーバコンピューティングデバイス１１１５は、ネットワーク１１６０上で１つまたは複数のストレージデバイス１１３０に通信可能に結合されることができる。ストレージデバイス１１３０は、揮発性および不揮発性メモリの組合せであることができ、コンピューティングデバイス１１１２、１１１５と同じまたは異なる物理的ロケーションにあることができる。例えば、ストレージデバイス１１３０は、ハードドライブ、ソリッドステートドライブ、テープドライブ、光学式ストレージ、メモリカード、ＲＯＭ、ＲＡＭ、ＤＶＤ、ＣＤ－ＲＯＭ、書き込み可能、および読み出し専用メモリなど、情報を記憶することができるあらゆるタイプの非一時的コンピュータ可読媒体を含むことができる。

【0160】

サーバコンピューティングデバイス１１１５は、１つまたは複数のプロセッサ１１１３およびメモリ１１１４を含むことができる。メモリ１１１４は、プロセッサ１１１３によって実行することができる命令１１２１を含む、プロセッサ１１１３によってアクセス可能な情報を記憶することができる。メモリ１１１４は、プロセッサ１１１３によって検索、操作または記憶することができるデータ１１２３も含むことができる。メモリ１１１４は、揮発性および不揮発性メモリなど、プロセッサ１１１３によってアクセス可能な情報を記憶することができる１つのタイプの非一時的コンピュータ可読媒体であることができる。プロセッサ１１１３は、１つまたは複数の中央処理装置（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはテンソルプロセシングユニット（ＴＰＵ）などの特定用途向け集積回路（ＡＳＩＣ）を含むことができる。プロセッサ１１１３は、図１を参照して本明細書に記載されている、ハードウェア回路の一部として実行されるコプロセッサを含むことができる。

【0161】

命令１１２１は、１つまたは複数の命令を含むことができ、命令は、プロセッサ１１１３によって実行されると１つまたは複数のプロセッサに、命令によって定義された作用を実行させる。命令１１２１は、プロセッサ１１１３による直接処理のためのオブジェクトコードフォーマット、またはオンデマンドで解釈されるもしくは前もってコンパイルされる独立したソースコードモジュールの解釈可能なスクリプトもしくは集合を含むその他のフォーマットで記憶することができる。命令１１２１は、本開示の態様と一致するハードウェア回路１０１のＸＰＵを構成するための命令を含むことができる。サーバコンピューティングデバイス１１１５および／またはユーザコンピューティングデバイス１１１２は、回路のＸＰＵを構成するための制御信号としてハードウェア回路１０１に命令を生成および送信するためのコンパイラまたはその他のプログラムを実行することができる。

【0162】

データ１１２３は、命令１１２１に従ってプロセッサ１１１３によって検索、記憶または修正することができる。データ１１２３は、複数の異なるフィールドおよびレコードを有するテーブルとして、またはＪＳＯＮ、ＹＡＭＬ、プロトまたはＸＭＬドキュメントとして、リレーショナルデータベースまたは非リレーショナルデータベースにおいて、コンピュータレジスタに記憶することができる。データ１１２３は、これらに限定されないが、バイナリ値、ＡＳＣＩＩまたはＵｎｉｃｏｄｅなどのコンピュータ可読フォーマットでフォーマットすることもできる。さらに、データ１１２３は、数字、記述テキスト、プロプライエタリコード、ポインタ、その他のネットワークロケーションを含むその他のメモリに記憶されたデータへの参照、関連するデータを計算するための機能によって使用される情報など、関連する情報を識別するのに十分な情報を含むことができる。

【0163】

ユーザコンピューティングデバイス１１１２は、１つまたは複数のプロセッサ１１１６、メモリ１１１７、命令１１１８およびデータ１１１９を有する、サーバコンピューティングデバイス１１５と同様に構成することもできる。ユーザコンピューティングデバイス１１１２は、ユーザ出力１１２６およびユーザ入力１１２４を含むこともできる。ユーザ入力１１２４は、キーボード、マウス、機械的アクチュエータ、ソフトアクチュエータ、タッチスクリーン、マイクロフォンおよびセンサなど、ユーザからの入力を受信するためのあらゆる適切なメカニズムまたは技術を含むことができる。

【0164】

サーバコンピューティングデバイス１１１５は、ユーザコンピューティングデバイス１１１２にデータを送信するように構成することができ、ユーザコンピューティングデバイス１１１２は、受信されたデータの少なくとも一部をユーザ出力１１２６の一部として実行されるディスプレイに表示するように構成することができる。ユーザ出力１１２６は、ユーザコンピューティングデバイス１１１２とサーバコンピューティングデバイス１１１５との間のインターフェースを表示するために使用することもできる。ユーザ出力１１２６は、代替的または追加的に、１つもしくは複数のスピーカ、トランスデューサもしくはその他のオーディオ出力、触覚インターフェース、またはユーザコンピューティングデバイス１１１２のプラットフォームユーザに非視覚的および非聴覚的情報を提供するその他の触覚フィードバックを含むことができる。

【0165】

図１１は、コンピューティングデバイス１１１５、１１１２内にあるものとしてプロセッサ１１１３、１１１６およびメモリ１１１４、１１１７を示しているが、プロセッサ１１１３、１１１６およびメモリ１１１４、１１１７を含む、本明細書に記載された構成要素は、同じコンピューティングデバイス内ではなく、異なる物理的ロケーションにおいて動作することができる複数のプロセッサおよびメモリを含むことができる。例えば、命令１１２１、１１１８およびデータ１１２３、１１１９のうちの幾つかは、読み出し専用コンピュータチップ内のリムーバブルＳＤおよびその他に記憶することができる。命令およびデータのうちの幾つかまたは全ては、プロセッサ１１１３、１１１６から物理的に離れた、ただし依然としてアクセス可能なロケーションに記憶することができる。同様に、プロセッサ１１１３、１１１６は、同時および／または順次動作を実行することができるプロセッサの集合を含むことができる。コンピューティングデバイス１１１５、１１１２は各々、タイミング情報を提供する１つまたは複数の内部クロックを含むことができ、タイミング情報は、コンピューティングデバイス１１１５、１１１２によって実行されるオペレーションおよびプログラムのための時間測定のために使用することができる。

【0166】

サーバコンピューティングデバイス１１１５は、ユーザコンピューティングデバイス１１１２からのデータを処理するためのリクエストを受信するように構成することができる。例えば、環境１１００は、様々なユーザインターフェースおよび／またはプラットフォームサービスを露出させるＡＰＩを介して、様々なサービスをユーザに提供するように構成されたコンピューティングプラットフォームの一部であることができる。１つまたは複数のサービスは、機械学習フレームワーク、または指定されたタスクおよび訓練データに従ってニューラルネットワークもしくはその他の機械学習モデルを生成するためのツールのセットであることができる。ユーザコンピューティングデバイス１１１２は、ハードウェア回路１０１のＸＰＵが実行するように構成されるべき作業負荷または合成オペレーションのタイプを指定するデータを受信および送信してよい。ユーザコンピューティングデバイス１１１２は、命令を直接ハードウェア回路１０１に送信するまたは本明細書に記載されているようにサーバコンピューティングデバイス１１１５にハードウェア回路１０１への制御信号として命令を生成および送信させることができる。

【0167】

デバイス１１１２、１１１５は、ネットワーク１１６０上で直接または間接通信を行うことができる。デバイス１１１５、１１１２は、情報を送受信するための開始コネクションを受け入れてよいリスニングソケットをセットアップすることができる。ネットワーク１１６０自体は、インターネット、ワールドワイドウェブ、イントラネット、仮想プライベートネットワーク、ワイドエリアネットワーク、ローカルネットワーク、および１つまたは複数の企業に所有権がある通信プロトコルを使用するプライベートネットワークを含む様々な構成およびプロトコルを含むことができる。ネットワーク１１６０は、様々な短距離および長距離接続をサポートすることができる。短距離および長距離接続は、２．４０２ＧＨｚ～２．４８０ＧＨｚ（一般的にＢｌｕｅｔｏｏｔｈ（登録商標）規格に関連する）、２．４ＧＨｚおよび５ＧＨｚ（一般的にＷｉ－Ｆｉ（登録商標）通信プロトコルに関連する）などの、異なる帯域幅にわたって、または、ワイヤレスブロードバンド通信のためのＬＴＥ（登録商標）規格などの、様々な通信規格によって、行うことができる。ネットワーク１１６０は、追加的または代替的に、様々なタイプのイーサネット接続上を含む、デバイス１１１２、１１１５間の有線接続もサポートすることができる。

【0168】

単一のサーバコンピューティングデバイス１１１５およびユーザコンピューティングデバイス１１１２が図１１に示されているが、開示の態様は、順次処理または並列処理のためのパラダイムにおいて、または複数のデバイスの分散型ネットワーク上を含む、コンピューティングデバイスの様々な異なる構成および量に従って実行することができることが理解される。幾つかの実行において、開示の態様は、単一のデバイスまたはそのあらゆる組合せにおいて実行することができる。

【0169】

前記のことを考慮して、開示の態様は、プロセッサの複数のデータ処理レーンを横断してデータ依存オペレーションを実行するためのクロスレーン処理ユニット（ＸＰＵ）を対象とする。各々のデータ依存オペレーションのための特定オペレーション向け回路を実行するのではなく、ＸＰＵは、ＸＰＵにおいて積層されたネットワークとして配置された処理セルおよびクロスバーによって実行される個々のオペレーションを構成する入力信号に応答して異なるオペレーションを実行するように構成することができる。各々の処理セルは、複数のデータ処理レーンを横断してデータを受信および処理することができる。開示の態様は、重複カウントを実行するためにベクタソートネットワークを使用するようにＸＰＵを構成することを含み、ソーティングおよび重複カウンティングのためにＸＰＵを別々に構成する必要性を排除する。

【0170】

本開示の態様は、デジタル回路において、コンピュータ可読記憶媒体において、１つまたは複数のコンピュータプログラムとして、または前述のうちの１つまたは複数の組合せとして実行することができる。コンピュータ可読記憶媒体は、例えば、クラウドコンピューティングプラットフォームによって実行可能かつ有形記憶デバイスに記憶された１つまたは複数の命令として、非一時的であることができる。

【0171】

本明細書において、「ように構成されている」という用語は、コンピュータシステム、ハードウェアおよびハードウェア回路、またはコンピュータプログラム、エンジンもしくはモジュールの一部に関連した異なる文脈において使用されている。システムが１つまたは複数のオペレーションを実行するように構成されていると言ったとき、これは、システムが、動作時に、システムに１つまたは複数のオペレーションを実行させるシステムにインストールされた適切なソフトウェア、ファームウェア、および／またはハードウェアを有することを意味する。幾つかのハードウェアが１つまたは複数のオペレーションを実行するように構成されていると言ったとき、これは、ハードウェアが、動作時に、入力を受信し、入力に従って１つまたは複数のオペレーションに対応する出力を生成する１つまたは複数の回路を含むことを意味する。コンピュータプログラム、エンジンまたはモジュールが１つまたは複数のオペレーションを実行するように構成されていると言ったとき、これは、コンピュータプログラムが、１つまたは複数のコンピュータによって実行されると、１つまたは複数のコンピュータに１つまたは複数のオペレーションを実行させる１つまたは複数のプログラム命令を含むことを意味する。

【0172】

図面に示されかつ特許請求の範囲に列挙されたオペレーションが特定の順序で示されているが、オペレーションは、示されているものとは異なる順序で実行することができ、幾つかのオペレーションは、省略する、２回以上実行する、および／または他のオペレーションと並列で実行することができることが理解される。さらに、異なるオペレーションを実行するために構成された異なるシステム構成要素の分離は、構成要素が分離されることを要求するものと理解されるべきではない。記載された構成要素、モジュール、プログラムおよびエンジンは、単一のシステムとして統合することができ、または複数のシステムの一部であることができる。

【0173】

特に明記しない限り、前述の代替的な例は相互に排他的ではなく、独特の利点を達成するために様々な組合せにおいて実行されてよい。上記に記載された特徴のこれらの変形およびその他の変形ならびに組合せは、特許請求の範囲によって定義された主題から逸脱することなく利用することができるので、例の前述の説明は、特許請求の範囲によって定義された主題の限定ではなく、例示として解釈されるべきである。加えて、本明細書に記載された例の提供、ならびに「など」、「含む」などと表された語句は、特許請求の範囲の主題を特定の例に限定するものと解釈されるべきではない。むしろ、例は、多くの可能な実行のうちの１つのみを例示することが意図されている。さらに、異なる図面における同じ参照番号は、同じまたは類似の要素を識別することができる。

【0174】

本明細書における実質的にあらゆる複数形および／または単数形の用語の使用、例えば、（「要素」という用語は、あらゆるシステム、構成要素、データ等の代わりである）「ある／その要素」、「１つまたは複数の要素」、「多数の要素」、「複数の要素」、「少なくとも１つの要素」等に関して、当業者は、記載されている文脈および／または用途にとって適切であるならば、複数形から単数形におよび／または単数形から複数形に変換することができる。様々な単数形／複数形の置換は、明確にするためにかつ明示的に示されていない限り限定されることなく、本明細書に明示的に示されている場合がある。

【図1】