特許7449308 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザイリンクス　インコーポレイテッドの特許一覧

特許7449308ハードウェアアクセラレータ中の競合カーネルのためのロック回路

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5
6
7A
7B
7C
7D

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-05

(45)【発行日】2024-03-13

(54)【発明の名称】ハードウェアアクセラレータ中の競合カーネルのためのロック回路

(51)【国際特許分類】

G06F 12/00 20060101AFI20240306BHJP

G06F 9/52 20060101ALI20240306BHJP

G06F 9/38 20180101ALI20240306BHJP

G06F 15/167 20060101ALI20240306BHJP

【ＦＩ】

G06F12/00 572A

G06F9/52 120Z

G06F9/38 370C

G06F15/167 615A

【請求項の数】 15

(21)【出願番号】P 2021563615

(86)(22)【出願日】2020-03-11

(65)【公表番号】

(43)【公表日】2022-06-29

(86)【国際出願番号】 US2020022035

(87)【国際公開番号】W WO2020222915

(87)【国際公開日】2020-11-05

【審査請求日】2023-02-13

(31)【優先権主張番号】16/401,104

(32)【優先日】2019-05-01

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】591025439

【氏名又は名称】ザイリンクスインコーポレイテッド

【氏名又は名称原語表記】ＸＩＬＩＮＸＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】ジェイン，スニタ

(72)【発明者】

【氏名】ラオ，スウェサ

【審査官】松平英

(56)【参考文献】

【文献】特開平２－７７８６８（ＪＰ，Ａ）

【文献】特開昭５７－２０７９５７（ＪＰ，Ａ）

【文献】米国特許第９８１７７０３（ＵＳ，Ｂ１）

【文献】米国特許出願公開第２００５／０１０００１７（ＵＳ，Ａ１）

【文献】米国特許第６４８０９１８（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０６－３／０８

９／３８

９／４５５－９／５４

１２／００－１２／１２８

１３／１６－１３／１８

１５／１６－１５／１７７

(57)【特許請求の範囲】

【請求項1】

計算システム中のハードウェアアクセラレータであって、
前記計算システムの周辺バスに結合されたバスインターフェースと、
前記バスインターフェースに結合されたロック回路と、
前記ロック回路と前記バスインターフェースとに結合された複数のカーネル回路と
を備え、
前記複数のカーネル回路が前記ロック回路にロック要求を与え、前記ロック要求が、前記計算システムのシステムメモリに記憶されたデータについてのものであり、
前記ロック回路が、前記複数のカーネル回路からの前記ロック要求を処理し、前記ロック要求に基づいて前記バスインターフェースを通して前記周辺バスを介してアトミックトランザクションを発行するように構成された、ハードウェアアクセラレータ。

【請求項2】

前記ロック回路が、カーネルロックアレイを維持するように構成され、前記カーネルロックアレイが、それぞれ保留要求フィールドとロックステータスフィールドとを有する複数の要素を含む、請求項１に記載のハードウェアアクセラレータ。

【請求項3】

前記保留要求フィールドが、前記複数のカーネル回路に対応する複数のエントリを含み、前記ロックステータスフィールドが、前記複数のカーネル回路に対応する複数のエントリを含む、請求項２に記載のハードウェアアクセラレータ。

【請求項4】

前記ロック回路が、前記ロック要求の各々について、前記カーネルロックアレイ中の対応する要素の前記ロックステータスフィールドを検査することと、利用可能な場合、前記対応する要素の前記ロックステータスフィールド中にロックを設定することと、ロックが利用可能でない場合、前記保留要求フィールド中の保留ロック要求を示すこととを行うように構成された、請求項３に記載のハードウェアアクセラレータ。

【請求項5】

前記ロック回路が、カーネルロックアレイを維持するように構成され、前記カーネルロックアレイが、それぞれカウンタフィールドとロックステータスフィールドとを有する複数の要素を含む、請求項１に記載のハードウェアアクセラレータ。

【請求項6】

前記カウンタフィールドが値を含み、前記ロックステータスフィールドが、前記複数のカーネル回路に対応する複数のエントリを含む、請求項５に記載のハードウェアアクセラレータ。

【請求項7】

前記ロック回路が、前記ロック要求の各々について、前記カーネルロックアレイ中の対応する要素の前記ロックステータスフィールドを検査することと、前記対応する要素の前記ロックステータスフィールド中にロックを設定することと、前記対応する要素の前記カウンタフィールド中の前記値を増分することとを行うように構成された、請求項６に記載のハードウェアアクセラレータ。

【請求項8】

システムメモリと、
前記システムメモリに結合されたプロセッサと、
前記システムメモリに結合された周辺バスと、
前記周辺バスに結合された請求項１に記載のハードウェアアクセラレータと
を備える計算システム。

【請求項9】

前記ロック回路が、カーネルロックアレイを維持するように構成され、前記カーネルロックアレイが、それぞれ保留要求フィールドとロックステータスフィールドとを有する複数の要素を含む、請求項８に記載の計算システム。

【請求項10】

計算システムのハードウェアアクセラレータ中で実行する複数のカーネル間でメモリに記憶されたデータへのロックを管理する方法であって、前記方法が、
前記ハードウェアアクセラレータ中のロック回路において、前記複数のカーネルのうちの１つのカーネルからのロック要求を受信することと、
ロックが前記複数のカーネルのうちの別のカーネルによって保持されるかどうかを決定することと、
前記ロックが別のカーネルによって保持されることに応答して、前記カーネルについての保留要求を示すことと、
前記ロックが別のカーネルによって保持されないことに応答して、前記ロックを取得するために、前記ロック回路から、前記計算システムのバスインターフェースを介して前記ロックについてのアトミック要求を発行することと
を含む、方法。

【請求項11】

前記カーネルが前記ロックを有することを示すことをさらに含む、請求項１０に記載の方法。

【請求項12】

前記ロック回路において前記カーネルからのロック解放要求を受信することと、
前記複数のカーネルのうちの別のカーネルが保留ロック要求を有するかどうかを決定することと、
保留ロック要求の不在に応答して、前記ロック回路から、前記計算システムの前記バスインターフェースを介して前記ロックを解放するための別のアトミック要求を発行することと、
保留ロック要求の存在に応答して、前記ロック回路によって、前記複数のカーネルのうちの別のカーネルの前記ロックを許可することと
をさらに含む、請求項１０に記載の方法。

【請求項13】

前記ロック回路が、カーネルロックアレイを維持するように構成され、前記カーネルロックアレイが、それぞれ保留要求フィールドとロックステータスフィールドとを有する複数の要素を含む、請求項１０に記載の方法。

【請求項14】

前記保留要求フィールドが、複数のカーネル回路に対応する複数のエントリを含み、前記ロックステータスフィールドが、前記複数のカーネル回路に対応する複数のエントリを含む、請求項１３に記載の方法。

【請求項15】

前記ロック回路が、カーネルロックアレイを維持するように構成され、前記カーネルロックアレイが、それぞれカウンタフィールドとロックステータスフィールドとを有する複数の要素を含む、請求項１０に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示の例は、一般に、計算システムにおけるハードウェアアクセラレーションに関し、特に、ハードウェアアクセラレータ中の競合カーネルのためのロック回路に関する。

【背景技術】

【0002】

ハードウェアアクセラレーションは、いくつかの機能を、汎用ＣＰＵ上で実行するソフトウェアよりも効率的に実行するためのハードウェアの使用を伴う。ハードウェアアクセラレータは、何らかの適用例のためにハードウェアアクセラレーションを実装するように設計された専用ハードウェアである。例示的な適用例は、ニューラルネットワーク、ビデオの符号化、復号化、トランスコーディングなど、ネットワークデータ処理などを含む。計算システム上で実行するソフトウェアは様々なドライバとライブラリとを通してハードウェアアクセラレータと対話する。あるタイプのハードウェアアクセラレータは、プログラマブルデバイスと、関連する回路とを含む。たとえば、プログラマブルデバイスは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または、処理システム、データ処理エンジン（ＤＰＥ）アレイ、ネットワークオンチップ（ＮＯＣ）など、サブシステムの中でも、ＦＰＧＡプログラマブル論理を含むシステムオンチップ（ＳｏＣ）であり得る。

【0003】

マルチプロセシングシステムでは、競合状態を回避するためにスレッド同期がミューテックス（ｍｕｔｅｘ）ロックによって達成され得る。ミューテックスの使用は、共有データの相互排除がアトミック操作を介して達成されるソフトウェア環境において一般的である。周辺構成要素インターフェースエクスプレス（ＰＣＩｅ）、およびアクセラレータのためのキャッシュコヒーレント相互接続（ＣＣＩＸ）などのプロトコルも、ハードウェアアクセラレーションカーネルがロックを取得し、ソフトウェアスレッドと競合することを可能にする、アトミック操作のサポートを行う。並列に動作する複数のアクセラレーションカーネルを有するシステムの場合、アクセラレーションカーネルによるホストコンピュータシステムへのロック要求は、不要な周辺バス利用と、ホストコンピュータによる競合処理の増加とをもたらし得る。ハードウェアアクセラレーションシステム中の複数のアクセラレーションカーネルによる共有データへのアクセスを処理するためのより効率的な技法が必要である。

【発明の概要】

【0004】

ハードウェアアクセラレータ中の競合カーネルのためのロック回路を与えるための技法について説明する。一例では、計算システム中のハードウェアアクセラレータは、計算システムの周辺バスに結合されたバスインターフェースと、バスインターフェースに結合されたロック回路と、ロック回路とバスインターフェースとに結合された複数のカーネル回路とを含み、複数のカーネル回路はロック回路にロック要求を与え、ロック要求は、計算システムのシステムメモリに記憶されたデータについてのものであり、ロック回路は、複数のカーネル回路からのロック要求を処理し、ロック要求に基づいてバスインターフェースを通して周辺バスを介してアトミックトランザクションを発行するように構成される。

【0005】

別の例では、計算システムは、システムメモリと、システムメモリに結合されたプロセッサと、システムメモリに結合された周辺バスと、周辺バスに結合されたハードウェアアクセラレータとを含む。ハードウェアアクセラレータは、周辺バスに結合されたバスインターフェースと、バスインターフェースに結合されたロック回路と、ロック回路とバスインターフェースとに結合された複数のカーネル回路とを含み、複数のカーネル回路は、ロック回路にロック要求を与え、ロック要求は、システムメモリに記憶されたデータについてのものであり、ロック回路は、複数のカーネル回路からのロック要求を処理し、ロック要求に基づいてバスインターフェースを通して周辺バスを介してアトミックトランザクションを発行するように構成される。

【0006】

別の例では、計算システムのハードウェアアクセラレータ中で実行する複数のカーネル間でメモリに記憶されたデータへのロックを管理する方法は、ハードウェアアクセラレータ中のロック回路において、複数のカーネルのうちの１つのカーネルからのロック要求を受信することと、ロックが複数のカーネルのうちの別のカーネルによって保持されるかどうかを決定することと、ロックが別のカーネルによって保持されることに応答して、カーネルについての保留（ｐｅｎｄｉｎｇ）要求を示すことと、ロックが別のカーネルによって保持されないことに応答して、ロックを取得するために、ロック回路から、計算システムのバスインターフェースを介してロックについてのアトミック要求を発行することとを含む。

【0007】

これらおよび他の態様は、以下の詳細な説明を参照しながら理解され得る。

【0008】

上記で具陳された特徴が詳細に理解され得る様式のように、上記で手短に要約したより詳細な説明が、例示的な実装形態を参照することによって得られ得、それらの実装形態のうちのいくつかは添付の図面に示されている。しかしながら、添付の図面は、一般的な例示的な実装形態のみを示し、したがって、それの範囲を限定すると考えられるべきではないことに留意されたい。

【図面の簡単な説明】

【0009】

【図1A】一例による、ハードウェアアクセラレーションシステムを示すブロック図である。

【図1B】一例による、アクセラレーテッドアプリケーションを示すブロック図である。

【図1C】一例による、アクセラレーション回路を示すブロック図である。

【図2】図１Ａの計算システムの論理図を示すブロック図である。

【図3】例示的なカーネルロックアレイを示すブロック図である。

【図4】別の例示的なカーネルロックアレイを示すブロック図である。

【図5】一例による、ロック要求を管理する方法を示す流れ図である。

【図6】一例による、ロック解放を管理する方法を示す流れ図である。

【図7A】一例による、マルチ集積回路（ＩＣ）プログラマブルデバイスを示すブロック図である。

【図7B】一例による、プログラマブルＩＣを示すブロック図である。

【図7C】一例による、プログラマブルＩＣのシステムオンチップ（ＳｏＣ）実装を示すブロック図である。

【図7D】一例による、プログラマブルＩＣのフィールドプログラマブルゲートアレイ（ＦＰＧＡ）実装を示す図である。

【発明を実施するための形態】

【0010】

理解を促進するために、可能な場合、図に共通である同等の要素を指定するために同等の参照番号が使用されている。１つの例の要素は他の例に有利に組み込まれ得ることが企図される。

【0011】

図を参照しながら様々な特徴について以下で説明する。図は一定の縮尺で描かれていることもあり、描かれていないこともあること、および図全体にわたって同様の構造または機能の要素は同様の参照番号によって表されていることに留意されたい。図は、特徴の説明を促進するためのものにすぎないことに留意されたい。図は、クレームされる発明の網羅的な説明、またはクレームされる発明の範囲の限定としては意図されていない。さらに、示された例は、必ずしもすべての態様または利点が示されているとは限らない。特定の例に関して説明した態様または利点は、必ずしもその例に限定されるとは限らず、そのように示されていないか、またはそのように明示的に説明されていない場合でも、任意の他の例において実施され得る。

【0012】

ハードウェアアクセラレータ中の競合カーネルのためのロック回路を与えるための技法について説明する。本技法は、複数のハードウェアアクセラレーションカーネルによって開始されるアトミック操作を処理する効率的な方法を与える。ロック回路は、ハードウェアアクセラレーションカーネルを有する集積回路（ＩＣ）中に中央競合処理回路を与える。ロック回路は、共有データ構造を有するハードウェアアクセラレータを有するホストコンピュータシステムにバスインターフェースを介してアトミック要求を開始することを担当する。これは、カーネル回路がバスインターフェースを通して直接アトミック要求を発行する必要を防ぐ。したがって、本技法は、バスインターフェースを介したアトミックトランザクションの頻度を低減し、それによってホストにおける競合を低減する。本技法はまた、複数のカーネルが（使用事例に基づいて）ロックを許可され得るときに、異なるアクセラレーションカーネルが並列に実行することを可能にすることによってパフォーマンスのためになる。図面に関して、これらおよび他の態様について以下で説明する。

【0013】

図１Ａは、一例による、ハードウェアアクセラレーションシステム１００を示すブロック図である。ハードウェアアクセラレーションシステム１００はホスト計算システム１０２を含む。ホスト計算システム１０２は、ハードウェアプラットフォーム（「ハードウェア１０４」）と、ハードウェア１０４上で実行するソフトウェアプラットフォーム（「ソフトウェア１０６」）とを含む。ハードウェア１０４は、処理システム１１０と、システムメモリ１１６と、ストレージデバイス（「ストレージ１１８」）と、ハードウェアアクセラレータ１２２とを含む。ソフトウェア１０６は、オペレーティングシステム（ＯＳ）１４４と、アクセラレーションスタック１４６と、ホストアプリケーション１５０と、競合スレッド１３９とを含む。

【0014】

処理システム１１０は、マイクロプロセッサ１１２と、サポート回路１１４と、周辺バス１１５とを含む。マイクロプロセッサ１１２は、ｘ８６ベースプロセッサ、ＡＲＭ（登録商標）ベースプロセッサなど、任意のタイプの汎用中央処理ユニット（ＣＰＵ）であり得る。マイクロプロセッサ１１２は、１つまたは複数のコアと、関連する回路（たとえば、キャッシュメモリ、メモリ管理ユニット（ＭＭＵ）、割込みコントローラなど）とを含むことができる。マイクロプロセッサ１１２は、本明細書で説明する１つまたは複数の動作を実行し、システムメモリ１１６および／またはストレージ１１８に記憶され得るプログラムコードを実行するように構成される。サポート回路１１４は、マイクロプロセッサ１１２、システムメモリ１１６、ストレージ１１８、ハードウェアアクセラレータ１２２、または任意の他の周辺デバイスの間のデータフロー管理するためにマイクロプロセッサ１１２と協働する、様々なデバイスを含む。たとえば、サポート回路１１４は、チップセット（たとえば、ノースブリッジ、サウスブリッジ、プラットフォームホストコントローラなど）、電圧レギュレータ、ファームウェア（たとえば、基本入出力システム（ＢＩＯＳ））などを含むことができる。サポート回路１１４は、マイクロプロセッサ１１２と、ハードウェアアクセラレータ１２２など様々な周辺機器がそれに接続される周辺バス１１５との間のデータフローを管理する。いくつかの例では、マイクロプロセッサ１１２は、チップセット（たとえば、ノースブリッジ、サウスブリッジなど）の機能のすべてまたは実質的な部分を引き受ける、システムインパッケージ（ＳｉＰ）、システムオンチップ（ＳｏＣ）などであり得る。周辺バス１１５は、周辺構成要素相互接続エクスプレス（ＰＣＩｅ）など、拡張バス規格を実装することができる。

【0015】

システムメモリ１１６は、実行可能命令およびデータなどの情報が記憶され、取り出されることを可能にするデバイスである。システムメモリ１１６は、たとえば、ダブルデータレート（ＤＤＲ）ダイナミックＲＡＭ（ＤＲＡＭ）など、１つまたは複数のランダムアクセスメモリ（ＲＡＭ）モジュールを含むことができる。ストレージ１１８は、ローカルストレージデバイス（たとえば、１つまたは複数のハードディスク、フラッシュメモリモジュール、固体ディスク、および光ディスク）、および／または計算システム１０２が１つまたは複数のネットワークデータストレージシステムと通信することを可能にするストレージインターフェースを含む。ハードウェア１０４は、グラフィックスカード、ユニバーサルシリアルバス（ＵＳＢ）インターフェースなど、計算システムの様々な他の従来のデバイスと周辺機器とを含むことができる。

【0016】

一例では、ハードウェアアクセラレータ１２２はプログラマブルデバイス１２８とＲＡＭ１２６とを含む。ハードウェアアクセラレータ１２２は随意に不揮発性メモリ（ＮＶＭ）１２４を含むことができる。プログラマブルデバイス１２８は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の埋込型サブシステムとともにＦＰＧＡプログラマブル論理を有するＳｏＣであり得る。ＮＶＭ１２４は、フラッシュメモリなど、任意のタイプの不揮発性メモリを含むことができる。ＲＡＭ１２６はＤＤＲＤＲＡＭなどを含むことができる。ＲＡＭ１２６は、以下でさらに説明するように、ディスクリートＲＡＭバンク１２７中に編成され得る。プログラマブルデバイス１２８はＮＶＭ１２４とＲＡＭ１２６とに結合される。プログラマブルデバイス１２８はまた、処理システム１１０の周辺バス１１５に結合される。

【0017】

ＯＳ１４４は、Ｌｉｎｕｘ（登録商標）、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、ＭａｃＯＳ（登録商標）など、当技術分野で知られている任意の汎用オペレーティングシステムであり得る。アクセラレーションスタック１４６は、ハードウェアアクセラレータ１２２に、それのコマンドと制御とのためにアプリケーションプログラミングインターフェース（ＡＰＩ）を与えるドライバとライブラリとを含む。

【0018】

図１Ｂは、一例による、アクセラレーテッドアプリケーション１８０を示すブロック図である。アクセラレーテッドアプリケーション１８０はホストアプリケーション１５０とアクセラレーション回路１３０とを含む。アクセラレーション回路１３０は、ハードウェアアクセラレータ１２２上のプログラマブルデバイス１２８のプログラマブル論理（ＰＬ）３においてプログラムされる。ホストアプリケーション１５０は、何らかの作業を実行するためにアクセラレーションスタック１４６へのＡＰＩコールを使用してアクセラレーション回路１３０を呼び出すマイクロプロセッサ１１２上で実行するソフトウェアを含む。ホストアプリケーション１５０は、ニューラルネットワーク、ビデオ処理、ネットワーク処理、またはハードウェアアクセラレータ１２２にいくつかの機能をオフロードする、同様のタイプのアプリケーションを含むことができる。

【0019】

図１Ｃは、一例による、アクセラレーション回路１３０を示すブロック図である。アクセラレーション回路１３０は、バスインターフェース１４１と、カーネル１３８と、ロック回路１４０とを含む。特に、ホストアプリケーション１５０は、プログラマブルデバイス１２８のＰＬ３中のカーネル回路（「カーネル１３８」）をプログラムするためにアクセラレーションスタック１４６のＡＰＩを呼び出す。カーネル１３８は、データを処理するための計算ユニットを含む。カーネル１３８がプログラムされると、ホストアプリケーション１５０はバスインターフェース１４１を通してカーネル１３８にアクセスすることができる。カーネル１３８は、システムメモリ１１６および／またはＲＡＭ１２６に記憶されたデータを処理することができる。特に、カーネル１３８は、バスインターフェース１４１を通してシステムメモリ１１６にアクセスし、プログラマブルデバイス１２８のメモリインターフェースを通してＲＡＭ１２６にアクセスする。カーネル１３８は、競合スレッド１３９と競合しているシステムメモリ１１６中のデータにアクセスすることができる。システムメモリ１１６は競合スレッド１３９とカーネル１３８との間で共有されるので、アクセラレーション回路１３０はロック回路１４０を含む。カーネル１３８は、システムメモリ１１６中のデータへのロックを獲得するために、ロック回路１４０に結合され、バスインターフェース１４１を介してアトミックトランザクションを発行するためにロック回路１４０を使用する。ロック回路１４０は、すべての個々のカーネル１３８にバスインターフェース１４１を介してアトミックトランザクションを発行させるのではなく、バスインターフェース１４１を介したアトミックトランザクションの単一のソースを与える。ロック回路１４０の動作について以下でさらに説明する。

【0020】

一例では、処理システム１１０はハードウェアアクセラレータ１２２とは別個に示されている。以下でさらに説明する他の例では、処理システム１１０とハードウェアアクセラレータ１２２とは同じプログラマブルデバイス（たとえば、埋込型処理システムをもつプログラマブルデバイス）内に実装され得る。そのようなケースでは、処理システム１１０は、アクセラレーション回路１３０と通信するためにＰＬ３との代替相互接続を利用することができ、それの例について以下で説明する。さらに、本明細書で説明する例では、アクセラレーション回路１３０はプログラマブルデバイス１２８中に実装される。他の例では、プログラマブルデバイス１２８は、アクセラレーション回路１３０がその中に形成された強化回路を備える、特定用途向け集積回路（ＡＳＩＣ）を含む、任意の集積回路（ＩＣ）によって置き換えられ得る。したがって、本明細書で説明するロック回路１４０と相互排除方式とは、プログラマブルデバイス中ならびにＡＳＩＣ中のアクセラレーション回路に適用する。

【0021】

図２は、一例による、計算システム１０２の論理図を示すブロック図である。図２に示されているように、カーネル１３８は、バスインターフェース１４１と周辺バス１１５とを通してシステムメモリ１１６中のデータ２０２にアクセスする。競合スレッド１３９は、マイクロプロセッサ１１２上で実行し、また、システムメモリ１１６中のデータ２０２にアクセスする。競合スレッド１３９は、データ２０２へのアクセスを制御するためにロックアレイ２０４を使用する。ロックアレイ２０４は、データ２０２のいくつかの部分についての識別子によってインデックス付けされる。データ２０２の一部分にアクセスする前に、競合スレッド１３９は、ロックが別のスレッドによって設定されているかどうかを確かめるために、データ部分についての識別子を使用してロックアレイ２０４を検査する。ロックが別のスレッドによって設定されていない場合、競合スレッド１３９は、ロックを設定し、他の競合スレッド１３９を除いてデータにアクセスする。競合スレッド１３９は、マイクロプロセッサ１１２のアトミック命令を使用してロックアレイ２０４中のロックを設定し、検査する。

【0022】

ロック回路１４０はカーネルロックアレイ２０６を維持する。ロック回路１４０は、すべてのカーネル１３８のための中央競合処理ブロックである。Ｎ個のカーネル１３８を仮定し、Ｎは１よりも大きい整数である。ロック回路１４０は、データ２０２についての識別子によってインデックス付けされたカーネルロックアレイ２０６を維持する。一例では、識別子は、データ２０２へのキーから生成されたハッシュ値の全部または一部分である。カーネルロックアレイ２０６中の各要素は（２×Ｎ）ビット幅であり、下位Ｎビットはロックステータスを示し、上位Ｎビットは保留要求を示す。カーネル１３８のすべては、ロックについてのカーネル１３８の要求を、バスインターフェース１４１を通して周辺バス１１５を介して直接にではなく、ロック回路１４０に向ける。ロック回路１４０は、バスインターフェース１４１を通してロックを要求する唯一の回路である。

【0023】

図３は、カーネルロックアレイ２０６の例を示すブロック図である。その例では、カーネルロックアレイ２０６はアレイインデックス３０２を含む。アレイインデックス３０２は、データへのキー（たとえば、メモリアドレス、またはデータ２０２に関連するいくつかの他のキー）から導出されたハッシュ値の全部または一部分など、データ２０２についての識別子の任意のセットであり得る。カーネルロックアレイ２０６中の各エントリは保留要求３０４とロックステータス３０６とを含む。保留要求３０４は、カーネル１３８の各々について１つの、Ｎビットを含む。ロックステータス３０６は、カーネル１３８の各々について１つの、Ｎビットを含む。

【0024】

図５は、一例による、ロック要求を管理する方法５００を示す流れ図である。図２および図５を参照すると、ロック回路１４０は以下のように動作する。カーネルＩＤとインデックス値とを含む、カーネル１３８からのロック要求を受信すると（ステップ５０２）、ロック回路１４０は、ロックが何らかの他のカーネル１３８によって保持されているかどうかを決定するために、インデックス値によってインデックス付けされたカーネルロックアレイ２０６を検査する（ステップ５０４）。ロックが保持されていない場合（ステップ５０６）、ロック回路１４０は、ロックアレイ２０４を検査するためにバスインターフェース１４１を通して周辺バス１１５にアトミック要求を発行する（ステップ５０８）。要求されたデータ部分がロックされていない場合（５１０）、周辺バス１１５はロックをロック回路１４０に戻す。ロック回路１４０は、次いで、カーネルロックアレイ２０６中のロックのステータスを、ＮカーネルＩＤに対応するビット位置において「１」とマークする（５１２）。要求されたデータ部分がロックされ得ない場合（５１０）、ロック回路１４０は、ある待機期間の後に再びアトミック要求を発行することができる。ロックのステータスが、ロックが別のカーネル１３８によって保持されていることを示す非０である場合（ステップ５０６）、ロック回路１４０は、代わりに、保留要求フィールド中にカーネルＩＤについてビットを設定する（ステップ５１４）。カーネル１３８は、その場合、要求されたデータ部分にアクセスするのを待たなければならない。

【0025】

図６は、一例による、ロック解放を管理する方法６００を示す流れ図である。図２および図６を参照すると、カーネルＩＤとインデックスとを含む、カーネル１３８からのロック解放要求を受信すると（ステップ６０２）、ロック回路１４０は、そのロックインデックスの保留要求フィールドを検査する（６０４）。保留要求フィールドが０である場合（ステップ６０６）、ロック回路１４０は、バスインターフェース１４１を通して周辺バスを介してアトミックトランザクションを送ることによってロックを解放する（ステップ６０８）。保留要求フィールドが非０である場合（ステップ６０６）、ロック回路１４０は、代わりに、前にロックを要求し、ロックを受信しなかったが、代わりに保留要求が設定された、別のカーネル１３８にロックを許可する（ステップ６１０）。

【0026】

ロック回路１４０は、周辺バス１１５を介した不要なアトミックトラフィックを防ぎ、アクセラレーション回路関係の競合を局所的に処理する。ロックの許可を待つカーネル１３８は、周辺バス１１５を介して繰り返しアトミックトランザクションを送る必要はない。

【0027】

カーネル１３８が、データ（を修正せずに）にアクセスするためにのみロックを必要とする場合、複数のカーネル１３８がロック回路１４０によって同時にロックを許可され得る。保留要求フィールドは、いくつのカーネルが現在ロックを許可されているかを把握するためにカウンタに変換され得る。図４は、保留要求フィールド３０４ではなくカウンタフィールド３０８を有するカーネルロックアレイ２０６の例を示すブロック図である。カウンタフィールド３０８は、ロックを許可されたカーネルの数を示す、各エントリについての１つの値を含む。ロック回路１４０は、カーネル１３８からのロック解放要求に応じてカウンタフィールド３０８を減分する。カウンタフィールド３０８が０に達したとき、ロック回路１４０は、そのデータに対するロックを解放するために周辺バス１１５を介してアトミック要求を送る。この方式は、ＧＥＴ演算が複数のカーネル１３８にオフロードされるときに、ホストアプリケーションがＳＥＴ演算の場合のようにデータを修正するのを防ぐために、基本的にロックが取られる、ｍｅｍｃａｃｈｅｄなどのアプリケーションにおいて有用である。このことは、ソフトウェアだけでは不可能である並列処理を可能にする利益を有する。

【0028】

アプリケーション要件に基づいて、カーネル１３８がロックを取るときに、書込み（たとえば、データ構造中のあるフィールドの増分）も必要とされる場合、その増分はアトミック記憶加算（ｓｔｏｒｅ－ａｄｄ）演算を介して行われ得、複数のユーザカーネル１３８が依然として並列に動作することができ、より良い全体的性能が得られる。ロックを一定の時間期間の間保持することが競合スレッド１３９の枯渇を引き起こすことを、使用事例分析が暗示する場合、ロックが第１のカーネル１３８によって取られると、設定された数を超えるカーネル１３８についてロックが保持されないように、しきい値カウンタがロック回路１４０中に実装され得る。

【0029】

図７Ａは、一例による、プログラマブルデバイス５４を示すブロック図である。プログラマブルデバイス５４は、ハードウェアアクセラレータ１２２中にプログラマブルデバイス１２８を実装するために使用され得る。プログラマブルデバイス５４は、複数のプログラマブル集積回路（ＩＣ）１、たとえば、プログラマブルＩＣ１Ａ、１Ｂ、１Ｃ、および１Ｄを含む。一例では、各プログラマブルＩＣ１は、インターポーザ（ｉｎｔｅｒｐｏｓｅｒ）５１上に配設されたＩＣダイである。各プログラマブルＩＣ１は、プログラマブルデバイス５４の超論理領域（ＳＬＲ）５３、たとえば、ＳＬＲ５３Ａ、５３Ｂ、５３Ｃ、および５３Ｄを含む。プログラマブルＩＣ１は、（スーパーロングライン（ＳＬＬ）５２と呼ばれる）インターポーザ５１上の導体を通して相互接続される。

【0030】

図７Ｂは、一例による、プログラマブルＩＣ１を示すブロック図である。プログラマブルＩＣ１は、プログラマブルデバイス１２８、またはプログラマブルデバイス５４中のプログラマブルＩＣ１Ａ～１Ｄのうちの１つを実装するために使用され得る。プログラマブルＩＣ１は、（プログラマブルファブリックとも呼ばれる）プログラマブル論理３と、構成論理２５と、構成メモリ２６とを含む。プログラマブルＩＣ１は、不揮発性メモリ２７、ＤＲＡＭ２８、および他の回路２９など、外部回路に結合され得る。プログラマブル論理３は、論理セル３０と、サポート回路３１と、プログラマブル相互接続３２とを含む。論理セル３０は、複数の入力の一般的な論理関数を実装するように構成され得る回路を含む。サポート回路３１は、トランシーバ、入出力ブロック、デジタル信号プロセッサ、メモリなど、専用回路を含む。論理セルとサポート回路３１とはプログラマブル相互接続３２を使用して相互接続され得る。論理セル３０をプログラミングするための情報と、サポート回路３１のパラメータを設定するための情報と、プログラマブル相互接続３２をプログラミングするための情報は構成論理２５によって構成メモリ２６に記憶される。構成論理２５は、不揮発性メモリ２７または任意の他のソース（たとえば、ＤＲＡＭ２８または他の回路２９から）から構成データを取得することができる。いくつかの例では、プログラマブルＩＣ１は処理システム２を含む。処理システム２は、マイクロプロセッサ、メモリ、サポート回路、ＩＯ回路などを含むことができる。いくつかの例では、プログラマブルＩＣ１は、ネットワークオンチップ（ＮＯＣ）５５とデータ処理エンジン（ＤＰＥ）アレイ５６とを含む。ＮＯＣ５５は、ＰＳ２とＰＬ３とＤＰＥアレイ５６との間など、プログラマブルＩＣ１のサブシステム間の通信を行うように構成される。ＤＰＥアレイ５６は、ベクトルプロセッサのアレイなど、データ処理を実行するように構成されたＤＰＥのアレイを含むことができる。

【0031】

図７Ｃは、一例による、プログラマブルＩＣ１のＳＯＣ実装を示すブロック図である。その例では、プログラマブルＩＣ１は処理システム２とプログラマブル論理３とを含む。処理システム２は、リアルタイム処理ユニット（ＲＰＵ）４、アプリケーション処理ユニット（ＡＰＵ）５、グラフィックス処理ユニット（ＧＰＵ）６、構成およびセキュリティユニット（ＣＳＵ）１２、プラットフォーム管理ユニット（ＰＭＵ）１２２など、様々な処理ユニットを含む。処理システム２はまた、オンチップメモリ（ＯＣＭ）１４、トランシーバ７、周辺機器８、相互接続１６、ＤＭＡ回路９、メモリコントローラ１０、周辺機器１５、および多重化入出力（ＭＩＯ）回路１３など、様々なサポート回路を含む。処理ユニットとサポート回路とは相互接続１６によって相互接続される。ＰＬ３も相互接続１６に結合される。トランシーバ７は外部ピン２４に結合される。ＰＬ３は外部ピン２３に結合される。メモリコントローラ１０は外部ピン２２に結合される。ＭＩＯ１３は外部ピン２０に結合される。ＰＳ２は概して外部ピン２１に結合される。ＡＰＵ５は、ＣＰＵ１７と、メモリ１８と、サポート回路１９とを含むことができる。

【0032】

図３Ｃの例では、プログラマブルＩＣ１は、ハードウェアアクセラレータ１２２中で使用され得、上記で説明したように機能することができる。アクセラレーション回路１３０は、ＰＬ３中でプログラムされ得、上記で説明したように機能することができる。別の例では、上記で説明したハードウェア１０４の機能は、計算システムのハードウェアを通してではなく、ＰＳ２を使用して実装され得る。そのような場合、ソフトウェア１０６は、ＰＳ２上で動作し、上記で説明したように機能する。

【0033】

ＰＳ２を参照すると、処理ユニットの各々は、１つまたは複数の中央処理ユニット（ＣＰＵ）と、メモリ、割込みコントローラ、ダイレクトメモリアクセス（ＤＭＡ）コントローラ、メモリ管理ユニット（ＭＭＵ）、浮動小数点ユニット（ＦＰＵ）など、関連する回路とを含む。相互接続１６は、処理ユニットを相互接続し、ならびに、ＰＳ２中の他の構成要素を処理ユニットに相互接続するように構成された、様々なスイッチ、バス、通信リンクなど含む。

【0034】

ＯＣＭ１４は、ＰＳ２全体にわたって分配され得る１つまたは複数のＲＡＭモジュールを含む。たとえば、ＯＣＭ１４は、バッテリーバックアップ付きＲＡＭ（ＢＢＲＡＭ）、緊密結合メモリ（ＴＣＭ）などを含むことができる。メモリコントローラ１０は、外部ＤＲＡＭにアクセスするためのＤＲＡＭインターフェースを含むことができる。周辺機器８、１５は、ＰＳ２へのインターフェースを与える１つまたは複数の構成要素を含むことができる。たとえば、周辺機器１５は、グラフィックス処理ユニット（ＧＰＵ）、（たとえば、ディスプレイポート、高精細度マルチメディアインターフェース（ＨＤＭＩ）ポートなどの）ディスプレイインターフェース、ユニバーサルシリアルバス（ＵＳＢ）ポート、イーサネットポート、汎用非同期トランシーバ（ＵＡＲＴ）ポート、シリアル周辺インターフェース（ＳＰＩ）ポート、汎用ＩＯ（ＧＰＩＯ）ポート、シリアルアドバンストテクノロジーアタッチメント（ＳＡＴＡ）ポート、ＰＣＩｅポートなどを含むことができる。周辺機器１５はＭＩＯ１３に結合され得る。周辺機器８はトランシーバ７に結合され得る。トランシーバ７は、シリアライザ／デシリアライザ（ＳＥＲＤＥＳ）回路、マルチギガビットトランシーバ（ＭＧＴ）などを含むことができる。

【0035】

図７Ｄは、ＰＬ３を含むプログラマブルＩＣ１のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）実装を示す。図７Ｄに示されたＰＬ３は、本明細書で説明するプログラマブルデバイスの任意の例において使用され得る。ＰＬ３は、トランシーバ３７、構成可能論理ブロック（「ＣＬＢ」）３３、ランダムアクセスメモリブロック（「ＢＲＡＭ」）３４、入出力ブロック（「ＩＯＢ」）３６、構成およびクロッキング論理（「ＣＯＮＦＩＧ／ＣＬＯＣＫＳ」）４２、デジタル信号処理ブロック（「ＤＳＰ」）３５、専用入出力ブロック（「Ｉ／Ｏ」）４１（たとえば、構成ポートおよびクロックポート）、および、デジタルクロックマネージャ、アナログデジタル変換器、システム監視論理など、他のプログラマブル論理３９を含む、多数の異なるプログラマブルタイルを含む。ＰＬ３はまた、ＰＣＩｅインターフェース４０、アナログデジタル変換器（ＡＤＣ）３８などを含むことができる。

【0036】

いくつかのＰＬ中で、各プログラマブルタイルは、図７Ｄの上部に含まれる例によって示されるように、同じタイル内でプログラマブル論理要素の入力および出力端子４８への接続を有する少なくとも１つのプログラマブル相互接続要素（「ＩＮＴ」）４３を含むことができる。各プログラマブル相互接続要素４３は、同じタイルまたは他のタイル中の隣接するプログラマブル相互接続要素の相互接続セグメント４９への接続をも含むことができる。各プログラマブル相互接続要素４３は、論理ブロック（図示せず）間の一般的なルーティングリソースの相互接続セグメント５０への接続をも含むことができる。一般的なルーティングリソースは、相互接続セグメント（たとえば、相互接続セグメント５０）のトラックと、相互接続セグメントを接続するためのスイッチブロック（図示せず）とを含む、論理ブロック（図示せず）間のルーティングチャネルを含むことができる。一般的なルーティングリソースの相互接続セグメント（たとえば、相互接続セグメント５０）は１つまたは複数の論理ブロックにわたることができる。プログラマブル相互接続要素４３は、一般的なルーティングリソースと一緒にされて、示されているＰＬのためのプログラマブル相互接続構造（「プログラマブル相互接続」）を実装する。

【0037】

例示的な実装形態では、ＣＬＢ３３は、ユーザ論理＋単一のプログラマブル相互接続要素（「ＩＮＴ」）４３を実装するようにプログラムされ得る構成可能論理要素（「ＣＬＥ」）４４を含むことができる。ＢＲＡＭ３４は、１つまたは複数のプログラマブル相互接続要素に加えてＢＲＡＭ論理要素（「ＢＲＬ」）４５を含むことができる。一般に、タイル中に含まれる相互接続要素の数はタイルの高さに依存する。図示の例では、ＢＲＡＭタイルは５つのＣＬＢと同じ高さを有するが、他の数（たとえば、４つ）も使用され得る。ＤＳＰタイル３５は、適切な数のプログラマブル相互接続要素に加えてＤＳＰ論理要素（「ＤＳＰＬ」）４６を含むことができる。ＩＯＢ３６は、たとえば、プログラマブル相互接続要素４３の１つのインスタンスに加えて入出力論理要素（「ＩＯＬ」）４７の２つのインスタンスを含むことができる。当業者に明らかになるように、たとえば、Ｉ／Ｏ論理要素４７に接続された実際のＩ／Ｏパッドは、一般に、入出力論理要素４７のエリアに限定されない。

【0038】

図示の例では、（図３Ｄに示された）ダイの中心に近い水平エリアは、構成、クロック、および他の制御論理のために使用される。この水平エリアまたは列から延びる垂直列５１は、クロックと構成信号とをＰＬの幅にわたって分配するために使用される。

【0039】

図５Ｄに示されたアーキテクチャを利用するいくつかのＰＬは、ＰＬの大部分を構成する規則的な柱状構造を中断する追加の論理ブロックを含む。追加の論理ブロックはプログラマブルブロックおよび／または専用論理であり得る。

【0040】

図７Ｄは例示的なＰＬアーキテクチャのみを示すものであることに留意されたい。たとえば、行中の論理ブロックの数、行の相対幅、行の数および順序、行中に含まれる論理ブロックのタイプ、論理ブロックの相対サイズ、および図７Ｄの上部に含まれる相互接続／論理実装は例にすぎない。たとえば、実際のＰＬ中では、一般に、ユーザ論理の効率的な実装を促進するために、ＣＬＢが現れる所はどこでも、ＣＬＢの２つ以上の隣接する行が含まれるが、隣接するＣＬＢ行の数はＰＬの全体的サイズとともに変動する。

【0041】

本開示はまた、限定はしないが、以下の例のうちの１つまたは複数において表され得る。

【0042】

例１：計算システムの周辺バスに結合されたバスインターフェースと、バスインターフェースに結合されたロック回路と、ロック回路とバスインターフェースとに結合された複数のカーネル回路とを備える、計算システム中のハードウェアアクセラレータであって、複数のカーネル回路がロック回路にロック要求を与え、ロック要求が、計算システムのシステムメモリに記憶されたデータについてのものであり、ロック回路が、複数のカーネル回路からのロック要求を処理し、ロック要求に基づいてバスインターフェースを通して周辺バスを介してアトミックトランザクションを発行するように構成される、ハードウェアアクセラレータ。

【0043】

例２：ロック回路が、カーネルロックアレイを維持するように構成され、カーネルロックアレイが、それぞれ保留要求フィールドとロックステータスフィールドとを有する複数の要素を含む、例１のハードウェアアクセラレータ。

【0044】

例３：保留要求フィールドが、複数のカーネル回路に対応する複数のエントリを含み、ロックステータスフィールドが、複数のカーネル回路に対応する複数のエントリを含む、例２のハードウェアアクセラレータ。

【0045】

例４：ロック回路が、ロック要求の各々について、カーネルロックアレイ中の対応する要素のロックステータスフィールドを検査することと、利用可能な場合、対応する要素のロックステータスフィールド中にロックを設定することと、ロックが利用可能でない場合、保留要求フィールド中の保留ロック要求を示すこととを行うように構成された、例３のハードウェアアクセラレータ。

【0046】

例５：ロック回路が、カーネルロックアレイを維持するように構成され、カーネルロックアレイが、それぞれカウンタフィールドとロックステータスフィールドとを有する複数の要素を含む、例１のハードウェアアクセラレータ。

【0047】

例６：カウンタフィールドが値を含み、ロックステータスフィールドが、複数のカーネル回路に対応する複数のエントリを含む、例５のハードウェアアクセラレータ。

【0048】

例７：ロック回路が、ロック要求の各々について、カーネルロックアレイ中の対応する要素のロックステータスフィールドを検査することと、対応する要素のロックステータスフィールド中にロックを設定することと、対応する要素のカウンタフィールド中の値を増分することとを行うように構成された、例６のハードウェアアクセラレータ。

【0049】

例８：システムメモリと、システムメモリに結合されたプロセッサと、システムメモリに結合された周辺バスと、周辺バスに結合されたハードウェアアクセラレータと、周辺バスに結合されたバスインターフェースと、バスインターフェースに結合されたロック回路と、ロック回路とバスインターフェースとに結合された複数のカーネル回路とを備える計算システムであって、複数のカーネル回路がロック回路にロック要求を与え、ロック要求が、システムメモリに記憶されたデータについてのものであり、ロック回路が、複数のカーネル回路からのロック要求を処理し、ロック要求に基づいてバスインターフェースを通して周辺バスを介してアトミックトランザクションを発行するように構成された、計算システム。

【0050】

例９：ロック回路が、カーネルロックアレイを維持するように構成され、カーネルロックアレイが、それぞれ保留要求フィールドとロックステータスフィールドとを有する複数の要素を含む、例８の計算システム。

【0051】

例１０：保留要求フィールドが、複数のカーネル回路に対応する複数のエントリを含み、ロックステータスフィールドが、複数のカーネル回路に対応する複数のエントリを含む、例９の計算システム。

【0052】

例１１：ロック回路が、ロック要求の各々について、カーネルロックアレイ中の対応する要素のロックステータスフィールドを検査することと、利用可能な場合、対応する要素のロックステータスフィールド中にロックを設定することと、ロックが利用可能でない場合、保留要求フィールド中の保留ロック要求を示すこととを行うように構成された、例１０の計算システム。

【0053】

例１２：ロック回路が、カーネルロックアレイを維持するように構成され、カーネルロックアレイが、それぞれカウンタフィールドとロックステータスフィールドとを有する複数の要素を含む、例８の計算システム。

【0054】

例１３：カウンタフィールドが値を含み、ロックステータスフィールドが複数のカーネル回路に対応する複数のエントリを含む、例１２の計算システム。

【0055】

例１４：ロック回路が、ロック要求の各々について、カーネルロックアレイ中の対応する要素のロックステータスフィールドを検査することと、対応する要素のロックステータスフィールド中にロックを設定することと、対応する要素のカウンタフィールド中の値を増分することとを行うように構成された、例１３の計算システム。

【0056】

例１５：計算システムのハードウェアアクセラレータ中で実行する複数のカーネル間でメモリに記憶されたデータへのロックを管理する方法であって、その方法は、ハードウェアアクセラレータ中のロック回路において、複数のカーネルのうちの１つのカーネルからのロック要求を受信することと、ロックが複数のカーネルのうちの別のカーネルによって保持されるかどうかを決定することと、ロックが別のカーネルによって保持されることに応答して、カーネルについての保留要求を示すことと、ロックが別のカーネルによって保持されないことに応答して、ロックを取得するために、ロック回路から、計算システムのバスインターフェースを介してロックについてのアトミック要求を発行することとを含む、方法。

【0057】

例１６：カーネルがロックを有することを示すことをさらに含む、例１５の方法。

【0058】

例１７：ロック回路においてカーネルからのロック解放要求を受信することと、複数のカーネルのうちの別のカーネルが保留ロック要求を有するかどうかを決定することと、保留ロック要求の不在に応答して、ロック回路から、計算システムのバスインターフェースを介してロックを解放するための別のアトミック要求を発行することと、保留ロック要求の存在に応答して、ロック回路によって、複数のカーネルのうちの別のカーネルのロックを許可することとをさらに含む、例１５の方法。

【0059】

例１８：ロック回路が、カーネルロックアレイを維持するように構成され、カーネルロックアレイが、それぞれ保留要求フィールドとロックステータスフィールドとを有する複数の要素を含む、例１５の方法。

【0060】

例１９：保留要求フィールドが、複数のカーネル回路に対応する複数のエントリを含み、ロックステータスフィールドが、複数のカーネル回路に対応する複数のエントリを含む、例１８の方法。

【0061】

例２０：ロック回路が、カーネルロックアレイを維持するように構成され、カーネルロックアレイが、それぞれカウンタフィールドとロックステータスフィールドとを有する複数の要素を含む、例１５の方法。

【0062】

上記は特定の例を対象とするが、他の例およびさらなる例が、それの基本的な範囲から逸脱することなく考案され得、それの範囲は以下の例によって決定される。

【0063】

上記は特定の例を対象とするが、他の例およびさらなる例が、それの基本的な範囲から逸脱することなく考案され得、それの範囲は以下の特許請求の範囲によって決定される。

【図1A】