特表2024-541294 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アドバンスト・マイクロ・ディバイシズ・インコーポレイテッドの特許一覧

特表2024-541294アクセラレータ常駐ランタイム管理を介した高スケーラブルＨＰＣアプリケーションにおけるレイテンシの低減

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-08

(54)【発明の名称】アクセラレータ常駐ランタイム管理を介した高スケーラブルＨＰＣアプリケーションにおけるレイテンシの低減

(51)【国際特許分類】

G06F 9/48 20060101AFI20241031BHJP

G06F 9/50 20060101ALI20241031BHJP

【ＦＩ】

G06F9/48 370

G06F9/50 150Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024526933

(86)(22)【出願日】2022-10-26

(85)【翻訳文提出日】2024-06-17

(86)【国際出願番号】 US2022047900

(87)【国際公開番号】W WO2023086204

(87)【国際公開日】2023-05-19

(31)【優先権主張番号】17/454,607

(32)【優先日】2021-11-11

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】591016172

【氏名又は名称】アドバンスト・マイクロ・ディバイシズ・インコーポレイテッド

【氏名又は名称原語表記】ＡＤＶＡＮＣＥＤＭＩＣＲＯＤＥＶＩＣＥＳＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108833

【弁理士】

【氏名又は名称】早川裕司

(74)【代理人】

【識別番号】100111615

【弁理士】

【氏名又は名称】佐野良太

(74)【代理人】

【識別番号】100162156

【弁理士】

【氏名又は名称】村雨圭介

(72)【発明者】

【氏名】ニコラスジェームスカーティス

(57)【要約】

アクセラレータ常駐マネージャによるランタイム管理のための方法及びシステムが提供される。技術は、マネージャが、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することを含む。次いで、マネージャは、複数のカーネルを、それを管理する１つ以上のＡＰＵに割り当て、複数のカーネルを、それらの割り当てられたＡＰＵ上で起動し、それぞれの依存関係に従って反復実行する。
【選択図】図６

【特許請求の範囲】

【請求項1】

アクセラレータ常駐マネージャによるランタイム管理の方法であって、
前記マネージャが、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することと、
前記マネージャが、前記複数のカーネルを、前記マネージャによって管理されるアクセラレータの１つ以上のＡＰＵに割り当てることと、
前記マネージャが、前記複数のカーネルをそれらの割り当てられたＡＰＵ上で起動し、前記それぞれの依存関係に従って反復実行することと、を含む、
方法。

【請求項2】

前記反復中に第１のカーネルの第２のカーネルに対する依存関係が終了した場合に、前記第２のカーネルが、前記第１のカーネルにメッセージを送信することであって、前記メッセージは、終了した依存関係を示す、ことを含む、
請求項１の方法。

【請求項3】

前記反復の終了時に、前記マネージャが、終了した依存関係に基づいて、前記カーネルを前記ＡＰＵに再割り当てすることを含む、
請求項２の方法。

【請求項4】

前記反復中に第１のカーネルの第２のカーネルに対する依存関係が生成された場合に、前記第２のカーネルから完了メッセージを受信するために前記第１のカーネルによって使用されるメールボックスを前記第２のカーネルが生成することを含む、
請求項１の方法。

【請求項5】

前記反復の終了時に、前記マネージャが、生成された依存関係に基づいて、前記カーネルを前記ＡＰＵに再割り当てすることを含む、
請求項４の方法。

【請求項6】

前記マネージャが、前記反復中における割り当てられたＡＰＵ上での前記カーネルの実行時間に基づいて、前記カーネルのサブセットを別のＡＰＵに再割り当てすることによって、前記カーネルの実行をロードバランシングすることを含む、
請求項１の方法。

【請求項7】

前記割り当てることは、前記複数のカーネルの一部を第２のアクセラレータ常駐マネージャに割り当てることであって、前記第２のマネージャが、前記複数のカーネルの一部を前記第２のマネージャによって管理される第２のアクセラレータの１つ以上のＡＰＵに割り当てる、ことを含み、
前記起動することは、前記第２のマネージャが、前記複数のカーネルの一部をそれらの割り当てられたＡＰＵ上で起動し、前記それぞれの依存関係に従って反復実行することを含む、
請求項１の方法。

【請求項8】

前記マネージャ及び前記第２のマネージャは、互いにリモートであり、
前記マネージャが前記起動すること及び前記第２のマネージャが前記起動することは、前記表現のそれぞれのコピーに含まれる依存関係に従って実行され、前記表現のコピーを照合することを含む、
請求項７の方法。

【請求項9】

前記表現は、グラフであり、
前記グラフの各ノードは、前記複数のカーネルのうち何れかのカーネルと、前記ＡＰＵのうち何れかのＡＰＵと、に関連付けられており、
前記グラフの各エッジは、前記それぞれの依存関係のうち何れかの依存関係を表す、
請求項１の方法。

【請求項10】

前記グラフの各ノードは、前記ノードに関連付けられたカーネルの実行時間を測定するタイマに関連付けられている、
請求項９の方法。

【請求項11】

アクセラレータ常駐マネージャによるランタイム管理のためのシステムであって、
少なくとも１つのプロセッサと、
命令を記憶するメモリと、を備え、
前記命令は、前記少なくとも１つのプロセッサによって実行されると、
前記マネージャが、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することと、
前記マネージャが、前記複数のカーネルを、前記マネージャによって管理されるアクセラレータの１つ以上のＡＰＵに割り当てることと、
前記マネージャが、前記複数のカーネルをそれらの割り当てられたＡＰＵ上で起動し、前記それぞれの依存関係に従って反復実行することと、
を前記システムに行わせる、
システム。

【請求項12】

前記命令は、
前記反復中に第１のカーネルの第２のカーネルに対する依存関係が終了した場合に、前記第２のカーネルが、前記第１のカーネルにメッセージを送信することであって、前記メッセージは、終了した依存関係を示す、ことと、
前記反復の終了時に、前記マネージャが、終了した依存関係に基づいて、前記カーネルを前記ＡＰＵに再割り当てすることと、
を前記システムに行わせる、
請求項１１のシステム。

【請求項13】

前記命令は、
前記反復中に第１のカーネルの第２のカーネルに対する依存関係が生成された場合に、前記第２のカーネルから完了メッセージを受信するために前記第１のカーネルによって使用されるメールボックスを前記第２のカーネルが生成することと、
前記反復の終了時に、前記マネージャが、生成された依存関係に基づいて、前記カーネルを前記ＡＰＵに再割り当てすることと、
を前記システムに行わせる、請求項１１に記載のシステム。

【請求項14】

前記命令は、
前記マネージャが、前記反復中における割り当てられたＡＰＵ上での前記カーネルの実行時間に基づいて、前記カーネルのサブセットを別のＡＰＵに再割り当てすることによって、前記カーネルの実行をロードバランシングすることを前記システムに行わせる、
請求項１１のシステム。

【請求項15】

【請求項16】

前記マネージャ及び前記第２のマネージャは、互いにリモートであり、
前記マネージャが前記起動すること及び前記第２のマネージャが前記起動することは、前記表現のそれぞれのコピーに含まれる依存関係に従って実行され、前記表現のコピーを照合することを含む、
請求項１５のシステム。

【請求項17】

アクセラレータ常駐マネージャによるランタイム管理の方法を実行するために少なくとも１つのプロセッサによって実行可能な命令を備えるコンピュータ可読記憶媒体であって、
前記方法は、
前記マネージャが、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することと、
前記マネージャが、前記複数のカーネルを、前記マネージャによって管理される１つ以上のＡＰＵに割り当てることと、
前記マネージャが、前記複数のカーネルをそれらの割り当てられたＡＰＵ上で起動し、前記それぞれの依存関係に従って反復実行することと、を含む、
コンピュータ可読記憶媒体。

【請求項18】

前記反復中に第１のカーネルの第２のカーネルに対する依存関係が終了した場合に、前記第２のカーネルが、前記第１のカーネルにメッセージを送信することであって、前記メッセージは、終了した依存関係を示す、ことと、
前記反復の終了時に、前記マネージャが、終了した依存関係に基づいて、前記カーネルを前記ＡＰＵに再割り当てすることと、を含む、
請求項１７のコンピュータ可読記憶媒体。

【請求項19】

前記反復中に第１のカーネルの第２のカーネルに対する依存関係が生成された場合に、前記第２のカーネルから完了メッセージを受信するために前記第１のカーネルによって使用されるメールボックスを前記第２のカーネルが生成することと、
前記反復の終了時に、前記マネージャが、生成された依存関係に基づいて、前記カーネルを前記ＡＰＵに再割り当てすることと、を含む、
請求項１７のコンピュータ可読記憶媒体。

【請求項20】

前記マネージャが、前記反復中における割り当てられたＡＰＵ上での前記カーネルの実行時間に基づいて、前記カーネルのサブセットを別のＡＰＵに再割り当てすることによって、前記カーネルの実行をロードバランシングすることを含む、
請求項１７のコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０２１年１１月１１日に出願された米国特許出願第１７／４５４，６０７号の利益を主張するものであり、その内容は、参照により本明細書に組み込まれる。

【背景技術】

【0002】

アクセラレーテッドプロセッシングユニット（Accelerated Processing Unit、ＡＰＵ）は、何千ものプロセス（計算タスク又はカーネル）を並列に効率的に実行するような設計により熟達している。典型的なアプリケーションは、逐次的に実行されなければならないプロセスと、並列化され得るプロセスと、を伴い得る。したがって、アプリケーションソフトウェアアーキテクチャは、クラスタによって与えられる高い性能を達成するために、中央処理装置（Central Processing Unit、ＣＰＵ）上で実行するように設計され得る逐次部分と、ＡＰＵ又はＡＰＵのクラスタを含むアクセラレータ上で実行するように設計され得る並列可能部分と、を含み得る。しかしながら、ＣＰＵ上で実行されるプロセスがＡＰＵ上で実行される作業（カーネルの同期及び起動等）を管理するので、ＣＰＵ－ＡＰＵ通信によってかなりのレイテンシが導入される。そのようなレイテンシは、小さい作業負荷を有する無数のカーネルがＣＰＵによって管理される、強くスケーリング（strongly-scaled）された高性能コンピューティング（High Performance Computing、ＨＰＣ）アプリケーションにとって特に重要である。そのような場合に、カーネルを同期及び起動する際にＣＰＵによって費やされる時間は、カーネル自体の実行時間に匹敵するか又はそれを超え得る。更に、ランタイム中に発生するカーネル間の依存関係の変化は、同期方式を調整するためにＣＰＵがランタイム動作を中断することを必要とするので、ＣＰＵ－ＡＰＵ通信に関連するレイテンシに更に寄与し得る。ＣＰＵ－ＡＰＵ通信に関連するレイテンシを低減するための技術が必要とされる。

【0003】

添付の図面と共に例として与えられる以下の説明から、より詳細な理解が可能になる。

【図面の簡単な説明】

【0004】

【図1A】例示的なデバイスのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【図1B】図１Ａのデバイスによって使用可能な加速システムを示す例示的なシステムのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【図2】アプリケーションランタイムの中央管理を示す例示的なシステムのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【図3】例示的なグラフでありし、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【図4】アプリケーションランタイムの分散管理を示す例示的なシステムのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【図5】ネットワーク境界をまたぐアプリケーションランタイムの分散管理を示す例示的なシステムのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【図6】アクセラレータ常駐ランタイム管理のための例示的な方法のフローチャートであり、これに基づいて、本開示の１つ以上の特徴を実装することができる。

【発明を実施するための形態】

【0005】

ＨＰＣアプリケーションは、多くの場合、多数のデータ要素に対して独立して実行することができる並列化された計算から利益を得る。性能スケーリングは、ＡＰＵの複数のクラスタを含むシステムによって達成することができ、そのクラスタ上でカーネルが並列に実行することができ、各カーネルが１つ以上のデータ要素に関して計算を実行することができる。そのようなレジームでは、レイテンシは、システムの様々な構成要素、例えば、ネットワークインターフェースコントローラ（network-interface controller、ＮＩＣ）、ＣＰＵ又はＡＰＵによって増加し得る。多くの場合、これらの構成要素間の通信は、重要な性能制限である。

【0006】

ＣＰＵとアクセラレータ（例えば、ＡＰＵの１つ以上のクラスタ）との間の通信によって寄与されるレイテンシを低減するシステム及び方法が本願において開示される。そのような通信は、アクセラレータ上のカーネルの実行を管理する際のＣＰＵの役割によって必要とされる。本明細書では、アプリケーション実行フローの管理がアクセラレータ常駐マネージャによって実行される、すなわち、管理機能がそれぞれのアクセラレータに常駐するモジュールによって実行される技術について説明する。開示されたアクセラレータ常駐マネージャは、例えば、カーネル起動及び同期を制御し、ランタイム中にＣＰＵの制御からアクセラレータを切り離す。

【0007】

アクセラレータ常駐マネージャによるランタイム管理のための方法が本明細書で開示される。本方法は、マネージャによって、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することと、マネージャによって、マネージャによって管理される１つ以上のＡＰＵに複数のカーネルを割り当てることと、マネージャによって、複数のカーネルを、それらの割り当てられたＡＰＵ上で、それぞれの依存関係に従って反復において実行するように起動することと、を含む。

【0008】

アクセラレータ常駐マネージャによるランタイム管理のためのシステムも開示される。システムは、少なくとも１つのプロセッサと、命令を記憶するメモリと、を備える。命令は、少なくとも１つのプロセッサによって実行される場合に、システムに、マネージャによって、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することと、マネージャによって、マネージャによって管理される１つ以上のＡＰＵに複数のカーネルを割り当てることと、マネージャによって、複数のカーネルを、それらの割り当てられたＡＰＵ上で、それぞれの依存関係に従って反復において実行するように起動することと、を行わせる。

【0009】

更に、アクセラレータ常駐マネージャによるランタイム管理のための方法を実行するために少なくとも１つのプロセッサによって実行可能な命令を備える非一時的なコンピュータ可読記憶媒体が本明細書で開示される。本方法は、マネージャによって、複数のカーネル及びそれぞれの依存関係を含むアプリケーションの処理フローの表現を受信することと、マネージャによって、マネージャによって管理される１つ以上のＡＰＵに複数のカーネルを割り当てることと、マネージャによって、複数のカーネルを、それらの割り当てられたＡＰＵ上で、それぞれの依存関係に従って反復において実行するように起動することと、を含む。

【0010】

図１Ａは、例示的なデバイス１００Ａのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。デバイス１００Ａは、例えば、コンピュータ、ゲーミングデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、又はタブレットコンピュータとすることができる。デバイス１００Ａは、プロセッサ１０２、ＡＰＵ１０６、メモリ１０４、ストレージ１１６、入力デバイス１０８、及び、出力デバイス１１０を含む。また、デバイス１００Ａは、入力ドライバ１１２及び出力ドライバ１１４を含み得る。一態様では、デバイス１００Ａは、図１Ａに示されていない追加の構成要素を含み得る。

【0011】

プロセッサ１０２は、ＣＰＵ又はＣＰＵの１つ以上のコアを含むことができる。ＡＰＵ１０６は、高度並列処理ユニット、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）又はそれらの組み合わせを表すことができる。プロセッサ１０２及びＡＰＵ１０６は、同じダイ上又は別のダイ上に位置し得る。メモリ１０４は、プロセッサ１０２と同じダイ上に位置し得るか、又は、プロセッサ１０２とは別に位置し得る。メモリ１０４は、揮発性又は不揮発性メモリ（例えば、ランダムアクセスメモリ（random access memory、ＲＡＭ）、ダイナミックＲＡＭ（dynamic random access memory、ＤＲＡＭ）、キャッシュ、又は、これらの組み合わせ）を含むことができる。

【0012】

ストレージ１１６は、固定又はリムーバブルストレージ（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含むことができる。入力デバイス１０８は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体認証スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の受信のための無線ローカルエリアネットワークカード）等の１つ以上の入力デバイスを表すことができる。出力デバイス１１０は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上の光、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信のための無線ローカルエリアネットワークカード）等の１つ以上の出力デバイスを表すことができる。

【0013】

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、入力デバイス１０８からプロセッサ１０２への入力の受信を容易にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２から出力デバイス１１０への出力の送信を容易にする。一態様では、入力ドライバ１１２及び出力ドライバ１１４はオプションの構成要素であり、デバイス１００Ａは、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合、同じ方式で動作することができる。

【0014】

ＡＰＵ１０６は、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れて、それらの計算及びグラフィックスレンダリングコマンドを処理し、及び／又は、ディスプレイ（出力デバイス１１０）に出力を提供するように構成され得る。以下で更に詳細に説明するように、ＡＰＵ１０６は、例えば、単一命令複数データ（single instruction multiple data、ＳＩＭＤ）パラダイムに従って計算を実行するように構成された１つ以上の並列処理ユニットを含むことができる。したがって、様々な機能が、本明細書では、ＡＰＵ１０６によって又はＡＰＵ１０６と併せて実行されるものとして説明されているが、様々な代替例では、ＡＰＵ１０６によって実行されるものとして説明される機能は、追加的又は代替的に、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されず、例えば、グラフィカル出力をディスプレイに提供するように構成することができる同様の能力を有する他のコンピューティングデバイスによって実行され得る。処理システムがＳＩＭＤパラダイムに従って処理タスクを実行することができるかどうかにかかわらず、処理システムは、本明細書で説明される機能を実行するように構成され得る。

【0015】

図１Ｂは、図１Ａのデバイスによって使用可能な加速システムを示す例示的なシステム１００Ｂのブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。図１Ｂは、ＡＰＵ１０６上での処理タスクの実行を更に詳細に示す。プロセッサ１０２は、メモリ１０４内で、プロセッサ１０２による実行のための１つ以上のモジュールを維持することができる。モジュールは、オペレーティングシステム１２０、カーネルモードドライバ１２２、及び、アプリケーション１２６を含む。これらのモジュールは、プロセッサ１０２及びＡＰＵ１０６の動作の様々な特徴を制御することができる。例えば、オペレーティングシステム１２０は、システムコール、すなわち、アプリケーションプログラミングインターフェース（application programming interface、ＡＰＩ）を提供することができ、これは、アプリケーション１２６によって採用され、ハードウェアと直接インターフェースすることができる。カーネルモードドライバ１２２は、例えば、プロセッサ１０２上で実行されるアプリケーション１２６にＡＰＩを提供して、ＡＰＵ１０６の様々な機能にアクセスすることによって、ＡＰＵ１０６の動作を制御することができる。

【0016】

ＡＰＵ１０６は、並列処理又は逐次処理の何れか、及び、順序処理又は非順序処理の何れかを含む、グラフィックス動作及び非グラフィックス動作に関連するコマンドを実行することができる。ＡＰＵ１０６は、プロセッサ１０２から受信したコマンドに基づいて、ピクセル及び／又は幾何学計算を処理する動作（例えば、ディスプレイ（出力デバイス１１０）への画像のレンダリング）等のグラフィックスパイプライン動作を実行するために使用することができる。また、ＡＰＵ１０６は、プロセッサ１０２から受信したコマンドに基づいて、多次元データ、物理シミュレーション、計算流体力学又は他の計算タスクに関連する動作等のように、グラフィックス動作に関連しない処理動作を実行することができる。

【0017】

ＡＰＵ１０６は、ＷＧＰ１３２．１～１３２．Ｍを含むことができ、各ＷＧＰ、例えば１３２．１は、ＳＩＭＤパラダイムに従って並列の方式で動作を実行することができる１つ以上のＳＩＭＤユニット、例えば１３８．１．１～１３８．１．Ｎを有することができる。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、これにより、同じプログラムを、異なるデータで実行することができるものである。一例では、各ＳＩＭＤユニット、例えば１３８．１．１は、６４のレーン（すなわち、スレッド）を実行することができ、各レーンは、ＳＩＭＤユニット内の他のレーンと同時に同じ命令を実行するが、その命令を異なるデータで実行する。レーンは、全てのレーンが所定の命令を実行する必要がない場合等に、予測でオフに切り替えることができる。また、予測は、分岐制御フローを有するプログラムを実行するために使用することができる。具体的には、条件付き分岐（又は制御フローが個々のレーンによって実行される計算に基づいている他の命令）を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測、及び、異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。一態様では、ＷＧＰ１３２．１～１３２．Ｍの各々は、ローカルキャッシュを有することができる。別の態様では、複数のＷＧＰがキャッシュを共有することができる。

【0018】

ＷＧＰ、例えば１３２．１内の実行の基本的単位は、ワークアイテムである。通常、各ワークアイテムは、特定のレーンにおいて並列に実行され得るプログラムの単一のインスタンシエイションを表す。ワークアイテムは、単一のＳＩＭＤ、例えば１３８．１．１上の「ウェーブフロント（wavefront）」（又は「ウェーブ」）として同時に実行され得る。１つ以上のウェーブは、ワークグループで実行されてもよく、各ウェーブは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するウェーブの各々を実行することによって実行される。また、ウェーブは、単一のＳＩＭＤユニット上で逐次実行され得るか、又は、異なるＳＩＭＤユニット１３８．１．１～１３８．１．Ｎ上で部分的に若しくは完全に並列に実行され得る。したがって、ウェーブは、単一のＳＩＭＤユニット、例えば、１３８．１．１上で同時に実行することができるワークアイテムの集合と考えることができる。したがって、プロセッサ１０２から受信されたコマンドが、プログラムが単一のＳＩＭＤユニット上で同時に実行させることができない程度に特定のプログラムが並列化されるべきであることを示す場合、そのプログラムは、２つ以上のＳＩＭＤユニット（例えば、１３８．１．１～１３８．１．Ｎ）上に並列化されるか、同じＳＩＭＤユニット（例えば、１３８．１．１）上で直列化されるか、又は、必要に応じて並列化と直列化との両方がされ得るウェーブに分けることができる。スケジューラ１３６は、異なるＷＧＰ１３２．１～１３２．Ｍ及びそれらのそれぞれのＳＩＭＤユニット上で様々なウェーブを開始することに関連する動作を実行するように構成され得る。

【0019】

ＷＧＰ１３２．１～１３２．Ｍによって与えられる並列性は、例えば、ピクセル値に対する動作（例えば、フィルタ動作）、幾何学的データに対する動作（例えば、頂点変換）、及び、他のグラフィックス関連動作等のグラフィックス関連動作に好適である。例えば、プロセッサ１０２上で実行されるアプリケーション１２６は、ＡＰＵ１０６によって実行される計算を伴うことができる。アプリケーション１２６は、カーネルモードドライバ１２２によって提供されるＡＰＩを使用して、処理コマンドをＡＰＵ１０６に発行することができる。次いで、処理コマンドは、スケジューラ１３６に提供される。スケジューラ１３６は、処理コマンドを、並列実行のためにＷＧＰ１３２．１～１３２．Ｍに割り当てられる計算タスクに変換する。例えば、スケジューラ１３６は、データ（例えば、画像の１０２４ピクセル）に対して実行される命令を含む処理コマンドを受信し得る。それに応じて、スケジューラ１３６は、データをグループ（例えば、各グループが６４ピクセルの処理に必要なデータを含む）に分割し、１つ以上のＷＧＰにおいてウェーブを開始することができ、各ウェーブは、データのグループ及びデータに対して実行する命令に関連付けられる。例えば、スケジューラ１３６は、１つ以上のＷＧＰ１３２のＳＩＭＤ１３８において実行される１６個のウェーブ（例えば、各々が６４ピクセルの処理を担う）を開始することができる。

【0020】

図２は、アプリケーションランタイムの中央管理を示す例示的なシステム２００のブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。システム２００は、アクセラレータ２１０と、メモリ２５０と、プロセッサ２７０と、を含む。アクセラレータ２１０は、マネージャ２２０と、ＡＰＵ－１２３０及びＡＰＵ－２２４０等の１つ以上のＡＰＵ（例えば、図１ＢのＡＰＵ１０６）と、を含むことができる。プロセッサ２７０（例えば、図１Ａのプロセッサ１０２）は、マネージャ２２０によって公開されたＡＰＩを利用して、アクセラレータ２１０によって実行されるアプリケーションの処理フローを定義する表現を開始することができる。

【0021】

アプリケーションの処理フローの表現は、アプリケーションのカーネル及びカーネル間の依存関係を定義するグラフ２６０（図３によって更に説明されるように）によって表現され得る。そのようなグラフ２６０は、メモリ２５０に記憶され、そこからアクセスされ得る。表現が開始されると、マネージャ２２０は、各カーネルをアクセラレータ２１０のＡＰＵに割り当てることができ、それらの割り当てられたＡＰＵ上のカーネルを起動して、表現によって定義された処理フローに従って１つ以上の反復において実行することができる。例えば、アプリケーションの処理フローの表現がグラフ２６０によって表現される場合にグラフが開始されると、マネージャ２２０は、アクセラレータ２１０のＡＰＵの間でグラフをパーティショニングすることができ、その結果、１つのグラフのパーティションに関連付けられたカーネルが１つのＡＰＵ、例えば、ＡＰＵ－１２３０に割り当てられ、別のグラフのパーティションに関連付けられたカーネルが別のＡＰＵ、例えば、ＡＰＵ－２２４０に割り当てられる。次いで、マネージャ２１０は、グラフ２６０によって定義された依存関係に従って、それらの割り当てられたＡＰＵ上で実行するためにカーネルを起動することによって、グラフに従って、アプリケーションを実行することができる。マネージャ２２０は、専用ハードウェア（例えば、組み込みＲＩＳＣプロセッサ、特殊目的ＡＰＵ）によって実装することができるか、ＡＰＵ２３０、２４０のうち何れかで実行されるプロセスによって実装することができるか、又は、ハードウェアとソフトウェアとの組み合わせによって実装することができる。

【0022】

図３は、例示的なグラフ３００を示し、これに基づいて、本開示の１つ以上の特徴を実装することができる。グラフ３００のノード３１０は、カーネルを表す。各カーネルは、例えば、メモリ２５０に記憶された１つ以上のデータ要素を処理するタスクである。したがって、各カーネルは、入力データを受信し、出力データ（例えば、入力データの処理されたバージョン）を配信する。グラフ３００のエッジ３２０は、データ依存関係を表す。例えば、エッジ３２０．１．２は、カーネルＢ３１０．２がカーネルＡ３１０．１に依存することを表し、これは、カーネルＢ３１０．２がカーネルＡ３１０．１によって生成されるデータに対して動作しなければならない（又はカーネルＢ３１０．２への入力がカーネルＡ３１０．１の出力である）ことを意味し、したがって、カーネルＢ３１０．２は、カーネルＡ３１０．１が最初にそれ自体の実行を完了するまで実行を開始することができない。

【0023】

したがって、マネージャ２２０は、グラフ３００を使用して、グラフによって記述されるカーネルの依存関係に基づいて、何れの順序でカーネルが起動されるかを判定することができる。追加的に、各ノードは、マネージャによって判定されたパーティションに従ってＡＰＵに割り当てられる。図３に示すように、グラフ３００は、グラフ境界３５０によって２つのサブグラフ３３０及び３４０にパーティショニングされてもよく、グラフ境界３５０の左側のサブグラフ３３０は、図２のＡＰＵ－１２３０によって実行されるように割り当てられてもよく、グラフ境界３５０の右側のサブグラフ３４０は、図２のＡＰＵ－２２４０によって実行されるように割り当てられてもよい。

【0024】

したがって、カーネル及びそれらの割り当てられたＡＰＵに加えて、グラフのノード、例えば３１０．１～３１０．８は、マネージャ２２０によってアプリケーションランタイムを管理する際に役立ち得る他のデータエンティティをそれらに関連付けることができる。各ノードは、それに関連付けられた１つ以上のメールボックス（例えば、メモリ２５０に記憶される）を有することができる。ノードにおけるメールボックスは、他のカーネルがその実行を完了したことを示すメッセージ（すなわち、完了メッセージ）を残すために、（ノードに関連付けられたカーネルが依存する）別のカーネルによって使用されてもよく、したがって、ノードの関連付けられたカーネルは、より多くの他のカーネルがそれらの実行を完了するのを未だ待機していない限り、それ自体の実行を開始することができる。例えば、ノード３１０．７は、それに関連付けられた２つのメールボックスを有することができ、一方はカーネルＢ（ノード３１０．２に関連付けられた）によって使用され、他方はカーネルＣ（ノード３１０．３に関連付けられた）によって使用される。カーネルＢ及びカーネルＣは、それらのそれぞれの実行を完了すると、その旨のメッセージをノード３１０．７のそれらのそれぞれのメールボックスに送信する。これらのメールボックスを待機しているタスクＧは、これらの完了メッセージを受信すると、それ自体の実行を開始することができる。

【0025】

一態様では、グラフ３００の各ノードは、その関連するカーネルが有する依存関係の数と同じ数のメールボックスに関連付けられ得る。カーネルがそれの割り当てられたＡＰＵ上で動作を完了する場合に、カーネルは、カーネルが登録されているメールボックスに完了メッセージを送信することができる。これらは、そのカーネルのノードから分岐するノードに位置するそのカーネル専用であるメールボックスである。ノードにおける全てのメールボックスが、これらのメールボックスに登録されたカーネルの完了を示すメッセージを受信すると、そのノードに関連付けられたカーネルは、それが割り当てられたＡＰＵによって直ちに実行され得る。一方、マネージャは、例えば、グラフのメールボックスのステータスに基づいて、グラフを非同期的に更新することができる。

【0026】

一態様では、グラフは、ランタイムにおけるアプリケーションの反復の実行中に依存関係が変化するにつれて、その構造を動的に変化させることができる。例えば、グラフは、物理的問題を解くように設計されたカーネルを表してもよく、各カーネルは、ある特定の物理的エンティティに関連付けられたデータを処理することに関与し、カーネル間の依存関係は、対応するエンティティ間の空間距離に由来する。したがって、第１のカーネルがエンティティＱに関連付けられたデータを処理するように設計され、第２のカーネルがエンティティＰに関連付けられたデータを処理するように設計される場合、エンティティＱ及びＰが互いに空間的に近接している限り、第２のカーネルは第１のカーネルに依存し得る。しかしながら、エンティティＱ及びＰが互いから離れる場合（物理システムのシミュレーションにおいて起こり得るように）、第１のカーネルと第２のカーネルとの間の依存関係は終了する。そのような場合に、ランタイム動作を中断することなくそのような変化に応答するために、第１のカーネルは、第２のカーネルがもはや第１のカーネルに依存しないことを示すメッセージを、第２のカーネルに関連付けられたノードにおけるその専用メールボックスに送信することができる。その結果、第２のカーネルは（未だ完了していない他のカーネルに依存しない限り）、その割り当てられたＡＰＵ上でそれ自体の実行を開始することができる。したがって、例えば、（カーネルＧに関連付けられた）ノード３１０．７におけるメールボックスは、（ノード３１０．３に関連付けられた）カーネルＣからメッセージを受信するように登録され得る。そのメールボックスは、カーネルＣが完了したことを示すメッセージ（すなわち、完了メッセージ）、又は、カーネルＣへの依存関係がもはや存在しないことを示すメッセージ（すなわち、終了メッセージ）を受信し得る。両方のメッセージは、カーネルＧの実行を促すことができる。メールボックス通信を介して直接的に依存関係を破壊（又は終了）することとは無関係に、マネージャ２２０は、グラフのメールボックスに記憶されたメッセージに基づいて、依存関係の変化を反映するようにグラフを非同期的に更新することができる。例えば、反復の終了時に、マネージャは、依存関係の変化に基づいてグラフのパーティション（ＡＰＵへのカーネルの割り当て）を更新することができる。

【0027】

依存関係の変更は、上述したように、既存の依存関係の終了をもたらすことに加えて、新しい依存関係を生成することもできる。グラフが物理的問題を解くように設計されたカーネルを表し、これらのカーネル間の依存関係が対応するエンティティ間の空間距離に由来する、上述した例を検討する。第１のカーネルがエンティティＱに関連付けられたデータを処理するように設計され、第２のカーネルがエンティティＰに関連付けられたデータを処理するように設計されている場合、エンティティＱ及びＰが互いに空間的に離れている限り、第２のカーネルは第１のカーネルに依存しない可能性がある。しかしながら、エンティティＱ及びＰが互いに近づく場合（物理システムのシミュレーションにおいて起こり得るように）、第１のカーネルと第２のカーネルとの間の依存関係が生成され得る。そのような場合に、ランタイム動作を中断することなくそのような変化に応答するために、第１のカーネルは、第２のカーネルのノードに関連付けられる、それに登録された（又は専用の）新しいメールボックスを生成することができる。次いで、その動作が完了すると、第１のカーネルは、そのメールボックスに完了メッセージを残すことができる。したがって、例えば、ノード３１０．７のカーネルＧは、カーネルＤに依存しないように示されている。しかしながら、依存関係が作成される場合に、カーネルＤは、それ専用の新しいメールボックスをノード３１０．７に生成することができる。カーネルＤは、その動作を完了すると、その新しいメールボックスに完了メッセージを送信することができる。その完了メッセージを受信すると、カーネルＧは（カーネルＢ及びＣからの完了メッセージの受信をまだ待機していない限り）それ自体の実行を開始することができる。上述したように、メールボックス通信を介して直接新しい依存関係を生成することとは無関係に、マネージャ２２０は、グラフのメールボックスに記憶されたメッセージに基づいて、依存関係の変化を反映するようにグラフを非同期的に更新することができる。例えば、反復の終了時に、マネージャは、依存関係の変化に基づいてグラフのパーティション（ＡＰＵへのカーネルの割り当て）を更新することができる。

【0028】

別の態様では、マネージャ２２０は、各ＡＰＵがそれに割り当てられたカーネルを完了するのにかかる時間を監視することによって、各反復の終了時にロードバランシングを実行することができ、次いで、マネージャ２２０は、全てのＡＰＵにわたるロードバランスを改善するためにグラフを再パーティショニングすることができる。したがって、グラフのノード、例えば３１０．１～３１０．８は、それらに関連付けられたタイマを有することができる。ノードのタイマは、ノードに関連付けられたカーネルの実行時間を測定するように設定され得る。したがって、グラフ３００の各反復の終了時に、マネージャ２２０は、タイマの読取値の分析に基づいてその動作をロードバランシングするためにグラフを再パーティショニングすることができる。例えば、実行反復の終了時に、タイマの読取値の分析に基づいて、マネージャ２２０は、ＡＰＵ－１２３０がそれ自体の割り当てられたサブグラフ３３０に関連付けられたカーネルを実行するのに要した時間と比較して、ＡＰＵ－２２４０がそれ自体の割り当てられたサブグラフ３４０に関連付けられたカーネルを実行するのにより多くの時間を要したことを見出すことができる。そのような場合に、マネージャ２２０は、例えばノード３１０．５がサブグラフ３３０の一部になり、したがって、ノード３１０．５に関連付けられたカーネルＥがグラフの次の反復においてＡＰＵ－１２３０によって実行されるようにグラフを再パーティショニングすることによってグラフをロードバランシングすることを決定し得る。

【0029】

図４は、アプリケーションランタイムの分散管理を示す例示的なシステム４００のブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。システム４００は、複数のアクセラレータ４１０．１～４１０．Ｍ、共有メモリ４４０、及び、プロセッサ４６０を含むことができる。各アクセラレータ、例えば、４１０．１は、マネージャ４２０．１及びＡＰＵのクラスタ４３０．１．１～４３０．１．Ｎを含むことができる。プロセッサ４６０は、システム４００によって実行されるアプリケーションの処理フローを定義するグラフ４５０を開始するために、何れかのマネージャによって公開されたＡＰＩを利用することができる。開始されたグラフ４５０は、システム４００のマネージャ４２０．１～４２０．Ｍ、ＡＰＵ４３０．１．１～４３０．１．Ｎ、４３０．２．１～４３０．２．Ｎ、４３０．Ｍ．１～４３０．Ｍ．Ｎのクラスタ、及び、プロセッサ４６０によってアクセス可能な共有メモリ４４０に記憶され得る。グラフ４５０が開始されると、何れかのマネージャ、例えば４２０．１は、アクセラレータ４１０．１～４１０．Ｍの間でグラフをパーティショニングすることを担うことができ、その結果、アクセラレータレベルサブグラフが得られる。次いで、各アクセラレータのグラフマネージャ、例えば４２０．ｍは、グラフのそのそれぞれの部分（そのそれぞれのアクセラレータレベルサブグラフ）をＡＰＵレベルサブグラフに更にパーティショニングすることに進むことができる。各そのようなＡＰＵレベルサブグラフ（又はサブグラフ）は、アクセラレータ４２０．ｍの１つのＡＰＵに割り当てられる。グラフ４５０のサブグラフへのパーティショニングが完了すると、各マネージャ４２０．ｍは、グラフ４５０のその部分によって定義される依存関係に従って、それぞれのＡＰＵ４２０．ｍ．１～４２０．ｍ．Ｎ内のカーネルを起動することによって、１つ以上の反復においてグラフ４５０のそれ自体の部分の実行から開始することができる。各マネージャ４２０．ｍは、専用ハードウェア（例えば、組み込みＲＩＳＣプロセッサ、特殊目的ＡＰＵ）によって実装することができるか、又は、そのアクセラレータの何れかのＡＰＵ上で実行されるプロセスによって実装され得る。一態様では、各マネージャ４２０．ｍは、図２のマネージャ２２０が図２のグラフ２６０に関して動作することができる方式と同様に、それ自体のアクセラレータレベルサブグラフに関して動作することができる。

【0030】

したがって、上述したように、グラフ４５０の各ノードは、アクセラレータレベルサブグラフ内のＡＰＵレベルサブグラフであるサブグラフの一部である。グラフ４５０は、ノードが接続された構造を有する。各ノードは、図３を参照して説明したように、カーネル、割り当てられたＡＰＵ、メールボックス又はタイマ等のように、それに関連付けられたデータ又はオブジェクトエンティティを有することができる。したがって、グラフ４５０内の各ノードは、例えば共有メモリ４４０に記憶されたデータを処理するために実行され得るカーネルに関連付けられる。グラフ４５０内の各エッジは、２つのノードを接続し、図３を参照して説明したように、２つのノードに関連付けられたカーネル間の依存関係を表す。更に、グラフ４５０内の各ノードは、それに関連付けられた（例えば、メモリ４４０に記憶された）１つ以上のメールボックスを有することができる。第１のカーネルに関連付けられた第１のノードにおけるメールボックスは、第２のカーネルが完了したことを示す完了メッセージを残すために（第１のカーネルが依存する）第２のカーネルによって使用されてもよく、したがって、第１のカーネルは、他のカーネルがそれらの実行を完了するのを未だ待っていない限り、それ自体の実行を開始することができる。

【0031】

図３を参照すると、サブグラフ３３０は、アクセラレータ４１０．１のアクセラレータレベルサブグラフ内のＡＰＵレベルサブグラフとすることができ、サブグラフ３４０は、アクセラレータ４１０．２のアクセラレータレベルサブグラフ内のＡＰＵレベルサブグラフとすることができる。この場合に、マネージャ４２０．１は、それ自体のアクセラレータレベルサブグラフに従ってカーネルＢ、Ｆ、Ｇの実行を管理するように構成されてもよく、マネージャ４２０．２は、それ自体のアクセラレータレベルサブグラフに従ってカーネルＡ、Ｃ、Ｄ、Ｅ、Ｈの動作を管理するように構成され得る。一態様では、ノード３１０．７は、カーネルＧが待機している、それに関連付けられた２つのメールボックスを有し、一方はノード３１０．２に登録され、他方はノード３１０．３に登録される。（ノード３１０．２の）カーネルＢは、その実行を完了する場合に、それに登録されているノード３１０．７のメールボックスに完了メッセージを残す。同様に、（ノード３１０．３の）カーネルＣは、その実行を完了する場合に、それに登録されているノード３１０．７のメールボックスに完了メッセージを残す。これら２つの完了メッセージが受信されると、（ノード３１０．７の）カーネルＧは、それ自体の実行を直ちに開始することができる。独立して、マネージャ４２０．１及び４２０．２は、現在の動作状態を反映するように、グラフのそれらのそれぞれの部分（それぞれのアクセラレータレベルサブグラフ）を更新することができる。

【0032】

前で言及されるように、グラフ４５０は、アプリケーションランタイム中に依存関係が変化すると、その構造を動的に変化させることができる。例えば、カーネルＣの実行中に、カーネルは、カーネルＧがもはやそれに依存しないことを認識し得るか、又は、それを通知され得る。そのような場合に、カーネルＣは、その旨のメッセージを、ノード３１０．７においてそれに登録されたメールボックスに送信することができる。次いで、２つのメールボックス（一方は、カーネルＢに登録され、他方は、カーネルＣに登録されている）を現在待機しているカーネルＧは、カーネルＢがその実行を完了すると、それ自体の実行を開始することができる。一方、カーネルＣの実行中に、カーネルは、カーネルＦがそれに依存するようになるべきであることを認識し得るか、又は、通知され得る。そのような場合に、カーネルＣは、それに登録される新しいメールボックスをノード３１０．６に生成することができる。次いで、カーネルＦは、カーネルＢに登録されたメールボックスに加えて、その新しいメールボックスを待機し、カーネルＢ及びカーネルＣの両方から完了メッセージを受信した場合にのみ、カーネルＦはそれ自体の実行を開始する。独立して、マネージャは、依存関係の変化を反映するようにグラフのそれらのそれぞれの部分を更新することができる。例えば、サブグラフ３３０を監視するマネージャ４２０．１は、ノード３１０．３とノード３１０．６との間にエッジを追加して、カーネルＦがカーネルＣに依存していることを反映することができ、サブグラフ３４０を監視するマネージャ４２０．２は、ノード３１０．３とノード３１０．７との間のエッジを取り出して、カーネルＧがカーネルＣにもはや依存していないことを反映することができる。

【0033】

マネージャ４２０．１～４２０．Ｍは、各々が管理しているグラフの部分に関して独立して、又は、全てのグラフ４５０に関して協働して、ロードバランシングを実行することができる。これは、それぞれのカーネルの実行時間を測定するように設定されたグラフ４５０のノードに関連付けられたタイマを監視することによって行われ得る。したがって、グラフ４５０の各実行反復の終了時に、タイマの読取値の分析に基づいて、各マネージャは、その動作のロードバランシングを行うために、それ自体のアクセラレータレベルサブグラフを再パーティショニングし得る。例えば、図３を参照して、グラフ３００が１つのマネージャ４２０．１によって管理されると仮定すると、サブグラフ３３０に関連付けられたカーネルはＡＰＵ－１４３０．１．１に割り当てられ、サブグラフ３４０に関連付けられたカーネルはＡＰＵ－２４３０．１．２に割り当てられる。反復の終了時に、タイマの読取値の分析に基づいて、マネージャ４２０．１は、ＡＰＵ－１がその割り当てられたサブグラフ３３０に関連付けられたカーネルを実行するのに要した時間と比較して、ＡＰＵ－２がその割り当てられたサブグラフ３４０に関連付けられたカーネルを実行するのにより多くの時間を要したことを見出すことができる。そのような場合に、マネージャ４２０．１は、グラフを再パーティショニングすることによってグラフのロードバランシングをすることを決定し得る。例えば、再パーティショニングは、ノード３１０．５がサブグラフ３３０の一部になることをもたらしてもよく、したがって、ノード３１０．５に関連付けられたカーネルは、グラフの次の実行反復においてＡＰＵ－１２３０によって実行される。

【0034】

一態様では、ロードバランシング動作は、マネージャ間で協働して行うことができる（場合によっては、上述したように独立したロードバランシングが行われた後で）。例えば、各反復の終了時に、各マネージャは、（グラフのそれ自体の部分内の）その制御における各ＡＰＵの可用性の尺度を計算することができ、（例えば、可用性尺度を共有メモリ４４０に記憶することによって）これらのＡＰＵの可用性尺度を他のマネージャに公開することができる。可用性の尺度は、反復中にＡＰＵがアイドル状態であった時間とすることができる。例えば、反復の終了時に、マネージャ４２０．１及び４２０．２は、それぞれ、ＡＰＵ４３０．１．１～４３０．１．Ｎ及び４３０．２．１～４３０．２．Ｎの可用性尺度を計算することができる。ＡＰＵ４３０．１．１の可用性尺度が十分に高く、ＡＰＵ４３０．２．１～４３０．２．Ｎの可用性尺度が十分に低い場合、マネージャ４２０．１は、グラフ４５０をロックし、次いで、グラフを再パーティショニングして、ＡＰＵ４３０．２．１～４３０．２．Ｎ上で実行される１つ以上のカーネルの割り当てを利用可能なＡＰＵ４３０．１．１に変化させることができる。マネージャ４２０．２は、マネージャ４２０．１がその再パーティショニングを実行する許可を有するかどうかを示すことができる。グラフ４５０を協働的にロードバランシングするために、他のメカニズムが使用され得る。一態様では、グラフのそれ自体の部分におけるＡＰＵの可用性尺度のマネージャによる計算は、グラフのそれ自体の部分の独立したロードバランシングの後に（及びそれを考慮しながら）行われ得る。

【0035】

図５は、ネットワーク境界をまたぐアプリケーションランタイムの分散管理を示す例示的なシステム５００のブロック図であり、これに基づいて、本開示の１つ以上の特徴を実装することができる。システム５００は、図４のシステム４００の複数のアクセラレータ４１０．１～４１０．Ｍとそれらの動作が同様の複数のアクセラレータ５１０．１～５１０．Ｍを含むことができる。しかしながら、システム５００では、アクセラレータ５１０．１～５１０．Ｍは互いにリモートにあり、各々がそれぞれのメモリ５１０．１～５１０．Ｍ及びそれらにローカルなそれぞれのプロセッサ５６０．１～５６０．Ｍに接続される。図示されるように、アクセラレータ５１０．１～５１０．Ｍ、メモリ５１０．１～５１０．Ｍ、及び、プロセッサ５６０．１～５６０．Ｍは、ネットワーク５７０を介して通信可能に接続される。何れかのプロセッサ、例えば５６０．１は、何れかのマネージャ、例えば５２０．１によって公開されたＡＰＩを利用して、システム５００によって実行されるアプリケーションの処理フローを定義するグラフを開始することができる。次いで、開始されたグラフは、アクセラレータ５１０によってアクセス可能なメモリ５４０．１に記憶されてもよく、そのグラフのコピーを、ネットワーク５７０を介して送信して、アクセラレータ５１０．１～５６０．２．Ｍによってアクセス可能なメモリ５６０～５１０．２．Ｍに記憶することができる。

【0036】

一態様では、システム５００の動作は、システム４００の動作と同様である。しかしながら、システム５００は、そのコピー５５０．１～５５０．Ｍによってグラフの一貫した表現を維持しなければならない。例えば、各反復の終了時に、グラフ５５０．１～５５０．Ｍのコピーは、それらのそれぞれのマネージャ５２０．１～５２０．Ｍによって更新することができ（例えば、各マネージャは、それが所有するグラフの一部を更新することができる）、次いで、コピーを照合（reconciling）することができる。一態様では、１つのプロセッサ、例えば、５６０．１が、グラフの照合を担うことができる。そのために、プロセッサ５６０．２～５６０．Ｍは、グラフのそれらのコピーをプロセッサ５６０．１に送信するように構成されてもよく、このプロセッサは、コピー５５０．１～５５０．Ｍを照合し、それぞれのメモリ５４０．１～５４０．Ｍに記憶される１つの照合されたグラフを返送する。システム５００では、互いにリモートにあるＡＰＵによるこのような通信（例えば、１つのＡＰＵ上で動作するカーネルが、別のＡＰＵ上で動作するカーネルに関連付けられたメールボックスにメッセージを送信するとき）は、レイテンシに寄与し得る。しかしながら、そのようなレイテンシは、ネットワーク５７０の帯域幅によって制限され、ＣＰＵ－ＡＰＵ通信によって寄与されるレイテンシとは区別される。

【0037】

図６は、アクセラレータ常駐ランタイム管理のための例示的な方法６００のフローチャートであり、これに基づいて、本開示の１つ以上の特徴を実装することができる。方法６００は、アクセラレータ常駐マネージャ、例えば、図２のマネージャ２２０、又は、図４のマネージャ４２０．１～４２０．Ｍ若しくは図５のマネージャ５２０．１～５２０．Ｍのうち何れかによって実行され得る。方法６００は、ステップ６１０において、カーネル及びそれらのそれぞれの依存関係を含む、アプリケーションの処理フローの表現を受信することができる。上述したように、表現は、グラフ、例えば、図３のグラフ３００によって表現され得る。ステップ６２０において、方法６００は、マネージャによって管理されるＡＰＵにカーネルを割り当てることができる。次いで、ステップ６３０において、方法６００は、カーネルのそれぞれの依存関係に従って反復において実行するために、それらの割り当てられたＡＰＵ上でカーネルを起動することができる。反復中に、依存関係に変化（依存関係の終了又は新しい依存関係の生成の何れか）がある場合、方法６００は、ステップ６４０において、影響を受けたカーネルに通知することができる。例えば、第１のカーネルの第２のカーネルへの依存関係が反復中に終了した場合に、終了された依存関係を示すメッセージが第２のカーネルによって第１のカーネルに送信することができる。そのメッセージを受信すると、第１のカーネルは、直ちに実行を開始することができる（他のカーネルが完了するのを未だ待機していない限り）。別の例では、第１のカーネルの第２のカーネルへの新しい依存関係が反復中に生成された場合、第１のカーネルによって待機されるメールボックスを第２のカーネルによって生成することができる。第２のカーネルがそれ自体の実行を完了すると、そのメールボックスに完了メッセージを送信する。反復の終了時に、ステップ６５０において、方法６００は、表現を更新することができる。例えば、反復中に依存関係の変化（依存関係の終了又は新しい依存関係の生成の何れか）が生じた場合、方法６００は、その変化に基づいてＡＰＵへのカーネルの割り当てを変更することができる。したがって、グラフ表現３００において、方法６００は、グラフを再パーティショニングし、サブグラフ３３０、３４０の構造を変化させ、事実上、カーネルＡ～Ｈ３１０の割り当てのうちいくつかをＡＰＵ－１２３０又はＡＰＵ－２２４０の何れかに変更することができる。

【0038】

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。

【0039】

提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実施することができる。好適なプロセッサとしては、例として、一般目的プロセッサ、特殊目的プロセッサ、従来型プロセッサ、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連付けられた１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、及び／又は、状態マシンが挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリストを含む他の中間データ（コンピュータ可読媒体に記憶させることが可能な命令）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークとすることができ、次いで、このマスクワークを半導体製造プロセスにおいて使用して、実施形態の態様を実装するプロセッサを製造する。

【0040】

本明細書に提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ）等の光学媒体が挙げられる。

【図1A】