特開2023-180315 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-180315変換プログラムおよび変換処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023180315

(43)【公開日】2023-12-21

(54)【発明の名称】変換プログラムおよび変換処理方法

(51)【国際特許分類】

G06F 8/60 20180101AFI20231214BHJP

G06F 8/51 20180101ALI20231214BHJP

G06F 9/50 20060101ALI20231214BHJP

【ＦＩ】

G06F8/60

G06F8/51

G06F9/50 150E

G06F9/50 150C

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022093497

(22)【出願日】2022-06-09

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】児玉宏喜

(72)【発明者】

【氏名】吉川隆英

【テーマコード（参考）】

5B081

5B376

【Ｆターム（参考）】

5B081CC32

5B376AB29

5B376BC36

(57)【要約】（修正有）

【課題】適切なアクセラレータに処理を割り当てる変換プログラム及び変換処理方法を提供する。
【解決手段】管理サーバ、ノード、ＮＷ装置、ストレージ装置、メモリ装置、ＦＰＧＡ装置及びＧＰＵ装置を有する情報処理システムにおいて、アプリケーションのソースコードのコンパイルを行うコンピュータである管理サーバ１００は、ソースプログラムを複数のプログラムブロックに分割するプログラム分割部１２１と、複数のプログラムブロック夫々による複数のアクセラレータ夫々へのアクセス回数の分析の結果を取得する分析部１２２と、分析の結果に基づいて、複数のプログラムブロックのうちの第１プログラムブロックと、複数のアクセラレータから、第１プログラムブロックの配置先となるアクセラレータを選択する配置先決定部１２３と、第１プログラムブロックを配置先のアクセラレータで動作するハードウェアロジックに変換するロジック変換部１２４と、を含む。
【選択図】図５

【特許請求の範囲】

【請求項1】

コンピュータに、
ソースプログラムを複数のプログラムブロックに分割し、
前記複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数の分析の結果に基づいて、前記複数のプログラムブロックのうちの第１プログラムブロックと、前記複数のアクセラレータのうちの、前記第１プログラムブロックの配置先のアクセラレータとを選択し、
前記第１プログラムブロックを前記配置先のアクセラレータで動作するハードウェアロジックに変換する、
処理を実行させる変換プログラム。

【請求項2】

前記配置先のアクセラレータの選択では、前記複数のアクセラレータのうち、前記第１プログラムブロックによるアクセス回数が最も多いアクセラレータを前記配置先のアクセラレータとして選択する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項3】

前記複数のアクセラレータは、メモリ装置に設けられる第１アクセラレータを含み、
前記配置先のアクセラレータの選択では、前記第１プログラムブロックによるアクセス回数が同じである２以上のアクセラレータが前記第１アクセラレータを含む場合、前記第１アクセラレータを優先的に前記配置先のアクセラレータとして選択する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項4】

前記分析では、前記複数のプログラムブロックに含まれる、前記複数のアクセラレータそれぞれに対応する関数の呼び出し回数に基づいて、前記アクセス回数を取得する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項5】

前記第１プログラムブロックの選択では、前記複数のアクセラレータのうちの少なくとも１つのアクセラレータへのアクセス回数が１以上であるプログラムブロックを、前記第１プログラムブロックとして選択する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項6】

前記第１プログラムブロックの選択では、複数の前記第１プログラムブロックを選択し、
前記配置先のアクセラレータの選択では、前記第１プログラムブロックごとに、前記配置先のアクセラレータを選択する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項7】

前記複数のアクセラレータを有するシステムにおいて前記複数のプログラムブロックの少なくとも一部の処理を前記複数のアクセラレータの少なくとも一部に実行させる場合の前記システムの性能を示す指標値を、前記複数のプログラムブロックの実行順序の分析の結果と前記ハードウェアロジックとに基づき、前記複数のプログラムブロックの分割の粒度を示す複数の分割単位それぞれに対して取得し、
前記分割単位ごとに取得した前記指標値に基づいて、前記複数の分割単位のうちの何れかの前記分割単位を選択する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項8】

前記指標値の取得では、前記ソースプログラムに対応する演算の実行に要する計算時間および消費電力を取得する、
処理を前記コンピュータに実行させる請求項７記載の変換プログラム。

【請求項9】

前記ハードウェアロジックに基づいて、前記複数のアクセラレータを有するシステムにより前記ソースプログラムに対応する演算を実行させる実行可能ファイルを生成する、
処理を前記コンピュータに実行させる請求項１記載の変換プログラム。

【請求項10】

コンピュータが、
ソースプログラムを複数のプログラムブロックに分割し、
前記複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数の分析の結果に基づいて、前記複数のプログラムブロックのうちの第１プログラムブロックと、前記複数のアクセラレータのうちの、前記第１プログラムブロックの配置先のアクセラレータとを選択し、
前記第１プログラムブロックを前記配置先のアクセラレータで動作するハードウェアロジックに変換する、
変換処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は変換プログラムおよび変換処理方法に関する。

【背景技術】

【0002】

異種の演算器が混在するヘテロジニアスな環境を有するコンピュータシステムが利用されている。ヘテロジニアスな環境では、例えばＣＰＵ（Central Processing Unit）の処理をアクセラレータにオフロードすることで計算性能の向上が図られることがある。アクセラレータには、例えばＦＰＧＡ（Field Programmable Gate Array）やＧＰＵ（Graphics Processing Unit）などが用いられる。

【0003】

また、ＣやＣ＋＋などの高級言語で記述されたソースプログラムをアクセラレータのロジックに変換する技術は、高位合成と呼ばれる。例えば、集積回路に外部メモリを付加したハードウェアに最適なハードウェア記述言語を自動的に生成する高位合成装置の提案がある。また、高位合成におけるループ展開数と回路並列数の最適な組み合わせを決定するパラメータ最適化装置の提案がある。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２１－２１８５号公報

【特許文献2】特開２０１９－２１５６９７号公報

【特許文献3】米国特許出願公開第２０２０／０２２５９２２号明細書

【特許文献4】米国特許第８７３９１０２号明細書

【特許文献5】米国特許出願公開第２０２１／０１１６８８２号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

ＣＰＵを含むノードに複数のアクセラレータが接続されており、ＣＰＵの処理のオフロード先として複数のアクセラレータを利用可能であることがある。例えば、ノードに接続される外部のストレージ装置、メモリ装置およびネットワーク装置などの種々の装置に各アクセラレータが搭載されることもある。この場合、ソースプログラムのどの部分をどのアクセラレータに配置するかを適切に決定する仕組みが問題になる。

【0006】

１つの側面では、本発明は、適切なアクセラレータに処理を割り当てることを目的とする。

【課題を解決するための手段】

【0007】

１つの態様では、変換プログラムが提供される。この変換プログラムは、コンピュータに、ソースプログラムを複数のプログラムブロックに分割し、複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数の分析の結果に基づいて、複数のプログラムブロックのうちの第１プログラムブロックと、複数のアクセラレータのうちの、第１プログラムブロックの配置先のアクセラレータとを選択し、第１プログラムブロックを配置先のアクセラレータで動作するハードウェアロジックに変換する、処理を実行させる。

【0008】

また、１つの態様では、変換処理方法が提供される。

【発明の効果】

【0009】

１つの側面では、適切なアクセラレータに処理を割り当てることができる。

【図面の簡単な説明】

【0010】

【図1】第１の実施の形態の情報処理装置を説明する図である。

【図2】第２の実施の形態の情報処理システムの例を示す図である。

【図3】管理サーバのハードウェア例を示す図である。

【図4】情報処理システムのハードウェア例を示す図である。

【図5】管理サーバの機能例を示す図である。

【図6】ソースコードの例を示す図である。

【図7】ループの記述例を示す図である。

【図8】プログラムブロック間のインターラクションの例を示す図である。

【図9】インターラクション数テーブルの例を示す図である。

【図10】管理サーバの処理例を示すフローチャートである。

【図11】配置先アクセラレータの選択例を示すフローチャートである。

【図12】ロジック変換の例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0012】

図１は、第１の実施の形態の情報処理装置を説明する図である。
情報処理装置１０は、ネットワークを介して情報処理システム２０に接続される。情報処理システム２０は、ノード２１およびアクセラレータ２２，２３，２４を有する。ノード２１は、アクセラレータ２２，２３，２４に接続される。ノード２１は、ＣＰＵやＲＡＭを有する。アクセラレータ２２，２３，２４は、例えばＦＰＧＡ、ＧＰＵ、ＴＰＵ（Tensor Processing Unit）およびＤＰＵ（Data Processing Unit）などで実現される。情報処理システム２０は、アクセラレータ２２，２３，２４それぞれと接続される個別のＲＡＭを有してもよい。また、情報処理装置１０は、情報処理システム２０に含まれてもよい。

【0013】

アクセラレータ２２，２３，２４は、それぞれ異なる種類のデバイスに搭載され得る。アクセラレータ２２，２３，２４が搭載されるデバイスには、例えば共有ストレージ、共有メモリ、ネットワーク（ＮＷ：NetWork）装置、ＦＰＧＡ装置およびＧＰＵ装置などがある。

【0014】

共有ストレージは、情報処理システム２０における、ノード２１を含む複数のノードで共有される外付けのストレージを提供する。共有メモリは、当該複数のノードで共有される外付けのメモリを提供する。ＮＷ装置は、ノード間の通信を中継する。ＦＰＧＡ装置は、ノード２１に外付けのＦＰＧＡを提供する。ＧＰＵ装置は、ノード２１に外付けのＧＰＵを提供する。

【0015】

アクセラレータ２２，２３，２４は、共有ストレージやＮＷ装置などのデバイスの所定の機能を実行するとともに、ノード２１が有するＣＰＵの処理のオフロード先としても利用可能である。このようなアクセラレータの一例として、ＮＷ装置における、ＦＰＧＡなどで実現されるスマートＮＩＣ（Network Interface Card）がある。

【0016】

例えば、アクセラレータ２２は、共有ストレージに搭載されてもよい。アクセラレータ２３は、共有メモリに搭載されてもよい。アクセラレータ２４はＮＷ装置に搭載されてもよい。また、アクセラレータ２２，２３，２４は、ＦＰＧＡ装置やＧＰＵ装置に搭載されてもよい。

【0017】

なお、ノード２１とアクセラレータ２２，２３，２４とは、例えばＣＸＬ（Compute Express Link、登録商標）などのインターコネクトや、イーサネット（登録商標）およびＩｎｆｉｎｉｂａｎｄなどのネットワークを介して接続されてもよい。以下の説明において、アクセラレータ２２の識別子はＸである。アクセラレータ２３の識別子はＹである。アクセラレータ２４の識別子はＺである。

【0018】

情報処理装置１０は、Ｃ言語やＣ＋＋などの高級言語で記述されたソースプログラム３０をコンパイルして、情報処理システム２０に実行させる実行可能ファイルを生成する。情報処理システム２０では、ノード２１が有するＣＰＵ、および、アクセラレータ２２，２３，２４の少なくとも一部により演算が実行される。情報処理システム２０のように、複数の種類の演算器が混在する環境は、ヘテロジニアスな環境と言われる。

【0019】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性記憶装置でもよい。記憶部１１は、ソースプログラム３０や、処理部１２の処理に用いられるデータを記憶する。

【0020】

処理部１２は、ＣＰＵ、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡなどを含み得る。処理部１２はプログラムを実行するプロセッサでもよい。「プロセッサ」には、複数のプロセッサの集合（マルチプロセッサ）が含まれ得る。

【0021】

処理部１２は、コンパイルの際、ソースプログラム３０の少なくとも一部の記述を何れかのアクセラレータで動作するハードウェアロジックに変換し、当該記述に係る処理を、ノード２１から該当のアクセラレータへオフロード可能にする。ソースプログラム３０の記述からアクセラレータで動作するハードウェアロジックへの変換には、高位合成の技術が用いられる。高位合成は、粗粒度再構成可能アーキテクチャ（ＣＧＲＡ：Coarse-Grained Reconfigurable Architecture）に基づいて行われてもよい。高位合成を行うツール、すなわち、高位合成ツールには、例えば、Ｖｉｖａｄｏ（登録商標）ＨＬＳやインテル（登録商標）ＨＬＳコンパイラなどがある。ＨＬＳはHigh-Level Synthesisの略である。

【0022】

まず、処理部１２は、ソースプログラム３０を複数のプログラムブロックに分割する。プログラムブロックは、関数の集合である。例えば、処理部１２は、各プログラムブロックに含まれる関数の数が同程度になるようにソースプログラム３０を、予め与えられる所定数のプログラムブロックに分割する。処理部１２は、各プログラムブロックに含まれるコード行数が同程度になるように、ソースプログラム３０を所定数のプログラムブロックに分割してもよい。例えば、複数のプログラムブロックは、プログラムブロック３１，３２，…を含む。プログラムブロック３１の識別子はＡである。プログラムブロック３２の識別子はＢである。

【0023】

処理部１２は、複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数を分析する。各プログラムブロックからアクセラレータへのアクセス回数は、例えば、当該プログラムブロックによる該当のアクセラレータの呼び出し回数（コール数）に相当する。

【0024】

アクセラレータの呼び出し回数は、プログラムブロックに含まれる関数のうち、当該アクセラレータが搭載されるデバイスの種類に対応する所定の関数の呼び出し回数をカウントすることで得られる。Ｃ言語を例に挙げると、デバイスの種類に応じた所定の関数には次のものがある。共有ストレージでは、例えばｆｔｐｕｔｃ関数、ｆｔｐｕｔｓ関数およびｆｔｐｒｉｎｔｆ関数などである。共有メモリでは、例えばｍｍａｐ関数などである。ＮＷ装置では、例えばｉｏｃｔｌ関数、ｓｏｃｋｅｔ関数およびｃｏｎｎｅｃｔ関数などである。ＧＰＵ装置では、例えばｃｕｄａ（登録商標）などである。ＦＰＧＡ装置では、例えばｆｆｔｗ関数やＧＲＯＭＡＣＳのｇｍｘ＿ｆｆｔライブラリ関数などである。

【0025】

例えば、処理部１２は、プログラムブロック３１について、アクセラレータ２２へのアクセス回数「１」、その他のアクセラレータへのアクセス回数「０」を得る。また、処理部１２は、プログラムブロック３２について、アクセラレータ２３へのアクセス回数「１」、アクセラレータ２４へのアクセス回数「２」、その他のアクセラレータへのアクセス回数「０」を得る。

【0026】

処理部１２は、アクセス回数の分析の結果に基づいて、複数のプログラムブロックのうちの第１プログラムブロックを選択する。例えば、処理部１２は、少なくとも１つのアクセラレータへのアクセス回数が１以上であるプログラムブロックを、第１プログラムブロックとして選択する。また、処理部１２は、複数のアクセラレータのうちの、第１プログラムブロックの配置先のアクセラレータを選択する。例えば、処理部１２は、各プログラムブロックについて、当該プログラムブロックからのアクセス回数が最も多いアクセラレータを、当該プログラムブロックの配置先のアクセラレータとする。

【0027】

例えば、プログラムブロック３１は、アクセラレータ２２へのアクセス回数が最も多い。よって、処理部１２は、プログラムブロック３１の配置先をアクセラレータ２２とする。また、例えば、プログラムブロック３２は、アクセラレータ２４へのアクセス回数が最も多い。よって、処理部１２は、プログラムブロック３２の配置先をアクセラレータ２４とする。他のプログラムブロックも同様に配置先のアクセラレータが決定される。なお、何れのアクセラレータにもアクセスしないプログラムブロックは、何れのアクセラレータにも配置されず、ノード２１に割り当てられる。また、あるプログラムブロックについて、最多のアクセス回数となるアクセラレータが２つ以上存在する場合、処理部１２は、当該２つ以上のアクセラレータのうち、共有メモリなどのデータ保持用のデバイスに搭載されたアクセラレータを優先的に選択してもよい。

【0028】

テーブル４０は、各プログラムブロックの配置先のアクセラレータを示す。例えば、テーブル４０は、識別子Ａのプログラムブロック３１の配置先が識別子Ｘに対応するアクセラレータ２２であることを示す。また、テーブル４０は、識別子Ｂのプログラムブロック３２の配置先が識別子Ｚに対応するアクセラレータ２４であることを示す。プログラムブロック３１，３２は何れも第１プログラムブロックの一例である。

【0029】

処理部１２は、第１プログラムブロックを、配置先のアクセラレータで動作するハードウェアロジックに変換する。処理部１２は、ハードウェアロジックへの変換には、該当のアクセラレータに対応する既存の高位合成ツールを用いることができる。また、ハードウェアロジックは、例えばＧＰＵなどの特定のハードウェアに特化したロジックでもよい。

【0030】

例えば、処理部１２は、テーブル４０に基づいて、プログラムブロック３１を、アクセラレータ２２で動作するロジック５１に変換する。ロジック５１の識別子「Ａ－Ｘ」は、ロジック５１が、プログラムブロック３１をアクセラレータ２２で動作するハードウェアロジックに変換されたものであることを示す。また、処理部１２は、テーブル４０に基づいて、プログラムブロック３２を、アクセラレータ２４で動作するロジック５２に変換する。ロジック５２の識別子「Ｂ－Ｚ」は、ロジック５２が、プログラムブロック３２をアクセラレータ２４で動作するハードウェアロジックに変換されたものであることを示す。

【0031】

処理部１２は、ソースプログラム３０の一部に対応する処理が、ノード２１からアクセラレータにオフロードされるようにする。すなわち、処理部１２は、ソースプログラム３０を基にノード２１で実行されるメインアプリケーションのコンパイルと、アクセラレータにオフロードするプログラムブロックの高位合成とを行う。そして、処理部１２は、当該アクセラレータと連携するメインアプリケーションの実行可能プログラムと、合成されたハードウェアロジック情報（例えば、ＦＰＧＡの回路情報など）とを含む実行可能ファイルを生成する。

【0032】

処理部１２は、生成した実行可能ファイルをノード２１に実行させる。すると、ノード２１は、ハードウェアロジック情報により該当のアクセラレータのコンフィギュレーションを行い、メインアプリケーションによりアクセラレータと連携して処理を実行する。

【0033】

以上説明したように情報処理装置１０によれば、ソースプログラムが複数のプログラムブロックに分割される。複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数の分析の結果が取得される。当該アクセス回数の分析の結果に基づいて、複数のプログラムブロックのうちの第１プログラムブロックと、複数のアクセラレータのうちの、第１プログラムブロックの配置先のアクセラレータとが選択される。第１プログラムブロックが配置先のアクセラレータで動作するハードウェアロジックに変換される。

【0034】

これにより、情報処理装置１０は、適切なアクセラレータに処理を割り当てることができる。具体的には、情報処理装置１０は、ソースプログラム３０の各プログラムブロックを、当該プログラムブロックにおいてアクセス回数が多いアクセラレータに優先的に配置する。このため、当該プログラムブロックに係る処理の実行時のノード２１のＣＰＵとアクセラレータとの間のデータ転送が低減される。その結果、当該データ転送に係るオーバーヘッドが削減される。こうして、情報処理装置１０は、情報処理システム２０における処理性能の向上を図れる。

【0035】

なお、処理部１２は、プログラムブロック３１，３２，…に対応するロジック５１，５２，…の動作をシミュレートした結果を用いて、ソースプログラム３０に対応する処理の実行に要する計算時間や消費電力などの性能指標を求めてもよい。そして、処理部１２は、ソースプログラム３０を別の分割単位で分割した場合に対しても同様に各アクセラレータへのプログラムブロックの配置をやり直してハードウェアロジックを生成し、性能指標を求める。処理部１２は、こうして幾つかの分割単位での分割を試し、性能指標が最も良い分割単位を選択してソースプログラム３０をコンパイルしてもよい。これにより、情報処理装置１０は、ソースプログラム３０に対応する処理を実行する情報処理システム２０の処理性能の一層の向上を図れる。

【0036】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

【0037】

第２の実施の形態の情報処理システムは、管理サーバ１００、ノード２００、ＮＷ装置３００、ストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００を有する。管理サーバ１００およびノード２００は、ＮＷ装置３００に接続される。ストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００は、ノード２００に接続される。ノード２００とストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００とを接続するインタフェースには、例えばＣＸＬが用いられる。

【0038】

管理サーバ１００は、アプリケーションのソースコードのコンパイルを行うコンピュータである。ソースコードは、Ｃ言語やＣ＋＋などの高級言語で記述される。ソースコードは、ソースプログラムと言われてもよい。管理サーバ１００は、コンパイルにより生成した実行可能ファイルをノード２００に実行させる。ノード２００には、複数のアクセラレータが接続される。アクセラレータは、例えばＦＰＧＡ、ＧＰＵ、ＴＰＵおよびＤＰＵなどにより実現される。アクセラレータは、ハードウェアアクセラレータと言われてもよい。管理サーバ１００は、ノード２００が複数のアクセラレータと連携してアプリケーションを実行するように、一部の処理をアクセラレータにオフロードさせる。管理サーバ１００は、ソースコードの記述を、アクセラレータのロジックに変換するために、高位合成の技術を用いる。高位合成は、ＣＧＲＡに基づいて行われてもよい。

【0039】

ノード２００は、複数のアクセラレータと連携してアプリケーションを実行するコンピュータである。ノード２００は、ＮＷ装置３００、ストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００それぞれに搭載されているアクセラレータにアプリケーションの処理の一部をオフロードする。

【0040】

ＮＷ装置３００は、管理サーバ１００とノード２００との通信を中継する通信装置である。ＮＷ装置３００は、例えばＦＰＧＡで実現されるＮＷアクセラレータを有する。ＮＷアクセラレータは、スマートＮＩＣと言われるものでもよい。なお、図２では図示が省略されているが、ＮＷ装置３００には、ノード２００を含む複数のノードや、他のＮＷ装置が接続されてもよい。

【0041】

ストレージ装置４００は、ノード２００に外付けされる外部ストレージである。ストレージ装置４００は、ノード２００を含む複数のノードにより共有される共有ストレージを有する。ストレージ装置４００は、例えばＦＰＧＡで実現されるストレージアクセラレータを有する。

【0042】

メモリ装置５００は、ノード２００に外付けされる外部メモリである。メモリ装置５００は、ノード２００を含む複数のノードにより共有される共有メモリを有する。メモリ装置５００は、例えばＦＰＧＡで実現されるメモリアクセラレータを有する。

【0043】

ＦＰＧＡ装置６００は、ノード２００に外付けされる演算装置である。ＦＰＧＡ装置６００は、ノード２００により利用可能なアクセラレータとしてＦＰＧＡを備える。
ＧＰＵ装置７００は、ノード２００に外付けされる演算装置である。ＧＰＵ装置７００は、ノード２００により利用可能なアクセラレータとしてＧＰＵを備える。

【0044】

このように、第２の実施の形態の情報処理システムは、ヘテロジニアスな環境、あるいは、ヘテロジニアスなネットワークを有する。
図３は、管理サーバのハードウェア例を示す図である。

【0045】

管理サーバ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６およびＮＩＣ１０７を有する。なお、ＣＰＵ１０１は、第１の実施の形態の処理部１２の一例である。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１の一例である。

【0046】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを含んでもよい。また、管理サーバ１００は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

【0047】

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、管理サーバ１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

【0048】

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、管理サーバ１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

【0049】

ＧＰＵ１０４は、ＣＰＵ１０１からの命令に従って、管理サーバ１００に接続されたディスプレイ６１に画像を出力する。ディスプレイ６１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

【0050】

入力インタフェース１０５は、管理サーバ１００に接続された入力デバイス６２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス６２としては、マウス、タッチパネル、タッチパッド、トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、管理サーバ１００に、複数の種類の入力デバイスが接続されていてもよい。

【0051】

媒体リーダ１０６は、記録媒体６３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体６３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

【0052】

媒体リーダ１０６は、例えば、記録媒体６３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体６３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体６３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

【0053】

ＮＩＣ１０７は、ＮＷ装置３００に接続され、ＮＷ装置３００を介してノード２００を含む他のコンピュータと通信を行うインタフェースである。ＮＩＣ１０７は、例えば、ＮＷ装置３００とケーブルで接続される。

【0054】

図４は、情報処理システムのハードウェア例を示す図である。
ノード２００は、ＣＰＵ２０１、メモリ２０２、ストレージ２０３およびＣＸＬスイッチ２０４を有する。ＣＰＵ２０１は、ノード２００のプロセッサである。ＣＰＵ２０１は、メモリ２０２に記憶されたプログラムを実行する。メモリ２０２は、ノード２００の主記憶装置である。メモリ２０２は、ＣＰＵ２０１が実行するプログラムを記憶する。メモリ２０２は例えばＤＲＡＭ（Dynamic RAM）などのＲＡＭである。以下に示されるメモリも同様である。

【0055】

ストレージ２０３は、ノード２００の補助記憶装置である。例えば、ストレージ２０３は、管理サーバ１００により生成された、アプリケーションの実行可能ファイルを記憶する。ＣＰＵ２０１は、ストレージ２０３に記憶された実行可能ファイルをメモリ２０２にロードして実行する。

【0056】

ＣＸＬスイッチ２０４は、ノード２００と、ストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００それぞれとを接続するインターコネクトである。

【0057】

ＮＷ装置３００は、ＮＷアクセラレータ３０１およびスイッチ３０２を有する。ＮＷアクセラレータ３０１は、ノード２００の処理のオフロード先として利用可能なアクセラレータである。ＮＷアクセラレータ３０１は、例えばＦＰＧＡにより実現される。スイッチ３０２は、レイヤ３やレイヤ２のプロトコルに基づいて、受信したデータの転送先の決定や、決定した転送先へのデータの送信を行う。例えば、レイヤ３のプロトコルにはＩＰ（Internet Protocol）がある。レイヤ２のプロトコルにはイーサネットがある。なお、図示を省略しているが、ＮＷ装置３００は、ＮＷアクセラレータ３０１が処理するデータを保持するメモリを有する。

【0058】

ストレージ装置４００は、ストレージアクセラレータ４０１および共有ストレージ４０２を有する。ストレージアクセラレータ４０１は、ノード２００の処理のオフロード先として利用可能なアクセラレータである。ストレージアクセラレータ４０１は、例えばＦＰＧＡにより実現される。共有ストレージ４０２は、ノード２００を含む複数のノードにより共有されるストレージである。共有ストレージ４０２は、例えば、ＨＤＤやＳＳＤなどにより実現される。なお、図示を省略しているが、ストレージ装置４００は、ストレージアクセラレータ４０１が処理するデータを保持するメモリを有する。

【0059】

メモリ装置５００は、メモリアクセラレータ５０１および共有メモリ５０２を有する。メモリアクセラレータ５０１は、ノード２００の処理のオフロード先として利用可能なアクセラレータである。メモリアクセラレータ５０１は、例えばＦＰＧＡにより実現される。共有メモリ５０２は、ノード２００を含む複数のノードにより共有されるメモリである。共有メモリ５０２の少なくとも一部の記憶領域は、メモリアクセラレータ５０１が処理するデータを保持するために用いられてもよい。

【0060】

例えば、ストレージ装置４００やメモリ装置５００は、図示を省略している他のノードと、ＣＸＬのインタフェースにより接続されてもよい。
ＦＰＧＡ装置６００は、ＦＰＧＡ６０１およびメモリ６０２を有する。ＦＰＧＡ６０１は、ノード２００の処理のオフロード先として利用可能なアクセラレータである。メモリ６０２は、ＦＰＧＡ６０１が処理するデータを保持する。

【0061】

ＧＰＵ装置７００は、ＧＰＵ７０１およびメモリ７０２を有する。ＧＰＵ７０１は、ノード２００の処理のオフロード先として利用可能なアクセラレータである。メモリ７０２は、ＧＰＵ７０１が処理するデータを保持する。

【0062】

図５は、管理サーバの機能例を示す図である。
管理サーバ１００は、記憶部１１０および制御部１２０を有する。記憶部１１０には、ＲＡＭ１０２やＨＤＤ１０３の記憶領域が用いられる。制御部１２０は、ＲＡＭ１０２に記憶されたプログラムがＣＰＵ１０１により実行されることで実現される。

【0063】

記憶部１１０は、ノード２００に実行させるアプリケーションのソースコードを記憶する。また、記憶部１１０は、制御部１２０がソースコードをコンパイルした結果である実行可能ファイルを記憶する。

【0064】

制御部１２０は、ソースコードのコンパイルを行う。制御部１２０は、ソースコードに係る一部の処理を、ノード２００に接続された何れかのアクセラレータにオフロードするように実行可能ファイルを生成する。制御部１２０は、プログラム分割部１２１、分析部１２２、配置先決定部１２３、ロジック変換部１２４、性能評価部１２５およびコンパイル処理部１２６を有する。

【0065】

プログラム分割部１２１は、ソースコードを複数のプログラムブロックに分割する。プログラムブロックの区切りは関数の区切りとなる。プログラムブロックは、タスクブロックと言われてもよい。１つのプログラムブロックには、１以上の関数が属する。また、分割単位は、１つのプログラムブロック当たりに含めるメイン関数の数やコードの容量（行数）により定められる。分割単位として、複数パターンが予め用意される。

【0066】

例えば、メイン関数の数で分割単位を分類する場合、分割単位の粒度として次の３種類が予め定められる。粒度大では、メイン関数の数が２０個以上程度である。粒度中では、メイン関数の数が５～２０個程度である。粒度小では、メイン関数の数が５個未満程度である。

【0067】

また、例えば、コードの容量で分割単位を分類する場合、分割単位の粒度として次の３種類が予め定められる。粒度大では、行数が１０００行以上程度である。粒度中では、行数が５００～１０００行程度である。粒度小では、行数が５００行未満程度である。

【0068】

分析部１２２は、プログラムブロック間のインターラクション、および、プログラムブロックとアクセラレータとのインターラクションを分析する。プログラムブロック間のインターラクションは、各プログラムブロックの実行時における他のプログラムブロックとの前後関係や他のプログラムブロックとの並列実行の可否を示す。

【0069】

プログラムブロックとアクセラレータとのインターラクションは、プログラムブロックからアクセラレータへのアクセスを示す。分析部１２２は、プログラムブロックとアクセラレータとのインターラクション数をカウントする。具体的には、分析部１２２は、プログラムブロックに含まれる所定の関数により、該当のアクセラレータが呼び出される回数（コール数）を、該当のプログラムブロックと該当のアクセラレータとのインターラクション数としてカウントする。分析部１２２は、プログラムブロックとアクセラレータとの組ごとに、インターラクション数を取得する。

【0070】

プログラムブロックとアクセラレータとのインターラクション数が１以上の場合、当該プログラムブロックは、当該アクセラレータとのインターラクションをもつと言える。プログラムブロックとアクセラレータとのインターラクション数が０の場合、当該プログラムブロックは、当該アクセラレータとのインターラクションをもたないと言える。

【0071】

配置先決定部１２３は、分析部１２２によってプログラムブロックとアクセラレータとの組ごとに取得されたインターラクション数に基づいて、該当のプログラムブロックの配置先のアクセラレータを決定する。具体的には、あるプログラムブロックが単一のアクセラレータとのインターラクションしかもたない場合、配置先決定部１２３は、当該プログラムブロックを、該当のアクセラレータの配置先とする。あるプログラムブロックが複数のアクセラレータとのインターラクションをもつ場合、配置先決定部１２３は、インターラクション数が最多のアクセラレータを、該当のプログラムブロックの配置先とする。あるプログラムブロックが何れのアクセラレータともインターラクションをもたない場合、配置先決定部１２３は、該当のプログラムブロックをノード２００のＣＰＵ２０１に割り当てる。

【0072】

ロジック変換部１２４は、各プログラムブロックを、配置先決定部１２３により決定された配置先のアクセラレータで動作するハードウェアロジックに変換する。ロジック変換部１２４によるロジック変換には、既存の高位合成ツールを利用することができる。既存の高位合成ツールには、例えばＶｉｖａｄｏＨＬＳやインテルＨＬＳコンパイラなどがある。

【0073】

性能評価部１２５は、ロジック変換部１２４により生成されたハードウェアロジックを用いた動作シミュレーションの結果から得られるプログラムブロックごとの性能情報に基づいて、アプリケーションの実行時の性能を評価する。性能評価部１２５は、複数パターンの分割単位でソースコードを分割した結果に対して、アプリケーションの実行時の性能を評価し、最も良い性能を得られる分割単位を選択する。

【0074】

コンパイル処理部１２６は、性能評価部１２５により選択された分割単位でソースコードを分割した場合において各プログラムブロックが配置先のアクセラレータにオフロードされるようにソースコードをコンパイルし、実行可能ファイルを生成する。

【0075】

制御部１２０は、粒度大、粒度中、粒度小などの複数パターンの分割単位での分割を試し、性能指標が最も良い分割単位を選択してソースコードをコンパイルする。
図６は、ソースコードの例を示す図である。

【0076】

ソースコード１１１は、記憶部１１０に記憶される。ソースコード１１１は、ノード２００に実行させるアプリケーションのソースコードをＣ言語で記述したものである。ソースコード１１１の各行には、便宜的な行番号が付されている。ソースコード１１１の例では、１行目～６行目の構造体ｇｍｘ＿ｍａｎｙ＿ｆｆｔの定義が１つ目のメイン関数の区切りとなる。また、その次の８行目～１８行目の関数ｇｍｘ＿ｆｆｔ＿ｉｎｉｔ＿ｍａｎｙ＿１ｄの定義が２つ目のメイン関数の区切りとなる。２つ目のメイン関数の区切りにおける８行目の記述は、ｆｆｔ関数のコールに相当する。

【0077】

図７は、ループの記述例を示す図である。
コード１１１ｃは、ソースコード１１１に含まれ得るループの記述例を示す。コード１１１ｃは、行列ａ，ｂの行列積ｃの記述例である。ａ，ｂ，ｃは、何れもｎ行ｎ列の正方行列である。コード１１１ｃは、ｆｏｒ文により繰り返し実行されるループ記述を含む。こうしたループ記述に係る計算は、例えばＦＰＧＡなどのアクセラレータが得意とするものであり、アクセラレータにオフロードすることで、効率的に処理可能になる。

【0078】

図８は、プログラムブロック間のインターラクションの例を示す図である。
ソースコード１１１は、プログラム分割部１２１により複数のプログラムブロックに分割される。複数のプログラムブロックは、プログラムブロックＡ，Ｂ，Ｃ，…を含む。分析部１２２は、プログラムブロック間のインターラクションとして、プログラムブロックＡ，Ｂ，Ｃ，…の順序関係を取得する。例えば、分析部１２２は、既存の技術を用いて各プログラムブロックに含まれる変数の依存関係などを分析することで、当該順序関係を得ることができる。

【0079】

例えば、シーケンス７１は、プログラムブロックＡの次にプログラムブロックＢが続き、プログラムブロックＢの次にプログラムブロックＣが続くというように、プログラムブロックＡ，Ｂ，Ｃを、この順序で直列に実行する場合を示す。また、シーケンス７２は、プログラムブロックＡの次にプログラムブロックＢ，Ｃを並列に実行可能である場合を示す。プログラムブロック間のインターラクションの分析結果は、ソースコード１１１に対応する計算の実行に要する時間（計算時間）の評価に用いられる。

【0080】

図９は、インターラクション数テーブルの例を示す図である。
インターラクション数テーブル１１２は、プログラムブロックとアクセラレータとのインターラクション数の分析結果を保持するテーブルである。インターラクション数テーブル１１２は、分析部１２２により生成され、記憶部１１０に格納される。インターラクション数テーブル１１２は、プログラムブロックＩＤ（IDentifier）、ストレージインターラクション数、ＮＷインターラクション数、メモリインターラクション数、ＦＰＧＡインターラクション数およびＧＰＵインターラクション数の項目を含む。

【0081】

プログラムブロックＩＤの項目には、プログラムブロックＩＤが登録される。プログラムブロックＩＤは、プログラムブロックの識別情報である。
ストレージインターラクション数の項目には、ストレージインターラクション数が登録される。ストレージインターラクション数は、該当のプログラムブロックに基づく、ノード２００からストレージ装置４００へのコール数に相当する。

【0082】

ＮＷインターラクション数の項目には、ＮＷインターラクション数が登録される。ＮＷインターラクション数は、該当のプログラムブロックに基づく、ノード２００からＮＷ装置３００へのコール数に相当する。

【0083】

メモリインターラクション数の項目には、メモリインターラクション数が登録される。メモリインターラクション数は、該当のプログラムブロックに基づく、ノード２００からメモリ装置５００へのコール数に相当する。

【0084】

ＦＰＧＡインターラクション数の項目には、ＦＰＧＡインターラクション数が登録される。ＦＰＧＡインターラクション数は、該当のプログラムブロックに基づく、ノード２００からＦＰＧＡ装置６００へのコール数に相当する。

【0085】

ＧＰＵインターラクション数の項目には、ＧＰＵインターラクション数が登録される。ＧＰＵインターラクション数は、該当のプログラムブロックに基づく、ノード２００からＧＰＵ装置７００へのコール数に相当する。

【0086】

あるデバイスに対するインターラクション数は、該当のプログラムブロックから当該デバイスに搭載されたアクセラレータへのアクセス数を示す。例えば、分析部１２２は、該当のプログラムブロックに含まれる、当該デバイスに対応する所定の関数の呼び出しの回数（コール数）をカウントすることで、当該デバイスに対するインターラクション数を得る。

【0087】

Ｃ言語を例に挙げると、デバイスの種類に応じた所定の関数、すなわち、当該デバイスに搭載されたアクセラレータに対応する所定の関数には次のものがある。共有ストレージ（ストレージ装置４００）では、例えばｆｔｐｕｔｃ関数、ｆｔｐｕｔｓ関数およびｆｔｐｒｉｎｔｆ関数などのファイルへの書き込みを行う関数である。共有メモリ（メモリ装置５００）では、例えばｍｍａｐ関数などである。ＮＷ装置３００では、例えばｉｏｃｔｌ関数、ｓｏｃｋｅｔ関数およびｃｏｎｎｅｃｔ関数などである。ＧＰＵ装置７００では、例えばｃｕｄａなどである。ＦＰＧＡ装置６００では、例えばフーリエ変換の関数であるｆｆｔｗ関数やＧＲＯＭＡＣＳのｇｍｘ＿ｆｆｔライブラリ関数などである。ＦＰＧＡが得意とする計算の関数には、その他にも図７で例示した行列積、乗算、積和演算、バレルシフタ、複素数演算および三角関数演算を行うものなどがある。なお、ＦＰＧＡが得意とする計算の関数は、環境やアプリケーションによって異なるため、これらだけとは限らず他の関数でもよい。

【0088】

例えば、インターラクション数テーブル１１２は、プログラムブロックＩＤ「Ａ」、ストレージインターラクション数「４」、ＮＷインターラクション数「０」、メモリインターラクション数「０」、ＦＰＧＡインターラクション数「０」、ＧＰＵインターラクション数「０」のレコードを有する。このレコードは、プログラムブロックＡのストレージインターラクション数が４、ＮＷインターラクション数が０、メモリインターラクション数が０、ＦＰＧＡインターラクション数が０、ＧＰＵインターラクション数が０であることを示す。インターラクション数テーブル１１２は、プログラムブロックＢ，Ｃを含む他のプログラムブロックのレコードも有する。

【0089】

次に、管理サーバ１００による処理手順を説明する。
図１０は、管理サーバの処理例を示すフローチャートである。
（Ｓ１０）プログラム分割部１２１は、所定の分割単位により、ソースコード１１１を複数のプログラムブロックに分割する。複数のプログラムブロックは、例えばプログラムブロックＡ，Ｂ，Ｃ，…を含む。ここで、プログラム分割部１２１は、ステップＳ１０を実行するたびに、分割単位を粒度大、粒度中、粒度小のように変更する。前述のように、分割単位の各粒度は、１つのプログラムブロックに含めるメイン関数の数やコードの行数などに基づいて予め定められる。

【0090】

（Ｓ１１）分析部１２２は、ステップＳ１０で得られたプログラムブロック間のインターラクションを分析する。具体的には、図８で例示したように、分析部１２２は、各プログラムブロックの前後関係や、並列実行可能性を分析する。

【0091】

（Ｓ１２）分析部１２２は、各プログラムブロックのアクセラレータに対するインターラクションを分析する。具体的には、分析部１２２は、プログラムブロックの記述に基づいて、アクセラレータが搭載されたデバイスに対応する所定の関数のコール回数を、インターラクション数として取得し、インターラクション数テーブル１１２に記録する。

【0092】

（Ｓ１３）配置先決定部１２３は、分析部１２２の分析結果であるインターラクション数テーブル１１２に基づいて、プログラムブロックを配置するアクセラレータを決定する。配置先決定部１２３による処理の詳細は後述される。

【0093】

（Ｓ１４）ロジック変換部１２４は、ロジック変換を行う。具体的には、ロジック変換部１２４は、既存の高位合成ツールを用いて、プログラムブロックを、配置先のアクセラレータで動作するロジックに変換する。ロジック変換部１２４の処理の詳細は後述される。また、ロジック変換部１２４は、変換後のロジックの動作シミュレーションを行い、各プログラムブロックに対応する演算に要する計算時間や消費電力を取得する。

【0094】

（Ｓ１５）性能評価部１２５は、ステップＳ１４で得られた計算時間や消費電力を基に、ソースコード１１１に対応するアプリケーション全体の実行に要する計算時間および消費電力を計算する。例えば、性能評価部１２５は、ステップＳ１１で分析したプログラムブロック間のインターラクションの分析結果と、各アクセラレータでの各プログラムブロックの計算時間とに基づいてアプリケーション全体の計算時間を算出し得る。具体的には、性能評価部１２５は、ソースコード１１１のうち各プログラムブロックの実行順序が直列である箇所については、各プログラムブロックに対応する計算時間を足し合わせる。また、性能評価部１２５は、ソースコード１１１のうち２以上のプログラムブロックを並列実行可能な箇所については、当該２以上のプログラムブロックのうちの最も長い計算時間とする。更に、性能評価部１２５は、各アクセラレータの消費電力およびＣＰＵ２０１の消費電力を合計することで、全体の消費電力を計算する。なお、性能評価部１２５は、ソースコード１１１のうちＣＰＵ２０１に割り当てる部分についても、当該部分に対する静的解析、シミュレーションまたは機械学習モデルなどの既存技術を用いて計算時間や消費電力を評価することができる。

【0095】

（Ｓ１６）性能評価部１２５は、予め用意された全ての分割単位で性能評価済であるか否かを判定する。全ての分割単位で性能評価済である場合、ステップＳ１７に処理が進む。全ての分割単位で性能評価を行っていない場合、ステップＳ１０に処理が進む。ステップＳ１０では、プログラム分割部１２１により未処理の分割単位でソースコード１１１が分割されて以降の手順が実行される。

【0096】

（Ｓ１７）コンパイル処理部１２６は、性能評価部１２５による性能評価の結果が最良である分割単位での各プログラムブロックのアクセラレータ配置を採用してソースコード１１１のコンパイルを行う。コンパイル処理部１２６は、ソースコード１１１に基づいて、実行可能ファイルを生成する。実行可能ファイルは、各アクセラレータと連携した演算をＣＰＵ２０１に実行させる実行可能プログラムと、各アクセラレータを設定するためのハードウェアロジック情報とを含む。ハードウェアロジック情報は、例えば、該当のアクセラレータの回路の設定に用いられる情報である。例えば、ハードウェアロジック情報は、ＦＰＧＡなどのＲＴＬ（Register Transfer Level）記述でもよい。ハードウェアロジック情報は、ＧＰＵなどの特定のハードウェアに特化したロジックを示す情報でもよい。そして、管理サーバ１００の処理が終了する。

【0097】

なお、ステップＳ１７における性能評価の結果が最良である分割単位の選択基準では、例えば、計算時間および消費電力の両方が最小であるものが最も優先して選択される。計算時間および消費電力の両方が最小であるものがない場合、例えば、計算時間および消費電力のうちの優先する方が最小のものが優先して選択される。ただし、当該選択基準は一例であり、他の選択基準が用いられてもよい。

【0098】

例えば、管理サーバ１００は、生成した実行可能ファイルをノード２００のＣＰＵ２０１に実行させる。すると、ＣＰＵ２０１は、実行可能ファイルに含まれるハードウェアロジック情報により該当のアクセラレータのコンフィギュレーションを行い、当該アクセラレータと連携してアプリケーションの処理を実行する。

【0099】

図１１は、配置先アクセラレータの選択例を示すフローチャートである。
配置先アクセラレータの選択はステップＳ１３に相当する。
（Ｓ２０）配置先決定部１２３は、インターラクション数テーブル１１２に基づいて、各プログラムブロックのインターラクション数を取得する。配置先決定部１２３は、インターラクション数テーブル１１２に記録されているインターラクション数が全て０でないプログラムブロックを抽出し、当該プログラムブロックごとに、下記のステップＳ２１以降の手順を実行する。

【0100】

（Ｓ２１）配置先決定部１２３は、同一プログラムブロックで複数のインターラクション種類があるか否かを判定する。同一プログラムブロックで複数のインターラクション種類がある場合、ステップＳ２２に処理が進む。同一プログラムブロックで複数のインターラクション種類がない場合、ステップＳ２３に処理が進む。ここで、複数のインターラクション種類がある場合とは、インターラクション数テーブル１１２において、該当のプログラムブロックに対し、インターラクション数が１以上の項目が複数存在する場合に相当する。複数のインターラクション種類がない場合とは、インターラクション数テーブル１１２において、該当のプログラムブロックに対し、インターラクション数が１以上の項目が１つだけの場合に相当する。

【0101】

（Ｓ２２）配置先決定部１２３は、インターラクション数を比較して、インターラクション数が最も多いアクセラレータに該当のプログラムブロックを配置すると決定する。なお、配置先決定部１２３は、同数の場合、すなわち、最多のインターラクション数となる複数のアクセラレータがある場合、読み出しデータに近い方のアクセラレータに該当のプログラムブロックを配置すると決定する。例えば、配置先決定部１２３は、ＮＷインターラクション数とメモリインターラクション数とが最多で同数の場合、データに近いメモリアクセラレータ５０１を優先して配置先に選択する。そして、配置先決定部１２３は、該当のプログラムブロックに対する処理を終了する。

【0102】

（Ｓ２３）配置先決定部１２３は、インターラクション数が１以上である該当のアクセラレータに、プログラムブロックを配置すると決定する。そして、配置先決定部１２３は、該当のプログラムブロックに対する処理を終了する。

【0103】

なお、配置先決定部１２３は、インターラクション数テーブル１１２に記録されているインターラクション数が全て０であるプログラムブロックを、ノード２００のＣＰＵ２０１に割り当てる。

【0104】

図１２は、ロジック変換の例を示すフローチャートである。
ロジック変換はステップＳ１４に相当する。ロジック変換はアクセラレータごとに行われる。

【0105】

（Ｓ３０）ロジック変換部１２４は、該当のアクセラレータを配置先とするプログラムブロックに対してループの抽出を行う。
（Ｓ３１）ロジック変換部１２４は、アクセラレータにおけるＰＥ（Processing Element）の再構成を行ことで、該当のプログラムブロックを当該アクセラレータで動作するハードウェアロジックに変換する。例えば、ステップＳ３０で抽出されたループなどの記述がハードウェアロジックに変換される。ロジック変換部１２４は、当該ハードウェアロジックを示すハードウェアロジック情報を生成する。

【0106】

ロジック変換部１２４は、プログラムブロックの記述からハードウェアロジックへの変換を、既存の高位合成ツールを用いて行える。
（Ｓ３２）ロジック変換部１２４は、ステップＳ３１で生成したハードウェアロジック情報に基づいてアクセラレータの動作のシミュレーションを行い、性能を算出する。ステップＳ３２では、ロジック変換部１２４は、性能として、例えばプログラムブロックに対応するハードウェアロジックごとの計算時間を求める。

【0107】

（Ｓ３３）ロジック変換部１２４は、計算時間が最短であるか否かを判定する。計算時間が最短である場合、ステップＳ３４に処理が進む。計算時間が最短でない場合、ステップＳ３１に処理が進み、ＰＥの再構成からやり直しとなる。ステップＳ３３の計算時間は、該当のアクセラレータにおける総計算時間である。なお、あるアクセラレータに対してステップＳ３３を最初に実行する場合は比較対象の計算時間がないため、ロジック変換部１２４は、ステップＳ３３の判定を行わずに、ステップＳ３４に処理を進める。

【0108】

（Ｓ３４）ロジック変換部１２４は、該当のアクセラレータにおける消費電力を算出する。例えば、ロジック変換部１２４は、アクセラレータの消費電力のカタログ値と、当該アクセラレータにおける総計算時間とを基に、消費電力を算出してもよい。また、ロジック変換部１２４は、ハードウェアロジック情報の入力に対して消費電力を出力する機械学習モデルを用いて、消費電力を算出してもよい。例えば、消費電力の初期値については、消費電力のカタログ値に基づいて算出されてもよく、稼働ログにより修正、学習しながら消費電力のデータが蓄積されてもよい。

【0109】

（Ｓ３５）ロジック変換部１２４は、消費電力が最小であるか否かを判定する。消費電力が最小である場合、該当のアクセラレータに対するロジック変換が終了する。消費電力が最小でない場合、ステップＳ３１に処理が進み、ＰＥの再構成からやり直しとなる。なお、あるアクセラレータに対してステップＳ３５を最初に実行する場合は比較対象の消費電力がないため、ロジック変換部１２４は、ステップＳ３５の判定を行わずに、ステップＳ３１に処理を進める。

【0110】

なお、ステップＳ３１～Ｓ３５の手順を所定回数繰り返しても最終的なハードウェアロジックの変換結果を得られない場合もある。この場合、ロジック変換部１２４は、例えば、計算時間および消費電力が何れも目標値より良い変換結果のうち、計算時間および消費電力の優先する方が最も良い変換結果を、最終的な変換結果としてもよい。

【0111】

管理サーバ１００による処理手順の説明は以上となる。
ところで、アプリケーションを記述するプログラムをアクセラレータのロジックに変換する技術は高位合成（ＣＧＲＡ）と呼ばれる。ＣＧＲＡでは、関数の繰り返し数（ループ抽出）や、マイクロアーキテクチャ的な配線の最適化の検討などが行われる。一般的にＣＧＲＡの再構成は、その粒度（分割単位）を関数単位などを小さくすることによって、その関数の繰り返しとマイクロアーキテクチャを考慮して配置する。これにより、例えばＣＰＵだけで行っていた処理の繰り返し処理部分がアクセラレータに配置され、マイクロアーキテクチャ的な効率化によって計算速度の向上やエネルギー効率の向上が図られる。また、例えばＣＧＲＡの再構成をコンパイル中に行うＪｕｓｔｉｎＴｉｍｅ高位合成では、コンパイル時間の短縮やループのマッピングによる性能向上がなされている。

【0112】

しかしながら、ヘテロジニアスな環境においては、ＣＧＲＡ対象のアクセラレータは様々な位置に配置されている。例えば、ＦＰＧＡやＧＰＵといったアクセラレータはノード２００のチップ内だけにとどまらず、インターコネクトを介した外部のストレージ近傍、ネットワーク近傍など様々な位置に置かれている。このため、既存の高位合成の技術だけでは、特定のアクセラレータについて局所的に最適化できても全体最適化は難しいといった問題がある。

【0113】

このように、再構成の粒度を細かくした場合、コンパイルのし易さや、局所的な最適化は達成されるが、全体として最適化されていない場合がある。これは、コア近傍、メモリ近傍、ネットワーク近傍、ストレージ近傍といったように、アクセラレータ（ＣＧＲＡの対象）の場所が散在し、それぞれのインターラクションが影響するためである。

【0114】

そこで、管理サーバ１００は、プログラムブロックにおける各アクセラレータとのインターラクションとを考慮して、インターラクションの多いアクセラレータに優先して合成することによって、局所的な最適化だけでなく、全体最適化を図れる。すなわち、複数のアクセラレータを含む系（システム）全体で最適化したＣＧＲＡ変換ができる。

【0115】

具体的には、管理サーバ１００は、ソースコード１１１の各プログラムブロックを、当該プログラムブロックにおいてアクセス回数が多いアクセラレータに優先的に配置する。このため、当該プログラムブロックに係る処理の実行時のＣＰＵ２０１とアクセラレータとの間のデータ転送が低減される。その結果、当該データ転送に係るオーバーヘッドが削減される。こうして、管理サーバ１００は、ノード２００およびアクセラレータの連携によるアプリケーション実行時の処理性能の向上を図れる。

【0116】

また、管理サーバ１００は、計算時間や消費電力を考慮して最適な分割単位を選択することで、システム全体での消費電力を低減しながら、最適な実行速度でプログラムを実行できるようになる。

【0117】

以上説明したように、管理サーバ１００は次の処理を実行する。
制御部１２０は、ソースプログラムを複数のプログラムブロックに分割する。制御部１２０は、複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数の分析の結果を取得する。制御部１２０は、当該分析の結果に基づいて、複数のプログラムブロックのうちの第１プログラムブロックと、複数のアクセラレータのうちの、第１プログラムブロックの配置先のアクセラレータとを選択する。制御部１２０は、第１プログラムブロックを配置先のアクセラレータで動作するハードウェアロジックに変換する。

【0118】

これにより、管理サーバ１００は、適切なアクセラレータに処理を割り当てることができる。例えば、アクセラレータに配置したプログラムブロックに係る処理の実行時のＣＰＵ２０１とアクセラレータとの間のデータ転送が低減される。その結果、当該データ転送に係るオーバーヘッドが削減される。こうして、管理サーバ１００は、ノード２００およびアクセラレータの連携によるアプリケーション実行時の処理性能の向上を図れる。なお、ソースコード１１１は、ソースプログラムの一例である。ストレージインターラクション数、ＮＷインターラクション数、メモリインターラクション数、ＦＰＧＡインターラクション数およびＧＰＵインターラクション数は、複数のアクセラレータそれぞれへのアクセス回数の一例である。

【0119】

また、制御部１２０は、配置先のアクセラレータの選択では、複数のアクセラレータのうち、第１プログラムブロックによるアクセス回数が最も多いアクセラレータを配置先のアクセラレータとして選択してもよい。これにより、管理サーバ１００は、アクセラレータに配置したプログラムブロックに係る処理の実行時のＣＰＵ２０１とアクセラレータとの間のデータ転送を効率的に低減できる。

【0120】

また、複数のアクセラレータは、メモリ装置５００に設けられる第１アクセラレータを含んでもよい。制御部１２０は、配置先のアクセラレータの選択では、第１プログラムブロックによるアクセス回数が同じである２以上のアクセラレータが第１アクセラレータを含む場合、第１アクセラレータを優先的に配置先のアクセラレータとして選択してもよい。これにより、管理サーバ１００は、アクセラレータに配置したプログラムブロックに係る処理の実行時のＣＰＵ２０１とアクセラレータとの間のデータ転送を効率的に低減できる。なお、メモリアクセラレータ５０１は、第１アクセラレータの一例である。

【0121】

また、制御部１２０は、複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数の分析を行ってもよい。制御部１２０は、当該分析では複数のプログラムブロックに含まれる、複数のアクセラレータそれぞれに対応する関数の呼び出し回数に基づいて、アクセス回数を取得してもよい。これにより、管理サーバ１００は、複数のプログラムブロックそれぞれによる複数のアクセラレータそれぞれへのアクセス回数を効率的に取得できる。

【0122】

なお、複数のアクセラレータそれぞれに対応する関数は、当該アクセラレータが搭載されるデバイス、または、デバイスの種類に応じた関数でもよい。ＮＷ装置３００、ストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００は、アクセラレータが搭載されるデバイスの一例である。すなわち、複数のアクセラレータそれぞれは、ＮＷ装置３００、ストレージ装置４００、メモリ装置５００、ＦＰＧＡ装置６００およびＧＰＵ装置７００の何れかに搭載されてもよい。

【0123】

また、制御部１２０は、第１プログラムブロックの選択では、複数のアクセラレータのうちの少なくとも１つのアクセラレータへのアクセス回数が１以上であるプログラムブロックを、第１プログラムブロックとして選択してもよい。これにより、管理サーバ１００は、何れかのアクセラレータに割り当てるプログラムブロックを適切に特定できる。

【0124】

また、制御部１２０は、第１プログラムブロックの選択では、複数の第１プログラムブロックを選択してもよい。制御部１２０は、配置先のアクセラレータの選択では、第１プログラムブロックごとに、配置先のアクセラレータを選択してもよい。これにより、管理サーバ１００は、適切なアクセラレータに処理を割り当てることができる。

【0125】

また、制御部１２０は、複数の分割単位それぞれを用いてソースプログラムを複数のプログラムブロックに分割してもよい。制御部１２０は、複数のアクセラレータを有するシステムにおいて、複数のプログラムブロックの少なくとも一部の処理を、複数のアクセラレータの少なくとも一部に実行させる場合のシステムの性能を示す指標値を分割単位ごとに取得してもよい。制御部１２０は、分割単位ごとの指標値に基づいて、複数の分割単位のうちの何れかの分割単位を選択してもよい。

【0126】

より具体的には、制御部１２０は、当該システムの性能を示す当該指標値を、複数のプログラムブロックの実行順序の分析の結果とハードウェアロジックとに基づき、複数のプログラムブロックの分割の粒度を示す複数の分割単位それぞれに対して取得してもよい。そして、制御部１２０は、分割単位ごとに取得した当該指標値に基づいて、複数の分割単位のうちの何れかの分割単位を選択してもよい。

【0127】

これにより、管理サーバ１００は、システム全体としての一層の性能向上を図りながら、プログラムを実行可能にできる。情報処理システム２０や第２の実施の形態の情報処理システムは、上記システムの一例である。複数のプログラムブロックの実行順序の分析の結果は、プログラムブロック間の実行時における前後関係や２以上のプログラムブロックの並列実行可能性などの情報を含んでもよい。

【0128】

また、制御部１２０は、システムの性能を示す指標値の取得では、ソースプログラムに対応する演算の実行に要する計算時間および消費電力を取得してもよい。これにより、管理サーバ１００は、システム全体での演算の実行速度の高速化および消費電力の低減を図りながら、適切なアクセラレータに処理を割り当てることができる。

【0129】

また、制御部１２０は、プログラムブロックを変換することで得られたハードウェアロジックに基づいて、複数のアクセラレータを有するシステムによりソースプログラムに対応する演算を実行させる実行可能ファイルを生成してもよい。これにより、管理サーバ１００は、当該システムに実行可能ファイルを実行させることで、当該システムによりアクセラレータを用いて効率的に演算を実行させることができる。

【0130】

なお、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現できる。また、第２の実施の形態の情報処理は、ＣＰＵ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体１１３に記録できる。

【0131】

例えば、プログラムを記録した記録媒体１１３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体１１３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

【符号の説明】

【0132】

１０情報処理装置
１１記憶部
１２処理部
２０情報処理システム
２１ノード
２２，２３，２４アクセラレータ
３０ソースプログラム
３１，３２プログラムブロック
４０テーブル
５１，５２ロジック

【図1】