特開2024-80289 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-80289プログラム制御装置、プログラム制御方法およびプログラム制御プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024080289

(43)【公開日】2024-06-13

(54)【発明の名称】プログラム制御装置、プログラム制御方法およびプログラム制御プログラム

(51)【国際特許分類】

G06F 9/48 20060101AFI20240606BHJP

【ＦＩ】

G06F9/48 300Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022193356

(22)【出願日】2022-12-02

(71)【出願人】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103090

【弁理士】

【氏名又は名称】岩壁冬樹

(74)【代理人】

【識別番号】100124501

【弁理士】

【氏名又は名称】塩川誠人

(72)【発明者】

【氏名】大野善之

(57)【要約】

【課題】アクセラレータのメモリが不足することなくアクセラレータが複数のプログラムを同時に高速で実行できるプログラム制御装置を提供する。
【解決手段】プログラム制御装置２０は、アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換する変換部２１と、変換された複数の中間表現および複数のメモリ情報を基に、アクセラレータが複数のプログラムを同時に実行する際にアクセラレータが使用するメモリの使用量がメモリの閾値以下になるように複数の中間表現の実行順序を決定する決定部２２とを備える。
【選択図】図２５

【特許請求の範囲】

【請求項1】

アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、前記演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換する変換部と、
変換された複数の中間表現および複数のメモリ情報を基に、前記アクセラレータが前記複数のプログラムを同時に実行する際に前記アクセラレータが使用するメモリの使用量が前記メモリの閾値以下になるように前記複数の中間表現の実行順序を決定する決定部とを備える
ことを特徴とするプログラム制御装置。

【請求項2】

決定された実行順序に従って複数の中間表現を実行することによって複数のプログラムを同時に実行するアクセラレータを備える
請求項１記載のプログラム制御装置。

【請求項3】

決定部は、演算処理で使用されるデータをアクセラレータ以外の演算装置が使用するメモリに退避させる処理を複数の中間表現に含める
請求項１記載のプログラム制御装置。

【請求項4】

メモリ情報には、データが使用される演算処理の範囲が含まれる
請求項１から請求項３のうちのいずれか１項に記載のプログラム制御装置。

【請求項5】

アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、前記演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換し、
変換された複数の中間表現および複数のメモリ情報を基に、前記アクセラレータが前記複数のプログラムを同時に実行する際に前記アクセラレータが使用するメモリの使用量が前記メモリの閾値以下になるように前記複数の中間表現の実行順序を決定する
ことを特徴とするプログラム制御方法。

【請求項6】

アクセラレータが、決定された実行順序に従って複数の中間表現を実行することによって複数のプログラムを同時に実行する
請求項５記載のプログラム制御方法。

【請求項7】

演算処理で使用されるデータをアクセラレータ以外の演算装置が使用するメモリに退避させる処理を複数の中間表現に含める
請求項５または請求項６記載のプログラム制御方法。

【請求項8】

アクセラレータに、
前記アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、前記演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換する変換処理、および
変換された複数の中間表現および複数のメモリ情報を基に、前記アクセラレータが前記複数のプログラムを同時に実行する際に前記アクセラレータが使用するメモリの使用量が前記メモリの閾値以下になるように前記複数の中間表現の実行順序を決定する決定処理
を実行させるためのプログラム制御プログラム。

【請求項9】

アクセラレータに、
決定された実行順序に従って複数の中間表現を実行させることによって複数のプログラムを同時に実行させる
請求項８記載のプログラム制御プログラム。

【請求項10】

アクセラレータに、
決定処理で、演算処理で使用されるデータを前記アクセラレータ以外の演算装置が使用するメモリに退避させる処理を複数の中間表現に含めさせる
請求項８または請求項９記載のプログラム制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プログラム制御装置、プログラム制御方法およびプログラム制御プログラムに関し、特にGPU(Graphics Processing Unit)による複数のプログラムの同時実行を可能とするプログラム制御装置、プログラム制御方法およびプログラム制御プログラムに関する。

【背景技術】

【0002】

AI(Artificial Intelligence)の開発では、演算装置として主にGPU等のアクセラレータが利用される。アクセラレータの中でもGPUは、より多くの技術分野で利用されることが予想される。

【0003】

価格が高額であり、かつ消費電力の高いGPUを個別に購入および運用するためには、高いコストが求められる。よって、GPUを個別に購入および運用する代わりに、複数のGPUの役割を１つのGPUに集約することが考えられる。上記の理由により、AIの開発において、GPUの「集約化」が行われることが予想される。

【0004】

GPUが搭載されたサーバを集約する場合、GPUに対する仮想化技術や共有技術が重要になる。例えば、１台のGPUに複数のプログラムを実行させることが求められる。

【0005】

図２６は、複数のプログラムの実行主体の例を示す説明図である。例えば、図２６に示すプログラムＡの右下がり斜線の領域は、GPUがプログラムＡの計算を行っている領域である。また、図２６に示すプログラムＡの白色の領域は、GPUの代わりにCPU(Central Processing Unit)がプログラムＡの計算を行っている領域である。

【0006】

また、図２６に示すプログラムＢの右上がり斜線の領域は、GPUがプログラムＢの計算を行っている領域である。また、図２６に示すプログラムＢの白色の領域は、GPUの代わりにCPUがプログラムＢの計算を行っている領域である。

【0007】

図２６に示すプログラムＡ～Ｂの実行を１台のGPUに集約させる場合、GPUが時分割で用いられると、GPUの使用効率が上がる。すなわち、図２６の下部に示すように、１台のGPUがプログラムＡ～Ｂを実行する時間をずらすことによって、GPUの使用効率が上がる。

【0008】

しかし、GPUを時分割で用いる手法には、GPUのメモリが不足するとプログラムが動かなくなるという課題がある。図２７は、複数のプログラムの実行主体の他の例を示す説明図である。

【0009】

図２７に示す２つの破線の角丸四角形が表すように、同じタイミングでプログラムＡ～Ｂの実行にGPUが使用される場合、GPUのメモリが足りないと、どちらか、または両方のプログラムがエラーで停止する。図２７に示す例であれば、図２７の中央に示す右下がり斜線の領域における計算と、右上がり斜線の領域における計算のどちらか、または両方が停止する。

【0010】

上記の課題を解決する、CPUのメモリとGPUのメモリを単一のメモリとして扱えるようにする技術として、Unified Memoryが挙げられる。Unified Memoryが構成された当初の目的は、CPUとGPUのデータ通信の明示的なプログラム化を省略することである。Unified Memoryが使用されると、GPUは仮想的に大きなメモリを扱うことができる。

【0011】

図２８は、Unified Memoryが使用されていない演算装置の構成例を示すブロック図である。図２８に示す演算装置は、CPUと、CPUメモリと、GPUと、GPUメモリとを備える。図２８に示すGPUがGPUメモリ以上の大きさのメモリを確保しようとすると、エラーが発生する。

【0012】

図２９は、Unified Memoryが使用されている演算装置の構成例を示すブロック図である。図２９に示す演算装置では、図２８に示す演算装置と異なり、Unified Memoryが使用されている。

【0013】

Unified Memoryが使用されると、CPUからUnified Memory内のデータにアクセスしようとすると自動的にGPUメモリ内のデータがCPUメモリに移動する。また、GPUからUnified Memory内のデータにアクセスしようとすると自動的にCPUメモリ内のデータがGPUメモリに移動する。

【0014】

すなわち、Unified Memoryが使用されると、GPUは、仮想的に大きさがGPUメモリ以上のメモリを扱うことができる。よって、図２７に例示する課題を解決する１つの手法は、Unified Memoryを使用することである。

【0015】

また、特許文献１には、メモリリソースの有効利用を実現することが可能になる情報処理装置が記載されている。

【0016】

また、特許文献２には、アクセラレータを用いるアプリケーションを開発するプログラマのプログラム生産性を向上させることができるアクセラレータ処理実行装置が記載されている。

【0017】

また、特許文献３には、並列処理によりプログラムを実行可能な複数の演算部を有するアクセラレータが、自らの内部の複数の演算部間の分担を決定して、プログラムを実行可能なアクセラレータが記載されている。

【先行技術文献】

【特許文献】

【0018】

【特許文献1】特開２０２２－０２２６４２号公報

【特許文献2】特開２０１４－２２９１７３号公報

【特許文献3】特開２００８－１６５７４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0019】

Unified Memoryが使用された場合、以下の問題が発生する可能性がある。Unified Memoryのアドレス空間に対するアクセスにおいて仮想メモリ領域（ページ）の奪い合いにより発生するPage Faultが検知されると、CPU-GPU間でデータのコピー処理が実行される。上記の仕組みにより、CPUメモリまたはGPUメモリに自動的にデータが移動する。

【0020】

しかし、Page Faultが頻繁に発生すると、Page Faultが大きなオーバーヘッドになり演算装置の処理速度が低下する可能性がある。すなわち、GPUに複数のプログラムを同時に実行させる場合にUnified Memoryを使用することによってGPUメモリの不足を解消しようとしても、Page Faultが頻繁に発生し、演算装置の処理速度が低下するという問題が生じる。

【0021】

GPUメモリが足りない場合に、GPUメモリのページの奪い合いによりPage Faultが発生して処理速度が低下するという問題を解決できる技術は、特許文献１～３に記載されていない。

【0022】

そこで、本発明は、アクセラレータのメモリが不足することなくアクセラレータが複数のプログラムを同時に高速で実行できるプログラム制御装置、プログラム制御方法およびプログラム制御プログラムを提供することを目的とする。

【課題を解決するための手段】

【0023】

本発明によるプログラム制御装置は、アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換する変換部と、変換された複数の中間表現および複数のメモリ情報を基に、アクセラレータが複数のプログラムを同時に実行する際にアクセラレータが使用するメモリの使用量がメモリの閾値以下になるように複数の中間表現の実行順序を決定する決定部とを備えることを特徴とする。

【0024】

本発明によるプログラム制御方法は、アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換し、変換された複数の中間表現および複数のメモリ情報を基に、アクセラレータが複数のプログラムを同時に実行する際にアクセラレータが使用するメモリの使用量がメモリの閾値以下になるように複数の中間表現の実行順序を決定することを特徴とする。

【0025】

本発明によるプログラム制御プログラムは、アクセラレータに、アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換する変換処理、および変換された複数の中間表現および複数のメモリ情報を基に、アクセラレータが複数のプログラムを同時に実行する際にアクセラレータが使用するメモリの使用量がメモリの閾値以下になるように複数の中間表現の実行順序を決定する決定処理を実行させることを特徴とする。

【発明の効果】

【0026】

本発明によれば、アクセラレータのメモリが不足することなくアクセラレータが複数のプログラムを同時に高速で実行できる。

【図面の簡単な説明】

【0027】

【図1】本発明の実施形態のプログラム制御装置の構成例を示すブロック図である。

【図2】本実施形態のプログラム制御装置１００によるプログラム制御処理の例を示す説明図である。

【図3】IR生成部１１０に入力されるユーザプログラムの例を示す説明図である。

【図4】IR生成部１１０に入力されるライブラリプログラムの例を示す説明図である。

【図5】IR生成部１１０が参照する利用メモリ情報の例を示す説明図である。

【図6】IR生成部１１０が生成する利用メモリ量情報入りIRの例を示す説明図である。

【図7】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の例を示す説明図である。

【図8】IR実行部１４０がIRを実行する際のGPUメモリの例を示す説明図である。

【図9】IR実行部１４０がIRを実行する際のGPUメモリの他の例を示す説明図である。

【図10】IR実行部１４０がIRを実行する際のGPUメモリの他の例を示す説明図である。

【図11】IR生成部１２０が生成する利用メモリ量情報入りIRの例を示す説明図である。

【図12】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図13】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図14】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図15】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図16】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図17】IR実行部１４０がIRを実行する際のGPUメモリの他の例を示す説明図である。

【図18】本実施形態のプログラム制御装置１００によるIR実行処理の動作を示すフローチャートである。

【図19】IR生成部１２０が生成する利用メモリ量情報入りIRの他の例を示す説明図である。

【図20】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図21】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図22】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図23】IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【図24】本発明によるプログラム制御装置１００のハードウェア構成例を示す説明図である。

【図25】本発明によるプログラム制御装置の概要を示すブロック図である。

【図26】複数のプログラムの実行主体の例を示す説明図である。

【図27】複数のプログラムの実行主体の他の例を示す説明図である。

【図28】Unified Memoryが使用されていない演算装置の構成例を示すブロック図である。

【図29】Unified Memoryが使用されている演算装置の構成例を示すブロック図である。

【発明を実施するための形態】

【0028】

［構成の説明］
以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の実施形態のプログラム制御装置の構成例を示すブロック図である。

【0029】

本実施形態のプログラム制御装置１００は、プログラムを利用メモリ量情報が保持されたIR（Intermediate Representation：中間表現）に変換し、利用メモリ量情報を基にIRの実行順序を制御することを特徴とする。

【0030】

プログラムの一般的な実行形態には、プログラムをコンパイルしてオブジェクトコードを生成し、生成されたオブジェクトコードを実行する形態や、インタープリタ方式で命令を１つずつ実行する形態がある。

【0031】

また、プログラムの一般的な実行形態には、インタープリタ方式で命令を１つずつIRに変換し、変換されたIRを実行する形態もある。本実施形態のプログラム制御装置１００は、プログラムをIRに変換し、変換されたIRを実行するという手法を活用する。

【0032】

図２は、本実施形態のプログラム制御装置１００によるプログラム制御処理の例を示す説明図である。図２に示す例において、プログラム制御装置１００は、図２７の中央に示す右下がり斜線の領域における計算を行うプログラムＡの部分と、右上がり斜線の領域における計算を行うプログラムＢの部分をそれぞれ利用メモリ量情報入りIRに変換する。

【0033】

なお、各利用メモリ量情報入りIRの右の吹き出し内に示すグラフは、各領域で行われる計算の処理の順番を表す計算グラフである。計算グラフの情報は、利用メモリ量情報入りIRに含まれている。

【0034】

例えば、図２に示す右下がり斜線の領域に対応する計算グラフは、最初に処理１が実行され、処理１の実行結果を基に処理２と処理３が実行され、処理２と処理３の各実行結果を基に処理４が実行され、処理４の実行結果を基に処理５が実行されることを表す。

【0035】

図２に示すように、GPUは、複数のユーザプログラムが変換された利用メモリ量情報入りIRを受け付ける。次いで、GPUは、GPUメモリが不足しないように、各IRの実行順序を制御する。

【0036】

図２に示す例であれば、GPUは、各利用メモリ量情報入りIRを基に、<A1>→<A2>→<A3>→<A4>→<B1>→<B2>→<B3>→<A5>の順に各処理を実行することを決定する。なお、例えば<A1>はプログラムＡの処理１を表し、<B1>はプログラムＢの処理１を表す。

【0037】

図１に示すプログラム制御装置１００は、IR生成部１１０と、IR生成部１２０と、IR実行順序決定部１３０と、IR実行部１４０とを備える。

【0038】

IR生成部１１０は、入力されたプログラムＡから利用メモリ量情報入りIRを生成する機能を有する。また、IR生成部１２０は、入力されたプログラムＢから利用メモリ量情報入りIRを生成する機能を有する。

【0039】

本実施形態のプログラムＡ～Ｂは、それぞれユーザＡ～Ｂから入力されたプログラムである。なお、プログラム制御装置１００は、IR生成部を３つ以上備えてもよい。

【0040】

IR生成部１１０およびIR生成部１２０には、入力として、プログラムが与えられる。与えられるプログラムは、ユーザプログラムとライブラリプログラムに分けられる。図３は、IR生成部１１０に入力されるユーザプログラムの例を示す説明図である。また、図４は、IR生成部１１０に入力されるライブラリプログラムの例を示す説明図である。

【0041】

また、IR生成部１１０およびIR生成部１２０は、利用メモリ量情報入りIRを生成する際、内部的に保持する利用メモリ情報を参照する。図５は、IR生成部１１０が参照する利用メモリ情報の例を示す説明図である。

【0042】

IR生成部１１０およびIR生成部１２０は、ユーザプログラム、ライブラリプログラム、および利用メモリ情報を基に、プログラムを実行せずに利用メモリ量情報入りIRを生成する。図６は、IR生成部１１０が生成する利用メモリ量情報入りIRの例を示す説明図である。

【0043】

図６に示すように、本実施形態の利用メモリ量情報入りIRは、演算内容を示すOperation情報(IR)と、利用メモリ量を示すData情報とで構成される。なお、図６に示す利用メモリ量情報入りIRは、図２に示す右下がり斜線の領域における計算を行うプログラムＡの部分が変換された利用メモリ量情報入りIRである。

【0044】

例えば、IR生成部１１０は、図３に示すユーザプログラムと、図４に示すライブラリプログラムとを基に、最初に行われる処理１を示す”Operation1”のOperation情報を生成する。また、IR生成部１１０は、図３に示すユーザプログラムと、図５に示す利用メモリ情報とを基に、最初に行われる処理１で利用されるメモリ量を示す”Data1”のData情報を生成する。

【0045】

なお、図６に示す”Data5”のData情報には、プログラム内の変数の生死情報である”Keep”が含まれている。その理由は、ユーザプログラムの第１レベルのデータ(”Out1”)はIRが実行された後も維持されることが求められるためである。また、関数内のデータ(”Data1”～”Data4”)はIRが実行された後には不要となるため、”Data1”～”Data4”のData情報には、Keep Flagが付与されていない。

【0046】

IR生成部１１０およびIR生成部１２０は、生成された利用メモリ量情報入りIRをIR実行順序決定部１３０に入力する。IR実行順序決定部１３０は、入力された利用メモリ量情報入りIRを基にメモリ使用量を見積もる。

【0047】

図７は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の例を示す説明図である。なお、図７は、IR実行順序決定部１３０がIR生成部１１０から入力された図６に示す利用メモリ量情報入りIRを基に見積もるメモリ使用量を示す。

【0048】

図７に示すように、IR実行順序決定部１３０は、”Operation1”のOperation情報と”Data1”のData情報とを基に、計算の処理１（図７に示す”Op1”）では8GBの入力データ”In1”と8GBの出力データ”Data1”が使用されると分析する。

【0049】

なお、”Data1”のData情報は、”Data1”がサイズが1Gの64ビットの符号付き整数であることを示している。よって、IR実行順序決定部１３０は、出力データ”Data1”のメモリ使用量が、8 Byte × 1G = 8GBであると見積もる。

【0050】

よって、IR実行順序決定部１３０は、計算の処理１におけるメモリ使用量の最大値が16GBであると見積もる。なお、図７に示す”Op1”における各行は、計算の処理１における入力データおよびメモリ使用量、処理の実行時のデータおよびメモリ使用量、出力データおよびメモリ使用量をそれぞれ表す（図７に示す”Op2”～”Op5”も同様）。また、図７の右端に示す値は、各データのメモリ使用量の合計である。

【0051】

同様に、IR実行順序決定部１３０は、計算の処理２～５（図７に示す”Op2”～”Op5”）における各メモリ使用量の最大値が24GB、32GB、32GB、32GBであるとそれぞれ見積もる。

【0052】

なお、図７に示す例では、出力データ”In1”は、予めKeep Flagが付与されているデータであるため、”Op1”以降の”Op2”～”Op5”においても利用されずに残り続けている。また、図７に示す”Op1”における出力データ”Data1”は、”Op1”以降の”Op2”、”Op3”の入力データであるため、図７に示す”Op1”の終了時点で残っている。

【0053】

また、図７に示す”Op2”における出力データ”Data1”は”Op2”以降の”Op3”の入力データであるため、また出力データ”Data2”は”Op2”以降の”Op4”の入力データであるため、図７に示す”Op2”の終了時点でいずれも残っている。

【0054】

また、図７に示す”Op3”における出力データ”Data1”は、”Op3”以降の”Op4”、”Op5”において利用されないため、図７に示す”Op3”の終了時点で削除されている。また、図７に示す”Op3”における出力データ”Data2”、”Data3”は、”Op3”以降の”Op4”の入力データであるため、図７に示す”Op3”の終了時点でいずれも残っている。

【0055】

同様の理由で、図７に示す”Op4”では、不要と判断された出力データ”Data2”、”Data3”が、図７に示す”Op4”の終了時点で削除されている。

【0056】

メモリ使用量を見積もった後、IR実行順序決定部１３０は、IRをIR実行部１４０に入力する。IR実行部１４０は、入力されたIRを実行することによって、各プログラムを実行する機能を有する。

【0057】

図８は、IR実行部１４０がIRを実行する際のGPUメモリの例を示す説明図である。なお、図８に示すGPUがIR実行部１４０に相当する。また、図８に示すGPUメモリが、IR実行部１４０のメモリに相当する。

【0058】

図８に示す例では、IR実行部１４０が図２に示す破線の角丸四角形内の右下がり斜線の領域における計算を行うプログラムＡの部分と、破線の角丸四角形内の右上がり斜線の領域における計算を行うプログラムＢの部分とを実行する。図８の上部に示すように、プログラムＡおよびプログラムＢには、実行にあたって外部からデータが入力されている。

【0059】

よって、図８の下部に示すように、GPUメモリには、各プログラムの実行の開始にあたって入力データ”In1”、”InB1”が保存されている。なお、図８の下部に示すように、入力データ”In1”、”InB1”の各メモリ使用量は、それぞれ8GBである。

【0060】

図９は、IR実行部１４０がIRを実行する際のGPUメモリの他の例を示す説明図である。図９の上部は、プログラムＡの実行において処理１が計算されていることを示す。なお、プログラムＡの処理１が計算された結果は、GPUメモリに保存される（プログラムＢも同様）。

【0061】

よって、図９の下部に示すように、右のGPUメモリには、新たに出力データ”Data1”が保存されている。図９の下部に示すように、出力データ”Data1”のメモリ使用量は、図７で見積もられていたように8GBである。

【0062】

図１０は、IR実行部１４０がIRを実行する際のGPUメモリの他の例を示す説明図である。図１０の上部は、プログラムＡの実行において処理２が計算されていることを示す。また、図１０の上部は、ユーザＡのプログラムの実行中（処理２の計算途中）にユーザＢのプログラムの実行が要求されたことを示す。

【0063】

よって、図１０の下部に示すように、右のGPUメモリには、新たに出力データ”Data2”が保存されている。図１０の下部に示すように、出力データ”Data2”のメモリ使用量は、図７で見積もられていたように8GBである。

【0064】

プログラムＢの実行が要求されたことを契機に、IR生成部１２０は、利用メモリ量情報入りIRを生成する。図１１は、IR生成部１２０が生成する利用メモリ量情報入りIRの例を示す説明図である。

【0065】

図１１に示す利用メモリ量情報入りIRは、図８に示す破線の角丸四角形内の右下がり斜線の領域における計算を行うプログラムＢの部分が変換された利用メモリ量情報入りIRである。図１１に示す利用メモリ量情報入りIRの見方は、図６に示す利用メモリ量情報入りIRの見方と同様である。

【0066】

利用メモリ量情報入りIRが生成されたことを契機に、IR実行順序決定部１３０は、メモリ使用量を見積もる。図１２は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。

【0067】

図１２に示すメモリ使用量の見方は、図７に示すメモリ使用量の見方と同様である。なお、図１２に示す”OpB1”～”OpB3”は、図１０に示すプログラムＢの計算の処理１～３をそれぞれ表す。

【0068】

次に、IR実行順序決定部１３０は、プログラムＡの実行待ちの各処理(Operations)に対して、メモリ使用量が閾値を超えないようにプログラムＢの各処理(Operations)を追加する。

【0069】

図１３は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図１３は、図１０の上部に示すプログラムＡに対応する。すなわち、図１３に示す下線が付された”Op2”が、実行中の処理である。また、図１３に示す”Op3”～”Op5”が、実行待ちの各処理である。

【0070】

図１４は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図１４は、図１０の上部に示すプログラムＢに対応する。すなわち、図１４に示す下線が付された“開始時”が、プログラムＢの現在の段階である。また、図１４に示す”OpB1”～”OpB3”が、追加される各処理である。

【0071】

IR実行順序決定部１３０は、プログラムＡの実行待ちの各処理に対して、プログラムＢの各処理を追加する。図１５は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図１５に示すメモリ使用量の見方は、図１３に示すメモリ使用量の見方と同様である。

【0072】

図１３と異なり、図１５では”Op4”と”Op5”の間が空けられている。IR実行順序決定部１３０は、図１５に示す空けられた箇所でプログラムＢの各処理が実行されるようにプログラムＢの各処理を追加する。

【0073】

図１６は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図１６に示すメモリ使用量の見方は、図１４に示すメモリ使用量の見方と同様である。

【0074】

図１６に示すように、IR実行順序決定部１３０は、プログラムＡの”Op4”が終了してから”OpB1”～”OpB3”が実行されるように各処理の実行タイミングを調整している。なお、図１６に示す例では、IR実行順序決定部１３０は、メモリ使用量が最小になるようにプログラムＡの実行待ちの各処理に対してプログラムＢの各処理を追加している。

【0075】

また、図１６の右端に示す「合計」は、図１５に示すプログラムＡのメモリ使用量と図１６に示すプログラムＢのメモリ使用量の合計である。合計の最大値は、”OpB2”の実行中等の40GBである。すなわち、プログラムＡのメモリ使用量とプログラムＢのメモリ使用量の合計が閾値の40GB以下になるため、プログラムＡとプログラムＢが同時に実行されても、GPUのメモリが不足することはない。

【0076】

図１７は、IR実行部１４０がIRを実行する際のGPUメモリの他の例を示す説明図である。図１７の上部は、プログラムＡの実行において処理３が計算されていることを示す。また、図１７の上部は、プログラムＢの各処理が実行待ちであることを示す。

【0077】

よって、図１７の下部に示すように、中央のGPUメモリには、新たに出力データ”Data3”が保存されている。また、右のGPUメモリからは、IRが実行された後に不要となった出力データ”Data1”が削除されている。図１７の下部に示すように、出力データ”Data3”のメモリ使用量は、図１５で見積もられていたように8GBである。

【0078】

従って、IR実行部１４０は、IR実行順序決定部１３０が決定した順番でIRを実行することによって、GPUメモリを不足させずに２つのプログラムを同時に実行できる。

【0079】

以上のように、本実施形態のIR生成部１１０およびIR生成部１２０は、アクセラレータ(GPU)に同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現（Operation情報）と、演算処理で使用されるデータが要するメモリ量を示すメモリ情報（Data情報）とにそれぞれ変換する。

【0080】

また、本実施形態のIR実行順序決定部１３０は、変換された複数の中間表現および複数のメモリ情報を基に、アクセラレータが複数のプログラムを同時に実行する際にアクセラレータが使用するメモリ（GPUメモリ）の使用量がメモリの閾値以下になるように複数の中間表現の実行順序を決定する。

【0081】

また、本実施形態のプログラム制御装置１００は、決定された実行順序に従って複数の中間表現を実行することによって複数のプログラムを同時に実行するアクセラレータ（IR実行部１４０）を備える。

【0082】

また、本実施形態のメモリ情報には、データが使用される演算処理の範囲（”Keep Flag”が示す内容）が含まれる。

【0083】

［動作の説明］
以下、本実施形態のプログラム制御装置１００のIRを実行する動作を図１８を参照して説明する。図１８は、本実施形態のプログラム制御装置１００によるIR実行処理の動作を示すフローチャートである。

【0084】

最初に、プログラム制御装置１００のIR生成部１１０に、プログラムＡが入力される（ステップS101）。

【0085】

次いで、IR生成部１１０は、プログラムＡから利用メモリ量情報入りIRを生成する（ステップS102）。IR生成部１１０は、生成された利用メモリ量情報入りIRをIR実行順序決定部１３０に入力する。

【0086】

また、プログラム制御装置１００のIR生成部１２０に、プログラムＢが入力される（ステップS103）。

【0087】

次いで、IR生成部１２０は、プログラムＢから利用メモリ量情報入りIRを生成する（ステップS104）。IR生成部１２０は、生成された利用メモリ量情報入りIRをIR実行順序決定部１３０に入力する。

【0088】

次いで、IR実行順序決定部１３０は、入力された利用メモリ量情報入りIRを基に、プログラムＡおよびプログラムＢが実行される際のメモリ使用量をそれぞれ見積もる（ステップS105）。

【0089】

次いで、IR実行順序決定部１３０は、見積もられた各メモリ使用量を基にプログラムＡおよびプログラムＢのIRの実行順序を決定する（ステップS106）。IR実行順序決定部１３０は、プログラムＡおよびプログラムＢのIRを、決定された実行順序と共にIR実行部１４０に入力する。

【0090】

次いで、IR実行部１４０は、決定された実行順序に従って、入力されたIRを実行する（ステップS107）。IRを実行した後、プログラム制御装置１００は、IR実行処理を終了する。

【0091】

［効果の説明］
本実施形態のIR実行順序決定部１３０は、IRの実行順序を決定するにあたって、プログラムの実行待ちの各処理に対してメモリ使用量がGPUメモリの閾値を超えないように他のプログラムの処理を追加する。従って、本実施形態のIR実行部１４０(GPU)は、GPUメモリが不足することなく複数のプログラムを同時に高速で実行できる。

【0092】

＜変形例＞
本変形例は、メモリ使用量の見積もりの結果、メモリ使用量がGPUメモリのサイズを超える場合に、プログラム制御装置１００が必要最低限のデータをCPUメモリに退避させる例である。具体的には、IR実行順序決定部１３０が、プログラムＡの実行待ちの各処理に対して、プログラムＢのメモリの使用量が多いために、メモリ使用量が閾値を超えずにプログラムＢの各処理を追加できない場合を考える。

【0093】

図１９は、IR生成部１２０が生成する利用メモリ量情報入りIRの他の例を示す説明図である。図１１に示す”DataB1”では”Size : 1G”と指定されているが、図１９に示す”DataB1”では”Size : 2G”と指定されている。

【0094】

すなわち、”DataB1”のData情報は、”DataB1”がサイズが2Gの64ビットの符号付き整数であることを示している。よって、IR実行順序決定部１３０は、出力データ”DataB1”のメモリ使用量が、8 Byte × 2G = 16GBであると見積もる。

【0095】

図２０は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図２０では、”DataB1”を使用する”OpB1”、”OpB2”の一部のメモリ使用量が、図１２に示す”OpB1”、”OpB2”のメモリ使用量よりも8GB増加している。

【0096】

図２１は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図２１は、図１０の上部に示すプログラムＢに対応する。

【0097】

図２１に示すメモリ使用量の見方は、図１４に示すメモリ使用量の見方と同様である。なお、本変形例において、図１０の上部に示すプログラムＡに対応するメモリ使用量は、図１３に示すメモリ使用量である。

【0098】

図１３と図２１を参照すると、IR実行順序決定部１３０は、プログラムＡの実行待ちの各処理に対して、メモリ使用量が閾値を超えないようにプログラムＢの各処理を追加できない。具体的には、プログラムＢの”OpB2”がプログラムＡの”Op2”～”Op5”のどこに追加されても、メモリ使用量が閾値の40GBを超える。

【0099】

よって、IR実行順序決定部１３０は、まず最もメモリ使用量が小さくなる箇所、具体的には”Op4”と”Op5”の間に”OpB2”を追加することを決定する。”OpB2”を追加するために、IR実行順序決定部１３０は、プログラムＡで使用されているデータを退避させる。なお、データを退避させる箇所は、例えばCPUメモリである。

【0100】

退避させることが求められる量は、16+32-40 = 8GBである。よって、IR実行順序決定部１３０は、”OpB2”が実行される前に”Op4”で使用された”Data4”(8GB)を退避させることを決定する。

【0101】

図２２は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図２２に示すメモリ使用量の見方は、図１５に示すメモリ使用量の見方と同様である。

【0102】

図１５と異なり、図２２では”Op4”と”Op5”の間が空けられ、かつ”Op4”の終了後に”Data4”を退避させる処理が指定されている。また、”Op5”の開始前に”Data4”を復帰させる処理が指定されている。IR実行順序決定部１３０は、図２２に示す空けられた箇所でプログラムＢの各処理が実行されるようにプログラムＢの各処理を追加する。

【0103】

図２３は、IR実行順序決定部１３０が利用メモリ量情報入りIRを基に見積もるメモリ使用量の他の例を示す説明図である。図２３に示すメモリ使用量の見方は、図１６に示すメモリ使用量の見方と同様である。

【0104】

図２３に示す合計の最大値は、”OpB2”の実行中等の40GBである。すなわち、図２２に示すプログラムＡのメモリ使用量と図２３に示すプログラムＢのメモリ使用量の合計が閾値の40GB以下になるため、プログラムＡとプログラムＢが同時に実行されても、GPUのメモリが不足することはない。

【0105】

以上のように、本変形例のIR実行順序決定部１３０は、演算処理で使用されるデータをアクセラレータ以外の演算装置が使用するメモリに退避させる処理を複数の中間表現に含める。

【0106】

以下、本実施形態のプログラム制御装置１００のハードウェア構成の具体例を説明する。図２４は、本発明によるプログラム制御装置１００のハードウェア構成例を示す説明図である。

【0107】

図２４に示すプログラム制御装置１００は、CPU１１と、主記憶部１２と、通信部１３と、補助記憶部１４とを含む。また、ユーザが操作するための入力部１５や、ユーザに処理結果または処理内容の経過を提示するための出力部１６を含む。

【0108】

プログラム制御装置１００は、図２４に示すCPU１１が各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現される。

【0109】

すなわち、CPU１１が補助記憶部１４に格納されているプログラムを、主記憶部１２にロードして実行し、プログラム制御装置１００の動作を制御することによって、各機能がソフトウェアにより実現される。

【0110】

なお、図２４に示すプログラム制御装置１００は、CPU１１の代わりにＤＳＰ（Digital Signal Processor）を含んでもよい。または、図２４に示すプログラム制御装置１００は、CPU１１とＤＳＰとを併せて含んでもよい。

【0111】

主記憶部１２は、データの作業領域やデータの一時退避領域として用いられる。主記憶部１２は、例えばＲＡＭ（Random Access Memory）である。

【0112】

通信部１３は、有線のネットワークまたは無線のネットワーク（情報通信ネットワーク）を介して、周辺機器との間でデータを入力および出力する機能を有する。

【0113】

補助記憶部１４は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリが挙げられる。

【0114】

入力部１５は、データや処理命令を入力する機能を有する。入力部１５は、例えばキーボード、マウス、タッチパネル等の入力デバイスである。

【0115】

出力部１６は、データを出力する機能を有する。出力部１６は、例えば液晶ディスプレイ装置等の表示装置、タッチパネル、またはプリンタ等の印刷装置である。

【0116】

また、図２４に示すように、プログラム制御装置１００において、各構成要素は、システムバス１７に接続されている。

【0117】

プログラム制御装置１００において、補助記憶部１４は、IR生成部１１０、IR生成部１２０、およびIR実行順序決定部１３０を実現するためのプログラムを記憶している。なお上述したように、IR実行部１４０は、例えばGPU（図示せず）で実現される。

【0118】

なお、プログラム制御装置１００は、例えば内部に図１に示すような機能を実現するＬＳＩ（Large Scale Integration ）等のハードウェア部品が含まれる回路が実装されてもよい。

【0119】

また、プログラム制御装置１００は、CPU等の素子を用いるコンピュータ機能を含まないハードウェアにより実現されてもよい。例えば、各構成要素の一部または全部は、汎用の回路（circuitry ）または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップ（例えば、上記のＬＳＩ）によって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

【0120】

また、プログラム制御装置１００の各構成要素の一部または全部は、演算部と記憶部とを備えた１つまたは複数の情報処理装置で構成されていてもよい。

【0121】

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

【0122】

次に、本発明の概要を説明する。図２５は、本発明によるプログラム制御装置の概要を示すブロック図である。本発明によるプログラム制御装置２０は、アクセラレータに同時に実行させる複数のプログラムを、プログラムが実行する演算処理を示す中間表現と、演算処理で使用されるデータが要するメモリ量を示すメモリ情報とにそれぞれ変換する変換部２１（例えば、IR生成部１１０およびIR生成部１２０）と、変換された複数の中間表現および複数のメモリ情報を基に、アクセラレータが複数のプログラムを同時に実行する際にアクセラレータが使用するメモリの使用量がメモリの閾値以下になるように複数の中間表現の実行順序を決定する決定部２２（例えば、IR実行順序決定部１３０）とを備える。

【0123】

また、プログラム制御装置２０は、決定された実行順序に従って複数の中間表現を実行することによって複数のプログラムを同時に実行するアクセラレータ（例えば、IR実行部１４０）を備えてもよい。

【0124】

そのような構成のプログラム制御装置が利用されると、アクセラレータは、アクセラレータのメモリが不足することなく、複数のプログラムを同時に高速で実行できる。

【0125】

また、決定部２２は、演算処理で使用されるデータをアクセラレータ以外の演算装置（例えば、CPU）が使用するメモリに退避させる処理を複数の中間表現に含めてもよい。

【0126】

【0127】

また、アクセラレータは、GPU以外の演算素子（演算装置）でもよい。また、メモリ情報には、データが使用される演算処理の範囲が含まれてもよい。

【符号の説明】

【0128】

１１ CPU
１２主記憶部
１３通信部
１４補助記憶部
１５入力部
１６出力部
１７システムバス
２０、１００プログラム制御装置
２１変換部
２２決定部
１１０、１２０ IR生成部
１３０ IR実行順序決定部
１４０ IR実行部