特開2025-40044 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2025-40044制御プログラム、システムおよび制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025040044

(43)【公開日】2025-03-24

(54)【発明の名称】制御プログラム、システムおよび制御方法

(51)【国際特許分類】

G06F 9/50 20060101AFI20250314BHJP

【ＦＩ】

G06F9/50 120A

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023146699

(22)【出願日】2023-09-11

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】三輪真弘

(57)【要約】

【課題】リソースプールを効率的に利用する。
【解決手段】サーバ１はリソースプールを備えるシステムでのアプリケーションの実行において、反復処理を実行するアプリケーションから得られる一定の反復回数の完了時間と、総反復回数とから総反復回数だけ反復処理を実行する場合の予想完了時間を予想する。サーバ１は、予想完了時間と、ユーザによって指定される制限時間とを比較し、比較結果に基づいて、アプリケーションにチェックポイントを出力させ、アプリケーションの実行停止後に、リソースプールを用いて、アプリケーションの実行に利用しているサーバ１へのリソースの構成変更を実施する。サーバ１は、構成変更を実施したサーバ１上でアプリケーションを再起動し、出力させたチェックポイントから再開させる。かかるサーバ１の制御処理は、例えば、ディスアグリゲーテッドアーキテクチャを採用するシステムに適用できる。
【選択図】図２

【特許請求の範囲】

【請求項1】

リソースプールを備えるシステムでのアプリケーションの実行において、
反復処理を実行する前記アプリケーションから得られる一定の反復回数の完了時間と、総反復回数とから前記総反復回数だけ前記反復処理を実行する場合の予想完了時間を予想し、
前記予想完了時間と、ユーザによって指定される制限時間とを比較し、
比較結果に基づいて、前記アプリケーションにチェックポイントを出力させ、前記アプリケーションの実行停止後に、前記リソースプールを用いて、前記アプリケーションの実行に利用している情報処理装置へのリソースの構成変更を実施し、
前記構成変更を実施した前記情報処理装置で前記アプリケーションを再起動し、出力させた前記チェックポイントから再開させる
処理をコンピュータに実行させる制御プログラム。

【請求項2】

前記構成変更を実施する処理は、前記予想完了時間が前記制限時間を満たさない場合に、前記アプリケーションにチェックポイントを出力させ、前記アプリケーションの実行を停止させ、前記アプリケーションの実行停止後に、前記リソースプールを用いて前記情報処理装置へのリソースの追加を実施する
ことを特徴とする請求項１に記載の制御プログラム。

【請求項3】

前記構成変更を実施する処理は、前記予想完了時間が前記制限時間を満たす場合に、前記リソースが追加済みであって前記制限時間まで余裕がある場合には、前記アプリケーションにチェックポイントを出力させ、前記アプリケーションの実行を停止させ、前記アプリケーションの実行停止後に、前記情報処理装置から追加済みの前記リソースの取り外しを実施する
ことを特徴とする請求項１に記載の制御プログラム。

【請求項4】

前記予想完了時間を予想する処理は、前記反復処理の開始からの経過時間と、前記一定の反復回数の完了時間と、残りの反復回数とを用いて、前記予想完了時間を予想する
ことを特徴とする請求項１に記載の制御プログラム。

【請求項5】

前記構成変更を実施する処理は、前記情報処理装置へのリソースの追加を実施する場合には、前記情報処理装置に予め搭載されたリソースと、前記リソースプールに含まれるリソースとの性能比を記憶するテーブルを用いて、前記制限時間に対する前記予想完了時間の比に最も近い性能比を持つリソースを前記リソースプールから選択し、選択したリソースの前記情報処理装置への追加を実施する
ことを特徴とする請求項２に記載の制御プログラム。

【請求項6】

リソースプールと、
反復処理を行うアプリケーションを実行する情報処理装置と、を有し、
前記情報処理装置は、
前記アプリケーションから得られる一定の反復回数の完了時間と、総反復回数とから前記総反復回数だけ前記反復処理を実行する場合の予想完了時間を予想する予想部と、
前記予想完了時間と、ユーザによって指定される制限時間とを比較する比較部と、
比較結果に基づいて、前記アプリケーションにチェックポイントを出力させ、前記アプリケーションの実行停止後に、前記リソースプールを用いて、前記情報処理装置へのリソースの構成変更を実施する実施部と、
前記情報処理装置で前記アプリケーションを再起動し、出力させた前記チェックポイントから再開させる再開部と、
を有することを特徴とするシステム。

【請求項7】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、制御プログラムなどに関する。

【背景技術】

【0002】

近年、リソースをユースケースに応じてサーバの枠を超えて柔軟に構成するディスアグリゲーテッドアーキテクチャ（Disaggregated Architecture）が知られている。ここでいうリソースとは、システムを構築する際に必要となるＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ストレージ、ネットワーク、ＯＳ（Operating System）、ソフトウェアなどのことをいう。

【0003】

かかるディスアグリゲーテッドアーキテクチャは、リソースをプール化し、リソースプールを高速インターコネクト（例えば、ＰＣＩｅスイッチ）で接続し、スイッチの接続関係を切り替えることで、サーバへのリソース追加などの構成変更を可能にする。ディスアグリゲーテッドアーキテクチャは、全てのサーバに例えばＧＰＵなどを搭載する場合に比べて、システムの構築コストを安価に抑えることが可能となる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０１９－５１１０５１号公報

【特許文献2】特表２０１７－５２７８９３号公報

【特許文献3】米国特許出願公開第２０１８／０１０２９８２号明細書

【特許文献4】米国特許出願公開第２０１８／００３２３６０号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、ディスアグリゲーテッドアーキテクチャでは、リソースプールを効率的に利用できない場合があるという問題がある。

【0006】

例えば、ディスアグリゲーテッドアーキテクチャでは、リソースプール内のリソースを真に必要とするサーバへ割り当てることができない。すなわち、ユーザの要求に応じてサーバにリソースを割り当てる方法が考えられるが、かかる方法では、適切に割り当てられないことがある。一例として、サーバは、ユーザの要求に応じてＧＰＵを割り当てたが、ＣＰＵだけでも十分高速な場合があるし、そもそも割り当てたＧＰＵを使って実行しない場合もある。

【0007】

また、ディスアグリゲーテッドアーキテクチャでは、システムが稼働中のリソースの追加や取り外しに対応していても、アプリケーションが動作している途中で動的な追加や取り外しができない場合がある。すなわち、アプリケーションが実行されてからリソースが必要であるか否かが判断され、リソースが必要と判断されると、デバイスが追加される。ところが、アプリケーションが実行中にデバイスが追加されても、アプリケーションは、追加されたデバイスを認識することができないので、デバイスを利用できない。また、構成変更により接続されたデバイスを利用中のアプリケーションが存在する場合、アプリケーションが実行中にデバイスが取り外されるとカーネルパニックが発生し、システムが停止してしまうことがある。

【0008】

本発明は、１つの側面では、ディスアグリゲーテッドアーキテクチャにおいて、リソースプールを効率的に利用することを目的とする。

【課題を解決するための手段】

【0009】

１つの態様では、制御プログラムは、リソースプールを備えるシステムでのアプリケーションの実行において、反復処理を実行する前記アプリケーションから得られる一定の反復回数の完了時間と、総反復回数とから前記総反復回数だけ前記反復処理を実行する場合の予想完了時間を予想し、前記予想完了時間と、ユーザによって指定される制限時間とを比較し、比較結果に基づいて、前記アプリケーションにチェックポイントを出力させ、前記アプリケーションの実行停止後に、前記リソースプールを用いて、前記アプリケーションの実行に利用している情報処理装置へのリソースの構成変更を実施し、前記構成変更を実施した前記情報処理装置上で前記アプリケーションを再起動し、出力させた前記チェックポイントから再開させる、処理をコンピュータに実行させる。

【発明の効果】

【0010】

１実施態様によれば、リソースプールを効率的に利用できる。

【図面の簡単な説明】

【0011】

【図1】図１は、実施例に係るシステムの構成の一例を示す図である。

【図2】図２は、実施例に係る制御処理の流れの一例を示す図である。

【図3】図３は、実施例に係るサーバの機能構成の一例を示す図である。

【図4】図４は、実施例に係る制御処理の一例を示す図（制限時間に間に合う場合）である。

【図5】図５は、実施例に係る制御処理の一例を示す図（制限時間に間に合わない場合）である。

【図6】図６は、実施例に係る制御処理の一例を示す図（取り外す場合）である。

【図7A】図７Ａは、実施例に係る制御処理のシーケンスの一例を示す図（１）である。

【図7B】図７Ｂは、実施例に係る制御処理のシーケンスの一例を示す図（２）である。

【図8】図８は、実施例に係るリソース追加と再開処理のシーケンスの一例を示す図である。

【図9】図９は、実施例に係るリソース取り外しと再開処理のシーケンスの一例を示す図である。

【図10】図１０は、制御プログラムを実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0012】

以下に、本願の開示する制御プログラム、システムおよび制御方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

【実施例0013】

［システムの構成］
図１は、実施例に係るシステムの構成の一例を示すブロック図である。図１に示すシステム９は、複数のサーバ１と、リソースプール２と、スイッチ３と、管理サーバ４とを含む。システム９は、ディスアグリゲーテッドアーキテクチャ（Disaggregated Architecture）を備える構成のシステムである。かかるディスアグリゲーテッドアーキテクチャは、リソースをプール化し、リソースプール２をスイッチ３で接続し、スイッチ３の接続関係を切り替えることで、サーバ１へのリソース追加などの構成変更を可能にする。

【0014】

リソースプール２は、リソースをプール化する。ここでは、リソースは、ＧＰＵを対象とするが、これに限定されるものではない。リソースは、システム９を構築する際に必要となるＣＰＵ、ストレージ、ネットワーク、ＯＳ、ソフトウェアなどを含んでも良い。

【0015】

管理サーバ４は、リソースプール２内のリソースをサーバ１に追加したり、サーバ１に追加されたリソースプール２内のリソースを取り外したりする。例えば、管理サーバ４は、サーバ１からの指示に応じて、サーバ１へのリソース追加やリソース取り外しの構成変更を実施する。構成変更は、リソースプール２とサーバ１との間にあるスイッチ３の経路を切り替えることで、実施できる。スイッチ３には、例えば、高速インターコネクトであるＰＣＩｅスイッチが挙げられる。

【0016】

サーバ１は、ＣＰＵ、メモリ、ストレージおよびＮＩＣ（Network Interface Card）を含む。サーバ１は、対象のアプリケーションを制御プロセス配下で実行する。

【0017】

ここで、対象となるアプリケーションについて説明する。対象のアプリケーションは、ループによる反復処理を行う。反復処理を行うアプリケーションには、例えば、ＤｅｅｐＬｅａｒｎｉｎｇ（ＤＬ）の学習処理を行うアプリケーションが挙げられる。かかる学習処理は、学習データの全体を処理する１単位をエポックと呼び、このエポックを一定の反復回数だけ実行することで学習を進める。実施例では、対象のアプリケーションを学習処理として説明する。

【0018】

また、対象のアプリケーションは、追加対象のリソースを利用可能なアプリケーションであるとする。例えば、対象のアプリケーションは、ＣＰＵだけでなくＧＰＵでも実行可能であり、ＧＰＵが接続されていればＧＰＵを利用でき、ＧＰＵが接続されていなければＣＰＵを利用できる。

【0019】

また、対象のアプリケーションは、チェックポイントに対応したアプリケーションであるとする。チェックポイントとは、比較的実行時間が長いアプリケーションにおいて、一定の繰り返しやステップを実行した途中の結果をディスクに出力しておくことで、ジョブの実行が停止しても、停止した際の途中の結果から再開できる仕組みのことをいう。実施例では、かかるチェックポイントを利用する。

【0020】

対象のアプリケーションは、制御プロセス配下で実行される。制御プロセスは、対象のアプリケーションから得られる一定の反復回数の完了時間と、反復処理の総反復回数とから総反復回数だけ反復処理を実行する場合の完了にかかると予想される時間（予想完了時間）を予想する。制御プロセスは、予想完了時間と、ユーザが所望する制限時間とを比較し、予想完了時間が制限時間を満たさない場合には、対象のアプリケーションにチェックポイントを出力させ、対象のアプリケーションの実行を停止する。そして、制御プロセスは、対象のアプリケーションの実行停止後に、リソースプール２を用いて、サーバ１へのリソースの構成変更を実施する。ここでは、例えば、制御プロセスは、管理サーバ４にＧＰＵ追加の構成変更を指示し、管理サーバ４がスイッチ３の経路を制御して構成変更する。また、制御プロセスは、予想完了時間が制限時間を満たす場合には、リソースが追加済みであって予想完了時間が制限時間まで余裕がある場合には、対象のアプリケーションにチェックポイントを出力させ、対象のアプリケーションの実行を停止する。そして、制御プロセスは、対象のアプリケーションの実行停止後に、リソースプール２を用いて、サーバ１へのリソースの構成変更を実施する。ここでは、例えば、制御プロセスは、管理サーバ４にＧＰＵ取り外しの構成変更を指示し、管理サーバ４がスイッチ３の経路を制御して構成変更する。そして、制御プロセスは、構成変更したサーバ１上で対象のアプリケーションを再起動し、出力させたチェックポイントから再開させる。

【0021】

［制御処理の流れ］
ここで、制御プロセスが実施する制御処理の流れを、図２を参照して説明する。図２は、実施例に係る制御処理の流れの一例を示す図である。なお、図２では、対象のアプリケーションは、ＤＬの学習処理であるとする。学習処理を含む学習実行部２０は、初期状態ではＣＰＵを使用しているとする。

【0022】

図２に示すように、制御プロセス１０は、ＣＰＵで実行している学習実行部２０から１エポックの完了時間を取得する（ａ１）。制御プロセス１０は、１エポックの完了時間と残りのエポック数（反復回数）とから、総エポック数だけ学習処理を実行する場合の予想完了時間を予想する（ａ２）。制御プロセス１０は、予想完了時間と、ユーザによって指定された制限時間とを比較し、予想完了時間が制限時間を満たすか否かを判定する（ａ３）。

【0023】

制御プロセス１０は、予想完了時間が制限時間を満たさない場合には、学習実行部２０にチェックポイントを出力させる（ａ４，ａ５）。そして、制御プロセス１０は、ＣＰＵで実施している学習処理の実行を停止する（ａ６）。そして、制御プロセス１０は、管理サーバ４にＧＰＵ追加の構成変更を指示し、管理サーバ４がスイッチ３の経路を制御してサーバ１にＧＰＵを追加する。

【0024】

そして、制御プロセス１０は、サーバ１にＧＰＵを追加した構成で学習処理を起動し（ａ７）、出力させたチェックポイントから再開させる（ａ８）。つまり、ＧＰＵを用いて学習処理を実行することができる。

【0025】

これにより、システム９は、リソースプール２内のリソースを、真に必要とするサーバ１へ割り当てることができる。また、システム９は、対象の学習処理が動作している途中であっても、確実にリソースの追加や取り外しをすることができる。例えば、対象の学習処理は、リソースが追加される場合には一旦停止され、リソースが追加や取り外されてから再開されるので、追加されたリソースを認識することができる。この結果、システム９は、リソースの追加や取り外しを確実に行うことができる。

【0026】

［サーバの機能構成］
図３は、実施例に係るサーバの機能構成の一例を示す図である。図３に示すように、サーバ１は、制御プロセス１０および学習実行部２０を有する。制御プロセス１０は、時間管理部１１、起動・停止部１２、チェックポイント指示部１３および構成変更部１４を有する。学習実行部２０は、学習処理実行部２１、時間計測部２２およびチェックポイント出力部２３を有する。なお、時間管理部１１は、予想部および比較部の一例である。起動・停止部１２、チェックポイント指示部１３および構成変更部１４は、実施部の一例である。起動・停止部１２は、再開部の一例である。

【0027】

時間管理部１１は、学習実行の時間を管理する。例えば、時間管理部１１は、ユーザによって指定される制限時間および残りの反復回数を受け取る。時間管理部１１は、学習実行部２０から、一定反復の学習処理に要する時間を取得する。一例として、時間管理部１１は、１エポックに要する時間および残りの反復回数を取得する。そして、時間管理部１１は、一定反復の学習処理に要する時間と学習処理の残りの反復回数とから以下の式（１）のように予想完了時間を予想する。なお、反復時間とは、例えば、１回反復の学習処理に要する時間のことをいう。
予想完了時間＝（これまでの経過時間）＋（反復時間×残り反復回数）・・・式（１）

【0028】

そして、時間管理部１１は、予想完了時間と、制限時間とを比較し、比較結果に基づいて、以下の処理を実行する。時間管理部１１は、予想完了時間が制限時間を満たさない場合には、リソースを追加すべく、以下の処理を行う。時間管理部１１は、チェックポイント指示部１３にチェックポイント出力の指示をさせる。時間管理部１１は、起動・停止部１２に学習処理の停止をさせる。時間管理部１１は、学習処理の停止後に、構成変更部１４に、リソースを追加するように構成変更をさせる。時間管理部１１は、起動・停止部１２に指示し、学習実行部２０に対して、チェックポイントから学習処理を再開させる。

【0029】

また、時間管理部１１は、予想完了時間が制限時間を満たす場合、リソースが追加済みであって予想完了時間が制限時間まで余裕がある場合には、リソースの取り外しをすべく、以下の処理を行う。時間管理部１１は、チェックポイント指示部１３にチェックポイント出力の指示をさせる。時間管理部１１は、起動・停止部１２に学習処理の停止をさせる。時間管理部１１は、学習処理の停止後に、構成変更部１４に、追加済みのリソースを取り外すように構成変更をさせる。時間管理部１１は、起動・停止部１２に指示し、学習実行部２０に対して、チェックポイントから学習処理を再開させる。

【0030】

起動・停止部１２は、時間管理部１１の指示に基づき、学習処理を起動または停止する。例えば、起動・停止部１２は、時間管理部１１からの学習処理の停止指示を受け付けると、学習実行部２０における現在実行中の学習処理を停止する。また、起動・停止部１２は、時間管理部１１からの学習処理の起動指示を受け付けると、学習実行部２０における学習処理を起動する。

【0031】

チェックポイント指示部１３は、時間管理部１１の指示に基づき、チェックポイントの出力を指示する。例えば、チェックポイント指示部１３は、チェックポイント指示を時間管理部１１から受け付けると、学習実行部２０における学習処理にチェックポイントを出力させる。

【0032】

構成変更部１４は、時間管理部１１の指示に基づき、リソースの構成変更を指示する。例えば、構成変更部１４は、リソース追加を時間管理部１１から受け付けると、学習処理に利用しているサーバ１へのリソース追加を管理サーバ４に指示する。また、構成変更部１４は、リソースの取り外しを時間管理部１１から受け付けると、学習処理に利用しているサーバ１へのリソース取り外しを管理サーバ４に指示する。

【0033】

学習処理実行部２１は、制御プロセス１０配下で、学習処理を実行する。例えば、学習処理実行部２１は、制御プロセス１０から学習処理の起動要求を受け付けると、チェックポイントがある場合には、チェックポイントから学習処理を再開し、チェックポイントがない場合には、開始から学習処理を実行する。また、学習処理実行部２１は、制御プロセス１０から学習処理の停止要求を受け付けると、学習処理を停止する。

【0034】

時間計測部２２は、学習実行の時間を計測する。例えば、時間計測部２２は、１回反復の学習処理に要する時間を毎回計測する。一例として、時間計測部２２は、エポック毎、各エポックの完了時間を計測する。

【0035】

チェックポイント出力部２３は、チェックポイントを出力する。例えば、チェックポイント出力部２３は、制御プロセス１０から学習処理のチェックポイントの出力要求を受け付けると、学習処理のチェックポイントを出力する。

【0036】

［制御処理の一例］
ここで、実施例に係る制御処理の一例を、図４～図６を参照して説明する。図４～図６は、実施例に係る制御処理の一例を示す図である。図４では、制限時間に間に合う場合について説明する。図５では、制限時間に間に合わない場合について説明する。図６では、取り外す場合について説明する。

【0037】

図４は、実施例に係る制御処理の一例を示す図（制限時間に間に合う場合）である。図４に示すように、学習処理は、５エポック実行し、制限時間は、１８００秒であるとする。学習処理の実行開始時のシステム９の構成について、サーバ１には、ＣＰＵとメモリが含まれ、リソースプール２には、ＧＰＵが含まれる。ここでは、エポック「１」が完了した時点（ｂ０）での制御プロセス１０の判定について説明する。

【0038】

図４に示すように、時間管理部１１は、１エポックに要する時間および残りの反復回数を学習実行部２０から取得する。ここでは、１エポックに要する時間（反復時間）については、「２００秒」が取得される。残りの反復回数については、「４」が取得される。また、これまでの経過時間は、エポック「１」が完了するまでの経過時間のことをいい、「２１０秒」である。

【0039】

そして、時間管理部１１は、式（１）を用いて、予想完了時間を予想する。ここでは、予想完了時間は、１０１０（＝２１０＋２００×４）秒と予想される。すなわち、１反復（エポック）に「２００秒」が掛かり、実行開始から１エポックが完了するまでに「２１０秒」が掛かる。残り４エポックで８００（＝２００×４）秒が掛かるので、予想完了時間は「１０１０秒」と予想される。

【0040】

そして、時間管理部１１は、予想完了時間と、制限時間とを比較し、予想完了時間が制限時間を満たすか否かを判定する。ここでは、予想完了時間が「１０１０秒」であり、制限時間が「１８００秒」であるので、予想完了時間が制限時間を満たすと判定される。この結果、エポック２以降のサーバ１の構成は、変更なしと判断される。

【0041】

図５は、実施例に係る制御処理の一例を示す図（制限時間に間に合わない場合）である。図５に示すように、学習処理は、５エポック実行し、制限時間は、６００秒であるとする。学習処理の実行開始時のシステム９の構成について、サーバ１には、ＣＰＵとメモリが含まれ、リソースプール２には、ＧＰＵが含まれる。ここでは、エポック「１」が完了した時点（ｂ１）の制御プロセス１０の判定について説明する。

【0042】

図５に示すように、時間管理部１１は、１エポックに要する時間および残りの反復回数を学習実行部２０から取得する。ここでは、１エポックに要する時間（反復時間）については、「２００秒」が取得される。残りの反復回数については、「４」が取得される。また、これまでの経過時間は、実行開始からエポック「１」が完了するまでの経過時間のことをいい、「２１０秒」である。

【0043】

【0044】

そして、時間管理部１１は、予想完了時間と、制限時間とを比較し、予想完了時間が制限時間を満たすか否かを判定する。ここでは、予想完了時間が「１０１０秒」であり、制限時間が「６００秒」であるので、予想完了時間が制限時間を満たさないと判定される。すなわち、このままでは制限時間内の完了が難しい。

【0045】

そこで、時間管理部１１は、制限時間内の処理の完了を満たすべく、以下の処理を行う。時間管理部１１は、学習実行部２０に対して、チェックポイント出力の指示をさせ、学習処理の停止をさせる。そして、時間管理部１１は、学習処理の停止後に、構成変更部１４に、リソースを追加するように構成変更をさせる。そして、時間管理部１１は、学習実行部２０に対して、学習処理の起動をさせ、チェックポイントから学習処理を再開させる（ｂ２）。ここでは、構成変更部１４は、時間管理部１１の指示に基づき、リソースプール２に含まれるＧＰＵをサーバ１に追加する。この結果、エポック２以降のサーバ１には、ＣＰＵとメモリに加え、ＧＰＵが含まれる。そして、ＣＰＵは、新たにリソースプール２内のＧＰＵと接続され、ＧＰＵを用いて学習処理を実行する。

【0046】

そして、エポック「２」が完了した時点（ｂ３）の制御プロセス１０の判定は、以下のようになる。時間管理部１１は、１エポックに要する時間および残りの反復回数を学習実行部２０から取得する。ここでは、直近の１エポックに要する時間（反復時間）については、「５０秒」が取得される。残りの反復回数については、「３」が取得される。また、これまでの経過時間は、実行開始からエポック「２」が完了するまでの経過時間のことをいい、「２７０秒」である。

【0047】

そして、時間管理部１１は、式（１）を用いて、予想完了時間を予想する。ここでは、予想完了時間は、４２０（＝２７０＋５０×３）秒と予想される。すなわち、直近の１反復（エポック）に「５０秒」が掛かり、実行開始から１エポックが完了するまでに「２７０秒」が掛かる。残り３エポックで１５０（＝５０×３）秒が掛かるので、予想完了時間は「４２０秒」と予想される。

【0048】

そして、時間管理部１１は、予想完了時間と、制限時間とを比較し、予想完了時間が制限時間を満たすか否かを判定する。ここでは、予想完了時間が「４２０秒」であり、制限時間が「６００秒」であるので、予想完了時間が制限時間を満たすと判定される。この結果、エポック３以降の構成は、変更なしと判断される。

【0049】

これにより、制御プロセス１０は、ディスアグリゲーテッドアーキテクチャにおいて、リソースプール２を効率的に利用することができる。

【0050】

図６は、実施例に係る制御処理の一例を示す図（取り外す場合）である。図６に示すように、学習処理は、５エポック実行し、制限時間は、７００秒であるとする。学習処理の実行開始時のサーバ１の構成は、ＣＰＵのみであったが、エポック「１」が完了した時点でＣＰＵにＧＰＵを追加したものとする。ここでは、エポック「２」が完了した時点（ｂ４）の制御プロセス１０の判定について説明する。

【0051】

図６に示すように、時間管理部１１は、１エポックに要する時間および残りの反復回数を学習実行部２０から取得する。ここでは、１エポックに要する時間（反復時間）については、「５０秒」が取得される。残りの反復回数については、「３」が取得される。また、これまでの経過時間は、実行開始からエポック「２」が完了するまでの経過時間のことをいい、「２７０秒」である。

【0052】

【0053】

そして、時間管理部１１は、予想完了時間と、制限時間とを比較し、予想完了時間が制限時間を満たすか否かを判定する。ここでは、予想完了時間が「４２０秒」であり、制限時間が「７００秒」であるので、予想完了時間が制限時間を満たすと判定される。さらに、時間管理部１１は、予想完了時間が制限時間を満たす場合には、リソースが追加済みであって予想完了時間が制限時間まで余裕がある否かを判定する。ここでは、予想完了時間と制限時間との差分は、「２８０秒」（＝７００－４２０）である。サーバ１にＧＰＵを追加する前では、１エポックの実行時間は「２００秒」であった。一方、サーバ１にＧＰＵを追加した後では、１エポックの実行時間は「５０秒」であった。予想完了時間と制限時間との差分である「２８０」を、最後の１エポックを仮にＣＰＵのみで実行した場合の残りの時間（２００－５０）で割ると、１．８６と算出され、１より大きくなる。したがって、最後の１エポックでは、さらに、仮にＣＰＵのみで実行した場合の「１５０秒」（＝２００－５０）だけ時間が長くなっても制限時間までに間に合うと判断される。すなわち、時間管理部１１は、予想完了時間が制限時間まで余裕があると判定する。

【0054】

そこで、時間管理部１１は、残り１エポック時点で、リソースの取り外しをすべく、以下の処理を行う。時間管理部１１は、学習実行部２０に対して、チェックポイント出力の指示をさせ、学習処理の停止をさせる。時間管理部１１は、学習処理の停止後に、構成変更部１４に、追加済みのリソースを取り外すように構成変更をさせる。そして、時間管理部１１は、学習実行部２０に対して、学習処理の起動をさせ、チェックポイントから学習処理を再開させる。ここでは、構成変更部１４は、時間管理部１１の指示に基づき、リソースプール２に含まれるＧＰＵをサーバ１から取り外す。この結果、最後のエポック５では、サーバ１の構成は、再度ＣＰＵのみに変更される。なお、最後のエポックをリソースの取り外しの対象とするのは、リソースを取り外したり、追加したりする回数を最小化するためである。

【0055】

これにより、制御プロセス１０は、ディスアグリゲーテッドアーキテクチャにおいて、リソースプール２を効率的に利用することができる。

【0056】

［制御処理のシーケンス］
ここで、実施例に係る制御処理のシーケンスの一例を、図７Ａおよび図７Ｂを参照して説明する。図７Ａおよび図７Ｂは、実施例に係る制御処理のシーケンスの一例を示す図である。

【0057】

図７Ａに示すように、制御プロセス１０は、ユーザによって指定される学習処理の制限時間を受け取る（ステップＳ１１）。そして、制御プロセス１０は、学習実行部２０に対して、学習処理の実行開始を指示する（ステップＳ１２）。

【0058】

制御プロセス１０から学習処理の実行開始の指示を受け付けた学習実行部２０は、学習処理の実行を開始する（ステップＳ２１）。

【0059】

図７Ｂに示すように、学習実行部２０は、学習処理を実行する（ステップＳ２２）。学習処理は、１エポック毎に行われる。そして、学習実行部２０は、１エポックの学習処理の反復時間および残り反復回数を制御プロセス１０に通知する（ステップＳ２３）。反復時間は、１エポックの学習処理に要する時間のことをいう。

【0060】

学習実行部２０から通知を受け付けた制御プロセス１０は、エポック毎に、以下の処理を行う。制御プロセス１０は、学習開始からの経過時間に（反復時間×残り反復回数）を加えて得られる予想完了時間を算出する（ステップＳ１３）。そして、制御プロセス１０は、予想完了時間が制限時間より小さいか否かを判定する（ステップＳ１４）。すなわち、制御プロセス１０は、予想完了時間が制限時間を満たすか否かを判定する。

【0061】

予想完了時間が制限時間以上であると判定した場合（ステップＳ１４；Ｎｏ）には、制御プロセス１０は、リソース追加と再開処理を実行する（ステップＳ１５）。すなわち、予想完了時間が制限時間を満たさない場合である。なお、リソース追加と再開処理のフローチャートは、後述する。そして、制御プロセス１０は、ステップＳ１９に移行する。

【0062】

一方、予想完了時間が制限時間未満であると判定した場合（ステップＳ１４；Ｙｅｓ）には、制御プロセス１０は、リソース追加済み且つ制限時間まで余裕があるか否かを判定する（ステップＳ１６）。すなわち、予想完了時間が制限時間を満たす場合である。リソース追加済み且つ制限時間まで余裕がないと判定した場合には（ステップＳ１６；Ｎｏ）、制御プロセス１０は、リソースの構成を変更しないで、ステップＳ１９に移行する。

【0063】

一方、リソース追加済み且つ制限時間まで余裕があると判定した場合には（ステップＳ１６；Ｙｅｓ）、制御プロセス１０は、次の学習処理は残りの１エポックであるか否かを判定する（ステップＳ１７）。次の学習処理が残りの１エポックでないと判定した場合には（ステップＳ１７；Ｎｏ）、制御プロセス１０は、リソースの構成を変更しないで、ステップＳ１９に移行する。

【0064】

一方、次の学習処理が残りの１エポックであると判定した場合には（ステップＳ１７；Ｙｅｓ）、制御プロセス１０は、リソース取り外しと再開処理を実行する（ステップＳ１８）。なお、リソース取り外しと再開処理のフローチャートは、後述する。そして、制御プロセス１０は、ステップＳ１９に移行する。

【0065】

ステップＳ１９において、制御プロセス１０は、総エポック数の学習処理を終了したか否かを判定する（ステップＳ１９）。総エポック数の学習処理を終了していないと判定した場合には（ステップＳ１９；Ｎｏ）、制御プロセス１０は、次のエポックの学習処理に移行する。

【0066】

一方、総エポック数の学習処理を終了したと判定した場合には（ステップＳ１９；Ｙｅｓ）、制御プロセス１０は、制御プロセス処理を終了する。

【0067】

［リソース追加と再開処理のシーケンス］
図８は、実施例に係るリソース追加と再開処理のシーケンスの一例を示す図である。図８に示すように、制御プロセス１０は、学習実行部２０に対して、チェックポイントの出力および学習処理の停止を指示する（ステップＳ３１）。すると、学習実行部２０は、学習処理のチェックポイントを出力する。学習実行部２０は、チェックポイントの出力後、学習処理の停止を実施する（ステップＳ４１）。

【0068】

そして、制御プロセス１０は、学習処理の停止後、リソースの追加となるシステム構成の変更を実施する（ステップＳ３２）。例えば、制御プロセス１０は、管理サーバ４に対して、学習処理に利用しているサーバ１へのリソースの追加を指示し、管理サーバ４がスイッチ３の経路を制御してサーバ１へのリソースを追加する。

【0069】

リソースの追加後、制御プロセス１０は、学習実行部２０に対して、チェックポイントから学習再開するように指示する（ステップＳ３３）。すると、学習実行部２０は、追加されたシステム構成を用いて学習処理を起動する（ステップＳ４２）。そして、学習実行部２０は、チェックポイントから学習処理の実行を再開する（ステップＳ４３）。

【0070】

［リソース取り外しと再開処理のシーケンス］
図９は、実施例に係るリソース取り外しと再開処理のシーケンスの一例を示す図である。図９に示すように、制御プロセス１０は、学習実行部２０に対して、チェックポイントの出力および学習処理の停止を指示する（ステップＳ５１）。すると、学習実行部２０は、学習処理のチェックポイントを出力する。学習実行部２０は、チェックポイントの出力後、学習処理の停止を実施する（ステップＳ６１）。

【0071】

そして、制御プロセス１０は、学習処理の停止後、リソースの取り外しとなるシステム構成の変更を実施する（ステップＳ５２）。例えば、制御プロセス１０は、管理サーバ４に対して、学習処理に利用しているサーバ１へのリソースの取り外しを指示し、管理サーバ４がスイッチ３の経路を制御してサーバ１へのリソースを取り外す。

【0072】

リソースの追加後、制御プロセス１０は、学習実行部２０に対して、チェックポイントから学習再開するように指示する（ステップＳ５３）。すると、学習実行部２０は、取り外されたシステム構成を用いて学習処理を起動する（ステップＳ６２）。そして、学習実行部２０は、チェックポイントから学習処理の実行を再開する（ステップＳ６３）。

【0073】

なお、制御プロセス１０は、一定反復の学習処理に要する時間と学習処理の残りの反復回数とから予想完了時間を予想する。実施例では、一定反復の学習処理を１エポックとして説明した。しかしながら、一定反復の学習処理に要する時間は、１エポックに要する時間に限定されず、総反復回数に応じて２エポックに要する時間にしても良いし、３エポックに要する時間にしても良い。

【0074】

また、実施例では、対象のアプリケーションを学習処理として説明した。しかしながら、対象のアプリケーションは、学習処理に限定されず、ループによる反復処理を実施するアプリケーションであれば良い。例えば、対象のアプリケーションは、ｆｏｒ文やｗｈｉｌｅ文などで実現できるループによる反復処理を実施するアプリケーションであっても良い。

【0075】

また、実施例では、実行開始時のシステム９の構成について、サーバ１は、リソースプール２内のリソースを利用しない構成とした。しかしながら、リソースに余裕があれば、実行開始時からサーバ１にリソースを割り当てる構成としても良い。例えば、システム９は、（サーバ１の利用率）／（リソースプール２内のリソースの利用率）が所定の割合以上であれば、リソースを割り当てていないサーバ１が多くリソースに余裕がある場合と判定できる。かかる場合には、対象のアプリケーションは、サーバ１にリソースを割り当てから実行を開始するようにしても良い。

【0076】

また、実施例では、サーバ１は、リソースプール２内のリソースを利用すると説明した。リソースプール２には、同一種類のリソースに、複数の性能差がある場合がある。かかる場合には、サーバ１は、以下のように利用するリソースを選択しても良い。例えば、リソースがＧＰＵである場合に、システム９は、リソースプール２内の複数ある各ＧＰＵに対し、予めベンチマークを取得する。そして、システム９は、サーバ１に搭載されるＣＰＵに対するＧＰＵの加速度合いを求め、各ＧＰＵと加速度合いとを対応付ける表を生成する。そして、サーバ１は、ＣＰＵで対象のアプリケーションを実行した場合の予想完了時間とユーザによって指定される制限時間とを比較し、予想完了時間が制限時間を満たさない場合には、制限時間に対する予想完了時間の比を求め、作成された表から当該比に近い加速度合いを持つＧＰＵを選択すれば良い。一例として、予想完了時間が制限時間の５倍である場合には、ＣＰＵに対して３倍加速されるＧＰＵが選択されても予想完了時間は制限時間を満たせない。このため、サーバ１は、予め生成された表からＣＰＵに対して５倍加速されるＧＰＵを選択すれば良い。

【0077】

［実施例の効果］
上記実施例によれば、サーバ１は、リソースプール２を備えるシステム９でのアプリケーションの実行において、反復処理を実行するアプリケーションから得られる一定の反復回数の完了時間と、総反復回数とから総反復回数だけ反復処理を実行する場合の予想完了時間を予想する。サーバ１は、予想完了時間と、ユーザによって指定される制限時間とを比較する。サーバ１は、比較結果に基づいて、アプリケーションにチェックポイントを出力させ、アプリケーションの実行停止後に、リソースプールを用いて、アプリケーションの実行に利用しているサーバ１へのリソースの構成変更を実施する。サーバ１は、構成変更を実施したサーバ１上でアプリケーションを再起動し、出力させたチェックポイントから再開させる。かかる構成によれば、サーバ１は、リソースプール２を効率的に利用できる。例えば、サーバ１は、リソースプール２内のリソースを真に必要とする場合に必要なリソースを利用できる。加えて、サーバ１は、リソースプール２内のリソースを必要と判断されたタイミングまたは不必要と判断されたタイミングで動的且つ確実に利用できる。

【0078】

また、上記実施例によれば、サーバ１は、構成変更を実施する処理について、予想完了時間が制限時間を満たさない場合に、アプリケーションにチェックポイントを出力させ、アプリケーションの実行を停止させ、アプリケーションの実行停止後に、リソースプール２を用いてサーバ１へのリソースの追加を実施する。かかる構成によれば、サーバ１は、予想完了時間が制限時間を満たさない場合に、リソースプール２内のリソースをアプリケーションから使用することが可能になり、また、リソースを使用することで処理を加速できる。

【0079】

また、上記実施例によれば、サーバ１は、構成変更を実施する処理について、予想完了時間が制限時間を満たす場合に、リソースが追加済みであって制限時間まで余裕がある場合には、アプリケーションにチェックポイントを出力させ、アプリケーションの実行を停止させ、アプリケーションの実行停止後に、サーバ１から追加済みのリソースの取り外しを実施する。かかる構成によれば、サーバ１は、リソースプール２内のリソースをアプリの停止後に取り外せるので、エラーなくリソースを取り外すことが可能になり、また、他にリソースを必要とするアプリケーションでのリソース使用が可能になる。

【0080】

また、上記実施例によれば、サーバ１は、予想完了時間を予想する処理について、反復処理の開始からの経過時間と、一定の反復回数の完了時間と、残りの反復回数とを用いて、予想完了時間を予想する。かかる構成によれば、サーバ１は、予想完了時間を予想することで、制限時間と比較できることとなり、現在のサーバ１に搭載されるリソースの過不足を認識できる。

【0081】

また、上記実施例によれば、サーバ１は、構成変更を実施する処理について、サーバ１へのリソースの追加を実施する場合には、サーバ１に予め搭載されたリソースと、リソースプール２に含まれるリソースとの性能比を記憶するテーブルを用いて、制限時間に対する予想完了時間の比に最も近い性能比を持つリソースをリソースプール２から選択し、選択したリソースのサーバ１への追加を実施する。かかる構成によれば、サーバ１は、制限時間に間に合うようなリソースを確実にリソースプール２から選択できる。

【0082】

［その他］
なお、図示したサーバ１における制御プロセス１０の各構成要素や学習実行部２０の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、サーバ１における制御プロセス１０や学習実行部２０の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0083】

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図３に示したサーバ１における制御プロセス１０および学習実行部２０と同様の機能を実現する制御プログラムを実行するコンピュータの一例を説明する。ここでは、サーバ１における制御プロセス１０および学習実行部２０と同様の機能を実現する制御プログラムを一例として説明する。図１０は、制御プログラムを実行するコンピュータの一例を示す図である。

【0084】

図１０に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ（Central Processing Unit）２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信Ｉ／Ｆ（Interface）２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、表示装置２０９、ドライブ装置２１３、入力装置２１５、通信Ｉ／Ｆ２１７は、バス２１９で接続されている。

【0085】

ドライブ装置２１３は、例えばリムーバブルディスク２１１用の装置である。ＨＤＤ２０５は、制御プログラム２０５ａおよび制御処理関連情報２０５ｂを記憶する。通信Ｉ／Ｆ２１７は、ネットワークと装置内部とのインターフェースを司り、他のコンピュータからのデータの入出力を制御する。通信Ｉ／Ｆ２１７には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

【0086】

表示装置２０９は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。表示装置２０９は、例えば、液晶ディスプレイや有機ＥＬ（Electroluminescence）ディスプレイなどを採用することができる。

【0087】

ＣＰＵ２０３は、制御プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスはサーバ１の各機能部に対応する。制御処理関連情報２０５ｂには、例えば、図示しないチェックポイントを保持したファイルなどが含まれる。そして、例えばリムーバブルディスク２１１が、制御プログラム２０５ａなどの各情報を記憶する。

【0088】

なお、制御プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから制御プログラム２０５ａを読み出して実行するようにしても良い。

【0089】

また、上記実施例で説明したサーバ１が行う制御処理は、例えば、ディスアグリゲーテッドアーキテクチャを採用するシステムに適用することができる。

【符号の説明】

【0090】

１サーバ
２リソースプール
３スイッチ
４管理サーバ
９システム
１０制御プロセス
１１時間管理部
１２起動・停止部
１３チェックポイント指示部
１４構成変更部
２０学習実行部
２１学習処理実行部
２２時間計測部
２３チェックポイント出力部

【図1】