IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7197776スケジューリングプログラム、スケジューリング方法、およびスケジューリング装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-20
(45)【発行日】2022-12-28
(54)【発明の名称】スケジューリングプログラム、スケジューリング方法、およびスケジューリング装置
(51)【国際特許分類】
   G06Q 10/00 20120101AFI20221221BHJP
   G06F 9/455 20060101ALI20221221BHJP
   G06F 9/50 20060101ALI20221221BHJP
【FI】
G06Q10/00 300
G06F9/455 150
G06F9/50 150Z
【請求項の数】 8
(21)【出願番号】P 2018206810
(22)【出願日】2018-11-01
(65)【公開番号】P2020071779
(43)【公開日】2020-05-07
【審査請求日】2021-07-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】奥野 伸吾
(72)【発明者】
【氏名】渡辺 幸洋
(72)【発明者】
【氏名】飯倉 二美
【審査官】鈴木 和樹
(56)【参考文献】
【文献】特開2015-161956(JP,A)
【文献】特開2014-178912(JP,A)
【文献】特開2018-028746(JP,A)
【文献】国際公開第2010/140183(WO,A1)
【文献】国際公開第2013/042269(WO,A1)
【文献】米国特許出願公開第2016/0378520(US,A1)
【文献】米国特許出願公開第2016/0266926(US,A1)
【文献】井上 拓哉 外1名,モバイルエッジコンピューティングにおけるサーバ処理能力とマイグレーション遅延を考慮した最適VM配置法,電子情報通信学会技術研究報告 ,一般社団法人電子情報通信学会,2017年02月23日,Vol.116 No.484,pp.99-104
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
G06F 9/455
G06F 9/50
(57)【特許請求の範囲】
【請求項1】
複数の物理マシンに対するメンテナンスの実施期間を取得すると、前記実施期間を複数の単位期間に分割し、
前記複数の物理マシンそれぞれを、複数の物理マシングループのいずれかに割り当てる割り当て対象物理マシンとして選択し、
前記複数の物理マシンおよび前記複数の物理マシンで動作する複数の仮想マシンに関する構成情報、ならびに前記複数の仮想マシンそれぞれを異なる物理マシンへ移動させるのに要する移動所要時間および前記複数の物理マシンそれぞれのメンテナンス作業に要するメンテナンス所要時間を示す時間情報に基づいて、選択した前記割り当て対象物理マシンの割り当て後に、前記複数の単位期間のうちの1以上の単位期間内に、所定の制約条件を充足して、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との実施が可能な物理マシングループに、前記割り当て対象物理マシンを割り当て、
前記構成情報と前記時間情報とに基づいて、前記複数の物理マシングループそれぞれについて、前記複数の単位期間のうちの一単位期間内での、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との、少なくとも前記制約条件を充足した作業実施期間を示す個別スケジュール情報を作成し、
前記複数の物理マシングループそれぞれについて作成した前記個別スケジュール情報を統合した全体スケジュール情報を出力する、
処理をコンピュータに実行させるスケジューリングプログラム。
【請求項2】
前記割り当て対象物理マシンの割り当てでは、前記複数の物理マシンの割り当て後に、前記複数の物理マシングループそれぞれが前記複数の単位期間のうちの1以上の単位期間において前記制約条件を充足可能となる、最少数の前記複数の物理マシングループに、前記割り当て対象物理マシンの割り当てを行う、請求項1記載のスケジューリングプログラム。
【請求項3】
前記割り当て対象物理マシンの割り当てでは、所定数の仮の物理マシングループを生成し、前記複数の物理マシンすべてについていずれかの前記仮の物理マシングループに割り当てたときに前記制約条件が充足可能か否かを判断し、充足不可能と判断すると前記仮の物理マシングループの数を増加させ、前記制約条件を充足可能か否かの判断と、充足不可能な場合の前記仮の物理マシングループの数の増加とを繰り返し、前記制約条件を充足可能と判断した前記仮の物理マシングループを前記複数の物理マシングループとする、請求項2記載のスケジューリングプログラム。
【請求項4】
前記割り当て対象物理マシンの割り当てでは、選択した前記割り当て対象物理マシンの割り当て後に、前記複数の単位期間のうちの1以上の単位期間内に、所定の制約条件を充足して、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との実施が可能な物理マシングループが複数検出された場合、検出された物理マシングループの中から所定の基準に従って特定した物理マシングループに前記割り当て対象物理マシンを割り当てる、請求項1ないし3のいずれかに記載のスケジューリングプログラム。
【請求項5】
ユーザが使用する使用仮想マシンの移動を回避する回避時間帯または前記使用仮想マシンの移動を許容する許容時間帯を取得し、前記回避時間帯または前記許容時間帯に基づいて、前記使用仮想マシンを移動させない移動回避時間帯を決定し、前記移動回避時間帯を避けて前記使用仮想マシンを移動させるという移動時間帯制約を前記制約条件に含める、処理を前記コンピュータにさらに実行させる請求項1ないし4のいずれかに記載のスケジューリングプログラム。
【請求項6】
前記複数の物理マシンの選択では、動作している前記使用仮想マシンの少なくとも1つで前記移動回避時間帯となる移動実施回避時間帯の時間が長い物理マシンほど先に前記割り当て対象物理マシンとして選択する、請求項5記載のスケジューリングプログラム。
【請求項7】
コンピュータが、
複数の物理マシンに対するメンテナンスの実施期間を取得すると、前記実施期間を複数の単位期間に分割し、
前記複数の物理マシンそれぞれを、複数の物理マシングループのいずれかに割り当てる割り当て対象物理マシンとして選択し、
前記複数の物理マシンおよび前記複数の物理マシンで動作する複数の仮想マシンに関する構成情報、ならびに前記複数の仮想マシンそれぞれを異なる物理マシンへ移動させるのに要する移動所要時間および前記複数の物理マシンそれぞれのメンテナンス作業に要するメンテナンス所要時間を示す時間情報に基づいて、選択した前記割り当て対象物理マシンの割り当て後に、前記複数の単位期間のうちの1以上の単位期間内に、所定の制約条件を充足して、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との実施が可能な物理マシングループに、前記割り当て対象物理マシンを割り当て、
前記構成情報と前記時間情報とに基づいて、前記複数の物理マシングループそれぞれについて、前記複数の単位期間のうちの一単位期間内での、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との、少なくとも前記制約条件を充足した作業実施期間を示す個別スケジュール情報を作成し、
前記複数の物理マシングループそれぞれについて作成した前記個別スケジュール情報を統合した全体スケジュール情報を出力する、
スケジューリング方法。
【請求項8】
複数の物理マシンおよび前記複数の物理マシンで動作する複数の仮想マシンに関する構成情報、ならびに前記複数の仮想マシンそれぞれを異なる物理マシンへ移動させるのに要する移動所要時間および前記複数の物理マシンそれぞれのメンテナンス作業に要するメンテナンス所要時間を示す時間情報を記憶する記憶部と、
前記複数の物理マシンに対するメンテナンスの実施期間を取得すると、前記実施期間を複数の単位期間に分割し、前記複数の物理マシンそれぞれを、複数の物理マシングループのいずれかに割り当てる割り当て対象物理マシンとして選択し、前記構成情報と前記時間情報とに基づいて、選択した前記割り当て対象物理マシンの割り当て後に、前記複数の単位期間のうちの1以上の単位期間内に、所定の制約条件を充足して、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との実施が可能な物理マシングループに、前記割り当て対象物理マシンを割り当て、前記構成情報と前記時間情報とに基づいて、前記複数の物理マシングループそれぞれについて、前記複数の単位期間のうちの一単位期間内での、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との、少なくとも前記制約条件を充足した作業実施期間を示す個別スケジュール情報を作成し、前記複数の物理マシングループそれぞれについて作成した前記個別スケジュール情報を統合した全体スケジュール情報を出力する処理部と、
を有するスケジューリング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スケジューリングプログラム、スケジューリング方法、およびスケジューリング装置に関する。
【背景技術】
【0002】
情報処理の分野では、物理的なコンピュータ(物理マシンや物理ホストと呼ぶことがある)上で、複数の仮想的なコンピュータ(仮想マシンや仮想ホストと呼ぶことがある)を動作させる仮想化技術が利用されている。各仮想マシン上では、OS(Operating System)などのソフトウェアを実行できる。仮想化技術を利用する物理マシンは、複数の仮想マシンを管理するためのソフトウェアを実行する。例えば、ハイパーバイザと呼ばれるソフトウェアが、CPU(Central Processing Unit)の処理能力やRAM(Random Access Memory)の記憶領域を、演算のリソースとして複数の仮想マシンに割り振ることがある。
【0003】
複数の物理マシンを含むシステムには、仮想マシンを実行する物理マシンを変更できるものがある。例えば、仮想マシンを終了させてから、あるいは終了させずに、ハイパーバイザ間で仮想マシンに関するデータの移動を可能とする技術が用いられている。このように仮想マシンを移動される処理は、マイグレーションと呼ばれる。仮想マシンのマイグレーションは、例えば物理マシンのメンテナンスの際に実行される。すなわち、メンテナンス中の物理マシンは運用を停止させることになるため、運用者は、メンテナンス対象の物理マシンで実行されている仮想マシンを他の物理マシンに移動させた後、その物理マシンのメンテナンス作業を行う。
【0004】
物理マシン上で実行されている仮想マシンを移動させる際は、移動時期や移動先について、様々な制約条件がある。例えば移動中の仮想マシンは性能が低下するため、仮想マシンの移動時期は、仮想マシンの負荷の低い期間内に限られる。また仮想マシンの移動先の物理マシンは、移動対象の仮想マシンに対して十分なリソースを割り当て可能な物理マシンに限られる。システムの運用者は、仮想マシンの移動に関する様々な制約条件を満たすように、すべての物理マシンのメンテナンススケジュールを立てることとなる。
【0005】
メンテナンスのスケジューリングは、コンピュータに行わせることも可能である。例えばシステムの運用者は、メンテナンススケジューリング用のスケジューラに、システム構成や仮想マシンの動作状況や、1台の物理マシンのメンテナンスに要する時間などの情報を入力する。すると、スケジューラが制約条件を満たすメンテナンススケジュールを出力する。
【0006】
仮想マシンのマイグレーションに関する技術としては、例えば、リソース使用量が不足すると予測された物理サーバが今後動作不安定になることを抑制する仮想マシン移動制御方法が提案されている。
【0007】
また、ユーザが仮想ホストの移動予定日を入力した場合に、その移動予定日が、メンテナンス予定日よりも後の場合に、再度移動予定日を修正するよう要請し、移動予定日に仮想ホストを、移動先サーバ機器へ移動予約するメンテナンス管理装置も提案されている。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2014-006739号公報
【文献】特開2015-161956号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
クラウドコンピューティングシステムの実行基盤(インフラ(infrastructure))は多数の物理マシンを含んでおり、複数の物理マシン上で複数の仮想マシンが実行されている。そのため物理マシンのメンテナンススケジューリングを行うには、非常に複雑で大規模な問題をコンピュータで解くことになる。このような大規模な問題は、計算時間や使用メモリ量の観点から、従来の技術では求解が困難である。
【0010】
1つの側面では、本発明は、メンテナンスのスケジューリングを短時間で実行できるようにすることを目的とする。
【課題を解決するための手段】
【0011】
1つの態様では、スケジューリングプログラムが提供される。スケジューリングプログラムに基づいて、コンピュータは以下の処理を実行する。
コンピュータは、複数の物理マシンに対するメンテナンスの実施期間を取得すると、実施期間を複数の単位期間に分割する。次にコンピュータは、複数の物理マシンそれぞれを、複数の物理マシングループのいずれかに割り当てる割り当て対象物理マシンとして選択する。次にコンピュータは、複数の物理マシンおよび複数の物理マシンで動作する複数の仮想マシンに関する構成情報、ならびに複数の仮想マシンそれぞれを異なる物理マシンへ移動させるのに要する移動所要時間および複数の物理マシンそれぞれのメンテナンス作業に要するメンテナンス所要時間を示す時間情報に基づいて、選択した割り当て対象物理マシンの割り当て後に、複数の単位期間のうちの1以上の単位期間内に、所定の制約条件を充足して、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との実施が可能な物理マシングループに、割り当て対象物理マシンを割り当てる。次にコンピュータは、構成情報と時間情報とに基づいて、複数の物理マシングループそれぞれについて、複数の単位期間のうちの一単位期間内での、割り当てられた物理マシンで動作している仮想マシンの移動と割り当てられた物理マシンのメンテナンス作業との、制約条件を充足した作業実施期間を示す個別スケジュール情報を作成する。そしてコンピュータは、複数の物理マシングループそれぞれについて作成した個別スケジュール情報を統合した全体スケジュール情報を出力する。
【発明の効果】
【0012】
1態様によれば、メンテナンスのスケジューリングが短時間で実行可能となる。
【図面の簡単な説明】
【0013】
図1】第1の実施の形態の情報処理システムを示す図である。
図2】メンテナンスのスケジュール作成例を示す図である。
図3】第2の実施の形態の情報処理システムの一例を示す図である。
図4】管理サーバのハードウェア例を示す図である。
図5】ライブマイグレーションの例を示す図である。
図6】メンテナンスのスケジュールの一例を示す図である。
図7】メンテナンスのスケジューリングへの分割統治法の適用方法を示す図である。
図8】物理マシン集合と時刻集合との分割例を示す図である。
図9】時刻グループに対応する期間内の作業期間の区分けを示す図である。
図10】部分問題ごとの制約を充足するスケジュールの求解結果の一例を示す図である。
図11】解の統合例を示す図である。
図12】物理マシン集合の分割数と問題の性質との関係を示す図である。
図13】時刻集合の分割数と問題の性質との関係を示す図である。
図14】LM回避時間帯の一例を示す図である。
図15】LM回避時間帯を考慮した部分問題の求解例を示す図である。
図16】時刻集合の分割数の決定例を示す図である。
図17】容量の決定例を示す図である。
図18】物理マシンの割り当て先の決定例を示す図である。
図19】物理マシン集合の分割数の理論下限値と物理マシングループ数との関係を示す図である。
図20】管理サーバの機能例を示す図である。
図21】メンテナンス実施期間情報の例を示す図である。
図22】メンテナンス対象マシン情報の例を示す図である。
図23】物理マシン構成テーブルの例を示す図である。
図24】仮想マシン構成テーブルの例を示す図である。
図25】仮想マシン稼働テーブルの例を示す図である。
図26】依存関係テーブルの例を示す図である。
図27】anti-affinityルールのグラフ彩色問題への適用例を示す図である。
図28】LM所要時間テーブルの例を示す図である。
図29】LM実施回避日時情報の例を示す図である。
図30】時刻グループ情報の例を示す図である。
図31】物理マシングループ情報の例を示す図である。
図32】メンテナンススケジュールテーブルの例を示す図である。
図33】LMスケジュールテーブルの例を示す図である。
図34】管理サーバの処理例を示すフローチャートである。
図35】日程調整例を示すフローチャートである。
図36】グループ生成例を示すフローチャートの前半である。
図37】グループ生成例を示すフローチャートの後半である。
図38】物理マシンの割り当て例を示すフローチャートの前半である。
図39】物理マシンの割り当て例を示すフローチャートの後半である。
図40】生成する部分問題を説明する図である。
図41】部分問題生成例を示すフローチャートである。
図42】部分問題求解例を示すフローチャートである。
図43】スケジュール生成例を示すフローチャートである。
図44】LM実施回避日時設定画面の例を示す図である。
図45】利用者に対するLMスケジュール画面の例を示す図である。
図46】運用者に対するメンテナンススケジュール画面の例を示す図である。
図47】運用者に対するメンテナンススケジュール詳細表示画面の例を示す図である。
図48】物理マシン集合の分割数を多くした場合のメンテナンススケジュール画面の例(比較例)である。
【発明を実施するための形態】
【0014】
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
図1は、第1の実施の形態の情報処理システムを示す図である。第1の実施の形態の情報処理システムは、スケジューリング装置1および物理マシン2,3,4,・・・を有する。スケジューリング装置1および物理マシン2,3,4,・・・はネットワークN1に接続されている。スケジューリング装置1は、物理マシン2,3,4,・・・における仮想マシンの移動および物理マシン2,3,4,・・・のメンテナンス作業のスケジュールを作成する。物理マシン2,3,4,・・・それぞれは、CPUやメモリなどの演算リソースを有し、演算リソースを用いて仮想マシンを実行する。例えば、物理マシン2,3,4,・・・それぞれは、ハイパーバイザを実行し、ハイパーバイザの機能により、仮想マシンに対する演算リソースの割り当てを行う。ここで、物理マシンをPM(Physical Machine)と略記することがある。仮想マシンをVM(Virtual Machine)と略記することがある。
【0015】
ネットワークN1には、端末装置5も接続されている。端末装置5は、システムの運用および管理を行う運用者U1によって利用されるクライアントである。端末装置5は、インターネットなどの他のネットワークを介してネットワークN1に接続されてもよい。
【0016】
物理マシン2,3,4,・・・は、自物理マシンで動作する仮想マシンを他の物理マシンに移動させる機能を有する。例えば、物理マシン2,3,4,・・・はライブマイグレーションと呼ばれる技術を用いて仮想マシンの移動を行う。ライブマイグレーションでは、移動対象の仮想マシンに割り当てられた移動元の物理マシンのCPUリソースやメモリリソースの情報を移動先の物理マシンにコピーすることで、仮想マシンの起動状態を保ったまま仮想マシンを移動させる。あるいは、仮想マシンを移動させる技術として、仮想マシンを停止してから該当の仮想マシンの情報を移動先の物理マシンにコピーするコールドマイグレーションを用いることもできる。
【0017】
システムの運用では、仮想マシンを実現するためのインフラである物理マシンに対するセキュリティパッチの適用やOSのアップグレードなどのメンテナンスが行われることがある。物理マシンのメンテナンスには、物理マシンの停止を伴うことが多い。物理マシンを停止させる場合、当該物理マシン上の仮想マシンも停止させることになり、仮想マシンを利用できなくなってしまう。
【0018】
そこで、物理マシンのメンテナンスの前に、メンテナンス対象の物理マシン上の仮想マシンを別の物理マシンに移動させることで、メンテナンスによる仮想マシン利用への影響を軽減しながら、メンテナンス対象の物理マシンのメンテナンスを行うことがある。スケジューリング装置1は、そのための仮想マシンの移動およびメンテナンス作業のスケジュールの作成を支援する。スケジューリング装置1は、記憶部1aおよび処理部1bを有する。
【0019】
記憶部1aは、RAMなどの揮発性記憶装置でもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性記憶装置でもよい。処理部1bは、CPU、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを含み得る。処理部1bはプログラムを実行するプロセッサでもよい。プロセッサは、複数のプロセッサの集合(マルチプロセッサ)も含み得る。
【0020】
記憶部1aは、物理マシンおよび物理マシンで動作する仮想マシンに関する構成情報D1を記憶する。構成情報D1は、インフラに関する情報を含む。例えば、構成情報D1は、物理マシンの構成を示す物理マシン構成情報d1と仮想マシンの構成を示す仮想マシン構成情報d2とを含む。
【0021】
ここで、一例として、物理マシン2,3,4および仮想マシン2a,2b,3a,3b,4a,4bの識別情報を次の通りとする。物理マシン2の識別情報は“PM1”である。物理マシン3の識別情報は“PM2”である。物理マシン4の識別情報は“PM3”である。仮想マシン2aの識別情報は“VM1”である。仮想マシン2bの識別情報は“VM2”である。仮想マシン3aの識別情報は“VM3”である。仮想マシン3bの識別情報は“VM4”である。仮想マシン4aの識別情報は“VM5”である。仮想マシン4bの識別情報は“VM6”である。
【0022】
物理マシン構成情報d1は、各物理マシンが備えるCPUコア数、メモリ容量およびディスク容量の情報を含む。具体的には、物理マシン構成情報d1には、物理マシン2(識別情報“PM1”)に対して、CPUコア数“64”個、メモリ容量“256GB(Giga Bytes)”、ディスク容量“32TB(Tera Bytes)”というレコードが登録されている。物理マシン構成情報d1には、他の物理マシンに対しても同様のレコードが登録される。
【0023】
仮想マシン構成情報d2は、各仮想マシンに割り当てるCPUコア数、メモリ容量、ディスク容量および当該仮想マシンの現配置(現在の配置先の物理マシン)の情報を含む。具体的には、仮想マシン構成情報d2には、仮想マシン2a(識別情報“VM1”)に対して、CPUコア数“2”個、メモリ容量“32GB”、ディスク容量“2TB”、現配置“PM1”(物理マシン2)というレコードが登録されている。仮想マシン構成情報d2には、他の仮想マシンに対しても同様のレコードが登録される。
【0024】
記憶部1aは、メンテナンス作業に要する時間を示す時間情報D2を記憶する。例えば時間情報D2は、物理マシンから他の物理マシンへの仮想マシンの移動の所要時間を示す仮想マシン時間情報d3と、物理マシンのメンテナンス作業の所要時間を示す物理マシン時間情報d4とを含む。
【0025】
仮想マシン時間情報d3には、仮想マシンの識別情報に対応付けて、その仮想マシンの移動に要する時間(移動所要時間)が登録されている。移動所要時間は、例えば過去に仮想マシンを移動させたときに要した時間から求められた値である。
【0026】
物理マシン時間情報d4には、物理マシンの識別情報に対応付けて、その物理マシンのメンテナンス作業に要する時間(メンテナンス所要時間)が登録されている。メンテナンス所要時間は、例えばシステムの運用者が、メンテナンスの作業内容に応じて設定した値である。
【0027】
さらに記憶部1aは、割り当てられた物理マシンで動作している仮想マシンの移動と、被割り当て物理マシンのメンテナンス作業とに関する制約を示す制約条件D3を記憶する。制約条件D3には、例えば、ある物理マシン上の仮想マシンの所要リソースの合計が、当該物理マシンのリソースを上回らないという制約が含まれる。また制約条件D3には、例えば、仮想マシンのユーザから、その仮想マシンの移動を回避する回避時間帯が入力された場合、回避時間帯内にはその仮想マシンを移動させないという制約(移動時間帯制約)が含まれる。
【0028】
図2は、メンテナンスのスケジュール作成例を示す図である。スケジューリング装置1は、メンテナンス実施期間が入力されると、メンテナンスのスケジュールの作成処理を開始する。例えば運用者U1が端末装置5にメンテナンス実施期間を入力する。端末装置5は、入力されたメンテナンスの実施期間をスケジューリング装置1に送信する。
【0029】
スケジューリング装置1の処理部1bは、複数の物理マシン2,3,4,・・・を含む物理マシン集合に対するメンテナンスの実施期間を取得すると、実施期間を複数の単位期間に分割する。例えば処理部1bは、数日間あるいは数週間の実施期間が指定されたとき、その実施期間を1日ごとの単位期間に分割する。処理部1bは、実施期間内の所定間隔の時刻(例えば1分ごとの時刻)を、仮想マシンの移動の実施期間(開始時刻と終了時刻)やメンテナンス作業の実施期間(開始時刻と終了時刻)を示す単位とする。各単位期間は、実施期間の指定に用いる時刻が複数含まれる。そのため、単位期間を、複数の時刻の集合である時刻グループと言い換えることもできる。図2の例では、処理部1bは、メンテナンスの実施期間を5つの単位期間(τ0,τ1,τ2,τ3,τ4)に分割している。
【0030】
次に処理部1bは、物理マシン集合を、その物理マシン集合の部分集合である複数の物理マシングループに分割する。各物理マシングループには、その物理マシングループに割り当てられた物理マシンが含まれる。
【0031】
例えば処理部1bは、複数の物理マシンそれぞれを割り当て対象物理マシンとする。次に処理部1bは、複数の物理マシングループのうち、割り当て対象物理マシンの割り当て後に、複数の単位期間のうちの1以上の単位期間において、制約条件D3を充足可能な物理マシングループに、割り当て対象物理マシンを割り当てる。すべての物理マシンの割り当てが完了すると、物理マシン集合が複数の物理マシングループに分割されたこととなる。図2の例では、処理部1bは、物理マシン集合を4つの物理マシングループ(g0,g1,g2,g3)に分割している。
【0032】
処理部1bは、物理マシン集合を分割する場合、1つの物理マシングループには空き物理マシンのみを割り当てる。空き物理マシンとは、仮想マシンが動作していない物理マシンである。処理部1bは、例えば物理マシン集合のなかから空き物理マシンを調査し、空き物理マシンの一部を1つの物理マシングループに割り当てる。図2の例では、物理マシングループ“g0”に、識別情報“PM7”、“PM8”の空き物理マシンが割り当てられている。
【0033】
処理部1bは、仮想マシンが動作している物理マシンを、残りの物理マシングループ(g1,g2,g3)のうち、1以上の単位期間において制約条件D3を満たす物理マシングループに割り当てる。なおメンテナンスの実施期間内の最先の単位期間τ0については、空の物理マシンのみを含む物理マシングループg0のメンテナンス作業を行うこととなる。そのため処理部1bは、他の物理マシングループ(g1,g2,g3)のうち、2番目以降の単位期間(τ1,τ2,τ3,τ4)の少なくとも1つの単位期間で制約条件を充足可能な物理マシングループを、仮想マシンが動作している物理マシンの割り当て先とする。図2の例では、物理マシングループ“g1”に、識別情報“PM1”、”PM5”の物理マシンが割り当てられている。物理マシングループ“g2”に、識別情報“PM4”、“PM2”の物理マシンが割り当てられている。物理マシングループ“g3”に、識別情報”PM3”、“PM6”の物理マシンが割り当てられている。
【0034】
なお処理部1bは、物理マシン集合の分割数(物理マシングループの数)として、可能な限り少ない数とすることができる。この場合、処理部1bは、複数の物理マシンの割り当て後に、複数の物理マシングループそれぞれが、複数の単位期間のうちの1以上の単位期間において制約条件を充足可能となる、最少の数の複数の物理マシングループに、物理マシン集合を分割する。
【0035】
例えば処理部1bは、まず所定数の仮の物理マシングループを生成し、複数の物理マシンすべてについていずれかの仮の物理マシングループに割り当てたときに制約条件が充足可能か否かを判断する。ここで充足不可能と判断すると、処理部1bは、仮の物理マシングループの数を増加させ、制約条件を充足可能か否かの判断と、充足不可能な場合の仮の物理マシングループの数の増加とを繰り返す。そして処理部1bは、制約条件を充足可能と最初に判断したときの仮の物理マシングループを複数の物理マシングループとする。
【0036】
なお、最初に生成する仮の物理マシングループの数は、例えば空き物理マシンのリソース量に基づく理論上の最小値である。処理部1bは、仮想マシンが稼働している物理マシンのリソース量の合計を、空き物理マシンのリソース量の合計で除算し、余りを切り上げた値を理論上の最小値とする。
【0037】
物理マシングループの数を可能な限り少なくすることで、単位期間あたりにメンテナンス作業を実施できる物理マシンの数が増加し、全体のメンテナンス作業に要する期間を短縮できる。
【0038】
物理マシン集合の分割が完了すると、処理部1bは、複数の物理マシングループそれぞれについて、制約条件D3を充足可能である制約充足単位期間を特定する。そして処理部1bは、制約充足単位期間における、被割り当て物理マシンで動作している稼動中仮想マシンの移動と被割り当て物理マシンのメンテナンス作業との作業実施期間を示す個別スケジュール情報を作成する。このような物理マシングループに関する単位期間ごとの個別スケジュール情報を作成することは、システム全体のスケジューリング問題に対する部分問題の求解である。
【0039】
なお処理部1bは、各物理マシングループについて、一部の単位期間の部分問題を求解すればよい。例えば処理部1bは、物理マシングループ間で求解する部分問題の単位期間が重複しないようにして、複数の物理マシングループそれぞれについて、求解する部分問題を1つずつ選択する。このとき、物理マシン集合の分割の際に、制約条件を満足できないことが判明している単位期間については、部分問題の求解の対象から除外される。
【0040】
具体的には、処理部1bは、空の物理マシンのみを含む物理マシングループg0については、メンテナンスの実施期間内の最先の単位期間τ0に対応する部分問題を、求解対象とする。処理部1bは、その他の物理マシングループ(g1,g2,g3)については、可能な限り早い時間帯の単位期間に対応する部分問題を、求解対象とする。これにより、メンテナンスに要する期間を短縮できる。
【0041】
処理部1bは、複数の物理マシングループごとの部分問題の求解が終了すると、複数の物理マシンで動作している複数の仮想マシンそれぞれの移動と複数の物理マシンそれぞれのメンテナンス作業との作業実施期間を示す全体スケジュール情報6を作成する。例えば処理部1bは、複数の物理マシングループそれぞれについて作成した個別スケジュール情報を統合して、全体スケジュール情報6を作成する。
【0042】
処理部1bは、生成した全体スケジュール情報6を、例えば運用者U1が使用する端末装置5に送信する。端末装置5は、受信した全体スケジュール情報6の内容をモニタに表示する。これにより、運用者U1は、メンテナンスのスケジュールを把握することができる。
【0043】
このようにスケジューリング装置1は、メンテナンスのスケジューリングに関する問題を分割問題に細分化して、物理マシングループごとの分割問題ごとに求解し、求解結果を統合することで全体スケジュール情報6を生成している。部分問題に分けたことで、スケジューリングの処理負荷が軽減され、メンテナンスのスケジュールを短時間で作成可能となる。
【0044】
しかもスケジューリング装置1は、物理マシン集合を分割する際の分割数を、分割可能な最少の数とすることができる。これにより、単位期間あたりにメンテナンスできる物理マシン数が増加し、メンテナンス全体の期間が短縮される。
【0045】
割り当て対象物理マシンの割り当てにおいて、スケジューリング装置1は、割り当て可能な物理マシングループを複数検出できる場合がある。この場合、スケジューリング装置1は、割り当て可能な物理マシングループの中から、所定の基準に従って特定した物理マシングループに割り当て対象物理マシンを割り当ててもよい。例えばスケジューリング装置1は、割り当て可能な物理マシングループのうち、空き容量が最小の物理マシングループに、割り当て対象物理マシンを割り当てる。
【0046】
なお制約条件D3には、ユーザ指定により仮想マシンの移動時間を制約する移動時間帯制約を含めることができる。例えば処理部1bは、ユーザにより入力された移動を回避する回避時間帯または移動を許容する許容時間帯を取得する。処理部1bは、回避時間帯または許容時間帯に基づいて、ユーザが使用する使用仮想マシンを移動させない移動回避時間帯を決定する。そして処理部1bは、移動回避時間帯を避けて使用仮想マシンを移動させるという移動時間帯制約を制約条件D3に含める。
【0047】
移動時間帯制約がある場合、処理部1bは、例えば一物理マシンで動作している仮想マシンの少なくとも1つで移動回避時間帯となる時間帯を、一物理マシンに対して仮想マシンの移動作業を行うことができない移動実施回避時間帯に決定する。そして処理部1bは、同一物理マシングループに割り当てられた物理マシンそれぞれの移動実施回避時間帯に基づいて、移動時間帯制約が充足するか否かを判断する。
【0048】
また処理部1bは、物理マシン集合の分割の際に、移動実施回避時間帯の時間が長い物理マシンほど先に割り当て対象物理マシンとして、複数の物理マシングループのいずれかに割り当てる。これにより、割り当て先の制限が厳しい物理マシンを優先的に物理マシングループに割り当てることができ、すべての物理マシンに対して割り当て先の物理マシングループを決定できる可能性が高くなる。その結果、物理マシン集合を、より少ない数の物理マシングループに分割できる。
【0049】
スケジューリング装置1は、メンテナンスのスケジューリング問題を複数の部分問題に分割して求解している。そのためスケジューリングの際の計算量が削減され、短時間でスケジュールを作成することができる。
【0050】
しかも、スケジューリング装置1は、物理マシングループの数を可能な限り少なくしている。そのため短い期間でメンテナンスを完了可能な適切なスケジュールを作成することができる。
【0051】
〔第2の実施の形態〕
次に第2の実施の形態について説明する。第2の実施の形態は、仮想マシンの利用者により指定された期間内はその仮想マシンを移動させないという制約条件を含め、様々な制約条件を満たす、メンテナンスの適切なスケジューリングを短時間で実行可能とするものである。
【0052】
図3は、第2の実施の形態の情報処理システムの一例を示す図である。第2の実施の形態の情報処理システムは、管理サーバ100、物理マシン200,300,400,・・・を有する。管理サーバ100および物理マシン200,300,400,・・・は、ネットワーク10に接続されている。ネットワーク10は、例えば、LAN(Local Area Network)である。ネットワーク10は、ネットワーク20に接続されている。ネットワーク20は、ネットワーク10の外部のネットワークであり、例えば、インターネットやWAN(Wide Area Network)などである。ネットワーク20には、利用者端末500,600が接続されている。また、ネットワーク10には運用者端末700が接続されている。
【0053】
ここで、第2の実施の形態の情報処理システムは、IaaS(Infrastructure as a Service)と呼ばれるサービスを提供する。IaaSでは、システムの運用者は、システム上のハードウェア資源をネットワーク経由で複数の利用者(テナント)に提供する。システムの利用者は、提供されるハードウェア資源を用いて、仮想マシンを構築し、当該仮想マシン上で種々の業務アプリケーションを利用する。
【0054】
システムの運用者は、システムのインフラ(物理マシン、ネットワーク機器など)を運用しており、各装置の動作状況の監視および保守を行う。例えば運用者は、サービスの品質を維持するために、インフラ側のメンテナンス(例えば、物理マシン200,300,400,・・・に対するセキュリティパッチの適用やOSのアップグレードなど)を行う。そこで、物理マシンに対してメンテナンスを行う前に、該当の物理マシン上で動作中の仮想マシンを別の物理マシンに移動する処理が行われる。第2の実施の形態の例では、仮想マシンの移動に、ライブマイグレーションの技術が利用される(ただし、仮想マシンの移動に、コールドマイグレーションを用いてもよい)。
【0055】
管理サーバ100は、物理マシン200,300,400,・・・における仮想マシンのメンテナンスのスケジュールを管理するサーバコンピュータである。管理サーバ100は、メンテナンス対象の物理マシンおよびメンテナンスの実施期間が入力されると、メンテナンス対象の物理マシン上で動作する仮想マシンのライブマイグレーションおよびメンテナンス作業のスケジュールを作成する。管理サーバ100は、作成したスケジュールを、利用者端末500,600や運用者端末700に送信する。また、管理サーバ100は、作成したスケジュールが確定されると、確定されたスケジュールに従って、メンテナンス対象の物理マシンに仮想マシンのライブマイグレーションを指示する。管理サーバ100は、第1の実施の形態のスケジューリング装置1の一例である。
【0056】
物理マシン200,300,400,・・・は、それぞれがCPUやメモリなどの演算リソースを有し、演算リソースを用いて仮想マシンを実行するサーバコンピュータである。例えば、物理マシン200,300,400,・・・それぞれは、ハイパーバイザを実行し、ハイパーバイザの機能により、仮想マシンに対する演算リソースの割り当てを行う。物理マシン200,300,400,・・・は、第1の実施の形態の物理マシン2,3,4,・・・の一例である。
【0057】
利用者端末500,600は、利用者によって利用されるクライアントコンピュータである。利用者端末500,600は、異なる利用者によって利用される。各利用者は、利用者端末500,600を操作して、物理マシン200,300,400,・・・上の仮想マシンを利用する。利用者端末500の利用者は、利用者端末500を用いて、管理サーバ100により提供されるライブマイグレーション(自身が利用する仮想マシンについてのライブマイグレーション)のスケジュールを確認することもある。利用者端末600の利用者も同様に、利用者端末600を用いて、管理サーバ100により提供されるライブマイグレーションのスケジュールを確認することもある。利用者端末500,600は、第1の実施の形態の端末装置5の一例である。
【0058】
運用者端末700は、第2の実施の形態の情報処理システムの運用者(システム管理者)によって利用されるクライアントコンピュータである。運用者は、運用者端末700を用いて、管理サーバ100により提供される物理マシンのメンテナンスのスケジュールやメンテナンスに伴うライブマイグレーションのスケジュールを確認する。
【0059】
図4は、管理サーバのハードウェア例を示す図である。管理サーバ100は、プロセッサ101、RAM102、HDD103、画像信号処理部104、入力信号処理部105、媒体リーダ106およびNIC(Network Interface Card)107を有する。各ハードウェアは管理サーバ100のバスに接続されている。
【0060】
プロセッサ101は、管理サーバ100の情報処理を制御するハードウェアである。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU、DSP、ASICまたはFPGAなどである。プロセッサ101は、CPU、DSP、ASIC、FPGAなどのうちの2以上の要素の組み合わせであってもよい。
【0061】
RAM102は、管理サーバ100の主記憶装置である。RAM102は、プロセッサ101に実行させるOSのプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、RAM102は、プロセッサ101による処理に用いる各種データを記憶する。
【0062】
HDD103は、管理サーバ100の補助記憶装置である。HDD103は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、OSのプログラム、アプリケーションプログラム、および各種データを記憶する。管理サーバ100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の補助記憶装置を備えてもよく、複数の補助記憶装置を備えてもよい。
【0063】
画像信号処理部104は、プロセッサ101からの命令に従って、管理サーバ100に接続されたディスプレイ11に画像を出力する。ディスプレイ11として、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどを用いることができる。
【0064】
入力信号処理部105は、管理サーバ100に接続された入力デバイス12から入力信号を取得し、プロセッサ101に出力する。入力デバイス12として、例えば、マウスやタッチパネルなどのポインティングデバイス、キーボードなどを用いることができる。
【0065】
媒体リーダ106は、記録媒体13に記録されたプログラムやデータを読み取る装置である。記録媒体13として、例えば、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスク(MO:Magneto-Optical disk)を使用できる。また、記録媒体13として、例えば、フラッシュメモリカードなどの不揮発性の半導体メモリを使用することもできる。媒体リーダ106は、例えば、プロセッサ101からの命令に従って、記録媒体13から読み取ったプログラムやデータをRAM102またはHDD103に格納する。
【0066】
NIC107は、ネットワーク10を介して他の装置と通信を行う。NIC107は、有線通信インタフェースでもよいし、無線通信インタフェースでもよい。
管理サーバ100は、以上のようなハードウェア構成によって、第2の実施の形態の処理機能を実現することができる。物理マシン200,300,400,・・・、利用者端末500,600および運用者端末700も管理サーバ100と同様のハードウェアを用いて実現できる。第1の実施の形態に示したスケジューリング装置1も、図4に示した管理サーバ100と同様のハードウェアにより実現することができる。
【0067】
ここで、図3に示したシステムにおける物理マシン200,300,400のメンテナンスを実施する場合を想定する。サービスの品質を維持するために、インフラ側のメンテナンスは重要である。メンテナンスの作業内容は、例えば、物理マシン200,300,400へのセキュリティパッチの適用、劣化した機器の交換などである。
【0068】
個々の物理マシンに対しては、運用者は以下の流れに従ってメンテナンス作業を実施する。
(1)メンテナンス対象の物理マシン上で動作している仮想マシンを、メンテナンス済みの物理マシンにライブマイグレーションで移動させる。(2)空いた物理マシンに対してメンテナンス作業を実施する。
【0069】
図5は、ライブマイグレーションの例を示す図である。図5の例では、物理マシン300はメンテナンス済みであり、物理マシン200がメンテナンス対象である。物理マシン200,300は、それぞれハイパーバイザ210,310を有している。ハイパーバイザ210,310が、仮想マシンへのリソースの割り当てを行う。例えば物理マシン200のメンテナンス前は、物理マシン200は、ハイパーバイザ210および仮想マシン211,212を有している。物理マシン200のハイパーバイザ210は、物理マシン200が備えるCPUやメモリといったハードウェアのリソースを仮想マシン211,212に割り当てている。
【0070】
例えば、物理マシン200から物理マシン300に仮想マシン211,212を移動する場合を想定する。移動をライブマイグレーションにより実施する場合、次のような手順を採ることが考えられる。
【0071】
(1)物理マシン300上で移動対象の仮想マシン212用のCPU/メモリリソースを予約する。(2)物理マシン200で移動対象の仮想マシン212に割り当てられているメモリリソースのデータを、物理マシン300で当該仮想マシン212用に新たに割り当てたメモリリソースにコピーする。(3)物理マシン200から物理マシン300へ仮想マシン212に割り当てていたCPUリソースの状態をコピーし、物理マシン200で仮想マシン212を停止させる。(4)物理マシン300で仮想マシン212を再開し、物理マシン200で仮想マシン212に割り当てていたリソースを解放する。これにより、物理マシン200上で稼働している仮想マシン212を、物理マシン300に移動させることができる。上記の手順はPre-Copyと呼ばれることもある。ただし、ライブマイグレーションにはPost-Copyなどの他の手順を用いてもよい。
【0072】
ライブマイグレーションを行うことで、物理マシン200上の仮想マシン211,212を稼働させたまま別の物理マシン300に移動させることができる。仮想マシン211,212の利用者は、仮想マシン211,212を実行している物理マシンが変更されたことを意識せずに処理を継続できる。
【0073】
以下の説明では、ライブマイグレーションを、LM(Live Migration)と略記することがある。
LMで仮想マシン211,212を移動させた後、運用者は、物理マシン200のメンテナンス作業を実施する。システム内のすべての物理マシン200,300,400,・・・全体へのメンテナンスを行う場合、メンテナンス対象の物理マシンを順番に選択し、メンテナンス対象の物理マシンへのLMとメンテナンス作業とを繰り返し行うこととなる。
【0074】
管理サーバ100では、物理マシン200,300,400,・・・それぞれに対して、いつメンテナンスを実行するのかをスケジューリングする。
スケジューリング処理への入力と出力は以下のような情報である。
[入力]
・物理マシン:P={p1,p2,・・・}
・空き物理マシン:Pe⊆P,1≦|Pe
・仮想マシン:V={v1,v2,・・・}
・時刻:T={t1,t2,・・・}
時刻:T={t1,t2,・・・}は、スケジュール対象期間を離散化させたときの、各期間の開始時刻である。なお管理サーバ100は、入力としてスケジュール対象期間を受け付け、管理サーバ100がスケジュール対象期間を離散化させ、時刻T={t1,t2,・・・}を生成してもよい。
[出力]
・物理マシン:メンテナンス作業の開始時刻
・仮想マシン:LMの開始時刻およびLMの移動先
図6は、メンテナンスのスケジュールの一例を示す図である。図6に示すスケジュール31では、横軸に時刻が示されており、縦軸に物理マシンが示されている。そして各物理マシンに対応付けて、仮想マシン稼働中の期間、仮想マシンのLMの実施期間、物理マシンのメンテナンス作業の実施期間が示されている。
【0075】
時刻t1において、物理マシン名「pi」の物理マシンで仮想マシンが実行されていない。そこで管理サーバ100は、まず物理マシン名「pi」の物理マシンに対してメンテナンス作業を実施することを決定する。次に管理サーバ100は、物理マシン名「pi」の物理マシンのメンテナンス作業の終了後、物理マシン名「p1」の物理マシンで実行されているすべての仮想マシンを、物理マシン名「pi」の物理マシンへLMで移動することを決定する。物理マシン名「p1」の物理マシンで実行していたすべての仮想マシンを移動させることで、物理マシン名「p1」の物理マシンは空き物理マシンとなる。そこで管理サーバ100は、LMの完了後に、物理マシン名「p1」の物理マシンに対するメンテナンス作業を実施することを決定する。
【0076】
管理サーバ100は、システム内のすべての物理マシン200,300,400,・・・に対して、メンテナンス作業の実施予定が決定するまで、スケジューリング処理を続ける。管理サーバ100は、スケジューリングに要する時間は、物理マシンおよび仮想マシンの数が多いほど長期化する。
【0077】
ここでスケジューリング対象期間内に、各物理マシンへのメンテナンス作業が1回だけ実施される。スケジューリング対象期間内に、各仮想マシンのLMが1回だけ実施される。そして仮想マシンのLMの移動先の候補は、その仮想マシンの初期配備先以外の物理マシンであり、移動先の候補数は「|P|-1」で表される。なお|P|は、集合Pの要素数を表している。
【0078】
この場合、出力値の候補となり得る場合の数(探索空間の大きさ)は、以下の式で表される。
【0079】
【数1】
【0080】
「(|T|)|P|」が物理マシンのメンテナンス作業の開始時刻についての場合の数であり、「(|T|・(|P|-1))|V|」が、仮想マシンのLM開示時刻および移動先についての場合の数である。
【0081】
図6に示したように、物理マシンに対してメンテナンス作業を実施するには、その物理マシンが空き物理マシンであることが条件となる。また仮想マシンのLMを実施するには、移動先の物理マシンがメンテナンス済みであることが条件となる。これらの条件以外にも、運用者がメンテナンス作業時に守るべき要件がある。このような要件が、メンテナンスのスケジューリングの際の制約となる。なお、制約には、ハード制約とソフト制約とがある。ハード制約は、常に満たすことが求められる制約である。ソフト制約は、できるだけ満たすことが求められる制約である。スケジューリングの解の探索において、ハード制約の少なくとも1つが満たされない場合、充足不能としてスケジューリングは失敗となる。スケジューリングの解の探索において、ソフト制約について満たされなくても、充足不能とはならない。
【0082】
メンテナンスのスケジューリングに適用する制約の例としては、以下のようなものがある。
・「物理マシン上の仮想マシンのリソース量の合計≦その物理マシンのリソース量」であること。
・物理マシンへのLMは、その物理マシンへのメンテナンスが終わった後であること。
・LMを同時並列に実施する物理マシン数が、予め設定した上限値(max_lm)以下であること。
・1台の物理マシン内での並列のLMを禁止すること。
・初期配備先が同じ複数の仮想マシンそれぞれのLMでの移動先は同一であること。
・仮想マシンの利用者が指定した時間帯で、その仮想マシンのLMを回避すること。
【0083】
ここで、利用者がLMを回避する時間帯を指定できることの重要性について説明する。
仮想マシンには、LMの実施を回避すべき時間帯がある。例えば、仮想マシンのメモリ内容が頻繁に変化する時間帯にLMを行うと、LMの所要時間が増大する。またLMであっても、仮想マシンを実行しているCPU状態の転送時には、仮想マシンの動作が一時的に停止する時間(ダウンタイム)が存在する。メモリ内容が頻繁に変化する時間帯にLMを行うと、ダウンタイムが増大する。LM中は仮想マシンの性能が低下するため、所要時間とダウンタイムの増大は、利用者の業務に影響を与える時間の増大を意味する。またLMの所要時間の増大は、物理マシン1台にあたり運用者の作業時間の増大にもつながる。
【0084】
仮想マシンのメモリ内容が頻繁に変化する時間帯は、例えば、仮想マシンの過去の稼働状況から予測されるLMの所要時間に基づいて判定可能である。このような過去の稼働状況に基づく判定は、稼働パターンが周期的な仮想マシンに対して有効となる。また利用者が事前に把握している業務都合(例えば夜間に実施するバッチ処理の有無)に基づいて、仮想マシンのメモリ内容が頻繁に変化する時間帯を判定することもできる。利用者の業務都合は突発的に発生する場合があり、メンテナンスのスケジューリングは、突発的に発生した事態に対応できるように、短時間で実行できることが重要となる。
【0085】
このように、クラウドシステムのインフラに対するメンテナンススケジューリングは非常に複雑で大規模な問題である。そのため、計算時間や使用メモリ量の観点から、組み合わせ最適化問題でよく用いられる0-1整数計画問題などを単純に適用しても、実用可能な時間内での求解は困難である。例えば、物理マシンと仮想マシンとの合計台数が100台から数千台の規模になると、従来の組み合わせ最適化問題の探索手法では解くことができない。
【0086】
そこで管理サーバ100は、分割統治法を用いてメンテナンスのスケジューリングを行う。分割統治法は、そのままでは解くのが難しい大きな問題をいくつかの小さな問題に分割し、分割した各問題の解を統合することで最終的に最初の問題を解く手法である。分割統治法により計算量を削減することで,現実的な時間内(および使用メモリ量)で制約を充足するスケジュールを作成できる。
【0087】
図7は、メンテナンスのスケジューリングへの分割統治法の適用方法を示す図である。メンテナンスのスケジューリングを行う場合、管理サーバ100は、物理マシン集合と時刻集合とをそれぞれ分割する。図7の例では、物理マシン集合をm分割(mは1以上の整数)しており、離散化により生成された時刻集合をn分割(nはm以上の整数)している。これにより、メンテナンスの適切なスケジューリングを行うというスケジューリング問題32が、複数の部分問題に分割される。
【0088】
物理マシン集合がm個に分割されたことで、m個の部分集合(物理マシングループ)が生成される。物理マシングループには、「|P|/m」個の物理マシンが含まれる。また時刻集合がn個に分割されたことで、n個の部分集合(時刻グループ)が生成される。時刻グループには、「|T|/n」個の時刻が含まれる。そして物理マシングループと時刻グループとの組み合わせごとに、部分問題を生成することができる。複数の物理マシンそれぞれの仮想マシン数が均一であると仮定すると、部分問題あたりの場合の数は、以下の通りとなる。
【0089】
【数2】
【0090】
このように全体のスケジューリング問題32を部分問題に分割することで、分割数に応じて場合の数が指数関数的に減少する。
なお、システムのメンテナンスの実施には、メンテナンス対象の物理マシンで実行されている仮想マシンの移動先となる空き物理マシンが存在していることが前提となる。そこで管理サーバ100は、物理マシン集合を分割する場合、空き物理マシンのみを有する物理マシングループを1つ作成する。そして空き物理マシンだけの物理マシングループに含まれない物理マシン集合を、複数の物理マシングループに分割する。
【0091】
図8は、物理マシン集合と時刻集合との分割例を示す図である。図8に示すスケジューリング問題33では、8台の物理マシン(P={p1,p2,p3,・・・,p8})がある。このうち2台の物理マシンが空き物理マシン(Pe={p7,p8})である。スケジューリング対象期間は、20個の時間帯に離散化され、各時間帯の開始時刻を示す時刻集合(T={t1,t2,t3,・・・,t20})が生成されている。図8では、物理マシングループの境界、および時刻グループの境界を点線で示している。
【0092】
物理マシン集合は4つの物理マシングループに分割されており、そのうちの1つには、空き物理マシンのみが含まれる。残りの3つの物理マシングループには、物理マシンが2台ずつ含まれる。この3つの物理マシングループそれぞれには、部分問題の求解のために、未定の移動先に対応する仮の物理マシンが追加されている。追加される仮の物理マシンの数は、空き物理マシンのみが含まれる物理マシングループ内の物理マシン数と同じである。図8の例では、各物理マシングループに、仮の物理マシンが2台ずつ追加されている。
【0093】
時刻集合は、5つの時刻グループに分割されている。管理サーバ100は、スケジューリングの際には、時刻グループに対応する期間を、LM作業期間とメンテナンス作業期間とに分ける。
【0094】
図9は、時刻グループに対応する期間内の作業期間の区分けを示す図である。図9の例では、LM作業期間とメンテナンス作業期間との長さを同じとしている。この場合、時刻グループ34内の時刻t1~時刻t|T|/2nの期間がLM作業期間であり、時刻t|T|/2n+1~時刻t|T|/nの期間がメンテナンス作業期間である。
【0095】
管理サーバ100は、図8図9に示した条件で部分問題を求解する。仮に管理サーバ100がすべての部分問題を求解した場合、図10に示すような求解結果が得られる。
図10は、部分問題ごとの制約を充足するスケジュールの求解結果の一例を示す図である。スケジューリング問題33の最初の時刻グループ「t1~t4」では、空き物理マシンのみの物理マシングループ内の物理マシン「p7~p8」に対してメンテナンス作業を実施する。そのため該当時刻グループについては、他の物理マシングループについての求解は行われない。また空き物理マシンのみの物理マシングループについては、メンテナンスが実行された後の期間についての求解は行われない。
【0096】
求解を行った部分問題のうち制約を充足することができた部分問題については、求解の結果として、物理マシンのメンテナンス期間と、仮想マシンのLMの実施期間とが決定される。ただしこの時点では、LMによる仮想マシンの移動先は未定である。
【0097】
例えば物理マシングループ{p3~p4}の物理マシンを時刻グループ{t17~t20}でメンテナンスする場合のスケジューリング結果では、時刻t17に、物理マシン名「p3」の物理マシン上の仮想マシンのLMを実施する。次に時刻t18に、物理マシン名「p4」の物理マシン上の仮想マシンのLMを実施する。次に時刻t19に、物理マシン名「p3」の物理マシンのメンテナンス作業を実施する。そして時刻t20に、物理マシン名「p4」の物理マシンのメンテナンス作業を実施する。
【0098】
なお部分問題の求解では、制約を充足するスケジュールの生成に失敗する場合がある。管理サーバ100は、制約を充足できない部分問題については、UNSAT(unsatisfiable)として管理する。
【0099】
図10には、管理サーバ100がすべての部分問題を求解した場合の求解結果を示しているが、実際には、管理サーバ100は一部の部分問題を求解すればよい。例えば管理サーバ100は、物理マシングループ間で求解する部分問題の単位期間が重複しないようにして、複数の物理マシングループそれぞれについて、求解する部分問題を1つずつ選択し、選択した部分問題のみを求解することができる。管理サーバ100は、部分問題ごとの求解結果から、「全物理マシンに対してメンテナンスを実施」することができ、かつ「作業終了日が最短」となるように、使用するスケジュール(部分問題の求解結果)を抽出する。そして管理サーバ100は、抽出したスケジュールを編集し、全体のスケジュールを作成する。
【0100】
図11は、解の統合例を示す図である。複数の物理マシングループそれぞれについて、1つずつの求解結果41~44が抽出されている。抽出された求解結果41~44の時刻グループには重複がない。管理サーバ100は、抽出した求解結果41~44を統合し、システム全体に対するメンテナンスのスケジュール45を作成する。
【0101】
例えば管理サーバ100は、時刻が最も早い時刻グループ{t1~t4}の求解結果41から、メンテナンス作業が実施される物理マシンの物理マシン名「p7,p8」を取得する。管理サーバ100は、取得した物理マシン名「p7,p8」を、次の時刻グループ{t5~t8}の求解結果42における未定の物理マシンの物理マシン名に設定する。
【0102】
次に管理サーバ100は、時刻グループ{t5~t8}の求解結果42から、メンテナンス作業が実施される物理マシンの物理マシン名「p3,p4」を取得する。管理サーバ100は、取得した物理マシン名「p3,p4」を、次の時刻グループ{t9~t12}の求解結果43における未定の物理マシンの物理マシン名に設定する。
【0103】
次に管理サーバ100は、時刻グループ{t9~t12}の求解結果43から、メンテナンス作業が実施される物理マシンの物理マシン名「p5,p6」を取得する。管理サーバ100は、取得した物理マシン名「p5,p6」を、次の時刻グループ{t13~t16」}の求解結果44における未定の物理マシンの物理マシン名に設定する。
【0104】
そして管理サーバ100は、求解結果41~44それぞれに示された各物理マシンに対するLMの実施予定とメンテナンス作業の実施予定とが設定されたスケジュール45を作成する。初期状態で空き物理マシン(物理マシン名「p7,p8」)以外の物理マシンは、メンテナンス作業実施以前は、LMで仮想マシンを移動させるまで仮想マシン稼働中の状態となる。また、すべての物理マシンに関し、メンテナンス作業実施後にLMで他の物理マシンから仮想マシンが移動してくると、仮想マシン稼働中の状態となる。
【0105】
このようにして、メンテナンスのスケジューリングに対して分割統治法を適用することができる。分割統治法を適用することで、計算量の削減が見込まれるが、物理マシン集合の分割数および時刻集合の適切な分割数に応じて、問題の性質が変化する。
【0106】
図12は、物理マシン集合の分割数と問題の性質との関係を示す図である。図12には、物理マシン集合についての分割数と問題の性質との関係46として、分割数に応じた計算量、作業日数、および問題の難易度の変化が示されている。問題の難易度とは、部分問題に対する充足解の見つけやすさである。すなわち、問題の難易度が高い(難しい)ほど、部分問題の充足解を得られない可能性が高くなる。
【0107】
物理マシン集合の分割数が少ないほど、計算量が大きくなり、作業日数は短くなり、問題の難易度が難しくなる。物理マシン集合の分割数が多いほど、計算量が小さくなり、作業日数は長くなり、問題の難易度が易しくなる。分割数が少ないほど作業日数が短くなるのは、時刻グループあたりの作業台数が増えるためである。分割数が少ないほど問題の難易度が難しくなるのは、制約を考慮する物理マシン数が増えるためである。
【0108】
このように、物理マシンを分割しすぎた場合,運用者が作業を完了するまでに要する日数が増加してしまう。そして、問題の解が存在する(スケジュールが生成可能な)範囲で最も作業日数を短くできる分割数は、制約の内容によって大きく変化する。そのため、物理マシン集合の適切な分割数を一意に決定するのは困難である。
【0109】
図13は、時刻集合の分割数と問題の性質との関係を示す図である。図13には、時刻集合についての分割数と問題の性質との関係47として、分割数に応じた計算量、作業日数、および問題の難易度の変化が示されている。
【0110】
時刻集合の分割数が少ないほど、計算量が大きくなり、作業日数は長くなり、問題の難易度が易しくなる。時刻集合の分割数が多いほど、計算量が小さくなり、作業日数は短くなり、問題の難易度が難しくなる。分割数が多いほど作業日数が短くなるのは、早めに作業を終了できる可能性が増えるためである。また分割数が多いほど問題の難易度が難しくなるのは、時間に関する制約が難化するためである。
【0111】
このように、物理マシンの場合と同様に、時刻集合の分割数に応じて問題の性質が変化する。そのため、時刻集合の適切な分割数を一意に決定するのも困難である。
しかも、スケジューリングにおいて満たすべき制約の1つとして、物理マシン内の仮想マシンへのLMの実施を回避すべき時間帯が存在する点が、適切な分割数の決定をさらに困難にしている。
【0112】
図14は、LM回避時間帯の一例を示す図である。管理サーバ100は、1つの部分問題を解くとき、物理マシン上で実行されている仮想マシンそれぞれについて設定されたLM回避時間帯48の情報を取得する。管理サーバ100は、LM回避時間帯48に基づいて、物理マシングループを生成する際に、離散化された各時刻について、物理マシングループに属する物理マシン上の仮想マシンのLMを実行可能か否かについて判断する。
【0113】
管理サーバ100は、同じ物理マシングループに属するすべての物理マシンについて、LM実施回避時間帯を生成する。そして管理サーバ100は、その物理マシングループについての部分問題を求解するとき、物理マシンそれぞれのLM実施回避時間帯を避けて、物理マシンのLMの実施時間帯を決定する。
【0114】
図15は、LM回避時間帯を考慮した部分問題の求解例を示す図である。図15の例では、異なる物理マシンでのLMの並列実行が禁止されているものとする。
ここで、物理マシン名「p3」、物理マシン名「p4」が属する物理マシングループの部分問題51,52を求解するものとする。物理マシン名「p3」の物理マシンは、時刻t1,t3~t6,t8~t10が、LM実施回避時間帯である。物理マシン名「p4」の物理マシンは、時刻t1,t3~t6,t8~t10が、LM実施回避時間帯である。
【0115】
時刻グループ{t1,t2,t3,t4,t5}において、物理マシン名「p3」の物理マシンのLMを実施できる期間は、時刻t2に対応する期間のみである。同様に、時刻グループ{t1,t2,t3,t4,t5}において、物理マシン名「p4」の物理マシンのLMを実施できる期間は、時刻t2に対応する期間のみである。異なる物理マシンでのLMの並列実行が禁止されていた場合、時刻t2において一方の物理マシンのLMを実行すると、他方の物理マシンのLMを実行可能な期間がない。従って時刻グループ{t1,t2,t3,t4,t5}に関する部分問題51の求解結果53は、「UNSAT」となる。同様に時刻グループ{t6,t7,t8,t9,t10}に関する部分問題52についても、求解結果54が「UNSAT」となる。
【0116】
このように、LM実施回避時間帯が存在するため、制約を充足する解が見つからないことがある。LM実施回避時間帯を考慮せずに、物理マシン集合または時刻集合を分割すると、解が常に見つからない物理マシングループが発生する可能性が高くなる。LM実施回避時間帯を時系列で考慮して分割する場合、次元数が大幅に増加(時刻数分)する。そのため、何らかの工夫をしなければ、計算時間の増大することや問題の難易度が高まることにより、適切な分割数の決定は困難である。そこで管理サーバ100は、以下のようにして時刻集合および物理マシン集合の分割を行う。
【0117】
管理サーバ100は、時刻集合の分割数については、例えば運用者が、LMとメンテナンスの各作業を実施する時間帯に基づいて設定する。
図16は、時刻集合の分割数の決定例を示す図である。図16には、システム全体に関して、LM実施が可能(LM可)な時間帯とメンテナンス作業が可能な時間帯との区分(時間帯区分55)を示している。
【0118】
システムのメンテナンスを実施する際、メンテナンス実施期間中に作業できない時間帯が存在する。例えば早朝、深夜、昼休みなどは、メンテナンスに関する作業は実施しない。物理マシンに対する作業順序は、メンテナンス実施前から空きの物理マシンを除き、LM→メンテナンス作業の順となる。そこで、運用者が管理サーバ100へ、LMとメンテナンス作業との実施可能な時間帯を入力する。例えば、運用者は、毎日の午前中の勤務時間帯をLM実施可能な時間帯とし、毎日の午後の勤務時間帯をメンテナンス作業の実施可能な時間値とする。時間帯区分55の入力を受けた管理サーバ100は、LMの実施可能な時間帯とメンテナンス作業の実施可能な時間帯とのペア55a,55b,55cを探索する。そして管理サーバ100は、見つけ出したペア数を、時刻集合の分割数(n)とする。この場合、1つの時刻グループに対応する時間帯の長さは、例えば24時間となる。
【0119】
物理マシン集合の分割については、管理サーバ100は、以下の要素からなるベクトルパッキング問題として扱うことで分割数を決定する。ベクトルパッキング問題は、ビンパッキング問題を変形したものである。ビンパッキング問題は、大きさの異なるアイテムの集合を固定サイズの箱に詰めるときに、使用する箱の最少の数を求める問題である。
【0120】
なおビンパッキング問題またはベクトルパッキング問題については、以下の文献が参考になる。
(文献1)D.S.Johnson, “Near-Optimal Bin Packing Algorithms,” Ph.D. Thesis, Massachusetts Institute of Technology, June, 1973.
(文献2)A.Caprara and P.Toth, “Lower Bounds and Algorithms for the 2-Dimensional Vector Packing Problem,” Discrete Applied Mathematics, Vol.111, No.3, pp.231-262, 1 August 2001.
物理マシン集合の分割におけるベクトルパッキング問題では、1物理マシングループあたりの各要素の容量が定められ、同一物理マシングループに属する物理マシンの要素ごとの合計が、その要素の容量内に収まるような最少の分割数が求められる。
・LM作業可能時間
・メンテナンス作業可能時間
・リソース量(CPUコア数、メモリ量など)
・LMの実施を回避する時間帯
管理サーバ100は、上記要素のベクトルパッキング問題を解くため、LM作業時間、メンテナンス作業時間、リソース量の各要素の容量を決定する。例えば管理サーバ100は、マイグレーション作業時間の容量を、時刻グループあたりのLM作業可能時間に応じて決定する。また管理サーバ100は、メンテナンス作業時間の容量を、時刻グループあたりのメンテナンス作業可能時間に応じて決定する。さらに管理サーバ100は、リソース量の容量を、空き物理マシン群のリソース量に応じて決定する。
【0121】
図17は、容量の決定例を示す図である。図17の例では、システム内に5台の物理マシンがあり、そのうちの2台が空き物理マシンである。管理サーバ100は、以下の情報に基づいて容量を決定する。
・物理マシンのリソース量:pi=(CPUコア数,メモリ量[GB])
0=(52,128),p1=(52,128),p2=(52,128),p3=(48,128),p4=(48,128),p5=(52,128)
・空き物理マシン:Pe={p4,p5
・時刻グループあたりのLM作業可能時間:180分
・時刻グループあたりのメンテナンス作業可能時間:300分
・同時並列にLMできる物理マシン数の上限:max_lm=2
・同時並列にメンテナンスできる物理マシン数の上限:max_maint=2
管理サーバ100は、物理マシンをCPUコア数で昇順にソートする。そして管理サーバ100は、ソート後の物理マシンの上位|Pe|台のCPUコア数の合計を、CPUコア数の容量56aとする。図17の例では、48+48=96(個)が、CPUコア数の容量56aとなる。
【0122】
管理サーバ100は、物理マシンをメモリ量で昇順にソートする。そして管理サーバ100は、ソート後の物理マシンの上位|Pe|台のメモリ量の合計を、メモリの容量56bとする。図17の例では、128+128=256(GB)がメモリの容量56bとなる。
【0123】
管理サーバ100は、max_lm×時刻グループあたりのLM作業可能時間を、LM作業可能時間の容量56cとする。図17の例では、2×180=360(分)がLM作業可能時間の容量56cとなる。
【0124】
管理サーバ100は、max_maint×時刻グループあたりのメンテナンス作業可能時間を、メンテナンス作業可能時間の容量56dとする。図17の例では、2×300=600(分)がメンテナンス作業可能時間の容量56dとなる。
【0125】
管理サーバ100は、ベクトルパッキング問題を解くとき、同一物理マシングループに属する物理マシンの各要素の合計が、該当要素の容量内に収まるように、物理マシンのグループ分けを行う。
【0126】
図18は、物理マシンの割り当て先の決定例を示す図である。管理サーバ100は、物理マシンを物理マシングループに割り当てる際に、割り当て先の物理マシングループ内の全物理マシンについてLMを実施できる時刻グループが存在するか否かを確認する。割り当て先の物理マシングループ内の全物理マシンについてLMを実施できる時刻グループが存在するということは、その物理マシングループについての部分問題の解が存在する可能性があることを意味する。
【0127】
図18の例では、3つの物理マシングループ57a,57b,57cに、それぞれ1台ずつの物理マシンが割り当てられている。この状況において、管理サーバ100が、新たに物理マシン名「p’」の物理マシン57dの割り当て先を探索する場合を想定する。
【0128】
ここで、LM所要時間:1、リソースの容量:50、時刻グループ:{t1,・・・,t5},{t6,・・・,t10}、物理マシンのリソース量:p’=20,pa=pb=10,pc=40とする。
【0129】
なおLM所要時間は、離散化で生成された1つの時刻に対応する時間の長さ(連続する時刻の差)が、1単位である。
管理サーバ100は、まず物理マシン57dを、物理マシングループ57aに割り当てることができるか否かを判断する。物理マシングループ57aに割り当てられている物理マシン名「pa」の物理マシンは、時刻t4~t10に対応する期間が、LM実施回避時間帯である。それに対して、物理マシン名「p’」の物理マシン57dのLM実施回避時間帯は、時刻t1~t5,t9~t10に対応する期間である。すると物理マシン57dを物理マシングループ57aに割り当ててしまうと、LM実施可能な期間が存在しなくなる。すなわち、2つの時刻グループいずれにおいても、属する物理マシン{pa,p’}についてLMを行うことはできない。従って管理サーバ100は、物理マシン57dを物理マシングループ57aに割り当てることはできないと判断する。実際には、管理サーバ100は、仮想マシン単位でのLM回避時間帯を考慮し、物理マシン57dを物理マシングループ57aに割り当てることができるか否かを判断する。
【0130】
次に管理サーバ100は、物理マシン57dを、物理マシングループ57bに割り当てることができるか否かを判断する。物理マシングループ57bに割り当てられている物理マシン名「pb」の物理マシンは、時刻t1~t6,t10に対応する期間が、LM実施回避時間帯である。すると物理マシン57dを物理マシングループ57bに割り当てた後も、時刻t7~t8に対応する期間(期間の長さ「2」)は、LMが可能な期間となる。実際には、管理サーバ100は、仮想マシン単位でのLM回避時間帯を考慮し、物理マシン57dを物理マシングループ57bに割り当てることができるか否かを判断する。この場合、2台の物理マシン{pb,p’}については、時刻グループ{t6,・・・,t10}において、LMが可能である。また2台の物理マシン{pb,p’}それぞれのリソース量は「10」、「20」であり、合計してもリソースの容量「50」を超えない。従って管理サーバ100は、物理マシン57dを物理マシングループ57bに割り当てることができると判断する。
【0131】
次に管理サーバ100は、物理マシン57dを、物理マシングループ57cに割り当てることができるか否かを判断する。物理マシングループ57cに割り当てられている物理マシン名「pc」の物理マシンは、LM実施回避時間帯が存在しない。そのため、物理マシン57dを物理マシングループ57cに割り当てた後も、時刻t6~t8に対応する期間(期間の長さ「3」)は、LMが可能な期間となる。実際には、管理サーバ100は、仮想マシン単位でのLM回避時間帯を考慮し、物理マシン57dを物理マシングループ57cに割り当てることができるか否かを判断する。この場合、2台の物理マシン{pc,p’}については、時刻グループ{t6,・・・,t10}において、LMが可能である。ただし2台の物理マシン{pc,p’}それぞれのリソース量は「40」、「20」であり、合計するとリソースの容量「50」を超えてしまう。従って管理サーバ100は、物理マシン57dを物理マシングループ57cに割り当てることはできないと判断する。
【0132】
管理サーバ100は、このような物理マシンの物理マシングループへの割り当てを、すべての物理マシンに対して行う。その際、管理サーバ100は、物理マシンを以下の基準でソートし、上位の物理マシンから順に割り当て先を決定する。
(第1の基準)LMの実施を回避すべき時間の長さ(降順)
(第2の基準)リソース量(CPUコア数、メモリ量など)(降順)
管理サーバ100は、第1の基準で物理マシンをソートし、同じ順番になった物理マシン同士で第2の基準でソートする。第2の基準は、リソースの種別ごとの基準に分かれる。管理サーバ100は、各物理マシンのリソース量を、空き物理マシンの該当リソースの合計容量で正規化し、正規化後のリソース量の合計が大きいリソースほど、ソートの優先順を高くする。各リソースの正規化後のリソース量の合計は、以下の式で表される。
【0133】
【数3】
【0134】
ここで、a(i,j)は、i番目の物理マシンのj番目の要素(リソース)の量である。リソースの量は、空き物理マシンの該当リソースの合計容量を「1」とする正規化した値である。Dは、要素の次元数(制約として用いるリソースの種別数)である。管理サーバ100は、まず、最も優先順が高いリソース量でソートする。次に管理サーバ100は、優先順が同じとなる物理マシン同士について、次に優先順が高いリソース量でソートする。
【0135】
このように管理サーバ100は、LM実施回避時間帯が長い物理マシンから順に、属する物理マシングループ(割り当て先)を判断する。これは、回避すべき時間帯が長い物理マシンを先に物理マシングループに割り当てたほうが、判断の順が後となる物理マシンの割り当て先判定時に候補先となる物理マシングループが増加するためである。
【0136】
すなわち、物理マシングループ内の物理マシン数が増えると、その物理マシングループについてのLM実施回避時間帯が増加し、LM実施可能な時間帯が減少する。物理マシンを新たに物理マシングループに割り当てたことで、各時刻グループにおいて、その物理マシングループのLM実施可能な時間帯が少なくなる。すると、図18の物理マシングループ57aの場合のように、物理マシンを割り当てることができなくなる。そのため、管理サーバ100は、LM実施回避時間帯が長い物理マシンから順に物理マシングループへの割り当てを行うことで、候補先とすることができない物理マシングループの発生を抑止する。
【0137】
また、管理サーバ100は、物理マシンの物理マシングループへの割り当て(物理マシンのグループ化)を、少ない分割数から試行する。これは、物理マシングループが少ないほど運用者の作業終了日が早くなる可能性が高いためである。管理サーバ100は、グループ化に失敗した場合はグループ数を順次大きくして、物理マシングループ化を試行する。
【0138】
なお、物理マシン集合の分割数(物理マシングループ数)については、例えば以下の式により理論下限値m0を計算することができる。
【0139】
【数4】
【0140】
式(4)では、リソースごとに、物理マシンのリソース量の合計値(正規化後の値)の天井関数の値を求め、その最大値を理論下限値m0としている。天井関数は、実数に対して、その実数以上の最小の整数を求める関数である。実際の物理マシンのグループ化では、理論下限値m0より物理マシングループ数が大きくなることがある。
【0141】
図19は、物理マシン集合の分割数の理論下限値と物理マシングループ数との関係を示す図である。図19の例では、1種類のリソース量のみに着目している。
第1の分割例では、5台の物理マシン{a1,a2,a3,a4,a5}それぞれのリソース量は、「0.6,0.4,0.6,0.4,1」である。リソース量の合計は「3」であり、分割数の理論下限値m0は「3」となる。この場合、3つの物理マシングループ58a~58cそれぞれに属する物理マシンのリソース量の合計が、容量「1」を超えないように、すべての物理マシンを3つの物理マシングループ58a~58cに割り当てることができる。各物理マシングループ58a~58cは、割り当てられた物理マシンのリソース量の合計が容量「1」と等しい。そのため、これ以上の物理マシングループ数を減らすことはできず、物理マシングループ数が理論下限値と等しい。
【0142】
第2の分割例では、5台の物理マシン{a1,a2,a3,a4,a5}それぞれのリソース量は、「0.6,0.6,0.6,0.6,0.6」である。リソース量の合計は「3」であり、分割数の理論下限値m0は「3」となる。1つの物理マシングループに対して1台の物理マシンしか割り当てることができない。そのため5台の物理マシンを、5つの物理マシングループ58d~58hに分散させることとなる。すなわち実際の物理マシングループ数「5」は、理論下限値「3」よりも多くなる。
【0143】
管理サーバ100は、物理マシンの分割数の理論下限値m0から物理マシングループ化の試行を開始することで、無駄なグループ化処理の発生を抑止し、処理を効率化することができる。
【0144】
以下、管理サーバ100によるメンテナンスのスケジューリング処理について詳細に説明する。
図20は、管理サーバの機能例を示す図である。管理サーバ100は、インフラ管理部111、およびスケジューラ112を有する。インフラ管理部111、およびスケジューラ112の機能は、プロセッサ101により実現される。例えば、プロセッサ101は、RAM102に記憶された所定のプログラムを実行することで、インフラ管理部111およびスケジューラ112の機能を発揮する。あるいは、インフラ管理部111およびスケジューラ112は、FPGAやASICなどのハードワイヤードロジックにより実現されてもよい。
【0145】
インフラ管理部111は、各物理マシンのハードウェアの構成や各仮想マシンに割り当てられるリソースの構成を管理する。例えば、物理マシン200は、仮想マシン211,212を有する。物理マシン300は、仮想マシン311,312を有する。
【0146】
インフラ管理部111は、インフラ構成情報記憶部120、VM性能情報記憶部130およびインフラ管理制御部140を有する。インフラ構成情報記憶部120およびVM性能情報記憶部130は、例えば、RAM102やHDD103の記憶領域を用いて実現される。
【0147】
インフラ構成情報記憶部120は、インフラ構成情報を記憶する。インフラ構成情報は、各物理マシンのハードウェアの構成や各仮想マシンに割り当てられるリソースの構成に関する情報である。
【0148】
VM性能情報記憶部130は、VM性能情報を記憶する。VM性能情報は、仮想マシンの性能に関する情報であり、各仮想マシンのLMの所要時間に関する情報を含む。また、VM性能情報は、LMの所要時間の予測結果を得るために用いられた各仮想マシンの負荷の履歴(過去の各時刻における各仮想マシンの負荷の履歴)を含んでもよい。なお、各仮想マシンの負荷の履歴に基づくLMの所要時間の予測は、管理サーバ100により行われてもよい。
【0149】
インフラ管理制御部140は、スケジューラ112により決定されたLMのスケジュールに従って、各物理マシンに対する仮想マシンのLMを指示する。
スケジューラ112は、物理マシンのメンテナンスを行う際に、メンテナンス対象の物理マシンで動作する仮想マシンのLMおよびメンテナンス作業のスケジュールを決定する。スケジューラ112は、メンテナンス実施期間情報を運用者端末700から受け付けると、インフラ構成情報記憶部120およびVM性能情報記憶部130に記憶された情報に基づいて、LMのスケジュールを決定する。
【0150】
スケジューラ112は、グループ生成部150、部分問題生成部160、部分問題求解部170、スケジュール生成部180、およびイベント情報記憶部190を有する。イベント情報記憶部190は、例えば、RAM102やHDD103の記憶領域を用いて実現される。
【0151】
イベント情報記憶部190は、仮想マシンのLMおよび物理マシンのメンテナンス作業のスケジュールの情報を記憶する。
グループ生成部150は、システム全体のメンテナンスのスケジューリング問題を部分問題に分割するための、物理マシングループと時刻グループとを生成する。例えばグループ生成部150は、時刻集合の分割数を決定し、時刻集合を決定した分割数で分割することで、時刻グループを生成する。グループ生成部150は、物理マシン集合の分割数を決定し、物理マシン集合を決定した分割数で分割することで物理マシングループを生成する。なおグループ生成部150は、物理マシン集合の分割数については、少ない分割数から順に物理マシンのグループ化を試行する。そしてグループ生成部150は、すべての時刻グループについて制約の充足不可能となるような物理グループが発生しない最少の分割数を、最終的な分割数とする。
【0152】
部分問題生成部160は、決定された物理マシン集合の分割数と時刻集合の分割数とに基づいて、メンテナンスのスケジューリング問題を部分問題に分割する。
部分問題求解部170は、分割によって生成された部分問題を求解する。部分問題の求解により、各部分問題ごとのメンテナンスのスケジュールが生成される。
【0153】
スケジュール生成部180は、部分問題の求解結果を統合し、システム全体のメンテナンスのスケジュールを生成する。スケジュール生成部180は、生成したスケジュールをイベント情報記憶部190に格納する。
【0154】
またスケジューラ112は、スケジューラ112内の各要素が出力した情報の、運用者が使用する運用者端末700への提供、および運用者端末700からスケジューラ112内の各要素へ入力する情報の受付を行う。例えばスケジューラ112は、運用者端末700からメンテナンス実施期間とメンテナンス対象物理マシンを受信する。スケジューラ112は、受信したメンテナンス実施期間とメンテナンス対象物理マシンを、グループ生成部150に送信する。またスケジューラ112は、作成されたスケジュールをイベント情報記憶部190から取得し、運用者端末700に送信する。
【0155】
なお、図20に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図20に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。
【0156】
図21は、メンテナンス実施期間情報の例を示す図である。メンテナンス実施期間情報M1は、運用者端末700により管理サーバ100に送信される。管理サーバ100では、スケジューラ112がメンテナンス実施期間情報M1を受信する。
【0157】
メンテナンス実施期間情報M1は、システムに含まれる複数の物理マシンに関するメンテナンスの実施期間の情報である。メンテナンス実施期間情報M1は、開始日時、終了日時、時刻グループの分割単位、LM開始時刻、LM終了時刻、メンテナンス開始時刻、およびメンテナンス終了時刻の項目を含む。
【0158】
開始日時の項目には、メンテナンスの実施期間の開始日時が登録される。終了日時の項目には、メンテナンスの実施期間の終了日時が登録される。例えば、メンテナンス実施期間情報M1は、開始日時“2018-06-16T00:00:00.000Z”、および終了日時“2018-06-30T23:59:00.000Z”という情報を含む。これは、メンテナンス実施期間が2018年6月16日00時00分から2018年6月30日23時59分まであることを示す。
【0159】
時刻グループの分割単位の項目には、時刻集合を複数の時刻グループに分割する際の、1時刻グループに対応する時間の長さが登録される。例えば、メンテナンス実施期間情報M1は、時刻グループの分割単位“1日(24時間)”という情報を含む。これは、時刻集合を1日分の長さに対応する時刻グループ(24時間分の時刻を含む)に分割することを示す。
【0160】
LM開始時刻の項目は、1つの時刻グループ内でのLM実施可能期間の開始時刻が登録される。LM終了時刻の項目は、1つの時刻グループ内でのLM実施可能期間の終了時刻が登録される。例えば、メンテナンス実施期間情報M1は、LM開始時刻“09:00:00.000Z”、LM終了時刻“11:59:00.000Z”という情報を含む。これは、1日のうち9時00分から11時59分までの期間がLM実施可能期間であることを示す。
【0161】
メンテナンス開始時刻の項目は、1つの時刻グループ内でのメンテナンス実施可能期間の開始時刻が登録される。メンテナンス終了時刻の項目は、1つの時刻グループ内でのメンテナンス実施可能期間の終了時刻が登録される。例えば、メンテナンス実施期間情報M1は、メンテナンス開始時刻“12:00:00.000Z”、メンテナンス終了時刻“17:59:00.000Z”という情報を含む。これは、1日のうち12時00分から17時59分までの期間がメンテナンス実施可能期間であることを示す。
【0162】
ここで、1つの物理マシンに対するメンテナンス作業は、メンテナンス実施期間のうちの一部の時間範囲を用いて行われる。管理サーバ100は、各物理マシンのメンテナンス作業が、入力されたメンテナンス実施期間中に完了するようにスケジューリングする。
【0163】
例えば、管理サーバ100は、第1の物理マシンに対するメンテナンス作業を行う前に、第1の物理マシン上のすべての仮想マシンを第2の物理マシンに移動させて、第1の物理マシンのメンテナンス作業を行えるようにする。
【0164】
図22は、メンテナンス対象マシン情報の例を示す図である。メンテナンス対象マシン情報M2は、運用者端末700により管理サーバ100に送信される。管理サーバ100では、スケジューラ112がメンテナンス対象マシン情報M2を受信する。
【0165】
メンテナンス対象マシン情報M2は、物理マシン名およびメンテナンス所要時間の項目を含む。
物理マシン名の項目には、物理マシンの名称が登録される。メンテナンス所要時間の項目には、当該物理マシンのメンテナンスの所要時間が登録される。例えば、メンテナンス対象マシン情報M2は、物理マシン名“PM01”、メンテナンス所要時間“02:00:00.000”という情報を含む。これは、物理マシン名“PM01”で示される物理マシンのメンテナンス作業の所要時間が2時間であることを示す。
【0166】
メンテナンス対象マシン情報M2には、メンテナンス対象の他の物理マシンに対しても、同様に物理マシン名とメンテナンス所要時間が登録される。
図23は、物理マシン構成テーブルの例を示す図である。物理マシン構成テーブル121は、インフラ構成情報記憶部120に予め格納されている。物理マシン構成テーブル121は、物理マシン名、CPUコア数、メモリ容量およびディスク容量の項目を含む。
【0167】
物理マシン名の項目には、物理マシンの名称が登録される。CPUコア数の項目には、当該物理マシンが備えるCPUコアの数が登録される。メモリ容量の項目には、当該物理マシンが備えるメモリ(RAM)の容量が登録される。ディスク容量の項目には、当該物理マシンが備えるHDD(あるいは、当該物理マシンに対して外部ストレージに割り当てられた補助記憶領域)の容量が登録される。
【0168】
例えば、物理マシン構成テーブル121には、物理マシン名が“PM01”、CPUコア数が“64”、メモリ容量が“256GB”、ディスク容量が“32TB”というレコードが登録されている。このレコードは、物理マシン名“PM01”で示される物理マシンが備えるCPUコア数が64個、メモリ容量が256GB、ディスク容量が32TBであることを示す。
【0169】
物理マシン構成テーブル121には、他の物理マシンに対しても同様に、物理マシン名とCPUコア数とメモリ容量とディスク容量とが登録される。
図24は、仮想マシン構成テーブルの例を示す図である。仮想マシン構成テーブル122は、インフラ構成情報記憶部120に予め格納されている。仮想マシン構成テーブル122は、仮想マシン名、ユーザID(IDentifier)、CPUコア数、メモリ容量、ディスク容量、およびLM所要時間の項目を含む。
【0170】
仮想マシン名の項目には、仮想マシンの名称が登録される。ユーザIDの項目には、仮想マシンを使用するユーザの識別子が登録される。CPUコア数の項目には、当該仮想マシンに割り当てられるCPUコア数が登録される。メモリ容量の項目には、当該仮想マシンに割り当てられるメモリの容量が登録される。ディスク容量の項目には、当該仮想マシンに割り当てられるHDD(あるいは、物理マシンの外部ストレージの補助記憶装置)の容量が登録される。LM所要時間の項目には、仮想マシンのLMに要する時間が登録される。LM所要時間の項目に設定される所要時間は、例えばVM性能情報記憶部130に示されるLMの所要時間と同じである。またVM性能情報記憶部130に、各仮想マシンの負荷の履歴が含まれている場合、負荷の履歴から予測したLMの所要時間が、LM所要時間の項目に設定されていてもよい。
【0171】
例えば、仮想マシン構成テーブル122には、仮想マシン名が“accounting-db-13”、ユーザIDが“user1”、CPUコア数が“2”、メモリ容量が“32GB”、ディスク容量が“2TB”、LM所要時間が“16分”というレコードが登録されている。このレコードは、仮想マシン名“accounting-db-13”で示される仮想マシンをユーザID“user1”のユーザが利用していることを示す。またこのレコードは、該当仮想マシンを稼働させるのに使用するCPUコア数が2個、メモリ容量が32GB、ディスク容量が2TBであることを示す。さらにこのレコードは、該当仮想マシンのLMに要する時間が16分であることを示す。
【0172】
仮想マシン構成テーブル122には、他の仮想マシンに対しても同様に、仮想マシン名とユーザIDとCPUコア数とメモリ容量とディスク容量とLM所要時間とが登録される。
【0173】
図25は、仮想マシン稼働テーブルの例を示す図である。仮想マシン稼働テーブル123は、インフラ構成情報記憶部120に予め格納されている。仮想マシン稼働テーブル123は、各仮想マシンの初期配置先の物理マシンを示す情報である。仮想マシン稼働テーブル123は、物理マシン名、仮想マシン名およびユーザIDの項目を含む。
【0174】
物理マシン名の項目には、物理マシンの名称が登録される。仮想マシン名の項目には、当該物理マシン上で稼働する仮想マシンの名称が登録される。ユーザIDの項目には、当該仮想マシンを利用するユーザのユーザIDが登録される。
【0175】
例えば、仮想マシン稼働テーブル123には、物理マシン名が“PM01”、仮想マシン名が“accounting-db-13”、ユーザIDが“user1”というレコードが登録されている。このレコードは、物理マシン名“PM01”で示される物理マシン上で、仮想マシン名“accounting-db-13”で示される仮想マシンが稼働しており、ユーザID“user1”のユーザが当該仮想マシンを利用していることを示す。
【0176】
仮想マシン稼働テーブル123には、他の仮想マシンに対しても同様に、配置先の物理マシン名と仮想マシン名とユーザIDとが登録される。
図26は、依存関係テーブルの例を示す図である。依存関係テーブル124は、インフラ構成情報記憶部120に予め格納されている。依存関係テーブル124は、仮想マシンのグループに対する依存関係を示す情報である。依存関係テーブル124は、グループ名、仮想マシン名およびルールの項目を含む。
【0177】
グループ名の項目には、仮想マシンのグループの名称が登録される。仮想マシン名の項目には、該当のグループに属する仮想マシンの名称の組が登録される。ルールの項目には、該当のグループに属する仮想マシンを同一の物理マシン上で稼働させるか否かを示す情報が登録される。例えば、ルール“anti-affinity”は、同一の物理マシン上で稼働させないこと(anti-affinityルールと呼ぶ)を示す。
【0178】
例えば、依存関係テーブル124には、グループ名が“G01”、仮想マシン名が“accounting-db-13”および“accounting-db-03”、ルールが“anti-affinity”というレコードが登録されている。このレコードは、グループ名“G01”で示されるグループに、仮想マシン名“accounting-db-13”および“accounting-db-03”の2つの仮想マシンが所属し、これら仮想マシンを同一物理マシン上で稼働させないことを示す。
【0179】
依存関係テーブル124には、仮想マシンの他のグループに対しても同様に、グループ名と仮想マシン名とルールとが登録される。
なお、anti-affinityルールは、例えばグラフ彩色問題の1つとして扱うことができる。すなわちグループ生成部150は、グラフ彩色問題の解法を用いて、anti-affinityルールを充足可能な最少の物理マシン数を算出できる。
【0180】
図27は、anti-affinityルールのグラフ彩色問題への適用例を示す図である。anti-affinityグループをグラフ彩色問題として扱う場合、仮想マシンを、グラフ彩色問題における頂点とする。図27の例では、グラフ60の頂点に、仮想マシンの仮想マシン名(v1,v2,v3,v4)が割り当てられている。グラフ60の辺は、anti-affinityルールが存在する仮想マシン間を接続している。このようなグラフ60についてのグラフ彩色問題のヒューリスティックの例としては、Welsh-Powellアルゴリズムがある。ヒューリスティックとは、ある程度のレベルで正解に近い解を得ることができるアルゴリズムを指す。
【0181】
Welsh-Powellアルゴリズムを用いた場合、グループ生成部150は、次数(頂点に接続された辺の数)により、頂点を降順でソートして彩色する。このアルゴリズムによれば、最大色数は最悪でもグラフの最大次数+1となる。
【0182】
図27の例では、3色で彩色できている。なお図27では、彩色の違いをハッチングの違いに置き換えている。同じ色の頂点に対応する仮想マシンを同じ物理マシンで稼働させることで、最低でも3台の物理マシン(p1,p2,p3)があれば、anti-affinityルールを充足できることが分かる。
【0183】
次にVM性能情報記憶部130に格納されるVM性能情報について説明する。例えばVM性能情報記憶部130には、VMの性能をLMの所要時間で表すLM所要時間テーブルが格納される。
【0184】
図28は、LM所要時間テーブルの例を示す図である。LM所要時間テーブル131は、VM性能情報記憶部130に予め格納されている。LM所要時間テーブル131は、仮想マシン名およびLM所要時間の項目を含む。
【0185】
仮想マシン名の項目には、仮想マシンの名称が登録される。LM所要時間の項目には、該当の時刻において該当の仮想マシンに対して予測されるLMの所要時間が登録される。
例えば、LM所要時間テーブル131には、仮想マシン名が“server-90”、LM所要時間が“00:04:00.000”というレコードが登録されている。このレコードは、仮想マシン名“server-90”の仮想マシンのLMを完了する場合の当該LMの所要時間が4分であることを示す。
【0186】
また、LM所要時間テーブル131には、仮想マシン名が“accounting-db-03”、LM所要時間が“00:08:00.000”というレコードが登録されている。このレコードは、仮想マシン名“accounting-db-03”の仮想マシンのLMを完了する場合の当該LMの所要時間が8分であることを示す。
【0187】
LM所要時間テーブル131には、他の仮想マシンに対しても同様に、仮想マシン名とLM所要時間とが登録される。
次に利用者により指定されるLM実施回避日時を示すLM実施回避日時情報について説明する。
【0188】
図29は、LM実施回避日時情報の例を示す図である。LM実施回避日時情報M3は、利用者端末500,600により、スケジューラ112に入力される。LM実施回避日時情報M3は、仮想マシン名、開始日時および終了日時の項目を含む。
【0189】
仮想マシン名の項目には、仮想マシンの名称が登録される。開始日時の項目には、LMの実施を回避する期間(LM実施回避期間)の開始日時が登録される。終了日時の項目には、LMの実施回避期間の終了日時が登録される。例えば、LM実施回避日時情報M3は、仮想マシン名“mysql-67”、開始日時“2018-06-20T11:50:00.000Z”、終了日時“2018-06-20T17:59:00.000Z”という情報を含む。これは、仮想マシン名“mysql-67”の仮想マシンのLM実施回避期間が2018年6月20日11時50分から2018年6月20日17時59分であることを示す。
【0190】
LM実施回避日時情報M3には、他の仮想マシンについても同様に、仮想マシン名と開始日時と終了日時とが含まれ得る。
図30は、時刻グループ情報の例を示す図である。時刻グループ情報M4は、部分問題生成部160により生成される。部分問題生成部160は、生成した時刻グループ情報M4を部分問題求解部170に送信する。部分問題求解部170は、受信した時刻グループ情報M4をメモリに格納し、時刻グループ情報M4に基づいて部分問題を求解する。時刻グループ情報M4は、グループ番号、開始時刻、および終了時刻の項目を含む。
【0191】
グループ番号の項目には、時刻グループの識別番号が登録される。開始時刻の項目には、該当する時刻グループに対応する時間帯の開始時刻が登録される。終了時刻の項目には、該当する時刻グループに対応する時間帯の終了時刻が登録される。例えば、時刻グループ情報M4には、グループ番号“0”、開始時刻“2018-06-16T00:00:00.000Z”、終了時刻“2018-06-16T23:59:00.000Z”という情報を含む。これはグループ番号“0”の時刻グループには、2018年6月16日00時00分から2018年6月16日23時59分までの、離散化により生成された時刻が含まれることを示す。
【0192】
時刻グループ情報M4には、他の時刻グループについても同様に、グループ番号と開始時刻と終了時刻とが含まれ得る。
図31は、物理マシングループ情報の例を示す図である。物理マシングループ情報M5は、部分問題生成部160により生成される。部分問題生成部160は、生成した物理マシングループ情報M5を部分問題求解部170に送信する。部分問題求解部170は、受信した物理マシングループ情報M5をメモリに格納し、物理マシングループ情報M5に基づいて部分問題を求解する。物理マシングループ情報M5は、グループ番号、物理マシンの項目を含む。
【0193】
グループ番号の項目には、物理マシングループの識別番号が登録される。物理マシンの項目には、該当する物理マシングループに属する物理マシンの物理マシン名が登録される。例えば、物理マシングループ情報M5には、グループ番号“10”、物理マシン“PM01,PM03,PM04,PM05,・・・”という情報を含む。これはグループ番号“10”の物理マシングループには、物理マシン名“PM01,PM03,PM04,PM05,・・・”に対応する物理マシンが含まれることを示す。
【0194】
物理マシングループ情報M5には、他の物理マシングループについても同様に、グループ番号と物理マシンとが含まれ得る。
図32は、メンテナンススケジュールテーブルの例を示す図である。メンテナンススケジュールテーブル191は、スケジュール生成部180により生成され、イベント情報記憶部190に格納される。メンテナンススケジュールテーブル191は、物理マシン名、開始日時および終了日時の項目を含む。
【0195】
物理マシン名の項目には、メンテナンス対象の物理マシンの名称が登録される。開始日時の項目には、当該物理マシンのメンテナンスの開始日時が登録される。終了日時の項目には、当該物理マシンのメンテナンスの終了日時が登録される。
【0196】
例えば、メンテナンススケジュールテーブル191には、物理マシン名が“PM01”、開始日時が“2018-06-19T12:00:00.000Z”、終了日時が“2018-06-19T13:59:00.000Z”というレコードが登録されている。このレコードは、物理マシン名“PM01”の物理マシンのメンテナンスを2018年6月19日12時00分~2018年6月19日13時59分まで行う予定であることを示す。
【0197】
メンテナンススケジュールテーブル191には、メンテナンス対象の他の物理マシンに対しても同様に、物理マシン名と開始日時と終了日時とが登録される。
図33は、LMスケジュールテーブルの例を示す図である。LMスケジュールテーブル192は、スケジュール生成部180により生成され、イベント情報記憶部190に格納される。LMスケジュールテーブル192は、仮想マシン名、開始日時、終了日時、移動元、および移動先の項目を含む。
【0198】
仮想マシン名の項目には、LM対象の仮想マシンの名称が登録される。開始日時の項目には、該当の仮想マシンのLMの開始日時が登録される。終了日時の項目には、該当の仮想マシンのLMの終了日時が登録される。移動元の項目には、LMの移動元の物理マシンの名称(物理マシン名)が登録される。移動先の項目には、LMの移動先の物理マシンの名称(物理マシン名)が登録される。
【0199】
例えば、LMスケジュールテーブル192には、仮想マシン名が“server-90”、開始日時が“2018-06-20T11:06:00.000Z”、終了日時が“2018-06-20T11:09:00.000Z”、移動元が“PM02”、移動先が“PM01”というレコードが登録されている。このレコードは、仮想マシン名“server-90”の仮想マシンのLMを2018年6月20日11時6分に開始し、2018年6月20日11時9分に終了することを示す。また、当該LMの移動元が物理マシン名“PM02”の物理マシンであり、移動先が物理マシン“PM01”の物理マシンであることを示す。
【0200】
LMスケジュールテーブル192には、他の仮想マシンに対しても、仮想マシン名と開始日時と終了日時と移動元と移動先とが登録される。
なお、LMスケジュールテーブル192のうち、仮想マシン名、開始日時および終了日時の項目の内容が利用者に提示される内容である。また、LMスケジュールテーブル192のうち、仮想マシン名、開始日時、終了日時、移動元および移動先の項目が運用者に提示される内容である。
【0201】
次に、管理サーバ100による処理手順を説明する。
図34は、管理サーバの処理例を示すフローチャートである。以下、図34に示す処理をステップ番号に沿って説明する。
【0202】
(S1)スケジューラ112は、全利用者それぞれが使用する利用者端末500,600から、VM実施回避日時を示すメッセージを受信する。このメッセージは、LM実施回避日時情報M3を含む。
【0203】
(S2)スケジューラ112は、運用者が使用する運用者端末700から、日程調整実施を示すメッセージを受信する。このメッセージは、メンテナンス実施期間情報M1、メンテナンス対象マシン情報M2を含む。
【0204】
(S3)スケジューラ112は、メンテナンスの日程調整の処理を実行する。日程調整の処理の詳細は後述される。スケジューラ112は、日程調整の結果、各物理マシンのメンテナンススケジュールテーブル191および各仮想マシンのLMスケジュールテーブル192を作成する。
【0205】
(S4)スケジューラ112は、メンテナンスのスケジュールを利用者と運用者とに提示する。具体的には、スケジューラ112は、メンテナンススケジュールテーブル191およびLMスケジュールテーブル192に基づいて、利用者が利用する仮想マシンのLMの実施日時を示す画面情報を、利用者ごとに作成する。そしてスケジューラ112は、該当の利用者の利用者端末に、作成した画面情報を送信する。なお、スケジューラ112は、仮想マシン構成テーブル122や仮想マシン稼働テーブル123のユーザIDの項目により、各仮想マシンを利用する利用者を識別することができる。
【0206】
またスケジューラ112は、メンテナンススケジュールテーブル191およびLMスケジュールテーブル192に基づいて、各仮想マシンのLMおよび物理マシンのメンテナンス作業のスケジュールを示す画面情報を作成する。スケジューラ112は、作成した画面情報を運用者端末700に送信する。
【0207】
(S5)スケジューラ112は、作成したメンテナンス日程をインフラ管理部111に登録する。具体的には、スケジューラ112は、LMスケジュールテーブル192で示されるスケジュールで各仮想マシンのLMを行うようにインフラ管理部111を設定する。
【0208】
インフラ管理部111は、当該スケジュールに応じて、各仮想マシンのLMを物理マシン200,300,400,・・・に指示する。すなわち、管理サーバ100は、作成されたLMスケジュールテーブル192(スケジュール情報)に基づいて、該当の仮想マシンのLM(移動)をメンテナンス対象の物理マシンに指示する。これにより、運用者による物理マシンのメンテナンス作業を効率化できる。
【0209】
図35は、日程調整例を示すフローチャートである。以下、図35に示す処理をステップ番号に沿って説明する。以下に示す手順は、図34のステップS3に相当する。
(S11)グループ生成部150は、物理マシン集合と時刻集合とのそれぞれのグループ化を行い、時刻グループ情報M4と物理マシングループ情報M5とを生成する。グループ生成処理の詳細は後述される。グループ生成部150は、生成した時刻グループ情報M4と物理マシングループ情報M5とを出力する。
【0210】
(S12)部分問題生成部160は、時刻グループ情報M4と物理マシングループ情報M5に基づいて、メンテナンスのスケジューリング問題を分割し、複数の部分問題を生成する。部分問題生成処理の詳細は後述される。部分問題生成部160は、生成した複数の部分問題を出力する。
【0211】
(S13)部分問題求解部170は、生成された部分問題それぞれについて、メンテナンスのスケジュールを求解する。部分問題求解処理の詳細は後述される。部分問題求解部170は、部分問題ごとの求解結果を出力する。
【0212】
(S14)スケジュール生成部180は、部分問題ごとの求解結果に基づいて、システム全体のメンテナンスのスケジュールを生成する。スケジュール生成処理の詳細は後述される。生成されたスケジュールには、メンテナンススケジュールテーブル191とLMスケジュールテーブル192とが含まれる。
【0213】
(S15)スケジュール生成部180は、生成したスケジュールをイベント情報記憶部190に格納する。
図36は、グループ生成例を示すフローチャートの前半である。以下、図36に示す処理をステップ番号に沿って説明する。以下に示す手順は、図35のステップS11に相当する。
【0214】
(S21)グループ生成部150は、所定の間隔(例えば1分間隔)でメンテナンス実施期間を離散化することで得られた時刻集合(例えば1分ごとの時刻)を、時刻グループに分割する。例えばグループ生成部150は、メンテナンス実施期間情報M1に示されるメンテナンスの開始日時から終了日時までの期間を、時刻グループの分割単位で示される長さの期間に分割する。そしてグループ生成部150は、分割により生成された時間ごとの時刻グループを生成する。グループ生成部150は、生成した各時刻グループに、その時刻グループに対応する期間内の、離散化によって生成された時刻を含める。
【0215】
(S22)グループ生成部150は、インフラ構成情報に基づいて、空き物理マシンを有する物理マシングループ(Pe)を生成する。例えばグループ生成部150は、仮想マシン稼働テーブル123に基づいて、仮想マシンが稼働していない空き物理マシンを特定する。そしてグループ生成部150は、空き物理マシンから所定数の物理マシンを選択し、選択した物理マシンを有する物理マシングループ(Pe)を生成する。
【0216】
(S23)グループ生成部150は、残りの物理マシングループの分割数を示す変数mに、分割数の理論下限値m0を設定する。なおグループ生成部150は、分割数の理論下限値m0を、空き物理マシンを有する物理マシングループ(Pe)が既に生成されていることを考慮して、以下の式によって計算する。
【0217】
【数5】
【0218】
すなわち、グループ生成部150は、式(4)に示す全体の物理マシンの集合Pを、生成済みの物理マシングループ(Pe)に含まれていない物理マシンの集合に置き換えて、式(4)と同様の計算を行う。
【0219】
(S24)グループ生成部150は、物理マシングループ(Pe)に含まれない物理マシンの識別子をソートする。そしてグループ生成部150は、ソートした物理マシンの識別子の配列を、リストPcに登録する。ソートの優先順位は、例えば(第1の基準)LMの実施を回避すべき時間の長さ(降順)、(第2の基準)リソース量(CPUコア数、メモリ量など)(降順)の順である。
【0220】
(S25)グループ生成部150は、物理マシングループの初期化処理を行う。具体的にはグループ生成部150は、新たに生成するm個の物理マシングループそれぞれに、0からm-1までの番号を付与する。そしてグループ生成部150は、変数iをステップS26の処理を実行するごとに0から1ずつインクリメントしていき、iの値がm以上になったとき、物理マシングループの初期化処理を終了する。
【0221】
(S26)グループ生成部150は、i番目の物理マシングループGP[i]を空集合にする。
(S27)グループ生成部150は、ステップS26の処理をm回繰り返し実行し、新たに生成するm個の物理マシングループすべての初期化が終了すると、処理をステップS31(図37参照)に進める。
【0222】
なおステップS25~S27で生成された物理マシングループは仮の物理マシングループである。作成した仮の物理マシングループへすべての物理マシンを割り当てることに失敗した場合は、数を増やして仮の物理マシングループが再作成される。作成した仮の物理マシングループへすべての物理マシンを割り当てることができた場合、その仮の物理マシングループが最終的な物理マシングループとなる。
【0223】
図37は、グループ生成例を示すフローチャートの後半である。以下、図37に示す処理をステップ番号に沿って説明する。
(S31)グループ生成部150は、物理マシンのグループ化処理を行う。具体的には、グループ生成部150は、ステップS32~S36の処理を、リストPc内に物理マシンの識別子がなくなるか、ステップS34でNOと判定されるまで繰り返す。
【0224】
(S32)グループ生成部150は、リストPc内の先頭の物理マシンの識別子を、pcに設定する(pc←car(Pc))。グループ生成部150は、リストPc内の先頭以外の物理マシンの識別子を、新たにリストPcの要素とする(Pc←cdr(Pc))。これによりリストPcから先頭の要素が除外される。
【0225】
(S33)グループ生成部150は、pcに設定した識別子に対応する物理マシンの物理マシングループへの割り当てを行う(g=pm_grp(pc,Gp))。物理マシンの割り当て処理の詳細は後述される。割り当て処理により割り当て先となった物理マシングループの番号が、変数gに設定される。
【0226】
(S34)グループ生成部150は、変数gに値が設定されているか否かを判断する。グループ生成部150は、変数gに値が設定されている(g≠NULL)場合、処理をステップS35に進める。またグループ生成部150は、変数gに値が設定されていない(g=NULL)場合、処理をステップS37に進める。
【0227】
(S35)グループ生成部150は、割り当て先の物理マシングループGp[g]に、割り当て対象の物理マシンの識別子pcを追加する(Gp[g]←Gp[g]∪pc)。
(S36)グループ生成部150は、リストPc内に物理マシンの識別子がなくなった場合、物理マシングループを出力する。空き物理マシンの物理マシングループ(Pe)に含まれないすべての物理マシンについて、割り当て先の物理マシングループが決定できた場合に、ステップS36においてリストPc内に物理マシンの識別子がなくなったと判定される。その後、グループ生成部150は、グループ生成処理を終了する。
【0228】
(S37)グループ生成部150は、変数gに値が設定されていない場合、変数mの値が時刻集合の分割数n-1より小さいか否かを判断する。グループ生成部150は、変数mの値が時刻集合の分割数n-1より小さい場合、処理をステップS38に進める。またグループ生成部150は、変数mの値が時刻集合の分割数n-1以上の場合、処理をステップS39に進める。
【0229】
(S38)グループ生成部150は、変数mの値を1だけインクリメントし、処理をステップS24(図36参照)に進める。
(S39)グループ生成部150は、グループ化失敗メッセージを出力し、グループ化処理を終了する。この場合、図35のステップS12~S15の処理を行うことなく、日程調整処理がエラー終了する。
【0230】
図38は、物理マシンの割り当て例を示すフローチャートの前半である。以下、図38に示す処理をステップ番号に沿って説明する。
(S41)グループ生成部150は、変数iに初期値「0」を設定する。
【0231】
(S42)グループ生成部150は、i番目の物理マシングループGp[i]に含まれている物理マシンの識別子と、割り当て対象の物理マシンの識別子pcとを、物理マシンの集合Ptの要素として登録する(Pt←Gp[i]∪pc)。
【0232】
(S43)グループ生成部150は、pcの識別子で示される物理マシン内に、anti-affinityルールが適用される仮想マシン(VM)が存在するか否かを判断する。例えばグループ生成部150は、依存関係テーブル124から、anti-affinityルールが適用される仮想マシンの仮想マシン名を取得する。そしてグループ生成部150は、仮想マシン稼働テーブル123を参照し、割り当て対象の物理マシン上で稼働している仮想マシンの仮想マシン名として、取得した仮想マシン名の少なくとも1つが登録されているか否かを判断する。グループ生成部150は、取得した仮想マシン名が登録されている場合、anti-affinityルールが適用される仮想マシンが存在すると判断する。グループ生成部150は、該当する仮想マシンが存在する場合、処理をステップS44に進める。またグループ生成部150は、該当する仮想マシンが存在しない場合、処理をステップS46に進める。
【0233】
(S44)グループ生成部150は、集合Pt内の仮想マシンについて、anti-affinityを辺とするグラフ彩色問題を生成し、生成したグラフ彩色問題を求解する。求解することで、グラフ彩色問題の彩色数kが得られる。すなわち、anti-affinityルールを満たすための最小限の物理マシン数k(kは2以上の整数)が得られる。
【0234】
(S45)グループ生成部150は、グラフ彩色問題を求解することで得られた物理マシン数kが、空き物理マシンの物理マシングループ内の物理マシン数(|Pe|)以下か否かを判断する。グループ生成部150は、kが|Pe|以下であれば処理をステップS46に進める。またグループ生成部150は、kが|Pe|より大きければ処理をステップS57(図39参照)に進める。
【0235】
(S46)グループ生成部150は、pcの識別子で示される物理マシン内にLM回避時間帯を含む仮想マシンが存在するか否かを判断する。グループ生成部150は、該当する仮想マシンが存在する場合、処理をステップS51(図39参照)に進める。またグループ生成部150は、該当する仮想マシンが存在しない場合、処理をステップS55に進める(図39参照)。
【0236】
図39は、物理マシンの割り当て例を示すフローチャートの後半である。以下、図39に示す処理をステップ番号に沿って説明する。
(S51)グループ生成部150は、LM可能な時刻グループの確認処理を行う。具体的には、グループ生成部150は、ステップS52の処理を、時刻グループの集合Gτに含まれるすべての時刻グループτについて実行する。
【0237】
(S52)グループ生成部150は、物理マシンの集合Ptを1つの物理マシングループとしたときに、時刻グループτで制約を充足するLMができるか否かを確認する。この処理は、解集合プログラミングを用いて実装することができる。
【0238】
解集合プログラミングは、以下の文献が参考になる。
(文献3)G. Brewka, T. Eiter, and M. Truszczynski, “Answer set programming at a glance,” Communications of the ACM, vol. 54, no. 12, pp. 92-103, 2011.
解集合プログラミングによるLMができるか否かの確認処理の記述例は以下の通りである。
% 定数
%% 同時並列にLMできる仮想マシン数の上限
#const max_lm = 5.
% ファクト(定義)
%% 時刻:ts(T).
ts(0). ts(1). ts(2). %...
%% 仮想マシン:vm(V).
vm(0). vm(1). vm(2). %...
%% 仮想マシンVの初期配備先は物理マシンPs:init_accommo(V,Ps).
init_accommo(0,0). init_accommo(1,0). init_accommo(2,1). %...
%% 仮想マシンVのLM所要時間はD:lm_duration(V,D).
lm_duration(0,1). lm_duration(1,4). lm_duration(2,2). %...
%% 時刻Tでの仮想マシンVのLMを回避:lm_unavail(V,T).
lm_unavail(0,100). lm_unavail(0,101). lm_unavail(0,102). %...
% スケジューリング対象のアトム
%% 物理マシンPs上の仮想マシンVは時刻TにLMを開始:lm(V,T,Ps).
1 { lm(V,T,Ps) : ts(T) } 1 :- init_accommo(V,Ps).
% 一時的なアトム
%% 仮想マシンVは時刻TでLM中:l(V,T).
l(V,T) :- ts(T), lm(V,Ts,Ps,Pd), lm_duration(V,D), Ts <= T, T <= Ts+D-1.
%%LM移動元となる物理マシン:pm_src(Ps).
pm_src(Ps) :- init_accommo(V,Ps).
% ハード制約
%% 物理マシンPs内での並列LMを禁止
:- ts(T), pm_src(Ps), not #count { V : l(V,T), init_accommo(V,Ps) } <= 1.
%% LMの同時実行数を制限
:- ts(T), not #count { V : l(V,T) } <= max_lm.
%% 定義された時間内でLMを実施
:- lm(V,T,Ps,Pd), lm_duration(V,D), not ts(T..T+D-1).
%% 利用者が指定した時間帯でのLMを回避
:- l(V,T), lm_unavail(V,T).
以上が解集合プログラミングによるLMができるか否かの確認処理の記述である。
【0239】
このような解集合プログラミング技術を用いて、制約を充足するLMが可能か否かの判断処理を実行することができる。
(S53)グループ生成部150は、時刻グループτについてステップS52の処理が終了した場合、処理をステップS54に進める。
【0240】
(S54)グループ生成部150は、LM可能な時刻グループτが1以上存在するか否かを判断する。グループ生成部150は、LM可能な時刻グループτが存在する場合、処理をステップS55に進める。またグループ生成部150は、LM可能な時刻グループτが存在しない場合、処理をステップS57に進める。
【0241】
(S55)グループ生成部150は、物理マシンの集合Ptが、i番目の物理マシングループGp[i]の容量を満たすか否かを判断する。容量の判断対象の要素には、LM作業可能時間、メンテナンス作業可能時間、および各種リソース(CPUコア数、メモリなど)がある。例えばいずれの物理マシングループも同じ容量を有しているものとする。例えばグループ生成部150は、仮想マシン構成テーブル122を参照し、集合Ptに含まれる物理マシン上で稼働しているすべての仮想マシンのLM所要時間の合計が、LM作業可能時間の容量以下であれば、LM作業可能時間に関する容量を満たすと判断する。またグループ生成部150は、メンテナンス対象マシン情報M2を参照し、集合Ptに含まれる物理マシンのメンテナンス所要時間の合計が、メンテナンス作業可能時間の容量以下であれば、メンテナンス作業可能時間に関する容量を満たすと判断する。さらに例えばグループ生成部150は、物理マシン構成テーブル121を参照し、集合Ptに含まれる物理マシンのリソースの種別ごとのリソース量の合計が、該当種別のリソースの容量以下であれば、リソースに関する容量を満たすと判断する。
【0242】
グループ生成部150は、判断対象の要素すべてについて、容量が満たされる場合、処理をステップS56に進める。またグループ生成部150は、少なくとも1つの要素に関して容量が満たされない場合、処理をステップS57に進める。
【0243】
(S56)グループ生成部150は、割り当て対象の物理マシンpcをi番目の物理マシングループGp[i]に割り当て可能であると判断し、変数iの値を変数gに設定する。その後、グループ生成部150は、物理マシンの割り当て処理を終了する。
【0244】
(S57)グループ生成部150は、割り当てた対象の物理マシンpcをi番目の物理マシングループGp[i]に割り当て不可能であると判断し、変数iの値が、物理マシングループ番号m-1より小さいか否かを判断する。グループ生成部150は「i<m-1」であれば、処理をステップS58に進める。またグループ生成部150は「i<m-1」でなければ「g=NULL」として、物理マシン割り当て処理を終了する。
【0245】
(S58)グループ生成部150は、変数iの値を1だけインクリメントして、処理をステップS42(図38参照)に進める。
図36図39に示したグループ化処理より、時刻グループと物理マシングループとが生成される。その後、部分問題生成部160により、部分問題生成処理が実行される。
【0246】
部分問題生成処理では、物理マシングループごとに、その物理マシングループの求解を行う時刻グループが1つずつ割り当てられる。
なお、図38図39に示した物理マシンの割り当て処理では、グループ生成部150は、物理マシングループを物理マシングループ番号に基づいて昇順に選択している。そしてグループ生成部150は、物理マシンを割り当て可能であると最初に判断した物理マシングループに物理マシンを割り当てている。すなわちグループ生成部150は、最初に制約条件を満たした物理マシングループに、割り当て対象の物理マシンを割り当てている。これは、FFD(First-Fit Decreasing)と呼ばれる手法であるが、物理マシンの割り当て先の決定方法はFFDに限定されない。
【0247】
物理マシンの割り当て先の決定方法は、FFD以外にも例えばBFD(Best-Fit Decreasing)と呼ばれる手法がある。BFDを採用する場合、グループ生成部150は、制約条件を充足可能な物理マシングループの中で所定の基準値が最良となる物理マシングループを、割り当て対象の物理マシンの割り当て先に決定する。所定の基準値としては、例えばメモリなどのリソースの空き容量を示す値である。この場合、グループ生成部150は、リソースの空き容量が最小の物理マシングループに、割り当て対象の物理マシンを割り当てる。
【0248】
図40は、生成する部分問題を説明する図である。図40の例では、4つの物理マシングループg0~g3と5つの時刻グループτ0~τ4とが生成されている。この場合、物理マシングループと時刻グループとの組み合わせは20通り存在する。グループ生成部150は、ステップS52において、これらの組み合わせについて、制約を充足するLMが可能か否かを確認している。グループ生成部150は、制約を充足するLMが不可能な物理マシングループと時刻グループとの組み合わせについては、UNSATとする。
【0249】
部分問題生成部160は、まず空き物理マシンのみの物理マシングループg0に対して、対応する時間帯が最も早い時刻グループτ0を割り当てる。次に部分問題生成部160は、1つの時刻グループは1つの物理マシングループに割り当て可能という条件で、物理マシングループg1~g3に対して、できるだけ早い時間帯の時刻グループを割り当てる。ただし部分問題生成部160は、UNSATとされている組み合わせとなるような割り当ては行わない。図40の例では、物理マシングループg1に時刻グループτ2が割り当てられ、物理マシングループg2に時刻グループτ3が割り当てられ、物理マシングループg3に時刻グループτ1が割り当てられたものとする。部分問題生成部160は、割り当てられた物理マシングループと時刻グループとの組み合わせそれぞれについて、求解する部分問題を生成する。
【0250】
図41は、部分問題生成例を示すフローチャートである。以下、図41に示す処理をステップ番号に沿って説明する。以下に示す手順は、図35のステップS12に相当する。
(S61)部分問題生成部160は、時刻グループと物理マシングループとに基づいて、空き物理マシンのみを含む物理マシングループPeに、時刻グループを割り当てる。
【0251】
(S62)部分問題生成部160は、空き物理マシンのみを含む物理マシングループPe以外の物理マシングループに、複数の時刻グループそれぞれを割り当てる。
なお、ステップS61,S62に示す時刻グループの割り当ては、解集合プログラミング技術を用いて実装することができる。解集合プログラミングによる時刻グループの割り当て処理の記述例は以下の通りである。
% ファクト(定義)
%% 物理マシングループ:pm_group(G).
pm_group(0). pm_group(1). pm_group(2). %...
%% 時刻グループ:day(D).
day(1). day(2). day(3). %...
%% 物理マシングループ G は時刻グループDでLM可能:sat(G,D).
sat(1,1). sat(2,1). sat(2,2). %...
% スケジューリング対象のアトム
%% 物理マシングループ G は時刻グループDでLM(メンテナンス)を実施:ans(G,D).
1 { ans(G,D) : sat(G,D) } 1 :- pm_group(G).
% ハード制約
%% 各時刻グループに割り当てる物理マシングループは最大1台
:- day(D), not #count { G : ans(G,D) } <= 1.
% 目的関数
%% メンテナンスを実施する日程を最小化
:~ Sd = #sum { D : ans(G,D) }. [Sd]
以上が解集合プログラミングによる時刻グループの割り当て処理の記述である。
【0252】
(S63)部分問題生成部160は、複数の物理マシングループそれぞれについて、割り当てた時刻グループをスケジュール期間とした、メンテナンスのスケジューリングに関する部分問題を生成する。その後、部分問題生成部160は、部分問題生成処理を終了する。
【0253】
生成された部分問題は、部分問題求解部170によって求解される。
図42は、部分問題求解例を示すフローチャートである。以下、図42に示す処理をステップ番号に沿って説明する。以下に示す手順は、図35のステップS13に相当する。
【0254】
(S71)部分問題求解部170は、生成された部分問題ごとにその部分問題を求解する。具体的には、部分問題求解部170は、ステップS72の処理を部分問題ごとに実行する。
【0255】
(S72)部分問題求解部170は、制約充足判定ソルバを用いて部分問題を求解する。部分問題の求解は、解集合プログラミング技術を用いて実装することができる。解集合プログラミングによる部分問題求解処理の記述例は以下の通りである。
% 定数
%% 物理マシンのメンテナンスに要する時間
#const maint_duration = 15.
%% 同時並列にLMできる仮想マシン数の上限
#const max_lm = 5.
%% 同時並列にメンテナンスを実施できる物理マシン数の上限
#const max_maint = 5.
%% 物理マシン内で最初と最後に実施されるLMの最大許容時間差
# const max_td = 120.
% ファクト(定義)
%% 時刻:ts(T).
ts(0). ts(1). ts(2). %...
%% 仮想マシン:vm(V).
vm(0). vm(1). vm(2). %...
%% メンテナンス対象の物理マシン:pm(P).
pm(0). pm(1). pm(2). %...
%% LM移動先の候補となる物理マシン:tmp_pm(P).
tmp_pm(100). tmp_pm(101). tmp_pm(102). %...
%% 仮想マシンVの初期配備先は物理マシンPs:init_accommo(V,Ps).
init_accommo(0,0). init_accommo(1,0). init_accommo(2,1). %...
%% 仮想マシンVのLM所要時間はD:lm_duration(V,D).
lm_duration(0,1). lm_duration(1,4). lm_duration(2,2). %...
%% 仮想マシンのリソース(CPUコア数,メモリ量):vm_cpu(V,Cv). vm_mem(V,Cm).
vm_cpu(0,2). vm_cpu(1,1). vm_cpu(2,4). %...
vm_mem(0,4096). vm_mem(1,16384). vm_mem(2,8192). %...
%% 物理マシンのリソース(CPUコア数,メモリ量):pm_cpu(P,Cp). pm_mem(P,Mp).
pm_cpu(0,56). pm_cpu(1,56). pm_cpu(2,56). %...
pm_mem(0,256000). pm_mem(1,256000). pm_mem(2,256000). %...
%% 時刻Tでの仮想マシンVのLMを回避:lm_unavail(V,T).
lm_unavail(0,100). lm_unavail(0,101). lm_unavail(0,102). %...
%% 時刻Tでの物理マシンPのメンテナンスを回避:m_unavail(P,T).
m_unavail(1,300). m_unavail(1,301). m_unavail(1,302). %...
%% anti-affinity グループ:aa_rule(G).
aa_rule(0). aa_rule(1). aa_rule(2). %...
%% 仮想マシンVは anti-affinity グループGに所属:aa_group(G,V).
aa_group(0,10). aa_group(0,11). aa_group(0,20). %...
% スケジューリング対象のアトム
%% 仮想マシンVは時刻TにLMを開始(物理マシンPsからPdへ移動):lm(V,T,Ps,Pd).
1 { lm(V,T,Ps,Pd) : ts(T), pm(Pd), Ps!=Pd } 1 :- init_accommo(V,Ps).
%% 物理マシンPのメンテナンスを時刻Tに開始:maint(P,T).
1 { maint(P,T) : ts(T) } 1 :- pm(P), not tmp_pm(P).
% 一時的なアトム
%% 仮想マシンVは時刻TでLM中:l(V,T).
l(V,T) :- ts(T), lm(V,Ts,Ps,Pd), lm_duration(V,D), Ts <= T, T <= Ts+D-1.
%% 物理マシンPは時刻Tでメンテナンス中:m(P,T).
m(P,T) :- ts(T), maint(P,Tm), Tm <= T, T <= Tm+maint_duration-1.
%% LM移動元(先)となる物理マシン:pm_src(Ps). pm_dst(Pd).
pm_src(Ps) :- init_accommo(V,Ps).
pm_dst(Pd) :- lm(V,T,Ps,Pd).
%% LM実施前(後)の空き物理マシン:empty_src(P). empty_dst(P).
empty_src(P) :- pm(P), #count { V : lm(V,T,P,Pd) } == 0.
empty_dst(P) :- pm(P), #count { V : lm(V,T,Ps,P) } == 0.
:- Ps = #count { P : empty_src(P) }, not #count { P : empty_dst(P) } >= Ps.
% ハード制約
%% 物理マシンPs内での並列LMを禁止
:- ts(T), pm_src(Ps), not #count { V : l(V,T), init_accommo(V,Ps) } <= 1.
%% 物理マシンPsからの全LMが終わった後にPsのメンテナンスを実施
:- pm_src(Ps), maint(Ps,Tm), Ts = #max { T+D-1 : lm(V,T,Ps,Pd), lm_duration(V,D) }, not Ts < Tm.
%% 物理マシンPdへのLMはPdのメンテナンスが終わった後
:- pm_dst(Pd), maint(Pd,Tm), Td = #min { T : lm(V,T,Ps,Pd) }, not Tm+maint_duration-1 < Td.
%% ΣV∈Pd仮想マシンVのリソース量≦物理マシンPdのリソース量
:- pm_dst(Pd), pm_cpu(Pd,Cp), not #sum { Cv,V : vm_cpu(V,Cv), lm(V,T,Ps,Pd) } <= Cp.
:- pm_dst(Pd), pm_mem(Pd,Mp), not #sum { Mv,V : vm_mem(V,Mv), lm(V,T,Ps,Pd) } <= Mp.
%% anti-affinity グループGに所属する仮想マシン間での並列LMを禁止
:- ts(T), aa_rule(G), not #count { V : l(V,T), aa_group(G,V) } <= 1.
%% anti-affinity グループGに所属する仮想マシンについて同一物理マシン上での稼働を禁止
:- aa_rule(G), Vaa = #count { V : aa_group(G,V) }, Paa = #count { Pd : lm(V,T,Ps,Pd), aa_group(G,V) }, not Vaa = Paa.
%% LMの同時実行数を制限
:- ts(T), not #count { V : l(V,T) } <= max_lm.
%% メンテナンスの同時実行数を制限
:- ts(T), not #count { P : m(P,T) } <= max_maint.
%% 定義された時間内でLMを実施
:- lm(V,T,Ps,Pd), lm_duration(V,D), not ts(T..T+D-1).
%% 利用者が指定した時間帯でのLMを回避
:- l(V,T), lm_unavail(V,T).
%% 定義された時間内でメンテナンスを実施
:- maint(P,T), not ts(T..T+maint_duration-1).
%% 運用者が指定した時間帯でのメンテナンスを回避
:- m(P,T), m_unavail(P,T).
%% 物理マシンPs内で最初と最後に実施されるLMの時間差を制限
:- pm_src(Ps), Tmax = #max { T+D-1 : lm(V,T,Ps,Pd), lm_duration(V,D) }, not #min { T+max_td : lm(V,T,Ps,Pd) } >= Tmax.
% ソフト制約
%% 初期配備先が同じ仮想マシン間でLM移動先はなるべく一緒
:~ pm_src(Ps), P = #count { Pd : lm(V,T,Ps,Pd) }. [P@1,Ps]
以上が解集合プログラミングによる部分問題求解処理の記述である。
【0256】
(S73)部分問題求解部170は、すべての部分問題の求解が終了すると、求解結果を出力し、部分問題求解処理を終了する。なおステップS71~S73の処理は、部分問題ごとに並列で実行することも可能である。
【0257】
すべての部分問題の求解結果が得られると、その求解結果に基づいてスケジュール生成部180によりスケジュール生成処理が行われる。
図43は、スケジュール生成例を示すフローチャートである。以下、図43に示す処理をステップ番号に沿って説明する。以下に示す手順は、図35のステップS14に相当する。
【0258】
(S81)スケジュール生成部180は、空き物理マシンのみの物理マシングループの求解結果以外の解の集合Sに含まれる求解結果を、対応する時刻グループの時間帯が早い順にソートし、リストS’に登録する(S’←sol_sort(S))。
【0259】
(S82)スケジュール生成部180は、空き物理マシンのみの物理マシングループPeを、移動先の物理マシングループPdに設定する。
(S83)スケジュール生成部180は、解の編集処理を行う。具体的には、スケジュール生成部180は、ステップS84~S86の処理を、リストS’内に部分問題がなくなるまで実行する。
【0260】
(S84)スケジュール生成部180は、リストS’の先頭の求解結果を、編集対象の求解結果sに設定する(s←car(S’))。またスケジュール生成部180は、リストS’の先頭以外の求解結果を、新たにリストS’の要素とする(S’←cdr(S’))。これによりリストS’から先頭の要素が除外される。
【0261】
(S85)スケジュール生成部180は、編集対象の求解結果sにおけるLMの移動先を、物理マシングループPd内の物理マシンに変更する。
(S86)スケジュール生成部180は、求解結果sでスケジューリングされている物理マシングループPsを、移動先の物理マシングループPdに設定する。
【0262】
(S87)スケジュール生成部180は、リストS’内に求解結果がなくなった場合、処理をステップS88に進める。
(S88)スケジュール生成部180は、空き物理マシンのみの物理マシングループの求解結果と、ステップS83~S87で編集した求解結果とを結合し、システム全体のメンテナンスのスケジュールを出力する。
【0263】
このようにして、メンテナンスのスケジュールを効率的に作成することができる。しかも、利用者が仮想マシンのLM実施回避日時を指定した場合には、その仮想マシンについては、LM実施回避日時以外の日時にLMを行うようなスケジュールが作成される。なお利用者は、例えば利用者端末500,600に表示されるLM回避日時設定画面を用いて、LM実施回避日時を指定することができる。
【0264】
図44は、LM実施回避日時設定画面の例を示す図である。画面800は、例えば管理サーバ100から利用者端末500に提供される画面情報に基づいて、利用者端末500で表示される。例えば利用者端末500は、画面800に対応する画面情報を管理サーバ100から受信し、当該画面情報に基づいて、利用者端末500に内蔵または接続されたディスプレイ(表示装置)により、画面800を表示する。ここで、利用者端末500は、ユーザID“user3”の利用者によって利用されるものとする。
【0265】
スケジューラ112は、仮想マシン構成テーブル122(または、仮想マシン稼働テーブル123)に基づいて、LMスケジュールテーブル192に登録された各仮想マシンの利用者のユーザIDを特定する。また、ユーザIDに対応する利用者のユーザ名や端末のアドレスの情報は、RAM102またはHDD103に予め格納されている。スケジューラ112は、当該情報を参照することで、ユーザ名や画面情報の送信先を特定する。
【0266】
画面800は、VMシンボル801,802、LM実施回避日時シンボル811、およびボタン821,822を有する。
VMシンボル801,802は、該当の利用者が利用する、LM対象の仮想マシンを示す。例えば、VMシンボル801は、仮想マシン名“server-90”の仮想マシンを示す。また、VMシンボル802は、仮想マシン名“mysql-67”の仮想マシンを示す。画面800の例では、VMシンボル801,802それぞれの行の左側から右側へ向かう方向を時系列の正方向として、各仮想マシンのLM実施回避日時を示す。
【0267】
LM実施回避日時シンボル811は、利用者によるLM実施回避日時の選択を受け付けるためのシンボルである。例えば、利用者は、利用者端末500に接続されたポインティングデバイスを用いて、所望の仮想マシンの行にLM実施回避日時シンボル811を配置する。そして、利用者は、当該ポインティングデバイスを用いて、LM実施回避日時シンボル811の横方向の幅を変えることで、当該仮想マシンに対するLM実施回避日時を選択する。LM実施回避日時シンボル811の例では、仮想マシン名“mysql-67”の仮想マシンに対するLM実施回避日時として、2018年6月20日11時50分~同日17時59分が選択されている。
【0268】
ボタン821は、LM実施回避日時シンボル811によるLM実施回避日時の選択を解除するためのボタンである。
ボタン822は、LM実施回避日時シンボル811を用いて選択されたLM実施回避日時を設定するためのボタンである。利用者端末500は、ボタン822に対する入力を受け付けると、選択された仮想マシンのLM実施回避日時を示すLM実施回避日時情報M3を含む回避日時メッセージを管理サーバ100に送信する。
【0269】
図45は、利用者に対するLMスケジュール画面の例を示す図である。画面800aは、管理サーバ100から利用者端末500に対して提供される画面の例である。画面800aは、画面800によるLM実施回避日時の選択に応じて調整されたLMスケジュールを示す。画面800aは、VMシンボル801,802、LMシンボル831,832、およびLM実施回避日時シンボル811を有する。
【0270】
LMシンボル831,832は、各仮想マシンのLMの実施予定の日時を示す。例えば、LMシンボル831は、仮想マシン名“server-90”の仮想マシンに対して、2018年6月20日11時06分~同日11時09分にLMを実施することを示す。また、例えば、LMシンボル832は、仮想マシン名“mysql-67”の仮想マシンに対して、2018年6月20日11時10分~同日11時11分にLMを実施することを示す。
【0271】
図44図45には、利用者端末500に提供される画面800,800aを例示したが、利用者端末600にも、当該利用者端末600の利用者が利用する仮想マシンに関して、LM実施回避日時設定画面またはLMスケジュール画面が提供される。
【0272】
図46は、運用者に対するメンテナンススケジュール画面の例を示す図である。画面900は、管理サーバ100から運用者端末700に対して提供される画面の例である。画面900は、システム全体のLMスケジュールに対応する物理マシンのメンテナンススケジュールを示す。運用者端末700は、画面900を描画するための画面情報を管理サーバ100から受信し、当該画面情報に基づいて、運用者端末700に内蔵または接続されたディスプレイ(表示装置)により、画面900を表示する。
【0273】
画面900は、PMシンボル901~907、LMスケジュールシンボル911~917、およびメンテナンスシンボル921~927を有する。
PMシンボル901~907は、メンテナンス対象の物理マシンを示す。例えば、PMシンボル901は、物理マシン名“PM01”の物理マシンを示す。画面900の例では、PMシンボル901~907それぞれの行の左側から右側へ向かう方向を時系列の正方向として、各物理マシン上の仮想マシンのLM予定、およびメンテナンス作業スケジュールを示す。
【0274】
LMスケジュールシンボル911~917は、各仮想マシンのLM予定を示す。LMスケジュールシンボル911~917は、LMスケジュールテーブル192の内容を反映している。例えば、LMスケジュールシンボル911は、物理マシン名“PM01”の物理マシン上の複数の仮想マシンのLM予定を示す。
【0275】
メンテナンスシンボル921~927は、物理マシンのメンテナンススケジュールを示すシンボルである。メンテナンスシンボル921は、メンテナンススケジュールテーブル191の内容を反映しており、例えばメンテナンスシンボル921は、物理マシン名“PM01”の物理マシンに対するメンテナンススケジュールを示す。
【0276】
画面900を参照した運用者は、6月19日に物理マシン名“PM01”、“PM03”、“PM04”、“PM05”などの物理マシンのLMを実施し、同日にそれらの物理マシンのメンテナンス作業を実施することを把握する。また運用者は、6月20日に物理マシン名“PM02”などの物理マシンのLMを実施し、同日にそれらの物理マシンのメンテナンス作業を実施することを把握する。さらに運用者は、6月21日に物理マシン名“PM9X”、“PM9Y”などの物理マシンのLMを実施し、同日にそれらの物理マシンのメンテナンス作業を実施することを把握する。
【0277】
このようなメンテナンススケジュールによれば、6月21日には、システム全体のメンテナンスが完了する。すなわち物理マシングループの数が抑制されていることで、時刻グループあたりにメンテナンスを実施する物理マシン数が増加し、システム全体のメンテナンスに要する期間が短くなっている。
【0278】
運用者端末700には、指定した時間グループにおけるメンテナンススケジュールの詳細を表示させることもできる。
図47は、運用者に対するメンテナンススケジュール詳細表示画面の例を示す図である。画面900aは、管理サーバ100から運用者端末700に対して提供される画面の例である。画面900aは、画面900に示されたスケジュールのうちの、6月20日のスケジュールの詳細を示す。運用者端末700は、画面900aを描画するための画面情報を管理サーバ100から受信し、当該画面情報に基づいて、運用者端末700に内蔵または接続されたディスプレイ(表示装置)により、画面900aを表示する。
【0279】
画面900aは、PMシンボル901,902、LMスケジュールシンボル911a~911d,912a~912d、メンテナンスシンボル922、およびVM稼働スケジュールシンボル931a~931d,932a~932dを有する。
【0280】
LMスケジュールシンボル911a~911dは、物理マシン名“PM01”の物理マシンを移動先として複数の仮想マシンを移動させるLMの予定を示す。LMスケジュールシンボル912a~912dは、物理マシン名“PM02”の物理マシンを移動元として複数の仮想マシンを移動させるLMの予定を示す。LMスケジュールシンボル911a~911d,912a~912dは、LMスケジュールテーブル192の内容を反映している。
【0281】
VM稼働スケジュールシンボル931a~931dは、物理マシン名“PM01”の物理マシン上の複数の仮想マシンの稼働予定を示す。VM稼働スケジュールシンボル932a~932dは、物理マシン名“PM02”の物理マシン上の複数の仮想マシンの稼働予定を示す。VM稼働スケジュールシンボル931a~931d,932a~932d内には、対応する仮想マシンの仮想マシン名が表示されている。
【0282】
LMの移動先となる物理マシンでは、各仮想マシンのLM後に、その仮想マシンを稼働させるスケジュールとなっている。またLMの移動元となる物理マシンでは、各仮想マシンの稼働後に、その仮想マシンのLMを実施するスケジュールとなっている。例えば仮想マシン名“server-90”は、LM実施前には物理マシン名“PM02”の物理マシンで稼働しており、物理マシン名“PM01”の物理マシンへのLMが11時6分から11時9分の間に実施される。その後、仮想マシン名“server-90”は物理マシン名“PM01”の物理マシン上で稼働する。
【0283】
このように管理サーバ100は、メンテナンスのスケジュールに関する問題を、複数の部分問題に分割して求解するため、スケジュールを効率的に計算することができ、計算時間が短くなる。その結果、大規模なシステムのメンテナンススケジュールであっても、実用的な時間で算出可能である。
【0284】
しかも、物理マシン集合の分割数を、制約を満たす範囲で最少の分割数とするため、短い作業日数でのメンテナンススケジュールを作成することができる。換言すると、物理マシン集合の分割数が多くなると、作業日数が長期化する。
【0285】
図48は、物理マシン集合の分割数を多くした場合のメンテナンススケジュール画面の例(比較例)である。画面900bには、グループ生成部150を用いずに物理マシン集合の分割数を任意に指定した場合のメンテナンススケジュールが表示されている。図48の例における物理マシン集合の分割数は、図46に示した例の分割数よりも大きい値である。
【0286】
画面900bに示されたスケジュールを図46に示したスケジュールと比べると、物理マシン名“PM04”、“PM05”の物理マシンのLMおよびメンテナンス作業の実施日が、6月19日から6月22日にずれている。また物理マシン名“PM9X”、“PM9Y”の物理マシンのLMおよびメンテナンス作業の実施日が、6月21日から6月27日にずれている。そのため図48に示したスケジュール通りにメンテナンスを実施すると、メンテナンスが6月27日までかかる。
【0287】
このように作業日数に差があるのは、物理マシン集合の分割数が多くなることで、時刻グループ(1日単位)あたりにメンテナンスを実施できる物理マシン数が減少するためである。1日あたりにメンテナンスを実施できる物理マシン数が少なくなれば、すべての物理マシンのメンテナンスを実施するのに多くの日数がかかる。
【0288】
それに対して、管理サーバ100では、グループ生成部150が物理マシン集合の分割数として、制約を満たす範囲で最少の分割数を自動で決定するため、図46に示したように、短い作業日数による効率的なスケジュールを作成することができる。しかも、メンテナンスを短期間で実施することができれば、各物理マシンへのパッチ適用などの作業が早期に実施されることとなり、システムの信頼性が向上する。
【0289】
さらにLM実施回避日時を考慮したスケジューリングが可能なため、LMを実施することによる利用者の業務への影響を抑止することができる。その結果、システム全体としてのサービス品質が向上する。
【0290】
なお第2の実施の形態では、ユーザは、使用する仮想マシンのLMを回避する時間帯を指定しているが、LMを許容する時間帯を指定してもよい。LMを許容する時間帯が指定された場合、管理サーバ100は、指定された時間帯を除く時間帯がLM回避時間帯であると判断する。
【0291】
さらに第1の実施の形態の情報処理は、処理部1bにプログラムを実行させることで実現できる。また、第2の実施の形態の情報処理は、プロセッサ101にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体13に記録できる。
【0292】
例えば、プログラムを記録した記録媒体13を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体13に記録されたプログラムまたは他のコンピュータから受信したプログラムを、RAM102やHDD103などの記憶装置に格納し(インストールし)、当該記憶装置からプログラムを読み込んで実行してもよい。
【符号の説明】
【0293】
1 スケジューリング装置
1a 記憶部
1b 処理部
2,3,4,・・・ 物理マシン
2a,2b,3a,3b,4a,4b,・・・ 仮想マシン
5 端末装置
D1 構成情報
D2 時間情報
D3 制約条件
d1 物理マシン構成情報
d2 仮想マシン構成情報
d3 仮想マシン時間情報
d4 物理マシン時間情報
N1 ネットワーク
U1 運用者
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45
図46
図47
図48