(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023170055
(43)【公開日】2023-12-01
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06F 11/20 20060101AFI20231124BHJP
G06F 3/06 20060101ALI20231124BHJP
G06F 9/50 20060101ALI20231124BHJP
G06F 16/11 20190101ALI20231124BHJP
【FI】
G06F11/20 666
G06F3/06 304F
G06F3/06 304N
G06F9/50 150D
G06F16/11
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022081510
(22)【出願日】2022-05-18
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】東 祐一
【テーマコード(参考)】
5B034
【Fターム(参考)】
5B034BB02
5B034CC01
5B034DD06
(57)【要約】
【課題】ハイブリッドクラウドのメイン環境からバックアップ環境へシステムが切替えられる際に、切替え後のバックアップ環境におけるシステムの処理遅延を軽減する情報処理装置及び情報処理方法を提供する。
【解決手段】ハイブリッドクラウドにおけるリモートコピー処理装置21は、パブリッククラウド5上のホスト51からストレージ装置22に格納された各データへのアクセス頻度に関するアクセス頻度とアクセス局所性を取得及び管理するデータアクセス頻度管理部212a及びデータアクセス局所性管理部212bと、システムの優先度とアクセス頻度とアクセス局所性とに基づいてリモートコピー処理の対象データを判定するコピーデータ判定部212cと、対象データのリモートコピー処理の実行開始をストレージ装置22に対して指示するデータコピー実行部213cとを有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
システムが稼働するホストが設けられるクラウドと、前記クラウド以外に設けられ、前記ホストがデータを読書きするストレージ装置とを有するハイブリッドクラウドにおいて、メイン環境のハイブリッドクラウドから前記ハイブリッドクラウドへのデータのリモートコピー処理を実行する情報処理装置であって、
前記メイン環境のハイブリッドクラウドは、前記システムが稼働するメイン環境のホストが設けられるクラウドと、該クラウド以外に設けられ、前記メイン環境のホストがデータを読書きするメイン環境のストレージ装置と、を有し、
前記ホストから前記ストレージ装置に格納された各データへのアクセス頻度に関するアクセス頻度情報を取得するアクセス頻度情報取得部と、
前記システムの優先度と前記アクセス頻度情報とに基づいて前記リモートコピー処理の対象データを判定するコピーデータ判定部と、
前記対象データの前記リモートコピー処理の実行開始を前記ストレージ装置に対して指示するデータコピー実行部と
を有することを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記メイン環境のホストのホスト情報を取得するホスト情報取得部と、
前記ホスト及び前記ストレージ装置の起動を指示すると共に、前記ホストのスケールイン/スケールアウトを行うホスト数の変更及び前記ストレージ装置へのリソース割当ての変更を指示する構成変更指示部と、
前記リモートコピー処理のコピー時間の履歴情報を取得するコピー処理情報取得部と、
前記履歴情報に基づいて前記対象データの前記リモートコピー処理の実行の指示から開始までのコピー待ち時間の予測値である予測コピー待ち時間を算出し、該予測コピー待ち時間が所定閾値の上限を超過するかを判定し、該予測コピー待ち時間が該所定閾値の上限を超過する場合に、該予測コピー待ち時間が該所定閾値の上限以下となるように、前記構成変更指示部に対して前記ホスト数の変更又は前記リソース割当ての変更を指示する予測コピー待ち時間算出部と、を有し、
前記ホスト情報が前記メイン環境のクラウドでの障害発生を示す場合に、
前記構成変更指示部は、
優先度が最も高い前記システムを再開対象システムとして前記クラウドで稼働させるために前記ホスト及び前記ストレージ装置の起動を指示し、
前記データコピー実行部は、
前記予測コピー待ち時間算出部によって前記予測コピー待ち時間が前記所定閾値の上限以下であると判定された場合に、前記対象データの前記リモートコピー処理の実行開始を前記ストレージ装置に対して指示する
ことを特徴とする情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記アクセス頻度情報は、
データを識別するデータID毎の前記ホストによる前記ストレージ装置に対する第1のアクセス回数と、前記ホスト毎かつ前記データID毎の前記ホストによる前記ストレージ装置に対する第2のアクセス回数とであり、
前記コピーデータ判定部は、
前記第1のアクセス回数の総合計に対する前記データID毎の前記第1のアクセス回数の割合であるアクセス割合と、
前記データID毎の前記第2のアクセス回数の合計に対する前記再開対象システムのオートスケールグループに属する前記ホストであるオートスケールホスト毎かつ該データID毎の前記第2のアクセス回数の合計の割合であるアクセス局所性と、
前記オートスケールホスト毎の前記第2のアクセス回数の合計に対する前記再開対象システムの前記ホスト毎かつ前記データID毎の前記第2のアクセス回数の合計の割合であるアクセス共有性と、を算出し、
前記アクセス割合、前記アクセス局所性、及び前記アクセス共有性の少なくとも何れかがそれぞれの判定閾値を超過する前記データIDのデータを、前記対象データと判定する
ことを特徴とする情報処理装置。
【請求項4】
請求項2に記載の情報処理装置であって、
前記コピーデータ判定部は、
前記履歴情報に基づいて、一定時間の間に行われた前記リモートコピー処理のコピー指示からコピー完了までの所要時間の平均である平均データコピー時間と、一定時間の間に行われた単位時間当たりの前記リモートコピー処理の指示回数である平均到着率と、単位時間当たりの前記リモートコピー処理の実行回数である平均サービス率と、を算出し、
前記平均データコピー時間、前記平均到着率、及び前記平均サービス率に基づいて、前記予測コピー待ち時間を算出する
ことを特徴とする情報処理装置。
【請求項5】
請求項2に記載の情報処理装置であって、
前記所定閾値は、前記再開対象システムのレスポンス性能のSLA(Service Level Agreement)が充足されるように予め設定された値である
ことを特徴とする情報処理装置。
【請求項6】
請求項2に記載の情報処理装置であって、
前記ストレージ装置の前記リソース割当ての変更は、
前記ストレージ装置に対して割当てられている前記リモートコピー用の全てのポートが、利用率が閾値以下となるように該ポートの割当てを変更することと、
前記ストレージ装置に対して割当てられている前記リモートコピー用の全てのキャッシュメモリの利用率が閾値以下となるように該キャッシュメモリの割当てを変更することと、
前記リモートコピー処理の並列処理数を増加又は減少することと、の何れかを含む
ことを特徴とする情報処理装置。
【請求項7】
請求項2に記載の情報処理装置であって、
前記ホスト数の変更では、
前記一定値未満の低い優先度の前記システムの前記ホスト数を減少させる
ことを特徴とする情報処理装置。
【請求項8】
請求項7に記載の情報処理装置であって、
前記ホスト数の変更では、
前記一定値未満の低い優先度の前記システムのうち、前記ホストによる前記メイン環境のストレージ装置に対するアクセス回数が一定以上のシステムの前記ホスト数を減少させる
ことを特徴とする情報処理装置。
【請求項9】
請求項2に記載の情報処理装置であって、
全ての前記システムの再開後に、
前記予測コピー待ち時間算出部は、
前記予測コピー待ち時間が前記所定閾値の上限を超過するかを判定し、
前記予測コピー待ち時間が前記所定閾値の上限を超過する場合に、該予測コピー待ち時間が該所定閾値の上限以下となるように、前記構成変更指示部に対して前記ホスト数の変更又は前記リソース割当ての変更を指示し、
前記予測コピー待ち時間が前記所定閾値の下限未満となる場合に、該予測コピー待ち時間が該所定閾値の下限以上となるように、前記構成変更指示部に対して前記ホスト数の変更又は前記リソース割当ての変更を指示する
ことを特徴とする情報処理装置。
【請求項10】
請求項1に記載の情報処理装置であって、
前記データコピー実行部は、
前記対象データに該当せず前記リモートコピー処理を実施されていない未コピーのデータであって、前記ホストからアクセスされたデータを、前記リモートコピー処理を実行するため、前記リモートコピー処理の待ち行列に挿入する
ことを特徴とする情報処理装置。
【請求項11】
請求項1に記載の情報処理装置であって、
前記データコピー実行部は、
前記対象データに該当せず前記リモートコピー処理を実施されていない未コピーのデータであって、全ての前記システムの再開後に前記ホストから未だアクセスされていないデータに対して、所定の同期タイミングで、前記リモートコピー処理を実行する
ことを特徴とする情報処理装置。
【請求項12】
システムが稼働するホストが設けられるクラウドと、前記クラウド以外に設けられ、前記ホストがデータを読書きするストレージ装置とを有するハイブリッドクラウドにおいて、メイン環境のハイブリッドクラウドから前記ハイブリッドクラウドへのデータのリモートコピー処理を実行する情報処理装置が実行する情報処理方法であって、
前記メイン環境のハイブリッドクラウドは、前記システムが稼働するメイン環境のホストが設けられるクラウドと、該クラウド以外に設けられ、前記メイン環境のホストがデータを読書きするメイン環境のストレージ装置と、を有し、
前記ホストから前記ストレージ装置に格納された各データへのアクセス頻度に関するアクセス頻度情報を取得するアクセス頻度情報取得ステップと、
前記システムの優先度と前記アクセス頻度情報とに基づいて前記リモートコピー処理の対象データを判定するコピーデータ判定ステップと、
前記対象データの前記リモートコピー処理の実行開始を前記ストレージ装置に対して指示するデータコピー実行ステップと
を有することを特徴とする情報処理方法。
【請求項13】
請求項12に記載の情報処理方法であって、
前記メイン環境のホストのホスト情報を取得するホスト情報取得ステップと、
前記ホスト及び前記ストレージ装置の起動を指示すると共に、前記ホストのスケールイン/スケールアウトを行うホスト数の変更及び前記ストレージ装置へのリソース割当ての変更を指示する構成変更指示ステップと、
前記リモートコピー処理のコピー時間の履歴情報を取得するコピー処理情報取得ステップと、
前記履歴情報に基づいて前記対象データの前記リモートコピー処理の実行の指示から開始までのコピー待ち時間の予測値である予測コピー待ち時間を算出し、該予測コピー待ち時間が所定閾値の上限を超過するかを判定し、該予測コピー待ち時間が該所定閾値の上限を超過する場合に、該予測コピー待ち時間が該所定閾値の上限以下となるように、前記構成変更指示ステップに対して前記ホスト数の変更又は前記リソース割当ての変更を指示する予測コピー待ち時間算出ステップと、を有し、
前記ホスト情報が前記メイン環境のクラウドでの障害発生を示す場合に、
前記構成変更指示ステップでは、
前記情報処理装置が、優先度が最も高い前記システムを再開対象システムとして前記クラウドで稼働させるために前記ホスト及び前記ストレージ装置の起動を指示し、
前記データコピー実行ステップでは、
前記情報処理装置が、前記予測コピー待ち時間算出ステップによって前記予測コピー待ち時間が前記所定閾値の上限以下であると判定された場合に、前記対象データの前記リモートコピー処理の実行開始を前記ストレージ装置に対して指示する
ことを特徴とする情報処理方法。
【請求項14】
請求項13に記載の情報処理方法であって、
前記アクセス頻度情報は、
データを識別するデータID毎の前記ホストによる前記ストレージ装置に対する第1のアクセス回数と、前記ホスト毎かつ前記データID毎の前記ホストによる前記ストレージ装置に対する第2のアクセス回数とであり、
前記コピーデータ判定ステップでは、
前記情報処理装置が、
前記第1のアクセス回数の総合計に対する前記データID毎の前記第1のアクセス回数の割合であるアクセス割合と、
前記データID毎の前記第2のアクセス回数の合計に対する前記再開対象システムのオートスケールグループに属する前記ホストであるオートスケールホスト毎かつ該データID毎の前記第2のアクセス回数の合計の割合であるアクセス局所性と、
前記オートスケールホスト毎の前記第2のアクセス回数の合計に対する前記再開対象システムの前記ホスト毎かつ前記データID毎の前記第2のアクセス回数の合計の割合であるアクセス共有性と、を算出し、
前記アクセス割合、前記アクセス局所性、及び前記アクセス共有性の少なくとも何れかがそれぞれの判定閾値を超過する前記データIDのデータを、前記対象データと判定する
ことを特徴とする情報処理方法。
【請求項15】
請求項13に記載の情報処理方法であって、
前記コピーデータ判定ステップでは、
前記情報処理装置が、
前記履歴情報に基づいて、一定時間の間に行われた前記リモートコピー処理のコピー指示からコピー完了までの所要時間の平均である平均データコピー時間と、一定時間の間に行われた単位時間当たりの前記リモートコピー処理の指示回数である平均到着率と、単位時間当たりの前記リモートコピー処理の実行回数である平均サービス率と、を算出し、
前記平均データコピー時間、前記平均到着率、及び前記平均サービス率に基づいて、前記予測コピー待ち時間を算出する
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
近年、パブリッククラウドのサーバ装置と、オンプレミスのストレージ装置を組合せてシステムを構築するハイブリッドクラウドが注目されている。ハイブリッドクラウドは、オンプレミスのストレージ装置を利用することでデータの安全性を維持しつつ、パブリッククラウドのサーバ装置をホストとして利用することでシステム導入時の初期費用を抑制することができる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
オンプレミスの同一環境内にホストとストレージを有するシステム構成では、物理サーバのスペックによって処理の上限が決まるため、事前の性能設計で適切な構成を決めることで、システムの性能不足による速度遅延を防ぐことができる。しかし、ハイブリッドクラウドによるシステム構成では、パブリッククラウドのホストの大規模かつ動的なスケールアウト/スケールインに対して、オンプレミスの静的なストレージ構成が追従できず、処理遅延を招くという不都合が生じる。
【0005】
また近年、異なる環境に運用系と待機系のシステムを配置し、地震といった災害が発生した際に、運用系のシステムから待機系のシステムに業務処理を引継ぎ継続するディザスタリカバリ(Disaster Recovery(DR))が重要になってきている。DRでは、運用系と待機系のストレージ装置間でデータの非同期リモートコピー処理行って、業務処理が引き継がれる。
【0006】
ここで上述した不都合は、ハイブリッドクラウドの正系(運用系)環境と副系(待機系)環境とで冗長構成が構築されたDRシステムにおいて、システムの停止を契機としてメイン環境からバックアップ環境へ切替えられる際にも生じる。
【0007】
すなわち、切替え後のバックアップ環境では、システムが停止していた期間の業務処理に係るアクセスやジョブが発生するため、通常を上回る負荷が発生する。このため、パブリッククラウドのホストが大規模かつ動的にスケールアウトする可能性がある。しかし、上述したように、パブリッククラウドのホストの大規模かつ動的なスケールアウト/スケールインに対して、オンプレミスの静的なストレージ構成が追従できず、切替え後のバックアップ環境でシステムの処理遅延を招くという問題があった。
【0008】
本発明は以上の点を考慮してなされたもので、ハイブリッドクラウドのメイン環境からバックアップ環境へシステムが切替えられる際に、切替え後のバックアップ環境におけるシステムの処理遅延を軽減する情報処理装置及び情報処理方法の提供を目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決するため、本発明の一態様では、システムが稼働するホストが設けられるクラウドと、前記クラウド以外に設けられ、前記ホストがデータを読書きするストレージ装置とを有するハイブリッドクラウドにおいて、メイン環境のハイブリッドクラウドから前記ハイブリッドクラウドへのデータのリモートコピー処理を実行する情報処理装置であって、前記メイン環境のハイブリッドクラウドは、前記システムが稼働するメイン環境のホストが設けられるクラウドと、該クラウド以外に設けられ、前記メイン環境のホストがデータを読書きするメイン環境のストレージ装置と、を有し、前記ホストから前記ストレージ装置に格納された各データへのアクセス頻度に関するアクセス頻度情報を取得するアクセス頻度情報取得部と、前記システムの優先度と前記アクセス頻度情報とに基づいて前記リモートコピー処理の対象データを判定するコピーデータ判定部と、前記対象データの前記リモートコピー処理の実行開始を前記ストレージ装置に対して指示するデータコピー実行部とを有することを特徴とする。
【発明の効果】
【0010】
本発明によれば、ハイブリッドクラウドのメイン環境からバックアップ環境へシステムが切替えられる際に、切替え後のバックアップ環境におけるシステムの処理遅延を軽減できる。
【図面の簡単な説明】
【0011】
【
図1】実施形態に係る災害対策システムの構成を示す図。
【
図2】実施形態に係る災害対策システムのハードウェア構成を示す図。
【
図3】オートスケール-ホスト対応管理テーブルの構成を示す図。
【
図5】オートスケール管理テーブルの構成を示す図。
【
図7】システム優先度管理テーブルの構成を示す図。
【
図8】データアクセス頻度管理テーブルの構成を示す図。
【
図9】データアクセス局所性管理テーブルの構成を示す図。
【
図10】ジャーナルボリューム・メタデータ管理テーブルの構成を示す図。
【
図12】実施形態に係るメイン処理を示すフローチャート。
【
図13】コピーデータ判定処理の詳細を示すフローチャート。
【
図14】データコピー処理の詳細を示すフローチャート。
【
図15】コピー待ち時間判定処理の詳細を示すフローチャート。
【
図16】ストレージ割当変更処理の詳細を示すフローチャート。
【
図17】オートスケールホスト数変更処理を示すフローチャート。
【
図19】ストレージアクセス情報収集処理を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施形態を説明する。実施形態は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でもよい。
【0013】
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
【0014】
実施形態において、プログラムを実行して行う処理について説明する場合がある。ここで、コンピュータは、プロセッサ(例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit))によりプログラムを実行し、記憶資源(例えばメモリ)やインターフェースデバイス(例えば通信ポート)等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であればよく、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。
【0015】
プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読取り可能な非一時的な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施形態において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0016】
以下の実施形態で、テーブル形式で各種情報を説明するが、各種情報はテーブル以外の形式であってもよい。
【0017】
[実施形態]
(実施形態に係る災害対策システムSの構成)
図1は、実施形態に係る災害対策システムSの構成を示す図である。災害対策システムSは、運用系のハイブリッドクラウドであるメイン環境1aと、待機系のハイブリッドクラウドであるバックアップ環境1bとを含む。バックアップ環境1bは、メイン環境1aが災害などで運用継続できない状況に陥った場合にメイン環境1aで稼働していたシステムを再開させ、業務処理を引継ぐ災対環境である。
【0018】
以下、本実施形態では、メイン環境1aとバックアップ環境1bとは同様の構成として、バックアップ環境1bの構成を説明し、メイン環境1aの構成の説明は適宜省略する。
【0019】
バックアップ環境1bは、ネットワーク6を介して接続されたオンプレミスシステム2と、パブリッククラウド5と含む。オンプレミスシステム2は、スイッチ(ネットワークスイッチ)4を介してネットワーク6に接続される。スイッチ4は、I/Oポート41と、I/Oポート41のミラーリングポートであるミラーポート42とを有する。
【0020】
メイン環境1aとバックアップ環境1bの各オンプレミスシステム2は、専用閉域網などを介して相互に障害監視を行う。
【0021】
パブリッククラウド5は、1以上のホスト51と、ホスト情報通知部52とを有する。
【0022】
オンプレミスシステム2は、リモートコピー処理装置21と、ストレージ装置22とを有する。ストレージ装置22は、I/Oポート41及びネットワーク6を介してパブリッククラウド5のホスト51からのI/Oアクセスを受付ける。また、リモートコピー処理装置21は、ミラーポート42を介してパブリッククラウド5のホスト51からストレージ装置22へのI/Oアクセスをキャプチャする。
【0023】
リモートコピー処理装置21は、データ取得部211と、データコピー候補算出部212と、データコピー管理部213と、各種テーブル214とを有する。
【0024】
各種テーブル214は、所定の記憶領域に格納されたオートスケール-ホスト対応管理テーブルT1(
図3)と、メイン参照回数テーブルT2(
図4)と、オートスケール管理テーブルT3(
図5)と、システム再開管理テーブルT4(
図6)と、システム優先度管理テーブルT5(
図7)と、データアクセス頻度管理テーブルT6(
図8)と、データアクセス局所性管理テーブルT7(
図9)と、ジャーナルボリューム・メタデータ管理テーブルT8(
図10)と、データコピー時間管理テーブルT9(
図11)とを含む。
【0025】
(オートスケール-ホスト対応管理テーブルT1)
オートスケール-ホスト対応管理テーブルT1(
図3)は、オートスケールグループとホストとの対応を管理する。オートスケール-ホスト対応管理テーブルT1は、「ホストID」と「オートスケールID」との列を有する。「ホストID」は、パブリッククラウド5で稼働するホスト51を識別する情報である。「オートスケールID」は、各システムを識別する情報であり、各ホスト51が所属するオートスケールグループを識別する情報である。
【0026】
(メイン参照回数テーブルT2)
メイン参照回数テーブルT2(
図4)は、ホスト51毎のメイン環境1aのストレージ装置22の参照回数を管理する。メイン参照回数テーブルT2は、「ホストID」と「メイン参照回数」との列を有する。「ホストID」は、パブリッククラウド5で稼働するホスト51を識別する情報である。「メイン参照回数」は、「ホストID」で識別されるメイン環境1a又は再開後のバックアップ環境1bで稼働するホスト51が、一定期間内にメイン環境1aのストレージ装置22に格納されているデータを参照した回数である。
【0027】
(オートスケール管理テーブルT3)
オートスケール管理テーブルT3(
図5)は、オートスケールグループ毎のスケールアウトするホスト数を管理する。オートスケール管理テーブルT3は、「オートスケールID」と「デフォルトスケールアウト数」と「最小スケールアウト数」と「最大スケールアウト数」と「オートスケールホスト設定数(環境設定値)」との列を有する。「デフォルトスケールアウト数」は、「オートスケールID」で識別されるシステムの起動時又は再開時に稼働させるホスト数である。「最小スケールアウト数」は、「オートスケールID」で識別されるシステムがスケールインできる最小のホスト数である。「最大スケールアウト数」は、「オートスケールID」で識別されるシステムがスケールアウトできる最大のホスト数である。「オートスケールホスト設定数(環境設定値)」は、「オートスケールID」で識別されるシステムが稼働する現在のホスト数である。例えば「オートスケールID」が“system#1”は、起動時又は再開時に稼働させるホスト数が“20”であり、スケールアウト/スケールインによって“5”から“60”までのホスト数に増減可能であり、現在のホスト数が“30”である。
【0028】
(システム再開管理テーブルT4)
システム再開管理テーブルT4(
図6)は、各システムがバックアップ環境1bで再開済みか否かを管理する。システム再開管理テーブルT4は、「システムID」と「再開済みフラグ」との列を有する。「再開済みフラグ」が“1”のシステムがバックアップ環境1bで再開済みであり、「再開済みフラグ」が“0”のシステムがバックアップ環境1bで未再開である。
【0029】
(システム優先度管理テーブルT5)
システム優先度管理テーブルT5(
図7)は、各システムの再開の優先度を管理する。「優先度」は、「システムID」で識別されるシステムがバックアップ環境1bで再開する優先度を表し、値が小さいほど優先的にバックアップ環境1bで再開されることを示す。「優先度」が“null”は、優先度が未設定であることを示す。
【0030】
(データアクセス頻度管理テーブルT6)
データアクセス頻度管理テーブルT6(
図8)は、ストレージ装置22に格納される「データID」で識別されるデータ毎にホスト51からアクセスされる「アクセス回数」を管理する。
【0031】
(データアクセス局所性管理テーブルT7)
データアクセス局所性管理テーブルT7(
図9)は、「ホストID」で識別されるホスト51毎かつ「データID」で識別されるデータ毎にホスト51からアクセスされる「アクセス回数」を管理する。
【0032】
(ジャーナルボリューム・メタデータ管理テーブルT8)
ジャーナルボリューム・メタデータ管理テーブルT8(
図10)は、バックアップ環境1bのストレージ装置22のデータ書込み先を管理する。「データID」で識別されるデータのジャーナルデータを「ジャーナルデータ格納先」と「バックアップ側コピー先」で識別されるバックアップ環境1bのジャーナルボリューム223のコピー先に格納する。
【0033】
(データコピー時間管理テーブルT9)
データコピー時間管理テーブルT9(
図11)は、「データID」で識別されるデータ毎の「コピー開始時刻」と「コピー完了時刻」と「データコピー完了フラグ」とを管理する。「コピー開始時刻」は、リモートコピー処理装置21が該当データのリモートコピーを指示した時刻である。「コピー終了時刻」は、リモートコピー処理装置21がバックアップ環境1bのストレージ装置22から該当データのリモートコピーの更新完了の通知を受信した時刻である。「コピー開始時刻」と「コピー完了時刻」が“null”であり、「データコピー完了フラグ」が“0”であるデータは、リモートコピー処理待ちのデータである。「コピー開始時刻」に時刻が登録され、「コピー完了時刻」が“null”であり、「データコピー完了フラグ」が“0”であるデータは、リモートコピー処理中のデータである。「コピー開始時刻」と「コピー完了時刻」に時刻が登録され、「データコピー完了フラグ」が“1”であるデータは、リモートコピー処理完了のデータである。
【0034】
図1の説明に戻る。データ取得部211は、ホスト情報取得部211aと、構成変更指示部211bと、ストレージ情報取得部211cとを有する。
【0035】
ホスト情報取得部211aは、ネットワーク6を介して、メイン環境1aのホスト情報通知部52からメイン環境1aのホスト51のホスト情報を取得する。ホスト情報とは、例えばホスト51の死活情報、ホスト51の台数、ホストID、オートスケール情報である。死活情報の取得経路は、メイン環境1aのパブリッククラウド5~バックアップ環境1bのパブリッククラウド5~バックアップ環境1bのストレージ装置22の経路、メイン環境1aのパブリッククラウド5~メイン環境1aのストレージ装置22~バックアップ環境1bのストレージ装置22の経路の何れか又は両方でもよい。
【0036】
構成変更指示部211bは、ストレージ情報取得部211cによって取得されたストレージ情報に基づいて、メイン環境1aからバックアップ環境1bへデータのリモートコピー処理を行う際に、バックアップ環境1bのパブリッククラウド5及びストレージ装置22の構成変更を指示する。パブリッククラウド5の構成変更は、ホスト51のスケールアウト/スケールインである。ストレージ装置22の構成変更は、リモートコピー処理の際に使用するポート221c(
図2)の割当ての変更、ジャーナルボリューム223へのキャッシュメモリ221b(
図2)の割当ての変更、メイン環境1aとバックアップ環境1bの各ストレージ装置22のボリューム222間のリモートコピー処理の並列処理数の増減である。
【0037】
ストレージ情報取得部211cは、バックアップ環境1bのストレージ装置22のストレージ情報を取得する。ストレージ情報は、メイン環境1aからバックアップ環境1bへリモートコピー処理を行う際に使用するバックアップ環境1bのストレージ装置22のポート221c(
図2)の利用率、ジャーナルボリューム223のキャッシュメモリ221b(
図2)の利用率である。
【0038】
データコピー候補算出部212は、データアクセス頻度管理部212aと、データアクセス局所性管理部212bと、コピーデータ判定部212cとを有する。データアクセス頻度管理部212aとデータアクセス局所性管理部212bは、ホスト51からストレージ装置22に格納された各データへのアクセス頻度に関するアクセス頻度情報を取得するアクセス頻度情報取得部の一例である。
【0039】
データコピー候補算出部212は、データ取得部211及びミラーポート42を介して、ホスト51からストレージ装置22へのI/Oアクセス毎にデータIDとホストIDを取得する。データアクセス頻度管理部212aは、データアクセス頻度管理テーブルT6(
図8)において、I/Oアクセス毎に取得されたデータIDに該当するアクセス回数を管理する。
【0040】
データアクセス局所性管理部212bは、データアクセス局所性管理テーブルT7(
図9)において、I/Oアクセス毎に取得されたホストID及びデータIDに該当するアクセス回数を管理する。
【0041】
コピーデータ判定部212cは、後述のコピーデータ判定処理(
図12のステップS16)を実行する。
【0042】
データコピー管理部213は、コピー処理情報取得部213aと、予測コピー待ち時間算出部213bと、データコピー実行部213cとを有する。
【0043】
コピー処理情報取得部213aは、データコピー時間管理テーブルT9(
図11)を参照して、後述の平均コピー時間、平均到着率、平均サービス率の算出(
図15のステップS21)を実行する。コピー処理情報取得部213aは、メイン環境1aからのデータの均コピー時間、コピー処理の平均到着時間間隔などの監視を行う。
【0044】
予測コピー待ち時間算出部213bは、後述の予測コピー待ち時間算出(
図15のステップS22)を実行する。
【0045】
データコピー実行部213cは、後述のデータコピー処理(
図12のステップS17)を実行する。
【0046】
ストレージ装置22は、ストレージコントローラ221と、ボリューム222と、ジャーナルボリューム223とを有する。ストレージコントローラ221は、ホスト51からのI/Oアクセスに応じてボリューム222に対してデータのアクセスを行うと共に、該当データ及び更新履歴情報(ジャーナルデータ)をジャーナルボリューム223に蓄積する。なお、メイン環境1aのストレージ装置22を正ストレージといい、メイン環境1aのボリューム222を正ボリュームという。また、バックアップ環境1bのストレージ装置22を副ストレージといい、バックアップ環境1bのボリューム222を副ボリュームという。
【0047】
(実施形態に係る災害対策システムSのハードウェア構成)
図2は、実施形態に係る災害対策システムSのハードウェア構成を示す図である。リモートコピー処理装置21は、CPU201と、メモリ202と、通信装置203と、記憶装置204とを有するコンピュータである。CPU201がメモリ202と協働してプログラムを実行することにより、データ取得部211、データコピー候補算出部212、データコピー管理部213が実現される。通信装置203は、ミラーポート42と接続される。
【0048】
ストレージ装置22は、ストレージコントローラ221と、記憶部224とを有する。ストレージコントローラ221は、プロセッサ221aと、キャッシュメモリ221bと、ポート221cと、通信装置221dとを有する。ポート221cは、バックアップ環境1bのホスト51からのI/Oアクセスを受付けると共に、メイン環境1aのストレージ装置22からバックアップ環境1bのストレージ装置22へデータのリモートコピー処理の際に使用されるポートである。
【0049】
記憶部224は、1以上のRAID(Redundant Arrays of Inexpensive Disks)グループRGを有する。RAIDグループRGは、ストレージ装置22の記憶領域を提供する1以上の記憶装置224aを管理する管理単位である。
【0050】
(実施形態に係るメイン処理)
図12は、実施形態に係る災害対策システムSにおけるメイン処理を示すフローチャートである。
図12は、バックアップ環境1bのオンプレミスシステム2によって実行される。
【0051】
先ずステップS11では、ホスト情報取得部211aは、メイン環境1aのホスト情報通知部52からメイン環境1aのホスト情報を取得する。
【0052】
次にステップS12では、ホスト情報取得部211aは、ステップS11で取得されたホスト情報に基づいて、メイン環境1aのパブリッククラウド5で障害が発生したかを判定する。例えばステップS11で取得されたホスト情報が、パブリッククラウド5の少なくとも何れかのホスト51の停止を示す場合に、メイン環境1aのパブリッククラウド5で障害が発生したと判定される。データ取得部211は、メイン環境1aのパブリッククラウド5で障害が発生した場合(ステップS12YES)にステップS13へ処理を移し、障害が発生していない場合(ステップS12NO)にステップS11へ処理を戻す。
【0053】
ステップS13では、構成変更指示部211bは、メイン環境1aのパブリッククラウド5で稼働していたシステムのうち、高優先度のシステムの再開に必要な数のホスト51を起動するように、バックアップ環境1bのパブリッククラウド5に指示する。構成変更指示部211bは、システム再開管理テーブルT4(
図6)においてバックアップ環境1bで未再開(再開済みフラグが0)、かつシステム優先度管理テーブルT5(
図7)において優先度が一定値以上のシステムを特定する。そして構成変更指示部211bは、特定したシステムを動作させるために必要なホスト51のデフォルトスケールアウト数を、システム再開管理テーブルT4(
図6)を参照して特定する。構成変更指示部211bは、特定したデフォルトスケールアウト数だけホスト51を起動するように指示する。
【0054】
次にステップS14では、構成変更指示部211bは、バックアップ環境1bのストレージ装置22の起動を指示する。ステップS14で起動されるバックアップ環境1bのストレージ装置22は、メイン環境1aのパブリッククラウド5の障害検知前に、正ストレージ(メイン環境1aのストレージ装置22)と最後に同期した時点のデータを格納する。
【0055】
次にステップS15では、データコピー管理部213は、メイン環境1aとバックアップ環境1bのジャーナルボリューム223のジャーナルデータを比較する。そしてデータコピー管理部213は、データコピー時間管理テーブルT9(
図11)を参照し、メイン環境1aで「正常に更新」され、メイン環境1aからバックアップ環境1bへ未コピーのデータのデータIDをデータコピー時間管理テーブルT9(
図11)に登録する。
【0056】
ここで「正常に更新」とは、例えば1つのデータ書込み処理で複数ブロックデータを更新した際に、全部のブロックデータの書込みに成功した場合をいう。1つのデータ書込み処理で複数ブロックデータを更新した際に、一部のブロックデータのみの書込みに成功した場合は整合性が取れないブロックデータを含むため「正常に更新」には該当せず、データコピー時間管理テーブルT9へのデータIDの登録から除外する。
【0057】
次にステップS16では、データコピー候補算出部212は、コピーデータ判定処理(
図13)を実行する。次にステップS17では、データコピー管理部213は、バックアップ環境1bのストレージ装置22(副ストレージ)へのデータコピー処理(
図13)を行う。次にステップS18では、構成変更指示部211bは、ステップS13で起動指示したホスト51で動作させる高優先度のシステムの再開を、バックアップ環境1bのパブリッククラウド5に指示する。
【0058】
次にステップS17では、データ取得部211は、システム再開管理テーブルT4(
図6)を参照し、メイン環境1aで稼働していた全システムをバックアップ環境1bで再開完了したかを判定する。データ取得部211は、全システムを再開完了した場合(ステップS17YES)に本メイン処理を終了し、全システムを再開完了していない場合(ステップS17NO)にステップS16に処理を戻す。
【0059】
(コピーデータ判定処理)
図13は、コピーデータ判定処理(
図12のステップS16)の詳細を示すフローチャートである。コピーデータ判定処理では、メイン環境1aのストレージ装置22からバックアップ環境1bのストレージ装置22へ、最後に非同期コピーを実施して以降の更新データに基づき、システムの優先度順に、ホスト51からのデータアクセスの頻度、データアクセスの局所性、オートスケール時のアクセスの共有性の条件を加味して、データコピーを行うデータを特定する。
【0060】
先ずステップS16aでは、コピーデータ判定部212cは、「高頻度データ」がコピー済みかを判定する。「高頻度データ」は、式(1)を充たすデータである。
閾値<該当データのアクセス回数/全てのデータの総アクセス回数 ・・・(1)
【0061】
式(1)の右辺の分母“全てのデータの総アクセス回数”は、データアクセス頻度管理テーブルT6(
図8)の「アクセス回数」の総合計である。式(1)の右辺の分子“該当データのアクセス回数”は、データアクセス頻度管理テーブルT6(
図8)の各「データID」毎の「アクセス回数」である。
【0062】
すなわち、コピーデータ判定部212cは、データアクセス頻度管理テーブルT6(
図8)のアクセス回数を基に「高頻度データ」に該当するデータが、データコピー時間管理テーブルT9(
図11)において「データコピー完了フラグ」が“1”となっているかを判定する。コピーデータ判定部212cは、「高頻度データ」がコピー済みの場合(ステップS16aYES)にステップS16dに処理を移し、コピー済み以外の場合(ステップS16aNO)にステップS16bに処理を移す。
【0063】
ステップS16bでは、コピーデータ判定部212cは、データアクセス頻度管理テーブルT6(
図8)を参照し、データID毎の「アクセス割合」(式(1)の右辺)を算出する。次にステップS16cでは、コピーデータ判定部212cは、式(1)を基に、「アクセス割合」が閾値を超過した「高頻度データ」のデータIDを特定する。「高頻度データ」によって、システム全体として高頻度で参照されているデータが特定される。
【0064】
次にステップS16dでは、コピーデータ判定部212cは、未再開システムの中で、優先度が最も高いシステムを再開対象システムとして特定する。すなわち、コピーデータ判定部212cは、システム再開管理テーブルT4(
図6)で「再開済みフラグ」が“0”(未再開)のシステムのうち、システム優先度管理テーブルT5(
図7)で最も優先度が高いシステムを再開対象システムと特定する。
【0065】
次にステップS16eでは、コピーデータ判定部212cは、オートスケール-ホスト対応管理テーブルT1(
図3)とデータアクセス局所性管理テーブルT7(
図9)を参照し、データID毎の「アクセス局所性」を算出する。データID毎の「アクセス局所性」は、式(2)の右辺から求まる。
閾値<再開対象システムの各ホストからの総アクセス回数/該当データへの総アクセス回数 ・・・(2)
【0066】
式(2)の右辺の分母“該当データへの総アクセス回数”は、データアクセス局所性管理テーブルT7(
図9)の同一の「データID」毎の「アクセス回数」の合計である。式(2)の右辺の分子“再開対象システムの各ホストからの総アクセス回数”は、再開対象システム(オートスケールID)に所属する各「ホストID」のホストから式(2)の右辺の分母の各“該当データ”にアクセスする「アクセス回数」の合計である。すなわち、データID毎の「アクセス局所性」は、あるデータに対して再開対象システムの各ホストからどれだけの割合でアクセスしているかを示す。「アクセス局所性」によって、再開対象システムのホストから局所的に参照されているデータが特定される。
【0067】
例えば
図9において、再開対象システムが“system#1”、該当データが“#2”であるとする。この場合、式(2)の分母“該当データへの総アクセス回数”は、データアクセス局所性管理テーブルT7(
図9)における「ホストID」と「データID」が“Host#2”と“#2”及び“Host#4”と“#2”のレコードが該当するので、“22”+“50”=72である。また、式(2)の分子“再開対象システムの各ホストからの総アクセス回数”は、データアクセス局所性管理テーブルT7(
図9)における「ホストID」と「データID」が“Host#2”と“#2”のレコードが該当するので、“22”である。よって、再開対象システムが“system#1”、該当データが“#2”である場合、式(2)の右辺のデータID毎の「アクセス局所性」は、22/72となる。
【0068】
次にステップS16fでは、コピーデータ判定部212cは、式(2)のように「アクセス局所性」が閾値を超過したデータIDを特定する。
【0069】
次にステップS16gでは、コピーデータ判定部212cは、オートスケール毎の「アクセス共有性」を算出する。コピーデータ判定部212cは、オートスケール-ホスト対応管理テーブルT1(
図3)と、データアクセス局所性管理テーブルT7(
図9)とを参照して、オートスケール毎の「アクセス共有性」を算出する。オートスケール毎の「アクセス共有性」は、式(3)の右辺から求まる。
閾値<オートスケールするホストから該当のデータへのアクセス回数の総合計/オートスケールホストの総アクセス回数 ・・・(3)
【0070】
式(3)の右辺の分母“オートスケールホストの総アクセス回数”は、データアクセス局所性管理テーブルT7(
図9)の同一のオートスケールグループに所属する「ホストID」の「アクセス回数」の合計である。式(3)の右辺の分子“オートスケールするホストから該当のデータへのアクセス回数の総合計”は、各オートスケールグループから該当のデータにアクセスする「アクセス回数」の合計である。すなわち、オートスケール毎の「アクセス共有性」によって、オートスケールホストから共通的に参照されているデータが特定される。
【0071】
例えば
図9において、該当データが“#2”であるとする。この場合、式(3)の分母“オートスケールホストの総アクセス回数”は、“Host#1”及び“Host#2”が所属する“system#1”のオートスケールグループのアクセス回数の合計が“20”+“22”=42であり、“Host#3”、“Host#4”及び“Host#5”が所属する“system#2”のオートスケールグループのアクセス回数の合計が“20”+“50”+“10”=80であるため、42+80=122である。また、式(3)の分子“オートスケールするホストから該当のデータへのアクセス回数の総合計”は、“Host#2”と“#2”及び“Host#4”と“#2”のレコードが該当するので、“22”+“50”=72である。また、よって、該当データが“#2”の場合、式(3)の右辺のオートスケール毎の「アクセス共有性」は、72/122となる。
【0072】
次にステップS16hでは、コピーデータ判定部212cは、式(3)のように「アクセス共有性」が閾値を超過したデータIDを特定する。
【0073】
次にステップS16iでは、コピーデータ判定部212cは、「アクセス割合」、「アクセス局所性」、及び「アクセス共有性」に基づいて、コピー対象データを決定する。例えば、コピー対象データは、「アクセス割合」、「アクセス局所性」、及び「アクセス共有性」の少なくとも何れか又は全部がそれぞれの閾値を超過するデータである。
【0074】
(データコピー処理の詳細)
図14は、データコピー処理(
図12のステップS17)の詳細を示すフローチャートである。データコピー処理では、メイン環境1aのストレージ装置22からバックアップ環境1bのストレージ装置22へのデータコピーが行われる。
【0075】
先ずステップS17aでは、データコピー実行部213cは、コピー待ち時間判定処理を実行する。コピー待ち時間判定処理の詳細は、
図15を参照して後述する。
【0076】
次にステップS17bでは、データコピー実行部213cは、バックアップ環境1bのジャーナルボリューム・メタデータ管理テーブルT8(
図10)を参照して、バックアップ環境1bのストレージ装置22のデータ書込み先を特定する。
【0077】
次にステップS17cでは、データコピー実行部213cは、ステップS17bで特定したデータ書込み先のストレージ装置22へのデータコピーの実行開始を、ストレージ装置22に指示する。
【0078】
次にステップS17dでは、データコピー実行部213cは、コピーが完了したデータをメイン環境1aのジャーナルボリューム223から削除する。
【0079】
次にステップS17eでは、データコピー実行部213cは、バックアップ環境1bのデータコピー時間管理テーブルT9(
図11)のコピー完了フラグを“1”(完了)に変更する。
【0080】
次にステップS17fでは、データコピー実行部213cは、バックアップ環境1bのストレージ装置22のストレージコントローラ221にデータコピー後のデータの格納場所を記録し、コントローラ情報を更新する。ステップS17fが終了すると、バックアップ環境1bにおいて、パブリッククラウド5からストレージ装置22のコピー済みのデータへのアクセスを開始させて、再開対象システムが再開される。
【0081】
なお、バックアップ環境1bのホスト51は、参照するデータがバックアップ環境1bのストレージ装置22にコピー済みの場合には、バックアップ環境1bのストレージ装置22にアクセスする。
【0082】
一方、バックアップ環境1bのホスト51は、参照するデータがバックアップ環境1bのストレージ装置22に未コピーである場合には、初回参照時のみメイン環境1aのストレージ装置22が縮退稼働して該当データにアクセス可能である。そして、バックアップ環境1bのホスト51は、バックアップ環境1bのデータコピー管理部213の待ち行列に未コピーの該当データのコピー指示を挿入し、順次リモートコピー処理を実行させる。バックアップ環境1bのホスト51は、該当データを再度参照する時には、メイン環境1aのストレージ装置22からコピー済みのデータが格納されているバックアップ環境1bのストレージ装置22にアクセスする。
【0083】
(コピー待ち時間判定処理)
図15は、コピー待ち時間判定処理(
図12のステップS18)の詳細を示すフローチャートである。コピー待ち時間判定処理は、システム再開途中のデータコピー処理(
図14)で実行されると共に、全てのシステムの再開後も定期的に実行される。コピー待ち時間判定処理は、全てのシステムの再開後に実行されることで、オートスケールホスト設定数を減らし、データコピー頻度を抑制する。システム優先度、メインへの参照回数を条件に最大ホスト数を減らすシステムを選定する。
【0084】
先ずステップS21では、コピー処理情報取得部213aは、データコピー時間管理テーブルT9(
図11)を参照して、コピー処理の平均データコピー時間、コピー処理の平均到着率、及びコピー処理の平均サービス率を算出する。
【0085】
ここでコピー処理の平均データコピー時間は、一定時間の間に行われたコピー処理の時間(バックアップ環境1bのデータコピー管理部213によるコピー指示からバックアップ環境1bのストレージ装置22へのデータ更新完了まで)の平均である。
【0086】
コピー処理の平均到着率は、一定時間の間にバックアップ環境1bのデータコピー管理部213からメイン環境1aへ出力された単位時間当たりのコピー指示回数である。コピー処理の平均到着率は、コピー指示の平均到着時間の逆数であり、例えば3分に1回コピー指示が出力される場合(コピー指示の平均到着時間が3分の場合)は、1/3[回/分]である。
【0087】
コピー処理の平均サービス率は、単位時間当たりのコピー処理の実行回数であり、コピー処理の平均データコピー時間の逆数である。コピー処理の平均サービス率は、例えばコピー処理の平均データコピー時間が4分の場合、1/4[回/分]である。
【0088】
次にステップS22では、予測コピー待ち時間算出部213bは、式(4)から予測コピー待ち時間を算出する。
予測コピー待ち時間=コピー処理の平均データコピー時間×ρ/(1-ρ)
・・・(4)
但しρ(平均利用率)=(コピー処理の平均到着率)/(コピー処理の平均サービス率)
【0089】
次にステップS23では、予測コピー待ち時間算出部213bは、ステップS22で算出した予測コピー待ち時間が閾値上限超過又は閾値下限未満かを判定する。ここでの閾値は、優先度の高いシステムのレスポンス性能のSLA(Service Level Agreement)を満たすことが可能な予め設定された値の範囲である。なお、システム再開途中であれば、全てのシステム再開を迅速に行うためのスピードを優先し、予測コピー待ち時間が閾値下限未満かの判定は行われない。一方、全てのシステム再開後であれば、予測コピー待ち時間が閾値上限超過又は閾値下限未満かの両方の判定が行われることで、ストレージ割当変更処理(ステップS25)とオートスケールホスト数変更処理(ステップS27)によって、常に適正量のストレージリソースとホストリソースを使用することができる。
【0090】
予測コピー待ち時間算出部213bは、予測コピー待ち時間が閾値上限超過又は閾値下限未満である場合(ステップS23YES)にステップS24へ処理を移し、閾値上限以下かつ閾値下限以上である場合(ステップS23NO)に本コピー待ち時間判定処理を終了する。
【0091】
次にステップS24では、データコピー実行部213cは、構成変更指示部211b(
図1)に、変更可能なストレージ装置22のリソースがあるかを判定させる。変更可能なストレージ装置22のリソースには、ストレージ装置22のキャッシュメモリ221b(
図2)、データコピー用のポート221c(
図2)、メイン環境1aのボリューム222をバックアップ環境1bのボリューム222へコピーする際のコピー処理の並列処理数がある。
【0092】
データコピー実行部213cは、変更可能なストレージ装置22のリソースがある場合(ステップS24YES)にステップS25へ処理を移し、変更可能なストレージ装置22のリソースがない場合(ステップS24NO)にステップS26へ処理を移す。
【0093】
ステップS25では、データコピー実行部213cは、構成変更指示部211bに、ストレージ割当変更処理を行わせる。ストレージ割当変更処理の詳細は、
図16を参照して後述する。
【0094】
一方ステップS26では、データコピー実行部213cは、構成変更指示部211bに、変更可能なオートスケールホスト数があるかを判定させる。データコピー実行部213cは、変更可能なオートスケールホスト数がある場合(ステップS26YES)にステップS27に処理へ移し、変更可能なオートスケールホスト数がない場合(ステップS26NO)に本コピー待ち時間判定処理を終了する。
【0095】
ステップS27では、データコピー実行部213cは、構成変更指示部211bに、オートスケールホスト数変更処理を行わせる。オートスケールホスト数変更処理の詳細は、
図17を参照して後述する。
【0096】
ステップS25及びS27に続いて、ステップS28では、データコピー実行部213cは、前回のステップS22の予測コピー待ち時間算出から所定時間が経過したかを判定する。コピーデータ判定部212cは、前回の予測コピー待ち時間算出から所定時間が経過した場合(ステップS28YES)にステップS21へ処理を戻し、所定時間が経過していない場合(ステップS28NO)にステップS28を繰返す。
【0097】
ストレージ装置22又はオートスケールホスト数変更後も、予測コピー待ち時間が閾値範囲を超過する(ステップS23YES)場合、ステップS21~S28のループが繰返されることで、予測コピー待ち時間が閾値範囲内になるまで再開対象システムの再開が保留される。
【0098】
(ストレージ割当変更処理)
図16は、ストレージ割当変更処理の詳細を示すフローチャートである。ストレージ割当変更処理は、
図15のステップS23で予測コピー待ち時間が閾値上限超過となった場合と閾値下限未満となった場合とで、処理が異なる。以下では、コピー待ち時間予測値が閾値上限超過となった場合について説明する。
【0099】
先ずステップS25aでは、構成変更指示部211b(
図1)は、データコピー用のポート221c(
図1)の利用率が閾値超過かを判定する。構成変更指示部211bは、データコピー用のポート221cの利用率が閾値超過の場合(ステップS25aYES)にステップS25bへ処理を移し、利用率が閾値以下の場合(ステップS25aNO)にステップS25cへ処理を移す。
【0100】
ステップS25bでは、構成変更指示部211bは、ポート221cの割当てを変更する。ポート221cの割当ての変更では、例えば利用率が閾値を超過しているポートのトラフィックの一部を利用率が低いポートや新規のポートに割当てる。
【0101】
すなわち、コピー待ち時間予測値が閾値上限超過(
図15のステップS23YES)の際、利用率が閾値超過のデータコピー用のポート221cがある場合に、コピー処理のボトルネックとなっている可能性があるため、他のポート221cへ負荷分散する。
【0102】
ステップS25cでは、構成変更指示部211bは、キャッシュメモリ221b(
図2)の利用率が閾値超過かを判定する。構成変更指示部211bは、キャッシュメモリ221bの利用率が閾値を超過している場合(ステップS25cYES)にステップS25dへ処理を移し、利用率が閾値以下の場合(ステップS25cNO)にステップS25eへ処理を移す。ステップS25dでは、構成変更指示部211bは、コピー処理に割当てるキャッシュメモリ221bの論理パーティションの容量を増加する。
【0103】
ステップS25eでは、構成変更指示部211bは、メイン環境1aのボリューム222をバックアップ環境1bのボリューム222へコピーする際のコピー処理の並列処理数を、ストレージ装置22の設定可能な範囲内で増加する。
【0104】
なお、
図15のステップS23で予測コピー待ち時間が閾値下限未満となった場合には、ステップS25aでは、構成変更指示部211bは、データコピー用のポート221cの利用率が閾値以下かを判定する。構成変更指示部211bは、データコピー用のポート221cの利用率が閾値未満の場合(ステップS25aYES)に、例えば利用率が低いポートをポートの利用率の上限内で集約する。すなわち、コピー待ち時間予測値が閾値下限未満(
図15のステップS23YES)の際、利用率が閾値未満のデータコピー用のポート221cがある場合に、必要数以上のポート221cを使用しているため、他のポート221cへ負荷集約する。
【0105】
また、
図15のステップS23で予測コピー待ち時間が閾値下限未満となった場合には、ステップS25cでは、キャッシュメモリ221b(
図2)の利用率が閾値以下かを判定する。構成変更指示部211bは、キャッシュメモリ221bの利用率が閾値以下の場合に、コピー処理に割当てるキャッシュメモリ221bの論理パーティションの容量を削減する。
【0106】
また、
図15のステップS23でコピー待ち時間予測値が閾値下限未満となった場合には、ステップS25eでは、構成変更指示部211bは、メイン環境1aのボリューム222をバックアップ環境1bのボリューム222へコピーする際のコピー処理の並列処理数を、ストレージ装置22の設定可能な範囲内で削減する。
【0107】
(オートスケールホスト数変更処理)
図17は、オートスケールホスト数変更処理を示すフローチャートである。オートスケールホスト数変更処理は、
図15のステップS23で予測コピー待ち時間が閾値上限超過となった場合と閾値下限未満となった場合とで、処理が異なる。以下では、コピー待ち時間予測値が閾値上限超過となった場合について説明する。
【0108】
先ずステップS27aでは、構成変更指示部211b(
図1)は、システム優先度管理テーブルT5(
図7)を参照して、各システムの優先度情報を取得し、優先度が一定値未満の低優先度システムを特定する。
【0109】
次にステップS27bでは、構成変更指示部211bは、オートスケール-ホスト対応管理テーブルT1(
図3)を参照し、ステップS27aで特定した低優先度システムのホストとオートスケールグループ情報を取得する。オートスケールグループ情報は、各システムのオートスケールグループに紐付けられているホストの情報である。
図3の例では、system#1のオートスケールグループには、Host#1、Host#2、及びHost#3が紐付けられている。
【0110】
次にステップS27cでは、構成変更指示部211bは、メイン参照回数テーブルT2(
図4)を参照し、ステップS27bで取得した低優先度システムの各ホストのメイン環境1aのストレージ装置22の参照回数情報を取得する。
【0111】
次にステップS27dでは、構成変更指示部211bは、メイン環境1aのストレージ装置22への参照回数が多い低優先度システムをホスト数設定変更対象として特定する。次にステップS27eでは、構成変更指示部211bは、ホスト数設定変更対象のオートスケールホスト設定数(環境設定値)を、オートスケール管理テーブルT3(
図5)の最小スケールアウト数以上の条件を充たしつつ減少するようにパブリッククラウド5へ設定変更を指示する。最小スケールアウト数は、各システムの要件に応じて予め設定する値とする。例えば、他システムの処理逼迫時に処理を完全に停止するシステムは、最小スケールアウト数を0する。また、縮退稼働時でも可用性維持のために冗長化が必須なシステムは、最小スケールアウト数を2とする。
【0112】
図15のステップS23で予測コピー待ち時間が閾値上限超過となった場合のオートスケールホスト数変更処理の具体例を説明する。オートスケール-ホスト対応管理テーブルT1(
図3)とメイン参照回数テーブルT2(
図4)からシステム毎のメイン参照回数を算出する。次にシステム優先度とメイン参照回数を条件にオートスケールホスト設定数(環境設定値)を減らすシステムを選定する。条件例としては、システム優先度管理テーブルT5(
図7)においてシステム優先度が2以下でメイン参照回数が最多のシステムを選定する。
図3、
図4及び
図7のテーブルの場合、システム優先度が2以下であるsystem#2、#3の各ホストのメイン参照回数の合計(それぞれ“16”、“30”)の比較を行い、system#3のオートスケールホスト設定数(環境設定値)を減らすと決定する。
【0113】
なお、
図15のステップS23で予測コピー待ち時間が閾値下限未満となった場合には、ステップS27eでは、構成変更指示部211bは、ホスト数設定変更対象のオートスケールホスト設定数(環境設定値)を、最大スケールアウト数以下の条件を充たしつつ増加するようにパブリッククラウド5へ設定変更を指示する。最大スケールアウト数は、各システムの要件に応じて予め設定する値とする。
【0114】
図15のステップS23で予測コピー待ち時間が閾値下限未満となった場合のオートスケールホスト数変更処理の具体例を説明する。オートスケール-ホスト対応管理テーブルT1(
図3)とメイン参照回数テーブルT2(
図4)からシステム毎のメイン参照回数を算出する。次にシステム優先度とメイン参照回数を条件にオートスケールホスト設定数(環境設定値)を増やすシステムを選定する。条件例としては、システム優先度管理テーブルT5(
図7)においてシステム優先度が2以下でメイン参照回数が最多のシステムを選定する。
図3、
図4及び
図7のテーブルの場合、システム優先度が2以下であるsystem#2、#3の各ホストのメイン参照回数の合計(それぞれ“16”、“30”)の比較を行い、system#3のオートスケールホスト設定数(環境設定値)を増やすと決定する。
【0115】
(正副同期処理)
図18は、正副同期処理を示すフローチャートである。正副同期処理は、対象データとしてコピーされておらず、システム再開後にホスト51から参照されていないデータのコピーを実施するものであり、システムサービス時間外などの所定の同期タイミングで実行される。
【0116】
先ずステップS31では、データコピー実行部213c(
図1)は、メイン環境1aのストレージ装置22から未だコピーが行われていないデータのデータIDを取得する。次にステップS32では、データコピー実行部213cは、ステップS31で特定したデータIDのデータを、バックアップ環境1bのストレージ装置22へコピーする。
【0117】
次にステップS33では、データコピー実行部213cは、バックアップ環境1bのストレージ装置22のストレージコントローラ221にデータコピー後のデータの格納場所を記録し、コントローラ情報を更新する。
【0118】
次にステップS34では、データコピー実行部213cは、ステップS31で特定した全てのデータIDについてステップS32のデータコピーが終了すると、メイン環境1aとバックアップ環境1bの各ストレージ装置22の正副を切替える。すなわち正ストレージであったメイン環境1aのストレージ装置22を副ストレージとし、副ストレージであったバックアップ環境1bのストレージ装置22を正ストレージとし、メイン環境1aとバックアップ環境1bとが入替る。
【0119】
(ストレージアクセス情報収集処理)
図19は、ストレージアクセス情報収集処理を示すフローチャートである。ストレージアクセス情報収集処理は、メイン環境1a及びバックアップ環境1bのそれぞれにおいて、他の処理とは関係なく、定期的に実行される。
【0120】
先ずステップS41では、データ取得部211は、ポートのミラーリングを行って、I/Oアクセス毎にホスト51からストレージ装置22へアクセスされるデータのデータIDとホストIDとsystemIDを取得する。次にステップS42では、データアクセス頻度管理部212aは、ステップS41で取得した情報を基に、データID毎のアクセス回数を、データアクセス頻度管理テーブルT6(
図8)に記録する。
【0121】
次にステップS43では、データアクセス局所性管理部212bは、ステップS41で取得した情報を基に、ホストID毎かつデータID毎のアクセス回数を、データアクセス局所性管理テーブルT7(
図9)に記録する。次にステップS44では、データ取得部211は、ステップS41で取得した情報を基に、ホストIDとsystemIDの対応付けを、オートスケール-ホスト対応管理テーブルT1(
図3)に記録する。
【0122】
(実施形態の効果)
本実施形態では、ハイブリッドクラウドのメイン環境とバックアップ環境の正副のストレージ間でデータのコピーを非同期で実行する際に、システムの優先度、ホストからのデータのアクセス頻度、データのアクセス局所性、及びオートスケール時のデータのアクセス共有性に基づいて、コピーを優先的に行うデータを判定する。よって、本実施形態によれば、優先的にコピーを行ったデータを用いて優先度が高いシステムをバックアップ環境側で早期に再開させることができる。
【0123】
また、本実施形態では、メイン環境からのデータコピー時間と、コピー処理の平均到着時間間隔の監視を行い、予測されるコピー処理の待ち時間に応じて、バックアップ環境側でのストレージリソース割当て変更や、優先度の低いシステム再開の停止、ホストのオートスケール数の変更を行う。よって、本実施形態では、優先度が高いシステムの再開遅延やシステム全体でのリソースの無駄な消費を抑制することができる。
【0124】
また、本実施形態によれば、動的なスケールアウト/スケールインが発生するハイブリッドクラウド構成を含むハイブリッドクラウドで構築された業務システムを、RPO(Recovery Point Objective)及びRTO(Recovery Time Objective)を最小化しコストを抑制しつつ、バックアップ側のハイブリッドクラウドで再開できる。
【0125】
(他の実施形態)
本実施形態では、リモートコピー処理装置21は、ストレージ装置22外のサーバ上に構築する例を示したが、ストレージ装置22上あるいはパブリッククラウド5上に構築してもよい。その場合、ミラーポート42は、省略できる。
【0126】
また、本実施形態では、ハイブリッドクラウドを構成するクラウドをパブリッククラウド5として説明したが、プライベートクラウドでもよい。
【0127】
本発明は上述の実施形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また、実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。
【符号の説明】
【0128】
S:災害対策システム、1a:メイン環境、1b:バックアップ環境、2:オンプレミスシステム、5:パブリッククラウド、21:リモートコピー処理装置、22:ストレージ装置、51:ホスト、52:ホスト情報通知部、211:データ取得部、211a:ホスト情報取得部、211b:構成変更指示部、211c:ストレージ情報取得部、212:データコピー候補算出部、212a:データアクセス頻度管理部、212b:データアクセス局所性管理部、212c:コピーデータ判定部、213:データコピー管理部、213a:コピー処理情報取得部、213b:予測コピー待ち時間算出部、213c:データコピー実行部、221b:キャッシュメモリ、221c:ポート、222:ボリューム、223:ジャーナルボリューム