特開2024-179636 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立ヴァンタラ株式会社の特許一覧

特開2024-179636ストレージシステムおよびストレージシステムの制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024179636

(43)【公開日】2024-12-26

(54)【発明の名称】ストレージシステムおよびストレージシステムの制御方法

(51)【国際特許分類】

G06F 11/20 20060101AFI20241219BHJP

G06F 3/06 20060101ALI20241219BHJP

【ＦＩ】

G06F11/20 669

G06F3/06 301X

G06F3/06 304E

G06F3/06 306Z

G06F3/06 305C

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023098629

(22)【出願日】2023-06-15

(71)【出願人】

【識別番号】524132520

【氏名又は名称】日立ヴァンタラ株式会社

(74)【代理人】

【識別番号】110002365

【氏名又は名称】弁理士法人サンネクスト国際特許事務所

(72)【発明者】

【氏名】千葉武尊

(72)【発明者】

【氏名】大平良徳

(72)【発明者】

【氏名】山本貴大

(72)【発明者】

【氏名】佐藤功人

【テーマコード（参考）】

5B034

【Ｆターム（参考）】

5B034BB17

5B034CC04

(57)【要約】（修正有）

【課題】障害耐性が高く、かつ、構築コストが低いストレージシステム及び制御方法を提供する。
【解決手段】複数のゾーンに配置された複数のクラウド計算機上で稼働するストレージシステム（情報処理システム１００）において、正常運用中に動作するストレージノード１０８Ａと、ストレージノードから処理を引き継ぎ可能なストレージノード１０８Ｂと、が含まれ、複数のクラウド計算機で構成されるストレージノードが処理するデータを物理的に格納する記憶装置を有し、ゾーン間で冗長化してデータを格納する仮想記憶装置１１０を備え、ストレージ制御情報を用いて仮想記憶装置１１０内のデータにアクセスし、仮想記憶装置１１０に格納する。仮想記憶装置１１０は、格納されたデータをゾーン間で冗長化し、ストレージノード１０８Ａを含むゾーンに障害が発生した場合に、ストレージノード１０８Ｂが、ストレージノード１０８Ａの処理を引き継ぐ。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の異なるゾーンに配置された複数のクラウド計算機上で稼働するストレージシステムにおいて、
前記複数のゾーンの複数の計算機に配置され、入出力されるデータを処理するストレージノードを有し、
前記ストレージノードには、正常運用中に動作する第一のストレージノードと、前記第一のストレージノードとは異なるゾーンに存在し、かつ前記第一のストレージノードから処理を引き継ぎ可能な第二のストレージノードと、が含まれ、
前記複数のクラウド計算機は、前記ストレージノードが処理するデータを物理的に格納する記憶装置を有し、異なるゾーン間に配置された複数の前記記憶装置によりゾーン間で冗長化して前記データを格納する仮想記憶装置を備え、
前記ストレージシステムは、ストレージ制御情報を用いて前記仮想記憶装置内のデータにアクセスし、前記ストレージシステムを、前記仮想記憶装置に格納し、
前記仮想記憶装置は、格納された前記データをゾーン間で冗長化し、
前記第一のストレージノードを含むゾーンに障害が発生した場合に、前記第二のストレージノードが、前記ゾーン間で冗長化されたデータを用いて前記第一のストレージノードの処理を引き継ぐストレージシステム。

【請求項2】

前記仮想記憶装置は、格納された前記データ及び前記ストレージ制御情報をゾーン間で冗長化し、
前記第一のストレージノードを含むゾーンに障害が発生した場合に、前記第二のストレージノードが、前記ゾーン間で冗長化されたデータ及びストレージ制御情報を用いて前記第一のストレージノードの処理を引き継ぐ請求項１に記載のストレージシステム。

【請求項3】

前記第一のストレージノードの正常運用中は、前記第一のストレージノード以外のストレージノードには前記仮想記憶装置は接続せず、
前記第一のストレージノードを含むゾーンに障害が発生した場合に、前記第一のストレージノードと同じゾーンに接続された前記仮想記憶装置はデタッチされ、前記第二のストレージノードと同じゾーンにおいて前記仮想記憶装置がアタッチされる請求項１に記載のストレージシステム。

【請求項4】

前記第一のストレージノードを含むゾーンに障害が発生した場合に、前記第二のストレージノードと同じゾーンにおいてアタッチされた前記仮想記憶装置は、前記第二のストレージノードと同じゾーンに存在する前記記憶装置を利用して仮想記憶を実現する請求項３に記載のストレージシステム。

【請求項5】

前記第一のストレージノードだけに障害が発生した場合に、前記第二のストレージノードと同じゾーンにおいてアタッチされた前記仮想記憶装置は、前記第二のストレージノードに存在する前記記憶装置に加え、前記第一のストレージノードに存在する前記記憶装置を利用して仮想記憶を実現する請求項４に記載のストレージシステム。

【請求項6】

前記第一のストレージノードと同じゾーンに存在する、第三のストレージノードおよび前記第三のストレージノードに接続する第二の仮想記憶装置が存在することで、前記第一のストレージノードおよび前記仮想記憶装置が同じゾーン内で冗長化されている請求項１に記載のストレージシステム。

【請求項7】

前記第一のストレージノードだけに障害が発生した場合に、前記第一のストレージノードと同じゾーン内に存在する前記第三のストレージノードおよび前記第二の仮想記憶装置を運用する請求項６に記載のストレージシステム。

【請求項8】

前記仮想記憶装置は、クラウド記憶装置である請求項１に記載のストレージシステム。

【請求項9】

プロセッサがメモリに記録されたソフトウェアを実行することにより実現し、複数の異なるゾーンに配置された複数のクラウド計算機上で稼働するストレージシステムの制御方法であり、
前記ストレージシステムは、前記複数のゾーンの複数の計算機に配置され、入出力されるデータを処理するストレージノードを有し、
前記ストレージノードには、正常運用中に動作する第一のストレージノードと、前記第一のストレージノードとは異なるゾーンに存在し、かつ前記第一のストレージノードから処理を引き継ぎ可能な第二のストレージノードと、が含まれ、
前記複数のクラウド計算機は、前記ストレージノードが処理するデータを物理的に格納する記憶装置を有し、異なるゾーン間に配置された複数の前記記憶装置によりゾーン間で冗長化して前記データを格納する仮想記憶装置を備え、
前記ストレージシステムは、ストレージ制御情報を用いて前記仮想記憶装置内のデータにアクセスし、前記ストレージシステムを、前記仮想記憶装置に格納し、
前記仮想記憶装置は、格納された前記データをゾーン間で冗長化し、
前記第一のストレージノードを含むゾーンに障害が発生した場合に、前記第二のストレージノードが、前記ゾーン間で冗長化されたデータを用いて前記第一のストレージノードの処理を引き継ぐ
ストレージシステムの制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ストレージシステム、ストレージシステムの制御方法に関する。ノードを備えるストレージシステムおよびストレージシステムの制御方法である。

【背景技術】

【0002】

ストレージ機能を有するソフトウェアを汎用のサーバ装置に実装することにより構築されるストレージ装置であるＳＤＳ（Software Defined Storage）が普及しつつある。
このような技術によれば、信頼性を維持しつつ、制御情報の読込み処理をサーバ内で閉じることができるので、高性能化を達成できるという利点がある。一方、近年では、クラウド（特にパブリッククラウド）がストレージシステムのプラットフォームとして普及しつつある。パブリッククラウドでは、パブリッククラウドベンダがＩａａＳ（Infrastructure as a Service）として計算機資源やストレージ資源を提供するサービスを展開している。
パブリッククラウドのユーザは、これらパブリッククラウド上の計算機サービスやストレージサービスにＡＰＩ（Application Programming Interface）を通じてアクセスし、必要な量の計算機資源やストレージ資源を必要なタイミングで確保可能であり、またその構成も迅速に変更可能である。
また、一般的にパブリッククラウドにおけるストレージサービスに関しては、ユーザデータが複数の異なる物理デバイスに跨って冗長化されており、これにより高い信頼性を実現している。近年では、複数データセンタに跨ってデータを冗長化するサービスも登場しており、データセンタ単位での障害時もデータロストを防ぐことができる。

【0003】

特許文献１には、複数のストレージシステムについて記載されている。このストレージシステムは、第１のストレージシステムにより、トリガイベントを検出することに応えて、仲介サービスからの仲介を要求する工程と、第２のストレージシステムにより、トリガイベントを検出することに応えて、仲介サービスからの仲介を要求する工程と、仲介サービスからの正の仲介結果の表示に応えて、第１のストレージシステムが、第２のストレージシステムの代わりに、第１のストレージシステムおよび第２のストレージシステム全体で同期複製されるデータセットに向けられるデータストレージ要求を処理する工程と、を含む。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２－１２２９９３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特定の単一データセンタ内に存在する計算機リソースやストレージリソースのみを用いてストレージシステムを構築した場合、大規模災害等によりデータセンタ全体に障害が起きると、ストレージシステムの停止、およびデータロストが発生してしまう。これに対し、複数のデータセンタに跨ってストレージシステムを冗長化することで、データセンタ単位の障害が発生した場合のシステム停止、およびデータロストを防ぐ方法では、待機系となるシステムを異なるデータセンタに構築する必要がある。そのため、単一データセンタにシステムを構築する構成に比べ、構築コストが大きくなるという課題がある。
本発明は以上の点を考慮してなされたものであり、障害耐性が高く、また構築コストが低いストレージシステムおよびストレージシステムの制御方法を提供しようとするものである。

【課題を解決するための手段】

【0006】

上記の課題を解決するため本発明は、複数の異なるゾーンに配置された複数のクラウド計算機上で稼働するストレージシステムにおいて、複数のゾーンの複数の計算機に配置され、入出力されるデータを処理するストレージノードを有し、ストレージノードには、正常運用中に動作する第一のストレージノードと、第一のストレージノードとは異なるゾーンに存在し、かつ第一のストレージノードから処理を引き継ぎ可能な第二のストレージノードと、が含まれ、複数のクラウド計算機は、ストレージノードが処理するデータを物理的に格納する記憶装置を有し、異なるゾーン間に配置された複数の記憶装置によりゾーン間で冗長化してデータを格納する仮想記憶装置を備え、ストレージシステムは、ストレージ制御情報を用いて仮想記憶装置内のデータにアクセスし、ストレージシステムを、仮想記憶装置に格納し、仮想記憶装置は、格納されたデータをゾーン間で冗長化し、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードが、ゾーン間で冗長化されたデータを用いて第一のストレージノードの処理を引き継ぐストレージシステムである。この場合、障害耐性が高く、また構築コストが低いストレージシステムを提供することができる。

【0007】

ここで、仮想記憶装置は、格納されたデータ及びストレージ制御情報をゾーン間で冗長化し、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードが、ゾーン間で冗長化されたデータ及びストレージ制御情報を用いて第一のストレージノードの処理を引き継ぐことができる。この場合、第二のストレージノードが第一のストレージノードの処理を引き継ぐ処理の信頼性が向上する。
そして、第一のストレージノードの正常運用中は、第一のストレージノード以外のストレージノードには仮想記憶装置は接続せず、第一のストレージノードを含むゾーンに障害が発生した場合に、第一のストレージノードと同じゾーンに接続された仮想記憶装置はデタッチされ、第二のストレージノードと同じゾーンにおいて仮想記憶装置がアタッチされるようにできる。この場合、第一のストレージノードを含むゾーンに障害が発生した場合でもサービスを継続することができる。
また、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードと同じゾーンにおいてアタッチされた仮想記憶装置は、第二のストレージノードと同じゾーンに存在する記憶装置を利用して仮想記憶を実現するようにできる。この場合、実際のデータは第二のストレージノードと同じゾーンの記憶装置内に存在するため、第二のストレージノードからのＩ／Ｏ要求受領時に、ゾーンを跨いだアクセスが発生せず、性能低下を防ぐことができる。
さらに、第一のストレージノードだけに障害が発生した場合に、第二のストレージノードと同じゾーンにおいてアタッチされた仮想記憶装置は、第二のストレージノードに存在する記憶装置に加え、第一のストレージノードに存在する記憶装置を利用して仮想記憶を実現するようにできる。この場合、記憶装置の冗長構成を維持することができる。

【0008】

またさらに、第一のストレージノードと同じゾーンに存在する、第三のストレージノードおよび第三のストレージノードに接続する第二の仮想記憶装置が存在することで、第一のストレージノードおよび仮想記憶装置が同じゾーン内で冗長化されるようにできる。この場合、同じゾーン内でストレージノードおよび仮想記憶装置の冗長化が図れる。
そして、第一のストレージノードだけに障害が発生した場合に、第一のストレージノードと同じゾーン内に存在する第三のストレージノードおよび第二の仮想記憶装置を運用するようにできる。この場合、障害が発生した場合でも同じゾーン内で対処することができる。
また、仮想記憶装置は、クラウド記憶装置にすることができる。この場合、ストレージ資源を必要なタイミングで確保しやすくなる。

【0009】

また、本発明は、プロセッサがメモリに記録されたソフトウェアを実行することにより実現し、複数の異なるゾーンに配置された複数のクラウド計算機上で稼働するストレージシステムの制御方法であり、ストレージシステムは、複数のゾーンの複数の計算機に配置され、入出力されるデータを処理するストレージノードを有し、ストレージノードには、正常運用中に動作する第一のストレージノードと、第一のストレージノードとは異なるゾーンに存在し、かつ第一のストレージノードから処理を引き継ぎ可能な第二のストレージノードと、が含まれ、複数のクラウド計算機は、ストレージノードが処理するデータを物理的に格納する記憶装置を有し、異なるゾーン間に配置された複数の記憶装置によりゾーン間で冗長化してデータを格納する仮想記憶装置を備え、ストレージシステムは、ストレージ制御情報を用いて仮想記憶装置内のデータにアクセスし、ストレージシステムを、仮想記憶装置に格納し、仮想記憶装置は、格納されたデータをゾーン間で冗長化し、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードが、ゾーン間で冗長化されたデータを用いて第一のストレージノードの処理を引き継ぐストレージシステムの制御方法である。この場合、障害耐性が高く、また構築コストが低いストレージシステムの制御方法を提供することができる。

【発明の効果】

【0010】

本発明によれば、障害耐性が高く、また構築コストが低いストレージシステムおよびストレージシステムの制御方法を提供することができる。

【図面の簡単な説明】

【0011】

【図1】第１の実施の形態による情報処理システム１００の構成を示す図である。

【図2】ストレージノードのハードウェア構成を示した図である。

【図3】第１の実施形態の仮想記憶装置と物理記憶装置の構成、及びこれらの関係の例を示す図である。

【図4】第１の実施形態のクラウド制御部のメモリ構成を示す図である。

【図5】第１の実施形態の仮想記憶装置管理テーブルの構成例を示す図である。

【図6】第１の実施形態の物理記憶装置管理テーブルの構成例を示す図である。

【図7】第１の実施形態の仮想記憶装置マッピングテーブルの構成例を示す図である。

【図8】制御情報格納領域について示した図である。

【図9】制御プログラム格納領域について示した図である。

【図10】従来技術における、ゾーン障害耐性を有するストレージクラスタの構成例である。

【図11】第１の実施形態における、ゾーン障害耐性を有するストレージクラスタの構成例である。

【図12】図１１の構成において、例えばゾーン１に障害が発生した場合の概要を示した図である。

【図13】ゾーン障害検出処理を示したフローチャートである。

【図14】図１３のＳ３００４のゾーン障害時フェイルオーバー処理を示したフローチャートである。

【図15】ゾーン復旧検出処理を示したフローチャートである。

【図16】図１５のＳ３２０４のゾーン復旧時フェイルバック処理を示したフローチャートである。

【図17】図１１の構成において、例えばゾーン１内のストレージノードに障害が発生した場合の概要を示した図である。

【図18】ゾーン内でも冗長化を行うときの従来方式について示した図である。

【図19】第２の実施の形態による情報処理システムの構成を示す図である。

【図20】図１９の構成において、ゾーン１に障害が発生した場合の概要を示した図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、本実施の形態は本発明を実現するための一例であり、本発明の技術的範囲を限定するものではない。また、各図において共通の構成については同一の参照番号が付されている。

【0013】

以下の説明では、「テーブル」、「表」、「リスト」、「キュー」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号又は参照符号における共通番号を使用し、同種の要素を区別して説明する場合は、その要素の参照符号を使用又は参照符号に代えてその要素に割り振られたＩＤを使用することがある。
また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、少なくとも１以上のプロセッサ（例えばＣＰＵ）によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又はインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノード、ストレージシステム、ストレージ装置、サーバ、管理計算機、クライアント、又はホストであってもよい。プログラムを実行して行う処理の主体（例えばプロセッサ）は、処理の一部又は全部を行うハードウェア回路を含んでもよい。例えば、プログラムを実行して行う処理の主体は、暗号化及び復号化、又は圧縮及び伸張を実行するハードウェア回路を含んでもよい。プロセッサは、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。プロセッサを含む装置及びシステムは、これらの機能部を含む装置及びシステムである。

【0014】

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサ（例えばＣＰＵ）と記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムとを記憶してよい。そして、プログラム配布サーバのプロセッサが配布プログラムを実行することで、プログラム配布サーバのプロセッサは配布対象のプログラムを他の計算機に配布してよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

【0015】

ここでは、本発明における第１の実施形態についてまず説明する。
〔第１の実施形態〕
＜システム構成の概要＞
図１は、第１の実施の形態による情報処理システム１００の構成を示す図である。
図示する情報処理システム１００は、ストレージシステムの一例であり、例えばイーサネット（登録商標）又はＬＡＮ（Local Area Network）などから構成されるネットワーク１０２を介して相互に接続された複数のローカルホスト装置１０１と、クラウド制御部１０３と、計算機提供サービス１０５とブロックストレージ提供サービス１０６とで構成されるクラウドサービス１０４と、計算機提供サービス１０５の中に構成される複数のコンピュートノード１０７及びストレージノード１０８Ａ、１０８Ｂと、ブロックストレージ提供サービス１０６の中に構成される複数の仮想記憶装置１１０と、物理記憶装置１１１とを備えて構成されている。また、ストレージノード１０８Ａ、１０８Ｂは、クラスタ１０９を構成し、ストレージノード１０８Ａ、１０８Ｂは、それぞれを制御するストレージ制御部４０１、４０２を備える。なお、ストレージノード１０８Ａ、１０８Ｂをそれぞれ区別しない場合は、単にストレージノード１０８と言う場合がある。またこの場合、ストレージノード１０８Ａ、１０８Ｂは、クラウド計算機で構成され、仮想記憶装置１１０は、クラウド記憶装置である、と言うことができる。

【0016】

ローカルホスト装置１０１は、クラウドサービス１０４の利用者がクラウドサービス１０４を利用するために用いる汎用のコンピュータ装置である。
コンピュートノード１０７は、ユーザ操作や実装されたアプリケーションプログラムからの要求に応じてストレージノード１０８Ａ、１０８Ｂに対してリード要求又はライト要求（以下、適宜、これらをまとめてＩ／Ｏ（Input/Output）要求と呼ぶ）を送信する計算的提供サービスにより提供される仮想的なコンピュータ装置である。なお、本実施の形態では、コンピュートノード１０７を計算機提供サービス１０５の中に構築しているが、ローカルホスト装置１０１と同様にクラウドサービス１０４の外に構成してもよい。

【0017】

ストレージノード１０８は、コンピュートノード１０７に対してデータを読み書きするための記憶領域を提供する物理または仮想サーバ装置である。
図２は、ストレージノード１０８のハードウェア構成を示した図である。
図２に示すように、ストレージノード１０８は、内部ネットワークを介して相互に接続された、コンピュートノード向け通信装置２０１、ＣＰＵ（Central Processing Unit）２０２、メモリ２０３、及びブロックストレージ提供サービス向け通信装置２０４を備えて構成される。各ストレージノード１０８は、これらをそれぞれ１以上備える。なお、コンピュートノード向け通信装置２０１、ＣＰＵ２０２、メモリ２０３、及びブロックストレージ提供サービス向け通信装置２０４はそれぞれ仮想的な装置であってもよい。また、コンピュートノード向け通信装置２０１及びブロックストレージ提供サービス向け通信装置２０４は、物理的に異なる通信装置であっても、物理的に同一であり、論理的に分離されている通信装置であってもよい。また、物理的、論理的に同一の通信装置であってもよい。

【0018】

コンピュートノード向け通信装置２０１は、ストレージノード１０８がネットワークを介してコンピュートノード１０７や、他のストレージノード又はクラウド制御部１０３と通信を行うためのインタフェースであり、例えばＮＩＣ（Network Interface Card）などから構成される。コンピュートノード向け通信装置２０１は、コンピュートノード１０７、他のストレージノード１０８又はクラウド制御部１０３との通信時におけるプロトコル制御を行う。

【0019】

ＣＰＵ２０２は、ストレージノード１０８全体の動作制御を司るプロセッサである。またメモリ２０３は、ＳＲＡＭ（Static RAM（Random Access Memory））やＤＲＡＭ（Dynamic RAM）などの揮発性の半導体メモリから構成され、各種プログラムや必要なデータを一時的に保持するために利用される。メモリ２０３に格納されたプログラムを、少なくとも１以上のＣＰＵ２０２が実行することにより、後述のようなストレージノード１０８全体としての各種処理が実行される。

【0020】

図１に戻り、計算機提供サービス１０５は、仮想的または物理的な汎用のコンピュータ装置をシステム管理者に提供するサービスである。
ブロックストレージ提供サービス１０６は、仮想的または物理的な記憶装置を計算機提供サービス１０５により提供されるコンピュータ装置、例えばストレージノード１０８にブロックストレージ提供サービス向けネットワークを介して提供するサービスである。なお、ブロックストレージ提供サービス向けネットワークはネットワーク１０２と同一でもよく、ＶＬＡＮ（Virtual Local Area Network）などの技術を用いて仮想的に分離されていてもよい。本実施の形態の場合、ブロックストレージ提供サービス１０６は仮想的な記憶装置を計算機提供サービス１０５に提供し、各仮想的な記憶装置内の各領域は、複数のゾーン１１３（ここでは、ゾーン１～３）に存在する物理記憶装置１１１に跨って冗長化される。

【0021】

物理記憶装置１１１は、ＳＡＳ（Serial Attached SCSI（Small Computer System Interface））ＳＳＤ（Solid State Drive）、ＮＶＭｅ（Non Volatile Memory express）ＳＳＤ、ＳＡＳハードディスクドライブ又はＳＡＴＡ（Serial ATA（Advanced Technology Attachment））ハードディスクドライブなどの１又は複数種類の大容量の不揮発性記憶装置から構成され、コンピュートノード１０７からのリード／ライト要求（以下、これをＩ／Ｏ（Input/Output）要求と呼ぶ）に応じてデータをリード／ライトするための物理的な記憶領域を提供する。

【0022】

クラウドサービス１０４は、システム管理者が本情報処理システム１００における計算機提供サービス１０５およびブロックストレージ提供サービス１０６を制御するサービスである。クラウドサービス１０４は、制御対象となるサービスの各々が提供する仮想的または物理的な装置の追加・削除・構成変更などを、ネットワーク１０２を介して可能とする。

【0023】

＜本情報処理システム１００における各種処理の流れ＞
＜＜クラウド制御部１０３のメモリに格納された情報＞＞
次に、本情報処理システム１００におけるクラウドサービス１０４側の構成について説明する。

【0024】

図３は、第１の実施形態の仮想記憶装置１１０と物理記憶装置１１１の構成、及びこれらの関係の例を示す図である。
物理記憶装置１１１は、その物理領域があるサイズに分割されており、当該サイズの単位で仮想記憶装置１１０に容量を提供する。以下では当該仮想記憶装置１１０に提供するサイズの単位をチャンクと呼び、特に物理記憶装置１１１内の領域を指す場合は物理チャンク、仮想記憶装置１１０内の領域を指す場合は仮想チャンクと呼ぶ。図３では、物理チャンク３０２が仮想チャンク３０３に割り当てられ、物理チャンク３０４が仮想チャンク３０１に割り当てられた場合を示している。仮想記憶装置１１０と物理記憶装置１１１は１：１に対応している必要はなく、１つの物理記憶装置１１１内の物理チャンクが、複数の仮想記憶装置１１０に割り当てられていてもよいし、複数の物理記憶装置１１１内の異なる物理チャンクが、１つの仮想記憶装置１１０に割り当てられていてもよい。この場合、仮想チャンクに対して物理チャンクを多重化することができる。ただし、１つの仮想記憶装置１１０に割り当てられる各物理チャンクに対応する物理記憶装置１１１のストレージ種別（例えばＳＡＳ、ＳＳＤ等）は、共通とすることが望ましい。
チャンクは、Ｉ／Ｏ処理の最小単位に相当するサブブロックで構成される。サブブロックのサイズは、Ｉ／Ｏコマンドが例えばＳＣＳＩ（Small Computer System Interface）である場合には５１２ｂｙｔｅである。

【0025】

図４は、第１の実施形態のクラウド制御部１０３のメモリ構成を示す図である。
クラウド制御部１０３は、クラウド制御情報格納領域１０００を備える。クラウド制御情報格納領域１０００は、仮想記憶装置管理テーブル１００１、物理記憶装置管理テーブル１００２、仮想記憶装置マッピングテーブル１００３が格納される。それぞれのテーブルの詳細については図５、図６、図７を用いて説明する。

【0026】

図５は、第１の実施形態の仮想記憶装置管理テーブル１００１の構成例を示す図である。
仮想記憶装置管理テーブル１００１は、仮想記憶装置１１０の構成情報を管理するテーブルである。
仮想記憶装置＃カラム１１０１には、仮想記憶装置１１０の識別子が格納されている。ストレージノード＃カラム１１０２には、対応する仮想記憶装置１１０がストレージノード１０８に割り当てられている場合にはストレージノード１０８の識別子が格納され、対応する仮想記憶装置１１０がストレージノード１０８に割り当てられていない場合は“Unattached”が格納される。
サイズカラム１１０３は、仮想記憶装置１１０の容量を示しており、ストレージノード１０８からは、当該サイズカラムに格納された容量を持つ記憶装置として認識される。
種別カラムに１１０４は、対応する仮想記憶装置１１０に割り当てられる各物理チャンクに対応する物理記憶装置１１１のストレージ種別が格納される。
保護方式カラム１１０５には、対応する仮想記憶装置１１０の保護方式が格納され、例えば保護方式が「ゾーン内」であった場合は、当該仮想記憶装置１１０内の仮想チャンクに対応する各物理チャンクは、全てが同一のゾーン１１３内の物理記憶装置１１１内に存在し、保護方式が「ゾーン間」であった場合は、当該仮想記憶装置１１０内の仮想チャンクに対応する各物理チャンクは、全て異なるゾーン１１３内の物理記憶装置１１１内に存在する。

【0027】

図６は、第１の実施形態の物理記憶装置管理テーブル１００２の構成例を示す図である。
物理記憶装置管理テーブル１００２は、物理記憶装置１１１の構成情報を管理するテーブルである。
物理記憶装置＃カラム１２０１には、物理記憶装置１１１の識別子が格納されている。
ゾーン＃カラム１２０２には、対応する物理記憶装置１１１がどのゾーン１１３内に存在するかを示す情報が格納されている。
サイズカラム１２０３は、物理記憶装置１１１の容量を示しており、当該サイズカラムに格納された容量を超える物理チャンクを仮想記憶装置１１０に割り当てることはできない。
種別カラム１２０４には、物理記憶装置１１１のストレージ種別が格納される。
状態カラム１２０５には、対応する物理記憶装置１１１の状態が格納される。例えば当該物理記憶装置１１１に障害が発生していない場合は、その旨に相当する情報（Normal）が格納される。一方、当該物理記憶装置１１１に障害が発生している場合は「障害」に相当する情報（Blocked）が格納される。

【0028】

図７は、第１の実施形態の仮想記憶装置マッピングテーブル１００３の構成例を示す図である。
仮想記憶装置マッピングテーブル１００３には、仮想記憶装置１１０を構成する仮想チャンクを示す情報と、各仮想チャンクに対応する物理チャンクのマッピング情報が格納される。
具体的には、仮想記憶装置１１０の識別子を示す仮想記憶装置＃１３０１と、仮想記憶装置１１０を構成する仮想チャンクの識別子を示す仮想チャンク＃１３０２の関係が格納され、各仮想チャンクを構成する複数の各物理チャンクがそれぞれ格納される物理記憶装置１１１を示す物理記憶装置＃１３０３と、物理記憶装置１１１内の物理チャンクの位置を示す物理チャンク＃１３０４の関係が格納されている。本実施の形態では、ユーザデータは三重化されるため、１つの仮想チャンク当たり３つの物理チャンクを示す情報が格納されている。

【0029】

＜＜ストレージノード１０８のメモリ２０３に格納された情報＞＞
次に、本情報処理システム１００におけるストレージノード１０８の構成について説明する。
各ストレージノード１０８のメモリ２０３には、制御情報格納領域２０００と、制御プログラム格納領域２１００とが存在する。

【0030】

図８は、制御情報格納領域２０００について示した図である。
図８に示すように、制御情報格納領域２０００には、クラスタ構成情報２００１と、ストレージ制御情報２００２と、ボリューム管理情報２００３が格納される。
クラスタ構成情報２００１は、クラスタ１０９を構成するストレージノード１０８Ａ、１０８Ｂ、ストレージ制御部４０１、４０２のアクティブ／スタンバイ状態、およびアクティブ、スタンバイのストレージ制御部４０１、４０２がそれぞれどのゾーン１１３に存在するか、さらに仮想記憶装置１１０の保護方式を管理する。仮想記憶装置１１０の保護方式とは、クラウドサービス１０４側で実施されるデータの冗長化であり、例えば単一のゾーン１１３内での冗長化、または複数のゾーン１１３間での冗長化などがある。

【0031】

また、ストレージ制御情報２００２は、ＳＤＳ（Software Defined Storage）のストレージコントローラとしての管理情報を格納する。本実施の形態の場合、ストレージノード１０８Ａ、１０８Ｂはそれぞれストレージ制御部４０１、４０２を有し、各ストレージ制御部４０１、４０２は、それぞれ互いに異なる他のストレージノードにそれぞれ実装された１又は複数の他のストレージ制御部と共に冗長化のための１つのグループとして管理される。当該グループは、例えば、アクティブ－ホットスタンバイ（アクティブの代替として存在し、起動はしているが、Ｉ／Ｏ要求を受け付けない）、またはアクティブ－コールドスタンバイ（アクティブの代替として存在し、起動はしていない）などの構成がある。

【0032】

本実施の形態のように、一つのストレージ制御部４０１がアクティブに設定され、他方のストレージ制御部４０２がそのバックアップとしてホットスタンバイ／コールドスタンバイに設定された構成では、アクティブに設定されたストレージ制御部４０１又はそのストレージ制御部４０１が稼働するストレージノード１０８Ａ、またはストレージノード１０８Ａが存在するゾーン１に障害が発生した場合、それまでホットスタンバイ／コールドスタンバイに設定されていたストレージ制御部４０２の状態がアクティブに切り替えられる。これにより、アクティブに設定されたストレージ制御部４０１が稼働し得なくなった場合に、当該ストレージ制御部４０１が実行していたＩ／Ｏ（Input/Output）処理をそれまでホットスタンバイ／コールドスタンバイに設定されていたストレージ制御部４０２により引き継ぐことができる。これを以降フェールオーバー機能と呼ぶ。

【0033】

このようなフェールオーバー機能を実現するため、同じグループに属するストレージ制御部４０１、４０２は、常に同一内容のストレージ制御情報２００２を保持している。ストレージ制御情報２００２は、容量仮想化機能や、アクセス頻度の多いデータをより応答速度が速い記憶領域に移動させる階層記憶制御機能、格納されたデータの中から重複するデータを削除する重複排除機能、データを圧縮して記憶する圧縮機能、ある時点でのデータの状態を保持するSnapshot（スナップショット）機能、及び、災害対策のために同期あるいは非同期で遠隔地にデータをコピーするリモートコピー機能などの各種機能に関する処理をストレージ制御部４０１、４０２が実行するために必要な情報である。当該情報は仮想記憶装置１１０にも保持され、不揮発化される。後述するように、フェイルオーバー処理時には、当該情報をフェイルオーバー先で仮想記憶装置１１０から取得する。

【0034】

ボリューム管理情報２００３は、仮想記憶装置１１０の容量を用いて、コンピュートノード１０７にボリュームを提供するための管理情報を格納する。

【0035】

図９は、制御プログラム格納領域２１００について示した図である。
図９に示すように、制御プログラム格納領域２１００には、ゾーン障害時フェイルオーバープログラム２１０１と、ゾーン復旧時フェイルバックプログラム２１０２と、ノード障害時フェイルオーバープログラム２１０３と、ノード復旧時フェイルバックプログラム２１０４が格納される。これらの制御プログラムの詳細については後述する。なおこれ以外にも、制御プログラム格納領域２１００には、Ｉ／Ｏ処理や、前述した容量仮想化等の各種機能を制御するためのプログラムが格納されるが、記載を省略する。

【0036】

図１０は、従来技術における、ゾーン障害耐性を有するストレージクラスタの構成例である。
なお、図１０では、クラウドサービス１０４内の計算機提供サービス１０５、及びブロックストレージ提供サービス１０６以外は共通のため省略している。図１０の構成では、異なる２以上のゾーン１１３にストレージノード１０８Ａ、１０８Ｂが存在し、それぞれストレージ制御部４０１、４０２を有する。また、ストレージ制御部４０１、４０２には、「アクティブ」および「ホットスタンバイ」が存在し、ゾーン１上のストレージノード１０８Ａで稼働するストレージ制御部４０１（アクティブ）と、ゾーン２上のストレージノード１０８Ｂで稼働するストレージ制御部４０２（ホットスタンバイ）とがクラスタ１０９を構成している。加えて、それぞれのストレージノード１０８Ａ、１０８Ｂには、同一のゾーン１１３内で冗長化される仮想記憶装置１１０がアタッチされている。ゾーン１のストレージノード１０８Ａにアタッチされた仮想記憶装置１１０と、ゾーン２のストレージノード１０８Ｂにアタッチされた仮想記憶装置１１０はストレージ制御部４０１、４０２によって冗長化（ミラーリング）されており、同一のデータが格納されている。

【0037】

図１０の構成において、例えばゾーン１に障害が発生した場合、クラスタ監視装置（クラスタ１０９の状態を定期的に監視する装置。図では省略）からのフェイルオーバー指示を受けたゾーン２のストレージ制御部４０２（ホットスタンバイ）が、アクティブへと昇格し、ゾーン１のストレージ制御部４０１が実行していたＩ／Ｏ（Input/Output）処理を引き継ぐ。

【0038】

図１０の構成は、ゾーン２側にホットスタンバイ状態のストレージ制御部４０２が存在するため、ゾーン障害検出からフェイルオーバー完了までの時間を極めて短くすることが可能であるが、ホットスタンバイ状態のストレージ制御部４０２を含むストレージノード１０８Ｂが常時必要となること、加えて同ストレージノード１０８Ｂにも仮想記憶装置１１０をアタッチする必要があることから、構築コストが問題となる。

【0039】

図１１は、第１の実施形態における、ゾーン障害耐性を有するストレージクラスタの構成例である。
なお以下、主に図１０との差分について中心に説明を行う。図１１の構成では、ゾーン１にストレージノード１０８Ａが存在し、ゾーン２には、停止状態のストレージノード１０８Ｂが存在する。ストレージノード１０８Ｂはストレージ制御部４０２を有するが、図１０のようにアクティブ－ホットスタンバイの構成ではなく、アクティブ－コールドスタンバイの構成となっている。ゾーン１のストレージノード１０８Ａには、複数のゾーン１１３間で冗長化される仮想記憶装置１１０がアタッチされている。

【0040】

＜＜ゾーン障害時の処理の流れ＞＞
図１２は、図１１の構成において、例えばゾーン１に障害が発生した場合の概要を示した図である。
まず、クラスタ監視装置からのフェイルオーバー指示を受け、ゾーン２でストレージノード１０８Ｂが起動し、ストレージ制御部４０２（コールドスタンバイ）が、アクティブへと昇格して、ゾーン１のストレージ制御部４０１が実行していたＩ／Ｏ処理を引き継ぐ。加えて、ゾーン１のストレージノード１０８Ａにアタッチしていた仮想記憶装置１１０をデタッチし、フェイルオーバー先であるゾーン２のストレージノード１０８Ｂにアタッチしなおす。この際、実際のデータは同じくゾーン２の物理記憶装置１１１内に存在するため、ゾーン２のストレージノード１０８ＢからのＩ／Ｏ要求受領時に、ゾーン１１３を跨いだアクセスが発生せず、性能低下を防ぐことができる。

【0041】

図１１の構成は、仮想記憶装置１１０自体がゾーン障害耐性を有することから、ゾーン２側で個別に仮想記憶装置１１０を用意する必要がなく、また当該仮想記憶装置１１０に書き込みを行うためのストレージノードも必要がないため、図１０の構成に比べ、コストを大幅に削減することができる。ただし、ゾーン２側のストレージノード１０８Ｂはホットスタンバイ状態ではないため、ゾーン障害時にストレージノード起動に時間を要し、フェールオーバー完了までの時間が若干長くなることに注意する必要がある。

【0042】

図１３は、ゾーン障害検出処理を示したフローチャートである。
当該処理は、ゾーン障害検出プログラムによって行われ、ゾーン障害検出時に、ゾーン障害時フェイルオーバー処理を実行する。具体的には以下の通りである。
まず、ゾーン障害検出プログラムは、対象となるシステムが稼働中であるかを判定する（Ｓ３００１）。
そして、稼働中でない場合（Ｓ３００１でＮＯ）は、ゾーン障害検出プログラムは、処理を終了する。
対して、システム稼働中である場合（Ｓ３００１でＹＥＳ）は、ゾーン障害検出プログラムは、定期的にゾーン障害の有無をチェックする（Ｓ３００２）。
そして、ゾーン障害検出時（Ｓ３００２でＹＥＳ）は、ゾーン障害検出プログラムは、ストレージクラスタ構成管理情報内のプライマリゾーン情報を算出し、それがプライマリゾーンの障害であるかを判定する（Ｓ３００３）。
その結果、プライマリゾーンの障害であった場合（Ｓ３００１でＹＥＳ）には、ゾーン障害検出プログラムは、ゾーン障害時フェイルオーバー処理を起動する（Ｓ３００４）。
なお、ゾーン障害を検出しなかったとき（Ｓ３００２でＮＯ）、およびプライマリゾーンの障害でなかった場合（Ｓ３００１でＮＯ）は、Ｓ３００１に戻る。

【0043】

図１４は、図１３のＳ３００４のゾーン障害時フェイルオーバー処理を示したフローチャートである。
当該処理はゾーン障害時フェイルオーバープログラム２１０１によって行われ、ストレージノードのフェイルオーバー処理を行う。具体的には以下の通りである。
まず、ゾーン障害時フェイルオーバープログラム２１０１は、フェイルオーバー先のゾーン１１３を選択する（Ｓ３１０１）。フェイルオーバー先のゾーン１１３は、フェイルオーバー元のストレージノード１０８Ａにアタッチしていた仮想記憶装置１１０に対応する物理記憶装置１１１が存在するゾーン１１３から選択することが望ましい。ここでは、フェイルオーバー先をゾーン２とした場合について説明する。

【0044】

ゾーン障害時フェイルオーバープログラム２１０１は、ストレージノード１０８Ｂを起動する（Ｓ３１０２）。当該ストレージノード１０８Ｂは停止状態であるため、起動に時間を要するか、またはクラウドサービス１０４側でのリソース不足等により、一定時間内に起動が完了しない可能性がある。そのため、ゾーン障害時フェイルオーバープログラム２１０１は、定期的に起動が完了しているかをチェックする（Ｓ３１０３）。
そして、起動が完了せず（Ｓ３１０３でＮＯ）、一定時間を超過した場合（タイムアウト）（Ｓ３１０４でＹＥＳ）、ゾーン障害時フェイルオーバープログラム２１０１は、フェイルオーバーが失敗したことをシステム管理者に通知する（Ｓ３１０５）。なお、一定時間を超過していない場合（Ｓ３１０４でＮＯ）は、Ｓ３１０３に戻る。

【0045】

対して、ゾーン障害時フェイルオーバープログラム２１０１が、起動完了を確認した場合（Ｓ３１０３でＹＥＳ）、ゾーン障害時フェイルオーバープログラム２１０１は、フェイルオーバー元のストレージノード１０８Ａにアタッチしていた仮想記憶装置１１０を、起動済みのフェイルオーバー先のストレージノード１０８Ｂにアタッチする（Ｓ３１０６）。
その後、フェイルオーバー先のストレージノード１０８Ｂのストレージ制御部４０２は、仮想記憶装置１１０からクラスタ１０９の制御情報を取得し（Ｓ３１０７）、ストレージノード１０８Ｂ内のストレージクラスタ構成管理情報を更新する（Ｓ３１０８）。
最後に、ゾーン障害時フェイルオーバープログラム２１０１は、ストレージ制御部４０２をコールドスタンバイ状態からアクティブ状態に変更し、フェイルオーバー処理を完了する（Ｓ３１０９）。

【0046】

図１５は、ゾーン復旧検出処理を示したフローチャートである。
当該処理は、ゾーン障害検出プログラムによって行われ、ゾーン復旧検出時に、ゾーン復旧時フェイルバック処理を実行する。具体的には以下の通りである。
まず、ゾーン復旧検出プログラムは、対象となるシステムが稼働中であるかを判定する（Ｓ３２０１）。
その結果、稼働中でない場合（Ｓ３２０１でＮＯ）は、ゾーン復旧検出プログラム処理を終了する。
対してシステム稼働中である場合（Ｓ３２０１でＹＥＳ）は、ゾーン復旧検出プログラムは、定期的にゾーン復旧の有無をチェックする（Ｓ３２０２）。
そして、ゾーン復旧検出プログラムが、ゾーン復旧を検出したとき（Ｓ３２０２でＹＥＳ）は、ゾーン障害検出プログラムは、復旧したゾーン１１３にフェイルバックが必要かを判定する（Ｓ３２０３）。具体的には、システム管理者へフェイルバック完了を通知し、フェイルバック要否をシステム管理者が決定してもよいし、予め対象ゾーンの復旧時に自動的にフェイルバックするように設定してもよい。
ゾーン障害検出プログラムが、フェイルバックが必要と判定した場合（Ｓ３２０３でＹＥＳ）は、ゾーン復旧時フェイルバック処理を起動する（Ｓ３２０４）。
また、ゾーン障害検出プログラムが、ゾーン復旧を検出できなかったとき（Ｓ３２０２でＮＯ）、およびゾーン障害検出プログラムが、フェイルバックが必要でない判定した場合（Ｓ３２０３でＮＯ）は、Ｓ３２０１に戻る。

【0047】

図１６は、図１５のＳ３２０４のゾーン復旧時フェイルバック処理を示したフローチャートである。
当該処理は、ゾーン復旧時フェイルバックプログラム２１０２によって行われ、ストレージノードのフェイルバック処理を行う。具体的には以下の通りである。
まず、ゾーン復旧時フェイルバックプログラム２１０２は、フェイルバック先のゾーン１１３を選択する（Ｓ３３０１）。フェイルバック先のゾーン１１３は、システム管理者が決定したゾーン１１３としてもよいし、事前にフェイルバック先を決定しておいてもよい。ここでは、フェイルバック先をゾーン１とした場合について説明する。

【0048】

ゾーン復旧時フェイルバックプログラム２１０２は、ストレージノード１０８Ａを起動する（Ｓ３３０２）。当該ストレージノード１０８Ａは停止状態であるため、起動に時間を要するか、またはクラウドサービス１０４側でのリソース不足等により、一定時間内に起動が完了しない可能性がある。そのため、ゾーン復旧時フェイルバックプログラム２１０２は、定期的に起動が完了しているかをチェックする（Ｓ３３０３）。
そして、起動が完了せず（Ｓ３３０３でＮＯ）、一定時間を超過した場合（タイムアウト）（Ｓ３３０４でＹＥＳ）、ゾーン復旧時フェイルバックプログラム２１０２は、フェイルバックが失敗したことをシステム管理者に通知する（Ｓ３３０５）。なお、一定時間を超過していない場合（Ｓ３３０４でＮＯ）は、Ｓ３３０３に戻る。

【0049】

対して、ゾーン復旧時フェイルバックプログラム２１０２が、起動完了を確認した場合（Ｓ３３０３でＹＥＳ）、ゾーン復旧時フェイルバックプログラム２１０２は、フェイルバック元のストレージノード１０８Ｂにアタッチしていた仮想記憶装置１１０を、起動済みのフェイルバック先のストレージノード１０８Ａにアタッチする（Ｓ３３０６）。
その後、フェイルバック先のストレージノード１０８Ａのストレージ制御部４０１は、仮想記憶装置１１０、またはフェイルバック元のストレージノード１０８Ｂからクラスタ１０９の制御情報を取得し（Ｓ３３０７）、ストレージノード１０８Ｂ内のストレージクラスタ構成管理情報を更新する（Ｓ３３０８）。
最後に、ゾーン復旧時フェイルバックプログラム２１０２は、ストレージ制御部４０１をアクティブ状態に変更し、フェイルバック元のストレージノード１０８Ｂを停止し、フェイルオーバー処理を完了する（Ｓ３３０９）。

【0050】

上述した情報処理システム１００は、複数の異なるゾーン（上述した例では、ゾーン１～３）に配置された複数のクラウド計算機上で稼働するストレージシステムであり、複数のゾーンの複数の計算機に配置され、入出力されるデータを処理するストレージノードを有し、ストレージノードには、正常運用中に動作する第一のストレージノード（上述した例では、ストレージノード１０８Ａ）と、第一のストレージノードは異なるゾーン（上述した例では、ゾーン２）に存在し、かつ第一のストレージノードから処理を引き継ぎ可能な第二のストレージノード（上述した例では、ストレージノード１０８Ｂ）と、が含まれ、複数のクラウド計算機は、ストレージノードが処理するデータを物理的に格納する記憶装置（上述した例では、物理記憶装置１１１）を有し、異なるゾーン間に配置された複数の記憶装置によりゾーン間で冗長化してデータを格納する仮想記憶装置１１０と、を備え、ストレージシステムは、ストレージ制御情報２００２を用いて仮想記憶装置１１０内のデータにアクセスし、ストレージシステムを、仮想記憶装置１１０に格納し、仮想記憶装置１１０は、格納されたデータをゾーン間で冗長化し、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードが、ゾーン間で冗長化されたデータを用いて第一のストレージノードの処理を引き継ぐ、と言うことができる。
このとき、第一のストレージノード（上述した例では、ストレージノード１０８Ａ）を含むゾーン（上述した例では、ゾーン１）に障害が発生した場合に、第二のストレージノード（上述した例では、ストレージノード１０８Ｂ）と同じゾーン（上述した例では、ゾーン２）においてアタッチされた仮想記憶装置１１０は、第二のストレージノードと同じゾーンに存在する記憶装置（上述した例では、物理記憶装置１１１）を利用して仮想記憶を実現する。

【0051】

また、上述した情報処理システム１００は、正常運用中に動作する第一のストレージノード（上述した例では、ストレージノード１０８Ａ）と、第一のストレージノードとは異なるゾーン（上述した例では、ゾーン２）に存在し、かつ第一のストレージノードの正常運用中は停止状態である第二のストレージノード（上述した例では、ストレージノード１０８Ｂ）と、第一のストレージノードの正常運用中は、第一のストレージノードに接続する仮想記憶装置１１０と、を備え、第一のストレージノードを含むゾーン（上述した例では、ゾーン１）に障害が発生した場合に、第二のストレージノードが起動するとともに第二のストレージノードに仮想記憶装置１１０が接続され、第一のストレージノードの代替として動作するストレージシステムであると言うことができる。
また、第一のストレージノードの正常運用中は、第一のストレージノード以外のストレージノードには仮想記憶装置１１０は接続せず、第一のストレージノードを含むゾーン（上述した例では、ゾーン１）に障害が発生した場合に、第一のストレージノードと同じゾーンに接続された仮想記憶装置１１０はデタッチされ、第二のストレージノードと同じゾーン（上述した例では、ゾーン２）において仮想記憶装置１１０がアタッチされる、と言うことができる。
さらに、仮想記憶装置１１０は、仮想記憶を実現し、複数のゾーンに存在することで冗長化された物理記憶装置１１１が接続され、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードと同じゾーンにおいてアタッチされた仮想記憶装置１１０は、第二のストレージノードと同じゾーンに存在する物理記憶装置１１１を利用して仮想記憶を実現する、と言うことができる。

【0052】

＜＜ノード障害時の処理の流れ＞＞
図１７は、図１１の構成において、例えばゾーン１内のストレージノード１０８Ａに障害が発生した場合の概要を示した図である。
即ち、図１１では、ゾーン１全体に障害が発生した場合を示したが、図１７は、ゾーン１内のストレージノード１０８Ａだけに障害が発生した場合を示す。
障害時のフェイルオーバー処理は、図１４で説明した場合と比較して、ゾーン障害時フェイルオーバープログラム２１０１の代わりに、ノード障害時フェイルオーバープログラム２１０３を使用すること以外は同様である。つまり、まずノード障害時フェイルオーバープログラム２１０３が、ストレージノード１０８Ｂを起動する。そして、ノード障害時フェイルオーバープログラム２１０３は、仮想記憶装置１１０を、起動済みのフェイルオーバー先のストレージノード１０８Ｂにアタッチする。さらに、ノード障害時フェイルオーバープログラム２１０３は、ストレージ制御部４０２をコールドスタンバイ状態からアクティブ状態に変更する。

【0053】

また復旧時のフェイルバック処理は、図１６で説明した場合と比較して、ゾーン復旧時フェイルバックプログラム２１０２の代わりに、ノード復旧時フェイルバックプログラム２１０４を使用すること以外は同様である。つまり、まずノード復旧時フェイルバックプログラム２１０４は、ストレージノード１０８Ａを起動する。そして、ノード復旧時フェイルバックプログラム２１０４は、仮想記憶装置１１０を、起動済みのフェイルバック先のストレージノード１０８Ａにアタッチする。さらに、ノード復旧時フェイルバックプログラム２１０４は、ストレージ制御部４０１をアクティブ状態に変更し、フェイルバック元のストレージノード１０８Ｂを停止する。

【0054】

図１７の形態は、第一のストレージノード（上述した例では、ストレージノード１０８Ａ）だけに障害が発生した場合に、第二のストレージノード（上述した例では、ストレージノード１０８Ｂ）と同じゾーン（上述した例では、ゾーン２）においてアタッチされた仮想記憶装置１１０は、第二のストレージノードに存在する物理記憶装置１１１に加え、第一のストレージノードに存在する物理記憶装置１１１を利用して仮想記憶を実現する、と言うことができる。

【0055】

〔第２の実施形態〕
以下では、本発明における第２の実施形態について説明する。第１の実施形態では、ストレージノード１０８Ａに障害が発生した場合、フェイルオーバー先が別ゾーンとなってしまうため、Ｉ／Ｏ処理時にゾーン間通信が発生し、性能が低下してしまうという課題があった。そこで、第２の実施形態では、ゾーン１１３内でも冗長化を行うことにより、ゾーン障害耐性を有しつつ、ストレージノード障害時の性能低下を回避する。

【0056】

図１８は、ゾーン１１３内でも冗長化を行うときの従来方式について示した図である。
この場合、ゾーン１にストレージノード１０８Ａ１、１０８Ａ２が存在し、それぞれストレージ制御部４０１Ａ１、４０１Ａ２を有する。また、ゾーン２にストレージノード１０８Ｂが存在し、ストレージ制御部４０２を有する。また、ストレージ制御部４０１Ａ１、４０１Ａ２、４０２には、「アクティブ」および「ホットスタンバイ」が存在し、ゾーン１上のストレージノード１０８Ａ１で稼働するストレージ制御部４０１Ａ１（アクティブ）と、ゾーン１上のストレージノード１０８Ａ２で稼働するストレージ制御部４０１Ａ２（ホットスタンバイ）と、ゾーン２上のストレージノード１０８Ｂで稼働するストレージ制御部４０２（ホットスタンバイ）とがクラスタ１０９を構成している。加えて、それぞれのストレージノード１０８Ａ１、１０８Ａ２、１０８Ｂには、同一のゾーン１１３内で冗長化される仮想記憶装置１１０がアタッチされている。ゾーン１のストレージノード１０８Ａ１にアタッチされた仮想記憶装置１１０と、ゾーン１のストレージノード１０８Ａ２にアタッチされた仮想記憶装置１１０と、ゾーン２のストレージノード１０８Ｂにアタッチされた仮想記憶装置１１０は、ストレージ制御部４０１Ａ１、４０１Ａ２、４０２によって冗長化（ミラーリング）されており、同一のデータが格納されている。

【0057】

図１８の構成において、例えばゾーン１のストレージノード１０８Ａ１に障害が発生した場合、クラスタ監視装置（クラスタ１０９の状態を定期的に監視する装置。図では省略）からのフェイルオーバー指示を受けたゾーン１のストレージ制御部４０１Ａ２（ホットスタンバイ）が、アクティブへと昇格し、ゾーン１のストレージ制御部４０１Ａ１が実行していたＩ／Ｏ（Input/Output）処理を引き継ぐ。

【0058】

図１９は、第２の実施の形態による情報処理システム１００の構成を示す図である。
ゾーン１にストレージノード１０８Ａ１、１０８Ａ２が存在し、ゾーン２には、停止状態のストレージノード１０８Ｂ１、１０８Ｂ２が存在する。ストレージノード１０８Ａ１、１０８Ａ２は、ストレージ制御部４０１Ａ１、４０１Ａ２を有し、それぞれアクティブ、ホットスタンバイになっている。また、ストレージノード１０８Ｂ１、１０８Ｂ２はストレージ制御部４０２Ｂ１、４０２Ｂ２を有し、双方ともコールドスタンバイになっている。ゾーン１のストレージノード１０８Ａ１、１０８Ａ２には、複数のゾーン１１３間で冗長化される仮想記憶装置１１０がアタッチされている。

【0059】

図２０は、図１９の構成において、ゾーン１に障害が発生した場合の概要を示した図である。
まず、クラスタ監視装置からのフェイルオーバー指示を受け、ゾーン２でストレージノード１０８Ｂ１、１０８Ｂ２が起動し、ストレージ制御部４０２Ｂ１（コールドスタンバイ）が、アクティブへと昇格して、ゾーン１のストレージ制御部４０２Ａ１が実行していたＩ／Ｏ処理を引き継ぐ。また、ストレージ制御部４０２Ｂ２（コールドスタンバイ）が、ホットスタンバイになる。加えて、ゾーン１のストレージノード１０８Ｂ１、１０８Ｂ２にアタッチしていた仮想記憶装置１１０をデタッチし、フェイルオーバー先であるゾーン２のストレージノード１０８Ｂ１、１０８Ｂ２にアタッチしなおす。
図１９、図２０の構成において、ゾーン１に障害が発生した場合は、ゾーン２の２つのコールドスタンバイが、それぞれアクティブ、ホットスタンバイとなり、ゾーン１１３内での冗長構成を維持することができる。

【0060】

第２の実施形態の情報処理システム１００は、第一のストレージノード（上述した例では、ストレージノード１０８Ａ１）と同じゾーン（上述した例では、ゾーン１）に存在する、第三のストレージノード（上述した例では、ストレージノード１０８Ａ２）および第三のストレージノードに接続する第二の仮想記憶装置１１０が存在することで、第一のストレージノードおよび仮想記憶装置１１０が同じゾーン内で冗長化されている、と言うことができる。

【0061】

また、ゾーン１内のストレージノード１０８Ａ１だけに障害が発生した場合は、クラスタ監視装置からのフェイルオーバー指示を受けたゾーン１のストレージ制御部４０１Ａ２（ホットスタンバイ）が、アクティブへと昇格し、ゾーン１のストレージ制御部４０１Ａ１が実行していたＩ／Ｏ（Input/Output）処理を引き継ぐ。
この場合、第一のストレージノード（上述した例では、ストレージノード１０８Ａ１）だけに障害が発生した場合に、第一のストレージノードと同じゾーン（上述した例では、ゾーン１）内に存在する第三のストレージノード（上述した例では、ストレージノード１０８Ａ２）および第二の仮想記憶装置１１０を運用する、と言うことができる。

【0062】

＜情報処理システム１００の制御方法の説明＞
以上説明を行った情報処理システム１００が行う処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、情報処理システム１００に設けられたコンピュータ内部のプロセッサが、上述した各機能を実現するソフトウェアをメモリにロードして実行し、これらの各機能を実現させる。

【0063】

よって、情報処理システム１００が行う処理は、プロセッサがメモリに記録されたソフトウェアを実行することにより実現し、複数の異なるゾーンに配置された複数のクラウド計算機上で稼働するストレージシステムの制御方法であり、ストレージシステムは、複数のゾーンの複数の計算機に配置され、入出力されるデータを処理するストレージノードを有し、ストレージノードには、正常運用中に動作する第一のストレージノードと、第一のストレージノードとは異なるゾーンに存在し、かつ第一のストレージノードから処理を引き継ぎ可能な第二のストレージノードと、が含まれ、複数のクラウド計算機は、ストレージノードが処理するデータを物理的に格納する記憶装置を有し、異なるゾーン間に配置された複数の記憶装置によりゾーン間で冗長化してデータを格納する仮想記憶装置を備え、ストレージシステムは、ストレージ制御情報を用いて仮想記憶装置内のデータにアクセスし、ストレージシステムを、仮想記憶装置に格納し、仮想記憶装置は、格納されたデータをゾーン間で冗長化し、第一のストレージノードを含むゾーンに障害が発生した場合に、第二のストレージノードが、ゾーン間で冗長化されたデータを用いて第一のストレージノードの処理を引き継ぐストレージシステムの制御方法であると捉えることができる。

【0064】

以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

【符号の説明】

【0065】

１００…情報処理システム、１０１…ローカルホスト装置、１０３…クラウド制御部、１０４…クラウドサービス、１０５…計算機提供サービス、１０６…ブロックストレージ提供サービス、１０７…コンピュートノード、１０８、１０８Ａ、１０８Ｂ、１０８Ａ１、１０８Ａ２、１０８Ｂ１、１０８Ｂ２…ストレージノード、１１０…仮想記憶装置、１１１…物理記憶装置

【図1】