特許第6966091号(P6966091)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECプラットフォームズ株式会社の特許一覧

特許6966091ホットスペア制御装置、ホットスペア制御方法及びプログラム
<>
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000002
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000003
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000004
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000005
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000006
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000007
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000008
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000009
  • 特許6966091-ホットスペア制御装置、ホットスペア制御方法及びプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6966091
(24)【登録日】2021年10月25日
(45)【発行日】2021年11月10日
(54)【発明の名称】ホットスペア制御装置、ホットスペア制御方法及びプログラム
(51)【国際特許分類】
   G06F 3/06 20060101AFI20211028BHJP
【FI】
   G06F3/06 306Z
   G06F3/06 305C
   G06F3/06 540
【請求項の数】6
【全頁数】10
(21)【出願番号】特願2019-38472(P2019-38472)
(22)【出願日】2019年3月4日
(65)【公開番号】特開2020-144429(P2020-144429A)
(43)【公開日】2020年9月10日
【審査請求日】2020年7月7日
(73)【特許権者】
【識別番号】000227205
【氏名又は名称】NECプラットフォームズ株式会社
(74)【代理人】
【識別番号】100106909
【弁理士】
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100134544
【弁理士】
【氏名又は名称】森 隆一郎
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(72)【発明者】
【氏名】小玉 恭裕
【審査官】 打出 義尚
(56)【参考文献】
【文献】 米国特許出願公開第2010/0275057(US,A1)
【文献】 米国特許出願公開第2006/0271818(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/06
(57)【特許請求の範囲】
【請求項1】
一定回数以上のメディアエラーが発生したディスクを検出する検出部と、
前記ディスクを診断および修復のためにホットスペアプールに入れ、前記ディスクの代わりに前記ホットスペアプール内の使用待ちのホットスペアを組み込む切り替え部と、
前記ディスクを修復し、正常性が確認された場合、前記ディスクを前記ホットスペアプール内の使用待ちのホットスペアとして管理する修復管理部と、
を備え、前記正常性を確認することは、前記修復後のディスクに前記一定回数と同じ数以上の予備セクタが存在することを確認することを含む、ホットスペア制御装置。
【請求項2】
前記ホットスペアプールは、使用待ちのホットスペアを管理する使用待ち層と、診断および修復されるディスクを管理する診断層とを有する、請求項1に記載のホットスペア制御装置。
【請求項3】
前記修復管理部は、前記診断層で管理されるディスクに対して、前記ディスクの全面を診断し、メディアエラーが発生したセクタの代わりに予備セクタを割り当てることによって修復する、請求項2に記載のホットスペア制御装置。
【請求項4】
前記修復管理部は、前記修復されたディスクの正常性が確認されると、前記ディスクを前記使用待ち層で管理する、請求項3に記載のホットスペア制御装置。
【請求項5】
一定回数以上のメディアエラーが発生したディスクを検出するステップと、
前記ディスクを診断および修復のためにホットスペアプールに入れ、前記ディスクの代わりに前記ホットスペアプール内の使用待ちのホットスペアを組み込むステップと、
前記ディスクを修復し、正常性が確認された場合、前記ディスクを前記ホットスペアプール内の使用待ちのホットスペアとして管理するステップと、
を有し、前記正常性を確認することは、前記修復後のディスクに前記一定回数と同じ数以上の予備セクタが存在することを確認することを含む、ホットスペア制御方法。
【請求項6】
ホットスペア制御装置のコンピュータを、
一定回数以上のメディアエラーが発生したディスクを検出する検出部と、
前記ディスクを診断および修復のためにホットスペアプールに入れ、前記ディスクの代わりに前記ホットスペアプール内の使用待ちのホットスペアを組み込む切り替え部と、
前記ディスクを修復し、正常性が確認された場合、前記ディスクを前記ホットスペアプール内の使用待ちのホットスペアとして管理する修復管理部と、
として機能させ、前記正常性を確認することは、前記修復後のディスクに前記一定回数と同じ数以上の予備セクタが存在することを確認することを含む、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ホットスペア制御装置、ホットスペア制御方法及びプログラムに関する。
【背景技術】
【0002】
近年、ハードディスクを用いたストレージ装置では、RAID(Redundant Array of Inexpensive Disks)の技術を用いて、冗長性を確保し、信頼性を向上させている。RAIDのレベルに応じて、使用されるハードディスクの台数が異なるが、2台以上のハードディスクが使用される。そのうちエラーが多数発生したハードディスクは切り離され、ホットスペアディスクが用いられる。
【0003】
関連技術には、誤り回復回数などを監視して不安定なディスクをRAIDから縮退させて(切り離して)ホットスペアを使用するもの(特許文献1)、一時的な障害が発生したドライブを自動的に回復・復旧させて再利用するもの(特許文献2)、ライトまたはリードエラーした領域のデータを用意した未使用領域に保存するもの(特許文献3)、RAIDのディスクが故障した場合、ホットスペアディスクの中で最も故障可能性が低いディスクを選定して組み入れるもの(特許文献4)、エラーディスクのデータを予備ディスクに復元し、エラーディスクを再イニシャライズおよび検査し、予備ディスクからデータを復元するもの(特許文献5)がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015−172898号公報
【特許文献2】国際公開第2014/132373号
【特許文献3】特開2010−267037号公報
【特許文献4】特開2008−250566号公報
【特許文献5】特開平08−147112号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
RAID機能を有するストレージ装置では、ディスクのメディアエラーを検出しても冗長性を利用して予備セクタにリアサイン(再割り当て)する機能を備えている。傷などによるメディアエラーが増えるとリアサインを多く実施するため業務への影響が避けられない。業務への影響を避けるために、一定回数以上のリアサインが実施されると当該ディスクは縮退させ(切り離し)、ディスクに確保されている予備セクタが多く残ったまま縮退ディスクとしてホットスペアディスクと交換していた。そのため、一定回数以上のメディアエラーが検出されたディスクには、保有しているリアサイン領域が多く残ったまま縮退ディスクとなって交換されるものが多く発生している。
【課題を解決するための手段】
【0006】
本発明は、ホットスペア制御装置、ホットスペア制御方法及びプログラムを提供する。
【0007】
本発明の第一の態様は、ホットスペア制御装置が、一定回数以上のメディアエラーが発生したディスクを検出する検出部と、
前記ディスクを診断および修復のためにホットスペアプールに入れ、前記ディスクの代わりに前記ホットスペアプール内の使用待ちのホットスペアを組み込む切り替え部と、
前記ディスクを修復し、正常性が確認された場合、前記ディスクを前記ホットスペアプール内の使用待ちのホットスペアとして管理する修復管理部と、
を備えることを特徴とする。
【0008】
また、本発明の第二の態様は、ホットスペア制御方法が、一定回数以上のメディアエラーが発生したディスクを検出するステップと、
前記ディスクを診断および修復のためにホットスペアプールに入れ、前記ディスクの代わりに前記ホットスペアプール内の使用待ちのホットスペアを組み込むステップと、
前記ディスクを修復し、正常性が確認された場合、前記ディスクを前記ホットスペアプール内の使用待ちのホットスペアとして管理するステップと、
を有することを特徴とする。
【0009】
また、本発明の第三の態様は、プログラムが、ホットスペア制御装置のコンピュータを、
一定回数以上のメディアエラーが発生したディスクを検出する検出手段、
前記ディスクを診断および修復のためにホットスペアプールに入れ、前記ディスクの代わりに前記ホットスペアプール内の使用待ちのホットスペアを組み込む切り替え手段、
前記ディスクを修復し、正常性が確認された場合、前記ディスクを前記ホットスペアプール内の使用待ちのホットスペアとして管理する修復管理手段、
として機能させることを特徴とする。
【発明の効果】
【0010】
本発明によれば、一定回数以上のメディアエラーが発生したディスクの診断と修復を行い、正常性が確認されたディスクをホットスペアとすることで、エラーが発生したディスクを再度使用可能にし、予備セクタが多く残ったままディスクを交換することを防止できる。
【図面の簡単な説明】
【0011】
図1】本発明の実施形態による、ストレージ装置の構成図である。
図2】本発明の実施形態による、ホットスペア制御部の構成を示すブロック図である。
図3】本発明の実施形態による、ホットスペア制御部の動作を示すフローチャートである。
図4】本発明の実施形態による、ディスクが縮退した場合の処理を示す図である。
図5】本発明の実施形態による、修復されたディスクの正常性が確認された場合の処理を示す図である。
図6】本発明の実施形態による、修復されたディスクの正常性が確認されなかった場合の処理を示す図である。
図7】関連技術による、ストレージ装置のブロック図である。
図8】関連技術による、ホットスペアの組み込みを示す図である。
図9】関連技術による、縮退ディスクの交換を示す図である。
【発明を実施するための形態】
【0012】
本発明の実施形態を説明するため、まず図7から図9を参照して関連技術を説明する。図7は、関連技術による、ストレージ装置の構成図である。ストレージ装置2はホスト1によってアクセスされる。ホスト1はストレージ装置2へリード、ライトなどの命令を発行して、ストレージ装置2からのデータの読み取り、ストレージ装置2へのデータの書き込みなどを行う。ストレージ装置2は、ホスト1からデータのリード、ライトなどの命令を受信して、ディスクからデータを読み出してホスト1に送信し、あるいはホスト1から受信したデータをディスクに書き込むなどの処理を行う。
【0013】
ストレージ装置2は、複数のディスクを含むディスクエンクロージャ26と、ディスクエンクロージャ26を制御するディスク制御部3を備える。
【0014】
図7では、ディスクエンクロージャ26は、3つのプール(プール5〜7)と、3つのホットスペア(ディスク13、19、25)を備える。プール5は5個のディスク(ディスク8〜12)を備え、プール6は5個のディスク(ディスク14〜18)を備え、プール7は5個のディスク(ディスク20〜24)を備える。なお、ディスクエンクロージャ26が備えるプールの数、ホットスペアの数、各プールが備えるディスクの数は一例であり、図7に示す数に限定されない。プールの数と、ホットスペアの数は同一でなくでもよく、各プールが備えるディスクの数は同一でなくてもよい。
【0015】
各ディスクは、例えばハードディスクである。各プールは、例えばRAID機能を有し、許容範囲内でディスクが故障しても停止せずに稼働を継続でき、稼働中にディスクの切り離しと組み込みが可能である。
【0016】
ホスト1が、ストレージ装置2に対してリードもしくはライトを発行すると、ディスク制御部3は、アクセス対象のプールに属すディスクに対してアクセスする。アクセスした際に、記憶メディアに正しくデータを保持できないセクタ(ディスクのトラックの一部)があることが検出されるとメディアエラーとなる。そのセクタは使用されなくなり、予備セクタが代わりにリアサインされる。リアサインが一定回数以上に達したディスクは、さらにエラーが発生して業務に影響が出ることを避けるため使用されなくなり、図7のプール5に属すディスク10のように縮退ディスクとして扱われる。上記の一定回数は、例えば既定値としてディスク制御部3に設定され、回数は、例えばディスクの使用開始からカウントされる。
【0017】
ディスク10の縮退により、ディスク10は論理的にプール5から切り離され、プール5の冗長性が低下する。そこでホットスペアをプール5に割り当てると、プール5の冗長性は保たれる。すなわち、図8に示すように、縮退したディスク10は不要となってプールから外され、ホットスペアであるディスク13がプールへ組み込まれ、プール5が新たにディスク8、9、11、12、13で構成され、RAID機能を実現する。
【0018】
プール5から切り離されたディスク10は業務で使用されなくなり、縮退ディスクとしてシステム管理者に通知され、縮退ディスクは、図9に示すように、例えばシステム管理者によって取り外され、別のディスクと物理的に交換されていた。なお、交換されて新たに取り付けられたディスクは、例えばホットスペアとして使用することができる。
【0019】
図7から図9に示した関連技術に対して、ここで図1を参照して本発明の実施形態によるストレージ装置の構成を説明する。本発明では、ストレージ装置2のディスクエンクロージャ26に実装されているディスクのうち、ホットスペアとして割り当てられている複数のディスクがホットスペアプール31内で管理される。さらにそのディスクは、すぐに使用できるホットスペアが管理される使用待ち層32と、診断と修復処理が必要なディスクが管理される診断層33に分けて管理される。すなわち、ホットスペア制御部4(ホットスペア制御装置)は、論理的に、使用待ち層32に属すディスクと、診断層33に属すディスクとを分けて管理する。以下、ディスクを使用待ち層32に入れるとは、そのディスクを使用待ち層32で管理されるディスクに加えることを意味し、ディスクを診断層33に入れるとは、そのディスクを診断層33で管理されるディスクに加えることを意味する。ディスクをホットスペアプールに入れる、についても同様である。
【0020】
図7に関して説明したのと同様に、ディスクエンクロージャ26が備えるプールの数、ホットスペアの数、各プールが備えるディスクの数は一例であり、図7に示す数に限定されない。プールの数と、ホットスペアの数は同一でなくでもよく、各プールが備えるディスクの数は同一でなくてもよい。各ディスクは、例えばハードディスクである。各プールは、例えばRAID機能を有し、許容範囲内でディスクが故障しても停止せずに稼働を継続でき、稼働中にディスクの切り離しと組み込みが可能である。
【0021】
図1は、一例として、ホットスペアであるディスク13、19、25がホットスペアプール31の使用待ち層32で管理され、ホットスペアプール31の診断層33には管理されるディスクがない状態を示す。
【0022】
図2は、ホットスペア制御部4の構成を示すブロック図である。ホットスペア制御部4は、一定回数以上のメディアエラーが発生したディスクを検出する検出部41と、検出されたディスクを診断および修復のためにホットスペアプールに入れ、そのディスクの代わりにホットスペアプール内の使用待ちのホットスペアを組み込む切り替え部42と、検出されたディスクを修復し、正常性が確認された場合、そのディスクをホットスペアプール内の使用待ちのホットスペアとして管理する修復管理部43と、を備える。
【0023】
次に、図3を参照して、ホットスペア制御部4の動作を説明する。図3は、ホットスペア制御部の動作を示すフローチャートである。
【0024】
ステップS51において、ホットスペア制御部4の検出部41は、一定回数以上のメディアエラーが発生したディスクを検出する。ここで、検出されたディスクをプール5のディスク10とする。例えば、一定回数以上のメディアエラーが発生したディスクの検出は図1のディスク制御部3が行い、図2のホットスペア制御部4の検出部41はディスク制御部3から検出信号を受信してもよい。上記の一定回数は、例えば既定値としてディスク制御部3に設定され、回数は、例えばディスクの使用開始からカウントされる。
【0025】
ステップS52において、ホットスペア制御部4の切り替え部42は、検出されたディスク10を診断および修復のためにホットスペアプール31の診断層33に入れる。すなわち、論理的に、ディスク10をプール5から切り離し、診断層33に属すディスクとして管理する。そして、ステップS53において、ディスク10の代わりにホットスペアプール31内の使用待ち層32のホットスペアであるディスク13を組み込む。
【0026】
図9を参照して説明した関連技術では、ディスク10が縮退すると、論理的にプール5から切り離され、別のディスクと物理的に交換されていた。これに対し、本発明の実施形態では、図4に示すように、縮退し論理的に切り離されたディスク10が全面診断と修復処理を実施するためにホットスペアプールの診断層33に入れられ、ホットスペアプール31内の使用待ち層32で待機中のホットスペアであるディスク13がプール5に割り当てられる。ディスク制御部3は、プール5にホットスペアであるディスク13が割り当てられたので、プール5の構成の再構築を行う。プール5が新たにディスク8、9、11、12、13で構成され、RAID機能を実現する。
【0027】
ステップS54において、ホットスペア制御部4の修復管理部43は、検出されたディスク10を修復する。そして、ステップS55において、修復されたディスク10の正常性を確認する。
【0028】
ホットスペア制御部4の修復管理部43は、一定回数以上のメディアエラーが発生したディスクを診断と修復処理が必要なディスクとして診断層33で管理し、業務に影響を与えずに、ディスクの全面の診断を行い、メディアエラーとなったセクタの修復処理を実施する。診断と修復を行った後のディスクをホットスペアとして使用待ち層32の管理とするか、あるいは縮退ディスクとして交換するようにシステム管理者に通知するかを判定する。修復されたディスクの正常性が確認された場合、ステップS56に進み、ディスク10をホットスペアプール31内の使用待ち層32のホットスペアであるディスク10として管理する。正常性が確認されなかった場合、ステップS57に進み、ディスクを交換するようにシステム管理者に通知する。
【0029】
例えば、リアサインが一定回数以上に達して診断層33に入ったディスクであっても、修復後のディスクに当該一定回数と同じ数以上の予備セクタが存在すれば、プールに組み込んで使用することができるので、そのディスクを使用待ち層32に入れることができる。この場合、一定回数以上のメディアエラーの発生で再度エラーディスクとされるまでディスクを使用することができ、ステップS51〜S56を繰り返すことにより、予備セクタを可能な限り使い切るまで再利用することができる。一方、修復後のディスクに当該一定回数と同じ数以上の予備セクタがなければ、当該一定回数のメディアエラーに対処することができないので、縮退ディスクとして交換するようにシステム管理者に通知する。
【0030】
図5は、ステップS55で、修復されたディスク10の正常性が確認された場合の、ステップS56における処理を示す。ホットスペア制御部4の修復管理部43が、診断層33でディスク10の全面診断とメディアエラーとなったセクタ修復処理を実施し、正常性が確認されたディスク10を、使用待ち層32に何時でも使用可能なホットスペアとして割り当てる。そしてホットスペアとして利用されるまで使用待ち層32で待機させる。
【0031】
図6は、ステップS55で、修復されたディスク10の正常性が確認されなかった場合の、ステップS57における処理を示す。診断層33でディスク10の全面診断と修復処理を実施しても正常性が確認できなかったので、ディスク10は修復不可と判断して、交換が必要な縮退ディスクとしてシステム管理者に報告する。ディスク10は縮退ディスクとして物理的に交換される。
【0032】
上述のストレージ装置2は内部に、コンピュータシステムを有している。上述したホットスペア制御部4による処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0033】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【産業上の利用可能性】
【0034】
本発明は、本発明は、ストレージ装置においてホットスペアを使用する装置に利用することができる。
【符号の説明】
【0035】
1 ホスト
2 ストレージ装置
3 ディスク制御部
4 ホットスペア制御部
5〜7 プール
8〜25 ディスク
26 ディスクエンクロージャ
27〜30 ホットスペア
31 ホットスペアプール
32 使用待ち層
33 診断層
図1
図2
図3
図4
図5
図6
図7
図8
図9