特許7585659 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電気株式会社の特許一覧

特許7585659監視システム、監視方法、プログラム、フォールトトレラントサーバ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】監視システム、監視方法、プログラム、フォールトトレラントサーバ

(51)【国際特許分類】

G06F 11/22 20060101AFI20241112BHJP

G06F 3/06 20060101ALI20241112BHJP

G06F 11/20 20060101ALI20241112BHJP

G06F 11/07 20060101ALI20241112BHJP

【ＦＩ】

G06F11/22 675Z

G06F3/06 304E

G06F3/06 304N

G06F3/06 305F

G06F11/20 620

G06F11/07 157

G06F11/07 193

G06F11/07 140M

【請求項の数】 5

(21)【出願番号】P 2020141150

(22)【出願日】2020-08-24

(65)【公開番号】P2022036778

(43)【公開日】2022-03-08

【審査請求日】2023-07-14

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100109313

【弁理士】

【氏名又は名称】机昌彦

(74)【代理人】

【識別番号】100149618

【弁理士】

【氏名又は名称】北嶋啓至

(72)【発明者】

【氏名】桜井良行

【審査官】坂東博司

(56)【参考文献】

【文献】特開２０１７－１４６８３３（ＪＰ，Ａ）

【文献】特開２０１７－１６７７２９（ＪＰ，Ａ）

【文献】特開平１１－３３８６４８（ＪＰ，Ａ）

【文献】特開２０１６－１１５２３９（ＪＰ，Ａ）

【文献】特開２０１９－０５３４８６（ＪＰ，Ａ）

【文献】特開２０１３－１７８７１３（ＪＰ，Ａ）

【文献】特開２０１３－２０６０５２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１１／２２

Ｇ０６Ｆ３／０６

Ｇ０６Ｆ１１／２０

Ｇ０６Ｆ１１／０７

(57)【特許請求の範囲】

【請求項1】

第１のサブシステムと第２のサブシステムとを有するフォールトトレラントサーバを監視する監視システムであって、
同期して業務処理を行う前記第１及び第２のサブシステムがそれぞれ備える記憶装置に対してそれぞれＩＯ(Input Output)要求を発行する処理手段と、
前記ＩＯ要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する判定手段と、
前記第１及び第２のサブシステムの負荷を計測する負荷計測手段と、
前記判定手段により前記異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記第１及び第２のサブシステムの同期を解除し、前記第１及び第２のサブシステムが独立して動作可能となるよう制御する同期制御手段と、を備え、
前記処理手段は、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記異常傾向があると判定された前記記憶装置を備える、同期が解除された第１または第２のいずれかの前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行い、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えない場合、前記第１及び第２のサブシステムが同期された状態で、前記診断処理を行う
監視システム。

【請求項2】

前記処理手段は、前記第１及び第２のサブシステムが同期して動作しているかを判定し、同期して動作していると判定した場合に、定期的に前記ＩＯ要求を発行して、前記ＩＯ要求それぞれの応答時間を計測して記録し、
前記判定手段は、前記応答時間の差が閾値を超えている場合、前記負荷が所定の閾値を超えるかを判定する
請求項１に記載の監視システム。

【請求項3】

第１のサブシステムと第２のサブシステムとを有するフォールトトレラントサーバを監視する監視方法であって、
同期して業務処理を行う前記第１及び第２のサブシステムがそれぞれ備える記憶装置に対してそれぞれＩＯ(Input Output)要求を発行し、
前記ＩＯ要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定し、
前記第１及び第２のサブシステムの負荷を計測し、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記第１及び第２のサブシステムの同期を解除し、前記第１及び第２のサブシステムが独立して動作可能となるよう制御し、前記異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行い、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えない場合、前記第１及び第２のサブシステムの同期を解除せず、前記第１及び第２のサブシステムが同期された状態で、前記診断処理を行う
監視方法。

【請求項4】

第１のサブシステムと第２のサブシステムとを有するフォールトトレラントサーバを監視するプログラムであって、
同期して業務処理を行う前記第１及び第２のサブシステムがそれぞれ備える記憶装置に対してそれぞれＩＯ(Input Output)要求を発行する処理と、
前記ＩＯ要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する処理と、
前記第１及び第２のサブシステムの負荷を計測する処理と、
異常傾向が判定された際に、前記負荷が所定の閾値を超えた場合に、前記第１及び第２のサブシステムの同期を解除し、前記第１及び第２のサブシステムが独立して動作可能となるよう制御する処理と、
前記異常傾向があると判定された前記記憶装置を備える、同期が解除された第１または第２のいずれかの前記サブシステムにおいて、前記記憶装置の異常の有無を診断する診断処理と、
前記異常傾向が判定された際に、前記負荷が所定の閾値を超えない場合、前記第１及び第２のサブシステムの同期を解除せず、前記第１及び第２のサブシステムが同期された状態で、前記記憶装置の異常の有無を診断する診断処理と
をコンピュータに実行させるプログラム。

【請求項5】

第１の記憶装置と、第１のＣＰＵモジュールと、第１のＦＴ（フォールトトレラント）コントローラとを有する、第１のサブシステムと、
第２の記憶装置と、第２のＣＰＵモジュールと、第２のＦＴコントローラとを有する、第２のサブシステムを備え、
同期して業務処理を行う前記第１及び第２のサブシステムがそれぞれ備える前記第１及び第２の記憶装置は、それぞれ、監視システムから発行されたＩＯ(Input Output)要求に対して応答し、
前記ＩＯ要求に対する応答時間の差に基づいて、前記第１の記憶装置の異常傾向が判定され、かつ、前記第１及び第２のサブシステムの負荷が所定の閾値を超えた場合、前記第１のＦＴコントローラは、前記第１及び第２のサブシステムの同期の解除を制御し、同期が解除された前記第１のサブシステムにおいて、前記第１の記憶装置の異常の診断が行われ、
前記ＩＯ要求に対する応答時間の差に基づいて、前記第１の記憶装置の異常傾向が判定され、かつ、前記第１及び第２のサブシステムの負荷が所定の閾値を超えない場合、前記第１及び第２のサブシステムが同期した状態で前記第１の記憶装置の異常の診断が行われる
フォールトトレラントサーバ。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、監視システム等に関する。

【背景技術】

【0002】

ＲＡＩＤ（Redundant Arrays of Inexpensive Disks）システムを構成するハードディスクのうち、故障には至っていないが、性能が低下しているハードディスクを特定する方法として、ハードディスクの応答時間を計測する方法がある。この方法では、応答時間が予め定められた閾値以上であるハードディスクは、性能が低下していると判定される。しかし、応答時間の閾値超過は一時的な負荷などの偶発的な要因によって発生した可能性がある。したがって、本当はハードディスクに異常がない場合でも異常判定をしてしまい、無駄なディスク交換につながる。

【0003】

特許文献１には、ストレージ装置における潜在故障状態の記憶装置の発見のために、ディスク負荷が閾値以下かつレスポンスタイムが閾値以上である記憶装置を検出する方法が開示されている。特許文献１の方法では、ディスク負荷以外の偶発的な要因でレスポンスタイムが閾値超過してしまった場合にも記憶装置が故障している可能性があると判定してしまう。

【0004】

ハードディスクの異常傾向を検出した後、異常状態を確定するためにハードディスクの診断を行うことがある。例えば、同様の計測を複数回実施して、全ての計測において特定のハードディスクのみ性能が低下していることを確認してから、当該ハードディスクに異常があると診断する方法がある。さらに、例えば、平均応答時間の比較を行い、平均応答時間が閾値を超えたハードディスクに異常があると診断する方法がある。

【0005】

特許文献２には、タイムアウト等のディスクエラーが発生した場合、当該ディスクを仮縮退状態にし、４通りのディスク診断処理を行うことが開示されている。

【先行技術文献】

【特許文献】

【0006】

【文献】特開２０１９－０３６１６３号公報

【文献】特開２００２－１０８５７３号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

ハードディスクの診断処理と業務処理は並行して行うから、ハードディスクを切り離さずにハードディスクの診断処理を行う方法では、システム全体の性能低下を招き、業務処理に支障をきたす可能性がある。さらに、性能が低下している可能性のあるハードディスクに対して、診断のための入出力を繰り返して応答時間を計測することは、システムに更なる負荷をかけることになる。つまり、ハードディスクの診断を詳細に実施するほど、システムに負荷がかかり、業務処理に支障をきたす可能性がある。

【0008】

特許文献２の診断処理は、ホストコンピュータからの命令に並行して行われるため、同一のディスクアレイ装置上で、業務処理と並行して処理する必要がある。したがって、特許文献２の診断方法は、診断処理により業務処理の性能に影響が出てしまう可能性がある。

【0009】

本開示の目的の一つは、業務処理への影響を回避する、記憶装置の監視システム等を提供することである。

【課題を解決するための手段】

【0010】

本開示に係る監視システムは、同期された第１及び第２のサブシステムがそれぞれ備える記憶装置に対してそれぞれＩＯ(Input Output)要求を発行する処理手段と、前記ＩＯ要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する判定手段と、異常傾向が判定されると、前記第１及び第２のサブシステムの同期を解除し、前記第１及び第２のサブシステムが独立して動作可能となるよう制御する同期制御手段と、を備え、前記処理手段は、異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行う。

【0011】

本開示に係る監視方法は、同期された第１及び第２のサブシステムがそれぞれ備える記憶装置に対してそれぞれＩＯ(Input Output)要求を発行し、前記ＩＯ要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定し、異常傾向が判定されると、前記第１及び第２のサブシステムの同期を解除し、前記第１及び第２のサブシステムが独立して動作可能となるよう制御し、異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理を行う。

【0012】

本開示に係るプログラムは、同期された第１及び第２のサブシステムがそれぞれ備える記憶装置に対してそれぞれＩＯ(Input Output)要求を発行する処理と、前記ＩＯ要求に対する応答時間の差に基づいて、前記応答時間がより長い前記記憶装置の異常傾向を判定する処理と、異常傾向が判定されると、前記第１及び第２のサブシステムの同期を解除し、前記第１及び第２のサブシステムが独立して動作可能となるよう制御する処理と、異常傾向があると判定された前記記憶装置を備える前記サブシステムにおいて、前記記憶装置の異常の有無の診断処理とをコンピュータに実行させる。

【0013】

本開示に係るフォールトトレラントサーバは、第１の記憶装置と、第１のＣＰＵモジュールと、第１のフォールトトレラント（ＦＴ）コントローラと有する、第１のサブシステムと、第２の記憶装置と、第２のＣＰＵモジュールと、第２のＦＴコントローラと有する、第２のサブシステムを備え、前記第１及び第２の記憶装置は、それぞれ、監視システムから発行されたＩＯ(Input Output)要求に対して応答し、前記ＩＯ要求に対する応答時間の差に基づいて、前記第１の記憶装置の異常傾向が判定されると、前記第１のＦＴコントローラは、前記第１及び第２のサブシステムの同期の解除を制御し、前記第１のサブシステムにおいて、前記第１の記憶装置の異常の診断を行い、前記第２のサブシステムにおいて、他の処理を行う。

【発明の効果】

【0014】

本開示によれば、業務処理への影響を回避する、記憶装置の監視システム等を提供することができる。

【図面の簡単な説明】

【0015】

【図1】本開示に係るＦＴサーバ１の構成を示す図である。

【図2】同期状態のＦＴサーバ１を示す図である。

【図3】同期を解除した状態のＦＴサーバ１を示す図である。

【図4A】第１実施形態に係る監視システム５０の構成を例示するブロック図である。

【図4B】第１実施形態に係る監視システム５０の動作の例を示すフローチャートである。

【図5】第１実施形態に係る異常傾向検出処理を示すフローチャートである。

【図6】同期を解除する際のシステム１０とシステム２０の動作を示すフローチャートである。

【図7】第１実施形態に係る診断処理を示すフローチャートである。

【図8】第２実施形態に係る監視システム５０の構成を例示するブロック図である。

【図9】第２実施形態に係る異常傾向検出処理を示すフローチャートである。

【図10】第２実施形態に係る診断処理を示すフローチャートである。

【図11】同期を解除する際のシステム１０とシステム２０の動作を示すフローチャートである。

【図12】監視システム５０のハードウェア構成例を示すブロック図である。

【発明を実施するための形態】

【0016】

ミッションクリティカルなシステムでは、障害発生時においてもサービスの継続が要求されるため、フォールトトレラント（Fault Tolerant）技術が導入される。フォールトトレラント技術を採用したコンピュータとして、フォールトトレラントサーバ（ＦＴサーバ）が知られている。

【0017】

ＦＴサーバを構成するハードウェアコンポーネントは二重化されている。一方のハードウェアコンポーネントに故障が発生した場合、故障が発生した部分は論理的に切り離される。正常に動作している部分は処理を続行するため、二重化により耐障害性が向上する。

【0018】

本開示に係る監視システムは、例として、ＦＴサーバのハードディスクの監視に用いることができる。図１は、本開示に係るＦＴサーバ１の構成を示す図である。本開示に係るＦＴサーバ１は、２つのサブシステムとして、システム１０とシステム２０を備える。

【0019】

システム１０は、ＣＰＵモジュール１１、ＦＴコントローラ１２、ＩＯモジュール１３を有する。ＣＰＵモジュール１１はＣＰＵ（Central Processing Unit）、及び、メモリを有する。ＩＯモジュール１３は、ＮＩＣ（Network Interface Card）、及び、ハードディスク１４を含む、各ＩＯ（Input Output）デバイスを有する。

【0020】

システム２０は、ＣＰＵモジュール２１、ＦＴコントローラ２２、ＩＯモジュール２３を有する。ＣＰＵモジュール２１はＣＰＵ、メモリを有する。ＩＯモジュール２３は、ＮＩＣ、及び、ハードディスク２４を含む、各ＩＯデバイスを有する。

【0021】

ＣＰＵモジュール１１とＣＰＵモジュール２１は、同一クロックで同期動作するように、ＦＴコントローラ１２及びＦＴコントローラ２２によって制御される。ＩＯモジュール１３及びＩＯモジュール２３の各ＩＯデバイスは、ソフトウェアにより冗長構成を実現する。ＮＩＣはチーミング技術を利用して冗長構成を実現し、ハードディスクはミラーリング技術を利用して冗長構成を実現する。

【0022】

図２は、同期状態のＦＴサーバ１を示す図である。図２に示すように、ＦＴサーバ１が同期状態で動作している場合、ＣＰＵモジュール１１とＣＰＵモジュール２１は同一クロックで同期動作するように、ＦＴコントローラ１２及びＦＴコントローラ２２によって制御されている。ＦＴサーバ１上では、ＯＳ（Operating System）３０が実行され、ＯＳ３０上で業務処理を行う。一方のシステムにハードウェア故障が発生した場合、故障が発生した部分を論理的に切り離し、正常に動作しているシステムが処理を続行することができる。

【0023】

ＦＴサーバ１が、ハードウェアの故障なく同期状態で動作している場合、ＦＴサーバ１の同期を意図的に一時的に解除することで、ＦＴサーバ１をそれぞれ独立して動作する２つのシステムに分割することが可能になる。

【0024】

図３は、同期を解除した状態のＦＴサーバ１を示す図である。図３に示すように、意図的に同期を解除した状態では、システム１０ではＣＰＵモジュール１１が動作し、ＩＯモジュール１３の各ＩＯデバイスに対応するＩＯ処理が実施される。システム１０上では、ＯＳ３１が実行される。システム２０では、ＣＰＵモジュール２１が動作し、ＩＯモジュール２３の各ＩＯデバイスに対応するＩＯ処理が実施される。システム２０上では、ＯＳ３２が実行される。

【0025】

［第１実施形態］
［構成］
図４Ａは、第１実施形態に係る監視システム５０の構成を例示するブロック図である。監視システム５０は、例えば、図１に示すＦＴサーバ１と有線または無線により接続され、ＦＴサーバ１のハードディスク１４、及び、ハードディスク２４を監視する。監視システム５０は、処理部５１、記録部（図示せず）、判定部５３、同期制御部５４を備える。処理部５１、判定部５３、同期制御部５４は、それぞれ、本開示に係る処理手段、判定手段、同期制御手段の一実施形態である。ハードディスク１４、及び、ハードディスク２４は、それぞれ本開示に係る記憶装置の一実施形態である。

【0026】

処理部５１は、同期された２つのサブシステムが備える記憶装置に対してそれぞれＩＯ要求を発行する（以下、単にＩＯを発行する、またはＩＯ発行と記す場合もある）。具体的には、処理部５１は、例えば、ハードディスク１４と、ハードディスク２４とに定期的にＩＯを発行する。処理部５１は、ＩＯ要求を送信してからＩＯ要求に対する応答を受信するまでの応答時間を計測するためにＩＯを発行する。そして、処理部５１は、計測した応答時間を記録部に記録させる。また、処理部５１は、異常傾向があると判定された記憶装置を備えるサブシステムにおいて、記憶装置の異常の有無を診断する診断処理を行う。

【0027】

記録部は、例えば、ＲＡＭ（Random Access Memory）等の補助記憶装置である。記録部は、ハードディスク等の記憶装置によって実現されてもよい。

【0028】

判定部５３は、ＩＯ要求に対する応答時間の差に基づいて、応答時間がより長い記憶装置の異常傾向を判定する。具体的には、判定部５３は、例えば、記録部に記録された各ハードディスクの応答時間を監視し、応答時間の差が閾値以上になるか否かを判定する。応答時間の差が閾値を超えた場合、判定部５３は、どちらのハードディスクに異常傾向があるかの情報と共にＦＴサーバ１の同期解除が必要な旨の通知を同期制御部５４へ送信する。更に判定部５３は、ハードディスクの診断処理の結果に基づいて、当該ハードディスクに性能低下の異常があるか否かを確定するための判定を行う。

【0029】

同期制御部５４は、一方の記憶装置の異常傾向が判定されると、２つのサブシステムの同期を解除し、システム１０及びシステム２０が独立して動作可能となるよう制御する。具体的には、同期制御部５４は、例えば、判定部５３からの通知に基づき、ＦＴサーバ１の同期の制御を行う。同期の解除を行う際、異常傾向のない（応答時間が短い）ハードディスク側のシステムを業務継続側、異常傾向のある（応答時間が長い）ハードディスク側のシステムをハードディスク診断側として同期を解除する。なお、ＦＴサーバ１の同期の制御は、ＦＴコントローラ１２、ＦＴコントローラ２２を介して行われる。

【0030】

［動作］
図４Ｂは、第１実施形態に係る監視システム５０の動作の例を示すフローチャートである。まず、処理部５１は、同期された２つのサブシステムである、システム１０とシステム２０がそれぞれ備える記憶装置に対し、それぞれＩＯ要求を発行する（ステップＳ１０１）。判定部５３は、ＩＯ要求に対する応答時間の差に基づいて、応答時間がより長い記憶装置の異常傾向を判定する（ステップＳ１０２）。同期制御部５４は、記憶装置の異常傾向が判定されると、システム１０とシステム２０の同期を解除し、２つのサブシステムが独立して動作可能となるよう制御する（ステップＳ１０３）。処理部５１は、異常傾向があると判定された記憶装置を備えるサブシステムにおいて、記憶装置の異常の有無の診断を行う（ステップＳ１０４）。

【0031】

図５から図７を参照し、第１実施形態に係る処理フローの具体例を説明する。

【0032】

図５は、第１実施形態に係る異常傾向のあるハードディスクの検出処理（チェックＣ１）を示すフローチャートである。まず、処理部５１は、ＦＴサーバ１が同期状態で動作しているかを確認する。同期状態で動作していない場合（ステップＳ１；ＮＯ）、処理部５１は、ＦＴサーバ１が同期状態で動作していない旨のエラーを図示しない表示部に通知する（ステップＳ２）。同期状態で動作している場合（ステップＳ１；ＹＥＳ）、処理部５１は、定期的にハードディスク１４とハードディスク２４にＩＯを発行する（ステップＳ３）。処理部５１は、それぞれの応答時間を計測し、記録部に記録させる（ステップＳ４）。

【0033】

次に判定部５３は、応答時間の監視処理を行う。具体的には、判定部５３は、各ハードディスクの応答時間の差が閾値を超えているか否かを監視する。ハードディスクの性能低下の異常傾向を監視するために、判定部５３は、例えば、各ハードディスクの応答時間の差分を計算し、その差分が閾値（Ｍ ms（ms：ミリ秒））を超えているかを監視しても良い。また、判定部５３は、例えば、各ハードディスクの応答時間の比率を計算し、その比率が閾値（Ｎ倍）（１＜Ｎ）を超えているか否かを監視しても良い。ハードディスクの性能低下を監視する目的を達し得るのであれば、他の指標が用いられても良い。応答時間の差が閾値を超えている場合、判定部５３は、片方のハードディスクに性能低下の異常傾向があることを検出する。

【0034】

応答時間の差が閾値を超えていない場合（ステップＳ５；ＮＯ）、監視システム５０は再びＦＴサーバ１の同期状態の確認を行い、判定部５３は次のＩＯ発行を待つ。

【0035】

応答時間の差が閾値を超えていた場合（ステップＳ５；ＹＥＳ）、判定部５３はどちらのハードディスクの応答時間が長いのかの判定を行う。判定部５３は、性能低下の異常傾向を検出すると、ＦＴサーバ１の同期解除が必要な旨の通知を、同期制御部５４に対して行う。ハードディスク２４の応答時間の方が長い場合（ステップＳ６；ＹＥＳ）、同期制御部５４は、システム１０を業務継続側、システム２０をハードディスク診断側としてＦＴサーバ１の同期を解除する（ステップＳ７）。ハードディスク１４の応答時間の方が長い場合（ステップＳ６；ＮＯ）、同期制御部５４は、システム２０を業務継続側、システム１０をハードディスク診断側としてＦＴサーバ１の同期を解除する（ステップＳ８）。

【0036】

図６は、同期を解除する際のシステム１０とシステム２０の動作を示すフローチャートである。なお、図６では、システム２０側のハードディスク２４に性能低下の異常傾向が検出された場合を例として説明する。

【0037】

まず、ＦＴサーバ１のシステム１０とシステム２０は同期状態で動作している（ステップＳ１１）。ＦＴコントローラ１２は、同期制御部５４による制御に基づいて、ＦＴコントローラ２２に対し同期解除の指示を行う（ステップＳ１２）。この指示により、ＦＴコントローラ２２は同期を解除し（ステップＳ１６）、ＦＴサーバ１はそれぞれ独立して動作するシステム１０とシステム２０に分割される。システム１０は業務を継続し（ステップＳ１３）、システム２０では業務を中止する（ステップＳ１７）。この際、システム１０側では業務を継続するため、ＦＴサーバ１の同期動作時に使用していたＩＰアドレスを継続して使用する。システム２０側では別のＩＰアドレスを一時的に割り当てる。

【0038】

システム２０では、異常傾向が検出されたハードディスク２４に対して、本当にハードディスクに異常があるか否かを確定させるためのハードディスク診断処理Ａ１が実行される（ステップＳ１８）。ハードディスク診断処理Ａ１の結果、ハードディスク２４に異常なしと判定された場合（ステップＳ１９；ＮＯ）、システム２０はハードディスクの診断処理が終了したことを、ネットワークを介してシステム１０へ通知する（ステップＳ２０）。通知をシステム１０が受信すると（ステップＳ１４）、ＦＴコントローラ１２はＦＴコントローラ２２へ同期の指示を行う（ステップＳ１５）。システム２０は同期の指示を受信し、業務処理を継続していたシステム１０をベースとして同期を行う（ステップＳ２１）。同期処理が完了すると、ＦＴサーバ１は同期状態に復帰する（ステップＳ２３）。

【0039】

ハードディスク診断処理Ａ１の結果、ハードディスク２４に異常ありと判定された場合（ステップＳ１９；ＹＥＳ）、システム２０はハードディスクの交換が必要な旨のエラーを、図示しない表示部に通知する（ステップＳ２２）。

【0040】

図７は、第１実施形態に係る診断処理（ハードディスク診断処理Ａ１）を示すフローチャートである。ハードディスク診断処理Ａ１は、性能低下の異常傾向があると判定されたハードディスク２４に対して、偶発的な要因によって異常傾向が検出されたのか、本当に性能低下の異常が発生しているのかを確認するために行う。

【0041】

ハードディスク診断処理Ａ１は、ＦＴサーバ１の同期を解除して、業務継続側のシステムとは独立して行うことが可能なため、業務に影響を与えることなく、詳細な診断を行うことが可能である。第１実施形態において、チェックＣ１と同様のＩＯを複数回発行して平均応答時間で判定する診断方法を示すが、診断方法はこの方法には限定されない。例えば、ハードディスクの全面リード、全面ライト試験などより詳細な診断を行うことも可能である。

【0042】

ハードディスク診断処理Ａ１では、まず、処理部５１は、ハードディスク２４にＩＯを発行し（ステップＳ３１）、応答時間を計測し記録部に記録させる（ステップＳ３２）。監視システム５０は、規定回数（Ｘ回）の計測が終わるまでステップＳ３１とステップＳ３２の処理を繰り返す（ステップＳ３３；ＮＯ）。監視システム５０は、規定回数の計測を終了後に判定部５３による判定処理へ移行する（ステップＳ３３；ＹＥＳ）。

【0043】

判定部５３は、ハードディスク２４の規定回数分（Ｘ回）の応答時間からハードディスク２４の平均応答時間を計算する（ステップＳ３４）。また、判定部５３は、記録部に記録されているハードディスク１４の直近Ｘ回分の応答時間からハードディスク２４の平均応答時間を計算する（ステップＳ３５）。

【0044】

判定部５３は、ハードディスク１４とハードディスク２４の平均応答時間を比較する。ハードディスク２４の平均応答時間の方が長く、かつ、その差が閾値を超えていた場合（ステップＳ３６；ＹＥＳ）、判定部５３は、ハードディスク２４を異常ありと判定する（ステップＳ３７）。この条件に当てはまらない場合には（ステップＳ３６；ＮＯ）、ハードディスク２４を異常なしと判定する。なお、ここで使用する閾値は、チェックＣ１における閾値と同様の閾値でも良いが、より正確な診断を行うために、チェックＣ１よりも小さい閾値を使用しても良い。

【0045】

［効果］
第１実施形態の監視システム５０によれば、同期された２つのサブシステムがそれぞれ備える記憶装置のうち、一方の記憶装置の性能低下による、業務処理への影響を回避することができる。その理由は、監視システム５０において、処理部５１が各記憶装置に対するＩＯ要求を発行し、判定部５３が、応答時間の差に基づいて記憶装置の異常傾向を判定し、同期制御手段が２つのサブシステムの同期を解除するためである。また、同期が解除されたサブシステムはそれぞれ独立して動作可能となり、処理部５１は、異常傾向があると判定された記憶装置を備えるサブシステムにおいて、記憶装置の異常の有無の診断処理を行うためである。

【0046】

第１実施形態によれば、一方のハードディスクの性能低下によるＦＴサーバ１全体の性能低下、及び、業務処理への影響を回避することができる。その理由は、監視システム５０が各ハードディスクのＩＯ要求の応答時間を計測することで、性能低下の異常傾向を監視し、異常傾向が見られた場合には、ＦＴサーバ１の同期を解除するためである。

【0047】

また、第１実施形態によれば、異常傾向が見られたハードディスクの診断を行うことで、本当にハードディスクに異常が発生しているか否かを確認することができ、ハードディスクの無駄な交換を避けることが可能となる。

【0048】

さらに、業務側のシステムは業務に専念することができ、ハードディスク診断側のシステムでは業務に影響を与えることなくハードディスクのより詳細な診断を行うことが可能となる。その理由は、ＦＴサーバ１の同期を解除して、独立して動作するシステム１０とシステム２０に分割しているためである。

【0049】

［第２実施形態］
第１実施形態において、チェックＣ１の段階においてハードディスクに性能低下の異常傾向を検出すると、ＦＴサーバ１の同期を解除する場合について説明した。これは、ハードディスクの性能低下が業務処理に支障をきたすことを回避することを優先するためである（性能優先モード）。

【0050】

第２実施形態において、ＣＰＵ負荷やＩＯ負荷などのシステム１０及び２０の負荷状況を監視しながら同期を解除する場合について説明する。第２実施形態において、監視システム５０は、ハードディスクに性能低下の異常傾向を検出しても、システムの負荷が閾値よりも低く、業務処理に与える影響が軽微な状態であれば、ＦＴサーバ１の同期は解除せずに、ハードディスクの診断を継続する。負荷が閾値を超えた場合にだけＦＴサーバ１の同期を解除することによって、ＦＴサーバ１の同期状態を維持することを優先できる（同期優先モード）。

【0051】

［構成］
図８は、第２実施形態に係る監視システム５０の構成を例示するブロック図である。図８において、監視システム５０は、同期して動作可能な２つのサブシステムであるシステム１０及びシステム２０と、有線または無線により接続されている。なお、第２実施形態に係る監視システム５０について、第１実施形態に係る監視システム５０と同様の構成についてはその説明を省略する。第２実施形態に係る監視システム５０は、記録部５２を含み、負荷計測部５５をさらに備える点で第１実施形態に係る監視システム５０と異なる。

【0052】

負荷計測部５５は、ＣＰＵ負荷またはＩＯ負荷などの、システム負荷を計測する。異常傾向が判定された際に、システム負荷が所定の閾値を超えない場合、同期制御部５４は、サブシステムの同期を解除せず、処理部５１は、同期されたサブシステムにおいて、記憶装置の診断処理を行う。システム負荷が所定の閾値を超えた場合、同期制御部５４は、サブシステムの同期を解除する。

【0053】

第２実施形態において、判定部５３は、負荷計測部５５における負荷状況を監視する。判定部５３は、記憶装置に性能低下の異常傾向があり、かつ負荷が閾値を超えた場合に、どちらの記憶装置に異常傾向があるかの情報と共にサブシステムの同期解除が必要な旨の通知を同期制御部５４へ送信する。

【0054】

［動作］
図９から図１１のフローチャート参照し、ＦＴサーバ１を監視する場合の第２実施形態に係る処理フローを説明する。

【0055】

図９は、第２実施形態に係る、性能低下の異常傾向のあるハードディスクを検出するための監視システム５０の処理を示すフローチャートである。まず、処理部５１は、ＦＴサーバ１が同期状態で動作しているかを確認する。同期状態で動作していない場合（ステップＳ４１；ＮＯ）、処理部５１は、ＦＴサーバ１が同期状態で動作していない旨のエラーを図示しない表示部に通知する（ステップＳ４２）。同期状態で動作している場合（ステップＳ４１；ＹＥＳ）、処理部５１は、定期的にハードディスク１４とハードディスク２４にＩＯを発行して（ステップＳ４３）、それぞれの応答時間を計測し記録部５２に記録させる（ステップＳ４４）。

【0056】

判定部５３は、各ハードディスクの応答時間の差が閾値を超えているか否かを監視する。ハードディスクの性能低下を監視するための閾値としては、第１実施形態と同様で良い。応答時間の差が閾値を超えている場合、判定部５３は、片方のハードディスクに性能低下の異常傾向があることを検出する。

【0057】

応答時間の差が閾値を超えていない場合（ステップＳ４５；ＮＯ）、ステップＳ４１に戻って同期状態の確認を行い、判定部５３は次のＩＯ発行を待つ。

【0058】

応答時間の差が閾値を超えていた場合（ステップＳ４５；ＹＥＳ）、判定部５３は、負荷が閾値を超えているか否かを監視する。監視対象の負荷は、ＣＰＵ負荷、ＩＯ負荷など業務処理への影響度合いを監視するために必要な負荷を業務特性に応じて選択すれば良い。監視対象は１つであっても良いし、必要なものを組み合わせて監視対象としても良い。

【0059】

負荷が閾値を超えていた場合（ステップＳ４６；ＹＥＳ）、判定部５３はどちらのハードディスクの応答時間が長いのかの判定を行う。ハードディスク２４の応答時間の方が長い場合（ステップＳ４７；ＹＥＳ）、同期制御部５４は、システム１０を業務継続側、システム２０をハードディスク診断側としてＦＴサーバ１の同期を解除する（ステップＳ４８）。ハードディスク１４の応答時間の方が長い場合（ステップＳ４７；ＮＯ）、同期制御部５４は、システム２０を業務継続側、システム１０をハードディスク診断側としてＦＴサーバ１の同期を解除する（ステップＳ４９）。

【0060】

負荷が閾値を超えていない場合（ステップＳ４６；ＮＯ）、ＦＴサーバ１は同期状態のままハードディスク診断処理Ａ２を実施する（ステップＳ５０）。ハードディスク診断処理Ａ２の結果、ハードディスクに異常ありと判定された場合（ステップＳ５１；ＹＥＳ）、ＦＴサーバ１は異常ハードディスクをミラーリングから切り離し、ハードディスクの交換が必要な旨のエラーを通知する（ステップＳ５２）。なお、この際、ＦＴサーバ１のＣＰＵモジュールは同期状態を維持して動作している。また、ＣＰＵモジュール以外の必要なハードウェアコンポーネントも、同期状態を維持して動作していてもよい。

【0061】

ハードディスク診断処理Ａ２の結果、ハードディスクに異常なしと判定された場合（ステップＳ５１；ＮＯ）、ステップＳ４１に戻って同期状態の確認を行ってから、次のＩＯ発行を待つ。

【0062】

図１０は、第２実施形態に係る診断処理（ハードディスク診断処理Ａ２）を示すフローチャートである。ハードディスク診断処理Ａ２は、どちらかのハードディスクに性能低下の異常傾向があると判定された場合に、偶発的な要因によるものなのか、本当に性能低下の異常が発生しているのかを確認するために行う。ハードディスク診断処理Ａ２は、ＦＴサーバ１が同期した状態で実施する。

【0063】

ハードディスク診断処理Ａ２では、まず、ハードディスク１４とハードディスク２４にＩＯを発行して応答時間を計測して記録する（ステップＳ６１、Ｓ６２）。次に、負荷が閾値を超えているか否かを監視する。

【0064】

負荷が閾値を超えていた場合（ステップＳ６３；ＹＥＳ）、どちらのハードディスクの応答時間が長いのかの判定を行う。ハードディスク２４の応答時間の方が長い場合（ステップＳ７１；ＹＥＳ）、システム１０を業務継続側、システム２０をハードディスク診断側としてＦＴサーバ１の同期を解除する（ステップＳ７２）。ハードディスク１４の応答時間の方が長い場合（ステップＳ７１；ＮＯ）、システム２０を業務継続側、システム１０をハードディスク診断側としてＦＴサーバ１の同期を解除する（ステップＳ７３）。

【0065】

負荷が閾値を超えていない場合（ステップＳ６３；ＮＯ）、規定回数（Ｘ回）の計測が終わるまでこの処理を繰り返し（ステップＳ６４；ＮＯ）、規定回数の計測を終了後に判定処理のステップへ移行する（ステップＳ６４；ＹＥＳ）。

【0066】

判定処理では、まず、ハードディスク１４とハードディスク２４の規定回数分（Ｘ回）の平均応答時間を計算する（ステップＳ６５）。ハードディスク１４とハードディスク２４の平均応答時間を比較し、その差が閾値を超えていない場合（ステップＳ６６；ＮＯ）、ハードディスクを異常なしと判定する（ステップＳ７０）。

【0067】

ハードディスク１４とハードディスク２４の平均応答時間を比較し、その差が閾値を超えていた場合（ステップＳ６６；ＹＥＳ）、どちらのハードディスクの平均応答時間が長いかを比較し、ハードディスク１４の平均応答時間が長ければ（ステップＳ６７；ＮＯ）、ハードディスク１４を異常ありと判定する（ステップＳ６８）。ハードディスク２４の平均応答時間が長ければ（ステップＳ６７；ＹＥＳ）、ハードディスク２４を異常ありと判定する（ステップＳ６９）。

【0068】

図１１は、各ハードディスクの応答時間の差が閾値を超え、かつ、負荷が閾値を超えた場合に、ＦＴサーバ１の同期を解除する際の、システム１０とシステム２０がそれぞれ実施する動作を示したフローチャートである。なお、ここでは、システム２０側のハードディスク２４に性能低下の異常傾向が検出された場合を例として説明する。

【0069】

まず、ＦＴサーバ１のシステム１０とシステム２０は同期状態で動作している（ステップＳ８１）。ハードディスク２４に性能低下の異常傾向が検出され、負荷も閾値を超え、ＦＴサーバ１の同期解除が必要な旨の通知を受信した際、ＦＴコントローラ１２からＦＴコントローラ２２へ同期解除の指示を行う（ステップＳ８２）。この指示により、ＦＴサーバ１はそれぞれ独立して動作するシステム１０とシステム２０に分割される（ステップＳ８６）。システム１０は業務を継続し（ステップＳ８３）、システム２０では業務を中止する（ステップＳ８７）。この際、システム１０側では業務を継続するため、ＦＴサーバ１の同期動作時に使用していたＩＰアドレスを継続して使用する。システム２０側では別のＩＰアドレスを一時的に割り当てる。

【0070】

システム２０では異常傾向が検出されたハードディスク２４に対して、本当にハードディスクに異常があるか否かを確定させるためのハードディスク診断処理Ａ１を実行する。ハードディスク診断処理Ａ１の結果、ハードディスク２４が異常なしと判定された場合（ステップＳ８９；ＮＯ）、ハードディスクの診断処理が終了したことを、ネットワークを介してシステム１０へ通知する（ステップＳ９０）。通知を受信したシステム１０は（ステップＳ８４）、ＦＴコントローラ１２からＦＴコントローラ２２へ同期の指示を行う（ステップＳ８５）。システム２０は同期の指示を受信し、業務処理を継続していたシステム１０をベースとして同期を行う（ステップＳ９１）。同期処理が完了すると、ＦＴサーバ１は同期状態に復帰する（ステップＳ９２）。

【0071】

ハードディスク診断処理Ａ１の結果、ハードディスク２４に異常ありと判定された場合（ステップＳ８９；ＹＥＳ）、ＦＴサーバ１はハードディスクに異常があるため交換が必要な旨のエラーを通知する（ステップＳ９３）。この際、異常と判定されたハードディスク２４は同期不可の状態にして（ステップＳ９４）、ハードディスクの診断処理が終了したことを、ネットワークを介してシステム１０へ通知する（ステップＳ９０）。通知を受信したシステム１０は（ステップＳ８４）、ＦＴコントローラ１２からＦＴコントローラ２２へ同期の指示を行う（ステップＳ８５）。システム２０は同期の指示を受信し、業務処理を継続していたシステム１０をベースとして同期を行う（ステップＳ９１）。同期処理が完了すると、ＦＴサーバ１のハードディスク以外のハードウェアコンポーネントが同期状態に復帰する。（ステップＳ９２）。

【0072】

［効果］
第２実施形態によれば、ＦＴサーバ１の同期状態を優先したい場合にも、本開示を適用することができる。その理由は、ＦＴサーバ１が、負荷が閾値を超えるまではＦＴサーバ１の同期を維持したままハードディスクの診断を行うためである。ハードディスクに異常ありと判定された場合は、当該ハードディスクだけがミラーリングから切り離される。

【0073】

第２実施形態において、負荷が閾値を超えた場合、ＦＴサーバ１は、ＦＴサーバ１の同期を解除してハードディスクの診断を行う。ＦＴサーバ１は、診断によりハードディスクに異常ありと判定されたハードディスクは同期不可とし、その他のハードウェアコンポーネントを同期状態に復帰をさせる。

【0074】

［ハードウェア構成］
上述した各実施形態において、監視システム５０の各構成要素は、機能単位のブロックを示している。監視システム５０の各構成要素の一部又は全部は、コンピュータ５００とプログラムとの任意の組み合わせにより実現されてもよい。図１２は、監視システム５０のハードウェア構成の例を示すブロック図である。図１２を参照すると、コンピュータ５００は、例えば、ＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３、プログラム５０４、記憶装置５０５、ドライブ装置５０７、通信インタフェース５０８、入力装置５０９、入出力インタフェース５１１、及び、バス５１２を含む。

【0075】

プログラム５０４は、監視システム５０の各機能を実現するための命令（instruction）を含む。プログラム５０４は、予め、ＲＯＭ５０２やＲＡＭ５０３、記憶装置５０５に格納される。ＣＰＵ５０１は、プログラム５０４に含まれる命令を実行することにより、監視システム５０の各機能を実現する。例えば、監視システム５０のＣＰＵ５０１がプログラム５０４に含まれる命令を実行することにより、監視システム５０の機能を実現する。また、ＲＡＭ５０３は、監視システム５０の各機能において処理されるデータを記憶してもよい。例えば、コンピュータ５００のＲＡＭ５０３に、ＩＯ要求に対する応答時間を記憶してもよい。

【0076】

ドライブ装置５０７は、記録媒体５０６の読み書きを行う。通信インタフェース５０８は、通信ネットワークとのインタフェースを提供する。入力装置５０９は、例えば、マウスやキーボード等であり、ユーザからの情報の入力を受け付ける。出力装置５１０は、例えば、ディスプレイであり、ユーザへ情報を出力（表示）する。入出力インタフェース５１１は、周辺機器とのインタフェースを提供する。バス５１２は、これらハードウェアの各構成要素を接続する。なお、プログラム５０４は、通信ネットワークを介してＣＰＵ５０１に供給されてもよいし、予め、記録媒体５０６に格納され、ドライブ装置５０７により読み出され、ＣＰＵ５０１に供給されてもよい。例えば、コンピュータ５００と上述の実施形態におけるサブシステムは、通信ネットワークを介して接続されてもよく、入出力インタフェース５１１を介して接続されてもよい。

【0077】

なお、図１２に示されているハードウェア構成は例示であり、これら以外の構成要素が追加されていてもよく、一部の構成要素を含まなくてもよい。

【0078】

［変形例］
監視システム５０の実現方法には、様々な変形例がある。監視システム５０は、ＦＴサーバ１の資源を用いて実現されてもよい。例えば、監視システム５０のプログラムをハードディスク１４、２４のそれぞれに搭載してもよい。また、例えば、監視システム５０は、構成要素毎にそれぞれ異なるコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。また、監視システム５０が備える複数の構成要素が、一つのコンピュータとプログラムとの任意の組み合わせにより実現されてもよい。

【0079】

また、監視システム５０の各構成要素の一部又は全部は、プロセッサ等を含む汎用又は専用の回路（circuitry）や、これらの組み合わせによって実現されてもよい。これらの回路は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。監視システム５０の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

【0080】

また、監視システム５０の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。

【0081】

以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本開示のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。

【符号の説明】

【0082】

１ＦＴサーバ
１０、２０サブシステム
１１、２１ＣＰＵモジュール
１２、２２ＦＴコントローラ
１３、２３ＩＯモジュール
１４、２４ハードディスク
５０監視システム
５１処理部
５２記録部
５３判定部
５４同期制御部
５５負荷計測部

【図1】