(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、上述した作業者によるランプの確認作業では、データセンタなどのサーバの台数が多い環境の場合、ランプチェックに多くの時間を要してしまうことになり、作業者が長時間拘束されてしまう。
【0004】
特に、夜間帯に実施する場合は、ランプチェックを行うための人員を確保せねばならない事態が生じることもあり、データセンタの運用コストに大きく影響してしまうという問題がある。
【0005】
また、目視によるランプチェック作業は単調作業であるので、作業慣れによる見落としなどの懸念があり、サーバの異常を見落としてしまう恐れがある。仮に、異常を発見できた場合であっても、ランプチェックを行う作業員では対応がわからないことが多く、その場合には、検出内容を電話などによってサーバの異常に対応することのできるシステム管理者などにエスカレーションすることになる。
【0006】
よって、システム管理者との電話のやり取りに時間を要してしまい、対応への初動に時間を要するだけでなく、対象機器の特定が困難となってしまう恐れがある。
【0007】
本発明の目的は、ランプチェックによるサーバなどの異常の見落としを低減することのできる技術を提供することにある。
【0008】
本発明の前記ならびにその他の目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。
【課題を解決するための手段】
【0009】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
【0010】
すなわち、代表的なサーバ異常検出システムは、撮像部および判定制御部を有する。撮像部は、サーバの前面パネルに設けられた異常検出用のランプの画像を撮像する。
【0011】
判定制御部は、撮像部に撮像された画像におけるランプの輝度である第1の輝度と基準参照画像のランプの輝度である第2の輝度との差分を算出して、算出した差分が予め設定されるしきい値以上である場合に、サーバが異常であると判定する。
【0012】
また、判定制御部は、調整部および判定部を有する。調整部は、撮像部が撮像した画像の輝度レベルが基準参照画像の輝度レベルと同じになるように調整する。判定部は、調整部が調整した画像における第1の輝度と第2の輝度との差分を算出して、算出した差分がしきい値以上である場合に、サーバが異常であると判定する。
【0013】
特に、判定部は、撮像部に撮像されたランプの色成分毎に第1の輝度を算出し、ランプの色成分毎に算出した第1の輝度と、基準参照画像のランプの色成分毎に算出した第2の輝度との差分をそれぞれ算出する。
【発明の効果】
【0014】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
【0015】
(1)サーバにおける異常検出の見落としを低減することができる。
【0016】
(2)サーバの異常時における対応を迅速化することができる。
【0017】
(3)上記(1)、(2)により、サーバ運用における信頼性を向上させることができる。
【発明を実施するための形態】
【0019】
実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0021】
〈サーバ異常検出システムの構成例〉
図1は、一実施の形態によるサーバ異常検出システム10における構成の一例を示す説明図である。
【0022】
サーバ異常検出システム10は、サーバ51の前面パネルなどに設けられたLEDなどのランプから該サーバ51の異常などを検出する。このサーバ異常検出システム10は、
図1に示すように、複数の撮像デバイス11、管理装置12、外部連携部13、無線LAN(Local Area Network)装置14、鳴動機15、およびタブレット端末16を有する。
【0023】
撮像デバイス11は、例えば1Mピクセル程度の画素数を有するデジタルカメラなどを用いる。なお、撮像デバイス11の画素数については、特に制限はない。撮像デバイス11は、例えばデータセンタなどが有するサーバラック50に設置されており、該サーバラック50に搭載されているサーバ51の前面パネルに設けられるランプの画像を撮影する。
【0024】
また、撮像デバイス11は、サーバ51の前面パネルに正対するように設置する必要はなく、異常検出のランプチェックの対象となるすべてのランプが撮像される位置であればよい。
【0025】
撮像デバイス11は、サーバ51の前面パネルに正対しない場合、すなわち前面パネルに対して撮像デバイス11に任意の角度が付けられた設置の場合には、撮像デバイス11のレンズ性能などによって撮像画像に歪みが生じる恐れがあるが、特に問題はない。このように、複数の撮像デバイス11によって、ランプチェック対象のすべてのランプが撮像される。
【0026】
なお、
図1では、1つのサーバラック50に対して複数の撮像デバイス11が設けられた例を示しているが、撮像デバイス11の数は、特に制限はなく、例えば1台の撮像デバイス11によってすべてのサーバ51のランプチェック対象のランプを撮影することができる場合には、1台の撮像デバイス11だけでもよい。
【0027】
これら撮像デバイス11は、画像送信ネットワーク30に接続されている。画像送信ネットワーク30は、例えばイントラネットなどである。撮像デバイス11が撮像した画像は、該画像送信ネットワーク30を通じて管理装置12に送信される。
【0028】
管理装置12は、例えばサーバなどからなり、撮像デバイス11が送信した画像から、サーバの異常が生じたことを検出する。管理装置12には、外部連携部13、無線LAN装置14、および鳴動機15がそれぞれ接続されている。
【0029】
アラート連携部である外部連携部13は、例えば管理装置12がサーバの異常を検出した際に、保守ベンダの管理者などにアラートを出力する。具体的には、管理装置12がサーバ51の異常を検出した際に自動的に保守ベンダの管理者などに電話をかける、あるいは電子メールを送信する。
【0030】
無線LAN装置14は、管理装置12をワイヤレスにてLAN接続する。鳴動機15は、例えば警報ランプなどであり、管理装置12の制御に基づいて、点灯あるいは点滅する。鳴動機15は、ランプ以外であってもよく、例えば警報ブザーあるいは警報ライトとブザーとの組み合わせなどであってもよい。
【0031】
タブレット端末16は、PDA(Personal Digital Assistant)などの携帯型の情報端末であり、無線LANを通じて管理装置12と情報のやり取りを行う。
【0032】
〈管理装置の構成例〉
図2は、
図1のサーバ異常検出システム10が有する管理装置12における構成の一例を示す説明図である。
【0033】
管理装置12は、
図2に示すように、制御管理部20、入力部21、および表示部22を有する。入力部21は、例えばキーボードやマウスなどであり、各種のデータを制御管理部20に入力する。表示部22は、例えば液晶ディスプレイなどからなり、様々な情報を表示する。
【0034】
また、制御管理部20は、調整部25、ランプ位置データベース26、ランプ位置設定部27、制御部28、およびメモリ29を有する。調整部25は、画像送信ネットワーク30を通じて撮像デバイス11から送信された画像の調整を行う。
【0035】
データベースであるランプ位置データベース26には、異常検出情報が格納されている。この異常検出情報は、サーバ51の異常を検出するランプチェックの対象となるランプの位置の情報および異常対処方法などからなる。異常対処情報は、各々のランプ位置毎における異常内容およびそれに対する対応方法などが登録された情報である。
【0036】
ランプ位置設定部27は、ランプチェックの対象となるランプの位置の位置データを設定する。判定部となる制御部28は、予め取得した正常稼働時のランプ画像と任意の時間毎に撮像デバイス11が撮影した画像とを比較して、サーバ51の異常を検出する。
【0037】
制御部28は、異常を検出すると鳴動機15を動作させてデータセンタの作業者に異常が発生したことを知らせると共にタブレット端末16に異常内容およびその対処方法などの情報を送信する。
【0038】
メモリ29は、調整部25が調整した画像、後述する正常時画像、および後述する稼働時画像などを格納する。稼働時画像をメモリ29に格納することによって 撮像時の状態として確かなエビデンスを残すことができる。
【0039】
〈サーバ異常検出システムの動作例〉
続いて、サーバ異常検出システム10の動作について、
図3および
図4を用いて説明する。
【0040】
始めに、サーバ異常検出システム10の運用前における処理について説明する。
【0041】
図3は、
図1のサーバ異常検出システム10における運用前の準備処理の一例を示すフローチャートである。
図4は、
図1のサーバ異常検出システム10における異常検出の流れを示す説明図である。
【0042】
この
図3では、ランプチェックの対象となるランプおよび各ランプに対する対応方法などを登録する処理の例を示している。これら登録された情報は、上述した異常検出情報としてランプ位置データベース26に格納される。
【0043】
また、
図4では、サーバ51の異常検出のランプとして、例えば緑色のランプ51Ga,51Gb、青色のランプ51Ba、51Bb、および赤色のランプ51Ra,51Rbを有する例を示している。
【0044】
緑色のランプ51Ga,51Gbは、サーバ51の前面パネルの左側の上下にそれぞれ配置されている、青色のランプ51ba,51bbは、ランプ51Ga,51Gbの右側にそれぞれ配置されている。赤色のランプ51Ra,51Rbは、サーバ51の前面パネルの右側の上下にそれぞれ配置されている。
【0045】
まず、サーバラック50に撮像デバイス11を設置する(ステップS101)。撮像デバイス11の設置は、チェック対象、すなわちサーバ51の前面パネルのランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbが撮像できれば任意でよい。
【0046】
続いて、サーバラック50に設置した撮像デバイス11を管理装置12に登録する(ステップS102)。このステップS102の処理において、撮像デバイス11が複数台設置された際には、例えばサーバラック単位などによってグルーピングを行う。
【0047】
そして、撮像デバイス11によって正常稼働時のサーバ51の前面パネルの画像(以下、正常時画像という)を撮影する(ステップS103および状態J101)。ここで、正常時画像は、基準参照画像となる。
【0048】
撮影された正常時画像は、管理装置12に送信されて、メモリ29に格納される。そして、調整部25によって正常時画像が調整される(ステップS104および状態J102)とともに、ランプチェックの対象となるランプの選択を行う(状態J103)。
【0049】
ここで、ステップS104の処理について説明する。
【0050】
調整部25は、受け取った正常時画像を検出するランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbのみが表示される程度の画像となるように輝度を補正する。この輝度は、第2の輝度となる。
【0051】
続いて、調整部25は、サーバ51の前面パネルに設けられるランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbの色成分(赤、青、緑)毎に画像をそれぞれ生成する。
【0052】
図4に示すように、赤色、青色、緑色の3色のランプを有するサーバの場合には、赤色のランプ51Ra,51Rbのみが表示される画像、青色のランプ51Ba、51Bbのみが表示される画像、および緑色のランプ51Ga,51Gbのみが表示される画像の3つの画像をそれぞれ生成する。調整部25が生成した色成分毎の画像は、メモリ29に格納される。
【0053】
この場合、各画像は、
図4の状態J104〜J106に示すように、ランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rb以外がブラックアウトとなる画像となる。
【0054】
また、状態J103にて選択した異常検出を行うランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbの位置を指定して登録する(ステップS105)。
【0055】
これは、表示部22に表示された正常時画像から異常検出の対象となるランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbをそれぞれ指定することによって登録が行われる。この際、異常検出の対象となるランプは、例えば管理装置12が有する入力部21などを用いて作業者が指定する。
【0056】
ランプ位置設定部27は、作業者が入力部21によって指定したランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbを異常検出の対象となるランプとして登録する。この際、ランプ位置設定部27は、指定されたランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbのそれぞれの位置を異常検出情報としてランプ位置データベース26に格納する。
【0057】
続いて、登録された異常検出対象のランプ毎における輝度変化および該輝度変化に対応するサーバの対応内容、すなわちどのような処置を行うかを示す情報をそれぞれ入力する(ステップS106)。これは、作業者により、管理装置12が有する入力部21から入力が行われる。
【0058】
ランプ位置設定部27は、入力された輝度変化および対応内容を登録されているランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbの位置にそれぞれ紐付けて、異常検出情報としてランプ位置データベース26に格納する。
【0059】
続いて、サーバ異常検出システム10によるサーバ51の異常検出時の動作について、上述した
図4および
図5を用いて説明する。
【0060】
〈サーバの異常検出例〉
図5は、
図1のサーバ異常検出システム10によるサーバ51の異常検出処理の一例を示すフローチャートである。
【0061】
まず、撮像デバイス11は、ある間隔毎に稼働しているサーバ51の前面パネルの画像(以下、稼働時画像という)を撮影して管理装置12に送信する(ステップS201および状態J201)。
【0062】
このように、ランプチェックに撮像デバイス11を用いることによって、定期的に作業音の目視に比べてより短い間隔毎にてサーバ51の異常検出を行うことができるので、異常検出のチェック頻度を増やすことができる。
【0063】
また、撮像デバイス11を例えばサーバラック50の筐体内に設けた場合には、セキュリティを向上させることができる。作業者がサーバ51のランプを目視により確認する際には、サーバラック50の扉を開放する必要がある。
【0064】
一方、撮像デバイス11を例えばサーバラック50の筐体内に設けた場合には、サーバラック50の扉を開放することなくランプをチェックすることができるので、扉の閉め忘れなどを防止することができる。
【0065】
管理装置12において、稼働時画像は、メモリ29に格納される。その後、調整部25は、取得した稼働時画像の調整を行い(ステップS202)、赤色のランプ51Ra,51Rbが表示される画像、青色のランプ51Ba,51Bbが表示される画像、および緑色のランプ51Ga,51Gbが表示される画像の3つの画像をそれぞれ生成する(状態J204〜J206)。
【0066】
このステップS202における処理は、
図3のステップS104の処理と同様であるので説明は省略する。この際、調整する各色の輝度は、ステップS202における正常時画像の輝度とほぼ同じとする。この輝度は、第1の輝度となる。
【0067】
続いて、制御部28は、
図3のステップS102の処理により調整した正常時画像と
図5のステップS202の処理により調整した稼働時画像とを色成分毎にそれぞれ比較し、輝度の差分をそれぞれ算出する(ステップS203)。
【0068】
そして、制御部28は、算出した輝度の差分が予め設定されているしきい値以上であるか否かを判断する(ステップS204)。このしきい値は、例えば制御管理部20のメモリ29などに格納されている。
【0069】
ステップS204の処理において、算出した輝度の差分がすべてしきい値よりも小さい場合には、再びステップS201の処理に戻る。また、算出した輝度の差分がしきい値以上の場合、制御部28は、サーバ51が異常であると判断する。
【0070】
ここで、
図4の状態J207〜J209においては、輝度の差分をとった後の赤色、緑色、青色のそれぞれのランプ51Ga,51Gb,51Ba、51Bb,51Ra,51Rbの輝度変化を示している。
【0071】
図4の場合には、緑色のランプ51Ga,51Gbおよび青色のランプ51Ba、51Bbについては、状態J208,J209に示すように輝度に変化がないので、輝度の差分後はランプの輝度がなく、画像がブラックアウトとなる。
【0072】
一方、赤色のランプ51Ra,51Rbについては、状態J207に示すようにランプ51Rbの輝度に変化が生じたため、該当する赤色のランプ51Rbのみブラックアウトとならずに点灯した状態にて表示される。
【0073】
輝度の差分は、正値あるいは負値を含めて算出され、この場合には、赤色のランプ51Rbの差分は、正値である。すなわち、正常時画像では消灯状態である赤色のランプ51Rbがサーバ51の異常によって点灯した場合あるいは赤色のランプの点灯の輝度が正常時画像の輝度よりも大きくなった場合などである。
【0074】
制御部28は、輝度に変化が生じたランプの位置情報、
図4の例では、ランプ51Rbの位置情報をランプ位置データベース26に格納されている異常検出情報から取得するとともに、その位置情報に紐付けられている異常対処情報を取得する。
【0075】
また、制御部28は、格納されている正常時画像をメモリ29から取得する。そして、取得した輝度に変化が生じたランプの位置情報、その位置情報に紐付けられている異常対処情報、メモリ29から取得した正常時画像、およびステップS203の処理にて算出した輝度の差分の情報などに基づいて、通知情報を生成する。そして、制御部28は、生成した通知情報を無線LAN装置14を通じてタブレット端末16に送信する。
【0076】
タブレット端末16は、受信した通知情報を表示する(ステップS205)。なお、タブレット端末16に表示される通知情報は、例えば管理装置12の表示部22にも表示するようにしてもよい。
【0077】
このステップS205の処理では、制御部28が鳴動機15を動作させることによってデータセンタの作業者などにサーバの異常を検出したことを通知する。また、制御部28が、外部連携部13を動作させて、保守ベンダの管理者などにサーバ51の異常を検出したことを知らせる電話あるいはメール送信などを行うようにしてもよい。
【0078】
そして、作業者が、例えば
図6に示すタブレット端末16の表示画面16aに表示される通知情報に基づいて、異常が検出されたサーバ51の対応処理行い、該対応処理が完了すると、作業者は、管理装置12の入力部21からその対応内容および対応が完了したことを示す情報などを入力する(ステップS206)。
【0079】
あるいはタブレット端末16から対応内容および対応完了の情報を入力するようにしてもよい。その場合、タブレット端末16から入力された情報は、無線LAN装置14を通じて管理装置12に送信され、該管理装置12が有するメモリ29に格納される。
【0080】
以上により、サーバの異常検出処理が終了となる。
【0081】
〈通知情報の表示例〉
続いて、制御部28が生成する通知情報について説明する。
【0082】
図6は、
図5のステップS205の処理における通知情報の一例を示した説明図である。この
図6では、タブレット端末16に表示される通知情報の内容の表示例を示したものである。
【0083】
タブレット端末16の表示画面16aの上方には、通知情報として
図6に示すように、調整前の正常時画像が表示されている。また、正常時画像には、目印表示42および異常内容43がそれぞれ表示される。
【0084】
目印表示42は、輝度変化、すなわち異常を示すランプを示す表示であり、
図6の例では、ランプ51Rbに対して目印表示42が表示されている。異常内容43は、異常を示すランプの状態を表示する。
【0085】
目印表示42については、異常を示すランプ51Rbの位置情報をランプ位置データベース26から取得し、取得した該位置情報に基づいて生成する。異常内容43は、例えば
図5のステップS203の処理において算出した結果に基づいて生成される。
【0086】
図6に示す異常内容43の例では、異常を示すランプ51Rbが赤色であり、赤色の輝度が+変化、すなわち輝度が正常時画像よりも増加したことを示している。
【0087】
また、正常時画像の下方には、各々の異常内容に対する対応方法が示される対応内容一覧表44が表示されている。対応内容一覧表44は、ランプ位置データベース26に格納される異常検出情報に基づいて生成される。
【0088】
対応内容一覧表44の下方には、対応処理入力表45が表示されている。対応処理入力表45は、異常が検出されたサーバ51に対して実際に処置した内容および対応日時などが入力され、対応履歴として格納される。
【0089】
作業者は、異常内容43を対応内容一覧表44に照らし合わせて、該異常内容に合致する対応を行う。これにより、運用者によるランプチェックを不要とすることができる。その結果、運用人員を削減することができる。
【0090】
また、ランプチェックを自動化することができるので、異常となるランプの見落としを防ぐことができ、データセンタの信頼性を向上させることができる。さらに、サーバの異常に対する対応の初動を早めることが期待できる。
【0091】
以上により、データセンタなどの運用コストを低減することができる。また、サーバ51の異常を検出した際の初動対応に要する時間を短縮することができる。
【0092】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。