(58)【調査した分野】(Int.Cl.,DB名)
前記情報提供手段は前記イベントマークに、前記他の担当者の連絡先情報、及び、前記機器が設置された施設への入館申請、遠隔メンテナンス又は前記所定状況の検知を抑止する設定を前記担当者が行うための画面がリンクされた前記画面情報を作成する請求項7に記載の情報処理装置。
【発明を実施するための形態】
【0014】
以下、本発明を実施するための形態について図面を参照しながら説明する。
【0015】
<本実施形態の運用・監視システムによるアラーム判断>
図2を用いて本実施形態の運用・監視システムの概略を説明する。
図2は本実施形態の運用・監視システムの概略を説明する図の一例である。
(1)本実施例の運用・監視システム30は、定期的に、X社システム19xへのログイン情報、データセンター11への入館情報、及び、センサー検知情報(ラックのドアセンサーなど)の少なくとも1つを取得して、データベース9に記録する。担当者は、メンテナンスの前にX社システム19xへログインし、データセンター11へ入館し、必要であればラックを開放する(これらは作業前行為の一例である)。したがって、担当者(例えば、Bさん16)がX社システム19xのメンテナンスを行えば、ログインした履歴、入館した履歴、又は、センサーがラックの開放を検知した履歴の少なくともいずれかがデータベース9に記録されると考えられる。
(2)X社システム19xの担当者であるBさん16が緊急を要する予定外の作業のためにデータセンター11に入館し、X社システム19xのメンテナンスを開始した。
(3)これにより、X社システム19xを監視する運用・監視システム30はX社システム19xの障害を検知する。
(4)運用・監視システム30又は運用・監視システム30のオペレータはアラームの通知先として登録されている担当者のAさん14にアラームの内容を連絡する。
(5)Aさん14は、運用・監視システム30と連携している管理支援システム50にアクセスし、アラームの内容を確認する。本実施形態では、サーバ名、アラームの詳細以外に、アラーム発生時点の入館情報、ログイン情報又はセンサー検知情報の少なくとも1つをAさん14が閲覧できる。
(6)Aさん14は、Bさん16がログイン中及び入館中であることを確認できるため、Cさん17、Dさん18に連絡することなくBさん16と連絡する。これにより、Bさん16がメンテナンス中であることを確認できる。また、速やかにアラームを抑止することができる。
【0016】
このように、本実施形態では、担当者が管理支援システム50に問い合わせるだけで、アラームがメンテナンスによるものかどうかを判別できる。また、実際にメンテナンスを行っている担当者が誰なのかすぐ分かるため、状況確認に要する時間も短縮できる。
【0017】
<用語について>
障害…アラームの発報基準を満たす事象という狭義の意味と、必ずしもアラームの発報を伴わない事象という広義の意味がある。
アラーム…予め定められた発報基準を満たす障害が検出されたことを通知すること、又は、通知そのものをいう。
メンテナンス…被監視システム19を構築し、維持し、保守し及び復帰等させることをいう。メンテナンスにはアラームをもたらすものとそうでないものがあるが、本実施形態では主にアラームをもたらしたメンテナンスについて説明される。
作業…メンテナンスを行うことをいう。メンテナンス作業と称される場合がある。本実施形態ではメンテナンスと作業を厳密に区別しなくてよい。
担当者…被監視システム19を構築し、維持し、保守し及び復帰等させる者である。このため、データセンター11に入館するか又はログインする資格を有する。本実施形態ではアラームが通知される者も担当者であるが、アラームの通知を受ける者は担当者でなくてもよい。
【0018】
<構成例>
図3は、管理システム300のシステム構成図の一例を示す。管理システム300は、運用・監視システム30、管理支援システム50、入館管理システム20、及び、ユーザ端末70がネットワークNを介して通信可能に接続される。なお、運用・監視システム30、被監視システム19、及び、入館管理システム20がデータセンター11内に設置されている。
【0019】
データセンター11は、サーバやルータなどのIT機器を効率的に稼動させるための設備が整えられた施設をいう。例えば、IT機器に供給される十分な電力が確保されており、冗長化された通信回線が配備されている。また、年間を通して温度や湿度もほぼ一定になるように制御され、IT機器の温度の上昇が抑制されている。 さらに災害時など、電力の供給が完全に止まってしまっても、自家発電装置やUPS(無停電電源装置)により、一定時間は継続的に稼動できるようになっている。
【0020】
データセンター11には、サーバやネットワークを利用者に開放するホスティングサービスと利用者が所有するサーバなどの機器をデータセンター11に預けるハウジングサービスがある。本実施形態の管理システム300はどちらのサービス形態にも対応できる。すなわち、サーバなどの機器の所有権の所在は問われない。また、サーバは仮想サーバでもよく、クラウドサービスが提供される場合もある。
【0021】
このデータセンター11には運用・監視システム30が配置されており、運用・監視システム30はデータセンター11における被監視システム19の各種の監視サービスやセキュリティーサービスを提供する。なお、データセンター11内に運用・監視システム30が配置されているが図示する形態は模式的なものであり、運用・監視システム30がデータセンター11内の被監視システム19を外部から監視しても差し支えない。
【0022】
データセンター11には、また、被監視システム19と入館管理システム20が配置されている。被監視システム19は上述したX社システム19x、Y社システム19y又はZ社システム19zなど、運用・監視システム30により監視されるシステムである。具体的には、被監視システム19は1つ以上のサーバ、及び、周辺装置である。したがって、データセンター11には少なくとも1つ以上の被監視システム19が配置されている。各被監視システム19はそれぞれラック内に隔離して配置される。このため、被監視システム19の担当者は、原則的に自社の被監視システム19のみしかメンテナンスできない(データセンター11の技術者(SE)は複数社のシステムをメンテナンスする場合がある)。
【0023】
また、データセンター11にはカメラ21とセンサー22が配置されている。詳細は後述されるが、カメラ21は被監視システム19を撮影可能な位置に配置されている。カメラ21が被監視システム19を撮影することで、サーバのLEDランプの点灯状態やメンテナンス中の担当者を撮影することができる。センサー22は例えばラックの開閉を検知する検出装置であり、被監視システム19が格納されているラックが開状態か閉状態かを検出する。
【0024】
入館管理システム20は、担当者のデータセンター11への入館を管理するシステムである。入館管理の仕組みは様々だが、入館管理システム20は例えばICカードリーダを有し、担当者が携帯するICカードから担当者IDを読み取ることで担当者の入館及び退館を検知する。被監視システム19の担当者は予めデータセンター11に登録されており、担当者がデータセンター11に入館した時刻、及び、退館した時刻が担当者の識別情報と共に記録されている。なお、入館管理システム20がデータセンター11の外部に配置されても差し支えない。
【0025】
運用・監視システム30は上述した監視サービスやセキュリティーサービスを行う。監視サービスには、例えば、機器のPING疎通、サーバのサービス稼動状況、機器のリソース等の監視などがある。また、セキュリティーサービスには、ウィルスの検出や侵入検知などのサービスがある。
【0026】
いずれの場合も、何らかの障害が検出された場合、運用・監視システム30は障害発生を意味するアラームをユーザ端末70に送信する。なお、アラームの通知には、無人監視と有人監視がある。無人監視では障害発生時の状況をデータマイニングなどでフィルタリングして、通知の必要性が高いアラームのみが担当者のユーザ端末70に通知される。有人監視では、運用・監視システム30の監視オペレータが障害発生を把握すると被監視システム19の稼動状況を確認し、必要であると判断した場合にアラームをユーザ端末70に通知する。本実施形態ではどちらの態様で監視されてもよい。
【0027】
また、運用・監視システム30からユーザ端末70へのアラームの通知方法にはいくつかの手段がある。例えば、無人監視の場合は電子メールによる通知が挙げられ、有人監視の場合は監視オペレータによる電話連絡でもよいし、電子メールによる通知でもよい。無人監視の場合に自動音声を用いた電話連絡も可能である。
【0028】
ユーザ端末70は、例えば、PC(Personal Computer)、スマートフォン、PDA(Personal Digital Assistant)、タブレット型端末、携帯電話又はウェアラブルPC(腕時計タイプ、サングラスタイプなど)などである。ユーザ端末70はブラウザソフトウェア又はこれと同等の機能のアプリケーションソフトが動作する情報処理装置であればよい。また、担当者は複数のユーザ端末70を使用してもよい。例えば、アラームの通知は携帯電話で受け、管理支援システム50へのアクセスにはPCを使うことができる。
【0029】
管理支援システム50は、ユーザ端末70からのアクセスに対し、後述するアラーム詳細画面520を提供する。担当者はアラーム詳細画面520から、入館している担当者、ログインしている担当者、ラックの開閉状態、カメラ21が撮影した被監視システム19の撮影データ、推奨される初動作業(メンテナンス中の担当者の連絡先)などを確認できる。
【0030】
≪ハードウェア構成例≫
図4は、管理支援システム50のハードウェア構成図の一例である。管理支援システム50は、バス310に接続されたCPU301、ROM302、RAM303、HDD(Hard Disk Drive)305、ディスプレイ308、ネットワークI/F309、キーボード311、マウス312、メディアドライブ307、及び、光学ドライブ314を有する。CPU301は、HD304に記憶されている管理支援用プログラムを実行して、管理支援システム50全体の動作を制御する。ROM302はIPL(Initial Program Loader)等のCPU301の駆動に用いられるプログラムを記憶している。RAM303はCPU301のワークエリアとして使用される。HD304は不揮発性メモリを搭載した記憶装置であり、管理支援用プログラム、OS(Operating System)等を記憶している。
【0031】
HDD305はCPU301の制御にしたがってHD304に対する各種データの読み出し又は書き込みを制御する。ディスプレイ308はカーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。ネットワークI/F309はLANやインターネットなどのネットワークNとのインタフェースであり、ネットワークNを介した通信を行う。キーボード311及びマウス312は入出力装置であり、キーボード311は文字、数値、各種指示などの入力のための複数のキーを備えこれらからの入力を受け付ける。マウス312はマウスポインターの移動及び各種指示の選択や実行、処理対象の選択などを受け付ける。
【0032】
メディアドライブ307はフラッシュメモリ等のメディア306に対するデータの読み出し又は書き込み(記憶)を制御する。光学ドライブ314は着脱可能な記録媒体の一例としてのCD−ROM(Compact Disc Read Only Memory)313等に対する各種データの読み出し又は書き込みを制御する。
【0033】
なお、上記管理支援用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、メディア306やCD−ROM313等のコンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。あるいは、管理支援用プログラムは、任意のサーバ型の情報処理装置からダウンロードされる形態で配布されてもよい。
【0034】
なお、管理支援システム50は、クラウドコンピューティングにより構築されていてもよい。クラウドコンピューティングでは、管理支援システム50の機能が搭載される情報処理装置が固定されていたり1つの筐体内に配置されている必要はなく、物理的な構造は変動しうる。したがって、図示する管理支援システム50のハードウェア構成は、管理支援システム50が備えていることが好ましいハード的な要素を示す。
【0035】
また、運用・監視システム30、入館管理システム20、及び、ユーザ端末70のハードウェア構成は
図4と同様であるか、差異があっても本実施形態の説明には支障がないものとする。しかしながら、運用・監視システム30のHD304には運用・管理用プログラムが記憶されており、入館管理システム20のHD304には入館管理用プログラムが記憶されており、ユーザ端末70にはユーザ端末用プログラムが記憶されている。
【0036】
<管理システムの機能について>
続いて、
図5を用いて管理システム300の各機能について説明する。
図5は、管理システム300の機能ブロック図の一例を示す。なお、被監視システム19は本実施形態では監視対象であるので、その機能は被監視システム19によって異なる。
【0037】
≪入館管理システム20≫
入館管理システム20は、送受信部25、認証部26、入退館記録部27、及び、記憶・読出部29を有する。これらの各機能は
図4に示したCPU301が入館管理用プログラムを実行して入館管理システム20のハードウェアと協働することで実現される機能又は手段である。これらの機能の一部又は全てがICなどのハードウェア回路により実現されてもよい。
【0038】
また、入館管理システム20は、
図4に示したHD304又はRAM303により実現される記憶部2000を有している。記憶部2000には、入退館管理DB2001及び入館管理用プログラム2100が記憶されている。入退館管理DB2001について表1を用いて説明する。
【0040】
記憶部2000には、表1に示されているような入退館情報によって構成されている入退館管理DB2001が構築されている。入退館情報には、入館日時及び退館日時に担当者IDが対応づけられている。入館日時は担当者がデータセンター11に入館した日時、退館日時は担当者がデータセンター11から退館した日時である。担当者IDはデータセンター11に入退館する担当者を一意に識別するための識別情報である。入退館情報は履歴情報の一例である。
【0041】
次に、入館管理システム20が有する機能又は手段について説明する。送受信部25は、
図4に示されているCPU301からの命令、及び
図4に示されているネットワークI/F309によって実現され、ネットワークNを介して運用・監視システム30及び管理支援システム50等と各種データの送受信を行う。
【0042】
認証部26は、
図4に示されているCPU301からの命令、及びデータセンター11に配置されたICカードリーダなどによって実現され、担当者を認証する。認証することで担当者を識別できる。担当者が保持するICカードをICカードリーダが読み取ると、認証部26はICカード番号を取得する。担当者IDとICカード番号が予め対応づけられているため、認証部26は担当者IDを特定できる。ICカードリーダを用いるほか、担当者がキーボードに入力した担当者IDとパスワード(又は指紋、顔、虹彩などの生体識別情報でもよい)の組が、予め保持している担当者IDとパスワードの組と一致するかに基づき担当者を認証してもよい。認証が成立すると担当者にはICカードが付与される。
【0043】
担当者は、入館時に被監視システム19のある場所まで移動する(退館時は逆のルートになる)。担当者は移動途中のドアの手前などに設置されたICカードリーダにICカードを読み取らせる。これにより担当者の入退館が記録される。また、移動途中のドアなどで随時、ICカードをICカードリーダに読み取らせるため、データセンター11内における担当者のおよその場所が検知されている。
【0044】
入退館記録部27は、
図4に示されているCPU301からの命令などによって実現される。入館用のゲートを通過したことがICカードの読み取りにより検出されると、担当者IDを入館日時に対応づけて入退館情報に記録する。また、担当者が退館用のゲートを通過したことがICカードの読み取りにより検出されると、入館日時と担当者IDに対応づけて退館日時を入退館情報に記録する。
【0045】
記憶・読出部29は、
図4に示されているCPU301からの命令、及び
図4に示すHDD305によって実現され、記憶部2000に各種データを記憶したり、記憶部2000に記憶された各種データを読み出したりする処理を行う。
【0046】
<<運用・監視システム30>>
運用・監視システム30は、送受信部31、ログイン検出部32、監視部33、アラーム判定部34、情報提供部35、撮影部36、センサー検知部37、及び、記憶・読出部39を有する。これらの各機能は
図4に示したCPU301が運用・管理用プログラムを実行して運用・監視システム30のハードウェアと協働することで実現される機能又は手段である。これらの機能の一部又は全てがICなどのハードウェア回路により実現されてもよい。
【0047】
また、運用・監視システム30は、
図4に示したHD304又はRAM303により実現される記憶部3000を有している。記憶部3000には、運用・管理用プログラム3100、アラーム発報対象DB3001、監視対象情報DB3002、撮影データDB3003、アラーム履歴DB3004、ログイン情報DB3005、監視情報DB3006、顧客情報DB3007、及び、センサー検知情報DB3008が構築されている。以下、これら各データベースについて説明する。
【0049】
記憶部3000には、表2に示されているようなログイン情報によって構成されているログイン情報DB3005が構築されている。ログイン情報には、担当者が自社の被監視システム19にログインした情報として、ログインした日時、担当者がログアウトした日時、及び、担当者IDが対応づけて登録されている。ログイン情報は履歴情報の一例である。ログインについては後述する。
【0051】
記憶部3000には、表3に示されているような顧客情報によって構成されている顧客情報DB3007が構築されている。顧客情報には、顧客ID、顧客名、サーバID、プロジェクト名、及び、ラックIDが対応づけて登録されている。顧客IDは、データセンター11の顧客を一意に識別するための識別情報である。顧客名は顧客の通称名である。サーバIDは、各顧客がデータセンター11内に保有するサーバを一意に識別するための識別情報である。プロジェクト名はサーバが関係するプロジェクトの名称である。サーバIDだけではどのようなシステムか判別できない場合でもプロジェクト名で判別できる。また、複数のサーバが1つのプロジェクトに関係してもよいし、1つのサーバが複数のプロジェクトに関係してもよい。ラックIDは、データセンター11内においてサーバが設置されているラックを一意に識別するための識別情報である。なお、顧客の住所、代表者氏名、締め日などの情報は、別のデータベースに登録されている。
【0053】
また、顧客情報DB3007には表4に示されているような担当者情報も構築されている。担当者情報は、一例としてプロジェクトごとに構築されており、担当者ID、連絡優先順位、氏名、TEL、及び、E−Mailアドレスが対応づけて登録されている。連絡優先順位とは、運用・監視システム30又は運用・監視システム30のオペレータがアラームの発生を通知する担当者の順位を示す。順位は固定でもよく、ローテーションなどにより変更される場合がある。運用・監視システム30又は運用・監視システム30のオペレータはアラームが発生すると、連絡が付くまでこの連絡優先順位にしたがって連絡を取る。なお、担当者情報は顧客ごとに作成してもよいし、サーバごとに作成してもよい。
【0055】
記憶部3000には、表5に示されているような監視情報によって構成されている監視情報DB3006が構築されている。監視情報は例えばサーバごとに記録され、監視情報には、日時、CPU使用率、メモリ使用率、ディスクI/O回数、HDD空き容量、及び、ネットワーク使用率が対応づけて登録されている。監視情報は、被監視システム19の稼動状況を監視するための情報である。これらはアラームを発報させる情報ともなり、被監視システム19にどの程度の負荷がかかっているかを担当者が把握するための指標となる。監視情報は定期的(表5では5分)に取得されるため、時系列にほぼリアルタイムの監視情報が繰り返し記録される。
【0056】
なお、表5の監視情報は一例に過ぎず、これら以外の情報が記録されてよい。また、監視情報が記録される間隔も5分には限定されず、記録間隔は5分未満又は5分超でもよい。表5では各リソースが1つずつのみの例であるが、各リソースが複数ある場合、個々に監視してもよく、複数のリソースの平均値や最大値を監視してよい。また、ボトルネックとなっている箇所を監視してもよい。
【0058】
記憶部3000には、表6に示されているような監視対象情報によって構成されている監視対象情報DB3002が構築されている。監視対象情報には、顧客ID、サーバID、1つ以上の監視対象/アラーム基準が対応づけて登録されている。監視対象情報とは、各顧客がサーバごとにアラームを発報する監視情報とその基準(アラーム基準)を定義するための情報である。すなわち、各顧客は自分たちのサーバごとにアラームを発報する基準を定義できる。なお、表6のアラーム基準は一例に過ぎず、例えばCPU使用率の単位時間の上昇率など、監視情報の値の微分値や2回微分値をアラーム基準に用いてもよい。また、複数の監視情報の組み合わせをアラーム基準に用いてもよい。
【0060】
記憶部3000には、表7に示されているようなアラーム発報対象情報によって構成されているアラーム発報対象DB3001が構築されている。アラーム発報対象情報には、運用・監視システム30がアラームを発報する事象がアラーム番号に対応づけて登録されている。表6の監視対象情報を顧客が任意に設定できるのに対し、表7のARM001〜ARM003の事象はアラームの基本的な発報対象として予め設定されている。アラーム番号がARM004以降のアラーム発報象情報は、顧客が表6で定義した監視対象が登録される。したがって、アラーム番号によりアラームが発報された事象を担当者等が特定できる。また、顧客が表6の監視対象情報に何も設定しなければ、アラーム発報対象情報は顧客ごとに共通である。このように、アラームが発報される事象は顧客ごとに異なっていても、そうでなくてもよい。したがって、表7で定義した監視対象が障害か否かは定義の問題であり、本実施形態では障害と扱っても障害でないと扱ってもよい。表7に記載されたアラーム発報対象情報はあくまで一例であり、この他にも多くの事象が存在しうる。表7の事象は所定状況の一例である。
【0062】
記憶部3000には、表8に示されているような撮影データ情報によって構成されている撮影データDB3003が構築されている。撮影データ情報はラックごとに作成され、撮影データ情報には、撮影日時と撮影データファイル名が対応づけて登録されている。撮影データファイル名によって特定されるファイル本体はOSにより管理された状態で撮影データDB3003に記憶されている。カメラ21は定期的(表8では5分間隔)にラックを撮影している。したがって、撮影データDB3003には各ラックが撮影された撮影データが時系列に記憶されている。また、アラーム発生時に撮影することが好適である。ラックは透明な材質で形成されているため、ラック越しに撮影されたサーバのLED、担当者、及び、ラックの開閉状態などが撮影され得る。なお、撮影データは静止画に限られず動画であってもよい。また、音声を取得可能でもよい。
【0064】
記憶部3000には、表9に示されているようなセンサー検知情報によって構成されているセンサー検知情報DB3008が構築されている。センサー検知情報には、ラックID、ラック開センサー検知時刻、及び、ラック閉センサー検知時刻が対応づけて登録されている。このセンサー22はラックの開閉を検出する。このため、1つのセンサー22はいずれかのラックに対応づけられている。表9ではセンサー22とラックが1対1の関係であるとしたが、多対1の関係でもよい。担当者はセンサー検知情報により各ラックの開閉状態を把握できる。センサー検知情報は履歴情報の一例である。
【0065】
なお、ラックやサーバに配置されるセンサー22としてはこの他、温度センサー、震動センサ、火災センサ、浸水センサ等が配置されてもよい。これによりサーバの異常な温度情報を記録できる。
【0067】
記憶部3000には、表10に示されているようなアラーム履歴情報によって構成されているアラーム履歴DB3004が構築されている。アラーム履歴情報には、通番、サーバID、アラーム番号、発生日時、連絡した担当者、状態、及び、メンテナンス推定結果が対応づけて登録されている。通番はアラームの発生した順に付された連番である。サーバID、アラーム番号、発生日時、及び、(運用・監視システム30又はオペレータが)連絡した担当者はこれまで説明したとおりである。状態はアラームに対する対応の状態を示し、具体的には担当者がアラームに対応した結果が入力される。なお、アラーム発生時の初期状態は未対応である。メンテナンス推定結果は、アラームがメンテナンスによるものかどうかの推定結果(メンテナンスによると推定されるアラームは注意、そうでないアラームは警告)であり、管理支援システム50による推定結果が記録される。
【0068】
次に、運用・監視システム30が有する機能又は手段について説明する。送受信部31は、
図4に示されているCPU301からの命令、及び
図4に示されているネットワークI/F309によって実現され、ネットワークNを介して入館管理システム20及び管理支援システム50等と各種データの送受信を行う。
【0069】
ログイン検出部32は、
図4に示されているCPU301からの命令によって実現され、被監視システム19への担当者のログイン状態を定期的に問い合わせる。すなわち、被監視システム19の担当者はメンテナンスの際、被監視システム19にログインすることが多い。運用・監視システム30も被監視システム19へログインすることができるため(運用・監視のためにログイン権限が与えられている)、被監視システム19へログインして、担当者のログインに関する情報を読み出し、ログイン情報DB3005に記録する。なお、担当者はデータセンター11に入館しなくても遠隔地から被監視システム19にログインすることが可能である。
【0070】
監視部33は、
図4に示されているCPU301からの命令によって実現され、被監視システム19を監視する。具体的には、定期的に被監視システム19に問い合わせて監視情報を取得し監視情報DB3006に記録する。また、監視部33はアラーム発報対象情報に設定されている事象を検出するため、PING応答、プログラム異常情報、及び、温度異常などを監視する。すなわち、定期的に被監視システム19に対しPINGコマンドを送信し応答時間を取得する。また、被監視システム19のプログラムが異常終了した場合に残すログを被監視システム19から取得する。また、温度センサーとしてのセンサー22が検知した温度を取得する。監視部33はこれらの監視結果を随時、アラーム判定部34に送出する。
【0071】
アラーム判定部34は、
図4に示されているCPU301からの命令によって実現され、監視部33による監視結果がアラームの発報条件を満たすか否かを判定し、満たす場合にアラームを発報する。まず、監視対象情報DB3002の監視対象情報からアラーム基準を読み出し、監視情報DB3006の監視情報のうちアラーム基準を満たすものがあるか否かを判定する。次に、監視部33から取得した監視結果に基づいて、PINGコマンドへの応答時間が閾値を超えないかなどを判定する。また、被監視システム19のプログラムが異常終了した場合に残すログにプログラム異常終了の有無が記録されているか否かを判定する。また、ラックの周囲の温度が基準より高くなっていないかを判定する。アラーム判定部34はアラームを発報すべき事象であると判定するとアラーム履歴情報をアラーム履歴DB3004に記録する。また、運用・監視システム30のオペレータに通知する。これにより運用・監視システム30のオペレータはアラームの内容やサーバの状態を確認し担当者に連絡すべきかどうかを判断する。あるいは、直接、アラーム判定部34が連絡優先順位の最も高い担当者から順にアラームを通知してもよい。
【0072】
撮影部36は、
図4に示されているCPU301からの命令及び
図3のカメラ21によって実現され、被監視システム19のラックを定期的及びアラーム発生時に撮影する。撮影されることで得られた撮影データは撮影データDB3003に時系列に記録される。
【0073】
センサー検知部37は、
図4に示されているCPU301からの命令及び
図3のセンサー22によって実現され、被監視システム19のラックの開閉状態及びラック周囲の温度を定期的に取得する。センサー検知部37が取得したラックの開閉状態や温度はセンサー検知情報DB3008に記録される。
【0074】
情報提供部35は、
図4に示されているCPU301からの命令によって実現され、管理支援システム50から要求があると画面作成情報を提供する。画面作成情報については後述する。
【0075】
記憶・読出部39は、
図4に示されているCPU301からの命令、及び
図4に示すHDD305によって実現され、記憶部3000に各種データを記憶したり、記憶部3000に記憶された各種データを読み出したりする処理を行う。
【0076】
≪管理支援システム50≫
管理支援システム50は、送受信部51、認証部52、情報取得部53、画面作成部54、メンテナンス推定部55、及び、記憶・読出部59を有する。これらの各機能は
図4に示したCPU301が管理支援用プログラムを実行して管理支援システム50のハードウェアと協働することで実現される機能又は手段である。これらの機能の一部又は全てがICなどのハードウェア回路により実現されてもよい。
【0077】
また、管理支援システム50は、
図4に示したHD304又はRAM303により実現される記憶部5000を有している。記憶部5000には、管理支援用プログラム5100、ラック配置画像DB5002、担当者対応画面情報DB5003、及び画面作成情報DB5001が構築されている。
【0078】
ラック配置画像DB5002にはラックの配置を示す画面を構築するための情報が記憶されている。詳細は
図6にて説明する。
【0079】
担当者対応画面情報DB5003はアラームに対し担当者が速やかに初動するための担当者対応画面情報が記憶されている。詳細は
図7にて説明する。
【0080】
画面作成情報DB5001には、担当者に被監視システム19の状態を提供するための画面作成情報が記憶される。画面作成情報は運用・監視システム30又は入館管理システム20の記憶部2000,3000に記憶されているもののうち必要な情報の複製である。具体的には、例えば以下の情報が画面作成情報となる。
「ログイン情報、監視情報、顧客情報、担当者情報、センサー検知情報、撮影データ情報、アラーム履歴情報、入退館情報」
【0081】
次に、管理支援システム50が有する機能又は手段について説明する。送受信部51は、
図4に示されているCPU301からの命令、及び
図4に示されているネットワークI/F309によって実現され、ネットワークNを介して運用・監視システム30及び入館管理システム20等と各種データの送受信を行う。
【0082】
認証部52は、
図4に示されているCPU301からの命令によって実現され、管理支援システム50にログインするユーザ端末70(すなわち担当者)を認証する。認証方法はどのようなものでよいが、一例として、担当者IDとパスワードの組による認証が挙げられる。認証が成立することで管理支援システム50にログインした担当者IDが特定される。顧客情報DB3007には、担当者IDに、プロジェクト名、顧客ID、サーバID及びラックIDが紐づけられているので、認証が成立した担当者が管理するプロジェクト名等も明らかになる。
【0083】
情報取得部53は、
図4に示されているCPU301からの命令によって実現され、例えば担当者が管理支援システム50にログインしたことを契機に運用・監視システム30から画面作成情報を取得する。担当者が管理支援システム50にログインした理由がアラームの通知であれば、アラーム履歴DB3004にアラーム履歴情報が登録されているので、後述するように担当者は画面作成情報に基づき作成された画面により被監視システム19の状態を把握できる。なお、担当者がアラームの通知に関係なくログインした場合でも、担当者は画面作成情報に基づき作成された画面により被監視システム19の状態を把握できる。また、情報取得部53は担当者の管理支援システム50へのログインに関係なく、定期的又は不定期に画面作成情報を取得してもよい。
【0084】
画面作成部54は、
図4に示されているCPU301からの命令によって実現され、画面作成情報を用いてユーザ端末70に送信する画面情報を作成する。画面情報は、例えば後述するアラーム一覧画面510やアラーム詳細画面520などの画面情報である。画面情報は例えばHTML、XML、JavaScript(登録商標)などにより記述されているが、記述形式はどのようなものでもよい。画面情報はWebアプリとして作成されていてもよい。この場合、画面情報が含むJavaScript(登録商標)のコードによりイベントが検知されると、ユーザ端末70は非同期に管理支援システム50と通信して、画面遷移することなく画面の内容を更新できる。
【0085】
メンテナンス推定部55は、
図4に示されているCPU301からの命令によって実現され、例えば入館情報、ログイン情報及びセンサー検知情報を総合して、アラームがメンテナンスによるものかどうかを推定する。
【0086】
記憶・読出部59は、
図4に示されているCPU301からの命令、及び
図4に示すHDD305によって実現され、記憶部5000に各種データを記憶したり、記憶部5000に記憶された各種データを読み出したりする処理を行う。
【0087】
≪ユーザ端末70≫
ユーザ端末70は、送受信部71、操作受付部72、画面表示部73、及び、記憶・読出部79を有する。これらの各機能は
図4に示したCPU301がユーザ端末用プログラムを実行してユーザ端末70のハードウェアと協働することで実現される機能又は手段である。これらの機能の一部又は全てがICなどのハードウェア回路により実現されてもよい。なお、ユーザ端末用プログラムは例えばブラウザソフトウェアであるが、ブラウザと同等の機能を備えたアプリケーションソフトでもよい。また、好ましくはユーザ端末70の種類に応じてユーザ端末用プログラムが用意されている。
【0088】
また、ユーザ端末70は、
図4に示したHD304又はRAM303により実現される記憶部7000を有している。記憶部7000には、ユーザ端末用プログラム7100が記憶されている。
【0089】
送受信部71は、
図4に示されているCPU301からの命令、及び
図4に示されているネットワークI/F309によって実現され、ネットワークNを介して管理支援システム50や被監視システム19と各種データの送受信を行う。
【0090】
操作受付部72は、
図4に示されているCPU301が管理支援システム50から送信される画面情報を実行すること、キーボード311、マウス312,ディスプレイ308と一体のタッチパネル、及び、音声入力装置などによって実現される。操作受付部72は担当者の操作を受け付け、操作内容を画面表示部73に送出する。
【0091】
画面表示部73は、
図4に示されているCPU301が管理支援システム50から送信される画面情報を実行することなどによって実現され、ディスプレイ308に各種の画面を表示する。また、担当者の操作内容に応じて画面を更新する。
【0092】
記憶・読出部79は、
図4に示されているCPU301からの命令、及び
図4に示すHDD305によって実現され、記憶部7000に各種データを記憶したり、記憶部7000に記憶された各種データを読み出したりする処理を行う。
【0093】
≪ラック配置画像DB5002≫
続いて、
図5のラック配置画像DB5002について説明する。
図6はラック配置画像の一例を示す図である。ラック81の配置は固定されているため、各ラック81のラックIDは既知である。したがって、予め管理支援システム50の管理者などが、各ラック81が配置された画面を描くためのHTMLファイルなどを作成しておく。すなわち、ラックIDを指定してラックを描画できるHTMLファイルを作成する。ラックの形状は長方形等であるので、例えばfillRectメソッドにより任意のラックが描画されたり塗りつぶされたりする。
【0094】
なお、
図6は実在するサーバが収容されるラックの配置画像であるが、仮想サーバやクラウドの場合もラックの配置画像が用意される。例えば、仮想サーバやクラウドコンピュータとそれらが存在する物理サーバ群との対応が算出され、反映される。
【0095】
アラームが発報されラックが特定された場合、画面作成部54はラック配置画像のHTMLファイルにおいて他のラックの色とアラームが発報されたラックの色を変える。これにより、ラック配置画像を表示させた担当者はラックの位置をすぐに把握してラックまで移動し初動作業に入ることができる。
【0096】
なお、ラック配置画像には電話アイコン82とメールアイコン83が配置されている。画面作成部54は、アラームの発報時、担当者情報の氏名、TEL及びE−Mailアドレスを電話アイコン82とメールアイコン83にそれぞれ埋め込む(リンクする)。
【0097】
≪担当者対応画面情報DB5003≫
図7は担当者対応画面情報によりユーザ端末70に表示される担当者対応画面501を模式的に示す図の一例である。担当者対応画面501は関係者連絡ボタン502、入館申請ボタン503、遠隔メンテナンスボタン504、及び、アラーム抑止設定ボタン505を有する。これらはBUTTONタグとして担当者対応画面情報(HTMLファイル)に記述されている。
【0098】
また、各ボタンにはそれぞれ遷移先の画面へのリンクが埋め込まれている。関係者連絡ボタン502には、担当者対応画面501を表示させた担当者と同じプロジェクトを担当する担当者のTELとE−Mailアドレスを表示する画面がリンクされる。したがって、画面作成部54は顧客情報DB3007から担当者対応画面501を表示させた担当者と同じプロジェクトを担当する担当者のTELとE−Mailアドレスを読み出して関係者連絡ボタン502が押下された際の遷移先の画面情報に設定する。入館申請ボタン503には、担当者がデータセンター11に入館申請するための画面がリンクされる。入館申請するための画面は各顧客に共通であるとする。共通でない場合は、担当者対応画面501を表示させた担当者の氏名や担当者IDを画面作成部54が入館申請するための画面情報に設定してもよい。
【0099】
遠隔メンテナンスボタン504には、被監視システム19にメンテナンス用の各種のコマンドを送信可能な画面がリンクされる。したがって、画面作成部54は例えば、被監視システム19のURI(例えばIPアドレス)が設定され、さらに、被監視システム19にログインするためのフォーム(担当者ID、パスワードの入力欄)を有する画面情報を作成する。また、画面作成部54は、予め用意されている、PINGコマンド、uptimeコマンド、dfコマンド、freeコマンド、psコマンド、auxコマンド、topコマンド、iostatコマンドなどが選択可能な画面情報を、作成した画面情報に関連づける。
【0100】
アラーム抑止設定ボタン505には、アラームを抑止するための画面がリンクされる。画面作成部54は、抑止時間などを入力可能な画面情報に、担当者対応画面501を表示させた担当者が紐づけられているプロジェクト名、サーバID等(アラーム抑止の対象を特定するための情報)を設定する。
【0101】
<カメラ21の配置>
続いて、データセンター11におけるカメラ21の配置について説明する。
図8(a)はラックの前に固定されたカメラ21の配置例を示す図である。
図8(a)では2つのラック81を1つのカメラ21で監視している。セキュリティ上の不都合等を考慮して、1つのラック81を1つのカメラ21で監視してもよい。
【0102】
しかしながら、ラック81の数が増えた状態でラック81とカメラ21の対応が固定されている場合、カメラ21の数も増大してしまう。したがって、この場合、データセンター11に
図8(b)に示すような自走式のカメラ21を配置することが有効になる。
図8(b)ではラック81の一列に1台のカメラ21が配置されている。カメラ21は天井などからつり下げられたレール84をラック81の列に並行に移動する。したがって、ラック81の数に対するカメラ21の数を低減できるのでコスト増を抑制できる。
【0103】
なお、カメラ21の位置は撮影部36により制御される。撮影部36は予め基準位置からの移動距離及び方向とラックIDを対応づけたテーブルを保持している。撮影部36はアラーム判定部34からアラームが発報されたラックIDを取得すると、ラックIDに対応づけられた移動距離だけカメラ21を移動させる。あるいは、データセンター11の管理者などがレール84の各ラック81の前にラックIDが記憶されたICタグを貼付しておき、カメラ21がICリーダでICタグのラックIDを読み取ってもよい。この場合、カメラ21は撮影部36から通知されたラックIDを移動しながら探索して、通知されたラックIDを検出すると停止する。
【0104】
このように、カメラ21が各被監視システム19のラックを撮影することで、エラーを知らせるLEDの点灯状態、担当者の有無、及び、ラック81の開閉状態を撮影できる。なお、カメラ21はズーム(変倍)機能を備え、サーバのズーム(拡大)画像やサーバの周辺画像をそれぞれ撮像できることが好ましい。レールを自走する以外にロボットなどが移動して撮影してもよい。
【0105】
<動作手順>
続いて、
図9を用いて管理システム300の動作手順について説明する。
図9は、管理システム300がアラームを発報しユーザ端末70がそれを確認するまでの処理手順を示すシーケンス図の一例である。
図9の処理手順は被監視システム19が稼動中に行われる。
【0106】
S1:運用・監視システム30の監視部33は被監視システム19を定期的に監視する。監視部33による監視情報は監視情報DB3006に記録され、また、監視結果をアラーム判定部34に送出する。
【0107】
S2:アラーム判定部34は監視情報DB3006や監視結果に基づいてアラームを発報する事象か否かを判定する。ここではアラームを発報するものとして説明する。また、このタイミングでデータセンター11のオペレータがアラームを発報するかどうかを更に確認してもよい。
【0108】
S3:運用・監視システム30のアラーム判定部34は送受信部31を介してユーザ端末70にアラームを通知する。すなわち、オペレータによる電話連絡、オートコール(自動電話連絡)、又は、E−Mailによりアラームが発報されたことを担当者に通知する(連絡優先順位の順番)。
【0109】
S4:ユーザ端末70を操作する担当者はアラームの内容を確認するため管理支援システム50にログインする。これにより、少なくとも担当者IDが判明する。
【0110】
S5:管理支援システム50の情報取得部53は運用・監視システム30に対し画面作成情報を要求する。この時、担当者IDを送信することで、運用・監視システム30の記憶・読出部39は、担当者IDに紐付いている「ログイン情報、監視情報、顧客情報、担当者情報、センサー検知情報、撮影データ情報、アラーム履歴情報、入退館情報」を画面作成情報として記憶部3000から読み出す。
【0111】
S6:運用・監視システム30の情報提供部35は画面作成情報を管理支援システム50に送信する。
【0112】
S7:管理支援システム50の画面作成部54は、画面作成情報からアラーム履歴情報を取得し、アラーム一覧をユーザ端末70に通知する。アラーム一覧は、担当者が管理するプロジェクトのうち状態が解決でないものでよい。あるいは直近の決まった数(例えば10個)のアラームを送信してもよい。
【0113】
S8:ユーザ端末70の画面表示部73はアラーム一覧画面をディスプレイ308に表示する。アラーム一覧画面については
図10(a)にて説明する。
【0114】
S9:次に、担当者はアラーム一覧画面から確認したいアラームを、マウスを用いて又はタッチパネルから選択する。これにより、ユーザ端末70の送受信部71は担当者が選択したアラームの通番を管理支援システム50に送信する。
【0115】
S10:これによりアラームが特定されたので、管理支援システム50の画面作成部54は担当者により選択されたアラームについてアラーム詳細画面520の画面情報を作成する。詳細は後述する。
【0116】
S11:管理支援システム50の送受信部51はアラーム詳細画面520の画面情報をユーザ端末70に送信する。
【0117】
S12:ユーザ端末70の画面表示部73はアラーム詳細画面520をディスプレイ308に表示する。アラーム詳細画面520については
図10(b)にて説明する。
【0118】
<画面例>
図10(a)はアラーム一覧画面510の一例を示し、
図10(b)はアラーム詳細画面520の一例を示す。アラーム一覧画面510では一例として2つのアラームの概略が表示されている。概略には、アラームの通番511、アラームの発生日時512、及び、アラームの内容513が表示されている。したがって、担当者はアラームの概略を把握して詳細を確認する必要があるかどうかを把握できる。なお、
図10(a)に表示される情報は一例にすぎず、図示する以外の情報が表示されてもよいし、図示した情報が表示されなくてもよい。
【0119】
なお、アラーム一覧画面510に表示される情報は、画面作成部54がアラーム履歴DB3004及び監視対象情報DB3002から取得できる。
【0120】
アラーム詳細画面520は、発生日時欄521、プロジェクト名欄519、サーバ欄522、メッセージ種別欄523、メッセージ欄524、メンテナンス推定欄525、及び、横スクロール部526を有している。
・発生日時欄521…アラームが発生した日時であり、アラーム履歴DB3004に記録されている。
・プロジェクト名欄519…アラームが発生したサーバが紐づけられているプロジェクト名であり、顧客情報DB3007に記録されている。
・サーバ欄522…アラームが発生したサーバのサーバIDであり、アラーム履歴DB3004に記録されている。
・メッセージ種別欄523…アラームであることを明記するための欄であり、画面作成部54が設定する。アラームの重要度・緊急度等を示すメッセージが表示される。
・メッセージ欄524…アラームの内容を意味するものであり、アラーム番号に対応するメッセージを画面作成部54が設定したものである。
・メンテナンス推定欄525…担当者が選択したアラームがメンテナンスによる可能性が高いか又は対応が必要な障害の可能性が高いかが表示される。具体的には、メンテナンスによる可能性が高い場合は「メンテナンスの可能性有り」と表示され、対応が必要な障害の可能性が高い場合は「障害の可能性」と表示される。メンテナンスによる可能性が高いか否かの判断については
図13にて説明する。なお、メンテナンスによる可能性が高いか否によってメンテナンス推定欄525の色を画面作成部54が異ならせてもよい。
・横スクロール部526…一画面に入りきらない選択ボタンを担当者が横方向にスワイプすることで表示させる領域である。具体的には、選択ボタンとして、入館情報ボタン526a、ログイン情報ボタン526b、カメラ情報ボタン526c、センサー検知情報ボタン526d、推奨作業ボタン526e、及び、事象詳細ボタン526fが個別に表示される。これらがマウスを用いて又はタッチパネルから選択されると、次の画面に遷移する。
【0121】
≪アラーム詳細画面から表示される画面≫
選択ボタンが選択されることでアラーム詳細画面520から表示される画面は、画面遷移を伴ってもよいしアラーム詳細画面520に重なるように表示されてもよい。
【0122】
図11(a)は入館情報ボタン526aが押下された場合に表示される入館情報画面530の一例を示す図である。入館情報画面530には、所属情報531、入館詳細情報532及び最終更新時刻533が表示されている。所属情報531は、アラーム詳細画面520を表示した担当者が所属する顧客の顧客名やプロジェクト名である。顧客名とプロジェクト名は、担当者IDに基づいて画面作成部54が顧客情報DB3007から読み出す。
【0123】
入館詳細情報532は、例えば入館者、入館時刻、及び、入館箇所を有している。画面作成部54は、例えば以下のようにして入館詳細情報を作成する。まず、アラーム詳細画面520を表示した担当者の担当者IDと同じプロジェクト名に対応づけられている担当者IDを顧客情報DB3007から取得する。次に、顧客情報DB3007から取得した担当者IDのうち入館はしたが、退館していない担当者がいるか否かを、入館情報DBを参照して判定する。該当する担当者がいる場合、担当者IDと入館時刻を読み出す。また、この担当者の氏名を顧客情報DB3007から読み出す。
【0124】
なお、入館箇所は、入館した担当者が存在するデータセンター11内の位置を示す。具体的には、担当者がICカードで入室した場所を運用・監視システム30に画面作成部54が問い合わせることで取得できる。
【0125】
また、最終更新時刻533は監視部33が最後に監視情報を記録した時刻であるので、情報取得部53が運用・監視システム30から取得する。
【0126】
図11(b)はログイン情報ボタン526bが押下された場合に表示されるログイン情報画面540の一例を示す図である。ログイン情報画面540には、所属情報541、ログイン詳細情報542、及び、最終更新時刻543が表示されている。所属情報541と最終更新時刻543については
図11(a)と同様である。
【0127】
ログイン詳細情報542は、例えば担当者ID、ログイン者及びログイン時刻を有している。画面作成部54は、例えば以下のようにしてログイン詳細情報542を作成する。まず、アラーム詳細画面520を表示した担当者の担当者IDと同じプロジェクト名に対応づけられている担当者IDを顧客情報DB3007から取得する。次に、顧客情報DB3007から取得した担当者IDのうちログインしたが、ログアウトしていない担当者がいるか否かを、ログイン情報DB3005を参照して判定する。該当する担当者がいる場合、担当者IDとログイン時刻を読み出す。また、この担当者の氏名を顧客情報DB3007から読み出す。
【0128】
なお、
図11(a)(b)において担当者名は必ずしも必須ではない。担当者を特定できなくても、メンテナンス中か否かが分かれば対応が必要なアラームかどうかおよその判断は可能だからである。
【0129】
図11(c)はカメラ情報ボタン526cが押下された場合に表示されるカメラ情報画面550の一例を示す図である。カメラ情報画面550には、ズームタグ551とサーバ周辺タグ552、ズーム画像553、及び、所属情報554が表示されている。所属情報554には、アラームが発報されたサーバやプロジェクトに関する情報が表示される。
【0130】
ズームタグ551はズーム画像を表示させるためのタグである。担当者がサーバ周辺タグ552をマウスを用いて又はタッチパネルから選択すると
図11(d)に示すようにサーバ周辺画像556が表示される。ズーム画像553はサーバをズームした画像であり、担当者はLEDの点灯状態を確認できる。サーバ周辺画像556はサーバの周辺が撮影された画像であり、担当者はラックの開閉状態や人影を確認できる。
【0131】
画面作成部54は、例えば以下のようにしてカメラ情報画面を作成する。まず、アラーム詳細画面520を表示した担当者の担当者IDに対応づけられているラックIDを顧客情報DB3007から取得する。次に、このラックIDに対応づけられている最新の撮影データファイル名、アラーム発生時の撮影データファイル名及び撮影データを撮影データDB3003から読み出す。撮影時刻555は撮影データファイル名から明らかになっている。なお、読み出す撮影データを1つに制限する必要はなく、直近のいくつかの撮影データを取得してもよい。これにより例えばアラーム発生前より作業をしている担当者等の様子を判断できる。
【0132】
担当者の会社のセキュリティ方針により、撮影データを社外に送信することができない場合がある。この場合は、管理支援システム50が画像処理を行い、LEDの点灯状態、担当者の有無、及び、ラックの開閉情報を判断する。撮影データのうちLEDの形状(例えば円形)の輝点をパターン認識により検出することで、LEDの点灯状態を判断できる。また、例えばオプティカルフローなどで動体を検知すれば、ラックの前に担当者がいることを検出できる。また、予め保持するラックの開状態と閉状態の撮影データと、リアルタイムに撮影された撮影データを比較することで、ラックが開状態か閉状態を判断できる。画面作成部54は撮影データ(サーバ周辺画像556、ズーム画像553)の代わりにこれらの画像処理結果をカメラ情報画面550に記載する。
【0133】
図12(a)はセンサー検知情報ボタン526dが押下された場合に表示されるセンサー検知情報画面560の一例を示す図である。センサー検知情報画面560には、ラック情報561とセンサー検知詳細情報562が表示されている。ラック情報561は、アラーム詳細画面520を表示した担当者の担当者IDに対応づけられているラックIDである。
【0134】
センサー検知詳細情報562は、例えばラック状態を有している。画面作成部54は、例えば以下のようにしてセンサー検知詳細情報562を作成する。まず、アラーム詳細画面520を表示した担当者の担当者IDに対応づけられているラックIDを顧客情報DB3007から取得する。次に、このラックIDが開状態か閉状態かをセンサー検知情報DB3008から読み出す。
【0135】
図12(b)は推奨作業ボタン526eが押下された場合に表示される推奨作業情報画面570の一例を示す図である。推奨作業情報画面570には、ラック位置571、ラック状態情報572、電話アイコン573、及び、メールアイコン574が表示されている。推奨作業情報画面570は、管理支援システム50が担当者に推奨する作業を提案する画面である。
【0136】
ラック位置571は、データセンター11内におけるラックの位置を地図形式で示す。この地図の描画方法は
図6にて説明した。また、ラック状態情報572にはアラーム源となったサーバID、ラックの状態、及び、作業状態が表示される。これらの情報の取得方法は
図11,12で説明した。
【0137】
また、
図12(b)の例では、入館している担当者に連絡を取ることが推奨されている。例えば、鈴木次郎さんがログインしかつ入館しているため、アラーム詳細画面520を表示した担当者(例えば、佐藤一郎さん)は鈴木次郎さんに連絡を取ればアラームの原因を知ることができる可能性が高い。推奨作業情報画面570には入館又はログインしている担当者への連絡先が表示されている。また、場合によっては、佐藤一郎さんや鈴木次郎さんのプロジェクトの他のプロジェクトメンバに連絡した方がよい場合がある。例えば、プロジェクトの範囲がアプリ、インフラ、基盤などの多岐にわたる場合や、原因が特定できない場合である。このため、CC(カーボンコピー)などで送信可能なように、その他プロジェクトメンバの連絡先も表示される。
【0138】
画面作成部54は、入館又はログインしている担当者IDに対応づけられているTELとE−Mailアドレス(連絡先情報の一例)を顧客情報DB3007から読み出す。そして、それぞれを電話アイコン、及び、メールアイコンにリンクさせる。したがって、アラーム詳細画面520を表示している担当者は電話アイコン573、及び、メールアイコン574を押下することで、メンテナンスしている可能性が高い担当者と連絡を取ることができる。上記のように、鈴木次郎さん以外のプロジェクトメンバの連絡先(例えばE−Mailアドレス)を表示することも可能である。
【0139】
また、推奨作業ボタン526eが押下されたことで直接、ユーザ端末70が鈴木次郎さんに電話連絡してもよい。この場合、推奨作業ボタン526eに鈴木次郎さんの氏名を表示させる。
【0140】
なお、
図10〜
図12の画面の遷移例では、アラーム詳細画面520から横スクロール部526のボタンを担当者が押下する必要がある。しかし、アラーム詳細画面520に、入館情報画面530、ログイン情報画面540、カメラ情報画面550、センサー検知情報画面560及び推奨作業情報画面570の少なくとも1つ以上を表示してもよい。すなわち、上記の画面遷移は一例である。また、入館情報画面530、ログイン情報画面540、カメラ情報画面550、センサー検知情報画面560及び推奨作業情報画面570の2つ以上を1つの画面に集約してもよい。
【0141】
≪メンテナンス推定欄≫
続いて、
図13を用いてメンテナンス推定欄525に表示される内容の判断方法について説明する。
図13は、メンテナンス推定部55がメンテナンスによる可能性が高いか否かを判定する手順を示すフローチャート図の一例である。
図13の処理はアラーム詳細画面520の画面情報が作成される際に実行される。
【0142】
まず、メンテナンス推定部55は変数Pを初期化する(S10)。変数Pはメンテナンスの可能性をカウントする変数である。
【0143】
次に、メンテナンス推定部55は、管理支援システム50にログインした担当者と同じプロジェクト名に紐づけられている担当者が入館しているか否かを判定する(S20)。
【0144】
ステップS20の判定がYesの場合、メンテナンス推定部55はPを1つ大きくする(S30)。ステップS20の判定がNoの場合、メンテナンス推定部55は何もしない。
【0145】
次に、メンテナンス推定部55は、管理支援システム50にログインした担当者と同じプロジェクト名に紐づけられている担当者が被監視システム19にログインしているか否かを判定する(S40)。
【0146】
ステップS40の判定がYesの場合、メンテナンス推定部55はPを1つ大きくする(S50)。ステップS40の判定がNoの場合、メンテナンス推定部55は何もしない。
【0147】
次に、メンテナンス推定部55は、管理支援システム50にログインした担当者に紐づけられているラックが開状態か否かを判定する(S60)。
【0148】
ステップS60の判定がYesの場合、メンテナンス推定部55はPを1つ大きくする(S70)。ステップS60の判定がNoの場合、メンテナンス推定部55は何もしない。
【0149】
最後に、メンテナンス推定部55はPが1以上か否かを判定する(S80)。そして、Pが1以上なら、メンテナンス推定部55はメンテナンスの可能性が高い(注意)と判断する(S90)。一方、Pが1未満なら、メンテナンス推定部55は対応が必要な障害の可能性が高い(警告)と判断する(S100)。
【0150】
したがって、入館情報、ログイン情報及びセンサー検知情報を総合して、これらのうち1つ以上でメンテナンス前の行為が行われた場合、メンテナンスの可能性が高いと判断できる。なお、
図13の判断方法は一例に過ぎず、例えば、ステップS80の閾値を適宜、変更してよい。また、入館情報、ログイン情報及びセンサー検知情報に異なる重み付けをしてもよい(Pの増分を変える)。
【0151】
なお、担当者はアラーム詳細画面520から入館情報、ログイン情報及びセンサー検知情報を確認できる。また、入館やログインしている担当者と連絡を取ることもできる。よって、メンテナンス推定欄525の表示内容は正確でなくてもよい。しかし、メンテナンス推定部55がメンテナンスの可能性が高いと判断すると、担当者がアラームの内容を確認せずにアラームを抑止する可能性もあるため、対応が必要な障害の可能性が高い側に判定することが有効である。
【0152】
また、ログインしてからの経過時間を考慮することも有効である。
図14を用いて説明する。
図14では、ステップS40でログインあり又はログアウト後、5分以内かどうかが判定されている。すなわち、メンテナンス推定部55は担当者がログインしている場合だけでなくログアウト後、間もない場合にメンテナンスの可能性があると推定する。なお、「ログアウト後、5分」は一例に過ぎず、ログアウト後の時間をパラメータとする任意の関数により判定してもよい。
【0153】
例えば、担当者がメンテナンスする場合、ログインしてからメンテナンスまでの時間は短いことが多い。一方、ログインしてから数時間後なら入館中でもメンテナンスの可能性は低い。したがって、ログインからアラーム発生までの時間をPの増分に反映させることで、メンテナンスによるアラームかどうかを判定しやすくすることができる。
【0154】
≪事象詳細確認画面≫
続いて、
図15を用いて、担当者が
図10(b)のメンテナンス推定欄525を押下した場合に表示される事象詳細確認画面580について説明する。なお、事象詳細確認画面580は
図10(b)の他のボタンから遷移されてもよい(例えば横スクロール部526の事象詳細ボタン526f)。
【0155】
図15は事象詳細確認画面580の一例を示す図である。事象詳細確認画面580には、時系列に監視情報(
図15ではCPU使用率)が表示され、この監視情報の折線グラフ589上にイベントの発生を意味するイベントマーク581が表示されている。担当者は折線グラフ589をスクロールさせて任意の時刻の監視情報を見ることができる。なお、ユーザ端末70が取得していない時刻の監視情報は、ユーザ端末70が画面遷移させることなく管理支援システム50から取得できる。
【0156】
また、事象詳細確認画面580には縦軸選択ボタン582、時間スケール調整ボタン583、表示イベント設定ボタン584、及び、閉じるボタン585が表示される。縦軸選択ボタン582は監視情報(CPU使用率、メモリ使用率、ディスクI/O回数、HDD空き容量、ネットワーク使用率など)のうち事象詳細確認画面580に表示されるものを担当者がマウスを用いて又はタッチパネルから選択するためのボタンである。同時に複数の監視情報を選択可能でもよい。なお、初期状態では最も新しいアラームの原因となった監視情報が縦軸で表示される(例えば、CPU使用率がアラーム基準を超えた場合はCPU使用率)。アラームの原因となった監視情報がない場合、予め定められた監視情報が縦軸で表示される。
【0157】
時間スケール調整ボタン583は監視情報の表示範囲(最大時刻と最小時刻)を担当者が設定するためのボタンである。
【0158】
表示イベント設定ボタン584は、折線グラフ589上に表示されるイベントマーク581を担当者が設定するためのボタンである。表示されるイベントには、重要エラー、通常エラー、警告、注意、ログイン/ログアウト、入館/退館などがあるがこれらに限られるものではない。×印のイベントマーク581は警告を意味し、感嘆符のイベントマーク581は注意を意味する。なお、重要エラーは、アラームのうち予め定められている事象(例えば、温度異常などの物理的な障害)をいい、通常エラーはそれ以外をいう。警告は対応が必要な障害の可能性が高いアラームであり、注意はメンテナンスの可能性が高いアラームである。したがって、担当者はイベントマーク581として表示されイベントのレベルを選択できる。
【0159】
また、イベントマーク581を担当者がマウスを用いて又はタッチパネルから選択すると、イベント情報が表示される。イベント情報には、時刻、事象、内容、及び、状態が表示され、電話アイコン586、電子メールアイコン587、スパナアイコン588、及び、詳細ボタン590が表示される。時刻、内容、及び、状態についてはアラーム履歴DB3004に登録されている。事象はイベントの内容を示すものなので、イベントマーク581の作成時に明らかになっている。
【0160】
電話アイコン586には、事象詳細確認画面580を表示している担当者と同じプロジェクト名に紐づけられている担当者の電話番号が埋め込まれている。電子メールアイコン587には、事象詳細確認画面580を表示している担当者と同じプロジェクト名に紐づけられている担当者のE−Mailアドレスが埋め込まれている。それぞれログイン又は入館している担当者の電話番号やE−Mailが強調して表示されてもよい。スパナアイコン588には
図7で説明した担当者対応画面501がリンクされている。
【0161】
担当者が詳細ボタン590を押下すると、選択されているイベントマーク581が表示されている時刻において各データベースから取得可能な情報が表示される。例えば、該時刻に入館している担当者、ログインしている担当者、ラックの開閉状態、監視情報(数値)、撮影データなどが表示される。
【0162】
このように事象詳細確認画面580を表示した担当者は、時系列で各イベントと監視情報(リソース等)の状況を確認できる。監視情報にイベントマーク581が重ねて表示されるため、担当者はイベントと監視情報の対応を把握しやすい。
【0163】
事象詳細確認画面580によれば、担当者が入館、ログイン又はラックの開放の等を行っていない場合に生じたアラームの原因を調査しやすくなる。例えば、バッチ処理の動作異常が生じた場合を説明する。
【0164】
比較のため、従来における原因調査の手順を説明する。例えば、担当者が休日中にWebアプリの接続エラーに関するアラームを断続的に受信したものとする。関係者(同じプロジェクトの他の担当者)に連絡したが誰も作業をしていなかった。そこで、出社して監視情報のログを調査すると、最初にアラームが発生した時刻の10分前からCPU使用率が異常に高くなっていることが分かった。さらに調査を継続すると、同時間にスケジュール起動したバッチプログラムの動作異常がCPU使用率を高くしていることが判明した。バッチプログラムを強制終了することで障害を復旧できたが、復旧までに長時間(数時間以上)を要してしまった。
【0165】
続いて、事象詳細確認画面580を用いたアラームの原因調査について説明する。担当者が休日中にWebアプリの接続エラーに関するアラームメールを断続的に受信した。ユーザ端末70にアラーム詳細画面520を表示させることで、電話連絡することなく誰もメンテナンス作業をしていないことが分かる。次に、事象詳細確認画面580を表示させると、時系列のCPU使用率の上昇後にアラームが発生しており、関連性がある可能性があることが判明した。出社してアラーム発生時刻にCPU使用率が異常に高くなった原因を調べたところ、スケジュール起動したバッチプログラムの動作異常であることが判明した。バッチプログラムを強制終了することで障害を復旧した。復旧までに要した時間は1時間未満であった。
【0166】
このように、アラームの通知を受けた担当者は、管理支援システム50にアクセスするだけで、アラームがメンテナンスによるものかどうかを判別できる。また、誰もメンテナンスしていない場合は、ユーザ端末70に監視情報とアラームの関係を表示させることで、原因を推定できる。
【0167】
続いて、電話アイコン586及び電子メールアイコン587が押下された場合の画面について説明する。
図16(a)は電話アイコン586がマウス又はタッチパネルから選択された場合にユーザ端末70に表示される電話連絡先一覧画面620の一例を示す。電話連絡先一覧画面620には1つ以上の電話連絡先621が表示される。電話連絡先621は、電話連絡先一覧画面620を表示している担当者と同じプロジェクトの他の担当者の電話番号である。電話連絡先621には連絡ボタン622が表示される。担当者が連絡ボタン622を押下すると、この操作だけで電話をかけることができる。なお、入館している他の担当者又はログインしている他の担当者がいる場合、該担当者の電話連絡先621が強調表示される(
図16(a)では「推奨」という文字が表示されている)。なお、電子メールアイコン587が押下された場合も同様の画面が表示される。
【0168】
次に、スパナアイコン588が押下された場合の画面について説明する。スパナアイコン588には
図7で説明した担当者対応画面501がリンクされていると説明した。そして担当者対応画面501でアラーム抑止設定ボタン505が押下されると
図16(b)のアラーム抑止申請画面601が表示される。
【0169】
アラーム抑止申請画面601はフェーズ表示欄602,及び、プロジェクト選択欄603を有する。フェーズ表示欄602はアラーム抑止の設定に必要な4つのフェーズのうち現在のフェーズを示す。プロジェクト選択欄603にはプロジェクト名が表示される。このプロジェクト名は、アラーム抑止申請画面601を表示させている担当者が所属するプロジェクトである。アラームが発報されているサーバに対応づけられたプロジェクトの場合は、強調表示されてもよい。
【0170】
担当者がプロジェクト選択欄603のプロジェクト名又は次へボタン604をマウスやタッチパネルを介して選択する。これにより
図16(c)のアラーム抑止設定画面610が表示される。アラーム抑止設定画面610は抑止対象サーバ欄611、抑止期間欄612、理由欄613、備考欄614、及び、メール送信欄615を有する。抑止対象サーバ欄611には、アラーム抑止申請画面601で選択されたプロジェクト名に紐付いているサーバ名が表示される。その他の入力欄は担当者が任意に設定できる。
【0171】
このように、担当者は事象詳細確認画面580から少ない操作でアラーム抑止設定することができる。
図7に示したように担当者対応画面501ではアラーム抑止だけでなく、関係者連絡、入館申請、及び、遠隔メンテナンスすることもできる。したがって、アラーム発報時に行われやすい初動作業をアラーム内容の確認画面(事象詳細確認画面580)から一元的に選択できる。これにより効率的な初動対応が可能になる。
【0172】
なお、事象詳細確認画面580から担当者対応画面501を経ることなくアラーム抑止申請画面601に画面が遷移してもよい。例えば、アラームがメンテナンスによるモノである可能性が高い場合(メンテナンス推定欄525でメンテナンスの可能性が高いと判断された場合)、事象詳細確認画面580から直接、アラーム抑止申請画面601に遷移してもよい。メンテナンスの場合、担当者はアラームを抑止する可能性が高いので、担当者が必要な操作手順を少なくできる。
【0173】
<画面作成の動作手順>
図17を用いて
図9のステップS10の画面作成の動作手順について説明する。
図17は画面作成部54がアラーム詳細画面520の画面情報を作成する手順を示すフローチャート図の一例である。
【0174】
管理支援システム50の画面作成部54は、アラーム詳細画面520を表示する担当者と同じプロジェクト名に紐づけられている担当者が入館しているか否かを判定する(S10)。
【0175】
ステップS10の判定がYesの場合、画面作成部54は入館情報ボタン526aに
図11(a)で説明した入館情報画面530をリンクさせる(S20)。
【0176】
次に、管理支援システム50の画面作成部54は、アラーム詳細画面520を表示する担当者と同じプロジェクト名に紐づけられている担当者がログインしているか否かを判定する(S30)。
【0177】
ステップS30の判定がYesの場合、画面作成部54はログイン情報ボタン526bに
図11(b)で説明したログイン情報画面540をリンクさせる(S40)。
【0178】
次に、管理支援システム50の画面作成部54は、カメラ情報ボタン526cに
図11(c)(d)でカメラ情報画面550をリンクさせる(S50)。
【0179】
次に、管理支援システム50の画面作成部54は、センサー検知情報ボタン526dに
図12(a)で説明したセンサー検知情報画面560をリンクさせる(S60)。
【0180】
次に、管理支援システム50の画面作成部54は、アラームが発報されているか否かを判定する(S70)。これは、アラームが発報されていなくてもアラーム詳細画面520を表示することは可能なためである。
【0181】
ステップS70の判定がYesの場合、管理支援システム50の画面作成部54は推奨作業情報画面570を作成し推奨作業ボタン526eにリンクさせる(S80)。すなわち、ラック位置を示す地図を作成し、ラック状態情報572を配置する。また、電話アイコン82にTELをメールアイコン83にE−Mailアドレスをそれぞれリンクさせる。
【0182】
また、管理支援システム50のメンテナンス推定部55はアラームがメンテナンスによるものかどうかの可能性を推定する(S90)。画面作成部54は推定結果をメンテナンス推定欄525の内容と色に反映させる。
【0183】
次に、管理支援システム50の画面作成部54は事象詳細確認画面580を作成しメンテナンス推定欄525にリンクさせる(S100)。ここではアラームが発報されているものとして説明する。
(100−1)まず、アラーム履歴DB3004を参照して、担当者が選択したアラーム番号に基づき事象詳細確認画面580の縦軸(監視情報)を決定する。アラームが監視情報以外を原因とする場合は予め定められた監視情報を縦軸に決定する。
(100−2)アラームの直近の一定時間(例えば30〜60分)の監視情報を監視情報DB3006から読み出す。そして、時間軸と縦軸の対応する位置に値を打点し、点と点を直線などで結ぶ。このような折線グラフ589はJavaScript(登録商標)のライブラリに時刻と値の組を設定することで作成できる。
(100−3)イベントマーク581を表示するためのイベントを決定する。ここでは担当者が関係するイベントを予め設定しているものとする。
(100−4)イベントと関係する情報をデータベースから読み出す。例えば、警告と注意のアラームが設定されている場合、アラーム履歴DB3004から警告と注意のアラーム履歴情報を読み出す。
(100−5)アラームの発生時刻における監視情報に重ねてイベントマーク581を表示させる記述を行う。すなわち、イベントマーク581の位置を決定する。
(100−6)イベントマーク581に時間、事象、内容、及び、状態を埋め込み、また、電話アイコン586、電子メールアイコン587、スパナアイコン588及び詳細ボタン590を埋め込む。さらに詳細ボタン590に該時刻に入館している担当者、ログインしている担当者、ラックの開閉状態、監視情報(数値)、撮影データなどを埋め込む。
【0184】
以上のような処理により、事象詳細確認画面580の画面情報を作成してユーザ端末70に送信できる。
【0185】
図10〜
図12及び
図15にて説明したように、本実施形態の管理支援システム50は担当者が初動判断したり初動作業を行うために必要な情報をアラーム詳細画面520でまとめて提供できる。例えば、メンテナンス推定欄525によりアラームがメンテナンスによる可能性が高いかどうかを一目で判断できる。また、アラーム詳細画面520から1回の操作で他の担当者の入館状況、ログイン状況、カメラ21の撮影データ、及び、ラックの状態、を確認できる。したがって、短い時間又は少ない操作でメンテナンスによるアラームかどうかを担当者が判断できる。
【0186】
また、アラーム詳細画面520から1回の操作で推奨される初動作業を確認でき、入館又はログインしている担当者がいれば連絡先が表示されるので、メンテナンスしている可能性が高い担当者とすぐに連絡を取れる。したがって、メンテナンスしている可能性が高い担当者に対し短い時間又は少ない操作で確認することもできる。
【0187】
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【0188】
例えば、本実施形態では、アラームが通知された担当者が管理支援システム50にログインすることで入館情報等が提供された。しかし、入館情報等は、アラームの通知の時点で担当者に提供されてもよい。すなわち、
図9のステップS3で運用・監視システム30がアラームと共に入館情報等を担当者のE−Mailアドレス宛に送信したり、SNSを利用して送信したりする。
【0189】
アラームの原因となるサーバに基づいてプロジェクト名が分かり、プロジェクト名に紐付いている担当者IDを取得できる。この担当者IDのうち入館情報に入館していることが記載されている担当者を入館情報DBから読み出す。また、ログイン情報にログインしていることが記載されている担当者をログイン情報DB3005から読み出す。また、サーバに紐付いているラックの開閉状態をセンサー検知情報DB3008から読み出す。したがって、アラームを通知する段階で、運用・監視システム30はアラームと共に入館状況、ログイン状況、及び、ラック状態を担当者に送信できる。
【0190】
また、本実施形態ではいくつかの画面を例示したが、これらは説明の便宜上、図示したものに過ぎず、画面に表示される内容やデザインは図示したものに限られない。すなわち、運用・監視システム30が保持する情報であれば管理支援システム50がユーザ端末70に提供することができる。
【0191】
また、本実施形態ではデータセンター11に設置された被監視システム19について説明したが、データセンター11には同等の機能を備えた施設が含まれる。すなわち、被監視システム19が配置された施設がデータセンターと呼ばれていなくてもよい。また、例えば、自社内の被監視システムにも本実施形態は適用できる。すなわち、社員の自社への入室、被監視システム19へのログイン、ラックの開閉状態を運用・管理システムが記録すれば、担当者としての社員にこれらの情報を提供できる。
【0192】
また、
図5などの構成例は、運用・監視システム30、入館管理システム20、管理支援システム50及びユーザ端末70の処理の理解を容易にするために、主な機能に応じて分割したものである。例えば、運用・監視システム30と管理支援システム50が一体でもよい。また、入館管理システム20と運用・監視システム30とが一体でもよい。
【0193】
また、処理単位の分割の仕方や名称によって本願発明が制限されることはない。運用・監視システム30、入館管理システム20、及び、管理支援システム50の処理は、処理内容に応じてさらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。
【0194】
また、本実施形態では障害の発生時のアラームを例にして説明したが、災害の発生時に発報されるアラームに対しても自動的にシステムごとの条件と情報を抽出して適用できる。災害とは、例えば、水害、風害、砂嵐、塩害、土砂災害、雪害、雹、雷、震度やマグニチュードが閾値以上の地震、火山の噴火、隕石の落下、太陽活動、テロ、暴動、爆発などである。災害時にサーバの画像や稼動状況などが配信されれば、担当者が初動判断しやすくなる。この場合は、災害発生後の状況変化を判断するため、アラーム後の情報が有効である。