(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6984119
(24)【登録日】2021年11月29日
(45)【発行日】2021年12月17日
(54)【発明の名称】監視装置、監視プログラム、及び監視方法
(51)【国際特許分類】
G06F 11/20 20060101AFI20211206BHJP
G06F 11/07 20060101ALI20211206BHJP
G06F 9/455 20060101ALI20211206BHJP
【FI】
G06F11/20 630
G06F11/07 193
G06F9/455 150
【請求項の数】4
【全頁数】11
(21)【出願番号】特願2016-222342(P2016-222342)
(22)【出願日】2016年11月15日
(65)【公開番号】特開2018-81428(P2018-81428A)
(43)【公開日】2018年5月24日
【審査請求日】2019年8月15日
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】若林 理
(72)【発明者】
【氏名】鈴木 友泰
【審査官】
多胡 滋
(56)【参考文献】
【文献】
特開2006−053728(JP,A)
【文献】
特開2014−067089(JP,A)
【文献】
特開2014−075027(JP,A)
【文献】
国際公開第2011/101887(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/00
G06F 9/455
(57)【特許請求の範囲】
【請求項1】
仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置であって、
前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信する受信手段と、
少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、
前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、
受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段とを有し、
前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行う
ことを特徴とする監視装置。
【請求項2】
前記行動手段は、APIを利用して構成されることを特徴とする請求項1に記載の監視装置。
【請求項3】
仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に搭載されるコンピュータを、
前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信する受信手段と、
少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、
前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、
受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段として機能させ、
前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行う
ことを特徴とする監視プログラム。
【請求項4】
仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に使用する監視方法であって、
受信手段、記憶手段、判定手段、及び行動手段を有し、
前記受信手段は、前記第1の物理マシンから能動的に発信される障害を示す通知であるSNMPトラップを受信し、
前記記憶手段は、少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶し、
前記判定手段は、前記SNMPトラップが受信されると、受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定し、
前記行動手段は、受信した前記SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行し、
前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行う
ことを特徴とする監視方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、監視装置、監視プログラム、及び監視方法に関し、例えば、仮想環境を構成する基盤ソフト(ハイパバイザー)/ハード(物理マシン:PM)を監視する監視装置に適用できる。
【背景技術】
【0002】
近年、サーバ装置(例えば、SIP(Session Initiation Protocol)サーバ)等において、仮想化技術が広く適用されている。仮想化技術は、余剰リソースを有効活用する手法を提供する。仮想化技術の適用により、物理的な構成にとらわれずに、負荷に応じてサーバの機能を実行する仮想マシン(VM)間で動的なリソースの配分を行い、ハードウェアの処理能力を最大限に発揮させる仮想環境が構築される。
【0003】
ところで、仮想環境では、仮想化基盤を構成するハードウェア(PM)の障害が、複数のサービスコンポーネント(仮想マシン)のサービス停止につながる可能性がある。
【0004】
そのため、仮想環境では、ハードウェア障害の発生を監視し、自動でハードウェア障害発生を検出して、障害が発生したPMで動作していた仮想マシンを、別のPMにて復旧(PMヒーリング)する、自動復旧機能が存在する(特許文献1参照)。
【0005】
一般的に、自動復旧機能は、(1)障害の検知(2)障害原因がPMの故障であることの確認(3)壊れたPMの電源の切断(4)予備のPMから一台、復旧用のPMを選択(5)故障したPM上の仮想マシンを復旧用PMに移動(6)仮想マシン上で稼働するべきプログラム類の起動の6つの処理(機能)により実現されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2015−176168号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の監視及び復旧の技術では、主に以下の2つの課題が存在する。
【0008】
第1に、PM間(又はPMと監視装置間)で定期的な情報収集を行って障害を検出するため、監視する仕組み(アクティブ監視)や誤検出の防止が必要となる。第2に、PMの故障(ハードウェア障害)やシステムのダウンを検出してからの処理であるため、障害を事前に検出して復旧を行うことができない。
【0009】
そのため、効率的に仮想化基盤を監視し、障害を検出できる監視装置、監視プログラム、及び監視方法が望まれている。
【課題を解決するための手段】
【0010】
第1の本発明は、仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置であって、(1)前記第1の物理マシンから能動的に発信される障害を示す通知
であるSNMPトラップを受信する受信手段と、
(2)少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、(
3)
前記SNMPトラップが受信されると、
受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、(
4)受信した前記
SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記
SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段とを有し、(
5)前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行うことを特徴とする。
【0011】
第2の本発明の監視プログラムは、仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に搭載されるコンピュータを、(1)前記第1の物理マシンから能動的に発信される障害を示す通知
であるSNMPトラップを受信する受信手段と、
(2)少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶する記憶手段と、(
3)
前記SNMPトラップが受信されると、
受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定する判定手段と、(
4)受信した前記
SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記
SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行する行動手段として機能させ、(
5)前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行うことを特徴とする。
【0012】
第3の本発明は、仮想マシンが動作する第1の物理マシンの障害を監視し、障害を検出すると、前記第1の物理マシン上の仮想マシンを第2の物理マシンに移動させて障害復旧を行う監視装置に使用する監視方法であって、(1)受信手段、
記憶手段、判定手段、及び行動手段を有し、(2)前記受信手段は、前記第1の物理マシンから能動的に発信される障害を示す通知
であるSNMPトラップを受信し、
(3)前記
記憶手段は、少なくとも前記SNMPトラップのID毎に、前記SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータを特定する番号を示すパラメータ番号、前記パラメータ番号に係るパラメータと比較する閾値、前記パラメータ番号に係るパラメータと前記閾値とを比較する際の比較条件、障害の発生頻度を示す発生回数条件、及び条件を満たした場合に実行するアクションを含む予め登録された障害条件を記憶し、(
4)前記判定手段は、
前記SNMPトラップが受信されると、
受信した前記SNMPトラップのIDをキーとして、前記障害条件のデータを探索し、該当する前記障害条件に係るデータが見つかり、且つ受信した前記SNMPトラップに該当する前記パラメータ番号に係るパラメータが含まれている場合、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較し、その比較結果及び前記発生回数条件を満たすか否かにより、前記第1の物理マシンの状態を判定し、(
5)前記行動手段は、受信した前記
SNMPトラップに含まれるパラメータの内、前記パラメータ番号に係るパラメータと、前記閾値とを前記比較条件で比較したときに、前記比較条件を満たし、前記障害条件に前記発生回数条件が設定されていない場合又は前記障害条件に前記発生回数条件が設定されているときには、前記
SNMPトラップ毎の単位時間当たりの障害発生回数をカウントし、当該障害発生回数が前記発生回数条件を満たす場合には、前記障害条件に設定された前記アクションを実行し、(
6)前記行動手段は、前記障害条件に設定された前記アクションが仮想マシンの復旧である場合には、前記第1の物理マシン上の仮想マシンを前記第2の物理マシンに移動させて障害復旧を行うことを特徴とする。
【発明の効果】
【0013】
本発明によれば、効率的に仮想化基盤を監視し、障害を検出できる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る監視装置の機能的構成について示したブロック図である。
【
図2】実施形態に係る監視復旧システムの全体構成例を示すブロック図である。
【
図3】実施形態に係る障害条件の一例を示す図である。
【
図4】実施形態に係る監視復旧システム(監視装置)の動作を示すフローチャートである。
【
図5】実施形態に係る監視装置が、障害の発生を検出したPM上で動作していた仮想マシンを復旧するイメージを示す図である。
【
図6】実施形態に係るSNMPトラップの具体例を基に、
図4の動作を説明する図である。
【発明を実施するための形態】
【0015】
(A)主たる実施形態
以下では、本発明の監視装置、監視プログラム、及び監視方法の実施形態を、図面を参照しながら詳細に説明する。
【0016】
(A−1)実施形態の構成
(A−1−1)全体構成
図2は、実施形態に係る監視復旧システムの全体構成例を示すブロック図である。
【0017】
図2において、監視復旧システム1は、監視装置2と、3台の物理マシン(PM)3(3−1〜3−3)とを有して構成される。勿論、PM3の数は、限定されるものでは無い。また、監視装置2及びPM3は、ネットワークNに接続している。ネットワークNの通信方式については限定されないものであるが、例えば、IP通信網等を適用することができる。なお、この実施形態では、監視装置2が、SNMP(Simple Network Management Protocol)プロトコルを用いて、監視対象であるPM3を監視する例を示すが、これに限定するものでは無く、種々様々なプロトコルを用いることができる。
【0018】
監視装置2は、PM3(仮想環境を構成するハイパバイザー31を含む)の障害を示すSNMPトラップを監視し、障害を検出すると、予め設定された復旧動作を実行する。
【0019】
PM3は、コンピュータを仮想化した仮想マシン(VM)32を動作させて、ユーザに対して各種のサービスを提供する装置であり、例えば、サーバコンピュータである。PM3は、サーバ仮想化プログラムを実行することによって、ハイパバイザー31上で複数の仮想マシン32を動作させる。
【0020】
(A−1−2)監視装置2の詳細な構成
図1は、実施形態の監視装置の構成を示すブロック図である。
【0021】
図1において、監視装置2は、トラップ受信部21及びPMヒーリング・自動復旧部22を有して構成される。
【0022】
トラップ受信部21は、監視対象であるPM3からのSNMPトラップを受信するものである。トラップ受信部21は、受信したSNMPトラップ情報をPMヒーリング・自動復旧部22に通知する。通知する情報は、例えば、SNMPトラップを識別する「トラップID」と、SNMPトラップで通知された詳細情報を示す「パラメータ」等である。
【0023】
PMヒーリング・自動復旧部22は、実行条件判定部23、保守者通知部24及びVM復旧部25を有して構成される。
【0024】
実行条件判定部23は、トラップ受信部21から通知されたSNMPトラップ情報と、予め設定された自動復旧の実行条件(障害条件T)との比較判定を行う。
図3は、実施形態に係る障害条件の一例を示す図である。
図3において、障害条件Tは、SNMPトラップを識別するID(snmpTrap OID)を示す「トラップID」と、SNMPトラップに含まれるパラメータの内、条件判定に用いるパラメータの番号を示す「パラメータ番号」と、パラメータ番号の判定に用いる閾値を示す「閾値」と、閾値に対する判定を行う条件(一致、不一致、以上、未満)を示す「条件」と、単位時間あたりの発生回数を示す「発生回数」と、条件一致時に実行するアクション(自動復旧、停止、保守者通知等)を示す「アクション」の項目を有する。
【0025】
実行条件判定部23は、受信したSNMPトラップ情報のトラップIDをキーとして、障害条件Tに合致するデータが存在するか否か探索する。例えば、通知されたトラップIDが0001の場合には、障害条件Tの1行目のデータ(「トラップID」の項目が0001のデータ)が合致するデータとなる。次に、実行条件判定部23は、受信したSNMPトラップ情報のパラメータ中、指定された箇所(「パラメータ番号」)の値を、「閾値」、「条件」、「発生回数」の項目に従って、比較する。例えば、受信したトラップIDが0001の場合には、受信したパラメータの内、2番目のパラメータの値が、閾値(100)と一致し、且つ同じ通知が30秒の内、10回発生していれば、障害と判定される。なお、
図3の障害条件Tの内、2〜4行目のデータの「発生回数」は、設定されておらず、「閾値」と「条件」の項目のみによって判定される。また、変形例として、トラップIDが異なるSNMPトラップを複数受信した場合に、PM3の故障と判定しても良い。なお、
図3に示す障害条件Tの設定は一例であって、判定を行うパラメータの番号(位置)、判定閾値、一致/不一致/大小などの比較条件は予め自由に設定することができる。
【0026】
実行条件判定部23によって、条件に合致したと判定されると、後述する保守者通知部24又はVM復旧部25によって、指定された「アクション」が実行される。
【0027】
保守者通知部24は、システムを管理する保守者に通知を行う機能部である。保守者への通知手段は種々様々な手段を用いることができるが、例えば、監視装置2の表示画面にPM3の故障(又は故障の兆候)が発生した旨を示す画面を表示しても良いし、保守者のコンピュータ、スマートフォン、タブレット端末等に障害内容を記載した電子メールを送信しても良い。
【0028】
VM復旧部25は、障害が起きたPM3上で動作していたVM32の復旧処理を行う機能部である。VM復旧部25の復旧処理についてはAPI(Application Programming Interface)を利用して実行されるが、詳細については、後述する動作の項で述べる。
【0029】
(A−2)実施形態の動作
次に、以上のような構成を有する実施形態の監視復旧システム1の動作を説明する。
【0030】
図4は、実施形態に係る監視復旧システム(監視装置)の動作を示すフローチャートである。
【0031】
監視装置2(トラップ受信部21)は、PMマシン3(
図2の例では、PMマシン3−2)からSNMPトラップを受信すると、受信したSNMPトラップの情報(トラップIDと、パラメータ等)を、PMヒーリング・自動復旧部22(実行条件判定部23)に通知する(S101)。
【0032】
PMヒーリング・自動復旧部22(実行条件判定部23)は、受信したSNMPトラップ(トラップID)が、障害条件Tに含まれているか探索する(S102)。実行条件判定部23は、トラップIDが障害条件Tに含まれていれば、次の処理を行い、含まれていなければ、判定処理を終了する。
【0033】
実行条件判定部23は、受信したSNMPのパラメータの数が、障害条件Tのパラメータ番号(トラップIDをキーとして探索したデータのパラメータ番号)以上か否か判定する(言い換えれば、障害条件のパラメータ番号に対応する受信パラメータが存在するか否か判定する)(S103)。実行条件判定部23は、受信したSNMPのパラメータの数が、障害条件Tのパラメータ番号以上であれば、次の処理を行い、条件を満たさなければ、判定処理を終了する。
【0034】
実行条件判定部23は、障害条件Tの該当データのパラメータ番号に対応する(位置する)受信トラップのパラメータが、障害条件Tの閾値及び条件に合致するか否か判定する(S104)。実行条件判定部23は、該当位置の受信パラメータが障害条件Tの閾値及び条件に合致すれば、次の処理を行い、合致しなければ、判定処理を終了する。
【0035】
実行条件判定部23は、障害条件Tの該当データに発生回数が設定されているか判定する(S105)。実行条件判定部23は、障害条件Tの該当データに発生回数が設定されていれば、次の処理を行い、設定されていなければ、後述するステップS108の処理を実行する。
【0036】
実行条件判定部23は、障害発生の回数を更新する(S106)。なお、障害発生の回数の管理の仕方は限定されないものであるが、例えば、実行条件判定部23は、PM3(3−1〜3−3)毎に所定のトラップIDの障害発生回数を、単位時間あたりにカウントするカウンタにより管理しても良い。
【0037】
実行条件判定部23は、先述のステップS106の処理により更新された障害発生の回数が、障害条件Tの該当データの発生回数と合致するか否か判定する(S107)。実行条件判定部23は、障害条件Tの該当データに合致されていれば、次の処理(ステップS108の処理)を行い、合致しなければ、処理を終了する。
【0038】
PMヒーリング・自動復旧部22(保守者通知部24、VM復旧部25)は、最終的に障害条件に合致したと判定されると(障害を検出したとされると)、障害条件Tの該当データに係るアクションを実行する(S108)。例えば、障害条件Tの該当データのアクションがVM復旧だった場合には、VM復旧部25は、自動復旧処理を行う。
図5は、実施形態に係る監視装置が、障害の発生を検出したPM上で動作していた仮想マシンを復旧するイメージを示す図である。まず、VM復旧部25は、PMサービス停止APIを起動して、障害の発生を検出したPM3−2の電源を切断する。次に、VM復旧部25は、仮想マシン復旧APIを起動して、故障したPM3−2上の仮想マシン(VM#3、VM#4)を、復旧用PM3−3に移動する(例えば、ストレージングデバイスに記憶されたVM#3、VM#4のバックアップデータをコピーする)。そして、VM復旧部25は、仮想マシン起動APIを起動して、VM上で稼働するべきプログラム類の起動を行う(運用系の状態にする)。
【0039】
図6は、実施形態に係るSNMPトラップの具体例を基に、
図4の動作を説明する図である。
図6(A)は、PM3−2から受信したトラップ情報の具体例を示す図である。また、
図6(B)は、先述の障害条件Tを示す図である。監視装置2(実行条件判定部23)は、PM3−2から
図6(A)のSNMPトラップを受信すると、トラップIDが「0001」であるので、障害条件Tの先頭データがヒットする(S102)。実行条件判定部23は、ヒットした先頭データのパラメータ番号である「2」と、受信したSNMPトラップのパラメータ数(2)とを比較して、2番目のパラメータが存在することを判定する(S103)。実行条件判定部23は、受信したSNMPトラップの2番目のパラメータ値(2)が閾値(100)と一致することを判定する(S104)。実行条件判定部23は、障害条件Tの先頭データには発生回数が設定されていることを判定する(S105)。発生回数の条件が満たされ
ていれば(S106)、先に説明した通り、VM復旧部25が自動復旧処理を行う(S108)。
【0040】
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0041】
監視装置2側からの定期的な監視が不要となり、パッシブ型の監視が可能となった。また、障害監視には、汎用的なSNMPトラップを監視及び故障検出に使用することで、ハイパバイザーに特化した監視機能を独自に持つ必要がなくなった。さらに、PMヒーリング・自動復旧部22は、SNMPトラップに含まれるパラメータ(詳細内容)についても評価を行う対象とすることで、確実な障害検出を行い、誤検出を防止することができる。なお、評価を行う条件(障害条件T)は、ユーザが自由に予め設定できるため、環境や提供するサービスに応じた監視を行うことができる。
【0042】
PMヒーリング・自動復旧部22が、SNMPトラップ単位の監視とパラメータの判定を行うことで、細かいアクションの設定ができる。例えば、通知内容が致命的障害ではないが、予防が必要な障害については、発生頻度などの条件を登録することでアクションを行うことができる。実行するアクション自体についても、自動復旧、停止、通知等の中からユーザが自由に設定することができる。
【0043】
そして、この実施形態では、先述の
図5で説明した通り、監視装置2が、VMを復旧する処理をAPIとして提供することにより、仮想環境独自の仕様に依存しないで、障害が発生したPMを停止したり、停止したPM上のVMを復旧用のPMに移動したり、VMの復旧処理が行えることになった。
【符号の説明】
【0044】
1…監視復旧システム、2…監視装置、3…物理マシン、21…トラップ受信部、22…自動復旧部、23…実行条件判定部、24…保守者通知部、25…VM復旧部、31…ハイパバイザー、32…仮想マシン、N…ネットワーク、T…障害条件。