(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0020】
次に、本発明を実施するための形態(以下、本実施形態と称する。)における、通信確認・通信断箇所特定装置10について説明する。
【0021】
≪適用領域≫
まず、本実施形態に係るサーバ仮想化環境の適用領域について説明する。
図2に示すように、L2(layer 2)・L3(layer 3)装置により構成される転送系ネットワーク内における、仮想マシン(VM50)および物理サーバ40間のL2/L3レベルの通信正常性確認、通信故障箇所特定、即ち、仮想マシン(VM50)および物理サーバ40のネットワーク構成管理、並びに、論理ネットワークおよび物理ネットワークの故障管理が、本実施形態に係る通信確認・通信断箇所特定装置10の適用領域となる。
【0022】
図2に示すように、1つの物理サーバ40上には、1つ以上のVM50が設定される場合と、VM50が設定されず、従来の非仮想化の形態をとる場合があってもよく、また、複数の物理サーバ40が1つのエンクロージャー(筺体)として構成されていてもよい。そして、各VM50や物理サーバ40は、同一VLAN(Virtual LAN)内を接続するL2SW(L2スイッチ)20に接続され、さらに、VLAN同士は、各VLAN(
図2では、VLAN-αとVLAN-β)のL2SW20に接続されるL3SW(L3スイッチ)30を介して通信接続される。通信確認・通信断箇所特定装置10は、同一論理NWスライスで構成される、各VM50間、VM50とVM50が設定されていない物理サーバ40と間、若しくは、VM50が設定されていない各物理サーバ40間(以下、これらをまとめて「仮想マシン・物理サーバ間」と称する場合がある。)の通信正常性確認と、通信断(通信故障)箇所特定を実行する。
【0023】
また、本実施形態に係るサーバ仮想化環境は、
図3に示すように、複数のDC(データセンタ)が、各DC(
図3では、DC-A、DC-B、DC-C)内のL3SW30により、専用線6やNGN(Next Generation Network)網7を介して通信接続されていてもよい。つまり、同一DC拠点であっても、マルチDC拠点であっても適用可能である。
なお、本実施形態に係る通信確認・通信断箇所特定装置10は、L3SW30配下のL2SW20等では、物理ケーブル配線やスイッチポート設定誤り等により限定された故障箇所範囲を特定可能であり、L3SW30間においては、任意の2つのL3SW30間が専用線6やNGN網7を介する場合や経由経路が複数パターン存在する場合には、1通信区間とみなし、そのみなし通信区間の正常性確認のみ可能となる。一方、2つのL3SW30の間が1パターンの経由経路で通常の物理ケーブル線でつながる場合は、L2SW20同様物理ケーブル配線やスイッチポート設定誤り等により限定された故障箇所範囲を特定可能である。
【0024】
≪概要≫
次に、本実施形態に係る通信確認・通信断箇所特定装置10が実行する処理の概要について説明する。
図4は、本実施形態に係る通信確認・通信断箇所特定装置10を含むシステムの全体構成と処理概要を説明するための図である。なお、
図4においては、VLAN-αとVLAN-βとが、1つのL3SW30を介して接続する例を示している。
【0025】
通信確認・通信断箇所特定装置10は、物理サーバ40上に設定された各VM50や、VM50が設定されていない物理サーバ40との間で、制御信号やその応答信号を送受信するために通信接続される(
図4の破線で例示する「Cプレーン」(制御機能))。また、通信確認・通信断箇所特定装置10の制御信号等に基づきping等の正常性確認のための信号が、各VM50間や、VM50と物理サーバ40と間で送受信される(
図4の実線で例示する「Dプレーン」(データ転送機能))。
また、通信確認・通信断箇所特定装置10は、VM50の生成や削除、VM50の電源のON/OFF、VM50の再配置等を管理する仮想インフラマネージャ(VIM:Virtualized Infrastructure Manager)60と接続される。
【0026】
この通信確認・通信断箇所特定装置10は、仮想インフラマネージャ(VIM)60から、VM50の生成、削除、再配置等のイベント情報を取得し、各スイッチや仮想マシン(VM50)、物理サーバ40の構成情報(後記する、メンバ構成情報テーブル100(
図7参照)およびメンバ状態管理テーブル200(
図8参照))を生成・更新する。そして、通信確認・通信断箇所特定装置10は、定期的(所定の時間間隔)または不定期的(新たなVM50の生成時やVM50の再配置時)に各通信区間の通信正常性を確認する。さらに、通信確認・通信断箇所特定装置10は、通信確認結果およびメンバ構成情報に基づき、通信断(通信故障)箇所を特定する。また、通信確認・通信断箇所特定装置10は、各通信区間の正常性が確認できた通信区間(
図4において「〇」で示す通信区間)、および、通信断(通信故障)の発生を推定する通信区間(
図4において「×」で示す通信区間)を、表示手段に画面表示(可視化)すると共に、故障タイプ(ソフトウェアの設定誤り、物理的な故障等)別に故障箇所の復旧方法もあわせて表示することを特徴とする。なお、詳細は後記する。
【0027】
≪通信確認・通信断箇所特定装置≫
次に、通信確認・通信断箇所特定装置10について詳細に説明する。
図5は、本実施形態に係る通信確認・通信断箇所特定装置10の構成例を示す機能ブロック図である。
通信確認・通信断箇所特定装置10は、仮想化環境のサーバ・NW構成において、各通信区間の通信正常性確認を、従来の網羅的な(全通りの)メンバ間の通信正常性確認の組み合わせ数に比べ、より削減した(なるべく少ない数の)通信確認組み合わせ数で実行する。また、通信確認・通信断箇所特定装置10は、通信断(通信故障)検出時に、通信確認組み合わせの各通信確認結果をマージし、より少ない(なるべく少ない数の)再送通信確認組み合わせで通信正常性の確認を行うことで、通信断発生箇所候補を局所的に絞り込み、その結果を表示手段に表示する。さらに、通信確認・通信断箇所特定装置10は、通信断(通信故障)の故障タイプ(ソフトウェアの設定誤り、物理的な故障等)を判定し、通信断発生箇所の通信区間に応じた復旧方法を表示手段に表示する。
この通信確認・通信断箇所特定装置10は、制御部11と、記憶部12と、通信部13と、入出力部14とを備える。
【0028】
通信部13は、ネットワーク内のVM50や物理サーバ40との間や、仮想インフラマネージャ(VIM)60等との間で、情報の送受信を行う通信インタフェースにより構成される。通信部13は、外部の装置等から情報を受信すると、その情報を制御部11に引き渡す。また、通信部13は、制御部11内で生成された情報等を外部の装置に向けて送信する。
【0029】
入出力部14は、不図示のキーボード等の入力手段やモニタ等の表示手段等との間で入出力を行う入出力インタフェースにより構成される。特に、入出力部14は、制御部11が生成した、通信正常性確認結果や、通信断箇所、復旧方法を示す情報等を、表示手段に出力する。
【0030】
記憶部12は、ハードディスクやフラッシュメモリ、RAM(Random Access Memory)等により構成される。
この記憶部12には、メンバ構成情報テーブル100(
図7参照)、メンバ状態管理テーブル200(
図8参照)、故障タイプ別復旧方法テーブル300(
図46参照)等が記憶される。なお、記憶部12に記憶される情報の詳細は後記する。
【0031】
制御部11は、通信確認・通信断箇所特定装置10が実行する処理の全般を司り、メンバ構成情報保存部111、通信状態確認実行部112、通信断発生箇所特定部115および通信状態可視化部116を含んで構成される。なお、この制御部11は、例えば、この通信確認・通信断箇所特定装置10の記憶部12に格納されたプログラム(通信確認・通信断箇所特定プログラム)をCPU(Central Processing Unit)がRAMに展開し実行することにより実現される。
【0032】
<メンバ構成情報保存部>
メンバ構成情報保存部111は、L2SW20やL3SW30等のNW装置、物理サーバ40、NW装置や仮想マシン(VM50)のポートやIP(Internet Protocol)アドレス、VLAN情報等を、仮想インフラマネージャ(VIM)60やネットワーク監視装置(図示省略)等から取得し、記憶部12に保存する。メンバ構成情報保存部111は、NW装置や物理サーバ40の接続関係、仮想マシン(VM50)の配置先物理サーバ、各ポートに対応する割当IPアドレス、VLAN情報等を管理するために、メンバ構成情報テーブル100(
図7参照)およびメンバ状態管理テーブル200(
図8参照)を、最新の状態に更新する。
【0033】
ここで、同一論理NWスライスでのネットワーク構成が、
図6に示すような場合を例に、メンバ構成情報テーブル100およびメンバ状態管理テーブル200について説明する。
図6に示すように、VLAN-10とVLAN-20とは、1つのL3SW30(L3−1)を介して接続される。また、各メンバのポート情報が
図6に示すものであるとする。なお、ここで「メンバ」とは、1または複数の論理NWスライスにおいてネットワーク構成する、NW装置(L2SW,L3SW)、物理サーバ、仮想マシン(VM)、APを意味する。また、
図6において、VLAN-10の「SM-1」として記載した「SM」は、エンクロージャーが備えるSWモジュール(L2SW)を表わしている。
【0034】
図7は、本実施形態に係るメンバ構成情報テーブル100のデータ構成例を示す図である。
図7は、
図6に示すネットワーク構成の各メンバのデータを例示している。
このメンバ構成情報テーブル100には、各メンバのポート識別子101に対応付けて、装置・AP識別子102、接続先親ポート識別子103、並列関係にある接続先ポート識別子104、割当IPアドレス105、所属VLANリスト106が格納される。
【0035】
ここで、ポート識別子101には、各ポートの識別子が格納される。例えば、1行目に示すように、「AP-1」のポートのポート識別子101として「AP-1-eth0」が格納される。
装置・AP識別子102には、ネットワーク内の各メンバを一意に特定するための識別子が格納される。例えば、1行目に示すように、APの識別子として「AP-1」が格納される。
【0036】
接続先親ポート識別子103には、ポート識別子101で示されるポートに対向するポートの識別子が格納される。ここでは、ポート識別子101の上位レイヤ側(親側)のポート識別子を格納するものとする。例えば、ポート識別子101が「AP-1-eth0」に対向するポートして、「VM-1」のポートの識別子「VM-1-eth0」が格納される。
【0037】
並列関係にある接続先ポート識別子104には、並列関係(後記する同一レイヤ)にあるメンバのポートにおいて、基点するポートからみて、所定方向に隣接する位置にあるメンバの対向するポート識別子が格納される。例えば、
図6に示す「L2-1」を基点として、「L2-1」のポート識別子「L2-1-eth1」に対向する(
図6においては並列関係にある右側)の「L2-2」のポート識別子「L2-2-eth0」が格納される。
【0038】
割当IPアドレス105には、APのポート識別子に割り当てられるIPアドレスが格納される。例えば、1行目に示すように、ポート識別子101で示されるポート「AP-1-eth0」に割り当てられるIPアドレスとして「192.168.0.2/24」が格納される。
【0039】
所属VLANリスト106には、そのメンバのポート識別子101で示されるポートが属するVLANの識別子が格納される。例えば、1行目に示すように、ポート識別子101で示されるポート「AP-1-eth0」が属するVLANの識別子として「10」が格納される。なお、
図7においては、各ポートは、1つのVLANに属する例を示しているが、あるポートが複数のVLANに属する場合には、所属する複数のVLANの識別子がリストとして所属VLANリスト106に格納される。
【0040】
図8は、本実施形態に係るメンバ状態管理テーブル200のデータ構成例を示す図である。
メンバ状態管理テーブル200には、装置・AP識別子201に対応付けて、装置・AP種別202および起動状態203が格納される。
装置・AP識別子201は、メンバ構成情報テーブル100の装置・AP識別子102と同じ情報である。
装置・AP種別202には、装置・AP識別子201に示されるメンバの種別が、例えば、「Application(AP)」「Virtual Machine(VM)」「Physical Server(物理サーバ)」「Enclosure SW Module(SM)」「L2SW」「L3SW」等として格納される。
起動状態203には、装置・AP識別子201で示されるメンバの起動の状態が「Active」または「Non-Active」(不図示)として格納される。
【0041】
<通信状態確認実行部>
図5に戻り、通信状態確認実行部112は、通信状態を確認したい通信区間に対応して通信確認組み合わせを生成し、例えば、pingコマンドを実行することにより通信区間の通信正常性確認を行う。
ここでは、
図9に示すネットワークにおいて通信区間を、上位レイヤから順に、L3SW間、L3SW―L2SW間、並列のL2SW間、親と配下のL2SW間、L2SW―物理サーバ間、物理サーバ―仮想マシン間、物理サーバ―システム間(非仮想化システムの場合)と分類し、以下において説明を行う。なお、本実施形態において並列関係とは、上記分類における同一レイヤに属し、メンバ同士が接続されている関係をいう。
【0042】
また、通信状態確認実行部112は、定期通信確認部113と、不定期通信確認部114とを備える(
図5参照)。
定期通信確認部113は、
図9に示すように、ネットワークの各通信区間のすべてについて、定期的に(所定の時間間隔で)通信正常性確認を行う。
不定期通信確認部114は、仮想マシン(VM50)の生成や再配置等のイベント発生に伴い局所的な通信区間の通信正常性確認を行う。
図9においては、VLAN-βの物理サーバ上に新たなVM50(「VM-8」)が生成され、生成された新たなVM50とL3SW30との間の局所的な通信正常性確認を、不定期通信確認部114が行う例を示している。
以下、定期通信確認部113および不定期通信確認部114について、具体的に説明する。
【0043】
〔定期通信確認部〕
定期通信確認部113は、同一論理NWスライスにおける各通信区間の通信正常性を確認するため、記憶部12(
図5参照)内のメンバ構成情報テーブル100(
図7)およびメンバ状態管理テーブル200(
図8)を参照し、メンバ状態管理テーブル200の起動状態203が「Active」である各メンバ間の通信区間の通信正常性を確認する。
このとき、定期通信確認部113は、論理通信区間のすべてを確認するために、より少ない(なるべく少ない数の)メンバ間の通信確認組み合わせを、後記する「全論理通信区間の通信組み合わせ生成手法」に基づき生成し、通信状態を確認したい仮想マシン(VM50)や物理サーバ40に通信確認要求(ping)を送り、その通信確認結果を取得する。
【0044】
例えば、定期通信確認部113は、
図10に示すネットワーク構成の例において、「VM-1」〜「VM-9」の間の論理区間について、従来の手法により、各通信区間の通信正常性確認を全通りのメンバ間の通信正常性確認の組み合わせにより行うとすると、
9C
2=36通りの組み合わせが必要となる。
これに対し、定期通信確認部113は、全論理通信区間の通信組み合わせ生成手法に基づき、メンバ間の通信確認組み合わせを生成することにより、
図10に示す例のように、「VM−2」―「VM-8」、「VM-3」―「VM-5」、「VM-1」―「VM-6」、「VM-4」―「VM-7」、「VM-9」―物理サーバ「5」の5通りで、すべての論理通信区間の通信正常性確認を行うことができる。なお、この全論理通信区間の通信組み合わせ生成手法は、上位レイヤの通信区間から順に、未確認の通信区間が多いAP同士を優先的に選択することにより、より少ない通信確認組み合わせ数で、すべての論理通信区間を経由する組み合わせを生成する手法であり、詳細は後記する
図12を参照して説明する。
【0045】
また、定期通信確認部113は、通信確認組み合わせ数をさらに抑えるために、例えば、夜間等であり、各スイッチ、APでのソフトウェア面の設定誤りを故障原因とする通信断が発生しにくい時間帯には、物理通信区間を網羅的に確認するための通信確認組み合わせのみで通信正常性確認を行ってもよい。この場合、定期通信確認部113は、物理サーバやスイッチ間の接続線、NW装置やサーバ故障等の物理的な故障のみを検知する。
【0046】
定期通信確認部113は、後記する「全物理通信区間の通信組み合わせ生成手法」に基づき、より少ない(なるべく少ない数の)メンバ間の通信確認組み合わせ数で、各物理通信区間の通信正常性確認を行うことができる。
図11に示す例のように、「VM-2」―「VM-8」、「VM-3」―「VM-5」、「VM-6」―物理サーバ「5」の3通りで、すべての物理通信区間の正常性確認を行うことができる。なお、この全物理通信区間の通信組み合わせ生成手法は、通信状態の確認対象となる物理通信区間について、従来の手法による各物理通信区間の網羅的な組み合わせによる通信正常性確認に比べ、より少ない通信確認組み合わせ数ですべての物理通信区間を経由する組み合わせを生成し通信正常性を確認する手法であり、詳細は後記する
図24を参照して説明する。
【0047】
次に、定期通信確認部113が実行する、「全論理通信区間の通信組み合わせ生成手法」と「全物理通信区間の通信組み合わせ生成手法」について詳細に説明する。
【0048】
(全論理通信区間の通信組み合わせ生成手法)
まず、全論理通信区間の通信組み合わせ生成手法(通信確認組み合わせ生成処理)について説明する。
定期通信確認部113は、通信確認組み合わせ数をより少なくした上で、すべての論理通信区間の通信状態を確認するため、基本的なロジックとして、上位レイヤから順に未確認の通信区間(以下、「未確認通信区間」と称する。)を特定し、その特定した未確認通信区間を経由した上で、他の未確認通信区間の通信ホップ数が最も大きいAP同士の通信を優先的に通信確認リストに登録していく。
【0049】
図12は、本実施形態に係る定期通信確認部113が実行する全論理通信区間の通信確認組み合わせ生成処理の流れを示すフローチャートである。
まず、定期通信確認部113は、通信正常性確認を行うネットワークにおける、L3SWレイヤの通信区間の確認を行う。
ここで、定期通信確認部113は、すべてのL3SW間の物理通信区間が確認済みか否かを判定する(ステップS10)。なお、L3SW間の通信経路が複数パターンある場合や、専用線・NGN網を跨ぐ場合(
図3参照)には、該当する最短のL3SW間を「1通信区間」とみなす。
ステップS10において、すべてのL3SW間の物理通信区間が確認済みでない場合、つまり、まだ確認していないL3SW間の物理通信区間がある場合には(ステップS10→No)、ステップS11に進む。一方、すべてのL3SW間の物理通信区間を確認済みの場合は(ステップS10→Yes)、ステップS12に進む。
【0050】
ステップS11において、定期通信確認部113は、未確認のL3スイッチ通信区間を最も多く含むL3SWの両端点から、下位レイヤの未確認通信区間を経由し、未確認通信区間の通信ホップ数が最も大きいAP同士を優先的に選択し、通信確認リストに追加する。この通信確認リストは、後記する
図23(a)に示すように、定期通信確認部113が通信区間の正常性を確認するために選択した、あるAPと他のAPとの組み合わせが登録されるリストであり、通信確認・通信断箇所特定装置10の記憶部12(
図5参照)に保持される。
ここで、定期通信確認部113は、メンバ状態管理テーブル200(
図8)を参照し、起動状態203が「Active」のメンバのみを、通信確認対象とする。なお、未確認通信区間の数が同じ場合は、経路ホップ数が少ないAP同士を優先的に選択する。また、通信確認リストに追加した後、選択したAP間の経路上の通信区間を確認済状態とし、未確認通信区間から除外して、以降の処理を進める(以下、同様である。)。
また、ステップS11を終えると、ステップS10に戻り、すべてのL3SW間の物理通信区間が確認できた場合に(ステップS10→Yes)、ステップS12に進む。
【0051】
ステップS12以降は、L2SWレイヤより下位のレイヤの通信区間確認を行うが、L2レイヤより下位では、VLAN毎にAP間の通信区間の正常性確認を行う。
まず、定期通信確認部113は、各VLANの論理通信区間をすべて確認済みか否か判定する(ステップS12)。ここで、まだ確認していないVLANの論理通信区間がある場合には(ステップS12→No)、まだ確認していないVLANのうちの1つを選択してステップS13に進む。一方、各VLANの論理通信区間がすべて確認済みである場合には(ステップS12→Yes)、定期通信確認部113は、全論理通信区間の通信確認組み合わせ生成処理を終える。
なお、ここでは、VLAN毎に対応する論理通信区間が存在すると仮定する。したがって、同一物理通信区間に複数の論理通信区間が存在することもあり得る。
【0052】
ステップS13において、定期通信確認部113は、上位レイヤから順に未確認通信区間が存在するか否かを判定する。そして、定期通信確認部113は、未確認通信区間が存在しない場合には(ステップS13→No)、ステップS12に戻り処理を続ける。一方、定期通信確認部113は、未確認通信区間が存在する場合には(ステップS13→Yes)、ステップS14に進む。
【0053】
ステップS14において、定期通信確認部113は、ステップS13においてその存在を特定した未確認通信区間(以下、「特定未確認通信区間」と称する場合がある。)が並列関係にあるか否かを判定する。そして、並列関係にない場合には(ステップS14→No)、ステップS15に進み、並列関係にある場合には(ステップS14→Yes)、ステップS16に進む。
【0054】
ステップS15において、定期通信確認部113は、対象とする特定未確認通信区間の両端点それぞれから、下位レイヤの未確認通信区間を経由し、未確認通信区間の通信ホップ数が最も大きいAP同士を優先的に選択し、通信確認リストに追加する。そして、ステップS13に戻り処理を続ける。
【0055】
また、ステップS16において、定期通信確認部113は、対象とする特定未確認通信区間において、その特定未確認通信区間を含み、未確認通信区間数が最大となるような並列関係にある通信区間の両端点から、下位レイヤの未確認通信区間を経由し、未確認通信区間の通信ホップ数が最も大きいAP同士を優先的に選択し、通信確認リストに追加する。そして、ステップS13に戻り処理を続ける。
【0056】
このようにすることにより、定期通信確認部113は、全論理通信区間の通信確認組み合わせを、通信確認リストとして生成することができる。
以下、上記の処理ステップの具体例を、
図13〜
図21を参照して例示する。なお、
図13〜
図21に示す例では、L3SW30として「L3-1」と「L3-2」とが存在し、L3-1側にはVLAN-α、L3-2側にはVLAN-βが設定されているものとする。
【0057】
図13〔手順1〕は、
図12のステップS11において、定期通信確認部113が、未確認のL3SWの通信区間を最も多く含むL3SWの両端点として「L3-1」と「L3-2」とを選び、両端点から未確認通信区間の通信ホップ数が最も大きいAP同士として、「AP-2」と「AP-11」の組を選択したことを示している。これにより、定期通信確認部113は、通信確認リストに「AP-2」―「AP-11」を追加する。
なお、以降の図において、太実線で示すAP間が、通信確認要求(ping)が経由する通信区間、つまり、通信状態の確認済となる通信区間を意味する。
【0058】
次に、定期通信確認部113は、すべてのL3SW間の物理通信区間の確認を終えたので(
図12のステップS10→Yes)、VLAN毎の論理通信区間の確認に移行する。そして、定期通信確認部113は、まず、VLAN-αにおいて、上位レイヤから順に未確認通信区間が存在するか否かを判定して、
図14〔手順2〕に示すように、並列のL2SW間のレイヤに存在する「L2−1」と「L2−2」との間の未確認通信区間を特定未確認通信区間として抽出する(ステップS13)。なお、以降の図において、抽出した特定未確認通信区間を矩形内に斜線を付して記載している。また、通信状態の確認済みとなる通信区間についてドットを付して示している。この特定未確認通信区間は並列関係にあるため(ステップS14→Yes)、ステップS16に進み、定期通信確認部113は、特定未確認通信区間を含み、未確認通信区間数が最大となるような並列関係にある通信区間の両端点として、「L2-1」と「L2-2」とを選び、両端点から未確認通信区間の通信ホップ数が最も大きいAP同士として、「AP-1」と「AP-5」の組を選択する。これにより、定期通信確認部113は、通信確認リストに「AP-1」―「AP-5」を追加する。
【0059】
次に、定期通信確認部113は、ステップS13に戻り、VLAN-αにおいて、上位レイヤから順に未確認通信区間が存在するか否かを判定して、
図15〔手順3〕に示すように、親と配下のL2SW間のレイヤに存在する「L2-3」と「L2-7」との間の未確認通信区間を特定未確認通信区間として抽出する(ステップS13)。この特定未確認通信区間は並列関係にないため(ステップS14→No)、ステップS15に進み、定期通信確認部113が、この特定未確認通信区間の両端点から、未確認通信区間の通信ホップ数が最も大きいAP同士として、「AP-7」と「AP-9」との組を選択したことを示している。これにより、定期通信確認部113は、通信確認リストに「AP-7」―「AP-9」を追加する。
【0060】
以下、同様に、全論理通信区間の通信組み合わせ手法の〔手順4〕において、定期通信確認部113は、
図16に示すように、さらに下位レイヤに存在する特定未確認通信区間として「L2-7」と「S-6」との間の未確認通信区間を抽出し、通信確認リストに「AP-8」―「AP-10」を追加する。
【0061】
次に、
図17に示す全論理通信区間の通信組み合わせ手法の〔手順5〕において、定期通信確認部113は、さらに下位レイヤに存在する特定未確認通信区間として「S-2」と「VM-2」との間の未確認通信区間を抽出し、通信確認リストに「AP-3」―「AP-4」を追加する。
【0062】
次に、
図18に示す全論理通信区間の通信組み合わせ手法の〔手順6〕において、定期通信確認部113は、特定未確認通信区間として「S-3」と「VM-5」との間の未確認通信区間を抽出し、通信確認リストに「AP-5」―「AP-6」を追加する。
【0063】
次に、
図19に示す全論理通信区間の通信組み合わせ手法の〔手順7〕において、定期通信確認部113は、VLAN-αについては、すべての論理通信区間を確認済状態とし、未確認通信区間から除外したため、まだ処理を行っていないVLAN-βについて、処理を進める。ここで、定期通信確認部113は、上位レイヤから順に未確認通信区間が存在するか否かを判定して(ステップS13)、特定未確認通信区間として「L2-4」と「L2-5」との間の未確認通信区間を抽出し、通信確認リストに「AP-14」―「AP-16」を追加する。
【0064】
次に、
図20に示す全論理通信区間の通信組み合わせ手法の〔手順8〕において、定期通信確認部113は、さらに下位レイヤに存在する特定未確認通信区間として「S-7」と「VM-9」との間の未確認通信区間を抽出し、通信確認リストに「AP-12」―「AP-13」を追加する。
【0065】
次に、
図21に示す全論理通信区間の通信組み合わせ手法の〔手順9〕において、定期通信確認部113は、特定未確認通信区間として「S-8」と「VM-12」との間の未確認通信区間を抽出し、通信確認リストに「AP-14」―「AP-15」を追加する。
【0066】
このようにすることで、定期通信確認部113は、通信確認リストに、「AP-2」―「AP-11」、「AP-1」―「AP-5」、「AP-7」―「AP-9」、「AP-8」―「AP-10」、「AP-3」―「AP-4」、「AP-5」―「AP-6」、「AP-14」―「AP-16」、「AP-12」―「AP-13」、「AP-14」―「AP-15」の9通りの通信確認組み合わせを登録する。そして、定期通信確認部113は、通信確認リストに登録した通信確認組み合わせの情報に基づき、仮想マシン(VM50)や物理サーバ40上のAPに対して、通信確認要求(ping)の指示情報を送り、その通信確認結果を取得する。
【0067】
次に、定期通信確認部113が、通信確認組み合わせの情報に基づき実行した通信確認結果について説明する。ここでは、説明を平易にするため、
図22に示すネットワーク構成において、定期通信確認部113が、全論理通信区間の通信組み合わせ生成手法を実行することにより、通信確認組み合わせとして、「AP-1」―「AP-3」、「AP-1」―「AP-2」が通信確認リストに登録された例(
図23(a)参照)として説明する。
【0068】
定期通信確認部113は、
図23(a)に示す通信確認リストに登録された通信確認組み合わせの情報に基づき、各通信区間において、通信正常性を確認する。
図23(b)は、各通信区間の通信正常性を確認した結果(通信確認結果)を登録する通信区間正常性確認情報400の一例を示す。定期通信確認部113は、通信区間それぞれについて、通信正常性が確認できた場合には、該当する通信区間に「通信OK」(
図23(b)においては、「〇」で記載する。)の情報を記憶する。また、定期通信確認部113は、通信正常性が確認できない旨の情報を受信した場合には、「通信NG」(例えば、「×」で記載する(不図示)。)の情報を記憶する。また、定期通信確認部113は、通信確認要求(ping)の送信後、その応答情報を受信するまでの間や、応答情報を受信できない場合には、「通信結果未確認」として、例えば「―」(不図示)の情報を記憶しておく。
【0069】
(全物理通信区間の通信組み合わせ生成手法)
次に、全物理通信区間の通信組み合わせ生成手法(通信確認組み合わせ生成処理)について説明する。
定期通信確認部113は、ソフトウェア面の設定誤りを故障原因とする通信断が発生しにくい時間帯においては、物理通信区間の通信正常性を確認するための通信確認組み合わせを生成し、さらに通信確認組み合わせ数を抑えることができる。
この場合も、全論理通信区間の通信組み合わせ生成手法と同様に、上位レイヤから順に未確認の通信区間(以下、「未確認通信区間」と称する。)を特定し、その特定した未確認通信区間を経由した上で、他の未確認通信区間の通信ホップ数が最も大きいAP同士の通信を優先的に通信確認リストに登録していく。
なお、この全物理通信区間の通信組み合わせ生成手法での未確認通信区間は、L3SW間、L3SW―L2SW間、並列のL2SW間、親と配下のL2SW間、L2SW―物理サーバ間であり、物理サーバ―仮想マシン間、物理サーバ―システム間(非仮想化システムの場合)は含まない。
【0070】
図24は、本実施形態に係る定期通信確認部113が実行する全物理通信区間の通信確認組み合わせ生成処理の流れを示すフローチャートである。
図24のステップS20,S21の処理は、
図12に示す全論理通信区間の通信確認組み合わせ生成処理のステップS10,S11と同様であるため、説明を省略する。
【0071】
定期通信確認部113は、すべてのL3SW間の物理通信区間が確認できた場合に(ステップS20→Yes)、ステップS22に進む。ステップS22以降は、L2SWレイヤより下位のレイヤの通信区間確認を行う。なお、物理通信区間の確認では、VLANごとに通信区間確認を行わず、物理通信区間ごとに確認を行う。
【0072】
ステップS22において、定期通信確認部113は、上位レイヤから順に未確認通信区間が存在するか否かを判定する。そして、定期通信確認部113は、未確認通信区間が存在する場合には(ステップS22→Yes)、ステップS23に進む。一方、定期通信確認部113は、未確認通信区間が存在しない場合には(ステップS22→No)、処理を終える。
【0073】
ステップS23において、定期通信確認部113は、ステップS22においてその存在を特定した未確認通信区間(「特定未確認通信区間」)が並列関係にあるか否かを判定する。そして、並列関係にない場合には(ステップS23→No)、ステップS24に進み、並列関係にある場合には(ステップS23→Yes)、ステップS25に進む。
【0074】
ステップS24において、定期通信確認部113は、対象とする特定未確認通信区間の両端点それぞれから、下位レイヤの未確認通信区間を経由し、未確認通信区間の通信ホップ数が最も大きい物理サーバ40上のAP同士を優先的に選択し、通信確認リストに追加する。なお、物理サーバ40上のAPは、物理サーバ40上に複数のVM50が設定されている場合には、例えば、そのうちの任意のVM50に配置されるAPを選択する。そして、定期通信確認部113は、ステップS22に戻り処理を続ける。
【0075】
ステップS25において、定期通信確認部113は、対象とする特定未確認通信区間において、特定未確認通信区間を含み、未確認通信区間数が最大となるような並列関係にある通信区間の両端点から、下位レイヤの未確認通信区間を経由し、未確認通信区間の通信ホップ数が最も大きい物理サーバ40上のAP同士を優先的に選択し、通信確認リストに追加する。そして、定期通信確認部113は、ステップS22に戻り処理を続ける。
【0076】
このようにすることにより、定期通信確認部113は、全物理通信区間の通信確認組み合わせを、通信確認リストとして生成することができる。
以下、上記の処理ステップの具体例を、
図25〜
図30を参照して例示する。なお、
図25〜
図30に示す例では、L3SW30として「L3-1」と「L3-2」とが存在し、「L3-1」のNW装置側にはVLAN-α、「L3-2」のNW装置側にはVLAN-βが設定されているものとする。
【0077】
図25〔手順1〕は、
図24のステップS21において、定期通信確認部113が、未確認のL3SWの通信区間を最も多く含むL3SWの両端点として「L3-1」と「L3-2」とを選んだことを示している。そして、定期通信確認部113は、その両端点から未確認通信区間の通信ホップ数が最も大きい物理サーバ40上のAP同士として、物理サーバ「S−2」上のAP(例えば、「VM-1」上の「AP-2」)と物理サーバ「S−10」上のAP(「AP-16」)との組を選択する。これにより、定期通信確認部113は、通信確認リストに「AP-2」―「AP-16」を追加する。
【0078】
次に、定期通信確認部113は、すべてのL3SW間の物理通信区間の確認を終えたので(ステップS20→Yes)、L2SWレイヤ以下の物理通信区間の確認に移行する。そして、定期通信確認部113は、まず、VLAN-αが設定されているL2SW側において、上位レイヤから順に未確認通信区間が存在するか否かを判定して、
図26〔手順2〕に示すように、並列のL2SW間のレイヤに存在する「L2−1」と「L2−2」との間の未確認通信区間を特定未確認通信区間として抽出する(ステップS22)。この特定未確認通信区間は並列関係にあるため(ステップS23→Yes)、ステップS25に進み、定期通信確認部113は、特定未確認通信区間を含み、未確認通信区間数が最大となるような並列関係にある通信区間の両端点として、「L2-1」と「L2-3」とを選び、両端点から未確認通信区間の通信ホップ数が最も大きい物理サーバ40上のAP同士として、物理サーバ「S−1」上のAP(「AP-1」)と、物理サーバ「S−5」上のAP(「AP-9」)との組を選択する。これにより、定期通信確認部113は、通信確認リストに「AP-1」―「AP-9」を追加する。
【0079】
次に、定期通信確認部113は、ステップS22に戻り、VLAN-αが設定されているL2SW側において、上位レイヤから順に未確認通信区間が存在するか否かを判定して、
図27〔手順3〕に示すように、L2SW―物理サーバ間のレイヤに存在する「L2-6」と「S-3」との間の未確認通信区間を特定未確認通信区間として抽出する。この特定未確認通信区間は並列関係にないため(ステップS23→No)、ステップS24に進み、定期通信確認部113は、この特定未確認通信区間の両端点から、未確認通信区間の通信ホップ数が最も大きい物理サーバ40上のAP同士として、物理サーバ「S-3」上のAP(例えば、「VM-4」上の「AP-5」)、と物理サーバ「S-4」上のAP(例えば、「VM-6」上の「AP-7」)との組を選択する。これにより、定期通信確認部113は、通信確認リストに「AP-5」―「AP-7」を追加する。
【0080】
同様に、全物理通信区間の通信組み合わせ手法の〔手順4〕において、定期通信確認部113は、
図28に示すように、ステップS22において、特定未確認通信区間として「L2-7」と「S-6」との間の未確認通信区間を抽出し、通信確認リストに物理サーバ「S-5」上のAP(「AP-9」)と、物理サーバ「S-6」上のAP(「AP-10」)の組、「AP-9」―「AP-10」を追加する。
【0081】
次に、
図29に示す全物理通信区間の通信組み合わせ手法の〔手順5〕において、定期通信確認部113は、VLAN-αが設定されているL2SW側については、すべての論理通信区間を確認済状態とし、未確認通信区間から除外したため、まだ処理を行っていないVLAN-βが設定されているL2SW側について、処理を進める。ここで、定期通信確認部113は、上位レイヤから順に未確認通信区間が存在するか否かを判定して(ステップS22)、特定未確認通信区間として「L2-4」と「L2-8」との間の未確認通信区間を抽出し、通信確認リストに物理サーバ「S-7」上のAP(例えば、「VM-8」上の「AP-11」)と、物理サーバ「S-9」上のAP(「AP-16」)の組、「AP-11」―「AP-16」を追加する。
【0082】
次に、
図30に示す全論理通信区間の通信組み合わせ手法の〔手順6〕において、定期通信確認部113は、さらに下位レイヤに存在する特定未確認通信区間として「L2-8」と「S-8」との間の未確認通信区間を抽出し、通信確認リストに物理サーバ「S-7」上のAP(例えば、「VM-9]上の「AP-12」)と、物理サーバ「S-8」上のAP(例えば、「VM-11」上の「AP-14」)の組、「AP-12」―「AP-14」を追加する。
【0083】
このようにすることで、定期通信確認部113は、通信確認リストに、「AP-2」―「AP-16」、「AP-1」―「AP-9」、「AP-5」―「AP-7」、「AP-9」―「AP-10」、「AP-11」―「AP-16」、「AP-12」―「AP-14」の6通りの通信確認組み合わせを登録することができる。そして、定期通信確認部113は、通信確認リストに登録した通信確認組み合わせの情報に基づき、仮想マシン(VM50)や物理サーバ40上のAPに対して、全論理通信区間の通信確認組み合わせ数(9通り)よりも少ない通信確認組み合わせ数(6通り)の通信確認要求(ping)の指示情報を送り、その通信確認結果を取得する。
【0084】
〔不定期通信確認部〕
図5に戻り、不定期通信確認部114は、仮想インフラマネージャ(VIM)60等から通知される新規のVM50の作成や、VM50の配置先となる物理サーバ40の変更等のイベントに基づき、当該イベント発生後の仮想スイッチや物理スイッチの設定漏れの有無を確認するため、対象となるVM50から所定の他のVM50やデフォルトGW(Gateway)等に対して通信確認を実行する。
【0085】
具体的には、不定期通信確認部114は、新規にVM50が作成された情報を取得した場合に、対象となる新規のVM50からL3SW30のデフォルトGWへの通信確認を実行する。不定期通信確認部114は、デフォルトGWが未設定のときであって、同一VLANに所属するAPが存在する場合には、新規に作成されたVM50から任意のAPへの通信確認を行うようにしてもよい。
図31では、物理サーバ「1」上に、新規に「VM-1」が作成された場合において、その「VM-1」と、デフォルトGWとなるL3SW30との間で、通信確認を実行する例を示している。
【0086】
また、不定期通信確認部114は、VM50の配置先となる物理サーバ40が変更された場合に、再配置後のVM50からL3SW30のデフォルトGWへの通信確認を実行する。不定期通信確認部114は、デフォルトGWが未設定のときであって、同一VLANに所属するAPが存在する場合には、再配置されたVM50から任意のAPへの通信確認を実行するようにしてもよい。なお、不定期通信確認部114は、既存のVM50を、通信正常性が未確認の通信区間の物理サーバ40へ再配置するときのみ、デフォルトGWへの通信確認を実行するようにしてもよい。
図31では、物理サーバ「3」上の「VM-7」が、通信正常性が未確認の通信区間に位置する物理サーバ「6」上に再配置された場合において、再配置された「VM-7」と、デフォルトGWとなるL3SW30との間で、通信確認を実行する例を示している。
【0087】
不定期通信確認部114は、通信確認を実行した結果、通信不能(通信NG)の通信区間があった場合に、当該通信不能の通信区間を含む通信確認結果を、通信断発生箇所特定部115に出力する。また、不定期通信確認部114は、通信不能の通信区間があった場合に、定期通信確認部113を起動し、対象となる全通信区間の通信確認を実行させた上で、自身が実行した通信不能の通信区間を含む通信確認結果を、通信断発生箇所特定部115に出力するようにしてもよい。
【0088】
<通信断発生箇所特定部>
図5に戻り、通信断発生箇所特定部115は、通信状態確認実行部112の定期通信確認部113や不定期通信確認部114が実行した通信確認結果が通信不能(通信NG)の通信状態を含む場合、必要に応じて、通信断箇所を特定(さらに通信区間の範囲を限定)するために、より少ない(なるべく少ない数の)通信確認組み合わせ数にて再度通信確認を行う。そして、通信断発生箇所特定部115は、実行した各通信確認組み合わせの通信確認結果から、各通信区間の通信OK/通信断(通信NG)を判定し、各通信確認組み合わせの通信確認結果をマージすることで、通信断の通信区間を局所的に特定する。さらに、通信断発生箇所特定部115は、特定された通信断の通信区間に対し、想定される故障原因(故障原因のタイプ)からその復旧方法を決定する。
【0089】
図32は、本実施形態に係る通信断発生箇所特定部115が実行する通信断発生箇所特定処理の流れを示すフローチャートである。
【0090】
まず、通信断発生箇所特定部115は、各通信確認結果が正常に取得できているか否かを判定する(ステップS30)。ここで、通信断発生箇所特定部115は、通信確認結果が正常に取得できている場合には(ステップS30→Yes)、ステップS32に進む。一方、通信断発生箇所特定部115は、通信確認結果が正常に取得できていない通信がある場合には(ステップS30→No)、ステップS31に進む。ここで、正常に取得できない通信とは、通信確認要求(ping)に対する応答情報を全く取得できない場合である。つまり、通信不可(通信NG)の結果情報を取得できた場合、ステップS30では、通信確認結果を正常に取得できたものと判断する。
【0091】
ステップS31において、通信断発生箇所特定部115は、その通信確認結果が正常に取得できない通信区間について、送信先となる仮想マシン(VM50)を搭載する物理サーバ40の故障、通信確認・通信断箇所特定装置10から物理サーバ40までの(Cプレーンの)通信経路上のスイッチ故障、VLAN設定漏れ、接続線故障のいずれかが発生しているものとして、その原因を特定する。そして、ステップS32に進む。
なお、通信断発生箇所特定部115は、後記する通信確認結果分析処理(ステップS33〜S35)の結果、ステップS30において、通信確認結果が取得できない物理通信区間の通信結果が正常(通信OK)である情報を取得したときには、該当通信区間の両端の物理サーバ・スイッチの物理故障および該当通信区間の接続線故障を、故障原因から除外する。
【0092】
ステップS32において、通信断発生箇所特定部115は、通信状態確認実行部112(定期通信確認部113、不定期通信確認部114)が実行した通信確認組み合わせの確認結果(通信区間正常性確認情報400(
図23(b)参照)に格納される通信確認結果)と、各通信確認組み合わせに関連する、論理NWスライスにおける構成メンバに関する情報(メンバ構成情報テーブル100およびメンバ状態管理テーブル200)を取得する。なお、この通信確認組み合わせに関連する論理NWスライスのおける通信区間を、以下「関連通信区間」と称する場合がある。
【0093】
次に、通信断発生箇所特定部115は、通信確認結果分析処理(ステップS33〜S35)を実行する。
まず、通信断発生箇所特定部115は、ステップS32において取得した、通信確認組み合わせの通信確認結果(通信区間正常性確認情報400)のすべてを確認したか否かを判定する(ステップS33)。ここで、通信断発生箇所特定部115は、通信確認組み合わせの通信確認結果のすべてを確認した場合には(ステップS33→Yes)、ステップS36に進み、まだ確認していない通信確認組み合わせの通信確認結果がある場合には(ステップS33→No)、ステップS34に進む。
【0094】
ステップS34において、通信断発生箇所特定部115は、まだ確認していない通信確認組み合わせの通信確認結果(通信区間正常性確認情報400)を抽出し、各通信区間の通信確認結果が通信OKか否かを判定する。
【0095】
そして、通信断発生箇所特定部115は、当該通信区間の通信確認結果が通信OKの場合に(ステップS34→Yes)、関連通信区間における(未記入の)通信状態を通信OKに更新する(ステップS35)。そして、ステップS33に戻る。
このようにすることで、通信断発生箇所特定部115は、各通信確認組み合わせの通信確認結果をマージすることができる。
【0096】
次に、通信確認組み合わせの通信確認結果のすべてを処理した場合に(ステップS33→Yes)、通信断発生箇所特定部115は、各通信確認組み合わせの通信確認結果をマージした結果(関連通信区間における通信状態)において、通信OKでない通信区間を抽出し、通信断発生候補とする(ステップS36)。
【0097】
続いて、通信断発生箇所特定部115は、通信断発生候補の通信区間が複数か否かを判定する(
図33のステップS37)。ここで、通信断発生箇所特定部115は、通信断発生候補の通信区間が複数でない、つまり、1つの通信区間のみである場合には(ステップS37→No)、ステップS43に進み、該当通信区間を通信断発生特定箇所(推定故障箇所)とする。一方、通信断発生箇所特定部115は、通信断発生候補の通信区間が複数である場合には(ステップS37→Yes)、ステップS38に進む。
【0098】
ステップS38において、通信断発生箇所特定部115は、通信断発生候補の通信区間が分断されているか否かを判定する。
ここで、通信断発生箇所特定部115は、通信断発生候補の通信区間が分断されているか否かを、次のように判定する。通信断発生箇所特定部115は、
図34に示すように、枝分かれしてもよいが、各通信区間が繋がっていて必ずたどれる通信断発生候補の集合を「通信断発生候補区間群」と定義する。そして、通信断発生箇所特定部115は、この通信断発生候補区間群と定義できる繋がった通信断発生候補の通信区間を分断されていないと判定する。また、通信断発生箇所特定部115は、通信断発生候補区間群の定義に基づき繋がっていない通信断発生候補の通信区間が複数存在する場合に、通信断発生候補の通信区間が分断されていると判定する。
【0099】
図33に戻り、通信断発生箇所特定部115は、通信断発生候補の通信区間が分断されていないと判定した場合には(ステップS38→No)、ステップS39に進み、該当の通信断発生候補の通信区間において、再送を行う通信確認組み合わせの生成処理(以下、「再送通信確認組み合わせ生成処理」と称する。)を実行する。そして、ステップS42に進む。なお、再送通信確認組み合わせ生成処理については、
図35を参照して詳細に説明する。
【0100】
一方、通信断発生箇所特定部115は、通信断発生候補の通信区間が分断されている判定した場合には(ステップS38→Yes)、ステップS40に進み、分断された各通信区間(通信断発生候補区間群)において通信区間が複数か否かを判定する。
ここで、通信断発生箇所特定部115は、分断された通信断発生候補の通信区間が複数でない、つまり、1つの通信区間のみである場合には(ステップS40→No)、ステップS43に進み、該当通信区間を通信断発生特定箇所とする。
一方、通信断発生箇所特定部115は、分断された通信断発生箇所候補の通信区間が複数である場合には(ステップS40→Yes)、ステップS41に進み、分断された通信区間ごとに、再送通信確認組み合わせ生成処理を実行する。そして、ステップS42に進む。
【0101】
通信断発生箇所特定部115は、生成された通信確認組み合わせ(ここでは、「再送通信確認組み合わせ」)の通信確認結果について、前記した通信確認結果分析処理(ステップS33〜S35)を実行し、各再送通信確認組み合わせの通信確認結果をマージし、通信OKでない通信区間を抽出する(ステップS42)。そして、通信断発生箇所特定部115は、抽出した通信区間を通信断発生特定箇所とする(ステップS43)。
これにより、通信断発生箇所特定部115は、通信断発生候補を、再送通信確認組み合わせの通信確認結果を用いて絞り込んだ上で、通信断発生特定箇所(推定故障箇所)として推定することができる。
【0102】
続いて、通信断発生箇所特定部115は、推定された通信断発生特定箇所の通信区間の情報から、対応する通信断(通信故障)原因(故障タイプ)を判定し、その通信断原因に基づく復旧方法を決定する(ステップS44)。なお、この通信断原因の判定処理(以下、「通信断原因判定処理」と称する。)および復旧方法の決定処理(以下、「復旧方法決定処理」と称する。)については、後記する
図45、
図46を参照して詳細に説明する。
【0103】
(再送通信確認組み合わせ生成処理)
次に、通信断発生箇所特定部115が実行する再送通信確認組み合わせ生成処理について、
図35を参照して説明する。なお、この再送通信確認組み合わせ生成処理は、
図33のステップS39,S41において実行される処理である。
【0104】
まず、通信断発生箇所特定部115は、すべての通信断発生候補の通信区間についての確認が完了したか否かを判定する(ステップS50)。そして、通信断発生箇所特定部115は、すべての通信断発生箇所の通信区間についての確認が完了している場合には(ステップS50→Yes)、処理を終える。一方、通信断発生箇所特定部115は、すべての通信断発生箇所の通信区間についての確認が完了していない場合には(ステップS50→No)、次のステップS51に進む。
【0105】
ステップS51において、通信断発生箇所特定部115は、上位レイヤの通信断発生候補の通信区間から順に、未確認の通信断発生候補の通信区間を選択する。なお、ここで選択された未確認の通信断発生候補の通信区間を、「選択未確認通信区間」と称する。
【0106】
続いて、ステップS52において、通信断発生箇所特定部115は、ステップS51において選択した選択未確認通信区間を、n回(任意回数)通過するAPの通信確認組み合わせを所定のAP選択ロジックに基づき決定し、再送通信確認リストに追加する。なお、この再送通信確認リストは、通信断発生箇所特定部115が、
図33のステップS39,S41において、通信断発生候補箇所を絞り込むために行う通信確認要求(ping)の再送の際に選出する、通信確認を行うAP同士のリストである。また、ここでは、選択した通信区間をn回通過(通信確認)した場合に、当該通信断発生候補の通信区間を確認済とする。つまり、再送通信確認リストに追加されたAP同士の経由する通信区間において、n回以上通信区間に含まれる通信区間は、未確認の通信断発生候補から外す。
【0107】
通信断発生箇所特定部115は、所定のAP選択ロジックとして以下に示す処理を実行する。
通信断発生箇所特定部115は、APの選定にあたり、再送通信確認リストに含まれる回数の少ないAP同士を優先し、その中で未確認通信区間の端点と直結するAP若しくは両端点からAPまでの通信区間において、すべての通信区間が通信正常若しくは(再送以前の時点で)未確認の状態であり、かつ、選択未確認通信区間の端点までの通信区間が少ない(ホップ数の少ない)APを優先的に選択する。該当APが存在しない場合には、通信断発生箇所特定部115は、既に再送通信確認リストに確認先として含まれる回数が少ないAPから優先的に、選択した通信区間(選択未確認通信区間)の両端点からAPまでの通信区間が少なく、通信正常または未確認状態の通信区間の合計通信区間をより多く経由するAPを優先的に選択する。さらに、通信断発生箇所特定部115は、通信正常と未確認状態の通信区間の合計通信区間が同じ場合には、通信正常区間が多い方を優先的に選択する。
そして、通信断発生箇所特定部115は、ステップS52の処理の後、ステップS50に戻る。
【0108】
このようにすることにより、通信断発生箇所特定部115は、再送通信確認組み合わせとして選択したAPの組を、再送通信確認リストとして生成することができる。
以下、再送通信確認組み合わせ生成処理の処理ステップ(再送通信確認組み合わせ生成手法)の具体例を、
図36〜
図44を参照して例示する。
なお、ここでは、
図36に例示するように、破線で示した区間が通信断発生候補区間群、つまり、各通信区間が繋がっていて必ずたどれる通信断発生候補の集合であるとする。また、一点鎖線で示した区間が、通信正常性の確認済みの通信区間の範囲とする。また、実際に通信断(通信故障)が発生している箇所を、「L3-1」と「L2-1」との間の通信区間、「L2-2」と「L2-3」との間の通信区間、「VM-1」と「AP-3」との間の通信区間として説明する。
【0109】
図36〔手順1〕は、通信断発生箇所特定部115が、
図35のステップS51において、上位レイヤの通信断発生候補の通信区間から、まず、未確認の通信断発生候補の通信区間(選択未確認通信区間)として、「L3-1」と「L3-2」との間の通信区間を選択し、両端点からAPまでの通信区間として、よりホップ数が少ないAPの中で、通信正常区間数が多いAPとして、「AP-2」と「AP-8」とを選択したことを示している。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-2」―「AP-8」を追加する。なお、
図36〜
図44において、各通信区間に対応してかっこ書で示した数字は、その通信区間の通過回数nを示している。例えば、「L3-1」と「L3-2」との間の通信区間は、今回で1回通過することになるため、「(1)」と記している。
【0110】
次に、通信断発生箇所特定部115は、
図37〔手順2〕に示すように、選択未確認通信区間として、「L3-1」と「L3-2」との間の通信区間を再度選択する。これは、
図36の処理では、1回しか当該通信区間を通過していないため、通信断発生箇所特定部115は、通過回数(任意回数)がn=2、つまり、2回通過するまで選択未確認通信区間を選択する。
そして、通信断発生箇所特定部115は、「L3-1」側のAPとして、よりホップ数が少ないAPの中で、再送通信確認リストに含まれないAPとして「AP-1」を選択する。また、「L3-2」側のAPとして、未確認状態の通信区間のより多く経由するAPの中から「AP-3」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-1」―「AP-3」を追加する。
【0111】
次に、通信断発生箇所特定部115は、通過回数が「2」より少ない通信断発生候補の通信区間を上位レイヤから順に探索し、
図38〔手順3〕に示すように、選択未確認通信区間として、「L2-2」と「L2-3」との間の通信区間を選択する。
そして、通信断発生箇所特定部115は、「L2-2」側のAPとして、よりホップ数が少ないAPの中で、再送通信確認リストに含まれないAPとして「AP-4」を選択する。また、「L2-3」側のAPとして「AP-8」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-4」―「AP-8」を追加する。
【0112】
次に、通信断発生箇所特定部115は、通過回数が「2」より少ない通信断発生候補の通信区間を上位レイヤから順に探索し、
図39〔手順4〕に示すように、選択未確認通信区間として、「L2-5」と「S-4」との間の通信区間を選択する。
そして、通信断発生箇所特定部115は、「L2-5」側のAPとして、よりホップ数が少ないAPの中で、再送通信確認リストに含まれないAPとして「AP-5」を選択する。また、「S-4」側のAPとして、再送通信確認リストに含まれていないAPの中から「AP-6」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-5」―「AP-6」を追加する。
【0113】
次に、通信断発生箇所特定部115は、通過回数が「2」より少ない通信断発生候補の通信区間を上位レイヤから順に探索し、
図40〔手順5〕に示すように、選択未確認通信区間として、「L2-5」と「S-4」との間の通信区間を再度選択する。
そして、通信断発生箇所特定部115は、「L2-5」側のAPとして、よりホップ数が少ないAPの中から、「AP-4」を選択する。また、「S-4」側のAPとして、再送通信確認リストに含まれないAPとして「AP-7」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-4」―「AP-7」を追加する。
【0114】
次に、通信断発生箇所特定部115は、通過回数が「2」より少ない通信断発生候補の通信区間を上位レイヤから順に探索し、
図41〔手順6〕に示すように、選択未確認通信区間として、「VM-1」と「S-3」との間の通信区間を選択する。
そして、通信断発生箇所特定部115は、「VM-1」側のAPとして、「AP-3」を選択する。また、「S-3」側のAPとして、未確認状態の通信区間よりも通信正常の通信区間が多い「AP-4」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-3」―「AP-4」を追加する。
【0115】
次に、通信断発生箇所特定部115は、通過回数が「2」より少ない通信断発生候補の通信区間を上位レイヤから順に探索し、
図42〔手順7〕に示すように、選択未確認通信区間として、「S-3」と「VM-3」との間の通信区間を選択する。
そして、通信断発生箇所特定部115は、「S-3」側のAPとして、未確認状態の通信区間よりも通信正常の通信区間が多い「AP-4」を選択する。また、「VM-3」側のAPとして、「AP-5」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-4」―「AP-5」を追加する。
【0116】
次に、通信断発生箇所特定部115は、通過回数が「2」より少ない通信断発生候補の通信区間を上位レイヤから順に探索し、
図43〔手順8〕に示すように、選択未確認通信区間として、「VM-4」と「S-4」との間の通信区間を選択する。
そして、通信断発生箇所特定部115は、「VM-4」側のAPとして「AP-6」を選択する。また、「S-4」側のAPとして、「AP-7」を選択する。これにより、通信断発生箇所特定部115は、再送通信確認リストに「AP-6」―「AP-7」を追加する。
【0117】
再送通信確認組み合わせにより、すべての通信断発生候補の通信区間にて通過回数が2以上になることを確認した後、通信断発生箇所特定部115は、再送通信確認リストに、「AP-2」―「AP-8」、「AP-1」―「AP-3」、「AP-4」―「AP-8」、「AP-5」―「AP-6」、「AP-4」―「AP-7」、「AP-3」―「AP-4」、「AP-4」―「AP-5」、「AP-6」―「AP-7」の8通りの再送通信確認組み合わせを登録することができる。
そして、通信断発生箇所特定部115は、この8通りの再送通信確認組み合わせについて、通信確認結果分析処理(
図33のステップS42)を実行することにより、各再送通信確認組み合わせの通信確認結果をマージし、通信OKでない通信区間を抽出して、通信断発生特定箇所を推定することができる(ステップS43)。
ここでは、
図44に示すように、「L3-1」―「L3-2」、「L3-1」―「L2-1」、「L3-2」―「L2-2」、「L2-2」―「L2-3」、「S-3」―「VM-1」、「VM-1」―「AP-3」の各通信区間を、通信断発生特定箇所として推定する。よって、通信断発生箇所特定部115は、通信断発生候補区間群から、再送通信確認組み合わせの通信確認結果を用いて通信断発生候補を絞り込み、通信断発生特定箇所として推定することができる。なお、通過回数nを大きくすることで、再送通信確認組み合わせ数が増えるが、通信断発生特定箇所の推定精度は向上する。しかし、NW装置構成によっては、推定精度に限界があり、通過回数nを増やしても実際の通信断発生箇所よりも推定される通信断発生特定箇所が広くなる。
図44の例では、通過回数nを「2」以上にしても、推定される通信断発生特定箇所は図示している範囲よりさらに絞り込むことはできない。
【0118】
(通信断原因の判定処理)
次に通信断発生箇所特定部115による、通信断原因判定処理について、具体的に説明する。
図45は、本実施形態に係る通信断発生箇所特定部115による、通信断原因判定処理を示すフローチャートである。
【0119】
まず、通信断発生箇所特定部115は、現在行っている通信正常性確認が、論理通信区間の通信状態確認か否かを判定する(ステップS60)。ここで、通信断発生箇所特定部115は、論理通信区間ではなく物理通信区間の通信状態確認である場合には(ステップS60→No)、ステップS63に進み、物理的な故障の可能性が大きいと判定し、次のステップS66に進む。
一方、通信断発生箇所特定部115は、現在行っている通信正常性確認が、論理通信区間の通信状態確認である場合には(ステップS60→Yes)、ステップS61において、通信断発生特定箇所ごとに、その通信断発生特定箇所の論理通信区間について、該当する物理通信区間がその他のVLANの論理通信区間を共有しているか否かを判定する。
この判定は、
図7に示すメンバ構成情報テーブル100の所属VLANリスト106を参照することにより確認することができる。通信断発生箇所特定部115は、通信断発生特定箇所の論理通信区間において、この所属VLANリスト106に複数のVLANの識別子が登録されている場合には、該当する物理通信区間がその他のVLANの論理通信区間を共有していると判定し(ステップS61→Yes)、ステップS62に進む。
【0120】
ステップS62において、通信断発生箇所特定部115は、該当の物理通信区間において、共有するすべてのVLANの論理通信区間が通信断発生特定箇所となっているか否かを判定する。ここで、通信断発生箇所特定部115は、すべてのVLANの論理通信区間が通信断発生特定箇所となっている場合には(ステップS62→Yes)、ステップS63に進み、物理的な故障の可能性が大きいと判定し、次のステップS66に進む。一方、すべてのVLANの論理通信区間が通信断発生箇所となっていない場合、つまり、通信断発生箇所となっていないVLANの論理通信区間が存在する場合には(ステップS62→No)、ステップS65に進み、ソフトウェアの設定誤りである判定し、次のステップS66に進む。
【0121】
また、ステップS61において、通信断発生箇所特定部115は、通信断発生特定箇所の論理通信区間について、該当する物理通信区間がその他のVLANの論理通信区間を共有していないと判定した場合には(ステップS61→No)、ステップS64において、ソフトウェアの設定誤り、物理的故障両方の可能性があると判定し、次のステップS66に進む。
【0122】
ステップS66において、通信断発生箇所特定部115は、判定した故障タイプ別に、該当通信区間のレイヤに応じた故障復旧方法を、記憶部12(
図5)に記憶された故障タイプ別復旧方法テーブル300を参照し、故障復旧方法を決定する。
図46は、本実施形態に係る故障タイプ別復旧方法テーブル300のデータ構成例を示す図である。
【0123】
例えば、通信断発生箇所特定部115は、故障タイプ別復旧方法テーブル300の1行目に示すように、故障タイプが「ソフトウェア設定誤りである」の場合であり、通信断発生特定箇所の通信区間が「システムと物理サーバのNWIF間」であるときには、「システムOSレベルのNWIF設定を確認」するという故障復旧方法に決定する。
また、通信断発生箇所特定部115は、故障タイプが「ソフトウェア設定誤り、物理的故障両方の可能性あり」の場合であり、通信断発生特定箇所の通信区間が「システムと物理サーバのNWIF間」であるときには、「システムOSレベルのNWIF設定を確認」するという故障復旧方法に決定する。
このようにすることで、通信断発生箇所特定部115は、判定した故障タイプと、通信断発生箇所の通信区間とに基づき、復旧方法を決定することができる。
【0124】
<通信状態可視化部>
図5に戻り、通信状態可視化部116は、通信状態確認実行部112による通信確認結果、並びに、通信断発生箇所特定部115による通信断発生特定箇所およびその復旧方法を、保守者等に分かりやすく可視化するための情報を生成し、入出力部14を介して、表示手段等に出力する。
【0125】
図47は、本実施形態に係る通信状態可視化部116が出力する通信状態可視化画面500の一例を示す図である。
図47に示すように、通信状態可視化部116は、通信状態確認実行部112による通信確認結果として、通信正常性が確認できた通信区間(通信OKの通信区間)にたとえば、「〇印」を付して表示する。また、通信状態可視化部116は、通信断発生箇所特定部115が特定した通信断発生特定箇所を「十字の記号」で示し、その通信断(通信故障)の復旧方法を吹き出しで表示する。
例えば、物理サーバ「2」とVM-4との間の通信区間について、通信断発生特定箇所を示す「十字の記号」が付され、その復旧方法として、「VM4のシステムOSレベルのNWIF設定、および、VM4と物理サーバ2との間の仮想スイッチの設定を確認」というように表示することができる。
このようにすることにより、ネットワークの管理者は、通信断(通信故障)の発生箇所を一瞥で確認でき、あわせてその復旧方法も認知することが可能となる。
【0126】
以上、説明したように、本実施形態に係る、通信確認・通信断箇所特定装置10、および、通信確認・通信断箇所特定プログラムによれば、以下に示す顕著な効果を奏することができる。
【0127】
(通信確認時における保守者の作業負担の軽減)
本実施形態に係る通信確認・通信断箇所特定装置10は、通信断(通信故障)発生箇所を特定するための、通信確認組み合わせおよび再送通信確認組み合わせを、自ら処理(自動実行)して通信確認結果を得られる。これにより、従来の手動で各通信組み合わせに対して逐次的に通信確認を行う手法に比べ、保守者の作業負担を大幅に軽減することができる。
【0128】
(通信断の早期検知)
本実施形態に係る通信確認・通信断箇所特定装置10は、サーバ・NW構成の各通信区間のすべてを網羅して通信確認を行うことにより、従来のユーザ申告に基づく故障切分作業に比べ、早期に通信断を検知することが可能となる。
【0129】
(通信確認に要するオーバヘッドや処理時間の軽減)
本実施形態に係る通信確認・通信断箇所特定装置10は、サーバ・NW構成の各通信区間の重複確認をできるだけ避ける通信確認組み合わせで通信確認を行うことにより、全通りのメンバ間の通信確認手法に比べ、通信確認組み合わせ数を削減し、処理オーバヘッドや処理時間を低減することが可能となる。特に大規模な仮想化環境ほど、この効果が大きくなる。
【0130】
(通信断要因特定時における保守者の作業負担の軽減)
本実施形態に係る通信確認・通信断箇所特定装置10は、通信断検知時に通信確認組み合わせの各通信確認結果をマージさせ、必要に応じてより少ない再送通信確認組み合わせで通信確認を行うことにより、通信断発生候補を局所的に絞り込み、それに対応する復旧方法を提示することができる。これにより、従来の複雑な故障切分作業および復旧方法確認作業をすべて自動化し、保守者の作業負担を軽減することができる。
【0131】
(保守者への視覚的な通信確認結果や復旧方法の提示)
本実施形態に係る通信確認・通信断箇所特定装置10は、通信確認メンバの論理構成や、サーバ・NW構成における各通信区間の通信状態および通信断発生箇所、並びに、その復旧方法を視覚的に表現することで、コマンドライン画面による確認や以前の確認結果の見直しや比較といったステップが不要となり、より保守者に直感的に故障発生箇所とその復旧方法を認知させることができる。