特許第6022948号(P6022948)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6022948通信ネットワークの制御装置の管理装置及びプログラム
<>
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000002
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000003
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000004
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000005
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000006
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000007
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000008
  • 特許6022948-通信ネットワークの制御装置の管理装置及びプログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6022948
(24)【登録日】2016年10月14日
(45)【発行日】2016年11月9日
(54)【発明の名称】通信ネットワークの制御装置の管理装置及びプログラム
(51)【国際特許分類】
   H04L 12/70 20130101AFI20161027BHJP
   H04L 12/717 20130101ALI20161027BHJP
【FI】
   H04L12/70 100A
   H04L12/717
【請求項の数】15
【全頁数】12
(21)【出願番号】特願2013-2053(P2013-2053)
(22)【出願日】2013年1月9日
(65)【公開番号】特開2014-135614(P2014-135614A)
(43)【公開日】2014年7月24日
【審査請求日】2015年8月6日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100076428
【弁理士】
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100112508
【弁理士】
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100115071
【弁理士】
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100116894
【弁理士】
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【弁理士】
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【弁理士】
【氏名又は名称】永川 行光
(74)【代理人】
【識別番号】100131886
【弁理士】
【氏名又は名称】坂本 隆志
(72)【発明者】
【氏名】黒木 圭介
(72)【発明者】
【氏名】林 通秋
【審査官】 速水 雄太
(56)【参考文献】
【文献】 特開2010−045503(JP,A)
【文献】 特開2008−97164(JP,A)
【文献】 SIOS Technology Corp.,LifeKeeper for Linux v7.5 Technical Documentation,2012年 1月,pp. 153-160,URL,http://docs.us.sios.com/Linux/7.5/LK4L/TechDocPDF/TechDoc.pdf
(58)【調査した分野】(Int.Cl.,DB名)
H04L 12/70
H04L 12/717
(57)【特許請求の範囲】
【請求項1】
ネットワークに属する通信装置を複数のグループにグループ化し、前記複数のグループにそれぞれ対応する複数の制御装置を設け、各制御装置は対応するグループの通信装置を制御する通信システムにおいて、前記複数の制御装置を管理する管理装置であって、
前記複数の制御装置の障害状態を、前記複数の制御装置が前記管理装置に送信する、送信元の制御装置が正常であることを示す第1信号に基づき判定する判定手段と、
障害状態となった制御装置に対応するグループの通信装置の制御を引き継ぐ1つ以上の制御装置を、前記複数の制御装置の負荷状態を示す負荷値に基づき選択する選択手段と、
前記選択手段が選択した引継先の制御装置に、前記障害状態となった制御装置に対応するグループの通信装置の制御を引き継ぐことを通知する通知手段と、
を備えており、
前記判定手段は、前記複数の制御装置の内の第1の制御装置から前記第1信号を受信しないと、前記複数の制御装置の内の前記第1の制御装置とは異なる第2の制御装置、或いは、前記第1の制御装置に対応するグループの通信装置に接続するホスト装置を利用して前記第1の制御装置が障害状態であるか否かを判定することを特徴とする管理装置。
【請求項2】
前記選択手段が複数の制御装置を引継先の制御装置として選択すると、前記引継先の制御装置の負荷値に基づき、前記引継先の制御装置が制御を引き継ぐ通信装置を決定する決定手段をさらに備えていることを特徴とする請求項1に記載の管理装置。
【請求項3】
前記決定手段は、前記引継先の制御装置の負荷値と所定の閾値との差を余裕度とし、前記引継先の制御装置の余裕度の比に応じて、前記引継先の制御装置が制御を引き継ぐ通信装置を決定することを特徴とする請求項2に記載の管理装置。
【請求項4】
前記決定手段は、前記障害状態となった制御装置に対応するグループの通信装置を、スイッチ容量毎に分類し、前記引継先の制御装置の余裕度の比に応じて、スイッチ容量毎に前記引継先の制御装置が制御を引き継ぐ通信装置を決定することを特徴とする請求項3に記載の管理装置。
【請求項5】
前記選択手段は、前記引継先の制御装置に、前記障害状態となった制御装置の負荷値を配分し、前記引継先の制御装置の負荷値に前記配分した負荷値を加算しても所定の閾値以上とならない様に、前記引継先の制御装置を選択することを特徴とする請求項1から4のいずれか1項に記載の管理装置。
【請求項6】
前記判定手段は、前記第1の制御装置から前記第1信号を受信しないと、前記第2の制御装置に前記第1の制御装置の生存確認依頼を行い、前記第2の制御装置から受信する報告において示される前記第1の制御装置が正常であるとする数と、異常であるとする数に基づき、前記第1の制御装置が障害状態であるか否かを判定することを特徴とする請求項1から5のいずれか1項に記載の管理装置。
【請求項7】
前記判定手段は、前記第1の制御装置から前記第1信号を受信しないと、前記第1の制御装置に対応するグループの通信装置に接続するホスト装置に対して返答を求める生存確認信号を送信し、送信した生存確認信号と、前記生存確認信号に対する応答の数とに基づき、前記第1の制御装置が障害状態であるか否かを判定することを特徴とする請求項1から5のいずれか1項に記載の管理装置。
【請求項8】
前記負荷値は、前記制御装置のプロセッサの負荷率であることを特徴とする請求項1から7のいずれか1項に記載の管理装置。
【請求項9】
ネットワークに属する通信装置を複数のグループにグループ化し、前記複数のグループにそれぞれ対応する複数の制御装置を設け、各制御装置は対応するグループの通信装置を制御する通信システムにおいて、前記複数の制御装置を管理する管理装置であって、
前記複数の制御装置の内の第1の制御装置から正常であることを示す信号を受信しないと、前記複数の制御装置の内の第1の制御装置以外の第2の制御装置に前記第1の制御装置の生存確認依頼を行い、前記第2の制御装置から受信する報告において示される前記第1の制御装置が正常であるとする数と、異常であるとする数に基づき、前記第1の制御装置が障害状態であるか否かを判定する判定手段を備えていることを特徴とする管理装置。
【請求項10】
前記判定手段は、前記第1の制御装置が正常であるとする数と異常であるとする数の合計に対する異常であるとする数の割合を閾値と比較することで前記第1の制御装置が障害状態であるか否かを判定することを特徴とする請求項9に記載の管理装置。
【請求項11】
ネットワークに属する通信装置を複数のグループにグループ化し、前記複数のグループにそれぞれ対応する複数の制御装置を設け、各制御装置は対応するグループの通信装置を制御する通信システムにおいて、前記複数の制御装置を管理する管理装置であって、
前記複数の制御装置の内の第1の制御装置から正常であることを示す信号を受信しないと、前記第1の制御装置に対応するグループの通信装置に接続するホスト装置に対して返答を求める生存確認信号を送信し、送信した生存確認信号と、前記生存確認信号に対する応答の数とに基づき、前記第1の制御装置が障害状態であるか否かを判定する判定手段を備えていることを特徴とする管理装置。
【請求項12】
前記判定手段は、送信した生存確認信号数に対する応答の数の割合を閾値と比較することで前記第1の制御装置が障害状態であるか否かを判定することを特徴とする請求項11に記載の管理装置。
【請求項13】
前記判定手段が前記第1の制御装置が障害状態であると判定すると、前記第1の制御装置に対応するグループの通信装置の制御を引き継ぐ1つ以上の制御装置を、前記複数の制御装置の負荷状態を示す負荷値に基づき選択する選択手段と、
前記選択手段が選択した引継先の制御装置に、前記第1の制御装置に対応するグループの通信装置の制御を引き継ぐことを通知する通知手段と、
をさらに備えていることを特徴とする請求項9から12のいずれか1項に記載の管理装置。
【請求項14】
前記管理装置は、1つ以上のコンピュータにより実現されていることを特徴とする請求項1から13のいずれか1項に記載の管理装置。
【請求項15】
請求項1から14のいずれか1項に記載の管理装置として、コンピュータを機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークの制御技術に関する。
【背景技術】
【0002】
ネットワークの制御として、オープンフロー技術が注目されている。オープンフロー技術を利用したネットワークは、パケットの処理を行う通信装置であるスイッチ装置と、スイッチ装置が新たなフローに属するパケットを受信した場合、このフローの経路を決定し、決定した経路上の各通信装置に、当該パケットの出力インタフェースを通知して、フローテーブルを更新させる制御装置と、を備えている。なお、フローテーブルとは、パケットがどのフローに属するかを特定するための情報と、そのフローに属するパケットの出力インタフェースとの対応関係を示すテーブルである。
【0003】
ここで、制御装置が障害となると、当該制御装置により出力インタフェースを通知されるスイッチ装置では、新規フローに属するパケットの転送ができなくなる。このため、特許文献1は、複数の制御装置が、それぞれ、独立してフローの経路を計算して、各経路上のスイッチ装置に対して、新規フローに属するパケットの出力インタフェースを通知する構成を開示している。特許文献1に記載の方法においては、スイッチ装置は、1つ以上の制御装置からそれぞれ出力インタフェースの指示を受け取る場合があるが、スイッチ装置は、最初に受け取った指示に従いパケットを転送する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011−160363号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載の方法では、スイッチ装置は、複数の制御装置からフローテーブルの更新の指示を受け取るため、スイッチ装置の負荷が一時的に高くなってしまう。また、各制御装置が独立してフローの経路を決定するため、選択されなかった経路上のスイッチ装置においては、使用されないフローの情報がフローテーブルに残ることになる。
【0006】
ここで、特許文献1とは異なり、複数の制御装置を設けるが、複数の制御装置が同じスイッチ装置を制御するのではなく、1つのスイッチ装置は1つの制御装置のみによって制御される構成を考える。この場合、ある制御装置が障害となった場合、この制御装置が制御していたスイッチ装置の制御を他の制御装置に速やかに引き継がせる必要がある。このとき、どの様に制御装置の障害を監視するのかと、障害となった制御装置が制御していたスイッチ装置の制御を引き継ぐ制御装置をどの様に決定するのかが問題となる。
【0007】
本発明は、上記問題に鑑み、制御装置の障害を監視できる管理装置と、障害となった制御装置が制御していた通信装置の制御を他の制御装置に引き継がせることができる管理装置及びプログラムを提供するものである。
【課題を解決するための手段】
【0008】
本発明の一態様によると、ネットワークに属する通信装置を複数のグループにグループ化し、前記複数のグループにそれぞれ対応する複数の制御装置を設け、各制御装置は対応するグループの通信装置を制御する通信システムにおいて、前記複数の制御装置を管理する管理装置は、前記複数の制御装置の障害状態を、前記複数の制御装置が前記管理装置に送信する、送信元の制御装置が正常であることを示す第1信号に基づき判定する判定手段と、障害状態となった制御装置に対応するグループの通信装置の制御を引き継ぐ1つ以上の制御装置を、前記複数の制御装置の負荷状態を示す負荷値に基づき選択する選択手段と、前記選択手段が選択した引継先の制御装置に、前記障害状態となった制御装置に対応するグループの通信装置の制御を引き継ぐことを通知する通知手段と、を備えており、前記判定手段は、前記複数の制御装置の内の第1の制御装置から前記第1信号を受信しないと、前記複数の制御装置の内の前記第1の制御装置とは異なる第2の制御装置、或いは、前記第1の制御装置に対応するグループの通信装置に接続するホスト装置を利用して前記第1の制御装置が障害状態であるか否かを判定することを特徴とする。
【0009】
本発明の一態様によると、ネットワークに属する通信装置を複数のグループにグループ化し、前記複数のグループにそれぞれ対応する複数の制御装置を設け、各制御装置は対応するグループの通信装置を制御する通信システムにおいて、前記複数の制御装置を管理する管理装置であって、前記複数の制御装置の内の第1の制御装置から正常であることを示す信号を受信しないと、前記複数の制御装置の内の第1の制御装置以外の第2の制御装置に、前記第1の制御装置の生存確認依頼を行い、前記第2の制御装置から受信する報告において示される前記第1の制御装置が正常であるとする数と、異常であるとする数に基づき、前記第1の制御装置が障害状態であるか否かを判定する判定手段を備えていることを特徴とする。
【0010】
本発明の一態様によると、ネットワークに属する通信装置を複数のグループにグループ化し、前記複数のグループにそれぞれ対応する複数の制御装置を設け、各制御装置は対応するグループの通信装置を制御する通信システムにおいて、前記複数の制御装置を管理する管理装置であって、前記複数の制御装置の内の第1の制御装置から正常であることを示す信号を受信しないと、前記第1の制御装置に対応するグループの通信装置に接続するホスト装置に対して返答を求める生存確認信号を送信し、送信した生存確認信号と、前記生存確認信号に対する応答の数とに基づき、前記第1の制御装置が障害状態であるか否かを判定する判定手段を備えていることを特徴とする。
【発明の効果】
【0011】
制御装置の障害を監視でき、障害となった制御装置が制御していたスイッチ装置の制御を他の制御装置に引き継がせることができる。
【図面の簡単な説明】
【0012】
図1】一実施形態による例示的なシステム構成図。
図2】一実施形態による管理装置が保持する例示的な管理情報を示す図。
図3】一実施形態による引継処理のシーケンス図。
図4】一実施形態による引継処理のシーケンス図。
図5】一実施形態による障害判定処理のフローチャート。
図6】一実施形態による障害判定処理のフローチャート。
図7】一実施形態による引継先決定処理のフローチャート。
図8】一実施形態による管理装置の概略的な構成図。
【発明を実施するための形態】
【0013】
以下、本発明の例示的な実施形態について図面を参照して説明する。なお、以下の各図においては、実施形態の説明に必要ではない構成要素については図から省略する。
【0014】
図1は、本実施形態による例示的なシステム構成図である。ネットワークは複数のスイッチ装置1を含み、各スイッチ装置1は、n個のグループ(nは2以上の整数)であるスイッチ群10−1〜10−nのいずれかに分類されている。なお、図1においては、図が煩雑となることを避けるため、スイッチ装置1は同じスイッチ群のスイッチ装置1とのみリンクを持つように表現しているが、実際には、スイッチ群を跨るリンクも存在し、スイッチ装置1のスイッチ群への分類と、各スイッチ装置1間の接続構成は無関係である。
【0015】
本実施形態においては、各スイッチ群10−1〜10−nに対応させて、n個の制御装置2−1〜2−nを設け、制御装置2−1〜2−nは、それぞれ、対応するスイッチ群に含まれるスイッチ装置1の制御を行う。つまり、通常時、制御装置2−1は、スイッチ群10−1内のスイッチ装置1の制御のみを行うことを認識しており、スイッチ群10−1内のスイッチ装置1も、制御装置2−1のみにより制御されることを認識している。よって、制御装置2−1は、通常時、スイッチ群10−1に属するスイッチ装置1から、新たなフローに属するパケットの受信の通知を受け取ると、当該フローの経路を判定し、スイッチ群10−1のスイッチ装置1のうち、判定した経路上にあるスイッチ装置1に対して、その出力インタフェースの通知を行い、フローテーブルを更新させる。なお、各制御装置2−1〜2−nは、障害時に備えて、総てのスイッチ装置1にアクセス可能な様に構成される。
【0016】
さらに、本実施形態においては、制御装置2−1〜2−nの状態、つまり、正常状態であるか、障害状態であるかを判定し、障害状態であると判定すると、障害状態である制御装置が制御していたスイッチ装置1の制御を引き継ぐ1つ以上の制御装置を決定する管理装置3を設けている。
【0017】
図2は、本実施形態による管理装置3が保持する情報の説明図である。図2の例においては、管理装置3は、通常時におけるスイッチ群10−1〜10−nと、各スイッチ群10−1〜10−n内のスイッチ装置1の数を保持している。なお、図2においては省略しているが、各スイッチ群10−1〜10−nの各スイッチ装置1を識別するための情報や、アクセスするための情報、例えば、IPアドレス等も管理装置3は保持している。図2において、"マスタ"とは、通常時において対応するスイッチ群のスイッチ装置1を制御する制御装置を示し、"スレーブ"とは、通常時においては制御しない制御装置を示している。例えば、図2では、スイッチ群10−1のスイッチ装置1は、通常時、制御装置2−1のみより制御され、スイッチ群10−2のスイッチ装置1は、制御装置2−2のみより制御されることが示されている。
【0018】
また、本実施形態において管理装置3は、各制御装置2−1〜2−nの負荷情報を取得する。本実施形態においては、負荷情報として各制御装置2−1〜2−nのCPU負荷率を使用する。なお、管理装置3は、このCPU負荷率を、例えば、数秒から数分程度の比較的に短い周期で各制御装置から取得するが、この比較的短い周期で取得したCPU負荷率から所定期間、例えば、1週間といった数日程度の平均値を求めて記録する。なお、本実施形態は、CPU負荷率を使用する形態のみならず、メモリの使用量等や、CPU負荷率及びメモリ使用量の両方を使用して制御装置2−1〜2−nの負荷を示す負荷値を算出する等の形態とすることもできる。さらに、図2に示す様に、管理装置3は、各制御装置2−1〜2−nに対して設定した設定情報を保持している。具体的には、例えば、制御装置2−1に設定した設定情報が設定情報Aであることや、制御装置2−2に設定した設定情報が設定情報Bであることが記載されている。
【0019】
続いて、図3を用いて、本実施形態による管理装置3が実行する引継処理について説明する。管理装置3は、例えば、制御装置2−1〜2−nに対してポーリングを行い、制御装置2−1〜2−nはポーリングに応答することで正常に動作していることを管理装置3に通知する(S1)。なお、管理装置3がポーリングするのではなく、制御装置2−1〜2−nが周期的に正常に動作していることを示す信号を管理装置3に送信する形態であっても良い。
【0020】
例えば、制御装置2−1が障害となり(S2)、管理装置3が、制御装置2−1から応答が無いこと検出したとする(S3)。この時点においては、管理装置3から見ると、制御装置2−1が障害となっているのか、管理装置3と制御装置2−1との間の通信のみが障害となっているのかを判定することができない。したがって、S4において、管理装置3は、他の制御装置2−2〜2−nに、制御装置2−1の生存確認依頼を行う。管理装置3から生存確認依頼信号を受信することに応答して、制御装置2−2〜2−nは、S5で、制御装置2−1に対して生存確認信号を送信する。なお、本実施形態において、各制御装置は、生存確認信号を受信すると、生存確認信号の送信元に対して、生存報告信号を送信する様に構成されている。制御装置2−2〜2−nは、S6において、制御装置2−1の生存確認結果を管理装置3に報告する。つまり、制御装置2−2〜2−nは、制御装置2−1から生存報告信号を受信すると、管理装置3に制御装置2−1は正常と報告し、制御装置2−1から所定の期間内に生存報告信号を受信しないと、管理装置3に制御装置2−1は異常と報告する。
【0021】
管理装置3は、制御装置2−2〜2−nの総てから報告を受領した場合か、S4での確認依頼から所定期間経過すると、制御装置2−1が障害であるか否かの判定を行う(S7)。具体的には、判定時点において制御装置2−2〜2−nから受信した異常又は正常を示す全報告に対する異常と報告された割合を求め、求めた割合が閾値以上である場合には、制御装置2−1が障害であると判定する。管理装置3は、制御装置2−1が障害であると判定すると、さらに、S7において、制御装置2−1が制御していたスイッチ群10−1に属する総てのスイッチ装置1の制御を、どの制御装置に引き継がせるかを決定する。
【0022】
その後、S7での決定に従い、管理装置3は、S8で制御装置2−2〜2−nに引継指示信号を送信する。引継指示信号には、その送信先の制御装置が制御を引き継ぐスイッチ装置1を特定する情報と、当該スイッチ装置1を制御するために必要な設定情報が含まれている。なお、制御装置2−1の制御を引き継がない制御装置には、引継指示信号を送る必要はない。引継指示信号を受信した制御装置は、S9で、スイッチ群10−1のスイッチ装置1のうち、自装置がその制御を行うことになるスイッチ装置1に対して、制御を行う制御装置が変更となったことを通知する。なお、S9の処理は、例えば、オープンフローで規定されている"Roll Request"を利用することができる。S9における引継処理が終了すると、制御装置2−1の処理を引き継いだ制御装置は、S10で完了報告信号を管理装置3に送信し、管理装置3は、図2に示す情報に加えて、スイッチ群10−1に属するスイッチ装置1のそれぞれがどの制御装置により制御されているかの情報を保存する。
【0023】
図4は、他の実施形態による管理装置3が実行する引継処理のシーケンス図である。以下、図4の引継処理について、図3の引継処理との相違点を中心に説明する。S1〜S3は、図3の引継処理と同様である。図4の実施形態では、管理装置3が、制御装置2−1から応答が無いこと検出すると、管理装置3自身が、制御装置2−1の状態確認を実行する(S4−1)。具体的には、管理装置3は、スイッチ群10−1に含まれるスイッチ装置1に接続する複数のホスト装置(図示せず)に対して、生存確認信号を送信する。なお、生存確認信号を受信したホスト装置は、管理装置3に生存報告信号を送信するものとする。例えば、生存確認信号としては、ICMP(インターネット制御通知プロトコル)のエコー要求メッセージを利用することができ、この場合、生存報告信号は、ICMPのエコー応答メッセージとなる。スイッチ群10−1に含まれるスイッチ装置1に接続するホスト装置には、制御装置2−1の制御なしに信号が到達しないため、本実施形態では、生存確認信号の送信数に対する生存報告信号の受信数の割合により、制御装置2−1が障害であるか否かを判定する。以後の処理は図3における引継処理と同様であり、その説明は省略する。
【0024】
続いて、図3の引継処理のS7で管理装置3が行う制御装置の障害判定処理について図5を用いて説明する。管理装置3は、図3のS4における確認依頼後、所定時間を経過したか、或いは、確認依頼を行った総ての制御装置から報告を受信すると(S50)、S51で異常割合を計算する。具体的には、計算時点において、制御装置から受信した報告数に対する異常と報告された割合を計算する。異常割合が閾値以上であると(S52)、管理装置3は、S53で当該制御装置は障害と判定し、そうでなければS54で正常と判定する。
【0025】
続いて、図4の引継処理のS7で管理装置3が行う制御装置の障害判定処理について図6を用いて説明する。管理装置3は、図4のS4−1における確認処理後、所定時間を経過したか、或いは、生存確認信号を送信した総てのホスト装置から生存報告信号を受信すると(S60)、S61で異常割合を計算する。具体的には、送信した生存確認信号の数に対する、送信した生存確認信号の数と計算時点における生存報告信号を受信した数との差の割合を計算する。異常割合が閾値以上であると(S62)、管理装置3は、S63で当該制御装置は障害と判定し、そうでなければS64で正常と判定する。なお、送信した生存確認信号の数に対する計算時点における生存報告信号を受信した数の割合である正常割合を求め、正常割合が閾値以下であれば制御装置が障害であると判定することもできる。
【0026】
続いて、図3及び図4の引継処理のS7で管理装置3が行う引継先決定処理について図7を用いて説明する。管理装置3は、図5又は図6を使用して説明した障害判定処理により、ある制御装置が障害と判定すると、S70で、障害と判定した制御装置の過去所定期間の負荷値、本実施形態ではCPUの負荷率の平均値n(%)を判定又は算出する。続いて、障害となった制御装置のCPUの負荷率の平均値n(%)を加えても、そのCPUの負荷率の平均値が、閾値であるX(%)以上とならない制御装置が存在するか否かをS71で判定する。
【0027】
S71で、閾値であるX(%)以上とならない制御装置が存在する場合、管理装置3は、S73で、その制御装置のうちの任意の1つの制御装置を、障害となった制御装置の引継先に決定する。これに対して、S71で、閾値であるX(%)以上とならない制御装置が存在しない場合、管理装置3は、S72で、CPU負荷率の平均値がX(%)以上とならない様に複数の制御装置を引継先として選択する。具体的には、例えば、閾値X(%)を80%として、制御装置A、B、CのCPU負荷率の平均値が、それぞれ、50%、50%、50%であり、障害となった制御装置DのCPU負荷率の平均値が60%とする。この場合、例えば、管理装置3は、制御装置DのCPU負荷率の平均値60%を、それぞれ、制御装置A、Bに30%、30%ずつ分配することができる。また、管理装置3は、制御装置DのCPU負荷率の平均値60%を、それぞれ、制御装置B、Cに30%、30%ずつ分配することができる。さらに、管理装置3は、制御装置DのCPU負荷率の平均値60%を、それぞれ、制御装置A、B、Cに20%、20%、20%ずつ分配することができる。
【0028】
なお、S72における複数の制御装置の選択は種々の基準により行うことができる。例えば、引継先の制御装置の数が最小となる様に選択することができる。これにより、負荷が増加する制御装置の数を最小とすることができる。一方、引継先の制御装置の数が最大となる様に選択することができる。これにより、正常に動作している制御装置の負荷の上昇を最小にすることができる。また、制御装置の設置位置を考慮することもできる。例えば、できるだけ近い位置に設置されている制御装置を選択することができる。一方、制御装置の設置位置を可能な限り分散することもできる。さらに、CPU負荷率の余裕度、つまり、閾値X(%)とCPU負荷率との差の平均値が最大のものを選択することも、最小のものを選択することもできる。
【0029】
管理装置は、S72で複数の制御装置を引継先として決定すると、S74で、引継先の制御装置のそれぞれが制御するスイッチ装置1を決定する。なお、S73で引継先の制御装置を1つだけ選択した場合には、障害となった制御装置が制御していた総てのスイッチ装置1を、選択された1つの制御装置が制御する。
【0030】
例えば、管理装置3は、S74で、CPU負荷率の余裕度の比に応じて、引継先の各制御装置が制御するスイッチ装置の数を判定する。例えば、障害となった制御装置が100台のスイッチ装置1を制御し、引継先の制御装置A、Bの余裕度が、それぞれ、30%、10%とすると、制御装置Aが75台のスイッチ装置1の制御を引き継ぎ、制御装置Bが25台のスイッチ装置1の制御を引き継ぐ。なお、端数は、四捨五入等の任意の方法で調整する。
【0031】
このとき、管理装置3は、各スイッチ装置のスイッチ容量別に引継先を決定することができる。例えば、上記障害となった制御装置が制御していた100台のスイッチ装置1のうち、100Gbpsの容量を持つスイッチが40台あり、40Gbpsの容量を持つスイッチが40台あり、10Gbpsの容量を持つスイッチが20台とする。この場合、引継先の制御装置A、Bの余裕度が、それぞれ、30%、10%とすると、制御装置Aは、100Gbpsの容量を持つスイッチ30台と、40Gbpsの容量を持つスイッチ30台と、10Gbpsの容量を持つスイッチ15台の制御を引き継ぐことになる。スイッチ容量が大きいスイッチには、多くのフローに関与し、制御装置が制御を行う頻度は、スイッチ容量に依存するため、スイッチ容量を考慮することで、スイッチ装置の制御負荷の偏りを抑えることができる。
【0032】
図8は、本実施形態による管理装置の概略的な構成図である。記憶部34には、図2にて説明した管理情報が保持されている。判定部31は、図5図6を用いて説明した障害判定処理を行う。選択部32は、図7を用いて説明した引継先決定処理を行う。通知部33は、図3図4のS8で説明した様に、選択部32が選択した引継先の制御装置に、障害状態となった制御装置に対応するグループの通信装置の制御を引き継ぐことを通知する。
【0033】
なお、本発明による管理装置3は、コンピュータを上記管理装置3として動作させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。また、管理装置3は、1つのコンピュータで実現しても、相互に通信可能な複数のコンピュータで実現しても良い。
図1
図2
図3
図4
図5
図6
図7
図8