【実施例1】
【0018】
本発明は、機密情報を含む情報を情報漏洩なく共有する方法として、機械学習を用いて障害区分を判定し、複数の監視運用システムが取得したデータに障害区分を設定し集約することで、全監視運用システム間で共有する教師データとするものである。以下、その一実施例について説明する。
【0019】
図1は、本発明の統合監視運用システムが適用されるクラウド向け統合運用サービスシステム3とサービス利用者側1およびシステム提供者側2をネットワーク4で接続した構成例を示すブロック図である。
【0020】
サービス利用者側1は、利用者通信端末11を備え、システム提供者側2(21,22)は、図示していないが、例えば、ソリューションベンダ、ユーザ企業、情報システム会社、パッケージソフト会社、他であり、ITサービスを提供するIT基盤/ITシステムの運用などを委託するIT管理部門端末(PCなどの情報処理装置)、を備えている。
【0021】
システム提供者側2におけるIT基盤/ITシステムは、
システム提供者側2にて構築したクラウド、例えば、パブリッククラウド(public cloud)、プライベートクラウド(private cloud)、又はハイブリッドクラウド(hybrid cloud)を有する。
【0022】
これらのクラウドは、例えば、在庫管理システムや、EDI(Electronic Data Interchange)、つまり、商取引に関する情報を標準的な形式に統一して、企業間で電子的に交換し、例えば、複数の企業や団体などの間で、商取引のための各種情報(注文書や請求書等)を、お互いのコンピュータが通信回線(ネットワーク)を介してコンピュータ同士で交換するソリューション、また、クラウド上のITリソースを、必要なときに低価格で可能なリソース、Web・メールホスティングサービス、多言語会計システムなどを提供するものである。
【0023】
パブリッククラウドとは、例えば、データセンタ事業者などが、広く一般の利用者に提供するクラウドコンピューティング環境のデータセンタにおいて、顧客の要望に応じてソフトウェアやハードウェアの利用権などをネットワーク越しにサービスとして提供するものであり、その中で運用されているサーバ群などのことである。
【0024】
プライベートクラウドとは、例えば、企業などが自社内で利用するために構築したクラウドコンピューティング環境において、社員や関連会社、取引先など、内部の限定された利用者に向けて、ソフトウェアやハードウェアの利用権などをネットワーク越しにサービスとして提供するものであり、その中で運用されているサーバ群などのことである。
【0025】
ハイブリッドクラウドとは、クラウドコンピューティングの実現形態の一つであるパブリッククラウドとプライベートクラウドを組み合わせたものである。また、仮想化システム上で実行されている仮想マシン(VM:Virtual Machine)を、プライベートクラウドとパブリッククラウドをまたいで移行できるような運用形態のことである。
【0026】
プライベートクラウドは、例えば、データセンタを有し、データセンタは、データセンタサービスを提供するソリューション機能を有するものである。
【0027】
データセンタサービスは、データセンタにおいて、運用ノウハウを基に、顧客の業務システムの運用まで幅広く対応するサーバ/メインフレームアウトソーシングサービス、ハウジングをはじめとしたITシステムのライフサイクルを支援する各種ソリューションを提供するライフサイクルソリューションセンタサービス、開発、運用、保守などITシステムのライフサイクル全般に必要なITリソースを、必要なときに必要なだけ提供するリソースオンデマンドサービス、などを含む。
そして、プライベートクラウドのデータセンタは、オンプレミス(on-premises)環境にある。
【0028】
オンプレミス環境とは、IT基盤/ITシステム(情報システム)を使用者(通常は企業)自身が管理する設備内に導入、設置して運用するものであり、企業の業務システムなどで、自社で用意した設備でソフトウェアなどを導入・利用することができる環境である。
【0029】
IT管理部門担当通信端末は、IT基盤/ITシステムを管理するPCなどの端末であり、また、当該IT基盤/ITシステム(パブリッククラウド、プライベートクラウド)の運用を代行する企業に依頼する端末でもある。
【0030】
サービス利用者側1は、利用者通信端末11を備えている。
利用者通信端末11は、システム提供者側2からIT基盤/ITシステムなどの運用の委託を受けた企業に対して、システムに関する問い合わせを行うための電話やPCなどの端末であり、また、運用委託企業やシステム提供者側2からの問い合わせに対する対応応答、応急措置指示や作業指示、配信情報などの送受を行う端末でもある。
【0031】
クラウド向け統合運用サービスシステム3は、ネットワーク4を介してシステム提供者側2のシステムや通信端末、およびサービス利用者側1の利用者通信端末11に接続する。
そして、クラウド向け統合運用サービスシステム3は、システム提供者側2からのIT基盤/ITシステムに関する運用委託を受け、環境Aにおいて運用されているシステムおよび環境Bにおいて運用されているシステムに各種サービス、例えば、業務BPO(Business Process Outsourcing)サービス(一般業務の問い合わせ、業務代行)、ITシステムサービス(窓口一元化、ワンストップ対応)、運用監視サービス(24時間、365日対応)、などを体系化、一本化して運用し、サービスクラウド向け統合運用サービスとしてお客様(顧客側、利用者側)にアウトソーシングするコンタクトセンタ31を備えている。
【0032】
すなわち、クラウド向け統合運用サービスシステム3は、環境Aにおいて運用されているIT基盤/ITシステムおよび環境Bにおいて運用されているIT基盤/ITシステムにおける各種サービス、例えば、BPOサービス(一般業務の問い合せ、業務代行)、ITシステムサービス(窓口一元化、ワンストップ対応化)、監視サービス(24時間、365日対応)、などを運用する機能を有する。
【0033】
コンタクトセンタ31は、COPC(Customer Operations Performance Center)に準拠し、例えば、サーバからなる。
そして、業務BPOサービス、ITシステムサービス、運用監視サービス、の各サービスを提供するアウトソリューション機能を有する。
【0034】
コンタクトセンタ31は、IT系の業務は勿論、ヘルプデスク、バックオフィス業務といったIT以外(非IT系)の業務を含めて、トータルでアウトソーシングサービス(業務代行)を提供する。
【0035】
また、コンタクトセンタ31は、複数の拠点に配置され、システム提供者側2からの運用などの委託を受け、クラウド向け統合運用サービスシステム3側にて蓄積した豊富なサポート経験を基に、ベンダーが行うソフトウェア/ハードウェア製品の、サービス利用者(一般消費者)に対するサポートサービス業務を代行する。
【0036】
業務BPOサービスとは、例えば、顧客へのヒアリングに基づいた運用業務の設計構築からIT業務代行、一連の業務プロセスを顧客に代わって遂行し、また、一般業務の問い合わせ(非IT業務代行)などを実行するサービスである。つまり、ヘルプデスクサービスなどを含むバックオフィスBPOを実行する。
【0037】
IT業務代行とは、システム提供者側2のIT業務を代行するものであり、非IT業務代行とは、システム提供者側2の非IT業務を代行するものである。
【0038】
ここで、IT業務とは、ソフトウェア、ネットワークなどコンピュータに関する技術力が必要な業務を意味し、例えば、WindowsやVMware(コンピュータを仮想化するソフトウェア)に関するサポート業務などが該当する。
非IT業務とは、IT業務以外の業務を意味し、例えば、「花屋」や「ファンクラブ」などの受付窓口業務などが該当する。
【0039】
ITシステムサービスとは、ITサービス、例えば、ヘルプデスク(Help desk)サービスの窓口の一元化、ワンストップ対応などのITシステムサービスを実行するサービスである。そして、コンタクトセンタ31と連携し、各製品をサポートする製品サポート機能(各製品のサポートを実行するソリューション)有する。製品サポート機能とは、システム提供者側2におけるIT基盤/ITシステムに使用されている各製品に障害などが発生したとき、当該各製品の障害原因を解消すべく、障害の原因特定から対策までを対応するサービスである。また、対策においては保守センタの保守員などに通知し、その対応を実行する場合も含まれる。
【0040】
ヘルプデスクサービスとは、サービス利用者、例えば、企業(顧客)におけるシステムを利用する利用者からのシステムやIT機器に関する質問や問い合わせ、要望、不具合などの対処要請をITサポート受付窓口にて受け付け、当該対処要請に対応するヘルプデスク業務などのヘルプデスクサービスを支援するソリューションである。
【0041】
運用監視サービスとは、IT基盤/ITシステムの運用を、例えば、24時間、365日対応で監視するサービスである。
【0042】
コンタクトセンタ/サーバ31は、上述した各サービスを実行する演算装置/制御装置を含む情報処理装置/コンピュータを有する。
【0043】
情報処理装置/コンピュータは、ビジネス・プロセス・アウトソーシング(BPO:Business Process Outsourcing)ソリューション機能を含む。
【0044】
情報処理装置/コンピュータにおけるアウトソーシングソリューション機能とは、例えば、業務BPOサービス、ITシステムサービス、運用監視サービス、をサービス利用者に提供するものである。また、これらのサービスに対するサービス利用者の抱える問題・課題を解決したり、要望・要求を満たすものである。
【0045】
また、コンタクトセンタ/サーバ31は、情報処理装置/コンピュータ、の他、システム提供者側2およびサービス利用者側1との間で通信を行うインターフェース部を含む通信装置、必要なデータを蓄積するデータ蓄積部を含む記憶装置、データの入出力を行う入出力装置を備えている。
【0046】
情報処理装置/コンピュータは、業務BPOサービスを提供する業務BPOサービス部、ITシステムサービスを提供するITシステムサービス部、監視サービスを提供する運用監視サービス部、を有する。
【0047】
業務BPOサービス部におけるバックオフィスBPOとは、例えば、企業などの組織において、事務・管理業務などを担当し、顧客に直接対応するフロントオフィスを支援し、ITインフラ(ITシステム)、ファシリティ(facility)、の運用をクラウドと併せて代行し、エンドユーザ(利用者、一般消費者)側に提供するサービス利用者側1のビジネスをサポートするものである。
【0048】
IT基盤・ITシステムサポート部におけるITシステムサービスとは、ITシステムを支援する機能である。
【0049】
IT基盤・ITシステムサポート部は、各製品をサポートする製品サポート部、ミドルウェアサービス部、各種OSサービス部、を含む。
【0050】
運用監視サービス部における運用監視サービスとは、IT基盤/ITシステムの運用監視サービスである。
【0051】
図2は、クラウド向け統合運用サービスシステム3における監視サービスを実行する統合監視運用システム310の一例を示す図である。
【0052】
統合監視運用システム310は、環境A対応の監視運用システム313、環境B対応の監視運用システム314を有する。
【0053】
環境A対応の監視運用システム313は、環境Aにおける運用状況を監視し、運用状況に障害が発生した場合、その障害に関する各種情報を取得し、管理する機能を有する。環境Bの監視運用システム314は、環境Bにおける運用状況を監視し、運用状況に障害が発生した場合、その障害に関する各種情報を取得し、管理する機能を有する。
監視運用システム313および監視運用システム314は、例えば、障害の検知範囲が異なる監視ソフトを利用するとよい。これにより、例えば、環境Aから得た教師データを元にした機械学習だけでは判定できない障害を、環境Bから得た教師データも含めることで、機械学習で判定できる可能性が広がる。
【0054】
図3は、監視運用システム313、314を構成するサーバの構成例を示す機能ブロック図である。監視運用システム313、314は、同様な構成となっているの、監視運用システム313を例にその構成について説明する。
【0055】
監視運用システム(サーバ)313は、インターフェース装置3131、機械学習装置3132、記憶装置3133、演算装置3134、を有する。
【0056】
インターフェース装置3131は、各環境A、Bにて運用されているシステム提供者側2の各システムやシステムサービス利用者側の利用者側端末との間で各種データの送受信を行う機能を有する。
機械学習装置3132は、運用分析ソフトウェアからなる機械学習部を有する。
【0057】
記憶装置3133は、各環境における監視運用システムで共有化される教師データを格納するデータベース(DB)を有する。
【0058】
演算装置3134は、運用状況監視部31341、データ取得部31342、データ分析部31343、データ格納部31345、障害区分判定部31346、通報部31347、を有する。
演算装置3134は、機械学習装置3132と連携し、内部に格納されたプログラムに従って上記の各部の動作を制御する。
【0059】
運用状況監視部31341は、各環境A、Bにおける運用状況を監視し、システムに障害が発生した場合、機密情報を含んでいない障害、つまり障害情報(障害の種類)を検知する。障害情報(障害の種類)は、例えば、
図5に示すようにWEBサイトアクセス不可、WEBサイト応答遅延、などである。
【0060】
データ取得部31342は、各障害情報(障害の種類)に対応し、機密情報を含んでいるデータを取得する。この取得するデータは、例えば、
図5に示すようにパフォーマンス(サービスCPUの使用率、サービスメモリの使用量、サービスデータ書込み数、ネットワーク帯域、システム書込み数)やログ(サービスログ、システムログ)、などの各データである。
【0061】
データ分析部31343は、教師データにおける障害情報(障害の種類)、取得したデータ、を分析する。そして、障害情報(障害の種類)、取得したデータ、分析結果をもとに機密情報を含んでいない障害区分、つまり、障害の原因を特定するに足りる障害区分を決定する。障害区分は、例えば、
図5に示すようにポート競合、ネットワーク障害、サーバリソース不足、アクセス集中、正常、ネットワーク遅延、Disk応答遅延、などである。
【0062】
ここで、データ分析部におけるデータ分析には、機械学習装置3132(運用分析ソフトウェア)における機械学習技術を利用する。
機械学習(machine learning)とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことであって、データから反復的に学習し、そこに潜むパターンを見つけ出すことであり、そして学習した結果を新たなデータにあてはめることで、パターンにしたがって将来を予測することができる。これは予測分析におけるモデル構築の自動化につながり、データサイエンティストの人材不足を補うものになると、大きく期待されている。機械学習、そのものは、周知なので、その詳細説明は省略する。
【0063】
本例では、障害情報(障害の種類)、取得したデータ、分析結果をもとに機密情報を含んでいない障害区分、つまり、障害の原因を特定するに足りる障害区分(ポート競合、ネットワーク障害、サーバリソース不足、アクセス集中、正常、ネットワーク遅延、Disk応答遅延、など)を決定し、当該障害区分を機会学習の学習用のデータ、いわゆる教師データを元に識別モデルを作成し、新たに発生した障害時における取得した未知のデータから障害の原因を機械学習により判定するものである。
【0064】
例えば、検知した障害が「WEBサイトアクセス不可」であって、サービスCPU使用率が「2」、サービスメモリ使用量が「10」、サービスデータ書き込みが「3」、ネットワーク帯域が「50」、サービスログが「×××」、システムログが「Xxx」、システム書き込みが「100」である場合は、障害区分が「ポート競合である過去の運用状況ログデータと障害区分を教師データとして蓄積しておく。そして、各環境における監視運用システム間において、機密情報を含む教師データを共有できるようにする。
【0065】
障害区分判定部31346は、新たに障害が発生した際、新たに検知した障害における取得データとDBにおける教師データを元に作成した識別モデルから、パターン化した障害区分を判定し、障害の原因を決定する。
取得データと機械学習から得られる結果(判定)は、機密情報が含まれていない障害区分の判定結果のみであるため、機密情報が漏洩することはない。また、ログに含まれているIPアドレスやサーバ名などを、削除/置換するなどの処理工数も不要である。
【0066】
通報部31347は、障害を検知し、通報が必要な場合、インターフェース装置3131を介して監視運用関係者側に障害検知を通報する。
【0067】
図4は、教師データの構成例を示すテーブルである。教師データは、記憶装置3133のDBに登録され、障害情報(障害の種類)31331、取得データ(各種ログなど)31332、障害区分31333、などを含む。
【0068】
監視運用システム313にて検知した障害情報(機密情報含まず)31331は、例えば、WEBサイトアクセス不可、WEBサイト応答遅延などであり、取得したデータ31332(機密情報含む)は、パフォーマンス情報(サービスCPU使用率、サービスメモリ使用量、サービスデータ書込み数、ネットワーク帯域、システム書込み数)や各種ログ情報(サービスログ、システムログ)、などであり、障害区分(機密情報含まず)31333は、障害の原因を特定するためのデータ(ポート競合、ネットワーク障害、サーバリソース不足、アクセス集中、正常、ネットワーク遅延、Disk応答遅延)、などである。
取得したデータ31332の、例えば、サービスログ×××には、IPアドレス(192.18.0.102など)、会社名(A−Corp)やホスト名(host 10)、ユーザID(33445566)などの機密情報が含まれている場合がある。
本例では、これらの取得データを元に機会学習機能を利用して機密情報が含まない障害区分、を含む教師データを作成し、蓄積する。
【0069】
図5は、障害を検知した際における障害区分を判定するフローチャートである。
図5のフローチャートに示す動作は以下のとおりである。
【0070】
ステップS601:演算装置3134は、障害検知有無を判定する。当該ステップにて障害を検知した場合(YES)は、ステップS602に進み、障害を検知しなかった場合(NO)は、処理を終了する。
ステップS602:演算装置3134は、取得したデータ31332の中から、パフォーマンスやログデータを取得する。
ステップS603:演算装置3134は、機械学習部の機械学習技術を利用しで判定する。つまり、ステップS602にて取得した障害時の取得データを機械学習により障害区分を判定する。
ステップS604:演算装置3134は、監視運用関係者側に通知を必要とするか否かの判定を行う。当該ステップに通報が必要でない場合(NO)は、終了し、通知が必要である場合(YES)は、ステップS605に進む。
ステップS605:演算装置3134は、監視運用関係者側に障害検知を通報した上で終了する。
【0071】
図6は、障害検知の有無にかかわらず定期的に障害区分を判定するフローチャートである。
図6のフローチャートに示す動作は以下のとおりである。
【0072】
ステップS701:演算装置3134は、取得したデータの中から、パフォーマンスやログデータを取得する。
ステップS702:演算装置3134は、機械学習により障害区分を判定する。つまり、ステップS701にて取得した障害時の取得データと機械学習により障害区分を判定する。
ステップS704:演算装置3134は、監視運用関係者側に通知を必要とするか否かの判定を行う。当該ステップに通報が必要でない場合(NO)は、終了し、通知が必要である場合(YES)は、ステップS705に進む。
ステップS705:演算装置3134は、監視運用関係者側に障害検知を通報した上で終了する。
【実施例2】
【0073】
図7は、本発明の監視運用システム313、314をサポートシステム320と連携した場合における監視運用システム(サーバ)とサポートシステムの構成例を示す機能ブロック図である。
【0074】
本実施例は、実施例1における監視運用システム(サーバ)313/314をサポートシステム(製品Cサポートシステム、製品Dサポートシステム)320と連携し、サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320における障害対策データを考慮して教師データを作成するものである。実施例1と同一部分には同一番号を付与し、その説明は省略し、相違する点のみについて説明する。
【0075】
監視運用システム(サーバ)313/314は、さらに、障害対策データ取得部31348、障害対策実行部31349、を有する。障害対策データ取得部31348は、サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320にネットワークを介して接続され、当該サポートシステム320にて作成された障害対策データを取得する。障害対策実行部31349は、障害の対策を実行する。
【0076】
製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、障害対策調査用データ取得部3201、障害対策調査実行・データ分析部3202、障害対策データ作成部3203、障害対策データ格納部(DB)3204、機械学習部3205、を有する。
【0077】
障害対策調査用データ取得部3201は、監視運用システム313、314から障害の対策に必要とされる障害対策調査用データを取得する。
【0078】
障害対策調査実行・データ分析部3202は、障害対策調査用データの調査を実行し、分析する。
【0079】
障害対策データ作成部3203は、障害対策調査実行・データ分析部3202にて分析した分析データを元に障害を解消して回復する上で有効な障害対策データを作成する。
つまり、製品サポートシステムにおける機械学習部3205は、監視運用システム313、314における教師データ31330から障害対策データを含む識別モデルを作成する。更に機械学習部3205は、障害発生時の障害区分/障害対策の判定も行う。
障害対策データ格納部(DB)3204は、障害対策データを格納する。
【0080】
図8は、
図7の実施例における教師データの構成例を示すテーブルである。
本例では、教師データとして、検知した障害31331、取得データ31332、障害区分31333に加えて障害対策31334が含まれる。
【0081】
障害対策31334は、例えば、競合プロセス確認ポート変更、通信ツーと変更部、不足リソース算出・リソース追加、サーバ追加、ミラーサイト作成、ストレージ高速化、などである。
【0082】
図9は、
図7の実施例2における処理手順を説明するフローチャートである。
図9のフローチャートに基づく動作は以下のとおりである。
【0083】
ステップS1001:演算装置3134は、障害検知有無を判定する。当該ステップにて障害を検知した場合(YES)は、ステップS1002に進み、障害を検知しなかった場合(NO)は、処理を終了する。
ステップS1002:演算装置3134は、取得したデータの中から、パフォーマンスやログデータを取得する。
ステップS1003:演算装置3134は、取得したデータを機械学習により障害区分/障害対策を判定する。つまり、ステップS1002にて取得した障害時の取得データと機械学習区分により障害区分および障害対策を判定する。
ステップS1004:演算装置3134は、ステップS1003における結果を受けて、障害区分有無を判定する。当該ステップにて障害区分有り(YES)の場合は、ステップS1005に進み、無い場合(NO)は、ステップS1010に進む。
ステップS1005:演算装置3134は、障害対策有無を判定する。当該ステップにて障害対策有り(YES)の場合は、ステップS1006に進み、障害対策無い場合(NO)は、ステップS1010に進む。
ステップS1006:演算装置3134は、ステップS1005にて、障害対策が有るとき、製品の障害を解消すべき障害対策処理を実行する。
ステップS1007:演算装置3134は、ステップS1006にて実行した障害対策により障害が回復したか否かを判定する。当該ステップにて、障害回復の場合(YES)は、処理を終了し、障害回復できない場合(NO)には、ステップS1010に進む。
ステップS1010:製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、製品のサポートフロー(
図11参照)を実行する。
【0084】
図10は、
図9におけるサポートフローの処理手順を説明するフローチャート。
図10のフローに基づく動作は以下のとおりである。
【0085】
ステップS10101:製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、各監視運用システム313、314から障害対策調査用データ収集、つまり障害発生環境の機密情報込みデータを取得する。
ステップS10102:製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、障害対策調査実行し、調査内容/判定結果を当該システムのデータベース(DB)に登録する。
ステップS10103:製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、障害対策を実行する。
ステップS10104:製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、ステップS10103における障害対策の実行により障害が回復したか否かを判定し、障害が回復している場合(YES)は、次のステップS10105に進み、回復していない場合(NO)は、ステップS10101に戻り、上記各ステップを繰り返す。
ステップS10105:製品サポートシステム(製品Cサポートシステム、製品Dサポートシステム)320は、各監視運用システム313、314にて監視して得た障害に対する障害対策データ作成を作成し、当該障害対策データを当該システムのデータベース(DB)に登録する。
【0086】
図11は、実施例2における障害検知の有無にかかわらず定期的に障害区分を判定するフローチャートである。
図11のフローに基づく動作は、
図9におけるステップS1001がない点であるので、同一ステップには同一符号を付与して説明を省略する。
【0087】
図12は、障害区分/障害対策判定を説明する図である。
実施例1では、例えば、ポート競合によるWEBサイトアクセス不可の場合における障害区分(ポート競合が発生していること)は把握できる。しかし、その対策が決まっていない状況にある場合、実施例2に示すようにサポートシステム320(
図9のステップS1010におけるサポートフロー)と連携し、当該フローにより作成される障害対策データと各監視運用システムからのデータを元に教師データを作成することにより、より精度の高い障害区分/対策を判定することが可能となる。
【0088】
例えば、障害の種類31331が、
図12に示すようにポート競合によるWEBサイトアクセス不可の現象である場合、取得したデータのサービス内容が同様な数値であっても、サービスログ、システムログによっては、障害区分におけるポート競合は、ポート競合(TCP80番)と、ポート競合(TCP1399番)の2通りに細分化される。また、障害区分に併せて、その対策も異なり重複機能WEBサービスのポート変更と、ABC.exeプロセス停止の2通りに細分化される。
このようにサポートフローにより、蓄積された障害区分/障害対策も含むデータを教師データとすることで、教師データ作成のための工数が不要となるだけでなく、精度の高い障害区分/対策を判定できるようになる。
【0089】
図13は、
図1における環境Aの監視運用システム313および
図7におけるサポートシステム(製品Cサポートシステム)320から環境Bの監視運用システム314へリソース、サポートシステム320(製品Cサポートシステム321)からサポートシステム320(製品Dサポートシステム)322へのリソースを貸与する様子を模式的に示した図である。また、障害発生時における対策処理を説明する図でもある。
【0090】
統合監視運用システム310とサポートシステム320間でリソース(含サーバ)の貸与が可能とすることにより、統合監視運用システム310とサポートシステム320で使用しているリソースを効率的に活用できる。
本例では、環境Aの監視運用システム313のリソースと製品Cサポートシステム321のリソースを環境Bの監視運用システム314に貸与し、また、製品Cサポートシステム321のリソースを製品Dサポートシステム322に貸与したものである。
【0091】
このように障害が発生した場合、当該障害の対策に必要とするリソースが十分でない各システムがあれば、他のシステムのリソースを貸与することにより、システム全体として効率に活用できる。
【0092】
ここで、各環境A、Bに対応する監視運用システム313,314は、それぞれ製品サポート対応の情報(含機密情報)を格納している。製品サポート対応の情報には、障害区分31333だけでなく、その発生した障害の対策方法31334も含まれている場合がある。つまり、製品の障害判定結果とその判定での対策方法(パターン1、2)を共有することができる(
図9参照)。
これにより、各監視運用システム313、314は、障害判定結果に基づく対策を実施することができる。ここで、対策ができない場合、つまり、製品サポートシステム320(製品Cサポートシステム321)への連絡(通報)が必要と判定した場合には、製品サポートシステム320(製品Cサポートシステム321)へ直接通報し、サポートフローを実行することも可能である。
すなわち、監視運用システム313,314は、それぞれ、各環境における製品に障害が発生した場合、当該障害の判定結果に応じた以下のようなパターン1、2の対応処理を実行する機能を有する。
【0093】
パターン1:
例えば、環境Bの監視運用システム314にて、製品Cの障害を検知し、その判定結果、製品Cサポートシステム321への問合せが必要と判定した場合、製品Cサポートシステム321へ調査依頼をメール等により通報(連絡)する。
当該通報(調査依頼)を受けた製品Cサポートシステム321は、監視運用システム314における製品サポート情報を使って調査を開始する。このときの調査データは、環境Bのデータ群から必要なデータのみを取得する。この取得したデータには、機密情報があっても問題ない。
このように監視運用システムとサポートシステムを連携することにより、障害の検知から、障害分析(原因特定)/障害対策実施までを自動化する。
【0094】
パターン2:
また、環境Bの監視運用システム314にて、製品Cの障害を検知し、その判定結果、判定に対策ありの場合には、当該監視運用システム314において、その対策方法に含まれる情報に基づく対策を実施する。
【0095】
上述した実施例によれば、以下のような効果が期待できる。
(1)複数の環境から取得した情報をもとに教師データ(共有データ)を作成することで、様々な状況の教師データを短期間に作成することができる。
(2)共有データの作成にあたり、機密情報に対する情報漏洩の対策が必要ないため、対策コストを抑えられる。
(3)障害区分判定を定期的に行えば、監視運用システムが障害を検知していない障害を予測できる場合がある。そのため、監視ソフトが異なるなどの理由により、他の環境より検知できる障害が少ない場合でも、本システムにより障害予測できる場合がある。
(4)本システムによる監視運用を開始した新規の環境では、導入後すぐに分析(障害区分の判定)を利用できる。通常は、教師データを作成するまでは、機械学習による判定はできないが、本システムでは、すでに作成済の他環境の教師データを利用することで、機械学習による判定が可能となり、その期間を必要としない。
(5)本システムでは機密情報を含む情報を、特別な情報漏洩対策(削除/置換)することなく教師データ(共有データ)から障害区分を判定することができるため、商品別の売上予測など監視システム以外の利用も可能である。例えば、複数の異なるスーパーマーケットの在庫管理を行う場合、商品別の売上予測などを行える。また、予測結果など判定した結果には、機密情報を含まないので、競合他社の売り上げ情報を相互に利用することもできる。
(6)機密情報を含む情報を情報漏洩なく情報を共有化することで、リソースの使用状況を比較し、場合によっては別環境の監視運用システムへのリソースの貸し出しや借り入れを行うことができる (貸し借りをしているだけで、監視システム全体の規模は変わっていない)。
【0096】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。