(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024141095
(43)【公開日】2024-10-10
(54)【発明の名称】イベント管理プログラム、イベント管理方法、および情報処理装置
(51)【国際特許分類】
G06F 11/07 20060101AFI20241003BHJP
【FI】
G06F11/07 193
G06F11/07 140A
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023052558
(22)【出願日】2023-03-29
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】福田 雅広
(72)【発明者】
【氏名】中村 冴子
(72)【発明者】
【氏名】梅澤 侑生
(72)【発明者】
【氏名】廣田 直弥
(72)【発明者】
【氏名】下田 雄太
(72)【発明者】
【氏名】近藤 沙綾子
(72)【発明者】
【氏名】下川 健一郎
【テーマコード(参考)】
5B042
【Fターム(参考)】
5B042KK13
5B042KK17
5B042KK20
5B042MA08
5B042MA14
5B042MC35
5B042MC40
(57)【要約】
【課題】イベントに対する運用担当者の対処し易さを容易に把握できるようにする。
【解決手段】情報処理装置10は、コンピュータシステム1a,1b,1cで発生した新規イベントの発生日時および属性を示す新規イベント情報5を取得する。情報処理装置10は、運用担当者2~4が対処した過去イベントの発生日時および属性を示す過去イベント情報11aに基づいて、過去イベントのうち、新規イベントと属性に共通性のある第1の過去イベントを特定する。情報処理装置10は、第1の過去イベントの発生日時と新規イベントの発生日時との差分を計算する。そして情報処理装置10は、差分に基づいて、新規イベントへの運用担当者の対処容易度を計算する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータシステムで発生した新規イベントの発生日時および属性を示す新規イベント情報を取得し、
運用担当者が対処した過去イベントの発生日時および属性を示す過去イベント情報に基づいて、前記過去イベントのうち、前記新規イベントと属性に共通性のある第1の過去イベントを特定し、
前記第1の過去イベントの発生日時と前記新規イベントの発生日時との差分を計算し、
前記差分に基づいて、前記新規イベントへの前記運用担当者の対処容易度を計算する、
処理をコンピュータに実行させるイベント管理プログラム。
【請求項2】
前記対処容易度を計算する処理では、前記差分が大きいほど前記対処容易度を低い値とする、
請求項1記載のイベント管理プログラム。
【請求項3】
前記対処容易度を計算する処理では、前記運用担当者のイベントへの対処能力を示す第1の係数に基づいて、前記対処容易度を計算する、
請求項1記載のイベント管理プログラム。
【請求項4】
前記対処容易度を計算する処理では、前記新規イベントと前記過去イベントとの発生元に関する属性の同一性が高いほど高い値となる第2の係数と、前記第1の係数とに基づいて、前記対処容易度を計算する、
請求項3記載のイベント管理プログラム。
【請求項5】
前記運用担当者が複数存在する場合、前記第1の過去イベントを特定する処理、前記差分を計算する処理、および前記運用担当者ごとの前記第1の係数に基づいて前記対処容易度を計算する処理を、前記運用担当者ごとに実行し、
前記対処容易度に基づいて対処するのが適切と判断される第1の運用担当者が前記新規イベントに対処したのか、前記第1の運用担当者以外の第2の運用担当者が前記新規イベントに対処したのかに基づいて、前記運用担当者ごとの前記第1の係数の値を更新する、
請求項3記載のイベント管理プログラム。
【請求項6】
前記第1の過去イベントを特定する処理では、前記新規イベントと同じソフトウェアによる同じメッセージの前記過去イベントを、前記第1の過去イベントとして特定する、
請求項1記載のイベント管理プログラム。
【請求項7】
前記第1の過去イベントを特定する処理では、前記新規イベントと発生元のシステムが共通の前記過去イベントを、前記第1の過去イベントとして特定する、
請求項1記載のイベント管理プログラム。
【請求項8】
前記対処容易度を計算する処理では、前記第1の過去イベントが複数特定された場合、前記第1の過去イベントそれぞれについて、前記差分に基づいて、前記第1の過去イベントの評価値を計算し、前記第1の過去イベントごとの前記評価値の合計を前記対処容易度とする、
請求項1記載のイベント管理プログラム。
【請求項9】
コンピュータシステムで発生した新規イベントの発生日時および属性を示す新規イベント情報を取得し、
運用担当者が対処した過去イベントの発生日時および属性を示す過去イベント情報に基づいて、前記過去イベントのうち、前記新規イベントと属性に共通性のある第1の過去イベントを特定し、
前記第1の過去イベントの発生日時と前記新規イベントの発生日時との差分を計算し、
前記差分に基づいて、前記新規イベントへの前記運用担当者の対処容易度を計算する、
処理をコンピュータが実行するイベント管理方法。
【請求項10】
コンピュータシステムで発生した新規イベントの発生日時および属性を示す新規イベント情報を取得し、運用担当者が対処した過去イベントの発生日時および属性を示す過去イベント情報に基づいて、前記過去イベントのうち、前記新規イベントと属性に共通性のある第1の過去イベントを特定し、前記第1の過去イベントの発生日時と前記新規イベントの発生日時との差分を計算し、前記差分に基づいて、前記新規イベントへの前記運用担当者の対処容易度を計算する処理部、
を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、イベント管理プログラム、イベント管理方法、および情報処理装置に関する。
【背景技術】
【0002】
運用中のコンピュータシステムは、運用担当者によって動作状況が監視される。システムの監視作業では、複数のシステムから発生する大量のイベントを、例えば複数の運用担当者が確認する。
【0003】
システムの監視を支援する技術としては、例えば、状況や目的によって変化する必要なアラートを、容易に設定可能なフィルタ条件で選択して画面に表示するアラート表示装置が提案されている。複数のイベントが複合的に原因となる不具合の発生原因およびその対策を特定することを可能とするネットワーク運用管理システムも提供されている。機器等に発生した事象への対応を、より早く正確に実行できるようにユーザを支援する事象対応支援装置も提案されている。アラートの監視の負荷を軽減することが可能な監視装置も提案されている。情報システムの運用を安定的に行うことが可能な担当者割当装置も提案されている。さらに各トラブル事例情報に記載されているトラブルの様々な要因に立脚したトラブル回避難易度を適切に判定することが可能なトラブル情報分析プログラムも提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015-87987号公報
【特許文献2】特開2012-234381号公報
【特許文献3】特開2014-130499号公報
【特許文献4】特開2020-144954号公報
【特許文献5】特開2020-113022号公報
【特許文献6】特開2007-199809号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
システムで発生するイベントの中には対処が容易なものと対処が難しいものとが混在している。そこで、例えばイベントの対処難易度を個別に事前定義しておくことが考えられる。この場合、運用担当者は、発生したイベントに対して予め定義された対処難易度を参照することで、そのイベントへの対処し易さを把握できる。
【0006】
しかし、イベントへの対処は、ある運用担当者にとっては難しくても他の運用担当者にとっては簡単など、対処のし易さが人によって異なる。また同じ運用担当者でも、長期間対処していないイベントだと対処難易度は高くなる。そのため、イベントごとに事前定義された対処難易度を運用担当者に提示するだけでは、運用担当者は、発生したイベントに対する対処し易さを正しく把握することができない。
【0007】
1つの側面では、本件は、イベントに対する運用担当者の対処し易さを容易に把握できるようにすることを目的とする。
【課題を解決するための手段】
【0008】
1つの案では、以下の処理をコンピュータに実行させるイベント管理プログラムが提供される。
コンピュータは、コンピュータシステムで発生した新規イベントの発生日時および属性を示す新規イベント情報を取得する。コンピュータは、運用担当者が対処した過去イベントの発生日時および属性を示す過去イベント情報に基づいて、過去イベントのうち、新規イベントと属性に共通性のある第1の過去イベントを特定する。コンピュータは、第1の過去イベントの発生日時と新規イベントの発生日時との差分を計算する。そしてコンピュータは、差分に基づいて、新規イベントへの運用担当者の対処容易度を計算する。
【発明の効果】
【0009】
1態様によれば、イベントに対する運用担当者の対処し易さを容易に把握することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】第1の実施の形態に係るイベント管理方法の一例を示す図である。
【
図3】運用管理サーバのハードウェアの一例を示す図である。
【
図4】イベントに対処する運用担当者を適切に決定するのが困難となる場合の一例を示す図である。
【
図5】クラウドシステムにおけるイベントの発生元の一例を示す図である。
【
図6】監視システムにおけるイベント監視用の機能の一例を示す図である。
【
図10】監視処理の手順の一例を示すフローチャートである。
【
図11】対処容易度算出処理の手順の一例を示すフローチャートである。
【
図12】対処実績評価値算出処理の手順の一例を示すフローチャートである。
【
図13】発生元評価値算出処理の手順の一例を示すフローチャートである。
【
図15】日時係数フィードバック処理の手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第1の実施の形態〕
第1の実施の形態は、イベントに対する運用担当者の対処し易さを容易に把握することが可能なイベント管理方法である。
【0012】
図1は、第1の実施の形態に係るイベント管理方法の一例を示す図である。
図1には、イベント管理方法を実現する情報処理装置10が示されている。情報処理装置10は、例えばイベント管理プログラムを実行することにより、イベント管理方法を実施することができる。
【0013】
情報処理装置10は、記憶部11と処理部12とを有する。記憶部11は、例えば情報処理装置10が有するメモリまたはストレージ装置である。処理部12は、例えば情報処理装置10が有するプロセッサまたは演算回路である。
【0014】
記憶部11は、過去イベント情報11a、第1の係数11b、および第2の係数を記憶する。
過去イベント情報11aは、コンピュータシステム1a,1b,1c(以下、単にシステムと呼ぶこともある)で過去に発生して運用担当者2~4が対処した過去イベントを示す情報である。例えば過去イベント情報11aには、過去イベントの発生日時、イベントの属性(発生元のシステム、発生元のソフトウェアの種別、メッセージ)、対処した担当者名などが含まれる。発生元のシステム、発生元のソフトウェアの種別は、発生元に関する属性である。メッセージは、イベントの発生原因、発生した理由、起きた事象に関する属性である。メッセージに代えて、例えばエラーコードが用いられてもよい。
【0015】
第1の係数11bは、運用担当者2~4それぞれのイベントへの対処能力を示す情報である。第2の係数11cは、新規イベントと過去イベントとの発生元に関する属性の同一性の度合いに応じた値を示す情報である。例えば第2の係数11cとして、発生元のシステムとソフトウェアの種別とが同一の場合、システムのみが同一の場合のそれぞれに対応する値が設定されている。
【0016】
処理部12は、コンピュータシステム1a,1b,1cで発生した新規イベントを示す新規イベント情報5を取得する。新規イベント情報5には、イベントが発生した日時、発生元のシステム、発生元のソフトウェアの種別、イベントの内容を示すメッセージなどが含まれる。処理部12は、運用担当者2~4それぞれについて、過去イベント情報11aに基づいて、その運用担当者が対処した過去イベントのうち、新規イベントと属性に共通性のある第1の過去イベントを特定する。属性に共通性のある第1の過去イベントとは、例えば新規イベントと同じソフトウェアによる同じメッセージの過去イベントである。また処理部12は、新規イベントと発生元のシステムが共通の過去イベントを、第1の過去イベントとして特定することもできる。
【0017】
処理部12は、第1の過去イベントの発生日時と新規イベントの発生日時との差分を計算する。そして処理部12は、計算した差分に基づいて、新規イベントへの運用担当者の対処容易度を計算する。例えば処理部12は、差分が大きいほど対処容易度を低い値とする。
【0018】
処理部12は、計算した対処容易度を示す対処容易度情報6を、運用担当者2~4それぞれが使用する端末のモニタに表示させる。対処容易度情報6には、新規イベントに対する運用担当者2~4の対処の優先順位が示されている。対処容易度が高い運用担当者ほど対処の優先順位が高い。運用担当者2~4は、対処容易度情報6を参照することで、新規イベントに対する自身の対処し易さ、および対処するのに適しているのが誰なのかを容易に把握することができる。
【0019】
しかも対処容易度は、新規イベントと属性に共通性のある過去のイベントを対処してから経過した期間が長いほど低い値となる。そのため、同様のイベントへの対処経験の時間による忘却を反映させた対処容易度が得られる。
【0020】
なお処理部12は、運用担当者2~4のイベントへの対処能力を示す第1の係数11bに基づいて、対処容易度を計算することができる。例えば処理部12は、運用担当者2~4それぞれの第1の係数の値(0以上1未満の実数)を底とし、発生日時の差分を冪指数とした冪乗の値を、対処容易度とする。また、対処容易度は、第1の係数の値が大きいほど高い値となる。これにより、運用担当者2~4それぞれについて、イベント全般への対処能力の高さを反映させた対処容易度が得られる。
【0021】
処理部12は、新規イベントと過去イベントとの発生元に関する属性の同一性が高いほど高い値となる第2の係数11cと、第1の係数11bとに基づいて、対処容易度を計算することもできる。例えば処理部12は、運用担当者2~4それぞれの第1の係数の値を底とし、発生日時の差分を冪指数とした冪乗の値を計算する。処理部12は、運用担当者2~4それぞれについて計算した冪乗の値に、その運用担当者が対処した過去イベントと新規イベントとの発生元の属性の同一性に応じた第2の係数の値を乗算し、乗算結果を対処容易度とする。このように処理部12は、イベント間の発生元の属性の同一性を用いて対処容易度を計算することで、発生元の属性の同一性が高い過去イベントに対処した経験のある運用担当者ほど、対処容易度を高くすることができる。
【0022】
図1の例では、「担当者A」は、新規イベント情報5に示される新規イベントと同一のイベントに対処したことがある。そのため「担当者A」が対処した過去イベント(過去イベント情報11aの先頭のイベント)に基づいて、「担当者A」の対処容易度が計算されている。すなわち「担当者A」の第1の係数の値「a1」を底とし、発生日時の差分「n1=T4-T1」を冪指数とした冪乗の値「a1
n1」が、「担当者A」の対処容易度となる。
【0023】
「担当者B」は、新規イベント情報5に示される新規イベントと同じシステムを発生元とするイベントに対処したことがある。そのため「担当者B」が対処した過去イベント(過去イベント情報11aの2つ目のイベント)に基づいて、「担当者B」の対処容易度が計算されている。なお発生元のシステムが同じ場合の第2の係数の値は「0.1」である。そこで「担当者B」の第1の係数の値「a2」を底とし、発生日時の差分「n2=T4-T2」を冪指数とした冪乗の値「a2n2」に第2の係数の値「0.1」を乗算した結果「a2n2×0.1」が、「担当者B」の対処容易度となる。
【0024】
「担当者C」は、新規イベントと同一のイベントも、発生元の属性の同一性を有するイベントも対処した経験がない。そのため、「担当者C」の対処容易度は「0」となる。
なお、処理部12は、ある運用担当者について第1の過去イベントが複数特定された場合、特定された第1の過去イベントそれぞれについて、差分に基づいて、第1の過去イベントの評価値を計算する。そして処理部12は、第1の過去イベントごとの評価値の合計を対処容易度とする。これにより、新規イベントと同じイベントまたは発生元の属性の同一性があるイベントを多く対処した運用担当者ほど、対処容易度が高くなる。
【0025】
また、処理部12は、
図1に示すように運用担当者2~4が複数存在する場合、第1の過去イベントを特定する処理、差分を計算する処理、および運用担当者ごとの第1の係数に基づいて対処容易度を計算する処理を、運用担当者ごとに実行する。このとき、処理部12は、新規イベントに対して誰が対処したのかにもとづいて、運用担当者ごとの第1の係数11bの値を更新してもよい。例えば処理部12は、対処容易度に基づいて対処するのが適切と判断される第1の運用担当者が新規イベントに対処したのか、第1の運用担当者以外の第2の運用担当者が新規イベントに対処したのかに基づいて、第1の係数11bの値を更新する。これにより第1の係数11bの値が動的に更新され、対処容易度の精度が向上する。
【0026】
〔第2の実施の形態〕
第2の実施の形態は、クラウドコンピューティングシステム(以下、クラウドシステムと呼ぶ)を利用してサービスを提供する企業の運用担当者によるサービスの運用状況の監視を支援する監視システムである。
【0027】
図2は、監視システムの一例を示す図である。クラウドシステム200は、複数のサーバ210,220,230で構成される。各サーバ210,220,230は、ネットワーク20に接続されている。ネットワーク20には、さらに運用管理サーバ100と端末31~33が接続されている。運用管理サーバ100は、クラウドシステム200上で運用されているサービスを監視するためのコンピュータである。端末31~33は、運用管理サーバ100を利用して、発生したイベントを確認し、そのイベントに対する対処する運用担当者41~43が利用するコンピュータである。
【0028】
図3は、運用管理サーバのハードウェアの一例を示す図である。運用管理サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現してもよい。
【0029】
メモリ102は、運用管理サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、例えばRAM(Random Access Memory)などの揮発性の半導体記憶装置が使用される。
【0030】
バス109に接続されている周辺機器としては、ストレージ装置103、GPU(Graphics Processing Unit)104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
【0031】
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置103は、運用管理サーバ100の補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
【0032】
GPU104は画像処理を行う演算装置である。GPU104は、グラフィックコントローラの一例である。GPU104には、モニタ21が接続されている。GPU104は、プロセッサ101からの命令に従って、画像をモニタ21の画面に表示させる。モニタ21としては、有機EL(Electro Luminescence)を用いた表示装置や液晶表示装置などがある。
【0033】
入力インタフェース105には、キーボード22とマウス23とが接続されている。入力インタフェース105は、キーボード22やマウス23から送られてくる信号をプロセッサ101に送信する。なお、マウス23は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
【0034】
光学ドライブ装置106は、レーザ光などを利用して、光ディスク24に記録されたデータの読み取り、または光ディスク24へのデータの書き込みを行う。光ディスク24は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク24には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)などがある。
【0035】
機器接続インタフェース107は、運用管理サーバ100に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース107には、メモリ装置25やメモリリーダライタ26を接続することができる。メモリ装置25は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ26は、メモリカード27へのデータの書き込み、またはメモリカード27からのデータの読み出しを行う装置である。メモリカード27は、カード型の記録媒体である。
【0036】
ネットワークインタフェース108は、ネットワーク20に接続されている。ネットワークインタフェース108は、ネットワーク20を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース108は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース108は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。
【0037】
運用管理サーバ100は、以上のようなハードウェアによって、第2の実施の形態の処理機能を実現することができる。なお、第1の実施の形態に示した情報処理装置10も、
図3に示した運用管理サーバ100と同様のハードウェアにより実現することができる。
【0038】
運用管理サーバ100は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施の形態の処理機能を実現する。運用管理サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、運用管理サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。また運用管理サーバ100に実行させるプログラムを、光ディスク24、メモリ装置25、メモリカード27などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
【0039】
以上のような監視システムにより、運用担当者41~43は、クラウドシステム200上のサービスの運用状況を監視することができる。システム監視では、複数のサーバ210,220,230から発生する大量のイベントを複数の運用担当者41~43が手分けして確認する。
【0040】
以下、
図4を参照し、複数の運用担当者41~43によるシステム監視において、イベントの対処する運用担当者を適切に決定することの困難性について説明する。
図4は、イベントに対処する運用担当者を適切に決定するのが困難となる場合の一例を示す図である。
図4の例では、サーバ210でイベントが発生した場合が想定されている。イベントが発生すると、サーバ210は、イベントの発生を示すアラート51を出力する。アラート51には、例えばイベント発生元のアプリケーション(以下、アプリと呼ぶ)の種別、新規イベントを示すメッセージなどが含まれる。
【0041】
発生するイベントの中には対処が容易なものや対処が難しいものが混在する。そこで、イベントの対処の難易度を個別に事前定義しておくことができる。例えばサーバ210で動作している複数のアプリそれぞれで発生するイベントの種別ごとに、そのイベントメッセージのひな型またはイベントメッセージ内の特定ワードに応じた難易度が事前定義されているものとする。この場合、運用担当者41~43は、アラート51に示されるイベントの情報に基づいて、新規イベントの難易度を判定することが可能である。
【0042】
図4の例では、難易度「中」と判定されている。しかしイベントの対処の難易度は、ある担当者にとっては難しくても他の人にとっては簡単など、運用担当者によって異なる。
例えば運用担当者41は業務経験の長いベテランの担当者であり、運用担当者42は、ある程度の経験を積んだ中堅の担当者であり、運用担当者43は経験が浅い新人の担当者であるものとする。このとき運用担当者41は、新規イベントを簡単に対処することができる。他方、運用担当者42は、新規イベントと同様のイベントへの対処経験はあるものの、その経験から時間が経っているものとする。その場合、運用担当者42は、過去に行った対処方法を部分的に忘れてしまっており、対処に時間を要する可能性がある。運用担当者43については、経験と知識が不足しており、新規イベントへの対処ができない。
【0043】
このようにイベントに設定された対処難易度が「中」であっても、実際の難易度は運用担当者ごとに異なる。しかも同じ運用担当者でも、長期間対処していないイベントだと対処難易度は高くなる。そのため、従来の事前定義に基づく固定的な方法では、イベントの難易度を適切に設定することができない。
【0044】
発生するイベントの数が少なければ、新規イベントごとにベテランの運用担当者が、そのイベントを対処する運用担当者を決めることも可能である。しかし多くのユーザにサービスを提供するシステムでは、大量のイベントが発生する。大量のイベントの振りわけを人手で行うのは困難である。
【0045】
なお、監視システムでは、大量のイベントを監視する場合、事前に定義したフィルタリング定義を適用することにより対処不要なイベントを表示させないことも可能である。ただし、フィルタリングにより対処するイベント数を絞り込むことができたとしても、システムの規模が大きくなれば、発生するイベントの種類が多くなる。そして、新規イベントに対する各運用担当者の対処の難易度の正しい判断は、イベントの種類が多くなるほど困難となる。
【0046】
図5は、クラウドシステムにおけるイベントの発生元の一例を示す図である。例えばオンプレミスで運用されているサーバ240でVM(Virtual Machine)240aが構築される。そしてVM240a上で動作するアプリ241~243によりサービスが提供される。この場合であれば、1人の運用担当者40が全体を監視することも可能である。
【0047】
それに対して、パブリッククラウドやコンテナなどの仮想化技術の発展によって、クラウドシステム200では、仮想化技術を駆使してサービスを提供している場合が多い。例えばクラウドシステム200でVM201aが構築される。そしてVM201a上でコンテナ204~206が構築され、サービスの実現に用いるアプリ201~203それぞれがコンテナ204~206で実行される。
【0048】
このような仮想化技術を駆使したクラウドシステム200では、イベントの発生元が多種にわたる。例えばクラウドサービスの運用上のイベント、VMの動作上のイベント、コンテナの動作上のイベント、アプリ動作上のイベントなどである。このように、イベントの発生元が多種となる場合、イベントごとの対処方法も様々となり、1人の運用担当者で対処するのは困難である。
【0049】
そこで、例えばイベント発生元の種別ごとに対処する運用担当者を割り当てることが考えられる。
図5の例では、運用担当者41は主にアプリ201~203の監視を行い、運用担当者42は主に実行環境(VM、コンテナなど)の監視を行い、運用担当者43は、主にサービスの監視を行う。このようにクラウドシステム200では、イベント発生元ごとに、そのイベントを主として対処する運用担当者41~43が割り当てられる。この場合、運用担当者41~43それぞれの端末31~33に、運用担当者41~43ごとに異なるイベントを対処の対象として表示することが求められる。
【0050】
運用担当者41~43それぞれが主として担当するイベント発生元が固定的であれば、運用担当者41~43とイベント発生元との対応関係を運用管理サーバ100に予め設定することで、新規イベントの振りわけ先を容易に決定できる。しかし、あるイベント発生元からの新規イベントであっても、そのイベント発生元のイベントを主として対処する運用担当者以外の運用担当者が対処するのが適切な場合もある。例えばアプリ201で新規イベントであっても、そのイベントが発生した原因はコンテナ204内に存在する場合、そのイベントについては、主として実行環境監視を行う運用担当者42が対処するのが適切である。
【0051】
このように、イベント発生元の種別だけでは、対処するのに適切な運用担当者を正しく判断することは困難である。そこで運用管理サーバ100は、イベント発生元の種別とメッセージとに基づいて、対処するのに適切な運用担当者を判定する。
【0052】
なお、イベント発生元それぞれからは、多種多様のメッセージのイベントが発生する。またイベント発生元のバージョンアップなどにより、メッセージの内容が変更される場合もあり得る。そのため、発生する可能性のあるイベントのすべてのメッセージについて、そのメッセージのイベントに対する適切な運用担当者を予め設定しておくことは困難である。
【0053】
ここで、各運用担当者41~43が過去に対処したイベントの情報を、運用管理サーバ100で蓄積することができる。この場合、新規イベントと、イベント発生元のソフトウェアおよびメッセージが同じ過去のイベント(同一イベント)に対処した運用担当者を、新規イベントに対する適切な運用担当者と判定することが考えられる。しかし、新しく発生したイベントが過去に発生したイベントと同一イベントでない限り、イベント発生元の種別とメッセージだけでは、どの運用担当者が担当すべきかを明確に運用管理サーバ100で判断することは難しい。そこで運用管理サーバ100では、新しく発生した新規イベントに対して運用担当者41~43ごとの対処し易さを動的に計算する。また、ある運用担当者が過去に対処したイベントと同一イベントが発生した場合でも、その運用担当者が該当イベントと同一イベントを長期間対処していない場合、対処の難易度は上がる(対処の容易度は下がる)。そこで運用管理サーバ100は、新規イベントと同一イベントについての各運用担当者41~43の過去の対処日時からの経過時間に応じた対処容易度を計算する。
【0054】
例えば運用管理サーバ100は、新規イベントに対して、運用担当者ごとの対処容易度を算出してフィルタリングする。運用管理サーバ100は、対処容易度の算出には「日時係数」と「発生元係数」とを利用する。
【0055】
日時係数は、運用担当者ごとに設定される値であり、その運用担当者のイベント全般への対処能力を数値化したものである。日時係数は、対処実績評価値の算出に利用される。例えばある担当者の日時係数をa、その担当者が対処済みのイベントと新規に発生した同一のイベントとの発生日時の差分をnとしたとき、その担当者の対処実績評価値はanとなる。対処実績評価値は、運用担当者が発生イベントと同一のイベントの対処を過去に行ってからどれくらい時間が経過しているかに応じて、対処容易度を上げるために用いられる。
【0056】
発生元係数は、イベント発生元の同一性の度合いごとに設定される値である。例えばイベント発生元のシステムと種別が同一の場合の発生元係数と、イベント発生元のシステムが同一であるが種別が異なる場合の発生元係数とが設定される。発生元係数は、発生元評価値の算出に利用される。例えば新規イベントについてのある運用担当者の対処実績評価値「an」に発生元係数を乗算した値が、発生元評価値となる。発生元評価値は、運用担当者が過去に対処したイベントと新規のイベントとの同一性が高い場合に対処容易度を上げるために用いられる。
【0057】
図6は、監視システムにおけるイベント監視用の機能の一例を示す図である。サーバ210は、OS211、アプリ212,213、およびエージェント214を有している。エージェント214は、OS211、アプリ212、またはアプリ213で発生したイベントを示すイベントメッセージを発生元から取得する。そしてエージェント214は、取得したイベントメッセージを含むアラートを、運用管理サーバ100に送信する。
【0058】
サーバ220は、OS221、アプリ222,223、およびエージェント224を有している。エージェント224は、OS221、アプリ222、またはアプリ223で発生したイベントを示すイベントメッセージを発生元から取得する。そしてエージェント224は、取得したイベントメッセージを含むアラートを、運用管理サーバ100に送信する。
【0059】
サーバ230は、OS231、アプリ232,233、およびエージェント234を有している。エージェント234は、OS231、アプリ232、またはアプリ233で発生したイベントを示すイベントメッセージを発生元から取得する。そしてエージェント234は、取得したイベントメッセージを含むアラートを、運用管理サーバ100に送信する。
【0060】
エージェント214,224,234が送信するアラートには、例えばイベント発生日時、イベント発生元のシステム名、イベント発生元のソフトウェアの種別、イベントメッセージなどが含まれる。またエージェント214,224,234は、メッセージのフィルタリングを行ってもよい。例えばエージェント214,224,234は、対処を要しないメッセージが発生してもアラートの送信は行わず、対処を要するメッセージが発生した場合にのみアラートを送信する。
【0061】
運用管理サーバ100は、記憶部110、イベント取得部120、対処容易度計算部130、イベント対処管理部140、および係数管理部150を有する。記憶部110は、日時係数テーブル111、発生元係数テーブル112、およびイベントテーブル113を有する。日時係数テーブル111は、運用担当者41~43ごとの日時係数を管理するためのデータテーブルである。発生元係数テーブル112は、発生元の同一性の高さごとの発生元係数を管理するためのデータテーブルである。イベントテーブル113は、発生したイベントとそのイベントに対処した担当者との対応関係を示すデータテーブルである。
【0062】
イベント取得部120は、サーバ210,220,230それぞれのエージェント214,224,234からイベントメッセージを含むアラートを取得する。イベント取得部120は、取得したアラートを対処容易度計算部130に送信する。
【0063】
対処容易度計算部130は、取得したアラートに示されるイベントの情報に基づいて、そのイベントへの運用担当者ごとの対処容易度を計算する。対処容易度計算部130は、例えば日時係数テーブル111と発生元係数テーブル112とを参照して、対処容易度を計算する。対処容易度計算部130は、計算した対処容易度をイベント対処管理部140に送信する。
【0064】
イベント対処管理部140は、新規イベントの情報を含むイベント詳細画面のデータを、端末31~33に送信する。またイベント対処管理部140は、端末31~33から、イベントへの対処完了を示す通知を受信し、その通知に基づいてイベントテーブル113を更新する。またイベント対処管理部140は、対処が完了したイベントを示す情報を、係数管理部150に送信する。
【0065】
係数管理部150は、対処が完了したイベントを示す情報に基づいて、日時係数テーブル111内の各運用担当者の日時係数を更新する。
なお、
図6に示した各機能要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、
図6に示した各機能要素が有する機能は、例えば、その機能要素に対応するプログラムモジュールをプロセッサ101に実行させることで実現することができる。
【0066】
以下、
図7~
図9を参照し、記憶部110に格納されている各データテーブルの内容について具体的に説明する。
図7は、日時係数テーブルの一例を示す図である。日時係数テーブル111には、運用担当者ごとのレコードが登録されている。各レコードには、運用担当者と値とのフィールドが含まれる。運用担当者のフィールドには、運用担当者の名称が設定される。値のフィールドには、運用担当者の日時係数を示す値が設定される。
【0067】
図8は、発生元係数テーブルの一例を示す図である。発生元係数テーブル112には、発生元の同一性の度合いごとのレコードが登録されている。各レコードには、係数名と値とのフィールドが含まれる。係数名のフィールドには、発生元の同一性の度合いに対応する発生元係数の識別名が設定される。例えば係数名「発生元係数1」は、イベントの発生元のシステムと種別が同じ場合に適用する発生元係数である。また係数名「発生元係数2」は、イベントの発生元のシステムが同じであるが種別は異なるが場合に適用する発生元係数である。値のフィールドには、発生元係数の値が設定される。
【0068】
図9は、イベントテーブルの一例を示す図である。イベントテーブル113には、発生したイベントごとのレコードが登録されている。各レコードには、日時、システム、種別、担当者、およびメッセージのフィールドが設けられている。日時のフィールドには、イベントが発生した日時が設定される。システムのフィールドには、イベントの発生元のシステムの名称が設定される。種別のフィールドには、イベントの発生元のソフトウェアの種別が設定される。種別には、「アプリ」、「コンテナ」、「ホスト」などがある。「ホスト」はホストOSを示す。担当者のフィールドには、イベントに対処した担当者の名称が設定される。メッセージのフィールドには、イベントのメッセージが設定される。
【0069】
なお、イベントテーブル113に設定されているシステム、種別、およびメッセージの各フィールドの情報は、対応するイベントの属性を示している。システムと種別は、送信元に関する属性である。メッセージは、そのイベントの発生した理由または原因に関する属性である。
【0070】
運用管理サーバ100は、このようなデータを用いて,イベントに対処する運用担当者41~43それぞれの容易度を動的に計算し、適切な運用担当者に対処を促すことができる。
【0071】
図10は、監視処理の手順の一例を示すフローチャートである。以下、
図10に示す処理をステップ番号に沿って説明する。
[ステップS101]イベント取得部120は、いずれかのサーバから、新規イベントの情報を取得する。例えばイベント取得部120は、いずれかのサーバからアラートを取得すると、そのアラートからイベントの情報を抽出する。
【0072】
[ステップS102]対処容易度計算部130は、対処容易度算出処理を実行する。対処容易度算出処理の詳細は後述する(
図11参照)。対処容易度算出処理の結果、運用担当者41~43それぞれの対処容易度が得られる。
【0073】
[ステップS103]イベント対処管理部140は、端末31~33それぞれに、運用担当者41~43の対処容易度を含むイベント詳細画面を表示させる。例えばイベント対処管理部140は、イベント詳細画面を示すデータを、端末31~33に送信する。すると、端末31~33それぞれでイベント詳細画面が表示される。この際、イベント対処管理部140は、イベントテーブル113に、新規イベントに対応するレコードを登録する。登録された時点では、レコードの担当者名のフィールドは空欄である。
【0074】
[ステップS104]イベント対処管理部140は、イベントに対処する担当者の担当者名の入力を受け付ける。例えば運用担当者41~43は、端末31~33に表示されたイベント詳細画面に基づいて、自身が対処するか否かを判断する。対処する運用担当者は、自身が使用する端末に、対処する担当者として自身の名称を入力する。端末は、対処する担当者の担当者名を、運用管理サーバ100に送信する。イベント対処管理部140は、端末から送られた担当者名を、イベントテーブル113の新規イベントの担当者名のフィールドに設定する。
【0075】
[ステップS105]イベント対処管理部140は、対処済みを示す情報の入力を受け付ける。例えばイベントの対処を担当した運用担当者は、対処が完了すると、自身が使用する端末に、対処が完了したことを示す入力を行う。入力を受けた端末は、運用管理サーバ100に、対処済みを示す情報を送信する。
【0076】
[ステップS106]係数管理部150は、日時係数フィードバック処理を実行する。日時係数フィードバック処理の詳細は後述する(
図15参照)。
このように、運用管理サーバ100は、対処容易度を含むイベント詳細画面を表示することができる。また、対処が完了すると、日時係数フィードバック処理によって、日時係数が最新の状態に更新される。
【0077】
次に、対処容易度算出処理について具体的に説明する。
図11は、対処容易度算出処理の手順の一例を示すフローチャートである。以下、
図11に示す処理をステップ番号に沿って説明する。
【0078】
[ステップS111]対処容易度計算部130は、未選択の運用担当者を選択する。
[ステップS112]対処容易度計算部130は、対処済みのイベント(過去イベント)を、選択した運用担当者が過去に対処したイベントに絞り込む。
【0079】
[ステップS113]対処容易度計算部130は、絞り込んだ過去イベントごとに、ステップS114~S118の処理を実行する。
[ステップS114]対処容易度計算部130は、処理対象の過去イベントが、新規イベントと同一イベントか否かを判断する。同一イベントとは、発生元の種別とメッセージが同じイベントである。対処容易度計算部130は、同一イベントであれば、処理をステップS115に進める。また対処容易度計算部130は、同一イベントでなければ、処理をステップS116に進める。
【0080】
[ステップS115]対処容易度計算部130は、対処実績評価値算出処理を行う。対処実績評価値算出処理の詳細は後述する(
図12参照)。その後、対処容易度計算部130は、処理をステップS118に進める。
【0081】
[ステップS116]対処容易度計算部130は、処理対象の過去イベントについて、新規イベントと発生元のシステムが同じか否かを判断する。対処容易度計算部130は、システムが同じであれば、処理をステップS117に進める。また対処容易度計算部130は、システムが異なれば、処理をステップS119に進める。
【0082】
[ステップS117]対処容易度計算部130は、発生元評価値算出処理を行う。発生元評価値算出処理の詳細は後述する(
図13参照)。
[ステップS118]対処容易度計算部130は、評価値(対処実績評価値または発生元評価値)を、選択した運用担当者の対処容易度に加算する。
【0083】
[ステップS119]対処容易度計算部130は、絞り込んだすべてのイベントについてステップS114~S118の処理が終了したら、処理をステップS120に進める。
[ステップS120]対処容易度計算部130は、未選択の運用担当者がいるか否かを判断する。対処容易度計算部130は、未選択の運用担当者がいる場合、処理をステップS111に進める。また対処容易度計算部130は、すべての運用担当者が選択済みであれば、対処容易度算出処理を終了する。
【0084】
このように、運用担当者が対処した過去イベントごとに計算した対処実績評価値または発生元評価値の合計が、その運用担当者の対処容易度となる。
次に、対処実績評価値算出処理について詳細に説明する。
【0085】
図12は、対処実績評価値算出処理の手順の一例を示すフローチャートである。以下、
図12に示す処理をステップ番号に沿って説明する。
[ステップS131]対処容易度計算部130は、計算対象の運用担当者が処理した過去イベントと新規イベントの発生日時の差分を算出する。例えば対処容易度計算部130は、過去イベントと新規イベントの発生日時の差分を、月単位(月数)で算出する。例えば、過去イベントの発生日時が1月前であれば、差分は「1」である。
【0086】
[ステップS132]対処容易度計算部130は、発生日時の差分に基づいて、過去イベント別日時係数を決定する。例えば対処容易度計算部130は、計算対象の運用担当者の日時係数を、日時係数テーブル111から取得する。そして対処容易度計算部130は、取得した日時係数をaとし、発生日時の差分をnとしたとき、過去イベント別日時係数を「an」とする。
【0087】
[ステップS133]対処容易度計算部130は、過去イベント別日時係数に基づいて、対処実績評価値を決定する。例えば対処容易度計算部130は、過去イベント別日時係数を対処実績評価値とする。なお対処容易度計算部130は、過去イベント別日時係数に所定の実数を乗算した値を対処実績評価値としてもよい。
【0088】
このようにして対処実績評価値が算出される。
次に、発生元評価値算出処理について詳細に説明する。
図13は、発生元評価値算出処理の手順の一例を示すフローチャートである。以下、
図13に示す処理をステップ番号に沿って説明する。
【0089】
[ステップS141]対処容易度計算部130は、計算対象の運用担当者が処理した過去イベントと新規イベントの発生日時の差分(n)を算出する。
[ステップS142]対処容易度計算部130は、発生日時の差分に基づいて、過去イベント別日時係数(an)を決定する。
【0090】
[ステップS143]対処容易度計算部130は、過去イベントと新規イベントとの同一性(システムと種別が同一、またはシステムが同一で種別が相違)に応じて発生元係数(b)を決定する。例えば対処容易度計算部130は、発生元係数テーブル112から、イベントの同一性に対応する発生元係数の値を取得する。
【0091】
[ステップS144]対処容易度計算部130は、過去イベント別日時係数と発生元係数とから、発生元評価値を決定する。例えば対処容易度計算部130は、「過去イベント別日時係数×発生元係数」を発生元評価値(an×b)とする。
【0092】
このようにして発生元評価値が算出される。発生元評価値の計算にも過去イベント別日時係数が用いられており、発生日時の差分が大きい程、発生元評価値は小さな値となる。
図11~
図13に示した処理により、新規イベントに対する運用担当者41~43それぞれの対処容易度が算出される。以下、対処容易度の計算例を示す。なお、各運用担当者41~43が対処した過去イベントは、
図9に示すイベントテーブル113の通りであるものとする。また、各運用担当者41~43の日時係数は、
図7に示した日時係数テーブル111に設定されている通りであり、イベントの同一性に応じた発生元係数は、
図8に示した発生元係数テーブル112に設定されている通りである。
【0093】
<第1の対処容易度計算例>
「2022/08/01 12:00」に「systemA」の「アプリ」で「CPU使用率が閾値を超えました」というメッセージの新規イベントが発生した場合を想定する。
【0094】
「担当者A」は、「2022/08/01」に、新規イベントと同じ過去イベントに対処している。この過去イベントと新規イベントとの発生日時の差分は「0」である。なお、サーバ210,220,230では様々な種類のアプリが実行されるが、イベントのメッセージの内容が同じであれば、それらのイベントの発生元は同一のアプリ(ソフトウェア)であるものとする。
【0095】
「担当者A」の日時係数は「0.9」である。この場合、対処実績評価値は「0.90=1」となる。また「担当者A」の発生元評価値は「0」である。そのため「担当者A」の対処容易度は「1+0=1」となる。
【0096】
「担当者B」は同一のイベントを対処した実績がなく、「担当者B」の対処実績評価値は「0」である。他方、「担当者B」は、「2022/07/01」に「systemA」の「ホスト」の過去イベントに対処している。この過去イベントと新規イベントとの発生日時の差分は「1」であり、「担当者B」の日時係数は「0.8」である。そのため過去イベント別日時係数は「0.81=0.8」となる。また「担当者B」が対処した過去イベントと新規イベントとの発生元の同一性は、システムのみ一致であり、発生元係数は「0.1」が適用される。その結果、「担当者B」の発生元評価値は「0.8×0.1=0.08」となる。そして「担当者B」の対処容易度は「0+0.08=0.08」となる。
【0097】
「担当者C」は、対処実績評価値および発生元評価値が「0」であり、対処容易度も「0」である。
以上の結果、第1の対処容易度計算例において対処容易度が最も高いのは「担当者A」となる。すなわち、「担当者A」が対処するのがよいと判断される。
【0098】
<第2の対処容易度計算例>
「2022/08/15 00:00」に「systemB」の「ホスト」で「不明なエラーが発生しました」というメッセージの新規イベントが発生した場合を想定する。
【0099】
「担当者A」は同一のイベントを対処した実績がなく、「担当者A」の対処実績評価値は「0」である。他方、「担当者A」は「2022/06/01 00:00」に「systemB」の「アプリ」の過去イベントに対処している。この過去イベントと新規イベントとの発生日時の差分は「2」であり、「担当者A」の日時係数は「0.9」である。そのため過去イベント別日時係数は「0.92=0.81」となる。また「担当者A」が対処した過去イベントと新規イベントとの発生元の同一性は、システムのみ一致であり、発生元係数は「0.1」が適用される。その結果、「担当者A」の発生元評価値は「0.81×0.1=0.081」となる。そして「担当者A」の対処容易度は「0+0.081=0.081」となる。
【0100】
「担当者B」は、対処実績評価値および発生元評価値が「0」であり、対処容易度も「0」である。
「担当者C」は同一のイベントを対処した実績がなく、「担当者C」の対処実績評価値は「0」である。他方、「担当者C」は「2022/02/01 00:00」、「2022/04/01 00:00」、「2022/07/01 00:00」に「systemB」の「ホスト」または「コンテナ」の過去イベントに対処している。「2022/02/01 00:00」に発生した過去イベントと新規イベントとの発生日時の差分は「6」である。「2022/04/01 00:00」に発生した過去イベントと新規イベントとの発生日時の差分は「4」である。「2022/07/01 00:00」に発生した過去イベントと新規イベントとの発生日時の差分は「1」である。「担当者C」が対処した各過去イベントに適用される発生元係数は、いずれも「0.1」である。そのため発生元評価値は「0.96×0.1+0.94×0.1+0.91×0.1=0.0531441+0.06561+0.09=0.2087541」となる。そして「担当者C」の対処容易度は「0+0.2087541=0.2087541」となる。
【0101】
以上の結果、第2の対処容易度計算例において対処容易度が最も高いのは「担当者C」、次に対処容易度が高いのは「担当者A」となる。すなわち、「担当者C」が対処するのが最もよく、次に「担当者A」に対処するのがよいと判断される。
【0102】
運用管理サーバ100は、運用担当者41~43が使用する端末31~33に、運用担当者41~43それぞれ対処容易度を含むイベント詳細画面を表示させる。これにより、運用担当者41~43は、対処を要する新規イベントについて、対処するのに適切な担当者を容易に認識することができる。
【0103】
図14は、イベント詳細画面の一例を示す図である。イベント詳細画面60には、番号表示部61、重要度表示部62、状態表示部63、システム表示部64、種別表示部65、表示名表示部66、日時表示部67、メモ表示部68、メッセージ表示部69、および対処者候補表示部70が含まれる。
【0104】
番号表示部61には、新規イベントの識別番号が表示される。重要度表示部62には、新規イベントの重要度が設定される。重要度は、例えばイベントの発生元によって設定される。また運用管理サーバ100においてイベントの内容を解析して重要度を設定してもよい。状態表示部63には、新規イベントの対処状態が設定される。例えば、どの運用担当者もそのイベントを確認していなければ、対処状態は「未確認」となる。またいずれかの運用担当者が対処した後は、状態は「対処済」となる。システム表示部64には、イベント発生元のシステムの名称が表示される。種別表示部65には、イベント発生元の種別が表示される。
【0105】
表示名表示部66には、端末にイベントの情報を通知した装置の名称が表示される。例えば表示名表示部66には、運用管理サーバ100の名称が表示される。日時表示部67には、イベントが発生した日時が表示される。メモ表示部68には、いずれかの運用担当者が入力したメモが表示される。例えば対処容易度が最も高い運用担当者は、他の運用担当者の方が対処するのが適切と判断した場合、対処を依頼する文章をメモ表示部68に入力する。入力された文章は、他の運用担当者の端末におけるイベント詳細画面60のメモ表示部68に表示される。メッセージ表示部69には、イベントのメッセージを示す文字列が表示される。
【0106】
対処者候補表示部70には、運用担当者ごとのイベントの対処容易度が表示される。
図14の例では、対処者候補表示部70には、優先順位、担当者、および対処容易度の欄が設けられている。優先順位の欄には、運用担当者41~43を対処容易度によって降順に並べたときの運用担当者41~43それぞれの順番が示される。担当者の欄には、運用担当者41~43それぞれの名称が示される。対処容易度の欄には、運用担当者41~43それぞれの対処容易度が示される。
【0107】
運用担当者41~43それぞれは、イベント詳細画面60を参照することで、新規イベントの対処者ごとの対処容易度を即座に把握することができる。そして運用担当者41~43それぞれが、適切な対処者を容易に判断できる。これにより、対処者決定のための運用担当者間での連絡頻度が減少し、イベント発生から対処までの時間が短縮される。
【0108】
例えば優先順位が一位の運用担当者は、イベントの内容を確認し、そのイベントに対処可能であれば対処する。優先順位が一位の運用担当者が検討した結果、他の運用担当者が対処した方が容易であると判断する場合もある。その場合、例えば優先順位が一位の運用担当者から他の運用担当者に対処を依頼することもできる。
【0109】
新規イベントに対していずれかの運用担当者が対処すると、運用担当者41~43それぞれのイベントへの対処能力は変化する。そこで対処能力の変化が、運用担当者41~43それぞれの日時係数にフィードバックされる。以下、日時係数フィードバック処理について詳細に説明する。
【0110】
図15は、日時係数フィードバック処理の手順の一例を示すフローチャートである。以下、
図15に示す処理をステップ番号に沿って説明する。
[ステップS151]係数管理部150は、未選択の運用担当者を選択する。
【0111】
[ステップS152]係数管理部150は、選択した運用担当者が、新規イベントを対処済みにした運用担当者か否かを判断する。係数管理部150は、対処済みにした運用担当者であれば、処理をステップS153に進める。また係数管理部150は、対処済みにした運用担当者でなければ、処理をステップS156に進める。
【0112】
[ステップS153]係数管理部150は、選択した運用担当者が、新規イベントに対する対処容易度が最高の担当者か否かを判断する。係数管理部150は、対処容易度が最高の担当者であれば、処理をステップS158に進める。また係数管理部150は、対処容易度が最高の担当者でなければ、処理をステップS154に進める。
【0113】
[ステップS154]係数管理部150は、選択した運用担当者の日時係数が「0.9」未満か否かを判断する。係数管理部150は、日時係数が「0.9」未満であれば、処理をステップS155に進める。また係数管理部150は、日時係数が「0.9」以上であれば、処理をステップS158に進める。
【0114】
[ステップS155]係数管理部150は、選択した運用担当者の日時係数を増加させる。例えば係数管理部150は、現在の日時係数に「1.1」倍した値を、新たな日時係数とする。なお係数管理部150は、日時係数の最大値を定めておくことができる。係数管理部150は、増加させたときの日時係数を計算した結果が最大値を超える場合、最大値を新たな日時係数とする。日時係数の最大値は、例えば「0.9」である。係数管理部150は、日時係数を増加させた後、処理をステップS158に進める。
【0115】
[ステップS156]係数管理部150は、選択した運用担当者が、新規イベントに対する対処容易度が最高の担当者か否かを判断する。係数管理部150は、対処容易度が最高の担当者であれば、処理をステップS157に進める。また係数管理部150は、対処容易度が最高の担当者でなければ、処理をステップS158に進める。
【0116】
[ステップS157]係数管理部150は、選択した運用担当者の日時係数を減少させる。例えば係数管理部150は、現在の日時係数を「0.9」倍した値を、新たな日時係数とする。
【0117】
[ステップS158]係数管理部150は、未選択の運用担当者がいるか否かを判断する。係数管理部150は、未選択の運用担当者がいる場合、処理をステップS151に進める。また係数管理部150は、すべての運用担当者が選択済みであれば、日時係数フィードバック処理を終了する。
【0118】
このようにして、各運用担当者のイベントに対する対処状況が日時係数に反映される。そして各運用担当者の日時係数に基づいて、新規イベントへの運用担当者ごとの対処容易度を計算することで、対処容易度を正確に算出することができる。
【0119】
以下、日時係数フィードバック処理による日時係数の計算例について説明する。
<第1の日時係数計算例>
前述の「第1の対処容易度計算例」に示したイベントの対処者が「担当者A」の場合を想定する。「担当者A」の対処容易度が最も高く、対処者も「担当者A」である。そのため、日時係数は変更されない。
【0120】
<第2の日時係数計算例>
前述の「第1の対処容易度計算例」に示したイベントの対処者が「担当者B」の場合を想定する。この場合、「担当者B」は、対処容易度が最も高い運用担当者ではない。そこで、対処容易度が最も高い「担当者A」の日時係数は減少し、「0.9×0.9=0.81」となる。他方、「担当者B」の日時係数は増加し、「0.8×1.1=0.88」となる。
【0121】
このように、優先順位が一位(対処容易度が最高)の運用担当者が対処した場合には、各運用担当者の日時係数に変化はない。他方、優先順位が一位の運用担当者以外が対処した場合には、対処した運用担当者の日時係数が増加し、優先順位が一位の運用担当者の日時係数が減少する。
【0122】
これにより、以後、同様のイベントが発生した場合、対処した運用担当者の対処容易度は高くなる。すなわち、今回のイベントに対しては優先順位が一位ではないが、運用担当者間の判断で対処するのが適切であると判断され、かつ対処した運用担当者は、イベントに対処するための知識と経験が蓄積されたと考えられる。このような知識と経験の蓄積度合いが、その運用担当者の日時係数に反映されている。
【0123】
他方、優先順位が一位でありながら対処しなかった運用担当者は、イベントに対処する知識が古くなっており、最新の技術に対応し切れていない可能性がある。また、経験が不足している他の運用担当者に経験を積ませるために、優先順位が一位の運用担当者が対処しない可能性もある。このように、技術の進歩、運営方針などの様々な事情で優先順位が一位以外の運用担当者が対処した場合、優先順位が一位の運用担当者の日時係数を減少させることで、そのような事情を対処の優先順位に反映させることができる。
【0124】
〔その他の実施の形態〕
第2の実施の形態では、クラウドシステム200とは別に運用管理サーバ100を設けているが、運用管理サーバ100の機能をクラウドシステム200内に構築してもよい。例えばクラウドシステム200内の仮想マシンの1つを運用管理サーバ100として動作させることもできる。
【0125】
第2の実施の形態では、イベントへの対処が容易であるほど値が大きくなる対処容易度を計算しているが、運用管理サーバ100は、対処容易度に代えて対処難易度を計算してもよい。対処難易度は、例えばイベントへの対処が困難であるほど値が大きくなる指標である。運用担当者ごとの対処難易度を計算した場合、運用管理サーバ100は、対処難易度が低い運用担当者ほど、対処の優先順位を高くする。
【0126】
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の2以上の構成(特徴)を組み合わせたものであってもよい。
【符号の説明】
【0127】
1a,1b,1c コンピュータシステム
2~4 運用担当者
5 新規イベント情報
6 対処容易度情報
10 情報処理装置
11 記憶部
11a 過去イベント情報
11b 第1の係数
11c 第2の係数
12 処理部