(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-03
(45)【発行日】2024-10-11
(54)【発明の名称】イベント管理システムおよびその方法
(51)【国際特許分類】
G06F 11/07 20060101AFI20241004BHJP
【FI】
G06F11/07 181
G06F11/07 140A
(21)【出願番号】P 2020039617
(22)【出願日】2020-03-09
【審査請求日】2022-06-09
【前置審査】
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】爲重 貴志
【審査官】山本 俊介
(56)【参考文献】
【文献】特開2020-009154(JP,A)
【文献】特開2007-279887(JP,A)
【文献】米国特許出願公開第2012/0304007(US,A1)
【文献】中島 淳,ほか,"ITシステム運用管理への自動化技術適用に関する一考察",電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2015年,第114巻,第523号,pp. 73-78,ISSN 0913-5685
【文献】爲重 貴志 ほか,"異常イベントの対処指示書を提示する技術 -AI for Opsの研究-",電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2020年03月09日,第119巻, 第482号,pp. 53-58,ISSN 2432-6380
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/07
(57)【特許請求の範囲】
【請求項1】
計算機と、端末とを用いて、監視対象で発生するイベントを管理するイベント管理システムであって、
新着イベントが発生したときに、該新着イベントに引き当てる対処指示書を抽出し、抽出した前記対処指示書を前記端末へ送信し、前記端末から前記対処指示書の引当て成否に関するフィードバックを受信する対処指示書引き当て部と、
前記フィードバックの種別を規定するフィードバックルール管理テーブルと、
発生する事象に対応して、該事象の状況、該事象の発生条件を規定するルール管理テーブルと、
前記ルール管理テーブルを参照して、前記フィードバックが誤りであるかを検出するフィードバック処理部と、を有し、
前記フィードバック処理部が、前記フィードバックの誤りを検出したとき、前記誤りを前記端末へ通知する、
ことを特徴とするイベント管理システム。
【請求項2】
監視対象から取得される前記イベントを、前記対処指示書に対応付けて保管するイベント管理テーブルを有し、
前記対処指示書引き当て部は、前記イベント管理テーブルに新着イベントの登録があるとき、前記新着イベントに引き当てる前記対処指示書を判断する
請求項1のイベント管理システム。
【請求項3】
前記フィードバック処理部は、前記フィードバックの誤りの可能性のある前記対処指示書を、前記端末に表示させ、
前記端末から、前記フィードバックの誤りの修正の指示を受け取り、前記ルール管理テーブルを参照し、前記ルール管理テーブルに従って修正を適用する
請求項1のイベント管理システム。
【請求項4】
前記フィードバックに係る情報を登録するフィードバック履歴管理テーブルを有し、
前記フィードバック処理部は、前記ルール管理テーブルを参照して、前記フィードバック履歴管理テーブルに登録された前記フィードバックが誤りであるかを検出する
請求項
2のイベント管理システム。
【請求項5】
前記イベント管理テーブルは、イベントに固有のイベントIDに対応して、メッセージと、対処指示書IDを保管し、
さらに、事象に対応して、前記対処指示書IDと、メッセージと、引当てるべき対処指示書の引当て判断の基準となる閾値を登録する対処指示書管理テーブルを有し、
前記フィードバック処理部は、前記フィードバックの誤りを修正するときに、前記閾値を修正可能とする、
請求項
4のイベント管理システム。
【請求項6】
前記対処指示書引
き当て部は、取得した前記イベントのメッセージ本文と、前記対処指示書管理テーブル内のメッセージを形態素解析して、文章の一致度を計算して、該一致度と前記閾値との関係において、引き当てるべき前記対処指示書を決める
請求項
5のイベント管理システム。
【請求項7】
前記フィードバック履歴管理テーブルは、事象に対応して、イベントID,フィードバックの成否、対処指示書に固有の対処指示書ID、誤りのフィードバック、を管理し、
前記フィードバック処理部は、前記前記フィードバック履歴管理テーブルの内容を基に、前記フィードバックの誤りの可能性のある前記対処指示書を、前記端末に表示させ、
前記端末から、前記フィードバックの誤りの修正の指示を受け取り、前記対処指示書管理テーブルの前記閾値の修正が必要かを判定する
請求項5のイベント管理システム。
【請求項8】
前記端末に表示される画面は、誤りのあるフィードバックの修正を指示するボタンを有し、
該ボタンの操作に応じて、前記フィードバック処理部は、前記ルール管理テーブルに従って修正を適用する、
請求項3または7のイベント管理システム。
【請求項9】
前記フィードバック処理部は、前記フィードバック履歴管理テーブルの情報を統計処理して、対処指示書ごとにフィードバックの種別「正解」「不正解」「見逃し」の情報を、前記端末に表示させる
請求項7のイベント管理システム。
【請求項10】
計算機と、端末とを用いて、監視対象で発生するイベントを管理するイベント管理方法であって、
新着イベントが発生したときに、該新着イベントに引き当てる対処指示書を抽出し、抽出した前記対処指示書を前記端末へ送信し、前記端末から前記対処指示書の引当て成否に関するフィードバックを受信する対処指示書引き当てステップと、
前記フィードバックの種別を規定するフィードバックルール管理テーブルをメモリが記憶するステップと、
発生する事象に対応して、該事象の状況、該事象の発生条件を規定するルール管理テーブルをメモリが記憶するステップと、
前記ルール管理テーブルを参照して、前記フィードバックが誤りであるかを検出するフィードバック処理ステップと、を有し、
前記フィードバック処理ステップが、前記フィードバックの誤りを検出したとき、前記誤りを前記端末へ通知する、
ことを特徴とするイベント管理方法。
【請求項11】
前記端末は、誤りのあるフィードバックの修正を指示するボタンを有する画面を表示し、
該ボタンの操作に応じて、前記フィードバック処理ステップは、前記ルール管理テーブルに従って修正を適用する、
請求項10のイベント管理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は,イベント管理システムおよびその方法に係り、特に、IT(情報技術)サービスにおけるイベントの管理に関する。
【背景技術】
【0002】
ITサービスを行う情報システムの運用業務の1つにイベント監視業務がある。企業における基幹業務に利用される重要な情報システムでは不調や異常などの事象が発生するとイベントを発行する。例えば、特許文献1には、情報システムで発生するイベントを監視するイベント管理システム、とりわけ、情報システムで発生したイベントへのガイドの対応づけの判断を向上する技術が開示されている。
【0003】
近年、デジタル技術の飛躍的な発展により,多くの企業がクラウドを含むなんらかのITサービスを利用している。このような状況下で、ITサービスの停止を含む障害によって膨大なコストが費やされているとの報告もある。ITサービスの維持費としてIT Opsにかかるコストは膨れ上がる傾向にある。このような背景を受け,IT運用(IT Ops)の自動化および自律化を進める企業が増加している。
【0004】
IT OpsへAI(Artificial Intelligence)を適用し,自動化および自律化を進める動きをAIOpsと呼ぶ。AIOpsの動きが進んでいる技術領域は,異常検知アラートのクラスタリングや意味づけといった相関分析,異常検知アラートのノイズ除去である。ユースケースとしては,「スキルフルな業務」への適用がメインユースケースとなっている。「スキルフルな業務」とは,データ分析スキルが必要な業務であり,イベントや性能データをどのようなアルゴリズムを適用してデータ分析すれば良いか,を知る人材によってなされる業務である。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
他方,IT Opsの現場では,個別の現場や状況および対象となるITシステムに応じて,属人的に処理されている業務があり,ある程度の定型化や自動化が浸透しつつあるものの,属人化を完全には排除できず,複数チームで人海戦術的にこなす業務「人でなければ担えない業務」が存在する。
【0007】
「人でなければ担えない業務」は投資対効果が見えやすいことから顧客ニーズが高く引き合いも多い。「人でなければ担えない業務」の一例として,イベント運用がある。曖昧に定義された対処指示書に基づいてITシステムが通知してくるイベントに対応する作業を確度高く実施する,というものである。「曖昧な指示」でも作業できるよう良く訓練されたITオペレータでないとこなせないため,プログラムが解釈して同等の作業を担うことが難しい。この訓練部分を「機械学習と予測結果へのフィードバック」で置き換えるアプローチによってイベント運用の自動化を実現することが期待される。
【0008】
イベント運用は,IT Opsの基本であるITシステムの監視の1つである。イベント監視サーバは,「日時」や「メッセージ本文」からなるイベントをサーバや業務アプリケーションから1万件/日以上も受け取る。受け取ったイベントをITオペレータが目視で異常イベントであることを確認し,対処指示書に照らし合わせ,記載の指示に従って行動する。対処指示書には,イベントのメッセージ本文が記載されており,ITオペレータはメッセージ本文を頼りに適切な対処指示書を探し当てる。対処指示書へ記載される対処指示とは,例えば,上位管理者への報告方法,簡単な作業指示(サーバやアプリケーションの状態を調査するコマンド発行およびその結果収集やエラーログ等の情報採取など)である。
【0009】
特許文献1に開示の技術を利用すれば,機械学習の教師データとして,フィードバックを用いたIT Opsを最適化した運用が実現できる、と考えられる。しかし,通常,フィードバックは人間によって行われるため,誤フィードバックのリスクを排除仕切れない。この誤フィードバックが容易に検出できれば,フィードバックを上書きすることで誤フィードバックによる悪影響をキャンセルすることが出来る。
【0010】
しかし,誤フィードバックは一見して分かりにくく,イベント運用の場合では「引当てるべき対処指示書が引き当たらない」ことに気づき、誤フィードバックを正しいフィードバックで打ち消すまで顕在化しないという問題がある。
【0011】
本発明は、誤ったフィードバックを特定して正確なデータを得て、正しい対処指示書を提示することにある。
【課題を解決するための手段】
【0012】
本発明に係るイベント管理システムは、好ましい例によれば、計算機と、端末とを用いて、監視対象で発生するイベントを管理するイベント管理システムであって、
状況の発生条件およびフィードバックの種別を規定するルール管理テーブルと、
新着イベントが発生したときに、該新着イベントに引き当てる対処指示書を抽出し、抽出した前記対処指示書を前記端末へ送信し、前記端末から前記対処指示書の引当て成否に関するフィードバックを受信する対処指示書引き当て部と、
前記ルール管理テーブルを参照して、前記フィードバックが誤りであるかを検出するフィードバック処理部と、を有し、
前記フィードバック処理部が、前記フィードバックの誤りを検出したとき、前記誤りを前記端末へ通知する、ことを特徴とするイベント管理システム、として構成される。
本発明はまた、イベント管理システムで動作されるイベント管理方法、として構成される。
【0013】
本発明はまた、イベント管理システムで動作されるイベント管理方法、として構成される。
【発明の効果】
【0014】
本発明によれば、誤ったフィードバックを特定して正確なデータを得て、正しい対処指示書を提示することができる。
【図面の簡単な説明】
【0015】
【
図1】一実施例が適用される計算機システムの構成を示す図である。
【
図4】管理システムにおける処理の概要を示す図である。
【
図5】イベント管理テーブルの構成を示す図である。
【
図6】対処指示書管理テーブルの構成を示す図である。
【
図7】フィードバックルール管理テーブルの構成を示す図である。
【
図8】フィードバック履歴管理テーブルの構成を示す図である。
【
図10】ルール管理テーブルの構成を示す図である。
【
図11】誤フィードバックの検出処理の流れを示す図である。
【
図12】誤フィードバックの修正処理の流れを示す図である。
【
図13】フィードバックの統計情報に誤フィードバックがある場合の結果画面の一例を示す図である。
【
図14】フィードバックの履歴情報に誤フィードバックがある場合の結果画面の一例を示す図である。
【発明を実施するための形態】
【0016】
本発明の好ましい実施形態では、管理システムが,監視対象システムのイベント発行プログラムが監視対象システムに関するシステム情報をイベント通知する。イベントは,管理システムのイベント管理プログラムへ送られ,イベントを受け取ったイベント管理プログラムはイベント管理テーブルにイベントを格納する。対処指示書引当てプログラムは,イベント管理テーブルをポーリングしており,新着イベントを検出すると,対処指示書管理テーブルを参照し,新着イベントへ引当てるべき対処指示書を抽出する。抽出した対処指示書をオペレータの端末へ表示する。対処指示書に記載の通り,オペレータは上位管理者へのエスカレーションが必要な場合は端末からエスカレーション情報を登録する。対処指示書引当てプログラムがエスカレーション情報を上位管理者の端末へ送る。対処指示書の引当て成否についてフィードバックを対処指示書引当てプログラムへ登録することが出来る。フィードバック情報は,対処指示書引当てプログラムがフィードバック履歴管理テーブルへ登録する。フィードバックは,上位管理者またはオペレータが登録する。フィードバック情報が登録されたことを検出した制御プログラム(例えばフィードバック処理プログラム)はルール管理テーブルを参照し,意図しないフィードバックが発生しているか否かを検出する。意図しないフィードバック(誤フィードバック)が発生していることを検出した場合,制御プログラムは上位管理者の端末またはオペレータの端末へその旨を通知して、間違い候補を表示する。イベントには,正常系のイベントもあれば異常系のイベントもある。
【実施例1】
【0017】
以下,図面を参照して,イベント運用における一実施例を説明する。
以下の説明では,「インタフェース部」は,1以上のインタフェースを含む。1以上のインタフェースは,1以上の同種のインタフェースデバイス(例えば1以上のNIC(Network Interface Card))であってもよいし2以上の異種のインタフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
【0018】
また,以下の説明では,「記憶部」は,1以上のメモリを含む。少なくとも1つのメモリは,揮発性メモリであってもよいし不揮発性メモリであってもよい。記憶部は,1以上のメモリに加えて,1以上のHDを含んでもよい。「HD」は,物理的な記憶デバイスを意味し,典型的には,不揮発性の記憶デバイス(例えば補助記憶デバイス)でよい。HDは,例えば,HDD(Hard Disk Drive)又はSSD(Solid State Drive)でよい。
【0019】
また,以下の説明では,「プロセッサ部」は,1以上のプロセッサを含む。少なくとも1つのプロセッサは,典型的には,CPU(Central Processing Unit)である。プロセッサは,処理の一部または全部を行うハードウェア回路を含んでもよい。
【0020】
また,以下の説明では,「プログラム」を主語として処理を説明する場合があるが,プログラムは,プロセッサ部によって実行されることで,定められた処理を,適宜に記憶部及びインタフェース部のうちの少なくとも1つを用いながら行うため,処理の主語が,プロセッサ部(或いは,プロセッサ部を有する計算機又は計算機システム)とされてもよい。プログラムは,プログラムソースから計算機にインストールされてもよい。プログラムソースは,例えば,プログラム配布サーバ又は計算機が読み取り可能な記憶メディアであってもよい。また,以下の説明において,2以上のプログラムが1つのプログラムとして実現されてもよいし,1つのプログラムが2以上のプログラムとして実現されてもよい。
【0021】
また,以下の説明では,「xxxテーブル」といった表現にて情報を説明することがあるが,情報は,どのようなデータ構造で表現されていてもよい。すなわち,情報がデータ構造に依存しないことを示すために,「xxxテーブル」を「xxx情報」と言うことができる。また,以下の説明において,各テーブルの構成は一例であり,1つのテーブルは,2以上のテーブルに分割されてもよいし,2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
【0022】
また,以下の説明では,表示用情報を表示する一つ以上の計算機の集合が「管理システム」と呼ばれてよい。管理計算機が管理計算機の表示デバイスに情報を表示する場合は管理計算機が管理システムでよいし,管理計算機と表示用計算機の組み合わせが管理システムでもよい。また,管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理が実現されてもよく,この場合は,それら複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムでよい。管理計算機による「表示用情報を表示する」とは,管理計算機が有する表示デバイスに表示用情報を表示することであってもよいし,管理計算機が遠隔の表示用計算機に表示用情報を送信することであってもよい。
【0023】
また,以下の説明では,同種の要素を区別しないで説明する場合は,その要素の参照符号を使用し,同種の要素を区別して説明する場合は,その要素に割り振られた識別情報を使用することがある。例えば,サーバを特に区別しないで説明する場合には,サーバ102と記載し,個々のサーバを区別して説明する場合には,サーバ#1,サーバ#2のように記載することがある。
【0024】
図1は一実施例に係る計算機システムの構成を示す。
計算機システムは,管理システム101、監視対象システム100、管理者端末180およびオペレータ端末170を含む。監視対象システム100は,1以上の計算機であり,業務を提供するITシステムである。本実施例では、監視対象システム100は例えば,複数のサーバ(物理サーバ)102を含んだサーバシステムと,複数のLU(Logical Unit)を提供するストレージシステムである。ストレージシステムに含まれる複数のサーバ120がそれぞれ監視対象となる。
【0025】
管理者端末180は,上位管理者が扱う情報処理端末(例えばパーソナルコンピュータ)である。1または複数の管理者端末180が存在する。上位管理者は,少なくとも1つの設計チームのメンバである。設計チームは,監視対象システム160で業務を提供するチームである。
【0026】
オペレータ端末170は,オペレータが扱う情報処理端末である。1または複数のオペレータ端末170が存在する。オペレータは,少なくとも1つの運用チームのメンバである。運用チームは,サービスシステムを運用するチームである。オペレータは,例えば,サービスシステムの管理者であってもよいし,サービスシステムの利用者であってもよい。
【0027】
オペレータ端末170および管理者端末180は、表示部、入力部、プロセッサ部、および記憶部を有していて、例えば、プロセッサ部でプログラムを実行することで、管理システム101に対して、入力部の入力や表示部への表示を可能とする。なお、オペレータ端末170および管理者端末180による入出力機能をユーザインタフェース(UI)ということがある。
【0028】
管理システム101は1以上の計算機であり,制御プログラム群110と、管理テーブル群111を有する、問合せ対応システムの一例である(詳細は
図2参照)。管理システム101は,(管理用ネットワークの一例として)NW-SW103及び(業務用ネットワークの一例として)NW-SW104、の管理インタフェース114に接続されている。管理システム101は,NW-SW103及び104の各々にVLAN(Virtual LAN)を設定することが可能である。「NW-SW」は,ネットワークスイッチの略語である。NW-SW103は,管理システム101が複数のサーバ102で稼動するOS(Operating System)やアプリケーションの配布や電源制御等の運用管理をするためのネットワークである。NW-SW104は,サーバ102上で実行されるアプリケーションが使用するネットワークである。なお,NW-SW104は,WAN(Wide Area Network)等に接続されてサーバシステムのクライアント計算機と通信を行う。
管理システム101は,FC-SW(ファイバーチャネル・スイッチ)108にも接続される。FC-SW511は,I/O(Input/Output)用ネットワークの一例である。管理システム101は,FC-SW108を介してストレージシステム105に接続される。
【0029】
監視対象システム100において,各サーバ102は,後述するようにVM(仮想マシン)を実行できる。複数のサーバ102は,PCIe(PCI-Express)-SW107と複数のNIC(Network Interface Card)112Fを介してNW-SW103に接続され,PCIe-SW107と複数のNIC112Fを介して,NW-SW104に接続され,PCIe(PCI-Express)-SW107と複数のHBA(Host Bus Adapter)を介して,FC-SW108に接続される。NIC及びHBAは,I/Oデバイスの一例である。
計算機システムにおいて,管理用ネットワーク,業務用ネットワーク及びI/O用ネットワークは一体であってもよい。
【0030】
図2は,管理システム101の構成を示す。
管理システム101は例えば計算機であり,インタフェース部,記憶部及びそれらに接続されたプロセッサ部を有する。インタフェース部は,例えば,ストレージサブシステム105へアクセスするためのディスクインタフェース203,NW-SW103及び104を介した通信のためのネットワークインタフェース204,及び,PCIe-SW107を介した通信のためのPCIeインタフェース205である。プロセッサ部は,例えば,CPU201である。記憶部は例えばメモリ202であり、メモリ202が,制御プログラム群110,OS216,及び管理テーブル群111を記憶する。制御プログラム群110は、フィードバック処理プログラム120と、対処指示引当てプログラム121を含み、これらのプログラム120,121及びOS216はCPU201で実行される。
【0031】
管理テーブル群111は、イベント管理テーブル210,対処指示管理テーブル211,フィードバック履歴管理テーブル310及びルール管理テーブル311を含む。管理テーブル群111に登録されている情報は,一例では、対処指示引当てプログラム121またはフィードバック処理プログラム120により収集された情報(生情報)であってよい。或いは、その情報の加工後の情報であってもよいし,管理システム101の図示しないコンソールからシステム管理者に入力された情報であってもよい。なお、管理テーブル群111の少なくとも一部は,メモリ202以外の図示しない記憶デバイス,又はストレージシステム105に格納されてもよい。
【0032】
図3は,サーバ102の構成を示す。
監視対象システム100のサーバ102は,ディスクインタフェース303,ネットワークインタフェース304,PCIeインタフェース305,メモリ302,それらに接続されたCPU301を有する。インタフェース303~305は,インタフェース203~205とそれぞれ同じ機能を有する。メモリ302は,OS316及びハイパバイザ315を実行する。ハイパバイザ315は,VM314の生成,起動,終了及び削除を制御する。VM314が,業務アプリケーション(プログラム)341,OS(例えばゲストOS)331及び監視プログラム342を実行する。監視プログラム342が,業務アプリ341及びOS331等の構成要素の状況を監視し,その状況を表すログメッセージを出力する。そのログメッセージを出力したログファイルをイベント通知として,また,サーバ102の内部デバイス(CPU301・メモリ302・ディスクインタフェース303・ネットワークインタフェース304・PCIeインタフェース305など)のシステム情報(構成・性能・障害などに関する情報)をイベント通知として,管理サーバ101へ送付する。
【0033】
例えば,監視対象システム100は,LPAR(Logical Partitioning)により複数のサブシステムに分割されてよい。また,コンテナ技術によってVM相当またはその内部を分割されていてもよい。それら複数のサブシステムを含むものを監視対象としてもよい。
【0034】
監視対象システム100のイベント発行プログラム343およびBMC401から発行されたイベントがイベント管理プログラム102へ送付され,イベント管理テーブル210に蓄積される。
【0035】
管理システム101で処理されたイベントから対処指示書が引き当てられ,オペレータ端末170へ表示される。オペレータ端末170または管理者端末180へ対応指示書の候補が表示される。オペレータは,オペレータ端末170を参照し,対処指示を理解し,指示された対処を実施する。
【0036】
図4は,本実施例による管理システムにおける処理の概要を示す。
図4において,実線矢印は,プログラム同士またはプログラムとテーブル間で発生する処理を意味し,破線矢印は,オペレータ端末170または管理者端末180(以下単に端末170または180という)との間に発生する処理を意味する。
【0037】
本実施例において,対処指示書引当てプログラム121が、発生したイベントに対応する対処指示書候補を引当てて,端末170の表示部に表示する。オペレータは、端末170の入力部から,管理システム101が提示した対処指示書が「正解・不正解・見逃し(足りなかった)」(すなわちフィードバック登録)を入力すると、その入力はフィードバック履歴管理テーブル310に格納される。フィードバック処理プログラム120が、新規のフィードバックを検出すると、ルール管理テーブル311を参照し,その時に誤フィードバックを検出した場合,端末170および180へ「誤フィードバックの可能性があること」を通知する。
【0038】
対処指示書引当てプログラム121は,到着したイベントのメッセージ本文と対処指示書管理テーブル211内のメッセージ本文を形態素解析し,文章の一致度を計算する。そして、一致度がある一定以上の閾値であるとき,その対処指示書がヒットした,と判定する。その判定結果は端末170および180に送信されて端末の表示部に表示される。閾値は,対処指示書ごとに異なる値である場合が多く,機械学習などを用いて過去イベントから一致度の基準を計算する。閾値は対処指示書管理テーブル211に格納される。運用前に過去イベントを教師データとして事前に機械学習の計算を実施し,閾値を対処指示書管理テーブル211に格納しておく。なお、教師データが十分に揃わない場合,デフォルト値を持っても良い。
【0039】
端末170,180へ提示した対処指示書の候補をもとに,オペレータは対処を実施する。提示した対処指示書が正解の場合,対処指示書管理テーブル211内の閾値は正しいことになる。一方,不正解の場合,閾値は正しくないため修正が必要である。例えば,新着イベントのメッセージ本文を形態素解析して一致度を計算した結果、その一致度が閾値よりも高いものの,提示が妥当でないような場合がある。その場合,対処指示書引当てプログラム121が閾値を再計算して、その対処指示書が次から提示されないよう,対処指示書管理テーブル211の閾値は上記一致度よりも高い値に再設定される。
【0040】
端末170、180で入力されたフィードバックは、管理システム101へ送られ,フィードバック履歴管理テーブル310に格納される。フィードバック処理プログラム120は,新規フィードバックを検知すると,ルール管理テーブル311を参照して誤フィードバックの有無を確認する。フィードバック処理プログラム120が誤フィードバックを検知すると,端末170,180へ誤フィードバックを検知した旨を通知し、かつ誤フィードバック検知情報を送って表示部に表示する。上位管理者またはオペレータは、その表示を見て、誤フィードバックの内容を認識することができる。
【0041】
次に、各種テーブルの構成について説明する。
図5はイベント管理テーブル210を示す。
発生したイベントは,障害または正常に関わらず,イベント管理テーブル210に格納される。イベント管理テーブル210は、事象に固有の事象ID501に対応して,発生日時502,ハッシュ値503,イベントに固有のイベントID504,メッセージ本文505,引当て対応指示書506を格納する。ここで、引当て対応指示書506には複数の対処指示書を示すIDを格納しても良い。メッセージ本文505に対して形態素解析し,単語行列にしたものと,後述の対処指示書管理テーブル211内のメッセージ本文605を形態素解析し単語行列にした物との一致度を計算する。
【0042】
図6は対処指示書管理テーブル211を示す。
対処指示書管理テーブル211は、事象ID601に対応して,発生日時指定602,ハッシュ値603,対処指示書に固有の対処指示書ID604,メッセージ本文605,対処指示606,閾値607,エスカレーション要否608を格納する。閾値607は,過去イベントのメッセージ本文を形態素解析し,単語行列へ分割後,過去イベント間のメッセージ本文の一致度を計算し算出する。エスカレーション要否608については,YES/NOだけでなく,条件を記載しても良い。例えば,指定のコマンド実行結果に基づき条件を設定しても良いし,同種のイベントの発生頻度といった統計情報に基づく条件を指定しても良い。発生日時指定602は,ANY(いつ発生しても参照する)だったり,特定の日時指定の場合もある。
【0043】
図7はフィードバックルール管理テーブル221を示す。
フィードバックルール管理テーブル221は、事象ID701に対応して,フィードバック種別702,処理内容703を格納する。フィードバック種別702と処理内容703はセット(組)になっている。フィードバック種別702が「正解」の場合は「閾値はそのまま」,つまり閾値は変更しない。「不正解」の場合は「閾値を新着イベントと対処指示書の一致度より大きく」する。これは,引当てるべきでない対処指示書の閾値を上回る一致度が算出されたために発生していることから,閾値を上げる変更を行う。「見逃し」の場合は「閾値を新着イベントと対処指示書の一致度より小さく」する。これは,新着イベントと対処指示書の一致度が引き当てるべき対処指示書の閾値を下回ったために発生していることから,閾値を下げる変更を行う。
【0044】
図8はフィードバック履歴管理テーブル310を示す。
フィードバック履歴管理テーブル310は、事象ID801に対応して,イベントID802,フィードバック803,対処指示書ID804,誤フィードバック805を格納する。どのイベントにどの対処指示書を引当てたか,そして,フィードバックとして引当て成否を格納している。誤フィードバックが検出された場合は、誤フィードバック805にYESが入る。また,ルール管理テーブル311に基づいて,フィックスを実施することが出来る。
【0045】
図9はフィードバックの概略を示す。
本実施例において、フィードバックの取り扱いを次のように定義する。「真の正解」は,「正解と見逃し」を合わせたもの、それ以外は「不正解」とする。そうすると,真の正解と不正解(真の不正解)の境界を変化させるフィードバックが「見逃し」と「不正解」となる。「正解」は境界を画定させるフィードバックとなる。
【0046】
図9において、正解901と見逃し903で構成される真の正解911があり,それ以外は不正解902である。フィードバックをすることで,この境界が確定921または変化に分けることが出来る。変化には、「変更1」真の正解911が狭くなる922と,「変更2」真の正解911が拡がる923、の2つがある。確定921,変更1:922か変更2:923がどう連なるかによって,フィードバックの確からしさを抽出することが出来る。また,連なり方によっては,対処指示書引当てプログラム121のバグを発見することも出来る。
【0047】
一例として、「正解」が30回続いた後に「不正解」が入力された状況を考える。次に入力される可能性があるのは,それまでの30回の「正解」が正しいフィードバックなら,引き当たらなくなった対処指示書を引き当てるために「見逃し」が入力されるはずである。さらに,その「見逃し」が正しいとすると,次に「正解」が入力される。これは,先の「不正解」がフィードバックとしては不正だったと言うことを示している。逆に,「不正解」が正しく,その次に「正解」が入力されたとすると,それまでの30回の「正解」が不正だったことになる。
【0048】
これをルールベースへ落とした時,「確定」と「変更(変更1と変更2)」という状態変化で表現すると,状態が「正解」「見逃し」「不正解」の3状態以外の組み合わせへも対応できる。つまり,境界の「確定」と「変化」させるフィードバックに注目してルール化することが有意義となる。
【0049】
バグについては,「見逃し」のあとに同じ対処指示書が「見逃し」とフィードバックを受けたケースを例に考えると,1回目の「見逃し」で閾値が適正に修正されず,引き当てるべき対処指示書が引き当たらなかったため,2回目の「見逃し」が再度入力されてしまった,という状況を示している。これは、対処指示書引当てプログラム121が正しく動作していないことを示しており,バグと見るべき状況である。
【0050】
図10はルール管理テーブル311を示す。
ルール管理テーブル311は、事象ID(符号1001とする)に対応して、状況1002,ルール・発生条件1003,原因・影響1004,読み替え1005を格納する。ルール・発生条件1003となるwhat-ifの条件を格納している。この条件にマッチする場合,状況1002に格納する状況が発生しており、原因・影響1004と結論することができる。また、読み替え1005は,もし正常に動作させていたとしたら「こうなっているハズ」を格納している。このルール管理テーブル311は、正常へ戻す、という運用を想定している。
【0051】
ルール・発生条件1003を参照し,2~4個のフィードバックおよびその種別を見ることで、誤フィードバック(フィードバックのミス)を検出でき,どのフィードバックが誤っているかを特定することが出来る。また,「変更」は「変更1」と「変更2」で対称性を持っており,さらに,同じ「変更」が続く場合は対処指示書引当てプログラム121のバグと見なすことができる。確定が続く場合は,最古の確定と最新の確定および変更を見ることになる。途中の確定はスキップする。
【0052】
読み替え1005は,過去に遡ってフィードバックを修正したい場合に使用する。原因と特定できているため,どこをどのように修正すれば健全な状態へ戻るかルール化することができる。読み替え1005に則って,誤フィードバックをフィックスする。誤フィードバックをフィックスすることで,正常な教師データを得ることが出来る。
【0053】
ただし,その間に発生したイベントに対する対処指示書の提示とフィードバックは厳然たる事実なので,誤フィードバックをフィックスしたとしても,履歴は残すことで過去の誤フィードバックに関する統計的な分析を行うことが出来る。
【0054】
次に、
図11を参照して、誤フィードバックの検出処理について説明する。ここで、S・・は処理ステップを示す。
S1101において,フィードバックを検知する。フィードバックは,オペレータ端末170又は管理者端末180からオペレータ又は上位管理者が入力し,対処指示書引当てプログラム121へ送られる。対処指示書引当てプログラム121は,フィードバック履歴管理テーブル311にフィードバックのデータを記録する(永続化する)。フィードバック処理プログラム120がフィードバック履歴管理テーブル311をポーリングし,フィードバックデータが永続化されたことをトリガーとして,フィードバックを検知する。
【0055】
S1102において,フィードバック処理プログラム120が,フィードバック履歴管理テーブル310内の「新着イベント(新イベントID)に対する新しいフィードバック」を参照する。同時に,フィードバック処理プログラム120は,フィードバック履歴管理テーブル310の既に格納されている,同じ対処指示書に対する過去のフィードバック(1つ前のフィードバック)を参照する。
【0056】
S1103において,フィードバック処理プログラム120が,ルール管理テーブル311を参照し,同種のフィードバック種別であるか,具体的には「変更→変更」か、を判定する。判定の結果、同じ場合は,対処指示書引当てプログラム121のバグである。同じ「変更」が連続して提示されることが無いためである。敢えて,入力している可能性もあるため,バグまたは誤フィードバックである,と結論することができる。フィードバック履歴管理テーブル310に、誤フィードバックであることおよびバグである(不図示)旨の情報を格納する。
【0057】
S1103において、「変更→変更」の判定の結果、異なる場合(Noの場合)はS1104へ進む。
【0058】
S1104において、フィードバック処理プログラム120は,フィードバック履歴管理テーブル310に既に格納されている,同じ対処指示書に対する過去のフィードバック(2つ前のフィードバック)を参照する。
【0059】
S1105において,フィードバック処理プログラム120が,ルール管理テーブル311を参照し,フィードバック種別702が「確定→確定→確定」か、を判定する。判定の結果、Yesの場合,処理を終了する。
【0060】
判定の結果、Noの場合,S1106へ進む。
S1106において,フィードバック処理プログラム120が,フィードバック履歴管理テーブル310に既に格納されている過去のフィードバック種別702が「確定→確定→変更」か、を判定する。判定の結果、Yesの場合S1107へ進み,Noの場合,S1108へ進む。
【0061】
S1107において,フィードバック処理プログラム120が,フィードバック履歴管理テーブル310に既に格納されているフィードバック種別が「確定→確定」を複数回繰り返しているか否かを判定する。判定の結果、Yesの場合,S1109へ進み、Noの場合,S1108へ進む。
【0062】
S1109において,フィードバック処理プログラム120は,フィードバック履歴管理テーブル310に格納されている過去のフィードバックにおいて,繰り返す「確定」を遡り最古の「確定(n)→確定→変更」のnを特定し,誤フィードバック805に誤フィードバックである旨(Yes)と、回数n(回数については不図示)を格納する。
【0063】
S1108において,フィードバック処理プログラム120は,フィードバック履歴管理テーブル310を参照し,誤フィードバックの有無を確認する。その際,nが渡されている場合は,最古の「確定」まで遡り処理を実施し,最初の誤フィードバックを特定して,S1110へ進む。
【0064】
S1110において,フィードバック処理プログラム120は,フィードバック履歴管理テーブル310に格納されたフィードバックと,ルール管理テーブル311(フィードバックが誤りとなるルールを格納したテーブル)からフィードバックが誤りか否かを判定する。判定の結果Yesの場合,S1112へ進み,Noの場合,S1111へ進む。
【0065】
S1111において,フィードバック処理プログラム120は,誤フィードバックでない旨(No)の判定結果をフィードバック履歴管理テーブル310の誤フィードバック805に格納して,処理を終了する。
【0066】
S1112において,フィードバック処理プログラム120は,誤フィードバックである旨の判定結果をフィードバック履歴管理テーブル310に格納する。
【0067】
S1113において,フィードバック処理プログラム120は,管理者端末180及びまたはオペレータ端末170へ誤フィードバックを検出した旨を通知し、端末の表示部にはその旨が表示される。
【0068】
次に、
図12を参照して、誤フィードバックの修正処理について説明する。ここで、S・・は処理ステップを示す。
フィードバックを修正する処理は、フィードバック処理プログラム120が行う。
フィードバック履歴管理テーブル310が格納しているフィードバック履歴情報は、管理者端末180またはオペレータ端末170の表示部に表示される。
図14にその表示画面の例を示す。オペレータまたは上位管理者は、オペレータ端末170または管理者端末180の表示部に表示された画面の、各
対処指示書について誤フィードバックの可能性のあるフィードバックを確認することができる。そして、入力部を操作して、対象の
対処指示書を選択し、「誤フィードバックを修正する」ボタン1421を押下する。
【0069】
S1201において,フィードバック処理プログラム120は,「誤フィードバックを修正する」ボタン1421の押下を検出する(受け取る)。
S1202において,フィードバック処理プログラム120は,ルール管理テーブル311の読み替え1005を参照する。
【0070】
S1203において,フィードバック処理プログラム120は,対処指示書管理テーブル211の閾値の修正が必要か否かを判定する。判定の結果、Noの場合は,S1205へ進み、Yesの場合はS1204へ進む。
S1204において,フィードバック処理プログラム120は,ルール管理テーブル311の読み替え1005に基づき,修正を適用する。その際,「確定」のみの場合は閾値を変更しない。
【0071】
S1205において,フィードバック処理プログラム120は,フィードバックの結果を、フィードバック履歴管理テーブル310の誤フィードバック805に履歴として格納して,処理を終了する。
【0072】
図13は,フィードバックの統計情報の表示画面の例を示す。
フィードバック統計情報は、フィードバック処理プログラム120がフィードバック履歴管理テーブル310にある情報を統計処理して、オペレータ端末170または管理者端末180へ送信されて、画面表示される。フィードバック統計情報の画面の表示タイミングは、例えば、
図11の処理による誤フィードバック判定が完了したタイミングで、フィードバック処理プログラム120がフィードバックの統計情報を算出してオペレータ端末170または管理者端末180へ送信するか、またはオペレータまたは管理者が、表示画面の「誤フィードバック履歴情報を確認」ボタン1321を操作することで、表示させることができる。
【0073】
この表示画面には、フィードバック種別ID1301対応に、フィードバック種別1302、および関連する対応指示書1303~1307が表示される。これにより、対応指示書ごとにフィードバック種別「正解」「不正解」「見逃し」の統計情報を参照することが出来る。誤フィードバックの可能性のある箇所が強調表示される(〇印部)。
【0074】
図14は,フィードバック履歴情報の表示画面の例を示す。
フィードバック履歴情報の表示は、フィードバック処理プログラム120がフィードバック履歴管理テーブル310の内容を読み出して処理し、オペレータ端末170または管理者端末180へ送信することで行われる。表示のタイミングは、フィードバック履歴情報がフィードバック履歴管理テーブル310登録される時、或いは一定間隔でバッチ処理する時に一括処理して表示処理するようにしてもよい。
【0075】
表示画面には、対処指示書ごとにフィードバックの履歴が表示される。この表示により、どのフィードバックが誤フィードバックかを参照することができる。下線を付けたフィードバックは誤フィードバックの影響で,本来,入力すべきフィードバックを入力していないと考えられるフィードバックを示している。誤フィードバックの可能性ある個所が強調表示される(〇印部)。オペレータ等が、表示画面の「確認した誤フィードバックを修正する」ボタン1421を操作することで、入力部から、修正後のフィードバックを入力することが可能となる。
【0076】
以上、一実施例について説明したが、本発明は上記実施例に限定されずに、いろいろと変形、代替して実施し得る。
例えば、実施例1では、管理システム101にオペレータ端末170と管理者端末180が接続されて、フィードバック登録等を行うとした。変形例によれば、管理システム101に接続される端末は1台として、オペレータまたは管理者のいずれかが扱うとしてもよい。この場合、エスカレーションは不要となる。
また、実施例1における、プログラム名称や各種テーブルの名称は一例であって、他の呼び名でもよい。
また、管理システムが管理の対象とするイベントは、監視対象システム100ないしそれに含まれるサーバに限らず、一般的な情報機器であってよい。
【符号の説明】
【0077】
100:監視対象システム
101:管理システム 102:サーバ
110:制御プログラム 111:管理テーブル群
170:オペレータ端末 180:管理者端末
102:イベント管理プログラム
120:フィードバック処理プログラム
121:対処指示書引当てプログラム
210:イベント管理テーブル 211:対処指示書管理テーブル
221:フィードバックルール管理テーブル
310:フィードバック履歴管理テーブル 311:ルール管理テーブル
343:イベント発行プログラム