(58)【調査した分野】(Int.Cl.,DB名)
インシデントに一意に付与されたインシデントIDに対応したメッセージ及び対応事例のフロー名を格納するインシデントデータベースと、受信したインシデントを前記インシデントデータベースに登録するインシデント管理システムと、前記フロー名の作業フローを実行する作業自動実行システムと、前記フロー名の作業フローを実行した際の検証段階毎の成功率を含む実績情報を格納した作業実績管理データベースと、前記作業実績管理データベースに格納された実績情報を確認するための作業実績管理画面を表示すると共に作業フローの実行を制御するサービスデスクのコンピュータとに接続され、インシデント対応の作業フローの実行を管理するワークアラウンド実行管理システムであって、
テストを完了した作業フローの本番環境においてサービスデスクが作業フローの動作を監視する第1段階と、該第1段階において第1の成功率以上の正常動作が確認された作業フローの正常及び異常をサービスデスクに通知すると共に前記第1の成功率未満の正常動作が確認された作業フローを第1段階に下げる第2段階と、該第2段階において第2の成功率以上の正常動作が確認された作業フローの異常をサービスデスクに通知すると共に前記第2の成功率未満の正常動作が確認された作業フローを第2段階に下げる第3段階とを設定しておき、
前記フロー名の作業フローを実行した際の前記第1から第3段階毎の成功率を含む実績情報を作業実績管理データベースに格納する第1工程と、
前記第1段階において第1の成功率以上の正常動作が確認された作業フローの正常及び異常をサービスデスクに通知し、前記第1の成功率以上の正常動作が確認された作業フローを第2段階に上げる第2工程と、
前記第2段階において第2の成功率以上の正常動作が確認された作業フローの異常をサービスデスクに通知し、前記第1の成功率以上の正常動作が確認された作業フローを第3段階に上げると共に第2の成功率未満の正常動作が確認された作業フローを第1段階に下げる第3工程と、
前記第3段階において第2の成功率未満の正常動作が確認された作業フローを第2段階に下げる第4工程とを実行するワークアラウンド実行管理システム。
前記作業実績管理データベースの実績情報が、前記検証段階毎の作業フローを実行した際の実行回数を含み、前記第1及び第2の成功率が所定の実行回数以上と判定したとき、前記第2から第4工程を実行する請求項1記載のワークアラウンド実行管理システム。
インシデントに一意に付与されたインシデントIDに対応したメッセージ及び対応事例のフロー名を格納するインシデントデータベースと、受信したインシデントを前記インシデントデータベースに登録するインシデント管理システムと、前記フロー名の作業フローを実行する作業自動実行システムと、前記フロー名の作業フローを実行した際の検証段階毎の成功率を含む実績情報を格納した作業実績管理データベースと、前記作業実績管理データベースに格納された実績情報を確認するための作業実績管理画面を表示すると共に作業フローの実行を制御するサービスデスクのコンピュータとに接続され、インシデント対応の作業フローの実行を管理するコンピュータシステムのワークアラウンド実行管理方法であって、
前記コンピュータシステムに、
テストを完了した作業フローの本番環境においてサービスデスクが作業フローの動作を監視する第1段階と、該第1段階において第1の成功率以上の正常動作が確認された作業フローの正常及び異常をサービスデスクに通知すると共に前記第1の成功率未満の正常動作が確認された作業フローを第1段階に下げる第2段階と、該第2段階において第2の成功率以上の正常動作が確認された作業フローの異常をサービスデスクに通知すると共に前記第2の成功率未満の正常動作が確認された作業フローを第2段階に下げる第3段階とを設定させ、
前記フロー名の作業フローを実行した際の前記第1から第3段階毎の成功率を含む実績情報を作業実績管理データベースに格納する第1工程と、
前記第1段階において第1の成功率以上の正常動作が確認された作業フローの正常及び異常をサービスデスクに通知し、前記第1の成功率以上の正常動作が確認された作業フローを第2段階に上げる第2工程と、
前記第2段階において第2の成功率以上の正常動作が確認された作業フローの異常をサービスデスクに通知し、前記第1の成功率以上の正常動作が確認された作業フローを第3段階に上げると共に第2の成功率未満の正常動作が確認された作業フローを第1段階に下げる第3工程と、
前記第3段階において第2の成功率未満の正常動作が確認された作業フローを第2段階に下げる第4工程とを実行させるワークアラウンド実行管理方法。
前記作業実績管理データベースの実績情報に、前記検証段階毎の作業フローを実行した際の実行回数を含ませ、前記第1及び第2の成功率が所定の実行回数以上と判定したとき、前記第2から第4工程を実行させる請求項5記載のワークアラウンド実行管理方法。
【背景技術】
【0002】
近年のコンピュータシステムにおいては、日々発生する監視対象機器(顧客コンピュータ、仮想マシン)からの解決すべき案件や課題を含むメッセージに対して迅速かつ正確にワークアラウンド(一次対応)を行う際に、これらメッセージをインシデントとしてコンピュータ管理するインシデント管理システムが採用されている。このインシデント管理システムでは、監視対象機器からのメッセージに加えて顧客からの問合せや作業依頼もインシデントとしてとらえ、インシデント管理システムに登録し、この障害監視運用業務においては、サービスデスクが監視対象の機器などから日々発生するインシデントに対し、業務への影響を最小限に抑えることを目的として、関係者への連絡や一次対応を行っている。
【0003】
サービスデスクが実施するこれらのワークアラウンドは、顧客のコンピュータシステムの拡大や複雑化に伴い処理件数の増加や手順の複雑化を招き、この対策として、ランブックオートメーションなどの作業自動実行システムを導入して、ワークアラウンドを自動化する対策が取られている。
【0004】
このワークアラウンドを自動化する技術が記載された文献としては、下記の特許文献1が挙げられる
。該特許文献1には、不具合発生時に、自己の識別情報及び時刻データを含むインシデント情報を抽出するインシデントデータ抽出部と、予め定められている不具合の判定条件を示す判定条件データに基づいて、不具合が発生しているか否かを判定するチェックリスト処理部と、不具合が発生しているときは、発生している不具合を解消するために、判定条件データに予め対応付けられているコマンドを実行する修復コマンド実行部と、インシデントデータ及びコマンドの実行結果を示す情報を管理サーバへ送信する送信部とを各クライアントに設け
る技術が記載されている。これによって、軽微な不具合の修復を自動化す
る。
【発明の概要】
【発明が解決しようとする課題】
【0006】
前述の特許文献1記載技術は、障害の内容に応じて復旧のためのコマンドを予め定義し、これを自動で実行することによって、サービスデスクが実施する作業を削減することができ、既に確立されたコマンドを順に実行する場合には有効であるが、複雑な手順をランブックオートメーションなどの技術を利用して実行に適用することが困難であるという課題があった。即ち、インシデント管理システムにおいては顧客によってコンピュータのハードウェア及びソフトウェアの構成が異なり、特にコマンドの結果に応じて複数の作業が分岐されて実行される場合があり、多種多様なインシデントに対応する一次対応を予め定義しても、これら一次対応が正常に実行可能かを人手により確認する必要があり、この確認作業が繁雑であり、ランブックオートメーションなどの技術を利用して実行に適用することが困難であるという課題があった。
【0007】
即ち、自動化された手順は、適用の初期段階では、人が正常・異常を監視し、異常が発生した場合には、速やかに復旧するようなリカバリ手順を確立していないと、一時的に品質が劣化するリスクがあり、このためサービスデスクは、一定期間毎に自動化された手順を定期的に捕捉する作業が必要となり、運用が複雑及び煩雑であるという課題があった。
【0008】
本発明の目的
は、複数のインシデントに対するワークアラウンド(一次対応)の確認作業を支援して作業自動実行システム導入初期のリスクを軽減することができるワークアラウンド実行管理システム及びワークアラウンド実行管理方法を提供することである。
【課題を解決するための手段】
【0009】
本発明は、テストを完了した作業フローの本番環境においてサービスデスクが作業フローの動作を監視する第1段階と、該第1段階において第1の成功率以上の正常動作が確認された作業フローの正常及び異常をサービスデスクに通知すると共に前記第1の成功率未満の正常動作が確認された作業フローを第1段階に下げる第2段階と、該第2段階において第2の成功率以上の正常動作が確認された作業フローの異常をサービスデスクに通知すると共に前記第2の成功率未満の正常動作が確認された作業フローを第2段階に下げる第3段階とを設定する。
そして本発明は、前記フロー名の作業フローを実行した際
の第1から第3段階毎の成功率を含む実績情報を作業実績管理データベースに格納する第1工程
と、第1段階において第1の成功率以上の正常動作が確認された作業フローの正常及び異常をサービスデスクに通知し、前記第1の成功率以上の正常動作が確認された作業フローを第2段階に上げる第2工程
と、第2段階において第2の成功率以上の正常動作が確認された作業フローの異常をサービスデスクに通知し、前記第1の成功率以上の正常動作が確認された作業フローを第3段階に上げると共に第2の成功率未満の正常動作が確認された作業フローを第1段階に下げる第3工程
と、第3段階において第2の成功率未満の正常動作が確認された作業フローを第2段階に下げる第4工程とを実行する
。
【発明の効果】
【0010】
本発明によるワークアラウンド実行管理システム及びワークアラウンド実行管理方法
は、複数のインシデントに対するワークアラウンド(一次対応)の確認作業を支援して作業自動実行システム導入初期のリスクを軽減することができる。
【発明を実施するための形態】
【0012】
以下、本発明によるワークアラウンド実行管理方法を適用したワークアラウンド実行管理システムの一実施形態を図面を参照して詳細に説明するものであるが、まず、本実施形態によるワークアラウンド実行管理システムの原理を説明する。
[原理]
本実施形態によるワークアラウンド実行管理システムは、従来技術においてはサービスデスク14がワークアラウンド(一次対応)である作業フローのテストを完了し、本番環境にリリースした後、本番環境においても当該作業フロー全てのインシデントに対して有効(エラーが生じるか否か)か監視するため一定期間サービスデスク14が当該作業フローが正常に動作するか常時監視しなければならないものであった
。これに対して本発明においては、まず、インシデントに対して付与された対応事例であるワークアラウンド(一次対応)の検証を段階的に行うため、この段階(Step)としてStep1〜Step3の検証段階として3段階を設定
する。次いで、図4の適用イメージに示す如く、この検証を行う際の検証レベルを、サービスデスク14が作業フローのテストを完了し、本番環境にリリースした段階であるStep1と、該Step1の次に実装置において所定実行回数以上且つ一定成功率(第1の成功率)以上の実績を残した段階であるStep2と、該Step2の次に所定実行回数以上且つ一定成功率(第2の成功率)以上で実績を残した段階であるStep3との3段階として設定する。なお、前記検証段階は3段階に限られるものではなく更に多段とすることや、前記成功率及び又は所定実行回数はサービスデスク又は管理者のコンピュータ等の外部から変更できるように構成しても良い。
【0013】
前記Step1では、作業フローの実行実績がない状態であるため、サービスデスクが人手で作業自動実行システム11を利用して作業フローを実行する段階であり、作業フローの実行に失敗しても、サービスデスク14が即時に対応することができる。
【0014】
前記Step2では、ワークアラウンド実行管理システム8が作業自動実行システム11を起動し、作業フローを自動で実行し、実行結果を正常であってもサービスデスク14にメールなどで通知する段階である。
【0015】
前記Step3では、ワークアラウンド実行管理システム8が作業自動実行システム11を起動し、作業フローを自動で実行し、実行結果が異常時のみサービスデスク14にメールなどで通知を行い、殆どサービスデスクの工数を必要としない段階である。また、Step2又はStep3において一定成功率以上作業フローが成功しない場合は、現在のStepレベルを低下(Step2→Step1、Step3→Step2)させる。
【0016】
このように本発明によるワークアラウンド実行管理システムは、ワークアラウンド(一次対応)である作業フロー動作の検証レベルとして、作業フローの本番環境において、作業フローの多数のインシデントに対する検証レベルとして
、次のStepを設定する。
・本番環境にリリースし、サービスデスク14が動作を監視する段階であるStep1
。
・該Step1の次に実装置において一定成功率(第1の成功率)以上の実績を残し、作業フロー実行の正常及び異常をサービスデスク14に通知する段階であるStep2
。
・該Step2の次に一定成功率(第2の成功率)以上で実績を残し、作業フロー実行が異常のときのみにサービスデスク14に通知する段階であるStep3
。
前記Step2又はStep3において一定成功率以上作業フローが成功しない場合は現Stepレベルを下げ
ることによって本システムは、作業を自動化する際のワークアラウンド(一次対応)である作業フローの動作の検証をサービスデスク14の常時監視を必要とせずに効率的に行うことができる。本実施形態においては、前記各Stepを検証段階とも呼ぶ。
【0017】
[構成]
本実施形態によるワークアラウンド実行管理システムを含むコンピュータシステムは、
図1に示す如く、顧客コンピュータである複数の監視対象機器2に接続された障害監視装置3を設置したデータセンタ1と、該データセンタ1にネットワーク4を介して接続されて前記障害監視装置3からの障害メッセージをインシデントとして管理し、インシデントに対する一次対応の進捗状況を管理する監視センタ5とを備え
る。該監視センタ5は
、次の構成を備える。
(1)インシデントに一意に付与されたインシデントID毎のインシデント発生日時・ホスト名・発生システム・顧客名・メッセージ・対応事例ID・対応事例のフロー名を格納するインシデントデータベース7
。
(2)ネットワーク4を介して障害監視装置3から受信したインシデントをインシデントデータベース7に自動で登録するインシデント管理システム6
。
(3)対応事例に一意に付与された対応事例ID毎の対応事例と検証段階(Step1〜Step3)毎の成功率・失敗率・実行回数・失敗回数等の実績情報を格納した作業実績管理データベース9
。
(4)各処理ステップ毎の処理を実行する作業自動実行システム11と、前記インシデントがインシデントデータベース7に登録されたことを契機として起動され、インシデントデータベース7と作業実績管理データベース9の登録内容に基づいてパトランプ(信号灯)13を鳴動するか又は作業自動実行システム11を起動するかの何れかを決定するワークアラウンド実行管理システム8
。
(5)該ワークアラウンド実行管理システム8が保存する作業実績管理データベース9に格納された実行結果(実績情報)を確認するための作業実績管理画面10
。
(6)登録されたインシデントを参照し、インシデントに付加された対応事例に応じて対応手順書に基づいて一次対応を行うサービスデスク14のコンピュータ
。
(7)前記作業自動実行システム11により実行された処理ステップである作業フロー15の結果を格納するデータベースである実行ログ12
。
【0018】
なお、これら構成は、一般のコンピュータシステム同様に、CPU・メモリ・入出力機器・磁気ディスク装置・表示部を含むコンピュータ及びサーバ、データベース等のハードウェア並びにソフトウェアによって形成され前記パトランプ13は点灯する信号灯に限られるものではなく電子メール等のサービスデスク14に警告を発することができる他の手段であっても良い。
【0019】
このように構成されたワークアラウンド実行管理システムを含むコンピュータシステムは、データセンタ1の障害監視装置3が監視対象機器2で発生した障害メッセージ(インシデントのメッセージ)を監視センタ5のインシデント管理システム6に送信す
る。このメッセージを受信したインシデント管理システム6が、インシデントデータベース7に受信したインシデントを自動で登録し、この登録を契機としてワークアラウンド実行管理システム8が、前記インシデントデータベース7及び作業実績管理データベース9の登録内容に基づいてパトランプ13を鳴動するか又は作業自動実行システム11を起動するかを後述の処理によって決定
する。パトランプ13を鳴動した場合、サービスデスク14が作業自動実行システム11を使用して作業フロー15を手動で実行し、実行結果がNG(失敗)のとき、サービスデスク14が然るべき対策を行
うように構成され、作業自動実行システム11が起動された場合、作業フロー15を自動で実行して、実行結果(実績情報)を実行ログ12に記録するように動作する。
【0020】
前記インシデントデータベース7は、IncidentTableを格納するものであって、
図2に示す如く
、次の項目情報から構成される。
(1)監視対象機器2から受信したメッセージ毎にインシデント管理システムが自動で採番した対応事例ID
。
(2)当該インシデントが発生した発生日時
。
(3)インシデントが発生した監視対象機器のホスト名
。
(4)該監視対象機器にて稼働するアプリケーションシステムを表す発生システム
。
(5)当該監視対象機器を利用する顧客名
。
(6)当該監視対象機器から受信した実メッセージ
。
(7)当該インシデントに対する障害解決を行うための対応事例(フロー名)
。
(8)作業自動実行システム11が実行する作業フロー15のフロー名
。
(9)実行状況
。
【0021】
前記作業実績管理データベース9は、インシデント毎に付与される対応事例毎にそれぞれの事例の現在のStepと、各Stepでの実行回数と、各Stepでの成功回数と、各Stepでの失敗回数と、各Stepでの成功率と、各Stepでの失敗率などの運用実績情報を格納している。
【0022】
前記作業実績管理画面10は、インシデントの各検証段階(Step)の実行レベルに応じた「現在の状況」欄と「過去1週間の実行結果
」欄から成る検証状況を表示するものであって、
図5に示す如く、「現在の状況」欄は、事例ID毎に、対応事例と、現在のStepと、各Stepにおける実行回数と、各Stepでの成功回数と、各Stepでの失敗回数と、各Stepでの成功率と、各Stepでの失敗率などの各項目情報を運用実績情報として表示し、「過去1週間の実行結果」欄は、インシデントID毎に、対応事例と、実行区分と、実行結果の各項目情報を表示するものである。
【0023】
インシデント一覧画面は、
図6に示す如く、前記インシデントID毎に、当該インシデントが発生した発生日時と、インシデントが発生した監視対象機器のホスト名と、該監視対象機器にて稼働するアプリケーションシステムを表す発生システムと、当該監視対象機器を利用する顧客名と、当該監視対象機器から受信した実メッセージと、当該インシデントに対する障害解決を行うための対応事例(フロー名)と、実行状況の各項目情報とから構成される。
【0024】
[動作]
さて、前述のように構成されたワークアラウンド実行管理システムは、
図7に示す如く
、次の各ステップを実行する。
(1)インシデント登録時にインシデント管理システム6から自動実行されたワークアラウンド実行管理システム8が起動されたとき、インシデントデータベース7から前記インシデントの対応事例IDと対応事例に定義されているフロー名を抽出するステップ701
。
(2)該ステップ701で取得した対応事例IDに基づいて作業実績管理データベース9から現在のStep(検証レベル)を取得するステップ702
。
(3)該ステップ702によって取得した現在のStepの検証レベルがStep1かStep2かStep3かを判定するステップ703
。
【0025】
(4)該ステップ703によってStep1の検証レベルと判定したとき、パトランプ13を鳴動させてサービスデスク14に作業フローを手動で実行させることを促すと共にワークアラウンド実行管理システム8がインシデント一覧画面(
図6)の作業状況を「手動実行(Step1)」に更新するステップ704
。
(5)該ステップ704による一連の作業実行終了まで待機するステップ705
。
(6)前記ステップ704によるサービスデスクでの手動実行を実行ログ12を監視して作業終了まで待機すると共に実行結果を取得するステップ706
。
(7)前記ステップ703によってStep2と判定されたとき、ワークアラウンド実行管理システム8に対して当該作業フローを実行指示するステップ707
。
(8)該ステップ707による実行完まで待機するステップ708
。
【0026】
(9)実行完了後にステップ709によって結果を取得し、作業フローの実行結果が正常・異常に関わらず、サービスデスクに対して結果を通知するステップ709
。
(10)前記ステップ703によってStep3と判定されたとき、ワークアラウンド実行管理システム8に対して当該作業フローを実行指示するステップ710
。
(11)実行完了まで待機するステップ711
。
(12)該ステップ710による実行完了後に結果を取得し、実行結果が正常か異常かを判定するステップ712
。
(13)該ステップ712において異常と判定したときに異常が発生したことをサービスデスクに通知するステップ713
。
(14)前記ステップ706とステップ709とステップ713とステップ712により正常と判定されたとき、各Stepの実行結果を作業実績管理データベース9に記録するステップ714
。
【0027】
(15)作業実績管理データベース9の現在のStepの実行結果を取得し、実行回数が5以上かつ成功率が80%以上か判定するステップ715
。
(16)該ステップ715において実行回数が5以上かつ成功率が80%以上と判定したとき、処理中事例の「現在のStep」をランクアップするステップ716
。
(17)前記ステップ715において実行回数が5以上かつ成功率が80%以上でないと判定したとき、現在のStepの実行結果を取得し失敗率が21%以上であるか否かを判定し、失敗率が21%以上でないと判定したときに処理を終了するステップ717
。
(18)前記ステップ718において失敗率が21%以上であると判定したとき、現在のStep(検証レベル)を低下させて処理を終了するステップ718
。
これらステップを実行することによって、各作業フローの運用実績により、サービスデスク14の関与を必要とする作業を変化させることによって、段階的に自動化の範囲を拡大することができる。
【0028】
本ワークアラウンド実行管理システムは、作業フローの本番環境において、作業フローの多数のインシデントに対する検証レベルとして、本番環境にリリースし、サービスデスク14が動作を監視する段階であるStep1と、該Step1の次に実装置において一定成功率(第1の成功率)以上の実績を残し、作業フロー実行の正常及び異常をサービスデスク14に通知する段階であるStep2と、該Step2の次に一定成功率(第2の成功率)以上で実績を残し、作業フロー実行が異常のときのみにサービスデスク14に通知する段階であるStep3との3段階として設定
する。そして、前記Step2又はStep3において第1又は第2成功率未満の作業フローの段階を下げることによって、作業を自動化する際のワークアラウンド(一次対応)である作業フローの検証を効率的に行うことができる。