(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-03
(45)【発行日】2022-03-11
(54)【発明の名称】障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラム
(51)【国際特許分類】
G09B 9/00 20060101AFI20220304BHJP
G09B 19/00 20060101ALI20220304BHJP
【FI】
G09B9/00 Z
G09B19/00 Z
(21)【出願番号】P 2018115809
(22)【出願日】2018-06-19
【審査請求日】2021-03-11
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(73)【特許権者】
【識別番号】501158538
【氏名又は名称】三菱電機インフォメーションネットワーク株式会社
(74)【代理人】
【識別番号】110002491
【氏名又は名称】溝井国際特許業務法人
(72)【発明者】
【氏名】伊藤 香織
(72)【発明者】
【氏名】原田 篤史
(72)【発明者】
【氏名】内海 義則
【審査官】岸 智史
(56)【参考文献】
【文献】特開2017-135563(JP,A)
【文献】特開2007-94210(JP,A)
【文献】特開2014-149450(JP,A)
【文献】特開2004-333550(JP,A)
【文献】米国特許第9824000(US,B1)
【文献】米国特許第8910294(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G09B 1/00-9/56
17/00-19/26
H04L 41/00-43/55
(57)【特許請求の範囲】
【請求項1】
運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置において、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた障害対応訓練装置。
【請求項2】
前記運用者情報は、前記運用者が有する障害対応スキルの種類を含み、
前記障害情報は、前記障害一覧に含まれる各障害の対応に必要なスキルの種類を含み、
前記選択部は、
前記必要なスキルの種類を前記運用者がすべて有している障害を前記訓練用障害として前記障害一覧から選択する請求項1に記載の障害対応訓練装置。
【請求項3】
前記運用システムでは、前記運用システムの利用者に対して提供されるサービスのレベルがサービスレベル合意として設定されており、
前記影響予測部は、
前記運用システムに前記訓練用障害を発生させた場合に、前記利用者に対して提供されるサービスが前記サービスレベル合意を満たす場合に前記運用システムへの影響が許容範囲以内であると判定する請求項1または請求項2に記載の障害対応訓練装置。
【請求項4】
前記障害対応訓練装置は、
前記運用者による前記訓練用障害への障害対応が完了すると、前記障害対応を評価する評価結果を出力する訓練結果評価部と、
前記障害対応の内容を表す障害対応情報と前記評価結果とに基づいて、前記運用者情報について前記運用者が対応可能な障害の難易度を更新する更新部と
を備えた請求項1から請求項3のいずれか1項に記載の障害対応訓練装置。
【請求項5】
前記障害情報は、前記障害一覧に含まれる各障害への対応方法を登録対応方法として含み、
前記更新部は、
前記障害対応情報と前記評価結果とに基づいて、前記障害情報に含まれる前記登録対応方法を更新する請求項4に記載の障害対応訓練装置。
【請求項6】
前記障害対応訓練装置は、
前記訓練用障害への対応方法を障害対応方法として前記障害対応情報に設定し、前記障害対応情報を訓練履歴に保存する訓練内容記録部を備え、
前記訓練結果評価部は、
前記障害対応方法と前記登録対応方法とが一致するか否かを判定し、
前記更新部は、
前記障害対応方法と前記登録対応方法とが一致しない場合に、前記障害対応方法を前記登録対応方法として前記障害情報に登録する請求項5に記載の障害対応訓練装置。
【請求項7】
前記障害対応訓練装置は、
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部を備え、
前記訓練結果評価部は、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者の前記障害対応の妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。
【請求項8】
前記障害対応訓練装置は、
前記運用者から、前記訓練用障害の原因と前記障害対応における重要ポイントとを含む前記障害対応情報を取得する原因取得部と、
前記原因取得部により取得された前記障害対応情報に基づいて、前記運用者による前記障害対応の妥当性の評価を前記運用者から取得する原因評価取得部と
を備え、
前記訓練結果評価部は、
前記原因評価取得部により取得された前記妥当性の評価を含む前記評価結果を出力する請求項4から請求項6のいずれか1項に記載の障害対応訓練装置。
【請求項9】
前記訓練結果評価部は、
前記運用システムの復旧の成否の評価を行い、前記運用システムの復旧の成否の評価を前記評価結果に含める請求項4から請求項8のいずれか1項に記載の障害対応訓練装置。
【請求項10】
前記訓練結果評価部は、
前記障害対応にかけた障害対応時間の評価を行い、前記障害対応時間の評価を前記評価結果に含める請求項4から請求項9のいずれか1項に記載の障害対応訓練装置。
【請求項11】
前記障害対応訓練装置は、
前記評価結果と、前記運用者に対する訓練フォローの要否と、前記訓練フォローの内容とを対応付けた訓練フォロー基準表を備え、
前記訓練結果評価部は、
前記訓練フォロー基準表を用いて、前記運用者に対する訓練フォローが必要か否かを判定し、前記運用者に対する訓練フォローが必要と判定されると、前記訓練フォローの内容に従って前記訓練フォローを行う請求項4から請求項10のいずれか1項に記載の障害対応訓練装置。
【請求項12】
前記訓練実行部は、
前記運用システムに前記訓練用障害を発生させる際に、前記運用者に対して訓練であることを通知する訓練通知を送信する請求項1から請求項11のいずれか1項に記載の障害対応訓練装置。
【請求項13】
運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置の障害対応訓練方法において、
選択部が、前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択し、
影響予測部が、前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定し、
訓練実行部が、前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる障害対応訓練方法。
【請求項14】
運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置の障害対応訓練プログラムにおいて、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択処理と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測処理と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行処理と
をコンピュータである前記障害対応訓練装置に実行させる障害対応訓練プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害対応訓練装置、障害対応訓練方法および障害対応訓練プログラムに関する。
【背景技術】
【0002】
システム運用における障害対応訓練は、通常、運用開始前に実施される。多くのシステムでは、運用開始後の本番環境において、幅広い障害への定期訓練は実施されていない。そのため、人員の異動などにより、新たな運用者が配属される場合は、試験環境などで事前訓練を行うこととなる。実際の運用開始後には、試験環境と本番環境を同じに保つことは容易ではない。そのため、障害対応経験が少ない運用者が、本番環境における実際の障害に確実に対応できるとは限らない。よって、本番環境における障害対応の確実性を向上させるための技術が重要である。
【0003】
運用中のシステムに対して故意に障害を発生させて、障害復旧能力を自動試験するソフトウェアが開発されている。具体例には、Netflix社のChaos Monkeyがある。このソフトウェアは、クラウドサービス上の仮想マシンを無作為に選択して強制的に停止させる動作を繰り返して、対象サービスの障害からの復旧能力を試験する。
特許文献1では、システム利用者とのサービスレベル合意、すなわちSLA(Service Level Agreement)を下回らないことを確認してから、障害試験を行う方法が開示されている。SLAは、故意に障害を発生させる前に、ネットワークの性能あるいは使用状況といったシステムの状況を考慮して、品質への影響を算出することにより確認される。また、同様の観点から、システム状況に応じて障害発生を制御するソフトウェア、具体的にはNetflix社のChAPが発表されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の技術は、実際に障害に対応する運用者および運用者の体制について考慮していない。このため、経験の浅い運用者しかいない時間帯に障害発生ソフトウェアが難易度の高い障害を発生させてしまった場合に、復旧に多くの時間を要してしまうといった理由でSLAを満たせなくなる。また、SLAを満たせなくなるような事態を避けるため、冗長化といった対策によってシステムが自動復旧できる障害に発生対象が限られてしまうと、運用者のスキルアップにつながらない。
【0006】
この発明は、本番環境において、SLAを満たせなくなる危険性を低減し、かつ、運用者の障害対応スキルレベルに応じた効率のよい障害対応訓練を実現することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る障害対応訓練装置では、運用者が運用する運用システムに障害を発生させることにより、前記運用者の障害対応訓練を行う障害対応訓練装置において、
前記運用者が対応可能な障害の難易度を含む運用者情報と、障害一覧と前記障害一覧に含まれる各障害の難易度とを含む障害情報とに基づいて、前記運用者の障害対応訓練として発生させる障害を訓練用障害として前記障害一覧から選択する選択部と、
前記運用システムの状況を表すシステム情報に基づいて、前記運用システムに前記訓練用障害を発生させた場合の前記運用システムへの影響が許容範囲以内か否かを判定する影響予測部と、
前記運用システムへの影響が許容範囲以内の場合に、前記運用システムに前記訓練用障害を発生させる訓練実行部と
を備えた。
【発明の効果】
【0008】
本発明に係る障害対応訓練装置によれば、運用システムへの影響を抑制しつつ、運用者のスキルアップにつながる適切な障害対応訓練を実行することができる。
【図面の簡単な説明】
【0009】
【
図1】実施の形態1に係る障害対応訓練システムの構成例を示す図。
【
図2】実施の形態1に係る訓練装置と情報保存装置の詳細な構成例を示す図。
【
図3】実施の形態1に係る障害対応訓練装置の動作を示すフロー図。
【
図4】実施の形態1に係る運用者情報の一部を示す図。
【
図5】実施の形態1に係る訓練履歴の一部を示す図。
【
図6】実施の形態1に係る障害情報の一部を示す図。
【
図7】実施の形態1に係る候補リストの例を示す図。
【
図8】実施の形態1に係る運用者情報における障害対応スキルの部分を示す図。
【
図9】実施の形態1に係る障害情報における障害対応に必要なスキルの部分を示す図。
【
図10】実施の形態1に係る運用者端末に表示された訓練通知の例を示す図。
【
図11】実施の形態1に係る障害対応情報入力画面の一例を示す図。
【
図12】実施の形態1に係る障害対応情報入力画面の正解表の例を示す図。
【
図13】実施の形態1に係る障害対応情報入力画面の別例を示す図。
【
図14】実施の形態1に係る重要ポイント一覧の例を示す図。
【
図15】実施の形態1に係る障害対応基準時間と障害対応時間との対応例を示す図。
【
図16】実施の形態1に係る訓練フォロー要否判定の基準表を示す図。
【
図17】実施の形態1に係る登録対応方法の例を示す図。
【
図18】実施の形態1に係るコマンド実行のログの例を示す図。
【
図19】実施の形態1に係る訓練履歴に保存した今回の障害対応方法の一例を示す図。
【
図20】実施の形態1に係る訓練履歴に保存した今回の障害対応方法の他例を示す図。
【
図21】実施の形態1に係る障害情報において障害対応方法を新規登録した例。
【
図22】実施の形態1に係る運用者判定基準表の例を示す図。
【
図23】実施の形態1に係る障害対応訓練装置のハードウェア構成の一例。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、図を用いて説明する。なお、各図中、同一または相当する部分には、同一符号を付している。実施の形態の説明において、同一または相当する部分については、説明を適宜省略または簡略化する。
【0011】
実施の形態1.
***構成の説明***
図1を用いて、本実施の形態に係る障害対応訓練システム500の構成について説明する。
障害対応訓練システム500は、運用システム10と、障害対応訓練装置20と、運用監視装置50と、運用者端末60とを有する。
運用システム10は、運用者61が運用対象とするシステムである。
障害対応訓練装置20は、運用者61が運用する運用システム10に訓練用障害71を発生させることにより、運用者の障害対応訓練を行う。障害対応訓練装置20は、訓練装置30と情報保存装置40とを有する。訓練装置30は、訓練用の障害、すなわち訓練用障害71の発生可否を判定し、判定結果に基づいて訓練用障害71を発生させる。情報保存装置40は、システム情報、訓練履歴、障害情報、および運用者情報といった情報を保存する。
運用監視装置50は、運用システム10に対して、監視といった運用処理を実行する。運用監視装置50は、常に運用システム10を監視しており、障害あるいは問題を検知した場合は、運用者端末60にメッセージを表示させる。
運用者端末60は、運用者61により用いられる端末である。運用者61は、運用者端末60を用いて、運用システム10の運用に関する情報の取得、あるいは運用システム10の運用のための操作を行う。また、運用者端末60は、運用監視装置50あるいは訓練装置30から得た情報を運用者61に表示する。
【0012】
図2を用いて、本実施の形態に係る訓練装置30と情報保存装置40の詳細な構成について説明する。
訓練装置30は、訓練内容選択部31、対応可否判定部32、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、障害情報更新部39、および運用者情報更新部391を備える。訓練内容選択部31と対応可否判定部32とを合わせて選択部301とする。障害情報更新部39と運用者情報更新部391とを合わせて更新部309とする。
情報保存装置40は、システム情報41、障害情報42、運用者情報43、および訓練履歴44を備える。
【0013】
選択部301は、運用者情報43と障害情報42とに基づいて、運用者の障害対応訓練として発生させる障害を訓練用障害71として障害一覧から選択する。
運用者情報43には、運用者が対応可能な障害の難易度が含まれる。また、運用者情報43には、運用者が有する障害対応スキルの種類が含まれる。
障害情報42には、障害一覧と障害一覧に含まれる各障害の難易度とが含まれる。また、障害情報42には、障害一覧に含まれる各障害の対応に必要なスキルの種類が含まれる。また、障害情報42には、障害一覧に含まれる各障害への対応方法が登録対応方法として含まれる。
【0014】
訓練内容選択部31は、運用者情報43から、現在在席している運用者を把握する。そして、訓練内容選択部31は、訓練履歴44から、運用者の過去の障害対応履歴を参照し、在席中の運用者に適切な訓練用障害を選択する。
対応可否判定部32は、在席中の運用者の障害対応スキルを、運用者情報43から取得する。対応可否判定部32は、訓練内容選択部31により選択された訓練用障害71について、障害対応に必要なスキルを障害情報42から取得する。対応可否判定部32は、在席中の運用者の障害対応スキルと、訓練用障害71の障害対応に必要なスキルとを照合し、訓練用障害71に運用者が対応可能かを判定する。
【0015】
影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。
運用システム10では、運用システム10の利用者に対して提供されるサービスのレベルがサービスレベル合意、すなわちSLAとして設定されている。影響予測部33は、運用システム10に訓練用障害71を発生させた場合に、利用者に対して提供されるサービスがSLAを満たす場合に、運用システム10への影響が許容範囲以内であると判定する。SLAに影響があると判定された場合、影響予測部33は、訓練を実施せず、訓練内容選択部31による訓練内容の選択に処理を戻す。SLAに影響がないと判定された場合、影響予測部33は、訓練実施可能と判定し、訓練実行部34に実行を指示する。
【0016】
訓練実行部34は、運用システム10への影響が許容範囲以内の場合に、運用システム10に訓練用障害71を発生させる。その際の実施例として、訓練を受ける対象の運用者が、本番同様の緊張感で障害対応できるように訓練であることを伏せて実行してもよい。また、訓練実行部34は、運用システム10に訓練用障害71を発生させる際に、運用者に対して訓練であることを通知する訓練通知を送信してもよい。また、本物の障害を発生させてもよいし、擬似的な障害警告のみを発生させてもよい。規定の基準時間を過ぎても障害対応がなされない場合は、強制的に訓練を終了し、運用者に通知してもよい。
訓練内容記録部35は、訓練用障害71への対応方法を障害対応方法として障害対応情報に設定し、障害対応情報を訓練履歴44に保存する。具体的には、訓練内容記録部35は、障害対応方法、障害対応時間、および運用者による訓練用障害71への見解といった情報を含む障害対応情報を訓練履歴44に記録する。
【0017】
原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。原因取得部36は、訓練用障害71の原因と障害対応における重要ポイントとについて、運用者の判定結果および障害対応内容といった障害対応情報を取得し、訓練履歴44に保存する。原因取得部36による取得内容は、訓練結果評価部38において、障害対応に関する運用者の理解度を評価するために利用される。なお、原因取得部36による障害対応情報の取得は、具体例として、運用者により入力された障害対応情報を取得する構成でもよいし、あるいは外部のインシデント管理システムなどに記録された運用記録から取得する構成でもよい。
原因評価取得部37は、原因取得部36により取得された障害対応情報に基づいて、運用者による障害対応の妥当性の評価を運用者から取得する。すなわち、原因評価取得部37は、原因取得部36により取得された障害対応情報が正しいかを人手で評価を行う際に、人手で評価された内容を取得する。原因評価取得部37は、人手で評価された内容を訓練結果評価部38に出力する。訓練結果評価部38が人手を介さず自動で障害対応情報を評価する場合は、原因評価取得部37は省略することもできる。
【0018】
訓練結果評価部38は、運用者による訓練用障害71への障害対応が完了すると、障害対応を評価する評価結果74を出力する。訓練結果評価部38は、訓練用障害71への障害対応に関する情報を、訓練履歴44あるいは原因評価取得部37より取得し、総合的に評価する。
【0019】
更新部309は、障害対応の内容を表す障害対応情報と評価結果74とに基づいて、運用者情報43について運用者が対応可能な障害の難易度を更新する。また、更新部309は、障害対応情報と評価結果74とに基づいて、障害情報42に含まれる登録対応方法を更新する。
障害情報更新部39は、訓練結果評価部38の評価結果74、および訓練履歴44に保存された障害対応情報に基づいて、障害情報42を更新する。具体的には、訓練結果評価部38において障害復旧が問題なく行われたと評価された場合に、障害情報42の登録対応方法と、訓練履歴44の今回の訓練での障害対応方法とを比較する。これらの対応方法が不一致の場合は、障害情報更新部39は、新しい障害対応方法が見つかったと見なし、障害情報42に障害対応方法を新規登録する。あるいは、障害情報更新部39は、訓練履歴44の今回の障害対応にかかった時間をもとに、障害情報42の障害の難易度あるいはその他の情報を更新してもよい。
運用者情報更新部391は、訓練結果評価部38の評価結果74、訓練履歴44に保存された障害対応情報、および今回発生させた障害に関する障害情報42に基づいて、運用者情報43のスキル情報を更新する。
【0020】
システム情報41は、運用システム10のシステム状態情報、システム構成情報、およびシステム性能情報といった情報を保持するデータストアである。システム状態情報は、運用監視装置50から取得する。システム構成情報およびシステム性能情報は、人手により入力されても良いし、運用監視装置50から取得しても良い。
障害情報42は、訓練で発生させる障害に関する情報を保持するデータストアである。具体的には、障害情報42には、障害ID(Identifier)、障害内容、障害原因、登録対応方法、障害対応に必要なスキル、障害の難易度、障害対応基準時間、および訓練評価内容といった情報が保持される。障害の難易度とは、当該障害が発生した場合の障害対応の難易度である。ここで障害対応基準時間は、障害対応が行われていてもSLAに支障をきたさない範囲の時間を指す。訓練評価内容は、訓練結果の評価方法を示すものである。具体的には、訓練評価内容には、障害毎に障害対応ステップにおける重要ポイントと、当該重要ポイントにおける正しい対応に関する情報とが含まれる。
【0021】
運用者情報43は、運用者に関する情報を保持するデータストアである。具体的には、運用者情報43には、運用者ID、氏名、運用者の有する障害対応スキル、在席状況といった情報が含まれる。運用者の在席状況は、具体例としては、運用者端末60の稼働状況から取得しても良いし、外部のスケジュール管理システムあるいは在席管理システムといったシステムから取得しても良い。運用者の保有するスキルは、具体例としては、初期段階では運用者の自己申告で登録しておく方法でも良い。当該スキル情報は、当該運用者を対象とする訓練実施毎に更新され得る。
訓練履歴44は、訓練時の運用者の障害対応方法および障害対応時間といった訓練で記録される情報を保持するデータストアである。
【0022】
***動作の説明***
図3を用いて、本実施の形態に係る障害対応訓練装置20の動作について説明する。
【0023】
<ステップS101:運用者の選択>
ステップS101において、訓練内容選択部31は、運用者を選択する。訓練内容選択部31は、運用者情報43および訓練履歴44から、運用者の在席状況、運用者の有する障害対応スキル、および運用者の障害対応履歴を取得する。訓練内容選択部31は、現在在席している運用者の中で一人または複数の運用者を訓練対象として選択する。具体的には、訓練内容選択部31は、対応可能な障害の難易度が低い、あるいは、最近訓練を実施していないといった選択基準で、運用者を選択する。
【0024】
図4は、本実施の形態に係る運用者情報43の一部を示す図である。
また、
図5は、本実施の形態に係る訓練履歴44の一部を示す図である。
図4の例では、在席している運用者10010と10012のうち、対応可能障害難易度の最も低いことを選択基準として、運用者10010を選択する。また、
図5の例では、現在日が2018年3月10日だった場合に、過去1か月訓練を実施していないことを選択基準として、運用者10010を選択する。また、これら複数の選択基準の両方を満たすというように、条件を組み合わせて選択基準としてもよい。
【0025】
<ステップS102:訓練で発生させる障害の選択>
ステップS102において、訓練内容選択部31は、ステップS101で選択された運用者に発生させる障害の候補を選択する。訓練内容選択部31は、運用者情報43と障害情報42から情報を取得し、それらを比較することで、運用者が訓練すべき障害の候補リストを作成する。訓練すべき障害とは、運用者が未経験の障害であること、経験したが一度対応に失敗している障害であること、あるいは前回の障害の訓練から所定の時間が経過していることが選択基準として挙げられる。しかし、その他の選択基準でも構わない。障害の候補リストに載せる障害がない場合は、訓練は実施せず終了とする、あるいは、選択基準を変えて運用者の選択からやり直しても良い。
【0026】
図6は、本実施の形態に係る障害情報42の一部を示す図である。
図7は、本実施の形態に係る候補リスト51の例である。
図5の訓練履歴44における過去の障害対応履歴から、運用者10010は障害ID「1」以外未経験であると分かる。そこで、訓練内容選択部31は、
図6の障害情報42における障害一覧を参照し、運用者10010が未経験の障害を選択基準として、障害ID「2,3,4」を、訓練すべき障害の候補リスト51に追加する。
【0027】
<ステップS103:運用者の対応可否判定>
ステップS103において、対応可否判定部32は、必要なスキルの種類を運用者がすべて有している障害を訓練用障害71として障害一覧から選択する。具体的には、対応可否判定部32は、ステップS102で作成した障害の候補リスト51から、運用者により対応可能な障害を訓練用障害71として選定する。対応可否判定部32は、ステップS101で選択した運用者の有する障害対応スキルと、障害対応に必要なスキルを比較することにより、運用者が対応可能な障害を訓練用障害71として選定する。対応可否は、障害対応に必要なスキルに対して、運用者の有するスキルが所定の基準を満たしているかで判定する。対応可能な障害がない場合は、訓練は実施せず終了とするか、選択基準を変えて運用者の選択からやり直す。
【0028】
図8は、本実施の形態に係る運用者情報43における障害対応スキルの部分を示す図である。また、
図9は、本実施の形態に係る障害情報42における障害対応に必要なスキルの部分を示す図である。
対応可否判定部32は、
図8の運用者情報43により運用者10010の有する障害対応スキルを確認し、
図9の障害情報42における障害ごとに障害対応に必要なスキルと比較する。対応可否判定部32は、運用者10010が障害ID「4」に対応可能と判定できる。よって、対応可否判定部32は、障害ID「4」を訓練用障害71として選定する。ここでは、2つの判定基準により、運用者10010が障害ID「4」に対応可能と判定される。1つめは、「障害ID「4」への対応に必要なスキルはWindows(登録商標)およびネットワーク知識の2つだが、運用者10010はいずれのスキルも持っていること」である。2つめは、「運用者10010の対応可能障害が中であり、障害ID「4」の障害難易度の中以上であること」である。
【0029】
<ステップS104:システムへの影響判定>
ステップS104において、影響予測部33は、運用システム10の状況を表すシステム情報41に基づいて、運用システム10に訓練用障害71を発生させた場合の運用システム10への影響が許容範囲以内か否かを判定する。言い換えると、影響予測部33は、システム情報41から、運用システム10の状況を取得し、訓練用障害71を発生させても問題ないかを判定する。具体的には、エラーの有無を影響度とし、影響度により本物の障害が発生しているか否かを確認し、発生していれば影響度が許容範囲外であるとして訓練を中止するといった処理を行う。運用システム10の状況は、運用監視装置50から情報を取得し、情報保存装置40のシステム情報41に保持されている。運用システム10への影響があると判定された場合は、訓練を実施せず終了とする。運用システム10への影響がないと判定された場合は、ステップS105に移行する。また、例えば、影響予測部33が、運用システム10のCPU使用率情報を影響度として取得し、CPU使用率が90%となっていたとする。この状況で、障害を発生させると全体のシステムがダウンしてしまう恐れがあるため、システムへの影響があると判定し、訓練を実施せず終了とする。すなわち、この場合の許容範囲は、CPU使用率90%未満となる。
【0030】
<ステップS105:障害発生>
ステップS105において、訓練実行部34は、ステップS101で選択した運用者に対して、ステップS102からステップS103で選択した訓練用障害71を発生させる。この際、訓練実行部34は、ステップS101で選択した運用者の運用者端末60に、訓練であることを通知する訓練通知72を表示しても良い。
図10は、本実施の形態に係る運用者端末60に表示された訓練通知72の例である。
運用者は、所定の運用マニュアルに従って、本当の障害と同様の障害対応を行う。この際、訓練内容記録部35は、運用者の作業内容と障害対応時間といった情報を収集し、訓練履歴44に保存する。
【0031】
<ステップS106:障害対応基準時間判定>
訓練実行部34は、ステップS105の障害発生から、障害対応基準時間を超過しているかを判定する。超過している場合は、ステップS112の訓練フォローに移行する。障害対応基準時間内の場合は、ステップS107の完了判定に移行する。
【0032】
<ステップS107:完了判定>
訓練実行部34は、運用者の障害対応が完了したかを判定する。判定方法の具体例は、以下のとおりである。訓練実行部34は、運用者端末60に完了ボタンを表示し、運用者が完了ボタンを押したら完了と判定する。あるいは、訓練実行部34は、運用監視装置50のインシデント管理チケットが完了されたら障害対応が完了と判定する。あるいは、訓練実行部34は、システム情報41から運用システム10の状況を取得し、エラーがなければ完了と判定する。なお、訓練実行部34による完了判定の方法は、上述した方法以外でもよい。
【0033】
<ステップS108:対応妥当性の評価>
原因取得部36は、運用者から、訓練用障害71の原因と障害対応における重要ポイントとを含む障害対応情報を取得する。訓練結果評価部38は、原因取得部36により取得された障害対応情報に基づいて、運用者の障害対応の妥当性の評価を含む評価結果74を出力する。運用者の障害対応の妥当性が人手により評価された場合、訓練結果評価部38は、原因評価取得部37により取得された妥当性の評価を含む評価結果74を出力する。
【0034】
図11は、本実施の形態に係る障害対応情報入力画面52の例を示す図である。
図11に示すように、原因取得部36は、運用者に障害対応情報入力画面52を提示する。運用者は、訓練用障害71の原因と障害対応における重要ポイントへの見解といった障害対応情報73を入力して完了ボタンを押す。原因取得部36は、障害対応情報入力画面52により取得した障害対応情報73を訓練結果評価部38に渡す。また、原因取得部36は、障害対応情報73を訓練履歴44に保存する。
【0035】
続いて、訓練結果評価部38は、障害情報42に登録されている障害原因といった重要ポイントと、原因取得部36が収集した運用者の判定による障害対応情報73とを比較し、正否を評価する。訓練結果評価部38は、障害対応情報の正否の評価を、対応妥当性の評価として訓練履歴44に保存する。
図12は、本実施の形態に係る障害対応情報入力画面52の正解表53の例を示す図である。
図11に示すように、障害対応情報入力画面52では、原因入力欄および重要ポイント入力欄のように回答を選択式にする。訓練結果評価部38は、選択された回答と予め登録しておいた正解表53とを比較して一致しているか判定する。全てが一致している場合は、正とし、1つでも一致していない場合は、否と評価する。
図11の障害対応情報入力画面52に入力された障害対応情報73では、回答が全て正解しているので正と判定される。
【0036】
図13は、本実施の形態に係る障害対応情報入力画面52aの例を示す図である。
図14は、本実施の形態に係る重要ポイント一覧54の例を示す図である。
なお、このステップS108の処理を人手で行う例では、
図13に示すように、障害対応情報入力画面52aを自由記述式にしておく。そして、判定者に対して、障害対応情報73を表示し、判定者が原因評価取得部37を介して障害対応情報73の正否を評価する。具体的には、判定者は、障害対応情報入力画面52aに記述された回答を見て、
図14の重要ポイント一覧54と比較して、記述の意味が合っているかを評価する。今回は、全て内容が一致しているので正と評価する。
【0037】
<ステップS109:障害復旧の成否評価>
訓練結果評価部38は、運用システム10の復旧の成否の評価を行い、運用システム10の復旧の成否の評価を評価結果74に含める。具体的には、訓練結果評価部38は、システム情報41からシステム状態の情報を取得し、障害復旧できたかを評価する。訓練結果評価部38は、障害復旧の成否の評価を訓練履歴44に保存する。障害復旧の成否評価判定の方法は、エラーの有無を確認する方法、特定のコマンドを実行して結果を正常状態と比較する方法、あるいはその他の方法でもよい。その他の方法の具体例として、ネットワークが不通である場合、通信先のマシンにpingコマンドを実行し、応答が返ってくることが確認できたら、障害復旧の成否を「成」として、訓練履歴44に記録する。
【0038】
<ステップS110:障害対応時間の評価>
訓練結果評価部38は、障害対応にかけた障害対応時間の評価を行い、障害対応時間の評価を評価結果74に含める。具体的には、訓練結果評価部38は、訓練履歴44に保存した今回の障害対応時間と、障害情報42に保存されている障害対応基準時間とを比較し、障害対応時間の評価を行う。評価基準は、具体的には、障害対応基準時間の1/2以内と設定しておき、基準よりも短ければ◎、基準よりも長ければ○と評価を行う。訓練結果評価部38は、障害対応時間の評価を訓練履歴44に保存する。
図15は、本実施の形態に係る障害対応基準時間と障害対応時間との対応例を示す図である。
図15の例では、障害対応時間が障害対応基準時間の1/2以内のため、障害対応時間の評価は◎とし、訓練履歴44に保存する。
【0039】
<ステップS111:訓練フォロー要否判定>
訓練結果評価部38は、訓練履歴44に保存した評価結果74から、訓練フォローの要否を判定する。訓練履歴44に保存した評価結果は、ステップS108で保存した対応妥当性の評価、ステップS109で保存した障害復旧の成否評価、およびステップS110で保存した障害対応時間の評価の結果である。
図16は、本実施の形態に係る訓練フォロー基準表55を示す図である。
訓練フォロー基準表55では、評価結果74と、運用者に対する訓練フォローの要否と、訓練フォローの内容とが対応付けられている。
訓練結果評価部38は、訓練フォロー基準表55にしたがって訓練フォローの要否を判定する。判定の結果、要と判定された場合は、ステップS112の訓練フォローに移行する。否と判定された場合は、ステップS113の対応方法一致度判定に移行する。具体的には、
図16では、対応妥当性の評価が正で、障害復旧の成否評価が成で、対応時間の評価が◎の場合、訓練フォローの要否は否と判定される。
【0040】
<ステップS112:訓練フォロー>
訓練結果評価部38は、訓練フォロー基準表55を用いて、運用者に対する訓練フォローが必要か否かを判定し、運用者に対する訓練フォローが必要と判定されると、訓練フォローの内容に従って訓練フォローを行う。具体的には、訓練結果評価部38は、ステップS106で障害対応基準時間を超過した場合と、ステップS111で訓練フォロー要と判定された場合に、運用者に必要な情報を提示する。提示する情報の内容は、
図16の訓練フォローの内容に示すとおりである。
図16の例では、対応妥当性の評価が否で、障害復旧の成否評価が否の場合、訓練フォローの内容として「障害復旧アシスト」が抽出される。このケースは、重要ポイントは理解しているが障害復旧できていないという状態である。「障害復旧アシスト」が抽出されたので、訓練結果評価部38は、障害復旧させるための支援情報を運用者に提示する。障害復旧させるための支援情報として、発生させた障害の内容と、対応の重要ポイントと正しい対応方法を提示する。また、訓練結果評価部38は、運用システム10の装置側で自動復旧させるといった所定のアシスト処理を実行し、運用者が速やかに障害復旧を行えるようにする。
【0041】
<ステップS113:対応方法一致度判定>
訓練結果評価部38は、障害対応方法と登録対応方法とが一致するか否かを判定する。更新部309は、障害対応方法と登録対応方法とが一致しない場合に、障害対応方法を登録対応方法として障害情報42に登録する。具体的には、訓練結果評価部38は、障害情報42に保存されている登録対応方法と、訓練履歴44に保存した今回の障害対応方法とを比較し、一致度を判定する。
図17は、本実施の形態に係る障害情報42の登録対応方法56の例を示す図である。
登録対応方法56では、障害への対応パターンがコマンドの実行順序と実行内容で定義されている。
訓練結果評価部38は、登録対応方法56に定義されたコマンドの実行順序と実行内容と、訓練履歴44に保存した今回の障害対応方法とを比較判定する。
【0042】
図18は、本実施の形態に係るコマンド実行のログの例を示す図である。
図19は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58の一例を示す図である。
図20は、本実施の形態に係る訓練履歴44に保存した今回の障害対応方法58aの他例を示す図である。
訓練結果評価部38は、
図18に示すようなコマンド実行のログを取得しておく。そして、訓練結果評価部38は、実行されたコマンドを
図19に示すように訓練履歴44に記録する。訓練結果評価部38は、
図17と
図19を比較することで、対応方法の一致度を判定する。
図17と
図19の例では、実行順序と実行内容が全て一致している。一方、訓練履歴44に保存した今回の障害対応方法が
図20の場合、
図17と
図20とを比較すると、実行順序が一部異なる。この場合は、訓練結果評価部38は、一部不一致と判定する。また、実行順序と実行内容が全く異なる場合は、訓練結果評価部38は、完全不一致と判定する。全て一致していると判定した場合は、ステップS115に移行する。一部不一致、あるいは、完全不一致と判定した場合は、原因特定も障害復旧も障害対応基準時間内で正しくできた上で障害に対する新しい対応方法が見つかったことを意味し、ステップS114に移行する。
【0043】
<ステップS114:対応方法新規登録>
障害情報更新部39は、訓練履歴44に保存した今回の障害対応方法を取得し、障害情報42の登録対応方法として新規で追加登録する。
図21は、本実施の形態に係る障害情報42において今回の障害対応方法を対応パターン2として新規登録した例を示す図である。
【0044】
<ステップS115:運用者スキル更新>
運用者情報更新部391は、ステップS108、ステップS109、ステップS110、およびステップS111の結果から運用者のスキルを判定し、運用者情報43を更新する。
図22は、本実施の形態に係る運用判定基準表57を示す図である。
運用者情報更新部391は、運用判定基準表57に従って、運用者情報43を更新する。
図22では、運用者10015が対応妥当性の評価が正、障害復旧の成否評価が成、および訓練フォローの要否が否であった場合、運用者10015の対応可能障害難易度をレベルアップすると設定されている。よって、運用者10015の現在の対応可能障害難易度が
図8に示すように低の場合は、現在の低からレベルアップして中となる。このように、運用者情報更新部391は、運用者情報43の運用者スキル一覧の対応可能障害難易度を更新する。
【0045】
なお、ステップS101からステップS104の一連の動作、およびステップS106からステップS115の一連の動作に関する実行内容および実行順序はあくまで一例であり、必ずしも上述の実施例に限るものではない。
【0046】
***ハードウェア構成の説明***
図23は、本実施の形態に係る障害対応訓練装置20のハードウェア構成を示す図である。
障害対応訓練装置20は、コンピュータである。障害対応訓練装置20は、プロセッサ910を備えるとともに、メモリ921、補助記憶装置922、入力インタフェース930、出力インタフェース940、および通信装置950といった他のハードウェアを備える。プロセッサ910は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
【0047】
障害対応訓練装置20は、機能要素として、選択部301、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、および更新部309を備える。選択部301、影響予測部33、訓練実行部34、訓練内容記録部35、原因取得部36、原因評価取得部37、訓練結果評価部38、および更新部309の機能を訓練装置30の機能という。また、システム情報41、障害情報42、運用者情報43、および訓練履歴44は、メモリ921に備えられる。システム情報41、障害情報42、運用者情報43、および訓練履歴44の機能を情報保存装置40の機能という。
【0048】
訓練装置30の機能は、ソフトウェアにより実現される。情報保存装置40は、メモリ921に備えられる。
【0049】
プロセッサ910は、障害対応訓練プログラムを実行する装置である。障害対応訓練プログラムは、訓練装置30の機能を実現するプログラムである。
プロセッサ910は、演算処理を行うIC(Integrated Circuit)である。プロセッサ910の具体例は、CPU、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
【0050】
メモリ921は、データを一時的に記憶する記憶装置である。メモリ921の具体例は、SRAM(Static Random Access Memory)、あるいはDRAM(Dynamic Random Access Memory)である。
補助記憶装置922は、データを保管する記憶装置である。補助記憶装置922の具体例は、HDDである。また、補助記憶装置922は、SD(登録商標)メモリカード、CF、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVDといった可搬記憶媒体であってもよい。なお、HDDは、Hard Disk Driveの略語である。SD(登録商標)は、Secure Digitalの略語である。CFは、CompactFlash(登録商標)の略語である。DVDは、Digital Versatile Diskの略語である。
【0051】
入力インタフェース930は、マウス、キーボード、あるいはタッチパネルといった入力装置と接続されるポートである。入力インタフェース930は、具体的には、USB(Universal Serial Bus)端子である。なお、入力インタフェース930は、LAN(Local Area Network)と接続されるポートであってもよい。
出力インタフェース940は、ディスプレイといった出力機器のケーブルが接続されるポートである。出力インタフェース940は、具体的には、USB端子またはHDMI(登録商標)(High Definition Multimedia Interface)端子である。ディスプレイは、具体的には、LCD(Liquid Crystal Display)である。
【0052】
通信装置950は、レシーバとトランスミッタを有する。通信装置950は、LAN、インターネット、あるいは電話回線といった通信網に接続している。通信装置950は、具体的には、通信チップまたはNIC(Network Interface Card)である。
【0053】
障害対応訓練プログラムは、プロセッサ910に読み込まれ、プロセッサ910によって実行される。メモリ921には、障害対応訓練プログラムだけでなく、OS(Operating System)も記憶されている。プロセッサ910は、OSを実行しながら、障害対応訓練プログラムを実行する。障害対応訓練プログラムおよびOSは、補助記憶装置922に記憶されていてもよい。補助記憶装置922に記憶されている障害対応訓練プログラムおよびOSは、メモリ921にロードされ、プロセッサ910によって実行される。なお、障害対応訓練プログラムの一部または全部がOSに組み込まれていてもよい。
【0054】
障害対応訓練装置20は、プロセッサ910を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、障害対応訓練プログラムの実行を分担する。それぞれのプロセッサは、プロセッサ910と同じように、障害対応訓練プログラムを実行する装置である。
【0055】
障害対応訓練プログラムにより利用、処理または出力されるデータ、情報、信号値および変数値は、メモリ921、補助記憶装置922、または、プロセッサ910内のレジスタあるいはキャッシュメモリに記憶される。
【0056】
訓練装置30の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えてもよい。また訓練装置30の各部の「処理」を「プログラム」、「プログラムプロダクト」または「プログラムを記録したコンピュータ読取可能な記憶媒体」に読み替えてもよい。
障害対応訓練プログラムは、上述の各部の「部」を「処理」、「手順」あるいは「工程」に読み替えた各処理、各手順あるいは各工程を、コンピュータに実行させる。また、障害対応訓練方法は、障害対応訓練装置20が障害対応訓練プログラムを実行することにより行われる方法である。
障害対応訓練プログラムは、コンピュータ読取可能な記録媒体に格納されて提供されてもよい。また、障害対応訓練プログラムは、プログラムプロダクトとして提供されてもよい。
【0057】
***他の構成***
本実施の形態では、訓練装置30の機能がソフトウェアで実現される。変形例として、訓練装置30の機能がハードウェアで実現されてもよい。
訓練装置30の機能がハードウェアで実現される場合、障害対応訓練装置20は、プロセッサに替えて電子回路を備える。
【0058】
電子回路は、訓練装置30の機能を実現する専用の電子回路である。
電子回路は、具体的には、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、または、FPGAである。GAは、Gate Arrayの略語である。ASICは、Application Specific Integrated Circuitの略語である。FPGAは、Field-Programmable Gate Arrayの略語である。
訓練装置30の機能は、1つの電子回路で実現されてもよいし、複数の電子回路に分散して実現されてもよい。
別の変形例として、訓練装置30の一部の機能が電子回路で実現され、残りの機能がソフトウェアで実現されてもよい。
【0059】
プロセッサと電子回路の各々は、プロセッシングサーキットリとも呼ばれる。つまり、障害対応訓練装置20において、訓練装置30の機能は、プロセッシングサーキットリにより実現される。
【0060】
***本実施の形態の効果の説明***
本実施の形態に係る障害対応訓練装置では、効率的な運用者の障害対応スキル向上が見込まれるという効果がある。近年のビジネススピードの向上に対応するため、短期間で効率的な運用者の障害対応スキル向上が必要となっている。本実施の形態に係る障害対応訓練装置によれば、運用者の障害対応スキルに合わせて障害を選び、また本番環境という実際の障害対応に近い状態で訓練を実施するため、効率的に運用者の訓練を行うことができる。
【0061】
また、本実施の形態に係る障害対応訓練装置によれば、障害対応方法のノウハウを蓄積することができる。本実施の形態に係る障害対応訓練装置によれば、障害と障害対応方法の対応パターンを蓄積できる。このような情報を、本物の障害発生時に提示することで、迅速な解決に活用可能である。
【0062】
また、本実施の形態に係る障害対応訓練装置によれば、運用者情報を運用シフトの最適化に利用できる。本実施の形態に係る運用者情報を障害対応スキルのデータを用いることで、最適な運用シフトを作成することに活用可能である。
【0063】
以上のように、本実施の形態に係る障害対応訓練装置では、運用者情報および障害情報を保存し、これらの情報を随時更新することで、運用者の障害対応スキルを適切に評価することができる。本実施の形態に係る障害対応訓練装置では、定型作業という決められた方法で実施する作業に対して評価するだけでなく、障害対応に対する非定型作業を評価することができる。非定型作業である障害対応方法は1つとは限らないため、新しい障害対応方法が訓練時に見つかるケースもある。
本実施の形態に係る障害対応訓練装置によれば、障害復旧できたか、および、原因特定が正しくできたかといった重要ポイントの評価と、障害対応方法の評価を組み合わせて評価することができる。また新しく見つかった障害対応方法を、随時、新規登録パターンとして更新していくことができる。
【0064】
以上の実施の形態1では、障害対応訓練装置の各部を独立した機能ブロックとして説明した。しかし、障害対応訓練装置の構成は、上述した実施の形態のような構成でなくてもよい。障害対応訓練装置の機能ブロックは、上述した実施の形態で説明した機能を実現することができれば、どのような構成でもよい。また、障害対応訓練装置は、1つの装置でなく、複数の装置から構成されたシステムでもよい。
また、実施の形態1のうち、複数の部分を組み合わせて実施しても構わない。あるいは、この実施の形態のうち、1つの部分を実施しても構わない。その他、この実施の形態を、全体としてあるいは部分的に、どのように組み合わせて実施しても構わない。
すなわち、実施の形態1では、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
【0065】
なお、上述した実施の形態は、本質的に好ましい例示であって、本発明の範囲、本発明の適用物の範囲、および本発明の用途の範囲を制限することを意図するものではない。上述した実施の形態は、必要に応じて種々の変更が可能である。
【符号の説明】
【0066】
10 運用システム、20 障害対応訓練装置、30 訓練装置、301 選択部、31 訓練内容選択部、32 対応可否判定部、33 影響予測部、34 訓練実行部、35 訓練内容記録部、36 原因取得部、37 原因評価取得部、38 訓練結果評価部、39 障害情報更新部、391 運用者情報更新部、309 更新部、41 システム情報、42 障害情報、43 運用者情報、44 訓練履歴、40 情報保存装置、50 運用監視装置、51 候補リスト、52,52a 障害対応情報入力画面、53 正解表、54 重要ポイント一覧、55 訓練フォロー基準表、56 登録対応方法、57 運用判定基準表、58,58a 障害対応方法、60 運用者端末、61 運用者、71 訓練用障害、72 訓練通知、73 障害対応情報、74 評価結果、500 障害対応訓練システム、910 プロセッサ、921 メモリ、922 補助記憶装置、930 入力インタフェース、940 出力インタフェース、950 通信装置。