IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

<>
  • 特許-登録装置、登録方法、及びプログラム 図1
  • 特許-登録装置、登録方法、及びプログラム 図2
  • 特許-登録装置、登録方法、及びプログラム 図3
  • 特許-登録装置、登録方法、及びプログラム 図4
  • 特許-登録装置、登録方法、及びプログラム 図5
  • 特許-登録装置、登録方法、及びプログラム 図6
  • 特許-登録装置、登録方法、及びプログラム 図7
  • 特許-登録装置、登録方法、及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】登録装置、登録方法、及びプログラム
(51)【国際特許分類】
   H04L 41/0654 20220101AFI20241217BHJP
   H04L 41/0631 20220101ALI20241217BHJP
【FI】
H04L41/0654
H04L41/0631
【請求項の数】 8
(21)【出願番号】P 2023532973
(86)(22)【出願日】2021-07-08
(86)【国際出願番号】 JP2021025742
(87)【国際公開番号】W WO2023281688
(87)【国際公開日】2023-01-12
【審査請求日】2023-11-21
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】金井 俊介
(72)【発明者】
【氏名】野末 晴久
(72)【発明者】
【氏名】山本 憲男
(72)【発明者】
【氏名】浅井 文香
(72)【発明者】
【氏名】田山 健一
(72)【発明者】
【氏名】リ テキ
【審査官】浜岸 広明
(56)【参考文献】
【文献】特開2009-086896(JP,A)
【文献】特開2017-207894(JP,A)
【文献】特開2021-060715(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04L 41/00-43/55
(57)【特許請求の範囲】
【請求項1】
障害が発生していると推定される障害装置と、この障害装置の周辺に設置される周辺装置と、に関する障害についてのログデータを取得する取得部と、
前記ログデータから、イベントログの発生頻度に基づいて類似したイベントログをグループ化し、類似したイベントログを含む1以上のグループを生成する生成部と、
前記グループのうち、前記障害を解消するための教師データに対応するイベントログを含むグループ内にある1以上のイベントログが、前記障害装置または前記周辺装置の1つである装置の運用に関する運用データに対応する場合にこの運用データを仮の教師データとして登録する仮登録部と、
前記障害装置または前記周辺装置に関連する仮の教師データがあるかどうかに基づいて、前記1つである装置の障害への対処ごとに確信度を計算する計算部と、
前記確信度が閾値以上であるかどうかを判定する判定部と、
前記確信度が閾値以上である前記仮の教師データを教師データとして登録する登録部と、
を備える登録装置。
【請求項2】
前記生成部は、前記障害装置及び前記周辺装置が生成するイベントログの発生頻度に基づいて類似したイベントログをグループ化するクラスタリングによる処理を実行することにより前記グループを生成する、請求項1に記載の登録装置。
【請求項3】
前記判定部は、前記障害装置の前記確信度が閾値以上であるかどうかを判定し、前記障害装置の前記確信度が前記閾値未満である場合に前記周辺装置の前記確信度が閾値以上であるかどうかを判定する、請求項1または2に記載の登録装置。
【請求項4】
前記登録部は、前記障害装置の前記確信度が閾値以上である場合にこの確信度に対応する仮の教師データを教師データとして登録し、
前記判定部は、前記障害装置の前記確信度が閾値以上である場合には前記周辺装置の確信度の判定は実施しない、請求項1乃至3のいずれか1項に記載の登録装置。
【請求項5】
前記生成部は、障害に関する情報、障害への対処情報、または、前記障害の回復情報、の少なくともいずれかを含む前記教師データと、前記障害装置または前記周辺装置の1つである装置の障害に関する情報、または、障害に関する内容に関する情報、の少なくともいずれかを含む前記運用データと、を含むデータを前記ログデータとして前記グループを生成する、請求項1乃至4のいずれか1項に記載の登録装置。
【請求項6】
障害が発生していると推定される障害装置と、この障害装置の周辺に設置される周辺装置と、に関する障害情報を受け付ける受付部をさらに備え、
前記取得部は、前記障害情報に基づいて前記ログデータを取得する、請求項1乃至5のいずれか1項に記載の登録装置。
【請求項7】
取得部が、障害が発生していると推定される障害装置と、この障害装置の周辺に設置される周辺装置と、に関する障害についてのログデータを取得し、
生成部が、前記ログデータから、イベントログの発生頻度に基づいて類似したイベントログをグループ化し、類似したイベントログを含む1以上のグループを生成し、
仮登録部が、前記グループのうち、前記障害を解消するための教師データに対応するイベントログを含むグループ内にある1以上のイベントログが、前記障害装置または前記周辺装置の1つである装置の運用に関する運用データに対応する場合にこの運用データを仮の教師データとして登録し、
計算部が、前記障害装置または前記周辺装置に関連する仮の教師データがあるかどうかに基づいて、前記1つである装置の障害への対処ごとに確信度を計算し、
判定部が、前記確信度が閾値以上であるかどうかを判定し、
登録部が、前記確信度が閾値以上である前記仮の教師データを教師データとして登録すること、
を備える登録方法。
【請求項8】
コンピュータを、請求項1乃至6のいずれか1項に記載の登録装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、登録装置、登録方法、及びプログラムに関する。
【背景技術】
【0002】
ネットワークの障害事例を登録したデータベースから、登録済みの障害事例と重複しないように、障害事例ごとにユニークな障害イベントの組み合わせを抽出し、特徴的な障害イベントとして、障害要因箇所を判定可能なルールを自動で作成及び修正する技術がある。
【0003】
既に運用されているネットワークでは、このルールを生成するために過去の障害履歴情報から障害情報を登録する必要がある。障害履歴情報は、例えば、障害場所、障害原因、障害に対する対処方法を含む。
【先行技術文献】
【特許文献】
【0004】
【文献】日本国特開2018-028778号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、障害を推定するルールを作るためには、障害への対処が完了した後に障害発生装置に関する情報等を人が手動で登録する必要があり、人の稼働を要する他、登録の遅れや漏れが発生するといった問題がある。
【0006】
実施形態は、障害を推定するルールを作るための情報を確実かつ容易に登録する登録装置、登録方法、及びプログラムを提供する。
【課題を解決するための手段】
【0007】
実施形態の登録装置は、取得部と、生成部と、仮登録部と、計算部と、判定部と、登録部とを含む。取得部は、障害が発生していると推定される障害装置と、この障害装置の周辺に設置される周辺装置と、に関する障害についてのログデータを取得する。生成部は、ログデータから、ある頻度以上に発せられた類似したイベントログを含む1以上のグループを生成する。仮登録部は、グループのうち、障害を解消するための教師データに対応するイベントログを含むグループ内にある1以上のイベントログが、ある装置の運用に関する運用データに対応する場合にこの運用データを仮の教師データとして登録する。計算部は、障害装置または周辺装置に関連する仮の教師データがあるかどうかに基づいて、装置の障害への対処ごとに確信度を計算する。判定部は、確信度が閾値以上であるかどうかを判定する。登録部は、確信度が閾値以上である仮の教師データを教師データとして登録する。
【発明の効果】
【0008】
実施形態は、障害を推定するルールを作るための情報を確実かつ容易に登録することができる。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る障害情報登録装置のハードウェア構成を示す図である。
図2図2は、実施形態に係る障害情報登録装置の機能を示す図である。
図3図3は、図2のログデータ取得部が取得する、教師データと運用データとの内容を示す図である。
図4図4は、実施形態に係る障害情報登録装置の動作の一例である仮の教師データの登録を示すフローチャートである。
図5図5は、図2のグループ生成部がクラスタリングした結果のログを含んだ教師データと運用データとの内容を示す図である。
図6図6は、障害装置及び周辺装置ごとに、教師データに対応する運用データの対処名ごとの一致度を示す図である。
図7図7は、実施形態に係る障害情報登録装置の動作の一例である教師データの登録を示すフローチャートである。
図8図8は、図2の教師DBに登録された教師データの内容を示す図である。
【発明を実施するための形態】
【0010】
以下、実施形態が図面に基づいて説明される。
【0011】
(ハードウェア構成)
本実施形態の障害情報登録装置(単に登録装置とも称す)のハードウェア構成の一例が図1を参照して説明される。
本実施形態の障害情報登録装置100は、プロセッサ101と、ROM102と、RAM103と、インタフェース104と、ディスプレイ105と、ストレージ106と、を含む。
【0012】
プロセッサ101は、障害情報登録装置100の全体を制御する処理装置である。プロセッサ101は、例えばCPU(Central Processing Unit)である。プロセッサ101は、CPUに限るものではない。また、CPUに代えてASIC(Application Specific IC)等が用いられてもよい。また、プロセッサ101は、1つでなく、2つ以上であってもよい。
【0013】
ROM102は、読み出し専用の記憶装置である。ROM102は、障害情報登録装置100の動作に必要なファームウェア、各種のプログラムを記憶する。
【0014】
RAM103は、任意に書き込みできる記憶装置である。RAM103は、プロセッサ101のための作業エリアとして使用され、ROM102に格納されているファームウェア等を一時的に記憶する。
【0015】
インタフェース104は、外部の装置との間で情報をやりとりするための装置である。インタフェース104は、例えば、運用データ、教師データ、ユーザからの入力を受け付ける。また、インタフェース104は、外部のサーバ等との間で情報を送受信してもよい。
【0016】
ディスプレイ105は、各種の画面を表示する表示装置である。ディスプレイ105は、液晶ディスプレイ、有機ELディスプレイ等であってよい。また、ディスプレイ105は、タッチパネルを備えていてもよい。
【0017】
ストレージ106は、ハードディスク等の記憶装置である。ストレージ106は、例えばプロセッサ101によって実行される各種のアプリケーション、アプリケーションの入力となるデータ、及びアプリケーションの実行によって得られたデータを記憶する。
【0018】
(機能構成)
次に、本実施形態の障害情報登録装置100の機能の一例が図2を参照して説明される。
本実施形態の障害情報登録装置100は、機能ブロックとして、運用データ取得部201と、障害情報受付部202と、教師DB(以下、データベースをDBと略す)203と、ログデータ取得部204と、グループ生成部205と、仮教師データ登録部206と、確信度計算部207と、確信度判定部208と、教師データ登録部209と、を含む。
【0019】
また、運用データ取得部201、及び障害情報受付部202は、例えば、インタフェース104によって実現される。ログデータ取得部204、グループ生成部205、仮教師データ登録部206、確信度計算部207、確信度判定部208、及び教師データ登録部209は、例えば、プロセッサ101、ROM102、RAM103、及びストレージ106によって実現される。教師DB203は、例えば、ストレージ106によって実現される。障害情報受付部202または教師データ登録部209の少なくともいずれかは、例えば、インタフェース104及びディスプレイ105によって実現されてもよい。
【0020】
運用データ取得部201は、ネットワークを介してまたは直接接続し、外部のDB等から運用データを取得する。運用データは、1以上の装置の運用に関する情報を含む。運用データは、例えば、1以上の装置の障害に関する情報、この障害の対処に関する情報、または、この障害の回復に関する情報、の少なくとも1つの情報を含む。運用データ取得部201は、取得した運用データを受け取り次第、順次、ログデータ取得部204に出力する。また運用データ取得部201は、運用データが所定量だけ(例えば、運用データ取得部201内にある)バッファに記憶されたら、順次、運用データをログデータ取得部204に出力してもよい。なお、運用データは図3を参照して後に説明される。
【0021】
障害情報受付部202は、ネットワークの障害に関してユーザまたはユーザに代わる装置が判断した障害情報を受け付ける。ユーザまたはユーザに代わる装置は例えば、運用データを調査して障害情報を推定する。障害情報は、推定された障害を示す情報(例えば、障害名を含む情報)と、障害が発生したと推定した箇所を示す情報と、障害に対してある対処を実施したことを示す情報と、この対処によって回復もしくは回復せずになったことを示す情報等と、を含む。
障害が発生したと推定した箇所を示す情報は、障害が発生しているとユーザが推定した障害装置に関する情報と、この障害装置の周辺に設置される周辺装置に関する情報と、を含む。周辺装置は、障害装置との物理的な距離では規定されず、ネットワークの接続上で障害装置により近いノードとして規定される。従って、周辺装置は、障害装置の障害による影響を他の装置よりも受けやすい装置である。
この障害情報は、ユーザまたはユーザに代わる装置が推定しているので正確でないことも有り得る。しかし、本実施形態の障害情報登録装置100は、不正確な障害情報を入力されても後述する処理により、精度の高い教師データを登録することができる。この結果、障害情報登録装置100は、ネットワークにおける障害、障害箇所(障害位置とも称す)、及び対処されて回復した装置を精度よく推定することができる。なお、障害箇所は、ネットワーク上の位置を示し、例えば、ホスト名またはIPアドレスの少なくともいずれかで規定される。
【0022】
教師DB203は、予め事前に取得された教師データと、教師データ登録部209により新たに登録される教師データと、を記憶する。予め事前に取得された教師データは例えば、ネットワークを介してまたは直接に接続して、外部のDB等から取得される。教師データは、障害位置を推定するルールを作るための情報を含んでいる。教師データは、例えば、1以上の障害に関する情報、この障害の対処に関する情報、または、この障害の回復に関する情報、の少なくとも1つの情報を含む。なお、教師データは図3を参照して後に説明される。
【0023】
ログデータ取得部204は、運用データ取得部201が取得した運用データと、教師DB203に記憶されている教師データと、からなるログデータから、障害情報受付部202によって受け付けた障害情報に基づいて障害装置と周辺装置とに関連するログデータを取得する。すなわち、ログデータ取得部204はユーザが推定した障害装置と周辺装置に関連するログデータを取得する。
【0024】
グループ生成部205は、ログデータ取得部204が取得したログデータからイベントログを抽出し、これら複数のイベントログに対してクラスタリング処理を実行する。イベントログは、運用データと教師データとの全ログデータから抽出されるログであり、例えば、Syslogである。イベントログの一例は、図3の枠で囲まれた部分に示される4つがある。なお、図3の「教師A」、「教師B」の行は教師データに含まれるデータの一部を示し、図3の「運用A」、「運用B」の行は運用データに含まれるデータの一部を示している。イベントログは、教師データまたは運用データのそれぞれに含まれる。
【0025】
グループ生成部205は、障害装置と周辺装置とが生成するイベントログの発生頻度に基づいて類似したイベントログをグループ化する。グループ生成部205は、一般に、類似したイベントログがそれぞれグループ化された複数のグループを生成する。クラスタリング処理は、各装置(ノードとも称す)が発するイベントログから、イベントログの発生頻度や順番などに関して類似したイベントログ(もしくはイベント)をグループ分けする。クラスタリング処理を実行する手法は、例えば、LogCluster, Drainがあるが特に拘らない。
【0026】
仮教師データ登録部206は、グループ生成部205が生成したグループから、教師データに含まれているイベントログを含むグループを抽出する。そして、仮教師データ登録部206は、抽出したグループに他のイベントログが含まれているかどうかを判定し、他のイベントログが含まれている場合には、このイベントログが運用データに含まれているものであり、かつ、教師データに含まれているイベントログと異なるかどうかを判定する。教師データに含まれているイベントログと異なるものであり、かつ、運用データに含まれるイベントログは、新規のイベントログとして採用される。
【0027】
さらに仮教師データ登録部206は、抽出したグループに他のイベントログが含まれ、かつ、このイベントログが運用データに含まれているものであり、かつ、これらのイベントログが異なると判定した場合には、この運用データと、このグループに含まれるイベントログを含む教師データと、がマージされたデータを仮の教師データとして登録する。このマージされたデータは、例えば、このグループに含まれる教師データに、この運用データのデータが存在する項目だけ上書きされたものである。仮の教師データの一例は後に図5を参照して説明される。
【0028】
仮教師データ登録部206は、グループ生成部205により生成されるグループごとに繰り返し教師データに含まれているイベントログを含むグループを抽出して、上記処理を繰り返し、全ての仮の教師データを登録する。この仮の教師データは任意の記憶装置に一時的に記憶される。仮の教師データは、例えば、仮教師データ登録部206に設けられたバッファに記憶される。
【0029】
確信度計算部207は、まず、障害装置及び周辺装置ごとに仮の教師データを収集する。確信度計算部207は、障害装置または周辺装置の1つである装置ごとにこの装置に関連する仮の教師データがあるかどうかを判定する。具体的には例えば、確信度計算部207は、仮の教師データに含まれる装置情報が示す装置が、この仮の教師データに関連していると判定する。仮の教師データは、装置情報を含んでいる運用データを含むので装置情報を含む(例えば、図3及び図5参照)。そして確信度計算部207は、仮の教師データに含まれる対処内容(図3または図5に示される項目「対処内容」)に示される情報が対処-*-を示している場合(図3または図5に示される「(対処)」)にはその対処ごとに対処が行われたどうか、対処が行われた場合にはこの対処によって回復したかどうかを判定する。この対処は、対処名で規定される対処内容ごとに、対処が行われたかどうか、この対処により回復したかどうか、を含む。
【0030】
確信度計算部207は、対処内容ごとに、ある装置に実行された対処と、この対処により回復したかどうかと、に基づいて確信度を計算する。確信度は、障害がある装置への対処内容に対して、ある対処がどの程度装置を回復に導くかを示す確率に対応する指標の1つである。確信度の一例は後に図6を参照して説明される。
【0031】
確信度計算部207は、仮教師データ登録部206が登録した全ての仮の教師データにより装置の障害への対処ごとに確信度を計算する。この結果、確信度計算部207は、障害装置と周辺装置とに関して対処内容ごとに確信度を計算してこれらの計算結果を得ることができる。
【0032】
確信度判定部208は、確信度計算部207が計算した確信度ごとに閾値以上であるかどうかを判定する。この閾値は、予めユーザによって設定されてもよいし、グループ生成部205のクラスタリング処理に使用するアルゴリズム、確信度計算部207が行う確信度の計算手法等に依存して設定されてもよい。また閾値は、教師DB203に登録される教師データの精度に応じて適応的に決定されてもよい。例えば、確信度判定部208が教師データの精度が低くなる傾向にあると判定すれば閾値を上げる。さらに閾値の決定は、教師データ登録部209に登録される教師データの数も参照してもよい。確信度判定部208が例えば、登録される教師データの数が減少している傾向にあると判定すればこの傾向を、閾値を下げる因子の1つとして設定してよい。
【0033】
教師データ登録部209は、確信度判定部208の判定結果を受け取り、確信度が閾値以上であると判定された対処内容に対応する仮の教師データを(真の)教師データとして教師DB203に登録する。
【0034】
なお、障害情報受付部202または教師データ登録部209の少なくともいずれかは、例えば、受け付けた障害情報を表示する、または、登録される教師データを表示してもよい。これらの表示に基づいてユーザまたはユーザに代わる装置は、障害情報登録装置100を監視することができ、監視によって登録精度が良くなると期待される。なお、障害情報受付部202または教師データ登録部209の少なくともいずれかは、提示部として表示せず音声によりユーザまたはユーザに代わる装置に情報を提示してもよい。障害情報受付部202または教師データ登録部209の少なくともいずれかは、ユーザまたはユーザに代わる装置に情報が伝われば、表示または音声に拘らず他の手段により情報を伝達してもよい。
【0035】
障害情報登録装置100は、イベントログをクラスタリング処理することにより、教師DB203に記憶される教師データを整備することが可能になる。この整備の結果、障害情報登録装置100は、障害位置を精度良く推定するルールを作るための情報を登録することができる。
【0036】
(教師データと運用データ、クラスタリング)
教師データと運用データとの一例が図3を参照して説明される。
教師データは、イベントログ、対処内容、及び対処内容に対応する正規表現を含む。対処内容は、障害に関する情報、この障害の対処に関する情報、または、この障害の回復に関する情報、の少なくともいずれかを含む。図3に示される教師Aの行は教師データを示し、この教師データは、「restart port:03」というイベントログと、「カード再起動(対処)」という対処であることを示す対処内容と、「restart port:ID<>」という対処内容の正規表現と、を含むことを示す。同様に図3に示される教師Bの行に示される教師データは、「restart-OK」というイベントログと、「カード再起動(回復)」という回復であることを示す対処内容と、「restart-OK」という対処内容の正規表現と、を含むことを示す。
【0037】
「restart port:ID<>」は、IDのポートを再開することにより対処することを示す。IDは変数であり、運用データでは特定のID番号(例えば、自然数)が対応する。「restart-OK」は、対応する対処により装置が再開したこと(回復)を示す。
【0038】
運用データは、図3のようにイベントログ、及び装置IPを含む。運用データは、図3には明示していないが、ある装置の障害に関する情報、または、障害についての内容に関する情報、の少なくともいずれかを含む。ある装置の障害に関する情報は、例えば、障害が発生した日時、障害の発生箇所(ホスト名、IPアドレス等の装置IP)、障害への対処すべき緊急度(Emerg, Alert, Notice, Info等)、を含む。障害についての内容に関する情報は、例えば、この障害の対処に関する情報、または、この障害の回復に関する情報、の少なくともいずれかを含む。以下では運用データについては、本実施形態で主に利用される、障害の発生箇所を示す装置IPと、この障害の対処または回復に関する情報を含むイベントログと、に注目する。従って本実施形態では、運用データはこれらの注目される情報のうちの少なくともいずれかを含むものとして説明される。なお、運用データは、注目される情報以外に、明記しなくとも上記に示した情報を含んでいることに注意する。
【0039】
図3に示される「運用A」は運用データを示し、装置IPがXXで障害が発生していることを示す情報と、「restart port:12」という障害の対処に関する情報と、を含む。図3に示される「運用B」は運用データを示し、装置IPがYYで障害が発生していることを示す情報と、「re-insert card:04」という障害の対処に関する情報と、を含む。
【0040】
「restart port:12」は、具体的な番号である12が指定され、この12のポートを再開することにより障害に対処することを示す。「re-insert card:04」は、具体的な番号である04が指定され、この04のカードを再度挿入することにより障害に対処することを示す。
【0041】
グループ生成部205が行うクラスタリング処理は、運用データと教師データとの全ログデータのそれぞれに含まれるイベントログに対して実行される。図3の例ではこれらのイベントログは、図3の囲みに含まれる4つのSyslogである。すなわち、グループ生成部205は、4つのイベントログである、「restart port:03」「restart-OK」「restart port:12」「re-insert card:04」に対してクラスタリングを実行する。
【0042】
(仮の教師データ登録処理)
次に、障害情報登録装置100が仮の教師データを登録するまでの動作の一例が図4を参照して説明される。
【0043】
ステップS401において、障害情報受付部202が、ユーザまたはユーザに代わる装置が判断した障害情報を受け付ける。
【0044】
ステップS402において、ログデータ取得部204が、障害情報受付部202から受け取る障害情報に基づいて、運用データ取得部201から取得した運用データと、教師DB203から取得する教師データと、を取得する。
【0045】
ステップS403において、グループ生成部205が、ログデータ取得部204が取得した運用データと教師データとから、これらのデータに含まれる全てのイベントログを取得する。
【0046】
ステップS404において、グループ生成部205が、ステップS403で取得した全てのイベントログに関してクラスタリング処理を実行する。
【0047】
ステップS405において、グループ生成部205が、イベントログの発生頻度に基づいて類似したイベントログをグループ化する。この結果、グループ生成部205は類似したイベントログを含む1以上のグループを生成する。
【0048】
ステップS406において、仮教師データ登録部206が、ステップS405で生成されたあるグループに教師データに含まれているイベントログが含まれている場合に、このグループに運用データに含まれているイベントログが含まれているかどうかを判定する。仮教師データ登録部206は、このグループに運用データに含まれているイベントログが含まれていると判定し、かつ、教師データに含まれているイベントログと運用データに含まれているイベントログとが異なると判定した場合にはステップS407に進み、このグループに運用データに含まれているイベントログが含まれていないと判定した場合にはステップS408に進む。教師データに含まれているイベントログと運用データに含まれているイベントログとが異なると判定されるということは、運用データに含まれているイベントログは新規のイベントログであると言える。
【0049】
ステップS407において、仮教師データ登録部206が、ステップS406で含まれていると判定された新規のイベントログを含む運用データと、ステップS406でのグループに含まれるイベントログを含む教師データと、がマージされたデータを仮の教師データとして登録する。
【0050】
ステップS408において、仮教師データ登録部206が、ステップS405で生成されたグループのうち、教師データに含まれているイベントログが含まれているかどうかを判定していないグループ(未確認グループと称す)があるかどうかを判定する。仮教師データ登録部206は、未確認グループがあると判定した場合にはステップS406に戻り、未確認グループがないと判定した場合には処理を終了する。
【0051】
(仮の教師データ)
仮教師データ登録部206により登録される仮の教師データが、図5を参照して説明される。
【0052】
図5の例では、「運用A」の行が仮の教師データの内容を示している。図5の例では、教師データ(「教師A」の行)に含まれるイベントログである「restart port:03」と、運用データ(「運用A」の行)に含まれるイベントログである「restart port:12」と、がグループ生成部205により同じグループに分類されている。図5に示される仮の教師データは、イベントログ「restart port:03」を含む教師データの内容(図5の「教師A」の行)に、図3に示す「運用A」の運用データが上書きされたものである。図5の下線かつ太字により記載されている、正規表現である「restart port:ID<>」と、対処内容である「カード再起動(対処)」と、が上書きされた教師データの一部が残存する内容であり、残りのSyslogである「restart port:12」と装置IPである「XX」とが、運用データの内容であり教師データの該当データを上書きしたことにより教師データが変更された内容である。
【0053】
(対処と回復)
装置に発生する障害に対する対処及び回復が、図6を使用して説明される。
【0054】
対処名で規定される対処内容の例は、図6に示される「カード再起動」及び「ポート変更」がある。対処が行われたかどうかは、図6の例では「対処」の項目に記載され、対処が行われた場合には「○」が示され、対処が行われなかった場合には「X」が示される。同様に対応する対処により回復したかどうかは、図6の例では、「回復」の項目に記載され、回復した場合には「○」が示され、回復しなかった場合には「X」が示される。図6に示される例では、対処名「カード再起動」に対しては、装置IPがXXでは対処され回復しているが、装置IPがYYでは対処されず回復もしていないことを示す。一方、対処名「ポート変更」に対しては、装置IPがXXでもYYでも2つの対処のいずれも実行されず、回復もしていないことを示す。
【0055】
(確信度)
対処内容ごとにある装置の確信度が図6を参照して説明される。
【0056】
装置の確信度は、図6に示されるように対処内容ごとに計算される。具体的には確信度計算部207は例えば、ある対処内容に対して対処が行われれば1、行われなければ0であると決定し、その対処によって回復すれば1、回復しなければ0であると決定する。そして確信度計算部207は、実行された対処の種類数と回復に対応する1との和に対する、対処に行ったかどうかによる0または1と回復したかどうかによる0または1との和を確信度として計算する。図6の装置IPが「XX」について対処名「カード再起動」では、対処が行われその結果、回復したことを示している。このため、装置IPが「XX」の対処名「カード再起動」では、確信度が(1+1)/(1+1)=2/2=1となる。一方、装置IPが「YY」の対処名「カード再起動」では、確信度が(0+0)/(1+1)=0/2=0となる。また、対処名「カード再起動」では、装置IPが「XX」「YY」のいずれでも確信度が(0+0+0)/(2+1)=0/3=0となる。
【0057】
(教師データ登録処理)
次に、障害情報登録装置100が、仮の教師データの収集から教師データを登録するまでの処理の動作の一例が図7を参照して説明される。
【0058】
ステップS701において、確信度計算部207が、障害装置及び周辺装置ごとに仮の教師データを収集する。
【0059】
ステップS702において、確信度計算部207が、障害装置または周辺装置の1つである装置ごとにこの装置に発生するイベントログを、イベントログの発生順にチェックする。確信度計算部207は、発生装置ごとに運用データの日時等を追って、障害、対処、回復の順に、障害があるかどうか、対処内容ごとに対処されたかどうかと、対処に応じて回復したかどうかをチェックする。
【0060】
ステップS703において、確信度計算部207が、障害装置または周辺装置の1つである装置ごとにこの装置に関連する対処内容がある場合に、対処内容ごとに仮の教師データがあるかどうかを判定する。この判定によって、対処内容ごとに対処されたかどうかと、対処に応じて回復したかどうかと、が判明する。
【0061】
ステップS704において、確信度計算部207が、障害装置または周辺装置の1つである装置ごとに、ステップS703の結果により対処内容ごとの確信度を計算する。
【0062】
ステップS705において、確信度判定部208が、障害装置において、ステップS704で計算された確信度ごとに閾値以上であるかどうかを判定する。確信度が閾値以上になる対処内容が障害装置にあると判定された場合にはステップS708に進み、確信度が閾値以上になる対処内容が障害装置にあると判定されなかった場合にはステップS706に進む。
【0063】
ステップS706において、確信度判定部208が、周辺装置の1つにおいて、ステップS704で計算された確信度ごとに閾値以上であるかどうかを判定する。確信度が閾値以上になる対処内容がこの周辺装置にあると判定された場合にはステップS708に進み、確信度が閾値以上になる対処内容がこの周辺装置にあると判定されなかった場合にはステップS707に進む。
【0064】
ステップS707において、確信度判定部208が、ステップS706で判定した周辺装置とは異なる周辺装置の確信度を調査することに決定し、この調査することに決定された周辺装置に関してステップS706が実行される。ステップS707において、調査する周辺装置がないと判定された場合には、処理を終了する。
【0065】
ステップS708において、教師データ登録部209が、確信度判定部208の判定結果を受け取り、確信度が閾値以上であると判定された対処内容に対応する仮の教師データを(真の)教師データとして教師DB203に登録する。
なお、障害装置が複数あると推定されている場合には、障害装置ごとにステップS705以降が実行される。この場合、ステップS706の周辺装置はステップS705の障害装置に関する周辺の装置になる。
【0066】
ステップS708において教師データ登録部209が教師データを教師DB203に登録する態様が図8を参照して説明される。
【0067】
図8は、ステップS407で登録された仮の教師データが図5の「運用A」で示されるデータである場合に、この仮の教師データがステップS708により登録された場合の例を示している。教師DB203には既に図5に示される「教師A」の教師データが記憶されている。この場合、教師データ登録部209は、正規表現及び対処内容は同一となる「教師A」のイベントログ(Syslog)のみに新たに登録された教師データに対応するイベントログを追加する。
【0068】
教師DB203に登録されている教師データは、図8に示されるようにイベントログと正規表現と対処内容とが教師データごとに記述されている。イベントログの項目(Syslog)には、複数のイベントログが記述されうる。
【0069】
以上に説明された実施形態に係る障害情報登録装置よれば、障害の発生が推定される障害装置とその周辺装置とに関するログデータを取得して、ある頻度以上に類似したイベントログをグループ化する。そして本実施形態に係る障害情報登録装置は、障害を解消するための教師データに対応するイベントログを含むグループに、運用データに対応するイベントログがある場合にこの運用データを仮の教師データとして登録し、装置ごとに仮の教師データがあるかどうかに基づいて装置の障害への対処内容ごとに確信度を計算することが可能になる。本実施形態に係る障害情報登録装置は、確信度が閾値以上である仮の教師データを真の教師データとして登録する。このため、本実施形態に係る障害情報登録装置は、障害を解消するためのより精度の高い教師データを教師DBに記憶させることが可能になる。この結果、本実施形態に係る障害情報登録装置は、ネットワークにおける障害位置を精度よく推定することができる。
【0070】
また、本実施形態の障害情報登録装置によれば、障害原因と障害アラームとを含むルールを学習させるために必要な多くの種類のデータを入力するためのリソースを削減することができる。またこのリソースが削減されるため、本実施形態によれば、障害を解消するためのより精度の高いデータベースを作成する時間も短くなる効果を奏する。従って本実施形態によれば、障害回復から学習までの時間が短縮される。
【0071】
(変形例)
<教師DB203>
教師DB203または仮教師データ登録部206に含まれるバッファの少なくともいずれかは、障害情報登録装置100に含まれず、障害情報登録装置100の外部にあってもよい。例えば、教師DB203または仮教師データ登録部206に含まれるバッファの少なくともいずれかは、外部のサーバ等に含まれてもよい。この場合、障害情報登録装置100は、インタフェース104を介して教師DB203または仮教師データ登録部206に含まれるバッファの少なくともいずれかと情報のやりとりを行う。
【0072】
実施形態の装置は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体(または記憶媒体)に記録することも、ネットワークを介して提供することも可能である。
【0073】
また、以上の各装置及びそれらの装置部分は、それぞれハードウェア構成、またはハードウェア資源とソフトウェアとの組み合わせの構成のいずれでも実施可能となっている。組み合わせの構成のソフトウェアとしては、予めネットワークまたはコンピュータ読み取り可能な記録媒体(または記憶媒体)からコンピュータにインストールされ、当該コンピュータのプロセッサに実行されることにより、各装置の動作(または機能)を当該コンピュータに実現させるためのプログラムが用いられる。
【0074】
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。さらに、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【符号の説明】
【0075】
100…障害情報登録装置
101…プロセッサ
102…ROM
103…RAM
104…インタフェース
105…ディスプレイ
106…ストレージ
201…運用データ取得部
202…障害情報受付部
203…教師DB
204…ログデータ取得部
205…グループ生成部
206…仮教師データ登録部
207…確信度計算部
208…確信度判定部
209…教師データ登録部


図1
図2
図3
図4
図5
図6
図7
図8