(58)【調査した分野】(Int.Cl.,DB名)
前記パターン比較手段は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の順序を比較することにより差異を検出することを特徴とする請求項1に記載の障害分析装置。
前記パターン比較手段は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の出現回数に関する情報を比較することにより差異を検出することを特徴とする請求項1または請求項2に記載の障害分析装置。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0021】
(第1の実施の形態)
本発明の第1の実施の形態に係る障害分析装置1の機能構成を示す機能ブロック図を
図1に示す。
図1において、障害分析装置1は、ログ要素抽出部101と、ログ統合部102と、パターン抽出部103と、パターン記憶部104と、パターン変換部105と、パターン比較部106と、原因箇所提示部107とを備える。
【0022】
また、障害分析装置1は、情報処理システム90から出力される各種のログ情報を収集可能に構成される。ここで、情報処理システム90は、障害の分析対象となるシステムであり、LAN(Local Area Network)等のネットワークによって接続された1つ以上のコンピュータ装置(ノード)によって構成されていてもよい。例えば、障害分析装置1は、情報処理システム90とネットワークを介して接続されることにより、情報処理システム90から出力される各種のログ情報を収集可能となっていてもよい。あるいは、障害分析装置1は、情報処理システム90を構成するいずれかのノードと同一のコンピュータ装置によって実現されることにより、情報処理システム90から出力される各種のログ情報を収集可能となっていてもよい。その他、障害分析装置1は、情報処理システム90から出力される各種のログ情報が直接または複製などにより記憶される記憶装置に接続されることにより、各種のログ情報を収集可能となっていてもよい。
【0023】
なお、ログ情報とは、例えば、情報処理システム90の構成要素(以下、システム構成要素ともいう)によって、ログファイルとして出力されるものであってもよい。システム構成要素とは、例えば、情報処理システム90を構成するノードや、ソフトウェアコンポーネント等であってもよい。また、そのようなシステム構成要素から出力されるログ情報としては、ノードのオペレーティングシステムによって出力されるシステムログファイル、ウェブサーバアプリケーションまたはデータベースサーバアプリケーションによって出力されるアクセス履歴または処理履歴を表すログファイルなどがある。
【0024】
また、障害分析装置1は、
図2に示すように、CPU(Central Processing Unit)1001と、RAM(Random Access Memory)1002と、ROM(Read Only Memory)1003と、ハードディスク等の記憶装置1004と、ネットワークインタフェース1005と、入力装置1006と、出力装置1007とを含むコンピュータ装置によって構成可能である。この場合、ログ要素抽出部101は、ネットワークインタフェース1005と、入力装置1006と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001とによって構成される。また、ログ統合部102と、パターン抽出部103と、パターン変換部105と、パターン比較部106とは、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。また、パターン記憶部104は、記憶装置1004によって構成される。また、原因箇所提示部107は、出力装置1007と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001とによって構成される。なお、障害分析装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
【0025】
次に、障害分析装置1の各機能ブロックの詳細について説明する。
【0026】
ログ要素抽出部101は、情報処理システム90によって出力される1つ以上のログ情報から、ログ情報を構成する要素(ログ要素)を抽出する。例えば、ログ要素は、ログ情報を構成するログレコードに含まれる日付を表す情報や、ノード名、アプリケーション名などをそれぞれ表す情報であってもよい。また、抽出対象となるログ要素は、あらかじめ定められていてもよい。
【0027】
ログ統合部102は、ログ要素抽出部101によって抽出された各ログ要素に対して、関連するシステム構成要素の情報(システム構成要素情報)を付加する。そして、ログ統合部102は、関連するシステム構成要素情報がそれぞれ付加されたログ要素を統合して、統合ログ情報を生成する。例えば、ログ統合部102は、各ログ要素に対して、該ログ要素の抽出元であるログ情報を出力したシステム構成要素を表す情報を付加してもよい。また、例えば、ログ統合部102は、システム構成要素情報が付加されたログ要素を、時系列にしたがって並べることにより統合ログ情報を生成してもよい。この場合、ログ統合部102は、抽出元のログ情報において各ログ要素に関連付けられた日時にしたがって各ログ要素を統合してもよい。
【0028】
パターン抽出部103は、ログ統合部102によって生成された統合ログ情報から、システム構成要素情報を含む情報のパターンを抽出する。パターンの抽出には、例えば、aprioriやprefixspan、LCM(Linear time Closed itemset Miner)など、公知のパターン列挙アルゴリズムを採用してもよい。
【0029】
パターン記憶部104は、比較対象期間中のパターン(以降、比較対象パターンとも記載する)を記憶する。比較対象期間とは、例えば、情報処理システム90が正常に稼働していることがわかっている期間であってもよい。具体的には、パターン記憶部104は、そのような比較対象期間中に情報処理システム90から出力された各種のログ情報に対して、ログ要素抽出部101、ログ統合部102、および、パターン抽出部103による一連の処理がなされることによって抽出されたパターンを、比較対象パターンとして記憶する。また、パターン記憶部104は、そのようにして抽出されたパターンのうち、所定の頻出条件を満たすものを比較対象パターンとして記憶するようにしてもよい。
【0030】
パターン変換部105は、分析対象期間中のパターン(以降、分析対象パターンとも記載する)に、比較対象パターンに含まれないシステム構成要素情報が含まれている場合に動作する。以降、分析対象パターンに含まれ、比較対象パターンに含まれないシステム構成要素情報を、変換対象のシステム構成要素情報とも記載する。
【0031】
ここで、分析対象期間とは、例えば、情報処理システム90に障害が発生した期間であってもよい。パターン変換部105は、そのような分析対象期間中に情報処理システム90から出力された各種のログ情報に対して、ログ要素抽出部101、ログ統合部102、および、パターン抽出部103による一連の処理がなされることによって抽出されたパターンを、分析対象パターンとして取得する。
【0032】
具体的には、パターン変換部105は、比較対象パターンに含まれ、かつ、変換対象のシステム構成要素に類似するシステム構成要素情報を特定する。そして、パターン変換部105は、比較対象パターンおよび分析対象パターンのいずれかにおいて、変換対象のシステム構成要素情報、および、類似するシステム構成要素情報間の変換を行う。
【0033】
例えば、パターン変換部105は、比較対象パターンにおいて「類似するシステム構成要素情報」を「変換対象のシステム構成要素情報」に変換したものを、比較対象パターンとしてもよい。あるいは、パターン変換部105は、分析対象パターンにおいて「変換対象のシステム構成要素情報」を「類似するシステム構成要素情報」に変換したものを、分析対象パターンとしてもよい。
【0034】
パターン比較部106は、パターン変換部105による変換処理後に、分析対象パターンおよび比較対象パターンを比較し、差異を検出する。例えば、パターン比較部106は、変換処理後の分析対象パターンおよび比較対象パターン間で一部が一致するものを検索する。そして、パターン比較部106は、一部が一致した分析対象パターンおよび比較対象パターンにおいて、一致しない部分を差異として検出してもよい。
【0035】
原因箇所提示部107は、パターン比較部106によって検出された差異の示すシステム構成要素情報を、障害の原因箇所として提示する。
【0036】
以上のように構成された障害分析装置1の動作について、
図3および
図4を参照して説明する。
【0037】
まず、障害分析装置1が、比較対象パターンを抽出してパターン記憶部104に記憶する動作を
図3に示す。なお、障害分析装置1は、比較対象期間中に比較対象パターンの生成開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ定められたログ情報を対象として、パターン抽出動作を開始してもよい。あるいは、障害分析装置1は、比較対象期間に出力されたログ情報を他の機能ブロックから受信すると、パターン抽出動作を開始してもよい。あるいは、障害分析装置1は、比較対象期間中に、あらかじめ定められたログ情報の更新を検出すると、パターン抽出動作を開始してもよい。また、障害分析装置1は、対象のログ情報のうち、比較対象期間として指定された範囲を対象として、パターン抽出動作を実行してもよい。
【0038】
図3において、まず、ログ要素抽出部101は、対象の各種のログ情報から、ログ要素を抽出する(ステップS11)。
【0039】
次に、ログ統合部102は、ステップS11で抽出された各ログ要素に対して、関連するシステム構成要素情報を付加する(ステップS12)。
【0040】
次に、ログ統合部102は、ステップS12においてシステム構成要素情報が付加されたログ要素を統合し、統合ログ情報を生成する(ステップS13)。
【0041】
次に、パターン抽出部103は、ステップS13で生成された統合ログ情報から、システム構成要素情報を含む情報のパターンを抽出する(ステップS14)。
【0042】
次に、パターン記憶部104は、ステップS14で抽出されたパターンを、比較対象パターンとして記憶する(ステップS15)。
【0043】
以上で、障害分析装置1は、比較対象パターンの抽出動作を終了する。
【0044】
次に、障害分析装置1が、分析対象期間の障害を分析する動作を
図4に示す。なお、障害分析装置1は、障害分析開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ定められたログ情報を対象として、障害分析動作を開始してもよい。あるいは、障害分析装置1は、分析対象期間に出力されたログ情報を他の機能ブロックから受信すると、障害分析動作を開始してもよい。あるいは、障害分析装置1は、障害を検知する他の機能ブロックによって障害が検知されると、あらかじめ定められたログ情報を対象として、障害分析動作を開始してもよい。また、障害分析装置1は、対象のログ情報のうち、分析対象期間として指定された範囲を対象として、障害分析動作を実行してもよい。
【0045】
図4において、まず、障害分析装置1は、分析対象パターンを取得する(ステップS21)。具体的には、ログ要素抽出部101、ログ統合部102、および、パターン抽出部103が、分析対象期間中に情報処理システム90から出力された各種のログ情報を対象として、
図3に示したステップS11〜S14を実行すればよい。
【0046】
次に、パターン変換部105は、ステップS21で取得された分析対象パターンに、パターン記憶部104に記憶された比較対象パターンに含まれないシステム構成要素情報が含まれているか否かを判断する(ステップS22)。
【0047】
ここで、分析対象パターンに、比較対象パターンに含まれないシステム構成要素情報が含まれていない場合、障害分析装置1の動作は、ステップS25に進む。
【0048】
一方、分析対象パターンに、比較対象パターンに含まれないシステム構成要素情報が含まれている場合、パターン変換部105は、そのシステム構成要素情報を変換対象として、比較対象パターンに含まれ変換対象に類似するシステム構成要素情報を特定する(ステップS23)。
【0049】
次に、パターン変換部105は、分析対象パターンおよび比較対象パターンのいずれかにおいて、変換対象のシステム構成要素情報および類似するシステム構成要素情報間の変換を行う(ステップS24)。
【0050】
次に、パターン比較部106は、分析対象パターンおよび比較対象パターンを比較することにより差異を検出する(ステップS25)。
【0051】
次に、原因箇所提示部107は、ステップS25で検出された差異に関連するシステム構成要素情報を、障害の原因箇所として提示する(ステップS26)。
【0052】
以上で、障害分析装置1は、障害分析動作を終了する。
【0053】
次に、本発明の第1の実施の形態の効果について述べる。
【0054】
本発明の第1の実施の形態に係る障害分析装置は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所をより精度よく特定可能な情報を提示することができる。
【0055】
その理由は、比較対象期間中に情報処理システムから出力される各種のログ情報から、ログ要素抽出部がログ要素を抽出し、ログ統合部が、抽出されたログ要素に対して、関連するシステム構成要素情報を付加して統合した統合ログ情報を生成するからである。そして、パターン抽出部が、統合ログ情報から、比較対象パターンを抽出してパターン記憶部に記憶するからである。そして、分析対象期間中に情報処理システムから出力される各種のログ情報から、ログ要素抽出部がログ要素を抽出し、ログ統合部が、抽出されたログ要素に対して、関連するシステム構成要素情報を付加して統合した統合ログ情報を生成する。さらに、パターン抽出部が、統合ログ情報から、分析対象パターンを抽出するからである。そして、分析対象パターンに、比較対象パターンに含まれない変換対象のシステム構成要素情報が含まれている場合、パターン変換部は、比較対象パターンに含まれ変換対象に類似するシステム構成要素情報を特定する。更に、パターン変換部は、比較対象パターンおよび分析対象パターンのいずれかにおいて、変換対象のシステム構成要素および類似するシステム構成要素間で変換を行うからである。さらに、パターン比較部が、変換処理後の分析対象パターンおよび比較対象パターンを比較して差異を検出し、原因箇所提示部が、検出された差異の示すシステム構成要素情報を提示するからである。
【0056】
これにより、本発明の第1の実施の形態に係る障害分析装置は、情報処理システムにおいてその構成が変化した後に過去に発生していない障害が発生した場合も対応できる。なぜなら、パターン変換部が、上述の変換を行うことにより、障害発生時の分析対象パターンに一部分が一致する比較対象パターンを、構成変化前に蓄積された比較対象パターンからも見つけ出せる可能性を大きくするからである。そして、そのような場合に、本発明の第1の実施の形態に係る障害分析装置は、一部分が一致する比較対象パターンに対して分析対象パターンが一致しないという差異を示すシステム構成要素情報を、障害の原因箇所として提示することができる。その結果、本発明の第1の実施の形態に係る障害分析装置は、構成の変化が頻繁な複雑化した情報処理システムを対象とする場合であっても、過去に発生していない障害の原因箇所の可能性があるシステム構成要素情報を出力可能となる。
【0057】
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
【0058】
まず、本発明の第2の実施の形態に係る障害分析装置2の機能構成を示す機能ブロック図を
図5に示す。
図5において、障害分析装置2は、本発明の第1の実施の形態に係る障害分析装置1に対して、ログ要素抽出部101、ログ統合部102、パターン抽出部103、パターン記憶部104、パターン変換部105、パターン比較部106、および、原因箇所提示部107に替えて、ログ要素抽出部201、ログ統合部202、パターン抽出部203、パターン記憶部204、パターン変換部205、パターン比較部206、および、原因箇所提示部207を備え、さらに、ログ形式記憶部208と、システム構成要素記憶部209と、パターン集計部210とを備える点が異なる。また、パターン比較部206は、順序比較部216および数値比較部226を有する。また、パターン集計部210は、本発明のパターン抽出部、パターン比較部、および、原因箇所提示部の一実施形態の一部を構成する。
【0059】
ここで、障害分析装置2は、本発明の第1の実施の形態に係る障害分析装置1と同様に、
図2を参照して説明したハードウェア構成を備えるコンピュータ装置によって構成可能である。この場合、ログ形式記憶部208およびシステム構成要素記憶部209は、記憶装置1004によって構成される。また、パターン集計部210は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。なお、障害分析装置2およびその機能ブロックのハードウェア構成は、上述の構成に限定されない。
【0060】
また、障害分析装置2は、本発明の第1の実施の形態に係る障害分析装置1と同様に、情報処理システム90から出力される各種のログ情報を収集可能に構成される。ログ情報は、例えば、情報処理システム90のシステム構成要素としてのノードやソフトウェアコンポーネントなどによって、ログファイルとして出力されるものであってもよい。障害分析装置2によって収集されるログ情報の一例を
図6に示す。
図6において、例えば、「mysqld.log」は、「日付」、「時刻」、および、「メッセージ本文」の各ログ要素からなる1行以上のログレコードを有するログファイルである。また、「access.log」は「ネットワークアドレス」、「日付 時刻」、および、「メッセージ本文」の各ログ要素からなる1行以上のログレコードを有するログファイルである。
【0061】
ログ形式記憶部208は、ログ情報に含まれる情報の形式を記憶する。以下、ログ情報に含まれる情報の形式をログフォーマットとも記載する。ログフォーマットは、例えば、ログ種別を表す情報と、ログ要素およびその正規表現の組からなるフォーマット情報とを含むものであってもよい。このようなログフォーマットの一例を
図7に示す。
図7では、例えば、1行目において、ログ種別「syslog」のフォーマット情報が、「日時」、「ノード名」、「プロセス名」、および、「メッセージ」といった各ログ要素にそれぞれ対応する正規表現の集合として表されている。また、ログフォーマットは、さらに、該当するログファイルの名称を表す情報を含んでいてもよい。
【0062】
システム構成要素記憶部209は、ログ情報の関連情報に対応付けて、関連するシステム構成要素情報を記憶する。ログ情報の関連情報とは、例えば、そのログ情報の記憶装置1004におけるパス名であってもよい。あるいは、ログ情報の関連情報とは、そのログ情報に含まれるログレコードやログ要素を特定可能な正規表現などの情報であってもよい。
【0063】
システム構成要素記憶部209に記憶される情報の一例を
図8に示す。
図8において、各行は、システム構成要素情報を示している。この例では、システム構成要素情報は、ログ情報の関連情報としてのパス名に対応付けられている。また、システム構成要素情報は、「識別情報」を含む。また、システム構成要素情報は、「構成要素名」、「分類1」、「分類2」および「場所」といった属性を表す情報を含む。例えば、この例では、「構成要素名」は、ノードやソフトウェアコンポーネントの名称である。また、「分類1」は、アプリケーション、ミドルウェア、または、ハードウェアなど、該当するシステム構成要素の分類を表す情報である。「分類2」は、「分類1」をさらに細分化した項目である。例えば、「分類1」がサーバの場合、「分類2」の一例としては、ウェブサーバ、アプリケーションサーバ、または、データベースサーバなどがある。また、「分類1」がアプリケーションの場合、「分類2」の一例としては、Apache、MySQLなどがある。「場所」は、該当するシステム構成要素が情報処理システム90において属する場所を表す情報である。例えば、「分類1」がサーバであるシステム構成要素の「場所」は、ネットワークアドレスであってもよい。また、「分類1」がアプリケーションであるシステム構成要素の「場所」は、そのアプリケーションがインストールされているノードの名称であってもよい。以下、識別情報が「N」のシステム構成要素情報を、システム構成要素「N」とも記載する。
【0064】
ログ要素抽出部201は、ログ形式記憶部208に記憶されたログフォーマットを参照することにより、ログ情報からログ要素を抽出する。例えば、ログ要素抽出部201は、ログ情報から、そのログレコードの発生時刻、出力ノード、出力ノードの分類、出力プロセス、出力プロセスのプロセスID、イベントID、ネットワークアドレス、ログファイル名、メッセージなどのログ要素を抽出する。
【0065】
具体的には、ログ要素抽出部201は、対象のログ情報の少なくとも一部を読み出す。そして、ログ要素抽出部201は、読み出した情報に合致するログフォーマットをログ形式記憶部208から検索することにより、ログ情報のログ種別を判別する。そして、ログ要素抽出部201は、判別したログ種別に応じてログ要素を抽出すればよい。
【0066】
例えば、
図6に示すログファイル「message」を読み出した場合、ログ要素抽出部201は、
図7の1行目のログフォーマットに合致するとして、ログ種別「syslog」であると判別する。そして、ログ要素抽出部201は、判別したログ種別に基づいて、合致したログフォーマットのフォーマット情報を参照してログ要素を抽出すればよい。
【0067】
このとき、ログ要素抽出部201は、合致したフォーマット情報を構成する全てのログ要素を抽出しなくてもよく、そのうちあらかじめ設定されたものを抽出してもよい。その場合、抽出対象として設定されるログ要素は、システム構成要素記憶部209に記憶された情報に基づいて、抽出されたログ要素またはその組み合わせからシステム構成要素を特定可能なものであることが望ましい。また、抽出対象のログ要素は、ログ種別ごとに設定されていてもよい。
【0068】
例えば、ログ種別「syslog」について抽出対象のログ要素が、「日時」および「ノード名」であると定められている場合を想定する。この場合、ログ要素抽出部201は、
図6に示すログ情報「message」の1行目を読み出すと、「syslog」のフォーマット情報に含まれる各ログ要素「日時」、「ノード名」、「プロセス名」、「メッセージ」のうち、「日時」に相当する「Feb 01 09:04:01」および「ノード名」に相当する「node1」を抽出する。
【0069】
ログ統合部202は、ログ要素抽出部201によって抽出された各ログ要素に対して、その抽出元であるログ情報の関連情報に基づいて、システム構成要素記憶部209を参照することにより、関連するシステム構成要素情報を特定する。そして、ログ統合部202は、各ログ要素に対して、関連するシステム構成要素情報のうち、少なくとも識別情報を付加し、時系列にしたがって並べることにより統合する。具体的には、ログ統合部202は、抽出元のログ情報において各ログ要素に関連付けられた日時にしたがって、各ログ要素を統合してもよい。もし、ログ要素として日時を表す情報が抽出されていれば、ログ統合部202は、日時を表すログ要素に基づいて統合を行えばよい。また、ログ統合部202は、各ログ要素に対して、関連するシステム構成要素情報の識別情報に加えて、その属性情報を付加してもよい。
【0070】
例えば、
図6に示すログ情報「message」から、日時「Feb 01 09:04:01」およびノード名「node1」の各ログ要素が抽出されている場合を想定する。この場合、ログ統合部202は、
図8に示すシステム構成要素記憶部209の情報を参照し、これらのログ要素の抽出元のログ情報のパス名「/var/log/message」と、抽出したログ要素の1つである「node1」との組み合わせに基づいて、関連する構成要素「A」を特定する。そこで、ログ統合部202は、これらのログ要素(日時「Feb 01 09:04:01」およびノード名「node1」)に対して、識別情報「A」およびその属性情報を付加すればよい。
【0071】
ログ統合部202によって出力される統合ログ情報の一例を
図9に示す。
図9において、各行は、ログ要素および付加されたシステム構成要素情報を示し、時系列にしたがって並べられている。この例では、ログ要素抽出部201によって、そのログレコードが記録された日時を表すログ要素が抽出されている。また、この例では、これらの日時を表すログ要素には、システム構成要素を識別するための識別情報とともに、その属性情報が付加されている。具体的には、例えば、ログ統合部202は、
図8のシステム構成要素記憶部209の情報を参照し、
図9における1行目のログ要素「2013/02/01 09:04:01」に対して、抽出元のログ情報のパス名「/var/log/httpd/access_log」に関連するシステム構成要素「V」を特定する。そこで、ログ統合部202は、1行目のログ要素に対して、識別情報「V」を少なくとも付加する。また、ログ統合部202は、このログ要素に対して、さらに、システム構成要素「V」の属性情報「node1, Application, apache」を付加している。また、この場合、ログ統合部202は、付加した属性情報のうち、「node1」が、さらに属性情報を有するシステム構成要素であると
図8より判断する。そこで、ログ統合部202は、1行目のログ要素に対して、さらに、システム構成要素「node1」の属性情報「Server, Web server」を付加してもよい。このようにして、ログ統合部202は、ログ要素に付加した属性情報の中に、さらに属性情報を有する他のシステム構成要素が含まれていれば、再帰的にその属性情報を付加してもよい。
【0072】
パターン抽出部203は、ログ統合部202によって生成された統合ログ情報から、システム構成要素の識別情報のパターンを抽出する。具体的には、パターン抽出部203は、統合ログ情報に含まれる順序を維持したまま、識別情報を抜き出す。なお、パターン抽出部203は、互いに類似する属性情報とともに付加された異なる識別情報を集約して新たな識別情報に変換した上で、識別情報のパターンを抜き出してもよい。
【0073】
図9に示した統合ログ情報の場合、パターン抽出部203は、識別情報のリスト「VVWWWX」を抜き出す。そして、パターン抽出部203は、識別情報のリストから抽出可能なパターンを列挙する。ここで、パターンを列挙するアルゴリズムとしては、aprioriやprefixspan、LCMなど公知のパターン列挙アルゴリズムを採用してもよい。
【0074】
また、パターン抽出部203は、識別情報のリストから抽出可能なパターンのうち、所定条件を満たすパターンを選択してもよい。例えば、所定条件は、パターンの出現回数、パターンの総数に占めるそのパターンの出現回数の比率、パターンを構成する識別情報の数、これらの値の平均値、最大値、最小値、最頻値、または、分散などの統計値に基づく条件であってもよい。そのような所定条件は、あらかじめ設定されていてもよい。例えば、ある識別情報「A」が含まれるパターンのうち、さらに他の識別情報「B」も含むパターンの割合が0.5より大きい場合、パターン抽出部203は、識別情報「A」および「B」を含むパターンを選択してもよい。例えば、
図9に示した統合ログ情報の場合、パターン抽出部203は、パターン「VVWW」や「WWX」を抽出してもよい。
【0075】
パターン集計部210は、抽出されたパターンに含まれるシステム構成要素の識別情報の出現回数の相対比を算出する。例えば、パターン抽出部203が、識別情報のパターン「VVWWWX」を抽出したことを想定する。この場合、このパターンに含まれる識別情報「V」の出現回数は2、「W」の出現回数は3、「X」の出現回数は1である。そこで、パターン集計部210は、このパターンの出現回数の相対比を2:3:1と算出する。以下では、パターンに識別情報「X」、「Y」、「Z」が含まれ、それぞれの出現回数の相対比がx:y:zであるとき、このパターンを「X(x)Y(y)Z(z)」とも記載するものとする。前述の例の場合、パターン「VVWWWX」を、「V(2)W(3)X(1)」とも記載する。
【0076】
また、パターン集計部210は、パターンを集計し、それぞれの出現率を算出してもよい。出現率とは、あるパターンの出現回数の、そのパターンを含むパターンの出現回数の総和に対する比率である。例えば、パターン「A(1)F(1)G(3)」に対して、「A(1)F(1)G(3)L(2)H(1)」は、同一のパターンを含むパターンである。このとき、パターン「A(1)F(1)G(3)」の出現回数が8回であり、このパターンを含むパターン(例えば、前述の「A(1)F(1)G(3)L(2)H(1)」など)の出現回数の総和が10回であるとする。この場合、パターン「A(1)F(1)G(3)」の出現率は0.8と算出される。なお、あるパターンと同一のパターンを含むパターンが他に存在しない場合、そのパターンを含むパターンの出現回数の総和は、そのパターン自体の出現回数に等しい。このため、そのようなパターンの出現率は1と算出される。
【0077】
このように、パターン集計部210によって集計されたパターンの一例を
図10に示す。
図10において、各パターンには、説明のため、識別番号が付与されている。以降、識別番号がnのパターンを、パターンnとも記載する。この例では、パターン1は、識別情報「A」、「F」、「G」および「K」から構成され、その相対比は1:1:3:1であり、その出現率は0.8である。
【0078】
パターン記憶部204は、比較対象パターンと、それらの比較対象パターンについてパターン集計部210によって集計された集計情報とを記憶する。
【0079】
パターン変換部205は、分析対象パターンに、比較対象パターンに含まれないシステム構成要素の識別情報が含まれている場合に、そのシステム構成要素の識別情報を変換対象として動作する。具体的には、パターン変換部205は、システム構成要素記憶部209を参照することにより、変換対象の識別情報の示すシステム構成要素が有する属性情報に対して、所定の類似条件を満たす属性情報を有するシステム構成要素を検索する。そして、パターン変換部205は、そのような所定の類似条件を満たす属性情報を有するシステム構成要素であって、比較対象パターンに含まれるシステム構成要素の識別情報を、変換対象に類似するシステム構成要素の識別情報として特定する。所定の類似条件の一例としては、例えば、「場所」以外の属性値が同一であるという条件等が挙げられる。その他、所定の類似条件とは、属性情報およびその組み合わせに基づく他の条件であってもよい。
【0080】
そして、パターン変換部205は、比較対象パターンおよび分析対象パターンのいずれかにおいて、変換対象のシステム構成要素の識別情報、および、変換対象に類似するシステム構成要素の識別情報間の変換を行う。なお、パターン変換部205は、本発明の第1の実施の形態におけるパターン変換部105と同様に、比較対象パターンにおいて変換を行ってもよいし、分析対象パターンにおいて変換を行ってもよい。すなわち、パターン変換部205は、比較対象パターンにおいて、類似するシステム構成要素の識別情報を、変換対象のシステム構成要素の識別情報に変換してもよい。あるいは、パターン変換部205は、分析対象パターンにおいて、変換対象のシステム構成要素の識別情報を、類似するシステム構成要素の識別情報に変換してもよい。
【0081】
例えば、分析対象パターンが「AFGL」であり、識別情報「L」がいずれの比較対象パターンにも含まれていない場合について説明する。この場合、この識別情報「L」が、変換対象となる。ここで、
図8に示した、システム構成要素記憶部209に記憶された情報を参照すると、変換対象のシステム構成要素「L」に対してシステム構成要素「K」は、「場所」以外の属性値が一致している。ここで、識別情報「K」は、比較対象パターンに含まれているものとする。したがって、パターン変換部205は、変換対象のシステム構成要素「L」に対して、類似するシステム構成要素「K」を特定する。そこで、パターン変換部205は、パターン記憶部204において、識別情報「K」が含まれるすべての比較対象パターンに対し、「K」を「L」に変換する。例えば、比較対象パターン「AFGK」を「AFGL」に変換する。あるいは、パターン変換部205は、分析対象パターンにおいて、変換対象の識別情報「L」を類似する「K」に変換してもよい。例えば、パターン変換部205は、分析対象パターン「AFGL」を「AFGK」に変換する。
【0082】
なお、変換対象に対して複数の類似するシステム構成要素がある場合、パターン変換部205は、変換対象の識別情報および類似する複数の各識別情報間で変換を行ってもよい。具体的には、上述の例の場合で、変換対象のシステム構成要素「L」に対して類似するシステム構成要素「K」および「J」を特定したことを想定する。この場合、パターン変換部205は、パターン記憶部204において、識別情報「K」が含まれる各比較対象パターンの「K」を「L」に変換するとともに、識別情報「J」が含まれる各比較対象パターンの「J」を「L」に変換すればよい。例えば、比較対象パターン「AFGK」を「AFGL」に変換し、「AFGJ」を「AFGL」に変換する。あるいは、パターン変換部205は、分析対象パターンにおいて、変換対象の識別情報「L」を類似する識別情報「K」に変換したパターンと、類似する識別情報「J」に変換したパターンとを生成してもよい。つまり、パターン変換部205は、分析対象パターン「AFGL」を、「AFGK」および「AFGJ」に変換してもよい。
【0083】
パターン比較部206は、順序比較部216を用いて、変換処理後の分析対象パターンおよび比較対象パターンについて、それぞれを構成するシステム構成要素の識別情報の順序を比較することにより、差異を検出する。また、パターン比較部206は、数値比較部226を用いて、変換処理後の分析対象パターンおよび比較対象パターンについて、それぞれを構成するシステム構成要素の識別情報の相対比を比較することにより、差異を検出する。
【0084】
具体的には、順序比較部216は、分析対象パターンに対して、システム構成要素の識別情報の順序が完全に合致する比較対象パターンがあれば、該当する分析対象パターンおよび比較対象パターンを、後述の数値比較部226に出力する。
【0085】
また、順序比較部216は、分析対象パターンに対して、システム構成要素情報の順序の一部が合致する比較対象パターンがあれば、該当する分析対象パターンおよび比較対象パターンにおいて順序が一致しない部分の識別情報を、原因箇所提示部207に出力する。
【0086】
例えば、順序比較部216は、分析対象パターンおよび比較対象パターンにそれぞれ含まれるシステム構成要素の相対比を考慮せずに、その出現順序を比較してもよい。具体的には、順序比較部216は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(2)G(3)K(3)」とについて、相対比を考慮せずに、順序が完全に合致すると判断し、数値比較部226に出力してもよい。また、順序比較部216は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(3)X(2)K(3)G(3)」とについて、相対比を考慮せずに、順序の一部「AF」が合致すると判断してもよい。そして、順序比較部216は、分析対象パターンにおいて一致しない部分が「GK」であり、比較対象パターンにおいて一致しない部分が「XKG」であることを検出する。そこで、順序比較部216は、差異のある部分の識別情報として「G」、「K」、「X」を、原因箇所提示部207に出力する。
【0087】
また、順序比較部216は、分析対象パターンに対して少なくとも部分的に一致する比較対象パターンをパターン記憶部204から検索できない場合、分析対象パターンを新規に発生したパターンとして原因箇所提示部207に出力してもよい。
【0088】
また、数値比較部226は、分析対象パターンおよび比較対象パターン間で識別情報の順序が完全に一致するものについて、それらの相対比を比較する。そして、数値比較部226は、相対比が一致しない識別情報を、原因箇所提示部207に出力する。
【0089】
例えば、数値比較部226は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(2)G(1)K(3)」とについて、相対比が一致すると判断する。また、数値比較部226は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(2)G(3)K(3)」について、相対比が一致しない識別情報「G」を検出して、原因箇所提示部207に出力する。
【0090】
原因箇所提示部207は、順序比較部216または数値比較部226から入力される識別情報に基づいて、関連するシステム構成要素情報を、障害の原因箇所を表す情報として提示する。このとき、原因箇所提示部207は、該当するシステム構成要素情報を、そのシステム構成要素情報が検出された分析対象パターンの出現率または比較対象パターンの出現率の順に提示してもよい。また、原因箇所提示部207は、該当する識別情報が示すシステム構成要素の属性情報に基づいて、さらに関連する他のシステム構成要素情報を提示してもよい。
【0091】
例えば、上述の例において、順序比較部216から、識別情報「G」「K」「X」が入力されたとする。この場合、原因箇所提示部207は、
図8に示した、システム構成要素記憶部209の情報を参照することにより、識別情報「G」「K」「X」がそれぞれ示すシステム構成要素情報を取得する。そして、原因箇所提示部207は、識別情報「G」に基づく「Node1」の「Application_Z」、識別情報「K」に基づく「Node2」の「Application_X」、識別情報「X」に基づく「Node1」の「Application_Y」を、障害の可能性がある原因箇所として提示する。このようにして、原因箇所提示部207は、検出された差異に関連するシステム構成要素情報として、情報処理システム90を構成するノード、アプリケーション、プロセスなどのシステム構成要素およびその属性値を原因箇所として、出力装置1007や記憶装置1004などに出力する。
【0092】
また、原因箇所提示部207は、順序比較部216および数値比較部226のいずれからも識別情報が入力されない場合、分析対象期間のログ情報から障害が検出されないことを提示してもよい。
【0093】
以上のように構成された障害分析装置2の動作について、
図11および
図12を参照して説明する。
【0094】
まず、障害分析装置2が、比較対象パターンを抽出してパターン記憶部204に記憶する動作を
図11に示す。なお、障害分析装置2は、比較対象期間中に比較対象パターンの生成開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ対象として定められたログ情報を対象として、パターン抽出動作を開始してもよい。あるいは、障害分析装置2は、比較対象期間に出力されたログ情報を他の機能ブロックから受信すると、パターン抽出動作を開始してもよい。あるいは、障害分析装置2は、比較対象期間中に、あらかじめ対象として定められたログ情報の更新を検出すると、パターン抽出動作を開始してもよい。また、障害分析装置2は、対象のログ情報のうち、比較対象期間として指定された範囲を対象として、パターン抽出動作を実行してもよい。
【0095】
図11では、まず、ログ要素抽出部201は、情報処理システム90から出力される各種のログ情報を読み出す(ステップS31)。ログ要素抽出部201は、各ログ情報の一部(例えば1行または複数行ずつ)を読み出して以降の処理を繰り返してもよいし、ログ情報の全てをまとめて読み出してもよい。
【0096】
次に、ログ要素抽出部201は、ステップS31で読み出したログ情報が合致する形式を、ログ形式記憶部208を検索することにより、ログ情報の種別を判別する(ステップS32)。例えば、ログ要素抽出部201は、
図6に示したログファイル「message」から情報を読み出した場合、
図7に示したログ形式記憶部208の情報の1行目の形式に合致するとして、読み出したログ情報のログ種別が「syslog」であると判別する。
【0097】
次に、ログ要素抽出部201は、ステップS32で判別されたログ種別に基づいて、ログ要素を抽出する(ステップS33)。例えば、ログ要素抽出部201は、判別されたログ種別について抽出するようあらかじめ定められたログ要素を抽出すればよい。
【0098】
次に、ログ統合部202は、ステップS33で抽出された各ログ要素に対して、該ログ要素に関連するシステム構成要素の識別情報を少なくとも付加する(ステップS34)。このとき、前述のように、ログ統合部202は、各ログ要素に対して、関連するシステム構成要素の属性情報をさらに付加してもよい。
【0099】
次に、ログ統合部202は、ステップS34においてシステム構成要素の識別情報が少なくとも付加されたログ要素を統合し、統合ログ情報を生成する(ステップS35)。
【0100】
次に、パターン抽出部203は、ステップS35で生成された統合ログ情報から、システム構成要素の識別情報のパターンを抽出する(ステップS36)。このとき、前述のように、パターン抽出部203は、互いに類似する属性情報とともに付加された異なる識別情報を集約して新たな識別情報に変換した上で、識別情報のパターンを抽出してもよい。
【0101】
次に、パターン集計部210は、ステップS36で抽出されたパターンに含まれる識別情報の相対比およびパターンの出現率を算出する(ステップS37)。
【0102】
次に、パターン記憶部204は、ステップS36で抽出されたパターンを比較対象パターンとして、ステップS37で算出された相対比および出現率を表す集計情報とともに記憶する(ステップS38)。
【0103】
以上で、障害分析装置2は、比較対象パターンの抽出動作を終了する。
【0104】
次に、障害分析装置2が、分析対象期間の障害を分析する動作を
図12に示す。なお、障害分析装置2は、障害分析開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ対象として定められたログ情報を対象として、障害分析動作を開始してもよい。あるいは、障害分析装置2は、分析対象期間に出力されたログ情報を他の機能ブロックから受信すると、障害分析動作を開始してもよい。あるいは、障害分析装置2は、障害を検知する他の機能ブロックによって障害が検知されると、あらかじめ対象として定められたログ情報を対象として、障害分析動作を開始してもよい。また、障害分析装置2は、対象のログ情報のうち、分析対象期間として指定された範囲を対象として、障害分析動作を実行してもよい。
【0105】
まず、障害分析装置2は、分析対象パターンおよびその集計情報を取得する(ステップS41)。具体的には、ログ要素抽出部201、ログ統合部202、パターン抽出部203、および、パターン集計部210が、分析対象期間中に情報処理システム90から出力された各種のログ情報を対象として、
図11に示したステップS31〜S37を実行すればよい。
【0106】
次に、パターン変換部205は、分析対象パターンに、比較対象パターンに含まれないシステム構成要素の識別情報が含まれているか否かを判断する(ステップS42)。
【0107】
ここで、分析対象パターンに、比較対象パターンに含まれない識別情報が含まれていない場合、障害分析装置2の動作は、ステップS45に進む。
【0108】
一方、分析対象パターンに、比較対象パターンに含まれない識別情報が含まれている場合、パターン変換部205は、その識別情報を変換対象として、パターン記憶部204に記憶されたパターンに含まれ変換対象に類似するシステム構成要素の識別情報を特定する(ステップS43)。具体的には、パターン比較部206は、変換対象の識別情報の示すシステム構成要素が有する属性情報に対して、所定の類似条件を満たす属性情報を有するシステム構成要素の識別情報を、類似する識別情報として特定する。
【0109】
次に、パターン変換部205は、分析対象パターンおよび比較対象パターンのいずれかにおいて、変換対象の識別情報および類似する識別情報間の変換を行う(ステップS44)。
【0110】
次に、順序比較部216は、分析対象パターンに対して、識別情報の順序が完全に一致する比較対象パターンおよび順序の一部が一致する比較対象パターンを検出する(ステップS45)。
【0111】
次に、順序比較部216は、ステップS45で検出された順序の一部が一致する比較対象パターンおよび分析対象パターン間で、順序が一致しない識別情報を検出する(ステップS46)。
【0112】
次に、数値比較部226は、ステップS45で検出された順序が完全に一致する比較対象パターンおよび分析対象パターン間で、相対比が一致しない識別情報を検出する(ステップS47)。
【0113】
次に、原因箇所提示部207は、ステップS46またはS47で検出された識別情報の示すシステム構成要素に関連する情報を、障害の原因箇所として提示する(ステップS48)。例えば、前述のように、原因箇所提示部207は、検出された識別情報の示すシステム構成要素の名称、場所などの各種の属性値や、その属性値が示す他のシステム構成要素の属性値を提示してもよい。
【0114】
以上で、障害分析装置2は動作を終了する。
【0115】
次に、本発明の第2の実施の形態の効果について説明する。
【0116】
本発明の第2の実施の形態に係る障害分析装置2は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所をさらに精度よく特定可能な情報を提示することができる。
【0117】
その理由は、ログ要素抽出部が、ログ形式記憶部に記憶された形式に基づいて、関連するシステム構成要素を特定可能なログ要素を抽出するからである。そして、ログ統合部が、抽出したログ要素に対して、システム構成要素記憶部を参照して関連するシステム構成要素を特定することにより少なくともその識別情報を付加して統合した統合ログ情報を生成するからである。更に、パターン抽出部が、統合ログ情報に含まれるシステム構成要素の識別情報のパターンを抽出し、パターン集計部が、パターンに含まれる識別情報の相対比を算出するからである。
【0118】
そして、パターン変換部が、分析対象パターンに、比較対象パターンに含まれないシステム構成要素の識別情報が含まれている場合に、システム構成要素記憶部を参照する。これにより、そのような識別情報を変換対象として、変換対象の識別情報の示すシステム構成要素に対して類似するシステム構成要素の識別情報を特定し、変換対象の識別情報および類似する識別情報間の変換を行うからである。
【0119】
そして、順序比較部が、識別情報の順序の一部が一致する分析対象パターンおよび比較対象パターン間で、順序が一致しない識別情報を差異として検出するからである。また、数値比較部が、識別情報の順序が完全に一致する分析対象パターンおよび比較対象パターン間で、相対比が一致しない識別情報を差異として検出するからである。そして、原因箇所提示部が、差異として検出された識別情報の示すシステム構成要素に関連する情報を、障害の原因箇所として提示するからである。
【0120】
このように、本実施の形態に係る障害分析装置は、分析対象パターンに含まれる変換対象の識別情報と、比較対象パターンに含まれ変換対象に類似する識別情報との間で変換を行う。これにより、本実施の形態に係る障害分析装置は、情報処理システムの構成が変化する度に、比較対象パターンを追加、変更する必要なく、分析対象パターンに対して、識別情報の一部または全ての順序が一致する比較対象パターンを検出できる可能性を高くする。これにより、本実施の形態に係る障害分析装置は、識別情報の一部または全ての順序が一致する分析対象パターンおよび比較対象パターン間の差異を精度よく検出可能となる。その結果、本実施の形態に係る障害分析装置は、検出された差異の示すシステム構成要素に関連する情報を、障害の原因箇所を特定可能な情報として提示することができる。
【0121】
また、本実施の形態に係る障害分析装置は、識別情報の順序が完全に一致する分析対象パターンおよび比較対象パターン間で相対比が一致しない識別情報を検出する。これにより、本実施の形態に係る障害分析装置は、正常なメッセージが出力されているものの、その出力回数に異常が認められるような障害についても、その原因箇所を特定可能な情報を提示することができる。
【0122】
(第3の実施の形態)
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第2の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
【0123】
まず、本発明の第3の実施の形態に係る障害分析装置3の機能構成を示す機能ブロック図を
図13に示す。
図13において、障害分析装置3は、本発明の第2の実施の形態に係る障害分析装置2に対して、原因箇所提示部207に替えて原因箇所提示部307を備え、さらに、原因箇所集計部311を備える点が異なる。なお、原因箇所集計部311は、本発明に係る原因箇所提示部の一実施形態の一部を構成する。
【0124】
ここで、障害分析装置3は、本発明の第1の実施の形態に係る障害分析装置1と同様に、
図2を参照して説明したハードウェア構成を備えるコンピュータ装置によって構成可能である。この場合、原因箇所集計部311は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。なお、障害分析装置3およびその機能ブロックのハードウェア構成は、上述の構成に限定されない。
【0125】
原因箇所集計部311は、システム構成要素記憶部209を参照することにより、順序比較部216および数値比較部226によって検出された識別情報の示すシステム構成要素情報が有する属性値を集計する。例えば、該当するシステム構成要素情報について、属性「場所」の値や属性「分類2」の値を集計してもよい。
【0126】
原因箇所提示部307は、順序比較部216および数値比較部226から入力された識別情報の示すシステム構成要素情報を、原因箇所集計部311による集計結果に基づいて提示する。例えば、原因箇所提示部307は、該当するシステム構成要素情報を、所定の属性値の集計数が多いものから順に提示してもよい。
【0127】
例えば、順序比較部216および数値比較部226から入力された識別情報が、「X」、「G」、「K」であった場合を想定する。ここで、
図8のシステム構成要素記憶部209の情報を参照すると、システム構成要素「X」は、「Node1」の「Application_Y」であり、システム構成要素「G」は、「Node1」の「Application_Z」であり、システム構成要素「K」は、「Node2」の「Application_X」である。この場合、原因箇所集計部311は、属性「場所」について、Node1が2つ、Node2が1つであると集計する。そこで、原因箇所提示部307は、属性「場所」について集計数が多いNode1の「X」および「G」に関するシステム構成要素情報を提示し、次に集計数が多いNode2を有する「K」に関するシステム構成要素情報を次に提示すればよい。なお、この場合、システム構成要素「X」および「G」についての提示順序は並列となる。このような場合、原因箇所提示部307は、さらに他の属性情報の集計結果を考慮してこれらの提示順序を決定してもよい。ただし、この例では、システム構成要素「X」および「G」について他の属性「分類2」の属性値は「Application_Y」が1つと「Application_Z」が1つであるため、依然としてこれらの提示順序は並列である。したがって、原因箇所提示部307は、属性情報の集計結果が等しいシステム構成要素情報については、ランダムな順序や、並列な順序で提示すればよい。なお、提示順序とは、表示順序や印刷順序であってもよいし、出力文字の大きさや表示領域の大きさなどの順序であってもよい。その他、提示順序は、障害の原因箇所である可能性の大きさの順序を表現可能に定められた順序であればよい。
【0128】
以上のように構成された障害分析装置3の動作について、
図14を参照して説明する。なお、障害分析装置3の比較対象パターン抽出動作については、
図11を参照して説明した本発明の第2の実施の形態の障害分析装置2の比較対象パターン抽出動作と同様であるため、本実施の形態における説明を省略する。
【0129】
また、障害分析装置3の障害分析動作は、
図12を参照して説明した本発明の第2の実施の形態の障害分析装置3の障害分析動作と略同様であるが、ステップS48における動作の詳細が異なる。ステップS48における障害分析装置3の原因箇所提示動作を、
図14に示す。
【0130】
まず、原因箇所集計部311は、システム構成要素記憶部209を参照することにより、順序比較部216および数値比較部226によって検出された差異の示すシステム構成要素情報が有する属性情報を集計する(ステップS51)。
【0131】
次に、原因箇所提示部307は、集計結果に基づく提示順序で、差異の示すシステム構成要素情報を提示する(ステップS52)。
【0132】
以上で、障害分析装置3は動作を終了する。
【0133】
次に、本発明の第3の実施の形態の効果について述べる。
【0134】
本発明の第3の実施の形態に係る障害分析装置3は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所として、より可能性の高い情報から順に提示することができる。
【0135】
その理由は、原因箇所集計部が、差異として検出されたシステム構成要素情報の属性情報を集計し、集計結果に基づく提示順序でシステム構成要素情報を提示するからである。
【0136】
これにより、本実施の形態に係る障害分析装置は、原因箇所として提示された情報を分析する利用者の作業をより省力化・効率化することができる。
【0137】
(第4の実施の形態)
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第2の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
【0138】
まず、本発明の第4の実施の形態に係る障害分析装置4の機能構成を示す機能ブロック図を
図15に示す。
図15において、障害分析装置4は、本発明の第2の実施の形態に係る障害分析装置2と同一の機能ブロックに加えて、さらに、形式要素記憶部412と、形式学習部413とを備える点が異なる。
【0139】
ここで、障害分析装置4は、本発明の第1の実施の形態に係る障害分析装置1と同様に、
図2を参照して説明したハードウェア構成を備えるコンピュータ装置によって構成可能である。この場合、形式要素記憶部412は、記憶装置1004によって構成される。また、形式学習部413は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。なお、障害分析装置4およびその機能ブロックのハードウェア構成は、上述の構成に限定されない。
【0140】
形式要素記憶部412は、ログ情報を構成し得るログ要素の形式を表す形式要素情報を記憶する。ログ情報を構成し得るログ要素としては、例えば、「日付」、「時刻」、「ノード名」、「ネットワークアドレス」、「アプリケーション名称」、「プロセス名」、「ログレベル」、「メッセージ本文」などの各種の情報がある。形式要素情報の一例を
図16に示す。
図16において、1行目は、ログ情報を構成し得るログ要素「日付」の形式として、正規表現「\d{4}/\d{2}/\d{2}」や「\D{3}/\d{2}/\d{4}」などが合致しうることを示している。また、
図16における3行目は、ログ情報を構成し得るログ要素「Node」の形式としては、文字列「Node1」、「Node2」、「Node3」などのいずれかが合致しうることを示している。
【0141】
形式学習部413は、ログ形式記憶部208に形式が記憶されていないログ情報について、形式要素記憶部412を参照することにより、該ログ情報を構成するログ要素の形式を学習する。そして、形式学習部413は、学習したログ情報の形式を、ログ形式記憶部208に記憶させる。
【0142】
具体的には、形式学習部413は、対象のログ情報を読み出し、形式要素記憶部412に記憶された形式要素情報に合致するものを検索する。そして、読み出したログ情報を、合致した形式要素情報に置換したものを、ログ形式記憶部208に記憶させればよい。このとき、形式学習部413は、正規表現で表された形式要素情報については、読み出したログ情報において、該当するログ要素を、合致した正規表現に置換すればよい。また、形式学習部413は、単語の候補で表された形式要素情報については、読み出したログ情報において、該当するログ要素を、任意の単語を表す正規表現「\w+?」などに置換してもよい。例えば、読み出したログ情報の情報が「2013/02/01 16:00:01 DEBUG connection failure」であったとする。この場合、形式学習部413は、
図16の形式要素情報を参照して合致するログ要素形式を検索し、読み出したログ情報が、「日付」、「時刻」、「ログレベル」、「メッセージ」の各ログ要素形式に合致すると判断する。なお、この例のように、形式学習部413は、いずれの形式要素情報にも合致しない要素は、ログ要素「メッセージ」であると判断してもよい。そして、この場合、形式学習部413は、
図17に示すように新たなログ形式情報を、ログ形式記憶部208に記憶させればよい。
【0143】
以上のように構成された障害分析装置4の動作について、
図18を参照して説明する。
【0144】
まず、障害分析装置4の形式学習動作を
図18に示す。なお、障害分析装置4は、ログ情報の形式の学習開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信することにより、形式学習動作を開始してもよい。この場合、障害分析装置4は、例えば、あらかじめ定められた格納位置に保存されているログ情報のうち、ログ形式記憶部208に記憶されていないものを対象としてもよい。あるいは、障害分析装置4は、形式学習対象のログ情報を他の機能ブロックから受信すると、形式学習動作を開始してもよい。あるいは、障害分析装置4は、ログ要素抽出部201によってログ要素の抽出処理を実行する際に、ログ形式記憶部208に記憶されていないログ情報が検出されることを契機に、形式学習動作を開始してもよい。
【0145】
図18において、まず、形式学習部413は、対象のログ情報から少なくとも一部の情報を読み出す(ステップS61)。
【0146】
次に、形式学習部413は、ステップS61で読み出した情報に合致する形式要素情報を、形式要素記憶部412から検索する(ステップS62)。
【0147】
次に、形式学習部413は、ステップS61で読み出した情報を、ステップS62で合致した形式要素情報に基づいて置換する(ステップS63)。
【0148】
次に、形式学習部413は、ステップS63で生成された情報をフォーマット情報として、ログ形式記憶部208に追加する(ステップS64)。
【0149】
以上で、障害分析装置4は、形式学習動作を終了する。
【0150】
なお、障害分析装置4のパターン抽出動作および障害分析動作については、
図11および
図12を用いて説明した本発明の第2の実施の形態に係る障害分析装置2と同様であるため、本実施の形態における説明を省略する。
【0151】
次に、本発明の第4の実施の形態の効果について述べる。
【0152】
本発明の第4の実施の形態に係る障害分析装置4は、構成が変化する情報処理システムにおいて、構成変化により未知の形式のログ情報が出力されるようになっても、過去に発生していない障害の原因箇所を特定可能な情報を提示することができる。
【0153】
その理由は、形式要素記憶部が、ログ情報を構成し得るログ要素の形式を記憶し、形式学習部が、未知の形式のログ情報に対して、合致する形式要素情報を検索することによりフォーマット情報を生成し、ログ形式記憶部に記憶させるからである。
【0154】
これにより、本実施の形態に係る障害分析装置は、構成の変化により、比較対象や分析対象のログ情報の形式が頻繁に変化しても、そのようなログ情報からログ要素を抽出可能となり、本発明の第2の実施の形態と同様の効果を奏することができる。
【0155】
なお、上述した本発明の各実施の形態において、情報処理システムを構成するシステム構成要素として、ノードやソフトウェアコンポーネントを適用する例を中心に説明した。この他、本発明におけるシステム構成要素は、障害を分析する対象となる情報処理システムを構成する要素であれば、その他の要素であってもよい。
【0156】
また、上述した本発明の第2から第4の実施の形態において、パターン抽出部は、システム構成要素の識別情報のパターンを抽出する例を中心に説明した。この他、パターン抽出部は、システム構成要素の識別情報に限らず、ログ要素や、付加した属性情報も含めてパターンを抽出してもよい。
【0157】
また、上述した本発明の第2から第4の実施の形態において、パターン比較部は、システム構成要素の順序を考慮した比較をまず行い、順序が完全に一致した分析対象パターンおよび比較対象パターンについて、その相対比を比較するものとして説明した。この他、各実施の形態において、パターン比較部は、分析対象パターンおよび比較対象パターンについて、順序および出現回数を考慮しないシステム構成要素情報の集合として比較を行ってもよい。この場合、パターン比較部は、集合の要素の一部が一致する分析対象パターンおよび比較対象パターンについて、一致しない部分の要素であるシステム構成要素情報を原因箇所提示部に出力してもよい。また、この場合、パターン比較部は、集合の要素が全て一致する分析対象パターンおよび比較対象パターンについて、その相対比が一致しない要素であるシステム構成要素情報を原因箇所提示部に出力してもよい。
【0158】
また、上述した本発明の第2から第4の実施の形態において、パターン比較部は、順序が完全に一致した分析対象パターンおよび比較対象パターンについて、その出現回数の相対比を比較するものとして説明した。この他、パターン比較部は、出現回数の相対比に限らず、出現回数から算出可能なその他の情報に基づいて差異を検出してもよい。
【0159】
また、上述した本発明の各実施の形態において、パターン比較部によって検出された差異の示すシステム構成要素情報が、パターン変換部によって変換されたシステム構成要素情報である場合、原因箇所提示部は、変換前のシステム構成要素情報を提示するようにしてもよい。
【0160】
また、上述した本発明の各実施の形態において、障害分析装置の各機能ブロックが、記憶装置またはROMに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。この他、障害分析装置の各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。
【0161】
また、上述した本発明の各実施の形態において、障害分析装置の機能ブロックは、複数の装置に分散されて実現されてもよい。
【0162】
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した障害分析装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納し、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
【0163】
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
【0164】
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
【0165】
また、上述した各実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0166】
(付記1)情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素(ログ要素)を抽出するログ要素抽出部と、前記各ログ要素に対して、前記情報処理システムの構成要素(システム構成要素)であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加することにより、前記システム構成要素情報が付加された各ログ要素を統合して統合ログ情報を生成するログ統合部と、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出部と、比較対象期間中の前記パターン(比較対象パターン)を記憶するパターン記憶部と、分析対象期間中の前記パターン(分析対象パターン)に、前記比較対象パターンに含まれない前記システム構成要素情報(変換対象のシステム構成要素情報)が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報、および、前記比較対象パターンに含まれ該変換対象に類似するシステム構成要素情報間の変換を行うパターン変換部と、前記パターン変換部による変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較部と、前記パターン比較部によって検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示部と、を備える障害分析装置。
【0167】
(付記2)前記パターン比較部は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の順序を比較することにより差異を検出することを特徴とする付記1に記載の障害分析装置。
【0168】
(付記3)前記パターン比較部は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の出現回数に関する情報を比較することにより差異を検出することを特徴とする付記1または付記2に記載の障害分析装置。
【0169】
(付記4)前記各ログ情報の関連情報に対応付けて、関連する前記システム構成要素情報を記憶するシステム構成要素記憶部をさらに備え、前記ログ統合部は、前記各ログ要素に対して、該ログ要素の抽出元である前記ログ情報の関連情報に基づいて、関連する前記システム構成要素情報を特定して付加することを特徴とする付記1から付記3のいずれか1つに記載の障害分析装置。
【0170】
(付記5)前記システム構成要素記憶部は、前記システム構成要素の識別情報を、前記システム構成要素情報に含んで記憶し、前記ログ統合部は、前記各ログ要素に対して、関連するシステム構成要素の少なくとも識別情報を付加して前記統合ログ情報を生成し、前記パターン抽出部は、前記システム構成要素の識別情報のパターンを抽出することを特徴とする付記4に記載の障害分析装置。
【0171】
(付記6)前記システム構成要素記憶部は、前記システム構成要素の属性を表す属性情報を、前記システム構成要素情報に含んで記憶し、前記パターン変換部は、前記システム構成要素記憶部を参照することにより、前記変換対象のシステム構成要素が有する属性情報に対して所定の類似条件を満たす属性情報を有するシステム構成要素を、前記類似するシステム構成要素情報として特定することを特徴とする付記4または付記5に記載の障害分析装置。
【0172】
(付記7)前記ログ情報について、該ログ情報を構成するログ要素の形式を記憶するログ形式記憶部をさらに備え、前記ログ要素抽出部は、前記ログ形式記憶部を参照することにより、前記ログ情報から前記ログ要素を抽出することを特徴とする付記1から付記6のいずれか1つに記載の障害分析装置。
【0173】
(付記8)前記ログ情報を構成し得るログ要素の形式を表す形式要素情報を記憶する形式要素記憶部と、前記ログ形式記憶部に形式が記憶されていないログ情報について、前記形式要素記憶部を参照することにより該ログ情報を構成するログ要素の形式を学習して前記ログ形式記憶部に記憶する形式学習部をさらに備えることを特徴とする付記7に記載の障害分析装置。
【0174】
(付記9)前記原因箇所提示部は、前記パターン比較部によって検出された差異の示す前記システム構成要素情報について、該差異が検出された分析対象パターンまたは比較対象パターンの出現率に基づいて、該システム構成要素情報を障害の原因箇所として提示することを特徴とする付記1から付記8のいずれか1つに記載の障害分析装置。
【0175】
(付記10)前記原因箇所提示部は、前記パターン比較部によって検出された差異の示す前記システム構成要素情報が有する属性情報の集計結果に基づいて、該システム構成要素情報を障害の原因箇所として提示することを特徴とする付記1から付記9のいずれか1つに記載の障害分析装置。
【0176】
(付記11)前記パターン変換部は、前記比較対象パターンにおいて、前記類似するシステム構成要素情報を、前記変換対象のシステム構成要素情報に変換することを特徴とする付記1から付記10のいずれか1つに記載の障害分析装置。
【0177】
(付記12)前記パターン変換部は、前記分析対象パターンにおいて、前記変換対象のシステム構成要素情報を、前記類似するシステム構成要素情報に変換することを特徴とする付記1から付記10のいずれか1つに記載の障害分析装置。
【0178】
(付記13)情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素(ログ要素)を抽出し、前記各ログ要素に対して、前記情報処理システムの構成要素(システム構成要素)であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加することにより、前記システム構成要素情報が付加された各ログ要素を統合して統合ログ情報を生成し、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出し、分析対象期間中の前記パターン(分析対象パターン)に、比較対象期間中の前記パターン(比較対象パターン)に含まれない前記システム構成要素情報(変換対象のシステム構成要素情報)が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報、および、前記比較対象パターンに含まれ該変換対象に類似するシステム構成要素情報間の変換を行い、変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出し、
検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する、障害分析方法。
【0179】
(付記14)情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素(ログ要素)を抽出するログ要素抽出ステップと、前記各ログ要素に対して、前記情報処理システムの構成要素(システム構成要素)であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加することにより、前記システム構成要素情報が付加された各ログ要素を統合して統合ログ情報を生成するログ統合ステップと、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出ステップと、比較対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出された前記パターン(比較対象パターン)をパターン記憶部に記憶するパターン記憶ステップと、分析対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出されたパターン(分析対象パターン)に、前記比較対象パターンに含まれない前記システム構成要素情報(変換対象のシステム構成要素情報)が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報、および、前記比較対象パターンに含まれ該変換対象に類似するシステム構成要素情報間の変換を行うパターン変換ステップと、前記パターン変換ステップ後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較ステップと、前記パターン比較ステップにおいて検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示ステップと、をコンピュータ装置に実行させるコンピュータ・プログラム。
【0180】
この出願は、2013年6月3日に出願された日本出願特願2013−116952を基礎とする優先権を主張し、その開示の全てをここに取り込む。