特開2022-61678 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ エヌ・ティ・ティ・コムウェア株式会社の特許一覧

特開2022-61678異常検知装置、異常検知方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022061678

(43)【公開日】2022-04-19

(54)【発明の名称】異常検知装置、異常検知方法、およびプログラム

(51)【国際特許分類】

G06F 11/07 20060101AFI20220412BHJP

【ＦＩ】

G06F11/07 151

G06F11/07 140A

【審査請求】有

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2020169755

(22)【出願日】2020-10-07

(71)【出願人】

【識別番号】397065480

【氏名又は名称】エヌ・ティ・ティ・コムウェア株式会社

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100181124

【弁理士】

【氏名又は名称】沖田壮男

(72)【発明者】

【氏名】小杉晃範

(72)【発明者】

【氏名】寺澤啓司

(72)【発明者】

【氏名】瀧見彰太

(72)【発明者】

【氏名】青木桂子

(72)【発明者】

【氏名】桐野洋平

(72)【発明者】

【氏名】岩下侑輝顕

【テーマコード（参考）】

5B042

【Ｆターム（参考）】

5B042GA12

5B042JJ06

5B042JJ30

5B042MA08

5B042MA10

5B042MA13

5B042MA14

5B042MC25

5B042MC28

5B042MC35

5B042MC40

(57)【要約】（修正有）

【課題】未知の異常を検知する異常検知装置、異常検知方法及びプログラムを提供する。
【解決手段】異常判定システム１Ａにおいて、異常検知装置５００は、データ処理装置２００から取得したログメッセージを分析し、分析結果に基づく情報をデータ処理装置２００に提供する情報処理装置であって、変換部５１０と、異常判定部５２０とを備える。変換部は、監視対象システムから収集されたログメッセージの発生数を、ログメッセージの発生日数に変換する。検知部は、変換部により変換されたログメッセージの発生日数に基づいて、監視対象システムの異常に関連するログメッセージを検知する。
【選択図】図１１

【特許請求の範囲】

【請求項1】

監視対象システムからログメッセージを収集する収集部と、
前記収集部により収集されたログメッセージの発生数を、前記ログメッセージの発生日数に変換する変換部と、
前記変換部により変換された前記ログメッセージの発生日数に基づいて、前記監視対象システムの異常に関連するログメッセージを検知する検知部と、
を備える、異常検知装置。

【請求項2】

前記収集部により収集されたログメッセージのうち所定のパラメータを削除することでインデックスを加工して登録する登録部を備え、
前記変換部は、前記インデックスの発生数を、前記インデックスの発生日数に変換する、
請求項１に記載の異常検知装置。

【請求項3】

前記検知部は、前記発生日数が閾値以下のログメッセージを、前記監視対象システムの異常に関連するログメッセージとして検知する、請求項１または２に記載の異常検知装置。

【請求項4】

監視対象システムからログメッセージを収集するステップと、
収集されたログメッセージの発生数を、前記ログメッセージの発生日数に変換するステップと、
変換された前記ログメッセージの発生日数に基づいて、前記監視対象システムの異常に関連するログメッセージを検知するステップと、
を含む、異常検知方法。

【請求項5】

コンピュータに、
監視対象システムからログメッセージを収集するステップと、
収集されたログメッセージの発生数を、前記ログメッセージの発生日数に変換するステップと、
変換された前記ログメッセージの発生日数に基づいて、前記監視対象システムの異常に関連するログメッセージを検知するステップと、
を実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、異常検知装置、異常検知方法、およびプログラムに関する。

【背景技術】

【0002】

従来より、各種のシステムから出力されたログを監視し、システムの異常を検知する技術が知られている。例えば、特許文献１に記載された保守管理装置が知られている。この保守管理装置は、ログ情報を収集する収集部と、ログ情報を識別するログ識別子とログ情報の時刻情報とを関連付けて記憶する記憶部と、複数のログ識別子を時刻情報に基づいてまとめたログシーケンスを作成し、ログシーケンスの開始時刻と終了時刻との差分からシーケンス時間を算出し、ログシーケンスとシーケンス時間とを関連付けたシーケンスグループにグループ化する分析部と、を備え、分析部は、シーケンスグループが予め登録された正常シーケンスグループ及び異常シーケンスグループと一致しない場合、予め登録されたインシデント予兆グループのうち、シーケンスグループと最も適合率の高いシーケンスグループに基づいてインシデント発生までのインシデント発生見込み時間を算出する。これにより、保守管理装置は、インシデントの発生を予測することが可能であるとしている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６５１２６４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述した保守管理装置は、予め正常シーケンスグループ、異常シーケンスグループ、およびインシデント予兆グループといった情報を事前登録し、ログ情報を監視している。また、保守運用（オペレーション）の現場では、故障対応システムなどが出力するログ通知を契機として故障対応が始まることが一般的である。契機となるログは、通常運用時に出力されるログが多すぎるため、過去に発生した故障と関連したログのみを監視対象とし、それ以外のログは無視する、という運用を行うことが一般的である。

【0005】

しかし、故障にはログの出力を伴わない故障（サイレント故障）があり、監視対象のログを登録することができないため、当該サイレント故障の監視が困難となる可能性がある。さらに、監視対象が登録されていない未知の故障に対しては、ログの出力の有無にかかわらず、ユーザの申告が故障対応の契機となる。このため、既知の故障と比較して、罹障（りしょう）時間が長くかかってしまうという問題がある。

【0006】

本発明は、上記の課題に鑑みてなされたものであって、未知の異常を検知することができる異常検知装置、異常検知方法、およびプログラムを提供することを目的としている。

【課題を解決するための手段】

【0007】

（１）本発明の一態様は、監視対象システムからログメッセージを収集する収集部と、前記収集部により収集されたログメッセージの発生数を、前記ログメッセージの発生日数に変換する変換部と、前記変換部により変換された前記ログメッセージの発生日数に基づいて、前記監視対象システムの異常に関連するログメッセージを検知する検知部と、を備える、異常検知装置である。

【0008】

（２）本発明の一態様は、上記の異常検知装置であって、前記収集部により収集されたログメッセージのうち所定のパラメータを削除することでインデックスを加工して登録する登録部を備え、前記変換部は、前記インデックスの発生数を、前記インデックスの発生日数に変換してよい。

【0009】

（３）本発明の一態様は、上記の異常検知装置であって、前記検知部は、前記発生日数が閾値以下のログメッセージを、前記監視対象システムの異常に関連するログメッセージとして検知してよい。

【0010】

（４）本発明の一態様は、監視対象システムからログメッセージを収集するステップと、収集されたログメッセージの発生数を、前記ログメッセージの発生日数に変換するステップと、変換された前記ログメッセージの発生日数に基づいて、前記監視対象システムの異常に関連するログメッセージを検知するステップと、を含む、異常検知方法である。

【0011】

（５）本発明の一態様は、コンピュータに、監視対象システムからログメッセージを収集するステップと、収集されたログメッセージの発生数を、前記ログメッセージの発生日数に変換するステップと、変換された前記ログメッセージの発生日数に基づいて、前記監視対象システムの異常に関連するログメッセージを検知するステップと、を実行させる、プログラムである。

【発明の効果】

【0012】

本発明の一態様によれば、未知の異常を検知することができる。

【図面の簡単な説明】

【0013】

【図1】第１実施形態の異常検知システム１の機能的な構成の一例を示すブロック図である。

【図2】第１実施形態における異常判定システム１の全体の処理手順を示すフローチャートである。

【図3】メッセージ登録処理の処理手順の一例を示すシーケンス図である。

【図4】ログメッセージの一例を示す図である。

【図5】ログメッセージの登録を説明するための図である。

【図6】インデックス集計および異常判定の処理手順の一例を示すフローチャートである。

【図7】異常度の計算の処理手順の一例を示すフローチャートである。

【図8】正規分布の性質を示す図である。

【図9】メジャーメッセージの時間的な変化の一例を示す図である。

【図10】異常度の時間的な変化の一例を示す図である。

【図11】第２実施形態における異常判定システム１Ａの一例を示すブロック図である。

【図12】第２の実施形態における全体の処理手順の一例を示すフローチャートである。

【図13】マイナーメッセージの判定処理の一例を示すフローチャートである。

【図14】変換処理の一例を示す図である。

【発明を実施するための形態】

【0014】

＜実施形態の概要＞
実施形態の異常検知システムは、監視対象システムからログメッセージを収集し、ログメッセージのうち対象メッセージを利用して監視対象システムの異常を検知する。実施形態のメジャーメッセージは、対象メッセージに相当し、監視対象システムに異常が発生していない動作中の状態で出力されたログメッセージであって所定の頻度で発生するログメッセージである。これにより異常検知システムは、例えば、ログの出力を伴わない故障（サイレント故障）や未知の異常を検知することができる。以下、異常検知システムについて説明する。

【0015】

＜第１実施形態＞
＜異常検知システム１の構成＞
図１は、第１実施形態の異常検知システム１の機能的な構成の一例を示すブロック図である。異常検知システム１は、例えば、一又は複数の監視対象システム１００と、データ処理装置２００と、異常検知装置３００と、ユーザ端末装置４００とを備える。監視対象システム１００、データ処理装置２００、異常検知装置３００、およびユーザ端末装置４００は、例えば、通信ネットワークに接続される。通信ネットワークに接続される各装置は、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）や無線通信モジュールなどの通信インターフェースを備えている（図２では不図示）。通信ネットワークは、例えば、インターネット、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、セルラー網などを含む。

【0016】

監視対象システム１００は、データ処理装置２００および異常検知装置３００によってログメッセージが監視される情報処理システムである。監視対象システム１００は、例えば、各種のサービスを提供するサービスサーバ装置や、ネットワーク網に含まれる多数のネットワークノードの動作状態を管理するネットワーク管理装置等である。ネットワークノードは、例えば、ＯＳ（ＯｐｅｒａｔｉｏｎＳｙｓｔｅｍ）、ＶＭ（ＶｉｒｔｕａｌＭａｃｈｉｎｅ）、ＨＷ（Ｈａｒｄｗａｒｅ）、ＤＣ（ＤａｔａＣｅｎｔｅｒ）などである。監視対象システム１００は、所定のトリガに従ってログメッセージをデータ処理装置２００に提供する。また、監視対象システム１００は、単独で動作するサーバ装置であってよいが、他のサーバ装置と連携して動作する複数のサーバ装置群であってよい。

【0017】

データ処理装置２００は、例えば、ログ運用のためのＯＳＳ（オープンソースソフトウェア）を実装したコンピュータである。ＯＳＳは、例えば、Elasticsearch、Logstash、およびKibanaと称される要素により構成される。データ処理装置２００は、例えば、Logstashにより構成されるフォーマット変換部２０２と、Elasticsearchにより構成されるデータ処理部２０４と、ログデータ蓄積部２０６と、検知結果蓄積部２０８と、Kibanaにより構成される可視化部２１０とを備える。

【0018】

フォーマット変換部２０２、データ処理部２０４、および可視化部２１０といった機能部は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。また、これらの機能部のうち一部または全部は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＦＰＧＡ（Ｆｉｅｌｄ-ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。プログラムは、予めデータ処理装置２００のＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体（非一過性の記憶媒体）がドライブ装置に装着されることでデータ処理装置２００のＨＤＤやフラッシュメモリにインストールされてもよい。ログデータ蓄積部２０６および検知結果蓄積部２０８は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶装置により実現される。ログデータ蓄積部２０６および検知結果蓄積部２０８は、例えば、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）やＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）により実現されてよい。

【0019】

フォーマット変換部２０２は、監視対象システム１００から収集したログメッセージのフォーマットを所定のフォーマットに変換する。データ処理部２０４は、フォーマット変換部２０２によりフォーマット変換されたログメッセージをログデータ蓄積部２０６に記憶する。このときデータ処理部２０４は、ログメッセージにタイムスタンプを付加して登録する。タイムスタンプはログメッセージの発生時刻を示す情報である。データ処理部２０４は、フォーマット変換部２０２からのログメッセージについて各種のデータ処理を行う。可視化部２１０は、シーケンス推定結果や異常判定結果をユーザが閲覧可能な可視化データに変換して、ユーザ端末装置４００に提供する。

【0020】

データ処理部２０４は、例えば、インデックス付与部２２０と、登録部２２２と、集計部２２４とを備える。インデックス付与部２２０は、ログメッセージにインデックス値を付与する。登録部２２２は、ログメッセージをインデックス値としてログデータ蓄積部２０６に登録する。集計部２２４は、ログメッセージを時系列で集計する。また、データ処理装置２００は、異常検知装置３００の要求に応じてログデータ蓄積部２０６から所望のログメッセージを検索する処理や、異常検知装置３００から提供された異常判定結果を検知結果蓄積部２０８に記憶する処理なども行う。

【0021】

ユーザ端末装置４００は、例えばパーソナルコンピュータや、スマートフォンやタブレット端末などの端末装置である。ユーザ端末装置４００は、例えば監視対象システム１００の管理者の操作を受け付け、監視対象システム１００の状態や異常に関する情報をデータ処理装置２００から取得し、表示処理等を行う。

【0022】

異常検知装置３００は、データ処理装置２００から取得したログメッセージを分析し、分析結果に基づく情報をデータ処理装置２００に提供する情報処理装置である。異常検知装置３００は、例えば、スコア計算部３１０と、異常判定部３２０とを備える。スコア計算部３１０、および異常判定部３２０といった機能部は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。

【0023】

スコア計算部３１０は、データ処理装置２００により収集されたログメッセージの変化に基づくスコア（異常度）を計算する。異常判定部３２０は、スコア計算部３１０により計算された異常度に基づいて監視対象システム１００の異常を検知する。

【0024】

＜異常判定システム１の全体処理＞
図２は、第１実施形態における異常判定システム１の全体の処理手順を示すフローチャートである。異常判定システム１は、先ず、監視対象システム１００から収集したログメッセージを登録する（ステップＳ１００）。次に異常判定システム１は、登録したログメッセージに対応するインデックスを集計する（ステップＳ２００）。次に異常判定システム１は、異常度を計算する（ステップＳ３００）。次に異常判定システム１は、異常を判定する（ステップＳ４００）。

【0025】

［メッセージ登録処理］
図３は、メッセージ登録処理の処理手順の一例を示すシーケンス図である。データ処理装置２００は、監視対象システム１００からログメッセージを収集する。データ処理装置２００は、監視対象システム１００に要求を送信し、要求に応じてログメッセージを収集してもよい。先ず、データ処理装置２００は、収集したログメッセージのうち所定のパラメータを正規表現により削除する（ステップＳ１０２）。次に、データ処理装置２００は、定型的なパラメータを削除したログメッセージのインデックス部分を登録する（ステップＳ１０４）。所定のパラメータは、例えば、数字が含まれる単語部分等のログメッセージの可変部分等の定型的なパラメータである。ログメッセージから定型的なパラメータを削除することで、ログメッセージ間で共通した部分を残すことができる。これにより、ログメッセージ間の重複を排除することができる。

【0026】

図４は、ログメッセージの一例を示す図である。図４（ａ）に示すようにログメッセージには「ｆａ：１６：・・・」といったアドレス等を表す数字が含まれているが、データ処理装置２００は、図４（ｂ）に示すように、当該数字を定型的なパラメータとして削除する。これにより、異常検知装置３００は、図４（ａ）および（ｂ）に示すような２つのログメッセージのインデックスを、重複して登録することができる。

【0027】

図５は、ログメッセージの登録を説明するための図である。データ処理装置２００は、複数種類のログメッセージｘ、ｙ、ｚ、・・・のうち、選定された一つのログメッセージｙを、メジャーメッセージとしてインデックス値Ａに変換する。監視対象システム１００に異常が発生していない動作中の状態で出力されたログメッセージであって所定の頻度で発生するログメッセージｙが、メジャーメッセージとして選定される。異常検知装置３００は、正規分布における移動平均付近で高い確率で発生するログメッセージを、メジャーメッセージとして選定してもよい。異常検知装置３００は、監視対象システム１００の種類によって複数種類のログメッセージを、メジャーメッセージとして選定してもよい。この場合、異常検知装置３００は、選定された複数種類のメジャーメッセージを同じインデックス値として登録する。データ処理装置２００は、メジャーメッセージのみならず、他のログメッセージもインデックス値に変換してもよい。なお、メジャーメッセージは、監視対象システム１００の管理者により選定されたログメッセージであってもよく、データ処理装置２００が自動的に選定したログメッセージであってよい。

【0028】

［インデックス集計および異常判定］
図６は、インデックス集計および異常判定の処理手順の一例を示すフローチャートである。先ず、データ処理装置２００は、メジャーメッセージに対応したインデックスを指定して時系列単位ごとにインデックスを集計する（ステップＳ２１０）。時系列単位は、例えば、1日や1時間などである。次に異常検知装置３００は、データ処理装置２００から集計結果を取得し、異常度（スコア）の計算を、時系列単位数分繰り返す。異常検知装置３００は、各時系列単位の集計値から異常度（スコア）を計算する（ステップＳ３１０）。

【0029】

図７は、異常度の計算の処理手順の一例を示すフローチャートである。先ず異常検知装置３００は、時系列単位でメジャーメッセージの発生数の移動平均（μ）を計算する（ステップＳ３１２）。次に異常検知装置３００は、時系列単位でメジャーメッセージの発生数の移動偏差（σ）を計算する（ステップＳ３１４）。次に異常検知装置３００は、移動平均（μ）および移動偏差（σ）を用いて異常度を計算する（ステップＳ３１６）。なお、移動平均（μ）および移動偏差（σ）は、選定されたログメッセージ（メジャーメッセージ）の変化の一例である。

【0030】

異常検知装置３００は、収集したログメッセージの時系列単位当たりの発生数と、当該ログメッセージの発生数についての正規分布の性質とに基づく異常度を計算する。具体的には、異常検知装置３００は、異常度を、下記の式１により算出する。
ｍａｘ（０，－（ｘ－μ）／σ－ｔｈ）（式１）
上記式１において、ｘはメジャーメッセージの時系列単位当たりの発生数であり、μは移動平均であり、σは移動偏差であり、ｔｈは閾値である。監視対象システム１００の異常に対する感度（検出し易さ、および、検出し難さ）に応じてｔｈを変更してよく、ｔｈは予め設定された一定値でもよい。図８は、正規分布の性質を示す図であり、正規分布は、平均値Ｏの周りに値が集中する性質を持つ。正規分布における平均値ＯからＺだけ離れた位置までに含まれる範囲は、Ｚ＝|ｘ－μ|／σで表現される。正規分布表の性質から、ｔｈを２～３に設定すればよい場合が多い。

【0031】

図９は、メジャーメッセージの時間的な変化の一例を示す図である。図１０は、異常度の時間的な変化の一例を示す図である。監視対象システム１００からメジャーメッセージが発生している、異常が発生していない通常状態において、発生数の正常範囲は、約１００程度から移動平均（μ）までの範囲である。これに対し、監視対象システム１００に異常が発生し、メジャーメッセージの発生数が０に近く正常値を超えると、図１０に示すように高い異常度が発生する。

【0032】

以上説明したように、実施形態の異常判定システム１によれば、監視対象システム１００からログメッセージを収集する収集部（２００）と、収集されたログメッセージのうち、監視対象システム１００に異常が発生していない動作中の状態で出力されたログメッセージであって所定の頻度で発生するログメッセージの変化を計算するスコア計算部３１０と、選定されたログメッセージの変化に基づいて監視対象システム１００の異常を検知する異常判定部３２０と、を備える、異常検知装置を実現することができる。この異常判定システム１によれば、ログメッセージが発生しない、未知の異常を検知することができる。

【0033】

具体的に、異常判定システム１によれば、システムダウンなどの監視対象システム１００に致命的なエラーば発生しているが、明確なログメッセージが出力されない事例（サイレント故障の一つ）を検知することができる。また、異常判定システム１によれば、一般の機械学習で必要とされる事前学習を必要としないため、手間がかかる学習データの準備が不要であり、実運用環境に簡易に導入することができる。

【0034】

実施形態の異常判定システム１によれば、正規分布における移動平均付近で高い確率で発生するログメッセージを選定するので、正規分布の性質を利用して異常を検知することができる。

【0035】

実施形態の異常判定システム１によれば、選定されたログメッセージのうち所定のパラメータを削除することでインデックスを加工して登録するので、例えば、数値等のログメッセージの種別に関連が少ない情報を削除することができる。この異常判定システム１によれば、集計処理等の処理量を抑制することができる。

【0036】

実施形態の異常判定システム１によれば、選定された複数種類のログメッセージを同じインデックス値として登録するので、例えば監視対象システム１００のメジャーメッセージが複数存在する場合の異常や、複数の監視対象システム１００に関連したメジャーメッセージが複数存在する場合の異常を検知することができる。

【0037】

実施形態の異常判定システム１によれば、メジャーメッセージの単位時間当たりの発生数（メジャーメッセージが発生しなくなる性質）と、当該メジャーメッセージの発生数についての正規分布の性質とに基づく異常度を計算する。具体的に、異常判定システム１は、異常度は、ｍａｘ（０，－（ｘ－μ）／σ－ｔｈ）で示される計算式により算出する。異常判定システム１は、例えば、通常運用時ではメジャーメッセージの単位時間あたりの発生数が緩やかな変化を伴いながら遷移するが、異常発生時には、急激にその値が減少する性質や、異常度のスコア計算において、発生数の減少度合いを、正規分布の平均値の周りに値が集中する性質を利用して数値化して異常を検知することができる。さらに、異常判定システム１によれば、メジャーメッセージについて正規分布の仮定が厳密には成り立たなくても、移動平均の周りに大体の値があれば、アルゴリズムとして機能し、メジャーメッセージを利用して監視対象システム１００の異常を検知することができる。

【0038】

また、実施形態の異常判定システム１によれば、監視対象システム１００からログメッセージを収集するデータ処理部２０４と、複数のメジャーメッセージを同じインデックス値として登録する登録部２２２と、複数のメジャーメッセージを監視し、登録部２２２により登録されたインデックス値を集計する集計部２２４と、を備える、データ処理装置２００と、データ処理装置２００から取得したインデックス値の集計結果を用いて監視対象システム１００の異常度を計算し、計算した異常度に基づいて監視対象システム１００の異常を検知する異常検知装置３００と、を備える、異常検知システムを実現することができる。異常判定システム１によれば、メジャーメッセージの集計をデータ処理装置２００で行うことができ、異常検知装置３００により異常度の計算および判定を行えばよいので、機能分担が明確になり、且つ異常検知装置３００の処理を簡素化することができる。

【0039】

［第２実施形態］
以下、第２実施形態について説明する。なお、第１実施形態と同様の部分についてはその詳細な説明を省略する。第２の実施形態の異常判定システム１Ａは、マイナーメッセージを検知することで監視対象システム１００の異常を検知する点で、上述した実施形態とは相違する。マイナーメッセージは、ログメッセージの発生数をログメッセージの発生日数に変換することによって検知されるログメッセージである。

【0040】

図１１は、第２実施形態における異常判定システム１Ａの一例を示すブロック図である。異常判定システム１Ａは、上述した異常検知装置３００に代えて、異常検知装置５００を備える。異常検知装置５００は、データ処理装置２００から取得したログメッセージを分析し、分析結果に基づく情報をデータ処理装置２００に提供する情報処理装置である。異常検知装置５００は、例えば、変換部５１０と、異常判定部５２０とを備える。変換部５１０、および異常判定部５２０といった機能部は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。変換部５１０は、データ処理装置２００により収集されたログメッセージの発生数を、ログメッセージの発生日数に変換する。異常判定部５２０は、変換されたログメッセージの発生日数に基づいて、監視対象システム１００の異常に関連するログメッセージを検知する。

【0041】

図１２は、第２の実施形態における全体の処理手順の一例を示すフローチャートである。データ処理装置２００は、インデックスごとに時系列で発生数を集計する（ステップＳ４００）。データ処理装置２００は、例えば、１日のインデックスの発生数を集計結果として取得する。また、異常検知装置３００は、インデックスの発生時刻（日時）を含む情報を取得する。異常検知装置３００は、インデックスの集計結果に基づいてマイナーメッセージの判定を行う（ステップＳ４０２）。異常検知装置３００は、マイナーメッセージの判定によりマイナーメッセージが存在する場合、検知結果蓄積部２０８にマイナーメッセージを書き込む（ステップＳ４０４）。

【0042】

図１３は、マイナーメッセージの判定処理の一例を示すフローチャートである。異常検知装置３００は、マイナーメッセージの判定を、インデックス数分を繰り返して行う。まず異常検知装置３００は、集計単位を、発生数から発生日数に変換する（ステップＳ４１０）。すなわち、異常検知装置３００は、インデックスごとの集計数を、インデックスが発生した日数に変換する。異常検知装置３００は、発生日数が閾値以下であるか否かを判定する（ステップＳ４１２）。異常検知装置３００は、発生日数が閾値以下ではない場合（ステップＳ４１２：ＮＯ）、当該インデックスについての処理を終了する。異常検知装置３００は、発生日数が閾値以下である場合（ステップＳ４１２：ＹＥＳ）、当該インデックスをマイナーメッセージとしてマーキングする（ステップＳ４１４）。インデックスをマイナーメッセージとしてマーキングする処理は、例えば、データ処理装置２００により、マイナーメッセージである情報をインデックスに対応付ける処理である。これにより、データ処理装置２００は、ログメッセージのインデックスが、マイナーメッセージに対応付けられている場合、マイナーメッセージが発生したことを検知することができる。なお、閾値は、発生日数の少なさの観点から監視対象システム１００の異常を検知するために設定された値であり、異常判定システム１Ａ全体で一つだけ設定されてよく、監視対象システム１００ごとに設定されてよく、各インデックスについて設定されてもよく、複数種類のインデックスについて設定されてもよい。また、閾値は、異常レベルに応じて複数設定されてよい。

【0043】

図１４は、変換処理の一例を示す図である。データ処理装置２００は、図１４（ａ）に示すように、１月１日から１月３１日まで、日単位でインデックス（Ｘ１・・・Ｘｎ）の発生数を集計し、集計結果を異常検知装置５００に送信する。集計結果には、インデックスＸ２のログメッセージが１月２日に１００回発生することで合計１００回発生し、インデックスＸ３のログメッセージが１月１日から１月３１日まで毎日１回発生することで合計３１回発生したという結果が含まれている。異常検知装置５００は、図１４（ａ）に示す集計結果を、図１４（ｂ）に示すように、日単位で、インデックスが発生した場合には「１」、インデックスが発生しなかった場合には「０」となるように変換する。この結果、インデックスＸ２の集計結果は、１月２日のみが「１」であるので合計で「１」となり、インデックスＸ３の集計結果は、１月１日から１月３１日までが「１」であるので合計で「３１」となる。異常検知装置５００は、発生日数が閾値以下のログメッセージとして、インデックスＸ２を検出し、インデックスＸ２を監視対象システム１００の異常に関連するログメッセージとして検知する。一方、異常検知装置５００は、インデックスＸ３を、異常に関連するログメッセージとしては検知しない。

【0044】

以上説明したように、第２実施形態の異常判定システム１Ａによれば、監視対象システム１００からログメッセージを収集する収集部（２００）と、収集されたログメッセージの発生数を、ログメッセージの発生日数に変換する変換部５１０と、変換されたログメッセージの発生日数に基づいて、監視対象システム１００の異常に関連するログメッセージを検知する異常判定部５２０と、を備える、異常検知装置３００を実現することができる。これにより、異常判定部５２０は、発生日数が閾値以下のログメッセージを、監視対象システム１００の異常に関連するログメッセージとして検知することできる。異常判定システム１Ａによれば、ログメッセージの発生日数に基づいて監視対象システム１００の異常に関連するログメッセージを検知することで、未知の異常を検知することができる。

【0045】

例えば、監視対象システム１００の異常を検知するため、単に発生数が閾値以下のログメッセージを「マイナーメッセージ」として検知すると、誤検知の問題がある。例えば、監視対象システム１００の異常発生時に、バースト的に同一メッセージが大量に発生することがあるが、発生回数が多いため、当該ログメッセージを異常であることが検知できない可能性がある。また、監視対象システム１００の正常時でも、１日で１回しか発生しないログメッセージ（ログのローテーション通知など）を、発生回数が少ない、異常なログメッセージであると検知してしまう可能性がある。そこで、異常判定システム１Ａは、時系列の集計の単位を、発生数から発生日数に変換し、変換後の集計結果に基づいてマイナーメッセージの検知を行うことで、誤検知の問題を抑制することができる。

【0046】

異常判定システム１Ａによれば、収集されたログメッセージのうち所定のパラメータを削除することでインデックスを加工して登録し、インデックスの発生数を、インデックスの発生日数に変換する。これにより、異常判定システム１Ａは、例えば、数値等のログメッセージの種別に関連が少ない情報を削除することができ、集計処理等の処理量を抑制することができる。

【0047】

［その他の実施形態］
上述した実施形態は、メジャーメッセージに基づいて監視対象システム１００の異常を検知する異常判定システム１や、マイナーメッセージを検知したことにより監視対象システム１００の異常を検知する異常判定システム１Ａを説明したが、異常判定システムは、双方の異常検知の機能を持ってもよい。これにより、異常判定システムは、サイレントでない故障（異常）が発生した場合、メジャーメッセージに基づいて監視対象システム１００の異常を検知すると共にマイナーメッセージを検知したことにより監視対象システム１００の異常を検知することができ、異常と判定する確度をより高くすることができる。具体的に、監視対象システム１００が今までに出力したことがないログメッセージを出力して動作を停止した場合、当該ログメッセージをマイナーメッセージとして異常判定システム１Ａにより故障検知をすることができ、且つ、メジャーメッセージの発生停止により異常判定システム１により故障検知をすることができる。さらに、異常判定システム１によりメジャーメッセージで異常が検知されずに異常判定システム１Ａによりマイナーメッセージを検知した場合、当該マイナーメッセージを、異常時もしくは異常発生前の予兆として発生する可能性があるログメッセージとして検出することができる。これに対し、異常判定システム（１，１Ａ）は、異常時もしくは異常発生前の予兆として発生する可能性があるログメッセージを登録し、監視対象に設定することができる。

【0048】

なお、異常判定システムは、メジャーメッセージに基づいて監視対象システム１００の異常を検知する機能と、マイナーメッセージを検知したことにより監視対象システム１００の異常を検知する機能との双方を持ち、例えば、監視対象システム１００の性質や利用者の要望に応じて、双方の機能を有効（アクティブ）にするよう切り換えたり、何れか一方の機能を有効（アクティブ）にするように切り換える機能を備えてもよい。

【0049】

なお、各実施形態および変形例について説明したが、一例であってこれらに限られず、例えば、各実施形態や各変形例のうちのいずれかや、各実施形態の一部や各変形例の一部を、他の１または複数の実施形態や他の１または複数の変形例と組み合わせて本発明の一態様を実現させてもよい。

【0050】

なお、本実施形態におけるデータ処理装置２００や異常検知装置３００の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、ユーザ端末装置１００やデータ処理装置２００に係る上述した種々の処理を行ってもよい。

【0051】

なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリなどの書き込み可能な不揮発性メモリ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

【0052】

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ
ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。

【0053】

ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【符号の説明】

【0054】

１、１Ａ異常判定システム
１００監視対象システム
２００データ処理装置
２０２フォーマット変換部
２０４データ処理部
２０６ログデータ蓄積部
２０８検知結果蓄積部
２１０可視化部
３００異常検知装置
３１０スコア計算部
３２０異常判定部
４００ユーザ端末装置

【図1】