特許7647910 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7647910ログデータ解析装置、ログデータ解析方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-10

(45)【発行日】2025-03-18

(54)【発明の名称】ログデータ解析装置、ログデータ解析方法、およびプログラム

(51)【国際特許分類】

G06F 11/34 20060101AFI20250311BHJP

G06F 11/07 20060101ALI20250311BHJP

G06N 3/0442 20230101ALI20250311BHJP

G06N 3/0499 20230101ALI20250311BHJP

G06F 18/241 20230101ALI20250311BHJP

【ＦＩ】

G06F11/34 176

G06F11/07 140A

G06F11/07 151

G06N3/0442

G06N3/0499

G06F18/241

【請求項の数】 5

(21)【出願番号】P 2023553855

(86)(22)【出願日】2021-10-14

(86)【国際出願番号】 JP2021038112

(87)【国際公開番号】W WO2023062790

(87)【国際公開日】2023-04-20

【審査請求日】2024-03-01

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】福田展和

(72)【発明者】

【氏名】呉超

(72)【発明者】

【氏名】堀内信吾

(72)【発明者】

【氏名】田山健一

【審査官】太田龍一

(56)【参考文献】

【文献】国際公開第２０１８／１７０１７５（ＷＯ，Ａ１）

【文献】特開２０１９－１４５０８１（ＪＰ，Ａ）

【文献】国際公開第２０１７／０３０００６（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１１／３４

Ｇ０６Ｆ１１／０７

Ｇ０６Ｎ３／０４４２

Ｇ０６Ｎ３／０４９９

Ｇ０６Ｆ１８／２４１

(57)【特許請求の範囲】

【請求項1】

単一のテキストログを対象とする第１のニューラルネットワークを学習させて得られた第１のモデルと、複数のテキストログを含むログ系列を対象とする第２のニューラルネットワークを学習させて得られた第２のモデルとを記憶する記憶部と、
解析対象のシステムにより生成されたテキストログを取得する取得部と、
前記取得されたテキストログの系列から各テキストログの特徴量を算出する特徴量算出部と、
前記取得されたテキストログ系列を、前記特徴量に基づいて正常または異常のいずれかに分類する異常ログ検出部とを具備し、
前記異常ログ検出部は、
前記取得されたテキストログ系列の一部のテキストログ系列の特徴量から前記第１のモデルを用いて異常スコアの概算値を計算し、
前記異常スコアの概算値が規定値以下であれば、当該異常スコアの概算値に基づいて前記テキストログ系列を正常または異常のいずれかに分類し、
前記異常スコアの概算値が規定値より大きければ、前記取得された全てのテキストログ系列の特徴量から前記第２のモデルを用いて異常スコアの修正値を計算し、前記異常スコアの概算値と前記異常スコアの修正値との和に基づいて、前記テキストログ系列を正常または異常のいずれかに分類する、ログデータ解析装置。

【請求項2】

前記第１のニューラルネットワークは、ＦＦＮ（Feed Forward Network）である、請求項１に記載のログデータ解析装置。

【請求項3】

前記第２のニューラルネットワークは、ＬＳＴＭ（Long Short Term Memory）である、請求項１または２に記載のログデータ解析装置。

【請求項4】

プロセッサを有するログデータ解析装置におけるログデータ解析方法であって、
前記プロセッサが、単一のテキストログを対象とする第１のニューラルネットワークを学習させて得られた第１のモデルと、複数のテキストログを含むログ系列を対象とする第２のニューラルネットワークを学習させて得られた第２のモデルとを記憶部に記憶することと、
前記プロセッサが、解析対象のシステムにより生成されたテキストログを取得することと、
前記プロセッサが、前記取得されたテキストログの系列から各テキストログの特徴量を算出することと、
前記プロセッサが、前記取得されたテキストログ系列の一部のテキストログ系列の特徴量から前記第１のモデルを用いて異常スコアの概算値を計算することと、
前記プロセッサが、前記異常スコアの概算値が規定値以下であれば、当該異常スコアの概算値に基づいて前記テキストログ系列を正常または異常のいずれかに分類することと、
前記プロセッサが、前記異常スコアの概算値が規定値より大きければ、前記取得された全てのテキストログ系列の特徴量から前記第２のモデルを用いて異常スコアの修正値を計算し、前記異常スコアの概算値と前記異常スコアの修正値との和に基づいて、前記テキストログ系列を正常または異常のいずれかに分類することとを含む、ログデータ解析方法。

【請求項5】

請求項１乃至３の何れかに記載のログデータ解析装置の前記各部としてプロセッサを機能させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明の実施形態は、ログデータ解析装置、ログデータ解析方法、およびプログラムに関する。

【背景技術】

【0002】

コンピュータシステムに不具合が発生すると、現代社会ではあらゆる領域に影響がおよぶ。インパクトを最小にするために、サービス保守業務においては異常を迅速に検知したいというニーズがある。システムの異常を検知する手法の一つに、システムを構成する装置やソフトウェア等が出力する大量のログデータを解析するという手法がある。この手法は障害発生後の原因解析においても用いられることから、解析の速度を高め、迅速に結果を得ることが求められる。

【0003】

ログデータは、テキストの形式で出力されることが多い。そこで、深層学習モデルを用いたテキスト解析技術を応用することが検討されている。例えば、非特許文献１，２に、深層学習モデルの一つであるＬＳＴＭ（Long short-term memory）を用いて異常を検知することが開示されている。これらの文献では、主に、ＬＳＴＭに入力する特徴量の設計に関する事項が提案されている。

【先行技術文献】

【非特許文献】

【0004】

【文献】Du, Min et al. “DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning.” Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (2017).

【文献】Meng, Weibin et al. “LogAnomaly: Unsupervised Detection of Sequential and Quantitative Anomalies in Unstructured Logs.” IJCAI (2019).

【文献】Adam J. Oliner, Jon Stearley. What Supercomputers Say: A Study of Five System Logs, in Proc. of IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), 2007.

【発明の概要】

【発明が解決しようとする課題】

【0005】

ログ異常を検知するのに、深層学習モデルを用いた技術を大規模なテキストログ系列にスケールさせることは難しい。このためテキストログの分量によっては、解析の結果を得るまでに長い時間がかかるという課題があった。処理時間を短縮しようとすると精度が犠牲になるし、さらに、テキストログデータは正例と負例とのいずれかに偏って分布するので、偏りが大きくなるほど精度が低下する。
この発明は、精度の低下を抑えて処理時間を短縮することの可能な技術を提供しようとするものである。

【課題を解決するための手段】

【0006】

上記課題を解決するために、この発明の一態様に係るログデータ解析装置は、単一のテキストログを対象とする第１のニューラルネットワークを学習させて得られた第１のモデルと、複数のテキストログを含むログ系列を対象とする第２のニューラルネットワークを学習させて得られた第２のモデルとを記憶する記憶部と、取得部、特徴量算出部、異常ログ検出部を具備する。取得部は、解析対象のシステムにより生成されたテキストログ系列を取得する。特徴量算出部は、取得されたテキストログの系列から各テキストログの特徴量を算出する。異常ログ検出部は、取得されたテキストログ系列を、特徴量に基づいて正常または異常のいずれかに分類する。異常ログ検出部は、取得されたテキストログ系列の一部のテキストログ系列の特徴量から第１のモデルを用いて異常スコアの概算値を計算する。異常ログ検出部は、異常スコアの概算値が規定値以下であれば、当該異常スコアの概算値に基づいてテキストログ系列を正常または異常のいずれかに分類する。異常ログ検出部は、異常スコアの概算値が規定値より大きければ、取得された全てのテキストログ系列の特徴量から第２のモデルを用いて異常スコアの修正値を計算し、異常スコアの概算値と異常スコアの修正値との和に基づいて、テキストログ系列を正常または異常のいずれかに分類する。

【発明の効果】

【0007】

この発明の一態様によれば、精度の低下を抑えて処理時間を短縮することの可能な技術を提供することができる。

【図面の簡単な説明】

【0008】

【図1】図１は、この発明の実施形態に係るログデータ解析装置を含むシステムの一例を示す図である。

【図2】図２は、図１に示されるログデータ解析装置１０の処理手順の一例を示すフローチャートである。

【図3】図３は、正例：異常、負例：正常としたときの識別問題の２×２クロス集計表を示す図である。

【図4】図４は、精度評価の結果の一例を示す図である。

【図5】図５は、効率評価の結果の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、図面を参照してこの発明に係わる実施形態を説明する。
（構成）
図１は、この発明の実施形態に係るログデータ解析装置を含むシステムの一例を示す図である。図１において、ログデータ解析装置１０は、プロセッサ１１、データベース１２、ストレージ１３、メモリ１４、および、インタフェース部１５を備える。つまりログデータ解析装置１０はコンピュータであり、例えば、パーソナルコンピュータ、あるいはサーバコンピュータ等として実現される。

【0010】

インタフェース部１５は、ネットワーク１００に接続され、例えば保守対象システム２にアクセスして種々のデータを授受する。また、インタフェース部１５は、例えばオペレータからの要求に応じて、ログデータ解析装置１０により生成された解析結果３を出力する。

【0011】

プロセッサ１１は、例えばCentral Processing Unit（ＣＰＵ）やMicro Processing Unit（ＭＰＵ）等の演算ユニットであり、メモリ１４にロードされたプログラム１４ａにより、その機能を実現する。
データベース１２は、保守対象システム２から取得されたテキストログデータ１２ａを記憶し、蓄積する。

【0012】

ストレージ１３は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の、不揮発性の記憶媒体（ブロックデバイス）である。データベース１２は、ＯＳ（Operating System）やデバイスドライバなどの基本プログラム、およびログデータ解析装置１０の機能を実現させるためのプログラム等に加えて、ＦＦＮモデル１３ａと、ＬＳＴＭモデル１３ｂとを記憶する。

【0013】

ＦＦＮモデル１３ａは、単一のテキストログを対象とするＦＦＮ（Feed Forward Network）を学習させて得られたモデルであり、ＦＦＮによる分類に用いられる。ＬＳＴＭモデル１３ｂは、複数のテキストログを含むログ系列を対象とするＬＳＴＭを学習させて得られたモデルであり、ＬＳＴＭによる分類に用いられる。
メモリ１４は、プログラム１４ａ、および、プロセッサ１１により生成された解析結果１４ｂを記憶する。

【0014】

ところで、プロセッサ１１は、実施形態に係わる機能ブロック（プログラムモジュール）として、ログデータ取得部１１ａ、特徴量算出部１１ｂ、異常ログ検出部１１ｃ、および、出力部１１ｄを備える。これらの機能ブロックは、プログラム１４ａに含まれる命令をプロセッサ１１が実行することで実現される、処理機能である。すなわち、本発明のログデータ解析装置１０はコンピュータとプログラムによっても実現できる。光学メディアなどの記録媒体にプログラムを記録して配布することが可能である。あるいは、ネットワークを通してプログラムを提供することも可能である。

【0015】

ログデータ取得部１１ａは、解析対象である保守対象システム２により生成されたテキストログ系列を、ネットワーク１００およびインタフェース部１５を介して取得し、データベース１２にテキストログデータ１２ａとして蓄積する。

【0016】

特徴量算出部１１ｂは、テキストログデータ１２ａのテキストログ系列から各テキストログの特徴量を算出する。
異常ログ検出部１１ｃは、テキストログデータ１２ａのテキストログ系列を、上記特徴量に基づいて正常または異常のいずれかに分類する。

【0017】

また、異常ログ検出部１１ｃは、テキストログデータ１２ａの一部のテキストログ系列を特徴量から、ＦＦＮモデル１３ａを用いて異常スコアの概算値を計算する。この異常スコアの概算値が規定値以下であれば、異常ログ検出部１１ｃは、この異常スコアの概算値に基づいてテキストログ系列を正常または異常のいずれかに分類する。
一方、異常スコアの概算値が規定値より大きければ、異常ログ検出部１１ｃは、取得された全てのテキストログ系列の特徴量からＬＳＴＭモデル１３ｂを用いて異常スコアの修正値を計算し、異常スコアの概算値と異常スコアの修正値との和に基づいて、テキストログ系列を正常または異常のいずれかに分類する。

【0018】

出力部１１ｄは、プロセッサ１１により算出された解析結果（テキストログの正常または異常を示すデータ）を出力する。

【0019】

（作用）
図２は、図１に示されるログデータ解析装置１０の処理手順の一例を示すフローチャートである。図２において、ログデータ解析装置１０は、解析対象のログ系列のうちから直前のログ（例えばｉ行目のログ）のみを、データベース１２のテキストログデータ１２ａから読み出し、特徴量ｔ_ｉを計算する（ステップＳ１）。次にログデータ解析装置１０は、ｉ行目のテキストログの特徴量ｔ_ｉにＦＦＮモデル１３ａを適用し（ステップＳ２）、第１特徴量としての異常スコアの概算値Ｓ_{ｃｏａｒｓｅ}を算出する（ステップＳ３）。

【0020】

次にログデータ解析装置１０は、既定の閾値（枝刈り閾値α：ハイパーパラメータ）αとＳ_{ｃｏａｒｓｅ}との大小を比較し、α＞Ｓ_{ｃｏａｒｓｅ}でなければ、つまりα≦Ｓ_{ｃｏａｒｓｅ}であれば、異常スコアの最終値Ｓ_ａｌｌにＳ_{ｃｏａｒｓｅ}を代入（Ｓ_ａｌｌ＝Ｓ_{ｃｏａｒｓｅ}）する（ステップＳ５）。次にログデータ解析装置１０は、Ｓ_ａｌｌと０との大小比較を行い（ステップＳ６）、Ｓ_ａｌｌ＞０であれば（Ｙｅｓ）、当該ログデータを異常と結論付け、解析結果に異常を出力する（ステップＳ７）。Ｓ_ａｌｌ≦０であれば（Ｎｏ）、ログデータ解析装置１０は当該ログデータを正常とし、解析結果に正常を出力する（ステップＳ８）。

【0021】

一方、ステップＳ４でα＞Ｓ_{ｃｏａｒｓｅ}であれば（Ｙｅｓ）、ログデータ解析装置１０は、ログ系列のうち既に読み出されたｉ行目のログに加えて、ｉ－１行目のログ、…、ｉ－ｗ＋１行目のログを、データベース１２のテキストログデータ１２ａから読み出し（ステップＳ９）、それぞれの特徴量ｔ_ｉ－１，…，ｔ_{ｉ－ｗ＋１}を計算する（ステップＳ９）。

【0022】

次にログデータ解析装置１０は、既に計算したｉ行目のテキストログの特徴量ｔ_ｉ、および、ステップＳ９で求められた特徴量ｔ_ｉ－１，…，ｔ_{ｉ－ｗ＋１}にＬＳＴＭモデル１３ｂを適用し（ステップＳ１０）、第２特徴量としての異常スコアの詳細値Ｓ_ｆｉｎｅを算出する（ステップＳ１１）。

【0023】

次にログデータ解析装置１０は、異常スコアの最終値Ｓ_ａｌｌにＳ_{ｃｏａｒｓｅ}＋Ｓ_ｆｉｎｅを代入（Ｓ_ａｌｌ＝Ｓ_{ｃｏａｒｓｅ}＋Ｓ_ｆｉｎｅ）し（ステップＳ１２）、処理手順はステップＳ６に至って、Ｓ_ａｌｌの値に基づく正常／異常判定が実行される。

【0024】

図２の処理手順を実装するための擬似コードによるアルゴリズムを、以下に示す。

【0025】

【数1】

【0026】

実施形態では、データセットとして例えばスーパーコンピューターシステムのテキストログ（非特許文献３）を用いることができる。このデータセットにＦＦＮモデルのみを用いて解析を行った場合と、枝刈りをせず常にＬＳＴＭモデルのみを用いて解析を行った場合とを比較する。評価方法としては、例えば正例に対するＦ１値を評価する方法（精度評価）や、推論時間を評価する方法（効率評価）がある。ここで、Ｆ１値とは、予測結果の精度を評価する手法の１つであり、次式で表すことができる。

【0027】

【数2】

【0028】

図３は、正例：異常、負例：正常としたときの識別問題の２×２クロス集計表を示す図である。ＴＰ，ＦＮ，ＦＰは、予測結果と真の結果を図３に示す表のように分類したときのデータ数を表す。

【0029】

特徴量は、（非特許文献２）と同様に、単語埋め込みの平均（埋め込みはランダムに初期化）あるいはカウントベクトル（ウィンドウ内のテンプレートＩＤ毎の出現回数）を適用することができる。

【0030】

（効果）
図４は、精度評価の結果の一例を示す図である。上記データセットを用いてＦ１値を算出すると、ＬＳＴＭモデルのみを用いた場合のＦ１値は０．５３６、ＦＦＮモデルのみを用いた場合のＦ１値は０．６２６、本実施形態でのＦ１値は０．７７９であることが示される。つまり、既存の手法と比較して精度が向上したことが示される。実施形態の構成によれば、異常検知に際してノイズとなる大半の正常データを、ＦＦＮの結果のみを用いて事前にフィルタリングすることができる。これにより、ＬＳＴＭの入力データに含まれる正常データの割合を下げ、ＬＳＴＭの精度の低下を抑止できるようになり、その結果、分類の精度が向上する。

【0031】

図５は、効率評価の結果の一例を示す図である。図５によれば、効率はＦＦＮのみを用いる場合（一点鎖線）が最も高く、ＬＳＴＭのみを用いる場合は最も低く（点線）、実施形態で開示した技術（実線）はその中間であることが示される。ＬＳＴＭのみの場合と比べて実行時間を約３．１倍高速にすることができた（バッチサイズ１）。ここで、バッチサイズは、モデルに１度にまとめて入力するデータサイズを示す量である。実施形態における効率は、バッチサイズが大きくなるに伴い悪化することが分かる。これは、バッチサイズを大きくするとバッチ内に占める枝刈りできないデータの数が増加し、枝刈りできないデータの処理がバッチ全体の処理を律速することが主な要因と考えられる。

【0032】

以上述べたように実施形態では、異常なテキストログ系列には、少数のテキストログから判断できるものと、複数のテキストログから判断できるものがあることに着目し、粗密構造を用いた異常検知モデルを構築した。すなわち、簡単な異常を検知する際には効率的なモデルを用いて検知を行い、困難な異常を検知する際には精度の高いモデルを用いた検知を行う。この手法により、深層学習系列モデルに起因する処理時間を削減することができる。また、異常検知において大半を占める正常データを事前にフィルタリングして正常データの割合を下げることで、精度を向上させることができる。

【0033】

既存の技術では、ウィンドウ内のログ系列をエンコードするために用いられるＬＳＴＭなどの系列モデルの計算コストは高く、また系列長に比例して増大していた。また、テキストログのデータにおいて、正例と負例の割合に偏りがある場合、ＬＳＴＭ等の従来手法では、偏りが大きくなるほど精度が低下するという特性がある。

【0034】

これに対し実施形態では、各ログの異常スコアを計算するモデル（ＦＦＮモデル）を用いて、直前のログの特徴量から効率的なモデルを通して異常スコアを計算し、異常スコアが閾値を超えたものについてのみ、系列モデル（ＬＳＴＭモデル）の計算を行うようにした。すなわち粗密構造を用いたログ異常検知によって深層学習系列モデルに起因する推論時間を削減することができる。また、異なるモデルに難易度の異なる検出を分担させることによって異常検知の精度が向上する。つまり、粗密構造を用いて、系列モデルの処理を部分的に迂回することで、テキストログ異常検知を高速化でき、また、テキストログ異常検知の精度を向上させることができる。

【0035】

これらのことから、実施形態によれば、精度の低下を抑えて処理時間を短縮することの可能な技術を提供することが可能になる。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

【符号の説明】

【0036】

２…保守対象システム
３…解析結果
１０…ログデータ解析装置
１１…プロセッサ
１１ａ…ログデータ取得部
１１ｂ…特徴量算出部
１１ｃ…異常ログ検出部
１１ｄ…出力部
１２…データベース
１２ａ…テキストログデータ
１３…ストレージ
１３ａ…ＦＦＮモデル
１３ｂ…ＬＳＴＭモデル
１４…メモリ
１４ａ…プログラム
１４ｂ…解析結果
１５…インタフェース部
１００…ネットワーク。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版