(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-22
(45)【発行日】2024-08-30
(54)【発明の名称】データ分析装置、データ分析システムおよびプログラム
(51)【国際特許分類】
G06F 18/26 20230101AFI20240823BHJP
G06F 18/25 20230101ALI20240823BHJP
G06F 11/34 20060101ALI20240823BHJP
G06F 16/903 20190101ALI20240823BHJP
G06F 123/02 20230101ALN20240823BHJP
【FI】
G06F18/26
G06F18/25
G06F11/34 176
G06F11/34 152
G06F16/903
G06F123:02
(21)【出願番号】P 2021026011
(22)【出願日】2021-02-22
【審査請求日】2023-10-17
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(73)【特許権者】
【識別番号】501158538
【氏名又は名称】三菱電機インフォメーションネットワーク株式会社
(74)【代理人】
【識別番号】110003166
【氏名又は名称】弁理士法人山王内外特許事務所
(72)【発明者】
【氏名】三塚 由浩
(72)【発明者】
【氏名】宮田 好邦
(72)【発明者】
【氏名】阿波 基文
(72)【発明者】
【氏名】酒井 亮佑
【審査官】多賀 実
(56)【参考文献】
【文献】国際公開第2017/154844(WO,A1)
【文献】特開2018-45403(JP,A)
【文献】阿部 秀尚 ほか,「重複系列の発生パターンに関する時系列マイニングとその医療応用」,人工知能学会誌,(社)人工知能学会,2012年03月01日,第27巻, 第2号,pp.154-161,ISSN 0912-8085
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 11/07
G06F 11/28-11/36
G06F 16/00-16/958
G06F 18/00-18/40
G06F 123/02
(57)【特許請求の範囲】
【請求項1】
系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、当該情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、前記分類クラスを示す分類値を要素とした系列データを出力する分類部と、
前記文字列の分類値を要素とした系列データおよび前記数値の分類値を要素とした系列データを一つの系列データにまとめる統合部と、
前記統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部と、
を備えたことを特徴とするデータ分析装置。
【請求項2】
前記統合部によって一つにまとめられた系列データに含まれる要素の集合に対して前記インデックスの識別値を付与したトランザクションデータを生成し、前記トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する抽出部を備え、
前記検出部は、前記抽出部によって抽出された頻出パターンの発生を検出すること
を特徴とする請求項1に記載のデータ分析装置。
【請求項3】
前記検出部は、前記トランザクションデータにおける要素の集合のうち、前記抽出部によって抽出された頻出パターンと一致するものがあるか否かに基づいて、頻出パターンの発生を検出すること
を特徴とする請求項2に記載のデータ分析装置。
【請求項4】
前記検出部によって検出された頻出パターンを要素とした系列データに基づいて、頻出パターンの発生率の推定値および頻出パターンの発生率の統計量を算出し、算出した頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、系列データには含まれない前記インデックスにおける要素を補間する補間処理部、
を備えたことを特徴とする請求項1から請求項3のうちのいずれか1項に記載のデータ分析装置。
【請求項5】
前記検出部によって検出された頻出パターンを要素とした系列データ、前記文字列を要素した系列データおよび前記数値を要素とした系列データのうちの少なくとも一つから、重要度に応じて系列データを選別し、前記情報システムに発生した現象に対する過去の作業情報のうち、選別した系列データに対応する作業情報を検索して、検索された作業情報を出力する検索処理部、
を備えたことを特徴とする請求項1から請求項4のうちのいずれか1項に記載のデータ分析装置。
【請求項6】
前記補間処理部は、
前記検出部によって検出された頻出パターンを要素とした系列データを取得して、頻出パターンの発生率を算出する発生率算出部と、
前記発生率算出部によって算出された頻出パターンの発生率を要素とした系列データには含まれない前記インデックスにおける要素の補間値を推定可能であるか否かを判定する推定可否判定部と、
前記推定可否判定部によって推定可能であると判定された要素の補間値を推定する推定部と、
前記推定可否判定部によって推定不可であると判定された要素の統計分布を表す統計量を算出する統計量算出部と、
前記推定部によって推定された補間値と前記統計量算出部によって算出された統計量とを一つにまとめ、一つにまとめた系列データにおける補間値の推定値、補間値の推定値の代表値または補間値の推定値の範囲を要素とした系列データを算出する補間データ算出部と、を備えたこと
を特徴とする請求項4に記載のデータ分析装置。
【請求項7】
前記補間データ算出部は、前記推定部によって推定された補間値、前記統計量算出部によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の前記情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出すること
を特徴とする請求項6に記載のデータ分析装置。
【請求項8】
前記検索処理部は、
前記検出部によって検出された頻出パターンを要素とした系列データ、前記文字列を要素した系列データおよび前記数値を要素とした系列データのうちの少なくとも一つから、重要度に応じて系列データを選別する選別部と、
前記情報システムに発生した現象に対する過去の作業情報のうち、選別した系列データに対応する作業情報を検索して、検索された作業情報を出力する検索部と、
を備えたことを特徴とする請求項5に記載のデータ分析装置。
【請求項9】
請求項1から請求項8のうちのいずれか1項に記載のデータ分析装置を備えたこと
を特徴とするデータ分析システム。
【請求項10】
コンピュータを、
系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、当該情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、前記分類クラスを示す分類値を要素とした系列データを出力する分類部、
前記文字列の分類値を要素とした系列データおよび前記数値の分類値を要素とした系列データを一つの系列データにまとめる統合部、
前記統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ分析装置、データ分析システムおよびプログラムに関する。
【背景技術】
【0002】
情報システムを構成する機器から出力された文字列のログデータに対して頻出パターンマイニングを適用することで、情報システムに発生した現象を分析する技術が提案されている。例えば、非特許文献1には、文字列のログデータにおける各行のデータを分類した結果に対して頻出パターンマイニングを実施することにより、分析対象の情報システムに発生した現象を分析する従来の技術が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】F. Lin, K. Muzumdar, N. P. Laptev, M.-V. Curelea, S. Lee, and S. Sankar, “Fast dimensional analysis for root cause investigation in a large-scale service environment,” in Proceedings of the ACM on Measurement and Analysis of Computing Systems (POMACS), 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1に記載された従来の技術は、頻出パターンマイニングするログデータが、分析に必要な情報が不足したデータである場合、分析対象の情報システムに発生した現象の分析精度が低下するという課題があった。
【0005】
本開示は上記課題を解決するものであり、情報システムに発生した現象の分析に必要なデータを補うことができるデータ分析装置、データ分析システムおよびプログラムを得ることを目的とする。
【課題を解決するための手段】
【0006】
本開示に係るデータ分析装置は、系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する分類部と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる統合部と、統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部を備える。
【発明の効果】
【0007】
本開示によれば、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを、一つの系列データにまとめることで、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、本開示に係るデータ分析装置は、情報システムに発生した現象の分析に必要なデータを補うことができる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態1に係るデータ分析システムの構成を示すブロック図である。
【
図2】
図2Aは、文字列を要素とした時系列データの例を示す図であり、
図2Bは、数値を要素とした時系列データの例を示すグラフであり、
図2Cは、時系列データには含まれないタイムスタンプにおける要素を補間した時系列データの例を示すグラフである。
【
図3】実施の形態1に係るデータ分析装置の動作を示すフローチャートである。
【
図4】頻出パターン分析部の構成を示すブロック図である。
【
図5】頻出パターン分析部の学習時の動作を示すフローチャートである。
【
図6】
図6Aは、文字列を要素とした時系列データの例を示す図であり、
図6Bは、数値を要素とした時系列データの例を示すグラフであり、
図6Cは、文字列の分類値を要素とした時系列データの例を示す図であり、
図6Dは、数値の分類値を要素とした時系列データの例を示す図である。
【
図7】頻出パターンの抽出処理の概要を示す図である。
【
図8】実施の形態1に係るデータ分析方法を示すフローチャートである。
【
図9】頻出パターンの検出処理の概要を示す図である。
【
図10】補間処理部の構成を示すブロック図である。
【
図11】時系列データの補間処理を示すフローチャートである。
【
図12】
図12Aは、文字列を要素とした時系列データの例を示す図であり、
図12Bは、数値を要素とした時系列データの例を示すグラフであり、
図12Cは、補間された時系列データの例を示すグラフである。
【
図13】検索処理部の構成を示すブロック図である。
【
図14】過去の作業情報の検索処理を示すフローチャートである。
【
図15】
図15Aは、記憶装置に記憶された頻出パターン情報を示す図であり、
図15Bは、過去の作業情報の例を示す図である。
【
図16】
図16Aは、実施の形態1に係るデータ分析装置の機能を実現するハードウェア構成を示すブロック図であり、
図16Bは、実施の形態1に係るデータ分析装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0009】
実施の形態1.
図1は、実施の形態1に係るデータ分析システム1の構成を示すブロック図である。
図1において、データ分析システム1は、分析対象の情報システムに発生した現象の分析を行うシステムである。情報システムは、各種の情報を取り扱うシステムであり、例えば、情報のやり取りに関連した動作を行う機器を含んで構成されている。また、情報システムには、例えば、データベース、データウェアハウス、データ統合サービス、分散型アプリケーションまたはウェブサービスを実現するコンピュータシステムがある。
【0010】
データ分析システム1は、データ分析装置2、入力装置3A、入力装置3Bおよび記憶装置4を備える。データ分析装置2は、分析対象の情報システムに関連する時系列データを取得し、取得した時系列データを用いてデータ分析を行う。
入力装置3Aは、分析対象の情報システムに関する文字列を要素とした時系列データの入力を受け付け、受け付けた文字列の時系列データをデータ分析装置2に出力する。入力装置3Bは、情報システムを構成する機器の状態を示す数値を要素とした時系列データの入力を受け付け、受け付けた数値の時系列データをデータ分析装置2に出力する。
また、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データは、系列内および系列間で要素の順序関係の比較が可能なインデックスであるタイムスタンプをそれぞれ有している。
【0011】
記憶装置4は、頻出パターンの定義情報を記憶している。定義情報が示す頻出パターンは、分析対象の情報システムから取得された時系列データの中から、データ分析装置2によって抽出された頻出パターンであってもよいし、ユーザによって設定または修正された同様の形式のデータであってもよい。さらに、記憶装置4には、情報システムに発生した現象に対する過去の作業情報と頻出パターンとが対応付けて記憶されている。
【0012】
図2Aは、文字列を要素とした時系列データの例を示す図である。頻出パターン分析部21によって取得される文字列の時系列データには、時系列内または時系列データ間で文字列の順序関係の比較が可能なタイムスタンプが設定されている。例えば、
図2Aに示す時系列データには、「Oct 10 0:00:00」というタイムスタンプと、「received xxx」という文字列が対応付けられている。タイムスタンプは、
図2Aに示す時系列内のアイテムの順序関係を比較でき、時系列データ間での要素の順序関係の比較も可能である。
【0013】
図2Bは、数値を要素とした時系列データの例を示すグラフである。頻出パターン分析部21が取得する数値の時系列データ(1)は、例えば、
図2Bに示すように、分析対象の情報システムを構成する機器の状態を表す数値と時間との関係を示すグラフで表すことができる。機器の状態を表す数値が時系列データの要素であり、時間軸の各時間がタイムスタンプである。
図2Bにおいて、時系列データ(1)は時刻T1までの時系列である。
【0014】
図2Cは、時系列データには含まれないタイムスタンプにおける要素を補間した時系列データの例を示すグラフである。
図2Cに示す時系列データ(1)には、補間処理部22によって、
図2Bに示した時系列データ(1)には含まれないタイムスタンプ、すなわち時刻T1以降のタイムスタンプにおける要素の推定値の代表値が補間されている。時系列データ(1)に補間された要素の推定値の代表値は、例えば、タイムスタンプごとの平均値(1a)、最大値(1b)および最小値(1c)である。
【0015】
データ分析装置2は、頻出パターン分析部21、補間処理部22および検索処理部23を備える。
図3は、データ分析装置2の動作を示すフローチャートである。頻出パターン分析部21は、分析対象の情報システムに関する文字列を要素とした系列データと、上記情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した時系列データを用いた頻出パターン分析を行う(ステップST1)。
【0016】
例えば、頻出パターン分析部21は、入力装置3Aによって入力が受け付けられた文字列の時系列データと入力装置3Bによって入力が受け付けられた数値の時系列データとを一つにまとめ、一つにまとめた時系列データにおける要素を、タイムスタンプが示す順序関係に基づいて並べ替える。そして、頻出パターン分析部21は、要素を並べ替えた時系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する。
【0017】
補間処理部22は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データを入力し、入力した時系列データに含まれないタイムスタンプにおける要素を補間し、補間された時系列データを出力する(ステップST2)。例えば、補間処理部22は、頻出パターン分析部21によって検出された頻出パターンの時系列データを用いて、頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを算出する。そして、補間処理部22は、頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、時系列データには含まれないタイムスタンプにおける要素を補間する。
【0018】
検索処理部23は、頻出パターン分析部21によって検出された頻出パターンに対応した現象に対する過去の作業情報を検索することにより、検索結果の作業情報を出力する(ステップST3)。例えば、検索処理部23は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データ、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データのうち少なくとも一つから、重要度に応じて時系列データを選別する。そして、検索処理部23は、記憶装置4に記憶された作業情報のうち、選別した時系列データに対応する作業情報を検索し、検索した作業情報を出力する。
【0019】
図4は、頻出パターン分析部21の構成を示すブロック図である。
図4において、頻出パターン分析部21は、文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215を備える。データ分析装置2が分析対象の情報システムに発生した現象に対応する頻出パターンを学習する学習フェーズにおいては、頻出パターン分析部21のみが動作する。頻出パターン分析部21は、分析対象の情報システムから取得された文字列の時系列データおよび数値の時系列データを、学習用データとして用いて、分析対象の頻出パターンを抽出する。
【0020】
データ分析装置2は、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを、一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。例えば、補間処理部22および検索処理部23によって生成される情報が不要な用途に限定されたデータ分析装置2は、
図4に示した頻出パターン分析部21の構成要素のみを備えていればよい。すなわち、
図4に示した頻出パターン分析部21が、データ分析装置2として機能する。
【0021】
文字列分類部211は、分析対象の情報システムに関する文字列を要素とした時系列データを取得し、取得した時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、分類クラスを示す分類値を要素とした時系列データを出力する分類部である。
例えば、文字列分類部211は、時系列データの各タイムスタンプにおける文字列のうち、予め設定された複数の文字列のテンプレートのいずれかに合致するものを分類し、合致するテンプレートがない場合は、そのタイムスタンプにおける要素はないものとする。また、文字列分類部211は、分析対象の情報システムから取得されたログデータの各行の文字列を分類する。
【0022】
数値分類部212は、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データを取得して、取得した時系列データの各タイムスタンプにおける要素を分類クラスに分類し、分類クラスを示す分類値を要素とした時系列データを出力する分類部である。数値分類部212は、取得した時系列データのタイムスタンプに関連する数値の集合、例えば、タイムスタンプの時間的近傍に存在する数値のリストを分類クラスに分類して、分類クラスを示す分類値を要素とした時系列データを出力する。
【0023】
タイムスタンプの時間的近傍とは、時系列データにおけるタイムスタンプを含む時間的な範囲である。例えば、タイムスタンプの時間的近傍は、タイムスタンプの時刻を基準とした前後3秒間というような時間的な範囲である。例えば、数値分類部212は、取得した時系列データのタイムスタンプにおける数値または数値のリストの代表値のうち、予め設定された複数の数値の区間のいずれかに属するものを分類し、合致する範囲がない場合には、そのタイムスタンプにおける要素はないものとする。また、数値分類部212は、取得した時系列データのタイムスタンプにおける数値または数値のリストが示すグラフの形状のうち、予め設定された複数の数値が示すグラフの形状に類似するものを分類する。
【0024】
系列統合部213は、文字列の分類値を要素とした系列データと、数値の分類値を要素とした系列データとを一つの系列データにまとめる統合部である。
例えば、系列統合部213は、文字列の分類値を要素とした系列データと数値の分類値を要素とした系列データとをタイムスタンプが示す時間方向に結合し、タイムスタンプが示す順序関係に従い要素を並べ替えた時系列データを生成する。
これにより、文字列形式のログデータには含まれていない、分析対象の情報システムに発生した現象に関する情報が、機器の状態を表す数値の時系列データに由来するデータによって補われる。
以下の説明において、時系列データの要素または要素のリストの分類値を、アイテムと記載する。
【0025】
頻出パターン抽出部214は、系列統合部213から出力された時系列データに含まれるアイテムの集合に対してタイムスタンプの識別値を付与したトランザクションデータを生成し、トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する抽出部である。例えば、頻出パターン抽出部214は、アイテムの集合における部分的な集合の発生頻度に基づいて、上記時系列データに頻出していると判定されたアイテムの組み合わせを、頻出パターンとして抽出する。
【0026】
頻出パターンは、アイテムの順不同な組み合わせであるが、それを相関ルールとして条件部と結論部に分けて表してもよい。また、条件部および結論部のそれぞれをさらに頻出パターンとして扱うことも可能である。例えば、頻出パターンには、アイテムの組み合わせに含まれる特定のアイテムの集合を、頻出パターンマイニングの相関ルールにおける条件部とし、残りのアイテムの集合を相関ルールにおける結論部とし、条件部が成立するときに結論部が発生する確信度を表す数値を付与したものを用いてもよい。例えば、トランザクションデータ{a,b,c,d,e,f}の中での頻出パターンとしての「アイテムの順不同な組み合わせ」が{a,b,c,d}であり、その中の条件部が{a,c}である場合、「残りのアイテムの集合」である{b,d}が結論部となる。
なお、頻出パターンは、分析対象の情報システムに何らかの現象が発生したことにより頻出するようになったアイテムの集合であり、その中の一部分のアイテムの集合に対してその要因を示すデータとして活用することができる。
【0027】
なお、アイテムの集合は、重複のないアイテムの順不同な組み合わせである。例えば、時系列データにおける個々のタイムスタンプの時間的近傍に含まれる要素のアイテムのリストからアイテムの重複を取り除くことにより、時系列データからアイテムの集合を生成することができる。また、頻出パターン抽出部214は、時系列データを用いてトランザクションデータを生成し、生成したトランザクションデータに対してアソシエーション分析を実施することにより、頻出パターンを抽出することができる。
【0028】
トランザクションデータは、アイテムの集合の発生事象ごとにアイテムの集合に識別値を付与して区別したデータである。例えば、物品販売の会計処理において、購入品の組み合わせがアイテムの集合であり、アイテムの集合に付与された会計処理の処理番号により管理される購入履歴データが、頻出パターンマイニングが行われる対象のトランザクションデータである。
【0029】
頻出パターン検出部215は、系列統合部213から出力された時系列データのうち、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部である。例えば、頻出パターン検出部215は、時系列データを用いてトランザクションデータを生成し、生成したトランザクションデータに含まれるアイテムの集合と、記憶装置4に記憶された頻出パターンの定義情報とを比較する。記憶装置4に記憶された頻出パターンの定義情報に合致するアイテムの集合がある場合に、頻出パターン検出部215は、分析対象の情報システムから取得された時系列データに頻出パターンが発生したと判定する。
【0030】
頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを補間処理部22に出力する。
頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部23に出力する。
【0031】
また、頻出パターン検出部215は、頻出パターンに属さないアイテムの組み合わせであって学習フェーズに比べて発生頻度の高いアイテムの集合を要素とした時系列データを生成し、生成した時系列データを検索処理部23に出力する。さらに、頻出パターン検出部215は、相関ルールにおける条件部、結論部、および、条件部が成立するときに結論部が発生する確信度の組み合わせで頻出パターンが表現される場合、条件部のみが存在し結論部が存在しない頻出パターンの識別値を要素とした時系列データを、検索処理部23に出力する。
【0032】
補間処理部22または検索処理部23がない場合、頻出パターン検出部215から補間処理部22または検索処理部23に出力される上記時系列データは、情報システムの分析支援情報として表形式またはグラフ形式で表示装置に表示することにより、利用者に提示することも可能である。
【0033】
図5は、頻出パターン分析部21の学習時の動作を示すフローチャートであり、データ分析装置2が分析対象の情報システムに発生した現象に対応する頻出パターンを学習する学習フェーズの動作を示している。
文字列分類部211は、入力装置3Aが受け付けた文字列を要素とした時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、数値分類部212は、入力装置3Bが受け付けた数値を要素とした時系列データの各タイムスタンプにおける数値を分類クラスに分類する(ステップST1a)。文字列分類部211と数値分類部212とは、互いに独立して動作し、どちらの動作が先行してもよいし、並行して動作してもよい。
【0034】
図6Aは、文字列を要素とした時系列データの例を示す図である。文字列分類部211は、例えば、
図6Aに示す時系列データを取得する。
図6Bは、数値を要素とした時系列データの例を示すグラフである。数値分類部212は、例えば、
図6Bに示す時系列データを取得する。
【0035】
図6Cは、文字列の分類値を要素とした時系列データの例を示す図である。文字列分類部211は、
図6Aに示す時系列データの各タイムスタンプにおける文字列を分類クラスに分類すると、分類クラスを示す分類値を要素とした、
図6Cに示すような時系列データを出力する。例えば、
図6Aに示す時系列データにおける、単語「received」を含む文字列である「received xxx」および「received yyy」の分類値は「L3」であり、単語「sent」を含む文字列である「sent abc」および「sent abd」の分類値は「L5」である。文字列分類部211は、
図6Cに示すように、文字列の分類値を要素とした時系列データを生成し、生成した時系列データを系列統合部213に出力する。
【0036】
図6Dは、数値の分類値を要素とした時系列データの例を示す図である。数値分類部212は、
図6Bに示す時系列データの各タイムスタンプにおける数値を分類クラスに分類すると、分類クラスを示す分類値を要素とした、
図6Dに示すような時系列データを出力する。例えば、
図6Bに示すグラフにおける、各時刻を示すタイムスタンプの時間的近傍に存在する数値が分類されて、分類値「M3」などが付与される。数値分類部212は、
図6Dに示すように、数値の分類値を要素とした時系列データを生成し、生成した時系列データを系列統合部213に出力する。
【0037】
次に、系列統合部213は、文字列の分類値を要素とした系列データと、数値の分類値を要素とした系列データとを一つの系列データにまとめる統合処理を行う(ステップST2a)。
図7は、頻出パターンの抽出処理の概要を示す図である。例えば、系列統合部213は、
図6Cに示す文字列の分類値を要素とした時系列データと、
図6Dに示す数値の分類値を要素とした時系列データとを一つにまとめる、タイムスタンプに従って順序関係を並べ替えることにより、
図7の左側に示すような、いわゆる統合された時系列データを算出する。
【0038】
図7の左側に示す時系列データにおいては、統合される前の両方の時系列データに含まれるタイムスタンプには、文字列の分類値と数値の分類値とが設定され、統合前の一方の時系列データに含まれていなくても、他方の時系列データに含まれるタイムスタンプについては分類値が設定される。すなわち、統合された時系列データは、一方の時系列データと他方の時系列データとが互いのアイテムを補間するデータとなる。
【0039】
頻出パターン抽出部214は、系列統合部213から出力された時系列データに含まれるアイテムの集合に対してタイムスタンプの識別値を付与したトランザクションデータを生成し、トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する(ステップST3a)。
【0040】
例えば、頻出パターン抽出部214は、
図7の右側に示すように、アイテム「M0」のタイムスタンプの時間的近傍に、
図7の左側に示す時系列データに頻出しているアイテム「L3」および「L5」が存在するので、これらの集合を頻出パターン「Pattern1」として抽出する。頻出パターン抽出部214は、同様の手順で、アイテム「L3」および「L5」の集合である、頻出パターン「Pattern2」を抽出し、アイテム「L1」、「M4」、「M5」および「M6」の集合である、頻出パターン「Pattern3」を抽出する。
【0041】
頻出パターン抽出部214は、頻出パターンの抽出処理に、ニューラルネットワーク等を用いた機械学習を行ってもよい。例えば、頻出パターン抽出部214は、
図7の左側に示す時系列データを入力とし、分析対象の情報システムにおける頻出パターンを出力する学習モデルを用いる。頻出パターン分析部21が、学習フェーズにおいて、
図5に示した一連の処理を繰り返す。
図5の処理を繰り返した際に、分析対象の情報システムから取得された時系列データを学習用データとして、頻出パターン抽出部214は、当該情報システムにおける頻出パターンを学習する。頻出パターン抽出部214によって抽出された頻出パターンの定義情報は、記憶装置4に記憶される。
【0042】
データ分析装置2は、分析対象の情報システムの状態が文字列形式で表されたログデータに加え、当該情報システムを構成する機器の状態を直接表す数値の時系列データを用いて分析処理を行う。これにより、学習結果の頻出パターンが詳細化されるので、頻出パターンを用いて生成され、推論フェーズにおいて利用される、情報システムの分析支援情報を詳細化することができる。
【0043】
図8は、実施の形態1に係るデータ分析方法を示すフローチャートであり、
図3のステップST1の処理の詳細を示している。
図8の一連の処理は、推論フェーズにおける頻出パターン分析部21の動作である。なお、
図8におけるステップST1bおよびステップST2bは、
図5におけるステップST1aおよびステップST2aと同じ処理であるので、説明を省略する。
【0044】
推論フェーズにおいては、頻出パターン分析部21が単独に動作するか、あるいは、頻出パターン検出部215から出力された時系列データを用いて補間処理部22または検索処理部23が動作する。さらに、推論フェーズにおいては、頻出パターン抽出部214は動作しない。頻出パターン検出部215は、分析対象の情報システムから取得された時系列データが、学習フェーズにおいて得られた頻出パターンと一致するか否かに基づいて、分析対象の情報システムにおける頻出パターンの発生が検出される。
【0045】
頻出パターン検出部215は、系列統合部213から出力された時系列データのうち、頻出する要素の組み合わせである頻出パターンの発生を検出する(ステップST3b)。例えば、頻出パターン検出部215は、入力した時系列データを用いてトランザクションデータを生成し、トランザクションデータに含まれるアイテムの集合と記憶装置4に記憶された頻出パターンとが比較される。
【0046】
図9は、頻出パターンの検出処理の概要を示す図である。例えば、
図9の左側に示す統合された時系列データに含まれるアイテムの集合には、
図9の右側に示すように、記憶装置4に記憶された頻出パターンである「Pattern1」、「Pattern2」および「Pattern3」と一致するものがある。これにより、頻出パターン検出部215は、分析対象の情報システムにおける頻出パターンの発生を検出する。
【0047】
頻出パターン検出部215は、分析対象の情報システムにおける頻出パターンの発生を検出すると、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを補間処理部22に出力する。また、頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部23に出力する。
【0048】
また、頻出パターン検出部215は、分析対象の情報システムにおける頻出パターンの発生を検出すると、頻出パターンに属さないアイテムの組み合わせであって学習フェーズに比べて発生頻度の高いアイテムの集合を要素とした時系列データを生成し、生成した時系列データを検索処理部23に出力する。さらに、頻出パターン検出部215は、相関ルールにおける条件部、結論部、および、条件部が成立するときに結論部が発生する確信度の組み合わせで頻出パターンが表現される場合、条件部のみが存在し結論部が存在しない頻出パターンの識別値を要素とした時系列データを、検索処理部23に出力する。
【0049】
前述したように、時系列データごとに分類処理を実施した後に、それぞれの分類値を、一つの時系列データにまとめて頻出パターンマイニングを実施することで、複数の時系列データ間でそれぞれが要素を持つタイムスタンプを一致させる必要がない。すなわち、分析に用いる一つの時系列データの利用範囲を広げることが可能である。
【0050】
図10は、補間処理部22の構成を示すブロック図である。
図10において、補間処理部22は、頻出パターン発生率算出部221、推定可否判定部222、推定部223、統計量算出部224および補間データ算出部225を備える。頻出パターン発生率算出部221は、頻出パターン検出部215によって検出された頻出パターンを要素とした系列データを取得して頻出パターンの発生率を算出する発生率算出部である。例えば、頻出パターン発生率算出部221は、個々のタイムスタンプの時間的近傍に含まれる頻出パターンの発生回数を、時間的近傍を規定する時間範囲の総時間で除算した値を、頻出パターンの発生率として算出する。頻出パターンの発生率は、頻出パターンごとに算出される。
【0051】
推定可否判定部222は、頻出パターン発生率算出部221によって算出された頻出パターンの発生率を要素とした系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する。例えば、推定可否判定部222は、頻出パターンの発生率を要素とした時系列データにおける要素の部分的な範囲に対して、当該時系列データには含まれないタイムスタンプにおける要素の補間値が推定可能か否かを判定し、判定結果を示す0か1の判定値を、上記部分的な範囲に付与して出力する。
【0052】
推定可否判定部222は、頻出パターン発生率算出部221によって算出された頻出パターンの発生率を要素とした系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する。例えば、推定可否判定部222は、頻出パターンの発生率の時系列データを、モデル調整用データとモデル検証用データとに分割して、機械学習による時系列予測モデルの内部パラメータを、モデル調節用データを用いて調整し、モデル検証用データを用いて推定の精度を測定する。そして、推定可否判定部222は、推定の精度が許容閾値以上であると推定可能と判定し、推定の精度が許容閾値未満であれば推定不可と判定する。推定可能か否かを示す0または1の判定値は、頻出パターンの発生率を要素とした系列データに付与される。
【0053】
推定部223は、推定可否判定部222によって推定可能であると判定された要素の補間値を推定する。例えば、推定部223は、頻出パターンの発生率を要素とした時系列データにおける推定可能を示す判定値(例えば、判定値=1)が付与された部分について、当該時系列データには含まれないタイムスタンプにおける要素の補間値を推定する。推定部223は、例えば、推定可否判定部222によって用いられた時系列予測モデルと同じモデルを用いて、要素の補間値を推定する。
【0054】
統計量算出部224は、推定可否判定部222によって推定不可であると判定された要素の統計分布を表す統計量を算出する。例えば、統計量算出部224は、頻出パターンの発生率を要素とした時系列データにおける、補間値の推定不可を示す判定値が付与された部分に存在する要素の統計分布を表す統計量を算出する。統計量は、例えば平均値または分散である。
【0055】
補間データ算出部225は、推定部223によって推定された補間値と、統計量算出部224によって算出された統計量とを一つにまとめて、一つにまとめた時系列データにおける補間値の推定値、補間値の推定値の代表値または補間値の推定値の範囲を要素とした時系列データを算出する。例えば、補間データ算出部225は、頻出パターンの発生率を要素とした時系列データごとに、推定部223によって推定された補間値と統計量算出部224によって算出された統計量とを一つにまとめ、補間値の推定値、補間値の推定値の代表値および補間値の推定値の範囲を、要素とした時系列データを算出する。
【0056】
また、補間データ算出部225は、推定部223によって推定された補間値、統計量算出部224によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出する。例えば、数値の補間値の平均値、最大値および最小値が算出される。
【0057】
図11は、時系列データの補間処理を示すフローチャートであり、
図3のステップST2の処理の詳細を示している。頻出パターン発生率算出部221は、頻出パターン検出部215によって検出された頻出パターンを要素とした時系列データを取得し、時系列データに含まれる頻出パターンの発生率を算出する(ステップST1c)。例えば、頻出パターン発生率算出部221は、頻出パターンの識別値を要素とした時系列データを用いて、各タイムスタンプの時間的近傍における頻出パターンごとの発生率を算出する。
【0058】
続いて、推定可否判定部222は、頻出パターンの発生率を要素とした時系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する(ステップST2c)。例えば、推定可否判定部222は、頻出パターンの発生率を要素とした時系列データに含まれないタイムスタンプにおける要素の補完値を推定可能であるか否かを判定すると、当該時系列データにおける該当部分に対して判定結果を示す0か1の判定値を付与する。
【0059】
要素の補完値を推定可能であると判定された場合(ステップST2c;YES)、推定部223は、補間値を推定する(ステップST3c)。例えば、推定部223は、時系列データにおける、推定可能を示す判定値が付与された部分の要素の補間値を推定する。
【0060】
要素の補完値を推定不可であると判定されると(ステップST2c;NO)、統計量算出部224は、要素の統計分布を表す統計量を算出する(ステップST4c)。例えば、統計量算出部224は、頻出パターンの発生率を要素とした時系列データにおける、補間値の推定不可を示す判定値が付与された部分に存在する要素の統計分布を表す統計量を算出する。推定部223および統計量算出部224の各処理は、互いに独立して実行されるので、どちらが先行してもよいし、並行して実行されてもよい。
【0061】
補間データ算出部225は、推定部223によって推定された補間値と、統計量算出部224によって算出された統計量とを一つにまとめた時系列データにおける、補間値、補間値の代表値または補間値の範囲を要素とした時系列データを算出し、補間された時系列データとして出力する(ステップST5c)。さらに、補間データ算出部225は、推定部223によって推定された補間値、統計量算出部224によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出する。補間データ算出部225は、これらの処理を互いに独立して実施するので、いずれか一方の処理を先行させてもよいし、両者を並行して実施してもよい。
【0062】
図12Aは、文字列を要素とした時系列データの例を示す図である。
図12Bは、数値を要素とした時系列データ(1)および時系列データ(2)の例を示すグラフである。頻出パターン分析部21は、例えば、
図12Aおよび
図12Bに示す各時系列データを取得し、頻出パターンの識別値の時系列データを、補間処理部22に出力する。
【0063】
図12Cは、補間された時系列データの例を示すグラフである。補間データ算出部225は、
図12Cの上段に示すように、頻出パターンの発生率を要素とした時系列データAにおける、頻出パターンの発生率の補間値の推定値の代表値である平均値A1、最大値A2および最小値A3算出し、これらを要素とした時系列データを算出する。
【0064】
補間データ算出部225は、
図12Cの中段に示すように、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データ(1)における、要素の補間値の推定値の代表値である平均値(1a)、最大値(1b)および最小値(1c)算出し、これらを要素とした時系列データを算出する。さらに、補間データ算出部225は、
図12Cの下段に示すように、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データ(2)における、要素の補間値の推定値の代表値である平均値(2a)、最大値(2b)および最小値(2c)算出し、これらを要素とした時系列データを算出する。
【0065】
頻出パターン分析部21によって検出された頻出パターンは、分析対象の情報システムに発生した現象と紐付くものである。このため、頻出パターンに注目して情報システムに発生する現象を分析することにより、当該情報システムに外乱的に発生する現象を、効率よく分析することが可能である。さらに、頻出パターンを用いることで、情報システムの挙動の予測精度が向上する。例えば、時系列データに含まれないタイムスタンプの要素の補間値の推定値は、未来のタイムスタンプにおける要素を予測したものに相当する場合がある。この場合、補間データ算出部225が、補間値の推定値の代表値または範囲を算出することにより、要素の予測値の誤差範囲を提示することが可能である。
【0066】
図13は、検索処理部23の構成を示すブロック図である。
図13において、検索処理部23は、頻出パターン選別部231および検索部232を備える。頻出パターン選別部231は、頻出パターン検出部215によって検出された頻出パターンを要素とした時系列データ、入力装置3Aによって受け付けられた文字列を要素した時系列データ、および入力装置3Bによって受け付けられた数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて時系列データを選別する選別部である。
【0067】
頻出パターンの識別値を要素とした時系列データにおいて、重要度には、例えば、分析対象の情報システムにおける要素の発生頻度と頻出パターンの学習フェーズで用いられた時系列データにおける上記要素の発生頻度との比の値1からの乖離量を用いることができる。例えば、両者の比が1.2である場合、この比における値1からの乖離量は、1.2-1.0=0.2である。
また、頻出パターンに分類できないアイテムの組み合わせを要素とした時系列データについては、例えば、頻出パターンに分類できないアイテムの発生数を、重要度として用いることができる。さらに、条件部のみが成立する頻出パターンの識別値を要素とした時系列データについては、例えば、該当する頻出パターンについて学習フェーズで算出した確信度を、重要度として用いることができる。
【0068】
検索部232は、分析対象の情報システムに発生した現象に対する過去の作業情報のうち、頻出パターン選別部231によって選別された時系列データに対応する作業情報を検索し、検索された作業情報を出力する。過去の作業情報は、情報システムに発生した現象に対して利用者が過去に行った判断または作業内容が登録された情報である。
【0069】
図14は、過去の作業情報の検索処理を示すフローチャートであり、
図3のステップST3の処理の詳細を示している。頻出パターン選別部231は、頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて時系列データを選別する(ステップST1d)。例えば、頻出パターン選別部231は、頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうち、利用者に提示する部分を、重要度を用いて選別する。
【0070】
検索部232は、記憶装置4に記憶された過去の作業情報のうち、頻出パターン選別部231によって選別された時系列データに対応する作業情報を検索し、検索された作業情報を出力する(ステップST2d)。例えば、検索部232は、頻出パターンの識別値のリスト、アイテムの組み合わせのリストまたは条件部のみが成立する頻出パターンの識別値のリストにおける、同一の頻出パターンまたはアイテムの組み合わせに基づいて、記憶装置4に記憶されている頻出パターンに対応付けられた過去の作業情報を検索し、検索結果の作業情報を出力する。
【0071】
なお、検索部232が検索に利用した頻出パターンまたは頻出パターン以外のアイテムの組み合わせが、利用者によって分析支援情報として利用された場合、検索部232は、これらを用いた作業における利用者の判断または作業内容を示す作業情報を生成し、生成した作業情報を記憶装置4に記憶する。また、記憶装置4に記憶する作業情報は、利用者が入力装置を用いて作成したものであってもよい。
【0072】
図15Aは、記憶装置4に記憶された頻出パターン情報を示す図である。
図15Bは、過去の作業情報の例を示す図である。例えば、記憶装置4には、
図15Aに示すような、頻出パターンと、この頻出パターンに対応する現象に対する過去の作業情報とが、頻出パターン情報として記憶されている。検索部232は、頻出パターン選別部231によって頻出パターン「Pattern1」および「Pattern3」を含んだ時系列データが選別されると、頻出パターン「Pattern1」および「Pattern3」に基づいて、記憶装置4に記憶されている過去の作業情報を検索する。これにより、
図15Bに示すような作業情報232Aが、記憶装置4から検索され、利用者に提示される。
【0073】
検索部232は、記憶装置4に記憶された過去の作業情報のうち、頻出パターン選別部231によって選別された時系列データに対応する作業情報を検索する。これにより、過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題箇所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また、担当者ごとの対応作業の正確さのばらつきを抑えることができる。
【0074】
これまでの説明は、タイムスタンプをインデックスとした時系列データについて示したが、データ分析装置2は、これに限定されるものではなく、一般に系列内及び系列間で順序関係の比較が可能なインデックスを持つ文字列の系列データおよび数値の系列データについても取り扱うことができる。
【0075】
例えば、データ分析装置2は、画像データにおける画素位置の順序関係を定義した番号をインデックスとして、インデックスである番号で特定される画素値(数値)を要素とした系列データと、画素に付与された文字列からなる説明データ(文字列)を要素とした系列データとを取得し、これらの系列データに対して前述したデータ分析を実施する。このデータ分析結果は、画像の分析または不良画素の補間処理に活用することができる。
また、分析対象の情報システムのログデータおよび情報システムを構成する機器の状態を表す数値に対応したタイムスタンプを、アルファベットなどの順序が定義された記号に置き換えた系列データであっても、データ分析装置2は、前述したデータ分析を実施することができる。
【0076】
データ分析システム1において、データ分析装置2と記憶装置4との間は、通信ネットワークで接続されていてもよい。
【0077】
また、データ分析装置2によるデータ分析処理は、共通の系列データを取り扱う他の分析処理と組み合わせると、分析結果の説明性がさらに向上する。例えば、情報システムの文字列形式のログデータを入力する異常検知装置がある場合、データ分析装置2が、異常検知装置が取得する同じログデータまたは同時に取得された他のログデータあるいは数値データに対して前述したデータ分析を実施する。データ分析装置2によるデータ分析結果は、異常検知装置が警告を発した現象の要因を分析するための分析支援情報となり得る。例えば、要因の事象が将来的に発生する頻度を予測することにより、情報システムが障害に至る前に検討する措置の内容を提供することができる。
【0078】
データ分析装置2が
図4に示した頻出パターン分析部21のみで構成される場合、データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能は、処理回路によって実現される。すなわち、データ分析装置2は、
図8のステップST1bからステップST3bまでの処理を実行する処理回路を備える。処理回路は、専用のハードウェアであってもよいし、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
【0079】
図16Aは、データ分析装置2の機能を実現するハードウェア構成を示すブロック図である。
図16Bは、データ分析装置2の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。
図16Aおよび
図16Bにおいて、入力インタフェース100は、入力装置3Aおよび3Bからデータ分析装置2へ出力される時系列データを中継する。出力インタフェース101は、例えば、データ分析装置2から、補間処理部22を備える装置へ出力される時系列データを中継する。
【0080】
処理回路が、
図16Aに示す専用のハードウェアの処理回路102である場合、処理回路102は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、または、これらを組み合わせたものが該当する。データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能は、別々の処理回路で実現されてもよいし、これらの機能がまとめて1つの処理回路で実現されてもよい。
【0081】
処理回路が
図16Bに示すプロセッサ103である場合は、データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。なお、ソフトウェアまたはファームウェアは、プログラムとして記述されてメモリ104に記憶される。
【0082】
プロセッサ103は、メモリ104に記憶されたプログラムを読み出して実行することにより、データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能を実現する。例えば、データ分析装置2は、プロセッサ103によって実行されるときに、
図8に示すフローチャートにおけるステップST1bからステップST3bの処理が結果的に実行されるプログラムを記憶するためのメモリ104を備える。これらのプログラムは、文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215が行う各処理の手順または方法をコンピュータに実行させる。メモリ104は、コンピュータを文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
【0083】
メモリ104は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically-EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。
【0084】
また、データ分析装置2が備える、文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能の一部は専用ハードウェアで実現され、一部はソフトウェアまたはファームウェアで実現されてもよい。例えば、文字列分類部211および数値分類部212は、専用のハードウェアである処理回路102によってその機能が実現され、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215は、プロセッサ103がメモリ104に記憶されたプログラムを読み出し実行することによりその機能が実現される。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって、上記機能を実現することができる。
【0085】
以上のように、実施の形態1に係るデータ分析装置2は、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する文字列分類部211および数値分類部212と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる系列統合部213と、系列統合部213によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する頻出パターン検出部215を備える。
分析対象の情報システムに関する文字列を要素とした系列データと情報システムを構成する機器の状態を示す数値を要素とした系列データとを一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、データ分析装置2は、分析対象の情報システムに発生した現象の分析に必要なデータを補うことができる。
【0086】
実施の形態1に係るデータ分析装置2は、頻出パターン分析部21に加え、補間処理部22を備える。補間処理部22は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データに基づいて、頻出パターンの発生率の推定値および頻出パターンの発生率の統計量を算出し、算出した頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、時系列データには含まれないタイムスタンプにおける要素を補間する。頻出パターンは、分析対象の情報システムに発生した現象と紐付くものであるため、頻出パターンに注目して情報システムに発生する現象を分析することにより、当該情報システムに外乱的に発生する現象を、効率よく分析することが可能である。さらに、頻出パターンを用いることで、情報システムの挙動の予測精度が向上する。
【0087】
実施の形態1に係るデータ分析装置2は、頻出パターン分析部21に加え、検索処理部23を備える。検索処理部23は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて系列データを選別して、分析対象の情報システムに発生した現象に対する過去の作業情報のうち、選別した時系列データに対応する作業情報を検索して、検索された作業情報を出力する。
過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題個所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また担当者ごとの対応作業の正確さのばらつきを抑えることができる。
【0088】
なお、実施の形態の任意の構成要素の変形もしくは実施の形態の任意の構成要素の省略が可能である。
【符号の説明】
【0089】
1 データ分析システム、2 データ分析装置、3A,3B 入力装置、4 記憶装置、21 頻出パターン分析部、22 補間処理部、23 検索処理部、100 入力インタフェース、101 出力インタフェース、102 処理回路、103 プロセッサ、104 メモリ、211 文字列分類部、212 数値分類部、213 系列統合部、214 頻出パターン抽出部、215 頻出パターン検出部、221 頻出パターン発生率算出部、222 推定可否判定部、223 推定部、224 統計量算出部、225 補間データ算出部、231 頻出パターン選別部、232 検索部、232A 作業情報。