IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立ヴァンタラ株式会社の特許一覧

特開2024-167625決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法
<>
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図1
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図2
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図3
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図4
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図5
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図6
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図7
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図8
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図9
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図10
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図11
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図12
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図13
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図14
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図15
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図16
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図17
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図18
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図19
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図20
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図21
  • 特開-決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024167625
(43)【公開日】2024-12-04
(54)【発明の名称】決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20241127BHJP
   G06F 18/241 20230101ALI20241127BHJP
【FI】
G06N20/00 130
G06F18/241
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023083834
(22)【出願日】2023-05-22
(71)【出願人】
【識別番号】524132520
【氏名又は名称】日立ヴァンタラ株式会社
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】和久井 拓
(72)【発明者】
【氏名】増田 峰義
(57)【要約】      (修正有)
【課題】決定木の精度の良い分岐条件を求める分類条件生成装置及び方法を提供する。
【解決手段】決定木の分類条件生成装置は、決定木作成情報を収集し決定木生成用情報テーブルを作成する決定木差作成情報収集部と、決定木生成用情報テーブルから決定木を生成する決定木生成部と、生成された決定木から分類条件を作成できたとき決定木を再度作成する決定木再作成部と、作成された分類条件を分類条件テーブルへ出力する出力部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
決定木の分類条件生成装置において、
決定木作成情報を収集し決定木生成用情報テーブルを作成する決定木作成情報収集部と、
決定木生成用情報テーブルから決定木を生成する決定木生成部と、
生成された決定木から分類条件を作成できたとき決定木を再度作成する決定木再作成部と、
作成された分類条件を分類条件テーブルへ出力する出力部を備える決定木の分類条件生成装置。
【請求項2】
請求項1に記載の決定木の分類条件生成装置において、
決定木生成部は決定木を作成したとき第一の条件を満たすノードと第二の条件を満たすノードの両方が含まれていたとき、第二の条件を満たすノードまでの分岐を辿り分類条件を求め、求めた分類条件を分類条件テーブルへ追加する決定木の分類条件生成装置。
【請求項3】
請求項1に記載の決定木の分類条件生成装置において、
決定木再作成部は最初に生成された分類条件の説明変数を決定木生成用情報テーブルから削除し、
説明変数が残っていれば最初に生成された分類条件の説明変数を削除した決定木生成用情報テーブルを用いて決定木を再作成し、
作成された決定木に第一の条件を満たすノードと第二の条件を満たすノードの両方が含まれていたとき、第二の条件を満たすノードまでの分岐を辿り分類条件を求め、前記分類条件に求めた分類条件を分類条件テーブルへ追加する決定木の分類条件生成装置。
【請求項4】
請求項3に記載の決定木の分類条件生成装置において、
再作成した決定木より求めた分類条件が分類条件テーブルに含まれていたとき処理を終了する決定木の分類条件生成装置。
【請求項5】
請求項1に記載の決定木の分類条件生成装置において、
出力部は作成された決定木の分類条件と第二の条件の発生確率を対応付けて出力する決定木の分類条件生成装置。
【請求項6】
請求項1に記載の決定木の分類条件生成装置において、
分類条件の選択を受け付ける入力部と、
受付けた分類条件を満たす決定木作成情報を選択する情報選択部を備え、
出力部は作成された決定木の分類条件と情報選択部が選択した分類条件を満たす決定木作成情報を出力する決定木の分類条件生成装置。
【請求項7】
請求項1に記載の決定木の分類条件生成装置において、
分類条件の選択を受け付ける入力部と、
受付けた分類条件を満たさない決定木作成情報を選択する情報選択部を備え、
出力部は作成された決定木の分類条件と情報選択部が選択した分類条件を満たさない決定木作成情報を出力する決定木の分類条件生成装置。
【請求項8】
決定木の分類条件生成方法において、
決定木作成情報収集部が決定木作成情報を収集し決定木生成用情報テーブルを作成し、
決定木生成部が決定木生成用情報テーブルから決定木を生成し、
決定木再作成部が生成された決定木から分類条件を作成できたとき決定木を再度作成し、
出力部が作成された分類条件を分類条件テーブルへ出力する決定木の分類条件生成方法。
【請求項9】
請求項8に記載の決定木の分類条件生成方法において、
決定木生成部は決定木を作成したとき第一の条件を満たすノードと第二の条件を満たすノードの両方が含まれていたとき、第二の条件を満たすノードまでの分岐を辿り分類条件を求め、求めた分類条件を分類条件テーブルへ追加する決定木の分類条件生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、決定木を用いた高精度分類条件生成装置及び決定木を用いた高精度分類条件生成方法に関する。
【背景技術】
【0002】
故障予兆検知や異常検知において、特徴量に対する条件に基づく分割を繰り返し生成される木構造グラフで、自動生成アルゴリズムによる機械学習分析としても知られる決定木は自動生成アルゴリズムによる、収集データに基づく説明可能な検知条件の自動生成に用いられる。
【0003】
特許文献1には予測モデル説明方法が開示されており、その方法は、選択する処理と、作成する処理と、特定する処理と、再作成する処理と、出力する処理とをコンピュータが実行する。選択する処理は、予測モデルに入力されたデータセットと、データセットに対する予測モデルの予測結果とに基づいてデータセットに含まれるデータを線形分離可能な複数のモデルを選択する。
【0004】
作成する処理は、選択した複数のモデルそれぞれを葉とし、データセットに含まれるデータを分類する論理それぞれを節とする決定木を作成する。特定する処理は、作成した決定木の葉に属するデータのばらつきに基づいて、決定木の剪定する枝を特定する。
【0005】
再作成する処理は、特定した枝を剪定した決定木に対応するデータセットに基づいて決定木を再作成する。出力する処理は、再作成した決定木の各節に対応する論理を予測モデルの説明結果として出力することが開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2021-71823号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1では分類精度を低下させるデータを除去し、分類精度の高いモデルを生成する一般的な生成アルゴリズムで生成した決定木の、各ノードのデータのばらつき (分類精度の悪さ) を算出し、最もばらつきのあるノードを特定し、特定したノードに属するデータを除いて決定木を再生成する操作を繰り返し、ばらつきが所定値未満になった決定木をモデルとして採用している。
【0008】
決定木において、先に生成される分岐条件の影響で、他の分岐条件が生成されず、分類に有効な条件が一部得られない場合があり精度が悪化する。
【課題を解決するための手段】
【0009】
本発明の目的は決定木の分類条件生成装置において、決定木作成情報を収集し決定木生成用情報テーブルを作成する決定木作成情報収集部と、決定木生成用情報テーブルから決定木を生成する決定木生成部と、生成された決定木から分類条件を作成できたとき決定木を再度作成する決定木再作成部と、作成された分類条件を分類条件テーブルへ出力する出力部を備える決定木の分類条件生成装置により達成される。
【発明の効果】
【0010】
本発明によれば、決定木の精度の良い分岐条件を求めることができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施例における分類条件生成システムの例
図2】本発明の実施例におけるエラーログテーブルの例
図3】本発明の実施例における故障記録テーブルの例
図4】本発明の実施例における分類条件生成処理のフローチャートの例
図5】本発明の実施例における決定木生成用情報テーブルの例
図6】本発明の実施例における決定木生成処理のフローチャートの例
図7】本発明の実施例における決定木生成処理で生成される決定木の例
図8】本発明の実施例における決定木生成処理で生成される決定木の第一分類条件を、決定木生成用情報テーブルを用いて表した図の例
図9】本発明の実施例における決定木生成処理で生成される決定木の第二分類条件を、決定木生成用情報テーブルを用いて表した図の例
図10】本発明の実施例における決定木生成処理で生成される決定木の第三分類条件を、決定木生成用情報テーブルを用いて表した図の例
図11】本発明の実施例における分類条件テーブルの例
図12】本発明の実施例における決定木生成用情報テーブルにおける、分類条件生成の根拠となる箇所を示した図の例
図13】本発明の実施例における決定木再生成処理を説明するフローチャートの例
図14】本発明の実施例における決定木再生成処理で第一再生成決定木の生成に用いる、特徴量を削減した決定木生成用情報テーブルの例
図15】本発明の実施例における決定木再生成処理で生成される第一再生成決定木の例
図16】本発明の実施例における第一再生成決定木から得た分類条件を追加した分類条件テーブルの例
図17】本発明の実施例における決定木再生成処理で生成される第一再生成決定木の第一分類条件を、決定木生成用情報テーブルを用いて表した図の例
図18】本発明の実施例における決定木再生成処理で生成される第一再生成決定木の第二分類条件を、決定木生成用情報テーブルを用いて表した図の例
図19】本発明の実施例における決定木再生成処理で第二再生成決定木の生成に用いる、特徴量を削減した決定木生成用情報テーブルの例
図20】本発明の実施例における決定木再生成処理で生成される第二再決定木の例
図21】本発明の実施例における決定木再生成処理で生成される第二再生成決定木の第一分類条件を、決定木生成用情報テーブルを用いて表した図の例
図22】本発明の実施例における分類条件表示画面の例
【発明を実施するための形態】
【0012】
以下、本発明の実施例を図面を用いて説明する。なお、実施例を説明するための各図において、同一の構成要素にはなるべく同一の名称、符号を付して、その繰り返しの説明を省略する。
【0013】
本発明は後述する実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例および同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。
【0014】
また、実施例で説明する処理部は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することによりソフトウェアで実現してもよい。
【0015】
実施例で説明するテーブル、領域等はデータベース(DB)であっても良く主記憶メモリに記憶されたデータであっても良い。
【実施例0016】
図1は本発明の実施形態における分類条件生成システムの構成例を示すブロック図の例である。分類条件生成システムは分類条件生成装置100、監視対象システム120、入出力装置109で構成。実施例の監視対象システム120は複数のHDDを含んで構成される。発明の監視対象はHDDに限定するものではなく、機器、プラント、情報処理システム等の故障予兆検知や異常検知にも活用可能である。
【0017】
本実施例では、分かりやすい説明とするためHDDの故障予兆検知、異常検知を例に説明するが、本発明は異常検知や故障予兆検知のような2項分類だけでなく、マーケティングや医療分野のような様々な分野における2つ以上の条件による分類を行う装置、方法に適用可能である。
【0018】
分類条件生成装置100と監視対象システム120はネットワークインターフェース110経由を用いてインターネット、LAN、WAN、または専用線などの有線または無線の通信ネットワーク111で接続されている。
【0019】
この例では、分類条件生成装置100と監視対象システム120が同一の通信ネットワーク111に接続されているのもとするが、分類条件生成装置100は監視対象と別のネットワークに接続されていても良い。例えば、分類条件生成装置100のプログラムの全部または一部は、例えば、クラウドシステムがAPI (Application Programming Interface)等を介して提供するサービスによって実現してもよい。
【0020】
入出力装置109はディスプレイやタッチパネルなどの出力装置と、キーボード、マウス、タッチパネルなどの入力装置からなる
処理装置101はCPU(Central Processing Unit)、メモリ102はRAM(Random Access Memory)、ROM(Read Only Memory)など、外部記憶装置103はHDD(Hard Disc Drive)やSSD(Solid State Drive)など、ネットワークインターフェース110はNIC(Network Interface Card)、無線通信モジュール、USB (Universal Serial Interface)モジュール、又はシリアル通信モジュール等で構成される。
【0021】
分類条件生成装置100は情報収集部104、分類条件生成部105、決定木生成部106、分類条件抽出部107及び決定木再生成部108の処理部とエラーログテーブル200、故障記録テーブル300、決定木生成用情報テーブル400及び分類条件テーブル500のテーブルを外部記憶装置103に備える。
【0022】
これらの処理部はソフトウェアモジュールで構成され、CPU101によりメモリ102へローディングされ、外部記憶装置103に格納されたテーブルを参照して実行される。
【0023】
情報収集部104は、監視対象システムの情報を収集するソフトウェアモジュールである。この例では分類条件生成装置100で情報を収集しているが、監視対象システムにおいて情報を収集し、その情報を分類条件生成装置100へ送っても良い。
【0024】
分類条件生成装置100で生成された分類条件は入出力装置109によりユーザへ表示され、ユーザから当該分類条件を使用するかどうかの選択を受け付ける。
【0025】
図2は本発明の実施形態におけるエラーログテーブルの例である。エラーログテーブル200は、監視対象システム120を構成するHDDで発生したエラーを記録した情報で、エラー発生日時201,エラーが発生したHDDのHDD識別子202、発生したエラー種類を表すエラー内容203を含む。
【0026】
図3は本発明の実施形態における故障記録テーブルの例である。故障記録テーブルは、監視対象システムを構成するHDDの故障事例を記録した情報で、故障した日時を示す故障日時301と、故障したHDDのHDD識別子302を含む。
【0027】
図4は本発明の実施形態における分類条件生成処理の概要を説明するフローチャートの例である。分類条件生成処理は、例えば、分類条件生成装置100にユーザから所定の入力がされた場合、又は所定のタイミング(例えば、所定の時刻、所定の時間間隔)で実行される。
【0028】
まず、情報収集部104がエラーログテーブル200と故障記録テーブル300の情報を参照し、決定木生成用情報テーブル400を生成する(S10)。作成された決定木生成用情報テーブル400を用いて決定木生成部106が決定木を生成する(S100)。
【0029】
決定木から分類条件が生成できたら(S20)決定木再生成部108が決定木再生成をおこなう(S200)。決定木生成処理S100と決定木再生成処理S200で得られた分類条件を分類条件テーブル500に登録し、分類条件テーブル500を入出力装置109へ出力する(S30)。
【0030】
図5は本発明の実施形態における決定木生成用情報テーブルの例である。決定木生成用情報テーブル400は図4のS10で生成されるテーブルで、エラーログテーブル200と故障記録テーブル300から生成される。
【0031】
発生したエラーの種類と発生数を表すエラー情報401と、その後そのHDDが故障したか否かを示す分類402で構成される。本例では故障した場合に分類を異常とし、故障していない場合に分類を正常としている。本実施例では正常と異常の2つのカテゴリーへの分類を例に説明しているが本発明は3以上のカテゴリーへの分類へも適用可能である。
【0032】
故障したHDDの場合、故障した日付から遡り一定期間以内(例えば2週間)に発生したエラーをエラーログテーブル200で参照する。本例ではエラーの発生数を日毎にまとめて数え上げている。
【0033】
例えば、故障記録テーブル300において2023/1/10に故障が確認されているHDD-001の場合、まず、故障した日付から遡り一定期間以内(例えば2週間)に発生したエラーをエラーログテーブル200で参照すると、エラーログテーブル200の1,2,4行目がHDD-001のエラーであることが分かる。
【0034】
この3件のエラーログによると、HDD-001では2023/1/5にエラーAが3件発生しており、これは、決定木生成用情報テーブル400の1行目に対応する。同様に、2023/1/14に故障したHDD-003は、エラーログテーブル200において、6,7行目を参照すると2023/1/8にエラーAが2件発生しており、これは、決定木生成用情報テーブル400の2行目に対応する。
【0035】
一方で、決定木生成用情報テーブル400において分類が正常となっている7,8,9行目は故障していないHDDで発生したエラーの情報を表しており、本例では、故障していない場合、故障した場合の様に一定期間以内(例えば2週間)に発生したエラーに限定しない。
【0036】
本実施例は、この決定木生成用情報テーブル400の情報を、エラー情報401に基づいて、分類402通りに分類する条件を自動で生成する。つまり、エラーA,B,Cの数をヒントに、テーブルの項番1~6(異常)と7~8(正常)に分ける。このエラーA,B,Cの数に基づく分類条件は、HDDが後に故障するか否かをエラー数に基づいて判断する条件を意味する。そのため、この実施例で生成される分類条件は、HDDの故障予兆を検知する条件(閾値条件)として活用することが出来る。
【0037】
例えば、エラーAの発生数を表す401aを参照すると、値が2以上の行は全て異常に分類されている。これは、エラーAが1日に2回以上発生した場合、その後HDDが故障していることを表している。同様にエラーB,Cに関する分類条件も生成し、分類402a通りに、もしくは分類402a通りに近い分類が可能な条件を生成することが目的である。
【0038】
図6は本発明の実施形態における決定木生成処理を説明するフローチャートの例である。決定木生成用情報テーブル400を生成したのち、このテーブルから決定木生成部106が決定木を生成する処理である。
【0039】
まず、決定木生成用情報テーブル400におけるエラー情報の特徴量数を参照し、この値をNとする(S101)。次に、決定木生成用情報テーブルのエラー情報401を説明変数とし、分類402を目的変数とする高さN(エラー情報の種類の数)の決定木を自動生成アルゴリズムで生成する(S102)。図5に示した例の場合、特徴量はエラーA(401a),エラーB(401b),エラーC(401c) の3種類であり、N=3である。
【0040】
決定木のノードが全て正常、もしくは全て異常でなければ(S103)異常ノードまでの分岐を辿り、分岐条件を抽出する(S104)。そして抽出した分岐条件を分類条件テーブル500へ格納する(S105)。決定木のノードが全て正常、もしくは全て異常であれば処理を終了する。
【0041】
図7は本発明の実施形態における決定木生成処理で生成される決定木の例である。決定木は任意の決定木自動生成アルゴリズムで生成するものとする。決定木は、目的変数に指定した分類通り、もしくは分類に近くなるように、説明変数に指定したエラーの種類に基づく分類がなされる
決定木における分岐601a,601b,601cは分類条件であり、図7の例では各分岐の条件を満たす場合は左のノードへ、満たさない場合は右のノードへ分類される。説明のため601aを決定木の第一分類条件、601bを第二分類条件、601cを第三分類条件とする。
【0042】
決定木の末端のノードが分類された結果であり、正常の方が多いノードを正常分類のノード、異常の方が多いノードを異常分類のノードとする。
【0043】
図8は本発明の実施形態における決定木生成処理で生成される決定木の第一分類条件を、決定木生成用情報テーブルを用いて表した図の例である。
【0044】
決定木の第一分類条件601aは「エラーA<2」であり、これを満たす602aと満たさない602bに分類されるが、これを決定木生成用情報テーブル400で説明すると、4011に示す通りエラーAが2以上の情報4012と、それ以外の情報4013に分けられる。
【0045】
満たさない602bに分類された4012の情報の分類は全て「異常」であり、これ以上分類する必要はなく、一方満たす602aに分類された4013は「異常」と「正常」が含まれている。
【0046】
図9は本発明の実施形態における決定木生成処理で生成される決定木の第二分類条件を、決定木生成用情報テーブルを用いて表した図の例である。
【0047】
図8で4013は、次に決定木の第二分類条件601bによってさらに分類される。ここで、第二分類条件601bは、図8の4013のみを分類するため、4012には関与しない。決定木の第二分類条件601bは「エラーB<1」であり、これを満たす603aと満たさない603bに分類されるが、これを決定木生成用情報テーブル400で説明すると、図8の4013は、4021に示す通りエラーBが1以上の情報4022とそれ以外の情報4023に分けられる。
【0048】
満たす603aに分類された4023の情報の分類は全て「正常」であり、これ以上分類する必要はなく、一方満たさない603bに分類された4022の情報の分類は「正常」と「異常」が含まれている。
【0049】
図10は本発明の実施形態における決定木生成処理で生成される決定木の第三分類条件を、決定木生成用情報テーブルを用いて表した図の例である。図9と同様に、図9の4022を4032と4033に分類すると、完全に「正常」と「異常」に分類できる。
【0050】
図11は本発明の実施形態における分類条件テーブルの例である。図7に示す決定木から、異常に分類される条件を抽出した結果を分類条件テーブル500に格納する。
【0051】
決定木において、異常に分類される情報は602bか、602a→603b→604bという経路を辿る。これを条件式にすると602bは「エラーA≧2」であり、602a→603b→604bは「エラーA<2 and エラーB≧1 and エラーA≧1」となるため、異常に分類される条件は「エラーA≧2 or(エラーA<2 and エラーB≧1 and エラーA≧1)」となる。
【0052】
この式を、論理式の基本公式に則り整理すると
エラーA≧2 or (エラーA<2 and エラーB≧1 and エラーA≧1)
= (エラーA≧2 or エラーA<2) and (エラーA≧2 or (エラーB≧1 and エラーA≧1))
= エラーA≧2 or (エラーB≧1 and エラーA≧1)
に変換できる。
【0053】
そのため、図7に示す決定木から抽出できる条件、エラーA≧2 と エラーB≧1 and エラーA≧1が、501a、501bとして、分類条件テーブル500に格納される。
【0054】
図12は本発明の実施形態における決定木生成用情報テーブルにおける、分類条件生成の根拠となる箇所を示した図の例である。
・4041に着目すると、エラーAの値が2以上の場合、分類が異常となっている。そのため、分類条件として、エラーA≧2が得られることが期待できる。
・4042に着目すると、エラーAの値が1以上 かつ エラーBの値が1以上の場合、分類が異常となっている。そのため、分類条件として、エラーA≧1 and エラーB≧1 が得られることが期待できる。
・4043に着目すると、エラーBの値が2以上の場合、分類が異常となっている。そのため、分類条件として、エラーB≧2が得られることが期待できる。
・4044に着目すると、エラーCの値が2以上の場合、分類が異常となっている。そのため、分類条件として、エラーC≧2が得られることが期待できる。
・上記から、エラーA≧2、エラーA≧1 and エラーB≧1、エラーB≧2、エラーC≧2が得られることが期待できるが、図7に示す決定木からはエラーB≧2、エラーC≧2の2つが得られていない。以降に説明する決定木再生成処理S200は、これらの条件を得るための処理である。
【0055】
図13は本発明の実施形態における決定木再生成処理を説明するフローチャートの例である。1つ前の決定木において、最初に生成された分岐に現れる特徴量を特定する(S201)。このとき、1つ前の決定木とは、決定木生成処理S100において生成された図7に示す決定木であり、最初に生成される分岐とは一番上の「エラーA<2」という条件の第一分類条件601aである。そのため、ここで特定される特徴量はエラーAである。
【0056】
特定した特徴量、この例ではエラーAを決定木生成用情報から取り除き(S202)、残った特徴量数をNとする(S203)。図14にエラーAを取り除いた決定木生成用情報テーブルの様子を示す。
【0057】
Nが0の場合、すなわち特徴量がもうない場合(S204)、決定木の再生成は出来ないので処理を終了する。N>0の場合、特徴量を1つ取り除いた決定木生成用情報を用いて決定木を再生成する(S205)。
【0058】
再生成された決定木が分類出来ていない場合つまり決定木のノードが全て正常、もしくは全て異常の場合(S206)処理を終了する。決定木のノードに正常と異常の両方が含まれている場合、再生成された決定木から分類条件を抽出する(S207)。
【0059】
再生成された決定木から、新たな分類条件が得られなかった場合(再生成された決定木から得られた条件が全て、既に分類条件テーブル500に存在する場合)(S208)処理を終了する。
【0060】
分類条件テーブル500に存在しない場合、新たに得られた分類条件を分類条件テーブル500に追加し(S209)、S201の処理に戻る。
【0061】
図15にエラーAを取り除いた図14の決定木生成用情報テーブルから生成した再生成決定木の様子を示している。図16に分類条件が追加された分類条件テーブルの様子を示す。
【0062】
図17は本発明の実施形態における決定木再生成処理で生成される第一再生成決定木の第一分類条件を、決定木生成用情報テーブルを用いて表した図の例である。
【0063】
第一再生成決定木の第一分類条件701aは「エラーB<2」であり、これを満たす702aと満たさない702bに分類されるが、これを図14に示したエラーAを取り除いた決定木生成用情報テーブルで説明すると、4101に示す通りエラーBが2以上の情報4102と、それ以外の情報4103に分けられる。
【0064】
「エラーB<2」を満たさない702bに分類された4102の情報の分類は全て「異常」であり、これ以上分類する必要はなく、一方、「エラーB<2」を満たす702aに分類された4103は「異常」と「正常」が含まれている。
【0065】
図18は本発明の実施形態における決定木再生成処理で生成される第一再生成決定木の第二分類条件を、決定木生成用情報テーブルを用いて表した図の例である。
【0066】
第一再生成決定木の第二分類条件701bは「エラーC<2」であり、これを満たす703aと満たさない703bに分類されるが、これを図15に示したエラーAを取り除いた決定木生成用情報テーブルで説明すると、図17の4103は、4111に示す通りエラーCが2以上の情報4112と、それ以外の情報4113に分けられる。
【0067】
「エラーC<2」を満たさない703bに分類された4112の情報の分類は全て「異常」であり、これ以上分類する必要はなく、一方「エラーC<2」を満たす703aに分類された4113は「異常」と「正常」が含まれている。
【0068】
4113は完全に分類しきれていないが、エラーB、エラーCの値でこれ以上分類が出来ない。図15の703aに分類される4113は「異常」が2件、「正常」が3件のため分類は「正常」となる。
【0069】
図19は本発明の実施形態における決定木再生成処理で第二再生成決定木の生成に用いる、特徴量を削減した決定木生成用情報テーブルの例である。
【0070】
図14から、さらにエラーBの特徴量を取り除き、エラーCのみとなった。
【0071】
図20は本発明の実施形態における決定木再生成処理で生成される第二再決定木の例である。エラーCだけでは「正常」と「異常」に分類分けが出来ない。
【0072】
図21は本発明の実施形態における決定木再生成処理で生成される第二再生成決定木の第一分類条件を、決定木生成用情報テーブルを用いて表した図の例である。エラーCだけでは「正常」と「異常」に分類分けが出来ない。
【0073】
図22は本発明の実施例における生成した分類条件を出力する画面の例である。分類条件表示部910には閾値が設定されたエラー、閾値、決定木の生成に用いたデータの中でこの条件を満たすものが故障であった確率であり適用の判断を補助する故障確率911が含まれる。さらに生成された条件を満たす故障/稼働中HDDとそのエラー情報を提示する詳細ボタン912がエラー毎に表示される。
【0074】
複数の条件の詳細を一括で表示する詳細一括表示ボタン914、生成された条件のうち、実際の検知に用いる条件を選択する検知へ適用ボタン915を表示し対象となる分類条件をチェックボックス913で選択する。
【0075】
詳細情報表示部920はこの条件が適用されていた場合、正しく故障の予兆が検知されたHDDの情報である条件を満たす故障HDDの情報921を出力するようにしても良い。この場合、HDDの識別子、左記HDDを導入した日付、左記HDDが故障した日付、エラーが観測された日付、エラーA、エラーB等のエラー情報が表示される。
【0076】
この画面はエラーログテーブル200で予め定められた期間に対象となるエラーが発生しているHDDを求め、故障記録テーブル300で当該エラーが発生したHDDに故障が発生しているものを選択するエラー情報選択部600を設けることにより表示される。
【0077】
この条件が適用されていた場合、この条件によって誤って故障の予兆が検知されてしまっていた正常なHDDの情報である条件を満たす稼働中HDDの情報922を出力しても良い。この場合、HDDの識別子、左記HDDを導入した日付、右に表示するエラーが観測された日付、エラーA、エラーB等のエラー情報が表示される。
【0078】
これらの情報により選択した条件によって誤って検知される(偽陽性)件数の把握の他、故障はしてないもののエラーの多いHDDの把握にも活用可能となる。
【0079】
この画面はエラーログテーブル200で予め定められた期間に対象となるエラーが発生しているHDDを求め、故障記録テーブル300で当該エラーが発生したHDDに故障が発生していないものを選択するエラー情報選択部600を設けることにより表示される。
【符号の説明】
【0080】
100 分類条件生成装置、101 処理装置(CPU)、102 メモリ、103 外部記憶装置、104 情報収集部、105 分類条件生成部、106 決定木生成部、107 分類条件抽出部、108 決定木再生成部、109 入出力装置、110 ネットワークインターフェース、111 通信ネットワーク、120 監視対象システム、121,122 ハードディスク、200 エラーログテーブル、300 故障記録テーブル、400 決定木生成用情報テーブル、500 分類条件テーブル、600 エラー情報選択部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22