IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

<>
  • 特許-分類装置、分類方法、およびプログラム 図1
  • 特許-分類装置、分類方法、およびプログラム 図2
  • 特許-分類装置、分類方法、およびプログラム 図3
  • 特許-分類装置、分類方法、およびプログラム 図4
  • 特許-分類装置、分類方法、およびプログラム 図5
  • 特許-分類装置、分類方法、およびプログラム 図6
  • 特許-分類装置、分類方法、およびプログラム 図7
  • 特許-分類装置、分類方法、およびプログラム 図8
  • 特許-分類装置、分類方法、およびプログラム 図9
  • 特許-分類装置、分類方法、およびプログラム 図10
  • 特許-分類装置、分類方法、およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-10
(45)【発行日】2025-07-18
(54)【発明の名称】分類装置、分類方法、およびプログラム
(51)【国際特許分類】
   G06F 11/07 20060101AFI20250711BHJP
   G06F 16/906 20190101ALI20250711BHJP
   G06F 11/34 20060101ALI20250711BHJP
【FI】
G06F11/07 190
G06F16/906
G06F11/34 147
G06F11/07 140A
【請求項の数】 7
(21)【出願番号】P 2024519148
(86)(22)【出願日】2022-05-02
(86)【国際出願番号】 JP2022019498
(87)【国際公開番号】W WO2023214446
(87)【国際公開日】2023-11-09
【審査請求日】2024-10-09
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】NTT株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100129230
【弁理士】
【氏名又は名称】工藤 理恵
(72)【発明者】
【氏名】佐々木 幸次
(72)【発明者】
【氏名】酒井 優
(72)【発明者】
【氏名】高橋 謙輔
【審査官】西村 直史
(56)【参考文献】
【文献】国際公開第2017/081865(WO,A1)
【文献】国際公開第2016/132717(WO,A1)
【文献】特開2020-46883(JP,A)
【文献】特開2002-278762(JP,A)
【文献】国際公開第2014/125796(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/07
G06F 16/906
G06F 11/34
(57)【特許請求の範囲】
【請求項1】
監視対象サービスで発生した障害を分類する分類装置であって、
前記監視対象サービスの障害発生時の可観測性データから異常な可観測性データを抽出する抽出部と、
過去に対応したことのある既知事象ごとに、当該既知事象の可観測性データと前記異常な可観測性データとをクラスタに分類して前記既知事象のクラスタに含まれる前記異常な可観測性データの割合を算出し、前記既知事象ごとに算出した前記割合に基づいて、発生した障害を過去に対応したことのない未知事象あるいは前記既知事象のいずれかに分類する分類部を備える
分類装置。
【請求項2】
請求項1に記載の分類装置であって、
正常な可観測性データと既知事象の異常な可観測性データを教師データとして用い、可観測性データを正常な可観測性データと異常な可観測性データに分類する機械学習モデルを生成する生成部を備え、
前記抽出部は、前記障害発生時の可観測性データを前記機械学習モデルに入力して前記異常な可観測性データを抽出する
分類装置。
【請求項3】
請求項1に記載の分類装置であって、
前記既知事象を分類したラベルを付した可観測性データを格納する格納部を備え、
前記分類部は、前記格納部から同じラベルを付した可観測性データを取得し、取得した可観測性データと前記異常な可観測性データとを2つのクラスタに分類する
分類装置。
【請求項4】
請求項1に記載の分類装置であって、
前記分類部は、発生した障害を既知事象に分類した場合、別の分類方法を用いて前記異常な可観測性データが当該既知事象に分類されることを確認する
分類装置。
【請求項5】
請求項1に記載の分類装置であって、
前記可観測性データは、前記監視対象サービスから取得したデータを所定の時刻ごとに一つに結合したデータである
分類装置。
【請求項6】
監視対象サービスに発生した障害を分類する分類方法であって、
コンピュータが、
障害発生時に前記監視対象サービスから取得した可観測性データから異常な可観測性データを抽出し、
過去に対応したことのある既知事象ごとに、当該既知事象の可観測性データと前記異常な可観測性データとをクラスタに分類して前記既知事象のクラスタに含まれる前記異常な可観測性データの割合を算出し、
前記既知事象ごとに算出した前記割合に基づいて、発生した障害を過去に対応したことのない未知事象あるいは前記既知事象のいずれかに分類する
分類方法。
【請求項7】
請求項1ないし5のいずれかに記載の分類装置の各部としてコンピュータを動作させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類装置、分類方法、およびプログラムに関する。
【背景技術】
【0002】
保全オペレーションにおける保守者の判断を支援する公知の保守自動化技術として自律制御ループ方式が提案されている。自律制御ループ方式は、保全オペレーションの機能を部品化・自律化することで、各運用部品が自律的に動作する技術である。自律制御ループ方式では、対象サービスを監視し、サービスへの新機能の追加や仕様変更に対しての自律的な追従および障害発生時の自動復旧の実現を目指している。
【0003】
非特許文献1では、自律制御ループ方式においてLogs/Metrics/Tracingと呼ばれる可観測性データの情報取得方式が提案され、非特許文献2では、可観測性データの加工および障害発生時の要因探索方式について提案されている。これらの技術は、監視対象サービスから可観測性データを取得し、可観測性データを分析することで、保守者による迅速な復旧を支援できる。
【先行技術文献】
【非特許文献】
【0004】
【文献】池谷,他,“自律制御ループ方式における可観測性向上に向けた情報取得方式の提案”,信学ソサイエティ大会,B-14-4,2020
【文献】佐々木,他,“自律制御ループ方式における可観測性情報を利用した要因探索方式の提案” ,信学ソサイエティ大会,B-14-2,2021
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1、2は、データの取得方式および障害発生時の要因探索について言及しているが、障害発生時の対応方式については言及していない。あらゆる障害に対する自律的な復旧は、要因の追及、対応方針の策定などの動作を全て判断する装置が必要であるため実現が難しい。そこで、過去に保守者が対応した既知の障害については保守者の介在なく回復処理を行うことで監視対象サービスを自律的に復旧し、保守者が対応した経験のない未知の障害については障害に関連する要因を提示することで障害復旧を補助することで、迅速な復旧を目指す。
【0006】
分類に用いられるランダムフォレストなどの市中の技術では、事前にラベルを割り当てたデータを学習し、入力となるデータを事前に学習したラベルのいずれかに割り当てることが可能である。しかしながら、入力データは、学習したラベルのうちのいずれかに必ず割り当てられるので、未知の事象が既存のラベルに振り分けられてしまうという問題があった。
【0007】
本発明は、上記に鑑みてなされたものであり、発生した障害が過去に対応したことのある障害であるか、対応したことのない障害であるのかを分類することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様の分類装置は、監視対象サービスで発生した障害を分類する分類装置であって、前記監視対象サービスの障害発生時の可観測性データから異常な可観測性データを抽出する抽出部と、過去に対応したことのある既知事象ごとに、当該既知事象の可観測性データと前記異常な可観測性データとをクラスタに分類して前記既知事象のクラスタに含まれる前記異常な可観測性データの割合を算出し、前記既知事象ごとに算出した前記割合に基づいて、発生した障害を過去に対応したことのない未知事象あるいは前記既知事象のいずれかに分類する分類部を備える。
【発明の効果】
【0009】
本発明によれば、発生した障害が過去に対応したことのある障害であるか、対応したことのない障害であるのかを分類できる。
【図面の簡単な説明】
【0010】
図1図1は、本実施形態の分類装置を含む全体構成の一例を示す図である。
図2図2は、学習処理の流れの一例を示すフローチャートである。
図3図3は、既知事象データ格納部に格納された可観測性データの一例を示す図である。
図4図4は、図3の可観測性データを次元圧縮したデータの一例を示す図である。
図5図5は、可観測性データを正常データと障害データに分類する処理の流れの一例を示すフローチャートである。
図6図6は、障害発生時の可観測性データの一例を示す図である。
図7図7は、図6の可観測性データを次元圧縮したデータの一例を示す図である。
図8図8は、障害の事象を分類する処理の流れの一例を示すフローチャートである。
図9図9は、既知事象の可観測性データと障害データとを結合したデータの一例を示す図である。
図10図10は、既知事象の可観測性データと障害データとをクラスタリングした様子の一例を示す図である。
図11図11は、分類装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について図面を用いて説明する。
【0012】
[構成]
図1を参照し、本実施形態の分類装置10の構成について説明する。図1に示す分類装置10は、障害発生時の監視対象サービスの可観測性データを分析し、発生した障害が既知事象であるか未知事象であるかを判定する。図1のシステムは、障害が既知事象の場合は保守者の介在なく自律的に回復処理を行い、障害が未知事象の場合は要因探索処理を行って障害の要因を推定した結果を保守者に提示する。既知事象とは、過去に対応したことがある障害である。未知事象とは、過去に対応した経験がなく、初めて対応する障害である。
【0013】
分類装置10にはデータ格納部30が接続される。データ格納部30は、監視対象サービスを提供する管理対象から取得した可観測性データを格納する。管理対象は、例えば、サービスを提供するために用いる装置やコンテナ、装置やコンテナ上で動作するソフトウェアなどである。監視対象サービスが自律制御ループ方式を用いたシステムの場合、非特許文献1の手法により、可観測性データを自律制御ループ方式の各運用部品から取得してもよい。可観測性データとは、例えば、管理対象から取得可能なログ、メトリクス、およびトレースである。可観測性データを非特許文献2の手法を用い、管理対象ごとの可観測性データを時間単位で一つに結合してもよい。これにより、可観測性データの時刻の差を解消するとともに、管理対象のそれぞれが他の管理対象に影響を与えている可能性を考慮できる。
【0014】
分類装置10は、障害データ抽出部11、事象分類部12、および既知事象データ格納部13を備える。
【0015】
障害データ抽出部11は、障害発生時の可観測性データを正常データと障害データに分類し、障害データを抽出する。具体的には、障害データ抽出部11は、障害が発生した時間帯付近の可観測性データをデータ格納部30から取得し、機械学習モデルを用いて可観測性データのそれぞれを正常データと障害データに分類し、障害データを事象分類部12へ出力する。正常データは、監視対象サービスの管理対象のそれぞれが正常に動作しているときに取得される正常な可観測性データである。障害データは、監視対象サービスに障害が発生したとき、または障害が発生しそうなときに取得される異常な可観測性データである。機械学習モデルは、既知事象データ格納部13に格納した可観測性データを教師データとして用い、可観測性データを正常データと障害データに分類するように学習したモデルである。障害データ抽出部11は、可観測性データから障害データを抽出する際に、機械学習モデルを学習してもよい。
【0016】
事象分類部12は、障害データを既知事象ごとの可観測性データと比較し、障害が既知事象であるか未知事象であるか判定する。事象分類部12は、障害が既知事象であれば、障害に対応する既知事象を判定する。具体的には、事象分類部12は、既知事象データ格納部13から既知事象ごとに可観測性データを取得し、既知事象ごとに、障害データと既知事象の可観測性データとを合わせて「既知事象クラスタ」と「その他クラスタ」の2つのクラスタにクラスタリングする。既知事象ごとの全ての試行において障害データの多くがその他クラスタに分類された場合、事象分類部12は障害を未知事象と判定する。また、事象分類部12は、障害データが分類された割合が閾値より多い既知事象を障害の既知事象と判定する。事象分類部12は、さらに、既知事象と判定した障害データを機械学習モデルで再度分類し、判定精度を向上させてもよい。
【0017】
既知事象データ格納部13は、可観測性データに事象ラベルを付与したデータを格納する。事象ラベルは既知事象の分類を示す情報である。以下、既知事象の分類を障害種別ともいう。既知事象データ格納部13は、障害データだけでなく正常データも格納する。既知事象データ格納部13に格納された可観測性データは、可観測性データを正常データと障害データに分類する際に利用する機械学習モデルの教師データとして用いられる。また、事象分類部12が障害データの障害種別を判定する際に用いられる。
【0018】
分類装置10の分類結果は要因探索処理部50および回復処理運用部品60で利用できる。例えば、障害を未知事象に分類した場合、分類装置10は、障害データを要因探索処理部50へ送信する。要因探索処理部50は、障害データを分析し、障害の要因を推定して保守者に提示する。要因探索処理部50の処理には、例えば、非特許文献2の手法を用いることができる。障害を既知事象1-Nのいずれかに分類した場合、分類装置10は、既知事象1-Nに対応する回復処理運用部品60に障害の回復処理を指示する。回復処理運用部品60は、ソフトウェアを再起動したり、装置を再起動したりするなど、既知事象1-Nごとに決められた手順で回復処理を実行する。なお、要因探索処理部50および回復処理運用部品60を備えなくても、保守者に未知事象であるか既知事象であるかを提示することで、迅速な復旧が期待できる。
【0019】
[動作]
次に、図2のフローチャートを参照し、可観測性データを正常データと障害データに分類する機械学習モデルの学習処理の一例について説明する。図2に示す処理は、後述の可観測性データを正常データと障害データに分類する処理を実行する際に実行してもよいし、既知事象データ格納部13のデータが更新されたときに実行してもよい。
【0020】
ステップS11にて、障害データ抽出部11は、既知事象データ格納部13から可観測性データを取得する。図3に、既知事象データ格納部13に格納された可観測性データの一例を示す。図3の例では、監視対象サービスの管理対象のそれぞれから取得した可観測性データを時刻ごとに一つに結合し、可観測性データのそれぞれに事象ラベルを付与している。例えば、事象ラベルとして、正常データには0を付与し、障害データには障害種別に応じた数値を付与する。障害データ抽出部11は、可観測性データを取得した際、可観測性データの事象ラベルを正常または異常の2値に変換する。具体的には、正常データの事象ラベルを0のままとし、正常データ以外の障害データの事象ラベルを全て1に変換する。
【0021】
ステップS12にて、障害データ抽出部11は、取得した可観測性データに主成分分析を適用して次元圧縮し、固有ベクトルを算出する。可観測性データは100項目を超える種類のデータが存在することがあり、項目数が多い場合は主成分分析によりデータの次元数(図3の表の列数)を削減する。図4に、図3の可観測性データに主成分分析を適用して次元圧縮したデータの一例を示す。図4では主成分分析で得られた第1主成分(PC1)と第2主成分(PC2)を示している。第3主成分以降の主成分スコアを用いてもよい。学習処理の主成分分析で得られた固有ベクトルは、後述の可観測性データを正常データと障害データに分類する処理において分類対象の可観測性データの主成分スコアの算出に用いる。
【0022】
ステップS13にて、障害データ抽出部11は、ステップS12で次元圧縮した可観測性データを教師データとして、可観測性データを正常データと障害データに分類する機械学習モデルを学習する。例えば、障害データ抽出部11は、分類手法の一つであるランダムフォレストを使用し、可観測性データを正常データと障害データに分類する機械学習モデルを作成する。
【0023】
続いて、図5のフローチャートを参照し、障害発生時の可観測性データを正常データと障害データに分類する処理の一例について説明する。図5に示す処理は、監視対象サービスでの障害を検知した際に実行される。
【0024】
ステップS21にて、障害データ抽出部11は、データ格納部30から障害が発生した時間帯付近の可観測性データを取得する。図6に、障害発生時の可観測性データの一例を示す。図6の例では、10秒間隔で一つに結合された可観測性データを示している。
【0025】
ステップS22にて、障害データ抽出部11は、図2のステップS12で算出した固有ベクトルを用いて、ステップS21で取得した障害発生時の可観測性データを次元圧縮する。図7に、図6の可観測性データを次元圧縮した一例を示す。障害データ抽出部11は、図6の可観測性データと固有ベクトルにより、図7に示したPC1、PC2を算出する。なお、図7では、次のステップS23の判定結果も図示している。
【0026】
ステップS23にて、障害データ抽出部11は、図2の処理で学習した機械学習モデルに次元圧縮した可観測性データを入力し、可観測性データを正常データと障害データに分類する。図7の例では、矢印で示した2行の可観測性データが障害データに分類された。
【0027】
ステップS24にて、障害データ抽出部11は、障害データに分類された可観測性データの次元圧縮前の可観測性データを抽出し、事象分類部12へ出力する。具体例で示すと、障害データ抽出部11は、図6の可観測性データのうち、障害データと判定された2行分の可観測性データを事象分類部12へ出力する。
【0028】
続いて、図8のフローチャートを参照し、障害の事象を分類する処理の一例について説明する。図8に示す処理は、障害データ抽出部11から障害データを入力したときに実行される。
【0029】
ステップS31にて、事象分類部12は、既知事象データ格納部13から1つの既知事象の可観測性データを取得する。つまり、事象分類部12は、既知事象データ格納部13から同じ事象ラベルが付与された可観測性データを取得する。例えば、ループ1回目の実行では、事象ラベルが1の可観測性データを取得し、2回目の実行では、事象ラベルが2の可観測性データを取得する。正常を除く既知事象1-NのそれぞれについてステップS31からS35までの処理をN回繰り返す。
【0030】
ステップS32にて、事象分類部12は、ステップS31で取得した既知事象の可観測性データと障害データを結合する。
【0031】
ステップS33にて、事象分類部12は、結合したデータに主成分分析を適用して次元圧縮する。図9に、既知事象の可観測性データと障害データとを行方向に結合し、次元圧縮したデータの一例を示す。図9の例の上の3行のデータは既知事象データ格納部13から取得した同じ既知事象の可観測性データである。図9の例の下の2行のデータは分類対象の障害データである。
【0032】
ステップS34にて、事象分類部12は、結合したデータを2つのクラスタにクラスタリングする。クラスタリングには、例えば、教師無し学習の一つであるMinibatch K-meansを用いることができる。2つのクラスタのうち、一方のクラスタは既存事象の可観測性データを含む既知事象クラスタであり、他方のクラスタはその他クラスタである。図10に、既知事象のそれぞれについて、既知事象の可観測性データと障害データをクラスタリングした様子を示す。図10に示すように、既知事象1-Nのそれぞれについて、既知事象の可観測性データと障害データとを結合したデータを2つのクラスタにクラスタリングする。なお、事象分類部12は、既知事象の可観測性データと障害データを2つのクラスタが形成されるようにクラスタリングすることから、既知事象の障害が発生した場合、その他クラスタに既知事象の可観測性データや障害データが分類されることがある。
【0033】
ステップS35にて、事象分類部12は、障害データが既知事象クラスタに分類された割合を算出する。既知事象クラスタに多くの障害データが含まれる場合、障害はその既知事象であると推定できる。
【0034】
ステップS31からS35までの処理を既知事象1-Nのそれぞれについて実行し、既知事象1-Nそれぞれのクラスタに障害データが含まれる割合を算出する。
【0035】
ステップS36にて、事象分類部12は、既知事象1-Nごとに算出したそれぞれのクラスタに障害データが含まれる割合に基づき、発生した障害を未知事象あるいは既知事象1-Nのいずれかに分類する。具体的には、既知事象1-Nの全てにおいて障害データが既知事象クラスタに分類された割合が閾値よりも低い場合、事象分類部12は、発生した障害を未知事象に分類する。また、事象分類部12は、障害データが既知事象クラスタに分類された割合が閾値よりも高い既知事象1-Nを発生した障害の既知事象と判定する。
【0036】
事象分類部12は、発生した障害を既知事象1-Nのいずれかに分類する場合、障害データに対してランダムフォレストなどの分類を再度実行することで、障害データがその既知事象1-Nに分類されることを確認してもよい。
【0037】
以上説明したように、本実施形態は、監視対象サービスで発生した障害を分類する分類装置10であって、障害データ抽出部11と事象分類部12を備える。障害データ抽出部11は、監視対象サービスの障害発生時の可観測性データから障害データを抽出する。事象分類部12は、過去に対応したことのある既知事象ごとに、当該既知事象の可観測性データと障害データとをクラスタに分類して既知事象のクラスタに含まれる障害データの割合を算出し、既知事象ごとに算出した割合に基づいて、発生した障害を過去に対応したことのない未知事象あるいは既知事象のいずれかに分類する。これにより、監視対象サービスで発生した障害が過去に対応したことのない未知事象であるか、過去に対応したことのある既知事象であるかを判定することができ、迅速な障害復旧が可能になる。
【0038】
上記説明した分類装置10には、例えば、図11に示すような、中央演算処理装置(CPU)901と、メモリ902と、ストレージ903と、通信装置904と、入力装置905と、出力装置906とを備える汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、分類装置10が実現される。このプログラムは磁気ディスク、光ディスク、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。
【符号の説明】
【0039】
10 分類装置
11 障害データ抽出部
12 事象分類部
13 既知事象データ格納部
30 データ格納部
50 要因探索処理部
60 回復処理運用部品
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11