IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2022-128164データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法
<>
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図1
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図2
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図3
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図4
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図5
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図6
  • 特開-データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022128164
(43)【公開日】2022-09-01
(54)【発明の名称】データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20220825BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021026538
(22)【出願日】2021-02-22
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】中村 信之
(72)【発明者】
【氏名】土江 康太
(57)【要約】
【課題】 データ供給源から供給されるデータについて学習モデルを用いた判定手段によりデータ供給源の状態を判定する場合であっても、判定開始当初より所定以上の精度の判定結果を出力する。
【解決手段】 本発明は、データ供給源より時系列ごとに供給される入力データに基づきデータ供給源の状態を判定した判定結果を出力するデータ分析装置に関する。そして、本発明のデータ分析装置は、教師データセット群から所定数の評価用データセット群を複数パターンを取得して学習処理により学習モデルを生成する手段と、学習モデルを用いて入力データを判定する判定手段と、生成した学習モデルを用いた判定結果を比較して評価する評価処理を行い、評価結果に基づいていずれかの学習モデルを判定手段にセットする学習モデルとして決定する手段とを有することを特徴とする。
【選択図】 図1
【特許請求の範囲】
【請求項1】
データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置において、
複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定する学習モデル決定手段と
を有することを特徴とするデータ分析装置。
【請求項2】
前記学習モデル生成手段は、前記教師データセット群を、時系列上で複数の区間に分割し、それぞれの前記区間から所定数の教師データセットをピックアップして前記評価用データセット群を生成することを特徴とする請求項1に記載のデータ分析装置。
【請求項3】
前記学習モデル決定手段の評価結果に基づいて、前記評価用データセット群を構成する教師データセットの有用度を付与する有用度付与手段をさらに有し、
前記学習モデル生成手段は、前記教師データセット群から教師データセットをピックアップして評価用データセットを生成する際に、それぞれの教師データセットの有用度を考慮することを特徴とする請求項1又は2に記載のデータ分析装置。
【請求項4】
前記学習モデル生成手段は、前記教師データセット群から教師データセットをピックアップして評価用データセットを生成する際に、高い有用度が付与されている教師データセットほど優先的にピックアップすることを特徴とする請求項3に記載のデータ分析装置。
【請求項5】
データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置に搭載されたコンピュータを、
複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定する学習モデル決定手段と
して機能させることを特徴とするデータ分析プログラム。
【請求項6】
データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置が行うデータ分析方法において、
学習モデル生成手段、判定手段、及び学習モデル決定手段を有し、
前記学習モデル生成手段は、複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成し、
前記判定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行い、
前記学習モデル決定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定する
ことを特徴とするデータ分析方法。
【請求項7】
データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置の判定処理に用いる学習モデルを生成する学習モデル生成装置において、
複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを、前記データ分析装置に用いる学習モデルとして決定する学習モデル決定手段と
を有することを特徴とする学習モデル生成装置。
【請求項8】
データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置の判定処理に用いる学習モデルを生成する学習モデル生成装置に搭載されたコンピュータを、
複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、
前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを、前記データ分析装置に用いる学習モデルとして決定する学習モデル決定手段と
して機能させることを特徴とする学習モデル生成プログラム。
【請求項9】
データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置の判定処理に用いる学習モデルを生成する学習モデル生成装置が行う学習モデル生成方法において、
学習モデル生成手段、判定手段、及び学習モデル決定手段を有し、
前記学習モデル生成手段は、複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成し、
前記判定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行い、
前記学習モデル決定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定する
ことを特徴とする学習モデル生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、データ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法に関し、例えば、逐次的に投入される時系列で変化する連続データを学習させながら分析処理するシステムに適用し得る。
【背景技術】
【0002】
従来、時系列で変化する連続データについて機械学習器を用いて異常を判定するデータ分析装置は、一定期間の平常時のデータを正常なデータとして学習し、正常時のデータに対しては正常と判断するとともに正常から外れたデータに対しては異常と判定するような装置であった。
【0003】
例えば、従来の機械学習器を用いたデータ分析装置としては、特許文献1の装置が存在する。特許文献1の装置では、機械学習器を用いて、サイバー攻撃の監視(異常の有無)をトラフィックログを用いて行う。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-36865号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来のデータ分析装置では、設置から暫くの間は学習期間となり、データを収集する期間となる。例えば、特許文献1に記載された装置では、学習データを用意して機械学習器で学習させることで検知したい「異常」(予め想定される種類の異常)を判定させる。
【0006】
このような従来のデータ分析装置は一般的に、設置(運用開始)する際に機械学習器の学習期間を設けて学習処理をさせた後に、実際の運用に入る必要がある。例えば、従来のデータ分析装置では、学習期間の間に発生した外れ値に対して「正常な外れ値」と「検知したい正常でない外れ値」のラベルを与えて「検知したい正常でない外れ値」を学習させる場合がある。また、例えば、従来のデータ分析装置では、学習期間に発生した外れ値は「正常な外れ値」として、学習期間に観測されなかった外れ値のみを検知するような動作を行う場合がある。
【0007】
このような従来のデータ分析装置では、設置個所で収集した学習データセットが支配的なデータとなり、運用の中で新たにラベル付けされた学習データにより検知精度を向上させていく必要がある。そのため、従来のデータ分析装置では、入力されるデータの量や質が変化した場合に、再度学習期間を設けて精度をあげていかなければ誤検知が多くて運用に適さないという課題があった。
【0008】
さらに、従来のデータ分析装置では、学習期間と環境が異なる場所での適用や設置環境の大きな変化があった際は、過去の環境依存性の高いデータが利用できないために運用に適さず、再度学習期間を設けて学習データを用意する必要があるという課題があった。
【0009】
以上のような問題を鑑みて、データ供給源から供給されるデータについて学習モデルを用いた判定手段によりデータ供給源の状態を判定する場合であっても、判定開始当初より所定以上の精度の判定結果を出力することができるデータ分析装置が望まれている。
【課題を解決するための手段】
【0010】
第1の本発明は、データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置において、(1)複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、(2)前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、(3)前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定する学習モデル決定手段とを有することを特徴とする。
【0011】
第2の本発明のデータ分析プログラムは、データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置に搭載されたコンピュータを、(1)複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、(2)前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、(3)前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定する学習モデル決定手段として機能させることを特徴とする。
【0012】
第3の本発明は、データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置が行うデータ分析方法において、(1)学習モデル生成手段、判定手段、及び学習モデル決定手段を有し、(2)前記学習モデル生成手段は、複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成し、(3)前記判定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行い、(4)前記学習モデル決定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定することを特徴とする。
【0013】
第4の本発明は、データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置の判定処理に用いる学習モデルを生成する学習モデル生成装置において、(1)複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、(2)前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、(3)前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを、前記データ分析装置に用いる学習モデルとして決定する学習モデル決定手段とを有することを特徴とする。
【0014】
第5の本発明の学習モデル生成プログラムは、データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置の判定処理に用いる学習モデルを生成する学習モデル生成装置に搭載されたコンピュータを、(1)複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成する学習モデル生成手段と、(2)前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行って出力する判定手段と、(3)前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを、前記データ分析装置に用いる学習モデルとして決定する学習モデル決定手段として機能させることを特徴とする。
【0015】
第6の本発明は、データ供給源より時系列ごとに供給される入力データに基づき前記データ供給源の状態を判定した判定結果を出力するデータ分析装置の判定処理に用いる学習モデルを生成する学習モデル生成装置が行う学習モデル生成方法において、(1)学習モデル生成手段、判定手段、及び学習モデル決定手段を有し、(2)前記学習モデル生成手段は、複数の教師データセットを含む教師データセット群から、所定数の教師データセットにより構成される評価用データセット群を複数パターン生成し、生成したそれぞれの前記評価用データセット群を用いた学習処理により、それぞれの前記評価用データセット群に対応する学習モデルを生成し、(3)前記判定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、時系列ごとの入力データを処理して前記データ供給源の状態を判定する判定処理を行い、(4)前記学習モデル決定手段は、前記学習モデル生成手段が生成した学習モデルを用いて、前記判定手段が判定用の入力データについて判定した判定結果を前記判定用の入力データに対応する正解ラベルとの比較結果に基づいて評価する評価処理を行い、前記評価処理の評価結果に基づいて、前記学習モデル生成手段が生成した学習モデルのいずれかを前記判定手段にセットする学習モデルとして決定することを特徴とする。
【発明の効果】
【0016】
本発明によれば、データ供給源から供給されるデータについて学習モデルを用いた判定手段によりデータ供給源の状態を判定する場合であっても、判定開始当初より所定以上の精度の判定結果を出力するデータ分析装置を提供することができる。
【図面の簡単な説明】
【0017】
図1】第1の実施形態に係るデータ分析装置の機能的構成について示したブロック図である。
図2】第1の実施形態に係るデータ分析装置の動作について示したフローチャートである。
図3】第1の実施形態に係るデータ分析装置において、学習モデルを取得する際のデータ処理の流れについて示した説明図である。
図4】第1の実施形態に係る学習モデル生成部が評価用データセット群を生成する処理の例について示した図である。
図5】第2の実施形態に係るデータ分析装置の機能的構成について示したブロック図である。
図6】第2の実施形態に係るデータ分析装置の動作について示したフローチャートである。
図7】第2の実施形態に係るデータ分析装置において、学習モデルを取得する際のデータ処理の流れについて示した説明図である。
【発明を実施するための形態】
【0018】
(A)第1の実施形態
以下、本発明によるデータ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法、の第1の実施形態を、図面を参照しながら詳述する。
【0019】
(A-1)第1の実施形態の構成
図1は、この実施形態のデータ分析装置10の全体構成を示すブロック図である。
【0020】
データ分析装置10は、連続的に入力される入力データの列について分析を行い、入力データの供給源の状態(例えば、「異常の有無」や「異常又は正常」や「異常の度合い」等)を判定する処理(以下、「判定処理」と呼ぶ)を行う。ここでは、入力データは、時間変化するデータであるものとして説明する。この実施形態では、データ分析装置10に対する入力データの供給源は、監視対象システムGであるものとして説明する。監視対象システムGは、その動作の履歴等に従った入力データをリアルタイムにデータ分析装置10へ供給する。具体的には、この実施形態では、データ分析装置10は、入力データを分析して、異常の度合い(例えば、ネットワーク上の危険性や緊急性等の度合い)を数値化(以下、この数値を「異常度値」と呼ぶ)して出力するようにしてもよい。例えば、データ分析装置10は、異常度値として、0~1の間で変動する値を出力するようにしてもよい。異常度値は大きいほど、入力データに対応する異常の度合いが強いことを表すようにしてもよい。
【0021】
この実施形態では、監視対象システムGは、1又は複数のIPネットワーク上の各種ネットワーク装置(通信装置)で構成されているものとして説明する。監視対象システムGに含まれるネットワーク装置としては、例えば、プロキシサーバ、Eメールサーバ(例えば、POPサーバ、SMTPサーバ、IMAP4サーバ)、ファイアウォール、IDS(Intrusion Detection System)サーバ等が挙げられる。監視対象システムGに配置されている通信装置の数や構成については限定されないものである。そして、この実施形態では、入力データとして、これらの監視対象システムGを構成するネットワーク装置で発生するログ(各種の動作ログ)を適用するものとして説明する。監視対象システムGを構成する各ネットワーク装置からログを収集してデータ分析装置10に供給する手段については限定されないものであり、種々の手段を適用することができる。例えば、図示しないログ収集サーバを別途設置して、当該ログ収集サーバで収集されたログを時系列順にデータ分析装置10へ供給する構成としてもよい。例えば、データ分析装置10では、特許文献1に記載された「データプール部10」と同様の処理により入力データとしてのログを収集するようにしてもよい。
【0022】
また、データ分析装置10が、一度の判定処理を行う際に処理するログの数や時間的範囲(例えば、ログの発生時間の範囲)は限定されないものである。例えば、データ分析装置10は、一定時間ごとに直近に発生したログ(例えば、直近の所定時間内に監視対象システムGで発生したログ)の集合体を1つの入力データとして判定処理を行うようにしてもよい。
【0023】
次に、データ分析装置10の内部構成について説明する。
【0024】
データ分析装置10は、学習モデル生成部101、判定部102、最適学習モデル決定部103、及び教師データセット保持部104を有している。
【0025】
この実施形態では、プロセッサやメモリ等を有するコンピュータ上にプログラム(実施形態に係るデータ分析プログラム又は学習モデル生成プログラムを含む)をインストールすることにより実現することができる。
【0026】
教師データセット保持部104は、学習用に用意された入力データ(以下、「教師データ」と呼ぶ)と、その教師データに対応する正解ラベル(教師ラベル)となる判定結果との組み合わせを含むデータ(以下、「教師データセット」と呼ぶ)を保持(記録)するデータ記録手段である。
【0027】
この実施形態の例において、教師データセット保持部104には、X個の教師データセットを有する教師データセット群DSGが記録されているものとする。
【0028】
教師データは、監視対象システムGから供給される入力データと同様の形式であるものとする。教師データには、例えば、ユーザや設計者等により疑似的に作成されたログ(例えば、一定時間内に特定の種類のネットワーク装置で発生し得るログ)としてもよい。ここでは、教師データセットは、予め用意されたデータ(例えば、オペレータや設計者等により用意されたデータ)であるものとして説明する。例えば、教師データセットは、個別のネットワーク環境によらず典型的なサイバー攻撃のパターンを示すログ(例えば、所定回数以上連続的に同じIPアドレスから同じリクエストを受け付けたログ等、一般的にサイバー攻撃の疑いの高いログ)と教師データ(例えば、異常度値=1とする教師データ)により構成された教師データセットを適用することができる。
【0029】
なお、データ分析装置10において、教師データセット群DSGに、外部(例えば、オペレータ端末TE)から、新たな教師データセット(例えば、監視対象システムGから新たに供給される入力データとその教師ラベル)が逐次追加される構成としてもよい。
【0030】
学習モデル生成部101は、教師データセット保持部104に保持されている教師データセット群DSGから、M個(X>M)の教師データセットを選択して取得(ピックアップ)し、取得したM個の教師データセット(以下、「評価用データセット群」と呼ぶ)を元に学習処理(機械学習処理)を行って学習モデルを生成し、判定部102に供給する。
【0031】
この実施形態では、説明を簡易とするため、評価用データセット群は全てM個の固定長であるものとして説明するが、各評価用データセット群を構成する教師データセットの数を可変長(例えば、ランダム値に基づく数)としてもよい。
【0032】
学習モデル生成部101は、教師データセットを構成する教師データについて、機械学習処理に適するようなデータ形式に変換する処理を行ってから機械学習処理を行う。一般的に機械学習処理の学習器には、複数の数列により表現されるベクトルデータの形式であることが望ましい。
【0033】
ここでは、学習モデル生成部101は、教師データについて、複数の数列により表されるベクトルデータに変換する処理(以下、「データ変換処理」と呼ぶ)を行い、そのベクトルデータを用いて機械学習処理(ディープラーニング処理)を行って学習モデルを取得するものとする。言い換えると、学習モデル生成部101が、データ変換処理により取得されるベクトルデータは、教師データの特徴料を抽出した結果であるともいえる。学習モデル生成部101が、教師データについて、ベクトルデータ(特徴量)に変換する処理については種々の変換処理を適用することができる。例えば、学習モデル生成部101は、特許文献1に記載された異常検知装置が各種ログに基づいて、キー情報(例えば、IPアドレスや、FQDNや、ユーザID等)ごとに「特徴量ベクトル」を生成する処理と同様の処理を適用することができる。特許文献1の異常検知装置では、複数の異常検知エンジン部(例えば、種々の統計的な手法により異常度を検知する処理を行う手段)の検知結果をまとめて所定数次元のベクトル形式に整形したデータを特徴量ベクトルとして取得している。そこで、学習モデル生成部101は、入力データ(例えば、所定の時間帯のログ)から、1又は複数のキー情報ごとのデータ(ログ)を抽出して、キー情報ごとの特徴量ベクトルを取得し、キー情報ごとの異常度値を求めて出力するものとする。つまり、学習モデル生成部101は、入力データ(ログの集合体)については、特許文献1の異常検知装置と同様に、キー情報ごとに集計してキー情報ごとの特徴量ベクトルに変換して、機械学習処理及び判定処理に適用することになる。したがって、この実施形態において、教師データセットの教師データについても同様にキー情報ごとの異常度値が設定されている必要がある。
【0034】
判定部102は、学習モデル生成部101から供給された学習モデルを適用して判定結果を取得し、取得した判定結果を出力する。学習モデル生成部101が行う機械学習処理や、取得される学習モデルの構成については、種々の機械学習処理方式(例えば、ディープラーニングを行うプラットフォーム等)を適用することができる。
【0035】
判定部102により、判定結果データを出力する手段や出力するデータ形式については限定されないものである。判定部102は、例えば、通信により他の装置に判定結果データを出力するようにしてもよいし、所定のデータ記録媒体に判定結果データを記録するようにしてもよい。また、判定部102は、判定結果(キー情報ごとの判定結果データ)と共に関連するデータ(以下、「関連データ」と呼ぶ)を付加して出力するようにしてもよい。関連データには、例えば、当該判定結果に対応する入力データやキー情報等、当該判定結果に関する情報を含むようにしてもよい。
【0036】
データ分析装置10は、データ供給源(この実施形態では、監視対象システムG)から供給される入力データの判定処理に適用する学習モデルを生成する動作モード(以下、「学習モデル生成モード」と呼ぶ)と、学習モデル生成モードで生成した学習モデルを用いてデータ供給源から供給される入力データの判定処理を行う動作モード(以下、「判定処理モード」と呼ぶ)の2つの動作モードに対応している。
【0037】
なお、データ分析装置10では、学習モデル生成モードと判定処理モードを切り替えて動作可能とするようにしてもよいし、学習モデル生成モードと判定処理モードを同時に動作可能とするようにしてもよい。データ分析装置10が動作モードを切り替えるトリガは限定されないものである。例えば、データ分析装置10は、オペレータOPの操作(例えば、図示しないGUI操作)により動作モードを切り替えて動作するようにしてもよい。また、例えば、データ分析装置10において学習モデル生成モードと判定処理モードが同時に動作する場合、判定部102には仮の学習モデル(例えば、予め用意された学習モデルや、最初に生成された学習モデル等)をセットするようにしてもよい。
【0038】
なお、この実施形態では、学習モデル生成モードと判定処理モードの両方に対応するデータ分析装置10(データ分析プログラム)について説明するが、図1に示す学習モデル生成部101、判定部102、最適学習モデル決定部103、及び教師データセット保持部104を含む構成を学習モデル生成モードのみに対応する学習モデル生成装置(学習モデル生成プログラム)として構築するようにしてもよい。
【0039】
最適学習モデル決定部103は、学習モデル生成モードにおいて、学習モデルごと(評価用データセット群ごと)に判定結果(判定部102から出力される判定結果)を評価し、その評価結果に基づいて、判定部102の判定(データ供給源からの入力データの判定)に最適な学習モデルを生成するための学習モデル(評価用データセット群)を決定する。
【0040】
データ分析装置10が学習モデル生成モードで動作する場合、最適学習モデル決定部103の制御に従って学習モデル生成部101及び判定部102が動作することにより学習モデルの生成が行われる。
【0041】
学習モデル生成モードにおける最適学習モデル決定部103の処理の詳細については後述する。
【0042】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態のデータ分析装置10の動作(実施形態に係る学習モデル生成方法及びデータ分析方法)を説明する。
【0043】
図2は、第1の実施形態におけるデータ分析装置10が、動作を開始してから最適な学習モデルを取得して判定処理を開始するまでの処理について示した図である。
【0044】
図3は、第1の実施形態におけるデータ分析装置10において、最適な学習モデルを取得する際のデータ処理の流れについて示した説明図である。
【0045】
まず、ここでは、データ分析装置10が初期状態として、学習モデル生成モードで動作を開始したものとする(S100)。
【0046】
次に、データ分析装置10に、複数の判定用データを含む判定用データ群DJGと、判定用データ群DJGのそれぞれの判定用データに対応する正解ラベル(教師ラベル)を含む判定用正解ラベル群LJGが供給されたものとする(S101)。
【0047】
データ分析装置10において、判定用データ群DJGと判定用正解ラベル群LJGを保持する方式(例えば、保持する経路やメディア)については限定されないものであり、種々の方式を適用することができる。例えば、オペレータOPの操作(例えば、オペレータ端末TEを介した操作)により、判定用データ群DJGと判定用正解ラベル群LJGの入力を受け付けるようにしてもよい。例えば、予め一定時間内に監視対象システムGから供給される入力データに基づいて構成された判定用データ群DJGと、その判定用データ群DJGに対応する判定用データ群DJGと判定用正解ラベル群LJGを用意しておいて、データ分析装置10に供給(例えば、オペレータOPの操作によりオペレータ端末TEが供給)するようにしてもよい。なお、データ分析装置10では、判定用データ群DJGについて、監視対象システムGから取得した入力データに基づいて構成(例えば、一定時間内に監視対象システムGから供給される入力データに基づいて判定用データ群DJGを構成)し、オペレータOPの操作により別途判定用正解ラベル群LJGの供給を受けるようにしてもよい。
【0048】
次に、学習モデル生成部101が、N種類のパターンの評価用データセット群を決定し、それぞれの評価用データセット群について学習処理を行って学習モデルを生成する(S102)。
【0049】
以下では、学習モデル生成部101が取得したN種類のパターンの評価用データセット群を、それぞれEDS1~EDSNと表すものとする。また、以下では、学習モデル生成部101が評価用データセット群EDS1~EDSNを用いて生成した学習モデルをそれぞれLM1~LMNと表すものとする。
【0050】
次に、判定部102は、学習モデルLM1~LMNのそれぞれを用いて、判定用データ群DJGのそれぞれの判定用データに対する判定処理を行う(S103)。
【0051】
以下では、各学習モデルに対応する判定結果(N個の判定結果で構成されるグループ)を判定結果群と呼ぶものとする。以下では、学習モデルLM1~LMNに対応する判定結果群を、それぞれRG1~RGNと呼ぶものとする。
【0052】
次に、最適学習モデル決定部103は、判定結果群RG1~RGNのそれぞれについて、判定用正解ラベル群LJGを用いて評価して評価結果を取得する(S104)。
【0053】
以下では、判定結果群RG1~RGN(学習モデルLM1~LMN)に対応する評価結果をそれぞれV1~VNと呼ぶものとする。
【0054】
最適学習モデル決定部103が、判定結果群RG1~RGN(学習モデルLM1~LMN)を評価する方法等については限定されないものである。例えば、最適学習モデル決定部103は、各判定結果群の判定結果と、判定用正解ラベル群LJGの各正解ラベルとを比較して各学習モデル(判定結果群)の判定精度(正解率)を評価結果(評価値)として算出し、最も判定精度の高い学習モデル(最も評価値の高い学習モデル)を判定処理に用いるものとして決定するようにしてもよい。
【0055】
次に、最適学習モデル決定部103は、取得した評価結果に基づいて、判定処理(判定部102の判定処理)に用いる最適な学習モデルを決定する。そして、判定部102は、最適学習モデル決定部103により決定(選択)された学習モデルをセットして、判定処理モードに移行し、判定処理を開始する(S105)。最適学習モデル決定部103は、例えば、最も評価が高い(判定精度/正解率の高い)学習モデルを、最適な学習モデルとして決定するようにしてもよい。
【0056】
以上のように、データ分析装置10は、入力データの判定処理に用いる学習モデルを取得して判定処理を開始する。
【0057】
データ分析装置10は、学習モデル生成モードにおいて、上記のステップS101~S103の動作(評価用データセット群及び学習モデルの生成)を複数回(回数は限定されないものである)繰り返して実行してから、判定処理に適用する学習モデルを決定するようにしてもよい。例えば、データ分析装置10は、所定以上の判定精度の学習モデルが生成されるまで、上記のステップS101~S103の動作(評価用データセット群及び学習モデルの生成)を繰り返して実行するようにしてもよい。
【0058】
次に、上記のステップS102において、学習モデル生成部101が、N種類のパターンの評価用データセット群EDS1~EDSNを生成する処理の例について図4を用いて説明する。
【0059】
図4(a)は、教師データセット群DSGの構成例について示している。
【0060】
上述の通り、教師データセット群DSGは、X個の教師データセットにより構成されている。以下では、教師データセット群DSGを構成するX個の教師データセットをそれぞれDS1~DSXと呼ぶものとする。
【0061】
この実施形態において、N、M、Xのそれぞれの値については限定されないものである。つまり、Xは、N以上のパターンの教師データセットを生成できる程度に大きい値であれば限定されないものである。例えば、N=100、M=1000、X=100000程度としてもよい。
【0062】
また、この実施形態において、教師データセットDS1~DSXにはそれぞれタイムスタンプ(例えば、ログの発生日時等)が含まれているものとする。そして、ここでは、教師データセットDS1~DSXは、時系列順に並んでいるものとする。すなわち、教師データセットDS1が最も古い時系列であり、データセットDSXが最も新しい時系列であるものとする。
【0063】
この実施形態のデータ分析装置10では、教師データセット群DSGを、時系列順に複数のグループ(区間)に分けて処理するものとして説明する。教師データセット群DSGを分けるグループの数は限定されないものである。具体的には、この実施形態の例では、データ分析装置10は、教師データセット群DSGを、時系列順に4つのグループ(区間)に分けて処理するものとして説明する。以下では、教師データセット群DSGを分けるグループを旧い時系列から順にG1~G4と呼ぶものとする。この場合、グループG1に属する教師データセットは「かなり時系列の旧いデータ」となり、グループG2に属する教師データセットは「それほど古くはないデータ」となり、グループG3に属する教師データセットは「最新ではないが少し古いデータ」となり、グループG4に属する教師データセットは「最新のデータ」となる。
【0064】
学習モデル生成部101では、任意のサンプリングアルゴリズム(サンプリングのルール)を用いて、教師データセット群DSG(X個の教師データセット)から、N種類のパターン(N種類の組み合わせ)の評価用データセットを抽出するようにしてもよい。
【0065】
例えば、この実施形態の例において、学習モデル生成部101は、グループG1~G4のそれぞれから所定数の教師データセットを抽出(例えば、ランダム値に基づいて抽出)するようにルール設定しておくようにしてもよい。例えば、学習モデル生成部101において、グループG1からZ1個、グループG2からZ2個、グループG3からZ3個、グループG4からZ4個教師データセットを抽出するようにしてもよい。この場合、Z1+Z2+Z3+Z4=MとなるようにZ1~Z4は設定される必要がある。また、学習モデル生成部101において、各グループから教師データセットを抽出する際に、抽出する教師データセットの正解ラベル(正解となる判定結果の値)の比率を定めるようにルール設定するようにしてもよい。例えば、正解ラベルの値が「0」(正常/異常無し)又は「1」(異常)のいずれかの値で表されるとした場合、学習モデル生成部101において、各グループから教師データセットを抽出する際の、正解ラベルの値が「0」のデータの比率と、正解ラベルが「1」のデータの比率を設定するようにしてもよい。具体的には、例えば、学習モデル生成部101において、第1のグループG1から、教師データセットを抽出する際に、正解ラベルの値が「0」のデータと、正解ラベルが「1」のデータとの比率が1:1となるようにルール設定するようにしてもよい。
【0066】
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0067】
第1の実施形態のデータ分析装置10では、複数の評価用データセット群EDSに基づいて生成した複数の学習モデルから、判定処理に最適な学習モデルを選択して判定部102に適用する。
【0068】
これにより、第1の実施形態のデータ分析装置10では、環境によって異なるデータでありさらに時間変化する連続データを分析する場合でも判定処理に最適な学習モデルを取得することができる。また、これにより、第1の実施形態のデータ分析装置10では、教師データセット群DSGの教師データが増え続けるような場合であっても、判定処理に最適な学習モデルを取得することができる。さらに、これにより、第1の実施形態のデータ分析装置10では、最適なパラメータが1つではない場合や、複数のパラメータを用いることで誤検知を補完するパラメータ等が確認できるため、運用において複数の学習モデルを生成するのが良いなどのことも把握できる。
【0069】
(B)第2の実施形態
以下、本発明によるデータ分析装置、データ分析プログラム、データ分析方法、学習モデル生成装置、学習モデル生成プログラム及び学習モデル生成方法の第2の実施形態を、図面を参照しながら詳述する。
【0070】
(B-1)第2の実施形態の構成
図5は、第2の実施形態のデータ分析装置10Aの全体構成を示すブロック図であり、上述の図1と同一部分又は対応部分に同一符号又は対応符号を付している。
【0071】
第2の実施形態のデータ分析装置10Aでは、学習モデル生成部101、最適学習モデル決定部103、及び教師データセット保持部104が、それぞれ学習モデル生成部101A、最適学習モデル決定部103A、及び教師データセット保持部104Aにおきかわっている点で第1の実施形態と異なっている。また、第2の実施形態の最適学習モデル決定部103Aは、データ有用度付与部105の構成が追加されている点で第1の実施形態と異なっている。
【0072】
第2の実施形態では、最適学習モデル決定部103Aのデータ有用度付与部105が、各評価用データセット群(各評価用データセット群に含まれる教師データセット)に対して、評価結果に基づき、判定精度の向上に対する有用性の度合(以下、「有用度」と呼ぶ)を判定して付与する。例えば、評価結果が良好(判定精度が高い;例えば上位1/3の判定精度)な評価用データセット群に所属する評価用データセットについては判定精度の向上に対する有用度が高い教師データセットが多く含まれていると推定できる。また、例えば、評価結果が劣悪(判定精度が低い;例えば下位1/3の判定精度)な評価用データセット群に所属する評価用データセットについては判定精度の向上どころか、判定精度を低下させる教師データセットが多く含まれていると推定できる。
【0073】
したがって、データ有用度付与部105は、各評価用データセット群について、例えば、評価結果が良好(判定精度が高い)であるかを評価して、評価用データセット群の順位付けや、判定精度の向上に有効に働いたか否か(有効であるか無効であるか)等を考慮して有用度を判定するようにしてもよい。具体的には、この実施形態のデータ有用度付与部105では、各評価用データセット群について、評価結果に応じた有用度を示す値(以下、「有用度値」と呼ぶ)を設定するものとする。有用度値の形式は限定されないものであり、数値(例えば、有用度が高いほど大きな数値)でも良いし、段階的な評価(例えば、レーティングによる3段階程度の評価)でも良い。
【0074】
この実施形態の例では、有用度値として3段階でレーティングした値を適用するものとして説明する。具体的には、この実施形態の例では、データ有用度付与部105は、評価結果(判定精度)が上位(例えば、上位1/3)の評価用データセット群(教師データセット)に対して「+」の有用度値を設定し、評価結果(判定精度)が中間(上位1/3と下位1/3を除いた中間;上位1/3の部分に次ぐ1/3の部分)の評価用データセット群(教師データセット)に対して「0」(「±0」)の有用度値を設定し、下位(例えば、下位1/3)の評価用データセット群(教師データセット)に対して「-」の有用度値を設定するものとする。有用度値の形式については限定されないものであり、数値(例えば、「1」、「2」、「3」等の識別ID)等の種々のデータ形式を適用することができる。
【0075】
そして、データ有用度付与部105は、各評価用データセット群の有用度に従って、教師データセット群DSGを構成する各教師データセット(若しくは、各教師データセットの正解ラベル)に有用度を付与(設定;更新)する。データ有用度付与部105は、いずれかの評価用データセット群に所属した教師データセットについて、所属する評価用データセット群の有用度をそのまま付与(設定)するようにルール設定してもよい。ただし、複数の評価用データセット群に所属する教師データセットが存在する場合、データ有用度付与部105は、当該教師データセットについては、より高い有用度又はより低い有用度のいずれかを付与(設定)するようにルール設定してもよい。
【0076】
なお、この実施形態において教師データセット群DSGを構成する各教師データセット(正解ラベル)の有用度値の初期値を「0」とし、後に更新するものとする。
【0077】
そして、学習モデル生成部101Aは、教師データセット群DSG(教師データセット)の有用度が更新(付与)された後、各教師データセットの有用度値も考慮して、新たにN種類のパターンの判定用データ群DJGを生成する。例えば、学習モデル生成部101Aは、有用度値が「+」の学習用評価データを優先的に、新たな評価用データセット群に採用するようにしてもよい。また、例えば、学習モデル生成部101Aは、有用度値が「-」の学習用評価データについては、新たな評価用データセット群への採用の優先度を低く設定(又は全く採用しないように設定)するようにしてもよい。
【0078】
そして、最適学習モデル決定部103Aは、学習モデル生成部101Aが新たに作成したN個の評価用データセット群に基づいて新たにN個の学習モデルを生成する。そして、判定部102は、新たに生成されたN個の学習モデルについて、判定用データ群DJG(判定用正解ラベル群LJG)を用いた判定処理を行って評価し、その評価結果に従っていずれかの学習モデルを判定部102の判定処理に用いる学習モデルとして決定(選択)する。
【0079】
第2の実施形態のデータ分析装置10Aにおいては、上記のとおり、教師データセット群DSGを構成する教師データセットに有用度値が付与された後、再度学習モデル生成部101Aが学習モデルを生成して評価し、その評価結果に従った学習モデルを判定処理に適用する。
【0080】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態のデータ分析装置10Aの動作(実施形態に係る学習モデル生成方法及びデータ分析方法)を説明する。
【0081】
図6は、第2の実施形態におけるデータ分析装置10が、動作を開始してから学習モデルを生成取得して判定処理を開始するまでの処理について示した図である。
【0082】
図7は、第2の実施形態におけるデータ分析装置10において、学習モデルを取得する際のデータ処理の流れについて示した説明図である。図7において、上述の図3と同一符号又は対応符号について同一符号又は対応符号を付している。
【0083】
まず、ここでは、データ分析装置10Aが初期状態として、学習モデル生成モードで動作を開始したものとする(S200)。
【0084】
そして、データ分析装置10Aは、上述のステップS201~S204の処理により、学習モデルを生成して各学習モデルの評価結果を得る。ステップS201~S204の処理は、上述のステップS101~S104と同様であるため詳しい説明を省略する。
【0085】
次に、データ有用度付与部105は、それぞれの評価用データセット群に対して、評価結果に基づく有用度値を付与する(S205)。
【0086】
次に、データ有用度付与部105は、教師データセット群DSGの各教師データセット(正解ラベル)の有用度値について、対応する評価用データセット群の有用度値に更新する(S206)。
【0087】
以下では、判定結果群RG1~RGN(学習モデルLM1~LMN)に対応する有用度値をそれぞれUR1~URNと呼ぶものとする。
【0088】
次に、最適学習モデル決定部103Aは、有用度値を考慮して、教師データセット群DSG(X個の教師データセット)から、新たにN種類のパターンの評価用データセット群を生成する。そして、最適学習モデル決定部103Aは、新たに生成した評N個の価用データセット群に基づいて、新たにN個の学習モデルを生成する(S207)。
【0089】
次に、判定部102は、新たに生成した学習モデルのそれぞれを用いて、判定用データ群のそれぞれの判定用データに対する判定処理を行い、判定結果群を取得する(S208)。
【0090】
次に、最適学習モデル決定部103Aは、判定結果群のそれぞれについて、判定用正解ラベル群LJGを用いて評価して評価結果を取得する。そして、最適学習モデル決定部103Aは、取得した評価結果に基づいて、判定処理(判定部102の判定処理)に用いる学習モデルを決定する(S209)。
【0091】
次に、判定部102は、最適学習モデル決定部103Aにより決定(選択)された学習モデルをセットして、判定処理モードに移行し、判定処理を開始する(S210)。
【0092】
以上のように、データ分析装置10Aは、入力データの判定処理に用いる学習モデルを取得して判定処理を開始する。
【0093】
なお、データ分析装置10Aは、学習モデル生成モードにおいて、上記のステップS204~S208の動作(教師データセット群に対する有用度の付与、評価用データセット群及び学習モデルの生成)を複数回(回数は限定されないものである)繰り返して実行するようにしてもよい。例えば、データ分析装置10Aは、所定以上の判定精度の学習モデルが生成されるまで、上記のステップS204~S208の動作を繰り返して実行するようにしてもよい。
【0094】
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて、以下のような効果を奏することができる。
【0095】
第2の実施形態のデータ分析装置10Aでは、教師データセット群DSGを構成する各教師データセットに有用度を付与し、有用度を考慮して選択(ピックアップ)された判定用データ群に基づいて生成された学習モデルから最適な学習モデルを、判定部102に適用する。これにより、第2の実施形態のデータ分析装置10Aでは、ある時点で有効に働いていたが、現在は有効ではないような教師データセットも、低い有用度(マイナスのレーティング)を付与されることになる。したがって、第2の実施形態のデータ分析装置10Aでは、時間経過とともに、学習モデルの生成に適用する教師データセットを最適化できるため、環境の変化にも対応できるという効果を奏する。例えば、教師データセット群DSGの中に、同じ内容の教師データについて相反する内容の正解ラベルが付与される教師データセットが含まれていた場合でも、第2の実施形態のデータ分析装置10Aでは、教師データセット群DSGから現在のデータ供給源の環境に適した教師データセット(有用度の高い教師データセット)をピックアップして学習モデルを生成することができる。
【0096】
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0097】
(C-1)第2の実施形態においては、教師データセット群DSGを構成する各教師データセット(正解ラベル)の属性として有用度値(有用度)を付与していたが、それ以外の属性を付与可能とするようにしてもよい。例えば、教師データセット群DSGを構成する各教師データセット(正解ラベル)の属性として、当該教師データセットの正解ラベルを付与したオペレータ(人)を示す情報(以下、「ラベル付与者情報」と呼ぶ)を付与可能とするようにしてもよい。例えば、教師データに正解ラベルを付ける人によって、当該正解ラベルの信頼度が異なる場合がある。そこで、上記の実施形態のデータ分析装置10、10Aにおいて、ラベル付与者情報として、エキスパートなオペレータが正解ラベルを付与したことを示す値と、ビギナーのオペレータが正解ラベルを付与したことを示す値を設定可能とするようにしてもよい。ラベル付与者情報の形式については限定されないものであり、種々の数値(例えば、「0」、「1」等の識別ID)や文字列(例えば、「ビギナー」、「エキスパート」等)等の種々のデータ形式を適用することができる。
【0098】
上記のように教師データセット群DSGを構成する各教師データセット(正解ラベル)の属性として、ラベル付与者情報を付与可能とすることで、上記の実施形態のデータ分析装置10、10Aにおいて、正解ラベルの信頼度を考慮して評価用データセット群を生成したり、正解ラベルの信頼度を考慮して有用度値(有用度)を付与することができる。これにより、上記の実施形態のデータ分析装置10、10Aでは、エキスパートなオペレータの付けた正解ラベルと、ビギナーオペレータの付けた正解ラベルが相反していた際に、エキスパートオペレータの付けた正解ラベルが正しいとすることで、より精度の高い判定処理を実現するための学習モデル生成が可能となる。
【符号の説明】
【0099】
10…データ分析装置、101…学習モデル生成部、102…判定部、103…最適学習モデル決定部、104…教師データセット保持部、G…監視対象システム、DSG…教師データセット群。
図1
図2
図3
図4
図5
図6
図7