IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立システムズの特許一覧

特開2022-138758情報処理装置、情報処理方法、およびプログラム
<>
  • 特開-情報処理装置、情報処理方法、およびプログラム 図1
  • 特開-情報処理装置、情報処理方法、およびプログラム 図2
  • 特開-情報処理装置、情報処理方法、およびプログラム 図3
  • 特開-情報処理装置、情報処理方法、およびプログラム 図4
  • 特開-情報処理装置、情報処理方法、およびプログラム 図5
  • 特開-情報処理装置、情報処理方法、およびプログラム 図6
  • 特開-情報処理装置、情報処理方法、およびプログラム 図7
  • 特開-情報処理装置、情報処理方法、およびプログラム 図8
  • 特開-情報処理装置、情報処理方法、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022138758
(43)【公開日】2022-09-26
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G06F 17/18 20060101AFI20220915BHJP
   G06N 20/00 20190101ALI20220915BHJP
【FI】
G06F17/18 D
G06N20/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021038827
(22)【出願日】2021-03-11
(71)【出願人】
【識別番号】000233491
【氏名又は名称】株式会社日立システムズ
(74)【代理人】
【識別番号】110002066
【氏名又は名称】弁理士法人筒井国際特許事務所
(72)【発明者】
【氏名】板井 光揮
(72)【発明者】
【氏名】岡本 博充
(72)【発明者】
【氏名】森田 素
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB52
(57)【要約】
【課題】同一のデータセットに対する複数パターンの欠測処理を高速で行いつつ、予測精度を安定して向上させること。
【解決手段】情報処理装置は、データセットの欠測値を予測し、予測値を欠測値に代入する欠測処理を行い、欠測処理済のデータセットを生成するデータ処理部を備えている。データ処理部は、特徴量ごとに、欠測処理前のデータセットからランダムにデータを復元抽出してリサンプリングデータを生成し、リサンプリングデータから予測値を算出する第1欠測処理(ステップS32)、または、特徴量ごとに欠測処理前のデータセットから標本平均および標準偏差を算出し、算出した標本平均および標準偏差に基づき、正規分布に従う乱数を生成し、生成した正規分布に従う乱数を用いて欠測処理前のデータセットからサンプリングを行い、サンプリングされたデータを予測値とする第2欠測処理(ステップS33)を行う。
【選択図】図4
【特許請求の範囲】
【請求項1】
データセットの欠測値を予測し、予測値を前記欠測値に代入する欠測処理を行い、欠測処理済の前記データセットを生成するデータ処理部を備えた情報処理装置であって、
前記データ処理部は、特徴量ごとに、欠測処理前の前記データセットからランダムにデータを復元抽出してリサンプリングデータを生成し、前記リサンプリングデータから前記予測値を算出する第1欠測処理、または、特徴量ごとに欠測処理前の前記データセットから標本平均および標準偏差を算出し、算出した前記標本平均および前記標準偏差に基づき、正規分布に従う乱数を生成し、生成した正規分布に従う前記乱数を用いて欠測処理前の前記データセットからサンプリングを行い、サンプリングされたデータを前記予測値とする第2欠測処理を行う、
情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、
前記データ処理部は、同一の前記データセットに対する前記欠測処理を複数回実行する、
情報処理装置。
【請求項3】
請求項1に記載の情報処理装置において、
前記データ処理部は、欠測処理前の前記データセットについて、全データ数に対する欠測値の個数の割合を欠測率として算出し、前記欠測率が所定のしきい値より小さい場合、前記第1欠測処理を行い、前記欠測率が前記しきい値以上である場合、前記第2欠測処理を行う、
情報処理装置。
【請求項4】
請求項2に記載の情報処理装置において、
前記データ処理部は、同一の前記データセットに対する複数回の欠測処理結果の統合処理を行い、欠測処理済の統合データセットを生成する、
情報処理装置。
【請求項5】
請求項4に記載の情報処理装置において、
前記データ処理部は、同一の前記欠測値に対し代入された前記予測値の多数決を取り、多数決で決定した値を統合予測値とし、前記統合予測値を対応する前記欠測値に代入して欠測処理済の前記統合データセットを生成する、
情報処理装置。
【請求項6】
請求項4に記載の情報処理装置において、
前記データ処理部は、各回の前記予測値の平均値を算出し、算出した前記平均値を統合予測値とし、前記統合予測値を対応する前記欠測値に代入して欠測処理済の前記統合データセットを生成する、
情報処理装置。
【請求項7】
請求項2に記載の情報処理装置において、
前記欠測処理の実行回数ごとに、対応する前記欠測処理済の前記データセットに基づく学習モデルを構築し、前記欠測処理済の前記データセットを含む学習用データを生成し、前記学習モデルおよび前記学習用データを用いて前記特徴量の予測処理を行う学習処理部と、
複数の予測処理結果を統合して統合予測結果を生成する予測結果統合部と、
を備えている、
情報処理装置。
【請求項8】
データセットの欠測値を予測し、予測値を前記欠測値に代入する欠測処理を行い、欠測処理済の前記データセットを生成する第1ステップを有する情報処理方法であって、
前記第1ステップにおいて、データ処理部が、特徴量ごとに、欠測処理前の前記データセットからランダムにデータを復元抽出してリサンプリングデータを生成し、前記リサンプリングデータから前記予測値を算出する第1欠測処理、または、前記データ処理部が、特徴量ごとに欠測処理前の前記データセットから標本平均および標準偏差を算出し、算出した前記標本平均および前記標準偏差に基づき、正規分布に従う乱数を生成し、生成した正規分布に従う前記乱数を用いて欠測処理前の前記データセットからサンプリングを行い、サンプリングされたデータを前記予測値とする第2欠測処理を実行する第2ステップを有する、
情報処理方法。
【請求項9】
データセットの欠測値を予測し、予測値を前記欠測値に代入する欠測処理を行い、欠測処理済の前記データセットを生成する第1ステップと、
前記第1ステップにおいて、データ処理部が、特徴量ごとに、欠測処理前の前記データセットからランダムにデータを復元抽出してリサンプリングデータを生成し、前記リサンプリングデータから前記予測値を算出する第1欠測処理、または、前記データ処理部が、特徴量ごとに欠測処理前の前記データセットから標本平均および標準偏差を算出し、算出した前記標本平均および前記標準偏差に基づき、正規分布に従う乱数を生成し、生成した正規分布に従う前記乱数を用いて欠測処理前の前記データセットからサンプリングを行い、サンプリングされたデータを前記予測値とする第2欠測処理を実行する第2ステップと、をプロセッサで実行させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
データサイエンスでは、大量のデータを用いたデータ処理が行われる。ただし、ほとんどの場合、データに欠測値が発生する。その原因として、センサの観測データを一時的に取得できなかったこと等が挙げられる。また、観測データに欠損がなくても、観測データから特徴量データを作成する過程で、業務上の事情やシステム特性等によりデータに欠測値が発生することもある。
【0003】
例えば、あるプロジェクトに参加する社員の就業管理情報を用いたデータ処理により、プロジェクトの異常検知が行われることがある。この場合、プロジェクトに携わる社員全員分のデータに欠損は存在しないが、特徴量のデータの作成過程で欠測値が発生することがある。具体的には、プロジェクトの進捗20%時点における年休取得日数が最小値という条件で特徴量のデータを作成する場合、この期間に年休を取得した社員が存在しなければ、この条件に対応する特徴量のデータを作成することができず、この特徴量のデータは欠測値となる。
【0004】
また、この期間における年休取得日数の不偏標準偏差という条件で特徴量のデータを作成する場合、このプロジェクトに参加する社員が複数存在しなければ、この条件に対応する特徴量のデータを算出することができないため、この特徴量のデータも欠測値となる。
【0005】
このような場合、欠測値に対する欠測処理が行われる。例えば特許文献1には、データに欠測がある場合に、その欠測を除去したり、他のデータから補完したりする欠測処理を行う旨、記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2018-151883号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、欠測値のデータを削除する欠測処理では、欠測率が高い場合やデータの標本サイズが少ない場合、特徴量のデータ空間を歪めるおそれがある。これに対し、欠測値を補ていする欠測処理として、対象の特徴量について算出された特徴量の平均値で、欠測値を埋める方法も考えられる。しかし、この方法でも、特徴量のデータの分布に与える影響が大きくなってしまう。
【0008】
ところで、欠測値を補ていする欠測処理として、いわゆる単一代入法と呼ばれる手法が知られている。単一代入法では、取得したあるいは算出したデータを基にしたデータが再生成され、再生成されたデータを用いて母集団のデータ分布の予測が行われる。そして、予測されたデータ分布から、欠測値を予測する回帰式が生成され、回帰式により予測値が算出される。このように算出された予測値を欠測値に代入することで、欠測値が予測値で補ていされる。
【0009】
しかしながら、予測されたデータ分布に偏りがあるため、回帰式から算出される予測値もデータ分布の偏りの影響を受けているものと考えらえる。この予測値で補ていされたデータを用いて学習が行われた場合、予測結果が偏ってしまうため、予測精度が低下するおそれがある。
【0010】
また、欠測値を補ていする欠測処理として、いわゆる多重代入法と呼ばれる手法も知られている。多重代入法では、単一代入法と同様の処理が複数パターンで実行される。そして、各パターンにおいて欠測補ていされたデータからモデルの構築や学習用データの生成が行われ、モデルおよび学習用データを用いた学習による予測処理が並行して実行される。そして、パターンごとの予測結果が統合されることで統合予測結果が生成される。
【0011】
このように、多重代入法では、各パターンの予測結果を統合した予測結果が生成されるので、パターンごとのデータ分布の偏りの影響は低減される。このため、単一代入法よりも予測精度を向上させることができるが、欠測値の代入処理(欠測処理)に多大な時間が掛かるため、複数パターンの処理を並行して行う多重代入法を実装することは困難であった。
【0012】
そこで、本発明は、同一のデータセットに対する複数パターンの欠測処理を高速で行いつつ、予測精度を安定して向上させることが可能な情報処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0013】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。本発明の代表的な実施の形態による情報処理装置は、データセットの欠測値を予測し、予測値を欠測値に代入する欠測処理を行い、欠測処理済のデータセットを生成するデータ処理部を備えている。データ処理部は、特徴量ごとに、欠測処理前のデータセットからランダムにデータを復元抽出してリサンプリングデータを生成し、リサンプリングデータから予測値を算出する第1欠測処理、または、特徴量ごとに欠測処理前のデータセットから標本平均および標準偏差を算出し、算出した標本平均および標準偏差に基づき、正規分布に従う乱数を生成し、生成した正規分布に従う乱数を用いて欠測処理前のデータセットからサンプリングを行い、サンプリングされたデータを予測値とする第2欠測処理を行う。
【発明の効果】
【0014】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。代表的な情報処理装置によれば、同一のデータセットに対する複数パターンの欠測処理を高速で行いつつ、予測精度を安定して向上させることが可能となる。
【図面の簡単な説明】
【0015】
図1】本発明の実施の形態1に係る情報処理装置の構成の一例を示す図である。
図2】本発明の実施の形態1に係るデータ処理方法を説明する図である。
図3】本発明の実施の形態1に係るデータ処理方法の一例を示すフロー図である。
図4】本発明の実施の形態1に係る欠測処理の詳細を示すフロー図である。
図5】実施の形態1の効果を説明する図である。
図6】本発明の実施の形態2に係るデータ処理方法を説明する図である。
図7】本発明の実施の形態2に係るデータ処理方法の一例を示すフロー図である。
図8】本発明の実施の形態2に係る欠測処理の詳細を示すフロー図である。
図9】本発明の実施の形態3に係る情報処理装置の構成を例示する図である。
【発明を実施するための形態】
【0016】
(実施の形態1)
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、発明を実施するための最良の形態を説明するための各図において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は省略する。
【0017】
<情報処理装置の構成>
図1は、本発明の実施の形態1に係る情報処理装置の構成の一例を示す図である。図1に示すように、情報処理装置1は、コンピュータCOM、メモリ20、不揮発性メモリ30、ストレージ40等を備えている。情報処理装置1は、図1に示すように、データ記憶装置500と接続されている。
【0018】
データ記憶装置500は、情報処理装置1でデータ処理されるデータセットを格納する。このデータセットは、欠測処理前のデータセットであり、特徴量ごとに用意されたものである。データ記憶装置500は、情報処理装置1からの指示に応じて、格納しているデータセットを情報処理装置1へ送信する。
【0019】
コンピュータCOMは、例えばCPU(Central Processing Unit)等のプロセッサで構成される。コンピュータCOMが不揮発性メモリ30から読み出したプログラムを実行することで、データ処理部10がソフトウェアとして実現される。
【0020】
データ処理部10は、欠測処理前の同一のデータセットに対し、複数回の欠測処理を行う。データ処理部10は、それぞれの欠測処理後のデータセットを用いた学習による予測処理を並行して行う。そして、データ処理部10は、それぞれの欠測処理に対応する予測結果の統合処理を行う。
【0021】
データ処理部10は、図1に示すように、欠測率算出部11、欠測処理部13、学習処理部15、予測結果統合部17を備えている。欠測率算出部11は、データ記憶装置500から受信した、特徴量ごとに欠測処理前のデータセットについて、全データ数に対する欠測値の個数の割合を欠測率として算出する。欠測率算出部11は、算出した各データセットの欠測率を欠測処理部13へ出力する。
【0022】
欠測処理部13は、欠測率算出部11で算出された欠測率に基づき、欠測処理前のデータセットに対する欠測処理を行う。欠測処理部13は、同一のデータセットに対し複数回の欠測処理を行う。同一のデータセットに対する欠測処理の回数は、特に限定されないが、例えば10回~30回程度行われる。欠測処理部13における欠測処理については、後で詳しく説明する。
【0023】
学習処理部15は、欠測処理部13で欠測処理された欠測処理後のデータセットに基づく回帰モデルの構築、および学習用データの生成を行う。学習処理部15は、構築した回帰モデルおよび生成した学習用データを用いた予測処理を行い、予測結果を生成する。学習処理部15は、欠測処理のパターンごとに、回帰モデルの構築、学習用データの生成、および予測処理を行う。なお、回帰モデルの構築および学習用データの生成は、欠測処理部13で行われてもよい。
【0024】
予測結果統合部17は、同一のデータセットについて、複数の予測結果を統合し、統合予測結果を生成する。予測結果統合部17は、複数の予測結果を比較し、例えば多数決等の処理を行うことで統合予測結果を生成する。
【0025】
メモリ20は、不揮発性メモリ30から読み出したプログラムやパラメータ、データ処理部10による演算結果等を一次的に保持する。不揮発性メモリ30は、データ処理部10で実行するプログラムやパラメータ等を格納する。プログラムやパラメータは、データ処理部10からの指示に従って、データ処理部10へ読み出される。
【0026】
ストレージ40は、例えば、欠測処理後のデータセット、学習処理部15で構築された回帰モデル、学習処理部15で生成された学習用データ等の各種情報を格納する。また、ストレージ40は、データ記憶装置500から入力された欠測処理前のデータセットを格納してもよい。なお、ストレージ40は、情報処理装置1の外部装置としてデータ記憶装置500と別体で設けられてもよいし、データ記憶装置500と一体で設けられてもよい。
【0027】
<データ処理方法>
次に、データ処理方法について説明する。図2は、本発明の実施の形態1に係るデータ処理方法を説明する図である。図2には、データセットの読み出しから、予測結果の統合までのデータ処理の概要が示されている。図3は、本発明の実施の形態1に係るデータ処理方法の一例を示すフロー図である。図3には、図2に対応するステップS10~S80が示されている。
【0028】
ステップS10では、データセットの読み込みが行われる。ここでは、データセットの読み込みに先立ち、予測したい特徴量が目的変数として指定され、目的変数を説明する複数の特徴量が説明変数としてすでに指定されているものとする。すなわち、それぞれの特徴量に対応して複数の説明変数が指定される。データ処理部10は、目的変数および複数の説明変数として指定された特徴量に対応するデータセットをデータ記憶装置500から読み出す。
【0029】
ステップS20では、欠測率算出部11が、特徴量ごとにデータセットのデータ欠測率を算出する。欠測率算出部11は、指定された特徴量のデータセットに対し、全データ数に対する欠測値の個数の割合を欠測率として算出する。欠測率算出部11は、算出したデータセットの欠測率を欠測処理部13へ出力する。
【0030】
ステップS30では、欠測処理部13が、欠測率基づく欠測処理を行う。図4は、本発明の実施の形態1に係る欠測処理の詳細を示すフロー図である。図4には、ステップS31~S34が示されている。ステップS31では、算出された欠測率が所定のしきい値より小さいか否かが判定される。欠測率が所定のしきい値より小さい場合(YES)、ステップS32へ移行し、ブートストラップ法による欠測処理(第1欠測処理)が行われる。
【0031】
ステップS32におけるブートストラップ法による欠測処理では、欠測処理部13は、特徴量ごとに、欠測処理前のデータセットからランダムにデータを復元抽出してリサンプリングデータを生成する。そして、欠測処理部13は、リサンプリングデータから予測値を算出し、算出した予測値を欠測値に代入し、欠測処理済のデータセットDAT_1を生成する。予測値は、例えばリサンプリングデータに含まれる各データの平均値である。この予測値は、短時間で算出可能であり、欠測値に対する予測値の代入処理を高速で行うことが可能である。生成された欠測処理済のデータセットは、学習処理部15へ出力される。また、生成された欠測処理済のデータセットは、メモリ20で保持されるか、ストレージ40に格納されてもよい。
【0032】
ステップS34では、同一のデータセットに対する欠測処理が所定の繰り返し回数分実行されたか否かが判定される。同一のデータセットに対する欠測処理が所定の繰り返し回数(パターン数)分実行されていない場合(NO)ステップS31に戻る。ただし、最初のステップS31において、欠測率と閾値との判定処理は行われているので、2回目以降のステップS31は無視され、ステップS32に移行する。2回目以降のステップS32では、欠測処理部13は、新たなリサンプリングデータを生成し、新たなリサンプリングデータに基づく予測値を算出し、算出した予測値を欠測値に代入し、欠測処理済のデータセットDAT(DAT_2、・・・、DAT_n)を順次生成する。生成された欠測処理済のデータセットは、学習処理部15へ出力される。また、生成された欠測処理済のデータセットは、メモリ20で保持されるか、ストレージ40に格納されてもよい。
【0033】
ところで、ステップS32では、ブートストラップ法による欠測処理に代えて、例えば、観測値分布サンプリング法による欠測処理を行ってもよい。観測値分布サンプリング法による欠測処理では、欠測処理部13は、特徴量ごとに、観測値ベースのデータセットすなわち欠測処理前のデータセットに対する確率分布の推定を行う。この確率分布の推定には、例えばコルモゴロフ=スミルノフ検定等の手法が用いられる。そして、欠測処理部13は、推定した確率分布からのサンプリングを行い、サンプリングしたデータを予測値として欠測値に代入し、欠測処理済のデータセットDAT(DAT_1、・・・、DAT_n)を順次生成する。欠測処理前のデータセットに対する確率分布の推定は、短時間で実行可能であり、この場合も、欠測値に対する予測値の代入処理を高速で行うことが可能である。
【0034】
そして、同一のデータセットに対する欠測処理が所定の繰り返し回数分(n回)、複数回実行されると(ステップS34:YES)、このデータセットに対する欠測処理が終了する。
【0035】
一方、ステップS31において、欠測率が所定のしきい値以上である場合(NO)、ステップS33へ移行し、正規分布サンプリング法による欠測処理(第2欠測処理)が行われる。
【0036】
ステップS33における正規分布サンプリング法による欠測処理では、欠測処理部13は、特徴量ごとに、欠測処理前のデータセットから標本平均および標準偏差を算出する。そして、欠測処理部13は、算出した標本平均および標準偏差に基づき、正規分布に従う乱数を生成し、生成した正規分布に従う乱数を用いて欠測処理前のデータセットからデータのサンプリングを行う。そして、欠測処理部13は、サンプリングしたデータを予測値として、予測値を欠測値に代入し、欠測処理済のデータセットDAT_1を生成する。生成された欠測処理済のデータセットは、学習処理部15へ出力される。また、生成された欠測処理済のデータセットは、メモリ20で保持されるか、ストレージ40に格納されてもよい。
【0037】
正規分布サンプリング法による欠測処理は、ブートストラップ法による欠測処理に対し、標準偏差の算出を行う必要があるが、標準偏差の算出も短時間で行うことができる。したがって、正規分布サンプリング法を用いた場合も、欠測値に対する予測値の代入処理を高速で行うことが可能である。
【0038】
ステップS34は、すでに説明した通りである。2回目以降のステップS32では、欠測処理部13は、正規分布に従う新たな乱数を生成し、新たな乱数を用いたデータのサンプリングを行い、サンプリングしたデータを欠測値に代入し、欠測処理済のデータセットDAT(DAT_2、・・・、DAT_n)を順次生成する。生成された欠測処理済のデータセットは、メモリ20で保持されるか、ストレージ40に格納される。
【0039】
ここで、図3の説明に戻る。ステップS30の欠測処理が終了すると、ステップS40に移行し、指定されたすべての特徴量のデータセットの欠測処理が終了したか否かが判定される。指定されたすべての特徴量のデータセットの欠測処理が終了していない場合(NO)、すなわち、指定された特徴量のデータセットのうち、欠測処理が終了していないデータセットが残っている場合、ステップS20に戻り、欠測処理がなされていないデータセットにする欠測処理が実行される。
【0040】
なお、最初のステップS20において、指定されたすべての特徴量のデータセットの欠測率が算出されてもよい。この場合には、ステップS40からステップS30に戻り、欠測処理がなされていないデータセットにする欠測処理が実行される。
【0041】
そして、指定されたすべての特徴量のデータセットの欠測処理が終了した場合(ステップS44:YES)、ステップS50に移行する。
【0042】
ステップS50では、学習処理部15は、予め指定された目的変数に対応する欠測処理済のデータセットを用いて学習モデルMODを構築する。例えば、学習処理部15は、欠測処理済のデータセットDAT_1から学習モデルMOD_1を生成する。以下同様に、学習処理部15は、欠測処理済の各データセットDAT_2~DAT_nから、それぞれに対応する学習モデルMOD_2~MOD_nを生成する。
【0043】
本実施の形態において適用可能な学習モデルは、例えば、重回帰モデル、ロジスティック回帰モデル、数量化理論(1類、2類、3類)、Lasso回帰モデル、Ridge回帰モデル、Elastic Net回帰モデル、決定木回帰モデル、決定木分類モデル、ランダムフォレスト回帰モデル、ランダムフォレスト分類モデル、サポートベクターマシン、ナイーブベイズ法、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、XGBoost(eXtreme Gradient Boosting)、LightGBM(Light Gradient Boosted Machine)等の回帰モデルである。
【0044】
ステップS60では、学習処理部15は、同一レコード内の欠測処理済のデータセットに基づき、学習モデルで予測処理を行うための学習用データGDATを生成する。具体的には、学習処理部15は、同一レコードの目的変数に対応する特徴量の欠測処理済のデータセット(例えば、DAT)、および同一レコードの複数の説明変数のそれぞれに対応する特徴量の欠測処理済のデータセットからなる学習用データGDATを作成する。
【0045】
例えば、学習処理部15は、欠測処理済のデータセットDAT_1、および同一レコードの複数の説明変数のそれぞれに対応する特徴量の欠測処理済のデータセットからなる学習モデルMOD_1を生成する。
【0046】
以下同様に、学習処理部15は、欠測処理済のデータセットDAT_2・・・DAT_n、および同一レコードの複数の説明変数のそれぞれに対応する特徴量の欠測処理済のデータセットからなる学習用データGDAT_2・・・GDAT_nをそれぞれ生成する。生成された学習用データは、メモリ20で保持されるか、ストレージ40に格納されてもよい。
【0047】
このように、学習処理部15は、目的変数に対応する特徴量の欠測処理のパターンごとに学習用データGDATを生成する。なお、説明変数のそれぞれに対応する特徴量の欠測処理済のデータセットは、複数の学習用データ間で異ならせてもよいし、共通でもよい。
【0048】
ステップS70では、学習処理部15は、ステップS50で構築された学習モデルMOD、およびステップS60で生成された学習用データGDATを用いた予測処理を行う。具体的には、学習処理部15は、目的変数に対応する特徴量の欠測処理のパターンごとに予測処理を行う。
【0049】
より具体的には、学習処理部15は、学習モデルMOD_1および学習用データGDAT_1を用いて予測処理を行い、予測結果RES_1を生成する。以下同様に、学習処理部15は、学習モデルMOD_2・・・MOD_nおよび対応する学習用データGDAT_2・・・GDAT_nを用いて予測処理を行い、それぞれの予測結果RES_2・・・RES_nを生成する。それぞれの学習処理で生成された予測結果RES_1・・・RES_nは、予測結果統合部17へ出力される。また、生成された予測結果は、メモリ20で保持されるか、ストレージ40に格納されてもよい。
【0050】
ステップS80では、予測結果統合部17は、同一のデータセットについて、欠測処理のパターンごとの予測結果を統合し、指定された目的変数に対する統合予測結果を生成する。予測結果統合部17は、複数の予測結果を比較し、例えば多数決等の処理を行うことで統合予測結果を生成する。生成された統合予測結果は、メモリ20で保持されるか、ストレージ40に格納される。また、生成された統合予測結果は、例えば図示しないモニタ等に表示されてもよいし、情報処理装置1の外部に出力されてもよい。
【0051】
<本実施の形態による主な効果>
本実施の形態によれば、データセットの欠測処理において、欠測率に応じて、ブートストラップ法によるランダムサンプリング、または正規分布サンプリング法によるサンプリングが行われる。これらの欠測処理では、欠測値への予測値の代入処理が従来手法と比べて短時間で行われるので、同一のデータセットに対する複数パターンの欠測処理を高速で行うことが可能となる。
【0052】
また、欠測率が所定のしきい値より小さい場合には、データの分布の偏りが小さくなっているため、ランダムサンプリングによる欠測処理が行われても、データの分布への影響は小さい。このため、ランダムサンプリングによる欠測処理が行われたデータセットを用いた予測処理を行っても、予測精度を安定して向上させることが可能である。
【0053】
一方、欠測率が所定のしきい値以上である場合には、正規分布サンプリング法によるサンプリングが行われる。正規分布サンプリング法によるサンプリングが行うことにより、欠測処理によるデータの分布への影響を低減させることが可能となる。このため、正規分布サンプリング法による欠測処理が行われたデータセットを用いて予測処理を行った場合でも、予測精度を安定して向上させることが可能である。
【0054】
このように、本実施の形態によれば、同一のデータセットに対する複数パターンの欠測処理を高速で行いつつ、予測精度を安定して向上させることが可能となる。
【0055】
また、本実施の形態によれば、欠測処理に要する時間を従来と比べて大幅に短縮できるので、複数パターンを用いた多重化による予測処理に時間を割り当てることが可能となる。これにより、欠測処理済のデータセットを用いた予測精度をより向上させることが可能となる。
【0056】
[実施例]
ここで、本実施の形態の実施例について説明する。本実施例では、本実施の形態をプロジェクト異常検知に適用した場合の結果について説明する。図5は、実施の形態1の効果を説明する図である。
【0057】
<再現率>
図5(a)は、プロジェクト異常予測における再現率を示している。図5(a)の横軸はプロジェクト進捗率(%)であり、図5(a)の縦軸はプロジェクト異常予測の再現率(%)である。ここで再現率とは、目標未達のプロジェクトの何%を異常と検知できたかを示す指標である。したがって、図5(a)は、再現率が高いほど、予測精度が高いことを示している。
【0058】
図5(a)に示すように、本実施の形態では、いずれのプロジェクト進捗率においても、従来よりもプロジェクト異常予測の再現率が高くなっている。すなわち、本実施の形態では、従来よりもプロジェクト異常の発生をより正確に予測できるようになっている。また、図5(a)に示すように、プロジェクト異常予測の再現率は、プロジェクト進捗率が高くなるにつれて向上している。
【0059】
また、図5(a)に示すように、従来では、プロジェクト進捗率70%におけるプロジェクト異常予測の再現率が他のプロジェクト進捗率よりも低下している。一方、本実施の形態では、このような再現率の低下はなく、予測精度が安定していることがわかる。
【0060】
<偽陽性率>
図5(b)は、プロジェクト異常予測における偽陽性率を示している。図5(b)の横軸はプロジェクト進捗率(%)であり、図5(a)の縦軸はプロジェクト異常予測の偽陽性率(%)である。ここで偽陽性率とは、目標達成のプロジェクトの何%を誤って異常と検知したかを示す指標である。したがって、図5(b)は、偽陽性率が低いほど、予測精度が高いことを示している。
【0061】
図5(b)に示すように、本実施の形態では、いずれのプロジェクト進捗率においても、従来よりもプロジェクト異常予測における偽陽性率が低くなっている。すなわち、本実施の形態では、従来よりもプロジェクト異常の発生をより正確に予測できるようになっている。また、図5(b)に示すように、本実施の形態では、プロジェクト進捗率による偽陽性率の急激な上昇はなく、予測精度が安定していることがわかる。
【0062】
(実施の形態2)
次に、実施の形態2について説明する。多重代入法では、データセットの欠測処理から学習モデルを用いた予測処理まで、パターンごとに並列に実行されることが望ましい。しかし、そうすると、プロセッサに掛かる負荷が大きいため、プロセッサの能力によっては、実装難易度が高くなってしまう場合ある。
【0063】
そこで、本実施の形態では、プロセッサに掛かる負荷を抑えつつ、同一のデータセットに対する複数パターンの欠測処理を高速で行いつつ、予測精度を安定して向上させる構成について説明する。
【0064】
図6は、本発明の実施の形態2に係るデータ処理方法を説明する図である。図6に示すように、本実施の形態では、欠測処理のパターンごと、すなわち各回の欠測処理結果の統合処理が行われる。そして、統合された欠測処理結果に基づき、学習モデルの構築および学習データの生成が行われ、予測処理が実行される。すなわち、本実施の形態では、予測処理は1系統のみで行われ、複数パターンでの予測処理は行われない。
【0065】
図7は、本発明の実施の形態2に係るデータ処理方法の一例を示すフロー図である。図7図3に類似しているが、予測結果の統合処理を行うステップS80が削除されている点が、図3とは異なる。図8は、本発明の実施の形態2に係る欠測処理の詳細を示すフロー図である。図8は、図4と類似しているが、ステップS34の後に、ステップS135が追加されている点が、図3とは異なる。
【0066】
図8のステップS135では、欠測処理部13は、パターンごとの欠測処理結果を統合する処理を行う。具体的には、欠測処理部13は、パターンごとの欠測処理済のデータセットを比較し、同一の欠測値に対し、パターンごとに代入された予測値を統合し、欠測処理済の統合データセットDAT_Fを生成する。例えば、欠測処理部13は、同一の欠測値に対し代入された予測値の多数決を取り、多数決で決定した値を統合予測値とする。そして、欠測処理部13は、統合予測値を対応する欠測値に代入して欠測処理済の統合データセットDAT_Fを生成する。あるいは、欠測処理部13は、パターンごとの予測値の平均値を算出し、算出した平均値を統合予測値としてもよい。欠測処理済の統合データセットDAT_Fが生成されると、欠測処理が終了する。
【0067】
本実施の形態のステップS50~S70では、ステップS135で生成された統合データセットDAT_Fを用いて学習モデルの構築が行われ(ステップS50)、統合データセットDAT_Fを含む学習用データが生成され(ステップS60)、ステップS50で構築された学習モデルおよびステップS60で生成された学習用データを用いた予測処理が行われる(ステップS70)。すなわち、ステップS50~S70では、パターンごとの予測処理は行われず、1系統の予測処理のみが実行される。
【0068】
本実施の形態によれば、複数パターンによる欠測処理結果が統合され、欠測処理済の統合データセットDAT_Fが生成される。そして、統合データセットDAT_Fに基づく1系統の予測処理のみが実行される。これによりプロセッサに掛かる負荷を低減させることが可能となる。また、複数パターンによる欠測処理結果が統合された欠測処理済の統合データセットDAT_Fは、データの分布の偏りが抑えられるので、予測精度を安定して向上させることが可能である。
【0069】
(実施の形態3)
次に、実施の形態3について説明する。前述した実施の形態1~2は、汎用的なロジックを含むツールにライブラリを提供することで情報処理装置を実現することが可能である。例えば、複数のツールを用意し、ツールごとに、それぞれ異なる機能を実現するライブラリを提供すれば、情報処理装置を実現可能である。
【0070】
図9は、本発明の実施の形態3に係る情報処理装置の構成を例示する図である。図9に示すように、本実施の形態では、情報処理装置300が、欠測処理を行うツール310、予測処理を行うツール330、予測統合処理を行うツール350に分離されている。各ツールには、それぞれ異なるライブラリが提供され、ライブラリにより各機能ブロックが実現される。
【0071】
それぞれのツールには、他のツールや装置と連携させるツールが接続される。例えば、データ記憶装置500とツール310との間には、欠測処理のパターンごとの分岐処理を行うツール371が設けられる。ツール310、330間には、欠測処理済のデータセットを連携させるためのツール373が設けられる。ツール330、350間には、パターンごとの予測結果を連携させるためのツール375が設けられる。
【0072】
このように、機能ごとに情報処理装置300を分離することで、ハードウェアを有効に利用することが可能となる。
【0073】
なお、本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。また、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
【0074】
また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。なお、図面に記載した各部材や相対的なサイズは、本発明を分かりやすく説明するため簡素化・理想化しており、実装上はより複雑な形状となる場合がある。
【符号の説明】
【0075】
1、300…情報処理装置、10…データ処理部、20…メモリ、30…不揮発性メモリ、40…ストレージ、310、330、350、371、373、375…ツール、500…データ記憶装置、COM…コンピュータ。
図1
図2
図3
図4
図5
図6
図7
図8
図9