IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】分析装置、分析方法、及びプログラム
(51)【国際特許分類】
   G06N 5/045 20230101AFI20241001BHJP
   G06N 20/00 20190101ALI20241001BHJP
【FI】
G06N5/045
G06N20/00
【請求項の数】 10
(21)【出願番号】P 2023501926
(86)(22)【出願日】2021-02-25
(86)【国際出願番号】 JP2021007191
(87)【国際公開番号】W WO2022180749
(87)【国際公開日】2022-09-01
【審査請求日】2023-08-02
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】佐久間 啓太
(72)【発明者】
【氏名】坂井 智哉
(72)【発明者】
【氏名】亀田 義男
(72)【発明者】
【氏名】玉野 浩嗣
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2020-042737(JP,A)
【文献】特開平09-233700(JP,A)
【文献】国際公開第2020/255414(WO,A1)
【文献】特開2020-201727(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 5/04
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価する指標評価手段と、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する要因特定手段と
を有し、
複数種類の前記指標は、
(1)平均二乗誤差を用いた前記予測モデルの精度、
(2)異常検知手法を用いて計算される、訓練データに対する予測ミスサンプルの異常度、
(3)前記訓練データの分布と運用データの分布の分布間距離から計算されるデータ分布変化量、
の少なくとも一つを含み、
前記訓練データは、前記予測モデルの訓練に用いられた説明変数のデータ又は目的変数のデータであり、
前記運用データは、前記予測モデルの運用時に得られたデータであり、前記予測モデルによる予測に用いられた説明変数のデータ又は目的変数の実績値のデータである
分析装置。
【請求項2】
前記要因特定手段は、複数種類の前記指標の評価結果の組み合わせと要因とを対応付ける規則にしたがって、前記予測モデルによる予測のミスの要因を特定する
請求項1に記載の分析装置。
【請求項3】
前記要因特定手段は、複数種類の前記指標のうちの所定の指標の評価結果と、当該所定の指標の評価結果に応じて選択される前記指標の評価結果との組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する
請求項2に記載の分析装置。
【請求項4】
前記指標の算出アルゴリズム又は評価アルゴリズムを指定する指示を受付ける指示受付部をさらに有し、
前記指標評価手段は、前記指示で指定された前記算出アルゴリズム又は前記評価アルゴリズムにより前記指標の算出又は評価を行う
請求項1乃至3のいずれか一項に記載の分析装置。
【請求項5】
前記規則を指定する指示を受付ける指示受付部をさらに有し、
前記要因特定手段は、前記指示で指定された前記規則にしたがって、前記予測モデルによる予測のミスの要因を特定する
請求項2に記載の分析装置。
【請求項6】
前記要因特定手段により特定された前記要因を解消するための作業を決定する作業決定手段をさらに有する
請求項1乃至5のいずれか一項に記載の分析装置。
【請求項7】
前記指標に応じた所定のグラフの画像データを生成する可視化手段をさらに有する
請求項1乃至6のいずれか一項に記載の分析装置。
【請求項8】
前記異常度又は前記データ分布変化量の少なくとも一方は、目的変数に対して算出される前記指標である
請求項1乃至7のいずれか一項に記載の分析装置。
【請求項9】
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価し、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定し、
複数種類の前記指標は、
(1)平均二乗誤差を用いた前記予測モデルの精度、
(2)異常検知手法を用いて計算される、訓練データに対する予測ミスサンプルの異常度、
(3)前記訓練データの分布と運用データの分布の分布間距離から計算されるデータ分布変化量、
の少なくとも一つを含み、
前記訓練データは、前記予測モデルの訓練に用いられた説明変数のデータ又は目的変数のデータであり、
前記運用データは、前記予測モデルの運用時に得られたデータであり、前記予測モデルによる予測に用いられた説明変数のデータ又は目的変数の実績値のデータである
分析方法。
【請求項10】
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価する指標評価ステップと、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する要因特定ステップと
をコンピュータに実行させ
複数種類の前記指標は、
(1)平均二乗誤差を用いた前記予測モデルの精度、
(2)異常検知手法を用いて計算される、訓練データに対する予測ミスサンプルの異常度、
(3)前記訓練データの分布と運用データの分布の分布間距離から計算されるデータ分布変化量、
の少なくとも一つを含み、
前記訓練データは、前記予測モデルの訓練に用いられた説明変数のデータ又は目的変数のデータであり、
前記運用データは、前記予測モデルの運用時に得られたデータであり、前記予測モデルによる予測に用いられた説明変数のデータ又は目的変数の実績値のデータである
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は分析装置、分析方法、及びプログラムが格納された非一時的なコンピュータ可読媒体に関する。
【背景技術】
【0002】
訓練データに対する過学習又は過少学習、データの分布の変化等の要因により、あるデータ点に対する予測モデルの予測値が実績値から大きく外れることがある。これを予測ミスと呼ぶ。予測ミスの分析と予測ミスの要因を解消するための作業を人手で行う場合、分析担当者は、まず、予測モデル及び訓練データ等を用いた複数の指標に基づく多角的な分析をともなう専門的な検討を行い、要因を特定する。次に、分析担当者は、判明した要因を解消するための作業を考案し、それを実行する。
【0003】
予測モデルの評価に関する技術として、いくつかの技術が知られている。例えば、非特許文献1に記載された指標監視システムは、複数の指標に対する継続的な評価を行い、評価結果をシステムの利用者に提示する。また、特許文献1に記載された予測モデル維持システムは、予測精度とデータ分布変化量を継続的に評価し、評価結果より予測モデルの劣化状態を検知すると自動で再学習を行い、モデルを更新する。
【先行技術文献】
【非特許文献】
【0004】
【文献】Polyzotis, N., Zinkevich, M., Roy, S., Breck, E., & Whang, S. "Data validation for machine learning." Proceedings of Machine Learning and Systems 1 (2019): 334-347.
【特許文献】
【0005】
【文献】特開2019-87101号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1の指標監視システムは、複数の指標を個別に計算し、各指標の判定結果を指標ごとに個別に提示するのみである。そのため、依然として、予測ミスの要因の特定には、分析担当者による専門的な検討が必要とされる。また、特許文献1の予測モデル維持システムも、複数の指標についての評価結果に基づく予測ミスの要因の特定は行われない。
【0007】
そこで、本開示は上記課題を鑑みて、予測モデルを用いた予測における予測ミスの要因を様々な観点に基づいて容易に特定することができる分析装置、分析方法、及びプログラムを提供することを主な目的とする。
【課題を解決するための手段】
【0008】
本開示の第1の態様にかかる分析装置は、
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価する指標評価手段と、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する要因特定手段と
を有する。
【0009】
本開示の第2の態様にかかる分析方法では、
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価し、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する。
【0010】
本開示の第3の態様にかかるプログラムは、
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価する指標評価ステップと、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する要因特定ステップと
をコンピュータに実行させる。
【発明の効果】
【0011】
本開示によれば、予測モデルを用いた予測における予測ミスの要因を様々な観点に基づいて容易に特定することができる分析装置、分析方法、及びプログラムを提供できる。
【図面の簡単な説明】
【0012】
図1】実施形態の概要にかかる分析装置の構成の一例を示すブロック図である。
図2】実施の形態にかかる分析装置の構成の一例を示すブロック図である。
図3】記憶部に記憶される情報の例を表す模式図である。
図4】指標に対する判定結果の組み合わせの例を示す説明図である。
図5】表形式の要因決定規則の例を示す説明図である。
図6】フローチャート形式の要因決定規則の例を示す説明図である。
図7】作業決定規則の例を示す説明図である。
図8】可視化部が生成する画像データの例を示す模式図である。
図9】可視化部が生成する画像データの例を示す模式図である。
図10】可視化部が生成する画像データの例を示す模式図である。
図11】可視化部が生成する画像データの例を示す模式図である。
図12A】ユーザーインターフェースの例を示す模式図である。
図12B】ユーザーインターフェースの例を示す模式図である。
図12C】ユーザーインターフェースの例を示す模式図である。
図12D】ユーザーインターフェースの例を示す模式図である。
図13】実施の形態にかかる分析装置のハードウェア構成の一例を示す模式図である。
図14】実施の形態の分析装置の動作例を示すフローチャートである。
図15】要因決定規則及び作業決定規則の例を示す模式図である。
【発明を実施するための形態】
【0013】
<実施の形態の概要>
実施形態の詳細を説明する前に、まず、実施形態の概要について説明する。図1は、実施形態の概要にかかる分析装置1の構成の一例を示すブロック図である。図1に示すように、分析装置1は、指標評価部2と、要因特定部3とを有する。
【0014】
指標評価部2は、予測モデル、予測モデルで用いられる説明変数のデータ、又は、予測モデルで用いられる目的変数のデータについての指標を複数種類算出する。そして、指標評価部2は、算出した複数種類の指標のそれぞれを評価する。指標評価部2は、所定の任意の指標を算出する。例えば、指標は、予測モデルの精度であってもよいし、予測モデルを用いた予測にミスしたデータ(以下、予測ミスサンプルと称す)における説明変数又は目的変数の値の異常度であってもよいし、説明変数又は目的変数の分布の時間的な変化量であってもよい。なお、これらは例に過ぎず、指標評価部2は、他の指標を算出してもよい。
【0015】
要因特定部3は、複数種類の指標のそれぞれの指標評価部2による評価結果の組み合わせに応じて、予測モデルによる予測のミスの要因を特定する。要因特定部3は、例えば、評価結果の組み合わせと要因とを対応付ける予め定められた規則を用いて、要因を特定する。
【0016】
分析装置1によれば、複数種類の指標について評価が行われ、それらの評価結果の組み合わせに応じた要因が自動的に特定される。このため、分析装置1によれば、予測モデルを用いた予測における予測ミスの要因を様々な観点に基づいて容易に特定することができる。
【0017】
<実施の形態の詳細>
以下、実施形態を、図面を参照して詳細に説明する。本実施形態の分析装置は、予測モデルが予測ミスを起こした時、つまり、ある1つのデータ点に対する予測モデルによる予測が外れたときに、予測ミスを複数の指標を用いて分析することで、そのデータ点(予測ミスサンプル)に対する予測ミス要因を特定する。なお、対象とする予測モデルは任意であり、例えば、回帰モデルあってもよいし、分類モデルであってもよい。対象とするモデルが回帰モデルである場合、本実施形態の分析装置は、例えば、目的変数の予測値が適切でない要因を特定する。また、対象とする予測モデルが分類モデルである場合、本実施形態の分析装置は、例えば、ラベルの予測値又は分類スコア等が適切でない要因を特定する。
【0018】
本実施形態の分析装置は、予測ミスサンプル及び訓練データ等を用いて、複数の指標を計算し、複数指標を用いた分析を行うことで予測ミス要因を特定する。用いられる指標の例として、平均二乗誤差などの予測モデルの評価指標(予測モデルの精度)、異常検知手法を用いて計算される予測ミスサンプルの異常度、訓練データと運用データの説明変数の分布の分布間距離から計算されるデータ分布変化量などが挙げられる。
【0019】
図2は実施の形態にかかる分析装置10の構成の一例を示すブロック図である。図2に示すように、分析装置10は、記憶部20と、診断部30と、作業決定部40、可視化部50と、結果出力部60と、指示受付部70とを備える。
【0020】
まず、記憶部20について説明する。記憶部20は、予測ミス要因の分析に必要な情報を記憶している。具体的には、図3に示すように、記憶部20は、予測モデル21と、訓練データ22と、訓練テストデータ23と、運用データ24と、分析制御情報26を記憶している。
【0021】
予測モデル21は訓練データ22を用いて訓練された予測モデルである。すなわち、予測モデル21は、学習済みモデルである。予測モデル21は、入力データ(説明変数のデータ)を入力されると、目的変数の予測値を出力する関数としての機能を有する。上述の通り、予測モデル21のモデルの種類は、特に限定されない。
【0022】
訓練データ22は、予測モデル21の訓練及びパラメータチューニング等に用いられたデータであり、説明変数のデータと目的変数のデータのセットである。
【0023】
訓練テストデータ23は、予測モデル21の訓練時に、予測モデル21の汎化性能を評価するために使用されたデータであり、説明変数のデータと、目的変数のデータのセットである。訓練データ22及び訓練テストデータ23は、予測モデル21についての訓練フェーズにおけるデータといえる。
【0024】
運用データ24は、予測モデル21の運用時に得られたデータであり、予測モデル21による予測を得るために用いられた説明変数のデータと、説明変数のデータに対応する目的変数の実績値を含むデータである。運用データ24は、説明変数のデータに対応する目的変数の実績値の他に、予測モデル21により予測された、説明変数のデータに対応する目的変数の予測値を含んでもよい。
【0025】
運用データ24は、予測ミスサンプル25を含んでいる。予測ミスサンプル25は、予測ミスが起きたサンプルとして運用データ24の中から、例えば分析装置10の利用者によって指定されるものである。本実施の形態では、分析装置10は、後述する指示受付部70が受付けた指示により指定された運用データ24を予測ミスサンプル25として用いる。指定される予測ミスサンプル25は1つに限らず、複数であってもよい。複数の予測ミスサンプル25が指定された場合、分析装置10は、予測ミスサンプル一つ一つについて順番に予測ミス要因を特定する。
【0026】
分析制御情報26は、分析装置10の処理を制御する情報である。分析制御情報26としては、例えば、診断部30が指標の評価に用いるアルゴリズムを実装したプログラム、診断部30が指標の評価に用いる閾値の設定値、診断部30又は作業決定部40が用いる規則を定義する情報などが挙げられる。なお、記憶部20は、互いに代替可能な複数の分析制御情報26を記憶していてもよい。例えば、記憶部20は、分析制御情報26として、同種の指標の算出のための様々なアルゴリズムを記憶してもよいし、指標の評価に用いる閾値の様々な設定値(様々な評価アルゴリズム)を記憶してもよい。また、例えば、記憶部20は、分析制御情報26として、診断部30又は作業決定部40が用いる規則の様々な定義情報を記憶してもよい。分析装置10は、互いに代替可能な複数の分析制御情報26を記憶している場合、指示受付部70が受付けた指示により指定された分析制御情報26を用いて処理を行う。このような構成により、分析装置10は、様々な分析方法により、分析を実行することができる。
【0027】
次に、診断部30について説明する。診断部30は、記憶部20に記憶された情報を用いて、予測ミスサンプル25に対する予測ミス要因の特定を行う。具体的には、診断部30は、複数の指標それぞれについて、指標の計算と、指標の計算結果に対する評価とを行う。そして、診断部30は、それぞれの指標に対して得られた各評価結果を用いて、予測ミス要因を特定する。
【0028】
診断部30は、図2に示すように、指標評価部31及び要因特定部32を備える。指標評価部31は、図1の指標評価部2に相当する。また、要因特定部32は、図1の要因特定部3に相当する。したがって、指標評価部31は、指標を複数種類算出して、それぞれを評価する。また、要因特定部32は、指標評価部31による複数種類の指標のそれぞれの評価結果の組み合わせに応じて、予測モデル21による予測のミスの要因を特定する。以下、指標評価部31及び要因特定部32の詳細について説明する。
【0029】
指標評価部31は、記憶部20の情報を用いて、予測ミス要因の分析に必要な複数の指標について、指標の計算と、指標の計算結果に対する判定を行う。例えば、指標評価部31は、訓練データ22に対する予測ミスサンプル25の説明変数の異常度を計算し、計算された異常度を評価する。この場合、指標評価部31は、計算された異常度の値が、予測ミスサンプル25が異常なサンプルであると認定される値であるかを判定することにより、指標を評価する。すなわち、この場合、指標評価部31は、計算された異常度を用いて、予測ミスサンプル25が異常なサンプルであるかを判定する。別の例として、指標評価部31は、訓練データ22と運用データ24との間の分布間距離(以下、データ分布変化量とも称す)を計算し、計算された分布間距離を評価する。この場合、指標評価部31は、計算された分布間距離の値が、訓練時と運用時とでデータの分布に変化があると認定される値であるかを判定することにより、指標を評価する。すなわち、この場合、指標評価部31は、計算された分布間距離を用いて、訓練時と運用時とでデータの分布の変化が発生しているか否かを判定する。なお、これらは、例に過ぎず、指標評価部31は、様々な種類の指標について算出及び評価を実行することができる。このように、本実施の形態では、指標評価部31は、指標に対する評価として、指標に対して所定の判定を行う。それぞれの指標に対する判定は、例えば、分析制御情報26として記憶された閾値を用いて行われる。なお、分析制御情報26として、閾値自体の代わりに、閾値を特定するためのパラメータが記憶されていてもよい。
【0030】
ここで、一つの予測ミスサンプル25についての予測ミスの要因を特定するために計算される指標の種類と数は任意であるが、2つより多い指標を用いることが好ましい。これは、多数の指標を用いることで、より多角的な分析が可能となり、特定可能な予測ミス要因の種類を増やすことができるためである。
【0031】
また、指標評価部31における各指標についての評価手法は任意である。例えば、予測ミスサンプル25の説明変数の異常度を計算し、予測ミスサンプルが異常なサンプルかどうかの判定を行う際は、ホテリング法やk近傍法といった様々な異常検知手法を用いることができる。各指標に対して指標評価部31が用いる評価手法(アルゴリズム)を実現するためのプログラムは、上述した通り、例えば分析制御情報26として記憶部20に記憶されている。また、上述の通り、分析制御情報26は、同種の指標について、異なるアルゴリズムが実装された複数のプログラムを含んでもよい。例えば、分析制御情報26は、予測ミスサンプル25の説明変数の異常度に関する評価手法(アルゴリズム)を実装するプログラムとして、ホテリング法を実装したプログラムとk近傍法を実装したプログラムの二つを含んでもよい。このような構成によれば、診断部30は、使用する分析制御情報26を切り替えることで、様々な評価手法を用いた指標の評価が可能となる。
【0032】
要因特定部32は、指標評価部31による複数種類の指標のそれぞれの評価結果の組み合わせに応じて、予測ミス要因を特定する。本実施の形態では、要因特定部32は、指標毎の所定の判定の判定結果の組み合わせに応じて、予測ミス要因を特定する。具体的には、要因特定部32は、複数の判定結果の組み合わせに予測ミス要因を対応させる所定の規則(以下、要因決定規則)を用いることで予測ミス要因を特定する。図4は二つの異なる判定(Yes、No)を行った場合の判定結果の組み合わせを示している。すなわち、図4は、指標評価部31による第一の指標に対する判定結果と第二の指標に対する判定結果の組み合わせを示している。本実施の形態では、図4に示すように、いずれかの指標についての判定結果が異なれば、異なる組み合わせとして要因決定規則が適用される。このように、複数の判定結果を個別に考慮するのではなく、判定結果の組み合わせとして統合的に考慮することで、複数の指標を用いた多角的な分析による予測ミス要因の特定が可能となる。結果として、利用者が各指標それぞれについての判定結果を分析することで予測ミス要因を特定するという過程が不要になる。
【0033】
このように、要因特定部32は、複数種類の指標の評価結果(判定結果)の組み合わせと要因とを対応付ける規則にしたがって、予測モデル21による予測のミスの要因を特定する。要因特定部32が用いる要因決定規則の内容は任意である。また、要因決定規則は、上述の通り、例えば分析制御情報26として記憶部20に記憶されている。また、上述の通り、分析制御情報26は、分析対象とする判定結果の種類又は数が異なる複数の要因決定規則を含んでもよい。このような構成によれば、診断部30は、使用する分析制御情報26を切り替えることで、異なる要因決定規則を用いた予測ミスの分析が可能となる。なお、用いられる要因決定規則に対応した判定結果を得る必要があるため、指標評価部31で評価すべき指標の種類及び数は、要因決定規則に依存する。
【0034】
また、要因決定規則の形式も任意である。要因特定部32が用いる要因決定規則は、例えば、判定結果の組み合わせを、表を用いて予測ミス要因に割り当てる要因決定規則であってもよいし、判定結果の組み合わせを、フローチャートを用いて予測ミス要因に割り当てる要因決定規則であってもよい。要因決定規則のこれらの形式について以下で説明する。
【0035】
図5は、要因特定部32が用いる表形式の要因決定規則の一例を示したものである。この例では、指標評価部31は、記憶部20に記憶された情報を用いて、3種類の異なる指標に対応する3つの問Q1、Q2、Q3についてYesまたはNoの判定結果を生成する。問Q1では、訓練データ22に対する予測ミスサンプル25の説明変数の異常度から、予測ミスサンプル25が正常なサンプルであるかを判定している。問Q2では、近傍訓練サンプルと、予測モデル21とを用いて平均二乗誤差などの評価指標を計算することで、訓練データ22に対する予測モデル21の近傍領域での当てはまりの良さを判定している。ここで、近傍訓練サンプルとは、近傍領域内に位置する、訓練データ22におけるサンプルをいう。また、近傍領域とは、予測ミスサンプル25の説明変数の値に近いと判断される説明変数の値の範囲をいう。このとき、近傍領域の具体的な定義方法は任意であり、例えば、説明変数の値を用いて計算される予測ミスサンプル25からの距離(ユークリッド距離等)が所定の距離以下である領域を近傍領域としてもよい。問Q3では、訓練データ22の説明変数の分布と運用データ24の説明変数の分布とのデータ分布変化量を用いて、訓練時と運用時でデータの分布が変化しているかを判定している。
【0036】
要因特定部32は、指標評価部31による判定結果と図5の要因決定規則を用いて予測ミス要因を特定する。3種類の判定結果の組み合わせは8種類あり、表形式の要因決定規則では、この8種類のそれぞれに対して予測ミス要因を割り当てている。図5の場合、8種類の組み合わせを4種類の予測ミス要因に割り当てている。
【0037】
上述した通り、要因特定部32が用いる要因決定規則として、フローチャート形式の要因決定規則が用いられてもよい。図6は、要因特定部32が用いるフローチャート形式の要因決定規則の一例を示したものである。なお、図5に示した要因決定規則と図6に示した要因決定規則は、形式が異なるものの、判定結果に対する要因の割り当てについての規則は同じである。フローチャート形式の要因決定規則では、各指標の判定の依存関係を考慮して各判定をフローチャート上に配置することができる。これを、図6のQ1とQ2とQ3の関係に着目して説明する。
【0038】
図6のフローチャート形式の要因決定規則は、最初にQ1を判定し、Q1の判定結果がYesの場合はQ2を判定し、Noの場合はQ3を判定するという構造になっている。なお、図6の要因決定規則におけるQ1、Q2、Q3は図5の要因決定規則におけるQ1、Q2、Q3と同様である。このように、要因特定部32が用いる要因決定規則として、フローチャート形式の要因決定規則が用いられてもよい。すなわち、要因特定部32は、複数種類の指標のうちの所定の指標の評価結果(判定結果)と、当該所定の指標の評価結果に応じて選択される指標の評価結果との組み合わせに応じて、予測モデル21による予測のミスの要因を特定してもよい。つまり、要因特定部32は、要因の特定に用いる指標を指標の評価結果(判定結果)に基づいて順番に特定するフローチャートを用いてもよい。
【0039】
Q1の判定結果がYesの場合は、予測ミスサンプル25の説明変数が正常であり、予測ミスサンプル25と説明変数が似ているサンプルは高頻度で発生しうることを意味する。よって訓練データ22において近傍訓練サンプルは多数存在していることが想定される。この場合、これらの近傍訓練サンプルの目的変数の実績値を適切に学習すると、予測モデル21は予測精度の高い予測モデルとなる。また、Q1の判定結果がYesの場合は、予測ミスサンプル25が正常なサンプルであるため、訓練時と運用時でデータ分布が変化している可能性は低い。したがって、Q1の判定結果がYesの場合は、Q3の判定をあえて行う意義は乏しい。
【0040】
もしQ1の判定結果がYesであった場合は、次にQ2で、予測モデル21が近傍訓練サンプルの目的変数の実績値を適切に学習していたかを判定する。Q2の判定結果がYesの場合は、予測モデル21は予測精度の高い予測モデルであると想定されるので、予測ミスを起こさないことが期待される。従って、分析装置10の誤動作(ユーザーインターフェースの誤動作等)、または、システムの利用者の誤操作によって予測ミスのないサンプルが予測ミスサンプル25として分析された等の、予測モデルやデータ以外の要因が考えられる。このため、この場合、要因特定部32は、要因決定規則を参照して、予測ミスの要因は、予測モデル及びデータ以外のエラーであると決定する。また、Q2の判定結果がNoであるとき、これは過少学習等により、予測モデル21が近傍訓練サンプルの目的変数の実績値を適切に学習できていないことが考えられる。このため、この場合は、予測モデル21は予測ミスサンプル25の周辺で局所的なエラーを持つモデルであったと結論づけられる。このため、この場合、要因特定部32は、要因決定規則を参照して、予測ミスの要因は、局所的なエラーであると決定する。このように、Q1の判定結果がYesであった場合に初めてQ2の判定が意味を持つので、Q1の後にQ2が配置されている。
【0041】
一方でQ1の判定結果がNoであった場合は、訓練データ22内に近傍訓練サンプルが十分に存在しないことを意味しており、この場合はQ2で予測モデル21の近傍訓練サンプルに対する当てはまりの良さを精度よく判定することは不可能である。そのため、Q1の判定結果がNoの場合は、予測ミスサンプル25のような異常度の高いサンプルが発生した理由を特定することが重要となる。そこでQ3では、データの分布が時間の経過による変化をしているかを判定している。以下、時間の経過による変化を時間変化と称す。Q3の判定結果がYesの場合は、次のように結論付けられる。すなわち、データの分布の時間変化により、訓練データ22と比較して異常度の高いサンプルが発生する頻度が増加したため、結果として、訓練データ22と比較して高い異常度を持つ予測ミスサンプル25が発生し、予測ミスが起きたと結論付けられる。このため、この場合、要因特定部32は、要因決定規則を参照して、予測ミスの要因は、データ分布の変化であると決定する。また、Q3の判定結果がNoの場合は、データの分布は時間変化していないので、予測ミスサンプル25はデータ分布の時間変化以外の要因によって発生した異常なサンプルであったと結論付けられる。このため、この場合、要因特定部32は、要因決定規則を参照して、予測ミスの要因は、何らかの理由による説明変数の異常であると決定する。このように、フローチャート形式の要因決定規則では、Q1の判定結果がNoである理由の詳細をQ3で判断するという構造になっており、Q1の後にQ3が配置されている。
【0042】
上述の通り、図5で示した要因決定規則と図6で示した要因決定規則は、問Qの内容と最終的に特定される予測ミス要因が共通しており、規則としては同一のものである。しかし、フローチャート形式の要因決定規則のような各指標の判定結果の依存関係を明示的に考慮した要因決定規則を用いると、特定された予測ミス要因に対する利用者の解釈が容易になるとともに、計算機資源の節約にもつながる。このことについて、図6に示した要因決定規則を例に説明する。
【0043】
図6のようなフローチャート形式の要因決定規則を用いると、フローチャートにおける分岐があるため、全ての問Qについて判定する必要がなく、判定すべき問Qが絞られる。このため、図5に示した表形式の要因決定規則のようにすべての指標についての判定結果の組み合わせを考慮する場合と比べて、分析装置10が分析時に考慮すべき組み合わせの数が少なくなる。つまり、一部の指標の算出及び評価を省略することが可能となる。このため、計算機資源の節約につながる。また、フローチャート形式の要因決定規則を用いて決定される予測ミス要因は、フローチャートに沿って、判定結果を順番に追っていくと、なぜそのような予測ミス要因と決定されたのかが説明できる。このため、フローチャート形式の要因決定規則を用いた場合、特定された予測ミス要因の意味を利用者が理解しやすい。
【0044】
次に、作業決定部40について説明する。作業決定部40は、診断部30の要因特定部32により特定された要因を解消するための作業を決定する。本実施の形態では、作業決定部40は、診断部30によって特定された予測ミス要因に対して、その予測ミス要因を解消するための作業の提案文(以下、作業提案)を作成する。この時、作業決定部40は、予測ミス要因に対して作業提案を割り当てる所定の規則(以下、作業決定規則)を用いることで、作業提案を作成する。
【0045】
ここで、作業決定規則の一例を図7に示す。図7に例示された作業決定規則は、特定された要因に一対一対応で作業提案を割り当てる規則である。特定された予測ミス要因が「予測モデル及びデータ以外のエラー」であった場合は、システム(分析装置10)の動作テスト等を行うことで、システムの誤動作や利用者の誤操作等の問題が発生していないかを調べる必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。また、特定された予測ミス要因が「局所的なエラー」の場合は、過少学習等の可能性が高いため、予測モデルの学習時のハイパーパラメータを調節した上で再学習する必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。また、特定された予測ミス要因が「データ分布の変化」の場合は、予測モデル21が学習していなかった説明変数の領域に運用データが多数存在していることを意味している。このため、運用データを訓練データに加えて再学習することで、予測モデルの精度を向上させることができる。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。また、予測ミス要因が「説明変数の異常」であった場合は、予測ミスサンプル25が分布の変化とは無関係に異常な説明変数の値を持っていることを意味する。このため、そのようなサンプルが発生した理由を調査し、今後同じようなサンプルが発生したときのための対処方法を決める必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。
【0046】
このように、作業決定部40により、要因特定部32により特定された予測ミス要因を解消するために行うべき作業が決定される。これにより、予測ミス要因を解消するための作業提案を出力することが可能となるため、利用者は、すぐに改善に必要な作業に取り掛かることができる。つまり、利用者は、特定された要因から作業を決定するための検討を行わなくてもよい。
【0047】
次に、可視化部50について説明する。可視化部50は、診断部30における各判定結果を説明する情報の可視化を行う。各判定結果を説明する情報の可視化方法は任意である。例えば、予測ミスサンプルの異常度に関する可視化の場合、可視化部50は、図8のようなグラフの画像データを生成してもよい。図8では、訓練データ22の説明変数のデータから推定された説明変数に関する確率密度関数と予測ミスサンプル25の説明変数の実績値とがプロットされたグラフが図示されている。また、予測ミスサンプルの異常度に関する可視化の場合、可視化部50は、図9のようなグラフの画像データを生成してもよい。図9では、訓練データ22に対する訓練データ22内の個々のサンプルの異常度のヒストグラムと、訓練データ22に対する予測ミスサンプル25の説明変数の異常度とが示されたグラフが図示されている。これらのような可視化を行うことで、予測ミスサンプル25がどの程度異常なサンプルであるのかを視覚的に説明することができる。
【0048】
判定結果を説明する情報(画像データ)を生成するためのプログラムは、分析制御情報26として記憶部20に記憶されていてもよい。この場合、分析制御情報26は、図8及び図9により例示した異なる可視化を行うために、ある指標について異なる可視化方法を実現する複数のプログラムを保持していてもよい。このような構成によれば、可視化部50は、各判定結果を説明する可視化を行う際に、使用する分析制御情報26を切り替えることで、異なる可視化を実現することができる。
【0049】
なお、上記では、予測ミスサンプルの異常度についての可視化を例に挙げたが、可視化部50は、他の判定結果を説明する情報の可視化を行ってもよい。例えば、可視化部50は、データに対するモデルの当てはまりの良さに関する可視化のために、図10のようなグラフの画像データを生成してもよい。図10では、予測ミスサンプル25の近傍領域における、予測モデル21による目的変数の予測値と、訓練データ22の目的変数の実績値とが示されたグラフが図示されている。このような可視化を行うことで、予測モデル21が訓練データ22に対してどのように当てはまっているのかを視覚的に説明することができる。
【0050】
このように、可視化部50は、指標に応じた所定のグラフの画像データを生成してもよい。このような可視化により、利用者は、各指標についての判定結果の妥当性を視覚的に確認することができる。
【0051】
また、可視化部50は、要因決定規則がフローチャート形式だった場合に、図11のような、フローチャートにおける判定結果の流れを説明する画像データを生成してもよい。すなわち、可視化部50は、要因の特定に用いる指標と当該指標を用いる順序とを定義するフローチャートと、当該フローチャートにおける遷移の履歴とを表す画像データを生成してもよい。このような可視化を行うことで、利用者は特定された予測ミス要因の意味を理解しやすくなる。
【0052】
次に、結果出力部60について説明する。結果出力部60は、指標評価部31による指標の計算結果、指標評価部31による指標の判定結果、要因特定部32が特定した予測ミス要因、作業決定部40が作成した作業提案、及び、可視化部50が作成した画像データ等を出力する。なお、結果出力部60は、これらの全てを出力してもよいし、これらの一部だけを出力してもよい。結果出力部60の出力方法は任意であり、結果出力部60は、例えば、モニター(ディスプレイ)等に上述した情報を表示してもよい。また、結果出力部60は、他の装置に対して上述した情報を送信してもよい。
【0053】
次に、指示受付部70について説明する。指示受付部70は、分析装置10の利用者からの指示を受付ける。例えば、指示受付部70は、運用データ24のどのサンプルが予測ミスサンプル25であるかを指定する指示を受付ける。これにより、利用者は、分析対象のサンプルを容易に変更することが可能となる。指示受付部70のユーザーインターフェースは例えば、モニター(ディスプレイ)に表示されてもよい。すなわち、指示受付部70は、指示を受付けるための画面をモニターに表示してもよい。指示受付部70は、例えば、分析装置10に接続された入力装置(例えば、マウス、キーボードなど)を介して、利用者からの指示を受付ける。
【0054】
なお、上述した通り、指示受付部70は、指標の算出アルゴリズム又は評価アルゴリズムを指定する指示を受付けてもよい。この場合、指標評価部31は、指示で指定された算出アルゴリズム又は評価アルゴリズムにより指標の算出又は評価を行う。また、指示受付部70は、要因決定規則を指定する指示を受付けてもよい。この場合、要因特定部32は、指示で指定された要因決定規則にしたがって、予測モデル21による予測のミスの要因を特定する。このような構成とすることにより、利用者は、分析方法を容易に変更することが可能となる。なお、指示受付部70は、上述した指定に限らず、作業決定規則を指定する指示を受付けてもよいし、可視化方法を指定する指示を受付けてもよい。
【0055】
図12Aから図12Dは本実施形態の分析装置10における結果出力部60と指示受付部70が提供するユーザーインターフェースの一例を示す模式図である。図12Aは、分析対象のサンプル、すなわち予測ミスサンプル25を指定するための分析対象選択画面901と、予測ミスサンプル25に対する予測ミス要因についての分析結果を表示するための分析結果画面902とを含むウィンドウ900Aの例を示している。例示したユーザーインターフェースは、分析対象選択画面901で分析対象の予測ミスサンプルが選択されると、分析結果画面902に予測ミス要因と作業提案が出力されるというユーザーインターフェースとなっている。また、ウィンドウ900Aは、ウィンドウ900Bを表示するためのボタン903_1と、ウィンドウ900Cを表示するためのボタン903_2と、ウィンドウ900Dを表示するためのボタン903_3とを含んでいる。ここで、ウィンドウ900B(図12B参照)は、指標評価部31による判定の詳細について表示するウィンドウである。また、ウィンドウ900C(図12C参照)は、図11で示したようなフローチャートを用いた説明の画像を表示するウィンドウである。また、ウィンドウ900D(図12D参照)は、図8乃至図10で示したようなグラフを用いた説明の画像を表示するウィンドウである。このように、利用者は必要に応じて、様々な内容を確認することができる。
【0056】
次に、分析装置10のハードウェア構成について説明する。図13は、分析装置10のハードウェア構成の一例を示す模式図である。図13に示すように、分析装置10は、入出力インタフェース150、ネットワークインタフェース151、メモリ152、及びプロセッサ153を含む。
【0057】
入出力インタフェース150は、分析装置10と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース150には、マウス及びキーボードなどの入力装置、並びに、モニター(ディスプレイ)などの出力装置が接続される。
【0058】
ネットワークインタフェース151は、必要に応じて他の任意の装置と通信するために使用される。ネットワークインタフェース151は、例えば、ネットワークインタフェースカード(NIC)を含んでもよい。
【0059】
メモリ152は、例えば、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ152は、プロセッサ153により実行される、1以上の命令を含むソフトウェア(コンピュータプログラム)、及び分析装置10の各種処理に用いるデータなどを格納するために使用される。例えば、上述した記憶部20は、メモリ152などの記憶装置により実現されてもよい。
【0060】
プロセッサ153は、メモリ152からソフトウェア(コンピュータプログラム)を読み出して実行することで、診断部30、作業決定部40、可視化部50、結果出力部60、及び指示受付部70の処理を行う。プロセッサ153は、例えば、マイクロプロセッサ、MPU(Micro Processor Unit)、又はCPU(Central Processing Unit)などであってもよい。プロセッサ153は、複数のプロセッサを含んでもよい。
このように、分析装置10は、コンピュータとしての機能を備えている。
【0061】
また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0062】
次に、本実施形態の分析装置10の動作を説明する。図14は、本実施形態の分析装置10の動作例を示すフローチャートである。
【0063】
まず、分析装置10による分析処理を行う前の準備として、記憶部20に、予測モデル21と訓練データ22と訓練テストデータ23と運用データ24が記憶される(ステップS11)。例えば、利用者による操作により、記憶部20にこれらの情報が記憶される。なお、分析制御情報26については、予め記憶部20に記憶されている。次に、利用者が分析対象の予測ミスサンプル25を指定する指示を分析装置10に入力し、指示受付部70がこの指示を受付ける(ステップS12)。次に、診断部30は、複数の指標の計算と、各指標に対する判定を行い、要因決定規則を用いて予測ミス要因を特定する(ステップS13)。次に、作業決定部40は特定された予測ミス要因を解消するための作業提案を作成する(ステップS14)。次に、可視化部50は、分析過程を説明する情報の可視化を行う(ステップS15)。そして、結果出力部60は、予測ミス要因の特定結果、作業提案、及び可視化された情報を表示する(ステップS16)。
【0064】
以上、分析装置10について説明した。分析装置10によれば、複数種類の指標について評価が行われ、それらの評価結果の組み合わせに応じた要因が自動的に特定される。このため、分析装置10によれば、予測モデルを用いた予測における予測ミスの要因を様々な観点に基づいて容易に特定することができる。また、特に、分析装置10では、作業決定部40により、予測ミス要因を解消するために行うべき作業が決定されるため、利用者はどのような作業をすべきかについて検討を省略することができる。さらに、分析装置10は、可視化部50を備えているため、分析装置10における分析過程を説明する情報を可視化することができる。なお、上述した分析装置10の構成は一例に過ぎず、種々の変更が可能である。例えば、分析装置10は、予測モデル21を用いて予測を行う処理部をさらに有していてもよい。
【0065】
ところで、上述した説明では、理解を助けるために、要因決定規則及び作業決定規則について具体例を示したが、これらは上記の具体例に限られない。例えば、次のような規則が用いられてもよい。
【0066】
以下では、要因決定規則と、作業決定規則について、上記の例とは異なる具体例をあげる。図15は、要因決定規則及び作業決定規則の他の具体例を示す模式図である。なお、図15では、フローチャート形式の要因決定規則が図示されている。図15に示した要因決定規則は図5及び図6に示した要因決定規則より、扱う指標の数が多いため、より多角的な分析が可能となる。
【0067】
図15の例では、指標評価部31が最大で5つの指標の計算と、それらに対応するQ1からQ5の5つの判定を行い、要因特定部32が、フローチャート形式の要因決定規則に従って予測ミス要因を特定している。そして、作業決定部40が、予測ミス要因と、それを解決するための作業提案を一対一に対応させる作業決定規則を用いて作業提案を作成している。以下で、図15に示したフローチャート形式の要因決定規則の構成と、この要因決定規則に登場する各問Qに対応する指標の評価について説明する。
【0068】
Q1では、訓練データ22に対する予測ミスサンプル25の説明変数の異常度から、予測ミスサンプル25が正常なサンプルであるかを判定している。また、Q2では、Q1の判定結果がYesの場合に、予測ミスサンプル25の目的変数の実績値が、近傍訓練サンプルの目的変数の実績値と同程度の値であるかを判定している。Q1とQ2の判定を行うことにより、予測ミスサンプル25が、訓練データ22と比較されたときに説明変数と目的変数に関して正常なサンプルであるのかを判断することができる。Q1及びQ2に対応する指標評価部31の処理は、異常検知技術を用いて実装可能である。例えば、ホテリング法と呼ばれる異常検知技術を用いる場合は、Q1を判定するために、指標評価部31は、訓練データ22の説明変数の分布を用いて予測ミスサンプル25のマハラノビス距離を計算し、これを異常度とする。同様に、この場合、Q2を判定するために、指標評価部31は、近傍訓練サンプルの目的変数の分布を用いて予測ミスサンプル25のマハラノビス距離を計算し、これを異常度とする。そして、計算された異常度に対して、指標評価部31は、分析制御情報26として記憶された閾値を用いて、予測ミスサンプル25が正常なサンプルであるかを判定する。異常なサンプルと判定された場合は、Q1又はQ2の判定結果はNoとなる。
【0069】
Q4では、Q1の判定結果がNoの場合に、訓練データ22と運用データ24の説明変数に着目して、データの分布に時間変化が起きているかを判定している。また、Q5では、Q2の判定結果がNoの場合に、近傍訓練サンプルと、近傍領域内に位置する運用データ24におけるサンプル(以下、近傍運用サンプル)の目的変数の分布に着目して、データの分布に時間変化が起きているかを判定している。このように、Q5で、近傍領域のサンプルだけに注目することで、説明変数と目的変数の相関の影響を取り除くことが可能となり、目的変数のノイズの分布の時間変化を計算しやすくなる。診断部30は、Q4とQ5の判定を行うことにより、予測ミスサンプル25が異常なサンプルである場合に、このような異常なサンプルが出現した理由がデータの分布の時間変化にあるかを判断している。Q4及びQ5に対応する指標評価部31の処理は、分布間距離の推定技術又は変化点検知技術を用いて実装可能である。例えば、分布間距離の推定技術を用いる場合、Q4を判定するために、指標評価部31は、訓練データ22と運用データ24の説明変数の実績値の分布を用いてカルバック・ライブラー距離などの分布間距離を計算し、これをデータの分布変化量とする。同様に、この場合、Q5を判定するために、指標評価部31は、近傍訓練サンプルと近傍運用サンプルの目的変数の実績値の分布を用いてカルバック・ライブラー距離などの分布間距離を計算し、これをデータの分布変化量とする。そして、計算されたデータの分布変化量に対して、指標評価部31は、分析制御情報26として記憶された閾値を用いて、データの分布に時間変化が起きているか否かを判定する。
【0070】
Q3は、Q1とQ2の判定結果がともにYesだった場合(つまり、予測ミスサンプル25が訓練データ22との比較において正常なサンプルであると判定された場合)に判定される。Q3は、予測ミスサンプル25の近傍で、予測モデル21が訓練データ22を過少学習も過学習もしていないかを判定する問である。Q3の判定結果を出すことによって、予測ミスの原因が予測モデル21にあるのかを判断することができる。Q3に対応する指標評価部31の処理は、予測モデルの様々な評価手法を用いて実装可能である。例として平均二乗誤差等の予測モデルの評価指標を用いる手法が挙げられる。具体的には、Q3を判定するために、指標評価部31は、近傍訓練サンプルと予測モデル21を用いて、平均二乗誤差を計算し、分析制御情報26として記憶された第一の閾値と比較することで、近傍訓練サンプルへの過少学習の有無を判定する。さらに、指標評価部31は、近傍領域内に位置する訓練テストデータ23におけるサンプル(近傍テストサンプル)と、予測モデル21とを用いて平均二乗誤差を計算し、分析制御情報26として記憶された第二の閾値と比較する。これにより、指標評価部31は、近傍訓練サンプルへの過学習の有無を判定する。なお、第一の閾値と第二の閾値は同じであってもよいし、異なってもよい。このようにして、過少学習と過学習がともに起きていないかが判定される。過少学習も過学習もいずれも起きていない場合、訓練データ及び訓練テストデータに対する予測モデル21の当てはまりが良いと判定され、Q3の判定結果は、Yesとなる。
【0071】
15に示した要因決定規則と図6に示した要因決定規則の大きな違いとして、図15の要因決定規則では目的変数に関するQ2とQ5の判定が追加されている点が挙げられる。Q2では、近傍訓練サンプルの目的変数と比較して、予測ミスサンプル25の目的変数の実績値が通常の値であるかを判定している。また、Q5では、予測ミスサンプル25の目的変数の実績値が異常なときに、そのような異常なサンプルが発生した理由が近傍運用サンプルの目的変数の分布の時間変化にあるかを判定している。これら2つの判定を増やすことで、目的変数の値に着目した分析が可能となり、図6に示した要因決定規則を用いた場合よりも詳細な予測ミス要因の特定が可能となる。
【0072】
次に、図15の要因決定規則における各問Qの依存関係と、決定される予測ミス要因について説明する。まず、Q1の判定結果がNoの場合は、訓練データ22における近傍訓練サンプルが十分に存在しないことを意味している。このとき、仮に予測モデル21が近傍訓練サンプルに対して当てはまりが良くても、予測モデル21は予測ミスサンプル25に対する精度の高い予測は困難である。そのため、次にQ4では、予測ミスサンプル25のような予測が困難なサンプルが発生した理由が、説明変数のデータの分布の変化にあるかを判定している。Q4の判定結果がNoである場合は、予測ミスサンプル25がデータの分布の変化とは無関係に発生した異常な説明変数の値を持つサンプルであったことが予測ミス要因と結論付けられる。つまり、予測ミスの要因は、何らかの理由による説明変数の異常であると結論付けられる。Q4の判定結果がYesの場合は、説明変数についての分布の時間変化により、異常な説明変数の値を持つサンプルが発生する頻度が増加したため、結果として、異常な説明変数の値を持つ予測ミスサンプル25が発生し、予測ミスが起きたと結論付けられる。
【0073】
Q1の判定結果がYesの場合は、次にQ2で、予測モデル21が近傍訓練サンプルの実測値を適切に学習したときに予測ミスサンプル25の目的変数の実測値を精度よく予測可能であるかを判定している。Q2の判定結果がNoの場合、予測ミスサンプル25の目的変数の値は近傍訓練サンプルの目的変数の値に対して異常な値であり、精度の高い予測が困難であることを意味する。そこで次に、Q5で、このような異常な目的変数を持つサンプルが発生した理由が目的変数のデータの分布の変化にあるかを判定している。Q5の判定結果がNoである場合は、予測ミスサンプル25がデータの分布の変化とは無関係に発生した異常な目的変数の値を持つサンプルであったことが予測ミス要因と結論付けられる。つまり、予測ミスの要因は、何らかの理由による目的変数の異常であると結論付けられる。Q5の判定結果がYesの場合は、目的変数について分布の時間変化により、異常な目的変数の値を持つサンプルが発生する頻度が増加したため、結果として、異常な目的変数の値を持つ予測ミスサンプル25が発生し、予測ミスが起きたと結論付けられる。
【0074】
Q2の判定結果がYesの場合は、次にQ3で予測モデル21が近傍訓練サンプルの目的変数の実績値を適切に学習していたかを判定する。Q3の判定結果がYesの場合は、予測モデル21は予測精度の高い予測モデルであると想定されるので、予測ミスを起こさないことが期待される。従って、システム(分析装置10)の誤動作(ユーザーインターフェースの誤動作等)または、システムの利用者の誤操作によって、予測ミスのないサンプルが予測ミスサンプル25として分析された等の、予測モデル及びデータ以外の要因が考えられる。また、Q3の判定結果がNoであるとき、これは過学習又は過少学習により、予測モデル21が近傍訓練サンプルの目的変数の実績値を適切に学習できていない場合に相当する。このため、この場合、予測モデル21は予測ミスサンプル25の周辺で局所的なエラーを持つモデルであったと結論づけられる。
【0075】
続いて、図15の作業決定規則について説明する。まず、予測ミス要因が「予測モデル及びデータ以外のエラー」であった場合は、システム(分析装置10)の動作テスト等を行うことで、システムの誤動作や利用者の誤操作等の問題が発生していないかを調べる必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。予測ミス要因が「局所的なエラー」の場合は、過学習または過少学習の可能性が高いため、予測モデルの学習時のハイパーパラメータを調節した上で再学習する必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。予測ミス要因が「目的変数についての分布の変化」の場合は、予測モデルを、変化した目的変数の分布に適合させるために、古いデータを捨てて新しいデータだけで予測モデルを再学習する必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。予測ミス要因が「目的変数の異常」の場合は、予測ミスサンプル25は分布の変化とは無関係に異常な目的変数の値を持っていることを意味し、このようなサンプルが発生した原因を調査する必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。予測ミス要因が「説明変数についての分布の変化」の場合、予測モデル21が学習していなかった説明変数の領域に運用データが多数存在していることを意味している。このため、運用データを訓練データに加えて再学習することで、予測モデルの精度を向上させることができる。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。予測ミス要因が「説明変数の異常」であった場合は、予測ミスサンプル25が分布変化とは無関係に異常な説明変数の値を持っていることを意味する。このため、そのようなサンプルが発生した理由を調査し、今後同じようなサンプルが発生したときのための対処方法を決める必要がある。したがって、この場合、作業決定部40は、作業決定規則を参照して、そのような作業の実施を勧める作業提案を作成する。
【0076】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0077】
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価する指標評価手段と、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する要因特定手段と
を有する分析装置。
(付記2)
前記要因特定手段は、複数種類の前記指標の評価結果の組み合わせと要因とを対応付ける規則にしたがって、前記予測モデルによる予測のミスの要因を特定する
付記1に記載の分析装置。
(付記3)
前記要因特定手段は、複数種類の前記指標のうちの所定の指標の評価結果と、当該所定の指標の評価結果に応じて選択される前記指標の評価結果との組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する
付記2に記載の分析装置。
(付記4)
前記指標の算出アルゴリズム又は評価アルゴリズムを指定する指示を受付ける指示受付部をさらに有し、
前記指標評価手段は、前記指示で指定された前記算出アルゴリズム又は前記評価アルゴリズムにより前記指標の算出又は評価を行う
付記1乃至3のいずれか一項に記載の分析装置。
(付記5)
前記規則を指定する指示を受付ける指示受付部をさらに有し、
前記要因特定手段は、前記指示で指定された前記規則にしたがって、前記予測モデルによる予測のミスの要因を特定する
付記2に記載の分析装置。
(付記6)
前記要因特定手段により特定された前記要因を解消するための作業を決定する作業決定手段をさらに有する
付記1乃至5のいずれか一項に記載の分析装置。
(付記7)
前記指標に応じた所定のグラフの画像データを生成する可視化手段をさらに有する
付記1乃至6のいずれか一項に記載の分析装置。
(付記8)
前記要因の特定に用いる前記指標と前記指標を用いる順序とを定義するフローチャートと、当該フローチャートにおける遷移の履歴とを表す画像データを生成する可視化手段をさらに有する
付記3に記載の分析装置。
(付記9)
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価し、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する
分析方法。
(付記10)
予測モデル、前記予測モデルで用いられる説明変数のデータ、又は、前記予測モデルで用いられる目的変数のデータについての指標を複数種類算出して、それぞれを評価する指標評価ステップと、
複数種類の前記指標のそれぞれの評価結果の組み合わせに応じて、前記予測モデルによる予測のミスの要因を特定する要因特定ステップと
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
【符号の説明】
【0078】
1 分析装置
2 指標評価部
3 要因特定部
10 分析装置
20 記憶部
21 予測モデル
22 訓練データ
23 訓練テストデータ
24 運用データ
25 予測ミスサンプル
26 分析制御情報
30 診断部
31 指標評価部
32 要因特定部
40 作業決定部
50 可視化部
60 結果出力部
70 指示受付部
150 入出力インタフェース
151 ネットワークインタフェース
152 メモリ
153 プロセッサ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12A
図12B
図12C
図12D
図13
図14
図15