(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-10
(45)【発行日】2022-06-20
(54)【発明の名称】異常・誤り影響説明変数検出装置及び異常・誤り影響説明変数検出用プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220613BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2020164127
(22)【出願日】2020-09-29
【審査請求日】2021-01-22
(73)【特許権者】
【識別番号】521514059
【氏名又は名称】東芝デジタルエンジニアリング株式会社
(74)【代理人】
【識別番号】100090169
【氏名又は名称】松浦 孝
(74)【代理人】
【識別番号】100074147
【氏名又は名称】本田 崇
(74)【代理人】
【識別番号】100124497
【氏名又は名称】小倉 洋樹
(72)【発明者】
【氏名】鈴木 俊和
(72)【発明者】
【氏名】牧野 真一
【審査官】多賀 実
(56)【参考文献】
【文献】特開2019-159365(JP,A)
【文献】横井 直明,ほか1名,”AIの予測結果に対する納得度を高める予測根拠解釈支援技術の提案”,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2019年03月10日,Vol.118,No.513,p.61-66
【文献】ANTWARG, Liat et al.,"Explaining Anomalies Detected by Autoencoders Using SHAP" [online],arXiv,2019年03月,[2022年01月20日検索],インターネット<URL:https://arxiv.org/abs/1903.02407v1>,1903.02407v1
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00- 3/02
G06N 7/08-99/00
(57)【特許請求の範囲】
【請求項1】
説明変数である複数項目の教師測定データと、前記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データとの1セットデータが、複数セット用意された教師データを用いて、機械学習により前記説明変数から前記目的変数を求めるように作成された予測モデルと、
前記予測モデルに前記複数セット用意された教師データの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を前記教師データの全てについて行う誤差算出手段と、
前記求められた誤差の分布を求め、前記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出する抽出手段と、
前記抽出された説明変数の複数項目の教師測定データについて中央部値を求める中央部値算出手段と、
前記中央部値に基づきシャープレイ値である基準シャープレイ値を算出する基準値算出手段と、
前記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出する解析対象値算出手段と、
前記複数項目の同一項目毎に、前記基準シャープレイ値と前記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出する影響説明変数検出手段と
を具備することを特徴とする異常・誤り影響説明変数検出装置。
【請求項2】
前記教師測定データと前記解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、
前記抽出手段は、前記求められた誤差の分布をステップ毎に求め、前記所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出するステップ処理モードを備え、
前記中央部値算出手段、前記基準値算出手段、前記解析対象値算出手段、前記影響説明変数検出手段は、ステップ毎に処理するステップ処理モードを備えることを特徴とする請求項1に記載の異常・誤り影響説明変数検出装置。
【請求項3】
前記教師測定データと前記解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、
前記抽出手段は、前記求められた誤差の分布を全測定データに対し1つずつ求め、前記所定範囲にある誤差に対応する教師データの全説明変数から抽出する非ステップモードを備え、
前記中央部値算出手段、前記基準値算出手段は、ステップに関わりなく処理する一方、前記解析対象値算出手段、前記影響説明変数検出手段は、非ステップモードを備えることを特徴とする請求項2に記載の異常・誤り影響説明変数検出装置。
【請求項4】
前記抽出手段は
平均値から標準偏差の1倍の範囲にある誤差に対応する教師データの説明変数を抽出することを特徴とする請求項1乃至3のいずれか1項に記載の異常・誤り影響説明変数検出装置。
【請求項5】
コンピュータを、
説明変数である複数項目の教師測定データと、前記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データとの1セットデータが、複数セット用意された教師データを用いて、機械学習により前記説明変数から前記目的変数を求めるように作成された予測モデル、
前記予測モデルに前記複数セット用意された教師データの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を前記教師データの全てについて行う誤差算出手段、
前記求められた誤差の分布を求め、前記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出する抽出手段、
前記抽出された説明変数の複数項目の教師測定データについて中央部値を求める中央部値算出手段、
前記中央部値に基づきシャープレイ値である基準シャープレイ値を算出する基準値算出手段、
前記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出する解析対象値算出手段、
前記複数項目の同一項目毎に、前記基準シャープレイ値と前記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出する影響説明変数検出手段
として機能させることを特徴とする異常・誤り影響説明変数検出用プログラム。
【請求項6】
前記教師測定データと前記解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、
前記コンピュータを、前記抽出手段として、前記求められた誤差の分布をステップ毎に求め、前記所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出するステップモードで処理するように機能させ、
更に、前記コンピュータを、前記中央部値算出手段、前記基準値算出手段、前記解析対象値算出手段、前記影響説明変数検出手段として、ステップ毎に処理するステップモードで処理するように機能させることを特徴とする請求項5に記載の異常・誤り影響説明変数検出用プログラム。
【請求項7】
前記教師測定データと前記解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、
前記コンピュータを、前記抽出手段として、前記求められた誤差の分布を全測定データに対し1つずつ求め、前記所定範囲にある誤差に対応する教師データの全説明変数から抽出する非ステップモードで処理するように機能させ、
前記コンピュータを、前記中央部値算出手段、前記基準値算出手段として、ステップに関わりなく処理するように動作させる一方、前記解析対象値算出手段、前記影響説明変数検出手段として、ステップ毎に処理するように動作させる非ステップモードとして機能させることを特徴とする請求項6に記載の異常・誤り影響説明変数検出用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、異常・誤り影響説明変数検出装置及び異常・誤り影響説明変数検出用プログラムに関するものである。
【背景技術】
【0002】
本願発明者らは、目的変数と説明変数から構成される教師データを用いて予測モデルを作成し、この予測モデルに対し実際に異常を捕えるべき対象機器において測定した説明変数を適用して得られた目的変数と、実際に測定された目的変数とから上記対象機器の異常を検出する装置の発明を出願した(特開2019-159365号、特願2019-055609号、特願2019-055615号、特願2019-160751号、特願2019-080556号)。この発明では、対象装置が異常であることの検出(或いは推定)を行うことができるが、どの説明変数が異常に大きく影響しているかについては考慮していない。
【0003】
また、
図1は予測モデルの目的変数と説明変数を提供する3種類の花の平面図を示している。この3種類を分別する例として1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ、花弁の幅、ガクの長さ、ガクの幅)として、3種類の花A、B、Cを目的変数として予測モデルを作成することができる。
【0004】
図2は、花弁とガクの長さと幅を測定値として、4つの測定値(説明変数)を得て、目的変数である3種類の花A、B、Cを目的変数として得る予測モデルを示す図である。測定値(説明変数)がK1、K2、K2、K3であるとき、予測モデルは花の種類A(目的変数)と予測する(
図2(a))。また、花弁とガクの長さと幅の測定値(説明変数)がK2、K1、K3、K1であるとき、予測モデルは花の種類B(目的変数)と予測する(
図2(b))。更に、花弁とガクの長さと幅の測定値(説明変数)がK3、K2、K1、K1であるとき、予測モデルは花の種類C(目的変数)と予測する(
図2(c))。
【0005】
図3は、予測モデルの式を示す図である。上記のように予測を行う予測モデルをf0で表すと、測定値(説明変数)K1、K2、K1、K3によって、花の種類A(目的変数)を予測した場合の式は
図3(a)のように、A=f0(K1,K2,K2,K3)と記載することができる。また、測定値(説明変数)K2、K1、K3、K1によって、花の種類B(目的変数)を予測した場合の式は
図3(b)のように、B=f0(K2,K1,K3,K1)と記載することができる。更に、測定値(説明変数)K3、K2、K1、K1によって、花の種類C(目的変数)を予測した場合の式は
図3(c)のように、C=f0(K3,K2,K1,K1)と記載することができる。
【0006】
図4は従来の予測モデルでは異常であることは検出されるが、その異常がいずれの説明変数の影響かについては不明であることを示す図である。
図4(a)に示すように、測定値(説明変数)K1、K2、K1、K3と測定値(目的変数)Aが得られている場合に、予測モデルf0を用いた場合の予測では
図4(b)に示すように、B=f0(K1,K2,K1,K3)となり、測定対象が異常であると判定されたとする。このように、異常が生じていることを検出できるものの、どの1つまたは複数の説明変数が異常であるために、異常と判定されたのかを特定することはできないものであった。
【0007】
上記に対し、近年、シャープレイ値(Shapley Value)という値を、機械学習モデルの解釈に用いる研究がなされている。このシャープレイ値は、例えば、Aa、Bb、Ccという三人が働く場合に得る報酬の値からAa、Bb、Ccの貢献度に対応する分配報酬を算出するものである。条件としては、Aa、Bb、Ccが一人ずつ働く場合の各人の報酬、Aa、Bb、Ccのいずれか二人のペアが働く場合のペアの報酬、Aa、Bb、Ccが三人で働く場合の報酬が与えられる。これに基づき、Aa、Bb、Ccが順に加わって働く場合の報酬を加わる人の順を考慮して算出し、最終的にAa、Bb、Ccの貢献度に対応する分配報酬を算出する。
【0008】
機械学習モデルへの応用では、例えば、特徴量X=(X1,X2,X3)の予測値への貢献度をシャープレイ値で求めるものである。モデルをf(・)とし、平均的な予測値をE[f(X)]とする。1つのインスタンスにおいてそれぞれ(x1,x2,x3)=xという特徴量をとっているものとし、このときの予測値をf(x)とする。平均的な予測値のE[f(X)]と各インスタンスの予測値f(x)との乖離に各特徴量がどのくらい影響しているかを求める。
【0009】
各インスタンスの予測値f(x)は、
E[f(X|X1=x1,X2=x2,X3=x3)]=f(x1,x2,x3)=f(x)
であるから、平均的な予測値をE[f(X)]からX1,X2,X3を条件付けてゆくことで、その特徴量を知ることが、各インスタンスの予測に対してどのように影響するかを求めることになる。ここで、Φj(j=1,2,3,・・・)を、各特徴量が予測値に与える限界的な効果とする。また、Φ0は、0と平均的な予測値E[f(X)]との乖離に対応する限界的な効果とする。
【0010】
Φ0の状態からX1=x1という情報を得ると、予測値がΦ1だけ大きくなり、更に、X2=x2という情報を得ると、予測値がΦ2だけ大きくなる。最後に、X3=x3という情報を得ると、予測値がΦ3だけ小さくなり、これが最終的なインスタンスとなる。上記では、X1,X2,X3という順で条件付けしているが、上記の報酬に関する場合と同様にあらゆる順で条件付けし、それぞれにおいて得られる各特徴量が予測値に与える限界的な効果の平均を求める。これがシャープレイ値である。
【0011】
図5は、花の種類「セトサ」を予測値「1」として4つの測定値から予測する予想モデルを示す図である。この4つの測定値として、1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ(=x3)、花弁の幅(=x4)、ガクの長さ(=x5)、ガクの幅(=x6))として、「1」を目的変数として予測モデルを作成することができる。
図6は、上記「セトサ」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図である。
図6には、「セトサ」の場合に得られるシャープレイ値の予測値(Actual prediction)が1であり、予測平均値(Average prediction)が2であることが記載されている。予測平均値は、この例では、3つの花種類の花に関する予測モデルであるため、3つの予測値の平均値を示している。
【0012】
図7は、花の種類「バーシクル」を予測値「2」として4つの測定値から予測する予想モデルを示す図である。この4つの測定値(説明変数)として、1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ(=x3)、花弁の幅(=x4)、ガクの長さ(=x5)、ガクの幅(=x6))として、「2」を目的変数として予測モデルを作成することができる。
図8は、上記「バーシクル」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図である。
図8には、「バーシクル」の場合に得られるシャープレイ値の予測値(Actual prediction)が2であり、予測平均値(Average prediction)が2であることが記載されている。
【0013】
図9は、花の種類「バージニカ」を予測値「3」として4つの測定値から予測する予想モデルを示す図である。この4つの測定値(説明変数)として、1つの花に存在している花弁とガク(額)の長さと幅を説明変数(花弁の長さ(=x3)、花弁の幅(=x4)、ガクの長さ(=x5)、ガクの幅(=x6))として、「3」を目的変数として予測モデルを作成することができる。
図10は、上記「バージニカ」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図である。
図10には、「バージニカ」の場合に得られるシャープレイ値の予測値(Actual prediction)が3であり、予測平均値(Average prediction)が2であることが記載されている。
【0014】
図6、
図8、
図10に明らかなように、花の種類「バーシクル」の場合に、説明変数x6が特異的に大きな値となっているものの、全体としていずれか1つの説明変数の影響が大きいかを特定するほどには到っておらず、現状のシャープレイ値そのものを用いて、どの説明変数の影響が大きいかを検出できないものであった。
【0015】
特許文献1には、データの説明変数に対しデータ項目のカテゴリを識別する付加文字列を付加し、データクレンジング/特徴化手段32によって、データの異常値を特定値に置換あるいは削除するデータクレンジングを行うことが記載されている。この場合、異常判断基準については、その異常値定義と置換値を設定し、設定に従って異常値を処理するものであり、目的変数が異常となった場合に、予測を行うために使用されるいくつかの説明変数中のいずれが影響しているかを特定するものではない。
【0016】
特許文献2には、学習後の異常検出データモデルを用いて、計算した偏差データ信号及び工程ステップのタイプを示す工程タイプ指標のデータ処理によってステップ毎の異常検出を行い、工程ステップの時間ステップt又はパス長ステップl毎に異常確率pを計算し、更に、この異常確率pに基づいて、ワークピース及び生産プロセスステップの異常・正常の分類を行うものが開示されている。
【0017】
上記引用文献2のものにおいても、目的変数が異常となった場合に、予測を行うために使用されるいくつかの説明変数中のいずれが影響しているかを求めることはできない。
【0018】
【先行技術文献】
【特許文献】
【0019】
【文献】特開2004-29971号公報
【文献】特開2019-135638号公報
【発明の概要】
【発明が解決しようとする課題】
【0020】
本発明は、上記のような機械学習による異常検出の分野における課題を解決せんとしてなされたもので、その目的は、目的変数が異常或いは誤りとなった場合に、予測を行うために使用されるいくつかの説明変数中のいずれが影響しているかを求めることが可能な影響説明変数検出装置を提供することである。
【課題を解決するための手段】
【0021】
本実施形態の影響説明変数検出装置は、説明変数である複数項目の教師測定データと、前記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データとの1セットデータが、複数セット用意された教師データを用いて、機械学習により前記説明変数から前記目的変数を求めるように作成された予測モデルと、前記予測モデルに前記複数セット用意された教師データの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を前記教師データの全てについて行う誤差算出手段と、前記求められた誤差の分布を求め、前記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出する抽出手段と、抽出された説明変数の複数項目の教師測定データについて中央部値を求める中央部値算出手段と、前記中央部値に基づきシャープレイ値である基準シャープレイ値を算出する基準値算出手段と、前記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出する解析対象値算出手段と、同一項目毎に、前記基準シャープレイ値と前記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出する影響説明変数検出手段とを具備することを特徴とする。
【図面の簡単な説明】
【0022】
【
図1】予測モデルの目的変数と説明変数を提供する3種類の花の平面図。
【
図2】花弁とガクの長さと幅の測定値(説明変数)と予測モデルを示す図。
【
図4】
図3の式を用いた動作を行う予測モデルによる予測結果を示す図。
【
図5】花の種類「セトサ」を予測値「1」として4つの測定値から予測する予想モデルを示す図。
【
図6】「セトサ」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図。
【
図7】花の種類「バーシクル」を予測値「2」として4つの測定値から予測する予想モデルを示す図。
【
図8】「バーシクル」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図。
【
図9】花の種類「バージニカ」を予測値「3」として4つの測定値から予測する予想モデルを示す図。
【
図10】「バージニカ」の場合におけるx3~x6のシャープレイ値を棒グラフで示した図。
【
図11】本発明の実施形態に係る影響説明変数検出装置100を実現するコンピュータシステムの構成図。
【
図12】本発明の第1の実施形態に係る影響説明変数検出装置100の機能ブロック図。
【
図14】本発明の実施形態に係る影響説明変数検出装置100で得られる誤差の分布図。
【
図16】本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作手順を示したフローチャート。
【
図17】本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、教師データTから誤差が求められるまでの処理を、データの内容の変遷を中心として示した図。
【
図18】本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出し、中央値を得るまでの処理を示す図。
【
図19】本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、抽出処理を行った結果を示す図。
【
図20】本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、ステップ毎の中央値に基づきシャープレイ値である基準シャープレイ値をスップ毎に算出する工程を示す図。
【
図21】本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図。
【
図22】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードに好適な測定データ形式と、異常・正常判定の手法をしめす図。
【
図23】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードの動作手順を示したフローチャート。
【
図24】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードの動作において、教師データTから誤差が求められるまでの処理を、データの内容の変遷を中心として示した図。
【
図25】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードの動作において、平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出し、中央値を得るまでの処理を示す図。
【
図26】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードの動作において、抽出処理を行った結果を示す図。
【
図27】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードの動作において、ステップ毎の中央値に基づきシャープレイ値である基準シャープレイ値をステップ毎に算出する工程を示す図。
【
図28】本実施形態に係る異常・誤り影響説明変数検出装置100の非ステップ処理モードの動作において、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図。
【発明を実施するための形態】
【0023】
以下添付図面を参照して、本発明の実施形態に係る影響説明変数検出装置及び影響説明変数検出用プログラムを説明する。各図において、同一の構成要素には、同一の符号を付して重複する説明を省略する。
図11は、本発明の実施形態に係る影響説明変数検出装置100を実現するコンピュータシステムの構成図である。本発明の実施形態に係る影響説明変数検出装置100は、例えば
図11に示されるようなパーソナルコンピュータやワークステーション、その他のコンピュータシステムにより構成することができる。このコンピュータシステムは、CPU10が主メモリ11に記憶されている或いは主メモリ11に読み込んだプログラムやデータに基づき各部を制御し、必要な処理を実行することにより影響説明変数検出装置100として動作を行うものである。
【0024】
CPU10には、バス12を介して外部記憶インタフェース13、入力インタフェース14、表示インタフェース15、データ入力インタフェース16が接続されている。外部記憶インタフェース13には、状態変動検出用プログラム等のプログラムと必要なデータ等が記憶されている外部記憶装置23が接続されている。入力インタフェース14には、コマンドやデータを入力するための入力装置としてのキーボードなどの入力装置24とポインティングデバイスとしてのマウス22が接続されている。
【0025】
表示インタフェース15には、LEDやLCDなどの表示画面を有する表示装置25が接続されている。データ入力インタフェース16には、測定データを得るためのセンサ26-1、26-2、・・・、26-mが接続されている。センサ26-1、26-2、・・・、26-mは、測定データを得るための構成であり、データ入力を行うための記憶媒体や入力装置であっても良い。更に、このコンピュータシステムには、他の構成が備えられていても良く、また、
図11の構成は一例に過ぎない。
【0026】
図12は、本発明の第1の実施形態に係る影響説明変数検出装置100の機能ブロック図である。上記において、CPU10では、外部記憶装置23内の影響説明変数検出用プログラムによって
図12に記載の各手段等が実現される。即ち、予測モデル作成手段30、予測モデル31、誤差算出手段32、抽出手段33、中央部値算出手段34、基準値算出手段35、解析対象値算出手段36、影響説明変数検出手段37、除算手段38、影響度取得手段39、教師データTが記憶されている。
【0027】
図13は、教師データTの内容を示す図である。教師データTは、説明変数である複数項目の教師測定データを備える。ここに、説明変数である項目は、「ガクの長さ」、「ガクの幅」、「花弁の長さ」、「花弁の幅」の4項目である。更に教師データTは、上記複数項目の教師測定データを識別するための1つの教師識別データであって目的変数である教師識別データを備える。具体的には、
図13の説明変数である項目であるガクの長さ、ガクの幅、花弁の長さ、花弁の幅に対して図の左横方向に記載されている花の種類「セトサ」を「1」、「バーシクル」を「2」、「バージニカ」を「3」として対応付けたものが教師識別情報であり、これら「1」、「2」、「3」は目的変数である。
図13の1行分が目的変数と説明変数の1セットのデータであり、図の縦方向に複数セット用意されている。
【0028】
予測モデル31は教師データTを用いて予測モデル作成手段30が作成するものである。ここで、本実施形態では、予測モデル作成手段30は、予測モデル31を作成するためにこのコンピュータシステムに備えられているが、他の装置やプログラムによって作成された予測モデル31をこの外部記憶装置23に記憶させて用いるものであっても良く、この場合には、予測モデル作成手段30を備えていなくともよい。
【0029】
予測モデル31は、機械学習により説明変数から目的変数を予測するものである。ここに、機械学習のアルゴリズムとしては、パターンマイ二ングのランダムフォレストを挙げることができるが、これ以外に、分類木や回帰木などのように分類器により(例えばツリー構造で)分岐を行って予測を行う機械学習によるアルゴリズムを採用することができる。また、予測モデル31は、重回帰分析による機械学習を行うものであっても良い。
【0030】
誤差算出手段32は、上記予測モデル31に上記複数セット用意された教師データTの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める処理を上記教師データの全てについて行うものである。従って、
図13の教師データに対しては、行数分の誤差が求められる。
【0031】
抽出手段33は、上記求められた誤差の分布を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数を抽出するものである。本実施形態では、上記誤差分布の平均値と標準偏差を求め、この平均値から上記標準偏差の所定倍の範囲にある誤差に対応する教師データの説明変数を抽出するものである。上記所定倍は、本実施形態において1倍とするが、例えば、1.5倍や0.5倍などであっても良い。前述の通り誤差は
図13の教師データTの行数分生成されるため、平均値はこれらの平均値ということになり、1つ求められる。
【0032】
標準偏差をσとすると、σは、次の式(1)により求められる。
【数1】
上記において、nは標準偏差を求める対象の数値の個数であり、誤差の個数、xiは各数値である。
【0033】
図14は誤差の分布図である。上記平均値をμで表すとき、
図14の誤差の分布に対して、標準偏差σの1倍の範囲(即ち、(μ-σ)から(μ+σ)の範囲)にある誤差に対応する教師データの説明変数を抽出する。以上の結果、何行分かの説明変数が抽出される。
【0034】
本実施形態では、誤差の分布の中央部分である(μ-σ)から(μ+σ)の範囲とすることによって、通常程度の誤差の範囲にある誤差を抽出し、続く中央部値の算出と基準シャープレイ値の算出へ進む。これによって、異常度がそれ程多くない説明変数の複数項目の教師データによって基準シャープレイ値が算出される。このため、上記基準シャープレイ値と解析対象シャープレイ値との比較では、解析対象シャープレイ値が上記基準シャープレイ値と大きく乖離していれば、その説明変数が、異常或いは誤りに大きく貢献していると結論付けることができる。本実施形態は、このような推論を根拠として成り立つ。
【0035】
上記の実施形態で用いた分布の中心とは逆に、誤差の分布の縁部分である(μ+2σ)から(μ+3σ)の範囲と(μ-2σ)から(μ-3σ)の範囲の誤差に対応する教師データの説明変数を抽出すると、誤差(異常度)が大きな説明変数の複数項目の教師データによって基準シャープレイ値が算出される。このため、上記基準シャープレイ値と解析対象シャープレイ値との比較では、解析対象シャープレイ値が上記基準シャープレイ値に近い場合に、その説明変数が、異常或いは誤りに大きく貢献していると結論付けることができる。即ち、後に述べるように本実施形態は、比較値が所定閾値より大きな場合に、その説明変数が、異常或いは誤りに大きく貢献していると判定しているが、上記のように誤差分布の縁部分を用いた場合には、比較値が所定閾値より小さい場合に、その説明変数が、異常或いは誤りに大きく貢献していると判定する手法を採用することができる。
【0036】
中央部値算出手段34は、抽出された説明変数の複数項目の教師測定データについて中央部値を求める。ここに、中央部値は、中央値、平均値、中央値と平均値の中間値など中央値付近の値であっても良い。ここでは、中央部値を求めることにより、抽出手段33により抽出された説明変数の中で数値的な中心部の値を求め、抽出の意味を高めている。上記の様々な中央部値が理論的には有り得るが、計算により求めることを考えれば中央値が好適である。そこで、本実施形態では、中央部値は中央値とする。上記の通り、抽出された説明変数は、何行分かの説明変数であって、説明変数である項目は、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目の説明変数である。従って4項目の項目ごとに何行分かをデータ収集し、このデータの中央値を求めることになる。
【0037】
基準値算出手段35は、上記中央値に基づきシャープレイ値である基準シャープレイ値を算出するものである。中央値は、4項目分求められている。そこで、4項目分の中央値、つまり、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目についてのそれぞれの中央値を、シャープレイ値を求めるためのソフトウエアライブラリに投入して、シャープレイ値を求める。このライブラリは、Christoph Molnar が作成した「iml(Interpretable Machine Learning)」という名称のものを用いることができる。
【0038】
解析対象値算出手段36は、上記教師測定データと同じ測定処理により新たに測定された誤り或いは異常に影響しているかの解析対象である複数項目の解析用測定データに基づきシャープレイ値である解析対象シャープレイ値を算出するものである。この解析用測定データは、上記教師測定データと同じ測定処理により新たに測定されものであるから、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目についての測定データである。この測定データについても上記と同じライブラリを用いることができる。
【0039】
影響説明変数検出手段37は、上記複数項目の同一項目毎に、上記基準シャープレイ値と上記解析対象シャープレイ値との比較値を求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかを検出するものである。比較値としては、基準シャープレイ値から解析対象シャープレイ値を引いた誤差や、計測した誤差の割合である。この比較値が所定閾値よりも大きい場合には、当該項目の説明変数の影響により異常または誤りとなったものとの結果を出力する。
【0040】
本発明の実施形態に係る異常・誤り影響説明変数検出装置100及び異常・誤り影響説明変数検出用プログラムは、ステップ処理モードと非ステップモードのいずれかで動作する。
図15は、ステップ処理モードを説明する図である。異常・誤り影響説明変数検出装置100及び異常・誤り影響説明変数検出用プログラムは、異常・誤りを検出する対象装置の所定位置に
図15に示すようなセンサA1、B1、C1、D1を設けて、第1工程の処理時刻にデータを得て、また第2工程の処理時刻にデータを得て、第3の工程の処理時刻にデータを得て、また、第1の工程の処理時刻にデータ得て、第2の工程の処理時刻にデータを得て、・・・という処理を繰り返すものに適用可能である。センサA1、B1、C1、D1は、例えば、温度、湿度、振動値などとすることができ、全てのセンサが同一の物理指標を得ても良いし、異なる物理指標を得るものであっても良い。
【0041】
上記のような対象装置による第1工程の処理時刻(ステップ1)、第2の工程の処理時刻(ステップ2)、第3の工程の処理時刻(ステップ3)を、上記センサA1、B1、C1、D1の値から予測する予測モデル31では、予測時刻を予測(ステップ1、ステップ2、ステップ3のいずれかを予測)し、予測値(目的変数)が時刻からズレが生じる場合の誤差により異常・誤りを検出する。
【0042】
教師測定データと解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、上記抽出手段33は、前記求められた誤差の分布をステップ毎に求め、所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出するステップ処理モードを備え、上記中央部値算出手段34、上記基準値算出手段35、上記解析対象値算出手段36、上記影響説明変数検出手段37は、ステップ毎に処理するステップ処理モードを備える。
【0043】
図16は、本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作手順をフローチャートに示したものである。本実施形態の説明においては、センサA1、B1、C1、D1による測定値を
図2等に示した「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目とし、予測値は花の種類であり、「セトサ」を「1」、「バーシクル」を「2」、「バージニカ」を「3」とする。教師データTとして既に
図13に示したものが用意されているものとする。
【0044】
そこで、CPU10は、誤差算出手段32として、上記予測モデル31に上記教師データTの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める(S11)。この処理は、上記教師データTの全てについて行われる。
図17は、教師データTから誤差が求められるまでの処理を、データの内容の変遷を中心として示したものである。
【0045】
次に、CPU10は、抽出手段33として、上記誤差のステップ毎に誤差分布の平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出する(S12)。ここで、所定の範囲は、標準偏差σの1倍の範囲(即ち、(μ-σ)から(μ+σ)の範囲)にある誤差に対応する教師データの説明変数をステップ毎に抽出する。
図18は、誤差分布の平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出し、中央値を得るまでの処理である。
図19は抽出処理が行われた教師データを示す。上記の抽出結果、
図19に示される教師データにおいて、図の横方向に空白となった行の説明変数が排除され、数値が残っている行の説明変数が抽出される。
図18と
図19では、ステップ1の誤差が示されているが、本実施形態では、ステップ2、3の誤差についても同様にして、(μ-σ)から(μ+σ)の範囲)にある誤差が抽出される。なお、
図18は処理を示したものであり、
図19は処理結果がどのようになるかを示したものであるため、これらの図に記載されている数値は一致していない。
【0046】
続いて、CPU10は、中央部値算出手段34として、抽出された説明変数の複数項目の教師測定データについて中央部値をステップ毎に求める(S13)。ここでは、中央部値は中央値とする。本実施形態では、ステップ1、ステップ2、ステップ3の3つの説明変数であり、それぞれが「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について中央値が算出される。
図18には、ステップ1の中央値が示されているが、本実施形態では、ステップ2、3の中央値についても同様にして求められる。
【0047】
次に、CPU10は、基準値算出手段35として、上記ステップ毎の中央値に基づきシャープレイ値である基準シャープレイ値をステップ毎に算出する(S14)。
図20は上記ステップ毎の中央値に基づきシャープレイ値である基準シャープレイ値をステップ毎に算出する、基準値算出手段35の処理を示す。ステップ1、ステップ2、ステップ3の3つの説明変数の基準シャープレイ値であり、それぞれが「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について中央値から基準シャープレイ値が算出されている。
【0048】
更に、CPU10は、解析対象値算出手段36として、上記教師測定データと同様に測定を行い、解析対象である複数項目の解析用測定データを各ステップについて得て、この解析用測定データに基づきシャープレイ値である解析対象シャープレイ値をステップ毎に算出する(S15)。
図21は、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図である。解析対象シャープレイ値がステップ1、ステップ2、ステップ3毎に「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について算出されている。
【0049】
次に、CPU10は、影響説明変数検出手段37として、複数項目の同一項目毎に、上記基準シャープレイ値と上記解析対象シャープレイ値との比較値をステップ毎に求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかをステップ毎に検出する(S16)。
【0050】
図21は、本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作において、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図である。ここでは、
図21に示されるように、比較値としては、基準シャープレイ値から解析対象シャープレイ値を引いた誤差と、計測した誤差の割合である比率が求められている。比率は、ステップ毎の誤差の合計に対して、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目の誤差が占める割合のことであり、項目の誤差をステップ毎の誤差合計で除法することにより求める。この例では、ステップ2における「花弁の長さ」とステップ3における「花弁の幅」とが同じステップ内の比較値に比べて際立って大きく、例えば所定閾値を超えているため、この説明変数の項目が誤りに影響しているか或いは異常に影響していると結論付けて、
図21では枠線により囲まれている。この実施形態の異常・誤り影響説明変数検出装置100が、誤りに影響しているか或いは異常に影響している説明変数の項目を実際に報知出力する場合には、「ステップ2では花弁の長さが、ステップ3では花弁の幅が異常に影響しています。」などと、文字により表示しても良い。なお、
図21においてはステップ1における影響説明変数が求められていない理由は、予測モデル31による予測結果Fが
図21に示されているように、ステップ2、3の予測値が、それぞれ2と3から大きく乖離し、異常或いは誤りを示すのに対し、ステップ1の予測値が1であり、異常或いは誤りとはなっていないためである。
【0051】
図22は、非ステップ処理モードに好適な測定データ形式と、異常・正常判定の手法を示す。非ステップ処理モードは、例えば、
図22に示されるように製品No.を有する異なる製品の生産を行っているような場合に、製品には第1の部分のサイズ1と、第2の部分のサイズ2と、第3の部分のサイズ3があり、センサ1、センサ2、センサ3により、何らかの値を測定可能とする。サイズ1の値を目的変数とし、サイズ2、3との値、センサ1、2、3の測定値を説明変数として、サイズ1の値を予測する予測モデルに適用することが可能である。教師データでは、サイズ1の実測値を有しており、教師データの説明変数により予測モデルで予測したサイズ1の予測値との誤差が所定の製品を異常とする正常範囲Gを決定する。
【0052】
図22に示すように、実測値と予測値の値が正常範囲Gにある製品を正常、正常範囲外となる製品を異常とする。このように、時刻の変化に依存しない測定データを測定して異常或いは誤りを予測するシステムに非ステップ処理モードを適用することが可能である。
【0053】
この非ステップ処理モードを有する実施形態の異常・誤り影響説明変数検出装置100及び異常・誤り影響説明変数検出用プログラムは、
図16のフローチャートにより説明したように、教師測定データと解析用測定データが、N(正整数)ステップで繰り返して得られるデータである場合に、次の手段が次のような構成を有する。即ち、用いる教師測定データと解析用測定データは
図16において用いたものと同じである。抽出手段33は、求められた誤差の分布を全測定データに対し1つずつ求め、所定範囲にある誤差に対応する教師データの全説明変数から抽出する非ステップモードを備え、上記中央部値算出手段34、上記基準値算出手段35は、ステップに関わりなく処理する一方、上記解析対象値算出手段36、上記影響説明変数検出手段37は、ステップ毎に処理する非ステップモードを備える。
【0054】
図23は、本実施形態に係る異常・誤り影響説明変数検出装置100のステップ処理モードの動作手順をフローチャートに示したものである。本実施形態の説明においては、センサA1、B1、C1、D1による測定値を
図2等に示した「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目とし、予測値を花の種類であり、「セトサ」を「1」、「バーシクル」を「2」、「バージニカ」を「3」とする。教師データTとして既に
図13に示したものが用意されているものとする。ここでは、ステップモードによる処理と非ステップモードによる処理との差異を明らかにするため、ステップモードによる処理の説明で用いたデータを用いて非ステップモードの処理を説明する。
【0055】
CPU10は、誤差算出手段32として、上記予測モデル31に上記教師データTの説明変数を与えて目的変数を求め、与えた説明変数に対応する教師データの目的変数との誤差を求める(S21)。この処理は、上記教師データTの全てについて行われる。
図24は、教師データTから誤差が求められるまでの処理を、データの内容の変遷を中心として示したものである。
【0056】
次に、CPU10は、抽出手段33は、上記誤差の全ステップ分教師データについて平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差の教師データの説明変数を全ステップに亘って抽出する(S22)。ここで、所定の範囲は、標準偏差σの1倍の範囲(即ち、(μ-σ)から(μ+σ)の範囲)にある誤差に対応する教師データの説明変数をステップ毎に抽出する。
図25は、平均値と標準偏差を求め、上記誤差の分布範囲の所定範囲にある誤差に対応する教師データの説明変数をステップ毎に抽出し、中央値を得るまでの処理を示した図である。
図26は抽出処理が行われた教師データを示す。ここに、
図25は処理を示したものであり、
図26は処理結果がどのようになるかを示したものであるため、これらの図に記載されている数値は一致していない。上記の抽出結果、
図25に示される教師データにおいて、図の横方向に空白となった行の説明変数が排除され、データの数値が残っている行の説明変数が抽出される。
【0057】
続いて、CPU10は、中央部値算出手段34として、抽出された説明変数の複数項目の教師測定データについて全ステップの中央部値を求める(S23)。ここでは、中央部値は中央値とする。本実施形態では、ステップ1、ステップ2、ステップ3の3つの説明変数に別れているのであるが、全ステップで一括して、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について中央値が算出される。ここでは、各ステップの中央値は求めない。
【0058】
次に、CPU10は、基準値算出手段35として、上記全ステップのデータについて一括して求めた中央値に基づきシャープレイ値である基準シャープレイ値を算出する(S24)。
図27は全ステップのデータの中央値に基づきシャープレイ値である基準シャープレイ値を算出する、基準値算出手段35の処理を示す。ステップ1、ステップ2、ステップ3を一括した説明変数の中央値から求める基準シャープレイ値であり、「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目についてそれぞれ1つの中央値から基準シャープレイ値が算出されている。
【0059】
更に、CPU10は、解析対象値算出手段36として、上記教師測定データと同様に測定を行い、解析対象である複数項目の解析用測定データを各ステップについて得て、この解析用測定データに基づきシャープレイ値である解析対象シャープレイ値をステップ毎に算出する(S25)。
図28は、解析用測定データから算出された解析対象シャープレイ値と、影響説明変数検出手段37により求められた比較値を示す図である。解析対象シャープレイ値がステップ1、ステップ2、ステップ3毎に「花弁の長さ」、「花弁の幅」、「ガクの長さ」、「ガクの幅」の4項目について算出されている。
【0060】
次に、CPU10は、影響説明変数検出手段37として、複数項目の同一項目毎に、上記基準シャープレイ値と上記解析対象シャープレイ値との比較値をステップ毎に求め、比較値の大きさに基づき、いずれの説明変数である項目の解析用測定データが誤りに影響しているか或いは異常に影響しているかをステップ毎に検出する(S26)。
【0061】
ここでは、
図28に示されるように、比較値としては、基準シャープレイ値から解析対象シャープレイ値を引いた誤差と、計測した誤差の割合が求められている。この例では、ステップ2における「花弁の長さ」とステップ3における「花弁の長さ」とが同じステップ内の比較値に比べて際立って大きく、例えば所定閾値を超えているため、この説明変数の項目が誤りに影響しているか或いは異常に影響していると結論付けて、
図28では枠線により囲まれている。この実施形態の異常・誤り影響説明変数検出装置100が、誤りに影響しているか或いは異常に影響している説明変数の項目を実際に報知出力する場合には、「ステップ2では花弁の長さが、ステップ3では花弁の長さが異常に影響しています。」などと、文字により表示しても良い。
【0062】
なお、
図28においてはステップ1における影響説明変数が求められているが適切な結果が得られていない。その理由は、影響説明変数を、比較値が所定閾値を超えているか否かなどに基づき検出しているため、本実施形態で用いた解析用測定データと教師測定データが共にステップ毎にデータ構成が異なっていることから、適切な検出ができていない。即ち、ステップ1では「花弁の長さ」、「花弁の幅」における誤差と比率が、同じステップ内の比較値に比べて際立って大きく、例えば所定閾値を超えているため、この説明変数の項目が誤りに影響しているか或いは異常に影響していると結論付けて、「花弁の長さ」、「花弁の幅」の行を枠線により囲む処理をしている。
しかし、予測モデル31による予測結果Fが
図28に示されているように、ステップ2、3の予測値が、それぞれ2と3から大きく乖離し、異常或いは誤りを示すのに対し、ステップ1の予測値が1であり、異常或いは誤りとはなっていない。異常或いは誤りが検出されていないステップS1において影響説明変数が検出されていることから、エラーと識別することが可能である。
【0063】
本発明に係る複数の実施形態を説明したが、これらの実施形態は例として提示するものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0064】
10・・・CPU、11・・・主メモリ、12・・・バス、13・・・外部記憶インタフェース、14・・・入力インタフェース、15・・・表示インタフェース、16・・・データ入力インタフェース、22・・・マウス、23・・・外部記憶装置、24・・・入力装置、25・・・表示装置、26-1~26-m・・・センサ、30・・・予測モデル作成手段、31・・・予測モデル、32・・・誤差算出手段、33・・・抽出手段、34・・・中央部値算出手段、35・・・基準値算出手段、36・・・解析対象値算出手段、37・・・影響説明変数検出手段、100・・・影響説明変数検出装置