(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】データ解析システム、データ解析方法、およびプログラム
(51)【国際特許分類】
G05B 19/418 20060101AFI20240116BHJP
G06Q 50/04 20120101ALI20240116BHJP
【FI】
G05B19/418 Z
G06Q50/04
(21)【出願番号】P 2020078581
(22)【出願日】2020-04-27
【審査請求日】2022-11-01
(73)【特許権者】
【識別番号】000006507
【氏名又は名称】横河電機株式会社
(74)【代理人】
【識別番号】100165179
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100206081
【氏名又は名称】片岡 央
(74)【代理人】
【識別番号】100167553
【氏名又は名称】高橋 久典
(74)【代理人】
【識別番号】100181124
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100146835
【氏名又は名称】佐伯 義文
(72)【発明者】
【氏名】檜物 亮一
【審査官】石川 健一
(56)【参考文献】
【文献】国際公開第2019/220481(WO,A1)
【文献】特開2006-293658(JP,A)
【文献】特開2016-045793(JP,A)
【文献】特開2016-177794(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G05B 19/418
G06Q 50/04
(57)【特許請求の範囲】
【請求項1】
生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得するデータ取得部と、
前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出する相関特徴量抽出部と、
を備え
、
前記相関特徴量抽出部は、
前記解析対象データの中から、2つ以上の前記パラメータの組を選択し、選択した前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出し、抽出したデータを用いて選択した前記パラメータの組の相関関係を示す近似式を算出し、選択した前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出する、
データ解析システム。
【請求項2】
算出された前記相関特徴量に基づいて、前記指標に影響を与えている前記パラメータを抽出するパラメータ抽出部、を更に備える、
請求項1に記載のデータ解析システム。
【請求項3】
前記パラメータ抽出部は、機械学習によって前記相関特徴量に基づいて前記指標に影響を与えている前記パラメータを抽出する、
請求項2に記載のデータ解析システム。
【請求項4】
データ解析システムに、
生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、
前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させ
、
前記解析対象データの中から、2つ以上の前記パラメータの組を選択させ、選択させた前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出させ、抽出させたデータを用いて選択させた前記パラメータの組の相関関係を示す近似式を算出させ、選択させた前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出させる、
データ解析方法。
【請求項5】
コンピュータに、
生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、
前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させ
、
前記解析対象データの中から、2つ以上の前記パラメータの組を選択させ、選択させた前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出させ、抽出させたデータを用いて選択させた前記パラメータの組の相関関係を示す近似式を算出させ、選択させた前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ解析システム、データ解析方法、およびプログラムに関する。
【背景技術】
【0002】
工場で行われる製造プロセスのように繰返し行われる一連の作業の結果、何らかの指標(例えば品質)が良かった時と悪かった時がある場合に、過去データを解析して指標が悪かった時の要因を絞り込んでいくことで、製品性能及び製造性能を安定化させる技術が提案されている。
【0003】
例えば、特許文献1には、製品性能のばらつきを生じさせる阻害要因を特定し、製品性能及び製造性能を安定化させる技術が開示されている。具体的に、特許文献1に開示された技術では、製造プロセスの生産単位をプロセスデータに基づいて生成された主成分得点から複数のグループに区分し、プロダクトデータに基づいて複数のグループの優劣を判定し、グループの優劣に寄与する阻害要因を特定して、製品性能及び製造性能を安定化するようにしている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来技術では、過去データを解析して、指標が悪かった時の要因を絞り込んでいくために、観測されるパラメータ(例えば、気温、作業者、作業時間帯等)の中で、どのパラメータが指標の良悪に影響を与えたのかを絞り込む必要がある。しかしながら従来技術では、パラメータ数が多い場合は、どのパラメータが指標の良悪に影響あるのかを絞り込めない。また、従来技術では、解析データにおいて生産単位(例えばロット)数が少ない場合は、解析精度が上がらないという問題があった。
【0006】
本発明は、上記の問題点に鑑みてなされたものであって、生産単位数が少なくパラメータが多い場合であっても、指標の良悪に影響を与えたパラメータを絞り込むことができるデータ解析システム、データ解析方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一態様に係るデータ解析システムは、生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得するデータ取得部と、前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出する相関特徴量抽出部と、を備える。
【0008】
また、本発明の一態様に係るデータ解析システムにおいて、前記相関特徴量抽出部は、前記解析対象データの中から、2つ以上の前記パラメータの組を選択し、選択した前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出し、抽出したデータを用いて選択した前記パラメータの組の相関関係を示す近似式を算出し、選択した前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出するようにしてもよい。
【0009】
また、本発明の一態様に係るデータ解析システムにおいて、算出された前記相関特徴量に基づいて、前記指標に影響を与えている前記パラメータを抽出するパラメータ抽出部、を更に備えるようにしてもよい。
【0010】
また、本発明の一態様に係るデータ解析システムにおいて、前記パラメータ抽出部は、機械学習によって前記相関特徴量に基づいて前記指標に影響を与えている前記パラメータを抽出するようにしてもよい。
【0011】
上記目的を達成するため、本発明の一態様に係るデータ解析方法は、データ解析システムに、生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させる。
【0012】
上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させる。
【発明の効果】
【0013】
本発明によれば、パラメータの組の相関関係を表す相関特徴量を用いたため、生産単位数が少なくパラメータが多い場合であっても、指標の良悪に影響を与えたパラメータを絞り込むことができる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係るデータ解析システムの構成例を示すブロック図である。
【
図2】実施形態に係るデータ取得部が取得してデータベースに格納するデータ例を示す図である。
【
図3】実施形態に係る特徴量の抽出手順のフローチャートである。
【
図4】実施形態に係る近似式の算出例を示す図である。
【
図5】実施形態に係る特徴量の抽出方法例を示す図である。
【
図6】実施形態に係る1組のパラメータの組み合わせによる相関特徴量をデータベースに追加した後のデータ例を示す図である。
【
図7】実施形態に係るパラメータの全ての組み合わせによる相関特徴量をデータベースに追加した後のデータ例を示す図である。
【
図8】実施形態に係るパラメータの絞り込み結果例を示す図である。
【
図9】実施形態に係るパラメータ抽出部が備える第1の学習モデルの例を示す図である。
【
図10】比較例におけるデータ解析システムの構成を示すブロック図である。
【
図11】比較例におけるパラメータをヒストグラムで表した例を示す図である。
【
図12】比較例における2つのパラメータの相関を表した例を示す図である。
【
図13】比較例において相関図のデータをクラスタリング処理した例を示す図である。
【発明を実施するための形態】
【0015】
<概要>
まず、実施形態の概要を説明する。
本実施形態では、工場で行われる製造プロセスのように繰返し行われる一連の作業の結果、何らかの指標(品質に関するラベル、例えば品質)が良かった時(例えば生産単位(例えばロット))と悪かった時がある場合、過去データを解析して、指標が悪かった時の要因を絞り込む。なお、指標が悪いとは例えば出荷検査の際に出荷基準を満たしていないことであり、指標が良いとは例えば出荷検査の際に出荷基準を満たしていることである。
【0016】
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係るデータ解析システム1の構成例を示すブロック図である。
図1のように、データ解析システム1は、データ取得部11、データベース12、特徴量抽出部13、パラメータ抽出部14、解析結果生成部15、および出力部16を備える。なお、データベース12は、ネットワークを介してクラウド上にあってもよい。また、データ解析システム1には、表示装置2が接続されている。なお、以下の説明では、工場で行われる製造プロセスを例に説明する。また、本実施形態では、製造における生産単位の一例として、所定の生産数毎または生産数量毎のロットを例に説明するが、生産単位はロットに限らない。生産単位は、所定数毎、日付毎、時間毎、製造者のシフト毎、製造に使用される材料の生産単位毎等であってもよい。
【0017】
表示装置2は、例えば、液晶画像表示装置、有機EL(Electro Luminescence)画像表示装置等である。表示装置2は、データ解析システム1が出力する画像情報を表示する。
【0018】
データ解析システム1は、取得した製造に関するデータを解析して、製造の指標に影響に与えたパラメータを推定する。指標とは、例えば製造プロセスにおける品質検査結果であり、例えば品質、生産量、コスト、生産にかかった時間等である。以下の例では、製造された製品の性能等を評価した場合、判定値以上の場合に「良」(第1の指標)、判定値未満の場合に「悪」(第2の指標)とする指標を例に説明する。パラメータとは、製造プロセスにおいて、製造された製品の指標に影響を与える可能性がある要因(生産要素)であり、例えば生産の4要素(原料、設備、工程、人)に関する変数である。一例としてパラメータは、加熱時の温度、加熱時間、冷却時の温度、冷却時間、原料の成分等である。なお、指標は、例えば上述のような「良」、「悪」等のラベルであってもよく、数値であってもよい。
【0019】
データ取得部11は、例えば生産単位のデータを読み込み、読み込んだデータをデータベース12に格納する。なお、データには、生産単位を示す情報(以下、生産単位情報という)、複数のパラメータ、および指標を表す情報(以下、指標情報という)が含まれている。生産単位情報とは、例えば製造プロセスにおいて、製造側が特定する製品の最小単位である。また、取得されるデータは、解析対象のデータである。
【0020】
データベース12は、生産単位情報に、複数のパラメータおよび指標情報を関連づけて格納する。なお、データベース12は、複数の製品について情報を格納する場合、製品毎に生産単位情報に、複数のパラメータおよび指標情報を関連づけて格納する。
【0021】
特徴量抽出部13は、データ取得部11がデータベース12に格納した生産単位のデータを入力データして、各パラメータ間の相関関係の特徴量を抽出する。特徴量抽出部13は、生産単位情報に関連づけられている複数のパラメータおよび指標情報に、抽出した各パラメータ間の相関関係の特徴量を関連づけてデータベース12に格納する。なお、各パラメータ間の相関関係の特徴量と、特徴量の算出方法については後述する。
【0022】
パラメータ抽出部14は、パラメータとその相関特徴量の中から、指標の良悪に影響を与えたパラメータまたは相関特徴量を例えば機械学習によって抽出し、抽出した抽出結果を解析結果生成部15に出力する。なお、指標の良悪に影響を与えたパラメータまたは相関特徴量の抽出方法については後述する。
【0023】
解析結果生成部15は、パラメータ抽出部14が出力する抽出結果に基づいて、例えばグラフ画像を作成し、作成したグラフ画像を出力部16に出力する。
【0024】
出力部16は、解析結果生成部15が出力するグラフ画像を表示装置2に表示させる。
【0025】
<取得されるデータ例>
次に、データ取得部11が取得してデータベース12に格納するデータ例を説明する。
図2は、本実施形態に係るデータ取得部11が取得してデータベース12に格納するデータ例を示す図である。
図2のように、データ取得部11が取得してデータベース12に格納するデータは、生産単位情報に、500個のパラメータと指標情報が関連付けられている。なお、
図2に示した例は一例であり、パラメータ数は解析する環境に応じた数であればよい。また、指標情報も一例であり、これに限らない。
【0026】
<特徴量の抽出方法例>
次に、特徴量の抽出方法例を、
図3~
図7を用いて説明する。まず、
図3を用いて特徴量の抽出手順例を説明する。
図3は、本実施形態に係る特徴量の抽出手順のフローチャートである。
【0027】
(ステップS1)特徴量抽出部13は、データベース12に格納されているデータから、生産単位毎に2つのパラメータの抽出を順次、全てのパラメータの組み合わせについて行う。特徴量抽出部13は、例えばパラメータ数が500の場合、生産単位毎に124,750回(=500×499÷2)抽出する。なお、特徴量抽出部13は、全ての生産単位に対して同様の処理を行う。
【0028】
(ステップS2)特徴量抽出部13は、全ての生産単位に対してパラメータの組の抽出処理が終了したか否かを判別する。特徴量抽出部13は、全ての生産単位に対してパラメータの組の抽出処理が終了したと判別した場合(ステップS2;YES)、処理を終了する。特徴量抽出部13は、全ての生産単位に対してパラメータの組の抽出処理が終了していないと判別した場合(ステップS2;NO)、ステップS3の処理に進める。
【0029】
(ステップS3)特徴量抽出部13は、ステップS1で抽出した2つパラメータに対して、指標情報が「良」の生産単位だけを抽出し、抽出した生産単位のデータの相関図における座標を用いて相関関係の近似式を算出する。すなわち、特徴量抽出部13は、選択したパラメータの組のデータの中から指標が予め規定された基準以上である生産単位のデータを抽出し、すなわち指標情報が第1の指標(「良」、第1グループ)の生産単位のデータだけを抽出して近似式を求める。この例の基準は「良」であり、製品の品質が予め規定された基準を満たすことを示すものである。
図4は、本実施形態に係る近似式の算出例を示す図である。
図4において、横軸はパラメータ1(例えば0~10の値)であり、縦軸はパラメータ2(例えば0~10の値)である。
図4の例は、パラメータ1とパラメータ2について、指標情報が「良」の生産単位のデータg21だけをプロットして、例えば最小自乗法によって一次近似して近似式g11を算出した例である。
【0030】
(ステップS4)特徴量抽出部13は、全てのデータに対して、2つのパラメータの相関図の生産単位毎のプロット点と作成した近似式との距離を算出し、算出した距離を特徴量とする。以下、この特徴量を相関特徴量と呼ぶ。すなわち、特徴量抽出部13は、第1の指標(第1グループ)の生産単位のデータと、残りの指標である第2の指標(第2グループ)の生産単位のデータそれぞれと、近似式との距離を算出する。
図5は、本実施形態に係る特徴量の抽出方法例を示す図である。
図5の各軸は
図4と同じである。
図5のように、相関特徴量の際、特徴量抽出部13は、指標情報が「良」の生産単位のデータg21だけではなく「悪」の生産単位のデータg22も用いる。
図5において、相関特徴量g31は、近似式g11と生産単位nのデータg12との距離である。なお、距離は、近似式g11からデータ(g21、g22)への垂線の長さである。なお、特徴量抽出部13は、近似式g11の直線とデータとの距離dを、点と直線との距離の公式を用いて算出する。
【0031】
(ステップS5)特徴量抽出部13は、計算した相関特徴量を、データベース12の生産単位のテーブルに追加する。
図6は、本実施形態に係る1組のパラメータの組み合わせによる相関特徴量をデータベース12に追加した後のデータ例を示す図である。
図6の例では、パラメータ1とパラメータ2との相関特徴量をデータベース12に追加した例である。特徴量抽出部13は、処理をステップS1に戻す。
【0032】
なお、
図5のように、指標情報「悪」の距離の方が、指標情報「良」の距離より遠い場合、すなわち指標情報「悪」の相関特徴量の方が、指標情報「良」の特徴量より大きい場合は、指標情報の良悪に与える影響がパラメータ1とパラメータ2が大きい。パラメータ抽出部14では、このような指標情報に与える影響が大きいパラメータを絞り込んでいる。
【0033】
図7は、本実施形態に係るパラメータの全ての組み合わせによる相関特徴量をデータベース12に追加した後のデータ例を示す図である。
図7のように、特徴量抽出部13は、全てのパラメータの組み合わせによる相関特徴量をデータベース12に追加する。例えばパラメータ数が500の場合は、生産単位毎に、124,750個の各パラメータ間の相関特徴量g51(パラメータ1とパラメータ2との相関特徴量、パラメータ1とパラメータ3との相関特徴量、…、パラメータ499とパラメータ500との相関特徴量)が登録される。
【0034】
<パラメータの絞り込み結果例>
次に、パラメータの絞り込み方法例を説明する。
図8は、本実施形態に係るパラメータの絞り込み結果例を示す図である。
図8の例は、数百あるパラメータとその相関特徴量の中から、どのパラメータまたは相関特徴量が、指標の良悪に影響を与えたのか絞り込んだ結果例を示したものである。
図8の例では、生産単位数が37であり、指標情報の良が28生産単位であり、悪が9生産単位である(符号g101)。なお、符号g101、g104、g107、g108、およびg109において、左の値は指標情報が悪の生産単位数であり、右の値は指標情報が良の生産単位数である。
【0035】
パラメータ抽出部14は、パラメータ1とパラメータ2の相関特徴量に対するしきい値を最も「良」と「悪」に分離できる値に設定する。続けて、パラメータ抽出部14は、パラメータ1とパラメータ2の相関特徴量の値が0.9未満(符号g102)と、パラメータ1とパラメータ2の相関特徴量の値が0.9以上(符号g103)と、に分離する。この結果、指標情報が良の27生産単位(符号g109)と、指標情報が良の1生産単位と指標情報が悪に9生産単位(符号g104)に区別できることを示している。
【0036】
パラメータ抽出部14は、符号g104の10生産単位(=9+1)を、パラメータ3とパラメータ4の相関特徴量の値が0.96未満(符号g105)と、パラメータ3とパラメータ4の相関特徴量の値が0.96以上(符号g106)と、に分離できることを示している。そして、指標情報が悪の9生産単位(符号g107)と、指標情報が良の1生産単位(符号g108)に区別できることを示している。そして一回の処理で「良」と「悪」に分離できなかった場合は、一回目の処理とは異なるパラメータの組の相関特徴量を用いて分離できることを示している。
【0037】
このように、
図8は、パラメータ1とパラメータ2との相関特徴量=0.9を境にして指標情報の良悪をほぼ分けることができるので、指標情報に与える影響が大きいのはパラメータ1とパラメータ2であると分かる。また、
図8によれば、パラメータ1とパラメータ2との相関特徴量だけでは分離できなかったg104を、さらにパラメータ3とパラメータ4との相関特徴量0.96を境にして分離できるので、パラメータ3とパラメータ4も指標情報に影響を与えていることがわかる。すなわち、
図8の例では、指標情報の良悪を、パラメータ1とパラメータ2によってほぼ分離でき、さらにパラメータ3とパラメータ4によって完全に分離できることを示している。具体的には、指標情報が「悪」の要因は、パラメータ1とパラメータ2の相関特徴量が0.9未満であり、かつパラメータ3とパラメータ4の相関特徴量が0.96未満である。なお、このようなしきい値(0.9、0.96)も、パラメータ抽出部14が備える第1の学習部(
図9)が推定する。
【0038】
なお、
図8に示した分離例、しきい値、2つのパラメータ、生産単位数等は一例であり、これに限らない。例えば、指標情報が、グループ1、グループ2、グループ3の場合は、3つに分離するようにしてもよい。
【0039】
パラメータ抽出部14は、例えば機械学習によって生成した第1の学習モデルを用いて、このような分離処理を行う。
図9は、本実施形態に係るパラメータ抽出部14が備える第1の学習モデル141の例を示す図である。第1の学習モデル141の学習の際、入力g101は生産単位情報とパラメータ情報と指標情報と相関特徴量が関連付けられているデータであり、出力g102は指標に影響が大きいパラメータと相関特徴量と
図8のような決定木に関する情報のうちの少なくとも1つである。なお、学習の際、過去に例えば解析者によって解析された結果(指標に与える影響が大きなパラメータ)を教示データとしてもよい。なお、機械学習に用いる手法は、例えばMT法、深層学習等である。
【0040】
なお、上述した例では、パラメータ抽出部14は、自部が備える第1の学習モデル141を用いて、
図8のような決定木を出力する例を説明したが、これに限られない。パラメータ抽出部14は、1組ずつパラメータの組を選択し、選択したパラメータの組ごとにパラメータの組の相関特徴量に対して、分離が最も良いしきい値を設定するようにしてもよい。例えば、パラメータ1とパラメータ2との相関特徴量の値の範囲が0~1の場合、パラメータ抽出部14は、しきい値を0から0.01ずつ1まで増加させていくようにしてもよい。そして、パラメータ抽出部14は、全てのしきい値で分離した場合、最も指標情報を分離できたしきい値を選択するようにしてもよい。パラメータ抽出部14は、指標情報を完全に分離できなかった場合、他のパラメータの組を選択し、しきい値を求めるようにしてもよい。このような処理を繰り返すことで、パラメータ抽出部14は、
図8のような決定木を求めるようにしてもよい。
【0041】
この結果、出力部16は、指標に影響を与えていると推定されたパラメータとしきい値(例えば
図8)、パラメータの組み合わせによる相関図、そのパラメータの組み合わせによる相関特徴量等を表示装置2に表示させてもよい。または、出力部16は、
図8のような決定木に関する情報を表示装置2に表示させてもよい。利用者は、
図8のような結果を見ることで、まずパラメータ1とパラメータ2に対して対策を行い、その結果、まだ所望の品質が良い生産単位数を得られない場合にパラメータ3とパラメータ4に対して対策を行う等、対策の戦略を立てることができる。
【0042】
このように、本実施形態によれば、基準以上(例えば指標「良」)のデータを抽出して(基準以下のデータ(例えば指標「悪」)を除去して)作成した近似式を用いて算出した有効な特徴量を使うため、少ない生産単位数でも機械学習によって、精度良く指標に影響を与えているパラメータを推定することができる。
【0043】
<比較例>
次に、
図10~
図13を用いて比較例を説明する。
図10は、比較例におけるデータ解析システム900の構成を示すブロック図である。
図10のように、データ解析システム900は、データ読み込み部911、データベース912、パラメータ絞り込み部914、解析結果生成部915、および出力部916を備える。
【0044】
データ読み込み部911は、例えば生産単位のデータを読み込み、読み込んだデータをデータベース912に格納する。なお、取得されるデータは、実施形態と同様である。
データベース912は、生産単位情報に、複数のパラメータおよび指標情報を関連づけて格納する。
【0045】
特徴量作成部913は、読み込まれたパラメータ値から、指標に影響を与えそうな特徴量を作成する。なお、解析担当者が、特徴を設定する。しかし、何を特徴とするかは解析担当者の知見に依存していて、解析対象のドメイン知識がないと、有効な情報につながる特徴量を定義できない。特徴量は、例えば製造においてプロセスが連続の場合のトレンドデータであり、最大値、最小値、標準偏差、傾き等である。
【0046】
パラメータ絞り込み部914は、読み込まれたパラメータに、作成した特徴量を加え、この中から指標の良悪に影響を与えたパラメータ(特徴量を含む)を、例えば機械学習によって絞り込む。パラメータ絞り込み部914は、機械学習の結果を、例えば、どのパラメータの組み合わせが指標の良悪を判別できるか、判別できる可能性が高い順に出力する。
【0047】
解析結果生成部915は、例えばパラメータの分布をグラフ化し、グラフ化したグラフ画像を出力部916に出力する。
出力部916は、解析結果生成部915が出力するグラフ画像を表示装置に表示させる。
【0048】
図11は、比較例におけるパラメータをヒストグラムで表した例を示す図である。
ヒストグラムg901はパラメータ1のヒストグラムであり、ヒストグラムg911はパラメータ2のヒストグラムである。ヒストグラムg901とヒストグラムg911において、横軸はパラメータ値(例えば1間隔の0~10の値)であり、縦軸は度数である。なお、度数とは、複数の生産単位において、パラメータ値が同じ生産単位の数である。また、符号902は指標情報が「良」を表し、符号g903は指標情報が「悪」を表す。
【0049】
パラメータ2に対するヒストグラムg911は、「良」と「悪」の分布が分離し偏っていて、パラメータ2の値が大きいと指標が悪くなる傾向がある。つまり、パラメータ2の値が大きいことが、指標が悪くなる要因の可能性があることが分かる。一方、パラメータ1に対するヒストグラムg901は、「良」と「悪」の分布が分離していず偏っていないため、傾向が見いだせない。
【0050】
図12は、比較例における2つのパラメータの相関を表した例を示す図である。
相関図g921はパラメータ3とパラメータ4との相関図であり、相関図g931はパラメータ5とパラメータ6との相関図である。相関図g921において、横軸はパラメータ4(例えば0~10の値)であり、縦軸はパラメータ3(例えば0~10の値)である。相関図g931において、横軸はパラメータ6(例えば0~10の値)であり、縦軸はパラメータ5(例えば0~10の値)である。また、符号922は指標情報が「良」を表し、符号g923は指標情報が「悪」を表す。
【0051】
パラメータ5とパラメータ6との相関図g931は、「良」と「悪」の分布が分離し偏っていて、パラメータ5の値が小さくパラメータ6の値が大きいと、指標が悪くなる傾向があることが分かる。つまり、パラメータ5の値が小さくパラメータ6の値が大きいことが、指標が悪くなる要因の可能性があることが分かる。一方、パラメータ3とパラメータ4との相関図g921は、「良」と「悪」の分布が分離していず偏っていないため、傾向が見いだせない。
【0052】
比較例の手法では、解析担当者が、このように、パラメータ毎に作成された全てのヒストグラム、全ての相関図を確認して傾向を確認することで、要因のパラメータを推定する必要がある。しかしながら、パラメータが多くなれば多くなるほど、ヒストグラムも相関図も数が増加する。このため、解析担当者は、出力されたグラフを全て見るのが困難になり、かつどのパラメータが製造の指標に影響を与えているかの判断も困難になる。
【0053】
また、比較例の手法では、パラメータの絞り込みを例えば機械学習を用いて行う場合、大量の事例または生産単位数(例えば10万以上)があれば、どのパラメータが指標の良悪に影響を与えたのかを正確に絞り込むことができる。しかしながら、工場で行われる製造プロセスでは、生産単位の数は、数十から数百が一般的である。このように生産単位数が少ない場合は、機械学習の精度が上がらず、正確な絞込みができない。また、機械学習の結果は、物理化学的に何を意味しているのか理解できず採用できないという問題もある。さらに指標の「良」と「悪」との分布の一部が重なっているような場合は、クラスタリング処理によって分離するのが困難である。
【0054】
さらに、比較例の場合、グラフの作成の際、指標「良」と「悪」の両方を用いている。このため、
図13のような相関図において、例えばクラスタリング処理を行うと、指標「良」と「悪」に分離されず、グループg955とg956のように分離されてしまう。
図13は、比較例において相関図のデータをクラスタリング処理した例を示す図である。なお、符号952は指標情報が「良」を表し、符号g953は指標情報が「悪」を表す。
これに対して、本実施形態では、相関特徴量の算出の際、指標情報のうち「悪」を除外して近似式を求めるようにしたので、
図13のような誤った分類にならない。
【0055】
<変形例>
上述した実施形態では、パラメータ抽出部14が相関特徴量を用いて、指標に影響を与えているパラメータの組を推定する例を説明したが、これに限らない。
パラメータ抽出部14は、パラメータ毎のデータを第2の学習モデルを用いて、1つのパラメータが指標に影響を与えていれば、そのパラメータも抽出するようにしてもよい。この場合、学習の際の入力はパラメータ毎のデータ(生産単位情報とパラメータ情報と指標情報)であり、出力は影響を与えたパラメータである。なお、出力されるパラメータの数は複数であってもよい。例えば、パラメータ抽出部14は、
図11のようにパラメータ毎にヒストグラムを作成し、作成したヒストグラムにおける指標の偏りに基づいて、指標に影響を与えている1つのパラメータを抽出するようにしてもよい。
【0056】
本実施形態によれば、解析対象のドメイン知識がなくても上述した手法によって相関特徴量を抽出できる。なお、相関特徴量は、相関関係のくずれ度合いを表している。なお、くずれ度合いとは、上述したように近似式と各データとの距離である。本実施形態によれば、この相関特徴量に基づいて、生産単位数が少なくパラメータが多い場合であっても、指標の良悪に影響を与えたパラメータを絞り込むことができる。
【0057】
また、本実施形態によれば、パラメータ間の相関関係である近似式と、近似式とパラメータのデータとの距離に基づいて相関特徴量を算出するようにした。本実施形態によれば、生産単位数が少なくパラメータや指標だけによる機械学習によるパラメータの絞り込みが困難な場合であっても、この相関特徴量に基づいて、指標の良悪に影響を与えたパラメータを絞り込むことができる。
そして、本実施形態によれば、抽出された相関特徴量を使って機械学習を行うことで、相関関係のくずれ度合いが指標に影響を与えているものを推定することができる。例えば、生産単位毎のパラメータ値のデータから、燃料を増やした時に温度が順調に上がる場合は、指標が良く、燃料を増やした時に温度があまり上がらない時は、指標は悪いことを見つけることができる。
【0058】
また、本実施形態によれば、解析担当者は、出力された結果を確認すればよく、確認するグラフの数が少ない。本実施形態によれば、解析担当者は、機械学習が提示したパラメータの相関図を見て、本当にそのパラメータが指標の良悪に影響を与えたのかを確認することができる。例えば
図8の例では、「パラメータ1とパラメータ2の相関図」「パラメータ3とパラメータの4の相関図」の2つだけで、入力データにパラメータ数が数百あっても、問題なくグラフ表示機能で確認できる。
【0059】
また、上述したように。本実施形態によれば、解析対象のドメイン知識がなくても、有効な特徴量を抽出できる。
本実施形態によれば、有効な特徴量を使うことで、生産単位数が少なくても、機械学習で正確な結果を導くことができるので、パラメータを絞り込むことができる。
【0060】
なお、上述した例では、2つのパラメータによる二次元の相関図において近似式を算出し、近似式とデータとの距離を算出する例を説明したが、これに限らない。相関図は、例えば3つのパラメータによる三次元以上であってもよい。次元は、解析担当者が視認可能なものであればよく、例えば五次元、六次元程度でもよい。
【0061】
また、上述した例では、指標情報が「良」と「悪」の2つの例を説明したが、指標情報の数は3つ以上であってもよい。例えば、指標情報が「良」と「通常」と「悪」の3つの場合、特徴量抽出部13は、例えばデータの内、「通常」と「悪」を除去して「良」のみを用いて近似式を算出してもよく、あるいは「悪」のみを除去して「良」と「通常」を用いて近似式を算出してもよい。このように、特徴量抽出部13は、指標情報のうち1つ以上を除去することで近似式を算出するようにしてもよい。
【0062】
なお、本発明におけるデータ解析システム1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータ解析システム1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0063】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0064】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0065】
1…データ解析システム、11…データ取得部、12…データベース、13…特徴量抽出部、14…パラメータ抽出部、15…解析結果生成部、16…出力部