特許7419955 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 横河電機株式会社の特許一覧

特許7419955データ解析システム、データ解析方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-15

(45)【発行日】2024-01-23

(54)【発明の名称】データ解析システム、データ解析方法、およびプログラム

(51)【国際特許分類】

G05B 19/418 20060101AFI20240116BHJP

G06Q 50/04 20120101ALI20240116BHJP

【ＦＩ】

G05B19/418 Z

G06Q50/04

【請求項の数】 5

(21)【出願番号】P 2020078581

(22)【出願日】2020-04-27

(65)【公開番号】P2021174319

(43)【公開日】2021-11-01

【審査請求日】2022-11-01

(73)【特許権者】

【識別番号】000006507

【氏名又は名称】横河電機株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100206081

【弁理士】

【氏名又は名称】片岡央

(74)【代理人】

【識別番号】100167553

【弁理士】

【氏名又は名称】高橋久典

(74)【代理人】

【識別番号】100181124

【弁理士】

【氏名又は名称】沖田壮男

(74)【代理人】

【識別番号】100106909

【弁理士】

【氏名又は名称】棚井澄雄

(74)【代理人】

【識別番号】100146835

【弁理士】

【氏名又は名称】佐伯義文

(72)【発明者】

【氏名】檜物亮一

【審査官】石川健一

(56)【参考文献】

【文献】国際公開第２０１９／２２０４８１（ＷＯ，Ａ１）

【文献】特開２００６－２９３６５８（ＪＰ，Ａ）

【文献】特開２０１６－０４５７９３（ＪＰ，Ａ）

【文献】特開２０１６－１７７７９４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０５Ｂ１９／４１８

Ｇ０６Ｑ５０／０４

(57)【特許請求の範囲】

【請求項1】

生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得するデータ取得部と、
前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出する相関特徴量抽出部と、
を備え、
前記相関特徴量抽出部は、
前記解析対象データの中から、２つ以上の前記パラメータの組を選択し、選択した前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出し、抽出したデータを用いて選択した前記パラメータの組の相関関係を示す近似式を算出し、選択した前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出する、
データ解析システム。

【請求項2】

算出された前記相関特徴量に基づいて、前記指標に影響を与えている前記パラメータを抽出するパラメータ抽出部、を更に備える、
請求項１に記載のデータ解析システム。

【請求項3】

前記パラメータ抽出部は、機械学習によって前記相関特徴量に基づいて前記指標に影響を与えている前記パラメータを抽出する、
請求項２に記載のデータ解析システム。

【請求項4】

データ解析システムに、
生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、
前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させ、
前記解析対象データの中から、２つ以上の前記パラメータの組を選択させ、選択させた前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出させ、抽出させたデータを用いて選択させた前記パラメータの組の相関関係を示す近似式を算出させ、選択させた前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出させる、
データ解析方法。

【請求項5】

コンピュータに、
生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、
前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させ、
前記解析対象データの中から、２つ以上の前記パラメータの組を選択させ、選択させた前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出させ、抽出させたデータを用いて選択させた前記パラメータの組の相関関係を示す近似式を算出させ、選択させた前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ解析システム、データ解析方法、およびプログラムに関する。

【背景技術】

【0002】

工場で行われる製造プロセスのように繰返し行われる一連の作業の結果、何らかの指標（例えば品質）が良かった時と悪かった時がある場合に、過去データを解析して指標が悪かった時の要因を絞り込んでいくことで、製品性能及び製造性能を安定化させる技術が提案されている。

【0003】

例えば、特許文献１には、製品性能のばらつきを生じさせる阻害要因を特定し、製品性能及び製造性能を安定化させる技術が開示されている。具体的に、特許文献１に開示された技術では、製造プロセスの生産単位をプロセスデータに基づいて生成された主成分得点から複数のグループに区分し、プロダクトデータに基づいて複数のグループの優劣を判定し、グループの優劣に寄与する阻害要因を特定して、製品性能及び製造性能を安定化するようにしている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１６－１７７７９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

従来技術では、過去データを解析して、指標が悪かった時の要因を絞り込んでいくために、観測されるパラメータ（例えば、気温、作業者、作業時間帯等）の中で、どのパラメータが指標の良悪に影響を与えたのかを絞り込む必要がある。しかしながら従来技術では、パラメータ数が多い場合は、どのパラメータが指標の良悪に影響あるのかを絞り込めない。また、従来技術では、解析データにおいて生産単位（例えばロット）数が少ない場合は、解析精度が上がらないという問題があった。

【0006】

本発明は、上記の問題点に鑑みてなされたものであって、生産単位数が少なくパラメータが多い場合であっても、指標の良悪に影響を与えたパラメータを絞り込むことができるデータ解析システム、データ解析方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するため、本発明の一態様に係るデータ解析システムは、生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得するデータ取得部と、前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出する相関特徴量抽出部と、を備える。

【0008】

また、本発明の一態様に係るデータ解析システムにおいて、前記相関特徴量抽出部は、前記解析対象データの中から、２つ以上の前記パラメータの組を選択し、選択した前記パラメータの組のデータの中から前記指標が予め規定された基準を満たす前記生産単位のデータを抽出し、抽出したデータを用いて選択した前記パラメータの組の相関関係を示す近似式を算出し、選択した前記パラメータの組のデータと前記近似式との距離を示す相関特徴量を前記生産単位毎に算出するようにしてもよい。

【0009】

また、本発明の一態様に係るデータ解析システムにおいて、算出された前記相関特徴量に基づいて、前記指標に影響を与えている前記パラメータを抽出するパラメータ抽出部、を更に備えるようにしてもよい。

【0010】

また、本発明の一態様に係るデータ解析システムにおいて、前記パラメータ抽出部は、機械学習によって前記相関特徴量に基づいて前記指標に影響を与えている前記パラメータを抽出するようにしてもよい。

【0011】

上記目的を達成するため、本発明の一態様に係るデータ解析方法は、データ解析システムに、生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させる。

【0012】

上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、生産単位毎に生産された製品の生産要素に関するパラメータと、前記製品を評価するための指標とが前記生産単位毎に対応付けられた解析対象データを取得させ、前記パラメータ間の相関関係と、前記相関関係と前記パラメータのデータとに基づいて、前記生産単位毎に相関特徴量を算出させる。

【発明の効果】

【0013】

本発明によれば、パラメータの組の相関関係を表す相関特徴量を用いたため、生産単位数が少なくパラメータが多い場合であっても、指標の良悪に影響を与えたパラメータを絞り込むことができる。

【図面の簡単な説明】

【0014】

【図1】実施形態に係るデータ解析システムの構成例を示すブロック図である。

【図2】実施形態に係るデータ取得部が取得してデータベースに格納するデータ例を示す図である。

【図3】実施形態に係る特徴量の抽出手順のフローチャートである。

【図4】実施形態に係る近似式の算出例を示す図である。

【図5】実施形態に係る特徴量の抽出方法例を示す図である。

【図6】実施形態に係る１組のパラメータの組み合わせによる相関特徴量をデータベースに追加した後のデータ例を示す図である。

【図7】実施形態に係るパラメータの全ての組み合わせによる相関特徴量をデータベースに追加した後のデータ例を示す図である。

【図8】実施形態に係るパラメータの絞り込み結果例を示す図である。

【図9】実施形態に係るパラメータ抽出部が備える第１の学習モデルの例を示す図である。

【図10】比較例におけるデータ解析システムの構成を示すブロック図である。

【図11】比較例におけるパラメータをヒストグラムで表した例を示す図である。

【図12】比較例における２つのパラメータの相関を表した例を示す図である。

【図13】比較例において相関図のデータをクラスタリング処理した例を示す図である。

【発明を実施するための形態】

【0015】

＜概要＞
まず、実施形態の概要を説明する。
本実施形態では、工場で行われる製造プロセスのように繰返し行われる一連の作業の結果、何らかの指標（品質に関するラベル、例えば品質）が良かった時（例えば生産単位（例えばロット））と悪かった時がある場合、過去データを解析して、指標が悪かった時の要因を絞り込む。なお、指標が悪いとは例えば出荷検査の際に出荷基準を満たしていないことであり、指標が良いとは例えば出荷検査の際に出荷基準を満たしていることである。

【0016】

以下、本発明の実施の形態について図面を参照しながら説明する。
図１は、本実施形態に係るデータ解析システム１の構成例を示すブロック図である。図１のように、データ解析システム１は、データ取得部１１、データベース１２、特徴量抽出部１３、パラメータ抽出部１４、解析結果生成部１５、および出力部１６を備える。なお、データベース１２は、ネットワークを介してクラウド上にあってもよい。また、データ解析システム１には、表示装置２が接続されている。なお、以下の説明では、工場で行われる製造プロセスを例に説明する。また、本実施形態では、製造における生産単位の一例として、所定の生産数毎または生産数量毎のロットを例に説明するが、生産単位はロットに限らない。生産単位は、所定数毎、日付毎、時間毎、製造者のシフト毎、製造に使用される材料の生産単位毎等であってもよい。

【0017】

表示装置２は、例えば、液晶画像表示装置、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）画像表示装置等である。表示装置２は、データ解析システム１が出力する画像情報を表示する。

【0018】

データ解析システム１は、取得した製造に関するデータを解析して、製造の指標に影響に与えたパラメータを推定する。指標とは、例えば製造プロセスにおける品質検査結果であり、例えば品質、生産量、コスト、生産にかかった時間等である。以下の例では、製造された製品の性能等を評価した場合、判定値以上の場合に「良」（第１の指標）、判定値未満の場合に「悪」（第２の指標）とする指標を例に説明する。パラメータとは、製造プロセスにおいて、製造された製品の指標に影響を与える可能性がある要因（生産要素）であり、例えば生産の４要素（原料、設備、工程、人）に関する変数である。一例としてパラメータは、加熱時の温度、加熱時間、冷却時の温度、冷却時間、原料の成分等である。なお、指標は、例えば上述のような「良」、「悪」等のラベルであってもよく、数値であってもよい。

【0019】

データ取得部１１は、例えば生産単位のデータを読み込み、読み込んだデータをデータベース１２に格納する。なお、データには、生産単位を示す情報（以下、生産単位情報という）、複数のパラメータ、および指標を表す情報（以下、指標情報という）が含まれている。生産単位情報とは、例えば製造プロセスにおいて、製造側が特定する製品の最小単位である。また、取得されるデータは、解析対象のデータである。

【0020】

データベース１２は、生産単位情報に、複数のパラメータおよび指標情報を関連づけて格納する。なお、データベース１２は、複数の製品について情報を格納する場合、製品毎に生産単位情報に、複数のパラメータおよび指標情報を関連づけて格納する。

【0021】

特徴量抽出部１３は、データ取得部１１がデータベース１２に格納した生産単位のデータを入力データして、各パラメータ間の相関関係の特徴量を抽出する。特徴量抽出部１３は、生産単位情報に関連づけられている複数のパラメータおよび指標情報に、抽出した各パラメータ間の相関関係の特徴量を関連づけてデータベース１２に格納する。なお、各パラメータ間の相関関係の特徴量と、特徴量の算出方法については後述する。

【0022】

パラメータ抽出部１４は、パラメータとその相関特徴量の中から、指標の良悪に影響を与えたパラメータまたは相関特徴量を例えば機械学習によって抽出し、抽出した抽出結果を解析結果生成部１５に出力する。なお、指標の良悪に影響を与えたパラメータまたは相関特徴量の抽出方法については後述する。

【0023】

解析結果生成部１５は、パラメータ抽出部１４が出力する抽出結果に基づいて、例えばグラフ画像を作成し、作成したグラフ画像を出力部１６に出力する。

【0024】

出力部１６は、解析結果生成部１５が出力するグラフ画像を表示装置２に表示させる。

【0025】

＜取得されるデータ例＞
次に、データ取得部１１が取得してデータベース１２に格納するデータ例を説明する。図２は、本実施形態に係るデータ取得部１１が取得してデータベース１２に格納するデータ例を示す図である。図２のように、データ取得部１１が取得してデータベース１２に格納するデータは、生産単位情報に、５００個のパラメータと指標情報が関連付けられている。なお、図２に示した例は一例であり、パラメータ数は解析する環境に応じた数であればよい。また、指標情報も一例であり、これに限らない。

【0026】

＜特徴量の抽出方法例＞
次に、特徴量の抽出方法例を、図３～図７を用いて説明する。まず、図３を用いて特徴量の抽出手順例を説明する。図３は、本実施形態に係る特徴量の抽出手順のフローチャートである。

【0027】

（ステップＳ１）特徴量抽出部１３は、データベース１２に格納されているデータから、生産単位毎に２つのパラメータの抽出を順次、全てのパラメータの組み合わせについて行う。特徴量抽出部１３は、例えばパラメータ数が５００の場合、生産単位毎に１２４，７５０回（＝５００×４９９÷２）抽出する。なお、特徴量抽出部１３は、全ての生産単位に対して同様の処理を行う。

【0028】

（ステップＳ２）特徴量抽出部１３は、全ての生産単位に対してパラメータの組の抽出処理が終了したか否かを判別する。特徴量抽出部１３は、全ての生産単位に対してパラメータの組の抽出処理が終了したと判別した場合（ステップＳ２；ＹＥＳ）、処理を終了する。特徴量抽出部１３は、全ての生産単位に対してパラメータの組の抽出処理が終了していないと判別した場合（ステップＳ２；ＮＯ）、ステップＳ３の処理に進める。

【0029】

（ステップＳ３）特徴量抽出部１３は、ステップＳ１で抽出した２つパラメータに対して、指標情報が「良」の生産単位だけを抽出し、抽出した生産単位のデータの相関図における座標を用いて相関関係の近似式を算出する。すなわち、特徴量抽出部１３は、選択したパラメータの組のデータの中から指標が予め規定された基準以上である生産単位のデータを抽出し、すなわち指標情報が第１の指標（「良」、第１グループ）の生産単位のデータだけを抽出して近似式を求める。この例の基準は「良」であり、製品の品質が予め規定された基準を満たすことを示すものである。図４は、本実施形態に係る近似式の算出例を示す図である。図４において、横軸はパラメータ１（例えば０～１０の値）であり、縦軸はパラメータ２（例えば０～１０の値）である。図４の例は、パラメータ１とパラメータ２について、指標情報が「良」の生産単位のデータｇ２１だけをプロットして、例えば最小自乗法によって一次近似して近似式ｇ１１を算出した例である。

【0030】

（ステップＳ４）特徴量抽出部１３は、全てのデータに対して、２つのパラメータの相関図の生産単位毎のプロット点と作成した近似式との距離を算出し、算出した距離を特徴量とする。以下、この特徴量を相関特徴量と呼ぶ。すなわち、特徴量抽出部１３は、第１の指標（第１グループ）の生産単位のデータと、残りの指標である第２の指標（第２グループ）の生産単位のデータそれぞれと、近似式との距離を算出する。図５は、本実施形態に係る特徴量の抽出方法例を示す図である。図５の各軸は図４と同じである。図５のように、相関特徴量の際、特徴量抽出部１３は、指標情報が「良」の生産単位のデータｇ２１だけではなく「悪」の生産単位のデータｇ２２も用いる。図５において、相関特徴量ｇ３１は、近似式ｇ１１と生産単位ｎのデータｇ１２との距離である。なお、距離は、近似式ｇ１１からデータ（ｇ２１、ｇ２２）への垂線の長さである。なお、特徴量抽出部１３は、近似式ｇ１１の直線とデータとの距離ｄを、点と直線との距離の公式を用いて算出する。

【0031】

（ステップＳ５）特徴量抽出部１３は、計算した相関特徴量を、データベース１２の生産単位のテーブルに追加する。図６は、本実施形態に係る１組のパラメータの組み合わせによる相関特徴量をデータベース１２に追加した後のデータ例を示す図である。図６の例では、パラメータ１とパラメータ２との相関特徴量をデータベース１２に追加した例である。特徴量抽出部１３は、処理をステップＳ１に戻す。

【0032】

なお、図５のように、指標情報「悪」の距離の方が、指標情報「良」の距離より遠い場合、すなわち指標情報「悪」の相関特徴量の方が、指標情報「良」の特徴量より大きい場合は、指標情報の良悪に与える影響がパラメータ１とパラメータ２が大きい。パラメータ抽出部１４では、このような指標情報に与える影響が大きいパラメータを絞り込んでいる。

【0033】

図７は、本実施形態に係るパラメータの全ての組み合わせによる相関特徴量をデータベース１２に追加した後のデータ例を示す図である。図７のように、特徴量抽出部１３は、全てのパラメータの組み合わせによる相関特徴量をデータベース１２に追加する。例えばパラメータ数が５００の場合は、生産単位毎に、１２４，７５０個の各パラメータ間の相関特徴量ｇ５１（パラメータ１とパラメータ２との相関特徴量、パラメータ１とパラメータ３との相関特徴量、…、パラメータ４９９とパラメータ５００との相関特徴量）が登録される。

【0034】

＜パラメータの絞り込み結果例＞
次に、パラメータの絞り込み方法例を説明する。図８は、本実施形態に係るパラメータの絞り込み結果例を示す図である。図８の例は、数百あるパラメータとその相関特徴量の中から、どのパラメータまたは相関特徴量が、指標の良悪に影響を与えたのか絞り込んだ結果例を示したものである。図８の例では、生産単位数が３７であり、指標情報の良が２８生産単位であり、悪が９生産単位である（符号ｇ１０１）。なお、符号ｇ１０１、ｇ１０４、ｇ１０７、ｇ１０８、およびｇ１０９において、左の値は指標情報が悪の生産単位数であり、右の値は指標情報が良の生産単位数である。

【0035】

パラメータ抽出部１４は、パラメータ１とパラメータ２の相関特徴量に対するしきい値を最も「良」と「悪」に分離できる値に設定する。続けて、パラメータ抽出部１４は、パラメータ１とパラメータ２の相関特徴量の値が０．９未満（符号ｇ１０２）と、パラメータ１とパラメータ２の相関特徴量の値が０．９以上（符号ｇ１０３）と、に分離する。この結果、指標情報が良の２７生産単位（符号ｇ１０９）と、指標情報が良の１生産単位と指標情報が悪に９生産単位（符号ｇ１０４）に区別できることを示している。

【0036】

パラメータ抽出部１４は、符号ｇ１０４の１０生産単位（＝９＋１）を、パラメータ３とパラメータ４の相関特徴量の値が０．９６未満（符号ｇ１０５）と、パラメータ３とパラメータ４の相関特徴量の値が０．９６以上（符号ｇ１０６）と、に分離できることを示している。そして、指標情報が悪の９生産単位（符号ｇ１０７）と、指標情報が良の１生産単位（符号ｇ１０８）に区別できることを示している。そして一回の処理で「良」と「悪」に分離できなかった場合は、一回目の処理とは異なるパラメータの組の相関特徴量を用いて分離できることを示している。

【0037】

このように、図８は、パラメータ１とパラメータ２との相関特徴量＝０．９を境にして指標情報の良悪をほぼ分けることができるので、指標情報に与える影響が大きいのはパラメータ１とパラメータ２であると分かる。また、図８によれば、パラメータ１とパラメータ２との相関特徴量だけでは分離できなかったｇ１０４を、さらにパラメータ３とパラメータ４との相関特徴量０．９６を境にして分離できるので、パラメータ３とパラメータ４も指標情報に影響を与えていることがわかる。すなわち、図８の例では、指標情報の良悪を、パラメータ１とパラメータ２によってほぼ分離でき、さらにパラメータ３とパラメータ４によって完全に分離できることを示している。具体的には、指標情報が「悪」の要因は、パラメータ１とパラメータ２の相関特徴量が０．９未満であり、かつパラメータ３とパラメータ４の相関特徴量が０．９６未満である。なお、このようなしきい値（０．９、０．９６）も、パラメータ抽出部１４が備える第１の学習部（図９）が推定する。

【0038】

なお、図８に示した分離例、しきい値、２つのパラメータ、生産単位数等は一例であり、これに限らない。例えば、指標情報が、グループ１、グループ２、グループ３の場合は、３つに分離するようにしてもよい。

【0039】

パラメータ抽出部１４は、例えば機械学習によって生成した第１の学習モデルを用いて、このような分離処理を行う。図９は、本実施形態に係るパラメータ抽出部１４が備える第１の学習モデル１４１の例を示す図である。第１の学習モデル１４１の学習の際、入力ｇ１０１は生産単位情報とパラメータ情報と指標情報と相関特徴量が関連付けられているデータであり、出力ｇ１０２は指標に影響が大きいパラメータと相関特徴量と図８のような決定木に関する情報のうちの少なくとも１つである。なお、学習の際、過去に例えば解析者によって解析された結果（指標に与える影響が大きなパラメータ）を教示データとしてもよい。なお、機械学習に用いる手法は、例えばＭＴ法、深層学習等である。

【0040】

なお、上述した例では、パラメータ抽出部１４は、自部が備える第１の学習モデル１４１を用いて、図８のような決定木を出力する例を説明したが、これに限られない。パラメータ抽出部１４は、１組ずつパラメータの組を選択し、選択したパラメータの組ごとにパラメータの組の相関特徴量に対して、分離が最も良いしきい値を設定するようにしてもよい。例えば、パラメータ１とパラメータ２との相関特徴量の値の範囲が０～１の場合、パラメータ抽出部１４は、しきい値を０から０．０１ずつ１まで増加させていくようにしてもよい。そして、パラメータ抽出部１４は、全てのしきい値で分離した場合、最も指標情報を分離できたしきい値を選択するようにしてもよい。パラメータ抽出部１４は、指標情報を完全に分離できなかった場合、他のパラメータの組を選択し、しきい値を求めるようにしてもよい。このような処理を繰り返すことで、パラメータ抽出部１４は、図８のような決定木を求めるようにしてもよい。

【0041】

この結果、出力部１６は、指標に影響を与えていると推定されたパラメータとしきい値（例えば図８）、パラメータの組み合わせによる相関図、そのパラメータの組み合わせによる相関特徴量等を表示装置２に表示させてもよい。または、出力部１６は、図８のような決定木に関する情報を表示装置２に表示させてもよい。利用者は、図８のような結果を見ることで、まずパラメータ１とパラメータ２に対して対策を行い、その結果、まだ所望の品質が良い生産単位数を得られない場合にパラメータ３とパラメータ４に対して対策を行う等、対策の戦略を立てることができる。

【0042】

このように、本実施形態によれば、基準以上（例えば指標「良」）のデータを抽出して（基準以下のデータ（例えば指標「悪」）を除去して）作成した近似式を用いて算出した有効な特徴量を使うため、少ない生産単位数でも機械学習によって、精度良く指標に影響を与えているパラメータを推定することができる。

【0043】

＜比較例＞
次に、図１０～図１３を用いて比較例を説明する。
図１０は、比較例におけるデータ解析システム９００の構成を示すブロック図である。図１０のように、データ解析システム９００は、データ読み込み部９１１、データベース９１２、パラメータ絞り込み部９１４、解析結果生成部９１５、および出力部９１６を備える。

【0044】

データ読み込み部９１１は、例えば生産単位のデータを読み込み、読み込んだデータをデータベース９１２に格納する。なお、取得されるデータは、実施形態と同様である。
データベース９１２は、生産単位情報に、複数のパラメータおよび指標情報を関連づけて格納する。

【0045】

特徴量作成部９１３は、読み込まれたパラメータ値から、指標に影響を与えそうな特徴量を作成する。なお、解析担当者が、特徴を設定する。しかし、何を特徴とするかは解析担当者の知見に依存していて、解析対象のドメイン知識がないと、有効な情報につながる特徴量を定義できない。特徴量は、例えば製造においてプロセスが連続の場合のトレンドデータであり、最大値、最小値、標準偏差、傾き等である。

【0046】

パラメータ絞り込み部９１４は、読み込まれたパラメータに、作成した特徴量を加え、この中から指標の良悪に影響を与えたパラメータ（特徴量を含む）を、例えば機械学習によって絞り込む。パラメータ絞り込み部９１４は、機械学習の結果を、例えば、どのパラメータの組み合わせが指標の良悪を判別できるか、判別できる可能性が高い順に出力する。

【0047】

解析結果生成部９１５は、例えばパラメータの分布をグラフ化し、グラフ化したグラフ画像を出力部９１６に出力する。
出力部９１６は、解析結果生成部９１５が出力するグラフ画像を表示装置に表示させる。

【0048】

図１１は、比較例におけるパラメータをヒストグラムで表した例を示す図である。
ヒストグラムｇ９０１はパラメータ１のヒストグラムであり、ヒストグラムｇ９１１はパラメータ２のヒストグラムである。ヒストグラムｇ９０１とヒストグラムｇ９１１において、横軸はパラメータ値（例えば１間隔の０～１０の値）であり、縦軸は度数である。なお、度数とは、複数の生産単位において、パラメータ値が同じ生産単位の数である。また、符号９０２は指標情報が「良」を表し、符号ｇ９０３は指標情報が「悪」を表す。

【0049】

パラメータ２に対するヒストグラムｇ９１１は、「良」と「悪」の分布が分離し偏っていて、パラメータ２の値が大きいと指標が悪くなる傾向がある。つまり、パラメータ２の値が大きいことが、指標が悪くなる要因の可能性があることが分かる。一方、パラメータ１に対するヒストグラムｇ９０１は、「良」と「悪」の分布が分離していず偏っていないため、傾向が見いだせない。

【0050】

図１２は、比較例における２つのパラメータの相関を表した例を示す図である。
相関図ｇ９２１はパラメータ３とパラメータ４との相関図であり、相関図ｇ９３１はパラメータ５とパラメータ６との相関図である。相関図ｇ９２１において、横軸はパラメータ４（例えば０～１０の値）であり、縦軸はパラメータ３（例えば０～１０の値）である。相関図ｇ９３１において、横軸はパラメータ６（例えば０～１０の値）であり、縦軸はパラメータ５（例えば０～１０の値）である。また、符号９２２は指標情報が「良」を表し、符号ｇ９２３は指標情報が「悪」を表す。

【0051】

パラメータ５とパラメータ６との相関図ｇ９３１は、「良」と「悪」の分布が分離し偏っていて、パラメータ５の値が小さくパラメータ６の値が大きいと、指標が悪くなる傾向があることが分かる。つまり、パラメータ５の値が小さくパラメータ６の値が大きいことが、指標が悪くなる要因の可能性があることが分かる。一方、パラメータ３とパラメータ４との相関図ｇ９２１は、「良」と「悪」の分布が分離していず偏っていないため、傾向が見いだせない。

【0052】

比較例の手法では、解析担当者が、このように、パラメータ毎に作成された全てのヒストグラム、全ての相関図を確認して傾向を確認することで、要因のパラメータを推定する必要がある。しかしながら、パラメータが多くなれば多くなるほど、ヒストグラムも相関図も数が増加する。このため、解析担当者は、出力されたグラフを全て見るのが困難になり、かつどのパラメータが製造の指標に影響を与えているかの判断も困難になる。

【0053】

また、比較例の手法では、パラメータの絞り込みを例えば機械学習を用いて行う場合、大量の事例または生産単位数（例えば１０万以上）があれば、どのパラメータが指標の良悪に影響を与えたのかを正確に絞り込むことができる。しかしながら、工場で行われる製造プロセスでは、生産単位の数は、数十から数百が一般的である。このように生産単位数が少ない場合は、機械学習の精度が上がらず、正確な絞込みができない。また、機械学習の結果は、物理化学的に何を意味しているのか理解できず採用できないという問題もある。さらに指標の「良」と「悪」との分布の一部が重なっているような場合は、クラスタリング処理によって分離するのが困難である。

【0054】

さらに、比較例の場合、グラフの作成の際、指標「良」と「悪」の両方を用いている。このため、図１３のような相関図において、例えばクラスタリング処理を行うと、指標「良」と「悪」に分離されず、グループｇ９５５とｇ９５６のように分離されてしまう。図１３は、比較例において相関図のデータをクラスタリング処理した例を示す図である。なお、符号９５２は指標情報が「良」を表し、符号ｇ９５３は指標情報が「悪」を表す。
これに対して、本実施形態では、相関特徴量の算出の際、指標情報のうち「悪」を除外して近似式を求めるようにしたので、図１３のような誤った分類にならない。

【0055】

＜変形例＞
上述した実施形態では、パラメータ抽出部１４が相関特徴量を用いて、指標に影響を与えているパラメータの組を推定する例を説明したが、これに限らない。
パラメータ抽出部１４は、パラメータ毎のデータを第２の学習モデルを用いて、１つのパラメータが指標に影響を与えていれば、そのパラメータも抽出するようにしてもよい。この場合、学習の際の入力はパラメータ毎のデータ（生産単位情報とパラメータ情報と指標情報）であり、出力は影響を与えたパラメータである。なお、出力されるパラメータの数は複数であってもよい。例えば、パラメータ抽出部１４は、図１１のようにパラメータ毎にヒストグラムを作成し、作成したヒストグラムにおける指標の偏りに基づいて、指標に影響を与えている１つのパラメータを抽出するようにしてもよい。

【0056】

本実施形態によれば、解析対象のドメイン知識がなくても上述した手法によって相関特徴量を抽出できる。なお、相関特徴量は、相関関係のくずれ度合いを表している。なお、くずれ度合いとは、上述したように近似式と各データとの距離である。本実施形態によれば、この相関特徴量に基づいて、生産単位数が少なくパラメータが多い場合であっても、指標の良悪に影響を与えたパラメータを絞り込むことができる。

【0057】

また、本実施形態によれば、パラメータ間の相関関係である近似式と、近似式とパラメータのデータとの距離に基づいて相関特徴量を算出するようにした。本実施形態によれば、生産単位数が少なくパラメータや指標だけによる機械学習によるパラメータの絞り込みが困難な場合であっても、この相関特徴量に基づいて、指標の良悪に影響を与えたパラメータを絞り込むことができる。
そして、本実施形態によれば、抽出された相関特徴量を使って機械学習を行うことで、相関関係のくずれ度合いが指標に影響を与えているものを推定することができる。例えば、生産単位毎のパラメータ値のデータから、燃料を増やした時に温度が順調に上がる場合は、指標が良く、燃料を増やした時に温度があまり上がらない時は、指標は悪いことを見つけることができる。

【0058】

また、本実施形態によれば、解析担当者は、出力された結果を確認すればよく、確認するグラフの数が少ない。本実施形態によれば、解析担当者は、機械学習が提示したパラメータの相関図を見て、本当にそのパラメータが指標の良悪に影響を与えたのかを確認することができる。例えば図８の例では、「パラメータ１とパラメータ２の相関図」「パラメータ３とパラメータの４の相関図」の２つだけで、入力データにパラメータ数が数百あっても、問題なくグラフ表示機能で確認できる。

【0059】

また、上述したように。本実施形態によれば、解析対象のドメイン知識がなくても、有効な特徴量を抽出できる。
本実施形態によれば、有効な特徴量を使うことで、生産単位数が少なくても、機械学習で正確な結果を導くことができるので、パラメータを絞り込むことができる。

【0060】

なお、上述した例では、２つのパラメータによる二次元の相関図において近似式を算出し、近似式とデータとの距離を算出する例を説明したが、これに限らない。相関図は、例えば３つのパラメータによる三次元以上であってもよい。次元は、解析担当者が視認可能なものであればよく、例えば五次元、六次元程度でもよい。

【0061】

また、上述した例では、指標情報が「良」と「悪」の２つの例を説明したが、指標情報の数は３つ以上であってもよい。例えば、指標情報が「良」と「通常」と「悪」の３つの場合、特徴量抽出部１３は、例えばデータの内、「通常」と「悪」を除去して「良」のみを用いて近似式を算出してもよく、あるいは「悪」のみを除去して「良」と「通常」を用いて近似式を算出してもよい。このように、特徴量抽出部１３は、指標情報のうち１つ以上を除去することで近似式を算出するようにしてもよい。

【0062】

なお、本発明におけるデータ解析システム１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータ解析システム１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0063】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0064】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0065】

１…データ解析システム、１１…データ取得部、１２…データベース、１３…特徴量抽出部、１４…パラメータ抽出部、１５…解析結果生成部、１６…出力部

【図1】