特開2022-184205 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特開2022-184205モデル生成装置、モデル生成方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022184205

(43)【公開日】2022-12-13

(54)【発明の名称】モデル生成装置、モデル生成方法およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20221206BHJP

G06N 3/08 20060101ALI20221206BHJP

G05B 19/418 20060101ALI20221206BHJP

G06Q 50/04 20120101ALN20221206BHJP

【ＦＩ】

G06N20/00

G06N3/08

G05B19/418 Z

G06Q50/04

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021091915

(22)【出願日】2021-05-31

(71)【出願人】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(74)【代理人】

【識別番号】100137235

【弁理士】

【氏名又は名称】寺谷英作

(74)【代理人】

【識別番号】100131417

【弁理士】

【氏名又は名称】道坂伸一

(72)【発明者】

【氏名】定永雄一郎

(72)【発明者】

【氏名】原伸夫

(72)【発明者】

【氏名】農添三資

【テーマコード（参考）】

3C100

5L049

【Ｆターム（参考）】

3C100AA70

3C100BB13

3C100BB15

3C100BB27

5L049CC03

(57)【要約】

【課題】モデルの精度向上を容易に図ることができるモデル生成装置を提供する。
【解決手段】モデル生成装置１００は、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成する装置であって、３以上の変数を含むデータセットＤｓを受信する受信部１３０と、データセットＤｓから、１以上の目的変数と、１以上の説明変数とを特定し、データセットＤｓに含まれる３以上の変数のうち、特定された目的変数および説明変数以外の変数から、１または複数の変数を層別変数として特定する第１変数特定部１２１および第２変数特定部１２６と、層別変数と目的変数との関係の傾向に基づいて、データセットＤｓを複数の層に分類する層別部１２７と、複数の層毎に、モデルを生成する生成部１２８と、を備える。
【選択図】図６

【特許請求の範囲】

【請求項1】

１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、
３以上の変数を含むデータセットを受信する受信手段と、
前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、１または複数の変数を層別変数として特定する変数特定手段と、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、
前記複数の層毎に、前記モデルを生成する生成手段と、
を備えるモデル生成装置。

【請求項2】

前記層別手段は、前記層別変数ごとに、当該層別変数のデータの同一性または類似性に基づいて、当該層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、前記データセットを分類する、
請求項１に記載のモデル生成装置。

【請求項3】

前記データセットは、文字を含むデータを示す質的変数と、数字からなるデータを示す量的変数とを含む、
請求項１または２に記載のモデル生成装置。

【請求項4】

前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数について、前記目的変数に対する影響度をそれぞれ算出する影響度算出手段をさらに備え、
前記変数特定手段は、前記影響度に基づいて、前記層別変数を特定する、
請求項１～３に記載のモデル生成装置。

【請求項5】

前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数について、前記目的変数に対する影響度をそれぞれ算出する影響度算出手段をさらに備え、
前記受信手段は、前記質的変数または前記量的変数のどちらを優先するかを示す優先情報を受信し、
前記変数特定手段は、前記影響度および前記優先情報に基づいて、前記層別変数を特定する、
請求項３に記載のモデル生成装置。

【請求項6】

前記影響度算出手段は、
ランダムフォレストまたは勾配ブースティング決定木を用いて、前記質的変数の前記影響度を算出する、
請求項５に記載のモデル生成装置。

【請求項7】

前記影響度算出手段は、
混合ガウスモデルまたはｋ－ｍｅａｎｓ法を用いて、前記データセットに含まれる前記量的変数の２つ以上のデータに対するクラスタリングを行い、前記クラスタリングによって得られる各クラスタと前記目的変数との単回帰分析によって、前記量的変数の前記影響度を算出する、
請求項５または６に記載のモデル生成装置。

【請求項8】

前記生成手段は、さらに、
生成された複数の前記モデルのそれぞれについて、当該モデルの確からしさを示す指数を算出し、
前記モデル生成装置は、さらに、
複数の前記モデルのそれぞれに対して算出された前記指数を出力する結果出力手段を備える、
請求項１～７の何れか１項に記載のモデル生成装置。

【請求項9】

前記生成手段は、
２つ以上の前記説明変数のそれぞれのデータと前記目的変数のデータとの関係を示す前記モデルを、重回帰式として生成する、
請求項１～８の何れか１項に記載のモデル生成装置。

【請求項10】

１または複数の目的変数と１または複数の説明変数との関係を示すモデルをコンピュータが生成するモデル生成方法であって、
３以上の変数を含むデータセットを受信し、
前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、１または複数の変数を層別変数として特定し、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類し、
前記複数の層毎に、前記モデルを生成する、
モデル生成方法。

【請求項11】

１または複数の目的変数と１または複数の説明変数との関係を示すモデルをコンピュータに生成させるためのプログラムであって、
３以上の変数を含むデータセットを受信し、
前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、１または複数の変数を層別変数として特定し、
前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類し、
前記複数の層毎に、前記モデルを生成する、
ことをコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、データ間の関係を示すモデルを生成するモデル生成装置などに関する。

【背景技術】

【0002】

データを推定するためのモデルを生成するモデル生成装置が提案されている。例えば、モデル生成装置は、複数の変数のそれぞれのデータを含むデータセットから、目的変数と説明変数とを選択し、それらの変数の間の相関係数、またはそれらの変数を用いた回帰モデルを導出することによって、モデルを生成する。データセットは、例えば製造に関する複数の製造データを含む。目的変数は、例えば、製造される製品の品質特性をデータとして示し、説明変数は、製造プロセスに用いられるパラメータのデータを示す。したがって、生成されるモデルを用いれば、製造プロセスから製品の品質特性を推定することができる。

【0003】

また、局所品質モデルを作成する関連解析装置が提案されている（例えば、特許文献１参照）。この関連解析装置は、局所品質モデルを上述のモデルとして作成するためモデル生成装置と言える。また、この関連解析装置は、説明変数に相当する操業因子の空間を複数の局所領域に分割し、その各局所領域に対して局所品質モデルを作成する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第４６５３５４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記特許文献１の関連解析装置であるモデル生成装置では、モデルの精度向上を図ることが難しいという課題がある。

【0006】

そこで、本開示は、モデルの精度向上を容易に図ることができるモデル生成装置などを提供する。

【課題を解決するための手段】

【0007】

本開示の一態様に係るモデル生成装置は、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、３以上の変数を含むデータセットを受信する受信手段と、前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、１または複数の変数を層別変数として特定する変数特定手段と、前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、前記複数の層毎に、前記モデルを生成する生成手段と、を備える。

【0008】

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。また、記録媒体は、非一時的な記録媒体であってもよい。

【発明の効果】

【0009】

本開示のモデル生成装置は、モデルの精度向上を容易に図ることができる。

【0010】

本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施の形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

【図面の簡単な説明】

【0011】

【図1】図１は、実施の形態におけるモデル生成システムの一例を示す図である。

【図2】図２は、実施の形態におけるモデル生成装置の構成を示す図である。

【図3A】図３Ａは、実施の形態におけるデータセットの一例を示す図である。

【図3B】図３Ｂは、図３Ａのデータセットの先頭の行と２番目の行とを示す図である。

【図3C】図３Ｃは、実施の形態におけるデータセットから選択される目的変数および説明変数を示す図である。

【図4】図４は、実施の形態におけるデータセットの他の例を示す図である。

【図5】図５は、実施の形態におけるデータセットの変数名などを簡略化して示す図である。

【図6】図６は、実施の形態におけるモデル生成装置の機能構成を示すブロック図である。

【図7】図７は、実施の形態における層別データセットの一例を示す図である。

【図8】図８は、実施の形態における層別データセットのそれぞれについて、その層別データセットに含まれる各レコードによって示される座標点の分布を示す図である。

【図9】図９は、実施の形態におけるモデル生成装置の全体的な処理動作の一例を示すフローチャートである。

【図10】図１０は、図９のステップＳ８における質的変数の影響度算出処理の具体的な一例を示すフローチャートである。

【図11】図１１は、図９のステップＳ９における量的変数の影響度算出処理の具体的な一例を示すフローチャートである。

【発明を実施するための形態】

【0012】

（本開示の基礎となった知見）
本発明者は、「背景技術」の欄において記載した特許文献１のモデル生成装置に関し、以下の問題が生じることを見い出した。

【0013】

上記特許文献１では、説明変数に相当する操業因子の空間を複数の局所領域に分割し、その各局所領域に対して局所品質モデルを構築する。したがって、データセットから複数のモデルが生成される。しかし、それらのモデルの構築には、データセットに含まれる目的変数と説明変数のみが用いられ、目的変数および説明変数以外の変数が用いられていない。具体的には、データセットに含まれる説明変数が示すデータの分布のみに基づいてデータセットが複数の局所領域に分割され、それらの局所領域に対してモデルが生成される。つまり、上記特許文献１では、説明変数および目的変数以外の変数が、説明変数と目的変数との間の相関関係に与える影響が不明なため、その説明変数および目的変数以外の変数は、モデルの構築には用いられていない。したがって、その説明変数および目的変数以外の変数のデータが、説明変数と目的変数との間の相関関係に影響を与えるような場合には、高い精度のモデルを生成することが難しい。

【0014】

そこで、本開示の一態様に係るモデル生成装置は、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成するモデル生成装置であって、３以上の変数を含むデータセットを受信する受信手段と、前記データセットから、１以上の目的変数と、１以上の説明変数とを特定し、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数から、１または複数の変数を層別変数として特定する変数特定手段と、前記層別変数と前記目的変数との関係の傾向に基づいて、データセットを複数の層に分類する層別手段と、前記複数の層毎に、前記モデルを生成する生成手段と、を備える。例えば、前記層別手段は、前記層別変数ごとに、当該層別変数のデータの同一性または類似性に基づいて、当該層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、前記データセットを分類してもよい。

【0015】

これにより、目的変数および説明変数以外の変数である層別変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。つまり、その層別変数の各データが、それらのデータ間の共通性または類似性に応じて、複数のグループに分類される。そして、データセットは、それらのグループに対応する層に層別分類される。この層別分類によって、各層には、同一のグループに属する層別変数のデータをそれぞれ有する１つ以上のレコードが含まれる。なお、グループは、共通性または類似性を有するデータの集合であって、このグループには、共通のデータの集合であるカテゴリと、類似する数値データの集合であるクラスタとがある。また、層別変数は、モデルに含まれる変数として採用されていないが、そのモデルの生成には用いられる非活用変数である。このように、本開示の一態様に係るモデル生成装置では、データセットに含まれる変数のうち、説明変数および目的変数以外の変数である非活用変数によって、データセットに対する層別分類が行われるため、その非活用変数が説明変数と目的変数との間の相関関係に影響を与えるような場合であっても、その非活用変数に基づいた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。

【0016】

例えば、それぞれ非活用変数である第１層別変数および第２層別変数が特定される。そして、第１層別変数の２つ以上のデータが例えば第１グループおよび第２グループに分類され、第２層別変数の２つ以上のデータが例えば第３グループおよび第４グループに分類される。なお、これらのグループに含まれる全てのデータは、共通性または高い類似性を有する。この場合、複数の層として、例えば第１層、第２層、第３層および第４層が決定される。第１層は、第１層別変数の第１グループと、第２層別変数の第３グループとの組み合わせに対応する。第２層は、第１層別変数の第１グループと、第２層別変数の第４グループとの組み合わせに対応する。第３層は、第１層別変数の第２グループと、第２層別変数の第３グループとの組み合わせに対応する。第４層は、第１層別変数の第２グループと、第２層別変数の第４グループとの組み合わせに対応する。このように、Ｎ個の層別変数のそれぞれのグループの組み合わせに応じて複数の層が決定される。したがって、層別分類では、第１層別変数の第１グループに属するデータと、第２層別変数の第３グループに属するデータとを含むレコードは、第１層に分類される。第１層別変数の第１グループに属するデータと、第２層別変数の第４グループに属するデータとを含むレコードは、第２層に分類される。第１層別変数の第２グループに属するデータと、第２層別変数の第３グループに属するデータとを含むレコードは、第３層に分類される。第１層別変数の第２グループに属するデータと、第２層別変数の第４グループに属するデータとを含むレコードは、第４層に分類される。

【0017】

このように、層別変数が２つ以上であっても、データセットに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちＮ個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。

【0018】

また、前記データセットは、文字を含むデータを示す質的変数と、数字からなるデータを示す量的変数とを含んでもよい。

【0019】

これにより、質的変数および量的変数のうちの一方だけでなく両方を含む複数の層別変数を特定することができ、特定される層別変数の変数型の自由度を高めることができる。

【0020】

また、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数について、前記目的変数に対する影響度をそれぞれ算出する影響度算出手段をさらに備え、前記変数特定手段は、前記影響度に基づいて、前記層別変数を特定してもよい。

【0021】

これにより、目的変数のデータに対する影響度が大きい層別変数を特定することができる。その結果、その層別変数を用いることによって、データセットに対するより最適な層別分類を行うことができる。その結果、複数の層のそれぞれに対して、より精度の高いモデルを生成することができる。

【0022】

また、前記データセットに含まれる前記３以上の変数のうち、特定された前記目的変数および前記説明変数以外の変数について、前記目的変数に対する影響度をそれぞれ算出する影響度算出手段をさらに備え、前記受信手段は、前記質的変数または前記量的変数のどちらを優先するかを示す優先情報を受信し、前記変数特定手段は、前記影響度および前記優先情報に基づいて、前記層別変数を特定してもよい。

【0023】

これにより、例えばユーザの入力操作に応じてその優先情報が受信手段に受信されれば、質的変数と量的変数の優先順位を、そのユーザの意図どおりに任意に設定することができ、その優先順位が上位の変数を層別変数として多く特定することができる。その結果、データセットを質的に分析するか、量的に分析するかに応じて、適切な層別分類を行うことができ、それらの分析態様に応じたモデルを生成することができる。

【0024】

また、前記影響度算出手段は、ランダムフォレストまたは勾配ブースティング決定木を用いて、前記質的変数の前記影響度を算出してもよい。

【0025】

これにより、例えばランダムフォレストのジニ係数に応じた値を影響度として算出することによって、質的変数の適切な影響度を算出することができる。

【0026】

また、前記影響度算出手段は、混合ガウスモデルまたはｋ－ｍｅａｎｓ法を用いて、前記データセットに含まれる前記量的変数の２つ以上のデータに対するクラスタリングを行い、前記クラスタリングによって得られる各クラスタと前記目的変数との単回帰分析によって、前記量的変数の前記影響度を算出してもよい。

【0027】

これにより、１つ以上の量的変数のそれぞれについて、例えばクラスタごとの影響度を単回帰分析によって算出することができ、そのクラスタごとの影響度から、その量的変数の影響度を適切に算出することができる。

【0028】

また、前記生成手段は、さらに、生成された複数の前記モデルのそれぞれについて、当該モデルの確からしさを示す指数を算出し、前記モデル生成装置は、さらに、複数の前記モデルのそれぞれに対して算出された前記指数を出力する結果出力手段を備えてもよい。

【0029】

これにより、例えば、複数のモデルのそれぞれの自由度調整済み決定係数が、そのモデルの確からしさを示す指数として算出されて出力される。したがって、ユーザは、生成されたモデルを使用するか否かを、その指数にしたがって容易に判断することができる。

【0030】

また、前記生成手段は、２つ以上の前記説明変数のそれぞれのデータと前記目的変数のデータとの関係を示す前記モデルを、重回帰式として生成してもよい。

【0031】

これにより、説明変数の数に関わらず適切なモデルを生成することができる。

【0032】

以下、実施の形態について、図面を参照しながら具体的に説明する。

【0033】

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

【0034】

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。

【0035】

（実施の形態１）
［ハードウェア構成］
図１は、本実施の形態におけるモデル生成システムの一例を示す図である。

【0036】

本実施の形態におけるモデル生成システム１は、モデル生成装置１００と、製造管理装置５００とを含む。

【0037】

製造管理装置５００は、例えば製造工場に設置され、製品を製造する製造システムを管理する装置である。この製造管理装置５００は、その製造システムで得られるデータセットＤｓを、例えばインターネットなどのネットワークを介してモデル生成装置１００に送信する。なお、データセットＤｓの詳細については、図３Ａ～図５を用いて後述する。

【0038】

モデル生成装置１００は、パーソナルコンピュータなどから構成され、上述の製造管理装置５００からデータセットＤｓを受信する。そして、本実施の形態におけるモデル生成装置１００は、そのデータセットＤｓに基づいて、説明変数のデータと目的変数のデータとの関係を示す複数のモデルを生成する。

【0039】

図２は、本実施の形態におけるモデル生成装置１００の構成を示す図である。

【0040】

モデル生成装置１００は、入力部１０１、演算回路１０２、メモリ１０３、出力部１０４、記憶部１０５、データベース１０６、および通信部１０７を備える。

【0041】

通信部１０７は、モデル生成装置１００の外部にある機器と通信する。その通信は、無線通信であっても、有線通信であってもよい。無線通信の方式は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＺｉｇＢｅｅ（登録商標）であってもよく、その他の方式であってもよい。例えば、通信部１０７は、製造管理装置５００と通信し、その製造管理装置５００からデータセットＤｓを受信する。

【0042】

入力部１０１は、ユーザによる入力操作を受け付けるＨＭＩ（Human Machine Interface）としての機能を有し、例えばキーボード、マウス、タッチセンサ、タッチパッドなどを備える。

【0043】

出力部１０４は、画像または文字などを表示するディスプレイを有し、そのディスプレイは、例えば液晶ディスプレイ、プラズマディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイなどである。なお、出力部１０４は、画像または文字などを印刷するプリンタを有していてもよく、演算回路１０２から出力されるデータをファイル形式で記憶部１０５に格納する機能を有していてもよい。

【0044】

記憶部１０５は、演算回路１０２への各命令が記述されたプログラム（すなわちコンピュータプログラム）１０５ａを格納している。また、記憶部１０５には、その演算回路１０２の処理によって一時的に生成される各テンポラリーデータ１０５ｂが格納されてもよい。なお、このような記憶部１０５は、不揮発性の記録媒体であって、例えば、ハードディスクなどの磁気記憶装置、光ディスク、半導体メモリなどである。なお、プログラム１０５ａは、例えば、リムーバブルメディアまたはネットワークを介して、モデル生成装置１００に提供され、記憶部１０５に格納される。リムーバブルメディアは、例えばＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、フラッシュメモリなどである。このため、通信部１０７は、リムーバブルメディアのプログラム１０５ａを読み込むインターフェースを備えていてもよい。

【0045】

メモリ１０３には、演算回路１０２によって読み出されて展開されたプログラム１０５ａが一時的に保存される。このようなメモリ１０３は、例えば揮発性のＲＡＭ（Random Access Memory）である。

【0046】

演算回路１０２は、メモリ１０３に展開されたプログラム１０５ａを実行する回路であって、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）などである。演算回路１０２は、プログラム１０５ａを実行するときには、記憶部１０５に格納されている各テンポラリーデータ１０５ｂを用いてもよい。

【0047】

データベース１０６は、記憶部１０５と同様に、不揮発性の記録媒体であって、例えば、ハードディスクなどの磁気記憶装置、光ディスク、半導体メモリなどである。例えば、演算回路１０２は、製造管理装置５００からネットワークおよび通信部１０７を介してデータセットＤｓを取得して、そのデータセットＤｓをデータベース１０６に格納する。

【0048】

なお、本実施の形態では、記憶部１０５とデータベース１０６とは互に異なる記録媒体であるが、記憶部１０５およびデータベース１０６は、それらを含む１つの記録媒体として構成されていてもよい。

【0049】

［データセット］
図３Ａは、本実施の形態におけるデータセットＤｓの一例を示す図である。また、図３Ｂは、そのデータセットＤｓの先頭の行と２番目の行とを示す図である。

【0050】

データセットＤｓは、製造管理装置５００から送信される生のデータセットであって、例えば、上述の製造システムにおける製造プロセス、および、その製造プロセスによって製造された製品の品質を示す、複数の製造データからなる構造化されたデータセットである。このようなデータセットＤｓは、図３Ａに示すように、複数の変数のそれぞれの変数名と、それらの変数のデータとを示す。なお、データは、文字および数字のうちの少なくとも一方を示すものであれば、どのようなものであってもよい。データセットＤｓの先頭の行には、複数の変数のそれぞれの変数名が配置され、データセットＤｓの２行目以降の各行には、複数の変数のそれぞれのデータが配置されている。このような２行目以降の各行は、複数の変数のそれぞれのデータを含むレコードとして扱われる。また、データセットＤｓの左端の列は、紐付け情報列であって、それらのレコードを識別するための識別情報であるＩＤが示されている。ＩＤは、レコードに含まれる各変数のデータを紐付けている。

【0051】

具体的には、図３Ｂに示すように、データセットＤｓの先頭の行には、それぞれの変数名である、「電圧」、「速度」、「抵抗値」、「作業者」、「設備号機」、「材料配合」、「材料温度差」、「補助電圧」、および「治具温度」が配置されている。そして、２行目のレコードには、それらの変数名によって識別される変数のデータｄ１～ｄ９が含まれている。データｄ１は、変数名「電圧」によって識別される変数のデータであって、例えば「５．４８８１３５」である。データｄ２は、変数名「速度」によって識別される変数のデータであって、例えば「７．１５１８９４」である。データｄ３は、変数名「抵抗値」によって識別される変数のデータであって、例えば「４４．６９８３１」である。データｄ４は、変数名「作業者」によって識別される変数のデータであって、例えば「スズキ」である。データｄ５は、変数名「設備号機」によって識別される変数のデータであって、例えば「Ｃ号機」である。データｄ６は、変数名「材料配合」によって識別される変数のデータであって、例えば「０」である。データｄ７は、変数名「材料温度差」によって識別される変数のデータであって、例えば「８．８１５６７３」である。データｄ８は、変数名「補助電圧」によって識別される変数のデータであって、例えば「３」である。データｄ９は、変数名「治具温度」によって識別される変数のデータであって、例えば「９．２９８４８１」である。これらの各変数のデータｄ１～ｄ９を含むレコードは、ＩＤ「ＩＤ２００９０１」によって識別される。つまり、ＩＤ「ＩＤ２００９０１」は、そのＩＤによって識別されるレコードに含まれるデータｄ１～ｄ９を紐付けている。

【0052】

データセットＤｓは、図３Ａに示すように、このようなレコードを複数含む。例えば、データセットＤｓは、上述のＩＤ「ＩＤ２００９０１」によって識別されるレコードと、ＩＤ「ＩＤ２００９０２」によって識別されるレコードと、ＩＤ「ＩＤ２００９０３」によって識別されるレコードとを含む。このように、本実施の形態におけるデータセットＤｓは、複数の変数のそれぞれのデータを有するレコードを２つ以上含む。

【0053】

また、図３Ａに示すように、データセットＤｓの左から２番目の列は、変数名「電圧」によって識別される変数のレコードごとのデータを示す。例えば、それらのデータは、「５．４８８１３５」、「６．０２７６３４」、および「４．２３６５４８」などである。同様に、データセットＤｓの左から３番目の列は、変数名「速度」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から４番目の列は、変数名「抵抗値」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から５番目の列は、変数名「作業者」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から６番目の列は、変数名「設備号機」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から７番目の列は、変数名「材料配合」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から８番目の列は、変数名「材料温度差」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から９番目の列は、変数名「補助電圧」によって識別される変数のレコードごとのデータを示す。データセットＤｓの左から１０番目の列は、変数名「治具温度」によって識別される変数のレコードごとのデータを示す。

【0054】

ここで、変数の型には、量的変数と質的変数とがある。量的変数の各データは、数字のみで表されるデータであって、質的変数の各データは、文字を含んで表されるデータである。図３Ａおよび図３Ｂの例では、変数名「作業者」および変数名「設備号機」のそれぞれによって識別される変数が、質的変数である。例えば、図３Ｂに示すように、変数名「作業者」によって識別される変数のデータｄ４は「スズキ」であって、文字を含んでいる。したがって、変数名「作業者」によって識別される変数は、質的変数である。また、図３Ａおよび図３Ｂの例では、変数名「材料配合」、変数名「材料温度差」、変数名「補助電圧」、および変数名「治具温度」のそれぞれによって識別される変数が、量的変数である。例えば、図３Ｂに示すように、変数名「材料配合」によって識別される変数のデータｄ６は「０」であって、数字のみで表されている。したがって、変数名「材料配合」によって識別される変数は、量的変数である。

【0055】

なお、変数は、図３Ａおよび図３Ｂに示す例に限定されるものではなく、どのような変数であってもよい。変数は、例えば、人に関わる変数、材料に関わる変数、設備に係る変数などである。人に関わる変数は、「作業者」または「作業班」などの変数であってもよい。材料に関わる変数は、「源泉材料Ｌｏｔ」または「途中工程材料Ｌｏｔ」などの変数であってもよい。設備に係る変数は、「生産設備種類、世代」、「生産設備号機」、「設備内レーン別、スピンドル別」、「金型」、「治具」、「金型温度」、「乾燥温度」、「設備メンテナンス前後」などの変数であってもよい。また、変数は、「雰囲気温度」、「雰囲気湿度」、「生産時期、時間」などの変数であってもよい。また、変数は、製品の「品種、品番」または「製品サイズ」などの変数であってもよい。

【0056】

図３Ｃは、データセットＤｓから選択される目的変数および説明変数を示す図である。

【0057】

データセットＤｓに示される各変数は、ユーザによる入力操作に応じて、活用変数と非活用変数に分類され、各活用変数は、説明変数と目的変数に分類される。活用変数は、モデルに採用される変数であって、非活用変数は、モデルに採用されない変数である。なお、非活用変数は、従来、データセットに含まれる目的変数以外の全ての変数を説明変数として採用せずに、目的変数に対する寄与度が大きな変数のみを説明変数として採用するために、モデルには採用されなかった変数である。さらに、活用変数には、説明変数と目的変数とがある。図３Ｃに示す例では、ユーザは、変数名「抵抗値」の変数を目的変数として選択し、変数名「電圧」の変数と、変数名「速度」の変数とをそれぞれ説明変数として選択する。これにより、変数名「作業者」、変数名「設備号機」、変数名「材料配合」、変数名「材料温度差」、変数名「補助電圧」、および変数名「治具温度」のそれぞれの変数が、非活用変数として決定される。また、これらの非活用変数には、上述の質的変数および量的変数が含まれる。したがって、本実施の形態では、データセットＤｓに示されるＭ個の非活用変数は、それぞれ文字を含むデータを示す１つ以上の質的変数と、それぞれ数字からなるデータを示す１つ以上の量的変数とを含む。なお、そのＭ個は、データセットＤｓに含まれる非活用変数の個数であって、上述の例では６個である。

【0058】

図４は、本実施の形態におけるデータセットＤｓの他の例を示す図である。

【0059】

演算回路１０２は、データセットＤｓに含まれる質的変数をダミー変数に置き換える。つまり、演算回路１０２は、ＯｎｅＨｏｔＥｎｃｏｄｉｎｇを行うことによって、図３Ａ～図３Ｃに示す変数名「作業者」の質的変数のデータを、変数名「作業者スズキ」、変数名「作業者サトウ」、および変数名「作業者タカハシ」の３つの変数のデータからなるフラグ列に変換する。例えば、図３Ａに示す変数名「作業者」の変数のデータ「スズキ」は、変数名「作業者スズキ」の変数のデータ「１」と、変数名「作業者サトウ」の変数のデータ「０」と、変数名「作業者タカハシ」の変数のデータ「０」とからなるフラグ列に変換される。また、図３Ａに示す変数名「作業者」の変数のデータ「サトウ」は、変数名「作業者スズキ」の変数のデータ「０」と、変数名「作業者サトウ」の変数のデータ「１」と、変数名「作業者タカハシ」の変数のデータ「０」とからなるフラグ列に変換される。同様に、演算回路１０２は、図３Ａ～図３Ｃに示す変数名「設備号機」の質的変数のデータを、変数名「設備号機Ｃ」、変数名「設備号機Ｄ」、および変数名「設備号機Ｅ」の３つの変数のデータからなるフラグ列に変換する。例えば、図３Ａに示す変数名「設備号機」の変数のデータ「Ｃ号機」は、変数名「設備号機Ｃ」の変数のデータ「１」と、変数名「設備号機Ｄ」の変数のデータ「０」と、変数名「設備号機Ｅ」の変数のデータ「０」とからなるフラグ列に変換される。また、図３Ａに示す変数名「設備号機」の変数のデータ「Ｄ号機」は、変数名「設備号機Ｃ」の変数のデータ「０」と、変数名「設備号機Ｄ」の変数のデータ「１」と、変数名「設備号機Ｅ」の変数のデータ「０」とからなるフラグ列に変換される。演算回路１０２は、後述のランダムフォレストなどの機械学習において質的変数を扱う場合には、その質的変数をダミー変数に置き換える。

【0060】

図５は、本実施の形態におけるデータセットＤｓの変数名などを簡略化して示す図である。

【0061】

以下、説明を分かり易くするため、図３Ａ～図３Ｃに示すデータセットＤｓの変数名「電圧」、「速度」、「抵抗値」、「作業者」、「設備号機」、「材料配合」、「材料温度差」、「補助電圧」および「治具温度」を、図５に示すように、変数名「Ｘ０」、「Ｘ１」、「Ｙ」、「Ｚ０」「Ｚ１」、「Ｄ１」、「Ｄ２」、「Ｄ３」および「Ｄ４」に置き換える。また、変数名「作業者」によって識別される変数のデータ「スズキ」および「サトウ」を、「Ａ」および「Ｂ」に置き換え、変数名「設備号機」によって識別される変数のデータ「Ｃ号機」および「Ｄ号機」を、「Ｃ」および「Ｄ」に置き換える。

【0062】

なお、以下、各変数を識別する必要がある場合には、変数Ｘ１のように、変数の後に変数名を付けることによって、その変数を識別する。また、図５に示す例では、変数Ｘ０、変数Ｘ１、および変数Ｙはそれぞれ、量的変数である。また、変数Ｚ０および変数Ｚ１はそれぞれ、質的変数であり、変数Ｄ１、変数Ｄ２、変数Ｄ３、および変数Ｄ４はそれぞれ、量的変数である。

【0063】

［機能構成］
図６は、演算回路１０２の機能構成を示すブロック図である。

【0064】

演算回路１０２は、プログラム１０５ａを実行することによって、モデルを生成するための複数の機能を実現する。具体的には、演算回路１０２は、受信部（受信手段）１３０、第１変数特定部（変数特定手段）１２１、層別条件設定部１２２、非活用変数抽出部１２３、変数型判定部１２４、影響度算出部（影響度算出手段）１２５、第２変数特定部（変数特定手段）１２６、層別部（層別手段）１２７、生成部（生成手段）１２８、および結果出力部（結果出力手段）１２９を備える。また、影響度算出部１２５は、質的影響度算出部１２５ａおよび量的影響度算出部１２５ｂを備える。これらの構成要素は、演算回路１０２によるプログラム１０５ａの実行によって実現される。

【0065】

受信部１３０は、３以上の変数を含むデータセットＤｓを受信する。例えば、受信部１３０は、データベース１０６からデータセットＤｓを読み出すことによって、そのデータセットＤｓを取得する。そして、ユーザは、入力部１０１に対して入力操作を行うことによって、図５に示すデータセットＤｓの複数の変数の中から説明変数と目的変数を選択する。第１変数特定部１２１は、入力部１０１によって受け付けられたユーザのその入力操作に応じて、図５に示すデータセットＤｓの複数の変数の中から、例えば変数Ｘ０および変数Ｘ１をそれぞれ説明変数として特定する。さらに、第１変数特定部１２１は、その複数の変数の中から、例えば変数Ｙを目的変数として特定する。これにより、２つの変数が説明変数として設定され、１つの変数が目的変数として設定される。

【0066】

このように、本実施の形態における第１変数特定部１２１は、データセットＤｓから、１以上の目的変数と、１以上の説明変数とを特定する。なお、本実施の形態では、２つの説明変数が設定され、１つの目的変数が設定されるが、その説明変数および目的変数のそれぞれの数は、これらの例に限らず、任意の数であってもよい。例えば、第１変数特定部１２１は、データセットＤｓの複数の変数のうちの１つの変数を説明変数に設定してもよく、３つ以上の変数のそれぞれを説明変数に設定してもよい。また、第１変数特定部１２１は、データセットＤｓの複数の変数のうちの２つ以上の変数のそれぞれを目的変数として特定してもよい。

【0067】

また、第１変数特定部１２１は、説明変数として設定された変数が変数Ｘ０および変数Ｘ１であり、目的変数として設定された変数が変数Ｙであることを示す第１設定情報を、メモリ１０３または記憶部１０５に格納する。第１設定情報が記憶部１０５に格納される場合には、その第１設定情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、第１変数特定部１２１は、その第１設定情報を非活用変数抽出部１２３に出力してもよい。

【0068】

層別条件設定部１２２は、入力部１０１によって受け付けられたユーザの入力操作に応じて、データセットＤｓの層別に用いられる非活用変数の総数をＮ個（Ｎは２以上の整数）に設定する。なお、Ｎ個は、層別に用いられる非活用変数の総数であるが、本実施の形態では、その総数Ｎが２以上である例を挙げて説明する。また、その総数Ｎは、本実施の形態のように２以上に限定されることなく、１であってもよい。また、本実施の形態では、具体的な例として、総数ＮはＮ＝２に設定される。なお、その層別に用いられる非活用変数は、以下、層別変数とも呼ばれる。つまり、本実施の形態における層別条件設定部１２２は、ユーザによる入力操作に応じて、層別変数の総数を設定する。なお、データセットＤｓに含まれる層別変数の各データは、上記層別のためには、それらのデータ間の共通性または類似性に応じて１つのグループだけではなく、複数のグループに分類される必要がある。

【0069】

さらに、層別条件設定部１２２は、入力部１０１によって受け付けられたユーザの入力操作に応じて、質的変数と量的変数のそれぞれに対して、層別変数に設定される優先順位を決定する。例えば、層別条件設定部１２２は、質的変数、量的変数の順に、それらの優先順位を決定する。この場合、質的変数の方が量的変数よりも優先順位は先である。このように、本実施の形態における層別条件設定部１２２は、ユーザによる入力操作に応じて、質的変数と量的変数の優先順位を設定する。言い換えれば、層別条件設定部１２２は、入力部１０１によって受け付けられたユーザの入力操作に応じて、質的変数または量的変数のどちらを優先するかを示す優先情報を受信する。本実施の形態では、層別条件設定部１２２が優先情報を受信するが、受信部１３０がその優先情報を受信してもよい。以下、質的変数および量的変数のうち、優先順位が先の変数は、上位変数とも呼ばれ、優先順位が後の変数は、下位変数とも呼ばれる。層別条件設定部１２２は、層別変数の総数であるＮ個と優先順位を示す第２設定情報を、メモリ１０３または記憶部１０５に格納する。第２設定情報が記憶部１０５に格納される場合には、その第２設定情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、層別条件設定部１２２は、第２設定情報を第２変数特定部１２６に出力してもよい。

【0070】

非活用変数抽出部１２３は、第１変数特定部１２１によって読み出された図５に示すデータセットＤｓの複数の変数の中から、Ｍ個の非活用変数を抽出する。具体的には、非活用変数抽出部１２３は、第１変数特定部１２１、メモリ１０３または記憶部１０５から第１設定情報を取得する。そして、非活用変数抽出部１２３は、その複数の変数から、第１設定情報によって示される説明変数および目的変数以外の全ての変数を非活用変数として抽出する。例えば、非活用変数抽出部１２３は、データセットＤｓの複数の変数の中から、変数Ｚ０、変数Ｚ１、変数Ｄ１、変数Ｄ２、変数Ｄ３、および変数Ｄ４をそれぞれ非活用変数として抽出する。その結果、本実施の形態では、データセットＤｓによって示される複数の変数から、Ｍ個の非活用変数が抽出される。そして、非活用変数抽出部１２３は、抽出されたＭ個の非活用変数を示す抽出情報を、メモリ１０３または記憶部１０５に格納する。抽出情報が記憶部１０５に格納される場合には、その抽出情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、非活用変数抽出部１２３は、抽出情報を変数型判定部１２４に出力してもよい。

【0071】

変数型判定部１２４は、非活用変数抽出部１２３、メモリ１０３または記憶部１０５から抽出情報を取得し、その抽出情報によって示されるＭ個の非活用変数のそれぞれの変数型を順に判定する。変数型には、上述の質的変数の型と、量的変数の型とがある。つまり、変数型判定部１２４は、非活用変数のデータに基づいて、その非活用変数が質的変数であるか、量的変数であるかを判定する。具体的には、変数型判定部１２４は、非活用変数のデータに文字が含まれていれば、その非活用変数が質的変数であると判定する。一方、変数型判定部１２４は、非活用変数のデータに文字が含まれず数字のみが含まれていれば、その非活用変数が量的変数であると判定する。これにより、Ｍ個の非活用変数のそれぞれが、質的変数と量的変数とに分類される。例えば、本実施の形態では、変数型判定部１２４は、非活用変数Ｚ０および非活用変数Ｚ１のそれぞれが質的変数であると判定し、非活用変数Ｄ１、非活用変数Ｄ２、非活用変数Ｄ３、および非活用変数Ｄ４のそれぞれが量的変数であると判定する。そして、変数型判定部１２４は、Ｍ個の非活用変数のそれぞれについて、その非活用変数の変数型を示す変数型情報をメモリ１０３または記憶部１０５に格納する。変数型情報が記憶部１０５に格納される場合には、その変数型情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、変数型判定部１２４は、変数型情報を影響度算出部１２５に出力してもよい。

【0072】

影響度算出部１２５は、データセットＤｓに含まれる３以上の変数のうち、特定された目的変数および説明変数以外の変数について、その目的変数に対する影響度をそれぞれ算出する。言い換えれば、影響度算出部１２５は、Ｍ個の非活用変数のそれぞれの影響度を算出する。つまり、影響度算出部１２５は、データセットＤｓの３以上の変数に含まれる、特定された目的変数および説明変数以外のＭ個の非活用変数のそれぞれの影響度であって、その非活用変数のデータの目的変数のデータに対する影響度を算出する。その影響度は、非活用変数のデータが目的変数のデータに与える影響の大きさを示す数値であって、その影響が大きいほど、大きい値を示す。

【0073】

具体的には、影響度算出部１２５は、上述のように、質的影響度算出部１２５ａと、量的影響度算出部１２５ｂとを備えている。質的影響度算出部１２５ａは、質的変数である非活用変数の影響度を算出し、量的影響度算出部１２５ｂは、量的変数である非活用変数の影響度を算出する。より具体的には、質的影響度算出部１２５ａは、変数型判定部１２４、メモリ１０３または記憶部１０５から変数型情報を取得し、その変数型情報に示されている非活用変数の変数型を特定する。そして、その非活用変数の変数型が質的変数であれば、質的影響度算出部１２５ａは、質的変数に対応する影響度算出処理によって、その非活用変数の影響度を算出する。一方、量的影響度算出部１２５ｂは、その変数型情報に示されている非活用変数の変数型を特定する。そして、その非活用変数の変数型が量的変数であれば、量的影響度算出部１２５ｂは、量的変数に対応する影響度算出処理によって、その非活用変数の影響度を算出する。

【0074】

そして、影響度算出部１２５は、Ｍ個の非活用変数のそれぞれについて、その非活用変数に対して算出された影響度を示す影響度情報を、メモリ１０３または記憶部１０５に格納する。影響度情報が記憶部１０５に格納される場合には、その影響度情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、影響度算出部１２５は、影響度情報を第２変数特定部１２６に出力してもよい。

【0075】

第２変数特定部１２６は、影響度算出部１２５、メモリ１０３または記憶部１０５から、Ｍ個の非活用変数のそれぞれの影響度情報を取得する。さらに、第２変数特定部１２６は、層別条件設定部１２２、メモリ１０３または記憶部１０５から第２設定情報を取得する。そして、第２変数特定部１２６は、それらの影響度情報および第２設定情報を用いて、データセットＤｓによって示されるＭ個の非活用変数の中から、Ｎ個の非活用変数をそれぞれ層別変数として特定する。層別変数は、データセットＤｓのレコードの層別に用いられる変数である。例えば、第２変数特定部１２６は、データセットＤｓ内の全ての上位変数から、影響度の大きい順にＮ個の上位変数を特定しようとする。Ｎ個の上位変数が特定されれば、第２変数特定部１２６は、そのＮ個の上位変数をＮ個の層別変数として扱う。一方、データセットＤｓ内の全ての上位変数の個数がＮ個未満であって、Ｎ個の上位変数を特定することができなければ、第２変数特定部１２６は、データセットＤｓ内の全ての下位変数から、影響度の大きい順に残りの個数の下位変数を特定する。これにより、Ｎ個未満の上位変数と、残りの個数の下位変数とを合わせたＮ個の層別変数が特定される。

【0076】

このように、本実施の形態における第２変数特定部１２６は、目的変数および説明変数とは異なる変数であって、モデルに活用されない非活用変数を、レコードの層別に用いられる層別変数として、複数の変数から特定する。つまり、第２変数特定部１２６は、データセットＤｓに含まれる３以上の変数のうち、特定された目的変数および説明変数以外の変数から、１または複数の変数を層別変数として特定する。本実施の形態では、第２変数特定部１２６は、複数の変数からＮ個（Ｎは２以上の整数）の層別変数を特定する。つまり、第２変数特定部１２６は、層別条件設定部１２２によって設定された総数であるＮ個だけ層別変数を特定する。このとき、第２変数特定部１２６は、影響度に基づいて、層別変数を特定する。具体的には、第２変数特定部１２６は、影響度算出部１２５によって算出された、Ｍ個の非活用変数のそれぞれの影響度に基づいて、Ｍ個の非活用変数からＮ個の層別変数を特定する。より具体的には、第２変数特定部１２６は、影響度および優先情報に基づいて、層別変数を特定する。つまり、第２変数特定部１２６は、質的変数および量的変数のうち、優先順位が上位の変数を上位変数として扱い、優先順位が下位の変数を下位変数として扱う。そして、第２変数特定部１２６は、Ｍ個の非活用変数から、全ての上位変数がＫ個（ＫはＮ未満の整数）特定されるまで、または、Ｎ個の上位変数が特定されるまで、影響度が大きい順に上位変数を層別変数として特定する。そして、第２変数特定部１２６は、特定された上位変数の個数がＫ個の場合には、Ｍ個の非活用変数から、影響度が大きい順に下位変数を層別変数として（Ｎ－Ｋ）個特定する。

【0077】

そして、第２変数特定部１２６は、その特定されたＮ個の層別変数を示す層別変数情報を、メモリ１０３または記憶部１０５に格納する。層別変数情報が記憶部１０５に格納される場合には、その層別変数情報は、テンポラリーデータ１０５ｂとして格納されてもよい。また、第２変数特定部１２６は、層別変数情報を層別部１２７に出力してもよい。

【0078】

層別部１２７は、データセットＤｓに含まれる層別変数の２つ以上のデータ間の共通性または類似性に基づいて層別分類を行う。この層別分類では、層別部１２７は、データセットＤｓに含まれる２つ以上のレコードを複数の層に分類することによって、複数の層のそれぞれに１つ以上のレコードを含める処理である層別分類を実行する。つまり、層別部１２７は、層別変数と目的変数との関係の傾向に基づいて、データセットＤｓを複数の層に分類する。具体的には、層別部１２７は、層別変数ごとに、その層別変数のデータの同一性または類似性に基づいて、その層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、データセットＤｓを分類する。ここで、その層別変数は、上述の層別変数情報によって示されている。したがって、層別部１２７は、第２変数特定部１２６、メモリ１０３または記憶部１０５から、層別変数情報を取得する。そして、層別部１２７は、その層別変数情報に基づいて、データセットＤｓに対する層別分類を行う。

【0079】

具体的には、層別部１２７は、層別変数情報によって示されるＮ個の層別変数のそれぞれについて、その層別変数の２つ以上のデータ間の共通性または類似性に基づいて、データセットＤｓに含まれるその層別変数の２つ以上のデータを複数のグループに分類する。そして、層別部１２７は、そのＮ個の層別変数のそれぞれのグループの組み合わせに応じて複数の層を決定し、データセットＤｓに含まれる２つ以上のレコードを、決定された複数の層に分類する。これによって、複数の層のそれぞれに、１つ以上のレコードからなる層別データセットが生成される。複数の層のそれぞれの層別データセットは、データセットＤｓから分類された１つ以上のレコードを含む。その１つ以上のレコードのそれぞれは、Ｎ個の層別変数のそれぞれの同一グループに属するデータを含む。さらに、その１つ以上のレコードのそれぞれは、目的変数および説明変数のそれぞれのデータを含む。この層別データセットの詳細については、図７を用いて後述する。

【0080】

生成部１２８は、複数の層毎に、１または複数の目的変数と１または複数の説明変数との関係を示すモデルを生成する。つまり、生成部１２８は、複数の層のそれぞれについて、その層に含まれる１つ以上のレコード、すなわち層別データセットを用いて、説明変数のデータと目的変数のデータとの関係を示すモデルを生成する。ここで、上述の例では、変数Ｘ０および変数Ｘ１がそれぞれ説明変数であるが、説明変数は１つでもよく、２つ以上であってもよい。したがって、この場合には、生成部１２８は、２つ以上の説明変数のそれぞれのデータと目的変数のデータとの関係を示すモデルを、重回帰式として生成する。例えば、生成部１２８は、説明変数Ｘ０および説明変数Ｘ１と目的変数Ｙとに対する重回帰分析を行うことによって、説明変数Ｘ０および説明変数Ｘ１のそれぞれのデータと目的変数Ｙのデータとの関係を示すモデルを生成する。

【0081】

結果出力部１２９は、生成された複数のモデルを出力する。つまり、結果出力部１２９は、生成部１２８によって層ごとに生成されたモデルを、その生成部１２８から取得して出力部１０４に出力する。

【0082】

［層別データセット］
図７は、本実施の形態における層別データセットの一例を示す図である。

【0083】

例えば、第２変数特定部１２６は、それぞれ質的変数である非活用変数Ｚ０および非活用変数Ｚ１を層別変数として特定する。図５に示すデータセットＤｓの各レコードに含まれる層別変数Ｚ０のデータは、「Ａ」または「Ｂ」を示す。また、そのデータセットＤｓの各レコードに含まれる層別変数Ｚ１のデータは、「Ｃ」または「Ｄ」を示す。そこで、層別部１２７は、図７の（ａ）に示すように、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを、第１層に分類する。これにより、層別データセットＤｓ１が生成される。層別データセットＤｓ１は、ＩＤ「ＩＤ２００９０１」によって識別されるレコードと、ＩＤ「ＩＤ２００９０２」によって識別されるレコードと、ＩＤ「ＩＤ２００９０３」によって識別されるレコードとからなる。

【0084】

同様に、層別部１２７は、図７の（ｂ）に示すように、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを、第２層に分類する。これにより、層別データセットＤｓ２が生成される。層別データセットＤｓ２は、ＩＤ「ＩＤ２００９０４」によって識別されるレコードと、ＩＤ「ＩＤ２００９０５」によって識別されるレコードと、ＩＤ「ＩＤ２００９０６」によって識別されるレコードとからなる。

【0085】

同様に、層別部１２７は、図７の（ｃ）に示すように、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを、第３層に分類する。これにより、層別データセットＤｓ３が生成される。層別データセットＤｓ３は、ＩＤ「ＩＤ２００９０７」によって識別されるレコードと、ＩＤ「ＩＤ２００９０８」によって識別されるレコードと、ＩＤ「ＩＤ２００９０９」によって識別されるレコードとからなる。

【0086】

同様に、層別部１２７は、図７の（ｄ）に示すように、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを、第４層に分類する。これにより、層別データセットＤｓ４が生成される。層別データセットＤｓ４は、ＩＤ「ＩＤ２００９１０」によって識別されるレコードと、ＩＤ「ＩＤ２００９１１」によって識別されるレコードと、ＩＤ「ＩＤ２００９１２」によって識別されるレコードとからなる。

【0087】

言い換えれば、層別変数Ｚ０の２つ以上のデータがグループ「Ａ」およびグループ「Ｂ」に分類され、層別変数Ｚ１の２つ以上のデータがグループ「Ｃ」およびグループ「Ｄ」に分類される。第１層は、層別変数Ｚ０のグループ「Ａ」と、層別変数Ｚ１のグループ「Ｃ」との組み合わせに対応する。第２層は、層別変数Ｚ０のグループ「Ｂ」と、層別変数Ｚ１のグループ「Ｃ」との組み合わせに対応する。第３層は、層別変数Ｚ０のグループ「Ａ」と、層別変数Ｚ１のグループ「Ｄ」との組み合わせに対応する。第４層は、層別変数Ｚ０のグループ「Ｂ」と、層別変数Ｚ１のグループ「Ｄ」との組み合わせに対応する。このように、層別変数Ｚ０および層別変数Ｚ１のそれぞれのグループの組み合わせに応じて複数の層が決定される。したがって、層別分類では、層別変数Ｚ０のグループ「Ａ」に属するデータと、層別変数Ｚ１のグループ「Ｃ」に属するデータとを含むレコードは、第１層に分類される。層別変数Ｚ０のグループ「Ｂ」に属するデータと、層別変数Ｚ１のグループ「Ｃ」に属するデータとを含むレコードは、第２層に分類される。層別変数Ｚ０のグループ「Ａ」に属するデータと、層別変数Ｚ１のグループ「Ｄ」に属するデータとを含むレコードは、第３層に分類される。層別変数Ｚ０のグループ「Ｂ」に属するデータと、層別変数Ｚ１のグループ「Ｄ」に属するデータとを含むレコードは、第４層に分類される。

【0088】

なお、各層に分類されるレコードには、層別変数以外の他の非活用変数のデータが含まれていてもよく、図７に示す例のように、活用変数および層別変数のそれぞれのデータのみが含まれていてもよい。

【0089】

図８は、層別データセットＤｓ１～Ｄｓ４のそれぞれについて、その層別データセットに含まれる各レコードによって示される座標点の分布を示す図である。

【0090】

層別データセットＤｓ１～Ｄｓ４のそれぞれは、複数のレコードを含む。そして、その複数のレコードのそれぞれは、説明変数Ｘ０のデータと、説明変数Ｘ１のデータと、目的変数Ｙのデータとを含み、座標点（Ｘ０，Ｘ１，Ｙ）として示される。つまり、レコードは、説明変数Ｘ０、説明変数Ｘ１および目的変数Ｙからなる三次元座標系における座標点として示される。

【0091】

データセットＤｓに含まれる全てのレコードの座標点からは、それらのレコード間の相関性を見出すことが難しい。しかし、図８に示すように、層別データセットＤｓ１～Ｄｓ４のそれぞれでは、その層別データセットに含まれる複数のレコードの座標点は、互に相関性を有する。したがって、層別データセットＤｓ１～Ｄｓ４のそれぞれでは、その層別データセットに含まれる全てのレコードの座標点から、それらのレコード間の相関性を見出すことができる。

【0092】

生成部１２８は、これらの層別データセットＤｓ１～Ｄ４のそれぞれで、その層別データセットに含まれる１つ以上のレコードを用いて、説明変数Ｘ０および説明変数Ｘ１のそれぞれのデータと目的変数Ｙのデータとの関係を示すモデルを生成する。

【0093】

このように、本実施の形態では、層別変数が非活用変数であって、その非活用変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。したがって、説明変数以外の変数である非活用変数によって、データセットＤｓに対する層別分類を最適に行うことができる。その結果、非活用変数に応じて説明変数と目的変数との間の相関関係が変化するような場合であっても、その非活用変数のグループに応じた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。また、本実施の形態では、層別変数が２つ以上であっても、データセットＤｓに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちＮ個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。

【0094】

［処理動作］
図９は、本実施の形態におけるモデル生成装置１００の全体的な処理動作の一例を示すフローチャートである。

【0095】

まず、モデル生成装置１００の受信部１３０は、データ受信処理を行う（ステップＳ１）。このデータ受信処理では、第１変数特定部１２１は、データベース１０６からデータセットＤｓを読み出すことによって、そのデータセットＤｓを受信する。そして、第１変数特定部１２１は、そのデータセットＤｓによって示される複数の変数から、説明変数および目的変数を特定する（ステップＳ２）。これにより、説明変数および目的変数が設定される。例えば、上述のように、変数Ｘ０および変数Ｘ１がそれぞれ説明変数に設定され、変数Ｙが目的変数に設定される。

【0096】

次に、層別条件設定部１２２は、ユーザの入力操作に応じて、層別変数の総数Ｎを設定する（ステップＳ３）。例えば、総数ＮはＮ＝２に設定される。そして、層別条件設定部１２２は、層別変数の変数型の優先順位を決定する（ステップＳ４）。つまり、質的変数と量的変数の優先順位が決定される。例えば、質的変数、量的変数の順にそれらの変数の優先順位が決定される。

【0097】

次に、非活用変数抽出部１２３は、データセットＤｓの複数の変数から、説明変数および目的変数以外の変数を、非活用変数として抽出する（ステップＳ５）。

【0098】

その後、モデル生成装置１００は、ステップＳ６～Ｓ９を含む第１ループ処理を、ステップＳ５で抽出された全ての非活用変数のそれぞれに対して順に実行する。すなわち、データセットＤｓに示されるＭ個の非活用変数のそれぞれに対して第１ループ処理が順に実行される。

【0099】

具体的には、まず、変数型判定部１２４は、処理対象の非活用変数の変数型を判定する（ステップＳ６）。そして、変数型判定部１２４は、その変数型が質的変数の型であるか否かを判定する（ステップＳ７）。つまり、変数型判定部１２４は、処理対象の非活用変数が質的変数であるか否かを判定する。そして、その処理対象の非活用変数が質的変数であると変数型判定部１２４によって判定されると（ステップＳ７のＹｅｓ）、質的影響度算出部１２５ａは、その質的変数である非活用変数の目的変数に対する影響度を算出する（ステップＳ８）。つまり、質的影響度算出部１２５ａは、質的変数の影響度算出処理によって、その非活用変数の目的変数に対する影響度を算出する。一方、その処理対象の非活用変数が質的変数ではないと変数型判定部１２４によって判定されると（ステップＳ７のＮｏ）、量的影響度算出部１２５ｂは、その量的変数である非活用変数の目的変数に対する影響度を算出する（ステップＳ９）。つまり、量的影響度算出部１２５ｂは、量的変数の影響度算出処理によって、その非活用変数の目的変数に対する影響度を算出する。

【0100】

このようなステップＳ６～Ｓ９を含む第１ループ処理が、全ての非活用変数のそれぞれに対して順に実行されることによって、その全ての非活用変数のそれぞれの影響度が算出される。

【0101】

そして、第２変数特定部１２６は、全ての非活用変数のそれぞれの影響度に基づいて、変数型ごとに、その変数型に属する全ての非活用変数を影響度順にソートする（ステップＳ１０）。つまり、第２変数特定部１２６は、抽出された全ての質的変数を、それらの影響度順に並べ替える。具体的には、第２変数特定部１２６は、質的変数の影響度が大きいほどその質的変数が前に配置されるように、それらの質的変数を並べ替える。同様に、第２変数特定部１２６は、抽出された全ての量的変数を、それらの影響度順に並べ替える。具体的には、第２変数特定部１２６は、量的変数の影響度が大きいほどその量的変数が前に配置されるように、それらの量的変数を並べ替える。

【0102】

次に、第２変数特定部１２６は、ステップＳ３で設定された層別変数の総数Ｎと、ステップＳ４で決定された優先順位とに基づいて、ソートされたＭ個の非活用変数からＮ個の非活用変数を層別変数として特定する（ステップＳ１１）。質的変数の方が量的変数よりも優先順位が上位であれば、第２変数特定部１２６は、ソートされた複数の質的変数から、影響度が大きい順に質的変数をＮ個まで特定しようとする。そして、その抽出された質的変数がＮ個未満であれば、第２変数特定部１２６は、ソートされた複数の量的変数から、影響度が大きい順に量的変数を特定する。このときに特定される量的変数の個数は、先に特定された質的変数の個数をＮ個から減算することによって得られる個数である。これにより、合計Ｎ個の層別変数が特定される。上述の例では、Ｎ＝２であって、質的変数の方が量的変数よりも優先順位が上位である。したがって、この場合には、質的変数Ｚ０および質的変数Ｚ１がそれぞれ層別変数として特定される。

【0103】

次に、層別部１２７は、その特定されたＮ個の層別変数を用いてデータセットＤｓに対する層別分類を行うことによって、複数の層別データセットを生成する。例えば、図７に示すように、層別データセットＤｓ１～Ｄｓ４が生成される。そして、生成部１２８は、層別データセットごとに、説明変数および目的変数に対する重回帰分析を行うことによって重回帰式を算出する（ステップＳ１２）。これにより、層別データセットごとに、重回帰式からなるモデルが生成される。

【0104】

生成部１２８は、さらに、複数の層別データセットのそれぞれで算出された重回帰式に対して、説明変数の自由度調整済み決定係数を算出する（ステップＳ１３）。

【0105】

結果出力部１２９は、ステップＳ１２で算出された各重回帰式と、ステップＳ１３で算出された各決定係数とを出力部１０４に出力する。これにより、出力部１０４は、各重回帰式と各決定係数とをディスプレイに表示したり、紙に印刷したり、それらを示すファイルを記憶部１０５に格納する（ステップＳ１４）。

【0106】

図１０は、図９のステップＳ８における質的変数の影響度算出処理の具体的な一例を示すフローチャートである。なお、この影響度算出処理で扱われる処理対象の非活用変数は、質的変数である。

【0107】

質的影響度算出部１２５ａは、処理対象の非活用変数のカテゴリ数が第１閾値以下であるか否かを判定する（ステップＳ８１）。そのカテゴリ数の第１閾値は、例えば２０である。カテゴリ数は、データセットＤｓに含まれる、その処理対象の非活用変数によって示される複数の同一データからなるグループ数である。例えば、図５に示すデータセットＤｓにおいて、質的変数である非活用変数Ｚ０によって示される複数のデータには、「Ａ」を示すデータと、「Ｂ」を示すデータとが含まれている。したがって、その非活用変数Ｚ０のカテゴリ数は２である。同様に、図５に示すデータセットＤｓにおいて、質的変数である非活用変数Ｚ１によって示される複数のデータには、「Ｃ」を示すデータと、「Ｄ」を示すデータとが含まれている。したがって、その非活用変数Ｚ１のカテゴリ数は２である。

【0108】

次に、質的影響度算出部１２５ａは、処理対象の非活用変数のカテゴリ数が第１閾値以下ではないと判定すると（ステップＳ８１のＮｏ）、その非活用変数を影響度の算出対象から除外する（ステップＳ８２）。例えば、カテゴリ数が比較的多い非活用変数を層別変数に用いれば、多くの層別データセットが生成される。その結果、多くのモデルが生成されることによって、各モデルの精度の向上と、それらのモデルの使い易さの向上とを、期待することが難しいと想定される。したがって、ステップＳ８２では、そのようなカテゴリ数が多い非活用変数を影響度の算出対象から除外することによって、その非活用変数が層別変数に用いられることを抑制することができる。

【0109】

一方、質的影響度算出部１２５ａは、処理対象の非活用変数のカテゴリ数が第１閾値以下であると判定すると（ステップＳ８１のＹｅｓ）、その処理対象の非活用変数の影響度を教師あり機械学習によって算出する（ステップＳ８３）。その教師あり機械学習は、例えばランダムフォレストを用いた学習である。ランダムフォレストは、複数の決定木を用いる手法である。例えば、質的影響度算出部１２５ａは、データセットＤｓに含まれる目的変数の各データと、データセットＤｓに含まれる処理対象の非活用変数の各データとを、それぞれ教師データとして用いたランダムフォレストの機械学習を実行する。このランダムフォレストは、例えば目的変数のデータから処理対象の非活用変数のデータを推定するための学習モデルである。より具体的には、処理対象の非活用変数は、非活用変数Ｚ０である。この場合、質的影響度算出部１２５ａは、目的変数のデータをランダムフォレストに入力することによって、その目的変数のデータに対応する非活用変数Ｚ０のデータがそのランダムフォレストから出力されるように、機械学習を実行する。このときランダムフォレストから出力される非活用変数Ｚ０のデータは、「Ａ」または「Ｂ」である。

【0110】

質的影響度算出部１２５ａは、ランダムフォレストに含まれる複数の決定木の不純度を表す指標であるジニ係数Ｇに基づいて、その処理対象の非活用変数の影響度を算出する。ジニ係数Ｇは、決定木のノードごとに、式（１）で定義される。

【0111】

【数1】

【0112】

ここで、式（１）において、Ｃはカテゴリ数である。また、Ｐｉは、カテゴリｉに属するデータ数を、全データ数で割ったものである。つまり、Ｐｉは、そのジニ係数Ｇに対応するノードにおいて分類されたカテゴリｉのデータの数を、そのノードにおいて分類されたデータの総数で除算することによって得られる商である。例えば、「Ａ」を示す２つのデータと、「Ｂ」を示す１つのデータとがそのノードにおいて分類された場合、Ｇ＝１－（２／３）^２－（１／３）^２である。

【0113】

質的影響度算出部１２５ａは、決定木におけるジニ係数ができるだけ小さくなるように学習を行う。そして、質的影響度算出部１２５ａは、ランダムフォレストに用いられた複数の決定木の全てのジニ係数の平均値が小さいほど大きい値を示す影響度を算出する。例えば、質的影響度算出部１２５ａは、その平均値の逆数を影響度として算出する。

【0114】

このように、本実施の形態における質的影響度算出部１２５ａは、ランダムフォレストを用いて、１つ以上の質的変数のそれぞれの影響度を算出する。したがって、非活用変数が質的変数である場合でも、その非活用変数の目的変数に対する影響度を適切に算出することができる。

【0115】

図１１は、図９のステップＳ９における量的変数の影響度算出処理の具体的な一例を示すフローチャートである。なお、この影響度算出処理で扱われる処理対象の非活用変数は、量的変数である。

【0116】

量的影響度算出部１２５ｂは、データセットＤｓに含まれる処理対象の非活用変数の各データに対するクラスタリングを、教師なし機械学習によって行う（ステップＳ９１）。その教師なし機械学習は、例えば混合ガウスモデル（ＧＭＭ：Gaussian Mixture Model）である。

【0117】

混合ガウスモデルは、ある確率分布が与えられたとき、その確率分布を複数のガウス関数（すなわち正規分布）の線形結合で近似する手法である。線形結合では、複数のガウス関数のそれぞれは、重みπｋを用いて結合される。重みπｋは、ｋ番目のガウス関数の重みであって、混合係数とも呼ばれる。（ａ，ｂ）の２次元で考えた場合、ｋ番目のガウス関数は、ａの平均値μａ＿ｋと、ｂの平均値μｂ＿ｋと、ａの分散Σａ＿ｋと、ｂの分散Σｂ＿ｋと、ａとｂの共分散Σａｂ＿ｋとを有する。各正規分布の大きさは、簡易的にΣｂ＿ｋ＋Σａ＿ｋで扱うことができる。なお、本実施の形態では、（ａ，ｂ）は、（目的変数，量的変数である非活用変数）である。

【0118】

量的影響度算出部１２５ｂは、混合ガウスモデルでのハイパーパラメータであるクラスタ数を変更しながらその混合ガウスモデルを解析する。そして、量的影響度算出部１２５ｂは、例えば赤池情報量基準（ＡＩＣ：Akaike’s Information Criterion）またはベイズ情報量基準（ＢＩＣ：Bayesian Information Criterion）が最小となるクラスタ数を採用する。これにより、そのクラスタ数だけクラスタが生成される。なお、クラスタ数は、１つ以上である。また、クラスタは、上述のカテゴリまたはグループに相当する。

【0119】

その後、量的影響度算出部１２５ｂは、ステップＳ９２～Ｓ９４を含む第２ループ処理を、ステップＳ９１で生成された全てのクラスタのそれぞれに対して順に実行する。

【0120】

具体的には、まず、量的影響度算出部１２５ｂは、処理対象のクラスタ内のデータ数が第２閾値以上であるか否かを判定する（ステップＳ９２）。ここで、量的影響度算出部１２５ｂは、データ数が第２閾値以上であると判定すると（ステップＳ９２のＹｅｓ）、そのクラスタ内のデータが目的変数のデータに与える影響度を、クラスタ影響度として算出する（ステップＳ９３）。このとき、量的影響度算出部１２５ｂは、そのクラスタを算出処理済みのクラスタとして採用する。例えば、量的影響度算出部１２５ｂは、処理対象のクラスタと目的変数とに対する単回帰分析を行うことによって、単回帰式の回帰係数をクラスタ影響度として算出する。一方、量的影響度算出部１２５ｂは、データ数が第２閾値未満であると判定すると（ステップＳ９２のＮｏ）、そのクラスタをクラスタ影響度の算出対象から除外する（ステップＳ９４）。これにより、処理対象の非活用変数の影響度が、信頼性の低いクラスタを用いて算出されることを抑制することができる。

【0121】

このようなステップＳ９２～Ｓ９４を含む第２ループ処理が、ステップ９１で生成された全てのクラスタのそれぞれに対して順に実行される。これにより、その全てのクラスタのうち、ステップＳ９４で除外されたクラスタ以外の、残りの各クラスタのクラスタ影響度が算出される。

【0122】

そして、量的影響度算出部１２５ｂは、ステップＳ９３でクラスタ影響度が算出されたクラスタの数、すなわち算出処理済みのクラスタ数が、２つ以上であるか否かを判定する（ステップＳ９５）。ここで、量的影響度算出部１２５ｂは、そのクラスタ数が２つ以上であると判定すると（ステップＳ９５のＹｅｓ）、第２ループ処理で算出され２つ以上の影響度のうちの最大の影響度を選択する（ステップＳ９７）。すなわち、量的影響度算出部１２５ｂは、目的変数に対する処理対象の非活用変数の影響度として、その最大の影響度を選択する。一方、量的影響度算出部１２５ｂは、算出処理済みのクラスタ数が２つ以上ないと判定すると（ステップＳ９５のＮｏ）、その非活用変数を影響度の算出対象から除外する（ステップＳ９６）。これにより、目的変数との相関性が低い非活用変数が層別変数として特定されることを抑制することができる。

【0123】

このように、本実施の形態における量的影響度算出部１２５ｂは、１つ以上の量的変数のそれぞれについて、混合ガウスモデルを用いて、データセットＤｓに含まれるその量的変数の２つ以上のデータに対するクラスタリングを行い、クラスタリングによって得られる各クラスタと目的変数との単回帰分析によって、その量的変数の影響度を算出する。したがって、非活用変数が量的変数である場合でも、その非活用変数の目的変数に対する影響度を適切に算出することができる。

【0124】

また、上述のように、本実施の形態では、層別変数が質的変数である場合には、同一のデータがグループ化され、層別変数が量的変数である場合は、同一または類似のデータがグループ化される。

【0125】

本実施の形態における層別部１２７は、層別変数ごとに、その層別変数のデータの同一性または類似性に基づいて、その層別変数のデータを複数のグループに分類し、複数のグループの組み合わせ毎に、データセットＤｓを分類する。ここで、層別変数が量的変数である場合において、その量的変数のデータが類似しているとは、量的変数の目的変数に対する影響の傾向が類似していることを意味する。したがって、層別部１２７は、層別変数と目的変数との関係の傾向に基づいて、データセットＤｓを複数の層に分類していると言える。

【0126】

また、混合ガウスモデルでは、１つ１つのデータは、各グループに属する確率を有し、複数のグループのうち最も確率の高いグループに属する。混合ガウスモデルの代わりに後述のｋ－ｍｅａｎｓ法が用いられる場合には、１つ１つのデータは、各グループの重心との間に距離を有し、複数のグループのうち最も距離が近いグループに属する。したがって、具体的に、量的変数のデータが類似しているとは、そのデータに対応する確率が一定値以上であること、又は、グループの重心から、そのデータに対応する位置までの距離が一定値以下であることである。

【0127】

［モデルの例］
以上のように、本実施の形態では、データセットＤｓに対して層別分類が行われる。例えば、非活用変数Ｚ０および非活用変数Ｚ１がそれぞれ層別変数として特定された場合には、図７に示すように、４つの層別データセットＤｓ１～Ｄｓ４が生成される。そして、４つの層別データセットＤｓ１～Ｄｓ４のそれぞれからモデルが生成される。これにより、モデルの精度向上を図ることができる。

【0128】

具体的には、層別分類が行われない場合、データセットＤｓから生成されるモデルは、以下の式（２）のように示される。なお、式（２）では、ｘ_０およびｘ_１が、上述の説明変数Ｘ０および説明変数Ｘ１にそれぞれ相当し、ｆが上述の目的変数Ｙに相当する。

【0129】

【数2】

【0130】

一方、本実施の形態では、上述のように層別分類が行われるため、以下の式（３）～式（６）に示される４つのモデルがそれぞれ重回帰式として生成される。なお、式（３）～式（６）では、ｘ_０およびｘ_１が、上述の説明変数Ｘ０および説明変数Ｘ１にそれぞれ相当し、ｆ_００、ｆ_０１、ｆ_１０、およびｆ_１１のそれぞれが上述の目的変数Ｙに相当する。具体的には、式（３）は、図７の（ｄ）および図８に示す層別データセットＤｓ４から生成されたモデルであって、その層別データセットＤｓ４は、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを含む。式（３）のｆ_００は、この層別データセットＤｓ４の目的変数Ｙに相当する。式（４）は、図７の（ｃ）および図８に示す層別データセットＤｓ３から生成されたモデルであって、その層別データセットＤｓ３は、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｄ」とを含む各レコードを含む。式（４）のｆ_０１は、この層別データセットＤｓ３の目的変数Ｙに相当する。式（５）は、図７の（ｂ）および図８に示す層別データセットＤｓ２から生成されたモデルであって、その層別データセットＤｓ２は、層別変数Ｚ０のデータ「Ｂ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを含む。式（５）のｆ_１０は、この層別データセットＤｓ２の目的変数Ｙに相当する。式（６）は、図７の（ａ）および図８に示す層別データセットＤｓ１から生成されたモデルであって、その層別データセットＤｓ１は、層別変数Ｚ０のデータ「Ａ」と、層別変数Ｚ１のデータ「Ｃ」とを含む各レコードを含む。式（６）のｆ_１１は、この層別データセットＤｓ１の目的変数Ｙに相当する。

【0131】

なお、本実施の形態では、２つの層別変数Ｚ０および層別変数Ｚ１が特定され、層別変数Ｚ０の各データが２つのグループに分類され、層別変数Ｚ１の各データが２つのグループに分類される。したがって、グループの組み合わせ数が４であって、４つのモデルが生成される。ここで、３つの層別変数が特定され、それらの層別変数の各データが２つのグループに分類される場合には、グループの組み合わせ数は８であって、８つのモデルが生成される。また、２つの層別変数が特定され、それらの層別変数の各データが３つのグループに分類される場合には、グループの組み合わせ数は９であって、９つのモデルが生成される。

【0132】

【数3】

【0133】

ここで、Ｒ^２＊は自由度調整済み決定係数である。この自由度調整済み決定係数は、モデルの確からしさを示す指数である。本実施の形態では、上述の式（２）～式（６）に示すとおり、自由度調整済み決定係数を、０．２７３から、０．５０３～０．９６９の範囲まで増加させることができ、モデルの精度向上を図ることができる。そして、このような各モデルと各自由度調整済み決定係数とが、結果出力部１２９によって出力される。

【0134】

このように、本実施の形態における生成部１２８は、生成された複数のモデルのそれぞれについて、そのモデルの確からしさを示す指数を算出する。そして、結果出力部１２９は、複数のモデルのそれぞれに対して算出されたその指数を出力する。したがって、ユーザは、生成されたモデルを使用するか否かを、その指数にしたがって容易に判断することができる。

【0135】

［効果など］
以上のように、本実施の形態では、目的変数および説明変数以外の変数である層別変数に応じた層別分類が行われ、複数の層のそれぞれに対してモデルが生成される。また、層別変数は、モデルに含まれる変数として採用されていないが、そのモデルの生成には用いられる非活用変数である。したがって、その非活用変数によって、データセットＤｓに対する層別分類を最適に行うことができる。その結果、非活用変数に応じて説明変数と目的変数との間の相関関係が変化するような場合であっても、その非活用変数のデータに応じた高い精度のモデルを生成することができる。つまり、モデルの精度向上を容易に図ることができる。

【0136】

また、本実施の形態では、データセットＤｓのＭ個の非活用変数の中から、有効な変数が層別変数として自動的に特定される。したがって、例えば工場の有識者などのユーザが活用変数（すなわち目的変数および説明変数）を選択した意図を活かすことができ、ユーザの理解し易いモデルの生成と、そのモデルの精度向上とを両立することができる。

【0137】

また、本実施の形態では、第２変数特定部１２６が、複数の変数からＮ個（Ｎは２以上の整数）の層別変数を特定する。そして、層別部１２７が、そのＮ個の層別変数のそれぞれについて、その層別変数の２つ以上のデータ間の共通性または類似性に基づいて、データセットＤｓに含まれるその層別変数の２つ以上のデータを複数のグループに分類する。さらに、層別部１２７が、Ｎ個の層別変数のそれぞれのグループの組み合わせに応じて複数の層を決定し、データセットＤｓに含まれる２つ以上のレコードを、決定された複数の層に分類する。グループは、層別変数が質的変数の場合には、上述のカテゴリに相当し、層別変数が量的変数の場合には、上述のクラスタに相当する。

【0138】

これにより、層別変数が２つ以上であっても、データセットＤｓに対して最適な層別分類を行うことができ、複数の層のそれぞれに対して、それらの層別変数、すなわちＮ個の非活用変数のそれぞれのデータに応じた高い精度のモデルを生成することができる。

【0139】

また、本実施の形態では、影響度算出部１２５が、各非活用変数のそれぞれの影響度を算出し、第２変数特定部１２６が、各非活用変数のそれぞれの影響度に基づいて、それらの非活用変数からＮ個の層別変数を特定する。

【0140】

これにより、目的変数のデータに対する影響度が大きいＮ個の層別変数を特定することができる。その結果、それらの層別変数を用いることによって、データセットＤｓに対するより最適な層別分類を行うことができる。その結果、複数の層のそれぞれに対して、より精度の高いモデルを生成することができる。

【0141】

また、本実施の形態では、層別条件設定部１２２が、ユーザによる入力操作に応じて、層別変数の総数を設定し、第２変数特定部１２６が、その設定された総数であるＮ個だけ層別変数を特定する。

【0142】

これにより、特定される層別変数の総数を、ユーザの意図どおりに任意に設定することができ、生成されるモデルの数または精度を調整することができる。

【0143】

また、本実施の形態では、Ｍ個の非活用変数は、それぞれ文字を含むデータを示す１つ以上の質的変数と、それぞれ数字からなるデータを示す１つ以上の量的変数とを含む。

【0144】

これにより、質的変数および量的変数のうちの一方だけでなく両方を含むＮ個の層別変数を特定することができ、特定される層別変数の変数型の自由度を高めることができる。

【0145】

また、本実施の形態では、層別条件設定部１２２が、ユーザによる入力操作に応じて、質的変数と量的変数の優先順位を設定する。また、第２変数特定部１２６が、Ｍ個の非活用変数から、全ての上位変数がＫ個（ＫはＮ未満の整数）特定されるまで、または、Ｎ個の上位変数が特定されるまで、影響度が大きい順に上位変数を層別変数として特定する。そして、特定された上位変数の個数がＫ個の場合には、Ｍ個の非活用変数から、影響度が大きい順に下位変数が層別変数として（Ｎ－Ｋ）個特定される。

【0146】

これにより、質的変数と量的変数の優先順位を、ユーザの意図どおりに任意に設定することができ、その優先順位が上位の変数を層別変数として多く特定することができる。その結果、データセットＤｓを質的に分析するか、量的に分析するかに応じて、適切な層別分類を行うことができ、それらの分析態様に応じたモデルを生成することができる。

【0147】

（変形例など）
以上、本開示の一態様に係るモデル生成装置について、上記実施の形態に基づいて説明したが、本開示は、その実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記実施の形態に施したものも本開示に含まれてもよい。

【0148】

例えば、本実施の形態では、質的変数の影響度算出処理に、教師あり機械学習の一例としてランダムフォレストが用いられているが、その教師あり機械学習はランダムフォレストに限定されるものではなく、他の教師あり機械学習が用いられてもよい。例えば、ランダムフォレストの代わりに、勾配ブースティング決定木（ＧＢＤＴ：Gradient Boosting Decision Tree）が用いられてもよい。この勾配ブースティング決定木が用いられる場合には、誤差または損失係数が小さくなるように機械学習が行われる。そして、質的影響度算出部１２５ａは、その誤差または損失係数が小さいほど大きい値を示す影響度を算出する。また、ランダムフォレストと勾配ブースティング決定木とを組み合わせてもよい。例えば、質的変数である第１非活用変数の影響度を、ランダムフォレストを用いて算出し、質的変数である第２非活用変数の影響度を、勾配ブースティング決定木を用いて算出してもよい。このとき、互に異なる２つの機械学習によって算出される影響度を正規化することによって、それらの影響度を比較可能にしてもよい。

【0149】

また、本実施の形態では、量的変数の影響度算出処理に、教師なし機械学習の一例として混合ガウスモデルが用いられているが、その教師なし機械学習は混合ガウスモデルに限定されるものではなく、他の教師なし機械学習が用いられてもよい。例えば、混合ガウスモデルの代わりに、ｋ－ｍｅａｎｓ法が用いられてもよい。この場合には、処理対象の非活用変数によって示される各データは、ｋ－ｍｅａｎｓ法によってクラスタリングされる。また、混合ガウスモデルとｋ－ｍｅａｎｓ法とを組み合わせてもよい。例えば、量的変数である第１非活用変数のクラスタリングを、混合ガウスモデルを用いて行い、量的変数である第２非活用変数のクラスタリングを、ｋ－ｍｅａｎｓ法を用いて行ってもよい。

【0150】

また、本実施の形態では、重回帰式をモデルとして生成したが、単回帰式をモデルとして生成してもよく、回帰式以外のモデルを生成してもよい。例えば、ニューラルネットワークをモデルとして生成してもよい。

【0151】

また、本実施の形態におけるデータセットＤｓは、製造関連の変数およびその変数のデータを示すが、その製造関連に限定されることなく、製造関連とは異なる他の分野の変数およびその変数のデータを示していてもよい。

【0152】

また、本実施の形態におけるデータセットＤｓに含まれるデータは、操業データと品質データとに分別されていてもよい。例えば、操業データは、製造プロセスに関するデータであって、図５に示す、変数Ｘ０、変数Ｘ１、変数Ｚ０、変数Ｚ１、変数Ｄ１、変数Ｄ２、変数Ｄ３、および変数Ｄ４のそれぞれのデータであってもよい。また、例えば、品質データは、製品の品質に関するデータであって、図５に示す変数Ｙであってもよい。

【0153】

また、本実施の形態では、層別変数の総数Ｎと、変数型の優先順位とが設定されるが、それらと異なる項目が設定されてもよい。例えば、質的変数の総数と、量的変数の総数とをそれぞれ個別に設定してもよい。また、本実施の形態では、総数Ｎは、２以上の整数であるが、１であってもよい。

【0154】

また、本実施の形態では、データセットＤｓは、２つの変数型のそれぞれに属する変数のデータを含んでいるが、その変数型の数は２つに限らず、１つだけであってもよく、３つ以上であってもよい。

【0155】

また、本実施の形態では、データセットＤｓは、製造管理装置５００からネットワークを介して送信されてデータベース１０６に格納されるが、他の装置または記録媒体からデータベース１０６に出力されて格納されてもよい。また、データセットＤｓは、ネットワークを介さずにデータベース１０６に格納されてもよい。

【0156】

なお、以下のような場合も本開示に含まれる。

【0157】

（１）上記の少なくとも１つの装置は、具体的には、マイクロプロセッサ、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。そのＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、上記の少なくとも１つの装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

【0158】

（２）上記の少なくとも１つの装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

【0159】

（３）上記の少なくとも１つの装置を構成する構成要素の一部または全部は、その装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

【0160】

（４）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、コンピュータプログラムからなるデジタル信号であるとしてもよい。

【0161】

また、本開示は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Blu-ray（登録商標） Disc）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

【0162】

また、本開示は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

【0163】

また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

【産業上の利用可能性】

【0164】

本開示は、モデルの精度向上を容易に図ることができるという効果を奏し、例えば、製造プロセスに用いられる変数のデータから、その製造プロセスで製造される製品の品質を推定するモデルを生成する装置またはシステムに適用することができる。

【符号の説明】

【0165】

１モデル生成システム
１００モデル生成装置
１０１入力部
１０２演算回路
１０３メモリ
１０４出力部
１０５記憶部
１０５ａプログラム
１０５ｂテンポラリーデータ
１０６データベース
１２１第１変数特定部
１２２層別条件設定部
１２３非活用変数抽出部
１２４変数型判定部
１２５影響度算出部
１２５ａ質的影響度算出部
１２５ｂ量的影響度算出部
１２６第２変数特定部
１２７層別部
１２８生成部
１２９結果出力部
１３０受信部
５００製造管理装置
Ｄｓデータセット
Ｄｓ１～Ｄｓ４層別データセット

【図1】