(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025006254
(43)【公開日】2025-01-17
(54)【発明の名称】プログラムおよび情報処理装置
(51)【国際特許分類】
G06F 17/18 20060101AFI20250109BHJP
【FI】
G06F17/18
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023106926
(22)【出願日】2023-06-29
(71)【出願人】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】有馬 澄佳
(72)【発明者】
【氏名】渡邉 響
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB22
5B056BB51
(57)【要約】
【課題】最終結果に有意に影響する要因の全体像を高精度に特定・推定する。
【解決手段】コンピュータに、解ランダムサンプリングアルゴリズムを用いて最適解の近似解を複数列挙する解列挙ステップと、前記最適解の近似解に対応するそれぞれの説明変数について排他的に非ゼロ係数値を持つ最適解の近似解を選択し、前記非ゼロ係数値を持つ最適解の近似解の集合において計算される係数ベクトルにおける、それぞれの前記説明変数の平均値を最終的な係数推定値として出力する出力ステップと、を実行させるためのプログラムである。
【選択図】
図27
【特許請求の範囲】
【請求項1】
コンピュータに、
解ランダムサンプリングアルゴリズムを用いて最適解の近似解を複数列挙する解列挙ステップと、
前記最適解の近似解に対応するそれぞれの説明変数について排他的に非ゼロ係数値を持つ最適解の近似解を選択し、前記非ゼロ係数値を持つ最適解の近似解の集合において計算される係数ベクトルにおける、それぞれの前記説明変数の平均値を最終的な係数推定値として出力する出力ステップと、
を実行させるためのプログラム。
【請求項2】
前記解列挙ステップにおいて列挙された前記最適解の近似解に対応するそれぞれの前記説明変数に対して非ゼロな係数推定値の絶対値平均に対して所定の閾値を設定することで重要な説明変数の候補を検出する候補検出ステップ
をさらに実行させる請求項1に記載のプログラム。
【請求項3】
前記解列挙ステップにおいて列挙された前記最適解の近似解に対応するそれぞれの前記説明変数間の相関の逆数を指標としたクラスタリングを実行し、それぞれの前記説明変数の相関グループを推定する相関グループ推定ステップ
をさらに実行させる請求項2に記載のプログラム。
【請求項4】
前記解列挙ステップに先立ち、
相関クラスタリングにより前記説明変数の相関グループを推定する相関グループ推定ステップと、
前記説明変数の相関グループの構造をGroup Lasso のグループ情報として用いてGroup Lassoを実行するGroup Lasso実行ステップと、
前記Group Lassoの実行結果から目的変数に影響を及ぼす説明変数群をあらかじめ抽出するスクリーニングステップと、
をさらに実行させる請求項1から請求項3のいずれか一項に記載のプログラム。
【請求項5】
前記最適解の近似解は、Lasso緩和解、Elastic Net緩和解、Ridge回帰緩和解、その他のL1ノルム正則化項またはL2ノルム正則化項を用いた回帰手法、あるいは、重回帰分析、の緩和解のうちのいずれかである
請求項1から請求項3のいずれか一項に記載のプログラム。
【請求項6】
前記解ランダムサンプリングアルゴリズムに対する入力データセットの説明変数は、p次元であり、目的変数はn個である
請求項1から請求項3のいずれか一項に記載のプログラム。
【請求項7】
前記説明変数は、量的変数または2値化された変数を含む
請求項6に記載のプログラム。
【請求項8】
前記目的変数は、品質、状態に関する特性値である
請求項6に記載のプログラム。
【請求項9】
前記重要な説明変数の候補の集合、重要な説明変数の候補が属する相関グループ、前記重要な説明変数の候補以外の説明変数の係数推定値または前記重要な説明変数の候補の係数推定値のいずれか一つを出力データセットとする
請求項3に記載のプログラム。
【請求項10】
前記相関グループからゼロを含む任意の数の説明変数を選択するステップと、
選択された前記説明変数から推定モデルを導出するステップと、
前記推定モデルと前記説明変数を用いて目的変数を推定するステップと、
をさらに実行させる請求項3に記載のプログラム。
【請求項11】
前記目的変数の推定値と、前記目的変数の理論値又は正解値との残差を計算するステップ
をさらに実行させる請求項10に記載のプログラム。
【請求項12】
前記推定モデルと、確率分布または乱数に基づき生成された説明変数を入力として、新たな目的変数の推定値を生成する
請求項10に記載のプログラム。
【請求項13】
前記相関クラスタリングにより推定された前記説明変数の相関グループ、および当該相関グループの構造を用いたGroup Lasso の実行結果から抽出される説明変数群の少なくとも一方を生成する
請求項4に記載のプログラム。
【請求項14】
前記説明変数から導出された推定モデル又は前記Group Lassoの推定モデルと前記説明変数を用いて目的変数の推定値を出力する
請求項4に記載のプログラム。
【請求項15】
前記説明変数から導出された推定モデル又は前記Group Lassoの推定モデルと所定の確率分布または乱数によって与えられる説明変数を用いて目的変数を推定し、前記目的変数に誤差項を追加するステップ
をさらに実行させる請求項4に記載のプログラム。
【請求項16】
プロセッサと、記憶部を備える情報処理装置であって、
前記プロセッサが、請求項1から請求項3のいずれか一項に記載のプログラムを実行する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラムおよび情報処理装置に関する。
【背景技術】
【0002】
工業分野や商業分野の実データに基づいて、製造された物の最終品質や、購買行動などに有意に影響する「要因の全体像」を高精度に特定・推定するためのデータ駆動のモデル構築・活用の機構が求められている。従来、要因を求める手法として、例えば特許文献1のような提案がなされている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、要因特定を困難にする技術的困難性は、主に、高次元、高相関、交互作用、系列バイアス、数値変数とカテゴリ変数の混合、および、少数サンプルやサンプルの欠損などがある。しかしながら、従来技術においては、これらの技術的困難性を十分に解決できないという課題があった。
【0005】
本発明は、上記課題を解決すべくなされたもので、その目的は、工業分野や商業分野の実データに基づいて、製造された物の最終品質や、購買行動などの最終結果に有意に影響する「要因の全体像」を高精度に特定・推定することができるプログラムおよび情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一実施形態は、コンピュータに、解ランダムサンプリングアルゴリズムを用いて最適解の近似解を複数列挙する解列挙ステップと、前記最適解の近似解に対応するそれぞれの説明変数について排他的に非ゼロ係数値を持つ最適解の近似解を選択し、前記非ゼロ係数値を持つ最適解の近似解の集合において計算される係数ベクトルにおける、それぞれの前記説明変数の平均値を最終的な係数推定値として出力する出力ステップと、を実行させるためのプログラムである。
【0007】
また、本発明の一実施形態は、プロセッサと、記憶部を備える情報処理装置であって、前記プロセッサが、上述のプログラムを実行する情報処理装置である。
【発明の効果】
【0008】
この発明によれば、購買行動などの最終結果に有意に影響する「要因の全体像」を高精度に特定・推定することができるプログラムおよび情報処理装置を提供することができる。
【図面の簡単な説明】
【0009】
【
図1A】L2ノルム正則化の最適解のイメージの一例を示す図である。
【
図1B】L1ノルム正則化の最適解のイメージの一例を示す図である。
【
図2】変数間の相関ネットワークの一例を示す図である。
【
図3】Lasso、Elastic Net、CHANOLの挙動の比較の一例を示す図である。
【
図4】代表的な階層型クラスタリング手法の一例を示す図である。
【
図5A】基礎検証データセット1の相関を示すヒートマップである。
【
図5B】基礎検証データセット2の相関を示すヒートマップである。
【
図5C】基礎検証データセット3の相関を示すヒートマップである。
【
図5D】基礎検証データセット4の相関を示すヒートマップである。
【
図6A】第1のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図6B】第2のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図6C】第3のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図6D】第4のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図6E】第5のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図6F】第6のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図7A】第1のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図7B】第2のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図7C】第3のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図7D】第4のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図7E】第5のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図7F】第6のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
【
図8A】Lassoの推定値の散布図の第1例を示す図である。
【
図8B】Lassoの推定値の散布図の第2例を示す図である。
【
図8C】Lassoの推定値の散布図の第3例を示す図である。
【
図8D】Lassoの推定値の散布図の第4例を示す図である。
【
図9A】CHANOLの推定値の散布図の第1例を示す図である。
【
図9B】CHANOLの推定値の散布図の第2例を示す図である。
【
図9C】CHANOLの推定値の散布図の第3例を示す図である。
【
図9D】CHANOLの推定値の散布図の第4例を示す図である。
【
図10】半導体製造工場での実データの概要の一例を示す図である。
【
図11】半導体製造工場でのシミュレーションデータの一例を示す図である。
【
図12】相関段階別の、変数インデックスと偏回帰係数の一例を示す図である。
【
図13】各変数と評価指標の対応の一例を示す図である。
【
図14】ρ=0.1の場合のCHANOLの係数推定精度を示す図である。
【
図15】ρ=0.1の場合のSEHC-Lassoの係数推定精度を示す図である。
【
図16】ρ=0.5の場合のCHANOLの推定結果を示す図である。
【
図17】ρ=0.5の場合のSEHC-Lassoの係数推定精度を示す図である。
【
図18】ρ=1.0の場合のCHANOLの推定結果を示す図である。
【
図19】ρ=1.0の場合のSEHC-Lassoの係数推定精度を示す図である。
【
図20】CHANOLと提案手法(SEHC-Lasso)の変数検出数のまとめを示す図である。
【
図21】本実施形態のSEHC-Lassoの出力形態の一例を示す図である。
【
図22A】代表変数と相関変数を合わせたCoef-errorの推移を示す図である。
【
図23】SEHC-Lassoの推定結果の一例を示す図である。
【
図24】ScSEHC-Lassoの推定結果の一例を示す図である。
【
図25】SEHC-LassoとScSEHC-Lassoの処理時間と変数検出数を示す図である。
【
図26A】代表変数と相関変数を合わせたCoef-errorを示す図である。
【
図26D】代表変数と相関変数を合わせたRecallを示す図である。
【
図27】本実施形態の情報処理システムの構成の一例を示す図である。
【
図28】本実施形態のSEHC-Lassoの出力形態の変形例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しつつ、本発明の実施形態を説明する。
【0011】
[背景]
半導体製造は、製造業の中でもトップクラスの規模と複雑性を持つ。特に、最先端の半導体製造プロセスは数ナノメートル寸法の精密加工、単原子レベルの超精密制御に近づいており、製造工程や製造装置類は非常に高次かつ高価なものとなっている。具体的には、ベーキング、露光、現像、エッチング、レジスト除去など一連の工程が何度も繰り返して実施されるため、最終製品を製造・出荷するまでに数百から数千の膨大な数の工程が必要になる。さらに、各工程は複数の装置から構成されるほか、くり返し処理、処理単位の変化、設備保全や予定外停止などの情報も加わるため、個々の製品の製造履歴は種々様々である。半導体製造工程においては、品質指標のばらつきや品質の低下に対して迅速かつ的確に対処することが重要であるが、上述したような複雑性を持つためインシデントの原因候補は膨大な数に及び、品質管理の専門家による分析にも一般に多くの工数を要す。
【0012】
半導体製造において、半導体製造装置ごとに取り付けたセンサー等から温度や圧力、ガス流量など数百以上の定量的データが収集される。全工程合わせて600万~1000万変数に及び、1日あたり約20億トランザクション(すなわち、40テラバイト程度)がデータベースに記録される。多くのプロセス産業でデータ活用がなされているように、記録された膨大なデータを品質管理に積極的に活用可能である。データの活用により品質管理の専門家の方々の持つ専門知識・熟練知とデータ解析技術の統合的利用を進めることで不良要因解析の効率化に貢献できる。
【0013】
半導体製造工場では、前述したような定量的な数値変数である「装置変数」と、現場のエンジニアが行う処置内容(装置の設定変更、部品交換など)を表したテキストデータである「イベント変数」の2種類のデータが収集されている。
従来技術によると、スパースモデリングの一種であるLasso(least absolute shrinkage and selection operator;ラッソあるいはラッソ回帰。以下、単にLassoとも記載する。)を用いる事で、装置変数23600個から製品品質に影響を及ぼす27個の要因の抽出に成功した事例がある。
しかし、冗長な変数をゼロに縮小するというLassoの性質上、本来残すべき変数が落とされている可能性がある。この問題に対し、従来、品質管理の専門家により重要変数を再構成する仕組みを導入し、必要工数を従来の1週間から1日に低減した事例がある。具体的には、Lassoによる選択変数とその他変数との相関ネットワークを用いて重要変数を再構成する方策をとっている。実データに現れるような複雑な相関関係や多様な変数を含む高次元データに対するCHANOLの有効性の検証と改良の余地が残されている。また、量産工場の効率的運用のため多数発現する相関が0.9より大きい(特に、0.95より大きい)超高相関変数の選択の問題が追加課題となる。
【0014】
本実施形態では、現実的なデータに適用可能な、多重共線性を考慮した変数選択手法の開発を目的とし、Lassoによる重要変数の見落としと変数再編の工数削減を目指す。
【0015】
まず、高次元データに対する回帰手法の他、提案手法の要素技術である準最適Lasso解列挙やGroup Lasso、階層型クラスタリングの説明を行う。加えて、従来のデータ分析事例のアルゴリズムを概説し、課題部分を改めて説明する。
次に、先行研究及び既存アルゴリズムの有効性を改めて検証するための基礎検証を示し、提案手法の検討材料とする。
次に、基礎検証に基づく提案手法の基本的なコンセプトを説明した上で、提案手法の内容を説明する。
次に、シミュレーションデータに対する提案手法の適用結果とその考察を述べる。
【0016】
[先行研究について]
罰則付き線形回帰手法を複数紹介する。半導体製造過程で得られるデータに見られるような、データのサンプル数を特徴量の次元が大きく上回る、「高次元小標本データ」に対しては、データから計算される共分散行列の推定が不安定となり最小二乗法が適用できない。このような場合に、正則化を用いた罰則付き線形回帰が予測性能の向上につながる。
【0017】
(1)Ridge回帰とLasso回帰
X∈R^(n×p)、y∈R^nをそれぞれ、説明変数行列、目的変数ベクトルとする。また、線形回帰モデルにおける係数パラメータベクトルをβ∈R^pとする(なお、文中における^(ハット)は、べき乗を表す。以下の説明において同じ。)。このとき、最小二乗法は(1)式の最適化問題として定式化される。また、係数パラメータベクトルの推定量をβ^とすると、(2)式のように表される。
【0018】
【0019】
【0020】
しかし、上述した通り、説明変数とするデータが高次元小標本である場合や変数間に多重共線性が存在する場合、共分散行列(X^T X)が非正則となり、解の精度が不安定となる。
罰則項付き最適化は、(3)式に示すように、目的関数l(w)にパラメータw∈R^dに対する罰則を表すΩ(w)を付する形で表される。
【0021】
【0022】
ここで、λは損失項と罰則項のバランスを調整するパラメータである。罰則付き線形回帰では、(3)式と同様に、(1)式の損失関数に罰則項を加えることで定式化される。このときの罰則項は正則化項とも呼ばれ、ベクトルの長さを一般化した概念「ノルム」が用いられる事が多い。ベクトルwに対するLpノルム(1≦p≦∞)は、
【0023】
【0024】
で定義され、wが原点から離れるほど、つまり大きくなるほど値が大きくなる。つまり、強い罰則がwを縮約する効果を生む。
正則化項にL2ノルムを用いた罰則付き線形回帰はRidge回帰と呼ばれ、L1ノルムを用いたものはLasso回帰と呼ばれている。最小二乗損失をL(β)と置くとき、Ridge回帰(以下、単にRidgeとも記載する。)とLassoの係数パラメータベクトルの推定量β^ridge、β^lassoはそれぞれ(5)式、(6)式の最適化問題として定義される。
【0025】
【0026】
【0027】
ここで、λ(≧0)は、正則化の強さを調節する正則化パラメータである。最小二乗損失にL2ノルム正則化項を加えたことでRidge推定量は((X^T X+λI)^(-1) X^T y)となる。(X^T X+λI)は常に正則であり、逆行列を持つ。つまり、データが高次元小標本であっても安定した推定量が得られる。また、パラメータの予測値の絶対値を抑制する事ができる。その結果、予測値の分散が減少し、予測精度の向上に繋がる。加えて、過学習が抑えられることで未知のデータに対する汎化性能の向上に繋がる場合がある。L1ノルム正則化項を用いた場合は、パラメータの予測値を抑えることに加え、非零となるパラメータの個数を抑制する事ができる。つまり、モデルに含まれる変数の数が減り、解釈性の向上が期待できる。
両手法の大きな違いとして、相関を持つ説明変数に対するパラメータ推定が挙げられる。
【0028】
図1Aは、L2ノルム正則化の最適解のイメージの一例を示す図である。
図1Bは、L1ノルム正則化の最適解のイメージの一例を示す図である。
図1Aおよび
図1Bは、相関を持つ2つの変数を説明変数とする場合のRidgeとLassoのパラメータ推定の様子を示している。損失関数の等位集合を楕円の等高線とし、それぞれの最適解を点P1および点P2で表している。
【0029】
正則化にL2ノルムを用いた際、βの実行可能領域は原点を中心とする円状になる(
図1A)一方で、L1ノルムを用いた場合は原点を中心とし軸上で頂点を取るひし形となる(
図1B)。この結果、Lassoでは最適解が軸上に存在しやすくなるため、一方の値を0とする推定、つまり変数選択が行われる。また、幾何学的性質上、相関の有無によらず予測に不要な変数を0と推定することができるため、解釈性の高いモデル構築が可能となっている。対照に、Ridgeでは最適解が軸上に存在しやすいとは限らず、積極的な変数選択は起こらない。Lassoには前述した利点があるが、これは相関の強い変数同士、または、多重共線性の関係にある変数同士では、片方のみが選択されるということを意味する。そのため、真に重要な変数が見落とされる可能性を持つことが指摘されている。
【0030】
(2)Elastic Net
重要変数の見落としを回避する選択手法として、正則化項にL1ノルム、L2ノルムの双方を用いたElastic Netがある。Elastic Netの係数パラメータベクトルの推定量β^ENは、式(7)の最適化問題として定義される。
【0031】
【0032】
ここで、λ(≧0)は正則化パラメータ、α(0≦α≦1)はL1ノルム正則化項とL2ノルム正則化項の比率を調整するパラメータである。Elastic Netは、α=1である場合にはLassoに、α=0である場合にはRidgeに一致する。そして、L1ノルムにより解の疎性を強めると同時にL2ノルムにより相関関係にある変数に対してのグループ効果を促進する。具体的には、相関のある変数に対しては近い値の係数を割り当てる。また、同じ値の変数に対しては同じ値の係数が割り当てられることが保証される。Elastic Netは、グループ効果により相関関係にある変数に対する積極的な変数選択を回避する一方で、相関変数間で目的変数への真の効果を分け合うため、回帰係数を過小に評価した上で選択する。その過小推定の結果、変数の重要度の誤認が発生する可能性がある。
【0033】
(半導体製造工場での取り組み)
図2は、変数間の相関ネットワークの一例を示す図である。Lassoを用いる事で、製造過程で得られる装置変数23600個から製品品質に影響を及ぼす27個の要因の抽出に成功している。しかし、半導体製造過程で得られるデータは強い相関を含む変数を多く含むため、冗長な変数をゼロに縮小するというLassoの性質上、変数同士の相関によって本来重要であるはずの変数が選択されない場合がある。そのため、ではLassoによる自動選択の後に、変数間の相関ネットワーク(
図2)を作成・参照することで類似変数を調査している。上記プロセスにより不良要因探索に要す時間は大幅に削減されたが、未だ1日以上の工数を必要とする。
【0034】
(Lasso緩和解列挙)
重要変数の取りこぼし、及び必要工数の削減を目的として、準最適Lasso解列挙手法であるCHANOL(Convex Hull Approximation of Nearly Optimal Lasso)の半導体製造データへの適用が提案されている。CHANOLはLassoの課題である重要変数の見落としの克服、及びモデルの妥当性と解釈性の向上を目的として提案されたLassoの拡張モデルである。多様かつ少数の準最適Lasso解(Lasso緩和解)を列挙することで、多重共線性の関係にある特徴量を広く選択しつつ、人によるモデルの妥当性の検討を容易にした。CHANOLのアルゴリズムの詳細をAlgorithm 1に記す。
【0035】
(Algorithm 1)Convex Hull Approximation of Nearly Optimal Lasso
<Step1:Random sampling step>
式(10)を二分木探索により解くことでM個の準最適Lasso解をB(ν)からサンプリングする。得られた解の集合をSとする。
【0036】
【0037】
【0038】
【0039】
<Step2:Selection step>
式(11)を貪欲に解くことでQ⊆SとなるK個の解を列挙する。
【0040】
【0041】
ここで、Hausdorff distance(ハウスドルフ距離)を式(12)で定義する。
【0042】
【0043】
ただし、上述した式中において、MはLasso緩和解サンプリング数、KはLasso緩和解選択数、αはLasso緩和度(α>1)、ρは正則化パラメータ(ρ>0)、である。また、X、y、β、β*、ν*を次式によって定義する。
【0044】
【0045】
CHANOLでは、Lasso緩和解の凸集合を十分に近似する集合Sをサンプリングすることに加え、集合間の距離指標であるハウスドルフ距離の最小化問題を解くことでSを近似する少数の解集合Qを算出する。ハウスドルフ距離の最小化により得られる解集合は要素同士の距離が離れているため、Lasso緩和解集合を十分に近似する多様な解を得ることができる。
【0046】
CHANOLについて、多様な解を列挙するという特徴から、相関の高い変数が排他的に解(推定モデル)に組み込まれるため、強い相関を持つ変数の見落としのない選択と、同水準推定が可能であると指摘されている。本実施形態で述べる「同水準推定」とは相関関係にある変数間での目的変数への効果の分け合いが発生しておらず、効果を単一の変数で正しく推定している状態を指す。正則化による縮約を除いて各変数の相対的な影響度を評価するRelative Impact(以下、RIとも記載する。)(式(13))、及びその理想値からの誤差の平均であるMean Relative Impact Error(以下、MRIE)(式(14))を用いてLasso、Elastic Net、およびCHANOLの性能を比較する。その結果、
図3に示す通り、CHANOLはその他手法と比較し各重要変数の相対的な影響度を正しく推定できることがわかった。
【0047】
【0048】
【0049】
図3は、Lasso、Elastic Net、CHANOLの挙動の比較の一例を示す図である。従来、CHANOLがLasso、Elastic Netと比較し安定した係数推定精度を持つことや、CHANOLのハイパーパラメータ設定の指針が示され、相関関係にある説明変数の同水準推定・選択問題へのCHANOLの適用可能性が示されている。
しかし、その数値実験の対象は単純な人工データセットに限られていた。半導体製造工場で運用されるデータは量的変数、質的変数を両方含むことに加え、説明変数同士の相関関係が複雑で、0.95を超える相関を持つものもあるが、従来の研究ではこれらの状況は考慮されていなかった。よって、実データや模擬データへの適用可能性は未だ明らかになっておらず、検証の余地が残る。
本実施形態では、現実的なデータに適用可能な、多重共線性を考慮した変数選択手法の開発を目的とし、Lassoによる重要変数の見落としと変数再編の工数削減を目指す。
解決方針としては、重要変数単独ではなく、相関関係にある変数を含めて同水準推定することを考える。そのために、まず、実データに現れる複雑な条件に対してCHANOLを適用し、有効性と課題を再検証する。次に、課題を克服する新たな手法を構築・検証する。
【0050】
(Group Lasso)
Group Lassoは変数選択手法の一種であり、Lassoとは異なり所与の変数グループ単位での疎性を促す。Elastic Netも同様にグループ効果を持つが、Elastic Netにおける説明変数のグループ化は相関に基づくものであり、計算過程で自動的に効果が現れることが指摘されている。これに対し、Group Lassoでは説明変数のグループ構造が既知であることを想定している。そのため、グループ構造の情報をモデルに含める必要がある。Group Lassoは式(15)のように定式化される。同式の第2項に用いられている正則化項は一般的にL1/L2正則化項と呼ばれる。
【0051】
【0052】
βgはβをグループg∈Gに含まれる要素に限定して得られる部分ベクトルであり、cg>0はグループgの重みを表す。cgは値が大きいほどそのグループに含まれる変数は同時に0へ縮約されやすくなる。L1/L2正則化項では、同じグループに含まれる説明変数に対してはL2ノルムによる罰則、グループ間の関係に対してはL1ノルムによる罰則が適用される。つまり、グループ単位での疎性が促される一方で、あるグループが選択された時、そのグループに含まれる全説明変数の係数が非零になりやすくなる。
【0053】
(階層型クラスタリング)
クラスタリングとは、分析対象間の距離を定義し、距離の近さによって対象を分類する手法の総称である。クラスタリングの対象は、サンプル、説明変数など様々であるが、変数選択、特徴量エンジニアリングの分野では説明変数のグループ化のために用いられることが多い。また、説明変数のクラスタリングの後に同じグループに属する変数を一つの代表変数に置き換える操作や、平均値や主成分を用いた新たな特徴量の合成が行われ、冗長な説明変数の削減がなされる。本実施形態でも同様に、クラスタリングを説明変数のグループ化のために用いる。
【0054】
クラスタリング手法を大別すると、階層型手法と非階層型手法に分けられる。非階層型手法には、ランダムに決定されたクラスタ重心からの距離を基に所属クラスタを決定していくk-means法などがある。しかし、一般的に非階層型クラスタリングは事前にクラスタ数を決定し、決められたクラスタ数に対象を分類する手法であるため、クラスタ数が未知である半導体製造工場での運用データには適さない可能性が高い。実際に、本実施形態の基礎検証においてk-means法を適用した場合、初期値依存によりクラスタ数が変わり、またそれに基づいたクラスタリングがなされるため、各相関グループに属さない変数が無理やりグループに入れられる事になり、相関グループの正確な推定が不可能であった。 よって、本実施形態では階層型クラスタリング手法に着目することとした。
【0055】
図4は、代表的な階層型クラスタリング手法の一例を示す図である。同図に示すように、階層型クラスタリングには、距離指標の計算の仕組みが異なる代表的な4手法がある。階層型クラスタリングのアルゴリズムは、Algorithm 2に示す手続きをとる。
【0056】
(Algorithm 2)Hierarchical Clustering
<Step1>
個々の対象間の距離を測る指標を決定する。個々の対象間 の距離をすべて計算し、距離が最小となる対象を統合して最初のクラスタとする。
【0057】
<Step2>
新しく形成されたクラスタと対象間の距離をすべて計算し、対象間の距離を含めて最小のものと統合する。これをすべてのクラスタが統合されるまで繰り返す。
【0058】
<Step3>
クラスタの統合過程を示すデンドログラムを描き、任意の距離でクラスタを分けることにより複数のグループに対象を分割する。
【0059】
(基礎検証)
複数の、実データの特性を捉えたシミュレーションデータセットを用いてCHANOLの挙動を検証する。まず、基礎検証の目的と方向性を説明する。次に、基礎検証のために作成したシミュレーションデータセットの概要を説明し、さらに、それぞれ検証の結果を示す。最後に、基礎検証をまとめ、CHANOLの有効性と課題を提示する。
【0060】
(基礎検証の目的と方向性)
上述したように、本実施形態では変数選択問題について、重要変数単独ではなく、それと相関関係にある変数を含めて同水準に推定することを目指す。本実施形態の基礎検証の目的は、従来は考慮されていなかった、データに多様性が存在する場合においてもオリジナルのCHANOLが相関変数の同水準推定を達成できるのかを明らかにすることにある。
そのために、実データに発現するような相関関係、目的変数への影響、質的・量的変数の混合など多様な変数設定を反映したデータを人工的に作成し、CHANOLの挙動を検証する。基礎検証1~3では、CHANOLの緩和解サンプリング数、選択数を調整するためのハイパーパラメータであるM、Kをそれぞれ500、50に固定して検証している。また、基礎検証では、正則化の強さを調整するハイパーパラメータρを0.3としている。これらは、事前検証に基づき妥当と考えられる水準に設定した。
【0061】
(基礎検証シミュレーションデータの概要)
基礎検証1~3に用いるシミュレーションデータを説明する。
図5A~5Dは、説明変数(図中x_n、n=[1,10])や目的変数(図中target)間の相関を示すヒートマップである。
図5Aは、基礎検証データセット1の相関を示すヒートマップである。
図5Bは、基礎検証データセット2の相関を示すヒートマップである。
図5Cは、基礎検証データセット3の相関を示すヒートマップである。
図5Dは、基礎検証データセット4の相関を示すヒートマップである。
【0062】
ハッチングの種類で相関の基準を示しており、ヒートマップ上では薄い変数関係は強い相関を示し、濃い変数関係は弱い相関関係を示す。すべてのデータセットにおいて、サンプル数n=1000、説明変数の次元p=100としている。基礎検証データセット1~3では、すべての変数を多変量正規分布から生成し、基礎検証データセット4では、目的変数に対して影響を持つ変数、及びそれらに対して相関を持つ変数のみを二項分布Binomial(n,{0.95,0.50,0.05})から生成している。以降、統計モデル上で真に目的変数への影響を持つ変数を「代表変数」、代表変数に対して相関を持つ変数を「相関変数」と称する。
【0063】
図5Aに示す基礎検証データセット1では、目的変数に対して異なる程度の効果を持つ複数の代表変数でモデルを構成している。変数{x_0, x_2, x_4, x_6}に対して順に{2.0, 4.0, 6.0, 8.0}の回帰係数を与え、また、変数{x_1, x_3, x_5, x_7}を0.99の相関を持つ相関変数として与えている。
【0064】
図5Bに示す基礎検証データセット2は、目的変数に対して同程度の効果を持つ複数の代表変数と、それらに対し異なる程度の相関を持つ相関変数で構成されている。変数{x_0, x_2, x_4, x_6, x_8}に対して等しく3.0の回帰係数を与え、また、変数ペア{(x_0, x_1), (x_2, x_3), (x_4, x_5), (x_6, x_7), (x_8, x_9)}に対して、順に{0.99, 0.95, 0.90, 0.85, 0.80}の相関を設定している。
【0065】
図5Cおよび
図5Dに示す基礎検証データセット3、4は、目的変数に対して同程度の効果を持つ複数の代表変数でデータを構成している。代表変数{x_0, x_2, x_4}に対して3.0の回帰係数を与え、また、変数{x_1, x_3, x_5}を-1 ~ -0.99の相関を持つ相関変数として与えている。データセット3、4の違いは、注目する説明変数が量的変数を表す数値変数か、質的変数(カテゴリ変数)を表す01変数かという点にある。データセット3では{x_0, x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9}は数値変数、また、データセット4では{x_0, x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9}は01変数になっている。
【0066】
(基礎検証1)
基礎検証1では、各代表変数の目的変数への影響度の差異がCHANOLの推定に与える影響を検証する。
図5Aに示すデータセット1を対象としたCHANOLの推定値を、
図6A~
図6Fの散布図に示す。
図6Aは、第1のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図6Bは、第2のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図6Cは、第3のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図6Dは、第4のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図6Eは、第5のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図6Fは、第6のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
なお、
図6A~
図6Fの各図において、縦軸は代表変数、横軸は相関変数の係数推定値を表す。
図6A~
図6Fにかけて、CHANOLのパラメータであるLasso緩和度を大きくしている。
【0067】
図6A~
図6Fでは、CHANOLの係数推定値をプロットしており、縦軸に代表変数、横軸に相関変数の推定値を表している。また、
図6A~
図6Fにかけてハイパーパラメータの一つであるLasso緩和度αを増加させている。
図6A~
図6Fの結果からは、代表変数とその相関変数の係数推定値が同水準で安定して得られる緩和度は、代表変数の係数値ごとに異なるということが分かる。
図6Cに示すα=1.01設定下では、x_0とx_1、つまり相関の高い変数同士が排他的に解(推定モデル)に組み込まれている。以降、このような相関の高い変数同士が排他的に解に組み込まれる(すなわち、片方がゼロ推定となる)推定を「排他な推定」と呼ぶ。
次に、
図6Dに示すα=1.1設定下では、x_0とx_1の他にもx_2とx_3の変数ペアで排他な推定がなされている。排他な推定値が得られている場合、代表変数と相関変数が同水準に評価されている事がわかる。本実施形態では、すべての代表変数と相関変数において排他な推定値を得ることを目標とする。しかし、回帰係数値が相対的に大きい変数ペアであるx_4とx_5、x_6とx_7で排他な推定値が得られるようになる α=2.5の場合(
図6F)では、回帰係数値が相対的に小さいx_0とx_1、x_2とx_3の変数ペアにおいては、排他な解”以外”が多く得られる問題が発現する。そのような解では、相関のある変数間で異なる符号の大きな回帰係数値が得られており、効果を打ち消し合いながら真の効果を推定している。例えば、代表変数に与えられた回帰係数の真値が2.0だとすると、排他でない解では代表変数と相関変数でそれぞれ20と-18のような推定値が得られ、これらの和から2.0という真値が得られる。
以降、このような解を「分け合いの解」と呼ぶ。このような分け合いの解が列挙解に含まれる結果、変数の真の重要度を見誤ってしまう可能性がある。以上、基礎検証1の結果から、分け合いの解が含まれず、同水準の係数推定値で構成される排他な解が得られる緩和度は、正解の係数値ごとに異なるということが示された。
【0068】
(基礎検証2)
基礎検証2では、代表変数と相関変数の相関の差異がCHANOLの推定に与える影響を検証する。
図5Bに示すデータセット2を用いたCHANOLの推定値を、
図7A~
図7Fの散布図に示す。
図7Aは、第1のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図7Bは、第2のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図7Cは、第3のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図7Dは、第4のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図7Eは、第5のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
図7Fは、第6のLasso緩和度におけるCHANOLの解の散布図の一例を示す図である。
なお、
図7A~
図7Fの各図において、縦軸は代表変数、横軸は相関変数の係数推定値を表す。
図7A~
図7Fにかけて、CHANOLのパラメータであるLasso緩和度を大きくしている。
【0069】
図7A~
図7Fでも、
図6A~
図6Fと同様にCHANOLの係数推定値をプロットしており、
図7A~
図7FにかけてLasso緩和度を増加させている。
図7A~
図7Fの結果から、代表変数とその相関変数の係数推定値が同水準で安定して得られる緩和度は、代表変数・相関変数間の相関の程度により異なるということが分かる。
図7Cに示すα=1.01では、x_0とx_1、つまり相対的に相関の強い変数ペアにおいて排他な推定がなされている。また、α≧1.1では、すべての代表変数と相関変数のペアにおいて排他な解が得られているが、同時に分け合いの解も多く選択されてしまっている(
図7D~
図7F)。
α=1.1における分け合いの解は緩和解集合の内側に含まれる要素であるため、緩和解選択数Kを小さくすることで選択を防ぐことが可能だと考えられる。一方、α≧1.5における分け合いの解は緩和解集合の凸包境界面に含まれる要素であるため、Kを小さくしても選択を防ぐことが不可能である。以上、基礎検証2の結果から、排他な解が得られる緩和度は、代表変数・相関変数間の相関の程度により異なるということが示された。
【0070】
(基礎検証3)
基礎検証3では、変数の形態がCHANOLの推定に与える影響を検証する。そのために、
図5Cに示したデータセット3および
図5Dに示したデータセット4を対象とする。
図8A~
図8Dおよび
図9A~
図9Dは、それぞれLassoとCHANOLの推定値の散布図を表している。図中の星印がLasso解,白丸がCHANOLのサンプリング解(STEP1の結果),黒丸がCHANOLの選択解(STEP2の結果)を示している。
また、
図8A、
図8B、
図9A、
図9Bがα=1.05、
図8C、
図8D、
図9C、
図9Dがα=1.50の場合、
図8A、
図8C、
図9A、
図9Cがρ=0.01、
図8B、
図8D、
図9B、
図9Dがρ=0.50の場合の結果である。データセット3およびデータセット4は代表変数の係数値や相関変数の相関の大きさは等しく設定している。一方で、代表変数及び相関変数について、データセット3は量的変数、データセット4は質的変数で構成している。
図8A~
図8Dおよび
図9A~
図9Dからは、代表変数とその相関変数の係数推定値が同水準で安定して得られる緩和度は、説明変数の形態により異なるということが分かる。
データセット3を対象とした場合、最も安定して排他な解が得られているのは
図8B、つまりα=1.05,ρ=0.50の場合である。一方で、データセット4を対象とした場合、排他な解が得られているのは
図9C、つまりα=1.50、ρ=0.01の場合である。これは、推定対象とする重要変数に量的変数と質的変数が混在する場合、単一のパラメータセットを用いたモデルによりすべての代表変数と相関変数に対して安定した排他な推定値を得ることは難しいことを示している。
【0071】
(基礎検証のまとめ)
基礎検証から、CHANOLを用いる場合、回帰係数や相関の水準、説明変数の数値的特性により、排他な推定に最適なハイパーパラメータ設定が異なることが分かった。これは、様々な条件の入り交じる実データでは、単一パラメータセットによるCHANOL推定は不安定であり、正解値と乖離した推定値が得られてしまう可能性が高いことを示しており、本実施形態ではこの点をCHANOLの課題と位置づける。一方で、基礎検証からはCHANOLの有効性も確認された。
図6F、
図9Cのように多くのケースにおいて、分け合いの解と同時に排他な解が選択されている。つまり、分け合いの解を除くことができれば、様々なデータ条件が入り交じる状況においても、単一のパラメータセットによるモデルで安定した推定値を得ることができる可能性がある。以下、上述した基礎検証から明らかになったCHANOLの課題を克服する手法を提案し、詳しく説明する。
【0072】
(本実施形態の手法)
基礎検証の結果を受け、CHANOLのサンプリング解から、相関グループごとに注目し、グループ内で排他な解のみを選択することができれば、本実施形態の課題に対する解決方針である、代表変数と相関変数の同時選択・同水準推定を達成できると考えた。本章では、この仮説を基に手法を提案する。提案手法のアルゴリズムを Algorithm3に示す。ここで、提案手法の名称を、SEHC-Lasso (Simultaneous estimation of highly correlated variables - Lasso)とした。
【0073】
(Algorithm 3)SEHC-Lasso (Simultaneous estimation of highly correlated variables - Lasso)
【0074】
<Step1> Random sampling (CHANOL Step1)
上述した式(10)を二分木探索により解くことでM個の準最適Lasso解をサンプリングする。
【0075】
<Step2> Feature selection
式(16)を満たすxi∈R^Nを選択する。これにより代表変数及び相関変数を抽出する。抽出した変数の添字集合をQとする。
【0076】
【0077】
<Step3> Feature clustering
式(17)で定義するinv-correlationを指標とする、最長距離法による階層型クラスタリングにより変数クラスタを構成する。式(18)をマージ条件とする。各クラスタに属する変数の添字集合をGk(Gk⊂Q)とする。
【0078】
【0079】
【0080】
<Step4> Coefficient evaluation
式(19)定義する左辺を最終的な推定値とする。
【0081】
【0082】
ただし、上述した式中において、MはLasso緩和解サンプリング数、αはLasso緩和度(α>1)、T1は変数選択の閾値、T2はクラスタのマージ閾値、ρは正則化パラメータ(ρ>0)である。また、Nはサンプル数、β^iqは変数xiの解qにおける係数推定値、ρabは変数(a,b)の相関である。
【0083】
すなわち、本実施形態の手法では、まずStep1として、CHANOLのStep1同様、解ランダムサンプリングアルゴリズムを用いてLasso緩和解を複数列挙する。Step1では緩和解サンプリング数の調整パラメータであるMが影響するが、ここではどのような条件の代表変数・相関変数においても排他な推定値が得られるよう、十分大きな数を指定する。
なお、本実施形態では、最適解の近似解について、Lasso緩和解を一例として説明したがこれに限られない。最適解の近似解として、Elastic Net緩和解、Ridge回帰緩和解、または、その他のL1ノルム正則化項またはL2ノルム正則化項を用いた回帰手法の緩和解、あるいは、重回帰分析の緩和解のいずれかが用いられてもよい。すなわち、これら例示した解を、上述したStep1で最適解の近似解として列挙してもよい。
【0084】
Step2では、列挙された緩和解を基に代表変数と相関変数を抽出する。具体的には、各変数に対して、非ゼロな推定値の絶対値平均に対して閾値を設定することで変数選択を行う。ここでの平均は、各変数の列挙解集合に対する平均を指す。列挙解に対する平均に注目すると、目的変数への影響を持つ代表変数と相関変数、また強い相関ペアを持つ変数などは緩和度αの増加に従って絶対値平均が大きくなる傾向が観察された。基礎検証で述べたように、強い相関関係にある変数同士では分け合いの解がサンプリングされる。また、分け合いの解の係数値は緩和度の増加に従い逆の符号を持って大きくなる。その結果、絶対値平均も大きくなる。相関変数を持たない単独の代表変数については、緩和度の増加に従い解のサンプリング領域が広がるため、過剰な推定値が得られやすくなる。一方で、目的変数に対して影響を持たず、強い相関関係を持たない変数の係数推定値はゼロ付近に集中するため、緩和度を大きくしても絶対値平均は大きくならない。よって、非ゼロな推定値の絶対値平均に対して閾値を設けることで、代表変数と相関変数の抽出が可能になると考えた。緩和解の絶対値平均の閾値以上の変数集合を取得するという性質上、Step2のためには緩和度αは大きく設定する必要があるが、どのような条件の代表変数・相関変数においても排他な推定値が得られるよう緩和度αは大きな値を与える必要があるため、プロセス全体に対して整合的である。
【0085】
Step3では、変数間の相関の逆数を指標としてクラスタリングを実行し、変数の相関グループを推定する。推定された相関グループの情報は、Step4で排他な解の探索のために利用される。グループ内のある変数に注目したときに、その変数が唯一非ゼロに推定されている状態を本実施形態では排他な推定と称している。相関グループが把握できていれば、その中の排他な推定のみを選択することは容易となる。ここで、階層型クラスタリングを用いた理由は2.5節で述べたとおり、クラスタ数が未知な問題設定を扱うためである。また、ハイパーパラメータT2で任意に指定する相関の強さのクラスタを構成できる理由から、距離メトリックには最長距離法を用いる。
【0086】
Step4では、各相関グループ内の中で、各変数について排他な解を選択する。その選択された排他な解の集合において計算される平均値を最終的な推定値とする。
【0087】
本実施形態の手法の全容は、上述のAlgorithm 3に示した通りだが、後述する数値検証結果に示すように、Algorithm 3の提案手法には、オリジナルCHANOLに由来する処理時間の課題が観察された。特に、変数間に強い相関関係を多く含んでおり、データの次元も大きい場合では、Step1のRandom sampling stepで多大な計算時間を要してしまう。この課題を解決し、精度と安定性を高めるために、提案手法の前処理としてAlgorithm 4に示す変数スクリーニングを提案する。
【0088】
(Algorithm 4)Screening
<Step1> Feature clustering (SEHC-Lasso Step3)
式(17)で定義するinv-correlationを指標とする、最長距離法による階層型クラスタリングにより変数クラスタを構成する。式(18)をマージ条件とする。各クラスタに属する変数の添字集合を Gk (Gk⊂Q)とする。
【0089】
<Step2> Group Lasso
グループ情報Gkを用いてGroup Lassoを実行する。
【0090】
<Step3> Feature selection
β^i≠0となるxi∈R^Nを選択する。選ばれたxiにより後段のアルゴリズムに入力するデータセットを構成する。
【0091】
ただし、T2はクラスタのマージ閾値、ρは正則化パラメータ(ρ>0)である。また、Nはサンプル数、β^iqは変数xiの解qにおける係数推定値である。
【0092】
この前処理は、後段に続くSEHC-Lassoへの入力変数を削減することを目的としており、主に、不正解変数をあらかじめ除外する。このデータの次元縮小により、緩和解サンプリングに要す処理時間の低減が期待できる。変数選択手法としては、LassoではなくGroup Lassoを採用した。本実施形態では、代表変数と相関変数の同水準推定・選択の達成を目指す。そのため、スクリーニングの段階でも代表変数を残すだけでなく、相関変数も同時に選択されている必要がある。Group Lassoでは、同一のグループに属する変数は同時に非ゼロ、もしくはゼロに推定される。この特性により、変数の相関グループ構造をGroup Lassoのグループ情報として用いることで、目的変数に影響を及ぼす変数群の効率的な抽出が可能になると考えた。
【0093】
なお、Group Lassoでは同一グループに属する変数間で効果を分け合う形で係数推定がなされる。よって、前処理の推定結果では代表変数と相関変数の同水準推定とはならないが、この前処理は事前の変数選択のためだけに用い、推定値は使用しないため、問題とはならない。
【0094】
(数値検証)
本章では、実データを模したシミュレーションデータを用いて、提案手法の挙動と先行研究に対する優位性を検証する。まず、数値検証の目的と方向性を説明する。次に、検証のために作成したデータセットの概要を説明し、それぞれ検証の結果を示す。最後に、検証結果をまとめ、提案手法の達成点を示す。
【0095】
(数値検証の目的と方向性)
本章の数値検証は、実データを模した、多様な条件の含まれるデータセットに対して提案手法を適用し、代表変数と相関変数の選択・推定精度を検証することを目的としている。
数値検証1では、CHANOLを比較対象として変数選択と係数推定の精度を検証する。
数値検証2では、αやρなどのハイパーパラメータに対する提案手法の挙動を確認する。
数値検証3では、後述する処理時間の問題への対処として前処理を導入し、前処理を含む一連の解析プロセス全体の変数選択と係数推定の精度、処理時間の検証結果を示す。
【0096】
(数値検証シミュレーションデータの概要)
数値検証1~3に用いるシミュレーションデータを説明する。
図10は、半導体製造工場での実データの概要の一例を示す図である。
図11は、半導体製造工場でのシミュレーションデータの一例を示す図である。シミュレーションデータは半導体製造工場へのヒアリングに基づいて作成している。
まず、半導体製造工場での実データには、量的変数と質的変数の双方が含まれる。量的変数である装置変数は電圧や圧力、温度などがセンシングされた数値データを指すが、様々な単位や数値範囲が存在するため標準化が必須となる。そのため、シミュレーションデータでは多変量の 標準正規分布に基づき生成する。他方、質的変数であるカテゴリ変数は、技術者による処置内容や、工程、装置などを示す。カテゴリ変数は、すべてワンホットエンコーディングが行われ、0と1の2値で表される。その為、シミュレーションデータ上も変数毎に0/1の2値データとして二項分布から生成する。
【0097】
シミュレーションデータセットでは、サンプル数n=1000、説明変数の次元p=5000としており、同数の装置変数とカテゴリ変数から構成した。つまり、装置変数とカテゴリ変数がそれぞれ2500個ずつ存在する。5000変数のうち24変数を代表変数とし、各代表変数は、表5-2に示す相関に従い相関変数とともに相関グループを構成する。代表変数と相関変数の他にノイズ変数として、目的変数への影響は持たない、非検出対象の変数も生成し統合する。代表変数と相関変数の相関の強さは、無相関、低相関、中相関、高相関の4段階で設定している。また、目的変数への影響を表す偏回帰係数を{2.5, 5.0, 10.0}とし、代表変数の効果として与える。4段階の相関グループには、それぞれ3種の異なる影響度の代表変数が含まれる構成としている。無相関、低相関、中相関に属する相関グループは1つの代表変数と4つの相関変数を含む、5変数で構成される。また、高相関に属する相関グループは1つの代表変数と9つの相関変数を含む、10変数で構成される。そして、目的変数y∈R^nは式(20)により生成する。
【0098】
【0099】
式(20)の第1~3項までは装置変数の代表変数、第4~6項はカテゴリ変数の代表変数を表している。第7項のεは誤差項で、式(21)で計算されるSN比が所定の値(ここでは、5.0)となるように正規分布から生成する。
【0100】
【0101】
以上を踏まえ、相関段階別の、変数インデックスと偏回帰係数の全体を
図12にまとめる。
図12は、相関段階別の、変数インデックスと偏回帰係数の一例を示す図である。
【0102】
(数値検証1)
数値検証1では、CHANOLを比較対象として、提案手法の変数選択と係数推定の精度を検証する。第4章で述べたとおり、提案手法では、どのような条件の代表変数・相関変数においても排他な推定値が得られるよう緩和度αには大きな値を与える必要がある。よって、数値検証1では、α=1.5として各アルゴリズムを実行する。また、緩和解サンプリング数を調整するためのハイパーパラメータであるMを400、変数選択とクラスタリングに関わるハイパーパラメータについては、(T1=1.0,T2=0.4)に設定する。なお、公平性のため、比較対象のCHANOLについても、同様にT1を用いた変数選択Stepを実行する。
【0103】
(評価方法)
数値検証1では、式(22)~式(26)の指標に基づきアルゴリズムを評価する。TP(True Positive)とFN(False Negative)は、それぞれ、検出対象のうち正しく検出された変数の数と、検出されなかった変数の数を表す。FP(False Positive)とTN(True Negative)は、それぞれ、非検出対象のうち、誤検出された変数の数と誤検出されなかった変数の数を表す。これらの指標を用いて計算される式(22)、式(23)のrecall、precisionは、それぞれ、検出対象の変数のうち正しく検出された変数の割合、検出された変数における検出対象の変数の割合を示す。式(25)で定義したcoef-errorは、ある変数集合における推定値の誤差率の平均を示し、値がゼロに近いほど高精度な係数推定がなされていることを表す。式(25)では、V(v∈V)を変数集合、(coefv*)を回帰係数の正解値、(coefv^)を回帰係数の推定値としている。式(26)で定義するnoise-errorは、非検出対象の変数群の係数推定値の平均であり、理想値はゼロである。
【0104】
【0105】
【0106】
【0107】
【0108】
【0109】
数値検証1では、以下の(a)~(d)に示す評価方針に従い、アルゴリズムを評価する。
a)異なる5つの乱数シードから生成したシミュレーションデータから上記評価指標を算出し、平均値で評価する。
b)半導体製造工場での利用想定より、代表変数に加えて、高相関変数群に属する相関変数を検出及び推定の対象とする。その他の相関変数はノイズ変数として扱う。
c)提案手法の未推定変数の推定値(後述する)についてはStep1サンプリング解から非ゼロな推定値を選択し、その平均値を補完する。
d)
図13の○印に従い評価指標を計算する。
図13は、各変数と評価指標の対応の一例を示す図である。
【0110】
(検証結果)
図14~
図19に、各手法の評価結果を示す。
図14~
図15は、ρ=0.1の場合のCHANOLと提案手法(SEHC-Lasso)の係数推定精度を示している。2つの表を比較し、より高い精度を示す部分を太文字で記している。
図14~
図15から、提案手法では、狙い通り、検出対象とした代表変数と相関変数の推定誤差をCHANOLに比べ改善できている事がわかる。相関変数に注目すると、誤差率Coef-Errorが0.777から0.419に大幅に改善されている。また、ノイズ変数の推定値平均を示すNoise-Errorもよりゼロに近い値をとっている。
【0111】
図16~
図17は、ρ=0.5の場合のCHANOLと提案手法(SEHC-Lasso)の推定結果を示している。ρ=0.1の場合と同様に、提案手法は、多くの評価指標において相対的に高い精度を達成している。次に、提案手法同士で比較すると、ρ=0.1の場合の方がCoef-Errorは代表変数では大きくなり、相関変数では小さくなっている。これは、代表変数においては強い罰則が過小評価に繋がり、相関変数においては推定の排他性が高まった結果だと考えられる。
【0112】
図18~
図19は、ρ=1.0の場合のCHANOLと提案手法(SEHC-Lasso)の推定結果を示している。前述までと同様に、提案手法は、多くの評価指標において相対的に高い精度を達成している。次に、提案手法同士で比較すると、代表変数と相関変数をあわせたCoef-Errorは3水準のρの中でρ=1.0の場合に最も小さくなっている。
【0113】
図20に、α=1.5,ρ={0.1,0.5,1.0}におけるCHANOLと提案手法(SEHC-Lasso)の変数検出数をまとめる。両手法において、検出対象変数の数である78を大きく上回る数の変数が検出されている。これが
図14~
図19中の低いPrecisionにつながっている。提案手法では、ρが増加するほど誤検出が増える傾向が確認された。
【0114】
以上、数値検証1の結果から、提案手法は代表変数と相関変数双方についてCHANOLを上回る推定精度を達成することが分かった。その中でも、相関変数推定の精度改善効果は顕著である。また、非検出対象であるノイズ変数の推定についても、CHANOLよりゼロに近い値を出力している。これは、ノイズ変数が検出されてしまった場合であっても、代表変数や相関変数などの重要変数との区別が、より容易になっていることを示す。
【0115】
ここでは、全変数に関わる推定精度の検証結果を示した。次に、提案手法の推定結果出力から、個別の変数に注目し、代表変数と相関変数の同時推定が達成されていることを確認する。
【0116】
(本実施形態の手法の出力)
まず、提案手法SEHC-Lassoの出力形態について説明する。
図21は、本実施形態のSEHC-Lassoの出力形態の一例を示す図である。
図21には、想定している推定結果の出力表の一部抜粋を示す。なお、同図において、pred_valueは検出変数インデックス、pred_groupは推定グループ、pred_coefは回帰係数推定値である。pred_valueは視覚的に把握できるよう正解回帰係数値に応じて枠内の濃さを変化させている。
【0117】
本実施形態の手法SEHC-Lassoの出力では、変数グループを容易に把握できるよう、推定グループインデックスも出力している。
図21から、中相関以下に属する変数インデックス0~40では正しく代表変数のみが、高相関変数群に属する変数インデックス45~74では代表変数に加えて相関変数も検出・推定がなされている事がわかる。また、代表変数と相関変数を同水準で推定したい目標も達成されている。一方で、一部、推定値の出力がされない変数の存在が課題として挙げられる。例えば、高相関変数群の正解回帰係数値が(5,10)のグループにおいて、一部の変数の推定値が得られていない。これは、相関の強さが影響していると考えられる。高相関変数群では、代表変数に対する相関を変数インデックスの小さい順に、{0.999, 0.975, 0.95, 0.925, 0.9, 0.875, 0.85, 0.825, 0.8}となるように設定している。これより、相対的に相関の弱い変数では排他な解がサンプリングされずに、推定値が得られなかったと考えられる。他方、正解の回帰係数値が2.5のグループでは、すべての変数に対して推定値が得られている。この違いは、Step1のサンプリングアルゴリズムでは、正解回帰係数値が大きいほど代表変数が選択されやすいためである。この傾向により、正解回帰係数値が相対的に大きい(5,10)のグループでは列挙解に含まれる確率は代表変数が最も高く、次いで相関の強さに従って相関変数が続く。一方で、正解回帰係数値が相対的に小さいグループでは各変数が列挙解に含まれる確率の差は小さくなる。その結果、すべての変数において排他な推定値が得られたと考えられる。
数値検証1では、評価方針で述べた通り、前述した推定値の得られていない変数に対しては、Step1サンプリング解から非ゼロな推定値を選択し、その平均値を補完することで評価値を得ている。
【0118】
(数値検証2)
数値検証2では、回帰係数の推定精度、変数選択精度、処理時間の3つの観点から提案手法の最適なハイパーパラメータ(α,ρ)の設定を考察する。数値検証2で示す数値は、数値検証1と同様に、異なる5つの乱数シードから生成したシミュレーションデータから算出した評価値の平均値とする。(α,ρ)に対する推定結果の特性を
図22A~
図22Dに示す。
【0119】
図22Aは、代表変数と相関変数を合わせたCoef-errorの推移を示している。この結果からは、ρが大きいほど推定誤差が小さくなる単調減少の傾向にあることが分かる。
図22Bは、処理時間を示している。処理時間は、ρが大きくαが小さいほど短いことが分かる。
図22Cには、検出変数の数を示しており、ρが小さくαも小さいほど少ない傾向にあることが分かる。
図22Aについて、α=1.1においてCoef-errorが小さい傾向にあることが分かるが、これは変数の見落としに起因すると考えられる。緩和度αが小さい場合、5.3.3節で述べたような検出はされるが推定値が得られず、相関グループ内で相対的に相関の弱い変数が検出されない傾向にある。そのため、推定値の補完を必要とせず、代表変数と相関変数を合わせたCoef-errorが小さくなる。
図22A~
図22Cまでの結果から、αの設定値は1.1が適しているように考えられるが、
図22Dが示す通り、α=1.1の場合はRecallが低くなる。具体的には、最良でもRecallは0.9以下となっており、これは10%程度の数の重要変数候補を見逃すことを示している。この状況では、多重共線性によらず重要変数の見落としが起こりうるため、本実施形態の課題や目的には合わない。一方で、
図22Cに注目するとα=2.0では、誤検出の数が検出対象の変数の数を大きく上回り、解釈性が著しく低くなる。以上の結果を踏まえ、変数選択の観点で、検出数が低く抑えられ、かつ重要変数候補の見落としも少ない理由から、本実験の設定条件下で適正なαは1.5であると考えられる。加えて、
図22Aを見ると、ρが0.1の場合を除いてα=1.5とα=2.0の推定誤差の差は大きくない。そのため、係数推定精度の観点からもα=1.5の設定が妥当と考えられる。
次に、ρについて考察する。まず、
図22A~
図22Bに注目すると、ρ=0.1の場合は係数推定精度が低く、処理時間は長い。よって、ρ=0.1は適していないと言える。また、
図22Cに注目すると、α=1.5においては、ρが1.0の場合の変数検出数は0.5の場合の倍以上となっている。つまり、変数選択とモデルの解釈性の観点からはρの設定値は1.0よりも0.5の方が適していると言える。
以上の議論から、提案手法のハイパーパラメータ設定は、(α,ρ)=(1.5,0.5)の近傍が適していると考えられる。
【0120】
(数値検証3)
数値検証3では、前節で取り上げた処理時間の問題、低いPrecisionの2つの課題への対処として、変数スクリーニングを取り上げ、スクリーニングとSEHC-Lassoを統合した一連の解析の性能を検証する。まず、前節で最適なハイパーパラメータ設定とした(α,ρ)=(1.5,0.5)の下で、SEHC-Lassoとスクリーニング付きSEHC-Lasso(以下、ScSEHC-Lassoと呼ぶ)の性能を比較する。次に、(α,ρ)に対するScSEHC-Lassoの挙動を、改めて検証する。
図23~
図24にSEHC-LassoとScSEHC-Lassoの推定結果を示す。なお、
図23は
図17同様の結果を示している。また、
図24で変数検出数と処理時間を比較する。
図23~
図24の比較から、変数スクリーニングを追加したScSEHC-Lassoでは変数選択にかかる指標が改善されている事がわかる。これは、変数スクリーニングによる不正解変数の削減が貢献していると考えられる。
【0121】
また、この結果から、相関クラスタリングとGroup Lassoによる変数スクリーニングは、検出対象である代表変数と相関変数を適切に捉え、不要な変数を削減していることも確認された。
図25は、SEHC-LassoとScSEHC-Lassoの処理時間と変数検出数を示している。これから、ScSEHC-LassoはSEHC-Lassoと比べて処理時間を大幅に削減している。これに加えて、検出数の抑制(42.6%減)によって、モデルの解釈性も向上していることがわかる。
次に、ScSEHC-Lassoの最適なハイパーパラメータ(α,ρ)の設定を考察する。(α,ρ)に対するScSEHC-Lassoの推定結果の特性を、
図26A~
図26Dに示す。数値検証2と同様に、
図26Aは、代表変数と相関変数を合わせたCoef-error、
図26Bは、処理時間、
図26Cは、変数検出数、
図26Dは、代表変数と相関変数を合わせたRecallを示している。SEHC-Lassoと同様に、Coef-error、処理時間、変数検出数の3つの指標ではα=1.1が良い結果を示している一方、Recallが相対的に低くなっている。よって、重要変数候補の検出を重視する場合、αを1.5に設定する方が妥当と考えられる。αを1.5と設定した場合、SEHC-Lassoと同様にρの設定値は0.5を選択するのが妥当と考えられる。ρ=0.5は
図26A~
図26Cのグラフでそれぞれ単調関数(増加/減少)の変曲点となっており、Coef-errorと処理時間では指標の改善が低減する点、変数検出数においては検出数の大幅増加する手前となっている。一方で、多少の見落としを許容する場合はαの設定値を1.1とすることも考えられる。その場合のρは、すべての指標で最も良い結果を示す1.0が最も適している。
【0122】
(数値検証のまとめ)
数値検証1では、提案手法であるSEHC-Lassoが回帰係数推定、及び変数選択においてCHANOLと比べて良い精度を達成することが示された。また、精度で先行技術を上回るだけでなく、回帰係数や相関、数値特性など多様な条件の入り交じるデータセットにおいて、代表変数と相関変数の同水準推定を達成していることも示された。
数値検証2では、ハイパーパラメータである(α,ρ)に対する提案手法の挙動を検証し、最適設定を(α,ρ)=(1.5,0.5)の近傍と結論づけた。他方、数値検証1および数値検証2において処理時間や変数検出数について課題が挙がった。これに対して、Group-Lassoによる変数スクリーニングを追加したScSEHC-Lassoでは処理時間を大幅に削減し、Recallを下げずに変数検出数を抑えることに成功した。
以上より、ScSEHC-Lassoにより本実施形態の課題に対する解決方針である、代表変数と相関変数の同時選択・同水準推定の短時間計算を達成し、実データ検証へ進む価値が示された。
【0123】
本実施形態では、現実的なデータの規模と複雑性に対応可能な、多重共線性を考慮した変数選択手法の開発を目的とし、Lassoによる重要変数の見落としと変数再編の工数削減を目指した。
また、これら2つの課題を同時に達成するための方針としては、重要変数単独ではなく、重要変数と相関関係にある相関変数を含めて選択・同水準に推定することを考えた。
そして、重要変数と相関変数を同時選択・同水準に推定することを目的に、最長距離法による階層型クラスタリングと、準最適Lasso解を列挙する手法であるCHANOLを組み合わせた新たな手法(SEHC-Lasso)を提案した。また、提案手法で指摘された、変数の誤検出や処理時間の課題への対処として、構造化罰則付き線形回帰の一種であるGroup Lassoと相関クラスタリングを合わせた変数スクリーニング手法を考案した。
SEHC-Lassoではまず、CHANOLのStep1同様、解ランダムサンプリングアルゴリズムを用いてLasso緩和解を複数列挙する。次に、各変数に対して、非ゼロな推定値の絶対値平均に対して閾値を設定することで重要変数候補を検出する。そして、検出された変数間の相関の逆数を距離指標としたクラスタリングを実行し、変数の相関グループを推定する。その後、各相関グループ内の中で、各変数について排他な解を選択し、排他な解の集合において計算される平均値を最終的な推定値とする。
変数スクリーニングではまず、SEHC-LassoのStep3で用いている相関クラスタリングにより、変数の相関グループを推定する。そして、変数の相関グループ構造をGroup Lassoのグループ情報として用いることで、目的変数に影響を及ぼす変数群をあらかじめ抽出する。これにより、計算時間の短縮を狙う。
手法の検証には、半導体製造工場でのヒアリングを基に作成したシミュレーションデータを用いた。シミュレーションデータによる検証では、提案手法であるSEHC-Lassoが回帰係数推定、及び変数選択においてCHANOLと比べて良い精度を達成することが示された。
また、精度で先行技術を上回るだけでなく、数値変数とカテゴリ変数、回帰係数や相関、数値特性など多様な条件の入り交じるデータセットにおいて、代表変数と相関変数の同水準推定を達成していることも示された。
また、変数スクリーニングを追加したScSEHC-Lassoでは処理時間を大幅に削減し、Recallを下げずに変数検出数を抑えることに成功した。以上より、SEHC-Lasso 、ScSEHC-Lassoにより本実施形態の課題に対する解決方針である、代表変数と相関変数の同時選択・同水準推定を達成した。
【0124】
(装置構成)
図27は、本実施形態の情報処理システム1の構成の一例を示す図である。情報処理システム1は、情報処理装置10と、出力装置20とを備える。
情報処理装置10は、いわゆるコンピュータ装置であって、プロセッサ110と記憶部120とを備える。記憶部120には、上述した各ステップを実行させるためのプログラムと、外部装置(例えば、半導体製造装置)から取得された各種のデータとが記憶されている。プロセッサ110は、記憶部120に記憶されているプログラムに基づいて、記憶部120に記憶されている各種のデータを処理することにより、上述した各種の演算結果を得る。なお、同図においてキーボード、マウス、タッチパネルなどの入力操作デバイスの図示および説明は省略している。
出力装置20は、例えば、液晶ディスプレイやプリンタなどを備えており、情報処理装置10による処理の結果を出力する。
【0125】
プロセッサ110による処理について具体的に説明する。プロセッサ110は、解列挙ステップと、候補検出ステップと、相関グループ推定ステップと、出力ステップとを実行する。
【0126】
解列挙ステップは、上述したAlgorithm 3のStep1に相当する。解列挙ステップとは、解ランダムサンプリングアルゴリズムを用いて最適解の近似解を複数列挙するステップである。ここで、解ランダムサンプリングアルゴリズムとは、例えば、上述したCHANOLのStep1に相当するアルゴリズムである。
【0127】
最適解の近似解とは、例えば、Lasso緩和解である。また、上述したように、解ランダムサンプリングアルゴリズムに対する入力データセットの説明変数は、p次元であり、目的変数はn個である。
【0128】
なお、上述した数値検証において示したように、説明変数は、量的変数または2値化された変数を含んでいてもよい。また、目的変数は、品質、状態に関する特性値であってもよい。
【0129】
すなわち、プロセッサ110は、解列挙ステップにおいて、CHANOLのStep1に相当するアルゴリズムを実行し、Lasso緩和解を複数列挙する。
【0130】
候補検出ステップは、上述したAlgorithm 3のStep2に相当する。候補検出ステップとは、解列挙ステップにおいて列挙された最適解の近似解(例えば、Lasso緩和解)に対応するそれぞれの説明変数に対して、非ゼロな係数推定値の絶対値平均に対して所定の閾値を設定することで重要な説明変数(例えば、代表変数及び相関変数)の候補を検出するステップである。ここで所定の閾値とは、例えば上述したT1である。
すなわち、プロセッサ110は、候補検出ステップにおいて、式(16)を満たすxi∈R^Nを選択し、所定の閾値T1を設定することにより、代表変数及び相関変数を抽出する。
【0131】
相関グループ推定ステップは、上述したAlgorithm 3のStep3に相当する。相関グループ推定ステップとは、解列挙ステップにおいて列挙された最適解の近似解(例えば、Lasso緩和解)に対応するそれぞれの説明変数間の相関の逆数(式(17))を指標としたクラスタリングを実行し、それぞれの説明変数の相関グループを推定するステップである。
すなわち、プロセッサ110は、相関グループ推定ステップにおいて、式(17)を指標としたクラスタリングを実行する。
【0132】
出力ステップは、上述したAlgorithm 3のStep4に相当する。出力ステップとは、最適解の近似解(例えば、Lasso緩和解)に対応するそれぞれの説明変数について排他的に非ゼロ係数値を持つ最適解の近似解を選択し、非ゼロ係数値を持つ最適解の近似解の集合において計算される係数ベクトルにおける、それぞれの説明変数の平均値(式(19))を最終的な係数推定値として、例えば出力装置20に対して出力するステップである。
すなわち、プロセッサ110は、出力ステップにおいて、式(19)に示される値を最終的な係数推定値として出力する。
【0133】
ここで、プロセッサ110は、上述した
図21に示すような出力形態にして、出力装置20に対して係数推定値を出力する。この結果、出力装置20からは、
図21に示す出力形態で係数推定値が出力される。
上述したように、
図21においてpred_valueは抽出した変数のインデックス(すなわち、検出変数インデックス)、pred_groupは推定されたグループ(すなわち、推定グループ)、pred_coefは回帰係数推定値である。pred_valueは視覚的に把握できるよう正解回帰係数値に応じて枠内の濃さを変化させている。
【0134】
すなわち、情報処理装置10は、重要な説明変数の候補の集合に関する識別子(例えば、検出変数インデックス)、相関グループの推定結果である重要な説明変数の候補の所属クラスタ(例えば、推定グループ)、重要な説明変数の候補以外の説明変数の係数推定値または重要な説明変数の候補の係数推定値のいずれか一つを、出力データセットとして、(例えば、出力装置20に対して)出力する。
【0135】
また、情報処理装置10は、Algorithm 4(変数スクリーニング)において説明したスクリーニング結果(あるいはスクリーニングの過程で得られたスクリーニング条件)を出力装置20に出力してもよい。すなわち、情報処理装置10は、相関クラスタリングにより推定された説明変数の相関グループ、および当該相関グループの構造を用いたGroup Lasso の実行結果から抽出される説明変数群の少なくとも一方を出力してもよい。
【0136】
[変形例1]
なお、プロセッサ110は、次のステップS101~ステップS103を追加的に実行してもよい。
(ステップS101)相関グループからゼロを含む任意の数の説明変数を選択する。
(ステップS102)選択された説明変数から推定モデルを導出する。
(ステップS103)推定モデルと説明変数とを用いて目的変数を推定する。
【0137】
図28は、本実施形態のSEHC-Lassoの出力形態の変形例を示す図である。同図には、上述したステップS101において選択された結果の一例を示す。この一例では、No.={0~8, 10, 26, 29} が選択されたことを示す。なお、選択は、自動選択(すなわち、プロセッサ110がプログラムに基づいて実行して選択すること)でもよいし、不図示の入力操作デバイスによる手動選択であってもよい。
自動選択の場合、プロセッサ110は、係数値や相関を基準として選択する(例えば、係数値が最も大きい変数、目的変数との相関が最も高い変数、それらの複合基準など)。なお、変数を1つも選択しない変数グループがあってもよい。
【0138】
プロセッサ110は、式(27)を用いて、目的変数の推定値Y^(n×1次元)を導出する。
【0139】
【0140】
なお、推定値の導出では、一般に、σ=0とする。すなわち、ノイズ変数εを付帯しない。ここでは、特殊な実用ケースを考慮して、εを付帯させた形態で式(28)を示した。
【0141】
[変形例2]
また、プロセッサ110は、次のステップS201を追加的に実行してもよい。
(ステップS201)目的変数の推定値と、目的変数の理論値又は正解値との残差を計算する。
ここで、残差(残差ベクトルr)は、式(28)によって示される。
【0142】
【0143】
換言すれば、情報処理装置10は、推定モデル又はGroup Lassoの推定モデルと、説明変数データとを用いて目的変数の推定値を出力装置20に出力する。
【0144】
[変形例3]
また、プロセッサ110は、次のステップS301を追加的に実行してもよい。
(ステップS301)推定モデルと、確率分布または乱数に基づき生成された説明変数を入力として、新たな目的変数の推定値を生成する。
【0145】
新たな目的変数の推定値(すなわち、新たなサンプル)の生成の一例について説明する。新たなサンプルは、式(29)により生成される(Yk~、Xk~)の一つ以上の組を含む。
【0146】
【0147】
なお、シグナル-ノイズ(S/N)比を指定する場合は、(S/N)比が、式(30)となるようにσを定める。
【0148】
【0149】
新たに生成されるデータは、全ての選択kについてサンプルを統合した、式(31)に示す(Y~、X~)の対となる。
【0150】
【0151】
なお、式(29)には誤差項εを含んでいる。すなわち、プロセッサ110は、推定モデル(または、Group Lassoの推定モデル)と、所定の確率分布と、乱数によって与えられる説明変数とを用いて目的変数を推定し、目的変数に誤差項εを追加するステップを実行してもよい。
【0152】
以上、本発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることができる。上述した各実施形態に記載の構成を組合せてもよい。
【0153】
なお、上記の実施形態における各装置が備える各部は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびマイクロプロセッサにより実現させるものであってもよい。
【0154】
なお、各装置が備える各部は、メモリおよびCPU(中央演算装置)により構成され、各装置が備える各部の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
【0155】
また、各装置が備える各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、制御部が備える各部による処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0156】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるものであってもよい。
【符号の説明】
【0157】
1…情報処理システム、10…情報処理装置、20…出力装置、110…プロセッサ、120…記憶部