IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝メモリ株式会社の特許一覧

<>
  • 特許-情報処理装置 図1
  • 特許-情報処理装置 図2
  • 特許-情報処理装置 図3
  • 特許-情報処理装置 図4
  • 特許-情報処理装置 図5
  • 特許-情報処理装置 図6
  • 特許-情報処理装置 図7
  • 特許-情報処理装置 図8
  • 特許-情報処理装置 図9
  • 特許-情報処理装置 図10
  • 特許-情報処理装置 図11A
  • 特許-情報処理装置 図11B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-07
(45)【発行日】2024-06-17
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
   G06F 18/2113 20230101AFI20240610BHJP
   G06F 17/18 20060101ALI20240610BHJP
【FI】
G06F18/2113
G06F17/18 Z
【請求項の数】 16
(21)【出願番号】P 2020150056
(22)【出願日】2020-09-07
(65)【公開番号】P2022044436
(43)【公開日】2022-03-17
【審査請求日】2023-03-15
(73)【特許権者】
【識別番号】318010018
【氏名又は名称】キオクシア株式会社
(74)【代理人】
【識別番号】100091487
【弁理士】
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100105153
【弁理士】
【氏名又は名称】朝倉 悟
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100118843
【弁理士】
【氏名又は名称】赤岡 明
(74)【代理人】
【識別番号】100103263
【弁理士】
【氏名又は名称】川崎 康
(72)【発明者】
【氏名】真鍋 晋一郎
【審査官】多賀 実
(56)【参考文献】
【文献】特開2018-151883(JP,A)
【文献】Jianqing Fan et al.,"Sure Independence Screening for Ultra-High Dimentional Feature Space",arXiv.org [online],arXiv:math/0612857v2,米国,Cornell University,2008年,pp.1-43,[検索日 2024.4.24], インターネット:<URL: https://arxiv.org/abs/math/0612857v2>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 17/10-17/18
G06F 18/00-18/40
(57)【特許請求の範囲】
【請求項1】
複数の説明変数を含む解析対象データを入力する入力部と、
前記複数の説明変数のうち一部を目的変数として、前記解析対象データに含まれる前記説明変数の数を削減した中間データを生成するスクリーニング処理部と、
前記目的変数に基づいて前記中間データから第1特徴量を抽出する第1特徴量抽出部と、
前記中間データに含まれる前記説明変数と前記第1特徴量との類似度に基づいて、前記中間データから類似特徴量を抽出する類似特徴量抽出部と、を備える、情報処理装置。
【請求項2】
前記スクリーニング処理部は、前記第1特徴量を失わないように前記解析対象データから一部の前記説明変数を削除した前記中間データを生成する、請求項1に記載の情報処理装置。
【請求項3】
前記目的変数と前記中間データとを回帰分析することにより前記第1特徴量を算出する回帰モデルを構築する回帰モデル構築部を備え、
前記第1特徴量抽出部は、前記回帰モデルに基づいて前記中間データから前記第1特徴量を抽出する、請求項1又は2に記載の情報処理装置。
【請求項4】
前記中間データのサイズを指定する第1指定部を備える、請求項1乃至3のいずれか一項に記載の情報処理装置。
【請求項5】
前記解析対象データから特性データを抽出する特性分析部を備え、
前記スクリーニング処理部は、前記解析対象データと前記特性データとに基づいて、前記特性データに応じたデータサイズの前記中間データを生成する、請求項1乃至4のいずれか一項に記載の情報処理装置。
【請求項6】
前記特性分析部は、
前記解析対象データに含まれる説明変数の分布を検出する説明変数分布検出部と、
前記説明変数分布検出部で検出された説明変数の分布を評価する分布評価部と、
前記分布評価部の評価結果に基づいて、前記特性データを抽出する相関算出部と、を有する、請求項5に記載の情報処理装置。
【請求項7】
前記特性分析部が抽出する前記特性データを指定する第2指定部を備える、請求項5又は6に記載の情報処理装置。
【請求項8】
前記スクリーニング処理部は、前記解析対象データから前記中間データを生成する処理を複数回にわたって繰り返し、
前記第1特徴量抽出部は、前記スクリーニング処理部が前記複数回の中間データの生成を終えた後に、前記複数回の中間データに対応づけて複数の前記第1特徴量を抽出し、
前記類似特徴量抽出部は、前記複数の第1特徴量のそれぞれに対応する前記中間データから前記類似特徴量を抽出する、請求項1乃至7のいずれか一項に記載の情報処理装置。
【請求項9】
前記スクリーニング処理部が新たな前記中間データを生成するたびに、新たな前記目的変数を生成する目的変数更新部と、
前記スクリーニング処理部が新たな前記中間データを生成するたびに、新たな前記説明変数を生成する説明変数更新部と、
前記新たな目的変数及び前記新たな説明変数を含むように、前記解析対象データを更新する解析対象更新部と、を備え、
前記スクリーニング処理部は、前記更新された解析対象データから新たな前記中間データを生成する、請求項8に記載の情報処理装置。
【請求項10】
前記スクリーニング処理部が新たな前記中間データを生成するたびに、前記新たな中間データに基づいて第2特徴量を抽出する第2特徴量抽出部と
前記第2特徴量に基づいて、前記目的変数を予測する予測部を備え、
前記目的変数更新部は、元の前記目的変数と前記予測された目的変数との差分により、前記新たな目的変数を生成する、請求項9に記載の情報処理装置。
【請求項11】
前記第2特徴量抽出部で前記第2特徴量を抽出した回数が所定回数に達したか否かを判定する回数判定部と、
前記所定回数に達していないと判定されたときに、前記新たな目的変数と、前記新たな解析対象データとの相関度を計算する相関計算部と、
前記相関度が所定の閾値以上か否かを判定する相関度判定部と、を備え、
前記スクリーニング処理部は、前記相関度が所定の閾値以上であれば、前記中間データの生成を終了し、前記相関度が前記閾値未満であれば、前記中間データの生成を中止する、請求項10に記載の情報処理装置。
【請求項12】
前記説明変数更新部は、元の前記説明変数と前記中間データに含まれる前記説明変数との差分により、前記新たな説明変数を生成する、請求項9乃至11のいずれか一項に記載の情報処理装置。
【請求項13】
前記スクリーニング処理部が前記中間データを生成する回数を指定する第3指定部を備える、請求項8乃至12のいずれか一項に記載の情報処理装置。
【請求項14】
前記スクリーニング処理部が前記中間データを生成するたびに、選択するべき前記説明変数を指定する第4指定部を備える、請求項8乃至13のいずれか一項に記載の情報処理装置。
【請求項15】
前記スクリーニング処理部が前記中間データを生成するたびに、前記中間データに含まれる前記説明変数の下限値を指定する第5指定部を備える、請求項8乃至14のいずれか一項に記載の情報処理装置。
【請求項16】
前記類似特徴量抽出部は、前記中間データの一部に含まれる前記説明変数と前記第1特徴量との類似度に基づいて、前記中間データの一部から前記類似特徴量を抽出する、請求項1乃至15のいずれか一項に記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、情報処理装置に関する。
【背景技術】
【0002】
大量のデータ(ビッグデータ)から特徴量を抽出する一手法として、罰則項付きの回帰モデルが提案されている。この回帰モデルでは、説明変数として選択された特徴量に類似する特徴量を抽出できないという問題がある。このため、ビッグデータに含まれる重要な要因を見落としやすいという問題がある。
【0003】
また、ビッグデータから特徴量や類似特徴量を抽出する作業は、ビッグデータのデータサイズに依存し、データサイズが大きいほど抽出作業に時間がかかってしまう。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2018-151883号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
そこで、本発明の一実施形態では、特徴量に類似する特徴量を効率よく抽出できる情報処理装置を提供するものである。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一実施形態によれば、複数の説明変数を含む解析対象データを入力する入力部と、
前記複数の説明変数のうち一部を目的変数として、前記解析対象データに含まれる前記説明変数の数を削減した中間データを生成するスクリーニング処理部と、
前記目的変数に基づいて前記中間データから特徴量を抽出する特徴量抽出部と、
前記中間データに含まれる前記説明変数と前記特徴量との類似度に基づいて、前記中間データから類似特徴量を抽出する類似特徴量抽出部と、を備える、情報処理装置が提供される。
【図面の簡単な説明】
【0007】
図1】本発明の第1の実施形態による情報処理装置の概略構成を示すブロック図。
図2】特徴量と類似特徴量を模式的に示す図。
図3】第1の実施形態による情報処理装置の処理動作を模式的に示す図。
図4】第2の実施形態による情報処理装置の概略構成を示すブロック図。
図5】第2の実施形態による情報処理装置の処理動作を模式的に示す図。
図6】第2の実施形態によるスクリーニング処理部と特徴量抽出部の処理動作を示す図。
図7】第2の実施形態による情報処理装置の処理動作を示すフローチャート。
図8図7のステップS2とS10で特性分析部が行う処理手順の詳細フローチャート。
図9図7のステップS16で判定処理部が行う処理手順の詳細フローチャート。
図10】第2の実施形態による情報処理装置にて半導体プロセスに関するビッグデータから類似特徴量を抽出した結果を示す図。
図11A】本実施形態によるスクリーニング手法(IDSIS)のモデル精度を表す図。
図11B】スクリーニングを一回だけ行うISISのモデル精度を表す図。
【発明を実施するための形態】
【0008】
以下、図面を参照して、情報処理装置の実施形態について説明する。以下では、情報処理装置の主要な構成部分を中心に説明するが、情報処理装置には、図示又は説明されていない構成部分や機能が存在しうる。以下の説明は、図示又は説明されていない構成部分や機能を除外するものではない。
【0009】
(第1の実施形態)
図1は本発明の第1の実施形態による情報処理装置1の概略構成を示すブロック図である。図1の情報処理装置1は、入力部2と、スクリーニング処理部3と、特徴量抽出部4と、類似特徴量抽出部5とを備えている。
【0010】
入力部2は、複数の説明変数を含む解析対象データを入力する。解析対象データの具体的な内容は問わないが、例えば数万次元を超える大量のデータ(ビッグデータ)である。解析対象データ中の個々のデータは説明変数とも呼ばれる。また、複数の説明変数のうち一部は目的変数と呼ばれる。本実施形態は、複数の説明変数から目的変数に影響を与えている説明変数を選び出す処理を行うことを念頭に置いている。具体的な一例として、解析対象データは、半導体工場の製造プロセスで生成されるデータであってもよいし、それ以外のデータであってもよい。
【0011】
スクリーニング処理部3は、複数の説明変数のうち一部を目的変数として、解析対象データに含まれる説明変数の数を削減した中間データを生成する。より具体的には、スクリーニング処理部3は、特徴量を失わないように解析対象データから一部の説明変数を削除した中間データを生成する。よって、中間データは、解析対象データよりもデータ数が少ないにもかかわらず、解析対象データと同程度の特徴量を含んでいる。例えば、スクリーニング処理部3は、解析対象データが数万次元超のデータであったときに、数千次元に絞り込んだ中間データを生成する。なお、スクリーニング処理部3が、解析対象データをどの程度削減して中間データを生成するかは任意である。
【0012】
特徴量抽出部4は、目的変数に基づいて中間データから特徴量を抽出する。特徴量とは、解析対象データに含まれる目的変数に影響を与えている説明変数である。すなわち、特徴量とは、目的変数との相関度が高い説明変数である。なお、後述するように、本明細書では、特徴量抽出部4が抽出する特徴量を第1特徴量と呼び、特徴量抽出部4を第1特徴量抽出部と呼ぶ場合がある。相関度は、後述するように相関値により表され、相関値が大きいほど相関度が高くなる。
【0013】
類似特徴量抽出部5は、中間データに含まれる説明変数と特徴量との類似度に基づいて、中間データから類似特徴量を抽出する。
【0014】
図2は特徴量と類似特徴量を模式的に示す図である。図2の中央に目的変数Yが位置し、目的変数Yの周囲50には、目的変数Yに影響を与えている特徴量である説明変数X1、X2等が配置されている。また、個々の説明変数の周囲には、各説明変数に影響を与えている類似特徴量である説明変数が配置されている。図2の黒丸が特徴量である説明変数を示し、白ヌキやグレーの丸が類似特徴量である説明変数である。図2の特徴量である説明変数X1、X2の周囲51、52には、説明変数X1、X2に影響を与えている類似特徴量である説明変数が存在する。図2に示すように、類似特徴量である説明変数は、特徴量である説明変数だけでなく、目的変数Yにも影響を与えていると言える。そこで、図1の類似特徴量抽出部5は、中間データから類似特徴量を抽出する。
【0015】
図1の情報処理装置1は、回帰モデル構築部6を備えていてもよい。回帰モデル構築部6は、目的変数と中間データとを回帰分析することにより特徴量を算出する回帰モデルを構築する。この場合、特徴量抽出部4は、回帰モデルに基づいて中間データから特徴量を抽出する。例えば、解析対象データが半導体工場の製造プロセスで生成されるデータであった場合、特徴量抽出部4と類似特徴量抽出部5は、製造プロセスのある特性値の変動要因になる特徴量及び類似特徴量を抽出する。抽出された特徴量及び類似特徴量を用いることで、半導体の品質に影響を及ぼす要因を特定することができる。
【0016】
図1の情報処理装置1は、第1指定部7を備えていてもよい。第1指定部7は、中間データのサイズを指定する。スクリーニング処理部3は、第1指定部7で指定されたデータサイズに従って、中間データを生成する。このように、第1指定部7にて中間データのサイズを指定することで、ユーザの意向に応じて中間データのデータサイズを任意に調整できる。
【0017】
図1の情報処理装置1は、特性分析部8を備えていてもよい。特性分析部8は、解析対象データから特性データを抽出する。特性データは、解析対象データに含まれる説明変数と目的変数との相関度を示すデータである。特性データは、スクリーニング処理部3が生成する中間データ内の説明変数の数を調整するために用いられる。すなわち、スクリーニング処理部3は、解析対象データと特性データとに基づいて、特性データに応じたデータサイズの中間データを生成する。
【0018】
上述した特性分析部8は、分布検出部9と、分布評価部10と、相関算出部11とを有していてもよい。
【0019】
分布検出部9は、解析対象データに含まれる説明変数の分布を検出する。分布評価部10は、分布検出部9で検出された説明変数の分布を評価する。相関算出部11は、分布評価部10の評価結果に基づいて、特性データを抽出する。
【0020】
図1の情報処理装置1は、第2指定部12を備えていてもよい。第2指定部12は、特性分析部8が抽出する特性データを指定する。
【0021】
図3は第1の実施形態による情報処理装置1の処理動作を模式的に示す図である。図3の情報処理装置1は、例えば数万次元超の解析対象データをスクリーニング処理部3に入力する。スクリーニング処理部3は、数万次元超の解析対象データ数から、例えば数千次元の中間データを生成する。スクリーニング処理部3は、第1指定部7の指定に従って、特徴量を維持したまま、解析対象データから中間データを生成する。
【0022】
回帰モデル構築部6は、スパースモデリング技術を利用して、中間データに含まれる特徴量を抽出する。また、類似特徴量抽出部5は、中間データに含まれる説明変数と特徴量との類似度に基づいて、中間データから類似特徴量を抽出する。中間データから類似特徴量を抽出する際の計算手法は特に問わない。
【0023】
回帰モデル構築部6が構築する回帰モデルの数式は、例えば式(1)で表される。
y=Xβ(=β0+β1X1+…+βpXp) …(1)
【0024】
特徴量抽出部4が抽出する特徴量は、例えば、以下の式(2)に示すLassoの数式を用いて求められる。すなわち、説明変数Xのうち、式(2)に示す平均二乗誤差(右辺第1項)にL1罰則項(右辺第2項)を加えた目的関数を最小化する説明変数Xが特徴量である。
【数1】
【0025】
なお、式(1)は回帰モデルの一例であり、式(2)は特徴量を求める数式の一例である。式(1)と式(2)以外の数式を用いて、特徴量を抽出してもよい。
【0026】
このように、第1の実施形態では、解析対象データをスクリーニングしてデータサイズを大幅に削減した中間データに基づいて特徴量を抽出し、中間データに含まれる説明変数と特徴量との類似度に基づいて類似特徴量を抽出する。中間データは、解析対象データの特徴量を維持しつつ、解析対象データよりも大幅にデータサイズを小さくしたデータであるため、類似特徴量を迅速に抽出できる。特に、中間データは、解析対象データの特徴量を維持していることから、漏れなく精度よく類似特徴量を抽出できる。類似特徴量を抽出することで、解析対象データに含まれる重要な要因を見落とすことなく抽出できる。
【0027】
(第2の実施形態)
第2の実施形態による情報処理装置1aは、スクリーニング処理部3の処理動作が第1の実施形態とは異なっている。
【0028】
図4は第2の実施形態による情報処理装置1aの概略構成を示すブロック図である。図4の情報処理装置1aは、図1の情報処理装置1のブロック構成に加えて、いくつかのブロックが追加されているが、これらは必ずしも必須ではない。また、図4では、図1の特徴量抽出部4に対応するものを第1特徴量抽出部4aとしており、さらに、第1特徴量抽出部4aとは別個に第2特徴量抽出部4bを備えている。
【0029】
第1特徴量抽出部4aは、スクリーニング処理部3が複数回の中間データの生成を終えた後に、複数回の中間データに対応づけて複数の特徴量を抽出する。類似特徴量抽出部5は、複数の第1特徴量のそれぞれに対応する中間データから類似特徴量を抽出する。第2特徴量抽出部4bは、スクリーニング処理部3が新たな中間データを生成するたびに、新たな中間データに基づいて第2特徴量を抽出する。第1特徴量は、解析対象データから最終的に抽出される特徴量であるのに対し、第2特徴量は、スクリーニング処理の過程で抽出される中間的な特徴量である。
【0030】
図5は第2の実施形態による情報処理装置1aの処理動作を模式的に示す図である。図5の情報処理装置1a内のスクリーニング処理部3は、解析対象データから中間データを生成する処理を複数回にわたって繰り返す。このように、細切れに中間データを生成するため、個々の中間データを迅速に生成できる。
【0031】
第2特徴量抽出部4bは、スクリーニング処理部3が中間データを生成するたびに、第2特徴量を抽出する。より詳細には、第2特徴量抽出部4bは、回帰モデル構築部6がスパースモデリング技術を利用して構築した回帰モデルに基づいて、中間データに含まれる第2特徴量を抽出する。
【0032】
図4の情報処理装置1aは、目的変数更新部13と、説明変数更新部14と、解析対象更新部15とを備えていてもよい。
【0033】
目的変数更新部13は、第2特徴量抽出部4bが第2特徴量を抽出するたびに、新たな目的変数を生成する。説明変数更新部14は、第2特徴量抽出部4bが第2特徴量を抽出するたびに、新たな説明変数を生成する。解析対象更新部15は、新たな目的変数及び新たな説明変数を含むように、解析対象データを更新する。スクリーニング処理部3は、更新された解析対象データから新たな中間データを生成する。
【0034】
図4の情報処理装置1aは、予測部16を備えていてもよい。予測部16は、第2特徴量抽出部4bで抽出された第2特徴量に基づいて目的変数を予測する。目的変数更新部13は、元の目的変数と予測された目的変数との差分により、新たな目的変数を生成する。説明変数更新部14は、元の説明変数と中間データに含まれる説明変数との差分により、新たな説明変数を生成する。
【0035】
図4の情報処理装置1aは、回数判定部17と、相関計算部18と、相関度判定部19とを備えていてもよい。本明細書では、回数判定部17と、相関計算部18と、相関度判定部19とを合わせて判定処理部と呼ぶ。
【0036】
回数判定部17は、第2特徴量抽出部4bで第2特徴量を抽出した回数が所定回数に達したか否かを判定する。相関計算部18は、所定回数に達していないと判定されたときに、新たな目的変数と、新たな解析対象データとの相関値を計算する。相関度判定部19は、相関値が所定の閾値以上か否かを判定する。スクリーニング処理部3は、相関値が所定の閾値以上であれば、中間データの生成を終了し、相関値が閾値未満であれば、中間データの生成を中止する。
【0037】
図4の情報処理装置1aは、第3指定部20を備えていてもよい。第3指定部20は、スクリーニング処理部3が中間データを生成する回数を指定する。
【0038】
図4の情報処理装置1aは、第4指定部21を備えていてもよい。第4指定部21は、スクリーニング処理部3が中間データの生成を行うたびに、選択するべき説明変数を指定する。
【0039】
図4の情報処理装置1aは、第5指定部22を備えていてもよい。第5指定部22は、スクリーニング処理部3が中間データを生成するたびに、中間データに含まれる説明変数の下限値を指定する。
【0040】
図6は第2の実施形態による情報処理装置1a内のスクリーニング処理部3と第2特徴量抽出部4bの処理動作を示す図である。図6の破線部分は、特性分析部8、スクリーニング処理部3、及び第2特徴量抽出部4bの処理単位を示している。特性分析部8、スクリーニング処理部3、及び第2特徴量抽出部4bは、破線部分の処理を複数回にわたって実行する。
【0041】
図6において、djは目的変数、Xjは説明変数、X’jは中間データ、X”jは第2特徴量である。特性分析部8は、解析対象データに含まれる目的変数djと説明変数Xjに基づいて第2特徴量の分布を評価して、特性データを抽出する。特性データは、説明変数の分布を評価するデータであり、中間データのデータサイズを設定するのに用いられる。
【0042】
スクリーニング処理部3は、特性データに応じたデータサイズの中間データX’jを生成する。第2特徴量抽出部4bは、中間データX’jから第2特徴量X”jを抽出する。
【0043】
図6の破線部分の処理は、IDSIS(Iterative Sure Independence Screening)とも呼ばれる。図6の破線部分の処理を継続するか中止するかは、回数判定部17、相関計算部18、及び相関度判定部19からなる判定処理部が判定する。
【0044】
スクリーニング処理部3によるスクリーニング処理が終わった後、第1特徴量抽出部4aは、スクリーニング処理部3で生成された全ての中間データを用いて第1特徴量を抽出する。その際、第1特徴量抽出部4aは、抽出された第1特徴量が、スクリーニング処理部3が何回目に生成した中間データから抽出されたかを調べる。類似特徴量抽出部5は、すべての中間データを用いるのではなく、個々の第1特徴量を抽出した中間データの中から類似特徴量を抽出する。
【0045】
具体的な一例として、スクリーニング処理部3が中間データを生成する処理を3回繰り返したとする。スクリーニング処理部3が各回で生成した中間データをdata1、data2、data3とすると、スクリーニング処理部3が最終的に出力する中間データdataは、data=data1+data2+data3となる。
【0046】
第1特徴量抽出部4aは中間データdataから第1特徴量を抽出する。このとき、例えば、4つの第1特徴量F1、F2、F3、F4が抽出されたとする。第1特徴量抽出部4aは、例えば、第1特徴量F1は中間データdata1から抽出され、第1特徴量F2、F3は中間データdata2から抽出され、第1特徴量F4は中間データdata3から抽出されたことを調べる。
【0047】
この場合、類似特徴量抽出部5は、第1特徴量F1の類似特徴量を中間データdata1から抽出し、第1特徴量F2、F3の類似特徴量を中間データdata2から抽出し、第1特徴量F4の類似特徴量を中間データdata3から抽出する。
【0048】
このように、類似特徴量抽出部5が類似特徴量を抽出する範囲を制限することで、類似特徴量を抽出する処理速度を向上できる。
【0049】
図7は第2の実施形態による情報処理装置1aの処理動作を示すフローチャートである。まず、説明変数Xと目的変数Yを含む解析対象データを読み込む(ステップS1)。
【0050】
次に、特性分析部8は、解析対象データから特性データを抽出する(ステップS2)。特性分析部8の詳細な処理手順は後述する。
【0051】
次に、スクリーニング処理部3は、解析対象データと特性データに基づいて、スクリーニング処理を行い、特性データに応じたデータサイズの中間データX’0を生成する(ステップS3)。ステップS3における解析対象データは、ステップS1で入力された解析対象データであり、X0=X、d0=Yである。
【0052】
次に、第2特徴量抽出部4bは、中間データX’0から第2特徴量X”0を抽出する(ステップS4)。第2特徴量抽出部4bは、例えば上述した式(2)のLassoの数式にて第2特徴量を抽出する。
【0053】
次に、抽出された第2特徴量X”0の線形予測値Y0^を計算する(ステップS5)。線形予測値Y0^は、第2特徴量X”0に係数β0を乗じた値である。
【0054】
次に、目的変数d1=d0-Y0^を計算する(ステップS6)。次に、説明変数X1=X-X’0とする(ステップS7)。目的変数d1と説明変数X1により、解析対象データが更新される。
【0055】
次に、スクリーニング回数を計数する変数j=1に設定する(ステップS8)。
【0056】
変数jが所定回数値D_Iteration以内かを判定する(ステップS9)。変数jが所定回数値D_Iterationを超えた場合は、処理を終了する。ステップS9の処理は、図4の回数判定部17が行う。
【0057】
変数jが所定回数値D_Iteration以内の場合、特性分析部8は、更新後の解析対象データから特性データXj、djを抽出する(ステップS10)。
【0058】
次に、スクリーニング処理部3は、解析対象データと特性データに基づいて、スクリーニング処理を行い、特性データに応じたデータサイズの中間データX’jを生成する(ステップS11)。
【0059】
次に、第2特徴量抽出部4bは、中間データX’jから第2特徴量X”jを抽出する(ステップS12)。次に、抽出された第2特徴量X”jの線形予測値Yj^を計算する(ステップS13)。線形予測値Yj^は、第2特徴量X”jに係数βjを乗じた値である。
【0060】
次に、目的変数dj+1=dj-Yj^を計算する(ステップS14)。次に、説明変数Xj+1=X-X’jとする(ステップS15)。
【0061】
次に、判定処理部の処理が行われる(ステップS16)。判定処理部は、後述するように、ステップS9~S15の処理を繰り返すか否かを判定する。
【0062】
図8図7のステップS2とS10で特性分析部8が行う処理手順の詳細フローチャートである。
【0063】
まず、説明変数Xと目的変数Yを含む解析対象データを入力する(ステップS21)。次に、例えば上述した式(2)に示すLassoの数式を用いて、第3特徴量を抽出する(ステップS22)。この処理での第3特徴量の抽出とは、解析対象データの分布特性を検出することを意味する。ステップS22の処理は図4の分布検出部9が行う。
【0064】
次に、第3特徴量の分布評価を行う(ステップS23)。ここでは、例えば、説明変数Xに対する第3特徴量の割合や、各第3特徴量に対する回帰係数の値を算出し、説明変数Xから最終的な第3特徴量を抽出するために、どの程度のスクリーニングが可能かなどの特性値を求める。ステップS23の処理は図4の分布評価部10が行う。
【0065】
次に、説明変数と目的変数の相関などを算出して、特性データを抽出する(ステップS24)。第3特徴量の分布評価結果から、例えば回帰係数の分布に強い偏りがあれば、スクリーニング後のデータは少なくてよいと判断できる。ステップS24の処理は図4の相関算出部11が行う。
【0066】
図9図7のステップS16で判定処理部が行う処理手順の詳細フローチャートである。まず、説明変数Xと目的変数Yを含む解析対象データを入力する(ステップS31)。次に、説明変数Xと目的変数Yとの相関値を算出する(ステップS32)。ステップS32の処理は図4の相関計算部18が行う。
【0067】
次に、相関値が所定の閾値以下か否かを判定する(ステップS33)。相関値が閾値以下であれば、図7のステップS9~S17の処理をまだ繰り返すべきと判定する(ステップS34)。一方、相関値が閾値より大きければ、図7の処理を終了させる。ステップS33の処理は、図4の相関度判定部19が行う。
【0068】
図10は第2の実施形態による情報処理装置にて半導体プロセスに関するビッグデータから類似特徴量を抽出した結果を示す図である。図10の横軸は全データと中間データとの比率、縦軸は類似特徴量のカバー率である。類似特徴量のカバー率とは、解析対象データから抽出された類似特徴量に対する、中間データから抽出された類似特徴量の割合である。図示のように、中間データのデータサイズが解析対象データの1/25であっても、90%以上のカバー率が得られており、本実施形態の有効性が確かめられた。
【0069】
図11Aは本実施形態によるスクリーニング手法(IDSIS)のモデル精度を表す図、図11Bはスクリーニングを一回だけ行うISISのモデル精度を表す図である。図11A図11Bは、予測値predがtrueになるプロットを表している。図11A図11Bを比較すればわかるように、モデル予測値もRMSE(Root Mean Square Error)も変化はなく、図11Aのスクリーニング手法ではモデル精度が維持されている。
【0070】
このように、第2の実施形態では、スクリーニング処理を複数回繰り返し、各回のスクリーニング処理ごとに中間データを生成し、中間データごとに第2特徴量を生成し、生成された第2特徴量に基づいて解析対象データを更新して、次回の中間データを生成する。これにより、解析対象データを細切れに分けて、細切れに中間データを生成でき、個々の中間データを迅速に生成できる。また、第1特徴量抽出部4aは、スクリーニング処理部3が複数回のスクリーニング処理で生成した全ての中間データに基づいて第1特徴量を抽出し、抽出された個々の第1特徴量が、スクリーニング処理部3のどの回の中間データから抽出されたかを調べる。そして、類似特徴量抽出部5は、個々の第1特徴量を抽出した中間データから類似特徴量を抽出する。これにより、類似特徴量を抽出する範囲を狭めることができ、高速に類似特徴量を抽出できる。
【0071】
上述した実施形態で説明した情報処理装置1、1aの少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置1の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
【0072】
また、情報処理装置1、1aの少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
【0073】
本開示の態様は、上述した個々の実施形態に限定されるものではなく、当業者が想到しうる種々の変形も含むものであり、本開示の効果も上述した内容に限定されない。すなわち、特許請求の範囲に規定された内容およびその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。
【符号の説明】
【0074】
1、1a 情報処理装置、2 入力部、3 スクリーニング処理部、4 特徴量抽出部、5 類似特徴量抽出部、6 回帰モデル構築部、7 第1指定部、8 特性分析部、9 分布検出部、10 分布評価部、11 相関算出部、12 第2指定部、13 目的変数更新部、14 説明変数更新部、15 解析対象更新部、16 予測部、17 回数判定部、18 相関計算部、19 相関度判定部、20 第3指定部、21 第4指定部、22 第5指定部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B