IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 横浜ゴム株式会社の特許一覧

特開2023-91830ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム
<>
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図1
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図2
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図3
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図4
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図5
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図6
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図7
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図8
  • 特開-ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023091830
(43)【公開日】2023-07-03
(54)【発明の名称】ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230626BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021206640
(22)【出願日】2021-12-21
(71)【出願人】
【識別番号】000006714
【氏名又は名称】横浜ゴム株式会社
(74)【代理人】
【識別番号】110001368
【氏名又は名称】清流国際弁理士法人
(74)【代理人】
【識別番号】100129252
【弁理士】
【氏名又は名称】昼間 孝良
(74)【代理人】
【識別番号】100155033
【弁理士】
【氏名又は名称】境澤 正夫
(72)【発明者】
【氏名】鈴木 聖人
(72)【発明者】
【氏名】和田 智之
(57)【要約】
【課題】ゴム組成物に関するデータセットにおいて欠損しているデータを、精度よく簡便に補完できるゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラムを提供する。
【解決手段】補完対象となる補完対象特徴21の内で特徴量データの欠損数が少ない特徴の順にデータ補完工程(S130)を行い、データ補完工程では、そのデータ補完工程で対象となる補完対象特徴21の特徴量データの変化に対する候補特徴23の予め把握している影響度に基づいて、候補特徴23の中から影響度が基準よりも高い因子特徴22を選択し、因子特徴22の特徴量データと補完対象特徴21の特徴量データとを用いた機械学習より生成した推定モデルを使用して、補完対象記特徴23での欠損している特徴量データの推定値を算出し、この推定値によって欠損している特徴量データを補完し、順に行う次のデータ補完工程で使用するデータセット20を更新する。
【選択図】図3
【特許請求の範囲】
【請求項1】
ゴム組成物に関する特徴を示す特徴量データを多数種類の特徴について備える一群データが、多数のゴム組成物について集積されているデータセットに対して、複数種類の前記特徴での欠損している前記特徴量データを補完するデータ補完方法であって、
補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順にデータ補完工程を行い、
それぞれの前記特徴に対する前記データ補完工程では、前記データセットの多数種類の前記特徴の中からそのデータ補完工程で補完対象となる前記特徴を除いた残りの特徴を候補特徴とし、そのデータ補完工程で補完対象となる前記特徴の前記特徴量データの変化に対するそれぞれの前記候補特徴の予め把握している影響度に基づいて、それぞれの前記候補特徴の中から前記影響度が基準よりも高い複数種類の所定の前記特徴を因子特徴として選択し、
選択した複数種類の前記因子特徴の前記特徴量データと、そのデータ補完工程で補完対象となる前記特徴の前記特徴量データとを用いた機械学習より生成した推定モデルを使用して、そのデータ補完工程で補完対象となる前記特徴での欠損している前記特徴量データの推定値を算出し、この推定値によって欠損している前記特徴量データを補完し、
そのデータ補完工程で前記特徴量データを補完することで、順に行う次の前記データ補完工程で使用する前記データセットを更新するゴム組成物に関するデータセットに対するデータ補完方法。
【請求項2】
それぞれの前記因子特徴を選択する際には、それぞれの前記データ補完工程で補完対象となる前記特徴での欠損している前記特徴量データの数がより少ない前記候補特徴を優先する請求項1に記載のゴム組成物に関するデータセットに対するデータ補完方法。
【請求項3】
前記影響度の高低を示す指標として、前記推定モデルの精度を評価する指標を用いて、演算装置により前記候補特徴をデータ処理することにより、前記影響度を予め把握する請求項1または2に記載のゴム組成物に関するデータセットに対するデータ補完方法。
【請求項4】
ゴム組成物に関する特徴を示す特徴量データを多数種類の特徴について備える一群データが、多数のゴム組成物について集積されているデータセットと、そのデータセットに対して、複数種類の前記特徴での欠損している前記特徴量データを補完する演算装置と、を有するデータ補完システムであって、
前記演算装置は、補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順にデータ補完処理を実行し、
それぞれの前記特徴に対して実行する前記データ補完処理では、前記データセットの多数種類の前記特徴の中からそのデータ補完処理で補完対象となる前記特徴を除いた残りの特徴を候補特徴とし、そのデータ補完処理で補完対象となる前記特徴の前記特徴量データの変化に対するそれぞれの前記候補特徴の予め把握している影響度に基づいて、それぞれの前記候補特徴の中から前記影響度が基準よりも高い複数種類の所定の前記特徴が因子特徴として選択され、
選択された複数種類の前記因子特徴の前記特徴量データと、そのデータ補完処理で補完対象となる前記特徴の前記特徴量データとを用いた機械学習により推定モデルを生成するデータ処理と、生成した推定モデルを使用して、そのデータ補完処理で補完対象となる前記特徴での欠損している前記特徴量データの推定値を算出するデータ処理と、この推定値によって欠損している前記特徴量データを補完するデータ処理と、を実行し、
そのデータ補完処理で前記特徴量データを補完するデータ処理を実行することで、順に行う次の前記データ補完処理で使用する前記データセットが更新されるゴム組成物に関するデータセットに対するデータ補完システム。
【請求項5】
演算装置に、ゴム組成物に関する特徴を示す特徴量データを多数種類の特徴について備える一群データが、多数のゴム組成物について集積されているデータセットに対して、複数種類の前記特徴での欠損している前記特徴量データを補完させるデータ補完プログラムであって、
前記演算装置に、補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順にデータ補完手順を実行させ、
それぞれの前記特徴に対して実行させる前記データ補完手順では、前記データセットの多数種類の前記特徴の中からそのデータ補完手順で補完対象となる前記特徴を除いた残りの特徴を候補特徴とし、そのデータ補完手順で補完対象となる前記特徴の前記特徴量データの変化に対するそれぞれの前記候補特徴の予め把握している影響度に基づいて、それぞれの前記候補特徴の中から前記影響度が基準よりも高い複数種類の所定の前記特徴が因子特徴として選択し、
選択し複数種類の前記因子特徴の前記特徴量データと、そのデータ補完処理で補完対象となる前記特徴の前記特徴量データとを用いた機械学習により推定モデルを生成させる手順と、生成させた推定モデルを使用して、そのデータ補完手順で補完対象となる前記特徴での欠損している前記特徴量データの推定値を算出させる手順と、この推定値によって欠損している前記特徴量データを補完させる手順と、を実行させ、
そのデータ補完手順で前記特徴量データを補完させる手順を実行させることで、順に行う次の前記データ補完手順で使用される前記データセットが更新されるゴム組成物に関するデータセットに対するデータ補完プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラムに関し、より詳しくは、データセットのデータを用いた機械学習によって生成された推定モデルを使用して、データセットにおいて欠損しているデータを補完するゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラムに関する。
【背景技術】
【0002】
コンピュータシミュレーションなどを行う際に使用するデータの一部に欠損が存在している場合は、欠損しているデータが補完される。例えば、欠損しているデータを、既存データの中央値や平均値で補完するのは非常に簡便であるが、欠損しているデータ(真のデータ)に対して誤差が大きくなることがある。このように誤差が大きい補完データを用いてコンピュータシミュレーションを行うとシミュレーション結果に悪影響が生じる。
【0003】
そこで、欠損しているデータを精度よく推定して補完する方法が種々提案されている。(例えば、特許文献1参照)。特許文献1で提案されているデータの補完方法では、ラベル無しデータに対して推定精度の高い欠損値補完を実現するために、整備された多量のラベル有りデータを必要とする。しかしながら、整備された多量のラベル有りデータを用意するには多大な工数を要する。また、この提案されている方法は、特定分野のデータではなく、多種多様な種類のデータを取扱うことを意図している汎用的な方法である。それ故、この提案されている方法をゴム組成に関するデータセットでのデータ補完に適用して、欠損しているデータを精度よく簡便に補完するには更なる改良が必要になる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-234352号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、ゴム組成物に関するデータセットにおいて欠損しているデータを、精度よく簡便に補完できるゴム組成物に関するデータセットに対するデータ補完方法およびデータ補完システム並びにデータ補完プログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記の目的を達成する本発明のゴム組成物に関するデータセットに対するデータ補完方法は、ゴム組成物に関する特徴を示す特徴量データを多数種類の特徴について備える一群データが、多数のゴム組成物について集積されているデータセットに対して、複数種類の前記特徴での欠損している前記特徴量データを補完するデータ補完方法であって、補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順にデータ補完工程を行い、それぞれの前記特徴に対する前記データ補完工程では、前記データセットの多数種類の前記特徴の中からそのデータ補完工程で補完対象となる前記特徴を除いた残りの特徴を候補特徴とし、そのデータ補完工程で補完対象となる前記特徴の前記特徴量データの変化に対するそれぞれの前記候補特徴の予め把握している影響度に基づいて、それぞれの前記候補特徴の中から前記影響度が基準よりも高い複数種類の所定の前記特徴を因子特徴として選択し、選択した複数種類の前記因子特徴の前記特徴量データと、そのデータ補完工程で補完対象となる前記特徴の前記特徴量データとを用いた機械学習より生成した推定モデルを使用して、そのデータ補完工程で補完対象となる前記特徴での欠損している前記特徴量データの推定値を算出し、この推定値によって欠損している前記特徴量データを補完し、そのデータ補完工程で前記特徴量データを補完することで、順に行う次の前記データ補完工程で使用する前記データセットを更新することを特徴とする。
【0007】
本発明のゴム組成物に関するデータセットに対するデータ補完システムは、ゴム組成物に関する特徴を示す特徴量データを多数種類の特徴について備える一群データが、多数のゴム組成物について集積されているデータセットと、そのデータセットに対して、複数種類の前記特徴での欠損している前記特徴量データを補完する演算装置と、を有するデータ補完システムであって、前記演算装置は、補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順にデータ補完処理を実行し、それぞれの前記特徴に対して実行する前記データ補完処理では、前記データセットの多数種類の前記特徴の中からそのデータ補完処理で補完対象となる前記特徴を除いた残りの特徴を候補特徴とし、そのデータ補完処理で補完対象となる前記特徴の前記特徴量データの変化に対するそれぞれの前記候補特徴の予め把握している影響度に基づいて、それぞれの前記候補特徴の中から前記影響度が基準よりも高い複数種類の所定の前記特徴が因子特徴として選択され、選択された複数種類の前記因子特徴の前記特徴量データと、そのデータ補完処理で補完対象となる前記特徴の前記特徴量データとを用いた機械学習により推定モデルを生成するデータ処理と、生成した推定モデルを使用して、そのデータ補完処理で補完対象となる前記特徴での欠損している前記特徴量データの推定値を算出するデータ処理と、この推定値によって欠損している前記特徴量データを補完するデータ処理と、を実行し、そのデータ補完処理で前記特徴量データを補完するデータ処理を実行することで、順に行う次の前記データ補完処理で使用する前記データセットが更新されることを特徴とする。
【0008】
本発明のゴム組成物に関するデータセットのデータ補完プログラムは、演算装置に、ゴム組成物に関する特徴を示す特徴量データを多数種類の特徴について備える一群データが、多数のゴム組成物について集積されているデータセットに対して、複数種類の前記特徴での欠損している前記特徴量データを補完させるデータ補完プログラムであって、前記演算装置に、補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順にデータ補完手順を実行させ、それぞれの前記特徴に対して実行させる前記データ補完手順では、前記データセットの多数種類の前記特徴の中からそのデータ補完手順で補完対象となる前記特徴を除いた残りの特徴を候補特徴とし、そのデータ補完手順で補完対象となる前記特徴の前記特徴量データの変化に対するそれぞれの前記候補特徴の予め把握している影響度に基づいて、それぞれの前記候補特徴の中から前記影響度が基準よりも高い複数種類の所定の前記特徴が因子特徴として選択し、選択し複数種類の前記因子特徴の前記特徴量データと、そのデータ補完処理で補完対象となる前記特徴の前記特徴量データとを用いた機械学習により推定モデルを生成させる手順と、生成させた推定モデルを使用して、そのデータ補完手順で補完対象となる前記特徴での欠損している前記特徴量データの推定値を算出させる手順と、この推定値によって欠損している前記特徴量データを補完させる手順と、を実行させ、そのデータ補完手順で前記特徴量データを補完させる手順を実行させることで、順に行う次の前記データ補完手順で使用される前記データセットが更新されることを特徴とする。
【発明の効果】
【0009】
本発明によれば、前記データ補完工程を、補完対象となる複数種類の前記特徴の内で前記特徴量データの欠損数が少ない前記特徴の順に行い、かつ、順に行う次の前記データ補完工程では、直前の前記データ補完工程で前記特徴量データが補完されることで更新された前記データセットを使用するので、効率的に欠損している前記特徴量データを補完するには有利になる。
【0010】
また、ゴム組成物に関する様々な種類の特徴どうしの特徴量データに与える前記影響度の程度は概ね判明している。それ故、前記影響度が比較的高い複数種類の所定の前記因子特徴を利用して機械学習より生成した推定モデルを使用して算出された推定値は、欠損している特徴量データに近似し易くなる。
【0011】
本発明はこのように比較的簡便な手順を用いる構成でありながら、ゴム組成物に関するデータセットにおいて欠損しているデータを精度よく補完することが可能になる。
【図面の簡単な説明】
【0012】
図1】ゴム組成物に関するデータセットを例示する説明図である。
図2】ゴム組成物に関するデータセットのデータ補完システムの実施形態を例示する構成図である。
図3】ゴム組成物に関するデータセットのデータ補完方法およびデータ補完プログラムの実施形態の手順を例示するフロー図である。
図4図3の選択された因子特徴を例示する説明図である。
図5図3の推定モデルを生成する過程および推定値を算出する過程を模式的に例示する説明図である。
図6図3の因子特徴を選択する手順の代わりに実行される各手順を例示するフロー図である。
図7図6のサブルーチン(S220)を例示するフロー図である。
図8図6のサブルーチン(S230)を例示するフロー図である。
図9】基準例、実施例および比較例1、2のシミュレーション結果の推定精度を例示するグラフ図である。
【発明を実施するための形態】
【0013】
以下、ゴム組成物に関するデータセットのデータ補完方法およびデータ補完システム並びにデータ補完プログラムを、図に示す実施形態に基づいて説明する。
【0014】
図1に例示するゴム組成物に関するデータセット20は、ゴム組成物に関する特徴を示す特徴量データ(図中の「・・・」)を多数種類の特徴について備える一群データ(サンプルごとの特徴量データの集まり)が多数のゴム組成物(多数のサンプル)について集積されている。データセット20はコンピュータシミュレーションなどを行う際に使用される。ゴム組成物は特定の種類に限定されない。
【0015】
詳述するとデータセット20は、表の最左列に記載された各ゴム組成物のサンプルに関する特徴を示す特徴量データを備えている。表の上段欄に記載されているように多数種類の特徴についての特徴量データがデータセット20には集積されている。ゴム組成物のサンプル(A1、・・・、An、・・・Dn、・・・)は、ゴム組成物の種類(A、・・・、D、・・・)と各種類のゴム組成物におけるサンプル番号(1~n)とを示している。したがって、各種類のゴム組成物のサンプル数はnである。ゴム組成物の種類ごとのサンプル数は異なっていてもよい。図1では、ゴム組成物に関する特徴の種類として、カーボン添加量(CB量)〔phr〕、塩酸不溶分量〔phr〕、100%モジュラス(M100)〔MPa〕、破断伸び(EB)〔%〕、60℃の損失正接(60℃tanδ)、加硫温度〔℃〕、加硫時間〔s〕、混練時間〔s〕が例示されていて、これらの種類は、化学分析データ、物性データ、および、製造データに分類されている。その他の特徴としては、比重、膨潤度〔%〕、20℃の粘度(20℃E1)〔Pa・s〕などが例示され、特徴の種類は限定されるものではない。また、種類の分類も限定されるものではなく、必要に応じた分類を加えることもできる。
【0016】
図1の表中では、一部の具体的な特徴が「・・・」によって省略された記載になっている。また、特徴量データも「・・・」によって省略された記載になっているが実際は数値が記載されている。この表中のXn(X1~X18)は特徴量データの数値が欠損している欠損データを示していて、オリジナルのデータセット20では実際に空欄になる。また、表中のYn(Y1)は、欠損データXnが補完された補完データを示している。したがって、図1は欠損データXnの一部が補完データYn(Y1)によって補完されて更新されたデータセット20を示している。補完が一切行われていないオリジナルのデータセット20には、通常幾つかの欠損データXnが存在している(特徴量データの数値が欠損している)。本発明はこれらの欠損データXnを精度よく簡便に補完する。
【0017】
一つのデータセット20における一群データは、当業者であれば、実験、試作などによって膨大な数が蓄積されている。一群データは、化学分析データに分類される特徴のみ、物性データに分類される特徴のみ、製造データに分類される特徴のみ、を備えていてもよい。ただし、一群データは、これらの分類のうちの少なくとも二分類に属する特徴を備えていることが望ましく、三分類に属する特徴を備えていることがより望ましい。一群データが備える多数種類の特徴が多岐の分類に属していることで、データセット20を用いたコンピュータシミュレーションが多面的になる。
【0018】
図2に例示するデータ補完システム1は、上記のデータセット20と演算装置2とを備えている。データ補完システム1は、データセット20が、公知の種々の分析機器3を用いて得られた実測値や製造時の種々の設定値が演算装置2に入力されて整理されて、演算装置2の補助記憶部6に記憶されている。演算装置2は公知の種々のコンピュータを用いることができる。演算装置2は中央演算処理部(CPU)4、主記憶部(メモリ)5、補助記憶部(例えば、HDD)6、入力部(キーボード、マウス)7、および、出力部(ディスプレイ)8を有している。演算装置2の補助記憶部6にはデータ補完プログラム10がインストールされている。
【0019】
演算装置2は、入力部7によりデータ補完プログラム10が起動されて実行されると、データ補完プログラム10により指示された各データ処理を実行する。そして、各データ処理を実行して、補助記憶部6に記憶されたデータセット20に存在する欠損データXnを補完して、データセット20を更新する。
【0020】
データ補完プログラム10は、起動された後に、入力部7により補完対象となる複数種類の特徴(以下、補完対象特徴21)の選択を含む初期設定が行われる。選択される補完対象特徴21の種類数mは、データセット20の特徴の種類総数Nよりも少ないものとする。データ補完プログラム10は、初期設定が完了した後に、演算装置2に、補助記憶部6に記憶されたデータセット20に対して、初期設定に従った各種データ処理を実行させる。
【0021】
図3にデータ補完方法およびデータ補完プログラム10により実行される手順の一例を示す。まず、データ補完プログラム10を起動して、補完対象特徴21を選択する(S110)。ついで、データ補完プログラム10を実行することで、データ補完プログラム10は演算装置2に各手順を実行させる(S120、S130)。最終的に、選択した補完対象特徴21の全ての欠損している特徴量データが補完されると終了となる。(S110)~(S130)の各ステップの内容を以下に詳述する。
【0022】
補完対象特徴21を選択するステップ(S110)では、データセット20の多数種類の特徴の中から欠損データXnが存在しており補完対象となる複数種類の特徴を補完対象特徴21として選択する。補完対象特徴21は、入力部7により任意に選択されてもよく、演算装置2によりデータ処理することにより自動的に選択されてもよい。複数種類の特徴を用いたコンピュータシミュレーションを行う場合は、演算装置2によりそれらの複数種類の特徴の内で欠損データXnが存在する特徴を特定し、特定したその特徴を補完対象特徴21として自動的に選択するデータ処理が実行される。
【0023】
順位付けのステップ(S120)では、演算装置2により補完対象特徴21の各々に対して、特徴量データの欠損数(欠損データXnの数)が多くなるに連れて数値が大きくなる順位k(k=1~m)が付与されるデータ処理が実行される。順位kの最大値は選択された補完対象特徴21の種類数mになる。欠損数が同数の補完対象特徴21が存在する場合には、これらの順位kは予め設定した優先度に従って付与され、優先度の高いものから数値が小さい順位kが付与される。優先度は実験データなどに基づいて任意に設定可能である。
【0024】
データ補完工程(S130)は、補完対象特徴21の内で特徴量データの欠損数が少ない特徴の順(数値が小さい順位kの順)に行われる。そのデータ補完工程では、演算装置2により以下の(S131)~(S134)の各ステップが実行され、補完対象特徴21の欠損データXnが補完データYnに補完される。
【0025】
図4に例示する因子特徴22を選択するステップ(S131)では、データセット20の多数種類の特徴の中からデータ補完工程(S130)で対象となる補完対象特徴23を除いた残りの特徴(以下、候補特徴23)の中から複数の因子特徴22が選択される。これらの因子特徴22は、補完対象特徴21の特徴量データの変化に対する影響度が基準よりも高いものが複数選択される。データ補完工程ごとの候補特徴23の種類数は、データセット20の特徴の種類総数Nから1を差し引いたN-1になる。具体的に、演算装置2により因子特徴22の選択画面を出力部8に出力するデータ処理が実行され、その選択画面に入力部7により予め把握している影響度に基づいて因子特徴22が選択される。また、予め把握している影響度に基づいて演算装置2により因子特徴22を自動的に選択するデータ処理が実行される。図4に例示するような補完対象特徴21ごとに影響度が基準よりも高い因子特徴22を特定するデータが予め把握されていて、補助記憶部6に記憶されている場合は、演算装置2により補完対象特徴21に対応した因子特徴22を自動的に選択するデータ処理が実行される。
【0026】
影響度は、補完対象特徴21の特徴量データの変化に影響を及ぼす度合いを示す。影響度が低い因子特徴22ではその特徴量データが変化しても補完対象特徴21の特徴量データの変化が乏しいが、影響度が高い因子特徴22ではその特徴量データの変化に応じて補完対象特徴21の特徴量データが比較的大きく変化する。ゴム組成物に関する様々な種類の特徴どうしの特徴量データに与える影響度の程度は、当業者であれば、公知の種々の文献、多数の実験や試験データの蓄積やコンピュータシミュレーション結果の蓄積などに基づいて概ね把握されている。図4に例示する補完対象特徴21ごとの因子特徴22は、以上のような当業者の知見を利用して候補特徴23の中から補完対象特徴21の特徴量データの変化にほとんど寄与しない特徴が除外された残りの候補特徴23から選択されている。このように、影響度が基準よりも高くなる選択条件を設けることで、候補特徴23の中からその特徴量データが変化しても補完対象特徴21の特徴量データがほとんど変化しないものを除外できるので、データ補完には明らかに不適切な(不要な)候補特徴23が因子特徴22として選択されることを回避できる。
【0027】
この影響度の基準のレベルは任意に設定することができ、経験則などによって明らかに補完対象特徴21の特徴量データの変化に大きく影響する候補特徴23が選択されるように設定すればよい。経験則などからは影響度が不明な候補特徴23については、基準よりも高い影響度を有していると見做して設定することもできる。
【0028】
図4に示した補完対象特徴21および因子特徴22のそれぞれは一例であり、影響度が基準よりも高ければ補完対象特徴21に対応する因子特徴22を他の種類の特徴にすることもできる。また、因子特徴22の種類数は複数であればよく、三種類に限らない。ただし、因子特徴22の種類数が増えると機械学習に必要なデータの数が指数関数的に増えることになる。そこで、因子特徴22の種類は二種以上、五種以下が望ましい。
【0029】
因子特徴22の影響度は、基準よりも高ければその高低が特に限定されるものではないが、因子特徴22の影響度の高低がその因子特徴22を用いた補完対象特徴21の欠損データXnの補完精度の高低に密接に関係するため、その影響度は高ければ高いほどよい。因子特徴22の影響度は、その因子特徴22を用いた補完対象特徴21の欠損データXnの補完精度が、補完対象特徴21の欠損データXn以外の全ての特徴量データの中央値や平均値を用いる従来技術での補完精度よりも高くなることが望ましい。これにより、選択された因子特徴22を用いた補完精度が従来技術の補完精度よりも高くなり、補完データYnが欠損している特徴量データにより近似することになる。
【0030】
補完精度の高低を示す指標として、例えば、因子特徴22の特徴量データを説明変数とするとともに補完対象特徴21の特徴量データを目的変数として生成される後述の推定モデル24の精度の評価を用いることができる。つまり、影響度の高低を表す指標として、推定モデル24の精度を評価する指標を用いることができる。推定モデル24の精度を評価する指標としては、公知の種々の指標を用いることができる。代表的なその指標としては、精度評価指数、情報量基準、および、仮設検定が例示される。精度評価指数としては、平均二乗誤差、平均絶対誤差、決定係数、および、平均平方二乗誤差などが例示される。情報量基準としては、最小記述長(MDL)、ベイズ情報量基準(BIC)、および、赤池情報量基準(AIC)などが例示される。仮設検定としては、Kolmogorov-Smirnov検定(KS検定)、Anderson-Darling検定(AD検定)、Shapiro-Wilk検定(SW検定)などが例示される。
【0031】
図5に例示する推定モデル24を作成するステップ(S132)では、演算装置2により因子特徴22の特徴量データと補完対象特徴21の特徴量データとを用いた機械学習より推定モデル24を作成するデータ処理が行われる。具体的には、因子特徴22の特徴量データを説明変数とするとともに補完対象特徴21の特徴量データを目的変数とした教師データ25を用いた教師あり機械学習により推定モデル24を作成する。
【0032】
機械学習は、公知の種々の教師あり機械学習を用いることができる。教師あり機械学習のアルゴリズムとしては、決定木、ランダムフォレスト、k近傍法、ロジスティック回帰、ニューラルネットワーク、マルコフ連鎖モンテカルロ法などが例示される。また、それらのアルゴリズムを複数用いるアンサンブル学習も例示される。
【0033】
教師データ25はデータセット20から抽出された補完対象特徴21の特徴量データと因子特徴22の特徴量データとから成る。一群データにおいて、補完対象特徴21の特徴量データおよび因子特徴22のいずれかに欠損データXnが存在する場合は、基本的に、その一群データは教師データ25から除外する。尚、欠損データXnが補完データYnに補完された場合は、その一群データを教師データ25として用いることができる。したがって、教師データ25は、データ補完工程が繰り返し行われて欠損データXnの数が減るに連れて教師データ25として使用可能な特徴量データの数が増え、整備されることになる。
【0034】
推定値を算出するステップ(S133)では、演算装置2により推定モデル24を使用して、補完対象特徴21での欠損している特徴量データ(欠損データXn)の推定値を算出するデータ処理が行われる。具体的に、作成した推定モデル24に、入力データ26の因子特徴22の特徴量データを入力して、入力データ26の補完対象特徴21の欠損データXnの推定値を算出する。入力データ26は、補完対象特徴21が欠損データXnである一群データ(例えば、サンプルA4、Cn)の因子特徴22の特徴量データで構成される。例えば、欠損データX1の推定値を算出する場合に、サンプルA4の因子特徴22の特徴量データが入力データ26として入力される。
【0035】
データセット20を更新するステップ(S134)では、演算装置2により算出した推定値によって欠損データXn(欠損している特徴量データ)を補完して、データセット20を更新するデータ処理が行われる。具体的に、順位kの補完対象特徴21を対象としたデータ補完工程(S130)では、順位kの補完対象特徴21の欠損データXnの全てが各々の推定値により補完されて補完データYnに更新される。
【0036】
以上の(S131)~(S134)の各ステップが実行されるデータ補完工程(S130)は、順位「1」の補完対象特徴21から順位「m」の補完対象特徴21まで順に行われ、それぞれのデータ補完工程が行われるごとにデータセット20が更新される。つまり、順位kの補完対象特徴21を対象としたデータ補完工程で欠損データXnが補完データYnに更新されることで、順に行われる次の順位(k+1)の補完対象特徴21を対象としたデータ補完工程で使用するデータセット20が更新される。したがって、順位(k+1)の補完対象特徴21を対象としたデータ補完工程で使用される更新されたデータセット20に存在する欠損データXnの数は、順位kの補完対象特徴21を対象としたデータ補完工程で使用されるデータセット20に存在する欠損データXnの数よりも少なくなる。それ故、データ補完工程が繰り返されるごとに、欠損データXnの数が減ることに伴って使用可能な特徴量データの数が増え、教師データ25が整備されることになる。
【0037】
図6図8に示す手順は、図3の因子特徴22を選択するステップ(S131)の代わりに実行される。この手順は、補完対象特徴21の特徴量データの変化に対する候補特徴23の影響度を演算装置2の演算処理により把握する点、基準よりも高い影響度のうちで最も高い影響度の因子特徴22を選択する点が先の実施形態と異なる。この手順では、データ補完工程(S130)の最初に、入力部7により因子特徴22の種類数iを選択する(S210)。ついで、データ補完プログラム10を実行することで、データ補完プログラム10は演算装置2に各手順を実行させる(S220~S240)。最終的に、演算装置2により影響度が把握されて、把握したその影響度に基づいた因子特徴22が選択されると、データ補完工程(S130)の残りの各ステップが実行される。(S220~S240)の各ステップの内容を以下に詳述する。
【0038】
種類数iを選択するステップ(S210)では、候補特徴23の中から選択される因子特徴22の種類数iを選択する。種類数iは、入力部7により任意に選択されてもよく、演算装置2によりデータ処理することにより予め設定された種類数iが自動的に選択されてもよい。種類数iの過不足が生じると推定値の推定精度は低くなり、種類数iが多すぎると演算装置2の演算負荷は増える。そのため、種類数iは二種類以上、五種類以下が望ましい。
【0039】
図7に例示するサブルーチン(S220)では、演算装置2により、補完対象特徴21の特徴量データの変化に対する候補特徴23の影響度を予め把握するデータ処理と、候補特徴23の中から影響度が基準よりも高い因子特徴22を選択するデータ処理とが実行される。具体的に、このサブルーチンでは、影響度の高低を示す指標として、推定モデル24の精度を評価する指標を用いて候補特徴23の影響度を把握する。
【0040】
まず、演算装置2により候補特徴23から種類数iの因子特徴22を選択するデータ処理(S221)が実行される。次いで、演算装置2により補完対象特徴21および選択した種類数iの因子特徴22に基づいた推定モデル24を作成するデータ処理(S133)と推定値を算出するデータ処理(S133)とが実行される。次いで、演算装置2により指標を算出するデータ処理(S222)が実行される。次いで、演算装置2により選択した種類数iの因子特徴22の組み合わせとその指標を補助記憶部6に保存するデータ処理(S223)が実行される。次いで、演算装置2によりサブルーチンの繰り返し数hをカウントするデータ処理(S224)が実行された後に、繰り返し数hが組み合わせの総数(C(N-1,i)以上になったか否かを判定するデータ処理(S225)が実行される。全ての組み合わせとその指標が保存されると、演算装置2により最も評価が高い組み合わせを選択するデータ処理(S226)が実行されて、サブルーチンが終了する。サブルーチンの繰り返し数hはサブルーチンの終了に伴ってリセットされる。
【0041】
種類数iの因子特徴22を選択するステップ(S221)では、選択される種類数iの因子特徴22の組み合わせが前回の繰り返し数(h-1)までの組み合わせ(繰り返し数「1」から繰り返し数(h-1)までの間に使用された組み合わせ)と異なる組み合わせになる。異なる組み合わせは、前回までの組み合わせと一つでも異なる特徴が含まれていればよい。
【0042】
指標を算出するステップ(S222)では、演算装置2により補完対象特徴21の特徴量データと選択した種類数iの因子特徴22の特徴量データとを用いて作成した推定モデル24の精度を評価する指標を算出するデータ処理が実行される。その指標としては、上述した公知の種々の指標(精度評価指数、情報量基準、および、仮設検定)を用いることができる。
【0043】
繰り返し数hが組み合わせの総数(C(N-1,i)以上になったか否かを判定するステップ(S225)では、サブルーチンの繰り返し数hが種類数iの因子特徴22の組み合わせの探索回数を示し、組み合わせの総数が候補特徴23の総数(N-1)から種類数iの因子特徴22を取り出したときの組み合わせの総数を示す。したがって、繰り返し数hが組み合わせの総数以上になった場合に、種類数iの因子特徴22の全ての組み合わせとその指標とが補助記憶部6に保存されたことになる。上述したとおり、影響度の高低は、推定モデル24の精度を評価する指標で表すことができる。したがって、このステップにより、補完対象特徴21の特徴量データの変化に対する候補特徴23の影響度を予め把握するデータ処理が実行されたことになる。
【0044】
最も評価の高い組み合わせを選択するステップ(S226)では、演算装置により、全ての組み合わせの推定モデル24の精度を評価する指標の中で最も評価の高い指標を特定し、特定した指標が算出された因子特徴22の組み合わせを選択するデータ処理が実行される。推定モデル24の精度が高い評価になる種類数iの因子特徴22の組み合わせは、補完対象特徴21の特徴量データに対する影響度が高い。最も評価の高い種類数iの因子特徴22の組み合わせは、選択可能な種類数iの因子特徴22の組み合わせの中で最も影響度が高い組み合わせになることから、補完対象特徴21の特徴量データに対する影響度が基準よりも高い因子特徴22の組み合わせと見做せる。したがって、このステップにより、候補特徴23の中から影響度が基準よりも高い因子特徴22を選択するデータ処理が実行されたことになる。以下、影響度が基準よりも高い因子特徴22の組み合わせをCiとする。
【0045】
このようなサブルーチン(S220)を実行することで、候補特徴23の影響度に対する知見が乏しい場合でも、影響度が比較的高い因子特徴を利用することができる。また、これまでの知見からでは得られなかった因子特徴を見出すことも可能となる。これにより、データセット20の欠損データXnの補完精度を向上することに加えて、見出した因子特徴を利用することで新たな観点でゴム組成物のコンピュータシミュレーションを行うことが可能となる。
【0046】
図8に例示するサブルーチン(S230)では、演算装置2により基準よりも高い影響度のうちで最も高い影響度の因子特徴22の組み合わせを特定するデータ処理が行われる。このサブルーチンでも前述したサブルーチンと同様に、影響度の高低を示す指標として、推定モデル24の精度を評価する指標を用いる。
【0047】
まず、演算装置2により種類数jの追加特徴27を選択するデータ処理が実行される(S231)。以下、因子特徴22の組み合わせは選択された種類数jの追加特徴27が組み合わせCiに追加されたものとする。次いで、演算装置2により、補完対象特徴21および種類数(i+j)の因子特徴22に基づいて推定モデル24を作成するデータ処理(S133)と推定値を算出するデータ処理(S133)とが実行される。次いで、演算装置2により指標を算出するデータ処理(S222)と組み合わせおよびその指標を保存するデータ処理(S223)が実行される。次いで、演算装置2によりサブルーチンの繰り返し数hをカウントするデータ処理(S224)が実行された後に、繰り返し数hが組み合わせの総数(C(N-1-i,j)以上になったか否かを判定するデータ処理(S232)が実行される。全ての組み合わせとその指標が保存されると、演算装置2により前回の評価(組み合わせCiに種類数(j-1)の追加特徴27を追加した組み合わせの評価)よりも今回の評価が高いか否かを判定するデータ処理(S233)が実行される。前回の評価よりも今回の評価が高い場合に、演算装置2により追加特徴27の種類数jを増やすデータ処理(S234)が実行される。前回の評価よりも今回の評価が低い場合に、サブルーチンが終了する。サブルーチンの繰り返し数hはサブルーチンの終了に伴ってリセットされる。
【0048】
種類数jの追加特徴27を選択するステップ(S231)では、候補特徴23から種類数iの因子特徴22の組み合わせCiで用いられた特徴を除いた残りの特徴から種類数jの追加特徴27を選択する。選択された種類数jの追加特徴27の組み合わせは、前回の繰り返し数(h-1)までの組み合わせ(繰り返し数「1」から繰り返し数(h-1)までの間に使用された組み合わせ)と異なる組み合わせになる。このサブルーチンの開始時の追加特徴27の種類数jは一種類以上であればよいが、最適な組み合わせを探索するにはサブルーチンの開始時の種類数jは一種類であることが望ましい。
【0049】
繰り返し数hが組み合わせの総数(C(N-1-i,j)以上になったか否かを判定するステップ(S232)では、サブルーチンの繰り返し数hが種類数jの追加特徴27の組み合わせの探索回数を示し、組み合わせの総数が候補特徴23の総数から組み合わせCiの因子特徴22を除いた残りの特徴の総数(N-1-i)から種類数jの追加特徴27を取り出したときの組み合わせの総数を示す。したがって、繰り返し数hが組み合わせの総数以上になった場合に、組み合わせCiの因子特徴22に種類数jの追加特徴24を追加した全ての組み合わせとその指標とが補助記憶部6に保存されたことになる。
【0050】
前回の評価(組み合わせCiに種類数(j-1)の追加特徴27を追加した組み合わせの評価)よりも今回の評価が高いか否かを判定するステップ(S233)では、演算装置2により、全ての組み合わせの推定モデル24の精度を評価する指標の中で最も評価の高い指標を特定するデータ処理が実行される。次いで、演算装置により、特定した指標と前回の指標(種類数(j-1)の追加特徴27を追加した組み合わせで最も評価が高い指標)とを比較して、前回よりも評価が高いか否かを判定するデータ処理が実行される。前回よりも評価が高い場合は、組み合わせCiに種類数jの追加特徴27を追加した組み合わせの因子特徴22の影響度が前回の組み合わせの影響度より高いことを示す。一方、前回よりも評価が低い場合は、組み合わせCiに種類数(j-1)の追加特徴27を追加した組み合わせの因子特徴22の影響度が今回の組み合わせより高いことを示す。つまり、基準よりも高い影響度のうちで最も高い影響度の因子特徴22の組み合わせは、組み合わせCiに種類数(j-1)の追加特徴27を追加した組み合わせの中で推定モデル24の精度が最も高い評価を得たものになる。
【0051】
追加特徴27の種類数jを増やすステップ(S234)は、組み合わせCiに種類数jの追加特徴27を追加した組み合わせの因子特徴22の影響度が前回の組み合わせの影響度より高い場合に行われる。このステップでは、演算装置2により、種類数jを一つ増やすデータ処理が実行される。このステップ以降、再度、上記の(S231)~(S233)の各ステップが行われる。
【0052】
最も評価の高い組み合わせを選択するステップ(S240)では、演算装置2により、上記の二つのサブルーチン(S220、S230)の実行により把握された影響度に基づいて、基準よりも高い影響度のうちで最も高い影響度の因子特徴22の組み合わせC(i+j-1)を選択するデータ処理が実行される。組み合わせC(i+j-1)が選択されると、データ補完工程(S130)の残りの各ステップが実行され、欠損データXn(欠損している特徴量データ)が補完されて、データセット20が更新される。
【0053】
このようなサブルーチン(S230)を実行することで、これまでの知見からでは得られなかったより高い影響度の因子特徴22を利用することが可能となる。これにより、推定値が欠損している特徴量データに近似し易くなる。
【0054】
因子特徴22や追加特徴27を選択するステップ(S131、S221、S231)では、選択条件に、欠損データXnの数の少なさを考慮するとよい。つまり、因子特徴22は、影響度が最優先の選択条件になるが、この条件下で、それぞれのデータ補完工程で補完対象となる特徴での欠損データXnの数がより少ない候補特徴23を優先的に選択するとよい。教師データ25や入力データ26の特徴量データに欠損データXnが存在してもよいが、欠損データXnが存在する場合に推定モデル24を使用した推定値の推定精度が低くなる。それ故、教師データ25や入力データ26に欠損データXnが少なくなることで、推定値の推定精度の向上には有利になる。また、欠損データXnの数の少なさを考慮する場合には、入力データ26での欠損データXnによる推定精度への影響が高いため、入力データ26での欠損データXnの数の少なさをより優先するとよい。
【0055】
また、選択条件に、因子特徴22が属する分類を限定することを加えるとよい。具体的に、因子特徴22のうちの少なくとも一つの特徴が属する分類が製造データであることが望ましい。化学分析データや物性データに属する特徴の特徴量データはいわゆるラボデータである。一方、製造データに属する特徴の特徴量データは実際のゴム部材、ゴム製品の製造ラインでの測定値である。それ故、因子特徴22が製造データに属する特徴を含むことで、ラボデータと製造ラインでの測定データとの相関関係を把握することができる。これに伴い、研究開発と製造技術との連携が強化され、互いに技術力向上に大きく寄与する。
【0056】
推定値を算出するステップ(S133)の後に、推定モデル24の精度を評価するステップを行うとよい。推定モデル24の精度を評価する指標としては、上述した公知の種々の指標(精度評価指数、情報量基準、および、仮設検定)を用いることができる。仮に、推定モデル24の精度の評価が基準(中央値や平均値)よりも低い場合は、推定値の代わりに補完対象特徴21の全ての特徴量データの中央値や平均値を用いて、補完対象特徴21の欠損データXnを補完するとよい。これにより、選択した因子特徴22の予め把握していた影響度が誤っていた場合、あるいは、データセット20の一群データの特徴量データが真値から掛け離れていた場合に、欠損データXnを精度の低い推定値で補完することを回避することが可能になる。
【0057】
最終的に更新されたデータセット20(オリジナルのデータセット20の欠損データXnの全てが補完データYnに補完されたデータセット20)とは別に、オリジナルのデータセット20を記憶しておくことが望ましい。また、最終的に更新されたデータセット20をオリジナルのデータセット20に戻せる状態にしておくことが望ましい。そこで、演算装置2により欠損データXnが補完された履歴を記憶しておく、あるいは、補完データYnと欠損していない特徴量データとを区別可能にしておくとよい。その履歴や区別に基づいて演算装置2によりデータ処理することにより、更新されたデータセット20をオリジナルのデータセット20に戻すことが可能となる。次にコンピュータシミュレーションを行うまでに、サンプル数の増加や新たな種類のゴム組成物の追加によりデータセット20に更なる一群データが追加されることがある。このとき、オリジナルのデータセット20を記憶しておく、あるいは、オリジナルのデータセット20に戻しておくことで、追加されたその一群データを含めて再度、欠損データXnを補完することが可能となり、一群データの数の増加に伴って欠損データXnの補完精度が向上する。
【0058】
サブルーチン(S220)で特定された因子特徴22の組み合わせCiやサブルーチン(S230)で特定された因子特徴22の組み合わせC(i+j-1)を補助記憶部6に保存しておき、因子特徴22を選択するステップ(S131)で選択可能にするとよい。これにより、因子特徴22の選択肢が増えることになる。
【0059】
精度評価指数を用いた推定モデル24の精度の評価では、因子特徴22の種類数が多いほど精度が高くなる傾向にある。よって、精度評価指数を用いた推定モデル24の精度の評価は、因子特徴22が選択されている場合や因子特徴22の種類数が予め定まっている場合に適している。一方で、情報量基準または仮設検定を用いた推定モデル24の精度の評価では、推定モデル24の尤度の高さと因子特徴22の種類数の少なさとが評価の対象となっている。よって、情報量基準または仮説検定を用いた推定モデル24の精度の評価は、因子特徴22の組み合わせを探索する場合に適している。そこで、各々のサブルーチン(S220、S230)での影響度の高低を示す指標としては、精度評価指数を用いてもよいが、因子特徴22の種類数を適切な数に止めることができることから情報量基準または仮設検定を用いることが望ましい。なお、仮説検定を用いる場合には、データセット20における特徴量の分布が正規分布であると仮定し、有意水準の基準を用いるとよい。
【0060】
以上のとおり、本実施形態によれば、データ補完工程(S130)を、補完対象特徴21の内で特徴量データの欠損数が少ない特徴の順に行い、かつ、順に行う次のデータ補完工程(順位(k+1)のS130)では、直前のデータ補完工程(順位kのS130)で欠損データXnが補完されることで補完データYnになって更新されたデータセット20を使用するので、効率的に欠損データXnを補完するには有利になる。
【0061】
また、ゴム組成物に関する様々な種類の特徴どうしの特徴量データに与える影響度の程度は概ね判明している。それ故、影響度が比較的高い因子特徴22を利用して機械学習より生成した推定モデル24を使用して算出された推定値は、欠損している特徴量データに近似し易くなる。本実施形態はこのように比較的簡便な手順を用いる構成でありながら、ゴム組成物に関するデータセット20において欠損している特徴量データを精度よく補完することができうる。
【0062】
また、本実施形態によれば、データセット20を整備してラベルを付与する必要がないため、データセット20の整備に要する工数を大幅に削減できる。さらに、データセット20さえ用意することができれば、データセット20に欠損データXnが存在したとしても直ぐにコンピュータシミュレーションを行うことが可能となり、コンピュータシミュレーションの開始までに要する時間も短縮できる。
【0063】
以上、本発明の実施形態について説明したが、本発明のゴム組成物に関するデータセットのデータ補完方法およびデータ補完システム並びにデータ補完プログラムは特定の実施形態に限定されるものではなく、本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0064】
因子特徴22を選択するステップ(S131)や種類数iを選択するステップ(S210)は、補完対象特徴21を選択するステップ(S110)と同時に実行されてもよい。それらのステップが同時に実行されることで、演算装置2によるデータ処理が因子特徴22の選択や種類数iの選択により途中で一旦停止されることなく実行が継続される。
【0065】
(S220~S240)の各ステップのうち、サブルーチン(S230)を実行せず、影響度が基準よりも高い組み合わせCiの因子特徴22を利用して、欠損データXnを補完してもよい。サブルーチン(S230)は、実行されることで、より高い影響度の因子特徴22を利用することが可能となるため、必要に応じて実行するとよい。
【0066】
(S220~S240)の各ステップでは、種類数iの因子特徴22の組み合わせCiに追加特徴27を追加する手順としたが、種類数iを最大とした因子特徴22の組み合わせで影響度が最も高い組み合わせを特定し、その組み合わせの中から特徴を徐々に削減する手順としてもよい。種類数iを最大とした因子特徴22の組み合わせは、候補特徴23の中から補完対象特徴21の特徴量データが全く変化しない特徴を除外した残りの特徴の組み合わせになる。
【実施例0067】
13種のゴム組成物のサンプルに対して公知の9種の分析および測定により得た特徴量データを備えたオリジナルデータセットを表1に示す。このデータセットは欠損している特徴量データが存在しない。
【表1】
【0068】
上記の表1のデータセットの幾つかの特徴量データを意図的に欠損させて作成したデータセットを表2に示す。即ち、表2中の空欄が欠損データに該当する。
【0069】
【表2】
【0070】
上記の表2に示すデータセットに存在する欠損している特徴量データを二通りの方法(実施例、比較例1)を用いて補完し、その結果を表3に示す。比較例1では、補完対象となる特徴での欠損していない全ての特徴量データの中央値で補完した。実施例では、図3に例示した実施形態と同様の手順によって、欠損している特徴量データを補完した。尚、この際に三種類の因子特徴を用いた。
【0071】
【表3】
【0072】
表3の結果から、実施例は比較例1に比して精度よくオリジナルの特徴量データを推定できることが分かる。
【0073】
次に、使用するデータセットのみを四通りに異ならせて、それぞれのデータセットの特徴量データを用いてゴム組成物に関する特徴量データを推定するコンピュータシミュレーションを行った。用いたデータセットは、表1に示したオリジナルデータセット(基本例)、上記の実施例により補完されたデータセット(実施例)、上記の比較例1により補完されたデータセット(比較例1)、表2に示した欠損が存在しているデータセット(比較例2)である。それぞれのコンピュータシミュレーション結果(推定値)と実測値との平均二乗誤差を算出し、その結果を図9に示す。図9に示す結果から実施例は、比較例1、2に比して基本例と近似する推定ができることが分かる。
【符号の説明】
【0074】
1 データ補完システム
2 演算装置
10 データ補完プログラム
20 データセット
21 補完対象特徴
22 因子特徴
23 候補特徴
24 推定モデル
25 教師データ
26 入力データ
27 追加特徴
Xn 欠損データ
Yn 補完データ
k 順位
図1
図2
図3
図4
図5
図6
図7
図8
図9