(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024148029
(43)【公開日】2024-10-17
(54)【発明の名称】追加データ生成方法、追加データ生成装置、プログラムおよび記録媒体
(51)【国際特許分類】
G06N 20/00 20190101AFI20241009BHJP
G06F 18/27 20230101ALI20241009BHJP
【FI】
G06N20/00 130
G06F18/27
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023060909
(22)【出願日】2023-04-04
(71)【出願人】
【識別番号】000005083
【氏名又は名称】株式会社プロテリアル
(74)【代理人】
【識別番号】110002066
【氏名又は名称】弁理士法人筒井国際特許事務所
(72)【発明者】
【氏名】渡邊 智紀
(72)【発明者】
【氏名】社内 大介
(57)【要約】
【課題】広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択する手法を確立する。
【解決手段】本開示は、学習データに追加する追加データを複数の候補データから選択するために使用される獲得関数が、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含むように構成されていることを前提として、少なくとも、演算値が最も大きくなる候補データを追加データとして選択する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
回帰モデルを機械学習させるための学習データに追加する追加データをコンピュータが生成する追加データ生成方法であって、
コンピュータが前記追加データの候補となる複数の候補データを入力する工程、
コンピュータが獲得関数に基づいて、前記複数の候補データから前記追加データを選択する工程、
を備え、
前記獲得関数は、前記回帰モデルの目的変数値に基づいて算出される確率値と、前記学習データと前記候補データとの非類似度との演算値を含む、追加データ生成方法。
【請求項2】
請求項1に記載の追加データ生成方法において、
前記非類似度は、前記学習データと前記候補データとのデータ間距離に基づいて評価される、追加データ生成方法。
【請求項3】
請求項1に記載の追加データ生成方法において、
前記追加データを選択する工程は、少なくとも、前記演算値の値が最も大きい候補データを前記追加データとして選択する、追加データ生成方法。
【請求項4】
請求項1に記載の追加データ生成方法において、
前記回帰モデルは、ガウス過程回帰モデルであり、
前記確率値は、前記回帰モデルから出力される推定値および標準偏差値に基づいて算出される、追加データ生成方法。
【請求項5】
請求項1に記載の追加データ生成方法において、
前記回帰モデルは、物理量の値が未知である未知複合材料に含まれる構成材料の材料名および配合割合を含む配合情報を入力すると、前記物理量の予測値を出力する関数である、追加データ生成方法。
【請求項6】
回帰モデルを機械学習させるための学習データに追加する追加データを生成する追加データ生成装置であって、
前記追加データの候補となる複数の候補データを入力する入力部と、
獲得関数に基づいて、前記入力部に入力された前記複数の候補データから前記追加データを選択する追加データ選択部と、
を備え、
前記獲得関数は、前記回帰モデルの目的変数値に基づいて算出される確率値と、前記学習データと前記候補データとの非類似度との演算値を含む、追加データ生成装置。
【請求項7】
回帰モデルを機械学習させるための学習データに追加する追加データを生成する処理をコンピュータに実行させるプログラムであって、
前記追加データの候補となる複数の候補データを入力する処理と、
獲得関数に基づいて、前記複数の候補データから前記追加データを選択する処理と、
を備え、
前記獲得関数は、前記回帰モデルの目的変数値に基づいて算出される確率値と、前記学習データと前記候補データとの非類似度との演算値を含む、プログラム。
【請求項8】
請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、追加データ生成方法、追加データ生成装置、プログラムおよび記録媒体に関し、例えば、回帰モデルを機械学習させるための学習データに追加データを追加する技術に適用して有効な技術に関する。
【背景技術】
【0002】
特開2020-38495号公報(特許文献1)には、学習用入力データのサンプル数を回帰分析によって補完することでサンプル数を増加させる技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、回帰モデルの予測精度を向上させるためには、回帰モデルを機械学習させるための学習データに含まれるデータ数を増加させることが有効である。ただし、学習データに含まれるデータ数を増加させる場合において、類似する同じようなデータの数を増加させても、学習データに基づく機械学習によって、広範囲における予測精度を向上できる回帰モデルを生成することは困難である。すなわち、機械学習に使用する学習データによって、生成される回帰モデルの良否が左右される。このことから、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択する手法を確立することが望まれている。
【課題を解決するための手段】
【0005】
一実施の形態における追加データ生成方法は、回帰モデルを機械学習させるための学習データに追加する追加データをコンピュータが生成する追加データ生成方法である。ここで、追加データ生成方法は、コンピュータが追加データの候補となる複数の候補データを入力する工程、コンピュータが獲得関数に基づいて、複数の候補データから追加データを選択する工程、を備える。このとき、獲得関数は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含む。
【0006】
一実施の形態における追加データ生成装置は、回帰モデルを機械学習させるための学習データに追加する追加データを生成する追加データ生成装置である。ここで、追加データ生成装置は、追加データの候補となる複数の候補データを入力する入力部と、獲得関数に基づいて、入力部に入力された複数の候補データから追加データを選択する追加データ選択部と、を備える。このとき、獲得関数は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含む。
【0007】
一実施の形態におけるプログラムは、回帰モデルを機械学習させるための学習データに追加する追加データを生成する処理をコンピュータに実行させるプログラムである。ここで、プログラムは、追加データの候補となる複数の候補データを入力する処理と、獲得関数に基づいて、複数の候補データから追加データを選択する処理と、を備える。このとき、獲得関数は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含む。
【発明の効果】
【0008】
一実施の形態によれば、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択する手法を確立できる。
【図面の簡単な説明】
【0009】
【
図2】確率値を算出する方法を模式的に示す図である。
【
図4】追加データ生成装置のハードウェア構成の一例を示す図である。
【
図5】追加データ生成装置の機能ブロック図である。
【
図6】追加データ生成装置の動作を説明するフローチャートである。
【
図7】追加データ生成方法の概要を説明する図である。
【発明を実施するための形態】
【0010】
実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。なお、図面をわかりやすくするために平面図であってもハッチングを付す場合がある。
【0011】
本実施の形態における技術的思想は、複数種類の樹脂や配合剤を複合化した複合材料での配合割合に対応する物理量を予測する回帰モデルを機械学習させるために使用される学習データに関する技術的思想である。詳細には、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを追加データの候補となる複数の候補データから選択する手法に関する技術的思想である。
【0012】
ここで、複合材料は、例えば、樹脂や配合剤を含む電線被覆材料を挙げることができ、物理量としては、例えば、複合材料の伸びや引張強さを挙げることができる。
【0013】
樹脂は、例えば、高密度ポリエチレン、低密度ポリエチレン、エチレンアクリル酸共重合体などのポリオレフィンや、塩素化ポリエチレンなどのエラストマである。一方、配合剤としては、例えば、タルク、炭酸カルシウム、シリカなどのフィラー、可塑剤、架橋剤および安定剤を挙げることができる。ただし、複合材料を構成する樹脂や配合剤などの組成物の種類や数は、限定されるものではない。
【0014】
なお、本実施の形態における技術的思想は、複数種類の樹脂や配合剤を複合化した複合材料だけでなく、複数種類の磁性体材料を複合化した複合材料にも適用可能であり、物理量としては、例えば、磁化率や磁場(磁界、磁束密度)の強さを挙げることができる。
【0015】
<改善の検討>
例えば、回帰モデルを使用することにより、物理量の値が未知の未知複合材料に関する物理量を予測することが検討されている。ここで、回帰モデルは、未知複合材料に含まれる構成材料の材料名および配合割合を含む配合情報を入力すると、物理量の予測値を出力する関数である。この回帰モデルは、配合情報と物理量との対応関係が既知の学習データを教師データとする機械学習によって生成することができる。
【0016】
この点に関し、学習データを拡充することによって、回帰モデルにおける予測精度を高めることができる。すなわち、予測精度の高い回帰モデルを取得するためには、学習データを拡充することが重要である。
【0017】
学習データを拡充することを目的とする手法であって効率的に学習データに追加データを追加する手法として、ベイズ最適化と呼ばれる手法がある。このベイズ最適化では、獲得関数を使用して、追加データの候補となる複数の候補データから追加データを選択することが行われる。このとき、有効な追加データを選択できるようにするためには、適切に獲得関数を設計する必要がある。つまり、ベイズ最適化によって、有効な追加データを選択するためには、適切な獲得関数を設計することが重要となる。
【0018】
ここで、有効な追加データとは、広範囲な配合割合における予測精度を向上できる回帰モデルを生成することに寄与するデータであり、具体的に、以下の条件を満たすデータである。すなわち、有効な追加データとは、(1)必要な物理量の値を満たす未知の配合割合に関するデータであり、(2)既に取得されている学習データとは大きく異なる非類似の配合情報を有するデータである。このような有効な追加データを追加データの候補となる複数の候補データから選択することができる獲得関数を設計することが望ましいが、上述した条件を満たす有効な追加データを選択可能な獲得関数を設計することは難しい。
【0019】
そこで、本実施の形態では、上述した条件を満たす有効な追加データを選択可能な獲得関数を設計するための工夫を施している。
【0020】
以下では、この工夫を施した技術的思想について説明する。
【0021】
<実施の形態における基本思想>
本実施の形態における基本思想は、学習データに追加する追加データを複数の候補データから選択するために使用される獲得関数が、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含むように構成されていることを前提として、少なくとも、この演算値が最も大きくなる候補データを追加データとして選択する思想である。この基本思想によれば、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択できる。言い換えれば、基本思想により選択された追加データを含む学習データを教師データとして回帰モデルを機械学習することにより、広範囲の配合割合における物理量の値の予測精度を向上可能な回帰モデルを生成することができる。つまり、基本思想によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを生成することができる。
【0022】
ここで、基本思想によれば、獲得関数が回帰モデルの目的変数値に基づいて算出される確率値を含んでおり、この確率値は、予測値が規格に合格する確率を表している。そして、基本思想では、この確率値が大きいデータを候補となる複数の候補データの中から選択するのであり、このことは、回帰モデルから出力される予測値が規格に合格する確率が高い候補データを追加データとして選択することを意味する。したがって、基本思想における獲得関数に基づいて選択される追加データは、必要な物理量の値を満たすデータであるという要件を満たしている可能性が高い。
【0023】
さらに、基本思想によれば、獲得関数が学習データと候補データとの非類似度を含んでおり、この非類似度が大きいデータを選択する。このことは、学習データに含まれる既存のデータとは全く異なるデータが追加データとして選択されることを意味している。したがって、基本思想における獲得関数に基づいて選択される追加データは、既に取得されている学習データとは大きく異なる非類似のデータである可能性が高い。
【0024】
以上のことから、基本思想では、追加データを選択するための獲得関数として、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との積を含む獲得関数を使用して、複数の候補データの中から、この積が大きくなる候補データを追加データとして選択する。この結果、基本思想によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを用意することができる。
【0025】
基本思想の重要な点は、獲得関数が回帰モデルの目的変数値に基づいて算出される確率値だけを含むのではなく、この確率値と、学習データと候補データとの非類似度との演算値を含むように構成されている点である。
【0026】
例えば、確率値だけを含む獲得関数を使用して、候補となる複数の候補データの中から追加データを選択する場合、選択された追加データが既に学習データに含まれているデータと類似する傾向がある。したがって、確率値だけを含む獲得関数を使用することにより追加データを選択して学習データに含まれるデータ数を増加させたとしても、類似する同じようなデータの数を増加させることになる結果、学習データに基づく機械学習によって、適用範囲の広い回帰モデルを生成することは困難となる。
【0027】
これに対し、基本思想では、確率値だけを含むのではなく、この確率値と、学習データと候補データとの非類似度との演算値を含むように構成されており、候補となる複数の候補データの中から、この演算値が大きくなる候補データを追加データとして選択している。このため、基本思想では、確率値が大きくても非類似度が小さい候補データは選択されない一方、確率値と非類似度の両方が大きい候補データが選択される。したがって、基本思想によれば、非類似のデータ数を増加させることができる結果、学習データに基づく機械学習によって、適用範囲の広い回帰モデルを生成することができる。
【0028】
ここで、「確率値と非類似度との演算値」には、例えば、確率値と非類似度の積や、確率値と非類似度の和が含まれる。以下では、「確率値と非類似度との演算値」の一例として、確率値と非類似度の積を取り上げて説明する。
【0029】
【0030】
図1において、確率値と非類似度によって、データが複数の領域Aから領域Dに分類されている。例えば、
図1に示すように、領域Aに含まれるデータは、確率値が小さく、かつ、非類似度が小さいデータである。また、領域Bに含まれるデータは、確率値が大きく、かつ、非類似度が小さいデータである。一方、領域Cに含まれるデータは、確率値が小さく、かつ、非類似度が大きいデータである。また、領域Dに含まれるデータは、確率値が大きく、かつ、非類似度が大きいデータである。
【0031】
例えば、領域Aに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性が低く、既に取得されている学習データと類似するデータである可能性が高い。
【0032】
また、領域Bに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性は高いが、既に取得されている学習データと類似するデータである可能性が高い。
【0033】
さらに、領域Cに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性は低い一方、既に取得されている学習データとはまったく異なる非類似のデータである可能性が高い。
【0034】
また、領域Dに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性が高いとともに、既に取得されている学習データとはまったく異なる非類似のデータである可能性が高い。
【0035】
ここで、例えば、確率値の大きいデータほど規格に合格する確率が高くなり、この確率値の大きいデータに基づく機械学習によって回帰モデルを生成することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルを取得することができる。
【0036】
一方、非類似度が大きいデータに基づく機械学習によって回帰モデルを生成することにより、広範囲の配合割合における物理量の値の予測精度を向上可能という適用範囲の広い回帰モデルを取得することができる。
【0037】
したがって、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを構築するためには、領域Dに含まれるデータを追加データとして選択することが望ましいことがわかる。つまり、基本思想は、
図1の領域Dに含まれるデータを追加データとして選択するように獲得関数を設計する。
【0038】
このことから、基本思想では、確率値と、学習データと候補データとの非類似度との積を含むように獲得関数を構成し、候補となる複数の候補データの中から、この積が大きくなる候補データを追加データとして選択するようにしている。これにより、基本思想によれば、
図1に示す領域Dに含まれる候補データを積極的に追加データとして選択することができる結果、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを構築することができる。
【0039】
<<確率値の算出方法>>
上述したように、基本思想では、獲得関数が回帰モデルの目的変数値に基づいて算出される確率値を含んでいる。以下では、この確率値の算出方法について説明する。
【0040】
本実施の形態では、回帰モデルを使用して物理量の予測値を取得することを前提としている。この点に関し、回帰モデルの種類によって、例えば、回帰モデルからの出力(目的変数)は、ピンポイントの数値からなる予測値である場合もあるが、回帰モデルとして、ピンポイントの数値と標準偏差を出力可能な回帰モデルもある。本実施の形態では、例えば、後者に属する回帰モデルを使用することができる。すなわち、本実施の形態では、回帰モデルからの出力が幅を有する分布を構成しており、この分布を利用して物理量の予測を行なうことを前提とする例について説明する。
【0041】
例えば、回帰モデルとしてガウス過程回帰モデルと呼ばれるモデルがある。このガウス過程回帰モデルでは、分布を出力する機能があり、ピンポイントの平均値としての予測値と分布の広がりを決定する標準偏差とを出力することができる。そこで、本実施の形態では、回帰モデルとしてガウス過程回帰モデルを使用し、ガウス過程回帰モデルから出力される平均値(予測値)と標準偏差を利用して確率値を算出する。
【0042】
図2は、確率値を算出する方法を模式的に示す図である。
【0043】
図2において、例えば、ガウス過程回帰モデルからは、物理量の予測値(平均値μ)および標準偏差値(σ)が出力される。これにより、予測値および標準偏差値に基づいて、正規分布を構築することができる。ここで、物理量の目標値として下限値と上限値とが設定されているとすると、
図2に示すグレー領域の面積が規格に合格する確率値に相当する。すなわち、
図2に示されるグレー領域の面積を求めることによって、確率値を算出することができる。例えば、候補データに上述したガウス過程回帰モデルを適用することにより、候補データに対する物理量の予測値と標準偏差値を取得することができる。そして、取得された予測値と標準偏差値から構築される正規分布において、下限値と上限値で挟まれる面積から候補データにおける確率値を算出することができる。
【0044】
なお、下限値と上限値の両方が設定されているときの確率値は、「PTR(Probability in Target Range)」と呼ばれる。また、下限値または上限値だけが設定されているときの確率値は、「PI(Probability of Improvement)」と呼ばれる。本実施の形態で使用する確率値は、「PTR」でもよいし、「PI」でもよい。
【0045】
また、例えば、第1物理量と第2物理量というように物理量が複数種類存在する場合、獲得関数に使用する確率値として、第1物理量が規格に合格する確率を示す第1確率値と、第2物理量が規格に合格する確率を示す第2確率値との積から構成することもできる。この場合、第1確率値および第2確率値のそれぞれは、上述した確率値の算出方法で算出されることになる。そして、第1確率値と第2確率値の積で表される確率値は、第1物理量および第2物理量の両方がそれぞれの規格に合格する確率を表していることになる。
【0046】
<<非類似度の例>>
適用範囲の広い回帰モデルを生成可能な学習データを構築するためには、複数の候補データのうち、既に学習データとして存在するデータとの関係において非類似度が大きい候補データを追加データとして抽出することが望ましい。
【0047】
この点に関し、非類似度は、例えば、学習データと候補データとのデータ間距離に基づいて評価される。具体的に、非類似度の一例として、「k近似法を使用した距離」を挙げることができる。「k近似法を使用した距離」とは、複数のデータのうち、ある特定のデータに着目して、この特定のデータの近傍にあるk個のデータとの距離の平均値である。「k近似法を使用した距離」には、様々な距離があり、例えば、ユークリッド距離、マンハッタン距離、マハラノビス距離あるいはタニモト距離などを挙げることができる。
【0048】
【0049】
図3において、データAの近傍に2つのデータが存在する。このとき、データAのk=2のユークリッド距離は、(L1+L2)/2で定義される。一方、
図3において、データBの近傍にも2つのデータが存在する。このとき、データBのk=2のマンハッタン距離は、(L3+L4)/2で定義される。以上のようにして定義されたデータ間距離によれば、定性的に、データ間距離が大きいほどデータ間の関連性が小さくなると考えられることから、データ間距離が大きいほど非類似度が大きくなるといえる。これにより、例えば、非類似度をデータ間距離で表すことができることがわかる。
【0050】
例えば、
図3では、(X1、X2)という2次元データの例が示されている。(X1、X2)という二次元データとしては、例えば、(樹脂配合量、難燃剤配合量)という樹脂と難燃剤とを含む複合材料を表すデータを考えることができる。この二次元データでは、データ間距離は、二次元距離として表される。このデータ間距離という概念は、容易に一般化される。すなわち、一般的な(X1、X2・・・Xn)というn次元データにおいて、データ間距離は、n次元距離として表される。n次元データとしては、例えば、(第1樹脂の配合量、第2樹脂の配合量、・・・第m樹脂の配合量、第1難燃剤の配合量、第2難燃剤の配合量、・・・第j難燃剤の配合量)というm種類の樹脂とj種類の難燃剤とを含む複合材料(m+j=n)を表すデータを考えることができる。このようにデータ間距離は、一般的に2次元データだけでなく、多次元データに適用することができる。
【0051】
<具現化態様>
以下では、上述した基本思想を具現化した具現化態様について説明する。
【0052】
<<追加データ生成装置の構成>>
<<<ハードウェア構成>>>
本実施の形態おける追加データ生成装置のハードウェア構成について説明する。
【0053】
図4は、具現化態様における追加データ生成装置100のハードウェア構成の一例を示す図である。なお、
図4に示す構成は、あくまでも追加データ生成装置100のハードウェア構成の一例を示すものであり、追加データ生成装置100のハードウェア構成は、
図4に記載されている構成に限らず、他の構成であってもよい。
【0054】
図4において、追加データ生成装置100は、プログラムを実行するCPU(Central Processing Unit)101を備えている。このCPU101は、バス113を介して、例えば、ROM(Read Only Memory)102、RAM(Random Access Memory)103、および、ハードディスク装置112と電気的に接続されており、これらのハードウェアデバイスを制御するように構成されている。
【0055】
また、CPU101は、バス113を介して入力装置や出力装置とも接続されている。入力装置の一例としては、キーボード105、マウス106、通信ボード107、および、スキャナ111などを挙げることができる。一方、出力装置の一例としては、ディスプレイ104、通信ボード107、および、プリンタ110などを挙げることができる。さらに、CPU101は、例えば、リムーバルディスク装置108やCD/DVD-ROM装置109と接続されていてもよい。
【0056】
追加データ生成装置100は、例えば、ネットワークと接続されていてもよい。例えば、追加データ生成装置100がネットワークを介して他の外部機器と接続されている場合、追加データ生成装置100の一部を構成する通信ボード107は、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)やインターネットに接続される。
【0057】
RAM103は、揮発性メモリの一例であり、ROM102、リムーバルディスク装置108、CD/DVD-ROM装置109、ハードディスク装置112の記録媒体は、不揮発性メモリの一例である。これらの揮発性メモリや不揮発性メモリによって、追加データ生成装置100の記憶装置が構成される。
【0058】
ハードディスク装置112には、例えば、オペレーティングシステム(OS)201、プログラム群202、および、ファイル群203が記憶されている。プログラム群202に含まれるプログラムは、CPU101がオペレーティングシステム201を利用しながら実行する。また、RAM103には、CPU101に実行させるオペレーティングシステム201のプログラムやアプリケーションプログラムの少なくとも一部が一次的に格納されるとともに、CPU101による処理に必要な各種データが格納される。
【0059】
ROM102には、BIOS(Basic Input Output System)プログラムが記憶され、ハードディスク装置112には、ブートプログラムが記憶されている。追加データ生成装置100の起動時には、ROM102に記憶されているBIOSプログラムおよびハードディスク装置112に記憶されているブートプログラムが実行され、BIOSプログラムおよびブートプログラムにより、オペレーティングシステム201が起動される。
【0060】
プログラム群202には、追加データ生成装置100の機能を実現するプログラムが記憶されており、このプログラムは、CPU101により読み出されて実行される。また、ファイル群203には、CPU101による処理の結果を示す情報、データ、信号値、変数値やパラメータがファイルの各項目として記憶されている。
【0061】
ファイルは、ハードディスク装置112やメモリなどの記録媒体に記録される。ハードディスク装置112やメモリなどの記録媒体に記録された情報、データ、信号値、変数値やパラメータは、CPU101によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・処理・編集・出力・印刷・表示に代表されるCPU101の動作に使用される。例えば、上述したCPU101の動作の間、情報、データ、信号値、変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリなどに一次的に記憶される。
【0062】
追加データ生成装置100の機能は、ROM102に記憶されたファームウェアで実現されていてもよいし、あるいは、ソフトウェアのみ、素子・デバイス・基板・配線に代表されるハードウェアのみ、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実現されていてもよい。ファームウェアとソフトウェアは、プログラムとして、ハードディスク装置112、リムーバルディスク、CD-ROM、DVD-ROMなどに代表される記録媒体に記録される。プログラムは、CPU101により読み出されて実行される。すなわち、プログラムは、コンピュータを追加データ生成装置100として機能させるものである。
【0063】
このように、追加データ生成装置100は、処理装置であるCPU101、記憶装置であるハードディスク装置112やメモリ、入力装置であるキーボード105、マウス106、通信ボード107、出力装置であるディスプレイ104、プリンタ110、通信ボード107を備えるコンピュータである。そして、追加データ生成装置100の機能は、処理装置、記憶装置、入力装置、および、出力装置を利用して実現される。
【0064】
<<<機能ブロック構成>>>
次に、追加データ生成装置100の機能ブロック構成について説明する。
【0065】
図5は、追加データ生成装置100の機能ブロック図である。
【0066】
追加データ生成装置100は、入力部301、確率値算出部302、データ間距離算出部303、追加データ選択部304、出力部305およびデータ記憶部306を有する。
【0067】
入力部301は、各種データや関数を入力するように構成されている。具体的に、入力部301は、学習データおよび候補データに代表されるデータや、回帰モデルおよび獲得関数に代表される関数を入力するように構成されている。そして、入力部301に入力された学習データ、候補データ、回帰モデルおよび獲得関数は、データ記憶部306に記憶される。すなわち、データ記憶部306は、学習データ、候補データ、回帰モデルおよび獲得関数を記憶するデータベースとして機能する。
【0068】
ここで、「学習データ」とは、複合材料に含まれる構成材料の材料名および配合割合を含む配合情報と物理量との対応関係が既知のデータ群から構成されており、回帰モデルを機械学習させる際の教師データとなるデータ群を意味する。
【0069】
「候補データ」とは、学習データに追加する追加データの候補となるデータであって、対応する物理量の値が未知の配合情報から構成されるデータである。
【0070】
「回帰モデル」とは、未知複合材料に含まれる構成材料の材料名および配合割合を含む配合情報を入力すると、物理量の予測値を出力する関数である。この回帰モデルは、配合情報と物理量との対応関係が既知の上述した学習データを教師データとする機械学習によって生成することができる。特に、具現化態様では、「回帰モデル」として、物理量の予測値および標準偏差値の両方を出力可能なガウス過程回帰モデルが採用されている。
【0071】
「獲得関数」とは、複数の候補データから追加データを選択するために使用される関数であって、例えば、「獲得関数」は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との積を含むように構成されている。特に、具現化態様において、「獲得関数」は、ガウス過程回帰モデルから出力される予測値と標準偏差値から算出される確率値と、学習データと候補データに基づいて算出されるデータ間距離との積から構成されている。
【0072】
確率値算出部302は、候補データの配合割合をガウス過程回帰モデルに入力することにより、ガウス過程回帰モデルから出力される物理量の予測値および標準偏差値に基づいて、規格に合格する確率値を算出するように構成されている。具体的には、確率値算出部302は、「<<確率値の算出方法>>」で説明した方法によって、確率値を算出する。
【0073】
確率値算出部302による確率値の算出は、複数の候補データのそれぞれについて実施され、複数の候補データのそれぞれに対応する確率値は、それぞれの候補データに関連付けられてデータ記憶部306に記憶される。
【0074】
データ間距離算出部303は、学習データと候補データに基づいて、データ間距離を算出するように構成されている(
図3参照)。例えば、データ間距離算出部303は、複数の候補データのそれぞれに対して、学習データとのデータ間距離を算出するように構成され、データ間距離算出部303で算出されたデータ間距離は、対応するそれぞれの候補データに関連付けられてデータ記憶部306に記憶される。
【0075】
追加データ選択部304は、複数の候補データのそれぞれについて、対応する確率値とデータ間距離とを獲得関数に入力することにより、獲得関数から出力される出力値を取得するように構成されている。そして、追加データ選択部304は、複数の候補データのそれぞれに対して得られた獲得関数の出力値を比較し、少なくとも、獲得関数の出力値が大きい候補データを追加データとして選択する機能を有している。
【0076】
そして、追加データ選択部304で選択された追加データは、学習データの一部としてデータ記憶部306に記憶される。
【0077】
出力部305は、例えば、追加データ選択部304で選択された追加データを表示する機能を有している。以上のようにして、追加データ生成装置100が構成されている。
【0078】
なお、追加データ生成装置100で有効な追加データを追加した学習データが構築されるが、この学習データは、回帰モデルを機械学習するための教師データとして使用される。このとき、追加データ生成装置100で構築された学習データによれば、有効な追加データが含まれているので、この学習データを教師データに使用して回帰モデルを機械学習することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することができる。
【0079】
ここで、必ずしも必須ではないが、追加データ生成装置100に、回帰モデルを生成する回帰モデル生成部を設けてもよい。この場合、回帰モデル生成部において、有効な追加データを含む学習データを教師データとする機械学習を実施することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することができる。ただし、回帰モデル生成部は、追加データ生成装置100に設けられている必要はなく、追加データ生成装置100とは別に設けられた回帰モデル生成装置として機能するコンピュータに備えられていてもよい。
【0080】
この場合、コンピュータは、追加データ生成装置100から有効な追加データを含む学習データを取得して、取得した学習データを教師データとする機械学習を実施することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成するように構成される。
【0081】
<<追加データ生成装置の動作>>
具現化態様における追加データ生成装置100は、上記のように構成されており、以下のその動作について説明する。
【0082】
図6は、追加データ生成装置100の動作を説明するフローチャートである。
【0083】
図6において、まず、学習データが予めデータ記憶部306に記憶されているものとする。そして、複数の候補データを入力部301に入力する(S101)。入力部301に入力された複数の候補データは、データ記憶部306に記憶される。
【0084】
次に、例えば、データ記憶部306には、回帰モデルが予め記憶されており、追加データ生成装置100は、この回帰モデルに候補データを入力することにより(S102)、候補データに対応した物理量の予測値および標準偏差値を取得する(S103)。
【0085】
続いて、確率値算出部302は、上述した予測値および標準偏差値に基づいて、規格に合格する確率値を算出する(S104)。一方、データ間距離算出部303は、学習データと候補データに基づいて、データ間距離を算出する(S105)。
【0086】
次に、追加データ選択部304は、確率値算出部302で算出した確率値と、データ間距離算出部303で算出したデータ間距離の値を獲得関数に入力し(S106)、獲得関数から出力された出力値を記憶する。
【0087】
その後、追加データ選択部304は、次の候補データがあるか否かを判断し(S107)、さらなる候補データがある場合は、ステップS102に戻る。一方、さらなる候補データがない場合は、追加データの選択をする(S108)。具体的に、追加データ選択部304は、複数の候補データのそれぞれに対して得られた獲得関数の出力値を比較し、少なくとも、獲得関数の出力値が最も大きい候補データを追加データとして選択する。そして、追加データ生成装置100は、追加データ選択部304によって選択された追加データを学習データの一部として追加する(S109)。つまり、追加データは、学習データの一部としてデータ記憶部306に記憶される。以上のようにして、追加データ生成装置100によれば、学習データに追加データを追加する動作を実施することができる。
【0088】
なお、追加データ選択部304で選択された追加データは、この段階では、対応する物理量の値が未知の配合情報から構成されているデータである。このことから、配合情報と物理量との対応関係が既知のデータ群から構成されている学習データに追加データを追加するためには、追加データの配合情報に対応する物理量を実験によって取得する必要があり、実験によって物理量が取得された後に、追加データが学習データの一部として追加されることはいうまでもない。
【0089】
<<追加データ生成プログラム>>
上述した追加データ生成装置100で実施される追加データ生成方法は、回帰モデルを機械学習させるための教師データである学習データに追加する追加データを生成する処理をコンピュータに実行させる追加データ生成プログラムにより実現できる。
【0090】
例えば、
図4に示すコンピュータからなる追加データ生成装置100において、ハードディスク装置112に記憶されているプログラム群202の1つとして、具現化態様における追加データ生成プログラムを導入することができる。そして、この追加データ生成プログラムを追加データ生成装置100であるコンピュータに実行させることにより、具現化態様における追加データ生成方法を実現することができる。
【0091】
追加データ生成処理に関するデータを作成するための各処理をコンピュータに実行させる追加データ生成プログラムは、コンピュータで読み取り可能な記録媒体に記録して頒布可能である。記録媒体には、ハードディスクやフレキシブルディスクに代表される磁気記憶媒体、CD-ROMやDVD-ROMに代表される光学記憶媒体、ROMやEEPROMなどの不揮発性メモリに代表されるハードウェアデバイスなどが含まれる。
【0092】
<<具体例>>
図7は、具体例における追加データ生成方法の概要を説明する図である。
【0093】
図7において、まず、具体例では、データ数(n)がn=235の学習データが存在するとする。そして、この学習データを教師データとする機械学習によって、第1回帰モデルが生成される。一方、物理量の値が未知の配合(配合割合)に基づいて、データ数(n)がn=163800である複数の候補データを準備する。
【0094】
その後、複数の候補データのそれぞれに対して、確率値とデータ間距離を算出し、算出した確率値とデータ間距離を獲得関数に入力することにより、獲得関数から出力される出力値を取得する。すなわち、複数の候補データのそれぞれに対応して獲得関数からの出力値を取得する。続いて、複数の候補データのそれぞれに対応して取得された獲得関数の出力値に基づいて、第1追加データを選択する。具体的には、獲得関数の出力値が最も大きい候補データを第1追加データとして選択する。
【0095】
選択された第1追加データは、学習データに組み込まれる結果、データ数(n)がn=236の学習データが構築される。その後、この学習データを教師データとする機械学習によって、第2回帰モデルが生成される。一方、上述した複数の候補データから第1追加データを除いたデータ数(n)がn=163799である複数の候補データのそれぞれに対して、確率値とデータ間距離を算出し、算出した確率値とデータ間距離を獲得関数に入力することにより、獲得関数から出力される出力値を取得する。すなわち、複数の候補データのそれぞれに対応して獲得関数からの出力値を取得する。続いて、複数の候補データのそれぞれに対応して取得された獲得関数の出力値に基づいて、第2追加データを選択する。具体的には、獲得関数の出力値が最も大きい候補データを第2追加データとして選択する。選択された第2追加データは、学習データに組み込まれる結果、データ数(n)がn=237の学習データが構築される。その後、この学習データを教師データとする機械学習によって、第3回帰モデルが生成される。以後、同様の処理が繰り返される。
【0096】
このようにして、具体例によれば、獲得関数からの出力値が最も大きい有用な追加データを追加することにより学習データの拡充が繰り返される(「第1追加データの追加」→「第2追加データの追加」)。この結果、繰り返し拡充された学習データを教師データとする機械学習によって、例えば、「第1回帰モデル」→「第2回帰モデル」→「第3回帰モデル」というように回帰モデルが更新される。これにより、学習データの拡充を繰り返すことによって、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することが可能となる。
【0097】
以下に、具体例を説明する。
【0098】
具体例では、候補データを19次元データから構成する例を説明する。例えば、複数の候補データのそれぞれは、14種類の樹脂のうちの3種類の樹脂が使用されるとともに、5種類の難燃剤のうちの1種類の難燃剤が使用される。すなわち、複数の候補データのそれぞれは、樹脂Aから樹脂Nのうちの3種類の樹脂と、難燃剤Oから難燃剤Sのうちの1種類の難燃剤とを所定の配合割合で含む複合材料のデータである。
【0099】
1.第1追加データの探索
図8は、第1追加データの探索結果を示す表である。
【0100】
図8には、獲得関数の出力値が高い上位10配合の候補データが示されている。
【0101】
図8において、例えば、獲得関数の出力値が最も高い候補データ#1は、樹脂K、樹脂M、樹脂Nおよび難燃剤Rを含み、配合割合が樹脂K:樹脂M:樹脂N:難燃剤R=30質量部:20質量部:50質量部:200質量部のデータであり、この候補データ#1が第1追加データとして選択される。
【0102】
2.第2追加データの探索
図9は、第2追加データの探索結果を示す表である。
【0103】
図9には、獲得関数の出力値が高い上位10配合の候補データが示されている。
【0104】
図9において、例えば、獲得関数の出力値が最も高い候補データ#2は、樹脂C、樹脂F、樹脂Nおよび難燃剤Qを含み、配合割合が樹脂C:樹脂F:樹脂N:難燃剤Q=20質量部:40質量部:40質量部:120質量部のデータであり、この候補データ#2が第2追加データとして選択される。
【0105】
3.
図8と
図9との比較
第1回目の探索結果を示す
図8と第2回目の探索結果を示す
図9を比較すると、第1追加データとして、候補データ#1が選択されている一方、第2追加データとして、候補データ#2が選択されている。そして、
図8において候補データ#1と異なる配合を有する候補データ#2、候補データ#7および候補データ#10が、
図9において上位に挙げられていることがわかる。一方、
図8において上位に挙げられていた候補データ#3、候補データ#4、候補データ#5、候補データ#6、候補データ#8および候補データ#9は、第1追加データとして選択された候補データ#1と配合が類似するため、
図9においては、上位10配合に挙げられていないことがわかる。
【0106】
以上のことから、
図8と
図9において、配合(配合割合)が非類似の候補データを選択することができており、具体例によれば、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択できることがわかる。したがって、具体例によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することが可能な学習データ(教師データ)を効率的に拡充できることが裏付けられているといえる。
【0107】
<<具現化態様における特徴>>
次に、具現化態様における特徴点について説明する。
【0108】
具現化態様における特徴点は、教師データとなる学習データに追加する追加データを選択するために使用される獲得関数を規格に合格する確率値とデータ間の非類似度を示すデータ間距離との積から構成する点にある。これにより、例えば、追加データの候補となる複数の候補データのうち、少なくとも、獲得関数からの出力値が最も大きくなる候補データを追加データとして選択することにより、学習データに、確率値が高く、かつ、非類似度の大きなデータを追加することができる。この結果、特徴点によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを構築することができる。すなわち、具現化態様によれば、回帰モデルにおける予測精度の向上と適用範囲の増大とを実現するように、教師データとなる学習データを効率的に拡充することができる。
【0109】
以上、本発明者によってなされた発明をその実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【符号の説明】
【0110】
100 追加データ生成装置
101 CPU
102 ROM
103 RAM
104 ディスプレイ
105 キーボード
106 マウス
107 通信ボード
108 リムーバルディスク装置
109 CD/DVD-ROM装置
110 プリンタ
111 スキャナ
112 ハードディスク装置
113 バス
201 オペレーティングシステム
202 プログラム群
203 ファイル群
301 入力部
302 確率値算出部
303 データ間距離算出部
304 追加データ選択部
305 出力部
306 データ記憶部