特開2024-148029 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立金属株式会社の特許一覧

特開2024-148029追加データ生成方法、追加データ生成装置、プログラムおよび記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024148029

(43)【公開日】2024-10-17

(54)【発明の名称】追加データ生成方法、追加データ生成装置、プログラムおよび記録媒体

(51)【国際特許分類】

G06N 20/00 20190101AFI20241009BHJP

G06F 18/27 20230101ALI20241009BHJP

【ＦＩ】

G06N20/00 130

G06F18/27

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023060909

(22)【出願日】2023-04-04

(71)【出願人】

【識別番号】000005083

【氏名又は名称】株式会社プロテリアル

(74)【代理人】

【識別番号】110002066

【氏名又は名称】弁理士法人筒井国際特許事務所

(72)【発明者】

【氏名】渡邊智紀

(72)【発明者】

【氏名】社内大介

(57)【要約】

【課題】広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択する手法を確立する。
【解決手段】本開示は、学習データに追加する追加データを複数の候補データから選択するために使用される獲得関数が、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含むように構成されていることを前提として、少なくとも、演算値が最も大きくなる候補データを追加データとして選択する。
【選択図】図６

【特許請求の範囲】

【請求項1】

回帰モデルを機械学習させるための学習データに追加する追加データをコンピュータが生成する追加データ生成方法であって、
コンピュータが前記追加データの候補となる複数の候補データを入力する工程、
コンピュータが獲得関数に基づいて、前記複数の候補データから前記追加データを選択する工程、
を備え、
前記獲得関数は、前記回帰モデルの目的変数値に基づいて算出される確率値と、前記学習データと前記候補データとの非類似度との演算値を含む、追加データ生成方法。

【請求項2】

請求項１に記載の追加データ生成方法において、
前記非類似度は、前記学習データと前記候補データとのデータ間距離に基づいて評価される、追加データ生成方法。

【請求項3】

請求項１に記載の追加データ生成方法において、
前記追加データを選択する工程は、少なくとも、前記演算値の値が最も大きい候補データを前記追加データとして選択する、追加データ生成方法。

【請求項4】

請求項１に記載の追加データ生成方法において、
前記回帰モデルは、ガウス過程回帰モデルであり、
前記確率値は、前記回帰モデルから出力される推定値および標準偏差値に基づいて算出される、追加データ生成方法。

【請求項5】

請求項１に記載の追加データ生成方法において、
前記回帰モデルは、物理量の値が未知である未知複合材料に含まれる構成材料の材料名および配合割合を含む配合情報を入力すると、前記物理量の予測値を出力する関数である、追加データ生成方法。

【請求項6】

回帰モデルを機械学習させるための学習データに追加する追加データを生成する追加データ生成装置であって、
前記追加データの候補となる複数の候補データを入力する入力部と、
獲得関数に基づいて、前記入力部に入力された前記複数の候補データから前記追加データを選択する追加データ選択部と、
を備え、
前記獲得関数は、前記回帰モデルの目的変数値に基づいて算出される確率値と、前記学習データと前記候補データとの非類似度との演算値を含む、追加データ生成装置。

【請求項7】

回帰モデルを機械学習させるための学習データに追加する追加データを生成する処理をコンピュータに実行させるプログラムであって、
前記追加データの候補となる複数の候補データを入力する処理と、
獲得関数に基づいて、前記複数の候補データから前記追加データを選択する処理と、
を備え、
前記獲得関数は、前記回帰モデルの目的変数値に基づいて算出される確率値と、前記学習データと前記候補データとの非類似度との演算値を含む、プログラム。

【請求項8】

請求項７に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、追加データ生成方法、追加データ生成装置、プログラムおよび記録媒体に関し、例えば、回帰モデルを機械学習させるための学習データに追加データを追加する技術に適用して有効な技術に関する。

【背景技術】

【0002】

特開２０２０－３８４９５号公報（特許文献１）には、学習用入力データのサンプル数を回帰分析によって補完することでサンプル数を増加させる技術が記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－３８４９５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、回帰モデルの予測精度を向上させるためには、回帰モデルを機械学習させるための学習データに含まれるデータ数を増加させることが有効である。ただし、学習データに含まれるデータ数を増加させる場合において、類似する同じようなデータの数を増加させても、学習データに基づく機械学習によって、広範囲における予測精度を向上できる回帰モデルを生成することは困難である。すなわち、機械学習に使用する学習データによって、生成される回帰モデルの良否が左右される。このことから、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択する手法を確立することが望まれている。

【課題を解決するための手段】

【0005】

一実施の形態における追加データ生成方法は、回帰モデルを機械学習させるための学習データに追加する追加データをコンピュータが生成する追加データ生成方法である。ここで、追加データ生成方法は、コンピュータが追加データの候補となる複数の候補データを入力する工程、コンピュータが獲得関数に基づいて、複数の候補データから追加データを選択する工程、を備える。このとき、獲得関数は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含む。

【0006】

一実施の形態における追加データ生成装置は、回帰モデルを機械学習させるための学習データに追加する追加データを生成する追加データ生成装置である。ここで、追加データ生成装置は、追加データの候補となる複数の候補データを入力する入力部と、獲得関数に基づいて、入力部に入力された複数の候補データから追加データを選択する追加データ選択部と、を備える。このとき、獲得関数は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含む。

【0007】

一実施の形態におけるプログラムは、回帰モデルを機械学習させるための学習データに追加する追加データを生成する処理をコンピュータに実行させるプログラムである。ここで、プログラムは、追加データの候補となる複数の候補データを入力する処理と、獲得関数に基づいて、複数の候補データから追加データを選択する処理と、を備える。このとき、獲得関数は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含む。

【発明の効果】

【0008】

一実施の形態によれば、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択する手法を確立できる。

【図面の簡単な説明】

【0009】

【図1】基本思想のコンセプトを説明する図である。

【図2】確率値を算出する方法を模式的に示す図である。

【図3】データ間距離を模式的に示す図である。

【図4】追加データ生成装置のハードウェア構成の一例を示す図である。

【図5】追加データ生成装置の機能ブロック図である。

【図6】追加データ生成装置の動作を説明するフローチャートである。

【図7】追加データ生成方法の概要を説明する図である。

【図8】第１追加データの探索結果を示す表である。

【図9】第２追加データの探索結果を示す表である。

【発明を実施するための形態】

【0010】

実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。なお、図面をわかりやすくするために平面図であってもハッチングを付す場合がある。

【0011】

本実施の形態における技術的思想は、複数種類の樹脂や配合剤を複合化した複合材料での配合割合に対応する物理量を予測する回帰モデルを機械学習させるために使用される学習データに関する技術的思想である。詳細には、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを追加データの候補となる複数の候補データから選択する手法に関する技術的思想である。

【0012】

ここで、複合材料は、例えば、樹脂や配合剤を含む電線被覆材料を挙げることができ、物理量としては、例えば、複合材料の伸びや引張強さを挙げることができる。

【0013】

樹脂は、例えば、高密度ポリエチレン、低密度ポリエチレン、エチレンアクリル酸共重合体などのポリオレフィンや、塩素化ポリエチレンなどのエラストマである。一方、配合剤としては、例えば、タルク、炭酸カルシウム、シリカなどのフィラー、可塑剤、架橋剤および安定剤を挙げることができる。ただし、複合材料を構成する樹脂や配合剤などの組成物の種類や数は、限定されるものではない。

【0014】

なお、本実施の形態における技術的思想は、複数種類の樹脂や配合剤を複合化した複合材料だけでなく、複数種類の磁性体材料を複合化した複合材料にも適用可能であり、物理量としては、例えば、磁化率や磁場（磁界、磁束密度）の強さを挙げることができる。

【0015】

＜改善の検討＞
例えば、回帰モデルを使用することにより、物理量の値が未知の未知複合材料に関する物理量を予測することが検討されている。ここで、回帰モデルは、未知複合材料に含まれる構成材料の材料名および配合割合を含む配合情報を入力すると、物理量の予測値を出力する関数である。この回帰モデルは、配合情報と物理量との対応関係が既知の学習データを教師データとする機械学習によって生成することができる。

【0016】

この点に関し、学習データを拡充することによって、回帰モデルにおける予測精度を高めることができる。すなわち、予測精度の高い回帰モデルを取得するためには、学習データを拡充することが重要である。

【0017】

学習データを拡充することを目的とする手法であって効率的に学習データに追加データを追加する手法として、ベイズ最適化と呼ばれる手法がある。このベイズ最適化では、獲得関数を使用して、追加データの候補となる複数の候補データから追加データを選択することが行われる。このとき、有効な追加データを選択できるようにするためには、適切に獲得関数を設計する必要がある。つまり、ベイズ最適化によって、有効な追加データを選択するためには、適切な獲得関数を設計することが重要となる。

【0018】

ここで、有効な追加データとは、広範囲な配合割合における予測精度を向上できる回帰モデルを生成することに寄与するデータであり、具体的に、以下の条件を満たすデータである。すなわち、有効な追加データとは、（１）必要な物理量の値を満たす未知の配合割合に関するデータであり、（２）既に取得されている学習データとは大きく異なる非類似の配合情報を有するデータである。このような有効な追加データを追加データの候補となる複数の候補データから選択することができる獲得関数を設計することが望ましいが、上述した条件を満たす有効な追加データを選択可能な獲得関数を設計することは難しい。

【0019】

そこで、本実施の形態では、上述した条件を満たす有効な追加データを選択可能な獲得関数を設計するための工夫を施している。

【0020】

以下では、この工夫を施した技術的思想について説明する。

【0021】

＜実施の形態における基本思想＞
本実施の形態における基本思想は、学習データに追加する追加データを複数の候補データから選択するために使用される獲得関数が、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との演算値を含むように構成されていることを前提として、少なくとも、この演算値が最も大きくなる候補データを追加データとして選択する思想である。この基本思想によれば、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択できる。言い換えれば、基本思想により選択された追加データを含む学習データを教師データとして回帰モデルを機械学習することにより、広範囲の配合割合における物理量の値の予測精度を向上可能な回帰モデルを生成することができる。つまり、基本思想によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを生成することができる。

【0022】

ここで、基本思想によれば、獲得関数が回帰モデルの目的変数値に基づいて算出される確率値を含んでおり、この確率値は、予測値が規格に合格する確率を表している。そして、基本思想では、この確率値が大きいデータを候補となる複数の候補データの中から選択するのであり、このことは、回帰モデルから出力される予測値が規格に合格する確率が高い候補データを追加データとして選択することを意味する。したがって、基本思想における獲得関数に基づいて選択される追加データは、必要な物理量の値を満たすデータであるという要件を満たしている可能性が高い。

【0023】

さらに、基本思想によれば、獲得関数が学習データと候補データとの非類似度を含んでおり、この非類似度が大きいデータを選択する。このことは、学習データに含まれる既存のデータとは全く異なるデータが追加データとして選択されることを意味している。したがって、基本思想における獲得関数に基づいて選択される追加データは、既に取得されている学習データとは大きく異なる非類似のデータである可能性が高い。

【0024】

以上のことから、基本思想では、追加データを選択するための獲得関数として、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との積を含む獲得関数を使用して、複数の候補データの中から、この積が大きくなる候補データを追加データとして選択する。この結果、基本思想によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを用意することができる。

【0025】

基本思想の重要な点は、獲得関数が回帰モデルの目的変数値に基づいて算出される確率値だけを含むのではなく、この確率値と、学習データと候補データとの非類似度との演算値を含むように構成されている点である。

【0026】

例えば、確率値だけを含む獲得関数を使用して、候補となる複数の候補データの中から追加データを選択する場合、選択された追加データが既に学習データに含まれているデータと類似する傾向がある。したがって、確率値だけを含む獲得関数を使用することにより追加データを選択して学習データに含まれるデータ数を増加させたとしても、類似する同じようなデータの数を増加させることになる結果、学習データに基づく機械学習によって、適用範囲の広い回帰モデルを生成することは困難となる。

【0027】

これに対し、基本思想では、確率値だけを含むのではなく、この確率値と、学習データと候補データとの非類似度との演算値を含むように構成されており、候補となる複数の候補データの中から、この演算値が大きくなる候補データを追加データとして選択している。このため、基本思想では、確率値が大きくても非類似度が小さい候補データは選択されない一方、確率値と非類似度の両方が大きい候補データが選択される。したがって、基本思想によれば、非類似のデータ数を増加させることができる結果、学習データに基づく機械学習によって、適用範囲の広い回帰モデルを生成することができる。

【0028】

ここで、「確率値と非類似度との演算値」には、例えば、確率値と非類似度の積や、確率値と非類似度の和が含まれる。以下では、「確率値と非類似度との演算値」の一例として、確率値と非類似度の積を取り上げて説明する。

【0029】

図１は、基本思想のコンセプトを説明する図である。

【0030】

図１において、確率値と非類似度によって、データが複数の領域Ａから領域Ｄに分類されている。例えば、図１に示すように、領域Ａに含まれるデータは、確率値が小さく、かつ、非類似度が小さいデータである。また、領域Ｂに含まれるデータは、確率値が大きく、かつ、非類似度が小さいデータである。一方、領域Ｃに含まれるデータは、確率値が小さく、かつ、非類似度が大きいデータである。また、領域Ｄに含まれるデータは、確率値が大きく、かつ、非類似度が大きいデータである。

【0031】

例えば、領域Ａに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性が低く、既に取得されている学習データと類似するデータである可能性が高い。

【0032】

また、領域Ｂに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性は高いが、既に取得されている学習データと類似するデータである可能性が高い。

【0033】

さらに、領域Ｃに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性は低い一方、既に取得されている学習データとはまったく異なる非類似のデータである可能性が高い。

【0034】

また、領域Ｄに含まれるデータを追加データとして選択すると、この追加データは、必要な物理量の値を満たすデータである可能性が高いとともに、既に取得されている学習データとはまったく異なる非類似のデータである可能性が高い。

【0035】

ここで、例えば、確率値の大きいデータほど規格に合格する確率が高くなり、この確率値の大きいデータに基づく機械学習によって回帰モデルを生成することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルを取得することができる。

【0036】

一方、非類似度が大きいデータに基づく機械学習によって回帰モデルを生成することにより、広範囲の配合割合における物理量の値の予測精度を向上可能という適用範囲の広い回帰モデルを取得することができる。

【0037】

したがって、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを構築するためには、領域Ｄに含まれるデータを追加データとして選択することが望ましいことがわかる。つまり、基本思想は、図１の領域Ｄに含まれるデータを追加データとして選択するように獲得関数を設計する。

【0038】

このことから、基本思想では、確率値と、学習データと候補データとの非類似度との積を含むように獲得関数を構成し、候補となる複数の候補データの中から、この積が大きくなる候補データを追加データとして選択するようにしている。これにより、基本思想によれば、図１に示す領域Ｄに含まれる候補データを積極的に追加データとして選択することができる結果、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを構築することができる。

【0039】

＜＜確率値の算出方法＞＞
上述したように、基本思想では、獲得関数が回帰モデルの目的変数値に基づいて算出される確率値を含んでいる。以下では、この確率値の算出方法について説明する。

【0040】

本実施の形態では、回帰モデルを使用して物理量の予測値を取得することを前提としている。この点に関し、回帰モデルの種類によって、例えば、回帰モデルからの出力（目的変数）は、ピンポイントの数値からなる予測値である場合もあるが、回帰モデルとして、ピンポイントの数値と標準偏差を出力可能な回帰モデルもある。本実施の形態では、例えば、後者に属する回帰モデルを使用することができる。すなわち、本実施の形態では、回帰モデルからの出力が幅を有する分布を構成しており、この分布を利用して物理量の予測を行なうことを前提とする例について説明する。

【0041】

例えば、回帰モデルとしてガウス過程回帰モデルと呼ばれるモデルがある。このガウス過程回帰モデルでは、分布を出力する機能があり、ピンポイントの平均値としての予測値と分布の広がりを決定する標準偏差とを出力することができる。そこで、本実施の形態では、回帰モデルとしてガウス過程回帰モデルを使用し、ガウス過程回帰モデルから出力される平均値（予測値）と標準偏差を利用して確率値を算出する。

【0042】

図２は、確率値を算出する方法を模式的に示す図である。

【0043】

図２において、例えば、ガウス過程回帰モデルからは、物理量の予測値（平均値μ）および標準偏差値（σ）が出力される。これにより、予測値および標準偏差値に基づいて、正規分布を構築することができる。ここで、物理量の目標値として下限値と上限値とが設定されているとすると、図２に示すグレー領域の面積が規格に合格する確率値に相当する。すなわち、図２に示されるグレー領域の面積を求めることによって、確率値を算出することができる。例えば、候補データに上述したガウス過程回帰モデルを適用することにより、候補データに対する物理量の予測値と標準偏差値を取得することができる。そして、取得された予測値と標準偏差値から構築される正規分布において、下限値と上限値で挟まれる面積から候補データにおける確率値を算出することができる。

【0044】

なお、下限値と上限値の両方が設定されているときの確率値は、「ＰＴＲ（Probability in Target Range）」と呼ばれる。また、下限値または上限値だけが設定されているときの確率値は、「ＰＩ（Probability of Improvement）」と呼ばれる。本実施の形態で使用する確率値は、「ＰＴＲ」でもよいし、「ＰＩ」でもよい。

【0045】

また、例えば、第１物理量と第２物理量というように物理量が複数種類存在する場合、獲得関数に使用する確率値として、第１物理量が規格に合格する確率を示す第１確率値と、第２物理量が規格に合格する確率を示す第２確率値との積から構成することもできる。この場合、第１確率値および第２確率値のそれぞれは、上述した確率値の算出方法で算出されることになる。そして、第１確率値と第２確率値の積で表される確率値は、第１物理量および第２物理量の両方がそれぞれの規格に合格する確率を表していることになる。

【0046】

＜＜非類似度の例＞＞
適用範囲の広い回帰モデルを生成可能な学習データを構築するためには、複数の候補データのうち、既に学習データとして存在するデータとの関係において非類似度が大きい候補データを追加データとして抽出することが望ましい。

【0047】

この点に関し、非類似度は、例えば、学習データと候補データとのデータ間距離に基づいて評価される。具体的に、非類似度の一例として、「ｋ近似法を使用した距離」を挙げることができる。「ｋ近似法を使用した距離」とは、複数のデータのうち、ある特定のデータに着目して、この特定のデータの近傍にあるｋ個のデータとの距離の平均値である。「ｋ近似法を使用した距離」には、様々な距離があり、例えば、ユークリッド距離、マンハッタン距離、マハラノビス距離あるいはタニモト距離などを挙げることができる。

【0048】

図３は、データ間距離を模式的に示す図である。

【0049】

図３において、データＡの近傍に２つのデータが存在する。このとき、データＡのｋ＝２のユークリッド距離は、（Ｌ１＋Ｌ２）／２で定義される。一方、図３において、データＢの近傍にも２つのデータが存在する。このとき、データＢのｋ＝２のマンハッタン距離は、（Ｌ３＋Ｌ４）／２で定義される。以上のようにして定義されたデータ間距離によれば、定性的に、データ間距離が大きいほどデータ間の関連性が小さくなると考えられることから、データ間距離が大きいほど非類似度が大きくなるといえる。これにより、例えば、非類似度をデータ間距離で表すことができることがわかる。

【0050】

例えば、図３では、（Ｘ１、Ｘ２）という２次元データの例が示されている。（Ｘ１、Ｘ２）という二次元データとしては、例えば、（樹脂配合量、難燃剤配合量）という樹脂と難燃剤とを含む複合材料を表すデータを考えることができる。この二次元データでは、データ間距離は、二次元距離として表される。このデータ間距離という概念は、容易に一般化される。すなわち、一般的な（Ｘ１、Ｘ２・・・Ｘｎ）というｎ次元データにおいて、データ間距離は、ｎ次元距離として表される。ｎ次元データとしては、例えば、（第１樹脂の配合量、第２樹脂の配合量、・・・第ｍ樹脂の配合量、第１難燃剤の配合量、第２難燃剤の配合量、・・・第ｊ難燃剤の配合量）というｍ種類の樹脂とｊ種類の難燃剤とを含む複合材料（ｍ＋ｊ＝ｎ）を表すデータを考えることができる。このようにデータ間距離は、一般的に２次元データだけでなく、多次元データに適用することができる。

【0051】

＜具現化態様＞
以下では、上述した基本思想を具現化した具現化態様について説明する。

【0052】

＜＜追加データ生成装置の構成＞＞
＜＜＜ハードウェア構成＞＞＞
本実施の形態おける追加データ生成装置のハードウェア構成について説明する。

【0053】

図４は、具現化態様における追加データ生成装置１００のハードウェア構成の一例を示す図である。なお、図４に示す構成は、あくまでも追加データ生成装置１００のハードウェア構成の一例を示すものであり、追加データ生成装置１００のハードウェア構成は、図４に記載されている構成に限らず、他の構成であってもよい。

【0054】

図４において、追加データ生成装置１００は、プログラムを実行するＣＰＵ（Central Processing Unit）１０１を備えている。このＣＰＵ１０１は、バス１１３を介して、例えば、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、および、ハードディスク装置１１２と電気的に接続されており、これらのハードウェアデバイスを制御するように構成されている。

【0055】

また、ＣＰＵ１０１は、バス１１３を介して入力装置や出力装置とも接続されている。入力装置の一例としては、キーボード１０５、マウス１０６、通信ボード１０７、および、スキャナ１１１などを挙げることができる。一方、出力装置の一例としては、ディスプレイ１０４、通信ボード１０７、および、プリンタ１１０などを挙げることができる。さらに、ＣＰＵ１０１は、例えば、リムーバルディスク装置１０８やＣＤ／ＤＶＤ－ＲＯＭ装置１０９と接続されていてもよい。

【0056】

追加データ生成装置１００は、例えば、ネットワークと接続されていてもよい。例えば、追加データ生成装置１００がネットワークを介して他の外部機器と接続されている場合、追加データ生成装置１００の一部を構成する通信ボード１０７は、ＬＡＮ（ローカルエリアネットワーク）、ＷＡＮ（ワイドエリアネットワーク）やインターネットに接続される。

【0057】

ＲＡＭ１０３は、揮発性メモリの一例であり、ＲＯＭ１０２、リムーバルディスク装置１０８、ＣＤ／ＤＶＤ－ＲＯＭ装置１０９、ハードディスク装置１１２の記録媒体は、不揮発性メモリの一例である。これらの揮発性メモリや不揮発性メモリによって、追加データ生成装置１００の記憶装置が構成される。

【0058】

ハードディスク装置１１２には、例えば、オペレーティングシステム（ＯＳ）２０１、プログラム群２０２、および、ファイル群２０３が記憶されている。プログラム群２０２に含まれるプログラムは、ＣＰＵ１０１がオペレーティングシステム２０１を利用しながら実行する。また、ＲＡＭ１０３には、ＣＰＵ１０１に実行させるオペレーティングシステム２０１のプログラムやアプリケーションプログラムの少なくとも一部が一次的に格納されるとともに、ＣＰＵ１０１による処理に必要な各種データが格納される。

【0059】

ＲＯＭ１０２には、ＢＩＯＳ（Basic Input Output System）プログラムが記憶され、ハードディスク装置１１２には、ブートプログラムが記憶されている。追加データ生成装置１００の起動時には、ＲＯＭ１０２に記憶されているＢＩＯＳプログラムおよびハードディスク装置１１２に記憶されているブートプログラムが実行され、ＢＩＯＳプログラムおよびブートプログラムにより、オペレーティングシステム２０１が起動される。

【0060】

プログラム群２０２には、追加データ生成装置１００の機能を実現するプログラムが記憶されており、このプログラムは、ＣＰＵ１０１により読み出されて実行される。また、ファイル群２０３には、ＣＰＵ１０１による処理の結果を示す情報、データ、信号値、変数値やパラメータがファイルの各項目として記憶されている。

【0061】

ファイルは、ハードディスク装置１１２やメモリなどの記録媒体に記録される。ハードディスク装置１１２やメモリなどの記録媒体に記録された情報、データ、信号値、変数値やパラメータは、ＣＰＵ１０１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・処理・編集・出力・印刷・表示に代表されるＣＰＵ１０１の動作に使用される。例えば、上述したＣＰＵ１０１の動作の間、情報、データ、信号値、変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリなどに一次的に記憶される。

【0062】

追加データ生成装置１００の機能は、ＲＯＭ１０２に記憶されたファームウェアで実現されていてもよいし、あるいは、ソフトウェアのみ、素子・デバイス・基板・配線に代表されるハードウェアのみ、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実現されていてもよい。ファームウェアとソフトウェアは、プログラムとして、ハードディスク装置１１２、リムーバルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなどに代表される記録媒体に記録される。プログラムは、ＣＰＵ１０１により読み出されて実行される。すなわち、プログラムは、コンピュータを追加データ生成装置１００として機能させるものである。

【0063】

このように、追加データ生成装置１００は、処理装置であるＣＰＵ１０１、記憶装置であるハードディスク装置１１２やメモリ、入力装置であるキーボード１０５、マウス１０６、通信ボード１０７、出力装置であるディスプレイ１０４、プリンタ１１０、通信ボード１０７を備えるコンピュータである。そして、追加データ生成装置１００の機能は、処理装置、記憶装置、入力装置、および、出力装置を利用して実現される。

【0064】

＜＜＜機能ブロック構成＞＞＞
次に、追加データ生成装置１００の機能ブロック構成について説明する。

【0065】

図５は、追加データ生成装置１００の機能ブロック図である。

【0066】

追加データ生成装置１００は、入力部３０１、確率値算出部３０２、データ間距離算出部３０３、追加データ選択部３０４、出力部３０５およびデータ記憶部３０６を有する。

【0067】

入力部３０１は、各種データや関数を入力するように構成されている。具体的に、入力部３０１は、学習データおよび候補データに代表されるデータや、回帰モデルおよび獲得関数に代表される関数を入力するように構成されている。そして、入力部３０１に入力された学習データ、候補データ、回帰モデルおよび獲得関数は、データ記憶部３０６に記憶される。すなわち、データ記憶部３０６は、学習データ、候補データ、回帰モデルおよび獲得関数を記憶するデータベースとして機能する。

【0068】

ここで、「学習データ」とは、複合材料に含まれる構成材料の材料名および配合割合を含む配合情報と物理量との対応関係が既知のデータ群から構成されており、回帰モデルを機械学習させる際の教師データとなるデータ群を意味する。

【0069】

「候補データ」とは、学習データに追加する追加データの候補となるデータであって、対応する物理量の値が未知の配合情報から構成されるデータである。

【0070】

「回帰モデル」とは、未知複合材料に含まれる構成材料の材料名および配合割合を含む配合情報を入力すると、物理量の予測値を出力する関数である。この回帰モデルは、配合情報と物理量との対応関係が既知の上述した学習データを教師データとする機械学習によって生成することができる。特に、具現化態様では、「回帰モデル」として、物理量の予測値および標準偏差値の両方を出力可能なガウス過程回帰モデルが採用されている。

【0071】

「獲得関数」とは、複数の候補データから追加データを選択するために使用される関数であって、例えば、「獲得関数」は、回帰モデルの目的変数値に基づいて算出される確率値と、学習データと候補データとの非類似度との積を含むように構成されている。特に、具現化態様において、「獲得関数」は、ガウス過程回帰モデルから出力される予測値と標準偏差値から算出される確率値と、学習データと候補データに基づいて算出されるデータ間距離との積から構成されている。

【0072】

確率値算出部３０２は、候補データの配合割合をガウス過程回帰モデルに入力することにより、ガウス過程回帰モデルから出力される物理量の予測値および標準偏差値に基づいて、規格に合格する確率値を算出するように構成されている。具体的には、確率値算出部３０２は、「＜＜確率値の算出方法＞＞」で説明した方法によって、確率値を算出する。

【0073】

確率値算出部３０２による確率値の算出は、複数の候補データのそれぞれについて実施され、複数の候補データのそれぞれに対応する確率値は、それぞれの候補データに関連付けられてデータ記憶部３０６に記憶される。

【0074】

データ間距離算出部３０３は、学習データと候補データに基づいて、データ間距離を算出するように構成されている（図３参照）。例えば、データ間距離算出部３０３は、複数の候補データのそれぞれに対して、学習データとのデータ間距離を算出するように構成され、データ間距離算出部３０３で算出されたデータ間距離は、対応するそれぞれの候補データに関連付けられてデータ記憶部３０６に記憶される。

【0075】

追加データ選択部３０４は、複数の候補データのそれぞれについて、対応する確率値とデータ間距離とを獲得関数に入力することにより、獲得関数から出力される出力値を取得するように構成されている。そして、追加データ選択部３０４は、複数の候補データのそれぞれに対して得られた獲得関数の出力値を比較し、少なくとも、獲得関数の出力値が大きい候補データを追加データとして選択する機能を有している。

【0076】

そして、追加データ選択部３０４で選択された追加データは、学習データの一部としてデータ記憶部３０６に記憶される。

【0077】

出力部３０５は、例えば、追加データ選択部３０４で選択された追加データを表示する機能を有している。以上のようにして、追加データ生成装置１００が構成されている。

【0078】

なお、追加データ生成装置１００で有効な追加データを追加した学習データが構築されるが、この学習データは、回帰モデルを機械学習するための教師データとして使用される。このとき、追加データ生成装置１００で構築された学習データによれば、有効な追加データが含まれているので、この学習データを教師データに使用して回帰モデルを機械学習することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することができる。

【0079】

ここで、必ずしも必須ではないが、追加データ生成装置１００に、回帰モデルを生成する回帰モデル生成部を設けてもよい。この場合、回帰モデル生成部において、有効な追加データを含む学習データを教師データとする機械学習を実施することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することができる。ただし、回帰モデル生成部は、追加データ生成装置１００に設けられている必要はなく、追加データ生成装置１００とは別に設けられた回帰モデル生成装置として機能するコンピュータに備えられていてもよい。

【0080】

この場合、コンピュータは、追加データ生成装置１００から有効な追加データを含む学習データを取得して、取得した学習データを教師データとする機械学習を実施することにより、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成するように構成される。

【0081】

＜＜追加データ生成装置の動作＞＞
具現化態様における追加データ生成装置１００は、上記のように構成されており、以下のその動作について説明する。

【0082】

図６は、追加データ生成装置１００の動作を説明するフローチャートである。

【0083】

図６において、まず、学習データが予めデータ記憶部３０６に記憶されているものとする。そして、複数の候補データを入力部３０１に入力する（Ｓ１０１）。入力部３０１に入力された複数の候補データは、データ記憶部３０６に記憶される。

【0084】

次に、例えば、データ記憶部３０６には、回帰モデルが予め記憶されており、追加データ生成装置１００は、この回帰モデルに候補データを入力することにより（Ｓ１０２）、候補データに対応した物理量の予測値および標準偏差値を取得する（Ｓ１０３）。

【0085】

続いて、確率値算出部３０２は、上述した予測値および標準偏差値に基づいて、規格に合格する確率値を算出する（Ｓ１０４）。一方、データ間距離算出部３０３は、学習データと候補データに基づいて、データ間距離を算出する（Ｓ１０５）。

【0086】

次に、追加データ選択部３０４は、確率値算出部３０２で算出した確率値と、データ間距離算出部３０３で算出したデータ間距離の値を獲得関数に入力し（Ｓ１０６）、獲得関数から出力された出力値を記憶する。

【0087】

その後、追加データ選択部３０４は、次の候補データがあるか否かを判断し（Ｓ１０７）、さらなる候補データがある場合は、ステップＳ１０２に戻る。一方、さらなる候補データがない場合は、追加データの選択をする（Ｓ１０８）。具体的に、追加データ選択部３０４は、複数の候補データのそれぞれに対して得られた獲得関数の出力値を比較し、少なくとも、獲得関数の出力値が最も大きい候補データを追加データとして選択する。そして、追加データ生成装置１００は、追加データ選択部３０４によって選択された追加データを学習データの一部として追加する（Ｓ１０９）。つまり、追加データは、学習データの一部としてデータ記憶部３０６に記憶される。以上のようにして、追加データ生成装置１００によれば、学習データに追加データを追加する動作を実施することができる。

【0088】

なお、追加データ選択部３０４で選択された追加データは、この段階では、対応する物理量の値が未知の配合情報から構成されているデータである。このことから、配合情報と物理量との対応関係が既知のデータ群から構成されている学習データに追加データを追加するためには、追加データの配合情報に対応する物理量を実験によって取得する必要があり、実験によって物理量が取得された後に、追加データが学習データの一部として追加されることはいうまでもない。

【0089】

＜＜追加データ生成プログラム＞＞
上述した追加データ生成装置１００で実施される追加データ生成方法は、回帰モデルを機械学習させるための教師データである学習データに追加する追加データを生成する処理をコンピュータに実行させる追加データ生成プログラムにより実現できる。

【0090】

例えば、図４に示すコンピュータからなる追加データ生成装置１００において、ハードディスク装置１１２に記憶されているプログラム群２０２の１つとして、具現化態様における追加データ生成プログラムを導入することができる。そして、この追加データ生成プログラムを追加データ生成装置１００であるコンピュータに実行させることにより、具現化態様における追加データ生成方法を実現することができる。

【0091】

追加データ生成処理に関するデータを作成するための各処理をコンピュータに実行させる追加データ生成プログラムは、コンピュータで読み取り可能な記録媒体に記録して頒布可能である。記録媒体には、ハードディスクやフレキシブルディスクに代表される磁気記憶媒体、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭに代表される光学記憶媒体、ＲＯＭやＥＥＰＲＯＭなどの不揮発性メモリに代表されるハードウェアデバイスなどが含まれる。

【0092】

＜＜具体例＞＞
図７は、具体例における追加データ生成方法の概要を説明する図である。

【0093】

図７において、まず、具体例では、データ数（ｎ）がｎ＝２３５の学習データが存在するとする。そして、この学習データを教師データとする機械学習によって、第１回帰モデルが生成される。一方、物理量の値が未知の配合（配合割合）に基づいて、データ数（ｎ）がｎ＝１６３８００である複数の候補データを準備する。

【0094】

その後、複数の候補データのそれぞれに対して、確率値とデータ間距離を算出し、算出した確率値とデータ間距離を獲得関数に入力することにより、獲得関数から出力される出力値を取得する。すなわち、複数の候補データのそれぞれに対応して獲得関数からの出力値を取得する。続いて、複数の候補データのそれぞれに対応して取得された獲得関数の出力値に基づいて、第１追加データを選択する。具体的には、獲得関数の出力値が最も大きい候補データを第１追加データとして選択する。

【0095】

選択された第１追加データは、学習データに組み込まれる結果、データ数（ｎ）がｎ＝２３６の学習データが構築される。その後、この学習データを教師データとする機械学習によって、第２回帰モデルが生成される。一方、上述した複数の候補データから第１追加データを除いたデータ数（ｎ）がｎ＝１６３７９９である複数の候補データのそれぞれに対して、確率値とデータ間距離を算出し、算出した確率値とデータ間距離を獲得関数に入力することにより、獲得関数から出力される出力値を取得する。すなわち、複数の候補データのそれぞれに対応して獲得関数からの出力値を取得する。続いて、複数の候補データのそれぞれに対応して取得された獲得関数の出力値に基づいて、第２追加データを選択する。具体的には、獲得関数の出力値が最も大きい候補データを第２追加データとして選択する。選択された第２追加データは、学習データに組み込まれる結果、データ数（ｎ）がｎ＝２３７の学習データが構築される。その後、この学習データを教師データとする機械学習によって、第３回帰モデルが生成される。以後、同様の処理が繰り返される。

【0096】

このようにして、具体例によれば、獲得関数からの出力値が最も大きい有用な追加データを追加することにより学習データの拡充が繰り返される（「第１追加データの追加」→「第２追加データの追加」）。この結果、繰り返し拡充された学習データを教師データとする機械学習によって、例えば、「第１回帰モデル」→「第２回帰モデル」→「第３回帰モデル」というように回帰モデルが更新される。これにより、学習データの拡充を繰り返すことによって、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することが可能となる。

【0097】

以下に、具体例を説明する。

【0098】

具体例では、候補データを１９次元データから構成する例を説明する。例えば、複数の候補データのそれぞれは、１４種類の樹脂のうちの３種類の樹脂が使用されるとともに、５種類の難燃剤のうちの１種類の難燃剤が使用される。すなわち、複数の候補データのそれぞれは、樹脂Ａから樹脂Ｎのうちの３種類の樹脂と、難燃剤Ｏから難燃剤Ｓのうちの１種類の難燃剤とを所定の配合割合で含む複合材料のデータである。

【0099】

１．第１追加データの探索
図８は、第１追加データの探索結果を示す表である。

【0100】

図８には、獲得関数の出力値が高い上位１０配合の候補データが示されている。

【0101】

図８において、例えば、獲得関数の出力値が最も高い候補データ＃１は、樹脂Ｋ、樹脂Ｍ、樹脂Ｎおよび難燃剤Ｒを含み、配合割合が樹脂Ｋ：樹脂Ｍ：樹脂Ｎ：難燃剤Ｒ＝３０質量部：２０質量部：５０質量部：２００質量部のデータであり、この候補データ＃１が第１追加データとして選択される。

【0102】

２．第２追加データの探索
図９は、第２追加データの探索結果を示す表である。

【0103】

図９には、獲得関数の出力値が高い上位１０配合の候補データが示されている。

【0104】

図９において、例えば、獲得関数の出力値が最も高い候補データ＃２は、樹脂Ｃ、樹脂Ｆ、樹脂Ｎおよび難燃剤Ｑを含み、配合割合が樹脂Ｃ：樹脂Ｆ：樹脂Ｎ：難燃剤Ｑ＝２０質量部：４０質量部：４０質量部：１２０質量部のデータであり、この候補データ＃２が第２追加データとして選択される。

【0105】

３．図８と図９との比較
第１回目の探索結果を示す図８と第２回目の探索結果を示す図９を比較すると、第１追加データとして、候補データ＃１が選択されている一方、第２追加データとして、候補データ＃２が選択されている。そして、図８において候補データ＃１と異なる配合を有する候補データ＃２、候補データ＃７および候補データ＃１０が、図９において上位に挙げられていることがわかる。一方、図８において上位に挙げられていた候補データ＃３、候補データ＃４、候補データ＃５、候補データ＃６、候補データ＃８および候補データ＃９は、第１追加データとして選択された候補データ＃１と配合が類似するため、図９においては、上位１０配合に挙げられていないことがわかる。

【0106】

以上のことから、図８と図９において、配合（配合割合）が非類似の候補データを選択することができており、具体例によれば、広範囲における予測精度を向上できる回帰モデルを生成することができるように、学習データに追加する追加データを選択できることがわかる。したがって、具体例によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成することが可能な学習データ（教師データ）を効率的に拡充できることが裏付けられているといえる。

【0107】

＜＜具現化態様における特徴＞＞
次に、具現化態様における特徴点について説明する。

【0108】

具現化態様における特徴点は、教師データとなる学習データに追加する追加データを選択するために使用される獲得関数を規格に合格する確率値とデータ間の非類似度を示すデータ間距離との積から構成する点にある。これにより、例えば、追加データの候補となる複数の候補データのうち、少なくとも、獲得関数からの出力値が最も大きくなる候補データを追加データとして選択することにより、学習データに、確率値が高く、かつ、非類似度の大きなデータを追加することができる。この結果、特徴点によれば、規格に合格する確率の高い予測値を出力可能な回帰モデルであって、適用範囲の広い回帰モデルを生成可能な学習データを構築することができる。すなわち、具現化態様によれば、回帰モデルにおける予測精度の向上と適用範囲の増大とを実現するように、教師データとなる学習データを効率的に拡充することができる。

【0109】

以上、本発明者によってなされた発明をその実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。

【符号の説明】

【0110】

１００追加データ生成装置
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４ディスプレイ
１０５キーボード
１０６マウス
１０７通信ボード
１０８リムーバルディスク装置
１０９ＣＤ／ＤＶＤ－ＲＯＭ装置
１１０プリンタ
１１１スキャナ
１１２ハードディスク装置
１１３バス
２０１オペレーティングシステム
２０２プログラム群
２０３ファイル群
３０１入力部
３０２確率値算出部
３０３データ間距離算出部
３０４追加データ選択部
３０５出力部
３０６データ記憶部

【図1】