(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-28
(45)【発行日】2024-01-12
(54)【発明の名称】機械学習支援方法及び機械学習支援装置
(51)【国際特許分類】
G06F 16/28 20190101AFI20240104BHJP
G06N 20/00 20190101ALI20240104BHJP
【FI】
G06F16/28
G06N20/00 130
G06N20/00 160
(21)【出願番号】P 2019125841
(22)【出願日】2019-07-05
【審査請求日】2022-04-04
(73)【特許権者】
【識別番号】301023238
【氏名又は名称】国立研究開発法人物質・材料研究機構
(74)【代理人】
【識別番号】100169591
【氏名又は名称】小島 浩嗣
(72)【発明者】
【氏名】吉武 道子
【審査官】酒井 恭信
(56)【参考文献】
【文献】特開2019-056960(JP,A)
【文献】国際公開第2017/221444(WO,A1)
【文献】国際公開第2018/159237(WO,A1)
【文献】国際公開第2016/002133(WO,A1)
【文献】特開2014-048795(JP,A)
【文献】国際公開第2016/067483(WO,A1)
【文献】特表2017-529590(JP,A)
【文献】特開2018-045266(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
計算機が物性探索ステップと機械学習ステップとを実行する機械学習支援方法であって、
前記物性探索ステップでは、互いに関係性を有する複数の物性パラメータ対に含まれる各物性パラメータをノードとし前記物性パラメータ対に対応するノード対間の接続をエッジとする物性関係性グラフを対象として、与えられるターゲット物性の物性パラメータに対応するノードと、当該ノードから所定の範囲内でエッジにより接続されるノードからなる部分グラフを抽出し、
前記機械学習ステップでは、前記ターゲット物性を教師データとし、前記部分グラフに含まれる他のノードに対応する物性パラメータを説明変数とする複数のデータを学習データとして機械学習を行って、前記ターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数からなるパラメータリストを出力する、
機械学習支援方法。
【請求項2】
請求項1において、前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード、及び、当該ノードと当該物性パラメータに対応するノードとの間のエッジとを有し、
前記物性探索ステップでは、前記ターゲット物性に対応するノードから前記所定の範囲内でエッジにより接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを包含し、前記機械学習ステップにおける前記学習データに、当該影響因子が含まれる、
機械学習支援方法。
【請求項3】
請求項1において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており、
前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる、
機械学習支援方法。
【請求項4】
請求項1において、前記学習データは複数のレコードによって構成され、前記複数のレコードのそれぞれは教師データと対応する複数の説明変数の値とによって構成され、
前記複数のレコードのうち、一部の説明変数の値が欠けたレコードがある場合には、欠けている説明変数をターゲット物性として当該ターゲット物性を予測するための機械学習に適する学習データを特定する物性探索ステップと、当該物性探索ステップの結果に基づく学習データによる機械学習を行う機械学習ステップと実行することによって得られたパラメータリストを用いて、前記一部の説明変数の値が欠けたレコードにおける欠けた説明変数の値を予測して補った上で、上位階層の機械学習ステップを実行する各ステップを再帰的に実行する、
機械学習支援方法。
【請求項5】
請求項1において、前記機械学習支援方法は、前記計算機が実行するパラメータリスト照合ステップをさらに含み、
前記パラメータリスト照合ステップでは、前記パラメータリストに含まれる重み付け係数と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間の経路とを照合する、
機械学習支援方法。
【請求項6】
請求項5において、前記機械学習支援方法はそれぞれが異なる機械学習アルゴリズムを採用し、それぞれがパラメータリストを出力する、複数の機械学習ステップを有し、
前記パラメータリスト照合ステップでは、前記複数の機械学習ステップから出力されるパラメータリストのそれぞれと、前記物性関係性グラフにおける前記経路との照合を行い、所定の判断基準に基づいて最適な機械学習アルゴリズムを採用する機械学習ステップから出力されたパラメータリストを選択して出力する、
機械学習支援方法。
【請求項7】
請求項6において、前記パラメータリスト照合ステップでは、前記パラメータリストに含まれる重み付け係数の絶対値と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間の経路の長さの一致度を算出し、算出した一致度が最大であることを、前記判断基準とする、
機械学習支援方法。
【請求項8】
請求項6において、前記物性関係性グラフを構成するエッジの長さが対応する物性パラメータ対の関係性における依存の強度に基づいて規定され、前記パラメータリスト照合ステップは、前記経路の長さとして算出される依存の強度と、前記重み付け係数との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする、
機械学習支援方法。
【請求項9】
請求項6において、前記物性関係性グラフを構成するエッジには対応する物性パラメータ対の相関の極性が紐づけられており、前記パラメータリスト照合ステップでは、前記パラメータリストに含まれる重み付け係数の極性と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間のエッジに紐づけられた相関の極性との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする、
機械学習支援方法。
【請求項10】
ターゲット物性を予測するパラメータリストを生成する機械学習支援装置であって、
物性関係性グラフとグラフ探索部と探索範囲指定部と学習データ入力部と機械学習部とを備え、
前記物性関係性グラフは、互いに関係性を有する複数の物性パラメータ対に含まれる各物性パラメータをノードとし前記物性パラメータ対に対応するノード対間の接続をエッジとするグラフであり、
前記探索範囲指定部は、与えられる前記ターゲット物性の物性パラメータに対応する、前記物性関係性グラフのノードを終点ノードとし、合わせて探索範囲を指定し、
前記グラフ探索部は、前記物性関係性グラフを対象とする探索を行って、前記終点ノードから前記探索範囲内でエッジにより接続されるノードからなる部分グラフを出力し、
前記学習データ入力部は、前記ターゲット物性を教師データとし、前記部分グラフに含まれる他のノードに対応する物性パラメータを説明変数とする収集条件を指定し、前記収集条件に合致する複数のレコードを学習データとして前記機械学習部に供給し、
前記機械学習部は、前記学習データを入力とする機械学習を行って、前記ターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数を、前記パラメータリストとして出力する、
機械学習支援装置。
【請求項11】
請求項10において、前記機械学習支援装置は影響因子データベースをさらに備え、
前記影響因子データベースは、前記物性関係性グラフを構成するノードに対応する物性パラメータと、当該物性パラメータが依存性をもつ影響因子とを対応付けて記憶し、
前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノードと、当該ノードと当該物性パラメータに対応するノードとの間のエッジとを有し、
前記グラフ探索部は、前記ターゲット物性の物性パラメータに対応するノードから前記探索範囲内でエッジにより接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを包含し、
前記学習データ入力部が指定する前記収集条件に、前記説明変数として前記部分グラフに含まれるノードに対応する影響因子が含まれる、
機械学習支援装置。
【請求項12】
請求項10において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており、
前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる、
機械学習支援装置。
【請求項13】
請求項10において、前記機械学習支援装置は予測部をさらに備え、
前記学習データは複数のレコードによって構成され、前記複数のレコードのそれぞれは教師データと対応する複数の説明変数の値によって構成され、
前記探索範囲指定部は、前記複数のレコードのうち一部の説明変数の値が欠けたレコードがある場合に、欠けている説明変数を新たなターゲット物性とし、前記新たなターゲット物性の物性パラメータに対応する、前記物性関係性グラフのノードを新たな終点ノードとし、合わせて新たな探索範囲を指定して、前記グラフ探索部に供給し、
前記グラフ探索部は、前記物性関係性グラフを対象とする探索を行って、前記新たな終点ノードから前記新たな探索範囲内でエッジにより接続されるノードよりなる新たな部分グラフを出力し、
前記学習データ入力部は、前記新たなターゲット物性を新たな教師データとし、前記新たな部分グラフに含まれる他のノードに対応する物性パラメータを説明変数とする新たな収集条件を指定し、前記新たな収集条件に合致する複数のレコードを新たな学習データとして前記機械学習部に供給し、
前記機械学習部は、前記新たな学習データを入力とする機械学習を行って、前記新たなターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数を、前記新たなパラメータリストとして出力し、
前記予測部は、前記新たなパラメータリストを用い、前記一部の説明変数の値が欠けた前記レコードに含まれる他の説明変数の値から、前記欠けている説明変数の予測値を算出し、前記一部の説明変数の値が欠けた前記レコードを補って前記学習データの内容を更新し、
前記機械学習部は、更新された前記学習データを入力とする機械学習を行って、前記ターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数を、前記パラメータリストとして出力する、
機械学習支援装置。
【請求項14】
請求項10において、前記機械学習支援装置はパラメータリスト照合部をさらに含み、
前記パラメータリスト照合部は、前記パラメータリストに含まれる重み付け係数と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性の物性パラメータに対応するノードとの間の経路とを照合する、
機械学習支援装置。
【請求項15】
請求項14において、
前記機械学習部は、それぞれが異なる機械学習アルゴリズムを採用する複数の機械学習を行って、それぞれに対応する複数のパラメータリストを生成し、
前記パラメータリスト照合部は、前記複数のパラメータリストのそれぞれと、前記物性関係性グラフにおける前記経路との照合を行い、所定の判断基準に基づいて1つのパラメータリストを選択して出力する、
機械学習支援装置。
【請求項16】
請求項15において、
前記パラメータリスト照合部は、前記複数のパラメータリストそれぞれについて、当該パラメータリストに含まれる重み付け係数の絶対値と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性の物性パラメータに対応するノードとの間の経路の長さの一致度を算出し、算出した一致度が最大であることを、前記判断基準とする、
機械学習支援装置。
【請求項17】
請求項15において、前記物性関係性グラフを構成するエッジの長さが対応する物性パラメータ対の関係性における依存の強度に基づいて規定され、
前記パラメータリスト照合部は、前記複数のパラメータリストそれぞれについて、前記経路の長さとして算出される依存の強度と、当該パラメータリストに含まれる重み付け係数との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする、
機械学習支援装置。
【請求項18】
請求項15において、前記物性関係性グラフを構成するエッジには対応する物性パラメータ対の相関の極性が対応付けられており、
前記パラメータリスト照合部は、前記複数のパラメータリストそれぞれについて、当該パラメータリストに含まれる重み付け係数の極性と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性の物性パラメータに対応するノードとの間のエッジに対応付けられた相関の極性との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする、
機械学習支援装置。
【請求項19】
計算機が物性探索ステップと機械学習ステップとを実行する機械学習支援方法であって、
前記物性探索ステップでは、互いに関係性を有する複数の物性パラメータ対に含まれる各物性パラメータをノードとし前記物性パラメータ対に対応するノード対間をエッジとする物性関係性グラフを対象として、与えられるターゲット物性の物性パラメータに対応するノードと、当該ノードから所定の範囲内でエッジにより接続されるノードからなる部分グラフを抽出し、
前記機械学習ステップでは、前記部分グラフに含まれるノードに対応する物性パラメータを説明変数とする複数のデータを学習データとして教師なし学習を行って、
前記教師なし学習の結果得られる当該学習データの特徴を表す情報を特徴情報
として出力する、
機械学習支援方法。
【請求項20】
請求項19において、前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード、及び、当該ノードと当該物性パラメータに対応するノードとの間を接続するエッジを有し、
前記物性探索ステップでは、前記ターゲット物性の物性パラメータに対応するノードから前記所定の範囲内でエッジにより接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを包含し、
前記機械学習ステップにおける前記学習データに、前記部分グラフに包含された前記ノードに対応する影響因子が含まれる、
機械学習支援方法。
【請求項21】
請求項19において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており、
前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる、
機械学習支援方法。
【請求項22】
請求項19から請求項21のうちのいずれか1項において、
前記教師なし学習はクラスタリングであり、前記特徴情報はクラスタの中心、重心、形状のうちの少なくとも1つである、
機械学習支援方法。
【請求項23】
請求項19から請求項21のうちのいずれか1項において、
前記教師なし学習は主成分分析であり、前記特徴情報は前記学習データを構成する複数の物性パラメータの寄与率である、
機械学習支援方法。
【請求項24】
ターゲット物性が入力され特徴情報を生成する機械学習支援装置であって、
物性関係性グラフとグラフ探索部と探索範囲指定部と学習データ入力部と機械学習部とを備え、
前記物性関係性グラフは、互いに関係性を有する複数の物性パラメータ対に含まれる各物性パラメータをノードとし前記物性パラメータ対に対応するノード対間の接続をエッジとするグラフであり、
前記探索範囲指定部は、与えられる前記ターゲット物性の物性パラメータに対応する、前記物性関係性グラフのノードを終点ノードとし、合わせて探索範囲を指定し、
前記グラフ探索部は、前記物性関係性グラフを対象とする探索を行って、前記終点ノードから前記探索範囲内でエッジにより接続されるノードからなる部分グラフを出力し、
前記学習データ入力部は、前記部分グラフに含まれるノードに対応する複数の物性パラメータを説明変数とする収集条件を指定し、前記収集条件に合致する複数のレコードを学習データとして前記機械学習部に供給し、
前記機械学習部は、前記学習データを入力とする教師なし学習を行って、
前記教師なし学習の結果得られる当該学習データの特徴を表す情報を前記特徴情報
として出力する、
機械学習支援装置。
【請求項25】
請求項24において、前記機械学習支援装置は影響因子データベースをさらに備え、
前記影響因子データベースは、前記物性関係性グラフを構成するノードに対応する物性パラメータと、当該物性パラメータが依存性をもつ影響因子とを対応付けて記憶し、
前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノードと、当該ノードと当該物性パラメータに対応するノードとの間のエッジとを有し、
前記グラフ探索部は、前記ターゲット物性の物性パラメータに対応するノードから前記探索範囲内でエッジにより接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを包含し、
前記学習データ入力部が指定する前記収集条件に、前記説明変数として前記部分グラフに含まれるノードに対応する影響因子が含まれる、
機械学習支援装置。
【請求項26】
請求項24において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており、
前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる、
機械学習支援装置。
【請求項27】
請求項24から請求項26のうちのいずれか1項において、
前記教師なし学習はクラスタリングであり、前記特徴情報はクラスタの中心、重心、形状のうちの少なくとも1つである、
機械学習支援装置。
【請求項28】
請求項24から請求項26のうちのいずれか1項において、
前記教師なし学習は主成分分析であり、前記特徴情報は前記学習データを構成する複数の物性パラメータの寄与率である、
機械学習支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習支援方法及び機械学習支援装置に関し、特に目標の特性を持つ物質・材料を予測するための機械学習に好適に利用できるものである。
【背景技術】
【0002】
材料研究における予測や設計の目的は、目標の特性を持つ材料を特定することである。このために旧来から多用されてきた手法は、条件-特性チャートから目標の特性を持つ材料の特定を目指す手法である。これは、複数の条件のうち特定の1つの条件のみを変化させたときの特性の変化を観測してチャートを作成し、そのチャートを内挿または外挿することによって目標の特性を持つ条件を求め、それに合致する材料を特定する方法である。ここでいう「チャート」とは、折れ線グラフ等を表す「グラフ」と同義であるが、後述する、ノードとエッジから成る「グラフ」と区別する目的で別の語を用いる。
【0003】
このとき従来は、複数の条件のうち特定の1つの条件のみを変化させたときの特性の変化は、自ら実験を行って取得することが多かった。多数の文献を調査しても上記特定の条件以外の条件がすべて揃ったデータを大量に入手することは困難だからである。近年では、機械学習に関する研究の進歩に伴い、マテリアルズインフォマティクス等を含む材料研究にも機械学習を適用して効率を向上する試みがなされている。一連のデータを学習データとする機械学習を行って学習モデルを生成し、生成された学習モデルを使って所望の特性を予測する。
【0004】
ここでいう学習データは、複数の説明変数に対する値と1個の被説明変数に対する値よりなり、その複数の説明変数それぞれの値とその時の被説明変数の値の組み合わせを1個のレコードとして、複数のレコードで構成される。被説明変数は教師データと呼ばれる。学習モデルは、上記複数の説明変数のそれぞれに対する重み付け係数で構成されるパラメータリストを含んで構成される。機械学習による予測は、上記複数の説明変数それぞれの値が入力されたときに、パラメータリストを構成する係数による重み付けを行って、対応する被説明変数の値を予測値として算出することである。
【0005】
以上は教師あり学習と呼ばれるが、学習データに教師データを含まない教師なし学習もあり、クラスタリングや主成分分析による次元削減などに利用される。教師なし学習では、学習データは複数の説明変数で構成され被説明変数を含まない。学習データがn個の説明変数についてのk個のデータで構成されるとき、この学習データをn個の説明変数を基底とするn次元空間にk個のデータに対応するk個の点が存在するデータ空間として扱う(n,kは自然数)。これを特性空間と呼ぶ。クラスタリングでは、特性空間内の点の分散を求めて点の集中する領域を画定してクラスタとし、そのクラスタの数、中心、重心、境界、形状などの情報を出力する。主成分分析による次元削減では、k個の点で構成される特性空間を規定するn個の説明変数による基底を、n個よりも少ない個数の変数による基底に変換することによって、特性空間の次元を減らす。
【0006】
特許文献1には、新素材を開発するための新規物質探索方法が開示されている。既知の物質に基づいて構成された物質モデルに対して機械学習を行い、その結果に目標物性を入力して少なくとも1つの候補物質を抽出し、その中から目標に合致する物質を決定するとされる。
【0007】
特許文献2には、タンパク質と相互作用する化合物を設計する方法及び装置が開示されている。問い合わせタンパク質についてタンパク質情報が入力され、複数の化合物情報を生成しその化合物情報に対応する化合物と問い合わせタンパク質との相互作用の可能性を示すスコアを算出し、算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報の更新を複数回繰り返すことによって、最適な化合物を設計することができるとされる。ここで、スコアの算出には、相互作用のあるタンパク質と化合物に対応するタンパク質情報と化合物情報の組み合わせを教師データとした機械学習によって得られるとされる。
【0008】
一方、本発明者は、条件-特性チャートから目標の特性を持つ材料の特定を目指す手法の効率を向上するために、物性パラメータの関係性を広範な分野から集めたデータベースを構築し、そのデータベースを使って、物性パラメータの組み合せの中から有意な関係性を有する未知の組み合わせをも探索することができる、探索システム及び探索方法について研究を進め、特許文献3に開示される発明を完成した。
【0009】
特許文献3には、複数の物性パラメータの任意の組合せのうち、既に知られている関係性に基づいて、有意な関係性を有する未知の組合せをも探索することができる、探索システム及び探索方法が開示されている。この探索システムは、データベースとグラフ生成部とグラフ探索部とを備え、以下のように構成される。データベースは互いに関係性を有する物性パラメータの複数の対を記憶し、グラフ生成部は、データベースに記憶された複数の物性パラメータをノードとし、関係性を有する物性物性パラメータ対に対応するノード間をエッジとする、グラフを生成する。グラフ探索部は、与えられる探索条件に基づいてグラフ生成部から生成されたグラフを探索し、探索結果を出力する。データベースに記憶する物性パラメータの関係性を、広範な技術分野から収集することにより、物性パラメータの因果関係を、異なる分野を横断的に探索して抽出することが可能となる。
【先行技術文献】
【特許文献】
【0010】
【文献】特開2017-91526号公報
【文献】国際公開WO2014/034577
【文献】国際公開WO2017/221444
【発明の概要】
【発明が解決しようとする課題】
【0011】
特許文献1、2及び3について本発明者が検討した結果、以下のような新たな課題があることがわかった。
【0012】
一般に機械学習では、如何なるデータ群を学習データとすべきかが予測精度を決定づける極めて重要な要素である。近年は膨大なデータ(ビッグデータ)が利用可能となってきており、このビッグデータを学習データとして利用する機械学習に関心が集まっているが、学習データとして利用した場合に有効なデータは、生成される学習モデルが想定している関係性を有するデータ群に限られる。まったく無関係のデータ群を学習データとして機械学習に入力したとしても、予測などのために利用価値のある学習モデルを生成することは期待できない。
【0013】
特許文献1及び2に記載される技術では、機械学習のための学習データとして、既に知られているモデルを前提としたデータが採用されている。
【0014】
例えば特許文献1では、「学習パラメータ(上述の「学習データ」と同義と認められる)は、物質の構造に関する基本値パラメータ、物質の物性に関する基本値パラメータ、潜在要因の基本値パラメータ、物質の構造と潜在要因の間の関係パラメータ、物質の物性と潜在要因の間の関係パラメータのうちの少なくとも1つを含む」(段落0014)とされ、具体的な特定は、ユーザーの経験と知見に委ねられている。
【0015】
また特許文献2においても、学習データとして採用されるべきデータは、「第1の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第1の組み合わせを教師データ」(請求項1等)とされ、具体的には例えば「タンパク質情報」とされ「タンパク質情報とは、タンパク質の特徴を表す情報であり、具体的には、タンパク質名、アミノ酸配列、立体構造等が挙げられる」(段落0030)とされるように、学習データとすべきデータの選定は、ユーザーの経験と知見に委ねられている。
【0016】
一方、特許文献3に開示される技術によれば、複数の物性パラメータの任意の組合せのうち、既に知られている関係性に基づいて、有意な関係性を有する組合せを分野横断的に探索することができるが、その関係性は因果関係の有無に留まる。
【0017】
本発明の目的は、材料研究における予測や設計に資する機械学習を行うために、学習データとしてどのようなデータ群が適切かを特定することができる機械学習支援方法及び機械学習支援装置を提供することである。
【0018】
このような課題を解決するための手段を以下に説明するが、その他の課題と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。
【課題を解決するための手段】
【0019】
一実施の形態によれば、下記の通りである。
【0020】
計算機上で動作するソフトウェアによって実装され、物性探索ステップと機械学習ステップとを含む機械学習支援方法であって、以下のように構成される。
【0021】
物性探索ステップは、互いに関係性を有する物性パラメータの複数の物性パラメータ対に含まれる物性パラメータをノードとし前記物性パラメータ対に対応するノード間をエッジとする物性関係性グラフを対象として、与えられるターゲット物性に対応するノードと、当該ノードから所定の範囲内で接続されるノードからなる部分グラフを抽出する。
【0022】
機械学習ステップは、抽出された部分グラフに含まれるノードそれぞれに対応する物性パラメータによって構成される学習データを入力として、教師あり学習または教師なし学習を行う。教師あり学習の場合には、与えられたターゲット物性を教師データとし、抽出された部分グラフに含まれる他のノードに対応する物性パラメータを説明変数とする複数のデータを学習データとし、ターゲット物性の予測値を算出するための説明変数それぞれの重み付け係数からなるパラメータリストを出力する。教師なし学習の場合には、抽出された部分グラフに含まれるノードに対応する物性パラメータを説明変数とする複数のデータを学習データとし、特徴情報を出力する。ここで、特徴情報とは入力された学習データを対象とする教師なし学習の結果得られる、学習データの特徴を表す情報であって、学習データによって構成される特性空間の特徴を表す。例えばクラスタリングを行ったときのクラスタの中心、重心、形状などの情報、主成分分析を行ったときの寄与率が含まれ、特性空間の次元削減に利用することができる場合がある。教師なし学習のための学習データには、ターゲット物性が説明変数の一つとして含まれてもよいし含まれなくてもよい。
【0023】
ここで、物性関係性グラフを構成するノードには、物性パラメータに限らず物性パラメータに影響を与える因子に対応するノードが含まれてもよい。物性探索においては、物質・材料が置かれた環境によって物性間の関係性の強弱が変化し、また、物質・材料の形態やサイズによって探索すべき物性の重要度が変化する場合があるため、物性パラメータ以外にも物性に影響を与える因子が存在する。本明細書ではこのような因子を「影響因子」と呼ぶこととする。物性関係性グラフに、物性パラメータに対応するノードと影響因子に対応するノードとが含まれ、関係性を有する物性パラメータ間だけではなく、何らかの影響因子に依存性をもつ物性パラメータは、対応するノードと依存する影響因子に対応するノードとの間にもエッジをもつように構成してもよい。
【0024】
本明細書において、学習データは複数のレコードからなり、教師あり学習の場合の各レコードは被説明変数の値である教師データと対応する説明変数の値からなり、教師なし機械学習の場合の各レコードは複数の説明変数の値で構成される。なお、変数とその値とは概念を異にするので、厳密には区別して扱われるべきであるが、文脈から明らかな場合にしばしば混用される。本明細書でも同様とする。例えば、教師データは厳密には被説明変数の値であるが、被説明変数を教師データと呼ぶ場合もある。また、説明変数の語についても、変数を指す場合と変数がとる値を指す場合がある。
【発明の効果】
【0025】
前記一実施の形態によって得られる効果を簡単に説明すれば下記のとおりである。
【0026】
すなわち、材料研究における予測や設計に資する機械学習を行うために、学習データとしてどのようなデータ群が適切かを特定することができる機械学習支援方法および機械学習支援装置を提供することができる。
【図面の簡単な説明】
【0027】
【
図1】
図1は、実施形態1に係る機械学習支援方法の構成例を示すフローチャートである。
【
図2】
図2は、物性関係性グラフの一例を示す説明図である。
【
図3】
図3は、適切な学習データを示すための部分グラフの一例を示す説明図である。
【
図4】
図4は、学習データの一例を示す説明図である。
【
図5】
図5は、機械学習の結果として出力されるパラメータリストを使った、予測のための関数の例を示す説明図である。
【
図6】
図6は、影響因子を含む物性関係性グラフの一例を示す説明図である。
【
図7】
図7は、物性関係性データベースと影響因子データベースの例を示す説明図である。
【
図8】
図8は、実施形態3に係る学習データを例示する説明図である。
【
図9】
図9は、実施形態4に係る機械学習支援方法の構成例を示すフローチャートである。
【
図10】
図10は、実施形態5に係る機械学習支援方法の構成例を示すフローチャートである。
【
図11】
図11は、実施形態6の機械学習支援方法の構成例を示すフローチャートである。
【
図12】
図12は、実施形態1に係る機械学習支援装置の構成例を示すブロック図である。
【
図13】
図13は、実施形態2~5に係る機械学習支援装置の構成例を示すブロック図である。
【
図14】
図14は、仕事関数を予測するための学習データとして一般的に採用される可能性が高い学習データを示す説明図である。
【
図15】
図15は、本発明に係る機械学習支援方法及び機械学習支援装置において、仕事関数をターゲット物性として行うグラフ探索の結果、出力される部分グラフを示す説明図である。
【
図16】
図16は、本発明に係る機械学習支援方法及び機械学習支援装置10によって特定される、学習データを構成するのに適した物性パラメータについての説明図である。
【
図17】
図17は、ターゲット物性である電気伝導率を起点とする物性関係性グラフの探索結果である部分グラフの一部を例示する説明図である。
【
図18】
図18は、物性関係性グラフを生成するために使用された物性関係性データベースの一部を例示する説明図である。
【
図19】
図19は、実施形態3に係る機械学習支援方法及び機械学習支援装置10の動作によって指定される収集条件に則って作成される学習データを例示する説明図である。
【
図20】
図20は、ターゲット物性である曲げ強度を起点とする物性関係性グラフの探索結果である部分グラフの一部を例示する説明図である。
【
図21】
図21は、曲げ強度を予測する機械学習のための学習データを例示する説明図である。
【
図22】
図22は、
図21で欠落している熱伝導率を補完するために、格子熱伝導率を予測する機械学習のための学習データを例示する説明図である。
【
図23】
図23は、
図22の学習データを使った機械学習によって求められるパラメータリストによって、
図21で欠落していた熱伝導率を補完するために、格子熱伝導率を予測するための、入力データを示す説明図である。
【
図24】
図24は、実施形態7に係る機械学習支援方法の構成例を示すフローチャートである。
【
図25】
図25は、実施形態7に係る機械学習支援方法の変形例を示すフローチャートである。
【
図26】
図26は、実施形態7に係る機械学習支援装置の構成例を示すブロック図である。
【
図27】
図27は、実施形態7に係る機械学習支援装置の変形例を示すブロック図である。
【発明を実施するための形態】
【0028】
1.実施の形態の概要
先ず、本願において開示される代表的な実施の形態について概要を説明する。代表的な実施の形態についての概要説明で括弧を付して参照する図面中の参照符号はそれが付された構成要素の概念に含まれるものを例示するに過ぎない。
【0029】
〔1〕<物性関係性グラフの探索による適正な学習データの指定>
本願において開示される代表的な実施の形態は、計算機上で動作するソフトウェアによって実装され、物性探索ステップ(S1~S3)と機械学習ステップ(S5)とを含む機械学習支援方法であって、以下のように構成される(
図1)。
【0030】
前記物性探索ステップは、互いに関係性を有する複数の物性パラメータ対に含まれる物性パラメータをノードとし前記物性パラメータ対に対応するノード間をエッジとする物性関係性グラフ(1)を対象として、与えられるターゲット物性(S1)に対応するノードと、当該ノードから所定の範囲内で接続されるノードからなる部分グラフを抽出する(
図1、
図2、
図3)。
【0031】
前記機械学習ステップは、前記ターゲット物性を教師データとし、前記部分グラフに含まれる他のノード(ターゲット物性に対応するノード以外のノード)に対応する物性パラメータを説明変数とする複数のデータを学習データ(
図4)とする機械学習を行って、前記ターゲット物性の予測値を算出する(S8)ための前記説明変数それぞれの重み付け係数からなるパラメータリストを出力する(S6)(
図1、
図5)。
【0032】
これにより、材料研究における予測や設計に資する機械学習を行うために、学習データとしてどのようなデータ群が適切かを特定することができる機械学習支援方法を提供することができる。
【0033】
〔2〕<影響因子>
〔1〕項の機械学習支援方法において、前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード(b,d,T)、及び、当該ノード(b,d,T)と当該物性パラメータに対応するノードとの間のエッジ(25)とを有する(
図6)。
【0034】
前記物性探索ステップは、前記ターゲット物性に対応するノードから前記所定の範囲内で接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを包含する。前記機械学習ステップにおける前記学習データに、前記部分グラフに包含された前記ノードに対応する影響因子が含まれる。
【0035】
これにより、学習データに説明変数として含まれる物性パラメータの値に影響を与える影響因子が、説明変数として同じ学習データに含まれることとなり、適切な機械学習が行われる。
【0036】
〔3〕<関係式>
〔1〕項の機械学習支援方法において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており(
図7)、前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる(
図8)。
【0037】
これにより、学習データに含まれる説明変数の形式が、ターゲット物性を求める関係式に基づくものとなるため、得られるパラメータリストを用いた予測の精度が著しく向上する。ここで説明変数の形式は、2乗、3乗、1/2乗、1/3乗などのべき乗、指数関数などの累乗の形式を含み、ターゲット物性を求める関係式に現れる数表現形式で学習データを構成するとよい。例えばターゲット物性Yが物性パラメータXの2乗に比例することが対応するノードX-Y間のエッジに対応付けられている場合には、学習データを構成する説明変数にX2が含まれるとよい。また1つのターゲット物性Zが複数の物性パラメータX,Yの関数として表される場合に、複数の物性パラメータによって算出される中間データを説明変数に含んでもよい。例えばZ=(X2+Y2)1/2のとき、X,Yに代えて或いはX,Yに加えて(X2+Y2)1/2を説明変数として含むとよい。
【0038】
〔4〕<学習データに一部データの欠けたレコードが含まれる場合の救済>
〔1〕項の機械学習支援方法において、前記学習データは複数のレコード(試料名)によって構成され、前記複数のレコードのそれぞれは教師データと対応する複数の説明変数の値とによって構成されており(
図4)、前記複数のレコードのうち、一部の説明変数の値が欠けたレコードがある場合(S12)には、欠けている説明変数をターゲット物性とする物性探索と機械学習と予測の各ステップ(S10)によって欠けている値を補完する(S13)動作を再帰的に繰り返す。即ち、欠けている説明変数をターゲット物性とし、当該ターゲット物性を予測するための機械学習に適する学習データを特定する物性探索ステップと、当該物性探索ステップの結果に基づく学習データによる機械学習を行う機械学習ステップとを実行することによって得られたパラメータリストを用いて、前記一部の説明変数の値が欠けたレコードにおける欠けた説明変数の値を予測して補った上で、上位階層の機械学習ステップを実行する各ステップを再帰的に実行する(
図9)。
【0039】
これにより、学習データを構成するレコードに一部の説明変数のデータが欠けているレコードが含まれている場合であっても、そのレコードを学習データから排除することなく、有効に利用することができる。
【0040】
〔5〕<パラメータリストと物性関係性グラフの照合>
〔1〕項において、前記機械学習支援方法は、前記パラメータリストに含まれる重み付け係数と前記物性関係性グラフにおける経路とを照合するパラメータリスト照合ステップ(S14)をさらに含む(
図10)。ここで、照合される前記経路は、前記パラメータリストに含まれる前記重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間の経路である。
【0041】
これにより、全体としての信頼性や予測の精度を向上することができる。例えば、機械学習の結果として出力されるパラメータリストと物性探索の対象である物性関係性グラフ、双方の信頼性を相互に確認しあうことができ、整合しない箇所がある場合にその不整合の原因を考察して対策することができる。
【0042】
〔6〕<機械学習アルゴリズムの適合性の評価>
〔5〕項において、前記機械学習支援方法はそれぞれが異なる機械学習アルゴリズムを採用し、それぞれがパラメータリストを出力(S6-1~S6-n)する、複数の機械学習ステップ(S5-1~S5-n)を有する(
図11)。
【0043】
前記パラメータリスト照合ステップ(S14)は、前記複数の機械学習ステップから出力されるパラメータリスト(S6-1~S6-n)のそれぞれと、前記物性関係性グラフにおける前記経路との照合を行い、所定の判断基準に基づいて最適な機械学習アルゴリズムを採用する機械学習ステップから出力されたパラメータリストを選択して出力する(S6a)。
【0044】
これにより、全体としての信頼性や予測の精度を向上することができる。即ち、複数の機械学習アルゴリズムの中から最適なアルゴリズムを選び出して、その結果であるパラメータリストを以降の予測に用いることができるため、信頼性と予測の精度が著しく向上する。
【0045】
〔7〕<判断基準:ノード間の距離と重み係数の値の一致度>
〔6〕項の機械学習支援方法において、前記パラメータリスト照合ステップは、前記パラメータリストに含まれる重み付け係数の絶対値と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間の経路の長さの一致度を算出し、算出した一致度が最大であることを、前記判断基準とする。
【0046】
これにより、一般的なグラフの経路探索アルゴリズムを流用して、パラメータリストと物性関係性グラフの照合を行うことができる。仮に、物性関係性グラフが各エッジに物性物性パラメータ対の間の関係式等の詳細情報が紐づけられていない場合には、経路を構成するエッジの数をその経路の長さとすることにより、機械学習のアルゴリズムの適合性を判断する基準を提供することができる。
【0047】
〔8〕<判断基準:関係式に基づく依存の強度と重み係数の値の一致度>
〔6〕項の機械学習支援方法において、前記物性関係性グラフを構成するエッジの長さが対応する物性パラメータ対の関係性における依存の強度に基づいて規定され、前記パラメータリスト照合ステップは、前記経路の長さとして算出される依存の強度と、前記重み付け係数との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする。
【0048】
これにより、比較されたアルゴリズムの中で最適な学習アルゴリズムを選択することができ、その結果であるパラメータリストを使用することによって、予測の精度を最大化することができる。
【0049】
〔9〕<判断基準:ノード間の相関の極性と重み係数の極性の一致度>
〔6〕項の機械学習支援方法において前記物性関係性グラフを構成するエッジには対応する物性パラメータ対の相関の極性が紐づけられており、前記パラメータリスト照合ステップは、前記パラメータリストに含まれる重み付け係数の極性と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間のエッジに紐づけられた相関の極性との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする。
【0050】
これにより、物性関係性グラフのそれぞれのエッジに詳細な関係式が対応付けられていなくても、増減方向の一致度に基づいて、機械学習のアルゴリズムの適合性を判断する基準を提供することができる。
【0051】
〔10〕<機械学習支援装置;学習データに適する物性パラメータ一式の特定>
本願において開示される代表的な実施の形態は、ターゲット物性を予測するパラメータリストを生成する機械学習支援装置(10)であって、以下のように構成される(
図12)。
【0052】
機械学習支援装置(10)は、物性関係性グラフ(1)とグラフ探索部(2)と探索範囲指定部(3)と学習データ入力部(4)と機械学習部(5)とを備える。
【0053】
前記物性関係性グラフは、互いに関係性を有する複数の物性パラメータ対に含まれる物性パラメータをノードとし前記物性パラメータ対に対応するノード間をエッジとするグラフである。
【0054】
前記探索範囲指定部は、与えられる前記ターゲット物性に対応する、前記物性関係性グラフのノードを終点ノードとし、合わせて探索範囲を指定し、前記グラフ探索部は、前記物性関係性グラフを対象とする探索を行って、前記終点ノードから前記探索範囲内にあるノードよりなる部分グラフを出力する。
【0055】
前記学習データ入力部は、前記ターゲット物性を教師データとし、前記部分グラフに含まれる他のノード(ターゲット物性に対応するノード以外のノード)に対応する物性パラメータを説明変数とする収集条件を指定し、前記収集条件に合致する複数のレコードを学習データとして前記機械学習部に供給する。
【0056】
前記機械学習部は、前記学習データを入力とする機械学習を行って、前記ターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数を、前記パラメータリストとして出力する。
【0057】
これにより、材料研究における予測や設計に資する機械学習を行うために、学習データとしてどのようなデータ群が適切かを特定し、それに基づいて収集されたデータを学習データとする機械学習を可能とする、機械学習支援装置を提供することができる。
【0058】
〔11〕<影響因子データベース>
〔10〕項において、前記機械学習支援装置は影響因子データベース(20)をさらに備える(
図13)。前記影響因子データベースは、前記物性関係性グラフを構成するノードに対応する物性パラメータと、当該物性パラメータが依存性をもつ影響因子とを対応付けて記憶する。
【0059】
前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード(b,d,T)と、当該ノード(b,d,T)と当該物性パラメータに対応するノードとの間のエッジ(25)とを有する(
図6)。
【0060】
前記グラフ探索部は、前記ターゲット物性に対応するノードから前記探索範囲内で接続される複数のノードの中に影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを含んで出力する。前記学習データ入力部が指定する前記収集条件にも、前記説明変数として前記部分グラフに含まれるノードに対応する影響因子が含まれる。
【0061】
これにより、学習データに説明変数として含まれる物性パラメータの値に影響を与える影響因子が、同じく説明変数として同じ学習データに含まれることとなるので、適切な機械学習が行われる。
【0062】
〔12〕<関係式>
〔10〕項の機械学習支援装置において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており(
図7)、前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる(
図8)。
【0063】
これにより、〔3〕項と同様に、学習データに含まれる説明変数の形式が、ターゲット物性を求める関係式に基づくものとなるため、得られるパラメータリストを用いた予測の精度が著しく向上する。
【0064】
〔13〕<学習データに一部データの欠けたレコードが含まれる場合の救済>
〔10〕項において、前記機械学習支援装置は予測部(7)をさらに備える(
図13)。前記学習データは複数のレコードによって構成され、前記複数のレコードのそれぞれは教師データと対応する複数の説明変数の値によって構成される。
【0065】
前記探索範囲指定部は、前記複数のレコードのうち一部の説明変数の値が欠けたレコードがある場合に、欠けている説明変数を新たなターゲット物性とし、前記新たなターゲット物性に対応する、前記物性関係性グラフのノードを新たな終点ノードとし、合わせて新たな探索範囲を指定して、前記グラフ探索部に供給する。
【0066】
前記グラフ探索部は、前記物性関係性グラフを対象とする探索を行って、前記新たな終点ノードから前記新たな探索範囲内にあるノードよりなる新たな部分グラフを出力する。
【0067】
前記学習データ入力部は、前記新たなターゲット物性を新たな教師データとし、前記新たな部分グラフに含まれる他のノードに対応する物性パラメータを説明変数とする新たな収集条件を指定し、前記新たな収集条件に合致する複数のレコードを新たな学習データとして前記機械学習部に供給する。
【0068】
前記機械学習部は、前記新たな学習データを入力とする機械学習を行って、前記新たなターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数を、前記新たなパラメータリストとして出力する。
前記予測部は、前記新たなパラメータリストを用い、前記一部の説明変数の値が欠けた前記レコードに含まれる他の説明変数の値から、前記欠けている説明変数の予測値を算出し、前記一部の説明変数の値が欠けた前記レコードを補って前記学習データの内容を更新する。
【0069】
前記機械学習部は、更新された前記学習データを入力とする機械学習を行って、前記ターゲット物性の予測値を算出するための前記説明変数それぞれの重み付け係数を、前記パラメータリストとして出力する。
【0070】
これにより、学習データを構成するレコードに一部の説明変数のデータが欠けているレコードが含まれている場合であっても、そのレコードを学習データから排除することなく、有効に利用することができる。〔4〕項と同様に、学習データ内に存在する説明変数のデータが欠けたレコードについて、欠けた説明変数の値を予測によって補うための機械学習を再帰的に繰り返すことにより、学習データとして利用可能なレコードを順次増やすことができる。
【0071】
〔14〕<パラメータリストと物性関係性グラフの照合>
〔10〕項において、前記機械学習支援装置はパラメータリスト照合部(9)をさらに含む(
図13)。
【0072】
前記パラメータリスト照合部は、前記パラメータリストに含まれる重み付け係数と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間の経路とを照合する。
【0073】
これにより、〔5〕項と同様に、全体としての信頼性や予測の精度を向上することができる。
【0074】
〔15〕<機械学習アルゴリズムの適合性の評価>
〔14〕項の機械学習支援装置において、前記機械学習部は、それぞれが異なる機械学習アルゴリズムを採用する複数の機械学習を行って(S5-1~S5-n)、それぞれに対応する複数のパラメータリストを生成し(S6-1~S6-n)、前記パラメータリスト照合部は、前記複数のパラメータリストのそれぞれと、前記物性関係性グラフにおける前記経路との照合を行い、所定の判断基準に基づいて1つのパラメータリスト(S6a)を選択して出力する(
図11参照)。
【0075】
これにより、〔6〕項と同様に、全体としての信頼性や予測の精度を向上することができる。
【0076】
〔16〕<判断基準:ノード間の距離と重み係数の値の一致度>
〔15〕項の機械学習支援装置において、前記パラメータリスト照合部は、前記複数のパラメータリストそれぞれについて、当該パラメータリストに含まれる重み付け係数の絶対値と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間の経路の長さの一致度を算出し、算出した一致度が最大であることを、前記判断基準とする。
【0077】
これにより、〔7〕項と同様に、一般的なグラフの経路探索アルゴリズムを流用して、パラメータリストと物性関係性グラフの照合を行うことができる。
【0078】
〔17〕<判断基準:関係式に基づく依存の強度と重み係数の値の一致度>
〔15〕項の機械学習支援装置において、前記物性関係性グラフを構成するエッジの長さが対応する物性パラメータ対の関係性における依存の強度に基づいて規定され、前記パラメータリスト照合部は、前記複数のパラメータリストそれぞれについて、前記経路の長さとして算出される依存の強度と、当該パラメータリストに含まれる重み付け係数との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする。
【0079】
これにより、〔8〕項と同様に、比較されたアルゴリズムの中で最適な学習アルゴリズムを選択することができ、その結果であるパラメータリストを使用することによって、予測の精度を最大化することができる。
【0080】
〔18〕<判断基準:ノード間の相関の極性と重み係数の極性の一致度>
〔15〕項の機械学習支援装置において、前記物性関係性グラフを構成するエッジには対応する物性パラメータ対の相関の極性が対応付けられており、前記パラメータリスト照合部は、前記複数のパラメータリストそれぞれについて、当該パラメータリストに含まれる重み付け係数の極性と、前記物性関係性グラフにおける当該重み付け係数に対応する説明変数に対応するノードと前記ターゲット物性に対応するノードとの間のエッジに対応付けられた相関の極性との一致度を算出し、算出した一致度が最大であることを、前記判断基準とする。
【0081】
これにより、〔9〕項と同様に、物性関係性グラフのそれぞれのエッジに詳細な関係式が紐づけられていなくても、増減方向の一致度に基づいて、機械学習のアルゴリズムの適合性を判断する基準を提供することができる。
【0082】
〔19〕<物性関係性グラフの探索による適正な学習データの指定(教師なし学習)>
本願において開示される代表的な実施の形態は、計算機上で動作するソフトウェアによって実装され、物性探索ステップ(S1~S3)と機械学習ステップ(S25)とを含む機械学習支援方法であって、以下のように構成される(
図24)。
【0083】
前記物性探索ステップは、互いに関係性を有する複数の物性パラメータ対に含まれる物性パラメータをノードとし前記物性パラメータ対に対応するノード間をエッジとする物性関係性グラフ(1)を対象として、与えられるターゲット物性に対応するノードと、当該ノードから所定の範囲内で接続されるノードからなる部分グラフを抽出する。
【0084】
前記機械学習ステップは、前記部分グラフに含まれるノードに対応する物性パラメータを説明変数とする複数のデータを学習データとして教師なし学習を行って、特徴情報を出力する(S26)。
【0085】
これにより、ターゲット物性に関連する物性についての教師なし学習を行うのにも適した学習データを提供することができる。例えば、ターゲット物性の予測を行うための機械学習を意図して学習データを収集した結果、ターゲット物性を教師データとする学習データが十分に得られなかった場合に、物性探索にヒントとなる情報を得るために適切な学習データを使った教師なし学習が可能となる。また、多すぎる場合には、学習データから不適切な教師データを含むレコードを除外するためのヒントを得ることができる。また、教師データの数とは無関係に、学習データ全体の傾向を把握し、さらには入力すべき学習データの形式を改善するために、教師なし学習を行ってもよい。
【0086】
〔20〕<影響因子>
〔19〕項の機械学習支援方法において、前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード(b,d,T)、及び、当該ノード(b,d,T)と当該物性パラメータに対応するノードとの間のエッジ(25)とを有する(
図6、
図25)。
【0087】
前記物性探索ステップは、前記ターゲット物性に対応するノードから前記所定の範囲内で接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノード(影響因子に対応するノード)を包含する。それに伴って、前記機械学習ステップにおける前記学習データにも、前記部分グラフに包含された前記ノードに対応する影響因子が含まれる。
【0088】
これにより、教師なし学習においても教師あり学習について規定した〔2〕項と同様に、学習データに説明変数として含まれる物性パラメータの値に影響を与える影響因子が、説明変数として同じ学習データに含まれることとなり、適切な機械学習が行われる。
【0089】
〔21〕<関係式>
〔19〕項の機械学習支援方法(
図25)において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており(
図7)、前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる。
【0090】
これにより、教師なし学習においても教師あり学習について規定した〔3〕項と同様に、説明変数として含まれる物性パラメータがより適切な形式で学習データに含まれることとなり、物性探索に適した機械学習が行われることとなる。
【0091】
〔22〕<クラスタリング>
〔19〕項から〔21〕項のうちのいずれか1項の機械学習支援方法において、前記教師なし学習はクラスタリングであり、前記特徴情報はクラスタの中心、重心、形状のうちの少なくとも1つである。
【0092】
これにより、学習データがターゲット物性に関連する複数の物性がいくつかのクラスタに分けられ、そのクラスタの特徴がわかるので、クラスタを構成する物性パラメータの関係性からターゲット物性を予測するためのヒントを得ることができる。
【0093】
〔23〕<主成分分析>
〔19〕項から〔21〕項のうちのいずれか1項の機械学習支援方法において、前記教師なし学習は主成分分析であり、前記特徴情報は前記学習データを構成する複数の物性パラメータの寄与率である。
【0094】
これにより、教師なし学習の結果が、学習データを構成する説明変数の形式が適切かどうかを考察する材料となり、必要に応じて学習データを再構成することにより、より適切な機械学習に利用することができる。例えば、寄与率は、ターゲット物性の予測を行うことを意図して行った教師あり学習で用いた学習データにおける説明変数の形式が適切かどうかを判断する材料とすることができる。寄与率はまた、学習データとして不足している可能性のある説明変数、即ち、物性パラメータを発見するためのヒントとすることもできる。また例えば、特性空間の次元削減を行なうときに、寄与率を次元削減の可否を判断とする基準とすることができる。
【0095】
〔24〕<機械学習支援装置;学習データに適する物性パラメータ一式の特定(教師なし学習)>
本願において開示される代表的な実施の形態は、ターゲット物性を予測するパラメータリストを生成する機械学習支援装置(10)であって、以下のように構成される(
図26、
図27)。
【0096】
機械学習支援装置(10)は、物性関係性グラフ(1)とグラフ探索部(2)と探索範囲指定部(3)と学習データ入力部(4)と機械学習部(5)とを備える。
【0097】
前記物性関係性グラフは、互いに関係性を有する複数の物性パラメータ対に含まれる物性パラメータをノードとし前記物性パラメータ対に対応するノード間をエッジとするグラフである。
【0098】
前記探索範囲指定部は、与えられる前記ターゲット物性に対応する、前記物性関係性グラフのノードを終点ノードとし、合わせて探索範囲を指定し、前記グラフ探索部は、前記物性関係性グラフを対象とする探索を行って、前記終点ノードから前記探索範囲内にあるノードよりなる部分グラフを出力する。
【0099】
前記学習データ入力部は、前記部分グラフに含まれるノードに対応する複数の物性パラメータを説明変数とする収集条件を指定し、前記収集条件に合致する複数のレコードを学習データとして前記機械学習部に供給する。
【0100】
前記機械学習部は、前記学習データを入力とする教師なし学習を行って、特徴情報(16)を出力する。
【0101】
これにより、ターゲット物性に関連する物性についての教師なし学習を行うのにも適した学習データを特定し、実際に機械学習を行う機械学習支援装置を提供することができる。
【0102】
〔25〕<影響因子データベース>
〔24〕項において、前記機械学習支援装置は影響因子データベース(20)をさらに備える(
図27)。
【0103】
前記影響因子データベースは、前記物性関係性グラフを構成するノードに対応する物性パラメータと、当該物性パラメータが依存性をもつ影響因子とを対応付けて記憶し、前記物性関係性グラフは、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード(b,d,T)と、当該ノード(b,d,T)と当該物性パラメータに対応するノードとの間のエッジ(25)とを有する(
図6)。
【0104】
前記グラフ探索部は、前記ターゲット物性に対応するノードから前記探索範囲内で接続されるノードに影響因子に対応するノードが含まれる場合に、前記部分グラフに当該ノードを包含し、前記学習データ入力部が指定する前記収集条件に、前記説明変数として前記部分グラフに含まれるノードに対応する影響因子が含まれる。
【0105】
これにより、学習データに説明変数として含まれる物性パラメータの値に影響を与える影響因子が、同じく説明変数として同じ学習データに含まれることとなるので、教師なし学習においても教師あり学習について説明した〔11〕項と同様に、適切な機械学習が行われる。
【0106】
〔26〕<関係式>
〔24〕項の機械学習支援装置(
図27)において、前記物性関係性グラフの前記物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけて記憶されており(
図7)、前記部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは前記ターゲット物性を求める関係式に含まれる形式で、前記学習データに説明変数として含まれる。
【0107】
これにより、〔21〕項と同様に、説明変数として含まれる物性パラメータがより適切な形式で学習データに含まれることとなり、物性探索に適した機械学習が行われることとなる。
【0108】
〔27〕<クラスタリング>
〔24〕項から〔26〕項のうちのいずれか1項の機械学習支援装置において、前記教師なし学習はクラスタリングであり、前記特徴情報はクラスタの中心、重心、形状のうちの少なくとも1つである。
【0109】
これにより、〔22〕項と同様に、学習データがターゲット物性に関連する複数の物性がいくつかのクラスタに分けられ、そのクラスタの特徴がわかるので、クラスタを構成する物性パラメータの関係性からターゲット物性を予測するためのヒントを得ることができる。
【0110】
〔28〕<主成分分析>
〔24〕項から〔26〕項のうちのいずれか1項の機械学習支援装置において、前記教師なし学習は主成分分析であり、前記特徴情報は前記学習データを構成する複数の物性パラメータの寄与率である。
【0111】
これにより、〔23〕項と同様に、教師なし学習の結果が、学習データを構成する説明変数の形式が適切かどうかを考察する材料となり、必要に応じて学習データを再構成することにより、より適切な機械学習に利用することができる。
【0112】
2.実施の形態の詳細
実施の形態について更に詳述する。
【0113】
〔実施形態1〕
図1は、本発明の実施形態1に係る機械学習支援方法の構成例を示すフローチャートである。
【0114】
本実施形態1の機械学習支援方法は、計算機上で動作するソフトウェアによって実装され、ターゲット物性入力ステップ(S1)と探索範囲指定ステップ(S2)とグラフ探索ステップ(S3)からなる物性探索ステップと、学習データ入力ステップ(S4)と、機械学習ステップ(S5)とを含んで構成され、候補物質の物性値が入力(S7)されたときに、ターゲット物性の予測値を算出する(S9)ためのパラメータリストを出力する(S6)。
【0115】
グラフ探索ステップ(S3)は、物性関係性グラフ1を対象とするグラフ探索を行う。物性関係性グラフ1は、互いに関係性を有する複数の物性パラメータ対に含まれる物性パラメータをノードとし前記物性パラメータ対に対応するノード間をエッジとするグラフである。より詳しく説明すると、物性関係性グラフ1は、2つの物性パラメータの間に何らかの関係性があることを、その2つの物性パラメータに対応する2つのノードとその2つを繋ぐ1本のエッジで表現し、そのような物性パラメータ対の関係性を広範な分野から集めて1つにまとめたグラフであって、グラフ理論で確立された経路探索アルゴリズムなどを使って、物性間の関係性の有無や関係の強弱など、種々の物性探索に利用される。一方の物性パラメータを変化させたときに他方の物性パラメータも変化するが逆は成り立たないような、関係性に一方向の因果関係がある場合に、有向グラフを用いて表現してもよい。また、エッジには長さをはじめとして任意の属性を付与してもよい。エッジに長さ1の属性を与え、関係性の有無をそのままエッジの有無に対応付けた場合、複数のノード(エッジ)を渡る経路は、複数の物性パラメータを経由した関係性に対応し、経路を構成するエッジの数が経路長であり、経路長が長いほど関係性が弱いことを表す。物性パラメータ間の実際の関係性の強弱を反映する精度はあまり高くはないが、簡易的な指標として有効である。関係性の強さに基づいてエッジの長さを規定すると、経路長を、関係性の強さの指標とする精度が向上する。例えばエッジに「緩い相関」、「1次に比例」、「2次に比例」、「指数関数に則って変化」などの関係性の強さに応じて、エッジの長さの属性を調整すればよい。また、関数式そのものをエッジの属性として付与してもよい。複数のエッジを経由する関係性は関数式の合成関数によって正確に導出することができる。この他、正の相関か負の相関かという相関の極性をエッジの属性に付与してもよい。
【0116】
ターゲット物性入力ステップ(S1)と探索範囲指定ステップ(S2)とグラフ探索ステップ(S3)からなる物性探索ステップは、物性関係性グラフ1を対象として、与えられるターゲット物性に対応するノードと、当該ノードから所定の範囲内で接続されるノードからなる部分グラフを抽出する(S3)。ここで「所定の範囲」は、典型的には経路長で規定される。経路長は経由するエッジの長さの合計とすることができ、関係性の有無をエッジの有無に対応付ける、上述の最も単純な例では、経路長は経路を構成するエッジの数で規定される。
【0117】
学習データ入力ステップ(S4)は、グラフ探索ステップ(3)で抽出された部分グラフに基づく収集条件を出力し、学習データ収集ステップ(S11)で収集された学習データの入力を受けて機械学習ステップ(S5)に供給する。収集条件として指定される学習データは、ターゲット物性を教師データとし、グラフ探索ステップ(3)で抽出された部分グラフに含まれる他のノード(ターゲット物性に対応するノード以外のノード)に対応する物性パラメータを説明変数とする複数のデータである。学習データ収集ステップ(S11)は、物性データ30にアクセスすることによって、指定された学習データを収集する。物性データ30は外部にあって学習データ収集ステップ(S11)は、本実施形態1の機械学習支援方法の一連のステップとは切り離して実行されてもよい。
【0118】
機械学習ステップ(S5)は、入力された複数のデータを学習データとする機械学習を行って、パラメータリストを出力する(S6)。パラメータリストとは、ターゲット物性の予測値を算出するための説明変数それぞれの重み付け係数の集まりである。ある物質(候補物質)のもつ物性値のうち、説明変数に該当する物性値が、予測ステップに入力されると(S7,S8)、入力された物性値のそれぞれにパラメータリストとして与えられる重み付け係数を乗じて合計することにより、物性値が入力された候補物質のターゲット物性の予測値を算出することができる(S9)。予測ステップ(S7~S9)は、本実施形態1の機械学習支援方法の一連のステップとは切り離されていてもよい。
【0119】
これにより、材料研究における予測や設計に資する機械学習を行うために、学習データとしてどのようなデータ群が適切かを特定することができる機械学習支援方法を提供することができる。
【0120】
本実施形態1の機械学習支援方法について、さらに詳しく説明する。
【0121】
図2~
図5は、それぞれ、物性関係性グラフ1の一例、適切な学習データを示すための部分グラフの一例、学習データの一例、機械学習の結果として出力されるパラメータリストを使った、予測のための関数の例を示す説明図である。
【0122】
図2に示される物性関係性グラフ1は、物性パラメータA~LとYの関係性を反映したグラフである。物性パラメータYをターゲット物性とし、エッジ数=1以内が探索範囲指定ステップ(S2)の所定範囲として指定されたとき、グラフ探索ステップ(S3)からは
図3に示す部分グラフが出力される。ターゲット物性Yを中心としてエッジ数=1以内の範囲で接続されるノードA,B,C,D,Eで構成される部分グラフである。
【0123】
学習データ入力ステップ(S4)では、
図3に示す部分グラフに基づいて収集条件を出力する。出力される収集条件として、物性パラメータA,B,C,D,Eが説明変数、物性パラメータYが教師データと指定される。学習データは、複数のレコードによって構成され、各レコードは教師データと対応する複数の説明変数の値によって構成されている。
図4は、上述の収集条件に則って収集された学習データの例である。複数の試料X1~Xn(nは自然数)についての物性パラメータA,B,C,D,E及びYの値({a1,b1,c1,d1,e1,y1},{a2,b2,c2,d2,e2,y2},…{an,bn,cn,dn,en,yn})が収集され、n個のレコードよりなる学習データが構成されている。
【0124】
機械学習ステップ(S5)では、物性パラメータYの値を教師データとして、
図4に示す学習データを入力とする機械学習を行う。
【0125】
予測のための関数の例を
図5に示す。a,b,c,d,eは候補物質の物性パラメータA,B,C,D,Eの物性値、p1,p2,p3,p4,p5は機械学習ステップ(S5)の結果として出力されたパラメータリストであり、yは候補物質のターゲット物性である物性パラメータYの予測値である。パラメータリストを構成する重み付け係数p1,p2,p3,p4,p5は、yのa,b,c,d,eそれぞれについての相関係数として理解することができ、
図3に示す部分グラフのY-A間,Y-B間,Y-C間,Y-D間,Y-E間のエッジにそれぞれ対応する。
【0126】
〔機械学習支援装置〕
本実施形態1の機械学習支援方法を実行するハードウェアは、機械学習支援装置と呼ぶことができ、記憶装置、演算処理部、入出力インターフェース、ネットワークインターフェース等からなるコンピュータに、機械学習支援方法がソフトウェアとしてインストールされることによって実装されると好適である。
【0127】
図12は、本発明の実施形態1に係る機械学習支援装置の構成例を示すブロック図である。
【0128】
機械学習支援装置10は、物性関係性グラフ1とグラフ探索部2と探索範囲指定部3と学習データ入力部4と機械学習部5とを備える。
【0129】
物性関係性グラフ1は、上述したように、互いに関係性を有する複数の物性パラメータ対に含まれる物性パラメータをノードとしその物性パラメータ対に対応するノード間をエッジとするグラフである。
【0130】
探索範囲指定部3は、与えられる前記ターゲット物性に対応する、物性関係性グラフ1のノードを終点ノードとし、合わせて探索範囲を指定し、グラフ探索部2は、物性関係性グラフ1を対象とする探索を行って、指定された終点ノードから探索範囲内にあるノードよりなる部分グラフを出力する。探索範囲は、上述のように終点ノードからの経路長などで規定することができる。
【0131】
学習データ入力部4は、ターゲット物性を教師データとし、グラフ探索部2によって抽出された部分グラフに含まれる他のノード(ターゲット物性に対応するノード以外のノード)に対応する物性パラメータを説明変数とする収集条件を指定する。学習データ入力部4には、その収集条件に合致する複数のレコードからなる収集データが入力される。学習データ入力部4は、入力された収集データを学習データとして機械学習部5に供給する。
【0132】
機械学習部5は、供給された学習データを入力とする機械学習を行って、ターゲット物性の予測値を算出するための説明変数それぞれの重み付け係数を算出し、パラメータリスト6として出力する。
【0133】
出力されたパラメータリスト6は、ある物質(候補物質)のターゲット物性の値を予測する関数を与える。候補物質の物性値のうち、説明変数に該当する物性値が、予測部7に入力されると、入力された物性値のそれぞれにパラメータリスト6として与えられる重み付け係数を乗じて合計することにより、候補物質のターゲット物性の予測値を算出することができる。予測部7は、
図12では機械学習支援装置10とは切り離された別の装置として例示したが、機械学習支援装置10に内蔵してもよい。
【0134】
機械学習支援装置10の動作は、
図2~
図5を引用して説明した機械学習支援方法と同様である。詳しい説明を省略する。
【0135】
これにより、材料研究における予測や設計に資する機械学習を行うために、学習データとしてどのようなデータ群が適切かを特定し、それに基づいて収集されたデータを学習データとする機械学習を可能とする、機械学習支援装置を提供することができる。
【0136】
〔具体例〕
機械学習支援方法及び機械学習支援装置10の動作について、より具体的に説明する。
【0137】
2種類の金属からなる合金の仕事関数を予測する例を引用して説明する。金属元素Aと金属元素Bからなる合金の仕事関数を予測するためのパラメータリストを、機械学習によって生成する。
【0138】
図14に、仕事関数を予測するための学習データとして採用される可能性が高い学習データを示す。一般に、仕事関数はバルクの組成が決まれば一義的に決まるものと単純に考える技術者が少なくない。このため、学習データは、合金の仕事関数を被説明変数とし、バルク組成、金属元素Aの仕事関数、金属元素Bの仕事関数及び合金の価電子密度を、説明変数として構成される。
【0139】
機械学習支援方法及び機械学習支援装置10では、仕事関数をターゲット物性として、物性関係性グラフの探索を行う。機械学習支援方法及び機械学習支援装置10によって行うグラフ探索の結果出力される部分グラフを、
図15に例示する。ターゲット物性である仕事関数を起点として、所定範囲内にあるノードによって構成される部分グラフである。
【0140】
ここで
図15では、物理量を実測することが可能な物性パラメータが、対応するノードの枠線を2重線で強調表示されている。
図15では、仕事関数、結晶面、表面組成、バルク組成、引張強さ及びビッカース硬度が実測可能な物性パラメータとして強調表示されている。理論的に重要であっても実測の困難な物性パラメータは、データ収集することが困難であるため、学習データとしてはあまり適切ではない。
図15に例示するように、実測可能な物性パラメータに対応するノードを強調表示することにより、ユーザーが学習データを絞り込む作業の効率を向上することができる。
【0141】
また、ある条件下で存在する関係性に対応するエッジには、その条件が属性として付されている。
図15では、結合ポテンシャル深さと引張強さとは、超塑性を示さない物質である場合に因果関係が存在し、引張り強度とビッカース硬度とは、遷移金属では比例関係にあることが示されている。このように2つの物性パラメータの間に関係性が存在する条件が、対応するエッジに属性として付されており、探索結果に表示されるように構成されることにより、ユーザーが学習データを絞り込む作業の効率を向上することができる。
【0142】
機械学習支援方法及び機械学習支援装置10は、この探索結果に基づいて、学習データを構成するのに適した物性パラメータを特定することができる。
図16に、機械学習支援方法及び機械学習支援装置10によって特定された、学習データを構成するのに適した物性パラメータが例示される。
図14に示されるように、一般的なユーザーが作成する学習データからもれがちな物性パラメータである「結晶面」が網羅されることにより、適切な機械学習を行うことができる。
【0143】
〔実施形態2〕
物性関係性グラフ1は、物性パラメータに対応するノードと影響因子に対応するノードとが含まれ、関係性を有する物性パラメータ間だけではなく、何らかの影響因子に依存性をもつ物性パラメータは、対応するノードと依存する影響因子に対応するノードとの間にもエッジをもつように構成されるとより好適である。上述したように、物性探索においては、物質・材料が置かれた環境によって物性間の関係性の強弱が変化し、また、物質・材料の形態やサイズによって探索すべき物性の重要度が変化する場合があるため、物性パラメータではないが、物性に影響を与える因子(影響因子)が存在するからである。
【0144】
学習データに含まれる少なくとも1つの物性パラメータが、何らかの影響因子に依存性を持つ場合であって、学習データ内のその物性パラメータの値が、異なるレコードの間で依存性のある影響因子について異なる値を前提としている場合、その影響因子も学習データの説明変数に含まれる必要がある。
【0145】
実施形態1の機械学習支援方法および機械学習支援装置10において、物性関係性グラフ1は、複数の前記物性パラメータが依存性をもつ影響因子に対応するノード、及び、当該ノードと当該物性パラメータに対応するノードとの間のエッジとを有する。
【0146】
機械学習支援方法の物性探索ステップ(S1~S3)は、ターゲット物性に対応するノードから所定の範囲内で接続されるノードに影響因子に対応するノードが含まれる場合に、そのノードを部分グラフに含めて出力する。ただし、物性関係性グラフ1の経路探索では、影響因子に対応するノードは終点とされ、これを中間点としてさらに別のノードに到達する経路は抽出されない。機械学習ステップ(S5)における学習データには、出力された部分グラフに包含された前記ノードに対応する影響因子が含まれる。
【0147】
これにより、学習データに説明変数として含まれる物性パラメータの値に影響を与える影響因子が、同じく説明変数として同じ学習データに含まれることとなるので、適切な機械学習が行われる。
【0148】
物性関係性グラフ1が影響因子に対応するノードを含む場合について、詳しく説明する。
【0149】
図6は、影響因子に対応するノードを含む物性関係性グラフ1を例示する説明図である。
【0150】
物性パラメータ同士の関係性に基づくグラフ24と、影響因子データベース20に基づいて影響因子に対応づけられているノードT,b,dと、影響因子に対応づけられている各ノード(T,b,d)とその影響因子に依存性を持つ物性パラメータとの間をつなぐエッジ25によって構成されている。
【0151】
影響因子は、環境型影響因子21、形態型影響因子22およびサイズ型影響因子23のように、下位概念に区分するとより好適である。
【0152】
環境型影響因子21は、物質が置かれている環境を表す因子であって、例えば、温度、圧力、電界および磁界がこれに分類される。形態型影響因子22は、物性パラメータに影響を与える物質の形態を表す因子であって、例えば、球状、柱状、線状、クラスタ、表面積/体積比、配向方向および分散度がこれに分類される。サイズ型影響因子23は、その形状や状態の大きさを表す影響因子である。例えば、形態型影響因子22が球状、柱状であれば径、線状であれば長さがこれに分類される。概念的には異なるが、ナノ、マイクロ、バルクなどある程度の値の範囲を示す因子をサイズ型影響因子とすることが適切な場合もある。例えば、バルク状態では発現していなかった性質が、ナノサイズの微細構造になったときに初めて発現する場合があるからである。
【0153】
機械学習支援装置10は、影響因子データベース20をさらに備えて構成されてもよい。
【0154】
図13は、本発明の実施形態2~5に係る機械学習支援装置の構成例を示すブロック図である。
【0155】
本実施形態2に係る機械学習支援装置10は、
図12に示した実施形態1に係る機械学習支援装置10と同様に物性関係性グラフ1とグラフ探索部2と探索範囲指定部3と学習データ入力部4と機械学習部5とを備え、物性関係性データベース11と影響因子データベースとグラフ生成部8とをさらに備える。
図13では、機械学習支援装置10に予測部7を内蔵する例を示したが、
図12と同様に分離してもよい。パラメータリスト照合部9については、後段の実施形態5で説明する。
【0156】
物性関係性データベース11は、関係性を有する2つの物性パラメータを対にして記憶する。関係性を原因側と結果側に分けて記憶してもよい。これにより、物性関係性グラフ1を有向グラフとする場合の、エッジの方向が規定される。影響因子データベース20は、物性パラメータが影響因子に依存性をもつ場合に、その物性パラメータと影響因子とを対応付けて記憶する。一般には影響因子は原因側であり、結果側になることはない。物性関係性データベース11と影響因子データベース20には、関係性の有無に加えて、上述のような方向性の他、具体的な関係性が記憶されているとより好適である。具体的な関係性とは、例えば、相関の極性、依存の強度、関係式である。相関の極性とは、原因側のパラメータまたは因子の値が増加したときに結果側のパラメータが増加するか減少するかを示す極性で、同じ方向の場合が「正の相関」、逆の場合が「負の相関」である。依存の強度とは、原因側のパラメータまたは因子の値が増加したときの、結果側のパラメータの増加または減少の程度を表す指標で、例えば、線形よりも緩やかに増加/減少、線形で増加/減少、べき乗(2乗、3乗、…)で増加/減少、指数的に増加/減少に区分して規定することができる。さらに、関係式そのものを物性関係性データベース11と影響因子データベース20に記憶してもよい。関係式は、コンピュータによる可読性のあるフォーマット(例えばcontent math ML)で記憶される。
【0157】
図7は、物性関係性データベース11と影響因子データベース20の例を示す説明図である。
図7は入力フォーム29をイメージして示したものであるが、これがそのまま、物性関係性データベース11と影響因子データベース20とが統合されたデータベースとして、記憶されてもよい。原因側物性パラメータと結果側物性パラメータと関係性記述の3列で構成され、各行に原因側と結果側の物性パラメータが対応づけて記憶され、さらにそのときの関係性を示す関係式が紐づけられて記憶されている(原因側をE、結果側をDとした行の関係性記述欄参照)。その関係式には物性パラメータ以外にも結果側物性パラメータの値が依存性をもつ影響因子(例えば温度T、粒径d)が含まれている。関係性記述には、このような関係式に代えてまたは関係式に加えて、相関の極性や依存の強度が記憶されてもよい。
【0158】
図13についての説明に戻る。本実施形態2に係る機械学習支援装置10において、グラフ生成部8は、物性関係性データベース11と影響因子データベース20から物性関係性グラフ1を生成する。生成された物性関係性グラフ1は、例えば
図6に示したとおりである。
【0159】
グラフ探索部2は、実施形態1と同様に、指定されたターゲット物性に対応するノードを中心とする所定の範囲に含まれるノードによって構成される部分グラフを出力する。本実施形態2では、このときのノードには、影響因子に対応するノードが含まれる場合がある。なお、このときの経路探索では、影響因子に対応するノードは終点とされ、これを中間点としてさらに別のノードに到達する経路は抽出されない。
【0160】
グラフ探索部2が探索の結果抽出する物性パラメータが何らかの影響因子に依存性を持つ場合に、その影響因子に対応するノードも、出力される部分グラフに含まれ、その結果、学習データ入力部4が指定する収集条件にその影響因子が含まれ、最終的には機械学習部5に入力される学習データに説明変数として含まれることとなる。学習データが、影響因子の値が異なるレコードを含む場合に、その影響因子が説明変数に含まれることとなるため、機械学習が適切に行われる。
【0161】
〔実施形態3〕
本実施形態3の機械学習支援方法においては、物性関係性グラフ1に含まれる複数のエッジの少なくとも一部のエッジに、そのエッジの両端のノードに対応する物性物性パラメータ対の関係性を表す関係式が紐づけられているときに、当該エッジ(関係式が紐づけられているエッジ)に接続されるノードに対応する物性パラメータは、前記ターゲット物性を求める関係式に含まれる形式で、前記学習データの説明変数として含まれるとよい。
【0162】
これにより、学習データに含まれる説明変数の形式が、ターゲット物性を求める関係式に基づくものとなるため、得られるパラメータリストを用いた予測の精度が著しく向上する。ここで説明変数の形式は、2乗、3乗、1/2乗、1/3乗などのべき乗、指数関数などの累乗の形式を含み、ターゲット物性を求める関係式に現れる数表現形式で学習データを構成するとよい。
【0163】
例えば、
図7に示す例では、原因側物性パラメータBと結果側物性パラメータAの関係が、関係式A=g(B)で記述されるので、物性パラメータAとBに対応するノード間をつなぐエッジに関係式A=g(B)が対応づけられる。原因側物性パラメータA,Bと結果側物性パラメータDの関係は、関係式D=f(A,B)=αA/B+βA
2+Bで記述されるので、物性パラメータDとA、Bに対応するノード間をつなぐエッジにその関係式が対応づけられる。また、原因側物性パラメータEと結果側物性パラメータDの関係は、関係式D=f
E(E,T,d)で記述され、物性パラメータDとEに対応するノード間をつなぐエッジにその関係式が対応づけられる。ここで、Tとdは影響因子であり、D-T間とD-d間にもエッジが存在する(
図6参照)。
【0164】
このとき、物性パラメータDをターゲット物性とし、それに対応するノードDを中心とする探索では、エッジ数=1以内を探索範囲とすると、ノードA,B,E,F,L,T,dを含む部分グラフが出力される。このときの学習データには説明変数としてA,B,E,F,L,T,dがそのまま含まれてもよいが、さらに、
図7に例示したDとA,Bとの間の関係性に基づいて、A/B,A
2,1/Bが含まれるとよい。なお、A/Bと1/Bが含まれるべきか、一方のみが含まれるべきかは、議論の余地がある。例えばAとBが反比例の関係にあるとA/Bは一定値となるので、説明変数として適切ではないことは明らかである。A/Bと1/Bのうちどちらの寄与が大きいかを明確に判断できない場合には、両方を説明変数とした学習データを作成して対応することができる。
【0165】
図8は、本実施形態3に係る学習データを例示する説明図である。学習データには説明変数としてA,Bの他にA/B,A
2,1/Bが含まれている。他の物性パラメータE,F及び影響因子T,dも含まれてよいが、図示は省略されている。
【0166】
実際の関係式に含まれる通りの形式で学習データが与えられるため、線形を基本とした機械学習の精度が著しく向上し、その結果出力されるパラメータリストを用いれば予測の精度も著しく向上する。
【0167】
図12,
図13に示した機械学習支援装置10についても同様である。学習データ入力部は、グラフ探索部2から出力される部分グラフに基づいて収集条件を指定し、それに合致する収集データが入力されるが、このとき、前記部分グラフを参照してエッジに対応する関係式で使われている形式に、収集データを変換した上で学習データに説明変数として追加する。
【0168】
これにより、学習データに含まれる説明変数の形式が、ターゲット物性を求める関係式に基づくものとなるため、機械学習装置10においても同様に、得られるパラメータリストを用いた予測の精度が著しく向上する。
【0169】
〔具体例〕
本実施形態3に係る、機械学習支援方法及び機械学習支援装置10の動作について、より具体的に説明する。電気伝導率をターゲット物性とする機械学習の例である。
【0170】
電気伝導率を起点とする物性関係性グラフの探索結果である部分グラフの一部を、
図17に例示する。電気伝導率は、キャリア密度に依存し、キャリア密度はバンドギャップに、バンドギャップは生成エンタルピーに依存する。電気伝導率が依存する他の物性パラメータについては、図示が省略されている。物性関係性グラフ1を生成するために使用された物性関係性データベース11の一部を、
図18に例示する。原因側と結果側の物性パラメータが対応づけられているだけでなく、「関係性記述」の欄が設けられ、その2つの物性パラメータの関係性情報がさらに紐づけられている。図では数式で表現されているが、実際にはコンピュータへの読み込みが可能なフォーマット、例えばcontent math MLで記述されるとよい。
図18に示すように、電気伝導率ρはキャリア密度nに比例し、キャリア密度はバンドギャップEの指数関数で表される。即ち、nはexp(-E)に比例する。
【0171】
図19は、機械学習支援方法及び機械学習支援装置10の動作によって指定される収集条件に則って作成される学習データを例示する説明図である。関係性記述を考慮しないで学習データを構成すると、説明変数には、キャリア密度nとバンドギャップEそのものとが含まれることとなるが、関係性記述を考慮することにより、バンドギャップEを関係性記述に基づく形式exp(-E)に変更することができる。これにより生成される線形のパラメータリストによる予測精度は、著しく向上される。なお、バンドギャップEそのものとexp(-E)の両方が学習データに含まれてもよい。適切な機械学習が行われれば、適切な形式の変数に対応する重み付け係数(パラメータリスト内の係数)が大きく不適切な変数に対応する重み付け係数は無視できる程度に小さくなるため、予測のステップにおいては不適切な形式の変数の影響はほとんどない。一方、学習データにおいて各説明変数の値をありとあらゆる形式で含むように構成することは、機械学習に要する演算処理能力が膨大になってしまって非現実的である。以上のように、学習データに含まれる説明変数の形式を、膨大な数の形式を採用するのではなく、ターゲット物性を求める関係式に基づく適切な形式とすることができるため、得られるパラメータリストを用いた予測の精度が著しく向上する。
【0172】
〔実施形態4〕
図4に例示したように、学習データは、複数のレコードによって構成され、各レコードは教師データと対応する複数の説明変数の値によって構成されている。ここで、マテリアルズインフォマティクスにおける各レコードは、異なる物質、例えば組成の異なる物質、製造条件の異なる物質等から、説明変数と教師データに相当するデータを集めて構成される場合が多い。この時のデータは、種々の文献等から収集されるため、一部の物性パラメータ値や影響因子の値が欠けているレコードが少なからず存在する場合がある。基本的には、機械学習では学習データはすべてのレコードですべてのデータが揃っている必要があるため、一部であってもデータの欠けたレコードは学習データとしては不適切である。
【0173】
本実施形態4においては、学習データに一部データの欠けたレコードが含まれる場合の救済を目的とする。
【0174】
図9は、本実施形態4に係る機械学習支援方法の構成例を示すフローチャートである。
【0175】
本実施形態4の機械学習支援方法は、
図1に示した実施形態1の機械学習支援方法に対して、学習データが入力される機械学習ステップ(S5)の前に、欠落データの有無を判定するステップ(S12)と、欠けている説明変数をターゲット物性とする物性探索と機械学習と予測を行うサブルーチンである探索学習予測サブルーチン(S10)と、探索学習予測サブルーチン(S10)によって予測された、欠落データの値を使って学習データ入力ステップから供給された学習データを補完するステップ(S13)とが追加されている。
【0176】
探索学習予測サブルーチン(S10)は、
図1に示した実施形態1の機械学習支援方法のフローチャートと同じプログラムで実現することができる。欠落データに対応する物性パラメータを新たなターゲット物性として、物性関係性データベース1の経路探索を行う。その結果抽出される新たな部分グラフに基づいて、新たなターゲット物性を教師データとし新たな部分グラフに含まれる他の物性パラメータ等を説明変数として含む新たな学習データが規定される。この新たな学習データは、上位階層の学習データ入力ステップで収集されたデータの範囲で構成されてもよいし、別途収集されてもよい。探索学習予測サブルーチン(S10)内で新たな学習データに基づく機械学習を行い、その結果、欠落データに対応する物性パラメータ(新たなターゲット物性)を予測するためのパラメータリストが作成される。探索学習予測サブルーチン(S10)内でこのパラメータリストを使って欠落データに対応する物性パラメータの値を予測し、予測値によって欠落したデータを補完する(S13)。その結果、欠落データがなくなった場合には、保管された学習データを使って、機械学習ステップ(S5)以降の処理に進む。一方、別の欠落データが残っている場合には、その欠落データに対応する物性パラメータを新たなターゲット物性として再び探索学習予測サブルーチン(S10)及び欠落したデータの補完(S13)を行ってもよい。このように、欠落データに対応する物性パラメータを順次新たなターゲット物性としながら探索学習予測サブルーチン(S10)を再帰的に実行することによって、徐々に欠落データを補完することができる。一方、欠落データを含むレコードが残っていても少ない場合には、そのレコードを学習データから除外することもできるので、必要に応じて再帰的な実行を中止して、機械学習ステップ(S5)以降に進んでもよい。
【0177】
このように、欠けている説明変数をターゲット物性とし、当該ターゲット物性を予測するための機械学習に適する学習データを特定する、物性探索ステップと、当該物性探索ステップの結果に基づく学習データによる機械学習を行う、機械学習ステップと実行することによって得られたパラメータリストを用いて、前記一部の説明変数の値が欠けたレコードにおける欠けた説明変数の値を予測して補った上で、上位階層の機械学習ステップを実行する各ステップを再帰的に実行する。
【0178】
これにより、学習データを構成するレコードに一部の説明変数のデータが欠けているレコードが含まれている場合であっても、そのレコードを学習データから排除することなく、有効に利用することができる。
【0179】
実施形態2で引用した
図13の機械学習支援装置10は、本実施形態4にも適用することができる。
【0180】
探索範囲指定部3は、複数のレコードのうち一部の説明変数の値が欠けたレコードがある場合に、欠けている説明変数を新たなターゲット物性とし、新たなターゲット物性に対応する物性関係性グラフ1のノードを新たな終点ノードとし、合わせて新たな探索範囲を指定した探索条件を、グラフ探索部2に供給する。グラフ探索部2は、物性関係性グラフ1を対象とする探索を行って、新たな終点ノードから新たな探索範囲内にあるノードよりなる新たな部分グラフを出力する。学習データ入力部4は、新たなターゲット物性を新たな教師データとし、新たな部分グラフに含まれる他のノードに対応する物性パラメータを説明変数とする新たな収集条件を指定し、その新たな収集条件に合致する複数のレコードを新たな学習データとして機械学習部5に供給する。機械学習部5は、供給された新たな学習データを入力とする機械学習を行って、新たなターゲット物性の予測値を算出するため新たなパラメータリストを出力する。予測部6は、出力された新たなパラメータリストを用いて、欠けていた説明変数に対応する物性パラメータの値を予測し、予測によって学習データのレコードを補完する。例えば、一部の説明変数の値が欠けたレコードに含まれる他の説明変数の値から、欠けている説明変数の予測値を算出し、一部の説明変数の値が欠けたそのレコードを補って学習データの内容を更新する。この動作は繰り返し行ってもよい。
【0181】
機械学習部5は、更新された学習データを入力とする機械学習を行って、ターゲット物性の予測値を算出するための説明変数それぞれの重み付け係数を、パラメータリストとして出力する。
【0182】
これにより、学習データを構成するレコードに一部の説明変数のデータが欠けているレコードが含まれている場合であっても、そのレコードを学習データから排除することなく、有効に利用することができる。上述の機械学習支援方法と同様に、学習データ内に存在する説明変数のデータが欠けたレコードについて、欠けた説明変数の値を予測によって補うための機械学習を再帰的に繰り返すことにより、学習データとして利用可能なレコードを順次増やすことができる。
【0183】
〔具体例〕
本実施形態4に係る、機械学習支援方法及び機械学習支援装置10の動作について、より具体的に説明する。曲げ強度をターゲット物性とする機械学習の例である。エンジンなど高温になる箇所の近くで使用されるメカの制御用センサー回路を保護するカバーに適切なセラミック材料の特定するために、母材となる酸化物に添加するのに適切な元素の種類と量を特定することを目標とする設計である。このときより具体的には、ある程度以上の曲げ強度を持ち、温度上昇をある温度以下に抑えられる材料の特定が目標となる。
【0184】
機械学習支援方法及び機械学習支援装置10では、曲げ強度をターゲット物性として、物性関係性グラフ1を探索して得られる探索結果に基づいて、学習データを構成するのに適した物性パラメータを特定する。
図20には、ターゲット物性である曲げ強度を起点とする物性関係性グラフ1の探索結果である部分グラフ40の一部が例示される。この探索結果から、曲げ強度を被説明変数とする学習データの説明変数は、添加元素の原子番号、添加元素の濃度、融点、熱伝導率及び比熱によって構成されるのが適切であることがわかる。ここでは、範囲を1エッジ以内に限定して説明しているが、一例に過ぎず、範囲は適宜定めることができる。
図21は、曲げ強度を予測する機械学習のための学習データを例示する説明図である。
【0185】
ここで、収集した学習データにおいて、試料5の熱伝導率の値が欠けている。このような場合、学習データとしては使えないため、試料5は除外されることとなる。
【0186】
本実施形態4の機械学習支援方法及び機械学習支援装置10によれば、欠落している試料5の熱伝導率を、別の機械学習によって予測して補うことを試みる。欠落している熱伝導率をターゲット物性として、物性関係性グラフ1の探索を行なう。
図20に符号41によって示される部分グラフが、探索結果として出力される。熱伝導率を起点とする部分グラフには、電子と格子の熱伝導率、固体中の音速、及びヤング率が含まれる。熱伝導率と電子の熱伝導率との関係に対応するエッジには、「金属なら電子の寄与がほとんど」であるという条件がエッジ属性として付されており、電子の熱伝導率と電気伝導率との関係に対応するエッジは、「金属なら比例関係」であるという条件がエッジ属性として付されている。また、熱伝導率と格子の熱伝導率との関係に対応するエッジには、「非金属なら格子の寄与がほとんど」であるという、条件がエッジ属性として付されている。この例で探索しているのはセラミック材料であって金属ではないから、熱伝導率を予測するための機械学習は、熱伝導率に代えて格子熱伝導率を予測するための機械学習によって代替することができることがわかる。熱伝導率と格子熱伝導率の間の誤差は無視できる程度に小さいものとした例である。またこの格子熱伝導率を予測するための学習データには、固体中の音速、及びヤング率が適切であることがわかる。熱伝導率と格子熱伝導率の間の誤差が大きく、無視できない場合には、格子熱伝導率を予測する機械学習に加えて、格子熱伝導率と電子熱伝導率とから計算等によって熱伝導率を求めるか、さらに別の機械学習によって予測するなどの処理を追加するとよい。
【0187】
図22は、
図21で欠落している熱伝導率を予測する機械学習のための学習データを例示する説明図である。上述のとおり、熱伝導率そのものに代えて格子熱伝導率を予測するための機械学習によって代替される。
図21に示した学習データと比較すると、熱伝導率に代えて格子熱伝導率が被説明変数とされ、学習データに固体中の音速とヤング率が追加されている。熱伝導率の値が欠落していた試料5のデータは除かれ、他の試料の熱伝導率の値は、格子熱伝導率の教師データとして利用される。
【0188】
図23は、
図22の学習データを使った機械学習によって求められるパラメータリストによって、
図21で欠落していた熱伝導率を予測するための、入力データを示す説明図である。試料5の格子熱伝導率は、欠けていない他の説明変数の値から予測され、求められた格子熱伝導率の予測値は、
図21の学習データで欠落している熱伝導率の値として補完することができる。
【0189】
〔実施形態5〕
機械学習の結果であるパラメータリストは、被説明変数であるターゲット物性に予測値を算出するための説明変数それぞれの重み付け係数であるから、説明変数である物性パラメータとターゲット物性との関係性に対応する。したがって、パラメータリストを構成する重み付け係数と、対応する物性物性パラメータ対(一方はターゲット物性、他方が重み付け係数に対応する説明変数である物性パラメータ)の関係性とを照合することによって、相互の信頼性を検証し、さらには不整合がある場合にそれを対策することによって信頼度を向上することができるものと期待される。
【0190】
図10は、本実施形態5の機械学習支援方法の構成例を示すフローチャートである。
【0191】
本実施形態5の機械学習支援方法は、
図1に示した実施形態1の機械学習支援方法に対して、学習データが入力される機械学習ステップ(S5)の後に、パラメータリスト照合ステップ(S14)が追加されている。機械学習ステップ(S5)の出力は、パラメータリスト(as learned)(出力ステップはS6b)、パラメータリスト照合ステップ(S14)では照合の結果、必要に応じてパラメータリストを編集し、パラメータリスト(after modified)として出力される(S6a)。パラメータリスト照合ステップ(S14)では、パラメータリスト(as learned)に含まれる重み付け係数と、物性関係性グラフ1おける当該重み付け係数に対応する説明変数に対応するノードとターゲット物性に対応するノードとの間の経路とを照合する。照合結果をユーザーに出力し、または、パラメータリストと物性関係性グラフ1うちの一方または両方を、照合結果に基づいて変更してもよい。例えば、パラメータリストに含まれる重み付け係数の絶対値が有意水準未満である場合に、物性関係性グラフ1における対応するエッジの削除を検討することができる。
【0192】
実施形態2で引用した
図13の機械学習支援装置10は、本実施形態5にも適用することができる。
【0193】
本実施形態5に係る機械学習支援装置10は、
図13に示したようにパラメータリスト照合部9をさらに備える。パラメータリスト照合部9には機械学習部5が出力するパラメータリストが供給され、物性関係性グラフ1にアクセスして、上述のパラメータリスト照合を行う。照合結果をユーザーに出力し、または、パラメータリストと物性関係性グラフ1うちの一方または両方を、照合結果に基づいて変更してもよい。他の構成と動作は、実施形態1~4で説明したものと同様であるから、繰り返しの説明を省略する。
【0194】
これにより、全体としての信頼性や予測の精度を向上することができる。例えば、機械学習の結果として出力されるパラメータリストと、物性探索の対象である物性関係性グラフ、双方の信頼性を相互に確認しあうことができ、整合しない箇所がある場合にその不整合の原因を考察して対策することができる。より具体的には、物性関係性グラフのエッジに対応する物性物性パラメータ対の関係性が、機械学習の結果として出力されるパラメータリストにおけるパラメータ(重み付け係数)の大きさと整合しない場合に、物性関係性グラフを修正し、または、パラメータリストを編集し、あるいは学習アルゴリズムを見直すなどの措置を講じることによって、物性探索と機械学習・予測それぞれの信頼性を向上することができる。
【0195】
〔実施形態6〕
機械学習には種々のアルゴリズムが提案されているが、どのアルゴリズムが最も適切かはケースバイケースであって、その判断はユーザーの知識や経験、さらには試行錯誤を含む比較検討の詳細さに依存するところが大きい。
【0196】
上述したパラメータの照合は、機械学習アルゴリズムの適合性の評価に応用することができる。
【0197】
図11は、本実施形態6の機械学習支援方法の構成例を示すフローチャートである。
図1に示した実施形態1の機械学習支援方法の機械学習ステップ(S5)及びパラメータリスト出力ステップ(S6)に代えて、それぞれが異なる機械学習アルゴリズムを採用し、それぞれがパラメータリストを出力(S6-1~S6-n)する複数の機械学習ステップ(S5-1~S5-n)及びパラメータリスト照合ステップ(S14)を備える。
【0198】
パラメータリスト照合ステップ(S14)は、複数の機械学習ステップ(S5-1~S5-n)から出力されるパラメータリスト(S6-1~S6-n)のそれぞれと、物性関係性グラフ1における対応する経路との照合を行い、所定の判断基準に基づいて、最適な機械学習アルゴリズムを採用する機械学習ステップから出力されたパラメータリストを選択して出力する(S6a)。
【0199】
これにより、全体としての信頼性や予測の精度を向上することができる。即ち、複数の機械学習アルゴリズムの中から最適なアルゴリズムを選び出してその結果であるパラメータリストを以降の予測に用いることができるため、信頼性と予測の精度が著しく向上する。
【0200】
図13に示した機械学習支援装置10は、本実施形態6にも適用することができる。
【0201】
本実施形態6に係る機械学習支援装置10は、
図13に示したようにパラメータリスト照合部9をさらに備える。機械学習部5は、機械学習アルゴリズムを種々変更しながら、異なる機械学習アルゴリズムによるパラメータリスト(S6-1~S6-n)を順次出力してパラメータリスト照合部9に供給する。パラメータリスト照合部9は順次供給されるパラメータリスト(S6-1~S6-n)を、物性関係性グラフ1における対応する経路と順次照合する。照合結果をユーザーに出力し、または、パラメータリストと物性関係性グラフ1うちの一方または両方を、照合結果に基づいて変更してもよい。他の構成と動作は、実施形態1~4で説明したものと同様であるから、繰り返しの説明を省略する。
【0202】
機械学習支援装置10は、それぞれが異なる機械学習アルゴリズムを採用する複数の機械学習部を備えて構成してもよい(図示は省略)。異なるアルゴリズムによる複数の機械学習が並列に実行され、その結果、パラメータリスト(S6-1~S6-n)が並列に出力されるので、パラメータリスト照合も並列して行うことができる。
【0203】
これにより、複数の機械学習アルゴリズムの中から最適なアルゴリズムを選び出して信頼性と予測の精度が著しく向上する、機械学習支援装置を提供することができる。
【0204】
最適な機械学習アルゴリズムの判定基準は、複数のパラメータリスト(S6-1~S6-n)と物性関係性グラフ1との一致度に基づいて規定され、種々の一致度の算出方法が採用可能である。
【0205】
例えば第1の判断基準は、ノード間の距離と重み係数の値の一致度に基づいて規定されるものである。
【0206】
各アルゴリズムによって得られたパラメータリスト(S6-1~S6-n)に含まれる重み付け係数と、物性関係性グラフ1における当該重み付け係数に対応する説明変数に対応するノードとターゲット物性に対応するノードとの間の経路の長さの一致度をそれぞれ算出し、算出した一致度が最大であることを、判断基準とする。一般的にノード間の経路長が長い程、対応する物性パラメータ間の依存性は弱いものとなっていると考えられるので、重み付け係数の絶対値が大きいものと、経路長の短い物性物性パラメータ対の一致度を数値化して判断基準とすることができる。
【0207】
これにより、一般的なグラフの経路探索アルゴリズムを流用して、パラメータリストと物性関係性グラフの照合を行うことができる。仮に、物性関係性グラフが各エッジに物性物性パラメータ対の間の関係式等の詳細情報が対応付けられていない場合には、経路長をエッジ数とすることにより、機械学習のアルゴリズムの適合性を判断する基準を提供することができる。
【0208】
例えば第2の判断基準は、関係式に基づく依存の強度と重み係数の値の一致度に基づいて規定されるものである。
【0209】
物性関係性グラフ1を構成するエッジの長さが対応する物性物性パラメータ対の関係性における依存の強度に基づいて規定されている場合に有効である。パラメータリスト照合ステップ(S14)は、各アルゴリズムによって得られたパラメータリスト(S6-1~S6-n)に含まれる重み付け係数と、対応するノード間の経路の長さとして算出される依存の強度との一致度をそれぞれ算出し、算出した一致度が最大であることを、判断基準とする。
【0210】
これにより、比較されたアルゴリズムの中で最適な学習アルゴリズムを選択することができ、その結果であるパラメータリストを使用することによって、予測の精度を最大化することができる。
【0211】
物性物性パラメータ対の関係性における依存の強度は、例えば、線形よりも緩やか、線形、べき乗、指数関数の4段階など、何段階かに区分して規定することができる。この例の4段階に区分した場合には、複数のエッジからなる経路の依存の強度は、各エッジの依存の強度を累積的に掛け合わせた強度となるので、結果的にその経路に含まれる最も強い依存の強度によって規定される。これにより、依存の強度を簡便な方法で算出しながら、精度の高い判断基準を与えることができる。
【0212】
物性物性パラメータ対の関係性における依存の強度は、例えば、関係性を規定する関係式によって規定してもよい。依存の強度は、関係式を微分することによって求めることができる。複数のエッジからなる経路の依存の強度は、それらのエッジの関係式を、累積的に合成した関数を求め、その合成関数を微分(または偏微分)することによって求めることができる。微分された関数式から微分値を求める際には、学習データから平均的な値を得て代入する。これにより、より正確な判断基準を規定することができる。
【0213】
例えば第3の判断基準は、ノード間の相関の極性と重み係数の極性の一致度に基づいて規定されるものである。
【0214】
物性関係性グラフ1を構成するエッジに、対応する物性物性パラメータ対の関係性における相関の極性が属性として付与されている場合に有効である。パラメータリスト照合ステップ(S14)は、各アルゴリズムによって得られたパラメータリスト(S6-1~S6-n)に含まれる重み付け係数の極性と、対応するノード間のエッジに対応づけられている相関の極性との一致度をそれぞれ算出し、一致する重み付け係数の個数を判断基準とする。より具体的には、パラメータリストに含まれる重み付け係数のうち、所定の絶対値以上のものに絞って極性の一致/不一致を判断するとよい。
【0215】
〔実施形態7〕
ここまでは、教師あり学習を行う形態で本発明の実施をする場合について説明してきたが、教師なし学習を行う形態でも本発明の実施をすることができる。
【0216】
図24は、本実施形態7に係る機械学習支援方法の構成例を示すフローチャートである。
【0217】
本実施形態7の機械学習支援方法は、計算機上で動作するソフトウェアによって実装され、ターゲット物性入力ステップ(S1)と探索範囲指定ステップ(S2)とグラフ探索ステップ(S3)からなる物性探索ステップと、学習データ入力ステップ(S4)と、機械学習ステップ(S25)とを含んで構成され、入力された学習データの特徴情報を出力する(S26)。機械学習ステップ(S25)は教師なし学習である。
【0218】
グラフ探索ステップ(S3)は、ターゲット物性入力ステップ(S1)に入力されたターゲット物性に対応するノードを中心に、探索範囲指定ステップ(S2)で指定された範囲にあるノードを抽出するグラフ探索を、物性関係性グラフ1を対象として行ない、探索結果として部分グラフを出力する。学習データ収集ステップ(S11)では、グラフ探索ステップ(S3)の探索結果に基づいて、学習データ収集ステップ(S11)で収集された学習データの入力を受けて機械学習ステップ(S25)に供給する。収集条件として指定される学習データは、ターゲット物性を教師データとし、グラフ探索ステップ(S3)で抽出された部分グラフに含まれる他のノード(ターゲット物性に対応するノード以外のノード)に対応する物性パラメータを説明変数とする複数のデータである。ここまでのステップは、実施形態1等で説明した教師あり機械学習(S5)へ入力する学習データの収集方法と同様である。動作や変形例はここまでに説明した各実施形態と同様であるので、詳しい説明を省略する。ただし、実施形態7では教師なし学習を行うので、教師データの収集は省略されてもよいし、説明変数の一つとして収集されてもよい。または、ターゲット物性のデータは、一旦、実施形態1等で説明した教師あり学習のための教師データとして収集された後で、後段の機械学習ステップ(S25)に入力される学習データにおいては説明変数のデータとして扱われても良いし、学習データから除外されてもよい。
【0219】
機械学習ステップ(S25)は、入力された学習データを使って教師なし学習を行い、特徴情報を出力する(S26)。
【0220】
これにより、ターゲット物性に関連する物性についての教師なし学習を行うのに適した学習データを提供することができる。例えば、ターゲット物性の予測を行うための機械学習を意図して学習データを収集した結果、ターゲット物性を教師データとする学習データが十分に得られなかった場合に、学習データの改善や教師あり学習を補う物性探索のヒントとなる情報を得ることを目的として、教師なし学習を行うことができる。本実施形態7によれば、そのような教師なし学習に適した学習データを特定することが可能となる。これとは逆に、ターゲット物性を教師データとする学習データが多すぎる場合には、教師なし学習を行うことによって、学習データから不適切な教師データを含むレコードを除外するためのヒントを得ることができる。また、教師データの多寡とは無関係に、学習データ全体の傾向を把握し、入力すべき学習データの形式を改善するために、教師なし学習を行ってもよい。詳しくは、実施形態2と同様である。
【0221】
本実施形態7の機械学習支援方法において、物性関係性グラフ1は、
図6に例示したのと同様に、複数の物性パラメータが依存性をもつ影響因子に対応するノード、及び、当該ノード(影響因子に対応するノード)と当該物性パラメータ(その影響因子に依存性をもつ物性パラメータ)に対応するノードとの間に、エッジを有するように構成してもよい。物性探索ステップ(S1~S3)は、ターゲット物性に対応するノードから所定の範囲内で接続されるノードに、何らかの影響因子に対応するノードが含まれる場合に、部分グラフにそのノードを含めて出力する。収集・入力される学習データにも、その部分グラフに含まれたノードに対応する影響因子が説明変数として含まれる。これにより、教師なし学習においても、学習データに説明変数として含まれる物性パラメータの値に影響を与える影響因子が、説明変数として同じ学習データに含まれることとなり、適切な機械学習が行われる。
【0222】
本実施形態7の機械学習支援方法において、物性関係性グラフ1では、
図7に例示したのと同様に、物性パラメータ対を構成する2つの物性パラメータ間の関係式が対応するエッジに紐づけられるように構成されてもよい。グラフ探索ステップ(S3)から出力される部分グラフに含まれるエッジに関係式が紐づけられているときに、当該エッジに接続されるノードに対応する物性パラメータは、ターゲット物性を求める関係式に含まれる形式で、学習データに説明変数として含まれるように構成すると好適である。これにより、教師なし学習においても、説明変数として含まれる物性パラメータが、より適切な形式で学習データに含まれ、物性探索に適した機械学習が行われることとなる。詳しくは実施形態3と同様である。
【0223】
図25は、本実施形態7に係る機械学習支援方法の変形例を示すフローチャートである。機械学習支援方法には、物性関係性データベース11にアクセスして物性関係性グラフ1を生成する、グラフ生成ステップ(S16)が追加されている。グラフ生成ステップ(S16)はさらに、影響因子データベース20にアクセスして、影響因子に対応するノードを含んだ物性関係性グラフ1を生成するように構成してもよい。
【0224】
機械学習支援方法は、学習データ入力ステップ(S4)で入力された学習データに基づいて、教師あり学習(S5)を行うか教師なし学習(S25)を行うかを判断するステップ(S15)と特徴照合ステップ(S27)とを含んで構成されてもよい。特徴照合ステップ(S27)では、教師なし学習によって得られた特徴情報を(S25)を、物性関係性データベース11に記憶されている物性パラメータ間の関係性と照合することによって、学習データを追加または修正して教師あり学習に適するように改善することができる。このとき、さらに影響因子データベース20も照合の対象とすることもできる。
【0225】
教師あり学習(S5)を行うとパラメータリストが出力され(S6)、これを用いて入力される候補物質の物性値から、ターゲット物性の物性値を予測する予測ステップ(S8)の実行が可能となる。学習データが教師あり学習に適切か否かの判断(S15)を省略して、教師あり学習(S5)を行った結果の予測精度から、教師なし学習(S25)を行うか否かを判断してもよい。例えば、予測精度の向上を目的として教師なし学習を行ってもよい。または、判断(S15)をせずに教師なし学習(S25)を行ってもよい。教師なし学習(S25)の結果、得られる特徴情報を物性関係性データベース11に記憶されている物性パラメータ間の関係性と照合することによって、物性探索に有用な知見、あるいは機械学習によるマテリアルズインフォマティクスに有用な知見を得ることができる可能性がある。
【0226】
さらには、冒頭の物性探索ステップ(S1~S3)を省略して、ユーザー自身が構成したような任意の学習データを、学習データ入力ステップ(S4)から入力することもできる。入力された学習データについての教師なし学習(S25)を行い、出力される特徴情報(S26)を物性関係性データベース11、影響因子データベース20に記憶される物性パラメータの関係性と照合する(S27)ことにより、学習データの物性面からの適性を評価することができ、学習データを改善するヒントを得ることができる。
【0227】
<クラスタリング>
本実施形態7の機械学習支援方法において、教師なし学習(S25)としてクラスタリングを行い、クラスタの中心、重心、形状のうちの少なくとも1つを特徴情報として出力することができる。
【0228】
教師なし学習(S25)としてクラスタリングを行うことにより、学習データがターゲット物性に関連する複数の物性についていくつかのクラスタに分けられ、そのクラスタの特徴がわかるので、クラスタを構成する物性パラメータの関係性からターゲット物性を予測するためのヒントを得ることができる。
【0229】
例えば、クラスタの隙間を埋める可能性についてのヒントを得ることができる。物性関係性グラフ1を対象とするグラフ探索(S3)を用いることにより、クラスタの形状と物性パラメータの関係性とを照らし合わせ、物性パラメータ間にトレードオフがあるか否かを調べる。トレードオフがない場合には、クラスタの隙間の部分の値を持つデータを収集して学習データに追加することにより、教師あり学習に適した学習データを得ることができ、その結果、予測範囲を広げることができる。物性パラメータ間にトレードオフがあれば、クラスタに隙間が生じることは不自然ではないが、トレードオフがないにもかかわらずクラスタに隙間が生じるのは不自然で、その領域において学習データが適切に収集されていない可能性があるからである。より具体的には、n種類の学習データ物性(x1,x2,・・・xn)に対する値がプロットされた空間において、クラスタリングを行った結果、a1<(x1の値)<b1、・・・、ai<(xiの値)<bi、の範囲だけクラスタが何も無い領域(データが無い)があったとする。物性関係性グラフ1を対象とするグラフ探索(S3)を用いることにより、x1とxiの間にトレードオフがあるか否かを調べる。トレードオフがない場合には、上記クラスタリングで値の無い部分の値を持つデータを収集して学習データに追加することにより、教師あり学習に適した学習データを得ることができ、その結果、偏った学習データを使用することを防いで予測範囲を広げることができる。
【0230】
また例えば、クラスタの形状が特定方向に伸びている場合、即ち、延伸方向での分散が大きく、延伸方向に直交する方向での分散が小さい場合、延伸方向での物性パラメータの増減に対する他の特性の依存関係を、物性関係性データベース11に記憶されている関係性から知ることによって、学習データにおける説明変数の適切な形式(例えば、線形ではなく対数を採用すべき)を知ることができる。より具体的な例として、2つの説明変数(物性パラメータに対応)x1とx2に関するクラスタが、x1方向には値が0.01~10000の間に分布していてx2方向の値はおおむね1~9に分布している場合について説明する。物性関係性データベースに記憶されている関係性においてx1とx2の間の関係式においてx1の対数とx2が関係付けられていたなら、機械学習に用いる学習データの値としてx1は対数の値を入力すべきとわかる。
【0231】
また、物性関係性データベース11に記憶されている関係性を参照することによって、クラスタリングによって区分された個々のクラスタの物性的な意味を知ることができる。延伸方向での物性パラメータの増減に対する他の特性の依存関係が、材料の種類によって異なることが、物性関係性データベース11に記憶されているときに、それぞれのクラスタがどの種類の材料に属するのかを知ることができる。
【0232】
<主成分分析>
本実施形態7の機械学習支援方法において、教師なし学習(S25)として主成分分析を行い、学習データを構成する複数の物性パラメータの寄与率を、特徴情報として出力することができる。主成分分析の代表的な目的は次元削減である。学習データは、n個の説明変数の値よりなるk個のレコードによって構成されているので、そのn個の説明変数を基底とするn次元空間に存在するk個の点による特性空間として把握される。この特性空間において、より独立性が高く、より次元数の少ないm(m<n)次元空間を規定する、別の基底を求める(n,m,kは自然数)。即ち、k個の点の数を変えることなく、存在する空間を規定する軸をより独立性の高い変数によって再定義する。学習データを変換後の変数で構成することによって、機械学習の対象となるデータの量を削減できるばかりでなく、学習データの説明変数が独立性の高い変数で構成されることとなるので、教師あり学習へ移行したときの予測精度を向上することが期待される。
【0233】
このとき、変換後の基底(上記「別の基底」)の変数は、学習データについての分散が大きい順に第1主成分、第2主成分、・・・と呼ばれ、それぞれが学習データを表すのにどの程度寄与しているのかを表す指標として寄与率というパラメータが定義されている。また、変換前の基底の変数、即ち、物性パラメータに対応し当初の学習データを構成していた説明変数が、変換後の基底の変数に対してどの程度影響しているかを表す指標として因子負荷量というパラメータが定義されている。寄与率と因子負荷量を使うことにより、当初の学習データを構成していた説明変数、即ち、物性パラメータが、変換後の基底の変数である第1主成分、第2主成分、・・・に、どの程度寄与しているか表すパラメータを算出することができる。上記寄与率を狭義の寄与率とよぶとこととすると、広義にはこのパラメータを寄与率と呼ぶことができる。即ち、本明細書において「寄与率」を、当初の学習データを構成していた説明変数、即ち、物性パラメータが、主成分分析によって変換された基底を構成する1主成分、第2主成分、・・・にどの程度寄与しているか表すパラメータとして定義する。
【0234】
学習データにおける説明変数を寄与率が高い順に並べたときに、その説明変数の入力形式の適否を推定することができる。例えば、第1寄与成分の寄与率が異常に高い場合には、学習データにおけるその成分に対応する説明変数の形式を見直す(線形で入力するよりも対数で入力すべきかなど)契機となる。また、寄与率は次元削減を行う際の指標として利用することができる。即ち、寄与率の低い変数を説明変数から除外して次元削減を行うことができる。
【0235】
また、寄与率の高い説明変数に対応する物性パラメータと、ターゲット物性との関係性を、物性関係性グラフ1にマッピングすることによって、学習データに追加すべき物性パラメータの候補を知ることができる。即ち、物性関係性グラフ1において、ターゲット物性に対応するノードの近傍に、寄与率の高い説明変数(物性パラメータ)に対応するノードが不足している場合には、学習データが不足している可能性が示唆されている。一方、寄与率が低いために除外しようとしている説明変数について、対応する物性パラメータとターゲット物性との関係性を、物性関係性グラフ1におけるグラフ探索を行って確認することにより、本来、説明変数から除外されるべきではない変数(物性パラメータ)が、誤って除外されることを防止することができる。
【0236】
〔機械学習支援装置〕
本実施形態7の機械学習支援方法を実行するハードウェアも、実施形態1と同様に、機械学習支援装置と呼ぶことができ、記憶装置、演算処理部、入出力インターフェース、ネットワークインターフェース等からなるコンピュータに、機械学習支援方法がソフトウェアとしてインストールされることによって実装されると好適である。
【0237】
図26は、本発明の実施形態7に係る機械学習支援装置の構成例を示すブロック図である。
【0238】
機械学習支援装置10は、物性関係性グラフ1とグラフ探索部2と探索範囲指定部3と学習データ入力部4と機械学習部5とを備える。
【0239】
物性関係性グラフ1、グラフ探索部2、探索範囲指定部3及び学習データ入力部4は、
図12を引用して説明した実施形態1の機械学習支援装置と同様である。詳しい説明は省略する。機械学習部5は、供給された学習データを入力とする教師なし学習を行って、特徴情報16を出力する。その他の動作は、上述した機械学習支援方法と同様である。詳しい説明を省略する。
【0240】
これにより、ターゲット物性に関連する物性についての教師なし学習を行うのに適した学習データを特定し、実際に機械学習を行う機械学習支援装置を提供することができる。
【0241】
図27は、本実施形態7に係る機械学習支援装置の変形例を示すブロック図である。
【0242】
機械学習支援装置10は、さらに、物性関係性データベース11とグラフ生成部8とを含んで構成される。物性関係性グラフ1は、グラフ生成部8によって、物性関係性データベース11に記憶されている互いに関係性を有する複数の物性パラメータ対に、ノード及びエッジを対応付けることによって生成される。機械学習支援装置10は、影響因子データベース20をさらに備えて、実施形態2で説明したのと同様に、物性関係性グラフ1に影響因子に対応するノードとエッジが含まれるように構成してもよい。
【0243】
機械学習支援装置10は、さらに、特徴照合部19を備えてもよい。特徴照合部19は、機械学習部5から出力される学習データの特徴情報と、物性関係性グラフ1や物性関係性データベース11に基づく物性パラメータ間の関係性とについて、特徴照合ステップ(S27)と同様の照合を行う。これによって、ユーザーは上述したような種々の知見を得ることができる。
【0244】
特徴照合部19で得られる知見に基づいて、学習データ入力部4において、学習データの収集条件を変更し、また収集したデータの形式を変更、編集して機械学習部5に入力される学習データを再構築することができるように構成すると、より好適である。学習データの各説明変数の形式は、必ずしも線形とは限らず、対数や指数関数で表現される方が適切な場合がある。教師なし学習の結果を、上述したような物性関係の情報と照合することによって、より適切な学習データを機械学習部5に供給することができる。
【0245】
機械学習部5は、実行されるプログラムを切り替えることによって、教師なし学習に代えて教師あり学習を実行し、その結果特徴情報16に代えてパラメータリスト6を出力するように変更することができる。
【0246】
また、図示は省略するが、機械学習支援装置10には、グラフ探索部2に対して種々の探索式を入力し、その探索結果を出力することができるユーザーインターフェースを設けてもよい。特徴照合部19による照合結果に基づいて、ユーザーは物性関係性グラフ1を対象とする探索を行い、その結果を学習データに反映するなどの自由度が提供される。
【0247】
以上本発明者によってなされた発明を実施形態に基づいて具体的に説明したが、本発明はそれに限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。
【符号の説明】
【0248】
1 物性関係性グラフ
2 グラフ探索部
3 探索範囲指定部
4 学習データ収集部
5 機械学習部
6 パラメータリスト
7 予測部
8 グラフ生成部
9 パラメータリスト照合部
10 機械学習支援装置
11 物性関係性データベース
16 特徴情報
19 特徴照合部
20 影響因子データベース
21 環境型影響因子
22 形態型影響因子
23 サイズ型影響因子
24 物性パラメータ間の関係性グラフ
25 物性パラメータと影響因子の関係性に対応するエッジ
29 物性関係性データベースと影響因子データベースの入力フォーム
30 物性データ