(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023047983
(43)【公開日】2023-04-06
(54)【発明の名称】モデル生成方法、データ提示方法、データ生成方法、推定方法、モデル生成装置、データ提示装置、データ生成装置、及び推定装置
(51)【国際特許分類】
G06N 3/08 20230101AFI20230330BHJP
G06N 3/045 20230101ALI20230330BHJP
【FI】
G06N3/08
G06N3/04 154
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2021157205
(22)【出願日】2021-09-27
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和元年度、国立研究開発法人科学技術振興機構、未来社会創造事業「数理科学を活用したマルチスケール・マルチモーダル構造解析システムの開発」委託研究、産業技術強力化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】000002945
【氏名又は名称】オムロン株式会社
(71)【出願人】
【識別番号】504151365
【氏名又は名称】大学共同利用機関法人 高エネルギー加速器研究機構
(74)【代理人】
【識別番号】100124039
【弁理士】
【氏名又は名称】立花 顕治
(74)【代理人】
【識別番号】100170542
【弁理士】
【氏名又は名称】桝田 剛
(72)【発明者】
【氏名】谷合 竜典
(72)【発明者】
【氏名】牛久 祥孝
(72)【発明者】
【氏名】千葉 直也
(72)【発明者】
【氏名】鈴木 雄太
(72)【発明者】
【氏名】小野 寛太
(57)【要約】
【課題】材料に関する新たな知見を低コストで得る。
【解決手段】本発明の一側面に係るモデル生成方法は、材料の結晶構造に関する第1データ及び第2データを取得し、第1データ及び第2データを使用して、第1エンコーダ及び第2エンコーダの機械学習を実施する。第2データは、第1データとは異なる指標で材料の性質を示す。第1エンコーダは、第1データを第1特徴ベクトルに変換するように構成され、第2エンコーダは、第2データを第2特徴ベクトルに変換するように構成される。第1特徴ベクトルの次元は、第2特徴ベクトルの次元と同一である。機械学習では、第1エンコーダ及び第2エンコーダは、ポジティブサンプルの特徴ベクトルの値同士が近くに位置付けられ、ポジティブサンプルの特徴ベクトルに対してネガティブサンプルの特徴ベクトルが遠くに位置付けられるように訓練される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータが、材料の結晶構造に関する第1データ及び第2データを取得するステップであって、
前記第2データは、前記第1データとは異なる指標で前記材料の性質を示し、
取得された前記第1データ及び前記第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、並びに
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成される、
ステップと、
前記コンピュータが、取得された前記第1データ及び前記第2データを使用して、第1エンコーダ及び第2エンコーダの機械学習を実施するステップであって、
前記第1エンコーダは、前記第1データを第1特徴ベクトルに変換するように構成され、
前記第2エンコーダは、前記第2データを第2特徴ベクトルに変換するように構成され、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、並びに
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成される、
ステップと、
を備える、
モデル生成方法。
【請求項2】
前記コンピュータが、第1デコーダの機械学習を実施するステップを更に備え、
前記第1デコーダの機械学習は、前記第1エンコーダを使用することで前記第1データより算出される第1特徴ベクトルから前記第1デコーダにより前記第1データを復元した結果が前記第1データに適合するように、前記第1デコーダを訓練することにより構成される、
請求項1に記載のモデル生成方法。
【請求項3】
前記コンピュータが、第2デコーダの機械学習を実施するステップを更に備え、
前記第2デコーダの機械学習は、前記第2エンコーダを使用することで前記第2データより算出される第2特徴ベクトルから前記第2デコーダにより前記第2データを復元した結果が前記第2データに適合するように、前記第2デコーダを訓練することにより構成される、
請求項1又は2に記載のモデル生成方法。
【請求項4】
前記コンピュータが、推定器の機械学習を実施するステップを更に備え、
前記第1データ及び前記第2データを取得するステップでは、前記コンピュータは、前記材料の特性を示す正解情報を更に取得し、
前記推定器の機械学習は、前記第1エンコーダ及び前記第2エンコーダを使用することで、取得された前記第1データ及び前記第2データから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方から前記材料の特性を推定した結果が前記正解情報に適合するように、前記推定器を訓練することにより構成される、
請求項1から3のいずれか1項に記載のモデル生成方法。
【請求項5】
前記第1データは、前記材料の結晶の局所構造に関する情報を示すものであり、
前記第2データは、前記材料の結晶構造の周期性に関する情報を示すものである、
請求項1から4のいずれか1項に記載のモデル生成方法。
【請求項6】
前記第1データは、三次元原子位置データ、ラマン分光データ、核磁気共鳴分光データ、赤外分光データ、質量分析データ、及びX線吸収分光データの少なくともいずれかにより構成される、
請求項5に記載のモデル生成方法。
【請求項7】
前記第1データは、三次元原子位置データにより構成され、
三次元原子位置データにおいて、確率密度関数、確率分布関数、及び確率質量関数の少なくともいずれかにより前記材料における原子の状態を表現するように構成される、
請求項5に記載のモデル生成方法。
【請求項8】
前記第2データは、X線回折データ、中性子回折データ、電子線回折データ、及び全散乱データの少なくともいずれかにより構成される、
請求項5から7のいずれかに記載のモデル生成方法。
【請求項9】
コンピュータが、複数の対象材料それぞれの結晶構造に関する第1データ及び第2データの少なくとも一方を取得するステップと、
前記コンピュータが、訓練済みの第1エンコーダ及び訓練済みの第2エンコーダの少なくとも一方を使用して、取得された前記各対象材料の第1データ及び第2データの少なくとも一方を第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に変換するステップと、
前記コンピュータが、得られた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の各値を空間上にマッピングするステップと、
前記コンピュータが、前記空間上にマッピングされた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の前記各値を出力するステップと、
を備えるデータ提示方法であって、
前記第2データは、前記第1データとは異なる指標で材料の性質を示し、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記訓練済みの第1エンコーダ及び前記訓練済みの第2エンコーダは、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、並びに
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成される、
データ提示方法。
【請求項10】
前記マッピングするステップでは、前記コンピュータは、得られた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の前記各値を、当該各値の位置関係を維持するように低次元に変換した上で、変換された前記各値を空間上にマッピングし、
前記各値を出力するステップでは、前記コンピュータは、前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の変換された前記各値を出力する、
請求項9に記載のデータ提示方法。
【請求項11】
第1データから第2データを生成するデータ生成方法であって、
前記第1データ及び前記第2データは、対象材料の結晶構造に関するものであり、
前記第2データは、前記第1データとは異なる指標で材料の性質を示し、
前記データ生成方法は、
コンピュータが、前記対象材料の第1データを取得するステップと、
前記コンピュータが、訓練済みの第1エンコーダを使用して、取得された前記対象材料の第1データを第1特徴ベクトルに変換するステップと、
前記コンピュータが、訓練済みのデコーダを使用して、変換により得られた前記第1特徴ベクトルの値及びその近傍の値の少なくとも一方から第2データを復元することで、前記第2データを生成するステップと、
を備え、
前記訓練済みの第1エンコーダは、第2エンコーダと共に、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記第2エンコーダは、前記第2データを第2特徴ベクトルに変換するように構成され、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成され、
前記訓練済みのデコーダは、学習用の前記第2データを使用した機械学習により生成されたものであり、並びに
前記デコーダの機械学習は、前記第2エンコーダを使用することで学習用の前記第2データより算出される第2特徴ベクトルから前記デコーダにより前記第2データを復元した結果が学習用の前記第2データに適合するように、前記デコーダを訓練することにより構成される、
データ生成方法。
【請求項12】
第1データから第2データを生成するデータ生成方法であって、
前記第1データは、対象材料の結晶の局所構造に関する情報を示すものであり、
前記第2データは、前記対象材料の結晶構造の周期性に関する情報を示すものであり、
前記データ生成方法は、
コンピュータが、前記対象材料の第1データを取得するステップと、
前記コンピュータが、訓練済みの第1エンコーダを使用して、取得された前記対象材料の第1データを第1特徴ベクトルに変換するステップと、
前記コンピュータが、訓練済みのデコーダを使用して、変換により得られた前記第1特徴ベクトルの値及びその近傍の値の少なくとも一方から第2データを復元することで、前記第2データを生成するステップと、
を備え、
前記訓練済みの第1エンコーダは、第2エンコーダと共に、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記第2エンコーダは、前記第2データを第2特徴ベクトルに変換するように構成され、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成され、
前記訓練済みのデコーダは、学習用の前記第2データを使用した機械学習により生成されたものであり、並びに
前記デコーダの機械学習は、前記第2エンコーダを使用することで学習用の前記第2データより算出される第2特徴ベクトルから前記デコーダにより前記第2データを復元した結果が学習用の前記第2データに適合するように、前記デコーダを訓練することにより構成される、
データ生成方法。
【請求項13】
第2データから第1データを生成するデータ生成方法であって、
前記第1データは、対象材料の結晶の局所構造に関する情報を示すものであり、
前記第2データは、前記対象材料の結晶構造の周期性に関する情報を示すものであり、
前記データ生成方法は、
コンピュータが、前記対象材料の第2データを取得するステップと、
前記コンピュータが、訓練済みの第2エンコーダを使用して、取得された前記対象材料の第2データを第2特徴ベクトルに変換するステップと、
前記コンピュータが、訓練済みのデコーダを使用して、変換により得られた前記第2特徴ベクトルの値及びその近傍の値の少なくとも一方から第1データを復元することで、前記第1データを生成するステップと、
を備え、
前記訓練済みの第2エンコーダは、第1エンコーダと共に、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記第1エンコーダは、前記第1データを第1特徴ベクトルに変換するように構成され、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成され、
前記訓練済みのデコーダは、学習用の前記第1データを使用した機械学習により生成されたものであり、並びに
前記デコーダの機械学習は、前記第1エンコーダを使用することで学習用の前記第1データより算出される第1特徴ベクトルから前記デコーダにより前記第1データを復元した結果が学習用の前記第1データに適合するように、前記デコーダを訓練することにより構成される、
データ生成方法。
【請求項14】
コンピュータが、対象材料の結晶構造に関する第1データ及び第2データの少なくとも一方を取得するステップと、
前記コンピュータが、訓練済みの第1エンコーダ及び訓練済みの第2エンコーダの少なくとも一方を使用して、取得された前記第1データ及び第2データの少なくとも一方を第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に変換するステップと、
前記コンピュータが、訓練済みの推定器を使用して、得られた前記第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値から前記対象材料の特性を推定するステップと、
を備える推定方法であって、
前記第2データは、前記第1データとは異なる指標で材料の性質を示し、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記訓練済みの第1エンコーダ及び前記訓練済みの第2エンコーダは、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成され、
前記訓練済みの推定器は、学習用の材料の特性を示す正解情報を更に使用した機械学習により生成されたものであり、並びに
前記推定器の機械学習は、前記第1エンコーダ及び前記第2エンコーダの少なくとも一方を使用することで、前記学習用の第1データ及び第2データの少なくとも一方より算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方から学習用の前記材料の特性を推定した結果が前記正解情報に適合するように、前記推定器を訓練することにより構成される、
推定方法。
【請求項15】
材料の結晶構造に関する第1データ及び第2データを取得するように構成される学習データ取得部であって、
前記第2データは、前記第1データとは異なる指標で前記材料の性質を示し、
取得された前記第1データ及び前記第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、並びに
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成される、
学習データ取得部と、
取得された前記第1データ及び前記第2データを使用して、第1エンコーダ及び第2エンコーダの機械学習を実施するように構成される機械学習部であって、
前記第1エンコーダは、前記第1データを第1特徴ベクトルに変換するように構成され、
前記第2エンコーダは、前記第2データを第2特徴ベクトルに変換するように構成され、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、並びに
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成される、
機械学習部と、
を備える、
モデル生成装置。
【請求項16】
複数の対象材料それぞれの結晶構造に関する第1データ及び第2データの少なくとも一方を取得するように構成される対象データ取得部と、
訓練済みの第1エンコーダを使用して前記第1データを第1特徴ベクトルに変換する処理及び訓練済みの第2エンコーダを使用して前記第2データを第2特徴ベクトルに変換する処理の少なくとも一方を実行することで、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方を取得するように構成される変換部と、
得られた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の各値を空間上にマッピングし、かつ前記空間上にマッピングされた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の前記各値を出力するように構成される出力処理部と、
を備えるデータ提示装置であって、
前記第2データは、前記第1データとは異なる指標で材料の性質を示し、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記訓練済みの第1エンコーダ及び前記訓練済みの第2エンコーダは、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、並びに
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成される、
データ提示装置。
【請求項17】
第1データから第2データを生成するように構成されるデータ生成装置であって、
前記第1データ及び前記第2データは、対象材料の結晶構造に関するものであり、
前記第2データは、前記第1データとは異なる指標で材料の性質を示し、
前記データ生成装置は、
前記対象材料の第1データを取得するように構成される対象データ取得部と、
訓練済みの第1エンコーダを使用して、取得された前記対象材料の第1データを第1特徴ベクトルに変換するように構成される変換部と、
訓練済みのデコーダを使用して、変換により得られた前記第1特徴ベクトルの値及びその近傍の値の少なくとも一方から第2データを復元することで、前記第2データを生成するように構成される復元部と、
を備え、
前記訓練済みの第1エンコーダは、第2エンコーダと共に、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記第2エンコーダは、前記第2データを第2特徴ベクトルに変換するように構成され、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成され、
前記訓練済みのデコーダは、学習用の前記第2データを使用した機械学習により生成されたものであり、並びに
前記デコーダの機械学習は、前記第2エンコーダを使用することで学習用の前記第2データより算出される第2特徴ベクトルから前記デコーダにより前記第2データを復元した結果が学習用の前記第2データに適合するように、前記デコーダを訓練することにより構成される、
データ生成装置。
【請求項18】
対象材料の結晶構造に関する第1データ及び第2データの少なくとも一方を取得するように構成される対象データ取得部と、
訓練済みの第1エンコーダ及び訓練済みの第2エンコーダの少なくとも一方を使用して、取得された前記第1データ及び第2データの少なくとも一方を第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に変換するように構成される変換部と、
訓練済みの推定器を使用して、得られた前記第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値から前記対象材料の特性を推定するように構成される推定部と、
を備える推定装置であって、
前記第2データは、前記第1データとは異なる指標で材料の性質を示し、
前記第1特徴ベクトルの次元は、前記第2特徴ベクトルの次元と同一であり、
前記訓練済みの第1エンコーダ及び前記訓練済みの第2エンコーダは、学習用の第1データ及び第2データを使用した機械学習により生成されたものであり、
前記学習用の第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含み、
前記ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成され、
前記ネガティブサンプルは、前記ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成され、
前記第1エンコーダ及び第2エンコーダの機械学習は、前記ポジティブサンプルの前記第1データ及び前記第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつ前記ネガティブサンプルの前記第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、前記ポジティブサンプルから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、前記第1エンコーダ及び前記第2エンコーダを訓練することにより構成され、
前記訓練済みの推定器は、学習用の材料の特性を示す正解情報を更に使用した機械学習により生成されたものであり、並びに
前記推定器の機械学習は、前記第1エンコーダ及び前記第2エンコーダの少なくとも一方を使用することで、前記学習用の第1データ及び第2データの少なくとも一方より算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方から学習用の前記材料の特性を推定した結果が前記正解情報に適合するように、前記推定器を訓練することにより構成される、
推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モデル生成方法、データ提示方法、データ生成方法、推定方法、モデル生成装置、データ提示装置、データ生成装置、及び推定装置に関する。
【背景技術】
【0002】
近年、機械学習を含む情報処理技術が材料開発に活用されている。この分野は、マテリアルズ・インフォマティクス(MI)と呼ばれ、新しい材料開発の効率化に大きな貢献を果たしている。情報処理により材料の特性を推測する典型的な方法として、非特許文献1等で開示される第一原理計算を用いた手法が知られている。第一原理計算は、量子力学のシュレディンガー方程式に則り、物質中の電子の状態を計算する手法である。第一原理計算によれば、様々な条件で計算された電子の状態に基づいて、物質の特性を推測することができる。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】香山正憲, "計算材料科学の現状と展望:材料界面への適用を中心に", 表面技術, 2013, 64巻, 10号, p.524-530.
【発明の概要】
【発明が解決しようとする課題】
【0004】
本件発明者らは、上記MIの従来の方法には、次のような問題点があることを見出した。すなわち、実材料(多体電子系)におけるシュレディンガー方程式の計算は極めて複雑であるため、密度汎関数法等を用いた近似計算が用いられる。その精度は、採用される近似計算に依存してしまう。現状の一般的コンピュータの能力では、高精度な第一原理計算を現実的な時間で実行するのは困難であるため、対象の材料が複雑になればなるほど、その特性を推測することは困難である。そこで、既知の材料に関する特性、結晶構造の特徴部分等の知識を正解情報として与えて、機械学習を実施することにより訓練済み推論モデルを生成し、生成された訓練済み推論モデルを用いて、例えば、新たな材料の組成、特性等の新たな知見を得る方法の開発が進められている。しかしながら、このような手法では、正解情報を与えていない範囲で精度よく新たな知見を得るのは困難である。また、全ての既知の材料に正解情報を与えるのには極めてコストがかかってしまう。したがって、既知の材料の正解情報を与える機械学習手法では、低コストで精度よく新たな知見を得るのは困難である。
【0005】
本発明は、一側面では、このような事情を鑑みてなされたものであり、その目的は、材料に関する新たな知見を低コストで得る技術及びその活用方法を提供することである。
【課題を解決するための手段】
【0006】
本発明は、上述した課題を解決するために、以下の構成を採用する。
【0007】
すなわち、本発明の一側面に係るモデル生成方法は、コンピュータが、材料の結晶構造に関する第1データ及び第2データを取得するステップと、前記コンピュータが、取得された前記第1データ及び前記第2データを使用して、第1エンコーダ及び第2エンコーダの機械学習を実施するステップと、を備える情報処理方法である。第2データは、第1データとは異なる指標で前記材料の性質を示すように構成される。取得された第1データ及び第2データは、ポジティブサンプル及びネガティブサンプルを含む。ポジティブサンプルは、同一の材料についての第1データ及び第2データの組み合わせにより構成される。ネガティブサンプルは、ポジティブサンプルの材料とは異なる材料についての第1データ及び第2データの少なくとも一方により構成される。第1エンコーダは、第1データを第1特徴ベクトルに変換するように構成され、第2エンコーダは、前記第2データを第2特徴ベクトルに変換するように構成される。第1特徴ベクトルの次元は、第2特徴ベクトルの次元と同一である。第1エンコーダ及び第2エンコーダの機械学習は、ポジティブサンプルの第1データ及び第2データから算出される第1特徴ベクトル及び第2特徴ベクトルの値同士が近くに位置付けられ、かつネガティブサンプルの第1データ及び第2データの少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値が、ポジティブサンプルから算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値から遠くに位置付けられるように、第1エンコーダ及び第2エンコーダを訓練することにより構成される。
【0008】
後述する実験例において、機械学習により、結晶構造に関する異なる複数種類のデータそれぞれを同一次元の特徴空間に写像する訓練済みのエンコーダをそれぞれ生成した。この機械学習では、同一材料の各種データ(ポジティブサンプル)の特徴ベクトル同士が特徴空間上で近くに位置付けられ、異なる材料のデータ(ネガティブサンプル)の特徴ベクトルがポジティブサンプルの特徴ベクトルから遠くに位置付けられるように各エンコーダを訓練した。そして、生成された訓練済みの各エンコーダを用いて、各種データを特徴空間に写像したところ、類似する特徴を有する各材料の各種データは、特徴空間上の近傍範囲に写像された。この実験例の結果から、このような機械学習により生成された訓練済みの各エンコーダによれば、既知の材料の組成、特性等の知識を与えなくても、特徴空間上の位置関係に基づいて、材料の類似性を評価し、その評価結果から材料の新たな知見を精度よく取得可能であることが分かった。
【0009】
上記のとおり、結晶構造に関するデータから材料の性質を直接的に導出する精度の高い訓練済みモデルを生成する場合、全ての既知の材料に対して正解情報を与えるのには大きな手間がかかってしまう。これに対して、当該構成に係るモデル生成方法では、同一の材料か否かにより、機械学習に使用するポジティブサンプル及びネガティブサンプルを用意可能であり、全ての既知の材料に正解情報を与えるのにかかる手間を省略することができる。したがって、当該構成に係るモデル生成方法によれば、上記のような特徴空間に第1データ及び第2データそれぞれを写像する訓練済みのエンコーダ(第1エンコーダ及び第2エンコーダ)を低コストで生成することができる。その結果、生成された訓練済みの各エンコーダにより、材料に関する新たな知見を低コストで得ることができる。また、正解情報を与えなくても済むため、機械学習に使用するポジティブサンプル及びネガティブサンプルを低コストで大量に用意可能である。そのため、材料に関する新たな知見を精度よく得るための訓練済みのエンコーダを低コストで生成可能である。
【0010】
上記一側面に係るモデル生成方法は、前記コンピュータが、第1デコーダの機械学習を実施するステップを更に備えてもよい。前記第1デコーダの機械学習は、前記第1エンコーダを使用することで前記第1データより算出される第1特徴ベクトルから前記第1デコーダにより前記第1データを復元した結果が前記第1データに適合するように、前記第1デコーダを訓練することにより構成されてよい。当該構成によれば、第1データを復元する能力を獲得した訓練済みの第1デコーダを生成することができる。生成された訓練済みの第1デコーダ及び訓練済みの第2エンコーダを使用することで、第2データでは既知であるが第1データでは未知の材料に関して、第2データから第1データを生成することができる。
【0011】
上記一側面に係るモデル生成方法は、前記コンピュータが、第2デコーダの機械学習を実施するステップを更に備えてもよい。前記第2デコーダの機械学習は、前記第2エンコーダを使用することで前記第2データより算出される第2特徴ベクトルから前記第2デコーダにより前記第2データを復元した結果が前記第2データに適合するように、前記第2デコーダを訓練することにより構成されてよい。当該構成によれば、第2データを復元する能力を獲得した訓練済みの第2デコーダを生成することができる。生成された訓練済みの第2デコーダ及び訓練済みの第1エンコーダを使用することで、第1データでは既知であるが第2データでは未知の材料に関して、第1データから第2データを生成することができる。
【0012】
上記一側面に係るモデル生成方法は、前記コンピュータが、推定器の機械学習を実施するステップを更に備えてよい。前記第1データ及び前記第2データを取得するステップでは、前記コンピュータは、前記材料の特性を示す正解情報を更に取得してよい。前記推定器の機械学習は、前記第1エンコーダ及び前記第2エンコーダを使用することで、取得された前記第1データ及び前記第2データから算出される前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方から前記材料の特性を推定した結果が前記正解情報に適合するように、前記推定器を訓練することにより構成されてよい。
【0013】
当該構成によれば、材料の特性を推定するための訓練済みの推定器を生成することができる。なお、当該構成において、学習用の材料全てに正解情報を与えてもよいが、訓練済みの各エンコーダにより写像される特徴空間には、材料の類似性に関する情報が込められている。推定器は、当該特徴空間上の特徴ベクトルから材料の特性を推定するように構成されていることで、材料の特性を推定する際にその情報を用いることができる。そのため、全ての材料について正解情報を用意しなくても、材料の特性を精度よく推定可能な訓練済みの推定器を生成することができる。したがって、当該構成によれば、材料の特性を精度よく推定可能な訓練済みの推定器を低コストで生成することができる。
【0014】
上記一側面に係るモデル生成方法において、前記第1データは、前記材料の結晶の局所構造に関する情報を示すものであってよく、前記第2データは、前記材料の結晶構造の周期性に関する情報を示すものであってよい。当該構成では、第1データとして、結晶構造の局所的観点に基づいて材料の性質を示すデータが採用される。また、第2データとして、全体の俯瞰的観点に基づいて材料の性質を示すデータが採用される。これにより、生成される訓練済みのエンコーダにより写像される特徴空間では、局所的観点及び俯瞰的観点の両方の観点から材料の類似性を評価することができ、その評価結果から材料の新たな知見を精度よく取得可能である。
【0015】
上記一側面に係るモデル生成方法において、前記第1データは、結晶構造の局所的観点に基づいて材料の性質を示すデータとして、三次元原子位置データ、ラマン分光データ、核磁気共鳴分光データ、赤外分光データ、質量分析データ、及びX線吸収分光データの少なくともいずれかにより構成されてよい。或いは、前記第1データは、三次元原子位置データにより構成されてよく、三次元原子位置データは、確率密度関数、確率分布関数、及び確率質量関数の少なくともいずれかにより前記材料における原子の状態を表現するように構成されてよい。これらの構成によれば、結晶構造の局所的観点に基づいて材料の性質を示す第1データを適切に用意可能である。
【0016】
上記一側面に係るモデル生成方法において、前記第2データは、全体の俯瞰的観点に基づいて材料の性質を示すデータとして、X線回折データ、中性子回折データ、電子線回折データ、及び全散乱データの少なくともいずれかにより構成されてよい。当該構成によれば、全体の俯瞰的観点に基づいて材料の性質を示す第2データを適切に用意可能である。
【0017】
本発明の形態は、上記一連の情報処理をコンピュータにより実行するように構成されるモデル生成方法に限られなくてよい。本発明の一側面は、上記いずれかの形態に係るモデル生成方法により生成された訓練済みの機械学習モデルを使用するデータ処理方法であってよい。
【0018】
例えば、本発明の一側面に係るデータ提示方法は、コンピュータが、複数の対象材料それぞれの結晶構造に関する第1データ及び第2データの少なくとも一方を取得するステップと、前記コンピュータが、訓練済みの第1エンコーダ及び訓練済みの第2エンコーダの少なくとも一方を使用して、取得された前記各対象材料の第1データ及び第2データの少なくとも一方を第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に変換するステップと、前記コンピュータが、得られた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の各値を空間上にマッピングするステップと、前記コンピュータが、前記空間上にマッピングされた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の前記各値を出力するステップと、を備える情報処理方法である。訓練済みの第1エンコーダ及び訓練済みの第2エンコーダは、上記いずれかのモデル生成方法において、学習用の第1データ及び第2データを使用した機械学習により生成されたものであってよい。
【0019】
上記一側面に係るデータ提示方法において、前記マッピングするステップでは、前記コンピュータは、得られた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の前記各値を、当該各値の位置関係を維持するように低次元に変換した上で、変換された前記各値を空間上にマッピングしてよい。前記各値を出力するステップでは、前記コンピュータは、前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の変換された前記各値を出力してよい。当該構成によれば、材料の新たな知見を得るために特徴ベクトルの各値を出力する際に、各値の位置関係を維持するよう低次元に変換することで、材料の類似性に関する情報への影響を抑えつつ、出力資源の効率化(例えば、情報出力範囲の省スペース化、視認性の向上等)を図ることができる。
【0020】
また、例えば、本発明の一側面に係るデータ生成方法は、第1データから第2データを生成する情報処理方法である。第1データ及び第2データは、対象材料の結晶構造に関するものである。第2データは、第1データとは異なる指標で材料の性質を示すように構成される。当該データ生成方法は、コンピュータが、前記対象材料の第1データを取得するステップと、前記コンピュータが、訓練済みの第1エンコーダを使用して、取得された前記対象材料の第1データを第1特徴ベクトルに変換するステップと、前記コンピュータが、訓練済みのデコーダを使用して、変換により得られた前記第1特徴ベクトルの値及びその近傍の値の少なくとも一方から第2データを復元することで、前記対象材料の第2データを生成するステップと、を備える。訓練済みの第1エンコーダは、上記いずれかのモデル生成方法において、第2エンコーダと共に、学習用の第1データ及び第2データを使用した機械学習により生成されたものであってよい。訓練済みのデコーダ(第2デコーダ)は、上記いずれかのモデル生成方法において、学習用の第2データを使用した機械学習により生成されたものであってよい。第1データは、対象材料の結晶の局所構造に関する情報を示すものであってよく、第2データは、前記対象材料の結晶構造の周期性に関する情報を示すものであってよい。
【0021】
また、例えば、本発明の一側面に係るデータ生成方法は、第2データから第1データを生成する情報処理方法である。第1データ及び第2データは、対象材料の結晶構造に関するものである。第2データは、第1データとは異なる指標で材料の性質を示すように構成される。当該データ生成方法は、コンピュータが、前記対象材料の第2データを取得するステップと、前記コンピュータが、訓練済みの第2エンコーダを使用して、取得された前記対象材料の第2データを第2特徴ベクトルに変換するステップと、前記コンピュータが、訓練済みのデコーダを使用して、変換により得られた前記第2特徴ベクトルの値及びその近傍の値の少なくとも一方から第1データを復元することで、前記対象材料の第1データを生成するステップと、を備える。訓練済みの第2エンコーダは、上記いずれかのモデル生成方法において、第1エンコーダと共に、学習用の第1データ及び第2データを使用した機械学習により生成されたものであってよい。訓練済みのデコーダ(第1デコーダ)は、上記いずれかのモデル生成方法において、学習用の第1データを使用した機械学習により生成されたものであってよい。第1データは、対象材料の結晶の局所構造に関する情報を示すものであってよく、第2データは、前記対象材料の結晶構造の周期性に関する情報を示すものであってよい。
【0022】
また、例えば、本発明の一側面に係る推定方法は、コンピュータが、対象材料の結晶構造に関する第1データ及び第2データの少なくとも一方を取得するステップと、前記コンピュータが、訓練済みの第1エンコーダ及び訓練済みの第2エンコーダの少なくとも一方を使用して、取得された前記第1データ及び第2データの少なくとも一方を第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に変換するステップと、前記コンピュータが、訓練済みの推定器を使用して、得られた前記第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値から前記対象材料の特性を推定するステップと、を備える情報処理方法である。訓練済みの第1エンコーダ及び訓練済みの第2エンコーダは、上記いずれかのモデル生成方法において、学習用の第1データ及び第2データを使用した機械学習により生成されたものであってよい。訓練済みの推定器は、上記いずれかのモデル生成方法において、学習用の材料の特性を示す正解情報を更に使用した機械学習により生成されたものであってよい。
【0023】
また、上記各形態に係る各情報処理方法の別の形態として、本発明の一側面は、以上の各構成の全部又はその一部を実現する情報処理装置であってもよいし、情報処理システムであってもよいし、プログラムであってもよいし、又はこのようなプログラムを記憶した、コンピュータその他装置、機械等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。
【0024】
例えば、本発明の一側面に係るモデル生成装置は、材料の結晶構造に関する第1データ及び第2データを取得するように構成される学習データ取得部と、取得された前記第1データ及び前記第2データを使用して、第1エンコーダ及び第2エンコーダの機械学習を実施するように構成される機械学習部と、を備える、情報処理装置である。
【0025】
また、例えば、本発明の一側面に係るデータ提示装置は、複数の対象材料それぞれの結晶構造に関する第1データ及び第2データの少なくとも一方を取得するように構成される対象データ取得部と、訓練済みの第1エンコーダを使用して前記第1データを第1特徴ベクトルに変換する処理及び訓練済みの第2エンコーダを使用して前記第2データを第2特徴ベクトルに変換する処理の少なくとも一方を実行することで、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方を取得するように構成される変換部と、得られた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の各値を空間上にマッピングし、かつ前記空間上にマッピングされた前記各対象材料の前記第1特徴ベクトル及び前記第2特徴ベクトルの少なくとも一方の前記各値を出力するように構成される出力処理部と、を備える、情報処理装置である。
【0026】
また、例えば、本発明の一側面に係るデータ生成装置は、第1データから第2データを生成するように構成される情報処理装置である。当該データ生成装置は、対象材料の第1データを取得するように構成される対象データ取得部と、訓練済みの第1エンコーダを使用して、取得された前記対象材料の第1データを第1特徴ベクトルに変換するように構成される変換部と、訓練済みのデコーダを使用して、変換により得られた前記第1特徴ベクトルの値及びその近傍の値の少なくとも一方から第2データを復元することで、前記対象材料の第2データを生成するように構成される復元部と、を備える。
【0027】
また、例えば、本発明の一側面に係るデータ生成装置は、第2データから第1データを生成するように構成される情報処理装置である。当該データ生成装置は、対象材料の第2データを取得するように構成される対象データ取得部と、訓練済みの第2エンコーダを使用して、取得された前記対象材料の第2データを第2特徴ベクトルに変換するように構成される変換部と、訓練済みのデコーダを使用して、変換により得られた前記第2特徴ベクトルの値及びその近傍の値の少なくとも一方から第1データを復元することで、前記対象材料の第1データを生成するように構成される復元部と、を備える。
【0028】
また、例えば、本発明の一側面に係る推定装置は、対象材料の結晶構造に関する第1データ及び第2データの少なくとも一方を取得するように構成される対象データ取得部と、訓練済みの第1エンコーダ及び訓練済みの第2エンコーダの少なくとも一方を使用して、取得された前記第1データ及び第2データの少なくとも一方を第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に変換するように構成される変換部と、訓練済みの推定器を使用して、得られた前記第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方の値から前記対象材料の特性を推定するように構成される推定部と、を備える、情報処理装置である。
【発明の効果】
【0029】
本発明によれば、材料に関する新たな知見を低コストで得る技術及びその活用方法を提供することができる。
【図面の簡単な説明】
【0030】
【
図1】
図1は、本発明が適用される場面の一例を模式的に示す。
【
図2】
図2は、実施の形態に係るモデル生成装置のハードウェア構成の一例を模式的に示す。
【
図3】
図3は、実施の形態に係るデータ処理装置のハードウェア構成の一例を模式的に示す。
【
図4】
図4は、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に示す。
【
図5A】
図5Aは、実施の形態に係るモデル生成装置による第1デコーダの機械学習の過程の一例を模式的に示す。
【
図5B】
図5Bは、実施の形態に係るモデル生成装置による第2デコーダの機械学習の過程の一例を模式的に示す。
【
図5C】
図5Cは、実施の形態に係るモデル生成装置による推定器の機械学習の過程の一例を模式的に示す。
【
図6】
図6は、実施の形態に係るデータ処理装置のソフトウェア構成の一例を模式的に示す。
【
図7A】
図7Aは、実施の形態に係るデータ処理装置によるデータ提示処理の過程の一例を模式的に示す。
【
図7B】
図7Bは、実施の形態に係るデータ処理装置によるデータ生成処理の過程の一例を模式的に示す。
【
図7C】
図7Cは、実施の形態に係るデータ処理装置によるデータ生成処理の過程の一例を模式的に示す。
【
図7D】
図7Dは、実施の形態に係るデータ処理装置による推定処理の過程の一例を模式的に示す。
【
図8】
図8は、実施の形態に係るモデル生成装置の処理手順の一例を示すフローチャートである。
【
図9】
図9は、実施の形態に係るデータ処理装置のデータ提示方法に関する処理手順の一例を示すフローチャートである。
【
図10A】
図10Aは、実施の形態に係るデータ処理装置のデータ生成方法に関する処理手順の一例を示すフローチャートである。
【
図10B】
図10Bは、実施の形態に係るデータ処理装置のデータ生成方法に関する処理手順の一例を示すフローチャートである。
【
図11】
図11は、実施の形態に係るデータ処理装置の推定方法に関する処理手順の一例を示すフローチャートである。
【
図12】
図12は、他の形態に係るエンコーダの構成の一例を模式的に示す。
【
図13】
図13は、実験例により作成した特徴空間上のデータ分布において、周期表の各元素を含む材料に対応する要素が存在する範囲を確認した結果を示す。
【
図14A】
図14Aは、実験例により作成した特徴空間上のデータ分布において、物理特性(energy above the hull)の値(eV)に応じて各要素を色分けした結果を示す。
【
図14B】
図14Bは、実験例により作成した特徴空間上のデータ分布において、物理特性(バンドギャップ)の値(eV)に応じて各要素を色分けした結果を示す。
【
図14C】
図14Cは、実験例により作成した特徴空間上のデータ分布において、物理特性(磁化)の値(T)に応じて各要素を色分けした結果を示す。
【発明を実施するための形態】
【0031】
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良及び変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。
【0032】
§1 適用例
図1は、本発明を適用した場面の一例を模式的に示す。
図1に示されるとおり、本実施形態に係る情報処理システム100は、モデル生成装置1及びデータ処理装置2を備えている。
【0033】
本実施形態に係るモデル生成装置1は、訓練済みの機械学習モデルを生成するように構成された少なくとも1台のコンピュータである。具体的に、モデル生成装置1は、材料の結晶構造に関する第1データ31及び第2データ32を取得する。第2データ32は、第1データ31と異なる指標で材料の性質を示す。一例として、第1データ31は、材料の結晶の局所構造に関する情報を示すものであってよい。第2データ32は、材料の結晶構造の周期性に関する情報を示すものであってよい。
【0034】
取得された第1データ31及び第2データ32は、ポジティブサンプル及びネガティブサンプルを含む。ポジティブサンプルは、同一の材料についての第1データ31p及び第2データ32pの組み合わせにより構成される。ネガティブサンプルは、ポジティブサンプルの材料とは異なる材料についての第1データ31n及び第2データ32nの少なくとも一方により構成される。
【0035】
モデル生成装置1は、取得された第1データ31及び第2データ32を使用して、第1エンコーダ51及び第2エンコーダ52の機械学習を実施する。第1エンコーダ51は、第1データを第1特徴ベクトルに変換するように構成される機械学習モデルである。第2エンコーダ52は、第2データを第2特徴ベクトルに変換するように構成される機械学習モデルである。第1特徴ベクトルの次元は、第2特徴ベクトルの次元と同一である。
【0036】
第1エンコーダ51及び第2エンコーダ52の機械学習は、ポジティブサンプルの第1データ31p及び第2データ32pから算出される第1特徴ベクトル41p及び第2特徴ベクトル42pの値同士が近くに位置付けられ、かつネガティブサンプルの第1データ31n及び第2データ32nの少なくとも一方より算出される第1特徴ベクトル41n及び第2特徴ベクトル42nの少なくとも一方の値が、ポジティブサンプルより算出される第1特徴ベクトル41p及び第2特徴ベクトル42pの少なくとも一方の値から遠くに位置付けられるように、第1エンコーダ51及び第2エンコーダ52を訓練することにより構成される。この機械学習の結果、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52が生成される。
【0037】
一方、本実施形態に係るデータ処理装置2は、モデル生成装置1により生成された訓練済みの機械学習モデルを使用して、データ処理を実行するように構成された少なくとも1台のコンピュータである。データ処理装置2は、実行する情報処理の内容に応じて、例えば、データ提示装置、データ生成装置、推定装置等と称されてもよい。
図1では、データ処理装置2が、データ提示装置として動作する場面の一例を模式的に示す。
【0038】
具体的に、データ処理装置2は、複数の対象材料それぞれの結晶構造に関する第1データ61及び第2データ62の少なくとも一方を取得する。データ処理装置2は、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を使用して、取得された各対象材料の第1データ61及び第2データ62の少なくとも一方を第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方に変換する。データ処理装置2は、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を空間上にマッピングする。そして、データ処理装置2は、空間上にマッピングされた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を出力する。
【0039】
以上のとおり、本実施形態では、同一の材料か否かにより、機械学習に使用するポジティブサンプル及びネガティブサンプルを用意可能である。そのため、モデル生成装置1において、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52を低コストで生成することができる。また、上記機械学習により、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52は、類似する特徴を有する材料の第1データ及び第2データを特徴空間上の近傍範囲に写像する能力を獲得することができる。その結果、データ処理装置2において、生成された訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を使用することで、材料に関する新たな知見を得ることができる。
【0040】
なお、一例では、
図1に示されるとおり、モデル生成装置1及びデータ処理装置2は、ネットワークを介して互いに接続されてよい。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。ただし、モデル生成装置1及びデータ処理装置2の間でデータをやりとりする方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。他の一例では、モデル生成装置1及びデータ処理装置2の間では、記憶媒体を利用して、データがやりとりされてよい。
【0041】
また、
図1の例では、モデル生成装置1及びデータ処理装置2は、それぞれ別個のコンピュータである。しかしながら、本実施形態に係る情報処理システム100の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。他の一例では、モデル生成装置1及びデータ処理装置2は一体のコンピュータであってよい。更に他の一例では、モデル生成装置1及びデータ処理装置2少なくとも一方は、複数台のコンピュータにより構成されてよい。
【0042】
§2 構成例
[ハードウェア構成]
<モデル生成装置>
図2は、本実施形態に係るモデル生成装置1のハードウェア構成の一例を模式的に示す。
図2に示されるとおり、本実施形態に係るモデル生成装置1は、制御部11、記憶部12、通信インタフェース13、外部インタフェース14、入力装置15、出力装置16、及びドライブ17が電気的に接続されたコンピュータである。なお、
図2では、通信インタフェース及び外部インタフェースを「通信I/F」及び「外部I/F」と記載している。後述する
図3でも同様の表記を用いる。
【0043】
制御部11は、ハードウェアプロセッサであるCPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。制御部11(CPU)は、プロセッサ・リソースの一例である。記憶部12は、メモリ・リソースの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部12は、モデル生成プログラム81、第1データ31、第2データ32、学習結果データ125等の各種情報を記憶する。
【0044】
モデル生成プログラム81は、訓練済みの機械学習モデルを生成する情報処理(後述の
図8)をモデル生成装置1に実行させるためのプログラムである。モデル生成プログラム81は、当該情報処理の一連の命令を含む。第1データ31及び第2データ32は、機械学習に用いられる。学習結果データ125は、機械学習により生成された訓練済みの機械学習モデルに関する情報を示す。本実施形態では、学習結果データ125は、モデル生成プログラム81を実行した結果として生成される。
【0045】
通信インタフェース13は、例えば、有線LAN(Local Area Network)モジュール、無線LANモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。モデル生成装置1は、通信インタフェース13を介して、他のコンピュータとの間でデータ通信を行ってよい。
【0046】
外部インタフェース14は、例えば、USB(Universal Serial Bus)ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース14の種類及び数は任意に選択されてよい。モデル生成装置1は、通信インタフェース13又は外部インタフェース14を介して、各データ(31、32)を得るための装置に接続されてよい。
【0047】
入力装置15は、例えば、マウス、キーボード等の入力を行うための装置である。出力装置16は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置15及び出力装置16を利用することで、モデル生成装置1を操作することができる。入力装置15及び出力装置16は、例えば、タッチパネルディスプレイ等により一体的に構成されてもよい。
【0048】
ドライブ17は、例えば、CDドライブ、DVDドライブ等であり、記憶媒体91に記憶されたプログラム等の各種情報を読み込むためのドライブ装置である。上記モデル生成プログラム81、第1データ31、及び第2データ32の少なくともいずれかは、記憶媒体91に記憶されていてもよい。
【0049】
記憶媒体91は、コンピュータその他装置、機械等が、記憶されたプログラム等の各種情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。モデル生成装置1は、この記憶媒体91から、上記モデル生成プログラム81、第1データ31、及び第2データ32の少なくともいずれかを取得してよい。
【0050】
ここで、
図2では、記憶媒体91の一例として、CD、DVD等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体91の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。ドライブ17の種類は、記憶媒体91の種類に応じて適宜選択されてよい。
【0051】
なお、モデル生成装置1の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部11は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、FPGA(field-programmable gate array)、DSP(digital signal processor)等で構成されてよい。記憶部12は、制御部11に含まれるRAM及びROMにより構成されてもよい。通信インタフェース13、外部インタフェース14、入力装置15、出力装置16及びドライブ17の少なくともいずれかは省略されてもよい。モデル生成装置1は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、モデル生成装置1は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のPC(Personal Computer)等であってもよい。
【0052】
<データ処理装置>
図3は、本実施形態に係るデータ処理装置2のハードウェア構成の一例を模式的に示す。
図3に示されるとおり、本実施形態に係るデータ処理装置2は、制御部21、記憶部22、通信インタフェース23、外部インタフェース24、入力装置25、出力装置26、及びドライブ27が電気的に接続されたコンピュータである。
【0053】
データ処理装置2の制御部21~ドライブ27及び記憶媒体92はそれぞれ、上記モデル生成装置1の制御部11~ドライブ17及び記憶媒体91それぞれと同様に構成されてよい。制御部21は、ハードウェアプロセッサであるCPU、RAM、ROM等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。制御部21(CPU)は、プロセッサ・リソースの一例である。記憶部22は、メモリ・リソースの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部22は、データ処理プログラム82、学習結果データ125等の各種情報を記憶する。
【0054】
データ処理プログラム82は、訓練済みの機械学習モデルを使用した、対象材料の結晶構造に関するデータに対する情報処理(後述の
図9~
図11)をデータ処理装置2に実行させるためのプログラムである。データ処理プログラム82は、当該情報処理の一連の命令を含む。データ処理プログラム82及び学習結果データ125の少なくともいずれかは、記憶媒体92に記憶されていてよい。データ処理装置2は、データ処理プログラム82及び学習結果データ125の少なくともいずれかを記憶媒体92から取得してよい。
【0055】
データ処理装置2は、通信インタフェース23を介して、他のコンピュータとの間でデータ通信を行ってよい。データ処理装置2は、通信インタフェース23又は外部インタフェース24を介して、第1データ又は第2データを得るための装置に接続されてよい。データ処理装置2は、入力装置25及び出力装置26の利用により、オペレータからの操作及び入力を受け付けてよい。
【0056】
なお、データ処理装置2の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部21は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、FPGA、DSP等で構成されてよい。記憶部22は、制御部21に含まれるRAM及びROMにより構成されてもよい。通信インタフェース23、外部インタフェース24、入力装置25、出力装置26、及びドライブ27の少なくともいずれかは省略されてもよい。データ処理装置2は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、データ処理装置2は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のPC等であってもよい。
【0057】
[ソフトウェア構成]
<モデル生成装置>
図4は、本実施形態に係るモデル生成装置1のソフトウェア構成の一例を模式的に示す。モデル生成装置1の制御部11は、記憶部12に記憶されたモデル生成プログラム81をRAMに展開する。そして、制御部11は、RAMに展開されたモデル生成プログラム81に含まれる命令をCPUにより実行する。これにより、
図4に示されるとおり、本実施形態に係るモデル生成装置1は、学習データ取得部111、機械学習部112、及び保存処理部113をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置1の各ソフトウェアモジュールは、制御部11(CPU)により実現される。
【0058】
学習データ取得部111は、学習用の第1データ31及び第2データ32を取得するように構成される。第1データ31及び第2データ32は、材料の結晶構造に関するものであり、互いに異なる指標で材料の性質を示すものである。取得された第1データ31及び第2データ32は、複数のポジティブサンプル及び複数のネガティブサンプルを含む。各ポジションサンプルは、同一の材料についての第1データ31p及び第2データ32pの組み合わせにより構成される。各ネガティブサンプルは、対応するポジティブサンプル(複数のポジティブサンプルのうちのいずれか)の材料とは異なる材料についての第1データ31n及び第2データ32nの少なくとも一方により構成される。
【0059】
機械学習部112は、取得された第1データ31及び第2データ32を使用して、第1エンコーダ51及び第2エンコーダ52の機械学習を実施するように構成される。第1エンコーダ51は、第1データを第1特徴ベクトルに変換するように構成される。第2エンコーダ52は、第1特徴ベクトルの次元と同一次元の第2特徴ベクトルに第2データを変換するように構成される。すなわち、各エンコーダ(51、52)は、第1データ及び第2データそれぞれを同一次元の特徴空間に写像するように構成される。
【0060】
第1エンコーダ51及び第2エンコーダ52の機械学習は、各ポジティブサンプルの第1データ31p及び第2データ32pより算出される第1特徴ベクトル41p及び第2特徴ベクトル42pの値同士が近くに位置付けられ、かつ各ネガティブサンプルの第1データ31n及び第2データ32nの少なくとも一方より算出される第1特徴ベクトル41n及び第2特徴ベクトル42nの少なくとも一方の値が、対応するポジティブサンプルより算出される第1特徴ベクトル41p及び第2特徴ベクトル42pの少なくとも一方の値から遠くに位置付けられるように、第1エンコーダ51及び第2エンコーダ52を訓練することにより構成される。
【0061】
すなわち、当該機械学習では、第1エンコーダ51及び第2エンコーダ52は、各ポジティブサンプルの特徴ベクトル(41p、42p)間の第1距離が、対応するネガティブサンプルの特徴ベクトルとの間の第2距離より相対的に短くなるように訓練される。この訓練は、第1距離を小さくする調整及び第2距離を大きくする調整の少なくともいずれかにより構成されてよい。なお、第2距離は、対応するポジティブサンプル及びネガティブサンプルの、第1特徴ベクトル(41p、41n)間の距離、第1特徴ベクトル41p及び第2特徴ベクトル42n間の距離、第2特徴ベクトル42p及び第1特徴ベクトル41n間の距離、並びに第2特徴ベクトル(42p、42n)間の距離の少なくともいずれかにより構成されてよい。第1特徴ベクトル(41p、41n)は、第1エンコーダ51を使用して、第1データ(31p、31n)から算出される。第2特徴ベクトル(42p、42n)は、第2エンコーダ52を使用して、第2データ(32p、32n)から算出される。当該機械学習の結果、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52が生成される。
【0062】
また、
図5A~
図5Cに示されるとおり、本実施形態に係るモデル生成装置1は、訓練済みの第1デコーダ55、訓練済みの第2デコーダ56、及び訓練済みの推定器58の少なくともいずれかを更に生成するように構成されてよい。第1デコーダ55は、第1エンコーダ51に対応し、第1特徴ベクトルから第1データを復元するように構成される。第2デコーダ56は、第2エンコーダ52に対応し、第2特徴ベクトルから第2データを復元するように構成される。推定器58は、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方から材料の特性を推定するように構成される。
【0063】
図5Aは、本実施形態に係るモデル生成装置1による第1デコーダ55の機械学習の過程の一例を模式的に示す。モデル生成装置1が訓練済みの第1デコーダ55を生成するように構成される場合、機械学習部112は、第1データ31を使用して、第1デコーダ55の機械学習を更に実施するように構成されてよい。第1デコーダ55の機械学習は、第1エンコーダ51を使用することで第1データ31より算出される第1特徴ベクトルから第1デコーダ55により第1データ31を復元した結果が当該第1データ31に適合するように、第1デコーダ55を訓練することにより構成される。この機械学習の結果、訓練済みの第1デコーダ55を生成することができる。
【0064】
図5Bは、本実施形態に係るモデル生成装置1による第2デコーダ56の機械学習の過程の一例を模式的に示す。モデル生成装置1が訓練済みの第2デコーダ56を生成するように構成される場合、機械学習部112は、第2データ32を使用して、第2デコーダ56の機械学習を更に実施するように構成されてよい。第2デコーダ56の機械学習は、第2エンコーダ52を使用することで第2データ32より算出される第2特徴ベクトルから第2デコーダ56により第2データ32を復元した結果が当該第2データ32に適合するように、第2デコーダ56を訓練することにより構成される。この機械学習の結果、訓練済みの第2デコーダ56を生成することができる。
【0065】
図5Cは、本実施形態に係るモデル生成装置1による推定器58の機械学習の過程の一例を模式的に示す。モデル生成装置1が訓練済みの推定器58を生成するように構成される場合、学習データ取得部111は、材料の特性(真値)を示す正解情報(正解ラベル)35を更に取得するように構成されてよい。機械学習部112は、正解情報35並びに第1データ31及び第2データ32の少なくとも一方を使用して、推定器58の機械学習を更に実施するように構成されてよい。推定器58の機械学習は、第1エンコーダ51を使用することで第1データ31から算出される第1特徴ベクトル及び第2エンコーダ52を使用することで第2データ32から算出される第2特徴ベクトルの少なくとも一方から材料の特性を推定器58により推定した結果が対応する正解情報35に適合するように、推定器58を訓練することにより構成される。この機械学習の結果、訓練済みの推定器58を生成することができる。
【0066】
図4及び
図5A~
図5Cに示されるとおり、保存処理部113は、機械学習により生成された訓練済みの機械学習モデル(本実施形態では、第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56及び推定器58)に関する情報を学習結果データ125として生成し、生成した学習結果データ125を任意の記憶領域に保存するように構成される。学習結果データ125は、訓練済みの機械学習モデルを再生するための情報を含むように適宜構成されてよい。
【0067】
(機械学習モデルの一例)
本実施形態において、第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56及び推定器58は、各演算に使用される1つ以上の演算パラメータを備える機械学習モデルにより構成される。上記各演算を実行可能であれば、それぞれに採用される機械学習モデルの種類及び構造は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例として、第1エンコーダ51、第2エンコーダ52、第1デコーダ55及び第2デコーダ56それぞれは、ニューラルネットワーク等により構成されてよい。推定器58は、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木モデル等により構成されてよい。
【0068】
訓練することは、訓練データ(第1データ31/第2データ32)に適合する出力を当該訓練データから導き出すように演算パラメータの値を調整(最適化)することにより構成される。この機械学習の方法は、採用される機械学習モデルの種類に応じて適宜選択されてよい。一例として、機械学習の方法には、誤差逆伝播法、最適化問題を解く、回帰分析を実行する等の方法が採用されてよい。
【0069】
ニューラルネットワークを採用する場合、典型的には、第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56及び推定器58それぞれは、入力層、1つ以上の中間層(隠れ層)、及び出力層を備えるように構成される。各層には、例えば、全結合層等の任意種類の層が採用されてよい。それぞれに含まれる層の数、各層の種類、各層のノード(ニューロン)の数、及びノードの接続関係は実施の形態に応じて適宜決定されてよい。各ノード間の結合の重み、各ノードの閾値等が、上記演算パラメータの一例である。以下では、第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56及び推定器58それぞれにニューラルネットワークを採用した場合における訓練処理の一例を説明する。
【0070】
(A)エンコーダの訓練
図4に示されるとおり、各エンコーダ(51、52)をニューラルネットワークにより構成する場合における訓練処理の一例として、機械学習部112は、各ポジティブサンプルの第1データ31pを第1エンコーダ51に入力し、第1エンコーダ51の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各ポジティブサンプルの第1データ31pに対応する第1特徴ベクトル41pを第1エンコーダ51から取得する。同様に、機械学習部112は、各ポジティブサンプルの第2データ32pを第2エンコーダ52に入力し、第2エンコーダ52の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各ポジティブサンプルの第2データ32pに対応する第2特徴ベクトル42pを第2エンコーダ52から取得する。
【0071】
また、各ポジティブサンプルに対応するネガティブサンプルに第1データ31nが含まれる場合、機械学習部112は、当該対応するネガティブサンプルの第1データ31nを第1エンコーダ51に入力し、第1エンコーダ51の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、第1データ31nに対応する第1特徴ベクトル41nを第1エンコーダ51から取得する。同様に、各ポジティブサンプルに対応するネガティブサンプルに第2データ32nが含まれる場合、機械学習部112は、当該対応するネガティブサンプルの第2データ32nを第2エンコーダ52に入力し、第2エンコーダ52の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、第2データ32nに対応する第2特徴ベクトル42nを第2エンコーダ52から取得する。
【0072】
機械学習部112は、上記第1距離を小さくする(ポジティブサンプルのベクトル値同士を近付ける)操作及び第2距離を大きくする(ポジティブサンプル及びネガティブサンプル間のベクトル値を遠ざける)操作の少なくとも一方を達成するように、算出された各特徴ベクトルの値から誤差を計算する。上記第1距離を小さくする操作及び第2距離を大きくする操作の少なくとも一方の操作を達成可能であれば、誤差の計算には、任意の損失関数が用いられてよい。当該操作を達成可能な損失関数の一例として、Triplet Loss、Contrastive Loss、Lifted Structure Loss、N-Pair Loss、Angular Loss、Divergence Loss等を挙げることができる。
【0073】
機械学習部112は、算出された誤差の勾配を算出する。次に、機械学習部112は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、第1エンコーダ51及び第2エンコーダ52の演算パラメータの値の誤差を算出する。そして、機械学習部112は、算出された誤差に基づいて、演算パラメータの値を更新する。
【0074】
この一連の更新処理により、機械学習部112は、各ポジティブサンプルの特徴ベクトル(41p、42p)間の第1距離が、各ポジティブサンプルの特徴ベクトルと対応するネガティブサンプルの特徴ベクトルとの間の第2距離より短くなるように、第1エンコーダ51及び第2エンコーダ52の演算パラメータの値を調整する。この演算パラメータの値の調整は、例えば、規定回数実行する、算出される誤差の和が所定の指標を満たす等の所定の条件を満たすまで繰り返されてよい。また、学習率等の機械学習の条件は、実施の形態に応じて適宜設定されてよい。この機械学習の処理により、同一の材料の第1データ及び第2データを特徴空間上の近い位置に写像し、異なる材料の第1データ及び第2データを遠い位置に写像する能力を獲得した訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52を生成することができる。
【0075】
(B)第1デコーダの訓練
図5Aに示されるとおり、第1デコーダ55をニューラルネットワークにより構成する場合における訓練処理の一例として、機械学習部112は、各第1データ31を第1エンコーダ51に入力し、第1エンコーダ51の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各第1データ31に対応する第1特徴ベクトルを第1エンコーダ51から取得する。機械学習部112は、得られた各第1特徴ベクトルを第1デコーダ55に入力し、第1デコーダ55の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各第1特徴ベクトルから第1データ31を復元した結果に対応する出力値を第1デコーダ55から取得する。
【0076】
機械学習部112は、取得された出力値と対応する第1データ31との間の誤差を算出し、算出された誤差の勾配を更に算出する。機械学習部112は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、第1デコーダ55の演算パラメータの値の誤差を算出する。そして、機械学習部112は、算出された誤差に基づいて、第1デコーダ55の演算パラメータの値を更新する。
【0077】
この一連の更新処理により、機械学習部112は、各第1データ31について、復元結果(出力値)と真値(対応する第1データ31)との間の誤差の和が小さくなるように、第1デコーダ55の演算パラメータの値を調整する。この演算パラメータの値の調整は、例えば、規定回数実行する、算出される誤差の和が閾値以下になる等の所定の条件を満たすまで繰り返されてよい。また、損失関数、学習率等の機械学習の条件は、実施の形態に応じて適宜設定されてよい。この機械学習の処理により、第1エンコーダ51により得られる第1特徴ベクトルから対応する第1データを復元する能力を獲得した訓練済みの第1デコーダ55を生成することができる。
【0078】
なお、第1特徴ベクトルから第1データを復元する能力を獲得した訓練済みの第1デコーダ55を生成可能であれば、第1デコーダ55の機械学習を実行するタイミングは、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例では、第1デコーダ55の機械学習は、上記第1エンコーダ51及び第2エンコーダ52の機械学習の後に実行されてよい。この場合、第1デコーダ55の機械学習には、訓練済みの第1エンコーダ51が用いられてよい。他の一例では、第1デコーダ55の機械学習は、上記第1エンコーダ51及び第2エンコーダ52の機械学習と同時に実行されてよい。この場合、機械学習部112は、第1デコーダ55の機械学習における誤差の勾配を第1エンコーダ51にも逆伝播し、第1エンコーダ51の演算パラメータの値の誤差も算出してよい。そして、機械学習部112は、算出された誤差に基づいて、第1デコーダ55と共に、第1エンコーダ51の演算パラメータの値を更新してもよい。
【0079】
(C)第2デコーダの訓練
図5Bに示されるとおり、第2デコーダ56をニューラルネットワークにより構成する場合における訓練処理の一例として、機械学習部112は、各第2データ32を第2エンコーダ52に入力し、第2エンコーダ52の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各第2データ32に対応する第2特徴ベクトルを第2エンコーダ52から取得する。機械学習部112は、得られた各第2特徴ベクトルを第2デコーダ56に入力し、第2デコーダ56の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各第2特徴ベクトルから第2データ32を復元した結果に対応する出力値を第2デコーダ56から取得する。
【0080】
機械学習部112は、取得された出力値と対応する第2データ32との間の誤差を算出し、算出された誤差の勾配を更に算出する。機械学習部112は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、第2デコーダ56の演算パラメータの値の誤差を算出する。そして、機械学習部112は、算出された誤差に基づいて、第2デコーダ56の演算パラメータの値を更新する。
【0081】
この一連の更新処理により、機械学習部112は、各第2データ32について、復元結果(出力値)と真値(対応する第2データ32)との間の誤差の和が小さくなるように、第2デコーダ56の演算パラメータの値を調整する。この演算パラメータの値の調整は、例えば、規定回数実行する、算出される誤差の和が閾値以下になる等の所定の条件を満たすまで繰り返されてよい。また、損失関数、学習率等の機械学習の条件は、実施の形態に応じて適宜設定されてよい。この機械学習の処理により、第2エンコーダ52により得られる第2特徴ベクトルから対応する第2データを復元する能力を獲得した訓練済みの第2デコーダ56を生成することができる。
【0082】
なお、第2特徴ベクトルから第2データを復元する能力を獲得した訓練済みの第2デコーダ56を生成可能であれば、第2デコーダ56の機械学習を実行するタイミングは、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例では、第2デコーダ56の機械学習は、上記第1エンコーダ51及び第2エンコーダ52の機械学習の後に実行されてよい。この場合、第2デコーダ56の機械学習には、訓練済みの第2エンコーダ52が用いられてよい。他の一例では、第2デコーダ56の機械学習は、上記第1エンコーダ51及び第2エンコーダ52の機械学習と同時に実行されてよい。この場合、機械学習部112は、第2デコーダ56の機械学習における誤差の勾配を第2エンコーダ52にも逆伝播し、第2エンコーダ52の演算パラメータの値の誤差も算出してよい。そして、機械学習部112は、算出された誤差に基づいて、第2デコーダ56と共に、第2エンコーダ52の演算パラメータの値を更新してもよい。
【0083】
また、一例では、第2デコーダ56の機械学習は、第1デコーダ55の機械学習と並列に実行されてよい。他の一例では、第2デコーダ56の機械学習は、第1デコーダ55の機械学習とは別個に実行されてよい。この場合、先に実行される機械学習の処理は、第1デコーダ55及び第2デコーダ56のどちらであってもよい。
【0084】
(D)推定器の訓練
図5Cに示されるとおり、推定器58の機械学習には、第1データ31及び第2データ32の少なくとも一方と対応する材料の正解情報35との組み合わせによりそれぞれ構成される複数のデータセットが使用される。以下、推定器58をニューラルネットワークにより構成する場合における訓練処理の一例を示す。
【0085】
第1特徴ベクトルから材料の特性を推定するように推定器58を訓練する場合、機械学習部112は、各データセットの第1データ31を第1エンコーダ51に入力し、第1エンコーダ51の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各第1データ31に対応する第1特徴ベクトルを第1エンコーダ51から取得する。機械学習部112は、得られた各第1特徴ベクトルを推定器58に入力し、推定器58の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各材料の特性を推定した結果に対応する出力値を推定器58から取得する。
【0086】
第2特徴ベクトルから材料の特性を推定するように推定器58を訓練する場合、機械学習部112は、各データセットの第2データ32を第2エンコーダ52に入力し、第2エンコーダ52の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各第2データ32に対応する第2特徴ベクトルを第2エンコーダ52から取得する。機械学習部112は、得られた各第2特徴ベクトルを推定器58に入力し、推定器58の順伝播の演算処理を実行する。この演算処理の結果として、機械学習部112は、各材料の特性を推定した結果に対応する出力値を推定器58から取得する。
【0087】
なお、推定器58は、第1特徴ベクトル及び第2特徴ベクトルの両方の入力を受け付けるように構成されてもよいし、或いは第1特徴ベクトル及び第2特徴ベクトルのいずれか一方のみの入力を受け付けるように構成されてもよい。第1特徴ベクトル及び第2特徴ベクトルの両方の入力を受け付けるように構成する場合、機械学習部112は、同一の材料の第1データ31及び第2データ32由来の第1特徴ベクトル及び第2特徴ベクトルを推定器58に入力し、当該材料の特性を推定した結果に対応する出力値を推定器58から取得する。
【0088】
次に、機械学習部112は、取得された出力値と対応する正解情報35により示される真値との間の誤差を算出し、算出された誤差の勾配を更に算出する。機械学習部112は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、推定器58の演算パラメータの値の誤差を算出する。そして、機械学習部112は、算出された誤差に基づいて、推定器58の演算パラメータの値を更新する。
【0089】
この一連の更新処理により、機械学習部112は、各データセットについて、第1データ31及び第2データ32の少なくとも一方から導出される推定結果の出力値と対応する正解情報35により示される真値との間の誤差の和が小さくなるように、推定器58の演算パラメータの値を調整する。この演算パラメータの値の調整は、例えば、規定回数実行する、算出される誤差の和が閾値以下になる等の所定の条件を満たすまで繰り返されてよい。また、損失関数、学習率等の機械学習の条件は、実施の形態に応じて適宜設定されてよい。この機械学習の処理により、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方から材料の特性を推定する能力を獲得した訓練済みの推定器58を生成することができる。
【0090】
なお、材料の特性を推定する能力を獲得した訓練済みの推定器58を生成可能であれば、推定器58の機械学習を実行するタイミングは、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例では、推定器58の機械学習は、上記第1エンコーダ51及び第2エンコーダ52の機械学習の後に実行されてよい。この場合において、第1特徴ベクトルから材料の特性を推定するように訓練するときには、推定器58の機械学習に、訓練済みの第1エンコーダ51が用いられてよい。第2特徴ベクトルから材料の特性を推定するように訓練するときには、推定器58の機械学習に、訓練済みの第2エンコーダ52が用いられてよい。他の一例では、推定器58の機械学習は、上記第1エンコーダ51及び第2エンコーダ52の機械学習と同時に実行されてよい。この場合、第1特徴ベクトルから材料の特性を推定するように訓練するときには、機械学習部112は、推定器58の機械学習における誤差の勾配を第1エンコーダ51にも逆伝播し、第1エンコーダ51の演算パラメータの値の誤差も算出してよい。そして、機械学習部112は、算出された誤差に基づいて、推定器58と共に、第1エンコーダ51の演算パラメータの値を更新してもよい。また、第2特徴ベクトルから材料の特性を推定するように訓練するときには、機械学習部112は、推定器58の機械学習における誤差の勾配を第2エンコーダ52にも逆伝播し、第2エンコーダ52の演算パラメータの値の誤差も算出してよい。そして、機械学習部112は、算出された誤差に基づいて、推定器58と共に、第2エンコーダ52の演算パラメータの値を更新してもよい。
【0091】
また、一例では、推定器58の機械学習は、上記第1デコーダ55及び第2デコーダ56の機械学習の少なくとも一方と同時に実行されてもよい。他の一例では、推定器58の機械学習は、上記第1デコーダ55及び第2デコーダ56の機械学習と別々に実行されてもよい。この場合、先に実行される機械学習は、推定器58及び各デコーダ(55、56)のいずれであってもよい。
【0092】
また、他の一例では、推定器58は、サポートベクタマシン、回帰モデル等のニューラルネットワーク以外の機械学習モデルにより構成されてよい。この場合も、推定器58の機械学習は、各データセットについて、第1データ31及び第2データ32の少なくとも一方から導出される推定結果の出力値が対応する正解情報35により示される真値に近付く(例えば、一致する)ように、推定器58の演算パラメータの値を調整することにより構成される。推定器58の演算パラメータの値を調整する方法は、採用する機械学習モデルに応じて適宜選択されてよい。一例として、最適化問題を解く、回帰分析を実行する等の方法が、推定器58の演算パラメータの値を調整する方法として採用されてよい。
【0093】
(保存処理)
保存処理部113は、上記各機械学習により生成された訓練済みの機械学習モデル(第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56、及び推定器58)を学習結果データ125として保存する。訓練済みの機械学習モデルの上記演算を実行するための情報を保持可能であれば、学習結果データ125の構成は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例として、学習結果データ125は、機械学習モデルの構成(例えば、ニューラルネットワークの構造等)及び上記機械学習により調整された演算パラメータの値を示す情報を含むように構成されてよい。学習結果データ125は、任意の記憶領域に保存されてよい。学習結果データ125は、訓練済みの機械学習モデルをコンピュータ上で使用可能な状態に設定するために適宜参照されてよい。
【0094】
なお、
図4及び
図5A~
図5Cの一例では、説明の便宜上、第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56、及び推定器58全てに関する情報が学習結果データ125に含まれている。しかしながら、学習結果を保持する形式は、このような例に限定されなくてよい。第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56、及び推定器58の少なくともいずれかに関する情報は、別個の学習結果データとして保持されてよい。他の一例では、第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56、及び推定器58それぞれに独立した学習結果データが生成されてもよい。
【0095】
<データ処理装置>
図6は、本実施形態に係るデータ処理装置2のソフトウェア構成の一例を模式的に示す。データ処理装置2の制御部21は、記憶部22に記憶されたデータ処理プログラム82をRAMに展開する。そして、制御部21は、RAMに展開されたデータ処理プログラム82に含まれる命令をCPUにより実行する。これにより、
図6に示されるとおり、本実施形態に係るデータ処理装置2は、対象データ取得部211、変換部212、復元部213、推定部214、及び出力処理部215をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、データ処理装置2の各ソフトウェアモジュールは、モデル生成装置1と同様に、制御部21(CPU)により実現される。
【0096】
上記モデル生成装置1により生成された訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を備えることで、第1データ及び第2データの少なくとも一方から算出された特徴ベクトルの値を提示するデータ提示装置を構成することができる。訓練済みの第1エンコーダ51及び訓練済みの第2デコーダ56を備えることで、第1データから第2データを生成するデータ生成装置を構成することができる。訓練済みの第2エンコーダ52及び訓練済みの第1デコーダ55を備えることで、第2データから第1データを生成するデータ生成装置を構成することができる。訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方と訓練済みの推定器58とを備えることで、第1データ及び第2データの少なくとも一方から材料の特性を推定する推定装置を構成することができる。
図6は、データ処理装置2が全ての装置の動作を実行可能に構成される場合の一例を示す。
【0097】
(A)データ提示装置
図7Aは、上記データ提示処理の過程(すなわち、データ処理装置2がデータ提示装置として動作する場面)の一例を模式的に示す。
【0098】
この場合、対象データ取得部211は、複数の対象材料それぞれの結晶構造に関する第1データ61及び第2データ62の少なくとも一方を取得するように構成される。変換部212は、学習結果データ125を保持することで、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を備える。変換部212は、訓練済みの第1エンコーダ51を使用して取得された各対象材料の第1データ61を第1特徴ベクトル71に変換する処理、及び訓練済みの第2エンコーダ52を使用して取得された各対象材料の第2データ62を第2特徴ベクトル72に変換する処理の少なくとも一方を実行することで、第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方を取得するように構成される。
【0099】
出力処理部215は、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を空間VS上にマッピングし、空間VS上にマッピングされた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を出力するように構成される。一例では、出力処理部215は、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値をそのまま空間VSにマッピングするように構成されてよい。他の一例では、出力処理部215は、マッピングする処理において、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を、当該各値の位置関係を維持するよう、元の次元よりも低次元に変換した上で、変換された各値を空間VS上にマッピングするように構成されてよい。この場合、出力処理部215は、各値を出力する処理において、各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の変換された各値を出力するように構成されてよい。これにより、各対象材料の類似性に関する情報への影響を抑えつつ、出力資源の効率化(例えば、情報出力範囲の省スペース化、視認性の向上等)を図ることができる。
【0100】
なお、データ処理装置2は、空間VSにおいて、第1特徴ベクトル71及び第2特徴ベクトル72の両方を提示するように構成されてもよい。或いは、データ処理装置2は、空間VSにおいて、第1特徴ベクトル71及び第2特徴ベクトル72のいずれか一方のみを提示するように構成されてもよい。
【0101】
(B)第1データから第2データを生成するデータ生成装置
図7Bは、第1データ63から第2データ64を生成する処理の過程(すなわち、データ処理装置2が、第1データから第2データを生成するデータ生成装置として動作する場面)の一例を模式的に示す。
【0102】
この場合、対象データ取得部211は、対象材料の第1データ63を取得するように構成される。変換部212は、学習結果データ125を保持することで、訓練済みの第1エンコーダ51を備える。変換部212は、訓練済みの第1エンコーダ51を使用して、取得された対象材料の第1データ63を第1特徴ベクトル73に変換するように構成される。復元部213は、学習結果データ125を保持することで、訓練済みの第2デコーダ56を備える。復元部213は、訓練済みの第2デコーダ56を使用して、変換により得られた第1特徴ベクトル73の値及びその近傍の値の少なくとも一方から第2データ64を復元することで、第2データ64を生成するように構成される。出力処理部215は、生成された第2データ64を出力するように構成される。
【0103】
(C)第2データから第1データを生成するデータ生成装置
図7Cは、第2データ65から第1データ66を生成する処理の過程(すなわち、データ処理装置2が、第2データから第1データを生成するデータ生成装置として動作する場面)の一例を模式的に示す。
【0104】
この場合、対象データ取得部211は、対象材料の第2データ65を取得するように構成される。変換部212は、学習結果データ125を保持することで、訓練済みの第2エンコーダ52を備える。変換部212は、訓練済みの第2エンコーダ52を使用して、取得された対象材料の第2データ65を第2特徴ベクトル75に変換するように構成される。復元部213は、学習結果データ125を保持することで、訓練済みの第1デコーダ55を備える。復元部213は、訓練済みの第1デコーダ55を使用して、変換により得られた第2特徴ベクトル75の値及びその近傍の値の少なくとも一方から第1データ66を復元することで、第1データ66を生成するように構成される。出力処理部215は、生成された第1データ66を出力するように構成される。
【0105】
(D)推定装置
図7Dは、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方から対象材料の特性を推定する処理の過程(すなわち、データ処理装置2が、推定装置として動作する場面)の一例を模式的に示す。
【0106】
この場合、対象データ取得部211は、対象材料の結晶構造に関する第1データ67及び第2データ68の少なくとも一方を取得するように構成される。変換部212は、学習結果データ125を保持することで、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を備える。第1特徴ベクトルから対象材料の特性を推定するようにデータ処理装置2を構成する場合、変換部212は、訓練済みの第1エンコーダ51を備えるように構成される。第2特徴ベクトルから対象材料の特性を推定するようにデータ処理装置2を構成する場合、変換部212は、訓練済みの第2エンコーダ52を備えるように構成される。変換部212は、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を使用して、取得された第1データ67及び第2データ68の少なくとも一方を第1特徴ベクトル77及び第2特徴ベクトル78の少なくとも一方に変換するように構成される。推定部214は、学習結果データ125を保持することで、訓練済みの推定器58を備える。推定部214は、訓練済みの推定器58を使用して、得られた第1特徴ベクトル77及び第2特徴ベクトル78の少なくとも一方の値から対象材料の特性を推定するように構成される。出力処理部215は、対象材料の特性を推定した結果を出力するように構成される。
【0107】
<各データ>
第1データ(31、61、63、66、67)及び第2データ(32、62、64、65、68)は、材料の結晶構造に関する情報を示すように構成される。第1データ31及び第2データ32は、機械学習に使用され、学習用の材料に関するものである。第1データ(61、63、67)及び第2データ(62、65、68)は、上記データ提示等の各推論処理に使用され、当該各推論処理の対象となる材料(対象材料)に関するものである。材料は、原子又は分子が配列した構造を有する(ことで機能を発現する)物質である。第1データ及び第2データが取得可能であれば、当該材料が現実に存在しているか計算機上の仮想的な物質かは問わなくてよい。第1データ(31、61、63、67)及び第2データ(32、62、65、68)は、実際の測定により得られてもよいし、或いはシミュレーションにより得られてもよい。
【0108】
第1データ(31、61、63、66、67)及び第2データ(32、62、64、65、68)は、互いに異なる指標で材料の性質を示すものである。それぞれの種類は、実施の形態に応じて適宜選択されてよい。一例として、第1データ(31、61、63、66、67)は、結晶構造の局所的観点に基づいて材料の性質を示すものであってよい。具体例として、第1データ(31、61、63、66、67)は、材料の結晶の局所構造に関する情報を示すものであってよい。第2データ(32、62、64、65、68)は、全体の俯瞰的観点に基づいて材料の性質を示すものであってよい。具体例として、第2データ(32、62、64、65、68)は、材料の結晶構造の周期性に関する情報を示すものであってよい。結晶構造の周期性は、周期性の有無、周期性の状態(結晶構造の示す周期的特徴の状態)等により表現されてよい。材料は、周期性を有するものであってもよいし、或いは周期性を有しないものであってもよい。
【0109】
局所構造に関する情報を示すデータの一例として、第1データ(31、61、63、66、67)は、三次元原子位置データ、ラマン分光データ、核磁気共鳴分光データ、赤外分光データ、質量分析データ、及びX線吸収分光データの少なくともいずれかにより構成されてよい。第1データ(31、61、63、66、67)が三次元原子位置データを含むように構成される場合に、三次元原子位置データは、確率密度関数、確率分布関数、及び確率質量関数の少なくともいずれかにより材料における原子の状態(例えば、位置、種類等)を表現するように構成されてよい。すなわち、三次元原子位置データにおいて、対象の原子が対象の位置に存在する確率、対象の種類の原子が包含される確率等の原子の状態に関する確率が、確率密度関数、確率分布関数、及び確率質量関数の少なくともいずれかにより示されてよい。これらの構成によれば、結晶構造の局所的観点に基づいて材料の特性を示す第1データを適切に用意可能である。
【0110】
また、周期性に関する情報を示すデータの一例として、第2データ(32、62、64、65、68)は、X線回折データ、中性子回折データ、電子線回折データ、及び全散乱データの少なくともいずれかにより構成されてよい。これにより、全体の俯瞰的観点に基づいて材料の性質を示す第2データを適切に用意可能である。
【0111】
各特徴ベクトルは、各エンコーダ(51、52)により生成される、計算機での取り扱いが容易な固定長(一例として、数10~1000程度の長さ)の数列である。各特徴ベクトルは、人間にはその意味を直接理解することが困難なように構成される場合が多い。基本的には、各材料の第1データ及び第2データそれぞれに対して1つの特徴ベクトルが生成される。
【0112】
推定装置として動作した際に特徴ベクトルから推定する材料の特性の範囲は、機械学習に使用された正解情報35に依存する。特徴ベクトルから推定する材料の特性の内容及び数は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。材料の特性は、例えば、触媒特性、電子移動度、バンドギャップ、熱伝導率、熱電特性、機械的性質(例えば、ヤング率、音速等)等であってよい。
【0113】
<その他>
モデル生成装置1及びデータ処理装置2の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、モデル生成装置1及びデータ処理装置2の各ソフトウェアモジュールがいずれも汎用のCPUによって実現される例について説明している。しかしながら、上記ソフトウェアモジュールの一部又は全部が、1又は複数の専用のプロセッサにより実現されてもよい。すなわち、上記各モジュールは、ハードウェアモジュールとして実現されてもよい。また、モデル生成装置1及びデータ処理装置2それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。
【0114】
§3 動作例
[モデル生成装置]
図8は、本実施形態に係るモデル生成装置1の処理手順の一例を示すフローチャートである。以下のモデル生成装置1の処理手順は、モデル生成方法の一例である。ただし、以下のモデル生成装置1の処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下のモデル生成装置1の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0115】
(ステップS101)
ステップS101では、制御部11は、学習データ取得部111として動作し、複数のポジティブサンプル及び複数のネガティブサンプルを含む学習用の第1データ31及び第2データ32を取得する。各ポジションサンプルは、同一の材料についての第1データ31p及び第2データ32pの組み合わせにより構成される。各ネガティブサンプルは、対応するポジティブサンプルの材料とは異なる材料についての第1データ31n及び第2データ32nの少なくとも一方により構成される。
【0116】
第1データ31及び第2データ32は、実際の測定により得られてもよいし、或いはシミュレーションにより得られてもよい。各データ(31、32)の測定には、各データ(31、32)に応じた測定装置が用いられてよい。測定装置の種類及びシミュレーションの方法はそれぞれ、各データ(31、32)の種類に応じて適宜選択されてよい。シミュレーション方法には、例えば、第一原理計算、分子動力学計算等が用いられてよい。
【0117】
一例では、制御部11は、第1データ31及び第2データ32それぞれを対応する測定装置から直接的に取得してもよい。或いは、制御部11は、シミュレーションを実行することで、第1データ31及び第2データ32それぞれを取得してもよい。他の一例では、制御部11は、例えば、ネットワーク、記憶媒体91等を介して、他のコンピュータ又は外部記憶装置の記憶領域から第1データ31及び第2データ32それぞれを取得してよい。この場合、第1データ31及び第2データ32は、同一の記憶領域(記憶装置、記憶媒体)に保存されていてもよいし、或いは互いに異なる記憶領域に保存されていてもよい。取得する第1データ31及び第2データ32のサンプル数は、実施の形態に応じて適宜選択されてよい。
【0118】
また、本実施形態では、制御部11は、第1データ31及び第2データ32の少なくとも一方に対応して、材料の特性を示す正解情報35を更に取得する。正解情報35は、人手により生成されてもよいし、或いは任意の機械的手法により生成されてもよい。一例では、正解情報35は、モデル生成装置1において生成されてよい。他の一例では、制御部11は、例えば、ネットワーク、記憶媒体91等を介して、他のコンピュータ又は外部記憶装置の記憶領域から正解情報35を取得してよい。なお、正解情報35を取得するタイミングは、このような例に限定されなくてよい。正解情報35を取得する処理は、後述するステップS104における推定器58の機械学習を実施する前までの任意のタイミングで実行されてよい。
【0119】
第1データ31、第2データ32及び正解情報35を取得すると、制御部11は、次のステップS102に処理を進める。
【0120】
(ステップS102)
ステップS102では、制御部11は、機械学習部112として動作し、取得された第1データ31及び第2データ32を使用して、第1エンコーダ51及び第2エンコーダ52の機械学習を実施する。上記のとおり、制御部11は、機械学習により、各ポジティブサンプルの特徴ベクトル間の第1距離が、各ポジティブサンプルの特徴ベクトルと対応するネガティブサンプルの特徴ベクトルとの間の第2距離より短くなるように、第1エンコーダ51及び第2エンコーダ52の演算パラメータの値を最適化する。
【0121】
この機械学習における最適化は、第1距離を小さくする調整及び第2距離を大きくする調整の少なくとも一方により構成されてよい。また、この機械学習において、制御部11は、各ポジティブサンプルの第1特徴ベクトル41p及び第2特徴ベクトル42pが互いに一致する(すなわち、第1距離が0に近付く)ように、第1エンコーダ51及び第2エンコーダ52の演算パラメータの値を最適化してもよい。
【0122】
当該機械学習の結果、同一の材料の第1データ及び第2データを特徴空間上の近い位置に写像し、異なる材料の第1データ及び第2データを遠い位置に写像する能力を獲得した訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52を生成することができる。第1エンコーダ51及び第2エンコーダ52の機械学習が完了すると、制御部11は、次のステップS103に処理を進める。
【0123】
(ステップS103)
ステップS103では、制御部11は、機械学習部112として動作し、第1データ31を使用して、第1デコーダ55の機械学習を実施する。上記のとおり、制御部11は、機械学習により、各第1データ31について、復元結果を示す出力値と対応する第1データ31との間の誤差の和が小さくなるように、第1デコーダ55の演算パラメータの値を最適化する。この機械学習の結果、第1エンコーダ51により得られる第1特徴ベクトルから対応する第1データを復元する能力を獲得した訓練済みの第1デコーダ55を生成することができる。
【0124】
また、制御部11は、機械学習部112として動作し、第2データ32を使用して、第2デコーダ56の機械学習を実施する。上記のとおり、制御部11は、機械学習により、各第2データ32について、復元結果を示す出力値と対応する第2データ32との間の誤差の和が小さくなるように、第2デコーダ56の演算パラメータの値を最適化する。この機械学習の結果、第2エンコーダ52により得られる第2特徴ベクトルから対応する第2データを復元する能力を獲得した訓練済みの第2デコーダ56を生成することができる。第1デコーダ55及び第2デコーダ56の機械学習が完了すると、制御部11は、次のステップS104に処理を進める。
【0125】
なお、第1デコーダ55及び第2デコーダ56それぞれの機械学習を実行するタイミングは、このような例に限定されなくてよい。他の一例では、第1デコーダ55及び第2デコーダ56の少なくとも一方の機械学習は、上記ステップS102の機械学習と同時に実行されてよい。第1デコーダ55の機械学習を上記ステップS102の機械学習と同時に実行する場合、制御部11は、上記復元の誤差に基づいて、第1エンコーダ51の演算パラメータの値も最適化してよい。第2デコーダ56の機械学習を上記ステップS102の機械学習と同時に実行する場合、制御部11は、上記復元の誤差に基づいて、第2エンコーダ52の演算パラメータの値も最適化してよい。
【0126】
また、第1デコーダ55の機械学習に使用される第1データ31は、各エンコーダ(51、52)の機械学習に使用され得る第1データ(31p、31n)とは完全には一致していなくてもよい。同様に、第2デコーダ56の機械学習に使用される第2データ32は、各エンコーダ(51、52)の機械学習に使用され得る第2データ(32p、32n)とは完全には一致していなくてもよい。
【0127】
(ステップS104)
ステップS104では、制御部11は、機械学習部112として動作し、複数のデータセットを使用して、推定器58の機械学習を実施する。上記のとおり、制御部11は、機械学習により、各データセットについて、第1データ31及び第2データ32の少なくとも一方から導出される推定結果の出力値と対応する正解情報35により示される真値との間の誤差の和が小さくなるように、推定器58の演算パラメータの値を最適化する。この機械学習の結果、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方から材料の特性を推定する能力を獲得した訓練済みの推定器58を生成することができる。推定器58の機械学習が完了すると、制御部11は、次のステップS105に処理を進める。
【0128】
なお、推定器58の機械学習を実行するタイミングは、このような例に限定されなくてよい。他の一例では、推定器58の機械学習は、第1デコーダ55及び第2デコーダ56の少なくとも一方の機械学習よりも前に実行されてよい。また、他の一例では、推定器58の機械学習は、上記ステップS102の機械学習と同時に実行されてよい。この場合に、推定器58が、第1特徴ベクトルから材料の特性を推定するように構成されるときには、制御部11は、上記推定の誤差に基づいて、第1エンコーダ51の演算パラメータの値も最適化してよい。同様に、推定器58が、第2特徴ベクトルから材料の特性を推定するように構成されるときには、制御部11は、上記推定の誤差に基づいて、第2エンコーダ52の演算パラメータの値も最適化してよい。
【0129】
また、推定器58の機械学習に使用され得る第1データ31及び第2データ32は、各エンコーダ(51、52)の機械学習に使用され得る第1データ(31p、31n)及び第2データ(32p、32n)とは完全には一致していなくてもよい。
【0130】
(ステップS105)
ステップS105では、制御部11は、保存処理部113として動作し、各機械学習により生成された訓練済みの機械学習モデル(第1エンコーダ51、第2エンコーダ52、第1デコーダ55、第2デコーダ56、及び推定器58)に関する情報を学習結果データ125として生成する。そして、制御部11は、生成された学習結果データ125を任意の記憶領域に保存する。
【0131】
学習結果データ125の保存先は、例えば、制御部11内のRAM、記憶部12、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、CD、DVD等であってよく、制御部11は、ドライブ17を介して記憶メディアに学習結果データ125を格納してもよい。外部記憶装置は、例えば、NAS(Network Attached Storage)等のデータサーバであってよい。この場合、制御部11は、通信インタフェース13を利用して、ネットワークを介してデータサーバに学習結果データ125を格納してもよい。また、外部記憶装置は、例えば、外部インタフェース14を介してモデル生成装置1に接続された外付けの記憶装置であってもよい。
【0132】
学習結果データ125の保存が完了すると、制御部11は、本動作例に係るモデル生成装置1の処理手順を終了する。
【0133】
なお、生成された学習結果データ125は、任意のタイミングでデータ処理装置2に提供されてよい。一例では、制御部11は、上記ステップS105の処理として又はステップS105の処理とは別に、学習結果データ125をデータ処理装置2に転送してもよい。データ処理装置2は、この転送を受信することで、学習結果データ125を取得してよい。他の一例では、データ処理装置2は、通信インタフェース23を利用して、モデル生成装置1又はデータサーバにネットワークを介してアクセスすることで、学習結果データ125を取得してもよい。他の一例では、データ処理装置2は、記憶媒体92を介して、学習結果データ125を取得してもよい。他の一例では、学習結果データ125は、データ処理装置2に予め組み込まれてもよい。
【0134】
また、制御部11は、上記ステップS101~ステップS105の処理を定期又は不定期に繰り返すことで、訓練済みの機械学習モデルを更新又は新たに作成してもよい。この場合、制御部11は、上記全ての機械学習モデルを更新又は新たに作成してもよい。或いは、制御部11は、一部の機械学習モデルのみ更新又は新たに作成してもよい。また、繰り返しの際、機械学習に使用し得る第1データ31及び第2データ32の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部11は、更新した又は新たに作成した学習結果データ125を任意の方法及びタイミングでデータ処理装置2に提供してよい。これにより、データ処理装置2の保持する学習結果データ125(訓練済みの機械学習モデル)は更新されてもよい。
【0135】
[データ処理装置]
(A)データ提示処理
図9は、本実施形態に係るデータ処理装置2による特徴ベクトルの提示に関する処理手順の一例を示すフローチャートである。以下の特徴ベクトルの提示に関する処理手順は、データ提示方法の一例である。データ処理プログラム82における以下の特徴ベクトルの提示に関する処理手順の命令部分は、データ提示プログラムの一例である。ただし、以下の特徴ベクトルの提示に関する処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の特徴ベクトルの提示に関する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0136】
(ステップS201)
ステップS201では、制御部21は、対象データ取得部211として動作し、複数の対象材料それぞれの結晶構造に関する第1データ61及び第2データ62の少なくとも一方を取得する。
【0137】
第1データ61及び第2データ62は、学習用の第1データ31及び第2データ32と同種である。第1データ31及び第2データ32と同様に、第1データ61及び第2データ62は、実際の測定により得られてもよいし、或いはシミュレーションにより得られてもよい。第1データ61を取得する場合に、取得される第1データ61の少なくとも一部は、学習用の第1データ31と重複してもよい。同様に、第2データ62を取得する場合に、取得される第2データ62の少なくとも一部は、学習用の第2データ32と重複してもよい。一例では、処理対象となる第1データ61及び第2データ62の少なくとも一方は、任意の方法でオペレータにより指定されてよい。
【0138】
一例では、制御部21は、第1データ61及び第2データ62の少なくとも一方を対応する測定装置から直接的に取得してもよいし、或いはシミュレーションの実行結果として取得してもよい。他の一例では、制御部21は、例えば、ネットワーク、記憶媒体92等を介して、他のコンピュータ又は外部記憶装置の記憶領域から第1データ61及び第2データ62の少なくとも一方を取得してよい。この場合に、両方を取得するケースにおいて、第1データ61及び第2データ62は、同一の記憶領域(記憶装置、記憶媒体)に保存されていてもよいし、或いは互いに異なる記憶領域に保存されていてもよい。取得する第1データ61及び第2データ62の少なくとも一方のサンプル数は、実施の形態に応じて適宜選択されてよい。
【0139】
各対象材料の第1データ61及び第2データ62の少なくとも一方を取得すると、制御部21は、次のステップS202に処理を進める。
【0140】
(ステップS202)
ステップS202では、制御部21は、変換部212として動作して、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を使用して、取得された第1データ61を第1特徴ベクトル71に変換する処理及び取得された第2データ62を第2特徴ベクトル72に変換する処理の少なくとも一方を実行する。
【0141】
具体的に、第1データ61を取得し、取得された第1データ61を第1特徴ベクトル71に変換する場合、制御部21は、学習結果データ125を参照して、訓練済みの第1エンコーダ51の設定を行う。そして、制御部21は、各対象材料の第1データ61を訓練済みの第1エンコーダ51に入力し、訓練済みの第1エンコーダ51の演算処理を実行する。この演算処理の結果、制御部21は、各対象材料の第1特徴ベクトル71を取得する。
【0142】
同様に、第2データ62を取得し、取得された第2データ62を第2特徴ベクトル72に変換する場合、制御部21は、学習結果データ125を参照して、訓練済みの第2エンコーダ52の設定を行う。そして、制御部21は、各対象材料の第2データ62を訓練済みの第2エンコーダ52に入力し、訓練済みの第2エンコーダ52の演算処理を実行する。この演算処理の結果、制御部21は、各対象材料の第2特徴ベクトル72を取得する。
【0143】
以上の処理により、各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方を取得すると、制御部21は、次のステップS203に処理を進める。
【0144】
(ステップS203)
ステップS203では、制御部21は、出力処理部215として動作し、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を空間VS上にマッピングする。空間VSは、特徴ベクトルの位置関係を表示するためのものである。
【0145】
一例では、制御部21は、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値をそのまま空間VSにマッピングしてもよい。他の一例では、制御部21は、得られた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を、当該各値の位置関係を維持するように低次元に変換した上で、変換された各値を空間VS上にマッピングしてよい。変換の一例として、各特徴ベクトル(71、72)の元の次元は、数10~1000程度であってよい。これに対して、変換後の次元は、2次元又は3次元であってよい。特徴ベクトルの位置関係を極力維持可能であれば、変換方法は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。変換方法には、例えば、t-SNE(t-distributed stochastic neighbor embedding)、NMF(non-negative matrix factorization)、PCA(principal component analysis)、ICA(independent component analysis)、Fast ICA(a fast algorithm for ICA)、MDS(multidimensional scaling)、Spectral Embedding、ランダムプロジェクション、UMAP(uniform manifold approximation and projection)等が採用されてよい。変換された各値をマッピングする空間VSは、例えば、可視化空間、低次元化された特徴空間等と称されてよい。
【0146】
空間VSに対する各特徴ベクトルのマッピングが完了すると、制御部21は、次のステップS204に処理を進める。
【0147】
(ステップS204)
ステップS204では、制御部21は、出力処理部215として動作し、空間VS上にマッピングされた各対象材料の第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を出力する。ステップS203の処理において、第1特徴ベクトル71及び第2特徴ベクトル72の少なくとも一方の各値を低次元に変換した場合、制御部21は、低次元に変換された特徴ベクトルの各値を出力する。
【0148】
出力先及び出力形式はそれぞれ、実施の形態に応じて適宜選択されてよい。出力先は、例えば、出力装置26、他のコンピュータの出力装置等であってよい。出力形式は、例えば、画面出力、印刷等であってよい。また、制御部21は、特徴ベクトルの出力に際して、任意の情報処理を実行してもよい。情報処理の一例として、制御部21は、複数の対象材料のうちから1つ以上の注目材料の選択を受け付けてよい。注目材料は、例えば、対象材料のリストから指定する、空間VS上に表示される特徴ベクトルを指定する等の方法により選択されてよい。そして、制御部21は、選択された注目材料を他の対象材料と区別して出力してよい。また、制御部21は、選択された注目材料の特徴ベクトルの近傍範囲に存在する特徴ベクトルの他の対象材料を一覧で出力してもよい。近傍の範囲は、適宜指定されてよい。近傍の範囲に存在する他の対象材料は、空間VS上で近い順にソートされた上で出力されてよい。
【0149】
特徴ベクトルの各値の出力が完了すると、制御部21は、本動作例に係るデータ提示に関する処理手順を終了する。なお、制御部21は、例えば、オペレータからの指令を受け付ける等の任意のタイミングで、上記ステップS201~ステップS204の処理を繰り返し実行してよい。この繰り返しの際、ステップS201で取得するデータ(第1データ61及び第2データ62の少なくとも一方)の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。これにより、ステップS204で出力されるデータが変更されてよい。
【0150】
(B)第1データから第2データを生成する処理
図10Aは、本実施形態に係るデータ処理装置2による第1データ63から第2データ64を生成する処理手順の一例を示すフローチャートである。以下のデータ生成に関する処理手順は、データ生成方法の一例である。データ処理プログラム82における以下のデータ生成の処理手順の命令部分は、データ生成プログラムの一例である。ただし、以下のデータ生成に関する処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下のデータ生成に関する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0151】
(ステップS301)
ステップS301では、制御部21は、対象データ取得部211として動作し、少なくとも1つ以上の対象材料の第1データ63を取得する。第1データ63は、学習用の第1データ31と同種である。第1データ31と同様に、第1データ63は、実際の測定により得られてもよいし、或いはシミュレーションにより得られてもよい。取得する第1データ63の件数は、実施の形態に応じて適宜決定されてよい。
【0152】
一例では、制御部21は、第1データ63を測定装置から直接的に取得してもよいし、或いはシミュレーションの実行結果として取得してもよい。他の一例では、制御部21は、例えば、ネットワーク、記憶媒体92等を介して、他のコンピュータ又は外部記憶装置の記憶領域から第1データ63を取得してよい。第1データ63を取得すると、制御部21は、次のステップS302に処理を進める。
【0153】
(ステップS302)
ステップS302では、制御部21は、変換部212として動作し、訓練済みの第1エンコーダ51を使用して、取得された第1データ63を第1特徴ベクトル73に変換する。具体的に、制御部21は、学習結果データ125を参照して、訓練済みの第1エンコーダ51の設定を行う。制御部21は、取得された第1データ63を訓練済みの第1エンコーダ51に入力し、訓練済みの第1エンコーダ51の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の第1特徴ベクトル73を取得する。第1特徴ベクトル73を取得すると、制御部21は、次のステップS303に処理を進める。
【0154】
(ステップS303)
ステップS303では、制御部21は、復元部213として動作し、訓練済みの第2デコーダ56を使用して、変換により得られた第1特徴ベクトル73の値及びその近傍の値の少なくとも一方から第2データ64を復元する。すなわち、制御部21は、ステップS302の処理により得られた第1特徴ベクトル73の値及びその近傍の値の少なくとも一方を第2特徴ベクトルの値として取り扱うことで、第2データ64の復元を遂行する。
【0155】
具体的に、制御部21は、学習結果データ125を参照して、訓練済みの第2デコーダ56の設定を行う。また、制御部21は、ステップS302の処理により得られた第1特徴ベクトル73の値及びその近傍の範囲から、訓練済みの第2デコーダ56に対する1つ以上の入力値を決定する。近傍の範囲は、適宜設定されてよい。一例として、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52を使用して、ポジションサンプルの上記第1距離の最大値が算出されてよい。近傍の範囲は、当該第1距離の最大値を基準に設定されてよい。制御部21は、得られた第1特徴ベクトル73の値をそのまま入力値として使用してよいし、得られた第1特徴ベクトル73の近傍値を入力値として使用してよい。近傍値は、第1特徴ベクトル73の近傍の範囲から適宜決定されてよい。
【0156】
そして、制御部21は、決定された入力値を訓練済みの第2デコーダ56に入力し、訓練済みの第2デコーダ56の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の第2データ64を生成する(すなわち、復元された第2データ64を訓練済みの第2デコーダ56から取得する)ことができる。本ステップS303の処理において、1つ以上の入力値が選択されることで、1件の第1データ63に対して1件以上の第2データ64が生成されてよい。第2データ64を生成すると、制御部21は、次のステップS304に処理を進める。
【0157】
(ステップS304)
ステップS304では、制御部21は、出力処理部215として動作し、生成された第2データ64を出力する。出力先及び出力形式はそれぞれ、実施の形態に応じて適宜選択されてよい。出力先は、例えば、RAM、記憶部22、出力装置26、他のコンピュータの出力装置、他のコンピュータの記憶領域等であってよい。出力形式は、例えば、データ出力、画面出力、印刷等であってよい。
【0158】
生成された第2データ64の出力が完了すると、制御部21は、本動作例に係るデータ生成に関する処理手順を終了する。なお、制御部21は、例えば、オペレータからの指令を受け取る等の任意のタイミングで、上記ステップS301~ステップS304の処理を繰り返し実行してよい。この繰り返しの際、ステップS301の処理では、処理対象となる第1データ63が適宜選択されてよい。
【0159】
(C)第2データから第1データを生成する処理
図10Bは、本実施形態に係るデータ処理装置2による第2データ65から第1データ66を生成する処理手順の一例を示すフローチャートである。以下のデータ生成に関する処理手順は、データ生成方法の一例である。データ処理プログラム82における以下のデータ生成の処理手順の命令部分は、データ生成プログラムの一例である。ただし、以下のデータ生成に関する処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下のデータ生成に関する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0160】
(ステップS401)
ステップS401では、制御部21は、対象データ取得部211として動作し、少なくとも1つ以上の対象材料の第2データ65を取得する。第2データ65は、学習用の第2データ32と同種である。第2データ32と同様に、第2データ65は、実際の測定により得られてもよいし、或いはシミュレーションにより得られてもよい。取得する第2データ65の件数は、実施の形態に応じて適宜決定されてよい。
【0161】
一例では、制御部21は、第2データ65を測定装置から直接的に取得してもよいし、或いはシミュレーションの実行結果として取得してもよい。他の一例では、制御部21は、例えば、ネットワーク、記憶媒体92等を介して、他のコンピュータ又は外部記憶装置の記憶領域から第2データ65を取得してよい。第2データ65を取得すると、制御部21は、次のステップS402に処理を進める。
【0162】
(ステップS402)
ステップS402では、制御部21は、変換部212として動作し、訓練済みの第2エンコーダ52を使用して、取得された第2データ65を第2特徴ベクトル75に変換する。具体的に、制御部21は、学習結果データ125を参照して、訓練済みの第2エンコーダ52の設定を行う。制御部21は、取得された第2データ65を訓練済みの第2エンコーダ52に入力し、訓練済みの第2エンコーダ52の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の第2特徴ベクトル75を取得する。第2特徴ベクトル75を取得すると、制御部21は、次のステップS403に処理を進める。
【0163】
(ステップS403)
ステップS403では、制御部21は、復元部213として動作し、訓練済みの第1デコーダ55を使用して、変換により得られた第2特徴ベクトル75の値及びその近傍の値の少なくとも一方から第1データ66を復元する。すなわち、制御部21は、ステップS402の処理により得られた第2特徴ベクトル75の値及びその近傍の値の少なくとも一方を第1特徴ベクトルの値として取り扱うことで、第1データ66の復元を遂行する。
【0164】
具体的に、制御部21は、学習結果データ125を参照して、訓練済みの第1デコーダ55の設定をおこなう。また、制御部21は、ステップS402の処理により得られた第2特徴ベクトル75の値及びその近傍の範囲から、訓練済みの第1デコーダ55に対する1つ以上の入力値を決定する。上記ステップS303と同様に、近傍の範囲は、適宜設定されてよい。一例として、近傍の範囲は、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52により算出される第1距離の最大値を基準に設定されてよい。制御部21は、得られた第2特徴ベクトル75の値をそのまま入力値として使用してよいし、得られた第2特徴ベクトル75の近傍値を入力値として使用してよい。近傍値は、第2特徴ベクトル75の近傍の範囲から適宜決定されてよい。
【0165】
そして、制御部21は、決定された入力値を訓練済みの第1デコーダ55に入力し、訓練済みの第1デコーダ55の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の第1データ66を生成する(すなわち、復元された第1データ66を訓練済みの第1デコーダ55から取得する)ことができる。本ステップS403の処理において、1つ以上の入力値が選択されることで、1件の第2データ65に対して1件以上の第1データ66が生成されてよい。第1データ66を生成すると、制御部21は、次のステップS404に処理を進める。
【0166】
(ステップS404)
ステップS404では、制御部21は、出力処理部215として動作し、生成された第1データ66を出力する。出力先及び出力形式はそれぞれ、実施の形態に応じて適宜選択されてよい。出力先は、例えば、RAM、記憶部22、出力装置26、他のコンピュータの出力装置、他のコンピュータの記憶領域等であってよい。出力形式は、例えば、データ出力、画面出力、印刷等であってよい。
【0167】
生成された第1データ66の出力が完了すると、制御部21は、本動作例に係るデータ生成に関する処理手順を終了する。なお、制御部21は、例えば、オペレータからの指令を受け取る等の任意のタイミングで、上記ステップS401~ステップS404の処理を繰り返し実行してよい。この繰り返しの際、ステップS401の処理では、処理対象となる第2データ65が適宜選択されてよい。
【0168】
(D)特性推定処理
図11は、本実施形態に係るデータ処理装置2による対象材料の特性推定に関する処理手順の一例を示すフローチャートである。以下の特性推定に関する処理手順は、推定方法の一例である。データ処理プログラム82における以下の特性推定に関する処理手順の命令部分は、推定プログラムの一例である。ただし、以下の特性推定に関する処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の特性推定に関する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0169】
(ステップS501)
ステップS501では、制御部21は、対象データ取得部211として動作し、対象材料の結晶構造に関する第1データ67及び第2データ68の少なくとも一方を取得する。第1データ67及び第2データ68は、学習用の第1データ31及び第2データ32と同種である。第1データ31及び第2データ32と同様に、第1データ67及び第2データ68は、実際の測定により得られてもよいし、或いはシミュレーションにより得られてもよい。
【0170】
一例では、制御部21は、第1データ67及び第2データ68の少なくとも一方を対応する測定装置から直接的に取得してもよいし、或いはシミュレーションの実行結果として取得してもよい。他の一例では、制御部21は、例えば、ネットワーク、記憶媒体92等を介して、他のコンピュータ又は外部記憶装置の記憶領域から第1データ67及び第2データ68の少なくとも一方を取得してよい。対象材料の第1データ67及び第2データ68の少なくとも一方を取得すると、制御部21は、次のステップS502に処理を進める。
【0171】
(ステップS502)
ステップS502では、制御部21は、変換部212として動作し、訓練済みの第1エンコーダ51を使用して取得された第1データ67を第1特徴ベクトル77に変換する処理、及び訓練済みの第2エンコーダ52を使用して取得された第2データ68を第2特徴ベクトル78に変換する処理の少なくとも一方を実行する。
【0172】
具体的に、訓練済みの推定器58が第1特徴ベクトルから対象材料の特性を推定するように構成される場合、制御部21は、学習結果データ125を参照して、訓練済みの第1エンコーダ51の設定を行う。制御部21は、取得された第1データ67を訓練済みの第1エンコーダ51に入力し、訓練済みの第1エンコーダ51の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の第1特徴ベクトル77を取得する。
【0173】
同様に、訓練済みの推定器58が第2特徴ベクトルから対象材料の特性を推定するように構成される場合、制御部21は、学習結果データ125を参照して、訓練済みの第2エンコーダ52の設定を行う。制御部21は、取得された第2データ68を訓練済みの第2エンコーダ52に入力し、訓練済みの第2エンコーダ52の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の第2特徴ベクトル78を取得する。
【0174】
以上の処理により、対象材料の第1特徴ベクトル77及び第2特徴ベクトル78の少なくとも一方を取得すると、制御部21は、次のステップS503に処理を進める。
【0175】
(ステップS503)
ステップS503では、制御部21は、推定部214として動作し、訓練済みの推定器58を使用して、得られた第1特徴ベクトル77及び第2特徴ベクトル78の少なくとも一方の値から対象材料の特性を推定する。具体的に、制御部21は、学習結果データ125を参照して、訓練済みの推定器58の設定を行う。制御部21は、取得された第1特徴ベクトル77及び第2特徴ベクトル78の少なくとも一方の値を訓練済みの推定器58に入力し、訓練済みの推定器58の演算処理を実行する。この演算処理の結果、制御部21は、対象材料の特性を推定した結果に対応する出力値を訓練済みの推定器58から取得する。推定結果を取得すると、制御部21は、次のステップS504に処理を進める。
【0176】
(ステップS504)
ステップS504では、制御部21は、出力処理部215として動作し、対象材料の特性を推定した結果に関する情報を出力する。出力先及び出力形式はそれぞれ、実施の形態に応じて適宜選択されてよい。出力先は、例えば、RAM、記憶部22、出力装置26、他のコンピュータの出力装置、他のコンピュータの記憶領域等であってよい。出力形式は、例えば、データ出力、画面出力、音声出力、印刷等であってよい。
【0177】
対象材料の特性を推定した結果の出力が完了すると、制御部21は、本動作例に係る特性推定に関する処理手順を終了する。なお、制御部21は、例えば、オペレータからの指令を受け取る等の任意のタイミングで、上記ステップS501~ステップS504の処理を繰り返し実行してよい。この繰り返しの際、ステップS501の処理では、処理対象となる第1データ67及び第2データ68の少なくとも一方が適宜選択されてよい。
【0178】
[特徴]
以上のとおり、本実施形態では、同一の材料か否かにより、機械学習に使用するポジティブサンプル及びネガティブサンプルを用意可能である。そのため、モデル生成装置1において、上記ステップS101及びステップS102により、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52を低コストで生成可能である。データ処理装置2では、上記ステップS201~ステップS204の処理により、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を使用することで、複数の対象材料それぞれの第1データ61及び第2データ62の少なくとも一方を特徴空間に写像することができる。この特徴空間では、特徴ベクトルの位置関係により、材料の類似性を評価することができる。この評価結果に基づいて、材料の新たな知見を得ることができる。
【0179】
本実施形態では、結晶構造の局所的観点に基づいて材料の性質を示すデータを第1データ31として採用し、全体の俯瞰的観点に基づいて材料の性質を示すデータを第2データ32として採用してもよい。これにより、局所的観点及び俯瞰的観点の両方の観点から材料の類似性を評価可能な特徴空間に各データを写像する能力を獲得した訓練済みの各エンコーダ(51、52)を生成することができる。データ処理装置2では、上記ステップS201~ステップS204の処理において、そのような訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方を使用することで、材料の新たな知見をより精度よく得ることができる。
【0180】
また、本実施形態では、モデル生成装置1において、上記ステップS103の処理により、第1データを復元する能力を獲得した訓練済みの第1デコーダ55を生成することができる。これにより、データ処理装置2において、上記ステップS401~ステップS403の処理により、生成された訓練済みの第2エンコーダ52及び訓練済みの第1デコーダ55を使用して、第2データでは既知であるが第1データでは未知の材料に関して、対象材料の第2データから妥当な第1データを生成することができる。
【0181】
また、本実施形態では、モデル生成装置1において、上記ステップS103の処理により、第2データを復元する能力を獲得した訓練済みの第2デコーダ56を生成することができる。これにより、データ処理装置2において、上記ステップS301~ステップS303の処理により、生成された訓練済みの第1エンコーダ51及び訓練済みの第2デコーダ56を使用して、第1データでは既知であるが第2データでは未知の材料に関して、対象材料の第1データから妥当な第2データを生成することができる。
【0182】
また、本実施形態では、モデル生成装置1において、上記ステップS104の処理により、第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方から材料の特性を推定する能力を獲得した訓練済みの推定器58を生成することができる。これにより、データ処理装置2において、上記ステップS501~ステップS503の処理により、訓練済みの第1エンコーダ51及び訓練済みの第2エンコーダ52の少なくとも一方と訓練済みの推定器58とを使用して、第1データ及び第2データの少なくとも一方から対象材料の特性を推定することができる。
【0183】
なお、本実施形態において、学習用の材料全てに正解情報35を与えてもよいが、訓練済みの各エンコーダ(51、52)により写像される特徴空間には、材料の類似性に関する情報が込められている。推定器58は、当該特徴空間上の特徴ベクトルから材料の特性を推定するように構成されているため、材料の特性を推定する際にその情報を考慮することができる。そのため、全ての材料について正解情報35を与えなくても、材料の特性を精度よく推定可能な訓練済みの推定器58を生成することができる。したがって、本実施形態によれば、材料の特性を精度よく推定可能な訓練済みの推定器58を低コストで生成可能である。
【0184】
§4 変形例
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。
【0185】
<4.1>
上記実施形態では、データ、エンコーダ、及びデコーダに関して、「第1」及び「第2」と言及している。しかしながら、これらの言及は、これらの構成要素の数を2つに限ることを示すものではない。すなわち、「第3」以降のデータ、エンコーダ、及びデコーダが登場してもよい。
【0186】
図12は、「第3」以降の構成要素が登場する場面の一例として、他の形態に係るエンコーダの構成の一例を模式的に示す。
図12の一例では、第1エンコーダ51及び第2エンコーダ52に加えて、第1特徴ベクトル及び第2特徴ベクトルと同一次元の第3特徴ベクトルに第3データを変換するように構成される第3エンコーダ53が存在する。第3データは、第1データ及び第2データと同様に、材料の結晶構造に関する情報を示すものである。
【0187】
本変形例において、モデル生成装置1は、材料の結晶構造に関する複数種類のデータを取得してよい。各種類のデータは、他の種類のデータとは異なる指標で材料の性質を示してよい。取得された学習用の複数種類のデータは、複数のポジティブサンプル及びネガティブサンプルを含んでよい。各ポジティブサンプルは、同一材料についての複数種類のデータの組み合わせにより構成されてよい。各ネガティブサンプルは、対応するポジションサンプルの材料とは異なる材料についての複数種類のデータの少なくともいずれかにより構成されてよい。
【0188】
モデル生成装置1は、取得された複数種類のデータを使用して、複数のエンコーダの機械学習を実施してよい。各種類のデータには、少なくとも1つのエンコーダが対応してよい。各エンコーダは、複数種類のデータのいずれかの種類に対応し、対応する種類のデータを他のエンコーダと同一次元の特徴ベクトルに変換するように構成されてよい。複数のエンコーダの機械学習は、各エンコーダを使用することで、各ポジティブサンプルの複数種類のデータより算出される複数の特徴ベクトルの値同士が近くに位置付けられ、かつ各ネガティブサンプルの複数種類のデータの少なくともいずれかより算出される特徴ベクトルの値が、対応するポジティブサンプルより算出される複数の特徴ベクトルの少なくともいずれかの値から遠くに位置付けられるように、複数のエンコーダを訓練することにより構成されてよい。上記実施形態における第1データ31及び第2データ32はそれぞれ、複数種類のデータのいずれかであってよい。第1エンコーダ51及び第2エンコーダ52はそれぞれ、複数のエンコーダのうちのいずれかであってよい。
【0189】
データ処理装置2は、複数の対象材料それぞれの結晶構造に関する複数種類のデータの少なくともいずれかを取得してよい。データ処理装置2は、複数の訓練済みのエンコーダの少なくともいずれかを使用して、取得された各対象材料の複数種類のデータの少なくともいずれかを特徴ベクトルに変換してよい。データ処理装置2は、得られた各対象材料の特徴ベクトルの値を空間VS上にマッピングし、空間VS上にマッピングされた特徴ベクトルの各値を出力してよい。
【0190】
また、モデル生成装置1は、各エンコーダに対応して、少なくとも1つのデコーダの機械学習を実施してよい。少なくとも1つのデコーダの機械学習は、対応するエンコーダを使用することで対応する種類のデータより算出される特徴ベクトルから少なくとも1つのデコーダにより対応する種類のデータを復元した結果が当該対応する種類のデータに適合するように、少なくとも1つのデコーダを訓練することにより構成されてよい。これに対応して、データ処理装置2は、複数種類のデータのうちの対象データ(上記第1データ63/第2データ65)から他のデータ(第2データ64/第1データ66)を生成してよい。
【0191】
また、モデル生成装置1は、機械学習により、複数の特徴ベクトルの少なくともいずれかから材料の特性を推定する能力を獲得した訓練済みの推定器を生成してよい。推定器の機械学習は、複数のエンコーダの少なくともいずれかを使用して複数種類のデータの少なくともいずれかから算出される複数の特徴ベクトルの少なくともいずれかから材料の特性を推定器により推定した結果が対応する正解情報により示される真値に適合するように、推定器を訓練することにより構成されてよい。これに対応して、データ処理装置2は、複数種類のデータのうちの少なくともいずれかから対象材料の特性を推定してよい。
【0192】
<4.2>
上記実施形態に係るデータ処理装置2において、データ提示処理、第1データから第2データを生成する処理、第2データから第1データを生成する処理、及び推定処理のうちの少なくともいずれかは省略されてよい。
【0193】
第1データから第2データを生成する処理を省略する場合、モデル生成装置1において、ステップS103における訓練済みの第2デコーダ56を生成する処理は省略されてよい。学習結果データ125から訓練済みの第2デコーダ56に関する情報が省略されてよい。
【0194】
第2データから第1データを生成する処理を省略する場合、モデル生成装置1において、ステップS103における訓練済みの第1デコーダ55を生成する処理は省略されてよい。学習結果データ125から訓練済みの第1デコーダ55に関する情報が省略されてよい。
【0195】
推定処理を省略する場合、モデル生成装置1において、訓練済みの推定器58を生成する処理(ステップS104)は省略されてよい。学習結果データ125から訓練済みの推定器58に関する情報が省略されてよい。
【0196】
データ処理装置2において、訓練済みの第1エンコーダ51を使用しない場合、学習結果データ125から訓練済みの第1エンコーダ51に関する情報が省略されてよい。データ処理装置2において、訓練済みの第2エンコーダ52を使用しない場合、学習結果データ125から訓練済みの第2エンコーダ52に関する情報が省略されてよい。
【0197】
各処理の省略に対応して、モデル生成装置1及びデータ処理装置2の各ソフトウェアモジュールにおいて、該当処理を実行するための構成要素は省略されてよい。一例として、データ提示処理を省略する場合、データ処理装置2のソフトウェア構成において、対象データ取得部211、変換部212、及び出力処理部215のデータ提示処理に関する部分は省略されてよい。他の一例として、両方のデータ生成処理を省略する場合、モデル生成装置1のソフトウェア構成において、訓練済みの第1デコーダ55及び訓練済みの第2デコーダ56を生成する部分は省略されてよい。データ処理装置2のソフトウェア構成において、対象データ取得部211、変換部212及び出力処理部215のデータ生成処理に関する部分並びに復元部213は省略されてよい。他の一例として、推定処理を省略する場合、モデル生成装置1のソフトウェア構成において、訓練済みの推定器58を生成する部分は省略されてよい。データ処理装置2のソフトウェア構成において、対象データ取得部211、変換部212及び出力処理部215の推定処理に関する部分並びに推定部214は省略されてよい。
【0198】
また、データ提示処理、第1データから第2データを生成する処理、第2データから第1データを生成する処理、及び推定処理のうちの少なくともいずれかは、別のコンピュータで実行されてよい。一例として、データ提示処理、第1データから第2データを生成する処理、第2データから第1データを生成する処理、及び推定処理はそれぞれ別々のコンピュータで実行されてよい。この場合、各処理を実行するコンピュータは、上記データ処理装置2と同様に構成されてよい。
【0199】
<4.3>
上記実施形態では、訓練済みの推定器58が生成される。この訓練済みの推定器58に対応して、対象材料の特性を示す情報から第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方を推定する訓練済みの変換器が生成されてよい。訓練済みの変換器は、推定器58の入出力を反対にした機械学習により生成可能である。すなわち、変換器の機械学習は、正解情報35により示される特性から変換器により推定される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方が、第1エンコーダ51及び第2エンコーダ52の少なくとも一方を使用して、対応する第1データ31及び第2データ32の少なくとも一方から算出される第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方に適合するように、変換器を訓練することにより構成されてよい。訓練済みの変換器は、モデル生成装置1により生成されてもよいし、或いは他のコンピュータにより生成されてもよい。
【0200】
これにより、訓練済みの変換器を使用して、対象の特性を示す情報から当該対象の特性を有する材料の第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方が推定されてよい。そして、訓練済みの第1デコーダ55及び訓練済みの第2デコーダ56の少なくとも一方を使用することで、推定された第1特徴ベクトル及び第2特徴ベクトルの少なくとも一方から第1データ及び第2データの少なくとも一方を復元してよい。この材料の特性からデータを復元する処理は、データ処理装置2により実行されてもよいし、他のコンピュータにより実行されてもよい。
【0201】
§5 実験例
本発明の有効性を検証するために、以下の実験例に係る訓練済みの第1エンコーダ及び訓練済みの第2エンコーダを生成した。ただし、本発明は、以下の実験例に限定されるものではない。
【0202】
(1)第1実験例
まず、Materials Project database(https://materialsproject.org/)に登録されている無機材料データから、5種類以下の元素により構成される122,543個の無機材料データを収集(ダウンロード)した。収集した無機材料データに含まれる三次元原子位置データを第1データとして採用した。また、この三次元原子位置データからブラッグの法則によるシミュレーション(Pythonライブラリ「pymatgen」を使用)により得られたX線回折データを第2データとして採用した。そして、上記実施形態と同様の方法により、第1実験例に係る訓練済みの第1エンコーダ及び訓練済みの第2エンコーダを生成した。第1エンコーダには、畳み込み層を有する畳み込みニューラルネットワーク(参考文献:Charles R. Qi, Li Yi Hao Su, Leonidas J. Guibas, "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", 31st Conference on Neural Information Processing Systems (NIPS 2017)/ Tian Xie, Jeffrey C. Grossman, "Crystal Graph Convolutional Neural Networks for an Accurate and Interpretable Prediction of Material Properties", Phys. Rev. Lett. 120, 145301, 6 April 2018)を採用した。第2エンコーダには、1次元の畳み込みニューラルネットワークを採用した。各エンコーダは、1024次元の特徴ベクトルに各データを変換するように構成した。各エンコーダの機械学習における損失関数には、Triplet Lossを採用した。具体的には、以下の式1~式3の演算により誤差Lを計算し、誤差逆伝播法により、各エンコーダのパラメータを最適化した。
【0203】
【数1】
【数2】
【数3】
なお、xは、第1データを示し、yは、第2データを示す。(x
i,y
i)の組み合わせは、ポジティブサンプルを示す。x
i´及びy
i´はそれぞれ、ネガティブサンプルを示す。
【0204】
生成された訓練済みの第1エンコーダを使用して、機械学習に使用した各材料の第1データ(三次元原子位置データ)を第1特徴ベクトルに変換した。次に、t-SNEにより、各第1特徴ベクトルの次元を1024次元から2次元に変換し、2次元の可視化空間に各特徴ベクトルの値をマッピングし、画面出力を行った。そして、(A)グローバルな分布の分析、(B)ローカルな近傍分析の2つの方法により、得られたマップ(データ分布)を分析した。
【0205】
(A)グローバルな分布の分析
各材料に対応する要素がマップ上でどのように分布しているかを確認するため、得られたマップにおいて、周期表の各元素を含む材料に対応する要素が存在する範囲を分析した。また、得られたマップにおいて、物理特性の値に応じて各要素を色分けすることで、各要素の分布と物理特性(energy above the hull、バンドギャップ、磁化)との対応関係を分析した。
【0206】
図13は、得られたマップにおいて、周期表の各元素を含む材料に対応する要素が存在する範囲を確認した結果を示す。
図14A~
図14Cは、得られたマップにおいて、物理特性(
図14A:energy above the hull、
図14B:バンドギャップ、
図14C:磁化)の値に応じて各要素を色分けした結果を示す。なお、
図13における「n.a.」は、対応する要素が存在しないことを示す。
【0207】
図13に示されるとおり、周期表の垂直方向及び水平方向それぞれで、各元素を含む材料に対応する要素の存在範囲は類似していた。この結果から、得られたマップは、各材料における元素のふるまいの類似性を適切に捉えていることが分かった。また、
図14A~
図14Cに示されるとおり、得られたマップ上で、類似する物理特性を有する要素がクラスタを形成していた。例えば、
図14Aに示されるとおり、マップの左上部分に、エネルギーの値の大きい不安定な化合物のクラスタが確認された。この他、
図14B及び
図14Cの結果では、バンドギャップ又は磁化の値が類似した物質が複数のクラスタを形成しており、各クラスタは類似した構造又は組成をもつ物質の集団であることが確認された。例えば、
図14Bの結果では、マップ全体を通じて、バンドギャップの低い金属類及びバンドギャップの高い非金属類が、それぞれ大きなクラスタを形成することが確認された。また、
図14Cの結果では、マップの右上部に、強い磁化性を有する希土類永久磁石材料のクラスタが確認された。これらの結果から、得られたマップは、各材料の物理特性の類似性も適切に捉えていることが分かった。
【0208】
(B)ローカルな近傍分析
次に、得られたマップ上で各要素の近傍にどのような要素が配置されているか(すなわち、マップが材料の類似性を捉えているか)を確認するため、選択した2つの材料「Hg-1223(HgBa2Ca2Cu3O8)」及び「LiCoO2」それぞれをクエリとして使用し、当該クエリの近傍に存在する材料を検索した。
【0209】
また、参考文献「Faber, F., Lindmaa, A., von Lilienfeld, O. A. & Armiento, R. "Crystal structure representations for machine learning models of formation energies". Int. J. Quantum Chem. 115, 1094?1101 (2015)」で提案された2種類の記述子「Ewald Sum Matrix」及び「Sine Coulomb Matrix」を使用して、第1比較例及び第2比較例に係る特徴ベクトル(各材料の特徴量表現)を生成した。この特徴ベクトルは、行列で表現される2種類の記述子から、行列の固有値を絶対値が大きい順に並べた固有値ベクトルを計算することで生成した。そして、各比較例に係る特徴ベクトルを使用して、各クエリの近傍に存在する材料を検索した。
【0210】
【0211】
表1は、第1実験例及び各比較例により、クエリ「Hg-1223」に対して抽出された第1番目から第50番目までの近傍の材料を示す。
図15Aは、クエリ「Hg-1223」の組成を示す。
図15Bは、第1実験例により、最も近傍(第1番目)で抽出された材料「Hg-1234(HgBa
2Ca
3Cu
4O
10)」の組成を示す。
図15Cは、第1実験例により、第2番目に近傍で抽出された材料「Hg-1212(HgBa
2CaCu
2O
6)」の組成を示す。
【0212】
クエリ「Hg-1223」は、臨界温度Tcが最も高い既知の超伝導体である。第1実験例では、当該クエリの第1近傍及び第2近傍において、臨界温度Tcの高い超伝導体「Hg-1234」及び「Hg-1212」が抽出された。
図15A~
図15Cに示されるとおり、第1近傍及び第2近傍として抽出された「Hg-1234」及び「Hg-1212」は、クエリ「Hg-1223」と類似する構造を有するものである。また、第1実施例では、臨界温度Tcの高いTlベースの超伝導体「Tl-2234」(第4番目)、「Tl-2212」(第6番目)、「Tl-1234」(第7番目)、及び「Tl-1212」(第19番目)が抽出された。更に、第1実施例では、上記50位までに抽出された近傍材料の殆どは超伝導体であった。これに対して、各比較例の方法では、超伝導体ではなく無関係な材料も比較的多く抽出された。
【0213】
【0214】
表2は、第1実験例及び各比較例により、クエリ「LiCoO
2」に対して抽出された第1番目から第50番目までの近傍の材料を示す。
図16Aは、クエリ「LiCoO
2」の組成を示す。
図16Bは、第1実験例により、最も近傍(第1番目)で抽出された材料「LiCuO
2」の組成を示す。
図16Cは、第1実験例により、第2番目に近傍で抽出された材料「LiNiO
2」の組成を示す。
【0215】
クエリ「LiCoO
2」は、リチウムイオン電池の最も重要なカソード材料の一つである。第1実験例では、当該クエリの第1近傍及び第2近傍において、クエリと同じ層状構造を有するが、遷移金属元素が異なる材料「LiCuO
2」及び「LiNiO
2」が抽出された(
図16A~
図16C参照)。第1実施例では、上位7番目までの近傍材料は、クエリと同じ層状構造を有するが、含まれる遷移金属元素が異なるものであった。これら近傍材料には、実際に重要なリチウムイオン電池材料「LiNiO2」及び「LiFeO2」が含まれていた。つまり、第1実施例では、他の重要なリチウムイオン電池材料を「LiCoO
2」から抽出することができた。また、第1実施例では、上位50位までに抽出された近傍材料の殆どは、リチウム酸化物であった。これに対して、各比較例の方法では、一貫性のない材料が抽出された。
【0216】
(C)小括
以上の2つの方法の分析結果から、材料の構造等の特性を示す情報を与えていないにも関わらず、訓練済みのエンコーダにより写像される特徴空間上の位置関係に基づいて、材料の特性の類似性を評価できることが分かった。すなわち、上記機械学習によれば、材料の特性を示す情報を与えなくても、結晶構造に関するデータを、材料の特性の類似性を発見可能な特徴空間に写像する能力を獲得した訓練済みのエンコーダを生成可能であることが分かった。この結果、訓練済みのエンコーダによれば、新たな材料の特性、有望な代替材料の検索等の新たな知見を得られる可能性があることが分かった。
【0217】
(2)第2実験例
訓練に用いる材料の数を98,035個(全データの80%)に変更した点を除き、上記第1実験例と同様の条件で、第2実験例に係る訓練済みの第1エンコーダ及び訓練済みの第2エンコーダを生成した。生成された訓練済みの第1エンコーダを使用して、訓練に用いていない24,508個(全データの20%)の各材料の第1データを第1特徴ベクトルに変換し、上記第1実験例と同様のマップを生成した。また、生成された訓練済みの第2エンコーダを使用して、同じく24,508個の各材料の第2データを第2特徴ベクトルに変換した。そして、得られた各材料の第2特徴ベクトルをクエリとして使用して、生成した第1特徴ベクトルのマップにおいて、クエリの近傍要素(材料)を抽出した。これにより、第1特徴ベクトルのマップ上で、第2特徴ベクトルによるクエリと同一の材料を検索することができるか否かを評価した。
【0218】
評価の結果、上位1位で同一の材料が抽出される確率は、56.628%であった。上位5位までに同一の材料が抽出される確率は、95.203%であった。上位10位までに同一の材料が抽出される確率は、99.078%であった。なお、得られたマップ上において、ランダムに要素を抽出した場合、同一の材料が抽出される確率は、0.0041%(1/24,508)である。そのため、上記機械学習により生成される訓練済みの第1エンコーダ及び訓練済みの第2エンコーダによれば、同一材料の第1データ及び第2データそれぞれを高確率で近傍範囲に写像可能であることが分かった。つまり、同一材料の第1特徴ベクトル及び第2特徴ベクトルは互いに類似する値になり、置き換え可能であることが分かった。この結果から、各エンコーダに対応する訓練済みのデコーダを生成すれば、情報を大きく損なうことなく、第1データ及び第2データの一方から他方を生成可能であることが分かった。
【0219】
(3)補足
なお、各実験例では、三次元原子位置データを第1データに採用し、X線回折データを第2データに採用した。三次元原子位置データは、材料の結晶の局所構造に関する情報を示すデータの一種である。X線回折データは、材料の結晶構造の周期性に関する情報を示すデータの一種である。そのため、材料の結晶の局所構造に関する情報を示すデータであって、三次元原子位置データ以外のデータを第1データに採用し、材料の結晶構造の周期性に関する情報を示すデータであって、X線回折データ以外のデータを第2データに採用しても、上記と同様の結果が得られることが推測された。材料の結晶の局所構造に関する情報を示す他のデータとして、例えば、ラマン分光データ、核磁気共鳴分光データ、赤外分光データ、質量分析データ、X線吸収分光データ等を挙げることができる。材料の結晶構造の周期性に関する情報を示す他のデータとして、例えば、中性子回折データ、電子線回折データ、全散乱データ等を挙げることができる。
【0220】
また、必ずしも結晶構造の局所的観点及び俯瞰的観点の両方に基づかなくても、材料の性質を評価することは可能である。そのため、第1データ及び第2データは、互いに異なる指標で材料の性質を示すものでさえあれば、材料の結晶の局所構造に関する情報を示すデータを第1データとして採用しなくても、又は材料の結晶構造の周期性に関する情報を示すデータを第2データとして採用しなくても、上記と同様の結果が得られる可能性があることが推測された。
【符号の説明】
【0221】
1…モデル生成装置、
11…制御部、12…記憶部、13…通信インタフェース、
14…外部インタフェース、
15…入力装置、16…出力装置、17…ドライブ、
81…生成プログラム、91…記憶媒体、
111…学習データ取得部、112…機械学習部、
113…保存処理部、
125…学習結果データ、
2…データ処理装置、
21…制御部、22…記憶部、23…通信インタフェース、
24…外部インタフェース、
25…入力装置、26…出力装置、27…ドライブ、
82…データ処理プログラム、92…記憶媒体、
211…対象データ取得部、212…変換部、
213…復元部、214…推定部、215…出力処理部、
31…第1データ、32…第2データ、35…正解情報、
41…第1特徴ベクトル、42…第2特徴ベクトル、
51…第1エンコーダ、52…第2エンコーダ、
55…第1デコーダ、56…第2デコーダ、
58…推定器、
61…第1データ、62…第2データ、
71…第1特徴ベクトル、72…第2特徴ベクトル、
63…第1データ、64…第2データ、
73…第1特徴ベクトル、
65…第2データ、66…第1データ、
75…第2特徴ベクトル、
67…第1データ、68…第2データ、
77…第1特徴ベクトル、78…第2特徴ベクトル