(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-07
(45)【発行日】2025-07-15
(54)【発明の名称】機械学習プログラム、機械学習方法および情報処理装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20250708BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2024515220
(86)(22)【出願日】2022-04-12
(86)【国際出願番号】 JP2022017636
(87)【国際公開番号】W WO2023199413
(87)【国際公開日】2023-10-19
【審査請求日】2024-07-12
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】福田 茂紀
(72)【発明者】
【氏名】樋口 博之
(72)【発明者】
【氏名】浅井 達哉
(72)【発明者】
【氏名】岩下 洋哲
【審査官】佐藤 直樹
(56)【参考文献】
【文献】国際公開第2009/025045(WO,A1)
【文献】特開2020-077206(JP,A)
【文献】特開2005-194254(JP,A)
【文献】特開平05-342191(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
物質の原子配列に基づいて、物質の表面構造に関連する特徴量を抽出し、
前記物質の原子配列に関する原子配列情報と、抽出した前記特徴量とを説明変数として含み、前記物質に生じる化学反応に関する情報を目的変数として含む訓練データを用いて、入力された説明変数に対応する物質に生じる化学反応に関する情報を予測する機械学習モデルの訓練を実行
し、
前記機械学習モデルの訓練が完了した場合に、前記説明変数に設定される前記特徴量それぞれと、前記目的変数に与える影響度との因果関係を抽出する、
処理を実行させることを特徴とする機械学習プログラム。
【請求項2】
前記抽出する処理は、
触媒に関する化学シミュレーションにより得られる前記原子配列情報と、前記物質の表面特徴の条件定義とにしたがって、前記物質の表面構造に関連する特徴量を抽出し、
前記訓練を実行する処理は、
前記原子配列情報と前記特徴量とから、前記触媒の化学的特性を表す特徴量を示す記述子の組合せを生成し、
前記記述子の組合せを説明変数、前記化学反応に関する情報を目的変数とする前記訓練データを用いて、前記機械学習モデルを生成する、
ことを特徴とする請求項
1に記載の機械学習プログラム。
【請求項3】
前記抽出する処理は、
触媒に関する化学シミュレーションにより得られる前記原子配列情報と、前記物質の表面特徴の条件定義とにしたがって、前記触媒の3次元構造に関する特徴を、前記特徴量として抽出する、
ことを特徴とする請求項
2に記載の機械学習プログラム。
【請求項4】
前記抽出する処理は、
前記記述子ごとに、前記記述子と前記目的変数に与える影響度との因果関係を抽出する、ことを特徴とする請求項
2に記載の機械学習プログラム。
【請求項5】
前記触媒の物性構造の模式図を出力し、
前記模式図において、所定値以上の因果関係を有する原子または格子点に対して、前記因果関係の内容に応じた強調表示を実行する、
処理を前記コンピュータに実行させることを特徴とする請求項
2に記載の機械学習プログラム。
【請求項6】
予測対象の触媒に関する予測対象データから、前記原子配列情報と前記物質の表面特徴の条件定義とにしたがって、前記特徴量を抽出し、
前記予測対象データから生成された前記原子配列情報と前記特徴量とを、前記機械学習モデルに入力して、前記予測対象の触媒に関する前記触媒に分析における化学反応を予測する、
処理を前記コンピュータに実行させることを特徴とする請求項
2に記載の機械学習プログラム。
【請求項7】
コンピュータが、
物質の原子配列に基づいて、物質の表面構造に関連する特徴量を抽出し、
前記物質の原子配列に関する原子配列情報と、抽出した前記特徴量とを説明変数として含み、前記物質に生じる化学反応に関する情報を目的変数として含む訓練データを用いて、入力された説明変数に対応する物質に生じる化学反応に関する情報を予測する機械学習モデルの訓練を実行
し、
前記機械学習モデルの訓練が完了した場合に、前記説明変数に設定される前記特徴量それぞれと、前記目的変数に与える影響度との因果関係を抽出する、
処理を実行することを特徴とする機械学習方法。
【請求項8】
物質の原子配列に基づいて、物質の表面構造に関連する特徴量を抽出し、
前記物質の原子配列に関する原子配列情報と、抽出した前記特徴量とを説明変数として含み、前記物質に生じる化学反応に関する情報を目的変数として含む訓練データを用いて、入力された説明変数に対応する物質に生じる化学反応に関する情報を予測する機械学習モデルの訓練を実行
し、
前記機械学習モデルの訓練が完了した場合に、前記説明変数に設定される前記特徴量それぞれと、前記目的変数に与える影響度との因果関係を抽出する、
制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習プログラム、機械学習方法および情報処理装置に関する。
【背景技術】
【0002】
化学触媒の物性は、材料の組成や反応物との化学的な特性の相性に依存し、解析的に推定することが困難である。また、触媒素材の組み合わせ、混合量、表面構造の作り方など、選択しうる可能性が多く、有望な触媒組成を探索する触媒探索を行うために、実際に化学実験を行ったり、化学反応をシミュレーションしたりするには膨大な時間がかかる。
【0003】
近年ではAI(Artificial Intelligence)の発達により、化学反応のシミュレーションより簡易に触媒の特性を推定する手法が取り入れられ、触媒探索の高速化が図られている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2001-264309号公報
【文献】特開平05-288665号公報
【文献】米国特許出願公開第2008/0168014号明細書
【文献】米国特許出願公開第2020/0340941号明細書
【非特許文献】
【0005】
【文献】富士通研究所、[online]、令和4年3月25日検索、「富士通研究所のWide Learningとは」、“URL:https://widelearning.labs.fujitsu.com/ja/whatsWL/c001.html”
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、触媒探索の候補の可能性が多岐にわたり、探索範囲が膨大であり、触媒探索の自動化は難しい。例えば、触媒材質、混合比率、表面形状など触媒を形成しうる要素を含む探索軸の種類が多く、指数関数的に探索範囲が増加してしまうことから、各軸で取り得る値の数をX、探索軸の数または種類をnとした場合、探索範囲はXnとなり、膨大な範囲となる。
【0007】
上記触媒探索の高速化を行うAIでは、触媒特性を推測するために、適切な特性を学習させる訓練データとして、例えば触媒や反応物の特徴などのように触媒の化学的特性を表す「記述子」が重要になる。また、探索範囲の縮小のためには、適切な特徴量を学習することが要求される。
【0008】
しかしながら、AIで探索軸を絞り込む場合には、探索軸の候補を用意することになるが、探索軸の抽出を手動で行うには労力が大きく、抽出漏れ、人為的なミス、先入観などの影響により、精度も高くない。このように、有望な触媒組成を探索する触媒探索の高速化は難しい。
【0009】
一つの側面では、有望な触媒組成を高速に探索することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
第1の案では、機械学習プログラムは、コンピュータに、物質の原子配列に基づいて、物質の表面構造に関連する特徴量を抽出し、前記物質の原子配列に関する原子配列情報と、抽出した前記特徴量とを説明変数として含み、前記物質に生じる化学反応に関する情報を目的変数として含む訓練データを用いて、入力された説明変数に対応する物質に生じる化学反応に関する情報を予測する機械学習モデルの訓練を実行する、処理を実行させることを特徴とする。
【発明の効果】
【0011】
一実施形態によれば、有望な触媒組成を高速に探索することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施例1にかかる情報処理装置を説明する図である。
【
図2】
図2は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。
【
図3】
図3は、シミュレーションデータDBを説明する図である。
【
図4】
図4は、構造特性データDBを説明する図である。
【
図5】
図5は、構造特性データの抽出例を説明する図である。
【
図6】
図6は、記述子の組合せを説明する図である。
【
図7】
図7は、機械学習モデルの生成を説明する図である。
【
図9】
図9は、因果関係の出力例を説明する図である。
【発明を実施するための形態】
【0013】
以下に、本発明にかかる機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【実施例1】
【0014】
(情報処理装置の説明)
図1は、実施例1にかかる情報処理装置10を説明する図である。
図1に示す情報処理装置10は、混合量、表面構造の作り方など、選択肢が多岐に渡る触媒素材の組み合わせの中から、有望な触媒組成を探索する触媒探索を効率的に実行するコンピュータ装置の一例である。
【0015】
この情報処理装置10は、物質の原子配列に基づいて、物質の表面構造に関連する特徴量を抽出する。情報処理装置10は、物質の原子配列に関する原子配列情報と、抽出した特徴量とを説明変数として含み、物質に生じる化学反応に関する情報を目的変数として含む訓練データを用いて、入力された説明変数に対応する物質に生じる化学反応に関する情報を予測する機械学習モデルの訓練を行う。ここで、情報処理装置10は、目的変数に大きな影響を与える説明変数に使用される記述子と、目的変数との因果関係を抽出する。この結果、情報処理装置10は、触媒探索を効率的に実行し、探索結果を出力することができる。
【0016】
例えば、
図1に示すように、情報処理装置10は、一般的に利用される化学シミュレーションにより得られる触媒原子の座標、触媒原子の物性記述、反応物の物性記述を含むシミュレーションデータを取得する。情報処理装置10は、シミュレーションデータから、触媒の表現構造に関する特性を表す構造特性データを抽出する。
【0017】
そして、情報処理装置10は、シミュレーションデータと構造特性データとを特徴量、「反応エネルギーへの大きさ」などの触媒に分析における化学反応に関する情報を目的変数に用いて、機械学習モデルを生成する。例えば、情報処理装置10は、シミュレーションデータと構造特性データとから、触媒の化学的特性を表す記述子の組合せを抽出する。加えて、情報処理装置10は、機械学習モデルの訓練に利用された各記述子の組合せと目的変数との因果関係を含む因果関係情報を生成する。
【0018】
その後、情報処理装置10は、予測対象の触媒について化学的シミュレーションを実行するとともに構造特性データを生成し、予測対象の触媒に対する記述子を抽出する。情報処理装置10は、因果関係情報に含まれる記述子の組合せの有無により、予測対象の触媒の性能に大きな影響を与える特性を抽出する。なお、化学的シミュレーションの結果は、異なるシステムや既存のデータを流用してもよい。
【0019】
このように、情報処理装置10は、触媒研究者の探索領域として様々な触媒研究で評価されたシミュレーションデータから、触媒の3次元構造に関する特徴を自動抽出し、特徴量の組み合わせを網羅的に検証し、条件グループごとの因果関係を抽出する。したがって、情報処理装置10は、探索軸を自動抽出することができ、有望な触媒組成を高速に探索することができる。また、探索された有望な触媒組成は、新しい触媒および反応メカニズムの発見を行う触媒特性の分析や、触媒組成を推測する推測システムに適用することができる。
【0020】
(機能構成)
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。
図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
【0021】
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースにより実現される。通信部11は、管理者端末などの外部装置から各種指示を受信し、制御部20により生成された予測結果を管理者端末などの外部装置に送信する。
【0022】
記憶部12は、各種データや制御部20が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやハードディスクなどにより実現される。この記憶部12は、シミュレーションデータDB13、構造特性データDB14、予測対象データDB15を有する。
【0023】
シミュレーションデータDB13は、化学シミュレーションの結果である物質の原子配列情報を記憶するデータベースである。ここで記憶されるデータは、外部のシミュレーション端末から取得されたデータでもよく、制御部20により生成されたものでもよい。
【0024】
図3は、シミュレーションデータDB13を説明する図である。
図3に示すように、シミュレーションデータDB13は、シミュレーション対象の触媒を示す「nama」ごとに、触媒原子の座標、触媒原子の物性記述、反応物の物性記述などを記憶する。
図3の例では、触媒を示す「Data1」に対して、「x1、y1、z1、・・・、target」などの記述子を記憶する。ここで、「x1、y1、z1」は、原子1の座標を示し、「target」は、反応エネルギーの大きさなどのように予め指定された目的変数を示す。なお、座標データだけではなく、例えば原子番号、電気陰性度、イオン半径など、各格子点にある原子の特性データを含む。
【0025】
構造特性データDB14は、制御部20により生成された、触媒の構造特性に関する構造特性データを記憶するデータベースである。
図4は、構造特性データDB14を説明する図である。
図4に示すように、構造特性データDB14は、触媒を示す「name」ごとに、触媒としての特徴量を示す特徴量データを記憶する。
【0026】
図4の例では、触媒を示す「Data1」に対して、「kink_1、step_1、vac_1、island_1・・・、target」などの記述子を記憶する。ここで、「kink_1、step_1、vac_1、island_1」は、触媒構造の格子位置ごとに存在する原子もしくは空間が、kink、step、vacancy、または、islandであるかを特徴量(1:Yes(該当する)、0:No(該当しない))として表現したデータである。「target」は、反応エネルギーの大きさなどのように予め指定された目的変数を示す。
【0027】
予測対象データDB15は、機械学習モデルを用いた予測対象のデータであって、予測対象の触媒に関する予測対象データを記憶するデータベースである。例えば、予測対象データDB15が記憶するデータは、化学シミュレーションに入力する前のデータでもよく、化学シミュレーション結果と構造特性データとを含むデータであってもよい。
【0028】
制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどにより実現される。制御部20は、シミュレーション実行部30、機械学習部40、因果関係生成部50、予測処理部60を有する。なお、シミュレーション実行部30、機械学習部40、因果関係生成部50、予測処理部60は、プロセッサなどの電子回路やプロセッサが実行するプロセスなどにより実現される。
【0029】
シミュレーション実行部30は、化学シミュレーションを実行する処理部である。例えば、シミュレーション実行部30は、原子レベルのシミュレーションを実行し、触媒原子の座標、触媒原子の物性記述、反応物の物性記述を生成して、シミュレーションデータDB13に格納する。なお、シミュレーション対象のデータとしては、物質に関するデータ、患者の遺伝子情報、化学反応の対象となる材料データなどを採用することができる。
【0030】
機械学習部40は、データ抽出部41、組合せ抽出部42、モデル生成部43を有し、物質の原子配列に基づいて物質の表面構造に関連する特徴量を抽出し、物質の原子配列情報と特徴量とを含む訓練データを用いて、機械学習モデルの訓練を行う処理部である。
【0031】
データ抽出部41は、シミュレーションデータDB13に記憶される物質の原子配列情報から、触媒の構造特性に関する特徴量データを抽出する処理部である。具体的には、データ抽出部41は、触媒としての表面構造情報を抽出する。例えば、データ抽出部41は、一定規模の島を構成する原子を示す「Island」、一定規模の穴となる格子点を示す「Vacancy」、表面上に段差を生む原子を示す「Step」、段差の角に当たる原子を示す「Kink」などの触媒の表面構造情報を抽出し、構造特性データDB14に格納する。
【0032】
より詳細には、データ抽出部41は、表面特徴の条件を定義し、各結晶格子点の状態を判定することで、触媒の表面構造情報を抽出する。
図5は、構造特性データの抽出例を説明する図である。
図5では、単純格子構造のような四角形や立方体の格子構造を取る場合の抽出例を一例として説明する。
【0033】
図5に示すように、データ抽出部41は、触媒結晶が存在する側を下、表面が上側を向くと定義した上で(
図5の(a)参照)、「Kink」や「Step」などの各種条件の判定を行い、構造特性を抽出する。例えば、データ抽出部41は、対象格子点の上方に触媒原子が存在せず、対象格子の横方向の4つの隣接格子について、隣り合う2格子に触媒原子が存在し、この他の2格子には触媒原子が存在しない場合に、「Kink」と判定する。つまり、データ抽出部41は、後ろと左に原子があり、前と右に原子がない原子を「Kink」と判定する。
【0034】
また、データ抽出部41は、対象格子点の上方に触媒原子が存在せず、対象格子の横方向の4つの隣接格子について、隣り合う3格子に触媒原子が存在し、この他の1格子には触媒原子が存在しない場合に、「step」と判定する。つまり、データ抽出部41は、前後と左に原子があり、右に原子がない原子を「step」と判定する。
【0035】
組合せ抽出部42は、シミュレーションデータDB13に記憶される物質の原子配列情報や構造特性データDB14に記憶される構造特性データなどの記述子を用いて、記述子の組合せを抽出する処理部である。具体的には、組合せ抽出部42は、原子配列情報の各記述子と、構造特性データの各記述子とから、全ての記述子(データ項目)の組み合わせパターンを仮説(ナレッジチャンク)として抽出する。なお、記述子には、各格子位置に配置される原子の原子番号、原子特性や、原子にかかる力の向き、大きさや、原子同士の相互作用などの情報を含んでも良い。
【0036】
図6は、記述子の組合せを説明する図である。
図6に示すように、組合せ抽出部42は、シミュレーションから得られた原子配列データ、構造特性データ、外部から入力されたその他の原子特性データなどの含まれる記述子を用いて、「(原子1の座標)かつ(kink_2=1)」や「(原子nの座標)かつ(island_3=0)かつ(vacancy_5=1)」などの組合せを抽出する。この記述子の組合せは、機械学習モデルの説明変数として利用するだけでなく、因果関係の分析にも利用される。組合せ抽出部42は、機械学習モデルの説明変数を抽出する。組合せ抽出部42は、抽出した情報を記憶部12に格納し、因果関係生成部50に出力する。なお、組合せの抽出手法は、例えば非特許文献1などの手法を採用することができる。
【0037】
モデル生成部43は、組合せ抽出部42により生成された記述子の組合せと、予め指定された目的変数もしくはシミュレーション結果により決定された目的変数とを用いて、機械学習モデルを生成する処理部である。このモデル生成部43は、分析対象データの多くの要因である記述子の組み合わせを網羅的に確認し、触媒分析に用いる「反応のためのエネルギー量」などを示す目的変数に対して関連が深い組み合わせを自動的に選択し、機械学習モデル(予測モデル)を生成する。なお、この要因の組み合わせを根拠として、予測結果を説明することができる。
【0038】
図7は、機械学習モデルの生成を説明する図である。
図7に示すように、モデル生成部43は、組合せ抽出部42により生成された記述子の組合せそれぞれに対して、例えばエネルギーの大きさ、反応速度などの触媒に分析における化学反応に関する情報などを目的変数(結果)に設定し、機械学習モデルを生成する。例えば、モデル生成部43は、非特許文献1の技術を用いて、各記述子の組み合わせを網羅的に調査して、目的変数(Target)に影響が大きい組合せを抽出する。そして、モデル生成部43は、抽出された組合せを説明変数と上記目的変数とを用いて機械学習モデルの機械学習を実行する。このようにすることで、一つ一つの記述子を直接使うより高精度で、説明性の高い機械学習モデルを作ることができる。
【0039】
因果関係生成部50は、機械学習モデルの訓練に用いられた説明変数同士の因果関係、または説明変数(記述子の組合せ)と目的変数との因果関係を生成する処理部である。具体的には、因果関係生成部50は、二つの要因が相互に変化した際の相互の影響を分析することで、どちらの要因が原因で結果なのかを分析する技術を用いて、機械学習モデルの特徴量の組み合わせを網羅的に確認し、条件グループごとの因果関係を抽出する。
【0040】
より詳細には、因果関係生成部50は、機械学習モデルの目的変数として設定された各条件に対して、記述子の各組合せが与える影響度等を抽出することで、記述子と目的変数との因果関係を生成する。例えば、因果関係生成部50は、組合せ抽出部42により抽出された各組合せのうち、「目的変数に影響が大きい組み合わせ」を、元データのグルーピングルールとする。そして、因果関係生成部50は、特定のグループの中の因果関係を分析することによって、全体から見た場合に、複数の因果関係が混在して相殺し合って見えなくなるような因果関係も、個別に抽出する。
【0041】
図7を用いて説明すると、因果関係生成部50は、因果関係1として「kink_1=1かつvac_2=1が触媒の反応エネルギーの低減へ与える影響の大きさが10.22」などを生成する。因果関係生成部50は、因果関係2として「元素_1=44(原子番号4:Ru)かつstep_1=1かつisland_1=1が触媒の反応エネルギーの低減へ与える影響の大きさが8.74」などを生成する。
【0042】
ここで、因果関係生成部50が生成する因果関係とは、上述した各特徴量同士の因果関係で表される。
図8は、因果関係を説明する図である。
図8に示すように、因果関係生成部50は、例えば「DirectLiNGAM」などの手法を用いて、機械学習で絞り込んだ相関関係を元に、因果関係を分析し、各特徴量同士の因果関係で表される結果を生成する。つまり、因果関係生成部50は、「原因」が1増えるときに、「結果」の値にどれだけ影響を与えるかを分析する。
図8の例では、因果関係生成部50は、「No.53の格子点にある原子がkinkになる(kink_53=0からkink_53=1に変化する)ことで、反応エネルギーを0.19押し下げる」因果関係を生成する。また、
図8においてenergyにつながっていない因果関係は、すべて説明変数同士の因果関係である。
【0043】
また、因果関係生成部50は、触媒の物性構造の模式図を出力し、模式図において、所定値以上の因果関係を有する原子または格子点を、因果関係の内容に応じた強調表示することもできる。例えば、因果関係生成部50は、化学触媒特性の分析において生成された触媒構造の因果関係を3次元の触媒データにマッピングし、閾値以上である特に強い因果関係を持つ原子、格子点に対して、因果関係の内容に応じた色、形状などの強調表示を行う。
【0044】
図9は、因果関係の出力例を説明する図である。
図9に示すように、因果関係生成部50は、「32番目の原子が空きになっている事実が触媒の反応エネルギーに影響を与えている」場合に、触媒構造の32番目の原子位置を強調表示する。別例としては、因果関係生成部50は、「格子点1がkink構造になっており、かつ格子点2に原子がなくvacancy構造になっていることが、触媒の反応エネルギーを低減させる原因となっている」場合、kink因果を表す赤で格子点1を強調表示し、vacancy因果を表す黒で格子点2を強調表示し、他の格子点を白で表示する。
【0045】
上述したように、実施例1にかかる情報処理装置10は、機械学習モデルを用いて構造特性データを含む記述子やその組み合わせが目的変数に与える影響を推定し、図示することができる。さらに、情報処理装置10は、この機械学習モデルを用いて通常の機械学習同様に目的変数を推測することもできる。
【0046】
予測処理部60は、データ生成部61と予測部62を有し、機械学習モデルを用いて、予測対象データに対して予測処理を実行する処理部である。具体的には、予測処理部60は、予測対象データに基づき、因果関係生成部50により生成された因果関係のうち、該当する因果関係を特定することで、予測対象データに対する、例えば触媒の反応エネルギーが大きい記述子などを特定する。
【0047】
データ生成部61は、データ抽出部41と同様の手法により、予測対象データから構造特性データを生成する処理部である。また、データ生成部61は、予測対象データから原子配列データを生成することもできる。データ生成部61は、生成された各データを記憶部12に格納し、予測部62に出力する。
【0048】
予測部62は、機械学習モデルを用いて、予測対象データに対する予測処理を実行する処理部である。
図10は、因果関係を用いた予測例を説明する図である。
図10に示すように、例えば、予測部62は、予測対象データから生成された原子配列データと構造特性データから、例えば非特許文献1の技術を用いて複数の記述子の組合せを生成する。そして、予測部62は、機械学習部40により生成された機械学習モデルに、生成された複数の記述子の組合せを入力して、予測結果を取得する。この結果、予測部62は、予測結果の取得、および、目的変数の予測値を算出することができる。
【0049】
また、予測部62は、機械学習モデルの訓練時に生成された生成済みの因果関係を参照し、予測対象データから生成された記述子の組合せに該当する因果関係を特定する。そして、予測部62は、特定された因果関係を、予測結果としてディスプレイ等に出力し、管理者端末に送信する。例えば、予測部62は、予測対象データから生成された記述子の組合せに、「kink_1=1」と「vac_2=1」との組合せが含まれる場合、因果関係1に該当すると判定し、「触媒の反応エネルギーの低減へ与える影響が大きい記述子が含まれる」と予測する。
【0050】
(処理の流れ)
図11は、処理の流れを示すフローチャートである。ここでは、機械学習処理の後に予測処理を実行する例で説明するが、これらは別々のフローで実現することができる。
【0051】
図11に示すように、情報処理装置10の機械学習部40は、処理が開始されると(S101:Yes)、化学シミュレーションを実行して、シミュレーションデータを生成する(S102)。
【0052】
続いて、機械学習部40は、シミュレーションデータから構造特性データを抽出する(S103)。そして、機械学習部40は、シミュレーションデータと構造特性データとから記述子の組合せを生成する(S104)。
【0053】
その後、機械学習部40は、記述子とその組合せを説明変数、指定された目的変数を用いて、機械学習を実行して重要な記述子の組合せとこれを用いた機械学習モデルを生成し(S105)、この重要な記述子の組合せを用いて因果関係情報を生成する(S106)。
【0054】
その後、予測処理部60は、予測対象データを取得すると(S107:Yes)、予測対象データからから構造特性データを抽出する(S108)。そして、予測処理部60は、機械学習モデルを用いて予測対象データから目的変数を予測する際に、因果関係情報を用いて対応する因果関係を特定する(S109)。
【0055】
(効果)
上述したように、情報処理装置10は、原子レベルのシミュレーションデータから、一般的に用いられる高次な特徴量として、例えば複数の原子からなる構造の特徴、原子の塊に対して与えられる温度や圧力などでなく、原子ごとの特徴量だけを抽出することで、原子レベルのシミュレーションデータから高速に特徴量を自動で抽出することができる。
【0056】
情報処理装置10は、機械学習により、原子ごとの特徴量を、原子レベルのシミュレーションの出力である反応エネルギーへの影響が大きいグループであって、原子ごとの特徴量に関するグループを条件として纏めたうえで、因果発見を適用することができる。この結果、情報処理装置10は、条件の組み合わせのすべて網羅的に調べることができる機械学習(例えばワイドラーニング)の特徴により、人が高次な特徴量を与えて因果発見を行う場合に比べて、人が見逃していた原子ごとの特徴量のグループも見つけることができる。
【0057】
情報処理装置10は、触媒反応過程の確認や、触媒候補の探索すべき範囲の優先度の判断に利用することで、より更新し綱触媒探索を、省コスト、短時間に実現することが可能になる。特に、情報処理装置10は、探索計画の初期段階において専門家の高度な判断が必要な過程である特徴量設計、探索軸選択を減らすことができ、有望な触媒組成を高速に探索することができる。また、情報処理装置10は、反応の中の因果をより正確に発見することができる。
【0058】
情報処理装置10は、触媒性能に大きな影響を与える特性を推定することで、触媒探索に於ける探索軸(パラメータを変えて試行する変数や対象)を「影響が大きい」と推定されるものに絞り込むことで、触媒探索範囲を縮小し、結果を得る時間と労力を大きく削減できる。すなわち、情報処理装置10は、探索範囲はXnのnを小さくできる。
【0059】
情報処理装置10は、人手では膨大で現実的ではなく、一般的なAIでは絞り込めない探索範囲を高速に絞り込むことができる。情報処理装置10は、このような絞り込んだ結果(因果関係)を他のAI(機械学習モデル)に提供することもできる。
【実施例2】
【0060】
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
【0061】
(数値等)
上記実施例で用いたシミュレーションデータの項目、記述子、記述子の組合せ、構造特性データの項目、因果関係等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。
【0062】
(記述子の入力)
例えば、上記実施例では、情報処理装置10が、化学シミュレーションや表面構造の抽出により記述子を抽出する例を説明したが、これに限定されるものではない。例えば、情報処理装置10は、実験者や評価者から、自動抽出できない記述子を受け付けて、説明変数に利用することもできる。
【0063】
また、情報処理装置10は、ユーザが指定した記述子や評価対象である記述子など特定の記述子を評価対象とする場合、特定の記述子を含む組合せを用いて、因果関係の生成を実行することもできる。この場合、情報処理装置10は、全記述子について因果関係を生成する場合に比べて、ユーザの所望する結果を高速に生成することができる。
【0064】
(システム)
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0065】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、シミュレーション実行部30、機械学習部40、因果関係生成部50、予測処理部60を別々のコンピュータ(筐体)で実現することもできる。
【0066】
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0067】
(ハードウェア)
図12は、ハードウェア構成例を説明する図である。
図12に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、
図12に示した各部は、バス等で相互に接続される。
【0068】
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、
図2に示した機能を動作させるプログラムやDBを記憶する。
【0069】
プロセッサ10dは、
図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、
図2等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、シミュレーション実行部30、機械学習部40、因果関係生成部50、予測処理部60等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、シミュレーション実行部30、機械学習部40、因果関係生成部50、予測処理部60等と同様の処理を実行するプロセスを実行する。
【0070】
このように、情報処理装置10は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
【0071】
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
【符号の説明】
【0072】
10 情報処理装置
11 通信部
12 記憶部
13 シミュレーションデータDB
14 構造特性データDB
15 予測対象データDB
20 制御部
30 シミュレーション実行部
40 機械学習部
41 データ抽出部
42 組合せ抽出部
50 因果関係生成部
60 予測処理部
61 データ生成部
62 予測部