(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024007916
(43)【公開日】2024-01-19
(54)【発明の名称】反応条件を推定する推定モデルの生成方法/生成装置、反応条件の提供方法/提供装置、並びにプログラム
(51)【国際特許分類】
G16C 20/70 20190101AFI20240112BHJP
【FI】
G16C20/70
【審査請求】有
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2022109322
(22)【出願日】2022-07-06
(11)【特許番号】
(45)【特許公報発行日】2023-07-03
(71)【出願人】
【識別番号】000004307
【氏名又は名称】日本曹達株式会社
(74)【代理人】
【識別番号】100107984
【弁理士】
【氏名又は名称】廣田 雅紀
(74)【代理人】
【識別番号】100182305
【弁理士】
【氏名又は名称】廣田 鉄平
(74)【代理人】
【識別番号】100096482
【弁理士】
【氏名又は名称】東海 裕作
(74)【代理人】
【識別番号】100131093
【弁理士】
【氏名又は名称】堀内 真
(74)【代理人】
【識別番号】100150902
【弁理士】
【氏名又は名称】山内 正子
(74)【代理人】
【識別番号】100141391
【弁理士】
【氏名又は名称】園元 修一
(74)【代理人】
【識別番号】100221958
【弁理士】
【氏名又は名称】篠田 真希恵
(74)【代理人】
【識別番号】100192441
【弁理士】
【氏名又は名称】渡辺 仁
(72)【発明者】
【氏名】武久 克磨
(57)【要約】
【課題】
収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減する。
【解決手段】
本発明は、取得された反応対象とする複数の化学物質及び生成物質に関する情報と、反応条件に設定されている複数の化学物質及び生成物質に関する情報が類似していることを条件(又は、同一であることを条件)に、反応条件に設定されている反応項目より、取得された反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定し、さらに、過去に反応させた複数の化学物質に関する化学構造情報及び物性情報、その反応における反応条件、生成された生成物質に関する化学構造情報及び物性情報、並びにその反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、複数の反応条件毎に収率を推定し、その推定された収率のうち、収率が所定の条件を満たす反応条件を表示(出力)する。
【選択図】
図23
【特許請求の範囲】
【請求項1】
過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得ステップと、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第1の生成ステップと、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第2の生成ステップと
を含むことを特徴とする推定モデルの生成方法。
【請求項2】
前記第2の生成ステップが、
前記教師データを構成する要素である特徴量に基づいて、推定モデルを生成し、
前記生成した推定モデルに対して検証した精度を当該推定モデルに関連付けて記憶する第1の記憶ステップと、
前記生成した推定モデルにおいて前記特徴量の重要度を算出する算出ステップと、
前記特徴量の性質、及び前記特徴量の重要度に基づいて、前記特徴量のうち、削除可能な特徴量があるか否かを判定する判定ステップと、
前記判定ステップにおいて、削除可能な特徴量があると判定された場合に、当該削除可能と判定された特徴量を、前記教師データを構成する要素から削除する削除ステップと
を含み、
前記判定ステップにおいて、前記特徴量のうち、削除可能な特徴量がないと判定されるまで、前記推定モデルの生成と、前記第1の記憶ステップと、前記算出ステップと、前記判定ステップと、前記削除ステップとを順に繰り返し実行し、前記第1の記憶ステップにおいて記憶された推定モデルのうち、前記検証した精度が所定の条件を満たす推定モデルを選択することを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項3】
前記第2の生成ステップが、
前記機械学習のアルゴリズムに設定されるハイパーパラメータを最適化する最適化ステップと、
前記最適化されたハイパーパラメータで前記推定モデルを生成し、当該生成された前記推定モデルに対して検証した精度を前記推定モデルに関連付けて記憶する第2の記憶ステップと、
前記最適化ステップにおいて出力される期待改善度が所定の条件を充足するまで、前記最適化ステップと、前記推定モデルの生成と、前記第2の記憶ステップとを順に繰り返し実行し、前記期待改善度が所定の条件を充足すると、前記第2の記憶ステップにおいて記憶された推定モデルのうち、前記検証した精度が所定の条件を満たす推定モデルを選択することを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項4】
前記推定モデルの生成に用いられた特徴量を選択する選択ステップと、
さらに生成する複数の推定モデルの数に応じて、前記教師データを分割する分割ステップと、
前記分割された教師データ毎に、前記選択された特徴量に基づいて、所定の機械学習方法を用いて機械学習を実行することで、複数の推定モデルを生成する第3の生成ステップと、
前記生成した複数の推定モデルの各々に対して所定の重みを設定する設定ステップと
をさらに含むことを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項5】
前記分割ステップにおいて、前記教師データが、ブートストラップ法に基づいて分割されることを特徴とする請求項4に記載の推定モデルの生成方法。
【請求項6】
前記所定の機械学習方法が、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタのいずれかであり、
前記生成された複数の推定モデルのうちの一部の推定モデルが、同じ機械学習方法を用いて機械学習を実行することで生成されてもよいことを特徴とする請求項4に記載の推定モデルの生成方法。
【請求項7】
前記生成した複数の推定モデルに対して設定される所定の重みが、ベイズ最適化により推定されることを特徴とする請求項4に記載の推定モデルの生成方法。
【請求項8】
前記第1の生成ステップにより生成された教師データが、所定の要件を充足していない場合に、当該教師データに応じた所定の前処理を行うステップをさらに含むことを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項9】
前記前処理が、欠損値処理、カテゴリー値変換処理、又はデータ標準化若しくは正規化に関する処理の少なくともいずれかの処理であることを特徴とする請求項8に記載の推定モデルの生成方法。
【請求項10】
請求項1から9のいずれか1項に記載の推定モデルの生成方法をコンピュータに実行させるプログラム。
【請求項11】
過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得手段と、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第1の生成手段と、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第2の生成手段と
を備えることを特徴とする推定モデルの生成装置。
【請求項12】
反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得手段と、
1又は2以上の反応条件を記憶する記憶手段と、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定手段と、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定手段と、
表示装置に、前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御手段と
を備えることを特徴とする反応条件の提供装置。
【請求項13】
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度を算出する類似度算出手段をさらに備え、
前記類似度算出手段は、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報と前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報の類似度と、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報と前記1又は2以上の反応条件に設定されている生成物質に関する情報に対して導出された化学構造情報及び物性情報との類似度の平均値又は加重平均値を算出することを特徴とする請求項12に記載の反応条件の提供装置。
【請求項14】
前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件があるか否かを判定する判定手段と、
前記判定手段により、収率が所定の条件を満たす反応条件が複数あると判定された場合に、当該複数の反応条件に対して表示優先度を付与する付与手段と
をさらに備えることを特徴とする請求項12に記載の反応条件の提供装置。
【請求項15】
前記判定手段により、収率が所定の条件を満たす反応条件がないと判定された場合に、反応条件を探索する上で、反応条件に対する収率の関数を最適化する最適化手段をさらに備えることを特徴とする請求項14に記載の反応条件の提供装置。
【請求項16】
前記最適化手段は、
実験点に基づいて、反応条件に対する収率の関数を最適化し、
所定の獲得関数を用いて、収率が所定の条件を充足する反応条件を導出する導出手段と、
当該導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定手段と
をさらに備え、
前記反応条件に対する収率の関数の最適化、前記収率が所定の条件を充足する反応条件の導出、前記実験点の設定を所定の数だけ、繰り返し実行し、
前記表示制御手段は、前記表示装置に、前記導出手段により導出された反応条件を表示させることを特徴とする請求項15に記載の反応条件の提供装置。
【請求項17】
反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得ステップと、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、記憶装置に記憶された1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定ステップと、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定ステップと、
表示装置に、前記推定ステップにおいて前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御ステップと
を含むことを特徴とする反応条件の提供方法。
【請求項18】
請求項17に記載の反応条件の提供方法をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の化学物質に関する情報及び生成物質に関する情報から、収率が所定の条件を満たす反応条件を推定する推定モデルの生成方法、及び推定モデルの生成装置、反応条件の提供方法、及び反応条件の提供装置、並びにプログラムに関する。
【背景技術】
【0002】
従来、化学者により、複数の化学物質を化学的に反応させて、所望の生成物質を生成することが行われている。その際、化学者により、所望の生成物質を効率よく生成するために、自身の経験則等に基づき、反応条件をその都度、変更しながら化学実験を繰り返し実施し、収率が所定の条件を充足する反応条件(例えば、より収率が高くなる反応条件等)を探索することも行われている。
【0003】
但し、収率が所定の条件を充足する反応条件を探索することは、化学者自らが反応条件を試行錯誤しながら決定して、化学実験を繰り返し実施する必要があり、そのため、膨大な作業工数がかかっており、作業効率の向上が問題とされている。このような問題に対応するために、人工知能による解析結果を反映することで、合成反応に適した反応条件を自動で設定できるフロー合成技術が知られている(例えば、特許文献1)。
【0004】
この特許文献1には、反応温度、反応時間、試薬種類、試薬量及び溶媒のうち、少なくとも一つを要素とする反応条件を自動で設定するフロー合成装置であって、そのフロー合成装置が、構造フィンガープリントと反応条件を説明変数とした人工知能にて、データベースとして内包された合成反応情報を解析する情報処理装置により制御されることが開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に開示された技術では、構造フィンガープリントベクトル情報及び反応条件ベクトル情報のみを結合したベクトルを説明変数として、これに基づいて機械学習を実行させており(即ち、物性情報(化学物質の示す物理的、化学的性質を示す情報)を説明変数として考慮することは少なくとも行われておらず)、そのため、生成される予測モデルの精度が十分なものではなく、結果、設定される反応条件では、収率が所望の水準に到達しない可能性があり、これに対する改善が要望されている。
【0007】
本発明は、上記従来の問題に鑑みてなされたものであって、その課題は、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することにある。
【課題を解決するための手段】
【0008】
即ち、本発明の推定モデルの生成方法は、過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得ステップと、前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第1の生成ステップと、当該教師データを用いて機械学習を実行することで、反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値とする推定モデルを生成する第2の生成ステップとを含むことを特徴とする。
【0009】
また、本発明の反応条件の提供装置は、反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得手段と、1又は2以上の反応条件を記憶する記憶手段と、前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定手段と、過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定手段と、表示装置に、前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御手段とを備えることを特徴とする。
【発明の効果】
【0010】
本発明によれば、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することができる。
【図面の簡単な説明】
【0011】
【
図1】モデル生成装置と反応条件の提供装置を示す図である。
【
図2】モデル生成装置の機能構成を示すブロック図である。
【
図4】特徴量選択部の第1の特徴量削減部と特徴量選択用モデル生成部の機能構成を示すブロック図である。
【
図5】推定モデル生成部の複数推定モデル生成部と推定モデル混合部の機能構成を示すブロック図である。
【
図6】モデル生成装置における推定モデルを生成する処理の手順を示すフローチャートである。
【
図7】分子記述子導出部における分子記述子を導出する処理の手順を示すフローチャートである。
【
図8】データセット(教師データ)の生成処理を示す図である。
【
図9】欠損値処理部における欠損値処理を示す図である。
【
図10】カテゴリー値変換部における処理を示す図である。
【
図11】特徴量選択部における特徴量(特徴量群)を選択する処理の手順を示すフローチャートである。
【
図12】第1の特徴量削減部における特徴量を削減(削除)する処理の手順を示すフローチャートである。
【
図13】相関係数と、その相関係数に従って特徴量を削減する処理を示す図である。
【
図14】特徴量選択用モデル生成部における特徴量選択用モデルを生成する処理の手順を示すフローチャートである。
【
図16】第2の特徴量削減部における特徴量を削減(削除)する処理を示す図である。
【
図17】推定モデル生成部における推定モデルを生成する処理の手順を示すフローチャートである。
【
図18】複数推定モデル生成部における複数の推定モデルを生成する処理の手順を示すフローチャートである。
【
図19】複数推定モデル生成部における、複数の推定モデルのうちの1つの推定モデルを生成する処理の手順を示すフローチャートである。
【
図20】複数の推定モデルを混合する処理の手順を示すフローチャートである。
【
図21】推定モデル生成部における処理の内容(データフロー)を説明するためのフローチャートである。
【
図22】反応条件の提供装置の機能構成を示すブロック図である。
【
図23】反応条件の提供装置における反応条件を提供する処理の手順を示すフローチャートである。
【
図24】反応条件の提供装置における類似度の算出処理、反応条件の選択処理、及び反応条件の選定処理について説明するための図である。
【
図25】反応条件の提供装置における反応シミュレーションの実行処理、ランクの付与処理、所定の条件を充足する反応条件があるか否かを判定する処理、及び所定の条件を充足する反応条件の選択処理について説明するための図である。
【
図26】反応シミュレーションの実行処理について説明するための図である。
【
図27】反応条件と収率の関数とベイズ最適化の処理を示す図である。
【
図29】Constant Liar Approachを適用してベイズ最適化を実行して、反応条件を特定する処理の手順を示すフローチャートである。
【
図30】表示装置に表示された反応条件のサンプル画面を示す図である
【
図31】モデル生成装置のハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は、本発明を限定するものではなく、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。その他、本発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれ、また、以下の実施形態の一部を適宜組み合わせることもできる。
【0013】
図1は、本実施形態に係るモデル生成装置(
図1A)と反応条件の提供装置を示す図(
図1B)である。
図1Aに示されるモデル生成装置1は、入力データとして取得した、複数の化学物質に関する情報、その複数の化学物質を反応させたときの反応条件、複数の化学物質を反応させることで生成された生成物質に関する情報、及びその反応条件で反応させたときの生成物質の収率より教師データを生成し、その生成した教師データを用いて機械学習を実行することで、生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値とする推定モデル(回帰モデル)を生成する。なお、複数の化学物質を反応させた場合、通常、複数の生成物質が生成されることから、ここでは、複数の生成物質のうち、生成を予定していた生成物質に関する情報や、推定モデルを生成する上で有益となり得る生成物質に関する情報を、複数の化学物質を反応させることで生成された生成物質に関する情報として、モデル生成装置1に入力するものとする。
【0014】
なお、モデル生成装置1には、所定の入力装置を用いて、複数の化学物質に関する情報、反応条件、生成物質に関する情報、及び収率を入力することができるが、
図1Aに示されるように、モデル生成装置1には、入力側に、分析装置2を接続することも可能であり、分析装置2(より正確には、分析装置2に付属された情報処理装置)より、化学物質に関する情報及び反応条件、並びに反応装置3において生成された生成物質及びその生成物質の収率を、モデル生成装置1に直接、入力させることもできる。また、モデル生成装置1には、出力側に、外部記憶装置4を接続することも可能であり、生成した推定モデルを、外部記憶装置4に記憶させることもできる。
【0015】
図1Bに示される反応条件の提供装置5は、化学物質を用いて、生成目的とする生成物質を生成するときに反応条件を推定し、その推定した反応条件を自動的に提供する装置である。反応条件の提供装置5は、モデル生成装置1(
図1A)により生成された、推定モデル(回帰モデル)を用いて、所定の操作装置6より入力データとして取得した複数の化学物質に関する情報から導出される化学構造情報及び物性情報と、複数の化学物質を反応させることで生成する生成物質に関する情報から導出される化学構造情報及び物性情報と、入力データとして取得した複数の化学物質に関する情報から導出される化学構造情報及び物性情報及び生成物質に関する情報から導出される化学構造情報及び物性情報に基づいて、記憶装置(記憶部)に記憶された1又は2以上の反応項目より設定される、複数の化学物質を反応させるときの複数の反応条件とから、複数の反応条件毎の収率を推定し、その反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を外部の表示装置7に出力(表示)する。以下、モデル生成装置1と反応条件の提供装置5の各々の実施形態について、順に説明する。
【0016】
(モデルの生成(モデル生成装置))
図2は、本実施形態に係るモデル生成装置1の機能構成を示すブロック図である。モデル生成装置1は、
図2に示されるように、その機能として、大きく、制御部11、データ取得部12、教師データ生成部13、前処理部14、特徴量選択部15、推定モデル生成部16、記憶部17を備える。
【0017】
制御部11は、各機能ブロックの処理を制御する機能ブロックである。データ取得部12は、複数の化学物質に関する情報、反応条件、生成物質に関する情報、及び収率を取得する。データ取得部12により取得された各種データ(情報)は、制御部11により、一時的に記憶部17に記憶される。なお、化学物質に関する情報、及び生成物質に関する情報は、SMILES記法、MOLファイル、SDFファイル等の記法で記載することができ、本実施形態では、SMILES記法で記載された情報を取得するものとする。SMILES記法は、化学構造式を文字列に変換して記載する表記方法であり、例えば、安息香酸の場合、「OC(C1=CC=CC=C1)=O」として表記することができる。また、ここでは、複数の化学物質に関する情報として、化学物質Aに関する情報と化学物質Bに関する情報の2つの化学物質に関する情報を用いて説明する。
【0018】
反応条件として溶媒、温度、濃度、滴下速度、滴下方法、撹拌機等を設定することができ、その反応条件のうち、一部の化合物に関連する反応条件以外の反応条件(例えば、温度等)に関しては、制御条件として定義される。また、収率は、所定の化学物質から生成物質を取得しようとするとき、理論的に取得可能な理論収量と、実際に取得された量との割合として示される。
【0019】
教師データ生成部13は、データセット生成部131、分子記述子導出部132、物性情報データベース(図中、物性情報DB)133を有し、データ取得部12により取得された各種データから教師データを生成する。データセット生成部131は、(1)化学物質に関する情報に関する、分子記述子導出部132により導出された分子記述子、(2)生成物質に関する情報にする、分子記述子導出部132により導出された分子記述子、(3)反応条件、及び(4)収率に基づいて、教師データを所定のデータセットとして生成する。
【0020】
分子記述子導出部132は、分子の構造を決定する上での指標(数値)として示される化学構造情報及び物性情報を分子記述子として導出する。分子記述子の導出にあたり、本実施形態では、Morgan法を用いて説明するが、Mordred法、RDkit descriptor法等を用いることもできる。Morgan法を用いた場合、化学構造情報を算出し、物性情報を所定のデータベースから取得することで分子記述子を導出する。
【0021】
化学構造情報に関して、ベンゼンを例に説明すると、部分構造を「0」、「1」に変換することで、
図3のように算出することができる。具体的には、ベンゼンに関して、配列[0]から配列[2047]までの配列のうち、配列[389]、配列[1088]、配列[1873]には「1」が格納されることになり(即ち、部分構造を有することになり)、それ以外の配列には「0」が格納されることになる。即ち、配列[389]、配列[1088]、配列[1873]に「1」が格納されるように、化学構造情報を算出することができる。
【0022】
また、分子記述子導出部132は、化学物質の示す物理的、化学的性質を示す情報(物性情報)を記憶する物性情報データベース133より、物性情報を取得する。例えば、溶媒に関して、物性情報として、密度、屈折率、誘電率、双極子モーメント、融点、沸点、粘性等を用いることができる。
【0023】
なお、物性情報には、化学構造情報のみから推測することができない情報も含まれる。例えば、同じ化学物質でも(化学構造が同じであっても)結晶多型が存在する場合、融点や溶解度が異なる物性値となるため、化学反応の収率に大きな影響を及ぼす場合がある。そのため、推定モデルを生成する上で、物性情報も考慮することで(公知の物性データベースの物性値情報からの入力や実際の物性測定値の入力を織り交ぜることで)、推定モデルの精度向上を期待することができる。
【0024】
また、分子記述子導出部132により導出された分子記述子(即ち、算出した化学構造情報、及び取得した物性情報)は、データセット生成部131により、データセットにデータ(構成要素)として追加される。このように、データセット生成部131は、化学物質に関する情報に、分子記述子をデータセットの構成要素として追加し、同様に、生成物質に関する情報に、分子記述子をデータセットの構成要素として追加し、さらに、データ取得部12により取得した反応条件、収率を追加することで、教師データを所定のデータセットとして生成する。補足として物性情報データベース133に格納される物性情報は、上述の
図1Aに示されるように、外部のサーバ装置から有線又は無線の通信ネットワークを介して、更新させることができる。
【0025】
前処理部14は、カテゴリー値変換部141、欠損値処理部142、データ標準化/正規化部143を有し、教師データ生成部13により生成された教師データがデータセットとして所定の要件を充足していない場合に(即ち、推定モデル生成部16において適切に推定モデルを生成することができなくなることが予想される場合に)、教師データ生成部13により生成された教師データ(データセット)に対して所定の欠損値処理を施す。
【0026】
カテゴリー値変換部141は、数値として示されていないカテゴリー(反応条件)を数値に変換する。これは、推定モデルを生成する上で、計算機による数値的処理を実行しなければならないためであり、詳細は
図10を用いて後述するが、例えば、反応条件として「撹拌機(3枚後退翼)」を設定する場合、カテゴリー値変換部141は、「撹拌機(3枚後退翼)」を「0,1,0」に変換する。なお、カテゴリーを数値に変換する方法として、Label encoding、One hot encoding等がある。
【0027】
欠損値処理部142は、教師データ生成部13により生成された教師データ(データセット)に欠損していると判定されたデータがある場合に(欠損値があると判定された場合に)、一部のデータを削除、又は欠損値を補修する処理を実行する。より具体的には、(1)データセットにおいて、欠損値のある行、又は列の削除、(2)欠損値のある行、又は列の統計量(平均値、中央値、最頻値等)での補修が実行される。なお、ここでの処理に関して、
図9を用いて後述する。
【0028】
データ標準化/正規化部143は、特徴量及び目的変数の各々に関して、データを標準化したり、また、最大値/最小値を用いて、0と1との間の実数値に正規化したりする。ここで、補足として、前処理部14における処理は、上述のように、教師データ生成部13により生成された教師データがデータセットとして所定の要件を充足していない場合に実行される処理であり、反応条件が所定の要件を充足している場合には(即ち、例えば、反応条件を数値に変換する必要がない場合、教師データに欠損値がない場合等には)、前処理部14における処理は、必ずしも実行されなくてもよい。
【0029】
特徴量選択部15は、第1の特徴量削減部151、特徴量選択用モデル生成部152、重要度計算部153、削減可否判定部154、第2の特徴量削減部155、特徴量群選択部156を有し、推定モデル生成部16において推定モデルを生成する上で、所定の条件を充足する反応条件(例えば、特徴量選択用モデルとして精度が最も高い場合の反応条件)を特徴量群として選択する。
【0030】
第1の特徴量削減部151は、未知の入力(化学物質)に関する予測精度を低減させないようにするために、相関係数を用いて特徴量を削減する処理を実行する機能ブロックであり、
図4Aに示されるように、相関係数算出部1511、相関係数判定部1512、特徴量削除部1513を有する。
【0031】
相関係数算出部1511は、
図13を用いて後述するが、特徴量間の相関係数(即ち、2つの反応条件間の線形的な関係の強弱を測る指標)を算出する。相関係数判定部1512は、相関係数算出部1511により算出された相関係数が所定の閾値以上であるか否かを判定する(より具体的には、所定の閾値以上の相関値を有すると判定した特徴量を削減対象として判定する)。特徴量削除部1513は、相関係数判定部1512により削減対象として判定された特徴量を削除する。
【0032】
特徴量選択用モデル生成部152は、特徴量(特徴量群)を選択するためのモデルを生成する処理を実行する機能ブロックであり、
図4Bに示されるように、第1の教師データ分割部1521、第1のハイパーパラメータ設定部1522、第1の最適化済みモデル生成部1523、第1の検証部1524、第1の期待改善度判定部1525を有する。
【0033】
第1の教師データ分割部1521は、教師データ生成部13により生成された教師データ(前処理部14により、教師データ生成部13により生成された教師データに対して前処理(加工処理)が施された場合には、その前処理が施された教師データ)を所定の割合で、最適化されたハイパーパラメータで特徴量選択用モデルを生成するための教師データと、第1の検証部1524において、生成された特徴量選択用モデルを検証するための検証データに分割する。ここでの所定の割合は、例えば、特徴量選択用モデルを生成するための教師データを90、生成された特徴量選択用モデルを検証するための検証データを10として設定される。また、ここでの分割は、データセット単位で分割するものとし、この点、以降の教師データと検証データに分割する処理においても同様とする。
【0034】
第1のハイパーパラメータ設定部1522は、後段の第1の最適化済みモデル生成部1523において特徴量選択用モデルを生成する上でのハイパーパラメータを設定する。なお、ここでのハイパーパラメータとは、モデル固有のパラメータであって、設計者・モデル構築者が事前に設定する必要のあるパラメータ(若しくは、設定可能なパラメータ)として定義される。
【0035】
第1のハイパーパラメータ設定部1522は、ハイパーパラメータを設定する上で、第1の最適化部を有し、例えば、ベイズ最適化等を用いることで、ハイパーパラメータを掃引させ、ハイパーパラメータを設定する。第1の最適化部は、ハイパーパラメータの設定に際して、期待改善度を出力する(ベイズ最適化では、Expected Improvement (EI)等を出力する)。なお、補足として、ハイパーパラメータの設定(掃引)に関して、本実施形態において適用するベイズ最適化以外に、ランダムサーチ、グリッドサーチ等を適用することもできる。
【0036】
第1の最適化済みモデル生成部1523は、第1のハイパーパラメータ設定部1522によりハイパーパラメータが設定されると、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等の機械学習方法を用いて、特徴量(特徴量群)を選択する上でのモデル(特徴量選択用モデル)を生成する。
【0037】
第1の検証部1524は、第1の教師データ分割部1521により分割された教師データ(即ち、特徴量選択用モデルを検証するための検証データ)を用いて、第1の最適化済みモデル生成部1523により生成された特徴量選択用モデルを検証し、精度情報を生成する。なお、生成された精度情報は、特徴量(特徴量群)と共に制御部11により記憶部17に記憶される。
【0038】
第1の期待改善度判定部1525は、第1の最適化部15221で出力された期待改善度を、所定の閾値と比較することで、第1のハイパーパラメータ設定部1522(より正確には、第1の最適化部15221)において、ハイパーパラメータを調整する必要があるか否かを判定する。即ち、生成される特徴量選択用モデルの精度に関して、改善の余地があるか否かを判定する。そして、改善の余地があると判定すると、第1の期待改善度判定部1525において改善の余地がないと判定されるまで、制御部11は、第1のハイパーパラメータ設定部1522におけるハイパーパラメータ設定処理から第1の検証部1524における検証処理までの処理を繰り返し実行させるように制御する。
【0039】
重要度計算部153は、制御部11により記憶された特徴量選択用モデルに関する精度情報のうち、所定の条件を満たす精度情報の特徴量選択用モデル(例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの1つの特徴量選択用モデル等)において、特徴量の重要度を計算する。より具体的には、どの特徴量が特徴量選択用モデルの精度に寄与しているかを数値化する。なお、ここで、特徴量とは、機械学習における特徴量(即ち、対象物の特徴、特性を定量的に示したもの)のことであり、ここでは、複数の化学物質に関する情報から導出される化学構造情報及び物性情報、生成物質から導出される化学構造情報及び物性情報、及び反応条件が、特徴量に該当する。
【0040】
削減可否判定部154は、重要度計算部153により計算された重要度に基づいて、特徴量の削除可否を判定する。削除可否判定部154は、原則として、特徴量のうち、重要度の低い特徴量を削除対象として判定し、例外として、重要度の低い特徴量が制御条件に該当する場合には、その重要度の低い特徴量を削除することなく(即ち、重要度の低い特徴量の性質に応じて、その重要度の低い特徴量を削除することなく)、次に重要度の低い特徴量が制御条件に該当せず、かつ特徴量として複数、存在する場合に、その次に重要度の低い特徴量を削除対象として判定する。このような判定処理を、削除対象とされる特徴量が無くなるまで繰り返し実行する。なお、ここでの処理に関して、
図16を用いて後述する。第2の特徴量削減部155は、削減可否判定部154により削除対象として判定された特徴量を削除することで、特徴量を削減する。
【0041】
特徴量群選択部156は、特徴量選択用モデルを生成した都度、保存している精度情報のうち、所定の条件を満たす精度情報の特徴量選択用モデル(例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの1つの特徴量選択用モデル等)の生成に用いられた特徴量を特徴量群として選択する。なお、選択された特徴量群は、制御部11により記憶部17に記憶され、その後、推定モデル生成部16に渡される。
【0042】
推定モデル生成部16は、第3の教師データ分割部161、複数推定モデル生成部162、推定モデル混合部163を有し、特徴量選択部15において選択された特徴量群に基づいて、複数の推定モデルを生成する。複数推定モデル生成部162は、各々の機械学習方法(決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ)に従って、複数の推定モデルを生成する。
【0043】
第3の教師データ分割部161は、教師データ生成部13により生成された教師データ(前処理部14により、教師データ生成部13により生成された教師データに対して前処理(加工処理)が施された場合には、その前処理が施された教師データ)を、ランダムに第1の教師データと第1の検証データに分割する。例えば、第1の教師データと第1の検証データを90対10の割合でランダムに分割する。
【0044】
複数推定モデル生成部162は、
図5Aに示されるように、第2の教師データ分割部1621、第2のハイパーパラメータ設定部1622、第2の最適化済みモデル生成部1623、第2の検証部1624、第2の期待改善度判定部1625を有し、特徴量選択用モデル生成部152とおおよそ同様の構成を備えるが、特徴量選択用モデル生成部152はいずれか1つの機械学習方法に従ってモデル(特徴量選択用モデル)を生成するのに対して、複数推定モデル生成部162は複数の機械学習方法に従って推定モデル(回帰モデル)を生成する点で異なる。以下、各々の機能ブロックについて説明する。
【0045】
第2の教師データ分割部1621は、第3の教師データ分割部161により分割された第1の教師データを、さらに、モデリングに用いる機械学習の数に応じて、最適化されたハイパーパラメータで推定モデルを生成するための第2の教師データと、第2の検証部1624において、生成された推定モデルを検証するための第2の検証データに分割する。なお、第1の教師データから第2の教師データと第2の検証データに分割する方法として、例えば、ブートストラップ法等を適用することができる。
【0046】
第2のハイパーパラメータ設定部1622は、モデリングに用いる機械学習の数に応じて実装され(即ち、第2のハイパーパラメータ設定部1622-1、第2のハイパーパラメータ設定部1622-2、・・・第2のハイパーパラメータ設定部1622-n等で実装され)、その各々において、後段のその機械学習に対応する第2の最適化済みモデル生成部1623において推定モデルを生成する上でのハイパーパラメータを設定する。
【0047】
なお、ここでのハイパーパラメータも、上述と同様に、モデル固有のパラメータであって、設計者・モデル構築者が事前に設定する必要のあるパラメータ(設定可能なパラメータ)として定義される。また、第2のハイパーパラメータ設定部1622の各々は、ハイパーパラメータを設定する上で、第2の最適化部を有し、例えば、ベイズ最適化等を用いることで、ハイパーパラメータを掃引させ、ハイパーパラメータを設定する。第2の最適化部は、ハイパーパラメータの設定に際して、期待改善度を出力する(ベイズ最適化では、Expected Improvement (EI))等を出力する)。
【0048】
第2の最適化済みモデル生成部1623も、第2のハイパーパラメータ設定部1622と同様に、モデリングに用いる機械学習の数に応じて実装され(即ち、第2のハイパーパラメータ設定部1622と同数であって、第2の最適化済みモデル生成部1623-1、第2の最適化済みモデル生成部1623-2、・・・第2の最適化済みモデル生成部1623-n等で実装され)、第2の最適化済みモデル生成部1623の各々は、対応する第2のハイパーパラメータ設定部1622に関連付けられ、その関連付けられた第2のハイパーパラメータ設定部1622によりハイパーパラメータが設定されると、その第2の最適化済みモデル生成部1623に設定された機械学習法(上述のように、例えば、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等)に従って、推定モデルを生成する。
【0049】
第2の検証部1624は、第2のハイパーパラメータ設定部1622と同様に、モデリングに用いる機械学習の数に応じて実装され(即ち、第2の最適化済みモデル生成部1623と同数であって、第2の検証部1624-1、第2の検証部1624-2、・・・第2の検証部1624-n等で実装され)、第2の検証部1624の各々は、対応する第2の最適化済みモデル生成部1623に関連付けられ、その関連付けられた第2の最適化済みモデル生成部1623により最適化済みモデル(推定モデル)が生成されると、第2の教師データ分割部1621により分割された対応する検証するための第2の検証データを用いて、その第2の最適化済みモデル生成部1623により生成された推定モデルの精度を検証し、精度情報を生成する。なお、生成された精度情報は、推定モデルと共に制御部11により記憶部17に記憶される。
【0050】
第2の期待改善度判定部1625は、第2のハイパーパラメータ設定部1622と同様に、モデリングに用いる機械学習の数に応じて実装され(即ち、第2の検証部1624と同数であって、第2の期待改善度判定部1625-1、第2の期待改善度判定部1625-2、・・・第2の期待改善度判定部1625-n等で実装され)、第2の期待改善度判定部1625の各々は、対応する第2の検証部1624(第2のハイパーパラメータ設定部1622)に関連付けられ、対応する第2の最適化部16221で出力された期待改善度を所定の閾値と比較することで、対応する第2のハイパーパラメータ設定部1622(より正確には、第2の最適化部16221)において、ハイパーパラメータを調整する必要があるか否かを判定する。即ち、生成される推定モデルの精度に関して、改善の余地があるか否かを判定する。そして、改善の余地があると判定すると、第2の期待改善度判定部1625において改善の余地がないと判定されるまで、制御部11は、第2のハイパーパラメータ設定部1622におけるハイパーパラメータ設定処理から第2の検証部1624における検証処理までの処理を繰り返し実行させるように制御する。
【0051】
推定モデル混合部163は、
図5Bに示されるように、重み設定部1631、第3の検証部1632、第3の期待改善度判定部1633を有し、複数推定モデル生成部162において生成された複数の推定モデルに関して、混合処理を実行し、複数の推定モデルの各々に最適な重みを設定する。
【0052】
重み設定部1631は、第4の最適化部16311を有し、例えば、ベイズ最適化等を用いることで、複数推定モデル生成部162において生成された複数の推定モデルに設定する重みを掃引させ、重みを調整(設定)する。第4の最適化部は、重みの設定に際して、期待改善度を出力する(ベイズ最適化では、Expected Improvement (EI)等を出力する)。
【0053】
第3の検証部1632は、複数推定モデル生成部162において生成された複数の推定モデルの各々に設定された重みを、その対応する推定モデルの予測値に掛け合わせ、さらに、それらを足し合わせることで算出された結果を、第1の検証データと比較する。なお、複数の推定モデルの各々に設定された重みと、比較結果(検証結果)は、制御部11により、生成した推定モデルに関連付けられて記憶部17に記憶される。
【0054】
第3の期待改善度判定部1633は、第4の最適化部16311で出力された期待改善度を、所定の閾値と比較することで、重み設定部1631(より正確には、第4の最適化部16311)において、重みを調整する必要があるか否かを判定する。即ち、複数の推定モデルの各々に関して、重みと予測値を掛け合わせ、それらを混合した結果の精度に関して、改善の余地があるか否かを判定する。そして、改善の余地があると判定すると、第3の期待改善度判定部1633において改善の余地がないと判定されるまで、制御部11は、重み設定部1631における重みの設定処理、及び第3の検証部1632における検証処理を繰り返し実行させるように制御する。
【0055】
記憶部17は、上述のように、所定のプログラム、中間データ、各種処理の実行結果(データ)を記憶する。なお、中間データとしては、例えば、特徴量を削減する過程で出力される教師データ(データセット)等が該当し、また、各種処理の実行結果としては、例えば、推定モデルと、その推定モデルに関連付けられた重み等が該当することになる。
【0056】
次に、
図6のフローチャートを用いて、モデル生成装置1における推定モデルを生成する処理について説明する。なお、以下において、フローチャートの説明における記号「S」は、ステップを表すものとする。即ち、ここでは、フローチャートの各処理ステップS1-1~ステップS1-8をS1-1~S1-8と略記する。また、この点、後述のフローチャートにおいても同様とする。
【0057】
S1-1において、モデル生成装置1は、データ取得部12により、複数の化学物質に関する情報(化学物質Aに関するSMILES記法等で記載された情報と化学物質Bに関するSMILES記法等で記載された情報)、生成物質に関する情報(生成物質に関するSMILES記法等で記載された情報)、反応条件、及び収率を取得する。
【0058】
S1-2において、モデル生成装置1は、分子記述子導出部132により、化学物質に関する情報に基づいて分子記述子を導出する。なお、ここでの処理は、
図7を用いて、詳細に説明することができる。
図7は、分子記述子導出部132における分子記述子を導出する手順を示すフローチャートである。S1-2-1において、分子記述子導出部132は、上述のように、化学構造情報を算出する。S1-2-2において、分子記述子導出部132は、化学物質の示す物理的、化学的性質を示す情報(物性情報)を記憶する物性情報データベース133より、物性情報を取得する。なお、S1-2-1における処理と、S1-2-2における処理は、その順序を問われることはなく、並列に実行されてもよい。また、モデル生成装置1は、分子記述子導出部132により、化学物質に関する情報に基づいて分子記述子を導出するのと同様に、生成物質に関する情報に基づいて分子記述子を導出する。
【0059】
S1-3において、データセット生成部131は、S1-2において、化学物質に関する情報に対して導出された分子記述子、及び、生成物質に関する情報に対して導出された分子記述子、並びに、データ取得部12により取得された反応条件及び収率を、データを構成する要素として追加することで、
図8に示されるようなデータセットを教師データとして生成する。
【0060】
図8は、データセットの生成処理を、その一例として示す図であり、より詳細には、その生成処理の過程を例示したものである。
図8Aでは、データセットの生成段階の第1ステップとして、収率、化学物質(化学物質A及び化学物質B)に関する情報、化学物質A及び化学物質Bを反応させた際に生成される生成物質に関する情報、並びに反応条件に関する情報(溶媒、温度、濃度、滴下速度)をデータセットとして構成させたものを示している。なお、化学物質に関する情報及び生成物質に関する情報は、SMILES表記で示され、また、一部の反応条件に関しては、制御条件として示される。
【0061】
また、
図8Bでは、データセットの生成段階の第2ステップとして、第1ステップで生成されたデータセットにおいて、化学物質(化学物質A、化学物質B、並びに、化学物質A及び化学物質Bを反応させた際に生成される生成物質、溶媒)に関する情報を、分子記述子として表現し(分子記述子に変換し)、データとしてデータセットに付加した状態が示されている。さらに、
図8Cでは、データセットの生成段階の第3ステップとして、第2ステップで生成されたデータセットにおいて、化学物質(化学物質A、化学物質B、並びに、化学物質A及び化学物質Bを反応させた際に生成される生成物質、溶媒)に関する情報を、物性情報DB133から取得したデータをデータセットに付加した状態が示されている。
【0062】
S1-4において、モデル生成装置1は、欠損値処理部142により、S1-3において、教師データ生成部13により生成された教師データ(データセット)において、欠損値がある場合に、欠損値処理(即ち、一部のデータの削除処理、又は欠損値の補修処理)を実行する。
【0063】
図9は、欠損値処理部142における欠損値処理を示す図であり、
図9Aは、データセットにおいて、欠損値のある行を行単位で削除する処理、
図9Bは、データセットにおいて、欠損値のある列を列単位で削除する処理、
図9Cは、データセットにおいて、欠損値のある行の統計量(平均値)で補修する処理、
図9Dは、データセットにおいて、欠損値のある列の統計量(最頻値)で補修する処理を示している。
【0064】
S1-5において、モデル生成装置1は、S1-3において生成された教師データ(データセット)、また、S1-4において、欠損値処理が実行された場合には、教師データ生成部13により生成された教師データに欠損値処理が施された教師データ(データセット)において、数値として示されていないカテゴリー(反応条件)がある場合に、その数値として示されていないカテゴリー(反応条件)を、カテゴリー値変換部141により数値に変換する。
【0065】
図10は、カテゴリー値変換部141における処理を示す図であり、具体的には、One hot encoding法を用いて、カテゴリー値を数値に変換する処理を、その一例として示したものである。
図10では、温度調整方法と撹拌機の各々のカテゴリー変数に関して、機械学習のアルゴリズムが学習しやすいように、ダミー変数に変換しており、より具体的には、
図10に示されるように、「温度調整方法」に関して、「温度調整方法_段階」を「1,0,0」、「温度調整方法_連続」を「0,1,0」、「温度調整方法_調整なし」を「0,0,1」、また、「撹拌機」に関して、「撹拌機_撹拌子」を「1,0,0」、「撹拌機_3枚後退翼」を「0,1,0」、「撹拌機_アンカー」を「0,0,1」に変換している。
【0066】
S1-6において、モデル生成装置1は、データ標準化/正規化部143により、データセットを構成する各カテゴリー別に、データを標準化したり、又は、そのカテゴリーを構成するデータの最大値/最小値を用いて、0と1との間の実数値に正規化したりする。
【0067】
S1-7において、モデル生成装置1は、特徴量選択部15により、S1-8において推定モデルを生成する上で、所定の条件を満たす精度情報の特徴量選択用モデル(例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの1つの特徴量選択用モデル等)の反応条件を特徴量の群(特徴量群)として選択する。なお、ここでの処理は、
図11を用いて、詳細に説明することができる。
【0068】
図11は、特徴量選択部15における特徴量(特徴量群)を選択する処理の手順を示すフローチャートである。S1-7-1において、モデル生成装置1は、第1の特徴量削減部151により、教師データ(データセット)において、特徴量を削減(削除)する。また、ここでの処理は、補足として、
図12のフローチャートとして、さらに詳細に示すことができる。
【0069】
S1-7-1-1において、モデル生成装置1は、第1の特徴量削減部151の相関係数算出部1511により相関係数を算出する。ここで、
図13は、相関係数と、その相関係数に従って特徴量を削減する処理を示す図であり、
図13では、一方の特徴量と他方の特徴量との相関係数が算出され、その算出された相関係数が、各々、マトリクスの対応する位置に示されている。
【0070】
S1-7-1-2において、モデル生成装置1は、第1の特徴量削減部151の相関係数判定部1512により、所定の相関係数で示される特徴量のうち、一方の特徴量を削除対象として判定する。ここで、所定の相関係数を0.9とした場合、
図13Aでは、化学物質1_FP1と化学物質1_物性5の相関係数が、所定の相関係数(相関値)以上として算出されていることから(即ち、0.9以上である0.95として算出されていることから)、相関係数判定部1512は、先ず、化学物質1_FP1と化学物質1_物性5を削除対象の候補として判定する。なお、ここで、化学物質1_FP1のFP(フィンガープリント)は、化学構造情報のことであり、化合物質中に特定の部分構造が含まれるか否かを「0」又は「1」で示すものである。
【0071】
次に、相関係数判定部1512は、化学物質1_FP1と化学物質1_物性5の各々に関して、他の特徴量(この場合、化学物質1_物性100)との相関係数を踏まえ、化学物質1_FP1と化学物質1_物性5のいずれかを削除対象として判定する。具体的には、化学物質1_FP1と化学物質1_物性100の相関係数は0.4であり、また、化学物質1_物性5と化学物質1_物性100の相関係数は0.6であることから(即ち、化学物質1_物性5と化学物質1_物性100の相関係数(相関値)の方が化学物質1_FP1と化学物質1_物性100の相関係数(相関値)よりも高いことから)、相関係数判定部1512は、化学物質1_物性5を削除対象として判定する。
【0072】
図13Bの場合も同様に判定処理が実行され、相関係数判定部1512は、先ず、化学物質2_FP1と化学物質2_物性100を削除対象の候補として判定し、次に、他の特徴量(この場合、化学物質2_物性5)との相関係数を踏まえ、化学物質2_物性100を削除対象として判定する。
【0073】
S1-7-1-3において、モデル生成装置1は、第1の特徴量削減部151の特徴量削除部1513により、S1-7-1-2において削除対象として判定された特徴量を削除する。このように処理することで、教師データ(データセット)において特徴量を削減することができる。
【0074】
図11のフローチャートに戻り、S1-7-1における特徴量の削減処理が実行されると、S1-7-2において、モデル生成装置1は、第1の特徴量削減部151の特徴量選択用モデル生成部152により、特徴量選択用モデルを生成する。また、ここでの処理は、補足として、
図14のフローチャートとして、さらに詳細に示すことができる。
【0075】
S1-7-2-1において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の教師データ分割部1521により、教師データを所定の割合で、最適化されたハイパーパラメータで特徴量選択用モデルを生成するための教師データと、第1の検証部1524において、生成された特徴量選択用モデルを検証するための検証データに分割する。なお、分割された教師データの各々は、制御部11により、記憶部17に記憶される。
【0076】
S1-7-2-2において、モデル生成装置1は、制御部11により、未だ特徴量選択用モデルの生成処理が実行されていないことから、n=1であると判定し(S1-7-2-2 No)、処理をS1-7-2-3に移行させる。S1-7-2-3において、モデル生成装置1は、特徴量選択用モデル生成部152の第1のハイパーパラメータ設定部1522により、未だ特徴量選択用モデルの生成処理が実行されていないことを前提に、ハイパーパラメータとして初期値を設定する。
【0077】
S1-7-2-4において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の最適化済みモデル生成部1523により、設定されたハイパーパラメータ(初期値)に従って、特徴量選択用モデルを生成する。S1-7-2-5において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の検証部1524により、S1-7-2-4において生成された特徴量選択用モデルの精度を検証する。また、モデル生成装置1は、その検証した結果(検証結果)を、制御部11により記憶部17に記憶する。
【0078】
S1-7-2-6において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の期待改善度判定部1525により、初期値として設定されている期待改善度を所定の閾値と比較することで、処理をS1-7-2-2に返すか否かを判定する。なお、ここで、初期値は、特徴量を選択する上で必要十分な数のモデルが生成されるように設定される(即ち、処理がS1-7-2-2に返されるように設定される)。
【0079】
処理がS1-7-2-2に返されると、モデル生成装置1は、制御部11により、特徴量選択用モデルの生成処理が実行されたことから、n≠1であると判定し(S1-7-2-2 Yes)、処理をS1-7-2-7に移行させる。S1-7-2-7において、モデル生成装置1は、特徴量選択用モデル生成部152の第1のハイパーパラメータ設定部1522(第1の最適化部15221)により、ハイパーパラメータの最適化を実行する。なお、第1のハイパーパラメータ設定部1522は、最適化を実行する過程で、期待改善度を出力する。
【0080】
S1-7-2-8において、モデル生成装置1は、制御部11により、S1-7-2-7のハイパーパラメータの最適化処理の実行時に出力される期待改善度を、記憶部17に記憶する。その後、処理はS1-7-2-3に移行され、モデル生成装置1は、特徴量選択用モデル生成部152の第1のハイパーパラメータ設定部1522により、S1-7-2-7において最適化されたハイパーパラメータを、最適化済みモデルの生成用のハイパーパラメータとして設定する。
【0081】
S1-7-2-4において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の最適化済みモデル生成部1523により、S1-7-2-7において最適化され、S1-7-2-3において設定されたハイパーパラメータを用いて、最適化済みモデル(即ち、ハイパーパラメータが最適化された特徴量選択用モデル)を生成する。S1-7-2-5において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の検証部1524により、S1-7-2-4において生成された最適化済みモデルの精度を検証する。また、その検証結果を、制御部11により記憶部17に記憶する。
【0082】
S1-7-2-6において、モデル生成装置1は、特徴量選択用モデル生成部152の第1の期待改善度判定部1525により、S1-7-2-8において出力され、記憶された期待改善度と所定の閾値と比較することで、処理をS1-7-2-2に返すか否かを判定する。より具体的には、モデル生成装置1は、特徴量選択用モデル生成部152の第1の期待改善度判定部1525により、S1-7-2-8において出力され、記憶された期待改善度が所定の閾値未満であると判定されると、処理をS1-7-2-2に返し、S1-7-2-8において出力され、記憶された期待改善度が所定の閾値以上であると判定されると、特徴量選択用モデルを生成する処理を終了する。
【0083】
このように、S1-7-2の処理において、S1-7-2-8において出力され、記憶された期待改善度が所定の閾値以上になるまで、S1-7-2-2、S1-7-2-7、S1-7-2-8、S1-7-2-3、S1-7-2-4、S1-7-2-5、S1-7-2-6の処理が繰り返し実行され、また、その実行される都度、最適化されたハイパーパラメータと検証結果を記憶する。そして、S1-7-2-8において出力され、記憶された期待改善度が所定の閾値以上になると、
図14に示される処理(即ち、S1-7-2の処理)を終了する。
【0084】
補足として、S1-7-2-4において生成される特徴量選択用モデルに関して、機械学習方法として決定木を用いた場合を例にとり、説明を加える。
図15は、機械学習としての決定木を用いた場合のモデル(決定木モデル)を示す図である。ここで、決定木とは、所定の条件に従って分岐させることにより、データの推定(分類)を行うモデルである。
図15では、特徴量が割り当てられたノードが符号N10から符号N16までで示されており(即ち、各々のノードには、特徴量の条件(即ち、分岐させる条件)が設定されており)、その分岐させる条件に従って、下位のノードのいずれかに分類されるように、分岐させることを示している。
【0085】
例えば、符号N10に示されるノードでは、温度_℃≦-0.386であるか否かによって(即ち、反応条件の温度が-0.386以下であるか否かによって)分岐させている。より具体的には、温度_℃≦-0.386ではない場合(即ち、温度が-0.386より大きい場合)、符号N11のノードに分岐させる。また、温度_℃≦-0.386である場合(即ち、温度が-0.386以下の場合)、符号N12のノードに分岐させる。なお、ここでの温度(即ち、-0.386)は、正規化/標準化された値として示される。
【0086】
また、符号N10のノードから符号N11と符号N12のノードに分岐させるにあたり、平均二乗誤差(squared error)の和が最小となるように特徴量の条件を設定し、分岐(分割)させる。即ち、符号N11のノードにおける平均二乗誤差と、符号N12のノードにおける平均二乗誤差の和が最小となるように、分岐させる(ここでは、符号N11のノードに記載の平均二乗誤差と、符号N12のノードに記載の平均二乗誤差の和(1.587=0.832+0.755)が、平均二乗誤差の和として最小になると判定し、特徴量の条件を温度_℃≦-1.856、化学物質B量_mol%≦1.226として分岐させる)。
【0087】
図中において、ノードに記載されているSamplesは分割後のサンプル数、Valueは平均値として示され、それらの値は、平均二乗誤差を算出する上で用いられる。その他、補足として、
図15に示される決定木では、決定木のノードの特徴量は、温度、分子記述子等で示されているが、上述のように、平均二乗誤差を用いて分岐させることから、他の反応条件(例えば、濃度、滴下速度等)が特徴量として選択されることもある。また、決定木の深さとして、
図15では2までで示しているが、図中で「つづく」と記載してあるように、実際には、さらに深いものとして示される。
【0088】
図11のフローチャートに戻り、S1-7-2における特徴量選択用モデルの生成処理が実行されると、S1-7-3において、制御部11は、ハイパーパラメータが調整され、保存された特徴量選択用モデルの精度情報のうち、所定の条件を満たす精度情報(例えば、最も高い精度に関する情報、所定の閾値以上である精度のうちの1つの精度に関する情報等)に関連付けられた特徴量選択用モデルを特定(選択)する。
【0089】
S1-7-4において、モデル生成装置1は、重要度計算部153により、精度情報が所定の条件を満たすものとして記憶された特徴量選択用モデルにおいて、重要度を計算する。重要度は、上述のように、どの特徴量が特徴量選択用モデルの精度に寄与しているかを数値化したもので、構築された特徴量選択用モデルにおいて、特徴量毎に重要度を加算することで算出する。
【0090】
S1-7-5において、モデル生成装置1は、削減可否判定部154により、特徴量の数、特徴量が制御条件に該当するか、重要度計算部153により計算された特徴量毎の重要度等に基づいて、特徴量を削減(削除)することができるか否かを判定する。モデル生成装置1は、特徴量を削減(削除)することができると判定すると(S1-7-5 Yes)、処理をS1-7-6に移行させる。
【0091】
S1-7-6において、モデル生成装置1は、第2の特徴量削減部155により、S1-7-5において削減可能と判定された特徴量を、削減(削除)する。その後、処理は、S1-7-2に返され、S1-7-5において、特徴量を削除することができないと判定されるまで(S1-7-5 No)、S1-7-6、S1-7-2、S1-7-3、S1-7-4、S1-7-5の処理が繰り返し実行される。
【0092】
ここで、補足として、
図16を用いて、第2の特徴量削減部155において繰り返し実行される削減処理を示す。
図16Aは、制御部11により特定(選択)された所定の条件を満たす精度情報(例えば、最も高い精度に関する情報、所定の閾値以上である精度のうちの1つの精度に関する情報等)に関連付けられた特徴量選択用モデルをデータセットとして示したものである。この
図16Aにおいて、重要度計算部153により溶媒1_物性100の重要度が最も低い重要度として計算されると、溶媒1_物性100が制御条件に該当するものではなく、また、溶媒1_物性1が特徴量として存在することから(その他に、溶媒1_物性1-99が特徴量として存在することから)、削減可否判定部154により特徴量を削減可能と判定される。
【0093】
次に、重要度計算部153により最も重要度が低いとして計算され、削減可否判定部154により削減対象と判定された溶媒1_物性100が、第2の特徴量削減部155により削減(削除)される(
図16B)。その後、再度、特徴量選択用モデルを生成する処理、所定の条件に基づいて特定(選択)された特徴量選択用モデルの重要度を計算する処理、特徴量を削除することができるか否かを判定する処理が実行される。
【0094】
削減可否判定部154における判定処理では、
図16Cに示される特徴量のうち、削除できる特徴量があるか否かを判定する。ここで、
図16Cに示される特徴量では、重要度の最も低い特徴量は温度(℃)になるが、温度(℃)は制御条件に該当することから削減対象として判定することは行なわず、温度(℃)の次に重要度の低い特徴量(化学物質B_FP1024)を特定し、さらに、その特徴量(化学物質B_FP1024)が制御条件に該当せず、かつ特徴量として複数、存在することを条件に、化学物質B_FP1024を削減対象として判定する。
【0095】
削減可否判定部154により削減可能と判定されると(化学物質B_FP1024が削減対象として判定されると)、その削減可否判定部154により削減対象として判定された化学物質B_FP1024が第2の特徴量削減部155により削減(削除)される。その後、特徴量選択用モデルを生成する処理、所定の条件に基づいて特定(選択)された特徴量選択用モデルの重要度を計算する処理、特徴量を削除することができるか否かを判定する処理が、削減対象とされる特徴量がなくなるまで、繰り返し実行される。
【0096】
図11に戻り、S1-7-5において、特徴量を削除することができないと判定されると(S1-7-5 No)、S1-7-7において、モデル生成装置1は、特徴量群選択部156により、S1-7-6において削除されることなく、残存している特徴量の群を選択する。なお、S1-7-7において、残存している特徴量の群が選択されると、
図11のフローチャートに示される一連の処理は終了する(即ち、S1-7に示される処理は終了する)。
【0097】
図6に戻り、S1-8において、モデル生成装置1は、推定モデル生成部16により、複数の推定モデルを生成する。なお、ここでの処理は、
図17を用いて、詳細に説明することができる。
図17は、推定モデル生成部16により、複数の推定モデルを生成する処理の手順を示すフローチャートである。
【0098】
図17のフローチャートに示されるように、モデル生成装置1は、第3の教師データ分割部161により、S1-8-1において、教師データ生成部13により生成された教師データ(前処理部14により、教師データ生成部13により生成された教師データに対して前処理(加工処理)が施された場合には、その前処理が施された教師データ)を、S1-8-2で用いる第1の教師データと、S1-8-3で用いる第1の検証データに分割する。
【0099】
S1-8-2において、推定モデル生成部16の複数推定モデル生成部162により、複数の推定モデルを生成し、次に、S1-8-3において、推定モデル生成部16の推定モデル混合部163により、複数の推定モデルを混合し、複数の推定モデルの各々に設定する重みを算出する。この
図17のフローチャートに示される処理(S1-8-1及びS1-8-2に示される処理)に関して、各々、
図18、
図20を用いて順に説明する。
【0100】
図18は、S1-8-2に示される処理(即ち、複数の推定モデルを生成する処理)の手順を示すフローチャートである。S1-8-2-1において、モデル生成装置1は、複数推定モデル生成部162の第2の教師データ分割部1621により、S1-8-1において分割された第1の教師データを、ブートストラップ法等の分割方法により、最適化されたハイパーパラメータで推定モデルを生成するための第2の教師データと、第2の検証部1624において、生成された推定モデルを検証するための第2の検証データに分割する(より詳細には、ここでは、第1の教師データを、最適化されたハイパーパラメータで推定モデルを生成するための第2の教師データ及び生成された推定モデルを検証するための第2の検証データを1セットとして、3セットに分割する)。
【0101】
S1-8-2-2において、モデル生成装置1は、制御部11により、3セットに分割された、最適化されたハイパーパラメータで推定モデルを生成するための第2の教師データ及び生成された推定モデルを検証するための第2の検証データを、セット毎に特徴量単位で記憶部17に記憶する。S1-8-2-3において、モデル生成装置1は、制御部11により、1セットとして分割された第2の教師データと第2の検証データを、予め設定された機械学習方法に割り当てる。上述のように、第1の教師データをブートストラップ法で3セットに分割していることから、制御部11は、その3セットの各々を、機械学習方法1-3(即ち、機械学習方法1、機械学習方法2、機械学習方法3)に割り当てる。
【0102】
機械学習方法1-3の各々は、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等の機械学習方法のいずれかで設定される。S1-8-2-4において、割り当てられた推定モデル生成用の第2の教師データを入力データとして、設定された機械学習方法を用いて推定モデルを生成する。S1-8-2-5、S1-8-2-6においても、S1-8-2-4と同様に、割り当てられた推定モデル生成用の第2の教師データを入力データとして、設定された機械学習方法を用いて推定モデルを生成する。
【0103】
なお、S1-8-2-4における処理、S1-8-2-5における処理、S1-8-2-6における処理は、同一の機械学習方法が用いられてもよく、また、その順序を問われることはなく、並列に実行されてもよい。さらに、これらの処理は、
図19を用いて、さらに詳細に示すことができ、ここでは、S1-8-2-4における処理を用いて例示する。
【0104】
S1-8-2-4-1において、モデル生成装置1は、制御部11により、設定された機械学習方法に応じた推定モデルの生成処理が未だ実行されていないことから、n=1であると判定し(S1-8-2-4-1 No)、処理をS1-8-2-4-2に移行させる。S1-8-2-4-2において、モデル生成装置1は、複数推定モデル生成部162の第2のハイパーパラメータ設定部1622により、設定された機械学習方法に応じた推定モデルの生成処理が未だ実行されていないこと前提に、ハイパーパラメータとして初期値を設定する。
【0105】
S1-8-2-4-3において、モデル生成装置1は、複数推定モデル生成部162の第2の最適化済みモデル生成部1623により、設定されたハイパーパラメータ(初期値)に従って、推定モデルを生成する。S1-8-2-4-4において、モデル生成装置1は、複数推定モデル生成部162の第2の検証部1624により、S1-8-2-4-3において生成された推定モデルの精度を検証する。また、その検証した結果(検証結果)を、制御部11により記憶部17に記憶する。
【0106】
S1-8-2-4-5において、モデル生成装置1は、複数推定モデル生成部162の第2の期待改善度判定部1625により、初期値として設定されている期待改善度を所定の閾値と比較することで、処理をS1-8-2-4-1に返すか否かを判定する。なお、ここで、初期値は、推定モデルの精度が所定の精度以上になるように、必要十分な数のモデルが生成されるように設定される(即ち、処理がS1-8-2-4-1に返されるように設定される)。
【0107】
処理がS1-8-2-4-1に返されると、モデル生成装置1は、制御部11により、設定された機械学習方法に応じた推定モデルの生成処理が実行されたことから、n≠1であると判定し(S1-8-2-4-1 Yes)、処理をS1-8-2-4-6に移行させる。S1-8-2-4-6において、モデル生成装置1は、複数推定モデル生成部162の第2のハイパーパラメータ設定部1622(第2の最適化部16221)により、ハイパーパラメータの最適化を実行する。
【0108】
S1-8-2-4-7において、モデル生成装置1は、制御部11により、S1-8-2-4-6のハイパーパラメータの最適化処理を実行する過程で出力される期待改善度を、記憶部17に記憶する。その後、処理はS1-8-2-4-2に移行され、モデル生成装置1は、複数推定モデル生成部162の第2のハイパーパラメータ設定部1622により、S1-8-2-4-6において最適化されたハイパーパラメータを、推定モデルの生成用のハイパーパラメータとして設定する。
【0109】
S1-8-2-4-3において、モデル生成装置1は、複数推定モデル生成部162の第2の最適化済みモデル生成部1623により、S1-8-2-4-6において最適化され、S1-8-2-4-2において設定されたハイパーパラメータを用いて、最適化済みモデル(即ち、ハイパーパラメータが最適化された推定モデル)を生成する。S1-8-2-4-4において、モデル生成装置1は、複数推定モデル生成部162の第2の検証部1624により、S1-8-2-4-3において生成された最適化済みモデルの精度を検証する。また、その検証結果を、制御部11により記憶部17に記憶する。
【0110】
S1-8-2-4-5において、モデル生成装置1は、複数推定モデル生成部162の第2の期待改善度判定部1625により、S1-8-2-4-7において出力され、記憶された期待改善度と所定の閾値と比較することで、処理をS1-8-2-4-1に返すか否かを判定する。より具体的には、モデル生成装置1は、複数推定モデル生成部162の第2の期待改善度判定部1625により、S1-8-2-4-7において出力され、記憶された期待改善度が所定の閾値未満であると判定されると、処理をS1-8-2-4-1に返し、S1-8-2-4-7において出力され、記憶された期待改善度が所定の閾値以上であると判定されると、推定モデルを生成する処理を終了する。
【0111】
このように、S1-8-2-4の処理において、S1-8-2-4-7において出力され、記憶された期待改善度が所定の閾値以上になるまで、S1-8-2-4-1、S1-8-2-4-6、S1-8-2-4-7、S1-8-2-4-2、S1-8-2-4-3、S1-8-2-4-4、S1-8-2-4-5の処理が繰り返し実行されることになる。そして、その実行される都度、最適化されたハイパーパラメータと検証結果が記憶されることになる。
図18のフローチャートに戻り、S1-8-2-4における処理と同様に、S1-8-2-5における処理、S1-8-2-6における処理が実行されると、
図18に示される複数推定モデルの生成処理が終了する(即ち、S1-8-2に示される処理は終了する)。
【0112】
次に、S1-8-3に示される処理(即ち、複数の推定モデルを混合する処理)を、
図20に示すフローチャートを用いて説明する。S1-8-3-1において、モデル生成装置1は、制御部11により、重みの設定処理が未だ実行されていないことから、n=1であると判定し(S1-8-3-1 No)、処理をS1-8-3-2に移行させる。S1-8-3-2において、モデル生成装置1は、推定モデル混合部163の重み設定部1631により、重みの設定処理が未だ実行されていないことを前提に、複数推定モデル生成部162において生成された複数の推定モデルの各々に付加する重みとして初期値を設定する。
【0113】
S1-8-3-3において、モデル生成装置1は、推定モデル混合部163の第3の検証部1632により、複数推定モデル生成部162において生成された複数の推定モデルの各々に設定された重み(初期値)を、その対応する推定モデルの予測値に掛け合わせ、さらに、それらを足し合わせる。
【0114】
S1-8-3-4において、モデル生成装置1は、推定モデル混合部163の第3の検証部1632により、S1-8-3-3の実行結果(算出結果)を第1の検証データと比較する。そして、モデル生成装置1は、制御部11により、その比較した結果(検証結果)と、複数の推定モデルの各々に設定された重みを、生成した推定モデルに関連付けられて記憶部17に記憶する。
【0115】
S1-8-3-5において、モデル生成装置1は、推定モデル混合部163の第3の期待改善度判定部1633により、初期値として設定されている期待改善度を所定の閾値と比較することで、処理をS1-8-3-1に返すか否かを判定する。なお、ここで、初期値は、複数の推定モデルの各々に設定される重みが最適な値として付加されるように設定される(即ち、予測精度を高くするために、処理がS1-8-3-1に返されるように設定される)。
【0116】
処理がS1-8-3-1に返されると、モデル生成装置1は、制御部11により、重みの設定処理が実行されたことから、n≠1であると判定し(S1-8-3-1 Yes)、処理をS1-8-3-6に移行させる。S1-8-3-6において、モデル生成装置1は、推定モデル混合部163の重み設定部1631(第4の最適化部16311)により、複数の推定モデルの各々に付加する重みの最適化を実行する。
【0117】
S1-8-3-7において、モデル生成装置1は、制御部11により、S1-8-3-6の重みの最適化処理を実行する過程で出力される期待改善度を、記憶部17に記憶する。その後、処理はS1-8-3-2に移行され、モデル生成装置1は、推定モデル混合部163の重み設定部1631により、S1-8-3-6において最適化された重みを、複数推定モデル生成部162において生成された複数の推定モデルの各々に付加する重みとして設定する。
【0118】
S1-8-3-3において、モデル生成装置1は、推定モデル混合部163の第3の検証部1632によりにより、S1-8-3-6において最適化され、S1-8-3-2において設定された重みを、その対応する推定モデルの予測値に掛け合わせ、さらに、それらを足し合わせる。
【0119】
S1-8-3-4において、モデル生成装置1は、推定モデル混合部163の第3の検証部1632により、S1-8-3-3の実行結果(算出結果)を第1の検証データと比較する。そして、モデル生成装置1は、制御部11により、その比較した結果(検証結果)と、複数の推定モデルの各々に設定された重みを、生成した推定モデルに関連付けられて記憶部17に記憶する。
【0120】
S1-8-3-5において、モデル生成装置1は、推定モデル混合部163の第3の期待改善度判定部1633により、S1-8-3-7において出力され、記憶された期待改善度と所定の閾値と比較することで、処理をS1-8-3-1に返すか否かを判定する。より具体的には、モデル生成装置1は、推定モデル混合部163の第3の期待改善度判定部1633により、S1-8-3-7において出力され、記憶された期待改善度が所定の閾値未満であると判定されると、処理をS1-8-3-1に返す。
【0121】
このように、S1-8-3-5の処理において、S1-8-3-7において出力され、記憶された期待改善度が所定の閾値以上になるまで、S1-8-3-1、S1-8-3-6、S1-8-3-7、S1-8-3-2、S1-8-3-3、S1-8-3-4、S1-8-3-5の処理が繰り返し実行されることになる。そして、その実行される都度、最適化された重みと検証結果が、生成した推定モデルに関連付けられて記憶部17に記憶されることになる。そして、S1-8-3-5の処理において、S1-8-3-7で出力され、記憶された期待改善度が所定の閾値以上であると判定されると、複数の推定モデルを混合する処理を終了する(即ち、S1-8-3に示される処理は終了する)。
【0122】
補足として、
図21を用いて、推定モデル生成部16における処理の内容を、データの流れ(データフロー)に着目して説明する。S2-1として、教師データ生成部13により生成された教師データ(前処理部14により、教師データ生成部13により生成された教師データに対して前処理(加工処理)が施された場合には、その前処理が施された教師データ)が、推定モデル生成部16において取得される。
【0123】
S2-2として、その取得された教師データが、第1の教師データと、第1の検証データに分割される。S2-3として、その分割された第1の教師データは、ブートストラップ法により、さらに、第2の教師データと第2の検証データを1つのセットとする、3つのセットに分割される。なお、ここでの分割に関して、データの重複は許容される。即ち、第1のセットとして分割された第2の教師データと、第2のセットとして分割された第2の教師データに関して、データが重複していてもよい。
【0124】
S2-4として、第1のセット(第1のセットとしての第2の教師データ及び第2の検証データ)に基づいて、機械学習方法1により推定モデル1が生成される。そして、推定モデル1が生成されると、S2-7として、推定モデル1の予測値y1が算出される。同様に、S2-5として機械学習方法2により推定モデル2が生成され、S2-8として、推定モデル2の予測値y2が算出される。また、S2-6として機械学習方法3により推定モデル3が生成される。S2-9として、推定モデル3の予測値y3が算出される。
【0125】
S2-10として、複数の推定モデルの各々に対して、その推定モデルに対する重みが設定される(具体的には、推定モデル1に対して重みw1、推定モデル2に対して重みw2、推定モデル3に対して重みw3が設定される)。S2-11として、推定モデルの予測値と、その推定モデルに対応する重みを掛け合わせ、それらの総計が算出される(具体的には、推定モデル1の予測値1(y1)とその推定モデル1に対応する重み1(w1)の積、推定モデル2の予測値2(y2)とその推定モデル2に対応する重み2(w2)の積、推定モデル3の予測値3(y3)とその推定モデル3に対応する重み3(w3)の積の総計が算出される)。
【0126】
S2-11として、S2-10で算出された総計(結果)とS2-2で分割された第1の検証データを比較することで、その精度を検証する。S2-12として、比較した結果(検証結果)が、複数の推定モデルの各々に設定された重みと共に、生成した推定モデルに関連付けられて記憶部17に記憶される。また、ここでのS2-10からS2-14までのデータ処理は、上述の推定モデル生成部16における処理の手順を示すフローチャートにおいて説明したように、ベイズ最適化の実行過程で出力される期待改善度が所定の閾値以上になるまで、繰り返し実行されることになる。この点、
図21において、破線で示している。
【0127】
なお、推定モデルを提供する場合、S2-4で生成された推定モデル1、S2-5で生成された推定モデル2、及びS2-6で生成された推定モデル3と、S2-12で記憶された、それらの推定モデルに対応する検証結果のうち、最も精度が高いものとして検証された際の各々の推定モデルに対応する重み1、重み2、及び重み3とが提供されることになる。
【0128】
これにより、
図6のフローチャートにおけるS1-8に示される処理が完了する。以上、
図6のフローチャートを用いて、モデル生成装置1における推定モデルを生成する処理の手順について説明したが、モデル生成装置1における推定モデルを生成する処理の手順(処理)に関して、さらに、処理を纏めて示すこともできる。具体的には、S1-2の分子記述子の導出処理、及びS1-3のデータセットの生成処理は、教師データの生成処理として、また、S1-4の欠損値に関する処理、S1-5のカテゴリー値に関する処理、及びS1-6のデータの標準化/正規化に関する処理は、前処理として纏めることができる。
【0129】
加えて、前処理として示される処理(即ち、S1-4、S1-5、及びS1-6に示される処理)は、生成された教師データに応じて実行される処理であり(例えば、教師データに欠損値が含まれている場合に、欠損値処理(上述のように、例えば、一部のデータの削除処理、又は欠損値の補修処理)を実行するものであり)、必ずしも実行される処理ではない。
【0130】
また、
図6のフローチャート(本実施形態)では、モデルを生成する上で、その精度を向上させるために、(1)特徴量の削除に関する処理(S1-7-4、S1-7-6等)、(2)ハイパーパラメータの調整に関する処理(S1-7-2-7等)、(3)複数の推定モデルの生成と重みの設定に関する処理(S1-8)を行っている。具体的には、ハイパーパラメータを調整する処理、その調整したハイパーパラメータで生成した推定モデルに対して特徴量を削除する処理を所定の条件が満たされるまで繰り返し実行し、そして、その特徴量の削除に関する処理を実行した結果として取得される精度の高い推定モデルの生成に用いられた特徴量(特徴量群)を用いて複数の推定モデルの生成と重みの設定を行っている。
【0131】
そのため、S1-7-2-4において、ハイパーパラメータ(初期値)に従って、生成された特徴量選択用モデルに関して相応の精度を担保することができていることを前提に、ハイパーパラメータ(初期値)で生成された特徴量選択用モデルを、モデル生成装置1により生成した推定モデルとして提供することもできる。
【0132】
また、(1)特徴量の削除に関する処理、(2)ハイパーパラメータの調整に関する処理を個別に独立して実行し、その実行することで生成された特徴量選択用モデルのうち、所定の条件を満たす精度情報の特徴量選択用モデル(例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの1つの特徴量選択用モデル等)を、モデル生成装置1により生成した推定モデルとして提供することもできる。
【0133】
さらに、(3)複数の推定モデルの生成と重みの設定に関する処理も、同様に、(1)特徴量の削除に関する処理、(2)ハイパーパラメータの調整に関する処理とは、個別に独立して実行することもできる。即ち、ハイパーパラメータ(初期値)で生成された特徴量選択用モデルの特徴量に従って、複数の推定モデルの生成と、その生成した複数の推定モデルの各々に対して重みを設定することもできる。
【0134】
その他、補足として、上述の実施形態では、複数の化学物質に関する情報として、化学物質Aに関する情報と化学物質Bに関する情報の2つの化学物質に関する情報を用いて説明したが、3つ以上の化学物質に関する情報を用いて、モデルを生成することもできる。3つ以上の化学物質に関する情報を用いる場合、所定のデータセットとして生成される教師データを構成する要素として、例えば、化学物質A、化学物質B以外に化学物質C、化学物質D・・・等の化学物質の化学構造情報及び物性情報が加えられることなり、そのように構成されたデータセット(教師データ)を前提に、特徴量の選択処理(特徴量の削除処理)、複数の推定モデルの生成処理を実行すればよい。
【0135】
以上、説明したように、本実施形態によれば、反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を入力値、また、その生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値とする推定モデルを生成することで、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することができる。
【0136】
(反応条件の提供(反応条件の提供装置))
図22は、本実施形態に係る反応条件の提供装置5の機能構成を示すブロック図である。反応条件の提供装置5は、
図22に示されるように、その機能として、大きく、制御部51、データ取得部52、化学特性情報生成部53、反応条件設定部54、欠損値処理部55、推定モデル56、解析部57、表示制御部58、記憶部59を備える。
【0137】
制御部51は、各機能ブロックの処理を制御する機能ブロックである。データ取得部52は、複数の化学物質に関する情報と、その複数の化学物質を反応させて生成する生成物質(生成目的とする生成物質)に関する情報を取得する。データ取得部52により取得された複数の化学物質に関する情報と、生成目的とする生成物質に関する情報は、制御部51により、一時的に記憶部59に記憶される。なお、化学物質に関する情報及び生成物質に関する情報は、SMILES記法、MOLファイル、SDFファイル等の記法で記載することができ、本実施形態では、モデル生成装置の場合と同様に、SMILES記法で記載された情報を取得するものとする。また、ここでは、複数の化学物質に関する情報として、化学物質Aに関する情報と化学物質Bに関する情報の2つの化学物質に関する情報を用いて説明する。
【0138】
化学特性情報生成部53は、データセット生成部531、分子記述子導出部532、物性情報データベース(図中、物性情報DB)533を有し、データ取得部52により取得された化学物質に関する情報から化学特性情報を生成する。データセット生成部531は、分子記述子導出部532により導出された化学構造情報、及び物性情報データベース533より取得された物性情報に基づいて、化学特性情報を所定のデータセットとして生成する。なお、ここでの化学物質に関する情報において実行される処理は、データ取得部52により取得された生成物質に関する情報に対しても、同様に実行される。また、物性情報データベース533に格納される物性情報は、上述の
図1Bに示されるように、外部のサーバ装置から有線又は無線の通信ネットワークを介して、更新させることができる。この点、後述の反応条件データベース541についても同様である。
【0139】
分子記述子導出部532は、分子の構造を決定する上での指標(数値)として示される化学構造情報、及び物性情報を分子記述子として導出する。分子記述子の導出にあたり、モデル生成装置の場合と同様に、Morgan法を用いて説明するが、Mordred法、RDkit descriptor法等を用いることもできる。即ち、ここでは、モデル生成装置の場合と同様に、化学構造情報を算出し、物性情報を所定のデータベースから取得することで分子記述子を導出する。
【0140】
なお、分子記述子導出部532により導出された分子記述子(即ち、算出した化学構造情報、及び取得した物性情報)は、データセット生成部531により、データセットにデータ(構成要素)として追加される。このように、データセット生成部531は、化学物質に関する情報に、分子記述子をデータセットの構成要素として追加し、さらに、生成物質に関する情報に、分子記述子をデータセットの構成要素として追加することで、化学特性情報を所定のデータセットとして生成する。
【0141】
反応条件設定部54は、反応条件データベース(図中、反応条件DB)541、類似度算出部542、第1の反応条件選択部543、反応条件範囲設定部544を有し、化学特性情報生成部53により生成された化学特性情報に基づいて、解析部57(より詳細には、解析部57の反応シミュレーション部571)に入力する反応条件を設定する。
【0142】
反応条件データベース541は、過去に実施された実験のデータを格納したデータベースであり、具体的には、反応させた複数の化学物質と、その複数の化学物質を反応させたときの反応条件、その反応させた結果として生成された生成物質を1つのデータセットとして、反応条件を推定する上で必要十分な数のデータセットを記憶する。なお、反応条件データベース541に記憶されている、複数の化学物質と生成物質は、SMILES記法で記載されているものとする。
【0143】
類似度算出部542は、データ取得部52により取得された、複数の化学物質に関する情報と、反応条件データベース541に記憶された、過去に反応させた複数の化学物質に関する情報との類似度を所定の指標を用いて算出する。また、生成物質に関しても、同様に、類似度算出部542は、データ取得部52により取得された、生成物質に関する情報と、過去に反応させた結果として生成された生成物質に関する情報との類似度を所定の指標を用いて算出する。
【0144】
このように、類似度を算出し、その算出された類似度を評価することで選定された反応条件を推定モデルに入力することで、収率の高い反応条件を提供(推定)することができる。なお、本実施形態では、このように、入力された複数の化学物質に関する情報に類似する化学物質(又は、同一の化学物質)を特定する上で、類似度を用いているが、化学物質間の距離(距離行列、類似度行列)を用いることもできる。
【0145】
また、類似度を算出する指標(方法)としては、一致係数、タニモト係数、Dice係数等があり、ここでは、その一例としてタニモト係数を用いた類似度の算出について簡単に説明する。タニモト係数は、類似度の算出対象とする化合物の各々に関して、SMILES記法で記載された分子構造をフィンガープリントに変換し、フィンガープリント同士の類似度を計算するものである。
【0146】
より具体的には、タニモト係数(ここでは、化学物質xと化学物質yのタニモト係数)は、化学物質xと化学物質yに共通する部分構造の数を、化学物質xと化学物質yに含まれる部分構造の総数で除算した値として示される(即ち、下式のように示される)。なお、数式において、n(x∩y)は共通する部分構造の数、n(x∪y)は部分構造の総数(自然数)として示され、その除算した値が「1」に近いほど、化合物xと化合物yの類似度が高いものとなる。
【0147】
【0148】
ここで、化学物質xと化学物質yが、各々、下表1に示されるようなフィンガープリント(FP)を有している場合、n(x∩y)は「4」(FP2、FP3、FP5、FP10)、n(x∪y)は「7」(FP1、FP2、FP3、FP5、FP6、FP8、FP10)であり、そのため、タニモト係数は、4/7(=0.57)となる。なお、参考として、下表2には、化学物質xと化学物質zのフィンガープリントを示しており、この場合、タニモト係数は、5/7(=0.71)となることから、化学物質xが未知の化学物質である場合、化学物質yよりも化学物質zの方が、化学物質xに類似する化学物質として判定されることになる。
【0149】
【0150】
【0151】
第1の反応条件選択部543は、類似度算出部542により算出された類似度を、所定の閾値と比較することで、反応条件を選択する。反応条件範囲設定部544は、選択された反応条件より、想定される反応条件の組み合わせを設定する。なお、類似度算出部542、第1の反応条件選択部543、反応条件範囲設定部544における処理の内容は、後述の
図24を用いて具体的に説明する。
【0152】
欠損値処理部55は、反応条件範囲設定部544により設定された反応条件がデータセットとして所定の要件を充足していない場合に(即ち、解析部57において適切に解析を行うことができず、反応条件を適切に出力することができなくなることが予想される場合に)反応条件(データセット)に対して所定の欠損値処理を施す。
【0153】
ここでの欠損値処理は、モデル生成装置の場合と同様に、一部のデータを削除、又は欠損値を補修する処理を実行するものであり、より具体的には、(1)データセットにおいて、欠損値のある行、又は列の削除、(2)欠損値のある行、又は列の統計量(平均値、中央値、最頻値等)での補修が実行される。
【0154】
推定モデル56は、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等の機械学習方法で予め機械学習がなされた学習済の推定モデルである。ここで、本実施形態では、推定モデル56における学習及び再学習に関する処理は、反応条件の提供装置5とは別の装置(モデル生成装置1)で実行されているものとし、この場合、推定モデル56は、例えば、所定の記録媒体を介して、反応条件の提供装置5に提供されてもよく、また、例えば、所定のサーバ装置により反応条件の提供装置5に有線又は無線の通信ネットワークを介して配信されてもよく、どのような態様で反応条件の提供装置5に提供されてもよい。このように、ここでは、反応条件の提供装置とモデル生成装置とを別の装置として構成する例を示したが、本発明は必ずしもこれに限定されず、1つの装置の中に反応条件の提供装置の機能及びモデル生成装置の機能を実装する構成としてもよい。
【0155】
解析部57は、反応シミュレーション部571、ランク付与部572、判定部573、第2の反応条件選択部574、第3の最適化部575を有し、反応条件設定部54において設定された反応条件に従って、シミュレーションを実行し、その実行結果(解析結果)に基づいて、収率が所定の条件を充足する反応条件を選択して、出力(表示)対象とする。なお、収率が所定の条件を充足する反応条件がない場合には、第3の最適化部575により最適化された反応条件を出力対象とする。
【0156】
反応シミュレーション部571は、反応条件範囲設定部544により設定された反応条件(また、欠損値処理が実行された場合には、反応条件範囲設定部544により設定された反応条件に欠損値処理が施された反応条件)を推定モデル56に入力することで、反応シミュレーションを実行させる。なお、反応シミュレーションの実行が完了すると、制御部51は、その反応シミュレーションの実行結果(収率)を、反応条件に関連付けて記憶部59に記憶する。
【0157】
ランク付与部572は、収率が関連付けられ、記憶部59に記憶されている複数の反応条件の各々に対して、所定の条件に従って、ランクを付与する(ランク付けを行う)。例えば、収率が80%以上である場合を「A」、収率が80%未満であって、50%以上である場合を「B」、収率が50%未満である場合「C」としてランク付けを行う。判定部573は、収率が所定の条件を充足する反応条件があるか否かを判定する。具体的には、ランク付与部572で付与されたランクに基づいて、所定のランク以上の反応条件があるか否かを判定する(例えば、「B」ランク以上の反応条件があるか否かを判定する)。
【0158】
第2の反応条件選択部574は、判定部573において所定の条件を充足すると判定された反応条件(所定のランク以上である判定された反応条件)を出力対象として選択し、さらに、その出力対象として選択された反応条件に対して表示優先度を付与する。第3の最適化部575は、判定部573により所定の条件を充足する反応条件がないと判定された場合(所定のランク以上である反応条件がないと判定された場合)、反応条件を探索(再設定)する上で最適化処理を実行する。なお、ここでの処理に関して、後述の
図27から
図29までの図面を用いて説明するが、反応条件の設定(掃引)に関して、本実施形態において適用するベイズ最適化以外に、ランダムサーチ、グリッドサーチ等を適用することもできる。
【0159】
表示制御部58は、判定部573により所定の条件を充足する反応条件があると判定された場合(所定のランク以上である反応条件があると判定された場合)、第2の反応条件選択部574により出力対象として選択された反応条件を、表示優先度に従って外部の表示装置7に表示させるように制御する。また、表示制御部58は、判定部573により所定の条件を充足する反応条件がないと判定された場合、第3の最適化部575において最適化処理を実行した結果(反応条件)を表示するように制御する。
【0160】
次に、
図23のフローチャートを用いて、反応条件の提供装置5における反応条件を推定(提供)する処理の手順について説明する。S3-1において、反応条件の提供装置5は、データ取得部52により、複数の化学物質に関する情報(化学物質Aに関するSMILES記法で記載された情報と化学物質Bに関するSMILES記法で記載された情報)及び生成物質に関する情報(生成物質に関するSMILES記法で記載された情報)を取得する。
【0161】
S3-2において、反応条件の提供装置5は、分子記述子導出部532により、化学物質に関する情報及び生成物質に関する情報に基づいて、分子記述子を導出する。なお、ここでの処理は、モデル生成装置の場合と同様の処理となり、分子記述子導出部532は、化学構造情報の算出と物性情報の取得を実行する。S3-3において、反応条件の提供装置5は、データセット生成部531により、化学物質に関する情報に対して、S3-2において導出された分子記述子を、データを構成する要素として追加し、さらに、生成物質に関する情報に、分子記述子をデータセットの構成要素として追加することで、所定のデータセットを生成する。
【0162】
S3-4において、反応条件の提供装置5は、類似度算出部542により、データ取得部52により取得された、複数の化学物質に関する情報と、反応条件データベースに記憶された、過去に反応させた複数の化学物質に関する情報との類似度を算出する。また、反応条件の提供装置5は、生成物質に関しても、同様に、類似度算出部542により、データ取得部52により取得された、生成物質に関する情報と、過去に反応させた結果として生成された生成物質に関する情報との類似度を算出する。
【0163】
S3-5において、反応条件の提供装置5は、第1の反応条件選択部543によりS3-4において算出された類似度を所定の閾値と比較することで、反応条件を選択する。S3-6において、反応条件の提供装置5は、反応条件範囲設定部544により、S3-5において選択された反応条件から想定される反応条件の組み合わせを設定する。
【0164】
S3-7において、反応条件の提供装置5は、欠損値処理部55により、反応条件範囲設定部544により設定された反応条件がデータセットとして所定の要件を充足していない場合に、その反応条件(データセット)に対して所定の欠損値処理を施す。
【0165】
S3-8において、反応条件の提供装置5は、解析部57の反応シミュレーション部571により、S3-6において設定された反応条件を(また、その反応条件のうち、反応条件に欠損値があった場合には、その反応条件に所定の欠損値処理を施したものを)、推定モデル56に入力することで反応シミュレーションを実行させる。なお、反応シミュレーションの実行が完了すると、制御部51は、その反応シミュレーションの実行結果(収率)を、記憶部59に記憶する。
【0166】
S3-9において、反応条件の提供装置5は、解析部57のランク付与部572により、記憶部59に記憶されている複数の反応条件の各々に対して、その反応条件に関連付けられている収率(反応シミュレーションの実行結果)に基づいて、ランクを付与する(ランク付けを行う)。S3-10において、反応条件の提供装置5は、解析部57の判定部573により、S3-9において付与されたランクに基づいて、所定のランク以上の反応条件があるか否かを判定する。反応条件の提供装置5は、解析部57の判定部573により、複数の反応条件のうち、所定のランク以上の反応条件があると判定すると(S3-10 Yes)、処理をS3-11に移行させる。また、複数の反応条件のうち、所定のランク以上の反応条件がないと判定すると(S3-10 No)、処理をS3-13に移行させる。
【0167】
所定のランク以上の反応条件があると判定された場合、S3-11において、反応条件の提供装置5は、解析部57の第2の反応条件選択部574により、S3-10において所定の条件を充足すると判定された反応条件(所定のランク以上である判定された反応条件)を出力対象として選択し、さらに、その出力対象として選択された反応条件に対して表示優先度を付与する。S3-12において、反応条件の提供装置5は、表示制御部58により、S3-11において第2の反応条件選択部574により出力対象として選択された反応条件を、表示優先度に従って外部の表示装置7に表示させるように制御する。
【0168】
所定のランク以上の反応条件がないと判定された場合、S3-13において、反応条件の提供装置5は、第3の最適化部575により反応条件を最適化(再設定)する。なお、ここでの処理は、
図27から
図29までの図面を用いて後述するが、最適化を実行する上で、実験により取得されている収率の数(実験点)が不足している場合には、推定モデルを用いてシミュレーションを実行した結果に基づいて、仮想的に実験点を設定することもできる。S3-14において、反応条件の提供装置5は、S3-13において最適化処理を実行した結果として取得される反応条件を獲得関数の値が高い順に表示するように制御する。
【0169】
次に、
図24を用いて、上述の反応条件の提供装置5における反応条件を推定(提供)する処理の手順を示すフローチャート(
図23)のS3-4からS3-6までの処理を具体的に説明する。即ち、類似度の算出処理(S3-4)、反応条件の選択処理(S3-5)、反応条件の選定処理(S3-6)について、
図24を用いて説明する。
【0170】
図24において、
図24Aは、データ取得部52により取得された、複数の化学物質に関する情報(化学物質A及び化学物質Bに関する情報)及び生成物質に関する情報(
図24Aの左側)と、反応条件データベース541に記憶された、過去に実施された実験で反応させた複数の化学物質に関する情報(化学物質1-化学物質8)、その複数の化学物質を反応させた結果として生成された生成物質に関する情報(生成物質1-生成物質4)、及びその複数の化学物質を反応させたときの反応条件に関する情報(
図24Aの右側)を示している。なお、
図24Aにおいて、複数の化学物質に関する情報及び生成物質に関する情報は、SMILES記法で記載されている。また、複数の化学物質を反応させたときの反応条件に関する情報は、反応項目として示される。
【0171】
図24において、
図24Bは、
図24Aの左側に示される、複数の化学物質に関する情報(化学物質A及び化学物質Bに関する情報)及び生成物質に関する情報(
図24Aの左側)を分子記述子導出部532により化学構造情報(フィンガープリント)に変換したもの(
図24Bの左側)と、
図24Aの右側に示される、複数の化学物質に関する情報(化学物質1-化学物質8)、及びその複数の化学物質を反応させた結果として生成された生成物質に関する情報(生成物質1-生成物質4)を分子記述子導出部532により化学構造情報(フィンガープリント)に変換したもの、並びにその複数の化学物質を反応させたときの反応条件に関する情報(
図24Aの右側)を示している。
【0172】
図24において、
図24Cは、
図24Bの左側の複数の化学物質に関する情報(化学物質A及び化学物質Bの化学構造情報)と、
図24Bの右側の複数の化学物質に関する情報(化学物質1-化学物質8の化学構造情報)の類似度、
図24Bの左側の生成物質に関する情報(生成物質の化学構造情報)と、
図24Bの右側の複数の生成物質に関する情報(生成物質1-生成物質4の化学構造情報)の類似度を、上述のタニモト係数を用いて算出した結果を示している。なお、その算出された類似度には、反応条件に関する情報が関連付けられている。
【0173】
例えば、
図24Cにおいて、最も上に示される行は、左から順に(1)データ取得部52により取得された化学物質Aの化学構造情報と、反応条件データベース541に記憶された、過去に実施された実験で反応させた化学物質1の化学構造情報の類似度及び計算式(タニモト係数)、(2)データ取得部52により取得された化学物質Bの化学構造情報と、反応条件データベース541に記憶された、過去に実施された実験で反応させた化学物質2の化学構造情報の類似度及び計算式(タニモト係数)、(3)データ取得部52により取得された生成物質の化学構造情報と、反応条件データベース541に記憶された、化学物質1と化学物質2を反応させた結果として生成された生成物質1の化学構造情報の類似度及び計算式(タニモト係数)、(4)化学物質1と化学物質2を反応させたときの反応条件(温度、濃度、溶媒)を示している。
【0174】
図24において、
図24Dは、
図24Cで算出された類似度を所定の閾値と比較することで選択された反応条件を示している。具体的には、データ取得部52により取得された化学物質Aの化学構造情報と反応条件データベース541に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、データ取得部52により取得された化学物質Bの化学構造情報と反応条件データベース541に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、及びデータ取得部52により取得された生成物質の化学構造情報と反応条件データベース541に記憶された、化学物質を反応させた結果として生成された生成物質の化学構造情報の類似度の平均値を算出し、その平均値を所定の閾値と比較することで選択された反応条件を示している。ここでは、所定の閾値を0.8として、類似度が0.8以上の反応条件が選択され、示されている。
【0175】
なお、
図24では、上述のように、データ取得部52により取得された化学物質Aの化学構造情報と反応条件データベース541に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、データ取得部52により取得された化学物質Bの化学構造情報と反応条件データベース541に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、及びデータ取得部52により取得された生成物質の化学構造情報と反応条件データベース541に記憶された、化学物質を反応させた結果として生成された生成物質の化学構造情報の類似度の平均を用いて反応条件を選択したが、反応条件を選択するにあたり、加重平均を用いてもよい。例えば、データ取得部52により取得された生成物質の化学構造情報と反応条件データベース541に記憶された、化学物質を反応させた結果として生成された生成物質の化学構造情報の類似度の重みを相対的に高く設定して、平均を用いてもよい。
【0176】
図24において、
図24Eは、
図24Dで選択された反応条件から想定される反応条件の組み合わせが示されている。ここでは、反応条件として、
図24Dに示されるように、温度、濃度、溶媒を1セットとして、2セットあることを前提に(即ち、温度、濃度、溶媒の各々の反応条件に関して、2つの値を有すること前提に)、8つ(=2×2×2)の組み合わせを発生させ、それらの組み合わせを示している。このように、
図24A-
図24Eに示されるように、データ処理を実行することで、反応条件を設定する。
【0177】
そして、このように反応条件を設定すると、設定した反応条件(設定した反応条件に欠損値がある場合には、欠損値処理が施された反応条件)を、推定モデル56に入力することで、反応シミュレーションを実行する。次に、
図25を用いて、上述の反応条件の提供装置5における反応条件を推定(提供)する処理の手順を示すフローチャート(
図23)のS3-8からS3-12までの処理を具体的に説明する。即ち、反応シミュレーションの実行処理(S3-8)、ランクの付与処理(S3-9)、所定の条件を充足する反応条件があるか否かを判定する処理(S3-10)、所定の条件を充足する反応条件の選択処理(S3-11)について説明する。
【0178】
図25において、
図25Aは、S3-3において生成された所定のデータセット(即ち、分子記述子及び物性情報を構成要素とするデータセット)に、上述の
図24に示されるように設定された反応条件を付加(マージ)したデータセットとして示される。この
図25Aのデータセットを、推定モデル56に入力することで、反応シミュレーションを実行する。
【0179】
ここでの反応シミュレーションの実行処理に関して、
図26を用いて詳細に示すことができる。
図26は、複数の推定モデル(3つの推定モデル)を用いた場合の反応シミュレーションの処理を示した図である。
図26に示されるように、
図25Aのデータセットを、3つの推定モデルの各々に入力する。
【0180】
推定モデルの各々は、入力(
図25Aのデータセット)に対して計算処理を実行し、予測値を算出する。
図26において、
図26の左側から、推定モデル1は予測値をy1、推定モデル2は予測値をy2、推定モデル3は予測値をy3と算出する。そして、各々の推定モデルにおいて予測値を算出すると、各々の推定モデルに設定されている重みを、算出した予測値に掛け合わせ、さらに、それらを足し合わせる処理を実行する。
【0181】
即ち、算出した予測値y1に、推定モデル1に設定されている重みw1を掛け合わせ、算出した予測値y2に、推定モデル2に設定されている重みw2を掛け合わせ、算出した予測値y3に、推定モデル2に設定されている重みw3を掛け合わせ、その掛け合わせた結果を足し合わせる処理を実行する。そして、この足し合わせた結果(即ち、y1×w1+y2×w2+y3×w3を計算した結果)を収率として出力する。
【0182】
図25に戻り、
図25Aのデータセットの右側に、
図25に示されるように算出した収率が示される。
図25において、
図25Bは、算出した収率に対して、付与されたランクを示している。ここでは、収率が80%以上である場合を「A」、収率が80%未満であって、50%以上である場合を「B」、収率が50%未満である場合「C」としてランクを付与している。
【0183】
図25Bでは、反応条件2に「A」、反応条件1に「B」、それ以外(反応条件3-8)に「C」が、ランクとして付されている。このような前提で、解析部57の判定部573は、所定のランクとして「B」以上の反応条件があるか否かを判定する。ここでは、反応条件2が「A」、反応条件1が「B」であることから、ランクが「B」以上の反応条件があると判定される。なお、所定のランク以上の反応条件がない場合には(即ち、ここでは、ランクが「B」以上の反応条件がない場合には)、上述の
図23のフローチャートにおいてS3-10からS3-13に移行させることとして示したように、解析部57の第3の最適化部575により最適化処理を実行し、反応条件を探索する。
【0184】
図25において、
図25Cは、所定のランク以上の反応条件として、反応条件1、反応条件2が選択され、さらに、ランク(ランクが同じである場合には、収率)に応じて、表示優先度が設定されることを示している。ここでは、選択された反応条件のうち、反応条件2のランクが「A」で、反応条件1のランクが「B」であることから、反応条件2の表示優先度が1、反応条件1の表示優先度が2に設定される(即ち、反応条件2の方が反応条件1よりも優先して表示されるように設定される)。
【0185】
次に、
図27-
図29を用いて、推定結果として出力された反応条件が所定の条件(収率)を充足しない場合に実行されるベイズ最適化の処理について説明する。上述のように、反応条件の提供装置5では、推定結果として出力された反応条件が所定の条件(収率)を充足しない場合に(
図23のフローチャートのS3-10 Noの場合に)、ベイズ最適化を実行し、そのベイズ最適化を実行した結果に基づいて反応条件として出力する。ベイズ最適化は、収率を反応条件の関数として定めた場合に、収率の最大値を求めるための方法(ここでは、収率が最大値となる反応条件を求める方法)として示される。
【0186】
また、本実施形態では、(ベイズ最適化を1回、実行し、1つの反応条件を出力(提供)するのではなく)、一度に、ベイズ最適化を複数回、実行し、複数の反応条件を提供するようにする。このように、一度に、複数の反応条件を作業者に提供することで、作業者は、場合によって、実験(作業)を並行して実施することができ、結果、作業工数を削減することができる。なお、一度に、ベイズ最適化を複数回、実行する上で、Constant Liar Approach を適用する。
【0187】
以下、ここでの処理の内容を、
図27を用いて補足する。なお、説明の便宜上、特徴量である反応条件を1つ(例えば、温度)として説明する。
図27Aは、横軸を温度(反応条件)、縦軸を収率として、8つの実験点(実績)に基づいて予測される関数(予測線)を示すもので、同時に、その分散もベール状に示している。また、8つの実験点は、実際に、実験により取得された収率に基づいて設定される。なお、実験により取得されている収率の数が、ベイズ最適化を実行する上で不足している場合には、推定モデルを用いて推定した結果(
図23のフローチャートのS3-8)に基づいて、実験点を設定することもできる。
【0188】
この場合において、第3の最適化部575は、所定の獲得関数を用いて、次の実験点を決定する。なお、獲得関数として、例えば、EI(Expected Improvement)、PI(Probability of Improvement)、UCB(Upper Confidence Bounds)等を用いることができ、ここでは、PIを例に説明する。PIは、平均値と分散値を合わせたものを構成要素とする正規分布において、チャンピオンデータYmax(これまでに取得されている収率のうち、最も高い収率として示されるデータ)から無限大までを積分した値(
図28の斜線部分)として示され、その積分した値が最も高くなる温度が、チャンピオンデータの収率を超える可能性の高い温度として選択(特定)される。なお、ここでの正規分布は、確率分布の一種であり、下式のように示される。
【0189】
【0190】
なお、チャンピオンデータYmaxから無限大までを積分した値は、以下の数式で算出することができる。また、以下の数式において、εは、分散の度合いに応じて、次の実験点がチャンピオンデータYmaxに非常に近い点が選択されないように用いられ、例えば、0.01等に設定される。
【0191】
【0192】
そして、反応条件(温度)をシフトさせながら上式を計算し、PI(x(n+1))の値が最も高くなるx
(n+1)を特定する(即ち、
図28の斜線部分の面積が最も大きくなるx
(n+1)(即ち、次のサンプル)を特定する)。
図27Bにおいては、三角で示される温度が、獲得関数上、チャンピオンデータの収率を超える可能性の高い温度として特定される。
【0193】
本実施形態では、この提供される温度に基づいて、直ちに、実験(作業)を行って収率を測定するのではなく、上述のように、Constant Liar Approachを適用し、実験点が、その提供される温度に対応する予測線上に位置すると仮定して(
図27C、四角の位置であると仮定して)、さらに、ベイズ最適化を実行する。
【0194】
さらに、ベイズ最適化を実行すると、
図27Dのように、温度と収率の関係(関数)が示され、この関数に対して、獲得関数を用いて、チャンピオンデータの収率を超える可能性の高い温度を特定し(
図27E)、さらに、実験点が、その提供される温度に対応する予測線上に位置すると仮定して(図中、×の位置であると仮定して)、さらに、ベイズ最適化を実行する。
【0195】
このように、一度に、ベイズ最適化を複数回、実行し、複数の反応条件を出力(提供)するようにする。詰まりは、作業者が並行して実施することができる実験(作業)の数だけ、一度に、反応条件を出力するようにする。以下、ここでの処理手順に関して、フローチャートを用いて説明を補足する。
【0196】
図29は、Constant Liar Approachを適用してベイズ最適化を実行して、反応条件を特定する処理の手順を示すフローチャートである。
図29のフローチャートは、推定結果として出力された反応条件が所定の条件(収率)を充足しないこと等をトリガとして、処理が開始される。
【0197】
S4-1において、第3の最適化部575は、既知の実験点に従って、ベイズ最適化を実行する。なお、上述のように、既知の実験点が、ベイズ最適化を実行する上で不足している場合には、推定モデルを用いて推定した結果に基づいて、実験点を設定する。S4-2において、第3の最適化部575は、獲得関数に基づいて、チャンピオンデータの収率を超える可能性の高い反応条件を特定する。
【0198】
S4-3において、第3の最適化部575は、特定された反応条件が所定の数に到達しているか否かを判定する。ここでは、初期値として変数nに1が設定されており(n=1が設定されており)、反応条件として3つが特定(設定)されれば、この反応条件を特定する処理を終了する。なお、この所定の数は、作業者の経験、実験の内容に応じて、作業者が設定できるものとする。また、所定の数として、作業者が並行して実施することができる実験の数以外にも、例えば、その他の実験候補を参考程度に知りたい場合にその実験候補の数や、特徴量を特定の範囲に収めたい場合(例えば、温度を50℃以下に収めたい場合等)に並列して出力させる数を検討することができる。
【0199】
S4-4において、第3の最適化部575は、
図27で上述したように、チャンピオンデータの収率を超える可能性の高い反応条件の値に基づいて、実験点を仮設定する。S4-5において、第3の最適化部575は、その仮設定した実験点を含め、再度、ベイズ最適化を実行する。S4-6において、第3の最適化部575は、獲得関数に基づいて、チャンピオンデータの収率を超える可能性の高い反応条件を特定する。
【0200】
そして、S4-6の処理が実行されると、制御部51は、(
図29のフローチャートには図示していないが)変数nをカウントアップさせ(即ち、変数nに1を加算し、nに2を設定し)、処理をS4-3に返す。このように、変数nが所定の数に到達するまで、S4-3からS4-6までの処理を繰り返し実行し、変数nが所定の数に到達すると、
図29のフローチャートに示す処理を終了する。このように処理を実行することで、並行して実施することが可能な作業分の反応条件を出力することができ、上述のように、作業工数を削減することができる。
【0201】
なお、上述の説明では、反応条件(即ち、特徴量)を1つとして、
図27では2次元で説明したが、実際には、反応条件は、複数で設定され、そのため、反応条件の提供装置内において、行列等の演算で計算が実行されることになる。また、
図22には図示していないが、第3の最適化部575は、その機能として、所定の獲得関数を用いて、収率が所定の条件を充足する反応条件(例えば、収率が最も高い反応条件、収率が所定の閾値以上である反応条件等)を導出する導出部と、導出部により導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定部を備えることになる。
【0202】
図30は、外部の表示装置7に表示された反応条件のサンプル画面を示す図である。
図30では、解析部57の第2の反応条件選択部574により、所定のランク以上の反応条件として選択された3つの反応条件が、付与された表示優先度に従って表示されていることを示している。
【0203】
図30に示されるように、表示される反応条件(滴下速度、温度、制御条件)には、表示優先度、化学物質Aと化学物質Bを反応させたときの予測値(収率)、反応対象物質である化学物質A、化学物質Bが関連付けられ、1つのデータセットとして構成され、それらのデータセットが表示優先度の高い順に表示されている。
【0204】
作業者は、材料の入手のしやすさ、コスト、法令を踏まえて、表示装置7に表示される反応条件を選択し、その反応条件に従って、実験(作業)を実施する。なお、その実験結果をモデル生成装置1に入力し、さらに機械学習を実行させることで、より精度の高い反応条件を提供することが可能なモデルを生成することができる。
【0205】
その他、補足として、上述の実施形態では、複数の化学物質に関する情報として、化学物質Aに関する情報と化学物質Bに関する情報の2つの化学物質に関する情報を用いて説明したが、3つ以上の化学物質に関する情報を入力させた場合であっても、反応条件を提供することができる。3つ以上の化学物質に関する情報を入力させた場合、所定のデータセットとして生成される化学特性情報を構成する要素として、例えば、化学物質A、化学物質B以外に化学物質C、化学物質D等の化学物質の化学構造情報及び物性情報が加えられることなり、そのように構成されたデータセット(化学特性情報)を前提に、類似度の算出処理、反応条件の選択及び設定処理、並びに反応シミュレーションを実行すればよい。なお、この場合、反応条件データベースにおいて、3つ以上の化学物質を反応させた実験のデータを格納しておけばよい。また、S3-13のベイズ最適化についても同様である。
【0206】
以上、説明したように、本実施形態によれば、取得された複数の化学物質及び生成物質に関する情報と、反応条件に設定されている複数の化学物質及び生成物質に関する情報が類似していることを条件(又は、同一であることを条件)に、反応条件に設定されている反応項目より、取得された複数の化学物質を反応させるときの反応条件を複数、設定し、さらに、過去に反応させた複数の化学物質に関する化学構造情報及び物性情報、その反応における反応条件、及びその反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、複数の反応条件毎に収率を推定し、その推定された収率のうち、収率が所定の条件を満たす反応条件を表示(出力)する。これにより、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することができる。
【0207】
図31は、モデル生成装置1のハードウェア構成を示すブロック図である。モデル生成装置1は、
図31に示されるように、CPU901、RAM902、ROM903、HDD904、GPU905、操作装置インタフェース906、ネットワークインタフェース907、デバイスインタフェース908、外部記憶インタフェース909を備える。また、モデル生成装置1には、操作装置インタフェース906を介して接続される操作装置以外に、外部デバイス(表示装置7)、外部記憶装置4に接続される。
【0208】
CPU(Central Processing Unit)901は、モデル生成装置1の各ブロックを統括的に制御する演算処理装置である。CPU901は、システムバス910を介して、RAM902、ROM903、HDD904、GPU905、操作装置インタフェース906、ネットワークインタフェース907、デバイスインタフェース908、外部記憶インタフェース909と接続される。
【0209】
RAM(Random Access Memory)902は、CPU901の演算処理結果、各種設定値、パラメータ等を一時的に記憶する記憶領域、各種制御プログラムのロード領域を備える。ROM(Read Only Memory)903は、各種プログラム(例えば、ブートプログラム等)を記憶する。HDD(Hard Disk Drive)904は、物性情報、反応条件、生成した推定モデル等を記憶する。モデル生成装置の機能は、例えば、CPU901がROM903に格納されたプログラムをRAM902に読み出して実行することにより実現される。
【0210】
GPU(Graphics Processing Unit)905は、処理の演算を高速に実行するための処理ユニットであり、CPU901より渡される所定の計算(例えば、推定モデルの生成段階で実行される行列演算等)を実行する。操作装置インタフェース906は、操作装置6との間でデータを入力(取得)するためのインタフェースである。ネットワークインタフェース907は、有線又は無線によりLAN(Local Area Network)と接続され、外部機器との間で情報の入出力を可能にする(例えば、物性情報、反応条件、各種プログラムのアップデートを可能にする)。デバイスインタフェース908は、例えば、外部の分析装置等に接続するためのインタフェースである。外部記憶インタフェース909は、外部記憶装置に接続するためのインタフェースである。例えば、モデル生成装置と反応条件の提供装置が異なる装置として構成される場合等に、モデル生成装置1で生成され、HDDに記憶された推定モデルを、外部インタフェース909を介して、外部記憶装置に記憶させるときに用いられる。
【0211】
なお、反応条件の提供装置5のハードウェア構成も、モデル生成装置1のハードウェア構成とおおよそ同様の構成と示され、各種記憶素子、及び記憶装置に記憶される対象(データ)、また、デバイスインタフェース908を介して接続される外部装置(例えば、表示装置7等)が異なることとなる。
【0212】
加えて、本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介して装置に供給し、その装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し、実行する処理でも実現可能である。
【0213】
上記実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
【0214】
(付記)
反応条件を探索する上で、実験点に基づいて、反応条件に対する収率の関数を最適化する最適化手段と、
所定の獲得関数を用いて、収率が所定の条件を充足する反応条件を導出する導出手段と、
当該導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定手段と、
表示装置に、前記導出手段により導出された反応条件を表示させる表示制御手段と
を備え、
前記反応条件に対する収率の関数の最適化、前記収率が所定の条件を充足する反応条件の導出、前記実験点の設定を所定の数だけ、繰り返し実行することを特徴とする反応条件の提供装置。
【符号の説明】
【0215】
1 モデル生成装置
2 分析装置
3 反応装置
4 外部記憶装置
5 提供装置
6 操作装置
7 表示装置
11 制御部
12 データ取得部
13 教師データ生成部
14 前処理部
15 特徴量選択部
16 推定モデル生成部
17 記憶部
51 制御部
52 データ取得部
53 化学特性情報生成部
54 反応条件設定部
55 欠損値処理部
56 推定モデル
57 解析部
58 表示制御部
59 記憶部
【手続補正書】
【提出日】2023-02-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得ステップと、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第1の生成ステップと、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第2の生成ステップと
を含む、推定モデルの生成装置により実行される推定モデルの生成方法。
【請求項2】
前記第2の生成ステップが、
前記教師データを構成する要素である特徴量に基づいて、推定モデルを生成し、
前記生成した推定モデルに対して検証した精度を当該推定モデルに関連付けて記憶する第1の記憶ステップと、
前記生成した推定モデルにおいて前記特徴量の重要度を算出する算出ステップと、
前記特徴量の性質、及び前記特徴量の重要度に基づいて、前記特徴量のうち、削除可能な特徴量があるか否かを判定する判定ステップと、
前記判定ステップにおいて、削除可能な特徴量があると判定された場合に、当該削除可能と判定された特徴量を、前記教師データを構成する要素から削除する削除ステップと
を含み、
前記判定ステップにおいて、前記特徴量のうち、削除可能な特徴量がないと判定されるまで、前記推定モデルの生成と、前記第1の記憶ステップと、前記算出ステップと、前記判定ステップと、前記削除ステップとを順に繰り返し実行し、前記第1の記憶ステップにおいて記憶された推定モデルのうち、前記検証した精度が所定の条件を満たす推定モデルを選択することを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項3】
前記第2の生成ステップが、
前記機械学習のアルゴリズムに設定されるハイパーパラメータを最適化する最適化ステップと、
前記最適化されたハイパーパラメータで前記推定モデルを生成し、当該生成された前記推定モデルに対して検証した精度を前記推定モデルに関連付けて記憶する第2の記憶ステップと、
前記最適化ステップにおいて出力される期待改善度が所定の条件を充足するまで、前記最適化ステップと、前記推定モデルの生成と、前記第2の記憶ステップとを順に繰り返し実行し、前記期待改善度が所定の条件を充足すると、前記第2の記憶ステップにおいて記憶された推定モデルのうち、前記検証した精度が所定の条件を満たす推定モデルを選択することを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項4】
前記推定モデルの生成に用いられた特徴量を選択する選択ステップと、
さらに生成する複数の推定モデルの数に応じて、前記教師データを分割する分割ステップと、
前記分割された教師データ毎に、前記選択された特徴量に基づいて、所定の機械学習方法を用いて機械学習を実行することで、複数の推定モデルを生成する第3の生成ステップと、
前記生成した複数の推定モデルの各々に対して所定の重みを設定する設定ステップと
をさらに含むことを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項5】
前記分割ステップにおいて、前記教師データが、ブートストラップ法に基づいて分割されることを特徴とする請求項4に記載の推定モデルの生成方法。
【請求項6】
前記所定の機械学習方法が、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタのいずれかであり、
前記生成された複数の推定モデルのうちの一部の推定モデルが、同じ機械学習方法を用いて機械学習を実行することで生成されてもよいことを特徴とする請求項4に記載の推定モデルの生成方法。
【請求項7】
前記生成した複数の推定モデルに対して設定される所定の重みが、ベイズ最適化により推定されることを特徴とする請求項4に記載の推定モデルの生成方法。
【請求項8】
前記第1の生成ステップにより生成された教師データが、所定の要件を充足していない場合に、当該教師データに応じた所定の前処理を行うステップをさらに含むことを特徴とする請求項1に記載の推定モデルの生成方法。
【請求項9】
前記前処理が、欠損値処理、カテゴリー値変換処理、又はデータ標準化若しくは正規化に関する処理の少なくともいずれかの処理であることを特徴とする請求項8に記載の推定モデルの生成方法。
【請求項10】
請求項1から9のいずれか1項に記載の推定モデルの生成方法をコンピュータに実行させるプログラム。
【請求項11】
過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得手段と、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第1の生成手段と、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第2の生成手段と
を備えることを特徴とする推定モデルの生成装置。
【請求項12】
反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得手段と、
1又は2以上の反応条件を記憶する記憶手段と、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定手段と、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定手段と、
表示装置に、前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御手段と
を備えることを特徴とする反応条件の提供装置。
【請求項13】
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度を算出する類似度算出手段をさらに備え、
前記類似度算出手段は、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報と前記1又は2以上の反応条件に設定されている複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報の類似度と、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報と前記1又は2以上の反応条件に設定されている生成物質に関する情報に対して導出された化学構造情報及び物性情報との類似度の平均値又は加重平均値を算出することを特徴とする請求項12に記載の反応条件の提供装置。
【請求項14】
前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件があるか否かを判定する判定手段と、
前記判定手段により、収率が所定の条件を満たす反応条件が複数あると判定された場合に、当該複数の反応条件に対して表示優先度を付与する付与手段と
をさらに備えることを特徴とする請求項12に記載の反応条件の提供装置。
【請求項15】
前記判定手段により、収率が所定の条件を満たす反応条件がないと判定された場合に、反応条件を探索する上で、反応条件に対する収率の関数を最適化する最適化手段をさらに備えることを特徴とする請求項14に記載の反応条件の提供装置。
【請求項16】
前記最適化手段は、
実験点に基づいて、反応条件に対する収率の関数を最適化し、
所定の獲得関数を用いて、収率が所定の条件を充足する反応条件を導出する導出手段と、
当該導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定手段と
をさらに備え、
前記反応条件に対する収率の関数の最適化、前記収率が所定の条件を充足する反応条件の導出、前記実験点の設定を所定の数だけ、繰り返し実行し、
前記表示制御手段は、前記表示装置に、前記導出手段により導出された反応条件を表示させることを特徴とする請求項15に記載の反応条件の提供装置。
【請求項17】
反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得ステップと、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、記憶装置に記憶された1又は2以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定ステップと、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定ステップと、
表示装置に、前記推定ステップにおいて前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御ステップと
を含む、反応条件の提供装置により実行される反応条件の提供方法。
【請求項18】
請求項17に記載の反応条件の提供方法をコンピュータに実行させるプログラム。