特開2024-7916 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本曹達株式会社の特許一覧

特開2024-7916反応条件を推定する推定モデルの生成方法／生成装置、反応条件の提供方法／提供装置、並びにプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024007916

(43)【公開日】2024-01-19

(54)【発明の名称】反応条件を推定する推定モデルの生成方法／生成装置、反応条件の提供方法／提供装置、並びにプログラム

(51)【国際特許分類】

G16C 20/70 20190101AFI20240112BHJP

【ＦＩ】

G16C20/70

【審査請求】有

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2022109322

(22)【出願日】2022-07-06

(11)【特許番号】

(45)【特許公報発行日】2023-07-03

(71)【出願人】

【識別番号】000004307

【氏名又は名称】日本曹達株式会社

(74)【代理人】

【識別番号】100107984

【弁理士】

【氏名又は名称】廣田雅紀

(74)【代理人】

【識別番号】100182305

【弁理士】

【氏名又は名称】廣田鉄平

(74)【代理人】

【識別番号】100096482

【弁理士】

【氏名又は名称】東海裕作

(74)【代理人】

【識別番号】100131093

【弁理士】

【氏名又は名称】堀内真

(74)【代理人】

【識別番号】100150902

【弁理士】

【氏名又は名称】山内正子

(74)【代理人】

【識別番号】100141391

【弁理士】

【氏名又は名称】園元修一

(74)【代理人】

【識別番号】100221958

【弁理士】

【氏名又は名称】篠田真希恵

(74)【代理人】

【識別番号】100192441

【弁理士】

【氏名又は名称】渡辺仁

(72)【発明者】

【氏名】武久克磨

(57)【要約】

【課題】
収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減する。
【解決手段】
本発明は、取得された反応対象とする複数の化学物質及び生成物質に関する情報と、反応条件に設定されている複数の化学物質及び生成物質に関する情報が類似していることを条件（又は、同一であることを条件）に、反応条件に設定されている反応項目より、取得された反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定し、さらに、過去に反応させた複数の化学物質に関する化学構造情報及び物性情報、その反応における反応条件、生成された生成物質に関する化学構造情報及び物性情報、並びにその反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、複数の反応条件毎に収率を推定し、その推定された収率のうち、収率が所定の条件を満たす反応条件を表示（出力）する。
【選択図】図２３

【特許請求の範囲】

【請求項1】

過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得ステップと、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第１の生成ステップと、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第２の生成ステップと
を含むことを特徴とする推定モデルの生成方法。

【請求項2】

前記第２の生成ステップが、
前記教師データを構成する要素である特徴量に基づいて、推定モデルを生成し、
前記生成した推定モデルに対して検証した精度を当該推定モデルに関連付けて記憶する第１の記憶ステップと、
前記生成した推定モデルにおいて前記特徴量の重要度を算出する算出ステップと、
前記特徴量の性質、及び前記特徴量の重要度に基づいて、前記特徴量のうち、削除可能な特徴量があるか否かを判定する判定ステップと、
前記判定ステップにおいて、削除可能な特徴量があると判定された場合に、当該削除可能と判定された特徴量を、前記教師データを構成する要素から削除する削除ステップと
を含み、
前記判定ステップにおいて、前記特徴量のうち、削除可能な特徴量がないと判定されるまで、前記推定モデルの生成と、前記第１の記憶ステップと、前記算出ステップと、前記判定ステップと、前記削除ステップとを順に繰り返し実行し、前記第１の記憶ステップにおいて記憶された推定モデルのうち、前記検証した精度が所定の条件を満たす推定モデルを選択することを特徴とする請求項１に記載の推定モデルの生成方法。

【請求項3】

前記第２の生成ステップが、
前記機械学習のアルゴリズムに設定されるハイパーパラメータを最適化する最適化ステップと、
前記最適化されたハイパーパラメータで前記推定モデルを生成し、当該生成された前記推定モデルに対して検証した精度を前記推定モデルに関連付けて記憶する第２の記憶ステップと、
前記最適化ステップにおいて出力される期待改善度が所定の条件を充足するまで、前記最適化ステップと、前記推定モデルの生成と、前記第２の記憶ステップとを順に繰り返し実行し、前記期待改善度が所定の条件を充足すると、前記第２の記憶ステップにおいて記憶された推定モデルのうち、前記検証した精度が所定の条件を満たす推定モデルを選択することを特徴とする請求項１に記載の推定モデルの生成方法。

【請求項4】

前記推定モデルの生成に用いられた特徴量を選択する選択ステップと、
さらに生成する複数の推定モデルの数に応じて、前記教師データを分割する分割ステップと、
前記分割された教師データ毎に、前記選択された特徴量に基づいて、所定の機械学習方法を用いて機械学習を実行することで、複数の推定モデルを生成する第３の生成ステップと、
前記生成した複数の推定モデルの各々に対して所定の重みを設定する設定ステップと
をさらに含むことを特徴とする請求項１に記載の推定モデルの生成方法。

【請求項5】

前記分割ステップにおいて、前記教師データが、ブートストラップ法に基づいて分割されることを特徴とする請求項４に記載の推定モデルの生成方法。

【請求項6】

前記所定の機械学習方法が、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタのいずれかであり、
前記生成された複数の推定モデルのうちの一部の推定モデルが、同じ機械学習方法を用いて機械学習を実行することで生成されてもよいことを特徴とする請求項４に記載の推定モデルの生成方法。

【請求項7】

前記生成した複数の推定モデルに対して設定される所定の重みが、ベイズ最適化により推定されることを特徴とする請求項４に記載の推定モデルの生成方法。

【請求項8】

前記第１の生成ステップにより生成された教師データが、所定の要件を充足していない場合に、当該教師データに応じた所定の前処理を行うステップをさらに含むことを特徴とする請求項１に記載の推定モデルの生成方法。

【請求項9】

前記前処理が、欠損値処理、カテゴリー値変換処理、又はデータ標準化若しくは正規化に関する処理の少なくともいずれかの処理であることを特徴とする請求項８に記載の推定モデルの生成方法。

【請求項10】

請求項１から９のいずれか１項に記載の推定モデルの生成方法をコンピュータに実行させるプログラム。

【請求項11】

過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得手段と、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第１の生成手段と、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第２の生成手段と
を備えることを特徴とする推定モデルの生成装置。

【請求項12】

反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得手段と、
１又は２以上の反応条件を記憶する記憶手段と、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記１又は２以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定手段と、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定手段と、
表示装置に、前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御手段と
を備えることを特徴とする反応条件の提供装置。

【請求項13】

前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記１又は２以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度を算出する類似度算出手段をさらに備え、
前記類似度算出手段は、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報と前記１又は２以上の反応条件に設定されている複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報の類似度と、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報と前記１又は２以上の反応条件に設定されている生成物質に関する情報に対して導出された化学構造情報及び物性情報との類似度の平均値又は加重平均値を算出することを特徴とする請求項１２に記載の反応条件の提供装置。

【請求項14】

前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件があるか否かを判定する判定手段と、
前記判定手段により、収率が所定の条件を満たす反応条件が複数あると判定された場合に、当該複数の反応条件に対して表示優先度を付与する付与手段と
をさらに備えることを特徴とする請求項１２に記載の反応条件の提供装置。

【請求項15】

前記判定手段により、収率が所定の条件を満たす反応条件がないと判定された場合に、反応条件を探索する上で、反応条件に対する収率の関数を最適化する最適化手段をさらに備えることを特徴とする請求項１４に記載の反応条件の提供装置。

【請求項16】

前記最適化手段は、
実験点に基づいて、反応条件に対する収率の関数を最適化し、
所定の獲得関数を用いて、収率が所定の条件を充足する反応条件を導出する導出手段と、
当該導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定手段と
をさらに備え、
前記反応条件に対する収率の関数の最適化、前記収率が所定の条件を充足する反応条件の導出、前記実験点の設定を所定の数だけ、繰り返し実行し、
前記表示制御手段は、前記表示装置に、前記導出手段により導出された反応条件を表示させることを特徴とする請求項１５に記載の反応条件の提供装置。

【請求項17】

反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得ステップと、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、記憶装置に記憶された１又は２以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定ステップと、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定ステップと、
表示装置に、前記推定ステップにおいて前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御ステップと
を含むことを特徴とする反応条件の提供方法。

【請求項18】

請求項１７に記載の反応条件の提供方法をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数の化学物質に関する情報及び生成物質に関する情報から、収率が所定の条件を満たす反応条件を推定する推定モデルの生成方法、及び推定モデルの生成装置、反応条件の提供方法、及び反応条件の提供装置、並びにプログラムに関する。

【背景技術】

【0002】

従来、化学者により、複数の化学物質を化学的に反応させて、所望の生成物質を生成することが行われている。その際、化学者により、所望の生成物質を効率よく生成するために、自身の経験則等に基づき、反応条件をその都度、変更しながら化学実験を繰り返し実施し、収率が所定の条件を充足する反応条件（例えば、より収率が高くなる反応条件等）を探索することも行われている。

【0003】

但し、収率が所定の条件を充足する反応条件を探索することは、化学者自らが反応条件を試行錯誤しながら決定して、化学実験を繰り返し実施する必要があり、そのため、膨大な作業工数がかかっており、作業効率の向上が問題とされている。このような問題に対応するために、人工知能による解析結果を反映することで、合成反応に適した反応条件を自動で設定できるフロー合成技術が知られている（例えば、特許文献１）。

【0004】

この特許文献１には、反応温度、反応時間、試薬種類、試薬量及び溶媒のうち、少なくとも一つを要素とする反応条件を自動で設定するフロー合成装置であって、そのフロー合成装置が、構造フィンガープリントと反応条件を説明変数とした人工知能にて、データベースとして内包された合成反応情報を解析する情報処理装置により制御されることが開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１９－１８５５０６号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、特許文献１に開示された技術では、構造フィンガープリントベクトル情報及び反応条件ベクトル情報のみを結合したベクトルを説明変数として、これに基づいて機械学習を実行させており（即ち、物性情報（化学物質の示す物理的、化学的性質を示す情報）を説明変数として考慮することは少なくとも行われておらず）、そのため、生成される予測モデルの精度が十分なものではなく、結果、設定される反応条件では、収率が所望の水準に到達しない可能性があり、これに対する改善が要望されている。

【0007】

本発明は、上記従来の問題に鑑みてなされたものであって、その課題は、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することにある。

【課題を解決するための手段】

【0008】

即ち、本発明の推定モデルの生成方法は、過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得ステップと、前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第１の生成ステップと、当該教師データを用いて機械学習を実行することで、反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値とする推定モデルを生成する第２の生成ステップとを含むことを特徴とする。

【0009】

また、本発明の反応条件の提供装置は、反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得手段と、１又は２以上の反応条件を記憶する記憶手段と、前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、前記１又は２以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定手段と、過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定手段と、表示装置に、前記推定手段により前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御手段とを備えることを特徴とする。

【発明の効果】

【0010】

本発明によれば、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することができる。

【図面の簡単な説明】

【0011】

【図1】モデル生成装置と反応条件の提供装置を示す図である。

【図2】モデル生成装置の機能構成を示すブロック図である。

【図3】ベンゼンの化学構造情報を示す図である。

【図4】特徴量選択部の第１の特徴量削減部と特徴量選択用モデル生成部の機能構成を示すブロック図である。

【図5】推定モデル生成部の複数推定モデル生成部と推定モデル混合部の機能構成を示すブロック図である。

【図6】モデル生成装置における推定モデルを生成する処理の手順を示すフローチャートである。

【図7】分子記述子導出部における分子記述子を導出する処理の手順を示すフローチャートである。

【図8】データセット（教師データ）の生成処理を示す図である。

【図9】欠損値処理部における欠損値処理を示す図である。

【図10】カテゴリー値変換部における処理を示す図である。

【図11】特徴量選択部における特徴量（特徴量群）を選択する処理の手順を示すフローチャートである。

【図12】第１の特徴量削減部における特徴量を削減（削除）する処理の手順を示すフローチャートである。

【図13】相関係数と、その相関係数に従って特徴量を削減する処理を示す図である。

【図14】特徴量選択用モデル生成部における特徴量選択用モデルを生成する処理の手順を示すフローチャートである。

【図15】決定木モデルを示す図である。

【図16】第２の特徴量削減部における特徴量を削減（削除）する処理を示す図である。

【図17】推定モデル生成部における推定モデルを生成する処理の手順を示すフローチャートである。

【図18】複数推定モデル生成部における複数の推定モデルを生成する処理の手順を示すフローチャートである。

【図19】複数推定モデル生成部における、複数の推定モデルのうちの１つの推定モデルを生成する処理の手順を示すフローチャートである。

【図20】複数の推定モデルを混合する処理の手順を示すフローチャートである。

【図21】推定モデル生成部における処理の内容（データフロー）を説明するためのフローチャートである。

【図22】反応条件の提供装置の機能構成を示すブロック図である。

【図23】反応条件の提供装置における反応条件を提供する処理の手順を示すフローチャートである。

【図24】反応条件の提供装置における類似度の算出処理、反応条件の選択処理、及び反応条件の選定処理について説明するための図である。

【図25】反応条件の提供装置における反応シミュレーションの実行処理、ランクの付与処理、所定の条件を充足する反応条件があるか否かを判定する処理、及び所定の条件を充足する反応条件の選択処理について説明するための図である。

【図26】反応シミュレーションの実行処理について説明するための図である。

【図27】反応条件と収率の関数とベイズ最適化の処理を示す図である。

【図28】正規分布を示す図である。

【図29】Constant Liar Approachを適用してベイズ最適化を実行して、反応条件を特定する処理の手順を示すフローチャートである。

【図30】表示装置に表示された反応条件のサンプル画面を示す図である

【図31】モデル生成装置のハードウェア構成を示すブロック図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は、本発明を限定するものではなく、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。その他、本発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれ、また、以下の実施形態の一部を適宜組み合わせることもできる。

【0013】

図１は、本実施形態に係るモデル生成装置（図１Ａ）と反応条件の提供装置を示す図（図１Ｂ）である。図１Ａに示されるモデル生成装置１は、入力データとして取得した、複数の化学物質に関する情報、その複数の化学物質を反応させたときの反応条件、複数の化学物質を反応させることで生成された生成物質に関する情報、及びその反応条件で反応させたときの生成物質の収率より教師データを生成し、その生成した教師データを用いて機械学習を実行することで、生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値とする推定モデル（回帰モデル）を生成する。なお、複数の化学物質を反応させた場合、通常、複数の生成物質が生成されることから、ここでは、複数の生成物質のうち、生成を予定していた生成物質に関する情報や、推定モデルを生成する上で有益となり得る生成物質に関する情報を、複数の化学物質を反応させることで生成された生成物質に関する情報として、モデル生成装置１に入力するものとする。

【0014】

なお、モデル生成装置１には、所定の入力装置を用いて、複数の化学物質に関する情報、反応条件、生成物質に関する情報、及び収率を入力することができるが、図１Ａに示されるように、モデル生成装置１には、入力側に、分析装置２を接続することも可能であり、分析装置２（より正確には、分析装置２に付属された情報処理装置）より、化学物質に関する情報及び反応条件、並びに反応装置３において生成された生成物質及びその生成物質の収率を、モデル生成装置１に直接、入力させることもできる。また、モデル生成装置１には、出力側に、外部記憶装置４を接続することも可能であり、生成した推定モデルを、外部記憶装置４に記憶させることもできる。

【0015】

図１Ｂに示される反応条件の提供装置５は、化学物質を用いて、生成目的とする生成物質を生成するときに反応条件を推定し、その推定した反応条件を自動的に提供する装置である。反応条件の提供装置５は、モデル生成装置１（図１Ａ）により生成された、推定モデル（回帰モデル）を用いて、所定の操作装置６より入力データとして取得した複数の化学物質に関する情報から導出される化学構造情報及び物性情報と、複数の化学物質を反応させることで生成する生成物質に関する情報から導出される化学構造情報及び物性情報と、入力データとして取得した複数の化学物質に関する情報から導出される化学構造情報及び物性情報及び生成物質に関する情報から導出される化学構造情報及び物性情報に基づいて、記憶装置（記憶部）に記憶された１又は２以上の反応項目より設定される、複数の化学物質を反応させるときの複数の反応条件とから、複数の反応条件毎の収率を推定し、その反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を外部の表示装置７に出力（表示）する。以下、モデル生成装置１と反応条件の提供装置５の各々の実施形態について、順に説明する。

【0016】

（モデルの生成（モデル生成装置））
図２は、本実施形態に係るモデル生成装置１の機能構成を示すブロック図である。モデル生成装置１は、図２に示されるように、その機能として、大きく、制御部１１、データ取得部１２、教師データ生成部１３、前処理部１４、特徴量選択部１５、推定モデル生成部１６、記憶部１７を備える。

【0017】

制御部１１は、各機能ブロックの処理を制御する機能ブロックである。データ取得部１２は、複数の化学物質に関する情報、反応条件、生成物質に関する情報、及び収率を取得する。データ取得部１２により取得された各種データ（情報）は、制御部１１により、一時的に記憶部１７に記憶される。なお、化学物質に関する情報、及び生成物質に関する情報は、ＳＭＩＬＥＳ記法、ＭＯＬファイル、ＳＤＦファイル等の記法で記載することができ、本実施形態では、ＳＭＩＬＥＳ記法で記載された情報を取得するものとする。ＳＭＩＬＥＳ記法は、化学構造式を文字列に変換して記載する表記方法であり、例えば、安息香酸の場合、「ＯＣ（Ｃ_１＝ＣＣ＝ＣＣ＝Ｃ_１）＝Ｏ」として表記することができる。また、ここでは、複数の化学物質に関する情報として、化学物質Ａに関する情報と化学物質Ｂに関する情報の２つの化学物質に関する情報を用いて説明する。

【0018】

反応条件として溶媒、温度、濃度、滴下速度、滴下方法、撹拌機等を設定することができ、その反応条件のうち、一部の化合物に関連する反応条件以外の反応条件（例えば、温度等）に関しては、制御条件として定義される。また、収率は、所定の化学物質から生成物質を取得しようとするとき、理論的に取得可能な理論収量と、実際に取得された量との割合として示される。

【0019】

教師データ生成部１３は、データセット生成部１３１、分子記述子導出部１３２、物性情報データベース（図中、物性情報ＤＢ）１３３を有し、データ取得部１２により取得された各種データから教師データを生成する。データセット生成部１３１は、（１）化学物質に関する情報に関する、分子記述子導出部１３２により導出された分子記述子、（２）生成物質に関する情報にする、分子記述子導出部１３２により導出された分子記述子、（３）反応条件、及び（４）収率に基づいて、教師データを所定のデータセットとして生成する。

【0020】

分子記述子導出部１３２は、分子の構造を決定する上での指標（数値）として示される化学構造情報及び物性情報を分子記述子として導出する。分子記述子の導出にあたり、本実施形態では、Ｍｏｒｇａｎ法を用いて説明するが、Ｍｏｒｄｒｅｄ法、ＲＤｋｉｔｄｅｓｃｒｉｐｔｏｒ法等を用いることもできる。Ｍｏｒｇａｎ法を用いた場合、化学構造情報を算出し、物性情報を所定のデータベースから取得することで分子記述子を導出する。

【0021】

化学構造情報に関して、ベンゼンを例に説明すると、部分構造を「０」、「１」に変換することで、図３のように算出することができる。具体的には、ベンゼンに関して、配列［０］から配列［２０４７］までの配列のうち、配列［３８９］、配列［１０８８］、配列［１８７３］には「１」が格納されることになり（即ち、部分構造を有することになり）、それ以外の配列には「０」が格納されることになる。即ち、配列［３８９］、配列［１０８８］、配列［１８７３］に「１」が格納されるように、化学構造情報を算出することができる。

【0022】

また、分子記述子導出部１３２は、化学物質の示す物理的、化学的性質を示す情報（物性情報）を記憶する物性情報データベース１３３より、物性情報を取得する。例えば、溶媒に関して、物性情報として、密度、屈折率、誘電率、双極子モーメント、融点、沸点、粘性等を用いることができる。

【0023】

なお、物性情報には、化学構造情報のみから推測することができない情報も含まれる。例えば、同じ化学物質でも（化学構造が同じであっても）結晶多型が存在する場合、融点や溶解度が異なる物性値となるため、化学反応の収率に大きな影響を及ぼす場合がある。そのため、推定モデルを生成する上で、物性情報も考慮することで（公知の物性データベースの物性値情報からの入力や実際の物性測定値の入力を織り交ぜることで）、推定モデルの精度向上を期待することができる。

【0024】

また、分子記述子導出部１３２により導出された分子記述子（即ち、算出した化学構造情報、及び取得した物性情報）は、データセット生成部１３１により、データセットにデータ（構成要素）として追加される。このように、データセット生成部１３１は、化学物質に関する情報に、分子記述子をデータセットの構成要素として追加し、同様に、生成物質に関する情報に、分子記述子をデータセットの構成要素として追加し、さらに、データ取得部１２により取得した反応条件、収率を追加することで、教師データを所定のデータセットとして生成する。補足として物性情報データベース１３３に格納される物性情報は、上述の図１Ａに示されるように、外部のサーバ装置から有線又は無線の通信ネットワークを介して、更新させることができる。

【0025】

前処理部１４は、カテゴリー値変換部１４１、欠損値処理部１４２、データ標準化／正規化部１４３を有し、教師データ生成部１３により生成された教師データがデータセットとして所定の要件を充足していない場合に（即ち、推定モデル生成部１６において適切に推定モデルを生成することができなくなることが予想される場合に）、教師データ生成部１３により生成された教師データ（データセット）に対して所定の欠損値処理を施す。

【0026】

カテゴリー値変換部１４１は、数値として示されていないカテゴリー（反応条件）を数値に変換する。これは、推定モデルを生成する上で、計算機による数値的処理を実行しなければならないためであり、詳細は図１０を用いて後述するが、例えば、反応条件として「撹拌機（３枚後退翼）」を設定する場合、カテゴリー値変換部１４１は、「撹拌機（３枚後退翼）」を「０，１，０」に変換する。なお、カテゴリーを数値に変換する方法として、Ｌａｂｅｌｅｎｃｏｄｉｎｇ、Ｏｎｅｈｏｔｅｎｃｏｄｉｎｇ等がある。

【0027】

欠損値処理部１４２は、教師データ生成部１３により生成された教師データ（データセット）に欠損していると判定されたデータがある場合に（欠損値があると判定された場合に）、一部のデータを削除、又は欠損値を補修する処理を実行する。より具体的には、（１）データセットにおいて、欠損値のある行、又は列の削除、（２）欠損値のある行、又は列の統計量（平均値、中央値、最頻値等）での補修が実行される。なお、ここでの処理に関して、図９を用いて後述する。

【0028】

データ標準化／正規化部１４３は、特徴量及び目的変数の各々に関して、データを標準化したり、また、最大値／最小値を用いて、０と１との間の実数値に正規化したりする。ここで、補足として、前処理部１４における処理は、上述のように、教師データ生成部１３により生成された教師データがデータセットとして所定の要件を充足していない場合に実行される処理であり、反応条件が所定の要件を充足している場合には（即ち、例えば、反応条件を数値に変換する必要がない場合、教師データに欠損値がない場合等には）、前処理部１４における処理は、必ずしも実行されなくてもよい。

【0029】

特徴量選択部１５は、第１の特徴量削減部１５１、特徴量選択用モデル生成部１５２、重要度計算部１５３、削減可否判定部１５４、第２の特徴量削減部１５５、特徴量群選択部１５６を有し、推定モデル生成部１６において推定モデルを生成する上で、所定の条件を充足する反応条件（例えば、特徴量選択用モデルとして精度が最も高い場合の反応条件）を特徴量群として選択する。

【0030】

第１の特徴量削減部１５１は、未知の入力（化学物質）に関する予測精度を低減させないようにするために、相関係数を用いて特徴量を削減する処理を実行する機能ブロックであり、図４Ａに示されるように、相関係数算出部１５１１、相関係数判定部１５１２、特徴量削除部１５１３を有する。

【0031】

相関係数算出部１５１１は、図１３を用いて後述するが、特徴量間の相関係数（即ち、２つの反応条件間の線形的な関係の強弱を測る指標）を算出する。相関係数判定部１５１２は、相関係数算出部１５１１により算出された相関係数が所定の閾値以上であるか否かを判定する（より具体的には、所定の閾値以上の相関値を有すると判定した特徴量を削減対象として判定する）。特徴量削除部１５１３は、相関係数判定部１５１２により削減対象として判定された特徴量を削除する。

【0032】

特徴量選択用モデル生成部１５２は、特徴量（特徴量群）を選択するためのモデルを生成する処理を実行する機能ブロックであり、図４Ｂに示されるように、第１の教師データ分割部１５２１、第１のハイパーパラメータ設定部１５２２、第１の最適化済みモデル生成部１５２３、第１の検証部１５２４、第１の期待改善度判定部１５２５を有する。

【0033】

第１の教師データ分割部１５２１は、教師データ生成部１３により生成された教師データ（前処理部１４により、教師データ生成部１３により生成された教師データに対して前処理（加工処理）が施された場合には、その前処理が施された教師データ）を所定の割合で、最適化されたハイパーパラメータで特徴量選択用モデルを生成するための教師データと、第１の検証部１５２４において、生成された特徴量選択用モデルを検証するための検証データに分割する。ここでの所定の割合は、例えば、特徴量選択用モデルを生成するための教師データを９０、生成された特徴量選択用モデルを検証するための検証データを１０として設定される。また、ここでの分割は、データセット単位で分割するものとし、この点、以降の教師データと検証データに分割する処理においても同様とする。

【0034】

第１のハイパーパラメータ設定部１５２２は、後段の第１の最適化済みモデル生成部１５２３において特徴量選択用モデルを生成する上でのハイパーパラメータを設定する。なお、ここでのハイパーパラメータとは、モデル固有のパラメータであって、設計者・モデル構築者が事前に設定する必要のあるパラメータ（若しくは、設定可能なパラメータ）として定義される。

【0035】

第１のハイパーパラメータ設定部１５２２は、ハイパーパラメータを設定する上で、第１の最適化部を有し、例えば、ベイズ最適化等を用いることで、ハイパーパラメータを掃引させ、ハイパーパラメータを設定する。第１の最適化部は、ハイパーパラメータの設定に際して、期待改善度を出力する（ベイズ最適化では、Expected Improvement (ＥＩ)等を出力する）。なお、補足として、ハイパーパラメータの設定（掃引）に関して、本実施形態において適用するベイズ最適化以外に、ランダムサーチ、グリッドサーチ等を適用することもできる。

【0036】

第１の最適化済みモデル生成部１５２３は、第１のハイパーパラメータ設定部１５２２によりハイパーパラメータが設定されると、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等の機械学習方法を用いて、特徴量（特徴量群）を選択する上でのモデル（特徴量選択用モデル）を生成する。

【0037】

第１の検証部１５２４は、第１の教師データ分割部１５２１により分割された教師データ（即ち、特徴量選択用モデルを検証するための検証データ）を用いて、第１の最適化済みモデル生成部１５２３により生成された特徴量選択用モデルを検証し、精度情報を生成する。なお、生成された精度情報は、特徴量（特徴量群）と共に制御部１１により記憶部１７に記憶される。

【0038】

第１の期待改善度判定部１５２５は、第１の最適化部１５２２１で出力された期待改善度を、所定の閾値と比較することで、第１のハイパーパラメータ設定部１５２２（より正確には、第１の最適化部１５２２１）において、ハイパーパラメータを調整する必要があるか否かを判定する。即ち、生成される特徴量選択用モデルの精度に関して、改善の余地があるか否かを判定する。そして、改善の余地があると判定すると、第１の期待改善度判定部１５２５において改善の余地がないと判定されるまで、制御部１１は、第１のハイパーパラメータ設定部１５２２におけるハイパーパラメータ設定処理から第１の検証部１５２４における検証処理までの処理を繰り返し実行させるように制御する。

【0039】

重要度計算部１５３は、制御部１１により記憶された特徴量選択用モデルに関する精度情報のうち、所定の条件を満たす精度情報の特徴量選択用モデル（例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの１つの特徴量選択用モデル等）において、特徴量の重要度を計算する。より具体的には、どの特徴量が特徴量選択用モデルの精度に寄与しているかを数値化する。なお、ここで、特徴量とは、機械学習における特徴量（即ち、対象物の特徴、特性を定量的に示したもの）のことであり、ここでは、複数の化学物質に関する情報から導出される化学構造情報及び物性情報、生成物質から導出される化学構造情報及び物性情報、及び反応条件が、特徴量に該当する。

【0040】

削減可否判定部１５４は、重要度計算部１５３により計算された重要度に基づいて、特徴量の削除可否を判定する。削除可否判定部１５４は、原則として、特徴量のうち、重要度の低い特徴量を削除対象として判定し、例外として、重要度の低い特徴量が制御条件に該当する場合には、その重要度の低い特徴量を削除することなく（即ち、重要度の低い特徴量の性質に応じて、その重要度の低い特徴量を削除することなく）、次に重要度の低い特徴量が制御条件に該当せず、かつ特徴量として複数、存在する場合に、その次に重要度の低い特徴量を削除対象として判定する。このような判定処理を、削除対象とされる特徴量が無くなるまで繰り返し実行する。なお、ここでの処理に関して、図１６を用いて後述する。第２の特徴量削減部１５５は、削減可否判定部１５４により削除対象として判定された特徴量を削除することで、特徴量を削減する。

【0041】

特徴量群選択部１５６は、特徴量選択用モデルを生成した都度、保存している精度情報のうち、所定の条件を満たす精度情報の特徴量選択用モデル（例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの１つの特徴量選択用モデル等）の生成に用いられた特徴量を特徴量群として選択する。なお、選択された特徴量群は、制御部１１により記憶部１７に記憶され、その後、推定モデル生成部１６に渡される。

【0042】

推定モデル生成部１６は、第３の教師データ分割部１６１、複数推定モデル生成部１６２、推定モデル混合部１６３を有し、特徴量選択部１５において選択された特徴量群に基づいて、複数の推定モデルを生成する。複数推定モデル生成部１６２は、各々の機械学習方法（決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ）に従って、複数の推定モデルを生成する。

【0043】

第３の教師データ分割部１６１は、教師データ生成部１３により生成された教師データ（前処理部１４により、教師データ生成部１３により生成された教師データに対して前処理（加工処理）が施された場合には、その前処理が施された教師データ）を、ランダムに第１の教師データと第１の検証データに分割する。例えば、第１の教師データと第１の検証データを９０対１０の割合でランダムに分割する。

【0044】

複数推定モデル生成部１６２は、図５Ａに示されるように、第２の教師データ分割部１６２１、第２のハイパーパラメータ設定部１６２２、第２の最適化済みモデル生成部１６２３、第２の検証部１６２４、第２の期待改善度判定部１６２５を有し、特徴量選択用モデル生成部１５２とおおよそ同様の構成を備えるが、特徴量選択用モデル生成部１５２はいずれか１つの機械学習方法に従ってモデル（特徴量選択用モデル）を生成するのに対して、複数推定モデル生成部１６２は複数の機械学習方法に従って推定モデル（回帰モデル）を生成する点で異なる。以下、各々の機能ブロックについて説明する。

【0045】

第２の教師データ分割部１６２１は、第３の教師データ分割部１６１により分割された第１の教師データを、さらに、モデリングに用いる機械学習の数に応じて、最適化されたハイパーパラメータで推定モデルを生成するための第２の教師データと、第２の検証部１６２４において、生成された推定モデルを検証するための第２の検証データに分割する。なお、第１の教師データから第２の教師データと第２の検証データに分割する方法として、例えば、ブートストラップ法等を適用することができる。

【0046】

第２のハイパーパラメータ設定部１６２２は、モデリングに用いる機械学習の数に応じて実装され（即ち、第２のハイパーパラメータ設定部１６２２－１、第２のハイパーパラメータ設定部１６２２－２、・・・第２のハイパーパラメータ設定部１６２２－ｎ等で実装され）、その各々において、後段のその機械学習に対応する第２の最適化済みモデル生成部１６２３において推定モデルを生成する上でのハイパーパラメータを設定する。

【0047】

なお、ここでのハイパーパラメータも、上述と同様に、モデル固有のパラメータであって、設計者・モデル構築者が事前に設定する必要のあるパラメータ（設定可能なパラメータ）として定義される。また、第２のハイパーパラメータ設定部１６２２の各々は、ハイパーパラメータを設定する上で、第２の最適化部を有し、例えば、ベイズ最適化等を用いることで、ハイパーパラメータを掃引させ、ハイパーパラメータを設定する。第２の最適化部は、ハイパーパラメータの設定に際して、期待改善度を出力する（ベイズ最適化では、Expected Improvement (EI)）等を出力する）。

【0048】

第２の最適化済みモデル生成部１６２３も、第２のハイパーパラメータ設定部１６２２と同様に、モデリングに用いる機械学習の数に応じて実装され（即ち、第２のハイパーパラメータ設定部１６２２と同数であって、第２の最適化済みモデル生成部１６２３－１、第２の最適化済みモデル生成部１６２３－２、・・・第２の最適化済みモデル生成部１６２３－ｎ等で実装され）、第２の最適化済みモデル生成部１６２３の各々は、対応する第２のハイパーパラメータ設定部１６２２に関連付けられ、その関連付けられた第２のハイパーパラメータ設定部１６２２によりハイパーパラメータが設定されると、その第２の最適化済みモデル生成部１６２３に設定された機械学習法（上述のように、例えば、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等）に従って、推定モデルを生成する。

【0049】

第２の検証部１６２４は、第２のハイパーパラメータ設定部１６２２と同様に、モデリングに用いる機械学習の数に応じて実装され（即ち、第２の最適化済みモデル生成部１６２３と同数であって、第２の検証部１６２４－１、第２の検証部１６２４－２、・・・第２の検証部１６２４－ｎ等で実装され）、第２の検証部１６２４の各々は、対応する第２の最適化済みモデル生成部１６２３に関連付けられ、その関連付けられた第２の最適化済みモデル生成部１６２３により最適化済みモデル（推定モデル）が生成されると、第２の教師データ分割部１６２１により分割された対応する検証するための第２の検証データを用いて、その第２の最適化済みモデル生成部１６２３により生成された推定モデルの精度を検証し、精度情報を生成する。なお、生成された精度情報は、推定モデルと共に制御部１１により記憶部１７に記憶される。

【0050】

第２の期待改善度判定部１６２５は、第２のハイパーパラメータ設定部１６２２と同様に、モデリングに用いる機械学習の数に応じて実装され（即ち、第２の検証部１６２４と同数であって、第２の期待改善度判定部１６２５－１、第２の期待改善度判定部１６２５－２、・・・第２の期待改善度判定部１６２５－ｎ等で実装され）、第２の期待改善度判定部１６２５の各々は、対応する第２の検証部１６２４（第２のハイパーパラメータ設定部１６２２）に関連付けられ、対応する第２の最適化部１６２２１で出力された期待改善度を所定の閾値と比較することで、対応する第２のハイパーパラメータ設定部１６２２（より正確には、第２の最適化部１６２２１）において、ハイパーパラメータを調整する必要があるか否かを判定する。即ち、生成される推定モデルの精度に関して、改善の余地があるか否かを判定する。そして、改善の余地があると判定すると、第２の期待改善度判定部１６２５において改善の余地がないと判定されるまで、制御部１１は、第２のハイパーパラメータ設定部１６２２におけるハイパーパラメータ設定処理から第２の検証部１６２４における検証処理までの処理を繰り返し実行させるように制御する。

【0051】

推定モデル混合部１６３は、図５Ｂに示されるように、重み設定部１６３１、第３の検証部１６３２、第３の期待改善度判定部１６３３を有し、複数推定モデル生成部１６２において生成された複数の推定モデルに関して、混合処理を実行し、複数の推定モデルの各々に最適な重みを設定する。

【0052】

重み設定部１６３１は、第４の最適化部１６３１１を有し、例えば、ベイズ最適化等を用いることで、複数推定モデル生成部１６２において生成された複数の推定モデルに設定する重みを掃引させ、重みを調整（設定）する。第４の最適化部は、重みの設定に際して、期待改善度を出力する（ベイズ最適化では、Expected Improvement （EI）等を出力する）。

【0053】

第３の検証部１６３２は、複数推定モデル生成部１６２において生成された複数の推定モデルの各々に設定された重みを、その対応する推定モデルの予測値に掛け合わせ、さらに、それらを足し合わせることで算出された結果を、第１の検証データと比較する。なお、複数の推定モデルの各々に設定された重みと、比較結果（検証結果）は、制御部１１により、生成した推定モデルに関連付けられて記憶部１７に記憶される。

【0054】

第３の期待改善度判定部１６３３は、第４の最適化部１６３１１で出力された期待改善度を、所定の閾値と比較することで、重み設定部１６３１（より正確には、第４の最適化部１６３１１）において、重みを調整する必要があるか否かを判定する。即ち、複数の推定モデルの各々に関して、重みと予測値を掛け合わせ、それらを混合した結果の精度に関して、改善の余地があるか否かを判定する。そして、改善の余地があると判定すると、第３の期待改善度判定部１６３３において改善の余地がないと判定されるまで、制御部１１は、重み設定部１６３１における重みの設定処理、及び第３の検証部１６３２における検証処理を繰り返し実行させるように制御する。

【0055】

記憶部１７は、上述のように、所定のプログラム、中間データ、各種処理の実行結果（データ）を記憶する。なお、中間データとしては、例えば、特徴量を削減する過程で出力される教師データ（データセット）等が該当し、また、各種処理の実行結果としては、例えば、推定モデルと、その推定モデルに関連付けられた重み等が該当することになる。

【0056】

次に、図６のフローチャートを用いて、モデル生成装置１における推定モデルを生成する処理について説明する。なお、以下において、フローチャートの説明における記号「Ｓ」は、ステップを表すものとする。即ち、ここでは、フローチャートの各処理ステップＳ１－１～ステップＳ１－８をＳ１－１～Ｓ１－８と略記する。また、この点、後述のフローチャートにおいても同様とする。

【0057】

Ｓ１－１において、モデル生成装置１は、データ取得部１２により、複数の化学物質に関する情報（化学物質Ａに関するＳＭＩＬＥＳ記法等で記載された情報と化学物質Ｂに関するＳＭＩＬＥＳ記法等で記載された情報）、生成物質に関する情報（生成物質に関するＳＭＩＬＥＳ記法等で記載された情報）、反応条件、及び収率を取得する。

【0058】

Ｓ１－２において、モデル生成装置１は、分子記述子導出部１３２により、化学物質に関する情報に基づいて分子記述子を導出する。なお、ここでの処理は、図７を用いて、詳細に説明することができる。図７は、分子記述子導出部１３２における分子記述子を導出する手順を示すフローチャートである。Ｓ１－２－１において、分子記述子導出部１３２は、上述のように、化学構造情報を算出する。Ｓ１－２－２において、分子記述子導出部１３２は、化学物質の示す物理的、化学的性質を示す情報（物性情報）を記憶する物性情報データベース１３３より、物性情報を取得する。なお、Ｓ１－２－１における処理と、Ｓ１－２－２における処理は、その順序を問われることはなく、並列に実行されてもよい。また、モデル生成装置１は、分子記述子導出部１３２により、化学物質に関する情報に基づいて分子記述子を導出するのと同様に、生成物質に関する情報に基づいて分子記述子を導出する。

【0059】

Ｓ１－３において、データセット生成部１３１は、Ｓ１－２において、化学物質に関する情報に対して導出された分子記述子、及び、生成物質に関する情報に対して導出された分子記述子、並びに、データ取得部１２により取得された反応条件及び収率を、データを構成する要素として追加することで、図８に示されるようなデータセットを教師データとして生成する。

【0060】

図８は、データセットの生成処理を、その一例として示す図であり、より詳細には、その生成処理の過程を例示したものである。図８Ａでは、データセットの生成段階の第１ステップとして、収率、化学物質（化学物質Ａ及び化学物質Ｂ）に関する情報、化学物質Ａ及び化学物質Ｂを反応させた際に生成される生成物質に関する情報、並びに反応条件に関する情報（溶媒、温度、濃度、滴下速度）をデータセットとして構成させたものを示している。なお、化学物質に関する情報及び生成物質に関する情報は、ＳＭＩＬＥＳ表記で示され、また、一部の反応条件に関しては、制御条件として示される。

【0061】

また、図８Ｂでは、データセットの生成段階の第２ステップとして、第１ステップで生成されたデータセットにおいて、化学物質（化学物質Ａ、化学物質Ｂ、並びに、化学物質Ａ及び化学物質Ｂを反応させた際に生成される生成物質、溶媒）に関する情報を、分子記述子として表現し（分子記述子に変換し）、データとしてデータセットに付加した状態が示されている。さらに、図８Ｃでは、データセットの生成段階の第３ステップとして、第２ステップで生成されたデータセットにおいて、化学物質（化学物質Ａ、化学物質Ｂ、並びに、化学物質Ａ及び化学物質Ｂを反応させた際に生成される生成物質、溶媒）に関する情報を、物性情報ＤＢ１３３から取得したデータをデータセットに付加した状態が示されている。

【0062】

Ｓ１－４において、モデル生成装置１は、欠損値処理部１４２により、Ｓ１－３において、教師データ生成部１３により生成された教師データ（データセット）において、欠損値がある場合に、欠損値処理（即ち、一部のデータの削除処理、又は欠損値の補修処理）を実行する。

【0063】

図９は、欠損値処理部１４２における欠損値処理を示す図であり、図９Ａは、データセットにおいて、欠損値のある行を行単位で削除する処理、図９Ｂは、データセットにおいて、欠損値のある列を列単位で削除する処理、図９Ｃは、データセットにおいて、欠損値のある行の統計量（平均値）で補修する処理、図９Ｄは、データセットにおいて、欠損値のある列の統計量（最頻値）で補修する処理を示している。

【0064】

Ｓ１－５において、モデル生成装置１は、Ｓ１－３において生成された教師データ（データセット）、また、Ｓ１－４において、欠損値処理が実行された場合には、教師データ生成部１３により生成された教師データに欠損値処理が施された教師データ（データセット）において、数値として示されていないカテゴリー（反応条件）がある場合に、その数値として示されていないカテゴリー（反応条件）を、カテゴリー値変換部１４１により数値に変換する。

【0065】

図１０は、カテゴリー値変換部１４１における処理を示す図であり、具体的には、Ｏｎｅｈｏｔｅｎｃｏｄｉｎｇ法を用いて、カテゴリー値を数値に変換する処理を、その一例として示したものである。図１０では、温度調整方法と撹拌機の各々のカテゴリー変数に関して、機械学習のアルゴリズムが学習しやすいように、ダミー変数に変換しており、より具体的には、図１０に示されるように、「温度調整方法」に関して、「温度調整方法＿段階」を「１，０，０」、「温度調整方法＿連続」を「０，１，０」、「温度調整方法＿調整なし」を「０，０，１」、また、「撹拌機」に関して、「撹拌機＿撹拌子」を「１，０，０」、「撹拌機＿３枚後退翼」を「０，１，０」、「撹拌機＿アンカー」を「０，０，１」に変換している。

【0066】

Ｓ１－６において、モデル生成装置１は、データ標準化／正規化部１４３により、データセットを構成する各カテゴリー別に、データを標準化したり、又は、そのカテゴリーを構成するデータの最大値／最小値を用いて、０と１との間の実数値に正規化したりする。

【0067】

Ｓ１－７において、モデル生成装置１は、特徴量選択部１５により、Ｓ１－８において推定モデルを生成する上で、所定の条件を満たす精度情報の特徴量選択用モデル（例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの１つの特徴量選択用モデル等）の反応条件を特徴量の群（特徴量群）として選択する。なお、ここでの処理は、図１１を用いて、詳細に説明することができる。

【0068】

図１１は、特徴量選択部１５における特徴量（特徴量群）を選択する処理の手順を示すフローチャートである。Ｓ１－７－１において、モデル生成装置１は、第１の特徴量削減部１５１により、教師データ（データセット）において、特徴量を削減（削除）する。また、ここでの処理は、補足として、図１２のフローチャートとして、さらに詳細に示すことができる。

【0069】

Ｓ１－７－１－１において、モデル生成装置１は、第１の特徴量削減部１５１の相関係数算出部１５１１により相関係数を算出する。ここで、図１３は、相関係数と、その相関係数に従って特徴量を削減する処理を示す図であり、図１３では、一方の特徴量と他方の特徴量との相関係数が算出され、その算出された相関係数が、各々、マトリクスの対応する位置に示されている。

【0070】

Ｓ１－７－１－２において、モデル生成装置１は、第１の特徴量削減部１５１の相関係数判定部１５１２により、所定の相関係数で示される特徴量のうち、一方の特徴量を削除対象として判定する。ここで、所定の相関係数を０．９とした場合、図１３Ａでは、化学物質１_ＦＰ１と化学物質１_物性５の相関係数が、所定の相関係数（相関値）以上として算出されていることから（即ち、０．９以上である０．９５として算出されていることから）、相関係数判定部１５１２は、先ず、化学物質１_ＦＰ１と化学物質１_物性５を削除対象の候補として判定する。なお、ここで、化学物質１_ＦＰ１のＦＰ（フィンガープリント）は、化学構造情報のことであり、化合物質中に特定の部分構造が含まれるか否かを「０」又は「１」で示すものである。

【0071】

次に、相関係数判定部１５１２は、化学物質１_ＦＰ１と化学物質１_物性５の各々に関して、他の特徴量（この場合、化学物質１_物性１００）との相関係数を踏まえ、化学物質１_ＦＰ１と化学物質１_物性５のいずれかを削除対象として判定する。具体的には、化学物質１_ＦＰ１と化学物質１_物性１００の相関係数は０．４であり、また、化学物質１_物性５と化学物質１_物性１００の相関係数は０．６であることから（即ち、化学物質１_物性５と化学物質１_物性１００の相関係数（相関値）の方が化学物質１_ＦＰ１と化学物質１_物性１００の相関係数（相関値）よりも高いことから）、相関係数判定部１５１２は、化学物質１_物性５を削除対象として判定する。

【0072】

図１３Ｂの場合も同様に判定処理が実行され、相関係数判定部１５１２は、先ず、化学物質２_ＦＰ１と化学物質２_物性１００を削除対象の候補として判定し、次に、他の特徴量（この場合、化学物質２_物性５）との相関係数を踏まえ、化学物質２_物性１００を削除対象として判定する。

【0073】

Ｓ１－７－１－３において、モデル生成装置１は、第１の特徴量削減部１５１の特徴量削除部１５１３により、Ｓ１－７－１－２において削除対象として判定された特徴量を削除する。このように処理することで、教師データ（データセット）において特徴量を削減することができる。

【0074】

図１１のフローチャートに戻り、Ｓ１－７－１における特徴量の削減処理が実行されると、Ｓ１－７－２において、モデル生成装置１は、第１の特徴量削減部１５１の特徴量選択用モデル生成部１５２により、特徴量選択用モデルを生成する。また、ここでの処理は、補足として、図１４のフローチャートとして、さらに詳細に示すことができる。

【0075】

Ｓ１－７－２－１において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の教師データ分割部１５２１により、教師データを所定の割合で、最適化されたハイパーパラメータで特徴量選択用モデルを生成するための教師データと、第１の検証部１５２４において、生成された特徴量選択用モデルを検証するための検証データに分割する。なお、分割された教師データの各々は、制御部１１により、記憶部１７に記憶される。

【0076】

Ｓ１－７－２－２において、モデル生成装置１は、制御部１１により、未だ特徴量選択用モデルの生成処理が実行されていないことから、ｎ＝１であると判定し（Ｓ１－７－２－２Ｎｏ）、処理をＳ１－７－２－３に移行させる。Ｓ１－７－２－３において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１のハイパーパラメータ設定部１５２２により、未だ特徴量選択用モデルの生成処理が実行されていないことを前提に、ハイパーパラメータとして初期値を設定する。

【0077】

Ｓ１－７－２－４において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の最適化済みモデル生成部１５２３により、設定されたハイパーパラメータ（初期値）に従って、特徴量選択用モデルを生成する。Ｓ１－７－２－５において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の検証部１５２４により、Ｓ１－７－２－４において生成された特徴量選択用モデルの精度を検証する。また、モデル生成装置１は、その検証した結果（検証結果）を、制御部１１により記憶部１７に記憶する。

【0078】

Ｓ１－７－２－６において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の期待改善度判定部１５２５により、初期値として設定されている期待改善度を所定の閾値と比較することで、処理をＳ１－７－２－２に返すか否かを判定する。なお、ここで、初期値は、特徴量を選択する上で必要十分な数のモデルが生成されるように設定される（即ち、処理がＳ１－７－２－２に返されるように設定される）。

【0079】

処理がＳ１－７－２－２に返されると、モデル生成装置１は、制御部１１により、特徴量選択用モデルの生成処理が実行されたことから、ｎ≠１であると判定し（Ｓ１－７－２－２Ｙｅｓ）、処理をＳ１－７－２－７に移行させる。Ｓ１－７－２－７において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１のハイパーパラメータ設定部１５２２（第１の最適化部１５２２１）により、ハイパーパラメータの最適化を実行する。なお、第１のハイパーパラメータ設定部１５２２は、最適化を実行する過程で、期待改善度を出力する。

【0080】

Ｓ１－７－２－８において、モデル生成装置１は、制御部１１により、Ｓ１－７－２－７のハイパーパラメータの最適化処理の実行時に出力される期待改善度を、記憶部１７に記憶する。その後、処理はＳ１－７－２－３に移行され、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１のハイパーパラメータ設定部１５２２により、Ｓ１－７－２－７において最適化されたハイパーパラメータを、最適化済みモデルの生成用のハイパーパラメータとして設定する。

【0081】

Ｓ１－７－２－４において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の最適化済みモデル生成部１５２３により、Ｓ１－７－２－７において最適化され、Ｓ１－７－２－３において設定されたハイパーパラメータを用いて、最適化済みモデル（即ち、ハイパーパラメータが最適化された特徴量選択用モデル）を生成する。Ｓ１－７－２－５において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の検証部１５２４により、Ｓ１－７－２－４において生成された最適化済みモデルの精度を検証する。また、その検証結果を、制御部１１により記憶部１７に記憶する。

【0082】

Ｓ１－７－２－６において、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の期待改善度判定部１５２５により、Ｓ１－７－２－８において出力され、記憶された期待改善度と所定の閾値と比較することで、処理をＳ１－７－２－２に返すか否かを判定する。より具体的には、モデル生成装置１は、特徴量選択用モデル生成部１５２の第１の期待改善度判定部１５２５により、Ｓ１－７－２－８において出力され、記憶された期待改善度が所定の閾値未満であると判定されると、処理をＳ１－７－２－２に返し、Ｓ１－７－２－８において出力され、記憶された期待改善度が所定の閾値以上であると判定されると、特徴量選択用モデルを生成する処理を終了する。

【0083】

このように、Ｓ１－７－２の処理において、Ｓ１－７－２－８において出力され、記憶された期待改善度が所定の閾値以上になるまで、Ｓ１－７－２－２、Ｓ１－７－２－７、Ｓ１－７－２－８、Ｓ１－７－２－３、Ｓ１－７－２－４、Ｓ１－７－２－５、Ｓ１－７－２－６の処理が繰り返し実行され、また、その実行される都度、最適化されたハイパーパラメータと検証結果を記憶する。そして、Ｓ１－７－２－８において出力され、記憶された期待改善度が所定の閾値以上になると、図１４に示される処理（即ち、Ｓ１－７－２の処理）を終了する。

【0084】

補足として、Ｓ１－７－２－４において生成される特徴量選択用モデルに関して、機械学習方法として決定木を用いた場合を例にとり、説明を加える。図１５は、機械学習としての決定木を用いた場合のモデル（決定木モデル）を示す図である。ここで、決定木とは、所定の条件に従って分岐させることにより、データの推定（分類）を行うモデルである。図１５では、特徴量が割り当てられたノードが符号N１０から符号N１６までで示されており（即ち、各々のノードには、特徴量の条件（即ち、分岐させる条件）が設定されており）、その分岐させる条件に従って、下位のノードのいずれかに分類されるように、分岐させることを示している。

【0085】

例えば、符号N１０に示されるノードでは、温度_℃≦－０．３８６であるか否かによって（即ち、反応条件の温度が－０．３８６以下であるか否かによって）分岐させている。より具体的には、温度_℃≦－０．３８６ではない場合（即ち、温度が－０．３８６より大きい場合）、符号N１１のノードに分岐させる。また、温度_℃≦－０．３８６である場合（即ち、温度が－０．３８６以下の場合）、符号N１２のノードに分岐させる。なお、ここでの温度（即ち、－０．３８６）は、正規化／標準化された値として示される。

【0086】

また、符号N１０のノードから符号N１１と符号N１２のノードに分岐させるにあたり、平均二乗誤差（squared error）の和が最小となるように特徴量の条件を設定し、分岐（分割）させる。即ち、符号N１１のノードにおける平均二乗誤差と、符号N１２のノードにおける平均二乗誤差の和が最小となるように、分岐させる（ここでは、符号N１１のノードに記載の平均二乗誤差と、符号N１２のノードに記載の平均二乗誤差の和（１．５８７＝０．８３２＋０．７５５）が、平均二乗誤差の和として最小になると判定し、特徴量の条件を温度_℃≦－１．８５６、化学物質Ｂ量＿ｍｏｌ％≦１．２２６として分岐させる）。

【0087】

図中において、ノードに記載されているＳａｍｐｌｅｓは分割後のサンプル数、Ｖａｌｕｅは平均値として示され、それらの値は、平均二乗誤差を算出する上で用いられる。その他、補足として、図１５に示される決定木では、決定木のノードの特徴量は、温度、分子記述子等で示されているが、上述のように、平均二乗誤差を用いて分岐させることから、他の反応条件（例えば、濃度、滴下速度等）が特徴量として選択されることもある。また、決定木の深さとして、図１５では２までで示しているが、図中で「つづく」と記載してあるように、実際には、さらに深いものとして示される。

【0088】

図１１のフローチャートに戻り、Ｓ１－７－２における特徴量選択用モデルの生成処理が実行されると、Ｓ１－７－３において、制御部１１は、ハイパーパラメータが調整され、保存された特徴量選択用モデルの精度情報のうち、所定の条件を満たす精度情報（例えば、最も高い精度に関する情報、所定の閾値以上である精度のうちの１つの精度に関する情報等）に関連付けられた特徴量選択用モデルを特定（選択）する。

【0089】

Ｓ１－７－４において、モデル生成装置１は、重要度計算部１５３により、精度情報が所定の条件を満たすものとして記憶された特徴量選択用モデルにおいて、重要度を計算する。重要度は、上述のように、どの特徴量が特徴量選択用モデルの精度に寄与しているかを数値化したもので、構築された特徴量選択用モデルにおいて、特徴量毎に重要度を加算することで算出する。

【0090】

Ｓ１－７－５において、モデル生成装置１は、削減可否判定部１５４により、特徴量の数、特徴量が制御条件に該当するか、重要度計算部１５３により計算された特徴量毎の重要度等に基づいて、特徴量を削減（削除）することができるか否かを判定する。モデル生成装置１は、特徴量を削減（削除）することができると判定すると（Ｓ１－７－５Ｙｅｓ）、処理をＳ１－７－６に移行させる。

【0091】

Ｓ１－７－６において、モデル生成装置１は、第２の特徴量削減部１５５により、Ｓ１－７－５において削減可能と判定された特徴量を、削減（削除）する。その後、処理は、Ｓ１－７－２に返され、Ｓ１－７－５において、特徴量を削除することができないと判定されるまで（Ｓ１－７－５Ｎｏ）、Ｓ１－７－６、Ｓ１－７－２、Ｓ１－７－３、Ｓ１－７－４、Ｓ１－７－５の処理が繰り返し実行される。

【0092】

ここで、補足として、図１６を用いて、第２の特徴量削減部１５５において繰り返し実行される削減処理を示す。図１６Ａは、制御部１１により特定（選択）された所定の条件を満たす精度情報（例えば、最も高い精度に関する情報、所定の閾値以上である精度のうちの１つの精度に関する情報等）に関連付けられた特徴量選択用モデルをデータセットとして示したものである。この図１６Ａにおいて、重要度計算部１５３により溶媒１_物性１００の重要度が最も低い重要度として計算されると、溶媒１_物性１００が制御条件に該当するものではなく、また、溶媒１_物性１が特徴量として存在することから（その他に、溶媒１_物性１－９９が特徴量として存在することから）、削減可否判定部１５４により特徴量を削減可能と判定される。

【0093】

次に、重要度計算部１５３により最も重要度が低いとして計算され、削減可否判定部１５４により削減対象と判定された溶媒１_物性１００が、第２の特徴量削減部１５５により削減（削除）される（図１６Ｂ）。その後、再度、特徴量選択用モデルを生成する処理、所定の条件に基づいて特定（選択）された特徴量選択用モデルの重要度を計算する処理、特徴量を削除することができるか否かを判定する処理が実行される。

【0094】

削減可否判定部１５４における判定処理では、図１６Ｃに示される特徴量のうち、削除できる特徴量があるか否かを判定する。ここで、図１６Ｃに示される特徴量では、重要度の最も低い特徴量は温度（℃）になるが、温度（℃）は制御条件に該当することから削減対象として判定することは行なわず、温度（℃）の次に重要度の低い特徴量（化学物質Ｂ_ＦＰ１０２４）を特定し、さらに、その特徴量（化学物質Ｂ_ＦＰ１０２４）が制御条件に該当せず、かつ特徴量として複数、存在することを条件に、化学物質Ｂ_ＦＰ１０２４を削減対象として判定する。

【0095】

削減可否判定部１５４により削減可能と判定されると（化学物質Ｂ_ＦＰ１０２４が削減対象として判定されると）、その削減可否判定部１５４により削減対象として判定された化学物質Ｂ_ＦＰ１０２４が第２の特徴量削減部１５５により削減（削除）される。その後、特徴量選択用モデルを生成する処理、所定の条件に基づいて特定（選択）された特徴量選択用モデルの重要度を計算する処理、特徴量を削除することができるか否かを判定する処理が、削減対象とされる特徴量がなくなるまで、繰り返し実行される。

【0096】

図１１に戻り、Ｓ１－７－５において、特徴量を削除することができないと判定されると（Ｓ１－７－５Ｎｏ）、Ｓ１－７－７において、モデル生成装置１は、特徴量群選択部１５６により、Ｓ１－７－６において削除されることなく、残存している特徴量の群を選択する。なお、Ｓ１－７－７において、残存している特徴量の群が選択されると、図１１のフローチャートに示される一連の処理は終了する（即ち、Ｓ１－７に示される処理は終了する）。

【0097】

図６に戻り、Ｓ１－８において、モデル生成装置１は、推定モデル生成部１６により、複数の推定モデルを生成する。なお、ここでの処理は、図１７を用いて、詳細に説明することができる。図１７は、推定モデル生成部１６により、複数の推定モデルを生成する処理の手順を示すフローチャートである。

【0098】

図１７のフローチャートに示されるように、モデル生成装置１は、第３の教師データ分割部１６１により、Ｓ１－８－１において、教師データ生成部１３により生成された教師データ（前処理部１４により、教師データ生成部１３により生成された教師データに対して前処理（加工処理）が施された場合には、その前処理が施された教師データ）を、Ｓ１－８－２で用いる第１の教師データと、Ｓ１－８－３で用いる第１の検証データに分割する。

【0099】

Ｓ１－８－２において、推定モデル生成部１６の複数推定モデル生成部１６２により、複数の推定モデルを生成し、次に、Ｓ１－８－３において、推定モデル生成部１６の推定モデル混合部１６３により、複数の推定モデルを混合し、複数の推定モデルの各々に設定する重みを算出する。この図１７のフローチャートに示される処理（Ｓ１－８－１及びＳ１－８－２に示される処理）に関して、各々、図１８、図２０を用いて順に説明する。

【0100】

図１８は、Ｓ１－８－２に示される処理（即ち、複数の推定モデルを生成する処理）の手順を示すフローチャートである。Ｓ１－８－２－１において、モデル生成装置１は、複数推定モデル生成部１６２の第２の教師データ分割部１６２１により、Ｓ１－８－１において分割された第１の教師データを、ブートストラップ法等の分割方法により、最適化されたハイパーパラメータで推定モデルを生成するための第２の教師データと、第２の検証部１６２４において、生成された推定モデルを検証するための第２の検証データに分割する（より詳細には、ここでは、第１の教師データを、最適化されたハイパーパラメータで推定モデルを生成するための第２の教師データ及び生成された推定モデルを検証するための第２の検証データを１セットとして、３セットに分割する）。

【0101】

Ｓ１－８－２－２において、モデル生成装置１は、制御部１１により、３セットに分割された、最適化されたハイパーパラメータで推定モデルを生成するための第２の教師データ及び生成された推定モデルを検証するための第２の検証データを、セット毎に特徴量単位で記憶部１７に記憶する。Ｓ１－８－２－３において、モデル生成装置１は、制御部１１により、１セットとして分割された第２の教師データと第２の検証データを、予め設定された機械学習方法に割り当てる。上述のように、第１の教師データをブートストラップ法で３セットに分割していることから、制御部１１は、その３セットの各々を、機械学習方法１－３（即ち、機械学習方法１、機械学習方法２、機械学習方法３）に割り当てる。

【0102】

機械学習方法１－３の各々は、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等の機械学習方法のいずれかで設定される。Ｓ１－８－２－４において、割り当てられた推定モデル生成用の第２の教師データを入力データとして、設定された機械学習方法を用いて推定モデルを生成する。Ｓ１－８－２－５、Ｓ１－８－２－６においても、Ｓ１－８－２－４と同様に、割り当てられた推定モデル生成用の第２の教師データを入力データとして、設定された機械学習方法を用いて推定モデルを生成する。

【0103】

なお、Ｓ１－８－２－４における処理、Ｓ１－８－２－５における処理、Ｓ１－８－２－６における処理は、同一の機械学習方法が用いられてもよく、また、その順序を問われることはなく、並列に実行されてもよい。さらに、これらの処理は、図１９を用いて、さらに詳細に示すことができ、ここでは、Ｓ１－８－２－４における処理を用いて例示する。

【0104】

Ｓ１－８－２－４－１において、モデル生成装置１は、制御部１１により、設定された機械学習方法に応じた推定モデルの生成処理が未だ実行されていないことから、ｎ＝１であると判定し（Ｓ１－８－２－４－１Ｎｏ）、処理をＳ１－８－２－４－２に移行させる。Ｓ１－８－２－４－２において、モデル生成装置１は、複数推定モデル生成部１６２の第２のハイパーパラメータ設定部１６２２により、設定された機械学習方法に応じた推定モデルの生成処理が未だ実行されていないこと前提に、ハイパーパラメータとして初期値を設定する。

【0105】

Ｓ１－８－２－４－３において、モデル生成装置１は、複数推定モデル生成部１６２の第２の最適化済みモデル生成部１６２３により、設定されたハイパーパラメータ（初期値）に従って、推定モデルを生成する。Ｓ１－８－２－４－４において、モデル生成装置１は、複数推定モデル生成部１６２の第２の検証部１６２４により、Ｓ１－８－２－４－３において生成された推定モデルの精度を検証する。また、その検証した結果（検証結果）を、制御部１１により記憶部１７に記憶する。

【0106】

Ｓ１－８－２－４－５において、モデル生成装置１は、複数推定モデル生成部１６２の第２の期待改善度判定部１６２５により、初期値として設定されている期待改善度を所定の閾値と比較することで、処理をＳ１－８－２－４－１に返すか否かを判定する。なお、ここで、初期値は、推定モデルの精度が所定の精度以上になるように、必要十分な数のモデルが生成されるように設定される（即ち、処理がＳ１－８－２－４－１に返されるように設定される）。

【0107】

処理がＳ１－８－２－４－１に返されると、モデル生成装置１は、制御部１１により、設定された機械学習方法に応じた推定モデルの生成処理が実行されたことから、ｎ≠１であると判定し（Ｓ１－８－２－４－１Ｙｅｓ）、処理をＳ１－８－２－４－６に移行させる。Ｓ１－８－２－４－６において、モデル生成装置１は、複数推定モデル生成部１６２の第２のハイパーパラメータ設定部１６２２（第２の最適化部１６２２１）により、ハイパーパラメータの最適化を実行する。

【0108】

Ｓ１－８－２－４－７において、モデル生成装置１は、制御部１１により、Ｓ１－８－２－４－６のハイパーパラメータの最適化処理を実行する過程で出力される期待改善度を、記憶部１７に記憶する。その後、処理はＳ１－８－２－４－２に移行され、モデル生成装置１は、複数推定モデル生成部１６２の第２のハイパーパラメータ設定部１６２２により、Ｓ１－８－２－４－６において最適化されたハイパーパラメータを、推定モデルの生成用のハイパーパラメータとして設定する。

【0109】

Ｓ１－８－２－４－３において、モデル生成装置１は、複数推定モデル生成部１６２の第２の最適化済みモデル生成部１６２３により、Ｓ１－８－２－４－６において最適化され、Ｓ１－８－２－４－２において設定されたハイパーパラメータを用いて、最適化済みモデル（即ち、ハイパーパラメータが最適化された推定モデル）を生成する。Ｓ１－８－２－４－４において、モデル生成装置１は、複数推定モデル生成部１６２の第２の検証部１６２４により、Ｓ１－８－２－４－３において生成された最適化済みモデルの精度を検証する。また、その検証結果を、制御部１１により記憶部１７に記憶する。

【0110】

Ｓ１－８－２－４－５において、モデル生成装置１は、複数推定モデル生成部１６２の第２の期待改善度判定部１６２５により、Ｓ１－８－２－４－７において出力され、記憶された期待改善度と所定の閾値と比較することで、処理をＳ１－８－２－４－１に返すか否かを判定する。より具体的には、モデル生成装置１は、複数推定モデル生成部１６２の第２の期待改善度判定部１６２５により、Ｓ１－８－２－４－７において出力され、記憶された期待改善度が所定の閾値未満であると判定されると、処理をＳ１－８－２－４－１に返し、Ｓ１－８－２－４－７において出力され、記憶された期待改善度が所定の閾値以上であると判定されると、推定モデルを生成する処理を終了する。

【0111】

このように、Ｓ１－８－２－４の処理において、Ｓ１－８－２－４－７において出力され、記憶された期待改善度が所定の閾値以上になるまで、Ｓ１－８－２－４－１、Ｓ１－８－２－４－６、Ｓ１－８－２－４－７、Ｓ１－８－２－４－２、Ｓ１－８－２－４－３、Ｓ１－８－２－４－４、Ｓ１－８－２－４－５の処理が繰り返し実行されることになる。そして、その実行される都度、最適化されたハイパーパラメータと検証結果が記憶されることになる。図１８のフローチャートに戻り、Ｓ１－８－２－４における処理と同様に、Ｓ１－８－２－５における処理、Ｓ１－８－２－６における処理が実行されると、図１８に示される複数推定モデルの生成処理が終了する（即ち、Ｓ１－８－２に示される処理は終了する）。

【0112】

次に、Ｓ１－８－３に示される処理（即ち、複数の推定モデルを混合する処理）を、図２０に示すフローチャートを用いて説明する。Ｓ１－８－３－１において、モデル生成装置１は、制御部１１により、重みの設定処理が未だ実行されていないことから、ｎ＝１であると判定し（Ｓ１－８－３－１Ｎｏ）、処理をＳ１－８－３－２に移行させる。Ｓ１－８－３－２において、モデル生成装置１は、推定モデル混合部１６３の重み設定部１６３１により、重みの設定処理が未だ実行されていないことを前提に、複数推定モデル生成部１６２において生成された複数の推定モデルの各々に付加する重みとして初期値を設定する。

【0113】

Ｓ１－８－３－３において、モデル生成装置１は、推定モデル混合部１６３の第３の検証部１６３２により、複数推定モデル生成部１６２において生成された複数の推定モデルの各々に設定された重み（初期値）を、その対応する推定モデルの予測値に掛け合わせ、さらに、それらを足し合わせる。

【0114】

Ｓ１－８－３－４において、モデル生成装置１は、推定モデル混合部１６３の第３の検証部１６３２により、Ｓ１－８－３－３の実行結果（算出結果）を第１の検証データと比較する。そして、モデル生成装置１は、制御部１１により、その比較した結果（検証結果）と、複数の推定モデルの各々に設定された重みを、生成した推定モデルに関連付けられて記憶部１７に記憶する。

【0115】

Ｓ１－８－３－５において、モデル生成装置１は、推定モデル混合部１６３の第３の期待改善度判定部１６３３により、初期値として設定されている期待改善度を所定の閾値と比較することで、処理をＳ１－８－３－１に返すか否かを判定する。なお、ここで、初期値は、複数の推定モデルの各々に設定される重みが最適な値として付加されるように設定される（即ち、予測精度を高くするために、処理がＳ１－８－３－１に返されるように設定される）。

【0116】

処理がＳ１－８－３－１に返されると、モデル生成装置１は、制御部１１により、重みの設定処理が実行されたことから、ｎ≠１であると判定し（Ｓ１－８－３－１Ｙｅｓ）、処理をＳ１－８－３－６に移行させる。Ｓ１－８－３－６において、モデル生成装置１は、推定モデル混合部１６３の重み設定部１６３１（第４の最適化部１６３１１）により、複数の推定モデルの各々に付加する重みの最適化を実行する。

【0117】

Ｓ１－８－３－７において、モデル生成装置１は、制御部１１により、Ｓ１－８－３－６の重みの最適化処理を実行する過程で出力される期待改善度を、記憶部１７に記憶する。その後、処理はＳ１－８－３－２に移行され、モデル生成装置１は、推定モデル混合部１６３の重み設定部１６３１により、Ｓ１－８－３－６において最適化された重みを、複数推定モデル生成部１６２において生成された複数の推定モデルの各々に付加する重みとして設定する。

【0118】

Ｓ１－８－３－３において、モデル生成装置１は、推定モデル混合部１６３の第３の検証部１６３２によりにより、Ｓ１－８－３－６において最適化され、Ｓ１－８－３－２において設定された重みを、その対応する推定モデルの予測値に掛け合わせ、さらに、それらを足し合わせる。

【0119】

【0120】

Ｓ１－８－３－５において、モデル生成装置１は、推定モデル混合部１６３の第３の期待改善度判定部１６３３により、Ｓ１－８－３－７において出力され、記憶された期待改善度と所定の閾値と比較することで、処理をＳ１－８－３－１に返すか否かを判定する。より具体的には、モデル生成装置１は、推定モデル混合部１６３の第３の期待改善度判定部１６３３により、Ｓ１－８－３－７において出力され、記憶された期待改善度が所定の閾値未満であると判定されると、処理をＳ１－８－３－１に返す。

【0121】

このように、Ｓ１－８－３－５の処理において、Ｓ１－８－３－７において出力され、記憶された期待改善度が所定の閾値以上になるまで、Ｓ１－８－３－１、Ｓ１－８－３－６、Ｓ１－８－３－７、Ｓ１－８－３－２、Ｓ１－８－３－３、Ｓ１－８－３－４、Ｓ１－８－３－５の処理が繰り返し実行されることになる。そして、その実行される都度、最適化された重みと検証結果が、生成した推定モデルに関連付けられて記憶部１７に記憶されることになる。そして、Ｓ１－８－３－５の処理において、Ｓ１－８－３－７で出力され、記憶された期待改善度が所定の閾値以上であると判定されると、複数の推定モデルを混合する処理を終了する（即ち、Ｓ１－８－３に示される処理は終了する）。

【0122】

補足として、図２１を用いて、推定モデル生成部１６における処理の内容を、データの流れ（データフロー）に着目して説明する。Ｓ２－１として、教師データ生成部１３により生成された教師データ（前処理部１４により、教師データ生成部１３により生成された教師データに対して前処理（加工処理）が施された場合には、その前処理が施された教師データ）が、推定モデル生成部１６において取得される。

【0123】

Ｓ２－２として、その取得された教師データが、第１の教師データと、第１の検証データに分割される。Ｓ２－３として、その分割された第１の教師データは、ブートストラップ法により、さらに、第２の教師データと第２の検証データを１つのセットとする、３つのセットに分割される。なお、ここでの分割に関して、データの重複は許容される。即ち、第１のセットとして分割された第２の教師データと、第２のセットとして分割された第２の教師データに関して、データが重複していてもよい。

【0124】

Ｓ２－４として、第１のセット（第１のセットとしての第２の教師データ及び第２の検証データ）に基づいて、機械学習方法１により推定モデル１が生成される。そして、推定モデル１が生成されると、Ｓ２－７として、推定モデル１の予測値ｙ１が算出される。同様に、Ｓ２－５として機械学習方法２により推定モデル２が生成され、Ｓ２－８として、推定モデル２の予測値ｙ２が算出される。また、Ｓ２－６として機械学習方法３により推定モデル３が生成される。Ｓ２－９として、推定モデル３の予測値ｙ３が算出される。

【0125】

Ｓ２－１０として、複数の推定モデルの各々に対して、その推定モデルに対する重みが設定される（具体的には、推定モデル１に対して重みｗ１、推定モデル２に対して重みｗ２、推定モデル３に対して重みｗ３が設定される）。Ｓ２－１１として、推定モデルの予測値と、その推定モデルに対応する重みを掛け合わせ、それらの総計が算出される（具体的には、推定モデル１の予測値１（ｙ１）とその推定モデル１に対応する重み１（ｗ１）の積、推定モデル２の予測値２（ｙ２）とその推定モデル２に対応する重み２（ｗ２）の積、推定モデル３の予測値３（ｙ３）とその推定モデル３に対応する重み３（ｗ３）の積の総計が算出される）。

【0126】

Ｓ２－１１として、Ｓ２－１０で算出された総計（結果）とＳ２－２で分割された第１の検証データを比較することで、その精度を検証する。Ｓ２－１２として、比較した結果（検証結果）が、複数の推定モデルの各々に設定された重みと共に、生成した推定モデルに関連付けられて記憶部１７に記憶される。また、ここでのＳ２－１０からＳ２－１４までのデータ処理は、上述の推定モデル生成部１６における処理の手順を示すフローチャートにおいて説明したように、ベイズ最適化の実行過程で出力される期待改善度が所定の閾値以上になるまで、繰り返し実行されることになる。この点、図２１において、破線で示している。

【0127】

なお、推定モデルを提供する場合、Ｓ２－４で生成された推定モデル１、Ｓ２－５で生成された推定モデル２、及びＳ２－６で生成された推定モデル３と、Ｓ２－１２で記憶された、それらの推定モデルに対応する検証結果のうち、最も精度が高いものとして検証された際の各々の推定モデルに対応する重み１、重み２、及び重み３とが提供されることになる。

【0128】

これにより、図６のフローチャートにおけるＳ１－８に示される処理が完了する。以上、図６のフローチャートを用いて、モデル生成装置１における推定モデルを生成する処理の手順について説明したが、モデル生成装置１における推定モデルを生成する処理の手順（処理）に関して、さらに、処理を纏めて示すこともできる。具体的には、Ｓ１－２の分子記述子の導出処理、及びＳ１－３のデータセットの生成処理は、教師データの生成処理として、また、Ｓ１－４の欠損値に関する処理、Ｓ１－５のカテゴリー値に関する処理、及びＳ１－６のデータの標準化／正規化に関する処理は、前処理として纏めることができる。

【0129】

加えて、前処理として示される処理（即ち、Ｓ１－４、Ｓ１－５、及びＳ１－６に示される処理）は、生成された教師データに応じて実行される処理であり（例えば、教師データに欠損値が含まれている場合に、欠損値処理（上述のように、例えば、一部のデータの削除処理、又は欠損値の補修処理）を実行するものであり）、必ずしも実行される処理ではない。

【0130】

また、図６のフローチャート（本実施形態）では、モデルを生成する上で、その精度を向上させるために、（１）特徴量の削除に関する処理（Ｓ１－７－４、Ｓ１－７－６等）、（２）ハイパーパラメータの調整に関する処理（Ｓ１－７－２－７等）、（３）複数の推定モデルの生成と重みの設定に関する処理（Ｓ１－８）を行っている。具体的には、ハイパーパラメータを調整する処理、その調整したハイパーパラメータで生成した推定モデルに対して特徴量を削除する処理を所定の条件が満たされるまで繰り返し実行し、そして、その特徴量の削除に関する処理を実行した結果として取得される精度の高い推定モデルの生成に用いられた特徴量（特徴量群）を用いて複数の推定モデルの生成と重みの設定を行っている。

【0131】

そのため、Ｓ１－７－２－４において、ハイパーパラメータ（初期値）に従って、生成された特徴量選択用モデルに関して相応の精度を担保することができていることを前提に、ハイパーパラメータ（初期値）で生成された特徴量選択用モデルを、モデル生成装置１により生成した推定モデルとして提供することもできる。

【0132】

また、（１）特徴量の削除に関する処理、（２）ハイパーパラメータの調整に関する処理を個別に独立して実行し、その実行することで生成された特徴量選択用モデルのうち、所定の条件を満たす精度情報の特徴量選択用モデル（例えば、最も精度の高い特徴量選択用モデル、精度が所定の閾値以上である特徴量選択用モデルのうちの１つの特徴量選択用モデル等）を、モデル生成装置１により生成した推定モデルとして提供することもできる。

【0133】

さらに、（３）複数の推定モデルの生成と重みの設定に関する処理も、同様に、（１）特徴量の削除に関する処理、（２）ハイパーパラメータの調整に関する処理とは、個別に独立して実行することもできる。即ち、ハイパーパラメータ（初期値）で生成された特徴量選択用モデルの特徴量に従って、複数の推定モデルの生成と、その生成した複数の推定モデルの各々に対して重みを設定することもできる。

【0134】

その他、補足として、上述の実施形態では、複数の化学物質に関する情報として、化学物質Ａに関する情報と化学物質Ｂに関する情報の２つの化学物質に関する情報を用いて説明したが、３つ以上の化学物質に関する情報を用いて、モデルを生成することもできる。３つ以上の化学物質に関する情報を用いる場合、所定のデータセットとして生成される教師データを構成する要素として、例えば、化学物質Ａ、化学物質Ｂ以外に化学物質Ｃ、化学物質Ｄ・・・等の化学物質の化学構造情報及び物性情報が加えられることなり、そのように構成されたデータセット（教師データ）を前提に、特徴量の選択処理（特徴量の削除処理）、複数の推定モデルの生成処理を実行すればよい。

【0135】

以上、説明したように、本実施形態によれば、反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を入力値、また、その生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値とする推定モデルを生成することで、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することができる。

【0136】

（反応条件の提供（反応条件の提供装置））
図２２は、本実施形態に係る反応条件の提供装置５の機能構成を示すブロック図である。反応条件の提供装置５は、図２２に示されるように、その機能として、大きく、制御部５１、データ取得部５２、化学特性情報生成部５３、反応条件設定部５４、欠損値処理部５５、推定モデル５６、解析部５７、表示制御部５８、記憶部５９を備える。

【0137】

制御部５１は、各機能ブロックの処理を制御する機能ブロックである。データ取得部５２は、複数の化学物質に関する情報と、その複数の化学物質を反応させて生成する生成物質（生成目的とする生成物質）に関する情報を取得する。データ取得部５２により取得された複数の化学物質に関する情報と、生成目的とする生成物質に関する情報は、制御部５１により、一時的に記憶部５９に記憶される。なお、化学物質に関する情報及び生成物質に関する情報は、ＳＭＩＬＥＳ記法、ＭＯＬファイル、ＳＤＦファイル等の記法で記載することができ、本実施形態では、モデル生成装置の場合と同様に、ＳＭＩＬＥＳ記法で記載された情報を取得するものとする。また、ここでは、複数の化学物質に関する情報として、化学物質Ａに関する情報と化学物質Ｂに関する情報の２つの化学物質に関する情報を用いて説明する。

【0138】

化学特性情報生成部５３は、データセット生成部５３１、分子記述子導出部５３２、物性情報データベース（図中、物性情報ＤＢ）５３３を有し、データ取得部５２により取得された化学物質に関する情報から化学特性情報を生成する。データセット生成部５３１は、分子記述子導出部５３２により導出された化学構造情報、及び物性情報データベース５３３より取得された物性情報に基づいて、化学特性情報を所定のデータセットとして生成する。なお、ここでの化学物質に関する情報において実行される処理は、データ取得部５２により取得された生成物質に関する情報に対しても、同様に実行される。また、物性情報データベース５３３に格納される物性情報は、上述の図１Ｂに示されるように、外部のサーバ装置から有線又は無線の通信ネットワークを介して、更新させることができる。この点、後述の反応条件データベース５４１についても同様である。

【0139】

分子記述子導出部５３２は、分子の構造を決定する上での指標（数値）として示される化学構造情報、及び物性情報を分子記述子として導出する。分子記述子の導出にあたり、モデル生成装置の場合と同様に、Ｍｏｒｇａｎ法を用いて説明するが、Ｍｏｒｄｒｅｄ法、ＲＤｋｉｔｄｅｓｃｒｉｐｔｏｒ法等を用いることもできる。即ち、ここでは、モデル生成装置の場合と同様に、化学構造情報を算出し、物性情報を所定のデータベースから取得することで分子記述子を導出する。

【0140】

なお、分子記述子導出部５３２により導出された分子記述子（即ち、算出した化学構造情報、及び取得した物性情報）は、データセット生成部５３１により、データセットにデータ（構成要素）として追加される。このように、データセット生成部５３１は、化学物質に関する情報に、分子記述子をデータセットの構成要素として追加し、さらに、生成物質に関する情報に、分子記述子をデータセットの構成要素として追加することで、化学特性情報を所定のデータセットとして生成する。

【0141】

反応条件設定部５４は、反応条件データベース（図中、反応条件ＤＢ）５４１、類似度算出部５４２、第１の反応条件選択部５４３、反応条件範囲設定部５４４を有し、化学特性情報生成部５３により生成された化学特性情報に基づいて、解析部５７（より詳細には、解析部５７の反応シミュレーション部５７１）に入力する反応条件を設定する。

【0142】

反応条件データベース５４１は、過去に実施された実験のデータを格納したデータベースであり、具体的には、反応させた複数の化学物質と、その複数の化学物質を反応させたときの反応条件、その反応させた結果として生成された生成物質を１つのデータセットとして、反応条件を推定する上で必要十分な数のデータセットを記憶する。なお、反応条件データベース５４１に記憶されている、複数の化学物質と生成物質は、ＳＭＩＬＥＳ記法で記載されているものとする。

【0143】

類似度算出部５４２は、データ取得部５２により取得された、複数の化学物質に関する情報と、反応条件データベース５４１に記憶された、過去に反応させた複数の化学物質に関する情報との類似度を所定の指標を用いて算出する。また、生成物質に関しても、同様に、類似度算出部５４２は、データ取得部５２により取得された、生成物質に関する情報と、過去に反応させた結果として生成された生成物質に関する情報との類似度を所定の指標を用いて算出する。

【0144】

このように、類似度を算出し、その算出された類似度を評価することで選定された反応条件を推定モデルに入力することで、収率の高い反応条件を提供（推定）することができる。なお、本実施形態では、このように、入力された複数の化学物質に関する情報に類似する化学物質（又は、同一の化学物質）を特定する上で、類似度を用いているが、化学物質間の距離（距離行列、類似度行列）を用いることもできる。

【0145】

また、類似度を算出する指標（方法）としては、一致係数、タニモト係数、Ｄｉｃｅ係数等があり、ここでは、その一例としてタニモト係数を用いた類似度の算出について簡単に説明する。タニモト係数は、類似度の算出対象とする化合物の各々に関して、ＳＭＩＬＥＳ記法で記載された分子構造をフィンガープリントに変換し、フィンガープリント同士の類似度を計算するものである。

【0146】

より具体的には、タニモト係数（ここでは、化学物質ｘと化学物質ｙのタニモト係数）は、化学物質ｘと化学物質ｙに共通する部分構造の数を、化学物質ｘと化学物質ｙに含まれる部分構造の総数で除算した値として示される（即ち、下式のように示される）。なお、数式において、ｎ（ｘ∩ｙ）は共通する部分構造の数、ｎ（ｘ∪ｙ）は部分構造の総数（自然数）として示され、その除算した値が「１」に近いほど、化合物ｘと化合物ｙの類似度が高いものとなる。

【0147】

【数1】

【0148】

ここで、化学物質ｘと化学物質ｙが、各々、下表１に示されるようなフィンガープリント（ＦＰ）を有している場合、ｎ（ｘ∩ｙ）は「４」（ＦＰ２、ＦＰ３、ＦＰ５、ＦＰ１０）、ｎ（ｘ∪ｙ）は「７」（ＦＰ１、ＦＰ２、ＦＰ３、ＦＰ５、ＦＰ６、ＦＰ８、ＦＰ１０）であり、そのため、タニモト係数は、４／７（＝０．５７）となる。なお、参考として、下表２には、化学物質ｘと化学物質ｚのフィンガープリントを示しており、この場合、タニモト係数は、５／７（＝０．７１）となることから、化学物質ｘが未知の化学物質である場合、化学物質ｙよりも化学物質ｚの方が、化学物質ｘに類似する化学物質として判定されることになる。

【0149】

【表1】

【0150】

【表2】

【0151】

第１の反応条件選択部５４３は、類似度算出部５４２により算出された類似度を、所定の閾値と比較することで、反応条件を選択する。反応条件範囲設定部５４４は、選択された反応条件より、想定される反応条件の組み合わせを設定する。なお、類似度算出部５４２、第１の反応条件選択部５４３、反応条件範囲設定部５４４における処理の内容は、後述の図２４を用いて具体的に説明する。

【0152】

欠損値処理部５５は、反応条件範囲設定部５４４により設定された反応条件がデータセットとして所定の要件を充足していない場合に（即ち、解析部５７において適切に解析を行うことができず、反応条件を適切に出力することができなくなることが予想される場合に）反応条件（データセット）に対して所定の欠損値処理を施す。

【0153】

ここでの欠損値処理は、モデル生成装置の場合と同様に、一部のデータを削除、又は欠損値を補修する処理を実行するものであり、より具体的には、（１）データセットにおいて、欠損値のある行、又は列の削除、（２）欠損値のある行、又は列の統計量（平均値、中央値、最頻値等）での補修が実行される。

【0154】

推定モデル５６は、決定木、ニューラルネットワーク、勾配ブースティング、サポートベクタ等の機械学習方法で予め機械学習がなされた学習済の推定モデルである。ここで、本実施形態では、推定モデル５６における学習及び再学習に関する処理は、反応条件の提供装置５とは別の装置（モデル生成装置１）で実行されているものとし、この場合、推定モデル５６は、例えば、所定の記録媒体を介して、反応条件の提供装置５に提供されてもよく、また、例えば、所定のサーバ装置により反応条件の提供装置５に有線又は無線の通信ネットワークを介して配信されてもよく、どのような態様で反応条件の提供装置５に提供されてもよい。このように、ここでは、反応条件の提供装置とモデル生成装置とを別の装置として構成する例を示したが、本発明は必ずしもこれに限定されず、１つの装置の中に反応条件の提供装置の機能及びモデル生成装置の機能を実装する構成としてもよい。

【0155】

解析部５７は、反応シミュレーション部５７１、ランク付与部５７２、判定部５７３、第２の反応条件選択部５７４、第３の最適化部５７５を有し、反応条件設定部５４において設定された反応条件に従って、シミュレーションを実行し、その実行結果（解析結果）に基づいて、収率が所定の条件を充足する反応条件を選択して、出力（表示）対象とする。なお、収率が所定の条件を充足する反応条件がない場合には、第３の最適化部５７５により最適化された反応条件を出力対象とする。

【0156】

反応シミュレーション部５７１は、反応条件範囲設定部５４４により設定された反応条件（また、欠損値処理が実行された場合には、反応条件範囲設定部５４４により設定された反応条件に欠損値処理が施された反応条件）を推定モデル５６に入力することで、反応シミュレーションを実行させる。なお、反応シミュレーションの実行が完了すると、制御部５１は、その反応シミュレーションの実行結果（収率）を、反応条件に関連付けて記憶部５９に記憶する。

【0157】

ランク付与部５７２は、収率が関連付けられ、記憶部５９に記憶されている複数の反応条件の各々に対して、所定の条件に従って、ランクを付与する（ランク付けを行う）。例えば、収率が８０％以上である場合を「Ａ」、収率が８０％未満であって、５０％以上である場合を「Ｂ」、収率が５０％未満である場合「Ｃ」としてランク付けを行う。判定部５７３は、収率が所定の条件を充足する反応条件があるか否かを判定する。具体的には、ランク付与部５７２で付与されたランクに基づいて、所定のランク以上の反応条件があるか否かを判定する（例えば、「Ｂ」ランク以上の反応条件があるか否かを判定する）。

【0158】

第２の反応条件選択部５７４は、判定部５７３において所定の条件を充足すると判定された反応条件（所定のランク以上である判定された反応条件）を出力対象として選択し、さらに、その出力対象として選択された反応条件に対して表示優先度を付与する。第３の最適化部５７５は、判定部５７３により所定の条件を充足する反応条件がないと判定された場合（所定のランク以上である反応条件がないと判定された場合）、反応条件を探索（再設定）する上で最適化処理を実行する。なお、ここでの処理に関して、後述の図２７から図２９までの図面を用いて説明するが、反応条件の設定（掃引）に関して、本実施形態において適用するベイズ最適化以外に、ランダムサーチ、グリッドサーチ等を適用することもできる。

【0159】

表示制御部５８は、判定部５７３により所定の条件を充足する反応条件があると判定された場合（所定のランク以上である反応条件があると判定された場合）、第２の反応条件選択部５７４により出力対象として選択された反応条件を、表示優先度に従って外部の表示装置７に表示させるように制御する。また、表示制御部５８は、判定部５７３により所定の条件を充足する反応条件がないと判定された場合、第３の最適化部５７５において最適化処理を実行した結果（反応条件）を表示するように制御する。

【0160】

次に、図２３のフローチャートを用いて、反応条件の提供装置５における反応条件を推定（提供）する処理の手順について説明する。Ｓ３－１において、反応条件の提供装置５は、データ取得部５２により、複数の化学物質に関する情報（化学物質Ａに関するＳＭＩＬＥＳ記法で記載された情報と化学物質Ｂに関するＳＭＩＬＥＳ記法で記載された情報）及び生成物質に関する情報（生成物質に関するＳＭＩＬＥＳ記法で記載された情報）を取得する。

【0161】

Ｓ３－２において、反応条件の提供装置５は、分子記述子導出部５３２により、化学物質に関する情報及び生成物質に関する情報に基づいて、分子記述子を導出する。なお、ここでの処理は、モデル生成装置の場合と同様の処理となり、分子記述子導出部５３２は、化学構造情報の算出と物性情報の取得を実行する。Ｓ３－３において、反応条件の提供装置５は、データセット生成部５３１により、化学物質に関する情報に対して、Ｓ３－２において導出された分子記述子を、データを構成する要素として追加し、さらに、生成物質に関する情報に、分子記述子をデータセットの構成要素として追加することで、所定のデータセットを生成する。

【0162】

Ｓ３－４において、反応条件の提供装置５は、類似度算出部５４２により、データ取得部５２により取得された、複数の化学物質に関する情報と、反応条件データベースに記憶された、過去に反応させた複数の化学物質に関する情報との類似度を算出する。また、反応条件の提供装置５は、生成物質に関しても、同様に、類似度算出部５４２により、データ取得部５２により取得された、生成物質に関する情報と、過去に反応させた結果として生成された生成物質に関する情報との類似度を算出する。

【0163】

Ｓ３－５において、反応条件の提供装置５は、第１の反応条件選択部５４３によりＳ３－４において算出された類似度を所定の閾値と比較することで、反応条件を選択する。Ｓ３－６において、反応条件の提供装置５は、反応条件範囲設定部５４４により、Ｓ３－５において選択された反応条件から想定される反応条件の組み合わせを設定する。

【0164】

Ｓ３－７において、反応条件の提供装置５は、欠損値処理部５５により、反応条件範囲設定部５４４により設定された反応条件がデータセットとして所定の要件を充足していない場合に、その反応条件（データセット）に対して所定の欠損値処理を施す。

【0165】

Ｓ３－８において、反応条件の提供装置５は、解析部５７の反応シミュレーション部５７１により、Ｓ３－６において設定された反応条件を（また、その反応条件のうち、反応条件に欠損値があった場合には、その反応条件に所定の欠損値処理を施したものを）、推定モデル５６に入力することで反応シミュレーションを実行させる。なお、反応シミュレーションの実行が完了すると、制御部５１は、その反応シミュレーションの実行結果（収率）を、記憶部５９に記憶する。

【0166】

Ｓ３－９において、反応条件の提供装置５は、解析部５７のランク付与部５７２により、記憶部５９に記憶されている複数の反応条件の各々に対して、その反応条件に関連付けられている収率（反応シミュレーションの実行結果）に基づいて、ランクを付与する（ランク付けを行う）。Ｓ３－１０において、反応条件の提供装置５は、解析部５７の判定部５７３により、Ｓ３－９において付与されたランクに基づいて、所定のランク以上の反応条件があるか否かを判定する。反応条件の提供装置５は、解析部５７の判定部５７３により、複数の反応条件のうち、所定のランク以上の反応条件があると判定すると（Ｓ３－１０Ｙｅｓ）、処理をＳ３－１１に移行させる。また、複数の反応条件のうち、所定のランク以上の反応条件がないと判定すると（Ｓ３－１０Ｎｏ）、処理をＳ３－１３に移行させる。

【0167】

所定のランク以上の反応条件があると判定された場合、Ｓ３－１１において、反応条件の提供装置５は、解析部５７の第２の反応条件選択部５７４により、Ｓ３－１０において所定の条件を充足すると判定された反応条件（所定のランク以上である判定された反応条件）を出力対象として選択し、さらに、その出力対象として選択された反応条件に対して表示優先度を付与する。Ｓ３－１２において、反応条件の提供装置５は、表示制御部５８により、Ｓ３－１１において第２の反応条件選択部５７４により出力対象として選択された反応条件を、表示優先度に従って外部の表示装置７に表示させるように制御する。

【0168】

所定のランク以上の反応条件がないと判定された場合、Ｓ３－１３において、反応条件の提供装置５は、第３の最適化部５７５により反応条件を最適化（再設定）する。なお、ここでの処理は、図２７から図２９までの図面を用いて後述するが、最適化を実行する上で、実験により取得されている収率の数（実験点）が不足している場合には、推定モデルを用いてシミュレーションを実行した結果に基づいて、仮想的に実験点を設定することもできる。Ｓ３－１４において、反応条件の提供装置５は、Ｓ３－１３において最適化処理を実行した結果として取得される反応条件を獲得関数の値が高い順に表示するように制御する。

【0169】

次に、図２４を用いて、上述の反応条件の提供装置５における反応条件を推定（提供）する処理の手順を示すフローチャート（図２３）のＳ３－４からＳ３－６までの処理を具体的に説明する。即ち、類似度の算出処理（Ｓ３－４）、反応条件の選択処理（Ｓ３－５）、反応条件の選定処理（Ｓ３－６）について、図２４を用いて説明する。

【0170】

図２４において、図２４Ａは、データ取得部５２により取得された、複数の化学物質に関する情報（化学物質Ａ及び化学物質Ｂに関する情報）及び生成物質に関する情報（図２４Ａの左側）と、反応条件データベース５４１に記憶された、過去に実施された実験で反応させた複数の化学物質に関する情報（化学物質１－化学物質８）、その複数の化学物質を反応させた結果として生成された生成物質に関する情報（生成物質１－生成物質４）、及びその複数の化学物質を反応させたときの反応条件に関する情報（図２４Ａの右側）を示している。なお、図２４Ａにおいて、複数の化学物質に関する情報及び生成物質に関する情報は、ＳＭＩＬＥＳ記法で記載されている。また、複数の化学物質を反応させたときの反応条件に関する情報は、反応項目として示される。

【0171】

図２４において、図２４Ｂは、図２４Ａの左側に示される、複数の化学物質に関する情報（化学物質Ａ及び化学物質Ｂに関する情報）及び生成物質に関する情報（図２４Ａの左側）を分子記述子導出部５３２により化学構造情報（フィンガープリント）に変換したもの（図２４Ｂの左側）と、図２４Ａの右側に示される、複数の化学物質に関する情報（化学物質１－化学物質８）、及びその複数の化学物質を反応させた結果として生成された生成物質に関する情報（生成物質１－生成物質４）を分子記述子導出部５３２により化学構造情報（フィンガープリント）に変換したもの、並びにその複数の化学物質を反応させたときの反応条件に関する情報（図２４Ａの右側）を示している。

【0172】

図２４において、図２４Ｃは、図２４Ｂの左側の複数の化学物質に関する情報（化学物質Ａ及び化学物質Ｂの化学構造情報）と、図２４Ｂの右側の複数の化学物質に関する情報（化学物質１－化学物質８の化学構造情報）の類似度、図２４Ｂの左側の生成物質に関する情報（生成物質の化学構造情報）と、図２４Ｂの右側の複数の生成物質に関する情報（生成物質１－生成物質４の化学構造情報）の類似度を、上述のタニモト係数を用いて算出した結果を示している。なお、その算出された類似度には、反応条件に関する情報が関連付けられている。

【0173】

例えば、図２４Ｃにおいて、最も上に示される行は、左から順に（１）データ取得部５２により取得された化学物質Ａの化学構造情報と、反応条件データベース５４１に記憶された、過去に実施された実験で反応させた化学物質１の化学構造情報の類似度及び計算式（タニモト係数）、（２）データ取得部５２により取得された化学物質Ｂの化学構造情報と、反応条件データベース５４１に記憶された、過去に実施された実験で反応させた化学物質２の化学構造情報の類似度及び計算式（タニモト係数）、（３）データ取得部５２により取得された生成物質の化学構造情報と、反応条件データベース５４１に記憶された、化学物質１と化学物質２を反応させた結果として生成された生成物質１の化学構造情報の類似度及び計算式（タニモト係数）、（４）化学物質１と化学物質２を反応させたときの反応条件（温度、濃度、溶媒）を示している。

【0174】

図２４において、図２４Ｄは、図２４Ｃで算出された類似度を所定の閾値と比較することで選択された反応条件を示している。具体的には、データ取得部５２により取得された化学物質Ａの化学構造情報と反応条件データベース５４１に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、データ取得部５２により取得された化学物質Ｂの化学構造情報と反応条件データベース５４１に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、及びデータ取得部５２により取得された生成物質の化学構造情報と反応条件データベース５４１に記憶された、化学物質を反応させた結果として生成された生成物質の化学構造情報の類似度の平均値を算出し、その平均値を所定の閾値と比較することで選択された反応条件を示している。ここでは、所定の閾値を０．８として、類似度が０．８以上の反応条件が選択され、示されている。

【0175】

なお、図２４では、上述のように、データ取得部５２により取得された化学物質Ａの化学構造情報と反応条件データベース５４１に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、データ取得部５２により取得された化学物質Ｂの化学構造情報と反応条件データベース５４１に記憶された、過去に実施された実験で反応させた化学物質の化学構造情報の類似度、及びデータ取得部５２により取得された生成物質の化学構造情報と反応条件データベース５４１に記憶された、化学物質を反応させた結果として生成された生成物質の化学構造情報の類似度の平均を用いて反応条件を選択したが、反応条件を選択するにあたり、加重平均を用いてもよい。例えば、データ取得部５２により取得された生成物質の化学構造情報と反応条件データベース５４１に記憶された、化学物質を反応させた結果として生成された生成物質の化学構造情報の類似度の重みを相対的に高く設定して、平均を用いてもよい。

【0176】

図２４において、図２４Ｅは、図２４Ｄで選択された反応条件から想定される反応条件の組み合わせが示されている。ここでは、反応条件として、図２４Ｄに示されるように、温度、濃度、溶媒を１セットとして、２セットあることを前提に（即ち、温度、濃度、溶媒の各々の反応条件に関して、２つの値を有すること前提に）、８つ（＝２×２×２）の組み合わせを発生させ、それらの組み合わせを示している。このように、図２４Ａ－図２４Ｅに示されるように、データ処理を実行することで、反応条件を設定する。

【0177】

そして、このように反応条件を設定すると、設定した反応条件（設定した反応条件に欠損値がある場合には、欠損値処理が施された反応条件）を、推定モデル５６に入力することで、反応シミュレーションを実行する。次に、図２５を用いて、上述の反応条件の提供装置５における反応条件を推定（提供）する処理の手順を示すフローチャート（図２３）のＳ３－８からＳ３－１２までの処理を具体的に説明する。即ち、反応シミュレーションの実行処理（Ｓ３－８）、ランクの付与処理（Ｓ３－９）、所定の条件を充足する反応条件があるか否かを判定する処理（Ｓ３－１０）、所定の条件を充足する反応条件の選択処理（Ｓ３－１１）について説明する。

【0178】

図２５において、図２５Ａは、Ｓ３－３において生成された所定のデータセット（即ち、分子記述子及び物性情報を構成要素とするデータセット）に、上述の図２４に示されるように設定された反応条件を付加（マージ）したデータセットとして示される。この図２５Ａのデータセットを、推定モデル５６に入力することで、反応シミュレーションを実行する。

【0179】

ここでの反応シミュレーションの実行処理に関して、図２６を用いて詳細に示すことができる。図２６は、複数の推定モデル（３つの推定モデル）を用いた場合の反応シミュレーションの処理を示した図である。図２６に示されるように、図２５Ａのデータセットを、３つの推定モデルの各々に入力する。

【0180】

推定モデルの各々は、入力（図２５Ａのデータセット）に対して計算処理を実行し、予測値を算出する。図２６において、図２６の左側から、推定モデル１は予測値をｙ１、推定モデル２は予測値をｙ２、推定モデル３は予測値をｙ３と算出する。そして、各々の推定モデルにおいて予測値を算出すると、各々の推定モデルに設定されている重みを、算出した予測値に掛け合わせ、さらに、それらを足し合わせる処理を実行する。

【0181】

即ち、算出した予測値ｙ１に、推定モデル１に設定されている重みｗ１を掛け合わせ、算出した予測値ｙ２に、推定モデル２に設定されている重みｗ２を掛け合わせ、算出した予測値ｙ３に、推定モデル２に設定されている重みｗ３を掛け合わせ、その掛け合わせた結果を足し合わせる処理を実行する。そして、この足し合わせた結果（即ち、ｙ１×ｗ１＋ｙ２×ｗ２＋ｙ３×ｗ３を計算した結果）を収率として出力する。

【0182】

図２５に戻り、図２５Ａのデータセットの右側に、図２５に示されるように算出した収率が示される。図２５において、図２５Ｂは、算出した収率に対して、付与されたランクを示している。ここでは、収率が８０％以上である場合を「Ａ」、収率が８０％未満であって、５０％以上である場合を「Ｂ」、収率が５０％未満である場合「Ｃ」としてランクを付与している。

【0183】

図２５Ｂでは、反応条件２に「Ａ」、反応条件１に「Ｂ」、それ以外（反応条件３－８）に「Ｃ」が、ランクとして付されている。このような前提で、解析部５７の判定部５７３は、所定のランクとして「Ｂ」以上の反応条件があるか否かを判定する。ここでは、反応条件２が「Ａ」、反応条件１が「Ｂ」であることから、ランクが「Ｂ」以上の反応条件があると判定される。なお、所定のランク以上の反応条件がない場合には（即ち、ここでは、ランクが「Ｂ」以上の反応条件がない場合には）、上述の図２３のフローチャートにおいてＳ３－１０からＳ３－１３に移行させることとして示したように、解析部５７の第３の最適化部５７５により最適化処理を実行し、反応条件を探索する。

【0184】

図２５において、図２５Ｃは、所定のランク以上の反応条件として、反応条件１、反応条件２が選択され、さらに、ランク（ランクが同じである場合には、収率）に応じて、表示優先度が設定されることを示している。ここでは、選択された反応条件のうち、反応条件２のランクが「Ａ」で、反応条件１のランクが「Ｂ」であることから、反応条件２の表示優先度が１、反応条件１の表示優先度が２に設定される（即ち、反応条件２の方が反応条件１よりも優先して表示されるように設定される）。

【0185】

次に、図２７－図２９を用いて、推定結果として出力された反応条件が所定の条件（収率）を充足しない場合に実行されるベイズ最適化の処理について説明する。上述のように、反応条件の提供装置５では、推定結果として出力された反応条件が所定の条件（収率）を充足しない場合に（図２３のフローチャートのＳ３－１０Ｎｏの場合に）、ベイズ最適化を実行し、そのベイズ最適化を実行した結果に基づいて反応条件として出力する。ベイズ最適化は、収率を反応条件の関数として定めた場合に、収率の最大値を求めるための方法（ここでは、収率が最大値となる反応条件を求める方法）として示される。

【0186】

また、本実施形態では、（ベイズ最適化を１回、実行し、１つの反応条件を出力（提供）するのではなく）、一度に、ベイズ最適化を複数回、実行し、複数の反応条件を提供するようにする。このように、一度に、複数の反応条件を作業者に提供することで、作業者は、場合によって、実験（作業）を並行して実施することができ、結果、作業工数を削減することができる。なお、一度に、ベイズ最適化を複数回、実行する上で、Constant Liar Approach を適用する。

【0187】

以下、ここでの処理の内容を、図２７を用いて補足する。なお、説明の便宜上、特徴量である反応条件を１つ（例えば、温度）として説明する。図２７Ａは、横軸を温度（反応条件）、縦軸を収率として、８つの実験点（実績）に基づいて予測される関数（予測線）を示すもので、同時に、その分散もベール状に示している。また、８つの実験点は、実際に、実験により取得された収率に基づいて設定される。なお、実験により取得されている収率の数が、ベイズ最適化を実行する上で不足している場合には、推定モデルを用いて推定した結果（図２３のフローチャートのＳ３－８）に基づいて、実験点を設定することもできる。

【0188】

この場合において、第３の最適化部５７５は、所定の獲得関数を用いて、次の実験点を決定する。なお、獲得関数として、例えば、ＥＩ（Expected Improvement）、ＰＩ（Probability of Improvement）、ＵＣＢ（Upper Confidence Bounds）等を用いることができ、ここでは、ＰＩを例に説明する。ＰＩは、平均値と分散値を合わせたものを構成要素とする正規分布において、チャンピオンデータＹｍａｘ（これまでに取得されている収率のうち、最も高い収率として示されるデータ）から無限大までを積分した値（図２８の斜線部分）として示され、その積分した値が最も高くなる温度が、チャンピオンデータの収率を超える可能性の高い温度として選択（特定）される。なお、ここでの正規分布は、確率分布の一種であり、下式のように示される。

【0189】

【数2】

【0190】

なお、チャンピオンデータＹｍａｘから無限大までを積分した値は、以下の数式で算出することができる。また、以下の数式において、εは、分散の度合いに応じて、次の実験点がチャンピオンデータＹｍａｘに非常に近い点が選択されないように用いられ、例えば、０．０１等に設定される。

【0191】

【数3】

【0192】

そして、反応条件（温度）をシフトさせながら上式を計算し、ＰＩ（ｘ（ｎ＋１））の値が最も高くなるｘ^{（ｎ＋１）}を特定する（即ち、図２８の斜線部分の面積が最も大きくなるｘ^{（ｎ＋１）}（即ち、次のサンプル）を特定する）。図２７Ｂにおいては、三角で示される温度が、獲得関数上、チャンピオンデータの収率を超える可能性の高い温度として特定される。

【0193】

本実施形態では、この提供される温度に基づいて、直ちに、実験（作業）を行って収率を測定するのではなく、上述のように、Constant Liar Approachを適用し、実験点が、その提供される温度に対応する予測線上に位置すると仮定して（図２７Ｃ、四角の位置であると仮定して）、さらに、ベイズ最適化を実行する。

【0194】

さらに、ベイズ最適化を実行すると、図２７Ｄのように、温度と収率の関係（関数）が示され、この関数に対して、獲得関数を用いて、チャンピオンデータの収率を超える可能性の高い温度を特定し（図２７Ｅ）、さらに、実験点が、その提供される温度に対応する予測線上に位置すると仮定して（図中、×の位置であると仮定して）、さらに、ベイズ最適化を実行する。

【0195】

このように、一度に、ベイズ最適化を複数回、実行し、複数の反応条件を出力（提供）するようにする。詰まりは、作業者が並行して実施することができる実験（作業）の数だけ、一度に、反応条件を出力するようにする。以下、ここでの処理手順に関して、フローチャートを用いて説明を補足する。

【0196】

図２９は、Constant Liar Approachを適用してベイズ最適化を実行して、反応条件を特定する処理の手順を示すフローチャートである。図２９のフローチャートは、推定結果として出力された反応条件が所定の条件（収率）を充足しないこと等をトリガとして、処理が開始される。

【0197】

Ｓ４－１において、第３の最適化部５７５は、既知の実験点に従って、ベイズ最適化を実行する。なお、上述のように、既知の実験点が、ベイズ最適化を実行する上で不足している場合には、推定モデルを用いて推定した結果に基づいて、実験点を設定する。Ｓ４－２において、第３の最適化部５７５は、獲得関数に基づいて、チャンピオンデータの収率を超える可能性の高い反応条件を特定する。

【0198】

Ｓ４－３において、第３の最適化部５７５は、特定された反応条件が所定の数に到達しているか否かを判定する。ここでは、初期値として変数ｎに１が設定されており（ｎ＝１が設定されており）、反応条件として３つが特定（設定）されれば、この反応条件を特定する処理を終了する。なお、この所定の数は、作業者の経験、実験の内容に応じて、作業者が設定できるものとする。また、所定の数として、作業者が並行して実施することができる実験の数以外にも、例えば、その他の実験候補を参考程度に知りたい場合にその実験候補の数や、特徴量を特定の範囲に収めたい場合（例えば、温度を５０℃以下に収めたい場合等）に並列して出力させる数を検討することができる。

【0199】

Ｓ４－４において、第３の最適化部５７５は、図２７で上述したように、チャンピオンデータの収率を超える可能性の高い反応条件の値に基づいて、実験点を仮設定する。Ｓ４－５において、第３の最適化部５７５は、その仮設定した実験点を含め、再度、ベイズ最適化を実行する。Ｓ４－６において、第３の最適化部５７５は、獲得関数に基づいて、チャンピオンデータの収率を超える可能性の高い反応条件を特定する。

【0200】

そして、Ｓ４－６の処理が実行されると、制御部５１は、（図２９のフローチャートには図示していないが）変数ｎをカウントアップさせ（即ち、変数ｎに１を加算し、ｎに２を設定し）、処理をＳ４－３に返す。このように、変数ｎが所定の数に到達するまで、Ｓ４－３からＳ４－６までの処理を繰り返し実行し、変数ｎが所定の数に到達すると、図２９のフローチャートに示す処理を終了する。このように処理を実行することで、並行して実施することが可能な作業分の反応条件を出力することができ、上述のように、作業工数を削減することができる。

【0201】

なお、上述の説明では、反応条件（即ち、特徴量）を１つとして、図２７では２次元で説明したが、実際には、反応条件は、複数で設定され、そのため、反応条件の提供装置内において、行列等の演算で計算が実行されることになる。また、図２２には図示していないが、第３の最適化部５７５は、その機能として、所定の獲得関数を用いて、収率が所定の条件を充足する反応条件（例えば、収率が最も高い反応条件、収率が所定の閾値以上である反応条件等）を導出する導出部と、導出部により導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定部を備えることになる。

【0202】

図３０は、外部の表示装置７に表示された反応条件のサンプル画面を示す図である。図３０では、解析部５７の第２の反応条件選択部５７４により、所定のランク以上の反応条件として選択された３つの反応条件が、付与された表示優先度に従って表示されていることを示している。

【0203】

図３０に示されるように、表示される反応条件（滴下速度、温度、制御条件）には、表示優先度、化学物質Ａと化学物質Ｂを反応させたときの予測値（収率）、反応対象物質である化学物質Ａ、化学物質Ｂが関連付けられ、１つのデータセットとして構成され、それらのデータセットが表示優先度の高い順に表示されている。

【0204】

作業者は、材料の入手のしやすさ、コスト、法令を踏まえて、表示装置７に表示される反応条件を選択し、その反応条件に従って、実験（作業）を実施する。なお、その実験結果をモデル生成装置１に入力し、さらに機械学習を実行させることで、より精度の高い反応条件を提供することが可能なモデルを生成することができる。

【0205】

その他、補足として、上述の実施形態では、複数の化学物質に関する情報として、化学物質Ａに関する情報と化学物質Ｂに関する情報の２つの化学物質に関する情報を用いて説明したが、３つ以上の化学物質に関する情報を入力させた場合であっても、反応条件を提供することができる。３つ以上の化学物質に関する情報を入力させた場合、所定のデータセットとして生成される化学特性情報を構成する要素として、例えば、化学物質Ａ、化学物質Ｂ以外に化学物質Ｃ、化学物質Ｄ等の化学物質の化学構造情報及び物性情報が加えられることなり、そのように構成されたデータセット（化学特性情報）を前提に、類似度の算出処理、反応条件の選択及び設定処理、並びに反応シミュレーションを実行すればよい。なお、この場合、反応条件データベースにおいて、３つ以上の化学物質を反応させた実験のデータを格納しておけばよい。また、Ｓ３－１３のベイズ最適化についても同様である。

【0206】

以上、説明したように、本実施形態によれば、取得された複数の化学物質及び生成物質に関する情報と、反応条件に設定されている複数の化学物質及び生成物質に関する情報が類似していることを条件（又は、同一であることを条件）に、反応条件に設定されている反応項目より、取得された複数の化学物質を反応させるときの反応条件を複数、設定し、さらに、過去に反応させた複数の化学物質に関する化学構造情報及び物性情報、その反応における反応条件、及びその反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、複数の反応条件毎に収率を推定し、その推定された収率のうち、収率が所定の条件を満たす反応条件を表示（出力）する。これにより、収率が所定の条件を充足する反応条件を設定する上で、作業工数を削減することができる。

【0207】

図３１は、モデル生成装置１のハードウェア構成を示すブロック図である。モデル生成装置１は、図３１に示されるように、ＣＰＵ９０１、ＲＡＭ９０２、ＲＯＭ９０３、ＨＤＤ９０４、ＧＰＵ９０５、操作装置インタフェース９０６、ネットワークインタフェース９０７、デバイスインタフェース９０８、外部記憶インタフェース９０９を備える。また、モデル生成装置１には、操作装置インタフェース９０６を介して接続される操作装置以外に、外部デバイス（表示装置７）、外部記憶装置４に接続される。

【0208】

ＣＰＵ（Central Processing Unit）９０１は、モデル生成装置１の各ブロックを統括的に制御する演算処理装置である。ＣＰＵ９０１は、システムバス９１０を介して、ＲＡＭ９０２、ＲＯＭ９０３、ＨＤＤ９０４、ＧＰＵ９０５、操作装置インタフェース９０６、ネットワークインタフェース９０７、デバイスインタフェース９０８、外部記憶インタフェース９０９と接続される。

【0209】

ＲＡＭ（Random Access Memory）９０２は、ＣＰＵ９０１の演算処理結果、各種設定値、パラメータ等を一時的に記憶する記憶領域、各種制御プログラムのロード領域を備える。ＲＯＭ（Read Only Memory）９０３は、各種プログラム（例えば、ブートプログラム等）を記憶する。ＨＤＤ（Hard Disk Drive）９０４は、物性情報、反応条件、生成した推定モデル等を記憶する。モデル生成装置の機能は、例えば、ＣＰＵ９０１がＲＯＭ９０３に格納されたプログラムをＲＡＭ９０２に読み出して実行することにより実現される。

【0210】

ＧＰＵ（Graphics Processing Unit）９０５は、処理の演算を高速に実行するための処理ユニットであり、ＣＰＵ９０１より渡される所定の計算（例えば、推定モデルの生成段階で実行される行列演算等）を実行する。操作装置インタフェース９０６は、操作装置６との間でデータを入力（取得）するためのインタフェースである。ネットワークインタフェース９０７は、有線又は無線によりＬＡＮ（Local Area Network）と接続され、外部機器との間で情報の入出力を可能にする（例えば、物性情報、反応条件、各種プログラムのアップデートを可能にする）。デバイスインタフェース９０８は、例えば、外部の分析装置等に接続するためのインタフェースである。外部記憶インタフェース９０９は、外部記憶装置に接続するためのインタフェースである。例えば、モデル生成装置と反応条件の提供装置が異なる装置として構成される場合等に、モデル生成装置１で生成され、ＨＤＤに記憶された推定モデルを、外部インタフェース９０９を介して、外部記憶装置に記憶させるときに用いられる。

【0211】

なお、反応条件の提供装置５のハードウェア構成も、モデル生成装置１のハードウェア構成とおおよそ同様の構成と示され、各種記憶素子、及び記憶装置に記憶される対象（データ）、また、デバイスインタフェース９０８を介して接続される外部装置（例えば、表示装置７等）が異なることとなる。

【0212】

加えて、本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介して装置に供給し、その装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し、実行する処理でも実現可能である。

【0213】

上記実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

【0214】

（付記）
反応条件を探索する上で、実験点に基づいて、反応条件に対する収率の関数を最適化する最適化手段と、
所定の獲得関数を用いて、収率が所定の条件を充足する反応条件を導出する導出手段と、
当該導出された反応条件から、反応条件に対する収率の関数を用いて、仮定的に実験点を設定する設定手段と、
表示装置に、前記導出手段により導出された反応条件を表示させる表示制御手段と
を備え、
前記反応条件に対する収率の関数の最適化、前記収率が所定の条件を充足する反応条件の導出、前記実験点の設定を所定の数だけ、繰り返し実行することを特徴とする反応条件の提供装置。

【符号の説明】

【0215】

１モデル生成装置
２分析装置
３反応装置
４外部記憶装置
５提供装置
６操作装置
７表示装置
１１制御部
１２データ取得部
１３教師データ生成部
１４前処理部
１５特徴量選択部
１６推定モデル生成部
１７記憶部
５１制御部
５２データ取得部
５３化学特性情報生成部
５４反応条件設定部
５５欠損値処理部
５６推定モデル
５７解析部
５８表示制御部
５９記憶部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【図18】

【図19】

【図20】

【図21】

【図22】

【図23】

【図24】

【図25】

【図26】

【図27】

【図28】

【図29】

【図30】

【図31】

【手続補正書】

【提出日】2023-02-13

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

過去に反応させた複数の化学物質に関する情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報、及び前記反応条件で反応させたときの収率を取得する取得ステップと、
前記過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、前記反応条件、前記生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記収率から教師データを生成する第１の生成ステップと、
当該教師データを用いて機械学習を実行することで、
反応対象とする複数の化学物質に関する情報及び生成目的とする生成物質に関する情報を入力値、
前記生成目的とする生成物質の収率が所定の条件を満たす反応条件を出力値
とする推定モデルを生成する第２の生成ステップと
を含む、推定モデルの生成装置により実行される推定モデルの生成方法。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

請求項１から９のいずれか１項に記載の推定モデルの生成方法をコンピュータに実行させるプログラム。

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

反応対象とする複数の化学物質に関する情報、及び生成目的とする生成物質に関する情報を取得する取得ステップと、
前記反応対象とする複数の化学物質に関する情報及び前記生成目的とする生成物質に関する情報と、記憶装置に記憶された１又は２以上の反応条件に設定されている複数の化学物質に関する情報及び生成物質に関する情報との類似度が所定の閾値以上となる場合に、当該反応条件に設定されている反応項目より、前記反応対象とする複数の化学物質を反応させるときの反応条件を複数、設定する設定ステップと、
過去に反応させた複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、当該反応における反応条件、前記複数の化学物質を反応させることで生成された生成物質に関する情報に対して導出された化学構造情報及び物性情報、及び前記反応条件で反応させたときの収率を教師データとして機械学習された推定モデルを用いて、前記反応対象とする複数の化学物質に関する情報の各々に対して導出された化学構造情報及び物性情報、、前記生成目的とする生成物質に関する情報に対して導出された化学構造情報及び物性情報、並びに前記設定された複数の反応条件から、前記複数の反応条件毎に収率を推定する推定ステップと、
表示装置に、前記推定ステップにおいて前記反応条件毎に推定された収率のうち、収率が所定の条件を満たす反応条件を表示させる表示制御ステップと
を含む、反応条件の提供装置により実行される反応条件の提供方法。

【請求項18】

請求項１７に記載の反応条件の提供方法をコンピュータに実行させるプログラム。

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版