特表2024-541085 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エックス　デベロップメント　エルエルシーの特許一覧

特表2024-541085特性予測のための分子構造トランスフォーマ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2
3
4
5
6
7
8
9
10
11
12A
12B
13
14
15
16A
16B
17A
17B
18
19
20
21
22
23
24
25
26
27
28A
28B
29

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-06

(54)【発明の名称】特性予測のための分子構造トランスフォーマ

(51)【国際特許分類】

G16C 20/20 20190101AFI20241029BHJP

G16C 20/70 20190101ALI20241029BHJP

【ＦＩ】

G16C20/20

G16C20/70

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024529335

(86)(22)【出願日】2022-10-17

(85)【翻訳文提出日】2024-07-12

(86)【国際出願番号】 US2022046893

(87)【国際公開番号】W WO2023096709

(87)【国際公開日】2023-06-01

(31)【優先権主張番号】63/264,640

(32)【優先日】2021-11-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/264,641

(32)【優先日】2021-11-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/264,642

(32)【優先日】2021-11-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/264,643

(32)【優先日】2021-11-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】516326438

【氏名又は名称】エックスデベロップメントエルエルシー

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100126480

【弁理士】

【氏名又は名称】佐藤睦

(72)【発明者】

【氏名】ガディヤ，トゥシャルクマール

(72)【発明者】

【氏名】シャー，ファラク

(72)【発明者】

【氏名】ヴィヤス，ニサルグ

(72)【発明者】

【氏名】ヤン，ジュリア

(72)【発明者】

【氏名】ガラカニャン，ヴァヘ

(72)【発明者】

【氏名】ホリデイ，アレクサンダー

(57)【要約】

【課題】イオン液体分子の特性及び／又はイオン液体分子を伴う反応の結果をより良好に予測する。
【解決手段】コンピュータ実装方法は、分子の埋め込みを分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることを含んでもよい。本方法はまた、予測値に基づいて埋め込み空間内の１つ以上の関心点を識別することを含んでもよい。１つ以上の関心点の各々は、多次元埋め込み空間内の座標値のセットを含み得、所与の特性の対応する予測値に関連付けられていてもよい。本方法は、１つ以上の関心点の各々について、デコーダネットワークを使用して、関心点に含まれる座標値のセットを変換することによって、分子の構造表現を生成することを更に含んでもよい。本方法は、１つ以上の関心点の各々について、関心点に対応する分子の構造表現を識別する結果を出力することを含んでもよい。
【選択図】図４

【特許請求の範囲】

【請求項1】

コンピュータ実装方法であって、
分子の埋め込みを前記分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることと、
前記予測値に基づいて前記多次元埋め込み空間内の１つ以上の関心点を識別することであって、前記１つ以上の関心点の各々は、
前記多次元埋め込み空間内の座標値のセットを含み、
前記分子内の原子又は結合の空間情報を伝達し、
前記所与の特性の対応する予測値に関連付けられている、前記１つ以上の関心点を識別することと、
前記１つ以上の関心点の各々について、デコーダネットワークを使用して、前記関心点に含まれる前記座標値のセットを変換することによって、分子の構造表現を生成することであって、前記デコーダネットワークの訓練は、前記埋め込み空間内の位置を分子構造特性を表す出力に変換する学習を含み、前記デコーダネットワークの前記訓練は、エンコーダネットワークの訓練と少なくとも部分的に同時に実施された、前記分子の構造表現を生成することと、
前記１つ以上の関心点の各々について、前記関心点に対応する前記分子の前記構造表現を識別する結果を出力することと、
を含む、コンピュータ実装方法。

【請求項2】

前記エンコーダネットワークの訓練は、分子の部分的又は完全な結合文字列及び位置（ＢＳＰ）表現を前記埋め込み空間内の位置に変換する学習を含み、各ＢＳＰ表現は、前記表現された分子内の結合によって接続された原子の相対位置を識別する、請求項１に記載の方法。

【請求項3】

前記エンコーダネットワークを訓練するために使用される前記分子の各ＢＳＰ表現は、前記表現された分子内の前記結合によって接続された前記原子の各々についての座標のセットを含み、前記表現された分子内の前記結合によって接続された前記原子の各々を更に識別する、請求項２に記載の方法。

【請求項4】

前記分子の前記ＢＳＰ表現は、それぞれの分子内の少なくともいくつかの結合の各々について、結合タイプを識別するように、前記エンコーダネットワークを訓練するために使用される、請求項２又は３に記載の方法。

【請求項5】

前記結果において識別される前記構造表現のフォーマットは、前記ＢＳＰ表現とは異なる、請求項２～４のいずれか一項に記載の方法。

【請求項6】

前記エンコーダネットワークの訓練は、分子の部分的又は完全な分子グラフ表現を前記埋め込み空間内の位置に変換する学習を含み、各分子グラフ表現は、前記表現された分子内の結合の角度及び距離を識別する、請求項１に記載の方法。

【請求項7】

前記デコーダネットワーク及び前記エンコーダネットワークは、セルフアテンションを使用するトランスフォーマモデルを訓練することによって訓練され、前記トランスフォーマモデルは、前記デコーダネットワーク及び前記エンコーダネットワークを含む、請求項１～５のいずれか一項に記載の方法。

【請求項8】

前記デコーダネットワーク及び前記エンコーダネットワークは、アテンションヘッドを含むトランスフォーマモデルを訓練することによって訓練された、請求項１又は６に記載の方法。

【請求項9】

前記エンコーダネットワーク及び前記デコーダネットワークを含む機械学習モデルを、
補足訓練要素のセットにアクセスすることであって、前記訓練要素のセットの各々は、対応する所与の分子の構造の表現を含む、前記補足訓練要素のセットにアクセスすることと、
前記補足訓練要素のセット内の各補足訓練要素について、前記表現の少なくとも一部をマスクして、前記対応する所与の分子の前記構造の少なくとも一部を不明瞭にすることと、
前記機械学習モデルを訓練して、前記構造の前記不明瞭にされた少なくとも一部を予測することと、によって訓練することを更に含む、請求項１～８のいずれか一項に記載の方法。

【請求項10】

前記エンコーダネットワークの訓練は、前記空間内の位置を前記所与の特性の値に対応する予測に変換するように、前記エンコーダネットワークを微調整することを更に含む、請求項１～９のいずれか一項に記載の方法。

【請求項11】

システムであって、
１つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体と、を備え、前記命令は、前記１つ以上のデータプロセッサ上で実行されたときに、前記１つ以上のデータプロセッサに、請求項１～１０のいずれか一項に記載の方法を実施させる、システム。

【請求項12】

非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品であって、１つ以上のデータプロセッサに、請求項１～１０のいずれか一項に記載の方法を実施させるように構成された命令を含む、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年１１月２９日出願の米国仮特許出願第６３／２６４，６４０号、２０２１年１１月２９日に出願された米国仮出願第６３／２６４，６４１号、２０２１年１１月２９日に出願された米国仮出願第６３／２６４，６４２号、及び２０２１年１１月２９日に出願された米国仮出願第６３／２６４，６４３号の非仮出願であり、その利益を主張し、それらの全ての内容は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

化学における問題は、ある新しい分子の特定の特性を予測することである。分子の特性を予測することは、リサイクルに使用する新しい分子を識別するのに有用である。化学的リサイクルは、プラスチック廃棄物を、それが製造されたモノマー構成要素に分解することを目的とし、ポリマーが、石油由来の再生不可能な投入物に依存する代わりに、化学的にリサイクルされたプラスチックから製造される循環経済を可能にする。プラスチックリサイクルは、廃プラスチック（ポリエチレンテレフタレート（ＰＥＴ）、ポリ乳酸（ＰＬＡ））をそれらのモノマー成分（ビス（２－ヒドロキシエチル）テレフタレート（ＢＨＥＴ）、乳酸塩）に変換して、油に由来するバージンプラスチックを置き換えることを含み得る。イオン液体（ＩＬ）は、プラスチックを解重合する有望な能力を示した高度に調整可能なクラスの化学物質であるが、反応収率を改善するために大きなイオン液体設計空間をどのようにナビゲートするかは不明である。

【0003】

解重合に使用する特定のイオン液体を選択することは、困難な作業である。第１に、存在するイオン液体候補の数及び異なる反応条件を考慮すると、適切な条件における全てのイオン液体の特性を実験的に特徴付けることは実行不可能である。より具体的には、イオン液体は、陽イオン及び陰イオン分子の調整可能な選択からなり、実験パラメータを選択するための高次元空間をもたらす。例えば、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓ＆Ｔｅｃｈｎｏｌｏｇｙ（ＮＩＳＴ）ＩＬＴｈｅｒｍｏデータベースでは、２４４個の陽イオン及び１６４個の陰イオンを有する１６５２個の二元ＩＬが存在する。組合せ的に、これは、ＮＩＳＴデータベースのみから生成される３８，３６４個の追加の新しいＩＬが存在することを意味する。実験条件（３つの溶媒、溶媒に対するイオン液体の５つの比、３つの温度、及び３つの反応時間の調査など）のサンプリングの下で特定のＩＬを選択することは、５，４００，０００を超える異なる反応条件を含む非常に複雑な反応空間をもたらす。典型的な実験計画法において、ドメイン知識及び文献レビューは、探索空間を縮小させるための要件であるが、このプロセスは費用がかかり、完全な設計空間の評価に役立たない。

【0004】

したがって、イオン液体分子の特性及び／又はイオン液体分子を伴う反応の結果をより良好に予測することができることは、より効率的なリサイクルを容易にし得る。

【0005】

これらの予測を生成するための１つの手法は、機械学習を使用して、新しい分子の表現を予測に変換することである。しかしながら、機械学習は、分子が（例えば、特徴化、フィンガープリンティング、又は埋め込みを介して）数のセットによって表されることを必要とする。

【0006】

しかしながら、分子を数値的に表すための既存の技術は、分子の完全な構造情報をキャプチャすることができない。むしろ、構造情報は、完全に無視されるか、又は部分的にのみ表される。

【発明の概要】

【0007】

いくつかの実施形態は、コンピュータ実装方法を含んでもよい。本方法は、分子の埋め込みを分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることを含んでもよい。本方法はまた、予測値に基づいて多次元埋め込み空間内の1つ以上の関心点を識別することを含んでもよい。1つ以上の関心点の各々は、多次元埋め込み空間内の座標値のセットを含み得、分子内の原子又は結合の空間情報を伝達し得、所与の特性の対応する予測値に関連付けられていてもよい。本方法は、1つ以上の関心点の各々について、デコーダネットワークを使用して、関心点に含まれる座標値のセットを変換することによって、分子の構造表現を生成することを更に含んでもよい。デコーダネットワークの訓練は、埋め込み空間内の位置を分子構造特性を表す出力に変換する学習を含んでいてもよい。デコーダネットワークの訓練は、エンコーダネットワークの訓練と少なくとも部分的に同時に実施されていてもよい。本方法は、1つ以上の関心点の各々について、関心点に対応する分子の構造表現を識別する結果を出力することを含んでもよい。

【0008】

いくつかの実施形態では、エンコーダネットワークの訓練は、分子の部分的又は完全な結合文字列及び位置（ＢＳＰ）表現を埋め込み空間内の位置に変換する学習を含んでいてもよい。各ＢＳＰ表現は、表現された分子内の結合によって接続された原子の相対位置を識別してもよい。

【0009】

いくつかの実施形態では、エンコーダネットワークの訓練は、分子の部分的又は完全な分子グラフ表現を埋め込み空間内の位置に変換する学習を含んでいてもよい。各分子グラフ表現は、表現された分子内の結合の角度及び距離を識別することができる。

【0010】

いくつかの実施形態では、デコーダネットワーク及びエンコーダネットワークは、セルフアテンションを使用するトランスフォーマモデルを訓練することによって訓練され得る。トランスフォーマモデルは、デコーダネットワーク及びエンコーダネットワークを含むことができる。

【0011】

いくつかの実施形態では、デコーダネットワーク及びエンコーダネットワークは、アテンションヘッドを含むトランスフォーマモデルを訓練することによって訓練され得る。

【0012】

いくつかの実施形態では、本方法は、補足訓練要素のセットにアクセスすることによって、エンコーダネットワーク及びデコーダ分子を含む機械学習モデルを訓練することを含んでもよい。訓練要素のセットの各々は、対応する所与の分子の構造の表現を含み得る。訓練は、補足訓練要素のセット内の各補足訓練要素について、表現の少なくとも一部をマスクして、対応する所与の分子の構造の少なくとも一部を不明瞭にすることを更に含んでもよい。訓練は、機械学習モデルを訓練して、構造の不明瞭にされた少なくとも一部を予測することを含んでもよい。

【0013】

いくつかの実施形態では、エンコーダネットワークの訓練は、空間内の位置を所与の特性の値に対応する予測に変換するように、エンコーダネットワークを微調整することを更に含んでもよい。

【0014】

いくつかの実施形態では、エンコーダネットワークを訓練するために使用される分子の各BSP表現は、表現された分子内の結合によって接続された原子の各々についての座標のセットを含み得、表現された分子内の結合によって接続された原子の各々を更に識別し得る。

【0015】

いくつかの実施形態では、分子のBSP表現は、それぞれの分子内の少なくともいくつかの結合の各々について、結合タイプを識別するように、エンコーダネットワークを訓練するために使用され得る。

【0016】

いくつかの実施形態では、結果において識別される構造表現のフォーマットは、ＢＳＰ表現とは異なり得る。

【0017】

いくつかの実施形態では、システムであって、１つ以上のデータプロセッサと、１つ以上のデータプロセッサ上で実行されたときに、１つ以上のデータプロセッサに、本明細書に開示された１つ以上の方法の一部又は全てを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を含む、システムが提供される。

【0018】

いくつかの実施形態では、非一時的機械可読記憶媒体で明確に具現化され、１つ以上のデータプロセッサに、本明細書に開示された１つ以上の方法の一部若しくは全部を実施させるように構成された命令を含むコンピュータプログラム製品が提供される。

【0019】

用いられている用語及び表現は、説明の用語として使用され、限定するものではなく、示され、説明された特徴の任意の均等物、又はその一部分を除外するそのような用語及び表現の使用における意図は存在しないが、特許請求の範囲の本発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び任意選択的な特徴により具体的に開示されているが、本明細書に開示される概念の修正及び変形が、当業者によって行われ得、そのような修正及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。

【図面の簡単な説明】

【0020】

本開示は、添付の図面と併せて説明される。

【図1A】本発明の実施形態によるシプロフロキサシンのＳＭＩＬＥＳ文字列：Ｃ１ＣＣ１Ｎ２Ｃ＝Ｃ（Ｃ（＝Ｏ）Ｃ３＝ＣＣ（＝Ｃ（Ｃ＝Ｃ３２）Ｎ４ＣＣＮＣＣ４）Ｆ）Ｃ（＝Ｏ）Ｏを生成するプロセスの図的表現を示す。

【図1B】本発明の実施形態によるシプロフロキサシンのＳＭＩＬＥＳ文字列：Ｃ１ＣＣ１Ｎ２Ｃ＝Ｃ（Ｃ（＝Ｏ）Ｃ３＝ＣＣ（＝Ｃ（Ｃ＝Ｃ３２）Ｎ４ＣＣＮＣＣ４）Ｆ）Ｃ（＝Ｏ）Ｏを生成するプロセスの図的表現を示す。

【図1C】本発明の実施形態によるシプロフロキサシンのＳＭＩＬＥＳ文字列：Ｃ１ＣＣ１Ｎ２Ｃ＝Ｃ（Ｃ（＝Ｏ）Ｃ３＝ＣＣ（＝Ｃ（Ｃ＝Ｃ３２）Ｎ４ＣＣＮＣＣ４）Ｆ）Ｃ（＝Ｏ）Ｏを生成するプロセスの図的表現を示す。

【図1D】本発明の実施形態によるシプロフロキサシンのＳＭＩＬＥＳ文字列：Ｃ１ＣＣ１Ｎ２Ｃ＝Ｃ（Ｃ（＝Ｏ）Ｃ３＝ＣＣ（＝Ｃ（Ｃ＝Ｃ３２）Ｎ４ＣＣＮＣＣ４）Ｆ）Ｃ（＝Ｏ）Ｏを生成するプロセスの図的表現を示す。

【図1E】本発明の実施形態によるシプロフロキサシンのＳＭＩＬＥＳ文字列：Ｃ１ＣＣ１Ｎ２Ｃ＝Ｃ（Ｃ（＝Ｏ）Ｃ３＝ＣＣ（＝Ｃ（Ｃ＝Ｃ３２）Ｎ４ＣＣＮＣＣ４）Ｆ）Ｃ（＝Ｏ）Ｏを生成するプロセスの図的表現を示す。

【図2】本発明の実施形態による、ＳＭＩＬＥＳ文字列から単一分子のＢＳＰ表現を構築するための例示的なプロセスを示す。

【図3】本発明の実施形態による、ＳＭＩＬＥＳ文字列から反応物／試薬のＢＳＰ表現を構築するための例示的なプロセスを示す。

【図4】本発明の実施形態による、モデル（例えば、トランスフォーマモデル）への入力であるトークン埋め込みを生成するための例示的なプロセスを示す。

【図5】本発明の実施形態による、分子特性予測のコンテキストにおけるマスクされた結合モデル訓練の描写を示す。入力分子は下部に示され、マスクされた結合は黒色で示されている。これは、ＢＳＰ表現にマッピングされ、マスクされた結合を特別なマスクトークンで置き換え、エンコーダネットワークに供給される。モデルは、各点における結合の予測を返し、最終的に、マスクされた場所を正確に埋めることを学習する。

【図6】本発明の実施形態による、構造識別子と埋め込み空間との間で表現を変換するためのエンコーダネットワーク及びデコーダネットワークの例示的な使用を示す。

【図7】本発明の実施形態によるメッセージパッシンググラフ畳み込み層の図を示す。

【図8】原子マスキングにおいて、ノードがランダムにマスクされ、ＧＮＮがマスクされたノードの正しい標識を予測するように訓練される方法を示す。図は、Ｈｕｅｔａｌ．，ａｒＸｉｖ：１９０５．１２２６５ｖ３に基づく。

【図9】コンテキスト予測において、サブグラフが選択された中心ノードの周りのＫホップ近傍である様子を示しており、ここで、ＫはＧＮＮ層の数である。図は、Ｈｕｅｔａｌ．，ａｒＸｉｖ：１９０５．１２２６５ｖ３に基づく。

【図10】本発明の実施形態による分子の潜在表現の目的を示す図である。

【図11】本発明の実施形態による角度及び距離に関する相対位置の計算を示す。

【図12A】本発明の実施形態によるメッセージ生成及びメッセージ集約を示す。

【図12B】本発明の実施形態によるメッセージ生成及びメッセージ集約を示す。

【図13】本発明の実施形態による読み出しアテンション集約を示す。

【図14】本発明の実施形態による分子特性予測のために使用されるエンコーダネットワークを含むモデルの概要を示す。

【図15】本発明の実施形態による反応予測モデルを示す。主要な構成要素は、ＢＳＰ入力に対して動作し、反応生成物を予測するＳＭＩＬＥＳ文字列を返すトランスフォーマベースのアーキテクチャである。

【図16A】本発明の実施形態による、反応の活性部位のモデルの理解を示す、正しく予測された反応の例を示す。

【図16B】本発明の実施形態による、反応の活性部位のモデルの理解を示す、正しく予測された反応の例を示す。

【図17A】誤って予測された反応の例を示す。

【図17B】誤って予測された反応の例を示す。

【図18】本発明の実施形態による、その第３の層におけるエンコーダネットワークの第４のヘッドのアテンション重みを示す。

【図19】本発明の実施形態による、結合文字列表現を構築するための深さ優先探索における分子グラフのトラバースを示す。

【図20】本発明の実施形態による方向性変分トランスフォーマモデルを示す。

【図21】本発明の実施形態による分子、埋め込み、及び特性予測の間の関係を示す。

【図22】本発明の実施形態による化合物を解重合するためのイオン液体を識別するためのプロセスを示す。

【図23】本発明の実施形態による、分子の周囲の埋め込み空間を調査することから生成されたイオン液体陽イオンを示す。

【図24】本発明の実施形態による、２つの分子間の埋め込み空間を調査することから生成されたイオン液体陽イオンを示す。

【図25】本発明の実施形態によるベイズ最適化とベンチトップ実験との間の相互作用を示す。

【図26】本発明の実施形態によるベイズ最適化プロセスを示す。

【図27】本発明の実施形態によるイオン液体ベースの解重合最適化に関連する例示的なプロセスのフローチャートを示す。

【図28A】本発明の実施形態による混合エンタルピーの最小化にベイズ最適化を適用した結果を示す。

【図28B】本発明の実施形態による混合エンタルピーの最小化にベイズ最適化を適用した結果を示す。

【図29】本開示のいくつかの実施形態として実装されるコンピューティングシステムの例示的なアーキテクチャである。

【0021】

添付図では、同様の構成要素及び／又は特徴は、同じ参照符号を有し得る。更に、同じタイプの様々な構成要素は、同様の構成要素間を区別するダッシュ及び第２の符号による参照符号に従って区別され得る。本明細書において第１の参照符号のみが使用される場合、説明は、第２の参照符号にかかわらず、同じ第１の参照番号を有する同様の構成要素のうちのいずれか１つに適用可能である。

【発明を実施するための形態】

【0022】

Ｉ．概要
埋め込みフレームワークは、個々の分子を、構造的に同様の分子が互いにより近くにマッピングされる高次元空間内の埋め込みにマッピングすることができる。これらの表現は、分子特性予測モデルを使用して処理することができ、新規分子は、対象のいくつかのシードセットからの表現に対応する空間内で識別することができる。これらの埋め込みは、特定のポリマーを分解する分子の能力を予測するために使用することができる特定の熱力学的特性を推定するモデルへの入力として供給することができる。好ましくない特性を有する分子を除外することができ、探索を有望な候補の周りに拡大することができ、最終的に、プラスチックを効率的に解重合すると予測される分子（例えば、イオン液体）の小さなセットを返す。候補分子は、新しい実験を推奨し、それらの結果から学習し、最適な反応性能に収束するまで更なる実験を推奨するベイズ最適化システムによって処理することができる。ベイズ最適化はまた、埋め込みフレームワークを使用して、学習された埋め込み空間にわたって実行され得る。

【0023】

ＩＩ．分子の多次元表現を生成するための機械学習
分子を正確に表現することは、モデルを使用して分子の特性を予測し、所望の特性を有する新規分子を設計し、又は化学反応出力を予測するためのキーである。分子を表すための既存の手法には、２つのカテゴリー：特性ベース及びモデルベースが含まれる。

【0024】

特性ベースのフィンガープリントは、分子の異なる態様を記述する特徴の集合である。例えば、分子は、以下のメタノールについて示されるように、それが含有する各タイプの原子の数を記述するベクトルによって表すことができる。

【化1】

【0025】

メタノールの例示的な特性ベースのフィンガープリントは、分子内の各原子のカウントを含み得る。

【0026】

特性ベースのフィンガープリントの別の例は、Ｍｏｒｇａｎフィンガープリントである。Ｍｏｒｇａｎフィンガープリント（拡張接続フィンガープリント、ＥＣＦＰとして知られることもある）は、分子のベクトル表現を構築するために限定された構造情報を使用する。特に、Ｍｏｒｇａｎフィンガープリントは、分子の構造を部分的にのみキャプチャするが、原子の３次元配向を説明しないことによって制限される。そして、フィンガープリントは、分子の構造のいくらかの詳細をキャプチャするが、フィンガープリントに含まれる各特性は、データセット中の全ての分子について含まれなければならないので、それらは、化学データの利用可能性によって基本的に制限される。一般に、機械学習に適した実験化学データは不足している。Ｍｏｒｇａｎフィンガープリントは、分子グラフの近似符号化を超える明示的な特性情報を含まず、任意の分子に容易に適用されることを可能にし、その広範な使用に寄与することに留意されたい。

【0027】

モデルベースのフィンガープリントは、これらのベクトル表現を生成するために機械学習に依存し、ディープニューラルネットワーク（ＤＮＮ）及びグラフニューラルネットワーク（ＧＮＮｓ）の２つのクラスを含む。ＧＮＮは、分子グラフ上で直接操作することによって分子構造をキャプチャするが、分子内の長距離相互作用をキャプチャする能力において計算上制限される。分子グラフ（すなわち、化学グラフ）は、分子の構造式の表現である。グラフは、原子に対応する頂点及び結合に対応するエッジを含むことができる。ＤＮＮは、より柔軟であり得るが、一般に、文字列表現を入力として使用することによって、分子をテキストとして扱う。これらの文字列表現のうち最も一般的なものは、ＳＭＩＬＥＳであり、程度は低いが、ＳＥＬＦ－ｒｅｆｅｒｅｎｃｉｎｇＥｍｂｅｄｄｅｄＳｔｒｉｎｇｓ（ＳＥＬＦＩＥＳ）である。これらの表現は、通常、深さ優先探索（すなわち、グラフ内の全てのノードを訪問するためのアルゴリズム）において分子グラフをトラバースし、トークンを使用して環及び分岐構造を表現することによって得られる。

【0028】

図１Ａ～図１Ｅは、特定の分子についてのＳＭＩＬＥＳ文字列を生成するプロセスを示す。図１Ａは、分子グラフの例を示す。図１Ｂは、分子を文字列として書くことができるように、環状構造が破壊されている場所を示す。図１Ｃは、分子の様々な成分の強調表示を示す。図１Ｄは、図１Ｃの強調表示に対応するＳＭＩＬＥＳ文字列を示す。図１Ｅは、図１Ａの分子グラフに対応する別のＳＭＩＬＥＳ文字列を示す。

【0029】

特定の手法は、分子をテキストとして表現し、自然言語処理（ＮＬＰ）の分野からの技術を適用して、例えば、反応物を与えられた生成物を予測してきた。しかし、文字列表現は、任意の分子を記述するのに十分柔軟であるが、分子の豊富な３次元構造をキャプチャすることができない場合がある。例えば、図１Ｅにおいて、フッ素原子Ｆは、カルボン酸基Ｃ（＝Ｏ）Ｏから有意な空間距離にあるが、ＳＭＩＬＥＳ文字列においてはほぼ隣接している。更に、図１Ｄ及び１Ｅに示されるように、単一の分子は、２つ以上のＳＭＩＬＥＳ文字列によって表され得る。

【0030】

これらの文字列表現の限られた情報内容は、なぜ以前のＮＬＰに着想されたモデルが特性予測タスクに対してうまく機能しないのかを説明し得る。

【0031】

本明細書に記載される実施形態は、分子を埋め込み空間に符号化することを含む。埋め込み空間は、分子内の原子又は結合の空間情報を伝達することができる。例えば、エンコーダネットワークは、原子の座標を含み得る部分的又は完全な結合文字列及び位置（ＢＳＰ）表現を埋め込み空間内の位置に変換することができる。別の例として、エンコーダネットワークは、分子の分子グラフ表現を埋め込み空間内の位置に変換することができる。分子グラフ表現は、場合によっては他の原子に対する、分子内の原子又は結合の角度及び距離を含むことができる。

【0032】

ＩＩ．Ａ．結合文字列及び位置分子表現
したがって、本発明のいくつかの実施形態では、分子の３次元情報は、任意の分子の化学的構成（結合文字列）及び３次元構造（結合位置）の両方を同時にキャプチャする結合文字列及び位置（ＢＳＰ）分子表現を通して表され得る。ＢＳＰ分子表現は、（例えば）ＲＤＫｉｔの構造最適化法を用いて生成することができ、これは分子中の各原子の３次元座標を識別することができる。３次元座標を識別することができる他のモデルも使用することができる。例えば、接続表は、三角形境界平滑化アルゴリズムを使用して平滑化することができる距離境界行列に変換することができる。平滑化された境界行列は、分子内の各原子の３次元座標を識別するために、３次元に埋め込むことができる適合ランダム距離行列を識別するために使用することができる。原子の座標を微調整するために、粗力場及び境界行列を使用することができる。別の例として、粗力場及び境界行列を使用して座標を微調整する代わりに、ＣａｍｂｒｉｄｇｅＳｔｒｕｃｔｕｒａｌＤａｔａｂａｓｅからのねじれ角選好を使用して、座標を微調整することができる。例えば、実験的ねじれ基本知識距離幾何学（ＥＴＫＤＧ）手法を用いて、分子中の各原子の３次元座標を識別することができる。

【0033】

分子中の各結合は次のように表すことができる。すなわち、＜第１の原子＞＜結合タイプ＞＜第２の原子＞（例えば、単結合を介して酸素原子に結合している炭素原子については「Ｃ１０Ｏ」）であり、その対応する結合位置は、［＜第１の原子の座標＞、＜第２の原子の座標＞］によって表される。この情報は各結合の座標に本質的に存在するので、この表現は、分岐及び環を指定するためのトークンを必要としない。すなわち、分子の３次元構造は、モデルがＳＭＩＬＥＳ文字列からこの構造を学習することを必要とする代わりに、モデル入力に直接含まれ得る。

【0034】

図２は、ＢＳＰ表現の一例を示す。図２の上部は、分子グラフの上にＳＭＩＬＥＳ文字列を示す。表２０４は、ＢＳＰ表現を示す。表２０４の第１の行は、文字列トークンとしての結合の表現を示す。結合表現の下の同じ列のエントリは、各結合の第１の原子及び第２の原子の座標を示す。第１の原子の座標は「ａ」で示され、第２の原子の座標は「ｂ」で示される。ｘ，ｙ，ｚは３次元座標系を示す。

【0035】

ＩＩ．Ｂ．反応物／試薬配列の表現
ＢＳＰ表現では、結合位置が位置情報を直接キャプチャする。したがって、標準的なトランスフォーマ型モデルとは対照的に、結合位置を識別するために別個のトークンレベル位置埋め込みを使用する必要がない。しかし、単一の反応において異なる分子を区別するために、静的「分子位置」埋め込みを使用して、反応物／試薬配列中のどの分子に結合が対応するかを示すことができる。したがって、反応配列における任意の結合の固有の位置は、結合位置及び分子位置によって定義することができる。

【0036】

図３は、ＳＭＩＬＥＳ文字列から反応物／試薬のＢＳＰ表現を構築する例を示す。左列に示される結合文字列は、各分子中の結合を列挙する。中央列の分子位置は、結合がどの分子に属するかを示し、モデルが１つの分子を別の分子から区別することを可能にする。第３の列、結合ベクトルは、３次元空間における結合の座標を含む。

【0037】

ＩＩ．Ｃ．分子のフィンガープリントを生成するためのトランスフォーマモデル
分子のＢＳＰ表現は、表現を埋め込み空間内の埋め込み表現に変換するためにエンコーダネットワークへの入力として使用することができる。エンコーダネットワークは、所与のタスクを実行するためにエンコーダネットワークを含む機械学習モデルを訓練することによって事前訓練され得る。機械学習ネットワークは、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）モデルを含むトランスフォーマネットワークを含むことができる。所与のタスクは、分子内のマスクされた結合の特性を予測することを含むことができる。例えば、ＢＥＲＴモデルは、分子の不完全な初期結合文字列表現から欠損結合トークンを予測するように訓練されてもよい。

【0038】

埋め込み空間の次元数は、ＢＳＰ表現の次元数よりも小さくてもよい。埋め込み空間は、少なくとも３次元、少なくとも５次元、少なくとも１０次元、少なくとも２０次元、少なくとも３０次元、又は少なくとも５０次元を有する高次元埋め込み空間であってもよい。埋め込み空間は、代替的又は追加的に、５次元未満、１０次元未満、２０次元未満、３０次元未満、５０次元未満、又は７０次元未満を有してもよい。埋め込み空間内では、構造的に類似している分子は短い距離で分離され得るが、構造的類似性を欠く分子は長い距離で分離され得る。トランスフォーマモデルに入力されるＢＳＰ表現は、以下の埋め込みのうちの１つ、２つ、又は３つを含むことができる。

【0039】

１．結合文字列内の各トークンに使用される標準的な学習可能埋め込み、
２．結合位置を結合埋め込みと同じ次元に投影することによって得られ、分子内の結合の位置を符号化する、結合位置埋め込み、及び、
３．トランスフォーマベースのモデルで使用される位置埋め込みである分子位置埋め込み。同じ分子に属する全ての結合は、同じ分子位置埋め込みを有する。

【0040】

例えば、図４は、リストされた埋め込みの３つ全ての組合せを含むトークン埋め込み（次いで、トランスフォーマモデルに供給され得る）を示す。結合埋め込みは、結合文字列から決定される。結合位置埋め込みは、ニューラルネットワーク層（例えば、ＭＬＰ［Multi-Layer Perception］）を使用して結合ベクトルから取得される。分子位置埋め込みは、分子位置から得られる。項目４０４は静的正弦波埋め込みを示し、これは、この実施形態において異なる分子を区別するのに役立つ束縛ベクトルである。結合埋め込み、結合位置埋め込み、及び分子位置埋め込みは、トークン埋め込みを構成する。

【0041】

ＩＩ．Ｄ．トランスフォーマモデルの事前訓練
変分オートエンコーダとしてトランスフォーマモデルを事前訓練することは、より構造的に類似する分子が、互いにより近いフィンガープリントを有するように、フィンガープリントを生成し得る。次に、これらのフィンガープリントを、熱力学的特性予測及び毒性分類からの多様な範囲のタスクに使用して、最新技術の性能を達成することができる。このモデルは、特性予測において他のいくつかのモデルよりも性能が優れている可能性がある。

【0042】

結合文字列及び位置（ＢＳＰ）分子表現は、分子の完全な３次元構造についての情報を直接識別することができる。ＢＳＰ分子表現を使用して、機械学習モデル（例えば、トランスフォーマベースのモデル）を訓練することができる。例えば、モデルは、表現の残りに基づいて各表現から人工的に除去された「失われた」（又は「マスクされた」）結合を予測するように訓練され得る。すなわち、モデルは、未知の結合の位置が与えられると、３次元空間において隣接する結合を調べることによって正しい結合トークンを予測するように訓練される。

【0043】

訓練データセットは、分子の３次元表現を含むことができる。例えば、訓練データセットは、ＭＩＴ＿ＵＳＰＴＯデータセットからの固有分子を含むことができ、これは、合計約６００ｋの固有分子について、米国特許から削り取られた数十万もの化学反応を含む。単一分子が複数の配座異性体を有し得るので、各分子の３次元表示は固有ではないので、異なる座標を有する複数の分子表現が生成され得る。これは、データ拡張ルーチンとして働き、下流のタスクに対する過剰適合を低減するのに役立つ。

【0044】

図５は、マスクされた結合モデルを訓練する全体的なプロセスを示す。分子の結合文字列表現からのトークンのいくつかを選択し（例えば、ランダムに選択し）、［ＭＡＳＫ］トークンで置き換えることができる。全てのマスクトークンの対応する結合位置は、そのまま維持することができる。マスクされた結合文字列及び結合位置は、トランスフォーマモデルのエンコーダネットワーク（例えば、ＢＥＲＴエンコーダ）に供給され得る。次いで、モデル損失は、各マスクされた位置における予測のみを使用して計算される。

【0045】

図５の例に対するマスクされた入力ＢＳＰ表現及び予測されたマスクされていないＢＳＰ表現は、次の通りである：
入力：Ｃ１０ＯＮ１０Ｏ［ＭＡＳＫ］Ｃ１０Ｎ［ＭＡＳＫ］Ｃ１０ＣＣ１５ＣＣ１５ＣＣ１５ＣＣ１０Ｏ［ＭＡＳＫ］Ｃ１５ＮＣ１５Ｃ
出力：Ｃ１０ＯＮ１０ＯＣ１０ＮＣ１０ＮＣ２０ＯＣ１０ＣＣ１５ＣＣ１５ＣＣ１５ＣＣ１０ＯＣ１５ＮＣ１５ＮＣ１５Ｃ
トランスフォーマモデルは、エンコーダネットワーク及びデコーダネットワークを含むことができる。したがって、トランスフォーマモデルを事前訓練することは、エンコーダネットワークを訓練して、ＢＳＰ分子表現を埋め込み空間に変換する方法を学習することと、デコーダネットワークを訓練して、埋め込み空間内のデータ点を、対応するＢＳＰ分子表現、又は分子の構造を識別する別の表現、例えば、ＳｉｍｐｌｉｆｉｅｄＭｏｌｅｃｕｌａｒ－ＩｎｐｕｔＬｉｎｅ－ＥｎｔｒｙＳｙｓｔｅｍ（ＳＭＩＬＥＳ）表現に変換する方法を学習することとを含むことができる。

【0046】

図６は、（埋め込み空間内の次元数を単純化しながら）これらの変換の一例を示す。図示の例では、ベンゼンの埋め込み（点６０４）は、メタノール（点６０８）及びエタノール（点６１２）の埋め込みから離れている。図示された例はまた、埋め込み空間内の所与のデータ点を予測分子（イソプロピルアルコールに対応する）に変換するデコーダを示す（点６１６及び点６１６に向かう線を介して）。

【0047】

ＩＩ．Ｅ．分子のフィンガープリントを生成するためのグラフニューラルネットワーク
トランスフォーマモデル内で訓練されたエンコーダネットワークを使用して分子のフィンガープリントを生成するのではなく、グラフニューラルネットワーク（ＧＮＮ）を使用してフィンガープリントを生成することができる。分子は、原子がノードであり、結合がエッジである分子グラフとして解釈することができる。このような表現の下では、ＧＮＮを用いて分子の埋め込みを得ることができる。典型的なＧＮＮは、複数のグラフ畳み込み層を含み得る。ノード特徴を更新するために、グラフ畳み込み層は、隣接ノードの特徴を集約することができる。グラフ畳み込みには多くの変形がある。例えば、メッセージパッシング層は、特に表現力があり得、分子グラフにとって重要なエッジ特徴の組み込みを可能にし得る。

【0048】

図７は、メッセージパッシング層の表現を示す。各ノードは、隣接ノードからメッセージを収集することができる。ノードは、Ｘ_ｉ及びＸ_ｊとして示される。エッジ情報Ｅ_ｉｊを含むメッセージがＸ_ｊからＸ_ｉに送信されてもよい。メッセージ値はＭ_ｉｊで表される。次いで、メッセージＭ_ｉｊは、平均又は和などの置換不変関数を使用して集約され得る。集約されたメッセージは、

【数1】

として示される。各ノードは、集約されたメッセージ

【数2】

及びそれ自体の特徴ベクトルＸ_ｉを使用して、その特徴ベクトルを更新することができる。更新されたノードは、Ｘ_ｉ’として示される。

【0049】

ＩＩ．Ｆ．ＧＮＮ事前訓練
トランスフォーマと同様に、ＧＮＮは、標識されていない分子に対して事前訓練することができる。ＧＮＮ事前訓練の２つの方法は、原子マスキング及びコンテキスト予測を含む。

【0050】

原子マスキングでは、いくつかのノードが選択され（例えば、ランダム又は擬似ランダム選択技術を使用して）、マスクトークンで置き換えられる。次に、ＧＮＮを適用して、対応するノード埋め込みを得ることができる。最後に、マスクされたノードの標識を予測するために、埋め込みの上に線形モデルが適用される。図８は、原子マスキング事前訓練のための手法を示す。「Ｘ」は、分子グラフにおけるマスクされたノードを示す。ＧＮＮは、マスクされたノードの同一性を取得するために使用される。

【0051】

コンテキスト予測では、各ノードｖについて、ｖの近傍グラフ及びコンテキストグラフを以下のように定義することができる。ｖのＫホップ近傍は、グラフ内でｖから最大でＫホップ離れている全てのノード及びエッジを含む。これは、Ｋ層ＧＮＮがｖのＫ次近傍にわたって情報を集約し、したがってｈ（Ｋ）ｖを埋め込むノードがｖから最大でＫホップ離れているノードに依存するという事実によって動機付けられる。ノードｖのコンテキストグラフは、ｖの近傍を囲むグラフ構造を表す。コンテキストグラフは、２つのハイパーパラメータｒ１及びｒ２によって記述することができ、コンテキストグラフは、ｖから離れたｒ１ホップとｒ２ホップとの間にあるサブグラフを表すことができる（すなわち、幅ｒ２－ｒ１の環である）。いくつかのノードが近傍グラフとコンテキストグラフとの間で共有されるように、ｒ１＜Ｋの制約を実装することができ、それらのノードをコンテキストアンカーノードと呼ぶことができる。制約は、Ｋが２、３、４、５、６、７、８、９、又は１０であることを含んでもよい。これらのアンカーノードは、近傍グラフ及びコンテキストグラフが互いにどのように接続され得るかについての情報を提供する。

【0052】

図９は、中心ノードの周りのＫホップ近傍の分子グラフ及びサブグラフを示す。Ｋは、所与のノードとその隣接ノードとの間で許容されるホップ数であり、２つのノードがＫ個以下のエッジを有する経路によって接続されている場合、それらは隣接ノードと見なされる。図では２に設定されている。コンテキストは、中心ノードからｒ１ホップとｒ２ホップとの間にある周囲のグラフ構造として定義され、ｒ１＝１及びｒ２＝４が図中で使用された。図９は、中心ノードの２ホップ内のノードを含む、Ｋホップ近傍のサブグラフを示す。図９はまた、ｒ１とｒ２との間に入る分子の部分を抽出することによって作成されたコンテキストサブグラフを示す。ボックス９０４は、Ｋホップ近傍サブグラフの埋め込みベクトルを表し、ボックス９０８は、コンテキストグラフの埋め込みベクトルを表す。ドットは、ベクトルドット積類似性を表す。

【0053】

表１は、異なるデータセット、評価メトリック、及び事前訓練のタイプを使用して生成されたＧＮＮの性能メトリックを示す。一般に、原子マスク事前訓練に関連付けられた性能メトリックは、コンテキスト予測事前訓練に関連付けられた性能メトリックをわずかに上回った。

【表1】

【0054】

ＩＩ．Ｇ．方向性変分トランスフォーマ
分子の特性を予測するために、分子グラフは、分子がＳＭＩＬＥＳ文字列として潜在的ベクトルから再構築され得るように、固定サイズの潜在的ベクトルとして表され得る。潜在的ベクトルのサイズはハイパーパラメータであり、経験的に決定することができる。次いで、この潜在的ベクトルを使用して、分子の特性を予測することができる。図１０は、一例として分子グラフ１００４を示す。分子グラフは、ＢＳＰを使用して表すことができる。分子グラフ１００４は、潜在表現１００８を有することができる。潜在表現１００８は、特性予測１０１２のために使用され得る。更に、潜在表現１００８からＳＭＩＬＥＳ文字列１０１６を再構築することもできる。

【0055】

特性予測のための潜在表現を生成するために使用され得る１つのエンコーダ－デコーダアーキテクチャは、ＤＶＴ（方向変分トランスフォーマ）である。ＤＶＴでは、エンコーダネットワークはグラフベースのモジュールであってもよい。グラフベースのモジュールは、グラフニューラルネットワーク（ＧＮＮ）を含み得る。グラフベースのモジュールは、原子間の距離、及び１つの原子から別の原子への空間方向を考慮することができる。ＤｉｍｅＮｅｔ（ｇｉｔｈｕｂ．ｃｏｍ／ｇａｓｔｅｉｇｅｒｊｏ／ｄｉｍｎｅｔ）は、原子と１つの原子から別の原子への空間方向との両方を考慮するＧＮＮの一例である。ＤｉｍｅＮｅｔと同様に、ＤＶＴは、原子自体ではなく、原子間で渡されるメッセージを埋め込むことができる。メッセージパッシング層について図７を用いて説明する。デコーダネットワークは、入力としてエンコーダネットワークから潜在表現を取得し、次いでＳＭＩＬＥＳ表現を生成してもよい。

【0056】

ＤＶＴと変分トランスフォーマ（ＶＴ）（例えば、セクションＩＩ．Ｄにおける変分オートエンコーダとして訓練されたモデル）との間の選択された差は、以下を含む。

【0057】

１．ＤＶＴモデルは、絶対座標に基づく位置の代わりに、角度及び距離に基づく相対位置を使用する。

【0058】

２．ＶＴとは異なり、ＤＶＴはグローバルアテンションを行わない。代わりに、ＤＶＴは、共通の原子を共有する結合又は特定の閾値距離内の隣接する結合のいずれかのみに関して注目する。閾値距離は、ホップの最大数（例えば、最大で２つのエッジだけ離れた全てのノード）又は物理的距離（例えば、５Ａ）内の結合を含み得る。

【0059】

３．ＤＶＴは、分子グラフを集約して固定サイズの潜在的ベクトルを生成する別個の読み出しノードを使用する。

【0060】

ＤＶＴモデルは、別のトランスフォーマモデルの代わりに使用することができる。例えば、ＤＶＴモデルは、セクションＩＩ．Ｄで説明した変分オートエンコーダモデルと同様に事前訓練及び訓練されてもよい。更に、ＤＶＴモデルを用いて説明されるトランスフォーマモデルの態様は、他のトランスフォーマモデルにも適用することができる。

【0061】

ＩＩ．Ｇ．１．相対位置の生成
ＤＶＴのエンコーダネットワークに関して、入力データセットは、３－Ｄ空間におけるその原子の位置で結合のシーケンスを識別する方法で分子を表すことができる。原子の位置を使用して、２つの結合間の相対距離及び角度を計算することができる。

【0062】

図１１は、相対位置を角度及び距離で示している。図１１は、４つの原子：Ａ１、Ａ２、Ａ３、及びＡ４を示す。Ａ１及びＡ２は結合によって接続され、Ａ３及びＡ４は結合によって接続される。Ｂ１（Ａ１，Ａ２）は原子Ａ１とＡ２との間の結合を表し、Ｂ２（Ａ３，Ａ４）は原子Ａ３とＡ４との間の結合を表す。原子と結合との間の距離を図中に示す。２つの結合間の距離は［ｄ１，ｄ２］によって表され、式中、ｄｎ＝ｄ（ｘ，ｙ）は原子ｘとｙとの間のユークリッド距離である。ｄ１について、ｘはＡ２であり、ｙはＡ４である。ｄ２については、ｘはＡ２であり、ｙはＡ３である。２つの結合間の角度は、［ａ１，ａ２］として計算され、式中、ａ１＝ａ（ｘ，ｙ，ｚ）は、ｘ－ｙ線とｙ－ｚ線との間の角度である。例えば、ａ１の場合、ｘはＡ１であり、ｙはＡ２であり、ｚはＡ３である。ａ２について、ｘはＡ１であり、ｙはＡ２であり、ｚはＡ４である。

【0063】

結合中の原子の次数は、分子の分子グラフにわたる深さ優先探索中の出現次数によって定義することができる。標準ＳＭＩＬＥＳから作成された分子グラフは固有であるので、モデルは次数を一般化するように学習することができる。次数を一般化することは、訓練中にＳＭＩＬＥＳの標準順序付けを生成する方法をモデルが学習することを指すことができ、訓練中に見られない分子のＢＳＰが入力であるとき、モデルはその分子の標準ＳＭＩＬＥＳを出力することができる。結合における原子の次数が固定されると、距離及び角度を計算するために第２の原子を選択することができる。例えば、図１１は、たとえＡ１及びＡ２が両方とも同じ結合内にあっても、原子Ａ１ではなく原子Ａ２からの距離及び角度を示す。あるいは、距離及び角度は、結合中の第１の原子（例えば、Ａ１）から計算することができる。モデルの性能は、角度及び距離の計算が結合の第１の原子又は結合の第２の原子を使用して行われるかどうかにかかわらず、高いままであり得る。

【0064】

ＩＩ．Ｇ．２．エンコーダ
分子のグラフ表現は、エンコーダネットワークに入力され得る。グラフ表現は、原子間の空間関係及び／又は原子間の結合に関する空間特性を識別することができる。いくつかの実施形態では、グラフ表現は、２次元における分子の表現を含み得る。いくつかの実施形態では、グラフ表現は、３次元における分子の表現を含み得る。エンコーダネットワークは、固定サイズの潜在的ベクトルを出力として生成し得る。エンコーダネットワークは、複数のヘッドを含んでもよい。例えば、エンコーダネットワークは、２つのヘッド、すなわち、グラフアテンションヘッド及び読み出しアテンションヘッドを含み得る。使用され得る他のヘッドは、ＤｉｍｅＮｅｔで使用されるものに類似する、標準アテンションヘッド又はＯｕｔｐｕｔＢｌｏｃｋヘッドを含む。

【0065】

ａ．グラフアテンションヘッド
グラフアテンションヘッドは、ノード間でアテンションベースのメッセージパッシングを実行して、相対角度及び距離情報を提供する。図１２Ａ及び図１２Ｂに示されるように、メッセージパッシングは、２つのステップを含み得る。ステップ１において、ノードは、それらの隣接ノードにメッセージを送信することができ、ノードｉからノードｊへのメッセージは、図１２Ａに示すように、ノードｉの埋め込みとノードｊに対するノードｉの相対位置との組合せである。メッセージは、Ｅ＿ｔから別のノード（例えば、Ａ＿ｔｉ）への角度と、Ｅ＿ｔから別のノード（例えば、Ｄ＿ｔｉ）への距離とを含む。いくつかの実施形態では、全てのノードが隣接ノードにメッセージを送信することができる。メッセージパッシングステップの数は、エンコーダネットワークにおけるグラフアテンション層の数と同じであってもよい。例えば、グラフアテンション層の数は、２、３、４、５、６、７、８、９、１０個、又はそれ以上であってもよい。ステップ２では、各ノードは、図１２Ｂに示されるように、アテンション機構を使用して、その着信メッセージを集約してもよい。各ノードは、全ての着信メッセージについてキーと値のペア（すなわち、ｋ及びｖ）を生成することができる。各ノードは、それ自体の埋め込みからクエリベクトル（すなわち、ｑ）を生成することもできる。クエリ及びキーを使用して、各ノードは、全ての着信メッセージについてクエリベクトルとキーベクトルとの間のベクトルドット積を行うことによって、アテンションスコアを計算することができる。標的ノードの更新された埋め込みは、全ての着信エッジの値ベクトルの加重平均に基づいて生成されてもよい。重みの例は、Ｗ（［Ａ＿ｔｉ，Ｄ＿ｔｉ］）であり、これは、図１２Ａの結合ｔとｉとの間の方向情報を含むベクトルである。アテンションが共通の原子を共有する結合間である場合、Ａ＿ｔｉ及びＤ＿ｔｊは、単一の角度及び距離値を表すスカラー値である。アテンションがある閾値距離内にある結合間にある場合、Ａ＿ｔｉ及びＤ＿ｔｊはサイズ２のベクトルであり、図１１に示すように計算することができる。

【0066】

この例では、アテンションスコアが重みとして使用される。例えば、埋め込みのセットが生成されてもよく、各埋め込みは、１つ以上の分子における結合の角度又は距離を表す（例えば、埋め込みのセットが、単一のイオン液体分子又は単一のイオン液体分子と標的分子との組合せに対応するように）。特定の埋め込みごとに、特定の埋め込みと埋め込みのセット内の各埋め込みとの間のペアに対応するキーと値とクエリのペアのセットが生成される。アテンション機構（あらゆる目的のためにその全体が参照により本明細書に組み込まれるＶａｓａｗｎｉら、「Ａｔｔｅｎｔｉｏｎｉｓａｌｌｙｏｕｎｅｅｄ」、３１^ｓｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ（２０１７）に記載されているものなど）を使用して、所与の結合角度又は結合距離に対応する更新された埋め込みを生成するときに、様々な結合角度又は結合距離の埋め込みに重み付けする程度を決定することができる。

【0067】

ｂ．読み出しアテンションヘッド
読み出しアテンションヘッドは、エンコーダネットワークで使用される別のヘッドであってもよい。読み出しヘッドは、アテンション機構を使用して固定サイズの潜在的ベクトルを生成するために、全てのノード埋め込みを集約することができる。読み出しノードは、全てのノードを集約するために使用され得る。読み出しノードは、他の全てのノードに接続されているが、メッセージパッシング機構から除外されている単一のノードであってもよい。読み出しノードは、図１３のＲである。読み出しノードは、クエリベクトルとして機能することができ、訓練中に学習される埋め込みを有することができる。グラフ内の全てのノードからのキーと値のペア（すなわち、ｋ及びｖ）が生成され得る。クエリ及びキーを使用して、グラフの全てのノードについてアテンションスコアを計算することができる。アテンションスコアが重みである場合、全ての値ベクトルの重み付けされた集約が実行され得る。

【0068】

ＩＩ．Ｇ．３．デコーダ
エンコーダネットワークによって生成された固定サイズの潜在的ベクトルは、デコーダネットワークへの入力であり得る。デコーダネットワークは、出力として分子のＳＭＩＬＥＳ表現を生成することができる。デコーダネットワークは、埋め込み空間内のデータ点をＳＭＩＬＥＳ表現に変換することを学習するように訓練され得る。

【0069】

ＩＩＩ．分子特性予測のための微調整されたネットワーク
トランスフォーマモデルはエンコーダネットワークを含むので、トランスフォーマモデルを事前訓練することは、（分子のＢＳＰ表現を埋め込み空間内の表現に変換することができるように）エンコーダネットワークが事前訓練されることをもたらし得る。

【0070】

次いで、エンコーダネットワークは、ＢＳＰ表現が分子のサンプルの特定の特性（例えば、粘度、密度、所与の溶媒中の溶解度、活量係数又はエンタルピー）の予測値に変換され得るように微調整され得る。例えば、分類器又はリグレッサをエンコーダネットワークの出力に取り付けることができ、分類器又はリグレッサを特定のタスクに対して微調整することができる。図１４は、活性化関数（例えば、Ｓｏｆｔｍａｘ関数）を有する線形層を含むエンコーダネットワークを含む例示的なモデルを示す。この線形層は、分類器又はリグレッサで置き換えることができ、エンコーダネットワークによって生成された埋め込み値を予測された特性値に変換するように微調整することができる。

【0071】

図１４に示すモデルは、マルチヘッドアテンション層を更に含む。マルチヘッドアテンション層は、要素のセットのうちの別のものを処理するときに、受信されたデータセット（例えば、分子のＢＳＰ表現）内の要素のセットの各々に「対処する」程度を決定するために、クエリ、キー、値行列を使用し得る。より具体的には、各要素は、クエリ、キー、及び値の３つの行列に関連付けられ得る。所与の要素に対して、クエリは、どのタイプのキーに対処すべきかをキャプチャするように定義され得る。したがって、クエリは、（ドット積を介して）同じ要素のキー及び他の各要素のキーと比較されて、要素のペアに対する重みを生成することができる。これらの重みを使用して、要素の値の加重平均を生成することができる。マルチヘッドアテンション層は、異なる「ヘッド」を使用してこのプロセスを複数回実行することができる。各ヘッドは、異なるタイプのデータ（例えば、近くの要素からのデータ、まれな値など）に対処することができる。図１４に示されるモデルは、「ａｄｄ＆ｎｏｒｍ」層を更に含む。この残差結合は、要素ごとの加算及び（特徴次元にわたる）層正規化を実行する。

【0072】

ＩＶ．反応予測
微調整されたエンコーダネットワーク（エンコーダネットワークと、リグレッサ、分類器、及び／又は活性化関数とを含む）は、個々の分子の特性予測を生成することができるが、エンコーダネットワークは、別個の陽イオン及び陰イオンから構成されるイオン液体等の分子の混合物を処理する原理的方法を提供しない。したがって、上述した同じＢＳＰ表現を使用するが、異なるエンコーダ／デコーダモデルアーキテクチャを使用する別個の反応予測モデルを生成することができる。

【0073】

反応予測モデルの例示的なアーキテクチャが図１５に示されている。このモデルは、エンコーダネットワーク１５０４及びデコーダネットワーク１５０８を含む。結合位置、結合埋め込み、及び分子位置は、エンコーダネットワーク１５０４への入力である。エンコーダネットワーク１５０４の出力は、デコーダネットワーク１５０８への入力である。２つの分子の埋め込みもデコーダネットワーク１５０８への入力である。図１５のモデルの出力は、化学反応の出力に対する確率である。

【0074】

反応予測は、反応物及び試薬のＢＳＰと生成物の表現（例えば、ＳＭＩＬＥＳ表現、ＳＥＬＦＩＥＳ表現、又はＢＳＰ表現）との間の機械変換問題として扱うことができる。生成物のＳＭＩＬＥＳ表現は、ＢＳＰ表現を人間が読める化学式に変換することが重要であるため、ＢＳＰ表現よりも有利であり得る。ＳＥＬＦＩＥＳ表現を使用する場合、モデルが環及び分岐のサイズを推論することがより困難であり得るので、生成物に関するＳＭＩＬＥＳ表現は、ＳＥＬＦＩＥＳ表現よりも更に有利であり得る。

【0075】

別個の反応予測モデルのための訓練タスクは、反応物からの生成物を予測することを学習することであり得る。図１６Ａ及び１６Ｂは、モデルの成功例のいくつかを示す。各行は、反応物及び試薬、次いで、形成されたグラウンドトルース生成物及び予測生成物を含む。予測生成物は、グラウンドトルース生成物に一致する。図１７Ａ及び１７Ｂは、モデルの失敗事例のいくつかを示す。図１７Ａ及び図１７Ｂにおいて、予測生成物はグラウンドトルース生成物と一致しない。モデルの観察された失敗モードの１つは、反応を実行する代わりに、反応物又は試薬から分子の１つをコピーすることである。これは、失敗モードが反応物及び試薬からの反応がないことを予測していることを示唆している。

【0076】

ＩＶ．Ａ．反応予測モデルの例示的な結果
ＩＶ．Ａ．１．ＤｅｅｐＣｈｅｍタスク
分子特性予測のためのＢＳＰ表現を評価するために、ＢＥＲＴマスク結合モデルを、ＭＩＴ＿ＵＳＰＴＯ及びＳＴＥＲＥＯ＿ＵＳＰＴＯデータセットからの分子に対して訓練した。ＳＴＥＲＥＯ＿ＵＳＰＴＯデータセットは、そのＳＭＩＬＥＳ記述に立体化学（すなわち、分子中の結合の配向）を含み、これは全体的な符号化／復号をより困難にする。ＳＴＥＲＥＯ＿ＵＳＰＴＯを用いて、モデルはグラフ構造及び結合配向の両方を予測する。モデルへのＢＳＰ入力は、図２に記載されるように構築された。各サンプルには１つの分子しか存在しないので、分子位置は使用しなかった。次いで、分類器又はリグレッサを、事前訓練されたＢＥＲＴモデルの上に取り付け、下流の分類又は回帰タスクに対して微調整した。ＤｅｅｐＣｈｅｍ評価スイートからの１０個の異なるデータセットについての結果を表２に示す。異なるタスクは、分子の異なる特性を表す。例えば、Ｔｏｘ２１データセットにおいて、１２個のタスクは、各分子が、モデルが予測するための１２個の特性を有することを意味する。ＵＳＰＴＯデータセットの検証スコアを表３に示す。

【表2】

【表3】

【0077】

表２は、異なるデータセット及びタスクが高いＲＭＳＥ又はＡＵＣ評価メトリックをもたらし得ることを示す。表２は、分子特性を予測するための結果を示す。表３は、ＭＩＴ＿ＵＳＰＴＯデータセットによる検証精度が約８６％であり、ＳＴＥＲＥＯ＿ＵＳＰＴＯが約６６％であることを示している。ＵＳＰＴＯデータセットの検証スコアは、反応の生成物を予測するためのものである。

【0078】

ＩＶ．Ａ．２．イオン液体の特性予測
純粋な二元イオン液体（ＩＬ）は、２つの分子、すなわち陽イオン及び陰イオンから構成される。混合イオン液体は、２つ以上の成分を有することができる。マスクされた言語モデルは単一分子上で訓練されるので、イオン液体の埋め込みを得ることは有用ではない。したがって、反応予測モデルのエンコーダネットワークを使用して、イオン液体の埋め込みを得ることができる。純粋な二元ＩＬと混合ＩＬとを区別するために、成分番号が、埋め込みを得た後に追加の入力として使用された。表４は、２つの特性（密度及び粘度）についての例示的な検証スコアを示す。成分の数は、イオン液体の数を指す。例えば、成分の数が２である場合、２つの陽イオン及び２つの陰イオンを含む２つのイオン液体が存在する。

【表4】

【0079】

ＩＶ．Ａ．３．アテンション重みの分析
３次元空間において異なる結合を関連付けるモデルの能力を理解するために、ＭＩＴ＿ＵＳＰＴＯデータセットに対して訓練された反応予測モデルのアテンション重みを可視化した。３つのタイプのアテンション、すなわち、反応物／試薬に対する自己アテンション、生成物に対する自己アテンション、及び反応物／試薬と生成物との間のアテンションがある。

【0080】

反応物／試薬自己アテンション重みは、ＢＳＰ表現を入力として取るモデルのエンコーダモジュールから抽出された。図１８は、その第３層におけるエンコーダの第４のヘッドのアテンション重みを示す。示されるように、モデルは、アテンションマップの対角性質から明らかである結合位置を使用して、３次元空間において隣接する結合を見出すように学習した。結合文字列は、図１９に示すように分子グラフをトラバースすることによって生成された。したがって、隣接する結合のいくつかは、結合文字列配列において遠く離れて現れ、これは、アテンションマップにおいて見られるウィング様パターンを生じた。

【0081】

ＩＶ．Ｂ．方向性変分トランスフォーマを用いた例示的な結果
図２０は、ＤＶＴを使用する反応予測モデルの例示的なアーキテクチャを示す。主構成要素は、グラフベースのエンコーダネットワーク２００４である。分子グラフは、エンコーダネットワーク２００４に入力され得る。次いで、エンコーダネットワーク２００４は、固定サイズの潜在的ベクトルを出力することができる。エンコーダネットワーク２００４は、絶対座標に基づく位置の代わりに、角度及び距離に基づく相対位置を使用してもよい。デコーダネットワーク２００８は、（例えば、図１５に示されるような）トランスフォーマモデルからのデコーダネットワークであり得る。固定サイズの潜在的ベクトルは、デコーダネットワーク２００８に入力され得る。次いで、デコーダネットワーク２００８は、分子のＳＭＩＬＥＳ表現を生成することができる。図１５ではなく図２０に示されるように、エンコーダネットワーク２００４は、角度及び距離の識別を入力として受信するように構成される。加えて、エンコーダネットワーク２００４（図２０に示される）は、結合位置又は分子位置（例えば、ＢＳＰにおける座標）を入力として受信するように構成されない。しかしながら、いくつかの実施形態において、分子グラフは、グラフのノードが結合文字列トークンであるＢＳＰ表現のタイプとして解釈されてもよい。結合位置ベクトル（座標）は、角度及び距離値に変換することができ、その後、それらはグラフアテンションヘッドに渡される。

【0082】

表５は、変分トランスフォーマ（ＶＴ）モデル及び方向性変分トランスフォーマ（ＤＶＴ）モデルの性能データを示す。ＤＶＴは、１００，０００個のサンプルについて、ＶＴよりも高い平滑度試験結果を有した。平滑度試験は、デコーダモデルを使用して復号されたときに有効な分子を与えるランダムに生成された潜在埋め込みの割合を示す。より高い平滑度試験値は、より良好で平滑な潜在空間を示す。ＶＴは、ＤＶＴよりも高い再構築精度を有していた。再構築精度は、モデルによって完全に再構築された検証データセットからの分子の割合である。より高い再構築精度は、エンコーダ／デコーダモデルのより良い能力を示す。ＤＶＴは、標的イオン液体を見出すために、ＶＴよりも少ない平均反復を要した。この実験では、潜在埋め込みが全てのＩＬについて得られ、次いで、離散ベイズ最適化が実行されて、最低の粘度スコアを有するＩＬを見つけるために何回の反復がかかるかを見出す。反復回数が少ないほど望ましい。ＤＶＴは、イオン液体を圧縮するためにより小さい次元しか必要としなかった。この実験では、潜在埋め込みが全てのＩＬについて取得され、次いで、埋め込みベクトルは、９９％の分散が保存されるように、ＰＣＡを使用してより少ない次元に圧縮される。ＤＶＴは、ＶＴよりも低い次元空間における分子を表すことができ、これは、より高い計算効率を可能にする。表５は、ＤＶＴが、標的イオン液体を見出すための反復の数及びイオン液体を圧縮するために必要とされる次元の数において、ＶＴよりも有利であり得ることを示す。

【表5】

【0083】

Ｖ．コンピュータシミュレーション及び変分オートエンコーダを使用した候補分子の探索
材料／化合物の選択は、高スループット実験（ＨＴＥ）の広範な使用の欠如を考慮すると、主に時間及びリソースが制約される材料科学／化学合成の多くの分野において永続的かつ長年の問題である。材料選択の１つの例示的なタイプは、（例えば、リサイクルを容易にするために）特定のポリマーを効率的かつ効果的に解重合するイオン液体を識別することである。

【0084】

いくつかの実施形態は、比較的少量の時間及び／又は比較的少量のリソースを必要とする様式で、所与のユースケースに適合する材料／化合物を選択するためのウェットラボ手法の代わりに、及び／又はウェットラボ手法を補足するために、人工知能及びコンピューティングを少なくとも部分的に使用することに関する。何百万ものイオン液体オプションを実験的に評価することは、数年又はおそらく数十年を要するが、ＡＩ及び計算力モデルは、実用的なタイムスケールでそれを行う能力を提供する。

【0085】

いくつかの実施形態では、イオン液体のセットの各々について予測された液体粘度及び溶解度特性を含むデータベースが生成され得る。溶解度特性は、混合エンタルピー及び活量係数を含むことができる。溶解度特性は、所与のイオン液体及び特定の化合物（例えば、特定のポリマー）に関連し得る。これらの予測される特性は、量子／熱力学的方法に基づくＣＯＳＭＯ－ＲＳ（Conductor-like Screening model for Real Solvents）シミュレーションを含むシミュレーションを実行することによって生成され得る。これらのシミュレーションは、特定のＩＬ及びＩＬ／ポリマー溶液特性について、１つ以上の既存のイオン液体ライブラリをスクリーニング及び／又はフィルタリングすることを可能にし得る。分子動力学及び密度汎関数理論（ＤＦＴ）の計算も行うことができる。ＣＯＳＭＯ－ＲＳシミュレーションは、量子力学計算を後処理して、溶液中の各化学種の化学ポテンシャルを決定し、そこから、他の熱力学的特性（例えば、混合エンタルピー及び／又は活量係数）を決定することができる。量子力学的及び／又は熱力学的方法は、ＣＯＳＭＯ－ＲＳ又はＤＦＴを含んでもよい。

【0086】

ＣＯＳＭＯ－ＲＳシミュレーションを実行する方がウェットラボ実験を実行するよりも速いかもしれないが、ＣＯＳＭＯ－ＲＳシミュレーションはスクリーニング電荷密度を入力として使用することができる。この電荷密度は、計算的に時間がかかる密度汎関数理論（ＤＦＴ）計算から得られるので、これは、事前に計算されたＤＦＴ結果を有さない化合物についてＣＯＳＭＯ－ＲＳシミュレーションを遅くする可能性がある。

【0087】

ＣＯＳＭＯ－ＲＳシミュレーションを実行することは、以下を含むことができる：
●データベースからイオン液体ペア（陽イオン及び陰イオン）を取り出し、全ての可能な陽イオン－陰イオンの組合せを評価することによってイオン液体を組み合わせて列挙する。データベースは、事前計算された密度汎関数理論（ＤＦＴ）結果を有する８０個の陽イオン及び５６個の陰イオンを含むＣＯＳＭＯ－ＲＳイオン液体データベースＡＤＦＣＲＳ－ＩＬ－２０１４（４４８０個の異なるイオン液体に対応）及び／又は予め計算されたＤＦＴ結果を有する４２１個の陽イオン及び１０９個の陰イオンを含むＣＯＳＭＯｂａｓｅ（４５８８９個の固有のイオン液体に対応）を含むことができる。

【0088】

●溶質（ポリマー）の識別。溶質は、三量体の中心モノマーについて、及び潜在的にいくつかのポリマーについてのオリゴマーの中心のいくつかのモノマーについても、記憶された事前計算されたＤＦＴ結果と関連付けられ得る。

【0089】

●イオン液体を使用した解重合のための例示的な実験設定を再現するために、特定のモル分率（例えば、ポリマーの場合は０．２、イオン液体カチオンの場合は０．４、イオン液体アニオンの場合は０．４、陽イオンと陰イオンが併用される場合はイオン液体の場合は０．８である）を使用してＣＯＳＭＯ－ＲＳ計算を設定する。温度及び圧力は、ＣＯＳＭＯ－ＲＳ計算においてデフォルトで使用される値に設定又は保持することができる。

【0090】

●ＣＯＳＭＯ－ＲＳ出力からイオン液体溶液中のポリマーの溶液混合エンタルピー及び活量係数を得て、結果をデータベースに保存する。

【0091】

予測は、最低の予測された溶液混合エンタルピー及び活量係数を有するイオン液体の不完全なサブセットを選択するために、ＩＬ陽イオン及び陰イオンペアの単純スクリーニングを行うために使用されることができる。解重合温度及び圧力でのイオン液体の不完全なサブセットの粘度が、物質移動に対して妥当であることを検証することができる（例えば、ＩＬＴｈｅｒｍｏデータベースから直接、又はトランスフォーマ埋め込みに基づく予測モデルから）。サブセットは、識別することができる解重合温度及び圧力に基づいて更にフィルタリングすることができる。

【0092】

したがって、いくつかの実施形態では、これらのシミュレーションは、イオン液体の母集団の不完全なサブセットのみに対して実行されてもよく、１つ以上の特性予測モデルを使用して、他のイオン液体に対する溶解度特性を予測することができる。特性予測モデル（複数可）の各々は、不完全なサブセット内のイオン液体の表現及び所与の特性についての対応する値を使用して訓練及び／又は適合させることができる。例えば、第１のモデルは、混合エンタルピー（特定の化合物［例えば、特定のポリマー］に対応する）を予測するように定義されてもよく、第２のモデルは、活量係数（特定の化合物に対応する）を予測するように定義されてもよく、第３のモデルは、ＩＬ粘度を予測するように定義されてもよい。イオン液体の表現は、イオン液体のＢＳＰ表現を含んでもよい。モデルは、埋め込み空間上で訓練され、分子の埋め込みを特性値に関連付けることができる。特性予測モデル（複数可）の各々は、回帰モデルを含むことができる。

【0093】

（例えば、エンコーダネットワークを使用して初期分子表現が変換される）埋め込み空間を調査し、ポリマー分解反応のための所望の強化されたＩＬ及びＩＬ／ポリマー溶液特性を発見するために、１つ以上の生成モデルを使用して、候補イオン液体の表現間を補間することができる。すなわち、生成モデルは、追加の分子を調査することができ、これらの分子の埋め込みを１つ以上の特性の値にマッピングすることができる。生成モデル（複数可）は、（例えば）回帰モデルを含むことができる。生成モデルを使用して、埋め込み空間にわたって連続予測を生成することができる。

【0094】

例えば、図２１は、埋め込み空間内の個々の点が、（再構築デコーダを使用して予測され得る）所与の化学構造及び予測された特性にどのように対応し得るかを示す。実施形態では、生成モデルは、出力を生成し、特定のコンテキスト（例えば、解重合）に有用であることがまだ知られていない分子（例えば、イオン液体）を識別するモデルを指し得る。予測される特性は、別のモデル（例えば、埋め込み空間内の所与の位置を予測される特性に変換する、生成モデルの上の回帰モデル）を使用して識別され得る。

【0095】

場合によっては、単一のモデル（例えば、回帰タスクを有する単一の生成モデル）は、埋め込み空間内の任意の所与の位置に対して複数の出力を生成するように構成することができ、複数の出力は複数の特性に対応する。例えば、単一のモデルは、埋め込み空間内の所与の位置について予測された混合エンタルピー、活量係数、及び粘度を生成し得る。場合によっては、複数のモデルが使用され、各モデルは単一の特性に対応する予測を生成する。例えば、第１のモデルは混合エンタルピーを予測することができ、第２のモデルは粘度を予測することができ、第３のモデルは活量係数を予測することができる。

【0096】

図２１に示す埋め込み空間表現では、データ点２１０４、２１０８、２１１２が示されている。これらのデータ点は、特性の測定値に関連付けられ、データ点２１１６は、測定された特性値に関連付けられない。示された例では、ベンゼン分子（データ点２１０４によって表される）は、好ましくない特性を有すると予測され、一方、メタノール分子（データ点２１１２によって表される）及びエタノール分子（データ点２１０８によって表される）は、特定のポリマー分解反応に対して好ましい特性を有すると予測される。回帰モデルを使用して埋め込み空間における特性を予測した後、有望な分子の表現（データ点２１１６によって表される）が識別される。データ点２１１６は、埋め込み空間内でデータ点２１０８及び２１１２に近い。データ点２１０８及び２１１２によって表される分子が好ましい特性を有すると仮定すると、データ点２１１６の近接性は、データ点２１１６によって表される分子もまた好ましい特性を有することを示唆する。「有望な分子」は、各予測された特性に関連する条件が満たされる埋め込み空間内の位置に対応することができる。

【0097】

例えば、有望な分子は、粘度閾値を下回る又は上回る予測粘度と関連付けることができ、有望な分子の溶液中のポリマーの予測された活量係数は活量係数閾値未満であり、有望な分子及びポリマーの溶液についての予測された混合エンタルピーは、混合エンタルピー閾値未満である。すなわち、生成モデル（複数可）によって生成された予測を使用して、所望の対象の特性（例えば、所定の粘度閾値を下回る／上回る予測粘度、所定の混合エンタルピー閾値を下回る混合エンタルピー、及び／又は所定の活量係数閾値を下回る活動係数）に対応する埋め込み空間内の位置を識別することができる。

【0098】

別の例として、スコアは、埋め込み空間内の位置によって表されるイオン液体の一部又は全部の各々について生成されてもよい。スコアは、予測された対象の特性に基づく加重平均であると定義され得る。対象の予測された特性の値は正規化されてもよい。より高いスコアは、より有望な分子を示し得る。例示すると、スコアは、予測された正規化粘度（対数粘度を含む）の加重平均、又は予測された正規化粘度（対数粘度を含む）の負数、予測された正規化混合エンタルピーの負数、及び／又は予測された正規化活性係数（対数活性係数を含む）の負数若しくは正数であると定義することができる。１つ以上の有望なイオン液体は、ｎ個の最高スコアに対応するものとして（例えば、最高スコアに対応するものとして、又は最高１０個のスコアのうちのいずれかに対応するものとして）、又は絶対閾値を上回るスコアに対応するものとして識別されてもよい。あるいは、１つ以上の有望なイオン液体は、ｎ個の最低スコアに対応するものとして（例えば、最低スコアに対応するものとして、若しくは最低１０個のスコアのいずれかに対応するものとして）、又は絶対閾値未満のスコアに対応するものとして識別されてもよい。

【0099】

場合によっては、変分オートエンコーダを使用して、データ点の表現（例えば、ＢＳＰ表現）を変換して、データ点に対応する分子構造及び／又は同一性を予測する。変分オートエンコーダは、分子の表現（例えば、ＢＳＰ表現）を埋め込み空間分布（例えば、埋め込み表現の平均及び標準偏差）に変換するエンコーダネットワークと、埋め込み空間分布からサンプリングされた表現を分子の初期空間表現に変換し戻すように構成された再構築デコーダネットワークとを用いて構成され得る。いくつかの例では、再構築デコーダネットワークは、ＢＳＰ表現の代わりに分子のＳＭＩＬＥＳ表現を生成するように構成される（ＳＭＩＬＥＳ表現は人間のユーザにとってより解釈可能であり得るため）。所与の予測に対する損失を計算するために、初期ＢＳＰ表現を対応する初期ＳＭＩＬＥＳ表現に変換することができる。ペナルティは、初期ＳＭＩＬＥＳ表現とデコーダ予測表現との間の差に基づいてスケーリングすることができる。あるいは、生成されたＳＭＩＬＥＳ表現をＢＳＰ表現に変換することができ、その後、初期ＢＳＰ表現と最終ＢＳＰ表現との間の差に基づいてペナルティをスケーリングすることができる。

【0100】

次いで、変分オートエンコーダからの訓練されたデコーダネットワークを使用して、関心点（例えば、１つ以上の条件を満たす予測に関連付けられた）をＳＭＩＬＥＳ表現に変換することができ、それによって分子を識別することができる。関心点は、（例えば）所与の予測値の局所最大値若しくは絶対最大値、所与の予測値の局所最小値若しくは絶対最小値、所与の局所最大値若しくは絶対最大値、又は複数の予測値に依存するスコアなどに対応し得る。例えば、スコアは、混合エンタルピー予測、活動係数予測、及び粘度予測と負に相関するように定義され得、関心点は、最高スコアに対応し得る。

【0101】

図２２は、コンピュータシミュレーション及び変分オートエンコーダを使用して、反応（例えば、解重合）のための候補分子を識別するための例示的ワークフローを図示する。段階２２０４で、分子の１つ以上の特性及び構造を含むデータストアが作成及び／又はアクセスされる。例えば、１つ以上の特性は、粘度、溶解度、エンタルピー、及び／又は活量係数を含むことができる。これらの値を識別するために、段階２２０８におけるＣＯＳＭＯ－ＲＳ計算は、すでに事前計算された量子力学的（ＤＦＴ）計算を有する化合物に対応してアクセスされ得る。

【0102】

段階２２１２において、１つ以上のモデル（例えば、生成モデル及び回帰モデルを含む）が、分子表現を空間にわたる予測された分子特性に関連付けるために（上記の特性及びＢＳＰ表現などの分子の表現を使用して）定義され得る。各モデルは、ポリマーを解重合するために使用され得るイオン液体に対応する様々な分子の空間を調査するために、ポリマー系に特異的であり得る。モデルによって予測される特性値は、所与のタイプの分子の溶液（埋め込み空間内の独立変数位置に関連付けられる）がポリマーを解重合すると予測されるかどうかに影響を及ぼし得る。

【0103】

段階２２１６において、モデル（複数可）は、したがって、埋め込み空間内の各位置について、空間に対応する分子（又は分子の溶液）の１つ以上の予測される特性を生成することができる。

【0104】

生成モデル及び回帰モデルを使用して、所望の特性に対応する埋め込み空間内の１つ以上の領域（例えば、１つ以上の位置、１つ以上のエリア、及び／又は１つ以上のボリューム）を識別することができる。「望ましい」特性を構成するものは、ユーザからの入力及び／又はデフォルト設定に基づいて定義することができる。例えば、ユーザは、インタフェース内の１つ以上の特性の各々について閾値を調整することが可能であり得る。インタフェースは、閾値基準を満たす分子の数を示すように更新することができる。

【0105】

段階２２２０において、（対応する変分オートエンコーダ２２１８内で訓練された）デコーダネットワークを使用して、埋め込み空間の１つ以上の領域内のデータ点を分子の構造表現（例えば、分子のＳＭＩＬＥＳ又はＢＳＰ表現）に変換することができる。したがって、変分オートエンコーダのデコーダネットワークは、データ点を埋め込み空間から分子構造を明確に伝達する空間に確実に変換するように訓練され得る。生成モデル及び回帰モデル（複数可）からの出力が、対象の特性を有する埋め込み空間（複数可）内の位置を識別し得ることを考慮すると、１つ以上の関心のある候補分子は、変分オートエンコーダを使用して識別され得る。

【0106】

段階２２２４において、次いで、１つ以上の候補分子の特性が実験的に測定され得る。そのような実験は、関心対象の分子としての選択を確認することができ、又は埋め込み空間、１つ以上の変換及び／又は１つ以上の選択基準を更新するために使用することができる。

【0107】

Ｖ．Ａ．変分オートエンコーダの例示的結果
トランスフォーマベースの変分オートエンコーダモデルは、荷電種（すなわち、イオン液体陽イオン及び陰イオン）及び非荷電種の両方を含有する化学分子の大きなデータセットに対して訓練された。次いで、オートエンコーダモデルを使用して、既知のイオン液体陽イオン付近の空間を調査することによって、新しいイオン液体陽イオンを生成した。

【0108】

図２３は、新しいイオン液体陽イオンを生成するための分子の周りの空間の調査を示す。出発イオン液体陽イオンは左側にあり、「荷電開始」と標識されている。ランダムガウスノイズをその埋め込みに加えた。次いで、４つのイオン液体陽イオンを埋め込みから復号した。各陽イオンのＳＭＩＬＥＳ文字列は、４つの得られたイオン液体陽イオンの下に列挙される。４つの復号された出力は全て荷電分子であるが、これはモデルの確率的性質のために常に当てはまるわけではない。図２３は、トランスフォーマベースの変分オートエンコーダモデルを使用して、単一のイオン液体陽イオンから追加のイオン液体陽イオンを生成することができることを示す。

【0109】

図２４は、線形補間による２つの分子間の空間の調査を示す。２つの分子は、「荷電開始」と標識された左上のイオン液体陽イオンと、「荷電終了」と標識された右下のイオン液体陽イオンである。再び、モデルの確率的性質のために、全ての中間分子が荷電種に対応する必要はない。図２４は、荷電開始と荷電終了との間の空間で生成された７つのイオン液体陽イオンを示す。ＳＭＩＬＥＳ文字列は、生成された陽イオンの下に表示される。ＳＬＥＲＰ（球面線形補間）のような他の補間技術も利用することができる。図２４は、トランスフォーマベースの変分オートエンコーダモデルを使用して、２つのイオン液体陽イオン間の空間を調査することによって、追加のイオン液体陽イオンが生成され得ることを実証する。

【0110】

イオン液体陰イオンについても同様の知見を得ることができ、異なる生成された陽イオン及び陰イオンを組み合わせることによって、新しいイオン液体を生成することができる。

【0111】

ＶＩ．イオン液体ベースの解重合の最適化
化学リサイクルは、廃棄物（例えば、プラスチック廃棄物）が変換されて分子成分に戻され、次いで化学リサイクルによって燃料又は原料として使用される反応プロセスを含む。最適化された化学反応は、変換率（出発プラスチックの量に対する溶解したプラスチックの量）、収率（出発プラスチックの量に対するモノマーの量）、及び選択性（反応生成物の総量に対するモノマーの量）を最大にするように試みることによって選択される。これらの分解反応は、複数の時間及び長さスケールに及ぶ化学プロセスと物理プロセスとの間の複雑な結合に依存するので複雑であり、実験計画法（ＤＯＥ）が高価であり、化学空間にわたって容易に一般化できないことを意味する。

【0112】

化学反応最適化は、反応パラメータのセットに依存する関数（例えば、効用関数）を最大化することを含む。様々な最適化アルゴリズムが開発されているが（例えば、勾配降下法、共役勾配法、ＢＦＧＳなどの極小値に対する凸手法、及び系統的グリッド探索などの大域的最適化に対する非凸ブラックボックス関数最適化手法）、それらは関数の多くの評価を必要とする可能性があり、各評価が新しいベンチトップ実験を実行することを必要とする実験室化学反応などの高価なプロセスには適していない。

【0113】

化学反応最適化のための代替手法は、ガウス過程（ＧＰ）を介したベイズ最適化の技術を使用する。この技術は、限られた評価で良好な精度を達成することができる。しかしながら、ガウス過程を介したベイズ最適化は、高パラメータ次元へのスケーラビリティが乏しく、Ｎ^３として計算的にスケーリングするため、計算的に高価であり、ここで、Ｎは、ベイズ最適化をシードするために使用される訓練データ点の数である。

【0114】

本明細書に開示されるいくつかの実施形態は、次元を縮小し、限られた数の訓練（シード）データのみを必要とする一方で、ガウス過程を介してベイズ最適化を行うための技術を含む。次いで、化学空間及び実験空間を効率的にナビゲートして、好ましい特性を有するイオン液体を識別することができる。

【0115】

イオン液体を用いた解重合反応へのベイズ最適化の適用は困難である。可能なイオン液体の数は多くてもよい。イオン液体は、陽イオン及び陰イオンを含み、数千の可能な陽イオン及び陰イオン、又は数百の商業的に入手可能な陽イオン及び陰イオンが存在し得る。イオン液体と解重合されるポリマーとの間の相互作用は、十分に理解されていない可能性がある。イオン液体がポリマーを分解する機構は知られていないかもしれない。したがって、ベイズ最適化は、他のコンテキストよりも解重合に適用することがより困難であり得る。例えば、解重合は、所望の薬物（又は薬物の所望のいくつかの特性を有し得る分子）が標的のある部分（例えば、タンパク質のポケット）に結合することが予想される薬学的反応よりも複雑であり得る。結果として、解重合のベイズ最適化は、薬学的反応のベイズ最適化よりも収束解に到達することが困難であり得る。

【0116】

ＶＩ．Ａ．イオン液体の次元数縮小
ベイズ最適化は、次元数が縮小された空間を使用することによって改善され得る。イオン液体の構造及び／又は他の物理的特性は、高次元空間（例えば、ＢＳＰ表現又はＳＭＩＬＥＳ表現）によって表すことができる。互いに近接して位置する類似の分子を有する次元数が縮小された空間は、ベイズ最適化を支援することができる。行列は、イオン液体の高次元構造を表すために使用することができる。次元数縮小技術は、次いで、新しい次元のセットを識別するために、様々なイオン液体に対応する行列を処理することができる。新しい次元のセットは、より高次元の空間を有する従属変数の変動性の少なくとも８０％、８５％、９０％、９５％、又は９９％をキャプチャし得る。主成分分析（ＰＣＡ）は、１つの可能な次元縮小技術である。ある高次元空間内の点の集合が与えられると、ＰＣＡは、点がそれに沿って最も変化する空間内の方向を見つける。少数のこれらの方向を選択し、それらに沿って点を投影することによって、各点のより低次元の記述を得ることができる。次いで、この空間内で、フィンガープリント類似性（例えば、構造的類似性及び／又は熱力学的特性類似性）を有する分子は、互いに近くに位置し、フィンガープリント類似性を欠く分子は、互いに遠くに位置する。この新しい空間は、比較的少数の次元（例えば、３０未満、２０未満、１５未満、１０未満、８未満、又は５未満）を含み得る。この新しい空間は、ＢＳＰ表現又はＧＮＮ（例えば、ＤＶＴ）から導出された埋め込み空間を含む、本明細書で説明される任意の埋め込み空間を含み得る。

【0117】

一例として、訓練セットは、既知の粘度を有する二元イオン液体の表現を含むように定義することができる。訓練セットにおいて表される各二元イオン液体について、陽イオン及び陰イオンは、ＳＭＩＬＥＳ、ＢＳＰ、又は他の適切な表現に変換され得る。次いで、表現は、１０，０００個未満の値、７５００個未満の値、５０００個未満の値、又は２５００個未満の値を有するなど、固定長を有する記述子に変換され得る。イオン液体の単一特徴行列表現は、陰イオン記述子及び陽イオン記述子を連結することによって生成することができる。特徴行列は正規化されてもよい。次に、列間のペアの相関を計算することによって、特徴行列を無相関化することができる。相関分析が２つの列の間の相関を検出する場合（例えば、相関係数が上側閾値を上回るか、又は下側閾値を下回ることを検出することによって）、列のうちの１つは、特徴行列から除去され、別個に記憶されることができる。次に、ベイズ最適化を支援するために、特徴行列の次元数を縮小することができる。次元縮小技術（例えば、主成分分析［ＰＣＡ］などの成分分析）を使用して、各特徴行列及び他の特徴行列を成分のセット及びそれぞれの重み（例えば、説明された分散）に変換することができる。最も高い重み（例えば、説明された分散）に関連する所与の数（例えば、４、５～１０、１０～１５、１５～２０、又は２０～３０などの所定の数）の成分を、イオン液体の次元縮小表現として使用することができる。

【0118】

いくつかの実施形態において、イオン液体の次元数は、ＰＣＡの代わりに本明細書に記載される埋め込み空間を使用することによって縮小され得る。イオン液体は、ｍｏｒｄｒｅｄ記述子を使用して、又はＢＳＰベースの埋め込みで表すことができ、類似の分子を互いに近接してマッピングする記述子である。次元数は、ＰＣＡなどの技術を使用して縮小され得る。

【0119】

ＶＩ．Ｂ．離散サンプリングを用いた反応条件のベイズ最適化
次元数が縮小された空間内で、ガウス過程を介したベイズ最適化を使用して、特性（例えば、変換率又は収率などの出力）が空間全体にわたってどのように変化するかを特徴付ける際に実験データが特に有益である空間内の個々の位置を検出することができる。例えば、空間内の各位置は、イオン液体に対応してもよく、ユースケースは、解重合反応の変換率及び収率を決定することを含んでもよい。

【0120】

関数は、初期訓練データセット及びガウス過程（ＧＰ）によって決定されたデータを使用して、次元数が縮小された空間全体にわたって出力がどのように変化するかを推定するように構築される。初期訓練データセットは、複数のイオン液体の各々についての所与の特性の測定値を含み得る。複数のイオン液体に対応する次元数が縮小された空間内の位置が識別され、複数のイオン液体の特性及び位置（次元数が縮小された空間内）を使用してガウス過程事前分布が定義される。次いで、シード実験に対応する位置及び特性を用いてガウス過程事前分布を更新することによって、１つ以上の位置の各々における実験結果の尤度を計算することによって、事後分布が形成される。事後分布及び指定された取得関数を使用して、全ての最適化ハイパーパラメータが設定されている取得関数の具体的な形である効用関数を構築することができる。効用関数の最高値に関連する空間内の位置を選択することができ、（イオン液体及び反応パラメータの所与の特性の測定値を収集するために）その位置に対応するイオン液体及び他の反応パラメータを次の実験のために識別することができる。実験データが収集された後、事後分布を測定値で更新することができ、効用関数を更新することができ、更なる実験データ収集のために異なる位置を識別することができる。

【0121】

図２５は、ベイズ最適化とベンチトップ実験との間の相互作用を示す。ベイジアンオプティマイザ２５０４の初期出力は、ボックス２５０８に示されるパラメータの値を提供してもよい。これらのパラメータは、イオン液体の同一性（例えば、陽イオン及び陰イオン）、温度Ｔ、イオン液体割合、及び溶媒割合を含んでもよい。ベンチトップ（又は他のスケール）実験２５１２が実施され得る。ベンチトップ実験は、収率の値を提供することができる（ボックス２５１６）。この収率は、イオン液体の同一性、温度Ｔ、イオン液体割合、及び溶媒割合に関連付けられる。収率は、ベイジアンオプティマイザ２５０４をシードするために使用され、プロセスは、ベイジアンオプティマイザ２５０４が収束するか、又は最適化制約（例えば、反復の数）が満たされるまで繰り返される。オプティマイザは、分子の多次元表現を生成するモデルによって作成された学習された埋め込みにおける縮小された次元を通してナビゲートすることができる。モデルは、埋め込み空間に基づいて完全に新しい分子を推奨することができる。変分オートエンコーダの埋め込み空間は、最適化ルーチンをシードするために使用され得る。

【0122】

図２６は、離散サンプリング、ｘ_ｏｂｓを使用するＧＰ反復ループを介したベイズ最適化プロセスを示す。より太い線２６０４、２６０６、２６０８、及び２６１０は、事後分布２６１６を構築するために使用される実験結果２６１２のシードセットで始まるループを示す。緑色の点（例えば、点２６２０）はｘ_ｏｂｓであり、赤色の点（例えば、点２６２４）は、全てシード実験（ｘ_ｓ）である。全てのシード実験で訓練された効用（グラフ２６２８に示されている）は、全てのｘ_ｏｂｓについて計算される。星印２６３２における次の実験ｘ_{ｐｒｏｂｅ}は、ｘ_{ｐｒｏｂｅ}が最も高い効用を有するため、ｘ_ｏｂｓから選ばれる。ｘ_{ｐｒｏｂｅ}が以前に提案されている場合、事後分布２６１６が変化しないので、最適化は解に収束している（ボックス２６３６）。ｘ_{ｐｒｏｂｅ}が以前に提案されていない場合、ループは、より太い線２６０４、２６０６、２６０８、及び２６１０に続いて継続する。離散サンプリングは、パラメータの値が連続的であり得る場合であっても、ベイズ最適化において適用され得る。

【0123】

まず、ガウス過程事前分布が構築される。ガウス過程（ＧＰ）は、Ｎ個の点の任意の有限セット｛ｘ_ｎ∈Ｘ｝_ｎ＝１ ^ＮがＲ^Ｎ上に多変量ガウス分布を誘発するという特性によって定義される。ブラックボックス関数ｆ（ｘ）（ボックス２６４０）の代用関数は、Ｒ^Ｎ上でＧＰを仮定するが、事前分布は、ｘ_ｏｂｓと呼ばれる点の特定の有限セットのみを使用して構築される。換言すれば、ｘ_ｎ＝ｘ_ｏｂｓであり、ｘ_ｏｂｓは離散的である。点のセットｘ_ｏｂｓは、実験的に評価された点を含み、実験データを提供する。Ｒ^Ｎは、設計空間を記述し、溶媒タイプ、溶媒濃度、溶媒比、及び反応温度のようなパラメータを含み得る。

【0124】

第２に、事後分布が構築される（例えば、事後分布２６１６）。シード実験は、｛ｘ_ｓ，ｙ_ｓ｝^Ｎ _ｓ＝１の形式であり、ｘ_ｓ及びｙ_ｓは、Ｎ個の場合（すなわち、ｘ_ｓは実験条件のセットであり、ｙ_ｓは観察結果である）についての既知の実験結果である。｛ｘ_ｓ，ｙ_ｓ｝^Ｎは、訓練セットと考えることができる。ブラックボックス関数ｆ（ｘ）は、ｙ_ｓ～Ｎｏｒｍａｌ（ｆ（ｘ_ｓ），ν）及びνが観測可能なｘ_ｓによって導入されたノイズの分散である場合にＧＰ事前分布から引き出されると仮定すると、関数上に事後分布が形成される。シード実験は、事後分布を構築するために供給される必要がある。シード実験は、観測値のサブセット（ｘ_ｓ⊂ｘ_ｏｂｓ）である。

【0125】

第３に、次の実験が決定される。次いで、指定された取得関数と共に事後分布を使用して、全ての最適化ハイパーパラメータが設定された取得関数の具体的な形である効用関数、Ｕ（ｘ_ｓ）を構築する。実施形態では、取得関数は、最適化の過程にわたってｒｅｇｒｅｔを最小化するＧＰ信頼上限（ＵＣＢ）であってもよい。

【数3】

【0126】

κは、調査対活用の程度に対応する（低カッパは活用を示し、高カッパは調査に対応する）。θは、ＧＰリグレッサのハイパーパラメータである。次の実験は、プロキシ最適化を介して提案される：

【数4】

【0127】

第４に、ｘ_{ｐｒｏｂｅ}が与えられると、ブラックボックス関数が評価され、ｆ（ｘ_{ｐｒｏｂｅ}）を取得する。ブラックボックス関数は、本明細書に記載された例のように、ｘ_{ｐｒｏｂｅ}をｆ（ｘ_{ｐｒｏｂｅ}）にマッピングする単純なルックアップであってもよい。試験中、実際の実験を実行することによって、ｆ（ｘ_{ｐｒｏｂｅ}）が得られる。上記の第２のステップと同様に、事後分布は、ｆ（ｘ_{ｐｒｏｂｅ}）の結果を考慮して更新されてもよい。次の実験を決定する第３のステップは、更新された事後分布に対して繰り返されてもよい。次に、新しいｆ（ｘ_{ｐｒｏｂｅ}）でブラックボックス関数を評価する第４のステップを繰り返すことができる。ｘ_{ｐｒｏｂｅ}がｘ_ｓのセット内にある場合、最適化が収束したと考えられるので、ベイズ最適化ループは終了し得る。

【0128】

ＶＩ．Ｃ．例示的な方法
図２７は、イオン液体ベースの解重合最適化に関連する例示的プロセス２７００のフローチャートである。

【0129】

ブロック２７１０において、プロセス２７００は、複数の第１のデータ要素を含む第１のデータセットにアクセスすることを含み得る。複数の第１のデータ要素の各々は、解重合反応を特徴付けることができる。各第１のデータ要素は、解重合の反応物の構造の埋め込み表現と、反応物と特定のポリマーとの間の反応を特徴付ける反応特性値とを含んでもよい。反応物の構造の埋め込み表現は、埋め込み空間内の座標値のセットとして識別されてもよい。例えば、埋め込み空間は、ＳＭＩＬＥＳ又はＢＳＰ表現から符号化されてもよく、及び／又は本明細書で説明される任意の埋め込み空間であってもよい。埋め込み空間は、相対分散の少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９９％、又は１００％をキャプチャすることができる。

【0130】

いくつかの実施形態では、埋め込み空間は、ＰＣＡから決定された主成分を使用することができる。ＳＭＩＬＥＳ、ＢＳＰ、又は他の表現は、構造に基づいて特性情報を提供することができる記述子に変換することができる。一例として、１，０００～１５００、１５００～２０００、又は２０００～３０００の固定長を有するｍｏｒｄｒｅｄ記述子が使用され得る。次いで、プロセス特徴行列を縮小して、重複エントリ及び空エントリを除去することができる。いくつかの実施形態では、０の値が空エントリに代入されてもよい。特徴行列が取得され得る。特徴行列は正規化されてもよい。特徴行列は、所定の閾値（例えば、０．４、０．５、０．６、０．７、０．８、又は０．９）よりも大きい、及び／又は所定の閾値の負数よりも小さいペアの相関係数を有する列を除去することによって無相関化され得る。ＰＣＡは、結果として得られる特徴行列に対して使用され得る。ＰＣＡは、３、４、５、５～１０、１０～１５、１５～２０、２０～３０、又は３０個を超える主成分（ＰＣ）をもたらし得る。

【0131】

埋め込み表現は、解重合反応における反応物のセットのうちの反応物の特性を含んでもよい。反応物の特性は、粘度、活量係数、結合タイプ、形成エンタルピー、燃焼熱、又はそれらから導出される特性を含み得る。複数の第１のデータ要素内の反応物は、本明細書で説明される任意のものを含む、イオン液体を含んでもよい。いくつかの実施形態において、反応物はまた、本明細書に記載される任意のものを含む溶媒、及び／又は解重合されるポリマーを含んでもよい。既知の粘度を有する二元イオン液体のための米国国立標準技術研究所（ＮＩＳＴ）データベースなどの好適なデータベースに問い合わせて、特性情報を提供することができる。

【0132】

第１のデータセットは、ベイズ最適化のためのシードデータであってもよい。第１のデータ要素は、解重合反応を記述することに関連付けられた変数を含み得る。

【0133】

反応特性値は、解重合反応の出力を特徴付けることができる。出力は、収率、生成物の量、生成物の変換率、選択性、及び／又は利益を含み得る。出力は、反応入力を使用して実験を行う前には知られていないが、実験を行った後には知られている場合がある。コンピューティングデバイスは、第１のデータセットにアクセスし得る。

【0134】

いくつかの実施形態では、複数の第１のデータ要素は、解重合反応の動作条件を特徴付ける反応入力値を含んでもよい。例えば、反応入力変数は、時間、温度、比（例えば、イオン液体対溶媒）、量、コスト、及び／又は圧力を含み得る。複数の第１のデータ要素はまた、埋め込まれても埋め込まれなくてもよい、溶媒の表現を含んでもよい。

【0135】

いくつかの実施形態では、第１のデータセットは、本明細書に記載されるように決定された候補分子を使用する実験から生成され得る。例えば、候補分子は、本明細書で説明される埋め込み空間及び変分オートエンコーダを使用して決定され得る。

【0136】

ブロック２７２０において、プロセス２７００は、反応物構造の埋め込み表現から反応特性値を予測するための予測関数を構築することを含み得る。予測関数を構築することは、第１のデータセットを使用し得る。ベイズ最適化に関して、予測関数は、目的関数、ブラックボックス関数、代用関数、又はガウス過程事前分布であってもよい。関数は、図２６の事後分布２６１６に関して示されるグラフと同様に、第２の入力データセットに関する確率分布を有する第１の入力データセットに関するいくつかの設定点を有し得る。予測関数は、少なくとも部分的に、ベイズ最適化を使用して選択された分子のセットに対応する訓練データを使用して構築され得る。コンピューティングデバイスは、関数を構築することができる。

【0137】

予測関数を構築することは、第１のデータセットに存在しない反応特性値及び／又は反応入力を推定することを含んでもよい。これらの反応特性値及び／又は第１のデータセットに存在しない反応入力値は、パラメータ（例えば、時間、温度、比率、量、埋め込み空間）が連続的であっても、離散値であってもよい。推定反応特性値及び／又は反応入力値は、ガウス過程によって決定されてもよい。

【0138】

１つ以上の特定の点は、予め定義された離散点であってもよい。例えば、特定の点は、埋め込み空間内にいかなる値も含まないことがあるが、代わりに、１つ以上の特定の点は、埋め込み空間内のいくつかの値のみに限定され得る。埋め込み空間内のこれらの値は、現場の在庫に物理的に存在するか、又は試験されるために利用可能な分子（例えば、イオン液体）に対応し得る。事前定義とは、予測関数が構築される前、又は効用関数が評価される前に決定される１つ以上の特定の点を指すことがある。いくつかの実施形態では、１つ以上の特定の点のうちの１つ以上の特定の点は、複数の第１のデータ要素における埋め込み空間内の座標値のいずれのセットとも同じではない。

【0139】

ブロック２７３０において、プロセス２７００は、効用関数を評価することを含み得る。効用関数は、埋め込み空間内の所与の点を、所与の点について実験的に導出された反応物特性値を識別することが、反応物特性値の精度を改善すると予測される程度を表す効用メトリックに変換することができる。効用関数は、取得関数を評価することによって評価され得る。取得関数は、最適化の過程にわたってｒｅｇｒｅｔを最小化することができる。取得関数は、ＧＰ信頼上限（ＵＣＢ）であってもよい。取得関数は、本明細書で説明される任意の取得関数であり得る。効用関数は、全ての最適化ハイパーパラメータが設定された取得関数の具体的な形式であってもよい。効用関数は、調査及び活用の程度に関するパラメータを含むことができる。効用関数は、本明細書で説明される任意の効用関数であり得る。グラフ２６２８は、効用関数を示す。コンピューティングデバイスは、効用関数を評価することができる。

【0140】

ブロック２７４０において、プロセス２７００は、効用関数に基づいて、埋め込み空間内の１つ以上の特定の点を、高い効用メトリックに対応するものとして識別することができる。例えば、図２６において、グラフ２６２８は、最大値を示す星印２６３２を有する効用関数を示す。その最大値に関連付けられた値は、１つ以上の特定の点のうちの１つの点であり得る。

【0141】

ブロック２７５０において、プロセス２７００は、コンピューティングデバイスによって、１つ以上の特定の点のうちの各特定の点について、特定の点に対応する反応物又は特定の点に対応する反応物構造を識別する結果を出力することを含み得る。結果はユーザに表示されてもよい。

【0142】

いくつかの実施形態では、１つ以上の特定の点を識別することは、１つ以上の反応特性値を高効用メトリックに対応するものとして識別することを更に含む。出力は、１つ以上の反応特性値を含む実験手順を含んでもよい。例えば、出力は、反応条件を含み得る。いくつかの実施形態では、プロセス２７００は、識別された反応特性値及び／又は反応入力値を用いて実験を行うことを含んでもよい。

【0143】

いくつかの実施形態において、プロセス２７００は、反応物の量を含む在庫データストアにアクセスすることを含む。例えば、在庫データストアは、イオン液体又は溶媒の量を含み得る。量は、調整された量を決定するために、１つ以上の特定の点を使用して調整され得る。例えば、１つ以上の特定の点は、ｎキログラムのイオン液体Ａを使用することに対応し得、プロセス２７００は、在庫データストア内のＡの量からｎキログラムのＡを減算することを含む。プロセス２７００は、調整された量を閾値と比較することを含んでもよい。閾値は、０であってもよく、又は実験に容易に利用可能な最小量を反映する何らかの量であってもよい。調整された量が閾値未満である場合、反応物の追加量について注文が出力され得る。注文は、コンピューティングデバイスから、反応物の購入を管理する別のコンピューティングデバイスに送信されるメッセージであってもよい。

【0144】

いくつかの実施形態において、プロセス２７００は、１つ以上の特定の点が、複数の第１のデータ要素における埋め込み空間内の座標値のセットのうちの１つ以上の座標値と等価であると判定することを含んでもよい。プロセス２７００は、１つ以上の特定の点が収束解を表すことを伝えるメッセージを出力することを更に含むことができる。コンピューティングデバイスは、ベイズ最適化を終了することができる。例えば、効用関数は再び評価されなくてもよい。

【0145】

いくつかの実施形態では、第１のデータセットは、効用関数を使用して以前に識別された点を含み得る。複数の第１のデータ要素における少なくとも１つの反応特性値を決定するために、効用関数を使用して以前に識別された点を使用して実験が実行されていてもよい。

【0146】

いくつかの実施形態では、本方法は、第２のデータセットを使用して予測関数を更新することを含んでもよい。第２のデータセットは、複数の第２のデータ要素を含み得る。第２のデータ要素は、第１のデータ要素と同じデータ要素を含んでもよい。複数の第２のデータ要素の一部は、出力された結果によって識別される反応物又は反応物構造を使用して実験を実行することから決定され得る。

【0147】

プロセス２７００は、以下で、及び／又は本明細書の他の場所で説明された１つ以上の他のプロセスに関して説明した、任意の単一の実装形態、又は実装形態の任意の組合せなどの、追加の実装形態を含んでもよい。

【0148】

図２７はプロセス２７００の例示的なブロックを示すが、いくつかの実装形態では、プロセス２７００は、図２７に示されたもの以外に、追加のブロック、より少数のブロック、異なるブロック、又は異なって構成されたブロックを含んでもよい。追加的又は代替的に、プロセス２７００のブロックのうちの２つ以上が並列に実行されてもよい。

【0149】

実施形態はまた、プロセス２７００によって識別された１つ以上の特定の点に対応する反応物並びに反応特性値及び／又は反応入力値を用いて実験を行うことから生じる解重合生成物を含んでもよい。

【0150】

実施形態はまた、実験を行う方法を含んでもよい。本方法は、プロセス２７００によって識別された１つ以上の特定の点に対応する反応物質及び／又は反応入力値を用いて実験を行うことを含み得る。

【0151】

実施形態はまた、イオン液体及び／又は溶媒を含む反応物を取得する方法を含んでもよい。反応物若しくは溶媒の同一性及び／又は反応物若しくは溶媒の量は、プロセス２７００によって識別された１つ以上の特定の点に対応する反応物及び／又は反応入力値によって決定されてもよい。

【0152】

実施形態はまた、プロセス２７００によって識別された後に取得される反応物及び／又は溶媒を含んでもよい。

【0153】

ＶＩ．Ｄ．例示的な実装形態
ベイズ最適化のためにイオン液体の次元数を縮小するための手法が記載される。加えて、縮小された次元数を使用し、離散サンプリング手法をＧＰを介してベイズ最適化に適用する３つの例が提供される。混合エンタルピーは、モル分率及び化学空間にわたって最小化される。更に、ベイズ最適化手法は実際の解重合実験で試験され、結果は、プロセスがポリ乳酸（ＰＬＡ）変換率及び収率を予測するのに十分に機能することを示す。

【0154】

ＶＩ．Ｄ．１．次元縮小
次元縮小の例を説明する。イオン液体に関する物理的特性情報（例えば、粘度）にアクセスすることができる。例えば、ｐｙｉｌｔ２ｒｅｐｏｒｔ（ｗｇｓｅｒｖｅ．ｄｅ／ｐｙｉｌｔ２／ｐｙｉｌｔ２ｒｅｐｏｒｔ．ｈｔｍｌ）（２０２１年９月１５日にアクセス）を使用して、既知の粘度を有する全ての二元イオン液体（ＩＬ）について、米国国立標準技術研究所（ＮＩＳＴ）に問い合わせた。

【0155】

イオン液体中の陽イオン及び陰イオンを、国立衛生研究所（ＮＩＨ）のＰｏｗｅｒＵｓｅｒＧａｔｅｗａｙ（ＰＵＧ）ウェブインタフェースなどのルックアップテーブルに問い合わせることによって、ＳＭＩＬＥＳ表現に変換した。

【0156】

ＳＭＩＬＥＳ表現は、ｍｏｒｄｒｅｄ記述子（ｇｉｔｈｕｂ．ｃｏｍ／ｍｏｒｄｒｅｄ－ｄｅｓｃｒｉｐｔｏｒ／ｍｏｒｄｒｅｄ）（２０２１年９月１５日にアクセス）に変換され、その各々は１，８２６の固定長のベクトルであった。陰イオンｍｏｒｄｒｅｄ記述子を、二元ＩＬの陽イオンｍｏｒｄｒｅｄ記述子に付加した。ＮａＮ（数字ではない）値は０で埋められた。形状１１７×３，６５２の矩形特徴行列を作成した。３，６５２の長さは、陽イオン及び陰イオンの両方についてベクトルを付加した結果として、１，８２６の固定長の２倍である。１１７は、データセット内の二元ＩＬの数である。

【0157】

特徴行列は、サイズが縮小され得る。３，６５２列の各々について、それらの対応する平均を減算し、ｎ－１（例えば、１１６）で除算した。この正規化は、単にそれらの値の大きさが他の列よりも高いために有意であるように見える列を回避することができる。特徴行列は、列のペアの相関を計算し、相関係数＞０．５又は相関係数＜－０．５を有する列を除去することによって無相関化された。特徴行列は、高い相関に基づく重複である列インデックスを含み、重複する各列のうちの１つを保持した。各列を順番に取り出し、他の全ての列との列の相関を計算した。高い相関を有するこれらの他の列のいずれも除去される。相関を分析し、列を除去するプロセスは、残りの列について繰り返される。この例では、無相関化の後、特徴行列は形状１１７×２６を有する。

【0158】

この処理された特徴行列に対して主成分分析（ＰＣＡ）を実行した。最初の４つの主成分（ＰＣ）は、相対分散の９５％超をキャプチャした。これら４つの主成分をベイズ最適化に使用した。

【0159】

要約すると、化学空間の変換を容易にするために使用される４つの情報が集められた：（１）列を正規化する際に使用するための二元ＩＬデータセットにおける列の平均、（２）データベースにおいてアクセス可能な二元サンプル、（３）組み合わされた陽イオン記述子及び陰イオン記述子からの高度に相関した列、及び（４）無相関化後の特徴行列からの主成分。

【0160】

ＰＣによって提供される縮小された次元数は、ベイズ最適化プロセスにおいて使用された。全ての観測値（例えば、図２６のｘ_ｏｂｓ及びｘ_ｓ）は、ｒｘｎＤａｔａ及びｒｘｎＤａｔａＲｅｓｕｌｔｓと呼ばれるアレイに格納された。４つのＰＣに対応する列（ｉｌＰＣ１、ｉｌＰＣ２、ｉｌＰＣ３、ｉｌＰＣ４）は、ｒｘｎＤａｔａに含まれる。加えて、ｒｘｎＤａｔａは、溶媒の選択など、ＩＬの単なる選択よりも多くの変数を有した。より一般的には、ガウス過程（ＧＰ）で使用されるｒｘｎＤａｔａの列が、ベイズ最適化で使用される。同様に、ｒｘｎＤａｔａＲｅｓｕｌｔｓは、２つ以上の標的列（例えば、収率及び変換率）を有することができる。第１の標的値が訓練に使用された。

【0161】

ＭＩＴライセンスを介して利用可能なオープンソースのＢａｙｅｓｉａｎＯｐｔｉｍｉｚａｔｉｏｎ（ｇｉｔｈｕｂ．ｃｏｍ／ｆｍｆｎ／ＢａｙｅｓｉａｎＯｐｔｉｍｉｚａｔｉｏｎ）（２０２１年９月１５日にアクセスされた）パッケージが使用され得る。パッケージは、アレイのカスタム入力に適合させた。

【0162】

ガウス過程事前分布は、本明細書で説明されるように構築された。滑らかに変化する（すなわち、２回微分可能）関数を表すための標準的な選択肢である、ν＝２．５のＭａｔｅｒｎカーネルを使用した。（例えば、事後分布２６１６で説明したように）事後分布が構築される。次の実験を決定する。指定された取得関数と共に事後分布を使用して、全ての最適化ハイパーパラメータが設定された取得関数の具体的な形である効用関数、Ｕ（ｘ_ｓ）を構築した。使用した取得関数は、これは最適化の過程にわたってｒｅｇｒｅｔを最小化する、ＧＰ信頼上限（ＵＣＢ）である：

【数5】

効用関数はパラメータκ＝２．５７６，ｘ_ｉ＝０を有していた。

【0163】

ＶＩ．Ｄ．２．モル分率及び温度にわたる混合エンタルピーの最小化
ベイズ最適化を適用して、イオン液体と溶媒のペアを混合する最低エンタルピーを決定した。上記で決定されたイオン液体のＰＣを、ベイズ最適化に使用した。最も低い混合エンタルピーは、混合が最も有利であることを示す。ＮＩＳＴデータベースにおける全ての二元混合物の混合エンタルピーに関するデータを収集した。データは、２１４ＩＬ及び溶媒ペアに相当し、各ペアは、溶媒モル分率及び温度の関数として混合エンタルピーについての様々な量のデータを有する。一次では、混合エンタルピーは、正規の溶液混合モデルとして記述することができ：Ｈ_ｍｉｘ＝Ωｘ_Ａｘ_Ｂ、式中、Ωは混合パラメータであり、Ω＞０の場合は混合を好まず、Ω＜０の場合は混合を好む。二元系、ｘ_Ａ＋ｘ_Ｂ＝１を有するので、一次では、混合エンタルピー対モル分率の関係は二次式である。

【0164】

Ω＜０の場合のエンタルピーの最小化は、Ω＞０の場合ほど興味深いものではないため、研究されている（最小値はｘ＝０又はｘ＝１．０で発生する）。図２８Ａ及び２８Ｂは、溶媒モル分率ｘ_ｏｂｓにわたるＨ_ｍｉｘの最小化にベイズ最適化を適用した結果を示す。

【0165】

図２８Ａ及び図２８Ｂは、両方とも同じ効用関数を有する２つのサンプリング手法を示す。ｘ軸はモル分率を示す。上のグラフのｙ軸は、ブラックボックス関数を示す。破線２８０４及び２８０８は、ブラックボックス関数の平均を示す。陰影のある青緑色の領域（例えば、領域２８１２及び２８１６）は、ブラックボックス関数について３σを示す。観測値ｘ_ｓ（例えば、点２８２０及び２８２４）は赤色であり、観測値ｘ_ｏｂｓ（例えば、点２８２８及び２８３２）は緑色である。黄色の星（例えば、星２８３６及び２８５０）は、効用関数を最大化する点であるｘ_{ｐｒｏｂｅ}である。

【0166】

図２８Ａにおいて、最小化は連続空間にわたって行われ、モル分率ｘの全ての値についてｆ（ｘ）の滑らかに変化する評価によって証明された。１０回の反復の終わりに、効用関数が大域的最小値から離れた次の実験（すなわち、星２８３６に対応するモル分率）を示唆するので、ベイズ最適化は解に収束しなかった。

【0167】

図２８Ｂでは、所与の情報（すなわち、緑色の点及び赤色の点によって示されるグラウンドトルース）のみに対するｆ（ｘ）の評価によって証明されるように、最小化が離散空間にわたって行われ、８回の反復の終わりに、大域的最小値であるｘ＝０．２０５２に収束した。

【0168】

この実施例では、ブラックボックス関数としての混合エンタルピーが首尾よく実証された。混合エンタルピーの大域的最小値は、離散サンプリングを用いたベイズ最適化について見出された。他方で、連続的な場合における１０回の反復の終わりまでに、ｘ～約０．６０のモル分率が次の実験として示唆され、これは、８回の反復後の離散的な場合において到達したｘ＝０．２０５２の大域的最小値からかけ離れていた。したがって、離散最適化は、連続最適化よりも効率的かつ安価であった。モル分率は連続変数であり、離散変数ではないので、この結果は驚くべきことであり、モル分率を離散変数として考慮することが、モル分率を連続変数として考慮することよりも効率的かつ安価な最適化をもたらすとは予想されなかった。

【0169】

ＶＩ．Ｄ．３．化学空間にわたる混合エンタルピーの最小化
異なる分子及び化学にわたるＧＰを介したベイズ最適化を行った。上記で決定されたイオン液体のＰＣを、ベイズ最適化に使用した。混合エンタルピーは、離散取得関数のみを使用して、新しいイオン液体及び溶媒ペアの化学空間の全てにわたって最小化される。ブラックボックス関数はこの場合ｆ（ｘ_{ｓｏｌｖｅｎｔ}，Ｔ，ＩＬ，ｓｏｌｖｅｎｔ）＝Ｈ_ｍｉｘであり、式中、ｘ_{ｓｏｌｖｅｎｔ}は溶媒のモル分率であり、Ｔは温度であり、ＩＬはイオン液体であり、ｓｏｌｖｅｎｔは溶媒であり、Ｈ_ｍｉｘは混合エンタルピーである。ブラックボックス関数は、一次でも解析的に書くことができない。

【0170】

ベイズ最適化をシードするために与えられたシード実験のサイズは、「バンドル」と考えられた。各「バンドル」は、所与のイオン液体及び溶媒ペア対Ｈ_ｍｉｘについての全てのモル分率及び温度データを含んでいた。バンドルは、プロセス２７００の複数の第１のデータ要素（この例では、イオン液体、溶媒、モル分率）及び関連付けられた１つ以上の出力値（この例では、Ｈ_ｍｉｘ）と同様の情報を含んでもよい。モル分率によってではなく、イオン液体及び溶媒ペアによってバンドルを分離することは、溶媒と共に使用されるイオン液体を購入するコストが、ＩＬに対する溶媒の異なるモル分率を生成するコストよりもはるかに大きいので、シード実験にとって現実的な設定である。換言すれば、ＩＬが購入又は作製される場合、熱力学的データは、モル分率の範囲について容易に利用可能であるか又は入手可能である。

【0171】

表６は、特定のバンドルサイズが与えられた５回の単一追加実験で見出された最小エンタルピーを探索した１００回の試験平均結果を示す。シードバンドルサイズは１から７まで変化した。１００回の試験にわたる平均が、混合の開始最小エンタルピー（バンドル内）と混合の最終エンタルピーとの間の平均差、又は最小化の改善と共に示されている。差が大きいほど、モデルは良好に実験の成功を示唆した。

【0172】

バンドルサイズが大きいほど、実験を提案するために、より多くの化学的及び熱力学的データがモデルに提供された。任意のベイズ最適化が実行される前に、より多くのバンドルを伴うより多くのデータが利用可能であるため、平均最小エンタルピーは、初期シードバンドルサイズの増加と共に減少することが予期される。

【0173】

興味深いことに、平均最小エンタルピーの減少に加えて、平均差（ベイズ最適化提案に基づく改善）もまた、表６に示されるように、より大きなバンドルサイズで増加した。したがって、シードデータとして提供されるより多くの化学情報により、より大きな改善を伴う反応が示唆された。

【0174】

印象的なことに、４つのバンドル及び５つの更なる実験を用いて、このモデルは、化学的空間及び熱力学的空間にわたって探索し、ＮＩＳＴデータベースにおける全ての他の二元混合エンタルピーの９７％より低い混合エンタルピーを生じる条件を見出した（ｎ＝４６７２）。

【表6】

【0175】

ＶＩ．Ｄ．４．ＰＬＡ変換率及び収率の最大化
ポリ乳酸（ＰＬＡ）の解重合にベイズ最適化を適用した。上記で決定されたイオン液体のＰＣを、ベイズ最適化に使用した。変換率（Ｃ）及び収率（Ｙ）は最適化の対象である。変換率は、出発プラスチックの量に対する全生成物の量であり、収率は、出発プラスチックの量に対する標的モノマーの量である。ブラックボックスモデルは次の通りである：

【数6】

【0176】

ＰＬＡの解重合に関する実験（ｎ_ｏｂｓ＝９４）を文献レビューから収集した。これらの精選された実験は、ベイズ最適化のためのｘ_ｏｂｓとして機能した。実験はバイアスされた母集団を表すので（成功した実験は公開され、不成功の実験は公開されない）、ベイズ最適化は現実的な観測空間の影響を受けない。したがって、ベイズ最適化性能は、ベースラインのランダムドローシナリオと比較された。純粋なベイズ手法（１回のシード実験及び５回のベイズ最適化ステップ）を純粋なランダム手法（６回のランダムに選択された実験）と比較し、１００回の試験を平均した。

【0177】

各試験は、全９４回の精選された実験からランダムに抽出されたピッキングｎＳｅｅｄ（シード実験の数）を含んでいた。次に、ｎＥｘｐ（追加の実験）が提案され、「実行」される（この場合、ｒｘｎＤａｔａＲｅｓｕｌｔｓで検索される）。実験の総数を一定に保った。６回の実験の終わりに、最大変換率又は収率を確認した。変換率（収率）が９５％（８５％）を超える場合、試験は成功であった。

【0178】

表７は、変換率及び収率を予測するために１００回の試験を行った結果を示す。ベイズ最適化からの１００回の試験平均（ｎＳｅｅｄ／ｎＥｘｐ＝１／５）を、ランダムドロー（ｎＳｅｅｄ／ｎＥｘｐ＝６／０）と比較した。変換率の結果は左側にあり、収率の結果は右側にある。成功率（％）は、最大化された反応が変換率については９５％超であり、収率については８５％超である平均尤度である。差は、ｎＳｅｅｄの最大値とプロセス全体の最大値との平均差である（ｎＳｅｅｄ、ｎＥｘｐ）。ｎＳｅｅｄ／ｎＥｘｐ＝６／０において反復がないので、差分は０％である。

【表7】

【0179】

これらの結果に基づいて、純粋なベイズ手法が最も成功した手法であり（変換率について１００％の成功率、収率について９９％の成功率）、ベイズモデルは、バイアスされたデータセットにもかかわらず、ランダムドローより性能が優れていた。

【0180】

ＶＩ．Ｄ．５．混合廃棄物の解重合
ベイズ最適化手法は、混合廃棄物（ＰＥＴ／ＰＬＡ混合物など）、汚染廃棄物（変換率及び収率を縮小させることが予想される現実世界の課題）、及び学術研究においてまだ対処されていない非常に見落とされた廃棄物流（黒色プラスチック）を解重合するための反応に適用される。本明細書に記載されるイオン液体の埋め込み空間は、解重合反応を最適化する際に使用される。

【0181】

ＶＩＩ．システム環境
図２９は、本開示のいくつかの実施形態として実装されるコンピューティングシステム２９００の例示的なアーキテクチャである。コンピューティングシステム２９００は、好適なコンピューティングシステムの一例にすぎず、本開示の使用又は機能の範囲に関していかなる限定も示唆することを意図していない。また、コンピューティングシステム２９００は、コンピューティングシステム２９００に示される構成要素のいずれか１つ又は組合せに関連する何らかの依存関係又は要件を有するものとして解釈されるべきではない。

【0182】

図２９に示すように、コンピューティングシステム２９００は、コンピューティングデバイス２９０５を含む。コンピューティングデバイス２９０５は、クラウド環境内などのネットワークインフラストラクチャ上に常駐することができ、又は別個の独立したコンピューティングデバイス（例えば、サービスプロバイダのコンピューティングデバイス）であり得る。コンピューティングデバイス２９０５は、バス２９１０と、プロセッサ２９１５と、記憶デバイス２９２０と、システムメモリ（ハードウェアデバイス）２９２５と、１つ以上の入力デバイス２９３０と、１つ以上の出力デバイス２９３５と、通信インタフェース２９４０と、を含み得る。

【0183】

バス２９１０は、コンピューティングデバイス２９０５の構成要素間の通信を可能にする。例えば、バス２９１０は、コンピューティングデバイス２９０５の様々な他の構成要素へ、そこから、又はそれらの間でデータ及び／又は電力を転送するための１つ以上の有線若しくは無線通信リンク又は経路を提供するために様々なバスアーキテクチャのいずれかを使用する、メモリバス又はメモリコントローラ、周辺バス、及びローカルバスを含むいくつかのタイプのバス構造のいずれかであり得る。

【0184】

プロセッサ２９１５は、本開示の機能、ステップ、及び／又はパフォーマンスを実行するためのコンピューティングデバイス２９０５の様々な他の構成要素のうちの１つ以上の動作及び性能を制御するためのプログラム命令などのコンピュータ可読プログラム命令を解釈及び実行するように動作可能な処理回路を含む、１つ以上のプロセッサ、マイクロプロセッサ、又は特殊化された専用プロセッサであり得る。特定の実施形態では、プロセッサ２９１５は、コンピュータ可読プログラム命令によって動作可能に実行され得る本開示のプロセス、ステップ、機能、及び／又は動作を解釈及び実行する。例えば、プロセッサ２９１５は、イオン液体特性を検索、例えば、インポート及び／又は別様に取得若しくは生成し、分子情報を埋め込み空間内に符号化し、埋め込み空間内の点を分子内に復号し、予測関数を構築し、効用関数を評価することができる。実施形態では、プロセッサ２９１５によって取得又は生成された情報は、記憶デバイス２９２０に記憶され得る。

【0185】

記憶デバイス２９２０は、磁気及び／又は光記録媒体並びにそれらの対応するドライブなどの非一時的機械可読記憶媒体などの、リムーバブル／非リムーバブル、揮発性／不揮発性コンピュータ可読媒体を含むことができるが、これらに限定されない。ドライブ及びそれらの関連するコンピュータ可読媒体は、本開示の異なる態様によるコンピューティングデバイス２９０５の動作のためのコンピュータ可読プログラム命令、データ構造、プログラムモジュール、及び他のデータの記憶を提供する。実施形態において、記憶デバイス２９２０は、本開示の態様に従って、オペレーティングシステム２９４５、アプリケーションプログラム２９５０、及びプログラムデータ２９５５を記憶し得る。

【0186】

システムメモリ２９２５は、例えば、フラッシュメモリなどの非一時的機械可読記憶媒体、読み取り専用メモリ（「ＲＯＭ」）などの永久メモリ、ランダムアクセスメモリ（「ＲＡＭ」）などの半永久メモリ、任意の他の好適なタイプの非一時的記憶構成要素、又はそれらの任意の組合せを含む、１つ以上の記憶媒体を含み得る。いくつかの実施形態では、起動中などにコンピューティングデバイス２９０５の様々な他の構成要素間で情報を転送するのを助ける基本ルーチンを含む入力／出力システム２９６０（ＢＩＯＳ）が、ＲＯＭに記憶され得る。加えて、オペレーティングシステム２９４５、プログラムモジュール、アプリケーションプログラム２９５０、及び／又はプログラムデータ２９５５の少なくとも一部分などのデータ及び／又はプログラムモジュール２９６５は、プロセッサ２９１５によってアクセス可能であり、及び／又は現在操作されており、ＲＡＭ内に含まれ得る。実施形態では、プログラムモジュール２９６５及び／又はアプリケーションプログラム２９５０は、例えば、スペクトルデータを識別及び注釈付けするための処理ツール、データ構造にメタデータを付加するためのメタデータツール、並びにスペクトルを予測するための１つ以上のエンコーダネットワーク及び／又はエンコーダ－デコーダネットワークを含むことができ、これはプロセッサ２９１５の実行のための命令を提供する。

【0187】

１つ以上の入力デバイス２９３０は、オペレータがコンピューティングデバイス２９０５に情報を入力することを可能にする１つ以上の機構を含み得、タッチパッド、ダイヤル、クリックホイール、スクロールホイール、タッチスクリーン、１つ以上のボタン（例えば、キーボード）、マウス、ゲームコントローラ、トラックボール、マイクロフォン、カメラ、近接センサ、光検出器、モーションセンサ、バイオメトリックセンサ、及びこれらの組合せを含むが、これらに限定されない。１つ以上の出力デバイス２９３５は、オーディオスピーカ、ヘッドフォン、オーディオラインアウト、ビジュアルディスプレイ、アンテナ、赤外線ポート、触覚フィードバック、プリンタ、又はそれらの組合せなど、情報をオペレータに出力する１つ以上の機構を含み得るが、これらに限定されない。

【0188】

通信インタフェース２９４０は、コンピューティングデバイス２９０５が、モバイルデバイスなどのリモートデバイス又はシステム、あるいは例えばクラウド環境などのネットワーク化された環境内のサーバなどの他のコンピューティングデバイスと通信することを可能にする、任意の送受信機のような機構（例えば、ネットワークインタフェース、ネットワークアダプタ、モデム、又はそれらの組合せ）を含み得る。例えば、コンピューティングデバイス２９０５は、通信インタフェース２９４０を使用して、１つ以上のローカルエリアネットワーク（local area network、ＬＡＮ）及び／又は１つ以上のワイドエリアネットワーク（wide area network、ＷＡＮ）を介してリモートデバイス又はシステムに接続され得る。

【0189】

本明細書で説明されるように、コンピューティングシステム２９００は、構造文字列として得られた材料の構造表現から特徴的なスペクトル特徴を予測するためにエンコーダ－デコーダネットワークを訓練するように構成され得る。特に、コンピューティングデバイス２９０５は、システムメモリ２９２５などの非一時的機械可読記憶媒体に含まれるプログラム命令をプロセッサ２９１５が実行することに応答して、タスク（例えば、プロセス、ステップ、方法及び／又は機能）を実行し得る。プログラム命令は、データ記憶デバイス２９２０などの別のコンピュータ可読媒体（例えば、非一時的機械可読記憶媒体）から、又は通信インタフェース２９４０若しくはクラウド環境内若しくは外のサーバを介して別のデバイスから、システムメモリ２９２５に読み込まれ得る。実施形態では、オペレータは、１つ以上の入力デバイス２９３０及び／又は１つ以上の出力デバイス２９３５を介してコンピューティングデバイス２９０５と対話して、本開示の態様によるタスクの実行を容易にし、かつ／又はそのようなタスクの最終結果を実現し得る。追加又は代替実施形態では、本開示の異なる態様と一致するタスク、例えば、ステップ、方法、及び／又は機能を実行するために、プログラム命令の代わりに、又はプログラム命令と組み合わせて、ハードワイヤード回路が使用され得る。したがって、本明細書で開示されるステップ、方法、及び／又は機能は、ハードウェア回路及びソフトウェアの任意の組合せで実行され得る。

【0190】

本開示のいくつかの実施形態は、１つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムが、１つ以上のデータプロセッサ上で実行されたときに、１つ以上のデータプロセッサに、本明細書に開示された１つ以上の方法の一部若しくは全部及び／又は１つ以上のプロセスの一部又は全部を実施させる命令を含む、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品を含み、１つ以上のデータプロセッサに、本明細書に開示された１つ以上の方法の一部若しくは全部及び／又は１つ以上のプロセスの一部若しくは全部を実施させるように構成された命令を含む。

【0191】

【0192】

説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性、又は構成を限定することを意図されない。むしろ、好ましい例示的な実施形態の説明は、当業者に様々な実施形態を実施することを可能にする説明を提供する。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置において様々な変更がなされ得ることが理解される。

【0193】

具体的な詳細は、実施形態の完全な理解を提供するために、以下の説明に与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図の形態で構成要素として示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。

【0194】

「１つの（a）」、「１つの（an）」又は「その（the）」の記載は、特に反対の指示がない限り、「１つ以上」を意味することが意図される。「又は（or）」を用いた場合、特に反対の記載がない限り、「排他的論理和（含まずに「又は」）」ではなく「包含的論理和（含んで「又は」）」を意味することが意図されている。「第１の」構成要素に言及した場合、必ずしも第２の構成要素が提供されるとは限らない。また、「第１の」構成要素又は「第２の」構成要素への言及は、明記がない限り、言及した構成要素を特定の位置に限定しない。用語「～に基づいて（based on）」は「～に少なくとも部分的に基づいて（based at least in part on）」を意味することが意図されている。

【0195】

特許請求の範囲は、任意であり得る任意の要素を除外するように起草され得る。そのため、この記述は、特許請求の範囲の要素の記載又は「否定的な」限定の使用に関連して、「単に」、「のみ」のような排他的な用語などを使用するための前提条件として役立つことが意図される。

【0196】

値の範囲が提供される場合、文脈上明確に指示されない限り、その範囲の上限と下限との間の、下限の単位の１０分の１までの各介在値も具体的に開示されることが理解される。記載された範囲内の任意の記載された値又は介在値と、その記載された範囲内の任意の他の記載された値又は介在値との間の各々のより小さい範囲は、本開示の実施形態内に包含される。これらのより小さい範囲の上限及び下限は、独立して範囲に含まれてもよく、又は除外されてもよく、いずれかの、いずれの、又は両方の限界がより小さい範囲に含まれる各範囲もまた、記載された範囲内の任意の具体的に除外された限界を条件として、本開示内に包含される。記載された範囲が限界の一方又は両方を含む場合、それらの含まれる限界のいずれか又は両方を除外する範囲もまた、本開示に含まれる。

【0197】

本明細書で言及される全ての特許、特許出願、刊行物、及び説明は、あたかも各個々の刊行物又は特許が参照により組み込まれることが具体的かつ個別に示されているかのように、その全体が参照により本明細書に組み込まれ、刊行物が引用される関連する方法及び／又は材料を開示及び説明するために参照により本明細書に組み込まれる。従来技術であると認められるものはない。

【図1A】