(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-06
(54)【発明の名称】特性予測のための分子構造トランスフォーマ
(51)【国際特許分類】
G16C 20/20 20190101AFI20241029BHJP
G16C 20/70 20190101ALI20241029BHJP
【FI】
G16C20/20
G16C20/70
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024529335
(86)(22)【出願日】2022-10-17
(85)【翻訳文提出日】2024-07-12
(86)【国際出願番号】 US2022046893
(87)【国際公開番号】W WO2023096709
(87)【国際公開日】2023-06-01
(32)【優先日】2021-11-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-11-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-11-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-11-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516326438
【氏名又は名称】エックス デベロップメント エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100126480
【氏名又は名称】佐藤 睦
(72)【発明者】
【氏名】ガディヤ,トゥシャルクマール
(72)【発明者】
【氏名】シャー,ファラク
(72)【発明者】
【氏名】ヴィヤス,ニサルグ
(72)【発明者】
【氏名】ヤン,ジュリア
(72)【発明者】
【氏名】ガラカニャン,ヴァヘ
(72)【発明者】
【氏名】ホリデイ,アレクサンダー
(57)【要約】
【課題】イオン液体分子の特性及び/又はイオン液体分子を伴う反応の結果をより良好に予測する。
【解決手段】コンピュータ実装方法は、分子の埋め込みを分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることを含んでもよい。本方法はまた、予測値に基づいて埋め込み空間内の1つ以上の関心点を識別することを含んでもよい。1つ以上の関心点の各々は、多次元埋め込み空間内の座標値のセットを含み得、所与の特性の対応する予測値に関連付けられていてもよい。本方法は、1つ以上の関心点の各々について、デコーダネットワークを使用して、関心点に含まれる座標値のセットを変換することによって、分子の構造表現を生成することを更に含んでもよい。本方法は、1つ以上の関心点の各々について、関心点に対応する分子の構造表現を識別する結果を出力することを含んでもよい。
【選択図】
図4
【特許請求の範囲】
【請求項1】
コンピュータ実装方法であって、
分子の埋め込みを前記分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることと、
前記予測値に基づいて前記多次元埋め込み空間内の1つ以上の関心点を識別することであって、前記1つ以上の関心点の各々は、
前記多次元埋め込み空間内の座標値のセットを含み、
前記分子内の原子又は結合の空間情報を伝達し、
前記所与の特性の対応する予測値に関連付けられている、前記1つ以上の関心点を識別することと、
前記1つ以上の関心点の各々について、デコーダネットワークを使用して、前記関心点に含まれる前記座標値のセットを変換することによって、分子の構造表現を生成することであって、前記デコーダネットワークの訓練は、前記埋め込み空間内の位置を分子構造特性を表す出力に変換する学習を含み、前記デコーダネットワークの前記訓練は、エンコーダネットワークの訓練と少なくとも部分的に同時に実施された、前記分子の構造表現を生成することと、
前記1つ以上の関心点の各々について、前記関心点に対応する前記分子の前記構造表現を識別する結果を出力することと、
を含む、コンピュータ実装方法。
【請求項2】
前記エンコーダネットワークの訓練は、分子の部分的又は完全な結合文字列及び位置(BSP)表現を前記埋め込み空間内の位置に変換する学習を含み、各BSP表現は、前記表現された分子内の結合によって接続された原子の相対位置を識別する、請求項1に記載の方法。
【請求項3】
前記エンコーダネットワークを訓練するために使用される前記分子の各BSP表現は、前記表現された分子内の前記結合によって接続された前記原子の各々についての座標のセットを含み、前記表現された分子内の前記結合によって接続された前記原子の各々を更に識別する、請求項2に記載の方法。
【請求項4】
前記分子の前記BSP表現は、それぞれの分子内の少なくともいくつかの結合の各々について、結合タイプを識別するように、前記エンコーダネットワークを訓練するために使用される、請求項2又は3に記載の方法。
【請求項5】
前記結果において識別される前記構造表現のフォーマットは、前記BSP表現とは異なる、請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記エンコーダネットワークの訓練は、分子の部分的又は完全な分子グラフ表現を前記埋め込み空間内の位置に変換する学習を含み、各分子グラフ表現は、前記表現された分子内の結合の角度及び距離を識別する、請求項1に記載の方法。
【請求項7】
前記デコーダネットワーク及び前記エンコーダネットワークは、セルフアテンションを使用するトランスフォーマモデルを訓練することによって訓練され、前記トランスフォーマモデルは、前記デコーダネットワーク及び前記エンコーダネットワークを含む、請求項1~5のいずれか一項に記載の方法。
【請求項8】
前記デコーダネットワーク及び前記エンコーダネットワークは、アテンションヘッドを含むトランスフォーマモデルを訓練することによって訓練された、請求項1又は6に記載の方法。
【請求項9】
前記エンコーダネットワーク及び前記デコーダネットワークを含む機械学習モデルを、
補足訓練要素のセットにアクセスすることであって、前記訓練要素のセットの各々は、対応する所与の分子の構造の表現を含む、前記補足訓練要素のセットにアクセスすることと、
前記補足訓練要素のセット内の各補足訓練要素について、前記表現の少なくとも一部をマスクして、前記対応する所与の分子の前記構造の少なくとも一部を不明瞭にすることと、
前記機械学習モデルを訓練して、前記構造の前記不明瞭にされた少なくとも一部を予測することと、によって訓練することを更に含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記エンコーダネットワークの訓練は、前記空間内の位置を前記所与の特性の値に対応する予測に変換するように、前記エンコーダネットワークを微調整することを更に含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
システムであって、
1つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体と、を備え、前記命令は、前記1つ以上のデータプロセッサ上で実行されたときに、前記1つ以上のデータプロセッサに、請求項1~10のいずれか一項に記載の方法を実施させる、システム。
【請求項12】
非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、請求項1~10のいずれか一項に記載の方法を実施させるように構成された命令を含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月29日出願の米国仮特許出願第63/264,640号、2021年11月29日に出願された米国仮出願第63/264,641号、2021年11月29日に出願された米国仮出願第63/264,642号、及び2021年11月29日に出願された米国仮出願第63/264,643号の非仮出願であり、その利益を主張し、それらの全ての内容は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
化学における問題は、ある新しい分子の特定の特性を予測することである。分子の特性を予測することは、リサイクルに使用する新しい分子を識別するのに有用である。化学的リサイクルは、プラスチック廃棄物を、それが製造されたモノマー構成要素に分解することを目的とし、ポリマーが、石油由来の再生不可能な投入物に依存する代わりに、化学的にリサイクルされたプラスチックから製造される循環経済を可能にする。プラスチックリサイクルは、廃プラスチック(ポリエチレンテレフタレート(PET)、ポリ乳酸(PLA))をそれらのモノマー成分(ビス(2-ヒドロキシエチル)テレフタレート(BHET)、乳酸塩)に変換して、油に由来するバージンプラスチックを置き換えることを含み得る。イオン液体(IL)は、プラスチックを解重合する有望な能力を示した高度に調整可能なクラスの化学物質であるが、反応収率を改善するために大きなイオン液体設計空間をどのようにナビゲートするかは不明である。
【0003】
解重合に使用する特定のイオン液体を選択することは、困難な作業である。第1に、存在するイオン液体候補の数及び異なる反応条件を考慮すると、適切な条件における全てのイオン液体の特性を実験的に特徴付けることは実行不可能である。より具体的には、イオン液体は、陽イオン及び陰イオン分子の調整可能な選択からなり、実験パラメータを選択するための高次元空間をもたらす。例えば、National Institute of Standards & Technology(NIST)ILThermoデータベースでは、244個の陽イオン及び164個の陰イオンを有する1652個の二元ILが存在する。組合せ的に、これは、NISTデータベースのみから生成される38,364個の追加の新しいILが存在することを意味する。実験条件(3つの溶媒、溶媒に対するイオン液体の5つの比、3つの温度、及び3つの反応時間の調査など)のサンプリングの下で特定のILを選択することは、5,400,000を超える異なる反応条件を含む非常に複雑な反応空間をもたらす。典型的な実験計画法において、ドメイン知識及び文献レビューは、探索空間を縮小させるための要件であるが、このプロセスは費用がかかり、完全な設計空間の評価に役立たない。
【0004】
したがって、イオン液体分子の特性及び/又はイオン液体分子を伴う反応の結果をより良好に予測することができることは、より効率的なリサイクルを容易にし得る。
【0005】
これらの予測を生成するための1つの手法は、機械学習を使用して、新しい分子の表現を予測に変換することである。しかしながら、機械学習は、分子が(例えば、特徴化、フィンガープリンティング、又は埋め込みを介して)数のセットによって表されることを必要とする。
【0006】
しかしながら、分子を数値的に表すための既存の技術は、分子の完全な構造情報をキャプチャすることができない。むしろ、構造情報は、完全に無視されるか、又は部分的にのみ表される。
【発明の概要】
【0007】
いくつかの実施形態は、コンピュータ実装方法を含んでもよい。本方法は、分子の埋め込みを分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることを含んでもよい。本方法はまた、予測値に基づいて多次元埋め込み空間内の1つ以上の関心点を識別することを含んでもよい。1つ以上の関心点の各々は、多次元埋め込み空間内の座標値のセットを含み得、分子内の原子又は結合の空間情報を伝達し得、所与の特性の対応する予測値に関連付けられていてもよい。本方法は、1つ以上の関心点の各々について、デコーダネットワークを使用して、関心点に含まれる座標値のセットを変換することによって、分子の構造表現を生成することを更に含んでもよい。デコーダネットワークの訓練は、埋め込み空間内の位置を分子構造特性を表す出力に変換する学習を含んでいてもよい。デコーダネットワークの訓練は、エンコーダネットワークの訓練と少なくとも部分的に同時に実施されていてもよい。本方法は、1つ以上の関心点の各々について、関心点に対応する分子の構造表現を識別する結果を出力することを含んでもよい。
【0008】
いくつかの実施形態では、エンコーダネットワークの訓練は、分子の部分的又は完全な結合文字列及び位置(BSP)表現を埋め込み空間内の位置に変換する学習を含んでいてもよい。各BSP表現は、表現された分子内の結合によって接続された原子の相対位置を識別してもよい。
【0009】
いくつかの実施形態では、エンコーダネットワークの訓練は、分子の部分的又は完全な分子グラフ表現を埋め込み空間内の位置に変換する学習を含んでいてもよい。各分子グラフ表現は、表現された分子内の結合の角度及び距離を識別することができる。
【0010】
いくつかの実施形態では、デコーダネットワーク及びエンコーダネットワークは、セルフアテンションを使用するトランスフォーマモデルを訓練することによって訓練され得る。トランスフォーマモデルは、デコーダネットワーク及びエンコーダネットワークを含むことができる。
【0011】
いくつかの実施形態では、デコーダネットワーク及びエンコーダネットワークは、アテンションヘッドを含むトランスフォーマモデルを訓練することによって訓練され得る。
【0012】
いくつかの実施形態では、本方法は、補足訓練要素のセットにアクセスすることによって、エンコーダネットワーク及びデコーダ分子を含む機械学習モデルを訓練することを含んでもよい。訓練要素のセットの各々は、対応する所与の分子の構造の表現を含み得る。訓練は、補足訓練要素のセット内の各補足訓練要素について、表現の少なくとも一部をマスクして、対応する所与の分子の構造の少なくとも一部を不明瞭にすることを更に含んでもよい。訓練は、機械学習モデルを訓練して、構造の不明瞭にされた少なくとも一部を予測することを含んでもよい。
【0013】
いくつかの実施形態では、エンコーダネットワークの訓練は、空間内の位置を所与の特性の値に対応する予測に変換するように、エンコーダネットワークを微調整することを更に含んでもよい。
【0014】
いくつかの実施形態では、エンコーダネットワークを訓練するために使用される分子の各BSP表現は、表現された分子内の結合によって接続された原子の各々についての座標のセットを含み得、表現された分子内の結合によって接続された原子の各々を更に識別し得る。
【0015】
いくつかの実施形態では、分子のBSP表現は、それぞれの分子内の少なくともいくつかの結合の各々について、結合タイプを識別するように、エンコーダネットワークを訓練するために使用され得る。
【0016】
いくつかの実施形態では、結果において識別される構造表現のフォーマットは、BSP表現とは異なり得る。
【0017】
いくつかの実施形態では、システムであって、1つ以上のデータプロセッサと、1つ以上のデータプロセッサ上で実行されたときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部又は全てを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を含む、システムが提供される。
【0018】
いくつかの実施形態では、非一時的機械可読記憶媒体で明確に具現化され、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部若しくは全部を実施させるように構成された命令を含むコンピュータプログラム製品が提供される。
【0019】
用いられている用語及び表現は、説明の用語として使用され、限定するものではなく、示され、説明された特徴の任意の均等物、又はその一部分を除外するそのような用語及び表現の使用における意図は存在しないが、特許請求の範囲の本発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び任意選択的な特徴により具体的に開示されているが、本明細書に開示される概念の修正及び変形が、当業者によって行われ得、そのような修正及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
【図面の簡単な説明】
【0020】
本開示は、添付の図面と併せて説明される。
【
図1A】本発明の実施形態によるシプロフロキサシンのSMILES文字列:C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)Oを生成するプロセスの図的表現を示す。
【
図1B】本発明の実施形態によるシプロフロキサシンのSMILES文字列:C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)Oを生成するプロセスの図的表現を示す。
【
図1C】本発明の実施形態によるシプロフロキサシンのSMILES文字列:C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)Oを生成するプロセスの図的表現を示す。
【
図1D】本発明の実施形態によるシプロフロキサシンのSMILES文字列:C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)Oを生成するプロセスの図的表現を示す。
【
図1E】本発明の実施形態によるシプロフロキサシンのSMILES文字列:C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)Oを生成するプロセスの図的表現を示す。
【
図2】本発明の実施形態による、SMILES文字列から単一分子のBSP表現を構築するための例示的なプロセスを示す。
【
図3】本発明の実施形態による、SMILES文字列から反応物/試薬のBSP表現を構築するための例示的なプロセスを示す。
【
図4】本発明の実施形態による、モデル(例えば、トランスフォーマモデル)への入力であるトークン埋め込みを生成するための例示的なプロセスを示す。
【
図5】本発明の実施形態による、分子特性予測のコンテキストにおけるマスクされた結合モデル訓練の描写を示す。入力分子は下部に示され、マスクされた結合は黒色で示されている。これは、BSP表現にマッピングされ、マスクされた結合を特別なマスクトークンで置き換え、エンコーダネットワークに供給される。モデルは、各点における結合の予測を返し、最終的に、マスクされた場所を正確に埋めることを学習する。
【
図6】本発明の実施形態による、構造識別子と埋め込み空間との間で表現を変換するためのエンコーダネットワーク及びデコーダネットワークの例示的な使用を示す。
【
図7】本発明の実施形態によるメッセージパッシンググラフ畳み込み層の図を示す。
【
図8】原子マスキングにおいて、ノードがランダムにマスクされ、GNNがマスクされたノードの正しい標識を予測するように訓練される方法を示す。図は、Hu et al.,arXiv:1905.12265v3に基づく。
【
図9】コンテキスト予測において、サブグラフが選択された中心ノードの周りのKホップ近傍である様子を示しており、ここで、KはGNN層の数である。図は、Hu et al.,arXiv:1905.12265v3に基づく。
【
図10】本発明の実施形態による分子の潜在表現の目的を示す図である。
【
図11】本発明の実施形態による角度及び距離に関する相対位置の計算を示す。
【
図12A】本発明の実施形態によるメッセージ生成及びメッセージ集約を示す。
【
図12B】本発明の実施形態によるメッセージ生成及びメッセージ集約を示す。
【
図13】本発明の実施形態による読み出しアテンション集約を示す。
【
図14】本発明の実施形態による分子特性予測のために使用されるエンコーダネットワークを含むモデルの概要を示す。
【
図15】本発明の実施形態による反応予測モデルを示す。主要な構成要素は、BSP入力に対して動作し、反応生成物を予測するSMILES文字列を返すトランスフォーマベースのアーキテクチャである。
【
図16A】本発明の実施形態による、反応の活性部位のモデルの理解を示す、正しく予測された反応の例を示す。
【
図16B】本発明の実施形態による、反応の活性部位のモデルの理解を示す、正しく予測された反応の例を示す。
【
図18】本発明の実施形態による、その第3の層におけるエンコーダネットワークの第4のヘッドのアテンション重みを示す。
【
図19】本発明の実施形態による、結合文字列表現を構築するための深さ優先探索における分子グラフのトラバースを示す。
【
図20】本発明の実施形態による方向性変分トランスフォーマモデルを示す。
【
図21】本発明の実施形態による分子、埋め込み、及び特性予測の間の関係を示す。
【
図22】本発明の実施形態による化合物を解重合するためのイオン液体を識別するためのプロセスを示す。
【
図23】本発明の実施形態による、分子の周囲の埋め込み空間を調査することから生成されたイオン液体陽イオンを示す。
【
図24】本発明の実施形態による、2つの分子間の埋め込み空間を調査することから生成されたイオン液体陽イオンを示す。
【
図25】本発明の実施形態によるベイズ最適化とベンチトップ実験との間の相互作用を示す。
【
図26】本発明の実施形態によるベイズ最適化プロセスを示す。
【
図27】本発明の実施形態によるイオン液体ベースの解重合最適化に関連する例示的なプロセスのフローチャートを示す。
【
図28A】本発明の実施形態による混合エンタルピーの最小化にベイズ最適化を適用した結果を示す。
【
図28B】本発明の実施形態による混合エンタルピーの最小化にベイズ最適化を適用した結果を示す。
【
図29】本開示のいくつかの実施形態として実装されるコンピューティングシステムの例示的なアーキテクチャである。
【0021】
添付図では、同様の構成要素及び/又は特徴は、同じ参照符号を有し得る。更に、同じタイプの様々な構成要素は、同様の構成要素間を区別するダッシュ及び第2の符号による参照符号に従って区別され得る。本明細書において第1の参照符号のみが使用される場合、説明は、第2の参照符号にかかわらず、同じ第1の参照番号を有する同様の構成要素のうちのいずれか1つに適用可能である。
【発明を実施するための形態】
【0022】
I.概要
埋め込みフレームワークは、個々の分子を、構造的に同様の分子が互いにより近くにマッピングされる高次元空間内の埋め込みにマッピングすることができる。これらの表現は、分子特性予測モデルを使用して処理することができ、新規分子は、対象のいくつかのシードセットからの表現に対応する空間内で識別することができる。これらの埋め込みは、特定のポリマーを分解する分子の能力を予測するために使用することができる特定の熱力学的特性を推定するモデルへの入力として供給することができる。好ましくない特性を有する分子を除外することができ、探索を有望な候補の周りに拡大することができ、最終的に、プラスチックを効率的に解重合すると予測される分子(例えば、イオン液体)の小さなセットを返す。候補分子は、新しい実験を推奨し、それらの結果から学習し、最適な反応性能に収束するまで更なる実験を推奨するベイズ最適化システムによって処理することができる。ベイズ最適化はまた、埋め込みフレームワークを使用して、学習された埋め込み空間にわたって実行され得る。
【0023】
II.分子の多次元表現を生成するための機械学習
分子を正確に表現することは、モデルを使用して分子の特性を予測し、所望の特性を有する新規分子を設計し、又は化学反応出力を予測するためのキーである。分子を表すための既存の手法には、2つのカテゴリー:特性ベース及びモデルベースが含まれる。
【0024】
特性ベースのフィンガープリントは、分子の異なる態様を記述する特徴の集合である。例えば、分子は、以下のメタノールについて示されるように、それが含有する各タイプの原子の数を記述するベクトルによって表すことができる。
【化1】
【0025】
メタノールの例示的な特性ベースのフィンガープリントは、分子内の各原子のカウントを含み得る。
【0026】
特性ベースのフィンガープリントの別の例は、Morganフィンガープリントである。Morganフィンガープリント(拡張接続フィンガープリント、ECFPとして知られることもある)は、分子のベクトル表現を構築するために限定された構造情報を使用する。特に、Morganフィンガープリントは、分子の構造を部分的にのみキャプチャするが、原子の3次元配向を説明しないことによって制限される。そして、フィンガープリントは、分子の構造のいくらかの詳細をキャプチャするが、フィンガープリントに含まれる各特性は、データセット中の全ての分子について含まれなければならないので、それらは、化学データの利用可能性によって基本的に制限される。一般に、機械学習に適した実験化学データは不足している。Morganフィンガープリントは、分子グラフの近似符号化を超える明示的な特性情報を含まず、任意の分子に容易に適用されることを可能にし、その広範な使用に寄与することに留意されたい。
【0027】
モデルベースのフィンガープリントは、これらのベクトル表現を生成するために機械学習に依存し、ディープニューラルネットワーク(DNN)及びグラフニューラルネットワーク(GNNs)の2つのクラスを含む。GNNは、分子グラフ上で直接操作することによって分子構造をキャプチャするが、分子内の長距離相互作用をキャプチャする能力において計算上制限される。分子グラフ(すなわち、化学グラフ)は、分子の構造式の表現である。グラフは、原子に対応する頂点及び結合に対応するエッジを含むことができる。DNNは、より柔軟であり得るが、一般に、文字列表現を入力として使用することによって、分子をテキストとして扱う。これらの文字列表現のうち最も一般的なものは、SMILESであり、程度は低いが、SELF-referencing Embedded Strings(SELFIES)である。これらの表現は、通常、深さ優先探索(すなわち、グラフ内の全てのノードを訪問するためのアルゴリズム)において分子グラフをトラバースし、トークンを使用して環及び分岐構造を表現することによって得られる。
【0028】
図1A~
図1Eは、特定の分子についてのSMILES文字列を生成するプロセスを示す。
図1Aは、分子グラフの例を示す。
図1Bは、分子を文字列として書くことができるように、環状構造が破壊されている場所を示す。
図1Cは、分子の様々な成分の強調表示を示す。
図1Dは、
図1Cの強調表示に対応するSMILES文字列を示す。
図1Eは、
図1Aの分子グラフに対応する別のSMILES文字列を示す。
【0029】
特定の手法は、分子をテキストとして表現し、自然言語処理(NLP)の分野からの技術を適用して、例えば、反応物を与えられた生成物を予測してきた。しかし、文字列表現は、任意の分子を記述するのに十分柔軟であるが、分子の豊富な3次元構造をキャプチャすることができない場合がある。例えば、
図1Eにおいて、フッ素原子Fは、カルボン酸基C(=O)Oから有意な空間距離にあるが、SMILES文字列においてはほぼ隣接している。更に、
図1D及び1Eに示されるように、単一の分子は、2つ以上のSMILES文字列によって表され得る。
【0030】
これらの文字列表現の限られた情報内容は、なぜ以前のNLPに着想されたモデルが特性予測タスクに対してうまく機能しないのかを説明し得る。
【0031】
本明細書に記載される実施形態は、分子を埋め込み空間に符号化することを含む。埋め込み空間は、分子内の原子又は結合の空間情報を伝達することができる。例えば、エンコーダネットワークは、原子の座標を含み得る部分的又は完全な結合文字列及び位置(BSP)表現を埋め込み空間内の位置に変換することができる。別の例として、エンコーダネットワークは、分子の分子グラフ表現を埋め込み空間内の位置に変換することができる。分子グラフ表現は、場合によっては他の原子に対する、分子内の原子又は結合の角度及び距離を含むことができる。
【0032】
II.A.結合文字列及び位置分子表現
したがって、本発明のいくつかの実施形態では、分子の3次元情報は、任意の分子の化学的構成(結合文字列)及び3次元構造(結合位置)の両方を同時にキャプチャする結合文字列及び位置(BSP)分子表現を通して表され得る。BSP分子表現は、(例えば)RDKitの構造最適化法を用いて生成することができ、これは分子中の各原子の3次元座標を識別することができる。3次元座標を識別することができる他のモデルも使用することができる。例えば、接続表は、三角形境界平滑化アルゴリズムを使用して平滑化することができる距離境界行列に変換することができる。平滑化された境界行列は、分子内の各原子の3次元座標を識別するために、3次元に埋め込むことができる適合ランダム距離行列を識別するために使用することができる。原子の座標を微調整するために、粗力場及び境界行列を使用することができる。別の例として、粗力場及び境界行列を使用して座標を微調整する代わりに、Cambridge Structural Databaseからのねじれ角選好を使用して、座標を微調整することができる。例えば、実験的ねじれ基本知識距離幾何学(ETKDG)手法を用いて、分子中の各原子の3次元座標を識別することができる。
【0033】
分子中の各結合は次のように表すことができる。すなわち、<第1の原子><結合タイプ><第2の原子>(例えば、単結合を介して酸素原子に結合している炭素原子については「C10O」)であり、その対応する結合位置は、[<第1の原子の座標>、<第2の原子の座標>]によって表される。この情報は各結合の座標に本質的に存在するので、この表現は、分岐及び環を指定するためのトークンを必要としない。すなわち、分子の3次元構造は、モデルがSMILES文字列からこの構造を学習することを必要とする代わりに、モデル入力に直接含まれ得る。
【0034】
図2は、BSP表現の一例を示す。
図2の上部は、分子グラフの上にSMILES文字列を示す。表204は、BSP表現を示す。表204の第1の行は、文字列トークンとしての結合の表現を示す。結合表現の下の同じ列のエントリは、各結合の第1の原子及び第2の原子の座標を示す。第1の原子の座標は「a」で示され、第2の原子の座標は「b」で示される。x,y,zは3次元座標系を示す。
【0035】
II.B.反応物/試薬配列の表現
BSP表現では、結合位置が位置情報を直接キャプチャする。したがって、標準的なトランスフォーマ型モデルとは対照的に、結合位置を識別するために別個のトークンレベル位置埋め込みを使用する必要がない。しかし、単一の反応において異なる分子を区別するために、静的「分子位置」埋め込みを使用して、反応物/試薬配列中のどの分子に結合が対応するかを示すことができる。したがって、反応配列における任意の結合の固有の位置は、結合位置及び分子位置によって定義することができる。
【0036】
図3は、SMILES文字列から反応物/試薬のBSP表現を構築する例を示す。左列に示される結合文字列は、各分子中の結合を列挙する。中央列の分子位置は、結合がどの分子に属するかを示し、モデルが1つの分子を別の分子から区別することを可能にする。第3の列、結合ベクトルは、3次元空間における結合の座標を含む。
【0037】
II.C.分子のフィンガープリントを生成するためのトランスフォーマモデル
分子のBSP表現は、表現を埋め込み空間内の埋め込み表現に変換するためにエンコーダネットワークへの入力として使用することができる。エンコーダネットワークは、所与のタスクを実行するためにエンコーダネットワークを含む機械学習モデルを訓練することによって事前訓練され得る。機械学習ネットワークは、BERT(Bidirectional Encoder Representations from Transformers)モデルを含むトランスフォーマネットワークを含むことができる。所与のタスクは、分子内のマスクされた結合の特性を予測することを含むことができる。例えば、BERTモデルは、分子の不完全な初期結合文字列表現から欠損結合トークンを予測するように訓練されてもよい。
【0038】
埋め込み空間の次元数は、BSP表現の次元数よりも小さくてもよい。埋め込み空間は、少なくとも3次元、少なくとも5次元、少なくとも10次元、少なくとも20次元、少なくとも30次元、又は少なくとも50次元を有する高次元埋め込み空間であってもよい。埋め込み空間は、代替的又は追加的に、5次元未満、10次元未満、20次元未満、30次元未満、50次元未満、又は70次元未満を有してもよい。埋め込み空間内では、構造的に類似している分子は短い距離で分離され得るが、構造的類似性を欠く分子は長い距離で分離され得る。トランスフォーマモデルに入力されるBSP表現は、以下の埋め込みのうちの1つ、2つ、又は3つを含むことができる。
【0039】
1. 結合文字列内の各トークンに使用される標準的な学習可能埋め込み、
2. 結合位置を結合埋め込みと同じ次元に投影することによって得られ、分子内の結合の位置を符号化する、結合位置埋め込み、及び、
3. トランスフォーマベースのモデルで使用される位置埋め込みである分子位置埋め込み。同じ分子に属する全ての結合は、同じ分子位置埋め込みを有する。
【0040】
例えば、
図4は、リストされた埋め込みの3つ全ての組合せを含むトークン埋め込み(次いで、トランスフォーマモデルに供給され得る)を示す。結合埋め込みは、結合文字列から決定される。結合位置埋め込みは、ニューラルネットワーク層(例えば、MLP[Multi-Layer Perception])を使用して結合ベクトルから取得される。分子位置埋め込みは、分子位置から得られる。項目404は静的正弦波埋め込みを示し、これは、この実施形態において異なる分子を区別するのに役立つ束縛ベクトルである。結合埋め込み、結合位置埋め込み、及び分子位置埋め込みは、トークン埋め込みを構成する。
【0041】
II.D.トランスフォーマモデルの事前訓練
変分オートエンコーダとしてトランスフォーマモデルを事前訓練することは、より構造的に類似する分子が、互いにより近いフィンガープリントを有するように、フィンガープリントを生成し得る。次に、これらのフィンガープリントを、熱力学的特性予測及び毒性分類からの多様な範囲のタスクに使用して、最新技術の性能を達成することができる。このモデルは、特性予測において他のいくつかのモデルよりも性能が優れている可能性がある。
【0042】
結合文字列及び位置(BSP)分子表現は、分子の完全な3次元構造についての情報を直接識別することができる。BSP分子表現を使用して、機械学習モデル(例えば、トランスフォーマベースのモデル)を訓練することができる。例えば、モデルは、表現の残りに基づいて各表現から人工的に除去された「失われた」(又は「マスクされた」)結合を予測するように訓練され得る。すなわち、モデルは、未知の結合の位置が与えられると、3次元空間において隣接する結合を調べることによって正しい結合トークンを予測するように訓練される。
【0043】
訓練データセットは、分子の3次元表現を含むことができる。例えば、訓練データセットは、MIT_USPTOデータセットからの固有分子を含むことができ、これは、合計約600kの固有分子について、米国特許から削り取られた数十万もの化学反応を含む。単一分子が複数の配座異性体を有し得るので、各分子の3次元表示は固有ではないので、異なる座標を有する複数の分子表現が生成され得る。これは、データ拡張ルーチンとして働き、下流のタスクに対する過剰適合を低減するのに役立つ。
【0044】
図5は、マスクされた結合モデルを訓練する全体的なプロセスを示す。分子の結合文字列表現からのトークンのいくつかを選択し(例えば、ランダムに選択し)、[MASK]トークンで置き換えることができる。全てのマスクトークンの対応する結合位置は、そのまま維持することができる。マスクされた結合文字列及び結合位置は、トランスフォーマモデルのエンコーダネットワーク(例えば、BERTエンコーダ)に供給され得る。次いで、モデル損失は、各マスクされた位置における予測のみを使用して計算される。
【0045】
図5の例に対するマスクされた入力BSP表現及び予測されたマスクされていないBSP表現は、次の通りである:
入力: C10O N10O [MASK]C10N [MASK]C10C C15C C15C C15C C10O [MASK]C15N C15C
出力: C10O N10O C10N C10N C20O C10C C15C C15C C15C C10O C15N C15N C15C
トランスフォーマモデルは、エンコーダネットワーク及びデコーダネットワークを含むことができる。したがって、トランスフォーマモデルを事前訓練することは、エンコーダネットワークを訓練して、BSP分子表現を埋め込み空間に変換する方法を学習することと、デコーダネットワークを訓練して、埋め込み空間内のデータ点を、対応するBSP分子表現、又は分子の構造を識別する別の表現、例えば、Simplified Molecular-Input Line-Entry System(SMILES)表現に変換する方法を学習することとを含むことができる。
【0046】
図6は、(埋め込み空間内の次元数を単純化しながら)これらの変換の一例を示す。図示の例では、ベンゼンの埋め込み(点604)は、メタノール(点608)及びエタノール(点612)の埋め込みから離れている。図示された例はまた、埋め込み空間内の所与のデータ点を予測分子(イソプロピルアルコールに対応する)に変換するデコーダを示す(点616及び点616に向かう線を介して)。
【0047】
II.E.分子のフィンガープリントを生成するためのグラフニューラルネットワーク
トランスフォーマモデル内で訓練されたエンコーダネットワークを使用して分子のフィンガープリントを生成するのではなく、グラフニューラルネットワーク(GNN)を使用してフィンガープリントを生成することができる。分子は、原子がノードであり、結合がエッジである分子グラフとして解釈することができる。このような表現の下では、GNNを用いて分子の埋め込みを得ることができる。典型的なGNNは、複数のグラフ畳み込み層を含み得る。ノード特徴を更新するために、グラフ畳み込み層は、隣接ノードの特徴を集約することができる。グラフ畳み込みには多くの変形がある。例えば、メッセージパッシング層は、特に表現力があり得、分子グラフにとって重要なエッジ特徴の組み込みを可能にし得る。
【0048】
図7は、メッセージパッシング層の表現を示す。各ノードは、隣接ノードからメッセージを収集することができる。ノードは、X
i及びX
jとして示される。エッジ情報E
ijを含むメッセージがX
jからX
iに送信されてもよい。メッセージ値はM
ijで表される。次いで、メッセージM
ijは、平均又は和などの置換不変関数を使用して集約され得る。集約されたメッセージは、
【数1】
として示される。各ノードは、集約されたメッセージ
【数2】
及びそれ自体の特徴ベクトルX
iを使用して、その特徴ベクトルを更新することができる。更新されたノードは、X
i’として示される。
【0049】
II.F.GNN事前訓練
トランスフォーマと同様に、GNNは、標識されていない分子に対して事前訓練することができる。GNN事前訓練の2つの方法は、原子マスキング及びコンテキスト予測を含む。
【0050】
原子マスキングでは、いくつかのノードが選択され(例えば、ランダム又は擬似ランダム選択技術を使用して)、マスクトークンで置き換えられる。次に、GNNを適用して、対応するノード埋め込みを得ることができる。最後に、マスクされたノードの標識を予測するために、埋め込みの上に線形モデルが適用される。
図8は、原子マスキング事前訓練のための手法を示す。「X」は、分子グラフにおけるマスクされたノードを示す。GNNは、マスクされたノードの同一性を取得するために使用される。
【0051】
コンテキスト予測では、各ノードvについて、vの近傍グラフ及びコンテキストグラフを以下のように定義することができる。vのKホップ近傍は、グラフ内でvから最大でKホップ離れている全てのノード及びエッジを含む。これは、K層GNNがvのK次近傍にわたって情報を集約し、したがってh(K)vを埋め込むノードがvから最大でKホップ離れているノードに依存するという事実によって動機付けられる。ノードvのコンテキストグラフは、vの近傍を囲むグラフ構造を表す。コンテキストグラフは、2つのハイパーパラメータr1及びr2によって記述することができ、コンテキストグラフは、vから離れたr1ホップとr2ホップとの間にあるサブグラフを表すことができる(すなわち、幅r2-r1の環である)。いくつかのノードが近傍グラフとコンテキストグラフとの間で共有されるように、r1<Kの制約を実装することができ、それらのノードをコンテキストアンカーノードと呼ぶことができる。制約は、Kが2、3、4、5、6、7、8、9、又は10であることを含んでもよい。これらのアンカーノードは、近傍グラフ及びコンテキストグラフが互いにどのように接続され得るかについての情報を提供する。
【0052】
図9は、中心ノードの周りのKホップ近傍の分子グラフ及びサブグラフを示す。Kは、所与のノードとその隣接ノードとの間で許容されるホップ数であり、2つのノードがK個以下のエッジを有する経路によって接続されている場合、それらは隣接ノードと見なされる。図では2に設定されている。コンテキストは、中心ノードからr1ホップとr2ホップとの間にある周囲のグラフ構造として定義され、r1=1及びr2=4が図中で使用された。
図9は、中心ノードの2ホップ内のノードを含む、Kホップ近傍のサブグラフを示す。
図9はまた、r1とr2との間に入る分子の部分を抽出することによって作成されたコンテキストサブグラフを示す。ボックス904は、Kホップ近傍サブグラフの埋め込みベクトルを表し、ボックス908は、コンテキストグラフの埋め込みベクトルを表す。ドットは、ベクトルドット積類似性を表す。
【0053】
表1は、異なるデータセット、評価メトリック、及び事前訓練のタイプを使用して生成されたGNNの性能メトリックを示す。一般に、原子マスク事前訓練に関連付けられた性能メトリックは、コンテキスト予測事前訓練に関連付けられた性能メトリックをわずかに上回った。
【表1】
【0054】
II.G.方向性変分トランスフォーマ
分子の特性を予測するために、分子グラフは、分子がSMILES文字列として潜在的ベクトルから再構築され得るように、固定サイズの潜在的ベクトルとして表され得る。潜在的ベクトルのサイズはハイパーパラメータであり、経験的に決定することができる。次いで、この潜在的ベクトルを使用して、分子の特性を予測することができる。
図10は、一例として分子グラフ1004を示す。分子グラフは、BSPを使用して表すことができる。分子グラフ1004は、潜在表現1008を有することができる。潜在表現1008は、特性予測1012のために使用され得る。更に、潜在表現1008からSMILES文字列1016を再構築することもできる。
【0055】
特性予測のための潜在表現を生成するために使用され得る1つのエンコーダ-デコーダアーキテクチャは、DVT(方向変分トランスフォーマ)である。DVTでは、エンコーダネットワークはグラフベースのモジュールであってもよい。グラフベースのモジュールは、グラフニューラルネットワーク(GNN)を含み得る。グラフベースのモジュールは、原子間の距離、及び1つの原子から別の原子への空間方向を考慮することができる。DimeNet(github.com/gasteigerjo/dimnet)は、原子と1つの原子から別の原子への空間方向との両方を考慮するGNNの一例である。DimeNetと同様に、DVTは、原子自体ではなく、原子間で渡されるメッセージを埋め込むことができる。メッセージパッシング層について
図7を用いて説明する。デコーダネットワークは、入力としてエンコーダネットワークから潜在表現を取得し、次いでSMILES表現を生成してもよい。
【0056】
DVTと変分トランスフォーマ(VT)(例えば、セクションII.Dにおける変分オートエンコーダとして訓練されたモデル)との間の選択された差は、以下を含む。
【0057】
1.DVTモデルは、絶対座標に基づく位置の代わりに、角度及び距離に基づく相対位置を使用する。
【0058】
2.VTとは異なり、DVTはグローバルアテンションを行わない。代わりに、DVTは、共通の原子を共有する結合又は特定の閾値距離内の隣接する結合のいずれかのみに関して注目する。閾値距離は、ホップの最大数(例えば、最大で2つのエッジだけ離れた全てのノード)又は物理的距離(例えば、5A)内の結合を含み得る。
【0059】
3.DVTは、分子グラフを集約して固定サイズの潜在的ベクトルを生成する別個の読み出しノードを使用する。
【0060】
DVTモデルは、別のトランスフォーマモデルの代わりに使用することができる。例えば、DVTモデルは、セクションII.Dで説明した変分オートエンコーダモデルと同様に事前訓練及び訓練されてもよい。更に、DVTモデルを用いて説明されるトランスフォーマモデルの態様は、他のトランスフォーマモデルにも適用することができる。
【0061】
II.G.1.相対位置の生成
DVTのエンコーダネットワークに関して、入力データセットは、3-D空間におけるその原子の位置で結合のシーケンスを識別する方法で分子を表すことができる。原子の位置を使用して、2つの結合間の相対距離及び角度を計算することができる。
【0062】
図11は、相対位置を角度及び距離で示している。
図11は、4つの原子:A1、A2、A3、及びA4を示す。A1及びA2は結合によって接続され、A3及びA4は結合によって接続される。B1(A1,A2)は原子A1とA2との間の結合を表し、B2(A3,A4)は原子A3とA4との間の結合を表す。原子と結合との間の距離を図中に示す。2つの結合間の距離は[d1,d2]によって表され、式中、dn=d(x,y)は原子xとyとの間のユークリッド距離である。d1について、xはA2であり、yはA4である。d2については、xはA2であり、yはA3である。2つの結合間の角度は、[a1,a2]として計算され、式中、a1=a(x,y,z)は、x-y線とy-z線との間の角度である。例えば、a1の場合、xはA1であり、yはA2であり、zはA3である。a2について、xはA1であり、yはA2であり、zはA4である。
【0063】
結合中の原子の次数は、分子の分子グラフにわたる深さ優先探索中の出現次数によって定義することができる。標準SMILESから作成された分子グラフは固有であるので、モデルは次数を一般化するように学習することができる。次数を一般化することは、訓練中にSMILESの標準順序付けを生成する方法をモデルが学習することを指すことができ、訓練中に見られない分子のBSPが入力であるとき、モデルはその分子の標準SMILESを出力することができる。結合における原子の次数が固定されると、距離及び角度を計算するために第2の原子を選択することができる。例えば、
図11は、たとえA1及びA2が両方とも同じ結合内にあっても、原子A1ではなく原子A2からの距離及び角度を示す。あるいは、距離及び角度は、結合中の第1の原子(例えば、A1)から計算することができる。モデルの性能は、角度及び距離の計算が結合の第1の原子又は結合の第2の原子を使用して行われるかどうかにかかわらず、高いままであり得る。
【0064】
II.G.2.エンコーダ
分子のグラフ表現は、エンコーダネットワークに入力され得る。グラフ表現は、原子間の空間関係及び/又は原子間の結合に関する空間特性を識別することができる。いくつかの実施形態では、グラフ表現は、2次元における分子の表現を含み得る。いくつかの実施形態では、グラフ表現は、3次元における分子の表現を含み得る。エンコーダネットワークは、固定サイズの潜在的ベクトルを出力として生成し得る。エンコーダネットワークは、複数のヘッドを含んでもよい。例えば、エンコーダネットワークは、2つのヘッド、すなわち、グラフアテンションヘッド及び読み出しアテンションヘッドを含み得る。使用され得る他のヘッドは、DimeNetで使用されるものに類似する、標準アテンションヘッド又はOutputBlockヘッドを含む。
【0065】
a.グラフアテンションヘッド
グラフアテンションヘッドは、ノード間でアテンションベースのメッセージパッシングを実行して、相対角度及び距離情報を提供する。
図12A及び
図12Bに示されるように、メッセージパッシングは、2つのステップを含み得る。ステップ1において、ノードは、それらの隣接ノードにメッセージを送信することができ、ノードiからノードjへのメッセージは、
図12Aに示すように、ノードiの埋め込みとノードjに対するノードiの相対位置との組合せである。メッセージは、E_tから別のノード(例えば、A_ti)への角度と、E_tから別のノード(例えば、D_ti)への距離とを含む。いくつかの実施形態では、全てのノードが隣接ノードにメッセージを送信することができる。メッセージパッシングステップの数は、エンコーダネットワークにおけるグラフアテンション層の数と同じであってもよい。例えば、グラフアテンション層の数は、2、3、4、5、6、7、8、9、10個、又はそれ以上であってもよい。ステップ2では、各ノードは、
図12Bに示されるように、アテンション機構を使用して、その着信メッセージを集約してもよい。各ノードは、全ての着信メッセージについてキーと値のペア(すなわち、k及びv)を生成することができる。各ノードは、それ自体の埋め込みからクエリベクトル(すなわち、q)を生成することもできる。クエリ及びキーを使用して、各ノードは、全ての着信メッセージについてクエリベクトルとキーベクトルとの間のベクトルドット積を行うことによって、アテンションスコアを計算することができる。標的ノードの更新された埋め込みは、全ての着信エッジの値ベクトルの加重平均に基づいて生成されてもよい。重みの例は、W([A_ti,D_ti])であり、これは、
図12Aの結合tとiとの間の方向情報を含むベクトルである。アテンションが共通の原子を共有する結合間である場合、A_ti及びD_tjは、単一の角度及び距離値を表すスカラー値である。アテンションがある閾値距離内にある結合間にある場合、A_ti及びD_tjはサイズ2のベクトルであり、
図11に示すように計算することができる。
【0066】
この例では、アテンションスコアが重みとして使用される。例えば、埋め込みのセットが生成されてもよく、各埋め込みは、1つ以上の分子における結合の角度又は距離を表す(例えば、埋め込みのセットが、単一のイオン液体分子又は単一のイオン液体分子と標的分子との組合せに対応するように)。特定の埋め込みごとに、特定の埋め込みと埋め込みのセット内の各埋め込みとの間のペアに対応するキーと値とクエリのペアのセットが生成される。アテンション機構(あらゆる目的のためにその全体が参照により本明細書に組み込まれるVasawniら、「Attention is all you need」、31stConference on Neural Information Processing Systems(2017)に記載されているものなど)を使用して、所与の結合角度又は結合距離に対応する更新された埋め込みを生成するときに、様々な結合角度又は結合距離の埋め込みに重み付けする程度を決定することができる。
【0067】
b.読み出しアテンションヘッド
読み出しアテンションヘッドは、エンコーダネットワークで使用される別のヘッドであってもよい。読み出しヘッドは、アテンション機構を使用して固定サイズの潜在的ベクトルを生成するために、全てのノード埋め込みを集約することができる。読み出しノードは、全てのノードを集約するために使用され得る。読み出しノードは、他の全てのノードに接続されているが、メッセージパッシング機構から除外されている単一のノードであってもよい。読み出しノードは、
図13のRである。読み出しノードは、クエリベクトルとして機能することができ、訓練中に学習される埋め込みを有することができる。グラフ内の全てのノードからのキーと値のペア(すなわち、k及びv)が生成され得る。クエリ及びキーを使用して、グラフの全てのノードについてアテンションスコアを計算することができる。アテンションスコアが重みである場合、全ての値ベクトルの重み付けされた集約が実行され得る。
【0068】
II.G.3.デコーダ
エンコーダネットワークによって生成された固定サイズの潜在的ベクトルは、デコーダネットワークへの入力であり得る。デコーダネットワークは、出力として分子のSMILES表現を生成することができる。デコーダネットワークは、埋め込み空間内のデータ点をSMILES表現に変換することを学習するように訓練され得る。
【0069】
III.分子特性予測のための微調整されたネットワーク
トランスフォーマモデルはエンコーダネットワークを含むので、トランスフォーマモデルを事前訓練することは、(分子のBSP表現を埋め込み空間内の表現に変換することができるように)エンコーダネットワークが事前訓練されることをもたらし得る。
【0070】
次いで、エンコーダネットワークは、BSP表現が分子のサンプルの特定の特性(例えば、粘度、密度、所与の溶媒中の溶解度、活量係数又はエンタルピー)の予測値に変換され得るように微調整され得る。例えば、分類器又はリグレッサをエンコーダネットワークの出力に取り付けることができ、分類器又はリグレッサを特定のタスクに対して微調整することができる。
図14は、活性化関数(例えば、Softmax関数)を有する線形層を含むエンコーダネットワークを含む例示的なモデルを示す。この線形層は、分類器又はリグレッサで置き換えることができ、エンコーダネットワークによって生成された埋め込み値を予測された特性値に変換するように微調整することができる。
【0071】
図14に示すモデルは、マルチヘッドアテンション層を更に含む。マルチヘッドアテンション層は、要素のセットのうちの別のものを処理するときに、受信されたデータセット(例えば、分子のBSP表現)内の要素のセットの各々に「対処する」程度を決定するために、クエリ、キー、値行列を使用し得る。より具体的には、各要素は、クエリ、キー、及び値の3つの行列に関連付けられ得る。所与の要素に対して、クエリは、どのタイプのキーに対処すべきかをキャプチャするように定義され得る。したがって、クエリは、(ドット積を介して)同じ要素のキー及び他の各要素のキーと比較されて、要素のペアに対する重みを生成することができる。これらの重みを使用して、要素の値の加重平均を生成することができる。マルチヘッドアテンション層は、異なる「ヘッド」を使用してこのプロセスを複数回実行することができる。各ヘッドは、異なるタイプのデータ(例えば、近くの要素からのデータ、まれな値など)に対処することができる。
図14に示されるモデルは、「add&norm」層を更に含む。この残差結合は、要素ごとの加算及び(特徴次元にわたる)層正規化を実行する。
【0072】
IV.反応予測
微調整されたエンコーダネットワーク(エンコーダネットワークと、リグレッサ、分類器、及び/又は活性化関数とを含む)は、個々の分子の特性予測を生成することができるが、エンコーダネットワークは、別個の陽イオン及び陰イオンから構成されるイオン液体等の分子の混合物を処理する原理的方法を提供しない。したがって、上述した同じBSP表現を使用するが、異なるエンコーダ/デコーダモデルアーキテクチャを使用する別個の反応予測モデルを生成することができる。
【0073】
反応予測モデルの例示的なアーキテクチャが
図15に示されている。このモデルは、エンコーダネットワーク1504及びデコーダネットワーク1508を含む。結合位置、結合埋め込み、及び分子位置は、エンコーダネットワーク1504への入力である。エンコーダネットワーク1504の出力は、デコーダネットワーク1508への入力である。2つの分子の埋め込みもデコーダネットワーク1508への入力である。
図15のモデルの出力は、化学反応の出力に対する確率である。
【0074】
反応予測は、反応物及び試薬のBSPと生成物の表現(例えば、SMILES表現、SELFIES表現、又はBSP表現)との間の機械変換問題として扱うことができる。生成物のSMILES表現は、BSP表現を人間が読める化学式に変換することが重要であるため、BSP表現よりも有利であり得る。SELFIES表現を使用する場合、モデルが環及び分岐のサイズを推論することがより困難であり得るので、生成物に関するSMILES表現は、SELFIES表現よりも更に有利であり得る。
【0075】
別個の反応予測モデルのための訓練タスクは、反応物からの生成物を予測することを学習することであり得る。
図16A及び16Bは、モデルの成功例のいくつかを示す。各行は、反応物及び試薬、次いで、形成されたグラウンドトルース生成物及び予測生成物を含む。予測生成物は、グラウンドトルース生成物に一致する。
図17A及び17Bは、モデルの失敗事例のいくつかを示す。
図17A及び
図17Bにおいて、予測生成物はグラウンドトルース生成物と一致しない。モデルの観察された失敗モードの1つは、反応を実行する代わりに、反応物又は試薬から分子の1つをコピーすることである。これは、失敗モードが反応物及び試薬からの反応がないことを予測していることを示唆している。
【0076】
IV.A.反応予測モデルの例示的な結果
IV.A.1.DeepChemタスク
分子特性予測のためのBSP表現を評価するために、BERTマスク結合モデルを、MIT_USPTO及びSTEREO_USPTOデータセットからの分子に対して訓練した。STEREO_USPTOデータセットは、そのSMILES記述に立体化学(すなわち、分子中の結合の配向)を含み、これは全体的な符号化/復号をより困難にする。STEREO_USPTOを用いて、モデルはグラフ構造及び結合配向の両方を予測する。モデルへのBSP入力は、
図2に記載されるように構築された。各サンプルには1つの分子しか存在しないので、分子位置は使用しなかった。次いで、分類器又はリグレッサを、事前訓練されたBERTモデルの上に取り付け、下流の分類又は回帰タスクに対して微調整した。DeepChem評価スイートからの10個の異なるデータセットについての結果を表2に示す。異なるタスクは、分子の異なる特性を表す。例えば、Tox21データセットにおいて、12個のタスクは、各分子が、モデルが予測するための12個の特性を有することを意味する。USPTOデータセットの検証スコアを表3に示す。
【表2】
【表3】
【0077】
表2は、異なるデータセット及びタスクが高いRMSE又はAUC評価メトリックをもたらし得ることを示す。表2は、分子特性を予測するための結果を示す。表3は、MIT_USPTOデータセットによる検証精度が約86%であり、STEREO_USPTOが約66%であることを示している。USPTOデータセットの検証スコアは、反応の生成物を予測するためのものである。
【0078】
IV.A.2.イオン液体の特性予測
純粋な二元イオン液体(IL)は、2つの分子、すなわち陽イオン及び陰イオンから構成される。混合イオン液体は、2つ以上の成分を有することができる。マスクされた言語モデルは単一分子上で訓練されるので、イオン液体の埋め込みを得ることは有用ではない。したがって、反応予測モデルのエンコーダネットワークを使用して、イオン液体の埋め込みを得ることができる。純粋な二元ILと混合ILとを区別するために、成分番号が、埋め込みを得た後に追加の入力として使用された。表4は、2つの特性(密度及び粘度)についての例示的な検証スコアを示す。成分の数は、イオン液体の数を指す。例えば、成分の数が2である場合、2つの陽イオン及び2つの陰イオンを含む2つのイオン液体が存在する。
【表4】
【0079】
IV.A.3.アテンション重みの分析
3次元空間において異なる結合を関連付けるモデルの能力を理解するために、MIT_USPTOデータセットに対して訓練された反応予測モデルのアテンション重みを可視化した。3つのタイプのアテンション、すなわち、反応物/試薬に対する自己アテンション、生成物に対する自己アテンション、及び反応物/試薬と生成物との間のアテンションがある。
【0080】
反応物/試薬自己アテンション重みは、BSP表現を入力として取るモデルのエンコーダモジュールから抽出された。
図18は、その第3層におけるエンコーダの第4のヘッドのアテンション重みを示す。示されるように、モデルは、アテンションマップの対角性質から明らかである結合位置を使用して、3次元空間において隣接する結合を見出すように学習した。結合文字列は、
図19に示すように分子グラフをトラバースすることによって生成された。したがって、隣接する結合のいくつかは、結合文字列配列において遠く離れて現れ、これは、アテンションマップにおいて見られるウィング様パターンを生じた。
【0081】
IV.B.方向性変分トランスフォーマを用いた例示的な結果
図20は、DVTを使用する反応予測モデルの例示的なアーキテクチャを示す。主構成要素は、グラフベースのエンコーダネットワーク2004である。分子グラフは、エンコーダネットワーク2004に入力され得る。次いで、エンコーダネットワーク2004は、固定サイズの潜在的ベクトルを出力することができる。エンコーダネットワーク2004は、絶対座標に基づく位置の代わりに、角度及び距離に基づく相対位置を使用してもよい。デコーダネットワーク2008は、(例えば、
図15に示されるような)トランスフォーマモデルからのデコーダネットワークであり得る。固定サイズの潜在的ベクトルは、デコーダネットワーク2008に入力され得る。次いで、デコーダネットワーク2008は、分子のSMILES表現を生成することができる。
図15ではなく
図20に示されるように、エンコーダネットワーク2004は、角度及び距離の識別を入力として受信するように構成される。加えて、エンコーダネットワーク2004(
図20に示される)は、結合位置又は分子位置(例えば、BSPにおける座標)を入力として受信するように構成されない。しかしながら、いくつかの実施形態において、分子グラフは、グラフのノードが結合文字列トークンであるBSP表現のタイプとして解釈されてもよい。結合位置ベクトル(座標)は、角度及び距離値に変換することができ、その後、それらはグラフアテンションヘッドに渡される。
【0082】
表5は、変分トランスフォーマ(VT)モデル及び方向性変分トランスフォーマ(DVT)モデルの性能データを示す。DVTは、100,000個のサンプルについて、VTよりも高い平滑度試験結果を有した。平滑度試験は、デコーダモデルを使用して復号されたときに有効な分子を与えるランダムに生成された潜在埋め込みの割合を示す。より高い平滑度試験値は、より良好で平滑な潜在空間を示す。VTは、DVTよりも高い再構築精度を有していた。再構築精度は、モデルによって完全に再構築された検証データセットからの分子の割合である。より高い再構築精度は、エンコーダ/デコーダモデルのより良い能力を示す。DVTは、標的イオン液体を見出すために、VTよりも少ない平均反復を要した。この実験では、潜在埋め込みが全てのILについて得られ、次いで、離散ベイズ最適化が実行されて、最低の粘度スコアを有するILを見つけるために何回の反復がかかるかを見出す。反復回数が少ないほど望ましい。DVTは、イオン液体を圧縮するためにより小さい次元しか必要としなかった。この実験では、潜在埋め込みが全てのILについて取得され、次いで、埋め込みベクトルは、99%の分散が保存されるように、PCAを使用してより少ない次元に圧縮される。DVTは、VTよりも低い次元空間における分子を表すことができ、これは、より高い計算効率を可能にする。表5は、DVTが、標的イオン液体を見出すための反復の数及びイオン液体を圧縮するために必要とされる次元の数において、VTよりも有利であり得ることを示す。
【表5】
【0083】
V.コンピュータシミュレーション及び変分オートエンコーダを使用した候補分子の探索
材料/化合物の選択は、高スループット実験(HTE)の広範な使用の欠如を考慮すると、主に時間及びリソースが制約される材料科学/化学合成の多くの分野において永続的かつ長年の問題である。材料選択の1つの例示的なタイプは、(例えば、リサイクルを容易にするために)特定のポリマーを効率的かつ効果的に解重合するイオン液体を識別することである。
【0084】
いくつかの実施形態は、比較的少量の時間及び/又は比較的少量のリソースを必要とする様式で、所与のユースケースに適合する材料/化合物を選択するためのウェットラボ手法の代わりに、及び/又はウェットラボ手法を補足するために、人工知能及びコンピューティングを少なくとも部分的に使用することに関する。何百万ものイオン液体オプションを実験的に評価することは、数年又はおそらく数十年を要するが、AI及び計算力モデルは、実用的なタイムスケールでそれを行う能力を提供する。
【0085】
いくつかの実施形態では、イオン液体のセットの各々について予測された液体粘度及び溶解度特性を含むデータベースが生成され得る。溶解度特性は、混合エンタルピー及び活量係数を含むことができる。溶解度特性は、所与のイオン液体及び特定の化合物(例えば、特定のポリマー)に関連し得る。これらの予測される特性は、量子/熱力学的方法に基づくCOSMO-RS(Conductor-like Screening model for Real Solvents)シミュレーションを含むシミュレーションを実行することによって生成され得る。これらのシミュレーションは、特定のIL及びIL/ポリマー溶液特性について、1つ以上の既存のイオン液体ライブラリをスクリーニング及び/又はフィルタリングすることを可能にし得る。分子動力学及び密度汎関数理論(DFT)の計算も行うことができる。COSMO-RSシミュレーションは、量子力学計算を後処理して、溶液中の各化学種の化学ポテンシャルを決定し、そこから、他の熱力学的特性(例えば、混合エンタルピー及び/又は活量係数)を決定することができる。量子力学的及び/又は熱力学的方法は、COSMO-RS又はDFTを含んでもよい。
【0086】
COSMO-RSシミュレーションを実行する方がウェットラボ実験を実行するよりも速いかもしれないが、COSMO-RSシミュレーションはスクリーニング電荷密度を入力として使用することができる。この電荷密度は、計算的に時間がかかる密度汎関数理論(DFT)計算から得られるので、これは、事前に計算されたDFT結果を有さない化合物についてCOSMO-RSシミュレーションを遅くする可能性がある。
【0087】
COSMO-RSシミュレーションを実行することは、以下を含むことができる:
●データベースからイオン液体ペア(陽イオン及び陰イオン)を取り出し、全ての可能な陽イオン-陰イオンの組合せを評価することによってイオン液体を組み合わせて列挙する。データベースは、事前計算された密度汎関数理論(DFT)結果を有する80個の陽イオン及び56個の陰イオンを含むCOSMO-RSイオン液体データベースADFCRS-IL-2014(4480個の異なるイオン液体に対応)及び/又は予め計算されたDFT結果を有する421個の陽イオン及び109個の陰イオンを含むCOSMObase(45889個の固有のイオン液体に対応)を含むことができる。
【0088】
●溶質(ポリマー)の識別。溶質は、三量体の中心モノマーについて、及び潜在的にいくつかのポリマーについてのオリゴマーの中心のいくつかのモノマーについても、記憶された事前計算されたDFT結果と関連付けられ得る。
【0089】
●イオン液体を使用した解重合のための例示的な実験設定を再現するために、特定のモル分率(例えば、ポリマーの場合は0.2、イオン液体カチオンの場合は0.4、イオン液体アニオンの場合は0.4、陽イオンと陰イオンが併用される場合はイオン液体の場合は0.8である)を使用してCOSMO-RS計算を設定する。温度及び圧力は、COSMO-RS計算においてデフォルトで使用される値に設定又は保持することができる。
【0090】
●COSMO-RS出力からイオン液体溶液中のポリマーの溶液混合エンタルピー及び活量係数を得て、結果をデータベースに保存する。
【0091】
予測は、最低の予測された溶液混合エンタルピー及び活量係数を有するイオン液体の不完全なサブセットを選択するために、IL陽イオン及び陰イオンペアの単純スクリーニングを行うために使用されることができる。解重合温度及び圧力でのイオン液体の不完全なサブセットの粘度が、物質移動に対して妥当であることを検証することができる(例えば、ILThermoデータベースから直接、又はトランスフォーマ埋め込みに基づく予測モデルから)。サブセットは、識別することができる解重合温度及び圧力に基づいて更にフィルタリングすることができる。
【0092】
したがって、いくつかの実施形態では、これらのシミュレーションは、イオン液体の母集団の不完全なサブセットのみに対して実行されてもよく、1つ以上の特性予測モデルを使用して、他のイオン液体に対する溶解度特性を予測することができる。特性予測モデル(複数可)の各々は、不完全なサブセット内のイオン液体の表現及び所与の特性についての対応する値を使用して訓練及び/又は適合させることができる。例えば、第1のモデルは、混合エンタルピー(特定の化合物[例えば、特定のポリマー]に対応する)を予測するように定義されてもよく、第2のモデルは、活量係数(特定の化合物に対応する)を予測するように定義されてもよく、第3のモデルは、IL粘度を予測するように定義されてもよい。イオン液体の表現は、イオン液体のBSP表現を含んでもよい。モデルは、埋め込み空間上で訓練され、分子の埋め込みを特性値に関連付けることができる。特性予測モデル(複数可)の各々は、回帰モデルを含むことができる。
【0093】
(例えば、エンコーダネットワークを使用して初期分子表現が変換される)埋め込み空間を調査し、ポリマー分解反応のための所望の強化されたIL及びIL/ポリマー溶液特性を発見するために、1つ以上の生成モデルを使用して、候補イオン液体の表現間を補間することができる。すなわち、生成モデルは、追加の分子を調査することができ、これらの分子の埋め込みを1つ以上の特性の値にマッピングすることができる。生成モデル(複数可)は、(例えば)回帰モデルを含むことができる。生成モデルを使用して、埋め込み空間にわたって連続予測を生成することができる。
【0094】
例えば、
図21は、埋め込み空間内の個々の点が、(再構築デコーダを使用して予測され得る)所与の化学構造及び予測された特性にどのように対応し得るかを示す。実施形態では、生成モデルは、出力を生成し、特定のコンテキスト(例えば、解重合)に有用であることがまだ知られていない分子(例えば、イオン液体)を識別するモデルを指し得る。予測される特性は、別のモデル(例えば、埋め込み空間内の所与の位置を予測される特性に変換する、生成モデルの上の回帰モデル)を使用して識別され得る。
【0095】
場合によっては、単一のモデル(例えば、回帰タスクを有する単一の生成モデル)は、埋め込み空間内の任意の所与の位置に対して複数の出力を生成するように構成することができ、複数の出力は複数の特性に対応する。例えば、単一のモデルは、埋め込み空間内の所与の位置について予測された混合エンタルピー、活量係数、及び粘度を生成し得る。場合によっては、複数のモデルが使用され、各モデルは単一の特性に対応する予測を生成する。例えば、第1のモデルは混合エンタルピーを予測することができ、第2のモデルは粘度を予測することができ、第3のモデルは活量係数を予測することができる。
【0096】
図21に示す埋め込み空間表現では、データ点2104、2108、2112が示されている。これらのデータ点は、特性の測定値に関連付けられ、データ点2116は、測定された特性値に関連付けられない。示された例では、ベンゼン分子(データ点2104によって表される)は、好ましくない特性を有すると予測され、一方、メタノール分子(データ点2112によって表される)及びエタノール分子(データ点2108によって表される)は、特定のポリマー分解反応に対して好ましい特性を有すると予測される。回帰モデルを使用して埋め込み空間における特性を予測した後、有望な分子の表現(データ点2116によって表される)が識別される。データ点2116は、埋め込み空間内でデータ点2108及び2112に近い。データ点2108及び2112によって表される分子が好ましい特性を有すると仮定すると、データ点2116の近接性は、データ点2116によって表される分子もまた好ましい特性を有することを示唆する。「有望な分子」は、各予測された特性に関連する条件が満たされる埋め込み空間内の位置に対応することができる。
【0097】
例えば、有望な分子は、粘度閾値を下回る又は上回る予測粘度と関連付けることができ、有望な分子の溶液中のポリマーの予測された活量係数は活量係数閾値未満であり、有望な分子及びポリマーの溶液についての予測された混合エンタルピーは、混合エンタルピー閾値未満である。すなわち、生成モデル(複数可)によって生成された予測を使用して、所望の対象の特性(例えば、所定の粘度閾値を下回る/上回る予測粘度、所定の混合エンタルピー閾値を下回る混合エンタルピー、及び/又は所定の活量係数閾値を下回る活動係数)に対応する埋め込み空間内の位置を識別することができる。
【0098】
別の例として、スコアは、埋め込み空間内の位置によって表されるイオン液体の一部又は全部の各々について生成されてもよい。スコアは、予測された対象の特性に基づく加重平均であると定義され得る。対象の予測された特性の値は正規化されてもよい。より高いスコアは、より有望な分子を示し得る。例示すると、スコアは、予測された正規化粘度(対数粘度を含む)の加重平均、又は予測された正規化粘度(対数粘度を含む)の負数、予測された正規化混合エンタルピーの負数、及び/又は予測された正規化活性係数(対数活性係数を含む)の負数若しくは正数であると定義することができる。1つ以上の有望なイオン液体は、n個の最高スコアに対応するものとして(例えば、最高スコアに対応するものとして、又は最高10個のスコアのうちのいずれかに対応するものとして)、又は絶対閾値を上回るスコアに対応するものとして識別されてもよい。あるいは、1つ以上の有望なイオン液体は、n個の最低スコアに対応するものとして(例えば、最低スコアに対応するものとして、若しくは最低10個のスコアのいずれかに対応するものとして)、又は絶対閾値未満のスコアに対応するものとして識別されてもよい。
【0099】
場合によっては、変分オートエンコーダを使用して、データ点の表現(例えば、BSP表現)を変換して、データ点に対応する分子構造及び/又は同一性を予測する。変分オートエンコーダは、分子の表現(例えば、BSP表現)を埋め込み空間分布(例えば、埋め込み表現の平均及び標準偏差)に変換するエンコーダネットワークと、埋め込み空間分布からサンプリングされた表現を分子の初期空間表現に変換し戻すように構成された再構築デコーダネットワークとを用いて構成され得る。いくつかの例では、再構築デコーダネットワークは、BSP表現の代わりに分子のSMILES表現を生成するように構成される(SMILES表現は人間のユーザにとってより解釈可能であり得るため)。所与の予測に対する損失を計算するために、初期BSP表現を対応する初期SMILES表現に変換することができる。ペナルティは、初期SMILES表現とデコーダ予測表現との間の差に基づいてスケーリングすることができる。あるいは、生成されたSMILES表現をBSP表現に変換することができ、その後、初期BSP表現と最終BSP表現との間の差に基づいてペナルティをスケーリングすることができる。
【0100】
次いで、変分オートエンコーダからの訓練されたデコーダネットワークを使用して、関心点(例えば、1つ以上の条件を満たす予測に関連付けられた)をSMILES表現に変換することができ、それによって分子を識別することができる。関心点は、(例えば)所与の予測値の局所最大値若しくは絶対最大値、所与の予測値の局所最小値若しくは絶対最小値、所与の局所最大値若しくは絶対最大値、又は複数の予測値に依存するスコアなどに対応し得る。例えば、スコアは、混合エンタルピー予測、活動係数予測、及び粘度予測と負に相関するように定義され得、関心点は、最高スコアに対応し得る。
【0101】
図22は、コンピュータシミュレーション及び変分オートエンコーダを使用して、反応(例えば、解重合)のための候補分子を識別するための例示的ワークフローを図示する。段階2204で、分子の1つ以上の特性及び構造を含むデータストアが作成及び/又はアクセスされる。例えば、1つ以上の特性は、粘度、溶解度、エンタルピー、及び/又は活量係数を含むことができる。これらの値を識別するために、段階2208におけるCOSMO-RS計算は、すでに事前計算された量子力学的(DFT)計算を有する化合物に対応してアクセスされ得る。
【0102】
段階2212において、1つ以上のモデル(例えば、生成モデル及び回帰モデルを含む)が、分子表現を空間にわたる予測された分子特性に関連付けるために(上記の特性及びBSP表現などの分子の表現を使用して)定義され得る。各モデルは、ポリマーを解重合するために使用され得るイオン液体に対応する様々な分子の空間を調査するために、ポリマー系に特異的であり得る。モデルによって予測される特性値は、所与のタイプの分子の溶液(埋め込み空間内の独立変数位置に関連付けられる)がポリマーを解重合すると予測されるかどうかに影響を及ぼし得る。
【0103】
段階2216において、モデル(複数可)は、したがって、埋め込み空間内の各位置について、空間に対応する分子(又は分子の溶液)の1つ以上の予測される特性を生成することができる。
【0104】
生成モデル及び回帰モデルを使用して、所望の特性に対応する埋め込み空間内の1つ以上の領域(例えば、1つ以上の位置、1つ以上のエリア、及び/又は1つ以上のボリューム)を識別することができる。「望ましい」特性を構成するものは、ユーザからの入力及び/又はデフォルト設定に基づいて定義することができる。例えば、ユーザは、インタフェース内の1つ以上の特性の各々について閾値を調整することが可能であり得る。インタフェースは、閾値基準を満たす分子の数を示すように更新することができる。
【0105】
段階2220において、(対応する変分オートエンコーダ2218内で訓練された)デコーダネットワークを使用して、埋め込み空間の1つ以上の領域内のデータ点を分子の構造表現(例えば、分子のSMILES又はBSP表現)に変換することができる。したがって、変分オートエンコーダのデコーダネットワークは、データ点を埋め込み空間から分子構造を明確に伝達する空間に確実に変換するように訓練され得る。生成モデル及び回帰モデル(複数可)からの出力が、対象の特性を有する埋め込み空間(複数可)内の位置を識別し得ることを考慮すると、1つ以上の関心のある候補分子は、変分オートエンコーダを使用して識別され得る。
【0106】
段階2224において、次いで、1つ以上の候補分子の特性が実験的に測定され得る。そのような実験は、関心対象の分子としての選択を確認することができ、又は埋め込み空間、1つ以上の変換及び/又は1つ以上の選択基準を更新するために使用することができる。
【0107】
V.A.変分オートエンコーダの例示的結果
トランスフォーマベースの変分オートエンコーダモデルは、荷電種(すなわち、イオン液体陽イオン及び陰イオン)及び非荷電種の両方を含有する化学分子の大きなデータセットに対して訓練された。次いで、オートエンコーダモデルを使用して、既知のイオン液体陽イオン付近の空間を調査することによって、新しいイオン液体陽イオンを生成した。
【0108】
図23は、新しいイオン液体陽イオンを生成するための分子の周りの空間の調査を示す。出発イオン液体陽イオンは左側にあり、「荷電開始」と標識されている。ランダムガウスノイズをその埋め込みに加えた。次いで、4つのイオン液体陽イオンを埋め込みから復号した。各陽イオンのSMILES文字列は、4つの得られたイオン液体陽イオンの下に列挙される。4つの復号された出力は全て荷電分子であるが、これはモデルの確率的性質のために常に当てはまるわけではない。
図23は、トランスフォーマベースの変分オートエンコーダモデルを使用して、単一のイオン液体陽イオンから追加のイオン液体陽イオンを生成することができることを示す。
【0109】
図24は、線形補間による2つの分子間の空間の調査を示す。2つの分子は、「荷電開始」と標識された左上のイオン液体陽イオンと、「荷電終了」と標識された右下のイオン液体陽イオンである。再び、モデルの確率的性質のために、全ての中間分子が荷電種に対応する必要はない。
図24は、荷電開始と荷電終了との間の空間で生成された7つのイオン液体陽イオンを示す。SMILES文字列は、生成された陽イオンの下に表示される。SLERP(球面線形補間)のような他の補間技術も利用することができる。
図24は、トランスフォーマベースの変分オートエンコーダモデルを使用して、2つのイオン液体陽イオン間の空間を調査することによって、追加のイオン液体陽イオンが生成され得ることを実証する。
【0110】
イオン液体陰イオンについても同様の知見を得ることができ、異なる生成された陽イオン及び陰イオンを組み合わせることによって、新しいイオン液体を生成することができる。
【0111】
VI.イオン液体ベースの解重合の最適化
化学リサイクルは、廃棄物(例えば、プラスチック廃棄物)が変換されて分子成分に戻され、次いで化学リサイクルによって燃料又は原料として使用される反応プロセスを含む。最適化された化学反応は、変換率(出発プラスチックの量に対する溶解したプラスチックの量)、収率(出発プラスチックの量に対するモノマーの量)、及び選択性(反応生成物の総量に対するモノマーの量)を最大にするように試みることによって選択される。これらの分解反応は、複数の時間及び長さスケールに及ぶ化学プロセスと物理プロセスとの間の複雑な結合に依存するので複雑であり、実験計画法(DOE)が高価であり、化学空間にわたって容易に一般化できないことを意味する。
【0112】
化学反応最適化は、反応パラメータのセットに依存する関数(例えば、効用関数)を最大化することを含む。様々な最適化アルゴリズムが開発されているが(例えば、勾配降下法、共役勾配法、BFGSなどの極小値に対する凸手法、及び系統的グリッド探索などの大域的最適化に対する非凸ブラックボックス関数最適化手法)、それらは関数の多くの評価を必要とする可能性があり、各評価が新しいベンチトップ実験を実行することを必要とする実験室化学反応などの高価なプロセスには適していない。
【0113】
化学反応最適化のための代替手法は、ガウス過程(GP)を介したベイズ最適化の技術を使用する。この技術は、限られた評価で良好な精度を達成することができる。しかしながら、ガウス過程を介したベイズ最適化は、高パラメータ次元へのスケーラビリティが乏しく、N3として計算的にスケーリングするため、計算的に高価であり、ここで、Nは、ベイズ最適化をシードするために使用される訓練データ点の数である。
【0114】
本明細書に開示されるいくつかの実施形態は、次元を縮小し、限られた数の訓練(シード)データのみを必要とする一方で、ガウス過程を介してベイズ最適化を行うための技術を含む。次いで、化学空間及び実験空間を効率的にナビゲートして、好ましい特性を有するイオン液体を識別することができる。
【0115】
イオン液体を用いた解重合反応へのベイズ最適化の適用は困難である。可能なイオン液体の数は多くてもよい。イオン液体は、陽イオン及び陰イオンを含み、数千の可能な陽イオン及び陰イオン、又は数百の商業的に入手可能な陽イオン及び陰イオンが存在し得る。イオン液体と解重合されるポリマーとの間の相互作用は、十分に理解されていない可能性がある。イオン液体がポリマーを分解する機構は知られていないかもしれない。したがって、ベイズ最適化は、他のコンテキストよりも解重合に適用することがより困難であり得る。例えば、解重合は、所望の薬物(又は薬物の所望のいくつかの特性を有し得る分子)が標的のある部分(例えば、タンパク質のポケット)に結合することが予想される薬学的反応よりも複雑であり得る。結果として、解重合のベイズ最適化は、薬学的反応のベイズ最適化よりも収束解に到達することが困難であり得る。
【0116】
VI.A.イオン液体の次元数縮小
ベイズ最適化は、次元数が縮小された空間を使用することによって改善され得る。イオン液体の構造及び/又は他の物理的特性は、高次元空間(例えば、BSP表現又はSMILES表現)によって表すことができる。互いに近接して位置する類似の分子を有する次元数が縮小された空間は、ベイズ最適化を支援することができる。行列は、イオン液体の高次元構造を表すために使用することができる。次元数縮小技術は、次いで、新しい次元のセットを識別するために、様々なイオン液体に対応する行列を処理することができる。新しい次元のセットは、より高次元の空間を有する従属変数の変動性の少なくとも80%、85%、90%、95%、又は99%をキャプチャし得る。主成分分析(PCA)は、1つの可能な次元縮小技術である。ある高次元空間内の点の集合が与えられると、PCAは、点がそれに沿って最も変化する空間内の方向を見つける。少数のこれらの方向を選択し、それらに沿って点を投影することによって、各点のより低次元の記述を得ることができる。次いで、この空間内で、フィンガープリント類似性(例えば、構造的類似性及び/又は熱力学的特性類似性)を有する分子は、互いに近くに位置し、フィンガープリント類似性を欠く分子は、互いに遠くに位置する。この新しい空間は、比較的少数の次元(例えば、30未満、20未満、15未満、10未満、8未満、又は5未満)を含み得る。この新しい空間は、BSP表現又はGNN(例えば、DVT)から導出された埋め込み空間を含む、本明細書で説明される任意の埋め込み空間を含み得る。
【0117】
一例として、訓練セットは、既知の粘度を有する二元イオン液体の表現を含むように定義することができる。訓練セットにおいて表される各二元イオン液体について、陽イオン及び陰イオンは、SMILES、BSP、又は他の適切な表現に変換され得る。次いで、表現は、10,000個未満の値、7500個未満の値、5000個未満の値、又は2500個未満の値を有するなど、固定長を有する記述子に変換され得る。イオン液体の単一特徴行列表現は、陰イオン記述子及び陽イオン記述子を連結することによって生成することができる。特徴行列は正規化されてもよい。次に、列間のペアの相関を計算することによって、特徴行列を無相関化することができる。相関分析が2つの列の間の相関を検出する場合(例えば、相関係数が上側閾値を上回るか、又は下側閾値を下回ることを検出することによって)、列のうちの1つは、特徴行列から除去され、別個に記憶されることができる。次に、ベイズ最適化を支援するために、特徴行列の次元数を縮小することができる。次元縮小技術(例えば、主成分分析[PCA]などの成分分析)を使用して、各特徴行列及び他の特徴行列を成分のセット及びそれぞれの重み(例えば、説明された分散)に変換することができる。最も高い重み(例えば、説明された分散)に関連する所与の数(例えば、4、5~10、10~15、15~20、又は20~30などの所定の数)の成分を、イオン液体の次元縮小表現として使用することができる。
【0118】
いくつかの実施形態において、イオン液体の次元数は、PCAの代わりに本明細書に記載される埋め込み空間を使用することによって縮小され得る。イオン液体は、mordred記述子を使用して、又はBSPベースの埋め込みで表すことができ、類似の分子を互いに近接してマッピングする記述子である。次元数は、PCAなどの技術を使用して縮小され得る。
【0119】
VI.B.離散サンプリングを用いた反応条件のベイズ最適化
次元数が縮小された空間内で、ガウス過程を介したベイズ最適化を使用して、特性(例えば、変換率又は収率などの出力)が空間全体にわたってどのように変化するかを特徴付ける際に実験データが特に有益である空間内の個々の位置を検出することができる。例えば、空間内の各位置は、イオン液体に対応してもよく、ユースケースは、解重合反応の変換率及び収率を決定することを含んでもよい。
【0120】
関数は、初期訓練データセット及びガウス過程(GP)によって決定されたデータを使用して、次元数が縮小された空間全体にわたって出力がどのように変化するかを推定するように構築される。初期訓練データセットは、複数のイオン液体の各々についての所与の特性の測定値を含み得る。複数のイオン液体に対応する次元数が縮小された空間内の位置が識別され、複数のイオン液体の特性及び位置(次元数が縮小された空間内)を使用してガウス過程事前分布が定義される。次いで、シード実験に対応する位置及び特性を用いてガウス過程事前分布を更新することによって、1つ以上の位置の各々における実験結果の尤度を計算することによって、事後分布が形成される。事後分布及び指定された取得関数を使用して、全ての最適化ハイパーパラメータが設定されている取得関数の具体的な形である効用関数を構築することができる。効用関数の最高値に関連する空間内の位置を選択することができ、(イオン液体及び反応パラメータの所与の特性の測定値を収集するために)その位置に対応するイオン液体及び他の反応パラメータを次の実験のために識別することができる。実験データが収集された後、事後分布を測定値で更新することができ、効用関数を更新することができ、更なる実験データ収集のために異なる位置を識別することができる。
【0121】
図25は、ベイズ最適化とベンチトップ実験との間の相互作用を示す。ベイジアンオプティマイザ2504の初期出力は、ボックス2508に示されるパラメータの値を提供してもよい。これらのパラメータは、イオン液体の同一性(例えば、陽イオン及び陰イオン)、温度T、イオン液体割合、及び溶媒割合を含んでもよい。ベンチトップ(又は他のスケール)実験2512が実施され得る。ベンチトップ実験は、収率の値を提供することができる(ボックス2516)。この収率は、イオン液体の同一性、温度T、イオン液体割合、及び溶媒割合に関連付けられる。収率は、ベイジアンオプティマイザ2504をシードするために使用され、プロセスは、ベイジアンオプティマイザ2504が収束するか、又は最適化制約(例えば、反復の数)が満たされるまで繰り返される。オプティマイザは、分子の多次元表現を生成するモデルによって作成された学習された埋め込みにおける縮小された次元を通してナビゲートすることができる。モデルは、埋め込み空間に基づいて完全に新しい分子を推奨することができる。変分オートエンコーダの埋め込み空間は、最適化ルーチンをシードするために使用され得る。
【0122】
図26は、離散サンプリング、x
obsを使用するGP反復ループを介したベイズ最適化プロセスを示す。より太い線2604、2606、2608、及び2610は、事後分布2616を構築するために使用される実験結果2612のシードセットで始まるループを示す。緑色の点(例えば、点2620)はx
obsであり、赤色の点(例えば、点2624)は、全てシード実験(x
s)である。全てのシード実験で訓練された効用(グラフ2628に示されている)は、全てのx
obsについて計算される。星印2632における次の実験x
probeは、x
probeが最も高い効用を有するため、x
obsから選ばれる。x
probeが以前に提案されている場合、事後分布2616が変化しないので、最適化は解に収束している(ボックス2636)。x
probeが以前に提案されていない場合、ループは、より太い線2604、2606、2608、及び2610に続いて継続する。離散サンプリングは、パラメータの値が連続的であり得る場合であっても、ベイズ最適化において適用され得る。
【0123】
まず、ガウス過程事前分布が構築される。ガウス過程(GP)は、N個の点の任意の有限セット{xn∈X}n=1
NがRN上に多変量ガウス分布を誘発するという特性によって定義される。ブラックボックス関数f(x)(ボックス2640)の代用関数は、RN上でGPを仮定するが、事前分布は、xobsと呼ばれる点の特定の有限セットのみを使用して構築される。換言すれば、xn=xobsであり、xobsは離散的である。点のセットxobsは、実験的に評価された点を含み、実験データを提供する。RNは、設計空間を記述し、溶媒タイプ、溶媒濃度、溶媒比、及び反応温度のようなパラメータを含み得る。
【0124】
第2に、事後分布が構築される(例えば、事後分布2616)。シード実験は、{xs,ys}N
s=1の形式であり、xs及びysは、N個の場合(すなわち、xsは実験条件のセットであり、ysは観察結果である)についての既知の実験結果である。{xs,ys}Nは、訓練セットと考えることができる。ブラックボックス関数f(x)は、ys~Normal(f(xs),ν)及びνが観測可能なxsによって導入されたノイズの分散である場合にGP事前分布から引き出されると仮定すると、関数上に事後分布が形成される。シード実験は、事後分布を構築するために供給される必要がある。シード実験は、観測値のサブセット(xs⊂xobs)である。
【0125】
第3に、次の実験が決定される。次いで、指定された取得関数と共に事後分布を使用して、全ての最適化ハイパーパラメータが設定された取得関数の具体的な形である効用関数、U(x
s)を構築する。実施形態では、取得関数は、最適化の過程にわたってregretを最小化するGP信頼上限(UCB)であってもよい。
【数3】
【0126】
κは、調査対活用の程度に対応する(低カッパは活用を示し、高カッパは調査に対応する)。θは、GPリグレッサのハイパーパラメータである。次の実験は、プロキシ最適化を介して提案される:
【数4】
【0127】
第4に、xprobeが与えられると、ブラックボックス関数が評価され、f(xprobe)を取得する。ブラックボックス関数は、本明細書に記載された例のように、xprobeをf(xprobe)にマッピングする単純なルックアップであってもよい。試験中、実際の実験を実行することによって、f(xprobe)が得られる。上記の第2のステップと同様に、事後分布は、f(xprobe)の結果を考慮して更新されてもよい。次の実験を決定する第3のステップは、更新された事後分布に対して繰り返されてもよい。次に、新しいf(xprobe)でブラックボックス関数を評価する第4のステップを繰り返すことができる。xprobeがxsのセット内にある場合、最適化が収束したと考えられるので、ベイズ最適化ループは終了し得る。
【0128】
VI.C.例示的な方法
図27は、イオン液体ベースの解重合最適化に関連する例示的プロセス2700のフローチャートである。
【0129】
ブロック2710において、プロセス2700は、複数の第1のデータ要素を含む第1のデータセットにアクセスすることを含み得る。複数の第1のデータ要素の各々は、解重合反応を特徴付けることができる。各第1のデータ要素は、解重合の反応物の構造の埋め込み表現と、反応物と特定のポリマーとの間の反応を特徴付ける反応特性値とを含んでもよい。反応物の構造の埋め込み表現は、埋め込み空間内の座標値のセットとして識別されてもよい。例えば、埋め込み空間は、SMILES又はBSP表現から符号化されてもよく、及び/又は本明細書で説明される任意の埋め込み空間であってもよい。埋め込み空間は、相対分散の少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、少なくとも99%、又は100%をキャプチャすることができる。
【0130】
いくつかの実施形態では、埋め込み空間は、PCAから決定された主成分を使用することができる。SMILES、BSP、又は他の表現は、構造に基づいて特性情報を提供することができる記述子に変換することができる。一例として、1,000~1500、1500~2000、又は2000~3000の固定長を有するmordred記述子が使用され得る。次いで、プロセス特徴行列を縮小して、重複エントリ及び空エントリを除去することができる。いくつかの実施形態では、0の値が空エントリに代入されてもよい。特徴行列が取得され得る。特徴行列は正規化されてもよい。特徴行列は、所定の閾値(例えば、0.4、0.5、0.6、0.7、0.8、又は0.9)よりも大きい、及び/又は所定の閾値の負数よりも小さいペアの相関係数を有する列を除去することによって無相関化され得る。PCAは、結果として得られる特徴行列に対して使用され得る。PCAは、3、4、5、5~10、10~15、15~20、20~30、又は30個を超える主成分(PC)をもたらし得る。
【0131】
埋め込み表現は、解重合反応における反応物のセットのうちの反応物の特性を含んでもよい。反応物の特性は、粘度、活量係数、結合タイプ、形成エンタルピー、燃焼熱、又はそれらから導出される特性を含み得る。複数の第1のデータ要素内の反応物は、本明細書で説明される任意のものを含む、イオン液体を含んでもよい。いくつかの実施形態において、反応物はまた、本明細書に記載される任意のものを含む溶媒、及び/又は解重合されるポリマーを含んでもよい。既知の粘度を有する二元イオン液体のための米国国立標準技術研究所(NIST)データベースなどの好適なデータベースに問い合わせて、特性情報を提供することができる。
【0132】
第1のデータセットは、ベイズ最適化のためのシードデータであってもよい。第1のデータ要素は、解重合反応を記述することに関連付けられた変数を含み得る。
【0133】
反応特性値は、解重合反応の出力を特徴付けることができる。出力は、収率、生成物の量、生成物の変換率、選択性、及び/又は利益を含み得る。出力は、反応入力を使用して実験を行う前には知られていないが、実験を行った後には知られている場合がある。コンピューティングデバイスは、第1のデータセットにアクセスし得る。
【0134】
いくつかの実施形態では、複数の第1のデータ要素は、解重合反応の動作条件を特徴付ける反応入力値を含んでもよい。例えば、反応入力変数は、時間、温度、比(例えば、イオン液体対溶媒)、量、コスト、及び/又は圧力を含み得る。複数の第1のデータ要素はまた、埋め込まれても埋め込まれなくてもよい、溶媒の表現を含んでもよい。
【0135】
いくつかの実施形態では、第1のデータセットは、本明細書に記載されるように決定された候補分子を使用する実験から生成され得る。例えば、候補分子は、本明細書で説明される埋め込み空間及び変分オートエンコーダを使用して決定され得る。
【0136】
ブロック2720において、プロセス2700は、反応物構造の埋め込み表現から反応特性値を予測するための予測関数を構築することを含み得る。予測関数を構築することは、第1のデータセットを使用し得る。ベイズ最適化に関して、予測関数は、目的関数、ブラックボックス関数、代用関数、又はガウス過程事前分布であってもよい。関数は、
図26の事後分布2616に関して示されるグラフと同様に、第2の入力データセットに関する確率分布を有する第1の入力データセットに関するいくつかの設定点を有し得る。予測関数は、少なくとも部分的に、ベイズ最適化を使用して選択された分子のセットに対応する訓練データを使用して構築され得る。コンピューティングデバイスは、関数を構築することができる。
【0137】
予測関数を構築することは、第1のデータセットに存在しない反応特性値及び/又は反応入力を推定することを含んでもよい。これらの反応特性値及び/又は第1のデータセットに存在しない反応入力値は、パラメータ(例えば、時間、温度、比率、量、埋め込み空間)が連続的であっても、離散値であってもよい。推定反応特性値及び/又は反応入力値は、ガウス過程によって決定されてもよい。
【0138】
1つ以上の特定の点は、予め定義された離散点であってもよい。例えば、特定の点は、埋め込み空間内にいかなる値も含まないことがあるが、代わりに、1つ以上の特定の点は、埋め込み空間内のいくつかの値のみに限定され得る。埋め込み空間内のこれらの値は、現場の在庫に物理的に存在するか、又は試験されるために利用可能な分子(例えば、イオン液体)に対応し得る。事前定義とは、予測関数が構築される前、又は効用関数が評価される前に決定される1つ以上の特定の点を指すことがある。いくつかの実施形態では、1つ以上の特定の点のうちの1つ以上の特定の点は、複数の第1のデータ要素における埋め込み空間内の座標値のいずれのセットとも同じではない。
【0139】
ブロック2730において、プロセス2700は、効用関数を評価することを含み得る。効用関数は、埋め込み空間内の所与の点を、所与の点について実験的に導出された反応物特性値を識別することが、反応物特性値の精度を改善すると予測される程度を表す効用メトリックに変換することができる。効用関数は、取得関数を評価することによって評価され得る。取得関数は、最適化の過程にわたってregretを最小化することができる。取得関数は、GP信頼上限(UCB)であってもよい。取得関数は、本明細書で説明される任意の取得関数であり得る。効用関数は、全ての最適化ハイパーパラメータが設定された取得関数の具体的な形式であってもよい。効用関数は、調査及び活用の程度に関するパラメータを含むことができる。効用関数は、本明細書で説明される任意の効用関数であり得る。グラフ2628は、効用関数を示す。コンピューティングデバイスは、効用関数を評価することができる。
【0140】
ブロック2740において、プロセス2700は、効用関数に基づいて、埋め込み空間内の1つ以上の特定の点を、高い効用メトリックに対応するものとして識別することができる。例えば、
図26において、グラフ2628は、最大値を示す星印2632を有する効用関数を示す。その最大値に関連付けられた値は、1つ以上の特定の点のうちの1つの点であり得る。
【0141】
ブロック2750において、プロセス2700は、コンピューティングデバイスによって、1つ以上の特定の点のうちの各特定の点について、特定の点に対応する反応物又は特定の点に対応する反応物構造を識別する結果を出力することを含み得る。結果はユーザに表示されてもよい。
【0142】
いくつかの実施形態では、1つ以上の特定の点を識別することは、1つ以上の反応特性値を高効用メトリックに対応するものとして識別することを更に含む。出力は、1つ以上の反応特性値を含む実験手順を含んでもよい。例えば、出力は、反応条件を含み得る。いくつかの実施形態では、プロセス2700は、識別された反応特性値及び/又は反応入力値を用いて実験を行うことを含んでもよい。
【0143】
いくつかの実施形態において、プロセス2700は、反応物の量を含む在庫データストアにアクセスすることを含む。例えば、在庫データストアは、イオン液体又は溶媒の量を含み得る。量は、調整された量を決定するために、1つ以上の特定の点を使用して調整され得る。例えば、1つ以上の特定の点は、nキログラムのイオン液体Aを使用することに対応し得、プロセス2700は、在庫データストア内のAの量からnキログラムのAを減算することを含む。プロセス2700は、調整された量を閾値と比較することを含んでもよい。閾値は、0であってもよく、又は実験に容易に利用可能な最小量を反映する何らかの量であってもよい。調整された量が閾値未満である場合、反応物の追加量について注文が出力され得る。注文は、コンピューティングデバイスから、反応物の購入を管理する別のコンピューティングデバイスに送信されるメッセージであってもよい。
【0144】
いくつかの実施形態において、プロセス2700は、1つ以上の特定の点が、複数の第1のデータ要素における埋め込み空間内の座標値のセットのうちの1つ以上の座標値と等価であると判定することを含んでもよい。プロセス2700は、1つ以上の特定の点が収束解を表すことを伝えるメッセージを出力することを更に含むことができる。コンピューティングデバイスは、ベイズ最適化を終了することができる。例えば、効用関数は再び評価されなくてもよい。
【0145】
いくつかの実施形態では、第1のデータセットは、効用関数を使用して以前に識別された点を含み得る。複数の第1のデータ要素における少なくとも1つの反応特性値を決定するために、効用関数を使用して以前に識別された点を使用して実験が実行されていてもよい。
【0146】
いくつかの実施形態では、本方法は、第2のデータセットを使用して予測関数を更新することを含んでもよい。第2のデータセットは、複数の第2のデータ要素を含み得る。第2のデータ要素は、第1のデータ要素と同じデータ要素を含んでもよい。複数の第2のデータ要素の一部は、出力された結果によって識別される反応物又は反応物構造を使用して実験を実行することから決定され得る。
【0147】
プロセス2700は、以下で、及び/又は本明細書の他の場所で説明された1つ以上の他のプロセスに関して説明した、任意の単一の実装形態、又は実装形態の任意の組合せなどの、追加の実装形態を含んでもよい。
【0148】
図27はプロセス2700の例示的なブロックを示すが、いくつかの実装形態では、プロセス2700は、
図27に示されたもの以外に、追加のブロック、より少数のブロック、異なるブロック、又は異なって構成されたブロックを含んでもよい。追加的又は代替的に、プロセス2700のブロックのうちの2つ以上が並列に実行されてもよい。
【0149】
実施形態はまた、プロセス2700によって識別された1つ以上の特定の点に対応する反応物並びに反応特性値及び/又は反応入力値を用いて実験を行うことから生じる解重合生成物を含んでもよい。
【0150】
実施形態はまた、実験を行う方法を含んでもよい。本方法は、プロセス2700によって識別された1つ以上の特定の点に対応する反応物質及び/又は反応入力値を用いて実験を行うことを含み得る。
【0151】
実施形態はまた、イオン液体及び/又は溶媒を含む反応物を取得する方法を含んでもよい。反応物若しくは溶媒の同一性及び/又は反応物若しくは溶媒の量は、プロセス2700によって識別された1つ以上の特定の点に対応する反応物及び/又は反応入力値によって決定されてもよい。
【0152】
実施形態はまた、プロセス2700によって識別された後に取得される反応物及び/又は溶媒を含んでもよい。
【0153】
VI.D.例示的な実装形態
ベイズ最適化のためにイオン液体の次元数を縮小するための手法が記載される。加えて、縮小された次元数を使用し、離散サンプリング手法をGPを介してベイズ最適化に適用する3つの例が提供される。混合エンタルピーは、モル分率及び化学空間にわたって最小化される。更に、ベイズ最適化手法は実際の解重合実験で試験され、結果は、プロセスがポリ乳酸(PLA)変換率及び収率を予測するのに十分に機能することを示す。
【0154】
VI.D.1.次元縮小
次元縮小の例を説明する。イオン液体に関する物理的特性情報(例えば、粘度)にアクセスすることができる。例えば、pyilt2report(wgserve.de/pyilt2/pyilt2report.html)(2021年9月15日にアクセス)を使用して、既知の粘度を有する全ての二元イオン液体(IL)について、米国国立標準技術研究所(NIST)に問い合わせた。
【0155】
イオン液体中の陽イオン及び陰イオンを、国立衛生研究所(NIH)のPower User Gateway(PUG)ウェブインタフェースなどのルックアップテーブルに問い合わせることによって、SMILES表現に変換した。
【0156】
SMILES表現は、mordred記述子(github.com/mordred-descriptor/mordred)(2021年9月15日にアクセス)に変換され、その各々は1,826の固定長のベクトルであった。陰イオンmordred記述子を、二元ILの陽イオンmordred記述子に付加した。NaN(数字ではない)値は0で埋められた。形状117×3,652の矩形特徴行列を作成した。3,652の長さは、陽イオン及び陰イオンの両方についてベクトルを付加した結果として、1,826の固定長の2倍である。117は、データセット内の二元ILの数である。
【0157】
特徴行列は、サイズが縮小され得る。3,652列の各々について、それらの対応する平均を減算し、n-1(例えば、116)で除算した。この正規化は、単にそれらの値の大きさが他の列よりも高いために有意であるように見える列を回避することができる。特徴行列は、列のペアの相関を計算し、相関係数>0.5又は相関係数<-0.5を有する列を除去することによって無相関化された。特徴行列は、高い相関に基づく重複である列インデックスを含み、重複する各列のうちの1つを保持した。各列を順番に取り出し、他の全ての列との列の相関を計算した。高い相関を有するこれらの他の列のいずれも除去される。相関を分析し、列を除去するプロセスは、残りの列について繰り返される。この例では、無相関化の後、特徴行列は形状117×26を有する。
【0158】
この処理された特徴行列に対して主成分分析(PCA)を実行した。最初の4つの主成分(PC)は、相対分散の95%超をキャプチャした。これら4つの主成分をベイズ最適化に使用した。
【0159】
要約すると、化学空間の変換を容易にするために使用される4つの情報が集められた:(1)列を正規化する際に使用するための二元ILデータセットにおける列の平均、(2)データベースにおいてアクセス可能な二元サンプル、(3)組み合わされた陽イオン記述子及び陰イオン記述子からの高度に相関した列、及び(4)無相関化後の特徴行列からの主成分。
【0160】
PCによって提供される縮小された次元数は、ベイズ最適化プロセスにおいて使用された。全ての観測値(例えば、
図26のx
obs及びx
s)は、rxnData及びrxnDataResultsと呼ばれるアレイに格納された。4つのPCに対応する列(ilPC1、ilPC2、ilPC3、ilPC4)は、rxnDataに含まれる。加えて、rxnDataは、溶媒の選択など、ILの単なる選択よりも多くの変数を有した。より一般的には、ガウス過程(GP)で使用されるrxnDataの列が、ベイズ最適化で使用される。同様に、rxnDataResultsは、2つ以上の標的列(例えば、収率及び変換率)を有することができる。第1の標的値が訓練に使用された。
【0161】
MITライセンスを介して利用可能なオープンソースのBayesianOptimization(github.com/fmfn/BayesianOptimization)(2021年9月15日にアクセスされた)パッケージが使用され得る。パッケージは、アレイのカスタム入力に適合させた。
【0162】
ガウス過程事前分布は、本明細書で説明されるように構築された。滑らかに変化する(すなわち、2回微分可能)関数を表すための標準的な選択肢である、ν=2.5のMaternカーネルを使用した。(例えば、事後分布2616で説明したように)事後分布が構築される。次の実験を決定する。指定された取得関数と共に事後分布を使用して、全ての最適化ハイパーパラメータが設定された取得関数の具体的な形である効用関数、U(x
s)を構築した。使用した取得関数は、これは最適化の過程にわたってregretを最小化する、GP信頼上限(UCB)である:
【数5】
効用関数はパラメータκ=2.576,x
i=0を有していた。
【0163】
VI.D.2.モル分率及び温度にわたる混合エンタルピーの最小化
ベイズ最適化を適用して、イオン液体と溶媒のペアを混合する最低エンタルピーを決定した。上記で決定されたイオン液体のPCを、ベイズ最適化に使用した。最も低い混合エンタルピーは、混合が最も有利であることを示す。NISTデータベースにおける全ての二元混合物の混合エンタルピーに関するデータを収集した。データは、214IL及び溶媒ペアに相当し、各ペアは、溶媒モル分率及び温度の関数として混合エンタルピーについての様々な量のデータを有する。一次では、混合エンタルピーは、正規の溶液混合モデルとして記述することができ:Hmix=ΩxAxB、式中、Ωは混合パラメータであり、Ω>0の場合は混合を好まず、Ω<0の場合は混合を好む。二元系、xA+xB=1を有するので、一次では、混合エンタルピー対モル分率の関係は二次式である。
【0164】
Ω<0の場合のエンタルピーの最小化は、Ω>0の場合ほど興味深いものではないため、研究されている(最小値はx=0又はx=1.0で発生する)。
図28A及び28Bは、溶媒モル分率x
obsにわたるH
mixの最小化にベイズ最適化を適用した結果を示す。
【0165】
図28A及び
図28Bは、両方とも同じ効用関数を有する2つのサンプリング手法を示す。x軸はモル分率を示す。上のグラフのy軸は、ブラックボックス関数を示す。破線2804及び2808は、ブラックボックス関数の平均を示す。陰影のある青緑色の領域(例えば、領域2812及び2816)は、ブラックボックス関数について3σを示す。観測値x
s(例えば、点2820及び2824)は赤色であり、観測値x
obs(例えば、点2828及び2832)は緑色である。黄色の星(例えば、星2836及び2850)は、効用関数を最大化する点であるx
probeである。
【0166】
図28Aにおいて、最小化は連続空間にわたって行われ、モル分率xの全ての値についてf(x)の滑らかに変化する評価によって証明された。10回の反復の終わりに、効用関数が大域的最小値から離れた次の実験(すなわち、星2836に対応するモル分率)を示唆するので、ベイズ最適化は解に収束しなかった。
【0167】
図28Bでは、所与の情報(すなわち、緑色の点及び赤色の点によって示されるグラウンドトルース)のみに対するf(x)の評価によって証明されるように、最小化が離散空間にわたって行われ、8回の反復の終わりに、大域的最小値であるx=0.2052に収束した。
【0168】
この実施例では、ブラックボックス関数としての混合エンタルピーが首尾よく実証された。混合エンタルピーの大域的最小値は、離散サンプリングを用いたベイズ最適化について見出された。他方で、連続的な場合における10回の反復の終わりまでに、x~約0.60のモル分率が次の実験として示唆され、これは、8回の反復後の離散的な場合において到達したx=0.2052の大域的最小値からかけ離れていた。したがって、離散最適化は、連続最適化よりも効率的かつ安価であった。モル分率は連続変数であり、離散変数ではないので、この結果は驚くべきことであり、モル分率を離散変数として考慮することが、モル分率を連続変数として考慮することよりも効率的かつ安価な最適化をもたらすとは予想されなかった。
【0169】
VI.D.3.化学空間にわたる混合エンタルピーの最小化
異なる分子及び化学にわたるGPを介したベイズ最適化を行った。上記で決定されたイオン液体のPCを、ベイズ最適化に使用した。混合エンタルピーは、離散取得関数のみを使用して、新しいイオン液体及び溶媒ペアの化学空間の全てにわたって最小化される。ブラックボックス関数はこの場合f(xsolvent,T,IL,solvent)=Hmixであり、式中、xsolventは溶媒のモル分率であり、Tは温度であり、ILはイオン液体であり、solventは溶媒であり、Hmixは混合エンタルピーである。ブラックボックス関数は、一次でも解析的に書くことができない。
【0170】
ベイズ最適化をシードするために与えられたシード実験のサイズは、「バンドル」と考えられた。各「バンドル」は、所与のイオン液体及び溶媒ペア対Hmixについての全てのモル分率及び温度データを含んでいた。バンドルは、プロセス2700の複数の第1のデータ要素(この例では、イオン液体、溶媒、モル分率)及び関連付けられた1つ以上の出力値(この例では、Hmix)と同様の情報を含んでもよい。モル分率によってではなく、イオン液体及び溶媒ペアによってバンドルを分離することは、溶媒と共に使用されるイオン液体を購入するコストが、ILに対する溶媒の異なるモル分率を生成するコストよりもはるかに大きいので、シード実験にとって現実的な設定である。換言すれば、ILが購入又は作製される場合、熱力学的データは、モル分率の範囲について容易に利用可能であるか又は入手可能である。
【0171】
表6は、特定のバンドルサイズが与えられた5回の単一追加実験で見出された最小エンタルピーを探索した100回の試験平均結果を示す。シードバンドルサイズは1から7まで変化した。100回の試験にわたる平均が、混合の開始最小エンタルピー(バンドル内)と混合の最終エンタルピーとの間の平均差、又は最小化の改善と共に示されている。差が大きいほど、モデルは良好に実験の成功を示唆した。
【0172】
バンドルサイズが大きいほど、実験を提案するために、より多くの化学的及び熱力学的データがモデルに提供された。任意のベイズ最適化が実行される前に、より多くのバンドルを伴うより多くのデータが利用可能であるため、平均最小エンタルピーは、初期シードバンドルサイズの増加と共に減少することが予期される。
【0173】
興味深いことに、平均最小エンタルピーの減少に加えて、平均差(ベイズ最適化提案に基づく改善)もまた、表6に示されるように、より大きなバンドルサイズで増加した。したがって、シードデータとして提供されるより多くの化学情報により、より大きな改善を伴う反応が示唆された。
【0174】
印象的なことに、4つのバンドル及び5つの更なる実験を用いて、このモデルは、化学的空間及び熱力学的空間にわたって探索し、NISTデータベースにおける全ての他の二元混合エンタルピーの97%より低い混合エンタルピーを生じる条件を見出した(n=4672)。
【表6】
【0175】
VI.D.4.PLA変換率及び収率の最大化
ポリ乳酸(PLA)の解重合にベイズ最適化を適用した。上記で決定されたイオン液体のPCを、ベイズ最適化に使用した。変換率(C)及び収率(Y)は最適化の対象である。変換率は、出発プラスチックの量に対する全生成物の量であり、収率は、出発プラスチックの量に対する標的モノマーの量である。ブラックボックスモデルは次の通りである:
【数6】
【0176】
PLAの解重合に関する実験(nobs=94)を文献レビューから収集した。これらの精選された実験は、ベイズ最適化のためのxobsとして機能した。実験はバイアスされた母集団を表すので(成功した実験は公開され、不成功の実験は公開されない)、ベイズ最適化は現実的な観測空間の影響を受けない。したがって、ベイズ最適化性能は、ベースラインのランダムドローシナリオと比較された。純粋なベイズ手法(1回のシード実験及び5回のベイズ最適化ステップ)を純粋なランダム手法(6回のランダムに選択された実験)と比較し、100回の試験を平均した。
【0177】
各試験は、全94回の精選された実験からランダムに抽出されたピッキングnSeed(シード実験の数)を含んでいた。次に、nExp(追加の実験)が提案され、「実行」される(この場合、rxnDataResultsで検索される)。実験の総数を一定に保った。6回の実験の終わりに、最大変換率又は収率を確認した。変換率(収率)が95%(85%)を超える場合、試験は成功であった。
【0178】
表7は、変換率及び収率を予測するために100回の試験を行った結果を示す。ベイズ最適化からの100回の試験平均(nSeed/nExp=1/5)を、ランダムドロー(nSeed/nExp=6/0)と比較した。変換率の結果は左側にあり、収率の結果は右側にある。成功率(%)は、最大化された反応が変換率については95%超であり、収率については85%超である平均尤度である。差は、nSeedの最大値とプロセス全体の最大値との平均差である(nSeed、nExp)。nSeed/nExp=6/0において反復がないので、差分は0%である。
【表7】
【0179】
これらの結果に基づいて、純粋なベイズ手法が最も成功した手法であり(変換率について100%の成功率、収率について99%の成功率)、ベイズモデルは、バイアスされたデータセットにもかかわらず、ランダムドローより性能が優れていた。
【0180】
VI.D.5.混合廃棄物の解重合
ベイズ最適化手法は、混合廃棄物(PET/PLA混合物など)、汚染廃棄物(変換率及び収率を縮小させることが予想される現実世界の課題)、及び学術研究においてまだ対処されていない非常に見落とされた廃棄物流(黒色プラスチック)を解重合するための反応に適用される。本明細書に記載されるイオン液体の埋め込み空間は、解重合反応を最適化する際に使用される。
【0181】
VII.システム環境
図29は、本開示のいくつかの実施形態として実装されるコンピューティングシステム2900の例示的なアーキテクチャである。コンピューティングシステム2900は、好適なコンピューティングシステムの一例にすぎず、本開示の使用又は機能の範囲に関していかなる限定も示唆することを意図していない。また、コンピューティングシステム2900は、コンピューティングシステム2900に示される構成要素のいずれか1つ又は組合せに関連する何らかの依存関係又は要件を有するものとして解釈されるべきではない。
【0182】
図29に示すように、コンピューティングシステム2900は、コンピューティングデバイス2905を含む。コンピューティングデバイス2905は、クラウド環境内などのネットワークインフラストラクチャ上に常駐することができ、又は別個の独立したコンピューティングデバイス(例えば、サービスプロバイダのコンピューティングデバイス)であり得る。コンピューティングデバイス2905は、バス2910と、プロセッサ2915と、記憶デバイス2920と、システムメモリ(ハードウェアデバイス)2925と、1つ以上の入力デバイス2930と、1つ以上の出力デバイス2935と、通信インタフェース2940と、を含み得る。
【0183】
バス2910は、コンピューティングデバイス2905の構成要素間の通信を可能にする。例えば、バス2910は、コンピューティングデバイス2905の様々な他の構成要素へ、そこから、又はそれらの間でデータ及び/又は電力を転送するための1つ以上の有線若しくは無線通信リンク又は経路を提供するために様々なバスアーキテクチャのいずれかを使用する、メモリバス又はメモリコントローラ、周辺バス、及びローカルバスを含むいくつかのタイプのバス構造のいずれかであり得る。
【0184】
プロセッサ2915は、本開示の機能、ステップ、及び/又はパフォーマンスを実行するためのコンピューティングデバイス2905の様々な他の構成要素のうちの1つ以上の動作及び性能を制御するためのプログラム命令などのコンピュータ可読プログラム命令を解釈及び実行するように動作可能な処理回路を含む、1つ以上のプロセッサ、マイクロプロセッサ、又は特殊化された専用プロセッサであり得る。特定の実施形態では、プロセッサ2915は、コンピュータ可読プログラム命令によって動作可能に実行され得る本開示のプロセス、ステップ、機能、及び/又は動作を解釈及び実行する。例えば、プロセッサ2915は、イオン液体特性を検索、例えば、インポート及び/又は別様に取得若しくは生成し、分子情報を埋め込み空間内に符号化し、埋め込み空間内の点を分子内に復号し、予測関数を構築し、効用関数を評価することができる。実施形態では、プロセッサ2915によって取得又は生成された情報は、記憶デバイス2920に記憶され得る。
【0185】
記憶デバイス2920は、磁気及び/又は光記録媒体並びにそれらの対応するドライブなどの非一時的機械可読記憶媒体などの、リムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ可読媒体を含むことができるが、これらに限定されない。ドライブ及びそれらの関連するコンピュータ可読媒体は、本開示の異なる態様によるコンピューティングデバイス2905の動作のためのコンピュータ可読プログラム命令、データ構造、プログラムモジュール、及び他のデータの記憶を提供する。実施形態において、記憶デバイス2920は、本開示の態様に従って、オペレーティングシステム2945、アプリケーションプログラム2950、及びプログラムデータ2955を記憶し得る。
【0186】
システムメモリ2925は、例えば、フラッシュメモリなどの非一時的機械可読記憶媒体、読み取り専用メモリ(「ROM」)などの永久メモリ、ランダムアクセスメモリ(「RAM」)などの半永久メモリ、任意の他の好適なタイプの非一時的記憶構成要素、又はそれらの任意の組合せを含む、1つ以上の記憶媒体を含み得る。いくつかの実施形態では、起動中などにコンピューティングデバイス2905の様々な他の構成要素間で情報を転送するのを助ける基本ルーチンを含む入力/出力システム2960(BIOS)が、ROMに記憶され得る。加えて、オペレーティングシステム2945、プログラムモジュール、アプリケーションプログラム2950、及び/又はプログラムデータ2955の少なくとも一部分などのデータ及び/又はプログラムモジュール2965は、プロセッサ2915によってアクセス可能であり、及び/又は現在操作されており、RAM内に含まれ得る。実施形態では、プログラムモジュール2965及び/又はアプリケーションプログラム2950は、例えば、スペクトルデータを識別及び注釈付けするための処理ツール、データ構造にメタデータを付加するためのメタデータツール、並びにスペクトルを予測するための1つ以上のエンコーダネットワーク及び/又はエンコーダ-デコーダネットワークを含むことができ、これはプロセッサ2915の実行のための命令を提供する。
【0187】
1つ以上の入力デバイス2930は、オペレータがコンピューティングデバイス2905に情報を入力することを可能にする1つ以上の機構を含み得、タッチパッド、ダイヤル、クリックホイール、スクロールホイール、タッチスクリーン、1つ以上のボタン(例えば、キーボード)、マウス、ゲームコントローラ、トラックボール、マイクロフォン、カメラ、近接センサ、光検出器、モーションセンサ、バイオメトリックセンサ、及びこれらの組合せを含むが、これらに限定されない。1つ以上の出力デバイス2935は、オーディオスピーカ、ヘッドフォン、オーディオラインアウト、ビジュアルディスプレイ、アンテナ、赤外線ポート、触覚フィードバック、プリンタ、又はそれらの組合せなど、情報をオペレータに出力する1つ以上の機構を含み得るが、これらに限定されない。
【0188】
通信インタフェース2940は、コンピューティングデバイス2905が、モバイルデバイスなどのリモートデバイス又はシステム、あるいは例えばクラウド環境などのネットワーク化された環境内のサーバなどの他のコンピューティングデバイスと通信することを可能にする、任意の送受信機のような機構(例えば、ネットワークインタフェース、ネットワークアダプタ、モデム、又はそれらの組合せ)を含み得る。例えば、コンピューティングデバイス2905は、通信インタフェース2940を使用して、1つ以上のローカルエリアネットワーク(local area network、LAN)及び/又は1つ以上のワイドエリアネットワーク(wide area network、WAN)を介してリモートデバイス又はシステムに接続され得る。
【0189】
本明細書で説明されるように、コンピューティングシステム2900は、構造文字列として得られた材料の構造表現から特徴的なスペクトル特徴を予測するためにエンコーダ-デコーダネットワークを訓練するように構成され得る。特に、コンピューティングデバイス2905は、システムメモリ2925などの非一時的機械可読記憶媒体に含まれるプログラム命令をプロセッサ2915が実行することに応答して、タスク(例えば、プロセス、ステップ、方法及び/又は機能)を実行し得る。プログラム命令は、データ記憶デバイス2920などの別のコンピュータ可読媒体(例えば、非一時的機械可読記憶媒体)から、又は通信インタフェース2940若しくはクラウド環境内若しくは外のサーバを介して別のデバイスから、システムメモリ2925に読み込まれ得る。実施形態では、オペレータは、1つ以上の入力デバイス2930及び/又は1つ以上の出力デバイス2935を介してコンピューティングデバイス2905と対話して、本開示の態様によるタスクの実行を容易にし、かつ/又はそのようなタスクの最終結果を実現し得る。追加又は代替実施形態では、本開示の異なる態様と一致するタスク、例えば、ステップ、方法、及び/又は機能を実行するために、プログラム命令の代わりに、又はプログラム命令と組み合わせて、ハードワイヤード回路が使用され得る。したがって、本明細書で開示されるステップ、方法、及び/又は機能は、ハードウェア回路及びソフトウェアの任意の組合せで実行され得る。
【0190】
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムが、1つ以上のデータプロセッサ上で実行されたときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部若しくは全部及び/又は1つ以上のプロセスの一部又は全部を実施させる命令を含む、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品を含み、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部若しくは全部及び/又は1つ以上のプロセスの一部若しくは全部を実施させるように構成された命令を含む。
【0191】
用いられている用語及び表現は、説明の用語として使用され、限定するものではなく、示され、説明された特徴の任意の均等物、又はその一部分を除外するそのような用語及び表現の使用における意図は存在しないが、特許請求の範囲の本発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び任意選択的な特徴により具体的に開示されているが、本明細書に開示される概念の修正及び変形が、当業者によって行われ得、そのような修正及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
【0192】
説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性、又は構成を限定することを意図されない。むしろ、好ましい例示的な実施形態の説明は、当業者に様々な実施形態を実施することを可能にする説明を提供する。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置において様々な変更がなされ得ることが理解される。
【0193】
具体的な詳細は、実施形態の完全な理解を提供するために、以下の説明に与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図の形態で構成要素として示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。
【0194】
「1つの(a)」、「1つの(an)」又は「その(the)」の記載は、特に反対の指示がない限り、「1つ以上」を意味することが意図される。「又は(or)」を用いた場合、特に反対の記載がない限り、「排他的論理和(含まずに「又は」)」ではなく「包含的論理和(含んで「又は」)」を意味することが意図されている。「第1の」構成要素に言及した場合、必ずしも第2の構成要素が提供されるとは限らない。また、「第1の」構成要素又は「第2の」構成要素への言及は、明記がない限り、言及した構成要素を特定の位置に限定しない。用語「~に基づいて(based on)」は「~に少なくとも部分的に基づいて(based at least in part on)」を意味することが意図されている。
【0195】
特許請求の範囲は、任意であり得る任意の要素を除外するように起草され得る。そのため、この記述は、特許請求の範囲の要素の記載又は「否定的な」限定の使用に関連して、「単に」、「のみ」のような排他的な用語などを使用するための前提条件として役立つことが意図される。
【0196】
値の範囲が提供される場合、文脈上明確に指示されない限り、その範囲の上限と下限との間の、下限の単位の10分の1までの各介在値も具体的に開示されることが理解される。記載された範囲内の任意の記載された値又は介在値と、その記載された範囲内の任意の他の記載された値又は介在値との間の各々のより小さい範囲は、本開示の実施形態内に包含される。これらのより小さい範囲の上限及び下限は、独立して範囲に含まれてもよく、又は除外されてもよく、いずれかの、いずれの、又は両方の限界がより小さい範囲に含まれる各範囲もまた、記載された範囲内の任意の具体的に除外された限界を条件として、本開示内に包含される。記載された範囲が限界の一方又は両方を含む場合、それらの含まれる限界のいずれか又は両方を除外する範囲もまた、本開示に含まれる。
【0197】
本明細書で言及される全ての特許、特許出願、刊行物、及び説明は、あたかも各個々の刊行物又は特許が参照により組み込まれることが具体的かつ個別に示されているかのように、その全体が参照により本明細書に組み込まれ、刊行物が引用される関連する方法及び/又は材料を開示及び説明するために参照により本明細書に組み込まれる。従来技術であると認められるものはない。
【手続補正書】
【提出日】2024-07-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータ実装方法であって、
分子の埋め込みを前記分子の所与の特性の予測値に関連付けることをサポートする多次元埋め込み空間にアクセスすることと、
前記予測値に基づいて前記多次元埋め込み空間内の1つ以上の関心点を識別することであって、前記1つ以上の関心点の各々は、
前記多次元埋め込み空間内の座標値のセットを含み、
前記分子内の原子又は結合の空間情報を伝達し、
前記所与の特性の対応する予測値に関連付けられている、前記1つ以上の関心点を識別することと、
前記1つ以上の関心点の各々について、デコーダネットワークを使用して、前記関心点に含まれる前記座標値のセットを変換することによって、分子の構造表現を生成することであって、前記デコーダネットワークの訓練は、前記埋め込み空間内の位置を分子構造特性を表す出力に変換する学習を含み、前記デコーダネットワークの前記訓練は、エンコーダネットワークの訓練と少なくとも部分的に同時に実施された、前記分子の構造表現を生成することと、
前記1つ以上の関心点の各々について、前記関心点に対応する前記分子の前記構造表現を識別する結果を出力することと、
を含む、コンピュータ実装方法。
【請求項2】
前記エンコーダネットワークの訓練は、分子の部分的又は完全な結合文字列及び位置(BSP)表現を前記埋め込み空間内の位置に変換する学習を含み、各BSP表現は、前記表現された分子内の結合によって接続された原子の相対位置を識別する、請求項1に記載の方法。
【請求項3】
前記エンコーダネットワークを訓練するために使用される前記分子の各BSP表現は、前記表現された分子内の前記結合によって接続された前記原子の各々についての座標のセットを含み、前記表現された分子内の前記結合によって接続された前記原子の各々を更に識別する、請求項2に記載の方法。
【請求項4】
前記分子の前記BSP表現は、それぞれの分子内の少なくともいくつかの結合の各々について、結合タイプを識別するように、前記エンコーダネットワークを訓練するために使用される、請求項2又は3に記載の方法。
【請求項5】
前記結果において識別される前記構造表現のフォーマットは、前記BSP表現とは異なる、請求項2又は3に記載の方法。
【請求項6】
前記エンコーダネットワークの訓練は、分子の部分的又は完全な分子グラフ表現を前記埋め込み空間内の位置に変換する学習を含み、各分子グラフ表現は、前記表現された分子内の結合の角度及び距離を識別する、請求項1に記載の方法。
【請求項7】
前記デコーダネットワーク及び前記エンコーダネットワークは、セルフアテンションを使用するトランスフォーマモデルを訓練することによって訓練され、前記トランスフォーマモデルは、前記デコーダネットワーク及び前記エンコーダネットワークを含む、請求項1~3のいずれか一項に記載の方法。
【請求項8】
前記デコーダネットワーク及び前記エンコーダネットワークは、アテンションヘッドを含むトランスフォーマモデルを訓練することによって訓練された、請求項1又は6に記載の方法。
【請求項9】
前記エンコーダネットワーク及び前記デコーダネットワークを含む機械学習モデルを、
補足訓練要素のセットにアクセスすることであって、前記訓練要素のセットの各々は、対応する所与の分子の構造の表現を含む、前記補足訓練要素のセットにアクセスすることと、
前記補足訓練要素のセット内の各補足訓練要素について、前記表現の少なくとも一部をマスクして、前記対応する所与の分子の前記構造の少なくとも一部を不明瞭にすることと、
前記機械学習モデルを訓練して、前記構造の前記不明瞭にされた少なくとも一部を予測することと、によって訓練することを更に含む、請求項1~3のいずれか一項に記載の方法。
【請求項10】
前記エンコーダネットワークの訓練は、前記空間内の位置を前記所与の特性の値に対応する予測に変換するように、前記エンコーダネットワークを微調整することを更に含む、請求項1~3のいずれか一項に記載の方法。
【請求項11】
システムであって、
1つ以上のデータプロセッサと、
命令を含む非一時的コンピュータ可読記憶媒体と、を備え、前記命令は、前記1つ以上のデータプロセッサ上で実行されたときに、前記1つ以上のデータプロセッサに、請求項1~3のいずれか一項に記載の方法を実施させる、システム。
【請求項12】
非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、請求項1~3のいずれか一項に記載の方法を実施させるように構成された命令を含む、コンピュータプログラム製品。
【国際調査報告】