(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024173796
(43)【公開日】2024-12-12
(54)【発明の名称】機械学習により分子の特性を決定するための高度な方法およびシステム
(51)【国際特許分類】
G16C 20/30 20190101AFI20241205BHJP
G16C 20/70 20190101ALI20241205BHJP
【FI】
G16C20/30
G16C20/70
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024087883
(22)【出願日】2024-05-30
(31)【優先権主張番号】18/325,787
(32)【優先日】2023-05-30
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】514180812
【氏名又は名称】ダッソー システムズ アメリカス コーポレイション
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】ヨハネス アルフレッド フーゴー シュヴェーベル
(72)【発明者】
【氏名】サビーヌ シュヴァイツァー
(72)【発明者】
【氏名】クワン スキナー
(72)【発明者】
【氏名】ラリサ スブラマニアン
(57)【要約】
【課題】実施形態は、環境中の分子の特性を決定する。
【解決手段】こうした一実施形態は、分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築する。構築された一つ以上の3D構造モデルの各々について、(i)環境を表す表面モデルが生成され、表面モデルは複数のセグメントを含み、生成された表面モデルは、3D構造モデルの原子の示された位置と複数のセグメントとの間の関係を定義し、(ii)機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷(例えば、電荷)および化学ポテンシャルが予測される。実施形態は、補足的な機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、3D構造モデルに対応するエネルギーをさらに予測する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
環境中の分子の特性を決定するためのコンピュータ実装方法であって、前記方法が、
前記分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することと、
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を決定することであって、
前記環境を表す表面モデルを生成することであって、前記表面モデルが複数のセグメントを含み、前記生成された表面モデルが、前記3D構造モデルの前記原子の前記示された位置と前記複数のセグメントとの間の関係を定義する、ことと、
機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、であることと、を含む、コンピュータ実装方法。
【請求項2】
前記機械学習モデルが、第一の機械学習モデルおよび第二の機械学習モデルを含み、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを予測することが、
前記第一の機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷を予測することと、
前記第二の機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記化学ポテンシャルを予測することと、を含む、請求項1に記載の方法。
【請求項3】
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を決定することが、
補足的な機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記3D構造モデルに対応するエネルギーを予測することをさらに含む、請求項1に記載の方法。
【請求項4】
前記構築された一つ以上の3D構造モデルの各3D構造モデルが、前記分子のそれぞれの配座異性体に対応する、請求項1に記載の方法。
【請求項5】
前記機械学習モデルが、ニューラルネットワークを含む、請求項1に記載の方法。
【請求項6】
前記ニューラルネットワークが、一つ以上の隠れ層を含み、前記ニューラルネットワークが、前記一つ以上の隠れ層の一つ以上の節点で活性化関数を採用するように構成される、請求項5に記載の方法。
【請求項7】
前記活性化関数が、正規化線形活性化関数およびソフトマックス関数のうちの一つである、請求項6に記載の方法。
【請求項8】
訓練データセットに基づいて、前記機械学習モデルを訓練することをさらに含む、請求項1に記載の方法。
【請求項9】
前記機械学習モデルが、ニューラルネットワークを含み、前記訓練データセットに基づいて前記機械学習モデルを訓練することが、
前記訓練データセットに基づいて、前記ニューラルネットワークの一つ以上のネットワーク重みを反復的に更新することによって、前記ニューラルネットワークを訓練することを含む、請求項8に記載の方法。
【請求項10】
前記訓練データセットに基づいて、前記ニューラルネットワークの前記一つ以上のネットワーク重みを反復的に更新することが、適応モーメント推定ソルバーアルゴリズムおよび早期停止アルゴリズムのうちの一つ以上を採用することを含む、請求項9に記載の方法。
【請求項11】
前記訓練データセットが、例示的な分子、例示的な配座異性体、例示的なセグメント、例示的なセグメント電荷、例示的なセグメント化学ポテンシャル、および例示的な連続体モデルエネルギーのうちの一つ以上のデータを含む、請求項8に記載の方法。
【請求項12】
前記機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを予測することが、
前記3D構造モデルに基づいて入力特徴データを導出することと、
前記機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデル、および前記導出された入力特徴データに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを予測することと、を含む、請求項1に記載の方法。
【請求項13】
前記導出された入力特徴データが、原子タイプ、原子間距離、原子セグメント距離、結合タイプ、結合角、ねじれ角、形式電荷、3D原子位置、および原子タイプに固有の特徴のうちの一つ以上の表示を含む、請求項12に記載の方法。
【請求項14】
一つ以上のユーザ要件を受信することと、
複数の候補分子の各候補分子について、前記構築および前記特性の決定を行うことと、
所与の分子の前記決定された特性および前記受信した一つ以上のユーザ要件に基づいて、前記複数の候補分子の中から前記所与の分子を選択することと、をさらに含む、請求項1に記載の方法。
【請求項15】
前記機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを予測することが、
前記複数のセグメントの一つ以上の残留電荷を補正することと、
前記複数のセグメントの前記補正された一つ以上の残留電荷に基づいて、前記複数のセグメントの全体的な形式電荷を決定することであって、前記決定された全体的な形式電荷が、前記複数のセグメントの前記予測される電荷である、ことと、を含む、請求項1に記載の方法。
【請求項16】
前記分子の前記原子の位置を示す前記一つ以上の3D構造モデルを構築することが、原子タイプ、座標、および化学結合性のうちの一つ以上の表示に基づく、請求項1に記載の方法。
【請求項17】
前記分子の前記原子の位置を示す前記一つ以上の3D構造モデルを構築することが、ルールベースの幾何モデル、力場、および量子化学的に導出された幾何モデルのうちの一つ以上を採用することを含む、請求項1に記載の方法。
【請求項18】
前記環境を表す前記表面モデルを生成することが、空洞構築モデルを採用することを含む、請求項1に記載の方法。
【請求項19】
環境中の分子の特性を決定するためのコンピュータベースのシステムであって、前記システムが、
プロセッサと、
コンピュータコード命令がその上に格納されたメモリであって、前記プロセッサおよび前記メモリが、前記コンピュータコード命令を用いて、前記システムに、
前記分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することと、
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を決定することであって、
前記環境を表す表面モデルを生成することであって、前記表面モデルが複数のセグメントを含み、前記生成された表面モデルが、前記3D構造モデルの前記原子の前記示された位置と前記複数のセグメントとの間の関係を定義する、ことと、
機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、であることと、を行わせるように構成されている、メモリと、を含む、システム。
【請求項20】
環境中の分子の特性を決定するための非一時的コンピュータプログラム製品であって、前記コンピュータプログラム製品が、ネットワークにわたり一つ以上のクライアントと通信するサーバによって実行され、
コンピュータ可読媒体であって、前記コンピュータ可読媒体が、一つ以上のプロセッサによって実行されるとき、前記一つ以上のプロセッサに、
前記分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することと、
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を決定することであって、
前記環境を表す表面モデルを生成することであって、前記表面モデルが複数のセグメントを含み、前記生成された表面モデルが、前記3D構造モデルの前記原子の前記示された位置と前記複数のセグメントとの間の関係を定義する、ことと、
機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、であることと、を行わせる、プログラム命令を含む、コンピュータ可読媒体を含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習により分子の特性を決定するための高度な方法およびシステムに関する。
【背景技術】
【0002】
凝縮された環境中の分子の量子化学的特性を決定するための既存のアプローチは、小分子または中分子に限定される。さらに、連続体溶媒和モデルの既存のアプローチは、分子のサイズおよび複雑さに応じて計算上の要求水準が高く、および/または精度はより低い。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】[1] A. Klamt, G. Schuurmann (1993). “COSMO: a new approach to dielectric screening in solvents with explicit expressions for the screening energy and its gradient”. J. Chem. Soc. Perkin Trans.2(5):799-805.doi:10.1039/P29930000799
【0004】
【非特許文献2】[2] A. Klamt (2005). “From Quantum Chemistry to Fluid Phase Thermodynamics and Drug Design”. Boston, MA, USA: Elsevier. ISBN 9780444519948
【0005】
【非特許文献3】[3] P.C. Petris, P. Becherer, J.G.E.M. Fraaije (2021). “Alkane/water partition coefficient calculation based on the modified AM1 method and internal hydrogen bonding sampling using COSMO-RS”. J. Chem. Inf. Model. 61 (7): 3453-3462. doi:10.1021/acs.jcim.0c01478
【0006】
【非特許文献4】[4] M. Hornig, A. Klamt (2005). “COSMOfrag:a novel tool for high-throughput ADME property prediction and similarity screening based quantum chemistry”. J. Chem. Inf. Model. 45: 1169-1177. doi:10.1021/ci0501948
【0007】
【非特許文献5】[5] A. Klamt, M. Diedenhofen (2018). “A refined cavity construction algorithm for the conductor-like screening model”. J. Comput. Chem. 39: 1648-1655. doi:10.1002/jcc.25342
【0008】
【非特許文献6】[6]Schutt et al. (2018). “SchNet - A deep learning architecture for molecules and materials”. J. Chem. Phys. 148: 241722 (2018); doi:10.1063/1.501977
【発明の概要】
【0009】
したがって、凝縮された環境中での分子、例えば、大分子の特性を決定するための精度および計算効率が改善された機能性が必要である。実施形態は、こうした機能性を提供する。
【0010】
こうした一実施形態は、分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することによって、この機能性を提供する。次に、そのような実施形態は、構築された一つ以上の3D構造モデルの各々について、(i)環境を表す表面モデルを生成し、表面モデルは、複数のセグメントを含み、生成された表面モデルは、3D構造モデルの原子の示された位置と複数のセグメントとの間の関係を定義し、(ii)機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づき、複数のセグメントの各セグメントの電荷(例えば、電荷)および化学ポテンシャルを予測する。
【0011】
さらに、特定の実施形態は、環境中のそれらの特性について候補分子を入念に審査するための機能性を提供する。候補分子を入念に検査するための例示的な実施形態は、一つ以上のユーザ要件を受信し、複数の候補分子の各候補分子の特性を決定し、所与の分子の決定された特性および受信した一つ以上のユーザ要件に基づいて、複数の候補分子の中から所与の分子を選択する方法を対象とする。
【0012】
特定の実施形態は、流体相の熱力学およびシミュレーションに関する。例えば、いくつかの実施形態は、例えば、有機分子および有機金属分子に一般的に適用可能である。記載されるアプローチの特定の実施形態を適用することができる分子系のサイズは、小分子または中分子に限定されない。有利なことに、特定の実施形態は、他の実施例の中でも特に、ポリマーまたは生体分子などの大分子系にも使用され得る。さらに、いくつかの実施形態を使用して、液体相および蒸気相/気体相における分子系の熱力学的平衡特性を予測および計算することができる。こうした特性の決定は、多くの異なる産業、例えば、材料科学、製薬、生命科学、医療、消費財、化粧品、ポリマー、およびコーティングなどの諸産業にわたり重要である。特に、いくつかの実施形態は、例えば、化学工学、薬剤開発、パーソナルケア製品および消費者ケア製品の製剤設計、包装材料の設計、およびプラスチックリサイクルなどの、賦形剤のスクリーニングに適用され得る。
【0013】
さらに、特定の実施形態は、例えば、液相中の大きな有機分子およびイオンの熱力学的平衡特性を、信頼できる精度で迅速に計算するために使用することができる。熱力学的平衡特性には、例えば、活量係数、蒸気圧、可溶性、溶媒和の自由エネルギー、分配係数、反応性、および当技術分野で公知の他の関連する特性が含まれ得る。いくつかの実施形態では、大分子もモデル化および分析することができ、これは、数ある例の中でも特に、ポリマー製造者にとって、新規の化合物および材料、例えば、製薬業界における生物製剤、または生分解性ポリマーの開発などの産業用途に重要である。
【0014】
特定の実施形態は、機械学習を含む革新的なワークフローを使用して、誘電連続体中の有機分子および有機金属分子ならびにイオンの、表面電荷密度ならびに対応するポテンシャルを構築および計算することができる。一実施形態による方法は、計算的に効率的であり、例えば、ポリマーを含む大分子をモデル化および分析することができる。いくつかの実施形態は、電荷密度を使用して、熱力学的特性を予測する方法の適用可能なドメインを、例えば、複雑なポリマー系または生化学系に拡張することができる。
【0015】
さらに、特定の実施形態は、例えば、従来および新規の大きな有機分子およびイオンの液相を伴う熱力学的平衡特性を、信頼できる精度で迅速に計算することができる。実施形態による効率的な方法は、計算時間を数桁分低減し、したがって、ハイスループットスクリーニングを実行し、熱力学的平衡の予測の適用可能なドメインを、巨大分子、例えばポリマーまたは生体分子に拡張することを可能にする。いくつかの実施形態は、セグメント固有の局所3D化学環境を考慮に入れながら、原子タイプ(例えば、元素記号または原子番号によって表される)および原子3D座標以外には事前知識のない機械学習を含むワークフローを使用して、誘電連続体中の分子およびイオンのセグメント単位の表面電荷密度およびポテンシャルを構築および計算するための計算方法を提供する。
【0016】
一つのこうした実施形態は、この機能性を、(i)分子形状(配座異性体)または分子形状のセット(配座異性体のセット)を入力として提供することと、(ii)溶媒接近面上に配座異性体固有のセグメントを構築することと、(iii)訓練された機械学習モデルを含む効率的なプロセスにおいてセグメント固有の情報を近似させることと、分子エネルギーを予測することと、(iv)検討対象の各配座異性体について、セグメントおよびエネルギーについて収集された情報を書き出すことと、を含むワークフローを介して提供する。一実施形態によれば、前述の情報は、いわゆるCOSMOファイル、または当業者に公知の他の好適なファイル形式で記述される。最後に、COSMO(または他のフォーマット)ファイル情報は、凝縮された環境における分子の熱力学的平衡特性を予測するために、統計熱力学ソフトウェアパッケージ、例えば、BIOVIA(登録商標)COSMOtherm(登録商標)、または当技術分野で公知の他の好適なソフトウェアパッケージによって処理され得る。
【0017】
例示的な実施形態は、環境、例えば、液体、溶媒、または賦形剤などの凝縮相環境中の分子の特性を決定するためのコンピュータ実装方法を対象とする。方法は、分子の原子の位置を示す一つ以上の3D構造モデルを構築することから始まる。次に、構築された一つ以上の3D構造モデルの各々について、方法は、(i)環境を表す表面モデルを生成し、表面モデルは、複数のセグメントを含み、生成された表面モデルは、3D構造モデルの原子の示された位置と複数のセグメントとの間の関係を定義し、(ii)機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づき、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測する。一実施形態では、3D構造モデルの原子の示された位置と複数のセグメントとの間の関係は、(i)溶媒接近面上の構築されたセグメントの中心位置または座標と、(ii)3D構造モデルの原子の示された位置との間の関係を使用して、生成された表面モデルによって定義されてもよい。一実施形態によれば、溶媒接近面は、空間内のすべての位置の境界として定義され、これは溶媒またはプローブ球の中心によって取られ得る。一態様によれば、生成された表面モデルは、各原子位置および各セグメント位置の別個の座標を保存する。こうした実装では、これらの保存された座標は、原子の位置とセグメントとの間の関係を定義する。さらに、複数のセグメントを含む表面モデルは、例えば、本明細書に記述または考察される既知の空洞構築方法を含む、当業者に公知の任意の適切な空洞構築方法によって生成され得ることに留意されたい。
【0018】
特定の実施形態は、各特性に対するそれぞれの機械学習モデルを使用して、電荷および化学ポテンシャルを予測し得る。例えば、一態様では、機械学習モデルは、第一の機械学習モデルおよび第二の機械学習モデルを含む。一つのこうした態様によると、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することは、第一の機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷を予測することと、第二の機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの化学ポテンシャルを予測することと、を含む。
【0019】
別の実施形態によると、環境中の分子の特性を決定することは、各構築された3D構造モデルについて、補足的な機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、3D構造モデルに対応するエネルギーを予測することをさらに含む。
【0020】
別の例示的な実施形態によると、機械学習モデルは、ニューラルネットワークを含む。一態様では、ニューラルネットワークは、一つ以上の隠れ層を含み、ニューラルネットワークは、一つ以上の隠れ層の一つ以上の節点で活性化関数を用いるように構成される。一実装によれば、活性化関数は、正規化線形ユニット(ReLU)活性化関数およびソフトマックス関数のうちの一つである。しかしながら、実施形態は、上記に列挙された特定の活性化関数に限定されず、代わりに、当技術分野で公知の任意の適切な活性化関数を採用してもよい。
【0021】
さらに別の例示的な実施形態では、方法は、訓練データセットに基づいて機械学習モデルを訓練することをさらに含む。一態様によれば、機械学習モデルは、ニューラルネットワークを含み、訓練データセットに基づいて機械学習モデルを訓練することは、訓練データセットに基づいてニューラルネットワークの一つ以上のネットワーク重みを反復的に更新することによって、ニューラルネットワークを訓練することを含む。一実装では、訓練データセットに基づいてニューラルネットワークの一つ以上のネットワーク重みを反復的に更新することは、適応モーメント推定(Adam)法によるソルバーアルゴリズムおよび早期停止アルゴリズムのうちの一つ以上を採用することを含む。例示的な実施形態によれば、訓練データセットは、例示的な分子、例示的な配座異性体、例示的なセグメント、例示的なセグメント電荷、例示的なセグメント化学ポテンシャル、および例示的な連続体モデルエネルギーのうちの一つ以上のデータを含む。
【0022】
一実施形態では、機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することは、3D構造モデルに基づいて入力特徴データを導出することを含む。さらに、このような実施形態は、機械学習モデルを使用して、3D構造モデルおよび生成された表面モデル、および導出された入力特徴データに基づいて、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測する。一実施形態によると、導出された入力特徴データは、原子タイプ、原子間距離、原子セグメント距離、結合タイプ、結合角、ねじれ角、形式電荷、3D原子位置、および原子タイプに固有の特徴のうちの一つ以上の表示を含む。
【0023】
例示的な実施形態は、一つ以上のユーザ要件を受信することをさらに含む。こうした実施形態は、次に、受信されたユーザ要件に関連して候補分子を評価する。複数の候補分子の各候補分子について、例示的な実施形態は、特性の構築および決定を実施し、所与の分子の決定された特性および受信した一つ以上のユーザ要件に基づいて、複数の候補分子の中から所与の分子を選択する。一態様によれば、一つ以上のユーザ要件は、例えば、分子入力構造またはイオン入力構造、入力表記、および/または接続表を含み得る。
【0024】
別の例示的な実施形態では、機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することは、複数のセグメントの一つ以上の残留電荷を補正することと、複数のセグメントの補正された一つ以上の残留電荷に基づいて、複数のセグメントの全体的な形式電荷を決定することと、を含む。一つのこうした例示的な実施形態によると、決定された全体的な形式電荷は、複数のセグメントの予測される電荷である。
【0025】
例示的な実施形態では、構築された一つ以上の3D構造モデルの各3D構造モデルは、分子のそれぞれの配座異性体に対応する。
【0026】
様々なタイプの情報および/またはモデルを、一つ以上の3D構造モデルの構築に使用してもよい。例えば、さらに別の例示的な実施形態によると、分子の原子の位置を示す一つ以上の3D構造モデルは、他の実施例の中でも特に、原子タイプ、座標、および化学結合性のうちの一つ以上の表示に基づいて構築される。別の態様では、一つ以上の3D構造モデルは、他の非限定的な例の中でも特に、ルールベースの幾何モデル、力場、および量子化学的に導出された幾何モデルのうちの一つ以上を採用することによって構築され得る。一実施形態によれば、量子化学的に導出された幾何モデルは、例えば、強束縛モデル、半経験的モデル、密度汎関数理論から導出される幾何モデル、またはそれらの任意の組み合わせを含み得る。
【0027】
別の実装では、環境を表す表面モデルは、空洞構築モデルを使用して生成される。いくつかの実施形態は、COSMO FINE空洞構築モデルなど、当技術分野で公知の任意の適切な空洞構築モデルを採用してもよい。
【0028】
別の例示的な実施形態は、環境中の分子の特性を決定するためのコンピュータベースのシステムを対象とする。システムは、プロセッサと、その上に格納されたコンピュータコード命令を有するメモリと、を含む。このような実施形態では、プロセッサおよびメモリは、コンピュータコード命令を用いて、システムに、本明細書に記載される任意の実施形態または実施形態の組み合わせを実装させるように構成される。
【0029】
さらに別の例示的な実施形態は、環境中の分子の特性を決定するためのクラウドコンピューティング実装を対象とする。こうした実施形態は、一つ以上のクライアントとネットワークにわたり通信するサーバによって実行されるコンピュータプログラム製品を対象とし、コンピュータプログラム製品は、一つ以上のプロセッサによって実行される時、一つ以上のプロセッサに、本明細書に記載される任意の実施形態または実施形態の組み合わせを実装させる命令を含む。
【0030】
方法、システム、およびコンピュータプログラム製品の実施形態は、本明細書に記載される任意の実施形態、または実施形態の組み合わせを実装するように構成され得ることに留意されたい。
【図面の簡単な説明】
【0031】
前述は、異なる図全体を通して同様の参照文字が同じ部分を指す添付図面に図示されるように、例示的な実施形態の以下のより具体的な説明から明らかになるであろう。図面は必ずしも正確な縮尺ではなく、代わりに実施形態を図示することを強調するものである。
【0032】
【
図1】
図1は、一実施形態による、環境中の分子の特性(例えば、連続体溶媒和モデル特性)を決定するための方法のフローチャートである。
【
図2】
図2は、一実施形態による、環境中の分子の特性(例えば、連続体溶媒和モデル特性)を決定するためのシステムの簡略化ブロック図である。
【
図3】
図3は、一実施形態による、環境中の分子の特性を決定するための例示的なワークフローを示す。
【
図4】
図4は、一実施形態による、環境中の分子の特性を決定するためのコンピュータシステムの簡略化ブロック図である。
【
図5】
図5は、本発明の実施形態が実装され得るコンピュータネットワーク環境の簡略化ブロック図である。
【発明を実施するための形態】
【0033】
例示的な実施形態の説明を、以下に記載する。
【0034】
化学反応、すなわち、化学的相互作用/反応は、主に液相または溶媒相で行われる。溶媒連続体に分子を埋め込む理論モデルが知られている。例えば、既存の連続体溶媒和モデルは、溶媒を、分子空洞の外側の溶質分子を囲む誘電連続体として近似させる。空洞表面は、セグメント、例えば、六角形、五角形、または三角形によって近似される。溶媒を誘電連続体として近似させるモデルは、誘電連続体溶媒和モデル(DCSM)と呼ばれ得、広く使用されている分極連続体モデル(PCM)を含む。別の実施例の従来のDCSMは、導体様スクリーニングモデル(COSMO)であり、これは、溶質の極性によって引き起こされる連続体の分極電荷を、スケール化導体近似(scaled-conductor approximation)[1]から導出する(本文書の括弧番号は、本明細書の以下の参考文献リストを指す)。COSMOは、分子と溶媒または液体環境との静電相互作用を決定するための最も適用されている計算方法の一つである。COSMOまたは他の既知のDCSMアプローチ(本明細書では一般に、「COSMO情報」または「COSMOタイプの情報」と呼ばれる)からの出力データは、例えば、セグメント単位の表面電荷密度および化学ポテンシャルを含み得る。一般に、DCSMはそれぞれ、誘電連続体に近似することによって、同様の方法で溶媒の影響に近似する。
【0035】
COSMO情報は、次に、溶媒または溶媒混合物中の分子の化学ポテンシャルを計算するために使用され得る。例えば、これは、既存のCOSMO-RS(「RS」は「実際の溶媒」を意味する)アプローチを介して実施されてもよく、これは以前に計算および保存されたCOSMO情報の入力として取られる。COSMO-RSアプローチは、分子空洞の特定のセグメントの対電荷密度の関数として、分子とその液体環境との間の物理化学的相互作用の項のセットをモデル化することを伴う[2]。
【0036】
次いで、例えば、COSMO-RSによって生成される化学ポテンシャルのデータは、一般的な熱力学的平衡特性を計算するための基礎を形成し得る。このような熱力学的特性には、例えば、活量係数、可溶性、分配係数、蒸気圧、および溶媒和の自由エネルギーを含み得る。COSMO-RS法は、システム固有の調整を必要とせずに、一般的な予測方法を提供するために開発された。本方法は、学術界ならびに化学産業および製薬産業によって広く適用される。
【0037】
COSMO情報を生成するために現在使用されているアプローチは、補正後の機械学習[3]によって部分的に補完される量子化学計算[1,2]、または断片化アプローチ[4]のいずれかに依存する。
【0038】
量子化学計算は、例えば、特により大きな分子系に対して、計算上の要求水準が非常に高い場合があるという欠点を有する。典型的には、量子化学計算は、関連する配座異性体のセットに対して高性能コンピューティング(HPC)クラスタ上で実施される。したがって、量子化学的方法の日常的な適用は、HPCクラスタへのアクセスを有する訓練されたユーザによる設定に限定される。こうした計算集約型の計算は、量子化学的方法を小分子に制限し、分子量は1キロダルトン(kDa)を有意に下回る。対照的に、ポリマー、界面活性剤、タンパク質、または生物学的製剤などの多くの産業に関連する化学物質および生化学物質は、10~100kDaの範囲またはそれ以上の範囲である。現代の薬物分子も、非常に迅速にこの分子量制限に達する。
【0039】
一部の既存の量子化学的方法、例えば半経験的方法は、計算上の要求が低減されるが、こうした方法を採用することは、不十分な極性分布をもたらし、これは熱力学的特性のその後の計算を損なう。
【0040】
断片化アプローチは、3D立体配座空間および電荷分布に対するその影響を適切に反映しない。例えば、特定の3D立体配置では、電荷分布に対する立体配座空間の影響は、分子内水素結合の形成によって影響を受ける。
【0041】
本明細書に記載されるいくつかの実施形態は、一例として、量子化学計算の精度と同等の精度で、数日または数週間から数秒またはさらにそれ以下の時間まで表面電荷密度を計算するための計算上の労力を低減する利点を提供する。特定の実施形態では、量子化学計算は、機械学習手順のセットを含む効率的なワークフローによって置き換えられる。加えて、量子化学的方程式の導出から生じる数値アーチファクトは、いくつかの実施形態によって実装される機械学習手順によって回避または平滑化され得る。この理由から、特定の実施形態は、既存のアプローチと比較して、増加した予測精度を有する熱力学的特性計算を提供する。いくつかの実施形態の高速な機械学習手順は、分子形状または分子形状のセットを入力として取る。特定の実施形態は、特定の分子または配座異性体中のセグメントの局所化学環境を反映させることによって、分子表面セグメントの電荷、例えば、スクリーニング電荷、および化学ポテンシャルを効率的に予測する。一実施形態では、セグメントは、[5](参照によりその全体が本明細書に組み込まれる)に記載されるCOSMO FINE空洞構築モデル、または例えば、[5](参照によりその全体が本明細書に組み込まれる)によって概説される任意の他の既存の空洞構築方法など、当技術分野で公知の任意の適切な空洞構築モデルを採用することによって、3D空間内に構築される。
【0042】
例示的方法の実施形態
図1は、そのような例示的方法の実施形態100の一例を示す。方法100は、環境中の分子の特性を決定するためのコンピュータ実装方法である。方法100は、工程101で、分子の原子の位置を示す一つ以上の3D構造モデルを、例えば、コンピュータメモリ内で構築することから始まる。一実施形態では、工程101で一つ以上の3D構造モデルを構築することは、当業者に公知の任意の適切な技術を使用して実施され得る。例えば、実施形態は、公知のソフトウェアプラットフォーム、例えば、Pipeline Pilot(登録商標)、COSMOquick(登録商標)、Materials Studio(登録商標)、Discovery Studio(登録商標)、もしくはCOSMOconf(登録商標)などのBIOVIA(登録商標)プラットフォーム、またはTURBOMOLEなどの他のプラットフォームを使用して、3D構造モデルを構築してもよい。一実施形態によれば、構築された一つ以上の3D構造モデルの各々は、分子のそれぞれの配座異性体に対応する。様々なタイプの情報および/またはモデルを、工程101で、一つ以上の3D構造モデルの構築に使用してもよい。例えば、方法100の一実施形態では、一つ以上の3D構造モデルは、原子タイプ、座標、および化学結合性のうちの一つ以上の表示に基づいて構築(101)される。化学結合性とは、原子が空間的に互いに結合する方法を指す。さらに、いくつかの実施形態では、モデルは、現実世界の分子の測定/観察に基づいて構築されてもよく、結果として得られるモデルは、現実世界の測定/観察される特性を反映する。方法100の別の例示的な実施形態によれば、一つ以上の3D構造モデルを構築(101)することは、他の非限定的な例の中でも特に、ルールベースの幾何モデル、力場、および量子化学的に導出された幾何モデルのうちの一つ以上を採用することを含む。一実施形態では、量子化学的に導出された幾何モデルは、例えば、強束縛モデル、半経験的モデル、密度汎関数理論から導出される幾何モデル、またはそれらの任意の組み合わせを含み得る。
【0043】
続行するには、方法100は、工程102で環境中の分子の特性を決定する。分子の特性は、工程102で、(工程101からの)構築された一つ以上の3D構造モデルの各々について、(i)例えば、コンピュータメモリ内で、環境を表す表面モデルを生成し、表面モデルが、複数のセグメントを含み、生成された表面モデルが、3D構造モデルの原子の示された位置と複数のセグメントとの間の関係を定義する、生成することと、(ii)機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷(例えば、電荷)および化学ポテンシャルを予測することによって、決定される。一実施形態では、工程102で表面モデルを生成することは、当業者に公知の任意の適切な技術を使用して実施され得る。
【0044】
指摘したように、方法100は、コンピュータ実装され、そのため、機能性および効果的な操作、例えば、構築(101)および決定(102)は、一つ以上のデジタルプロセッサによって自動的に実装され得る。さらに、方法100は、当技術分野で公知の任意のコンピュータ装置または計算装置の組み合わせを使用して実装することができる。他の実施例の中でも特に、方法100は、
図4に関連して本明細書で以下に記載するコンピュータシステム440、および
図5に関連して以下に説明されるコンピュータネットワーク環境550を使用して実装され得る。
【0045】
工程102で、方法100は、第一の機械学習モデルを使用して電荷を予測し、第二の機械学習モデルを使用して化学ポテンシャルを予測し得る。方法100の一実施形態は、工程102で、第一の機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの電荷を予測する。こうした実施形態では、3D構造モデル(および/またはその特徴)および生成された表面モデル(および/またはその特徴)は、第一の機械学習モデルへの入力として提供され、第一の機械学習は、入力に応答して各セグメントの電荷を出力するように構成される。同様に、一実施形態は、工程102で、第二の機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、複数のセグメントの各セグメントの化学ポテンシャルを予測する。こうした実施形態は、3D構造モデル(および/またはその特徴)および生成された表面モデル(および/またはその特徴)を第二の機械学習モデルに入力し、第二の機械学習は、入力に応答して各セグメントの化学ポテンシャルを出力するように構成される。
【0046】
方法100の実施形態では、工程102で、環境中の分子の特性を決定することは、補足的な機械学習モデルを使用して、3D構造モデルおよび生成された表面モデルに基づいて、3D構造モデルに対応するエネルギーを予測することをさらに含む。こうした実施形態は、3D構造モデル(および/またはその特徴)および生成された表面モデル(および/またはその特徴)を補足的な機械学習モデルに入力し、補足的な機械学習モデルは、入力に応答してエネルギーを出力するように構成される。
【0047】
方法100の一実施形態では、機械学習モデルを使用して、3D構造モデルおよび生成された表面モデル(102)に基づいて、複数のセグメントの各セグメントの電荷(例えば、電荷)および化学ポテンシャルを予測することは、3D構造モデルに基づいて入力特徴データを導出することを含む。このような一実施形態は、機械学習モデルを使用して、3D構造モデルおよび生成された表面モデル、および導出された入力特徴データに基づいて、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測する。こうした一実施形態によると、導出された入力特徴データは、原子タイプ、原子間距離、原子セグメント距離、結合タイプ、結合角、ねじれ角、形式電荷、3D原子位置、および原子タイプに固有の特徴のうちの一つ以上の表示を含む。
【0048】
方法100の一実施形態では、機械学習モデルを使用して、3D構造モデルおよび生成された表面モデル(102)に基づいて、複数のセグメントの各セグメントの電荷(例えば、電荷)および化学ポテンシャルを予測することは、複数のセグメントの一つ以上の残留電荷を補正することと、複数のセグメントの補正された一つ以上の残留電荷に基づいて、複数のセグメントの全体的な形式電荷を決定することと、を含む。一つのこうした例示的な実施形態によると、決定された全体的な形式電荷は、複数のセグメントの予測される電荷である。
【0049】
方法100の一実施形態では、環境を表す表面モデルを生成(102)することは、空洞構築モデルを採用することを含む。一実施形態は、[5]に記載されるCOSMO FINE空洞構築モデル、または例えば、[5]によって概説される任意の他の既存の空洞構築方法など、当技術分野で公知の任意の適切な空洞構築モデルを採用してもよい。方法100の一実施形態では、工程102で使用される機械学習モデルは、ニューラルネットワークを含む。さらに、さらに別の実施形態では、ニューラルネットワークは、一つ以上の隠れ層を含み、ニューラルネットワークは、一つ以上の隠れ層の一つ以上の節点で活性化関数を採用するように構成される。一実施形態によれば、活性化関数は、正規化線形ユニット(ReLU)活性化関数およびソフトマックス関数のうちの一つである。しかしながら、実施形態は、上記に列挙された特定の活性化関数に限定されず、代わりに、当技術分野で公知の任意の適切な活性化関数を採用してもよい。ニューラルネットワークが本明細書で論じられるが、当業者であれば、方法100の実施形態がこうした技術に限定されないことを認識するであろう。むしろ、方法100の実施形態は、工程102で任意の適切な公知の機械学習または統計学習方法を利用して、電荷および化学ポテンシャルを決定してもよい。
【0050】
一実施形態によれば、方法100は、訓練データセットに基づいて機械学習モデルを訓練することをさらに含む。一実施形態では、機械学習モデルは、ニューラルネットワークを含み、訓練データセットに基づいて機械学習モデルを訓練することは、訓練データセットに基づいてニューラルネットワークの一つ以上のネットワーク重みを反復的に更新することによって、ニューラルネットワークを訓練することを含む。さらに、なおも別の実施形態では、訓練データセットに基づいてニューラルネットワークの一つ以上のネットワーク重みを反復的に更新することは、適応モーメント推定(Adam)法によるソルバーアルゴリズムおよび早期停止アルゴリズムのうちの一つ以上を採用することを含む。実施形態は、上記に列挙された特定のアルゴリズムに限定されず、代わりに、当技術分野で公知の任意の好適なアルゴリズムが採用されてもよいことに留意されたい。例示的な実施形態によれば、訓練データセットは、例示的な分子、例示的な配座異性体、例示的なセグメント、例示的なセグメント電荷、例示的なセグメント化学ポテンシャル、および例示的な連続体モデルエネルギーのうちの一つ以上のデータを含む。さらに別の実施形態では、訓練データセットは、例えば、溶媒、産業化学物質、医薬品、イオンプロトン化状態、イオン、およびイオン液体(多価イオンも含むカチオンおよびアニオン)にわたる有機化学的空間を網羅する、多量COSMOファイル収集を含み得る。
【0051】
一実施形態によれば、方法100は、一つ以上のユーザ要件を受信することをさらに含む。こうした一つの例示的実施形態では、複数の候補分子の各候補分子について、方法100は、次に、特性の構築(101)および決定(102)を実施し、所与の分子の決定された特性および受信した一つ以上のユーザ要件に基づいて、複数の候補分子の中から所与の分子を選択する。一態様によれば、一つ以上のユーザ要件は、例えば、分子入力構造またはイオン入力構造、入力表記、および/または接続表を含み得る。
【0052】
さらに、方法100の別の実施形態では、候補分子の特性は、前記候補分子の現実世界の測定値から決定される。次に、これらの測定された特性を工程101で使用して、候補分子のコンピュータベースのモデルを前記特性で構築する。次に、これらのモデル(候補分子の現実世界の測定/観察される特性を反映する)は、工程102で使用され、各候補分子の電荷および化学ポテンシャルを決定する。次いで、所望の基準を満たす所与の候補分子を、数例を挙げると、研究計画の策定すること、所望する方法で製品特性を改善するために製剤を最適化すること、ポリマーが関与するリサイクルおよびその他のプロセスのための持続可能なポリマーを設計すること、薬剤開発の文脈において適切な医薬賦形剤を特定すること、一組の実験に焦点を合わせること、実験の効率を改善することによって材料の無駄を低減することなどの、現実世界の用途での使用のために選択することができる。
【0053】
方法100の特定の実施形態は、COSMOなどの様々な既知のソフトウェアツールのファイル形式/構造を使用して、方法100によって決定/予測された様々な特性、例えば、電荷(電荷など)、化学ポテンシャル、エネルギー、および本明細書に記載される任意の他のデータ/値に記憶し得る。いくつかの実施形態はまた、例えば、3DEXPERIENCE(登録商標)プラットフォームなどのクラウドにデータを生成および保存してもよい。しかしながら、実施形態は、特定のファイル形式/構造またはクラウドプラットフォームに限定されず、代わりに、当技術分野で公知の任意の適切なファイル形式/構造またはクラウドプラットフォームが使用されてもよい。
【0054】
例示的システムの実施形態
図2は、一実施形態による、環境中の分子の特性を決定するためのシステム220の簡略化ブロック図である。
【0055】
図2に示すように、一態様では、システム220は、一つ以上のデータソース221、分子モデル生成装置222、表面モデル生成装置223、一つ以上の機械学習モデル224、および出力記憶装置225を含む。
【0056】
実施形態では、データソース221は、分子データ、すなわち、特性が決定される分子に関するデータ、ならびに環境データ、すなわち、分子の環境に関するデータを含み得る。一実装によれば、データソース221は、システム220のユーザによって提供されてもよい。例示的な実施形態では、データソース221は、例えば、分子モデル生成装置222および表面モデル生成装置223への入力として使用され得る。
【0057】
システム220の実施形態によれば、データソース221によって提供される分子に関するデータを使用して、分子モデル生成装置222は、分子の原子の位置を示す一つ以上の3D構造モデルを構築してもよい。
【0058】
同様に、一態様では、データソース221によって提供される環境に関するデータを使用して、表面モデル生成装置223は、分子モデル生成装置222によって構築された関心対象の各3D構造モデルについて、環境を表す表面モデルを生成し得る。こうした実施形態では、各表面モデルは複数のセグメントを含み、各生成された表面モデルは、3D構造モデルの原子の示された位置と複数のセグメントとの間の関係を定義する。
【0059】
一実装によれば、モデル生成器222によって構築された一つ以上の3D構造モデルの各3D構造モデル、および表面モデル生成装置223によって生成されるそれぞれの表面モデルに基づいて、機械学習モデル224は、例えば、表面モデルの複数のセグメントの各セグメントの電荷(電荷など)および化学ポテンシャルを予測し得る。一実施形態では、機械学習モデル224は、第一の機械学習モデルおよび第二の機械学習モデルを含んでもよく、第一の機械学習モデルは電荷を予測し、第二の機械学習モデルは化学ポテンシャルを予測する。さらに、一態様によれば、機械学習モデル224は、3D構造モデルおよび生成された表面モデルに基づいて、3D構造モデルに対応するエネルギーを予測する補足的な機械学習モデルを含み得る。一実施形態では、機械学習モデル224は、ニューラルネットワークを含み得る。
【0060】
例示的な実施形態では、特性、例えば、機械学習モデル224によって予測される、電荷、化学ポテンシャル、および/またはエネルギーは、記憶装置225に出力されてもよい。さらに、一実施形態によれば、記憶装置225に記録されると、こうした出力データは、他の実施例の中でも特に、熱力学的特性の計算などの追加の処理に使用され得る。
【0061】
システム220は、本明細書に記載される任意の実施形態、例えば、
図1に関して本明細書で上述した方法100を実装して、環境中の分子の特性を決定することができることに留意されたい。
【0062】
例示的なワークフロー
図3は、一実施形態による、環境中の分子の特性を決定するための例示的なワークフロー330を示す。ワークフロー330は、本明細書に記載される任意の実施形態、例えば、それぞれ
図1および
図2に関して本明細書で上述した方法100およびシステム220を実装して、環境中の分子の特性を決定することができることに留意されたい。
【0063】
一実施形態では、ワークフロー330の工程331で、例えば、ユーザのアクションに応答して、入力構造が得られる。例示的な実施形態によると、入力構造は、環境中の特性が決定される分子の構造であってもよい。
図3は、ワークフロー330の工程331で取得され得る、例示的な二次元(2D)分子構造340を示す。
【0064】
次に、一実施形態によると、工程332で、分子の3D構造生成が発生し得る。
図3は、2D分子構造340の構築された3D構造341aを示す。一実装では、分子の任意の配座異性体生成が工程333で行われてもよい。例えば、
図3は、追加の配座異性体341b~cを示す。一実施形態によれば、工程332の3D構造の生成、および工程333の任意選択的な配座異性体構造の生成は、例えば、コンピュータメモリ内に、分子の原子の位置を示す一つ以上の3D構造モデル(341a~c)を構築することを含み得る。一態様では、一つ以上の3D構造モデル(341a~c)を構築することは、当業者に公知の任意の適切な技術を使用して実施され得る。例示的な実施形態によれば、構築された一つ以上の3D構造モデル(341a~c)の各々は、分子のそれぞれの配座異性体(340)に対応する。
【0065】
図3に関して続けると、一実施形態によると、ワークフロー330は、環境中の分子の特性を決定する。一態様では、分子の特性は、(工程332、および任意選択的に工程333からの)構築された一つ以上の3D構造モデル341a~cの各々について、(i)例えば、コンピュータメモリ内で、環境を表す表面モデル(342a~c)を生成することであって、表面モデル342a~cが、複数のセグメント(例えば、
図3に示すタイル345などの六角形状のタイルであってもよい)を含み、生成された表面モデル342a~cが、3D構造モデル342a~cの原子の示された位置と複数のセグメントとの間の関係を定義する、生成することと、(ii)例えば、工程335で、機械学習モデルを使用して、3D構造モデル342a~cおよび生成された表面モデル342a~cに基づき、複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、によって、決定される。例示的な実施形態によれば、表面モデルを生成することは、工程334で空洞構築の実施およびセグメントへのタイリングを含み得る。例えば、空洞構築および工程334のセグメントへのタイリングを含む表面モデルを生成することは、当業者に公知の任意の適切な技術を使用して実施され得ることに留意されたい。別の例示的な実施形態によると、例えば、
図3の領域343によって示されるように、視覚的に提示されるとき、個々のセグメントは、分子の特定の原子にマッピングされた、または対応するセグメントを区別するために陰影付け/色付けされ得る。
【0066】
一実施形態によれば、ワークフロー330の工程335は、一つ以上の機械学習モデルを使用して、各配座異性体の各セグメントおよびエネルギーに対する電荷および化学ポテンシャルを様々に予測することを含み得る。例えば、実装では、第一の機械学習モデルを使用して、電荷を予測し、第二の機械学習モデルを使用して化学ポテンシャルを予測し得る。一態様によれば、補足的な機械学習モデルを使用して、エネルギーを予測し得る。一実施形態では、例えば、
図3の領域344によって示されるように、視覚的に提示されるとき、個々のセグメントは、陰性、陽性、または中性の予測電荷を有するセグメントを区別するために陰影付け/色付けされ得る。
【0067】
図3に関して続けるために、例示的な実施形態では、処理オプションとして、3D構造モデルおよびその最適化をエネルギー最小値に向かって変化させ、続いて工程333、334、および335を繰り返すことによって、ワークフロー330の工程336で幾何学的形状の最適化を行ってもよい。一つのこうした実施形態によれば、この処理オプションは、一回または複数回反復されてもよい。
【0068】
さらに別の例示的な実施形態では、特性、例えば、電荷、化学ポテンシャル、および/またはエネルギーが一つ以上の機械学習モデルによって予測された後、特性の値は、ワークフロー330の工程337で、一つ以上の出力ファイル346に書き込まれてもよく、または保存されてもよい。さらに、一実施形態によれば、工程337で保存された後、こうした出力データは、他の実施例の中でも特に、熱力学的特性の計算および/または熱力学的予測347の生成など、工程338での追加処理に使用され得る。
【0069】
分子幾何構造または巨大分子幾何構造
特定の実施形態は、例えば、方法100の工程101で、特定の関心対象の分子に関する一つ以上の3D構造モデルを構築してもよい。
【0070】
一部の実施形態は、分子幾何構造(単一の配座異性体)または分子幾何構造のセット(配座異性体のセット)を入力として取り得る。配座異性体は、例えば、互変異性および/またはプロトン化状態を含み得る。分子幾何構造は、個々の原子座標および原子タイプによって定義され得る。
【0071】
さらに、特定の実施形態では、以下の操作のうちのいずれか一つ以上を実施して、原子の位置を示すモデルを構築してもよい:(i)配座異性体の3D構造モデルのそれぞれのセットを生成するための配座異性体検索、(ii)各互変異性体について、単一の配座異性体または配座異性体のセットのそれぞれの3D構造モデルのセットを生成するための互変異性検索、(iii)関連するプロトン化状態を検索して、各プロトン化状態について、単一の配座異性体または配座異性体のセットのそれぞれの3D構造モデルのセットを生成すること、(iv)異なる置換パターンの作成、および(v)異なる突然変異体構造または変異体構造の作成。
【0072】
一実施形態によれば、3D構造モデルを構築することは、業界標準の高速3D構造発生装置、X線構造、力場、強結合近似方法、または半経験的計算もしくは密度汎関数法に基づく計算など、当技術分野で公知の任意の供給源から一つ以上の分子形状を受信することを含む。
【0073】
例えば、一実施形態では、BIOVIA(登録商標)Pipeline Pilot(登録商標)またはBIOVIA(登録商標)COSMOquick(登録商標)ソフトウェアを利用して、他の例の中でも特に、例えば、SDF(構造データファイル)、MOL(Molfile)、PDB(タンパク質構造データバンク)、または関連する分子ファイル形式、または分子入力ライン表記、SMILES(単純分子入力ライン入力システム)として保存される分子ファイル内の化学結合性の情報から、分子幾何構造および配座異性体のセットを生成してもよい。力場を利用して、分子および巨大分子系、例えばCHARMM(Chemistry at Harvard Macromolecular Mechanics)またはCOMPASS(Condensed-phase Optimized Molecular Potentials for Atomistic Simulation Studies)の力場に対して信頼できる3D幾何学的形状を生成する、BIOVIA(登録商標)Materials Studio(登録商標)またはBIOVIA(登録商標)Discovery Studio(登録商標)の分子構築体も、一部の実施形態によって利用されて3D構造モデルを構築してもよい。さらに、BIOVIA(登録商標)COSMOconf(登録商標)およびTURBOMOLEは、例えば、特定の実施形態によって採用され得る、3D構造、例えば、RDKit関連の力場、MOPAC(Molecular Orbital PACkage)半経験的方法、またはxTB半経験的伸長型強結合近似を生成するための補完的方法を支持する。いくつかの実施形態では、密度汎関数法に基づく計算は、量子化学パッケージ、例えば、TURBOMOLEによって実施されて、3D構造を生成することができる。実施形態は、本明細書に記載される特定のソフトウェアプラットフォームまたはファイル形式に限定されず、代わりに、当技術分野で公知の任意の適切なソフトウェアプラットフォームまたはファイル形式が使用され得ることに留意されたい。
【0074】
分子3D幾何学的形状は、例えば、RDKitケモインフォマティクスライブラリのETKDG(Experimental-Torsion basic Knowledge Distance Geometry)法によって生成され得る。分子形状のための他の公知の供給源および技術が、本明細書で論じるものに加えて使用されてもよい。
【0075】
いくつかの実施形態では、原子座標および原子タイプを使用して、分子特性、例えば、連続体溶媒和モデルの特性を決定することも留意されたい。既存のアプローチとは異なり、こうした実施形態は、例えば、結合情報、結合性の情報、官能基、フィンガープリント、セグメント固有の情報、分子表面固有の情報、エネルギー、またはポテンシャルに明示的に依存しない。
【0076】
溶媒接近面セグメントの構築
特定の実施形態は、例えば、方法100の工程102で、連続体溶媒環境などの環境を表す表面モデルを生成し得る。生成された表面モデルは、複数のセグメントを含み得る。さらに、生成された表面モデルは、3D構造モデルの示された原子の位置と複数のセグメントとの間の関係を定義し得る。一実施形態によれば、表面モデルは、タイル付き空洞が連続体溶媒環境を表す、タイル付き空洞内に配座異性体(3D構造モデルによって表される)を封入し得る。いくつかの実施形態では、連続体溶媒環境を表すタイル付き空洞は、COSMO溶媒和モデルなどの当技術分野で公知の任意の適切な技術によって計算されてもよい。一実装によれば、所与の表面モデルの複数のセグメントは、配座異性体に固有の溶媒接近面(SAS)を表し得る。
【0077】
原則として、DCSMの根底にある静電原理は正確である。実際には、溶質分子と溶媒分子の電子密度は重複しているため、溶質を溶媒環境から分離する明確に定義された表面は存在しない。したがって、空洞の定義および分子に固有の空洞構築は、重要な工程である。
【0078】
いくつかの実施形態では、溶媒接近面セグメントは、3D空間に構築されてもよい。こうした実施形態は、当技術分野で公知の任意の適切な空洞構築方法、例えば、[5]によって概説された既存の空洞構築方法を採用し得る。
【0079】
一態様によれば、例えば、方法100の工程102で、COSMO FINE空洞構築モデル[5]を使用して、表面モデルを生成してもよい。FINEモデルによって用いられるマーチング四面体アルゴリズムは、三角測量が表面セグメントに達するための技術を提供する。FINEモデルは、原子タイプに固有のCOSMO半径に基づく等密度空洞構築アルゴリズムをさらに利用し、これにより、分子形状の滑らかで完全に舗装された空洞がもたらされる。これは、COSMO-RSモデルにとって特に重要であり、これは、分子間相互作用の定義のための主要な記述子として表面上のスクリーニング電荷密度を使用する。手順の詳細は[5]に示されている。
【0080】
電荷および化学ポテンシャルを予測するための機械学習モデル
生成された表面モデルの各表面セグメントについて、特定の実施形態は、COSMO-RS熱力学的モデルの典型的な入力として電荷(例えば、電荷)および化学ポテンシャルを計算する。既存の方法では、電荷分布および化学ポテンシャルは、量子化学計算を介して決定される。対照的に、いくつかの実施形態は、一つ以上の機械学習モデルを使用して、セグメントの電荷および化学ポテンシャルを予測する。既存のアプローチと比較して、特定の実施形態は、それゆえに、数桁分ほどの著しい速度増加を提供する。いくつかの実施形態は、最も正確な検討レベルであっても、中央処理装置(CPU)コア当たりの計算時間を数秒単位に短縮する。量子化学と同様に、特定の実施形態の機械学習モデルに基づく方法は、隣接する原子の特定の空間的分子配置におけるセグメントの特殊かつ原子論的環境を反映する。
【0081】
いくつかの実施形態は、標的特性、すなわちセグメント電荷およびセグメント化学ポテンシャルを予測するために、一つ以上の機械学習モデルを適用してもよい。特定の実施形態では、モデルを訓練するための入力としての量子化学情報は、例えば、TURBOMOLEソフトウェアおよびdef2-TZVPD(拡散関数を有する原子価トリプルゼータ分極)基底セットでのその後の単一点計算によって、密度汎関数レベルで最適化された分子形状から、例えば、B88-VWN-P86関数およびdef-TZVP(原子価トリプルゼータ分極)基底セットから取られるか、または構築されてもよく、活性化されたスケール化導体近似(scaled-conductor approximation)は無限誘電率ε=∞を有する。セグメント電荷は、例えば、スクリーニング電荷または電荷密度を含み得る。いくつかの実施形態によれば、2つの量子化学レベルは、BIOVIA(登録商標)COSMOtherm(登録商標)ソフトウェアの名称において、BP-TZVPおよびBP-TZVPD-FINEと略語で呼ばれ得る。この文脈における化学ポテンシャルは、極性の変化に応答してセグメントの化学ポテンシャルである。
【0082】
特定の実施形態の一つ以上の機械学習モデルは、訓練データセットとして機能する大量のCOSMOファイル収集に対して訓練されてもよい。一態様では、訓練データセットは、例示的な分子、例示的な配座異性体、例示的なセグメント、例示的なセグメント電荷、例示的なセグメント化学ポテンシャル、および例示的な連続体モデルエネルギーのうちの一つ以上のデータを含み得る。一実施形態では、一つ以上の機械学習モデルは、公知の方法を使用して、および/または試験セットを使用してさらに検証されてもよい。特定の実施形態の機械学習モデルの訓練に使用されるCOSMOファイル収集は、例えば、溶媒、工業用化学品、医薬品、イオンプロトン化状態、イオン、およびイオン性液体(多価イオンも含むカチオンおよびアニオン)にわたる有機化学的空間を網羅する。いくつかの実施形態によれば、訓練データセットは、分子内水素結合ならびに開放(分子間)水素結合候補の両方の代表を含有する配座異性体のセットを含み得る。一態様では、訓練データセットに使用されるCOSMOファイル収集は、量子化学レベル当たり約65,000個の配座異性体によって表される、約16,000個の化合物を含み得る。一実装によれば、各配座異性体は、COSMOファイルが表す分子のサイズおよび量子化学的レベルに応じて、セグメント領域、電荷、およびポテンシャルに対する特定の値を含む、約103個のセグメントによって平均的に構築され得る。いくつかの実施形態では、データセット全体のすべての配座異性体にわたる利用可能な約108個のセグメントの割合のみが、訓練プロセスで使用される。一つのこうした実施形態によれば、平均して、炭素原子および水素原子に関連するセグメントの3%のみが、訓練および検証のために使用されてもよく(したがって、試験セット用に97%が残る)、セグメントの25%のみが、窒素原子、酸素原子、およびフッ素原子に関連してもよい(したがって、試験セット用に75%が残る)。一態様では、他の原子タイプには閾値は適用されない。一実施形態によれば、訓練および検証中、すべての使用されたセグメントのうち0.9の割合が訓練に使用されてもよく、一方、0.1の割合が検証のために確保されてもよい。
【0083】
一実施形態では、COSMOファイル内のセグメントは、既に範囲外の電荷の補正を反映しているため、明確な範囲外の電荷の補正は必要ない。一実装によれば、すべてのセグメントを処理した後、残留電荷の補正を実施して、全体的な形式電荷に達してもよい。特定の実施形態はまた、様々な技術を使用して、予測される電荷に補正を適用してもよい。こうした技術には、(i)形式電荷および全体的な予測される配座異性体に基づく電荷のアライメント、および(ii)必要に応じて範囲外の電荷の補正が含まれ得るが、これらに限定されない。
【0084】
例えば、方法100の工程102で、特定の実施形態によって適用される一つ以上の機械学習モデルは、人工ニューラルネットワークを含み得るが、これらに限定されない。一実施形態では、人工ニューラルネットワークアーキテクチャは、入力層、例えば、256節点から構成される高密度の隠れ層、および出力層から開始し得る、一つ以上の隠れ層を含み得る。実施形態は、当技術分野で公知の任意のニューラルネットワークアーキテクチャを採用してもよい。例えば、実施形態は、人工ニューラルネットワークおよび深層ニューラルネットワークを含むが、これらに限定されない、様々なタイプのアーキテクチャを利用し得る。さらに、実施形態によるニューラルネットワークは、畳み込み層などの追加の層を含み得る。一態様によれば、ニューラルネットワークは、正規化線形ユニット(ReLU)活性化関数、適応モーメント推定(Adam)ソルバーアルゴリズム、10-8の公差、および早期停止アルゴリズムを使用し得る。さらに、実施形態は、本明細書に記載される特定の数の層、節点数、活性化関数、アルゴリズム、または公差に限定されず、代わりに、当技術分野で公知の任意の適切な数の層、節点数、活性化関数、アルゴリズム、または公差が採用されてもよいことに留意されたい。一実装では、人工ニューラルネットワークアーキテクチャのハイパーパラメータは、さらなる最適化を受け得る。例えば、ネットワークパラメータは、ネットワークサイズとモデル性能との間の所望のバランスを達成するように選択され得る。いくつかの実施形態では、入力特徴は、平均を除去し、訓練セットの単位分散にスケーリングすることによってスケーリングされ得る。ニューラルネットワークが本明細書で論じられるが、当業者であれば、実施形態はこのような技術に限定されず、むしろ、任意の好適な公知の機械学習または統計学習方法が使用され得ることを認識するであろう。
【0085】
いくつかの実施形態では、一つ以上の機械学習モデルは、従来の量子化学的アプローチによって使用されるものと同じ入力特徴に対して情報のタイプを使用し得る。こうした特徴には、例えば、原子タイプ、原子間距離、原子セグメント距離、結合タイプ、結合角、ねじれ角、形式電荷、3D原子位置、および様々な原子タイプ固有の特徴が含まれ得る。一実施形態によれば、3D原子位置は、互いに対する原子の3D位置付けの回転不変表現であってもよい。さらに、実装では、任意のカットオフ半径が適用され得る。特定の実施形態は、とりわけ、分子トポロジーまたは結合性、分子断片、化学官能基、および古典的なケモインフォマティクスに基づくフィンガープリントなどの特徴に依存する必要がないようにする利点を提供する。こうした依存性を回避することによって、いくつかの実施形態は、例えば、可能性のある電荷分布の非常に一般的な化学的記述を決定することができる。特定の実施形態は、これらの特徴を考慮するために必要とされないが、任意選択的に使用され得る。一態様では、直接的なカットオフ半径はないが、最大24個の最も近い原子が、特定のセグメントの化学環境とみなされ得る。一実施形態によれば、原子タイプは、直接的にはコードされず、むしろ、それらの量子化学的特徴、例えば、電子親和力、イオン化ポテンシャル、許容される軌道配置、原子タイプ固有の半径などによって間接的にコードされる。この技術は、いくつかの実施形態による、一つ以上の機械学習モデルの適用可能なドメインをさらに増加させる。しかしながら、特定の実施形態では、原子タイプは直接コードされてもよい。最大ラドン(原子番号86、すなわち、g軌道を除く)までのすべての原子タイプ、ならびにイオン構造は、実施形態による一つ以上の機械学習モデルの構築によって支持される。
【0086】
エネルギーを予測するための機械学習モデル
特定の実施形態は、3D構造モデルおよび生成された表面モデルに基づいて、3D構造モデルに対応するエネルギーを予測するために、補足的な機械学習モデル(すなわち、電荷および化学ポテンシャルを予測するために工程102で使用される一つ以上のモデルに加えた機械学習モデル)をさらに使用してもよい。本明細書に記載されるように、実施形態では、3D構造モデルは、分子の配座異性体に対応し得る。
【0087】
いくつかの実施形態では、予測されたエネルギーは、(i)全分子エネルギーまたはイオンエネルギー、(ii)誘電エネルギー、例えば、導体様誘電連続体内の誘電エネルギー、および(iii)気相エネルギーのうちの一つ以上であってもよい。一態様によれば、同じCOSMOファイル収集(「電荷および化学ポテンシャルを予測するための機械学習モデル」という見出しの下で本明細書で論じられる)は、各標的特性および計算レベル(例えば、BP-TZVPおよびBP-TZVPD-FINE)に対する補足的な機械学習モデルを訓練するために使用され得る。同様に、一実装では、各標的特性の0.9の割合を訓練に使用してもよく、0.1の割合を検証のために確保してもよい。いくつかの実施形態は、補足的な機械学習モデルについて上述したのと同じ人工ニューラルネットワークアーキテクチャおよび適用されたハイパーパラメータを採用し得る。しかしながら、一態様では、エネルギー(例えば、全分子エネルギー、イオンエネルギー、誘電エネルギー、または気相エネルギー)を予測するために使用されるニューラルネットワークは、全エネルギーおよび気相エネルギーに対して256節点の代わりに512から構成される第一の隠れ層を含み得る。特定の実施形態は、エネルギーを予測するために、補足的な機械学習モデルを用いて、類似の入力特徴、例えば、原子タイプ、距離、角度、ねじれ、および形式電荷などを使用し得る。一実装によれば、原子タイプは、直接的にはコードされず、むしろ、それらの量子化学的特徴、例えば、電子親和力、イオン化ポテンシャル、許容される軌道配置、および原子タイプ固有の半径などによって間接的にコードされる。いくつかの実施形態は、他の実施例の中でも特に、H(水素)、Li(リチウム)、Be(ベリリウム)、B(ホウ素)、C(炭素)、N(窒素)、O(酸素)、F(フッ素)、Na(ナトリウム)、Mg(マグネシウム)、Si(シリコン)、P(リン)、S(硫黄)、K(カリウム)、Ca(カルシウム)、Cl(塩素)、Se(セレン)、Br(臭素)、およびI(ヨウ素)などの原子タイプのエネルギー(例えば、導体または気相状態)を予測し得る。
【0088】
ニューラルネットワークが本明細書で論じられるが、当業者であれば、実施形態はこのような技術に限定されず、むしろ、エネルギーを予測するための実施形態によって、任意の好適な公知の機械学習または統計学習方法が使用され得ることを認識するであろう。公開された機械学習モデルには、例えば、[6]によって記載される分子および材料のための深層学習アーキテクチャが含まれる。
【0089】
特定の実施形態は、予め定義された分子幾何構造に対して単一点の結果を提供する。いくつかの実施形態では、エネルギー、例えば、全分子エネルギーまたはイオンエネルギーを予測するため、このような実施形態はまた、3D構造モデルを変化させ、エネルギー最小値に向かってその最適化を変化させることによって、凝縮された環境で幾何学的形状の最適化を実行するように拡張され得る。
【0090】
出力ファイルの書き込み
特定の実施形態は、例えば、本明細書で上述のように、予測されるセグメント電荷、セグメント単位の化学ポテンシャル、および/またはエネルギーを含む結果を収集し、結果を出力ファイル、例えば、すべてのCOSMOタイプの情報を保存する専用の配座異性体固有のCOSMOファイルに書き込むことができる。例えば、方法100の工程102で決定される予測される電荷および化学ポテンシャルは、出力ファイルに書き込まれてもよい。配座異性体のセットについては、いくつかの実施形態は、セグメント構築(本明細書では、「溶媒接近面セグメントの構築」という見出しの下で上記に記載される)、および各特定の配座異性体について、すべての予測(本明細書では、「エネルギーを予測するための電荷および化学ポテンシャルを予測するための機械学習モデル」という見出しの下で上記に記載される)を別々に実行することによって、複数のCOSMOファイルを生成し得る。特定の実施形態はまた、例えば、3DEXPERIENCE(登録商標)プラットフォームなどのクラウドに出力ファイル、例えばCOSMOファイルを生成および保存してもよい。実施形態は、特定の出力ファイル形式またはクラウドプラットフォームに限定されず、代わりに、当技術分野で公知の任意の適切な出力ファイル形式またはクラウドプラットフォームが使用されてもよい。
【0091】
さらなる計算における出力ファイルの適用
本明細書に記載される新規の技術の適用を実証するために、いくつかの実施形態による出力ファイル、例えば、COSMOファイルを、BIOVIA(登録商標)COSMOtherm(登録商標)ソフトウェアの入力として使用してもよい。ソフトウェアは、COSMO-RS法によって流体熱力学的特性を計算し得る。特定の実施形態はまた、例えば、3DEXPERIENCE(登録商標)プラットフォーム(例えば、BIOVIA(登録商標)Virtual Bench(登録商標))、または当業者に公知の任意の適切なプラットフォームによって提供されるアプリケーションを介して計算を行ってもよい。
【0092】
実施形態は、熱力学的平衡特性、例えば、可溶性、分配係数、および/または液体密度を首尾よく予測することができる。さらに、結果は、実施形態を使用して決定されたこうした特性が、既知の実験的に決定された値と厳密に一致することを示す。実施形態による新規の機械学習技術によって生成される配座異性体のセット(例えば、COSMOファイルのセット)に基づく複数の化学物質の予測は、従来の量子化学計算(例えば、密度汎関数理論)によって生成される予測と良好に一致する。さらに、実施形態による機械学習方法の結果は、既存のアプローチによって生成されるものを上回る。
【0093】
熱力学的特性予測に加えて、実施形態による出力ファイルに基づくさらなる計算の他の例には、生成された予測データを入力特徴(例えば、電荷密度プロファイル、エネルギー、σ-モーメントなど)として使用する機械学習モデル、量子化学および/または材料科学が関与するソフトウェアアプリケーション(例えば、TURBOMOLEおよびBIOVIA(登録商標)Materials Studio(登録商標))、ならびに生物学的特性および/または生化学的特性の予測(例えば、BIOVIA(登録商標)Discovery Studio(登録商標))を含むが、これらに限定されない。
【0094】
利点
実施形態は、環境中の分子の特性を決定し、多数の利点を提供する。
【0095】
例えば、実施形態の高速機械学習手順は、完全な配座異性体のセットについてCOSMO情報を構築および計算するために必要な時間を、数日間または数週間から数秒またはさらに短い時間にまで低減する。
【0096】
別の例示的な利点として、実施形態は、HPCクラスタを必要としない。実施形態は、ハイスループットスクリーニング予測の自動化、および液相における熱力学的平衡計算のための解の民主化を容易にする。Dassault Systemesの3DEXPERIENCE(登録商標)プラットフォームなどのクラウドベースのプラットフォームは、本質的に瞬間的に利用可能な実施形態によって提供される結果から利益を得る。このようにして、実施形態は、コストおよび炭素排出量の両方を低減し、さらに、実施形態は、顧客に対するプラットフォームの望ましさを増加させる。
【0097】
さらに、なおも別の例示的な利点として、実施形態は、COSMOおよびCOSMO-RSの適用性を、他の実施例の中でも特に、生体分子およびポリマーなどの大きな分子系に拡張することができる。実施形態はまた、実験を効率的に誘導するために使用され得る。さらに、実施形態は、持続可能なポリマーを設計するために活用され得るポリマーの可溶性予測を提供し、それによって、実施形態は、こうしたポリマーを利用する現実世界のプロセス、例えば、リサイクルプロセスを改善することができる。賦形剤は、通常はポリマー系であるため、実施形態は、薬剤開発における医薬仮想スクリーニングを追加的に強化することができる。こうした設定では、実験の焦点を合わせ、非効率的な実験的試験による材料の無駄を低減するために、特性、例えば、可溶性をスクリーニングするための効率的な方法が必要である。実施形態は、必要な方法を提供する。
【0098】
有利なことに、実施形態は、効率的な機械学習手順を介して、量子化学的方程式の導出から生じる数値アーチファクトを回避することによって、熱力学的特性計算の精度も向上させる。
【0099】
コンピュータサポート
実施形態は、既存のソフトウェアおよびコンピュータ支援設計およびコンピュータ支援エンジニアリングプラットフォームに実装され得る。例えば、実施形態は、3DS BIOVIA(登録商標)ソフトウェアの特徴および機能性を使用して実装され得る。
【0100】
図4は、本明細書に記載される本発明の任意の様々な実施形態によれば、環境中の分子の特性を決定するために使用され得るコンピュータベースのシステム440の簡略化ブロック図である。システム440は、バス443を備える。バス443は、システム440の様々な構成要素間の相互接続として機能する。バス443に接続されるのは、キーボード、マウス、タッチスクリーン、ディスプレイ、スピーカなどの様々な入力および出力デバイスをシステム440に接続するための入力/出力デバイスインターフェース446である。CPU 442はバス443に接続され、コンピュータ命令の実行を提供する。メモリ445は、コンピュータ命令を実行するために使用されるデータのための揮発性記憶装置を提供する。記憶装置444は、オペレーティングシステム(図示せず)のソフトウェア命令のための不揮発性記憶装置を提供する。システム440はまた、ワイドエリアネットワーク(WAN)およびローカルエリアネットワーク(LAN)を含む、当技術分野で公知の任意の様々なネットワークに接続するためのネットワークインターフェース441を備える。
【0101】
当然のことながら、本明細書に記載の例示的な実施形態は、多くの異なる方法で実装されてもよい。一部の実例では、本明細書に記載される様々な方法およびシステムは各々、コンピュータシステム440、または
図4に関連して本明細書で以下に記載されるコンピュータ環境440などのコンピュータネットワーク環境などの物理的コンピュータ、仮想コンピュータ、またはハイブリッド型汎用コンピュータによって実装され得る。コンピュータシステム440は、例えば、CPU 442によって実行するために、メモリ445または不揮発性記憶装置444のいずれかに方法100を実装するソフトウェア命令を読み込むことによって、本明細書に記載される方法を実行するマシンに変換され得る。当業者であれば、システム440およびその様々な構成要素が、本明細書に記載される任意の実施形態または実施形態の組み合わせを実施するように構成され得ることを、さらに理解するべきである。さらに、システム440は、システム440に内部または外部で動作可能に結合されたハードウェア、ソフトウェア、およびファームウェアモジュールの任意の組み合わせを利用して、本明細書に記載される様々な実施形態を実装し得る。
【0102】
図5は、本発明の実施形態を実装することができるコンピュータネットワーク環境550を示す。コンピュータネットワーク環境550では、サーバ551は、通信ネットワーク552を介してクライアント553a~nにリンクされる。環境550は、クライアント553a~nが、単独で、またはサーバ551と組み合わせて、本明細書に記載される実施形態のいずれかを実行することを可能にするために使用され得る。非限定的な例として、コンピュータネットワーク環境550は、クラウドコンピューティング実施形態、サービスとしてのソフトウェア(SaaS)実施形態などを提供する。
【0103】
実施形態またはその態様は、ハードウェア、ファームウェア、またはソフトウェアの形態で実装されてもよい。ソフトウェアに実装される場合、ソフトウェアは、プロセッサがソフトウェアまたはその命令のサブセットを読み込むことを可能にするように構成された任意の非一時的コンピュータ可読媒体上に格納され得る。次に、プロセッサは命令を実行し、装置を動作するか、または本明細書に記載の方法で動作させるように構成される。
【0104】
さらに、ファームウェア、ソフトウェア、ルーチン、または命令は、データプロセッサの特定の動作および/または機能を実行するものとして本明細書に記述されてもよい。しかしながら、当然のことながら、本明細書に包含されるこうした記述は単に便宜上のものであり、こうした動作は実際には、計算装置、プロセッサ、コントローラ、またはファームウェア、ソフトウェア、ルーチン、命令などを実行する他の装置に起因する。
【0105】
当然のことながら、フロー図、ブロック図、およびネットワーク図は、より多くまたはより少ない要素を含んでもよく、異なるように配置されてもよく、または異なるように表されてもよい。しかし、さらに当然のことながら、特定の実装は、ブロック図およびネットワーク図、ならびに実施形態の実行を示すブロック図およびネットワーク図の数を特定の方法で実装することができる。
【0106】
したがって、さらなる実施形態はまた、様々なコンピュータアーキテクチャ、物理的コンピュータ、仮想コンピュータ、クラウドコンピュータ、および/またはいくつかのそれらの組み合わせに実装されてもよく、したがって、本明細書に記載のデータプロセッサは、実施形態を制限するものとしてではなく、例示のみを目的としている。
【0107】
本明細書に引用されるすべての特許、公開された出願、および参考文献の教示は、参照によりその全体が組み込まれる。
【0108】
例示的な実施形態が特に示され、説明されてきたが、当業者であれば、添付の特許請求の範囲に包含される実施形態の範囲から逸脱することなく、形態および詳細の様々な変更をその中に行うことができることを理解するであろう。
【手続補正書】
【提出日】2024-07-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
環境中の分子の特性を決定するためのコンピュータ実装方法であって、前記方法が、
前記分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することと、
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を決定することであって、
前記環境を表す表面モデルを生成することであって、前記表面モデルが複数のセグメントを含み、前記生成された表面モデルが、前記3D構造モデルの前記原子の前記示された位置と前記複数のセグメントとの間の関係を定義する、ことと、
機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、であることと、を含む、コンピュータ実装方法。
【請求項2】
前記機械学習モデルが、第一の機械学習モデルおよび第二の機械学習モデルを含み、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを前記予測することが、
前記第一の機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷を予測することと、
前記第二の機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記化学ポテンシャルを予測することと、を含む、請求項1に記載の方法。
【請求項3】
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を前記決定することが、
補足的な機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記3D構造モデルに対応するエネルギーを予測することをさらに含む、請求項1に記載の方法。
【請求項4】
前記構築された一つ以上の3D構造モデルの各3D構造モデルが、前記分子のそれぞれの配座異性体に対応する、請求項1に記載の方法。
【請求項5】
前記機械学習モデルが、ニューラルネットワークを含む、請求項1に記載の方法。
【請求項6】
前記ニューラルネットワークが、一つ以上の隠れ層を含み、前記ニューラルネットワークが、前記一つ以上の隠れ層の一つ以上の節点で活性化関数を採用するように構成される、請求項5に記載の方法。
【請求項7】
前記活性化関数が、正規化線形活性化関数およびソフトマックス関数のうちの一つである、請求項6に記載の方法。
【請求項8】
訓練データセットに基づいて、前記機械学習モデルを訓練することをさらに含む、請求項1に記載の方法。
【請求項9】
前記機械学習モデルが、ニューラルネットワークを含み、前記訓練データセットに基づいて前記機械学習モデルを前記訓練することが、
前記訓練データセットに基づいて、前記ニューラルネットワークの一つ以上のネットワーク重みを反復的に更新することによって、前記ニューラルネットワークを訓練することを含む、請求項8に記載の方法。
【請求項10】
前記訓練データセットに基づいて、前記ニューラルネットワークの前記一つ以上のネットワーク重みを反復的に更新することが、適応モーメント推定ソルバーアルゴリズムおよび早期停止アルゴリズムのうちの一つ以上を採用することを含む、請求項9に記載の方法。
【請求項11】
前記訓練データセットが、例示的な分子、例示的な配座異性体、例示的なセグメント、例示的なセグメント電荷、例示的なセグメント化学ポテンシャル、および例示的な連続体モデルエネルギーのうちの一つ以上のデータを含む、請求項8に記載の方法。
【請求項12】
前記機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを前記予測することが、
前記3D構造モデルに基づいて入力特徴データを導出することと、
前記機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデル、および前記導出された入力特徴データに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを予測することと、を含む、請求項1に記載の方法。
【請求項13】
前記導出された入力特徴データが、原子タイプ、原子間距離、原子セグメント距離、結合タイプ、結合角、ねじれ角、形式電荷、3D原子位置、および原子タイプに固有の特徴のうちの一つ以上の表示を含む、請求項12に記載の方法。
【請求項14】
一つ以上のユーザ要件を受信することと、
複数の候補分子の各候補分子について、前記構築および前記特性の決定を行うことと、
所与の分子の前記決定された特性および前記受信した一つ以上のユーザ要件に基づいて、前記複数の候補分子の中から前記所与の分子を選択することと、をさらに含む、請求項1に記載の方法。
【請求項15】
前記機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの前記電荷および前記化学ポテンシャルを前記予測することが、
前記複数のセグメントの一つ以上の残留電荷を補正することと、
前記複数のセグメントの前記補正された一つ以上の残留電荷に基づいて、前記複数のセグメントの全体的な形式電荷を決定することであって、前記決定された全体的な形式電荷が、前記複数のセグメントの前記予測される電荷である、ことと、を含む、請求項1に記載の方法。
【請求項16】
前記分子の前記原子の位置を示す前記一つ以上の3D構造モデルを前記構築することが、原子タイプ、座標、および化学結合性のうちの一つ以上の表示に基づく、請求項1に記載の方法。
【請求項17】
前記分子の前記原子の位置を示す前記一つ以上の3D構造モデルを前記構築することが、ルールベースの幾何モデル、力場、および量子化学的に導出された幾何モデルのうちの一つ以上を採用することを含む、請求項1に記載の方法。
【請求項18】
前記環境を表す前記表面モデルを前記生成することが、空洞構築モデルを採用することを含む、請求項1に記載の方法。
【請求項19】
環境中の分子の特性を決定するためのコンピュータベースのシステムであって、前記システムが、
プロセッサと、
コンピュータコード命令がその上に格納されたメモリであって、前記プロセッサおよび前記メモリが、前記コンピュータコード命令を用いて、前記システムに、
前記分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することと、
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、前記環境中の前記分子の前記特性を決定することであって、
前記環境を表す表面モデルを生成することであって、前記表面モデルが複数のセグメントを含み、前記生成された表面モデルが、前記3D構造モデルの前記原子の前記示された位置と前記複数のセグメントとの間の関係を定義する、ことと、
機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、であることと、を行わせるように構成されている、メモリと、を含む、システム。
【請求項20】
プログラム命令を含むコンピュータ可読媒体であって、前記プログラム命令が、一つ以上のプロセッサによって実行されるとき、前記一つ以上のプロセッサに、
分子の原子の位置を示す一つ以上の三次元(3D)構造モデルを構築することと、
前記構築された一つ以上の3D構造モデルの各3D構造モデルについて、環境中の前記分子の特性を決定することであって、
前記環境を表す表面モデルを生成することであって、前記表面モデルが複数のセグメントを含み、前記生成された表面モデルが、前記3D構造モデルの前記原子の前記示された位置と前記複数のセグメントとの間の関係を定義する、ことと、
機械学習モデルを使用して、前記3D構造モデルおよび前記生成された表面モデルに基づいて、前記複数のセグメントの各セグメントの電荷および化学ポテンシャルを予測することと、であることと、を行わせる、コンピュータ可読媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0101
【補正方法】変更
【補正の内容】
【0101】
当然のことながら、本明細書に記載の例示的な実施形態は、多くの異なる方法で実装されてもよい。一部の実例では、本明細書に記載される様々な方法およびシステムは各々、コンピュータシステム440、または
図4に関連して本明細書で以下に記載されるコンピュータ
システム440などのコンピュータネットワーク環境などの物理的コンピュータ、仮想コンピュータ、またはハイブリッド型汎用コンピュータによって実装され得る。コンピュータシステム440は、例えば、CPU 442によって実行するために、メモリ445または不揮発性記憶装置444のいずれかに方法100を実装するソフトウェア命令を読み込むことによって、本明細書に記載される方法を実行するマシンに変換され得る。当業者であれば、システム440およびその様々な構成要素が、本明細書に記載される任意の実施形態または実施形態の組み合わせを実施するように構成され得ることを、さらに理解するべきである。さらに、システム440は、システム440に内部または外部で動作可能に結合されたハードウェア、ソフトウェア、およびファームウェアモジュールの任意の組み合わせを利用して、本明細書に記載される様々な実施形態を実装し得る。