IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティーの特許一覧

特許7495124薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法
<>
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図1
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図2
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図3
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図4
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図5
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図6
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図7
  • 特許-薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-27
(45)【発行日】2024-06-04
(54)【発明の名称】薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法
(51)【国際特許分類】
   G16C 60/00 20190101AFI20240528BHJP
   G01N 33/15 20060101ALI20240528BHJP
   G06N 3/08 20230101ALI20240528BHJP
   C12M 1/34 20060101ALI20240528BHJP
【FI】
G16C60/00
G01N33/15 Z
G06N3/08
C12M1/34 Z
【請求項の数】 20
(21)【出願番号】P 2020546374
(86)(22)【出願日】2019-03-05
(65)【公表番号】
(43)【公表日】2021-06-17
(86)【国際出願番号】 US2019020837
(87)【国際公開番号】W WO2019173401
(87)【国際公開日】2019-09-12
【審査請求日】2022-01-14
(31)【優先権主張番号】62/638,803
(32)【優先日】2018-03-05
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】503115205
【氏名又は名称】ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(72)【発明者】
【氏名】フェインバーグ, エバン ナサニエル
(72)【発明者】
【氏名】パンデ, ビジャイ サティアナンド
(72)【発明者】
【氏名】ラムサンダー, バラス
【審査官】岡北 有平
(56)【参考文献】
【文献】米国特許出願公開第2002/0099506(US,A1)
【文献】Steven Kearnes et al.,“Molecular Graph Convolutions: Moving Beyond Fingerprints”,[online],2016年08月18日,pp. 1-29,インターネット<URL: https://arxiv.org/abs/1603.00856>,[検索日: 2023.03.24]
【文献】Joseph Gomes et al.,“Atomic Convolutional Networks for Predicting Protein-Ligand Binding Affinity”,[online],2017年03月30日,pp. 1-17,インターネット<URL: https://arxiv.org/abs/1703.10603>,[検索日:2023.03.24]
【文献】Chao Shang et al.,“Edge Attention-based Multi-Relational Graph Convolutional Networks”,[online],2018年02月14日,pp. 1-10,インターネット<URL: https://arxiv.org/abs/1802.04944v1>,[検索日:2023.03.24]
【文献】Ruoyu Li et al.,“Adaptive Graph Convolutional Neural Networks”,[online],2018年01月10日,pp. 1-8,インターネット<URL: https://arxiv.org/abs/1801.03226>,[検索日:2023.03.24]
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00 - 99/00
G01N 33/15
G06N 3/08
C12M 1/34
(57)【特許請求の範囲】
【請求項1】
1つまたは複数のコンピューターによって実行される方法であって、前記方法は、
複数の分子を表すグラフを定義するデータを受信するステップであって、
前記複数の分子を表す前記グラフが、ノードのセットとエッジのセットとを含み、
前記グラフ内の各ノードが、前記複数の分子からのそれぞれの原子を表し、
前記グラフ内の前記エッジのセットが、異なる分子における原子を表すそれぞれのノードの対を接続する複数のエッジを含み、異なる分子における前記原子は、ペアワイズ距離を含む1つまたは複数の基準を満たす、3次元位置において規定される空間距離を有する、受信するステップと;
前記複数の分子を表す前記グラフに対して、グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みのセットを行うステップと;
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の1つまたは複数の特質の各々についてそれぞれの予測を作製するステップと
を含む、方法。
【請求項2】
請求項1に記載の方法であって、
前記複数の分子の前記1つまたは複数の特質の各々について、前記グラフニューラルネットワークにより作製された、前記それぞれの予測におけるエラーを測定する損失関数の勾配を決定するステップと;
前記損失関数の前記勾配を用いて、前記グラフニューラルネットワークの前記複数の重みを更新するステップと
をさらに含む、方法。
【請求項3】
前記損失関数が、交差エントロピー損失を用いて、前記複数の分子の前記1つまたは複数の特質の各々についての前記それぞれの予測における前記エラーを測定する、請求項2に記載の方法。
【請求項4】
前記複数の分子が、少なくともリガンド分子と標的分子を含む、請求項1に記載の方法。
【請求項5】
前記複数の分子の前記1つまたは複数の特質が、前記複数の分子の毒性、前記複数の分子の溶解度、前記複数の分子の結合親和性、または、前記複数の分子の量子特性のうちの1つまたは複数を含む、請求項1に記載の方法。
【請求項6】
薬物発見を行う際に使用するために、前記複数の分子の前記1つまたは複数の特質の各々についての前記それぞれの予測を定義するデータを提供するステップをさらに含む、請求項1に記載の方法。
【請求項7】
前記複数の分子を表す前記グラフが、前記グラフ内のノードの1つまたは複数の対について、前記ノードの対が、3次元位置において規定される対応する原子対間の空間距離が閾値を満たすかどうかに基づいてエッジによって接続されるべきであるかどうかを決定するステップを含む操作によって作製されている、請求項1に記載の方法。
【請求項8】
前記グラフ内のノードの1つまたは複数の対について、前記ノードの対が、3次元位置において規定される対応する原子対間の空間距離が閾値を満たすかどうかに基づいてエッジによって接続されるべきであるかどうかを決定するステップが、
前記ノードの対が、前記閾値未満である前記3次元位置において規定される対応する原子対間の前記空間距離に基づいて、エッジによって接続されるべきであると決定するステップ
を含む、請求項7に記載の方法。
【請求項9】
前記グラフ内のノードの1つまたは複数の対について、前記ノードの対が、3次元位置において規定される対応する原子対間の空間距離が閾値を満たすかどうかに基づいてエッジによって接続されるべきであるかどうかを決定するステップが、
前記ノードの対が、前記閾値より大きい前記3次元位置において規定される対応する原子対間の前記空間距離に基づいて、エッジによって接続されるべきでないと決定するステップ
を含む、請求項7に記載の方法。
【請求項10】
請求項1に記載の方法であって、
前記複数の分子を表す1つまたは複数の第2のグラフを定義するデータを受信するステップであって、前記第2のグラフの各々が、前記複数の分子からの原子の対の間の結合を定義する結合データ少なくとも含む、ステップと;
前記複数の分子を表す前記1つまたは複数の第2のグラフに対して、前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの前記複数の重みに従って、グラフ畳み込みの第2のセットを行うステップと
をさらに含む、方法。
【請求項11】
グラフ畳み込みのセットの結果を処理して、前記複数の分子の1つまたは複数の特質の各々についてそれぞれの予測を作製するステップが、
グラフ畳み込みの前記セットの結果と、前記グラフ畳み込みの前記第2のセットの結果の両方を、前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの前記複数の重みに従って処理して、前記複数の分子の1つまたは複数の特質の各々について前記それぞれの予測を作製するステップ
を含む、請求項10に記載の方法。
【請求項12】
前記グラフのエッジのセットが、複数の分子間エッジを含み、各分子間エッジが、同じ分子内の第1の原子および第2の原子を含む原子の対を表すノードのそれぞれの対を接続する、請求項1に記載の方法。
【請求項13】
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの前記複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の1つまたは複数の特質の各々についてそれぞれの予測を作製するステップが、
グラフ畳み込みの前記セットの前記結果から、特徴ベクトルを作製するステップと;
前記特徴ベクトルを処理して、前記複数の分子の前記1つまたは複数の特質の各々についての前記それぞれの予測を作製するステップと
を含む、請求項1に記載の方法。
【請求項14】
グラフ畳み込みの前記セットの前記結果から、前記特徴ベクトルを製するステップが、
前記複数の分子からの1つの分子をリガンド分子として識別するステップと;
前記リガンド分子に含まれる原子を表す埋め込みのみに基づいて、前記特徴ベクトルを作製するステップと
を含む、請求項13に記載の方法。
【請求項15】
システムであって、
1つまたは複数のコンピューターと通信可能に結合された非一時的メモリ
を備え、前記非一時的メモリは、前記1つまたは複数のコンピューターによって実行されるときに、前記1つまたは複数のコンピューターに、
複数の分子を表すグラフを定義するデータを受信するステップであって、
前記複数の分子を表す前記グラフが、ノードのセットとエッジのセットとを含み、
前記グラフ内の各ノードが、前記複数の分子からのそれぞれの原子を表し、
前記グラフ内の前記エッジのセットが、異なる分子における原子を表すそれぞれのノードの対を接続する複数のエッジを含み、異なる分子における前記分子が、ペアワイズ距離を含む1つまたは複数の基準を満たす、3次元位置において規定される空間距離を有する、受信するステップと;
前記複数の分子を表す前記グラフに対して、グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みのセットを行うステップと;
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の1つまたは複数の特質の各々についてそれぞれの予測を作製するステップと
を含む操作を行わせる命令を記憶している、
システム。
【請求項16】
1つまたは複数の非一時的コンピューター記憶媒体であって、
1つまたは複数のコンピューターによって実行されるときに、前記1つまたは複数のコンピューターに、
複数の分子を表すグラフを定義するデータを受信するステップであって、
前記複数の分子を表す前記グラフが、ノードのセットとエッジのセットとを含み、
前記グラフ内の各ノードが、前記複数の分子からのそれぞれの原子を表し、
前記グラフ内の前記エッジのセットが、異なる分子における原子を表すそれぞれのノードの対を接続する複数のエッジを含み、異なる分子における前記分子が、ペアワイズ距離を含む1つまたは複数の基準を満たす、3次元位置において規定される空間距離を有する、受信するステップと;
前記複数の分子を表す前記グラフに対して、グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みのセットを行うステップと;
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の1つまたは複数の特質の各々についてそれぞれの予測を作製するステップと
を含む操作を行わせる命令を記憶している、
非一時的コンピューター記憶媒体。
【請求項17】
前記操作が、
前記複数の分子の前記1つまたは複数の特質の各々について、前記グラフニューラルネットワークにより作製された、前記それぞれの予測におけるエラーを測定する損失関数の勾配を決定するステップと;
前記損失関数の前記勾配を用いて、前記グラフニューラルネットワークの前記複数の重みを更新するステップと
をさらに含む、請求項16に記載の非一時的コンピューター記憶媒体。
【請求項18】
前記複数の分子が、少なくともリガンド分子と標的分子を含む、請求項16に記載の非一時的コンピューター記憶媒体。
【請求項19】
前記複数の分子の前記1つまたは複数の特質が、前記複数の分子の毒性、前記複数の分子の溶解度、前記複数の分子の結合親和性、または、前記複数の分子の量子特性のうちの1つまたは複数を含む、請求項16に記載の非一時的コンピューター記憶媒体。
【請求項20】
前記操作が、薬物発見を行う際に使用するために、前記複数の分子の前記1つまたは複数の特質の各々についての前記それぞれの予測を定義するデータを提供するステップをさらに含む、請求項16に記載の非一時的コンピューター記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2018年3月5日に出願された、「Spatial Graph Convolutions with Applications to Drug Discovery」という名称の米国仮特許出願第62/638,803号の利益およびそれに対する優先権を主張する。米国仮特許出願第62/638,803号の開示内容は、参照により全体が本明細書に組み込まれる。
【0002】
本発明は、全般的には分子特質を予測することに関し、より具体的には、空間グラフ畳み込みを利用して分子特質を予測することに関する。
【背景技術】
【0003】
FDA承認薬の大半は、標的生体高分子に結合することによって治療反応を引き出す小有機分子である。一旦結合すると、小分子リガンドは、他のリガンドの結合を阻止するか、または標的のコンフォメーションアンサンブルをアロステリックに調節するかのいずれかである。よって、結合は、治療用リガンドのどの挙動にとっても非常に重要である。分子の治療効果を最大化するには、同時に他の高分子に対する親和性を最小化しながら、所望の標的に対する親和性、すなわち結合自由エネルギー(ΔG)を最大化しなければならない。歴史的に、科学者らは、リガンドおよびその標的をモデル化するためにケモインフォマティクと構造との両方に基づく方式を使用してきており、大半の機械学習(ML)方式は、ドメイン知識に基づく特徴を使用する。
【発明の概要】
【課題を解決するための手段】
【0004】
本発明の実施形態に係る空間グラフ畳み込みのシステムおよび方法が例示される。一実施形態は、分子について特質を予測するための方法を含み、方法は、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを行うステップであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ステップと、空間グラフ表現を用いてグラフ畳み込みの第2のセットを行うステップであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間グラフ表現を用いてグラフ集約を行って、特徴ベクトルを作成するステップと、特徴ベクトルに基づいて、分子のセットについて1つまたは複数の特質のセットを予測するステップと、を含む。
【0005】
さらなる実施形態において、方法は、1つまたは複数の分子のセットについての原子情報を受け取るステップをさらに含む。
【0006】
なおも別の実施形態において、方法は、分子のセットの空間グラフ表現を構築するステップをさらに含む。
【0007】
なおもさらなる実施形態において、空間グラフ表現を構築するステップは、距離行列および隣接テンソルを生成するステップを含み、距離行列は、分子のセットの原子間の距離を表し、隣接テンソルは、原子間の複数の異なるエッジタイプを示す。
【0008】
さらに別の実施形態において、分子のセットは、リガンド分子および標的分子を含み、距離行列の行が、リガンド分子および標的分子への帰属によって順序付けられる。
【0009】
一層さらなる実施形態において、分子のセット間の結合は共有結合を含む。
【0010】
別の追加的実施形態において、分子のセット間の結合が、π-πスタッキング、水素結合、および疎水性接触のうちの少なくとも1つを含む。
【0011】
さらなる追加的実施形態において、グラフ畳み込みの第2のセットが、分子のセット間の結合にさらに基づく。
【0012】
再び別の実施形態において、グラフ畳み込みの第1のセットが、分子のセット間の結合の第1のセットに基づき、グラフ畳み込みの第2のセットが、分子のセット間の結合の第2のセットに基づく。
【0013】
再びさらなる実施形態において、結合の第1のセットは、結合の第2のセットのサブセットである。
【0014】
なおもさらに別の実施形態において、グラフ畳み込みの第1のセットを行うステップは、グラフ畳み込みの各層においてゲート付き回帰型ユニット(GRU)演算を行うステップを含む。
【0015】
なおも一層さらなる実施形態において、グラフ畳み込みの第1のセットを行うステップは、第1の複数のニューラルネットワークを利用するステップを含み、複数のニューラルネットワークの各ニューラルネットワークが、異なる結合タイプに使用される。
【0016】
なおも別の追加的実施形態において、グラフ畳み込みの第2のセットを行うステップが、第2の複数のニューラルネットワークを利用するステップを含み、第1の複数のニューラルネットワークのための重みが、第2の複数のニューラルネットワークと共有される。
【0017】
なおもさらなる追加的実施形態において、グラフ畳み込みの第2のセットを行うステップは、第2の複数のニューラルネットワークを利用するステップを含み、第2の複数のニューラルネットワークのニューラルネットワークは、分子のセットの原子間の距離に関する距離情報を利用する。
【0018】
再びなおも別の実施形態において、分子のセットはリガンド分子および標的分子を含み、グラフ集約がリガンド分子に対してのみ行われる。
【0019】
再びなおもさらなる実施形態において、特質のセットは、分子のセットの第1の分子が、分子のセットの第2の分子と結合するかどうかを含む。
【0020】
本発明の実施形態に係る空間畳み込みグラフモデルを訓練するためのシステムおよび方法が例示される。一実施形態は、空間畳み込みグラフモデルを訓練するための方法を含む。方法は、分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第1のセットを行うステップであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ畳み込みの第2のセットを行うステップであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ集約を行うステップと、グラフ集約に基づいて分子のセットについての損失を算出するステップと、算出した損失に基づいて空間畳み込みグラフモデルを更新するステップと、を含む。
【0021】
さらに別の追加的実施形態において、方法は、空間畳み込みグラフモデルの層を使用して、力場について1つまたは複数のパラメーターのセットを予測するように1つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む。
【0022】
一層さらなる追加的実施形態において、パラメーターのセットが、1つまたは複数の特質のセットに関連付けられ、特質のセットは、電荷、結合、角度、および二面角のうちの少なくとも1つを含む。
【0023】
再びさらに別の実施形態において、空間畳み込みグラフモデルが第1の空間畳み込みグラフモデルであり、方法が、ポテンシャルエネルギーを予測するように第2の空間畳み込みグラフモデルを訓練するステップと、第1および第2の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測するステップと、をさらに含む。
【0024】
再び一層さらなる実施形態において、第2の空間畳み込みグラフモデルを訓練するステップは、1つまたは複数の層のセットを第1の空間畳み込みグラフモデルと第2の空間畳み込みグラフモデルとの間で共有するステップを含む。
【0025】
再び別の追加的実施形態において、力場は、Assisted Model Building with Energy Refinement(AMBER)関数形式である。
【0026】
再びさらなる追加的実施形態において、方法は、空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように1つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む。
【0027】
なおもさらに別の追加的実施形態において、方法は、空間グラフ畳み込みモデルによって予測されるポテンシャルエネルギーを最小化することによって分子のセットのコンフォメーションのセットを特定するステップをさらに含む。
【0028】
さらなる実施形態において、方法は、分子のセットの運動を予測するステップをさらに含む。
【0029】
追加的実施形態および特徴が、一部には以下の説明にて述べられ、一部には、本明細書を考察すると当業者には明らかになり、または本発明の実施によって知られ得る。本発明の性質および利点のさらなる理解は、本明細書の残りの部分および本開示の一部をなす図面を参照することによって実現され得る。
【0030】
詳細な説明および特許請求の範囲は、以下の図およびデータグラフを参照してより完全に理解され、図およびデータグラフは、本発明の例示的実施形態として提示されるものであり、本発明の範囲の完全な詳述と解釈されるべきではない。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
分子について特質を予測するための方法であって、
分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを行うステップであって、グラフ畳み込みの前記第1のセットは、前記分子のセット間の結合に基づく、ステップと、
前記空間グラフ表現を用いてグラフ畳み込みの第2のセットを行うステップであって、グラフ畳み込みの前記第2のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ステップと、
前記空間グラフ表現を用いてグラフ集約を行って、特徴ベクトルを作成するステップと、
前記特徴ベクトルに基づいて、前記分子のセットについて1つまたは複数の特質のセットを予測するステップと、を含む、方法。
(項目2)
前記1つまたは複数の分子のセットについての原子情報を受け取るステップをさらに含む、項目1に記載の方法。
(項目3)
前記分子のセットの空間グラフ表現を構築するステップをさらに含む、項目1に記載の方法。
(項目4)
前記空間グラフ表現を構築するステップが、距離行列および隣接テンソルを生成するステップを含み、前記距離行列は、前記分子のセットの原子間の距離を表し、前記隣接テンソルは、原子間の複数の異なるエッジタイプを示す、項目3に記載の方法。
(項目5)
前記分子のセットは、リガンド分子および標的分子を含み、前記距離行列の行が、前記リガンド分子および標的分子への帰属によって順序付けられる、項目4に記載の方法。
(項目6)
前記分子のセット間の前記結合が共有結合を含む、項目1に記載の方法。
(項目7)
前記分子のセット間の前記結合が、π-πスタッキング、水素結合、および疎水性接触のうちの少なくとも1つを含む、項目1に記載の方法。
(項目8)
グラフ畳み込みの前記第2のセットが、前記分子のセット間の結合にさらに基づく、項目1に記載の方法。
(項目9)
グラフ畳み込みの前記第1のセットが、前記分子のセット間の前記結合の第1のセットに基づき、グラフ畳み込みの前記第2のセットが、前記分子のセット間の前記結合の第2のセットに基づく、項目8に記載の方法。
(項目10)
結合の前記第1のセットが、結合の前記第2のセットのサブセットである、項目9に記載の方法。
(項目11)
グラフ畳み込みの前記第1のセットを行うステップが、前記グラフ畳み込みの各層においてゲート付き回帰型ユニット(GRU)演算を行うステップを含む、項目1に記載の方法。
(項目12)
グラフ畳み込みの前記第1のセットを行うステップが、第1の複数のニューラルネットワークを利用するステップを含み、前記第1の複数のニューラルネットワークの各ニューラルネットワークが、異なる結合タイプに使用される、項目1に記載の方法。
(項目13)
グラフ畳み込みの前記第2のセットを行うステップが、第2の複数のニューラルネットワークを利用するステップを含み、前記第1の複数のニューラルネットワークのための重みが、前記第2の複数のニューラルネットワークと共有される、項目12に記載の方法。
(項目14)
グラフ畳み込みの前記第2のセットを行うステップが、第2の複数のニューラルネットワークを利用するステップを含み、前記第2の複数のニューラルネットワークのニューラルネットワークは、前記分子のセットの原子間の距離に関する距離情報を利用する、項目12に記載の方法。
(項目15)
前記分子のセットがリガンド分子および標的分子を含み、前記グラフ集約が前記リガンド分子に対してのみ行われる、項目1に記載の方法。
(項目16)
前記特質のセットは、前記分子のセットの第1の分子が、前記分子のセットの第2の分子と結合するかどうかを含む、項目1に記載の方法。
(項目17)
空間畳み込みグラフモデルを訓練するための方法であって、
分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第1のセットを行うステップであって、グラフ畳み込みの前記第1のセットは、前記分子のセット間の結合に基づく、ステップと、
前記空間畳み込みグラフモデルを用いてグラフ畳み込みの第2のセットを行うステップであって、グラフ畳み込みの前記第2のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ステップと、
前記空間畳み込みグラフモデルを用いてグラフ集約を行うステップと、
前記グラフ集約に基づいて前記分子のセットについての損失を算出するステップと、
前記算出した損失に基づいて前記空間畳み込みグラフモデルを更新するステップと、を含む、方法。
(項目18)
前記空間畳み込みグラフモデルの層を使用して、力場について1つまたは複数のパラメーターのセットを予測するように1つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む、項目17に記載の方法。
(項目19)
前記パラメーターのセットが、1つまたは複数の特質のセットに関連付けられ、前記特質のセットは、電荷、結合、角度、および二面角のうちの少なくとも1つを含む、項目18に記載の方法。
(項目20)
前記空間畳み込みグラフモデルが第1の空間畳み込みグラフモデルであり、前記方法が、
ポテンシャルエネルギーを予測するように第2の空間畳み込みグラフモデルを訓練するステップと、
前記第1および第2の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測するステップと、
をさらに含む、項目18に記載の方法。
(項目21)
前記第2の空間畳み込みグラフモデルを訓練するステップが、1つまたは複数の層のセットを前記第1の空間畳み込みグラフモデルと前記第2の空間畳み込みグラフモデルとの間で共有するステップを含む、項目20に記載の方法。
(項目22)
前記力場が、Assisted Model Building with Energy Refinement(AMBER)関数形式である、項目18に記載の方法。
(項目23)
前記空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように1つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む、項目17に記載の方法。
(項目24)
前記空間グラフ畳み込みモデルによって予測される前記ポテンシャルエネルギーを最小化することによって前記分子のセットのコンフォメーションのセットを特定するステップをさらに含む、項目23に記載の方法。
(項目25)
前記分子のセットの運動を予測するステップをさらに含む、項目17に記載の方法。
(項目26)
分子について特質を予測するためのシステムであって、
1つまたは複数のプロセッサーであって、
分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを行うことであって、グラフ畳み込みの前記第1のセットは、前記分子のセット間の結合に基づく、ことと、
前記空間グラフ表現を用いてグラフ畳み込みの第2のセットを行うことであって、グラフ畳み込みの前記第2のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ことと、
前記空間グラフ表現を用いてグラフ集約を行うことと、
前記分子のセットについて1つまたは複数の特質のセットを予測することと、
を行うように個別にまたはまとめて構成された、1つまたは複数のプロセッサーを備える、システム。
(項目27)
前記1つまたは複数のプロセッサーが、前記1つまたは複数の分子のセットについての原子情報を受け取るように個別にまたはまとめて構成される、項目26に記載のシステム。
(項目28)
前記1つまたは複数のプロセッサーが、前記分子のセットの空間グラフ表現を構築するように個別にまたはまとめて構成される、項目26に記載のシステム。
(項目29)
前記空間グラフ表現が、距離行列および隣接テンソルを含み、前記距離行列は、前記分子のセットの原子間の距離を表し、前記隣接テンソルは、原子間の複数の異なるエッジタイプを示す、項目28に記載のシステム。
(項目30)
前記分子のセットは、リガンド分子および標的分子を含み、前記距離行列の行が、前記リガンド分子および標的分子への帰属によって順序付けられる、項目29に記載のシステム。
(項目31)
前記分子のセット間の前記結合が共有結合を含む、項目26に記載のシステム。
(項目32)
前記分子のセット間の前記結合が、π-πスタッキング、水素結合、および疎水性接触のうちの少なくとも1つを含む、項目26に記載のシステム。
(項目33)
グラフ畳み込みの前記第2のセットが、前記分子のセット間の結合にさらに基づく、項目26に記載のシステム。
(項目34)
グラフ畳み込みの前記第1のセットが、前記分子のセット間の前記結合の第1のセットに基づき、グラフ畳み込みの前記第2のセットが、前記分子のセット間の前記結合の第2のセットに基づく、項目33に記載のシステム。
(項目35)
結合の前記第1のセットが、結合の前記第2のセットのサブセットである、項目34に記載のシステム。
(項目36)
前記1つまたは複数のプロセッサーが、グラフ畳み込みの前記第1のセットを行うように個別にまたはまとめて構成されることは、1つまたは複数のプロセッサーが、前記グラフ畳み込みの各層においてゲート付き回帰型ユニット(GRU)演算を行うように個別にまたはまとめて構成されることを含む、項目26に記載のシステム。
(項目37)
前記1つまたは複数のプロセッサーが、グラフ畳み込みの前記第1のセットを行うように個別にまたはまとめて構成されることは、第1の複数のニューラルネットワークを利用することを含み、前記複数のニューラルネットワークの各ニューラルネットワークが、異なる結合タイプに使用される、項目26に記載のシステム。
(項目38)
前記1つまたは複数のプロセッサーが、グラフ畳み込みの前記第2のセットを行うように個別にまたはまとめて構成されることは、前記1つまたは複数のプロセッサーが、第2の複数のニューラルネットワークを利用するように個別にまたはまとめて構成されることを含み、前記第1の複数のニューラルネットワークのための重みが、前記第2の複数のニューラルネットワークと共有される、項目37に記載のシステム。
(項目39)
前記1つまたは複数のプロセッサーが、グラフ畳み込みの前記第2のセットを行うように個別にまたはまとめて構成されることは、前記1つまたは複数のプロセッサーが、第2の複数のニューラルネットワークを利用するように個別にまたはまとめて構成されることを含み、前記第2の複数のニューラルネットワークのニューラルネットワークは、前記分子のセットの原子間の距離に関する距離情報を利用する、項目38に記載のシステム。
(項目40)
前記分子のセットがリガンド分子および標的分子を含み、前記グラフ集約が前記リガンド分子に対してのみ行われる、項目26に記載のシステム。
(項目41)
前記特質のセットは、前記分子のセットの第1の分子が、前記分子のセットの第2の分子と結合するかどうかを含む、項目26に記載のシステム。
(項目42)
空間畳み込みグラフモデルを訓練するためのシステムであって、
1つまたは複数のプロセッサーであって、
分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第1のセットを行うことであって、グラフ畳み込みの前記第1のセットは、前記分子のセット間の結合に基づく、ことと、
前記空間畳み込みグラフモデルを用いてグラフ畳み込みの第2のセットを行うことであって、グラフ畳み込みの前記第2のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ことと、
前記空間畳み込みグラフモデルを用いてグラフ集約を行うことと、
前記分子のセットについての損失を算出することと、
前記算出した損失に基づいて前記空間畳み込みグラフモデルを更新することと、
を行うように個別にまたはまとめて構成された、1つまたは複数のプロセッサーを備える、システム。
(項目43)
ネットワークの層を使用して、力場について1つまたは複数のパラメーターのセットを予測するように1つまたは複数のニューラルネットワークのセットを訓練するように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに備える、項目42に記載のシステム。
(項目44)
前記パラメーターのセットが、1つまたは複数の特質のセットに関連付けられ、前記特質のセットは、電荷、結合、角度、および二面角のうちの少なくとも1つを含む、項目43に記載のシステム。
(項目45)
前記空間畳み込みグラフモデルが第1の空間畳み込みグラフモデルであり、前記システムは、ポテンシャルエネルギーを予測するように第2の空間畳み込みグラフモデルを訓練することと、前記第1および第2の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測することとを行うように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに備える、項目42に記載のシステム。
(項目46)
前記第2の空間畳み込みグラフモデルを訓練するように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーが、1つまたは複数の層のセットを、前記第1の空間畳み込みグラフモデルと前記第2の空間畳み込みグラフモデルとの間で共有するように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーを含む、項目45に記載のシステム。
(項目47)
前記力場が、Assisted Model Building with Energy Refinement(AMBER)関数形式である、項目43に記載のシステム。
(項目48)
前記空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように1つまたは複数のニューラルネットワークのセットを訓練するように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに備える、項目42に記載のシステム。
(項目49)
前記空間グラフ畳み込みモデルによって予測される前記ポテンシャルエネルギーを最小化することによって前記分子のセットのコンフォメーションのセットを特定するように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに備える、項目48に記載のシステム。
(項目50)
前記分子のセットの運動を予測するように個別にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに備える、項目42に記載のシステム。
(項目51)
分子について特質を予測するための方法であって、
分子のセットの表現を、N個の原子およびN et 個のエッジタイプを有するグラフとして得るステップと、
前記N et 個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第1のセットを行うステップと、
前記N et 個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの1つまたは複数の追加的セットを行うステップと、
前記グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くステップと、を含む、方法。
(項目52)
前記分子のセットの前記表現が、NxN距離行列をさらに含む、項目51に記載の方法。
(項目53)
前記N et 個のエッジタイプが、結合タイプ、塩橋、パイスタッキング、距離ビン、距離基底関数系、および未加工距離のうちの少なくとも1つを含む、項目51に記載の方法。
(項目54)
グラフ畳み込みの前記第1のセットを行うステップが、前記NxN距離行列から情報を直接取り込むステップを含む、項目51に記載の方法。
(項目55)
グラフ畳み込みの前記1つまたは複数の追加的セットを行うステップが、前記NxN距離行列に基づく、項目51に記載の方法。
(項目56)
グラフの前記部分グラフが、前記分子の1つまたは複数についてのものであり得る、項目51に記載の方法。
(項目57)
分子について特質を予測するためのシステムであって、
1つまたは複数のプロセッサーであって、
分子のセットの表現を、N個の原子およびN et 個のエッジタイプを有するグラフとして得ることと、
前記N et 個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第1のセットを行うことと、
前記N et 個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの1つまたは複数の追加的セットを行うことと、
前記グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くことと、
を行うように個別にまたはまとめて構成された、1つまたは複数のプロセッサーを備える、システム。
(項目58)
前記分子のセットの前記表現が、NxN距離行列をさらに含む、項目57に記載のシステム。
(項目59)
前記N et 個のエッジタイプが、結合タイプ、塩橋、パイスタッキング、距離ビン、距離基底関数系、および未加工距離のうちの少なくとも1つを含む、項目57に記載のシステム。
(項目60)
グラフ畳み込みの前記第1のセットを行うことが、前記NxN距離行列から情報を直接取り込むことを含む、項目57に記載のシステム。
(項目61)
グラフ畳み込みの前記1つまたは複数の追加的セットを行うことが、前記NxN距離行列に基づく、項目57に記載のシステム。
(項目62)
グラフの前記部分グラフが、前記分子の1つまたは複数についてのものであり得る、項目57に記載のシステム。
【図面の簡単な説明】
【0031】
図1図1は、ゲート付きグラフニューラルネットワーク(GGNN)を示す図である。
【0032】
図2図2は、本発明の一部の実施形態に係る、モデル化および予測を提供するシステムを示す図である。
【0033】
図3図3は、本発明の一部の実施形態に係る、モデル化および予測を提供するモデル化エレメントを示す図である。
【0034】
図4図4は、本発明の一部の実施形態に係る、モデル化および予測を提供するモデル化アプリケーションを示す図である。
【0035】
図5図5は、本発明の一実施形態に係る、段階的畳み込みを行うためのプロセスを概念的に示す図である。
【0036】
図6図6は、多段階空間ゲート付きグラフニューラルネットワークの視覚的描写を示す図である。
【0037】
図7図7は、本発明の各種形態に係る、多段階空間ゲート付きグラフニューラルネットワークの第1のステージを示す図である。
【0038】
図8図8は、本発明の各種形態に係る、多段階空間ゲート付きグラフニューラルネットワークの第2のステージを示す図である。
【発明を実施するための形態】
【0039】
本発明の多数の実施形態に係るシステムおよび方法は、タンパク質-リガンドの結合親和性に関する最新技術水準の実行のために特に設計され、それを達成する。本願における例の多くは、結合親和性を参照して説明されるが、本発明の主旨から逸脱することなく、これらに限定されないが、毒性、溶解度、および電子特性などの多くの分子特質を予測することができる。多くの実施形態において、プロセスは、結合タイプおよび空間距離に基づく複数ステージのプロセスを利用して分子特質を予測する。一部の実施形態においては、新しい測定基準(metric)である回帰エンリッチメント率(Regression Enrichment Factor)EFχ (R)を算出して、化学的データに関する算出モデルの早期エンリッチメント(early enrichment)を測定する。本発明の各種実施形態に係るプロセスは、モデルの一般化可能性をより正確に測定することが可能な構造的相同クラスタリングに基づく交差検証戦略を実装し、このことは、薬物発見のための機械学習の目的を、標準的な機械学習タスクから決定的に区別する。
【0040】
薬物発見の分野は、極めて大きい長さスケールにわたる多パラメーター最適化問題を要する。主要パラメーターの範囲は、溶解度(オングストローム)から、タンパク質-リガンド結合(ナノメートル)、そして生体内毒性(メートル)までわたる。歴史的に、科学者らは、リガンドおよびその標的をモデル化するためにケモインフォマティクと構造との両方に基づく方式を使用してきており、大半の機械学習(ML)方式は、ドメイン知識に基づく特徴を使用する。特徴エンジニアリングの代わりに特徴学習を通じて、深層ニューラルネットワークは、薬物発見に関係する分子特性を予測するための従来の物理学および知識の両方に基づく機械学習モデルをしのぐことが見込まれる。
【0041】
大半の従来のDNNアーキテクチャの訓練は大量のデータを必要とし、例えば、ImageNetは、現在、14,000,000枚を超えるラベル付けされた画像を含んでいる。それに対して、薬物様分子の特性に関する公的利用が可能な最も大きいデータセットには、タンパク質-リガンド共結晶構造の4,000個をわずかに超える試料およびそれに関連する結合親和性値を有するPDBBind 2017、10,000個に近い小分子およびそれに関連する毒性エンドポイントを有するTox21、22,000個前後の小分子およびそれに関連する電子特性を有するQM8、1,000個をわずかに超える小分子およびそれに関連する溶解度値を有するESOLが含まれる。この高品質な科学データの乏しさにより、分子機械学習のための革新的なニューラルアーキテクチャが必要とされている。
【0042】
成功するDNNは、しばしば、画像内のピクセル近接度などの、データ内の関連する構造を活用する。タンパク質-リガンドの結合親和性を予測することは、コンピュータービジョン問題と同様とみなすことができる。隣り合うピクセルが物理的物体間の近さを暗示するのとちょうど同じように、結合ポケットをボクセルグリッドに区分することができる。ここで、隣り合うボクセルは、隣り合う原子と、空の空間のブロックとを表す。不都合なことに、この3D畳み込み方式にはいくつかの潜在的な欠点がある。第1に、入力および隠れた重みにより、3次元においてより多くのメモリが必要となる。第2に、パラメーターが次元数と共に指数関数的に増大するため、モデルは「次元の呪い」を受ける。親和性予測および関係するタスクのための定性的に最も単純なモデルは、リガンドの特徴のみを取り込み、高分子標的を無視する。
【0043】
グラフ畳み込みニューラルネットワーク(GCNN)は、同じようにデータの固有構造を活用する。グラフ畳み込みは、分子構造および対称性を活用することにより、使用するパラメーターをより少なくすることができる。グラフ畳み込みは、置換と、隣り合うノード各々の相対的な場所とについて対称にすることができ、それによりモデルパラメーターの数を大幅に減らす。本発明のいくつかの実施形態に係るモデルは、異なる分子間の分子内相互作用と非共有結合相互作用との両方を含むようにグラフ畳み込みを一般化することができる。
【0044】
いくつかの実施形態において、プロセスは、段階的なゲート付きグラフニューラルネットワークを用いることができ、これは、区別可能な結合原子タイプの派生を、空間を通じた原子間の情報の伝播から区別する。本発明の一部の実施形態に係るプロセスは、ソース原子から標的原子までの距離と標的原子の特徴マップとの両方を使用する新しい更新規則に基づく、より柔軟なモデルを用いる。メッセージ関数に標的原子情報を直接取り込むことにより、一部のタンパク質-リガンド結合親和性ベンチマークにおけるシグナルを増すことができる。
【0045】
いくつかの実施形態において、N個のノード、ノード当たりfin個の特徴、および単一のエッジタイプを含んでいる所与のグラフは、ノード特徴xおよび対称隣接行列Aからなるものと表現することができ、対称隣接行列Aは、ノードの対が互いのネイバーセットNに属するかどうかを指定する。ここで図面を見ると、ゲート付きグラフニューラルネットワーク(GGNN)の視覚的描写が図1に図示されている。GGNN100は、原子を表すノード(110~120)、および結合を表すエッジ(130~140)と共に図示されている。この例では、ネットワークの異なる更新層間の情報の伝播を図示するために、小分子プロパナミドが選択されている。カルボニル炭素(110)について、素性行列xの該当する行は、そのエレメントを表現する[1,0,0]であり得、隣接行列Aの対応する行は、3つのネイバー原子へのその結合を示す[0,1,0,1,l]であり得る。
【0046】
いくつかの実施形態において、グラフ畳み込みの更新は、ノードおよびそのネイバーを入力として受け取り、各ノードの特徴の新しいセットを出力する関数を、各ノードにおいて適用することを要する。グラフ畳み込みについては、"Neural message passing for quantum chemistry" by Gilmer et al., Proceedings of the 34th International Conference on Machine Learningに記載されており、その開示内容は参照により全体が本明細書に組み込まれる。グラフ畳み込みは、次のように書くことができ、
【数1】
ここで、h (t)は、隠れ層tにおけるノードiのノード特徴を表し、N(v)はノードiのネイバーを表し、U(t)およびm(t)は、それぞれ隠れ層tにおける更新関数およびメッセージ関数である。ある特定の実施形態において、複数のエッジタイプがあるときに、複数のメッセージ関数を定義することができ、m(t,e)は、エッジタイプ
【数2】
についての層tにおけるメッセージ関数である。
【0047】
多くの実施形態において、モデルのすべての層の更新関数は、よく知られたゲート付き回帰型ユニット(GRU)である。しかしながら、当業者は、本発明の主旨から逸脱することなく他の更新関数が使用され得ることを認識されよう。一部の実施形態において、メッセージ関数は、エッジタイプごとに異なるが一方で各層にまたがって同じでもある単純な線形演算である。
【数3】
ここで、A(e)は、エッジタイプeについての隣接行列であり、W(e)はエッジタイプeについての重み行列である。
【0048】
グラフ畳み込みアーキテクチャのGGNN系列には、グラフに対する複雑性を低減するための効果的な最適化が含まれる。dを、各ノードの内部の隠れた表現の次元とし、nを、グラフ中のノードの数とする。密なグラフの場合のメッセージ受け渡しの1回のステップは、
【数4】
回の乗算を必要とする。d次元のノード埋め込みをk個の異なる
【数5-1】
次元の埋め込みに分解することにより、この実行時間を
【数5-2】
に短縮する。大半の分子は疎であるかまたは比較的小さいグラフであるので、これらの層は、一般に
【数6】
である。各種実施形態において、グラフのスペクトル表現を利用するなどの(ただしそれらに限定されない)、他の最適化が用いられ得る。
【0049】
入力される手作業で作られた特徴の非線形の組合せを学習する従来のFCNNと異なり、本発明の一部の実施形態に従って記載される更新は、所与の原子のより基本的な特徴と、その直接のネイバーの特徴との非線形の組合せを学習する。情報は、グラフ畳み込みごとに次第に遠くなる原子間を通って伝播し、GRUは、情報が選択的に追加されることを可能にする。最終的に、GCNNは、素性行列xを介したノードごとの特徴と、隣接行列Aを介した構造的情報との両方を含んでおり、それらを活用する。分類および回帰の両方の状況において、GCNNは、「グラフ集約」ステップで終結することができ、このステップは、最終的な埋め込みの行にわたって合計を取り、ノードの順序付けに対して不変である。後続のFCNNは、所望されるサイズ
【数7】
の出力を作成する。これにより、本発明の多くの実施形態に従って使用されるグラフ畳み込み更新の開始点が完了する。
【数8】
【0050】
ある特定の実施形態において、複数の標的についてGCNNによって親和性を予測することは、標的ごとに異なるモデルを訓練するか、または単一のマルチタスクネットワークを訓練するかのいずれかにより実装することができる。本発明の様々な実施形態に係る後者の設定は、最後の重み行列
【数9】
を使用することができ、ここで、Tは、データセット中の標的の数を表す。対応するマルチタスク損失関数は、標的にまたがる平均二値交差エントロピー損失となる。
【数10】
【0051】
本発明の多数の実施形態に係るシステムおよび方法は、リガンドに加えて、標的に関する構造的情報を活用する。より原理に基づいたDNN予測子向けのアーキテクチャを促進するために、次の表記およびフレームワークが使用される。その要素Rijがatomとatomとの間の距離を表す距離行列
【数11】
【0052】
これまで、対称行列Aとして符号化されるような隣接の概念は、化学結合に制約されてきた。しかしながら、隣接は、非共有結合相互作用(例えば、π-πスタッキング、水素結合、疎水性接触)を含むように、より広い範囲のネイバータイプを包含することもできる。隣接はドメイン知識を必要としない。各種実施形態において、しきい値未満のペアワイズ距離を使用することもできる。特定の手法に関わらず、距離行列Rは、Aの拡張バージョンの構築を促進する。このフレームワークでは、Aは、形状NxNxNetのテンソルになり、Netはエッジタイプの数を表す。
【0053】
行が、タンパク質またはリガンドのいずれかへのatomの帰属によって順序付けられた場合、AおよびRは両方ともブロック行列とみなすことができ、行列内では、対角ブロックが、あるリガンド原子から別のリガンド原子への、またはあるタンパク質原子から別のタンパク質原子への自己エッジ(すなわち、結合および非共有結合相互作用)となる。非対角ブロック行列は、タンパク質からリガンドへのおよびリガンドからタンパク質へのエッジを符号化することができる。簡単のために、1つのみのエッジタイプが存在する特殊な事例、Net=1を説明する。
【数12】
ここで、Aijはネイバーに対しては1、その他の場合は0であり、
【数13】
である。このフレームワーク内では、空間グラフ畳み込み、すなわち、ユークリッド距離上で予測される隣接の概念に基づくグラフ畳み込みを、上記の更新によって特徴付けられるGGNNの一般化として表すことができる。
【0054】
エッジタイプの一般化に加えて、本発明の多くの実施形態に係るプロセスは、グラフ畳み込み層のメッセージ部分に非線形性を導入する。
【数14】
ここで、NN(e)は、各エッジタイプeに対するニューラルネットワークであり、N(e)(h)は、原子/ノードiについてのエッジタイプeのネイバーを表す。
【0055】
いくつかの実施形態において、層の概念が、所与のタイプのいくつかの層にまたがり得るステージの概念へと一般化される。本発明の一部の実施形態に係るプロセスは、(1)共有結合のみの伝播、(2)非共有結合および共有結合の二重の伝播、および(3)リガンドに基づくグラフ集約、の3つの主要ステップからなる。より一般的には、一部の実施形態において、プロセスは、1つまたは複数のエッジタイプの第1のセットに基づく第1の伝播を行う。本発明の各種実施形態に係る第2のステージは、結合タイプ、ならびに結合情報とは別個の距離行列からの距離情報を含むことができる。距離情報は、具体的な物理距離測定値および/またはビニングされた距離を含むことができる(ただしそれらに限定されない)。本発明の様々な実施形態に係る第2のステージは、すべてのエッジタイプまたはエッジタイプのサブセットを含むことができる。
【0056】
ある特定の実施形態において、ステージ(1)の共有結合伝播は、隣接行列の第1のスライスA(1)のみを要し、これは、(atom,atom)の間に結合がある場合に要素(i,j)に1を含み、それ以外の場合は0を含んでいる。直感的に、ステージ(1)は、系内のN個の原子各々に対応するベクトル値化された原子タイプhi (1)の新しいセットを、それらの結合原子の局所的ネットワークに基づいて算出する。本発明の様々な実施形態に係る原子タイプは、各原子の特徴マップである。その後、本発明の各種実施形態に係るステージ(2)は、(1)で算出されたベクトル値化された原子タイプhi (1)で始まる完全隣接テンソルAの両方に基づく伝播を要する。ステージ(1)は、アミノ酸とリガンド原子の両方について新しい結合に基づく「原子タイプ」を算出するのに対し、ステージ(2)は、結合と空間情報との両方を原子間で渡す。例えば、ステージ(1)がケトンカルボニル酸素からアミドカルボニル酸素を区別する場合、ステージ(2)は、カルボニル酸素が水素結合ドナーからも3オングストローム以内にあることを第1の層において伝えることができる。最後に、ステージ(3)で、リガンド原子のみに対してグラフ集約が行われる。ある特定の実施形態においては、リガンドのみのグラフ集約が、上記のブロック行列の定式化によって計算的に単純化される。
【0057】
各種実施形態において、ベクトル値化された原子タイプの新しいセットが、系内の各原子について、それらの結合原子の局所的ネットワークに基づいて算出される。
ステージ1:
【数15】
多数の実施形態において、第2のステージは、(1)で算出されたベクトル値化された原子タイプhi (1)で始まる完全隣接テンソルAの両方に基づく伝播を要する。ステージ(1)は、アミノ酸とリガンド原子の両方について新しい結合に基づく「原子タイプ」を算出するのに対し、ステージ(2)は、結合と空間情報との両方を原子間で渡す。ある特定の実施形態においては、距離行列からの空間情報が、結合情報に加えて第2のステージで利用される。
ステージ2:
【数16】
様々な実施形態において、グラフ集約は、第3のステージ(3)で行われる。本発明の多数の実施形態に係るプロセスは、リガンド原子のみに対してグラフ集約を行う。
ステージ3:
【数17】
ここで、i(b)、j(b)、i(sp)、j(sp)は、結合および空間ニューラルネットワークであり、hj (sp)は、ステージ2の終了時のj番目の原子についての特徴マップを表す。
【0058】
より一般的には、エッジ情報、複数個のエッジタイプ、距離情報、およびステージを取り込むという概念は、S個のステージがあり、かつエッジタイプが離散的に扱われると仮定して、以下の定式化に要約することができる。
【0059】
本発明の様々な実施形態に係る1つの定式化では、各エッジタイプを離散的に扱うことができる。
ステージ1:
【数18】
ステージS:
【数19-1】
ここで、例えば、Kは、S番目のステージにおけるグラフ畳み込み層の数を定義し、h (S,Ks)は、K個のグラフ畳み込み層の後のステージSにおけるi番目の原子の特徴マップを定義し、Net (S)は、ステージSで使用されるエッジタイプの数を表し(これはエッジタイプの総数Netのサブセットである)、Rijは、行列Rのi番目の行およびj番目の列の要素(したがって原子/ノードvとvとの間の距離)を表し、NN(S,e)は、e番目のエッジタイプのステージSにおけるニューラルネットワークを表し(ただし、重みの関係付けのために異なるステージで所与の一つのエッジタイプに同じニューラルネットワークが使用され得る)、
【数19-2】
は、ステージSの終了時における各原子の特徴マップの次元を表し、i(S)およびj(S)は、ステージSの集計ニューラルネットワークである。各ステージ/グラフ畳み込み層の各セットにおいてエッジタイプのサブセットおよびエッジ情報を利用できると述べたため、どの任意のステージにおいても、距離情報Rijも、軟または硬距離ビンのいずれも、GRU機能内の所与のNNによって利用される必要がないことに留意すべきである。言い換えると、ステージの一部は、原子間の結合または他の非空間的関係のみに依存することができる。
【0060】
本発明の各種実施形態に係る別の定式化では、エッジタイプは、柔軟なまたは連続した/密なエッジタイプとすることができる。
ステージ1:
【数20】
ステージS:
【数21】
ここで、例えば、Kは、S番目のステージにおけるグラフ畳み込み層の数を定義し、h (S,Ks)は、K個のグラフ畳み込み層の後のステージSにおけるi番目の原子の特徴マップを定義し、Rijは、行列Rのi番目の行およびj番目の列の要素(したがって原子/ノードvとvとの間の距離)を表し、NN(S)は、ステージSにおけるニューラルネットワークを表し、eijは、原子vとvとの間の事前に特徴化(featurize)されたまたは学習されたエッジ特徴のいずれかを表すベクトルであり、
【数22】
は、ステージSの終了時における各原子の特徴マップの次元を表し、i(S)およびj(S)は、ステージSの集計ニューラルネットワークである。上記の定式化では、各ステージが距離行列Rを利用するが、距離行列Rは、ステージのうち1つまたは複数から除くことができる。多くの実施形態において、ステージの第1のサブセットは距離行列を利用し得るのに対し、ステージの第2のサブセットは距離行列を全く伴わなくてよい。一部の実施形態では、各ステージの最後の層を、単にh(s)=h(s,Ks)と設定することができる。それに代えて、またはそれと併せて、本発明の多くの実施形態に係る各ステージの最後の層は、h(s)=NN(h(s,Ks))またはh(s)=NN(h(s,Ks),h(s-1))と設定することができる。
【0061】
一部の実施形態では、eijは、事前に定義されるのに代えて、それ自体を微分可能な関数とすることができる。一例では、eij (S,3)は、ステージSおよびグラフ畳み込み層3における原子iとjとの間のエッジである。この例では、eij (S,3)=NN(h (S,2),h (S,2))となる。いくつかの実施形態において、eijは、所与のステージにおけるグラフ畳み込み層の後の当該ステージの原子iおよび原子jの特徴マップに依存するニューラルネットワークとすることができる。一部の実施形態では、eijはRNNとすることができる。例えば、eij (S,3)=GRU(eij (S,2),W (S)・[(h (S,2),h (S,2)])である。
【0062】
タンパク質-リガンド結合の特定の事例では、グラフ集約演算は、以下のようにS個のステージの後に定義される。
集約ステージ:
【数23】
しかしながら、本発明の実施形態に係る特定の適用例の要件に応じて、NLig個の原子にわたる和を、グラフ中のノードの任意のサブセットに置き換えることも可能である。また、上記のReLU非線形性を、シグモイド、Leaky ReLU、tanh等のような他の非線形性に置き換えるなど、他のタイプのグラフ集約ニューラルネットワークを本発明の一部の実施形態に従って使用することができ、また、回帰型ニューラルネットワークなど、全結合ニューラルネットワーク以外の他の演算を使用することができる。
【0063】
システムおよび方法
本発明の一部の実施形態に係るモデル化および予測を提供するシステムが図2に示される。ネットワーク200は、通信ネットワーク260を含む。通信ネットワーク260は、ネットワーク260に接続されたデバイスが、他の接続されたデバイスと通信することを可能にする、インターネットなどのネットワークである。サーバーシステム210、240、および270が、ネットワーク260に接続されている。サーバーシステム210、240、および270の各々は、ネットワーク260を通じてユーザにクラウドサービスを提供するプロセスを実行する、内部ネットワークを介して互いに通信可能に接続された1つまたは複数のサーバーコンピューターシステムの群である。本説明の目的には、クラウドサービスは、1つまたは複数のサーバーシステムによって実行されてネットワークを通じてデバイスにデータおよび/または実行可能アプリケーションを提供する1つまたは複数のアプリケーションである。サーバーシステム210、240、および270は、内部ネットを介して接続された3つのサーバーを各々有するものとして図示されている。しかしながら、サーバーシステム210、240、および270は、任意数のサーバーを含んでよく、任意のさらに多くの数のサーバーシステムがネットワーク260に接続されて、これに限定されないが仮想化されたサーバーシステムを含むクラウドサービスを提供してよい。本発明の様々な実施形態によれば、分子特性をモデル化および予測するためのプロセスが、単一のサーバーシステムおよび/またはネットワーク260を通じて通信するサーバーシステムの群で実行する1つまたは複数のソフトウェアアプリケーションによって提供される。
【0064】
ユーザは、ネットワーク260に接続するパーソナルデバイス280および220を使用して、本発明の様々な実施形態に係る分子特性をモデル化および予測するためのプロセスを行ってよい。図示される実施形態では、パーソナルデバイス280は、従来の「有線」接続を介してネットワーク260に接続されるデスクトップコンピューターとして示されている。しかしながら、パーソナルデバイス280は、デスクトップコンピューター、ラップトップコンピューター、スマートテレビジョン、エンターテイメントゲームコンソール、または「有線」もしくは「無線」のネットワーク接続を介してネットワーク260に接続する任意の他のデバイスであってよい。モバイルデバイス220は、無線接続を使用してネットワーク260に接続する。無線接続は、ラジオ周波数(RF)シグナル、赤外線シグナル、または任意の他の形態の無線シグナル伝達を使用してネットワーク260に接続する接続である。図2では、モバイルデバイス220は携帯電話である。しかしながら、モバイルデバイス220は、本発明から逸脱することなく、携帯電話、個人情報端末(PDA)、タブレット、スマートフォン、仮想現実ヘッドセット、強化現実ヘッドセット、混合現実ヘッドセット、または無線接続を介してネットワーク260に接続する任意の他のタイプのデバイスであってよい。本発明の一部の実施形態によれば、分子特性をモデル化および予測するプロセスは、ユーザデバイスによって行われる。容易に理解できるように、分子特性をモデル化および予測するために使用される特定のコンピューティングシステムは、主として所与の適用例の要件に依存し、任意の特定のコンピューティングシステムの実装に限定されるとみなされるべきではない。
【0065】
本発明のいくつかの実施形態に係るモデル化エレメントが図3に図示される。本発明の多くの実施形態に係るモデル化エレメントは、モバイルデバイス、コンピューター、サーバー、およびクラウドサービスのうちの1つまたは複数を含むことができる(ただしそれらに限定されない)。モデル化エレメント300は、プロセッサー310、通信インターフェース320、およびメモリ330を含む。
【0066】
当業者は、特定のモデル化エレメントは、本発明から逸脱することなく、簡略のために省略されている他の構成要素を含んでよいことを認識されよう。プロセッサー310は、メモリ330に記憶された命令を実行してメモリに記憶されたデータを操作する、プロセッサー、マイクロプロセッサー、コントローラー、または、プロセッサー、マイクロプロセッサー、および/もしくはコントローラーの組合せを含むことができる(ただしそれらに限定されない)。プロセッサー命令は、本発明のある特定の実施形態に従ってプロセスを行うようにプロセッサー310を構成することができる。通信インターフェース320は、モデル化エレメント300が、プロセッサー310によって実行される命令に基づいてネットワークを通じてデータを送信および受信することを可能にする。
【0067】
メモリ330は、モデル化アプリケーション332、分子データ334、およびモデルデータ336を含む。本発明のいくつかの実施形態に係るモデル化アプリケーションは、異なる分子同士の相互作用をモデル化および予測するために使用される。多数の実施形態において、モデル化された相互作用を使用して、さらなる試験のために候補分子を特定することができる。いくつかの実施形態において、モデル化アプリケーションは、分子シミュレーションおよび/または分子特性のデータベースを含む(ただしそれらに限定されない)各種の供給源から生成されたデータを含む、分子データを使用することができる。本発明の様々な実施形態に係るモデルデータ336は、空間グラフのデータ、エッジ型ニューラルネットワーク、および全結合分類器ネットワークを含むことができる(ただしそれらに限定されない)。本発明の多くの実施形態に係るモデルは、分子系の原子ごとに素性行列を特定し、結合/非結合、量子特性、毒性、および溶解度を含むがそれらに限定されない分子の様々な特質を分類するなどの(ただしそれらに限定されない)、様々な目的のために使用され得る。
【0068】
モデル化エレメント300の特定の例が図3に図示されるが、本発明の実施形態に係る特定の適用例の要件に応じて、本明細書に記載されるものと同様のプロセスを行うために各種のモデル化エレメントのいずれをも利用することができる。
【0069】
本発明の一実施形態に係る候補リガンドを特定するモデル化アプリケーションが図4に図示される。モデル化アプリケーション400は、グラフエンジン405、結合特徴生成器410、空間特徴生成器415、集計エンジン420、および分類エンジン425を含む。本発明の多くの実施形態に係るモデル化アプリケーションは、分子系の分子のセットについての分子データを して、系内の分子間の相互作用をモデル化および予測する。
【0070】
各種実施形態において、グラフエンジンは、分子のセットのグラフ表現を構築することができる。グラフ表現は、結合情報、結合タイプ、距離情報、原子特性、および結合親和性を含むことができる(ただしそれらに限定されない)。本発明のいくつかの実施形態に係る構築されたグラフ表現は、隣接行列および/または距離行列を含むことができる。
【0071】
本発明の多数の実施形態に係る結合特徴生成器は、原子のその各ネイバーとの結合に基づいて分子系の原子ごとに素性行列を生成することができる。多数の実施形態において、結合特徴生成器は、モデル化および予測プロセスの異なるステージにおいて、異なるタイプの結合に対して動作することができる。各種実施形態において、結合特徴生成器は、第1のステージにおいて共有結合に基づいて各原子に対して素性行列の第1のセットを決定することができ、また、他のタイプの結合に基づいて原子に対して素性行列の第2のセットを決定するために使用されることが可能である。本発明の一部の実施形態に係る空間特徴生成器は、結合タイプに加えて、または結合タイプに代えて、異なる原子間の空間距離に基づいて分子系の各原子について素性行列を生成することができる。本発明の様々な実施形態に係る結合特徴生成器は、結合情報と空間情報の両方を各原子の素性行列に取り込むために、プロセスの一部のステージにおいて空間特徴生成器と連携して動作することができる。結合特徴生成器および空間特徴生成器は、各結合タイプおよび/またはプロセスの各ステージに対していくつかのニューラルネットワークを実装することができる。
【0072】
本発明の様々な実施形態に係る集計エンジンを使用して、特徴生成器からの生成された特徴を集計することができる。各種実施形態において、集計エンジンは、結合特徴生成器および/または空間特徴生成器によって生成された素性行列の最終セットを集計することができる。多数の実施形態において、集計エンジンは、分子系の分子のうち1つ(例えばリガンド)のみに動作する。
【0073】
様々な実施形態において、分類エンジンを使用して分子のセット間の相互作用を分類または予測することができる。本発明の一部の実施形態に係る分類エンジンは、全結合ニューラルネットワーク(FCNN)および/またはランダムフォレストなどの(ただしそれらに限定されない)分類器を実装することができる。様々な実施形態において、分類エンジンは、特徴生成器および/または集計エンジンによって生成された素性行列を入力として受け取り、分子のセットが特定の関係(例えば、結合/非結合、アゴニスト/アンタゴニスト等)を有する見込みを出力する。モデル化アプリケーションの特定の例が図4に図示されるが、本発明の実施形態に係る特定の適用例の要件に応じて、本明細書に記載されるものと同様のプロセスを行うために各種のモデル化アプリケーションのいずれをも利用することができる。
【0074】
本発明の実施形態に係る空間畳み込みを利用して分子特質をモデル化および予測するためのシステム、エレメント、およびアプリケーションの特定の例が上記で説明されたが、当業者は、本発明の実施形態に係る特定の適用例の要件に応じて、任意数の構造およびシステムを利用できることを認識されよう。
【0075】
本発明の一実施形態に係る段階的な畳み込みを行うためのプロセスが概念的に図5に図示される。プロセス500は、系内の1つまたは複数の分子についての原子情報を受け取る(505)。各種実施形態において、分子は、供給源(例えばリガンド)および標的分子を含むことができる。本発明のいくつかの実施形態に係る原子情報は、距離情報および化学特性を含む(ただしそれらに限定されない)、各分子に関する様々な情報を含む。多数の実施形態において、原子タイプ、すなわち
【数24】
の原子ごとの特徴マップが、リガンドとタンパク質原子の両方について同じ初期特徴から導出される。プロセス500は、リガンドおよび標的分子の空間グラフ表現を構築する(510)。本発明の各種実施形態に係る空間グラフ表現は、距離行列および/または隣接行列を含む。本発明の一部の実施形態に係る距離行列は、系内の他の各原子からの各原子の距離情報を含む。多くの実施形態において、隣接行列は、複数の層(または次元)を含み、各層は、異なるエッジタイプに沿った隣接を示す。例えば、第1の層における隣接は、2つの原子が共有結合を共有していることを示し得、一方、異なる層における隣接は、異なる結合タイプを示す。一部の実施形態において、隣接は、特定の結合は全く示さず、2つの原子が互いからしきい値距離内にあるかどうかを示す。
【0076】
本発明のいくつかの実施形態に係るプロセスは、次いで、いくつかのグラフ畳み込みステージを行うことができる。プロセス500は、グラフ畳み込みステージを行う(515)。一部の実施形態では、異なるグラフ畳み込みステージは、分子系に関する情報の異なるサブセットに基づくことができ、情報は、結合タイプ、距離タイプ、および他のエッジタイプを含むことができる(ただしそれらに限定されない)。例えば、一部のステージは結合タイプのみに基づくことができ、一方、他のステージは、ある特定のエッジタイプおよび距離情報に基づくことができる。本発明の様々な実施形態に係る単一のグラフ畳み込みステージが、異なるエッジタイプのサブセットに基づくことができるのに対し、異なる畳み込みステージは、それら異なるエッジタイプの異なるサブセットまたは完全なセットに基づく。例えば、ある特定の実施形態では、最初のグラフ畳み込みステージは、共有結合の存在を示す隣接行列の第1の層に基づくのに対し、後続のグラフ畳み込みステージは、すべての結合タイプならびに原子間距離に基づく。
【0077】
いくつかの実施形態において、各グラフ畳み込みステージは、各原子の特徴ベクトルを作成し、各ステージへの入力に基づいて各原子の特徴を学習する。本発明の各種実施形態に係る特徴ベクトルは、後続のグラフ畳み込みステージへの入力として使用されることが可能である。本発明の様々な実施形態に係る各グラフ畳み込みステージは、ニューラルネットワークのセットを利用することができる。多数の実施形態において、各別個のニューラルネットワークがエッジタイプごとに訓練される。多くの実施形態において、ニューラルネットワークは、全結合ニューラルネットワーク、畳み込みネットワーク、および回帰型ネットワークを含むことができるが、これらに限定されない。異なるステージの重み同士を共に関係付けるために、特定のエッジタイプ向けのニューラルネットワークを、本発明の様々な実施形態に係る異なるステージにわたって使用することができる。しかしながら、多くの実施形態においては、エッジタイプおよびステージごとに異なるニューラルネットワークが訓練され、利用される。
【0078】
プロセス500は、行うステージがさらにあるかどうかを決定する(520)。多くの実施形態においては、指定数のステージが行われる。プロセスが行うステージがさらにあると決定すると、プロセスはステップ515に戻る。すべてのステージが完了している場合、プロセス500は、グラフ集約を行って、グラフ畳み込みステージの後の情報を集計する(525)。いくつかの実施形態において、グラフ集約は、リガンド分子の原子のみに対して行われる。各種実施形態において、グラフ集約ステップは、リガンド分子の分類を予測するように訓練された全結合ニューラルネットワークを使用して行われる。分類は、標的分子と結合する能力の予測を含むことができる(ただしそれに限定されない)。
【0079】
本発明の実施形態に係る空間畳み込みを利用して原子を分類するための特定のプロセスが上記で説明されたが、当業者は、本発明の実施形態に係る特定の適用例の要件に応じて、任意数のプロセスを利用できることを認識されよう。
【0080】
本発明の様々な実施形態に係る多段階空間ゲート付きグラフニューラルネットワークの視覚的描写が図6に図示される。第1のステージ605は、結合のみに対するグラフ畳み込みを要し、これは、より従来型の形態の分子モデル化における区別可能な原子タイプに概ね似た、新しいノード(原子)特徴マップを導出する。第2のステージ610は、結合と空間距離との両方に基づく情報の伝播を要する。第3のステージ615で、グラフ集約演算がリガンド原子に対して行われ、その特徴マップが、結合リガンド情報およびタンパク質原子への空間近接度から導出される。歴史的な理由からリガンドとタンパク質とに別個の力場を有し、次いでそれらがシミュレーションで相互動作しなければならない(しばしば良好に行かない)分子動力学の力場と対照的に、本発明の一部の実施形態に係るプロセスは、統一されたフレームワークから生体分子相互作用の物理化学的特性を導出することができる。
【0081】
さらに例示するために、本発明の様々な実施形態に係る第1および第2のステージは、完全隣接テンソルAの異なるサブセットを活用する。本発明の各種実施形態に係る第1のステージが図7に図示される。この例では、隣接テンソルAの最後の次元の第1のスライスに符号化された共有結合または結合相互作用エッジタイプのみが、活用される。本発明のいくつかの実施形態に係る第2のステージが図8に図示される。この例では、隣接テンソルAの最後の次元全体にまたがる結合および非結合両方の相互作用エッジタイプが活用される。各種実施形態において、第2のステージは、様々な原子間の距離を記述する空間データも含むことができる。
【0082】
予測子性能の従来の測定基準は、一般的な問題および薬物発見に固有の問題が生じる。リグレッサーの場合、「決定の係数」であるRと、二乗平均平方根誤差(RMSE)との両方が、単一データ点外れ値に対して感受性である。分類器とリグレッサーとの両方についてのRMSEは、訓練データの分布も帰無モデル性能も加味しない。受信者操作特性曲線の下の面積が、分類器についてのRMSEのこの欠陥を補正することができる。しかしながら、すべての上述の測定基準は、すべてのデータ点を均等に重み付けする包括的統計値である。この特性は、分布の末端を予測することに最も関心がもたれる薬物発見では特に望ましくない。すなわち、モデル予測は、数百万の分子を含んでいるライブラリ全体に対して行われるが、購入または合成されるのは上位スコアの分子のみである。
【0083】
それに応じて、ケモインフォマティクス界は、モデルの最も性能が高いものの重要性をより重く重み付けする、早期エンリッチメントの概念を導入した。現在、早期エンリッチメント測定のこの進歩は分類に限定されており、まだ回帰を含んではいない。本発明の多数の実施形態に係るプロセスは、EFχに似た、回帰における早期エンリッチメントの新たな測定基準、EFχ (R)を利用する。所与の標的について、
【数25】
であり、ここで、試料iに対しての実験による(観察された)測定値であるyは、試料iについてのモデル(予測)測定値である
【数26】
に従って降順にランク付けされる。言い換えると、yと同じ単位を有する(すなわちlog(K)値)、例えば
【数27】
を算出するのではなく、上位χ%のスコアの試料の観察値の平均zスコアが算出される。不都合なことに、この正規化されない方式は、データセット中の分布に依存する。例えば、log(K)の測定値の分布において、平均からの最大偏差が1.0である場合、モデルが行い得る最良のことは、1.0のEFχ (R)を達成することである。
【0084】
本発明の様々な実施形態に係るプロセスは、データの標準偏差であるσ(y)による除算を通じて正規化を行う。これにより、共通の測定単位を有するが、それら測定値における分散が異なる各データセットにわたる、モデル性能の比較を可能にすることができる。上限は、したがって、(15)の右辺と等しくなり、ここで、分子iのインデックス付けされたセットが、χ・N個の実験上最も活性の高い分子のサブセットを構成する。この値は、訓練データの分布と値χとの両方に依存する。EFχ (R)は、χ・N個のzスコアにわたる平均であり、zスコアはそれ自体、平均実験活性からの標準偏差の実数である。EFχ (R)値は、したがって1.0を超える。何故ならば、これは、上位の予測分子のχパーセントが、平均を1.0超上回る平均標準偏差を有することを意味するためである。
【0085】
空間グラフ畳み込みは、親和性の予測において最新技術水準の性能を呈する。本発明のいくつかの実施形態に係る空間グラフ畳み込みは、より原理に基づいた深層学習方式を使用する。入力特徴は、原子、結合、および距離に関する基本的な情報のみである。様々な実施形態において、このフレームワークは、疎水性効果、πスタッキング、または水素結合などの、従来の手作業で作られた特徴を使用しない。代わりに、本発明の様々な実施形態に係るより高水準の相互作用「特徴」が、中間のグラフ畳み込みニューラルネットワーク層を通じて学習される。より単純な入力の特徴化にも関わらず、本発明の様々な実施形態に係る空間グラフ畳み込みは、知見に基づく以前の方式と同じ、比較的少量のデータを使用して、結合自由エネルギーに対するタンパク質-リガンド構造の正確なマッピングを学習することができる。現実世界の薬物発見状況に機械学習が適用される場合は、化学的空間のよく知られた領域内で内挿することと、その空間のうちあまり図表化されていない区域に一般化することとの両方を、所与のモデルが行う能力を測定することが必須である。
【0086】
一態様において、本開示は、分子について特質を予測するための方法およびシステムを提供する。方法は、(a)分子のセットの表現を、N個の原子およびNet個のエッジタイプを有するグラフとして得るステップと、(b)Net個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第1のセットを行うステップと、(c)Net個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの0~S-1個のさらなるセットを行うステップと、(d)特質予測が所望される場合、グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くステップと、を含む。
【0087】
システムは、1つまたは複数のプロセッサーであって、(a)分子のセットの表現を、N個の原子およびNet個のエッジタイプを有するグラフとして得ることと、(b)Net個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第1のセットを行うことと、(c)Net個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの0~S-1個のさらなるセットを行うことと、(d)特質予測が所望される場合、グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くことと、を行うように個別にまたはまとめて構成された、1つまたは複数のプロセッサーを備える。
【0088】
一部の実施形態において、分子のセットの表現が、NxN距離行列をさらに含む。Net個のエッジタイプは、結合タイプ、塩橋、パイスタッキング、距離ビン、距離基底関数系(distance basis set)、未加工距離、またはそれらの組合せを含むことができる。一部の実施形態において、(b)は、NxN距離行列から情報を直接取り込むことをさらに含む。一部の実施形態において、(c)は、NxN距離行列を用いてグラフ畳み込みを行うことをさらに含む。一部の実施形態において、グラフの部分グラフは、分子の1つまたは複数についてのものであり得る。
【0089】
一部の実施形態において、グラフの部分グラフは、1個の部分グラフ、2個の部分グラフ、3個の部分グラフ、4個の部分グラフ、5個の部分グラフ、またはそれより多い部分グラフとすることができる。一部の実施形態において、グラフの部分グラフは、1~1000000個の部分グラフ、1~10000個の部分グラフ、1~1000個の部分グラフ、l~100個の部分グラフ、1~50個の部分グラフ、1~20個の部分グラフ、1~10個の部分グラフ、または1~5個の部分グラフとすることができる。
【0090】
一態様において、本開示は、分子について特質を予測するための方法を提供する。方法は、(a)分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを行うステップであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ステップと、(b)空間グラフ表現を用いてグラフ畳み込みの第2のセットを行うステップであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、(c)空間グラフ表現を用いてグラフ集約を行うステップと、(d)分子のセットについて1つまたは複数の特質のセットを予測するステップと、を含む。分子のセットは、1個の分子、2個の分子、またはそれより多い分子とすることができる。
【0091】
一部の実施形態において、1つまたは複数の特質のセットを予測するステップは、グラフ集約からのデータを評価することを含む。本発明の多数の実施形態に係るプロセスは、1つまたは複数の分子のセットについての原子情報を受け取ることができる。原子情報は、分子内の結合長、分子内の結合強度、分子内の結合角、分子内の二面角、2つのおよび/またはそれより多い分子間の二面角、2つのおよび/またはそれより多い分子間の結合角、同じ分子または2つのおよび/もしくはそれより多い異なる分子の原子の対間の原子間距離、同じ分子または2つのおよび/もしくはそれより多い異なる分子の原子の3つ組間の原子間角度、2つのおよび/またはそれより多い分子間の結合距離、分子の電荷、分子の電気陰性度、所与の原子の対の双極子、分子の双極子、1つまたは複数の分子のセットの双極子、ならびに/または2つのおよび/もしくはそれより多い分子間の力とすることができるが、これらに限定されない。2つのおよび/またはそれより多い分子間の力は、静電、イオン引力、中間双極子-双極子、弱いロンドン分散力、疎水性相互作用、親水性相互作用、ファンデルワールス、水素結合、共有結合、金属結合、磁気、および/または物理的な力とすることができるが、これらに限定されない。分子内の1つまたは複数の原子の原子情報は、化学元素、原子番号、プロトン数、電子数、およその質量、電荷、直径、形状、軌道形状、サイズ、エネルギーレベル、原子価、磁気モーメント、および/または同位体を含むことができるが、これらに限定されない。
【0092】
各種実施形態において、空間グラフ表現を構築するステップは、距離行列および隣接テンソルを生成するステップを含むことができ、距離行列は、分子のセットの原子間の距離を表し、隣接テンソルは、原子間の複数の異なるエッジタイプを示す。エッジタイプは、共有結合、イオン結合、極性結合、金属結合、非共有結合(例えばπ-πスタッキング)、塩橋、距離ビン(ハードカットオフおよび/もしくはガウスおよび/もしくは他の基底関数系で拡張される)、ならびに/または水素結合を含むことができるが、これらに限定されない。
【0093】
多くの実施形態において、分子のセットは、リガンド分子および標的分子を含み、距離行列の行が、リガンド分子および標的分子への帰属によって順序付けられる。
【0094】
一部の実施形態において、分子のセット間の結合は共有結合を含む。多数の実施形態において、分子のセット間の結合は、π-πスタッキング、水素結合、および疎水性接触のうちの少なくとも1つを含む。一部の実施形態において、セット内の異なる分子内の原子間の結合/エッジは、ソフトビンまたはハードビン内の距離から構成される。一部の実施形態において、分子のセットは1つの分子を備えることができる。一部の実施形態において、分子のセットは、溶媒分子に囲まれた1つの分子を備えることができる。
【0095】
一部の実施形態において、グラフ畳み込みの第2のセットは、分子のセット間の結合にさらに基づく。一部の実施形態において、グラフ畳み込みの第1のセットは、分子のセット間の結合の第1のセットに基づくことができ、グラフ畳み込みの第2のセットは、分子のセット間の結合の第2のセットに基づくことができる。一部の実施形態において、結合の第1のセットは、結合の第2のセットのサブセットである。
【0096】
本発明の多くの実施形態に係るグラフ畳み込みの第1のセットを行うステップは、グラフ畳み込みの各層において演算を行うステップを含む。一部の実施形態において、この演算は、ゲート付き回帰型ユニット(GRU)、長・短期記憶(LSTM)、ゲート線形ユニット(GLU)、回帰型ニューラルネットワーク、全結合ニューラルネットワーク、またはそれらの組合せとすることができるが、それらに限定されない。いくつかの実施形態において、グラフ畳み込みの第1のセットを行うステップは、グラフ畳み込みの各層においてゲート付き回帰型ユニット(GRU)演算を行うステップを含む。
【0097】
いくつかの実施形態において、グラフ畳み込みの第1のセットを行うステップは、第1の複数のニューラルネットワークを利用するステップを含み、複数のニューラルネットワークの各ニューラルネットワークは、異なる結合タイプに使用され得る。いくつかの実施形態において、グラフ畳み込みの第2のセットを行うステップは、第2の複数のニューラルネットワークを利用するステップを含み、第1の複数のニューラルネットワークのための重みが、第2の複数のニューラルネットワークと共有され得る。
【0098】
いくつかの実施形態において、グラフ畳み込みの第2のセットを行うステップは、第2の複数のニューラルネットワークを利用するステップを含み、第2の複数のニューラルネットワークのニューラルネットワークは、分子のセットの原子間の距離に関する距離情報を利用することができる。
【0099】
一部の実施形態において、分子のセットはリガンド分子および標的分子を含み、グラフ集約がリガンド分子に対してのみ行われ得る。
【0100】
一部の実施形態において、特質のセットは、分子のセットの第1の分子が、分子のセットの第2の分子と結合するかどうかを含む。
【0101】
別の態様において、本開示は、空間畳み込みグラフモデルを訓練するための方法を提供する。方法は、分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第1のセットを行うステップであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ畳み込みの第2のセットを行うステップであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ集約を行うステップと、分子のセットについての損失を算出するステップと、算出した損失に基づいて空間畳み込みグラフモデルを更新するステップと、を含む。
【0102】
一部の実施形態において、分子のセットの運動を予測することは、確率論的シミュレーションを行うこと、例えば、溶媒和効果を推定すること、コンフォメーションエントロピーを推定すること、タンパク質およびリガンドの両方の異なるコンフォメーションを探索することにより(例えば、結合の「誘導適合」モデル)、計算することができる。本発明のいくつかの実施形態に係る運動の予測は、分子のセットの運動を予測することによって計算することができるいくつかの特性に依存し得るタンパク質へのリガンド結合などの(ただしそれらに限定されない)、主要な生物物理的プロセスをシミュレートするために使用され得る。
【0103】
ある特定の実施形態において、プロセスおよびシステムは、空間畳み込みグラフモデルの層を使用して、力場について1つまたは複数のパラメーターのセットを予測するように1つまたは複数のニューラルネットワークのセットを訓練することができる。ネットワークの層は、力場についての1つまたは複数のパラメーターのセットを予想するように、1、2、3、4、5、10、20、50、100、1000、10000個、またはそれより多くのニューラルネットワークのセットを訓練することができる。ネットワークの層は、力場についての1つまたは複数のパラメーターのセットを予想するように、1~10000、1~1000、1~500、1~100、1~10、または1~5個のニューラルネットワークのセットを訓練することができる。ニューラルネットワークは、力場についての、1、2、3、4、5、10、20、50、100、1000、10000個またはそれより多くのパラメーターのセットを予測するために使用され得る。ニューラルネットワークは、力場についての、1~10000、1~1000、1~500、1~100、1~10、または1~5個のパラメーターのセットを予測するために使用され得る。
【0104】
様々な実施形態において、パラメーターのセットは、1つまたは複数の特質のセットに関連付けられ得、特質のセットは、電荷、結合角度、および二面角のうちの少なくとも1つを含む。パラメーターのセットは、1、2、3、4、5、10、20、50、100、1000、10000個、またはそれより多くの特質のセットに関連付けられ得る。パラメーターのセットは、1~10000、1~1000、1~500、1~100、1~10、または1~5個の特質のセットに関連付けられ得る。
【0105】
ある特定の実施形態において、空間畳み込みグラフモデルは第1の空間畳み込みグラフモデルであり得、方法は、ポテンシャルエネルギーを予測するように第2の空間畳み込みグラフモデルを訓練するステップと、第1および第2の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測するステップと、をさらに含む。
【0106】
様々な実施形態において、第2の空間畳み込みグラフモデルを訓練するステップは、1つまたは複数の層のセットを第1の空間畳み込みグラフモデルと第2の空間畳み込みグラフモデルとの間で共有するステップを含む。第2の空間畳み込みグラフモデルを訓練するステップは、1、2、3、4、5、10、20、50、100、1000、10000、またはそれより多くの層のセットを、第1の空間畳み込みグラフモデルと第2の空間畳み込みグラフモデルとの間で共有することを含むことができる。第2の空間畳み込みグラフモデルを訓練するステップは、1~10000、1~1000、1~500、1~100、1~10、または1~5個の層のセットを、第1の空間畳み込みグラフモデルと第2の空間畳み込みグラフモデルとの間で共有することを含むことができる。
【0107】
一部の実施形態において、力場は、Assisted Model Building with Energy Refinement(AMBER)関数形式である。一部の実施形態において、力場関数は、完全ニューラルポテンシャルとすることができ、これらに限定されないが、AMBER、CHARMM(CMAP項を含むかまたは含まない)、GROMOS、AMOEBA、またはそれらの組合せなどの、固定形態のポテンシャルの特質を帯びることができる。
【0108】
多数の実施形態において、システムおよびプロセスは、空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように1つまたは複数のニューラルネットワークのセットを訓練することができる。空間畳み込みグラフモデルの層は、入力分子系のポテンシャルエネルギーを予測するように、1、2、3、4、5、10、20、50、100、1000、10000個、またはそれよりも多くのニューラルネットワークのセットを訓練するために使用され得る。空間畳み込みグラフモデルの層は、入力分子系のポテンシャルエネルギーを予測するように、1~10000、1~1000、1~500、1~100、1~10、または1~5個のニューラルネットワークのセットを訓練するために使用され得る。
【0109】
様々な実施形態において、空間グラフ畳み込みモデルによって予測されるポテンシャルエネルギーを最小化することによって分子のセットのコンフォメーションのセットを特定するステップ。
【0110】
別の態様において、本開示は、分子について特質を予測するためのシステムを提供し、このシステムは、1つまたは複数のプロセッサーであって、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを行うことであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ことと、空間グラフ表現を用いてグラフ畳み込みの第2のセットを行うことであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ことと、空間グラフ表現を用いてグラフ集約を行うことと、分子のセットについて1つまたは複数の特質のセットを予測することと、を行うように個別にまたはまとめて構成された、1つまたは複数のプロセッサーを備える。
【0111】
別の態様において、本開示は、薬物発見のための方法およびシステムを提供する。方法は、機械学習により、予測される分子特質から候補リガンドを特定するステップを含んでよい。一部の実施形態において、候補リガンドを特定するステップは、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを実行するステップであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ステップと、空間グラフ表現を用いてグラフ畳み込みの第2のセットを実行するステップであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間グラフ表現を用いてグラフ集約を行うステップと、分子のセットについて1つまたは複数の特質のセットを予測するステップと、分子のセットについて1つまたは複数の特質のセットから候補リガンドを予測するステップとを含む。
【0112】
一部の実施形態において、システムは、1つまたは複数のプロセッサーであって、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第1のセットを実行することであって、グラフ畳み込みの第1のセットは、分子のセット間の結合に基づく、ことと、空間グラフ表現を用いてグラフ畳み込みの第2のセットを実行することであって、グラフ畳み込みの第2のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ことと、空間グラフ表現を用いてグラフ集約を実行することと、分子のセットについて1つまたは複数の特質のセットを予測することと、分子のセットについて1つまたは複数の特質のセットから候補リガンドを予測することと、を行うように個別にまたはまとめて構成された、1つまたは複数のプロセッサーを備える。
【0113】
一部の実施形態において、1つまたは複数の特質のセットは結合親和性を含む。一部の実施形態において、1つまたは複数の特質のセットはリガンドコンフォメーションを含む。一部の実施形態において、1つまたは複数の特質のセットは、リガンドの電荷、毒性、吸収、分布、代謝、脱離、CYP450亜型阻害、代謝安定性、膜透過性、経口バイオアベイラビリティ、量子電子特性、溶解度、LogD、またはそれらの組合せとすることができる。
【0114】
一部の実施形態において、分子のセットについて1つまたは複数の特質のセットから候補リガンドを予測するのを支援するために、事前に訓練されたモデルが利用されてよい。
【0115】
各種実施形態において、提案されるアーキテクチャの性能を以前の方法と比較するために、PDBBind 2007に基づいて性能を評価した。一部の実施形態において、(a)タンパク質-リガンドの共結晶構造およびそれに関連する結合自由エネルギー値を備える「精緻化された」セットで開始し、(b)「コア」セットを除去してテストセットを形成し、(c)残りの試料が訓練データの役目を果たすことにより、PDBBind 2007データセットを分割した。本開示において、この訓練-試験の分割は、下記の「PDBBind 2007、精緻化訓練、コアテスト」を指し、RFスコア、Xスコア、および本開示に記載されるネットワークを用いて性能を比較する。
【0116】
本開示において、開示は交差検証戦略を考察し、これは、一部の実施形態においては、すべての訓練データを、訓練サブセット、検証サブセット、およびテストサブセット、の3つの別個の層(fold)に分割し、距離測定基準としてのペアワイズの構造的および配列相同性に基づく階層的クラスタリングを用いる。各種実施形態において、ベンチマーク付けのための交差検証は、ハイパーパラメーターセットを使用する。
【実施例
【0117】
以下の実施例は、特許請求される本発明を例示するために、ただし制限するためではなく与えられる。深層ニューラルネットワークアルゴリズムの性能は、選択されるハイパーパラメーターに非常に敏感である。そのような敏感性が、厳格な交差検証の決定性(criticality)を強める。提案されるアーキテクチャの性能を以前の方法と比較するために、PDBBind 2007に基づいて性能を評価した。以前の研究では、(a)1,300個のタンパク質-リガンド共結晶構造およびそれに関連する結合自由エネルギー値を備える「精緻化された」セットで開始し、(b)195個の試料を含む「コア」セットを除去してテストセットを形成し、(e)残りの1,095個の試料が訓練データの役目を果たすことにより、PDBBind 2007データセットを分割した。本開示において、この訓練-試験の分割は、下記の「PDBBind 2007、精緻化訓練、コアテスト」を指し、RFスコア、Xスコア、および本開示に記載されるネットワークを用いて性能を比較する。
【0118】
本開示において、開示は交差検証戦略を考察し、これは、一部の実施形態においては、すべての訓練データを、訓練サブセット、検証サブセット、およびテストサブセット、の3つの別個の層に分割し、距離測定基準としてのペアワイズの構造的および配列相同性に基づく階層的クラスタリングを用いる。標準的なPDBBind 2007の「精緻化訓練、コアテスト」ベンチマークでは、空間グラフ畳み込みは、いくつかの測定基準によって反映される最新技術水準の性能を達成する。PotentialNetは、ピアソンおよびスピアマンの相関係数によれば、RFスコアおよびXスコアの性能をしのぐ。(7)~(14)についてのピアソン相関スコアは、このベンチマークに対する現在までの最高性能のモデルであるTopologyNetについて報告されたスコアの誤差以内である。表I、II、およびIIIに報告される結果すべてを含む、これについての交差検証は、テストセットに対する性能が、特徴的な検証セットに対して最も性能が高かったハイパーパラメーターセット(表VII)について記録されるように行われた。それに対して、TopologyNetでは、モデルは、検証セットと訓練セットの組合せで訓練され、テストセットで直接評価された。TopologyNetの性能は、したがって、訓練-検証-試験の分割というよりは、訓練-検証タイプの分割を反映しており、このことが、その方法の性能を増長させた可能性が高い。表IV~VIは、量子特性、毒性、および溶解度の予測の比較結果を示している。
【表1】
【表2】
【表3】
【表4】
【表5】
【表6】
【表7】
【0119】
これらの例は、特許請求される本発明を例示するために、ただし制限するためではなく与えられる。
【0120】
空間グラフ畳み込みによる分子動力学
ニューラルネットワーク界は、敵対的生成ネットワーク(GAN)や変分オートエンコーダ(VAE)などの生成モデルにより多くのリソースを投資しているが、自然科学は、17世紀から生成モデルの系列、すなわち物理学を研究してきた。光学物理学は、生体高分子およびそれらに結合する小分子薬物のリアルタイムの原子分解能挙動の観察を除外する。量子力学(QM)は、そのような実験による観察に基本的な制限を課すが、その数学的フレームワークの知識によっても、任意の精度でそのような原子論的挙動を理論的にモデル化する能力が与えられる。
【0121】
3つの運動の法則および単純な逆二乗の法則のポテンシャルを前提とした最初のニュートン力学は、初期条件を与えられたときの、物体の将来の位置の非常に正確な予測を可能にした。20世紀になって、マイクロおよびナノスケールの現象の測定がより普及するのに伴い、原子スケール以下(subatomic)の系、原子系および分子系の長期間の挙動(確率論的であっても)を予測する際のそれまでにない精度を実現するために、量子力学が発明された。
【0122】
分子動力学(MD)は、ニュートン近似を基礎となるシュレディンガー方程式に合わせることにより、分子のそのような理論的解明を、純粋なQMよりも計算的に扱いやすいものにする技術の系列である。分子系の調査には2つの基本的なトレードオフが存在し、それらは、分子の実験による観察における空間解像度と時間解像度との間のトレードオフ、および、系内のすべての原子を明示的にモデル化する計算方法の速度と精度との間のトレードオフである。分子動力学は、ニュートン力学を使用して、より現実的であるが評価に時間を要する量子力学で具体化される物理モデルを近似するタイプのシミュレーションである。分子動力学における不正確性は、主として、系内の原子の位置に基づくポテンシャルエネルギー関数の不正確性である力場誤差と、不十分なシミュレーションの時間スケールとに起因する。
【0123】
本発明のいくつかの実施形態に係るシステムおよび方法は、分子系について、エネルギー、およびしたがって力場のより正確な推定を開発するためのフレームワークを提供する。本発明のいくつかの実施形態に係るプロセスは、空間グラフ畳み込みを展開して、小有機分子の挙動をより正確に表すように、Assisted Model Building with Energy Refinement(AMBER)関数形式を再パラメーター化する。本発明の一部の実施形態に係るプロセスは、個々のアミノ酸および塩基からタンパク質および核酸までの任意の所与のクエリ生体分子系について、新しいパラメーターを自動的に生成することができる。ある特定の実施形態において、プロセスは、グラフ畳み込みを展開して、ここ数十年間にMDシミュレーションを支配してきたAMBER関数形式に基づく新しい力場を訓練することができる。いくつかの実施形態においては、深層ニューラルネットワーク(DNN)を利用して、固定された単純な初期特徴化および原子の動的な相対位置に由来する、区別可能な学習された原子タイプに基づいてエネルギーを算出する新しい関数形式を学習することができる。ある特定の実施形態においては、上記のもののなどの空間グラフ畳み込みに基づいて、ポテンシャルエネルギー関数を構築し、評価することができる。本発明のある特定の実施形態に係るグラフ畳み込みポテンシャル(GCP)モデルは、小分子のセットの複数の配座異性体についてのエネルギーの高水準の量子力学的計算からなるデータセットで、訓練および評価することができる。本発明の各種実施形態に従って逆伝播を用いて算出されるこのエネルギー関数の勾配が、AMBER関数形式の本質的な制限による制約を受けない、さらに正確な分子動態シミュレーションのための基盤を形成することができる。
【0124】
非常に広く使用されるAMBER関数形式は、量子力学計算、NMR、および他の経験的データの組合せを使用してAMBERおよびCHARMM力場に適合される。関数形式は次のように記載される。
【数28】
【0125】
スカラー出力V(r)は、原子の位置、原子の「タイプ」、ならびにそれらの原子およびそれらの2つ組(結合、ファンデルワールス力、静電力)、3つ組(角度)、および4つ組(二面角)に関連するパラメーターの関数であるポテンシャルエネルギーである。一部の実施形態においては、ニューラルネットワークが訓練される。本発明のいくつかの実施形態に係るニューラルネットワークは、入力として初期特徴テンソル(x,A,R)を受け取り、ポテンシャルエネルギーを最も正確に算出するように(16)のパラメーターを算出することができ、ここで、xは、N個の原子の各々が
【数29】
個の特徴からなる行ベクトルによって表される
【数30】
行列であり、Aは、Net個のエッジタイプ(結合タイプ、非共有結合相互作用等)間の隣接行列のN×N×Netテンソルであり、Rは、N×N距離行列である。
【0126】
ある特定の実施形態において、プロセスは、従来の力場における離散的な「原子タイプ」と似た、各原子についての、密で、区別可能な特徴マップを導出することができる。一部のそのような実施形態においては、データセット(ANI-1データセットなど)を利用して、データセットでのその訓練に基づいて、「特徴化」(電荷、平衡結合長、角度、二面角、およびその力の定数)をアミノ酸およびその小分子に適用する新しいAMBER様の力場(FF)を適合させることができる。最近公開されたANI-1データセットは、量子化学法である密度汎関数法(DFT)を通じて算出された、およそ60,000の小有機分子にわたって分散した合計およそ2000万個のコンフォメーションおよびそれに関連するエネルギー値を備えている。ある特定の実施形態において、完全PotentialNetもしくはグラフ畳み込みポテンシャルに厳密に基づくものであれ、またはパラメーターがグラフ畳み込みから導出されるAMBER関数形式に基づくものであれ、力場を、量子化学計算からのデータ(例えばANI-1データセット)、NMR実験データ等を用いて訓練することができる。所与の小分子について、xおよびAは固定されるが、Rは配座異性体ごとに変動する。本発明の多くの実施形態に係る空間グラフ畳み込みは、原子レベルの特徴を学習することができ、そこでは、これら原子レベルの特徴は、従来の力場で一般的な「原子タイプ」と同じように、連続し、区別可能である。
ステージ1:
【数31】
ステージS:
【数32】
パラメーターへの原子特徴マップのマッピング
【数33】
ここで、q=ChargeNN(h (spatial))は、点電荷を表す単一スカラーに、原子レベルの特徴の各行ベクトルをマッピングするニューラルネットワークであり、[L,k]=BondNN(h (spatial),h (spatial))は、連結された原子レベルの特徴の2つ組を、平衡結合長および力の定数にマッピングするニューラルネットワークであり、[θ,χ]=AngleNN(h (spatial),h (spatial),h (spatial))は、連結された原子レベルの特徴の3つ組を、平衡角度および力の定数にマッピングするニューラルネットワーク、連結された原子レベルの特徴の4つ組を、平衡二面角、振動数および/または振幅にマッピングするニューラルネットワーク、ならびに、連結された原子レベルの特徴の2つ組を、ファンデルワールス力にマッピングするニューラルネットワークである。基本的に、この新しいAMBER様の力場における各パラメーターは、空間グラフ畳み込みの中間層(またはそれと等価に最後の層)で学習された原子特徴に基づくニューラルネットワークを用いて学習することができる。各種実施形態において、離散したエッジタイプが、空間グラフ畳み込みに使用され得る。
【0127】
訓練セットに存在しない新しい分子について、本発明のいくつかの実施形態に係るプロセスは、1回の順方向パスにおいて、固定された特徴化x,Aを入力し、点電荷と、OpenMM、AMBER、DESMONDおよびGROMACSなどの(ただしそれらに限定されない)分子動態シミュレーションパッケージでMDシミュレーションを行うのに必要な他のパラメーターとを出力する。追加的な計算ステップは、力場ファイルの自動化された生成であり得るが、これは比較的単純な実施である。
完全グラフ畳み込みポテンシャル
多くの実施形態において、システムおよび方法は、グラフ畳み込みアーキテクチャを前提とする深層ニューラルネットワークとして全面的に訓練された、完全に新しいポテンシャルエネルギー関数形式を利用する。グラフ理論の文献において、ノードごとのスカラーまたはベクトルを表す「ノードレベルの出力」は、グラフ内の全ノードおよびエッジの関数である単一のスカラーまたはベクトルである「グラフレベルの出力」から区別される。一部の実施形態において、グラフレベルの出力は、次のように、原子/ノードの順序付けに対して不変である「グラフ集約」層を通じて達成することができる。
【数34-1】
ここで、最終的な重み行列
【数34-2】
は、最終的な出力h(output)の所望される次元と同じ数の行を有する。
【0128】
最終的な出力がスカラー値であり、かつ空間グラフ畳み込みモデル(またはPotentialNet)が、ラベルとしてのエネルギー値に接続された入力分子系を用いて訓練される場合、本発明の一部の実施形態に係るモデルは、ポテンシャルエネルギー関数として扱うことができる。
【数35】
【0129】
本発明のいくつかの実施形態に係るポテンシャルエネルギーφ(x,A,R)の算出は、各グラフ畳み込み層ごとに、
【数36】
回の計算を必要とする。分子シミュレーション界で使用される技術であるネイバー列挙を使用しないと、この計算コストは、
【数37】
まで上がり得る。N個の原子各々について、グラフ畳み込み層当たりの全体メッセージを得るために、前者の場合はNneighborsまたは後者の場合はN-1のいずれかのフィードフォーワードニューラルネットワークを算出しなければならない。
【0130】
AMBER力場関数形式は、生体高分子および小分子の動態、ならびにそれらの間の相互作用の解明を成功裏に可能にした。一部の実施形態において、総ポテンシャルエネルギーの算出は、次のように、AMBER関数形式(GAFFを初期の推測として、固定されたパラメーターまたは学習可能なパラメーターのいずれかを用いる)と空間グラフ畳み込み(またはPotentialNet)との和として計算される。
【数38】
【0131】
一部の実施形態においては、AMBER関数形式と空間グラフ畳み込み(またはAmberNet)との組合せが構想される。
【数39】
【0132】
いくつかの実施形態において、そのようなハイブリッド方式におけるネットワークパラメーターの総数は、原子特徴h(spatial)を導出する中間層を共有することによって低減することができる。
【0133】
分子の各コンフォメーションを特徴化することは、(a)各エレメントおよびそのハイブリッド形成タイプのone-hot特徴と同程度に単純であり得る原子レベルの特徴、(b)結合の隣接テンソル、および(c)原子間距離を要し得る。いくつかの実施形態において、ニューラルネットワークリグレッサーが、入力x,Aおよび各配座異性体のRをエネルギーにマッピングするように、PotentialNetに基づいて訓練される。本発明のいくつかの実施形態に係る交差検証戦略は、ランダム、時間(利用可能な場合)、足場、およびSMILES距離凝集分割を含むが、それらに限定されない。ここでの目的は、実験誤差またはDFT誤差と同等の、最新技術水準のエネルギー推定を達成することであるべきである。
【0134】
一部の実施形態において、PotentialNet(x,A,R)を(例えばANI-1および/または配座異性体をエネルギー値にマッピングする他のデータセットを用いて)訓練した後、
【数40】
をもたらすようにそのようなモデルのパラメーターを固定することができる。
【0135】
ニュートン系では、原子に対する力を次のように書くことができる。
【数41】
【0136】
ある特定の実施形態において、勾配
【数42】
は、多数の深層ニューラルネットワークソフトウェアパッケージによって実装される逆伝播アルゴリズムを用いて算出することができる。入力特徴x、入力隣接行列A、および初期位置Rを与えられると、エネルギーの初期推定値
【数43】
は、ネットワークの1回の順方向パスによって得ることができる。次いで、逆伝播が、Rに符号化された座標についての最初の派生情報をもたらす。その後、
【数44】
に符号化された勾配情報を本発明の一部の実施形態に従って使用して、エネルギー
【数45】
を低減させるようにN個の原子の位置を移動することができる。原子間距離行列Rは、特徴として入力され得るが、いくつかの実施形態においては、初期の3次元位置x,y,zが入力特徴の役目を果たすことができ、そして、Rは、ニューラルネットワーク内で区別可能に容易に算出することができる。本発明の多くの実施形態に係る勾配は、各原子のx,y,z位置を更新するために、何らかの小さいステップサイズと共に使用され得る。その後、一部の実施形態において、勾配は、更新された座標および得られた距離行列R
【数46】
を用いて再算出することができ、位置を再度更新することができ、プロセスは、算出された力
【数47】
が一定の許容差未満になるまで反復的に継続することができる。
【0137】
ニュートン系では、運動の方程式を次のように書くことができる。
【数48】
【0138】
本発明の多くの実施形態に係るプロセスは、何らかの初期座標(および関連する原子間距離行列R)を与えられると、速度Verletアルゴリズムを含む(ただしそれらに限定されない)各種方法を使用して、原子の位置を伝播することができる。初期速度は、マックスウェル・ボルツマン分布などの(ただしそれらに限定されない)統計力学技術によって決定することができるのに対し、初期位置は、結晶学とエネルギー最小化との組合せを通じて決定することができる。本発明のいくつかの実施形態に係るエネルギー最小化は、上記のものなどの方法を用いて行うことができる。ある特定の実施形態において、訓練データセットは、異なる配座異性体に水分子を含んでおらず、したがって、TIP3Pまたは同様のポテンシャルを(25)の
【数49】
に加えることが望ましい可能性がある。
【0139】
多数の実施形態において、第1のMDシミュレーションを二面角空間においてGCPのみを用いて行うことが望ましい可能性がある。一部の生物物理学者により、生物学的に関連性のある高分子の動態の多くは、回転可能な結合の二面運動のみに起因することが主張されてきた。二面角、またはねじれ角は、4つの結合原子の連続した系列によって定義される2つの平面間の角度によって定義される。分子シミュレーションを二面角空間に制約するための複数の方式がある。第1に、一部の実施形態において、ポテンシャルの勾配は、次のように、d個の二面角θに関して直接取ることができる。
【数50】
【0140】
そして、本発明の一部の実施形態に係るプロセスは、二面角/内部座標空間微分係数を、未加工のx、y、z座標における微分係数に伝播するためのさらなる微分係数を算出することができる。当業者は、二面角空間内でMDを行うためには多数の方法があることを認識されよう。
【0141】
様々な実施形態において、PotentialNetまたはそれに代えてAmberNetいずれかからの完全グラフ畳み込みエネルギーを、分子ドッキングエネルギー関数のための基盤として使用することができる。多数の実施形態において、所与のリガンドの所与のコンフォメーションをある配向にシードすることにより、エネルギー最小化または確率論的動態シミュレーションのいずれかを使用して、受容体におけるリガンドの全体的エネルギーが最小のコンフォメーション、またはドッキング態勢を予測することができる。上記で説明したように、PotentialNetの異なる変形を使用して、所与のリガンド-タンパク質相互作用の結合自由エネルギー/結合親和性/効力を予測することができる。一部の実施形態において、プロセスは、PotentialNetの純粋なグラフ畳み込み形態を、AmberNet様ポテンシャルと組み合わせることができる。結合エネルギーを、
【数51】
として算出することにより、コンフォメーションエントロピー、ねじれひずみ項、分子内衝突といった概念、および古典的な分子ドッキング方式からの他の概念を取り込むことができるが、それらのパラメーターを、深層ニューラルネットワークを用いて導出することができる。多数の実施形態において、グラフ畳み込みは、生体分子系の集団的動態を監視および駆動するための反応座標を算出するための自然関数形式とすることができる。
【0142】
本発明について特定の具体的態様において説明したが、当業者には多くの追加の変更および変更が明らかであろう。したがって、本発明は具体的に説明された以外のやり方で実施されてもよいことが理解されるべきである。よって、本発明の実施形態は、あらゆる点において例示的なものであり、制限的なものではないとみなすべきである。
図1
図2
図3
図4
図5
図6
図7
図8