特許7495124 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ　ボード　オブ　トラスティーズ　オブ　ザ　レランド　スタンフォード　ジュニア　ユニバーシティーの特許一覧

特許7495124薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-27

(45)【発行日】2024-06-04

(54)【発明の名称】薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法

(51)【国際特許分類】

G16C 60/00 20190101AFI20240528BHJP

G01N 33/15 20060101ALI20240528BHJP

G06N 3/08 20230101ALI20240528BHJP

C12M 1/34 20060101ALI20240528BHJP

【ＦＩ】

G16C60/00

G01N33/15 Z

G06N3/08

C12M1/34 Z

【請求項の数】 20

(21)【出願番号】P 2020546374

(86)(22)【出願日】2019-03-05

(65)【公表番号】

(43)【公表日】2021-06-17

(86)【国際出願番号】 US2019020837

(87)【国際公開番号】W WO2019173401

(87)【国際公開日】2019-09-12

【審査請求日】2022-01-14

(31)【優先権主張番号】62/638,803

(32)【優先日】2018-03-05

(33)【優先権主張国・地域又は機関】US

【前置審査】

(73)【特許権者】

【識別番号】503115205

【氏名又は名称】ザボードオブトラスティーズオブザレランドスタンフォードジュニアユニバーシティー

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(72)【発明者】

【氏名】フェインバーグ，エバンナサニエル

(72)【発明者】

【氏名】パンデ，ビジャイサティアナンド

(72)【発明者】

【氏名】ラムサンダー，バラス

【審査官】岡北有平

(56)【参考文献】

【文献】米国特許出願公開第２００２／００９９５０６（ＵＳ，Ａ１）

【文献】Steven Kearnes et al.，“Molecular Graph Convolutions: Moving Beyond Fingerprints”，［online］，2016年08月18日，pp. 1-29，インターネット＜URL: https://arxiv.org/abs/1603.00856＞，［検索日: 2023.03.24］

【文献】Joseph Gomes et al.，“Atomic Convolutional Networks for Predicting Protein-Ligand Binding Affinity”，［online］，2017年03月30日，pp. 1-17，インターネット＜URL: https://arxiv.org/abs/1703.10603＞，［検索日：2023.03.24］

【文献】Chao Shang et al.，“Edge Attention-based Multi-Relational Graph Convolutional Networks”，［online］，2018年02月14日，pp. 1-10，インターネット＜URL: https://arxiv.org/abs/1802.04944v1＞，［検索日：2023.03.24］

【文献】Ruoyu Li et al.，“Adaptive Graph Convolutional Neural Networks”，［online］，2018年01月10日，pp. 1-8，インターネット＜URL: https://arxiv.org/abs/1801.03226＞，［検索日:2023.03.24］

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｃ１０／００－９９／００

Ｇ０１Ｎ３３／１５

Ｇ０６Ｎ３／０８

Ｃ１２Ｍ１／３４

(57)【特許請求の範囲】

【請求項1】

１つまたは複数のコンピューターによって実行される方法であって、前記方法は、
複数の分子を表すグラフを定義するデータを受信するステップであって、
前記複数の分子を表す前記グラフが、ノードのセットとエッジのセットとを含み、
前記グラフ内の各ノードが、前記複数の分子からのそれぞれの原子を表し、
前記グラフ内の前記エッジのセットが、異なる分子における原子を表すそれぞれのノードの対を接続する複数のエッジを含み、異なる分子における前記原子は、ペアワイズ距離を含む１つまたは複数の基準を満たす、３次元位置において規定される空間距離を有する、受信するステップと；
前記複数の分子を表す前記グラフに対して、グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みのセットを行うステップと；
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の１つまたは複数の特質の各々についてそれぞれの予測を作製するステップと
を含む、方法。

【請求項2】

請求項１に記載の方法であって、
前記複数の分子の前記１つまたは複数の特質の各々について、前記グラフニューラルネットワークにより作製された、前記それぞれの予測におけるエラーを測定する損失関数の勾配を決定するステップと；
前記損失関数の前記勾配を用いて、前記グラフニューラルネットワークの前記複数の重みを更新するステップと
をさらに含む、方法。

【請求項3】

前記損失関数が、交差エントロピー損失を用いて、前記複数の分子の前記１つまたは複数の特質の各々についての前記それぞれの予測における前記エラーを測定する、請求項２に記載の方法。

【請求項4】

前記複数の分子が、少なくともリガンド分子と標的分子を含む、請求項１に記載の方法。

【請求項5】

前記複数の分子の前記１つまたは複数の特質が、前記複数の分子の毒性、前記複数の分子の溶解度、前記複数の分子の結合親和性、または、前記複数の分子の量子特性のうちの１つまたは複数を含む、請求項１に記載の方法。

【請求項6】

薬物発見を行う際に使用するために、前記複数の分子の前記１つまたは複数の特質の各々についての前記それぞれの予測を定義するデータを提供するステップをさらに含む、請求項１に記載の方法。

【請求項7】

前記複数の分子を表す前記グラフが、前記グラフ内のノードの１つまたは複数の対について、前記ノードの対が、３次元位置において規定される対応する原子対間の空間距離が閾値を満たすかどうかに基づいてエッジによって接続されるべきであるかどうかを決定するステップを含む操作によって作製されている、請求項１に記載の方法。

【請求項8】

前記グラフ内のノードの１つまたは複数の対について、前記ノードの対が、３次元位置において規定される対応する原子対間の空間距離が閾値を満たすかどうかに基づいてエッジによって接続されるべきであるかどうかを決定するステップが、
前記ノードの対が、前記閾値未満である前記３次元位置において規定される対応する原子対間の前記空間距離に基づいて、エッジによって接続されるべきであると決定するステップ
を含む、請求項７に記載の方法。

【請求項9】

前記グラフ内のノードの１つまたは複数の対について、前記ノードの対が、３次元位置において規定される対応する原子対間の空間距離が閾値を満たすかどうかに基づいてエッジによって接続されるべきであるかどうかを決定するステップが、
前記ノードの対が、前記閾値より大きい前記３次元位置において規定される対応する原子対間の前記空間距離に基づいて、エッジによって接続されるべきでないと決定するステップ
を含む、請求項７に記載の方法。

【請求項10】

請求項１に記載の方法であって、
前記複数の分子を表す１つまたは複数の第２のグラフを定義するデータを受信するステップであって、前記第２のグラフの各々が、前記複数の分子からの原子の対の間の結合を定義する結合データを少なくとも含む、ステップと；
前記複数の分子を表す前記１つまたは複数の第２のグラフに対して、前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの前記複数の重みに従って、グラフ畳み込みの第２のセットを行うステップと
をさらに含む、方法。

【請求項11】

グラフ畳み込みのセットの結果を処理して、前記複数の分子の１つまたは複数の特質の各々についてそれぞれの予測を作製するステップが、
グラフ畳み込みの前記セットの結果と、前記グラフ畳み込みの前記第２のセットの結果の両方を、前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの前記複数の重みに従って処理して、前記複数の分子の１つまたは複数の特質の各々について前記それぞれの予測を作製するステップ
を含む、請求項１０に記載の方法。

【請求項12】

前記グラフのエッジのセットが、複数の分子間エッジを含み、各分子間エッジが、同じ分子内の第１の原子および第２の原子を含む原子の対を表すノードのそれぞれの対を接続する、請求項１に記載の方法。

【請求項13】

前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの前記複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の１つまたは複数の特質の各々についてそれぞれの予測を作製するステップが、
グラフ畳み込みの前記セットの前記結果から、特徴ベクトルを作製するステップと；
前記特徴ベクトルを処理して、前記複数の分子の前記１つまたは複数の特質の各々についての前記それぞれの予測を作製するステップと
を含む、請求項１に記載の方法。

【請求項14】

グラフ畳み込みの前記セットの前記結果から、前記特徴ベクトルを作製するステップが、
前記複数の分子からの１つの分子をリガンド分子として識別するステップと；
前記リガンド分子に含まれる原子を表す埋め込みのみに基づいて、前記特徴ベクトルを作製するステップと
を含む、請求項１３に記載の方法。

【請求項15】

システムであって、
１つまたは複数のコンピューターと通信可能に結合された非一時的メモリ
を備え、前記非一時的メモリは、前記１つまたは複数のコンピューターによって実行されるときに、前記１つまたは複数のコンピューターに、
複数の分子を表すグラフを定義するデータを受信するステップであって、
前記複数の分子を表す前記グラフが、ノードのセットとエッジのセットとを含み、
前記グラフ内の各ノードが、前記複数の分子からのそれぞれの原子を表し、
前記グラフ内の前記エッジのセットが、異なる分子における原子を表すそれぞれのノードの対を接続する複数のエッジを含み、異なる分子における前記分子が、ペアワイズ距離を含む１つまたは複数の基準を満たす、３次元位置において規定される空間距離を有する、受信するステップと；
前記複数の分子を表す前記グラフに対して、グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みのセットを行うステップと；
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の１つまたは複数の特質の各々についてそれぞれの予測を作製するステップと
を含む操作を行わせる命令を記憶している、
システム。

【請求項16】

１つまたは複数の非一時的コンピューター記憶媒体であって、
１つまたは複数のコンピューターによって実行されるときに、前記１つまたは複数のコンピューターに、
複数の分子を表すグラフを定義するデータを受信するステップであって、
前記複数の分子を表す前記グラフが、ノードのセットとエッジのセットとを含み、
前記グラフ内の各ノードが、前記複数の分子からのそれぞれの原子を表し、
前記グラフ内の前記エッジのセットが、異なる分子における原子を表すそれぞれのノードの対を接続する複数のエッジを含み、異なる分子における前記分子が、ペアワイズ距離を含む１つまたは複数の基準を満たす、３次元位置において規定される空間距離を有する、受信するステップと；
前記複数の分子を表す前記グラフに対して、グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みのセットを行うステップと；
前記グラフニューラルネットワークによって、前記グラフニューラルネットワークの複数の重みに従って、グラフ畳み込みの前記セットの結果を処理して、前記複数の分子の１つまたは複数の特質の各々についてそれぞれの予測を作製するステップと
を含む操作を行わせる命令を記憶している、
非一時的コンピューター記憶媒体。

【請求項17】

前記操作が、
前記複数の分子の前記１つまたは複数の特質の各々について、前記グラフニューラルネットワークにより作製された、前記それぞれの予測におけるエラーを測定する損失関数の勾配を決定するステップと；
前記損失関数の前記勾配を用いて、前記グラフニューラルネットワークの前記複数の重みを更新するステップと
をさらに含む、請求項１６に記載の非一時的コンピューター記憶媒体。

【請求項18】

前記複数の分子が、少なくともリガンド分子と標的分子を含む、請求項１６に記載の非一時的コンピューター記憶媒体。

【請求項19】

前記複数の分子の前記１つまたは複数の特質が、前記複数の分子の毒性、前記複数の分子の溶解度、前記複数の分子の結合親和性、または、前記複数の分子の量子特性のうちの１つまたは複数を含む、請求項１６に記載の非一時的コンピューター記憶媒体。

【請求項20】

前記操作が、薬物発見を行う際に使用するために、前記複数の分子の前記１つまたは複数の特質の各々についての前記それぞれの予測を定義するデータを提供するステップをさらに含む、請求項１６に記載の非一時的コンピューター記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、２０１８年３月５日に出願された、「Spatial Graph Convolutions with Applications to Drug Discovery」という名称の米国仮特許出願第６２／６３８，８０３号の利益およびそれに対する優先権を主張する。米国仮特許出願第６２／６３８，８０３号の開示内容は、参照により全体が本明細書に組み込まれる。

【0002】

本発明は、全般的には分子特質を予測することに関し、より具体的には、空間グラフ畳み込みを利用して分子特質を予測することに関する。

【背景技術】

【0003】

ＦＤＡ承認薬の大半は、標的生体高分子に結合することによって治療反応を引き出す小有機分子である。一旦結合すると、小分子リガンドは、他のリガンドの結合を阻止するか、または標的のコンフォメーションアンサンブルをアロステリックに調節するかのいずれかである。よって、結合は、治療用リガンドのどの挙動にとっても非常に重要である。分子の治療効果を最大化するには、同時に他の高分子に対する親和性を最小化しながら、所望の標的に対する親和性、すなわち結合自由エネルギー（ΔＧ）を最大化しなければならない。歴史的に、科学者らは、リガンドおよびその標的をモデル化するためにケモインフォマティクと構造との両方に基づく方式を使用してきており、大半の機械学習（ＭＬ）方式は、ドメイン知識に基づく特徴を使用する。

【発明の概要】

【課題を解決するための手段】

【0004】

本発明の実施形態に係る空間グラフ畳み込みのシステムおよび方法が例示される。一実施形態は、分子について特質を予測するための方法を含み、方法は、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを行うステップであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ステップと、空間グラフ表現を用いてグラフ畳み込みの第２のセットを行うステップであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間グラフ表現を用いてグラフ集約を行って、特徴ベクトルを作成するステップと、特徴ベクトルに基づいて、分子のセットについて１つまたは複数の特質のセットを予測するステップと、を含む。

【0005】

さらなる実施形態において、方法は、１つまたは複数の分子のセットについての原子情報を受け取るステップをさらに含む。

【0006】

なおも別の実施形態において、方法は、分子のセットの空間グラフ表現を構築するステップをさらに含む。

【0007】

なおもさらなる実施形態において、空間グラフ表現を構築するステップは、距離行列および隣接テンソルを生成するステップを含み、距離行列は、分子のセットの原子間の距離を表し、隣接テンソルは、原子間の複数の異なるエッジタイプを示す。

【0008】

さらに別の実施形態において、分子のセットは、リガンド分子および標的分子を含み、距離行列の行が、リガンド分子および標的分子への帰属によって順序付けられる。

【0009】

一層さらなる実施形態において、分子のセット間の結合は共有結合を含む。

【0010】

別の追加的実施形態において、分子のセット間の結合が、π－πスタッキング、水素結合、および疎水性接触のうちの少なくとも１つを含む。

【0011】

さらなる追加的実施形態において、グラフ畳み込みの第２のセットが、分子のセット間の結合にさらに基づく。

【0012】

再び別の実施形態において、グラフ畳み込みの第１のセットが、分子のセット間の結合の第１のセットに基づき、グラフ畳み込みの第２のセットが、分子のセット間の結合の第２のセットに基づく。

【0013】

再びさらなる実施形態において、結合の第１のセットは、結合の第２のセットのサブセットである。

【0014】

なおもさらに別の実施形態において、グラフ畳み込みの第１のセットを行うステップは、グラフ畳み込みの各層においてゲート付き回帰型ユニット（ＧＲＵ）演算を行うステップを含む。

【0015】

なおも一層さらなる実施形態において、グラフ畳み込みの第１のセットを行うステップは、第１の複数のニューラルネットワークを利用するステップを含み、複数のニューラルネットワークの各ニューラルネットワークが、異なる結合タイプに使用される。

【0016】

なおも別の追加的実施形態において、グラフ畳み込みの第２のセットを行うステップが、第２の複数のニューラルネットワークを利用するステップを含み、第１の複数のニューラルネットワークのための重みが、第２の複数のニューラルネットワークと共有される。

【0017】

なおもさらなる追加的実施形態において、グラフ畳み込みの第２のセットを行うステップは、第２の複数のニューラルネットワークを利用するステップを含み、第２の複数のニューラルネットワークのニューラルネットワークは、分子のセットの原子間の距離に関する距離情報を利用する。

【0018】

再びなおも別の実施形態において、分子のセットはリガンド分子および標的分子を含み、グラフ集約がリガンド分子に対してのみ行われる。

【0019】

再びなおもさらなる実施形態において、特質のセットは、分子のセットの第１の分子が、分子のセットの第２の分子と結合するかどうかを含む。

【0020】

本発明の実施形態に係る空間畳み込みグラフモデルを訓練するためのシステムおよび方法が例示される。一実施形態は、空間畳み込みグラフモデルを訓練するための方法を含む。方法は、分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第１のセットを行うステップであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ畳み込みの第２のセットを行うステップであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ集約を行うステップと、グラフ集約に基づいて分子のセットについての損失を算出するステップと、算出した損失に基づいて空間畳み込みグラフモデルを更新するステップと、を含む。

【0021】

さらに別の追加的実施形態において、方法は、空間畳み込みグラフモデルの層を使用して、力場について１つまたは複数のパラメーターのセットを予測するように１つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む。

【0022】

一層さらなる追加的実施形態において、パラメーターのセットが、１つまたは複数の特質のセットに関連付けられ、特質のセットは、電荷、結合、角度、および二面角のうちの少なくとも１つを含む。

【0023】

再びさらに別の実施形態において、空間畳み込みグラフモデルが第１の空間畳み込みグラフモデルであり、方法が、ポテンシャルエネルギーを予測するように第２の空間畳み込みグラフモデルを訓練するステップと、第１および第２の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測するステップと、をさらに含む。

【0024】

再び一層さらなる実施形態において、第２の空間畳み込みグラフモデルを訓練するステップは、１つまたは複数の層のセットを第１の空間畳み込みグラフモデルと第２の空間畳み込みグラフモデルとの間で共有するステップを含む。

【0025】

再び別の追加的実施形態において、力場は、ＡｓｓｉｓｔｅｄＭｏｄｅｌＢｕｉｌｄｉｎｇｗｉｔｈＥｎｅｒｇｙＲｅｆｉｎｅｍｅｎｔ（ＡＭＢＥＲ）関数形式である。

【0026】

再びさらなる追加的実施形態において、方法は、空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように１つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む。

【0027】

なおもさらに別の追加的実施形態において、方法は、空間グラフ畳み込みモデルによって予測されるポテンシャルエネルギーを最小化することによって分子のセットのコンフォメーションのセットを特定するステップをさらに含む。

【0028】

さらなる実施形態において、方法は、分子のセットの運動を予測するステップをさらに含む。

【0029】

追加的実施形態および特徴が、一部には以下の説明にて述べられ、一部には、本明細書を考察すると当業者には明らかになり、または本発明の実施によって知られ得る。本発明の性質および利点のさらなる理解は、本明細書の残りの部分および本開示の一部をなす図面を参照することによって実現され得る。

【0030】

詳細な説明および特許請求の範囲は、以下の図およびデータグラフを参照してより完全に理解され、図およびデータグラフは、本発明の例示的実施形態として提示されるものであり、本発明の範囲の完全な詳述と解釈されるべきではない。
本発明の実施形態において、例えば以下の項目が提供される。
（項目１）
分子について特質を予測するための方法であって、
分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを行うステップであって、グラフ畳み込みの前記第１のセットは、前記分子のセット間の結合に基づく、ステップと、
前記空間グラフ表現を用いてグラフ畳み込みの第２のセットを行うステップであって、グラフ畳み込みの前記第２のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ステップと、
前記空間グラフ表現を用いてグラフ集約を行って、特徴ベクトルを作成するステップと、
前記特徴ベクトルに基づいて、前記分子のセットについて１つまたは複数の特質のセットを予測するステップと、を含む、方法。
（項目２）
前記１つまたは複数の分子のセットについての原子情報を受け取るステップをさらに含む、項目１に記載の方法。
（項目３）
前記分子のセットの空間グラフ表現を構築するステップをさらに含む、項目１に記載の方法。
（項目４）
前記空間グラフ表現を構築するステップが、距離行列および隣接テンソルを生成するステップを含み、前記距離行列は、前記分子のセットの原子間の距離を表し、前記隣接テンソルは、原子間の複数の異なるエッジタイプを示す、項目３に記載の方法。
（項目５）
前記分子のセットは、リガンド分子および標的分子を含み、前記距離行列の行が、前記リガンド分子および標的分子への帰属によって順序付けられる、項目４に記載の方法。
（項目６）
前記分子のセット間の前記結合が共有結合を含む、項目１に記載の方法。
（項目７）
前記分子のセット間の前記結合が、π－πスタッキング、水素結合、および疎水性接触のうちの少なくとも１つを含む、項目１に記載の方法。
（項目８）
グラフ畳み込みの前記第２のセットが、前記分子のセット間の結合にさらに基づく、項目１に記載の方法。
（項目９）
グラフ畳み込みの前記第１のセットが、前記分子のセット間の前記結合の第１のセットに基づき、グラフ畳み込みの前記第２のセットが、前記分子のセット間の前記結合の第２のセットに基づく、項目８に記載の方法。
（項目１０）
結合の前記第１のセットが、結合の前記第２のセットのサブセットである、項目９に記載の方法。
（項目１１）
グラフ畳み込みの前記第１のセットを行うステップが、前記グラフ畳み込みの各層においてゲート付き回帰型ユニット（ＧＲＵ）演算を行うステップを含む、項目１に記載の方法。
（項目１２）
グラフ畳み込みの前記第１のセットを行うステップが、第１の複数のニューラルネットワークを利用するステップを含み、前記第１の複数のニューラルネットワークの各ニューラルネットワークが、異なる結合タイプに使用される、項目１に記載の方法。
（項目１３）
グラフ畳み込みの前記第２のセットを行うステップが、第２の複数のニューラルネットワークを利用するステップを含み、前記第１の複数のニューラルネットワークのための重みが、前記第２の複数のニューラルネットワークと共有される、項目１２に記載の方法。
（項目１４）
グラフ畳み込みの前記第２のセットを行うステップが、第２の複数のニューラルネットワークを利用するステップを含み、前記第２の複数のニューラルネットワークのニューラルネットワークは、前記分子のセットの原子間の距離に関する距離情報を利用する、項目１２に記載の方法。
（項目１５）
前記分子のセットがリガンド分子および標的分子を含み、前記グラフ集約が前記リガンド分子に対してのみ行われる、項目１に記載の方法。
（項目１６）
前記特質のセットは、前記分子のセットの第１の分子が、前記分子のセットの第２の分子と結合するかどうかを含む、項目１に記載の方法。
（項目１７）
空間畳み込みグラフモデルを訓練するための方法であって、
分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第１のセットを行うステップであって、グラフ畳み込みの前記第１のセットは、前記分子のセット間の結合に基づく、ステップと、
前記空間畳み込みグラフモデルを用いてグラフ畳み込みの第２のセットを行うステップであって、グラフ畳み込みの前記第２のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ステップと、
前記空間畳み込みグラフモデルを用いてグラフ集約を行うステップと、
前記グラフ集約に基づいて前記分子のセットについての損失を算出するステップと、
前記算出した損失に基づいて前記空間畳み込みグラフモデルを更新するステップと、を含む、方法。
（項目１８）
前記空間畳み込みグラフモデルの層を使用して、力場について１つまたは複数のパラメーターのセットを予測するように１つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む、項目１７に記載の方法。
（項目１９）
前記パラメーターのセットが、１つまたは複数の特質のセットに関連付けられ、前記特質のセットは、電荷、結合、角度、および二面角のうちの少なくとも１つを含む、項目１８に記載の方法。
（項目２０）
前記空間畳み込みグラフモデルが第１の空間畳み込みグラフモデルであり、前記方法が、
ポテンシャルエネルギーを予測するように第２の空間畳み込みグラフモデルを訓練するステップと、
前記第１および第２の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測するステップと、
をさらに含む、項目１８に記載の方法。
（項目２１）
前記第２の空間畳み込みグラフモデルを訓練するステップが、１つまたは複数の層のセットを前記第１の空間畳み込みグラフモデルと前記第２の空間畳み込みグラフモデルとの間で共有するステップを含む、項目２０に記載の方法。
（項目２２）
前記力場が、ＡｓｓｉｓｔｅｄＭｏｄｅｌＢｕｉｌｄｉｎｇｗｉｔｈＥｎｅｒｇｙＲｅｆｉｎｅｍｅｎｔ（ＡＭＢＥＲ）関数形式である、項目１８に記載の方法。
（項目２３）
前記空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように１つまたは複数のニューラルネットワークのセットを訓練するステップをさらに含む、項目１７に記載の方法。
（項目２４）
前記空間グラフ畳み込みモデルによって予測される前記ポテンシャルエネルギーを最小化することによって前記分子のセットのコンフォメーションのセットを特定するステップをさらに含む、項目２３に記載の方法。
（項目２５）
前記分子のセットの運動を予測するステップをさらに含む、項目１７に記載の方法。
（項目２６）
分子について特質を予測するためのシステムであって、
１つまたは複数のプロセッサーであって、
分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを行うことであって、グラフ畳み込みの前記第１のセットは、前記分子のセット間の結合に基づく、ことと、
前記空間グラフ表現を用いてグラフ畳み込みの第２のセットを行うことであって、グラフ畳み込みの前記第２のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ことと、
前記空間グラフ表現を用いてグラフ集約を行うことと、
前記分子のセットについて１つまたは複数の特質のセットを予測することと、
を行うように個別にまたはまとめて構成された、１つまたは複数のプロセッサーを備える、システム。
（項目２７）
前記１つまたは複数のプロセッサーが、前記１つまたは複数の分子のセットについての原子情報を受け取るように個別にまたはまとめて構成される、項目２６に記載のシステム。
（項目２８）
前記１つまたは複数のプロセッサーが、前記分子のセットの空間グラフ表現を構築するように個別にまたはまとめて構成される、項目２６に記載のシステム。
（項目２９）
前記空間グラフ表現が、距離行列および隣接テンソルを含み、前記距離行列は、前記分子のセットの原子間の距離を表し、前記隣接テンソルは、原子間の複数の異なるエッジタイプを示す、項目２８に記載のシステム。
（項目３０）
前記分子のセットは、リガンド分子および標的分子を含み、前記距離行列の行が、前記リガンド分子および標的分子への帰属によって順序付けられる、項目２９に記載のシステム。
（項目３１）
前記分子のセット間の前記結合が共有結合を含む、項目２６に記載のシステム。
（項目３２）
前記分子のセット間の前記結合が、π－πスタッキング、水素結合、および疎水性接触のうちの少なくとも１つを含む、項目２６に記載のシステム。
（項目３３）
グラフ畳み込みの前記第２のセットが、前記分子のセット間の結合にさらに基づく、項目２６に記載のシステム。
（項目３４）
グラフ畳み込みの前記第１のセットが、前記分子のセット間の前記結合の第１のセットに基づき、グラフ畳み込みの前記第２のセットが、前記分子のセット間の前記結合の第２のセットに基づく、項目３３に記載のシステム。
（項目３５）
結合の前記第１のセットが、結合の前記第２のセットのサブセットである、項目３４に記載のシステム。
（項目３６）
前記１つまたは複数のプロセッサーが、グラフ畳み込みの前記第１のセットを行うように個別にまたはまとめて構成されることは、１つまたは複数のプロセッサーが、前記グラフ畳み込みの各層においてゲート付き回帰型ユニット（ＧＲＵ）演算を行うように個別にまたはまとめて構成されることを含む、項目２６に記載のシステム。
（項目３７）
前記１つまたは複数のプロセッサーが、グラフ畳み込みの前記第１のセットを行うように個別にまたはまとめて構成されることは、第１の複数のニューラルネットワークを利用することを含み、前記複数のニューラルネットワークの各ニューラルネットワークが、異なる結合タイプに使用される、項目２６に記載のシステム。
（項目３８）
前記１つまたは複数のプロセッサーが、グラフ畳み込みの前記第２のセットを行うように個別にまたはまとめて構成されることは、前記１つまたは複数のプロセッサーが、第２の複数のニューラルネットワークを利用するように個別にまたはまとめて構成されることを含み、前記第１の複数のニューラルネットワークのための重みが、前記第２の複数のニューラルネットワークと共有される、項目３７に記載のシステム。
（項目３９）
前記１つまたは複数のプロセッサーが、グラフ畳み込みの前記第２のセットを行うように個別にまたはまとめて構成されることは、前記１つまたは複数のプロセッサーが、第２の複数のニューラルネットワークを利用するように個別にまたはまとめて構成されることを含み、前記第２の複数のニューラルネットワークのニューラルネットワークは、前記分子のセットの原子間の距離に関する距離情報を利用する、項目３８に記載のシステム。
（項目４０）
前記分子のセットがリガンド分子および標的分子を含み、前記グラフ集約が前記リガンド分子に対してのみ行われる、項目２６に記載のシステム。
（項目４１）
前記特質のセットは、前記分子のセットの第１の分子が、前記分子のセットの第２の分子と結合するかどうかを含む、項目２６に記載のシステム。
（項目４２）
空間畳み込みグラフモデルを訓練するためのシステムであって、
１つまたは複数のプロセッサーであって、
分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第１のセットを行うことであって、グラフ畳み込みの前記第１のセットは、前記分子のセット間の結合に基づく、ことと、
前記空間畳み込みグラフモデルを用いてグラフ畳み込みの第２のセットを行うことであって、グラフ畳み込みの前記第２のセットは、少なくとも、前記分子のセットの各原子と他の原子との間の距離に基づく、ことと、
前記空間畳み込みグラフモデルを用いてグラフ集約を行うことと、
前記分子のセットについての損失を算出することと、
前記算出した損失に基づいて前記空間畳み込みグラフモデルを更新することと、
を行うように個別にまたはまとめて構成された、１つまたは複数のプロセッサーを備える、システム。
（項目４３）
ネットワークの層を使用して、力場について１つまたは複数のパラメーターのセットを予測するように１つまたは複数のニューラルネットワークのセットを訓練するように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーをさらに備える、項目４２に記載のシステム。
（項目４４）
前記パラメーターのセットが、１つまたは複数の特質のセットに関連付けられ、前記特質のセットは、電荷、結合、角度、および二面角のうちの少なくとも１つを含む、項目４３に記載のシステム。
（項目４５）
前記空間畳み込みグラフモデルが第１の空間畳み込みグラフモデルであり、前記システムは、ポテンシャルエネルギーを予測するように第２の空間畳み込みグラフモデルを訓練することと、前記第１および第２の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測することとを行うように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーをさらに備える、項目４２に記載のシステム。
（項目４６）
前記第２の空間畳み込みグラフモデルを訓練するように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーが、１つまたは複数の層のセットを、前記第１の空間畳み込みグラフモデルと前記第２の空間畳み込みグラフモデルとの間で共有するように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーを含む、項目４５に記載のシステム。
（項目４７）
前記力場が、ＡｓｓｉｓｔｅｄＭｏｄｅｌＢｕｉｌｄｉｎｇｗｉｔｈＥｎｅｒｇｙＲｅｆｉｎｅｍｅｎｔ（ＡＭＢＥＲ）関数形式である、項目４３に記載のシステム。
（項目４８）
前記空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように１つまたは複数のニューラルネットワークのセットを訓練するように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーをさらに備える、項目４２に記載のシステム。
（項目４９）
前記空間グラフ畳み込みモデルによって予測される前記ポテンシャルエネルギーを最小化することによって前記分子のセットのコンフォメーションのセットを特定するように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーをさらに備える、項目４８に記載のシステム。
（項目５０）
前記分子のセットの運動を予測するように個別にまたはまとめて構成された前記１つまたは複数のプロセッサーをさらに備える、項目４２に記載のシステム。
（項目５１）
分子について特質を予測するための方法であって、
分子のセットの表現を、Ｎ個の原子およびＮ _ｅｔ個のエッジタイプを有するグラフとして得るステップと、
前記Ｎ _ｅｔ個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第１のセットを行うステップと、
前記Ｎ _ｅｔ個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの１つまたは複数の追加的セットを行うステップと、
前記グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くステップと、を含む、方法。
（項目５２）
前記分子のセットの前記表現が、ＮｘＮ距離行列をさらに含む、項目５１に記載の方法。
（項目５３）
前記Ｎ _ｅｔ個のエッジタイプが、結合タイプ、塩橋、パイスタッキング、距離ビン、距離基底関数系、および未加工距離のうちの少なくとも１つを含む、項目５１に記載の方法。
（項目５４）
グラフ畳み込みの前記第１のセットを行うステップが、前記ＮｘＮ距離行列から情報を直接取り込むステップを含む、項目５１に記載の方法。
（項目５５）
グラフ畳み込みの前記１つまたは複数の追加的セットを行うステップが、前記ＮｘＮ距離行列に基づく、項目５１に記載の方法。
（項目５６）
グラフの前記部分グラフが、前記分子の１つまたは複数についてのものであり得る、項目５１に記載の方法。
（項目５７）
分子について特質を予測するためのシステムであって、
１つまたは複数のプロセッサーであって、
分子のセットの表現を、Ｎ個の原子およびＮ _ｅｔ個のエッジタイプを有するグラフとして得ることと、
前記Ｎ _ｅｔ個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第１のセットを行うことと、
前記Ｎ _ｅｔ個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの１つまたは複数の追加的セットを行うことと、
前記グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くことと、
を行うように個別にまたはまとめて構成された、１つまたは複数のプロセッサーを備える、システム。
（項目５８）
前記分子のセットの前記表現が、ＮｘＮ距離行列をさらに含む、項目５７に記載のシステム。
（項目５９）
前記Ｎ _ｅｔ個のエッジタイプが、結合タイプ、塩橋、パイスタッキング、距離ビン、距離基底関数系、および未加工距離のうちの少なくとも１つを含む、項目５７に記載のシステム。
（項目６０）
グラフ畳み込みの前記第１のセットを行うことが、前記ＮｘＮ距離行列から情報を直接取り込むことを含む、項目５７に記載のシステム。
（項目６１）
グラフ畳み込みの前記１つまたは複数の追加的セットを行うことが、前記ＮｘＮ距離行列に基づく、項目５７に記載のシステム。
（項目６２）
グラフの前記部分グラフが、前記分子の１つまたは複数についてのものであり得る、項目５７に記載のシステム。

【図面の簡単な説明】

【0031】

【図1】図１は、ゲート付きグラフニューラルネットワーク（ＧＧＮＮ）を示す図である。

【0032】

【図2】図２は、本発明の一部の実施形態に係る、モデル化および予測を提供するシステムを示す図である。

【0033】

【図3】図３は、本発明の一部の実施形態に係る、モデル化および予測を提供するモデル化エレメントを示す図である。

【0034】

【図4】図４は、本発明の一部の実施形態に係る、モデル化および予測を提供するモデル化アプリケーションを示す図である。

【0035】

【図5】図５は、本発明の一実施形態に係る、段階的畳み込みを行うためのプロセスを概念的に示す図である。

【0036】

【図6】図６は、多段階空間ゲート付きグラフニューラルネットワークの視覚的描写を示す図である。

【0037】

【図7】図７は、本発明の各種形態に係る、多段階空間ゲート付きグラフニューラルネットワークの第１のステージを示す図である。

【0038】

【図8】図８は、本発明の各種形態に係る、多段階空間ゲート付きグラフニューラルネットワークの第２のステージを示す図である。

【発明を実施するための形態】

【0039】

本発明の多数の実施形態に係るシステムおよび方法は、タンパク質－リガンドの結合親和性に関する最新技術水準の実行のために特に設計され、それを達成する。本願における例の多くは、結合親和性を参照して説明されるが、本発明の主旨から逸脱することなく、これらに限定されないが、毒性、溶解度、および電子特性などの多くの分子特質を予測することができる。多くの実施形態において、プロセスは、結合タイプおよび空間距離に基づく複数ステージのプロセスを利用して分子特質を予測する。一部の実施形態においては、新しい測定基準（metric）である回帰エンリッチメント率（Regression Enrichment Factor）EF_χ ^（R）を算出して、化学的データに関する算出モデルの早期エンリッチメント（early enrichment）を測定する。本発明の各種実施形態に係るプロセスは、モデルの一般化可能性をより正確に測定することが可能な構造的相同クラスタリングに基づく交差検証戦略を実装し、このことは、薬物発見のための機械学習の目的を、標準的な機械学習タスクから決定的に区別する。

【0040】

薬物発見の分野は、極めて大きい長さスケールにわたる多パラメーター最適化問題を要する。主要パラメーターの範囲は、溶解度（オングストローム）から、タンパク質－リガンド結合（ナノメートル）、そして生体内毒性（メートル）までわたる。歴史的に、科学者らは、リガンドおよびその標的をモデル化するためにケモインフォマティクと構造との両方に基づく方式を使用してきており、大半の機械学習（ＭＬ）方式は、ドメイン知識に基づく特徴を使用する。特徴エンジニアリングの代わりに特徴学習を通じて、深層ニューラルネットワークは、薬物発見に関係する分子特性を予測するための従来の物理学および知識の両方に基づく機械学習モデルをしのぐことが見込まれる。

【0041】

大半の従来のＤＮＮアーキテクチャの訓練は大量のデータを必要とし、例えば、ＩｍａｇｅＮｅｔは、現在、１４，０００，０００枚を超えるラベル付けされた画像を含んでいる。それに対して、薬物様分子の特性に関する公的利用が可能な最も大きいデータセットには、タンパク質－リガンド共結晶構造の４，０００個をわずかに超える試料およびそれに関連する結合親和性値を有するＰＤＢＢｉｎｄ２０１７、１０，０００個に近い小分子およびそれに関連する毒性エンドポイントを有するＴｏｘ２１、２２，０００個前後の小分子およびそれに関連する電子特性を有するＱＭ８、１，０００個をわずかに超える小分子およびそれに関連する溶解度値を有するＥＳＯＬが含まれる。この高品質な科学データの乏しさにより、分子機械学習のための革新的なニューラルアーキテクチャが必要とされている。

【0042】

成功するＤＮＮは、しばしば、画像内のピクセル近接度などの、データ内の関連する構造を活用する。タンパク質－リガンドの結合親和性を予測することは、コンピュータービジョン問題と同様とみなすことができる。隣り合うピクセルが物理的物体間の近さを暗示するのとちょうど同じように、結合ポケットをボクセルグリッドに区分することができる。ここで、隣り合うボクセルは、隣り合う原子と、空の空間のブロックとを表す。不都合なことに、この３Ｄ畳み込み方式にはいくつかの潜在的な欠点がある。第１に、入力および隠れた重みにより、３次元においてより多くのメモリが必要となる。第２に、パラメーターが次元数と共に指数関数的に増大するため、モデルは「次元の呪い」を受ける。親和性予測および関係するタスクのための定性的に最も単純なモデルは、リガンドの特徴のみを取り込み、高分子標的を無視する。

【0043】

グラフ畳み込みニューラルネットワーク（ＧＣＮＮ）は、同じようにデータの固有構造を活用する。グラフ畳み込みは、分子構造および対称性を活用することにより、使用するパラメーターをより少なくすることができる。グラフ畳み込みは、置換と、隣り合うノード各々の相対的な場所とについて対称にすることができ、それによりモデルパラメーターの数を大幅に減らす。本発明のいくつかの実施形態に係るモデルは、異なる分子間の分子内相互作用と非共有結合相互作用との両方を含むようにグラフ畳み込みを一般化することができる。

【0044】

いくつかの実施形態において、プロセスは、段階的なゲート付きグラフニューラルネットワークを用いることができ、これは、区別可能な結合原子タイプの派生を、空間を通じた原子間の情報の伝播から区別する。本発明の一部の実施形態に係るプロセスは、ソース原子から標的原子までの距離と標的原子の特徴マップとの両方を使用する新しい更新規則に基づく、より柔軟なモデルを用いる。メッセージ関数に標的原子情報を直接取り込むことにより、一部のタンパク質－リガンド結合親和性ベンチマークにおけるシグナルを増すことができる。

【0045】

いくつかの実施形態において、Ｎ個のノード、ノード当たりｆ_ｉｎ個の特徴、および単一のエッジタイプを含んでいる所与のグラフは、ノード特徴ｘおよび対称隣接行列Ａからなるものと表現することができ、対称隣接行列Ａは、ノードの対が互いのネイバーセットＮに属するかどうかを指定する。ここで図面を見ると、ゲート付きグラフニューラルネットワーク（ＧＧＮＮ）の視覚的描写が図１に図示されている。ＧＧＮＮ１００は、原子を表すノード（１１０～１２０）、および結合を表すエッジ（１３０～１４０）と共に図示されている。この例では、ネットワークの異なる更新層間の情報の伝播を図示するために、小分子プロパナミドが選択されている。カルボニル炭素（１１０）について、素性行列ｘの該当する行は、そのエレメントを表現する［１，０，０］であり得、隣接行列Ａの対応する行は、３つのネイバー原子へのその結合を示す［０，１，０，１，ｌ］であり得る。

【0046】

いくつかの実施形態において、グラフ畳み込みの更新は、ノードおよびそのネイバーを入力として受け取り、各ノードの特徴の新しいセットを出力する関数を、各ノードにおいて適用することを要する。グラフ畳み込みについては、"Neural message passing for quantum chemistry" by Gilmer et al., Proceedings of the 34th International Conference on Machine Learningに記載されており、その開示内容は参照により全体が本明細書に組み込まれる。グラフ畳み込みは、次のように書くことができ、

【数1】

ここで、ｈ_ｉ ^（ｔ）は、隠れ層ｔにおけるノードｉのノード特徴を表し、Ｎ（ｖ_ｉ）はノードｉのネイバーを表し、Ｕ^（ｔ）およびｍ^（ｔ）は、それぞれ隠れ層ｔにおける更新関数およびメッセージ関数である。ある特定の実施形態において、複数のエッジタイプがあるときに、複数のメッセージ関数を定義することができ、ｍ^{（ｔ，ｅ）}は、エッジタイプ

【数2】

についての層ｔにおけるメッセージ関数である。

【0047】

多くの実施形態において、モデルのすべての層の更新関数は、よく知られたゲート付き回帰型ユニット（ＧＲＵ）である。しかしながら、当業者は、本発明の主旨から逸脱することなく他の更新関数が使用され得ることを認識されよう。一部の実施形態において、メッセージ関数は、エッジタイプごとに異なるが一方で各層にまたがって同じでもある単純な線形演算である。

【数3】

ここで、Ａ^（ｅ）は、エッジタイプｅについての隣接行列であり、Ｗ^（ｅ）はエッジタイプｅについての重み行列である。

【0048】

グラフ畳み込みアーキテクチャのＧＧＮＮ系列には、グラフに対する複雑性を低減するための効果的な最適化が含まれる。ｄを、各ノードの内部の隠れた表現の次元とし、ｎを、グラフ中のノードの数とする。密なグラフの場合のメッセージ受け渡しの１回のステップは、

【数4】

回の乗算を必要とする。ｄ次元のノード埋め込みをｋ個の異なる

【数5-1】

次元の埋め込みに分解することにより、この実行時間を

【数5-2】

に短縮する。大半の分子は疎であるかまたは比較的小さいグラフであるので、これらの層は、一般に

【数6】

である。各種実施形態において、グラフのスペクトル表現を利用するなどの（ただしそれらに限定されない）、他の最適化が用いられ得る。

【0049】

入力される手作業で作られた特徴の非線形の組合せを学習する従来のＦＣＮＮと異なり、本発明の一部の実施形態に従って記載される更新は、所与の原子のより基本的な特徴と、その直接のネイバーの特徴との非線形の組合せを学習する。情報は、グラフ畳み込みごとに次第に遠くなる原子間を通って伝播し、ＧＲＵは、情報が選択的に追加されることを可能にする。最終的に、ＧＣＮＮは、素性行列ｘを介したノードごとの特徴と、隣接行列Ａを介した構造的情報との両方を含んでおり、それらを活用する。分類および回帰の両方の状況において、ＧＣＮＮは、「グラフ集約」ステップで終結することができ、このステップは、最終的な埋め込みの行にわたって合計を取り、ノードの順序付けに対して不変である。後続のＦＣＮＮは、所望されるサイズ

【数7】

の出力を作成する。これにより、本発明の多くの実施形態に従って使用されるグラフ畳み込み更新の開始点が完了する。

【数8】

【0050】

ある特定の実施形態において、複数の標的についてＧＣＮＮによって親和性を予測することは、標的ごとに異なるモデルを訓練するか、または単一のマルチタスクネットワークを訓練するかのいずれかにより実装することができる。本発明の様々な実施形態に係る後者の設定は、最後の重み行列

【数9】

を使用することができ、ここで、Ｔは、データセット中の標的の数を表す。対応するマルチタスク損失関数は、標的にまたがる平均二値交差エントロピー損失となる。

【数10】

【0051】

本発明の多数の実施形態に係るシステムおよび方法は、リガンドに加えて、標的に関する構造的情報を活用する。より原理に基づいたＤＮＮ予測子向けのアーキテクチャを促進するために、次の表記およびフレームワークが使用される。その要素Ｒ_ｉｊがａｔｏｍ_ｉとａｔｏｍ_ｊとの間の距離を表す距離行列

【数11】

。

【0052】

これまで、対称行列Ａとして符号化されるような隣接の概念は、化学結合に制約されてきた。しかしながら、隣接は、非共有結合相互作用（例えば、π－πスタッキング、水素結合、疎水性接触）を含むように、より広い範囲のネイバータイプを包含することもできる。隣接はドメイン知識を必要としない。各種実施形態において、しきい値未満のペアワイズ距離を使用することもできる。特定の手法に関わらず、距離行列Ｒは、Ａの拡張バージョンの構築を促進する。このフレームワークでは、Ａは、形状ＮｘＮｘＮ_ｅｔのテンソルになり、Ｎ_ｅｔはエッジタイプの数を表す。

【0053】

行が、タンパク質またはリガンドのいずれかへのａｔｏｍ_ｉの帰属によって順序付けられた場合、ＡおよびＲは両方ともブロック行列とみなすことができ、行列内では、対角ブロックが、あるリガンド原子から別のリガンド原子への、またはあるタンパク質原子から別のタンパク質原子への自己エッジ（すなわち、結合および非共有結合相互作用）となる。非対角ブロック行列は、タンパク質からリガンドへのおよびリガンドからタンパク質へのエッジを符号化することができる。簡単のために、１つのみのエッジタイプが存在する特殊な事例、Ｎ_ｅｔ＝１を説明する。

【数12】

ここで、Ａ_ｉｊはネイバーに対しては１、その他の場合は０であり、

【数13】

である。このフレームワーク内では、空間グラフ畳み込み、すなわち、ユークリッド距離上で予測される隣接の概念に基づくグラフ畳み込みを、上記の更新によって特徴付けられるＧＧＮＮの一般化として表すことができる。

【0054】

エッジタイプの一般化に加えて、本発明の多くの実施形態に係るプロセスは、グラフ畳み込み層のメッセージ部分に非線形性を導入する。

【数14】

ここで、ＮＮ^（ｅ）は、各エッジタイプｅに対するニューラルネットワークであり、Ｎ^（ｅ）（ｈ_ｉ）は、原子／ノードｉについてのエッジタイプｅのネイバーを表す。

【0055】

いくつかの実施形態において、層の概念が、所与のタイプのいくつかの層にまたがり得るステージの概念へと一般化される。本発明の一部の実施形態に係るプロセスは、（１）共有結合のみの伝播、（２）非共有結合および共有結合の二重の伝播、および（３）リガンドに基づくグラフ集約、の３つの主要ステップからなる。より一般的には、一部の実施形態において、プロセスは、１つまたは複数のエッジタイプの第１のセットに基づく第１の伝播を行う。本発明の各種実施形態に係る第２のステージは、結合タイプ、ならびに結合情報とは別個の距離行列からの距離情報を含むことができる。距離情報は、具体的な物理距離測定値および／またはビニングされた距離を含むことができる（ただしそれらに限定されない）。本発明の様々な実施形態に係る第２のステージは、すべてのエッジタイプまたはエッジタイプのサブセットを含むことができる。

【0056】

ある特定の実施形態において、ステージ（１）の共有結合伝播は、隣接行列の第１のスライスＡ^（１）のみを要し、これは、（ａｔｏｍ_ｉ，ａｔｏｍ_ｊ）の間に結合がある場合に要素（ｉ，ｊ）に１を含み、それ以外の場合は０を含んでいる。直感的に、ステージ（１）は、系内のＮ個の原子各々に対応するベクトル値化された原子タイプh_i ⁽¹⁾の新しいセットを、それらの結合原子の局所的ネットワークに基づいて算出する。本発明の様々な実施形態に係る原子タイプは、各原子の特徴マップである。その後、本発明の各種実施形態に係るステージ（２）は、（１）で算出されたベクトル値化された原子タイプh_i ⁽¹⁾で始まる完全隣接テンソルＡの両方に基づく伝播を要する。ステージ（１）は、アミノ酸とリガンド原子の両方について新しい結合に基づく「原子タイプ」を算出するのに対し、ステージ（２）は、結合と空間情報との両方を原子間で渡す。例えば、ステージ（１）がケトンカルボニル酸素からアミドカルボニル酸素を区別する場合、ステージ（２）は、カルボニル酸素が水素結合ドナーからも３オングストローム以内にあることを第１の層において伝えることができる。最後に、ステージ（３）で、リガンド原子のみに対してグラフ集約が行われる。ある特定の実施形態においては、リガンドのみのグラフ集約が、上記のブロック行列の定式化によって計算的に単純化される。

【0057】

各種実施形態において、ベクトル値化された原子タイプの新しいセットが、系内の各原子について、それらの結合原子の局所的ネットワークに基づいて算出される。
ステージ１：

【数15】

多数の実施形態において、第２のステージは、（１）で算出されたベクトル値化された原子タイプh_i ⁽¹⁾で始まる完全隣接テンソルＡの両方に基づく伝播を要する。ステージ（１）は、アミノ酸とリガンド原子の両方について新しい結合に基づく「原子タイプ」を算出するのに対し、ステージ（２）は、結合と空間情報との両方を原子間で渡す。ある特定の実施形態においては、距離行列からの空間情報が、結合情報に加えて第２のステージで利用される。
ステージ２：

【数16】

様々な実施形態において、グラフ集約は、第３のステージ（３）で行われる。本発明の多数の実施形態に係るプロセスは、リガンド原子のみに対してグラフ集約を行う。
ステージ３：

【数17】

ここで、ｉ^（ｂ）、ｊ^（ｂ）、ｉ^（ｓｐ）、ｊ^（ｓｐ）は、結合および空間ニューラルネットワークであり、h_j ^(sp)は、ステージ２の終了時のｊ番目の原子についての特徴マップを表す。

【0058】

より一般的には、エッジ情報、複数個のエッジタイプ、距離情報、およびステージを取り込むという概念は、Ｓ個のステージがあり、かつエッジタイプが離散的に扱われると仮定して、以下の定式化に要約することができる。

【0059】

本発明の様々な実施形態に係る１つの定式化では、各エッジタイプを離散的に扱うことができる。
ステージ１：

【数18】

ステージＳ：

【数19-1】

ここで、例えば、Ｋ_Ｓは、Ｓ番目のステージにおけるグラフ畳み込み層の数を定義し、ｈ_ｉ ^{（Ｓ，Ｋｓ）}は、Ｋ_Ｓ個のグラフ畳み込み層の後のステージＳにおけるｉ番目の原子の特徴マップを定義し、Ｎ_ｅｔ ^（Ｓ）は、ステージＳで使用されるエッジタイプの数を表し（これはエッジタイプの総数Ｎ_ｅｔのサブセットである）、Ｒ_ｉｊは、行列Ｒのｉ番目の行およびｊ番目の列の要素（したがって原子／ノードｖ_ｉとｖ_ｊとの間の距離）を表し、ＮＮ^{（Ｓ，ｅ）}は、ｅ番目のエッジタイプのステージＳにおけるニューラルネットワークを表し（ただし、重みの関係付けのために異なるステージで所与の一つのエッジタイプに同じニューラルネットワークが使用され得る）、

【数19-2】

は、ステージＳの終了時における各原子の特徴マップの次元を表し、ｉ^（Ｓ）およびｊ^（Ｓ）は、ステージＳの集計ニューラルネットワークである。各ステージ／グラフ畳み込み層の各セットにおいてエッジタイプのサブセットおよびエッジ情報を利用できると述べたため、どの任意のステージにおいても、距離情報Ｒ_ｉｊも、軟または硬距離ビンのいずれも、ＧＲＵ機能内の所与のＮＮによって利用される必要がないことに留意すべきである。言い換えると、ステージの一部は、原子間の結合または他の非空間的関係のみに依存することができる。

【0060】

本発明の各種実施形態に係る別の定式化では、エッジタイプは、柔軟なまたは連続した／密なエッジタイプとすることができる。
ステージ１：

【数20】

ステージＳ：

【数21】

ここで、例えば、Ｋ_Ｓは、Ｓ番目のステージにおけるグラフ畳み込み層の数を定義し、ｈ_ｉ ^{（Ｓ，Ｋｓ）}は、Ｋ_Ｓ個のグラフ畳み込み層の後のステージＳにおけるｉ番目の原子の特徴マップを定義し、Ｒ_ｉｊは、行列Ｒのｉ番目の行およびｊ番目の列の要素（したがって原子／ノードｖ_ｉとｖ_ｊとの間の距離）を表し、ＮＮ^（Ｓ）は、ステージＳにおけるニューラルネットワークを表し、ｅ_ｉｊは、原子ｖ_ｉとｖ_ｊとの間の事前に特徴化（ｆｅａｔｕｒｉｚｅ）されたまたは学習されたエッジ特徴のいずれかを表すベクトルであり、

【数22】

は、ステージＳの終了時における各原子の特徴マップの次元を表し、ｉ^（Ｓ）およびｊ^（Ｓ）は、ステージＳの集計ニューラルネットワークである。上記の定式化では、各ステージが距離行列Ｒを利用するが、距離行列Ｒは、ステージのうち１つまたは複数から除くことができる。多くの実施形態において、ステージの第１のサブセットは距離行列を利用し得るのに対し、ステージの第２のサブセットは距離行列を全く伴わなくてよい。一部の実施形態では、各ステージの最後の層を、単にｈ^（ｓ）＝ｈ^{（ｓ，Ｋｓ）}と設定することができる。それに代えて、またはそれと併せて、本発明の多くの実施形態に係る各ステージの最後の層は、ｈ^（ｓ）＝ＮＮ（ｈ^{（ｓ，Ｋｓ）}）またはｈ^（ｓ）＝ＮＮ（ｈ^{（ｓ，Ｋｓ），ｈ（ｓ－１）}）と設定することができる。

【0061】

一部の実施形態では、ｅ_ｉｊは、事前に定義されるのに代えて、それ自体を微分可能な関数とすることができる。一例では、ｅ_ｉｊ ^{（Ｓ，３）}は、ステージＳおよびグラフ畳み込み層３における原子ｉとｊとの間のエッジである。この例では、ｅ_ｉｊ ^{（Ｓ，３）}＝ＮＮ（ｈ_ｉ ^{（Ｓ，２）}，ｈ_ｊ ^{（Ｓ，２）}）となる。いくつかの実施形態において、ｅ_ｉｊは、所与のステージにおけるグラフ畳み込み層の後の当該ステージの原子ｉおよび原子ｊの特徴マップに依存するニューラルネットワークとすることができる。一部の実施形態では、ｅ_ｉｊはＲＮＮとすることができる。例えば、ｅ_ｉｊ ^{（Ｓ，３）}＝ＧＲＵ（ｅ_ｉｊ ^{（Ｓ，２）}，Ｗ_ｅ ^（Ｓ）・［（ｈ_ｉ ^{（Ｓ，２）}，ｈ_ｊ ^{（Ｓ，２）}］）である。

【0062】

タンパク質－リガンド結合の特定の事例では、グラフ集約演算は、以下のようにＳ個のステージの後に定義される。
集約ステージ：

【数23】

しかしながら、本発明の実施形態に係る特定の適用例の要件に応じて、Ｎ_Ｌｉｇ個の原子にわたる和を、グラフ中のノードの任意のサブセットに置き換えることも可能である。また、上記のＲｅＬＵ非線形性を、シグモイド、ＬｅａｋｙＲｅＬＵ、ｔａｎｈ等のような他の非線形性に置き換えるなど、他のタイプのグラフ集約ニューラルネットワークを本発明の一部の実施形態に従って使用することができ、また、回帰型ニューラルネットワークなど、全結合ニューラルネットワーク以外の他の演算を使用することができる。

【0063】

システムおよび方法
本発明の一部の実施形態に係るモデル化および予測を提供するシステムが図２に示される。ネットワーク２００は、通信ネットワーク２６０を含む。通信ネットワーク２６０は、ネットワーク２６０に接続されたデバイスが、他の接続されたデバイスと通信することを可能にする、インターネットなどのネットワークである。サーバーシステム２１０、２４０、および２７０が、ネットワーク２６０に接続されている。サーバーシステム２１０、２４０、および２７０の各々は、ネットワーク２６０を通じてユーザにクラウドサービスを提供するプロセスを実行する、内部ネットワークを介して互いに通信可能に接続された１つまたは複数のサーバーコンピューターシステムの群である。本説明の目的には、クラウドサービスは、１つまたは複数のサーバーシステムによって実行されてネットワークを通じてデバイスにデータおよび／または実行可能アプリケーションを提供する１つまたは複数のアプリケーションである。サーバーシステム２１０、２４０、および２７０は、内部ネットを介して接続された３つのサーバーを各々有するものとして図示されている。しかしながら、サーバーシステム２１０、２４０、および２７０は、任意数のサーバーを含んでよく、任意のさらに多くの数のサーバーシステムがネットワーク２６０に接続されて、これに限定されないが仮想化されたサーバーシステムを含むクラウドサービスを提供してよい。本発明の様々な実施形態によれば、分子特性をモデル化および予測するためのプロセスが、単一のサーバーシステムおよび／またはネットワーク２６０を通じて通信するサーバーシステムの群で実行する１つまたは複数のソフトウェアアプリケーションによって提供される。

【0064】

ユーザは、ネットワーク２６０に接続するパーソナルデバイス２８０および２２０を使用して、本発明の様々な実施形態に係る分子特性をモデル化および予測するためのプロセスを行ってよい。図示される実施形態では、パーソナルデバイス２８０は、従来の「有線」接続を介してネットワーク２６０に接続されるデスクトップコンピューターとして示されている。しかしながら、パーソナルデバイス２８０は、デスクトップコンピューター、ラップトップコンピューター、スマートテレビジョン、エンターテイメントゲームコンソール、または「有線」もしくは「無線」のネットワーク接続を介してネットワーク２６０に接続する任意の他のデバイスであってよい。モバイルデバイス２２０は、無線接続を使用してネットワーク２６０に接続する。無線接続は、ラジオ周波数（ＲＦ）シグナル、赤外線シグナル、または任意の他の形態の無線シグナル伝達を使用してネットワーク２６０に接続する接続である。図２では、モバイルデバイス２２０は携帯電話である。しかしながら、モバイルデバイス２２０は、本発明から逸脱することなく、携帯電話、個人情報端末（ＰＤＡ）、タブレット、スマートフォン、仮想現実ヘッドセット、強化現実ヘッドセット、混合現実ヘッドセット、または無線接続を介してネットワーク２６０に接続する任意の他のタイプのデバイスであってよい。本発明の一部の実施形態によれば、分子特性をモデル化および予測するプロセスは、ユーザデバイスによって行われる。容易に理解できるように、分子特性をモデル化および予測するために使用される特定のコンピューティングシステムは、主として所与の適用例の要件に依存し、任意の特定のコンピューティングシステムの実装に限定されるとみなされるべきではない。

【0065】

本発明のいくつかの実施形態に係るモデル化エレメントが図３に図示される。本発明の多くの実施形態に係るモデル化エレメントは、モバイルデバイス、コンピューター、サーバー、およびクラウドサービスのうちの１つまたは複数を含むことができる（ただしそれらに限定されない）。モデル化エレメント３００は、プロセッサー３１０、通信インターフェース３２０、およびメモリ３３０を含む。

【0066】

当業者は、特定のモデル化エレメントは、本発明から逸脱することなく、簡略のために省略されている他の構成要素を含んでよいことを認識されよう。プロセッサー３１０は、メモリ３３０に記憶された命令を実行してメモリに記憶されたデータを操作する、プロセッサー、マイクロプロセッサー、コントローラー、または、プロセッサー、マイクロプロセッサー、および／もしくはコントローラーの組合せを含むことができる（ただしそれらに限定されない）。プロセッサー命令は、本発明のある特定の実施形態に従ってプロセスを行うようにプロセッサー３１０を構成することができる。通信インターフェース３２０は、モデル化エレメント３００が、プロセッサー３１０によって実行される命令に基づいてネットワークを通じてデータを送信および受信することを可能にする。

【0067】

メモリ３３０は、モデル化アプリケーション３３２、分子データ３３４、およびモデルデータ３３６を含む。本発明のいくつかの実施形態に係るモデル化アプリケーションは、異なる分子同士の相互作用をモデル化および予測するために使用される。多数の実施形態において、モデル化された相互作用を使用して、さらなる試験のために候補分子を特定することができる。いくつかの実施形態において、モデル化アプリケーションは、分子シミュレーションおよび／または分子特性のデータベースを含む（ただしそれらに限定されない）各種の供給源から生成されたデータを含む、分子データを使用することができる。本発明の様々な実施形態に係るモデルデータ３３６は、空間グラフのデータ、エッジ型ニューラルネットワーク、および全結合分類器ネットワークを含むことができる（ただしそれらに限定されない）。本発明の多くの実施形態に係るモデルは、分子系の原子ごとに素性行列を特定し、結合／非結合、量子特性、毒性、および溶解度を含むがそれらに限定されない分子の様々な特質を分類するなどの（ただしそれらに限定されない）、様々な目的のために使用され得る。

【0068】

モデル化エレメント３００の特定の例が図３に図示されるが、本発明の実施形態に係る特定の適用例の要件に応じて、本明細書に記載されるものと同様のプロセスを行うために各種のモデル化エレメントのいずれをも利用することができる。

【0069】

本発明の一実施形態に係る候補リガンドを特定するモデル化アプリケーションが図４に図示される。モデル化アプリケーション４００は、グラフエンジン４０５、結合特徴生成器４１０、空間特徴生成器４１５、集計エンジン４２０、および分類エンジン４２５を含む。本発明の多くの実施形態に係るモデル化アプリケーションは、分子系の分子のセットについての分子データをして、系内の分子間の相互作用をモデル化および予測する。

【0070】

各種実施形態において、グラフエンジンは、分子のセットのグラフ表現を構築することができる。グラフ表現は、結合情報、結合タイプ、距離情報、原子特性、および結合親和性を含むことができる（ただしそれらに限定されない）。本発明のいくつかの実施形態に係る構築されたグラフ表現は、隣接行列および／または距離行列を含むことができる。

【0071】

本発明の多数の実施形態に係る結合特徴生成器は、原子のその各ネイバーとの結合に基づいて分子系の原子ごとに素性行列を生成することができる。多数の実施形態において、結合特徴生成器は、モデル化および予測プロセスの異なるステージにおいて、異なるタイプの結合に対して動作することができる。各種実施形態において、結合特徴生成器は、第１のステージにおいて共有結合に基づいて各原子に対して素性行列の第１のセットを決定することができ、また、他のタイプの結合に基づいて原子に対して素性行列の第２のセットを決定するために使用されることが可能である。本発明の一部の実施形態に係る空間特徴生成器は、結合タイプに加えて、または結合タイプに代えて、異なる原子間の空間距離に基づいて分子系の各原子について素性行列を生成することができる。本発明の様々な実施形態に係る結合特徴生成器は、結合情報と空間情報の両方を各原子の素性行列に取り込むために、プロセスの一部のステージにおいて空間特徴生成器と連携して動作することができる。結合特徴生成器および空間特徴生成器は、各結合タイプおよび／またはプロセスの各ステージに対していくつかのニューラルネットワークを実装することができる。

【0072】

本発明の様々な実施形態に係る集計エンジンを使用して、特徴生成器からの生成された特徴を集計することができる。各種実施形態において、集計エンジンは、結合特徴生成器および／または空間特徴生成器によって生成された素性行列の最終セットを集計することができる。多数の実施形態において、集計エンジンは、分子系の分子のうち１つ（例えばリガンド）のみに動作する。

【0073】

様々な実施形態において、分類エンジンを使用して分子のセット間の相互作用を分類または予測することができる。本発明の一部の実施形態に係る分類エンジンは、全結合ニューラルネットワーク（ＦＣＮＮ）および／またはランダムフォレストなどの（ただしそれらに限定されない）分類器を実装することができる。様々な実施形態において、分類エンジンは、特徴生成器および／または集計エンジンによって生成された素性行列を入力として受け取り、分子のセットが特定の関係（例えば、結合／非結合、アゴニスト／アンタゴニスト等）を有する見込みを出力する。モデル化アプリケーションの特定の例が図４に図示されるが、本発明の実施形態に係る特定の適用例の要件に応じて、本明細書に記載されるものと同様のプロセスを行うために各種のモデル化アプリケーションのいずれをも利用することができる。

【0074】

本発明の実施形態に係る空間畳み込みを利用して分子特質をモデル化および予測するためのシステム、エレメント、およびアプリケーションの特定の例が上記で説明されたが、当業者は、本発明の実施形態に係る特定の適用例の要件に応じて、任意数の構造およびシステムを利用できることを認識されよう。

【0075】

本発明の一実施形態に係る段階的な畳み込みを行うためのプロセスが概念的に図５に図示される。プロセス５００は、系内の１つまたは複数の分子についての原子情報を受け取る（５０５）。各種実施形態において、分子は、供給源（例えばリガンド）および標的分子を含むことができる。本発明のいくつかの実施形態に係る原子情報は、距離情報および化学特性を含む（ただしそれらに限定されない）、各分子に関する様々な情報を含む。多数の実施形態において、原子タイプ、すなわち

【数24】

の原子ごとの特徴マップが、リガンドとタンパク質原子の両方について同じ初期特徴から導出される。プロセス５００は、リガンドおよび標的分子の空間グラフ表現を構築する（５１０）。本発明の各種実施形態に係る空間グラフ表現は、距離行列および／または隣接行列を含む。本発明の一部の実施形態に係る距離行列は、系内の他の各原子からの各原子の距離情報を含む。多くの実施形態において、隣接行列は、複数の層（または次元）を含み、各層は、異なるエッジタイプに沿った隣接を示す。例えば、第１の層における隣接は、２つの原子が共有結合を共有していることを示し得、一方、異なる層における隣接は、異なる結合タイプを示す。一部の実施形態において、隣接は、特定の結合は全く示さず、２つの原子が互いからしきい値距離内にあるかどうかを示す。

【0076】

本発明のいくつかの実施形態に係るプロセスは、次いで、いくつかのグラフ畳み込みステージを行うことができる。プロセス５００は、グラフ畳み込みステージを行う（５１５）。一部の実施形態では、異なるグラフ畳み込みステージは、分子系に関する情報の異なるサブセットに基づくことができ、情報は、結合タイプ、距離タイプ、および他のエッジタイプを含むことができる（ただしそれらに限定されない）。例えば、一部のステージは結合タイプのみに基づくことができ、一方、他のステージは、ある特定のエッジタイプおよび距離情報に基づくことができる。本発明の様々な実施形態に係る単一のグラフ畳み込みステージが、異なるエッジタイプのサブセットに基づくことができるのに対し、異なる畳み込みステージは、それら異なるエッジタイプの異なるサブセットまたは完全なセットに基づく。例えば、ある特定の実施形態では、最初のグラフ畳み込みステージは、共有結合の存在を示す隣接行列の第１の層に基づくのに対し、後続のグラフ畳み込みステージは、すべての結合タイプならびに原子間距離に基づく。

【0077】

いくつかの実施形態において、各グラフ畳み込みステージは、各原子の特徴ベクトルを作成し、各ステージへの入力に基づいて各原子の特徴を学習する。本発明の各種実施形態に係る特徴ベクトルは、後続のグラフ畳み込みステージへの入力として使用されることが可能である。本発明の様々な実施形態に係る各グラフ畳み込みステージは、ニューラルネットワークのセットを利用することができる。多数の実施形態において、各別個のニューラルネットワークがエッジタイプごとに訓練される。多くの実施形態において、ニューラルネットワークは、全結合ニューラルネットワーク、畳み込みネットワーク、および回帰型ネットワークを含むことができるが、これらに限定されない。異なるステージの重み同士を共に関係付けるために、特定のエッジタイプ向けのニューラルネットワークを、本発明の様々な実施形態に係る異なるステージにわたって使用することができる。しかしながら、多くの実施形態においては、エッジタイプおよびステージごとに異なるニューラルネットワークが訓練され、利用される。

【0078】

プロセス５００は、行うステージがさらにあるかどうかを決定する（５２０）。多くの実施形態においては、指定数のステージが行われる。プロセスが行うステージがさらにあると決定すると、プロセスはステップ５１５に戻る。すべてのステージが完了している場合、プロセス５００は、グラフ集約を行って、グラフ畳み込みステージの後の情報を集計する（５２５）。いくつかの実施形態において、グラフ集約は、リガンド分子の原子のみに対して行われる。各種実施形態において、グラフ集約ステップは、リガンド分子の分類を予測するように訓練された全結合ニューラルネットワークを使用して行われる。分類は、標的分子と結合する能力の予測を含むことができる（ただしそれに限定されない）。

【0079】

本発明の実施形態に係る空間畳み込みを利用して原子を分類するための特定のプロセスが上記で説明されたが、当業者は、本発明の実施形態に係る特定の適用例の要件に応じて、任意数のプロセスを利用できることを認識されよう。

【0080】

本発明の様々な実施形態に係る多段階空間ゲート付きグラフニューラルネットワークの視覚的描写が図６に図示される。第１のステージ６０５は、結合のみに対するグラフ畳み込みを要し、これは、より従来型の形態の分子モデル化における区別可能な原子タイプに概ね似た、新しいノード（原子）特徴マップを導出する。第２のステージ６１０は、結合と空間距離との両方に基づく情報の伝播を要する。第３のステージ６１５で、グラフ集約演算がリガンド原子に対して行われ、その特徴マップが、結合リガンド情報およびタンパク質原子への空間近接度から導出される。歴史的な理由からリガンドとタンパク質とに別個の力場を有し、次いでそれらがシミュレーションで相互動作しなければならない（しばしば良好に行かない）分子動力学の力場と対照的に、本発明の一部の実施形態に係るプロセスは、統一されたフレームワークから生体分子相互作用の物理化学的特性を導出することができる。

【0081】

さらに例示するために、本発明の様々な実施形態に係る第１および第２のステージは、完全隣接テンソルＡの異なるサブセットを活用する。本発明の各種実施形態に係る第１のステージが図７に図示される。この例では、隣接テンソルＡの最後の次元の第１のスライスに符号化された共有結合または結合相互作用エッジタイプのみが、活用される。本発明のいくつかの実施形態に係る第２のステージが図８に図示される。この例では、隣接テンソルＡの最後の次元全体にまたがる結合および非結合両方の相互作用エッジタイプが活用される。各種実施形態において、第２のステージは、様々な原子間の距離を記述する空間データも含むことができる。

【0082】

予測子性能の従来の測定基準は、一般的な問題および薬物発見に固有の問題が生じる。リグレッサーの場合、「決定の係数」であるＲ^２と、二乗平均平方根誤差（ＲＭＳＥ）との両方が、単一データ点外れ値に対して感受性である。分類器とリグレッサーとの両方についてのＲＭＳＥは、訓練データの分布も帰無モデル性能も加味しない。受信者操作特性曲線の下の面積が、分類器についてのＲＭＳＥのこの欠陥を補正することができる。しかしながら、すべての上述の測定基準は、すべてのデータ点を均等に重み付けする包括的統計値である。この特性は、分布の末端を予測することに最も関心がもたれる薬物発見では特に望ましくない。すなわち、モデル予測は、数百万の分子を含んでいるライブラリ全体に対して行われるが、購入または合成されるのは上位スコアの分子のみである。

【0083】

それに応じて、ケモインフォマティクス界は、モデルの最も性能が高いものの重要性をより重く重み付けする、早期エンリッチメントの概念を導入した。現在、早期エンリッチメント測定のこの進歩は分類に限定されており、まだ回帰を含んではいない。本発明の多数の実施形態に係るプロセスは、ＥＦ_χに似た、回帰における早期エンリッチメントの新たな測定基準、ＥＦ_χ ^（Ｒ）を利用する。所与の標的について、

【数25】

であり、ここで、試料ｉに対しての実験による（観察された）測定値であるｙ_ｉは、試料ｉについてのモデル（予測）測定値である

【数26】

に従って降順にランク付けされる。言い換えると、ｙ_ｉと同じ単位を有する（すなわちｌｏｇ（Ｋ_ｉ）値）、例えば

【数27】

を算出するのではなく、上位χ％のスコアの試料の観察値の平均ｚスコアが算出される。不都合なことに、この正規化されない方式は、データセット中の分布に依存する。例えば、ｌｏｇ（Ｋ_ｉ）の測定値の分布において、平均からの最大偏差が１．０である場合、モデルが行い得る最良のことは、１．０のＥＦ_χ ^（Ｒ）を達成することである。

【0084】

本発明の様々な実施形態に係るプロセスは、データの標準偏差であるσ（ｙ）による除算を通じて正規化を行う。これにより、共通の測定単位を有するが、それら測定値における分散が異なる各データセットにわたる、モデル性能の比較を可能にすることができる。上限は、したがって、（１５）の右辺と等しくなり、ここで、分子ｉのインデックス付けされたセットが、χ・Ｎ個の実験上最も活性の高い分子のサブセットを構成する。この値は、訓練データの分布と値χとの両方に依存する。ＥＦ_χ ^（Ｒ）は、χ・Ｎ個のｚスコアにわたる平均であり、ｚスコアはそれ自体、平均実験活性からの標準偏差の実数である。ＥＦ_χ ^（Ｒ）値は、したがって１．０を超える。何故ならば、これは、上位の予測分子のχパーセントが、平均を１．０超上回る平均標準偏差を有することを意味するためである。

【0085】

空間グラフ畳み込みは、親和性の予測において最新技術水準の性能を呈する。本発明のいくつかの実施形態に係る空間グラフ畳み込みは、より原理に基づいた深層学習方式を使用する。入力特徴は、原子、結合、および距離に関する基本的な情報のみである。様々な実施形態において、このフレームワークは、疎水性効果、πスタッキング、または水素結合などの、従来の手作業で作られた特徴を使用しない。代わりに、本発明の様々な実施形態に係るより高水準の相互作用「特徴」が、中間のグラフ畳み込みニューラルネットワーク層を通じて学習される。より単純な入力の特徴化にも関わらず、本発明の様々な実施形態に係る空間グラフ畳み込みは、知見に基づく以前の方式と同じ、比較的少量のデータを使用して、結合自由エネルギーに対するタンパク質－リガンド構造の正確なマッピングを学習することができる。現実世界の薬物発見状況に機械学習が適用される場合は、化学的空間のよく知られた領域内で内挿することと、その空間のうちあまり図表化されていない区域に一般化することとの両方を、所与のモデルが行う能力を測定することが必須である。

【0086】

一態様において、本開示は、分子について特質を予測するための方法およびシステムを提供する。方法は、（ａ）分子のセットの表現を、Ｎ個の原子およびＮ_ｅｔ個のエッジタイプを有するグラフとして得るステップと、（ｂ）Ｎ_ｅｔ個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第１のセットを行うステップと、（ｃ）Ｎ_ｅｔ個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの０～Ｓ－１個のさらなるセットを行うステップと、（ｄ）特質予測が所望される場合、グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くステップと、を含む。

【0087】

システムは、１つまたは複数のプロセッサーであって、（ａ）分子のセットの表現を、Ｎ個の原子およびＮ_ｅｔ個のエッジタイプを有するグラフとして得ることと、（ｂ）Ｎ_ｅｔ個のエッジタイプのサブセットを有する分子のセットのグラフ表現を用いて、グラフ畳み込みの第１のセットを行うことと、（ｃ）Ｎ_ｅｔ個のエッジタイプのサブセットを各々が用いる、グラフ畳み込みの０～Ｓ－１個のさらなるセットを行うことと、（ｄ）特質予測が所望される場合、グラフの部分グラフに対してグラフ集約を行い、その後にさらなるニューラルネットワーク層が続くことと、を行うように個別にまたはまとめて構成された、１つまたは複数のプロセッサーを備える。

【0088】

一部の実施形態において、分子のセットの表現が、ＮｘＮ距離行列をさらに含む。Ｎ_ｅｔ個のエッジタイプは、結合タイプ、塩橋、パイスタッキング、距離ビン、距離基底関数系（ｄｉｓｔａｎｃｅｂａｓｉｓｓｅｔ）、未加工距離、またはそれらの組合せを含むことができる。一部の実施形態において、（ｂ）は、ＮｘＮ距離行列から情報を直接取り込むことをさらに含む。一部の実施形態において、（ｃ）は、ＮｘＮ距離行列を用いてグラフ畳み込みを行うことをさらに含む。一部の実施形態において、グラフの部分グラフは、分子の１つまたは複数についてのものであり得る。

【0089】

一部の実施形態において、グラフの部分グラフは、１個の部分グラフ、２個の部分グラフ、３個の部分グラフ、４個の部分グラフ、５個の部分グラフ、またはそれより多い部分グラフとすることができる。一部の実施形態において、グラフの部分グラフは、１～１００００００個の部分グラフ、１～１００００個の部分グラフ、１～１０００個の部分グラフ、ｌ～１００個の部分グラフ、１～５０個の部分グラフ、１～２０個の部分グラフ、１～１０個の部分グラフ、または１～５個の部分グラフとすることができる。

【0090】

一態様において、本開示は、分子について特質を予測するための方法を提供する。方法は、（ａ）分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを行うステップであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ステップと、（ｂ）空間グラフ表現を用いてグラフ畳み込みの第２のセットを行うステップであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、（ｃ）空間グラフ表現を用いてグラフ集約を行うステップと、（ｄ）分子のセットについて１つまたは複数の特質のセットを予測するステップと、を含む。分子のセットは、１個の分子、２個の分子、またはそれより多い分子とすることができる。

【0091】

一部の実施形態において、１つまたは複数の特質のセットを予測するステップは、グラフ集約からのデータを評価することを含む。本発明の多数の実施形態に係るプロセスは、１つまたは複数の分子のセットについての原子情報を受け取ることができる。原子情報は、分子内の結合長、分子内の結合強度、分子内の結合角、分子内の二面角、２つのおよび／またはそれより多い分子間の二面角、２つのおよび／またはそれより多い分子間の結合角、同じ分子または２つのおよび／もしくはそれより多い異なる分子の原子の対間の原子間距離、同じ分子または２つのおよび／もしくはそれより多い異なる分子の原子の３つ組間の原子間角度、２つのおよび／またはそれより多い分子間の結合距離、分子の電荷、分子の電気陰性度、所与の原子の対の双極子、分子の双極子、１つまたは複数の分子のセットの双極子、ならびに／または２つのおよび／もしくはそれより多い分子間の力とすることができるが、これらに限定されない。２つのおよび／またはそれより多い分子間の力は、静電、イオン引力、中間双極子－双極子、弱いロンドン分散力、疎水性相互作用、親水性相互作用、ファンデルワールス、水素結合、共有結合、金属結合、磁気、および／または物理的な力とすることができるが、これらに限定されない。分子内の１つまたは複数の原子の原子情報は、化学元素、原子番号、プロトン数、電子数、およその質量、電荷、直径、形状、軌道形状、サイズ、エネルギーレベル、原子価、磁気モーメント、および／または同位体を含むことができるが、これらに限定されない。

【0092】

各種実施形態において、空間グラフ表現を構築するステップは、距離行列および隣接テンソルを生成するステップを含むことができ、距離行列は、分子のセットの原子間の距離を表し、隣接テンソルは、原子間の複数の異なるエッジタイプを示す。エッジタイプは、共有結合、イオン結合、極性結合、金属結合、非共有結合（例えばπ－πスタッキング）、塩橋、距離ビン（ハードカットオフおよび／もしくはガウスおよび／もしくは他の基底関数系で拡張される）、ならびに／または水素結合を含むことができるが、これらに限定されない。

【0093】

多くの実施形態において、分子のセットは、リガンド分子および標的分子を含み、距離行列の行が、リガンド分子および標的分子への帰属によって順序付けられる。

【0094】

一部の実施形態において、分子のセット間の結合は共有結合を含む。多数の実施形態において、分子のセット間の結合は、π－πスタッキング、水素結合、および疎水性接触のうちの少なくとも１つを含む。一部の実施形態において、セット内の異なる分子内の原子間の結合／エッジは、ソフトビンまたはハードビン内の距離から構成される。一部の実施形態において、分子のセットは１つの分子を備えることができる。一部の実施形態において、分子のセットは、溶媒分子に囲まれた１つの分子を備えることができる。

【0095】

一部の実施形態において、グラフ畳み込みの第２のセットは、分子のセット間の結合にさらに基づく。一部の実施形態において、グラフ畳み込みの第１のセットは、分子のセット間の結合の第１のセットに基づくことができ、グラフ畳み込みの第２のセットは、分子のセット間の結合の第２のセットに基づくことができる。一部の実施形態において、結合の第１のセットは、結合の第２のセットのサブセットである。

【0096】

本発明の多くの実施形態に係るグラフ畳み込みの第１のセットを行うステップは、グラフ畳み込みの各層において演算を行うステップを含む。一部の実施形態において、この演算は、ゲート付き回帰型ユニット（ＧＲＵ）、長・短期記憶（ＬＳＴＭ）、ゲート線形ユニット（ＧＬＵ）、回帰型ニューラルネットワーク、全結合ニューラルネットワーク、またはそれらの組合せとすることができるが、それらに限定されない。いくつかの実施形態において、グラフ畳み込みの第１のセットを行うステップは、グラフ畳み込みの各層においてゲート付き回帰型ユニット（ＧＲＵ）演算を行うステップを含む。

【0097】

いくつかの実施形態において、グラフ畳み込みの第１のセットを行うステップは、第１の複数のニューラルネットワークを利用するステップを含み、複数のニューラルネットワークの各ニューラルネットワークは、異なる結合タイプに使用され得る。いくつかの実施形態において、グラフ畳み込みの第２のセットを行うステップは、第２の複数のニューラルネットワークを利用するステップを含み、第１の複数のニューラルネットワークのための重みが、第２の複数のニューラルネットワークと共有され得る。

【0098】

いくつかの実施形態において、グラフ畳み込みの第２のセットを行うステップは、第２の複数のニューラルネットワークを利用するステップを含み、第２の複数のニューラルネットワークのニューラルネットワークは、分子のセットの原子間の距離に関する距離情報を利用することができる。

【0099】

一部の実施形態において、分子のセットはリガンド分子および標的分子を含み、グラフ集約がリガンド分子に対してのみ行われ得る。

【0100】

一部の実施形態において、特質のセットは、分子のセットの第１の分子が、分子のセットの第２の分子と結合するかどうかを含む。

【0101】

別の態様において、本開示は、空間畳み込みグラフモデルを訓練するための方法を提供する。方法は、分子のセットの空間畳み込みグラフモデルを用いてグラフ畳み込みの第１のセットを行うステップであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ畳み込みの第２のセットを行うステップであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間畳み込みグラフモデルを用いてグラフ集約を行うステップと、分子のセットについての損失を算出するステップと、算出した損失に基づいて空間畳み込みグラフモデルを更新するステップと、を含む。

【0102】

一部の実施形態において、分子のセットの運動を予測することは、確率論的シミュレーションを行うこと、例えば、溶媒和効果を推定すること、コンフォメーションエントロピーを推定すること、タンパク質およびリガンドの両方の異なるコンフォメーションを探索することにより（例えば、結合の「誘導適合」モデル）、計算することができる。本発明のいくつかの実施形態に係る運動の予測は、分子のセットの運動を予測することによって計算することができるいくつかの特性に依存し得るタンパク質へのリガンド結合などの（ただしそれらに限定されない）、主要な生物物理的プロセスをシミュレートするために使用され得る。

【0103】

ある特定の実施形態において、プロセスおよびシステムは、空間畳み込みグラフモデルの層を使用して、力場について１つまたは複数のパラメーターのセットを予測するように１つまたは複数のニューラルネットワークのセットを訓練することができる。ネットワークの層は、力場についての１つまたは複数のパラメーターのセットを予想するように、１、２、３、４、５、１０、２０、５０、１００、１０００、１００００個、またはそれより多くのニューラルネットワークのセットを訓練することができる。ネットワークの層は、力場についての１つまたは複数のパラメーターのセットを予想するように、１～１００００、１～１０００、１～５００、１～１００、１～１０、または１～５個のニューラルネットワークのセットを訓練することができる。ニューラルネットワークは、力場についての、１、２、３、４、５、１０、２０、５０、１００、１０００、１００００個またはそれより多くのパラメーターのセットを予測するために使用され得る。ニューラルネットワークは、力場についての、１～１００００、１～１０００、１～５００、１～１００、１～１０、または１～５個のパラメーターのセットを予測するために使用され得る。

【0104】

様々な実施形態において、パラメーターのセットは、１つまたは複数の特質のセットに関連付けられ得、特質のセットは、電荷、結合角度、および二面角のうちの少なくとも１つを含む。パラメーターのセットは、１、２、３、４、５、１０、２０、５０、１００、１０００、１００００個、またはそれより多くの特質のセットに関連付けられ得る。パラメーターのセットは、１～１００００、１～１０００、１～５００、１～１００、１～１０、または１～５個の特質のセットに関連付けられ得る。

【0105】

ある特定の実施形態において、空間畳み込みグラフモデルは第１の空間畳み込みグラフモデルであり得、方法は、ポテンシャルエネルギーを予測するように第２の空間畳み込みグラフモデルを訓練するステップと、第１および第２の空間畳み込みグラフモデルに基づいて分子系のポテンシャルエネルギーを予測するステップと、をさらに含む。

【0106】

様々な実施形態において、第２の空間畳み込みグラフモデルを訓練するステップは、１つまたは複数の層のセットを第１の空間畳み込みグラフモデルと第２の空間畳み込みグラフモデルとの間で共有するステップを含む。第２の空間畳み込みグラフモデルを訓練するステップは、１、２、３、４、５、１０、２０、５０、１００、１０００、１００００、またはそれより多くの層のセットを、第１の空間畳み込みグラフモデルと第２の空間畳み込みグラフモデルとの間で共有することを含むことができる。第２の空間畳み込みグラフモデルを訓練するステップは、１～１００００、１～１０００、１～５００、１～１００、１～１０、または１～５個の層のセットを、第１の空間畳み込みグラフモデルと第２の空間畳み込みグラフモデルとの間で共有することを含むことができる。

【0107】

一部の実施形態において、力場は、ＡｓｓｉｓｔｅｄＭｏｄｅｌＢｕｉｌｄｉｎｇｗｉｔｈＥｎｅｒｇｙＲｅｆｉｎｅｍｅｎｔ（ＡＭＢＥＲ）関数形式である。一部の実施形態において、力場関数は、完全ニューラルポテンシャルとすることができ、これらに限定されないが、ＡＭＢＥＲ、ＣＨＡＲＭＭ（ＣＭＡＰ項を含むかまたは含まない）、ＧＲＯＭＯＳ、ＡＭＯＥＢＡ、またはそれらの組合せなどの、固定形態のポテンシャルの特質を帯びることができる。

【0108】

多数の実施形態において、システムおよびプロセスは、空間畳み込みグラフモデルの層を使用して、入力分子系のポテンシャルエネルギーを予測するように１つまたは複数のニューラルネットワークのセットを訓練することができる。空間畳み込みグラフモデルの層は、入力分子系のポテンシャルエネルギーを予測するように、１、２、３、４、５、１０、２０、５０、１００、１０００、１００００個、またはそれよりも多くのニューラルネットワークのセットを訓練するために使用され得る。空間畳み込みグラフモデルの層は、入力分子系のポテンシャルエネルギーを予測するように、１～１００００、１～１０００、１～５００、１～１００、１～１０、または１～５個のニューラルネットワークのセットを訓練するために使用され得る。

【0109】

様々な実施形態において、空間グラフ畳み込みモデルによって予測されるポテンシャルエネルギーを最小化することによって分子のセットのコンフォメーションのセットを特定するステップ。

【0110】

別の態様において、本開示は、分子について特質を予測するためのシステムを提供し、このシステムは、１つまたは複数のプロセッサーであって、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを行うことであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ことと、空間グラフ表現を用いてグラフ畳み込みの第２のセットを行うことであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ことと、空間グラフ表現を用いてグラフ集約を行うことと、分子のセットについて１つまたは複数の特質のセットを予測することと、を行うように個別にまたはまとめて構成された、１つまたは複数のプロセッサーを備える。

【0111】

別の態様において、本開示は、薬物発見のための方法およびシステムを提供する。方法は、機械学習により、予測される分子特質から候補リガンドを特定するステップを含んでよい。一部の実施形態において、候補リガンドを特定するステップは、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを実行するステップであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ステップと、空間グラフ表現を用いてグラフ畳み込みの第２のセットを実行するステップであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ステップと、空間グラフ表現を用いてグラフ集約を行うステップと、分子のセットについて１つまたは複数の特質のセットを予測するステップと、分子のセットについて１つまたは複数の特質のセットから候補リガンドを予測するステップとを含む。

【0112】

一部の実施形態において、システムは、１つまたは複数のプロセッサーであって、分子のセットの空間グラフ表現を用いてグラフ畳み込みの第１のセットを実行することであって、グラフ畳み込みの第１のセットは、分子のセット間の結合に基づく、ことと、空間グラフ表現を用いてグラフ畳み込みの第２のセットを実行することであって、グラフ畳み込みの第２のセットは、少なくとも、分子のセットの各原子と他の原子との間の距離に基づく、ことと、空間グラフ表現を用いてグラフ集約を実行することと、分子のセットについて１つまたは複数の特質のセットを予測することと、分子のセットについて１つまたは複数の特質のセットから候補リガンドを予測することと、を行うように個別にまたはまとめて構成された、１つまたは複数のプロセッサーを備える。

【0113】

一部の実施形態において、１つまたは複数の特質のセットは結合親和性を含む。一部の実施形態において、１つまたは複数の特質のセットはリガンドコンフォメーションを含む。一部の実施形態において、１つまたは複数の特質のセットは、リガンドの電荷、毒性、吸収、分布、代謝、脱離、ＣＹＰ４５０亜型阻害、代謝安定性、膜透過性、経口バイオアベイラビリティ、量子電子特性、溶解度、ＬｏｇＤ、またはそれらの組合せとすることができる。

【0114】

一部の実施形態において、分子のセットについて１つまたは複数の特質のセットから候補リガンドを予測するのを支援するために、事前に訓練されたモデルが利用されてよい。

【0115】

各種実施形態において、提案されるアーキテクチャの性能を以前の方法と比較するために、ＰＤＢＢｉｎｄ２００７に基づいて性能を評価した。一部の実施形態において、（ａ）タンパク質－リガンドの共結晶構造およびそれに関連する結合自由エネルギー値を備える「精緻化された」セットで開始し、（ｂ）「コア」セットを除去してテストセットを形成し、（ｃ）残りの試料が訓練データの役目を果たすことにより、ＰＤＢＢｉｎｄ２００７データセットを分割した。本開示において、この訓練－試験の分割は、下記の「ＰＤＢＢｉｎｄ２００７、精緻化訓練、コアテスト」を指し、ＲＦスコア、Ｘスコア、および本開示に記載されるネットワークを用いて性能を比較する。

【0116】

本開示において、開示は交差検証戦略を考察し、これは、一部の実施形態においては、すべての訓練データを、訓練サブセット、検証サブセット、およびテストサブセット、の３つの別個の層（fold）に分割し、距離測定基準としてのペアワイズの構造的および配列相同性に基づく階層的クラスタリングを用いる。各種実施形態において、ベンチマーク付けのための交差検証は、ハイパーパラメーターセットを使用する。

【実施例】

【0117】

以下の実施例は、特許請求される本発明を例示するために、ただし制限するためではなく与えられる。深層ニューラルネットワークアルゴリズムの性能は、選択されるハイパーパラメーターに非常に敏感である。そのような敏感性が、厳格な交差検証の決定性（criticality）を強める。提案されるアーキテクチャの性能を以前の方法と比較するために、ＰＤＢＢｉｎｄ２００７に基づいて性能を評価した。以前の研究では、（ａ）１，３００個のタンパク質－リガンド共結晶構造およびそれに関連する結合自由エネルギー値を備える「精緻化された」セットで開始し、（ｂ）１９５個の試料を含む「コア」セットを除去してテストセットを形成し、（ｅ）残りの１，０９５個の試料が訓練データの役目を果たすことにより、ＰＤＢＢｉｎｄ２００７データセットを分割した。本開示において、この訓練－試験の分割は、下記の「ＰＤＢＢｉｎｄ２００７、精緻化訓練、コアテスト」を指し、ＲＦスコア、Ｘスコア、および本開示に記載されるネットワークを用いて性能を比較する。

【0118】

本開示において、開示は交差検証戦略を考察し、これは、一部の実施形態においては、すべての訓練データを、訓練サブセット、検証サブセット、およびテストサブセット、の３つの別個の層に分割し、距離測定基準としてのペアワイズの構造的および配列相同性に基づく階層的クラスタリングを用いる。標準的なＰＤＢＢｉｎｄ２００７の「精緻化訓練、コアテスト」ベンチマークでは、空間グラフ畳み込みは、いくつかの測定基準によって反映される最新技術水準の性能を達成する。ＰｏｔｅｎｔｉａｌＮｅｔは、ピアソンおよびスピアマンの相関係数によれば、ＲＦスコアおよびＸスコアの性能をしのぐ。（７）～（１４）についてのピアソン相関スコアは、このベンチマークに対する現在までの最高性能のモデルであるＴｏｐｏｌｏｇｙＮｅｔについて報告されたスコアの誤差以内である。表Ｉ、ＩＩ、およびＩＩＩに報告される結果すべてを含む、これについての交差検証は、テストセットに対する性能が、特徴的な検証セットに対して最も性能が高かったハイパーパラメーターセット（表ＶＩＩ）について記録されるように行われた。それに対して、ＴｏｐｏｌｏｇｙＮｅｔでは、モデルは、検証セットと訓練セットの組合せで訓練され、テストセットで直接評価された。ＴｏｐｏｌｏｇｙＮｅｔの性能は、したがって、訓練－検証－試験の分割というよりは、訓練－検証タイプの分割を反映しており、このことが、その方法の性能を増長させた可能性が高い。表ＩＶ～ＶＩは、量子特性、毒性、および溶解度の予測の比較結果を示している。

【表1】

【表2】

【表3】

【表4】

【表5】

【表6】

【表7】

【0119】

これらの例は、特許請求される本発明を例示するために、ただし制限するためではなく与えられる。

【0120】

空間グラフ畳み込みによる分子動力学
ニューラルネットワーク界は、敵対的生成ネットワーク（ＧＡＮ）や変分オートエンコーダ（ＶＡＥ）などの生成モデルにより多くのリソースを投資しているが、自然科学は、１７世紀から生成モデルの系列、すなわち物理学を研究してきた。光学物理学は、生体高分子およびそれらに結合する小分子薬物のリアルタイムの原子分解能挙動の観察を除外する。量子力学（ＱＭ）は、そのような実験による観察に基本的な制限を課すが、その数学的フレームワークの知識によっても、任意の精度でそのような原子論的挙動を理論的にモデル化する能力が与えられる。

【0121】

３つの運動の法則および単純な逆二乗の法則のポテンシャルを前提とした最初のニュートン力学は、初期条件を与えられたときの、物体の将来の位置の非常に正確な予測を可能にした。２０世紀になって、マイクロおよびナノスケールの現象の測定がより普及するのに伴い、原子スケール以下（subatomic）の系、原子系および分子系の長期間の挙動（確率論的であっても）を予測する際のそれまでにない精度を実現するために、量子力学が発明された。

【0122】

分子動力学（ＭＤ）は、ニュートン近似を基礎となるシュレディンガー方程式に合わせることにより、分子のそのような理論的解明を、純粋なＱＭよりも計算的に扱いやすいものにする技術の系列である。分子系の調査には２つの基本的なトレードオフが存在し、それらは、分子の実験による観察における空間解像度と時間解像度との間のトレードオフ、および、系内のすべての原子を明示的にモデル化する計算方法の速度と精度との間のトレードオフである。分子動力学は、ニュートン力学を使用して、より現実的であるが評価に時間を要する量子力学で具体化される物理モデルを近似するタイプのシミュレーションである。分子動力学における不正確性は、主として、系内の原子の位置に基づくポテンシャルエネルギー関数の不正確性である力場誤差と、不十分なシミュレーションの時間スケールとに起因する。

【0123】

本発明のいくつかの実施形態に係るシステムおよび方法は、分子系について、エネルギー、およびしたがって力場のより正確な推定を開発するためのフレームワークを提供する。本発明のいくつかの実施形態に係るプロセスは、空間グラフ畳み込みを展開して、小有機分子の挙動をより正確に表すように、ＡｓｓｉｓｔｅｄＭｏｄｅｌＢｕｉｌｄｉｎｇｗｉｔｈＥｎｅｒｇｙＲｅｆｉｎｅｍｅｎｔ（ＡＭＢＥＲ）関数形式を再パラメーター化する。本発明の一部の実施形態に係るプロセスは、個々のアミノ酸および塩基からタンパク質および核酸までの任意の所与のクエリ生体分子系について、新しいパラメーターを自動的に生成することができる。ある特定の実施形態において、プロセスは、グラフ畳み込みを展開して、ここ数十年間にＭＤシミュレーションを支配してきたＡＭＢＥＲ関数形式に基づく新しい力場を訓練することができる。いくつかの実施形態においては、深層ニューラルネットワーク（ＤＮＮ）を利用して、固定された単純な初期特徴化および原子の動的な相対位置に由来する、区別可能な学習された原子タイプに基づいてエネルギーを算出する新しい関数形式を学習することができる。ある特定の実施形態においては、上記のもののなどの空間グラフ畳み込みに基づいて、ポテンシャルエネルギー関数を構築し、評価することができる。本発明のある特定の実施形態に係るグラフ畳み込みポテンシャル（ＧＣＰ）モデルは、小分子のセットの複数の配座異性体についてのエネルギーの高水準の量子力学的計算からなるデータセットで、訓練および評価することができる。本発明の各種実施形態に従って逆伝播を用いて算出されるこのエネルギー関数の勾配が、ＡＭＢＥＲ関数形式の本質的な制限による制約を受けない、さらに正確な分子動態シミュレーションのための基盤を形成することができる。

【0124】

非常に広く使用されるＡＭＢＥＲ関数形式は、量子力学計算、ＮＭＲ、および他の経験的データの組合せを使用してＡＭＢＥＲおよびＣＨＡＲＭＭ力場に適合される。関数形式は次のように記載される。

【数28】

【0125】

スカラー出力Ｖ（ｒ^Ｎ）は、原子の位置、原子の「タイプ」、ならびにそれらの原子およびそれらの２つ組（結合、ファンデルワールス力、静電力）、３つ組（角度）、および４つ組（二面角）に関連するパラメーターの関数であるポテンシャルエネルギーである。一部の実施形態においては、ニューラルネットワークが訓練される。本発明のいくつかの実施形態に係るニューラルネットワークは、入力として初期特徴テンソル（ｘ，Ａ，Ｒ）を受け取り、ポテンシャルエネルギーを最も正確に算出するように（１６）のパラメーターを算出することができ、ここで、ｘは、Ｎ個の原子の各々が

【数29】

個の特徴からなる行ベクトルによって表される

【数30】

行列であり、Ａは、Ｎ_ｅｔ個のエッジタイプ（結合タイプ、非共有結合相互作用等）間の隣接行列のＮ×Ｎ×Ｎ_ｅｔテンソルであり、Ｒは、Ｎ×Ｎ距離行列である。

【0126】

ある特定の実施形態において、プロセスは、従来の力場における離散的な「原子タイプ」と似た、各原子についての、密で、区別可能な特徴マップを導出することができる。一部のそのような実施形態においては、データセット（ＡＮＩ－１データセットなど）を利用して、データセットでのその訓練に基づいて、「特徴化」（電荷、平衡結合長、角度、二面角、およびその力の定数）をアミノ酸およびその小分子に適用する新しいＡＭＢＥＲ様の力場（ＦＦ）を適合させることができる。最近公開されたＡＮＩ－１データセットは、量子化学法である密度汎関数法（ＤＦＴ）を通じて算出された、およそ６０，０００の小有機分子にわたって分散した合計およそ２０００万個のコンフォメーションおよびそれに関連するエネルギー値を備えている。ある特定の実施形態において、完全ＰｏｔｅｎｔｉａｌＮｅｔもしくはグラフ畳み込みポテンシャルに厳密に基づくものであれ、またはパラメーターがグラフ畳み込みから導出されるＡＭＢＥＲ関数形式に基づくものであれ、力場を、量子化学計算からのデータ（例えばＡＮＩ－１データセット）、ＮＭＲ実験データ等を用いて訓練することができる。所与の小分子について、ｘおよびＡは固定されるが、Ｒは配座異性体ごとに変動する。本発明の多くの実施形態に係る空間グラフ畳み込みは、原子レベルの特徴を学習することができ、そこでは、これら原子レベルの特徴は、従来の力場で一般的な「原子タイプ」と同じように、連続し、区別可能である。
ステージ１：

【数31】

ステージＳ：

【数32】

パラメーターへの原子特徴マップのマッピング

【数33】

ここで、ｑ_ｉ＝ＣｈａｒｇｅＮＮ（ｈ_ｉ ^{（ｓｐａｔｉａｌ）}）は、点電荷を表す単一スカラーに、原子レベルの特徴の各行ベクトルをマッピングするニューラルネットワークであり、［Ｌ_ｉ，ｋ_ｉ］＝ＢｏｎｄＮＮ（ｈ_ｉ ^{（ｓｐａｔｉａｌ）}，ｈ_ｊ ^{（ｓｐａｔｉａｌ）}）は、連結された原子レベルの特徴の２つ組を、平衡結合長および力の定数にマッピングするニューラルネットワークであり、［θ_ｉ，χ_ｉ］＝ＡｎｇｌｅＮＮ（ｈ_ｉ ^{（ｓｐａｔｉａｌ）}，ｈ_ｊ ^{（ｓｐａｔｉａｌ）}，ｈ_ｋ ^{（ｓｐａｔｉａｌ）}）は、連結された原子レベルの特徴の３つ組を、平衡角度および力の定数にマッピングするニューラルネットワーク、連結された原子レベルの特徴の４つ組を、平衡二面角、振動数および／または振幅にマッピングするニューラルネットワーク、ならびに、連結された原子レベルの特徴の２つ組を、ファンデルワールス力にマッピングするニューラルネットワークである。基本的に、この新しいＡＭＢＥＲ様の力場における各パラメーターは、空間グラフ畳み込みの中間層（またはそれと等価に最後の層）で学習された原子特徴に基づくニューラルネットワークを用いて学習することができる。各種実施形態において、離散したエッジタイプが、空間グラフ畳み込みに使用され得る。

【0127】

訓練セットに存在しない新しい分子について、本発明のいくつかの実施形態に係るプロセスは、１回の順方向パスにおいて、固定された特徴化ｘ，Ａを入力し、点電荷と、ＯｐｅｎＭＭ、ＡＭＢＥＲ、ＤＥＳＭＯＮＤおよびＧＲＯＭＡＣＳなどの（ただしそれらに限定されない）分子動態シミュレーションパッケージでＭＤシミュレーションを行うのに必要な他のパラメーターとを出力する。追加的な計算ステップは、力場ファイルの自動化された生成であり得るが、これは比較的単純な実施である。
完全グラフ畳み込みポテンシャル
多くの実施形態において、システムおよび方法は、グラフ畳み込みアーキテクチャを前提とする深層ニューラルネットワークとして全面的に訓練された、完全に新しいポテンシャルエネルギー関数形式を利用する。グラフ理論の文献において、ノードごとのスカラーまたはベクトルを表す「ノードレベルの出力」は、グラフ内の全ノードおよびエッジの関数である単一のスカラーまたはベクトルである「グラフレベルの出力」から区別される。一部の実施形態において、グラフレベルの出力は、次のように、原子／ノードの順序付けに対して不変である「グラフ集約」層を通じて達成することができる。

【数34-1】

ここで、最終的な重み行列

【数34-2】

は、最終的な出力ｈ^{（ｏｕｔｐｕｔ）}の所望される次元と同じ数の行を有する。

【0128】

最終的な出力がスカラー値であり、かつ空間グラフ畳み込みモデル（またはＰｏｔｅｎｔｉａｌＮｅｔ）が、ラベルとしてのエネルギー値に接続された入力分子系を用いて訓練される場合、本発明の一部の実施形態に係るモデルは、ポテンシャルエネルギー関数として扱うことができる。

【数35】

【0129】

本発明のいくつかの実施形態に係るポテンシャルエネルギーφ（ｘ，Ａ，Ｒ）の算出は、各グラフ畳み込み層ごとに、

【数36】

回の計算を必要とする。分子シミュレーション界で使用される技術であるネイバー列挙を使用しないと、この計算コストは、

【数37】

まで上がり得る。Ｎ個の原子各々について、グラフ畳み込み層当たりの全体メッセージを得るために、前者の場合はＮ_{ｎｅｉｇｈｂｏｒｓ}または後者の場合はＮ－１のいずれかのフィードフォーワードニューラルネットワークを算出しなければならない。

【0130】

ＡＭＢＥＲ力場関数形式は、生体高分子および小分子の動態、ならびにそれらの間の相互作用の解明を成功裏に可能にした。一部の実施形態において、総ポテンシャルエネルギーの算出は、次のように、ＡＭＢＥＲ関数形式（ＧＡＦＦを初期の推測として、固定されたパラメーターまたは学習可能なパラメーターのいずれかを用いる）と空間グラフ畳み込み（またはＰｏｔｅｎｔｉａｌＮｅｔ）との和として計算される。

【数38】

【0131】

一部の実施形態においては、ＡＭＢＥＲ関数形式と空間グラフ畳み込み（またはＡｍｂｅｒＮｅｔ）との組合せが構想される。

【数39】

【0132】

いくつかの実施形態において、そのようなハイブリッド方式におけるネットワークパラメーターの総数は、原子特徴ｈ^{（ｓｐａｔｉａｌ）}を導出する中間層を共有することによって低減することができる。

【0133】

分子の各コンフォメーションを特徴化することは、（ａ）各エレメントおよびそのハイブリッド形成タイプのｏｎｅ－ｈｏｔ特徴と同程度に単純であり得る原子レベルの特徴、（ｂ）結合の隣接テンソル、および（ｃ）原子間距離を要し得る。いくつかの実施形態において、ニューラルネットワークリグレッサーが、入力ｘ，Ａおよび各配座異性体のＲをエネルギーにマッピングするように、ＰｏｔｅｎｔｉａｌＮｅｔに基づいて訓練される。本発明のいくつかの実施形態に係る交差検証戦略は、ランダム、時間（利用可能な場合）、足場、およびＳＭＩＬＥＳ距離凝集分割を含むが、それらに限定されない。ここでの目的は、実験誤差またはＤＦＴ誤差と同等の、最新技術水準のエネルギー推定を達成することであるべきである。

【0134】

一部の実施形態において、ＰｏｔｅｎｔｉａｌＮｅｔ（ｘ，Ａ，Ｒ）を（例えばＡＮＩ－１および／または配座異性体をエネルギー値にマッピングする他のデータセットを用いて）訓練した後、

【数40】

をもたらすようにそのようなモデルのパラメーターを固定することができる。

【0135】

ニュートン系では、原子に対する力を次のように書くことができる。

【数41】

【0136】

ある特定の実施形態において、勾配

【数42】

は、多数の深層ニューラルネットワークソフトウェアパッケージによって実装される逆伝播アルゴリズムを用いて算出することができる。入力特徴ｘ、入力隣接行列Ａ、および初期位置Ｒ_０を与えられると、エネルギーの初期推定値

【数43】

は、ネットワークの１回の順方向パスによって得ることができる。次いで、逆伝播が、Ｒに符号化された座標についての最初の派生情報をもたらす。その後、

【数44】

に符号化された勾配情報を本発明の一部の実施形態に従って使用して、エネルギー

【数45】

を低減させるようにＮ個の原子の位置を移動することができる。原子間距離行列Ｒは、特徴として入力され得るが、いくつかの実施形態においては、初期の３次元位置ｘ，ｙ，ｚが入力特徴の役目を果たすことができ、そして、Ｒは、ニューラルネットワーク内で区別可能に容易に算出することができる。本発明の多くの実施形態に係る勾配は、各原子のｘ，ｙ，ｚ位置を更新するために、何らかの小さいステップサイズと共に使用され得る。その後、一部の実施形態において、勾配は、更新された座標および得られた距離行列Ｒ_１

【数46】

を用いて再算出することができ、位置を再度更新することができ、プロセスは、算出された力

【数47】

が一定の許容差未満になるまで反復的に継続することができる。

【0137】

ニュートン系では、運動の方程式を次のように書くことができる。

【数48】

【0138】

本発明の多くの実施形態に係るプロセスは、何らかの初期座標（および関連する原子間距離行列Ｒ_０）を与えられると、速度Ｖｅｒｌｅｔアルゴリズムを含む（ただしそれらに限定されない）各種方法を使用して、原子の位置を伝播することができる。初期速度は、マックスウェル・ボルツマン分布などの（ただしそれらに限定されない）統計力学技術によって決定することができるのに対し、初期位置は、結晶学とエネルギー最小化との組合せを通じて決定することができる。本発明のいくつかの実施形態に係るエネルギー最小化は、上記のものなどの方法を用いて行うことができる。ある特定の実施形態において、訓練データセットは、異なる配座異性体に水分子を含んでおらず、したがって、ＴＩＰ３Ｐまたは同様のポテンシャルを（２５）の

【数49】

に加えることが望ましい可能性がある。

【0139】

多数の実施形態において、第１のＭＤシミュレーションを二面角空間においてＧＣＰのみを用いて行うことが望ましい可能性がある。一部の生物物理学者により、生物学的に関連性のある高分子の動態の多くは、回転可能な結合の二面運動のみに起因することが主張されてきた。二面角、またはねじれ角は、４つの結合原子の連続した系列によって定義される２つの平面間の角度によって定義される。分子シミュレーションを二面角空間に制約するための複数の方式がある。第１に、一部の実施形態において、ポテンシャルの勾配は、次のように、ｄ個の二面角θに関して直接取ることができる。

【数50】

【0140】

そして、本発明の一部の実施形態に係るプロセスは、二面角／内部座標空間微分係数を、未加工のｘ、ｙ、ｚ座標における微分係数に伝播するためのさらなる微分係数を算出することができる。当業者は、二面角空間内でＭＤを行うためには多数の方法があることを認識されよう。

【0141】

様々な実施形態において、ＰｏｔｅｎｔｉａｌＮｅｔまたはそれに代えてＡｍｂｅｒＮｅｔいずれかからの完全グラフ畳み込みエネルギーを、分子ドッキングエネルギー関数のための基盤として使用することができる。多数の実施形態において、所与のリガンドの所与のコンフォメーションをある配向にシードすることにより、エネルギー最小化または確率論的動態シミュレーションのいずれかを使用して、受容体におけるリガンドの全体的エネルギーが最小のコンフォメーション、またはドッキング態勢を予測することができる。上記で説明したように、ＰｏｔｅｎｔｉａｌＮｅｔの異なる変形を使用して、所与のリガンド－タンパク質相互作用の結合自由エネルギー／結合親和性／効力を予測することができる。一部の実施形態において、プロセスは、ＰｏｔｅｎｔｉａｌＮｅｔの純粋なグラフ畳み込み形態を、ＡｍｂｅｒＮｅｔ様ポテンシャルと組み合わせることができる。結合エネルギーを、

【数51】

として算出することにより、コンフォメーションエントロピー、ねじれひずみ項、分子内衝突といった概念、および古典的な分子ドッキング方式からの他の概念を取り込むことができるが、それらのパラメーターを、深層ニューラルネットワークを用いて導出することができる。多数の実施形態において、グラフ畳み込みは、生体分子系の集団的動態を監視および駆動するための反応座標を算出するための自然関数形式とすることができる。

【0142】

本発明について特定の具体的態様において説明したが、当業者には多くの追加の変更および変更が明らかであろう。したがって、本発明は具体的に説明された以外のやり方で実施されてもよいことが理解されるべきである。よって、本発明の実施形態は、あらゆる点において例示的なものであり、制限的なものではないとみなすべきである。

【図1】