特表2024-537793 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アトムワイズ，インコーポレイテッドの特許一覧

特表2024-537793負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2A
2B
2C
2D
2E
2F
2G
2H
2I
3
4
5
6
7
8
9A
9B
9C
10
11
12
13
14
15
16A
16B
17
18
19
20
21
22
23
24

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-16

(54)【発明の名称】負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け

(51)【国際特許分類】

G16B 15/30 20190101AFI20241008BHJP

G16B 40/00 20190101ALI20241008BHJP

【ＦＩ】

G16B15/30

G16B40/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024519522

(86)(22)【出願日】2022-09-29

(85)【翻訳文提出日】2024-05-15

(86)【国際出願番号】 US2022045250

(87)【国際公開番号】W WO2023055949

(87)【国際公開日】2023-04-06

(31)【優先権主張番号】63/251,142

(32)【優先日】2021-10-01

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】516331306

【氏名又は名称】アトムワイズ，インコーポレイテッド

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】グニエウェク，パーヴェル

(72)【発明者】

【氏名】ウォーリー，ブラッド

(72)【発明者】

【氏名】アンダーソン，ブランドン

(72)【発明者】

【氏名】スタッフォード，ケイト

(72)【発明者】

【氏名】ミシンガー，マイケル

(57)【要約】

試験化合物とポリマーとの間の相互作用を特徴付けるためのシステム及び方法は、ポリマーの配位、及び化合物の訓練データセットを使用する。各化合物は、正の相互作用スコアを有する標的ポリマー配位に関する正のポーズと、標的ポリマー配位及び負の相互作用スコアに関する化合物の負のポーズと、を有する。モデルは、各化合物に対して、少なくとも（ｉ）化合物の正の相互作用スコアに対する、モデルへの入力としての正のポーズの正のスコアと、（ｉｉ）化合物の負の相互作用スコアに対する、モデルへの入力としての負のポーズの負のスコアと、を適用することによって訓練され、それによって、モデルのパラメータを調整する。次に、モデルの出力は、少なくとも部分的に、試験化合物とポリマーとの間の相互作用を特徴付けるために使用される。
【選択図】なし

【特許請求の範囲】

【請求項1】

試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのコンピュータシステムであって、前記コンピュータシステムが、
１つ以上のプロセッサと、
前記１つ以上のプロセッサによってアドレス指定可能なメモリと、を備え、前記メモリが、前記１つ以上のプロセッサによる実行のための少なくとも１つのプログラムを記憶し、前記少なくとも１つのプログラムが、
（Ａ）前記標的ポリマーの複数の原子座標を取得することであって、前記複数の原子座標が、少なくとも４００個の原子の原子座標を含む、複数の原子座標を取得することと、
（Ｂ）複数の訓練化合物における各訓練化合物のそれぞれの電子記述を含む訓練データセットを取得することであって、前記複数の訓練化合物が、少なくとも１００個の化合物を含み、各それぞれの電子記述が、
（ｉ）対応する第１の正の相互作用スコアと結合された複数の原子空間座標に関する対応する前記訓練化合物の対応する正のポーズと、
（ｉｉ）対応する第１の負の相互作用スコアと結合された前記複数の原子空間座標に関する前記対応する訓練化合物の対応する負のポーズと、を含む、訓練データセットを取得することと、
（Ｃ）少なくとも第１のモデルを訓練することであって、前記第１のモデルが、第１の複数のパラメータを有し、前記第１の複数のパラメータが、４００個よりも多いパラメータを含み、前記訓練が、前記複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも
（ｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第１の正の相互作用スコアに対する、前記第１のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの対応する正のスコアと、
（ｉｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第１の負の相互作用スコアに対する、前記第１のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの対応する負のスコアと、を使用し、それによって、前記第１の複数のパラメータを調整し、少なくとも前記第１のモデルの出力が、少なくとも部分的に、前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けを提供するために使用される、訓練することと、を行うための命令を含む、コンピュータシステム。

【請求項2】

前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコアが、
前記対応する正のポーズにおける前記標的ポリマーに関する前記対応する訓練化合物の対応する正のボクセルマップを取得することと、
前記対応する正のボクセルマップを、対応する正のベクトルに展開することと、
前記対応する正のベクトルを、重畳型ニューラルネットワークに入力することと、を行うことによって取得され、それによって、前記対応する正のポーズの前記対応する正のスコアを取得し、前記重畳型ニューラルネットワークが、５００個よりも多いパラメータを含み、
前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアが、
前記対応する負のポーズにおける前記標的ポリマーに関する前記対応する訓練化合物の対応する負のボクセルマップを取得することと、
前記対応する負のボクセルマップを、対応する負のベクトルに展開することと、
前記対応する負のベクトルを、前記重畳型ニューラルネットワークに入力し、それによって、前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアを取得することと、によって取得される、請求項１に記載のコンピュータシステム。

【請求項3】

前記対応する正のベクトルが、第１の一次元ベクトルであり、
前記対応する負のベクトルが、第２の一次元ベクトルである、請求項２に記載のコンピュータシステム。

【請求項4】

前記第１のモデルが、第１の完全接続ニューラルネットワークである、請求項１～３のいずれか一項に記載のコンピュータシステム。

【請求項5】

前記訓練が、前記第１の複数のパラメータが、関連付けられた損失関数を通した逆伝播によって調整される、回帰タスクであり、
前記対応する第１の正の相互作用スコアが、以下の式によって、前記対応する第１の負の相互作用スコアに関係付けられており、
Ｂ＝Ｎ×Ａ、
式中、
Ａは、対応する前記正の相互作用スコアであり、
Ｂは、対応する前記負の相互作用スコアであり、
Ｎは、ゼロ超かつ１未満の実数である、請求項１～４のいずれか一項に記載のコンピュータシステム。

【請求項6】

前記関連付けられた損失関数が、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数である、請求項５に記載のコンピュータシステム。

【請求項7】

前記対応する第１の正の相互作用スコア及び前記対応する第１の負の相互作用スコアが、各々、結合係数を表し、
前記対応する第１の正の相互作用スコアが、前記標的ポリマーに対する前記対応する訓練化合物の前記結合係数のインビトロ測定値である、請求項５に記載のコンピュータシステム。

【請求項8】

前記第１の正の相互作用スコアが、前記標的ポリマーに関するそれぞれの前記訓練化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩである、請求項７に記載のコンピュータシステム。

【請求項9】

前記対応する第１の正の相互作用スコア及び前記対応する第１の負の相互作用スコアが、各々、前記標的ポリマーに対する前記対応する訓練化合物の結合係数又はインシリコポーズ品質スコアを表す、請求項１～４のいずれか一項に記載のコンピュータシステム。

【請求項10】

前記訓練データセット内の各それぞれの電子記述が、前記対応する訓練化合物の前記対応する正のポーズの対応する正の活性スコアと、前記対応する訓練化合物の前記対応する負のポーズの対応する負の活性スコアと、を更に含み、
少なくとも前記第１のモデルを前記訓練すること（Ｃ）が、第２のモデルを前記第１のモデルと共同で訓練することを更に含み、前記第２のモデルが、第２の複数のパラメータを有し、前記訓練が、前記複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも
（ｉｉｉ）前記対応する訓練化合物の前記対応する正の活性スコアに対する、前記第２のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコアと、
（ｉｖ）前記対応する訓練化合物の前記対応する負の活性スコアに対する、前記第２のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアと、を更に使用し、それによって、前記第２の複数のパラメータを調整し、前記第２のモデルが、少なくとも部分的に、前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けを提供するために、前記第１のモデルの前記出力とともに使用される前記試験化合物と前記標的ポリマーとの間の前記相互作用の活性を提供する、請求項１～９のいずれか一項に記載のコンピュータシステム。

【請求項11】

前記第２のモデルが、第２の完全接続ニューラルネットワークである、請求項１０に記載のコンピュータシステム。

【請求項12】

前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けが、バイナリ活性スコアである、請求項１～１１のいずれか一項に記載のコンピュータシステム。

【請求項13】

前記訓練データセット内の各それぞれの電子記述が、前記対応する訓練化合物の前記対応する正のポーズの対応する正の活性スコアと、前記対応する訓練化合物の前記対応する負のポーズの対応する負の活性スコアと、を更に含み、
少なくとも前記第１のモデルを前記訓練すること（Ｃ）が、第２のモデルを前記第１のモデルと共同で訓練することを更に含み、前記第２のモデルが、第２の複数のパラメータを有し、前記訓練が、前記複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも
（ｉｉｉ）前記対応する訓練化合物の前記対応する正の活性スコアに対する、前記第２のモデルへの結合入力としての前記標的ポリマー及び前記対応する第１の正の相互作用スコアに関する前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコアと、
（ｉｖ）前記対応する訓練化合物の前記対応する負の活性スコアに対する、前記第２のモデルへの結合入力としての前記標的ポリマー及び前記対応する第１の負の相互作用スコアに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアと、を更に使用し、それによって、前記第２の複数のパラメータを調整し、前記第２のモデルが、前記第１のモデルの前記出力とともに、少なくとも部分的に、前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けを提供するために使用される、請求項１～１２のいずれか一項に記載のコンピュータシステム。

【請求項14】

前記対応する正の活性スコアが、第１のバイナリ活性スコアであり、前記対応する負の活性スコアが、第２のバイナリ活性スコアである、請求項１３に記載のコンピュータシステム。

【請求項15】

対応する前記第１のバイナリ活性スコアが、前記標的ポリマーに対する前記対応する化合物の測定された活性に基づいて、１の値を割り当てられており、
対応する前記第２のバイナリ活性スコアが、０の値を割り当てられている、請求項１４に記載のコンピュータシステム。

【請求項16】

前記第１のモデルの前記訓練が、前記第１の複数のパラメータが、第１の関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクであり、
前記第２のモデルの前記訓練が、前記第２の複数のパラメータが、第２の関連付けられた損失関数を通した逆伝播によって調整されている、分類タスクである、請求項１３に記載のコンピュータシステム。

【請求項17】

前記対応する第１の正の相互作用スコア及び前記対応する第１の負の相互作用スコアが、各々、前記標的ポリマーに対する前記対応する訓練化合物の結合係数又はインシリコポーズ品質スコアを表し、
前記対応する正の活性スコアが、第１のバイナリ活性スコアであり、前記対応する負の活性スコアが、第２のバイナリ活性スコアである、請求項１６に記載のコンピュータシステム。

【請求項18】

前記第１の関連付けられた損失関数が、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、
前記第２の関連付けられた損失関数が、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数である、請求項１６又は１７に記載のコンピュータシステム。

【請求項19】

前記第２のモデルが、第２の完全接続ニューラルネットワークである、請求項１３～１８のいずれか一項に記載のコンピュータシステム。

【請求項20】

前記訓練データセット内の各それぞれの電子記述が、前記対応する訓練化合物の前記対応する正のポーズの対応する第２の正の相互作用スコアと、前記対応する訓練化合物の前記対応する負のポーズの対応する第２の負の相互作用スコアと、を更に含み、
前記訓練データセット内の各それぞれの電子記述が、前記対応する訓練化合物の前記対応する正のポーズの対応する正の活性スコアと、前記対応する訓練化合物の前記対応する負のポーズの対応する負の活性スコアと、を更に含み、
少なくとも前記第１のモデルを前記訓練すること（Ｃ）が、第２のモデル及び第３のモデルを前記第１のモデルと共同で訓練することを更に含み、前記第２のモデルが、第２の複数のパラメータを有し、前記第３のモデルが、第３の複数のパラメータを有し、前記訓練が、前記複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも
（ｉｉｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第２の正の相互作用スコアに対する、前記第２のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコアと、
（ｉｖ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第２の負の相互作用スコアに対する、前記第２のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアであって、それによって、前記第２の複数のパラメータを調整する、対応する負のスコアと、
（ｖ）前記対応する訓練化合物の前記対応する正の活性スコアに対する、前記第３のモデルへの結合入力としての、前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコア、前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコアの入力時の前記第１のモデルの前記出力及び前記第２のモデルの前記出力と、
（ｖｉ）前記対応する訓練化合物の前記対応する負の活性スコアに対する、前記第３のモデルへの結合入力としての、前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコア、並びに前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアの入力時の前記第１のモデルの前記出力及び前記第２のモデルの前記出力と、を更に使用し、それによって、前記第３のモデルの前記第３の複数のパラメータを調整し、前記第３のモデルの出力が、前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けを提供する、請求項１に記載のコンピュータシステム。

【請求項21】

前記第２のモデルが、第２の完全接続ニューラルネットワークであり、
前記第３のモデルが、第３の完全接続ニューラルネットワークである、請求項２０に記載のコンピュータシステム。

【請求項22】

前記対応する正の活性スコアが、第１のバイナリ活性スコアであり、前記対応する負の活性スコアが、第２のバイナリ活性スコアである、請求項２０又は２１に記載のコンピュータシステム。

【請求項23】

前記対応する第１のバイナリ活性スコアが、前記標的ポリマーに対する前記対応する化合物の測定された活性に基づいて、１の値を割り当てられており、
前記対応する第２のバイナリ活性スコアが、０の値を割り当てられている、請求項２２に記載のコンピュータシステム。

【請求項24】

前記第１のモデルの前記訓練が、前記第１の複数のパラメータが、第１の関連付けられた損失関数を通した逆伝播によって調整されている、第１の回帰タスクであり、
前記第２のモデルの前記訓練が、前記第２の複数のパラメータが、第２の関連付けられた損失関数を通した逆伝播によって調整されている、第２の回帰タスクであり、
前記第３のモデルの前記訓練が、前記第３の複数のパラメータが、第３の関連付けられた損失関数を通した逆伝播によって調整されている、分類タスクである、請求項２０に記載のコンピュータシステム。

【請求項25】

前記対応する第１の正の相互作用スコア及び前記対応する第１の負の相互作用スコアが、各々、前記標的ポリマーに対する前記対応する訓練化合物のインシリコポーズ品質スコアを表し、
前記対応する第２の正の相互作用スコア及び前記対応する第２の負の相互作用スコアが、各々、前記標的ポリマーに対する前記対応する訓練化合物の結合係数を表し、
前記対応する正の活性スコアが、第１のバイナリ活性スコアであり、前記対応する負の活性スコアが、第２のバイナリ活性スコアである、請求項２４に記載のコンピュータシステム。

【請求項26】

前記第１の関連付けられた損失関数が、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、
前記第２の関連付けられた損失関数が、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、
前記第３の関連付けられた損失関数が、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数である、請求項２５に記載のコンピュータシステム。

【請求項27】

前記ポリマーが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、又はそれらの任意の組み合わせのアセンブリである、請求項１～２６のいずれか一項に記載のコンピュータシステム。

【請求項28】

前記複数の原子座標が、分解能２．５Å以上又は分解能３．３Å以上で分解された前記標的ポリマーの結晶構造の三次元座標のセット｛ｘ_１、…、ｘ_Ｎ｝である、請求項１～２７のいずれか一項に記載のコンピュータシステム。

【請求項29】

前記標的ポリマーの前記複数の原子座標が、核磁気共鳴、中性子回折、又は低温電子顕微鏡によって判定された前記標的ポリマーの三次元座標の集合体を含む、請求項１～２７のいずれか一項に記載のコンピュータシステム。

【請求項30】

前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けが、バイナリスコアであり、
前記バイナリスコアの第１の値が、第１の閾値を上回る前記標的ポリマーに関する前記試験化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩを表し、
前記バイナリスコアの第２の値が、前記第１の閾値を下回る前記標的ポリマーに関する前記試験化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩを表す、請求項１に記載のコンピュータシステム。

【請求項31】

前記訓練データセット内の各訓練化合物が、リピンスキーのルールオブファイブ：（ｉ）５個以下の水素結合ドナー、（ｉｉ）１０個以下の水素結合アクセプター、（ｉｉｉ）５００ダルトン未満の分子量、及び（ｉｖ）５未満のＬｏｇＰ、のうちの２つ以上のルール、３つ以上のルール、又は４つのルール全てを満たす、請求項１～３０のいずれか一項に記載のコンピュータシステム。

【請求項32】

前記訓練データセット内の各訓練化合物が、５００ダルトン未満、１０００ダルトン未満、２０００ダルトン未満、４０００ダルトン未満、６０００ダルトン未満、８０００ダルトン未満、１００００ダルトン未満、又は２００００ダルトン未満の分子量を有する有機化合物である、請求項１～３０のいずれか一項に記載のコンピュータシステム。

【請求項33】

前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの前記対応する正のスコアが、前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズを前記重畳型ニューラルネットワークに入力すると、重畳型ニューラルネットワークから取得され、
前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの前記対応する負のスコアが、前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズを前記重畳型ニューラルネットワークに入力すると、前記重畳型ニューラルネットワークから取得される、請求項１に記載のコンピュータシステム。

【請求項34】

前記重畳型ニューラルネットワークが、グラフ重畳型ニューラルネットワーク、等変量ニューラルネットワーク、又はメッセージパッシングニューラルネットワークである、請求項３３に記載の方法コンピュータシステム。

【請求項35】

試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法であって、前記方法が、
メモリを備えるコンピュータシステムにおいて、
（Ａ）前記標的ポリマーの複数の原子座標を取得することであって、前記複数の原子座標が、少なくとも４００個の原子の原子座標を含む、複数の原子座標を取得することと、
（Ｂ）複数の訓練化合物における各訓練化合物のそれぞれの電子記述を含む訓練データセットを取得することであって、前記複数の訓練化合物が、少なくとも１００個の化合物を含み、各それぞれの電子記述が、
（ｉ）対応する第１の正の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する正のポーズと、
（ｉｉ）対応する第１の負の相互作用スコアと結合された前記複数の原子空間座標に関する前記対応する訓練化合物の対応する負のポーズと、を含む、訓練データセットを取得することと、
（Ｃ）少なくとも第１のモデルを訓練することであって、前記第１のモデルが、第１の複数のパラメータを有し、前記第１の複数のパラメータが、４００個よりも多いパラメータを含み、前記訓練が、前記複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも
（ｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第１の正の相互作用スコアに対する、前記第１のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの対応する正のスコアと、
（ｉｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第１の負の相互作用スコアに対する、前記第１のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの対応する負のスコアと、を使用し、それによって、前記第１の複数のパラメータを調整し、少なくとも前記第１のモデルの出力が、少なくとも部分的に、前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けを提供するために使用される、訓練することと、を含む、方法。

【請求項36】

非一時的なコンピュータ可読記憶媒体であって、前記非一時的なコンピュータ可読記憶媒体が、コンピュータシステムによって実行されるときに、前記コンピュータシステムに、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を実行させる命令を記憶し、前記方法が、
（Ａ）前記標的ポリマーの複数の原子座標を取得することであって、前記複数の原子座標が、少なくとも４００個の原子の原子座標を含む、複数の原子座標を取得することと、
（Ｂ）複数の訓練化合物における各訓練化合物のそれぞれの電子記述を含む訓練データセットを取得することであって、前記複数の訓練化合物が、少なくとも１００個の化合物を含み、各それぞれの電子記述が、
（ｉ）対応する第１の正の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する正のポーズと、
（ｉｉ）対応する第１の負の相互作用スコアと結合された前記複数の原子空間座標に関する前記対応する訓練化合物の対応する負のポーズと、を含む、訓練データセットを取得することと、
（Ｃ）少なくとも第１のモデルを訓練することであって、前記第１のモデルが、第１の複数のパラメータを有し、前記第１の複数のパラメータが、４００個よりも多いパラメータを含み、前記訓練が、前記複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも
（ｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第１の正の相互作用スコアに対する、前記第１のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する正のポーズの対応する正のスコアと、
（ｉｉ）前記標的ポリマーに関する前記対応する訓練化合物の前記対応する第１の負の相互作用スコアに対する、前記第１のモデルへの入力としての前記標的ポリマーに関する前記対応する訓練化合物の前記対応する負のポーズの対応する負のスコアと、を使用し、それによって、前記第１の複数のパラメータを調整し、少なくとも前記第１のモデルの出力が、少なくとも部分的に、前記試験化合物と前記標的ポリマーとの間の前記相互作用の前記特徴付けを提供するために使用される、訓練することと、を含む、非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、参照により本明細書に組み込まれる、２０２１年１０月１日に出願の「ＣＨＡＲＡＣＴＥＲＩＺＡＴＩＯＮＯＦＩＮＴＥＲＡＣＴＩＯＮＳＢＥＴＷＥＥＮＣＯＭＰＯＵＮＤＳＡＮＤＰＯＬＹＭＥＲＳＵＳＩＮＧＮＥＧＡＴＩＶＥＰＯＳＥＤＡＴＡＡＮＤＭＯＤＥＬＣＯＮＤＩＴＩＯＮＩＮＧ」と題された米国仮特許出願第６３／２５１，１４２号に対する優先権を主張する。

【0002】

本出願は、モデルを使用して、試験化合物と標的ポリマーとの間の相互作用を特徴付けることを対象とする。

【背景技術】

【0003】

基本的に、生物学的システムは、標的ポリマーを有する化合物などの分子の物理的相互作用を通して機能する。構造ベースの仮想高スループットスクリーニング（ｖＨＴＳ）機械学習方法が、機械学習アプローチを通して、候補（試験）化合物と標的ポリマーとの間の相互作用を特徴付けるために使用されている。そのような特徴付けは、例えば、連続的又は分類的な活性標識、ＰＫａ、又は任意の他の好適なメトリックを報告して、候補化合物と標的ポリマーとの間の相互作用を特徴付けることができる。

【0004】

ｖＨＴＳ機械学習方法の１つの欠点は、そのような方法で呼び出された機械学習モデルが、化合物と結合部位との間のポーズを解釈する方法である。モデルは、化合物及びポリマーについての構造情報が提供されているにも関わらず、これら２つを別々に表す。そのため、ポリマー及び化合物の識別を可能にする任意の提供されたポーズは、同じスコアを与える。モデルは、ポーズに対し非感受性である。図１９に示す。これは、重畳型ニューラルネットワークなどの機械学習モデルが、全ての正しい構成要素を持っているが、全体としては根本的に誤っているポーズを誤って選ぶ可能性がある、ピカソ問題に例示されている。図１８に示す。左側のポーズ及び右側のポーズは、どちらも同じ部分、２つの目、２つの眉毛、鼻、唇、及び頭の全体形状を有する。したがって、左側のポーズが正しいことを重畳型ニューラルネットワークに教えることは困難であることが分かる。このため、従来のｖＨＴＳ機械学習方法には、固有のポーズ非感受性が存在する。このようなポーズ非感受性は、試験化合物と標的ポリマーとの間の相互作用の誤った又は不正確な特徴付けにつながる可能性がある。例えば、このようなポーズ非感受性は、スクリーニングライブラリ内の各化合物の分類的な活性標識を提供するｖＨＴＳ機械学習アプローチに、スクリーニングライブラリ内の化合物の特定割合を誤って標識する可能性がある。

【0005】

上記の背景を考えると、当該技術分野で必要とされるのは、ｖＨＴＳ機械学習方法にポーズ感受性を与えるための方法である。

【発明の概要】

【0006】

本開示は、ｖＨＴＳ機械学習モデルがポーズ感受性であるように、それらをコンディショニングすることによって、背景技術で識別された問題に対処する。そのようなモデルは、それぞれの訓練化合物と標的ポリマーとの間の相互作用の特徴付けが既知である訓練化合物について訓練される。しかしながら、各そのような訓練化合物に対して、ｖＨＴＳ機械学習モデルは、訓練化合物の正のポーズ及び訓練化合物の負のポーズの両方について訓練され、そのような正のポーズ及び負のポーズは、独立したポーズ生成プロセスを使用して選択される。このようにして、ｖＨＴＳ機械学習モデルは、ポーズ感受性であるように訓練される。

【0007】

したがって、本開示の一態様は、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するためのコンピュータシステムである。コンピュータシステムは、１つ以上のプロセッサと、１つ以上のプロセッサによってアドレス指定可能なメモリと、を備える。メモリは、１つ以上のプロセッサによる実行のための少なくとも１つのプログラムを記憶する。いくつかの実施形態では、試験化合物と標的ポリマーとの間の相互作用の特徴付けは、バイナリ活性スコアである。いくつかの実施形態では、標的ポリマーは、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、又はそれらの任意の組み合わせのアセンブリである。本開示によれば、標的ポリマーの複数の原子座標が取得される。いくつかの実施形態では、複数の原子座標は、少なくとも４００個の原子の原子座標を含む。

【0008】

いくつかの実施形態では、複数の原子座標は、分解能２．５Å以上又は分解能３．３Å以上で分解された標的ポリマーの結晶構造の三次元座標のセット｛ｘ_１、…、ｘ_Ｎ｝である。

【0009】

いくつかの実施形態では、標的ポリマーの複数の原子座標は、核磁気共鳴、中性子回折、又は低温電子顕微鏡によって判定された標的ポリマーの三次元座標の集合体を含む。

【0010】

いくつかの実施形態では、試験化合物と標的ポリマーとの間の相互作用の特徴付けは、バイナリスコアであり、バイナリスコアの第１の値は、第１の閾値を上回る標的ポリマーに関する試験化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩを表し、バイナリスコアの第２の値は、第１の閾値を下回る標的ポリマーに関する試験化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩを表す。

【0011】

本開示によれば、複数の訓練化合物における各訓練化合物のそれぞれの電子記述を含む訓練データセットが取得される。いくつかの実施形態では、複数の訓練化合物は、少なくとも１００個の化合物を含む。各それぞれの電子記述は、（ｉ）対応する第１の正の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する正のポーズと、（ｉｉ）対応する第１の負の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する負のポーズと、を含む。

【0012】

いくつかの実施形態では、標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアは、対応する正のポーズにおける標的ポリマーに関する対応する訓練化合物の対応する正のボクセルマップを検索し、対応する正のボクセルマップを、対応する正のベクトルに展開し、及び対応する正のベクトルを、ニューラルネットワークに入力することによって取得され、それによって、対応する正のポーズの対応する正のスコアを取得する。いくつかの実施形態では、ニューラルネットワークは、５００個よりも多いパラメータを含む。いくつかのそのような実施形態では、対応する正のベクトルは、第１の一次元ベクトルである。

【0013】

いくつかの実施形態では、標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアは、対応する負のポーズにおける標的ポリマーに関する対応する訓練化合物の対応する負のボクセルマップを検索し、対応する負のボクセルマップを、対応する負のベクトルに展開し、及び対応する負のベクトルを、ニューラルネットワークに入力することによって取得され、それによって、標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアを取得する。

【0014】

いくつかのそのような実施形態では、対応する負のベクトルは、第２の一次元ベクトルである。

【0015】

いくつかの実施形態では、対応する第１の正の相互作用スコア及び対応する第１の負の相互作用スコアは、各々、標的ポリマーに対する対応する訓練化合物の結合係数又はインシリコポーズ品質スコアを表す。

【0016】

いくつかの実施形態では、訓練データセット内の各訓練化合物は、リピンスキーのルールオブファイブ：（ｉ）５個以下の水素結合ドナー、（ｉｉ）１０個以下の水素結合アクセプター、（ｉｉｉ）５００ダルトン未満の分子量、及び（ｉｖ）５未満のＬｏｇＰ、のうちの２つ以上のルール、３つ以上のルール、又は４つのルール全てを満たす。

【0017】

いくつかの実施形態では、訓練データセット内の各訓練化合物は、５００ダルトン未満、１０００ダルトン未満、２０００ダルトン未満、４０００ダルトン未満、６０００ダルトン未満、８０００ダルトン未満、１００００ダルトン未満、又は２００００ダルトン未満の分子量を有する有機化合物である。

【0018】

本開示によれば、少なくとも第１のモデルが訓練される。第１のモデルは、第１の複数のパラメータを有する。いくつかの実施形態では、第１の複数のパラメータは、４００個よりも多いパラメータを含む。訓練は、複数の訓練化合物中の各対応する訓練化合物４６に対して、少なくとも（ｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の正の相互作用スコアに対する、第１のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアと、（ｉｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の負の相互作用スコアに対する、第１のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアと、を使用し、それによって、第１の複数のパラメータを調整し、少なくとも第１のモデルの出力は、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用される。

【0019】

いくつかの実施形態では、第１のモデルは、第１の完全接続ニューラルネットワークである。

【0020】

いくつかの実施形態では、訓練は、第１の複数のパラメータが、関連付けられた損失関数を通した逆伝播によって調整される、回帰タスクである。そのような実施形態では、対応する第１の正の相互作用スコアは、式
Ｂ＝Ｎ×Ａ
によって、対応する第１の負の相互作用スコアに関係付けられており、式中、Ａは、対応する正の相互作用スコアであり、Ｂは、対応する負の相互作用スコアであり、Ｎは、ゼロ超かつ１未満の実数である（例えば、０．９０）。

【0021】

いくつかのそのような実施形態では、関連付けられた損失関数は、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数である。

【0022】

いくつかのそのような実施形態では、対応する第１の正の相互作用スコア及び対応する第１の負の相互作用スコアは、各々、結合係数を表し、対応する第１の正の相互作用スコアは、標的ポリマーに対する対応する訓練化合物の結合係数のインビトロ測定値である。

【0023】

いくつかのそのような実施形態では、第１の正の相互作用スコアは、標的ポリマーに関するそれぞれの訓練化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩである。

【0024】

いくつかの実施形態では、訓練データセット内の各それぞれの電子記述は、対応する訓練化合物の対応する正のポーズの対応する正の活性スコアと、対応する訓練化合物の対応する負のポーズの対応する負の活性スコアと、を更に含む。そのような実施形態では、少なくとも第１のモデルを訓練することは、第２のモデルを第１のモデルと共同で訓練することを更に含む。第２のモデルは、第２の複数のパラメータを有する。そのような訓練は、複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも（ｉｉｉ）対応する訓練化合物の対応する正の活性スコアに対する、第２のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアと、（ｉｖ）対応する訓練化合物の対応する負の活性スコアに対する、第２のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアと、を更に使用する。このようにして、第２の複数のパラメータは、第２のモデルが、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために、第１のモデルの出力とともに使用される、試験化合物と標的ポリマーとの間の相互作用の活性を提供するように、調整される。

【0025】

いくつかのそのような実施形態では、第２のモデルは、第２の完全接続ニューラルネットワークである。

【0026】

いくつかの実施形態では、訓練データセット内の各それぞれの電子記述は、対応する訓練化合物の対応する正のポーズの対応する正の活性スコアと、対応する訓練化合物の対応する負のポーズの対応する負の活性スコアと、を更に含む。そのような実施形態では、少なくとも第１のモデルを訓練することは、第２のモデルを第１のモデルと共同で訓練することを更に含み、第２のモデルは、第２の複数のパラメータを有する。そのような実施形態における訓練は、複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも（ｉｉｉ）対応する訓練化合物の対応する正の活性スコアに対する、第２のモデルへの結合入力としての標的ポリマー及び対応する第１の正の相互作用スコアに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアと、（ｉｖ）対応する訓練化合物の対応する負の活性スコアに対する、第２のモデルへの結合入力としての標的ポリマー及び対応する第１の負の相互作用スコアに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアと、を更に使用する。このようにして、第２の複数のパラメータは、第２のモデルが、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために、第１のモデルの出力とともに使用され得るように、調整される。

【0027】

いくつかのそのような実施形態では、対応する正の活性スコアは、第１のバイナリ活性スコアであり、対応する負の活性スコアは、第２のバイナリ活性スコアである。いくつかの実施形態では、対応する第１のバイナリ活性スコアは、標的ポリマーに対する対応する化合物の測定された活性に基づいて、１の値を割り当てられており、対応する第２のバイナリ活性スコアは、０の値を割り当てられている。いくつかのそのような実施形態では、第１のモデルの訓練は、第１の複数のパラメータが、第１の関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクであり、第２のモデルの訓練は、第２の複数のパラメータが、第２の関連付けられた損失関数を通した逆伝播によって調整されている、分類タスクである。いくつかのそのような実施形態では、対応する第１の正の相互作用スコア及び対応する第１の負の相互作用スコアは、各々、標的ポリマーに対する対応する訓練化合物の結合係数又はインシリコポーズ品質スコアを表し、対応する正の活性スコアは、第１のバイナリ活性スコアであり、対応する負の活性スコアは、第２のバイナリ活性スコアである。いくつかのそのような実施形態では、第１の関連付けられた損失関数は、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、第２の関連付けられた損失関数は、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数である。いくつかのそのような実施形態では、第２のモデルは、第２の完全接続ニューラルネットワークである。

【0028】

いくつかの実施形態では、訓練データセット内の各それぞれの電子記述は、対応する訓練化合物の対応する正のポーズの対応する第２の正の相互作用スコアと、対応する訓練化合物の対応する負のポーズの対応する第２の負の相互作用スコアと、を更に含む。そのような実施形態では、訓練データセット内のそれぞれの電子記述は、対応する訓練化合物の対応する正のポーズの対応する正の活性スコアと、対応する訓練化合物の対応する負のポーズの対応する負の活性スコアと、を更に含む。そのような実施形態では、少なくとも第１のモデルを訓練することは、第２のモデル及び第３のモデルを第１のモデルと共同で訓練することを更に含む。第２のモデルは、第２の複数のパラメータを有し、第３のモデルは、第３の複数のパラメータを有する。そのような実施形態では、複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも（ｉｉｉ）標的ポリマーに関する対応する訓練化合物の対応する第２の正の相互作用スコアに対する、第２のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアと、（ｉｖ）標的ポリマーに関する対応する訓練化合物の対応する第２の負の相互作用スコアに対する、第２のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアであって、それによって、第２の複数のパラメータを調整する、対応する負のスコアと、（ｖ）対応する訓練化合物の対応する正の活性スコアに対する、第３のモデルへの結合入力としての、標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコア、対応する訓練化合物の対応する正のポーズの対応する正のスコアの入力時の第１のモデル及び第２のモデルの出力と、（ｖｉ）対応する訓練化合物の対応する負の活性スコアに対する、第３のモデルへの結合入力としての、標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコア、並びに対応する訓練化合物の対応する負のポーズの対応する負のスコアの入力時の、第１のモデル及び第２のモデルの出力と、を更に使用し、それによって、第３のモデルの第３の複数のパラメータを調整する。そのような実施形態では、第３のモデルの出力は、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供する。いくつかのそのような実施形態では、第２のモデルは、第２の完全接続ニューラルネットワークであり、第３のモデルは、第３の完全接続ニューラルネットワークである。いくつかのそのような実施形態では、対応する正の活性スコアは、第１のバイナリ活性スコアであり、対応する負の活性スコアは、第２のバイナリ活性スコアである。いくつかの実施形態では、対応する第１のバイナリ活性スコアは、標的ポリマーに対する対応する化合物の測定された活性に基づいて、１の値を割り当てられており、対応する第２のバイナリ活性スコアは、０の値を割り当てられている。いくつかのそのような実施形態では、第１のモデルの訓練は、第１の複数のパラメータが、第１の関連付けられた損失関数を通した逆伝播によって調整されている、第１の回帰タスクであり、第２のモデルの訓練は、第２の複数のパラメータが、第２の関連付けられた損失関数を通した逆伝播によって調整されている、第２の回帰タスクであり、第３のモデルの訓練は、第３の複数のパラメータが、第３の関連付けられた損失関数を通した逆伝播によって調整されている、分類タスクである。いくつかのそのような実施形態では、対応する第１の正の相互作用スコア及び対応する第１の負の相互作用スコアは、各々、標的ポリマーに対する対応する訓練化合物のインシリコポーズ品質スコアを表し、対応する第２の正の相互作用スコア及び対応する第２の負の相互作用スコアは、各々、標的ポリマーに対する対応する訓練化合物の結合係数を表し、対応する正の活性スコアは、第１のバイナリ活性スコアであり、対応する負の活性スコアは、第２のバイナリ活性スコアである。いくつかのそのような実施形態では、第１の関連付けられた損失関数は、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、第２の関連付けられた損失関数は、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、第３の関連付けられた損失関数は、バイナリクロスエントロピー損失関数、ヒンジ損失関数、二乗ヒンジ損失関数、又は第１の若しくは第２の関連付けられた損失関数として使用されるような本明細書に記載の任意の他の損失関数である。

【0029】

本開示の別の態様は、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を提供し、方法は、メモリを備えるコンピュータシステムにおいて、標的ポリマーの複数の原子座標を取得することを含む。いくつかの実施形態では、複数の原子座標は、少なくとも４００個の原子の原子座標を含む。訓練データセットが取得される。複数の訓練化合物における各訓練化合物のそれぞれの電子記述を含む訓練データセット。いくつかの実施形態では、複数の訓練化合物は、少なくとも１００個の化合物を含む。各それぞれの電子記述は、（ｉ）対応する第１の正の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する正のポーズと、（ｉｉ）対応する第１の負の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する負のポーズと、を含む。少なくとも第１のモデルが訓練され、第１のモデルは、第１の複数のパラメータを有する。いくつかの実施形態では、第１の複数のパラメータは、４００個よりも多いパラメータを含む。訓練は、複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも（ｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の正の相互作用スコアに対する、第１のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアと、（ｉｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の負の相互作用スコアに対する、第１のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアと、を使用する。このようにして、第１の複数のパラメータが調整される。訓練後、少なくとも第１のモデルの出力は、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用される。

【0030】

本開示の別の態様は、非一時的なコンピュータ可読記憶媒体を提供する。非一時的なコンピュータ可読記憶媒体は、コンピュータシステムによって実行されるときに、コンピュータシステムに、方法に従って、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を実行させる命令を記憶する。方法は、標的ポリマーの複数の原子座標を取得することを含む。いくつかの実施形態では、複数の原子座標は、少なくとも４００個の原子の原子座標を含む。複数の訓練化合物における各訓練化合物のそれぞれの電子記述を含む訓練データセットが取得される。複数の訓練化合物は、少なくとも１００個の化合物を含む。各それぞれの電子記述は、（ｉ）対応する第１の正の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する正のポーズと、（ｉｉ）対応する第１の負の相互作用スコアと結合された複数の原子空間座標に関する対応する訓練化合物の対応する負のポーズと、を含む。方法では、少なくとも第１のモデルが訓練される。第１のモデルは、第１の複数のパラメータを有する。いくつかの実施形態では、第１の複数のパラメータは、４００個よりも多いパラメータを含む。訓練は、複数の訓練化合物中の各対応する訓練化合物に対して、少なくとも（ｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の正の相互作用スコアに対する、第１のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する正のポーズの対応する正のスコアと、（ｉｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の負の相互作用スコアに対する、第１のモデルへの入力としての標的ポリマーに関する対応する訓練化合物の対応する負のポーズの対応する負のスコアと、を使用し、それによって、第１の複数のパラメータを調整する。少なくとも第１のモデルの出力は、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用される。

【0031】

図面では、本開示のシステム及び方法の実施形態が例として示されている。説明及び図面は、単に例示を目的とし、理解を助けるものであり、本開示のシステム及び方法の限定の定義として意図されないことを明確に理解されたい。

【図面の簡単な説明】

【0032】

【図1】本開示のいくつかの実施形態による、コンピュータシステムを示す。

【図2A】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2B】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2C】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2D】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2E】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2F】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2G】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2H】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図2I】本開示のいくつかの実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるための方法を示す。

【図3】本開示のいくつかの実施形態による、標的ポリマーに対するポーズにおける例示的な訓練化合物の概略図である。

【図4】本開示のいくつかの実施形態による、ボクセルの三次元グリッドの形態である入力特徴の幾何学的表現の概略図である。

【図5】本開示のいくつかの実施形態による、ボクセルの二次元グリッド上に符号化された化合物の図である。

【図6】本開示のいくつかの実施形態による、ボクセルの二次元グリッド上に符号化された化合物の図である。

【図7】本開示のいくつかの実施形態による、ボクセルに番号が付けられた図６の視覚化の図である。

【図8】本開示のいくつかの実施形態による、原子中心の座標位置の形態である入力特徴の幾何学的表現の概略図である。

【図9A】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、化合物結合モードスコアであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図9B】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、活性及び化合物結合モードスコアであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図9C】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練され、最終出力モデルは、２つの異なるポーズ品質モデルに対してコンディショニングされる。

【図10】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、（ｉ）バイナリ離散活性及び（ｉｉ）ｐＫｉであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図11】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けはｐＫｉであり、ｐＫｉは、部分的に、活性に対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図12】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、活性は、部分的に、ｐＫｉ及びポーズ品質スコアの両方に対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図13】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、活性は、部分的に、ｐＫｉ及び化合物結合モードスコアの両方に対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図14】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、活性及び２つの異なる化合物結合モードスコアであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図15】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、活性、２つの異なる化合物結合モードスコア及びｐＫｉであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図16A】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、活性は、部分的に、ｐＫｉ及び結合モードスコアに対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図16B】本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、活性は、部分的に、ｐＫｉ及び２つの異なる結合モードスコアに対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。

【図17】本開示のいくつかの実施形態による、複数の関数計算素子（ｇ_１、ｇ_２、…）をボクセル入力（ｘ_１、ｘ_２、…、ｘ_１００）に適用することと、ｇ（）を使用して、関数計算素子出力を一緒に構成することと、の描写である。

【図18】従来技術による、標的ポリマーに関する化合物のポーズを特徴付ける際に、機械学習モデルが直面する非感受性を示す。

【図19】化合物－ポリマーポーズの品質に対する従来の機械学習モデルの非感受性を示し、図に示すように、考え得る最良のポーズは、機械学習モデルによる、悪いポーズと同じスコアを受け取り、現実にはあり得ないポーズは、機械学習モデルによる、考え得る最良のポーズと同じスコアを受け取る。

【図20】注釈付きのＡＴＰ結合部位（灰色）、アロステリック部位（赤色）、及びＳＨ２ドメインにおける対照結合部位（青色）を有する、ヒトＺＡＰ７０タンパク質を示す。使用ＰＤＢＩＤ：２ｏｚｏ。

【図21】本開示の実施形態による、受信者動作曲線ＡＵＣ性能の様々なベンチマークを示す。

【図22】本開示の実施形態による、約３００個のキナーゼ阻害剤（１と標識された、結合剤）と混合された１０^５個の多様な化合物（０と標識された、非結合剤）が、以下の３つの結合部位とドッキングしてスコアを付けた、ピカソ問題の実験を示す：ｉ）ＡＴＰ結合部位、ｉｉ）アロステリック結合部位、及びｉｉｉ）ＳＨ２ドメインにおける結合部位。

【図23】本開示の実施形態による、良いポーズと、悪いポーズ（左側のパネル）又は現実にはあり得ないポーズ（右側のパネル）との間のメジアン確率低下を示す。

【図24】本開示の実施形態による、ＰｏｓｅＲａｎｋｅｒ及びＶｉｎａスコアに対してコンディショニングされた活性タスクを示す。

【0033】

同様の参照番号は、図面全体を通して対応する部分を指す。

【発明を実施するための形態】

【0034】

ここで、添付の図面にその例が示される実施形態を詳細に参照する。以下の詳細な説明には、本開示の完全な理解を提供するために、多くの特定の詳細が示されている。しかしながら、本開示は、これらの特定の詳細なしで実施され得ることが当業者に明らかであろう。他の場合では、実施形態の態様を不必要に曖昧にしないように、周知の方法、手順、構成要素、回路、及びネットワークは、詳細には説明されていない。

【0035】

また、第１の、第２のなどの用語は、様々な要素を説明するために本明細書で使用され得るが、これらの要素はこれらの用語によって制限されるべきではないことも理解されたい。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、第１の対象は、本発明の範囲から逸脱することなく、第２の対象と称され得、同様に、第２の対象は、第１の対象と称され得る。第１の対象と第２の対象はどちらも対象であるが、同じ対象ではない。

【0036】

本開示に使用される用語は、特定の実施形態を記載する目的のためだけであり、本発明を制限することを意図しない。本発明の説明及び添付の特許請求の範囲の説明で使用される場合、単数形の「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈により明らかにそうではないと指示されない限り、複数形態も同様に含むことが意図される。「及び／又は（ａｎｄ／ｏｒ）」という用語は、本明細書で使用される場合、関連する列挙した品目のうちの１つ以上の任意の及び全ての可能な組み合わせを指し、包含することも理解されるであろう。「含む（ｃｏｍｐｒｉｓｅｓ）」及び／又は「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、本明細書で使用される場合、記載された特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらの群の存在又は追加を排除しないことが更に理解されるであろう。

【0037】

本明細書で使用される場合、用語「～する場合（ｉｆ）」は、文脈に応じて、「～するとき（ｗｈｅｎ）」又は「～した後（ｕｐｏｎ）」又は記載された先行する条件が真であることの「判定に応じて」又は「判定に従って」又は「文脈に応じて」を意味すると解釈され得る。同様に、「判定された場合」又は「［記載された条件又は事象］が検出された場合」という句は、文脈に応じて、「判定時」又は「判定に応答して」又は「［記載された条件又は事象］の検出時」、又は「［記載された条件又は事象］を検出したとき」を意味すると解釈され得る。

【0038】

本開示は、ポリマーの配位、及び化合物の訓練データセットを使用して、試験化合物とポリマーとの間の相互作用を特徴付けるためのシステム及び方法を提供する。各それぞれの訓練化合物は、正の相互作用スコアを有する標的ポリマー配位に関する正のポーズを有する。化合物の訓練データセット内のそれぞれの訓練化合物のうちの少なくともいくつかはまた、標的ポリマー配位に関するそれぞれの訓練化合物の負のポーズ、及び負の相互作用スコアも有する。モデルは、訓練セット内の各それぞれの化合物に対して、少なくとも（ｉ）化合物の正の相互作用スコアに対する、モデルへの入力としての正のポーズの正のスコアと、（ｉｉ）ある場合は、化合物の負の相互作用スコアに対する、モデルへの入力としての負のポーズの負のスコアと、を適用することによって訓練され、それによって、モデルのパラメータを調整し、訓練セット内の化合物のうちの少なくともいくつかは、正のポーズ及び負のポーズの両方を有する。いくつかの実施形態では、訓練セット内の化合物の少なくとも５％、１０％、２０％、５０％、又は７０％は、正のポーズ及び負のポーズの両方を有し、一方、訓練セット内の残りの化合物は、正のポーズのみを有する。いくつかの実施形態では、訓練セット内の化合物の全ては、正のポーズ及び負のポーズの両方を有する。

【0039】

いくつかの実施形態では、正のポーズの正のスコアは、ポリマーに関するそれぞれの正のポーズにおいて、それぞれの訓練化合物の対応する正のボクセルマップを形成することによって取得される。いくつかの実施形態では、対応する正のボクセルマップは、ベクトル化され、ニューラルネットワークに供給される。いくつかの実施形態では、ボクセルマップは、ベクトル化なしでニューラルネットワークに入力される。

【0040】

いくつかの実施形態では、ニューラルネットワークは、重畳型ニューラルネットワークである。いくつかのそのような実施形態では、重畳型ニューラルネットワークは、入力層、複数の個別に重み付けされた畳み込み層、及び出力スコアラを含む。畳み込み層は、初期層及び最終層を含む。入力に応答して、入力層は、初期畳み込み層に値を供給する。最終畳み込み層以外の各それぞれの畳み込み層は、それぞれの畳み込み層の重みの関数としての中間値と、それぞれの畳み込み層の入力値と、を畳み込み層のうちの他の一つに供給する。最終畳み込み層は、最終層の重み及び入力値の関数として、値をスコアラに供給する。このようにして、スコアラは、それぞれの化合物の正のポーズのスコアを付け、それぞれの化合物の正のポーズの正のスコアに達する。

【0041】

いくつかの実施形態では、負のポーズの負のスコアは、ポリマーに関するそれぞれの負のポーズにおいて、それぞれの訓練化合物の対応する負のボクセルマップを形成することによって取得される。いくつかの実施形態では、対応する負のボクセルマップは、ベクトル化され、上で説明されるニューラルネットワーク（例えば、重畳型ニューラルネットワーク）に供給される。いくつかの実施形態では、ボクセルマップは、ベクトル化なしでニューラルネットワークに入力される。このようにして、スコアラは、それぞれの化合物の負のポーズのスコアを付け、それぞれの化合物の負のポーズの負のスコアに達する。

【0042】

モデルが訓練化合物に対して訓練されると、モデルを使用して、試験化合物とポリマーとの間の相互作用を特徴付けることができる。いくつかの実施形態では、試験化合物及び標的ポリマーの正のポーズがニューラルネットワークに入力されることに応答して、正のポーズのスコアが、ニューラルネットワーク及び第２の（又は第３の、第４の、…第ｘの）モデルによって提供される。埋設層を介したコンディショニング時、ニューラルネットワークによって提供された正のポーズのスコアは、訓練されたモデルへの入力として機能し、これにより、試験化合物とポリマーとの間の相互作用の特徴付けが提供される。

【0043】

図１は、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのコンピュータシステム１００を示す。それは、例えば、１つ以上の試験化合物の標的ポリマーとの結合親和性に関する正確な予測を生成するための結合親和性予測システムとして使用され得る。

【0044】

図１を参照すると、典型的な実施形態では、コンピュータシステム１００は、１つ以上のコンピュータを備える。図１における例示の目的のために、コンピュータシステム１００は、開示されたコンピュータシステム１００の機能の全てを含む単一のコンピュータとして表される。しかしながら、本開示は、そのように限定されない。コンピュータシステム１００の機能は、任意の数のネットワーク化されたコンピュータに分散され得、並びに／又はいくつかのネットワーク化されたコンピュータ及び／若しくは仮想マシンの各々に存在し得る。当業者は、多様な異なるコンピュータトポロジがコンピュータシステム１００にとって可能であり、そのようなトポロジは全て本開示の範囲内であることを理解するであろう。

【0045】

上記を念頭に置いて図１を参照すると、コンピュータシステム１００は、１つ以上の処理ユニット（ＣＰＵ）５９と、ネットワーク又は他の通信インターフェース８４と、ユーザインターフェース７８（例えば、ディスプレイ８２及び任意選択的なキーボード８０又は他の形態の入力デバイスを含む）と、メモリ９２（例えば、ランダムアクセスメモリ）と、１つ以上のコントローラ８８によって任意選択的にアクセスされる１つ以上の磁気ディスクストレージ及び／又は持続性デバイス９０と、前述の構成要素を相互接続するための１つ以上の通信バス１２と、前述の構成要素に電力を供給するための電源７９と、を備える。メモリ９２内のデータは、キャッシングなどの周知のコンピューティング技術を使用して、不揮発性メモリ９０とシームレスに共有され得る。メモリ９２及び／又はメモリ９０は、中央処理装置（複数可）５９に対して遠隔に位置している大容量ストレージを含むことができる。言い換えると、メモリ９２及び／又はメモリ９０に格納されたいくつかのデータは、実際には、コンピュータシステム１００の外部にあるが、ネットワークインターフェース８４を使用して、インターネット、イントラネット、又は他の形態のネットワーク若しくは電子ケーブルを経由してコンピュータシステム１００によって電子的にアクセスすることができるコンピュータ上にホストされ得る。いくつかの実施形態では、コンピュータシステム１００は、システムの速度及び性能を改善するために、１つ以上の図形処理ユニット５０に関連付けられたメモリ５２から実行されるニューラルネットワークを活用する。いくつかの代替の実施形態では、コンピュータシステム１００は、図形処理ユニット５０に関連付けられたメモリではなく、メモリ９２から実行されるニューラルネットワークを活用する。

【0046】

コンピュータシステム１００のメモリ９２、及び／又は任意選択的にメモリ５２は、
●様々な基本システムサービスを処理するための手順を含む、任意選択的なオペレーティングシステム３４と、
●試験化合物と標的ポリマーとの間の相互作用を特徴付けるための空間データ評価モジュール３６と、
●構造データ（例えば、標的ポリマーの複数の原子空間座標４０）及び／又は、任意選択的に、標的ポリマーの活性部位情報４２を含む、標的ポリマー用のデータ３８と、
●複数の訓練化合物における各訓練化合物のそれぞれの電子記述４６を含む訓練データセット４４であって、訓練データセット４４の少なくともサブセットにおける各それぞれの電子記述は、（ｉ）対応する第１の正の相互作用スコア５０と結合された複数の原子空間座標４０に関する対応する訓練化合物の対応する正のポーズ４８、及び（ｉｉ）対応する第１の負の相互作用スコア６２と結合された複数の原子空間座標４０に関する対応する訓練化合物の対応する負のポーズ６０を含む、訓練データセット４４と、
●第１の複数のパラメータ７３を含む第１のモデル７２であって、第１のモデルの出力は、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用される、第１のモデル７２と、
●空間データにニューラルネットワーク２４を適用するための（例えば、標的ポリマーにドッキングされた試験又は訓練化合物を試験にニューラルネットワークを適用するための）査定モジュール２０と、
●ボクセルマップの１つ以上の（任意選択的に）ベクトル化された表現５４／６６と、
●任意選択的に入力層２６を含み、任意選択的に１つ以上の畳み込み層２８を含み、端末スコアラ３０を含む、ニューラルネットワーク２４と、
●第２の複数のパラメータ７５を含む第２のモデル７４であって、第２のモデルの出力は、少なくとも部分的に、（ｉ）試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用され、及び／又は（ｉｉ）第１のモデルをコンディショニングするために使用される、第２のモデル７４と、
●任意選択的に、第３の複数のパラメータ７７を含む第３のモデル７６であって、第３のモデルの出力は、少なくとも部分的に、（ｉ）試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用され、及び／又は（ｉｉ）第１のモデル及び／又は第２のモデルをコンディショニングするために使用される、第３のモデル７６と、
●任意選択的に、任意の数の追加の第ｘのモデルであって、各々のそのような追加の第ｘのモデルは、対応する複数のパラメータを含み、追加の第ｘのモデルの出力は、少なくとも部分的に、（ｉ）試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用され、及び／又は（ｉｉ）任意の他の単一モデル及び／又はモデルのグループをコンディショニングするために使用される、第ｘのモデルと、を格納する。

【0047】

いくつかの実施態様では、コンピュータシステム１００の上記の識別されたデータ要素又はモジュールのうちの１つ以上は、前述のメモリデバイスのうちの１つ以上に格納され、上で説明される機能を実行するための命令のセットに対応する。上記の識別されたデータ、モジュール又はプログラム（例えば、命令のセット）は、別個のソフトウェアプログラム、手順、又はモジュールとして実装される必要はなく、したがって、これらのモジュールの様々なサブセットは、様々な実装で組み合わされ得るか、又は別様に再配置され得る。いくつかの実施態様では、メモリ９２及び／又は９０（及び任意選択的に５２）は、任意選択的に、上記で識別されたモジュール及びデータ構造のサブセットを格納する。更に、いくつかの実施形態では、メモリ９２及び／又は９０（及び任意選択的に５２）は、上で説明されていない追加のモジュール及びデータ構造を格納する。

【0048】

ここで、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムが開示されており、そのような特徴付けを実行するための方法を、図２を参照して詳述し、以下で考察する。

【0049】

ブロック２００。図２Ａのブロック２００を参照すると、試験化合物と標的ポリマー３８との間の相互作用の特徴付けを提供するコンピュータシステム１００が開示されている。図１と併せて上記で考察されるように、コンピュータシステムは、１つ以上のプロセッサ７４と、１つ以上のプロセッサによってアドレス指定可能なメモリ９０／９２と、を備える。メモリは、１つ以上のプロセッサによる実行のための少なくとも１つのプログラムを記憶する。図２の残りは、コンピュータシステムの訓練と、訓練されたコンピュータシステムの使用と、を含む、少なくとも１つのプログラムの特徴を詳述する。

【0050】

ブロック２０２～ブロック２０４。図２Ａのブロック２０２を参照すると、いくつかの実施形態では、基準化合物に対して訓練されると、空間データ評価モジュール３６は、試験化合物と標的ポリマー３８との間の相互作用を特徴付けることができる。いくつかのそのような実施形態では、この特徴付けは、離散（例えば、離散バイナリ）活性スコアである。言い換えると、特徴付けは分類的である。例えば、いくつかの実施形態では、特徴付けは離散バイナリであり、コンピュータシステムは、試験化合物が、空間データ評価モジュール３６に実装され、以下で更に詳細に考察されるインシリコ法によって、標的ポリマーに対して活性であると判定されたとき、１つの値、例えば、「１」を提供し、試験化合物が標的ポリマーに対して活性でないと判定されたとき、別の値、例えば、「０」を提供する。

【0051】

いくつかの実施形態では、特徴付けは、バイナリ以外の離散スケールである。例えば、いくつかの実施形態では、特徴付けは、試験化合物が、空間データ評価モジュール３６に実装され、以下で更に詳細に考察されるインシリコ法によって、第１の閾値を下回った活性を有すると判定されると、第１の値、例えば、「０」を提供し、試験化合物が、第１の閾値と第２の閾値との間の活性を有すると判定されると、第２の値、例えば、「１」を提供し、試験化合物が、第２の閾値を上回る活性を有すると判定されると、第３の値、例えば、「２」を提供する。そのような実施形態では、第１及び第２の閾値は所定のものであり、特定の実験（例えば、特定の標的ポリマーに対する試験化合物の特定のデータベース、セット、又は集合の特定の評価）に対して一定であり、試験ポリマーに対する活性のための試験化合物の特定のデータベース、セット、又は集合から好適な試験化合物を識別するのに有用であることが証明する値を有するように選択される。例えば、いくつかの実施形態では、本明細書に開示される閾値のいずれも、試験化合物のデータベースのうちの０．１パーセント以下、０．５パーセント以下、１パーセント以下、２パーセント以下、５パーセント以下、１０パーセント以下、２０パーセント以下、又は５０パーセント以下を、標的ポリマーに対して活性であるとして識別するように設計されており、試験化合物のデータベースは、１００個以上の化合物、１０００個以上の化合物、１０，０００個以上の化合物、１００，０００個以上の化合物、１×１０^６個の化合物、１０×１０^６個の化合物、又はそれ以上を含む。

【0052】

代替的な実施形態では、基準化合物に対して訓練されると、空間データ評価モジュール３６は、試験化合物と標的ポリマー３８との間の相互作用を連続スケールでの活性として特徴付けることができる。すなわち、空間データ評価モジュール３６は、標的ポリマーに対する試験化合物の活性を示す連続スケールの数値を提供する。連続スケールの活性値は、例えば、訓練された空間データ評価モジュール３６によって割り当てられた標的ポリマーに対して、試験化合物のデータベース内の各試験化合物の活性を比較するのに有用である。

【0053】

ブロック２０４を参照すると、開示されたシステム及び方法は、試験化合物と標的ポリマー３８との間の相互作用を連続スケール又は離散スケールの活性として特徴付けることに限定されない。代替的な実施形態では、空間データ評価モジュール３６は、実際には、基準化合物に対して訓練されると、試験化合物と標的ポリマーとの間の相互作用を、連続スケール又は離散（分類的な）スケールの標的ポリマーに対する試験化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩとして特徴付けることができる。

【0054】

３つの可能な結果を有するバイナリ離散スケール及び離散スケールが識別されているが、本開示は、試験化合物と標的ポリマー３８との間の相互作用の特徴付けのための離散スケールのこれら２つの例に限定されない。実際には、任意の離散スケールを、非限定的な例として、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、又は２０個の異なる結果を有する離散スケールを含む、試験化合物と標的ポリマー３８との間の相互作用の特徴付けに使用することができる。

【0055】

ブロック２０６。図２Ａのブロック２０４を参照すると、いくつかの実施形態では、標的ポリマー３８は、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、金属タンパク質、又はそれらの任意の組み合わせのアセンブリである。いくつかの実施形態では、標的ポリマー３８は、反復残基からなる巨大分子である。いくつかの実施形態では、標的ポリマー３８は、天然材料である。いくつかの実施形態では、標的ポリマー３８は、合成材料である。いくつかの実施形態では、標的ポリマー３８は、エラストマー、シェラック、こはく、天然又は合成ゴム、セルロース、ベークライト、ナイロン、ポリスチレン、ポリエチレン、ポリプロピレン、ポリアクリロニトリル、ポリエチレングリコール、又は多糖である。

【0056】

いくつかの実施形態では、標的ポリマー３８は、ヘテロポリマー（コポリマー）である。コポリマーは、１つだけのモノマーが使用されるホモポリマーとは対照的に、２つ（又はそれ以上）のモノマー種に由来するポリマーである。共重合は、コポリマーを化学的に合成するために使用される方法を指す。コポリマーの例としては、ＡＢＳプラスチック、ＳＢＲ、ニトリルゴム、スチレンアクリロニトリル、スチレン・イソプレン・スチレン（ＳＩＳ）、及びエチレン酢酸ビニルが挙げられるが、これらに限定されない。コポリマーは、少なくとも２つのタイプの構成単位を（構造単位、又は粒子も同様に）含むため、コポリマーは、これらの単位の鎖に沿ってどのように配置されるかに基づいて分類することができる。これらは、Ａ単位及びＢ単位が規則的に交互になっている、交互コポリマーを含む。例えば、Ｊｅｎｋｉｎｓ，１９９６，“ＧｌｏｓｓａｒｙｏｆＢａｓｉｃＴｅｒｍｓｉｎＰｏｌｙｍｅｒＳｃｉｅｎｃｅ，”ＰｕｒｅＡｐｐｌ．Ｃｈｅｍ．６８（１２）：２２８７－２３１１を参照されたく、これは参照によりその全体が本明細書に組み込まれる。コポリマーの追加の例は、反復配列（例えば、（Ａ－Ｂ－Ａ－Ｂ－Ｂ－Ａ－Ａ－Ａ－Ａ－Ｂ－Ｂ－Ｂ）_ｎ）に配置されたＡ単位及びＢ単位を有する周期的コポリマーである。コポリマーの追加の例は、コポリマー中のモノマー残基の配列が統計的法則に従う、統計的コポリマーである。例えば、Ｐａｉｎｔｅｒ，１９９７，ＦｕｎｄａｍｅｎｔａｌｓｏｆＰｏｌｙｍｅｒＳｃｉｅｎｃｅ，ＣＲＣＰｒｅｓｓ，１９９７，ｐ１４を参照されたく、これは参照によりその全体が本明細書に組み込まれる。開示されたシステム及び方法を使用して評価され得るコポリマーの更に他の例は、共有結合によって結び付いている２つ以上のホモポリマーサブユニットを含むブロックコポリマーである。ホモポリマーサブユニットの結合は、ジャンクションブロックとして知られている、中間非反復サブユニットを必要とし得る。２つ又は３つの別個のブロックを有するブロックコポリマーは、それぞれ、ジブロックコポリマー及びトリブロックコポリマーと呼ばれる。

【0057】

いくつかの実施形態では、標的ポリマー３８は、５０個以上、１００個以上、１５０個以上、２００個以上、３００個以上、４００個以上、５００個以上、６００個以上、７００個以上、８００個以上、９００個以上、又は１０００個以上の原子を含む。

【0058】

いくつかの実施形態では、標的ポリマー３８は、実際には、複数のポリマー（例えば、２個以上、３個以上、１０個以上、１００個以上、１０００個以上、又は５０００個以上のポリマー）であり、複数のポリマー中のそれぞれのポリマーは、全て同じ分子量を有するわけではない。いくつかのそのような実施形態では、複数のポリマー中の標的ポリマー３８は、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、又は少なくとも９０％の配列同一性を共有し、対応する鎖長の分布を有する重量範囲に入る。いくつかの実施形態では、標的ポリマー３８は、１つ以上の置換基の側鎖又は分岐を有する主鎖を含む分岐ポリマー分子である。分岐ポリマーのタイプとしては、星型ポリマー、櫛形ポリマー、ブラシポリマー、デンドロン化ポリマー、ラダー、及びデンドリマーが挙げられるが、これらに限定されない。例えば、Ｒｕｂｉｎｓｔｅｉｎｅｔａｌ．，２００３，Ｐｏｌｙｍｅｒｐｈｙｓｉｃｓ，Ｏｘｆｏｒｄ；ＮｅｗＹｏｒｋ：ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ．ｐ．６を参照されたく、これは参照によりその全体が本明細書に組み込まれる。

【0059】

いくつかの実施形態では、標的ポリマーは、ポリペプチドである。本明細書で使用される場合、「ポリペプチド」という用語は、ペプチド結合によって結び付いている２つ以上のアミノ酸又は残基を意味する。「ポリペプチド」及び「タンパク質」という用語は、本明細書では同義に使用され、オリゴペプチド及びペプチドを含む。「アミノ酸」、「残基」又は「ペプチド」は、プロリン及びヒドロキシプロリンなどのイミノ酸を含む、当技術分野で周知のように、タンパク質の２０個の標準的な構造単位のうちのいずれかを指す。アミノ酸異性体の名称には、Ｄ、Ｌ、Ｒ、及びＳが含まれ得る。アミノ酸の定義には、非天然アミノ酸が含まれる。したがって、セレノシステイン、ピロリジン、ランチオニン、２－アミノイソ酪酸、ガンマ－アミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、及びホモシステインは、非限定的な例として、全てアミノ酸とみなされる。アミノ酸の他の変異体又は類似体は、当技術分野で周知である。したがって、ポリペプチドは、ペプトイドなどの合成ペプチド類似構造を含み得る。Ｓｉｍｏｎｅｔａｌ．，１９９２，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＵＳＡ，８９，９３６７を参照されたく、これは参照によりその全体が本明細書に組み込まれる。Ｃｈｉｎｅｔａｌ．，２００３，Ｓｃｉｅｎｃｅ３０１，９６４及びＣｈｉｎｅｔａｌ．，２００３，Ｃｈｅｍｉｓｔｒｙ＆Ｂｉｏｌｏｇｙ１０，５１１もまた参照されたく、これらの各々は参照によりその全体が本明細書に組み込まれる。

【0060】

開示されたシステム及び方法のいくつかの実施形態に従って評価された標的ポリマー３８はまた、任意の数の翻訳後修飾も有し得る。したがって、標的ポリマー３８は、アシル化、アルキル化、アミド化、ビオチン化、ホルミル化、γ－カルボキシル化、グルタミル化、グリコシル化、グリシル化、ヒドロキシル化、ヨウ素化、イソプレニル化、リポイル化、（例えば、ヘム、フラビン、金属などの）補因子付加、ヌクレオシド及びそれらの誘導体の付加、酸化、還元、ｐｅｇ化、ホスファチジルイノシトール付加、ホスホパンテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、ｔＲＮＡによるアミノ酸の付加（例えば、アルギニル化）、硫酸化、セレノイル化、ＩＳＧ化、ＳＵＭＯ化、ユビキチン化、化学修飾（例えば、シトルリン化及びアミド分解）、並びに他の酵素（例えば、プロテアーゼ、ホスファターゼ及びキナーゼ）による処理によって修飾されているそれらのポリマーを含む。他のタイプの翻訳後修飾は、当技術分野で周知であり、本開示の標的ポリマー３８の範囲内である。

【0061】

いくつかの実施形態では、標的ポリマー３８は、界面活性剤である。界面活性剤は、液体の表面張力、２つの液体間の界面張力、又は液体と固体との間の界面張力を低下させる化合物である。界面活性剤は、洗剤、湿潤剤、乳化剤、発泡剤、及び分散剤として機能し得る。界面活性剤は、通常、両親媒性である有機化合物であり、疎水性基（それらの尾部）及び親水性基（それらの頭部）の両方を含有することを意味する。したがって、界面活性剤分子は、不水溶性（又は油溶性）成分及び水溶性成分の両方を含有する。界面活性剤分子は、水中に拡散し、水が油と混合される場合、空気と水との間の界面又は油と水との間の界面に吸着する。不溶性疎水性基は、バルク水相から、空気中又は油相中に延在し得、一方、水溶性頭部基は、水相中に留まる。表面での界面活性剤分子のこのようなアライメントは、水／空気又は水／油界面での水の表面特性を変更する。

【0062】

イオン性界面活性剤の例としては、アニオン性、カチオン性、又は両性イオン性（アンポテリック）界面活性剤などのイオン性界面活性剤が挙げられる。いくつかの実施形態では、標的物体５８は、逆ミセル又はリポソームである。

【0063】

いくつかの実施形態では、標的ポリマー３８は、フラーレンである。フラーレンは、中空球、楕円体又は管の形態で、完全に炭素からなる任意の分子である。球状フラーレンは、バッキーボールとも呼ばれ、サッカーで使用されるボールに似ている。円筒形のものは、カーボンナノチューブ又はバッキーチューブと呼ばれる。フラーレンは、構造がグラファイトに類似しており、グラファイトは、結び付いている六角形環の積層グラフェンシートからなるが、五角形（又は時には七角形）環もまた含有し得る。

【0064】

ブロック２０８～ブロック２１２。図２Ａのブロック２０８を参照すると、標的ポリマー３８の複数の原子座標４０が取得される。いくつかの実施形態では、複数の原子座標は、標的ポリマーの少なくとも４００個の原子の原子座標を含む。いくつかの実施形態では、複数の原子座標は、標的ポリマーの少なくとも２５個の原子、少なくとも５０個の原子、少なくとも１００個の原子、少なくとも２００個の原子、少なくとも３００個の原子、少なくとも４００個の原子、少なくとも１０００個の原子、少なくとも２０００個の原子、又は少なくとも５０００個の原子の原子座標を含む。いくつかの実施形態では、配位子が標的ポリマーを結合させると見込まれる標的ポリマー３８の活性部位の座標のみが取得される。ブロック２１０を参照すると、いくつかの実施形態では、複数の原子座標は、分解能２．５Å以上又は分解能３．３Å以上で分解された標的ポリマーの結晶構造の三次元座標のセット｛ｘ_１、…、ｘ_Ｎ｝である。ブロック２１２を参照すると、いくつかの実施形態では、標的ポリマーの複数の原子座標は、核磁気共鳴、中性子回折、又は低温電子顕微鏡によって判定された標的ポリマーの三次元座標の集合体を含む。

【0065】

いくつかの実施形態では、複数の原子座標は、（例えば、Ｘ線結晶学的技術によって）３．３Å以上、３．２Å以上、３．１Å以上、３．０Å以上、２．５Å以上、２．２Å以上、２．０Å以上、１．９Å以上、１．８５Å以上、１．８０Å以上、１．７５Å以上、又は１．７０Å以上の分解能で分解された標的ポリマー３８の結晶構造の三次元座標のセット｛ｘ_１、…、ｘ_Ｎ｝である。

【0066】

いくつかの実施形態では、標的ポリマー３８の複数の原子座標は、核磁気共鳴によって判定された標的ポリマーの１０個以上、２０個以上、３０個以上又はそれ以上の三次元座標の集合体であり、集合体は、１．０Å以上、０．９Å以上、０．８Å以上、０．７Å以上、０．６Å以上、０．５Å以上、０．４Å以上、０．３Å以上、又は０．２Å以上の骨格の平均二乗偏差（ＲＭＳＤ）を有する。いくつかの実施形態では、複数の原子座標は、中性子回折又は低温電子顕微鏡によって判定される。

【0067】

いくつかの実施形態では、標的ポリマー３８は、ポリペプチドに結合した核酸などの、２つの異なるタイプのポリマーを含む。いくつかの実施形態では、天然の標的ポリマーは、互いに結合した２つのポリペプチドを含む。いくつかの実施形態では、研究中の天然の標的ポリマーは、１つ以上の金属イオン（例えば、１つ以上の亜鉛原子を有するメタロプロテイナーゼ）を含む。そのような場合では、金属イオン及び／又は有機小分子は、標的ポリマーの原子座標４０に含まれ得る。

【0068】

いくつかの実施形態では、標的ポリマー３８はポリマーであり、標的ポリマー中には、１０個以上、２０個以上、３０個以上、５０個以上、１００個以上、１００個～１０００個、又は５００個未満の残基が存在する。

【0069】

いくつかの実施形態では、標的ポリマー３８の原子座標は、アブイニシオ法、密度関数法、半経験的及び経験的方法、分子力学、化学力学、又は分子力学などのモデリング方法を使用して判定される。

【0070】

いくつかの実施形態では、原子座標４０は、標的ポリマー３８を含む原子の中心のデカルト座標によって表される。いくつかの代替の実施形態では、標的ポリマー３８の空間座標４０は、例えば、Ｘ線結晶学によって測定される標的ポリマーの電子密度によって表される。例えば、いくつかの実施形態では、原子座標４０は、標的ポリマー３８の計算された原子座標を使用して算出された２Ｆ_{ｏｂｓｅｒｖｅｄ}－Ｆ_{ｃａｌｃｕｌａｔｅｄ}電子密度マップを含み、Ｆ_{ｏｂｓｅｒｖｅｄ}は、標的ポリマーの観察された構造因子の振幅であり、Ｆｃは、標的ポリマー３８の計算された原子座標から計算された構造因子の振幅である。

【0071】

様々な他の実施形態では、標的ポリマー３８の原子座標４０は、ブロック２０６に従って、溶液ＮＭＲによって生成された構造集合体、Ｘ線結晶学、中性子回折、低温電子顕微鏡、コンピュータによるシミュレーションからのサンプリング、ホモロジーモデリング、回転異性体ライブラリのサンプリング、又はそれらの任意の組み合わせから解釈される共複合体を含むが、これらに限定されない多種多様な供給源から取得される。

【0072】

ブロック２１４。図２Ｂのブロック２１４を参照すると、複数の訓練化合物における各訓練化合物４６のそれぞれの電子記述を含む訓練データセット４４が取得される。いくつかの実施形態では、複数の訓練化合物は、少なくとも５０個、１００個、２００個、１０００個、５０００個、１０，０００個、５０，０００個、１００，０００個、１×１０^６個、１×１０^７個、又は１×１０^８個の訓練化合物を含む。訓練データセットの少なくともサブセットにおける各訓練化合物４６のそれぞれの電子記述は、（ｉ）対応する第１の正の相互作用スコア５０と結合された複数の原子空間座標に関する対応する訓練化合物４６の対応する正のポーズ４８、及び（ｉｉ）対応する第１の負の相互作用スコア６２と結合された複数の原子空間座標に関する対応する訓練化合物の対応する負のポーズ６０を含む。図３は、標的ポリマー３８の活性部位における訓練化合物４６の正のポーズ４８を示す。いくつかの実施形態では、訓練化合物４６のいくつかは、負のポーズ６０を有さず、対応する第１の負の相互作用スコア６２を有しない。いくつかの実施形態では、訓練化合物４６のいくつかは、正のポーズ４８を有さず、対応する第１の正の相互作用スコア５０を有しない。いくつかの実施形態では、訓練化合物４６の全ては、正のポーズ及び負のポーズの両方、並びに対応する第１の正の相互作用スコア及び第１の負の相互作用スコアの両方を有する。

【0073】

いくつかの実施形態では、標的ポリマー３８は、活性部位を有するポリマーであり、正及び負のポーズは、訓練化合物をポリマーの活性部位にドッキングすることによって取得される。いくつかの実施形態では、訓練化合物は、複数のポーズを形成するために、標的ポリマー３８に複数回ドッキングされる。いくつかの実施形態では、各訓練化合物は、標的化合物３８に、２回、３回、４回、５回以上、１０回以上、５０回以上、１００回以上、又は１０００回以上ドッキングされる。各々のそのようなドッキングは、標的ポリマー３８にドッキングされた訓練化合物の異なるポーズを表す。いくつかの実施形態では、標的ポリマー３８は、活性部位を有するポリマーであり、各訓練化合物は、複数の異なる方法の各々で活性部位にドッキングされており、各々のそのような方法は、異なるポーズを表す。これらのポーズの多くは正しくないと予想され、そのようなポーズは、訓練化合物と、自然に生じる標的ポリマーとの間の真の相互作用を表していないことを意味する。

【0074】

いくつかの実施形態では、訓練化合物の各ポーズは、ＡｕｔｏＤｏｃｋＶｉｎａによって判定される。ＴｒｏｔｔａｎｄＯｌｓｏｎ，“ＡｕｔｏＤｏｃｋＶｉｎａ：ｉｍｐｒｏｖｉｎｇｔｈｅｓｐｅｅｄａｎｄａｃｃｕｒａｃｙｏｆｄｏｃｋｉｎｇｗｉｔｈａｎｅｗｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎ，ｅｆｆｉｃｉｅｎｔｏｐｔｉｍｉｚａｔｉｏｎａｎｄｍｕｌｔｉｔｈｒｅａｄｉｎｇ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ３１（２０１０）４５５－４６１を参照されたい。そのような実施形態では、それぞれの訓練化合物について、ＡｕｔｏＤｏｃｋＶｉｎａによる最良のスコアを受け取ったポーズには、正のポーズ４８が割り当てられ、ＡｕｔｏＤｏｃｋＶｉｎａによる最悪のスコアを受け取ったポーズには、負のポーズ６０が割り当てられる。いくつかの実施形態では、異なるドッキングプログラムを使用して、それぞれの訓練化合物の正のポーズ４８及び負のポーズ６０を判定する。例えば、いくつかの実施形態では、ＱｕｉｃｋＶｉｎａ２（Ａｌｈｏｓｓａｒｙｅｔａｌ．，２０１５，“Ｆａｓｔ，ａｃｃｕｒａｔｅ，ａｎｄｒｅｌｉａｂｌｅｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｗｉｔｈＱｕｉｃｋＶｉｎａ，”Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ３１：１３，ｐｐ．２２１４－２２１６）、ＶｉｎａＬＣ（Ｚｈａｎｇｅｔａｌ．，２０１３，“ＭｅｓｓａｇｅＰａｓｓｉｎｇＩｎｔｅｒｆａｃｅａｎｄＭｕｌｔｉｔｈｒｅａｄｉｎｇＨｙｂｒｉｄｆｏｒＰａｒａｌｌｅｌＭｏｌｅｃｕｌａｒＤｏｃｋｉｎｇｏｆＬａｒｇｅＤａｔａｂａｓｅｓｏｎＰｅｔａｓｃａｌｅＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｓ，”Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．ＤＯＩ：１０．１００２／ｊｃｃ．２３２１４）、Ｓｍｉｎａ（Ｋｏｅｓｅｔａｌ，，２０１３，“ＬｅｓｓｏｎｓｌｅａｒｎｅｄｉｎｅｍｐｉｒｉｃａｌｓｃｏｒｉｎｇｗｉｔｈｓｍｉｎａｆｒｏｍｔｈｅＣＳＡＲ２０１１ｂｅｎｃｈｍａｒｋｉｎｇｅｘｅｒｃｉｓｅ，”Ｊｏｕｒｎａｌｏｆｃｈｅｍｉｃａｌｉｎｆｏｒｍａｔｉｏｎａｎｄｍｏｄｅｌｉｎｇ５３：８，ｐｐ．１８９３－１９０４）、又はＣｕｉｎａ（Ｍｏｒｒｉｓｏｎｅｔａｌ．．，“ＥｆｆｉｃｉｅｎｔＧＰＵＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＡｕｔｏＤｏｃｋＶｉｎａ，”ＣＯＭＰｐｏｓｔｅｒ３４３２３８９）が使用される。

【0075】

いくつかの実施形態では、正のポーズ４８は、ポーズの正の集合体であり、負のポーズ６０は、ポーズの負の集合体である。例えば、いくつかの実施形態では、正のポーズ４８は、２～５００個の構造的に類似したポーズからなる対応する第１の集合体であり、負のポーズ４８は、２～５００個の構造的に類似したポーズからなる対応する第２の集合体であり、対応する第１の集合体は、対応する第２の集合体よりも良い全体的なドッキングスコアを有する。そのような集合体を取得するための方法は、Ｓｔａｆｆｏｒｄｅｔａｌ．，２０１９，“Ｍｏｄｅｌｉｎｇｐｒｏｔｅｉｎｆｌｅｘｉｂｉｌｉｔｙｗｉｔｈｃｏｎｆｏｒｍａｔｉｏｎａｌｓａｍｐｌｉｎｇｉｍｐｒｏｖｅｓｌｉｇａｎｄｐｏｓｅａｎｄｂｉｏａｃｔｉｖｉｔｙｐｒｅｄｉｃｔｉｏｎ，”ＡｂｓｔｒａｃｔｓｏｆＰａｐｅｒｓｏｆｔｈｅＡｍｅｒｉｃａｎＣｈｅｍｉｃａｌＳｏｃｉｅｔｙ，Ｖｏｌｕｍｅ２５８に開示されており、これは参照により本明細書に組み込まれる。いくつかの実施形態では、各対応する第１の集合体（まとめて正のポーズ４８を表す）は、２～３０個、２～２０個、２～１０個、１００個よりも多い、２～１０００個の構造的に類似したポーズである。いくつかの実施形態では、各対応する第２の集合体（まとめて負のポーズ４８を表す）は、２～３０個、２～２０個、２～１０個、１００個よりも多い、２～１０００個の構造的に類似したポーズである。

【0076】

いくつかの実施形態では、（例えば、ポーズの集合体における）各ポーズは、標的タンパク質のいくつか（例えば、２～１００個）の異なる立体構造に対してスコアリングされる。いくつかの実施形態では、（例えば、ポーズの集合体における）各ポーズは、標的タンパク質の固定された立体構造に対してスコアリングされる。

【0077】

いくつかの実施形態では、訓練化合物は、ランダムポーズ生成技術、又はバイアスポーズ生成のいずれかによって、標的ポリマー３８にドッキングされる。いくつかの実施形態では、訓練化合物は、マルコフ連鎖モンテカルロサンプリングによって、標的ポリマー３８にドッキングされる。いくつかの実施形態では、そのようなサンプリングは、ドッキング計算における訓練化合物の十分な柔軟性、及び訓練化合物と標的ポリマー３８との間の相互作用エネルギーと訓練（又はテスト）物体の立体構造エネルギーの和であるスコアリング関数を可能にする。例えば、ＬｉｕａｎｄＷａｎｇ，１９９９，“ＭＣＤＯＣＫ：ＡＭｏｎｔｅＣａｒｌｏｓｉｍｕｌａｔｉｏｎａｐｐｒｏａｃｈｔｏｔｈｅｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｐｒｏｂｌｅｍ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ－ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ１３，４３５－４５１を参照されたく、これは参照により本明細書に組み込まれる。そのような実施形態では、所与の訓練化合物について、最良のドッキングスコアを受け取ったポーズには、正のポーズ４８が割り当てられ、最悪のドッキングスコアを受け取ったポーズには、正のポーズが割り当てられる。

【0078】

いくつかの実施形態では、ＤＯＣＫ（各々が参照により本明細書に組み込まれる、Ｓｈｏｉｃｈｅｔ，Ｂｏｄｉａｎ，ａｎｄＫｕｎｔｚ，１９９２，“Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｕｓｉｎｇｓｈａｐｅｄｅｓｃｒｉｐｔｏｒｓ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１３（３），ｐｐ．３８０－３９７、及びＫｎｅｇｔｅｌ，Ｋｕｎｔｚ，ａｎｄＯｓｈｉｒｏ，１９９７“Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｔｏｅｎｓｅｍｂｌｅｓｏｆｐｒｏｔｅｉｎｓｔｒｕｃｔｕｒｅｓ，”ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６６，ｐｐ．４２４－４４０）などのアルゴリズムを使用して、標的ポリマー３８に対する訓練化合物の各々についての複数のポーズを見出す。そのようなアルゴリズムは、標的ポリマー３８及び訓練化合物を剛体としてモデル化する。ドッキングされた立体構造を、相補的な表面を使用して検索し、ポーズを見出す。

【0079】

いくつかの実施形態では、ＡｕｔｏＤＯＣＫ（各々が参照により本明細書に組み込まれる、Ｍｏｒｒｉｓｅｔａｌ．，２００９，“ＡｕｔｏＤｏｃｋ４ａｎｄＡｕｔｏＤｏｃｋＴｏｏｌｓ４：ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇｗｉｔｈＳｅｌｅｃｔｉｖｅＲｅｃｅｐｔｏｒＦｌｅｘｉｂｉｌｉｔｙ，”Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．３０（１６），ｐｐ．２７８５－２７９１；Ｓｏｔｒｉｆｆｅｒｅｔａｌ．，２０００，“Ａｕｔｏｍａｔｅｄｄｏｃｋｉｎｇｏｆｌｉｇａｎｄｓｔｏａｎｔｉｂｏｄｉｅｓ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”Ｍｅｔｈｏｄｓ：ＡＣｏｍｐａｎｉｏｎｔｏＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ２０，ｐｐ．２８０－２９１及び“Ｍｏｒｒｉｓｅｔａｌ．，１９９８，“ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇＵｓｉｎｇａＬａｍａｒｃｋｉａｎＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍａｎｄＥｍｐｉｒｉｃａｌＢｉｎｄｉｎｇＦｒｅｅＥｎｅｒｇｙＦｕｎｃｔｉｏｎ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１９：ｐｐ．１６３９－１６６２）を使用して、標的ポリマー３８に対する訓練化合物の各々についての複数のポーズを見出す。ＡｕｔｏＤＯＣＫは、配位子の動力学モデルを使用し、モンテカルロ、模擬アニーリング、ラマルク遺伝的アルゴリズム、及び遺伝的アルゴリズムをサポートしている。したがって、いくつかの実施形態では、（所与の訓練化合物についての）複数の異なるポーズは、ドッキングスコアリング関数を使用して、マルコフ連鎖モンテカルロサンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、又は遺伝的アルゴリズムによって取得される。

【0080】

いくつかの実施形態では、ＦｌｅｘＸ（参照により本明細書に組み込まれる、Ｒａｒｅｙｅｔａｌ．，１９９６，“ＡＦａｓｔＦｌｅｘｉｂｌｅＤｏｃｋｉｎｇＭｅｔｈｏｄＵｓｉｎｇａｎＩｎｃｒｅｍｅｎｔａｌＣｏｎｓｔｒｕｃｔｉｏｎＡｌｇｏｒｉｔｈｍ，”ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６１，ｐｐ．４７０－４８９）などのアルゴリズムを使用して、標的ポリマーに対する訓練化合物ごとの複数のポーズを見出す。ＦｌｅｘＸは、欲張りアルゴリズムを使用して、標的ポリマー３８の活性部位で訓練化合物の逐次構築を行う。したがって、いくつかの実施形態では、（所与の標的化合物についての）複数の異なるポーズは、欲張りアルゴリズムによって取得される。

【0081】

いくつかの実施形態では、ＧＯＬＤ（参照により本明細書に組み込まれる、Ｊｏｎｅｓｅｔａｌ．，１９９７，“ＤｅｖｅｌｏｐｍｅｎｔａｎｄＶａｌｉｄａｔｉｏｎｏｆａＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｆｏｒｆｌｅｘｉｂｌｅＤｏｃｋｉｎｇ，”ＪｏｕｒｎａｌＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６７，ｐｐ．７２７－７４８）などのアルゴリズムを使用して、標的ポリマー３８に対する訓練化合物の各々についての複数のポーズを見出す。ＧＯＬＤは、ＧｅｎｅｔｉｃＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＬｉｇａｎｄＤｏｃｋｉｎｇ（配位子ドッキングの遺伝的最適化）の略である。ＧＯＬＤは、訓練化合物と標的ポリマー３８との間に遺伝的に最適化された水素結合ネットワークを構築する。

【0082】

いくつかの実施形態では、分子力学は、標的ポリマー（又は、標的ポリマーの活性部位などの、その一部分）及び各それぞれの訓練化合物に対して実行され、各それぞれの訓練化合物について正のポーズ４８及び負のポーズ６０を識別する。分子力学の実行中に、標的ポリマー及び訓練化合物の原子が一定期間相互作用することを可能にし、システムの力学的進化のビューを示す。標的ポリマー及び訓練化合物内の原子の軌道は、相互作用粒子系のニュートンの運動方程式を数値的に解くことによって判定され、粒子とそれぞれのポテンシャルエネルギーとの間の力は、原子間ポテンシャル又は分子力学力場を使用して計算される。ＡｌｄｅｒａｎｄＷａｉｎｗｒｉｇｈｔ，１９５９，“ＳｔｕｄｉｅｓｉｎＭｏｌｅｃｕｌａｒＤｙｎａｍｉｃｓ．Ｉ．ＧｅｎｅｒａｌＭｅｔｈｏｄ，”Ｊ．Ｃｈｅｍ．Ｐｈｙｓ．３１（２）：４５９、及びＢｉｂｃｏｄｅ，１９５９，Ｊ．Ｃｈ．Ｐｈ．３１，４５９Ａ，ｄｏｉ：１０．１０６３／１．１７３０３７６を参照されたく、これらは各々、参照によりその全体が本明細書に組み込まれる。したがって、このようにして、分子力学の実行により、経時的に標的ポリマー及びそれぞれの訓練化合物の軌道を生成する。この軌道は、標的ポリマー及び訓練化合物内の原子の軌道を含む。いくつかの実施形態では、複数の異なるポーズのサブセットは、一定の期間にわたってこの軌道のスナップ写真を撮ることによって取得される。いくつかの実施形態では、ポーズは、いくつかの異なる軌道のスナップ写真から取得され、各軌道は、訓練化合物と相互作用する標的ポリマーの異なる分子力学の実行を含む。いくつかの実施形態では、分子力学の実行の前に、訓練化合物はまず、ドッキング技術を使用して、標的ポリマーの活性部位にドッキングされる。

【0083】

いくつかの実施形態では、標的ポリマーに対するそれぞれの訓練化合物の複数のポーズの中からの任意の対（ポーズ対の一方のポーズが、対の他方のポーズよりも良いドッキングスコアを有する）は、それぞれの訓練化合物の正のポーズ４８及び負のポーズ６０としてそれぞれ機能することができる。

【0084】

ブロック２１６。ポーズを見出し、そのようなポーズのインシリコポーズ品質スコアを判定するためのいくつかの異なる非限定的な方法及びプログラムが、図２Ｂのブロック２１４と併せて上記に開示されている。いくつかの実施形態では、正のポーズ４８の第１の正の相互作用スコア５０は、これらの非限定的な方法及びプログラムのいずれか、又はそれらの任意の組み合わせ、又は任意の同等若しくは類似のプログラムによって、標的ポリマー３８に関する正のポーズ４８について算出された、インシリコポーズ品質スコアである。いくつかの実施形態では、正のポーズ４８は、ブロック２１４において上記で考察されるように、ポーズの集合体であり、正のポーズ４８の第１の正の相互作用スコア５０は、これらの非限定的な方法及びプログラムのいずれかによって、標的ポリマー３８に関する正のポーズ４８について算出された、インシリコポーズ品質スコアである。それに応じて、いくつかの実施形態では、負のポーズ６０の第１の負の相互作用スコア６２は、これらの非限定的な方法及びプログラムのいずれかによって、標的ポリマー３８に関する負のポーズ６０について算出された、インシリコポーズ品質スコアである。いくつかの実施形態では、負のポーズ６０は、ブロック２１４において上記で考察されるように、ポーズの集合体であり、負のポーズ６０の第１の負の相互作用スコア６２は、これらの非限定的な方法及びプログラムのいずれかによって、標的ポリマー３８に関する負のポーズ６０について算出された、インシリコポーズ品質スコアである。

【0085】

いくつかの実施形態では、訓練化合物のインシリコポーズ品質スコアを使用するのではなく、第１の正の相互作用スコアは、実験手段によって判定された、標的ポリマー３８に対する対応する訓練化合物４６の測定された結合係数、ＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩである。ＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、及びｐＫＩなどの測定された結合係数は、一般に、Ｈｕｓｅｒｅｄ．，２００６，Ｈｉｇｈ－Ｔｈｒｏｕｇｈｐｕｔ－ＳｃｒｅｅｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙ，ＭｅｔｈｏｄｓａｎｄＰｒｉｎｃｉｐｌｅｓｉｎＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ３５及びＣｈｅｎｅｄ．，２０１９，ＡＰｒａｃｔｉｃａｌＧｕｉｄｅｔｏＡｓｓａｙＤｅｖｅｌｏｐｍｅｎｔａｎｄＨｉｇｈ－ＴｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙに記載されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0086】

ブロック２１８。図２Ｂのブロック２１８を参照すると、いくつかの実施形態では、訓練データセット内の各訓練化合物は、リピンスキーのルールオブファイブ：（ｉ）５個以下の水素結合ドナー、（ｉｉ）１０個以下の水素結合アクセプター、（ｉｉｉ）５００ダルトン未満の分子量、及び（ｉｖ）５未満のＬｏｇＰ、のうちの２つ以上のルール、３つ以上のルール、又は４つのルール全てを満たす。Ｌｉｐｉｎｓｋｉ，１９９７，Ａｄｖ．ＤｒｕｇＤｅｌ．Ｒｅｖ．２３，３を参照されたく、これは参照によりその全体が本明細書に組み込まれる。

【0087】

いくつかの実施形態では、訓練化合物は、リピンスキーのルールオブファイブに加えて、１つの基準、又は２つ以上の基準を満たす。例えば、いくつかの実施形態では、訓練化合物は、５個以下の芳香族環、４個以下の芳香族環、３個以下の芳香族環、又は２個以下の芳香族環を有する。いくつかの実施形態では、訓練化合物は、２０００ダルトン未満、４０００ダルトン未満、６０００ダルトン未満、８０００ダルトン未満、１００００ダルトン未満、又は２００００ダルトン未満の分子量を有する任意の有機化合物である。

【0088】

しかしながら、開示されたシステム及び方法のいくつかの実施形態は、訓練化合物のサイズの限定を有しない。例えば、いくつかの実施形態では、そのような訓練化合物は、抗体などの大きいポリマーである。

【0089】

ブロック２２０を参照すると、いくつかの実施形態では、訓練データセット内の各訓練化合物は、５００ダルトン未満、１０００ダルトン未満、２０００ダルトン未満、４０００ダルトン未満、６０００ダルトン未満、８０００ダルトン未満、１００００ダルトン未満、又は２００００ダルトン未満の分子量を有する有機化合物である。

【0090】

ブロック２２４～ブロック２２６。ブロック２２４を参照すると、方法では、少なくとも第１のモデル７２が訓練される。訓練は、複数の訓練化合物の少なくとも第１のサブセットにおける各対応する訓練化合物４６に対して、少なくとも（ｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の正の相互作用スコア５０に対する、第１のモデル７２への入力としての標的ポリマー３８に関する対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアと、（ｉｉ）標的ポリマーに関する対応する訓練化合物の対応する第１の負の相互作用スコア６２に対する、第１のモデル７２への入力としての標的ポリマーに関する対応する訓練化合物の対応する負のポーズ６０の対応する負のスコアと、を使用し、それによって、第１の複数のパラメータ７３を調整し、少なくとも第１のモデルの出力は、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用される。いくつかのそのような実施形態では、訓練は、複数の訓練化合物の第２のサブセットにおける各対応する訓練化合物４６に対して、少なくとも、標的ポリマーに関する対応する訓練化合物の対応する第１の正の相互作用スコア５０に対する、第１のモデル７２への入力としての標的ポリマー３８に関する対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアを更に使用する。いくつかの実施形態では、訓練化合物の全ては、正のポーズ及び負のポーズの両方を有する。いくつかの実施形態では、複数の訓練化合物中の訓練化合物の一部のみが、正のポーズ及び負のポーズの両方を有するが、複数の訓練化合物中の他の訓練化合物は、正のポーズを有しているが、負のポーズを有していない。いくつかの実施形態では、複数の訓練化合物中の訓練化合物の一部のみが、正のポーズ及び負のポーズの両方を有するが、複数の訓練化合物中の他の訓練化合物は、（ｉ）１つ以上の正のポーズを有するが負のポーズを有していないか、又は（ｉｉ）１つ以上の負のポーズを有するが正のポーズを有していないかのいずれかである。

【0091】

ブロック２３４を参照すると、いくつかの実施形態では、第１のモデル７２は、第１の完全接続ニューラルネットワークである。

【0092】

図９Ａでは、第１のモデル７２は、化合物のポーズ品質の推定値を提供する。モデル７２を訓練するために、複数の訓練化合物中の各対応する訓練化合物４６に対して、訓練セット４４内のデータが使用される。各訓練化合物に対して、対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアが、第１のモデル７２への入力として、標的ポリマー３８に関して取得される。

【0093】

図９Ａの実施形態によれば、対応する正のポーズ４８の対応する正のスコアは、以下のブロック２２８でより詳細に考察されるように、正のポーズ４８をニューラルネットワーク２４に入力したときの、ニューラルネットワーク２４の出力である。図９Ａに示されるように、典型的な実施形態では、正のスコアは、埋設層９６からの埋設の形態であり、これは、少なくとも、第１のモデルへの入力として機能するのに必要な寸法に合わせて正のスコアを特定の大きさにする目的を果たす。第１のモデル７２の出力は、対応する正のスコアをニューラルネットワーク２４から入力すると、標的ポリマー３８に関する対応する訓練化合物の対応する第１の正の相互作用スコア５０に対して比較される。第１のモデル７２の出力と対応する第１の正の相互作用スコア５０との差は、７２逆伝播技術を通して第１のモデルの重みを調整するために、損失関数によって評価される。

【0094】

更に、図９Ａの実施形態によれば、対応する負のポーズ６０の対応する負のスコアは、負のポーズを有する訓練セット内のそれらの化合物について、以下のブロック２３２でより詳細に考察されるように、負のポーズ６０をニューラルネットワーク２４に入力したときの、ニューラルネットワーク２４の出力である。図９Ａに示されるように、典型的な実施形態では、負のスコアは、埋設層９６からの埋設の形態であり、これは、少なくとも、第１のモデルへの入力として機能するのに必要な寸法に合わせて負のスコアを特定の大きさにする目的を果たす。第１のモデル７２の出力は、対応する負のスコアをニューラルネットワーク２４から入力すると、標的ポリマー３８に関する対応する訓練化合物の対応する第１の負の相互作用スコア６２に対して比較される。第１のモデル７２の出力と対応する第１の負の相互作用スコア６２との差はまた、逆伝播技術を通して第１のモデルの重みを調整するために、損失関数によって評価される。

【0095】

第１のモデル７２は、第１の複数のパラメータ７３を有する。いくつかの実施形態では、第１の複数のパラメータは、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、１０，０００個、５０，０００個、１００，０００個又は１×１０^６個よりも多いパラメータを含む。

【0096】

ブロック２２６を参照すると、いくつかの実施形態では、第１のモデル７２は、多層パーセプトロン（ＭＬＰ）としても知られる、完全接続ニューラルネットワークである。いくつかの実施形態では、ＭＬＰは、少なくとも３つの層：入力層、隠れ層及び出力層のノードを含む、フィードフォワード人工ニューラルネットワーク（ＡＮＮ）の一種である。そのような実施形態では、入力ノードを除いて、各ノードは、非線形活性化機能を使用するニューロンである。いくつかの実施形態では、第１のモデル７２として機能する好適なＭＬＰに関する更なる開示は、参照により本明細書に組み込まれる、Ｖａｎｇ－ｍａｔａｅｄ．，２０２０，ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓ：ＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，ＮｏｖａＳｃｉｅｎｃｅＰｕｂｌｉｓｈｅｒｓ，Ｈａｕｐｐａｕｇｅ，ＮｅｗＹｏｒｋにおいて見られる。

【0097】

ブロック２２８～ブロック２３０。図２Ｂのブロック２２８を参照すると、いくつかの実施形態では、標的ポリマー３８に関する対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアは、対応する正のポーズ４８における標的ポリマー３８に関する対応する訓練化合物４６の対応する正のボクセルマップ５２を検索し、対応する正のボクセルマップ５２を、対応する正のベクトル５４に展開し、及び対応する正のベクトル５４を、ニューラルネットワーク（例えば、重畳型ニューラルネットワーク、グラフニューラルネットワークなど）の形態で、ニューラルネットワーク２４に入力することによって取得される。グラフニューラルネットワーク又は重畳型ニューラルネットワーク２４は、次に、出力時に、対応する正のポーズ４８の対応する正のスコアを提供する。

【0098】

いくつかの実施形態では、ニューラルネットワーク２４は、ボクセルマップを使用するかどうかに関わらず、５００個よりも多いパラメータ、１０００個よりも多いパラメータ、２０００個よりも多いパラメータ、５０００個よりも多いパラメータ、１０，０００個よりも多いパラメータ、１００，０００個よりも多いパラメータ、又は１×１０^６個よりも多いパラメータを含む。

【0099】

いくつかのそのような実施形態では、ブロック２３０を参照すると、上で参照される対応する正のベクトル５４は、第１の一次元ベクトルである。いくつかの実施形態では、対応する正のベクトル５４は、１０個以上の要素、２０個以上の要素、１００個以上の要素、５００個以上の要素、１０００個以上の要素、又は１０，０００個以上の要素を含む。

【0100】

いくつかの実施形態では、ニューラルネットワーク２４は、Ｗａｌｌａｃｈｅｔａｌ．，２０１５，“ＡｔｏｍＮｅｔ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＢｉｏａｃｔｉｖｉｔｙＰｒｅｄｉｃｔｉｏｎｉｎＳｔｒｕｃｔｕｒｅ－ｂａｓｅｄＤｒｕｇＤｉｓｃｏｖｅｒｙ，”ａｒＸｉｖ：１５１０．０２８５５ｖ１、又は米国特許第１１，０８０，５７０号、同第１０，５４６，２３７号、同第１０，４８２，３５５号、同第１０，００２，３１２号、若しくは同第９，３７３，０５９号に開示される重畳型ニューラルネットワーク２４のいずれかであり、これらは各々、参照によりその全体が本明細書に組み込まれる。重畳型ニューラルネットワークを使用して、標的ポリマー３８に関する対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアを取得することに関する更なる詳細は、「重畳型ニューラルネットワークを使用して、ポーズのスコアを取得する」と題された節で以下に開示されている。

【0101】

いくつかの実施形態では、ニューラルネットワーク２４は、等変量ニューラルネットワークである。等変量重畳型ニューラルネットワークの非限定的な例は、Ｔｈｏｍａｓｅｔａｌ．，２０１８，“Ｔｅｎｓｏｒｆｉｅｌｄｎｅｔｗｏｒｋｓ：Ｒｏｔａｔｉｏｎ－ａｎｄｔｒａｎｓｌａｔｉｏｎ－ｅｑｕｉｖａｒｉａｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒ３Ｄｐｏｉｎｔｃｌｏｕｄｓ，”ａｒＸｉｖ：１８０２．０８２１９、Ａｎｄｅｒｓｏｎｅｔａｌ．，２０１９，“Ｃｏｒｍｏｒａｎｔ：ＣｏｖａｒｉａｎｔＭｏｌｅｃｕｌａｒＮｅｕｒａｌＮｅｔｗｏｒｋｓ，”ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ、Ｊｏｈａｎｎｅｓｅｔａｌ．，２０２０，“ＤｉｒｅｃｔｉｏｎａｌＭｅｓｓａｇｅＰａｓｓｉｎｇＦｏｒＭｏｌｅｃｕｌａｒＧｒａｐｈｓ，”ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ、Ｔｏｗｎｓｈｅｎｄｅｔａｌ．，２０２１，“ＡＴＯＭ３Ｄ：ＴａｓｋｓＯｎＭｏｌｅｃｕｌｅｓｉｎＴｈｒｅｅＤｉｍｅｎｓｉｏｎｓ，”ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ、Ｊｉｎｇｅｔａｌ．，２００９，“ＬｅａｒｎｉｎｇｆｒｏｍＰｒｏｔｅｉｎＳｔｒｕｃｔｕｒｅｗｉｔｈＧｅｏｍｅｔｒｉｃＶｅｃｔｏｒＰｅｒｃｅｐｔｒｏｎｓ，”ａｒＸｉｖ：２００９．０１４１１、及びＳａｔｏｒｒａｓｅｔａｌ．，２０２１，“Ｅ（ｎ）ＥｑｕｉｖａｒｉａｎｔＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ，”ａｒＸｉｖ：２１０２．０９８４４に開示されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0102】

いくつかの実施形態では、ニューラルネットワーク２４は、グラフニューラルネットワーク（例えば、グラフ重畳型ニューラルネットワーク）である。グラフ重畳型ニューラルネットワークの非限定的な例は、ＢｅｈｌｅｒＰａｒｒｉｎｅｌｌｏ，２００７，“ＧｅｎｅｒａｌｉｚｅｄＮｅｕｒａｌ－ＮｅｔｗｏｒｋＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＨｉｇｈＤｉｍｅｎｓｉｏｎａｌＰｏｔｅｎｔｉａｌ－ＥｎｅｒｇｙＳｕｒｆａｃｅｓ，”ＰｈｙｓｉｃａｌＲｅｖｉｅｗＬｅｔｔｅｒｓ９８，１４６４０１、Ｃｈｍｉｅｌａｅｔａｌ．，２０１７，“Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｏｆａｃｃｕｒａｔｅｅｎｅｒｇｙ－ｃｏｎｓｅｒｖｉｎｇｍｏｌｅｃｕｌａｒｆｏｒｃｅｆｉｅｌｄｓ，”ＳｃｉｅｎｃｅＡｄｖａｎｃｅｓ３（５）：ｅ１６０３０１５、Ｓｃｈｕｅｔｔｅｔａｌ．，２０１７，“ＳｃｈＮｅｔ：Ａｃｏｎｔｉｎｕｏｕｓ－ｆｉｌｔｅｒｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｍｏｄｅｌｉｎｇｑｕａｎｔｕｍｉｎｔｅｒａｃｔｉｏｎｓ，”ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ３０，ｐｐ．９９２－１００２、Ｆｅｉｎｂｅｒｇｅｔａｌ．，２０１８，“ＰｏｔｅｎｔｉａｌＮｅｔｆｏｒＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｙＰｒｅｄｉｃｔｉｏｎ，”ＡＣＳＣｅｎｔ．Ｓｃｉ．４，１１，１５２０－１５３０、及びＳｔａｆｆｏｒｄｅｔａｌ．，“ＡｔｏｍＮｅｔＰｏｓｅＲａｎｋｅｒ：ＥｎｒｉｃｈｉｎｇＬｉｇａｎｄＰｏｓｅＱｕａｌｉｔｙｆｏｒＤｙｎａｍｉｃＰｒｏｔｅｉｎｓｉｎＶｉｒｔｕａｌＨｉｇｈＴｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｓ，”ｈｔｔｐｓ：／／ｃｈｅｍｒｘｉｖ．ｏｒｇ／ｅｎｇａｇｅ／ｃｈｅｍｒｘｉｖ／ａｒｔｉｃｌｅ－ｄｅｔａｉｌｓ／６１４ｂ９０５ｅ３９ｅｆ６ａ１ｃ３６２６８００３に開示されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0103】

いくつかの実施形態では、ニューラルネットワーク２４は、参照により本明細書に組み込まれる、２０２２年５月１０日に出願の“ＣｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆＩｎｔｅｒａｃｔｉｏｎｓＢｅｔｗｅｅｎＣｏｍｐｏｕｎｄｓａｎｄＰｏｌｙｍｅｒｓＵｓｉｎｇＰｏｓｅＥｎｓｅｍｂｌｅｓ”と題された米国仮特許出願第６３／３３６，８４１号に開示されたグラフニューラルネットワークのいずれかである。

【0104】

ブロック２３２～ブロック２３４。図２Ｄのブロック２３２を参照すると、いくつかの実施形態では、標的ポリマー３８に関する対応する訓練化合物４６の対応する負のポーズ６０の対応する負のスコアは、標的ポリマー３８に関する対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアが得られたのと同じ様式で得られる。例えば、いくつかの実施形態では、それは、対応する負のポーズ６０における標的ポリマーに関する対応する訓練化合物の対応する負のボクセルマップを検索し、対応する負のボクセルマップを、対応する負のベクトル６６に展開し、及び対応する負のベクトルを、ニューラルネットワーク２４に入力することによって取得され、それによって、標的ポリマー３８に関する対応する訓練化合物４６の対応する負のポーズ６０の対応する負のスコアを取得する。いくつかのそのような実施形態では、図２Ｄのブロック２３４を参照すると、対応する負のベクトル６６は、第２の一次元ベクトルである。

【0105】

ブロック２３６～ブロック２４４。図２Ｄのブロック２３６を参照すると、いくつかの実施形態では、モデル７２の訓練は、第１のモデル７２の第１の複数のパラメータ７３が、関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクであり、対応する第１の正の相互作用スコア５０は、式
Ｂ＝Ｎ×Ａ
によって対応する第１の負の相互作用スコア６２に関係付けられており、式中、Ａは、対応する正の相互作用スコアであり、Ｂは、対応する負の相互作用スコアであり、Ｎは、ゼロ超かつ１未満の実数である。回帰タスクとしてのモデル７２の訓練は、第１の正の相互作用スコアが、ウェットラボ（例えば、インビボ又はインビトロの）アッセイからのそれぞれの訓練化合物の測定された特性である場合に好適である。それぞれの訓練化合物のそのような測定された特性の例としては、標的ポリマーに関するそれぞれの訓練化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩが挙げられるが、これらに限定されない。そのような実施形態では、第１の正の相互作用スコア５０に、訓練化合物の測定された特性を割り当てることが妥当である。次いで、訓練目的のために、訓練化合物の測定された特性を考えると、訓練化合物の第１の負の相互作用スコア６２を何に割り当てるかという質問になる。図２Ｄのブロック２３６によれば、いくつかの実施形態では、負の相互作用スコア６２には、測定された特性の固定割引価値Ｎが割り当てられる。固定とは、対応する第１の負の相互作用スコア６２の値を計算するために、各それぞれの訓練化合物について各第１の正の相互作用スコア５０に、同じ値Ｎが適用されることを意味する。したがって、Ｎの値が０．９０である場合、各それぞれの訓練化合物について、対応する第１の負の相互作用スコア６２は、対応する第１の正の相互作用スコア５０の０．９０である値を有する。いくつかの実施形態では、Ｎは、０．１０～０．９９の値である。いくつかの実施形態では、Ｎは、０．２０～０．９５の値である。いくつかの実施形態では、Ｎは、０．３０～０．９０の値である。いくつかの実施形態では、Ｎは、０．２５～０．８５の値である。いくつかの実施形態では、Ｎは、０．６０～０．９５の値である。いくつかの代替の実施形態では、負の相互作用スコア６２には、測定された特性の対数が割り当てられる。したがって、そのような実施形態では、各それぞれの訓練化合物について、対応する第１の負の相互作用スコアは、対応する第１の正の相互作用スコア５０の対数である。対数は、自然対数、底数１０などの任意の底数であり得る。

【0106】

ブロック２３８を参照すると、いくつかの実施形態では、ブロック２３２に関して上で説明される関連付けられた損失関数は、任意の好適な回帰タスク損失関数である。そのような損失関数の例としては、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数が挙げられるが、これらに限定されない。Ｗａｎｇｅｔａｌ．，２０２０，“ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙｏｆＬｏｓｓＦｕｎｃｔｉｏｎｓｉｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，”ＡｎｎａｌｓｏｆＤａｔａＳｃｉｅｎｃｅ，ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００７／ｓ４０７４５－０２０－００２５３－５，ｌａｓｔａｃｃｅｓｓｅｄＳｅｐｔｅｍｂｅｒ１５，２０２１を参照されたく、それらの各々は参照により本明細書に組み込まれる。

【0107】

図２Ｄのブロック２４０を参照すると、いくつかの特定の実施形態では、対応する第１の正の相互作用スコア５０及び対応する第１の負の相互作用スコア６２は、各々、結合係数を表し、対応する第１の正の相互作用スコアは、標的ポリマー３８に対する対応する訓練化合物４６の結合係数のインビボ又はインビトロ測定値である。

【0108】

図２Ｅのブロック２４４を参照すると、いくつかの実施形態では、第１の正の相互作用スコアは、標的ポリマーに関するそれぞれの訓練化合物のＩＣ_５０、ＥＣ_５０、Ｋｄ、ＫＩ、又はｐＫＩである。測定された結合係数は、一般に、Ｈｕｓｅｒｅｄ．，２００６，Ｈｉｇｈ－Ｔｈｒｏｕｇｈｐｕｔ－ＳｃｒｅｅｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙ，ＭｅｔｈｏｄｓａｎｄＰｒｉｎｃｉｐｌｅｓｉｎＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ３５及びＣｈｅｎｅｄ．，２０１９，ＡＰｒａｃｔｉｃａｌＧｕｉｄｅｔｏＡｓｓａｙＤｅｖｅｌｏｐｍｅｎｔａｎｄＨｉｇｈ－ＴｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙに記載されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0109】

ブロック２４６～ブロック２４８。図２Ｅのブロック２４６を参照すると、いくつかの実施形態では、訓練データセット４４内の電子記述４６の少なくとも１つのサブセットにおける各それぞれの電子記述４６は、対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコア５６と、対応する訓練化合物の対応する負のポーズ６０の対応する負の活性スコア５８と、を更に含む。いくつかの実施形態では、訓練化合物のうちの少なくともいくつかは、負の活性スコア５８を有しない。図９Ｂを参照すると、いくつかの実施形態では、少なくとも第１のモデル７２を訓練することは、第２のモデル７４を第１のモデルと共同で訓練することを更に含む。

【0110】

第１のモデル７２と同様に、第２のモデル７４は、複数のパラメータ７５（第２の複数のパラメータ）を有する。いくつかの実施形態では、第２の複数のパラメータは、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、１０，０００個、５０，０００個、１００，０００個又は１×１０^６個よりも多いパラメータを含む。

【0111】

図９Ｂの実施形態では、第２のモデル７４は、化合物のポーズ品質の推定値を提供する。第２のモデル７４を訓練するために、複数の訓練化合物中の各対応する訓練化合物４６に対して、訓練セット４４内のデータが使用される。各訓練化合物に対して、対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアが、第２のモデル７４への入力として、標的ポリマー３８に関して取得される。

【0112】

図９Ｂの実施形態によれば、対応する正のポーズ４８の対応する正のスコアは、正のポーズ４８をニューラルネットワーク２４に入力したときの、ニューラルネットワーク２４の出力である。図９Ｂに示されるように、典型的な実施形態では、正のスコアは、埋設層９６からの埋設の形態であり、これは、少なくとも、第２のモデルへの入力として機能するのに必要な寸法に合わせて正のスコアを特定の大きさにする目的を果たす。第２のモデル７４の出力は、エッジ９２０によって示されるように、対応する正のスコアをニューラルネットワーク２４から第２のモデル７４に入力すると、標的ポリマー３８に関する対応する訓練化合物の対応する第１の正の相互作用スコア５０に対して比較される。第２のモデル７４の出力と対応する第１の正の相互作用スコア５０との差は、７４逆伝播技術を通して第２のモデルの重みを調整するために、損失関数によって評価される。

【0113】

更に、図９Ｂの実施形態によれば、対応する負のポーズ６０の対応する負のスコアは、負のポーズを有する訓練セット内のそれらの化合物について、負のポーズ６０をニューラルネットワーク２４に入力したときの、ニューラルネットワーク２４の出力である。図９Ｂに示されるように、典型的な実施形態では、負のスコアは、埋設層９６からの埋設の形態であり、これは、少なくとも、第２のモデルへの入力として機能するのに必要な寸法に合わせて負のスコアを特定の大きさにする目的を果たす。第２のモデル７４の出力は、エッジ９２０によって示されるように、対応する負のスコアをニューラルネットワーク２４から第２のモデル７４に入力すると、標的ポリマー３８に関する対応する訓練化合物の対応する第１の負の相互作用スコア６２に対して比較される。第２のモデル７４の出力と対応する第１の負の相互作用スコア６２との差はまた、逆伝播技術を通して第２のモデルの複数のパラメータ７５を調整するために、損失関数によって評価される。

【0114】

更に、図９Ｂに示される実施形態では、複数の訓練化合物中の各対応する訓練化合物に対して、ブロック２２４の訓練は、少なくとも、訓練化合物の少なくともサブセットについて、（ｉｉｉ）対応する訓練化合物の対応する正の活性スコア５６に対する、（図９Ｂのエッジ９３０によって示した）第１のモデル７２への入力としての標的ポリマー３８に関する対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアと、（ｉｖ）対応する訓練化合物４６の対応する負の活性スコア６８に対する、（繰り返しになるが、図９Ｂのエッジ９３０によって示した）第１のモデル７２への入力としての標的ポリマー３８に関する対応する訓練化合物４６の対応する負のポーズ６０の対応する負のスコアと、を更に使用する。このようにして、第１のモデルの第１の複数のパラメータ７３は、訓練中に調整される。

【0115】

したがって、図９Ｂの実施形態では、第２のモデル７４は、それぞれの第１の正の相互作用スコア５０及び第１の負の相互作用スコア６２に対して訓練され、一方、第１のモデル７２は、正の活性スコア５６及び負の活性スコア６８に対して訓練される。いくつかのそのような実施形態では、第１の正の相互作用スコア５０及び第１の負の相互作用スコア６２は、ドッキングスコアであり、正の活性スコア及び負の活性スコアは、バイナリ離散活性値である。例えば、バイナリ離散活性値の２つの可能な値のうちの一方は、対応する訓練が標的ポリマーの活性を阻害することを示し、一方、バイナリ離散活性値の２つの可能な値のうちの他方は、対応する訓練が標的ポリマーのその活性を阻害しないことを示すであろう。

【0116】

図９Ｂに示されるように、訓練されると、試験化合物のポーズがニューラルネットワーク２４に伝わり、標的ポリマーに対する試験化合物のポーズのスコアを生じる。標的ポリマーに関する試験化合物のポーズのこのスコアは、（試験化合物と標的ポリマーとの間の相互作用の特徴付けを、ポーズ品質スコアの形態で提供するための）第２のモデル７４と、（試験化合物と標的ポリマーとの間の相互作用の特徴付けを、試験化合物と標的ポリマー３８との間の相互作用の活性の形態で提供するための）第１のモデル７２と、の両方に入力される。したがって、図９Ｂの実施形態では、試験化合物と標的ポリマーとの間の相互作用の特徴付けは、活性スコア（例えば、離散バイナリスコア又はスカラースコア）及びポーズ品質スコアの両方である。

【0117】

ブロック２４８を参照すると、いくつかのそのような実施形態では、第１のモデル７２及び第２のモデル７４は、各々、多層パーセプトロン（ＭＬＰ）としても知られる、完全接続ニューラルネットワークである。いくつかの実施形態では、ＭＬＰは、少なくとも３つの層：入力層、隠れ層及び出力層のノードを含む、フィードフォワード人工ニューラルネットワーク（ＡＮＮ）の一種である。そのような実施形態では、入力ノードを除いて、各ノードは、非線形活性化機能を使用するニューロンである。いくつかの実施形態では、第１のモデル７２として機能する好適なＭＬＰに関する更なる開示は、参照により本明細書に組み込まれる、Ｖａｎｇ－ｍａｔａｅｄ．，２０２０，ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓ：ＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，ＮｏｖａＳｃｉｅｎｃｅＰｕｂｌｉｓｈｅｒｓ，Ｈａｕｐｐａｕｇｅ，ＮｅｗＹｏｒｋにおいて見られる。

【0118】

ブロック２５２～ブロック２５６。図２Ｆのブロック２５２を参照すると、図９Ｃに示されるように、いくつかの実施形態では、訓練データセット４４の少なくともサブセットにおける各それぞれの電子記述４６は、対応する訓練化合物４６の対応する正のポーズ４８の対応する正の活性スコア５６と、対応する訓練化合物の対応する負のポーズ６０の対応する負の活性スコア５８と、を更に含む。そのような実施形態では、ブロック２２４で上述した訓練（少なくとも第１のモデル７２の訓練）は、第２のモデル７４を第１のモデル７２と共同で訓練することを更に含む。第２のモデル７４は、第２の複数のパラメータ７５を有する。

【0119】

図９Ｃの実施形態では、第２のモデル７４は、化合物のポーズ品質の推定値を提供する。第２のモデル７４を訓練するために、複数の訓練化合物中の各対応する訓練化合物４６に対して、訓練セット４４内のデータが使用される。各訓練化合物に対して、対応する訓練化合物４６の対応する正のポーズ４８の対応する正のスコアが、第２のモデル７４への入力として、標的ポリマー３８に関して取得される。

【0120】

図９Ｃの実施形態によれば、対応する正のポーズ４８の対応する正のスコアは、正のポーズ４８をニューラルネットワーク２４に入力したときの、ニューラルネットワーク２４の出力である。図９Ｃに示されるように、典型的な実施形態では、正のスコアは、埋設層９６からの埋設の形態であり、これは、少なくとも、第１のモデル及び第２のモデルへの入力として機能するのに必要な寸法に合わせて正のスコアを特定の大きさにする目的を果たす。第２のモデル７４の出力は、エッジ９４０によって示されるように、対応する正のスコアをニューラルネットワーク２４から第２のモデル７４に入力すると、標的ポリマー３８に関する対応する訓練化合物の対応する第１の正の相互作用スコア５０に対して比較される。第２のモデル７４の出力と対応する第１の正の相互作用スコア５０との差は、７４逆伝播技術を通して第２のモデルの重みを調整するために、損失関数によって評価される。

【0121】

更に、図９Ｃの実施形態によれば、対応する負のポーズ６０の対応する負のスコアは、負のポーズを有する訓練セット内のそれらの化合物について、負のポーズ６０をニューラルネットワーク２４に入力したときの、ニューラルネットワーク２４の出力である。図９Ｃに示されるように、典型的な実施形態では、負のスコアは、埋設層９６からの埋設の形態であり、これは、少なくとも、第１のモデル及び第２のモデルの両方への入力として機能するのに必要な寸法に合わせて負のスコアを特定の大きさにする目的を果たす。第２のモデル７４の出力は、エッジ９４０によって示されるように、対応する負のスコアをニューラルネットワーク２４から第２のモデル７４に入力すると、標的ポリマー３８に関する対応する訓練化合物の対応する第１の負の相互作用スコア６２に対して比較される。第２のモデル７４の出力と対応する第１の負の相互作用スコア６２との差はまた、逆伝播技術を通して第２のモデルの複数のパラメータ７５を調整するために、損失関数によって評価される。

【0122】

図９Ｃによる訓練は、複数の訓練化合物の少なくともサブセットにおける各対応する訓練化合物４６に対して、少なくとも対応する訓練化合物の対応する正の活性スコア５６に対する、第１のモデル７２への結合入力としてのモデル２４（エッジ９５０を通して）及び第２のモデル７４（エッジ９３０を通して）の両方によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する正のポーズ４８の対応する正のスコアと、対応する訓練化合物の対応する負の活性スコア６８に対する、モデル２４（繰り返しになるが、エッジ９５０を通して）及び第２のモデル７４（繰り返しになるが、エッジ９３０を通して）の両方によって提供された標的ポリマー３８に関する対応する訓練化合物４６の対応する負のポーズ６０の対応する負のスコアと、を更に使用する。このようにして、第１のモデル７２の第１の複数のパラメータ７３が（例えば、損失関数を使用する逆伝播法を通して）調整される。

【0123】

第２のモデル７４は、少なくとも部分的に、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために、第１のモデル７２の出力とともに使用される。例えば、図９Ｃに示されるように、訓練されると、試験化合物のポーズがニューラルネットワーク２４に伝わり、標的ポリマー３８に対する試験化合物のポーズのスコアを生じる。標的ポリマーに関するこのスコアは、第１のモデル７２（エッジ９５０を通して）及び第２のモデル７４（エッジ９４０を通して）の両方に入力される。更に、試験化合物の第２のモデル７４の出力（ポーズ品質スコア、ｐＫＡなどの、相互作用スコアの計算である）は、エッジ９３０を通して第１のモデル７２に入力される。したがって、第１のモデル７２は、試験化合物のポーズのモデル２４への入力に応答して、第２のモデルの出力及びモデル２４の出力の両方を受け取る。第１のモデル７２は、これらの入力の両方を使用して、試験化合物と標的ポリマーとの間の相互作用の特徴付けを判定する。いくつかの実施形態では、この特徴付けは、試験化合物の活性スコアである。いくつかの実施形態では、この活性スコアは、例えば、「１」が、試験化合物が標的ポリマーに対して活性であることを示し、「０」が、試験化合物が標的ポリマーに対して不活性であることを示す、離散バイナリスコアである。いくつかの実施形態では、第１のモデル７２によって提供された活性スコアは、スカラーである。モデル２４及び第２のモデル７４の出力の両方に対する第１のモデル７２の離散バイナリ）活性スコアのコンディショニングは、試験化合物を特徴付ける際の第１のモデルの性能を改善するのに役立つ。

【0124】

図２Ｆのブロック２５４を参照すると、いくつかのそのような実施形態では、対応する正の活性スコア５６は、第１のバイナリ活性スコアであり、対応する負の活性スコア６８は、第２のバイナリ活性スコアである。いくつかの実施形態では、活性基準を満たすことに基づいて、対応する第１のバイナリ活性スコアは、標的ポリマーに対する対応する化合物の測定された活性に基づいて、１の値を割り当てられており、対応する第２のバイナリ活性スコアは、活性基準を満たさないことに基づいて０の値を割り当てられている。いくつかの実施形態では、訓練化合物のこれらの活性値は、インビボ又はインビトロのアッセイによって取得される。そのようなアッセイは、一般に、Ｈｕｓｅｒｅｄ．，２００６，Ｈｉｇｈ－Ｔｈｒｏｕｇｈｐｕｔ－ＳｃｒｅｅｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙ，ＭｅｔｈｏｄｓａｎｄＰｒｉｎｃｉｐｌｅｓｉｎＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ３５及びＣｈｅｎｅｄ．，２０１９，ＡＰｒａｃｔｉｃａｌＧｕｉｄｅｔｏＡｓｓａｙＤｅｖｅｌｏｐｍｅｎｔａｎｄＨｉｇｈ－ＴｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙに記載されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0125】

図２Ｆのブロック２５６を参照すると、いくつかの実施形態では、第２のモデル７４の訓練は、第２の複数のパラメータ７５が、第２の関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクである。回帰タスクに好適な損失関数の非限定的な例としては、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数が挙げられるが、これらに限定されない。Ｗａｎｇｅｔａｌ．，２０２０，“ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙｏｆＬｏｓｓＦｕｎｃｔｉｏｎｓｉｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，”ＡｎｎａｌｓｏｆＤａｔａＳｃｉｅｎｃｅ，ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００７／ｓ４０７４５－０２０－００２５３－５，ｌａｓｔａｃｃｅｓｓｅｄＳｅｐｔｅｍｂｅｒ１５，２０２１を参照されたく、これは参照によりその全体が本明細書に組み込まれる。更に、いくつかの実施形態では、第１のモデル７２の訓練は、第１の複数のパラメータ７３が、第１の関連付けられた損失関数を通した逆伝播によって調整されている、分類タスクである。分類タスクに好適な損失関数の非限定的な例としては、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数が挙げられるが、これらに限定されない。

【0126】

いくつかの実施形態では、第１のモデルの出力は、バイナリ以外の離散値である。例えば、（図９Ｃに示される構成の分類子２４にポーズを入力することに応答した）第２のモデルの第１の出力値は、標的ポリマーに対する試験化合物の不十分な活性を示し、第２の出力値は、標的ポリマーに対する試験化合物の中間活性を示し、第３の出力値は、標的ポリマーに対する試験化合物の良好な活性を示す。いくつかのそのような実施形態では、第１の分類子を訓練するために使用される損失関数は、マルチクラスクロスエントロピー損失関数、スパースマルチクラスクロスエントロピー損失関数、又はカルバックライブラーダイバージェンス損失関数などのマルチクラス分類損失関数であり得る。

【0127】

ブロック２６０。図２Ｇのブロック２６０を参照すると、いくつかの実施形態では、対応する第１の正の相互作用スコア５０及び対応する第１の負の相互作用スコア６２は、各々、標的ポリマーに対する対応する訓練化合物の結合係数又はインシリコポーズ品質スコアを表し、対応する正の活性スコア５６は、第１のバイナリ活性スコアであり、対応する負の活性スコア６８は、第２のバイナリ活性スコアである。

【0128】

ブロック２６２。図２Ｇのブロック２６２を参照すると、いくつかの実施形態では、第１の関連付けられた損失関数は、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、第２の関連付けられた損失関数は、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数である。

【0129】

ブロック２６４。図２Ｇのブロック２６４を参照すると、いくつかの実施形態では、第２のモデル７４は、多層パーセプトロン（ＭＬＰ）としても知られる、第２の完全接続ニューラルネットワークである。いくつかの実施形態では、ＭＬＰは、少なくとも３つの層：入力層、隠れ層及び出力層のノードを含む、フィードフォワード人工ニューラルネットワーク（ＡＮＮ）の一種である。そのような実施形態では、入力ノードを除いて、各ノードは、非線形活性化機能を使用するニューロンである。いくつかの実施形態では、第１のモデル７２として機能する好適なＭＬＰに関する更なる開示は、参照により本明細書に組み込まれる、Ｖａｎｇ－ｍａｔａｅｄ．，２０２０，ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓ：ＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，ＮｏｖａＳｃｉｅｎｃｅＰｕｂｌｉｓｈｅｒｓ，Ｈａｕｐｐａｕｇｅ，ＮｅｗＹｏｒｋにおいて見られる。

【0130】

ブロック２６８～ブロック２７６。図２Ｈのブロック２６８を参照すると、図１６Ａに示されるように、いくつかの実施形態では、訓練データセット内の各それぞれの電子記述は、対応する訓練化合物４６の対応する正のポーズ４８の対応する第２の正の相互作用スコアと、対応する訓練化合物の対応する負のポーズ６０の対応する第２の負の相互作用スコアと、を更に含む。更に、訓練データセット内の各それぞれの電子記述はまた、対応する訓練化合物４６の対応する正のポーズ４８の対応する正の活性スコア５６と、対応する訓練化合物の対応する負のポーズ６０の対応する負の活性スコア６８と、を含む。

【0131】

そのような実施形態では、少なくとも第１のモデル７２、第２のモデル７４、及び第３のモデル７６の訓練は、共同で訓練される。

【0132】

第２のモデル７４は、第２の複数のパラメータ７５を有する。いくつかの実施形態では、第２の複数のパラメータは、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、１０，０００個、５０，０００個、１００，０００個又は１×１０^６個よりも多いパラメータを含む。

【0133】

第３のモデル７６は、第３の複数のパラメータ７７を有する。いくつかの実施形態では、第３の複数のパラメータは、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、１０，０００個、５０，０００個、１００，０００個又は１×１０^６個よりも多いパラメータを含む。

【0134】

モデル共訓練は、複数の訓練化合物の少なくともサブセットにおける各対応する訓練化合物４６に対して、少なくとも、（ｉ）標的ポリマー３８に関する対応する訓練化合物の対応する第１の正の相互作用スコア５０に対する、第２のモデル７４への結合入力としてのモデル２４（エッジ１６１０を通して）によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する正のポーズ４８の対応する正のスコアと、（ｉｉ）標的ポリマー３８に関する対応する訓練化合物４６の対応する第１の負の相互作用スコア６２に対する、第２のモデル７４への入力としてのモデル２４（繰り返しになるが、エッジ１６１０を通して）によって提供された標的ポリマー３８に関する対応する訓練化合物４６の対応する負のポーズ６０の対応する負のスコアと、を使用し、それによって、第２のモデルの第２の複数のパラメータを調整する。

【0135】

モデル共訓練は、複数の訓練化合物の少なくともサブセットにおける各対応する訓練化合物４６に対して、少なくとも、標的ポリマー３８に関する対応する訓練化合物の対応する第２の正の相互作用スコア５８に対する、第３のモデル７６への入力としてのモデル２４（エッジ１６２０を通して）によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する正のポーズ４８の対応する正のスコアと、標的ポリマー３８に関する対応する訓練化合物４６の対応する第２の負の相互作用スコア７０に対する、第３のモデル７６への入力としてのモデル２４（繰り返しになるが、エッジ１６２０を通して）によって提供された標的ポリマー３８に関する対応する訓練化合物４６の対応する負のポーズ６０の対応する負のスコアと、を更に使用し、それによって、第３のモデル７６の第３の複数のパラメータ７７を調整する。

【0136】

モデル共訓練は、複数の訓練化合物の少なくともサブセットにおける各対応する訓練化合物４６に対して、少なくとも、（ｉ）モデル２４（エッジ１６３０を通して）によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する正のポーズ４８の対応する正のスコアと、（ｉｉ）モデル２４によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する正のポーズ４８の対応する正のスコアの第２のモデル７４への入力時の、エッジ１６４０を通した第２のモデル７４の出力と、（ｉｉｉ）標的ポリマー３８に関する対応する訓練化合物の対応する正の活性スコアに対する、第１のモデル７２への一括入力としての、モデル２４によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する正のポーズ４８の対応する正のスコアの第３のモデル７６への入力時の、エッジ１６５０を通した第３のモデル７６の出力と、かつ、少なくとも、（ｉ）モデル２４（エッジ１６３０を通して）によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する負のポーズの対応する負のスコアと、（ｉｉ）モデル２４によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する負のポーズの対応する負のスコアの第２のモデル７４への入力時の、エッジ１６４０を通した第２のモデル７４の出力と、（ｉｉｉ）標的ポリマー３８に関する対応する訓練化合物の対応する負の活性スコアに対する、第１のモデル７２への一括入力としての、モデル２４によって提供された標的ポリマー３８に関する対応する訓練化合物の対応する負のポーズの対応する負のスコアの第３のモデル７６への入力時の、エッジ１６５０を通した第３のモデル７６の出力と、を更に使用し、それによって、第１のモデルの第１の複数のパラメータを調整する。

【0137】

第１のモデル７４は、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供するために使用される。例えば、図１６Ａに示されるように、訓練されると、試験化合物のポーズがニューラルネットワーク２４に伝わり、標的ポリマー３８に対する試験化合物のポーズのスコアを生じる。標的ポリマーに関するこのスコアは、第１のモデル７２（エッジ１６３０を通して）、第２のモデル７４（エッジ１６１０を通して）、及び第３のモデル（エッジ１６２０を通して）に入力される。更に、試験化合物の第２のモデル７４の出力（ポーズ品質スコアなどの、相互作用スコアの計算である）は、エッジ１６４０を通して第１のモデル７２に入力される。更に、試験化合物の第３のモデル７６の出力（ｐＫＡなどの、相互作用スコアの計算である）は、エッジ１６５０を通して第１のモデル７２に入力される。したがって、第３のモデルは、試験化合物のポーズのモデル２４への入力に応答して、第１のモデル、第２のモデル、及びモデル２４の出力を受け取る。第１のモデル７２は、これらの入力の各々を使用して、試験化合物と標的ポリマーとの間の相互作用の特徴付けをまとめて判定する。いくつかの実施形態では、この特徴付けは、試験化合物の活性スコアである。いくつかの実施形態では、この活性スコアは、例えば、「１」が、試験化合物が標的ポリマーに対して活性であることを示し、「０」が、試験化合物が標的ポリマーに対して不活性であることを示す、離散バイナリスコアである。いくつかの実施形態では、第３のモデル７４によって提供された活性スコアは、スカラーである。モデル２４、第２のモデル７４、及び第３のモデル７６の出力に対する第１のモデル７２の離散バイナリ）活性スコアのコンディショニングは、この第１のモデルに、活性を算出するときに結合モードを強制的に考慮させることによって、試験化合物を特徴付ける際の第１のモデルの性能を改善することに役立ち、したがって、機械学習で生じるピカソ問題に対処する。したがって、第１のモデルの出力は、試験化合物と標的ポリマーとの間の相互作用の特徴付けを提供する。

【0138】

いくつかの実施形態では、図１６Ａを参照すると、ニューラルネットワーク２４によって生成された埋設９６は、以下の３つの出力を予測するために使用される：（第１のモデル７２を通した）活性、（第２のモデル７４を通した）ＣＵｉｎａポーズ品質スコア、及び（第３のモデル７６を通した）ｐＫｉスコア。これは、図１６Ａに示される実施形態では、２段階で実行される。第１に、ＣＵｉｎａ及びｐＫｉスコア予測は、標的ポリマー３８に対する試験化合物のポーズのスコアを、ニューラルネットワーク２４から第２のモデル７４及び第３のモデル７６を通して（埋設９６として）伝えることによって、算出される。第２に、コンディショニングされた埋設１６９０は、（ｉ）入力埋設９６（ニューラルネットワークスコアからの標的ポリマー３８に対する試験化合物のポーズのスコア）と、（ｉｉ）第１の段階から結果として生じる第２のモデル７４のスコア予測と、（ｉｉｉ）第１の段階からの第３のモデル７６のスコア予測と、を連結させることによって、形成される。次いで、この埋設１６９０は、多層パーセプトロンの形態である第１のモデル７２に伝えられ、試験化合物の活性予測を算出する。いくつかの実施形態では、埋設１６９０は、（ｉ）入力埋設９６（ニューラルネットワークスコアからの標的ポリマー３８に対する試験化合物のポーズのスコア）と、（ｉｉ）第１の段階から結果として生じる第２のモデル７４のスコア予測と、（ｉｉｉ）第１の段階からの第３のモデル７６のスコア予測と、を単に連結させるのではなく、これらの３つのソースを互いに乗算し、乗算の積を埋設１６９０として第３のモデルに入力する。いくつかの実施形態では、図１６Ａの埋設１６９０は、（ｉ）入力埋設９６（ニューラルネットワークスコアからの標的ポリマー３８に対する試験化合物のポーズのスコア）と、（ｉｉ）第１の段階から結果として生じる第２のモデル７４のスコア予測と、（ｉｉｉ）第１の段階からの第３のモデル７６のスコア予測と、を単に連結させるのではなく、これらの３つのソースを互いに乗算し、乗算の積を埋設１６９０として第３のモデルに入力する。いくつかの実施形態では、埋設１６９０は、連結させるではなく、埋設１６９０において３つのソースの各々を変換し、この変換は、第１のモデル７２への入力として機能する。より一般的には、埋設１６９０は、第１のモデル７２に伝えられるコンディショニング埋設を形成するために、乗算、連結、線形又は非線形変換を含むが、これに限定されない埋設１６９０への入力のいずれかの全て又は任意の部分に対して任意の数学的関数を実行することができる。

【0139】

図１６Ｂを参照すると、第１のモデル７２を追加のモデルに対しても同様にコンディショニングすることは可能である。したがって、図１６Ｂでは、第１のモデル７２は、ネットワーク２４の出力に加えて、例えば、訓練化合物のＣＵｉｎａスコアについて訓練された第２のモデル７４、例えば、訓練化合物のｐＫｉスコアについて訓練された第３のモデル７６、及び、例えば、訓練化合物のＰｏｓｅＮｅｔスコアについて訓練された第４のモデル９９０の出力に対してコンディショニングされる。

【0140】

図２Ｉのブロック２７２を参照すると、いくつかのそのような実施形態では、第１のモデル、第２のモデル７４、第３のモデル７６、及び第４のモデル９９０は、各々、完全接続ニューラルネットワークである。そのような完全接続ニューラルネットワークは、多層パーセプトロン（ＭＬＰ）としても知られている。いくつかの実施形態では、ＭＬＰは、少なくとも３つの層：入力層、隠れ層及び出力層のノードを含む、フィードフォワード人工ニューラルネットワーク（ＡＮＮ）の一種である。そのような実施形態では、入力ノードを除いて、各ノードは、非線形活性化機能を使用するニューロンである。いくつかの実施形態では、第１のモデル７２として機能する好適なＭＬＰに関する更なる開示は、参照により本明細書に組み込まれる、Ｖａｎｇ－ｍａｔａｅｄ．，２０２０，ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎｓ：ＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，ＮｏｖａＳｃｉｅｎｃｅＰｕｂｌｉｓｈｅｒｓ，Ｈａｕｐｐａｕｇｅ，ＮｅｗＹｏｒｋにおいて見られる。

【0141】

図２Ｉのブロック２７４を参照すると、いくつかの実施形態では、第１のモデル７２によって提供された対応する正の活性スコアは、第１のバイナリ活性スコアであり、第１のモデル７２によって提供された対応する負の活性スコアは、第２のバイナリ活性スコアである。いくつかの実施形態では、対応する第１のバイナリ活性スコアは、標的ポリマーに対する対応する訓練化合物の測定された活性に基づいて、「１」の値を割り当てられており、対応する第２のバイナリ活性スコアは、「０」の値を割り当てられている。

【0142】

図２Ｉのブロック２７６を参照すると、いくつかの実施形態では、第２のモデル７４の訓練は、第２のモデルに関連付けられた第２の複数のパラメータが、第２の関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクである。更に、いくつかの実施形態では、第３のモデル７６の訓練は、第３のモデルに関連付けられた第３の複数のパラメータが、第３の関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクである。更に、いくつかの実施形態では、第４のモデル９９０の訓練は、第４のモデル９９０に関連付けられた第４の複数のパラメータが、第４の関連付けられた損失関数を通した逆伝播によって調整されている、回帰タスクである。これらの回帰タスクに好適な損失関数の非限定的な例としては、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数が挙げられるが、これらに限定されない。Ｗａｎｇｅｔａｌ．，２０２０，“ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙｏｆＬｏｓｓＦｕｎｃｔｉｏｎｓｉｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，”ＡｎｎａｌｓｏｆＤａｔａＳｃｉｅｎｃｅ，ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００７／ｓ４０７４５－０２０－００２５３－５，ｌａｓｔａｃｃｅｓｓｅｄＳｅｐｔｅｍｂｅｒ１５，２０２１を参照されたく、これは参照によりその全体が本明細書に組み込まれる。更に、いくつかの実施形態では、第１のモデル７２の訓練は、第１のモデル７２に関連付けられた第１の複数のパラメータが、第１の関連付けられた損失関数を通した逆伝播によって調整されている、分類タスクである。分類タスクに好適な損失関数の非限定的な例としては、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数が挙げられるが、これらに限定されない。

【0143】

いくつかのそのような実施形態では、対応する第１の正の相互作用スコア及び対応する第１の負の相互作用スコアは、各々、標的ポリマーに対する対応する訓練化合物のインシリコポーズ品質スコアを表し、対応する第２の正の相互作用スコア及び対応する第２の負の相互作用スコアは、各々、標的ポリマーに対する対応する訓練化合物の結合係数を表し、対応する正の活性スコアは、第１のバイナリ活性スコアであり、対応する負の活性スコアは、第２のバイナリ活性スコアである。いくつかのそのような実施形態では、第２、第３、及び第４の関連付けられた損失関数は、各々独立して、平均二乗誤差損失関数、平均絶対誤差損失関数、Ｈｕｂｅｒ損失関数、Ｌｏｇ－Ｃｏｓｈ損失関数、又は分位損失関数であり、一方、第１の関連付けられた損失関数は、バイナリクロスエントロピー損失関数、ヒンジ損失関数、又は二乗ヒンジ損失関数である。

【0144】

いくつかの実施形態では、図１６Ｂを参照すると、ニューラルネットワーク２４によって生成された埋設９６は、以下の４つの出力を予測するために使用される：（第１のモデル７２を通した）活性、（第２のモデル７４を通した）ＣＵｉｎａポーズ品質スコア、（第３のモデル７６を通した）ｐＫｉスコア、及び（第４のモデル９９０を通した）ＰｏｓｅＮｅｔスコア。これは、図１６Ｂに示される実施形態では、２段階で実行される。第１に、ＣＵｉｎａ、ｐＫｉ、及びＰｏｓｅＮｅｔスコア予測は、標的ポリマー３８に対する試験化合物のポーズのスコアを、ニューラルネットワーク２４から第２のモデル７４、第３のモデル７６、及び第４のモデル９９０を通して（埋設９６として）伝えることによって、算出される。第２に、コンディショニングされた埋設１６９０は、（ｉ）入力埋設９６（ニューラルネットワークスコアからの標的ポリマー３８に対する試験化合物のポーズのスコア）と、（ｉｉ）第１の段階から結果として生じる第２のモデル７４のスコア予測と、（ｉｉｉ）第１の段階からの第３のモデル７６のスコア予測と、を連結させることによって、形成される。次いで、この埋設１６９０は、第４のモデルの出力とともに、多層パーセプトロンの形態である第１のモデル７２に伝えられ、試験化合物の活性予測を算出する。いくつかの実施形態では、図１６Ｂの埋設１６９０は、（ｉ）入力埋設９６（ニューラルネットワークスコアからの標的ポリマー３８に対する試験化合物のポーズのスコア）と、（ｉｉ）第１の段階から結果として生じる第２のモデル７４のスコア予測と、（ｉｉｉ）第１の段階からの第３のモデル７６のスコア予測と、を単に連結させるのではなく、これらの３つのソースを互いに乗算し、乗算の積を埋設１６９０として第３のモデルに入力する。いくつかの実施形態では、埋設１６９０は、連結させるではなく、埋設１６９０において３つのソースの各々を変換し、この変換は、第１のモデル７２への入力として機能する。より一般的には、埋設１６９０は、第１のモデル７２に伝えられるコンディショニング埋設を形成するために、乗算、連結、線形又は非線形変換を含むが、これに限定されない埋設１６９０への入力のいずれかの全て又は任意の部分に対して任意の数学的関数を実行することができる。

【0145】

図１０は、本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、（ｉ）バイナリ離散活性及び（ｉｉ）ｐＫｉであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。図１０には示されていないが、共有埋設層は、化合物のボクセレート（ｖｏｘｅｌａｔｅｄ）されたポーズのニューラルネットワーク２４への入力時に、ニューラルネットワーク２４から出力を受け取る。図１０のシステムでは、ｐＫｉモデル及び活性モデルは、互いに独立している。いくつかの実施形態では、ｐＫｉモデルは、平均二乗誤差などの損失関数を使用して、回帰タスクとして訓練されるが、一方で、活性モデルは、バイナリコストエントロピーなどの損失関数を使用して、分類タスクとして訓練される。

【0146】

図１１は、本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けはｐＫｉであり、ｐＫｉは、部分的に、活性がコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。図１１には示されていないが、共有埋設層は、化合物のボクセレート（ｖｏｘｅｌａｔｅｄ）されたポーズのニューラルネットワーク２４への入力時に、ニューラルネットワーク２４から出力を受け取る。図１１のシステムでは、ｐＫｉモデルは、活性モデルに対してコンディショニングされる。いくつかの実施形態では、ｐＫｉモデルは、平均二乗誤差などの損失関数を使用して、回帰タスクとして訓練されるが、一方で、活性モデルは、バイナリコストエントロピーなどの損失関数を使用して、分類タスクとして訓練される。

【0147】

図１２は、本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、活性は、部分的に、ｐＫｉ及びポーズ品質スコアの両方に対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。図１２には示されていないが、共有埋設層は、化合物のボクセレート（ｖｏｘｅｌａｔｅｄ）されたポーズのニューラルネットワーク２４への入力時に、ニューラルネットワーク２４から出力を受け取る。図１２のシステムでは、活性モデルは、ｐＫｉモデルに対してコンディショニングされる。いくつかの実施形態では、ｐＫｉモデルは、平均二乗誤差などの損失関数を使用して、回帰タスクとして訓練されるが、一方で、活性モデルは、バイナリコストエントロピーなどの損失関数を使用して、分類タスクとして訓練される。

【0148】

図１３は、本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは活性であり、活性は、部分的に、ｐＫｉ及び化合物結合モードスコアの両方に対してコンディショニングされ、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。図１３には示されていないが、共有埋設層は、化合物のボクセレート（ｖｏｘｅｌａｔｅｄ）されたポーズのニューラルネットワーク２４への入力時に、ニューラルネットワーク２４から出力を受け取る。図１３のシステムでは、活性モデルは、ｐＫｉモデル及びｐｏｓｅｎｅｔモデルの両方に対してコンディショニングされる。いくつかの実施形態では、ｐＫｉモデル及びｐｏｓｅｎｅｔモデルは、平均二乗誤差などの損失関数を使用して、回帰タスクとして訓練されるが、一方で、活性モデルは、バイナリコストエントロピーなどの損失関数を使用して、分類タスクとして訓練される。

【0149】

図１４は、本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、活性及び２つの異なる化合物結合モードスコアであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。図１４のシステムでは、活性モデルは、ポーズ品質スコアモデルに対してコンディショニングされる。いくつかの実施形態では、ポーズ品質モデルは、平均二乗誤差などの損失関数を使用して、回帰タスクとして訓練されるが、一方で、活性モデルは、バイナリコストエントロピーなどの損失関数を使用して、分類タスクとして訓練される。

【0150】

図１５は、本開示の一実施形態による、試験化合物と標的ポリマーとの間の相互作用を特徴付けるためのシステムであり、特徴付けは、活性、２つの異なる化合物結合モードスコア及びｐＫｉであり、システムは、化合物を訓練するための結合された正及び負のポーズを使用して訓練される。図１５のシステムでは、活性モデルは、ポーズ品質スコアモデルに対してコンディショニングされる。いくつかの実施形態では、ポーズ品質モデルは、平均二乗誤差などの損失関数を使用して、回帰タスクとして訓練されるが、一方で、活性モデルは、バイナリコストエントロピーなどの損失関数を使用して、分類タスクとして訓練される。

【0151】

代表的な試験化合物及び訓練化合物。試験化合物と訓練化合物との有意な差は、訓練化合物は（例えば、ウェットラボ結合アッセイから取得された相補的結合データなどで）標識されており、そのような標識が、ニューラルネットワーク２４及び本開示の他のモデルを訓練するために使用されるのに対し、試験化合物は標識されず、ニューラルネットワーク２４及び本開示の他のモデルが、試験化合物を分類するために使用されることである。言い換えると、訓練化合物は、標識によって既に分類されており、そのような分類は、ニューラルネットワーク２４及び本開示の他のモデルを訓練するために使用され、その結果、次いで、本開示のモデルは、試験化合物を分類し得る。試験化合物は、典型的には、ニューラルネットワーク２４及び本開示の他のモデルの適用前には分類されない。典型的な実施形態では、訓練化合物に関連付けられた分類は、ウェットラボ結合アッセイによって取得された標的ポリマー３８に対する結合データである。

【0152】

予測モデルを訓練すること。ディープニューラルネットワーク（例えば、ニューラルネットワーク２４）が実装されている、いくつかの実施形態では、ネットワーク２４は、幾何学的データ入力を受け取り、所与の試験化合物が標的ポリマーに結合するかどうかの予測（確率）を出力するように訓練される。例えば、いくつかの実施形態では、（それぞれの関連付けられた結合データのために）標的ポリマーに対する周知の結合データを有する訓練化合物は、図２との関連において上記で考察された技術を使用して、本開示のニューラルネットワーク２４及びモデルを順次通過し、ニューラルネットワーク２４は、各それぞれの訓練化合物に対して、単一値を提供する。

【0153】

そのようないくつかの実施形態では、本開示のシステムは、所与の標的化合物に対する各訓練物体に対して、２つの可能な活性クラスのうちの１つを出力する。例えば、本開示のシステムによって各それぞれの訓練化合物に対して提供された単一値は、それが所定の閾値を下回る場合には、第１の活性クラス（例えば、結合剤）にあり、その数が所定の閾値を上回る場合には、第２の活性クラス（例えば、非結合剤）にある。本開示のシステムによって割り当てられた活性クラスは、訓練化合物結合データによって表されるように、実際の活性クラスと比較される。典型的な非限定的な実施形態では、そのような訓練化合物結合データは、独立したウェブラボ結合アッセイからのものである。本開示のシステムによってなされる活性クラス割り当ての誤差は、結合データに対して検証されるように、次いで、システムを訓練するために、本開示のシステムの各モデル（例えば、２４、７２、７４など）の重みを通して逆伝播される。例えば、ネットワークの任意選択的な畳み込み層２８内のそれぞれのフィルタのフィルタ重みは、そのような逆伝播で調整される。例示的な実施形態では、ニューラルネットワーク２４は、ネットワークにより行われるクラス割り当てにおける誤差に対して、結合データを考慮して、ＡｄａＤｅｌｔａ適応学習方法での確率的勾配降下（参照により本明細書に組み込まれる、Ｚｅｉｌｅｒ，２０１２“ＡＤＡＤＥＬＴＡ：ａｎａｄａｐｔｉｖｅｌｅａｒｎｉｎｇｒａｔｅｍｅｔｈｏｄ，”‘ＣｏＲＲ，ｖｏｌ．ａｂｓ／１２１２．５７０１）と、参照により本明細書に組み込まれる、Ｒｕｍｅｌｈａｒｔｅｔａｌ．，１９８８，“Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ：Ｆｏｕｎｄａｔｉｏｎｓｏｆｒｅｓｅａｒｃｈ，” ｃｈ．ＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＢａｃｋ－ｐｒｏｐａｇａｔｉｎｇＥｒｒｏｒｓ，ｐｐ．６９６－６９９，Ｃａｍｂｒｉｄｇｅ，ＭＡ，ＵＳＡ：ＭＩＴＰｒｅｓｓに示されている逆伝播アルゴリズムと、によって訓練される。そのようないくつかの実施形態では、２つの可能な活性クラスは、それぞれ、所与の閾値量よりも大きい結合定数（例えば、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、又は１ミリモルよりも大きい標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩ）及び所与の閾値量を下回る結合定数（例えば、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、又は１ミリモルよりも小さい標的化合物に関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩ）である。

【0154】

いくつかの実施形態では、本開示のシステムは、所与の標的ポリマーに対する各訓練化合物に対して、複数の可能な活性クラス（例えば、３つ以上の活性クラス、４つ以上の活性クラス、５つ以上の活性クラス）のうちの１つを出力する。例えば、本開示のシステムによって各それぞれの訓練化合物に対して提供された単一値は、その数が第１の範囲に入る場合は、第１の活性クラスにあり、その数が第２の範囲に入る場合は、第２の活性クラスにあり、その数が第３の範囲に入る場合は、第３の活性クラスにある、などである。本開示のシステムによって割り当てられた活性クラスは、他の形態の訓練データの訓練化合物結合データによって表されるように、実際の活性クラスと比較される。本開示のシステムによってなされる活性クラス割り当ての誤差は、結合データ（又は他の形態の測定又は独立して計算されたデータ）に対して検証されるように、上記で考察された技術を使用して、本開示のシステムを訓練するために使用される。いくつかの実施形態では、複数の分類における各それぞれ分類は、標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、ｐｋＡ、又はＫＩ範囲である。

【0155】

いくつかの実施形態では、本開示のシステムによる複数の訓練化合物の分類は、非パラメトリック技術を使用して、訓練データ（例えば、訓練化合物についての結合データ又は他の独立して測定されたデータ）に対して比較される。例えば、本開示のシステムは、所与の特性（例えば、所与の標的ポリマーに対する結合）に関して複数の訓練化合物をランク付けするために使用され、このランク順序は、複数の訓練化合物のウェットラボ結合アッセイによって取得される訓練データによって提供されるランク順序に対して比較される。これは、上記で考察されたシステム誤差修正技術を使用して、計算されたランク順序の誤差に対して本開示のシステムを訓練する能力を生じさせる。いくつかの実施形態では、本開示のシステムによる訓練化合物によるランク付けと、結合データ（又は訓練化合物についての他の独立して測定されたデータ）によって判定された訓練化合物のランク付けとの間の誤差（差）は、ＷｉｌｃｏｘｏｎＭａｎｎＷｈｉｔｎｅｙ関数（Ｗｉｌｃｏｘｏｎ符号順位検定）又は他の非パラメトリック検定を使用して算出され、このような誤差は、上記で考察された誤差修正技術を使用してシステムを更に訓練するために、本開示のシステム（例えば、モデル７２、モデル７４、モデル２４など）を通して逆伝播される。

【0156】

深層学習技術が上で説明されるようにニューラルネットワーク２４を利用する実施形態では、ネットワーク２４を含むシステムの訓練は、その予測の精度を改善するために、任意選択的な畳み込み層２８内のフィルタ内の重み、及びネットワーク層内のバイアスを修正することを含み得る。重み及びバイアスは、Ｌ１、Ｌ２、重み減衰、及びドロップアウトなどの正規化の様々な形態で、更に制約され得る。

【0157】

ある実施形態では、ニューラルネットワーク２４又は本明細書に開示されるモデルのいずれかは、訓練データが（例えば、結合データで）標識される場合、任意選択的に、それぞれのパラメータ（例えば、重み）を調節され（システムの予測された結合親和性及び／又はカテゴリ化と、訓練データの報告された結合親和性及び／又はカテゴリ化との間の誤差を潜在的に最小限に抑えるように調整され）得る。様々な方法は、勾配降下法などの誤差関数を最小限に抑えるために使用され得、これには、対数損失、平方和誤差、ヒンジ損失方法が含まれ得るが、これらに限定されない。これらの方法は、運動量、ヘシアンフリー推定、ネステロフの加速勾配、アダグラッドなどの二次法又は近似を含み得る。標識されていない発生事前訓練及び標識された識別訓練は、組み合わされ得る。

【0158】

入力された幾何学的データは、訓練例にグループ化され得る。例えば、分子、補因子、及びタンパク質の単一セットは、複数の幾何学的測定値を有する場合が多く、各「スナップ写真」は、標的ポリマー及び訓練化合物が採用し得る代替的な立体構造及びポーズを描写する。同様に、標的ポリマーがタンパク質である場合、タンパク質側鎖、補因子、及び訓練化合物の異なる互変異性体もまたサンプリングされ得る。これらの状態は全て、生物学的システムの挙動に寄与するため、ボルツマン分布に従って、結合親和性を予測するシステムは、（例えば、これらのサンプリングの加重平均を取ることによって）これらの状態をまとめて考慮するように構成され得る。任意選択的に、これらの訓練例は、結合情報で標識され得る。定量的結合情報（例えば、結合データ）が利用可能である場合、そのような標識は、数値的結合親和性であり得る。代替的に、訓練例は、２つ以上の順序付けられたカテゴリ（例えば、結合剤及び非結合剤の２つのカテゴリ、又は１モル未満、１ミリモル未満、１００マイクロモル未満、１０マイクロモル未満、１マイクロモル未満、１００ナノモル未満、１０ナノモル未満、１ナノモル未満の力価の結合剤として配位子を記述するいくつかの重複する可能性のあるカテゴリ）のセットから標識を割り当てられ得る。訓練結合データは、実験的測定値、算出された推定値、専門家の洞察、又は推測（例えば、分子及びタンパク質の無作為な対は、結合する可能性が非常に低い）などの、様々なソースから導出又は受け取られ得る。

【0159】

ニューラルネットワーク２４を使用して、ポーズのスコアを取得する。ニューラルネットワーク２４を使用してポーズをスコアリングするために、いくつかの実施形態では、ポーズについてボクセルマップが作成される（例えば、正のポーズの場合は正のボクセルマップ５２、負のポーズ６０の場合は負のボクセルマップ６４）。いくつかの実施形態では、ボクセルマップは、（ｉ）訓練化合物を、正のポーズ４８（又はその集合体）又は負のポーズ（又はその集合体）のいずれかでサンプリングすることと、標的ポリマー３８を三次元グリッドベースでサンプリングすることによって、対応する複数の空間充填（三次元）多面体セルを含む対応する三次元均一空間充填ハニカムを形成することと、（ｉｉ）対応する複数の三次元セル内の各それぞれの三次元多面体セルに対して、それぞれの三次元多面体セルの特性（例えば、化学的特性）に基づいて、それぞれのボクセルマップにボクセル（一定間隔の多面体セルの離散的セット）を投入することと、によって作成される。したがって、特定の訓練化合物に対して、２つのボクセルマップ、正のボクセルマップ５２及び負のボクセルマップ６５が作成される。空間充填ハニカムの例としては、平行六面体セルを有する立方体ハニカム、六角柱セルを有する六角柱ハニカム、ひし形十二面体セルを有するひし形十二面体、細長い十二面体セルを有する細長い十二面体、及び切頂八面体セルを有する切頂八面体が挙げられる。

【0160】

いくつかの実施形態では、空間充填ハニカムは、立方体セルを有する立方体ハニカムであり、そのようなボクセルの寸法は、それぞれの分解能を決定する。例えば、各ボクセルが、そのような実施形態では、１Å寸法（例えば、それぞれのセルのそれぞれの高さ、幅、及び深さにおいて１Å×１Å×１Å）を有する幾何学的データの対応する立方体を表すことを意味する、分解能１Åが選択され得る。しかしながら、いくつかの実施形態では、より細かいグリッド間隔（例えば、０．１Å、又は更には０．０１Å）又はより粗いグリッド間隔（例えば、４Å）が使用され、その間隔は、入力された幾何学的データを網羅するための整数個のボクセルを生じる。いくつかの実施形態では、サンプリングは、０．１Å～１０Åの分解能で発生する。例示として、４０Å入力立方体の場合、分解能１Åで、そのような配置は、４０×４０×４０＝６４，０００入力ボクセルを生じるであろう。

【0161】

いくつかの実施形態では、サンプリング（ｉ）で発生した原子の特徴は、それぞれのボクセルマップの単一ボクセルに配列され、複数のボクセルの各ボクセルは、最大１つの原子の特徴を表す。いくつかの実施形態では、原子の特徴は、原子タイプの列挙からなる。一例として、開示されたシステム及び方法のいくつかの実施形態は、ボクセルマップ４０の所与のボクセル内の全ての原子の存在を、そのエントリの異なる数として表すように構成されており、例えば、炭素がボクセル内にある場合、炭素の原子番号が６であるため、６の値がそのボクセルに割り当てられる。しかしながら、そのような符号化は、近い原子番号を有する原子は、同様に挙動することを暗に意味し得るが、これは、用途によっては、特に有用ではない場合がある。更に、元素の挙動は、族内（周期表の列）でより類似し得、したがって、そのような符号化は、ニューラルネットワーク２４が復号するための追加の作業を課す。

【0162】

いくつかの実施形態では、原子の特徴は、バイナリカテゴリ変数としてボクセルで符号化される。そのような実施形態では、原子タイプは、「ワンホット」符号化と呼ばれるもので符号化され、全ての原子タイプは、別個のチャネルを有する。したがって、そのような実施形態では、各ボクセルは、複数のチャネルを有し、複数のチャネルの少なくともサブセットは、原子タイプを表す。例えば、各ボクセル内の１つのチャネルは、炭素を表し得、一方で、各ボクセル内の別のチャネルは、酸素を表し得る。所与のボクセルに対応する三次元グリッド要素に所与の原子タイプが含まれている場合、所与のボクセル内のその原子タイプのチャネルは、「１」などのバイナリカテゴリ変数の第１の値を割り当てられ、所与のボクセルに対応する三次元グリッド要素にその原子タイプが含まれていない場合、その原子タイプのチャネルは、所与のボクセル内の「０」などのバイナリカテゴリ変数の第２の値を割り当てられる。

【0163】

１００個以上の元素があるが、大部分は生物学で遭遇しない。しかしながら、最も一般的な生物元素（例えば、Ｈ、Ｃ、Ｎ、Ｏ、Ｆ、Ｐ、Ｓ、Ｃｌ、Ｂｒ、Ｉ、Ｌｉ、Ｎａ、Ｍｇ、Ｋ、Ｃａ、Ｍｎ、Ｆｅ、Ｃｏ、Ｚｎ）を表すことでさえ、ボクセル当たり１８チャネル、すなわち１０，４８３×１８＝１８８，６９４個の入力を受容体フィールドに生じ得る。したがって、いくつかの実施形態では、ボクセルマップ内の各それぞれのボクセルは、複数のチャネルを含み、複数のチャネル内の各々のチャネルは、それぞれのボクセルに対応する三次元空間充填多面体セルで生じ得る異なる特性を表す。所与のボクセルに対して可能なチャネルの数は、原子の追加の特徴（例えば、部分電荷、タンパク質標的に対する配位子の存在、電気陰性度、又はＳＹＢＹＬ原子タイプ）が、各ボクセルに対して独立したチャネルとして更に提示される実施形態では更に高く、そうでなければ同等な原子を区別するためにより多くの入力チャネルが必要となる。

【0164】

いくつかの実施形態では、各ボクセルは、５個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、１５個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、２０個以上の入力チャネル、２５個以上の入力チャネル、３０個以上の入力チャネル、５０個以上の入力チャネル、又は１００個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、以下の表１に含まれている記述子から選択された５個以上の入力チャネルを有する。例えば、いくつかの実施形態では、各ボクセルは、５個以上のチャネルを有し、各々、バイナリカテゴリ変数として符号化され、各々のそのようなチャネルは、以下の表１から選択されたＳＹＢＹＬ原子タイプを表す。例えば、いくつかの実施形態では、ボクセルマップ内の各それぞれのボクセルは、それぞれのボクセルによって表される所与の試験物体－標的物体（又は訓練物体－標的物体）複合体の空間内のグリッドがｓｐ３炭素を包含する場合、チャネルは第１の値（例えば、「１」）を採用し、そうでなければ第２の値（例えば、「０」）であることを意味する、Ｃ．３（ｓｐ３炭素）原子タイプのチャネルを含む。

【0165】

【表1-1】

【0166】

【表1-2】

【0167】

いくつかの実施形態では、各ボクセルは、上記の表１に含まれている記述子から選択された１０個以上の入力チャネル、１５個以上の入力チャネル、又は２０個以上の入力チャネルを含む。いくつかの実施形態では、各ボクセルは、ハロゲン用のチャネルを含む。

【0168】

いくつかの実施形態では、第１の構造タンパク質配位子相互作用フィンガープリント（ＳＰＬＩＦ）スコアは、それぞれの訓練化合物の正のポーズ４８に対して生成され、第２のＳＰＬＩＦは、訓練化合物の負のポーズ６０に対して生成される。そのような実施形態では、これらのＳＰＬＩＦスコアは、基本的なニューラルネットワークへの追加の入力として使用されるか、又はボクセルマップで個別に符号化される。ＳＰＬＩＦの説明については、ＤａａｎｄＫｉｒｅｅｖ，２０１４，Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．５４，ｐｐ．２５５５－２５６１，“ＳｔｒｕｃｔｕｒａｌＰｒｏｔｅｉｎ－ＬｉｇａｎｄＩｎｔｅｒａｃｔｉｏｎＦｉｎｇｅｒｐｒｉｎｔｓ（ＳＰＬＩＦ）ｆｏｒＳｔｒｕｃｔｕｒｅ－ＢａｓｅｄＶｉｒｔｕａｌＳｃｒｅｅｎｉｎｇ：ＭｅｔｈｏｄａｎｄＢｅｎｃｈｍａｒｋＳｔｕｄｙ”を参照されたく、これは参照によりその全体が本明細書に組み込まれる。ＳＰＬＩＦは、訓練化合物の相互作用するフラグメントと標的ポリマー３８との間に発生し得る全ての可能な相互作用タイプ（例えば、π－π、ＣＨ－πなど）を暗黙で符号化する。第１のステップでは、訓練化合物－標的ポリマー３８の分子間接触を検査する。２つの原子間の距離が、特定の閾値内（例えば、４．５Å内）である場合、それらは、接触しているとみなされる。そのような各分子間原子対に対して、それぞれの訓練原子及び標的ポリマー原子は、円形のフラグメント、例えば、問題の原子及びそれぞれの連続した近傍を特定の距離まで含むフラグメントに拡張される。各タイプの円形のフラグメントは、識別子を割り当てられる。いくつかの実施形態では、そのような識別子は、それぞれのボクセル内の個々のチャネルで符号化される。いくつかの実施形態では、パイプラインパイロットソフトウェアで定義されるように、第１の最も近い隣接物（ＥＣＦＰ２）までの拡張接続フィンガープリントを使用することができる。ＰｉｐｅｌｉｎｅＰｉｌｏｔ，ｖｅｒ．８．５，ＡｃｃｅｌｒｙｓＳｏｆｔｗａｒｅＩｎｃ．，２００９を参照されたく、これは参照によりその全体が本明細書に組み込まれる。ＥＣＦＰは、全ての原子／結合タイプに関する情報を保持し、１つの一意の整数識別子を使用して、１つの下部構造（例えば、円形のフラグメント）を表す。ＳＰＬＩＦフィンガープリントは、含まれる全ての円形のフラグメント識別子を符号化する。いくつかの実施形態では、ＳＰＬＩＦフィンガープリントは、個々のボクセルを符号化されないが、以下で考察されるニューラルネットワーク２４における別個の独立した入力として機能する。

【0169】

いくつかの実施形態では、ＳＰＬＩＦではなく、又はそれに加えて、構造相互作用フィンガープリント（ＳＩＦｔ）は、標的ポリマーに対する所与の訓練化合物の各ポーズ（正のポーズ４８及び負のポーズ６０）に対して算出され、かつ、ニューラルネットワーク２４への入力として独立して提供されるか、又はボクセルマップで符号化される。ＳＩＦｔの計算については、Ｄｅｎｇｅｔａｌ．，２００３，“ＳｔｒｕｃｔｕｒａｌＩｎｔｅｒａｃｔｉｏｎＦｉｎｇｅｒｐｒｉｎｔ（ＳＩＦｔ）：ＡＮｏｖｅｌＭｅｔｈｏｄｆｏｒＡｎａｌｙｚｉｎｇＴｈｒｅｅ－ＤｉｍｅｎｓｉｏｎａｌＰｒｏｔｅｉｎ－ＬｉｇａｎｄＢｉｎｄｉｎｇＩｎｔｅｒａｃｔｉｏｎｓ”Ｊ．Ｍｅｄ．Ｃｈｅｍ．４７（２），ｐｐ．３３７－３４４を参照されたく、これは参照によりその全体が本明細書に組み込まれる。

【0170】

いくつかの実施形態では、ＳＰＬＩＦ及びＳＩＦＴではなく、又はそれらに加えて、原子対ベース相互作用フラグメント（ＡＰＩＦ）は、標的ポリマー３８に対する所与の訓練化合物の各ポーズ（正のポーズ４８及び負のポーズ６０）に対して算出され、かつ、ニューラルネットワーク２４への入力として独立して提供されるか、又はボクセルマップで個別に符号化される。ＡＰＩＦの計算については、Ｐｅｒｅｚ－Ｎｕｅｎｏｅｔａｌ．，２００９，“ＡＰＩＦ：ａｎｅｗｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔｂａｓｅｄｏｎａｔｏｍｐａｉｒｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ”Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．４９（５），ｐｐ．１２４５－１２６０を参照されたく、これは参照によりその全体が本明細書に組み込まれる。

【0171】

データ表現は、例えば、分子／タンパク質に関連付けられた様々な構造的関係の式を可能にする方法で符号化され得る。幾何学的表現は、様々な実施形態によれば、様々な方法及びトポグラフィで実装され得る。幾何学的表現は、データの視覚化及び分析のために使用される。例えば、ある実施形態では、ジオメトリは、２－Ｄ、３－Ｄデカルト／ユークリッド空間、３－Ｄ非ユークリッド空間、マニホールドなどの様々なトポグラフィ上にレイアウトされたボクセルを使用して表され得る。例えば、図４は、ある実施形態による、一連のサブコンテナを含むサンプルの三次元グリッド構造４００を示す。各サブコンテナ４０２は、ボクセルに対応し得る。座標系は、各サブコンテナが識別子を有するように、グリッドのために定義され得る。開示されたシステム及び方法のいくつかの実施形態では、座標系は、３－Ｄ空間におけるデカルト系であるが、システムの他の実施形態では、座標系は、とりわけ、偏球、円筒座標系又は球面座標系、極座標系、様々なマニホールド及びベクトル空間用に設計された他の座標系などの任意の他のタイプの座標系であり得る。いくつかの実施形態では、ボクセルは、それぞれに関連付けられた特定の値を有し得、これは、例えば、とりわけ、標識を適用すること、及び／又はそれぞれの位置決めを判定することによって表され得る。

【0172】

ニューラルネットワークは固定の入力サイズを必要とするため、開示されたシステム及び方法のいくつかの実施形態は、幾何学的データ（標的試験又は標的訓練物体複合体）を、適切な境界ボックス内に収まるようにトリミングする。例えば、側面に対する２５～４０Åの立方体が使用され得る。標的及び／又は試験物体が標的物体５８の活性部位にドケッティングされているいくつかの実施形態では、活性部位の中心は、立方体の中心として機能する。

【0173】

いくつかの実施形態では、標的ポリマー３８の活性部位を中心とする固定寸法の四角い立方体が、空間をボクセルグリッドに分割するために使用されるが、開示されたシステムは、そのように限定されない。いくつかの実施形態では、様々な形状のいずれかが、空間をボクセルグリッドに分割するために使用される。いくつかの実施形態では、直角プリズム、多面体形状などの多面体を使用して空間を分割する。

【0174】

ある実施形態では、グリッド構造は、ボクセルの配置に類似するように構成され得る。例えば、各サブ構造は、分析される各原子に対してチャネルに関連付けられ得る。また、各原子を数値的に表すための符号化方法が提供され得る。

【0175】

いくつかの実施形態では、ボクセルマップは、（例えば、訓練化合物ポーズ及び標的ポリマーの分子力学の実行に沿った）時間の因子を考慮し、したがって、四次元（Ｘ、Ｙ、Ｚ、及び時間）であり得る。

【0176】

いくつかの実施形態では、画素、点、多角形、多面体、又は複数の次元の任意の他のタイプの形状（例えば、３Ｄ、４Ｄなどの形状）などの他の実施態様は、ボクセルの代わりに使用され得る。

【0177】

いくつかの実施形態では、幾何学的データは、空洞フラッディングアルゴリズムによって判定されるように、標的ポリマー３８の結合部位の質量中心であるように、Ｘ座標、Ｙ座標及びＺ座標の原点を選択することによって正規化される。そのようなアルゴリズムの代表的な詳細については、ＨｏａｎｄＭａｒｓｈａｌｌ，１９９０，“Ｃａｖｉｔｙｓｅａｒｃｈ：Ａｎａｌｇｏｒｉｔｈｍｆｏｒｔｈｅｉｓｏｌａｔｉｏｎａｎｄｄｉｓｐｌａｙｏｆｃａｖｉｔｙ－ｌｉｋｅｂｉｎｄｉｎｇｒｅｇｉｏｎｓ”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ－ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ４，ｐｐ．３３７－３５４及びＨｅｎｄｌｉｃｈｅｔａｌ．，１９９７，“Ｌｉｇｓｉｔｅ：ａｕｔｏｍａｔｉｃａｎｄｅｆｆｉｃｉｅｎｔｄｅｔｅｃｔｉｏｎｏｆｐｏｔｅｎｔｉａｌｓｍａｌｌｍｏｌｅｃｕｌｅ－ｂｉｎｄｉｎｇｓｉｔｅｓｉｎｐｒｏｔｅｉｎｓ”Ｊ．Ｍｏｌ．Ｇｒａｐｈ．Ｍｏｄｅｌ１５：６を参照されたく、これらは各々、参照によりその全体が本明細書に組み込まれる。代替的に、いくつかの実施形態では、ボクセルマップの原点は、（標的ポリマーに結合したそれぞれのポーズ－正のポーズ４８又は負のポーズ６０－でドッキングされた訓練化合物の）共複合体全体の質量中心を中心とする。いくつかの実施形態では、ボクセルマップの原点は、訓練化合物の質量中心を中心とする。いくつかの実施形態では、ボクセルマップの原点は、標的ポリマー３８の質量中心を中心とする。基底ベクトルは、任意選択的に、共複合体全体、標的ポリマーのみ、又は訓練化合物のみの主慣性モーメントであるように選択され得る。いくつかの実施形態では、標的ポリマー３８は、活性部位を有し、サンプリングは、正のポーズ４８及び負のポーズ６０の両方で訓練化合物をサンプリングし、活性部位の質量中心が、原点、及びサンプリング用の対応する三次元の均一なハニカムとしてとられる三次元グリッドベースでの活性部位は、質量中心を中心とするポリマー及び訓練化合物の一部を表す。いくつかの実施形態では、均一なハニカムは、規則的な立方体のハニカムであり、ポリマー及び試験物体の一部分は、所定の固定寸法の立方体である。そのような実施形態では、所定の固定寸法の立方体の使用により、幾何学的データの関連部分が使用され、各ボクセルマップが同じサイズであることを確実にする。いくつかの実施形態では、立方体の所定の固定寸法は、ＮÅ×ＮÅ×ＮÅであり、式中、Ｎは、５～１００の整数若しくは実数、８～５０の整数、又は１５～４０の整数である。いくつかの実施形態では、均一なハニカムは、直角プリズムハニカムであり、ポリマー及び訓練化合物の部分は、直角プリズム所定の固定寸法ＱÅ×ＲÅ×ＳÅであり、式中、Ｑは、５～１００の第１の整数であり、Ｒは、５～１００の第２の整数であり、Ｓは、５～１００の第３の整数又は実数であり、セット｛Ｑ，Ｒ，Ｓ｝内の少なくとも１つの数は、セット｛Ｑ，Ｒ，Ｓ｝内の別の値に等しくない。

【0178】

ある実施形態では、全てのボクセルは、１つ以上の入力チャネルを有し、入力チャネルは、それぞれに関連付けられた様々な値を有し得、単純な実装では、オン／オフであり得、あるタイプの原子に対して符号化するように構成され得る。原子タイプは、原子の元素を表示し得るか、又は原子タイプは、他の原子の特徴を区別するために更に精緻化され得る。次いで、存在している原子は、各ボクセルで符号化され得る。様々なタイプの符号化は、様々な技術及び／又は方法論を使用して利用され得る。例示的な符号化方法として、原子の原子番号が利用され得、水素の１からウンウンオクチウム（又は任意の他の元素）の１１８までのボクセルごとに１つの値を生じる。

【0179】

しかしながら、上記で考察されるように、「ワンホット符号化」などの他の符号化方法を利用し得、各ボクセルは、それぞれオン又はオフのいずれかであり、あるタイプの原子に対して符号化する、多くの並列入力チャネルを有する。原子タイプは、原子の元素を表示し得るか、又は原子タイプは、他の原子の特徴を区別するために更に精緻化され得る。例えば、ＳＹＢＹＬ原子タイプは、単一結合炭素を、二重結合炭素、三重結合炭素、又は芳香族炭素と区別する。ＳＹＢＹＬ原子タイプについては、Ｃｌａｒｋｅｔａｌ．，１９８９，“ＶａｌｉｄａｔｉｏｎｏｆｔｈｅＧｅｎｅｒａｌＰｕｒｐｏｓｅＴｒｉｐｏｓＦｏｒｃｅＦｉｅｌｄ，１９８９，Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．１０，ｐｐ．９８２－１０１２を参照されたく、これは参照により本明細書に組み込まれる。

【0180】

いくつかの実施形態では、各ボクセルは、標的ポリマー３８の一部である原子、又は訓練化合物の一部に対する補因子を区別するための１つ以上のチャネルを更に含む。例えば、一実施形態では、各ボクセルは、標的ポリマー３８用の第１のチャネル及び訓練化合物用の第２のチャネルを更に含む。ボクセルによって表される空間の部分における原子が、標的ポリマー３８からである場合、第１のチャネルは、「１」などの値に設定され、そうでなければゼロである（例えば、ボクセルによって表される空間の部分が、原子を含まないか、又は訓練化合物からの１つ以上の原子を含むため）。更に、ボクセルによって表される空間の部分における原子が、訓練化合物からである場合、第２のチャネルは、「１」などの値に設定され、そうでなければゼロである（例えば、ボクセルによって表される空間の部分が、原子を含まないか、又は標的ポリマー３８からの１つ以上の原子を含むため）。同様に、他のチャネルは、追加的に（又は代替的に）部分電荷、分極率、電気陰性度、溶媒接触可能空間、及び電子密度などの更なる情報を指定し得る。例えば、いくつかの実施形態では、標的物体の電子密度マップは、三次元座標のセットを覆い、ボクセルマップの作成は、電子密度マップを更にサンプリングする。好適な電子密度マップの例としては、複数の同形の置換マップ、異常信号マップを有する単一の同形置換、単一波長異常分散マップ、多波長異常分散マップ、及び２Ｆｏ－Ｆｃマップが挙げられるが、これらに限定されない（２６０）。ＭｃＲｅｅ，１９９３，ＰｒａｃｔｉｃａｌＰｒｏｔｅｉｎＣｒｙｓｔａｌｌｏｇｒａｐｈｙ，ＡｃａｄｅｍｉｃＰｒｅｓｓを参照されたく、これは参照により本明細書に組み込まれる。

【0181】

いくつかの実施形態では、開示されたシステム及び方法によるボクセル符号化は、追加の任意の符号化改良を含み得る。以下の２つが、例として提供される。

【0182】

第１の符号化改良では、必要なメモリは、大部分の元素が生物学的システムにめったに発生しないことに基づいて、ボクセルによって表される原子のセットを低減することによって（例えば、ボクセルによって表されるチャネルの数を低減することによって）低減され得る。原子は、希原子を組み合わせることによるか（したがって、システムの性能にほとんど影響を与えない場合がある）、又は類似した特性を有する原子を組み合わせることによるか（したがって、組み合わせからの不正確さを最小限に抑え得る）のいずれかにより、ボクセル内の同じチャネルを共有するようにマッピングされ得る。いくつかの実施形態では、２個、３個、４個、５個、６個、７個、８個、９個、又は１０個の異なる原子が、ボクセル内の同じチャネルを共有する。

【0183】

符号化の改良は、隣接ボクセルを部分的に活性化することによって、ボクセルが原子の位置を表すようにすることである。これは、後続のニューラルネットワークにおける隣接ニューロンの部分的な活性化をもたらし、ワンホット符号化から「複数ウォーム（ｓｅｖｅｒａｌ－ｗａｒｍ）」符号化に移行する。例えば、１Å^３グリッドが配列されるときに、ファンデルワールス径が３．５Å、したがって体積が２２．４Å^３である塩素原子を考慮することが例示的であり得、塩素原子内のボクセルは、完全に充填され、原子の端縁でのボクセルは、部分的に充填されるだけである。したがって、部分的に充填されたボクセル内の塩素を表すチャネルは、そのようなボクセルが塩素原子内に収まる量に比例してオンになる。例えば、ボクセル体積の５０％が塩素原子内に収まる場合、塩素を表すボクセル内のチャネルは、５０％活性化される。これは、離散ワンホット符号化に対して「平滑化された」より正確な表現をもたらし得る。したがって、いくつかの実施形態では、サンプリングで発生した原子の特徴は、ボクセルマップ内のボクセルのサブセットに分散され、ボクセルのこのサブセットは、２個以上のボクセル、３個以上のボクセル、５個以上のボクセル、１０個以上のボクセル、又は２５個以上のボクセルを含む。いくつかの実施形態では、原子の特徴は、原子タイプ（例えば、ＳＹＢＹＬ原子タイプのうちの１つ）の列挙からなる。

【0184】

したがって、符号化された幾何学的データのボクセル化（ラスタ化）（試験又は訓練物体の標的物体へのドッキング）は、入力データに適用された様々なルールに基づいている。

【0185】

図５及び図６は、いくつかの実施形態による、ボクセルの二次元グリッド５００上に符号化された２つの分子５０２の図を提供する。図５は、二次元グリッド上に重畳された２つの分子を提供する。図６は、異なる斜線パターンを使用して、酸素、窒素、炭素、及び空きスペースの存在をそれぞれ符号化する、ワンホット符号化を提供する。上で述べられるように、そのような符号化は、「ワンホット」符号化と称され得る。図６は、分子５０２を省略した図５のグリッド５００を示す。図７は、ボクセルに番号が付けられた図６のボクセルの二次元グリッドの図を提供する。

【0186】

いくつかの実施形態では、特徴形状は、ボクセル以外の形態で表される。図８は、特徴（例えば、原子中心）が０－Ｄ点（表現８０２）、１－Ｄ点（表現８０４）、２－Ｄ点（表現８０６）、又は３－Ｄ点（表現８０８）として表現されている様々な表現の図を提供する。最初に、点間の間隔は、無作為に選択され得る。しかしながら、予測モデルが訓練されるにつれて、点は、互いに近づき得るか、又はより遠くに離れ得る。

【0187】

いくつかの実施形態では、入力された表現は、三次元座標を含むが、これらに限定されない、特徴の１Ｄアレイの形態であり得る。

【0188】

いくつかの実施形態では、ニューラルネットワーク２４は、グラフ重畳型ニューラルネットワークである。グラフ重畳型ニューラルネットワークの非限定的な例は、ＢｅｈｌｅｒＰａｒｒｉｎｅｌｌｏ，２００７，“ＧｅｎｅｒａｌｉｚｅｄＮｅｕｒａｌ－ＮｅｔｗｏｒｋＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＨｉｇｈＤｉｍｅｎｓｉｏｎａｌＰｏｔｅｎｔｉａｌ－ＥｎｅｒｇｙＳｕｒｆａｃｅｓ，”ＰｈｙｓｉｃａｌＲｅｖｉｅｗＬｅｔｔｅｒｓ９８，１４６４０１、Ｃｈｍｉｅｌａｅｔａｌ．，２０１７，“Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｏｆａｃｃｕｒａｔｅｅｎｅｒｇｙ－ｃｏｎｓｅｒｖｉｎｇｍｏｌｅｃｕｌａｒｆｏｒｃｅｆｉｅｌｄｓ，”ＳｃｉｅｎｃｅＡｄｖａｎｃｅｓ３（５）：ｅ１６０３０１５、Ｓｃｈｕｅｔｔｅｔａｌ．，２０１７，“ＳｃｈＮｅｔ：Ａｃｏｎｔｉｎｕｏｕｓ－ｆｉｌｔｅｒｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｍｏｄｅｌｉｎｇｑｕａｎｔｕｍｉｎｔｅｒａｃｔｉｏｎｓ，”ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ３０，ｐｐ．９９２－１００２、Ｆｅｉｎｂｅｒｇｅｔａｌ．，２０１８，“ＰｏｔｅｎｔｉａｌＮｅｔｆｏｒＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｙＰｒｅｄｉｃｔｉｏｎ，”ＡＣＳＣｅｎｔ．Ｓｃｉ．４，１１，１５２０－１５３０、及びＳｔａｆｆｏｒｄｅｔａｌ．，“ＡｔｏｍＮｅｔＰｏｓｅＲａｎｋｅｒ：ＥｎｒｉｃｈｉｎｇＬｉｇａｎｄＰｏｓｅＱｕａｌｉｔｙｆｏｒＤｙｎａｍｉｃＰｒｏｔｅｉｎｓｉｎＶｉｒｔｕａｌＨｉｇｈＴｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｓ，”ｈｔｔｐｓ：／／ｃｈｅｍｒｘｉｖ．ｏｒｇ／ｅｎｇａｇｅ／ｃｈｅｍｒｘｉｖ／ａｒｔｉｃｌｅ－ｄｅｔａｉｌｓ／６１４ｂ９０５ｅ３９ｅｆ６ａ１ｃ３６２６８００３に開示されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0189】

いくつかの実施形態では、ニューラルネットワークは、等変量ニューラルネットワークである。等変量重畳型ニューラルネットワークの非限定的な例は、Ｔｈｏｍａｓｅｔａｌ．，２０１８，“Ｔｅｎｓｏｒｆｉｅｌｄｎｅｔｗｏｒｋｓ：Ｒｏｔａｔｉｏｎ－ａｎｄｔｒａｎｓｌａｔｉｏｎ－ｅｑｕｉｖａｒｉａｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒ３Ｄｐｏｉｎｔｃｌｏｕｄｓ，”ａｒＸｉｖ：１８０２．０８２１９、Ａｎｄｅｒｓｏｎｅｔａｌ．，２０１９，“Ｃｏｒｍｏｒａｎｔ：ＣｏｖａｒｉａｎｔＭｏｌｅｃｕｌａｒＮｅｕｒａｌＮｅｔｗｏｒｋｓ，”ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ、Ｊｏｈａｎｎｅｓｅｔａｌ．，２０２０，“ＤｉｒｅｃｔｉｏｎａｌＭｅｓｓａｇｅＰａｓｓｉｎｇＦｏｒＭｏｌｅｃｕｌａｒＧｒａｐｈｓ，”ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ、Ｔｏｗｎｓｈｅｎｄｅｔａｌ．，２０２１，“ＡＴＯＭ３Ｄ：ＴａｓｋｓＯｎＭｏｌｅｃｕｌｅｓｉｎＴｈｒｅｅＤｉｍｅｎｓｉｏｎｓ，”ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ、Ｊｉｎｇｅｔａｌ．，２００９，“ＬｅａｒｎｉｎｇｆｒｏｍＰｒｏｔｅｉｎＳｔｒｕｃｔｕｒｅｗｉｔｈＧｅｏｍｅｔｒｉｃＶｅｃｔｏｒＰｅｒｃｅｐｔｒｏｎｓ，”ａｒＸｉｖ：２００９．０１４１１、及びＳａｔｏｒｒａｓｅｔａｌ．，２０２１，“Ｅ（ｎ）ＥｑｕｉｖａｒｉａｎｔＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ，”ａｒＸｉｖ：２１０２．０９８４４に開示されており、これらは各々、参照によりその全体が本明細書に組み込まれる。

【0190】

【0191】

ボクセルマップを、対応するベクトルに展開する。各ボクセルマップ（例えば、正のボクセルマップ５２及び負のボクセルマップ６４）は、任意選択的に、対応するベクトル（例えば、訓練データセット４０の各訓練化合物に対する正のベクトル５４及び負のベクトル６６）に展開される。いくつかの実施形態では、そのような各ベクトルは、一次元ベクトルである。例えば、いくつかの実施形態では、各側面の２０Åの立方体は、標的ポリマー３８の活性部位を中心とし、１Åの三次元固定グリッド間隔でサンプリングされて、上記で考察されるように、原子タイプ、及び、任意選択的に、より複雑な訓練化合物－標的ポリマー記述子などのボクセル構造特徴の基本的なそれぞれのチャネルに適用される、ボクセルマップの対応するボクセルを形成する。いくつかの実施形態では、この三次元ボクセルマップのボクセルは、一次元浮動小数点ベクトルに展開される。

【0192】

いくつかの実施形態では、ボクセルマップ（例えば、訓練データセット４０の各訓練化合物に対する正のベクトル５４及び負のベクトル６６）のベクトル化された表現は、ニューラルネットワーク２４に供される。いくつかの実施形態では、図１Ｂに示されるように、ボクセルマップのベクトル化された表現は、査定モジュール２０、及びニューラルネットワーク２４とともにＧＰＵメモリ５２に格納される。これは、ニューラルネットワーク２４を通してより速い速度でボクセルマップのベクトル化された表現を処理することの利点を提供する。しかしながら、他の実施形態では、ボクセルマップのベクトル化された表現（例えば、訓練データセット４０の各訓練化合物に対する正のベクトル５４及び負のベクトル６６）、査定モジュール２０、及びニューラルネットワーク２４のいずれか又は全ては、システム１００のメモリ９２内にあるか、又は単にネットワーク全域でシステム９２によってアドレス指定可能である。いくつかの実施形態では、ボクセルマップのベクトル化された表現、査定モジュール２０、及びニューラルネットワーク２４のいずれか又は全ては、クラウドコンピューティング環境にある。

【0193】

いくつかの実施形態では、ベクトル（例えば、訓練データセット４０の各訓練化合物に対する正のベクトル５４及び負のベクトル６６）は、図形処理ユニットメモリ５２に提供され、図形処理ユニットメモリは、複数のベクトルを順次受け取るための入力層２６、任意選択的に、複数の畳み込み層２８、及びスコアラ３０を含むニューラルネットワーク２４を含む、ネットワークアーキテクチャを含む。いくつかの実施形態では、任意の複数の畳み込み層は、初期畳み込み層及び最終畳み込み層を含む。いくつかの実施形態では、ニューラルネットワーク２４は、ＧＰＵメモリ内にはないが、システム１００の汎用メモリ内にある。いくつかの実施形態では、ボクセルマップは、ネットワーク２４に入力される前にベクトル化されない。

【0194】

畳み込み層２８のユーザを作るいくつかの実施形態では、複数の畳み込み層の畳み込み層２８は、学習可能なフィルタ（カーネルとも呼ばれる）のセットを備える。各フィルタは、畳み込み層の入力体積の深さ、高さ、及び幅にわたって畳み込まれる（所定のステップレートでステップされる）固定された三次元サイズを有し、フィルタのエントリ（重み、又はより一般的にはパラメータ）と入力との間のドット積（又は他の関数）を算出し、それによって、そのフィルタの多次元活性化マップを作成する。いくつかの実施形態では、フィルタのステップレートは、入力空間の１個の要素、２個の要素、３個の要素、４個の要素、５個の要素、６個の要素、７個の要素、８個の要素、９個の要素、１０個の要素、又は１０個よりも多い要素である。したがって、フィルタのサイズが５^３の場合を考慮する。いくつかの実施形態では、このフィルタは、ボクセルチャネル当たり１２５個の入力空間の値の総数に対し、５個の要素からなる深さ、５個の要素からなる幅、及び５個の要素からなる高さを有する入力空間の連続した立方体の間のドット積（又は他の数学的関数）を算出する。

【0195】

初期畳み込み層（例えば、入力層２６からの出力）への入力空間は、ボクセルマップ、又はボクセルマップのベクトル化された表現（例えば、訓練データセット４０の各訓練化合物に対する正のベクトル５４及び負のベクトル６６）のいずれかから形成される。いくつかの実施形態では、ボクセルマップのベクトル化された表現は、初期畳み込み層への入力空間として機能するボクセルマップの一次元ベクトル化された表現である。それにもかかわらず、フィルタが、その入力空間を畳み込み、入力空間が、ボクセルマップの一次元ベクトル化された表現である場合、フィルタは、それでも一次元ベクトル化された表現から、標的ポリマー３８－訓練化合物複合体の固定空間の対応する連続した立方体を表す要素を取得する。いくつかの実施形態では、フィルタは、簿記技術を使用して、標的ポリマー３８－訓練化合物複合体の固定空間の対応する連続した立方体を形成する一次元ベクトル化された表現の中から、それらの要素を選択する。したがって、いくつかの例では、これは、標的ポリマー３８－訓練化合物複合体の固定空間の対応する連続した立方体の要素値を取得するために、一次元ベクトル化された表現における要素の非連続的なサブセットを取ることを必然的に伴う。

【0196】

いくつかの実施形態では、フィルタは、フィルタに対応する活性化層の第１の単一値（又は値のセット）を算出するために、１２５個の入力空間値のドット積（又は図１４に開示される関数などの、他の何らかの形態の数学的演算）を取るための（入力チャネル当たり）１２５個の対応する重みを有するように（例えば、ガウスノイズに）初期化されるか、訓練される。いくつかの実施形態では、フィルタによって算出された値は、合計され、重み付けされ、及び／又はバイアスされる。フィルタに対応する活性化層の加算値を算出するために、フィルタは、次いで、フィルタに関連付けられたステップレート（ストライド）によって入力体積の三次元のうちの１つでステップ（畳み込み）され、そこで、フィルタ重みと（チャネル当たり）１２５個の入力空間値のドット積（又は図１７に開示される数学的関数などの、他の何らかの形態の数学的演算）が、入力体積内の新しい場所で取られる。このステップすること（畳み込み）は、フィルタがステップレートに従って入力空間全体をサンプリングするまで繰り返される。いくつかの実施形態では、入力空間の辺縁は、畳み込み層によって生成された出力空間の空間体積を制御するために、ゼロパディングされる。典型的な実施形態では、畳み込み層のフィルタの各々は、このようにして三次元入力体積全体をキャンバスで覆い、それによって、対応する活性化マップを形成する。畳み込み層のフィルタからの活性化マップの集合は、１つの畳み込み層の三次元出力体積をまとめて形成し、それによって、後続の畳み込み層の三次元（３つの空間次元）入力として機能する。したがって、出力体積内の全てのエントリはまた、畳み込み層への入力空間内の小さい領域を見て、同じ活性化マップ内のニューロンとパラメータを共有する単一のニューロン（又はニューロンのセット）の出力として解釈することもできる。したがって、いくつかの実施形態では、複数の畳み込み層の畳み込み層は、複数のフィルタを有し、複数のフィルタの各フィルタは、（３つの空間次元で）ストライドＹを有するＮ^３の立体入力空間を畳み込み、ここで、Ｎは、２つ以上（例えば、２、３、４、５、６、７、８、９、１０、又は１０超）の整数であり、Ｙは、正の整数（例えば、１、２、３、４、５、６、７、８、９、１０、又は１０超）である。

【0197】

複数の畳み込み層の各層は、異なる重みのセット、又はより一般的には異なるパラメータのセットに関連付けられている。より詳細には、複数の畳み込み層の各層は、複数のフィルタを含み、各フィルタは、独立した複数のパラメータ（例えば、重み）を含む。いくつかの実施形態では、畳み込み層は、次元５^３の１２８個のフィルタを有し、したがって、畳み込み層は、ボクセルマップ内のチャネル当たり１２８×５×５×５すなわち１６，０００個のパラメータ（例えば、重み）を有する。したがって、ボクセルマップに５つのチャネルがある場合、畳み込み層は、１６，０００×５個のパラメータ（例えば、重み）、すなわち８０，０００個パラメータ（例えば、重み）を有する。いくつかの実施形態では、所与の畳み込み層内の全てのフィルタの一部又は全部のそのようなパラメータ（及び、任意選択的に、バイアス）は、ともに結び付けられ、例えば、同一であるように制約され得る。

【0198】

それぞれのベクトル（例えば、正のベクトル５４又は負のベクトル６６）の入力に応答して、入力層２６は、それぞれのベクトル内の値の第１の関数として、第１の複数の値を初期畳み込み層に供給し、第１の関数は、任意選択的に、図形処理ユニット５０を使用して算出される。いくつかの実施形態では、コンピュータシステム１００は、２つ以上の図形処理ユニット５０を有する。

【0199】

最終畳み込み層以外の各それぞれの畳み込み層２８は、（ｉ）それぞれの畳み込み層に関連付けられたパラメータ（例えば、重み）の異なるセット及び（ｉｉ）それぞれの畳み込み層によって受け取られた入力値のそれぞれの第２の関数として、中間値を複数の畳み込み層の別の畳み込み層に供給する。いくつかの実施形態では、第２の関数は、図形処理ユニット５０を使用して算出される。例えば、いくつかの実施形態では、それぞれの畳み込み層２８の各それぞれのフィルタは、畳み込み層の特徴的な三次元ストライドに従って、畳み込み層に対して入力体積を（３つの空間次元で）キャンバスで覆い、各それぞれのフィルタ位置において、それぞれのフィルタのフィルタパラメータ（例えば、重み）と、それぞれのフィルタ位置における入力体積の値（総入力空間のサブセットである連続した立方体）のドット積（又は他の何らかの数学的関数）を取り、それによって、それぞれのフィルタ位置に対応する活性化層上の計算されたポイント（又はポイントのセット）を生成する。それぞれの畳み込み層のフィルタの活性化層は、それぞれの畳み込み層の中間値をまとめて表す。

【0200】

最終畳み込み層は、（ｉ）最終畳み込み層に関連付けられた異なるパラメータのセット（例えば、重み）及び（ｉｉ）任意選択的に、図形処理ユニット５０を使用して算出される最終畳み込み層によって受け取られた入力値の第３の関数として、最終値をスコアラに供給する。例えば、最終畳み込み層２８の各それぞれのフィルタは、畳み込み層の特徴的な三次元ストライドに従って、最終畳み込み層に対して入力体積を（３つの空間次元で）キャンバスで覆い、各それぞれのフィルタ位置において、フィルタのフィルタ重みと、それぞれのフィルタ位置における入力体積の値のドット積（又は他の何らかの数学的関数）を取り、それによって、それぞれのフィルタ位置に対応する活性化層上の計算されたポイント（又はポイントのセット）を計算する。最終畳み込み層のフィルタの活性化層は、スコアラ３０に供給される最終値をまとめて表す。

【0201】

いくつかの実施形態では、重畳型ニューラルネットワークは、１つ以上の活性化層を有する。いくつかの実施形態では、活性化層は、非飽和活性化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）を適用するニューロンの層である。それは、畳み込み層の受容野に影響を与えずに、決定関数及び全体ネットワークの非線形特性を増加させる。他の実施形態では、活性化層は、非線形性を増加させるための他の関数、例えば、飽和双曲線正接関数ｆ（ｘ）＝ｔａｎｈ，ｆ（ｘ）＝│ｔａｎｈ（ｘ）│、及びシグモイド関数、及びシグモイド関数ｆ（ｘ）＝（１＋ｅ^－ｘ）^－１を有する。ニューラルネットワークのためのいくつかの実施形態では、他の活性化層に含まれている他の活性化関数の非限定的な例としては、ロジスティック（又はシグモイド）、ソフトマックス、ガウス、ボルツマン重み付け平均化、絶対値、線形、整流線形、有界整流線形、ソフト整流線形、パラメータ化整流線形、平均、最大、最小、何らかのベクトルノルムＬＰ（ｐ＝１、２、３、…、∞の場合）、符号、平方、平方根、複二次、逆二次、逆複二次、多高調波スプライン、及び薄板スプラインが挙げられ得るが、これらに限定されない。

【0202】

ネットワーク２４は、入力内の何らかの空間位置において、何らかの特定のタイプの特徴を見たときに活性化する畳み込み層２８内のフィルタを学習する。いくつかの実施形態では、畳み込み層内の各フィルタの初期パラメータ（例えば、重み）は、化合物訓練ライブラリに対して重畳型ニューラルネットワークを訓練することによって、取得される。したがって、重畳型ニューラルネットワーク２４の動作により、結合親和性予測を実施するために歴史的に使用された特徴よりも複雑な特徴を生じ得る。例えば、水素結合検出器として機能するネットワーク２４の所与の畳み込み層内のフィルタは、水素結合ドナー及びアクセプターが、所与の距離及び角度にあることを認識するだけでなく、ドナー及びアクセプターの周りの生化学的環境が、結合を強める又は弱めることも認識することが可能であり得る。加えて、ネットワーク２４内のフィルタは、基本的なデータ内の結合剤と非結合剤を効果的に区別するように訓練され得る。

【0203】

上で説明されるように、いくつかの実施形態では、ニューラルネットワーク２４は、三次元畳み込み層を形成するように構成される。最下位レベルの畳み込み層２８への入力領域は、受容野からのボクセルチャネルの立方体（又は他の連続した領域）であり得る。より高位の畳み込み層２８は、より低位の畳み込み層からの出力を評価するが、それでもそれぞれの出力を、（３－Ｄユークリッド距離で）互いに近いボクセルの有界領域の関数とする。

【0204】

ある実施形態では、ネットワーク２４は、正規化技術を適用して、モデルの訓練データを過剰適合する傾向を低減するように構成されている。

【0205】

ネットワーク２４内のネットワーク層のうちのゼロ個以上は、プーリング層からなり得る。畳み込み層と同様に、プーリング層は、異なる空間局所的な入力のパッチに同じ関数を適用する関数計算のセットである。プーリング層の場合、出力は、プーリング演算子、例えば、いくつかのボクセルにわたる、ｐ＝１、２、３、…、∞の場合の何らかのベクトルノルムＬＰによって与えられる。プーリングは、典型的には、チャネルにわたってではなく、チャネルごとに行われる。プーリングは、入力空間を三次元ボックスのセットに分割し、そのような各サブ領域に対して、最大値を出力する。プーリング演算は、並進不変の一形態を提供する。プーリング層の機能は、ネットワーク内のパラメータ及び計算の量を低減するために、よってまた、過剰適合も制御するために、表現の空間サイズを漸次的に低減することである。いくつかの実施形態では、プーリング層は、ネットワーク２４内の連続した畳み込み２８層の間に挿入される。そのようなプーリング層は、入力の深さスライスごとに独立して作用し、サイズを空間的に変更する。最大プーリングに加えて、プーリングユニットはまた、平均プーリング又はＬ２－ノルムプーリングなどの他の機能も実行することができる。

【0206】

ネットワーク２４内のゼロ個以上の層は、局所反応正規化又は局所コントラスト正規化などの正規化層からなり得、これらは、同じ位置でチャネルにわたるか、又はいくつかの位置にわたる特定のチャネルに対して適用され得る。これらの正規化層は、同じ入力に対するいくつかの関数計算の応答の多様性を促進し得る。

【0207】

いくつかの実施形態では、スコアラ３０は、複数の完全接続層と、複数の完全接続層の完全接続層が評価層に供給する評価層と、を含む。規則正しいニューラルネットワークに見られるように、完全接続層のニューロンは、前の層の全ての活性化に対する完全接続を有する。よって、その活性化は、バイアスオフセットが続く行列乗算で算出することができる。いくつかの実施形態では、各完全接続層は、５１２個の隠れユニット、１０２４個の隠れユニット、又は２０４８個の隠れユニットを有する。いくつかの実施形態では、スコアラには、完全接続層はない、１個の完全接続層、２個の完全接続層、３個の完全接続層、４個の完全接続層、５個の完全接続層、６個以上の完全接続層、又は１０個以上の完全接続層がある。

【0208】

いくつかの実施形態では、評価層は、複数の活性クラスを区別する。いくつかの実施形態では、評価層は、２つの活性クラス、３つの活性クラス、４つの活性クラス、５つの活性クラス、又は６つ以上の活性クラスにわたるロジスティック回帰コスト層を含む。

【0209】

いくつかの実施形態では、評価層は、複数の活性クラスにわたるロジスティック回帰コスト層を含む。いくつかの実施形態では、評価層は、２つの活性クラス、３つの活性クラス、４つの活性クラス、５つの活性クラス、又は６つ以上の活性クラスにわたるロジスティック回帰コスト層を含む。

【0210】

いくつかの実施形態では、評価層は、２つの活性クラスを区別し、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０又はＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値を下回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩである。いくつかの実施形態では、第１の結合値は、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、又は１ミリモルである。

【0211】

いくつかの実施形態では、評価層は、２つの活性クラスにわたるロジスティック回帰コスト層を含み、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０又はＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値を下回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩである。いくつかの実施形態では、第１の結合値は、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、又はミリモルである。

【0212】

いくつかの実施形態では、評価層は、３つの活性クラスを区別し、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０又はＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値と第２の結合値との間にある標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩであり、第３の活性クラス（第３の分類）は、第２の結合値を下回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩであり、第１の結合値は、第２の結合値以外である。

【0213】

いくつかの実施形態では、評価層は、３つの活性クラスにわたるロジスティック回帰コスト層を含み、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０又はＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値と第２の結合値との間にある標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩであり、第３の活性クラス（第３の分類）は、第２の結合値を下回る標的ポリマーに関する訓練化合物のＩＣ_５０、ＥＣ_５０、又はＫＩであり、第１の結合値は、第２の結合値以外である。

【0214】

いくつかの実施形態では、スコアラ３０は、完全接続単層又は多層パーセプトロンを備える。いくつかの実施形態では、スコアラは、サポートベクターマシン、ランダムフォレスト、最も近い隣接物を含む。いくつかの実施形態では、スコアラ３０は、入力を様々な出力カテゴリに分類する強度（又は確実性又は確率）を示す数値スコアを割り当てる。いくつかの例では、カテゴリは、結合剤及び非結合剤、又は代替的に、効力レベル（例えば、１モル未満、１ミリモル未満、１００マイクロモル未満、１０マイクロモル未満、１マイクロモル未満、１００ナノモル未満、１０ナノモル未満、１ナノモル未満のＩＣ_５０、ＥＣ_５０又はＫＩ効力）である。

【0215】

使用事例。
以下は、本開示のいくつかの実施形態のいくつかの用途を説明する、例示的な目的のためにのみ提供されるサンプル使用事例である。他の使用が考慮され得、以下に提供される実施例は、非限定的であり、変形、省略を受けることがあるか、又は追加の要素を含み得る。

【0216】

ヒット発見。製薬会社は、新規の有望な薬物リードを発見するために、化合物のスクリーニングに数百万ドルを費やしている。大規模な化合物コレクションを試験して、関心対象の疾患標的との任意の相互作用を有するわずかな化合物を発見する。残念ながら、ウェットラボスクリーニングは実験誤差を被り、アッセイ実験を実行するためのコスト及び時間に加えて、大規模なスクリーニングコレクションの収集は、保管の制約、棚安定性、又は化学薬品コストを通じた重要な課題を課す。最大の製薬会社でさえ、数十万から数百万の化合物を有するにすぎないのに対し、数千万の市販の分子及び数億のシミュレート可能な分子がある。

【0217】

物理的実験に対する潜在的により効率的な代替案は、仮想高スループットスクリーニングである。物理学シミュレーションが、モデルが物理的に試験される前に、航空宇宙エンジニアが考えられる翼の設計を評価するのに役立つ場合があるのと同じように、コンピュータによる分子のスクリーニングは、見込みが大いにある分子の小さいサブセットに実験的試験を集中させることができる。これにより、スクリーニングのコスト及び時間を低減し得、偽陰性を低減し、成功率を改善し、及び／又は化学的環境のより広範なスワスを網羅する。

【0218】

本出願では、タンパク質標的が、システムへの入力として提供され得る。分子の大規模なセットもまた提供され得る。各分子に対して、タンパク質標的に対する結合親和性が予測される。結果として生じるスコアは、分子をランク付けするために使用され得、最高得点の分子は、標的タンパク質を結合させる可能性が最も高い。任意選択的に、ランク付けされた分子リストは、類似した分子のクラスタについて分析され得るか、大きいクラスタは、分子結合のより強力な予測として使用され得るか、又は分子は、確認実験において多様性を確実にするために、クラスタにわたって選択され得る。

【0219】

オフ標的副作用予測。多くの薬物は副作用を有することが発覚することがある。これらの副作用は、薬物の治療効果を担う経路以外の生物学的経路との相互作用に起因する場合が多い。これらのオフ標的副作用は、不快又は危険であり得、薬物の使用が安全である患者集団を制限する場合がある。したがって、オフ標的副作用は、どの薬物候補を更に開発するかを評価するための重要な基準である。多くの代替の生物学的標的との薬物の相互作用を特徴付けることが重要であるが、そのような試験は、開発及び実行するのに高価かつ時間がかかる場合がある。コンピュータによる予測は、このようなプロセスをより効率的にすることができる。

【0220】

本発明の実施形態を適用する際に、重要な生物学的応答及び／又は副作用に関連付けられている生物学的標的のパネルが構築され得る。次いで、システムは、パネル内の各タンパク質に対する結合を順番に予測するように構成され得る。特定の標的に対する強い活性（すなわち、オフ標的タンパク質を活性化することで知られている化合物と同じくらい強力な活性）は、オフ標的効果による副作用に分子を関与させ得る。

【0221】

毒性予測。毒性予測は、オフ標的副作用予測の特に重要な特別な事例である。後期臨床試験において薬物候補の約半数は、許容不能な毒性のために不合格になる。新薬承認プロセスの一部として（及び薬物候補をヒトで試験できる前に）、ＦＤＡは、（その抑制が、薬物－薬物相互作用からの毒性につながる場合がある）シトクロムＰ４５０肝臓酵素又は（その結合が、心室性不整脈及び他の心臓有害影響につながるＱＴ延長につながる場合がある）ｈＥＲＧチャネルを含む標的のセットに対する毒性試験データを要求する。

【0222】

毒性予測では、システムは、オフ標的タンパク質を主要な抗標的（例えば、ＣＹＰ４５０、ｈＥＲＧ、又は５－ＨＴ_２Ｂ受容体）であるように制約するように構成され得る。次いで、薬物候補に対する結合親和性は、これらのタンパク質に対して予測され得る。任意選択的に、分子は、代謝物のセット（元の分子の代謝／分解中に身体によって生成された後続の分子）を予測するために分析され得、これはまた、抗標的に対する結合について分析され得る。問題がある分子は、毒性を回避するために識別及び修正され得るか、又は分子系列に関する開発は、追加の資源の浪費を回避するために中止され得る。

【0223】

効力の最適化。薬物候補の主要な要件のうちの１つは、その疾患標的に対する強力な結合である。スクリーニングが臨床上効果的であるのに十分に強力に結合する化合物を見つけることはまれである。したがって、初期化合物は、医薬品化学者が分子構造を繰り返し修正して、標的結合の強度を増加させた新しい分子を提案する、最適化の長いプロセスを施す。各新しい分子は、変化が無事に結合を改善したかどうかを判定するために、合成及び試験される。システムは、物理試験をコンピュータによる予測で置き換えることによって、このプロセスを容易にするように構成され得る。

【0224】

本出願では、疾患標的、及びリード分子のセットが、システムに入力され得る。システムは、リードのセット結合親和性予測を生成するように構成され得る。任意選択的に、システムは、結合親和性における予測される差の理由を知らせるのに役立ち得る候補分子間の差を強調し得る。医薬化学者ユーザは、この情報を使用して、願わくは標的に対する活性が改善された新しい分子のセットを提案することができる。これらの新しい代替分子は、同じ様式で分析され得る。

【0225】

選択性の最適化。上記で考察されるように、分子は、様々な強度で多くのタンパク質を結合する傾向がある。例えば、（よく知られている化学療法標的である）タンパク質キナーゼの結合ポケットは、非常に類似しており、大部分のキナーゼ阻害剤は、多くの異なるキナーゼに影響を与える。これは、様々な生物学的経路が同時に修正され、「汚れた」医薬プロファイル及び多くの副作用を生じることを意味する。したがって、多くの薬物の設計における重要な課題は、活性自体ではなく、特異性：おそらく密接に関連するタンパク質のセットから１つのタンパク質（又はタンパク質のサブセット）を選択的に標的とする能力である。

【0226】

システムは、候補薬物の選択性を最適化するための時間及びコストを低減することができる。本出願では、ユーザは、２つのセットのタンパク質を入力して得る。一方のセットは、化合物が活性であるべきタンパク質を記述し、他方のセットは、化合物が不活性であるべきタンパク質を記述する。システムは、両方のセット内のタンパク質の全てに対して分子の予測を行い、相互作用強度のプロファイルを確立するように構成され得る。任意選択的に、これらのプロファイルを分析して、タンパク質における説明パターンを示唆することができる。ユーザは、システムによって生成された情報を使用して、異なるタンパク質セットへの相対的な結合を改善する分子に対する構造的変化を考慮し、より優れた特異性を有する新しい候補分子を設計することができる。任意選択的に、システムは、選択性における予測される差の理由を知らせるのに役立ち得る候補分子間の差を強調するように構成され得る。提案された候補は、それぞれの活性プロファイルの特異性を更に精緻化するために、繰り返し分析され得る。

【0227】

自動分子設計のための適合度関数：前述の最適化を実行するための自動化ツールは貴重である。成功した分子は、効力、選択性、及び毒性の間の最適化並びにバランスを必要とする。「足場ホッピング」（リード化合物の活性が保たれるが、化学構造が大幅に変更されるとき）は、改善された薬物動態、薬力学、毒性、又は知的財産のプロファイルを生じさせることができる。分子の無作為な生成、所与の結合部位を充填するための分子フラグメントの成長、分子の集団を「突然変異」及び「異種交配」させるための遺伝的アルゴリズム、並びに分子の部分のバイオイソステリック置換との交換などのアルゴリズムは、新しい分子を繰り返し示唆するために存在する。これらの方法の各々によって生成された薬物候補は、上で説明される複数の目的（効力、選択性、毒性）に対して評価されなければならず、技術が前述の手動設定（結合予測、選択性、副作用、及び毒性予測）の各々について有益であり得るのと同じように、それは、自動分子設計システムに組み込まれ得る。

【0228】

薬物の別の目的での使用。全ての薬物は副作用を有し、ときおり、これらの副作用が有益である。最もよく知られている例は、一般的に頭痛治療として使用されるが、心臓血管の健康のためにも使用されるアスピリンであり得る。薬物リポジショニングは、薬物がヒトで安全であることが既に示されており、患者における迅速な吸収及び好ましい安定性について最適化されているため、創薬のコスト、時間、及びリスクを大幅に低減することができる。残念ながら、薬物リポジショニングは、大部分は偶然である。例えば、シルデナフィル（バイアグラ）は、血圧降下剤として開発され、勃起不全に対する効果的な治療であることが思いがけず観察された。オフ標的効果のコンピュータによる予測は、代替疾患を治療するために使用され得る化合物を識別するための、薬物の別の目的での使用の文脈で使用され得る。

【0229】

本出願では、オフ標的副作用予測と同様に、ユーザは、考えられる標的タンパク質のセットを組み立て得、各タンパク質は、疾患に結び付けられる。すなわち、各タンパク質の抑制は、（おそらく異なる）疾患を治療するであろう。例えば、シクロオキシゲナーゼ－２の阻害剤は、炎症を緩和することができるが、一方で、Ｘａ因子の阻害剤は、抗凝固剤として使用することができる。これらのタンパク質は、存在する場合、承認された薬物の結合親和性で注釈を付けられる。次いで、分子のセットを組み立て、分子のセットをヒトでの使用にために承認又は調査された分子に限定する。最後に、タンパク質及び分子の各対に対して、ユーザは、システムを使用して、結合親和性を予測し得る。薬物の別の目的での使用のための候補は、分子の予測される結合親和性が、タンパク質にとって効果的な薬物の結合親和性に近い場合に識別され得る。

【0230】

薬物耐性予測。薬物耐性は、病原体集団を急速に分裂させ突然変異させることに対して選択圧をかける、薬剤使用の不可避の結果である。薬物耐性は、ウイルス（ＨＩＶ）、外因性微生物（ＭＲＳＡ）、及び調節不全宿主細胞（癌）などの多様な病原体で見られる。経時的に、薬が抗生物質であるか化学療法であるかに関わらず、所与の薬は効果がなくなる。その点で、介入は、願わくは、まだ強力な異なる薬に移行することができる。ＨＩＶでは、患者が治療されている間に、ウイルスが蓄積する変異によって定義される、周知の疾患の進行経路がある。

【0231】

病原体が医学的介入にどのように適応するかを予測することに相当な関心が寄せられている。１つのアプローチは、治療中にどの変異が病原体で発生するのかを特徴付けることである。具体的には、薬のタンパク質標的は、その天然基質を結合し続けながら、同時に薬物を結合することを回避するように変異する必要がある。

【0232】

本出願では、標的タンパク質の考えられる変異のセットが提案され得る。各変異に対して、結果として生じるタンパク質の形状を予測し得る。これらの変異タンパク質形態のそれぞれに対して、システムは、天然基質及び薬物の両方に対する結合親和性を予測するように構成され得る。タンパク質にもはや薬物に結合させないが、天然基質に対する結合を続行させる変異は、薬物耐性を付与するための候補である。これらの変異したタンパク質は、例えば、これらのタンパク質をこれらの他の予測使用事例のうちの１つへの入力として使用することによって、薬物を設計するための標的として使用され得る。

【0233】

オーダーメード医療。効果のない薬は投与されるべきではない。コストと手間に加えて、全ての薬は副作用を有する。道徳的及び経済的な考慮により、利益がこれらの害を上回るときにだけ薬を与えることが不可欠になる。薬がいつ有用であるかを予測できることが重要な場合がある。人は、少数の変異によって互いに異なる。しかしながら、小さい変異は、計り知れない影響を及ぼす可能性がある。これらの変異が疾患標的の活性（オルソステリック）又は調節（アロステリック）部位で発生すると、それらは薬物が結合するのを防止し、したがって、薬の活性を阻害する場合がある。特定の人のタンパク質構造が周知である（又は予測されている）とき、システムは、薬物が効果的であるかどうかを予測するように構成され得、又はシステムは、薬物がいつ機能しないかを予測するように構成され得る。

【0234】

本出願では、システムは、薬物の化学構造及び特定の患者の特定の発現タンパク質を入力として受け取るように構成され得る。システムは、薬物とタンパク質との間の結合を予測するように構成され得、薬物の予測された結合親和性が、特定の患者のタンパク質構造が弱すぎて臨床上効果的ではない場合、臨床医又は開業医は、その薬物が患者に無益に処方されるのを防止し得る。

【0235】

治験設計。本出願は、上記のオーダーメード医療の使用事例を患者集団の事例に一般化する。システムが、薬物が特定の患者の表現型に効果的であるかどうかを予測できるとき、この情報を使用して、臨床試験を設計するのに役立てることができる。特定の疾患標的が薬物によって十分に影響を受けることがない患者を除外することによって、臨床試験は、より少ない患者を使用して、統計的検出力を達成することができる。より少ない患者は、臨床試験のコスト及び複雑さを直接的に低減する。

【0236】

本出願では、ユーザは、（例えば、変異又はイソ型に起因する）異なるタンパク質の発現によって特徴付けられる亜集団に、考えられる患者集団を分割し得る。システムは、異なるタンパク質タイプに対する薬物候補の結合強度を予測するように構成され得る。特定のタンパク質タイプに対する予測される結合強度が、（例えば、試験管、動物モデル、又は健常ボランティアにおける物理的特徴付けに基づくように）臨床上達成可能な患者内濃度を下回る必要な薬物濃度を示す場合、薬物候補は、そのタンパク質亜集団に対して不合格になると予測される。次いで、そのタンパク質を有する患者は、治験から除外され得る。

【0237】

農薬設計。医薬用途に加えて、農薬産業は、新しい殺虫剤の設計で結合予測を使用する。例えば、殺虫剤のための１つの必要なものは、任意の他の種に悪影響を与えることなく、関心対象の単種を止めることである。環境安全性のために、人は、マルハナバチを殺さずにゾウムシを殺すことを望むだろう。

【0238】

本出願では、ユーザは、検討中の異なる種からタンパク質構造のセットをシステムに入力することができる。タンパク質のサブセットは、それに対して活性であるタンパク質として指定することができ、一方、残りは、それに対して分子が不活性であるべきタンパク質として指定することができる。前の使用事例と同様に、（既存のデータベース内か、新たに生成されたかに関わりなく）分子の何らかのセットが各標的に対して考慮され、システムは、タンパク質の第２のグループを回避しながら、第１のグループに対して最大の効果を有する分子を返すだろう。

【0239】

材料科学。新しい材料の挙動及び特性を予測するために、分子相互作用を分析することが有用であり得る。例えば、溶媒化を研究するために、ユーザは、所与の小分子の反復結晶構造を入力し得、結晶の表面上の小分子の別の例の結合親和性を評価し得る。ポリマー強度を研究するために、ポリマーストランドのセットは、タンパク質標的構造に類似して入力され得、ポリマーのオリゴマーは、小分子として入力され得る。したがって、ポリマーストランド間の結合親和性は、システムによって予測され得る。

【0240】

シミュレーション。シミュレータは、タンパク質の領域に留まる分子の傾向がタンパク質の結合親和性と相関するため、タンパク質に対する分子の結合親和性を測定することが多い。結合を支配する特徴の正確な記述を使用して、特に高い又は低い結合エネルギーを有する領域及びポーズを識別することができる。エネルギーの記述は、分子の運動及びタンパク質結合領域の占有を説明するために、モンテカルロシミュレーションに折り畳むことができる。同様に、システム生物学を研究し、モデル化するための確率論的シミュレータは、分子濃度のわずかな変化が生物学的ネットワークにどのように影響を与えるかの正確な予測から利益を得ることができる。

【実施例】

【0241】

ＡｔｏｍＮｅｔ（登録商標）Ｃａｒｂｏｎ：物理学及び幾何学を学習することにより、構造ベースの仮想高スループットスクリーニングアーキテクチャにポーズ感受性が付与される。

【0242】

分子生物活性は、集合体の特性であり、受容体化合物複合体形成のエンタルピー及びエントロピー成分によって判定される。構造ベースの深層学習方法は、活性予測には成功しているが、ドッキングされたポーズに対し非感受性であり得、ヒット検出の信頼性を低下させる。更に、構造ベースの深層学習方法は、自由エネルギーの変化へのエントロピー寄与を無視することが多い。集合体がポーズに対して感受性がある場合、集合体アプローチは成功する。この実施例では、ドッキングされたポーズに対する感受性を増加させた深層学習マルチタスクアーキテクチャについて説明する。

【0243】

１序文
ＥＮＡＭＩＮＥ又はＭｃｕｌｅのような膨大なオンデマンド化学ライブラリは、薬剤、構造ベースの仮想高スループットスクリーニング（ｖＨＴＳ）キャンペーンの規模を変革した［１］。候補分子のライブラリから「ヒット」を識別するために、構造ベースの仮想スクリーニング方法は、タンパク質と配位子との間の結合親和性を、それぞれのドッキングされた結合複合体から予測し、それによって、実験的に観察された親和性が、タンパク質－配位子相互作用と相関すると仮定する。従来の方法は、複合体形成の結合自由エネルギーを計算しようとする、経験的な物理学ベースのアプローチを使用する。それに反して、機械学習（ＭＬ）及び深層学習（ＤＬ）アプローチは、活性を予測するために明示的（ＭＬ）又は暗黙的（ＤＬ）特徴及び標識を使用して、大規模なデータセット上で訓練される。これらの統計モデルは、一般的に、活性を予測するための遡及試験において物理学ベースのアプローチよりも優れている。

【0244】

重畳型ニューラルネットワーク（ＣＮＮ）を中心としたｖＨＴＳの初期の構造ベースのＤＬ方法は、３Ｄグリッドによってタンパク質－配位子構造を表して活動を予測する［２～５］。概して効果的であるが［６］、ＣＮＮの欠点は、それらが回転不変ではなく、代替表現よりも多くのパラメータを必要とすることである。その結果として、グラフ重畳型ネットワーク［７］、又はより一般的には、メッセージパッシングニューラルネットワーク［８～１０］は人気を得ている。最近の研究では、構造ベースの機械学習方法の性能は、タンパク質化学的な特徴によって部分的に促進されることが示唆されている［１１、１２、５］。配位子と結合部位との間の特異性相互作用に応答するのではなく、モデルは、一般的な配位子－タンパク質の特徴的な性質を学習する。この欠陥は、モデルが、同じタンパク質上のこれまでに見られなかった結合部位に直面したとき、特に、その部位が正規の部位と部分的に重複するときに、予測性能の低下によって現れる。例えば、モデルは、キナーゼ上のアロステリック部位のＡＴＰ競合結合剤を上位にランク付けし得る。このような限定は、新しい化学物質の発見、又はタンパク質上の新規部位を標的とする能力を大きく阻害する。

【0245】

配位子のポーズの品質及び親和性に関する同時訓練は、ポーズ感受性を改善することができる［１３］。ここでは、その観察に基づいて、生物活性、及びポーズの物理学ベースのｖｉｎａ［１４］スコアを同時に評価する、生物活性予測のためのマルチタスクアーキテクチャを構築及び提示する。更に、その生体活性タスクをポーズの品質にコンディショニングする。最後に、生体活性分子の生体活性標識を無効にしながら、モデルを悪いポーズに曝露し、したがって、負の例として、真の結合剤の悪いポーズを提示する。当社のアーキテクチャが、いくつかの厳密なベンチマークでポーズ感受性を改善することを実証する。

【0246】

２．１ニューラルネットワークアーキテクチャ
この実施例のシステムは、位置に依存するエッジを有するグラフニューラルネットワークベースのアーキテクチャである。これは、本開示の重畳型ニューラルネットワーク２４の実施例である。この実施例では、任意の配位子原子の７Å以内の受容体原子のみを考慮する。（配位子及び受容体）原子が、互いに４Å以内にある場合に隣接する、２つのグラフ畳み込み層を使用する。次いで、配位子のみの特徴を抽出し、更に２つの配位子のみの層を更に付け加える。この配位子のみの層は、合計プーリング層を使用してプールされる。次いで、プールされた特徴は、ネットワークの最上部にあるマルチタスク多層パーセプトロン（第１のモデル７２、第２のモデル７４など）の埋設として使用される。グラフニューラルネットワークによって生成された埋設は、この実施例では、活性、ＰｏｓｅＲａｎｋｅｒポーズ品質スコア、及びＶｉｎａドッキングスコアの３つの出力を予測するために使用される。これは、２段階で実行される。最初に、ＰｏｓｅＲａｎｋｅｒ及びＶｉｎａスコア予測は、埋設を２つの独立した多層パーセプトロンを通過させることによって算出される。次いで、コンディショニングされた埋設は、入力埋設をＰｏｓｅＲａｎｋｅｒスコア予測と連結することによって形成され、活性予測を算出するために第３の多層パーセプトロンに渡される［１５］。４．３節は、モデル訓練パラメータの詳細を提供した。

【0247】

２．２データ
訓練データセットは、Ｃｈｅｍｂｌ又はＰｕｂｃｈｅｍのような一般提供されている供給源と、Ｒｅａｘｙｓ又はＬｉｃｅｐｔｏｒのような商用データベースと、から収集された結合親和性の測定値からなっていた。この実施例では、ｐＫｉ２（０；１１）での定量的測定値のみを考慮した。測定したｐＫｉ（又はＩＣ５０）が１０μＭ未満である場合、化合物は、活性として標識され、そうでない場合、化合物は不活性として標識された。測定された活性化合物の数は不活性のものよりも多いため、活性化合物の各々を、別の異なるタンパク質標的のためのデコイとして無作為に割り当てることによって、訓練データセットを増強した。加えて、いくつかのモデルでは、ポーズネガティブ（ポーズが悪く、不活性として標識された活性化合物）を使用した。詳細については、４．２節を参照されたい。訓練から１２個の多様なタンパク質（Ｄ１２）のセットを除外し、それは、ホールドアウト試験セットとして機能した。加えて、訓練セットから、Ｄ１２セットのタンパク質の全ての近接相同体を除外した（９５％未満の配列と同様に）。訓練セットは、３８００個以上の多様なタンパク質を網羅し、ポーズネガティブなしで４．８Ｍ（ある場合は５．８Ｍ）のデータポイントを考慮する。ホールドアウトセットは、１２個のタンパク質にわたって分布する、約３３０００個の化合物を考慮する全ての化合物は、開示アーキテクチャであるＣＵｉｎａ［１６］とドッキングされ、（ＰｏｓｅＲａｎｋｅｒモデル［１０］によってランク付けされたように）利用可能な最良のポーズが、ＤＬモデルとのスコアリングに使用された。

【0248】

２．３数値実験
当社のモデルのポーズ感受性を研究するために、Ｄ１２における活性標的－化合物対の各々を、以下を用いて３回スコアリングした：ｉ）トップポーズ、ｉｉ）悪いポーズ、ｉｉｉ）配位子の質量中心の周りの配位子の（４回繰り返された）無作為な回転によってトップポーズから取得された、物理的に非現実的なポーズ。良いポーズは、ＰｏｓｅＲａｎｋｅｒによる最高ランクのポーズだった（ポーズはＣＵｉｎａで生成された）。悪いポーズは、ＰｏｓｅＲａｎｋｅｒによる最悪ランクのポーズだった。非現実的なポーズは、質量中心の周りの配位子の無作為な回転によって、良いポーズから取得された。全てのポーズをスコアリングし、次いで、悪いポーズ及び非現実的なポーズのスコアを、良いポーズのスコアから減算した。ポーズ感受性の尺度は、良いポーズと悪い／非現実的なポーズとの間の活性スコアの低下の中央値である。重畳型ニューラルネットワークは、入力データの知覚フィールドにおける特徴を検出することができる。そのフィールドが十分に大きく複雑である場合、モデルは、保存されている結合部位、例えば、タンパク質キナーゼにおけるＡＴＰ結合部位に特徴的である原子の集まりを検出することができる。しかしながら、知覚フィールドの範囲を制限することは、例えば、プールすることによって、検出された特徴間の空間情報を省略する。結果として、モデルは、入力データに提供された化学的に無関係な特徴、いわゆるピカソ問題を検出することによって、バイアスされ得る。隣接結合部位が、モデルの推論にどのように干渉するかを監視するために、周知のキナーゼ阻害剤の多様なセット（活性として標識された約３００個の多様な化合物）を選択し、それらを、利用可能なスクリーニングライブラリ（ＭＣＵＬＥ、２０１７／１８／１０時点、不活性として標識）から無作為に選択された１０^５個の化合物と混合した。各化合物を、ＡＴＰ結合部位、及びＡＴＰ部位から６～１０Å離れたアロステリック部位にドッキングさせた。モデルの潜在的なバイアスを監視するために、全ての化合物もまた、（ＡＴＰ結合部位から５０Å超離れた）遠隔のＳＨ２ドメイン上に位置する暫定的な結合部位にドッキングさせた（図２０）。期待されたのは、良好な性能を有するモデルは、ＡＴＰ結合部位にドッキングしたときに、キナーゼ阻害剤をバックグラウンドの無作為分子から適切に区別することができるということであった（０．５よりもはるかに高いＲＯＣＡＵＣを期待する）。その一方で、ポーズ感受性モデルは、化合物がアロステリック部位（０．５に近いＲＯＣＡＵＣ）にドッキングされるとき、隣接するＡＴＰ部位によってバイアスされるべきではない（図２０）。訓練セット内の任意の可能なバイアスを説明するために、ＳＨ２ドメインに位置する空間的に遠い結合部位のＲＯＣＡＵＣを計算し、図２０の青色の点を示した。

【0249】

３結果
図２１の結果は、この実施例で研究されたモデルが、ホールドアウトセットで良好な性能を有し、ＧＣＮは、ＣＮＮよりもわずかに優れていることを示している。しかしながら、単一タスクモデルの両方を、ヒトＺＡＰ７０タンパク質のアロステリック部位の仮想スクリーニングで使用した場合、それらの両方は、周知のＡＴＰ部位キナーゼ阻害剤を改良するであろう。これは、モデルが、配位子－受容体相互作用の特徴を学習せず、代わりに配位子及び受容体の独立した表現を学習するためである。次いで、これらの学習された表現／埋設は、モデルの推論に使用される。ＡＴＰ結合部位は、これら２つのネットワークの知覚フィールドにあるため、ＧＣＮ及びＣＮＮモデルは、高度に保存されているＡＴＰ結合部位の特徴を識別し得（図２０、図２２）、モデルが、あまり一般的ではないアロステリック部位の代わりに、ＡＴＰ部位について尋ねられたかのように予測を行うことができる（図２２）。この結果は、原発部位（ＡＴＰ部位）から空間的に離れている結合部位のスクリーニングが、キナーゼ阻害剤（ＳＨ２部位、図２０、図２２）の改良をもたらさなかったため、バイアス訓練セットによって説明することができない。これは、これら２つのモデル、ＣＮＮ及びＧＣＮが、タンパク質化学的性質（配位子及び受容体表現が使用されるが、一方が他方から独立している）であることを示唆する。これは、結合部位における配位子の誤配列（悪いポーズ）だけでなく（図２３の左パネル）、配位子－受容体界面の破壊（図２３の右パネル）にも非感受性であることによって、更に裏付けられる。この奇妙な挙動は、３ＤグリッドベースのＣＮＮ［４，１３］に関する以前の研究でも観察されているが、一般に適用可能な解決策は提案されていない。ＰＣＭモデルの主な欠点は、推論に使用されるポーズに対する生来の非感受性である。したがって、ピカソ問題の解決策は、モデルがポーズ感受性であることを確認することである。この実施例では、ポーズ感受性とみなされるモデルの最小要件は、ｉ）物理的に非現実的なポーズ（例えば、複数の原子同士の重複）が物理的に非現実的な特徴のないポーズと比較して、ペナルティを課されること、ｉｉ）結合ポケットの外側にある配位子を有するポーズは、結合部位にある配位子を有するポーズよりもペナルティを課されるべきであること、及びｉｉｉ）標的部位の近傍にある結合部位は、予測に干渉してはならないことである。

【0250】

最初は、構造データで訓練された単一タスク（活性）モデルが、配位子－受容体相互作用に関するその構造情報を使用しないことは直感的ではない。しかしながら、訓練中、主な目的は、指定された損失関数を最小化することであり、配位子－受容体相互作用の使用が、このタスクにおいてモデルにエッジを与えることができるという仮定であるため、これは事実であり得る。実際には、インシリコ生成ポーズは、誤差及び不確実性の影響を受け、それらに過度に依存すると、モデルの性能が損なわれる可能性がある。モデルは、配位子－受容体相互作用の構造的特徴を学習する動機を持たないため、モデルはそれらを無視することが多い。したがって、追加のタスクが、構造感受性である埋設を必要とするマルチタスクモデルを訓練することは、理論的には、問題を軽減するはずである。これは、図２０及び図２２のＭＴモデルについて見ることができるように、実際にそうである。別のタスク（モデルＭＴ－１）としてドッキングスコア回帰を追加することは、明らかに不適切なポーズ（非現実的なポーズ）にペナルティを課すモデルに既につながり、ｈＺＡＰ７０タンパク質のアロステリック部位のトップヒットで改良されたキナーゼ阻害剤の量を減少させることが分かる（図２２）。悪いポーズは誤配列されているが、原子衝突はないため、ＭＴ－１モデルは、依然としてスクリーニングで使用されている良いポーズと悪いポーズとを区別することができない（図２３の左パネル）。興味深いことに、この問題は、ポーズ品質回帰を第３のタスクとして追加することによって、又は活性タスクをポーズ品質、モデルＭＴ－２及びモデルＭＴ－３をコンディショニングすることによってだけでは解決することができない（図２３）。これは、モデルが良いポーズのみを見せられ、悪いポーズがどのように見えるかのイメージを学習することができないからである。

【0251】

欠けている情報を補うために、ポーズネガティブと呼ばれるデータ増大技術が使用される。ポーズネガティブは、もともと正のデータポイントとして標識され、利用可能な最良のポーズとともに使用された例である。しかしながら、（この場合はＰｏｓｅＲａｎｋｅｒスコアである任意のメトリックに従って）利用可能な最悪のポーズを選択し、標識が変更されたモデルにネガティブな例として提示することができる。このアプローチで、モデル（ＭＴ－４ａ及びＭＴ－４ｂ）が、物理的に非現実的なポーズと悪いポーズの両方にペナルティを課すことができることが観察された（図２３）。更に、同じモデルはまた、ピカソ問題も緩和した。しかしながら、この場合、ポーズ品質に対する活性のコンディショニングの欠如が、ピカソ問題をより起こしやすいモデルにつながることが観察された（図２２）。

【0252】

４結論
マルチタスクアーキテクチャは、化合物の生物学的活性を予測することができ、また、推論のために提供された構造データを十分に利用することができるモデルをもたらす。モデルに直交タスクを強制的に学習させ、最終モデルを正規化する。提案された解決策は、３Ｄグリッドベースのモデル及びグラフベースのモデルの両方に、一般的に適用可能である（データ図示せず）。このアプローチは、深層学習及び構造ベースの創薬の分野を、新規の結合部位及び以前は治療不可能なタンパク質に開放する。

【0253】

本業績は、初期段階の創薬に関連付けられたコスト及び開発時間を低減するための取り組みの文脈で開発された。この分野での成功は、長期的には、医薬品へのアクセスを改善し得、医療コストを低減し得る。ここに記載されている訓練データセットは、一般提供されているデータからなるため、必然的に様々な疾患及び健康状態への研究資金の配分に偏りを反映することを認識する必要がある。タンパク質結合部位にわたるモデルの一般化可能性を改善するための努力が、訓練データにおけるこのような制限を軽減するのに役立つことを期待する。

【0254】

４．１条件付きマルチタスクアーキテクチャ
実際には、回帰タスク（ＭＳＥ、ＭＡＥ、Ｈｕｂｅｒ、Ｌｏｇ－Ｃｏｓｈなど）及び分類タスク（ＢＣＥ、ヒンジ損失、二乗ヒンジ、局所損失など）に使用できる損失関数に制限はなかった。補助タスクは、ｉ）共有された埋設ｘ_ｅｍをタスクの出力ｓｉと変換すること、

【数1】

ｉｉ）出力スコアｓｊを入力埋設と連結すること、及びｉｉｉ）ｉ）とｉｉ）

【数2】

の組み合わせによって、活性タスクへの入力をコンディショニングすることができる。図２４は、入力埋設が、最初に、ＰｏｓｅＲａｎｋｅｒスコア（ｉ）によってコンディショニングされ、次に、Ｖｉｎａスコアが埋設（ｉｉｉ）と連結されたアーキテクチャを示す。

【0255】

４．２ポーズネガティブでのデータ増大
ＣＵｉｎａドッキングを使用して、配位子－標的対ごとに６４個のポーズが生成された。次に、ＰｏｓｅＲａｎｋｅｒを使用してポーズをそれぞれの品質に従って並べ替え［１０］、上位１６個のポーズを選択した。最高ランクのポーズは、良いポーズとして訓練及びスコアリングで使用されたが、最後の（１６番目の）ポーズは、ポーズネガティブとして使用され、不活性（非結合剤）とみなされた。

【0256】

４．３訓練
各モデルは、１０個のエポックに対して訓練された。全てのニューラルネットワークアーキテクチャについて、６個のモデルが訓練され、各々が、５／６番目のデータを訓練セットとして使用し、１／６番目のがクロスフォールド検証のために除外された。各データのクロスフォールドには、配列の類似性の７０％超を共有するタンパク質のクラスタが含まれる。モデルを、学習率がｌｒ＝０：００１のＡＤＡＭオプティマイザを使用して訓練し、標的を、その標的に関連付けられた活性化合物の数に比例して、置換でサンプリングした（測定された活性化合物のない標的を訓練セットから取り除いた）。

【0257】

参考文献
［１］ＩｒｗｉｎａｎｄＳｈｏｉｃｈｅｔ，２０１６，“ＤｏｃｋｉｎｇＳｃｒｅｅｎｓｆｏｒＮｏｖｅｌＬｉｇａｎｄｓＣｏｎｆｅｒｒｉｎｇＮｅｗＢｉｏｌｏｇｙ：Ｍｉｎｉｐｅｒｓｐｅｃｔｉｖｅ．ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ，” ５９（９）：４１０３－４１２０，Ｍａｙ２０１６．ＩＳＳＮ１６７００２２－２６２３，１５２０－４８０４．ｄｏｉ：０．１０２１／ａｃｓ．ｊｍｅｄｃｈｅｍ．５ｂ０２００８．ＵＲＬｈｔｔｐｓ：／／ｐｕｂｓ．ａｃｓ．ｏｒｇ／ｄｏｉ／１０．１０２１／ａｃｓ．ｊｍｅｄｃｈｅｍ．５ｂ０２００８．

【0258】

［２］Ｗａｌｌａｃｈ，Ｄｚａｍｂａ，ａｎｄＨｅｉｆｅｔｓ，２０１５，“ＡｔｏｍＮｅｔ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＢｉｏａｃｔｉｖｉｔｙＰｒｅｄｉｃｔｉｏｎｉｎＳｔｒｕｃｔｕｒｅ－ｂａｓｅｄＤｒｕｇＤｉｓｃｏｖｅｒｙ，” ａｒＸｉｖ：１５１０．０２８５５［ｃｓ，ｑ－ｂｉｏ，ｓｔａｔ］．

【0259】

［３］Ｒａｇｏｚａｅｔａｌ，２０１７，“Ｐｒｏｔｅｉｎ－ＬｉｇａｎｄＳｃｏｒｉｎｇｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５７（４），ｐｐ．９４２－９５７．

【0260】

［４］Ｓｔｅｐｎｉｅｗｓｋａ－Ｄｚｉｕｂｉｎｓｋａｅｔａｌ．，２０１８，“Ｄｅｖｅｌｏｐｍｅｎｔａｎｄｅｖａｌｕａｔｉｏｎｏｆａｄｅｅｐｌｅａｒｎｉｎｇｍｏｄｅｌｆｏｒｐｒｏｔｅｉｎ－ｌｉｇａｎｄｂｉｎｄｉｎｇａｆｆｉｎｉｔｙｐｒｅｄｉｃｔｉｏｎ，” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，３４（２１），ｐｐ．３６６６－３６７４．

【0261】

［５］Ｂｏｙｌｅｓｅｔａｌ．，２０１９，“Ｌｅａｒｎｉｎｇｆｒｏｍｔｈｅｌｉｇａｎｄ：ｕｓｉｎｇｌｉｇａｎｄ－ｂａｓｅｄｆｅａｔｕｒｅｓｔｏｉｍｐｒｏｖｅｂｉｎｄｉｎｇａｆｆｉｎｉｔｙｐｒｅｄｉｃｔｉｏｎ，” Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，ｐａｇｅｂｔｚ６６５．

【0262】

［６］Ｈｓｉｅｈｅｔａｌ．，２０１９，“Ｍｉｒｏ１ＭａｒｋｓＰａｒｋｉｎｓｏｎ’ｓＤｉｓｅａｓｅＳｕｂｓｅｔａｎｄＭｉｒｏ１ＲｅｄｕｃｅｒＲｅｓｃｕｅｓＮｅｕｒｏｎＬｏｓｓｉｎＰａｒｋｉｎｓｏｎ’ｓＭｏｄｅｌｓ．ＣｅｌｌＭｅｔａｂｏｌｉｓｍ，” ３０（６），ｐｐ．１１３１－１１４０．

【0263】

［７］ＫｉｐｆａｎｄＷｅｌｌｉｎｇ，２０１７，“Ｓｅｍｉ－ＳｕｐｅｒｖｉｓｅｄＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ，” ａｒＸｉｖ：１６０９．０２９０７［ｃｓ，ｓｔａｔ］，Ｆｅｂｒｕａｒｙ２０１７．ＵＲＬｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６０９．０２９０７．ａｒＸｉｖ：１６０９．０２９０７．

【0264】

［８］Ｆｅｉｎｂｅｒｇｅｔａｌ．，２０１８，“ＰｏｔｅｎｔｉａｌＮｅｔｆｏｒＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｙＰｒｅｄｉｃｔｉｏｎ，” ＡＣＳＣｅｎｔｒａｌＳｃｉｅｎｃｅ４（１１），ｐｐ．１５２０－１５３０．

【0265】

［９］Ｌｉｍｅｔａｌ．，２０１９，“ＰｒｅｄｉｃｔｉｎｇＤｒｕｇ－ＴａｒｇｅｔＩｎｔｅｒａｃｔｉｏｎＵｓｉｎｇａＮｏｖｅｌＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｗｉｔｈ３ＤＳｔｒｕｃｔｕｒｅ－ＥｍｂｅｄｄｅｄＧｒａｐｈＲｅｐｒｅｓｅｎｔａｔｉｏｎ，” ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ，５９（９），ｐｐ．３９８１－３９８８．

【0266】

［１０］Ｓｔａｆｆｏｒｄｅｔａｌ．，２０２１，“ＥｎｒｉｃｈｉｎｇＬｉｇａｎｄＰｏｓｅＱｕａｌｉｔｙｆｏｒＤｙｎａｍｉｃＰｒｏｔｅｉｎｓｉｎＶｉｒｔｕａｌＨｉｇｈＴｈｒｏｕｇｈｐｕｔＳｃｒｅｅｎｓ，” ｄｏｉ：１０．３３７７４／ｃｈｅｍｒｘｉｖ－２０２１－ｔ６ｘｋｊ．ＵＲＬｈｔｔｐｓ：／／ｃｈｅｍｒｘｉｖ．ｏｒｇ／ｅｎｇａｇｅ／ｃｈｅｍｒｘｉｖ／ａｒｔｉｃｌｅ－ｄｅｔａｉｌｓ／６１４ｂ９０５ｅ３９ｅｆ６ａ１ｃ３６２６８００３．

【0267】

［１１］Ｓｉｅｇｅｅｔａｌ．，２０１９，“ＩｎＮｅｅｄｏｆＢｉａｓＣｏｎｔｒｏｌ：ＥｖａｌｕａｔｉｎｇＣｈｅｍｉｃａｌＤａｔａｆｏｒＭａｃｈｉｎｅＬｅａｒｎｉｎｇｉｎＳｔｒｕｃｔｕｒｅ－ＢａｓｅｄＶｉｒｔｕａｌＳｃｒｅｅｎｉｎｇ，” ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５９（３），ｐｐ．９４７－９６１．

【0268】

［１２］Ｃｈｅｎｅｔａｌ．，２０１９，“ＨｉｄｄｅｎｂｉａｓｉｎｔｈｅＤＵＤ－Ｅｄａｔａｓｅｔｌｅａｄｓｔｏｍｉｓｌｅａｄｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆｄｅｅｐｌｅａｒｎｉｎｇｉｎｓｔｒｕｃｔｕｒｅ－ｂａｓｅｄｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ，” ＰＬＯＳＯＮＥ１４（８）：ｅ０２２０１１３．

【0269】

［１３］Ｆｒａｎｃｏｅｕｒｅｔａｌ．，２０２０，“Ｔｈｒｅｅ－ＤｉｍｅｎｓｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓａｎｄａＣｒｏｓｓ－ＤｏｃｋｅｄＤａｔａＳｅｔｆｏｒＳｔｒｕｃｔｕｒｅ－ＢａｓｅｄＤｒｕｇＤｅｓｉｇｎ，” ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ６０（９），ｐｐ．４２００－４２１５．

【0270】

［１４］ＴｒｏｔｔａｎｄＯｌｓｏｎ，２０１０，“ＡｕｔｏＤｏｃｋＶｉｎａ：Ｉｍｐｒｏｖｉｎｇｔｈｅｓｐｅｅｄａｎｄａｃｃｕｒａｃｙｏｆｄｏｃｋｉｎｇｗｉｔｈａｎｅｗｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎ，ｅｆｆｉｃｉｅｎｔｏｐｔｉｍｉｚａｔｉｏｎ，ａｎｄｍｕｌｔｉｔｈｒｅａｄｉｎｇ，” ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ３１（２）ｐｐ．４５５－４６１．

【0271】

［１５］Ｌｏｎｇｅｔａｌ．，２０１８，“ＣｏｎｄｉｔｉｏｎａｌＡｄｖｅｒｓａｒｉａｌＤｏｍａｉｎＡｄａｐｔａｔｉｏｎ，” ａｒＸｉｖ：１７０５．１０６６７［ｃｓ］，Ｄｅｃｅｍｂｅｒ２０１８．

【0272】

［１６］Ｍｏｒｒｉｓｏｎｅｔａｌ．，２０２０，“ＣＵｉｎａ：ＡｎＥｆｆｉｃｉｅｎｔＧＰＵＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＡｕｔｏＤｏｃｋＶｉｎａ，” Ａｕｇｕｓｔ２０２０．ＵＲＬｈｔｔｐｓ：／／ｂｌｏｇ．ａｔｏｍｗｉｓｅ．ｃｏｍ／ｅｆｆｉｃｉｅｎｔ－ｇｐｕ－ｉｍｐｌｅｍｅｎｔａｔｉｏｎ－ｏｆ－ａｕｔｏｄｏｃｋ－ｖｉｎａ．

【0273】

結論
説明の目的において、前述の説明は、特定の実装を参照して説明されている。しかしながら、以上の例示的な考察は、網羅的であることを意図するものではなく、実施を開示される正確な形態に限定することを意図するものでもない。上記の教示を考慮して、多くの修正及び変形が可能である。実装は、原理及びそれらの実際の用途を最もよく説明するために選択及び説明され、それによって、当業者が、企図される特定の使用に適した実装及び様々な修正を伴う様々な実装を最もよく利用できるようにした。

【図1A】