特表2022-550550 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アトムワイズ，インコーポレイテッドの特許一覧

特表2022-550550インシリコで化合物をスクリーニングするためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-12-02

(54)【発明の名称】インシリコで化合物をスクリーニングするためのシステムおよび方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20221125BHJP

G06N 3/02 20060101ALI20221125BHJP

G16C 20/64 20190101ALI20221125BHJP

G16C 20/70 20190101ALI20221125BHJP

【ＦＩ】

G06N20/00

G06N3/02

G16C20/64

G16C20/70

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022519999

(86)(22)【出願日】2020-09-30

(85)【翻訳文提出日】2022-05-20

(86)【国際出願番号】 US2020053477

(87)【国際公開番号】W WO2021067399

(87)【国際公開日】2021-04-08

(31)【優先権主張番号】62/910,068

(32)【優先日】2019-10-03

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＡＮＤＲＯＩＤ

２．Ｌｉｎｕｘ

３．ＵＮＩＸ

４．ＷＩＮＤＯＷＳ

５．ＶＸＷＯＲＫＳ

６．ｉＯＳ

７．ＯＳＸ

(71)【出願人】

【識別番号】516331306

【氏名又は名称】アトムワイズ，インコーポレイテッド

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】マイソール，ヴェンカテーシュ

(72)【発明者】

【氏名】ソレンソン，ジョン

(72)【発明者】

【氏名】フリードランド，グレッグ

(72)【発明者】

【氏名】グプタ，ツシタ

(72)【発明者】

【氏名】ワラッチ，イズハール

(57)【要約】

被験対象データセットにおける被験対象の数を削減するシステムおよび方法が提供される。第１の計算複雑性を有する標的モデルが、被験対象データセットおよび標的対象からの被験対象のサブセットに適用され、それによって、標的結果のサブセットを取得する。第２の計算複雑性を有する予測モデルが、被験対象のサブセットおよび標的結果のサブセットを使用して訓練される。予測モデルは、複数の被験対象に適用され、それによって、複数の予測結果を取得する。被験対象の一部分は、少なくとも部分的に複数の予測結果に基づいて、複数の被験対象から排除される。方法は、１つ以上の事前定義された削減基準が満たされているかどうかを判定する。事前定義された削減基準が満たされていない場合、被験対象および標的結果の追加のサブセットが取得され、かつ方法が、繰り返される。
【選択図】図１

【特許請求の範囲】

【請求項1】

被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法であって、
Ａ）電子形式で、前記被験対象データセットを取得することと、
Ｂ）前記複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、前記それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することと、
Ｃ）少なくともｉ）前記被験対象のサブセットを独立変数として、かつｉｉ）前記標的結果の対応するサブセットを従属変数として使用して、初期の訓練された状態の予測モデルを訓練し、それによって、前記予測モデルを更新された訓練された状態に更新することと、
Ｄ）更新された訓練された状態の前記予測モデルを前記複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することと、
Ｅ）前記複数の予測結果の前記インスタンスに少なくとも部分的に基づいて、前記複数の被験対象から前記被験対象の一部分を排除することと、
Ｆ）１つ以上の事前定義された削減基準が満たされているかどうかを判定することであって、前記１つ以上の事前定義された削減基準が満たされない場合、前記方法が、
（ｉ）前記複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、前記標的モデルを前記それぞれの被験対象および前記少なくとも１つの標的対象に適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することであって、前記被験対象の追加のサブセットが、少なくとも部分的に前記複数の予測結果の前記インスタンス上で選択される、取得することと、
（ｉｉ）前記被験対象のサブセットに前記被験対象の追加のサブセットを組み込むことによって、前記被験対象のサブセットを更新することと、
（ｉｉｉ）前記標的結果のサブセットに前記標的結果の追加のサブセットを組み込むことによって、前記標的結果のサブセットを更新することと、
（ｉｖ）前記更新すること（ｉｉ）および前記更新すること（ｉｉｉ）の後に、前記予測モデルを、少なくとも１）前記予測モデルの複数の独立変数としての前記被験対象のサブセット、および２）前記予測モデルの対応する複数の従属変数としての前記標的結果の対応するサブセットに適用することによって、前記予測モデルを修正し、それによって、更新された訓練された状態の前記予測モデルを提供することと、
（ｖ）前記適用すること（Ｄ）、排除すること（Ｅ）、および判定すること（Ｆ）を繰り返すことであって、前記複数の被験対象が、前記排除することＥ）のインスタンスの適用前に、少なくとも１億個の被験対象を含む、繰り返すことと、をさらに含む、判定することと、を含む、方法。

【請求項2】

前記標的モデルが、第１の計算複雑性を呈し、
前記予測モデルが、第２の計算複雑性を呈し、
前記第２の計算複雑性が、前記第１の計算複雑性よりも小さい、請求項１に記載の方法。

【請求項3】

前記被験対象データセットが、複数の特徴ベクトルを含み、各特徴ベクトルが、前記複数の被験対象中のそれぞれの被験対象のためのものである、請求項１または２に記載の方法。

【請求項4】

前記適用することＢ）が、前記複数の被験対象から１つ以上の被験対象をランダムに選択して、前記被験対象のサブセットを形成することをさらに含む、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記適用することＢ）が、前記複数の特徴ベクトルから選択された１つ以上の特徴の評価に基づいて、前記被験対象のサブセットの前記複数の被験対象から１つ以上の被験対象を選択することをさらに含む、請求項３に記載の方法。

【請求項6】

前記複数の特徴ベクトル中の各特徴ベクトルが、一次元ベクトルである、請求項３に記載の方法。

【請求項7】

前記適用することＦ）（ｉ）が、前記複数の特徴ベクトルから選択された１つ以上の特徴の評価に基づいて、前記複数の被験対象から１つ以上の被験対象を選択することによって、前記被験対象の追加のサブセットを形成することをさらに含む、請求項３または４に記載の方法。

【請求項8】

前記１つ以上の事前定義された削減基準を満たすことが、前記複数の予測結果中の各予測結果を、前記標的結果のサブセットからの対応する標的結果と比較することを含む、請求項１～７のいずれか一項に記載の方法。

【請求項9】

前記１つ以上の事前定義された削減基準を満たすことは、前記複数の被験対象中の前記被験対象の数が、対象の閾値数を下回ったことを判定することを含む、請求項１～７のいずれか一項に記載の方法。

【請求項10】

前記標的モデルが、畳み込みニューラルネットワークである、請求項１～９のいずれか一項に記載の方法。

【請求項11】

前記予測モデルが、ランダム・フォレスト・ツリー、複数の多重加法的決定木を含むランダムフォレスト、ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、線形回帰、ナイーブ・ベイズ・アルゴリズム、多カテゴリ論理回帰アルゴリズム、またはそれらのアンサンブルを含む、請求項１～９のいずれか一項に記載の方法。

【請求項12】

前記少なくとも１つの標的対象が、単一の対象であり、
前記単一の対象が、ポリマーである、請求項１～１１のいずれか一項に記載の方法。

【請求項13】

前記ポリマーが、活性部位を含む、請求項１２に記載の方法。

【請求項14】

前記ポリマーが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリである、請求項１２または１３に記載の方法。

【請求項15】

前記ポリマーが、２．５Å以上の分解能で分解された前記ポリマーの結晶構造の三次元座標のセット｛ｘ_１，．．．，ｘ_Ｎ｝に基づいて、前記標的モデルに適用される、請求項１２に記載の方法。

【請求項16】

前記ポリマーが、３．３Å以上の分解能で分解された前記ポリマーの結晶構造の三次元座標のセット｛ｘ_１，．．．，ｘ_Ｎ｝に基づいて、前記標的モデルに適用される、請求項１２に記載の方法。

【請求項17】

前記ポリマーが、核磁気共鳴、中性子回折、または低温電子顕微鏡法によって判定された前記ポリマーの三次元座標のアンサンブルである空間座標に基づいて、前記標的モデルに適用される、請求項１２に記載の方法。

【請求項18】

前記複数の被験対象が、前記排除することＥ）のインスタンスの適用前に、少なくとも５億個の被験対象、少なくとも１０億個の被験対象、少なくとも２０億個の被験対象、少なくとも３０億個の被験対象、少なくとも４０億個の被験対象、少なくとも５０億個の被験対象、少なくとも６０億個の被験対象、少なくとも７０億個の被験対象、少なくとも８０億個の被験対象、少なくとも９０億個の被験対象、少なくとも１００億個の被験対象、少なくとも１１０億個の被験対象、少なくとも１５０億個の被験対象、少なくとも２００億個の被験対象、少なくとも３００億個の被験対象、少なくとも４００億個の被験対象、少なくとも５００億個の被験対象、少なくとも６００億個の被験対象、少なくとも７００億個の被験対象、少なくとも８００億個の被験対象、少なくとも９００億個の被験対象、少なくとも１０００億個の被験対象、または少なくとも１１００億個の被験対象を含む、請求項１～１９のいずれか一項に記載の方法。

【請求項19】

前記１つ以上の事前定義された削減基準は、前記複数の被験対象が、３０個以下の被験対象、４０個以下の被験対象、５０個以下の被験対象、６０個以下の被験対象、７０個以下の被験対象、９０個以下の被験対象、１００個以下の被験対象、２００個以下の被験対象、３００個以下の被験対象、４００個以下の被験対象、５００個以下の被験対象、６００個以下の被験対象、７００個以下の被験対象、８００個以下の被験対象、９００個以下の被験対象、または１０００個以下の被験対象を有することを必要とする、請求項０に記載の方法。

【請求項20】

前記複数の被験対象中の各被験対象が、化学化合物を表す、請求項１～１９のいずれか一項に記載の方法。

【請求項21】

前記初期の訓練された状態の前記予測モデルが、訓練されていないか、または部分的に訓練された分類子を含む、請求項１～２０のいずれか一項に記載の方法。

【請求項22】

前記更新された訓練された状態の前記予測モデルが、前記初期の訓練された状態の前記予測モデルとは別のものである、訓練されていないか、または部分的に訓練された分類子を含む、請求項１～２１のいずれか一項に記載の方法。

【請求項23】

前記被験対象のサブセットが、少なくとも１，０００個の被験対象、少なくとも５，０００個の被験対象、少なくとも１０，０００個の被験対象、少なくとも２５，０００個の被験対象、少なくとも５０，０００個の被験対象、少なくとも７５，０００個の被験対象、少なくとも１００，０００個の被験対象、少なくとも２５０，０００個の被験対象、少なくとも５００，０００個の被験対象、少なくとも７５０，０００個の被験対象、少なくとも１００万個の被験対象、少なくとも２００万個の被験対象、少なくとも３００万個の被験対象、少なくとも４００万個の被験対象、少なくとも５００万個の被験対象、少なくとも６００万個の被験対象、少なくとも７００万個の被験対象、少なくとも８００万個の被験対象、少なくとも９００万個の被験対象、または少なくとも１，０００万個の被験対象を含む、請求項１～２２のいずれか一項に記載の方法。

【請求項24】

前記被験対象の追加のサブセットが、少なくとも１，０００個の被験対象、少なくとも５，０００個の被験対象、少なくとも１０，０００個の被験対象、少なくとも２５，０００個の被験対象、少なくとも５０，０００個の被験対象、少なくとも７５，０００個の被験対象、少なくとも１００，０００個の被験対象、少なくとも２５０，０００個の被験対象、少なくとも５００，０００個の被験対象、少なくとも７５０，０００個の被験対象、少なくとも１００万個の被験対象、少なくとも２００万個の被験対象、少なくとも３００万個の被験対象、少なくとも４００万個の被験対象、少なくとも５００万個の被験対象、少なくとも６００万個の被験対象、少なくとも７００万個の被験対象、少なくとも８００万個の被験対象、少なくとも９００万個の被験対象、または少なくとも１，０００万個の被験対象を含む、請求項１～２３のいずれか一項に記載の方法。

【請求項25】

前記被験対象の追加のサブセットが、前記被験対象のサブセットとは別のものである、請求項２３または２４に記載の方法。

【請求項26】

前記Ｆ）前記予測モデルを修正すること（ｉｖ）が、前記予測モデルを再訓練することを含む、請求項１に記載の方法。

【請求項27】

前記訓練すること（Ｃ）が、前記少なくとも、ｉ）前記被験対象のサブセットを前記予測モデルの複数の独立変数として、かつｉｉ）前記標的結果の対応するサブセットを前記予測モデルの複数の従属変数として使用することに加えて、ｉｉｉ）前記少なくとも１つの標的対象を前記予測モデルの独立変数として使用することをさらに含む、請求項１に記載の方法。

【請求項28】

前記少なくとも１つの標的対象が、少なくとも２つの標的対象、少なくとも３つの標的対象、少なくとも４つの標的対象、少なくとも５つの標的対象、または少なくとも６つの標的対象を含む、請求項１または２７に記載の方法。

【請求項29】

前記複数の予測結果の前記インスタンスが、前記複数の被験対象中の各被験対象に対するそれぞれの予測結果を含む、請求項１に記載の方法。

【請求項30】

前記修正することＦ）（ｉｖ）が、少なくとも１）前記被験対象のサブセットを独立変数として、かつ２）前記標的結果の対応するサブセットを前記予測モデルの対応する従属変数として使用することに加えて、３）前記少なくとも１つの標的対象を独立変数として使用することをさらに含む、請求項１～２９のいずれか一項に記載の方法。

【請求項31】

前記１つ以上の事前定義された削減基準が満たされている場合、前記方法が、
ｉ）前記複数の被験対象をクラスタ化し、それによって、前記複数の被験対象中の各被験対象を複数のクラスタ中のクラスタに割り当てることと、
ｉｉ）少なくとも部分的に前記複数のクラスタ中の個々のクラスタの被験対象の冗長性に基づいて、前記複数の被験対象から１つ以上の被験対象を排除することと、をさらに含む、請求項１～３０のいずれか一項に記載の方法。

【請求項32】

前記方法が、
ｉ）前記複数の被験対象をクラスタ化し、それによって、前記複数の被験対象中の各被験対象を複数のクラスタ中のそれぞれのクラスタに割り当てることと、
ｉｉ）少なくとも部分的に前記複数のクラスタ中の個々のクラスタの被験対象の冗長性に基づいて、前記複数の被験対象から前記被験対象のサブセットを選択することと、によって、前記複数の被験対象から前記被験対象のサブセットを選択することをさらに含む、請求項１～３０のいずれか一項に記載の方法。

【請求項33】

前記１つ以上の事前定義された削減基準が満たされている場合、前記方法が、前記予測モデルを前記複数の被験対象および前記少なくとも１つの標的対象に適用し、それによって、前記予測モデルに、前記複数の被験対象中の各被験対象に対するそれぞれの相互作用スコアを提供させることをさらに含む、請求項１～３２のいずれか一項に記載の方法。

【請求項34】

各それぞれの相互作用スコアが、それぞれの被験対象と前記少なくとも１つの標的対象との間の相互作用に対応する、請求項３３に記載の方法。

【請求項35】

各それぞれの相互作用スコアを使用して、前記少なくとも１つの標的対象を特徴付ける、請求項３３または３４に記載の方法。

【請求項36】

前記排除すること（Ｅ）が、
ｉ）前記複数の被験対象をクラスタ化し、それによって、前記複数の被験対象中の各被験対象を複数のクラスタ中のそれぞれのクラスタに割り当てることと、
ｉｉ）少なくとも部分的に前記複数のクラスタ中の個々のクラスタの被験対象の冗長性に基づいて、前記複数の被験対象から被験対象のサブセットを排除することと、を含む、請求項１に記載の方法。

【請求項37】

前記複数の被験対象をクラスタリングすることが、密度ベースの空間クラスタリングアルゴリズム、分割クラスタリングアルゴリズム、凝集クラスタリングアルゴリズム、ｋ平均クラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、またはそれらのアンサンブルを使用して実行される、請求項３１、３２、または３６に記載の方法。

【請求項38】

前記排除すること（Ｅ）が、
前記複数の予測結果の前記インスタンスに基づいて、前記複数の被験対象をランク付けすることと、
前記複数の被験対象から、閾値カットオフを満たす対応する予測結果を有するに至らない前記複数の被験対象中のそれらの被験対象を削除することと、を含む、請求項１に記載の方法。

【請求項39】

前記閾値カットオフが、上位閾値パーセンテージである、請求項３８に記載の方法。

【請求項40】

前記上位閾値パーセンテージが、前記複数の予測結果の上位９０パーセント、上位８０パーセント、上位７５パーセント、上位６０パーセント、または上位５０パーセントである、請求項３９に記載の方法。

【請求項41】

前記排除すること（Ｅ）の各インスタンスが、前記複数の被験対象中の前記被験対象の１０分の１～１０分の９を排除する、請求項１～４０のいずれか一項に記載の方法。

【請求項42】

前記排除すること（Ｅ）の各インスタンスが、前記複数の被験対象中の前記被験対象の４分の１～４分の３を排除する、請求項１～４０のいずれか一項に記載の方法。

【請求項43】

前記少なくとも１つの標的対象が、単一の標的対象であり、前記複数の被験対象からの被験対象のサブセット中の各それぞれの被験対象について、前記それぞれの被験対象および標的対象に適用して、対応する標的結果Ｂ）を取得することが、
ｉ）前記標的対象の空間座標を取得することと、
ｉｉ）複数の異なるポーズ中の各ポーズの前記標的対象で前記それぞれの被験対象をモデル化し、それによって、複数のボクセルマップを作成することであって、前記複数のボクセルマップ中の各それぞれのボクセルマップが、前記複数の異なるポーズ中のそれぞれのポーズの前記被験対象を含む、作成することと、
ｉｉｉ）前記複数のボクセルマップ中の各ボクセルマップを対応するベクトルに展開し、それによって、複数のベクトルを作成することであって、前記複数のベクトル中の各ベクトルが、同じサイズである、展開することと、
ｉｖ）前記複数のベクトル中の各それぞれのベクトルを前記標的モデルに入力することであって、前記標的モデルが、（ａ）前記複数のベクトルを順次受け取るための入力層、（ｂ）複数の畳み込み層、および（ｃ）スコアラを含み、
前記複数の畳み込み層が、初期畳み込み層および最終畳み込み層を含み、
前記複数の畳み込み層中の各層が、重みの異なるセットと関連付けられ、
前記複数のベクトル中のそれぞれのベクトルの入力に応答して、前記入力層が、前記それぞれのベクトルの値の第１の関数として、第１の複数の値を前記初期畳み込み層に供給し、
前記最終畳み込み層以外の各それぞれの畳み込み層が、中間値を、（ａ）前記それぞれの畳み込み層と関連付けられた前記重みの異なるセットと、（ｂ）前記それぞれの畳み込み層によって受け取られた入力値と、のそれぞれの第２の関数として、前記複数の畳み込み層中の別の畳み込み層に供給し、
前記最終畳み込み層が、最終値を、（ａ）前記最終畳み込み層と関連付けられた前記重みの異なるセットと、（ｂ）前記最終畳み込み層によって受け取られた入力値と、の第３の関数として、前記スコアラに供給する、入力することと、
ｖ）前記スコアラから対応する複数のスコアを取得することであって、前記対応する複数のスコア中の各スコアが、前記複数のベクトル中のベクトルの、前記入力層への前記入力に対応する、取得することと、
ｖｉ）前記複数のスコアを使用して、前記対応する標的結果を計算することと、を含む、請求項１～４２のいずれか一項に記載の方法。

【請求項44】

前記スコアラが、複数の全結合層および評価層を含み、前記複数の全結合層中の全結合層が、前記評価層に供給する、請求項４３に記載の方法。

【請求項45】

前記スコアラが、決定木、多重加法的回帰木、クラスタリングアルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、およびそれらのアンサンブルを含む、請求項４３に記載の方法。

【請求項46】

前記複数のベクトル中の各ベクトルが、一次元ベクトルである、請求項４３に記載の方法。

【請求項47】

前記複数の異なるポーズが、２以上のポーズ、１０以上のポーズ、１００以上のポーズ、または１０００以上のポーズを含む、請求項４３に記載の方法。

【請求項48】

前記複数の異なるポーズが、マークアップ・チェーン・モンテ・カルロ・サンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムのうちの１つにおけるドッキングスコアリング関数を使用して取得される、請求項４３に記載の方法。

【請求項49】

前記複数の異なるポーズが、貪欲アルゴリズムを使用して逐次検索によって取得される、請求項４３に記載の方法。

【請求項50】

前記複数のスコアを前記使用して前記対応する標的結果を計算することが、前記複数のスコアの中心傾向の尺度を測ることを含む、請求項４３に記載の方法。

【請求項51】

前記複数のスコアを前記使用して前記対応する標的結果を計算することが、前記複数のスコアを使用して前記それぞれの被験対象を特徴付けることが前記複数のスコアの加重平均を取ることを含む、請求項４３に記載の方法。

【請求項52】

前記複数の畳み込み層中のそれぞれの畳み込み層が、複数のフィルタを有し、前記複数のフィルタ中の各フィルタが、Ｎ^３の立方体入力空間をストライドＹで畳み込み、Ｎが、２以上の整数であり、Ｙが、正の整数である、請求項４３に記載の方法。

【請求項53】

前記それぞれの畳み込み層と関連付けられた前記重みの異なるセットが、前記複数のフィルタ中のそれぞれのフィルタと関連付けられる、請求項５２に記載の方法。

【請求項54】

前記スコアラが、複数の全結合層およびロジスティック回帰コスト層を含み、前記複数の全結合層中の全結合層が、前記ロジスティック回帰コスト層に供給する、請求項４３に記載の方法。

【請求項55】

被験対象データセットにおける複数の被験対象中の被験対象の数を削減するためのコンピュータシステムであって、
１つ以上のプロセッサと、
メモリと、
１つ以上のプログラムと、を含み、前記１つ以上のプログラムが、前記メモリに記憶されており、前記１つ以上のプロセッサによって実行されるように構成されており、前記１つ以上のプログラムが、
Ａ）電子形式で、前記被験対象データセットを取得することと、
Ｂ）前記複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、前記それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することと、
Ｃ）少なくともｉ）前記被験対象のサブセットを独立変数として、かつｉｉ）前記標的結果の対応するサブセットを従属変数として使用して、初期の訓練された状態の予測モデルを訓練し、それによって、前記予測モデルを更新された訓練された状態に更新することと、
Ｄ）更新された訓練された状態の前記予測モデルを前記複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することと、
Ｅ）少なくとも部分的に前記複数の予測結果の前記インスタンスに基づいて、前記複数の被験対象から前記被験対象の一部分を排除することと、
Ｆ）１つ以上の事前定義された削減基準が満たされているかどうかを判定することとであって、前記１つ以上の事前定義された削減基準が満たされない場合、前記方法が、
（ｉ）前記複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、前記標的モデルを前記それぞれの被験対象および少なくとも１つの標的対象に適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することであって、前記被験対象の追加のサブセットが、少なくとも部分的に前記複数の予測結果の前記インスタンス上で選択される、取得することと、
（ｉｉ）前記被験対象のサブセットに前記被験対象の追加のサブセットを組み込むことによって、前記被験対象のサブセットを更新することと、
（ｉｉｉ）前記標的結果のサブセットに前記標的結果の追加のサブセットを組み込むことによって、前記標的結果のサブセットを更新することと、
（ｉｖ）前記更新すること（ｉｉ）および前記更新すること（ｉｉｉ）の後に、前記予測モデルを、少なくとも１）前記予測モデルの複数の独立変数としての前記被験対象のサブセット、および２）前記予測モデルの対応する複数の従属変数としての前記標的結果の対応するサブセットに適用することによって、前記予測モデルを修正し、それによって、更新された訓練された状態の前記予測モデルを提供することと、
（ｖ）前記適用すること（Ｄ）、排除すること（Ｅ）、および判定すること（Ｆ）を繰り返すことであって、前記複数の被験対象が、前記排除することＥ）のインスタンスの適用前に、少なくとも１億個の被験対象を含む、繰り返すことと、をさらに含む、判定することと、のための命令を含む、コンピュータシステム。

【請求項56】

非一時的コンピュータ可読記憶媒体およびそれに埋め込まれた１つ以上のコンピュータプログラムであって、前記１つ以上のコンピュータプログラムが、コンピュータシステムによって実行されたとき、前記コンピュータシステムに、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法を実行させる命令を含み、前記方法が、
Ａ）電子形式で、前記被験対象データセットを取得することと、
Ｂ）前記複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、前記それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することと、
Ｃ）少なくともｉ）前記被験対象のサブセットを独立変数として、かつｉｉ）前記標的結果の対応するサブセットを従属変数として使用して、初期の訓練された状態の予測モデルを訓練し、それによって、前記予測モデルを更新された訓練された状態に更新することと、
Ｄ）更新された訓練された状態の前記予測モデルを前記複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することと、
Ｅ）少なくとも部分的に前記複数の予測結果の前記インスタンスに基づいて、前記複数の被験対象から前記被験対象の一部分を排除することと、
Ｆ）１つ以上の事前定義された削減基準が満たされているかどうかを判定することであって、前記１つ以上の事前定義された削減基準が満たされない場合、前記方法が、
（ｉ）前記複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、前記標的モデルを前記それぞれの被験対象および少なくとも１つの標的対象に適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することであって、前記被験対象の追加のサブセットが、少なくとも部分的に前記複数の予測結果の前記インスタンス上で選択される、取得することと、
（ｉｉ）前記被験対象のサブセットに前記被験対象の追加のサブセットを組み込むことによって、前記被験対象のサブセットを更新することと、
（ｉｉｉ）前記標的結果のサブセットに前記標的結果の追加のサブセットを組み込むことによって、前記標的結果のサブセットを更新することと、
（ｉｖ）前記更新すること（ｉｉ）および前記更新すること（ｉｉｉ）の後に、前記予測モデルを、少なくとも１）前記予測モデルの複数の独立変数としての前記被験対象のサブセット、および２）前記予測モデルの対応する複数の従属変数としての前記標的結果の対応するサブセットに適用することによって、前記予測モデルを修正し、それによって、更新された訓練された状態の前記予測モデルを提供することと、
（ｖ）前記適用すること（Ｄ）、排除すること（Ｅ）、および判定すること（Ｆ）を繰り返すことであって、前記複数の被験対象が、前記排除すること（Ｅ）のインスタンスの適用前に、少なくとも１億個の被験対象を含む、繰り返すことと、をさらに含む、判定することと、を含む、非一時的コンピュータ可読記憶媒体およびそれに埋め込まれた１つ以上のコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０１９年１０月３日に出願された、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＳｃｒｅｅｎｉｎｇＣｏｍｐｏｕｎｄｓＩｎＳｉｌｉｃｏ」という名称の米国仮特許出願第６２／９１０，０６８号の優先権を主張し、参照により本明細書に組み込まれる。

【0002】

本明細書は、概して、異なる計算複雑性を有する複数の計算モデルを使用することによるデータセット削減のための技術に関する。

【背景技術】

【0003】

創薬の成功の可能性を高めるために分子足場を多様化する必要性は、「フラットランド」からの脱却、つまり平坦な分子を構築する合成法への依拠と呼ばれている。分子ユニバースの未探求のポテンシャルを調査する別の方策は、影に隠れているものを明らかにする方策を見つけることである。いくつかの推定によれば、少なくとも１０^６０の異なる薬物様分子：ノウバンデシリオンの可能性、があると言われている。この未開の化学空間を切り開く１つのアプローチは、超大型の仮想ライブラリ、すなわち、合成される必要はないが、それらの計算された分子構造から分子属性を推測することができる化合物のライブラリを研究することである。

【0004】

ディープ・ラーニング・ニューラル・ネットワークなどの分類子の適用を使用して、これらの仮想ライブラリなどの大量のデータから新規な洞察を生成することができる。実際、創薬におけるリードの同定および最適化、臨床試験の患者募集のサポート、医療画像分析、バイオマーカー同定、薬効分析、薬物アドヒアランス評価、シーケンシングデータ分析、仮想スクリーニング、分子プロファイリング、代謝データ分析、電子カルテ分析および医療機器データ評価、オフターゲット副作用予測、毒性予測、効力最適化、薬物再利用、薬物耐性予測、個別化医療、薬物試験設計、農薬設計、材料科学およびシミュレーションはすべて、ディープ・ラーニング・ベース・ソリューションなどの分類子の使用が探求されている適用の例である。具体的には、医療では、２００９年のアメリカ復興再投資法および２０１５年の精密医療イニシアチブが、医療における医療データの価値を広く支持している。いくつかのそのようなイニシアチブのおかげで、医療ビッグデータの量は、２０２０年までにおよそ５０倍に増大して、２５，０００ペタバイトに達すると予想されている。例えば、インターネットのｒｏｏｔｓａｎａｌｙｓｉｓ．ｃｏｍで入手可能な、ＲｏｏｔｓＡｎａｌｙｓｉｓ，Ｆｅｂｒｕａｒｙ２２，２０１７，“ＤｅｅｐＬｅａｒｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙａｎｄＤｉａｇｎｏｓｔｉｃｓ，２０１７－２０３５”を参照されたい。

【0005】

薬物再利用および前臨床研究の進歩に伴い、創薬への分類子の適用により、創薬プロセスを大幅に改善し、したがって、医療システム全体を通して患者の転帰を改善する機会が生じている。例えば、Ｒｉｆａｉｏｇｌｕｅｔａｌ．，２０１８，“Ｒｅｃｅｎｔａｐｐｌｉｃａｔｉｏｎｓｏｆｄｅｅｐｌｅａｒｎｉｎｇａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅｏｎｉｎｓｉｌｉｃｏｄｒｕｇｄｉｓｃｏｖｅｒｙ：ｍｅｔｈｏｄｓ，ｔｏｏｌｓａｎｄｄａｔａｂａｓｅｓ，”ＢｒｉｅｆｉｎｇｓｉｎＢｉｏｉｎｆｏｒｍ１－３５、およびＬａｖｅｃｃｈｉａ，２０１５，“Ｍａｃｈｉｎｅ－ｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｅｓｉｎｄｒｕｇｄｉｓｃｏｖｅｒｙ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”ＤｒｕｇＤｉｓｃｏｖｅｒｙＴｏｄａｙ２０（３），３１８－３３１を参照されたい。シリコ創薬の方法は、分類子が医薬品開発の時間および費用を削減する潜在性を有するため、分類子の特に貴重な用途である。現在、ヒトで使用するための新薬を開発する平均コストは、２０億ドルを遥かに超えると推定される。例えば、ＤｉＭａｓｉｅｔａｌ．，２０１６，ＪＨｅａｌｔｈＥｃｏｎ４７，２０－３３を参照されたい。加えて、アメリカ合衆国連邦政府は、大部分、ＮＩＨ基金を通じて、２０１０～２０１６年にＦＤＡによって承認された２１０の新薬のすべてに寄与する主基礎研究に１，０００億ドル超を費やした。Ｃｌｅａｒｙｅｔａｌ．，２０１８，“ＣｏｎｔｒｉｂｕｔｉｏｎｓｏｆＮＩＨｆｕｎｄｉｎｇｔｏｎｅｗｄｒｕｇａｐｐｒｏｖａｌｓ２０１０－２０１６，”ＰＮＡＳ１１５（１０），２３２９－２３３４を参照されたい。したがって、（例えば、知られている、かつ／またはＦＤＡ承認の化学物質のデータベースにおいて）リード化合物を発見するための、または少なくともスクリーニングするための計算方法は、創薬および医薬品開発に革命をもたらす潜在性がある。

【0006】

創薬を支援する多くの計算手法例がある。複合薬理学の発見（例えば、多くの薬物が２つ以上の分子標的に結合することができ、かつ実際に結合するという理解）は、治療を欠いている疾患のために、既に承認されている薬物を再利用する分野を開拓した。例えば、Ｈｏｐｋｉｎｓ，２００９，“Ｐｒｅｄｉｃｔｉｎｇｐｒｏｍｉｓｃｕｉｔｙ，”Ｎａｔｕｒｅ４６２，１６７－１６８およびＫｅｉｓｅｒｅｔａｌ．，２００７，“Ｒｅｌａｔｉｎｇｐｒｏｔｅｉｎｐｈａｒｍａｃｏｌｏｇｙｂｙｌｉｇａｎｄｃｈｅｍｉｓｔｒｙ，”ＮａｔＢｉｏｔｅｃｈｎｏｌ２５（２），１９７－２０６を参照されたい。シリコ創薬では、ジカ病からシャーガス病までの疾患の潜在的な治療が既に生み出されている。例えば、Ｒａｍａｒａｃｋｅｔａｌ．，２０１７，“ＺｉｋａｖｉｒｕｓＮＳ５ｐｒｏｔｅｉｎｐｏｔｅｎｔｉａｌｉｎｈｉｂｉｔｏｒｓ：ａｎｅｎｈａｎｃｅｄｉｎｓｉｌｉｃｏａｐｐｒｏａｃｈｉｎｄｒｕｇｄｉｓｃｏｖｅｒｙ，”ＪＢｉｏｍｏｌＳｔｒｕｃｔｕｒｅａｎｄＤｙｎａｍｉｃｓ３６（５），１１１８－１１３３、Ｃａｓｔｉｌｌｏ－Ｇａｒｉｔｅｔａｌ．，２０１２，“ＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｓｉｌｉｃｏａｎｄｉｎｖｉｔｒｏｏｆＮｏｖｅｌＴｒｙｐａｎｏｓｏｍｉｃｉｄａｌＤｒｕｇ－ＬｉｋｅＣｏｍｐｏｕｎｄｓ，”ＣｈｅｍＢｉｏｌａｎｄＤｒｕｇＤｅｓ８０，３８－４５、およびＲａｊｅｔａｌ．２０１５“ＦｌａｖｏｎｏｉｄｓａｓＭｕｌｔｉ－ｔａｒｇｅｔＩｎｈｉｂｉｔｏｒｓｆｏｒＰｒｏｔｅｉｎｓａｓｓｏｃｉａｔｅｄｗｉｔｈＥｂｏｌａＶｉｒｕｓ，”ＩｎｔｅｒｄｉｓｉｐＳｃｉＣｏｍｐｕｔＬｉｆｅＳｃｉ７，１－１０を参照されたい。しかしながら、仮想ライブラリの評価を含む、現在創薬のために使用されている方法のうちの多くの１つの欠点は、それらの計算複雑性である。

【0007】

特に、シリコ創薬方法のうちの多くは、主に、事前にフィルタリングされ、サイズ制限された分子データベースに適用可能である。例えば、Ｍａｃａｌｉｎｏｅｔａｌ．，２０１８，“ＥｖｏｌｕｔｉｏｎｏｆｉｎＳｉｌｉｃｏＳｔｒａｔｅｇｉｅｓｆｏｒＰｒｏｔｅｉｎ－ＰｒｏｔｅｉｎＩｎｔｅｒａｃｔｉｏｎＤｒｕｇＤｉｓｃｏｖｅｒｙ，”Ｍｏｌｅｃｕｌｅｓ２３，１９６３、およびＬｉｏｎａｔａｅｔａｌ．，２０１４，“Ｓｔｒｕｃｔｕｒｅ－ＢａｓｅｄＶｉｒｔｕａｌＳｃｒｅｅｎｉｎｇｆｏｒＤｒｕｇＤｉｓｃｏｖｅｒｙ：Ｐｒｉｎｃｉｐｌｅｓ，ＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｅｃｅｎｔＡｄｖａｎｃｅｓ，”ＣｕｒｒＴｏｐＭｅｄＣｈｅｍ１４（１６）：１９２３－１９３８を参照されたい。特に、データセットは、典型的には、少なくともわずか何百万の化合物に制限されている。Ｒａｍｓｕｎｄａｒｅｔａｌ．，２０１５，“ＭａｓｓｉｖｅｌｙＭｕｌｔｉｔａｓｋＮｅｔｗｏｒｋｓｆｏｒＤｒｕｇＤｉｓｃｏｖｅｒｙ，”ａｒＸｉｖ：１５０２．０２０７２を参照されたい。データベースサイズの制限は、新しい疾患を治療する潜在性のある医薬品を発見するか、またはスクリーニングする能力に対応する制限を課す。

【0008】

有望なリード化合物を同定することの重要性を考慮すると、化合物の大きなライブラリの評価を可能にする創薬の改善された計算方法が、当該技術分野において必要とされる。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】ＲｏｏｔｓＡｎａｌｙｓｉｓ，Ｆｅｂｒｕａｒｙ２２，２０１７，“ＤｅｅｐＬｅａｒｎｉｎｇｉｎＤｒｕｇＤｉｓｃｏｖｅｒｙａｎｄＤｉａｇｎｏｓｔｉｃｓ，２０１７－２０３５”

【非特許文献2】Ｒｉｆａｉｏｇｌｕｅｔａｌ．，２０１８，“Ｒｅｃｅｎｔａｐｐｌｉｃａｔｉｏｎｓｏｆｄｅｅｐｌｅａｒｎｉｎｇａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅｏｎｉｎｓｉｌｉｃｏｄｒｕｇｄｉｓｃｏｖｅｒｙ：ｍｅｔｈｏｄｓ，ｔｏｏｌｓａｎｄｄａｔａｂａｓｅｓ，”ＢｒｉｅｆｉｎｇｓｉｎＢｉｏｉｎｆｏｒｍ１－３５

【非特許文献3】Ｌａｖｅｃｃｈｉａ，２０１５，“Ｍａｃｈｉｎｅ－ｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｅｓｉｎｄｒｕｇｄｉｓｃｏｖｅｒｙ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”ＤｒｕｇＤｉｓｃｏｖｅｒｙＴｏｄａｙ２０（３），３１８－３３１

【非特許文献4】ＤｉＭａｓｉｅｔａｌ．，２０１６，ＪＨｅａｌｔｈＥｃｏｎ４７，２０－３３

【非特許文献5】Ｃｌｅａｒｙｅｔａｌ．，２０１８，“ＣｏｎｔｒｉｂｕｔｉｏｎｓｏｆＮＩＨｆｕｎｄｉｎｇｔｏｎｅｗｄｒｕｇａｐｐｒｏｖａｌｓ２０１０－２０１６，”ＰＮＡＳ１１５（１０），２３２９－２３３４

【非特許文献6】Ｈｏｐｋｉｎｓ，２００９，“Ｐｒｅｄｉｃｔｉｎｇｐｒｏｍｉｓｃｕｉｔｙ，”Ｎａｔｕｒｅ４６２，１６７－１６８

【非特許文献7】Ｋｅｉｓｅｒｅｔａｌ．，２００７，“Ｒｅｌａｔｉｎｇｐｒｏｔｅｉｎｐｈａｒｍａｃｏｌｏｇｙｂｙｌｉｇａｎｄｃｈｅｍｉｓｔｒｙ，”ＮａｔＢｉｏｔｅｃｈｎｏｌ２５（２），１９７－２０６

【非特許文献8】Ｒａｍａｒａｃｋｅｔａｌ．，２０１７，“ＺｉｋａｖｉｒｕｓＮＳ５ｐｒｏｔｅｉｎｐｏｔｅｎｔｉａｌｉｎｈｉｂｉｔｏｒｓ：ａｎｅｎｈａｎｃｅｄｉｎｓｉｌｉｃｏａｐｐｒｏａｃｈｉｎｄｒｕｇｄｉｓｃｏｖｅｒｙ，”ＪＢｉｏｍｏｌＳｔｒｕｃｔｕｒｅａｎｄＤｙｎａｍｉｃｓ３６（５），１１１８－１１３３

【非特許文献9】Ｃａｓｔｉｌｌｏ－Ｇａｒｉｔｅｔａｌ．，２０１２，“ＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｓｉｌｉｃｏａｎｄｉｎｖｉｔｒｏｏｆＮｏｖｅｌＴｒｙｐａｎｏｓｏｍｉｃｉｄａｌＤｒｕｇ－ＬｉｋｅＣｏｍｐｏｕｎｄｓ，”ＣｈｅｍＢｉｏｌａｎｄＤｒｕｇＤｅｓ８０，３８－４５

【非特許文献10】Ｒａｊｅｔａｌ．２０１５“ＦｌａｖｏｎｏｉｄｓａｓＭｕｌｔｉ－ｔａｒｇｅｔＩｎｈｉｂｉｔｏｒｓｆｏｒＰｒｏｔｅｉｎｓａｓｓｏｃｉａｔｅｄｗｉｔｈＥｂｏｌａＶｉｒｕｓ，”ＩｎｔｅｒｄｉｓｉｐＳｃｉＣｏｍｐｕｔＬｉｆｅＳｃｉ７，１－１０

【非特許文献11】Ｍａｃａｌｉｎｏｅｔａｌ．，２０１８，“ＥｖｏｌｕｔｉｏｎｏｆｉｎＳｉｌｉｃｏＳｔｒａｔｅｇｉｅｓｆｏｒＰｒｏｔｅｉｎ－ＰｒｏｔｅｉｎＩｎｔｅｒａｃｔｉｏｎＤｒｕｇＤｉｓｃｏｖｅｒｙ，”Ｍｏｌｅｃｕｌｅｓ２３，１９６３

【非特許文献12】Ｌｉｏｎａｔａｅｔａｌ．，２０１４，“Ｓｔｒｕｃｔｕｒｅ－ＢａｓｅｄＶｉｒｔｕａｌＳｃｒｅｅｎｉｎｇｆｏｒＤｒｕｇＤｉｓｃｏｖｅｒｙ：Ｐｒｉｎｃｉｐｌｅｓ，ＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｅｃｅｎｔＡｄｖａｎｃｅｓ，”ＣｕｒｒＴｏｐＭｅｄＣｈｅｍ１４（１６）：１９２３－１９３８

【非特許文献13】Ｒａｍｓｕｎｄａｒｅｔａｌ．，２０１５，“ＭａｓｓｉｖｅｌｙＭｕｌｔｉｔａｓｋＮｅｔｗｏｒｋｓｆｏｒＤｒｕｇＤｉｓｃｏｖｅｒｙ，”ａｒＸｉｖ：１５０２．０２０７２

【発明の概要】

【0010】

本開示は、大規模化学化合物データベースの評価のための方法を提供することによって、背景で特定された欠点に対処する。

【0011】

本開示の一態様では、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法が提供される。方法は、電子形式で、被験対象データセットを取得することを含む。

【0012】

方法は、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することをさらに含む。

【0013】

方法は、少なくともｉ）被験対象のサブセットを予測モデルの独立変数として、かつｉｉ）標的結果の対応するサブセットを予測モデルの従属変数として使用して、初期の訓練された状態の予測モデルをさらに訓練し、それによって、予測モデルを更新された訓練された状態に更新する。

【0014】

方法は、更新された訓練された状態の予測モデルを複数の被験対象にさらに適用し、それによって、複数の予測結果のインスタンスを取得する。

【0015】

方法は、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分をさらに排除する。

【0016】

方法は、１つ以上の事前定義された削減基準が満たされているかどうかを判定することをさらに含む。１つ以上の事前定義された削減基準が満たされていない場合、方法は、（ｉ）複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することをさらに含む。被験対象の追加のサブセットは、少なくとも部分的に複数の予測結果のインスタンス上で選択される。方法は、（ｉｉ）被験対象の追加のサブセットを被験対象のサブセットに組み込むことによって、被験対象のサブセットを更新することと、（ｉｉｉ）標的結果の追加のサブセットを標的結果のサブセットに組み込むことによって、標的結果のサブセットを更新することと、（ｉｖ）更新すること（ｉｉ）および（ｉｉｉ）の後に、予測モデルを、少なくとも１）独立変数としての被験対象のサブセット、および２）対応する従属変数としての標的結果の対応するサブセットに適用することによって、予測モデルを修正し、それによって、更新された訓練された状態の予測モデルを提供することと、をさらに含む。次いで、方法は、更新された訓練された状態の予測モデルの、複数の被験対象への適用を繰り返し、それによって、複数の予測結果のインスタンスを取得する。方法は、１つ以上の事前定義された削減基準が満たされるまで、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分をさらに排除する。

【0017】

いくつかの実施形態では、標的モデルは、被験対象を評価する際に第１の計算複雑性を呈し、予測モデルは、被験対象を評価する際に第２の計算複雑性を呈し、第２の計算複雑性は、第１の計算複雑性よりも小さい。いくつかの実施形態では、標的モデルは、予測モデルよりも少なくとも３倍、少なくとも５倍、または少なくとも１００倍計算的に複雑である。

【0018】

いくつかの実施形態では、被験対象データセットは、複数の特徴ベクトル（例えば、タンパク質のフィンガープリント、計算特性、および／またはグラフ記述子）を含む。いくつかの実施形態では、各特徴ベクトルは、複数の被験対象中のそれぞれの被験対象のためのものであり、複数の特徴ベクトル中の各特徴ベクトルのサイズは、同じである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、一次元ベクトルである。

【0019】

いくつかの実施形態では、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することは、複数の被験対象から１つ以上の被験対象をランダムに選択して、被験対象のサブセットを形成することをさらに含む。

【0020】

いくつかの実施形態では、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することは、複数の特徴ベクトルから選択された１つ以上の特徴の評価に基づいて、被験対象のサブセットの複数の被験対象から１つ以上の被験対象を選択することをさらに含む。いくつかの実施形態では、選択は、（例えば、複数の被験対象の）クラスタリングに基づく。

【0021】

いくつかの実施形態では、１つ以上の事前定義された削減基準を満たすことは、複数の予測結果中の各予測結果を、標的結果のサブセットからの対応する標的結果と比較することを含む。いくつかの実施形態では、１つ以上の事前定義された削減基準は、訓練結果と標的結果との差が所定の閾値を下回るときに満たされている。

【0022】

いくつかの実施形態では、１つ以上の事前定義された削減基準を満たすことは、複数の被験対象中の被験対象の数が、対象の閾値数を下回ったことを判定することを含む。

【0023】

いくつかの実施形態では、標的モデルは、畳み込みニューラルネットワークである。

【0024】

いくつかの実施形態では、予測モデルは、ランダム・フォレスト・ツリー、複数の多重加法的決定木を含むランダムフォレスト、ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、線形回帰、ナイーブ・ベイズ・アルゴリズム、多カテゴリ論理回帰アルゴリズム、またはそれらのアンサンブルを含む。

【0025】

いくつかの実施形態では、少なくとも１つの標的対象は、単一の対象であり、単一の対象は、ポリマーである。いくつかの実施形態では、ポリマーは、活性部位を含む。いくつかの実施形態では、ポリマーは、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリである。

【0026】

いくつかの実施形態では、複数の被験対象は、複数の被験対象から被験対象の一部分を排除するインスタンスの適用の前に、少なくとも１億個の被験対象、少なくとも５億個の被験対象、少なくとも１０億個の被験対象、少なくとも２０億個の被験対象、少なくとも３０億個の被験対象、少なくとも４０億個の被験対象、少なくとも５０億個の被験対象、少なくとも６０億個の被験対象、少なくとも７０億個の被験対象、少なくとも８０億個の被験対象、少なくとも９０億個の被験対象、少なくとも１００億個の被験対象、少なくとも１１０億個の被験対象、少なくとも１５０億個の被験対象、少なくとも２００億個の被験対象、少なくとも３００億個の被験対象、少なくとも４００億個の被験対象、少なくとも５００億個の被験対象、少なくとも６００億個の被験対象、少なくとも７００億個の被験対象、少なくとも８００億個の被験対象、少なくとも９００億個の被験対象、少なくとも１０００億個の被験対象、または少なくとも１１００億個の被験対象を含む。

【0027】

いくつかの実施形態では、１つ以上の事前定義された削減基準は、複数の被験対象が（例えば、複数の被験対象から被験対象の一部分を排除する１つ以上のインスタンスの後に）、３０個以下の被験対象、４０個以下の被験対象、５０個以下の被験対象、６０個以下の被験対象、７０個以下の被験対象、９０個以下の被験対象、１００個以下の被験対象、２００個以下の被験対象、３００個以下の被験対象、４００個以下の被験対象、５００個以下の被験対象、６００個以下の被験対象、７００個以下の被験対象、８００個以下の被験対象、９００個以下の被験対象、または１０００個以下の被験対象を有することを必要とする。

【0028】

いくつかの実施形態では、複数の被験対象中の各被験対象は、化学化合物である。

【0029】

いくつかの実施形態では、初期の訓練された状態の予測モデルは、訓練されていないか、または部分的に訓練された分類子を含む。いくつかの実施形態では、更新された訓練された状態の予測モデルは、初期の訓練された状態の予測モデルとは別のものである、訓練されていないか、または部分的に訓練された分類子を含む。

【0030】

いくつかの実施形態では、被験対象のサブセットおよび／または被験対象の追加のサブセットは、少なくとも１，０００個の被験対象、少なくとも５，０００個の被験対象、少なくとも１０，０００個の被験対象、少なくとも２５，０００個の被験対象、少なくとも５０，０００個の被験対象、少なくとも７５，０００個の被験対象、少なくとも１００，０００個の被験対象、少なくとも２５０，０００個の被験対象、少なくとも５００，０００個の被験対象、少なくとも７５０，０００個の被験対象、少なくとも１００万個の被験対象、少なくとも２００万個の被験対象、少なくとも３００万個の被験対象、少なくとも４００万個の被験対象、少なくとも５００万個の被験対象、少なくとも６００万個の被験対象、少なくとも７００万個の被験対象、少なくとも８００万個の被験対象、少なくとも９００万個の被験対象、または少なくとも１，０００万個の被験対象を含む。いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットとは別のものである。

【0031】

いくつかの実施形態では、少なくともｉ）被験対象のサブセットを（予測モデルの）複数の独立変数として、かつｉｉ）標的結果の対応するサブセットを（予測モデルの）複数の従属変数として使用して、初期の訓練された状態の予測モデルを訓練することは、ｉｉｉ）少なくとも１つの標的対象を予測モデルの独立変数として使用することをさらに含む。

【0032】

いくつかの実施形態では、少なくとも１つの標的対象は、少なくとも２つの標的対象、少なくとも３つの標的対象、少なくとも４つの標的対象、少なくとも５つの標的対象、または少なくとも６つの標的対象を含む。

【0033】

いくつかの実施形態では、更新すること（ｉｉ）および更新すること（ｉｉｉ）の後に、予測モデル（ｉｖ）を適用することによって予測モデルを修正することは、少なくとも１）被験対象のサブセットを独立変数として、かつ２）標的結果の対応するサブセットを対応する従属変数として使用することに加えて、３）少なくとも１つの標的対象を独立変数として使用することをさらに含む。

【0034】

いくつかの実施形態では、１つ以上の事前定義された削減基準が満たされている場合、方法は、複数の被験対象をクラスタ化し、それによって、複数のクラスタ中のクラスタに、複数の被験対象中の各被験対象を割り当てることと、複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から１つ以上の被験対象を排除することと、をさらに含む。

【0035】

いくつかの実施形態では、方法は、複数の被験対象をクラスタ化することによって、複数の被験対象から被験対象のサブセットを選択し、それによって、複数のクラスタ中のそれぞれのクラスタに複数の被験対象中の各被験対象を割り当て、複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から被験対象のサブセットを選択することをさらに含む。

【0036】

いくつかの実施形態では、１つ以上の事前定義された削減基準が満たされている場合、方法は、予測モデルに複数の被験対象および少なくとも１つの標的対象を適用し、それによって、予測モデルに、複数の被験対象中の各被験対象に対するそれぞれの予測結果を提供させることをさらに含む。いくつかの実施形態では、各それぞれの予測結果は、それぞれの被験対象と少なくとも１つの標的対象（例えば、ＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩ）との間の相互作用の予測に対応する。いくつかの実施形態では、各それぞれの予測スコアを使用して、少なくとも１つの標的対象を特徴付ける。

【0037】

いくつかの実施形態では、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分を排除することは、ｉ）複数の被験対象をクラスタ化し、それによって、複数のクラスタ中のそれぞれのクラスタに複数の被験対象中の各被験対象を割り当てることと、ｉｉ）複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から被験対象のサブセットを排除することと、を含む。

【0038】

いくつかの実施形態では、複数の被験対象のクラスタ化は、密度ベースの空間クラスタリングアルゴリズム、分割クラスタリングアルゴリズム、凝集クラスタリングアルゴリズム、ｋ平均クラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、またはそれらのアンサンブルを使用して実行される。

【0039】

いくつかの実施形態では、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分を排除することは、ｉ）複数の予測結果のインスタンスに基づいて、複数の被験対象をランク付けすることと、ｉｉ）複数の被験対象から、閾値カットオフを満たす対応する相互作用スコアを有するに至らない複数の被験対象中のそれらの被験対象を削除することと、を含む。

【0040】

いくつかの実施形態では、閾値カットオフは、上位閾値パーセンテージである。いくつかの実施形態では、上位閾値パーセンテージは、複数の予測結果の上位９０パーセント、上位８０パーセント、上位７５パーセント、上位６０パーセント、または上位５０パーセントである。

【0041】

いくつかの実施形態では、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分を排除する各インスタンスは、複数の被験対象中の被験対象の１０分の１～１０分の９を排除する。いくつかの実施形態では、排除することの各インスタンスは、複数の被験対象中の被験対象の４分の１～４分の３を排除する。

【0042】

本開示の別の態様は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行される少なくとも１つのプログラムを記憶しているメモリと、を含むコンピューティングシステムを提供し、少なくとも１つのプログラムは、上記に開示された方法のいずれかによって、被験対象データセットにおける複数の被験対象中の被験対象の数を削減するための命令を含む。

【0043】

本開示のさらに別の態様は、被験対象データセットにおける複数の被験対象中の被験対象の数を削減するための少なくとも１つのプログラムを記憶している非一時的コンピュータ可読記憶媒体を提供する。少なくとも１つのプログラムは、コンピュータによって実行されるように構成されている。少なくとも１つのプログラムは、上記に開示された方法のいずれかを実行するための命令を含む。

【0044】

本明細書に開示されるように、本明細書に開示される任意の実施形態は、適用可能な場合、任意の他の態様に適用され得る。本開示の追加の態様および利点は、本開示の例示的な実施形態のみが示され、記載される、以下の詳細な説明から、当業者には容易に明らかになるであろう。了得されるであろうように、本開示は、他のおよび異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な自明な点で修正が可能である。よって、図面および説明は、本質的に例示とみなされるものであり、限定とみなされるものではない。

【0045】

参照による組み込み
本明細書で言及されるすべての刊行物、特許、および特許出願は、それぞれの個々の刊行物、特許、または特許出願が、参照により組み込まれるように具体的かつ個別に示されているかのように、それらの全体が、参照により本明細書に組み込まれる。本明細書における用語と組み込まれた参照文献における用語との間に矛盾が生じた場合、本明細書における用語が律する。

【図面の簡単な説明】

【0046】

本明細書に開示される実装態様は、添付の図面において例として例示され、限定として例示されるものではない。説明および図面は、例示の目的のため、および理解の補助としてのものにすぎず、本開示のシステムおよび方法の制限の定義として意図されるものではない。同様の参照番号は、図面全体を通して対応する部分を指す。

【0047】

【図1】本開示のいくつかの実施形態による、コンピューティングシステムの例を例示するブロック図である。

【図2A】本開示のいくつかの実施形態による、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法のフローチャートの例を全体として例示している。

【図2B】本開示のいくつかの実施形態による、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法のフローチャートの例を全体として例示している。

【図2C】本開示のいくつかの実施形態による、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法のフローチャートの例を全体として例示している。

【図3】本開示のいくつかの実施形態による、化合物ライブラリを評価する例を例示している。

【図4】本開示の実施形態による、標的対象に対する２つの異なるポーズの例示的な被験対象の概略図である。

【図5】本開示の実施形態による、三次元グリッドのボクセルの形態の入力特徴の幾何学的表現の概略図である。

【図6】本開示の実施形態による、二次元グリッドのボクセル上に符号化された２つの被験対象の図である。

【図7】本開示の実施形態による、二次元グリッドのボクセル上に符号化された２つの被験対象の図である。

【図8】本開示の実施形態による、ボクセルが番号付けされた、図７の視覚化の図である。

【図9】本開示の実施形態による、原子中心の座標位置の形態の入力特徴の幾何学的表現の概略図である。

【図10】本開示の実施形態による、ある範囲の位置を有する図９の座標位置の概略図である。

【発明を実施するための形態】

【0048】

創薬に必要な計算努力は、薬物データセットのサイズおよび複雑さの拡大と同時に増加している。特に、標的分子の非常に正確なモデルは、伝統的な薬物発見方法を使用して考慮されなかった可能性のある追加の被験化合物（例えば、潜在的なリード化合物）の検出を可能にした。計算による化合物発見の使用は、潜在的な薬物データベースの探索空間を（例えば、特定の標的分子が与えられた場合、どの被験化合物が最も望ましい効果を有する可能性が高いかを判定することによって）精査し、臨床試験を実施して良好な被験化合物を検証する、非常に労力および時間が費やされる下流プロセスをさらに簡素化する。

【0049】

ここで、実施形態を詳細に参照し、これらの実施形態の例は、添付の図面に例示されている。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の具体的な詳細が述べられる。しかしながら、本開示がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の事例では、周知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には記載されていない。

【0050】

本明細書に記載される実装態様は、対象の腫瘍分画を判定するための参照モデルを訓練するための様々な技術的解決策を提供する。

【0051】

定義。
本明細書で使用される場合、「クラスタリング」という用語は、データポイントの１つ以上のセット（例えば、クラスタ）へのグループ化を最適化する様々な方法を指し、それぞれのセットの各データポイントは、それぞれのセットにないデータポイントに対するよりも、それぞれのセットの他のあらゆるデータポイントに対するより高い程度の類似性を含む。異なるタイプのデータを評価するのに好適である多種多様なクラスタリングアルゴリズムがある。これらのアルゴリズムとして、階層モデル、重心モデル、分布モデル、密度ベースのモデル、部分空間モデル、グラフベースのモデル、およびニューラルモデルが挙げられる。これらの異なるモデルは各々、別々の計算要件（例えば、複雑さ）を有し、異なるデータタイプに好適である。同じデータセットに２つの別個のクラスタリングモデルを適用することは、２つの異なるデータグループ化をもたらすことが多い。いくつかの実施形態では、データセットへのクラスタリングモデルの繰り返しの適用は、毎回異なるデータグループ化をもたらす。

【0052】

本明細書で使用される場合、「特徴ベクトル」または「ベクトル」という用語は、各要素が割り当てられた意味を有する、要素の配列などの、要素の列挙されたリストである。したがって、本開示で使用される「特徴ベクトル」という用語は、「テンソル」という用語と交換可能である。提示を容易にするために、いくつかの事例では、ベクトルは、一次元であるとして記載され得る。ただし、本開示は、そのようには限定されない。任意の次元の特徴ベクトルは、ベクトルの各要素が表すものの記述が定義されていることを条件に、本開示において使用され得る。

【0053】

本明細書で使用される場合、「ポリペプチド」という用語は、ペプチド結合によって連結された２つ以上のアミノ酸または残基を意味する。「ポリペプチド」および「タンパク質」という用語は、本明細書では交換可能に使用され、オリゴペプチドおよびペプチドを含む。「アミノ酸」、「残基」、または「ペプチド」は、当該技術分野で知られているタンパク質の２０の標準構造単位のいずれかを指し、プロリンおよびヒドロキシプロリンなどのイミノ酸を含む。アミノ酸異性体の呼称は、Ｄ、Ｌ、Ｒ、およびＳを含み得る。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリジン、ランチオニン、２－アミノイソ酪酸、γ－アミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、およびホモシステインは、すべて、アミノ酸とみなされる。アミノ酸の他の変異体または類似体が、当該技術分野で知られている。したがって、ポリペプチドは、ペプチドなどの合成ペプチド模倣構造を含み得る。Ｓｉｍｏｎｅｔａｌ．，１９９２，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＵＳＡ，８９，９３６７を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。Ｃｈｉｎｅｔａｌ．，２００３，Ｓｃｉｅｎｃｅ３０１，９６４、およびＣｈｉｎｅｔａｌ．，２００３，Ｃｈｅｍｉｓｔｒｙ＆Ｂｉｏｌｏｇｙ１０，５１１も参照されたく、これらの各々は、参照によりその全体が本明細書に組み込まれる。

【0054】

本開示で使用される術語は、単に特定の実施形態を記載する目的のためのものであり、本発明を制限することを意図するものではない。本発明の詳細な説明および添付の特許請求の範囲で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が明示的に別様に示さない限り、複数形も含むことが意図されている。本明細書で使用される場合、「および／または」という用語は、関連付けられた列挙された項目のうちの１つ以上の任意のおよびすべての可能な組み合わせを指し、包含することも理解されよう。本明細書で使用される場合の「含む（ｃｏｍｐｒｉｓｅｓ）」および／または「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、述べられた特徴、整数、ステップ、動作、要素、および／または構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を排除しないことがさらに理解されよう。さらに、「含む（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「有する（ｈａｖｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｗｉｔｈ）」という用語、またはそれらの変化形が、詳細な説明および／または特許請求の範囲のいずれかで使用される限り、そのような用語は、「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語と同様の様式で包括的であることが意図されている。

【0055】

いくつかの態様が、例示のための例示的な用途を参照して以下に記載される。本明細書に記載される特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が述べられることを理解されたい。ただし、当業者は、本明細書に記載される特徴が、特定の詳細の１つ以上なしに、または他の方法を用いて実施され得ることを容易に認識するであろう。本明細書に記載される特徴は、いくつかの行為が、異なる順序で、および／または他の行為もしくは事象と同時に行われ得るため、行為または事象の例示される順序によって限定されない。さらに、例示されるすべての行為または事象が、本明細書に記載される特徴に従って方法論を実装するために必要とされるわけではない。

【0056】

例示的なシステム実施形態
ここで、例示的なシステムの詳細が、図１と併せて記載される。図１は、いくつかの実装態様によるシステム１００を例示するブロック図である。いくつかの実装態様でのシステム１００は、少なくとも１つ以上の処理ユニットＣＰＵ１０２（プロセッサとも称される）、１つ以上のネットワークインターフェース１０４、任意選択のユーザインターフェース１０８（例えば、ディスプレイ１０６、入力デバイス１１０などを有する）メモリ１１１、およびこれらのコンポーネントを相互接続するための１つ以上の通信バス１１４を含む。１つ以上の通信バス１１４は、任意選択で、システムコンポーネント間の通信を相互接続し、制御する回路機構（チップセットと呼ばれることもある）を含む。

【0057】

いくつかの実施形態では、１つ以上の処理ユニット１０２中の各処理ユニットは、シングルコアプロセッサまたはマルチコアプロセッサである。いくつかの実施形態では、１つ以上の処理ユニット１０２は、並列処理を可能にするマルチコアプロセッサである。いくつかの実施形態では、１つ以上の処理ユニット１０２は、並列処理を可能にする複数のプロセッサ（シングルコアまたはマルチコア）である。いくつかの実施形態では、１つ以上の処理ユニット１０２の各々は、プログラムまたはソフトウェアで具現化され得る一連の機械可読命令を実行するように構成されている。命令は、メモリ１１１などのメモリ位置に記憶され得る。命令は、１つ以上の処理ユニット１０２に向けられ、続いて、１つ以上の処理ユニット１０２をプログラムするか、または他様に構成して、本開示の方法を実装することができる。１つ以上の処理ユニット１０２によって実行される動作の例は、フェッチ、デコード、実行、およびライトバックを含むことができる。１つ以上の処理ユニット１０２は、集積回路などの回路の一部であり得る。システム１００の１つ以上の他のコンポーネントを回路に含めることができる。いくつかの実施形態では、回路は、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）アーキテクチャである。

【0058】

いくつかの実施形態では、ディスプレイ１０６は、タッチ感知面などのタッチ感知ディスプレイである。いくつかの実施形態では、ユーザインターフェース１０６は、１つ以上のソフトキーボード実施形態を含む。いくつかの実装態様では、ソフトキーボードの実施形態は、表示されたアイコン上のシンボルの標準（ＱＷＥＲＴＹ）および／または非標準の構成を含む。ユーザインターフェース１０６は、例えば、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する結果、インタラクションスコア、または予測結果のグラフィック表示をユーザに提供するように構成されてもよい。ユーザインターフェースは、特定のタスクとのユーザインタラクション（例えば、事前定義された削減基準をレビューすること、および調整すること）を可能にし得る。

【0059】

メモリ１１１は、非永続メモリ、永続メモリ、またはそれらの任意の組み合わせであってもよい。非永続メモリは、典型的には、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどの、高速ランダム・アクセス・メモリを含むのに対して、永続メモリは、典型的には、ＣＤ－ＲＯＭ、デジタル汎用ディスク（ＤＶＤ）または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置デバイス、磁気ディスク記憶装置デバイス、光ディスク記憶装置デバイス、フラッシュ・メモリ・デバイス、または他の不揮発性ソリッドステート記憶装置デバイスを含む。メモリ１１１は、任意選択で、ＣＰＵ１０２からリモートに位置する１つ以上の記憶装置デバイスを含む。メモリ１１１、およびメモリ１１１内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ１１１は、少なくとも１つの非一時的コンピュータ可読記憶媒体を含み、プログラム、モジュール、およびデータ構造の形態であり得るコンピュータ実行可能実行可能命令を担持して記憶する。

【0060】

いくつかの実施形態では、図１に示されるように、メモリ１１１は、以下のプログラム、モジュール、およびデータ構造、またはそのサブセットを記憶する：
●オペレーティングシステム１１６（例えば、ｉＯＳ、ＡＮＤＲＯＩＤ、ＤＡＲＷＩＮ、ＲＴＸＣ、ＬＩＮＵＸ、ＵＮＩＸ、ＯＳＸ、ＷＩＮＤＯＷＳ、またはＶｘＷｏｒｋｓなどの組み込みオペレーティングシステム）と関連付けられた命令、プログラム、データ、または情報であって、一般的なシステムタスク（例えば、メモリ管理、記憶装置デバイス制御、電力管理）を制御し、管理するための様々なソフトウェアコンポーネントおよび／またはドライバを含み、様々なハードウェアコンポーネントとソフトウェアコンポーネントとの間の通信を容易にする、命令、プログラム、データ、または情報、
●システム１００を他のデバイスと、かつ／または通信ネットワークに接続するための、任意選択のネットワーク通信モジュール（または命令）１１８と関連付けられた命令、プログラム、データ、または情報、
●少なくとも１つの標的対象１２２であって、いくつかの実施形態では、標的対象は、ポリマーを含む、少なくとも１つの標的対象１２２、
●複数の被験対象１２４（例えば、被験対象１２４－１、…、１２４－Ｘ）を含む被験対象データベース１２２であって、複数の被験対象１２４から被験対象のサブセット１３０（例えば、被験対象１２４－Ａ、．．．、１２４－Ｂ）が、標的モデル１５０による分析のために選択され、複数の被験対象１２４から、任意選択で、被験対象の１つ以上の追加のサブセット（例えば、１４０－１、．．．、１４０－Ｙ）が選択されて、その後にサブセット１３０に追加され、サブセット１３０の各被験対象１２４は、対応する標的結果１３２および対応する予測結果１３４を有する、被験対象データベース１２２、
●第１の計算複雑性１５２を有する標的モデル１５０であって、被験対象のサブセット１３０への標的モデルの適用は、被験対象サブセット１３０の各被験対象１２４に対するそれぞれの標的結果１３２をもたらす、標的モデル１５０、および
●第２の計算複雑性１６２を有する予測モデル１６０であって、最初の訓練されていない状態１６４または更新された訓練されていない状態１６６のいずれかの予測モデルを被験対象サブセット１３０に適用して、被験対象サブセット１３０の各被験対象１３２に対するそれぞれの予測結果１３６を取得する、予測モデル１６０。

【0061】

様々な実装態様では、上記で識別された要素のうちの１つ以上は、前述のメモリデバイスのうちの１つ以上に記憶され、上述した機能を実行するための命令のセットに対応する。上記の識別されたモジュール、データ、またはプログラム（例えば、命令セット）は、別個のソフトウェアプログラム、手順、データセット、またはモジュールとして実施される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装態様で組み合わされ得るか、または別様に再配置され得る。いくつかの実装態様では、メモリ１１１は、任意選択で、上記で識別されたモジュールおよびデータ構造のサブセットを記憶する。さらに、いくつかの実施形態では、メモリは、上述されていない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、上記の識別された要素のうちの１つ以上は、システム１００のコンピュータシステム以外のコンピュータシステムに記憶され、システム１００によってアドレス指定可能であり、システム１００は、必要なときにそのようなデータのすべてまたは一部分を取り出し得る。

【0062】

図１は「システム１００」を描示しているが、図は、本明細書に記載された実装態様の構造的概略図としてよりも、コンピュータシステムに存在し得る様々な特徴の機能的な説明として強く意図されている。実際には、当業者によって認識されるように、別個に示される項目を組み合わせることができ、いくつかの項目は、別個であり得る。その上、図１は、メモリ１１１の特定のデータおよびモジュール（非永続メモリまたは永続メモリであり得る）を描示しているが、これらのデータおよびモジュール、またはそれらの部分は、２つ以上のメモリに記憶され得ることを認知されたい。例えば、いくつかの実施形態では、少なくとも第１のデータセット１２２、第２のデータセット１２４、参照モジュール１２０、および参照モデル１４０は、クラウドベースのインフラストラクチャの一部であり得るリモート記憶装置デバイスに記憶される。いくつかの実施形態では、少なくとも第１のデータセット１２２および第２のデータセット１２４は、クラウドベースのインフラストラクチャに記憶される。いくつかの実施形態では、参照モデル１２０および参照モデル１４０はまた、リモート記憶装置デバイスに記憶され得る。

【0063】

本開示による予測モデルを訓練するシステムは、図１を参照して開示されているが、ここで、本開示によるそのような訓練を実行する方法が、図２を参照して詳述される。

【0064】

ブロック２０２。図２Ａのブロック２０２を参照すると、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法が提供される。

【0065】

ブロック２０４～２０６。図２Ａのブロック２０４を参照すると、本方法は、電子形態で被験対象データセットを取得することによって進む。そのような被験対象データセットの例は、ＺＩＮＣ１５である。ＳｔｅｒｌｉｎｇａｎｄＩｒｗｉｎ，２００５，Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ４５（１），ｐ．１７７－１８２を参照されたい。Ｚｉｎｃ１５は、仮想スクリーニングのための市販の化合物のデータベースである。ＺＩＮＣ１５は、すぐにドッキングさせることができる３Ｄ形式の、２億３０００万以上の購入可能な化合物を含む。ＺＩＮＣ１５はまた、７億５０００万を超える購入可能な化合物を含む。被験対象データセットの他の例としては、限定されるものではないが、ＭＡＳＳＩＶ、ＡＺＳｐａｃｅｗｉｔｈＥｎａｍｉｎｅＢＢｓ、ＥＶＯｓｐａｃｅ、ＰＧＶＬ、ＢＩＣＬＡＩＭ、Ｌｉｌｌｙ、ＧＤＢ－１７、ＳＡＶＩ、ＣＨＩＰＭＵＮＫ、ＲＥＡＬ‘Ｓｐａｃｅ’、ＳＣＵＢＩＤＯＯ２．１、ＲＥＡＬ‘Ｄａｔａｂａｓｅ’、ＷｕＸｉＶｉｒｔｕａｌ、ＰｕｂＣｈｅｍＣｏｍｐｏｕｎｄｓ、ＳｉｇｍａＡｌｄｒｉｃｈ‘ｉｎ－ｓｔｏｃｋ’、ｅＭｏｌｅｃｕｌｅｓＰｌｕｓ、およびＷｕＸｉＣｈｅｍｉｓｔｒｙＳｅｒｖｉｃｅｓが挙げられ、これらは、ＨｏｆｆｍａｎｎａｎｄＧａｓｔｒｅｉｃｈ，２０１９，“Ｔｈｅｎｅｘｔｌｅｖｅｌｉｎｃｈｅｍｉｃａｌｓｐａｃｅｎａｖｉｇａｔｉｏｎ：ｇｏｉｎｇｆａｒｂｅｙｏｎｄｅｎｕｍｅｒａｂｌｅｃｏｍｐｏｕｎｄｌｉｂｒａｒｉｅｓ，”ＤｒｕｇＤｉｓｃｏｖｅｒｙＴｏｄａｙ２４（５），ｐｐ．１１４８にまとめられており、これは、参照により本明細書に組み込まれる。

【0066】

いくつかの実施形態では、複数の被験対象は、（例えば、ブロック２３２～２３４に関して以下に記載されるように、複数の被験対象から被験対象の一部分を排除するインスタンスの適用の前に）少なくとも１億個の被験対象、少なくとも５億個の被験対象、少なくとも１０億個の被験対象、少なくとも２０億個の被験対象、少なくとも３０億個の被験対象、少なくとも４０億個の被験対象、少なくとも５０億個の被験対象、少なくとも６０億個の被験対象、少なくとも７０億個の被験対象、少なくとも８０億個の被験対象、少なくとも９０億個の被験対象、少なくとも１００億個の被験対象、少なくとも１１０億個の被験対象、少なくとも１５０億個の被験対象、少なくとも２００億個の被験対象、少なくとも３００億個の被験対象、少なくとも４００億個の被験対象、少なくとも５００億個の被験対象、少なくとも６００億個の被験対象、少なくとも７００億個の被験対象、少なくとも８００億個の被験対象、少なくとも９００億個の被験対象、少なくとも１０００億個の被験対象、または少なくとも１１００億個の被験対象を含む。いくつかの実施形態では、複数の被験対象は、１億～５億個の被験対象、１億～１０億個の被験対象、１０億～２０億個の被験対象、１０～５０億個の被験対象、１０～１００億個の被験対象、１０～１５０億個の被験対象、５０～１００億個の被験対象、５０～１５０億個の被験対象、または１００～１５０億個の被験対象を含む。いくつかの実施形態では、複数の被験対象は、１０^６、１０^７、１０^８、１０^９、１０^１０、１０^１１、１０^１２、１０^１３、１０^１４、１０^１５、１０^１６、１０^１７、１０^１８、１０^１９、１０^２０、１０^２１、１０^２２、１０^２３、１０^２４、１０^２５、１０^２６、１０^２７、１０^２８、１０^２９、１０^３０、１０^３１、１０^３２、１０^３３、１０^３４、１０^３５、１０^３６、１０^３７、１０^３８、１０^３９、１０^４０、１０^４１、１０^４２、１０^４３、１０^４４、１０^４５、１０^４６、１０^４７、１０^４８、１０^４９、１０^５０、１０^５１、１０^５２、１０^５３、１０^５４、１０^５５、１０^５６、１０^５７、１０^５８、１０^５９、または１０^６０個ほどの化合物である。

【0067】

いくつかの実施形態では、被験対象データセットのサイズは、サイズが少なくとも１００キロバイト、少なくとも１メガバイト、少なくとも２メガバイト、少なくとも３メガバイト、少なくとも４メガバイト、少なくとも１０メガバイト、少なくとも２０メガバイト、少なくとも１００メガバイト、少なくとも１ギガバイト、少なくとも１０ギガバイト、または少なくとも１テラバイトである。いくつかの実施形態では、被験対象データセットは、少なくとも１００キロバイト、少なくとも１メガバイト、少なくとも２メガバイト、少なくとも３メガバイト、少なくとも４メガバイト、少なくとも１０メガバイト、少なくとも２０メガバイト、少なくとも１００メガバイト、少なくとも１ギガバイト、少なくとも１０ギガバイト、または少なくとも１テラバイトのファイルサイズを全体として有するファイルまたはデータセットのコレクション（例えば、２以上、３以上、４以上、１００以上、１０００以上、または１００万以上）である。

【0068】

ブロック２０６に関して、いくつかの実施形態では、複数の被験対象中の各被験対象は、それぞれの化学化合物を表す。いくつかの実施形態では、各被験対象は、５つの基準のリピンスキー則を満たす化学化合物を表す。いくつかの実施形態では、各被験対象は、２つ以上のルール、３つ以上のルール、またはリピンスキーのルール・オブ・ファイブの４つのルールすべてを満たす有機化合物である：（ｉ）５以下の水素結合供与体（例えば、ＯＨ基およびＮＨ基）、（ｉｉ）１０以下の水素結合受容体（例えば、ＮおよびＯ）、（ｉｉｉ）５００ダルトン未満の分子量、および（ｉｖ）５未満のＬｏｇＰ。「ルール・オブ・ファイブ」は、４つの基準のうちの３つが数字の５を伴うため、このように呼ばれる。Ｌｉｐｉｎｓｋｉ，１９９７，Ａｄｖ．ＤｒｕｇＤｅｌ．Ｒｅｖ．２３，３を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、各被験対象は、リピンスキーのルール・オブ・ファイブに加えて、１つ以上の基準を満たす。例えば、いくつかの実施形態では、各被験対象は、５つ以下の芳香環、４つ以下の芳香環、３つ以下の芳香環、または２つ以下の芳香環を有する。いくつかの実施形態では、各被験対象は、化学化合物を記述し、化学化合物の記述は、化学化合物のモデル化された原子座標を含む。いくつかの実施形態では、複数の被験対象の各被験対象は、異なる化学化合物を表す。

【0069】

いくつかの実施形態では、各被験対象は、２０００ダルトン未満、４０００ダルトン未満、６０００ダルトン未満、８０００ダルトン未満、１００００ダルトン未満、または２００００ダルトン未満の分子量を有する有機化合物を表す。

【0070】

いくつかの実施形態では、複数の被験対象中の少なくとも１つの被験対象は、対応する薬学的化合物を表す。いくつかの実施形態では、複数の被験対象中の少なくとも１つの被験対象は、対応する生物活性化合物を表す。本明細書で使用される場合、「生物活性化合物」という用語は、（例えば、タンパク質との相互作用を通じて）ヒトに対する生理学的効果を有する化合物を指す。生物活性化合物のサブセットを、医薬品に開発することができる。例えば、Ｇｕｅｔａｌ．２０１３“ＵｓｅｏｆＮａｔｕｒａｌＰｒｏｄｕｃｔｓａｓＣｈｅｍｉｃａｌＬｉｂｒａｒｙｆｏｒＤｒｕｇＤｉｓｃｏｖｅｒｙａｎｄＮｅｔｗｏｒｋＰｈａｒｍａｃｏｌｏｇｙ”ＰＬｏＳＯｎｅ８（４），ｅ６２８３９を参照されたい。生物活性化合物は、天然に存在し得るか、または合成であり得る。生物活性の様々な定義が、提案されている。例えば、Ｌａｇｕｎｉｎｅｔａｌ．２０００“ＰＡＳＳ：Ｐｒｅｄｉｃｔｉｏｎｏｆａｃｔｉｖｉｔｙｓｐｅｃｔｒａｆｏｒｂｉｏｌｏｇｉｃａｌｌｙａｃｔｉｖｅｓｕｂｓｔａｎｃｅｓ”Ｂｉｏｉｎｆｏｒｍ１６，７４７－７４８を参照されたい。

【0071】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「アルキル」基を有する化学化合物を表す。「アルキル」という用語は、それ自体、または化学化合物の別の置換基の一部として、別段の定めがない限り、直鎖もしくは分岐鎖、または環状炭化水素ラジカル、またはそれらの組み合わせを意味し、これらは、完全に飽和し得るか、一価不飽和であり得るか、または多価不飽和であり得、指定された炭素原子の数を有する二価、三価および多価ラジカルを含むことができる（すなわち、Ｃ_１～Ｃ_１０は、１～１０個の炭素を意味する）。飽和炭化水素ラジカルの例としては、限定されるものではないが、メチル、エチル、ｎ－プロピル、イソプロピル、ｎ－ブチル、ｔ－ブチル、イソブチル、セカンダリーブチル、シクロヘキシル、（シクロヘキシル）メチル、シクロプロピルメチル、例えば、ｎ－ペンチル、ｎ－ヘキシル、ｎ－ヘプチル、ｎ－オクチルなどの同族体および異性体などの基が挙げられる。不飽和アルキル基は、１つ以上の二重結合または三重結合を有する基である。不飽和アルキル基の例としては、限定されるものではないが、ビニル、２－プロペニル、クロチル、２－イソペンテニル、２－（ブタジエニル）、２，４－ペンタジエニル、３－（１，４－ペンタジエニル）、エチニル、１－および３－プロピニル、３－ブチニル、ならびにより高い同族体および異性体が挙げられる。「アルキル」という用語は、別段の定めがない限り、「ヘテロアルキル」などの、以下により詳細に定義されるアルキルのそれらの誘導体を任意選択で含むことも意味する。炭化水素基に限定されるアルキル基は、「ホモアルキル」と称される。例示的なアルキル基としては、モノ不飽和Ｃ_９－１０、オレオイル鎖、またはジ不飽和Ｃ_{９－１０，１２－１３}リノエイル鎖が挙げられる。「アルキレン」という用語は、それ自体、または別の置換基の一部として、限定されるものではないが、－ＣＨ_２ＣＨ_２ＣＨ_２ＣＨ_２－によって例示される、アルカンに由来する二価のラジカルを意味し、「ヘテロアルキレン」として以下に記載されるような基をさらに含む。典型的には、アルキル（またはアルキレン）基は、１～２４個の炭素原子を有するものであり、それらの基は、本発明では１０個以下の炭素原子を有することが好ましい。「低級アルキル」または「低級アルキレン」は、一般に８個以下の炭素原子を有する、より短い鎖アルキルまたはアルキレン基である。

【0072】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「アルコキシ」、「アルキルアミノ」、および「アルキルチオ」基を有する化学化合物を表す。「アルコキシ」、「アルキルアミノ」、および「アルキルチオ」（またはチオアルコキシ）という用語は、それらの従来の意味で使用され、それぞれ、酸素原子、アミノ基、または硫黄原子を介して分子の残りの部分に結合したようなアルキル基を指す。

【0073】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「アリールオキシ」および「ヘテロアリールオキシ」基を有する化学化合物を表す。「アリールオキシ」および「ヘテロアリールオキシ」という用語は、それらの従来の意味で使用され、酸素原子を介して分子の残りの部分に結合したようなアリールまたはヘテロアリール基を指す。

【0074】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「ヘテロアルキル」基を有する化学化合物を表す。「ヘテロアルキル」という用語は、それ自体、または別の用語と組み合わせて、別段の断りがない限り、述べられた数の炭素原子とＯ、Ｎ、Ｓｉ、およびＳからなる群から選択される少なくとも１つのヘテロ原子とからなる、安定した直鎖もしくは分岐鎖、または環状炭化水素ラジカル、またはそれらの組み合わせを意味し、ここで、窒素原子および硫黄原子は、任意選択で酸化され得、窒素ヘテロ原子は、任意選択で四級化され得る。ヘテロ原子Ｏ、ＮおよびＳおよびＳｉは、ヘテロアルキル基の任意の内部位置に、またはアルキル基が分子の残りの部分に結合している位置に配されてもよい。例としては、限定されるものではないが、－ＣＨ_２－ＣＨ_２－Ｏ－ＣＨ_３、－ＣＨ_２－ＣＨ_２－ＮＨ－ＣＨ_３、－ＣＨ_２－ＣＨ_２－Ｎ（ＣＨ_３）－ＣＨ_３、－ＣＨ_２－Ｓ－ＣＨ_２－ＣＨ_３、－ＣＨ_２－ＣＨ_２、－Ｓ（Ｏ）－ＣＨ_３、－ＣＨ_２－ＣＨ_２－Ｓ（Ｏ）_２－ＣＨ_３、－ＣＨ＝ＣＨ－Ｏ－ＣＨ_３、－Ｓｉ（ＣＨ_３）_３、－ＣＨ_２－ＣＨ＝Ｎ－ＯＣＨ_３、および－ＣＨ＝ＣＨ－Ｎ（ＣＨ_３）－ＣＨ_３が挙げられる。最大２個のヘテロ原子は、例えば－ＣＨ_２－ＮＨ－ＯＣＨ_３および－ＣＨ_２－Ｏ－Ｓｉ（ＣＨ_３）_３など、連続していてもよい。同様に、「ヘテロアルキレン」という用語は、それ自体、または別の置換基の一部として、限定されるものではないが、－ＣＨ_２－ＣＨ_２－Ｓ－ＣＨ_２－ＣＨ_２－および－ＣＨ_２－Ｓ－ＣＨ_２－ＣＨ_２－ＮＨ－ＣＨ_２によって例示される、ヘテロアルキルに由来する二価ラジカルを意味する。ヘテロアルキレン基について、ヘテロ原子はまた、鎖末端のいずれかまたは両方を占有することができる（例えば、アルキレンオキシ、アルキレンジオキシ、アルキレンアミノ、アルキレンジアミノなど）。さらにまた、アルキレンおよびヘテロアルキレン連結基について、連結基の配向は、連結基の式が書かれる方向によって含意されない。例えば、式－ＣＯ_２Ｒ’－は、－Ｃ（Ｏ）ＯＲ’と－ＯＣ（Ｏ）Ｒ’との両方を表す。

【0075】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「シクロアルキル」および「ヘテロシクロアルキル」基を有する化学化合物を表す。「シクロアルキル」および「ヘテロシクロアルキル」という用語は、それら自体、または他の用語と組み合わせて、別段の定めがない限り、それぞれ、「アルキル」および「ヘテロアルキル」の環状バージョンを表す。加えて、ヘテロシクロアルキルについて、ヘテロ原子は、複素環が分子の残りの部分に結合している位置を占めることができる。シクロアルキルの例としては、限定されるものではないが、シクロペンチル、シクロヘキシル、１－シクロヘキセニル、３－シクロヘキセニル、シクロヘプチルなどが挙げられる。さらなる例示的なシクロアルキル基として、ステロイド、例えばコレステロールおよびその誘導体が挙げられる。ヘテロシクロアルキルの例としては、限定されるものではないが、１－（１，２，５，６－テトラヒドロピリジル）、１－ピペリジニル、２－ピペリジニル、３－ピペリジニル、４－モルホリニル、３－モルホリニル、テトラヒドロフラン－２－イル、テトラヒドロフラン－３－イル、テトラヒドロチエン－２－イル、テトラヒドロチエン－３－イル、１－ピペラジニル、２－ピペラジニルなどが挙げられる。

【0076】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「ハロ」または「ハロゲン」を有する化学化合物を表す。「ハロ」または「ハロゲン」という用語は、それら自体、または別の置換基の一部として、別段の定めがない限り、フッ素、塩素、臭素、またはヨウ素原子を意味する。さらに、「ハロアルキル」などの用語は、モノハロアルキルおよびポリハロアルキルを含むことを意味する。例えば、「ハロ（Ｃ_１～Ｃ_４）アルキル」という用語は、限定されるものではないが、トリフルオロメチル、２，２，２－トリフルオロエチル、４－クロロブチル、３－ブロモプロピルなどを含むことを意味する。

【0077】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「アリール」基を有する化学化合物を表す。「アリール」という用語は、別段の定めがない限り、ともに縮合されるかまたは共有結合される、単環または複数環（好ましくは１～３環）であり得る多価不飽和芳香族置換基を意味する。

【0078】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「ヘテロアリール」基を有する化学化合物を表す。「ヘテロアリール」という用語は、Ｎ、Ｏ、Ｓ、Ｓｉ、およびＢから選択される１～４個のヘテロ原子を含むアリール置換基（または環）を指し、窒素原子および硫黄原子は、任意選択で酸化され、窒素原子は、任意選択で四級化される。例示的なヘテロアリール基は、六員アジン、例えば、ピリジニル、ジアジニル、およびトリアジニルである。ヘテロアリール基は、ヘテロ原子を介して分子の残りの部分に結合され得る。アリールおよびヘテロアリール基の非限定的な例としては、フェニル、１－ナフチル、２－ナフチル、４－ビフェニル、１－ピロリル、２－ピロリル、３－ピロリル、３－ピラゾリル、２－イミダゾリル、４－イミダゾリル、ピラジニル、２－オキサゾリル、４－オキサゾリル、２－フェニル－４－オキサゾリル、５－オキサゾリル、３－イソオキサゾリル、４－イソオキサゾリル、５－イソオキサゾリル、２－チアゾリル、４－チアゾリル、５－チアゾリル、２－フリル、３－フリル、２－チエニル、３－チエニル、２－ピリジル、３－ピリジル、４－ピリミジル、４－ピリミジル、５－ベンゾチアゾリル、プリニル、２－ベンズイミダゾリル、５－インジル、１－イソキノリル、５－イソキノリル、２－キノキシニル、５－キノキシニル、３－キノリル、および６－キノリルが挙げられる。上記に書き留めたアリールおよびヘテロアリール環系の各々の置換基は、以下に記載される許容される置換基の群から選択される。

【0079】

簡潔には、他の用語（例えば、アリールオキシ、アリールチオキシ、アリールアルキル）と組み合わせて使用される場合の「アリール」という用語は、上記に定義されるアリール、ヘテロアリール、およびヘテロアレン環を含む。したがって、「アリールアルキル」という用語は、アリール基が、炭素原子（例えば、メチレン基）が酸素原子（例えば、フェノキシメチル、２－ピリジルオキシメチル、３－（１－ナフチルオキシ）プロピルなど）に置き換えられたようなアルキル基を含むアルキル基（例えば、ベンジル、フェネチル、ピリジルメチルなど）に結合しているようなラジカルを含むことを意味する。

【0080】

上記の用語の各々（例えば、「アルキル」、「ヘテロアルキル」、「アリール」、および「ヘテロアリール」）は、任意選択で、示される種の置換形態と非置換形態との両方を含むことを意味する。これらの種の例示的な置換基が、以下に提供される。

【0081】

被験対象データセットによって表される化学化合物のアルキルおよびヘテロアルキルラジカル（多くの場合、アルキレン、アルケニル、ヘテロアルキレン、ヘテロアルケニル、アルキニル、シクロアルキル、ヘテロシクロアルキル、シクロアルケニル、およびヘテロシクロアルケニルと呼ばれることが多いような基を含む）の置換基は、一般に、「アルキル基置換基」と呼ばれ、それらは、限定されるものではないが、以下から選択される多様な基のうちの１つ以上であり得る：ゼロ～（２ｍ’＋１）の範囲の数の、Ｈ、置換もしくは非置換アリール、置換もしくは非置換ヘテロアリール、置換もしくは非置換ヘテロシクロアルキル、－ＯＲ’、＝Ｏ、＝ＮＲ’、＝Ｎ－ＯＲ’、－ＮＲ’Ｒ’’、ＳＲ’、ハロゲン、ＳｉＲ’Ｒ’’Ｒ’’’、ＯＣ（Ｏ）Ｒ’、Ｃ（Ｏ）Ｒ’、ＣＯ_２Ｒ’、ＣＯＮＲ’Ｒ’’、ＯＣ（Ｏ）ＮＲ’Ｒ’’、ＮＲ’’Ｃ（Ｏ）Ｒ’、ＮＲ’Ｃ（Ｏ）ＮＲ’’Ｒ’’’、ＮＲ’’Ｃ（Ｏ）２Ｒ’、ＮＲＣ（ＮＲ’Ｒ’’Ｒ’’’）＝ＮＲ’’’’、ＮＲＣ（ＮＲ’Ｒ’’）＝ＮＲ’’’、－Ｓ（Ｏ）Ｒ’、－Ｓ（Ｏ）_２Ｒ’、－Ｓ（Ｏ）_２ＮＲ’Ｒ’’、ＮＲＳＯ２Ｒ’、－ＣＮ、および－ＮＯ_２であり、式中、ｍは、そのようなラジカル中の炭素原子の総数である。Ｒ’、Ｒ’’、Ｒ’’、およびＲ’’’’は各々、好ましくは、独立して、水素、置換もしくは非置換ヘテロアルキル、置換もしくは非置換アリール、例えば、１～３個のハロゲンで置換されたアリール、置換もしくは非置換アルキル、アルコキシもしくはチオアルコキシ基、またはアリールアルキル基を指す。本発明の化合物が２つ以上のＲ基を含む場合、例えば、Ｒ基の各々は、これらの基のうちの２つ以上が存在する場合に、Ｒ基の各々は、各々Ｒ’、Ｒ’’、Ｒ’’、およびＲ’’’’基であるとして独立して選択される。Ｒ’およびＲ’’が同じ窒素原子に結合している場合、それらを窒素原子と組み合わせて、五、六、または七員環を形成することができる。例えば、－ＮＲ’Ｒ’’は、限定されるものではないが、１－ピロリジニルおよび４－モルホリニルを含むことを意味する。置換基の上述の考察から、当業者は、「アルキル」という用語は、ハロアルキル（例えば、－ＣＦ_３および－ＣＨ_２ＣＦ_３）およびアシル（例えば、－Ｃ（Ｏ）ＣＨ_３、－Ｃ（Ｏ）ＣＦ_３、－Ｃ（Ｏ）ＣＨ_２ＯＣＨ_３など）などの、水素基以外の基に結合した炭素原子を含む基を含むことを意味することを理解するであろう。これらの用語は、例示的な「置換アルキル」および「置換ヘテロアルキル」部分の成分である、例示的な「アルキル基置換基」とみなされる基を包含する。

【0082】

アルキルラジカルについて記載される置換基と同様に、アリールヘテロアリールおよびヘテロアレン基の置換基は、一般に、「アリール基置換基」と呼ばれる。置換基は、例えば、限定されることなく、ゼロから芳香環系上の空原子価（ｏｐｅｎｖａｌｅｎｃｅ）の総数までの範囲の数の、置換もしくは非置換アルキル、置換もしくは非置換アリール、置換もしくは非置換ヘテロアリール、置換もしくは非置換ヘテロシクロアルキル、ＯＲ’、＝Ｏ、＝ＮＲ’、＝Ｎ－ＯＲ’、－ＮＲ’Ｒ’’、－ＳＲ’、－ハロゲン、－ＳｉＲ’Ｒ’’Ｒ’’’、－ＯＣ（Ｏ）Ｒ’、－Ｃ（Ｏ）Ｒ’、－ＣＯ_２Ｒ’、－ＣＯＮＲ’Ｒ’’、－ＯＣ（Ｏ）ＮＲ’Ｒ’’、－ＮＲ’’Ｃ（Ｏ）Ｒ’、－ＮＲ’－Ｃ（Ｏ）ＮＲ’’Ｒ’’’、－ＮＲ’’Ｃ（Ｏ）_２Ｒ’、－ＮＲ－Ｃ（ＮＲ’Ｒ’’Ｒ’’’）＝ＮＲ’’’’、－ＮＲ－Ｃ（ＮＲ’Ｒ’’）＝ＮＲ’’’、－Ｓ（Ｏ）Ｒ’、－Ｓ（Ｏ）_２Ｒ’、－Ｓ（Ｏ）_２ＮＲ’Ｒ’’、－ＮＲＳＯ_２Ｒ’、－ＣＮおよび－ＮＯ_２、－Ｒ’、－Ｎ_３、－ＣＨ（Ｐｈ）_２、フルオロ（Ｃ_１～Ｃ_４）アルコキシ、およびフルオロ（Ｃ_１～Ｃ_４）アルキルを含む炭素またはヘテロ原子（例えば、Ｐ、Ｎ、Ｏ、Ｓ、Ｓｉ、またはＢ）を介してヘテロアリールまたはヘテロアレン核に結合した基から選択される。上記に名称を挙げた基の各々は、ヘテロアレンまたはヘテロアリール核に直接に、またはヘテロ原子（例えば、Ｐ、Ｎ、Ｏ、Ｓ、Ｓｉ、もしくはＢ）を介して結合され、ここで、Ｒ’、Ｒ”、Ｒ’’’、およびＲ’’’’は、好ましくは、独立して、水素、置換または非置換アルキル、置換または非置換ヘテロアルキル、置換または非置換アリール、および置換または非置換ヘテロアリールから選択される。本発明の化合物が２つ以上のＲ基を含む場合、例えば、Ｒ基の各々は、これらの基のうちの２つ以上が存在する場合に、Ｒ基の各々は、各々Ｒ’、Ｒ’’、Ｒ’’’、およびＲ’’’’基であるとして独立して選択される。

【0083】

アリール環、ヘテロアレン環またはヘテロアリール環の隣接原子上の置換基のうちの２つが、任意選択で、式－Ｔ－Ｃ（Ｏ）－（ＣＲＲ’）_ｑ－Ｕ－の置換基に置き換えられてもよく、式中、ＴおよびＵは、独立して、－ＮＲ－、－Ｏ－、－ＣＲＲ’－または単結合であり、ｑは、０～３の整数である。あるいは、アリールまたはヘテロアリール環の隣接原子上の置換基のうちの２つが、任意選択で、式－Ａ－（ＣＨ_２）_ｒ－Ｂ－の置換基で置き換えられてもよく、式中、ＡおよびＢは、独立して、－ＣＲＲ’－、－Ｏ－、－ＮＲ－、－Ｓ－、－Ｓ（Ｏ）－、－Ｓ（Ｏ）_２－、－Ｓ（Ｏ）_２ＮＲ’－、または単結合であり、ｒは、１～４の整数である。そのように形成された新しい環の単結合のうちの１つは、任意選択で、二重結合で置き換えられてもよい。あるいは、アリール、ヘテロアレン、またはヘテロアリール環の隣接原子上の置換基のうちの２つは、任意選択で、式－（ＣＲＲ’）_ｓ－Ｘ－（ＣＲ’’Ｒ’’’）_ｄ－の置換基で置き換えられてもよく、式中、ｓおよびｄは、独立して、０～３の整数であり、Ｘは、－Ｏ－、－ＮＲ’－、－Ｓ－、－Ｓ（Ｏ）－、－Ｓ（Ｏ）_２－、または－Ｓ（Ｏ）_２ＮＲ’－である。置換基Ｒ、Ｒ’、Ｒ’’、およびＲ’’’は、好ましくは、独立して、水素、または置換もしくは非置換（Ｃ_１～Ｃ_６）アルキルから選択される。これらの用語は、例示的な「置換アリール」「置換ヘテロアレン」および「置換ヘテロアリール」部分の成分である、例示的な「アリール基置換基」とみなされる基を包含する。

【0084】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「アシル」基を有する化学化合物を表す。本明細書で使用される場合、「アシル」という用語は、カルボニル残基、Ｃ（Ｏ）Ｒを含む置換基を記述する。Ｒの例示的な種としては、Ｈ、ハロゲン、置換または非置換アルキル、置換または非置換アリール、置換または非置換ヘテロアリール、および置換または非置換ヘテロシクロアルキルが挙げられる。

【0085】

いくつかの実施形態では、被験対象データセットにおける被験対象は、「縮合環系」を有する化学化合物を表す。本明細書で使用される場合、「縮合環系」という用語は、少なくとも２個の環を意味し、各環は、別の環と共通の少なくとも２個の原子を有する。「縮合環系」は、芳香族環ならびに非芳香族環を含み得る。「縮合環系」の例は、ナフタレン、インドール、キノリン、クロメンなどである。

【0086】

本明細書で使用される場合、「ヘテロ原子」という用語は、酸素（Ｏ）、窒素（Ｎ）、硫黄（Ｓ）、およびシリコン（Ｓｉ）、ホウ素（Ｂ）、およびリン（Ｐ）を含む。

【0087】

記号「Ｒ」は、Ｈ、置換または非置換アルキル、置換または非置換ヘテロアルキル、置換または非置換アリール、置換または非置換ヘテロアリール、および置換または非置換ヘテロシクロアルキル基から選択される置換基を表す一般的な略語である。

【0088】

ブロック２０８。図２Ａのブロック２０８を参照すると、いくつかの実施形態では、被験対象データセットは、複数の特徴ベクトルを含む（例えば、各特徴ベクトルは、被験対象データセットにおける個々の被験対象に対応し、１つ以上の特徴を含む）。いくつかの実施形態では、複数の特徴ベクトル中の各それぞれの特徴ベクトルは、対応する被験対象によって表されるそれぞれの化学化合物の化学フィンガープリント、分子フィンガープリント、１つ以上の計算特性、および／またはグラフ記述子を含む。例示的な分子フィンガープリントとしては、限定されるものではないが、Ｄａｙｌｉｇｈｔフィンガープリント、ＢＣＩフィンガープリント、ＥＣＦＰフィンガープリント、ＥＣＦＣフィンガープリント、ＭＤＬフィンガープリント、ＡＰＦＰフィンガープリント、ＴＴＦＰフィンガープリント、ＵＮＩＴＹ２Ｄフィンガープリントなどが挙げられる。

【0089】

いくつかの実施形態では、ベクトルにおける特徴のうちのいくつかは、分子量、回転可能な結合の数、計算されたＬｏｇＰ（例えば、計算されたオクタノール－水分配係数または他の方法）、水素結合供与体の数、水素結合受容体の数、キラル中心の数、キラル二重結合の数（Ｅ／Ｚ異性体）、極性および無極性の脱溶媒和エネルギー（ｋｃａｌ／ｍｏｌ単位）、正味電荷、および剛性断片の数、の任意の組み合わせなどの、対応する被験対象の分子特性を含む。いくつかの実施形態では、被験対象データセットにおける１つ以上の被験対象は、機能または活性で注釈付けされる。いくつかのそのような実施形態では、ベクトルにおける特徴は、そのような機能または活性を含む。

【0090】

いくつかの実施形態では、被験対象データセットは、各被験対象の化学構造を含む。例えば、いくつかの実施形態では、化学構造は、ＳＭＩＬＥＳ文字列である。いくつかの実施形態では、被験対象の化学構造を表すために、被験対象の正準表現が計算される（例えば、ＯｐｅｎＥｙｅのＯＥｃｈｅｍライブラリ、インターネットのＯｐｅｎｙＥｙｅ．ｃｏｍを参照されたい）。いくつかの実施形態では、初期の３Ｄモデルは、（例えば、ＯｐｅｎＥｙｅのＯｍｅｇａプログラムを使用して）被験対象の曖昧性のない異性体ＳＭＩＬＥＳから生成される。いくつかの実施形態では、次いで、ｐＨ５～９．５での被験対象の関連する正しくプロトン化された形態が、（例えば、インターネットのｓｃｈｒｏｄｉｎｇｅｒ．ｃｏｍでＳｃｈｒｏｄｉｎｇｅｒ，Ｉｎｃ．から入手可能なＳｃｈｒｏｄｉｎｇｅｒのｌｉｇｐｒｅｐプログラムを使用して）作成される。これには、例えば、カルボン酸およびテトラゾールの脱プロトン化、ならびにほとんどの脂肪族アミンのプロトン化が含まれる。いくつかの実施形態では、各プロトン化状態、立体異性体、および互変異性体の単一の３Ｄコンフォメーションの部分原子電荷および原子脱溶媒和ペナルティは、（例えば、半経験的量子機械プログラムＡＭＳＯＬ１６を使用して）計算される。いくつかの実施形態では、ＯｐｅｎＥｙｅのプログラムＯｍｅｇａを使用して、３Ｄコンフォメーションを生成する。例えば、ＳｔｅｒｌｉｎｇａｎｄＩｒｗｉｎ，２００５，Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ４５（１），ｐ．１７７－１８２を参照されたい。いくつかの実施形態では、被験対象データセットにおける被験対象は、少なくとも部分的に、ＳＭＩＬＥＳ、ｍｏｌ２、３ＤＳＤＦ、ＤＯＣＫｆｌｅｘｉｂａｓｅ、または同等の形式のデータ構造を有する、被験対象データセットによって表される。

【0091】

被験対象が特徴ベクトルによって表される被験対象データセットの実施形態では、各特徴ベクトルは、複数の被験対象中のそれぞれの被験対象のためのものである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルのサイズ（例えば、特徴の数）が、同じである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルのサイズ（例えば、特徴の数）が、同じではない。すなわち、いくつかの実施形態では、複数の特徴ベクトル中の特徴ベクトルのうちの少なくとも１つが、異なるサイズである。いくつかの実施形態では、各特徴ベクトルは、任意の長さである（例えば、各特徴ベクトルは、任意のサイズであり得る）。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルの次元の数は、変動し得る（例えば、特徴ベクトルは、任意の数の次元を有し得る）。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、一次元ベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の１つ以上の特徴ベクトルは、二次元ベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の１つ以上の特徴ベクトルは、三次元ベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルの次元の数は、同じである（例えば、各特徴ベクトルは、同じ数の次元を有する）。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、少なくとも二次元のベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、少なくともＮ次元のベクトルであり、Ｎは、２以上の（例えば、２、３、４、５、６、７、８、９、１０、またはそれよりも大きい）正の整数である。

【0092】

いくつかの実施形態では、複数の被験対象中の各それぞれの被験対象は、それぞれの被験対象によって表される化学化合物の対応する化学フィンガープリントを含む。いくつかの実施形態では、被験対象の化学フィンガープリントは、被験対象の対応する特徴ベクトルによって表される。本明細書で使用される場合、「化学フィンガープリント」という用語は、特定の分子に対応する一意のパターン（例えば、一意のベクトルまたは行列）を指す。いくつかの実施形態では、各化学フィンガープリントが、固定サイズである。いくつかの実施形態では、１つ以上の化学フィンガープリントが、可変にサイズ決定される。いくつかの実施形態では、複数の被験対象中のそれぞれの被験対象の化学フィンガープリントは、（例えば、ＭＡＬＤＩ－ＴＯＦなどの質量分析法を通じて）直接判定され得る。いくつかの実施形態では、複数の被験対象中のそれぞれの被験対象の化学フィンガープリントを、計算方法を介して取得することができる。例えば、Ｄａｉｎａｅｔａｌ．（２０１７）”ＳｗｉｓｓＡＤＭＥ：ａｆｒｅｅｗｅｂｔｏｏｌｔｏｅｖａｌｕａｔｅｐｈａｒｍａｃｏｋｉｎｅｔｉｃｓ，ｄｒｕｇ－ｌｉｋｅｎｅｓｓａｎｄｍｅｄｉｃｉｎａｌｃｈｅｍｉｓｔｒｙｆｒｉｅｎｄｌｉｎｅｓｓｏｆｓｍａｌｌｍｏｌｅｃｕｌｅｓ”ＳｃｉＲｅｐｏｒｔｓ７，４２７１７、Ｏ’Ｂｏｙｌｅｅｔａｌ．２０１１”ＯｐｅｎＢａｂｅｌ：Ａｎｏｐｅｎｃｈｅｍｉｃａｌｔｏｏｌｂｏｘ”ＪＣｈｅｍｉｎｆｏｒｍａ３，３３、Ｃｅｒｅｔｏ－Ｍａｓｓａｇｕｅｅｔａｌ．２０１５”Ｍｏｌｅｃｕｌａｒｆｉｎｇｅｒｐｒｉｎｔｓｉｍｉｌａｒｉｔｙｓｅａｒｃｈｉｎｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ”Ｍｅｔｈｏｄｓ７１，５８－６３、およびＭｉｔｃｈｅｌｌ２０１４”Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｉｎｃｈｅｍｉｎｆｏｒｍａｔｉｃｓ”ＷＩＲＥｓＣｏｍｐｕｔＭｏｌＳｃｉ．４：４６８－４８１を参照されたく、これらの各々は、参照により本明細書に組み込まれる。

【0093】

計算空間における化学化合物を表すための多くの異なる方法が、当該技術分野において知られている。

【0094】

いくつかの実施形態では、各化学フィンガープリントは、それぞれの化学化合物と１つ以上の追加の化学化合物および／または生物学的巨大分子との間の相互作用に関する情報を含む。いくつかの実施形態では、化学フィンガープリントは、タンパク質－リガンド結合無限性に関する情報を含む。Ｗｏｊｃｉｋｏｗｓｋｉｅｔａｌ．２０１８”Ｄｅｖｅｌｏｐｍｅｎｔｏｆａｐｒｏｔｅｉｎ－ｌｉｇａｎｄｅｘｔｅｎｄｅｄｃｏｎｎｅｃｔｉｖｉｔｙ（ＰＬＥＣ）ｆｉｎｇｅｒｐｒｉｎｔａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｆｏｒｂｉｎｄｉｎｇａｆｆｉｎｉｔｙｐｒｅｄｉｃｔｉｏｎｓ”Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ３５（８），１３３４－１３４１を参照されたく、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、ニューラルネットワークを使用して、被験対象データベースにおける少なくとも１つの被験対象の１つ以上の化学特性（および／または化学フィンガープリント）を判定する。

【0095】

いくつかの実施形態では、被験対象データベース内の各被験対象は、１つ以上の既知の化学特性を有する既知の化学化合物に対応する。いくつかの実施形態では、同じ数の化学的特性が、被験対象データセット内の複数の被験対象内の各被験対象に対して提供される。いくつかの実施形態では、異なる数の化学特性が、被験対象データセットにおける１つ以上の被験対象に対して提供される。いくつかの実施形態では、被験対象データセットにおける１つ以上の被験対象は、合成である（例えば、被験対象の化学構造を、被験対象が実験室で分析されていないにもかかわらず判定することができる）。例えば、Ｇｏｍｅｚ－Ｂｏｍｂａｒｅｌｌｉｅｔａｌ．２０１７”ＡｕｔｏｍａｔｉｃＣｈｅｍｉｃａｌＤｅｓｉｇｎＵｓｉｎｇａＤａｔａ－ＤｒｉｖｅｎＣｏｎｔｉｎｕｏｕｓＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＭｏｌｅｃｕｌｅｓ”ａｒＸｉｖ：１６１０．０２４１５ｖ３を参照されたく、これは、参照により本明細書に組み込まれる。

【0096】

いくつかの実施形態では、グラフ比較を使用して、被験対象データセットによって表される分子の三次元構造を比較する（例えば、類似の分子のクラスタまたはセットを判定するために）。グラフ比較の概念は、グラフ記述子を比較することに依拠し、パターン認識のために使用され得る異同または類似性の測定値をもたらす。例えば、Ｃｚｅｃｈ２０１１”ＧｒａｐｈＤｅｓｃｒｉｐｔｏｒｓｆｏｒｍＢ－ＭａｔｒｉｘＲｅｐｒｅｓｅｎｔａｔｉｏｎ”Ｇｒａｐｈ－ＢａｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎＰａｔｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，ＬＮＣＳ６６５８，１２－２１を参照されたく、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、（例えば、被験対象のセットの）グラフ内の関連する構造的特性を捕捉するために、クラスタリング係数、効率、または媒介中心性などの測定値を利用することができる。例えば、Ｃｏｓｔａｅｔａｌ．２００７”Ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓ：Ａｓｕｒｖｅｙｏｆｍｅａｓｕｒｅｍｅｎｔｓ”ＡｄｖａｎｃｅｓＰｈｙｓ５６（１），１９８－２００を参照されたく、これは、参照により本明細書に組み込まれる。

【0097】

ブロック２１０。図２Ａのブロック２１０を参照すると、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得する。典型的な実施形態では、それぞれの被験対象は、少なくとも１つの標的対象の各標的対象にドッキングされる。いくつかの実施形態では、単一の標的対象のみが存在する。

【0098】

いくつかの実施形態では、標的対象は、ポリマーである。ポリマーの例としては、限定されるものではないが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリが挙げられる。例えば、開示されるシステムおよび方法のいくつかの実施形態を使用して研究されるポリマーなどのポリマーは、繰り返し残基からなる大型分子である。いくつかの実施形態では、ポリマーは、天然材料である。いくつかの実施形態では、ポリマーは、合成材料である。いくつかの実施形態では、ポリマーは、エラストマー、シェラック、アンバー、天然もしくは合成ゴム、セルロース、ベークライト、ナイロン、ポリスチレン、ポリエチレン、ポリプロピレン、ポリアクリロニトリル、ポリエチレングリコール、または多糖である。

【0099】

いくつかの実施形態では、標的対象は、ヘテロポリマー（共重合体）である。共重合体は、１つのモノマーのみが使用されるホモポリマーとは対照的に、２つの（またはそれよりも多い）モノマー種に由来するポリマーである。共重合とは、共重合体を化学的に合成するために使用される方法を指す。共重合体の例としては、限定されるものではないが、ＡＢＳ樹脂、ＳＢＲ、ニトリルゴム、スチレン－アクリロニトリル、スチレン－イソプレン－スチレン（ＳＩＳ）、およびエチレン－酢酸ビニルが挙げられる。共重合体が少なくとも２つのタイプの構成単位（構造単位、または粒子とも）からなることから、これらの単位が鎖に沿ってどのように配置されるかに基づいて、共重合体を分類することができる。これらには、規則的な交互するＡ単位およびＢ単位を有する交互共重合体が含まれる。例えば、Ｊｅｎｋｉｎｓ，１９９６，“ＧｌｏｓｓａｒｙｏｆＢａｓｉｃＴｅｒｍｓｉｎＰｏｌｙｍｅｒＳｃｉｅｎｃｅ，”ＰｕｒｅＡｐｐｌ．Ｃｈｅｍ．６８（１２）：２２８７－２３１１を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。共重合体の追加の例は、繰り返し配列（例えば、（Ａ－Ｂ－Ａ－Ｂ－Ｂ－Ａ－Ａ－Ａ－Ａ－Ａ－Ｂ－Ｂ－Ｂ）_ｎ）に配置されたＡ単位およびＢ単位を有する周期的共重合体である。共重合体の追加の例は、共重合体中のモノマー残基の配列が統計的ルールに従う統計的共重合体である。例えば、Ｐａｉｎｔｅｒ，１９９７，ＦａｎｄａｍｅｎｔａｌｓｏｆＰｏｌｙｍｅｒＳｃｉｅｎｃｅ，ＣＲＣＰｒｅｓｓ，１９９７，ｐ１４を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。開示されるシステムおよび方法を使用して評価され得る共重合体のさらに他の例は、共有結合によって連結された２つ以上のホモポリマーサブユニットを含むブロック共重合体である。ホモポリマーサブユニットの結合は、ジャンクションブロックとして知られている中間非反復サブユニットを必要とし得る。２つまたは３つの別々のブロックを有するブロック共重合体は、それぞれ、ジブロック共重合体およびトリブロック共重合体と呼ばれる。

【0100】

いくつかの実施形態では、標的対象は、実際には、複数のポリマーであり、複数のポリマー中のそれぞれのポリマーが、すべて同じ分子量を有するわけではない。いくつかのそのような実施形態では、複数のポリマー中のポリマーは、鎖長の対応する分布を有する重量範囲に入る。いくつかの実施形態では、ポリマーは、１つ以上の置換基側鎖または分岐を有する主鎖を含む分岐状ポリマー分子である。分岐状ポリマーのタイプとしては、限定されるものではないが、スター型ポリマー、櫛型ポリマー、ブラシ型ポリマー、樹状ポリマー、梯子型、およびデンドリマーが挙げられる。例えば、Ｒｕｂｉｎｓｔｅｉｎｅｔａｌ．，２００３，Ｐｏｌｙｍｅｒｐｈｙｓｉｃｓ，Ｏｘｆｏｒｄ；ＮｅｗＹｏｒｋ：ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ．ｐ．６を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。

【0101】

いくつかの実施形態では、標的対象は、ポリペプチドである。本明細書で使用される場合、「ポリペプチド」という用語は、ペプチド結合によって連結された２つ以上のアミノ酸または残基を意味する。「ポリペプチド」および「タンパク質」という用語は、本明細書では交換可能に使用され、オリゴペプチドおよびペプチドを含む。「アミノ酸」、「残基」、または「ペプチド」は、当該技術分野で知られているタンパク質の２０の標準構造単位のいずれかを指し、プロリンおよびヒドロキシプロリンなどのイミノ酸を含む。アミノ酸異性体の呼称は、Ｄ、Ｌ、Ｒ、およびＳを含み得る。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリジン、ランチオニン、２－アミノイソ酪酸、γ－アミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、およびホモシステインは、すべて、アミノ酸とみなされる。アミノ酸の他の変異体または類似体が、当該技術分野で知られている。したがって、ポリペプチドは、ペプチドなどの合成ペプチド模倣構造を含み得る。Ｓｉｍｏｎｅｔａｌ．，１９９２，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＵＳＡ，８９，９３６７を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。Ｃｈｉｎｅｔａｌ．，２００３，Ｓｃｉｅｎｃｅ３０１，９６４、およびＣｈｉｎｅｔａｌ．，２００３，Ｃｈｅｍｉｓｔｒｙ＆Ｂｉｏｌｏｇｙ１０，５１１も参照されたく、これらの各々は、参照によりその全体が本明細書に組み込まれる。

【0102】

いくつかの実施形態では、開示されるシステムおよび方法のいくつかの実施形態に従って評価される標的対象はまた、任意の数の翻訳後修飾を有し得る。したがって、標的対象として、アシル化、アルキル化、アミド化、ビオチン化、ホルミル化、γ－カルボキシル化、グルタミル化、グリコシル化、グリシル化、ヒドロキシル化、ヨウ素化、イソプレニル化、リポイル化、（例えば、ヘム、フラビン、金属などの）補因子付加、ヌクレオシドおよびそれらの誘導体の付加、酸化、還元、ペグ化、ホスファチジルイノシトール付加、ホスホパンテテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、ｔＲＮＡによるアミノ酸の付加（例えば、アルギニル化）、硫酸化、セレノイル化、ＩＳＧ化、ＳＵＭＯ化、ユビキチン化、化学修飾（例えば、クエトリン化および脱アミド化）、ならびに他の酵素（例えば、プロテアーゼ、ホスホトラーゼおよびキナーゼ）による処理によって修飾されているようなポリマーが挙げられ得る。他のタイプの翻訳後修飾が、当該技術分野で知られており、また含まれる。

【0103】

いくつかの実施形態では、標的対象は、有機金属錯体である。有機金属錯体は、炭素と金属との間の結合を含む化学化合物である。いくつかの事例では、有機金属化合物は、接頭辞「有機」、例えば、有機パラジウム化合物、によって区別される。

【0104】

いくつかの実施形態では、標的対象は、界面活性剤である。界面活性剤は、液体の表面張力、２つの液体間の界面張力、または液体と固体との間の界面張力を低下させる化合物である。界面活性剤は、洗剤、湿潤剤、乳化剤、発泡剤、および分散剤として作用し得る。界面活性剤は、通常、両親媒性である有機化合物であり、これらの有機化合物が疎水基（それらの尾部）と親水基（それらの頭部）との両方を含むことを意味する。したがって、界面活性剤分子は、水不溶性（または油溶性）成分と水溶性成分との両方を含む。界面活性剤分子は、水中では拡散し、空気と水との間の界面に、または水が油と混合される場合には、油と水との間の界面に吸着する。不溶性疎水基は、水溶性頭部基が水相に留まる間、バルク水相から空気中に、または油相中に延在し得る。表面における界面活性剤分子のこの配向は、水／空気または水／油界面における水の表面特性を修正する。

【0105】

イオン性界面活性剤の例としては、アニオン性界面活性剤、カチオン性界面活性剤、または双性（両性）界面活性剤などのイオン性界面活性剤が挙げられる。いくつかの実施形態では、標的対象は、逆ミセルまたはリポソームである。

【0106】

いくつかの実施形態では、標的対象は、フラーレンである。フラーレンは、中空の球体、楕円体、または管の形態の、完全に炭素で構成される任意の分子である。球状のフラーレンは、バッキーボールとも呼ばれ、それらは、アソシエーションフットボールで使用されるボールに似ている。円筒形のものは、カーボンナノチューブまたはバッキーチューブと呼ばれる。フラーレンは、連結した六角形環の積み重ねられたグラフェンシートから構成されるグラファイトと構造が類似しているが、それらはまた、五角形（または時に七角形）環を含み得る。

【0107】

いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、２．５Å以上の分解能で分解されたポリマーの結晶構造の三次元座標のセット｛ｘ_１，．．．，ｘ_Ｎ｝であり（２０８）、Ｎは、２以上（例えば、１０以上、２０以上など）の整数である。いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、３．３Å以上の分解能で分解されたポリマーの結晶構造の三次元座標のセット｛ｘ１，．．．，ｘＮ｝である（２１０）。いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、３．３Å以上、３．２Å以上、３．１Å以上、３．０Å以上、２．５Å以上、２．２Å以上、２．０Å以上、１．９Å以上、１．８５Å以上、１．８０Å以上、１．７５Å以上、または１．７０Å以上の分解能で（例えば、Ｘ線結晶学的技術によって）分解されたポリマーの結晶構造の三次元座標のセット｛ｘ_１，．．．，ｘ_Ｎ｝である。

【0108】

いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、核磁気共鳴によって判定された、ポリマーの１０以上、２０以上、３０以上の三次元座標のアンサンブルであり、アンサンブルは、１．０Å以上、０．９Å以上、０．８Å以上、０．７Å以上、０．６Å以上、０．５Å以上、０．４Å以上、０．３Å以上、または０．２Å以上の骨格ＲＭＳＤを有する。いくつかの実施形態では、空間座標は、中性子回折または低温電子顕微鏡法によって判定される。

【0109】

いくつかの実施形態では、標的対象は、ポリペプチドに結合した核酸などの、２つの異なるタイプのポリマーを含む。いくつかの実施形態では、天然ポリマーは、互いに結合した２つのポリペプチドを含む。いくつかの実施形態では、研究対象の天然ポリマーは、１つ以上の金属イオン（例えば、１つ以上の亜鉛原子を有する金属プロテアーゼ）を含む。そのような事例では、金属イオンおよびまたは有機低分子は、標的対象の空間座標に含まれ得る。

【0110】

いくつかの実施形態では、標的対象は、ポリマーであり、ポリマーには、１０個以上、２０個以上、３０個以上、５０個以上、１００個以上、１００～１０００個、または５００個未満の残基がある。

【0111】

いくつかの実施形態では、標的対象の空間座標は、ａｂｉｎｉｔｉｏ法、密度汎関数法、半経験的および経験的方法、分子力学、化学動力学、または分子動力学などのモデリング方法を使用して判定される。

【0112】

実施形態では、空間座標は、標的対象を含む原子の中心のデカルト座標によって表される。いくつかの代替実施形態では、標的対象の空間座標は、例えばＸ線結晶構造解析によって測定される、標的対象の電子密度によって表される。例えば、いくつかの実施形態では、空間座標は、標的対象の計算された原子座標を使用して計算された２Ｆ_{ｏｂｓｅｒｖｅｄ}－Ｆ_{ｃａｌｃｕｌａｔｅｄ}電子密度マップを含み、Ｆ_{ｏｂｓｅｒｖｅｄ}は、標的対象の観測された構造因子振幅であり、Ｆｃは、標的対象の計算された原子座標から計算された構造因子振幅である。

【0113】

したがって、標的対象の空間座標は、限定されるものではないが、溶液ＮＭＲによって生成される構造アンサンブル、Ｘ線結晶構造解析、中性子回折、または低温電子顕微鏡法から解釈される共錯体、計算シミュレーションからのサンプリング、ホモロジーモデリングまたはロータマーライブラリサンプリング、ならびにこれらの技術の組み合わせなどの多様なソースからの入力データとして受け取られ得る。

【0114】

いくつかの実施形態では、ブロック２１０は、標的対象の空間座標を取得することを包含する。さらに、ブロック２１０は、複数の異なるポーズ中の各ポーズの標的対象でそれぞれの被験対象をモデル化し、それによって、複数のボクセルマップを作成することを包含し、複数のボクセルマップ中の各それぞれのボクセルマップは、複数の異なるポーズ中のそれぞれのポーズの被験対象を含む。

【0115】

いくつかの実施形態では、標的対象は、活性部位を有するポリマーであり、それぞれの被験対象は、化学化合物であり、複数の異なるポーズ中の各ポーズにおける標的対象でのそれぞれの被験対象のモデリングは、被験対象を標的対象の活性部位にドッキングすることを含む。いくつかの実施形態では、それぞれの被験対象は、複数回標的対象上にドッキングされて、複数のポーズを形成する（例えば、各ドッキングが、異なるポーズを表す）。いくつかの実施形態では、被験対象は、標的対象上に２回、３回、４回、５回以上、１０回以上、５０回以上、１００回以上、または１０００回以上ドッキングされる。各そのようなドッキングは、標的対象上にドッキングされたそれぞれの被験対象の異なるポーズを表す。いくつかの実施形態では、それぞれの標的対象は、活性部位を有するポリマーであり、被験対象は、複数の異なる方法の各々で活性部位にドッキングされ、各そのような方策が、異なるポーズを表す。これらのポーズの多くが正しくないことは、そのようなポーズが、それぞれの被験対象と実際に生じる標的対象との間の真の相互作用を表さないことを意味すると、想定される。任意の特定の理論に限定されることを意図するものではないが、間違ったポーズの間で観測される対象間（例えば、分子間）相互作用は、ホワイトノイズのように互いに打ち消し合うこととなるのに対して、被験対象によって形成される正しいポーズによって形成される対象間相互作用は、互いに補強することとなると、想定される。いくつかの実施形態では、被験対象は、ランダムなポーズ生成技術によって、または偏ったポーズ生成によってのいずれかでドッキングされる。いくつかの実施形態では、被験対象は、マルコフ・チェーン・モンテ・カルロ・サンプリングによってドッキングされる。いくつかの実施形態では、そのようなサンプリングは、ドッキング計算における被験対象の完全な柔軟性と、被験対象と標的対象との間の相互作用エネルギーの合計であるスコアリング関数、ならびに被験対象のコンフォメーションエネルギーを可能にする。例えば、ＬｉｕａｎｄＷａｎｇ，１９９９，“ＭＣＤＯＣＫ：ＡＭｏｎｔｅＣａｒｌｏｓｉｍｕｌａｔｉｏｎａｐｐｒｏａｃｈｔｏｔｈｅｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｐｒｏｂｌｅｍ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ－ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ１３，４３５－４５１を参照されたく、これは、参照により本明細書に組み込まれる。

【0116】

いくつかの実施形態では、ＤＯＣＫ（Ｓｈｏｉｃｈｅｔ，Ｂｏｄｉａｎ，ａｎｄＫｕｎｔｚ，１９９２，“Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｕｓｉｎｇｓｈａｐｅｄｅｓｃｒｉｐｔｏｒｓ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１３（３），ｐｐ．３８０－３９７、およびＫｎｅｇｔｅｌ，Ｋｕｎｔｚ，ａｎｄＯｓｈｉｒｏ，１９９７”Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｔｏｅｎｓｅｍｂｌｅｓｏｆｐｒｏｔｅｉｎｓｔｒｕｃｔｕｒｅｓ，”ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６６，ｐｐ．４２４－４４０、これらの各々は、参照により本明細書に組み込まれる）などのアルゴリズムを使用して、標的対象の各々に対する各それぞれの被験対象に対する複数のポーズを見出す。そのようなアルゴリズムは、標的対象および被験対象を剛体としてモデル化する。ドッキングされたコンフォメーションを、補完的な表面を使用して探索して、ポーズを見つける。

【0117】

いくつかの実施形態では、ＡｕｔｏＤＯＣＫ（Ｍｏｒｒｉｓｅｔａｌ．，２００９，“ＡｕｔｏＤｏｃｋ４ａｎｄＡｕｔｏＤｏｃｋＴｏｏｌｓ４：ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇｗｉｔｈＳｅｌｅｃｔｉｖｅＲｅｃｅｐｔｏｒＦｌｅｘｉｂｉｌｉｔｙ，”Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．３０（１６），ｐｐ．２７８５－２７９１、Ｓｏｔｒｉｆｆｅｒｅｔａｌ．，２０００，“Ａｕｔｏｍａｔｅｄｄｏｃｋｉｎｇｏｆｌｉｇａｎｄｓｔｏａｎｔｉｂｏｄｉｅｓ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”Ｍｅｔｈｏｄｓ：ＡＣｏｍｐａｎｉｏｎｔｏＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ２０，ｐｐ．２８０－２９１、および“Ｍｏｒｒｉｓｅｔａｌ．，１９９８，“ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇＵｓｉｎｇａＬａｍａｒｃｋｉａｎＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍａｎｄＥｍｐｉｒｉｃａｌＢｉｎｄｉｎｇＦｒｅｅＥｎｅｒｇｙＦｕｎｃｔｉｏｎ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１９：ｐｐ．１６３９－１６６２、これらの各々は、参照により本明細書に組み込まれる）などのアルゴリズムを使用して、標的対象の各々に対する各それぞれの被験対象に対する複数のポーズを見つける。ＡｕｔｏＤＯＣＫは、リガンドの運動学的モデルを使用し、モンテカルロ、模擬アニーリング、ラマルク遺伝的アルゴリズム、および遺伝的アルゴリズムをサポートする。よって、いくつかの実施形態では、（所与の被験対象－標的対象ペアに対する）複数の異なるポーズは、ドッキングスコアリング関数を使用して、マルコフ連鎖モンテカルロサンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムによって取得される。

【0118】

いくつかの実施形態では、ＦｌｅｘＸ（Ｒａｒｅｙｅｔａｌ．，１９９６，“ＡＦａｓｔＦｌｅｘｉｂｌｅＤｏｃｋｉｎｇＭｅｔｈｏｄＵｓｉｎｇａｎＩｎｃｒｅｍｅｎｔａｌＣｏｎｓｔｒｕｃｔｉｏｎＡｌｇｏｒｉｔｈｍ，”ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６１，ｐｐ．４７０－４８９、これは、参照により本明細書に組み込まれる）などのアルゴリズムを使用して、標的対象の各々に対する被験対象のサブセットのそれぞれの被験対象の各々に対する複数のポーズを見つける。ＦｌｅｘＸは、貪欲アルゴリズムを使用して、標的対象の活性部位で被験対象の逐次構築を行う。よって、いくつかの実施形態では、（所与の被験対象－標的対象ペアに対する）複数の異なるポーズは、貪欲アルゴリズムによって取得される。

【0119】

いくつかの実施形態では、ＧＯＬＤ（Ｊｏｎｅｓｅｔａｌ．，１９９７，“ＤｅｖｅｌｏｐｍｅｎｔａｎｄＶａｌｉｄａｔｉｏｎｏｆａＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｆｏｒｆｌｅｘｉｂｌｅＤｏｃｋｉｎｇ，”ＪｏｕｒｎａｌＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６７，ｐｐ．７２７－７４８、これは、参照により本明細書に組み込まれる）などのアルゴリズムを使用して、標的対象の各々に対する被験対象のサブセットの被験対象の各々に対する複数のポーズを見つける。ＧＯＬＤは、リガンドドッキングのための遺伝子最適化（ＧｅｎｅｔｉｃＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＬｉｇａｎｄＤｏｃｋｉｎｇ）の略である。ＧＯＬＤは、被験対象と標的対象との間の遺伝子最適化された水素結合ネットワークを構築する。

【0120】

いくつかの実施形態では、モデリングは、標的対象および被験対象の分子動力学ランを実行することを含む。分子動力学ランの間、標的対象および被験対象の原子は、固定期間相互作用し、システムの動的進化のビューを与えることが可能になる。標的対象および被験対象の原子の軌道は、相互作用する粒子の系に関するニュートンの運動方程式を数値的に解くことによって判定され、粒子と粒子のポテンシャルエネルギーとの間の力は、原子間ポテンシャルまたは分子力学力場を使用して計算される。ＡｌｄｅｒａｎｄＷａｉｎｗｒｉｇｈｔ，１９５９，“ＳｔｕｄｉｅｓｉｎＭｏｌｅｃｕｌａｒＤｙｎａｍｉｃｓ．Ｉ．ＧｅｎｅｒａｌＭｅｔｈｏｄ，”．Ｊ．Ｃｈｅｍ．Ｐｈｙｓ．３１（２）：４５９、およびＢｉｂｃｏｄｅ，１９５９，Ｊ．Ｃｈ．Ｐｈ．３１，４５９Ａ，ｄｏｉ：１０．１０６３／１．１７３０３７６を参照されたく、これらの各々は、参照により本明細書に組み込まれる。したがって、このようにして、分子動力学ランは、経時的に標的対象および被験対象の軌道を生成する。この軌道は、標的対象および被験対象の原子の軌道を含む。いくつかの実施形態では、複数の異なるポーズのサブセットが、一定期間にわたってこの軌道のスナップショットを撮ることによって取得される。いくつかの実施形態では、ポーズは、いくつかの異なる軌道のスナップショットから取得され、各軌道は、被験対象と相互作用する標的対象の異なる分子動力学ランを含む。いくつかの実施形態では、分子動力学ランの前に、被験対象は、まず、ドッキング技術を使用して標的対象の活性部位にドッキングされる。

【0121】

どのようなモデリング方法が使用されるかにかかわらず、任意の所与の被験対象－標的対象ペアに対して達成されるものは、標的対象との被験対象の多様なポーズのセットであり、ポーズのうちの１つ以上は、所与の被験対象／標的対象ペア間の関連する分子間相互作用のうちのいくつかを例証するために自然発生ポーズに十分に近いことが想定される。

【0122】

いくつかの実施形態では、標的対象の活性部位における被験対象の初期ポーズが、上述の技術のいずれかを使用して生成され、追加のポーズが、３つのＸ、Ｙ、およびＺ平面の任意の組み合わせでの回転、並進、およびミラーリング演算子の何らかの組み合わせの適用を通じて生成される。被験の回転および並進は、（ある範囲内、例えば、起点からプラスまたはマイナス５Åで）ランダムに選択されてもよいし、事前に指定されたある増分（例えば、円周で全５度増分）で均一に生成されてもよい。図４は、標的対象１２４の活性部位における２つの異なるポーズ（４０２－１および４０２－２）における被験対象１２２のサンプル説明図を提供する。

【0123】

標的対象および／または被験対象の各々に対するポーズの各々の生成後、いくつかの実施形態では、各ポーズのボクセルマップが作成され、それによって、標的対象に関して所与のそれぞれの標的対象に対する複数のボクセルマップが作成される。いくつかの実施形態では、複数のボクセルマップ中の各それぞれのボクセルマップは、方法であって、（ｉ）複数の異なるポーズ中のそれぞれのポーズにおいて被験対象を、および三次元グリッドベースで標的対象をサンプリングし、それによって、対応する複数の空間充填（三次元）多面体セルを含む対応する三次元均一空間充填ハニカムを形成することと、（ｉｉ）対応する複数の三次元セル中の各それぞれの三次元多面体セルについて、それぞれの三次元多面体セルの属性（例えば、化学属性）に基づいて、それぞれのボクセルマップのボクセル（規則的に間隔を置いた多面体セルの個別のセット）を埋めることと、を含む方法によって作成される。したがって、そのような実施形態では、特定の被験対象が標的対象に対して１０のポーズを有する場合、１０の対応するボクセルマップが作成され、特定の被験対象が標的対象に対して１００のポーズを有する場合、１００の対応するボクセルマップが作成される、などである。空間充填ハニカムの例としては、平行四辺形セルを有する立方体ハニカム、六角形プリズムセルを有する六角形プリズムハニカム、菱形十二面体セルを有する菱形十二面体、長尺十二面体セルを有する長尺十二面体、および切頂八面体セルを有する切頂八面体が挙げられる。

【0124】

いくつかの実施形態では、空間充填ハニカムは、立方体セルを有する立方体ハニカムであり、そのようなボクセルの寸法は、それらの分解能を決定する。例えば、１Åの分解能が選択されてもよく、これは、そのような実施形態では、各ボクセルが、１Åの寸法（例えば、それぞれのセルのそれぞれの高さ、幅、および深さにおいて１Å×１Å×１Å）を有する幾何学的データの対応する立方体を表すことを意味する。ただし、いくつかの実施形態では、より細かいグリッド間隔（例えば、０．１Å、またはさらには０．０１Å）、またはより粗いグリッド間隔（例えば、４Å）が使用され、この間隔は、入力幾何学的データを網羅するための整数数のボクセルを生じさせる。いくつかの実施形態では、サンプリングは、０．１Å～１０Åである分解能で行われる。例示として、４０Å入力キューブについて、１Åの解像度であれば、そのような配置は、４０＊４０＊４０＝６４，０００の入力ボクセルを生じさせるであろう。

【0125】

いくつかの実施形態では、それぞれの被験対象は、第１の化合物であり、標的対象は、第２の化合物であり、サンプリングすること（ｉ）で生じる原子の特性は、埋めること（ｉｉ）によってそれぞれのボクセルマップの単一のボクセルに配され、複数のボクセル中の各ボクセルは、最大１個の原子の特性を表す。いくつかの実施形態では、原子の特性は、原子のタイプの列記からなる。一例として、生物学的データについて、開示されるシステムおよび方法のいくつかの実施形態は、ボクセルマップの所与のボクセルにおけるあらゆる原子の存在を、そのエントリの異なる番号として表すように構成されており、例えば、炭素がボクセルにある場合、炭素の原子番号が６であるため、６の値がそのボクセルに割り当てられる。ただし、そのような符号化の場合、原子番号が近い原子が同様に振る舞うことを含意し得、用途によっては特に有用ではない可能性がある。さらに、元素の振舞いは、グループ（周期表上の列）内でより類似していてもよく、したがって、そのような符号化は、畳み込みニューラルネットワークが復号する追加の作業を提起する。

【0126】

いくつかの実施形態では、原子の特性は、バイナリカテゴリ変数としてボクセルに符号化される。そのような実施形態では、原子タイプは、「ワンホット」符号化と称されるものにエンコードされる：あらゆる原子タイプが、別個のチャネルを有する。したがって、そのような実施形態では、各ボクセルは、複数のチャネルを有し、少なくとも複数のチャネルのサブセットは、原子タイプを表す。例えば、各ボクセル内の１つのチャネルは炭素を表してもよいのに対して、各ボクセル内の別のチャネルは、酸素を表してもよい。所与のボクセルに対応する三次元グリッド要素に所与の原子タイプが見つかるとき、所与のボクセル内のその原子タイプのチャネルには、「１」などのバイナリカテゴリ変数の第１の値が割り当てられ、所与のボクセルに対応する三次元グリッド要素に原子タイプが見つからないとき、その原子タイプのチャネルには、所与のボクセル内に「０」などのバイナリカテゴリ変数の第２の値が割り当てられる。

【0127】

１００以上の元素があるが、ほとんどが、生物学では遭遇しない。ただし、最も一般的な生物学的元素（例えば、Ｈ、Ｃ、Ｎ、Ｏ、Ｆ、Ｐ、Ｓ、Ｃｌ、Ｂｒ、Ｉ、Ｌｉ、Ｎａ、Ｍｇ、Ｋ、Ｃａ、Ｍｎ、Ｆｅ、Ｃｏ、Ｚｎ）を表すものであっても、ボクセル当たり１８個のチャネル、または１０，４８３＊１８＝１８８，６９４個の、受容体野への入力を生じさせ得る。したがって、いくつかの実施形態では、複数のボクセルマップ中のボクセルマップにおける各それぞれのボクセルは、複数のチャネルを含み、複数のチャネル中の各チャネルは、それぞれのボクセルに対応する三次元空間充填多面体セルに発生し得る異なる属性を表す。所与のボクセルに対する可能なチャネルの数は、原子の追加の特性（例えば、部分電荷、リガンド対タンパク質標的における存在、電気陰性度、またはＳＹＢＹＬ原子タイプ）が各ボクセルに対して独立したチャネルとして追加的に提示されるそれらの実施形態ではさらに多く、それ以外の同等の原子を区別するためにより多くの入力チャネルを必要とする。

【0128】

いくつかの実施形態では、各ボクセルは、５つ以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは１５個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、２０個以上の入力チャネル、２５個以上の入力チャネル、３０個以上の入力チャネル、５０個以上の入力チャネル、または１００個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、以下の表１に見出される記述子から選択される５つ以上の入力チャネルを有する。例えば、いくつかの実施形態では、各ボクセルは、５個以上のチャネルを有し、各チャネルは、バイナリカテゴリ変数として符号化され、ここで、各チャネルは、以下の表１から選択されるＳＹＢＹＬ原子タイプを表す。例えば、いくつかの実施形態では、ボクセルマップの各それぞれのボクセルは、Ｃ．３（ｓｐ３炭素）原子タイプのチャネルを含み、これは、それぞれのボクセルによって表される所与の被験対象－標的対象複合体の空間におけるグリッドがｓｐ３炭素を包含する場合に、チャネルが第１の値（例えば、「１」）を採用し、そうでない場合に第２の値（例えば、「０」）であることを意味する。

【表1-1】

【表1-2】

【0129】

いくつかの実施形態では、各ボクセルは、上記の表１に見出される記述子から選択される１０個以上の入力チャネル、１５個以上の入力チャネル、または２０個以上の入力チャネルを含む。いくつかの実施形態では、各ボクセルは、ハロゲンに対するチャネルを含む。

【0130】

いくつかの実施形態では、構造タンパク質－リガンド相互作用フィンガープリント（ＳＰＬＩＦ）スコアが、標的対象に対するそれぞれの被験対象の各ポーズに対して生成され、このＳＰＬＩＦスコアは、標的モデルへの追加の入力として使用されるか、またはボクセルマップに個々に符号化される。ＳＰＬＩＦの説明については、ＤａａｎｄＫｉｒｅｅｖ，２０１４，Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．５４，ｐｐ．２５５５－２５６１，“ＳｔｒｕｃｔｕｒａｌＰｒｏｔｅｉｎ－ＬｉｇａｎｄＩｎｔｅｒａｃｔｉｏｎＦｉｎｇｅｒｐｒｉｎｔｓ（ＳＰＬＩＦ）ｆｏｒＳｔｒｕｃｔｕｒｅ－ＢａｓｅｄＶｉｒｔｕａｌＳｃｒｅｅｎｉｎｇ：ＭｅｔｈｏｄａｎｄＢｅｎｃｈｍａｒｋＳｔｕｄｙ”を参照されたく、これは、参照により本明細書に組み込まれる。ＳＰＬＩＦは、被験対象の相互作用断片と標的対象との間に生じ得るすべての可能な相互作用タイプ（例えば、π－π、ＣＨ－πなど）を暗黙的に符号化する。最初のステップでは、被験対象－標的対象複合体（ポーズ）が分子間接触について検査される。２つの原子は、それらの間の距離が指定された閾値内（例えば、４．５Å以内）である場合、接触しているとみなされる。そのような各分子間原子対に対して、それぞれの被験原子および標的対象原子は、円形断片、例えば問題の原子およびそれらの連続する近傍を特定の距離まで含む断片、に拡張される。各タイプの円形断片には、識別子が割り当てられる。いくつかの実施形態では、そのような識別子は、それぞれのボクセルの個々のチャネルにコード化される。いくつかの実施形態では、パイプライン・パイロット・ソフトウェアで定義されている、第１の最も近い近傍（ＥＣＦＰ２）までの拡張接続フィンガープリントを使用することができる。ＰｉｐｅｌｉｎｅＰｉｌｏｔ，ｖｅｒ８．５，ＡｃｃｅｌｒｙｓＳｏｆｔｗａｒｅＩｎｃ．，２００９を参照されたく、これは、参照により本明細書に組み込まれる。ＥＣＦＰは、すべての原子／結合タイプに関する情報を保持し、１つのサブ構造（例えば、環状断片）を表すための１つの一意の整数識別子を使用する。ＳＰＬＩＦフィンガープリントは、見つかったすべての円形断片識別子を符号化する。いくつかの実施形態では、ＳＰＬＩＦフィンガープリントは、符号化された個々のボクセルではなく、標的モデルにおける別個の独立した入力として機能する。

【0131】

いくつかの実施形態では、ＳＰＬＩＦではなく、またはＳＰＬＩＦに加えて、標的対象に対する所与の被験対象の各ポーズに対して構造相互作用フィンガープリント（ＳＩＦｔ）が計算され、標的モデルへの入力として独立して提供されるか、またはボクセルマップに符号化される。ＳＩＦｔの計算については、Ｄｅｎｇｅｔａｌ．，２００３，“ＳｔｒｕｃｔｕｒａｌＩｎｔｅｒａｃｔｉｏｎＦｉｎｇｅｒｐｒｉｎｔ（ＳＩＦｔ）：ＡＮｏｖｅｌＭｅｔｈｏｄｆｏｒＡｎａｌｙｚｉｎｇＴｈｒｅｅ－ＤｉｍｅｎｓｉｏｎａｌＰｒｏｔｅｉｎ－ＬｉｇａｎｄＢｉｎｄｉｎｇＩｎｔｅｒａｃｔｉｏｎｓ，”Ｊ．Ｍｅｄ．Ｃｈｅｍ．４７（２），ｐｐ．３３７－３４４を参照されたく、これは、参照により本明細書に組み込まれる。

【0132】

いくつかの実施形態では、ＳＰＬＩＦおよびＳＩＦＴではなく、またはＳＰＬＩＦおよびＳＩＦＴに加えて、原子対ベースの相互作用断片（ＡＰＩＦ）は、標的対象に対する所与の被験対象の各ポーズに対して計算され、標的モデルへの入力として独立にして提供されるか、またはボクセルマップに個々に符号化される。ＡＰＩＦの計算については、Ｐｅｒｅｚ－Ｎｕｅｎｏｅｔａｌ．，２００９，“ＡＰＩＦ：ａｎｅｗｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔｂａｓｅｄｏｎａｔｏｍｐａｉｒｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ，”Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．４９（５），ｐｐ．１２４５－１２６０を参照されたく、これは、参照により本明細書に組み込まれる。

【0133】

データ表現は、例えば、分子／タンパク質と関連付けられた様々な構造関係の表式を可能にする方策で、生物学的データとともに符号化されてもよい。幾何学的表現は、様々な実施形態に従って、多様な方法およびトポグラフィで実装されてもよい。幾何学的表現は、データの視覚化および分析に使用される。例えば、実施形態では、幾何学形状は、２Ｄ、３Ｄデカルト／ユークリッド空間、３Ｄ非ユークリッド空間、多様体などの様々なトポグラフィ上にレイアウトされたボクセルを使用して表現され得る。例えば、図５は、実施形態による、一連のサブコンテナを含むサンプル三次元グリッド構造５００を例示している。各サブコンテナ５０２は、ボクセルに対応し得る。座標系が、各サブコンテナが識別子を有するように、グリッドに対して定義されてもよい。開示されるシステムおよび方法のいくつかの実施形態では、座標系は、３Ｄ空間のデカルト系であるが、システムの他の実施形態では、座標系は、とりわけ、オブラート球面、円筒座標系または球面座標系、極座標系、様々な多様体およびベクトル空間のために設計された他の座標系などの、任意の他のタイプの座標系であり得る。いくつかの実施形態では、ボクセルは、これらのボクセルに関連付けられた特定の値を有してもよく、これは、例えば、とりわけ、ラベルを適用すること、および／またはこれらのボクセルの位置取りを決定することによって表されてもよい。

【0134】

いくつかの実施形態では、ブロック２１０は、複数のボクセルマップ中の各ボクセルマップを対応するベクトルに展開し、それによって、複数のベクトルを作成することを含み、複数のベクトル中の各ベクトルは、同じサイズである。いくつかの実施形態では、複数のベクトル中の各それぞれのベクトルは、標的モデルに入力される。いくつかの実施形態では、標的モデルは、（ｉ）複数のベクトルを順次受け取るための入力層、（ｉｉ）複数の畳み込み層、および（ｉｉｉ）スコアラを含み、複数の畳み込み層は、初期畳み込み層および最終畳み込み層を含み、複数の畳み込み層中の各層は、異なる重みのセットと関連付けられている。そのような実施形態では、複数のベクトル中のそれぞれのベクトルの入力に応答して、入力層は、第１の複数の値をそれぞれのベクトルの値の第１の関数として初期畳み込み層に供給し、最終畳み込み層以外の各それぞれの畳み込み層は、中間値を、（ｉ）それぞれの畳み込み層と関連付けられた異なる重みのセット、および（ｉｉ）それぞれの畳み込み層によって受け取られた入力値のそれぞれの第２の関数として、複数の畳み込み層中の別の畳み込み層に供給し、最終畳み込み層は、最終値を、（ｉ）最終畳み込み層と関連付けられた異なる重みのセット、および（ｉｉ）最終畳み込み層によって受け取られた入力値の第３の関数として、スコアラに供給する。このようにして、スコアラから複数のスコアが取得され、複数のスコア中の各スコアは、複数のベクトル中のベクトルの、入力層への入力に対応する。次いで、複数のスコアを使用して、それぞれの被験対象に対する対応する標的結果を提供する。いくつかの実施形態では、標的結果は、複数のスコアの加重平均である。いくつかの実施形態では、標的結果は、複数のスコアの中心傾向の尺度である。中心傾向の尺度の例としては、複数のスコアの算術平均、加重平均、ミッドレンジ、ミッドヒンジ、３点平均、Ｗｉｎｓｏｒｉｚｅｄ平均、中央値、またはモードが挙げられる。

【0135】

いくつかの実施形態では、スコアラは、複数の全結合層と、複数の全結合層中の全結合層が評価層に供給する評価層と、を含む。いくつかの実施形態では、スコアラは、決定木、多重加法的回帰木、クラスタリングアルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、およびそれらのアンサンブルを含む。いくつかの実施形態では、複数のベクトル中の各ベクトルは、一次元ベクトルである。いくつかの実施形態では、複数の異なるポーズは、２つ以上のポーズ、１０以上のポーズ、１００以上のポーズ、または１０００以上のポーズを含む。いくつかの実施形態では、複数の異なるポーズは、マークアップ・チェーン・モンテ・カルロ・サンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムのうちの１つにおけるドッキングスコアリング関数を使用して取得される。いくつかの実施形態では、複数の異なるポーズは、貪欲アルゴリズムを使用して逐次検索によって取得される。

【0136】

ブロック２１２および２１４。いくつかの実施形態では、標的モデルは、予測モデルよりも高い計算複雑性を有する。そのようないくつかの実施形態では、被験対象データセット内のすべての被験対象に標的モデルを適用することは、計算上禁止されている。この理由で、標的モデルは、典型的には、被験対象データセットにおけるあらゆる被験対象ではなく、被験対象のサブセットに適用される。いくつかの実施形態では、被験対象のサブセット（例えば、ある範囲の構造的または機能的品質を有する被験対象を含む被験対象のサブセット）のある程度の多様性が所望される。いくつかの実施形態では、被験対象のサブセットは、少なくとも１，０００個の被験対象、少なくとも５，０００個の被験対象、少なくとも１０，０００個の被験対象、少なくとも２５，０００個の被験対象、少なくとも５０，０００個の被験対象、少なくとも７５，０００個の被験対象、少なくとも１００，０００個の被験対象、少なくとも２５０，０００個の被験対象、少なくとも５００，０００個の被験対象、少なくとも７５０，０００個の被験対象、少なくとも１００万個の被験対象、少なくとも２００万個の被験対象、少なくとも３００万個の被験対象、少なくとも４００万個の被験対象、少なくとも５００万個の被験対象、少なくとも６００万個の被験対象、少なくとも７００万個の被験対象、少なくとも８００万個の被験対象、少なくとも９００万個の被験対象、または少なくとも１，０００万個の被験対象を含む。

【0137】

このことを確実にするために、図２Ａのブロック２１２を参照すると、いくつかの実施形態では、被験対象のサブセットは、ランダム化ベースで被験対象データセットから選択される（例えば、被験対象のサブセットは、当技術分野で知られている任意のランダムな方法を使用して被験対象データセットから選択される）。

【0138】

図２Ａのブロック２１４を参照すると、他の実施形態では、被験対象のサブセットは、被験対象の特徴ベクトルの１つ以上の特徴の評価に基づいて、被験対象のデータセットから選択される。いくつかのそのような実施形態では、特徴の評価は、クラスタリングに基づいて複数の被験対象から被験対象の選択を行うこと（例えば、被験対象の各サブセットを形成するときに複数のクラスタから被験対象を選択すること）を含む。次いで、被験対象のサブセットは、複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて選択される（例えば、異なるタイプの化学化合物を表す被験対象のサブセットを取得するため）。例えば、被験対象データセットの被験対象が、これらの被験対象の特徴ベクトルに基づいて、１００個の異なるクラスタにクラスタ化される場合を考える。被験対象のサブセットを選択する１つのアプローチは、被験対象のサブセットを形成するために、異なるクラスタの各々から固定数の被験対象（例えば、１０、１００、１０００など）を選択することである。各クラスタ内では、被験対象の選択を、無作為方式で行うことができる。あるいは、各クラスタ内で、各クラスタの中心に最も近いような被験対象が、そのような被験対象がこれらの被験対象のそれぞれのクラスタの特性を最もよく表すことに基づいて選択される。いくつかの実施形態では、使用されるクラスタリングの形態は、教師なしクラスタリングである。被験対象データセットから複数の被験対象をクラスタリングする利益は、このことが予測モデルのより正確な訓練を提供することである。例えば、被験対象のサブセットの被験対象のすべてまたは大部分が類似の化学化合物である（例えば、同じ化学グループを含む、類似の構造を有するなど）場合、予測モデルがその特定のタイプの化学化合物に偏っているか、またはオーバーフィッティングであるリスクがある。このことは、いくつかの事例では、下流の訓練に悪影響を及ぼす可能性がある（例えば、異なるタイプの化学化合物から被験対象を正確に分析するために予測モデルを効率的に再訓練することが困難である場合がある）。

【0139】

被験対象の特徴ベクトルがクラスタリングでどのように使用されるかを例示するために、各特徴ベクトル内の共通の１０個の特徴（同じ１０個の特徴）のセットがクラスタリングに使用される場合を考える。いくつかの実施形態では、被験対象データセットにおける各被験対象は、１０個の特徴の各々の値を有することができる。いくつかの実施形態では、被験対象データセットの各被験対象は、特徴のうちのいくつかの測定値を有し、欠損値は、補間技術を使用して満たされるか、または無視される（過小評価される）。いくつかの実施形態では、被験対象データセットの各被験対象は、特徴のうちのいくつかの値を有し、欠損値は、制約を使用して満たされる。被験対象データセットにおける被験対象の特徴ベクトルからの値は、ベクトルを定義する：Ｘ_１、Ｘ_２、Ｘ_３、Ｘ_４、Ｘ_５、Ｘ_６、Ｘ_７、Ｘ_８、Ｘ_９、Ｘ_１０、ここで、Ｘ_ｉは、特定の被験対象の特徴ベクトル中のｉ番目の特徴の値である。被験対象データセットにＱ個の被験対象がある場合、１０個の特徴の選択は、Ｑ個のベクトルを定義することができる。クラスタリングにおいて、それぞれの特徴ベクトルにわたって類似の測定パターンを呈するような被験対象データセットのメンバーは、一緒にクラスタ化する傾向がある。

【0140】

使用され得る特定の例示的なクラスタリング技術としては、限定されるものではないが、階層クラスタリング（最近傍アルゴリズム、最遠近傍アルゴリズム、平均連結アルゴリズム、重心アルゴリズム、または二乗和アルゴリズムを使用する凝集クラスタリング）、ｋ平均クラスタリング、ファジィなｋ平均クラスタリングアルゴリズム、Ｊａｒｖｉｓ－Ｐａｔｒｉｃｋクラスタリング、密度ベースの空間クラスタリングアルゴリズム、分割クラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、またはそれらのアンサンブルが挙げられる。そのようなクラスタリングは、それぞれの被験対象の特徴ベクトル内の特徴、またはそれらに由来する主成分（または他の形態の削減成分）に関するものであり得る。いくつかの実施形態では、クラスタリングは、被験対象データセットがクラスタ化されたときにどのようなクラスタが形成され得るかの先入観が課されない、教師なしクラスタリングを含む。

【0141】

データクラスタリングは、効果的となる最適化を必要とする教師なしプロセスであり、例えば、少なすぎるか、または多すぎるクラスタのいずれかを使用してデータセットを記述することは、情報の損失をもたらす可能性がある。例えば、Ｊａｉｎｅｔａｌ．１９９９“ＤａｔａＣｌｕｓｔｅｒｉｎｇ：Ａｒｅｖｉｅｗ”ＡＭＣＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ３１（３），２６４－３２３、およびＢｅｒｋｈｉｎ２００２”Ｓｕｒｖｅｙｏｆｃｌｕｓｔｅｒｉｎｇｄａｔａｍｉｎｉｎｇｔｅｃｈｎｉｑｕｅｓ”ＴｅｃｈＲｅｐｏｒｔ，ＡｃｃｒｕｅＳｏｆｔｗａｒｅ，ＳａｎＪｏｓｅ，ＣＡを参照されたく、これらは各々、参照により本明細書に組み込まれる。いくつかの実施形態では、クラスタリングプロセスを改善するために、複数の被験対象は、クラスタリングの前に正規化される（例えば、複数の特徴ベクトル中の各特徴ベクトルの１つ以上の次元が正規化される（例えば、複数の特徴ベクトルから判定される対応する次元のそれぞれの平均値に）。

【0142】

いくつかの実施形態では、重心ベースのクラスタリングアルゴリズムを使用して、複数の被験対象のクラスタリングを実行する。重心ベースのクラスタリングは、データを非階層型クラスタに編成し、対象のすべてを中心ベクトルの観点から表す（ベクトル自体がデータセットの一部ではない可能性がある場合）。次いで、アルゴリズムは、各対象と中心ベクトルとの間の距離測定値を計算し、中心ベクトルのうちの１つへの近接性に基づいて対象をクラスタ化する。いくつかの実施形態では、ユークリッド距離測定値、マンハッタン距離測定値、またはミンコフスキー距離測定値を使用して、各被験対象と中心ベクトルとの間の距離測定値を計算する。いくつかの実施形態では、ｋ平均、ｋ－ｍｅｄｏｉｄ、ＣＬＡＲＡ、またはＣＬＡＲＡＮＳクラスタリングアルゴリズムが、複数の被験対象をクラスタ化するために使用される。ｋ平均アルゴリズムの例は、Ｕｐｐａｄａ２０１４“ＣｅｎｔｒｏｉｄＢａｓｅｄＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ－ＡＣｌａｒｉｏｎＳｔｕｄｙ”ＩｎｔＪＣｏｍｐＳｃｉａｎｄＩｎｆｏｒｍＴｅｃｈｎｏｌ５（６），７３０９－７３１３に記載されており、これは、参照により本明細書に組み込まれる。

【0143】

いくつかの実施形態では、密度ベースのクラスタリングアルゴリズムを使用して、複数の被験対象のクラスタリングを実行する。密度ベースの空間クラスタリングアルゴリズムは、クラスタを、より高い濃度（例えば、被験対象の高密度の領域）のデータセットの領域（例えば、複数の特徴ベクトル）として識別する。いくつかの実施形態では、密度ベースの空間クラスタリングを、Ｅｓｔｅｒｅｔａｌ．１９９６“ＡＤｅｎｓｉｔｙ－ＢａｓｅｄＡｌｇｏｒｉｔｈｍｆｏｒＤｉｓｃｏｖｅｒｉｎｇＣｌｕｓｔｅｒｓｉｎＬａｒｇｅＳｐａｔｉａｌＤａｔａｂａｓｅｓｗｉｔｈＮｏｉｓｅ”ＫＤＤ’９６：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ，２２６－２３１に記載されているように実行することができ、これは、参照により本明細書に組み込まれる。そのような実施形態では、アルゴリズムは、任意に成形された分布を可能にし、外れ値（例えば、他の被験対象の濃度の外側の被験対象）をクラスタに割り当てない。

【0144】

いくつかの実施形態では、階層クラスタリング（例えば、接続性ベースのクラスタリング）アルゴリズムを使用して、複数の被験対象のクラスタリングを実行する。一般に、階層的クラスタリングは、一連のクラスタを構築するために使用され、以下でさらに記載するように、凝集的または分割的であり得る（例えば、階層的クラスタリング方法の凝集的または分割的サブセットがある）。例えば、参照により本明細書に組み込まれるＲｏｋａｃｈｅｔａｌ．は、凝集クラスタリング方法の様々なバージョンについて記載している（“ＣｌｕｓｔｅｒｉｎｇＭｅｔｈｏｄｓ”２００５ＤａｔａＭｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙＨａｎｄｂｏｏｋ，３２１－３５２）。

【0145】

いくつかの実施形態では、階層クラスタリングは、分割クラスタリングを含む。分割クラスタリングは、最初に、複数の被験対象を１つのクラスタにグループ化し、その後、特定の閾値（例えば、クラスタの数）に達するまで、複数の被験対象をより多くのクラスタに分割する（例えば、それは、再帰的プロセスである）。分割クラスタリングの異なる方法の例は、例えば、Ｃｈａｖｅｎｔｅｔａｌ．２００７“ＤＩＶＣＬＵＳ－Ｔ：ａｍｏｎｏｔｈｅｔｉｃｄｉｖｉｓｉｖｅｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄ”ＣｏｍｐＳｔａｔｓＤａｔａＡｎａｌ５２（２），６８７－７０１、Ｓｈａｒｍａｅｔａｌ．２０１７”Ｄｉｖｉｓｉｖｅｈｉｅｒａｒｃｈｉｃａｌｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｃｌｕｓｔｅｒｉｎｇ”ＢＭＣＢｉｏｉｎｆｏｒｍ１８（Ｓｕｐｐｌ１６）：５４６、およびＸｉｏｎｇｅｔａｌ．２０１１”ＤＨＣＣ：Ｄｉｖｉｓｉｖｅｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇｏｆｃａｔｅｇｏｒｉｃａｌｄａｔａ”ＤａｔａＭｉｎＫｎｏｗｌＤｉｓｃｄｏｉ１０．１００７／ｓ１０６１８－０１１－０２２１－２に記載されており、これらは各々参照により本明細書に組み込まれる。

【0146】

いくつかの実施形態では、階層クラスタリングは、凝集クラスタリングを含む。凝集クラスタリングは、一般に、最初に、複数の被験対象を多数の別個のクラスタに分離すること（例えば、いくつかの場合では、個々の被験対象がクラスタを定義することから開始する）、および連続的に反復してクラスタのペアをマージすることを含む。Ｗａｒｄの方法は、二乗和を使用して各クラスタのメンバー間の分散を低減する凝集クラスタリングの例である（例えば、それは、最小分散凝集クラスタリング技術である）。ＭｕｒｔａｇｈａｎｄＬｅｇｅｎｄｒｅ２０１４“Ｗａｒｄ’ｓＨｉｅｒａｒｃｈｉｃａｌＡｇｇｌｏｍｅｒａｔｉｖｅＣｌｕｓｔｅｒｉｎｇＭｅｔｈｏｄ”Ｊ．Ｃｌａｓｓ３１，２７４－２９５を参照されたく、これは、参照により本明細書に組み込まれる。多くの凝集クラスタリング法の欠点は、それらの高い計算要件である。いくつかの実施形態では、凝集クラスタリングアルゴリズムを、ｋ平均クラスタリングアルゴリズムと組み合わせることができる。凝集およびｋ平均クラスタリングの非限定的な例は、Ｋａｒｔｈｉｋｅｙａｎｅｔａｌ．２０２０“Ａｃｏｍｐａｒａｔｉｖｅｓｔｕｄｙｏｆｋ－ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｎｄａｇｇｌｏｍｅｒａｔｉｖｅｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇ”ＩｎｔＪＥｍｅｒＴｒｅｎｄｓＥｎｇＲｅｓ８（５），１６００－１６０４に記載されており、これは、参照により本明細書に組み込まれる。例として、ｋ平均クラスタリングアルゴリズムは、複数の被験対象をデータ空間内のｋ個のクラスタの個別のセット（例えば、初期のｋ個のパーティション）に分割する。いくつかの実施形態では、ｋ－平均クラスタリングは、複数の被験対象に反復して適用される（例えば、ｋ－平均クラスタリングは、複数の被験対象に多数回、例えば連続して、適用される）。いくつかの実施形態では、凝集およびｋ平均クラスタリングの組み合わせの使用は、凝集クラスタリングまたはｋ平均クラスタリング単独のいずれかよりも計算を要求されない。

【0147】

ブロック２１６。ブロック２１６を参照すると、いくつかの実施形態では、標的モデルは、畳み込みニューラルネットワークである。

【0148】

いくつかの実施形態では（例えば、少なくとも１つの標的対象が、活性部位を有するポリマーであり、被験対象が、化学組成物である場合）、それぞれの標的対象に対して提示される被験対象の記述は、被験対象の原子表現をポリマーの活性部位の原子表現にドッキングすることによって取得される。そのようなドッキングの非限定的な例は、ＬｉｕａｎｄＷａｎｇ，１９９９，“ＭＣＤＯＣＫ：ＡＭｏｎｔｅＣａｒｌｏｓｉｍｕｌａｔｉｏｎａｐｐｒｏａｃｈｔｏｔｈｅｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｐｒｏｂｌｅｍ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ－ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ１３，４３５－４５１、Ｓｈｏｉｃｈｅｔｅｔａｌ．，１９９２，“Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｕｓｉｎｇｓｈａｐｅｄｅｓｃｒｉｐｔｏｒｓ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１３（３），３８０－３９７、Ｋｎｅｇｔｅｌｅｔａｌ．，１９９７“Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｔｏｅｎｓｅｍｂｌｅｓｏｆｐｒｏｔｅｉｎｓｔｒｕｃｔｕｒｅｓ，”ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６６，４２４－４４０、Ｍｏｒｒｉｓｅｔａｌ．，２００９，“ＡｕｔｏＤｏｃｋ４ａｎｄＡｕｔｏＤｏｃｋＴｏｏｌｓ４：ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇｗｉｔｈＳｅｌｅｃｔｉｖｅＲｅｃｅｐｔｏｒＦｌｅｘｉｂｉｌｉｔｙ，”ＪＣｏｍｐｕｔＣｈｅｍ３０（１６），２７８５－２７９１、Ｓｏｔｒｉｆｆｅｒｅｔａｌ．，２０００，“Ａｕｔｏｍａｔｅｄｄｏｃｋｉｎｇｏｆｌｉｇａｎｄｓｔｏａｎｔｉｂｏｄｉｅｓ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，”Ｍｅｔｈｏｄｓ：ＡＣｏｍｐａｎｉｏｎｔｏＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ２０，２８０－２９１、Ｍｏｒｒｉｓｅｔａｌ．，１９９８，“ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇＵｓｉｎｇａＬａｍａｒｃｋｉａｎＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍａｎｄＥｍｐｉｒｉｃａｌＢｉｎｄｉｎｇＦｒｅｅＥｎｅｒｇｙＦｕｎｃｔｉｏｎ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１９：１６３９－１６６２、およびＲａｒｅｙｅｔａｌ．，１９９６，“ＡＦａｓｔＦｌｅｘｉｂｌｅＤｏｃｋｉｎｇＭｅｔｈｏｄＵｓｉｎｇａｎＩｎｃｒｅｍｅｎｔａｌＣｏｎｓｔｒｕｃｔｉｏｎＡｌｇｏｒｉｔｈｍ，”ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６１，４７０－４８９に開示されており、これらの各々は、参照により本明細書に組み込まれる。次いで、少なくとも１つの標的対象に対するこのそれぞれの被験対象のこのポーズの記述が、標的モデルに適用される。いくつかのそのような実施形態では、被験対象は、化学化合物であり、それぞれの標的対象は、結合ポケットを有するポリマーを含み、それぞれの標的対象に対して被験対象の記述を提示することは、化学化合物のためにモデル化された原子座標を結合ポケットのための原子座標にドッキングすることを含む。

【0149】

いくつかの実施形態では、各被験対象は、１つ以上の標的対象に対して提示され、かつ米国特許第１０，５４６，２３７号、同第１０，４８２，３５５号、同第１０，００２，３１２号、および同第９，３７３，０５９号に開示された技術のいずれかを使用して標的モデルに提示される化学化合物であり、これらの各々は、参照により本明細書に組み込まれる。

【0150】

いくつかの実施形態では、畳み込みニューラルネットワークは、２０１８年６月１９日に発行された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＡｐｐｌｙｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｔｏＳｐａｔｉａｌＤａｔａ」と題された米国特許第１０，００２，３１２号に記載されているように、入力層、複数の個々に重み付けされた畳み込み層、および出力スコアラを含み、これは、その全体が本明細書に組み込まれる。例えば、いくつかのそのような実施形態では、標的モデルの畳み込み層は、初期層および最終層を含む。いくつかの実施形態では、最終層は、線形関数または非線形関数であり得る閾値関数または活性化関数ｆを使用するゲーティングを含み得る。活性化関数は、例えば、整流化線形ユニット（ＲｅＬＵ）活性化関数、漏れありＲｅＬｕ活性化関数、または飽和双曲線正接、恒等、バイナリステップ、ロジスティック、逆正接、ソフトサイン、パラメトリック整流化線形ユニット、指数線形ユニット、ソフトプラス、ベント恒等（ｂｅｎｔｉｄｅｎｔｉｔｙ）、ｓｏｆｔＥｘｐｏｎｅｎｔｉａｌ、シヌソイド、正弦、ガウス、もしくはシグモイド関数、またはそれらの任意の組み合わせなどの他の関数であり得る。

【0151】

入力に応答して、いくつかの実施形態では、入力層は、初期畳み込み層に値を供給する。最終畳み込み層以外の各それぞれの畳み込み層は、いくつかの実施形態では、それぞれの畳み込み層の重みの関数としての中間値と、それぞれの畳み込み層の入力値と、を畳み込み層のうちの別のものに供給する。最終畳み込み層は、いくつかの実施形態では、最終層重みおよび入力値の関数としてスコアラに値を供給する。このようにして、スコアラは、それぞれの被験対象を記述する特徴ベクトル（例えば、米国特許第１０，００２，３１２号に記載されている入力ベクトル）の各々をスコア化してもよく、これらのスコアをまとめて使用して、各それぞれの被験対象の対応する標的結果（例えば、米国特許第１０，００２，３１２号に記載されている分類）を提供する。いくつかの実施形態では、スコアラは、特徴ベクトルの各々に対してそれぞれの単一のスコアを提供し、これらのスコアの加重平均を使用して、各それぞれの被験対象の対応する標的結果を提供する。

【0152】

いくつかの実施形態では、畳み込みニューラルネットワークで使用される層（入力層および出力層を含む）の総数は、約３～約２００の範囲である。いくつかの実施形態では、層の総数は、少なくとも３、少なくとも４、少なくとも５、少なくとも１０、少なくとも１５、または少なくとも２０である。いくつかの実施形態では、層の総数は、最大で２０、最大で１５、最大で１０、最大で５、最大で４、または最大で３である。当業者は、畳み込みニューラルネットワークで使用される層の総数が、この範囲内の任意の値、例えば８層、を有し得ることを認識するであろう。

【0153】

いくつかの実施形態では、畳み込みニューラルネットワークで使用される学習可能なまたは訓練可能なパラメータ、例えば重み付け係数、バイアス、または閾値、の総数は、約１～約１０，０００の範囲である。いくつかの実施形態では、学習可能なパラメータの総数は、少なくとも１、少なくとも１０、少なくとも１００、少なくとも５００、少なくとも１，０００、少なくとも２，０００、少なくとも３，０００、少なくとも４，０００、少なくとも５，０００、少なくとも６，０００、少なくとも７，０００、少なくとも８，０００、少なくとも９，０００、または少なくとも１０，０００である。あるいは、学習可能なパラメータの総数は、１００未満の任意の数、１００～１０，０００の任意の数、または１０，０００よりも大きい数である。いくつかの実施形態では、学習可能なパラメータの総数は、最大１０，０００、最大９，０００、最大８，０００、最大７，０００、最大６，０００、最大５，０００、最大４，０００、最大３，０００、最大２，０００、最大１，０００、最大５００、最大１００、最大１０、または最大１である。当業者は、使用される学習可能パラメータの総数がこの範囲内の任意の値を有し得ることを認識するであろう。

【0154】

畳み込みニューラルネットワークは、固定入力サイズを必要とするため、標的モデルのための畳み込みニューラルネットワークを利用する開示されるシステムおよび方法のいくつかの実施形態は、幾何学的データ（標的対象－被験対象複合体）を、適切な境界ボックス内に適合するようにクロップする。例えば、側面に対して２５～４０Åの立方体を使用してもよい。標的対象および／または被験対象が標的対象の活性部位にドッキングされたいくつかの実施形態では、活性部位の中心は、キューブの中心として機能する。

【0155】

いくつかの実施形態では、標的対象の活性部位を中心とする固定寸法の正方形の立方体を使用して、空間をボクセルグリッドに分割するが、開示されるシステムは、そのようには限定されない。いくつかの実施形態では、多様な形状のいずれかを使用して、空間をボクセルグリッドに分割する。いくつかの実施形態では、矩形プリズム、多面体形状などの多面体を使用して、空間を分割する。

【0156】

実施形態では、グリッド構造は、ボクセルの配置に類似するように構成されてもよい。例えば、各サブ構造は、分析される各原子のチャネルと関連付けられ得る。また、各原子を数値的に表すための符号化方法が提供されてもよい。

【0157】

いくつかの実施形態では、被験対象と標的対象との間のインターフェースを記述するボクセルマップは、時間の要因を考慮し、したがって、四次元（Ｘ、Ｙ、Ｚ、および時間）であってもよい。

【0158】

いくつかの実施形態では、ボクセルの代わりに、画素、点、多角形形状、多面体、または多次元の任意の他のタイプの形状（例えば、３Ｄ、４Ｄなどの形状）などの他の実装態様を使用してもよい。

【0159】

いくつかの実施形態では、幾何学データは、空洞浸水アルゴリズムによって決定されるように、標的対象の結合部位の質量の中心となるようにＸ、ＹおよびＺ座標の原点を選択することによって正規化される。そのようなアルゴリズムの代表的な詳細については、ＨｏａｎｄＭａｒｓｈａｌｌ，１９９０，“Ｃａｖｉｔｙｓｅａｒｃｈ：Ａｎａｌｇｏｒｉｔｈｍｆｏｒｔｈｅｉｓｏｌａｔｉｏｎａｎｄｄｉｓｐｌａｙｏｆｃａｖｉｔｙ－ｌｉｋｅｂｉｎｄｉｎｇｒｅｇｉｏｎｓ，”ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ－ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ４，ｐｐ．３３７－３５４、およびＨｅｎｄｌｉｃｈｅｔａｌ．，１９９７，“Ｌｉｇｓｉｔｅ：ａｕｔｏｍａｔｉｃａｎｄｅｆｆｉｃｉｅｎｔｄｅｔｅｃｔｉｏｎｏｆｐｏｔｅｎｔｉａｌｓｍａｌｌｍｏｌｅｃｕｌｅ－ｂｉｎｄｉｎｇｓｉｔｅｓｉｎｐｒｏｔｅｉｎｓ，”Ｊ．Ｍｏｌ．Ｇｒａｐｈ．Ｍｏｄｅｌ１５，ｎｏ．６を参照されたく、これは、参照により本明細書に組み込まれる。あるいは、いくつかの実施形態では、ボクセルマップの原点は、（標的対象に結合された被験対象の、標的対象のみの、または被験対象のみの）共複合体全体の質量中心を中心とする。基底ベクトルは、任意選択で、共複合体全体の、標的対象のみの、または被験対象のみの主モーメントとなるように選定されてもよい。いくつかの実施形態では、標的対象は、活性部位を有するポリマーであり、サンプリングは、活性部位の質量中心を原点とする三次元グリッド式で、被験対象および活性部位のための上述の複数の異なるポーズ中のそれぞれのポーズの各々において被験対象をサンプリングし、サンプリングのための対応する三次元均一ハニカムは、ポリマーの一部分および質量中心を中心とする被験対象を表す。いくつかの実施形態では、均一なハニカムは、規則的な立方体のハニカムであり、ポリマーおよび被験対象の部分は、所定の固定寸法の立方体である。所定の固定寸法のキューブの使用は、そのような実施形態では、幾何学データの関連する部分が使用され、各ボクセルマップが同じサイズであることを保証する。いくつかの実施形態では、立方体の所定の固定寸法は、ＮÅ×ＮÅ×ＮÅであり、Ｎは、５～１００の整数または実数値、８～５０の整数、または１５～４０の整数である。いくつかの実施形態では、均一なハニカムは、矩形プリズムハニカムであり、ポリマーの一部分であり、被験対象は、矩形プリズムの所定の固定寸法ＱÅｘＲÅｘＳÅであり、式中、Ｑは、５～１００の第１の整数であり、Ｒは、５～１００の第２の整数であり、Ｓは、５～１００の第３の整数または実数値であり、セット｛Ｑ，Ｒ，Ｓ｝の少なくとも１つの数字は、セット｛Ｑ，Ｒ，Ｓ｝の別の値に等しくない。

【0160】

いくつかの実施形態では、あらゆるボクセルが、１つ以上の入力チャネルを有し、１つ以上の入力チャネルは、それらと関連付けられた様々な値を有し得、この値は、一実装態様では、オン／オフであり得、原子のタイプを符号化するように構成され得る。原子タイプは、原子の元素を表してもよいし、原子タイプは、他の原子特徴を区別するためにさらに精緻化されてもよい。次いで、存在する原子は、各ボクセルに符号化されてもよい。様々なタイプの符号化が、様々な技術および／もしくは方法論を使用して利用されてもよい。例示的な符号化方法として、原子の原子番号が利用されてもよく、水素の１からウンウンオクチウム（または任意の他の元素）の１１８までの範囲をとる、ボクセル当たり１つの値が得られる。

【0161】

ただし、上で考察されたように、「ワンホットエンコーディング」などの他の符号化方法が利用されてもよく、この場合に、あらゆるボクセルが、多くの並列入力チャネルを有し、それらの各々は、あるタイプの原子について、オンまたはオフのいずれかであり、符号化する。原子タイプは、原子の元素を表してもよく、原子タイプは、他の原子特徴を区別するためにさらに精緻化されてもよい。例えば、ＳＹＢＹＬ原子タイプは、単結合炭素を二重結合炭素、三重結合炭素、または芳香族炭素と区別する。ＳＹＢＹＬ原子タイプについては、Ｃｌａｒｋｅｔａｌ．，１９８９，“ＶａｌｉｄａｔｉｏｎｏｆｔｈｅＧｅｎｅｒａｌＰｕｒｐｏｓｅＴｒｉｐｏｓＦｏｒｃｅＦｉｅｌｄ，１９８９，Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．１０，ｐｐ．９８２－１０１２を参照されたく、これは、参照により本明細書に組み込まれる。

【0162】

いくつかの実施形態では、各ボクセルは、標的対象の一部である原子または被験対象の一部に対する補因子を区別するための１つ以上のチャネルをさらに含む。例えば、一実施形態では、各ボクセルは、標的対象のための第１のチャネル、および被験対象のための第２のチャネルをさらに含む。ボクセルによって表される空間の一部分の原子が標的対象からのものである場合、第１のチャネルは、「１」などの値に設定され、それ以外の場合はゼロである（例えば、ボクセルによって表される空間のこの部分は、被験対象からの原子を含まないか、または１つ以上の原子を含むため）。さらに、ボクセルによって表される空間の一部分の原子が被験対象からのものである場合、第２のチャネルは、「１」などの値に設定され、それ以外の場合はゼロである（例えば、ボクセルによって表される空間のこの部分は、標的対象からの原子を含まないか、または１つ以上の原子を含むため）。同様に、他のチャネルは、加えて（またはあるいは）、部分電荷、分極性、電気陰性度、溶媒アクセス可能空間、および電子密度などのさらなる情報を指定し得る。例えば、いくつかの実施形態では、標的対象の電子密度マップは、三次元座標のセットを重ね合わせ、ボクセルマップの作成は、電子密度マップをさらにサンプリングする。好適な電子密度マップの例としては、限定されるものではないが、複数の同形置換マップ、異常信号マップとの単一同形置換、単一波長異常分散マップ、多波長異常分散マップ、および２Ｆ_{ｏｂｓｅｒｖａｂｌｅ}－Ｆ_{ｃａｌｃｕｌａｔｅｄ}マップが挙げられる。ＭｃＲｅｅ，１９９３，ＰｒａｃｔｉｃａｌＰｒｏｔｅｉｎＣｒｙｓｔａｌｌｏｇｒａｐｈｙ，ＡｃａｄｅｍｉｃＰｒｅｓｓを参照されたく、これは、参照により本明細書に組み込まれる。

【0163】

いくつかの実施形態では、開示されるシステムおよび方法に従うボクセル符号化は、追加の任意選択の符号化精緻化を含み得る。以下の２つが、例として提供される。

【0164】

第１の符号化精緻化では、必要とされるメモリは、ほとんどの元素が生物学的システムではまれにしか発生しないことに基づいて、ボクセルによって表される原子のセットを削減することによって（例えば、ボクセルによって表されるチャネルの数を削減することによって）削減され得る。原子は、希少な原子を組み合わせること（したがって、システムの性能にまれにしか影響を与えない可能性がある）、または類似の特性を有する原子を組み合わせること（したがって、組み合わせからの不正確さを最小限に抑え得る）のいずれかによって、ボクセル中で同じチャネルを共有するようにマッピングされ得る。

【0165】

別の符号化精緻化は、ボクセルが、隣接するボクセルを部分的に活性化することによって原子位置を表すようにすることである。このことは、後続のニューラルネットワークにおける隣接ニューロンの部分的な活性化をもたらし、ワンホットエンコーディングから「いくつかの暖かい」符号化に移行する。例えば、このことは、ファンデルワールス径が３．５Åであり、したがって、１Å^３グリッドが配置されたときの体積が２２．４Å^３である塩素原子を考慮すると、塩素原子内部のボクセルは完全に満たされ、原子の端のボクセルは部分的に満たされることとなるだけであることを例示し得る。したがって、部分的に充填されたボクセル中の塩素を表すチャネルは、そのようなボクセルが塩素原子内部に入る量に比例してオンになることとなる。例えば、ボクセル体積の５０％が塩素原子内にある場合、塩素を表すボクセル中のチャネルが５０％活性化されることとなる。このことは、個別のワンホットエンコーディングと比較して、「平滑化された」より正確な表現をもたらし得る。したがって、いくつかの実施形態では、被験対象は、第１の化合物であり、標的対象は、第２の化合物であり、サンプリングで生じる原子の特徴は、それぞれのボクセルマップのボクセルのサブセットにわたって広がっており、このボクセルのサブセットは、２以上のボクセル、３以上のボクセル、５以上のボクセル、１０以上のボクセル、または２５以上のボクセルを含む。いくつかの実施形態では、原子の特性は、原子タイプ（例えば、ＳＹＢＹＬ原子タイプのうちの１つ）の列記からなる。

【0166】

したがって、符号化された幾何学データのボクセル化（ラスタ化）（被験対象上への標的対象のドッキング）は、入力データに適用される様々なルールに基づいている。

【0167】

図６および７は、いくつかの実施形態による、ボクセルの二次元グリッド６００上に符号化された２つの被験対象６０２の図を提供する。図６は、二次元グリッド上に重畳された２つの被験対象を提供する。図７は、異なるシェーディングパターンを使用して酸素、窒素、炭素、および空き空間の存在をそれぞれ符号化するワンホット符号化を提供する。上記に書き留めたように、そのような符号化は、「ワンホット」符号化と呼ばれ得る。図７は、被験対象５０２を省略した図６のグリッド５００を示す。図８は、ボクセルが番号付けされた、図７のボクセルの二次元グリッドの図を示す。

【0168】

いくつかの実施形態では、特徴幾何学形状は、ボクセル以外の形態で表される。図９は、特徴（例えば、原子中心）が０－Ｄ点（表現９０２）、１－Ｄ点（表現９０４）、２－Ｄ点（表現９０６）、または３－Ｄ点（表現９０８）として表現される様々な表現の図を提供する。最初に、点間の間隔は、ランダムに選定され得る。ただし、標的モデルを訓練すると、ポイントは、ともに近づくか、または遠ざかり得る。図１０は、各点の可能な位置の範囲を例示している。

【0169】

被験対象と標的対象との間の相互作用がボクセルマップとして符号化される実施形態では、各ボクセルマップは、任意選択で、対応するベクトルに展開され、それによって複数のベクトルを作成し、複数のベクトル中の各ベクトルは、同じサイズである。いくつかの実施形態では、複数のベクトル中の各ベクトルは、一次元ベクトルである。例えば、いくつかの実施形態では、各側面上の２０Åの立方体は、標的対象の活性部位を中心とし、１Åの三次元固定グリッド間隔でサンプリングされて、上で考察されたように、原子タイプなどのボクセル構造特徴の基礎をそれぞれのチャネルに保持するボクセルマップの対応するボクセル、ならびに任意選択で、より複雑な被験対象－標的対象記述子を形成する。いくつかの実施形態では、この三次元ボクセルマップのボクセルは、一次元浮動小数点ベクトルに展開される。標的モデルが畳み込みニューラルネットワークであるいくつかの実施形態では、ボクセルマップのベクトル化された表現は、畳み込みネットワークに供される。

【0170】

いくつかの実施形態では、複数の畳み込み層中の畳み込み層は、フィルタのセット（カーネルとも称される）を含む。各フィルタは、畳み込み層の入力ボリュームの深さ、高さ、および幅にわたって畳み込まれる（所定のステップレートでステップする）固定された三次元サイズを有し、フィルタおよび入力のエントリ（重み）の間のドット積（または他の関数）を計算し、それによってそのフィルタの多次元活性化マップを作成する。いくつかの実施形態では、フィルタ・ステップ・レートは、入力空間の１つの要素、２つの要素、３つの要素、４つの要素、５つの要素、６つの要素、７つの要素、８つの要素、９つの要素、１０個の要素、または１０個よりも多い要素である。したがって、フィルタがサイズ５^３の場合を考える。いくつかの実施形態では、このフィルタは、ボクセルチャネル当たり１２５の入力空間の値の総計数に対して、５つの要素の深さ、５つの要素の幅、および５つの要素の高さを有する入力空間の連接立方体間のドット積（または他の数学的関数）を計算する。

【0171】

初期畳み込み層への入力空間（例えば、入力層からの出力）は、ボクセルマップまたはボクセルマップのベクトル化された表現のいずれかから形成される。いくつかの実施形態では、ボクセルマップのベクトル化された表現は、初期畳み込み層への入力空間として機能するボクセルマップの一次元ベクトル化表現である。それにもかかわらず、フィルタがその入力空間を畳み込み、入力空間がボクセルマップの一次元ベクトル化表現である場合、フィルタは依然として、標的対象－被験対象複合体内の固定空間の対応する連接立方体を表すそれらの要素を一次元ベクトル化表現から取得する。いくつかの実施形態では、フィルタは、標準的なブックキーピング技術を使用して、標的対象－被験対象複合体の固定空間の対応する連接立方体を形成する一次元ベクトル化表現内からそれらの要素を選択する。したがって、いくつかの事例では、このことは、標的対象－被験対象複合体の固定空間の対応する連接立方体の要素値を取得するために、一次元ベクトル化表現の要素の非連接サブセットを取ることを必然的に含む。

【0172】

いくつかの実施形態では、フィルタは、（例えば、ガウスノイズに）初期化されるか、または（入力チャネルごとに）１２５の対応する重みを有するように訓練され、ドット積（または、フィルタに対応する活性化層の第１の単一の値（または値のセット）を計算するために、１２５の入力空間値の関数などのいくつかの他の形式の数学的演算）を行う。いくつかの実施形態では、フィルタによって計算される値は、合計され、重み付けされ、かつ／またはバイアスされる。フィルタに対応する活性化層の追加の値を計算するために、次いで、フィルタは、フィルタに関連付けられたステップレート（ストライド）によって入力ボリュームの３つの次元のうちの１つにステップされ（畳み込まれ）、その時点で、フィルタ重みと（チャネル当たりの）１２５の入力空間値との間のドット積または何らかの他の形態の数学的演算が入力ボリュームの新しい位置で行われる。このステッピング（畳み込み）は、フィルタがステップレートに従って入力空間全体をサンプリングするまで繰り返される。いくつかの実施形態では、入力空間の境界は、畳み込み層によって生成される出力空間の空間体積を制御するためにゼロパディングされる。典型的な実施形態では、畳み込み層のフィルタの各々は、このようにして三次元入力ボリューム全体をキャンバス化し、それによって、対応する活性化マップを形成する。畳み込み層のフィルタからの活性化マップのコレクションは、１つの畳み込み層の三次元出力ボリュームをまとめて形成し、それによって、後続の畳み込み層の三次元（３つの空間次元）入力として機能する。したがって、出力ボリュームのあらゆるエントリを、畳み込み層への入力空間の小さな領域を見て、同じ活性化マップのニューロンとパラメータを共有する単一のニューロン（またはニューロンのセット）の出力と解釈することもできる。よって、いくつかの実施形態では、複数の畳み込み層中の畳み込み層は、複数のフィルタを有し、複数のフィルタ中の各フィルタは、（３つの空間次元で）ストライドＹでＮ^３の立方体入力空間を畳み込み、式中、Ｎは、２以上（例えば、２、３、４、５、６、７、８、９、１０、または１０よりも大きい）の整数であり、Ｙは、正の整数（例えば、１、２、３、４、５、６、７、８、９、１０、または１０よりも大きい）である。

【0173】

複数の畳み込み層中の各層は、重みの異なるセットと関連付けられている。より具体的には、複数の畳み込み層中の各層は、複数のフィルタを含み、各フィルタは、独立した複数の重みを含む。いくつかの実施形態では、畳み込み層は、寸法５^３の１２８個のフィルタを有し、したがって、畳み込み層は、ボクセルマップのチャネルごとに１２８×５×５または１６，０００の重みを有する。したがって、ボクセルマップに５つのチャネルがある場合、畳み込み層は、１６，０００×５の重み、または８０，０００の重みを有することとなる。いくつかの実施形態では、所与の畳み込み層のあらゆるフィルタのいくつかまたはすべてのそのような重み（および任意選択で、バイアス）は、一緒に結び付けられ得、例えば、同一であるように拘束され得る。

【0174】

複数のベクトル中のそれぞれのベクトルの入力に応答して、入力層は、それぞれのベクトルの値の第１の関数として、第１の複数の値を初期畳み込み層に供給する。

【0175】

最終畳み込み層以外の各それぞれの畳み込み層は、中間値を、（ｉ）それぞれの畳み込み層と関連付けられた重みの異なるセットと、（ｉｉ）それぞれの畳み込み層によって受け取られた入力値と、のそれぞれの第２の関数として、複数の畳み込み層中の別の畳み込み層に供給する。例えば、それぞれの畳み込み層の各それぞれのフィルタは、畳み込み層の特徴的な三次元ストライドに従って、各それぞれのフィルタ位置で、（３つの空間次元で）畳み込み層への入力ボリュームをキャンバスし、それぞれのフィルタのフィルタ重みのドット積（またはいくつかの他の数学的関数）と、それぞれのフィルタ位置での入力ボリューム（総入力空間のサブセットである連接立方体）の値とを取り、それによって、それぞれのフィルタ位置に対応する活性化層上の計算された点（または点のセット）を生成する。それぞれの畳み込み層のフィルタの活性化層は、それぞれの畳み込み層の中間値を集合的に表す。

【0176】

最終畳み込み層は、最終値を、（ｉ）最終畳み込み層と関連付けられた重みの異なるセットと、（ｉｉ）最終畳み込み層によって受け取られた入力値と、の第３の関数として、スコアラに供給する。例えば、最終畳み込み層の各それぞれのフィルタは、畳み込み層の特徴的な三次元ストライドに従って、各それぞれのフィルタ位置で、入力ボリューム（３つの空間次元で）を最終畳み込み層までキャンバスし、フィルタのフィルタ重みのドット積（またはいくつかの他の数学的関数）と、それぞれ位置での入力ボリュームの値とを取り、それによって、それぞれのフィルタ位置に対応するアクティブ化層上の点（または点のセット）を計算する。最終畳み込み層のフィルタの活性化層は、スコアラに供給される最終値を集合的に表す。

【0177】

いくつかの実施形態では、畳み込みニューラルネットワークは、１つ以上の活性化層を有する。いくつかの実施形態では、活性化層は、非飽和活性化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）を適用するニューロンの層である。これは、畳み込み層の受容野に影響を与えることなく、決定関数およびネットワーク全体の非線形特性を増加させる。他の実施形態では、活性化層は、非線形性を増加させるための他の関数、例えば、飽和双曲線正接関数ｆ（ｘ）＝ｔａｎｈ、ｆ（ｘ）＝│ｔａｎｈ（ｘ）│、およびシグモイド関数ｆ（ｘ）＝（１＋ｅ^－ｘ）^－１を有する。ニューラルネットワークのいくつかの実施形態では、他の活性化層に見出される他の活性化関数の非限定的な例としては、限定されるものではないが、ロジスティック（またはシグモイド）、ソフトマックス、ガウス、ボルツマン加重平均化、絶対値、線形、整流化線形、有界整流化線形、ソフト整流化線形、パラメータ化整流化線形、平均、最大、最小、いくつかのベクトルノルムＬＰ（ｐ＝１、２、３、．．．、∞について）、二乗、平方根、多項式、逆二次曲線、逆多項式、多調和スプライン、薄板スプラインが挙げられ得る。

【0178】

いくつかの実施形態では、標的モデルの層のうちのゼロ個以上（標的モデルが畳み込みニューラルネットワークである実施形態では）は、プーリング層から構成されてもよい。畳み込み層でのように、プーリング層は、入力の異なる空間的に局所的なパッチに同じ関数を適用する関数計算のセットである。プーリング層について、出力は、いくつかのボクセルにわたって、プーリング演算子、例えばｐ＝１、２、３、．．．、∞についてのいくつかのベクトルノルムＬＰ、によって与えられる。プーリングは、通常、チャネル間ではなくチャネルごとに行われる。プーリングは、入力空間を三次元ボックスのセットに分割し、そのような各サブ領域に対して、最大値を出力する。プーリング演算は、並進不変性の一形態を提供する。プーリング層の機能は、表現の空間サイズを徐々に縮小して、ネットワーク内のパラメータおよび計算の量を削減し、したがって、オーバーフィッティングも制御することである。いくつかの実施形態では、プーリング層は、畳み込みニューラルネットワークの形態である標的モデル内の連続畳み込み層の間に挿入される。そのようなプーリング層は、入力のあらゆる深さスライス上で独立して動作し、空間的にそのサイズを変更する。プーリングユニットは、最大プーリングに加えて、平均プーリングまたはさらにはＬ２ノルムプーリングなどの他の機能も実行することができる。

【0179】

いくつかの実施形態では、標的モデルの層のうちのゼロ個以上（標的モデルが畳み込みニューラルネットワークである実施形態では）は、同じ位置のチャネルにわたって、またはいくつかの位置にわたる特定のチャネルに適用され得る、局所応答正規化または局所コントラスト正規化などの正規化層からなり得る。これらの正規化層は、同じ入力に対するいくつかの関数計算の応答における多様性を促進し得る。

【0180】

いくつかの実施形態では、スコアラ（標的モデルが畳み込みニューラルネットワークである実施形態では）は、複数の全結合層および複数の全結合層中の全結合層が評価層に供給する評価層を含む。全結合層のニューロンは、通常のニューラルネットワークに見られるように、前の層のすべての活性化に対する全結合を有する。したがって、それらの活性化を、行列の乗算と続くバイアスオフセットとで計算することができる。いくつかの実施形態では、各全結合層は、５１２個の隠れたユニット、１０２４個の隠れたユニット、または２０４８個の隠れたユニットを有する。いくつかの実施形態では、スコアラには、全結合層がない、１つの全結合層、２つの全結合層、３つの全結合層、４つの全結合層、５つの全結合層、６つ以上の全結合層、または１０個以上の全結合層がある。

【0181】

いくつかの実施形態では、評価層は、複数の活性クラスを判別する。いくつかの実施形態では、評価層は、２つの活性クラス、３つの活性クラス、４つの活性クラス、５つの活性クラス、または６つ以上の活性クラスにわたるロジスティック回帰コスト層を含む。

【0182】

いくつかの実施形態では、評価層は、複数の活性クラスにわたるロジスティック回帰コスト層を含む。いくつかの実施形態では、評価層は、２つの活性クラス、３つの活性クラス、４つの活性クラス、５つの活性クラス、または６つ以上の活性クラスにわたるロジスティック回帰コスト層を含む。

【0183】

いくつかの実施形態では、評価層は、２つの活性クラスを判別し、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値を下回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩである。そのようないくつかの実施形態では、標的結果は、被験対象が第１の活性または第２の活性を有することの表示である。いくつかの実施形態では、第１の結合値は、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、または１ミリモルである。

【0184】

いくつかの実施形態では、評価層は、２つの活性クラスにわたるロジスティック回帰コスト層を含み、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値を下回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩである。そのようないくつかの実施形態では、標的結果は、被験対象が第１の活性または第２の活性を有することの表示である。いくつかの実施形態では、第１の結合値は、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、またはミリモルである。

【0185】

いくつかの実施形態では、評価層は、３つの活性クラスを判別し、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値と第２の結合値との間の標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、第３の活性クラス（第３の分類）は、第２の結合値を下回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、第１の結合値は、第２の結合値以外である。そのようないくつかの実施形態では、標的結果は、被験対象が第１の活性、第２の活性、または第３の活性を有することの表示である。

【0186】

いくつかの実施形態では、評価層は、３つの活性クラスにわたるロジスティック回帰コスト層を含み、第１の活性クラス（第１の分類）は、第１の結合値を上回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを表し、第２の活性クラス（第２の分類）は、第１の結合値と第２の結合値との間の標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、第３の活性クラス（第３の分類）は、第２の結合値を下回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、第１の結合値は、第２の結合値以外である。そのようないくつかの実施形態では、標的結果は、被験対象が第１の活性、第２の活性、または第３の活性を有することの表示である。

【0187】

いくつかの実施形態では、スコアラ（標的モデルが畳み込みニューラルネットワークである実施形態では）は、全結合単層または多層パーセプトロンを含む。いくつかの実施形態では、スコアラは、サポート・ベクタ・マシン、ランダムフォレスト、最近傍を含む。いくつかの実施形態では、スコアラは、入力を様々な出力カテゴリに分類する強度（または確信度または確率）を示す数値スコアを割り当てる。いくつかの場合では、カテゴリは、結合剤および非結合剤、または代替的に、効力レベル（例えば、＜１モル、＜１ミリモル、＜１００マイクロモル、＜１０マイクロモル、＜１マイクロモル、＜１００ナノモル、＜１０ナノモル、＜１ナノモルのＩＣ_５０、ＥＣ_５０またはＫＩ効力）である。いくつかのそのような実施形態では、標的結果は、表示が被験対象のこれらのカテゴリのうちの１つの識別であるということである。

【0188】

被検対象と標的対象との複合体の標的モデルの標的結果を取得するための詳細について上述してきた。上で考察されたように、いくつかの実施形態では、各被験対象は、標的対象に対して複数のポーズにドッキングされる。すべてのそのようなポーズを標的モデルに一度に提示するには、極めて大きな入力野（例えば、標的モデルが畳み込みニューラルネットワークである場合のボクセル数＊チャネル数＊ポーズ数に等しいサイズの入力野）が必要であり得る。いくつかの実施形態では、すべてのポーズが標的モデルに同時に提示されるが、他の実施形態では、各そのようなポーズは、ボクセルマップに処理され、ベクトル化され、標的モデルへの逐次入力として機能する（例えば、標的モデルが畳み込みニューラルネットワークである場合）。このようにして、複数のスコアが標的モデルから取得され、複数のスコア中の各スコアは、標的モデルのスコアラの入力層への複数のベクトル中のベクトルの入力に対応する。いくつかの実施形態では、所与の標的対象を有する所与の被験対象のポーズの各々についてのスコアを（例えば、スコアの加重平均として、スコアの中心傾向の尺度としてなど）一緒に組み合わせて、それぞれの被験対象についての最終的な標的結果を生成する。

【0189】

標的モデルのスコアラ出力が数値であるいくつかの実施形態では、出力は、本明細書に記載される活性化関数のいずれかを使用して、または知られているか、もしくは開発される活性化関数のいずれかを使用して組み合わされてもよい。例としては、限定されるものではないが、非飽和活性化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）、飽和双曲線正接関数ｆ（ｘ）＝ｔａｎｈ、ｆ（ｘ）＝｜ｔａｎｈ（ｘ）｜、シグモイド関数ｆ（ｘ）＝（１＋ｅ^－ｘ）^－１、ロジスティック（またはシグモイド）、ソフトマックス、ガウス、ボルツマン加重平均化、絶対値、線形、整流化線形、有界整流化線形、ソフト整流化線形、パラメータ化整流化線形、平均、最大、最小、いくつかのベクトルノルムＬＰ（ｐ＝１、２、３、．．．、∞について）、二乗、平方根、多項式、逆二次曲線、逆多項式、多調和スプライン、薄板スプラインが挙げられ得る。

【0190】

本開示のいくつかの実施形態では、標的モデルは、出力が結合エネルギーを示すと解釈される場合、これがポーズの物理的確率と一致するため、出力を組み合わせるためにボルツマン分布を利用するように構成されてもよい。本開示の他の実施形態では、ｍａｘ（）関数はまた、ボルツマンに合理的な近似を提供し得、計算効率がよい。

【0191】

標的モデルのスコアラ出力が数値でないいくつかの実施形態では、スコアラは、様々なアンサンブル投票スキームを使用して出力を組み合わせるように構成されてもよく、これは、例示的な非限定的な例としては、対応する標的結果を形成するために、とりわけ、多数決、加重平均、コンドルセット法、ボルダ計数を含んでもよい。

【0192】

いくつかの実施形態では、システムは、例えば、結合親和性の指標を生成するために、スコアラのアンサンブルを適用するように構成され得る。

【0193】

いくつかの実施形態では、被験対象は、化学化合物であり、複数のスコア（被験対象の複数のポーズから）を使用して被験対象を特徴付ける（例えば、分類を判定する）ことは、複数のスコアの中心傾向の尺度を取ることを含む。中心傾向の尺度が所定の閾値または所定の閾値範囲を満たすとき、被験対象は、第１の分類を有するとみなされる。集中傾向の尺度が所定の閾値または所定の閾値範囲を満たすに至らない場合、被験対象は、第２の分類を有するとみなされる。いくつかのそのような実施形態では、それぞれの被験対象の標的モデルによって出力される標的結果は、これらの分類のうちの１つの表示である。

【0194】

いくつかの実施形態では、被験対象を特徴付けるために複数のスコアを使用することは、（被験対象の複数のポーズから）複数のスコアの加重平均を取ることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、被験対象は、第１の分類を有するとみなされる。加重平均が所定の閾値または所定の閾値範囲を満たすに至らない場合、被験対象は、第２の分類を有するとみなされる。いくつかの実施形態では、加重平均は、複数のスコアのボルツマン平均である。いくつかの実施形態では、第１の分類は、第１の結合値（例えば、１ナノモル、１０ナノモル、１００ナノモル、１マイクロモル、１０マイクロモル、１００マイクロモル、または１ミリモル）を上回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、第２の分類は、第１の結合値を下回る標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩである。いくつかのそのような実施形態では、それぞれの被験対象の標的モデルによって出力される標的結果は、これらの分類のうちの１つの表示である。

【0195】

いくつかの実施形態では、複数のスコアを使用して被験対象の標的結果を提供することは、（被験対象の複数のポーズから）複数のスコアの加重平均を取ることを含む。加重平均が複数の閾値範囲中のそれぞれの閾値範囲を満たすとき、被験対象は、それぞれの閾値範囲に一意に対応する複数のそれぞれの分類中のそれぞれの分類を有するとみなされる。いくつかの実施形態では、複数の分類中の各それぞれの分類は、標的対象に対する被験対象のＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩ範囲（例えば、１マイクロモル～１０マイクロモル、１ナノモル～１００ナノモル）である。

【0196】

いくつかの実施形態では、所与の標的対象に対する各それぞれの被験対象の単一のポーズは、標的モデルを通して実行され、これに基づくそれぞれの被験対象の各々の標的モデルによって割り当てられたそれぞれのスコアを使用して、被験対象を分類する。

【0197】

いくつかの実施形態では、本明細書に開示される技術を使用して標的モデルによって評価された複数の標的対象の各々に対する被験対象の１つ以上のポーズの標的モデルスコアの加重平均を使用して、被験対象に対する標的結果を提供する。例えば、いくつかの実施形態では、複数の標的対象は、分子動力学ランに由来し、複数の標的対象中の各標的対象は、分子動力学ラン中の異なる時間ステップで同じポリマーを表す。これらの標的対象の各々に対する被験対象の１つ以上のポーズの各々のボクセルマップが、標的モデルによって評価されて、各独立したポーズ－標的対象ペアのスコア、およびこれらのスコアの加重平均を取得するか、またはこれらのスコアの中心傾向のいくつかの他の尺度を使用して、標的対象に対する標的結果を提供する。

【0198】

ブロック２１８。図２Ａのブロック２１８を参照すると、いくつかの実施形態では、少なくとも１つの標的対象は、単一の対象である（例えば、各標的対象は、それぞれの単一の対象である）。いくつかの実施形態では、単一の対象は、ポリマーである。いくつかの実施形態では、ポリマーは、活性部位を含む（例えば、ポリマーは、活性部位を有する酵素である）。いくつかの実施形態では、ポリマーは、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリである。いくつかの実施形態では、単一の対象は、有機金属錯体である。いくつかの実施形態では、単一の対象は、界面活性剤、逆ミセル、またはリポソームである。

【0199】

いくつかの実施形態では、複数の被験対象中の各被験対象は、対応する親和性（例えば、少なくとも１つの標的対象への化学結合を形成するための親和性）を有する少なくとも１つの標的対象の活性部位に結合してもしなくてもよいそれぞれの化学化合物を含む。

【0200】

いくつかの実施形態では、少なくとも１つの標的対象は、少なくとも２つの標的対象、少なくとも３つの標的対象、少なくとも４つの標的対象、少なくとも５つの標的対象、または少なくとも６つの標的対象を含む。いくつかの実施形態では、各標的対象は、上述したように、それぞれの単一の対象（例えば、単一のタンパク質、単一のポリペプチドなど）である。いくつかの実施形態では、少なくとも１つの標的対象の１つ以上の標的対象は、複数の対象（例えば、タンパク質複合体、および／またはリボソームなどの複数のサブユニットを有する酵素）を含む。

【0201】

ブロック２２０。図２Ｂのブロック２２０を参照すると、方法は、少なくともｉ）被験対象のサブセットを独立変数として、かつｉｉ）標的結果の対応するサブセットを従属変数として使用して、初期状態の予測モデルを訓練し、それによって、予測モデルを更新された訓練された状態に更新することによって、進行する。すなわち、予測モデルは、標的モデルの計算費用を発生させることなく、所与の被験化合物についての標的結果（標的モデルスコア）がどうなるかを予測するように訓練される。その上、いくつかの実施形態では、予測モデルは、少なくとも１つの標的対象を利用しない。そのような実施形態では、予測モデルは、被験対象と１つ以上の標的対象との間の相互作用ではなく、被験対象データセットにおける被験対象に提供される情報（例えば、被験対象の化学構造）に単に基づいて標的モデルのスコアを予測しようとする。

【0202】

ブロック２２２を参照すると、いくつかの実施形態では、標的モデルは、それぞれの被験対象を評価する際に第１の計算複雑性を呈し、予測モデルは、それぞれの被験対象を評価する際に第２の計算複雑性を呈し、第２の計算複雑性は、第１の計算複雑性よりも小さい（例えば、予測モデルは、標的モデルが同じ被験対象に対して対応する標的結果を提供するために必要とするよりも、被験対象に対してそれぞれの予測結果を提供するために、より少ない時間および／またはより少ない計算努力を必要とする）。

【0203】

本明細書で使用されるように、「計算複雑性」という語句は、「時間複雑性」という語句と交換可能であり、所与の数のプロセッサでモデルを被験対象および少なくとも１つの標的対象に適用する際に結果を取得するのに必要な時間に関連し、また、各プロセッサが所与の量の処理能力を有する場合に、所与の時間内でモデルを被験対象および少なくとも１つの標的対象に適用する際に結果を取得するのに必要なプロセッサの必要な数にも関連する。したがって、本明細書で使用される場合、計算複雑性は、モデルの予測複雑性を指す。しかしながら、いくつかの実施形態では、標的モデルは、第１の訓練計算複雑性を呈し、予測モデルは、第２の訓練計算複雑性を呈し、第２の訓練計算複雑性は、第１の訓練計算複雑性よりも小さい。以下の表２は、予測を行うためのいくつかの例示的な予測モデルおよびそれらの推定される計算複雑性（予測複雑性）を列挙している。

【表2】

【0204】

表２において、ｐは、分類子の結果を提供する際に分類子によって評価される被験対象の特徴の数であり、ｎ_{ｔｒｅｅｓ}は、木の数であり（様々な木に基づく方法の場合）、Ｏは、関数の成長率の上限を指すＢａｃｈｍａｎｎ－Ｌａｎｄａｕ記法を指す。例えば、ＡｒｏｒａａｎｄＢａｒａｋ，２００９，ＣｏｍｐｕｔａｔｉｏｎａｌＣｏｍｐｌｅｘｉｔｙ：ＡｒｏｒａａｎｄＢａｒａｋ，２００９，ＣｕｍｕｔａｔｕｃａｔｉｏｎＣｏｍｐｌｅｘｉｔｙ：ＡＭｏｄｅｒｎＡｐｐｒｏａｃｈ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，ＣａｍｂｒｉｄｇｅＥｎｇｌａｎｄを参照されたい。対照的に、訓練モデルの一形態である畳み込みニューラルネットワークの総時間複雑性の推定値の１つは、

【数1】

であり、式中、ｌは、畳み込み層のインデックスであり、ｄは、深さ（畳み込み層の数）であり、ｎ_ｌは、第ｌ層のフィルタの数（「幅」としても知られる）であり（ｎ_ｌ－１は、第ｌ層の入力チャネルの数としても知られる）、ｓ_ｌは、フィルタの空間サイズ（長さ）であり、ｍ_ｌは、出力特徴マップの空間サイズである。この時間複雑性は、訓練時間と試験時間との両方に適用されるが、スケールは異なる。被験対象ごとの訓練時間は、被験対象ごとの試験時間のおおよそ３倍（前方伝播に１回、後方伝播に２回）である。ＨｉａｎｄＳｕｎ，２０１４，“ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓａｔＣｏｎｓｔｒａｉｎｅｄＴｉｍｅＣｏｓｔ，”ａｒＸｉｖ：１４１２．１７１０ｖ１［ｃｓ．ＣＶ］４Ｄｅｃ２０１４を参照されたく、これは、参照により本明細書に組み込まれる。したがって、明らかに、畳み込みニューラルネットワークの時間複雑性は、表１に提供される例示的な予測モデルの時間複雑性よりも大きい。

【0205】

ブロック２２４。図２Ｂのブロック２２４を参照すると、いくつかの実施形態では、初期の訓練された状態の予測モデルは、訓練されていないか、または部分的に訓練された分類子を含む。例えば、いくつかの実施形態では、予測モデルは、例えば転移学習技術を使用して、被験対象で、または被験対象データセットにおける複数の被験対象から提供されるデータとは別個の乖離した、被験対象データセットに表されないアッセイデータなどの他の形式のデータで、部分的に訓練される。一例では、予測モデルは、化合物のセットの結合親和性データで部分的に訓練され、そのような化合物は、転移学習技術を使用する被験対象データセットにあってもなくてもよい。

【0206】

ブロック２２６を参照すると、いくつかの実施形態では、更新された訓練された状態の予測モデルは、初期の訓練された状態の予測モデルとは別のものである（例えば、予測モデルの１つ以上の重みが変更された）未訓練の、または部分的に訓練された分類子を含む。既存の分類子を再訓練するか、または更新する能力は、訓練データセットが変更に供される場合（例えば、訓練データセットがクラスのサイズおよび／または数を増加させる場合）、特に有用である。

【0207】

いくつかの実施形態では、ブーストアルゴリズムを使用して、予測モデルを更新（訓練）する。ブーストアルゴリズムは、概して、Ｄａｉｅｔａｌ．２００７“Ｂｏｏｓｔｉｎｇｆｏｒｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ”ｉｎＰｒｏｃ２４ｔｈＩｎｔＣｏｎｆｏｎＭａｃｈＬｅａｒｎによって記載されており、これは、参照により本明細書に組み込まれる。ブーストアルゴリズムは、新しいデータ（例えば、被験対象の追加のサブセット）が予測モデルを再訓練するか、または更新するために使用されるデータセットに追加されたときに、予測モデルを訓練するために以前に使用されたデータ（例えば、被験対象のサブセット）を再加重することを含むことができる。例えば、Ｆｒｅｕｎｄｅｔａｌ．１９９７“Ａｄｅｃｉｓｉｏｎ－ｔｈｅｏｒｅｔｉｃｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｏｎ－ｌｉｎｅｌｅａｒｎｉｎｇａｎｄａｎａｐｐｌｉｃａｔｉｏｎｔｏｂｏｏｓｔｉｎｇ”ＪＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍＳｃｉｅｎｃｅｓ５５（１），１１９－１３９を参照されたく、これは、参照により本明細書に組み込まれる。

【0208】

いくつかの実施形態では、上で考察されたように、初期の訓練された状態の予測モデルに使用されるアルゴリズムのタイプ（例えば、予測モデルが単一の決定木でない場合の）に応じて、転移学習方法を使用して、予測モデルを更新された訓練された状態に更新する（例えば、方法の連続した反復のたびに）。転移学習は、一般に、第１のモデルから第２のモデルへの知識の転移（例えば、第１のセットのタスクから、または第１のデータセットから、第２のセットのタスクまたは第２のデータセットへのいずれかの知識）を伴う。転移学習方法の追加のレビューを、Ｔｏｒｒｅｙｅｔａｌ．２００９“ＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇ”ｉｎｔｈｅＨａｎｄｂｏｏｋｏｆＲｅｓｅａｒｃｈｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇＡｐｐｌｉｃａｔｉｏｎｓ、Ｐａｎｅｔａｌ．２００９“ＡＳｕｒｖｅｙｏｎＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇ”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇｄｏｉ：１０．１１０９／ＴＫＤＥ．２００９．１９１、およびＭｏｌｏｃｈａｎｏｖｅｔａｌ．２０１６”ＰｒｕｎｉｎｇＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＲｅｓｏｕｒｃｅＥｆｆｉｃｉｅｎｔＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇ”ａｒＸｉｖ：１６１１．０６４４０ｖ１に見出すことができ、これらは各々、参照により本明細書に組み込まれる。いくつかの実施形態では、ランダムフォレストの変化形を、動的訓練データセットとともに使用することができる。Ｒｉｓｔｉｎｅｔａｌ．２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），３６５４－３６６１を参照されたく、これは、参照により本明細書に組み込まれる。

【0209】

いくつかの実施形態では、予測モデルは、ランダム・フォレスト・ツリー、複数の多重加法的決定木を含むランダムフォレスト、ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、回帰、ナイーブ・ベイズ・アルゴリズム、またはそれらのアンサンブルを含む。

【0210】

ランダムフォレスト、意思決定木、およびブースト木アルゴリズム。意思決定木は、概して、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ，３９５－３９６によって記載されており、これは、参照により本明細書に組み込まれる。ランダムフォレストは、一般に、決定木のコレクションとして定義される。木ベースのメソッドは、特徴空間を長方形のセットに分割し、各長方形にモデル（定数など）をフィットさせる。いくつかの実施形態では、決定木は、ランダムフォレスト回帰を含む。予測モデルに使用され得る１つの特定のアルゴリズムは、分類および回帰木（ＣＡＲＴ）である。他の特定の決定木アルゴリズムとしては、限定されるものではないが、ＩＤ３、Ｃ４．５、ＭＡＲＴ、およびランダムフォレストが挙げられる。ＣＡＲＴ、ＩＤ３、およびＣ４．５は、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ，３９６－４０８ａｎｄ４１１－４１２に記載されており、これは、参照により本明細書に組み込まれる。ＣＡＲＴ、ＭＡＲＴ、およびＣ４．５は、Ｈａｓｔｉｅｅｔａｌ．，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋ，Ｃｈａｐｔｅｒ９に記載されており、これは、その全体が参照により本明細書に組み込まれる。ランダムフォレスト全般は、Ｂｒｅｉｍａｎ，１９９９，ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ５６７，ＳｔａｔｉｓｔｉｃｓＤｅｐａｒｔｍｅｎｔ，Ｕ．Ｃ．Ｂｅｒｋｅｌｅｙ，Ｓｅｐｔｅｍｂｅｒ１９９９に記載されており、これは、その全体が参照により本明細書に組み込まれる。

【0211】

ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク。様々なニューラルネットワークが、標的モデルおよび／または予測モデルのいずれかもしくは両方として採用されてもよいが、その条件は、予測モデルが標的モデルよりも小さな計算複雑性を有することである。畳み込みニューラルネットワーク（ＣＮＮ）アルゴリズムを含むニューラルネットワークアルゴリズムは、例えば、Ｖｉｎｃｅｎｔｅｔａｌ．，２０１０，ＪＭａｃｈＬｅａｒｎＲｅｓ１１，３３７１－３４０８、Ｌａｒｏｃｈｅｌｌｅｅｔａｌ．，２００９，ＪＭａｃｈＬｅａｒｎＲｅｓ１０，１－４０、およびＨａｓｓｏｕｎ，１９９５，ＦｕｎｄａｍｅｎｔａｌｓｏｆＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＭａｓｓａｃｈｕｓｅｔｔｓＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙに開示されており、これらの各々は、参照により本明細書に組み込まれる。いくつかの実施形態では、限られるものではないが、グラフ・ニューラル・ネットワーク（ＧＮＮ）および密なニューラルネットワーク（ＤＮＮ）を含むが、ニューラルネットワークアルゴリズムの別の変形形態が、予測モデルに使用される。グラフ・ニューラル・ネットワークは、非ユークリッド空間で表されるデータ（例えば、特に複雑性が高いデータセット）に有用である。ＧＮＮの概要は、Ｗｕｅｔａｌ．２０１９“ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙｏｎＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ”ａｒＶｉｘ：１９０１．００５９６、およびＺｈｏｕｅｔａｌ２０１８“ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＡＲｅｖｉｅｗｏｆＭｅｔｈｏｄｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ”ａｒＶｉｘ：１８１２．０８４３４によって提供されている。ＧＮＮを他のデータ分析方法と組み合わせて、薬物の発見を可能にすることができる。例えば、Ａｌｔｒｅ－Ｔｒａｎｅｔａｌ．２０１７“ＬｏｗＤａｔａＤｒｕｇＤｉｓｃｏｖｅｒｙｗｉｔｈＯｎｅ－ＳｈｏｔＬｅａｒｎｉｎｇ”ＡＣＳＣｅｎｔＳｃｉ３，２８３－２９３を参照されたい。密なニューラルネットワークは、一般に、各層に多数のニューロンを含み、Ｍｏｎｔａｖｏｎｅｔａｌ．２０１８“Ｍｅｔｈｏｄｓｆｏｒｉｎｔｅｒｐｒｅｔｉｎｇａｎｄｕｎｄｅｒｓｔａｎｄｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ”ＤｉｇｉｔＳｉｇｎａｌＰｒｏｃｅｓｓ７３，１－１５、およびＦｉｎｎｅｇａｎｅｔａｌ．２０１７“Ｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｅｔｈｏｄｓｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｌｅａｒｎｅｄｆｅａｔｕｒｅｓｏｆｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ”ＰＬｏＳＣｏｍｐｕｔＢｉｏｌ．１３（１０），１００５８３６に記載されており、これらの各々は、参照により本明細書に組み込まれる。

【0212】

主成分分析。主成分分析は、複雑なデータの次元削減のために（例えば、検討中の対象の数を減らすために）しばしば使用されるいくつかの方法のうちの１つである。データクラスタリングにＰＣＡを使用する例は、例えば、ＹｅｕｎｇａｎｄＲｕｚｚｏ２００１“Ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓｆｏｒｃｌｕｓｔｅｒｉｎｇｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ”Ｂｉｏｉｎｆｏｒｍａｔ１７（９），７６３－７７４によって提供されており、これは、参照により本明細書に組み込まれる。主成分は、典型的には、存在する分散の範囲によって順序付けられ（例えば、第１のｎ個の成分のみがノイズの代わりに信号を伝達すると考えられる）、無関係である（例えば、各成分は他の成分に直交する）。

【0213】

最近傍分析。最近傍分析は、典型的には、ユークリッド距離で行われる。最近傍分析の例は、Ｗｅｉｎｂｅｒｇｅｒｅｔａｌ．２００６“Ｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｆｏｒｌａｒｇｅｍａｒｇｉｎｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ”ｉｎＮＩＰＳＭＩＴＰｒｅｓｓ２，３によって提供されている。最近傍分析は、いくつかの実施形態では、大きな訓練データセットを有する設定で有効であるため、有益である。Ｓｏｎａｗａｎｅ２０１５“ＡＲｅｖｉｅｗｏｎＮｅａｒｅｓｔＮｅｉｇｈｂｏｕｒＴｅｃｈｎｉｑｕｅｓｆｏｒＬａｒｇｅＤａｔａ”ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｄｖａｎｃｅｓＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ４（１１），４５９－４６１を参照されたく、これは、参照により本明細書に組み込まれる。

【0214】

線形判別分析。線形判別分析（ＬＤＡ）は、典型的には、被験対象のクラスを特徴付けるか、または別個のクラスを特徴付ける特徴の線形組み合わせを識別するために実行される。ＬＤＡの例は、Ｙｅｅｔａｌ．２００４“Ｔｗｏ－ＤｉｍｅｎｓｉｏｎａｌＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ”ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ１７，１５６９－１５７６，Ｐｒｉｎｃｅｅｔａｌ．２００７“ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓｆｏｒＩｎｆｅｒｅｎｃｅｓａｂｏｕｔＩｄｅｎｔｉｔｙ”１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，１－８によって提供されている。ＬＤＡは、大きいサンプルサイズと小さいサンプルサイズとの両方に適用することができ、高次元で使用することができるため、有益である。Ｋａｉｐａｔｎｅｎ１９９７“ＵｔｉｌｉｚｉｎｇＧｅｏｍｅｔｒｉｃＡｎｏｍａｌｉｅｓｏｆＨｉｇｈＤｉｍｅｎｓｉｏｎ：ＷｈｅｎＣｏｍｐｌｅｘｉｔｙＭａｋｅｓＣｏｍｐｕｔａｔｉｏｎＥａｓｉｅｒ”Ｃｏｍｐｕｔｅｒ－ＩｎｔｅｎｓｉｖｅＭｅｔｈｏｄｓｉｎＣｏｎｔｒｏｌａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２８３－２９４を参照されたい。

【0215】

二次判別分析。二次判別分析（ＱＤＡ）は、ＬＤＡと密接に関連しているが、ＱＤＡでは対象のあらゆるクラスについて個々の共分散行列が推定される。Ｗｕｅｔａｌ．１９９６“Ｃｏｍｐａｒｉｓｏｎｏｆｒｅｇｕｌａｒｉｚｅｄｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ，ｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓａｎｄｑｕａｄｒａｔｉｃｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ，ａｐｐｌｉｅｄｔｏＮＩＲｄａｔａ”ＡｎａｌｙｔｉｃａＣｈｉｍｉｃａＡｃｔａ３２９，２５７－２６５を参照されたい。ＱＤＡの例は、Ｚｈａｎｇ１９９７“Ｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｐｒｏｔｅｉｎｃｏｄｉｎｇｒｅｇｉｏｎｓｉｎｔｈｅｈｕｍａｎｇｅｎｏｍｅｂｙｑｕａｄｒａｔｉｃｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ”ＰＮＡＳ９４，５６５－５６８、Ｚｈａｎｇｅｔａｌ．２００３“Ｓｐｌｉｃｅｓｉｔｅｐｒｅｄｉｃｔｉｏｎｗｉｔｈｑｕａｄｒａｔｉｃｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓｕｓｉｎｇｄｉｖｅｒｓｉｔｙｍｅａｓｕｒｅ”ＮｕｃＡｃｉｄｓＲｅｓ３１（２１），６１２４－６２２０によって提供されており、これらの各々は、参照により本明細書に組み込まれる。ＱＤＡは、Ｗｕｅｔａｌ．１９９６“Ｃｏｍｐａｒｉｓｏｎｏｆｒｅｇｕｌａｒｉｚｅｄｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ，ｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓａｎｄｑｕａｄｒａｔｉｃｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ，ａｐｐｌｉｅｄｔｏＮＩＲｄａｔａ”ＡｎａｌｙｔｉｃａＣｈｉｍｉｃａＡｃｔａ３２９，２５７－２６５に記載されているように、ＬＤＡよりも多くの有効なパラメータを提供するため、有益であり、これは、参照により本明細書に組み込まれる。

【0216】

サポート・ベクタ・マシン。サポート・ベクタ・マシン（ＳＶＭ）アルゴリズムの非限定的な例は、ＣｒｉｓｔｉａｎｉｎｉａｎｄＳｈａｗｅ－Ｔａｙｌｏｒ，２０００“ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，”ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、Ｂｏｓｅｒｅｔａｌ．，１９９２，“Ａｔｒａｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｏｐｔｉｍａｌｍａｒｇｉｎｃｌａｓｓｉｆｉｅｒｓ，”ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＡｎｎｕａｌＡＣＭＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，ＡＣＭＰｒｅｓｓ，Ｐｉｔｔｓｂｕｒｇｈ，Ｐａ．，１４２－１５２、Ｖａｐｎｉｋ，１９９８，ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ；Ｍｏｕｎｔ，２００１，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ｓｅｑｕｅｎｃｅａｎｄｇｅｎｏｍｅａｎａｌｙｓｉｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．、Ｄｕｄａ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，２００１，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，２５９，２６２－２６５、およびＨａｓｔｉｅ，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ、およびＦｕｒｅｙｅｔａｌ．，２０００，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１６，９０６－９１４に記載されており、これらの各々は、参照によりその全体が本明細書に組み込まれる。分類に使用する場合、ＳＶＭは、ラベル付けされたデータから最大限に離れた超平面を用いて、所与のバイナリラベル付けされたデータ訓練セットを分離する。線形分離が不可能な場合、ＳＶＭは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の技術と組み合わせて動作することができる。特徴空間においてＳＶＭによって見出される超平面は、入力空間における非線形決定境界に対応する。

【0217】

線形回帰。本明細書で使用される場合、線形回帰は、単純、多変量、および／または多変量線形回帰分析を包含することができる。線形回帰は、従属変数（スカラー応答としても知られている）と１つ以上の独立変数（説明変数としても知られている）との間の関係をモデリングするための線形アプローチを使用し、したがって、本開示で予測モデルとして使用することができる。Ａｌｔｍａｎｅｔａｌ．２０１５“ＳｉｍｐｌｅＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ”ＮａｔｕｒｅＭｅｔｈｏｄｓ１２，９９９－１０００を参照されたく、これは、参照により本明細書に組み込まれる。関係は、線形予測子関数を使用して予測され、そのパラメータは、線形モデルを使用してデータを推定される。いくつかの実施形態では、単純線形回帰を使用して、従属変数と単一の独立変数との間の関係をモデル化する。単純線形回帰の例を、Ａｌｔｍａｎｅｔａｌ．２０１５“ＳｉｍｐｌｅＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ”ＮａｔｕｒｅＭｅｔｈｏｄｓ１２，９９９－１０００に見出すことができ、これは、参照により本明細書に組み込まれる。

【0218】

いくつかの実施形態では、重線形回帰を使用して、従属変数と複数の独立変数との間の関係をモデル化し、したがって、本開示で予測モデルとして使用することができる。重線形回帰の例を、Ｓｏｕｓａｅｔａｌ．２００７“Ｍｕｌｔｉｐｌｅｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎａｎｄａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｂａｓｅｄｏｎｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔｓｔｏｐｒｅｄｉｃｔｏｚｏｎｅｃｏｎｃｅｎｔｒａｔｉｏｎ”ＥｎｖｉｒｏｎＭｏｄｅｌ＆Ｓｏｆｔ２２（１），９７－１０３に見出すことができ、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、多変量線形回帰を使用して、複数の従属変数と任意の数の独立変数との間の関係をモデル化する。多変量線形回帰の非限定的な例を、Ｗａｎｇｅｔａｌ．２０１６“ＤｉｓｃｒｉｍｉｎａｔｉｖｅＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎｖｉａＭｕｌｔｉｖａｒｉａｔｅＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎｆｏｒＳＳＶＥＰ－ＢａｓｅｄＢＣＩ”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＳｙｓｔｅｍｓａｎｄＲｅｈａｂｉｌｉｔａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ２４（５），５３２－５４１に見出すことができ、これは、参照により本明細書に組み込まれる。

【0219】

ナイーブ・ベイズ・アルゴリズム。ナイーブベイズ分類子（アルゴリズム）は、特徴間の強い（ナイーブな）独立性仮定を伴うベイズの定理を適用することに基づく「確率的分類子」のファミリーである。いくつかの実施形態では、それらは、カーネル密度推定と結合される。Ｈａｓｔｉｅ，Ｔｒｅｖｏｒ，２００１，Ｔｈｅｅｌｅｍｅｎｔｓｏｆｓｔａｔｉｓｔｉｃａｌｌｅａｒｎｉｎｇ：ｄａｔａｍｉｎｉｎｇ，ｉｎｆｅｒｅｎｃｅ，ａｎｄｐｒｅｄｉｃｔｉｏｎ，Ｔｉｂｓｈｉｒａｎｉ，Ｒｏｂｅｒｔ，Ｆｒｉｅｄｍａｎ，Ｊ．Ｈ．（ＪｅｒｏｍｅＨ．），ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒを参照されたく、これは、参照により本明細書に組み込まれる。

【0220】

いくつかの実施形態では、少なくともｉ）被験対象のサブセットを予測モデルの独立変数として、かつｉｉ）標的結果の対応するサブセットを予測モデルの従属変数として使用して、初期の訓練された状態の予測モデルを訓練することは、ｉｉｉ）予測モデルを更新された訓練された状態に更新するために、少なくとも１つの標的対象を予測モデルの独立変数として使用することをさらに含む。

【0221】

ブロック２２８～２３０。図２Ｂのブロック２２８を参照すると、方法は、更新された訓練された状態の予測モデル（例えば、再訓練された予測モデル）を完全な複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することによって進行する。ブロック２３０を参照すると、いくつかの実施形態では、複数の予測結果のインスタンスは、複数の被験対象中の各被験対象のそれぞれの予測結果を含む。このように、対象モデルの高い演算負担およびそれに見合った性能改善と、予測モデルの低い演算負担およびそれに見合った劣った性能と、のバランスが達成される。標的モデルを使用して、被験対象のサブセットのみの標的結果を取得し、それによって、予測モデルを訓練するための訓練セットを形成する。この訓練セットは、より計算的に負担のかかる標的モデルの性能、ならびに少なくとも１つの標的対象と被験対象との間のインタラクションを利用するという事実に起因して、おそらくより正確である。例えば、いくつかの実施形態では、標的対象は、活性部位を有する酵素であり、標的モデルは、被験対象のサブセットの各被験対象と標的対象との間の相互作用をスコア付けする。次いで、訓練セットを使用して、予測モデルを訓練する。したがって、典型的な実施形態では、予測モデルは、訓練セットを使用して訓練され、訓練セットは、被験対象のサブセットの各被験対象の標的モデルスコアを含み、化学データは、被験対象データセットにおける各そのような被験対象のために提供し、これにより、予測モデルは、標的対象を使用することなく（例えば、被験対象を標的対象にドッキングすることなく）標的モデルのスコアを予測することができる。次いで、こうして訓練された予測モデルを完全な複数の被験対象に対して適用して、複数の予測結果のインスタンスを取得する。予測結果のインスタンスは、訓練された予測モデルが、完全な複数の標的対象中の各対象の標的モデルスコアであると予測するスコアを含む。このようにして、ドッキングが同時に起こる、より計算的に負担のかかる標的モデルの性能を十分に活用して、被験データセットにおける被験対象の数を削減するのを支援する。その上、予測モデルの効率を十分に活用して、被験データセットにおける被験対象の数を削減するために、被験対象の各々の被験結果を取得する。

【0222】

ブロック２３２～２３４。図２Ｂのブロック２３２を参照すると、方法は、複数の予測結果のインスタンスに少なくとも部分的に基づいて（例えば、以下に記載される排除基準のいずれかに従って）複数の被験対象から被験対象の一部分を排除することによって進行する。いくつかの実施形態では、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得し（ブロック２１０）、初期の訓練された状態の予測モデルを訓練し（ブロック２２０）、更新された訓練された状態の予測モデルを複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得し（ブロック２２８）、複数の予測結果のインスタンスに少なくとも部分的に基づいて、複数の被験対象から被験対象の一部分を排除すること（ブロック２３２）は、以下のブロック２３６に記載される評価の対象として、数回（例えば、２回、３回、３回超、１０回超、１５回超など）繰り返される反復プロセスである。（各反復において）プロセスが繰り返されるたびに、複数の被験対象に残る被験対象の一部分は、ブロック２２８からの複数の予測結果の最新のインスタンスに少なくとも部分的に基づいて、複数の被験対象から削除される。

【0223】

ブロック２３４を参照すると、いくつかの実施形態では、排除することは、ｉ）複数の被験対象をクラスタ化し、それによって、複数の被験対象中の各被験対象を複数のクラスタ中のそれぞれのクラスタに割り当てることと、ｉｉ）複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて（例えば、複数の被験対象の多様な異なる化学化合物を確実にするために）、複数の被験対象から被験対象のサブセットを排除することと、を含む。言い換えると、そのような実施形態では、ブロック２３２の各反復において、残りの複数の被験対象がクラスタ化される。いくつかの実施形態では、このクラスタ化は、上述したように被験対象の特徴ベクトルに基づいている。いくつかの実施形態では、ブロック２１４に記載されるクラスタリングのいずれかを使用して、ブロック２３４のクラスタ化を実行し得る。ブロック２１４では、そのようなクラスタ化は、標的モデルに対して使用する被験対象のサブセットを選択するために実行されたが、ブロック２３４では、クラスタ化は、複数の被験対象から被験対象を永久に排除するために実行される。ブロック２３４のクラスタ化が、複数の被験対象に残っている被験対象をＱ個のクラスタにクラスタ化する例を考えると、Ｑは、２以上の正の整数（例えば、２、３、４、５、６、７、８、９、１０、１０超、２０超、３０超、１００超など）である。いくつかのそのような実施形態では、これらのクラスタの各々における同じ数の被験対象は、複数の被験対象に保持され、他のすべての被験対象は、複数の被験対象から削除される。このようにして、複数の被験対象に残っている被験対象は、すべてのクラスタにわたってバランスが取られる。

【0224】

ステップ２３２で生成された複数の予測結果は、標的モデルが複数の被験対象について呼び出すであろうことを予測モデルが予測するスコアを表す。

【0225】

スコアリングが、低いスコアほど１つ以上の標的対象に対してより良好な親和性を有する化合物を表すスキームで行われる場合には、高スコアを有するそれらの被験対象を削除することが興味深い。したがって、いくつかの代替実施形態では、クラスタリングは、使用されず、ブロック２３２の排除することは、ｉ）複数の予測結果のインスタンスに基づいて複数の被験対象をランク付けすることと、ｉｉ）複数の被験対象から、閾値カットオフを満たす対応する予測スコアを有するに至らない複数の被験対象中のそれらの被験対象を削除すること（例えば、複数の被験対象に残っている被験対象が高い予測スコアを有することを確実にするために）と、を含む。いくつかの実施形態では、閾値カットオフは、上位閾値パーセンテージ（例えば、複数の予測結果に基づいて最も高くランク付けされる複数の被験対象のパーセンテージ）である。いくつかのそのような実施形態では、上位閾値パーセンテージは、予測結果が複数の予測結果の上位９０パーセント、上位８０パーセント、上位７５パーセント、上位６０パーセント、上位５０パーセント、上位４０パーセント、上位３０パーセント、上位２５パーセント、上位２０パーセント、上位１０パーセント、または上位５パーセントにある、複数の被験対象中の被験対象を表す。そのような実施形態では、被験対象の対応する下位パーセンテージは、さらなる考慮のために複数の被験対象から排除される（例えば、それによって、複数の被験対象中の被験対象の数を削減する）。

【0226】

スコアリングが、高いスコアほど１つ以上の標的対象に対してより良好な親和性を有する化合物を表すスキームで行われる場合には、低スコアを有するそれらの被験対象を削除することが興味深い。したがって、いくつかの代替実施形態では、クラスタリングは、使用されず、ブロック２３２の排除することは、ｉ）複数の予測結果のインスタンスに基づいて複数の被験対象をランク付けすることと、ｉｉ）複数の被験対象から、閾値カットオフを満たす対応する予測スコアを有するに至らない複数の被験対象中のそれらの被験対象を削除すること（例えば、複数の被験対象に残っている被験対象が低い予測スコアを有することを確実にするために）と、を含む。いくつかのそのような実施形態では、閾値カットオフは、下位閾値パーセンテージ（例えば、複数の予測結果に基づいて最も低くランク付けされる複数の被験対象のパーセンテージ）である。いくつかの実施形態では、下位閾値パーセンテージは、予測結果が複数の予測結果の下位９０パーセント、下位８０パーセント、下位７５パーセント、下位６０パーセント、下位５０パーセント、下位４０パーセント、下位３０パーセント、下位２５パーセント、下位２０パーセント、下位１０パーセント、または下位５パーセントにある、複数の被験対象中の被験対象を表す。そのような実施形態では、被験対象の対応する上位パーセンテージは、さらなる考慮のために複数の被験対象から排除される（例えば、それによって、複数の被験対象中の被験対象の数を削減する）。

【0227】

いくつかの実施形態では、排除することの各インスタンス（例えば、方法が複数の被験対象から被験対象の一部分を排除することを繰り返す実施形態では）は、ブロック２３２の特定の反復で複数の被験対象中の被験対象の１０分の１～１０分の９を排除する。いくつかの実施形態では、排除することの各インスタンスは、ブロック２３２の特定の反復で複数の被験対象中に存在する被験対象の５パーセント超、１０パーセント超、１５パーセント超、２０パーセント超、または２５パーセント超を排除する。

【0228】

いくつかの実施形態では、排除することの各インスタンスは、ブロック２３２の特定の反復で、複数の被験対象の５パーセント～３０パーセント、１０パーセント～４０パーセント、１５パーセント～７０パーセント、２０パーセント～５０パーセント、２５パーセント～９０パーセントを排除する。いくつかの実施形態では、排除することの各インスタンスは、ブロック２３２の特定の反復で、複数の被験対象中の４分の１～４分の３の被験対象を排除する。いくつかの実施形態では、排除することの各インスタンスは、ブロック２３２の特定の反復で、複数の被験対象中の４分の１～２分の１の被験対象を排除する。

【0229】

いくつかの実施形態では、排除することの各インスタンス（ブロック２３２）は、複数の被験対象から所定の数（または部分）の被験対象を排除する。例えば、いくつかの実施形態では、排除すること（ブロック２３２）のそれぞれのインスタンスは、排除することのそれぞれのインスタンスで複数の被験対象中にある５パーセントの被験対象を排除する。いくつかの実施形態では、排除することの１つ以上のインスタンスは、異なる数（または部分）の被験対象を排除する。例えば、排除すること（ブロック２３２）の初期インスタンスは、排除すること２３２のこれらの初期インスタンス中に複数の被験対象中にある、複数の被験対象のより高いパーセンテージを排除し得る一方、排除することの後続インスタンスは、排除すること２３２のこれらの後続インスタンス中に複数の被験対象中にある、複数の被験対象のより低いパーセンテージを排除し得る。例えば、初期インスタンスでは複数の被験化合物の１０パーセントを排除する一方で、後続のインスタンスでは複数の被験化合物の５パーセントを排除する。別の例では、排除すること（ブロック２３２）の初期インスタンスは、排除することのこれらの初期インスタンス中に複数の被験対象中にある、複数の被験対象のより低いパーセンテージを排除し得る一方、排除することの後続インスタンスは、排除すること２３２のこれらの後続インスタンス中に複数の被験対象中にある、複数の被験対象のより高いパーセンテージを排除し得る。例えば、排除することの初期インスタンスにおいて、複数の被験化合物の５パーセントを排除する一方、排除すること２３２の後続インスタンスにおいて、複数の被験化合物の１０パーセントを排除する。

【0230】

ブロック２３６。図２Ｃのブロック２３６を参照すると、方法は、１つ以上の事前定義された削減基準が満たされているかどうかを判定することによって進行する。１つ以上の事前定義された削減基準が満たされていない場合、方法は、以下をさらに含む。複数の被験対象中の被験対象の追加のサブセットの各それぞれの各被験対象について、それぞれの被験対象および少なくとも１つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得する（ｉ）。被験対象の追加のサブセットは、少なくとも部分的に複数の予測結果のインスタンス上で選択される。被験対象の追加のサブセットを被験対象のサブセット（例えば、被験対象の以前のサブセット）に組み込むことによって、被験対象のサブセットを更新する（ｉｉ）。標的結果の追加のサブセットを標的結果のサブセットに組み込むことによって、標的結果のサブセットを更新する（ｉｉｉ）。したがって、方法が、標的モデルを実行すること、予測モデルを訓練すること、および予測モデルを実行することを、漸進的に繰り返すにつれて、標的結果のサブセットが成長する。更新（ｉｉ）および更新（ｉｉｉ）の後に、予測モデルを、少なくとも１）独立変数としての被験対象のサブセット、および対応する従属変数としての標的結果の対応するサブセットに適用することによって、予測モデルを修正し（ｉｖ）、それによって、更新された訓練された状態の予測モデルを提供する。適用すること（ブロック２２８）、排除すること（ブロック２３２）、および判定すること（ブロック２３６）は、１つ以上の事前定義された削減基準が満たされるまで繰り返される。

【0231】

いくつかの実施形態では、予測モデルを修正すること（ｉｖ）は、新しい部分的に訓練された予測モデルを再訓練するか、または訓練するかのいずれかを含む。

【0232】

いくつかの実施形態では、１つ以上の事前定義された削減基準が満たされている場合、方法は、ｉ）複数の被験対象をクラスタ化し、それによって、複数のクラスタ中のクラスタに、複数の被験対象中の各被験対象を割り当てることと、ｉｉ）複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から１つ以上の被験対象を排除することと、をさらに含む。

【0233】

いくつかの実施形態では、複数の被験対象をクラスタ化することは、ブロック２１２に関して記載されているように実行される。

【0234】

ブロック２３８を参照すると、いくつかの実施形態では、適用すること（ｉ）は、上述のように、複数の特徴ベクトルから選択された１つ以上の特徴の評価に基づいて、複数の被験対象から１つ以上の被験対象を選択することによって（例えば、多様なクラスタから被験対象を選択することによって）、被験対象の追加のサブセットを形成することをさらに含む。

【0235】

いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットと同じか、または類似のサイズである。いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットとは異なるサイズである。いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットとは別のものである。

【0236】

いくつかの実施形態では、被験対象の追加のサブセットは、少なくとも１，０００個の被験対象、少なくとも５，０００個の被験対象、少なくとも１０，０００個の被験対象、少なくとも２５，０００個の被験対象、少なくとも５０，０００個の被験対象、少なくとも７５，０００個の被験対象、少なくとも１００，０００個の被験対象、少なくとも２５０，０００個の被験対象、少なくとも５００，０００個の被験対象、少なくとも７５０，０００個の被験対象、少なくとも１００万個の被験対象、少なくとも２００万個の被験対象、少なくとも３００万個の被験対象、少なくとも４００万個の被験対象、少なくとも５００万個の被験対象、少なくとも６００万個の被験対象、少なくとも７００万個の被験対象、少なくとも８００万個の被験対象、少なくとも９００万個の被験対象、または少なくとも１，０００万個の被験対象を含む。

【0237】

いくつかの実施形態では、予測モデルを修正すること（ｉｖ）は、予測モデルを再訓練すること（例えば、被験対象の更新されたサブセットで訓練プロセスを再実行し、予測モデルのいくつかのパラメータまたはハイパーパラメータを潜在的に変更すること）を含む。いくつかの実施形態では、予測モデルを修正すること（ｉｖ）は、新しい予測モデルを訓練すること（例えば、以前の予測モデルを置き換えること）を含む。

【0238】

いくつかの実施形態では、修正すること（ｉｖ）は、少なくとも１）独立変数としての被験対象のサブセット、および２）対応する従属変数としての標的結果の対応するサブセットを使用することに加えて、３）独立変数としての少なくとも１つの標的対象を使用することをさらに含む。換言すると、いくつかの実施形態では、予測モデルは、実際には、ドッキングを伴う予測モデルが、同時に起きる結合を伴う標的モデルよりも計算的に負担が少ないままであることを条件に、標的モデルの標的結果に対して訓練された予測結果を生成するために、被験対象を標的対象にドッキングする。

【0239】

ブロック２４０を参照すると、いくつかの実施形態では、１つ以上の事前定義された削減基準を満たすことは、複数の予測結果を、標的結果のサブセットからの対応する標的結果と相関させることを含む。例えば、いくつかの実施形態では、１つ以上の事前定義された削減基準は、複数の予測結果と対応する標的結果との間の相関が、０．６０以上、０．６５以上、０．７０以上、０．７５以上、０．８０以上、０．８５以上、または０．９０以上である場合に満たされる。

【0240】

ブロック２４０を参照すると、いくつかの実施形態では、１つ以上の事前定義された削減基準を満たすことは、絶対スケールまたは正規化スケールで複数の予測結果と対応する標的結果との平均差を判定することを含み、１つ以上の事前定義された削減基準は、この平均差が閾値量未満である場合に満たされる。そのような実施形態では、閾値量は、アプリケーションに依存する。

【0241】

いくつかの実施形態では、１つ以上の事前定義された削減基準を満たすことは、複数の被験対象中の被験対象の数が、対象の閾値数を下回ったことを判定することを含む。いくつかの実施形態では、１つ以上の事前定義された削減基準は、複数の被験対象が、３０個以下の被験対象、４０個以下の被験対象、５０個以下の被験対象、６０個以下の被験対象、７０個以下の被験対象、９０個以下の被験対象、１００個以下の被験対象、２００個以下の被験対象、３００個以下の被験対象、４００個以下の被験対象、５００個以下の被験対象、６００個以下の被験対象、７００個以下の被験対象、８００個以下の被験対象、９００個以下の被験対象、または１０００個以下の被験対象を有することを必要とする。

【0242】

いくつかの実施形態では、１つ以上の事前定義された削減基準は、複数の被験対象が、２～３０個の被験対象、４～４０個の被験対象、５～５０個の被験対象、６～６０個の被験対象、５～７０個の被験対象、１０～９０個の被験対象、５～１００個の被験対象、２０～２００個の被験対象、３０～３００個の被験対象、４０～４００個の被験対象、４０～５００個の被験対象、４０～６００個の被験対象、または５０～７００個の被験対象を有することを必要とする。

【0243】

いくつかの実施形態では、１つ以上の事前定義された削減基準を満たすことは、複数の被験対象中の被験対象の数が、被験対象データベースにおける被験対象の数の閾値パーセンテージだけ削減されたことを判定することを含む。いくつかの実施形態では、１つ以上の事前定義された削減基準は、複数の被験対象を、被験対象データベースの少なくとも１０％、被験対象データベースの少なくとも２０％、被験対象データベースの少なくとも３０％、被験対象データベースの少なくとも４０％、被験対象データベースの少なくとも５０％、被験対象データベースの少なくとも６０％、被験対象データベースの少なくとも７０％、被験対象データベースの少なくとも８０％、被験対象データベースの少なくとも９０％、被験対象データベースの少なくとも９５％、または被験対象データベースの少なくとも９９％だけ削減することを必要とする。

【0244】

いくつかの実施形態では、１つ以上の事前定義された削減基準は、単一の削減基準である。いくつかの実施形態では、１つ以上の事前定義された削減基準は、単一の削減基準であり、この単一の削減基準は、本開示に記載される削減基準のいずれか１つである。

【0245】

いくつかの実施形態では、１つ以上の事前定義された削減基準は、削減基準の組み合わせである。いくつかの実施形態では、この削減基準の組み合わせは、本開示に記載される削減基準の任意の組み合わせである。

【0246】

ブロック２４２を参照すると、いくつかの実施形態では、１つ以上の事前定義された削減基準が満たされている場合、方法は、予測モデルを複数の被験対象および少なくとも１つの標的対象に適用し、それによって、予測モデルに、複数の被験対象中の各被験対象についてのそれぞれのスコアを提供させる（例えば、各スコアは、それぞれの被験対象および標的対象のためのものである）ことをさらに含む。いくつかのそのような実施形態では、各それぞれのスコアは、それぞれの被験対象と少なくとも１つの標的対象との間の相互作用に対応する。いくつかの実施形態では、各スコアを使用して、少なくとも１つの標的対象を特徴付ける。いくつかの実施形態では、スコアは、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＡｐｐｌｙｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｔｏＳｐａｔｉａｌＤａｔａ」と題された米国特許第１０，００２，３１２号に記載されている（例えば、１つ以上の標的対象とそれぞれの被験対象との間の）結合親和性を指し、その全体が本明細書に組み込まれる。いくつかの実施形態では、被験対象と標的対象との間の相互作用は、距離、角度、原子タイプ、分子電荷および／または分極、ならびに周囲の安定化または不安定化環境要因によって影響される。

【0247】

いくつかの代替実施形態では、１つ以上の事前定義された削減基準が満たされている場合、方法は、残りの複数の被験対象および少なくとも１つの標的対象に標的モデルを適用し、それによって、標的モデルに、複数の被験対象中の残りの各被験対象についてそれぞれの標的スコアを提供させる（例えば、各標的スコアは、１つ以上の標的対象中のそれぞれの被験対象および標的対象のためのものである）ことをさらに含む。いくつかのそのような実施形態では、各それぞれの標的スコアは、それぞれの被験対象と少なくとも１つの標的対象との間の相互作用に対応する。いくつかの実施形態では、各標的スコアを使用して、少なくとも１つの標的対象を特徴付ける。いくつかの実施形態では、標的スコアは、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＡｐｐｌｙｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｔｏＳｐａｔｉａｌＤａｔａ」と題された米国特許第１０，００２，３１２号に記載されている（例えば、１つ以上の標的対象を有するそれぞれの試験対象間の）結合親和性を指し、これは、その全体が本明細書に組み込まれる。いくつかの実施形態では、被験対象と標的対象との間の相互作用は、距離、角度、原子タイプ、分子電荷および／または分極、ならびに周囲の安定化または不安定化環境要因によって影響される。

【0248】

実施例１－使用例。
以下は、本発明のいくつかの実施形態のいくつかの用途について記載する例示的な目的のみで提供されるサンプル使用例である。他の用途が考慮されてもよく、以下に提供される例は、非限定的であり、変形、省略に供されてもよいし、追加の要素を含んでもよい。

【0249】

以下の各例は、結合親和性予測を例示しているが、これらの例は、予測が単一の分子に対して行われるか、反復して修飾された分子のセットに対して行われるか、もしくは一連の反復して修飾された分子に対して行われるか、予測が単一の標的に対して行われるか、もしくは多数の標的に対して行われるか、標的に対する活性が所望されるか、もしくは回避されるか、ならびに重要な量が絶対的活性であるか、もしくは相対的活性であるか、または分子セットもしくは標的セットが具体的に選択されるかどうか（例えば、分子については、既存の薬物または農薬であるように、タンパク質については、既知の毒性または副作用を有するように）において異なることが見出されてもよい。

【0250】

ヒット発見。製薬会社は、新しい見込みのある医薬品リードを発見するために、化合物のスクリーニングに何百万ドルも費やしている。大規模な化合物コレクションを試験して、興味の疾患標的との任意の相互作用を有する少数の化合物を見出す。不幸にも、ウェットラボスクリーニングは、アッセイ実験を実施するためのコストおよび時間に加えて、実験誤差を被り、大型スクリーニングコレクションの収集は、保管制約、貯蔵安定性、または化学的コストを通じて重大な課題を課す。どんなに大きな製薬会社でも、何千万の市販の分子および何億のシミュレート可能な分子に対して、何十万～数百万の化合物しか有していない。

【0251】

物理実験に対する潜在的により効率的な代替手段は、仮想高スループットスクリーニングである。モデルが物理的に試験される前に、航空宇宙技術者が考えられる翼の設計を評価するのに物理シミュレーションが役立ち得るのと同じように、分子の計算スクリーニングは、可能性の高い分子の小さなサブセットに対する実験的試験に焦点を当てることができる。このことは、スクリーニングコストおよび時間を削減し、偽陰性を削減し、成功率を向上させ、かつ／または広範囲の化学空間をカバーし得る。

【0252】

本出願において、タンパク質標的は、標的対象として機能してもよい。大きなセットの分子がまた、被験対象データセットの形態で提供され得る。開示される方法の適用時に残る各被験対象について、タンパク質標的に対する結合親和性が予測される。結果として得られたスコアを使用して残りの分子をランク付けすることができ、最良スコアの分子は標的タンパク質に結合する可能性が最も高い。任意選択で、ランク付けされた分子リストは、類似の分子のクラスタについて分析されてもよく、大きなクラスタが、分子結合のより強力な予測として使用されてもよいし、分子が、確証的実験における多様性を確保するためにクラスタ間で選択されてもよい。

【0253】

オフターゲットの副作用予測。多くの薬剤が、副作用を有することを見出され得る。多くの場合、これらの副作用は、薬物の治療効果を担うもの以外の生物学的経路との相互作用に起因する。これらのオフターゲットの副作用は、不快または危険であり得、薬物の使用が安全である患者集団を制限する。したがって、オフターゲットの副作用は、どの薬剤候補をさらに開発するかを評価するための重要な基準である。薬物と多くの代替の生物学的標的との相互作用を特徴付けることが重要であるが、そのような試験は、開発および実行に高価であり、時間がかかり得る。計算予測は、このプロセスをより効率的にすることができる。

【0254】

本発明の実施形態を適用する際に、有意な生物学的応答および／または副作用と関連付けられた生物学的標的のパネルを構築してもよい。その場合、システムは、そのようなタンパク質を標的対象として順に処理することによって、パネル内の各タンパク質に対する結合を予測するように構成されてもよい。特定の標的に対する強力な活性（すなわち、オフターゲットタンパク質を活性化することが知られている化合物ほど強力な活性）は、オフターゲット効果に起因する副作用に分子を関与させ得る。

【0255】

毒性予測。毒性予測は、オフターゲットの副作用予測の特に重要な特別な場合である。後期臨床試験における薬剤候補のおよそ半数は、許容できない毒性のために失敗する。新薬承認プロセスの一環として（かつ、薬剤候補がヒトで試験可能になる前に）、ＦＤＡは、シトクロムＰ４５０肝臓酵素（その阻害は、薬剤間相互作用からの毒性につながる可能性がある）またはｈＥＲＧチャネル（その結合は、心室不整脈および他の有害な心臓効果につながるＱＴ延長につながる可能性がある）を含む標的のセットに対する毒性試験データを必要とする。

【0256】

毒性予測において、システムは、オフターゲットタンパク質を主要な抗標的（例えば、ＣＹＰ４５０、ｈＥＲＧ、または５－ＨＴ_２Ｂ受容体）に拘束するように構成されてもよい。次いで、薬物候補に対する結合親和性は、これらのタンパク質の各々を標的対象として処理することによって、これらのタンパク質に対して予測され得る（例えば、別個の独立したランで）。任意選択で、分子は、代謝産物のセット（元の分子の代謝／分解中に身体によって生成される後続の分子）を予測するように分析されてもよく、これはまた、抗標的に対する結合について分析され得る。問題のある分子を同定し、修飾して、毒性を回避してもよいし、分子列の発達を停止して、追加のリソースを無駄にすることを回避してもよい。

【0257】

農薬設計。医薬用途に加えて、農薬業界は、新しい農薬の設計で結合予測を使用する。例えば、農薬の１つの必要条件は、他の種に悪影響を与えることなく、農薬が興味の単一の種を停止させることである。生態学的な安全のために、人は、マルハナバチを殺さずにゾウムシを殺すことを望み得る。

【0258】

この用途のために、ユーザは、検討されている異なる種からの１つ以上の標的対象としてのタンパク質構造のセットをシステムに入力し得る。タンパク質のサブセットを、活性化すべきタンパク質として指定することができる一方、残りを、分子が不活性であるべきタンパク質として指定することができる。以前の使用例と同様に、（既存のデータベースまたは新規に生成されたかにかかわらず）いくつかのセットの分子が、各標的対象に対して被験対象として考慮され、システムは、第２のグループを回避しながら第１のグループのタンパク質に対して最大の有効性を有する分子を返す。

【0259】

結論
単一のインスタンスとして本明細書に記載される構成要素、動作、または構造について、複数のインスタンスが提供されてもよい。最終的に、様々な構成要素、動作、およびデータストア間の境界は、ある程度恣意的であり、特定の動作が、特定の例示的構成の文脈において例示される。機能性の他の割り当てが想定され、実装態様の範囲内にあり得る。一般に、例示的な構成の別個の構成要素として提示された構造および機能性を、組み合わされた構造または構成要素として実施してもよい。同様に、単一の構成要素として提示された構造および機能性を、別個の構成要素として実施してもよい。これらのおよび他の変形、修正、追加、および改善は、実装態様の範囲内にある。

【0260】

本明細書で使用される場合、「の場合（ｉｆ）」という用語は、文脈に応じて、「の場合（ｗｈｅｎ）」または「であると（ｕｐｏｎ）」または「と判定することに応答して」または「を検出することに応答して」を意味すると解釈され得る。同様に、文脈に応じて、「それが判定された場合」または「［述べられた状態または事象］が検出された場合」という語句は、「と判定すると」または「と判定することに応答して」または「（述べられた状態または事象（を検出すると」または「（述べられた状態または事象）を検出することに応答して」を意味すると解釈され得る。

【0261】

第１の、第２のなどの用語が、様々な要素について記載するために本明細書で使用され得るが、これらの要素は、これらの用語によって限定されるものではないことも理解されよう。これらの用語は、ある要素と別の要素を区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１の対象は、第２の対象と称されてもよく、同様に、第２の対象は、第１の対象と称されてもよい。第１の対象と第２の対象とは、両方とも対象であるが、それらは、同じ対象ではない。

【0262】

前述の説明は、例示的な実装態様を具現化する例示的なシステム、方法、技術、命令シーケンス、およびコンピューティング・マシン・プログラム製品を含んでいた。説明の目的で、本発明主題の様々な実装態様の理解を提供するために、多数の具体的な詳細が明記された。しかしながら、本発明の主題の実装態様が、これらの特定の詳細なしに実施され得ることは、当業者に明らかであろう。一般に、周知の命令インスタンス、プロトコル、構造、および技術は、詳細には示されていない。

【0263】

前述の説明は、説明の目的で、特定の実施態様を参照して記載されている。しかしながら、上記の例示的な考察は、網羅的であることを意図するものではなく、または実装態様を開示された正確な形態に限定することを意図するものではない。上記の教示を考慮して、多くの修正および変形が可能である。実装態様は、原理およびそれらの実用的な用途を最良に説明するために選定され、記載され、それによって、当業者は、実装態様および想定される特定の使用に好適な様々な修正を伴う様々な実装態様を最良に利用することができる。

【図1】