IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インシリコ メディシン アイピー リミテッドの特許一覧

特許7382489特定の生物学的標的に対して生物学的活性を有する化合物を生成するためのワークフロー
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-08
(45)【発行日】2023-11-16
(54)【発明の名称】特定の生物学的標的に対して生物学的活性を有する化合物を生成するためのワークフロー
(51)【国際特許分類】
   G16C 20/50 20190101AFI20231109BHJP
【FI】
G16C20/50
【請求項の数】 20
(21)【出願番号】P 2022511189
(86)(22)【出願日】2020-08-22
(65)【公表番号】
(43)【公表日】2022-10-26
(86)【国際出願番号】 IB2020057885
(87)【国際公開番号】W WO2021038420
(87)【国際公開日】2021-03-04
【審査請求日】2022-04-26
(31)【優先権主張番号】62/891,050
(32)【優先日】2019-08-23
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522064867
【氏名又は名称】インシリコ メディシン アイピー リミテッド
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ザボロンコフス, アレクサンドルス
(72)【発明者】
【氏名】イバネンコフ, ヤン
(72)【発明者】
【氏名】ポリコフスキー, ダニール
(72)【発明者】
【氏名】アリペル, アレクサンドル
【審査官】山崎 誠也
(56)【参考文献】
【文献】国際公開第2019/100158(WO,A1)
【文献】国際公開第2007/139037(WO,A1)
【文献】特表2011-509071(JP,A)
【文献】中国特許出願公開第109988151(CN,A)
【文献】国際公開第2019/018780(WO,A1)
【文献】Daniil Polykovskiy,Entangled Conditional Adversarial Autoencoder for de Novo Drug Discovery,molecular pharmaceutics,ACS Publications,2018年,p.4398-4405
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータシステムで実行される、コンピュータ実装方法であって、
前記コンピュータシステムにより、生物学的標的またはリガンドの入力を受信することと、
前記コンピュータシステムにより、生成化合物の特性の入力を受信することと、
前記コンピュータシステムにより、基準化合物で訓練された少なくとも1つの生成モデルを受信することと、
前記コンピュータシステムにより、各生成モデルを用いて生成化合物の構造を生成することであって、前記生成化合物が、前記生物学的標的と相互作用し、かつ/または前記リガンドの構造的な特徴と相関するように設計され、当該生成することが、前記生成化合物を報酬関数で純化することと、活性基モデル化を実行することとを含む、前記生成化合物の構造を生成することと
前記コンピュータシステムにより、少なくとも1つの報酬基準に基づいて各生成モデルの前記生成化合物の構造を優先順位付けすることと、
前記コンピュータシステムにより、ヒット構造を取得するために非線形サモンマッピングプロトコルを介して前記生成化合物の優先順位付けされた化学構造を処理することであって、前記非線形サモンマッピングプロトコルが、前記報酬関数で適用される分子記述子と、前記活性基モデル化から得られた平均二乗偏差値(RMSD)とを用いる、前記化学構造を処理することと
前記コンピュータシステムにより、前記ヒット構造の化学構造を提供することと
を含む、方法。
【請求項2】
前記コンピュータシステムにより、前記基準化合物を受信することと、
前記コンピュータシステムにより、前記基準化合物で前記生成モデルを訓練することと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記コンピュータシステムにより、前記生成モデルを用いて、少なくとも1つの報酬関数で構造を純化すること、および
前記コンピュータシステムにより、前記生成モデルを用いて前記活性基モデル化を実行すること
をさらに含む、請求項1に記載の方法。
【請求項4】
前記少なくとも1つの報酬基準が、
前記コンピュータシステムにより、前記生成化合物に対して分子フィルタリング動作を実行すること、
前記コンピュータシステムにより、前記生成化合物に対してクラスタ化/多様化動作を実行すること、
前記コンピュータシステムにより、前記生成化合物に鑑みてベンダ化合物を分析すること、
前記コンピュータシステムにより、報酬優先順位付けを実行すること、
前記コンピュータシステムにより、前記生物学的標的への生成化合物の適合のための平均二乗偏差値判定を実行すること、または
前記コンピュータシステムにより、公開された知的所有権文書に基づいて前記生成化合物の新規性を分析すること
のうちの少なくとも1つによって満たされると決定される、請求項1に記載の方法。
【請求項5】
構造を優先順位付けすることが、前記コンピュータシステムにより、少なくとも1つのコホネン自己組織化マップ(SOM)を有する構造純化プロトコルを実行することを含む、請求項1に記載の方法。
【請求項6】
前記コホネンSOMが、
時系列的なタイムラインに基づいてより古い構造と比較して新しい構造を報奨するトレンディングSOMと、
生物学的標的のファミリに対する生物学的活性をもたない構造の他のクラスを超える前記生物学的標的を含む生物学的標的のファミリ用の構造のクラスを報奨する一般生物学的標的SOMと、
前記生物学的標的を特定の標的とする構造を報奨する特定生物学的標的SOMと
を含む、請求項5に記載の方法。
【請求項7】
前記生成化合物の骨格構造またはペンダント置換基構造を分析するために、前記コンピュータシステムにより、生成化合物を用いて前記活性基モデル化を実行することをさらに含み、前記生成化合物が、前記生物学的標的と相互作用するようにモデル化され、かつ/または前記リガンドの構造的な特徴と相関するようにモデル化される、請求項1に記載の方法。
【請求項8】
前記コンピュータシステムにより、訓練されたGENTRLモデル内に複数の前記基準化合物を有する潜在空間多様体を生成することと、
前記コンピュータシステムにより、前記潜在空間多様体内に存在しない訓練されたGENTRLモデルを用いて新しい化合物を生成することと
をさらに含む、請求項1に記載の方法。
【請求項9】
少なくとも1つの報酬基準に基づいて生成化合物の前記構造を優先順位付けすることが、前記コンピュータシステムにより、
事前定義された範囲の分子記述子を満たすように化合物をフィルタリングすること、
望ましくない医薬品化学特性を有する化合物を取り除くために医薬品化学フィルタを適用すること、
前記化合物にリピンスキの5の規則を適用すること、
不均衡な数の炭素およびヘテロ原子を有する構造を除去するために前記化合物にTインデックスを適用すること、
前記化合物と、利用可能な化学空間との間の2D類似性の査定に基づいて前記化合物に類似性フィルタを適用すること、
物理化学特性に基づいて前記化合物に物理化学プロファイルフィルタを適用すること、
薬らしさ推定に基づいて前記化合物に薬らしさフィルタを適用すること、
選択されたクラスの化合物または前記生物学的標的に有用なフラグメントを優先順位付けするために前記化合物に特権構造フィルタを適用すること、
前記化合物の合成容易性の査定に基づいて前記化合物に合成容易性フィルタを適用すること、
構造の特権フラグメントに基づいて前記化合物に多様性フィルタを適用すること、
構造の特権フラグメントに基づいて前記化合物にクラスタ化フィルタを適用すること、
同様の構造を有する化合物を取り除くためにタニモトベースのクラスタ化および多様性を適用すること、
時系列的なタイムラインに基づいてより古い構造と比較して新しい構造を選択するトレンディングSOMを適用すること、
前記生物学的標的を含む生物学的標的のファミリに対して生物学的に活性の構造を選択する一般生物学的標的SOMを適用すること、
前記生物学的標的を特定の標的とする構造を選択する特定生物学的標的SOMを適用すること、または
活性基モデル化に失敗した化合物を取り除くために活性基フィルタを適用すること
のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項10】
前記コンピュータシステムにより、特許性について前記生成化合物をスクリーニングすることをさらに含む、請求項1に記載の方法。
【請求項11】
一般化合物、
前記生物学的標的を調節する化合物、
前記生物学的標的以外の生体分子を調節する化合物、
前記生物学的標的との特定の機能活性を有する既知の化合物のセットについての患者データ、または
前記生物学的標的との特定の機能活性を有する既知の化合物のセットについての化学構造データ
を含む前記基準化合物を有する少なくとも1つのデータセットを、前記コンピュータシステムにより、取得することをさらに含む、請求項1に記載の方法。
【請求項12】
前記コンピュータシステムにより、前記生物学的標的を調節する際に特定の機能活性についての活性しきい値を同定することをさらに含み、前記活性しきい値未満の生成化合物が不活性であると定義され、前記活性しきい値またはそれより高い活性を有する化合物が活性化合物であると定義される、請求項1に記載の方法。
【請求項13】
前記コンピュータシステムにより、異常値の化合物を除外するために前記基準化合物のデータセットを処理することと、
前記コンピュータシステムにより、化合物の各クラスタ当たりの同様の構造を含む化合物の数を削減することにより、入力化学空間を規格化することと
をさらに含む、請求項1に記載の方法。
【請求項14】
複数の第1の化合物が前記第1の化合物の学習された多様体の一部である、複数の第1の化合物を、前記コンピュータシステムにより、同定することと、
前記コンピュータシステムにより、前記化合物の部分的に知られた特性を使用してテンソルトレインで前記学習された多様体の構造をパラメータ化することであって、前記部分的に知られた特性が前記化合物の既知の特性を含む、前記学習された多様体の構造をパラメータ化することと、
前記コンピュータシステムにより、前記複数の第1の化合物に基づく複数の第2の化合物を生成することであって、前記第2の化合物が前記生成化合物である、複数の第2の化合物を生成することと
をさらに含む、請求項1に記載の方法。
【請求項15】
前記コンピュータシステムにより、事前決定された範囲の分子記述子を同定することと、
前記コンピュータシステムにより、前記生成モデルから生成された化合物の出力を取得することと、
前記事前決定された範囲内の前記生成化合物を有する化学空間を取得するために、前記コンピュータシステムにより、前記事前決定された範囲外の化合物を除外することと
をさらに含む、請求項1に記載の方法。
【請求項16】
前記ヒット構造を取得するために化学空間をカバーするサモンマッピングからいくつかの生成化合物を、前記コンピュータシステムにより、ランダムに選択することをさらに含む、請求項1に記載の方法。
【請求項17】
生成化合物を合成する方法であって、
請求項1に記載の方法により提供されたヒット構造の化学構造を有するレポートを取得することと、
物学的標的との特定の機能活性を有する提供された前記化学構造から少なくとも1つの化合物を選択することと、
前記少なくとも1つの化合物を合成することと
を含む、方法。
【請求項18】
生成化合物の生物学的活性を検証する方法であって、
請求項17に記載の前記合成された少なくとも1つの化合物を取得することと、
前記生物学的標的との前記特定の機能活性を有するように生物学的分析において前記合成された少なくとも1つの化合物を検証することと
を含む、方法。
【請求項19】
1つまたは複数のプロセッサによって実行されたことに応答して、コンピュータシステムに動作を実行させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記動作が、請求項1に記載の方法を実行することを含む、非一時的コンピュータ可読媒体。
【請求項20】
コンピュータシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたことに応答して、前記コンピュータシステムに動作を実行させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記動作が請求項1に記載の方法を実行する、非一時的コンピュータ可読媒体と
を備える、コンピュータシステム。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本出願は、その全体が具体的な参照により本明細書に組み込まれる、2019年8月23日に出願された米国仮特許出願第62/891,050号の優先権を主張する。
【技術分野】
【0002】
本開示は、治療標的を調節する化合物を同定するために、治療標的を同定し、バックグラウンドデータを取得し、モデルを訓練し、構造を生成し、化合物に優先順位を付け、化合物を合成し、化合物を生物学的に評価するためのワークフロープロトコルに関する。
【背景技術】
【0003】
創薬は、いくつかのコンピュータ分野および実験分野のシームレスな一体化を必要とする学際的分野である。プロセスは、通常、反復型の試行錯誤方式で設計、合成、および検査された多数の化合物を要し、大部分の化合物は、生物活性の欠如、選択性、物理化学的特性、不十分な薬物動態(PK)プロファイル、許容できない毒性、または他の問題のために廃棄される。人工知能(AI)、具体的には敵対的生成ネットワーク(GAN)、ならびに強化学習(RL)における最近の進歩は、許容できる安全性および治療域内にすでに置かれた新規の化合物の設計を助け、したがって、臨床試験の成功確率を上げることができる。
【0004】
新規化合物(NME)またはファーストインクラス薬物のための従来の発見パイプラインは、通常、10~20年かかり、NME当たり5~26億米ドルのコストがかかる、複雑なリソース消費活動である1~3。未知の臨床的関連を有する分析への依存および利用可能な情報の決して厳しくない批判的な評価から不確実性が生じる。臨床効果の欠如、不十分なPKプロファイル、許容できない毒性および選択性、絶え間なく変化する規制または商用戦略的位置に起因する、前臨床段階または臨床評価中の失敗は、創薬の増大するコストの主要原因である。多くの薬物候補は、臨床評価段階に達するか、または規制当局の承認を得ることに失敗する。小規模な企業は、潜在的な治療的意義の革新的な創薬プロジェクトを開発の初期段階の先に進めることに苦労する。
【0005】
創薬に関与する多くの企業は、新規化合物、改善された標的の生物活性および選択性、PKプロファイル、毒性、溶解性、代謝安定性、合成容易性、および他のプロパティのための社内研究開発(R&D)プログラムを増強するために、AIシステムの統合および展開を研究している。コンピュータ内モデルの潜在的な影響に関する懐疑論にかかわらず、AIシステムは、科学技術の多くの分野にわたって最近非常に大きく進歩している5~7。AIアプリケーションの広がりは、コンピュータビジョン、音声およびテキスト分析、ルート選択および自動運転から、健康診断、創薬、およびバイオテクノロジーまで伸びている。AI技法は、膨大な量のデータに隠されたパターンを同定し、従来のデータ分析技法が実現することができなかった信頼性が高く精巧な一般化を実行することができる。創薬分野の多くの専門家は、AI駆動計器が近い将来ますます重要かつ顕著になることを期待している9~11
【0006】
革新的なAI方法のうちの1つは、敵対的生成ネットワーク手法である12。GANは、特性の所望のセットを有する新しい写実的な画像、ビデオ、および音楽を「想像」するために使用されており、化学構造を生成する潜在力を有する13。創薬におけるGAN適用についての理論的根拠は爆発的に増えているが、新規の多様で効果的な小分子化合物を生成する能力を実証する実験例は少ない。GANにおける初期の実験は、既知の化学空間に一致する必要がある分子構造14、15のバイナリ指紋表現を利用した。ストリングベースの表現により、新規の構造が合成向けに生成されることが可能になった16~20。多くの研究が新しい用途を可能にするためにグラフおよび3D構造21に焦点を当てた。Seglerらは、転移学習および強化学習を用いて生成モデルを拡張し、目標として予測結合親和性を使用した22。Merkらは、活性分子の生成への転移学習を使用するSMILESベースの再帰型ニューラルネットワークの適用を実証した23、24。最近のAI開発はデノボ分子設計に焦点を当てているが、主な欠点のうちの1つは、コンピュータ内設計から化学合成および生物的評価までのフルサイクルの実験的検証の不在である。
【0007】
したがって、生体分子標的に対して活性を有する新規の合成可能な化合物の生成のための高度な実験的に検証された手法を有することは有利なはずである。
【発明の概要】
【0008】
いくつかの実施形態では、コンピュータ実装方法は、生物学的標的の入力を受信することと、基準化合物を用いて訓練された生成モデル(たとえば、テンソル強化学習(GENTRL)モデル)を受信することと、生成モデルを用いて生成化合物の構造を生成することと、少なくとも1つの基準に基づいて生成化合物の構造を優先順位付けすることと、ヒット構造を取得するためにサモンマッピングプロトコルを介して生成化合物の優先順位付けされた化学構造を処理することと、ヒット構造の化学構造を提供することとを含むことができる。いくつかの態様では、基準化合物には、一般化合物、生物学的標的を調節する化合物、および生物学的標的以外の生体分子を調節する化合物が含まれる。
【0009】
いくつかの実施形態では、コンピュータ実装方法は、生物学的標的または任意の生物学的標的(たとえば、その生物学的標的もしくは他の生物学的標的)用のリガンドの入力を受信することと、生成化合物の特性の入力を受信することと、基準化合物を用いて訓練された少なくとも1つの生成モデルを受信することと、各生成モデルを用いて生成化合物の構造を生成することであって、生成化合物が生物学的標的と相互作用し、かつ/またはリガンドの構造的特徴と相関するように設計される、生成化合物の構造を生成することと、少なくとも1つの報酬基準に基づいて各生成モデルの生成化合物の構造を優先順位付けすることと、ヒット構造を取得するためにサモンマッピングプロトコルを介して生成化合物の優先順位付けされた化学構造を処理することと、ヒット構造の化学構造を提供することとを含むことができる。
【0010】
いくつかの実施形態では、1つまたは複数のプロセッサによって実行されたことに応答して、コンピュータシステムに動作を実行させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体が提供され、動作は、生成モデルによって生成されたヒット構造の化学構造を提供するための本明細書に記載されたコンピュータ方法を実行することを含む。
【0011】
いくつかの実施形態では、コンピュータシステムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されたことに応答して、コンピュータシステムに動作を実行させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができ、動作は、生成モデルによって生成されたヒット構造の化学構造を提供するための本明細書に記載された方法を実行することを含む。
【0012】
前述の概要は例示的であるにすぎず、多少なりとも限定するものではない。上述された例示的な態様、実施形態、および特徴に加えて、図面および以下の発明を実施するための形態を参照することによって、さらなる態様、実施形態、および特徴が明らかになる。
【0013】
本開示の前述および以下の情報ならびに他の特徴は、添付図面と併用される以下の説明および添付特許請求の範囲からより完全に明らかになる。これらの図面が本開示によるいくつかの実施形態のみを描写しており、したがって、その範囲を限定するものと考えられるべきでないことを理解して、本開示は添付図面を使用してさらに具体的かつ詳細に記載される。
【図面の簡単な説明】
【0014】
図1A】特定の生物学的標的に対して生物学的に活性がある新しい化合物を生成するためのワークフローの一実施形態を示す図である。
図1B】生成化合物が選択されたリガンドの3D形状、空間、水素結合、および他の特徴と相関するように、(たとえば、既知の生物学的標的の)選択されたリガンドと一致または相関する新しい化合物を生成するためのワークフローの一実施形態を示す図である。
図2A-C】活性基仮説のパフォーマンスの例を示す図である。
図3】選択された40個の分子が三角形によってマークされている非線形サモンマップを含む図である。
図4A】化合物1~6についての用量反応曲線を含む図である。
図4B】化合物2および4のIC50を示すグラフを含む図である。
図4C】化合物1~6の構造ならびにDDR1およびDDR2についてのそれらのIC50値を示す図である。
図5A-C】最も適合した活性基仮説のための量子力学計算を示す図である。
図6】親DDR1阻害剤と比較して、生成された構造の代表例を示す図である。
図7】化合物1用の選択性プロファイルを含む図である。
図8A】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8B】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8C】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8D】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8E】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8F】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8G】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8H】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図8I】化合物1および化合物2が用量依存方式でDDR1自己リン酸化を大幅にブロックすることを示すデータを含む図である。
図9A】MRC-5細胞内の細胞線維症マーカーα-アクチンおよび(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示すデータを含む図である。
図9B】MRC-5細胞内の細胞線維症マーカーα-アクチンおよび(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示すデータを含む図である。
図9C】MRC-5細胞内の細胞線維症マーカーα-アクチンおよび(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示すデータを含む図である。
図9D】MRC-5細胞内の細胞線維症マーカーα-アクチンおよび(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示すデータを含む図である。
図9E】MRC-5細胞内の細胞線維症マーカーα-アクチンおよび(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示すデータを含む図である。
図9F】MRC-5細胞内の細胞線維症マーカーα-アクチンおよび(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示すデータを含む図である。
図10A】ワークフロープロトコルによる化学的生成システムプラットフォームの概略例を示す図である。
図10B】生成モデルで動作するためのワークフローの一例を示す図である。
図10C】生成モデルで動作するためのワークフローの一例を示す図である。
図11】ワークフローおよび生成モデルによる化学的生成システムプラットフォームの一例を示す図である
図12A-D】コホネンSOMに基づく報酬関数の実施の画像を示す図である。
図13】不合格分子の例を示す図である。
図14】GENTRLモデルによって提供される生成された分子の例を示す図である。
図15】本明細書に記載された計算方法を実行するためのコンピューティングシステムの一例を示す図である。
【発明を実施するための形態】
【0015】
図の中の要素および構成要素は、本明細書に記載された実施形態のうちの少なくとも1つに従って配置することができ、その配置は、本明細書に提供された開示に従って当業者によって修正されてもよい。
【0016】
以下の発明を実施するための形態では、本明細書の一部を形成する添付図面に対して参照が行われる。図面では、文脈上他の意味に解すべき場合を除き、同様の符号は、通常、同様の構成要素を識別する。発明を実施するための形態、図面、および特許請求の範囲に記載される例示的な実施形態は、限定するものではない。本明細書に提示された主題の趣旨および範囲から逸脱することなく、他の実施形態が利用されてもよく、他の変更が行われてもよい。本開示の態様は、本明細書に全体的に記載され、図に示されたように、多種多様の異なる構成で配置、交換、結合、分離、および設計することができ、それらのすべては本明細書において明確に記載されていることが容易に理解されよう。
【0017】
一般に、本技術は、DDR1などの生物学的標的に対して特定の活性を有する化合物を生成するためのワークフローに関する。ワークフローは4つの連結されたコンポーネントを含むことができ、それらは、入力および構成コンポーネントと、生成コンポーネントと、報酬コンポーネントと、報酬コンポーネントによって優先順位付けされた生成化合物を出力する出力コンポーネントとを含む。
【0018】
いくつかの実施形態では、入力および構成コンポーネントは、生物学的標的の入力データおよび生物学的標的に対して特定の活性を有する生成化合物の指定された特性の入力データを受信および処理するように構成することができる。固有の特性は、報酬コンポーネントのための許容できる報酬範囲を含むことができる。たとえば、固有の特性は、入力データが、許容できる物理化学的特性、化合物の合成容易性、ならびにモジュールの集団を有する報酬および採点プロトコルにおいて評価される他の特性を指定することを可能にすることができる。
【0019】
いくつかの実施形態では、生成コンポーネントは、生物学的標的に対して特定の活性を有する化合物などの化合物を生成することが可能な少なくとも1つのモデルを含むことができる。たとえば、生成コンポーネントは、GENTRLを含む最大30個以上のAIモデルを含むことができる。GENTRLは生成モデルのうちの1つの一例である。しかしながら、ワークフローの生成コンポーネントは、異なるアーキテクチャ(たとえば、GAN、遺伝的アルゴルズム、RNNなど)を有する多くの他の異なる生成モデルに適している。
【0020】
いくつかの実施形態では、報酬コンポーネントは、能動学習を可能にするために生成コンポーネントに戻って個々の生成化合物にリンクされた報酬を供給するように構成される。そのため、報酬コンポーネントは、報酬の優先順位付けを実行するためのモジュールのすべておよびそれらの組合せを含む。報酬の優先順位付けにより、あまり好ましくない化合物を除去することが可能になる。いくつかの態様では、生成コンポーネントの(たとえば、30個以上からの)各モデルが化学構造を生成するとき、この個々の構造は報酬コンポーネントにおいて評価される。生成時間に応じて、ワークフロープロトコルは、数百万の生成され報酬採点された化合物を検討することができる。
【0021】
いくつかの実施形態では、出力コンポーネントは、ヒット化合物向けに新規の生成および採点された化学構造を選択するように構成される。たとえば、サモンマッピングプロトコルは、ヒット化合物向けに新規の生成および採点された化学構造を選択するために使用することができる。
【0022】
いくつかの実施形態では、本文書は、敵対的生成ネットワーク(GAN)を使用して設計された小分子の実験的検証を示す。本発明は、デノボ薬剤設計のために生成テンソル強化学習(GENTRL)モデルもしくは他の生成モデルまたはモデルの組合せを提供し、それらは、DDR1キナーゼの新規阻害剤を生成するために使用されるように示されている。21日間で、GENTRLモデルは6つの化合物を生成した。ヒットから、2つの化合物は、新しい低い桁のナノモルのリード様の高活性阻害剤であった。さらなる生物学的実験および動物実験は、抗線維化活性、ミクロソーム安定性、および薬物動態(PK)特性を確認した。したがって、本発明は、合成および生物学的に検証することができる(たとえば、特異タンパク質を標的にする)特定の活性のための化合物を生成するために使用することができる。
【0023】
いくつかの実施形態では、生成プロトコル用のワークフローは、強化学習25~27、変分推論28、29、およびテンソル分解30~32を組み合わせることにより、元の生成2ステップ機械学習アルゴリズムの中に定式化することができる。第1のプロトコルは、多数の報告された化合物の基礎となる多様体を生成することである。第2のプロトコルは、化合物のための新しい化学的な骨格を発見するように第1のプロトコルを拡張する。プロトコルは、テンソルトレインフォーマット32内の学習された多様体の構造をパラメータ化して、部分的に既知の特性を使用することができる(下記参照)。いくつかの手法を組み合わせることにより、アルゴリズムは極めて堅固になる:モード破壊を回避し、部分的にラベル付けされたデータを使用し、分子の化学空間を推定し、したがって、訓練ライブラリに提示されていない新規の有効な構造を示唆する。
【0024】
いくつかの実施形態では、GENTRLモデルを含む生成プロトコルは、以前に報告された生成モデルの欠点を回避する。GENTRLは、GANの問題を回避し、モード破壊を回避することができる。これは、GANがモード破壊を被る可能性があり、すなわち創薬にとって魅力的な化合物の化学的分類全体を示唆することに失敗する問題を克服する。変分自動エンコーダ(VAE)33および敵対的自動エンコーダ(AAE)34などの自動エンコーダベースの生成モデルは、通常、標準ガウス分布に従う単純に組織化された潜在的な分布に構造の空間を圧縮することによってモード破壊を回避する。単純で潜在的な分布は、機械学習(ML)モデルの訓練を容易にするが、化学構造のための潜在空間のトポロジー用の最適なマッピングではない場合がある。GENTRLモデルで使用される提案された事前分布は、そのノード内に指数関数的に多数の多次元ガウス分布を有する高次元格子内の潜在空間を柔軟にパラメータ化する。このパラメータ化は、潜在的なコードと特性をより良く結び、(他の半教師付きモデル35とは対照的に)欠測値を明示的に入力することなく欠測値と連動する。
【0025】
以前の強化学習ベースの手法は、新しい構造の生成にあまり関連しない報酬関数を使用した、何故なら、それらは、むしろ、些細な報酬、たとえば、予測n-オクタノール/水分配係数36、従来の薬らしさ規則37、および合成容易性18,38、39を使用したからである。現在の生成プロトコルは、自己組織化マップ(SOM)40を使用して、創薬に関する知的所有権において観察される時間構造ベースの傾向を組み込む、報告された生物活性化合物(たとえば、小分子キナーゼ阻害剤)に化学構造がどれほど関連するかを推定する。生成プロトコルの方法は以下の3つの特徴:1)トレンディングSOM(たとえば、知的所有権の傾向)、2)一般生物学的経路SOM(たとえば、一般キナーゼ経路)、および3)特定生物学的標的SOM(たとえば、DDR1などの特定のキナーゼ)を利用する。
【0026】
いくつかの実施形態では、生成プロトコルはトレンディングSOMを使用し、トレンディングSOMは、関連特許および任意の国、地域、またはPCTから公開された特許出願で開示された化学構造の出願優先日に鑑みて、「旧来の」化合物から「新規の」化合物を識別するコホネンベースの報酬関数である。異なる時間期間の間に特許請求された化合物は、コホネンマップ内の別個の領域内に配置される。新規化合物を豊富に投入された神経細胞は、新しい分子を含むクラスタの近くに生成モデルを運んで、生成モデルに確実に報奨するために使用されている。トレンディングSOMは、任意の生物学的標的向けのプロトコルにおいて使用することができる。
【0027】
いくつかの実施形態では、生成プロトコルは一般キナーゼSOMを使用し、一般キナーゼSOMは、キナーゼベースの構造に向けてMLエンジンを誘導して、他のクラスの分子からキナーゼ阻害剤を確実に区別するコホネンマップである。これら2つのグループ(たとえば、キナーゼ阻害剤対他のクラスの分子)は、マップの別個の領域に沿って均一に広がり、統計的に有意な分離を実現する。1.3を超える細胞係数を有するキナーゼ阻害剤として予測された構造は、次いで、以下に記載される特定のコホネンベースの分類器に従った。他の生物学的標的の場合、この一般SOMは、一般生物学的標的ファミリSOMであり得る。
【0028】
いくつかの実施形態では、生成プロトコルは特定キナーゼSOMを使用し、特定キナーゼSOMは、キナーゼ標的分子のプール全体からDDR1阻害剤を単離するように訓練されている。DDR1阻害剤がマップの周辺にある近縁神経細胞の集団内に分布されたことが観察された。他の生物学的標的の場合、このSOMは、特定生物学的標的SOMであり得る。
【0029】
いくつかの実施形態では、生成プロトコルは、3つのSOMの上記の組合せを使用して生成された構造を優先順位付けし、したがって、最終ステップにおいて、生物学的標的の阻害剤(たとえば、DDR1阻害剤)によって占有されたノードをより重要視する。これにより、特定の生物学的標的の特定の阻害剤である確率が高い化学構造を取得する結果になる。
【0030】
いくつかの実施形態では、本発明は、図1Aに概略的に描写された、生物学的標的に対して特定の活性を有する化合物の化学構造を生成するための加速されたワークフロープロトコル100を提供する。図1Aは、生物学的標的の情報を使用して生物学的標的と相互作用する化合物を設計し生成する、生物学的標的ベースのプロトコルである。ワークフロープロトコル100は、疾患もしくは疾患に関係するか、または任意の他の生物学的理由のために生物学的標的を選択することを含み、生物学的標的を調節することは何らかの利益をもたらすことができる(ステップ102)。一例では、DDR1キナーゼが生物学的標的として選択される。ステップ102aは、生成された構造についての特性の入力を取得することを含み、それらの特性は、物理化学的、薬化学的な反応から、所望の生成された構造に関連付けることができる報酬または他の特性に及ぶことができる。生物学的標的が選択され、特性が入力されると、プロトコル100は、生成モデルによる訓練および化合物生成に使用するための基準化合物を同定することができる(ステップ104)。基準化合物は、上限調節しきい値を上回る生物学的標的を調節する能力を有する生物学的標的(たとえば、DDR1キナーゼ)の既知の阻害剤、生物学的標的を調節しないか、または下限調節しきい値を下回る生物学的標的を調節する生物学的標的に関連する他の標的の既知の阻害剤(たとえば、一般キナーゼ阻害剤)、生物学的標的または他の標的の阻害剤ではない化合物(たとえば、非キナーゼ阻害化合物)、任意の結果として生じる同定された化合物の合成を容易にする逆合成解析(RSA)によって同定された化合物、および既知の化合物を回避することができ、新しい化合物を生成することができるように知的所有権(IP)データベースの分析によって同定された化合物などの、異なるグループの化合物を含むことができる。取得された基準化合物は、基準化合物を前処理して好ましくない化合物を取り除くことによって縮小することができ(ステップ104a)、好ましくない化合物は、生体利用もしくは合成に好ましくない構造を有する化合物、不十分な溶解性、または構造内の総異常値などの様々な理由で好ましくない可能性がある。いくつかの実施形態では、基準化合物は、関係がない標的(たとえば、生物学的標的の受容体と同じファミリまたはクラスにない受容体)の既知の阻害剤である化合物、任意の標的の既知でない阻害剤である化合物、好ましい医薬品化学特性を有する化合物、および妥当な合成プロトコルによって合成されることが可能な化合物であり得る一般化合物を含むことができる。
【0031】
データベースが基準化合物を含むと、GENTRLモデルまたはワークフロープロトコル100の他のモデルなどを用いて、生成プロトコルを実行することができる(ステップ106)。生成プロトコル(ステップ106)は、モデル訓練(ステップ106a)、構造生成(ステップ106b)、報酬関数による純化(ステップ106c)、および活性基モデル化(ステップ106d)を含むことができる。モデル訓練は、AIにおいてよく知られているように実行することができ、生成モデルは、データベース内の基準化合物からの入力を用いて訓練される。そのため、一実施形態は、モデルのタイプごとに訓練された生成モデルを提供することを含む。訓練された生成モデルは、各々、モデル訓練に基づいて構造を生成することができる。モデルのすべてから生成された構造は、トレンディングSOM、一般生物学的標的ファミリSOM、および特定生物学的標的SOMなどの、コホネンSOMを使用して純化することができる。いくつかの例では、生成された構造は、既知の化合物または特許権を有する化合物を除外することによって純化することができ、それは生成された化合物の構造の新規性の査定である。活性基仮説は、生物学的または薬理学的な相互作用に関与する骨格またはペンダント基についての構造を分析するために、活性基モデル化(たとえば、ドッキング、結合、解離、または他の研究などの、生物学的標的を有する構造をモデル化すること(たとえば、DDR1キナーゼを有する構造の相互作用をモデル化すること))を用いて実施することができる。生成プロトコル(ステップ106)は、次いで、生成された構造の数を削減し、生物学的標的に対して新規かつ固有であることに向けて構造を純化することができる。
【0032】
生成プロトコルが実施されると、生成化合物は優先順位付けモジュールを使用する優先順位付けプロトコル(ステップ108)によって純化される。各優先順位付けプロトコルは、報奨および採点を実行するモジュールを含むことができ、それらのモジュールは本明細書に記載される。優先順位付けプロトコルは、分子フィルタリングを実施して、ある特定の報酬基準内に収まらない化合物を取り除くことができ(ステップ108a)、その基準は、異なる生物学的標的に対して定義および変更することができる(たとえば、ステップ106cの報酬関数により純化を参照)。また、分子フィルタリングは、ある特定の医薬品化学基準を満たさない化合物を除去する医薬品化学フィルタ(MCF)を用いて実行することができる。MCFフィルタは、多くの(たとえば、100を超える)異なる下部構造の照会および分析を含むことができ、基準を満たさない化合物を除去することができる。生成された構造はまた、クラスタ化分析および多様性分類手順(ステップ108b)を用いて処理することができる。いくつかの例では、ベンダデータベースは生成された構造と比較することができ、その結果、販売されている既知の化合物と同じか、または不必要に近い構造は、生成された構造のグループから除去することができる(ステップ108c)。生成化合物はまた、優先順位付けのために再び一般キナーゼSOMおよび特定キナーゼSOMなどのコホネンSOMを介して処理することができ(ステップ108d)、それは、生物学的標的(たとえば、DDR1キナーゼ)の潜在的な阻害に向けて構造のさらなる優先順位付けを実現する。活性基モデル化、結晶学的モデル化、3D活性基モデル化などのモデルは、生物学的標的に適合する程度を反映する平均二乗偏差値(RMSD)を取得するために使用することができる(ステップ108e)。
【0033】
優先順位付けされた構造は、次いで、記述子の同じセットならびに活性基モデル化から出力されたRMSD値によるサモンマッピング手法を介して処理することができる(ステップ106dおよび108eを参照)。サモンマップを構築することができ、いくつかの(たとえば、定義されたまたは任意の)特定の化合物構図を選択することができる。
【0034】
いくつかの実施形態では、特許によってカバーされるか、または他の知的所有権保護を受ける可能性がある化合物を取り除くために、任意選択のさらなる知的所有権フィルタリングが実行されてもよい(ステップ112)。結果として、残りの化合物は、新規で特許性がある化合物であり得る。
【0035】
残りの選択された化合物は、生物学的標的に対する「ヒット」であると見なされ、ヒットは、次いで合成される(ステップ114)。合成プロトコルは、可能な合成ルートを分析して化合物を取得することを含むことができる。容易に合成することができない化合物は取り除くことができる(優先順位付けステップ108を参照)。
【0036】
合成されたヒット化合物は、次いで、生物学的標的の活性の調節などの生物学的標的に対する生物学的活性を検証するために、分析を介して処理される(ステップ116)。分析のタイプは、生物学的標的に応じて異なる。たとえば、合成されたヒットは、生物学的標的の結合および/または調節について分析することができる。
【0037】
生物学的標的に対して生物学的活性を有すると検証されたヒット化合物は、次いで、提供することができる(ステップ118)。これらの化合物は、さらなる査定、臨床試験、および潜在的には治療的処置のために患者に提供することができる。
【0038】
一例として、DDR1キナーゼに対してナノモル活性を有する新しい分子のAI駆動生成は、図1Aに示されたように実行することができる。ワークフロープロトコル100は、生物学的標的に対して生物学的に活性であると検証された化合物を取得するために必要な時間枠をかなり縮小することができる。ワークフロープロトコル100は、医薬品化学者が扱いやすい分子であると考える有効な構造を生成するためのモデルの堅固に調整されたセットを使用する。出発点は対象の生物学的標的を選択することを含む。
【0039】
図1Bは、リガンドを使用して、提供/選択されたリガンドと一致または相関する他のリガンドを設計するワークフロープロトコル100を含む。このワークフローでは、プロトコルは、提供/選択されたリガンドの化学構造に基づいて、潜在的なリガンドの化学構造を作成する。そうでない場合、図1Bのワークフローは図1Aのプロトコルに従うが、同じ生物学的標的に対する同様の生物活性などの同様の生物活性を有するために、提供/選択されたリガンドと同様に機能するはずの新しい潜在的なリガンドを生成するために提供/選択されたリガンドの構造に焦点を当てたが、実際の生物学的標的は具体的に定義されていない。しかしながら、生物学的標的はまた、生成化合物の特性の入力を受信するステップに含まれてもよい。
【0040】
したがって、図1Aは、リガンドとしてそれらと結合する化学構造を生成するための、結合ポケットまたは他の結合特徴などの、生物学的標的を分析するためのプロトコルを含む。図1Bは、3D構造、水素結合などを分析すること、およびリガンド情報を使用して同様の形状または3D存在を有し、同じ生物学的標的と結合するための同様の結合特徴を有するさらなる潜在的なリガンドを設計することなどの、生物学的標的のためのリガンドを分析するためのプロトコルを含む。
【0041】
生物学的標的は、初期基準を満たした適切な生物学的標的の一例として選択することができ、初期基準は、a)この標的が検証、または少なくとも疾患もしくは疾患または他の症状(たとえば、線維症)に関与されていなければならず、この用途では比較的新規であると分類されるべきこと、b)基準データセットが生成モデルの「認知」技能を査定するために少数から(十分だが)中程度の数の分子を含むべきことである。たとえば、5つのデータセットを使用することができる:1)生物学的標的(たとえば、DDR1キナーゼ)に対して阻害活性を有する小分子化合物、2)陽性対照セットとして報告された阻害剤(たとえば、キナーゼ阻害剤)の共通データベース、3)陰性対照セットとして他の関係がない生物学的標的(たとえば、非キナーゼ標的)に対して作用する分子、4)優先日によって配列されたトップ製薬会社によって特許請求された生物学的活性分子についての特許データ、および5)一例ではDDR1阻害剤などの生物学的標的の既知の阻害剤について公開された構造データ(たとえば、X線回折データ)。活性または不活性として基準分子を分類するためのしきい値として、1μMのIC50値を選択することができる。データベース2)~4)は、次いで、各クラスタ当たりの同様の構造を含む化合物の数を削減することにより、総異常値を除外し、入力された化学空間を規格化するために前処理することができる。
【0042】
生成プロトコルは、利用可能な情報に基づいて膨大な量のデータを生成および分析し、研究された現象に隠された、推測された客観的な関係を正確に示すことができるモデル化技法を提供することができる。創薬では、GENTRLまたは他のモデルの深層学習アルゴリズムは、正確なコンテキストに化学データを入れ、さもなければ目に見えないが、医薬品化学者にとって潜在的に貴重な、深く埋められたパターンを明らかにすることができる。したがって、ワークフロープロトコルは、このセクタの広く認識された低下している生産性-コストのバランスに対処する解決策の一部を提供する。このワークフローは、製薬の研究開発において多くの他の課題を解決することに加えて、生成モデルが速く成熟し、デノボのヒット生成およびリード生成のための主要ツールになる可能性があることを実証する。
【0043】
いくつかの実施形態では、生成モデルは、所望の特性(たとえば、薬理学的活性)を有する新規化合物の作成のための化合物のデノボ設計のための方法において使用することができる。ワークフロープロトコルは、疾患メカニズムの知識に基づく最も適切な生物学的標的の同定で始まることができる。設計手順の最初のステップは、最適化されるべきリード化合物のセットを同定することである。最も見込みがあるヒット(たとえば、化合物)が選択され、それらの特性プロファイルがさらなる最適化を受ける。最後に、最終的な薬剤化合物の合成のための効果的な方法を確立することができる。標準的な設計方法は、しばしば少ない反応ステップ内で合成可能な分子構造を作成する機能を有し、これらの方法は、それらが合成規則または基本的な物理モデルの形態の明確な化学知識の集積にしばしば依存するという事実に見舞われる。生成モデルは、手動の特徴エンジニアリングを必要とせずに自動的に複雑な非線形データ内のパターンを同定することができる。
【0044】
例示的な生成モデルでは、GENTRLモデルは、MLモデルと深層学習(DL)モデルを結合するAIベースのプラットフォーム(GAN、自動エンコーダ、RNNベースの言語モデル、遺伝アルゴリズム、組合せ手法、集団)上で動作する。これらの方法は、RL最適化と組み合わされ、エンドツーエンドパイプラインの中に統合される(図1A図1B)。実際には、ユーザがすべての必要な情報を入力すると、生成プロトコルは並行して動作する最大30個のモデルで始まる。標準的な生成実験の平均持続時間は、おおよそ72時間である。インターフェースは、リアルタイムで各モデルの実行および収束の速度と一緒に生成プロセスの進行に従うことを可能にする。次第に生成されるすべての分子は、ユーザインターフェースの対話機能を使用して、様々なメトリックの観点から比較することができる。
【0045】
図1A図1Bをさらに参照して、ワークフロープロトコルは、生成化合物用の最良のフィルタならびに報奨および採点用の生成化合物のSOMフィルタリングを有する2Dモデルを使用する。最良のフィルタは、以下のモジュール:MCE-18、MCF、ROG5、Tインデックス、類似性、多様性、物理化学(PC)プロファイル、薬らしさ、特権フラグメント、合成容易性(SA)スコア、およびクラスタ化を含むことができる。SOMフィルタリングは、階層型活性分子(HAM)データセット、親SOM、およびズームマップを含むことができる。
【0046】
さらに、3Dモデルに対する報奨および採点は、配座生成(3D配座、最小化、フレックススコア)、記述子(鋳型分子との類似性)、活性基モデル化(活性基仮説、探索)、形状分析(形状類似性)、ポケット分析(結合親和性、ポケット同定および採点)を含むことができる。代謝安定性強化、および生物学的等価体(別の化学化合物とほぼ同様の生物学的特性を生成する同様の物理特性または化学特性を有する化学置換基または基)などの、さらなる構造モーフィングを実施することができる。
【0047】
いくつかの実施形態では、すべての必要な情報が入力されると、生成は、生成コンポーネント内で並行して動作する最大30個のモデルで始まる。入力は、2Dまたは3Dの構造(sdfまたはmol)、X線データ(標的、結合ポケット)、および標的名を含むことができる。訓練用などの基準データベースを入力することができる。異なるAIモデルも同定され、システムに入力することができる。標準的な生成実験の平均持続時間は、おおよそ72時間である。インターフェースは、リアルタイムで各モデルの実行および収束の速度と一緒に生成プロセスの進行に従うことを可能にする。たとえば、進行はコンピュータディスプレイ上に表示することができる。次第に生成されるすべての分子は、ユーザインターフェースの対話機能を使用して、様々なメトリックの観点から比較することができる。
【0048】
図1A図1Bに関して、ワークフロープロトコルは、3D表現、グラフ表現、およびストリング表現などの複数の分子表現に基づいて、複数の生成パラダイムを有する30個を超える高度DLモデルを含むプラットフォームで動作する。報酬コンポーネント用の訓練、検証、およびモデル選択、ならびにベンチマーキングおよび評価の手順は自動化され、統合メトリックのセットは生成の品質を査定するために統合される。分子の新規性および多様性は、既知の構造と同様の分子を罰し、新規化学空間の探査を促進する改善された報酬関数を使用することによって促進される。これは、将来の生成のための出発点としての構造の新規で多様なセットを設計するための方法と、3D報酬関数を用いて分子配座異性体を設計、採点、フィルタリング、およびランク付けするための複数のツールとを含む。2つのSAスコアは、分子構造の合成容易性に従って分子構造を優先順位付けするために実施される。図10Bを参照されたい。
【0049】
図10Bは、図10Aのシステムで動作することができるワークフローの一例を示す。ワークフローは、入力コンポーネント、ならびに最良のスコアと、2Dモジュール用のSOMと、3Dモジュール用のConfgen、記述子、形状、ポケット、および構造モーフィングとを有するデノボ薬品設計に使用されるモデルを示す。報酬および採点は、仮想ヒットとして提供される、改善された特性を有する化合物を生成するために使用される。図10Cは、図10Bのワークフローを使用することの例示的なタイムラインを示す。
【0050】
RLによる化合物生成は、報酬および採点の2つの別個のクラスを伴う-2Dモジュールおよび3Dモジュールを要する。2Dモジュールのセットは2つのカテゴリから作成される。最初のカテゴリは、報酬および採点などによる、異なるフィルタリング方法を実行する異なるフィルタリングモジュールを含む最良のフィルタのセットである。モジュールのうちのいくつかが以下に記載される。MCE-18モジュールは、医薬品化学進化の観点から構造を採点する固有の分子記述子フィルタである。医薬品化学フィルタ(MCF)モジュールは、医薬品化学の必要性を満たす化合物をフィルタリングするために使用されるおおよそ460個のMCFから構成され、構造警告(たとえば、よく反応する、不安定、有毒など)を含む不適切な化合物を除外するために使用される。リピンスキの5の規則(RO5)モジュールは、5つを超えるHボンド供与体、10個のHボンド受容体が存在し、分子量が500を超え、計算されたLogP(CLogP)が5より大きいときに、不十分な吸収または浸透の可能性が高いことに基づいて、フィルタリングを実行する。Tインデックスモジュールは、不均衡な数の炭素およびヘテロ原子を有する構造を除去するために一組の規則を構成する。類似性スコアモジュールは、生成された構造と利用可能な化学空間との間の2D類似性の査定に使用することができる。薬化学または物理化学(PC)プロファイルモジュールは、LogP、PSA、HBD、HBA、分子量(MW)などの分子記述子のセットを使用して化合物を査定する。薬らしさモジュールフィルタリングは、薬らしさ推定用の拡張規則を使用して推定される。このカテゴリ内の他の重要なフィルタモジュールは、特権フラグメント(PF)に基づく。PFは、選択された標的または残りの生物学的標的以外の標的クラスに対して活性がある分子に統計的に多く見られる下部構造である。特権構造モジュールは、選択されたクラスの化合物または生物学的標的に有用なフラグメントの自動優先順位付けを有する。PFを分析するPFフィルタは、特定のクラスの化合物または標的に必須であると見なされたフラグメントを自動的に優先順位付けする。PFは、階層型活性分子(HAM)データセットに基づいて自動的に同定される。HAMは、様々な標的(IC50<10μM、~4Mレコード)に対して報告された体内活性を有する生物学的活性分子の広いデータセットであり、自己組織化マップ(SOM)を含む第2のカテゴリのフィルタ内で統合される。合成容易性(SA)スコアおよび逆合成関連合成容易性(ReRSA)モジュールは、生成された構造のSAを査定するためにフィルタとして使用される。ReRSAは、改善されたフラグメントベースのSA推定方法である。大規模データベース内のフラグメント存在の考えは、SAスコア方法から採られたが、フラグメント化方法は著しく異なる。ReRSAスコアは、組織合成の視点からのより思慮深いフラグメント化に基づき、より正確にSAを推定する助けになる。多様性モジュールは、独占所有権があるFPを使用してすべての生成された構造について計算された主な多様性によるフィルタリングを実行する。FPに基づく一組の規則はまた、クラスタモジュールを用いて生成された構造をクラスタ化するために使用される。
【0051】
報酬関数の2番目のクラスは、いくつかの異なる3Dモジュールを含むことができる。一例では、2番目のクラスは、最大5つのカテゴリの3Dモジュールを含むことができる。最初のカテゴリの3Dモジュールは、ConfGen、FLEXスコア、および最小化を含む。最初に、異なる配座の集団が生成される。事前定義された下部構造の幾何形状を有する一組の規則は、X線データに基づいて実装される。FLEXスコアモジュールは、(結合エントロピー因子を使用して)剛性によって構造をランク付けし選択するために使用される。2番目のカテゴリのフィルタは、生成された構造と基準分子との間の3D類似性の査定を実現することを目指す3D記述子のセットを含む。
【0052】
3番目のカテゴリのフィルタは、活性基仮説および探索に関し、潜在的な構造および視覚化の自動査定がその後に続く、潜在的な結合点を有し、距離、角度、および許容差の設定も有する3D活性基仮説構築を含む。4番目のカテゴリは、基準分子に対する3D形状類似性の査定として形状類似性を使用するフィルタを含む。これは、活性基整列についての形状採点を含む。最後のカテゴリのフィルタは、ポケット同定および採点に焦点を当てる。
【0053】
いくつかの実施形態では、代謝安定性エンハンサモジュールは、生成化合物の代謝安定性を強化するために使用される。代謝の潜在的な部位が同定され、これらの部位は、化学構造のより安定したフラグメントまたは基と置き換えられる。
【0054】
いくつかの実施形態では、3D記述子類似性モジュールは、3D分子記述子の観点からの生成された構造と基準分子との間の3D類似性の大まかな査定に使用される。これは、基準分子との3D形状類似性の査定のための形状類似性であり得る。活性基整列についての形状採点が存在する。
【0055】
いくつかの実施形態では、活性基仮説モジュールは、標的タンパク質による3D構築およびモデル化を含むことができる。生成化合物の同定された結合部位が評価される。許容できない化合物をフィルタリングするために、距離または角度または許容差に対する有益な設定を生成化合物にセットすることができる。
【0056】
いくつかの実施形態では、ポケット同定および採点モジュールは、生物学的標的のポケットを走査して潜在的な結合部位を同定するために使用することができる。スキャナは、デノボまたは鋳型ベースのグリッドマッピング用であり得る。生成された構造に対して超高速結合親和性査定を実行することができる。水素結合、衝突、および不快な特徴を回避することができる。強制結合点を同定することができる。モジュールは、X線共結晶データによる検証を使用することができる。ポケット結果は、ドッキング研究から取得されたデータと同様であり得る。さらに、容積倍増採点を実行することができる。
【0057】
いくつかの実施形態では、本技術は、化合物のデノボ設計用のAIベースのアルゴリズムの開発および適用を含む。AIプロトコルは、モデルの性能を比較および推定し、生成された分子の特性を査定することを可能にする。訓練パラメータおよびアーキテクチャハイパーパラメータが性能を大幅に変えることができるので、DLモデルの比較は困難であり、特定のベンチマークおよびメトリックを必要とする。
【0058】
いくつかの態様では、分子セット(MOSES)を使用することができる。MOSESは、生成された分子の新規性および品質を評価するための分子生成モデルおよびメトリックのセットを利用可能にすることにより、創薬のためのDLに対する調査をサポートするために、ベンチマーキングプラットフォームとして設計することができる。それらの手法は、本明細書に記載されたAIプラットフォーム内で統合される。これらの特徴は、実験が手動保存プロセスを経る必要なく再現され得ることを保証するために必要な結果、コード、訓練データ、および任意の情報を、ユーザが記録することを可能にする。そのような作業環境内で作業することは、同じモデルの差異を検査すること、または訓練データの異なるセットを使用して異なるモデルの相対性能を調査することのいずれかを必要とする調査実験を行うときに特に重要である。
【0059】
いくつかの実施形態では、本明細書に記載されたプロトコルは、化学空間内の距離メトリックに基づいて、生成された分子の新規性および多様性を推定するメトリックを提供するために使用することができる。分子の新規性および多様性の査定は、新規性および多様性の効率を最大化する訓練データの自動化前処理、ならびにフィルタリングではなく生成最適化を介する動的な新規性および多様性の最適化のための方法を含む、異なる手法を使用して実行される。
【0060】
いくつかの実施形態では、本明細書に記載されたプロトコルは、アマゾンウェブサービス(AWS)上で実行されることなどの、スケーラブルクラウドアーキテクチャを有する分散クラウドプラットフォーム上で実施することができる。その実施は、その性能を最適化することを目指す様々な特徴を統合し、ユーザ体験を向上させる。これは、クバネテスによるクラスタ管理、複数の柔軟なワークフロー、自動化CI/CD、統合監視およびロギングを含む。GENTRLプラットフォームの統合された特質は、クラウド上または業務上でのその展開を可能にする。業務上での展開の場合、プラットフォームは、すでに動作可能なワークフロー内で容易に統合することができる。
【0061】
図10Aは、化合物生成プロトコルを実装するためのシステムの一実施形態を示す。加入者コンピュータ302は、ネットワーク304を介して化合物生成システム(CGS)プラットフォーム306に接続される。CGSプラットフォーム306は、自動化機械学習プラットフォームによる化合物の探査を可能にし、薬品の構造ベース設計およびリガンドベース設計にアクセスすることができる、小分子生成化学プラットフォームとして構成することができ、対象のタンパク質の標的向けの新規で多様な分子を生成するために使用することができる。加入者コンピュータ302は、CGSプラットフォーム306の入力モジュール308に加入者データをアップロードする。たとえば、加入者データは、関連するにせよ、異なるにせよ、化合物生成の出発点であり得る1つまたは複数の化合物の構造データを含むことができる。加入者コンピュータ302は、所望の結果についての情報を構成モジュール308にアップロードし、その所望の結果は、(たとえば、ウェブインターフェースにより、またはAPIを介して)プラットフォームからの所望の結果の概略を含むことができる。所望の結果は、特定の生物学的標的(たとえば、DDR1)と相互作用するか、または特定の疾患(たとえば、線維症)を治療することに活性である分子であり得る。構成モジュール308は、次いで、PandaOmics310と連動し、関連するタンパク質情報(たとえば、標的同定情報)を取得する。PandaOmics310は、マルチオミクス標的発見および深層生物分析エンジンであり、公開されたオミクスデータを利用し、同じオミクスデータを解読し、任意のオミクスデータタイプを分析し、薬品標的タンパク質を評価し、薬品再利用向けの戦略を得ることができる。PandaOmicsは、疾患の痕跡から予想される標的および分子の候補まで及ぶ情報へのアクセスを提供する。PandaOmicsは、iPANDAを使用するシグナル伝達経路分析などの古典的なバイオインフォマティクスツールを組み合わせる。構成モジュール308は、データベースまたは加入者コンピュータ302などから、既存の実験結果データ312を取得することができる。入力モジュールは、データベースまたは加入者コンピュータ302などから、利用可能な構造およびビルディングブロックデータ314を取得することができる。入力モジュール308は、次いで、生成モジュール316にデータを提供し、本明細書に記載されたプロトコルに従って処理した。生成モジュール316は、標的タンパク質の観点から化学構造および下部構造の分析用のAIプロトコルを使用して適切な構造を生成し、その構造は医薬品化学ユニットおよび計算機化学ユニットを使用して処理することができる。AIプロトコルは、AI支援デノボ薬品設計を実現することができる。医薬品化学ユニットおよび計算機化学ユニットは、モデル、その訓練およびベンチマーキングを含み、生成化学ツール向けの解釈可能領域固有分析を実現することができる。生成モジュール316は、結果分析器モジュール318に1つまたは複数の生成された構造を提供し、結果分析器モジュール318は、本明細書に記載されたプロトコルに従って結果を分析する。結果分析器モジュール318は、生成された構造のグラフ、分析、および比較を含むことができ、情報(たとえば、SDF、CSV)を保存するか、またはデータベースにデータを提供することができる。結果分析器モジュール318は、分析のために加入者コンピュータ302にデータを提供することができる。たとえば、結果分析器モジュール318は、プラットフォームで結果を分析するか、またはウェブインターフェースから、もしくはAPIを介して標準フォーマットで結果をエクスポートすることができる。結果分析器モジュール318はまた、本明細書に記載されたプロトコルに基づいて選択された新規化合物候補320を提供することができる。これらの新規化合物候補320は、次いで、加入者コンピュータ302に提供することができる。
【0062】
構成モジュール308は、既存の実験結果ならびに利用可能な化合物構造および下部構造(たとえば、ビルディングブロック)を利用するように構成することができる。構成モジュール308は、標的同定データおよび生成化合物の所望の特性を含むことができ、構造データ、活性化合物を使用することもできる。構成モジュール308はまた、生成化合物についての生成オプションの入力を受信することができる。いくつかの態様では、構成モジュール308は、結晶構造のみ、結晶およびリガンドデータ、リガンドデータのみ、結晶データなしもしくはリガンドデータなし、または所望の特性のデータを有するときなどに、異なる標的についてのデータを処理するように構成することができる。
【0063】
生成モジュール316は、標的タンパク質と相互作用する化合物の所望の結果のために化学空間の生成探査を実行するように構成することができる。これは、分子特性最適化、構造最適化、および親和性最適化を含むことができ、それらはすべて本明細書に記載されたプロトコルに基づく。分子特性最適化は、安定性、溶解性、浸透性、被吸収性、薬力学、薬物動態学などの、望ましい分子特性を有するように構造を最適化することを含むことができる。構造最適化は、医薬品化学に適した特徴を有するように、かつ合成されることが可能なように構造を最適化することを含むことができ、単純な合成が好ましい。親和性最適化は、標的タンパク質と適合および結合し、それによって標的タンパク質との親和性を有する分子を最適化することを含むことができる。いくつかの態様では、生成モジュール316は、本明細書に記載されたモデルなどのいくつかのモデルを含むことができ、それらのモデルはプラットフォームで提供することができる。
【0064】
いくつかの実施形態では、加入者は、加入者コンピュータ302を介して自分自身のモデルをアップロードすることができ、それにより、加入者モデルは、生成モジュール316と連動し、生成モジュール316を用いて請願することができる。加入者モデルは、本明細書に記載されたように訓練することができる。モデルは、次いで、単独で、またはシステムの他のモデルとともに、化合物生成に使用することができる。
【0065】
結果分析器モジュール318は、生成化合物の注釈付けおよび仮想スクリーニングを実行するように構成することができる。これは、化合物またはその派生物が存在するかどうか、または化合物の構成部品が化合物の合成に使用するために購入可能であるかどうかを同定するためのベンダデータベースを介して化合物をスクリーニングすることを含むことができる。スクリーニングはまた、コンピュータ内臨床試験(たとえば、Inclinico)などの臨床試験分析に対してであり得、それにより、臨床試験成功率を予測すること、試験設計における弱点を同定すること、および臨床試験においてベストプラクティスを得る力の高まりを身に付けることによって臨床試験結果の予測が可能になる。所望の分子特性を有する化合物を求めてフィルタリングするために、分子特性もスクリーニングすることができる。報酬ベースのランク付け(たとえば、SOM)は、分析中に生成化合物を通してフィルタリングするために使用することができる。生成化合物の特許性または新規性は、前に生成されたことがない分子を求めてフィルタリングすることができる結果分析器モジュール318を用いて査定することができる。結果分析器モジュール318はまた、各特定の化合物を合成すること、および合成することができる化合物を求めてフィルタリングすることが容易か困難かを判定するために、合成容易性分析を介して生成化合物をフィルタリングすることができる。
【0066】
結果分析器モジュール318はまた、生成化合物のランク付けおよび優先順位付けを実行することができる。ランク付けおよび優先順位付けは、化合物をランク付けして合成および検証されるべき化合物を同定するために、本明細書に記載されたように実行することができる。選択された化合物は、次いで、結果の(たとえば、ディスプレイまたは印刷されたレポート上での)視覚化および検証のために、たとえば、レポート内で提供することができる。選択された化合物は、加入者コンピュータ302に提供することができる。
【0067】
いくつかの実施形態では、生成化合物を取得する方法は、CGSプラットフォーム306を用いて実行することができる。方法は、ユーザが標的タンパク質または標的疾患を同定し、任意の生成化合物が満たすための出力基準を定義することを含むことができる。CGSプラットフォームは、次いで、化合物生成のための計算を実行し、1つまたは複数の生成化合物を同定し、それらは、本明細書に記載されたように、生成され、分析され、ランク付けされる。最も高いランク付けを有する化合物は、出力基準を満たし、次いで同定され、これらの化合物の同定情報および他の情報は、(たとえば、加入者コンピュータを介して)ユーザに提供される。CGSプラットフォームは、高次元データを処理することを可能にする経路活性レベルで動作するために構成することができる。CGSプラットフォームは、経路再構築用深度特徴選択エンジン、経路採点エンジン、標的関連付け、深層学習転写応答採点エンジン、および活性ベース採点エンジンを含む、AI駆動ツールキットを有する。ビッグデータ、化学、生物学、および医学を組み合わせるこのマルチモーダル手法は、標的タンパク質(たとえば、生物学的経路のタンパク質)に対して生物学的に活性の化合物の生成に必要な分子構造、特性、生体サンプル内の変化、および薬物反応の間の相互作用の完全な特徴付けを可能にする。
【0068】
いくつかの実施形態では、コンピュータ実装方法は、生物学的標的の入力を受信することと、基準化合物を用いて訓練された生成テンソル強化学習(GENTRL)モデルまたは他の生成モデルを受信することであって、基準化合物が、一般化合物、生物学的標的を調節する化合物、および生物学的標的以外の生体分子を調節する化合物を含む、モデルを受信することと、生成モデルを用いて生成化合物の構造を生成することと、少なくとも1つの基準に基づいて生成化合物の構造を優先順位付けすることと、ヒット構造を取得するためにサモンマッピングプロトコルを介して生成化合物の優先順位付けされた化学構造を処理することと、ヒット構造の化学構造を提供することとを含むことができる。いくつかの態様では、方法は、基準化合物を受信することと、基準化合物を用いて生成モデルを訓練することとを含むことができる。いくつかの態様では、生成モデルを用いて、少なくとも1つの報酬関数で構造を純化すること、または生成モデルを用いて活性基モデル化を実行することのうちの少なくとも1つを含む。
【0069】
いくつかの実施形態では、優先順位付けのために満たされるべき少なくとも1つの基準は、生成化合物に対して分子フィルタリング動作を実行すること、生成化合物に対してクラスタ化/多様化動作を実行すること、生成化合物に鑑みてベンダ化合物を分析すること、報酬優先順位付けを実行すること、生物学的標的への生成化合物の適合のための平均二乗偏差値判定を実行すること、または公開された知的所有権文書に基づいて生成化合物の新規性を分析することのうちの少なくとも1つによって満たされると決定される。
【0070】
いくつかの実施形態では、方法は、少なくとも1つのコホネン自己組織化マップ(SOM)を有する構造純化プロトコルを実行することを含むことができる。いくつかの態様では、コホネンSOMは、時系列的なタイムラインに基づいてより古い構造と比較して新しい構造を報奨するトレンディングSOM、生物学的標的のファミリに対する生物学的活性をもたない他のクラスの構造を超える生物学的標的を含む生物学的標的のファミリ用の構造のクラスを報奨する一般生物学的標的SOM、およびその生物学的標的を特定の標的とする構造を報奨する特定生物学的標的SOMを含む。
【0071】
いくつかの実施形態では、方法は、生成化合物の骨格構造またはペンダント置換基構造を分析するために、生成化合物および生物学的標的を用いて活性基モデル化を実行することを含むことができる。これは、構造分析ならびに生物学的標的との結合分析を含むことができる。
【0072】
いくつかの実施形態では、方法は、訓練された生成モデル内に複数の基準化合物を有する潜在空間多様体を生成することと、潜在空間多様体内に存在しない訓練された生成モデルを用いて新しい化合物を生成することとを含むことができる。
【0073】
いくつかの実施形態では、方法は、事前定義された範囲の分子記述子を満たすように化合物をフィルタリングすること、望ましくない医薬品化学特性を有する化合物を取り除くために医薬品化学フィルタを適用すること、同様の構造を有する化合物を取り除くためにタニモトベースのクラスタ化および多様性を適用すること、時系列的なタイムラインに基づいてより古い構造と比較して新しい構造を選択するトレンディングSOMを適用すること、その生物学的標的を含む生物学的標的のファミリに対して生物学的に活性の構造を選択する一般生物学的標的SOMを適用すること、その生物学的標的を特定の標的とする構造を選択する特定生物学的標的SOMを適用すること、または活性基モデル化に失敗した化合物を取り除くために活性基フィルタを適用することのうちの少なくとも1つを含む少なくとも1つの基準に基づいて、生成化合物の構造を優先順位付けすることを含むことができる。
【0074】
いくつかの実施形態では、方法は、特許性について生成化合物をスクリーニングすることを含むことができる。
【0075】
いくつかの実施形態では、方法は、特定の機能活性を有する既知の化合物のセットについての患者データであって、既知の化合物が既知の化合物の同定の日付によって配列される、患者データ、および/または特定の機能活性を有する既知の化合物のセットについての化学構造データを含む、基準化合物を有する少なくとも1つのデータセットを取得することを含むことができる。
【0076】
いくつかの実施形態では、方法は、生物学的標的を調節する際に特定の機能活性についての活性しきい値を同定することを含むことができ、活性しきい値未満の生成化合物は不活性であると定義され、活性しきい値またはそれより高い活性を有する化合物は活性化合物と定義される。
【0077】
いくつかの実施形態では、方法は、化合物の各クラスタ当たりの同様の構造を含む化合物の数を削減することにより、異常値の化合物を除外し入力化学空間を規格化するために、基準化合物のデータセットを処理することを含むことができる。
【0078】
いくつかの実施形態では、方法は、複数の第1の化合物が第1の化合物の学習された多様体の一部である、複数の第1の化合物を同定することと、化合物の部分的に知られた特性を使用してテンソルトレインで学習された多様体の構造をパラメータ化することであって、部分的に知られた特性が化合物の既知の特性を含む、学習された多様体の構造をパラメータ化することと、第2の化合物が第1の複数の化合物に基づく複数の第2の化合物を生成することであって、第2の化合物が生成化合物である、複数の第2の化合物を生成することとを含むことができる。
【0079】
いくつかの実施形態では、方法は、事前決定された範囲の分子記述子を同定することと、生成モデルから生成化合物の出力を取得することと、事前決定された範囲内の生成化合物を有する化学空間を取得するために、事前決定された範囲外の化合物を除外することとを含むことができる。
【0080】
いくつかの実施形態では、方法は、ヒット構造を取得するために化学空間をカバーするサモンマッピングからいくつかの生成化合物をランダムに選択することを含むことができる。
【0081】
いくつかの実施形態では、生成化合物を合成する方法は、ヒット構造の提供された化学構造を有するレポートを取得することと、生物学的標的との特定の機能活性を有する提供された化学構造から少なくとも1つの化合物を選択することと、少なくとも1つの化合物を合成することとを含むことができる。
【0082】
いくつかの実施形態では、生成化合物の生物学的活性を検証する方法は、生成モデルによって生成された、合成された少なくとも1つの化合物を取得することと、特定の機能活性を有するように生物学的分析において合成された少なくとも1つの化合物を検証することとを含むことができる。
【0083】
いくつかの実施形態では、特定の機能活性を有する化合物を生成する方法は、特定の機能活性を選択することと、基準化合物を取得することと、基準化合物を用いて特定の機能活性用のモデルを訓練することと、化合物の構造を生成することと、定義された報酬関数を用いて生成された構造を処理することと、生成された構造のセットを優先順位付けすることと、コンピュータ内で特定の機能活性を有する生成された構造から少なくとも1つの化合物を選択することと、少なくとも1つの化合物を合成することと、特定の機能活性を有するように合成された少なくとも1つの化合物を検証することとを含むことができる。
【0084】
いくつかの実施形態では、方法は、モード破壊を回避することと、部分的にラベル付けされたデータを利用することと、第1の化合物の多様体から化合物の化学空間を推定することとを含むことができ、化合物の推定された化学空間は、第1の化合物の多様体および/または化合物の訓練ライブラリの一部ではない第2の化合物を含む。いくつかの態様では、モード破壊は、化合物の化学空間を潜在的な分布に圧縮することによって回避される。いくつかの態様では、潜在的な分布はガウス分布である。
【0085】
いくつかの実施形態では、方法は、化合物の事前分布を使用して各ノードにおいて複数の多次元ガウス分布を有する高次元格子内の潜在空間をパラメータ化することを含むことができ、パラメータ化は化合物特性に潜在コードを関連付け、パラメータ化は、省略されたパラメータ値を明示的に入力することなく省略されたパラメータ値で動作する。
【0086】
いくつかの実施形態では、方法は、自己組織化マップ(SOM)を使用して定義された生物活性を有する定義された機能化合物との化学構造の関係を推定することを含むことができる。いくつかの態様では、SOMは、定義された機能化合物から未知の化合物を識別するコホネンベースの報酬関数であるトレンディングSOMを含む。いくつかの実施形態では、複数の未知の化合物を有する神経細胞は、化合物生成モデルを積極的に報奨して未知の化合物を取得するために使用される。いくつかの態様では、SOMは、一般機能を有する化合物を取得するために、一般機能をもたない化合物から一般機能を有する化合物を区別するコホネンマップである一般機能SOMを含む。いくつかの態様では、一般機能はキナーゼ阻害であり、化合物はキナーゼ阻害剤である。いくつかの態様では、細胞係数が1.3を超える一般機能を有すると予測された未知の化合物は、コホネンベースの分類器プロトコルを介して処理される。いくつかの態様では、SOMは、特定の機能活性を有する化合物を同定するように訓練された特定機能SOMを含む。一例では、特定の機能活性はDDR1キナーゼ阻害である。いくつかの態様では、既知の特定の機能活性を有する既知の化合物は、複数の関連神経細胞にわたって分散される。いくつかの態様では、方法は、トレンディングSOM、一般機能SOM、および特定機能SOMを使用して、生成された化合物構造を優先順位付けすることを含むことができる。いくつかの態様では、方法は、特定の機能活性を有する化合物を有するノードを同定することと、同定されたノードを優先的に使用することとを含むことができる。
【0087】
いくつかの態様では、方法は、(A)特定の機能活性を有する小分子化合物、(B)特定の機能活性を有する化合物の陽性セット、(C)異なる機能活性を有する、場合によっては特定の機能活性をもたない化合物の陰性セット、(D)特定の機能活性を有する既知の化合物のセットについての患者データであって、既知の化合物が既知の化合物の同定の日付(たとえば、特許の申請日付)によって配列される、患者データ、または(E)特定の機能活性を有する既知の化合物のセットについての化学構造データを有する少なくとも1つのデータセットを取得することを含むことができる。いくつかの態様では、方法は、特定の機能活性についての活性しきい値を同定することを含むことができ、活性しきい値未満の化合物は不活性であると定義され、活性しきい値またはそれより高い活性を有する化合物は活性化合物であると定義される。いくつかの態様では、方法は、異常値の化合物を除外するために(A)~(D)のデータセットを処理することと、化合物の各クラスタ当たりの同様の構造を含む化合物の数を削減することにより、入力化学空間を規格化することとを含むことができる。
【0088】
いくつかの実施形態では、方法は、複数の第1の化合物が第1の化合物の学習された多様体の一部である、複数の第1の化合物を同定することと、化合物の部分的に知られた特性を使用してテンソルトレインで学習された多様体の構造をパラメータ化することであって、部分的に知られた特性が化合物の既知の特性を含む、多様体の構造をパラメータ化することと、第2の化合物が第1の複数の化合物に基づく複数の第2の化合物を生成することとを含むことができる。
【0089】
いくつかの実施形態では、方法は、一般の機能活性を有する化合物(たとえば、キナーゼ阻害剤)のセット、および特定の機能活性を有する化合物(たとえば、DDR1阻害剤)のセットを用いて、特定の機能活性に対して生成モデルを訓練することを含むことができる。いくつかの態様では、方法は、一般分子のデータセット(たとえば、ZINCデータベース)を用いて、特定の機能活性に対して生成モデルを事前訓練することを含むことができる。
【0090】
いくつかの実施形態では、方法は、事前決定された範囲の分子記述子を同定することと、モデルから生成された分子の出力を取得することと、事前決定された範囲内の化合物を有する化学空間を取得するために、事前決定された範囲外の化合物を除外することとを含むことができる。いくつかの態様では、方法は、クラスタ化および分類手順によって化学空間を縮小することを含むことができる。いくつかの態様では、方法は、一般活性SOMおよび特定の機能活性SOMを用いて構造を優先順位付けすることを含む。いくつかの態様では、方法は、特定の機能活性(たとえば、DDR1キナーゼを阻害すること)のタンパク質(たとえば、DDR1キナーゼ)と複合された化合物についての結晶学的データから3D活性基仮説を取得することを含む。
【0091】
いくつかの実施形態では、方法は、サモンマッピング、および3D活性基仮説からの平均二乗偏差値のうちの少なくとも1つによって化合物を優先順位付けすることを含む。いくつかの態様では、サモンマッピングは、その化学空間をカバーするいくつかの化学構造をランダムに選択するために使用される。
【0092】
【0093】
次に例示的なプロトコルが記載される。生物学的標的および関連する標的の既知の阻害剤(たとえば、キナーゼ阻害剤およびDDR1阻害剤)のデータセットは、ZINCデータベース内で利用可能な分子の大規模データセット上で事前訓練された生成GENTRLモデルを微調整するために使用された。GENTRLの初期出力は、「粗製混合物」としての30,000個の小分子構造である。事前定義された範囲の分子記述子を満たさなかった化合物は除外された。構造警告または反応基を生じる分子を取り除くために、100を超える下部構造照会を含む医薬品化学フィルタ(MCF)にプロトコルが適用された。結果として生じた化学空間は、次いで、クラスタ化および多様性分類手順によって縮小された。
【0094】
次いで、プロトコルは、構築された一般生物学的標的ファミリSOM(たとえば、一般キナーゼSOM)および特定生物学的標的SOM(たとえば、特定キナーゼSOM)を使用して、それぞれ、潜在的な生物学的標的阻害(たとえば、キナーゼ阻害)活性および特定の生物学的標的(たとえば、DDR1キナーゼ)に対する活性に対して構造のさらなる優先順位付けを実行した。生成モデルは、上述されたコホネンベースの報酬関数によって特定の生物学的標的阻害剤(たとえば、DDR1阻害剤)として事前に分類された構造の製造に焦点を当てたが、プロトコルはまた、活性基モデル化を使用して生成された構造を評価した。生物学的標的(たとえば、DDR1キナーゼ)と複合した小分子化合物に利用可能な結晶学的データは、3D活性基仮説を構築するために使用された。これらのモデルは、開発された活性基に適合する程度を反映する平均二乗偏差値(RMSD、Å)によって取得された構造を採点するために適用された(図2A図2Cの例を参照)。
【0095】
図2Aは、3中心活性基仮説:Acc-水素結合受容体(r=2Å)、Hyd|Aro-疎水性または芳香族中心(r=2Å)、Hyd-疎水性中心(r=2Å)を示す。図2Bは、4中心活性基仮説:Acc-水素結合受容体(r=2Å)、Hyd|Aro-疎水性または芳香族中心(r=2Å)、Hyd-疎水性中心(r=2Å)、Acc|Specific-水素結合受容体または同様の空間幾何形状を有するフラグメント(たとえば、二重結合または三重結合の平面サイクル)(r=1.7Å)を示す。描写されていない距離は、3中心活性基の場合と同じである。図2Cは、追加の疎水性特徴を有する、図2Bにおいて強調表示された同じポイントを含む5中心活性基仮説を示す。描写されていない距離は、3中心活性基および4中心活性基の場合と同じである。これは、報告された小分子DDR1阻害剤(PDBコード:5BVN)に基づく。
【0096】
優先順位付けの最終ステップにおいて、プロトコルは、記述子の同じセットならびに活性基モデル化から出力されたRMSD値を用いてサモンマッピング手法を使用した。マップが構築されると、プロトコルは、ランダムにいくつか(たとえば、40個)の構造を選択し、それらは、結果として生じた化学空間を円滑にカバーした。RMSD値の分布に特別な関心が置かれた(図3参照)。図3は、選択された40個の分子が三角形によってマークされている非線形サモンマップを示す。最も良く活性基と一致する領域が円によって強調表示されている。
【0097】
すべての実行された優先順位付け手順が以下に要約されている。物理化学フィルタは、事前定義された範囲の分子記述子を満たす化合物を求める(たとえば、12147個の化合物が選択された)。MCFフィルタは、医薬品化学において通常望ましくない警告下部構造を含む化合物を求める(たとえば、7912個の化合物が選択された)。クラスタ化および多様性フィルタは、各クラスタ当たりの多様性最大化、同様の化合物の削除(クラスタ内の≦5個の化合物)、および化学空間の規格化が続くタニモトベースのクラスタ化である(たとえば、5542個の化合物が選択された)。類似性フィルタリングは、ベンダ(MolPort、ZINC)の(しきい値≦0.5の)ストック内で利用可能な化合物に対するタニモトベースの類似性である(たとえば、4642個の化合物が選択された)。一般生物学的標的ファミリSOM(たとえば、一般キナーゼSOM)は、生物学的標的ファミリ用の阻害剤対非阻害剤として分類された構造をフィルタリングする(たとえば、2570個の化合物が選択された)。特定生物学的標的SOM(たとえば、DDR1キナーゼ)は、バイアスを克服する少なくとも1つの特定標的阻害剤を含む神経細胞から選択された構造をフィルタリングする(たとえば、1951個の化合物が選択された)。活性基探索フィルタは、活性基モデル化のパスに成功した構造を求める(たとえば、848個の化合物が選択された)。サモンマッピングフィルタは、構造の最終セットをランダムに選択するためにサモン学習手順に従った化合物を求める(たとえば、40個の化合物が選択された)。
【0098】
いくつかの実施形態では、プロトコルは、合成を容易にするために構造を分析する化学専門職を含むことができる。選択された化合物の合成、ならびに細胞ベースの分析を実行することができる。
【0099】
本例では、6つの分子が生成、選択、および合成され、(たとえば、35日以内に)生物学的検査に回された。検査されたサンプルの中で、4つの化合物が中程度から高程度の活性を実証した(図4Aの用量反応曲線を参照)。化合物1(すなわち、INS015_036)および化合物2(すなわち、INS015_037)は、それぞれ、10nMおよび21nMのIC50値を有するDDR1活性の強い阻害を示した。化合物3(すなわち、INS015_030)および化合物4(すなわち、INS015_032)は、(それぞれ、1μMおよび278nMの)中程度の効能を実証したが、化合物5(すなわち、INS015_039)および化合物6(すなわち、INS015_038)は、不活性であった。化合物2および4についての用量反応曲線は、恐らく整合性がないように見えるが、DDR1キナーゼに対するこれらの分子の活性を確認するために追加の実験が実行された(図4Bを参照)。これらの研究では、化合物2は37nMのIC50値を実証したが、化合物4は4分の1の活性であった(IC50=156nM)。このように、両方の化合物のナノモル活性は、2つの異なる生化学分析で証明された。化合物1および2はまた、DDR2キナーゼに対して評価された。図4Aに描写された結果によれば、化合物1の活性はDDR1に対する活性の23分の1であるが、化合物2は76nMのIC50値を示した。これらの結果に基づいて、2つの最も活性があるDDR1阻害剤(化合物1および2)は、さらなる調査および最適化にとって興味深い構造であることが結論付けられた。
【0100】
図4A図4Bは、生成された分子についての構造および用量反応曲線を示す。6つの生成化合物がDDR1チロシンキナーゼに対して用量依存方式で検査された。化合物1および2は、低いナノモル範囲のIC50値を実証した(図4A)。化合物2および4は、別の生化学分析(Thermo Fisher-PR6913A)を使用してDDR1キナーゼに対してさらに再スクリーニングされ、それぞれ、37.12nMおよび155.6nMのIC50値を実証した(図4B)。図4Cは、それらの化合物番号によって同定された化合物1~6についての構造ならびにDDR1およびDDR2に対するIC50を示す。
【0101】
生物学的研究から得られた結果を部分的に解明するために、量子力学(QM)計算が実行された。図5A図5Cは、活性基仮説に最もよく適合された配座、およびQM計算によって予測された配座の剛性整列を示す。活性基仮説をパスする化合物1の予測された3D配座は、第1原理QM計算を使用して、より好ましく安定するように真空内で検証された配座と非常に類似した(図5A)。化合物1の場合、「ロックアンドキー」エントロピー駆動結合機構が存在してもよい。化合物3の場合、中程度のRMSD値が観察された(図5B)。ベンズイミダゾール化合物4は、その構造的類似体化合物1(図示せず)よりもかなり活性ではないが、QM計算は、メチル基とパラ位置にあるアミノ基を有するその配座がより安定し、仮説内の水素結合受容体(HBA)の特徴と一致しないことを示している。その上、生理的に適切な7.4のPH値において、化合物4の中のこのコア内の第二塩基性窒素はほとんど完全にプロトン化している。
【0102】
QMによって検証された化合物5の3D配座のプールの中で、どれも活性基仮説をパスしていないことが観察された(図5C)。化合物6は、恐らくキラルポイントを有する大きい疎水性部分に起因していかなる活性も実証しなかった。トリフルオロメチルフラグメントの位置決めは、結合部位内で適切ではない場合がある。その上、隣接アミド基は有益な結合位置に配置されないことが推測される。
【0103】
好ましくないか、またはある特定の基準を満たさないという化合物のいくつかの問題を克服するために、プロトコルは、専門医薬品化学チームによって提供された、選択された構造に対する専門家の意見のリストを取得することを含むことができる。
【0104】
化合物1の場合、専門家はポナチニブ(IC50=9nM、DDR1阻害)との類似性に気付いた。化合物1は、アミド結合の生物学的等価体を有している。化合物1は、AIの観点から非常に印象的である。化合物2は、固有の中心リンカ(イミダゾリジン)を有しており、化学構造は化合物1とは非常に異なっている。専門家は、化合物2について安定性がチェックされるべきことを指摘した。化合物3の場合、化合物(アセチレン基、ピリミジン基、およびジメチルアミノ基)の潜在的な代謝安定性に対していくつかの問題が対処された。化合物3の第3級アミンはまた、DDR1阻害剤に対して観察された活性およびSARの観点から問題視されている。化合物4の場合、専門家は、むしろ中立または魅力的な提示された化学タイプを発見しており、特許性は困難な問題として述べられているが、最近の特許探索は明らかなIP状態を明らかにしている。化合物5の場合、専門家は、特に溶解性における良好な物理化学特性を有するキナーゼ化学構造において興味深い化学タイプを指摘した。専門家の意見によれば、化合物6は、新規の構造を有し、興味深い固有の部分、たとえば、固有のヒンジ結合コアを含む。専門家のコメントによれば、検査されたほとんどすべての化合物は、さらなる生物学的試験にとって新規かつ魅力的であると認識されている。いくつかの化合物は、固有の構造を生んでいると分類されている。一方、代謝不安定性、比較的不十分な合成容易性、および溶解性の調整に必要な潜在力を含む、さらなる創薬の観点からより多くの作業を必要とする、専門家が同定した特徴は、いくつかの部分に適切に起因している。これらは、より精巧なスクリーニングプロトコルに追加されるか、または純化の第2のラウンドで統合される可能性がある特徴である。したがって、化合物を生成するためのプロトコルは、化学の専門家が化合物の構造を分析してリード化合物の選択を容易にするため、または生物学的活性に対して合成および検証されるべき化合物の選択のためのステップを含むことができる。
【0105】
いくつかの実施形態では、化合物は、プラットフォームで特許性について分析することができる。ほとんどすべての選択された化合物は、表1に示されたように良好なIP位置を有すると認識されていることは特筆すべきである。プロトコルは、化学特許に関する利用可能な特定のデータベースを使用してこれらの化合物を事前に採点することができる。正式には、39個の構造が任意の公開された特許または出願の範囲から外れるので、それらは新規であると分類されている。生成された構造のうちの1つは、マルチモーダルキナーゼ阻害剤を記述する特許出願において特許請求されたが、そこに列挙されたキナーゼはDDR1を含んでいない。
【0106】
* SciFinderデータベース内の類似性探索が実行された。構造類似性の範囲が提示されている。ある特定の範囲内の類似する化合物の数が丸括弧で囲まれている。類似性が>70%の分子が存在しない場合、それは<70%と表示された。
** 化合物が一致する特許マーカッシュ構造の数
*** 特許内の例の中の化合物の存在
**** 生成化合物とMolPortおよびZINCデータベースからの分子との間の最大類似性
【0107】
このように、生成化合物は、プロトコルによって特許性についてスクリーニングすることができる。これは化合物生成を容易にすることができ、その結果、特許性がない化合物は合成されず検証されない。これにより、商業的に実現可能であり得る化合物を生成することの重大な焦点が可能になる。
【0108】
いくつかの実施形態では、本明細書に記載されたプロトコルは、化合物の非自明な潜在的生物学的等価性置換およびトポロジー変形である構造の例を生成することをもたらすことができる(図6)。図6は、親DDR1阻害剤と比較して、生成された構造の代表例を示す。一般に、このコンピュータ内モーフィングは、既知のDDR1阻害剤の固有物理化学特性の両方を保存すること、ならびにDDR1親和性に関与する極めて重要な結合点を保持することの良い仕事を行う。
【0109】
いくつかの実施形態では、ワークフロープロトコルは、高度に選択的な化合物を生成することをもたらすことができる。選択性の問題は、リード化合物が臨床前評価の成功に影響を及ぼす可能性がある起こり得る的外れの効果を推定するために極めて重要である。プロトコルは、EurofinsによるscanMAX Delta Kinase Panelを使用する酵素的分析などにおいて、最も活性がある生成化合物についての選択性インデックス(SI)にアクセスするように構成することができる。化合物1は、10μMの濃度で検査され、図7に示されたように、(たとえば、CDK、PKCβ2、MAPKAPK3、TSSK、TTBK1、A-Rafなどの)セリン/トレオニンタンパク質キナーゼ、脂質および非定型キナーゼ、ならびに二重特異性タンパク質キナーゼを含む、44個を超えるキナーゼに対して比較的高いSIを示した。パネル内で最も高い阻害効能がeEF-2K(INH%=37)に対して明らかにされたが、DDR1キナーゼの活性はこの濃度において完全に阻害された。DDR1キナーゼは、ほとんど上皮細胞内で発現され、DDR2は、概して、ライディッヒの間質細胞内で観察される。線維症の予防が主要な目標である場合でも、DDR2キナーゼに対する選択性も非常に重要な考慮事項である。DDR2キナーゼアイソフォームに対する分子化合物1および化合物2の阻害活性も評価された。化合物1および2は、それぞれ、良好および中程度のSI:23.4および3.6を有することが分かった。構造的類似体の後に続く合成を介する化合物1の次の最適化は、選択性における増加をもたらす場合がある。詳細な選択性プロファイルが図7に提示されている。
【0110】
DDR1自己リン酸化を阻害する化合物1および2の能力は、コラーゲンで刺激されたU2OS細胞内で研究された。活性化DRR1(Y543)の量は、ウエスタンブロット分析を使用して測定され、取得されたデータは、HAおよびGAPDHタンパク質レベルに規格化された。ダサチニブは陽性対照としての役目を果たし、1nMのIC50値を有する高い効能を示した。化合物1および2が、それぞれ、10.3nMおよび5.8nMのIC50値での用量依存方式でDDR1自己リン酸化を大いにブロックすることが分かった(図8A図8I)。これらの値は、両方の化合物に対する生化学分析において観察された活性に近い。
【0111】
化合物1および2の抗線維化活性は、図9A図9Fに示されたMRC-5細胞株を使用して査定された。2つの基準化合物、SB-52533444(TGFBR1阻害剤、IC50=5~15nM)およびダサチニブ45(DDR1およびDDR2を含む無差別キナーゼ阻害剤、IC50~15~30nM)と比較して、選択された分子の抗線維化効果を査定するために4つの抗体が使用され、2つの基準化合物は陽性対照として使用され、DMSO(0.1%)は陰性対照として使用された。得られたウエスタンブロット結果は図9Aに描写されている。図9B図9Cに示されたように、DMSOは検査システムにおいて効果がないことを実証したが、TGB-β(10ng)を追加すると、α-アクチン発現(最大9.3倍)およびCTGF発現(2倍)の増大につながった。不明な用量依存効果がSB-525334に対して観察され、陰性対照ベースラインに近い最大阻害率が(ダサチニブに関して)10μMにおいて達成されたが、0.5μMにおいて、TGF+DMSO刺激と比較して2倍のα-アクチン発現レベルの減少が観察された。対照的に、0.5μM以上の濃度において、ダサチニブはかなりの刺激効果を示した。SB-525334(10μM)は(1.5倍だけ)CTGF発現をわずかに減少させたが、0.5μMにおいて、それは効果がなかった(図9E図9F)。ダサチニブは、使用されたすべての濃度において、阻害の兆候なしに刺激効果のみを実証した。化合物1の場合、α-アクチン発現に対して最も多い阻害効能は、SB-525334およびダサチニブの場合に特定されたそれに近い10μMにおいて達成されたが、化合物2はあまり活性ではなかった。最大効果は、0.37μMにおいて観察された(1.5倍)。化合物1は、他の分子とは対照的に堅固な用量依存効果を実証した。CTGF分析では、化合物1は、使用されたすべての濃度において阻害効能をもたなかったが、0.013μMにおいて、化合物1は、38倍高い濃度におけるSB-525334に対して特定された活性に等しい抗線維化活性を実証した。化合物2は、0.041μMにおいて陰性対照に近い最も高い活性を示し、それはSB-525334とダサチニブの両方よりも多い活性であった。
【0112】
肺線維症モデル以外に、阻害剤化合物1および化合物2の抗線維化効果はまた、ヒトの肝星細胞株LX-2分析において研究された。コラーゲンα1、α-SMA、CTGF、およびGAPDHは、ウエスタンブロット分析を使用して追跡された。DMSOおよびSB-525334は、それぞれ、陰性対照および陽性対照として使用された。示されていないデータは、LX-2細胞内の細胞線維症マーカーコラーゲンα1、α-アクチン、および(GAPDHに規格化された)CTGFに対する化合物1および2の効果を示す。
【0113】
TGB-βによる治療は、LX-2細胞内のコラーゲンα1、α-SMA、およびCTGFの生成を誘導した。SB-525334は、0.5μMから10μMまでの濃度範囲におけるコラーゲンα1およびα-アクチンの発現を強く阻害したが、より低い濃度においては、活性のかなりの減少が観察された。GAPDHレベルに規格化されたデータは、化合物1がTGF-βで刺激されたLX-2細胞内の13nMのIC50値での用量依存方式でコラーゲン生成を強く阻害することを明確に実証している。α-アクチン生成の最も高い阻害は41nMの濃度において観察されたが、CTGF分析では、化合物1は阻害効果を示さなかった。酵素的分析、自己リン酸化分析、および線維化分析における分子のナノモル効能を考慮に入れると、生化学的活性から細胞活性への一貫した転換が明確かつ強固であった。特筆すべきは、LX-2分析における化合物1のIC50値は、同じ細胞株に対する細胞毒性(CC50=3.3μM)をかなり超えている。化合物2は、コラーゲン分析においてマイクロモル活性(IC50>10μM)を有することが分かった。3.3μMと0.014μMとの間のより低い濃度において、化合物2はコラーゲンα1の生成を阻害しなかった。14nMの濃度において、化合物2はCTGFの生成をほとんど半分防止し(43%)、α-SMAをわずかに阻害した(15%)。しかしながら、これらの効果は濃度が増加するのに伴って減少する。化合物2は、7.3μMのCC50値を有するLX-2細胞内の低い細胞毒性を実証した。これらの予備試験結果に基づいて、新規の化合物は良好な抗線維化活性を有すると合理的に見なすことができると暫定的に結論付けることができる。
【0114】
化合物2は、通常、創薬では普通でないイミダゾリドンフラグメントを含むので、この分子についての主要特性が実験的に査定された。pH=7.4における化合物2の動力学的溶解度は1.09μg/mlであったが、熱力学的溶解度は<0.59μg/mlであり、logD7.4は4.07(TFA塩)であり、pKa=6.99であった。主なシトクロムP450(CYP450)アイソフォームの小パネルに対する化合物1および2の阻害活性はまた、体外で査定された(表2)。
【0115】
化合物1は7.36μMのIC50値を有するCYP1A2の活性を阻害したことが分かったが、化合物1は、CYP2C9、CYP2C19、CYP2D6、およびCYP3A4(IC50>50μM)に対して不活性であった。化合物2は、それぞれ、10.6μM、2.70μM、6.56μM、6.97μM、および7.36μMのIC50値でより高い阻害を実証した。両方の化合物は、著しいCYP450阻害を示さなかった。それらのCYP450活性は、標的ナノモル効能よりもかなり低く、それにより、キナーゼ阻害剤を含む多くの薬品について観察されたものに匹敵する良好な選択性インデックスが実現される。実行された分析の詳細な説明は、支援情報内で提供される。化合物2(10μM)の代謝安定性は、ヒト、SDラット、CD-1マウス、およびビーグル犬の肝臓ミクロソーム内で評価された(表3)。
【0116】
*NCF:補因子がないことの略語。60分の培養の間、NADPH再生系がNCFサンプルに追加されず(緩衝液によって置き換えられず)、NCF残量が60%未満である場合、NADPH依存が発生しない。
R2は、運動定数を決定するための線形回帰の相関係数である(生データワークシートを参照)。
T1/2は半減期であり、CLint(mic)は内因性浄化値である。
CLint(mic)=0.693/半減期/mgのmL当たりのミクロソームタンパク質
CLint(liver)=CLint(mic)*mgのミクロソームタンパク質/gの肝臓重量*gの肝臓重量/kgの体重 mgのミクロソームタンパク質/gの肝臓重量:5つの種の場合、45mg/g
肝臓重量:ネズミ、ラット、犬、猿、および人間の場合、88g/kg、40g/kg、32g/kg、30g/kg、および20g/kg
【0117】
ヒトのミクロソームでは、化合物2は、12.8分の半減期(t1/2)および97.3mL/分/kgの固有クリアランス値(ヒトの肝臓の重量20g/kg、クリント/肝臓)を実証した。たとえば、同じ条件下で、テストステロン、ジクロフェナク、およびプロパフェノンは、以下の値:それぞれ、t1/2=15.6、10.7、8.3分、およびクリント/肝臓=79.7、116.9、149.7mL/分/kgを示した。得られた結果に基づいて、化合物2が対照分子と比較して比較的良好な代謝安定性を示すことが結論付けられる。すべての検査された化合物に対する代謝反応は、サンプルに追加されたNADPH再生系の存在下でのみ進行した(60分のインキュベーションの後に化合物の2.8%が残った)が、NADPHがない場合、LC/MS/MSデータに基づいて化合物2の88.7%が未修正であったことが観察されたことが特に留意されるべきである。テストステロン、ジクロフェナク、およびプロパフェノンの残量は、それぞれ、6.9%、1.9%、および0.7%であった。これは、化合物2が分析条件下で極めて安定していることを明確に示している。化合物2ならびに対照分子の代謝安定性の詳細な要約は、支援情報内で提示される。加えて、リン酸緩衝液(50mM、pH=7.4)およびMOPS/EDTA(8mM/0.2mM、pH=7.0)内の化合物2(10μM)の安定性が査定された。サンプルは、0、120、240、360、および1440分間インキュベーションされ、次いで、LC/MS/MS分析を直ちに受けた。このように、分析条件下で、化合物2は非常に安定していた(化合物の残量は、各時点で100%に近かった、表4を参照)。
【0118】
さらに、標的キナーゼ内の化合物1の結合相互作用が、分子結合によるDDR1結晶構造(PDBコード:3ZOS)を使用して分析された。推定結合モードは、タンパク質キナーゼのタイプII阻害機構を特徴付けるいくつかの特性を明らかにする(データは示されていない)。分子結合の手順は、シュレーディンガー・マエストロを使用して実行された。イミダゾピリダジン骨格のN1がMet704との保存ヒンジ相互作用を形成することが分かった。骨格のC(2)Hはまた、Asp702の主鎖との疑似水素結合をはめ込む。エチニルリンカを介して接続されて、6-メチル-ベンゾイソオキサゾール部分は、ヒンジ要素に直交する幾何形状、DFG外ポケットに必要な配座を表す。強い接点は、DFGモチーフのAsp784との水素結合ならびに触媒Lys655とのπ陽イオン相互作用を介して、イソオキサゾールによって確立される。DFGモチーフによって開かれた疎水ポケットを占有して、化合物1のCF3フェニル基は、Ile675、Met676、Leu679、Ile684、Ile685、Leu757、およびIle782との近い接点によって結合複合体をさらに安定化させる。環外アミン水素は、拡張水素結合ならびに/またはLys655、Glu672、およびAsp784から構成される電荷ネットワークの一部である、Glu672と結合ずる。全体で、化合物1は、複数の水素結合、好ましい電荷、およびDDR1キナーゼの活性部位残留物との疎水相互作用を形成する。ATP部位の必要条件に対する化合物1の顕著な相補性は、DDR1に対するその効能がある阻害活性を裏付ける。
【0119】
このワークフロープロトコルは、新規の活性分子を生成し、合理的に高いヒット率を実現するために、強化学習を有する深層生成ネットワークを使用することができることを実証した。所望の活性、具体性、選択性、溶解性、生物学的利用可能性、合成容易性、および多くの他の特性の均衡を実現する複合体は、本明細書に記載されたワークフロープロトコルを用いて実行することができる標的および治療領域に固有のモデル化を必要とする。生成モデルは、高レベルの複雑性および高レベルの新規性を有するヒット化合物を提供することができる。
【0120】
方法
【0121】
基準DDR1小分子阻害剤
【0122】
利用可能なデータベース、科学出版物、および特許記録を使用して、DDR1キナーゼに対する報告された活性を有する化合物のデータセットが準備された:63個の分子はThomson Reuters Integrity49およびChEMBL50データベースから受信され、77個の化合物は文献から取得され、1230個の構造は特許記録から手動で収集された。全体として、最終的なデータセットは1370個の化合物を含んだ。
【0123】
事前訓練データセット
【0124】
事前訓練手順のために、ZINCデータベース51からのClean Leadsセットおよびパートナーからの独自のデータベースを使用して、構造のデータセットが準備された。C、N、O、S、F、Cl、Br、およびH以外の望ましくない原子を有する構造が取り除かれた。潜在的に毒性がありよく反応する基を有する化合物を除去するために、所定の医薬品化学フィルタが適用された。結果として得られたデータセットは、正準SMILESの形態の約190万個の構造を含んでいた。原子シンボル、ブラケット、および他のSMILES固有シンタックス要素などの、34個の独自のトークンの用語集を収集するために、データセットが構文解析された。ストリングの平均長は36トークンであり、最大長は58トークンであった。
【0125】
キナーゼ阻害剤および「陰性」データセット
【0126】
様々なキナーゼに対する活性分子および不活性分子のデータセットは、Integrityデータベース内で利用可能なデータを使用して準備された。キナーゼ阻害剤の56,000個を超える独自構造が、化学多様性の観点から収集および分析された。標準的なクラスタ化および多様性分類手順52を使用して、データセットは23K個のサイズの独自構造に縮小された。構造の高い多様性および他の標的に対する活性を有する17,000個の化合物を含むデータセットの第2の部分は、ChEMBLデータベースに基づいて準備された。
【0127】
優先日による特許記録からの化合物
【0128】
大手製薬会社(2017年のトップ10製薬会社)53による1950年以来の特許記録内で新原薬として特許請求された構造のデータセットが、Integrityデータベースを使用して収集された。含まれるすべての化合物に対して優先日が割り当てられた。独自の記録のみを収集するために濾過手順が実行され、22,000個の化合物がもたらされた。構造は以下の準備手順:塩部位削除、誤り訂正、濾過(薬らしくない要素、同時元素)、クラスタ化およびクラスタ正規化、異常値除去、ならびに重複除去を受けた。最終的なデータセットは17,000個の記録を含んでいた。
【0129】
モデル
【0130】
生成テンソル強化学習モデルであるGENTRL、潜在空間(図11)内の豊富な事前分布を有する変分自動エンコーダが生成パイプラインの心臓部であった。GENTRLモデルは、特定の生物学的標的に適応された、学習および生成空間200ならびに生成戦略空間208を含む。GENTRLモデルは、本明細書に記載された化合物の基のタイプを含むことができる化学データセット202を含む。化学データセット202は、エンコーダ204に(たとえば、入力ベクトルとして)入力され、潜在空間206内に化合物を生成するために処理される。潜在空間は、医薬品化学フィルタ(MCF)210、医薬品化学エボリューション(MCE)212、およびpIC50 214で調節される。潜在空間206は、潜在空間218内に化合物を生成する生成器215による生成戦略を利用し、化合物は、次いで、SOM報酬(たとえば、トレンディングSOM、一般SOM、および特定SOM)などの報酬220によってフィルタリングされる。潜在空間206は、化学空間内の生成化合物222を生成するために、生成器216の中に結果を出力する。これらの生成化合物は、次いで、標的に対して生物学的活性であるように合成および検証することができる。このように、訓練手順は2つのパートから構成される。最初の段階では、分子構造と特性との間の関係を学習するように条件付きモデルが訓練される。2番目の段階では、高い報酬を有する見込みがある分子を見つけるために化学空間が探査される。
【0131】
GENTRLモデルは、テンソル分解を使用して、分子構造とそれらの特性との間の関係を符号化する。GENTRLモデルは、欠測値を入力することなく半教師付き方式で訓練される。GENTRLモデルのコードは、github.com/insilicomedicine/gentrlにおいて入手可能である。
【0132】
テンソルトレイン分解54は、比較的小さい数のパラメータで高次元テンソルを近似する。不連続なランダム変数r∈{0,…N-1}の同時分布p(r,r,…,r)は、n次元テンソルの要素として表すことができる。
【0133】
【0134】
ここで、テンソル
はコアであり、1はコアのベクトルであり、Zは正規化定数である。コアサイズが大きいほど、より良く分布が近似されるが、パラメータの数はコアサイズmを二乗のオーダーで大きくする。テンソルトレインでは、任意の変数に対して分布を効率的に周縁化することができる。
【0135】
【0136】
ここで、
は効率的に計算することができる。周辺分布では、連鎖法則を使用して条件付き分布およびサンプルを計算することができる。正規化定数Zは、
【0137】
によって与えられる。
【0138】
生成自動エンコーダは連続的な潜在コードを使用するので、連続的なテンソルトレイン表現が使用される。記号を簡単にするために、潜在コードzは連続的であり、特性yは連続的であると仮定する。分布pψ(z)は、成分指数sを有するガウス分布の混合物と仮定する。zおよびy上の同時分布は、
【0139】
である。
【0140】
条件付き分布pψ(z|y,s)の場合、yに依存しない完全に因数分解されたガウス分布が選択される。
【0141】
【0142】
分布pψの調節可能なパラメータは、ガウス分布成分のテンソルトレインコアQ、平均値
、および分散値
である。テンソルWはテンソルトレインフォーマットで格納される。結果として得られた分布は、
【0143】
になる。
【0144】
モデルは、事前分布pψ(z,y)、エンコーダqφ、およびデコーダpθを有する変分自動エンコーダである。訓練例(x,yob)を考え、ここで、xは分子であり、yobはその既知の特性である。モデルについての証拠下限は、
【0145】
である。
【0146】
分子はその特性を特定するので、qφ(z|x,yob)=qφ(z|x)であると仮定する。また、pθ(z|x,yob)=pθ(z|x)であると仮定し、オブジェクトがその潜在コードによって完全に定義されることを示す。結果として得られた証拠下限は、
【0147】
である。
【0148】
ここで、z~qφ(z|x)である。提案された同時分布pψ(z,y)の場合、観察された特性を与えられた潜在コード上の事後分布pψ(z|yob)を分析的に計算することができる。
【0149】
証拠下限を最大化することにより、上述されたデータセット上で先験的に自動エンコーダを訓練し、MCE-18、pIC50(IC50の負の対数)、および分子がMCFをパスしたかどうかを示すバイナリ特徴を含む、分子の特性(たとえば、状態)とともにデータセットからSMILESフォーマットで分子をサンプリングする。このモデルを訓練し、化学空間から潜在コードへのマッピングを取得する。このマッピングは、分子とそれらの物理化学特性との間の関係を知っている。
【0150】
訓練の次の段階では、特定の生物学的標的の阻害剤(たとえば、DDR1キナーゼ阻害剤)に対してモデルを微調整する。強化学習(RL)を使用して、次のセクションに記載される報酬関数(たとえば、一般キナーゼSOM、特定キナーゼSOM、およびトレンディングSOM)で新規の阻害剤に向かって潜在多様体を拡張した。(対数微分トリックとしても知られた)REINFORCE55アルゴリズムを使用して、モデルを直接最適化した。
【0151】
【0152】
勾配の分散値を削減し、「ベースライン」と呼ばれる標準分散値削減技法を使用した-バッチ内のすべての分子に対する報酬を計算した後、各報酬からバッチ内の平均報酬を減算した。
【0153】
【0154】
化学空間のマッピングを保存するために、エンコーダおよびデコーダのパラメータを固定し、多様体分布pψ(z)のみを訓練した。探査手法と開発手法を組み合わせた。探査のために、現在探査されている潜在空間から外側のzexplore~N(μ,(2σ))をサンプリングし、ここで、μおよびσはすべての次元についてのpψ(z)の平均値および分散値である。新しく発見された領域に対する報酬R(zexplore)が高かった場合、潜在多様体はその領域に向かって拡張した(図11の生成戦略208)。
【0155】
生成化学モデルの比較は、この新興分野の発展のために非常に重要であり、開発においていくつかのベンチマーキングプラットフォームが存在する56、57。ORGAN38、39、RANC18、およびATNC17などの以前の手法とのGENTRLの性能の比較に成功し、支援情報において訓練の詳細を提供する。
【0156】
提案されたパイプラインは、生物学的標的に対する阻害剤(たとえば、DDR1阻害剤)の生成のために良好に実行された。いくつかの態様では、ワークフロープロトコルは、モード破壊しやすくならないように、適切なハイパーパラメータの調節および探査を実行し、GENTRLを構成することができる。これは、pψ(z)のエントロピーを追跡し、エントロピーが急激に低下した場合に探査速度を上げることによって行うことができる。また、見込みがある分子のうちのいくつかが探査領域N(μ,(2σ))のはるか外側にある場合、モデルは決してそれらを発見しない。特別な多目的強化学習技法を使用して、すべての報酬上の均衡をとることも有用であり得る。最後に、いくつかのタスクについて、強化学習訓練中に潜在空間とともにデコーダを訓練することは有益であることが分かった。
【0157】
報酬関数
【0158】
報酬関数はコホネンSOMに基づいて開発された(図12A図12D)。図12A図12Dは、一般キナーゼSOMおよびトレンディングSOMの平滑化された表現を示す。このアルゴリズムは、独自の教師なし機械学習次元削減技法としてテウヴォ・コホネン58によって導入された。それは、信頼できる偏りがない方式で入力化学空間内に隠された固有のトポロジーおよびパターンを効果的に再生することができる。入力化学空間は、通常、分子記述子(入力ベクトル)の観点から記載されるが、出力においては、視覚的検査に便利な2Dまたは3Dの特徴マップが生成される。報酬関数として3つのSOMの集団が使用された:最初のSOMはキナーゼに対する化合物の活性を予測するように訓練され(一般キナーゼSOM、Rgeneral)(たとえば、一般生物学的標的ファミリSOM)、2番目のSOMは全体的なキナーゼマップ内のDDR1阻害剤に関連付けられた神経細胞内に位置する化合物を選択するために開発され(特定キナーゼSOM、Rspecific)(たとえば、特定生物学的標的SOM)、最後のSOMは医薬品化学における現在の傾向の観点から化学構造の新規性を査定するように訓練された(トレンディングSOM、Rtrending)。学習中、生成モデルは、生成された構造がキナーゼに対して活性がある分子として分類されたときに報奨され、DDR1阻害剤に起因して神経細胞内に配置され、ならびに比較的新規である傾向があった。
【0159】
トレンディングSOM
【0160】
追加の報酬関数として、割り当てられた優先日をもつ知的所有権記録において特許請求された、トップ10製薬会社によって分子の訓練データセットに基づいて開発されたコホネンマップも使用した。訓練手順のために以下の主要な分子記述子が選択された:MW、LogP(親油性、オクタノール1/水系における計算された分配係数)、LogS(水中の溶解性)、PSA(極性表面の面積、Å)、HBA、HBD、SS、MCE-18(医薬品化学エボリューション)。MCE-18関数は、化学エボリューションとよく相関し、分子の真の非平面性対単純で偽陽性のSPレートを反映する。MCE-18は、新規性の観点から現代の医薬品化学において観察された傾向に従うには十分敏感である。マップサイズは、15×15の2D表現(ランダム分布しきい値は神経細胞当たり75分子であった)、学習エポック:2000、初期学習速度:0.4(線形減衰)、初期学習半径:10であり、勝利する神経細胞はユークリッド距離を使用して決定された。初期重量係数は、ランダム分布を使用して生成された。訓練プロセスが完了した後、異なる時期に特許請求された化合物を含む領域が表示された(図12A)。図12Aに示されたように、(2015~2018の間に特許請求された)比較的新規の特許記録に記載されている分子はマップの別個の領域に位置するが、「ベッキョ」構造は統計的に関連する分類を提供する根本的に個別の領域内に主として配置される。マップ内で、長年の間固有の傾向を明確に観察しており、簡単なベクトルのセットとしてその傾向を描写する。新規の構造(最近10年間)に属する神経細胞は、「古代の」化学タイプに関連付けられた神経細胞とは対照的にAIコアを報奨するために使用された。
【0161】
一般キナーゼSOM
【0162】
前処理された訓練データセットは、合計41,000個の小分子化合物:24,000個のキナーゼ阻害剤および非キナーゼ標的に対して(<1μMの濃度において)報告された活性を有する17,000個の分子を含んでいた。データベース全体の場合、RDKit59、Mordredライブラリ60、およびSmartMining Software61、62を使用して、2Kを超える分子記述子が計算された。記述子は、二変数生徒のt値に従ってランク付けされ、次いで、キナーゼ化学構造と非キナーゼ化学構造との間を区別するために最も特権的かつ理論的に有効なものとして、9つの記述子が選択された。セットは、MW(分子量、t=-63.4)、Q’(二重に正規化された二次指数、t=77.3)、SS(共通電子トポロジー指数、t=-69.3)、S[>C<](部分SS指数、t=-50.3)、1Ka(第一キールトポロジー指数、t=-66.5)、Hy(親水性指数、t=-55.9)、VDWvol(加重原子ファンデルワールス容積、t=-70)、HBA(水素結合受容体の数、t=-34.0)、HBD(水素結合供与体の数、t=-8.5)、およびRGyr(旋回半径、t=-55)を含んでいた。マップサイズは15×15の2D表現(ランダム分布しきい値は神経細胞当たり177分子であった)、学習エポック:2000、初期学習速度:0.3(線形減衰)、初期学習半径:8、勝利する神経細胞はユークリッドメトリックを使用して決定された、初期重量係数:ランダム分布であった。訓練プロセスが完了した後、キナーゼ阻害剤および他の生物学的標的に対して活性がある分子が集まった領域が強調表示された。これら2つのカテゴリからの化合物が主にマップ内の別個の領域に配置されたことが観察された(図13B図13D)。神経細胞は、次いで、以下の特権因子(PF):
に基づいて優先順位付けされ、ここで、
は第iの神経細胞内に位置するキナーゼ阻害剤の割合であり、
は同じ神経細胞内に位置する他の分子の割合であり、逆もまた同様である。1.3より大きいPF値は、これら2つのカテゴリのうちの1つに神経細胞を割り当てるために、しきい値として使用された。審査すると、マップ内に「死んだ」神経細胞は存在しなかった。平均分類確度は、ランダムなしきい値で84%であった。すべての生成された構造は、学習サイクル中ならびに優先順位付けステップにおいて、このモデルを使用して採点された。誤りが最も低い(ユークリッドメトリック)キナーゼ阻害剤として分類された化合物は、その後、特定キナーゼSOMを受けた。
【0163】
特定キナーゼSOM
【0164】
キナーゼ阻害剤化学空間の中でDDR1阻害剤で割り当てられたノードの同定用のコホネンマップを構築するために、同様の手順が実行された。一般キナーゼSOM(上記参照)によってキナーゼ阻害剤として分類された構造は、入力化学プールとして使用された。分子記述子の最終セットは、MW(t=-44)、Q’(t=37)、1Ka(t=-42)、SS(t=-52)、Hy(t=-30)、VDWsumvol(t=-35)、HBA(t=-40)、およびHBD(t=14)を含んでいた。マップサイズは、10×10の2D表現(ランダム分布しきい値は神経細胞当たり245分子であった)であり、学習設定は、6に等しかった初期学習半径を除き、一般キナーゼSOMに適用されたものと同一であった。マップが構築された後、少なくとも1つのDDR1阻害剤を含む神経細胞が同定された。正式な平均分類確度は68%であり、DDR1阻害剤に向かうバイアスが観察された。「活性の」神経細胞は、次いで、学習手順中に構造を選択してコアGENTRLを報奨するために、かつ優先順位付けプロセスのために使用された。この場合、過剰訓練を克服し、地理的近接のまわりで動作する生成された構造についての新規性を高める選択決定にPFを使用しなかった。
【0165】
活性基仮説
【0166】
PDBデータベース(PDBコード:3ZOS、4BKJ、4CKR、5BVN、5BVO、5FDP、5FDX、6GWR)内の利用可能なX線データに基づいて、DDR1阻害剤を記述する3つの活性基モデルが開発された。リガンドの重畳を取得するために、複合体の3D整列が実行された。これらの3中心、4中心、および5中心の活性基仮説は、DFGモチーフに近接して位置するポケット内のヒンジ領域、芳香族/疎水性リンカ、および疎水性中心において、水素結合受容体を含むDDR1キナーゼの活性部位に結合することに関与する主要な特徴を含む。活性基の特徴および距離の詳細情報については、図2A図2Cを参照されたい。
【0167】
非線形サモンマッピング
【0168】
最終選択を行うために、サモンベースのマッピング技法63を使用した。このアルゴリズムの主な目標は、視覚的に理解しやすい2Dまたは3Dの次元プロット上の入力化学空間内に隠された局部の幾何学的および位相的な関係の近似にある。この方法の基本的な考えは、初期データセットの高次元性を低次元の特徴空間に実質的に低減させることであり、本態様では、それはSOM手法および多次元スケーリングに似ている。しかしながら、他のアルゴリズムとは対照的に、古典的なサモンベースの方法は、入力ベクトルサンプルの全空間内のすべてのオブジェクト間のペアワイズ距離と同じグローバルな地理的関係を反映する投影を科学者が構築することを可能にする。上述されたすべての選択手順のパスに成功した構造が、入力化学空間として使用された。マッピングのために、特定キナーゼSOMに適用された分子記述子の同じセットが使用され、活性基モデル化の間に取得されたRMSD値がさらなる入力として追加された。ユークリッド距離が類似性メトリックとして使用された:応力しきい値:0.01、相互作用数:300、最適化ステップ:0.3、構造類似性因子:0.5。結果として得られたマップ(図3)は、構造がサモンプロット内で正規分布されたことを実証する。
【0169】
分子生成および選択手順
【0170】
GENTRLモデルを使用して、学習された多様体pψ(z)から潜在コードをサンプリングし、デコーダ分布pθ(x|z)から構造をサンプリングすることにより、30,000個の固有の有効な構造が生成された。合成および生物学的研究向けの分子のバッチを選択するために、優先順位付けパイプラインが開発された(拒絶された分子の例については、図13を参照)。最初のステップにおいて、以下の分子記述子しきい値:-2<logP<7、250<MW<750、HBA+HBD<10、TPSA<150、NRB<10を使用して、データセットは12,147個のサイズの化合物に縮小された。その後、潜在的に毒性の構造およびよく反応し望ましくない基を含む化合物を取り除くために、150個のMCFが適用された。これらには、1,4-付加用基質(マイケル-ベアリング部分)および他の求電子種(たとえば、パラ-またはオルト-ハロゲン置換ピリジン、2-ハロゲン置換フランおよびチオフェン、ハロゲン化アルキル、アルデヒド、ならびに無水物など)、ジスルフィド、イサチン、バルビツール酸塩、変形複素環、縮合多環芳香族系、浄化剤、ヒドロキサム酸およびジアゾ化合物、過酸化物、不安定なフラグメント、ならびにエステル誘導体が含まれる。加えて、以下の:<2NO基、<3Cl、<2Br、<6F、<5芳香環、Si、Co、またはPのような望ましくない原子を含む、より自明なフィルタリング規則を使用して、全化学空間内に広がる構造の数を、よりコンパクトに薬らしく偏って合理的に削減した。この手順の結果、7912個の構造がもたらされた。次いで、RDKitパッケージに実装されたタニモト類似性および標準モルガン指紋に基づいて、クラスタ化分析が実行された。0.6の類似性しきい値を満たしたすべての化合物は、同じクラスタに割り当てられ、クラスタ当たりの最小値は5つの構造である。各クラスタ内部で、化合物は、それらの内部相違係数52に従って分類されて、構造内で最大の多様性を有するトップ5の項目が出力された。結果として、データセットは5542個の分子に縮小された。次いで、ベンダの集合(MolPort64およびZINC51)を使用して類似性探索を実行し、類似性>0.5を有する900個の化合物をさらに取り除いて、生成された構造の新規性を増大させた。一般キナーゼSOMおよび特定キナーゼSOMは、DDR1キナーゼに対する化合物の潜在的な活性によって化合物を優先順位付けするために使用された。一般キナーゼSOMによってキナーゼ阻害剤として分類された2570個の分子から、1951個の分子が特定キナーゼSOMによってDDR1阻害剤として分類され、活性基ベースの仮想スクリーニングに使用された。分子ごとに、ユニバーサル力場(UEF)65のRDKitの実装形態を使用して、10個の配座が生成および最小化された。開発された仮説を使用して、次いで、スクリーニング手順が実行され、少なくとも1つの活性基仮説と一致する848個の分子についてのRMSD値のセットがもたらされた。サモンマッピングに基づいて、4中心および5中心の活性基について取得されたRMSD値の領域(表5)に特別な注意を払いながら、ランダム選択手順が実行された。結果として、合成および次の生物学的評価のために40個の分子が選択された。
【0171】
3c_rmsd - 3中心活性基仮説に一致した化合物についてのRMSD値
4c_rmsd - 4中心活性基仮説に一致した化合物についてのRMSD値
5c_rmsd - 5中心活性基仮説に一致した化合物についてのRMSD値
NA - 化合物は活性基仮説に一致しなかった
【0172】
第1原理計算の詳細
【0173】
上記のRDKit/UFF方法論によって予測された最も低い配座異性体に対して第1原理計算が実行された。6-31++Gバイアスセットを有する一重励起および二重励起を含む局所相関結合クラスタ方法(LCCSD)を使用して、幾何形状最適化が実行された。LCCSD(T)レベルの理論で最終的なエネルギーが計算された。初期分子軌道を取得するために局所化Pipek-Mezey手順が使用された。
【0174】
結合シミュレーション
【0175】
マエストロスイート66内で分子モデル化が実行された。Prepモジュールを使用して、PDB構造3ZOSが前処理され、エネルギーが最小化された。20Åの緩衝寸法を有するATP結合部位のまわりに結合部位グリッドが生成された。最適化されたリガンド構造を使用する極精細(XP)滑走によって結合姿勢が生成された。-15kcal/molのその最低結合スコアに基づいて最終モデルが選択された。
【0176】
シトクロム阻害
【0177】
検定および分析に使用される水は、ELGAラボ浄化系によって浄化された。100mMの濃度のリン酸カリウム緩衝液(PB)および33mMの濃度のMgClが使用された。検査化合物(化合物1および化合物2)ならびに標準阻害剤(α-ナフトフラボン、スルファフェナゾール、(+)-N-3-ベンジルニルバノール、キニジン、ケトコナゾール)の希釈標準溶液(100×)が準備された。ミクロソームは、氷上で解けるために-80℃のフリーザから出され、日付がラベル付けされ、使用後直ちにフリーザに戻された。20μLの基質溶液が対応する凹所に加えられた。20μLのPBが空の凹所に加えられた。2μLの検査化合物および陽性対照希釈標準溶液が対応する凹所に加えられた。次いで、HLM希釈標準溶液が準備された。158μLのHLM希釈標準溶液がインキュベーションプレートのすべての凹所に加えられた。プレートは、37℃の水槽で約10分間事前に暖められた。次いで、NADPH補因子溶液が準備された。20μLのNADPH補因子がすべてのインキュベーション凹所に加えられた。溶液は、37℃の水槽で約10分間混合およびインキュベーションされた。この時点で、400μLの冷却停止溶液(ACN内の200ng/mLのトルブタミドおよび200ng/mLのラベタロール)を加えることによって反応が終了した。サンプルは、タンパク質を沈殿させるために20分間4000rpmで遠心分離機にかけられた。200μLの上澄みが100μLのHPLC水に移され、10分間シェイクされた。達成手段対照対検査化合物濃度の割合をプロットするために、かつデータの非線形回帰分析のためにXLfitが使用された。3-または4-パラメータロジスティック方程式を使用してIC50値が決定された。最も高い濃度(50μM)における%阻害が50%未満であるとき、IC50値は「>50μM」として報告された。表2を参照されたい。
【0178】
ミクロソーム安定性
【0179】
化合物2のミクロソーム安定性は以下のようにアクセスされた:化合物2の希釈標準溶液および対照化合物(テストステロン、ジクロフェナク、プロパフェノン)が準備された。NADPH粉末(β-ニコチンアミドアデニンジヌクレオチドリン酸還元型、四ナトリウム塩、NADPH・4Na、ベンダ:Chem-impex international、Cat.No.00616)の適切な量が加重され、MgCl(10mM)溶液(希釈標準溶液濃度:10単位/mL、反応系内の最終濃度は1単位/mLである)の中に希釈された。適切な濃度のミクロソーム希釈標準溶液(ヒト:HLM、Cat No.452117、Corning;SDラット:RLM、Cat No.R1000、Xenotech;CD-1マウス:MLM、Cat No.M1000、Xenotech;ビーグル犬:DLM、Cat No.D1000、Xenotech)が、100mMのリン酸カリウム緩衝液とともに準備された。内部標準(IS)として100ng/mLのトルブタミドおよび100ng/mLのラベタロールを含む冷却アセトニトリル(ACN)が溶解を停止するために使用された。マトリクスブランクを除くすべてのプレート(T0、T5、T10、T20、T30、T60、NCF60)に、10μLの化合物または対照希釈標準溶液/凹所が加えられた。分配80μL/凹所のミクロソーム溶液がApricotによってすべてのプレートに加えられ、ミクロソーム溶液と化合物の混合物が約10分間37℃でインキュベーションされた。事前加温の後、反応を開始するために、分配10μL/凹所のNADPH再生系がApricotによってすべてのプレートに加えられた。次いで、溶液が37℃でインキュベーションされた。反応を終了するために、300(μL/凹所)の停止液(4℃の低温)が加えられた。サンプリングプレートが約10分間シェイクされた。サンプルが4℃以下で20分間4000rpmで遠心分離機にかけられた。遠心分離機にかけている間、8×新しい96個の凹所プレートが300μLのHPLC水で一杯にされ、次いで、100μLの上澄みが移され、LC/MS/MSのために混合された。表3を参照されたい。
【0180】
緩衝液安定性
【0181】
化合物2の安定性は、リン酸緩衝液(pH=7.0およびpH=7.4)の中でアクセスされた。(10μMの)検査化合物が50mMのリン酸緩衝液、pH=7.4および8mMのMOPS、pH7.0、0.2mMのEDTA、pH=7.0とともに25℃とでインキュベーションされた。複製サンプルが使用された。時間サンプル(0、120、240、360、および1440分)が取り出され、内部標準(IS)を含む冷たい50%のアセトニトリル/水と直ちに混合された。中立基本状態でのこの分析における陽性対照としてクルクミンが使用された。サンプルがLC/MS/MSによって分析され、検体/IS(非標準曲線)のピーク面積比に基づいて検査化合物の消滅が査定された。表4を参照されたい。
【0182】
GENTRLモデル用のハイパーパラメータ
【0183】
アーキテクチャ
【0184】
エンコーダqφ(z|x)は、隠れサイズ128のゲート型再帰ユニット(GRU)69を有する2レイヤ再帰型ニューラルネットワークであった。デコーダpθ(x|z)は、128チャネルを有する7レイヤスタック型拡張コンボリューションであった。潜在空間zは、各次元に10個の混合化合物を有する50次元であった。テンソルトレインのコアサイズmは30であった。
【0185】
自動エンコーダの訓練
【0186】
潜在多様体への化学空間のマッピングを学習するために複数の分子特性yが使用された。すべての訓練分子について、MCE-18、および分子が医薬品化学フィルタのパスに成功したかどうかを示すバイナリフラグMCFが計算された。キナーゼおよび「陰性」データセットからの分子の場合、分子が(値が未知であったこれらのデータベースの外部の分子用の)キナーゼであったかどうかが指定された。既知のDDR1阻害剤に対して、pIC50が指定された。更新ごとに、200個の分子:DDR1からの60個の活性分子、ZINCからの60個の分子、キナーゼデータセットからの20個の分子、陰性データセットからの20個、および特許記録からの40個の分子を含むバッチが構築された。10-4の学習速度を有するAdam70オプティマイザが使用され、300,000回の更新のために最適化手順が実行された。
【0187】
強化学習:Adamオプティマイザ、学習速度2・10-5、およびバッチサイズ200による2,000回の更新のためにREINFORCEアルゴリズムを用いてモデルが訓練された。確率0.1および標準バッチz~pψ(z)を用いて予備バッチzexploreがサンプリングされた。50,000個のランダムにサンプリングされた分子から推定され、97.8%が有効であり、73%が固有であった。
【0188】
生物学的研究
【0189】
生化学分析
【0190】
Eurofinsによって実験手順が実行された。hDDR1キナーゼおよびhDDR2キナーゼに対する分子の活性は、KinaseProfiler67を使用して査定された。それぞれ、8mMのMOPS緩衝液(pH=7.0)、0.2mMのEDTA、250μMの標的タンパク質hDDR1キナーゼおよびhDDR2キナーゼ、10mMの酢酸マグネシウム/塩化マンガン、ならびに[γ-33P]-ATPとともに、酵素サンプルがインキュベーションされた。酵素反応は、40分間室温でMg2+陽イオンおよびATPの存在下で処理され、リン酸の添加によって終了した。反応混合液(10μL)がP30フィルタマット上に置かれ、0.425%のリン酸を使用して4回洗浄され、メタノールでもう一度洗浄された。すべての化合物が100%のDMSO内に準備された。スタウロスポリンが基準阻害剤として使用され、完全な阻害をもたらす推定された濃度で各プレートに加えられた。Scan Max Delta Panel[10μMのATP]KinaseProfiler68を使用して、Dundee Eurofinsにおいて非標的キナーゼに対する選択性の生物的評価が実行された。
【0191】
自動リン酸化
【0192】
HAタグを有するヒトのDDR1b遺伝子がpCMV Tet-Onベクトル(Clontech)の中にクローン化され、U2OS内に確立された安定した誘導細胞株がIC50検査に使用された。細胞が12個の凹所プレート内に蒔かれ、マウスのしっぽのコラーゲンI(sigma#11179179001)によるDDR1活性化より前に5%のCOを有する湿度調節されたインキュベーション器内で37℃で48時間10μg/mlのドキシサイクリン(Selleckchem#S4163)でDDR1bの発現が誘導された。トリプシン処理で細胞が分離され、15mlチューブに移された。次いで、0.5時間化合物で前処理された後、細胞は37℃で1.5時間10μg/mlのマウスのしっぽのコラーゲンIの存在下で化合物で処理された。処理の最後に、各サンプルは1回冷却PBSで洗浄され、4℃で20分間プロテアーゼ阻害剤およびホスファターゼ阻害剤(Sigma#0278、Sigma#P5726、およびSigma#P0044)を有するRIPA緩衝液内で溶解した。遠心分離によって溶解物が除去され、活性化されたヒトのDDR1b(Y513)(Cell Signaling#14531S)、ストリッピング後のDDR1b(HAタグ、sigma#H9658)、およびGAPDHについて、上澄みがウエスタンブロット分析を受けた。各バンドの積分強度が定量化され、評価された化合物のIC50値が10ポイント3倍の希釈系列上で計算された。
【0193】
MRC-5線維症分析
【0194】
MRC-5細胞は、1%のMEM非必須アミノ酸(Invitrogen、11140-050)、10%のウシ胎仔血清(Hyclone、SV30087.03)、ペニシリン(100U/mL)-ストレプトマイシン(100μg/mL)(Millipore、TMS-AB2-C)、および2mMのL-グルタミン(Invitrogen、25030-001)が供給されたMinimum Essential Medium Eagle(Sigma、M2279)内で成長した。24時間12個の凹所プレートにおいて細胞が成長した後、細胞培地は、2%のウシ胎仔血清を使用することを除き、上記と同じに変更された。縮小された血清培地内での20時間の成長後、細胞は30分間示された用量の化合物で処理された。その後、細胞は、48時間または72時間10ng/mLのTGF-β(R&D Systems、240-B-002)で刺激された。細胞は、4℃でプロテアーゼ阻害剤カクテル(Roche、04693132001)が補填された100mLのRIPA緩衝液(Sigma、R0278)で採取される前に、DPBSで2回すすがれた。各サンプル内の総タンパク質含有量は、BCAタンパク質分析キット(Pierce(登録商標)、23227)を使用して定量化され、各サンプルの等しい量の総タンパク質が、製造業者の指示に従ってWES自動ウエスタンブロットシステム(ProteinSimple、Bio-techne)上に装填された。使用された抗体は、Santa Cruz Biotechnologiesからのマウスの抗α-アクチン(SPM332)(sc-365970)およびマウスの抗CTGF(E5)(sc-365970)、ならびにマウスの抗GAPDH(6C5)(EMD Millipore、MAB374)であった。
【0195】
LX-2線維症分析
【0196】
ヒトの肝星細胞LX-2は、1%のMEM非必須アミノ酸(Invitrogen、11140-050)、2%のウシ胎仔血清(Hyclone、SV30087.03)、ペニシリン(100U/mL)-ストレプトマイシン(100μg/mL)(Millipore、TMS-AB2-C)、および2mMのL-グルタミン(Invitrogen、25030-001)が供給されたDMEM(Invitrogen,11960)内で成長した。24時間12個の凹所プレートにおいて細胞が成長した後、細胞培地は、0.4%のウシ胎仔血清を使用することを除き、上記と同じに変更された。縮小された血清培地内での20時間の成長後、細胞は30分間示された用量の化合物で処理された。その後、細胞は、48時間4ng/mLのTGF-β(R&D Systems、240-B-002)で刺激された。細胞は、4℃でプロテアーゼ阻害剤カクテル(Roche、04693132001)が補填された100μLのRIPA緩衝液(Sigma、R0278)で採取される前に、DPBSで2回すすがれた。各サンプル内の総タンパク質は、BCAタンパク質分析キット(Pierce(登録商標)、23227)によって定量化され、各サンプルの等しい量の総タンパク質がウエスタンブロット分析を受けた。使用された抗体は、Santa Cruz Biotechnologiesからのマウス抗α-アクチン(SPM332)(sc-365970)、マウス抗CTGF(E5)(sc-365970)、およびマウス抗コラーゲンα1(3G3)(sc-293182)、ならびにマウス抗GAPDH(6C5)(EMD Millipore、MAB374)であった。
【0197】
細胞毒性
【0198】
LX-2細胞が化合物の存在下で96個の凹所プレートに蒔かれ、製造業者の指示に従ってCellTiter-Glo(登録商標) Luminescentの細胞生存分析が実行される前に72時間成長することが可能にされた。GraphPad Prismソフトウェアを使用して10線量で3倍の化合物希釈系列に対して細胞毒性(CC50)が計算された。
【0199】
化合物1および2の物理化学特性が表6に示されている。
*予測値
**LE = 1.4*(pIC50)/N, N - 重原子の数
【0200】
完全なマウスPK研究は、10mg/kgの化合物1のIV投与に対して生じる。製剤:NMP/PEG400/H20=1:7:2の5mg/mLの澄明な液が表7に示されている。
ND=未決定(定義が不十分な最終排泄段階のためにパラメータが決定されていない)
BQL=計量下限以下(LLOQ)
調整されたrsq(最終段階での濃度値の線形回帰係数)が0.9未満である場合、T1/2は正確に推定されない可能性がある
%AUCExtra>20%である場合、AUC0-inf、Cl、MRT0-inf、およびVdssは正確に推定されない可能性がある
%AUMCExtra>20%である場合、MRT0-infおよびVdssは正確に推定されない可能性がある
調整された最終段階での濃度値の線形回帰係数が0.9未満である場合、T1/2は正確に推定されない可能性がある
バイオアベイラビリティ(%)は投薬量とともにAUC0-inf(%AUCExtra<20%)またはAUC0-last(%AUCExtra>20%)を使用して計算された
【0201】
完全なマウスPK研究は、15mg/kgの化合物1のPO投与に対して生じる。製剤:NMP/PEG400/H20=1:7:2の3mg/mLの澄明な液が表8に示されている。
ND=未決定(定義が不十分な最終排泄段階のためにパラメータが決定されていない)
BQL=計量下限以下(LLOQ)
調整されたrsq(最終段階での濃度値の線形回帰係数)が0.9未満である場合、T1/2は正確に推定されない可能性がある
%AUCExtra>20%である場合、AUC0-inf、Cl、MRT0-inf、およびVdssは正確に推定されない可能性がある
%AUMCExtra>20%である場合、MRT0-infおよびVdssは正確に推定されない可能性がある
調整された最終段階での濃度値の線形回帰係数が0.9未満である場合、T1/2は正確に推定されない可能性がある
バイオアベイラビリティ(%)は投薬量とともにAUC0-inf(%AUCExtra<20%)またはAUC0-last(%AUCExtra>20%)を使用して計算された
【0202】
事例研究
【0203】
第1の事例研究において生体内活性のDDR1阻害剤およびDDR2阻害剤(図1図12、および図15を参照)を生成するために、生成テンソル強化学習(GENTRL)モジュールが使用された。本明細書に記載されたように、GENTRLモジュール(たとえば、モデルまたはモデルの組合せ)は、RLを最適化する高度VAEであり、化合物の合成実現可能性、生物学的標的に対するその有効性、およびそれが他の分子とどれほど異なるかを優先順位付けする。モデルの訓練および検証は、ZINCデータベースから取得された分子のセットを使用して行われた。炭素、窒素、酸素、硫黄、フッ素、塩素、臭素、および水素以外の原子を含む構造が取り除かれた。潜在的に毒性がありよく反応する基を有する化合物を除去するために、MCFが適用された。加えて、既知のDDR1キナーゼ阻害剤のデータセット、共通キナーゼ阻害剤のセット(陽性セット)、非キナーゼ標的に対して活性がある分子のセット(陰性セット)、および製薬会社によって特許請求された生物学的活性分子についての特許データが含まれた。特許記録内の新原薬として特許請求された構造のデータセットおよびDDR1阻害剤用の3D構造を収集するためにIntegrityデータベースが使用された。
【0204】
GENTRLモジュールは、以下のように優先順位付けされた合計30,000個の固有の有効な構造を生成した。第1に、分子記述子しきい値を使用してセットが12,147個の化合物に縮小され、潜在的に毒性の構造およびよく反応し望ましくない基を含む化合物を取り除くためにMCFが適用された。次いで、シリコン、コバルト、またはリンなどの望ましくない原子を除外するためにフィルタリング規則が使用された。この手順の結果、7,912個の構造のサブセットがもたらされた。タニモト類似性および標準モルガン指紋に基づく次のクラスタ化分析が、5,542個の分子のセットをもたらした。次いで、DDR1キナーゼに対する化合物の活性によって化合物を優先順位付けするために、一般キナーゼSOMおよび特定キナーゼSOMが使用された。1,951個の分子がDDR1阻害剤として分類され、活性基ベースの仮想スクリーニングに使用された。サモンマッピングに基づいて、4中心および5中心の活性基について取得されたRMSD値の領域に特定の注意を払いながら、ランダム選択が実行された。
【0205】
連続フィルタリングステップが考慮中の化合物の数をさらに削減した。最終採点結果に基づいて、40個の分子が次の生物的評価向けに選択された。それらの選択性プロファイルおよびSAに基づいて、それらのうちの6つが選ばれた。本明細書のこれら6つの化合物(たとえば、化合物1~6)は、酵素キナーゼ分析においてそれらの体内阻害活性について検査された。結果は、好ましい物理化学特性を有する2つの化合物が、DDR1に対する選択性を見せながらDDR1活性を強く阻害したことを示した。げっ歯類モデルを使用して、最も見込みがある化合物の薬物動態が生体内検査された。
【0206】
第2の事例研究(図1図12、および図15を参照)は、SARS-CoV-2 3C様プロテアーゼ(Mpro)の非共有結合的阻害剤を生成することを目標にした。非共有結合的阻害剤を設計するためにプログラムを起動する理由は、科学界内で行われた初期の取り組みの大部分がSARS-CoV-2 Mpro共有結合的阻害剤に焦点を当てたが、非共有結合的阻害剤を同定する可能性があまり調査されずに残ったことである。しかしながら、共有結合的阻害剤は、副作用の高い確率のために患者を治療するのに常に適切ではないが、それらの治療指数が高い非共有結合的阻害剤は、それらの減少した効能にかかわらず代替案を提供する。
【0207】
方法および時間枠はDDR1の事例研究と同様であった。最初のステップは、DLモデルの訓練および検証に使用されるべきデータセットを選択し、フィルタリングし、処理することであった。主要プロテアーゼのデータセットは、Integrityデータベースから抽出された、酵素分析においてプロテアーゼに対して活性がある分子が集められた。標準化手順の間に構造的な複製が除外され、塩部位が取り除かれた。非薬物様分子ならびに8つを超える原子およびポリペプチドを有する輪体を含む構造を除外するためにMCFが適用された。最終的なデータセットは60,293個の固有の構造を含んでいた。生成されるべき構造のタイプに採点メトリックおよび報酬関数を適合させるために、共通ペプチド模倣薬サブ構造に対するSMARTS照会を使用して、プロテアーゼデータセットからプロテアーゼペプチド模倣薬データセットが抽出された。最終的なプロテアーゼペプチド模倣薬データセットは5,891個の化合物を含んでいた。
【0208】
新規分子構造の生成のために、リガンドベースおよびポケットベースの手法が使用された。そのためには、ポケットおよびリガンドの特徴が、それぞれ、同じPDB記録から導出された結合部位アミノ酸環境および共結晶化フラグメント6W63から取得された。
【0209】
全体で、28個のMLモデルが分子構造を生成するために使用された。それらの構造は、複数の中間報酬の加重和であった報酬関数に基づいてRLで最適化された。これは、医薬品化学および薬らしさの採点、活性化学の採点、構造的な採点、新規性および多様性の採点、ならびにSAスコアを含んでいた。MLモデルは、指紋、ストリング表現、およびグラフを含む様々な分子表現を活用した。あらゆるモデルが、化学空間を探索し、見込みがあるクラスタを調査し、分子構造を生成するように報酬関数を最適化した。これらの構造はペプチド模倣薬に共通の構造パターンを共有した。連続フィルタリングステップの後、20個の化合物が合成向けに選択され、さらに、酵素および細胞ベースの抗ウイルス分析を含んだ生物的評価に入った。
【0210】
生成された構造
【0211】
本明細書に記載されたシステムおよび方法は、<700のChEMBL類似性スコアを含むいくつかの新規構造を生成するために使用された。いくつかの例が図14などの本明細書に示されている。
【0212】
本明細書に開示されたモデル、プロセス、および方法の場合、プロセスおよび方法内で実行された動作は、異なる順序で実施されてもよい。さらに、要約された動作は例として提供されたにすぎず、いくつかの動作は、開示された実施形態の本質を損なうことなく、任意選択であるか、少ない動作に組み合わされるか、除去されるか、さらなる動作で補足されるか、またはさらなる動作に拡張されてもよい。
【0213】
本開示は、本出願に記載された特定の実施形態に関して限定されるものではなく、様々な態様の例示であることを目的とする。その趣旨および範囲から逸脱することなく、多くの修正形態および変形形態を作成することができる。本明細書に列挙されたものに加えて、本開示の範囲内の機能的に均等な方法および装置が前述の説明から実現可能である。そのような修正形態および変形形態は、添付特許請求の範囲内に入るものである。本開示は、添付特許請求の範囲が権利をもつ均等物の全範囲とともに、特許請求の範囲の用語によってのみ限定されるべきである。本明細書で使用される術語は、特定の実施形態を記載するためにすぎず、限定するものではない。
【0214】
一実施形態では、本方法は、コンピューティングシステム上で実行される態様を含むことができる。そのため、コンピューティングシステムは、方法を実行するためのコンピュータ実行可能命令を有するメモリデバイスを含むことができる。コンピュータ実行可能命令は、特許請求の範囲のいずれかの方法のいずれかを実行するための1つまたは複数のアルゴリズムを含むコンピュータプログラム製品の一部であり得る。
【0215】
一実施形態では、本明細書に記載された動作、プロセス、または方法のいずれかは、コンピュータ可読媒体に記憶され、1つまたは複数のプロセッサによって実行可能なコンピュータ可読命令の実行に応答して、実行され得るか、または実行されるようにすることができる。コンピュータ可読命令は、デスクトップコンピューティングシステム、ポータブルコンピューティングシステム、タブレットコンピューティングシステム、ハンドヘルドコンピューティングシステムからの広範囲のコンピューティングシステム、ならびにネットワーク要素、および/または任意の他のコンピューティングデバイスのプロセッサによって実行することができる。コンピュータ可読媒体は一時的ではない。コンピュータ可読媒体は、コンピュータ/プロセッサによって物理媒体から物理的に読取り可能であるように、そこに記憶されたコンピュータ可読命令を有する物理媒体である。
【0216】
本明細書に記載されたプロセスおよび/またはシステムおよび/または他の技術をもたらすことができる様々な達成手段(たとえば、ハードウェア、ソフトウェア、および/またはファームウェア)が存在し、その好ましい達成手段は、プロセスおよび/またはシステムおよび/または他の技術が展開される状況によって異なってもよい。たとえば、速度および精度が最も重要であると実装者が判断した場合、実装者は主にハードウェアおよび/もしくはファームウェアの達成手段を選択することができ、柔軟性が最も重要である場合、実装者は主にソフトウェアの実装形態を選択することができ、または、さらに再び代替として、実装者はハードウェア、ソフトウェア、および/もしくはファームウェアの何らかの組合せを選択することができる。
【0217】
本明細書に記載された様々な動作は、広範囲のハードウェア、ソフトウェア、ファームウェア、またはそれらの実質的に任意の組合せによって、単独および/または集団で実施することができる。一実施形態では、本明細書に記載された主題のいくつかの部分は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、または他の集積形式を介して実現されてもよい。しかしながら、本明細書に開示された実施形態のいくつかの態様は、全体的または部分的に、1つもしくは複数のコンピュータ上で動作する1つもしくは複数のコンピュータプログラムとして(たとえば、1つもしくは複数のコンピュータシステム上で動作する1つもしくは複数のプログラムとして)、1つもしくは複数のプロセッサ上で動作する1つもしくは複数のプログラムとして(たとえば、1つもしくは複数のマイクロプロセッサ上で動作する1つもしくは複数のプログラムとして)、ファームウェアとして、またはそれらの実質的に任意の組合せとして集積回路内で均等に実現することができ、回路を設計することならびに/またはソフトウェアおよび/もしくはファームウェア用のコードを書くことは、本開示に照らして可能である。加えて、本明細書に記載された主題の機構は、様々な形態のプログラム製品として分配されることが可能であり、本明細書に記載された主題の例示的な実施形態は、分配を実際に実行するために使用される特定のタイプの信号伝達媒体にかかわらず適用される。物理的な信号伝達媒体の例には、フロッピーディスク、ハードディスクドライブ(HDD)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、デジタルテープ、コンピュータメモリなどの記録可能タイプの媒体、または一時的もしくは伝送ではない任意の他の物理媒体が含まれるが、それらに限定されない。コンピュータ可読命令を有する物理媒体の例は、デジタルおよび/またはアナログの通信媒体(たとえば、光ファイバケーブル、導波管、有線通信リンク、ワイヤレス通信リンクなど)などの一時的または伝送タイプの媒体を除く。
【0218】
本明細書に記載されたようにデバイスおよび/またはプロセスを記載し、その後、エンジニアリングの慣例を使用してそのような記載されたデバイスおよび/またはプロセスをデータ処理システムの中に統合することは一般的である。すなわち、本明細書に記載されたデバイスおよび/またはプロセスの少なくとも一部分は、妥当な数の実験を介してデータ処理システムの中に統合することができる。典型的なデータ処理システムは、一般に、システムユニットハウジング、ビデオディスプレイデバイス、揮発性および不揮発性のメモリなどのメモリ、マイクロプロセッサおよびデジタル信号プロセッサなどのプロセッサ、オペレーティングシステム、ドライバ、グラフィカルユーザインターフェース、およびアプリケーションプログラムなどのコンピュータエンティティ、タッチパッドもしくはスクリーンなどの1つもしくは複数の対話デバイス、ならびに/またはフィードバックループおよび制御モータ(たとえば、位置および/もしくは速度を検知するためのフィードバック、構成要素および/もしくは量を移動および/もしくは調整するための制御モータ)を含む制御システムのうちの1つまたは複数を含む。典型的なデータ処理システムは、一般に、データコンピューティング/通信システムおよび/またはネットワークコンピューティング/通信システム内で見出される構成要素などの、任意の適切な市販の構成要素を利用して実現されてもよい。
【0219】
本明細書に記載された主題は、時々、異なる他の構成要素内に含まれるか、または異なる他の構成要素と接続された異なる構成要素を示す。そのような描写されたアーキテクチャは単に例示的であり、実際は、同じ機能を実現する多くの他のアーキテクチャを実装することができる。概念的な意味では、同じ機能を実現する構成要素の任意の配置は、所望の機能が実現されるように効果的に「関連付け」される。したがって、特定の機能を実現するように組み合わされた本明細書の任意の2つの構成要素は、アーキテクチャまたは中間構成要素にかかわらず、所望の機能が実現されるように互いに「関連付け」されていると見ることができる。同様に、そのように関連付けられた任意の2つの構成要素はまた、所望の機能を実現するために互いに「動作可能に接続」または「動作可能に結合」されていると見ることができ、そのように関連付けられることが可能な任意の2つの構成要素はまた、所望の機能を実現するために互いに「動作可能に結合可能」であると見ることができる。動作可能に結合可能の具体例には、物理的に結合可能および/もしくは物理的に対話する構成要素ならびに/またはワイヤレスに対話可能および/もしくはワイヤレスに対話する構成要素ならびに/または論理的に対話するおよび/もしくは論理的に対話可能な構成要素が含まれるが、それらに限定されない。
【0220】
図15は、本明細書に記載された方法(または方法の部分)を実行するようにいくつかの実施形態に配置され得る例示的なコンピューティングデバイス600(たとえば、コンピュータ)を示す。非常に基本的な構成602では、コンピューティングデバイス600は、一般に、1つまたは複数のプロセッサ604およびシステムメモリ606を含む。メモリバス608は、プロセッサ604とシステムメモリ606との間の通信に使用され得る。
【0221】
所望の構成に応じて、プロセッサ604は、マイクロプロセッサ(μP)、マイクロコントローラ(μC)、デジタル信号プロセッサ(DSP)、またはそれらの任意の組合せを含むが、それらに限定されない任意のタイプのプロセッサであってもよい。プロセッサ604は、レベル1キャッシュ610およびレベル2キャッシュ612などの1つまたは複数のレベルのキャッシング、プロセッサコア614、ならびにレジスタ616を含んでもよい。例示的なプロセッサコア614は、算術論理演算ユニット(ALU)、浮動小数点演算ユニット(FPU)、デジタル信号処理コア(DSPコア)、またはそれらの任意の組合せを含んでもよい。例示的なメモリコントローラ618はまた、プロセッサ604とともに使用されてもよく、またはいくつかの実装形態では、メモリコントローラ618はプロセッサ604の内部部品であってもよい。
【0222】
所望の構成に応じて、システムメモリ606は、(RAMなどの)揮発性メモリ、(ROM、フラッシュメモリなどの)不揮発性メモリ、またはそれらの任意の組合せを含むが、それらに限定されない任意のタイプのメモリであってもよい。システムメモリ606は、オペレーティングシステム620、1つまたは複数のアプリケーション622、およびプログラムデータ624を含んでもよい。アプリケーション622は、本明細書に記載された方法に関して記載された動作を含む、本明細書に記載された動作を実行するように配置された決定アプリケーション626を含んでもよい。決定アプリケーション626は、圧力、流量、および/または温度などのデータを取得し、次いで、圧力、流量、および/または温度を変更するためにシステムに対する変更を決定することができる。
【0223】
コンピューティングデバイス600は、さらなる特徴または機能、ならびに基本構成602と任意の必要なデバイスおよびインターフェースと間の通信を容易にするさらなるインターフェースを有してもよい。たとえば、バス/インターフェースコントローラ630は、ストレージインターフェース634を介して基本構成602と1つまたは複数のデータストレージデバイス632と間の通信を容易にするために使用されてもよい。データストレージデバイス632は、リムーバブルストレージデバイス636、非リムーバブルストレージデバイス638、またはそれらの組合せであってもよい。リムーバブルストレージデバイスおよび非リムーバブルストレージデバイスの例には、いくつか挙げると、フレキシブルディスクドライブおよびハードディスクドライブ(HDD)などの磁気ディスクドライブ、コンパクトディスク(CD)ドライブおよびデジタル多用途ディスク(DVD)ドライブなどの光ディスクドライブ、ソリッドステートドライブ(SSD)、およびテープドライブが含まれる。例示的なコンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実装された、揮発性および非揮発性のリムーバブルおよび非リムーバブルの媒体が含まれてもよい。
【0224】
システムメモリ606、リムーバブルストレージデバイス636、および非リムーバブルストレージデバイス638は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリ、もしくは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)、もしくは他の光ストレージ、磁化カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、または所望の情報を記憶するために使用され得、コンピューティングデバイス600によってアクセスされ得る任意の他の媒体が含まれるが、それらに限定されない。任意のそのようなコンピュータ記憶媒体は、コンピューティングデバイス600の一部であってもよい。
【0225】
コンピューティングデバイス600はまた、様々なインターフェースデバイス(たとえば、出力デバイス642、周辺インターフェース644、および通信デバイス646)からバス/インターフェースコントローラ630を介して基本構成602への通信を容易にするためのインターフェースバス640を含んでもよい。例示的な出力デバイス642には、1つまたは複数のA/Vポート652を介してディスプレイまたはスピーカなどの様々な外部デバイスと通信するように構成され得る、グラフィック処理装置648およびオーディオ処理装置650が含まれる。例示的な周辺インターフェース644には、1つまたは複数のI/Oポート658を介して入力デバイス(たとえば、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイスなど)または他の周辺デバイス(たとえば、プリンタ、スキャナなど)などの外部デバイスと通信するように構成され得る、シリアルインターフェースコントローラ654またはパラレルインターフェースコントローラ656が含まれる。例示的な通信デバイス646には、1つまたは複数の通信ポート664を介するネットワーク通信リンク上での1つまたは複数の他のコンピューティングデバイス662との通信を容易にするように配置され得る、ネットワークコントローラ660が含まれる。
【0226】
ネットワーク通信リンクは、通信媒体の一例であり得る。通信媒体は、一般に、搬送波または他の搬送機構などの変調データ信号内で、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータによって具現化されてもよく、任意の情報送達媒体を含んでもよい。「変調データ信号」は、信号内で情報を符号化するように設定または変更された1つまたは複数のその特性を有する信号であってもよい。例として、限定ではなく、通信媒体には、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、無線周波数(RF)、マイクロ波、赤外線(IR)、および他のワイヤレス媒体などのワイヤレス媒体が含まれてもよい。本明細書で使用されるコンピュータ記憶媒体という用語は、記憶媒体と通信媒体の両方を含んでもよい。
【0227】
コンピューティングデバイス600は、携帯電話、携帯情報端末(PDA)、パーソナルメディアプレーヤデバイス、ワイヤレスウェブウォッチデバイス、パーソナルヘッドセットデバイス、特定用途向けデバイス、または上記の機能のいずれかを含むハイブリッドデバイスなどの、スモールフォームファクタポータブル(またはモバイル)電子デバイスの一部分として実装されてもよい。コンピューティングデバイス600はまた、ラップトップコンピュータと非ラップトップコンピュータの両方の構造を含むパーソナルコンピュータとして実装されてもよい。コンピューティングデバイス600はまた、任意のタイプのネットワークコンピューティングデバイスであり得る。コンピューティングデバイス600はまた、本明細書に記載された自動化システムであり得る。
【0228】
本明細書に記載された実施形態は、様々なコンピュータのハードウェアモジュールまたはソフトウェアモジュールを含む専用コンピュータまたは汎用コンピュータの使用を含む場合がある。
【0229】
本発明の範囲内の実施形態はまた、そこに記憶されたコンピュータ実行可能命令またはデータ構造を搬送または有するためのコンピュータ可読媒体を含む。そのようなコンピュータ可読媒体は、汎用コンピュータまたは専用コンピュータによってアクセスすることができる任意の利用可能な媒体であり得る。例として、限定ではなく、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または、コンピュータ実行可能命令もしくはデータ構造の形態で所望のプログラムコード手段を搬送もしくは記憶するために使用することができ、汎用コンピュータもしくは専用コンピュータによってアクセスすることができる任意の他の媒体を備えることができる。情報がネットワークまたは別の通信接続(有線、ワイヤレス、または有線もしくはワイヤレスの組合せ)を介してコンピュータに転送または提供されるとき、コンピュータは接続をマシン可読媒体として適切に見る。したがって、任意のそのような接続はコンピュータ可読媒体と適切に呼ばれる。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
【0230】
コンピュータ実行可能命令は、たとえば、汎用コンピュータ、専用コンピュータ、または専用処理デバイスに、ある特定の機能または機能のグループを実行させる命令およびデータを含む。構造的な特徴および/または方法論的な活動に固有の言語で主題が記載されてきたが、添付特許請求の範囲で規定された主題は、必ずしも上述された特定の特徴または活動に限定されないことが理解されるべきである。むしろ、上述された特定の特徴または活動は、特許請求の範囲を実現するための例示的な形態として開示されている。
【0231】
いくつかの実施形態では、コンピュータプログラム製品は、プロセッサによって実行されると、方法を実行させるコンピュータ実行可能命令を有する、非一時的有形メモリデバイスを含むことができ、方法は、オブジェクト用のオブジェクトデータおよび条件用の条件データを有するデータセットを提供することと、オブジェクトエンコーダを用いて潜在オブジェクトデータおよび潜在オブジェクト-条件データを取得するためにデータセットのオブジェクトデータを処理することと、条件エンコーダを用いて潜在条件データおよび潜在条件-オブジェクトデータを取得するためにデータセットの条件データを処理することと、オブジェクトデコーダを用いて生成されたオブジェクトデータを取得するために潜在オブジェクトデータおよび潜在オブジェクト-条件データを処理することと、条件デコーダを用いて生成された条件データを取得するために潜在条件データおよび潜在条件-オブジェクトデータを処理することと、差分を決定するために潜在オブジェクト-条件データを潜在-条件データと比較することと、弁別値を取得するために弁別器を用いて潜在オブジェクトデータおよび潜在条件データおよび潜在オブジェクト-条件データまたは潜在条件-オブジェクトデータのうちの1つを処理することと、生成されたオブジェクトデータ、生成された条件データ、および潜在オブジェクト-条件データと潜在条件-オブジェクトデータとの間の差分に基づいて、生成されたオブジェクトデータから選択されたオブジェクトを選択することと、オブジェクトの物理的形状の検証に対する推奨を有するレポート内で選択されたオブジェクトを提供することとを含むことができる。非一時的有形メモリデバイスはまた、本明細書に記載された方法または方法ステップのいずれかのための他の実行可能命令を有してもよい。また、命令は、分子の合成および/または分子を検証するための実験プロトコルなどの非計算タスクを実行する命令であってもよい。他の実行可能命令が提供されてもよい。
【0232】
本明細書における実質的に任意の複数形および/または単数形の用語の使用に関して、当業者は、コンテキストおよび/またはアプリケーションに適切なように、複数形から単数形、および/または単数形から複数形に変換することができる。明確にするために、本明細書において様々な単数形/複数形の置換をはっきりと説明することができる。
【0233】
一般に、本明細書で、特に添付特許請求の範囲(たとえば、添付特許請求の範囲の本文)で使用される用語は、全体的に「オープン」な用語として意図されることが当業者によって理解されよう(たとえば、「含んでいる」という用語は「含んでいるが限定されない」と解釈されるべきであり、「有する」という用語は「少なくとも有する」と解釈されるべきであり、「含む」という用語は「含むが限定されない」と解釈されるべきであるなど)。特定の数の紹介された請求項記述が意図される場合、そのような意図は請求項内で明確に記述され、そのような記述がない場合、そのような意図は存在しないことが当業者によってさらに理解されよう。たとえば、理解する助けとして、以下の添付特許請求の範囲は、請求項記述を紹介するために、導入句「少なくとも1つ」および「1つまたは複数」の使用を含む場合がある。しかしながら、そのような語句の使用は、同じ請求項が導入句「1つまたは複数」または「少なくとも1つ」および「a」または「an」などの不定冠詞を含む(たとえば、「a」および/または「an」は「少なくとも1つ」または「1つまたは複数」を意味すると解釈されるべきである)ときでも、不定冠詞「a」または「an」による請求項記述の紹介が、そのような紹介された請求項記述を含む任意の特定請求項を、ただ1つのそのような記述を含む実施形態に限定することを意味すると解釈されるべきではなく、請求項記述を紹介するために使用される定冠詞の使用についても同じことが言える。加えて、特定の数の紹介された請求項記述が明確に記述された場合でも、そのような記述が少なくとも記述された数を意味する(たとえば、他の修飾語がない「2つの記述」の露わな記述は、少なくとも2つの記述または2つ以上の記述を意味する)と解釈されるべきであると当業者は認識されよう。さらに、「A、B、およびCのうちの少なくとも1つなど」に類似する記法が使用される場合、一般に、そのような記法は、当業者がその記法を理解する意味で意図される(たとえば、「A、B、およびCのうちの少なくとも1つを有するシステム」は、Aのみ、Bのみ、Cのみ、AとBを一緒、AとCを一緒、BとCを一緒、および/またはAとBとCを一緒に有するシステムを含むが、それらに限定されないなど)。2つ以上の代替用語を提示する実質的に任意の離接語および/または離接句は、説明、特許請求の範囲、または図面のいずれであろうと、用語のうちの1つ、用語のうちのいずれか、または両方の用語を含む可能性を検討するように理解されるべきであることが当業者によってさらに理解されよう。たとえば、「AまたはB」という語句は、「A」または「B」または「AおよびB」の可能性を含むように理解されよう。
【0234】
加えて、本開示の特徴または態様がマーカッシュグループの観点から記載された場合、本開示がそれによってマーカッシュグループの任意の個々のメンバまたはメンバのサブグループの観点からも記載されることを、当業者なら認識されよう。
【0235】
当業者によって理解されるように、明細書を提供する観点からなどのありとあらゆる目的で、本明細書に記載されたすべての範囲は、ありとあらゆる可能な部分範囲およびそれらの部分範囲の組合せも包含する。任意の列挙された範囲は、同じ範囲が少なくとも等しい半分、3分の1、4分の1、5分の1、10分の1などに分割されることを十分に記述し可能にすると、容易に認識することができる。非限定的な例として、本明細書に説明された各範囲は、下部3分の1、中央3分の1、および上部3分の1などに容易に分割することができる。当業者によって理解されるように、「最大」、「少なくとも」などのすべての言葉は、列挙された数を含み、その後上述された部分範囲に分割することができる範囲を指す。最後に、当業者によって理解されるように、範囲は個々のメンバを含む。したがって、たとえば、1~3個の細胞を有する基は、1つ、2つ、または3つの細胞を有する基を指す。同様に、1~5個の細胞を有する基は、1つ、2つ、3つ、4つ、または5つの細胞を有する基を指すなどである。
【0236】
上記から、本開示の様々な実施形態が例示目的で本明細書に記載されてきたが、本開示の範囲および趣旨から逸脱することなく、様々な修正が行われてもよいことが諒解されよう。したがって、本明細書に開示された様々な実施形態は、限定するものではなく、真の範囲および趣旨は以下の特許請求の範囲によって示される。
【0237】
略語
【0238】
DCM ジクロロメタン
【0239】
DMF ジメチルホルムアミド
【0240】
DMSO ジメチルスルホキシド
【0241】
EA 酢酸エチル
【0242】
HPLC 高速液体クロマトグラフィメタノール
【0243】
PBS リン酸緩衝生理食塩水
【0244】
THF テトラヒドロフラン
【0245】
TFA トリフルオロ酢酸
【0246】
TLC 薄層クロマトグラフィ
【0247】
Py ピリジン
【0248】
EDC1 1-エチル-3-(3-ジメチルアミノプロピル)カルボジイミド
【0249】
ACN アセトニトリル
【0250】
T3P 1-プロパンホスホン酸無水物溶液
【0251】
Pd(dppf)Cl2 [1,1’-ビス(ジフェニルホスフィノ)フェロセン]ジクロロパラジウム(II)
【0252】
NIS N-ヨードスクシンイミド
【0253】
TEA トリエチルアミン
【0254】
TFA トリフルオロ酢酸
【0255】
HATU 1-[ビス(ジメチルアミノ)メチレン]-1H-1,2,3-トリアゾロ[4.5-b]ピリジニウム3-オキシドヘキサフルオロホスフェート
【0256】
DIEA ジイソプロピルエチルアミン
【0257】
NMP N-メチル-2-ピロリドン
【0258】
XPhos Pd G3 (2-ジシクロヘキシルホスフィノ-2’,4’,6’-トリイソプロピル-1,1’-ビフェニル)[2-(2’-アミノ-1,1’-ビフェニル)]パラジウム(II)メタンスルホン酸塩
【0259】
MTBE メチルtret-ブチルエーテル
【0260】
CDI 1,1’-カルボニルジイミダゾール
【0261】
本特許は、2018年6月2日に出願された米国特許出願第16/015,990号、2018年9月18日に出願された米国特許出願第16/134,624号、2018年9月6日に出願された米国特許出願第62/727,926号、2018年10月17日に出願された米国特許出願第62/746,771号、および2019年2月22日に出願された米国特許出願第62/809,413号を参照し、それらの出願はそれらの全体が具体的な参照により本明細書に組み込まれる。
【0262】
本明細書に列強されたすべての参照文献は、それらの全体が具体的な参照により本明細書に組み込まれる。
1. Paul, S. M. et al. How to improve R&D productivity: the pharmaceutical industry’s grand challenge. Nat. Rev. Drug Discov. 9, 203-214 (2010).
2. Avorn, J. The $2.6 Billion Pill - Methodologic and Policy Considerations. N. Engl. J. Med. 372, 1877-1879 (2015).
3. Fleming, N. How artificial intelligence is changing drug discovery. Nature 557, S55 (2018).
4. Chen, H., Engkvist, O., Wang, Y., Olivecrona, M. & Blaschke, T. The rise of deep learning in drug discovery. Drug Discov. Today 23, 1241-1250 (2018).
5. Butler, K. T., Davies, D. W., Cartwright, H., Isayev, O. & Walsh, A. Machine learning for molecular and materials science. Nature 559, 547-555 (2018).
6. Segler, M. H. S., Preuss, M. & Waller, M. P. Planning chemical syntheses with deep neural networks and symbolic AI. Nature 555, 604-610 (2018).
7. De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. Nat. Med. 24, 1342-1350 (2018).
8. Wang, K., Wan, M., Wang, R.-S. & Weng, Z. Opportunities for Web-based Drug Repositioning: Searching for Potential Antihypertensive Agents with Hypotension Adverse Events. J. Med. Internet Res. 18, e76 (2016).
9. Mamoshina, P., Vieira, A., Putin, E. & Zhavoronkov, A. Applications of Deep Learning in Biomedicine. Mol. Pharm. 13, 1445-1454 (2016).
10. Baskin, I. I., Winkler, D. & Tetko, I. V. A renaissance of neural networks in drug discovery. Expert Opin. Drug Discov. 11, 785-795 (2016).
11. Zhang, L., Tan, J., Han, D. & Zhu, H. From machine learning to deep learning: progress in machine intelligence for rational drug discovery. Drug Discov. Today 22, 1680-1685 (2017).
12. Goodfellow, I. et al. Generative Adversarial Nets. in Advances in Neural Information Processing Systems 2672-2680 (2014).
13. Sanchez-Lengeling, B. & Aspuru-Guzik, A. Inverse molecular design using machine learning: Generative models for matter engineering. Science 361, 360-365 (2018).
14. Kadurin, A. et al. The cornucopia of meaningful leads: Applying deep adversarial autoencoders for new molecule development in oncology. Oncotarget 8, 10883-10890 (2017).
15. Kadurin, A., Nikolenko, S., Khrabrov, K., Aliper, A. & Zhavoronkov, A. druGAN: An Advanced Generative Adversarial Autoencoder Model for de Novo Generation of New Molecules with Desired Molecular Properties in Silico. Mol. Pharm. 14, 3098-3104 (2017).
16. Gomez-Bombarelli, R. et al. Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules. ACS Cent. Sci. 4, 268-276 (2018).
17. Putin, E. et al. Adversarial Threshold Neural Computer for Molecular de Novo Design. Mol. Pharm. 15, 4386-4397 (2018).
18. Putin, E. et al. Reinforced Adversarial Neural Computer for de Novo Molecular Design. J. Chem. Inf. Model. 58, 1194-1204 (2018).
19. Harel, S. & Radinsky, K. Prototype-Based Compound Discovery Using Deep Generative Models. Mol. Pharm. 15, 4406-4416 (2018).
20. Polykovskiy, D. et al. Entangled Conditional Adversarial Autoencoder for de Novo Drug Discovery. Mol. Pharm. 15, 4398-4405 (2018).
21. Kuzminykh, D. et al. 3D Molecular Representations Based on the Wave Transform for Convolutional Neural Networks. Mol. Pharm. 15, 4378-4385 (2018).
22. Segler, Marwin HS and Kogej, Thierry and Tyrchan, Christian and Waller, Mark P. Generating focused molecule libraries for drug discovery with recurrent neural networks. ACS central science 4.1 (2017): 120-131.
23. Merk, Daniel and Friedrich, Lukas and Grisoni, Francesca and Schneider, Gisbert. De novo design of bioactive small molecules by artificial intelligence. Molecular informatics 37.1-2 (2018): 1700153
24. Merk, Daniel and Grisoni, Francesca and Friedrich, Lukas and Schneider, Gisbert. Tuning artificial intelligence on the de novo design of natural-product-inspired retinoid X receptor modulators. Communications Chemistry 1.1 (2018): 68.
25. Sutton, R. S. & Barto, A. G. Reinforcement Learning: An Introduction. (MIT Press, 1998).
26. Sutton, R. S., McAllester, D., Singh, S. & Mansour, Y. Policy gradient methods for reinforcement learning with function approximation. in Proceedings of the 12th International Conference on Neural Information Processing Systems 1057-1063 (MIT Press, 1999).
27. Yu, L., Zhang, W., Wang, J. & Yu, Y. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. Preprint at arxiv.org/abs/1609.05473 (2017).
28. Sohn, K., Lee, H. & Yan, X. Learning Structured Output Representation using Deep Conditional Generative Models. in Advances in Neural Information Processing Systems 3483-3491 (2015).
29. Tomczak, J. M. & Welling, M. VAE with a VampPrior. Proceedings of the 21st International Conference on Artificial Intelligence and Statistics (AISTATS) (2017).
30. Imaizumi, M., Maehara, T. & Hayashi, K. On Tensor Train Rank Minimization : Statistical Efficiency and Scalable Algorithm. in Advances in Neural Information Processing Systems 3930-3939 (2017).
31. Novikov, A., Rodomanov, A., Osokin, A. & Vetrov, D. Putting MRFs on a Tensor Train. In International Conference on Machine Learning 811-819 (2014).
32. Oseledets, I. V. Tensor-Train Decomposition. SIAM J. Sci. Comput. 33, 2295-2317 (2011).
33. Kingma, D. P. & Welling, M. Auto-Encoding Variational Bayes. Preprint at arxiv.org/abs/1312.6114 (2013).
34. Makhzani, A., Shlens, J., Jaitly, N., Goodfellow, I. & Frey, B. Adversarial Autoencoders. Preprint at arxiv.org/abs/1511.05644 (2015).
35. Kingma, D. P., Mohamed, S., Rezende, D. J. & Welling, M. Semi-supervised Learning with Deep Generative Models. in Advances in Neural Information Processing Systems 3581- 3589 (2014).
36. Leo, A. J. Calculating log Poct from structures. Chem. Rev. 93, 1281-1306 (1993).
37. Bickerton, G. R., Paolini, G. V., Besnard, J., Muresan, S. & Hopkins, A. L. Quantifying the chemical beauty of drugs. Nat. Chem. 4, 90-98 (2012).
38. Guimaraes, G. L., Sanchez-Lengeling, B., Farias, P. L. C. & Aspuru-Guzik, A. Objective- Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models. Preprint at arxiv.org/abs/1705.10843 (2017).
39. Sanchez-Lengeling, B., Outeiral, C., Guimaraes, G. L. & Aspuru-Guzik, A. Optimizing distributions over molecular space. An Objective-Reinforced Generative Adversarial Network for Inverse-design Chemistry (ORGANIC). Preprint at chemrxiv.org/articles/ORGANIC_1_pdf/5309668 (2017).
40. Kohonen, T. The self-organizing map. Proc. IEEE 78, 1464-1480 (1990).
41. Wassermann, A. M., Camargo, L. M. & Auld, D. S. Composition and applications of focus libraries to phenotypic assays. Front. Pharmacol. 5, 164 (2014).
42. Szymanski, P., Markowicz, M. & Mikiciuk-Olasik, E. Adaptation of High-Throughput Screening in Drug Discovery-Toxicological Screening Tests. Int. J. Mol. Sci. 13, 427-452 (2011).
43. Morgan, P. et al. Impact of a five-dimensional framework on R&D productivity at AstraZeneca. Nat. Rev. Drug Discov. 17, 167-181 (2018).
44. Cong, L., Xia, Z.-K. & Yang, R.-Y. Targeting the TGF-β receptor with kinase inhibitors for scleroderma therapy. Arch. Pharm. 347, 609-615 (2014).
45. Liu, L. et al. Synthesis and biological evaluation of novel dasatinib analogues as potent DDR1 and DDR2 kinase inhibitors. Chem. Biol. Drug Des. 89, 420-427 (2017).
46. Drug Discovery | boehringer-ingelheim.com. Available at: boehringer- ingelheim.com/innovation/drug-discovery. (Accessed: 30th October 2018).
47. Scannell, J. W., Blanckley, A., Boldon, H. & Warrington, B. Diagnosing the decline in pharmaceutical R&D efficiency. Nat. Rev. Drug Discov. 11, 191-200 (2012).
48. Munos, B. Lessons from 60 years of pharmaceutical innovation. Nat. Rev. Drug Discov. 8, 959-968 (2009).
49. Clarivate Analytics Integrity. Available at: integrity.thomson- pharma.com/integrity/xmlxsl/. (Accessed: 30th October 2018).
50. EBI Web Team. ChEMBL. Available at: ebi.ac.uk/chembl/. (Accessed: 30th October 2018).
51. Irwin, J. J., Sterling, T., Mysinger, M. M., Bolstad, E. S. & Coleman, R. G. ZINC: a free tool to discover chemistry for biology. J. Chem. Inf. Model. 52, 1757-1768 (2012).
52. Trepalin SV, E. al. New diversity calculations algorithms used for compound selection. J. Chem. Inf. Comput. Sci. 42, 249-258 (2002).
53. Top 25 Global Pharma Companies by Market Cap (end of 2017) | GlobalData Plc. (2018). Available at: globaldata.com/top-25-global-pharma-companies-market-cap-end-2017/. (Accessed: 30th October 2018).
54. Oseledets, I. V. Tensor-Train Decomposition. SIAM J. Sci. Comput. 33, 2295-2317 (2011).
55. Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn. 8, 229-256 (1992).
56. Brown N, Fiscato M, Segler M.H.S., Vaucher A.C. GuacaMol: Benchmarking Models for De Novo Molecular Design arXiv preprint arXiv:1811.09621 (2018).
57. Polykovskiy, D et al., Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models. arXiv preprint arXiv:1811.12823 (2018).
58. Ritter, H. & Kohonen, T. Self-organizing semantic maps. Biol. Cybern. 61, 241-254 (1989).
59. Landrum, G. RDKit. Available at: rdkit.org. (Accessed: 30th October 2018).
60. Moriwaki, H., Tian, Y.-S., Kawashita, N. & Takagi, T. Mordred: a molecular descriptor calculator. J. Cheminform. 10, 4 (2018).
61. Ivanenkov, Y. A. & Khandarova, L. M. Advanced Artificial Intelligence Methods Used in the Design of Pharmaceutical Agents. in Pharmaceutical Data Mining 457-489 (Wiley, 2009).
62. Pletnev, I. V., Ivanenkov, Y. A. & Tarasov, A. V. Dimensionality Reduction Techniques for Pharmaceutical Data Mining. in Pharmaceutical Data Mining 423-455 (Wiley, 2009).
63. Sammon, J. W. A Nonlinear Mapping for Data Structure Analysis. IEEE Trans. Comput. C- 18, 401-409 (1969).
64. Molport. Available at: molport.com/. (Accessed: 30th October 2018).
65. Rappe, A. K., Casewit, C. J., Colwell, K. S., Goddard, W. A. & Skiff, W. M. UFF, a full periodic table force field for molecular mechanics and molecular dynamics simulations. J. Am. Chem. Soc. 114, 10024-10035 (1992).
66. Schroedinger | Maestro Suite. Available at: schrodinger.com. (Accessed: 30th October 2018).
67. Eurofins Pharma Discovery Services. Available at: eurofinsdiscoveryservices.com/catalogmanagement/viewitem/DDR1-Human-TK-Kinase-Enzymatic-Radiometric-Assay-10-uM-ATP-KinaseProfiler/14-942KP10. (Accessed: 30th October 2018).
68. Eurofins Pharma Discovery Services. Available at: eurofinsdiscoveryservices.com/catalogmanagement/viewitem/scanMAX-Delta-Panel-10uM-ATP/50-100KP10. (Accessed: 30th October 2018).
69. Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1724-1734 (2014).
70. Kingma D. P., Ba J. Adam: A method for stochastic optimization, 3rd International Conference for Learning Representations, 2015.
71. Ivanenkov YA, Zagribelnyy BA, Aladinskiy VA. Are We Opening the Door to a New Era of Medicinal Chemistry or Being Collapsed to a Chemical Singularity? J Med Chem. 2019;62: 10026-10043.
図1A
図1B
図2A-C】
図3
図4A
図4B
図4C
図5A-C】
図6
図7
図8A
図8B
図8C
図8D
図8E
図8F
図8G
図8H
図8I
図9A
図9B
図9C
図9D
図9E
図9F
図10A
図10B
図10C
図11
図12A-D】
図13
図14
図15