(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-28
(45)【発行日】2024-11-06
(54)【発明の名称】コンピュータシステム
(51)【国際特許分類】
G06N 3/0455 20230101AFI20241029BHJP
G06N 3/0475 20230101ALI20241029BHJP
【FI】
G06N3/0455
G06N3/0475
(21)【出願番号】P 2023040192
(22)【出願日】2023-03-15
(62)【分割の表示】P 2021065411の分割
【原出願日】2016-12-02
【審査請求日】2023-04-11
(32)【優先日】2015-12-02
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2016-02-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】515130201
【氏名又は名称】株式会社Preferred Networks
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】大野 健太
(72)【発明者】
【氏名】クレイトン ジャスティン
(72)【発明者】
【氏名】大田 信行
【審査官】大倉 崚吾
(56)【参考文献】
【文献】国際公開第2014/034577(WO,A1)
【文献】米国特許出願公開第2013/0173503(US,A1)
【文献】岡野原 大輔,"学習の本命「半教師あり学習」 少ない教師データで高い精度",日経Robotics,日経BP社,2015年08月,第2号,pp. 34-35,ISSN 2189-5783
【文献】BROWN, W. Michael et al.,"Algorithmic dimensionality reduction for molecular structure analysis",The Journal of Chemical Physics [online],2008年,Vol. 129, No. 6,p. 064118-1~064118-13,[retrieved on 2024.06.11], Retrieved from the Internet: <URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2809693/>,DOI: 10.1063/1.2968610
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G16C 20/30
G16C 20/70
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサが実行する方法であって、
潜在的表現を生成モデルに入力することで、化合物の構造情報を生成し、
前記生成モデルは、訓練用の化合物の構造情報と、前記訓練用の化合物の構造情報に基づいて生成された訓練用の潜在的表現を前記生成モデルに入力することで生成される前記訓練用の化合物の構造情報の再構成物との誤差が小さくなるように訓練されたものである、
方法。
【請求項2】
前記生成モデルに入力される前記潜在的表現は、ランダムな値である、
請求項1に記載の方法。
【請求項3】
前記生成モデルに入力される前記潜在的表現は、他の化合物の構造情報に基づいて生成されたものであ
り、
前記他の化合物は、生成された前記構造情報に対応する前記化合物とは異なる化合物である、
請求項1に記載の方法。
【請求項4】
潜在変数を用いたサンプリングによって、前記生成モデルに入力する前記潜在的表現を生成する、
請求項1に記載の方法。
【請求項5】
前記潜在変数は、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、又は、F分布のいずれか1つを用いて表現される、
請求項4に記載の方法。
【請求項6】
前記潜在変数は、他の化合物に基づいて生成されたものであ
り、
前記他の化合物は、生成された前記構造情報に対応する前記化合物とは異なる化合物である、
請求項5に記載の方法。
【請求項7】
少なくとも1つのプロセッサが実行する方法であって、
ランダムな値を生成モデルに入力することで、化合物の構造情報を生成し、
前記生成モデルは、訓練用の化合物の構造情報と、前記訓練用の化合物の構造情報に基づいて生成された訓練用のデータを前記生成モデルに入力することで生成される前記訓練用の化合物の構造情報の再構成物との誤差が小さくなるように訓練されたものである、
方法。
【請求項8】
前記潜在的表現とラベル情報とを前記生成モデルに入力することで、前記化合物の構造情報を生成する、
請求項1乃至6のいずれか1項に記載の方法。
【請求項9】
前記ランダムな値とラベル情報とを前記生成モデルに入力することで、前記化合物の構造情報を生成する、
請求項7に記載の方法。
【請求項10】
前記ラベル情報は、少なくとも生成対象となる化合物の特性又は活性のいずれか1つに関する情報を含む、
請求項8又は請求項9に記載の方法。
【請求項11】
前記ラベル情報は、少なくとも、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、又は、溶解性のいずれか1つに関する情報を含む、
請求項8又は請求項9に記載の方法。
【請求項12】
前記ラベル情報は、少なくとも、化合物データベース、バイオアッセイデータベース、毒性データベース、臨床記録、又は、交差反応性記録のいずれか1つに基づく情報である、
請求項8又は請求項9に記載の方法。
【請求項13】
他の化合物から前記ラベル情報を生成
し、
前記他の化合物は、生成された前記構造情報に対応する前記化合物とは異なる化合物である、
請求項8又は請求項9に記載の方法。
【請求項14】
予測子を用いて前記ラベル情報を生成する、
請求項13に記載の方法。
【請求項15】
前記生成モデルに入力される前記ラベル情報は、前記他の化合物のラベル情報とは異なる情報を含む、
請求項3又は請求項6に従属する請求項8に記載の方法。
【請求項16】
生成された前記化合物の構造情報について、少なくとも、特性、活性、毒性、交差反応性、バイオアベイラビリティ、溶解性、他の化合物との類似性、他の化合物との同一性、又は、薬物らしさのいずれか1つを評価
し、
前記他の化合物は、生成された前記構造情報に対応する前記化合物とは異なる化合物である、
請求項1乃至請求項15のいずれか1項に記載の方法。
【請求項17】
前記化合物の構造情報は、少なくとも分子記述子又は指紋表現のいずれか1つを含む、
請求項1乃至請求項16のいずれか1項に記載の方法。
【請求項18】
前記化合物の構造情報は、前記化合物の化学構造の情報を含む特徴ベクトルである、
請求項1乃至請求項17のいずれか1項に記載の方法。
【請求項19】
前記生成モデルは、ニューラルネットワークである、
請求項1乃至請求項18のいずれか1項に記載の方法。
【請求項20】
請求項1乃至請求項19のいずれか1項に記載の方法を用いて、化合物の構造情報を生成する方法。
【請求項21】
少なくとも1つのプロセッサ、を備え、
前記少なくとも1つのプロセッサは、請求項1乃至請求項19のいずれか一項に記載の方法を実行する、
コンピュータシステム。
【請求項22】
少なくとも1つのプロセッサに、請求項1乃至請求項19のいずれか一項に記載の方法を実行させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、薬物設計のための生成機械学習システムに関する。
【背景技術】
【0002】
所望の特性を有するリード化合物の探索は、通常、高スループットまたは仮想スクリーニングを含む。これらの方法は、遅く、コストがかかり、効果的でない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
高スループットスクリーニングでは、化合物ライブラリからの化合物が検査される。しかしながら、化合物ライブラリは膨大であり、候補のほとんどはヒット化合物として選択される資格がない。この複雑な手法に関連するコストを最小化するために、いくつかのスクリーニング方法は、仮想スクリーニングとして知られるインシリコ法を利用する。しかしながら、利用可能な仮想スクリーニング方法は、膨大な計算能力を必要とし、アルゴリズム的に不十分で時間がかかる可能性がある。
【0004】
さらに、現在のヒットツーリード探索は、主に、化合物候補の膨大なリストからの網羅的スクリーニングを含む。この手法は、一組の所望の特性を有する化合物が化合物の既存のリスト内に見出されるという予想および希望に依存する。さらに、現在のスクリーニング法がリード化合物をうまく発見したときでも、これらのリード化合物が薬物として使用され得ることを意味しない。候補化合物が臨床試験の後期に不合格になることはまれではない。不合格の主な理由の1つは、動物またはヒトによる実験まで明らかにならない毒性または副作用である。最後に、これらの探索モデルは低速で高価である。
【0005】
既存の方法の非効率および限界のために、ターゲットタンパク質への結合などの所望の特性の集合を有する候補化合物を直接生成する薬物設計方法が必要とされている。さらに別に、毒性または副作用がない候補化合物を生成する必要性がある。最終的に、候補化合物がどのようにオフターゲットおよび/または他のターゲットと相互作用するかを予測する必要性がある。
【課題を解決するための手段】
【0006】
第1の態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダを含む場合がある。確率的自動エンコーダは、化合物指紋を潜在変数として符号化するように構成された確率的エンコーダ、潜在的表現を復号し、指紋要素の値にわたって確率変数を生成するように構成された確率的デコーダ、および/または潜在変数もしくは確率変数からサンプリングするように構成された1つもしくは複数のサンプリングモジュールを含む場合がある。システムは、化合物指紋および化合物指紋に関連付けられた訓練ラベルを供給し、化合物指紋の再構成物を生成することによって訓練される場合があり、システムの訓練は再構成誤差によって制約される。再構成誤差は、符号化された化合物表現が確率的デコーダによって生成された確率変数から引き出されるという否定的な可能性を含む場合がある。システムは、再構成誤差を最適化する、たとえば最小化するように訓練される場合がある。いくつかの実施形態では、訓練は、再構成誤差および正則化誤差を含む損失関数によって制約される。確率的自動エンコーダは、符号化分布を近似することを学習するように訓練される場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。訓練は、損失関数を最小化することを含む場合がある。いくつかの実施形態では、訓練ラベルは、所定の値を有する1つまたは複数のラベル要素を含む。いくつかの実施形態では、システムは、1つまたは複数のラベル要素を含むターゲットラベルを受け取り、1つまたは複数のラベル要素の各々についての規定値を満たす化合物指紋を生成するように構成される。いくつかの実施形態では、訓練ラベルはターゲットラベルを含まない。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形
態では、訓練は、確率的エンコーダと確率的デコーダとの間の情報フロー全体をさらに制約する。いくつかの実施形態では、確率的エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される。いくつかの実施形態では、サンプリングモジュールは、エンコーダの出力を受け取り、エンコーダの出力に基づいて潜在変数を定義し、1つまたは複数の潜在的表現を生成するように構成され、潜在変数は確率分布によってモデル化される。いくつかの実施形態では、確率分布は、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、F分布、およびそれらの変形形態からなるグループから選択される。いくつかの実施形態では、確率的エンコーダは推論モデルを含む。いくつかの実施形態では、推論モデルは多層パーセプトロンを含む。いくつかの実施形態では、確率的自動エンコーダは生成モデルを含む。いくつかの実施形態では、生成モデルは多層パーセプトロンを含む。いくつかの実施形態では、システムは、化合物指紋について選択されたラベル要素の値を予測するように構成された予測子をさらに含む。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される1つまたは複数のラベル要素を含む。
【0007】
別の態様では、本明細書に記載されるシステムおよび方法は、化合物表現の生成のための訓練方法に関する。訓練方法は、生成モデルを訓練することを含む場合がある。訓練モデルの訓練は、生成モデルに化合物指紋および関連付けられた訓練ラベルを入力すること、ならびに化合物指紋の再構成物を生成することを含む場合がある。生成モデルは、化合物指紋を潜在変数として符号化するように構成された確率的エンコーダ、潜在的表現を指紋要素の値にわたる確率変数として復号するように構成された確率的デコーダ、および/または潜在変数からサンプリングして潜在的表現を生成するか、もしくは確率変数からサンプリングして指紋の再構成物を生成するように構成されたサンプリングモジュールを含む確率的自動エンコーダを含む場合がある。訓練ラベルは、経験値または予測値を有する1つまたは複数のラベル要素を含む場合がある。システムの訓練は、再構成誤差によって制約される場合がある。再構成誤差は、符号化された化合物表現が確率的デコーダによって出力された確率変数から引き出されるという否定的な可能性を含む場合がある。訓練は、再構成誤差を最小化することを含む場合がある。いくつかの実施形態では、訓練は、再構成誤差および正則化誤差を含む損失関数によって制約される。訓練は、損失関数を最小化することを含む場合がある。
【0008】
さらに別の態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。システムは、生成モデルを含む機械学習モデルを含む場合がある。生成モデルは、化合物指紋データ、および1つまたは複数のラベル要素を含む関連付けられた訓練ラベルを含む訓練データセットで訓練される場合がある。いくつかの実施形態では、生成モデルは、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の層のユニットを有するニューラルネットワークを含む。いくつかの実施形態では、ラベル要素は、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される1つまたは複数の要素を含む。いくつかの実施形態では、生成モデルは確率的自動エンコーダを含む。いくつかの実施形態では、生成モデルは、確率的エンコーダ、確率的デコーダ、およびサンプリングモジュールを有する変分自動エンコーダを含む。いくつかの実施形態では、確率的エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される。いくつかの実施形態では、サンプリングモジュールは、確率的エンコーダの出力を受け取り、エンコーダの出力に基づいて潜在変数を定義し、1つまたは複数の潜在的表現を生成するように構成され、潜在変数は確率分布によってモデル化される。いくつかの実施形態では、確率的デコーダは、潜在的表現を復号し、指紋要素の値にわたって確率変数を生成するように構成される。いくつかの実施形態では、確率分布は、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、F分布、およびそれらの変形形態からなるグループから選択される。いくつかの実施形態では、確率的エンコーダおよび確率的デコーダは同時に訓練される。いくつかの実施形態では、コンピュータシステムはGNUを含む。いくつかの実施形態では、生成モデルは予測子をさらに含む。いくつかの実施形態では、予測子は、指紋関連訓練ラベルの少なくともサブセットについて1つまたは複数のラベル要素の値を予測するように構成される。いくつかの実施形態では、機械学習ネットワークは、訓練データセットにないシステム生成化合物指紋を含む出力を提供するように構成される。
【0009】
さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のための方法に関する。方法は、化合物指紋および経験的または予測されたラベル要素値を有する1つまたは複数のラベル要素を含む関連付けられた訓練ラベルを含む訓練データセットで生成モデルを訓練することを含む場合がある。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される1つまたは複数の要素を含む。いくつかの実施形態では、生成モデルは確率的自動エンコーダを含む。いくつかの実施形態では、生成モデルは、確率的エンコーダおよび確率的デコーダおよびサンプリングモジュールを含む変分自動エンコーダを含む。いくつかの実施形態では、方法は、訓練データセット内の化合物指紋ごとに平均のベクトルおよび標準偏差のベクトルのペアを含む出力をエンコーダから提供することをさらに含む。いくつかの実施形態では、確率的エンコーダおよび確率的デコーダは同時に訓練される。いくつかの実施形態では、訓練は、確率的エンコーダを、潜在変数を定義する平均のベクトルおよび標準偏差のベクトルとして化合物指紋を符号化するように訓練することと、潜在変数から潜在的表現を引き出すことと、確率的デコーダを、化合物指紋の確率的再構成物として潜在的表現を復号するように訓練することとを含む。いくつかの実施形態では、潜在変数は、正規F分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、F分布、およびそれらの変形形態からなるグループから選択される確率分布によってモデル化される。いくつかの実施形態では、訓練は、逆伝搬を使用して変分自動エンコーダについての変分下限を最適化することを含む。いくつかの実施形態では、生成モデルは、GNUを有するコンピュータシステム内に存在する。いくつかの実施形態では、生成モデルは予測子モジュールを含む。いくつかの実施形態では、方法は、訓練データセット内の1つまたは複数の化合物指紋に関連付けられたラベル要素についての1つまたは複数の値を予測することをさらに含む。いくつかの実施形態では、方法は、訓練セット内に表されていない化合物についての同定情報を含む出力を生成モデルから生成することをさらに含む。
【0010】
またさらなる態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダを含む場合がある。システムは、化合物指紋および1つまたは複数のラベル要素を含む関連付けられた訓練ラベルを含む訓練データセットを入力し、化合物指紋の再構成物を生成することによって訓練される場合がある。システムの訓練は、再構成誤差および/または正則化誤差によって制約される場合がある。生成された再構成物は、再構成分布からサンプリングされる場合がある。再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む場合がある。システムの訓練は、符号化分布を近似することを確率的自動エンコーダに学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。いくつかの実施形態では、システムは、1つまたは複数のラベル要素について選択された値を満たす化合物指紋を生成するように構成される。いくつかの実施形態では、訓練ラベルは、1つまたは複数のラベル要素について選択された値を含まない。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形態では、確率的自動エンコーダは、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上の層を含む。いくつかの実施形態では、コンピュータシステムは、訓練データセット内の1つまたは複数の化合物指紋に関連付けられた1つまたは複数のラベル要素についての値を予測するように構成された予測子をさらに含む場合がある。いくつかの実施形態では、ラベル要素は、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される1つまたは複数の要素を含む。
【0011】
さらに別の態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のための方法に関する。方法は、機械学習モデルを訓練することを含む場合がある。訓練は、機械学習モデルに化合物指紋および1つまたは複数のラベル要素を含む関連付けられたラベルを入力すること、ならびに化合物指紋の再構成物を生成することを含む場合がある。機械学習モデルは、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。いくつかの実施形態では、訓練は、再構成誤差および正則化誤差によって制約される。生成された再構成物は、再構成分布からサンプリングされる場合がある。いくつかの実施形態では、再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む。訓練は、符号化分布を近似することを確率的自動エンコーダに学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。
【0012】
さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。システムは、生成モデルを含む機械学習モデルを含む場合がある。機械学習モデルは、化学指紋データおよび第1のラベル要素を有するラベルの関連集合を含む第1の訓練データセット、ならびに化学指紋データおよび第2のラベル要素を有するラベルの関連集合を含む第2の訓練データセットで訓練される場合がある。いくつかの実施形態では、第1および第2の訓練データセットの化学指紋データは、生成ネットワークの少なくとも2つの層のユニットに入力される。いくつかの実施形態では、第1のラベル要素を有するラベルおよび第2のラベル要素を有するラベルは、訓練中に生成ネットワークの異なる部分に導入される。いくつかの実施形態では、第1のラベル要素は、第1のバイオアッセイにおける化学指紋に関連付けられた化合物の活性を表す。いくつかの実施形態では、第2のラベル要素は、第2のバイオアッセイにおける化学指紋に関連付けられた化合物の活性を表す。いくつかの実施形態では、システムは、第1のタイプを有する第1のラベル要素についての規定値に関する要件、および第2のラベル要素についての規定値に関する要件を満たす可能性が高い化合物の表現を生成するように構成される。いくつかの実施形態では、高い可能性は、1、2、3、4、5、6、7、8、9、10、12、15、20、25、30、40、50、60、70、80、90、95、98、99%、またはそれ以上よりも大きい。いくつかの実施形態では、第1のラベル要素についての規定値に関する要件は、ノイズと比較して少なくとも1、2、3、4、5、6、7、8、9、10、12、15、20、30、50、100、500、1000、またはそれ以上の標準偏差である第1のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第1のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも10、20、30、40、50、100、200、500、1000%大きい第1のバイオアッセイについての肯定的な結果を有する
ことを含む。いくつかの実施形態では、第1のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも100%大きい第1のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第1のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、25倍、50倍、100倍、200倍、300倍、400倍、500倍、1000倍、10000倍、または100000倍大きい第1のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第2のラベル要素についての規定値に関する要件は、ノイズと比較して少なくとも1、2、3、4、5、6、7、8、9、10、12、15、20、30、50、100、500、1000、またはそれ以上の標準偏差である第2のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第2のラベル要素についての規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも10、20、30、40、50、100、200、500、または1000%大きい第2のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第2のラベル要素の規定値に関する要件は、等モル濃度の既知の化合物の活性よりも少なくとも2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、25倍、50倍、100倍、200倍、300倍、400倍、500倍、1000倍、10000倍、または100000倍大きい第2のバイオアッセイについての肯定的な結果を有することを含む。
【0013】
<参照による組み込み>
個々の刊行物、特許、または特許出願が、参照により組み込まれるように具体的かつ個別に示された場合のように、本明細書内で言及されるすべての刊行物、特許、および特許出願は、参照により本明細書に組み込まれる。
【0014】
本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載される。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明および添付の図面を参照することによって得られる。
【図面の簡単な説明】
【0015】
【
図2A】予測子がない多成分生成モデルの例示的なアーキテクチャを示す図である。そのようなアーキテクチャを有する生成モデルは、教師付き学習によって訓練される場合がある。
【
図2B】予測子がある多成分生成モデルの例示的なアーキテクチャを示す図である。そのようなアーキテクチャを有する生成モデルは、半教師付き学習によって訓練される場合がある。
【
図3】所望のラベルy~によって設定された要件を満たす化合物の生成された表現の初期作成のための実例を示す図である。
【
図4A】ラベル付きシード化合物に基づいて生成された化合物表現を作成するための例示的な説明を提供する図である。化合物表現x~は、実際のラベルyDおよび所望のラベルy~を使用することによって生成される場合がある。
【
図4B】ラベル付きでないシード化合物を作成するための例示的な説明を提供する図である。化合物表現x~は、予測子モジュールによって生成される予測ラベルy、および所望のラベルy~を使用することによって生成される場合がある。
【
図5A】本発明の様々な実施形態による、エンコーダについての実例を描写する図である。
【
図5B】本発明の様々な実施形態による、デコーダについての実例を描写する図である。
【
図6】本発明の様々な実施形態による、変分自動エンコーダの訓練方法の実例を描写する図である。
【
図7】本発明の様々な実施形態による、単一ステップの評価およびランク付け手順の実例を描写する図である。
【
図8】本発明の様々な実施形態による、生成された指紋およびそれらの予測結果の評価方法の実例を描写する図である。
【
図9】ランク付けモジュール用の訓練方法の例示的な説明を描写する図である。
【
図10】本発明の様々な実施形態による、潜在的表現生成器(LRG)、分類子、および順序付けモジュールを含むランク付けモジュールの例示的な説明を描写する図である。
【
図11】初期生成プロセスおよび比較生成プロセスの逐次使用の例示的な説明を描写する図である。
【
図12】ラベルまたはラベル要素値の変化に影響を及ぼす可能性がある化合物特性の同定のための例示的な方法およびシステムを描写する図である。
【
図13】所望のラベルまたはラベル要素値に関連する可能性がある特定の化合物における変態の同定のためのシステムおよび方法を描写する図である。
【
図14】k-メドイドクラスタリングを使用する比較モジュールの例示的な説明を描写する図である。
【
図15】k-平均クラスタリングを使用する比較モジュールの例示的な説明を描写する図である。
【
図16】本明細書に記載される1つまたは複数の動作を実施することができる例示的なコンピュータシステムのブロック図である。
【
図17A】指紋およびラベルが機械学習モデルの同じ層に入力される、機械学習モデルにおける指紋およびラベルのための入力層の代替構成の例示的な説明を描写する図である。
【
図17B】指紋およびラベルが機械学習モデルの異なる層に入力される、機械学習モデルにおける指紋およびラベルのための入力層の代替構成の例示的な説明を描写する図である。
【発明を実施するための形態】
【0016】
本発明は、様々な実施形態において、機械学習および/または人工知能法の使用による化合物候補表現の直接生成を可能にする方法およびシステムに関する。様々な実施形態では、本明細書に記載される方法およびシステムは、生成モデル、深層生成モデル、有向グラフィカルモデル、深層有向グラフィカルモデル、有向潜在グラフィカルモデル、潜在変数生成モデル、非線形ガウス確率ネットワーク、シグモイド確率ネットワーク、深層自己回帰ネットワーク、ニューラル自己回帰分布推定器、一般化雑音除去自動エンコーダ、深層潜在ガウスモデル、および/またはそれらの組合せを利用することに関する。いくつかの実施形態では、生成モデルは、変分自動エンコーダなどの確率的自動エンコーダを利用する。変分自動エンコーダなどの生成モデルの構成要素は、確率的エンコーダおよび確率的デコーダを実装する多層パーセプトロンを含む場合がある。エンコーダおよびデコーダは、たとえば逆伝搬を使用することによって同時に訓練される場合がある。
【0017】
本明細書に記載されるシステムおよび方法は、生成モデルを訓練するために使用される訓練データセットに含まれなかった新規化合物を生成するために使用される場合がある。さらに、様々な実施形態における本発明の方法およびシステムは、所望の一組の特性を有する1つまたは複数の化合物を同定する可能性を高める。様々な実施形態では、本発明の方法およびシステムは、化合物の効果および副作用の同時予測、または一般に薬物再配置と呼ばれる既存の薬物の新たな使用法の発見を含む。様々な実施形態では、「化合物」または「化合物を生成すること」に対する言及は、化合物およびその生成に関する情報を一意的に識別することに関するが、必ずしも化合物の物理的な作成に関するとは限らない。そのような情報を一意的に識別することは、化学式もしくは化学構造、参照コード、または本明細書に記載されるか、もしくは当技術分野で知られている任意の他の適切な識別子
を含む場合がある。
【0018】
例示的な実施形態では、化合物についての所望の一組の特性は、活性、溶解性、毒性、および合成の容易性のうちの1つまたは複数を含む。本明細書に記載される方法およびシステムは、オフターゲット効果の予測、または薬物候補が選択されたターゲット以外のターゲットとどのように相互作用するかの予測を容易にすることができる。
【0019】
機械学習手法はコンピュータ化された画像認識では成功しているが、コンピュータ化された創薬の分野でこれまでに提供されてきた改善は、比較するとささやかである。本明細書に記載されるシステムおよび方法は、新規の方法で、化合物およびそれらの活性、効果、副作用、および特性に関する予測を改善する生成モデルを含む解決策を提供する。本明細書に記載される生成モデルは、所望の仕様に従って化合物を生成することにより、独特の手法を提供する。
【0020】
様々な実施形態では、本明細書に記載される方法およびシステムは、化学式、化学構造、電子密度、または他の化学特性などの化学情報を表す一組の分子記述子によって通常特徴付けられる化合物情報が提供される。化合物情報は、各化合物の指紋表現を含む場合がある。さらに、本明細書に記載される方法およびシステムは、受容体または酵素などの特定のターゲットに関する化合物の活性を描写するものなどの生物学的データ、たとえば、バイオアッセイ結果を含む追加情報を含むラベルが提供される場合がある。本明細書に記載される方法およびシステムは、分子記述子の値のベクトルおよびラベル要素値のベクトルのペアを含む訓練セットで訓練される場合がある。化合物情報およびラベルの組合せは、通常、たとえば、バイオアッセイデータ、溶解性、交差反応性、ならびに、疎水性などの他の化学的特徴、yなどの相転移境界を含む、化合物の生物学的および化学的特性に関するデータ、または化合物の構造もしくは機能を特徴付けるために使用され得る任意の他の情報を含む。訓練の際に、本明細書に記載されるシステムおよび方法は、1つまたは複数の化学指紋などの1つまたは複数の化合物を同定する化学情報を出力することができる。いくつかの実施形態では、本明細書に記載される方法およびシステムは、所望の化学的および/または生物学的な特性を有すると予想される1つまたは複数の化合物についての同定化学情報を出力することができる。たとえば、同定された化合物は、1つまたは複数の指定されたバイオアッセイ結果、毒性、交差反応性などについての所望の範囲内の検査結果を有すると予想される場合がある。本明細書に記載される方法およびシステムは、場合によっては、所望の特性を有することの予想レベルに従ってランク付けされた化合物のリストを出力することができる。同定された化合物は、ヒットリード研究においてリード化合物または初期化合物として使用される場合がある。
【0021】
本明細書に記載される方法およびシステムは、一定の大きさの化合物を利用することができる。たとえば、生成モデル、たとえば深層生成モデルは、様々な実施形態において、100,000、50,000、40,000、30,000、20,000、15,000、10,000、9,000、8,000、7,000、6,000、5,000、4,000、3,000、2,500、2,000、1,500、1,250、1000、900、800、750、600、500、400、300ダルトン未満の分子量を有する化合物の表現で訓練される場合があり、かつ/またはそれらを生成することができる。
【0022】
以下の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表現の観点から提示される。これらの説明および表現は、データ処理技術の当業者により、当業者の仕事の内容を他の当業者に最も効果的に伝えるために使用される手段である。
【0023】
これらの用語および同様の用語はすべて、適切な物理量に関連付けられるべきであり、これらの量に適用される便利なラベルに過ぎない。以下の説明から明らかなように特に明記されない限り、説明の全体を通して「処理する」または「計算する」または「算出する」または「決定する」または「表示する」などの用語を利用する説明は、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表されるデータを、コンピュータシステムのメモリもしくはレジスタ、または他のそのような情報ストレージデバイス、伝送デバイス、もしくは表示デバイス内の物理量として同様に表される他のデータに、操作および変換するコンピュータシステムまたは同様の電子計算デバイスのアクションおよびプロセスを指す。
【0024】
本発明のシステムおよび方法は、多層パーセプトロン内に実装された生成モデル、確率的自動エンコーダ、または変分自動エンコーダなどの1つまたは複数の機械学習構造および部分構造を含む場合があり、本明細書に記載された、または当技術分野で知られている任意の適切な学習アルゴリズム、たとえば、限定はしないが、損失関数を最小化する確率的勾配降下を伴う逆伝播、または変分下限を最適化する確率的勾配上昇を伴う逆伝播を利用することができる。モデルが訓練されると、それは、たとえば、予測モジュール(または予測子)を使用して、予測のためにコンピュータまたはコンピュータネットワークに提示されるデータの新しいインスタンスを評価するために使用することができる。予測モジュールは、訓練フェーズ中に使用された機械学習構造の一部または全部を含む場合がある。いくつかの実施形態では、モデルによって生成された確率変数からサンプリングすることにより、新しい化合物指紋が生成される場合がある。
【0025】
いくつかの実施形態では、本明細書に記載される方法およびシステムは、次いで生成モデルとして使用することができる確率的自動エンコーダまたは変分自動エンコーダを訓練する。一実施形態では、確率的自動エンコーダまたは変分自動エンコーダは、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、またはそれ以上の隠れ層を含む多層パーセプトロンとして具現化される。場合によっては、確率的自動エンコーダまたは変分自動エンコーダは、確率的エンコーダおよび確率的デコーダを含む多層パーセプトロンを含む場合がある。他の実施形態では、本明細書の他の箇所でさらに詳細に記載されるように、生成モデルを形成するように訓練することができる、様々な統計モデルのうちのいずれかが実装される場合がある。教師付きまたは半教師付きの訓練アルゴリズムは、指定されたアーキテクチャで機械学習システムを訓練するために使用される場合がある。
【0026】
第1の態様では、本明細書に記載される方法およびシステムは、化合物の表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。確率的自動エンコーダまたは変分自動エンコーダは、潜在的表現がサンプリングされ得る潜在的な確率変数に指紋データを変換するための確率的エンコーダと、サンプルが引き出され得る確率変数に潜在的表現を変換し、それにより化合物表示の再構成物を生成するための確率的デコーダと、潜在的な確率変数から潜在的表現をサンプリングすることができるサンプリングモジュールおよび/または確率変数から化合物指紋をサンプリングすることができるサンプリングモジュールとを含む場合がある。システムは、化合物の表現およびそれらの関連ラベルを入力し、化合物表示の再構成物を生成することによって訓練される場合があり、化合物指紋および再構成物の分布は、再構成誤差および正則化誤差を含む損失関数の値によって異なる。再構成誤差は、入力化合物表現が確率的デコーダによって生成された確率変数から引き出されるという否定的な可能性を含む場合がある。確率的自動エンコーダは、符号化分布を近似することを学習するように訓練される場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。システムは、損失関数を最適化する、たとえば、最小化するように訓練される場合がある。いくつかの実施形態では、システムは、化合物に関連付けられた訓練ラベルをさらに入力することによって訓練される。いくつかの実施形態では、システム
は、選択された一組の所望のラベル要素値を満たす可能性が高い化合物指紋を生成するように構成される。いくつかの実施形態では、一組の所望のラベル要素値は、訓練データセット内のラベル内に現れない。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形態では、エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される。システムは、エンコーダの出力に基づいて潜在的な確率変数を定義することができる。潜在的な確率変数は、確率分布、たとえば、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、もしくはF分布、またはそれらの変形形態によってモデル化される場合がある。エンコーダおよび/またはデコーダは、多層パーセプトロンまたは再帰型ニューラルネットワークなどの他のタイプのニューラルネットワークの1つまたは複数の層を含む場合がある。システムは、化合物指紋に関連付けられたラベル要素値を予測するための予測子をさらに含む場合がある。いくつかの実施形態では、ラベル要素は、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性からなるグループから選択される1つまたは複数の要素を含む。
【0027】
別の態様では、本明細書に記載されるシステムおよび方法は、化合物表現の生成のための方法に関する。方法は、生成モデルを訓練することを含む場合がある。訓練は、(1)化合物の表現およびそれらの関連ラベルを入力すること、ならびに(2)化合物指紋の再構成物を生成することを含む場合がある。生成モデルは、a)潜在的表現がサンプリングされ得る潜在変数として指紋およびラベルデータを符号化するための確率的エンコーダと、b)指紋データの再構成物がサンプリングされ得る確率変数に潜在的表現を変換するための確率的デコーダと、c)潜在変数をサンプリングして潜在的表現を生成する、または確率変数をサンプリングして指紋再構成物を生成するサンプリングモジュールとを含む、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。システムは、再構成誤差および正則化誤差を含む損失関数を最適化する、たとえば最小化するように訓練される場合がある。再構成誤差は、符号化された化合物表現が確率的デコーダによって出力された確率変数から引き出されるという否定的な可能性を含む場合がある。訓練は、変分自動エンコーダまたは確率的自動エンコーダに符号化分布を近似することを学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。
【0028】
さらに別の態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。「薬物予測」は、本発明の様々な実施形態に関連して、化合物が特定の化学的および物理的な特性を有することについての分析を指すことが理解される。合成、インビボ検査およびインビトロ検査、ならびに化合物を用いた臨床試験などのその後の活動は、本発明の特定の実施形態において、続くと理解されるが、そのようなその後の活動は「薬物予測」という用語では暗示されない。システムは、生成モデルを含む機械学習モデルを含む場合がある。生成モデルは、指紋データなどの化合物表現を含む訓練データセットで訓練される場合がある。いくつかの実施形態では、機械学習モデルは、少なくとも2、3、4、5、6、7、8、9、10、またはそれ以上の層のユニットを含む。いくつかの実施形態では、訓練データセットは、訓練データセット内の化合物の少なくともサブセットに関連付けられたラベルをさらに含む。ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、溶解性、または当技術分野で知られている任意の他の適切なラベル要素などの、化合物の活性および特性のうちの1つまたは複数などのラベル要素を有する場合がある。生成モデルは、確率的自動エンコーダを含む場合がある。いくつかの実施形態では、確率的自動エンコーダは、少なくとも3、4、5、6、7、8、9、10、11、12、13、14、またはそれ以上
の層のユニットを有する多層パーセプトロンを含む。いくつかの実施形態では、生成モデルは、確率的エンコーダ、確率的デコーダ、およびサンプリングモジュールを含む確率的自動エンコーダまたは変分自動エンコーダを含む。確率的エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを含む出力を提供するように構成される場合がある。システムは、エンコーダの出力に基づいて潜在的な確率変数を定義することができる。潜在的な確率変数は、確率分布、たとえば、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、F分布、またはそれらの変形形態によってモデル化される場合がある。コンピュータシステムはGNUを含む場合がある。生成モデルは予測子をさらに含む場合がある。予測子は、訓練データセット内の化合物指紋の少なくともサブセットについてのラベル要素値を予測するように構成される場合がある。いくつかの実施形態では、生成モデルは、モデルによって生成された化合物表現を含む出力を提供するように構成される。表現は、化合物を一意的に同定するのに十分であり得る。生成された化合物は、訓練データセットに含まれなかった化合物であってもよく、場合によっては、これまで合成されていないか、または考えられてさえいない化合物であってもよい。
【0029】
さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のための方法に関する。方法は、化合物表現および訓練データセット内の化合物の少なくともサブセットについての化合物の活性または特性を表す関連付けられたラベル要素値を含む訓練データセットで機械学習モデルを訓練することを含む場合がある。機械学習モデルは生成モデルを含む場合がある。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、または溶解性などの要素を有する。生成モデルは、確率的自動エンコーダまたは変分自動エンコーダなどの確率的自動エンコーダを含む場合がある。確率的自動エンコーダまたは変分自動エンコーダは、確率的エンコーダ、確率的デコーダ、およびサンプリングモジュールを含む場合がある。方法は、平均のベクトルおよび標準偏差のベクトルのペアを含む出力をエンコーダから提供することをさらに含む場合がある。平均のベクトルおよび標準偏差のベクトルのペアは、潜在変数を定義するために使用される場合がある。いくつかの実施形態では、方法は、サンプリングモジュールに潜在変数からの潜在的表現を引き出させることをさらに含む場合がある。潜在変数は、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、F分布、またはそれらの変形形態などの確率分布によってモデル化される場合がある。いくつかの実施形態では、機械学習モデルは、GPUを有するコンピュータシステム内に存在する。いくつかの実施形態では、機械学習モデルは予測子モジュールを含む。方法は、予測子モジュールを使用して訓練データのサブセットについてのラベル要素値を予測することをさらに含む場合がある。いくつかの実施形態では、方法は、化合物を同定するのに十分な一組の分子記述子を含む出力を機械学習モデルから生成することをさらに含む。化合物は訓練セットにない場合がある。
【0030】
またさらなる態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のためのコンピュータシステムに関する。システムは、確率的自動エンコーダまたは変分自動エンコーダを含む場合があり、システムは、化合物表現を入力し、化合物表現の再構成物を生成することによって訓練され、システムの訓練は、再構成誤差および/または正則化誤差によって制約される。生成された再構成物は、再構成分布からサンプリングされる場合があり、再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。化合物に関連付けられたラベル要素値は、化合物表現と同じポイントで、または別のポイントでシステムに入力される場合があり、たとえば、ラベルは自動エンコーダのデコーダに入力される場合がある。いくつかの実施形態では、システムは化合物表現を生成するように構成され、化合物は、一組の所望のラベル要素値によって定義される1つまたは複数の要件を満たす可能性が高い。いくつかの実施形態では、一組の所望のラベル要素値は、訓練データセットの一部ではなかった場合がある。いくつかの実施形態では、各化合物指紋は一意的に化合物を同定する。いくつかの実施形態では、訓練は、生成ネットワークの層を通る情報フロー全体をさらに制約する。いくつかの実施形態では、確率的自動エンコーダまたは変分自動エンコーダは、少なくとも2、3、4、5、6、7、8、9、10、またはそれ以上の層を有する多層パーセプトロンを含む。いくつかの実施形態では、システムは、ラベルを化合物表現に関連付けるための予測子をさらに含む。いくつかの実施形態では、ラベルは、バイオアッセイ結果、毒性、交差反応性、薬物動態、薬力学、バイオアベイラビリティ、および溶解性などの1つまたは複数のラベル要素を含む。
【0031】
さらに別の態様では、本明細書に記載される方法およびシステムは、化合物表現の生成のための方法に関する。方法は、機械学習モデルを訓練することを含む場合がある。訓練は、(1)指紋などの化合物表現を機械学習モデルに入力すること、および(2)化合物表現、たとえば指紋の再構成物を生成することを含む場合がある。機械学習モデルは、確率的自動エンコーダまたは変分自動エンコーダを含む場合がある。システムは、再構成誤差および正則化誤差を含む損失関数を最適化する、たとえば最小化するように訓練される場合がある。生成された再構成物は、再構成分布からサンプリングされる場合がある。再構成誤差は、入力化合物指紋が再構成分布から引き出されるという否定的な可能性を含む場合がある。訓練は、確率的自動エンコーダまたは変分自動エンコーダに符号化分布を近似することを学習させることを含む場合がある。正則化誤差は、符号化分布の複雑さに関連するペナルティを含む場合がある。
【0032】
さらなる態様では、本明細書に記載される方法およびシステムは、薬物予測のためのコンピュータシステムに関する。システムは、生成モデルを含む機械学習モデルを含む場合がある。機械学習モデルは、指紋などの化合物表現および第1のラベル要素についての値を有するラベルの関連集合を含む第1の訓練データセット、ならびに指紋などの化合物表現および第2のラベル要素についての値を有するラベルの関連集合を含む第2の訓練データセットで訓練される場合がある。いくつかの実施形態では、第1のラベル要素を有するラベルおよび第2のラベル要素を有するラベルは、それぞれ、訓練中に生成モデルの異なる部分に、たとえば、エンコーダおよびデコーダに導入される。いくつかの実施形態では、第1のラベル要素を有するラベルは、第1のバイオアッセイにおける化合物の活性を表す。いくつかの実施形態では、第2のラベル要素を有するラベルは、第2のバイオアッセイにおける化合物の活性を表す。いくつかの実施形態では、システムは、第1のラベル要素値を有するラベルに関する要件、および第2のラベル要素値を有するラベルに関する要件を満たす可能性が高い化合物の表現を生成するように構成される。いくつかの実施形態では、高い可能性は、1、2、3、4、5、6、7、8、9、10、12、15、20、25、30、40、50、60、70、80、90、95、98、99%、またはそれ以上よりも大きい。いくつかの実施形態では、第1のラベル要素に関する要件は、ノイズと比較して少なくとも1、2、3、4、5、6、7、8、9、10、12、15、20、30、50、100、500、1000、またはそれ以上の標準偏差である第1のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第1のラベル要素に関する要件は、等モル濃度の既知の化合物の活性と比較して、少なくとも10、20、30、40、50、100、200、500、1000%、またはそれ以上である第1のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第2のラベル要素に関する要件は、ノイズと比較して少なくとも1、2、3、4、5、6、7、8、9、10、12、15、20、30、50、100、500、1000、またはそれ以上の標準偏差である第2のバイオアッセイについての肯定的な結果を有することを含む。いくつかの実施形態では、第2のラベル要素に関する要件は、等モル濃度の既知の化合物の活性よりも、少なくとも10、20、30、40、50、100、200、500、1000%大きい第2のバイオアッセイについての肯定的な結果を有することを含む。
【0033】
<生成モデル>
様々な実施形態では、本明細書に記載されるシステムおよび方法は、生成モデルをコアコンポーネントとして利用する。
【0034】
本発明の方法およびシステムによる生成モデルは、1つまたは複数の隠れパラメータの値を与えられた観察可能データ値をランダムに生成するために使用することができる。生成モデルは、直接データをモデル化する(すなわち、確率密度関数から引き出された化合物観察値をモデル化する)ために、または条件付き確率密度関数を形成するまでの中間ステップとして使用することができる。生成モデルの例には、限定はしないが、確率的自動エンコーダ、変分自動エンコーダ、ガウス混合モデル、隠れマルコフモデル、および制限付きボルツマンマシンが含まれる。本明細書の他の箇所でさらに詳細に記載される生成モデルは、通常、化合物表現、すなわち指紋、および化合物に関連付けられたラベルにわたる同時確率分布を指定する。
【0035】
一例として、化合物の集合はx=(x1,x2,・・・,xN)として表される場合があり、ここで、xiは化合物の指紋表現を含む場合があり、Nは集合内の化合物の数である。これらの化合物はN個のラベルの集合L=(l1,l2,・・・,lN)に関連付けられる場合があり、ここで、liは、たとえば、化合物の活性、毒性、溶解性、合成の容易性、または、バイアッセイ結果もしくは予測的研究における他の結果などのラベル要素の値を含む場合があるラベルである。生成モデルは、これらの化合物およびそれらの関連ラベルが未知の分布Dから生成される、すなわちD~(xn,ln)であるという仮定のもとに構築される場合がある。生成モデルを訓練することは、訓練データセット内のデータ例を与えられた同時確率分布p(x,l)をモデル化するように、モデルの内部パラメータを調整する訓練方法を利用することができる。生成モデルが訓練された後、それはlの値に条件付けられたxの値、すなわちx~p(x|l)を生成するために使用される場合がある。たとえば、指紋およびラベルの訓練セットで訓練された生成モデルは、指定されたラベル値の要件を満たす可能性が高い化合物の表現を生成することができる。
【0036】
(「自動エンコーダ」と総称される)自動エンコーダおよびそれらの変形形態は、本明細書に記載される方法およびシステムにおいて、構成要素として使用することができる。確率的自動エンコーダおよび変分自動エンコーダなどの自動エンコーダは、生成モデルの例を提供する。様々な実施形態では、自動エンコーダは、制限付きボルツマンマシンなどの無向グラフィカルモデルとは異なる、有向グラフィカルモデルを実装するために使用される場合がある。
【0037】
様々な実施形態では、本明細書に記載される自動エンコーダは、2つの直列化された構成要素、すなわち、エンコーダおよびデコーダを含む。エンコーダは、潜在的表現がサンプリングされ得る潜在変数として入力データポイントを符号化することができる。デコーダは、潜在的表現を復号して、元の入力の再構成物がサンプリングされ得る確率変数を生成することができる。確率変数は、確率分布、たとえば、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、もしくはF分布、またはそれらの変形形態によってモデル化される場合がある。通常、入力データおよび出力再構成物の次元数は同じであり得る。
【0038】
様々な実施形態では、本明細書に記載される自動エンコーダは、たとえば、損失関数を最小化することによってそれらの入力を再現するように訓練される。損失関数によって表される再構成誤差および/または正則化誤差を最適化する、たとえば最小化するために、いくつかの訓練アルゴリズムを使用することができる。適切な訓練アルゴリズムの例は、本明細書の他の箇所でさらに詳細に記載され、そうでなければ当技術分野で知られており、制限なしで、確率勾配降下を伴う逆伝播を含む。さらに、ドロップアウト、スパースアーキテクチャ、および雑音除去などの、当技術分野で知られているいくつかの方法は、自動エンコーダが訓練データセットに過剰適合すること、および恒等関数を単に学習することを抑制するために使用される場合がある。本明細書で使用される「最小化する」という用語は、項の絶対値を最小化することを含む場合がある。
【0039】
訓練された確率的自動エンコーダまたは変分自動エンコーダなどの訓練された自動エンコーダは、モデル化された同時確率分布からサンプリングして潜在的表現を生成すること、およびこの潜在的表現を復号して入力データポイントを再構成することにより、観察可能データ値を生成またはシミュレートするために使用される場合がある。
【0040】
一実施形態では、自動エンコーダの重みは、最適化方法によって訓練中に調整される。一実施形態では、勾配降下とともに逆伝播を使用して損失関数を最適化する、たとえば最小化することによって重みが調整される。一実施形態では、自動エンコーダの個々の層が事前訓練される場合があり、自動エンコーダ全体の重みが一緒に微調整される。
【0041】
様々な実施形態では、本明細書に記載されるシステムおよび方法は、限定はしないが、深層生成モデル、確率的自動エンコーダ、変分自動エンコーダ、有向グラフィカルモデル、確率ネットワーク、またはそれらの変形形態を含む、深層ネットワークアーキテクチャを利用することができる。
【0042】
様々な実施形態では、本明細書に記載される生成モデルは、複数の構成要素を有する確率的自動エンコーダを含む。たとえば、生成モデルは、エンコーダ、デコーダ、サンプリングモジュール、およびオプションの予測子のうちの1つまたは複数を有する場合がある(
図2A~
図2B)。エンコーダは、化合物の表現、たとえば指紋を、異なる形態の出力、たとえば潜在変数として符号化するために使用される場合がある。訓練中、エンコーダは、潜在変数Zへの入力xの非線形マッピングを指定する符号化モデルを学習しなければならない。たとえば、潜在変数ZがZ=μz(x)+σz(x)εzとしてパラメータ化されていて、εz=N(0,1)である場合、エンコーダは、平均のベクトルおよび標準偏差のベクトルのペアを出力することができる。サンプリングモジュールは、潜在変数Zからサンプルを引き出して潜在的表現zを生成することができる。訓練中、デコーダは、潜在変数Zをx上の分布にマッピングする復号モデルを学習することができる、すなわち、デコーダは、サンプリングモジュールがサンプルを引き出して化合物指紋x~を生成することができる確率変数X~に、潜在的表現およびラベルを変換するために使用される場合がある。潜在変数または確率変数は、パラメータが、それぞれエンコーダまたはデコーダによって出力される正規分布などの、適切な確率分布関数によってモデル化される場合がある。サンプリングモジュールは、正規分布、ラプラス分布、楕円分布、スチューデントt分布、ロジスティック分布、一様分布、三角分布、指数分布、可逆累積分布、コーシー分布、レイリー分布、パレート分布、ワイブル分布、相反分布、ゴンペルツ分布、ガンベル分布、アーラン分布、対数正規分布、ガンマ分布、ディリクレ分布、ベータ分布、カイ二乗分布、F分布、もしくはそれらの変形形態などの任意の適切な確率分布、または他に当技術分野において知られている適切な確率分布関数からサンプリングすることができる。システムは、通常、入力化合物xDがデコーダによって生成された確率変数によって定義された分布から引き出されたという否定的な可能性を表す再構成誤差、および/または、通常、モデルの複雑さに課されたペナルティを表す正規化誤差を最小化するために訓練される場合がある。理論に縛られることなく、符号化モデルが解決困難であり得る真の事後分布p(Z|x)を近似しなければならないので、直接学習手法を使用する代わりに、推論モデルが使用される場合がある。変分自動エンコーダは、真の符号化分布p(Z|x)を近似することを学習する推論モデルqφ(Z|x)を使用することができる。
【0043】
VAEを訓練するために、データの尤度に対して変分下限が定義される場合がある:
logpθ(x)=L(θ,φ,x)
ここで、φは符号化パラメータを表記し、θは復号パラメータを表記する。この定義から、
L(θ,φ,x)=-DKL(qφ(Z|x)||pθ(Z))+Eq_φ(Z|x)(logpθ(x|Z))
という結果になる。
【0044】
先行潜在変数Zからの近似符号化モデルのカルバック-ライブラー(KL)発散である最初の右辺(RHS)項は、正規化項として働くことができる。2番目のRHS項は、通常、再構成項と呼ばれる。訓練プロセスは、符号化パラメータφと復号パラメータθの両方に対してL(θ,φ,x)を最適化することができる。推論モデル(エンコーダ)qφ(Z|x)は、ニューラルネットワークとしてパラメータ化される場合がある:
qφ(Z|x)=q(Z;g(x,φ))
ここで、g(x)は、入力xを潜在変数Zにマッピングする関数であり、Z=μZ(x)+σZ(x)εZとしてパラメータ化され、ここで、εZ=N(0,1)である(
図5A)。
【0045】
生成モデル(デコーダ)は、ニューラルネットワークとして同様にパラメータ化される場合がある:
pθ(x|Z)=p(x;f(Z,θ))
ここで、f(Z)は潜在変数Zをxにわたる分布にマッピングする関数である(
図5B)。デコーダの出力Xは、
X=μx(Z)+σx(Z)εx
としてパラメータ化される場合があり、ここで、εx=N(0,1)である。
【0046】
推論モデルおよび生成モデルは、勾配上昇を伴う逆伝播を使用して変分下限を最適化することによって同時に訓練される場合がある(
図6)。変分下限の最適化は、再構成誤差と正則化誤差の両方を含む損失関数を最小化するように働くことができる。場合によっては、損失関数は、再構成誤差と正則化誤差の和であるか、またはそれを含む。
【0047】
図2Aおよび
図2Bは、ラベル情報が2つ以上のレベルでモデルに提供される生成モデルの使用を例示する。さらに、本発明の様々な実施形態による機械学習モデルは、機械学習モデルの同じ層(
図17A)または異なる層(
図17B)で化合物表現およびラベルを受け入れるように構成される場合がある。たとえば、化合物表現は、エンコーダの1つまたは複数の層を通して渡される場合があり、各化合物表現に関連付けられたラベルは、エンコーダの後の層で入力される場合がある。
【0048】
本明細書に記載される本発明のシステムおよび方法は、指紋採取データなどの化合物の表現を利用することができる。データセットの一部に関連付けられたラベル情報が欠落している場合がある。たとえば、いくつかの化合物の場合、生成モデルの訓練において直接使用することができるアッセイデータが利用可能であり得る。他の場合には、ラベル情報が1つまたは複数の化合物に利用できない場合がある。特定の実施形態では、本発明のシステムおよび方法は、化合物にラベルデータを部分的または完全に割り当て、それをその
指紋データと関連付けるための予測子モジュールを含む。半教師付き学習の例示的な実施形態では、生成モデルを訓練するために使用される訓練データセットは、実験的に同定されたラベル情報を有する化合物と、予測子モジュールによって予測されるラベルを有する化合物の両方を含む。(
図2B)。
【0049】
予測子は、機械学習分類モデルを含む場合がある。いくつかの実施形態では、予測子は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、またはそれ以上の層を有する深層ニューラルネットワークである。いくつかの実施形態では、予測子はランダムフォレスト分類子である。いくつかの実施形態では、予測子は、化合物表現およびそれらの関連ラベルを含む訓練データセットで訓練される。いくつかの実施形態では、予測子は、生成モデルを訓練するために使用された訓練データセットとは異なる化合物表現およびそれらの関連ラベルの集合で以前に訓練されている場合がある。
【0050】
最初に1つまたは複数のラベル要素についてラベル付けされていなかった指紋は、予測子による1つまたは複数のラベル要素についてのラベル要素値に関連付けられる場合がある。一実施形態では、訓練データセットのサブセットは、関連付けられたラベルをもたない指紋を含む場合がある。たとえば、調製することが困難であり、かつ/または検査することが困難であり得る化合物は、完全にまたは部分的にラベル付けされていない場合がある。この場合、様々な半教師付き学習方法が使用される場合がある。一実施形態では、ラベル付き指紋の集合は、予測モジュールを訓練するために使用される。一実施形態では、予測子は、教師付き学習で訓練された分類アルゴリズムを実装する。予測子が十分に訓練された後、予測ラベルを生成するために、ラベル付けされていない指紋が予測子に入力される場合がある。指紋およびその予測ラベルは、次いで、生成モデルを訓練するために使用され得る訓練データセットに追加される。
【0051】
予測子ラベル付き化合物は、第1の生成モデルまたは第2の生成モデルを訓練するために使用される場合がある。予測子は、ラベル情報を欠く指紋特徴ベクトルxDにラベル要素値yを割り当てるために使用される場合がある。予測子の使用により、本明細書の生成モデルは、予測ラベルを部分的に含む訓練データセットで訓練される場合がある。本明細書の他の箇所でさらに詳細に記載される生成モデルは、訓練されると、指紋などの化合物の生成された表現を作成するために使用される場合がある。化合物の生成された表現は、所望のラベルによって課される様々な条件に基づいて作成される場合がある。
【0052】
いくつかの実施形態では、生成モデルは、訓練フェーズ中にモデルに提示されなかった新しい化合物の表現を生成するために使用される。いくつかの実施形態では、生成モデルは、訓練データセットに含まれなかった化合物表現を生成するために使用される。このようにして、化合物データベースに含まれない場合があるか、またはこれまで考えられていなかった場合がある新規の化合物が生成される場合がある。実際の化合物を含む訓練セットで訓練されたモデルは、いくつかの有利な特性を有する場合がある。理論に縛られることなく、実際の化合物の例、または機能性化学物質として働く可能性がより高い薬物による訓練は、たとえば、剰余変動を使用して手描きまたはコンピュータで生成された化合物よりも高い確率で同様の特性を所有する場合がある、化合物または化合物表現を生成するようにモデルに教えることができる。
【0053】
生成された表現に関連付けられた化合物は、化合物データベースに追加され、コンピュータによるスクリーニング法において使用され、かつ/またはアッセイにおいて合成および検査される場合がある。
【0054】
いくつかの実施形態では、生成モデルは、指定されたシード化合物に類似することを目指す化合物を生成するために使用される。シードに類似する化合物は、シード化合物およびその関連ラベルをエンコーダに入力することによって生成される場合がある。次いで、シード化合物の潜在的表示および所望のラベルがデコーダに入力される。シード化合物の表現を開始点として使用して、デコーダはサンプルが引き出され得る確率変数を生成する。サンプルは、シード化合物といくらかの類似性を有し、かつ/または所望のラベルによって定義される要件を満たす可能性が高いことが予想される化合物の指紋を含む場合がある。
【0055】
いくつかの実施形態では、生成モデルは、所望のラベル、すなわち所望のラベル要素値の集合を指定することにより、化合物表現を生成するために使用される。モデル化された同時確率分布に基づいて、生成モデルは、表現された化合物が指定されたラベル要素値の要件を満たす可能性が高い、1つまたは複数の化合物表現を生成することができる。様々な実施形態では、本明細書に記載される方法およびシステムは、生成モデルの訓練、化合物の表現の生成、またはその両方に使用される場合がある。生成フェーズは訓練フェーズに続く場合がある。いくつかの実施形態では、第1の関係者が訓練フェーズを実施し、第2の関係者が生成フェーズを実施する。訓練フェーズを実施する関係者は、訓練によって決定されたシステムのパラメータを、第1の関係者の所有下にある別個のコンピュータシステム、または、第2の関係者および/もしくは第2の関係者の所有下にあるコンピュータシステムに提供することにより、訓練された生成モデルの複製を可能にすることができる。したがって、本明細書に記載されるような訓練されたコンピュータシステムは、第2のコンピュータシステムが第1のシステムの出力分布を再現することができるように、本明細書に記載される訓練方法を使用して第1のコンピュータシステムを訓練することによって取得されたパラメータをそれに提供することによって構成された第2のコンピュータシステムを指す場合がある。そのようなパラメータは、有形または無形の形態で第2のコンピュータシステムに転送される場合がある。
【0056】
訓練フェーズは、生成モデルおよび予測子を同時に訓練するためにラベル付き指紋データを使用することを含む場合がある。
【0057】
生成フェーズでは、本明細書に記載されるコンピュータシステムの一部、たとえば確率的デコーダが、化合物の生成された表現、たとえば指紋を作成するために使用される場合がある。本明細書に記載されるシステムおよび方法は、生成された表現に関連付けられた、選択されたラベルに対する所望の結果、たとえばバイオアッセイ結果の確率を最大化する方法で、これらの表現を生成することができる。いくつかの実施形態では、生成された表現は、最初に、すなわち、標準正規分布などの既知の分布から潜在的表現を引き出すことによって生成される。いくつかの実施形態では、生成フェーズにおいて比較手法が使用される。たとえば、シード化合物およびその関連ラベルは、潜在的表現がサンプリングされ得る潜在変数を出力するエンコーダに入力される場合がある。次に、潜在的表現および所望のラベルは、デコーダに一緒に入力される場合がある。本明細書に記載される訓練アルゴリズムは、本明細書の他の箇所でさらに詳細に記載されるコンピュータシステムおよび方法内で利用される生成モデルの特定の構成に適合される場合がある。クロスバリデーション、ドロップアウト、または雑音除去などの当技術分野で知られている方法が、訓練プロセスの一部として使用される場合があることを理解されたい。
【0058】
いくつかの実施形態では、予測子は、ランダムフォレスト、勾配ブーストされた決定木アンサンブル、またはロジスティック回帰などの分類子を使用することができる。
【0059】
さらに詳細に本明細書の他の箇所に記載される本発明の生成モデルの訓練のために、様々な適切な訓練アルゴリズムを選択することができる。適切なアルゴリズムは、生成モデルのアーキテクチャおよび/または生成モデルが実施することが望まれるタスクに依存する場合がある。たとえば、変分自動エンコーダは、変分推論と確率的勾配上昇の組合せで
変分下限を最適化するように訓練される場合がある。
【0060】
正規化制約は、様々な方法によって課される場合がある。いくつかの実施形態では、ドロップアウト、雑音除去、またはスパース自動エンコーダなどの当技術分野で知られている方法が使用される場合がある。
【0061】
<生成手順>
様々な実施形態では、本明細書に記載される方法およびシステムは、化合物の表現を生成するために使用される。これらの生成された表現は、モデルを訓練するために使用された訓練データセットの一部ではなかった可能性がある。いくつかの実施形態では、生成された表現に関連付けられた化合物は、それを作成した生成モデルに対して新規であり得る。
【0062】
生成された表現および/または関連する化合物は、生成された表現および/または関連する化合物を決して提示されなかった生成モデルから作成される場合がある。いくつかの実施形態では、生成モデルは、訓練フェーズ中に生成された表現および/または関連する化合物を提示されなかった。
【0063】
場合によっては、本明細書に記載される方法およびシステムは、訓練データセットで訓練された生成モデルを作成する際に、化合物の生成された表現を出力するために使用される場合がある。したがって、化合物の化学構造およびそれらの特性などの訓練データセット内の情報は、生成フェーズおよび生成された表現に化合物を知らせることができる。
【0064】
様々な実施形態では、本明細書に記載される生成モデルは、活性を表示し、所望のラベルで指定された特性を所有する可能性が高い化合物の表現を生成する。たとえば、所望のラベルは、特定の受容体または酵素に対する活性などの、特定のバイオアッセイ検査上の指定された活性を含む場合がある。化合物は、式、構造、電気密度、もしくは他の化学特性などのいくつかの分子記述子、または当技術分野で知られている任意の他の適切な分子記述子によって特徴付けることができる。物理的特性ならびに化合物の線画に関連する記述子が使用される場合がある。たとえば、比較分子場フィールド分析(CoMFA)から生じるリガンドの電場が使用される場合もある。分子記述子には、限定はしないが、モル屈折率、オクチノール/水分配係数、pKa、炭素、酸素、もしくはハロゲン原子などの特定の元素の原子数、原子ペア記述子、回転可能結合、芳香族結合、二重結合、もしくは三重結合などの特定のタイプの結合数、親水性および/もしくは疎水性、環の数、各原子上の正の部分電荷の合計、極性、疎水性、親水性、および/もしくは水に接近可能な表面積、生成熱、トポロジー接続指数、トポロジー形状指数、電子トポロジー状態指数、構造フラグメントカウント、表面積、充填密度、ファンデルワールス体積、屈折率、キラリティ、毒性、ウィーナー指数、ランディック分枝指数、および/もしくはカイ指数などのトポロジー指数、3次元表現に基づく記述子などが含まれる場合がある。この情報は、各化合物の指紋として表される場合がある。本明細書に記載される方法およびシステムは、所望のラベル、たとえば特定のバイオアッセイで所望の結果を指定するラベルに関して特定の特性を有することが予想される、指紋などの化合物表現を生成するために、ラベルおよび化合物表現で生成モデルを訓練する。いくつかの実施形態では、生成された表現は、後で、ヒットリード手順においてリード化合物または初期化合物として使用される。
【0065】
<候補の生成(初期ケース)>
初期ケースでは、候補化合物の生成は、所望のラベルy~によってのみ制約される。したがって、候補化合物の物理的構造に制限がない場合、初期生成が使用される場合がある。生成された化合物は所望のラベルy~によってのみ制限されるので、初期生成は、化合物データベースにまだ存在しない可能性がある新規化合物を生成する可能性がより高い場
合がある。そのような結果は、探索的創薬研究において有用であり得る。
【0066】
様々な実施形態では、初期生成方法は、サンプリングモジュールおよびデコーダのみを利用して使用される。サンプリングモジュールは、生成モデルを訓練するために使用された確率分布とは異なる場合がある、指定された確率分布からサンプルを引き出すことができる。
図3は、サンプリングモジュールが標準正規分布からサンプリングする初期生成の実例を示す。これにより、既知の化合物との類似性をもたない場合がある潜在的表現zが生成される。潜在的表現zおよび所望のラベルy~は、両方ともデコーダに入力される場合がある。これらの入力から、デコーダは、所望のラベルy~の要件を満たす可能性が高い分子記述子(たとえば、指紋)の分布にわたって確率変数X~を生成することができる。次いで、サンプリングモジュールは、この確率変数からサンプリングして、生成された候補化合物用の指紋であり得るx~を生成する。
【0067】
<候補の生成(比較ケース)>
様々な実施形態では、本明細書に記載されるシステムおよび方法は、シード化合物を開始点として使用して、化合物の表現、たとえば指紋を生成するために利用される。シード化合物は、特定の実験結果が知られている既知の化合物であってもよく、生成された化合物の構造特性がシード化合物の構造特性とのいくらかの類似性を示すことが予想される場合がある。たとえば、シード化合物は、オフラベル使用のために再利用または検査されている既存の薬物であってもよく、生成された候補化合物が、低い毒性および高い溶解性などのシード化合物の有益な活性のうちのいくつかを保持するが、所望のラベルによって要求されるように、異なるターゲットとの結合などの、他のアッセイでは異なる活性を示すことが望ましい場合がある。シード化合物はまた、所望のラベル結果のサブセットを所有するように物理的に検査された化合物であってもよいが、毒性の低下、溶解性の改善、および/または合成の容易さの改善などの、特定の他のラベル結果における改善が望まれる。したがって、比較生成は、シード化合物と構造的類似性を所有するが、特定のアッセイにおいて所望の活性などの異なるラベル結果を示すことを目指す化合物を生成するために使用される場合がある。
【0068】
様々な実施形態では、シード化合物の指紋などの表現およびその関連ラベルが、訓練された確率的自動エンコーダまたは変分自動エンコーダなどの生成モデルに入力される。たとえば、シード化合物の指紋およびその関連ラベルがエンコーダに入力されると、エンコーダは潜在変数Zを出力することができる。潜在変数Zから、サンプリングモジュールは、シード化合物の潜在的表現およびそのラベル情報を作成するためにサンプルを引き出すことができる。この潜在的表現および所望のラベルy~は、可能な指紋値の空間にわたって定義された確率変数を生成するためにそれらを復号することができるデコーダに入力される場合がある。サンプリングモジュールは、確率変数からサンプリングして化合物表現を生成することができる。
【0069】
生成モデルまたはその個々の構成要素は、所望のラベルy~、ならびにシード化合物に基づいて生成された潜在的表現を受け入れるように構成される場合がある。シード化合物に関連付けられた元のラベルyD、および所望のラベルy~は、様々な程度で異なる場合がある。場合によっては、yDおよびy~は、毒性に関してなどの、1つまたは複数の指定された側面に関してのみ異なる場合があるが、他の側面に関しては異ならない場合がある。たとえば、yDおよびy~は、第1のバイオアッセイおよび第2のバイオアッセイに関して同じであり得るが、第3のバイオアッセイに関して異なる場合がある。いくつかの実施形態では、シード化合物は、実験的に決定された関連ラベルをもたない場合がある。この場合、シード化合物のラベルyDは、予測モジュールによって予測される場合がある。
【0070】
図4Aおよび
図4Bは、シード化合物および関連ラベルに基づいて生成された化合物表現を作成するための例示的な説明を提供する。この実施形態では、シード化合物の所望のラベルy~と潜在的表現zの両方がデコーダに入力される。この実施形態によれば、デコーダは、平均のベクトルおよび標準偏差のベクトルのペアを出力する。これらのベクトルは、シード化合物x
Dに類似するが、所望のラベルy~、または場合によっては、所望のラベルy~の近似バリアントに関連付けられた化合物が引き出される可能性がある分布をモデル化する確率変数X~を定義することができる。サンプルは、たとえば指紋の形態で化合物表現x~を生成するために、確率変数X~から引き出される場合がある。様々な実施形態では、生成ネットワークは、生成された化合物x~が、所望のラベルy~において指定された活性および特性の集合を有する可能性が高いように訓練される。
【0071】
いくつかの実施形態では、生成された表現に対応する化合物は化学的に調製される。調製された化合物は、生成フェーズで使用されたラベル内に明記されているような所望の特性または活性を有することについて検査される場合がある。調製された化合物は、さらなる特性または活性についてさらに検査される場合がある。いくつかの実施形態では、調製された化合物は、臨床使用、たとえば多段階動物および/またはヒト使用試験において検査される場合がある。
【0072】
<ラベルのソース>
訓練データは、PubChem(http://pubchem.ncbi.nlm.nih.gov/)などのデータベースからの化合物および関連ラベルの情報から集められる場合がある。データは、薬物スクリーニングライブラリ、組合せ合成ライブラリなどから取得される場合もある。アッセイに関連するラベル要素は、細胞アッセイおよび生化学アッセイを含む場合があり、場合によっては、複数の関連するアッセイ、たとえば、酵素の異なるファミリのアッセイを含む場合がある。様々な実施形態では、1つまたは複数のラベル要素に関する情報は、化合物データベース、バイオアッセイデータベース、毒性データベース、臨床記録、交差反応性記録、または当技術分野で知られている任意の他の適切なデータベースなどのリソースから取得される場合もある。
【0073】
<指紋採取>
化合物は、本明細書に記載される生成モデルとの関連で使用することができる表現、たとえば、指紋を作成するために前処理される場合がある。場合によっては、化合物の化学式は、縮退なしにその表現から復元される場合がある。他の場合には、1つの表現は2つ以上の化学式にマッピングすることができる。さらに他の場合には、その表現から推論され得る同定可能な化学式は存在しない可能性がある。最も近い隣接物探索は、表現空間において行われる場合がある。同定された隣接物は、生成モデルによって生成された表現を近似することができる化学式につながる可能性がある。
【0074】
様々な実施形態では、本明細書に記載される方法およびシステムは、生成モデルの入力および/または出力における化合物を表すために指紋を利用する。
【0075】
様々なタイプの分子記述子は、化合物を指紋として表すために組合せて使用される場合がある。いくつかの実施形態では、分子記述子を含む化合物表現は、様々な機械学習モデルへの入力として使用される。いくつかの実施形態では、化合物の表現は、少なくとも、または少なくとも約50、100、150、250、500、1000、2000、3000、4000、5000、またはそれ以上の分子記述子を含む。いくつかの実施形態では、化合物の表現は、10000、7500、5000、4000、3000、2000、1000、500、250、150、200、または50未満の分子記述子を含む。
【0076】
分子記述子は、すべてのアッセイおよび/またはしきい値の結合において、すべての化
合物にわたって正規化される場合がある。
【0077】
化合物指紋は、通常、(たとえば、接続表の形態で)化合物の化学構造の情報を含む分子記述子の値の列を指す。したがって、指紋は、化合物の元の化学的性質におけるいくつかの構造的特徴または物理的特性の存在または不在を識別する簡略表現であり得る。
【0078】
様々な実施形態では、指紋採取は、ハッシュベースまたは辞書ベースの指紋を含む。辞書ベースの指紋は辞書に依存する。辞書は、通常、指紋列内の各ビットが「オン」であるか「オフ」であるかを判定するために使用される一組の構造フラグメントを指す。指紋の各ビットは、そのビットが指紋内で設定されるために主構造内に存在しなければならない1つまたは複数のフラグメントを表すことができる。
【0079】
いくつかの指紋採取アプリケーションは、「ハッシュコーディング」手法を使用することができる。したがって、分子中に存在するフラグメントは、指紋ビット位置に対して「ハッシュコーディング」される場合がある。ハッシュベースの指紋採取は、分子中に存在するフラグメントのすべてを指紋内で符号化することを可能にすることができる。しかしながら、ハッシュベースの指紋採取は、いくつかの異なるフラグメントが同じビットを設定する原因となり、その結果、あいまいさにつながる可能性がある。
【0080】
指紋として化合物の表現を生成することは、様々なベンダーから公開されているソフトウェアスイートを使用することによって実現される場合がある。(たとえば、www.talete.mi.it/products/dragon_molecular_descriptor_list.pdf、www.talete.mi.it/products/dproperties_molecular_descriptors.htm、www.moleculardescriptors.eu/softwares/softwares.htm、www.dalkescientific.com/writings/diary/archive/2008/06/26/fingerprint_background.html、またはvega.marionegri.it/wordpress/resources/chemical-descriptorsを参照されたい)。
【0081】
<方法>
本発明の重要な利点は、より少ない副作用しかもたない可能性がある薬物を発見する能力である。本明細書に記載される生成モデルは、特定の結果がヒトまたは動物における副作用および/または毒性反応を引き起こす原因となることが知られている特定のアッセイについての化合物活性を訓練データセットに含めることによって訓練される場合がある。したがって、生成モデルは、化合物表現と有益な効果および望まれない効果との間の関係を教えられる場合がある。生成フェーズでは、デコーダに入力される所望のラベルy~は、有益な効果および/または望まれない副作用に関連付けられたアッセイで所望の化合物活性を特定することができる。次いで、生成モデルは、有益な効果と毒性/副作用の両方の要件を同時に満たす化合物の表現を生成することができる。
【0082】
有益な効果および望まれない副作用について所望の結果を同時に満たすことにより、本明細書に記載される方法およびシステムは、創薬プロセスの初期段階においてより効率的な探索を可能にし、それにより、検査薬物の受け入れられない副作用に起因して失敗する臨床試験の数が削減される可能性がある。これにより、創薬プロセスの期間と費用の両方が低減することにつながる可能性がある。
【0083】
いくつかの実施形態では、本明細書に記載される方法およびシステムは、既に存在する化合物用の新しいターゲットを見出すために使用される。たとえば、本明細書に記載され
る生成ネットワークは、所望のラベルに基づいて化合物用の生成された表現を作成することができ、化合物は別の効果を有することが知られている。したがって、複数のラベル要素で訓練された生成モデルは、異なる効果のための所望のラベルを入力することによって生成フェーズの使用に応答して、第1の効果を有することが知られている化合物用の表現を生成し、第2の効果を効果的に同定することができる。したがって、生成モデルは、既存の化合物用の第2のラベルを同定するために使用される場合がある。臨床試験された化合物を再利用することは、臨床研究中のリスクを低くする可能性があり、さらに、効果的かつ安価に有効性および安全性が実証される可能性があるため、そのように決定された化合物は特に価値がある。
【0084】
いくつかの実施形態では、本明細書の生成モデルは、非バイナリ方式でラベル要素のタイプについての値を学習するように訓練される場合がある。本明細書の生成モデルは、特定のラベル要素に対する化合物の効果のより高いまたはより低いレベルを認識するように訓練される場合がある。したがって、生成モデルは、所与の化合物についての有効性のレベルおよび/または毒性もしくは副作用のレベルを学習するように訓練される場合がある。
【0085】
本明細書に記載される方法およびシステムは、モデルに提示されなかった化合物および/またはこれまで存在しなかった化合物を含む、化合物の表現を生成する際に特に強力であるが、それにより、化合物ライブラリが拡大される。さらに、本発明の様々な実施形態はまた、生成モデルの出力が仮想または実験のスクリーニングプロセスのための入力データセットとして使用されることを可能にすることにより、従来の薬物スクリーニングプロセスを容易にする。
【0086】
様々な実施形態では、生成された表現は、訓練データセット内の化合物との類似性を有する化合物に関する。類似性は様々な側面を含む場合がある。たとえば、生成された化合物は、訓練データセット内の化合物との高度の類似性を有する場合があるが、それが類似する訓練データセット内の化合物よりも化学合成可能および/または化学的に安定である可能性が非常に高い場合がある。さらに、生成された化合物は、訓練データセット内の化合物と類似する場合があるが、それは、訓練データセット内の既存の化合物よりもはるかに高い、所望の効果があり、かつ/または望ましくない効果がない可能性を有する場合がある。
【0087】
様々な実施形態では、本明細書に記載される方法およびシステムは、化合物またはそれらの表現を、それらの合成の容易性、溶解性、および他の実際的な考慮事項を考慮に入れて、生成する。いくつかの実施形態では、生成モデルは、溶解性または合成機構を含む場合があるラベル要素を使用して訓練される。いくつかの実施形態では、生成モデルは、合成情報または溶解性レベルを含む訓練データを使用して訓練される。これらの因子に関連する所望のラベルは、生成された化合物表現が所望の溶解性または合成の要件に従って挙動する化合物に関連する可能性を高めるために、生成フェーズにおいて使用される場合がある。様々な創薬アプリケーションでは、複数の候補指紋が生成される場合がある。次いで、生成された指紋の集合は、高スループットスクリーニングにおいて使用され得る実際の化合物を合成するために使用することができる。化合物合成およびHTSより前に、生成された指紋が所望のアッセイ結果および/または構造特性を有するかどうかを評価することが有用である。生成された指紋は、(比較生成において)それらの予測結果およびシード化合物とのそれらの類似性に基づいて評価される場合がある。生成された指紋が所望の特性を有する場合、それらは、それらの薬物らしさに基づいてランク付けされる場合がある。
【0088】
さらなるシステムモジュールをこれらの手順に導入することができる。比較モジュールは、2つの指紋またはアッセイ結果の2つの集合を比較するために使用される場合がある。ランク付けモジュールは、薬物らしさスコアによって指紋の集合のメンバをランク付けするために使用される場合がある。分類子は、薬物らしさスコアを割り当てることにより、化合物指紋を分類するために使用される場合がある。また、順序付けモジュールは、採点された指紋の集合を順序付けするために使用される場合がある。
【0089】
様々な実施形態では、本発明の方法およびシステムは、生成された化合物の予測結果を評価し、かつ/または生成された化合物をランク付けするために使用される場合がある。様々な実施形態では、生成された指紋の予測されたアッセイ結果は、所望のアッセイ結果と比較される。所望のアッセイ結果と一致する予測結果を有する指紋は、さらなる考慮事項について、たとえば薬物らしさスコアによってランク付けされる場合がある
【0090】
図7は、本発明の様々な実施形態による、単一ステップの評価およびランク付け手順の実例を描写する。生成された表現x~は、本明細書に記載される様々な方法に従って、たとえば、初期生成または比較生成によって作成される場合がある。生成された表現x~、たとえば、指紋の形態の表現または関連する化合物は、訓練された予測子モジュールに入力される場合がある。(予測子モジュールは、たとえば、ラベル付きでないデータ用の半教師付き学習プロセス中に訓練されている場合がある)。予測子モジュールは、生成された表現x~についてのアッセイ結果の予測された集合y^を出力することができる。
【0091】
予測されたアッセイ結果y^および所望のアッセイ結果y~は、比較モジュールに入力される場合がある(
図7)。比較モジュールは、予測結果と所望の結果を比較するように構成される場合がある。予測結果が所望の結果と同じであると比較モジュールが判定した場合、x~はランク付けされていない候補の集合Uに追加される場合があり、そうでない場合、x~は拒絶される場合がある。ランク付けされていない集合は、本明細書の他の箇所でさらに詳細に記載されるように、ランク付けモジュールによってランク付けされる場合がある。
【0092】
様々な実施形態では、本発明の方法およびシステムは、生成された表現、たとえば比較生成を介して生成された指紋を評価するために使用される場合がある。
【0093】
比較生成では、シードと類似する新規の指紋を生成するために、シード化合物が使用される場合がある。比較生成プロセスに続いて、生成された指紋がシードと十分に類似するかどうかを判定するために、評価ステップが使用される場合がある。この実施形態では、比較モジュールは、2つの指紋、通常、生成された表現およびシード化合物の指紋の対応するパラメータを比較するために使用される場合がある。同一パラメータのしきい値またはしきい値類似性が達成された場合、2つの指紋は十分に類似しているとマークされる可能性がある。
【0094】
図8は、本発明の様々な実施形態による、生成された指紋およびそれらの予測結果の評価方法の実例を描写する。したがって、生成された表現x~および関連するシード化合物表現xDは、比較モジュールに入力される。比較モジュールは、最初に類似性についてx~とx
Dを比較するように構成される場合がある。x~がx
Dと十分に類似していると比較モジュールが判定した場合、x~が保持される場合がある。そうでない場合、x~は拒絶される場合がある。
【0095】
様々な実施形態では、保持された生成された表現x~は、本明細書の他の箇所でさらに詳細に記載されるように、予測子モジュールに入力される場合がある。予測子モジュールは、予測ラベルy^を出力するために使用される場合がある。比較モジュールは、予測ラベルy^を所望のラベルy~と比較するために使用される場合がある。(所望のラベルy~は、シード化合物表現xDとの比較生成中に生成された表現を作成するために使用された可能性がある)。生成された表現x~に対して、比較モジュールがy^とy~との間の十分な類似性を見出した場合、x~はランク付けされていない候補集合Uに追加される場合がある。ランク付けされていない集合Uは、ランク付けモジュールによってランク付けされる場合がある。ランク付けモジュールは、生成された表現を含む、ランク付けされた集合Rを出力することができる。
【0096】
本明細書に記載されるシステムおよび方法は、本発明の様々な実施形態において、ランク付けモジュールを利用する。ランク付けモジュールは、各指紋に薬物らしさスコアを割り当て、それらの薬物らしさスコアに従って指紋の集合をランク付けすることを含む、いくつかの機能を有するように構成される場合がある。
【0097】
化合物の薬物らしさを評価する一般的な既存の方法は、リピンスキのルールオブファイブへの化合物の準拠を確認することである。分配係数の対数(logP)およびモル屈折率などのさらなる因子が使用される場合もある。しかしながら、化合物のlogPおよび分子量が特定の範囲内にあるかどうかなどの簡単なフィルタリング方法は、合格値または不合格値を割り当てる分類分析のみを可能にすることができる。さらに、場合によっては、標準的な薬剤らしさ特性は、化合物を正確に評価するのに十分な識別力を提供しない場合がある。(たとえば、非常に成功した薬物リピトールおよびシングレアは両方とも、2つ以上のリピンスキの規則に合格しておらず、簡単なフィルタリングプロセスでは拒絶されたであろう。)
【0098】
いくつかの実施形態では、化合物の望ましいランク付けは、本明細書に記載されるランク付けモジュールによって実現される場合がある。本発明の様々な実施形態によるランク付けモジュールは、標準的な薬物らしさ特性をフィルタリングすることに依存するのではなく、指紋などの化合物表現をそれらの潜在的表現に基づいて評価する。理論に縛られることなく、化合物の指紋の潜在的表現は、標準的な薬物らしさ特性が提供できるよりも正確な化合物の挙動の説明を提供することができる、特徴の高水準抽象化および非線形結合を表す。
【0099】
図9は、ランク付けモジュールのための訓練方法の例示的な説明を描写する。様々な実施形態では、自動エンコーダは、化合物表現の大きな集合で訓練される。潜在的表現生成器(LRG)は、エンコーダと同様の位置に自動エンコーダの最初の部分を形成することができる。LRGは、化合物の潜在的表現(LR)を生成するために使用することができる。潜在的表現は分類子に入力される場合がある。分類子は教師付き学習で訓練される場合がある。分類子の訓練データセットは、ラベル付き薬物および非薬物の化合物を含む場合がある。分類子は、化合物の薬物らしさを表す連続スコアを出力するように訓練される場合がある。
【0100】
図10は、本発明の様々な実施形態による、LRG、分類子、および順序付けモジュールを含むランク付けモジュールの例示的な説明を描写する。化合物表現のランク付けされていない集合のメンバは、潜在的表現生成器(LRG)に入力される場合があり、潜在的表現は分類子に入力される場合がある。分類子は、潜在的表現ごとに薬物らしさスコアを提供するように構成される場合がある。化合物表現および/または関連化合物は、たとえば、最高の薬物らしさスコアから最低の薬物らしさスコアまで順序付けされる場合がある。ランク付けモジュールは、化合物表現、たとえば指紋、および/または化合物のランク付けされた集合を出力として提供するために使用される場合がある。
【0101】
本発明の様々な実施形態では、本明細書に記載されるシステムおよび方法は、初期生成および比較生成を介する新規の化合物空間の探索に関する。様々な実施形態によれば、初期生成および比較生成は、順番に利用される場合がある。本明細書に記載されるシステムおよび方法は、したがって、アッセイ結果の特定の集合を満たす新規化合物、または表現、たとえば指紋を生成するために使用される場合がある。化合物表現のまわりの表現空間内の同様の化合物は、本明細書に記載されるシステムおよび方法を使用して探索される場合がある。たとえば、初期化合物表現は、所望のラベルを用いて、初期生成または比較生成のプロセスを使用して生成される場合があり、1つまたは複数の生成された表現が出力される場合がある。次いで、生成された表現のまわりの化合物空間は、これらの初期表現のまわりで探索される場合がある。様々な実施形態によれば、初期生成および比較生成は、順番に使用される場合がある。
【0102】
図11は、初期生成および比較生成を順番に使用することの例示的な説明を描写する。そのような組合せは、所望のラベルに関連付けられた初期化合物のまわりの化合物空間を探索するために使用される場合がある。したがって、所望のアッセイ結果y~に基づいて、指紋x~は初期生成を使用して生成される場合がある。これまで知られていなかった化合物は、比較モジュールの使用により、フィルタを適用することによって優先順位を付けられる場合がある。比較モジュールは、x~を既知の化合物のデータベースと比較することができる。x~が既知の化合物のデータベース内に既に存在すると比較モジュールが判断した場合、x~は拒絶用フラグを立てられる場合がある。x~がこれまで知られていなかった化合物であると比較モジュールが判断した場合、x~は予測子に入力される場合がある。予測子は、x~について予測されたアッセイ結果y^を生成することができる。
【0103】
表現x~およびその予測されたアッセイ結果y^を比較生成のためのシードとして使用することにより、新しい表現x+が生成される場合がある。予測子は、x+の予測されたアッセイ結果y+を生成するために使用される場合がある。比較モジュールは、y+が所望のアッセイ結果y~と同じまたは類似するかどうかを判定するために使用される場合がある。同一性または十分な類似性が見出されると、x+は保持のためにマークされる場合がある。保持された表現は、ランク付けされていない候補の集合Uに追加される場合がある。任意の所望の数の指紋x+は、比較生成の繰り返し適用により、x~およびy^の初期シードから生成される場合がある。
【0104】
候補表現のランク付けされていない集合Uは、ランク付けモジュールに入力される場合がある。ランク付けモジュールは、化合物表現および/または関連化合物のランク付けされた集合Rを出力することができる。
【0105】
様々な実施形態では、本明細書に記載されるシステムおよび方法は、特定のアッセイの結果に影響を与え得る化合物特性を同定するために使用される場合がある。理論に縛られることなく、少数の特定の構造特性は、特定のアッセイで化合物の性能を変化させる変態であり得る。様々な実施形態では、本明細書に記載されるシステムおよび方法は、特定のアッセイでの化合物の性能に関連付けられた候補変態を同定するプロセスを提供する。同定された候補変態は、一致分子ペア分析(MMPA)用の開始点として使用される場合がある。
【0106】
例示的な実施形態では、2つの生成プロセス、たとえば2つの初期生成プロセスが、異なるシードラベルを利用して実行される。一方では、所望のラベルy~が陽性シードとして使用される。他方では、反対のラベルy*が陰性シードとして使用される。たとえば、y~が単一のバイナリアッセイ結果である場合、陰性シードy*は、そのアッセイについての反対の結果であり得る。理論に縛られることなく、単一のアッセイ結果を使用することは、結果として生じる生成された指紋に不必要に大きなばらつきをもたらす可能性がある。ばらつきを低減するために、陽性シードy~としてラベル要素のベクトルが使用される場合がある。たとえば、y~がラベル要素値のベクトルで構成される場合、たとえば対象
のアッセイ結果で、y*は1ラベル要素値だけy~と異なる場合がある。
【0107】
したがって、様々な実施形態では、化合物表現の2つの集合AおよびBが、2つの生成プロセスから生成される場合がある。集合Aは、陽性シードy~から生成された化合物を含む場合がある。集合Bは、陰性シードy*から生成された化合物を含む場合がある。化合物表現の2つの集合は、比較モジュールに入力される場合がある。比較モジュールは、対象のラベルまたはラベル要素における差異の原因となる可能性が最も高い化合物表現パラメータを識別するように構成される場合がある。比較モジュールは、本明細書の他の箇所でさらに詳細に記載される。
【0108】
いくつかの実施形態では、各々が異なるラベルを使用する2つ以上の初期生成プロセスは、2つの生成プロセスを有する実施形態について上述された方式と同様の方式で、化合物の複数の集合を生成するために使用される場合がある。これらの集合は、異なるラベル値に関連付けられ得る化合物表現において、重要な変態を同定するために分析される場合がある。
【0109】
様々な実施形態では、本明細書に記載されるシステムおよび方法は、特定の化合物についての所望のラベル要素値に関連する変態、すなわち、特定のラベル要素値の原因となり得る特定の化合物における変態を探索するために使用される場合がある。いくつかの実施形態では、方法は、同じシード化合物表現であるが異なるターゲットラベルまたはラベル要素値を用いて、2つの比較生成プロセスを実行することによって実施される。2つの比較生成プロセスは並行して実行される場合があり、化合物表現の2つの集合が生成される場合がある。比較モジュールは、肯定的な結果で生成された表現と否定的な結果で生成された表現との間の特定の構造的差異を同定するために使用される場合がある(
図13)。
【0110】
生成された表現は、最初に、シード化合物とのそれらの類似性によって評価される場合がある。それらが十分に類似している場合、予測子モジュールは、表現ごとに予測されたラベルまたはラベル要素値を決定するために使用される場合がある。予測されたラベルまたはラベル要素値は、ターゲットのラベルまたはラベル要素値と比較される場合がある(
図13)。
【0111】
比較生成プロセスは繰り返し実行される場合がある。結果として生じる候補生成表現は、所望の基数を有する2つの集合AおよびBにグループ化される場合がある。Aのメンバは、比較モジュールによってBのメンバと比較される場合がある。比較モジュールは、2つの集合間の均一な構造変態および異なる構造変態を同定することができる。比較モジュールは、後の実施例および本明細書の他の箇所でさらに詳細に説明される。これらの構造変態は、MMPAを介するさらなる分析のための開始点として使用することができる。
【0112】
いくつかの実施形態では、プロセスごとに異なるラベルを使用して表現を生成するために、3つ以上の比較生成プロセスが使用される。2つの生成プロセスを有する実施形態について上述されたように、化合物の複数の集合が生成される場合がある。これらの集合は、異なるラベル値に関連付けられ得る化合物表現において、重要な変態を同定するために分析される場合がある。
【0113】
様々な実施形態では、本明細書に記載されるシステムおよび方法は、比較モジュールを利用する。比較モジュールは、単一または複数の機能を有するように構成される場合がある。たとえば、比較モジュールは、(1)ラベルの2つのベクトルまたは2つの化合物表現が同様または同一であるかどうかを判定すること、および(2)指定されたラベルまたはラベル要素値における変化の原因となる可能性が最も高いパラメータを識別するために化合物表現の2つの集合を比較することなどの、2つの機能を1つのモジュールに統合することができる。他の実施形態では、比較モジュールは、単一の機能または3つ以上の機能を有する場合がある。
【0114】
いくつかの実施形態では、比較モジュールは、類似性または同一性についての2つのオブジェクトの比較を実施するように構成される。比較は、類似性または同一性についての簡単な一対比較を含む場合があり、そこでは、アッセイ結果の2つのベクトルまたは2つの指紋などの2つのオブジェクトの対応する要素が比較される。ユーザ指定のしきい値などのしきい値は、2つのオブジェクトが比較に合格するか失敗するかを判定するために使用される場合がある。いくつかの実施形態では、本明細書に記載されるシステムおよび方法は、たとえば、オブジェクトの訓練セットの実行可能なグループ化をもたらすしきい値を決定することにより、しきい値を設定するために使用される場合がある。
【0115】
いくつかの実施形態では、比較モジュールは、潜在的表現生成器(LRG)によって出力された潜在的表現に関する比較を実施するように構成される。LRGは、指紋などの化合物表現を潜在的表現として符号化するために使用される場合がある。結果として生じる潜在的表現の分布が比較される場合があり、類似性または同一性の判定が行われる場合がある。
【0116】
いくつかの実施形態では、比較モジュールは、重要な化合物変態の同定のためにオブジェクトの集合を比較するように構成される。たとえば、指紋の2つの集合を比較するとき、重要な化合物変態を同定するために、いくつかの方法が使用される場合がある。
【0117】
いくつかの実施形態では、比較モジュールは、線形モデルを使用して重要なパラメータを識別する。理論に縛られることなく、パラメータ間の相互作用が、特定のアッセイ結果、毒性、副作用、または、本明細書においてさらに詳細に記載される他のラベル要素、もしくは当技術分野で知られている任意の他の適切なラベル要素における差異などの、ラベルまたはラベル要素値における差異の原因となる可能性に対処する、相互作用項をモデルに追加することができる。
【0118】
いくつかの実施形態では、比較モジュールは、集団における不平等の尺度としてジニ係数を利用するように構成される。ジニ係数は、オブジェクトのすべての可能なペア間の差の平均を平均サイズで割って計算することにより、オブジェクトの1つ、いくつか、またはすべてのパラメータについて計算される場合がある。理論に縛られることなく、パラメータ用の大きなジニ係数は、集合Aのメンバと集合Bのメンバとの間のそのパラメータにおいて高度の不等を示す傾向がある。様々な実施形態では、最大のジニ係数を有する所望の数のパラメータは、ラベルまたはラベル要素値、たとえばアッセイ結果における変化に関連する可能性が最も高いパラメータとして選択される場合がある選択により、上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれ以上のパラメータが選択され得る。いくつかの実施形態では、選択は、しきい値レベルを超えるジニ係数を有するパラメータ、またはラベルもしくはラベル要素値の変化に関連付けられた上記しきい値の確度を有するパラメータを選択する。
【0119】
いくつかの実施形態では、ジニ係数計算と並行して分類ツリーが使用される場合がある。最大のジニ係数を有するパラメータは、分類ツリーのルートとなるように選択される場合がある。分類ツリーの残りは、たとえばトップダウン誘導によって学習される場合がある。所望の数の重要なパラメータは、適切なレベルでツリーの挙動を観察することによって識別される場合がある。
【0120】
指紋の2つの集合の基数が低い場合、ジニ係数は直接計算される場合がある。理論に縛
られることなく、集合Aおよび集合Bの基数が大きくなるにつれて、ジニ係数の直接計算は、組合せ爆発に起因して困難または非現実的になる可能性がある。本明細書に記載されるシステムおよび方法は、たとえばクラスタリング方法を適用することにより、AとBとの間の必要な一対比較の数を減らす方法を利用するように構成される場合がある。したがって、パラメータのジニ係数は、AのメンバおよびBのメンバのクラスタリングから生じるクラスタの重心間の一対比較によって計算される場合がある。
【0121】
理論に縛られることなく、化合物表現は多数のパラメータを、たとえば数千またはそれ以上の単位で有するので、AおよびBのメンバを直接クラスタリングすることは、次元数のために実現不可能になる可能性がある。数千の次元を有する空間内の集合Aおよび集合Bの表現は、非常に疎であり得る。化合物表現空間において統計的に有意なクラスタリングを実現するために、多数のデータポイントが必要とされる場合がある。本発明のシステムおよび方法は、様々な実施形態では、代替のクラスタリング方法を利用することにより、これらの問題に対処することができる。いくつかの実施形態では、本発明の方法およびシステムは、AおよびBのメンバの潜在的表現を含むベクトルをクラスタリングするために使用される。これらの潜在的表現は、より低い次元であり得る。潜在的表現はAおよびBのメンバのパラメータの非線形結合を取り込むことができるので、潜在的表現をクラスタリングすることはさらに有利であり得る。この能力は、場合によっては、化合物の挙動またはその特定の特徴、たとえば特定の化学残留物を説明する優れた能力を、潜在的表現に提供することができる。
【0122】
様々な実施形態では、本発明のシステムおよび方法は、関連する潜在的表現のクラスタリングを実施することにより、化合物表現をクラスタリングするために使用される。たとえば、本発明のシステムおよび方法は、潜在的表現空間において、k-メドイドクラスタリングを使用してジニ係数を計算するために使用される場合がある
【0123】
図14は、k-メドイドクラスタリングを使用する比較モジュールの例示的な説明を描写する。したがって、潜在的表現は、集合Aおよび集合Bのメンバのために生成される場合がある。たとえば、潜在的表現生成器(LRG)は、集合AおよびBのメンバを潜在的表現として符号化して、それぞれ、潜在的表現集合ALおよびBLを形成するために使用される場合がある。潜在的表現集合のメンバには、k-メドイドクラスタリングなどのクラスタリング方法が適用される場合がある。クラスタリングに続いて、潜在的表現の重心集合ACおよびBCを形成するために、クラスタリングされた集合の重心が抽出される場合がある。理論に縛られることなく、k-メドイドクラスタリングなどのいくつかのクラスタリング方法における重心は、元のデータセットの実際のメンバなので、そのようなクラスタリング方法の適用において、集合ACおよびBCは、元の集合AおよびBのメンバの潜在的表現を含むことが予想される。ACおよびBCのメンバに対応する化合物表現は、指紋の2つの集合AFおよびBFを形成するために検索することができる。AFおよびBFの基数は、元の集合AおよびBの基数よりも大幅に低くなる可能性がある。集合AFおよびBFのメンバは、アッセイ結果などのラベルまたはラベル要素値における変化の原因となり得る化合物変態を識別するために使用される場合がある。
【0124】
場合によっては、本発明のシステムおよび方法は、潜在的表現空間においてk-平均クラスタリングを使用してジニ係数を計算するために使用される場合がある。
図15は、k-平均クラスタリングを使用する比較モジュールの例示的な説明を描写する。したがって、集合AおよびBのメンバは、k-メドイド法の場合にあり得るように、潜在的表現として符号化される場合がある。たとえば、潜在的表現生成器(LRG)は、集合AおよびBのメンバを潜在的表現として符号化して、それぞれ、潜在的表現集合ALおよびBLを形成するために使用される場合がある。k-平均クラスタリングは、潜在的表現集合のメンバに適用される場合がある。k-平均クラスタリングから生じる重心は、潜在的表現の重
心集合ACおよびBCを形成するために抽出される場合がある。理論に縛られることなく、重心集合ACおよびBCのメンバは、多くの場合、元の集合AおよびBのいくつかのメンバに対応する符号化された潜在的表現ではない可能性がある。しかしながら、重心集合のメンバは、化合物表現空間において対応するメンバを生成するために復号される場合がある。たとえば、潜在的表現デコーダモジュール(LRD)は、重心に対応する化合物表現、たとえば指紋を生成するために使用される場合があり、これらは、それぞれ、集合AFおよびBF内でグループ化される場合がある。
【0125】
図9は、例示的な実施形態において、化合物表現の大きな集合での自動エンコーダの訓練を描写する。潜在的表現デコーダ(LRD)は、自動エンコーダの2番目の部分を、デコーダと同様の位置に形成することができる。すなわち、自動エンコーダの訓練中に、デコーダは、潜在的表現から元の化合物表現を再生成することを学習することができる。
【0126】
AFおよびBF内の生成された表現は、元の集合AおよびBと比較すると、相対的に基数が低い可能性がある。AFおよびBF内の生成された表現のメンバは、重要な化合物変態を同定するために使用される場合がある。
【0127】
様々な実施形態では、本明細書に記載されるシステムおよび方法は、異なる組成または長さの入力、たとえば、異なるラベル要素および/または異なる数のラベル要素を有するラベルを扱う。たとえば、訓練中に、訓練セット内の異なる化合物は、異なる長さのラベルを有する場合がある。よく知られている薬物は、新しい化合物よりも多くのアッセイ結果を有する可能性がある。加えて、生成フェーズ中に、所望のラベルy~は、モデルを訓練するために使用されるラベルyDよりも短い可能性がある。
【0128】
様々な実施形態では、確率的マスクを利用するマスキングモジュールなどのマスキングモジュールは、長さおよび/または組成に関して様々なオブジェクト、たとえば、様々なラベルを均一にするために使用される場合がある。場合によっては、ドロップアウトと同様の方法を使用して、確率的自動エンコーダまたは変分自動エンコーダが欠損値に対して堅牢になることができる。
【0129】
様々な実施形態では、確率的マスクは、訓練より前に訓練ラベルyDのマスクバージョンを生成するために使用される場合がある。たとえば、マスキングモジュールは、様々なラベルを、生成モデルにそれらを入力するより前に、処理するように構成される場合がある。2つのラベルが異なる数のラベル要素値を有する場合、マスキングモジュールは、欠損値であるラベル要素のすべてに0の値を追加するために使用される場合がある。さらに、確率的マスクは、訓練中にラベル要素の値をランダムにゼロにするために使用される場合がある。このように生成モデルを訓練することにより、モデルは、最初にラベル要素の数が異なる可能性がある訓練ラベルおよび所望のラベルを処理することができる可能性がある。
【0130】
マスキングモジュールの例示的な実施形態は、バイナリ結果を有するアッセイ結果で動作する。アッセイ結果は、非活性の場合は-1、活性の場合は1のラベル要素値として符号化することができる。マスキングモジュールは、訓練データセット内の各ラベル要素値に確率的マスクを加えることができる。マスクに関して、ラベルはyD=(m1y1,m2y2,・・・)と書くことができ、ここで、yiはマスクされていないラベル要素であり、miはyiのためのマスクであり、miは0または1の値を取る。訓練の場合、miの値はランダムに設定されてもよく、または、それらは対応するラベル要素値が存在しない経験的確率に従って設定されてもよい。
【0131】
miyi=0の場合、逆伝搬内の順方向パスに対して、0の値が次の層のアクティブ化に寄与しない可能性があるため、修正は必要でない場合がある。逆方向パス中に入力値が欠落しているノードにエラーを伝播させることを回避するために、欠損値を有する入力ノードは、逆方向パス中にフラグを立てて切断される場合がある。この訓練方法は、生成モデルが訓練中および生成プロセス中に異なる長さのラベルを処理できるようにすることができる。
【0132】
<コンピュータシステム>
本発明はまた、本明細書の動作を実施するための装置に関する。この装置は、必要な目的のために特別に構築される場合があり、または、コンピュータに記憶されたコンピュータプログラムによって選択的に起動または再構成された汎用コンピュータを含む場合がある。そのようなコンピュータプログラムは、限定はしないが、フロッピーディスク、光ディスク、CD-ROM、および光磁気ディスクを含む任意のタイプのディスク、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードもしくは光カード、または電子命令を記憶するのに適した、各々がコンピュータシステムバスに結合される任意のタイプの媒体などの、コンピュータ可読記憶媒体に記憶される場合がある。
【0133】
本明細書に提示された説明は、任意の特定のコンピュータまたは他の装置に本質的に関連していない。本発明の様々な実施形態を実践するために、汎用システムに加えて、より特殊化された装置が構築される場合がある。加えて、本発明は、任意の特定のプログラミング言語を参照して記載されていない。本明細書に記載されたように本発明の教示を実施するために、様々なプログラミング言語が使用され得ることが諒解されよう。機械可読媒体は、機械(たとえば、コンピュータ)によって読取り可能な形態で情報を記憶または送信するための任意の機構を含む。たとえば、機械可読媒体には、読取り専用メモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、電気的、光学的、音響的、または他の形態の伝搬信号(たとえば、搬送波、赤外線信号、デジタル信号など)などが含まれる。
【0134】
図16は、本明細書に記載される1つまたは複数の動作を実施することができる例示的なコンピュータシステムのブロック図である。
図16を参照すると、コンピュータシステムは、例示的なクライアントまたはサーバのコンピュータシステムを含むことができる。コンピュータシステムは、情報を通信するための通信機構またはバスと、情報を処理するためにバスと結合されたプロセッサとを含む場合がある。プロセッサは、マイクロプロセッサを含むことができるが、たとえば、Pentium、PowerPC、Alphaなどのマイクロプロセッサに限定されない。システムは、プロセッサによって実行されるべき情報および命令を記憶するためにバスに結合された、ランダムアクセスメモリ(RAM)、または(メインメモリと呼ばれる)他のダイナミックストレージデバイスをさらに含む。メインメモリはまた、プロセッサによる命令の実行中に、一時変数または他の中間情報を記憶するために使用される場合がある。様々な実施形態では、本明細書に記載される方法およびシステムは、プロセッサとして1つまたは複数のグラフィカル処理装置(GPU)を利用する。GPUは並行して使用される場合がある。様々な実施形態では、本発明の方法およびシステムは、複数のGPUなどの複数のプロセッサを有する分散コンピューティングアーキテクチャを利用する。
【0135】
コンピュータシステムはまた、プロセッサ用の静的情報および命令を記憶するためにバスに結合された読取り専用メモリ(ROM)および/または他のスタティックストレージデバイスと、磁気ディスクまたは光ディスクおよびその対応するディスクドライブなどのデータストレージデバイスとを含む場合がある。データストレージデバイスは、情報および命令を記憶するためにバスに結合される。いくつかの実施形態では、データストレージデバイスは、離れた場所、たとえばクラウドサーバ内に配置される場合がある。コンピュータシステムはさらに、コンピュータユーザに情報を表示するためにバスに結合された、陰極線管(CRT)または液晶ディスプレイ(CD)などのディスプレイデバイスに結合される場合がある。英数字および他のキーを含む英数字入力デバイスも、プロセッサに情報およびコマンド選択を通信するためにバスに結合される場合がある。さらなるユーザ入力デバイスは、プロセッサに方向情報およびコマンド選択を通信するために、かつディスプレイ上のカーソル移動を制御するためにバスに結合された、マウス、トラックボール、トラックパッド、スタイラス、またはカーソル方向キーなどのカーソルコントローラである。バスに結合される場合がある別のデバイスは、紙、フィルム、または同様のタイプの媒体などの媒体上に命令、データ、または他の情報を印刷するために使用され得るハードコピーデバイスである。その上、スピーカおよび/またはマイクロホンなどの音声記録再生デバイスは、場合によっては、コンピュータシステムとオーディオインターフェースするためにバスに結合される場合がある。バスに結合される場合がある別のデバイスは、電話またはハンドヘルドパームデバイスへの通信のための有線/ワイヤレス通信能力である。
【0136】
システムおよび関連ハードウェアの構成要素のうちのいずれかまたはすべてが本発明において使用される場合があることに留意されたい。しかしながら、コンピュータシステムの他の構成は、デバイスのいくつかまたはすべてを含む場合があることが諒解されよう。
【実施例1】
【0137】
<訓練中のエンコーダ向けの入力データ>
一例では、データは、分子記述子の特徴ベクトルを含む指紋などの化合物表現(xD)、および表現された化合物に関連付けられたラベル(yD)を含むペアとしてエンコーダに提供される。エンコーダに入力されるペアは、IE = (xiD, yiD) として記述される場合があり、xiD は次元数dim_xiD を有する実数値ベクトルであり、yiD は対応するxiD についてのラベルデータを表記する。xiDの次元数dim_xiD は、訓練データセット全体にわたって固定される場合がある。yDの要素は、場合によっては任意の次元を有するスカラーまたはベクトルであり得る。yD内のラベル要素値は、連続またはバイナリであり得る。
【0138】
この例における説明によれば、次元10を有するxD、および単一のラベル要素値を含むyDの場合、入力データの例は以下のようであり得る:
xD=(1.2,-0.3,1.5,4.3,-2.9,1.3,-1.5,2.3,10.2,1.1)、
yD=3、
エンコーダへの入力は
IE=((1.2,-0.3,1.5,4.3,-2.9,1.3,-1.5,2.3,10.2,1.1),3)
である。
【実施例2】
【0139】
<訓練中のエンコーダの出力>
エンコーダ用の例示的な出力構造が記載される。エンコーダに入力される所与のIE = (xiD, yiD) に対して、エンコーダは、平均の実数値ベクトルμE,i、および標準偏差の実数値ベクトルσE,iのペアを出力し、OE=(μE,i,σE,i)=((μE,i,1,・・・,μE,i,d),(σE,i,1,・・・,σE,i,d))として表される。ベクトルμEおよびσEの次元はこの例では同じである。しかしながら、ベクトルμEおよびσEの次元は、dim_xiD、または、dim_xiD + dim_yiD とは異なる場合がある。OEは、決定論的な方法でエンコーダによって提供される。所与のIEおよびエンコーダのパラメータの集合に対して、単一のOEペアが提供される。4の次元数の場合、エンコーダの例示的な出力は、μE=(1.2,-0.02,10.5,0.2)およびσE=(0.4,1.0,0.3,0.3)によって示される。
【実施例3】
【0140】
<訓練プロセス中の潜在変数Zの作成>
この例では、エンコーダによって出力される平均および標準偏差は、潜在変数Z=(N(μE,i,1,σE,i,1),・・・,N(μE,i,d,σE,i,d))を定義し、μE,iおよびσE,iはエンコーダによって出力されたベクトルであり、Nは正規分布を表記する。たとえば、エンコーダの出力がμE=(1.2,-0.02,10.5,0.2)およびσE=(0.4,1.0,0.3,0.3)を含む場合、サンプリングモジュールは、潜在的な確率変数をZ=(N(1.2,0.4),N(-0.02,1.0),N(10.5,0.3),N(0.2,0.3))として定義することができる。
【実施例4】
【0141】
<訓練プロセス中のサンプリングモジュールによる潜在的表現の作成>
例示的なサンプリングモジュールは、潜在変数Zおよび確率変数X~によって定義されるものなどの、一確率分布からの一サンプル、または確率分布の集合からの複数のサンプルを引き出す。この例では、サンプリングモジュールは、潜在変数Zと同じ次元を有する潜在的表現zを生成するために、潜在変数Zからサンプルを引き出すことができる。この例では、潜在変数Zから単一の潜在的表現zが引き出される。Z=(N(1.2,0.4),N(-0.02,1.0),N(10.5,0.3),N(0.2,0.3)に対して、例示的な潜在的表現ベクトルzは、z=(0.9,-0.1,10.1,0.1)である。必要に応じて、サンプリングモジュールは、単一の潜在変数Zから複数の潜在的表現zを引き出すことができる。
【実施例5】
【0142】
<訓練中のデコーダへの入力(ID)>
この例では、デコーダは、順序付きペア(z、yD)を含む入力IDを受け取り、zは潜在的な確率変数Zからサンプリングされた潜在的表現であり、yDはラベルである。この例では、ラベルyDは、入力特徴ベクトルxDに関連付けられたラベルと同じである。したがって、ラベルyDは訓練プロセス内で2回入力され、1回はエンコーダに、1回はデコーダに入力される。たとえば、IDは、ペア((0.9,-0.1,10.1,0.1),3)を含む場合がある。
【0143】
エンコーダとデコーダの両方の入力層は、指紋とその関連ラベルの両方を受け取ることができるように構成される。比較生成中、この構成は、2つの異なる入力ラベルの使用を容易にする:元のラベルyDはエンコーダに入力され、所望のラベルy~はデコーダに入力される。
【実施例6】
【0144】
<訓練中のデコーダの出力>
この例では、デコーダは、平均の実数値ベクトルμD,iおよび標準偏差の実数値ベクトルσD,iのペアを出力として生成する:OD=(μD,i,σD,i)=((μD,i,1・・・,μD,i,d),(σD,i,1,・・・,σD,i,d))。この例では、ベクトルμDおよびσDの次元は、エンコーダに入力される特徴ベクトルxDの次元と同じである。たとえば、dim_xiD =10の場合、デコーダは、元の入力xD=(1.2,-0.3,1.5,4.3,-2.9,1.3,-1.5,2.3,10.2,1.1)に対して、μD=(1.1,-0.2,1.1,3.9,-3.5,0.1,-2.0,1.9,9.3,1.0)およびσD=(0.1,0.3,0.2,0.5,1.0,0.5,1.0,0.2,0.1,1.0)を出力することができる。
【0145】
デコーダの出力から、潜在変数X~は、X~=(N(μD,i,1,σD,i,1),・・・,N(μ D,i,d,σD,i,d))であるように定義することができ、μ D,iおよびσD,iはデコーダによって出力されたベクトルである。たとえば、μ D=(1.1,-0.2,1.1,3.9,-3.5,0.1,-2.0,1.9,9.3,1.0)およびσD=(0.1,0.3,0.2,0.5,1.0,0.5,1.0,0.2,0.1,1.0)である場合、X~=(N(1.1,0.1),N(-0.2,0.3),・・・,N(1.0,1.0))である。次いで、サンプリングモジュールは、X~からサンプルxを引き出すことができ、xは化合物の生成された表現である。
【実施例7】
【0146】
<初期生成手順における標準正規分布からの潜在的表現zのサンプリング>
この例は初期生成プロセスに関する。この例では、潜在的表現zは、サンプリングモジュールによって標準正規分布N(0,1)から引き出される。単一の所望のラベルy~が使用される。モデルによって生成されるべき化合物表現ごとに、別個の潜在的表現zがN(0,1)から引き出される。たとえば、ユーザが2つの化合物表現を生成することを望む場合、2つの別個の潜在的表現z1およびz2がN(0,1)から引き出される。zの次元数が4である場合、サンプリングモジュールは、一例では、サンプルz1=(0.2,-0.1,0.5,0.1)およびz2=(0.3,0.1,0,-0.3)を引き出すことができる。
【実施例8】
【0147】
<初期生成プロセスにおけるデコーダへの入力>
この例では、サンプリングモジュールによってNから以前にサンプリングされた潜在的表現z、ならびに所望のラベルy~がデコーダに入力される。ラベルy~は、生成された指紋によって表される化合物の所望の特性および活性に従って、ユーザによって指定される場合がある。所望のラベルy~は、モデルを訓練するために使用されたラベル要素のサブセット、すなわちラベルyDに含まれるラベル要素についての所望の値を含まなければならない。y~がyDよりも少ないラベル要素を有する場合、マスキングモジュールは、デコーダにy~が入力されるより前に、y~の欠損ラベル要素に0の値を与えることができる。所望のラベルy~は、yD内の対応するラベル要素の値とは異なるラベル要素の1つまたは複数の値を含む場合がある。単一の所望のラベルy~を用いて複数のx~を生成するために、Nから複数のサンプルzを引き出すことが可能である。zおよび異なる所望のラベルy~から構成されるいくつかのペアをデコーダに入力し、2つ以上の確率変数X~を生成することにより、単一の潜在的表現zから2つ以上の化合物表現を生成することも可能である。
【実施例9】
【0148】
<初期生成手順におけるデコーダの出力>
この例では、デコーダは、平均の実数値ベクトルμ D~および標準偏差の実数値ベクトルσD~のペア(μ D~、σD~)を出力する。この例では、ベクトルμ D~およびσD~の次元は、モデルの学習に使用された指紋である特徴ベクトルxDの次元と同じである。たとえば、xDの次元が10である場合、デコーダは、一例では、μ D~=(1.1,-0.2,1.1,3.9,-3.5,0.1,-2.0,1.9,9.3,1.0)およびσD~=(0.1,0.3,0.2,0.5,1.0,0.5,1.0,0.2,0.1,1.0)を出力する。
【実施例10】
【0149】
<初期生成手順における確率変数X~の構築>
デコーダの出力から、確率変得X~は、X~=(N(μ D、i、1,σD、i、1),・・・,N(μ D、i、d,σD,i,d))であるように定義することができ、μD,iおよびσD,iはデコーダによって出力されたベクトルである。たとえば、μD=(1.1,-0.2,1.1,3.9,-3.5,0.1,-2.0,1.9,9.3,1.0)およびσD=(0.1,0.3,0.2,0.5,1.0,0.5,1.0,0.2,0.1,1.0)である場合、X~=(N(1.1,0.1),N(-0.2,0.3),・・・,N(1.0,1.0))である。
【実施例11】
【0150】
<初期生成プロセスにおいて確率変数X~からサンプリングして表現x~を生成する>
化合物表現x~を生成するために、サンプリングモジュールは、確率変数X~からサンプルを引き出す。その次元がモデルを訓練するために使用された指紋特徴ベクトルの次元と同じであるようにX~を定義すると、表現x~の次元が指紋特徴ベクトルの次元と同じになることが可能になり得る。必要に応じて、確率変数X~から複数の化合物表現がサンプリングされる場合がある。たとえば、確率変数X~=(N(1.1,0.1),N(-0.2,0.3),・・・,N(1.0,1.0))である場合、X~から4つのサンプルを引き出すことができ、一例では、4つの表現x1~=(1.0,-0.1,・・・,3.0)、x2~=(1.2,-0.5,・・・,1.8)、x3~=(1.0,-0.1,・・・,0.5)、およびx4~=(0.9,0.3,・・・,1.1)がもたらされる。
【実施例12】
【0151】
<比較生成手順におけるエンコーダの入力および出力>
この例では、エンコーダへの入力およびエンコーダからの出力は、エンコーダおよびデコーダの訓練中に実施例1および2において使用されたものと同じタイプである。たとえば:
xD=(1.2,-0.3,1.5,4.3,-2.9,1.3,-1.5,2.3,10.2,1.1)、
yD=3、
μE=(1.2,-0.02,10.5,0.2)、および
σE=(0.4,1.0,0.3,0.3)
である。
【0152】
しかしながら、実施例1および2では、エンコーダへの入力およびエンコーダからの出力は、生成モデルを訓練するために使用されているが、この例では、それらは、新規の化合物表現を生成するプロセスにおいて使用される。
【実施例13】
【0153】
<比較生成手順における潜在変数Zの構築および潜在敵表現zのサンプリング>
この例では、上記の実施例3および4において使用されたように、潜在的表現zを作成するために、潜在変数Zを定義し、Zからサンプリングするために同じ手順が使用される。
【0154】
たとえば:
μE=(1.2,-0.02,10.5,0.2)、
σE=(0.4,1.0,0.3,0.3)、
Z=(N(1.2,0.4),N(-0.02,1.0),N(10.5,0.3),N(0.2,0.3))、および
z=(0.9,-0.1,10.1,0.1)
である。
【0155】
しかしながら、実施例3および4では、潜在変数Zおよび潜在的表現zは、生成モデルを訓練するために使用されたが、この例では、それらは、化合物表現を生成するプロセスにおいて使用される。必要に応じて、潜在変数Zから複数の潜在的表現zが引き出される場合がある。
【実施例14】
【0156】
<比較生成手順におけるデコーダの入力および出力>
この例では、デコーダへの入力とデコーダの出力の両方を構築するために、実施例8および9において使用されたものと同じ手順が使用される。たとえば:
ID=(z,y~)、
OD=(μD~,σD~)、
μD~=(1.1,-0.2,1.1,3.9,-3.5,0.1,-2.0,1.9,9.3,1.0)、および
σD~=(0.1,0.3,0.2,0.5,1.0,0.5,1.0,0.2,0.1,1.0)
である。
【0157】
実施例9、10、および11と同様に、デコーダの出力は化合物表現を生成するために使用される。しかしながら、実施例8では、潜在的表現zは標準正規分布から引き出されているが、この例では、それは潜在変数Zから引き出され、潜在変数Zは、シード化合物xDおよびその関連ラベルyDに対する潜在変数である。サンプリングモジュールは、潜在変数Zからサンプルを引き出して潜在的表現zを生成する。1つまたは複数の潜在的表現zは、デコーダからの複数の出力を生成するために、潜在変数Zから引き出され、様々な組合せで1つまたは複数の所望のラベルy~とペアにされる場合がある。
【実施例15】
【0158】
<比較生成手順における確率変数X~の構築および化合物表現x~のサンプリング>
この例では、確率変数X~を定義し、X~からサンプリングすることによって化合物表現x~を生成するために、実施例10および11において使用されたものと同じ手順が使用される。たとえば:
X~=(N(1.1,0.1),N(-0.2,0.3),・・・,N(1.0,1.0))、
x1~=(1.0,-0.1,・・・,3.0)、
x2~=(1.2,-0.5,・・・,1.8)、
x3~=(1.0,-0.1,・・・,0.5)、および
x4~=(0.9,0.3,・・・,1.1)
である。
【0159】
実施例11に記載された初期生成プロセスでは、確率変数X~は本質的にランダムな潜在的表現および所望のラベルy~のみから作成される。したがって、生成された化合物表現x~によって同定される化合物は、所望のラベルy~の要件に適合する活性および特性を有することのみが予想される。しかしながら、本実施例15では、確率変数X~、したがって化合物表現x~は、指定されたシード化合物xDとその関連ラベルyDの両方から作成される。したがって、本実施例の比較生成手順では、生成された化合物表示x~は、シード化合物xDのいくつかの顕著な側面を保持することと、所望のラベルy~の要件に適合する活性および特性を有することの両方を予想することができる。
【実施例16】
【0160】
<生成された化合物の予測結果の評価およびそれに続くランク付け>
この例では、生成された指紋の予測されたアッセイ結果が、所望のアッセイ結果と比較される。次いで、所望のアッセイ結果と一致する予測結果を有する指紋が、薬物らしさスコアによってランク付けされる。
【0161】
たとえば初期生成または比較生成を介して指紋x~の生成後、x~は訓練された予測子モジュールに入力される。(予測子モジュールは、たとえば、ラベル付きでないデータ用の半教師付き学習プロセス中に訓練されている場合がある)。予測子モジュールは、生成された指紋x~についてのアッセイ結果の予測された集合y^を出力する。
【0162】
予測されたアッセイ結果y^および所望のアッセイ結果y~が比較モジュールに入力される(
図7)。予測結果が所望の結果と同じである場合、x~はランク付けされていない候補の集合Uに追加され、そうでない場合、x~は拒絶される。次いで、ランク付けされていない集合は、たとえば、実施例18に記載されるように、ランク付けモジュールによってランク付けされる。
【実施例17】
【0163】
<比較生成を介して生成された指紋の評価>
この例では、比較生成プロセスを使用して生成された指紋は、シード化合物との類似性、および所望のラベルと類似するラベルを有することについて評価される。上記で例示された比較生成手順では、シードに類似する新規の指紋を生成するためにシード化合物が使用される。指紋が生成されると、生成された指紋がシードと十分に類似しているかどうかを判定するために、さらなる評価ステップが使用される。比較モジュールは、2つの指紋の対応するパラメータを比較するために使用される。同一パラメータのしきい値またはしきい値類似性が達成された場合、2つの指紋は十分に類似しているとマークされる。
【0164】
指紋x~の生成後、シード化合物であるx~とxDの両方が比較モジュールに入力される。x~がxDと十分に類似している場合、x~は保持され、そうでない場合、x~は拒絶される。保持される場合、x~は予測子モジュールに入力され、予測ラベルy^は予測モジュールによって提供される。比較モジュールは、予測ラベルy^を所望のラベルy~と比較するために使用される。予測ラベルy^が所望のラベルy~と十分に類似しているかまたは同じである場合、x~がランク付けされていない候補集合Uに追加される。次いで、ランク付けされた集合Rを出力するために、指紋のランク付けされていない集合がランク付けモジュールによってランク付けされる。
【実施例18】
【0165】
<ランク付けモジュールの訓練およびランク付けモジュールアプリケーション>
この例では、ランク付けモジュールは、生成された表現x~をランク付けするように訓練される。生成された表現は、ランク付けモジュールに入るより前に、比較モジュールなどの他のモジュールによってフィルタリングされている場合がある。この例では、ランク付けモジュールは2つの機能を有する:(1)各指紋に薬物らしさスコアを割り当てること、および(2)それらの薬物らしさスコアに従って指紋の集合をランク付けすること。
【0166】
ランク付けモジュールは、指紋の潜在的表現に基づいて指紋を評価するように構成される。
【0167】
最初に、自動エンコーダは、化合物指紋の大きな集合で訓練される。訓練の後、化合物の潜在的表現を生成するために、自動エンコーダの最初の半分であるLRGが使用される(
図9)。潜在的表現は分類子に入力され、分類子は教師付き学習で訓練される。訓練データセットは、すべてがクラスラベルDrugを有する約2,500のFDA認可薬物と、すべてがラベルNot Drugを有する他の非薬物化合物の大きな集合とを含む。分類子は、化合物の薬物らしさを表す連続スコアを出力する。ランク付けモジュールを適用するために、生成された化合物指紋のランク付けされていない集合のメンバが潜在的表現生成器(LRG)に入力され、次いで、生成された潜在的表現が分類子に入力される。各化合物は、分類子から薬物らしさスコアを受け取る。次いで、化合物は、最高スコアから最低スコアまで順序付けされる。最終的な出力は、候補化合物指紋のランク付けされた集
合である。
【実施例19】
【0168】
<新規の化合物空間を探索するための初期生成および比較生成の逐次適用>
アッセイ結果の特定の集合の場合、それらの結果を満たす新規化合物を生成し、次いで、最初の化合物のまわりの空間において同様の化合物を探索することが望ましい場合がある。この適用の場合、初期生成および比較生成が順番に使用される場合がある。
【0169】
所望のアッセイ結果y~に基づいて、初期生成を使用して指紋x~が生成される(
図11)。これまで知られていなかった化合物を同定するために、比較モジュールは、x~を既知の化合物のデータベースと比較する。x~が既にデータベース内に存在する場合、x~は拒絶される。x~がこれまで知られていなかった化合物である場合、x~は予測されたアッセイ結果y^を生成するために予測子に入力される。
【0170】
次いで、指紋x~およびその予測されたアッセイ結果y^が、比較生成のためのシードとして使用される。新しい指紋x+が、その予測されたアッセイ結果y+とともに、生成される。次いで、比較モジュールは、y+が所望のアッセイ結果y~と同じであるかどうかを判定する。そうである場合、x+は保持され、ランク付けされていない候補の集合に追加される。任意の所望の数の指紋x+は、比較生成の繰り返し適用により、x~およびy^の初期シードから生成される場合がある。
【0171】
所望の数の候補が生成され、ランク付けされていない候補指紋の集合Uとして収集された後、ランク付けされていない集合はランク付けモジュールに入力され、ランク付けモジュールはランク付けされた集合Rを出力する。
【実施例20】
【0172】
<QSAR分析-パートI:特定のアッセイの結果に影響を与える可能性がある化合物特性の同定>
この方法は、特定のアッセイ結果の原因となり得る化合物特性を同定するために使用される。この方法は、候補変態、すなわち特定のアッセイで化合物の性能を変化させる特定の構造特性を同定する方法を提供する。これらは、次いで、一致分子ペア分析(MMPA)のための開始点として使用される場合がある。
【0173】
この例では、2つの初期生成プロセスが並行して実行される。一方では、所望のアッセイ結果y~が陽性シードとして使用される。他方では、反対のアッセイ結果y*が陰性シードとして使用される。y~が単一のバイナリアッセイ結果である場合、陰性シードy*はそのアッセイの反対の結果である。結果として生じる生成された指紋におけるばらつきを低減するために、アッセイ結果のベクトルが陽性シードy~として使用される場合がある。この場合、対象のアッセイの1つのみの結果だけ、y*はy~と異なる。
【0174】
化合物指紋の2つの集合AおよびBが生成される。Aは陽性シードy~から生成された化合物を含み、Bは陰性シードy*から生成された化合物を含む。集合ごとに所望の数のメンバを生成した後、2つの集合は比較モジュールに入力される。比較モジュールは、対象のアッセイ結果における差異の原因となる可能性が最も高い指紋パラメータを識別する。例示的な比較モジュールは、後の例および本明細書の他の箇所でさらに詳細に記載される。
【実施例21】
【0175】
<QSAR分析-パートII:特定の化合物についての所望の結果に関する変態の探索>
この例では、特定のアッセイ結果の原因となり得る特定の化合物における変態を探索するための方法が記載される。この方法では、指紋の2つの集合を生成するために、2つの比較生成プロセスが並行して繰り返し実行される(
図13)。これらのプロセスは同じシード化合物を使用するが、各々ターゲットアッセイ結果の異なる集合、たとえば、y~およびy*が単一のアッセイ結果だけ異なる、陽性ターゲットy~および陰性ターゲットy*を使用する。比較モジュールは、陽性ターゲットで生成された指紋と陰性ターゲットで生成された指紋との間の特定の構造的差異を識別するために使用される。
【0176】
生成された指紋は、最初にシード化合物とのそれらの類似性によって評価される。それらがシード化合物と十分に類似することを比較モジュールが見出した場合、生成された指紋ごとに予測されたアッセイ結果を提供するために予測子が使用される。予測されたアッセイ結果は、それぞれ、対応するターゲットアッセイ結果y~およびy*との類似性または同一性についてチェックされる。
【0177】
比較生成プロセスは、所望の基数を有する候補指紋の2つの集合AおよびBを生成するために必要に応じた回数実行され、Aは陽性ターゲットy~で作成された生成された生成指紋を含み、Bは陰性ターゲットy*で作成された生成された指紋を含む。Aのメンバは、比較モジュールを使用してBのメンバと比較される。比較モジュールは、2つの集合内の均一な構造変態および異なる構造変態を同定するように構成される。次いで、これらの構造変態は、MMPAを介するさらなる分析のための開始点として使用することができる。
【実施例22】
【0178】
<比較モジュール>
この例は、(1)2つのオブジェクト、たとえばアッセイ結果の2つのベクトルまたは2つの指紋が同様または同一であるかどうかを判定すること、および(2)指紋の2つの集合を比較することによって特定のアッセイ結果における変化の原因となる可能性が最も高い指紋パラメータを識別することの2つの機能を有する比較モジュールを記載する。
【0179】
A.類似性に関する2つのオブジェクトの比較
類似性に関する簡単な一対比較では、2つのオブジェクトの対応する要素、たとえば、アッセイ結果の2つのベクトルまたは2つの指紋のいずれかが比較される。2つのオブジェクトが比較に合格するか失敗するかを判定するために、ユーザ指定のしきい値が設定される。
【0180】
2つの指紋を比較するための第2の方法は、潜在的表現生成器(LRG)を使用して、潜在的表現として指紋を符号化する。次いで、潜在的表現の対応する分布が比較され、類似性の判定が行われる。
【0181】
B.重要な化合物変態の同定のためのオブジェクトの集合の比較
指紋の2つの集合を比較するとき、化合物の重要な変態を同定するために、いくつかの方法が使用される。1つの簡単な方法は、線形モデルを使用して重要なパラメータを識別することである。たとえば、パラメータ間の相互作用がアッセイ結果における変化の原因となった可能性に対処するために、相互作用項をモデルに加えることができる。
【0182】
第2の方法はジニ係数の使用を含む。ジニ係数は、指紋のすべての可能なペア間の差の平均を平均サイズで割って計算することにより、パラメータごとに計算される。最大のジニ係数を有するパラメータが、アッセイ結果における変化に関連する可能性が最も高いパラメータとして選択される。
【0183】
この方法の拡張では、分類ツリーが使用される。最大のジニ係数を有するパラメータは、分類ツリーのルートとなるように選択される。分類ツリーの残りは、トップダウン誘導によって学習される。次いで、適切なレベルでツリーの挙動を観察することにより、所望の数の重要なパラメータが識別される。
【0184】
指紋の2つの集合の基数が低い場合、ジニ係数は直接計算される場合がある。場合によっては、AとBとの間の必要な一対比較の数を減らすためにクラスタリング方法が適用される。次いで、AおよびBの重心間の一対比較によってパラメータのジニ係数が計算される。
【実施例23】
【0185】
<k-メドイドクラスタリングを使用するジニ係数の計算>
この例では、比較モジュールは、集合AおよびBの潜在的表現のクラスタを利用するように構成される。最初に、集合AおよびBのメンバを潜在的表現として符号化して、それぞれ、集合ALおよびBLを形成するために、潜在的表現生成器(LRG)が使用される(
図14)。次いで、K-メドイドクラスタリングが、集合A
LおよびB
Lのメンバに適用される。クラスタリングに続いて、潜在的表現の重心集合A
CおよびB
Cを形成するために、クラスタリングされた集合の重心が抽出される。指紋の2つの集合A
FおよびB
Fを形成するために、A
CおよびB
Cのメンバに対応する指紋が検索される。次いで、A
FおよびB
Fのメンバは、アッセイ結果または別のラベル要素値における変化の原因となり得る化合物変態を同定するために使用される。
【実施例24】
【0186】
<k-平均クラスタリングを使用するジニ係数の計算>
この例では、実施例23に記載された方法におけるk-メドイドクラスタリングの代わりにk-平均クラスタリングが使用される。k-メドイド法におけるように、集合AおよびBのメンバが潜在的表現として符号化される。潜在的表現の集合にk-平均クラスタリングが適用される。k-平均クラスタリングの結果である重心は、潜在的表現デコーダモジュール(LRD)を使用して指紋として復号され、それぞれの集合AFおよびBFに保存される。集合AFおよびBFは、ラベルまたはラベル要素値の変化に関連付けられた重要な化合物変態を同定するために使用される。
【0187】
本発明の好ましい実施形態が本明細書に示され記載されたが、そのような実施形態が単なる例として提供されたことが当業者には明らかであろう。当業者は、本発明から逸脱することなく、多数の変形、変更、および置換を思いつくであろう。本明細書に記載された本発明の実施形態に対する様々な代替物が、本発明を実践する際に採用され得ることを理解されたい。以下の特許請求の範囲は本発明の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物は、それらによってカバーされるものとする。